当前位置: 首页 > article >正文

MySQL 性能监控实战:从零搭建 Prometheus + Grafana 监控告警体系(附排查 SOP)

今日关键词性能监控、PMM、Prometheus、Grafana、慢查询、告警、指标体系大家好我是数据库小学妹前面我们学习了锁机制、MVCC、慢查询诊断这些事后分析的技术。但你知道“数据库目前处于什么状态QPS 多少Buffer Pool 命中率是什么水平吗”听到QPS、命中率这些词是不是很懵所以SQL写得好是一回事知道数据库在跑什么状态是另一回事。今天把我从零学监控的经历整理出来新手也能从零搭建。一、为什么需要监控先讲一个案例某平台电商大促系统突然变慢。开发找运维运维找 DBADBA 说等我连上去看看。这一套流程走了 15 分钟用户已经跑到竞品下单了。如果有一套监控慢查询超过阈值就自动告警早在用户察觉之前就能介入。监控能帮你做什么目的具体场景实时感知QPS 突然掉底、连接数打满立刻知道故障预警Buffer Pool 命中率下降提前扩容排障加速出问题时不用我觉得慢了直接看指标容量规划过去三个月 QPS 趋势决定什么时候扩容数据这东西不会说谎。嘴上说不慢没用监控图表才说了算。二、监控的五维指标体系搞监控第一件事不是选工具而是搞清楚该看什么。我把 MySQL 的核心指标分成五个维度 维度 1资源使用指标含义告警阈值参考CPU 使用率MySQL 进程 CPU 占用 80% 持续 5 分钟内存使用InnoDB Buffer Pool 占用实际使用 可用内存 90%磁盘 IO每秒读写次数 IOPS写 IO 延迟 20ms磁盘空间数据目录可用空间 20%网络吞吐每秒收发流量接近带宽上限这些指标别在 MySQL 里查用系统命令更快# CPUtop-p$(pgrep mysqld)-n1# 内存free-h# 磁盘 IOiostat-x13# 磁盘空间df-h/var/lib/mysql 维度 2连接与线程-- 当前连接数 vs 最大连接数SHOWVARIABLESLIKEmax_connections;SHOWSTATUSLIKEThreads_connected;-- 查看连接来源和状态SELECTuser,host,db,command,time,stateFROMinformation_schema.processlistWHEREcommand!SleepORDERBYtimeDESC;连接池满了最常见的问题——用户报无法连接数据库大概率是连接数被打满。 维度 3查询性能-- QPS 近似计算两次查询间隔内的差值SHOWSTATUSLIKEQuestions;SHOWSTATUSLIKEUptime;-- 慢查询数量SHOWSTATUSLIKESlow_queries;-- 全表扫描次数SHOWSTATUSLIKESelect_scan;关注三个关键指标QPS 突降→ 可能有锁等待Slow_queries 飙升→ SQL 性能退化或缺少索引Select_scan 增长→ 全表扫描增多 维度 4InnoDB 引擎-- Buffer Pool 命中率核心指标SHOWSTATUSLIKEInnodb_buffer_pool_read%;-- 公式1 - (Innodb_buffer_pool_reads / Innodb_buffer_pool_read_requests) × 100%-- 目标 99%-- 行锁等待SHOWSTATUSLIKEInnodb_row_lock_waits;SHOWSTATUSLIKEInnodb_row_lock_time;-- 脏页比例SHOWSTATUSLIKEInnodb_buffer_pool_pages%;Buffer Pool 命中率是我最关注的指标之一。低于 98% 说明内存不够用了该扩了。 维度 5主从同步SHOWSLAVESTATUS\G-- 关注两个字段-- Seconds_Behind_Master延迟-- Slave_IO_Running / Slave_SQL_Running必须都是 Yes三、三层工具选型 新手级PMMPercona Monitoring and ManagementPMM 是 Percona 开源的监控平台基于 Prometheus Grafana开箱即用。安装docker 一把梭# 拉取 PMM Serverdockerrun-d-p80:80-p443:443\--namepmm-server\percona/pmm-server:2# 在 MySQL 机器上安装 PMM Clientyuminstallpmm2-client# 或apt-getinstallpmm2-client# 注册客户端到服务端pmm-admin config --server-insecure-tls --server-urlhttps://admin:adminpmm-server-ip然后刷浏览器打开 PMM 面板你会看到一个详细的仪表盘——QPS、连接数、Buffer Pool 命中率、慢查询趋势全在里面。 进阶级搭建你自己的 Grafana 面板PMM 好用但如果你已经有 Prometheus 体系自己搭一套更灵活。架构MySQL → mysqld_exporter → Prometheus → Grafana步骤 1安装 mysqld_exporter# 创建监控用户CREATEUSERexporter%IDENTIFIED BYpassword;GRANT PROCESS, REPLICATION CLIENT, SELECT ON *.* TOexporter%;# 安装运行wgethttps://github.com/prometheus/mysqld_exporter/releases/latest ./mysqld_exporter--mysqld.usernameexporter--mysqld.passwordpassword步骤 2Prometheus 配置# prometheus.yml-job_name:mysqlstatic_configs:-targets:[your-mysql-host:9104]步骤 3Grafana 仪表盘Grafana 有现成的 MySQL 仪表盘模板Dashboard ID: 7362MySQL OverviewDashboard ID: 9623MySQL InnoDB Metrics导入就能用不用从零画图。 兜底级纯 SQL 脚本不是所有环境都能装监控工具。开发环境、内网测试库有时候只能自己跑 SQL 看-- 一键快照脚本适合做定时任务SELECTNOW()ASsnapshot_time;SELECT--- QPS ---ASindicator;SELECTROUND(QUESTIONS/UPTIME,2)CURRENT_QPS,ROUND(QUESTIONS/UPTIME,2)AVG_QPSFROM(SELECTVARIABLE_VALUEASQUESTIONSFROMperformance_schema.global_statusWHEREVARIABLE_NAMEQuestions)q,(SELECTVARIABLE_VALUEASUPTIMEFROMperformance_schema.global_statusWHEREVARIABLE_NAMEUptime)u;SELECT--- Buffer Pool 命中率 ---ASindicator;SELECTCONCAT(ROUND((1-reads/requests)*100,2),%)ASbuffer_hit_rateFROM(SELECT(SELECTVARIABLE_VALUEFROMperformance_schema.global_statusWHEREVARIABLE_NAMEInnodb_buffer_pool_reads)ASreads,(SELECTVARIABLE_VALUEFROMperformance_schema.global_statusWHEREVARIABLE_NAMEInnodb_buffer_pool_read_requests)ASrequests)t;SELECT--- 连接数 ---ASindicator;SELECT(SELECTVARIABLE_VALUEFROMperformance_schema.global_statusWHEREVARIABLE_NAMEThreads_connected)AScurrent,(SELECTVARIABLE_VALUEFROMperformance_schema.global_variablesWHEREVARIABLE_NAMEmax_connections)ASmax;放到 crontab 里每 5 分钟跑一次输出到文件自己整理看趋势。四、告警规则怎么设有监控没告警等于闭着眼睛开车。生产环境最必要的几条告警告警项条件级别连接数过多当前连接 最大连接 × 0.8P1紧急慢查询骤增5 分钟内慢查询 50P2重要Buffer Pool 命中率下降 95% 持续 10 分钟P2重要磁盘空间不足 10% 可用P1紧急主从延迟 10 秒持续 5 分钟P2重要QPS 突降下降 50% 持续 3 分钟P1紧急告警通知渠道P1→ 短信 电话 IM 群通知P2→ IM 群通知 邮件别把所有告警都设成 P1不然会被狼来了效应淹没。五、监控实战 checklist这是我学监控的计划按这个顺序来对新手友好Phase 1先看第 1 周# 每天跑一遍感受数据库的脉搏SHOW STATUS;SHOW ENGINE INNODB STATUS\G SHOW PROCESSLIST;不用监控工具每天手动跑几次这些命令感受一下 QPS、连接数、慢查询的变化。先建立手感。Phase 2再看第 2-3 周安装 PMM导入默认仪表盘学会看 QPS 趋势图、慢查询列表每天看一眼 Buffer Pool 命中率Phase 3会报警第 4 周配置连接数告警P1配置慢查询告警P2确认告警通道畅通Phase 4能排障持续梳理常见性能问题的监控排查路径把排查经验写成 SOP六、我的排查 SOP三步定位法当告警响起按这三步来第一步全局扫一眼QPS ↓ 50% → 继续 ↓ 连接数 ↑ 300% → 连接池打满 → 可能是慢查询导致连接堆积 慢查询 ↑ 10x → 确认有慢查询 → 进入第二步第二步定位慢查询元凶-- 查当前正在跑的慢 SQLSELECTtrx_mysql_thread_idASthread_id,trx_queryAScurrent_sql,TIMESTAMPDIFF(SECOND,trx_started,NOW())ASrunning_secondsFROMinformation_schema.innodb_trxWHEREtrx_stateRUNNINGORDERBYrunning_secondsDESC;-- 或者从慢查询日志查历史-- 先确认慢查询日志是否开启SHOWVARIABLESLIKEslow_query_log;-- 分析最近 50 条慢查询mysqldumpslow-t50/var/lib/mysql/slow.log第三步分析慢查询用 EXPLAIN 看执行计划这个我们之前的文章详细讲过定位是全表扫描还是索引没走对。这套流程在大促值班时用过一次凌晨 2 点 QPS 掉底告警顺着三步走3 分钟定位到一个缓存过期导致的 full join扩容后恢复正常。七、今日学习心得监控不是装完工具就完事指标体系设计比工具重要五个维度资源/连接/查询/引擎/主从覆盖 90% 的性能问题PMM 适合新手快速上手Prometheus Grafana 适合有基础的自己定制告警要分级别把 P2 的事设成 P1先建立手感再上工具——顺序很重要 我是数据库小学妹一个用设计师思维学数据库的转行人。我们一起用监控让数据库问题早发现、早解决本文示例基于 MySQL 8.0 InnoDB。不同环境配置可能有差异请结合实际调整。

相关文章:

MySQL 性能监控实战:从零搭建 Prometheus + Grafana 监控告警体系(附排查 SOP)

📌 今日关键词:性能监控、PMM、Prometheus、Grafana、慢查询、告警、指标体系 大家好,我是数据库小学妹 👋 前面我们学习了锁机制、MVCC、慢查询诊断这些"事后分析"的技术。但你知道“数据库目前处于什么状态&#xff1…...

借助AI写教材,低查重实现,轻松打造符合需求的教材!

教材编写的挑战与AI工具解决方案 在教材编写的过程中,如何平衡原创性与合规性是一个重要的挑战。借鉴优秀教材的知识内容时,常常会担心重复率过高;而自己独立表述知识点,又得顾虑逻辑不严密、内容不准确等问题。引用他人研究成果…...

Oracle替代之路:企业去O过程中常见的坑与避坑指南

📌 关键词:Oracle替代、国产数据库、去O、数据库迁移、信创、兼容性、高可用大家好!我是数据库小学妹 👋 最近发现一个有意思的现象:不管是金融、运营商还是政务单位,聊到数据库规划,三句话不离…...

AI教材编写攻略:低查重AI工具实测,轻松生成25万字优质教材!

AI教材写作工具助力教学资源创作 在撰写教材的过程中,资料的支持是必不可少的,但传统的资料整合方式已经无法满足当前的需求。以前,我们需要从各个渠道,比如课标文件、学术文章和教学实例,去花费几天时间筛选出有价值…...

如何通过精细风扇控制优化Windows电脑的散热与静音体验

如何通过精细风扇控制优化Windows电脑的散热与静音体验 【免费下载链接】FanControl.Releases This is the release repository for Fan Control, a highly customizable fan controlling software for Windows. 项目地址: https://gitcode.com/GitHub_Trending/fa/FanContro…...

DataRoom开源大屏设计器:零代码打造专业数据可视化大屏的终极指南

DataRoom开源大屏设计器:零代码打造专业数据可视化大屏的终极指南 【免费下载链接】DataRoom 🔥基于SpringBoot、MyBatisPlus、ElementUI、G2Plot、Echarts等技术栈的大屏设计器,具备目录管理、DashBoard设计、预览能力,支持MySQL…...

如何快速上手Udeler:新手必看的完整Udemy课程下载指南

如何快速上手Udeler:新手必看的完整Udemy课程下载指南 【免费下载链接】udemy-downloader-gui A desktop application for downloading Udemy Courses 项目地址: https://gitcode.com/gh_mirrors/ud/udemy-downloader-gui 想要随时随地学习你购买的Udemy课程…...

东南大学论文模板终极指南:8倍效率完成毕业论文格式排版

东南大学论文模板终极指南:8倍效率完成毕业论文格式排版 【免费下载链接】SEUThesis 东南大学论文模板 项目地址: https://gitcode.com/gh_mirrors/seu/SEUThesis 东南大学论文模板(SEUThesis)是东南大学官方验证的学术论文格式解决方…...

跨境商城反向海淘系统开发全流程逻辑(上)

「技术、数据、接口、系统问题欢迎留言私信沟通」跨境商城开发不同于普通国内商城,核心逻辑是“合规适配功能闭环多场景兼容”,不仅要实现商品展示、下单支付等基础功能,更要兼顾不同国家的法律法规、文化差异、支付物流适配等核心痛点。本文…...

观察Taotoken在多模型聚合调用时的路由与容错表现

🚀 告别海外账号与网络限制!稳定直连全球优质大模型,限时半价接入中。 👉 点击领取海量免费额度 观察Taotoken在多模型聚合调用时的路由与容错表现 在构建依赖大模型能力的应用时,服务的稳定性是开发者关心的核心问题…...

程序员35岁以后最好的投资:不是买房,是这3样东西

当“35岁红线”撞上测试人的职业围城如果你在某个深夜刷到“程序员35岁以后该何去何从”的帖子时,心底划过一丝隐痛,那你绝不是一个人。而对于软件测试从业者而言,这种焦虑往往被放大得更加具体——当“点点点”的手工测试逐渐被自动化替代&a…...

解决RTL8821CU无线网卡在Linux下的3大痛点:从识别到稳定连接的全攻略

解决RTL8821CU无线网卡在Linux下的3大痛点:从识别到稳定连接的全攻略 【免费下载链接】rtl8821CU Realtek RTL8811CU/RTL8821CU USB Wi-Fi adapter driver for Linux 项目地址: https://gitcode.com/gh_mirrors/rt/rtl8821CU 你是否曾经在Linux系统上连接RTL…...

贡献指南 | 参与 Harmonybrew 开源社区共建规范

贡献指南 | 参与 Harmonybrew 开源社区共建规范 欢迎大家加入鸿蒙PC社区 Harmonybrew 是面向 OpenHarmony/鸿蒙系统的 Homebrew 移植开源项目,依托多仓库协作模式,实现包管理器适配、软件包移植、工具适配、文档维护等全链路能力。为规范社区贡献流程、…...

ubuntu 播放器 播放此文件需要H.264(high profile)解码器,但是没有安装

解决方法: sudo apt install gstreamer1.0-plugins-bad gstreamer1.0-libav...

18 CLIP 论文精读:ViT 如何走向图文多模态?(Learning Transferable Visual Models From Natural Language Supervision)

在前几篇文章中,我们围绕 ViT 的自监督预训练路线进行了连续梳理。MAE 的核心思想是:遮住大部分图像 patch,让模型重建被遮挡区域的像素。BEiT 的核心思想是:先用视觉 tokenizer 把图像转换成离散 visual token,再让模…...

【ChatGPT×Slack企业级整合实战指南】:20年SRE亲授零代码接入、权限治理与合规审计全流程

更多请点击: https://kaifayun.com 第一章:ChatGPTSlack企业级整合的战略价值与落地全景 将ChatGPT深度集成至Slack平台,已从技术实验演进为驱动组织协同效能跃迁的核心基础设施。该整合并非简单Bot接入,而是通过语义理解、上下文…...

面试必问:RAG准确率提升实战:从60%到85%的全链路优化

✅ 面试官您好,关于如何将 RAG 系统的准确率从 60% 提升到 85%,我认为这不是一个简单的调参问题,而是一场贯穿数据、检索、生成、评估全链路的系统性工程。我通常会按照“诊断 → 优化 → 验证”三步走策略来推进,具体如下&#x…...

AI教材生成秘籍!AI写教材工具助力,快速产出低查重优质教材!

2026年AI教材编写工具:解决教材创作难题 整理教材中的知识要点可谓是一项“精细的工作”,这其中的挑战在于如何平衡和衔接这些知识点。我们经常会为核心知识点的遗漏而烦恼,同时也很难掌握难度的梯度——小学教材可能写得过于复杂&#xff0…...

SNK施努卡铜箔包装线:从拔轴到入库,全流程自动化怎么实现?

在锂电铜箔生产中,生箔机产出的铜箔卷需要经过裁切、拔轴、包装、入库等多个环节。传统方式下,拔轴依靠人力或简易机械,包装过程需要多人配合搬运、开箱、投干燥剂、合盖捆扎,不仅效率低,而且容易损伤铜箔边缘&#xf…...

5分钟搞定Windows桌面整理:免费开源的NoFences终极指南

5分钟搞定Windows桌面整理:免费开源的NoFences终极指南 【免费下载链接】NoFences 🚧 Open Source Stardock Fences alternative 项目地址: https://gitcode.com/gh_mirrors/no/NoFences 还在为杂乱的Windows桌面图标而烦恼吗?每次寻找…...

5分钟快速激活Cursor Pro:突破AI编程助手的终极破解方案

5分钟快速激活Cursor Pro:突破AI编程助手的终极破解方案 【免费下载链接】cursor-free-vip [Support 0.45](Multi Language 多语言)自动注册 Cursor Ai ,自动重置机器ID , 免费升级使用Pro 功能: Youve reached your t…...

3.2 系统是能力的容器,不是能力的创造者

系列文章:《组织基因、利益格局与系统驱动——数字化变革的底层逻辑》 上一节我们讲了公司花了不少钱做研发,但系统最后用成了工具。这一节,我们来回答一个更根本的问题:系统到底是什么? 很多人对系统有一个误解&…...

收藏!大模型算法工程师11个方向及2026年前景深度解析(小白程序员进阶必看)

本文深度剖析大模型算法工程师的11个核心方向,包括推理训练、Agentic Search、Agent/Tool Use等,并按梯队划分其发展前景。重点分析了各方向的技术难点与未来趋势,如开放域推理奖励设计、长链路推理稳定性、多模态后训练等。文章强调RL训练能…...

四通道16孔非洲猪瘟检测仪:荧光定量+多通道并行

四通道16孔非洲猪瘟检测仪设备采用实时荧光定量PCR变温检测原理,通过精准温控循环实现目标核酸特异性扩增,实时动态监测荧光信号变化,自动完成信号采集、数据运算、曲线分析、结果判定。可精准完成待检测样本中目标核酸的快速、准确定性与定量…...

ANI-RSS自定义扩展技术深度解析:架构设计与高级定制方案

ANI-RSS自定义扩展技术深度解析:架构设计与高级定制方案 【免费下载链接】ani-rss 基于RSS自动追番、订阅、下载、刮削、洗版 项目地址: https://gitcode.com/gh_mirrors/an/ani-rss ANI-RSS作为一款基于RSS的自动化追番解决方案,其技术架构提供了…...

3分钟快速上手:R3nzSkin国服换肤神器完全指南

3分钟快速上手:R3nzSkin国服换肤神器完全指南 【免费下载链接】R3nzSkin-For-China-Server Skin changer for League of Legends (LOL) 项目地址: https://gitcode.com/gh_mirrors/r3/R3nzSkin-For-China-Server 还在为英雄联盟国服皮肤价格昂贵而烦恼吗&…...

为什么你的Veo 4K输出只有2K质量?深度拆解Veo 2.3引擎中的3层分辨率欺骗机制与绕过方案

更多请点击: https://codechina.net 第一章:Veo 4K输出质量失真的现象确认与基准测试 近期多位专业视频工程师反馈,Veo系列编码器在启用4K60fps高码率输出时,出现肉眼可辨的色度抽样偏移、边缘锐度衰减及动态场景下的块效应增强。…...

Layerdivider:AI智能分层工具完整指南 - 快速将单张图片转为分层PSD

Layerdivider:AI智能分层工具完整指南 - 快速将单张图片转为分层PSD 【免费下载链接】layerdivider A tool to divide a single illustration into a layered structure. 项目地址: https://gitcode.com/gh_mirrors/la/layerdivider Layerdivider是一个革命性…...

UEFITOOL 0.28:开源UEFI固件解析与修改的终极指南

UEFITOOL 0.28:开源UEFI固件解析与修改的终极指南 【免费下载链接】UEFITOOL28 项目地址: https://gitcode.com/gh_mirrors/ue/UEFITOOL28 你是否曾经好奇计算机启动时BIOS固件内部究竟发生了什么?或者需要修改固件却无从下手?UEFITO…...

2026终极测评:16款降AIGC工具横评,论文降重降ai率终极答案!

随着AI写作技术的迅猛发展,越来越多的学术创作者开始依赖各类生成工具提升效率。然而,2026年各大高校与科研机构对AIGC内容的检测标准愈发严格,论文中的一丝AI痕迹都可能成为被质疑的导火索。面对日益严峻的查重与AIGC检测压力,如…...