当前位置: 首页 > article >正文

从‘它怎么又挂了’到‘服务真稳’:我是如何用Prometheus+Grafana给自家小项目做监控的

从‘它怎么又挂了’到‘服务真稳’我是如何用PrometheusGrafana给自家小项目做监控的凌晨三点手机突然震动。眯着眼睛看到报警邮件标题API服务响应超时瞬间清醒。这已经是本周第三次了——我的个人博客项目又双叒叕挂了。摸黑爬起来重启服务器时我突然意识到是时候给这些野生项目装上监控系统了。作为独立开发者我们往往更关注功能实现而非运维保障。直到某天发现用户流失严重才惊觉那些未被记录的短暂故障正在持续消耗项目信誉。本文将分享如何用PrometheusGrafana这套零成本方案为中小型项目构建堪比企业级的监控能力。不同于复杂的运维体系这里只关注三个核心目标实时感知状态、快速定位问题、睡眠不被惊醒。1. 为什么小项目更需要监控去年我的天气API项目因为内存泄漏默默崩溃了36小时直到用户投诉才被发现。这个教训让我明白项目规模与监控需求并非线性相关。小型项目往往面临更严峻的挑战资源有限单服务器架构没有冗余任何故障都直接导致服务中断人手不足开发者同时担任运维无法7×24小时人工检查容错率低用户量虽小但每个用户都可能成为关键传播节点传统监控方案如Zabbix对个人项目显得过于沉重。经过对比测试PrometheusGrafana组合展现出独特优势方案学习成本资源占用扩展性可视化能力商业SaaS低无差中等Zabbix高高强弱Prometheus中低极强依赖Grafana自研脚本低低差无提示Prometheus的Pull模型特别适合动态变化的云环境而Grafana的仪表盘可以随时分享给合作者查看2. 十分钟快速搭建监控栈我的硬件配置是一台2核4G的腾讯云轻量服务器月费约34元监控系统与业务共用资源。以下是经过优化的最小化安装方案# 创建专用目录结构 mkdir -p ~/monitoring/{prometheus,grafana} cd ~/monitoring # 下载Prometheus版本选择v2.37.0 LTS wget https://github.com/prometheus/prometheus/releases/download/v2.37.0/prometheus-2.37.0.linux-amd64.tar.gz tar xvf prometheus-*.tar.gz --strip-components1 -C prometheus/ # 配置基础监控目标监控自己 cat prometheus/prometheus.yml EOF global: scrape_interval: 15s scrape_configs: - job_name: prometheus static_configs: - targets: [localhost:9090] - job_name: node static_configs: - targets: [localhost:9100] EOFNode Exporter是采集系统指标的必备组件用以下命令启动docker run -d --name node_exporter \ -p 9100:9100 \ -v /proc:/host/proc \ -v /sys:/host/sys \ -v /:/rootfs \ prom/node-exporter \ --path.procfs/host/proc \ --path.sysfs/host/sys \ --collector.filesystem.ignored-mount-points^/(sys|proc|dev|host|etc)($|/)启动所有服务后访问http://服务器IP:3000即可进入Grafana界面。初始账号密码都是admin首次登录会要求修改。3. 四个必监控的黄金指标在资源受限环境下需要精准选择监控指标。根据Google SRE理论我提炼出小项目监控四大件流量指标HTTP请求率req/s错误率5xx比例关键API响应时间P99资源饱和度CPU负载建议设置1.5 × 核心数告警阈值内存使用率含Swap磁盘空间特别是/var/log错误检测服务进程存活状态数据库连接池等待数日志错误关键词出现频次业务指标用户注册完成率支付成功率内容生成延迟这是我的Node Exporter仪表盘配置片段监控服务器基础健康状态{ panels: [{ title: CPU Usage, type: gauge, targets: [{ expr: 100 - (avg by(instance)(irate(node_cpu_seconds_total{mode\idle\}[5m])) * 100), legendFormat: {{instance}} }], thresholds: { steps: [ { value: null, color: green }, { value: 80, color: red } ] } }] }注意初期不要过度追求指标完备性先确保核心业务链路可观测后续逐步扩展4. 智能告警配置实战收到报警时正在电影院通过以下配置实现分级告警紧急级企业微信电话呼叫服务不可用HTTP探测连续失败3次磁盘空间不足5%剩余重要级企业微信邮件CPU持续满载90%持续5分钟内存溢出风险可用内存100MB提示级仅邮件日志错误率突增业务指标异常波动Alertmanager配置示例route: group_by: [alertname] group_wait: 10s group_interval: 5m repeat_interval: 3h receiver: wechat routes: - match: severity: critical receiver: phone continue: false receivers: - name: wechat webhook_configs: - url: http://wechat-bot/api/send send_resolved: true - name: phone webhook_configs: - url: http://phone-call/api/trigger实际案例某次凌晨数据库连接池耗尽触发以下告警流程00:05 Prometheus检测到pg_active_connections 90%00:06 Alertmanager发送企业微信通知00:10 未收到确认自动拨打电话00:12 我通过手机登录服务器发现是慢查询导致00:15 终止问题查询并优化索引5. 可视化技巧让数据讲故事的仪表盘好的仪表盘应该像汽车仪表盘——扫一眼就能掌握全局状态。我的Grafana布局原则首屏三要素服务整体健康状态红绿灯式指示器当前异常事件列表按优先级排序核心业务指标趋势图色彩心理学应用红色只用于需要立即干预的指标黄色表示需要关注的潜在问题绿色区域保持低饱和度避免干扰进阶技巧是使用Grafana的Annotations功能标记关键事件-- 将部署记录与监控数据关联 INSERT INTO grafana_annotations (text, tags, time) VALUES (v1.2部署, [deploy], NOW());这样在查看性能图表时能清晰看到代码变更与指标波动的对应关系。6. 成本优化每月省下一杯咖啡的技巧监控系统本身也可能成为资源黑洞这是我的省钱实践存储优化调整Prometheus保留期为15天默认15d# prometheus.yml storage: tsdb: retention: 15d对非核心指标降采样# recording rule - record: job:http_inprogress_requests:sum_rate5m expr: sum(rate(http_inprogress_requests[5m])) by(job)计算优化使用Recording Rules预计算常用指标限制PromQL查询时间范围网络优化对Exporter启用压缩docker run -e WEB_ENABLE_LIFE_CYCLE --web.enable-lifecycle -p 9090:9090 prom/prometheus经过优化完整监控栈的资源占用降至CPU: 3%内存: ~500MB磁盘: 2GB/月增长7. 从监控到可观测性的进化基础监控稳定运行三个月后我开始向可观测性体系进阶链路追踪用Jaeger记录关键请求全链路日志关联Loki实现日志与指标的联动查询合成监控Blackbox对关键流程定期拨测这个演进过程就像给项目装上CT机——不仅知道病了还能精准定位病灶。某次用户反馈支付失败通过以下排查流程快速定位问题Grafana显示支付成功率从99.8%降至95%查询关联日志发现第三方API返回Invalid TokenJaeger显示认证服务响应时间从50ms暴涨至2s最终发现是证书更新脚本未正确处理时区现在我的手机已经三个月没在深夜响过了。更意外的是有了这些数据支撑在向潜在客户展示项目可靠性时不再需要空洞的承诺而是可以自信地说过去90天我们的API可用率是99.96%平均响应时间87ms。

相关文章:

从‘它怎么又挂了’到‘服务真稳’:我是如何用Prometheus+Grafana给自家小项目做监控的

从‘它怎么又挂了’到‘服务真稳’:我是如何用PrometheusGrafana给自家小项目做监控的 凌晨三点,手机突然震动。眯着眼睛看到报警邮件标题"API服务响应超时",瞬间清醒。这已经是本周第三次了——我的个人博客项目又双叒叕挂了。摸黑…...

从“无可用软件包”到成功编译:一次Devtoolset-9-GCC-C++的完整排障实录

1. 当GCC版本过低遇上llama.cpp编译失败 那天我正在尝试用llama.cpp对模型进行量化处理,结果刚执行make命令就碰上了"stdatomic.h:没有那个文件或目录"的错误提示。这个报错信息对于有经验的开发者来说,就像看到"低油量警告灯…...

量子机器学习算法的原理与经典模拟实现

量子机器学习:原理与经典模拟实现 量子机器学习(QML)是量子计算与经典机器学习的交叉领域,其核心思想是利用量子态的叠加、纠缠等特性,加速数据处理与模型训练。尽管量子硬件尚未成熟,但通过经典计算机模拟…...

EM32DX-E4 IO扩展模块实战:从寄存器配置到输入输出控制(附代码示例)

EM32DX-E4 IO扩展模块实战:从寄存器配置到输入输出控制 在工业自动化领域,IO扩展模块如同神经末梢,将控制系统的指令精准传递到每个执行单元。EM32DX-E4作为一款高性能的数字量输入输出扩展模块,其寄存器级的编程能力让工程师能够…...

从ADC/SBB指令看汇编语言中的多精度运算:如何利用标志位实现大数加减

从ADC/SBB指令看汇编语言中的多精度运算:如何利用标志位实现大数加减 在嵌入式系统和底层开发中,处理超过CPU字长的数值运算是一个常见挑战。当我们需要计算256位加密密钥或高精度科学计算时,单条指令的运算能力就显得捉襟见肘。这时&#xf…...

别再死记硬背了!用STM32软件模拟IIC,手把手教你选对GPIO模式(推挽vs开漏)

别再死记硬背了!用STM32软件模拟IIC,手把手教你选对GPIO模式(推挽vs开漏) 刚接触STM32的开发者常常会遇到一个困惑:在软件模拟IIC通信时,GPIO到底该配置为推挽输出还是开漏输出?网上各种教程说法…...

从SYSTICK到ADC:给STM32F1/F0系列MCU的三种随机数生成方案实测与避坑指南

STM32F1/F0随机数生成实战:三种方案深度评测与工程化选择 在嵌入式开发中,随机数生成是个看似简单却暗藏玄机的基础功能。当我们需要为STM32F1/F0这类中低端MCU设计设备序列号、加密密钥或游戏逻辑时,如何在没有硬件随机数发生器(RNG)的情况下…...

JS逆向实战 - 数美滑块验证码的协议破解与自动化对抗

1. 数美滑块验证码的协议层对抗全景 第一次遇到数美滑块验证码是在某次数据采集项目中,当时连续触发滑块导致采集中断,我才意识到这个看似简单的拼图背后藏着复杂的协议体系。数美验证码的核心防御机制建立在完整的请求-响应协议链上,从初始化…...

英飞凌TC27x电机控制:手把手教你配置DSADC时间戳(附10K开关频率验证方法)

英飞凌TC27x电机控制实战:DSADC时间戳配置与10K开关频率验证全解析 在电机控制领域,时间同步精度直接决定了矢量控制(FOC)的性能上限。对于使用英飞凌TC27x系列芯片的工程师而言,DSADC模块的时间戳功能是实现电流采样与旋变信号同步的关键技术…...

Qwen1.5-0.5B-Chat和ChatGLM3-6B对比:轻量模型在边缘设备部署案例

Qwen1.5-0.5B-Chat和ChatGLM3-6B对比:轻量模型在边缘设备部署案例 1. 项目背景与需求 在边缘计算场景中,部署AI模型面临着严峻的资源约束挑战。传统的云端大模型虽然能力强大,但在边缘设备上往往因为计算资源、内存容量和功耗限制而难以实用…...

保姆级教程:在Ubuntu 20.04上从源码编译安装FreeSWITCH 1.10.3(附systemd服务配置)

深度实战:Ubuntu 20.04源码编译FreeSWITCH全流程与系统集成指南 FreeSWITCH作为企业级通信平台的核心引擎,其源码编译安装往往让开发者又爱又恨——既能获得完全可控的运行环境,又不得不面对复杂的依赖链和编译陷阱。本文将彻底拆解从Ubuntu …...

均值滤波在图像去噪中的应用:原理与实践

1. 均值滤波:图像去噪的"温柔一刀" 第一次接触图像去噪时,我被各种复杂的算法搞得晕头转向。直到遇到均值滤波,才发现原来最简单的算法往往最实用。就像用橡皮擦轻轻擦拭素描画上的污点,均值滤波用最直接的方式帮我们还…...

SiameseUIE惊艳案例:苏轼+黄州单实体精准匹配效果演示

SiameseUIE惊艳案例:苏轼黄州单实体精准匹配效果演示 获取更多AI镜像 想探索更多AI镜像和应用场景?访问 CSDN星图镜像广场,提供丰富的预置镜像,覆盖大模型推理、图像生成、视频生成、模型微调等多个领域,支持一键部署。…...

Sunshine游戏串流实战手册:打造你的私人云端游戏厅

Sunshine游戏串流实战手册:打造你的私人云端游戏厅 【免费下载链接】Sunshine Self-hosted game stream host for Moonlight. 项目地址: https://gitcode.com/GitHub_Trending/su/Sunshine 你是否曾经想过,躺在沙发上用平板玩电脑游戏&#xff0c…...

Fan Control终极指南:Windows电脑风扇控制软件完全配置教程

Fan Control终极指南:Windows电脑风扇控制软件完全配置教程 【免费下载链接】FanControl.Releases This is the release repository for Fan Control, a highly customizable fan controlling software for Windows. 项目地址: https://gitcode.com/GitHub_Trendi…...

Matlab绘图避坑:你的对数坐标轴标签和刻度设置对了吗?(附完整代码)

Matlab对数坐标轴进阶指南:从基础绘制到出版级图表优化 第一次用Matlab绘制对数坐标轴时,我盯着默认生成的10^0、10^1标签陷入了沉思——这种格式在学术论文中显得过于"工程化",而导师要求的是简洁的数字标注。更糟的是&#xff0c…...

告别仿真玩具:用HighD、NGSIM等真实车辆轨迹数据集,给你的自动驾驶模型“喂”点硬核数据

自动驾驶研究者的数据宝库:五大真实轨迹数据集深度评测 在自动驾驶技术快速迭代的今天,算法模型对高质量训练数据的渴求从未如此强烈。仿真环境生成的完美数据往往缺乏真实世界的复杂性和不确定性,这就像用实验室培养的"无菌小鼠"去…...

GELU激活函数:为什么它正在取代ReLU成为深度学习的新宠?

1. GELU激活函数:从数学原理到实际价值 第一次听说GELU激活函数时,我和大多数人的反应一样:为什么要在ReLU已经如此成功的情况下,引入这个看起来更复杂的替代品?直到在BERT模型的源码中看到它的身影,才意识…...

从零开始:Linux云服务器部署若依前后端分离项目实战指南

1. 环境准备:搭建你的Linux云服务器 第一次在Linux服务器上部署前后端分离项目时,我像个无头苍蝇一样折腾了整整三天。现在回想起来,如果当时有人能给我一份完整的准备工作清单,至少能节省70%的时间。下面是我用血泪教训总结出来的…...

TI C2000 DSP2837xD双核开发避坑指南:手把手配置IPC通信与共享内存

DSP2837xD双核开发实战:从零构建稳定IPC通信系统的关键技巧 第一次接触TI C2000双核DSP时,面对2837xD芯片的IPC通信配置,大多数工程师都会经历从兴奋到困惑再到豁然开朗的过程。作为实时控制领域的核心处理器,DSP2837xD凭借其双C…...

为什么92%的AI团队还在为多模态推理支付“智商税”?——4个被忽视的硬件-算法协同优化盲区

第一章:多模态大模型推理成本优化的底层悖论 2026奇点智能技术大会(https://ml-summit.org) 当视觉编码器与语言解码器被强行对齐于统一上下文窗口,推理延迟与显存占用便不再遵循线性叠加规律——而是在跨模态注意力层中爆发非线性耦合。这种耦合使得“…...

手机里的高速数据通道:一文搞懂M-PHY LANE在UFS存储中的关键作用

手机里的高速数据通道:一文搞懂M-PHY LANE在UFS存储中的关键作用 当你用手机拍摄4K视频时,是否想过每秒数百兆的数据如何瞬间存入闪存?打开大型游戏时,为何某些设备加载速度能快人一步?这背后隐藏着名为M-PHY LANE的&q…...

HuggingFace跑模型报错ValueError?一个pip install sentencepiece就能搞定,附完整排查思路

HuggingFace模型报错排查指南:从Tiktoken到SentencePiece的深度解析 遇到HuggingFace模型报错时,那种"明明代码没问题却跑不通"的挫败感,相信每个开发者都深有体会。最近在运行Llama、Qwen等大语言模型时,不少用户反馈遇…...

紧急预警:2024年Q3起,Llama-3-Vision、Qwen-VL等主流开源多模态模型在边缘设备运行时功耗超标率达68%——3套轻量化迁移方案限时公开

第一章:多模态大模型能耗优化策略 2026奇点智能技术大会(https://ml-summit.org) 多模态大模型(如Flamingo、KOSMOS-2、Qwen-VL)在图像理解、跨模态推理等任务中展现出强大能力,但其训练与推理阶段的能源消耗显著高于单模态模型…...

【多模态大模型增量学习实战指南】:20年AI架构师亲授3类工业级避坑策略与5步可落地训练框架

第一章:多模态大模型增量学习的核心挑战与范式演进 2026奇点智能技术大会(https://ml-summit.org) 多模态大模型在持续接收图像、文本、音频等异构数据流时,面临灾难性遗忘、模态偏置漂移与跨任务知识冲突等结构性瓶颈。传统微调范式难以兼顾参数效率与…...

从零搭建多模态模型并行训练框架:PyTorch+FSDP+DeepSpeed+Colossal-AI四体联动,7天交付可复现Pipeline

第一章:多模态大模型模型并行训练的挑战与范式演进 2026奇点智能技术大会(https://ml-summit.org) 多模态大模型(如Flamingo、Kosmos-2、Qwen-VL、LLaVA-1.5)在统一架构下协同处理文本、图像、音频乃至视频信号,其参数量常突破百…...

Vue3 Composition API 陷阱全解析

Vue3 Composition API 陷阱全解析 一、引言:别被Composition API的花架子迷惑 "Vue3的Composition API真好用!"——我相信这是很多前端开发者刚接触Composition API时的第一反应。 但等你真正用起来,就会发现:"这T…...

Makerbase Davega V1.1深度玩法:除了看速度,还能怎么玩转它的按键与GPS功能?

Makerbase Davega V1.1深度玩法:解锁按键组合与GPS的隐藏价值 当你第一次拿到Makerbase Davega V1.1显示模块时,可能只把它当作一个简单的速度表——显示当前时速、记录行驶里程。但这款小巧的设备实际上藏着许多未被充分发掘的潜力。对于已经熟悉基础设…...

优化问题避坑指南:为什么你的拉格朗日对偶函数求不出解?常见误区与调试技巧

优化问题避坑指南:为什么你的拉格朗日对偶函数求不出解?常见误区与调试技巧 在解决带约束的优化问题时,拉格朗日对偶性理论提供了一种优雅的数学框架。然而,许多学习者在从理论转向实践的过程中,常常在对偶函数的构建与…...

如何为角色赋予对象权限_简化同类用户的多表授权管理

PostgreSQL中批量授权最稳妥方式是GRANT ON ALL TABLES/SEQUENCES/FUNCTIONS配合ALTER DEFAULT PRIVILEGES,且须以schema owner身份执行,默认权限不自动跨schema生效。PostgreSQL 中用 GRANT ... ON ALL TABLES IN SCHEMA 批量授权给角色直接对角色批量授…...