当前位置: 首页 > article >正文

从‘它又挂了’到‘稳如老狗’:我是如何用Prometheus+Grafana给自家小破站做监控的

从“它又挂了”到“稳如老狗”我是如何用PrometheusGrafana给自家小破站做监控的凌晨三点手机突然响起钉钉告警——这已经是本周第三次被“502 Bad Gateway”的提示音吵醒。揉着惺忪睡眼重启Nginx时我突然意识到这个用业余时间维护的个人博客正在消耗远超预期的精力。如果你也经历过服务器突然崩溃却找不到原因、或是流量小高峰时手忙脚乱调整配置的窘境这套用PrometheusGrafana搭建的轻量监控方案或许能让你和我一样告别“救火队员”的角色。1. 为什么个人项目更需要监控很多人认为监控是企业级应用的专利直到某天发现隐性故障数据库连接池悄悄耗尽用户看到的是“偶尔抽风”事后复盘没有历史数据故障排查变成“盲人摸象”资源黑洞某个跑偏的脚本吃光内存连带拖垮整个服务我的博客运行在2核4G的云服务器上使用率长期低于30%。直到某天收到云厂商的流量超额账单才发现被爬虫持续扫描漏洞。正是这次教训让我明白监控不是成本而是性价比最高的运维投资。2. 监控方案选型为什么是PrometheusGrafana对比常见方案工具优点缺点适合场景Zabbix功能全面资源占用高企业级环境Nagios告警机制成熟配置复杂传统运维CloudWatch开箱即用费用随数据量增长AWS深度用户Prometheus轻量、时序数据专业处理需要自行搭建容器/微服务/个人项目Prometheus的多维度数据模型和Pull模式特别适合资源有限的场景。配合Grafana的可视化能力不到1GB内存就能获得企业级80%的监控功能。提示如果你的服务器内存小于1G可以考虑关闭Prometheus的TSDB压缩storage.tsdb.retention.size参数3. 实战部署从零搭建监控系统3.1 安装Prometheus用Docker快速启动假设已安装Dockermkdir -p /opt/prometheus/config cat EOF /opt/prometheus/config/prometheus.yml global: scrape_interval: 15s scrape_configs: - job_name: prometheus static_configs: - targets: [localhost:9090] EOF docker run -d --nameprometheus \ -p 9090:9090 \ -v /opt/prometheus/config:/etc/prometheus \ prom/prometheus关键参数说明scrape_interval抓取频率个人站点建议15-30秒targets监控目标地址后续会逐步添加3.2 接入基础指标3.2.1 监控服务器本身安装node_exporter采集主机指标docker run -d --namenode_exporter \ -p 9100:9100 \ --nethost \ --pidhost \ -v /:/host:ro,rslave \ prom/node-exporter然后在prometheus.yml中添加新job- job_name: node static_configs: - targets: [your_server_ip:9100]3.2.2 监控Nginx启用Nginx stub_status模块server { listen 8080; server_name localhost; location /metrics { stub_status on; access_log off; allow 127.0.0.1; deny all; } }通过nginx-exporter转换指标格式docker run -d --namenginx-exporter \ -p 9113:9113 \ nginx/nginx-prometheus-exporter \ -nginx.scrape-uri http://your_nginx_ip:8080/metrics3.3 配置Grafana仪表盘启动Grafana容器docker run -d --namegrafana \ -p 3000:3000 \ grafana/grafana登录后添加Prometheus数据源地址填http://prometheus:9090导入官方仪表盘主机监控ID 1860Nginx监控ID 12708我的自定义看板重点关注黄金指标请求错误率、响应时间、流量资源水位线CPU80%或内存90%持续5分钟告警业务指标每日活跃用户、热门内容排行4. 告警配置从被动响应到主动预防4.1 基础告警规则在prometheus.yml同级目录创建alert.rules文件groups: - name: host rules: - alert: HighCPU expr: 100 - (avg by(instance)(irate(node_cpu_seconds_total{modeidle}[5m])) * 100) 80 for: 5m labels: severity: warning annotations: summary: 高CPU使用率 ({{ $value }}%) description: 实例 {{ $labels.instance }} CPU持续高于80% - alert: NginxDown expr: nginx_up 0 for: 1m labels: severity: critical annotations: summary: Nginx服务下线4.2 对接钉钉告警使用Prometheus Alertmanager 钉钉机器人配置alertmanager.ymlroute: receiver: dingding receivers: - name: dingding webhook_configs: - url: https://oapi.dingtalk.com/robot/send?access_tokenyour_token send_resolved: true启动Alertmanager容器docker run -d --namealertmanager \ -p 9093:9093 \ -v /path/to/alertmanager.yml:/etc/alertmanager/alertmanager.yml \ prom/alertmanager5. 避坑指南那些年我踩过的雷指标爆炸初期采集了太多无用指标导致Prometheus存储暴涨解决方案用metric_relabel_configs过滤metric_relabel_configs: - source_labels: [__name__] regex: (node_network_receive_bytes|node_cpu_seconds_total) action: keep告警疲劳最初设置的阈值太敏感半夜频繁被吵醒优化方案区分warning/critical级别非核心服务设置工作时间告警资源竞争监控系统自身消耗过高实测数据2核4G服务器Prometheus约300MB内存node_exporter15MB内存Grafana200MB内存6. 进阶技巧让监控产生业务价值除了基础运维指标我还逐步添加了用户体验监控通过Nginx日志分析慢请求# 统计P99响应时间 histogram_quantile(0.99, sum(rate(nginx_http_request_duration_seconds_bucket[5m])) by (le))成本关联结合云API获取费用数据建立“流量-资源-成本”关联分析自动化联动当检测到爬虫特征时自动触发WAF规则更新现在我的早晨例行检查从SSH登录变成了打开手机看Grafana仪表盘。有次朋友问我“你网站最近怎么这么稳定”我笑着回答“因为我知道它什么时候会出问题——在用户发现之前。”

相关文章:

从‘它又挂了’到‘稳如老狗’:我是如何用Prometheus+Grafana给自家小破站做监控的

从“它又挂了”到“稳如老狗”:我是如何用PrometheusGrafana给自家小破站做监控的 凌晨三点,手机突然响起钉钉告警——这已经是本周第三次被“502 Bad Gateway”的提示音吵醒。揉着惺忪睡眼重启Nginx时,我突然意识到:这个用业余时…...

保姆级教程:用C语言数组扫描法,搞定智能车摄像头识别赛道‘L型’拐点

智能车竞赛实战:C语言数组扫描法精准识别L型赛道拐点 在智能车竞赛的赛道上,L型拐点往往是让许多参赛队伍"翻车"的关键节点。传统横向巡线算法在这里容易丢失赛道边界,而基于纵向扫描的数组分析法却能像手术刀般精准定位特征点。本…...

球机器人研究报告【202600001】

文章目录球机器人研究报告综合分析多智能体推箱子训练(第100代/第300代)一、意识流分析(神经网络脉冲活动)1. 热图(consciousness_agent2_gen100_ep0_heatmap.png)2. PCA(主成分分析&#xff0c…...

【ROS2小白入门】从 ROS 1 到 ROS 2 的跨越:实战重构机器人底盘 Manager 节点

文章目录一、 构建系统的蜕变:CMakeLists.txt 的优雅转身1. 告别 target_link_libraries🚨 避坑指南 1:找不到 serial 串口库?二、 C 源码大换血:彻底消灭 NodeHandle三、 通信机制迁移:发布、订阅与异步服…...

ArduinoFritzApi:嵌入式设备对接FRITZ!Box的TR-064协议实践

1. ArduinoFritzApi 库深度解析:面向嵌入式系统的 FRITZ!Box 自动化控制实践指南1.1 库定位与工程价值ArduinoFritzApi 是一个专为嵌入式平台设计的轻量级 C 库,其核心目标是实现对 AVM 公司全系智能家庭设备(FRITZ!Box 路由器、FRITZ!DECT 插…...

手把手教你搭建基于Matlab/Simulink的插电式混合动力汽车4驱PHEV模型

基于Matlab/simulink的插电式混合动力汽车建模仿真模型4驱PHEV(比亚迪唐DM混动系统P2P4发动机——三擎四驱),包括整车HCU控制单元、发动机模型、驱动电机模型、ISG电机模型、AMT5档自动变速箱模型、驾驶员模型、电池能量管理控制模型等&#…...

EspNowBus:ESP32轻量级安全无线总线库

1. EspNowBus 项目概述 EspNowBus 是一个面向 ESP32 平台、以组(Group)为组织单元的轻量级 ESP-NOW 消息总线库,专为小型嵌入式无线网络(典型规模 ≈6 节点)设计。其核心工程目标并非追求最大吞吐或最广覆盖&#xff0…...

JPom结合Docker实现SpringBoot项目自动化构建与部署实战

1. 为什么你需要JPomDocker自动化部署方案 每次手动打包SpringBoot项目时,你是不是也经历过这样的痛苦?先在本地mvn clean package,然后scp上传到服务器,接着ssh连上去kill旧进程,最后nohup启动新jar包。更可怕的是半夜…...

3D建模快速上手:零门槛掌握TripoSR AI驱动开源工具

3D建模快速上手:零门槛掌握TripoSR AI驱动开源工具 【免费下载链接】TripoSR 项目地址: https://gitcode.com/GitHub_Trending/tr/TripoSR 在数字创作领域,3D建模曾是专业人士的专属技能,需要掌握复杂的软件操作和几何知识。但今天&a…...

事件驱动RTOS EventOS的创新设计与应用实践

1. 事件驱动型RTOS的创新设计 在嵌入式系统开发领域,实时操作系统(RTOS)一直是关键基础设施。传统RTOS如FreeRTOS、uC/OS等大多采用基于时间片轮转的任务调度机制,而EventOS则开创性地采用了事件驱动架构,这在资源受限的嵌入式环境中具有独特…...

【等保三级Java系统合规落地指南】:20年安全架构师亲授7大关键改造步骤与避坑清单

第一章:等保三级Java系统合规落地的顶层认知与法律依据等保三级(GB/T 22239–2019《信息安全技术 网络安全等级保护基本要求》)并非单纯的技术加固任务,而是覆盖组织管理、制度建设、技术实施与持续运营的全生命周期合规工程。对J…...

7个技巧彻底改变你的Mac菜单栏体验:Ice终极配置指南

7个技巧彻底改变你的Mac菜单栏体验:Ice终极配置指南 【免费下载链接】Ice Powerful menu bar manager for macOS 项目地址: https://gitcode.com/GitHub_Trending/ice/Ice Ice是一款强大的macOS菜单栏管理工具,专门帮助用户整理杂乱的菜单栏图标&…...

从零打造你的CAD开发环境:用OpenCASCADE 7.7.0 + VS2022画个3D盒子(完整Debug/Release配置)

从零打造你的CAD开发环境:用OpenCASCADE 7.7.0 VS2022画个3D盒子(完整Debug/Release配置) 当你第一次尝试在Visual Studio中配置OpenCASCADE(OCCT)时,可能会被那些复杂的路径设置、库文件链接和环境变量搞…...

探索DevOps之路:2024年DevOps路线图

探索DevOps之路:2024年DevOps路线图 【免费下载链接】DevOps-Roadmap DevOps Roadmap for 2026. with learning resources 项目地址: https://gitcode.com/GitHub_Trending/de/DevOps-Roadmap 项目介绍 DevOps Roadmap 2024 是一个精心设计的步骤指南&#…...

VIT模型IP核需要修改的地方

导入路径 "D:\VIT\HG-PIPE\instances\proj_ATTN0\work"选择“open project”整合多个 HLS IP 时 遇到“撞名”此时会报错:Top function not found: there is no function named top INFO: [HLS 200-1510] Running: set_directive_top -name top top...

太吾绘卷Mod终极指南:从零开始打造个性化游戏体验

太吾绘卷Mod终极指南:从零开始打造个性化游戏体验 【免费下载链接】Taiwu_mods 太吾绘卷游戏Mod 项目地址: https://gitcode.com/gh_mirrors/ta/Taiwu_mods 想要为《太吾绘卷》注入全新活力吗?太吾绘卷Mod为这款经典游戏带来了无限可能&#xff0…...

AD5246数字电位器驱动库详解与I²C工程实践

1. AD5246 数字电位器库深度技术解析1.1 器件本质与工程定位AD5246 并非传统意义上的“可编程电阻”,而是一款单通道、IC 接口、128 抽头数字可变电阻器(Digital Rheostat)。其核心价值在于以数字方式精确控制模拟电路中的阻值,替…...

AI如何悄悄改变你的日常生活?5个你已离不开的AI应用场景

AI如何悄悄改变你的日常生活?5个你已离不开的AI应用场景 清晨被智能闹钟以最舒适的渐强音量唤醒,通勤路上听着音乐App精准推荐的歌单,晚上回家对着冰箱说出想吃的菜谱——这些场景中隐藏的AI技术,早已像水电一样成为生活基础设施。…...

3D重建效率革命:从单张图片到高质量模型的全流程指南

3D重建效率革命:从单张图片到高质量模型的全流程指南 【免费下载链接】TripoSR 项目地址: https://gitcode.com/GitHub_Trending/tr/TripoSR 在数字内容创作领域,3D建模长期面临两大核心痛点:一方面,传统3D建模软件如Blen…...

ESP32-CAM人脸识别从入门到实战:5步搞定考勤系统(附完整代码)

ESP32-CAM人脸识别考勤系统实战指南:低成本高精度部署方案 引言:重新定义考勤管理的技术革新 在传统考勤方式逐渐显露出效率瓶颈的今天,基于ESP32-CAM的人脸识别技术为中小企业和教育机构提供了一种革命性的解决方案。这套系统不仅突破了传统…...

永磁同步电机的 MTPA + 弱磁控制算法 Simulink 模型探索

永磁同步电机的MTPA弱磁控制算法simulink模型。 转速从4000变到16000转,效果较好,附赠核心模型对应公式文档。在电机控制领域,永磁同步电机(PMSM)因其高效、高功率密度等优点,被广泛应用于各种工业和民用场…...

研发物料管理新思路:巧用SAP预留功能实现打样耗材精准管控

研发物料管理新思路:巧用SAP预留功能实现打样耗材精准管控 在制造业研发部门,物料管理一直是令人头疼的难题。不同于生产线的标准化流程,研发活动往往伴随着频繁的设计变更、小批量试制和突发性物料需求。传统的手工台账或Excel表格管理方式&…...

SteamShutdown:智能下载管理与自动化电源控制的创新解决方案

SteamShutdown:智能下载管理与自动化电源控制的创新解决方案 【免费下载链接】SteamShutdown Automatic shutdown after Steam download(s) has finished. 项目地址: https://gitcode.com/gh_mirrors/st/SteamShutdown 在数字娱乐时代,游戏下载已…...

从脑电波到股票K线:EMD经验模态分解在5个真实场景下的避坑指南

从脑电波到股票K线:EMD经验模态分解在5个真实场景下的避坑指南 当你第一次看到脑电波信号与股票K线图被放在同一个分析框架下讨论时,可能会觉得这是两个毫不相关的领域。但事实上,无论是神经科学家的EEG数据,还是量化交易员的股价…...

图像处理算法资料(FPGA Verilog): RGB2GRAY、阈值分割、滤波、边缘检测等算...

图像处理算法资料( FPGA Verilog) 分别有RGB2GRAY、阈值分割(二值化)、均值滤波、中值滤波、sobel边缘检测、膨胀、腐蚀、开闭运算。 各个模块的结构与上图的顶层模块结构一致,通过模块之间的组合串联组成 ISP 顶层模块。 使用vivado软件&…...

误删Anaconda?3步极速抢救指南

Anaconda被误删后抢救手册技术文章大纲数据恢复的基本原理解释数据恢复的底层机制,包括文件系统如何处理删除操作,以及为何被删除的数据仍有可能恢复。涵盖不同操作系统(Windows、macOS、Linux)下的差异。立即停止使用受影响磁盘强…...

T/SCSIA0018-2025《四川省信息技术应用创新项目费用测算标准》标准解读

此前四川省存量信息系统信创适配改造项目长期面临费用测算无统一标准、议价争议多、成本虚高、重复计费等行业痛点,给项目估算、审计、结算带来诸多困扰。2025年12月29日发布的T/SCSIA0018-2025《四川省信息技术应用创新项目费用测算标准》,作为省内首个…...

MOS管驱动电路设计要点与常见问题解析

1. 一个简单MOS驱动电路引发的思考前两天在实验室调试电路时,遇到一个很有意思的案例。同事设计了一个使用NMOS管的驱动电路,用于控制LED的开关。乍看之下电路结构很简单,但实际调试时却发现MOS管无法正常导通。这个看似简单的问题背后&#…...

什么是GEO优化(生成式引擎优化)?一文讲透

# 什么是GEO优化(生成式引擎优化)?一文讲透GEO优化即生成式引擎优化,是面向豆包等AI大模型平台的新型营销优化方式,是AI时代企业抢占流量新入口的核心营销手段。沈阳锦恒智联信息科技有限公司是辽宁本地专业的GEO优化服…...

久鼎私域测流模式系统(现成方案)

久鼎私域测流模式系统是一套专注于私域流量监测与分析的解决方案,适用于企业精细化运营私域用户池。其核心功能包括流量来源追踪、用户行为分析、转化效果评估等,支持多平台数据整合。核心功能模块流量监测 实时监控私域流量入口(如小程序、公…...