当前位置: 首页 > article >正文

Prometheus监控主机,Grafana成图

全部使用官方 GitHub 源的部署方案下载链接来自官方无需镜像。官方下载地址汇总组件 官方下载地址Node Exporterhttps://github.com/prometheus/node_exporter/releases/download/v1.8.2/node_exporter-1.8.2.linux-amd64.tar.gzPrometheushttps://github.com/prometheus/prometheus/releases/download/v3.5.0/prometheus-3.5.0.linux-amd64.tar.gzAlertManagerhttps://github.com/prometheus/alertmanager/releases/download/v0.28.0/alertmanager-0.28.0.linux-amd64.tar.gzGrafanahttps://dl.grafana.com/oss/release/grafana-11.6.0.linux-amd64.tar.gz一、部署 Node Exporter官方源bash创建工作目录sudo mkdir -p /data/node_exporter/logs下载官方版本GitHub Releasecd /tmpwget https://github.com/prometheus/node_exporter/releases/download/v1.8.2/node_exporter-1.8.2.linux-amd64.tar.gztar xvf node_exporter-1.8.2.linux-amd64.tar.gzsudo cp node_exporter-1.8.2.linux-amd64/node_exporter /data/node_exporter/验证/data/node_exporter/node_exporter --version启动脚本bashsudo tee /data/node_exporter/start.sh ‘EOF’#!/bin/bashcd /data/node_exporternohup ./node_exporter–web.listen-address“0.0.0.0:9100”–collector.disable-defaults–collector.cpu–collector.meminfo–collector.filesystem–collector.diskstats–collector.netdev–collector.loadavg–collector.time–collector.uname \logs/node_exporter.log 21 echo $! node_exporter.pidecho “Node Exporter started with PID: $(cat node_exporter.pid)”EOFsudo tee /data/node_exporter/stop.sh ‘EOF’#!/bin/bashif [ -f /data/node_exporter/node_exporter.pid ]; thenkill $(cat /data/node_exporter/node_exporter.pid)rm -f /data/node_exporter/node_exporter.pidecho “Node Exporter stopped”elsepkill -f “node_exporter.*9100”fiEOFsudo chmod x /data/node_exporter/*.shsudo /data/node_exporter/start.sh验证sleep 2curl http://localhost:9100/metrics | head -5二、部署 Prometheus官方源bash创建工作目录sudo mkdir -p /data/prometheus/{data,rules,logs}下载官方版本cd /tmpwget https://github.com/prometheus/prometheus/releases/download/v3.5.0/prometheus-3.5.0.linux-amd64.tar.gztar xvf prometheus-3.5.0.linux-amd64.tar.gzsudo cp prometheus-3.5.0.linux-amd64/prometheus /data/prometheus/sudo cp prometheus-3.5.0.linux-amd64/promtool /data/prometheus/sudo cp -r prometheus-3.5.0.linux-amd64/consoles /data/prometheus/sudo cp -r prometheus-3.5.0.linux-amd64/console_libraries /data/prometheus/设置权限sudo chmod x /data/prometheus/prometheus配置文件bashsudo tee /data/prometheus/prometheus.yml ‘EOF’global:scrape_interval: 15sevaluation_interval: 15sexternal_labels:monitor: ‘vm-monitor’alerting:alertmanagers:- static_configs:- targets: []rule_files: []scrape_configs:job_name: ‘prometheus’static_configs:targets: [‘localhost:9090’]labels:service: ‘prometheus’job_name: ‘node_exporter’scrape_interval: 30sstatic_configs:targets:‘localhost:9100’labels:environment: ‘production’EOF启动脚本bashsudo tee /data/prometheus/start.sh ‘EOF’#!/bin/bashcd /data/prometheusnohup ./prometheus–config.file/data/prometheus/prometheus.yml–storage.tsdb.path/data/prometheus/data–storage.tsdb.retention.time30d–web.enable-lifecycle \logs/prometheus.log 21 echo $! prometheus.pidecho “Prometheus started with PID:(catprometheus.pid)echoWebUI:http://(cat prometheus.pid) echo Web UI: http://(catprometheus.pid)echoWebUI:http://(hostname -I | awk ‘{print $1}’):9090”EOFsudo tee /data/prometheus/stop.sh ‘EOF’#!/bin/bashif [ -f /data/prometheus/prometheus.pid ]; thenkill $(cat /data/prometheus/prometheus.pid)rm -f /data/prometheus/prometheus.pidecho “Prometheus stopped”elsepkill -f “prometheus.*config.file”fiEOFsudo chmod x /data/prometheus/*.shsudo /data/prometheus/start.sh验证sleep 3curl http://localhost:9090/-/healthy三、部署 Grafana官方源bash创建工作目录sudo mkdir -p /data/grafana/{data,logs,plugins}下载官方版本cd /tmpwget https://dl.grafana.com/oss/release/grafana-11.6.0.linux-amd64.tar.gztar xvf grafana-11.6.0.linux-amd64.tar.gzsudo cp -r grafana-11.6.0/* /data/grafana/配置文件sudo tee /data/grafana/conf/custom.ini ‘EOF’[paths]data /data/grafana/datalogs /data/grafana/logsplugins /data/grafana/plugins[server]http_port 3000[auth]disable_login_form false[users]allow_sign_up falseEOF启动脚本bashsudo tee /data/grafana/start.sh ‘EOF’#!/bin/bashcd /data/grafananohup ./bin/grafana-server–config/data/grafana/conf/custom.ini–homepath/data/grafana \logs/grafana.log 21 echo $! grafana.pidecho “Grafana started with PID:(catgrafana.pid)echoGrafanaUI:http://(cat grafana.pid) echo Grafana UI: http://(catgrafana.pid)echoGrafanaUI:http://(hostname -I | awk ‘{print $1}’):3000 (admin/admin)”EOFsudo tee /data/grafana/stop.sh ‘EOF’#!/bin/bashif [ -f /data/grafana/grafana.pid ]; thenkill $(cat /data/grafana/grafana.pid)rm -f /data/grafana/grafana.pidecho “Grafana stopped”elsepkill -f “grafana-server”fiEOFsudo chmod x /data/grafana/*.shsudo /data/grafana/start.sh四、统一管理脚本bashsudo tee /usr/local/bin/monitor-control ‘EOF’#!/bin/bashSERVICES“node_exporter prometheus grafana”case “$1” instart)echo “Starting all monitoring services…”/data/node_exporter/start.sh 2/dev/null || echo “Node Exporter already running”sleep 2/data/prometheus/start.sh 2/dev/null || echo “Prometheus already running”sleep 2/data/grafana/start.sh 2/dev/null || echo “Grafana already running”echo “All services started”;;stop)echo “Stopping all monitoring services…”/data/node_exporter/stop.sh 2/dev/null/data/prometheus/stop.sh 2/dev/null/data/grafana/stop.sh 2/dev/nullecho “All services stopped”;;status)echo “ Node Exporter ps aux | grep -v grep | grep “node_exporter.*9100” echo “Running” || echo “Stopped”echo Prometheus ps aux | grep -v grep | grep “prometheus.*config” echo “Running” || echo “Stopped”echo Grafana ”ps aux | grep -v grep | grep “grafana-server” echo “Running” || echo “Stopped”;;restart)$0 stopsleep 3$0 start;;*)echo “Usage: $0 {start|stop|restart|status}”exit 1;;esacEOFsudo chmod x /usr/local/bin/monitor-control五、测试验证bash启动所有服务sudo monitor-control start查看状态sudo monitor-control status测试各服务curl http://localhost:9090/-/healthy # Prometheuscurl http://localhost:9100/metrics | head # Node Exportercurl http://localhost:3000/api/health # Grafana六、添加其他虚拟机在其他虚拟机上部署 Node Exporterbash在每一台被监控虚拟机上执行mkdir -p /data/node_exporter/logscd /tmpwget https://github.com/prometheus/node_exporter/releases/download/v1.8.2/node_exporter-1.8.2.linux-amd64.tar.gztar xvf node_exporter-1.8.2.linux-amd64.tar.gzcp node_exporter-1.8.2.linux-amd64/node_exporter /data/node_exporter/cd /data/node_exporternohup ./node_exporter --web.listen-address“0.0.0.0:9100” logs/node_exporter.log 21 然后在 Prometheus 配置中添加新目标并热加载bash编辑 /data/prometheus/prometheus.yml在 targets 中添加新 IPcurl -X POST http://localhost:9090/-/reload六、Grafana添加Prometheus数据源这里最好是填写http://127.0.0.1:9090这样不会识别到ipv6.七、给数据源添加面板八、配置告警AlertManager3.1 下载并安装 AlertManagerbash创建工作目录mkdir -p /data/alertmanager/{data,logs}下载官方版本cd /tmpwget https://github.com/prometheus/alertmanager/releases/download/v0.28.0/alertmanager-0.28.0.linux-amd64.tar.gztar xvf alertmanager-0.28.0.linux-amd64.tar.gzcp alertmanager-0.28.0.linux-amd64/alertmanager /data/alertmanager/cp alertmanager-0.28.0.linux-amd64/amtool /data/alertmanager/chmod x /data/alertmanager/alertmanager3.2 配置 AlertManagerbashsudo tee /data/alertmanager/alertmanager.yml ‘EOF’global:resolve_timeout: 5msmtp_smarthost: ‘smtp.example.com:587’ # 配置邮件服务器smtp_from: ‘alertmanagerexample.com’smtp_auth_username: ‘your-username’smtp_auth_password: ‘your-password’route:group_by: [‘alertname’, ‘severity’]group_wait: 30sgroup_interval: 5mrepeat_interval: 4hreceiver: ‘default-receiver’routes:- match:severity: criticalreceiver: critical-receiverreceivers:name: ‘default-receiver’email_configs:to: ‘ops-teamexample.com’name: ‘critical-receiver’email_configs:to: ‘oncallexample.com’webhook_configs:url: ‘https://your-webhook-url’ # 可对接钉钉/企微/飞书inhibit_rules:source_match:severity: ‘critical’target_match:severity: ‘warning’equal: [‘instance’, ‘alertname’]EOF3.3 启动 AlertManagerbashsudo tee /data/alertmanager/start.sh ‘EOF’#!/bin/bashcd /data/alertmanagernohup ./alertmanager–config.file/data/alertmanager/alertmanager.yml–web.listen-address“0.0.0.0:9093”–storage.path/data/alertmanager/data \logs/alertmanager.log 21 echo $! alertmanager.pidecho “AlertManager started with PID:(catalertmanager.pid)echoAlertManagerUI:http://(cat alertmanager.pid) echo AlertManager UI: http://(catalertmanager.pid)echoAlertManagerUI:http://(hostname -I | awk ‘{print $1}’):9093”EOFsudo tee /data/alertmanager/stop.sh ‘EOF’#!/bin/bashif [ -f /data/alertmanager/alertmanager.pid ]; thenkill $(cat /data/alertmanager/alertmanager.pid)rm -f /data/alertmanager/alertmanager.pidelsepkill -f “alertmanager.*config.file”fiEOFsudo chmod x /data/alertmanager/*.shsudo /data/alertmanager/start.sh3.4 配置 Prometheus 对接 AlertManager编辑 /data/prometheus/prometheus.yml添加以下配置yaml告警配置alerting:alertmanagers:- static_configs:- targets: [‘localhost:9093’] # AlertManager 地址告警规则文件rule_files:“rules/*.yml”3.5 创建告警规则bashmkdir -p /data/prometheus/rulessudo tee /data/prometheus/rules/node_alerts.yml ‘EOF’groups:name: node_alertsinterval: 30srules:1. 节点宕机告警alert: InstanceDownexpr: up{job“node_exporter”} 0for: 1mlabels:severity: criticalannotations:summary: “实例 {{ $labels.instance }} 已宕机”description: “{{ $labels.instance }} 已宕机超过 1 分钟”2. CPU 使用率过高告警alert: HighCPUUsageexpr: 100 - (avg by (instance) (rate(node_cpu_seconds_total{mode“idle”}[5m])) * 100) 80for: 5mlabels:severity: warningannotations:summary: “{{ $labels.instance }} CPU 使用率过高”description: “CPU 使用率已超过 80%当前值: {{ $value }}%”3. 内存使用率过高告警alert: HighMemoryUsageexpr: (1 - (node_memory_MemAvailable_bytes / node_memory_MemTotal_bytes)) * 100 90for: 5mlabels:severity: warningannotations:summary: “{{ $labels.instance }} 内存使用率过高”description: “内存使用率已超过 90%当前值: {{ $value }}%”4. 磁盘空间不足告警alert: DiskSpaceLowexpr: (1 - node_filesystem_avail_bytes{mountpoint“/”} / node_filesystem_size_bytes{mountpoint“/”}) * 100 85for: 5mlabels:severity: warningannotations:summary: “{{ $labels.instance }} 磁盘空间不足”description: “磁盘使用率已超过 85%当前值: {{ $value }}%”5. 系统负载过高告警alert: HighSystemLoadexpr: node_load5 / count by (instance) (node_cpu_seconds_total{mode“idle”}) 2for: 5mlabels:severity: warningannotations:summary: “{{ $labels.instance }} 系统负载过高”description: “5分钟平均负载超过 CPU 核心数的 2 倍”EOF3.6 加载配置并验证bash热加载 Prometheus 配置curl -X POST http://localhost:9090/-/reload验证告警规则是否加载成功curl http://localhost:9090/api/v1/rules | jq ‘.data.groups[].name’访问告警页面http://服务器IP:9090/alerts

相关文章:

Prometheus监控主机,Grafana成图

全部使用官方 GitHub 源的部署方案,下载链接来自官方,无需镜像。 官方下载地址汇总 组件 官方下载地址 Node Exporter https://github.com/prometheus/node_exporter/releases/download/v1.8.2/node_exporter-1.8.2.linux-amd64.tar.gz Prometheus https…...

UCC25600 LLC谐振变换器:从补偿网络设计到软启动与过流保护的实战调试

1. UCC25600 LLC谐振变换器入门指南 第一次接触LLC谐振变换器时,我被它的高效和低EMI特性吸引,但真正用UCC25600做项目时才发现理论和实操差距不小。这款德州仪器的控制器确实强大,但要把它的性能完全发挥出来,得先理解几个关键点…...

你的时间序列真的平稳吗?手把手教你用ADF检验(Dickey-Fuller)和滚动统计为预测模型打好基础

时间序列平稳性诊断实战:从理论到Python实现 时间序列分析中,平稳性检验是建模前的关键步骤。许多经典预测模型(如ARIMA)都建立在数据平稳的假设之上。但现实中的时间序列往往带有趋势或季节性,直接建模会导致预测失效…...

Playwright MCP终极指南:让大语言模型拥有浏览器自动化的超能力

Playwright MCP终极指南:让大语言模型拥有浏览器自动化的超能力 【免费下载链接】playwright-mcp Playwright MCP server 项目地址: https://gitcode.com/gh_mirrors/pl/playwright-mcp Playwright MCP(Model Context Protocol)是微软…...

告别炼丹玄学:用EfficientNet-B0到B7的缩放系数,在PyTorch里精准匹配你的算力

告别炼丹玄学:用EfficientNet-B0到B7的缩放系数,在PyTorch里精准匹配你的算力 当你在个人GPU或边缘设备上部署深度学习模型时,是否经常遇到这样的困境:模型要么太大导致显存溢出,要么太小无法达到预期精度?…...

Arm CoreSight调试架构与寄存器安全机制详解

1. Arm CoreSight调试架构概述在嵌入式系统开发领域,调试接口的设计质量直接影响着开发效率和问题定位能力。Arm CoreSight架构作为业界领先的调试与追踪解决方案,通过标准化的寄存器映射和总线协议,为SoC设计提供了完整的调试基础设施。这套…...

为什么92%参会者在P3东区绕行超4分钟?2026大会停车动线算法白皮书首度披露

更多请点击: https://intelliparadigm.com 第一章:2026年AI技术大会停车指引概览 2026年AI技术大会主会场设于上海张江科学城国际会展中心,周边共开放3个智能停车场(P1–P3),全部支持车牌自动识别、无感支…...

指标漂移、用户冷启动、LLM幻觉干扰——大模型A/B测试三大盲区全解析,SITS大会实证数据支撑

更多请点击: https://intelliparadigm.com 第一章:指标漂移、用户冷启动、LLM幻觉干扰——大模型A/B测试三大盲区全解析,SITS大会实证数据支撑 在2024年SITS(Scalable Intelligence Testing Summit)大会上&#xff0c…...

边缘计算中的3D占据映射技术与Gleanmer SoC优化

1. 边缘计算时代的3D占据映射技术革新在自动驾驶汽车穿越复杂城市道路时,在AR眼镜试图将虚拟物体精准叠加到现实场景时,设备都需要实时理解周围环境的3D结构。传统解决方案如激光雷达点云只能提供稀疏的空间采样,而基于体素的OctoMap虽然能构…...

FPGA高生产力设计:从RTL到C语言的演进与实践

1. 现代FPGA设计方法论的演进背景 在当今的电子系统设计中,FPGA因其可重构性和并行处理能力,已成为视频处理、无线通信、数据中心加速等领域的核心器件。但随着工艺节点不断进步,现代FPGA的容量已突破百万逻辑单元级别,传统RTL&am…...

基于vDisk的IDV云桌面机房建设方案解析

基于vDisk的IDV云桌面机房建设方案解析本文为教学机房新建/改造场景下,基于vDisk的IDV云桌面落地建设方案,由上海澄成信息技术有限公司提供产品支撑,核心采用澄成 vDisk IDV云桌面的镜像磁盘统一管理能力,配套AI教学环境升级模块&…...

把“贪吃蛇”做成塔防Boss,这个Unity模板是怎么设计的?附完整变现思路

在 Unity Asset Store 上,大多数塔防模板都遵循一个经典逻辑:敌人走路径,玩家建塔防守。 但今天这个插件 Snake Army Defense - Complete Mobile Game Template,做了一件很有意思的事——它把传统塔防玩法“反过来了”。 敌人不…...

八大网盘直链解析神器:彻底告别下载限速烦恼的终极指南

八大网盘直链解析神器:彻底告别下载限速烦恼的终极指南 【免费下载链接】Online-disk-direct-link-download-assistant 一个基于 JavaScript 的网盘文件下载地址获取工具。基于【网盘直链下载助手】修改 ,支持 百度网盘 / 阿里云盘 / 中国移动云盘 / 天翼…...

LinkSwift:八大网盘直链下载助手终极指南,告别客户端束缚![特殊字符]

LinkSwift:八大网盘直链下载助手终极指南,告别客户端束缚!🚀 【免费下载链接】Online-disk-direct-link-download-assistant 一个基于 JavaScript 的网盘文件下载地址获取工具。基于【网盘直链下载助手】修改 ,支持 百…...

注册github账户时出现问题怎么解决

...

批量生成内容?先优化你的Prompt!

很多人用 GPT 批量生成内容时,问题不是模型不够强,而是指令太模糊。 比如:帮我写一些小红书文案。 生成 50 个标题。 给我做一批产品介绍。这些指令看似省事,实际很容易带来三个问题: 输出风格不稳定内容重复、泛泛而谈…...

【c++面向对象编程】第4篇:类与对象(三):拷贝构造函数与深浅拷贝问题

目录 一、一个崩溃的程序 二、拷贝构造函数是什么? 调用时机(三个场景) 三、浅拷贝 vs 深拷贝 浅拷贝(默认行为) 深拷贝(正确的做法) 四、什么时候必须自己写拷贝构造函数? 一…...

智能体网格(Agent Mesh)架构解析:构建大规模异构智能体协同网络

1. 项目概述与核心价值最近在开源社区里,一个名为sampleXbro/agentsmesh的项目引起了我的注意。乍一看这个标题,你可能会觉得它有些神秘,甚至有点“缝合怪”的味道——sampleX、bro、agents、mesh,这些词组合在一起,到…...

【c++面向对象编程】第3篇:类与对象(二):构造函数与析构函数

目录 一、一个让人头疼的问题 二、构造函数:对象出生时的“第一声啼哭” 1. 最基本的构造函数 2. 带参数的构造函数(重载) 3. 初始化列表:更高效的初始化方式 三、默认构造函数:那个“看不见”的函数 四、析构函…...

Letta框架:全栈AI应用开发,从模型集成到部署上线的完整解决方案

1. 项目概述:一个开箱即用的AI应用开发框架最近在折腾AI应用开发的朋友,估计都绕不开一个核心痛点:想法很美好,落地很骨感。从模型调用、提示词工程,到前后端集成、状态管理,再到部署上线,每个环…...

【c++面向对象编程】第2篇:类与对象(一):定义第一个类——成员变量与成员函数

目录 一、从一个日常需求开始 二、定义你的第一个类 三、访问修饰符:public、private、protected 举个例子,看看区别: 四、成员变量怎么声明? 五、成员函数:两种实现方式 方式一:类内实现&#xff08…...

AI编程智能体评估平台CodingAgentExplorer:从原理到实践的系统评测指南

1. 项目概述:一个探索智能体编码能力的开源工具最近在GitHub上闲逛,发现了一个挺有意思的项目:tndata/CodingAgentExplorer。光看名字,你可能会觉得这又是一个“AI写代码”的工具,市面上这类工具已经多如牛毛了。但当我…...

iPhone 5c中国遇冷复盘:产品定价、市场预期与战略博弈的深度解析

1. 项目概述:一次关于市场预期的“误判”复盘2013年秋天,苹果公司发布了被外界普遍视为“专为新兴市场打造”的iPhone 5c。这款拥有多彩聚碳酸酯外壳的手机,在发布前就被贴上了“廉价iPhone”的标签,尤其是针对像中国这样庞大且正…...

《Java面试85题图解版(二)》进阶深化中篇:Spring核心 + 数据库进阶

📘 《Java面试85题图解版(二)》进阶深化中篇:Spring核心 数据库进阶 阅读提示:这是“图解比喻一句话总结”面试题库第二篇的进阶深化中篇,覆盖Spring核心与Spring Boot(9题)和数据库…...

物联网标准演进与云平台破局:从M2M到IoT的实战路径

1. 从M2M到IoT:一场迟来的标准革命十多年前,当我第一次接触“机器对机器”这个概念时,感觉它就像个被锁在工厂车间里的幽灵——功能强大,但离普通人的生活无比遥远。那时的M2M,谈论的是专用网络、私有协议和封闭的垂直…...

EDA工程师成长与验证技术演进:从算法到芯片的实践闭环

1. 从算法到芯片:一位EDA工程师的成长路径解析在半导体这个行当里待久了,你会发现,那些真正能把工具做“透”、把流程理“顺”的人,往往自己就亲手“焊”过板子、调过RTL、追过时序违例。Prakash Narain的故事,就是一个…...

ClawMorph:为OpenClaw AI智能体实现安全可逆的“一键换装”

1. 项目概述:一个为AI智能体“一键换装”的开发者工具如果你正在使用OpenClaw这类AI智能体框架,并且厌倦了每次想让智能体扮演不同角色(比如从产品经理切换到设计师)时,都需要手动去修改一堆配置文件、提示词文件&…...

番茄小说下载器:打造个人专属离线小说图书馆的完整指南

番茄小说下载器:打造个人专属离线小说图书馆的完整指南 【免费下载链接】fanqienovel-downloader 下载番茄小说 项目地址: https://gitcode.com/gh_mirrors/fa/fanqienovel-downloader 你是否曾在通勤路上突然想读小说,却因为网络信号不佳而无法加…...

从CEO到营销技术专家:创业者退休后的身份重构与价值延续

1. 从创业者到“退休者”:身份的骤然转变卖掉自己一手创办并经营了近四十年的公司,这种感觉,远非“退休”二字可以概括。它不是一次计划已久的悠闲旅行,更像是一场毫无预兆的急刹车。前一天,你还在会议室里为下一代产品…...

DevSquad:基于Docker Compose的一站式开发环境解决方案

1. 项目概述:一个为开发者量身定制的“特种作战小队”如果你是一名开发者,无论是独立作战还是身处团队,一定都经历过这样的场景:为了搭建一个项目,你需要反复安装和配置各种开发工具、运行环境、依赖包。从代码编辑器、…...