当前位置: 首页 > article >正文

2023最新版Prometheus+Grafana监控系统搭建指南(含Docker-compose部署)

2023云原生监控实战基于Docker-compose的PrometheusGrafana全栈部署指南在云原生技术席卷各行各业的今天监控系统已成为保障业务稳定性的神经中枢。传统监控方案在面对容器化、微服务架构时往往力不从心而Prometheus作为CNCF毕业项目凭借其多维数据模型和强大的查询能力已成为云原生监控的事实标准。本文将带您从零开始通过Docker-compose快速搭建包含Prometheus、Alertmanager和Grafana的完整监控栈并分享可视化看板配置的实战技巧。1. 环境准备与架构设计1.1 技术栈选型解析现代监控系统需要具备以下核心能力指标采集支持多种Exporter和Pushgateway存储查询高效处理时间序列数据告警管理灵活的路由和抑制机制数据可视化直观展现系统状态我们选择的组件组合Prometheus采集存储告警规则 ├─ Alertmanager告警分发 └─ Grafana可视化展示1.2 硬件资源建议组件CPU核心内存磁盘空间Prometheus24GB50GBAlertmanager12GB5GBGrafana12GB1GB提示生产环境建议为Prometheus配置SSD存储显著提升查询性能2. Docker-compose全栈部署2.1 编排文件详解创建docker-compose.yml文件version: 3 services: prometheus: image: prom/prometheus:v2.37.0 ports: - 9090:9090 volumes: - ./prometheus.yml:/etc/prometheus/prometheus.yml - prom_data:/prometheus command: - --config.file/etc/prometheus/prometheus.yml - --storage.tsdb.retention.time30d alertmanager: image: prom/alertmanager:v0.24.0 ports: - 9093:9093 volumes: - ./alertmanager.yml:/etc/alertmanager/alertmanager.yml grafana: image: grafana/grafana:9.1.6 ports: - 3000:3000 volumes: - grafana_data:/var/lib/grafana volumes: prom_data: grafana_data:2.2 关键配置文件示例Prometheus主配置prometheus.ymlglobal: scrape_interval: 15s evaluation_interval: 15s rule_files: - alert.rules alerting: alertmanagers: - static_configs: - targets: [alertmanager:9093] scrape_configs: - job_name: prometheus static_configs: - targets: [localhost:9090] - job_name: node static_configs: - targets: [node-exporter:9100]Alertmanager配置alertmanager.ymlroute: group_by: [alertname] receiver: email-notifications receivers: - name: email-notifications email_configs: - to: adminexample.com from: alertmanagerexample.com smarthost: smtp.example.com:587 auth_username: user auth_password: password3. 监控数据采集实战3.1 节点监控配置在docker-compose.yml中添加node-exporter服务node-exporter: image: prom/node-exporter:v1.3.1 ports: - 9100:9100 restart: unless-stopped3.2 常见Exporter部署MySQL监控使用mysqld_exporterRedis监控使用redis_exporterNginx监控配置nginx-module-vts示例MySQL监控配置- job_name: mysql static_configs: - targets: [mysqld-exporter:9104] metrics_path: /metrics4. Grafana高级可视化技巧4.1 看板导入与配置访问Grafana控制台localhost:3000添加Prometheus数据源URL: http://prometheus:9090Access: Server (Default)导入官方仪表板Node Exporter FullID 1860Prometheus 2.0 StatsID 36624.2 自定义看板设计关键面板类型推荐Singlestat关键指标摘要Graph趋势分析Heatmap请求分布Table详细数据示例Panel JSON配置片段{ title: CPU Usage, type: graph, datasource: Prometheus, targets: [ { expr: 100 - (avg by(instance)(irate(node_cpu_seconds_total{mode\idle\}[5m])) * 100), legendFormat: {{instance}} } ] }5. 告警策略优化实践5.1 告警规则示例创建alert.rules文件groups: - name: host-alerts rules: - alert: HighCPUUsage expr: 100 - (avg by(instance)(irate(node_cpu_seconds_total{modeidle}[5m])) * 100) 80 for: 10m labels: severity: warning annotations: summary: High CPU usage on {{ $labels.instance }} description: CPU usage is {{ $value }}% - alert: MemoryPressure expr: (node_memory_MemAvailable_bytes / node_memory_MemTotal_bytes) * 100 20 for: 15m labels: severity: critical5.2 告警分级策略级别响应时间通知渠道静默策略Critical15分钟短信邮件钉钉非工作时间除外Warning1小时邮件企业微信周末静默Info24小时邮件无需静默6. 生产环境调优指南6.1 Prometheus性能优化存储优化command: - --storage.tsdb.retention.time30d - --storage.tsdb.wal-compression - --storage.tsdb.max-block-duration2h查询优化# 避免全量扫描 bad: metric{label~.*value.*} good: metric{labelexact_value}6.2 高可用方案基础HA架构┌──────────────┐ │ Load Balancer │ └──────┬───────┘ │ ┌─────────────────────┼─────────────────────┐ │ │ │ ┌──────▼──────┐ ┌──────▼──────┐ ┌──────▼──────┐ │ Prometheus A │ │ Prometheus B │ │ Prometheus C │ └─────────────┘ └─────────────┘ └─────────────┘6.3 监控项黄金指标每个服务应监控的四大黄金指标延迟请求处理时间流量请求速率错误错误率饱和度资源使用率在Kubernetes环境中部署时建议使用Prometheus Operator来管理监控栈它能自动发现和监控集群中的所有资源。实际使用中发现合理设置scrape_interval对系统负载影响很大高频采集15s会导致存储压力剧增。

相关文章:

2023最新版Prometheus+Grafana监控系统搭建指南(含Docker-compose部署)

2023云原生监控实战:基于Docker-compose的PrometheusGrafana全栈部署指南 在云原生技术席卷各行各业的今天,监控系统已成为保障业务稳定性的神经中枢。传统监控方案在面对容器化、微服务架构时往往力不从心,而Prometheus作为CNCF毕业项目&…...

丹青识画系统Prompt工程指南:如何用文本描述引导更精准的风格鉴定

丹青识画系统Prompt工程指南:如何用文本描述引导更精准的风格鉴定 丹青识画这类AI系统,很多人以为它就是个“看图说话”的工具,把图片丢进去,它告诉你这是什么风格、哪个流派。这确实没错,但如果你只这么用&#xff0…...

别再踩坑了!手把手教你搞定vllm、nccl、cuda和python的版本匹配(附版本对照表)

深度学习环境配置避坑指南:vLLM与CUDA生态的版本兼容性实战 在部署大型语言模型推理服务时,vLLM因其高效的内存管理和推理优化成为热门选择。但许多开发者第一次接触vLLM时,往往会被复杂的依赖关系搞得焦头烂额——NCCL版本不匹配、CUDA驱动…...

编译原理实战:5分钟搞定词法分析器的选择题(含答案解析)

编译原理实战:词法分析器选择题高效解题指南 在编译原理的学习和考试中,词法分析器相关选择题往往是考察重点,也是许多同学容易失分的部分。面对复杂的正规式、有限自动机等概念,如何快速准确地做出判断?本文将带你深入…...

DriverStore Explorer:释放磁盘空间的开源驱动管理工具

DriverStore Explorer:释放磁盘空间的开源驱动管理工具 【免费下载链接】DriverStoreExplorer Driver Store Explorer [RAPR] 项目地址: https://gitcode.com/gh_mirrors/dr/DriverStoreExplorer 1. 诊断驱动膨胀:3个隐藏原因解析 你的C盘空间是…...

Qwen2.5-VL-3B视频识别实战:从环境搭建到显存优化的踩坑记录

Qwen2.5-VL-3B视频识别实战:从环境搭建到显存优化的全流程指南 当开发者第一次尝试用Qwen2.5-VL-3B处理视频内容时,往往会遇到各种预料之外的挑战。从依赖包缺失到显存爆炸,从环境配置到参数调试,每一步都可能成为阻碍项目推进的绊…...

OpenClaw智能剪贴板:GLM-4.7-Flash增强复制粘贴功能

OpenClaw智能剪贴板:GLM-4.7-Flash增强复制粘贴功能 1. 为什么我们需要更聪明的剪贴板 作为一个每天要和大量文本打交道的技术写作者,我经常陷入这样的困境:从网页复制的内容带着乱七八糟的格式,从PDF摘录的段落夹杂着换行符和乱…...

工业质检新突破:如何用GLAD扩散模型实现高精度无监督异常检测(附MVTec-AD实测)

工业质检革命:GLAD扩散模型如何重塑无监督缺陷检测 在制造业智能化转型浪潮中,工业质检环节正经历着从人工目检到AI视觉的范式转移。传统基于规则或监督学习的检测系统面临标注成本高、泛化能力弱等痛点,而无监督异常检测技术凭借"零样本…...

GD32F30x串口DMA+空闲中断接收不定长数据,一个LED控制项目带你搞懂

GD32F30x串口DMA空闲中断实战:从零构建LED智能控制系统 在嵌入式开发中,串口通信就像设备的"嘴巴"和"耳朵",而DMA技术则是解放CPU的"隐形助手"。想象一下这样的场景:你需要通过手机APP远程控制实验…...

告别手动标注!用RexUniNLU零样本模型自动提取电商评论情感

告别手动标注!用RexUniNLU零样本模型自动提取电商评论情感 1. 电商评论分析的痛点与解决方案 电商平台每天产生海量用户评论,这些评论蕴含着宝贵的用户反馈和市场洞察。传统的情感分析方法通常面临两大难题: 标注成本高:需要大…...

XUnity.AutoTranslator:Unity游戏翻译解决方案的创新方法 | 玩家与开发者实战指南

XUnity.AutoTranslator:Unity游戏翻译解决方案的创新方法 | 玩家与开发者实战指南 【免费下载链接】XUnity.AutoTranslator 项目地址: https://gitcode.com/gh_mirrors/xu/XUnity.AutoTranslator 你是否曾因语言障碍错失优秀的外语游戏?是否在尝…...

Phi-4-reasoning-vision-15B企业案例:银行客户经理用截图快速生成信贷摘要

Phi-4-reasoning-vision-15B企业案例:银行客户经理用截图快速生成信贷摘要 1. 业务痛点与解决方案 1.1 银行信贷业务的效率瓶颈 在传统银行信贷审批流程中,客户经理需要花费大量时间整理客户资料、录入系统信息、撰写信贷报告。一个典型的信贷审批案例…...

别再被Kettle的流程线骗了!详解‘阻塞数据直到步骤都完成’控件的正确用法与避坑指南

Kettle并行执行模型深度解析:如何正确使用"阻塞数据直到步骤都完成"控件 在ETL工具Kettle的使用过程中,许多开发者都会遇到一个令人困惑的现象:明明在转换中画了流程线,步骤却没有按照预期的顺序执行。这种认知偏差往往…...

5分钟搞定Meson交叉编译:手把手教你配置ARM64目标平台(附DPDK实例)

Meson交叉编译实战指南:从零构建ARM64平台的DPDK应用 第一次接触交叉编译时,我盯着满屏的工具链路径和架构参数发愣——这简直像在解译外星密码。直到发现Meson的交叉编译配置文件,才发现原来构建跨平台应用可以如此优雅。本文将带你用Meson这…...

AI开发不再卡顿:RTX4090D 24G镜像解决环境冲突全攻略

AI开发不再卡顿:RTX4090D 24G镜像解决环境冲突全攻略 1. 为什么选择RTX4090D 24G深度学习镜像? 深度学习开发者最头疼的问题莫过于环境配置。不同框架版本、CUDA版本、依赖库之间的冲突常常让人望而却步。传统环境搭建方式需要: 手动安装C…...

C盘清理与优化:为Realistic Vision V5.1模型文件腾出空间

C盘清理与优化:为Realistic Vision V5.1模型文件腾出空间 你是不是也遇到过这种情况:电脑C盘突然飘红,系统提示空间不足,想下载个新的AI模型,比如最近很火的Realistic Vision V5.1,却发现根本没地方放。看…...

JS知识点汇总(十九)--ajax

1. 说说ajax的原理,以及如何实现? AJAX 全称(Async Javascript and XML) 即异步的 JavaScript 和 XML,是一种创建交互式网页应用的网页开发技术,可以在不重新加载整个网页的情况下,与服务器交换数据,并且更…...

2022 年 6 月青少年软编等考 C 语言一级真题解析

目录T1. 倒序输出思路分析T2. 平方差计算思路分析T3. 最小的数思路分析T4. 计算成绩优秀的人数思路分析T5. 开关灯思路分析T1. 倒序输出 题目链接:SOJ D1166 依次输入 444 个整数 aaa、bbb、ccc、ddd,将他们倒序输出,即依次输出 ddd、ccc、…...

SJA1105Q升级踩坑记:RGMII V2.0时序下,33Ω串阻为何成了千兆通信的‘隐形杀手’?

SJA1105Q升级中的RGMII V2.0时序陷阱:33Ω串阻如何摧毁千兆通信稳定性 当NXP SJA1105Q这款号称"增强版"的工业交换机芯片落到我们硬件工程师手中时,谁曾想PCB上那些看似无害的33Ω小电阻,竟会成为千兆通信系统的阿喀琉斯之踵。这不…...

dbg-macro配置完全指南:禁用宏、强制颜色输出与警告控制

dbg-macro配置完全指南:禁用宏、强制颜色输出与警告控制 【免费下载链接】dbg-macro A dbg(…) macro for C 项目地址: https://gitcode.com/gh_mirrors/db/dbg-macro dbg-macro是一款轻量级C调试宏工具,通过简单的dbg(...)语法即可实现变量值、类…...

Datawhale AI冬令营-学习笔记-task1

很多企业训练出来的通用模型,我们在使用时并不能很好得解答我们生活中的疑惑,故我们需要一些定制专属大模型来解答在特殊情境下的特定问题,通过投喂一些特定的数据,使得让专属模型在特定领域有着更出色的表现。本次学习将 基于《甄…...

WordPress建站避坑指南:Ubuntu服务器常见权限问题与安全配置

WordPress建站避坑指南:Ubuntu服务器常见权限问题与安全配置 引言:为什么你的WordPress网站总出问题? 每次看到新手开发者兴奋地宣布"我的WordPress网站上线了",我都忍不住想问:你真的检查过文件权限了吗&am…...

Z-Image i2L模型压缩技术:轻量化部署实践指南

Z-Image i2L模型压缩技术:轻量化部署实践指南 1. 引言 当你兴奋地部署了一个强大的图像生成模型,却发现设备内存告急、推理速度慢如蜗牛,这种体验确实让人沮丧。Z-Image i2L作为一款创新的图像到LoRA模型,虽然功能强大&#xff…...

从零开始:在VMware虚拟机中部署Janus-Pro-7B进行开发测试

从零开始:在VMware虚拟机中部署Janus-Pro-7B进行开发测试 想试试最新的AI大模型,但手头没有昂贵的独立GPU服务器?别担心,今天我们就来聊聊一个非常接地气的方案:用你手边的普通电脑,通过VMware虚拟机&…...

Qwen3-4B Instruct-2507实际作品:用户说‘我要创业’→商业计划书框架生成

Qwen3-4B Instruct-2507实际作品:用户说‘我要创业’→商业计划书框架生成 1. 引言:当创业想法遇到AI助手 “我要创业!” 这句话背后,往往是一个激动人心的想法,但随之而来的是一连串的现实问题:我的商业…...

centos7安装MySQL8.4手册

目录前言一、首先更新插件,并查看当前系统版本二、安装步骤--在线安装1、创建mysql目录2、安装rpm包3、安装 mysql-community-server4、启动MySQL服务5、查看MySQL状态6、设置开机自启动三、查看默认密码四、登录mysql五、修改密码六、开启远程访问1. 修改 MySQL 配…...

贪心-摆动序列、不重叠字串数量

Ref 贪心B站搜索-折半搜索 分发饼干 class Solution { public:int findContentChildren(vector<int>& g, vector<int>& s) {sort(g.begin(),g.end());sort(s.begin(),s.end());int cnt0;for(int i0,j0;i<g.size()&&j<s.size();){if(s[j]&…...

git -- 替换项目已经存在的 git 远程仓库地址

要将项目中的 Git 远程仓库地址修改为新的地址&#xff08;http://192.168.3.32:9980/java/transketch-portal-backend&#xff09;&#xff0c;你可以按照以下步骤操作&#xff1a;方法一&#xff1a;使用 Git 命令行打开终端或命令提示符导航到你的项目目录运行以下命令&…...

阿里图标库(Iconfont)的本地引入 详细步骤

阿里图标库&#xff08;Iconfont&#xff09;本地引入 Vue3 详细步骤&#xff08;文字版&#xff09; 一、准备工作 登录 Iconfont 官网 访问 Iconfont 官网&#xff0c;使用账号登录&#xff08;若无账号需注册&#xff09;。 选择图标并加入项目 在搜索框输入关键词&#x…...

大模型数据治理终极指南:5个关键步骤实现高效生命周期管理

大模型数据治理终极指南&#xff1a;5个关键步骤实现高效生命周期管理 【免费下载链接】Foundations-of-LLMs 项目地址: https://gitcode.com/GitHub_Trending/fo/Foundations-of-LLMs 大模型数据治理是构建高质量AI系统的基石&#xff0c;对于确保模型性能、合规性和可…...