Prometheus 基础入门文档
目录
概述
核心组件详解
Prometheus Server
Exporters
Alertmanager
存储解决方案
安装与配置
安装方法
基本配置
示例配置文件
数据模型与查询语言
数据模型
PromQL 查询语言
示例查询
告警系统
告警规则
示例告警规则
Alertmanager 配置
示例 Alertmanager 配置文件
集成与可视化
与 Grafana 集成
配置步骤
与 Kubernetes 集成
示例 Kubernetes 配置
其他集成
性能优化与高可用
性能优化
高可用架构
联邦集群配置示例
安全配置
示例安全配置
最新版本特性
版本发布周期
新特性与改进
社区与生态系统
结语
概述
Prometheus 是一个开源的监控和告警系统,最初由 SoundCloud 公司开发,现在由 Cloud Native Computing Foundation (CNCF) 维护。作为一个专为云原生环境设计的监控系统,Prometheus 在容器化和微服务架构中表现出色。它通过从被监控目标的指标HTTP端点抓取指标来收集数据,具有多维数据模型、灵活查询语言、高效时序数据库和现代化告警方法等特点。
Prometheus 的核心组件包括服务器(Server)、告警管理器(Alertmanager)、各种导出器(Exporter)以及存储解决方案。作为一个开源项目,Prometheus 拥有活跃的社区支持和丰富的生态系统,与 Kubernetes、Grafana 等工具深度集成,为现代 IT 基础设施提供了全面的监控解决方案。
核心组件详解
Prometheus Server
Prometheus Server 是 Prometheus 组件中的核心部分,负责实现对监控数据的获取、存储以及查询。它通过 HTTP 协议从各种数据源中抓取指标数据,并将这些数据存储在本地的时间序列数据库(TSDB)中。Prometheus Server 可以通过静态配置管理监控目标,也可以配合服务发现机制动态发现监控目标。
Prometheus Server 的主要功能包括:
- 数据采集:通过 HTTP 协议从各种 Exporter 拉取指标数据
- 数据存储:使用本地时间序列数据库存储监控数据
- 数据查询:提供灵活的 PromQL 查询语言进行数据查询和分析
- 告警规则:定义告警触发条件,当条件满足时触发告警
- 配置管理:通过 YAML 配置文件管理监控任务和告警规则
Exporters
Exporters 是一类将各种系统和应用的指标数据暴露为 Prometheus 可以抓取的 HTTP 服务的工具。它们负责收集被监控系统的指标数据,并将其转换为 Prometheus 标准格式。常见的 Exporters 包括:
- Node Exporter:监控 Linux 主机的系统资源使用情况,如 CPU、内存、磁盘和网络等
- Process Exporter:监控进程的资源使用情况
- MySQL Exporter:监控 MySQL 数据库的运行状态
- Blackbox Exporter:用于网络探测,如 HTTP、DNS、TCP 等服务的可达性测试
- Kubernetes Exporter:监控 Kubernetes 集群的资源使用情况
Alertmanager
Alertmanager 是 Prometheus 的告警管理组件,负责处理 Prometheus 生成的告警信息。它接收来自 Prometheus 的告警通知,并根据配置的路由规则将告警发送到指定的通知渠道(如邮件、Slack、钉钉等)。Alertmanager 的主要功能包括:
- 告警路由:根据告警标签将告警路由到不同的通知渠道
- 抑制重复告警:防止在短时间内重复发送相同的告警
- 告警分组:将相关的告警信息分组发送
- 延迟抑制:在指定的时间段内抑制告警通知
存储解决方案
Prometheus 提供了多种存储解决方案,以满足不同的数据持久化需求:
- 本地存储:使用默认的本地时间序列数据库存储监控数据
- 远程存储:将监控数据写入远程存储系统,如 Amazon S3、Google Cloud Storage 等
- 联邦集群:通过联邦机制将监控数据聚合到一个中心 Prometheus 实例中
安装与配置
安装方法
Prometheus 提供了多种安装方式,以适应不同的环境和需求:
- 二进制文件安装:
- 从 Prometheus 官方网站下载对应操作系统的二进制包
- 解压后即可使用,这是最直接的安装方式,适合对环境有充分控制权的用户
- Docker 容器安装:
- 使用官方提供的 Prometheus 和 Alertmanager 镜像
- 适合在容器化环境中部署
- Kubernetes 集群安装:
- 使用官方提供的 Helm Chart 或 YAML 配置文件
- 适合在 Kubernetes 集群中部署
基本配置
Prometheus 的核心配置文件是 prometheus.yml
,主要包含以下部分:
- Global 配置:定义全局配置参数,如时间格式、时区等
- Scrape_configs:定义监控任务,包括目标地址、抓取间隔、标签等
- Rule_files:定义告警规则文件路径
- Remote_write:配置远程存储,指定远程存储的地址和配置
- Federation:配置联邦集群,指定需要聚合的 Prometheus 实例
示例配置文件
global:scrape_interval: 15sscrape_timeout: 10sevaluation_interval: 15sscrape_configs:- job_name: 'prometheus'scrape_interval: 5sstatic_configs:- targets: ['localhost:9090']- job_name: 'node_exporter'scrape_interval: 5sstatic_configs:- targets: ['localhost:9100']alerting:alertmanagers:- static_configs:- targets: ['localhost:9093']rule_files:- alert.rules
数据模型与查询语言
数据模型
Prometheus 的数据模型基于多维时间序列,每个时间序列由以下部分组成:
- 指标名称:标识监控的指标名称
- 时间戳:记录指标数据采集的时间
- 值:记录指标数据的数值
- 标签:一组键值对,用于标识时间序列的维度信息
Prometheus 支持多种类型的指标,包括:
- 计数器:只能增加的数值,如请求数量
- 计时器:记录时间的数值,如请求处理时间
- 直方图:记录数值分布的统计信息,如请求处理时间分布
- 摘要:记录数值分布的统计摘要,如请求数、平均值、中位数等
PromQL 查询语言
PromQL(Prometheus Query Language)是 Prometheus 提供的查询语言,用于查询和分析时间序列数据。PromQL 支持以下主要操作:
- 选择操作:通过指标名称和标签选择时间序列数据
- 聚合操作:对时间序列数据进行聚合,如求和、平均、最大值等
- 函数操作:调用内置函数对时间序列数据进行处理
- 比较操作:对时间序列数据进行比较,如大于、小于、等于等
示例查询
- 查询所有 CPU 使用率:
sum by (instance) (node_cpu_seconds_total)
- 查询内存使用率:
(node_memory_used_bytes{unit="MiB"} / node_memory_total_bytes{unit="MiB"}) * 100
- 查询 HTTP 请求数量:
increase(http_requests_total[5m])
告警系统
告警规则
Prometheus 的告警规则允许你基于 PromQL 表达式定义告警触发条件。当 PromQL 表达式查询结果持续多长时间(During)后触发告警。告警规则文件是 YAML 文件,定义了告警条件和告警信息。
示例告警规则
groups:- name: examplerules:- alert: High CPU Usageexpr: (node_cpu_seconds_total{mode="user"} / node_cpu_seconds_total) * 100 > 90for: 5mlabels:severity: criticalannotations:summary: "High CPU Usage"description: "CPU usage is above 90% for more than 5 minutes."
Alertmanager 配置
Alertmanager 负责处理和分发告警信息。其配置文件主要包含以下部分:
- Global 配置:定义全局参数,如通知渠道的默认参数
- Route 配置:定义告警路由规则,根据告警标签将告警路由到不同的通知渠道
- Inhibit 配置:定义抑制规则,防止在短时间内重复发送相同的告警
- Receivers 配置:定义通知渠道,如邮件、Slack、钉钉等
示例 Alertmanager 配置文件
global:resolve_timeout: 5mroute:receiver: "email"routes:- match:severity: "critical"receiver: "slack"receivers:- name: "email"email_configs:- to: "alert@example.com"send_resolved: true- name: "slack"slack_configs:- channel: "#alerts"send_resolved: true
集成与可视化
与 Grafana 集成
Grafana 是一个流行的可视化工具,支持与 Prometheus 集成,提供丰富的监控仪表板和可视化效果。要将 Prometheus 与 Grafana 集成,需要在 Grafana 中添加 Prometheus 数据源。
配置步骤
- 在 Grafana 中点击左侧导航栏中的 “Data Sources”
- 点击 “Add data source”
- 选择 “Prometheus” 作为数据源类型
- 填写 Prometheus 服务器的 URL(默认为
http://localhost:9090
) - 点击 “Save & Test” 完成配置
与 Kubernetes 集成
Prometheus 提供了专门的 Kubernetes Exporter,用于监控 Kubernetes 集群的资源使用情况。在 Kubernetes 集群中部署 Prometheus 时,可以使用官方提供的 Helm Chart 或 YAML 配置文件。
示例 Kubernetes 配置
apiVersion: monitoring.coreos.com/v1 kind: ServiceMonitor metadata:name: node-exporter spec:selector:matchLabels:app: node-exporterendpoints:- port: httpinterval: 30s
其他集成
Prometheus 拥有丰富的生态系统,支持与多种工具和平台集成,包括:
- Prometheus Operator:在 Kubernetes 集群中管理 Prometheus 实例
- Thanos:提供 Prometheus 的长期数据存储和全局查询能力
- Cortex:提供可扩展的 Prometheus 服务,支持大规模监控数据存储和查询
性能优化与高可用
性能优化
Prometheus 的性能优化主要关注减少资源消耗、提高查询效率和降低基数问题。以下是一些性能优化的最佳实践:
- 合理设置抓取间隔:根据监控需求设置合理的抓取间隔,避免频繁抓取导致资源消耗过高
- 配置数据保留策略:设置适当的数据保留时间,避免存储空间不足
- 优化标签使用:减少高基数标签的使用,避免内存消耗过高
- 使用联邦集群:将监控数据分散到多个 Prometheus 实例中,提高系统性能
- 配置远程存储:将历史数据存储到远程存储系统中,释放本地存储空间
高可用架构
为了提高 Prometheus 的可用性,可以采用以下高可用架构:
- 简单 HA 架构:部署多个 Prometheus 实例,每个实例具有相同的配置,通过负载均衡器对外提供服务
- 简单 HA + 远程存储:在简单 HA 架构的基础上,配置远程存储,将监控数据写入远程存储系统
- 联邦集群架构:部署多个 Prometheus 实例,通过联邦机制将监控数据聚合到一个中心 Prometheus 实例中
联邦集群配置示例
federate:- targets:- 'http://prometheus1:9090'- 'http://prometheus2:9090'
安全配置
Prometheus 提供了多种安全功能,用于保护监控数据和告警信息。以下是一些安全配置的最佳实践:
- Basic Auth 验证:配置 Basic Auth 验证,限制对 Prometheus UI 和 API 的访问
- TLS 加密:配置 TLS 加密,保护数据传输过程中的安全性
- 访问控制:配置访问控制列表,限制对特定监控数据和告警信息的访问
- 静默告警:配置静默告警,防止在指定时间段内发送告警信息
示例安全配置
security:auth:type: basicbasic:users:- name: adminpassword: admin123
最新版本特性
版本发布周期
Prometheus 采用定期发布新版本的策略,通常每 4 周发布一个新版本。Prometheus 的版本号遵循语义化版本控制(Semantic Versioning),格式为 MAJOR.MINOR.PATCH
。
Prometheus 提供了长期支持版本(LTS),只接收错误、安全性和文档修复,时间窗口为一年。LTS 版本使得依赖 Prometheus 的公司可以限制升级风险,同时仍然获得重要的安全修复。
新特性与改进
Prometheus 的新版本通常包含以下改进:
- 性能提升:优化查询引擎和存储引擎,提高系统性能
- 功能增强:增加新的功能和特性,如支持新的指标类型、提供新的查询函数等
- 安全性改进:修复已知的安全漏洞,提高系统安全性
- 兼容性改进:提高与各种系统和工具的兼容性,如 Kubernetes、Grafana 等
社区与生态系统
Prometheus 拥有活跃的开源社区和丰富的生态系统,社区成员积极参与开发、测试和文档编写等工作。Prometheus 的生态系统包括以下组件:
- Exporters:将各种系统和应用的指标数据暴露为 Prometheus 可以抓取的 HTTP 服务
- 可视化工具:如 Grafana,提供丰富的监控仪表板和可视化效果
- 告警工具:如 Alertmanager,提供现代化的告警功能
- 存储解决方案:如 Thanos、Cortex,提供可扩展的数据存储和查询能力
结语
Prometheus 是一个功能强大、灵活多变的监控和告警系统,适用于各种规模和复杂度的 IT 基础设施。通过合理配置和使用,Prometheus 可以帮助运维人员全面了解系统状态、及时发现潜在问题、优化系统性能和提高可用性。
随着技术的发展和用户需求的变化,Prometheus 也在不断演进和改进,提供更好的功能和性能。通过积极参与社区和生态系统,Prometheus 将继续引领监控领域的创新和发展。
相关文章:
Prometheus 基础入门文档
目录 概述 核心组件详解 Prometheus Server Exporters Alertmanager 存储解决方案 安装与配置 安装方法 基本配置 示例配置文件 数据模型与查询语言 数据模型 PromQL 查询语言 示例查询 告警系统 告警规则 示例告警规则 Alertmanager 配置 示例 Alertmanager…...
【数据分析】什么是特征蒸馏?
引言 —— “ 在数据洪流中提炼真金——解密特征蒸馏的艺术。” 在数据爆炸的时代,我们每天产生的信息量已远超人类处理能力的极限。当企业拥有百万维的用户行为数据,医疗研究者面对TB级的基因测序记录,工程师试图从千万张图像中识别关键模式…...

【苍穹外卖】Day01—Mac前端环境搭建
目录 一、安装Nginx (一)安装Homebrew (二)Homebrew安装Nginx 1. 执行安装命令: 2. 验证安装: (三)启动与停止Nginx 二、配置Nginx 1. 替换nginx.conf 2. 替换html文件夹 三…...
Apollo10.0学习——planning模块(9)之参数详解一
planning.conf --flagfilemodules/common/data/global_flagfile.txt # 加载全局通用配置,包含基础运行参数 --traffic_rule_config_filenamemodules/planning/planning_component/conf/traffic_rule_config.pb.txt # 交通规则配置文件,定义信号灯、停车…...
Python-多进程编程 (multiprocessing 模块)
目录 一、创建进程1. Process 的语法结构2. 进程不共享全局变量 二、进程间通信1. 队列通信2. 管道通信 三、进程池1. 常用函数2. 进程池中的 Queue 四、应用:复制文件夹(多进程版)五、守护进程和进程同步六、注意事项 通过使用 multiprocess…...
GraphQL在.NET 8中的全面实践指南
一、GraphQL与.NET 8概述 GraphQL是一种由Facebook开发的API查询语言,它提供了一种更高效、更灵活的替代REST的方案。与REST不同,GraphQL允许客户端精确指定需要的数据结构和字段,避免了"过度获取"或"不足获取"的问题。…...
在mobaxterm下面执行shell脚本报错
关键步骤:在 MobaXterm 的 SSH 会话中强制指定 Bash 解释器 若你曾通过 高级 SSH 设置中的「执行命令」 填写 /bin/bash 解决脚本问题,以下是具体操作和原理说明: 1. 设置位置 打开 MobaXterm,选择需要配置的 SSH 会话࿰…...
系统集成项目管理工程师学习笔记之启动过程组
第十章 启动过程组 制定项目章程 定义 制定项目章程是编写一份正式批准项目并授权项目经理在项目活动中使用组织资源的文件的过程。 正式批准的项目文件 作用 1、明确项目与组织战略目标之间的直接联系 2、确立项目的正式地位 3、展示组织对项目的承诺 本过程仅开展一…...
OceanBase数据库全面指南(数据操作篇DML)
文章目录 一、OceanBase插入数据全指南1.1 INSERT语句基础用法1.2 高级INSERT用法1.2.1 插入查询结果1.2.2 多表插入1.2.3 条件插入1.3 INSERT性能优化技巧1.3.1 批量插入优化1.3.2 使用APPEND提示1.3.3 并行插入二、OceanBase批量插入优化2.1 多行插入语法详解2.2 批量绑定技术…...
深入解析AI中的Prompt工程:从理论到实践
目录 引言:Prompt在AI中的核心地位 第一部分:Prompt基础理论 1.1 什么是Prompt 1.2 ICIO框架:Prompt设计的结构化方法 1.3 为什么需要Prompt 1.4 Prompt的终极价值 第二部分:Prompt工程实践 2.1 Prompt工程概述 2.2 Prompt工程的具体内容 2.3 Prompt Engineer的工…...

软考中级软件设计师——设计模式篇
一、设计模式核心分类 设计模式分为 3 大类,共 23 种模式(考试常考约 10-15 种): 分类核心模式考试重点创建型模式工厂方法、抽象工厂、单例、生成器、原型单例模式的实现(懒汉、饿汉)、工厂模式的应用场…...
matlab二维随机海面模拟
二维随机海面模拟是一种重要的技术,广泛应用于海洋工程、船舶设计、雷达系统和光学通信等领域。利用蒙特卡罗方法结合二维海浪功率谱模型,可以生成符合实际海面特性的随机表面。 步骤 1: 定义海浪功率谱模型 海浪功率谱模型描述了海浪能量在不同频率和…...

Axure系统原型设计列表版方案
列表页面是众多系统的核心组成部分,承担着数据呈现与基础交互的重要任务。一个优秀的列表版设计,能够极大提升用户获取信息的效率,优化操作体验。下面,我们将结合一系列精心设计的列表版方案图片,深入探讨如何打造出实…...

微软全新开源命令行文本编辑器:Edit — 致敬经典,拥抱现代
名人说:博观而约取,厚积而薄发。——苏轼《稼说送张琥》 创作者:Code_流苏(CSDN)(一个喜欢古诗词和编程的Coder😊) 目录 一、引言:命令行的新利器二、Edit:致敬经典,拥抱现代1. 命令行的“新升级”2. 为什么要有 Edit?三、核心功能与特性一览1. 完全开源、MIT 许可证…...

年会招标抽奖活动软件———仙盟创梦IDE
年会是企业一年的总结与欢庆时刻,而抽奖环节更是点燃全场气氛的关键。如何让抽奖环节既大气又充满仪式感?选对抽奖软件至关重要!本文精心挑选了 3 款兼具实用性与氛围感的年会抽奖软件,从界面设计到功能特色,全方位为你…...

智防火灾,慧控能耗:物联网赋能金融行业电气安全革新
摘要 随着金融行业对电气安全需求的不断提升,传统用电管理模式已难以满足现代金融机构对火灾防控、能耗管理和智能运维的要求。本文基于物联网、云计算及大数据分析技术,提出一套针对金融行业的安全用电解决方案。该方案通过智能化硬件部署与平台化管理…...
Any类(C++17类型擦除,也称上帝类)
Any类(C17类型擦除,也称上帝类) 在C中,std::any 是C17标准引入的一个灵活的类型安全容器,用于存储任意类型的单个值。 1. std::any 的核心特性 类型安全:存储的值必须通过明确的类型转换(any_…...
jquery.table2excel方法导出
jquery提供了一个table2excel方法可以用来导出页面到xls等 $("#grid_595607").table2excel({exclude: ".noExport", // 排除类名为 noExport 的元素filename: "导出数据.xls",exclude_img: true, // 不导出图片exclude_links: true, // 不导…...
Spring Boot 多租户架构实现:基于上下文自动传递的独立资源隔离方案
一、核心设计思想 通过线程上下文自动传递租户ID,结合动态数据源路由和中间件连接工厂,实现MySQL、Redis、RocketMQ的完全自动化资源隔离。关键设计如下: #mermaid-svg-ZjXCGSWoCuNFMIch {font-family:"trebuchet ms",verdana,aria…...

在 JavaScript 中正确使用 Elasticsearch,第二部分
作者:来自 Elastic Jeffrey Rengifo 回顾生产环境中的最佳实践,并讲解如何在无服务器环境中运行 Elasticsearch Node.js 客户端。 想获得 Elastic 认证?查看下一期 Elasticsearch Engineer 培训的时间! Elasticsearch 拥有大量新…...

更新nvidia-container-toolkit 1.17.7-1后,运行--gpus all 卡死问题
用Arch每日一滚,结果今天用 sudo docker run -it --runtimenvidia --gpus all居然卡死了,排雷排了几小时,才从开源库发现问题 nvidia-container-toolkit 1.17.7-1 是有问题的,而且在ubuntu和arch上都存在问题。 只好Downgrade 1.…...
【Nginx学习笔记】:Fastapi服务部署单机Nginx配置说明
服务部署单机Nginx配置说明 服务.conf配置文件: upstream asr_backend {server 127.0.0.1:8010; }server {listen 80;server_name your_domain.com;location / {proxy_pass http://localhost:8000;proxy_set_header Host $host;proxy_set_header X-Real-IP $remot…...
相机标定与图像处理涉及的核心坐标系
坐标系相互关系 #mermaid-svg-QxaMjIcgWVap0awV {font-family:"trebuchet ms",verdana,arial,sans-serif;font-size:16px;fill:#333;}#mermaid-svg-QxaMjIcgWVap0awV .error-icon{fill:#552222;}#mermaid-svg-QxaMjIcgWVap0awV .error-text{fill:#552222;stroke:#552…...
在 ASP.NET 中,HTTP 处理程序(HttpHandler)是处理 HTTP 请求的核心组件
ASP.NET 中 HttpHandler 的用法详解 在 ASP.NET 中,HTTP 处理程序(HttpHandler)是处理 HTTP 请求的核心组件。根据你的配置文件,我将详细解释 <handlers> 节点的各种用法和配置选项。 1. HttpHandler 概述 HttpHandler 是…...

通义灵码 2.5 版深度评测:智能编程的边界在哪里?
通义灵码 2.5 版深度评测:智能编程的边界在哪里? 评测目标 全面测试智能体模式:是否真正具备自主决策能力?MCP 工具集成体验:能否提升开发效率?AI 记忆自感知能力:是否能真正理解开发者习惯&a…...

电商项目-商品微服务-规格参数管理,分类与品牌管理需求分析
本文章介绍:规格参数管理与分类与品牌管理的需求分析和表结构的设计。 一、规格参数管理 规格参数模板是用于管理规格参数的单元。规格是例如颜色、手机运行内存等信息,参数是例如系统:安卓(Android)后置摄像头像素&…...

零基础设计模式——创建型模式 - 工厂方法模式
第二部分:创建型模式 - 工厂方法模式 (Factory Method Pattern) 上一节我们学习了单例模式,它关注如何保证一个类只有一个实例。现在,我们来看另一个重要的创建型模式——工厂方法模式。它关注的是如何创建对象,但将创建的决定权…...
LeetCode 404.左叶子之和的递归求解:终止条件与递归逻辑的深度剖析
一、题目解析:左叶子的定义与递归求解思路 题目描述 LeetCode 404. 左叶子之和要求计算二叉树中所有左叶子节点的值之和。左叶子的严格定义是:如果一个节点是其父节点的左子节点,并且它本身没有左右子节点,则称为左叶子。 关键…...
蓝桥杯5130 健身
问题描述 小蓝要去健身,他可以在接下来的 1∼n 天中选择一些日子去健身。 他有 m 个健身计划,对于第 i 个健身计划,需要连续的 天,如果成功完成,可以获得健身增益 si ,如果中断,得不到任何…...

电商虚拟户:重构资金管理逻辑,解锁高效归集与智能分账新范式
一、电商虚拟户的底层架构与核心价值 在数字经济浪潮下,电商交易的复杂性与日俱增,传统账户体系已难以满足平台企业对资金管理的精细化需求。电商虚拟户作为基于银行或持牌支付机构账户体系的创新解决方案,通过构建“主账户子账户”的虚拟账户…...