当前位置：首页 > news >正文

【kubernetes】基于prometheus的监控

news 2026/2/10 1:58:12

1 监控解决方案

从实现方案来说，监控分为3个部分：数据采集、数据存储、数据分析。

数据采集是指获取采集对象的指标数据，而数据数据可以分成2种模式：推和拉。推就是agent主动将数据进行上报，拉就是服务端主动从agent拉取数据。

数据存储是指将采集的指标数据存储起来供后续的数据查询和分析，现在通常用时序数据库存储监控数据。

数据分析就是对数据的合理性进行判断，从而发现异常的数据，用于发现现网的问题。

2 prometheus

在容器领域，提到监控就不得不提到prometheus。prometheus是一个开源的解决方案，而且可以很方便的进行扩展。

prometheus的体系中也包含上面提到的三个部分：

exporter：负责数据采集
prometheus：数据存储和数据分析
alertmanager：告警推送

具体的工作流程是：exporter提供采集数据的接口，但自身并不存储数据，只是获取采集对象的数据然后格式化成指标数据，prometheus会定期从exporter拉取数据，然后将数据存储起来，prometheus自身也是个时序数据库，之后prometheus会定期执行用户配置的告警规则，如果满足配置的规则条件，就会调用alertmanager发送告警，alertmanager会对告警进行聚合以及执行一些抑制规则，同时，alertmanager会负责将告警发送到具体的告警通道，例如，短信、钉钉等，也可以开发alerthook程序对接用户自己的告警接口。

因此，使用prometheus监控除了需要部署prometheus以外，重要的是需要采集的对象以及告警规则。

2.1 容器监控

容器的监控依赖cAdvisor组件，该组件会获取容器维度的指标数据，包含容器的CPU、文件读写、内存、网络、线程等指标，当前该组件已经集成到kubelet中，可以直接访问/api/v1/nodes/{node_name}/proxy/metrics/cadvisor接口查看某个节点上的容器指标数据。

2.2 节点监控

当需要监控Node的指标时，需要安装node_exporter：

apiVersion: apps/v1
kind: DaemonSet
metadata:name: node-exporterlabels:name: node-exporterk8s-app: node-exporter
spec:selector:matchLabels:name: node-exportertemplate:metadata:labels:name: node-exporterapp: node-exporterspec:hostPID: truehostIPC: truehostNetwork: truecontainers:- name: node-exporterimage: prom/node-exporter:v0.16.0ports:- containerPort: 9100resources:requests:cpu: 0.15securityContext:privileged: trueargs:- --path.procfs- /host/proc- --path.sysfs- /host/sys- --collector.filesystem.ignored-mount-points- '"^/(sys|proc|dev|host|etc)($|/)"'volumeMounts:- name: devmountPath: /host/dev- name: procmountPath: /host/proc- name: sysmountPath: /host/sys- name: rootfsmountPath: /rootfstolerations:- key: "node-role.kubernetes.io/master"operator: "Exists"effect: "NoSchedule"volumes:- name: prochostPath:path: /proc- name: devhostPath:path: /dev- name: syshostPath:path: /sys- name: rootfshostPath:path: /

安装完成后，可以用ss -lntp | grep node_exporter查看node_exporter监听的端口，默认是9100，可以用curl 127.0.0.1:9100/metrics命令查看相应的节点的指标数据。

2.3 资源对象监控

涉及到k8s的资源监控，可以使用kube-state-metrics获取集群资源指标。

rbac.yaml：

apiVersion: v1
kind: ServiceAccount
metadata:name: kube-state-metricsnamespace: kube-systemlabels:kubernetes.io/cluster-service: "true"addonmanager.kubernetes.io/mode: Reconcile---apiVersion: rbac.authorization.k8s.io/v1
kind: ClusterRole
metadata:name: kube-state-metricslabels:kubernetes.io/cluster-service: "true"addonmanager.kubernetes.io/mode: Reconcile
rules:
- apiGroups: [""]resources:- configmaps- secrets- nodes- pods- services- resourcequotas- replicationcontrollers- limitranges- persistentvolumeclaims- persistentvolumes- namespaces- endpointsverbs: ["list", "watch"]
- apiGroups: ["apps"]resources:- statefulsets- daemonsets- deployments- replicasetsverbs: ["list", "watch"]
- apiGroups: ["batch"]resources:- cronjobs- jobsverbs: ["list", "watch"]
- apiGroups: ["autoscaling"]resources:- horizontalpodautoscalersverbs: ["list", "watch"]
- apiGroups: ["networking.k8s.io", "extensions"]resources:- ingresses verbs: ["list", "watch"]
- apiGroups: ["storage.k8s.io"]resources:- storageclasses verbs: ["list", "watch"]
- apiGroups: ["certificates.k8s.io"]resources:- certificatesigningrequestsverbs: ["list", "watch"]
- apiGroups: ["policy"]resources:- poddisruptionbudgets verbs: ["list", "watch"]---apiVersion: rbac.authorization.k8s.io/v1
kind: Role
metadata:name: kube-state-metrics-resizernamespace: kube-systemlabels:kubernetes.io/cluster-service: "true"addonmanager.kubernetes.io/mode: Reconcile
rules:
- apiGroups: [""]resources:- podsverbs: ["get"]
- apiGroups: ["extensions","apps"]resources:- deploymentsresourceNames: ["kube-state-metrics"]verbs: ["get", "update"]---apiVersion: rbac.authorization.k8s.io/v1 
kind: ClusterRoleBinding
metadata:name: kube-state-metricslabels:kubernetes.io/cluster-service: "true"addonmanager.kubernetes.io/mode: Reconcile
roleRef:apiGroup: rbac.authorization.k8s.iokind: ClusterRolename: kube-state-metrics
subjects:
- kind: ServiceAccountname: kube-state-metricsnamespace: kube-system---apiVersion: rbac.authorization.k8s.io/v1
kind: RoleBinding
metadata:name: kube-state-metricsnamespace: kube-systemlabels:kubernetes.io/cluster-service: "true"addonmanager.kubernetes.io/mode: Reconcile
roleRef:apiGroup: rbac.authorization.k8s.iokind: Rolename: kube-state-metrics-resizer
subjects:
- kind: ServiceAccountname: kube-state-metricsnamespace: kube-system

deployment.yaml：

apiVersion: apps/v1
kind: Deployment
metadata:name: kube-state-metricsnamespace: kube-systemlabels:k8s-app: kube-state-metricskubernetes.io/cluster-service: "true"addonmanager.kubernetes.io/mode: Reconcileversion: v1.3.0
spec:selector:matchLabels:k8s-app: kube-state-metricsversion: v1.3.0replicas: 1template:metadata:labels:k8s-app: kube-state-metricsversion: v1.3.0annotations:scheduler.alpha.kubernetes.io/critical-pod: ''spec:priorityClassName: system-cluster-criticalserviceAccountName: kube-state-metricscontainers:- name: kube-state-metricsimage: lizhenliang/kube-state-metrics:v1.8.0 ports:- name: http-metricscontainerPort: 8080- name: telemetrycontainerPort: 8081readinessProbe:httpGet:path: /healthzport: 8080initialDelaySeconds: 5timeoutSeconds: 5- name: addon-resizerimage: lizhenliang/addon-resizer:1.8.6resources:limits:cpu: 100mmemory: 30Mirequests:cpu: 100mmemory: 30Mienv:- name: MY_POD_NAMEvalueFrom:fieldRef:fieldPath: metadata.name- name: MY_POD_NAMESPACEvalueFrom:fieldRef:fieldPath: metadata.namespacevolumeMounts:- name: config-volumemountPath: /etc/configcommand:- /pod_nanny- --config-dir=/etc/config- --container=kube-state-metrics- --cpu=100m- --extra-cpu=1m- --memory=100Mi- --extra-memory=2Mi- --threshold=5- --deployment=kube-state-metricsvolumes:- name: config-volumeconfigMap:name: kube-state-metrics-config---apiVersion: v1
kind: ConfigMap
metadata:name: kube-state-metrics-confignamespace: kube-systemlabels:k8s-app: kube-state-metricskubernetes.io/cluster-service: "true"addonmanager.kubernetes.io/mode: Reconcile
data:NannyConfiguration: |-apiVersion: nannyconfig/v1alpha1kind: NannyConfiguration

2.4 metrics–server

以上的三个采集器分别采集容器、节点、资源对象的指标数据，指标都比较多，并且节点和资源对象还需要安装额外的组件。

但是，在k8s中还存在这样一种场景：

只需要节点和Pod的简单指标数据，例如cpu和内存，不需要太多数据
访问k8s apiserver的接口就可以访问这些数据
只需要访问近期的数据就行，不需要保存太长时间

因此，在k8s上加入了metrics-server这样一个插件，它定时访问kubelet的接口获取Node和Pod当前的cpu和memory并保存到内存，当其他功能调用k8s apiserver的接口获取指标数据时，metrcis-server会直接读取内存中的数据返回。

对于minikube，可以通过minikube addons enable metrics-server命令启用，对于k8s就需要额外安装了。

当前有三种场景会访问该接口：

kubectl top：根据Node和Pod的cpu和memory使用率进行排序
HPA：根据Pod的cpu和memory使用率进行扩缩容
kube-scheduler：在调度的优选阶段，会考虑Node的cpu和memory使用率

以上讲解的基本都是数据采集，它们的关系如下：

请添加图片描述

3 prometheus-operator vs kube-prometheus vs helm

使用prometheus进行监控，可以直接使用prometheus的镜像部署，将配置文件放到configmap，使用pv存储数据，但是这样做的话需要考虑prometheus上下游的组件及其容灾，因此，在kubernetes环境下，提供了operator的部署方式。

operator就是CRD+Controller，通过将prometheus中的配置抽象成kubernetes的CRD，当用户使用CRD进行部署时，Controller就会自动将用户提交的信息转换成prometheus上下游的配置，同时在信息变更时自动执行更新。

部署prometheus-operator有三种方式：

prometheus-operator：只包含CRD+operator(bundle.yaml)，但是并没有部署prometheus、exporter等组件，用户需要自行创建对应的资源进行部署。
kube-prometheus：除了上面的CRD和operator，还会将整个监控体系都部署，例如，kube-state-metrics、node-exporter、prometheus、alertmanager。
helm：跟kube-prometheus一样，会部署整个监控体系，只是使用了helm工具。

3.1 prometheus-operator

从prometheus-operator release页面下载bundle.yaml。

执行上面的bundle.yaml后，会创建2部分资源：

CRD：kubectl get crd | grep monitoring
operator：kubectl -n monitoring get pods

CRD包含以下的资源：

AlertManager：部署alertmanager
PodMonitor：选择需要监控的Pod
Prometheus：部署prometheus
PrometheusRule：创建prometheus的监控规则
ServiceMonitor：选择需要监控的服务
ThanosRuler

而operator的作用就是让这些资源生效，当这些资源变更或者相关资源变更时，执行相应的变更逻辑。

所以，如果只部署上面的yaml文件，本身并没有部署任何跟监控相关的组件，只是让k8s中多了一些资源的类型，但是这些资源的变化需要operator控制器去执行一些操作，例如，如果需要部署prometheus，就需要创建Prometheus资源，在创建这些后，prometheus-operator就会去部署prometheus；如果需要创建监控规则，就需要创建PrometheusRule资源，prometheus-operator就会将这些规则加入到prometheus的规则配置文件中并让其生效。

3.2 kube-prometheus

git clone https://github.com/prometheus-operator/kube-prometheus
kubectl apply --server-side -f manifests/setup # 创建namespace和CRD
kubectl apply -f manifests/

上面的manifests目录中包含prometheus-operator以及整个监控体系的所有组件，包含：

The Prometheus Operator
Highly available Prometheus：高可用的Prometheus
Highly available Alertmanager：高可用的AlertManager
Prometheus node-exporter
Prometheus Adapter for Kubernetes Metrics APIs
kube-state-metrics
Grafana

3.3 helm

helm repo add prometheus-community https://prometheus-community.github.io/helm-charts
helm repo update
helm install [RELEASE_NAME] prometheus-community/kube-prometheus-stack

使用上面的命令可以直接安装整个监控体系。

参考文档

使用Operator部署Prometheus监控k8s集群
从kubectl top看K8S监控

【kubernetes】基于prometheus的监控

目录 1 监控解决方案2 prometheus2.1 容器监控2.2 节点监控2.3 资源对象监控2.4 metrics--server 3 prometheus-operator vs kube-prometheus vs helm3.1 prometheus-operator3.2 kube-prometheus3.3 helm 参考文档 1 监控解决方案从实现方案来说，监控分为3个部分…...

编程日记 2023/10/7 6:45:46

Gmail 将停止支持基本 HTML 视图

根据 Google 支持文档的更新内容，Gmail 将从明年 1 月起停止支持基本 HTML 视图。 ▲ Gmai 基本 HTML 视图界面目前网页版 Gmail 提供两个界面：基本 HTML 视图和标准视图。停止支持基本 HTML 视图后，当前打开经典模式的基本 HTML 视图模式 …...

编程日记 2023/10/7 6:43:44

电影大师杂记

假期集中刷了好多书，游戏和电影，在虚拟世界里猛烈的各种闲逛，cyberpunk 2077到blade runner，到异形，到终结者，到星球大战&环太平洋，到工业光魔，还有各种编程的书。。。 hmmm&…...

编程日记 2023/10/7 6:37:39

聊聊分布式架构——RPC通信原理

目录 RPC通信的基本原理 RPC结构手撸简陋版RPC 知识点梳理 1.Socket套接字通信机制 2.通信过程的序列化与反序列化 3.动态代理 4.反射思维流程梳理码起来服务端时序图服务端—Api与Provider模块客户端时序图 RPC通信的基本原理 RPC（Remote Proc…...

编程日记 2023/10/7 6:35:37

Android：实现手机前后摄像头预览同开

效果展示一.概述本博文讲解如何实现手机前后两颗摄像头同时预览并显示我之前博文《OpenGLES：GLSurfaceView实现Android Camera预览》对单颗摄像头预览做过详细讲解，而前后双摄实现原理其实也并不复杂，粗糙点说就是把单摄像头预览流程写两…...

编程日记 2023/10/7 6:33:35

2.2.4 yocto poky openembedded bitbake关系

一基本概念 The Yocto Project is an open-source project that delivers a set of tools that create operating system images for embedded Linux systems. Poky is the reference operating system distribution built with Yocto Project tools, and OpenEmbedded is a …...

编程日记 2023/10/7 6:31:33

开源后台管理系统（go-vue-admin）

go-vue-admin 是一套基于go语言开源的后台管理系统。功能参考诺依网站 ，前后端分离。简介前端采用vue3、Element Plus 、RuoYi-Vue3后端采用gofrome 框架、mysql、redis、Jwt实现了一键生成前后端代码，高效开发。内置功能用户管理：用…...

编程日记 2023/10/7 6:29:32

想升级macOS Big Sur，但是MacBook内存空间不够该怎么办？

随着使用时间的增长，我们会发现Mac电脑的存储空间越来越少，这时候我们就需要对Mac电脑进行清理，以释放更多的存储空间。那么，Mac空间不足怎么解决呢？ 1.清理垃圾文件 Mac空间不足怎么解决？首先要做的就是清…...

编程日记 2023/10/7 6:27:29

结构化面试 --- 介绍 + 人际关系

目录一、介绍 1、认识考试 2、认识考官 3、认识对手 4、认识考场 5、认识规则 6、如何备考二、人际关系练习题第一题（换岗） 第二题（办法） 第三题（相处） 第四题第五题第六题 …...

编程日记 2023/10/7 6:26:28

李沐深度学习记录5：13.Dropout

Dropout从零开始实现 import torch from torch import nn from d2l import torch as d2l# 定义Dropout函数 def dropout_layer(X, dropout):assert 0 < dropout < 1# 在本情况中，所有元素都被丢弃if dropout 1:return torch.zeros_like(X)# 在本情况中&…...

编程日记 2023/10/7 6:24:27

计算机竞赛题目：基于大数据的用户画像分析系统数据分析开题

文章目录 1 前言2 用户画像分析概述2.1 用户画像构建的相关技术2.2 标签体系2.3 标签优先级 3 实站 - 百货商场用户画像描述与价值分析3.1 数据格式3.2 数据预处理3.3 会员年龄构成3.4 订单占比消费画像3.5 季度偏好画像3.6 会员用户画像与特征3.6.1 构建会员用户业务特征标签…...

编程日记 2023/10/7 6:21:24

MFC ExtTextOut函数学习

ExtTextOut - 扩展的文本输出； win32 api的声明如下； ExtTextOut( DC: HDC; {设备环境句柄} X, Y: Integer; {起点坐标} Options: Longint; {选项} Rect: PRect; {指定显示范围; 0 表示限制范围} Str: PChar; {字符串…...

编程日记 2023/10/7 6:19:23

Java中阻塞队列原理、特点、适用场景

文章目录阻塞队列对比、总览阻塞队列本质思想主要队列讲解ArrayBlockingQueueLinkedBlockingQueueSynchronousQueueLinkedTransferQueuePriorityBlockingQueueDelayQueueLinkedBlockingDeque 阻塞队列对比、总览阻塞队列本质思想阻塞队列都是线程安全的队列. 其最主要的功能…...

编程日记 2023/10/7 6:18:22

PHP之linux、apache和nginx与安全优化面试题

1.linux常用命令查看目录pwd 创建文件touch 创建目录mkdir 删除文件rm 删除目录rmdir移动改名文件 mc 查询目录find 修改权限chmod 压缩包 tar 安装 yum install 修改文件vi查看进程ps 停止进程kill 定时任务crontab 2、nginx的优化 gzip压缩优化 expires缓存…...

编程日记 2023/10/7 6:16:19

算法笔记：0-1背包问题

n个商品组成集合O，每个商品有两个属性vi（体积）和pi（价格），背包容量为C。求解一个商品子集S，令优化目标 1. 枚举所有商品组合共2^n - 1种情况 2. 递归求解 KnapsackSR(h, i, c)&#xff…...

编程日记 2023/10/7 6:14:18

C++入门-day02

引言：在上一节中我们接触了C中的命名空间，学会了C中的标准输出流。这一节，我标题一们讲讲缺省、重载。一、缺省参数在C中，给函数的形参默认给一个值就是缺省参数，你可能会比较懵逼，下面看一段代码。正常…...

编程日记 2023/10/7 6:13:17

模板方法模式，基于继承实现的简单的设计模式（设计模式与开发实践 P11）

文章目录实现举例应用钩子 Hook 模板方法模式是一种基于继承的设计模式，由两部分构成： 抽象父类（一般封装了子类的算法框架）具体的实现子类实现简单地通过继承就可以实现举例足球赛和篮球赛都有 3 个步骤&#xff0c…...

编程日记 2023/10/7 6:12:15

php实战案例记录(16)php://input输入流

php://input是PHP中的一个特殊的输入流，它允许访问请求的原始数据。它主要用于处理非表单的POST请求，例如当请求的内容类型为application/json或application/xml时。使用php://input可以获取到POST请求中的原始数据，无论数据是什么格式。使用…...

编程日记 2023/10/7 6:09:13

cad图纸如何防止盗图（一个的制造设计型企业如何保护设计图纸文件）

在现代企业中，设计图纸是公司的重要知识产权，关系到公司的核心竞争力。然而，随着技术的发展，员工获取和传播设计图纸的途径越来越多样化，如何有效地防止员工复制设计图纸成为了企业管理的一大挑战。本文将从技术、管理…...

编程日记 2023/10/7 6:08:12

Windows11 安全中心页面不可用问题(无法打开病毒和威胁防护)解决方案汇总(图文介绍版)

本文目录 Windows版本与报错信息问题详细图片： 解决方案:方案一、管理员权限（若你确定你的电脑只有你一个账户，则此教程无效，若你也不清楚，请阅读后再做打算）方案二、修改注册表(常用方案)方案三、进入开发…...

编程日记 2023/10/7 6:07:11

练习（含atoi的模拟实现,自定义类型等练习）

一、结构体大小的计算及位段 （结构体大小计算及位段详解请看：自定义类型：结构体进阶-CSDN博客） 1.在32位系统环境，编译选项为4字节对齐，那么sizeof(A)和sizeof(B)是多少？ #pragma pack(4)st…...

编程新知 2026/1/30 15:16:30

基于服务器使用 apt 安装、配置 Nginx

🧾 一、查看可安装的 Nginx 版本首先，你可以运行以下命令查看可用版本： apt-cache madison nginx-core输出示例： nginx-core | 1.18.0-6ubuntu14.6 | http://archive.ubuntu.com/ubuntu focal-updates/main amd64 Packages ng…...

编程新知 2026/1/9 12:53:59

AtCoder 第409场初级竞赛 A~E题解

A Conflict 【题目链接】原题链接：A - Conflict 【考点】枚举【题目大意】找到是否有两人都想要的物品。【解析】遍历两端字符串，只有在同时为 o 时输出 Yes 并结束程序，否则输出 No。【难度】 GESP三级【代码参考】 #i…...

编程新知 2025/12/16 4:45:38

Vue2 第一节_Vue2上手_插值表达式{{}}_访问数据和修改数据_Vue开发者工具

文章目录 1.Vue2上手-如何创建一个Vue实例,进行初始化渲染2. 插值表达式{{}}3. 访问数据和修改数据4. vue响应式5. Vue开发者工具--方便调试 1.Vue2上手-如何创建一个Vue实例,进行初始化渲染准备容器引包创建Vue实例 new Vue()指定配置项 ->渲染数据准备一个容器,例如: …...

编程新知 2026/2/7 10:59:19

【SQL学习笔记1】增删改查+多表连接全解析（内附SQL免费在线练习工具）

可以使用Sqliteviz这个网站免费编写sql语句，它能够让用户直接在浏览器内练习SQL的语法，不需要安装任何软件。链接如下： sqliteviz 注意： 在转写SQL语法时，关键字之间有一个特定的顺序，这个顺序会影响到…...

编程新知 2026/2/5 4:36:53

AspectJ 在 Android 中的完整使用指南

一、环境配置（Gradle 7.0 适配） 1. 项目级 build.gradle // 注意：沪江插件已停更，推荐官方兼容方案 buildscript {dependencies {classpath org.aspectj:aspectjtools:1.9.9.1 // AspectJ 工具} } 2. 模块级 build.gradle plu…...

编程新知 2025/7/7 22:33:57