当前位置：首页 > news >正文

【博客620】prometheus如何优化远程读写的性能

news 2026/5/12 17:41:40

prometheus如何优化远程读写的性能

场景

为了解决prometheus本地存储带来的单点问题，我们一般在高可用监控架构中会使用远程存储，并通过配置prometheus的remote_write和remote_read来对接

远程写优化：remote_write

远程写的原理：

每个远程写入目标都会启动一个内存写队列（shards），这个队列从WAL中缓存数据。，通过队列去将指标数据写到有远程存储服务中,数据流如下所示：

      |-->  queue (shard_1)   --> remote endpoint
WAL --|-->  queue (shard_...) --> remote endpoint|-->  queue (shard_n)   --> remote endpoint

重试机制：

当一个分片备份并填满队列时，Prometheus将阻止从WAL中读取数据到任何分片。（关于这点就涉及到对以上参数优化，后面参数capacity部分讲解）
远程端点写入失败会进行重试操作，并且保证数据不会丢失，除非远程端点保持关闭状态超过2小时，因为2小时后，WAL将被压缩，尚未发送的数据将丢失。重试时间见下面参数：min_backoff和max_backoff。

内存使用：

使用远程写入会增加Prometheus的内存占用量。大多数用户报告的内存使用量增加了约25％，但这取决于数据的形状。对于WAL中的每个系列，远程写代码都会缓存系列ID到标签值的映射，从而显着增加内存使用率。除了series缓存之外，每个分片及其队列还会增加内存使用量。当进行优化调整时，请考虑减少max_shards增加的数量，同时提高capacity和max_samples_per_send参数的大小从而避免无意间耗尽内存。默认capacity和 max_samples_per_send的取值将使得每每个shard使用内存小于100kb。

在这里插入图片描述

remote write queue的可调参数：

# Configures the queue used to write to remote storage.
queue_config:# Number of samples to buffer per shard before we block reading of more# samples from the WAL. It is recommended to have enough capacity in each# shard to buffer several requests to keep throughput up while processing# occasional slow remote requests.[ capacity: <int> | default = 2500 ]# Maximum number of shards, i.e. amount of concurrency.[ max_shards: <int> | default = 200 ]# Minimum number of shards, i.e. amount of concurrency.[ min_shards: <int> | default = 1 ]# Maximum number of samples per send.[ max_samples_per_send: <int> | default = 500]# Maximum time a sample will wait in buffer.[ batch_send_deadline: <duration> | default = 5s ]# Initial retry delay. Gets doubled for every retry.[ min_backoff: <duration> | default = 30ms ]# Maximum retry delay.[ max_backoff: <duration> | default = 5s ]# Retry upon receiving a 429 status code from the remote-write storage.# This is experimental and might change in the future.[ retry_on_http_429: <boolean> | default = false ]

max_shards和max_samples_per_send决定了Prometheus写入远程存储的最大TPS

参数解析：

1、capacity

定义：每个内存队列（shard：分片）的容量。

一旦WAL被阻塞，就无法将样本附加到任何分片，并且所有吞吐量都将停止。所以在大多数情况下，单个队列容量应足够打以避免阻塞其他分片，但是太大的容量可能会导致过多的内存消耗，并导致重新分片期间清除队列的时间更长。
2、max_shards

顾名思义，最大的分片数（即队列数），也可以理解为远程写的并行度。peometheus远程写的时候会使用所有的分片，只有在写队列落后于远程写的速度，使用的队列数会达到max_shards,目的在于提高远程写的吞吐量。

PS：在操作过程中，Prometheus将根据传入的采样率，未发送的未处理样本数以及发送每个样本所花费的时间，连续计算要使用的最佳分片数。（实际的分片数是动态调整的）
3、min_shards
最小分片配置Prometheus使用的最小分片数量，并且是远程写入开始时使用的分片数量。如果远程写入落后，Prometheus将自动扩大分片的数量，因此大多数用户不必调整此参数。但是，增加最小分片数将使Prometheus在计算所需分片数时避免在一开始就落后。
4、max_samples_per_send

定义：每次远程写发送的最大指标数量，即批处理；

这个值依赖于远程存储系统，对于一些系统而言，在没有显著增加延迟的情况下发送更多指标数据而运行良好，然而，对于另外一些系统而言，每次请求中发送大量指标数据可能导致其出现故障，使用的默认值是适用于绝大多数系统的。
5、batch_send_deadline

定义：单一分片批量发送指标数据的最大等待时间；

即使排队的分片尚未达到max_samples_per_send，也会发送请求。对于对延迟不敏感的小批量系统，可以增加批量发送的截止时间，以提高请求效率。
6、min_backoff

定义：远程写失败的最小等待时间；

min_backoff是第一次的重试等待时间，第二次等待时间是其2倍，以此类推，直到max_backoff的值；
7、max_backoff

定义：远程写失败的最大等待时间；

推荐做法：

当进行优化调整时，请考虑减少max_shards的数量，同时提高capacity和max_samples_per_send参数的大小从而避免无意间耗尽内存
max_shards和max_samples_per_send决定了Prometheus写入远程存储的最大TPS，
max_shards * max_samples_per_send决定了TPS的值，所以要考虑这两个的合理搭配

给出阿里云prometheus对接TSDB调优参考表：

在这里插入图片描述

远程读优化：remote_read

默认情况下，prometheus除了使用remote_write将数据发送到远程时序数据库，同时还会按照以下参数来保留数据到本地自己的时序数据库，两者取最先达到限制的：

--storage.tsdb.retention.time=30d
--storage.tsdb.retention.size=512MB

也就说默认情况下，prometheus保存了两份数据，一份到远程时序数据库，一份在本地

那么读取的时候是读取远程的还是读取本地是由read_recent参数决定

# Whether reads should be made for queries for time ranges that
# the local storage should have complete data for.
[ read_recent: <boolean> | default = false ]

read_recent作用：

当设置为 true 时，所有查询都将从远程和本地存储中得到答复。
当为 false（默认值）时，任何可以从本地存储完全回答的查询都不会发送到远程端点

推荐做法：

通过storage.tsdb.retention.time与storage.tsdb.retention.size控制缓存短期数据在本地
配置read_recent为false，使得本地能查询到的数据都优先在本地进行查询

在这里插入图片描述

【博客620】prometheus如何优化远程读写的性能

prometheus如何优化远程读写的性能场景为了解决prometheus本地存储带来的单点问题，我们一般在高可用监控架构中会使用远程存储，并通过配置prometheus的remote_write和remote_read来对接远程写优化：remote_write 远程写的原理&#xff1a…...

编程日记 2023/2/13 7:15:25

redis可视工具AnotherRedisDesktopManager的使用

redis可视工具AnotherRedisDesktopManager的使用简介 Another Redis DeskTop Manager 是一个开源项目，提供了以可视化的方式管理 Redis 的功能，可供免费下载安装，也可以在此基础上进行二次开发，主要特点有： 支持 W…...

编程日记 2023/4/19 17:03:49

【idea】idea生产类注释和方法注释

网上有很多类似的文章，但是我在按照他们的文章设置后，出现了一些问题，因此我这边在解决了问题后，总结一篇文章，发出来给大家借鉴一下。在此先说明一下idea的版本，是2020.1.3 设置动态模板，File…...

编程日记 2023/2/13 7:13:07

jenkins +docker+python接口自动化之jenkins容器安装python3（二）

jenkins dockerpython接口自动化之jenkins容器安装python3（二） 目录：导读前提是在docker下已经配置好jenkins容器了，是将python安装在jenkins容器下的 1、先看你的jenkins是否安装好 2、以root权限进入jenkins容器&#xff1…...

编程日记 2023/2/13 7:12:00

go 命令行工具整理

这里会整理可能会使用到的命令行参数，比如 go build、go run，诸如此类。了解这些内容对我们工作会有什么帮助吗？更多的时候，是能让我们理解代码编译的意图，或者，给我们一种排查问题的手段。比方说&#x…...

编程日记 2023/4/19 17:16:27

RuntimeError: CUDA out of memory

今天在训练模型的时候突然报了显存不够的问题，然后分析了一下，找到了解决的办法，这里记录一下，方便以后查阅。注：以下的解决方案是在模型测试而不是模型训练时出现这个报错的！ RuntimeError: CUDA out of…...

编程日记 2023/2/13 7:08:35

Kubernetes1.25中Redis集群部署实例

1、概述我们知道在 Kubernetes 容器编排平台中, 我们可以非常方便的进行应用的扩容缩, 同时也能非常方便的进行业务的迭代，本章主要讲解在Kubernetes1.25搭建Redis单实例和Redis集群主从同步的环境流程步骤, 如果是高频访问重要的线上业务我们最好是部署在物理机器上…...

编程日记 2023/4/19 17:25:16

C++11实现计算机网络中的TCP/IP连接（Windows端）

目录引言1、TCP2、IP2.1 IP路由器3、TCP/IP4、TCP/IP协议C11实现参考文献引言 TCP/IP 指传输控制协议/网际协议（Transmission Control Protocol / Internet Protocol）。[1] 在TCP/IP协议簇中主要包含以下内容： TCP (传输控制协议) - 应用程序…...

编程日记 2023/2/13 7:06:13

Spring框架自定义实现IOC基础功能/IDEA如何手动实现IOC功能

继续整理记录这段时间来的收获，详细代码可在我的Gitee仓库Java设计模式克隆下载学习使用！ 7.4 自定义Spring IOC 创建新模块，结构如图![[Pasted image 20230210173222.png]] 7.4.1 定义bean相关POJO类 7.4.1.1 定义propertyValue类 /** …...

编程日记 2023/4/19 17:39:12

pip离线安装windows版torch

文章目录前言conda创建虚拟环境安装torchtorch官网在线安装离线手动安装测试是否安装成功后记前言学习的时候遇到几个机器学习相关的项目，由于不同的项目之间用到的依赖库不太一样，于是想利用conda为不同的项目创建不同的环境方便管理和运行&#xff0…...

编程日记 2023/2/13 7:03:59

Redis核心知识点

Redis核心知识点Redis核心知识点大全五种数据类型redis整合SpringBoot序列化问题渐进式扫描慢查询缓存相关问题数据库和缓存谁先更新缓存穿透缓存雪崩缓存击穿实际应用超卖问题分布式锁全局唯一ID充当消息队列Feed流附近商户签到HyperLogLog实现UV统计持久化RDBAOF持久化小结事…...

编程日记 2023/4/19 17:47:05

14. 最长公共前缀

14. 最长公共前缀一、题目描述： 编写一个函数来查找字符串数组中的最长公共前缀。如果不存在公共前缀，返回空字符串 “”。示例 1： 输入：strs [“flower”,“flow”,“flight”] 输出：“fl” 示例 2： …...

编程日记 2023/2/13 7:01:38

SignalR注册成Windows后台服务，并实现web前端断线重连

注意下文里面的 SignalR 不是 Core 版本，而是 Framework 下的本文使用的方式是把 SignalR 写在控制台项目里，再用 Topshelf 注册成 Windows 服务这样做有两点好处传统 Window 服务项目调试时需要“附加到进程”，开发体验比较差&#xf…...

编程日记 2023/2/13 6:59:24

【前端笔试题二】从一个指定数组中，每次随机取一个数，且不能与上次取数相同，即避免相邻取数重复

前言本篇文章记录下我在笔试过程中遇到的真实题目，供大家参考。 1、题目系统给定一个数组，需要我们编写一个函数，该函数每次调用，随机从该数组中获取一个数，且不能与上一次的取数相同。 2、思路解析数组已经有了…...

编程日记 2023/4/19 18:04:35

专栏关注学习

Node学习专栏（全网最细的教程） 【spring系列】 SpringCloud 前端框架Vue java学习过程 RocketMQ Spring Tomcat websocket 从头开始学Redisson 从头开始学Oracle 跟着大宇学Shiro 吃透Shiro源代码 Git基础与进阶 Java并发编程 Spring系列手写…...

编程日记 2023/2/13 6:57:08

【手写 Vuex 源码】第八篇 - Vuex 的 State 状态安装

一，前言上一篇，主要介绍了 Vuex 模块安装的实现，针对 action、mutation、getter 的收集与处理，主要涉及以下几个点： Vuex 模块安装的逻辑；Vuex 代码优化；Vuex 模块安装的实现；Vue…...

编程日记 2023/4/19 18:07:49

Mac下拉式终端的安装与配置 (iTerm2)

Mac下拉式终端的安装与配置使用效果如图所示安装前置软件 iTerm2 很可惜，如此炫酷的功能在原终端中并不能实现，我们需要借助iTerm2这个软件来实现。官网链接：iTerm2 - macOS Terminal Replacement 我们点击download下载即可配置当我…...

编程日记 2023/4/19 18:12:14

使用 Spring 框架结合阿里云 OSS 实现文件上传的代码示例

使用 Spring 框架结合阿里云 OSS 实现文件上传的代码示例POM文件配置文件上传工具类控制层使用yaml配置文件（第二种用法，看公司要求）注入 OSSClient 对象及工具类（第二种用法，看公司要求）使用 Vue 前端代码…...

编程日记 2023/2/13 6:53:43

神经网络基础知识

神经网络基础知识文章目录神经网络基础知识一、人工神经网络1.激活函数sigmod函数Tanh函数Leaky Relu函数分析2.过拟合和欠拟合二、学习与感知机1.损失函数与代价函数2. 线性回归和逻辑回归3. 监督学习与无监督学习三、优化1.梯度下降法2.随机梯度下降法(SGD)3. 批量梯度下降法…...

编程日记 2023/2/13 6:52:36

SpringBoot开发规范部分通用模板+idea配置【项目通用-1】

SpringBoot开发规范通用模板 1 分页插件使用通过MybatisPlus配置分页插件拦截器 Configuration MapperScan("com.xuecheng.content.mapper") //拦截的mapper层 public class MybatisPlusConfig {//定义分页的拦截器Beanpublic MybatisPlusInterceptor getMybatisPl…...

编程日记 2023/2/13 6:50:18

Keep架构深度解析：企业级AIOps告警管理平台的设计与实践

Keep架构深度解析：企业级AIOps告警管理平台的设计与实践【免费下载链接】keep The open-source AIOps and alert management platform 项目地址: https://gitcode.com/GitHub_Trending/kee/keep Keep作为开源AIOps告警管理平台，采用现代化的微服…...

编程新知 2026/5/12 15:33:20

Ruby纳米机器人框架：构建高内聚低耦合的自动化任务管道

1. 项目概述：当Ruby遇上纳米机器人最近在GitHub上闲逛，发现了一个名为icebaker/ruby-nano-bots的项目。这个标题本身就充满了想象力——Ruby，一门以优雅和生产力著称的动态语言；Nano-Bots，一个源自科幻、代表微观自动化…...

编程新知 2026/5/12 12:27:45

3步解决Dell G15散热难题：TCC-G15开源散热控制工具完全指南

3步解决Dell G15散热难题：TCC-G15开源散热控制工具完全指南【免费下载链接】tcc-g15 Thermal Control Center for Dell G15 - open source alternative to AWCC 项目地址: https://gitcode.com/gh_mirrors/tc/tcc-g15 你是否正在为Dell G15笔记本的过热问题…...

编程新知 2026/5/12 11:02:02

地理空间AI基准测试平台geobench：标准化评估与实战指南

1. 项目概述：一个为地理空间AI量身定制的基准测试平台如果你正在或即将踏入地理空间人工智能这个领域，无论是想评估一个预训练模型在遥感影像上的表现，还是想为自己的新算法找一个公平、全面的“擂台”，你大概率会遇到一个头疼的问…...

编程新知 2026/5/12 10:25:51

别再死记硬背了！用这三个二极管等效模型，轻松搞定电路分析（附典型例题）

二极管电路分析的三大黄金法则：从理论到实战的思维跃迁在电子工程领域，二极管就像电路世界里的"单向阀门"，看似简单却暗藏玄机。许多初学者面对复杂二极管电路时，往往陷入盲目试错的困境——要么死记硬背公式&#xff…...

编程新知 2026/5/12 10:09:19

科技成果转化平台建设成本高如何解决？

观点作者：科易网-国家科技成果转化（厦门）示范基地现状概述（成效与短板） 近年来，我国科技成果转化平台建设取得显著进展，各地政府部门、高校、科研院所积极探索，累计建成各类技术转移…...

编程新知 2026/5/12 9:37:13

深耕落地，精准破局——应用型人工智能专业建设的实践路径

在人工智能产业快速迭代、人才需求持续升级的当下，应用型人工智能专业已成为高校布局新工科、服务区域产业的核心抓手。然而，作为一线专业带头人及授课教师，多数从业者都面临着一个共同的困惑：即便投入大量时间与精力优化培养方案…...

编程新知 2026/5/12 9:22:24

别再只写客户端了！用C语言搞定聊天室全栈开发：客户端+服务端联调避坑指南

别再只写客户端了！用C语言搞定聊天室全栈开发：客户端服务端联调避坑指南在C语言全栈开发中，客户端和服务端的联调往往是开发者最容易踩坑的环节。很多初学者能够独立完成客户端或服务端的代码编写，但当两者需要协同工作时&#x…...

编程新知 2026/5/12 9:20:14

告别图形界面：在Linux终端中高效管理百度网盘文件的完整指南

1. 为什么需要命令行管理百度网盘？ 很多开发者都遇到过这样的场景：远程连接到Linux服务器时，需要快速上传日志文件到网盘，或者从网盘下载数据集到服务器。传统做法是先把文件下载到本地电脑，再用SFTP工具上传到服务器—…...

编程新知 2026/5/12 8:26:15

放心API和4SAPI怎么选？从开发者选型角度看差异

很多开发者在选 Claude API 中转站时，都会遇到一个问题：**到底是选更偏个人友好的放心API，还是选更偏企业级的4SAPI？**这个问题没有标准答案，只有场景答案。---## 一、先给结论如果你的项目处于以下阶段：- …...

编程新知 2026/5/12 8:11:23

prometheus如何优化远程读写的性能

场景

远程写优化：remote_write

远程读优化：remote_read

相关文章：