Zookeeper 可观测性最佳实践
Zookeeper 介绍
ZooKeeper 是一个开源的分布式协调服务,用于管理和协调分布式系统中的节点。它提供了一种高效、可靠的方式来解决分布式系统中的常见问题,如数据同步、配置管理、命名服务和集群管理等。本文介绍通过 DataKit 采集 Zookeeper 指标,帮助监控 Zookeeper 运行情况。
主要功能:
- 配置管理:集中管理分布式系统的配置信息,便于动态更新和同步。
- 命名服务:为分布式系统中的节点提供统一的命名和查找机制,类似于 DNS。
- 分布式锁:通过锁机制解决分布式系统中的资源竞争问题。
- 队列管理:实现分布式队列,支持顺序队列和优先队列。
- 集群管理:监控集群成员的健康状态,实现故障检测和自动恢复。
Zookeeper 可观测的必要性:
- 保障系统稳定性:ZooKeeper 是分布式系统的核心组件,负责协调多个节点的行为,确保数据一致性和服务可用性。监控 ZooKeeper 的健康状态可以及时发现潜在问题,如节点故障、网络异常或性能瓶颈,从而快速采取措施,避免系统整体故障。
- 优化系统性能:监控可以帮助开发者和运维人员了解 ZooKeeper 集群的性能状况,例如操作延迟、事务处理速度等。通过分析这些数据,可以优化配置,提升系统性能。
- 预防故障:监控系统可以提前预警潜在问题,例如磁盘 I/O 等资源瓶颈,从而在问题恶化之前进行干预,预防故障的发生。
- 支持故障排查:当 ZooKeeper 集群出现问题时,监控数据可以提供关键线索,帮助快速定位问题根源。例如,通过分析日志和性能指标,可以确定是网络问题、配置错误还是硬件故障。
- 提升运维效率:运维人员可以直观地查看 ZooKeeper 集群的状态,减少手动排查问题的时间,提高运维效率。
- 确保集群一致性:ZooKeeper 的核心功能之一是保证分布式系统中数据的一致性。监控可以确保集群中的所有节点状态一致,及时发现和修复不一致的情况。
- 支持动态调整:分布式系统的环境和需求可能会动态变化,监控 ZooKeeper 可以帮助运维人员根据实时数据动态调整集群配置,例如增加节点或优化资源分配。
观测云
观测云是一款功能强大的统一可观测平台,提供对多云环境、云原生应用、中间件以及各类应用程序的实时监控和分析能力。在 ZooKeeper 的监控场景中,观测云通过其核心数据采集器 DataKit,结合 ZooKeeper 的监控指标,实现对 ZooKeeper 集群的实时监控和数据可视化展示。观测云通过其强大的数据可视化功能,将 ZooKeeper 的监控指标以直观的仪表盘形式展示出来,帮助用户快速定位问题并优化系统性能。
暴露 Zookeeper 指标
从 3.6.0 版本开始,ZooKeeper 原生支持 Prometheus 格式的指标暴露。只需在 zoo.cfg 配置文件中添加以下配置:
metricsProvider.className=org.apache.zookeeper.metrics.prometheus.PrometheusMetricsProvider
metricsProvider.httpPort=7000
metricsProvider.exportJvmInfo=true
然后重启 Zookeeper 服务。
执行完毕后,可通过 http://主机ip:7000/metrics 查看当前主机获取到的所有监控数据。
采集器配置
进入 DataKit 安装目录下的 conf.d/prom 目录,复制 prom.conf.sample 并命名为 zookeeper.conf。
[[inputs.prom]]urls = ["http://192.168.0.19:7000/metrics"] ## 采 集 器 别 名 source = "zookeeper" ## 采 集 间 隔 "ns", "us" (or "µs"), "ms", "s", "m", "h" interval = "10s" measurement_name = "zookeeper" metric_types = [] ## TLS 配 置 tls_open = false [inputs.prom.tags] service = "zookeeper" # ·················[inputs.prom.as_logging]enable = falseservice = "service_name"## Customize tags.# [inputs.prom.tags]# some_tag = "some_value"# more_tag = "some_other_value"## (Optional) Collect interval: (defaults to "30s").# interval = "30s"## (Optional) Timeout: (defaults to "30s").# timeout = "30s"
主要修改 urls,配置好后保存,重启 DataKit 即可。
关键指标
登录观测云控制台,点击「指标」 -「指标管理」,输入“zookeeper”,就能查询采集到的指标。


ZooKeeper 是一个分布式协调服务,用于管理分布式系统中的配置信息、命名服务、分布式同步等。以下是对 ZooKeeper 指标的解释:
- 系统性能与延迟:通过 ZooKeeper 的四字命令(如 stat、srvr 等)可以获取服务的运行状态,包括是否处于领导者或追随者角色、服务的延迟等
- 会话数:监控会话数可以帮助了解 ZooKeeper 的使用情况,及时发现异常的会话增长。
- 请求延迟:监控 ZooKeeper 的请求延迟可以帮助评估服务的响应性能。高延迟可能表明存在性能问题,需要进一步调查。
以下是关于 Zookeeper 关键指标的介绍:
| 指标 | 描述 | 单位 |
|---|---|---|
| avg_latency | 平均延迟 | ms |
| readlatency_count | 读操作延迟的计数 | count |
| propagation_latency_count | 数据传播延迟的计数 | count |
| commit_count | 提交操作的次数 | count |
| requests_in_session_queue_count | 会话队列中的请求数量 | count |
| requests_not_forwarded_to_commit_processor | 未转发到提交处理器的请求数量 | count |
| prep_processor_queue_size | 预处理队列的大小 | Bytes |
| connection_request_count | 当前存活的连接数 | count |
| num_alive_connections | 用于缓存文件系统的内存量 | Bytes |
| session_queues_drained_count | 会话队列被清空的次数 | count |
| auth_failed_count | 认证失败的次数 | count |
| ensemble_auth_fail | 集群认证失败的次数 | count |
| bytes_received_count | 接收的字节数 | Bytes |
| open_file_descriptor_count | 当前打开的文件描述符数量 | count |
| process_open_fds | 进程打开的文件描述符数量 | count |
| uptime | 系统或进程的运行时间 | s |
| approximate_data_size | 近似数据大小 | Bytes |
| znode_count | 节点数量 | count |
| watch_count | 监控数量 | count |
场景视图
登录观测云控制台,点击「场景」 -「新建仪表板」,输入 “Zookeeper”, 选择 “ Zookeeper”,点击 “确定” 即可添加视图。

监控器(告警)
Zookeeper 服务器发送宕机异常


Zookeeper 平均响应延迟过高异常


Zookeeper 堆积请求数过大异常


总结
通过使用观测云平台对 ZooKeeper 进行统一监控,我们能够实时追踪关键性能指标,如会话连接数、节点读写操作次数、以及会话超时情况。这些指标对于优化 ZooKeeper 集群性能、识别性能瓶颈、及时排查故障至关重要。它们帮助我们优化会话管理策略,确保集群状态一致性,进行有效的资源规划,并为分布式协调任务提供支持。这样的监控不仅增强了用户体验,也显著提高了系统的可靠性和稳定性。
相关文章:
Zookeeper 可观测性最佳实践
Zookeeper 介绍 ZooKeeper 是一个开源的分布式协调服务,用于管理和协调分布式系统中的节点。它提供了一种高效、可靠的方式来解决分布式系统中的常见问题,如数据同步、配置管理、命名服务和集群管理等。本文介绍通过 DataKit 采集 Zookeeper 指标&#…...
位运算---总结
位运算 基础 1. & 运算符 : 有 0 就是 0 2. | 运算符 : 有 1 就是 1 3. ^ 运算符 : 相同为0 相异为1 and 无进位相加位运算的优选级 不用在意优先级,能加括号就加括号给一个数 n ,确定它的二进制位中第 x 位是 0 还是 1? 规定: 题中所说的第x位指:int 在32位机器下4个…...
2. 什么是最普通的自动化“裸奔状态”?
什么是最普通的自动化"裸奔状态"?从大厂案例看测试代码的生存困境 一个典型的"裸奔代码"示例 # 打开目标网站 driver.get(http://test-site.com/login-page)# 登录操作 driver.find_element_by_id(user).send_keys(tester) driver.find_eleme…...
头歌java课程实验(函数式接口及lambda表达式)
第1关:利用lambda表达式对Book数组按多个字段进行排序 任务描述 本关任务:利用Comparator接口完成对Book数组同时按多个字段进行排序。 编程要求 1、本任务共有三个文件,可查看各文件的内容 2、无需修改SortBy.java枚举文件及Book.java类文…...
微信小程序三种裁剪动画有效果图
效果图 .wxml <image class"img inset {{status?action1:}}" src"{{src}}" /> <image class"img circle {{status?action2:}}" src"{{src}}" /> <image class"img polygon {{status?action3:}}" src&quo…...
C语言笔记(鹏哥)上课板书+课件汇总(结构体)-----数据结构常用
结构体 目录: 1、结构体类型声明 2、结构体变量的创建和初始化 3、结构体成员访问操作符 4、结构体内存对齐*****(重要指数五颗星) 5、结构体传参 6、结构体实现位段 一、结构体类型声明 其实在指针中我们已经讲解了一些结构体内容了&…...
git清理--解决.git文件过大问题
背景:为什么.git比我仓库中的文件大很多 为什么我的git中只有一个1KB的README,但是.git却又1G多?当我想把这个git库push到gitee时,还会报错: 根据报错信息,可看出失败的原因是:有文件的大小超过…...
Jetson Orin NX 部署YOLOv12笔记
步骤一.创建虚拟环境 conda create -n yolov12 python3.8.20 注意:YOLOv12/YOLOv11/YOLOv10/YOLOv9/YOLOv8/YOLOv7a/YOLOv5 环境通用 步骤二.激活虚拟环境 conda activate yolov12 #激活环境 步骤三.查询Jetpack出厂版本 Jetson系列平台各型号支持的最高Jetp…...
微服务2--服务治理与服务调用
前言 :本文主要阐述微服务架构中的服务治理,以及Nacos环境搭建、服务注册、服务调用,负载均衡以及Feign实现服务调用。 服务治理 服务治理是微服务架构中最核心最基本的模块。用于实现各个微服务的自动化注册与发现。 服务注册:在…...
Arduino示例代码讲解:Project 08 - Digital Hourglass 数字沙漏
Arduino示例代码讲解:Project 08 - Digital Hourglass 数字沙漏 Project 08 - Digital Hourglass 数字沙漏程序功能概述功能:硬件要求:输出:代码结构全局变量`setup()` 函数`loop()` 函数计时和点亮LED:读取倾斜开关状态:重置LED和计时器:运行过程注意事项Project 08 - …...
python生成项目依赖文件requirements.txt
文章目录 通过pip freeze去生成通过pipreqs去生成 通过pip freeze去生成 pip freeze > requirements.txt会将整个python的Interceptor的环境下lib包下所有的依赖都生成到这个文件当中,取决于我们使用的python的版本下所有的安装包。不建议使用这种方式ÿ…...
C语言之高校学生信息快速查询系统的实现
🌟 嗨,我是LucianaiB! 🌍 总有人间一两风,填我十万八千梦。 🚀 路漫漫其修远兮,吾将上下而求索。 C语言之高校学生信息快速查询系统的实现 目录 任务陈述与分析 问题陈述问题分析 数据结构设…...
精益数据分析(7/126):打破创业幻想,拥抱数据驱动
精益数据分析(7/126):打破创业幻想,拥抱数据驱动 在创业的道路上,我们都怀揣着梦想,但往往容易陷入自我编织的幻想中。我希望通过和大家一起学习《精益数据分析》,能帮助我们更清醒地认识创业过…...
Spring Boot 项目中发布流式接口支持实时数据向客户端推送
1、pom依赖添加 <dependency><groupId>org.springframework.boot</groupId><artifactId>spring-boot-starter-webflux</artifactId></dependency>2、事例代码 package com.pojo.prj.controller;import com.pojo.common.core.utils.String…...
Ubuntu安装MySQL步骤及注意事项
一、安装前准备 1. 系统更新:在安装 MySQL 之前,确保你的 Ubuntu 系统软件包是最新的,这能避免因软件包版本问题导致的安装错误,并获取最新的安全补丁。打开终端,执行以下两条命令: sudo apt update sudo …...
【网络篇】从零写UDP客户端/服务器:回显程序源码解析
大家好呀 我是浪前 今天讲解的是网络篇的第四章:从零写UDP客户端/服务器:回显程序源码解析 从零写UDP客户端/服务器:回显程序源码解析 UDP 协议特性核心类介绍 UDP的socket应该如何使用:1: DatagramSocket2: DatagramPacket回…...
MATLAB 控制系统设计与仿真 - 38
多变量系统控制器设计实例1 考虑如下给出的多变量系统模型: 考虑混合灵敏度问题,引入加权矩阵: 设计鲁棒控制器,并绘制闭环系统的阶跃响应曲线及开环系统的奇异值曲线。 MATLAB代码如下: clear all;clc; stf(s); g1…...
轻量化高精度的视频语义分割
Video semantic segmentation (VSS)视频语义分割 Compact Models(紧凑模型) 在深度学习中,相对于传统模型具有更小尺寸和更少参数数量的模型。这些模型的设计旨在在保持合理性能的同时,减少模型的计算和存储成本。 紧凑模型的设计可以涉及以下一些技术: 深度剪枝(Deep…...
Spring Boot 版本与对应 JDK 版本兼容性
Spring Boot 版本与对应 JDK 版本兼容性 以下是 Spring Boot 主要版本与所需 JDK 版本的对应关系,以及长期支持(LTS)信息: 最新版本对应关系 (截至2024年) Spring Boot 版本发布日期支持的 JDK 版本备注3.2.x (最新)2023-11JDK 17-21推荐使用 JDK 173…...
[密码学实战]详解gmssl库与第三方工具兼容性问题及解决方案
[密码学实战]详解gmssl库与第三方工具兼容性问题及解决方案 引言 国密算法(SM2/SM3/SM4)在金融、政务等领域广泛应用,但开发者在集成gmssl库实现SM2签名时,常遇到与第三方工具(如OpenSSL、国密网关)验证不…...
JavaScript模块化开发:CommonJS、AMD到ES模块
引言 在Web开发的早期阶段,JavaScript代码通常被编写在一个庞大的文件中或分散在多个脚本标签里,这种方式导致了全局变量污染、依赖关系难以管理、代码复用困难等问题。随着Web应用日益复杂,模块化编程成为了解决这些问题的关键。本文将带您…...
【k8s系列1】一主两从结构的环境准备
环境准备 虚拟机软件准备及安装,这里就不详细展开了,可以看文章:【一、虚拟机vmware安装】 linux环境准备及下载,下载镜像centOS7.9,以前也有写过这个步骤的文章,可以看:【二、安装centOS】 开始进入正题…...
dubbo SPI插件扩展点使用
参考:SPI插件扩展点 Dubbo SPI概述 使用IoC容器帮助管理组件的生命周期、依赖关系注入等是很多开发框架的常用设计,Dubbo中内置了一个轻量版本的IoC容器,用来管理框架内部的插件,实现包括插件实例化、生命周期、依赖关系自动注入…...
青少年编程与数学 02-016 Python数据结构与算法 26课题、生物信息学算法
青少年编程与数学 02-016 Python数据结构与算法 26课题、生物信息学算法 一、序列比对算法二、基因表达分析算法三、蛋白质结构预测算法四、系统生物学模型构建算法五、单细胞分析算法六、遗传关联分析算法七、机器学习与数据挖掘算法八、数据可视化算法九、代谢组学分析算法十…...
【Rust 精进之路之第2篇-初体验】安装、配置与 Hello Cargo:踏出 Rust 开发第一步
系列: Rust 精进之路:构建可靠、高效软件的底层逻辑 **作者:**码觉客 发布日期: 2025-04-20 引言:磨刀不误砍柴工,装备先行! 在上一篇文章中,我们一起探索了 Rust 诞生的缘由&…...
洛谷题目:P7775 [COCI 2009/2010 #2] VUK 题解 (本题简)
题目传送门: P7775 [COCI 2009/2010 #2] VUK - 洛谷 (luogu.com.cn) 前言: 这道题的核心目标是找出狼从起点 V 到终点 J 的路径,使得狼在途中离它最近的树的距离的最小值最大。下面为大家详细讲解: #整体思路概述: 这道题我们可以采用“先计算距离,再来二分查找”的…...
腾讯旗下InstantCharacter框架正式开源 可高度个性化任何角色
目前基于学习的主题定制方法主要依赖于 U-Net 架构,但其泛化能力有限,图像质量也大打折扣。同时,基于优化的方法需要针对特定主题进行微调,这不可避免地会降低文本的可控性。为了应对这些挑战,我们提出了 “即时角色”…...
Python爬虫实战:获取fenbi网最新备考资讯
一、引言 1.1 研究背景 伴随互联网技术的迅猛发展,在线教育平台积累了海量备考数据。以粉某网为例,其备考数据涵盖考试资讯、备考资料、用户评价等,对备考者意义重大。然而,获取并分析这些数据颇具挑战,需借助先进的爬虫技术和数据分析方法。 1.2 研究目的 本研究旨在…...
详讲Linux下进程等待
3.进程等待 引言:什么是进程等待 想象有两个小伙伴,一个是 “大强”(父进程 ),一个是 “小强”(子进程 )。大强给小强安排了任务,比如去收集一些石头。 …...
JBoss + WildFly 本地开发环境完全指南
JBoss WildFly 本地开发环境完全指南 本篇笔记主要实现在本地通过 docker 创建 JBoss 和 WildFly 服务器这一功能,基于红帽的禁制 EAP 版本的重新分发,所以我这里没办法放 JBoss EAP 的 zip 文件。WildFly 是免费开源的版本,可以在红帽官网找…...
