保障效率与可用,分析Kafka的消费者组与Rebalance机制
系列文章目录
上手第一关,手把手教你安装kafka与可视化工具kafka-eagle
Kafka是什么,以及如何使用SpringBoot对接Kafka
架构必备能力——kafka的选型对比及应用场景
Kafka存取原理与实现分析,打破面试难关
防止消息丢失与消息重复——Kafka可靠性分析及优化实践
保障效率与可靠性,详细分析Kafka的消费者组与Rebalance机制
- 系列文章目录
- 一、消费者组概念
- 二、消费者组的作用
- 1. 分区分配策略
- 2. 分配原理
- 三、Rebalance机制
- 1. Rebalance的作用
- 2. Rebalance的实现
- 3. Rebalance的优劣
- 四、减少Rebalance的发生
- 总结
我们上一期从可靠性分析了消息可靠性方面来分析Kafka的机制与原理,知晓了Kafka为了保障消息不丢失、不重复,所作出的种种设计。今天我们来讲关于Kafka在消费端所作出的一些机制与原理
📕作者简介:战斧,从事金融IT行业,有着多年一线开发、架构经验;爱好广泛,乐于分享,致力于创作更多高质量内容
📗本文收录于 kafka 专栏,有需要者,可直接订阅专栏实时获取更新
📘高质量专栏 云原生、RabbitMQ、Spring全家桶 等仍在更新,欢迎指导
📙Zookeeper Redis dubbo docker netty等诸多框架,以及架构与分布式专题即将上线,敬请期待
一、消费者组概念
我们其实在很多MQ组件种都有消费者组的概念,在Kafka中也不例外。消费者组与Kafka的Rebalance机制是保障Kafka消息消费效率与可用性的重要手段。
我们可以把多个消费者合成一个消费者组(Group)
,每个消费者组可以消费一个或多个主题的消息。
二、消费者组的作用
1. 分区分配策略
消费者组是Kafka中实现消息分发与负载均衡的重要机制,它可以分摊消息的处理压力,并提高消息的处理效率和可用性。消费者组中的每个消费者可以独立消费分配给该消费者组的消息,在消费过程中,消费者不会相互干扰,不会重复消费同一条消息,也不会漏掉任何一条消息。
Kafka的消费者组工作流程如下图所示:
如上图,某个Topic里有两个分区,而我们的消费者组有两个消费者,那么两个消费者就会各自订阅一个分区,互不干扰。
当然,有些同学会问,你这里正好是两个分区、两个消费者,那如果两边数量不一样呢?
那么这就涉及到partition的分配问题,即确定那个partition由哪个consumer来消费。
Kafka有三种分配策略,一是roundrobin
,一是range
,还有一个StickyAssignor
策略
- range策略
Range是对每个Topic而言的(即一个Topic一个Topic分),首先对同一个Topic里面的分区按照序号进行排序,并对消费者按照字母顺序进行排序。然后用Partitions分区的个数除以消费者线程的总数来决定每个消费者线程消费几个分区。每个消费者消费的分区是连续的,如果除不尽,那么前面几个消费者线程将会多消费一个分区。
但其弊端也比较明显,排名靠前的消费者压力比较大,如果该消费者组仅订阅1个Topic还好,如果订阅多个主题,前面的消费者压力就明显更大了,如下图,消费者1订阅8个分区,而消费者3订阅6个分区
- roundrobin策略
为了解决排名靠前的消费者压力过大的问题,一种思路就是全局考虑,把一个消费者组消费的所有分区都罗列出来并字典序排序,然后再轮询的分给消费者,我们按照上面的例子,大概的分配示意图如下
如图,当Topic1的分区10被分给消费者1后,Topic2的分区1就分配给消费者2了。那这样最后看到每个消费都订阅了7个分区,很平均了。但就完美了吗?非也,我们上面看的都是以消费者组为单位的订阅行为,但是别忘记,消费者组里面的某个消费者可能还有其他的任务,如下:
上面的消费者3除了作为消费者组的一份子,承接了Topic1和Topic2的部分分区,它还订阅了Topic3,那么消费者3的压力明显就大的太多了 - StickyAssignor策略
该策略的实现更加复杂,它要求从一种更加全局的视角来分配,充分考虑到消费者组内每个消费者组的实际订阅数。它有两个目的:
①分区的分配要尽可能的均匀,分配给消费者者的主题分区数最多相差一个;
②分区的分配尽可能的与上次分配的保持相同。
至于其具体原理,可以参考官方文档,这里不继续深入探讨了
2. 分配原理
我们上面说了几种分区分配的方案,这种分配任务的方式被称为协作分区
(cooperative partitioning)。在cooperative partitioning过程中,那么协作分区的结果谁来保存呢?其实是组协调器
(Group Coordinator),Kafka通过组协调器来保存消费者间的划分,实现了消费者组的自动管理,使得消费者组可以根据实际情况动态地扩容、缩容。
当然,这里需要介绍下协调器
的概念,每一个Kafka集群都有若干个Coordinator,它们分别负责不同的任务。目前Kafka中的Coordinator主要有以下几种:
-
Group Coordinator:负责管理消费者组,包括新增、删除和重平衡操作。
-
Transaction Coordinator:负责事务的管理,包括启动、提交和回滚等操作。
-
Metadata Coordinator:负责维护Kafka集群中各个Partition的元数据信息,包括分区的leader和ISR等信息。
-
Admin Coordinator:负责管理Kafka集群的各种配置信息,包括topic的创建、删除和分区的增、删、改等操作。
我们这里要讲的就是其中的组协调器
(Group Coordinator),Group Coordinator是一个服务,每个Broker在启动的时候都会启动一个该服务。Group Coordinator的作用是用来存储Group的相关Meta信息,并将对应Partition的Offset信息记录到Kafka内置Topic(__consumer_offsets)中,当我们建立一个组的时候,都会选择一个Coordinator来操作与存储自己组内各Partition的Offset信息
三、Rebalance机制
1. Rebalance的作用
我们前面提到,消费者组里的各个消费者会被做分配操作。那如果某一个消费者挂掉了怎么办呢?这个消费者负责的那些分区岂不是没人订阅了?
别担心,Kafka提供了Rebalance
机制。Rebalance机制可以动态地分配分区,使得每个消费者负载均衡,提高消费效率和可用性。一般来说,Rebalance机制会在以下情况下发生:
- 消费者加入或退出消费者组,当消费者加入或退出消费者组时,协调器会触发Rebalance机制
- 分区数目发生变化:当Kafka的主题被扩容或缩容时,会触发Rebalance机制,重新分配分区。。
- Kafka Broker发生变化:当Kafka Broker发生变化时,例如节点重启或宕机等,会触发Rebalance机制
其实很好理解,A 订阅 B,那显然只有当A 或 B 的数量发生变动的时候,才需要再次平衡
2. Rebalance的实现
我们已增添一个消费者为例,说明下Rebalance发生的全过程:
-
消费者加入/退出:当一个消费者加入或退出消费者组时,它会向Group Coordinator发送JOIN GROUP或LEAVE GROUP请求。
-
协调者选举:如果Group Coordinator收到的是JOIN GROUP请求,则会根据Group Leader选举机制选举一个Group Leader。Group Leader的职责是进行rebalance操作,分配partition给消费者。(注意Group Leader是消费者组内的某个消费者,和Group Coordinator不是一个东西)
-
分组协商:Group Leader选举完成后,它会向其他消费者发送SYNC GROUP请求,要求其他消费者加入rebalance操作。其他消费者加入后,Group Leader会根据消费者的订阅信息,计算出新的分配方案。分配方案会以ASSIGN PARTITIONS请求的形式发送给每个消费者。
-
重新分配partition:每个消费者在收到ASSIGN PARTITIONS请求后,会按照分配方案重新分配自己需要消费的partition,然后完成rebalance操作。
-
继续消费:重新分配partition后,消费者会继续从分配的partition中消费数据。
借用网上的图来说明下情况,你也可以把整个Rebalance分为两步:Join 和 Sync。
- Join阶段,所有成员都向coordinator发送JoinGroup请求,请求加入消费组,最后由Group Coordinator来选出其中一个消费者作为Leader,Leader能知道组内所有消费者。
- Sync阶段,leader开始分配消费方案,一旦完成分配,leader会将这个方案封装进SyncGroup请求中发给coordinator,非leader也会发SyncGroup请求,只是内容为空。coordinator接收到分配方案之后会把方案塞进SyncGroup的response中发给各个consumer
而至于分配方案具体是怎样的,其实就是在上一小节已经说过的 分区分配策略
3. Rebalance的优劣
Kafka的rebalance主要是为了实现消费者的负载均衡。通过上面的学习,相信大家也能总结出rebalance机制的优点就是增强容错性
和支持动态扩容
:
-
增强容错性:当某个消费者意外退出或宕机,rebalance可以重新分配该消费者所消费的partition给其他消费者,从而保障消费的连续性,并减少对业务的影响。
-
支持动态扩容:在Kafka系统运行中,如果需要增加消费者数量,rebalance可以根据新的消费者加入,重新分配partition,确保消费者的负载均衡。
但凡事有利有弊,rebalance最大的缺点就是延迟影响性
:rebalance操作会涉及到分区的重新分配,会导致系统有一定的延迟。如果消费者数量很大,rebalance操作会更加复杂且耗时长。在这个期间,所有的消费者都无法执行消费,可以说影响面还是非常广的。
四、减少Rebalance的发生
我们在生产中,如非必要,应该尽量避免Rebalance,这会暂停运行中的消费过程。最好是提前就做好各种预防措施,而不是依靠Kafka的Rebalance来处理。
我们在前面说到,消费者 和 分区 的数量变化会导致Rebalance,一般其实是由于消费者的变动导致的,如果是意外的宕机我们无法防止,但是我们可以调整“短暂掉线”及“消费能力不足”的消费者,对他们更加“宽容”一点,具体如下:
每个 Consumer 实例都会定期地向 Coordinator 发送心跳请求,表明它还存活着。如果某个 Consumer 实例不能及时地发送这些心跳请求,Coordinator 就会认为该 Consumer 已经 “死” 了,从而将其从 Group 中移除,然后开启新一轮 Rebalance。这个时间可以通过Consumer 端的参数 session.timeout.ms
进行配置。默认值是 45 秒
Consumer 端还有一个参数,用于控制 Consumer 实际消费能力对 Rebalance 的影响,即 max.poll.interval.ms
参数。它限定了 Consumer 端应用程序两次调用 poll 方法的最大时间间隔。它的默认值是 5 分钟,表示你的 Consumer 程序如果在 5 分钟之内无法消费完 poll 方法返回的消息,那么 Consumer 会主动发起 “离开组” 的请求,Coordinator 也会开启新一轮 Rebalance
一般来说,为了预防Rebalance,我们可以调大上面两个参数,同时加快心跳频率,也就是调小heartbeat.interval.ms
总结
本期我们讲了Kafka消费端的成组设置,也了解了组内的分配规则,以及消费者发生变动后会导致的Rebalance机制,最后介绍了减少Rebalance发生的一些参数调整。希望大家能有所收获,下次我们将继续深入讲解Kafka的其他原理,如果你对此有兴趣,可以直接订阅本
kafka 专栏
相关文章:

保障效率与可用,分析Kafka的消费者组与Rebalance机制
系列文章目录 上手第一关,手把手教你安装kafka与可视化工具kafka-eagle Kafka是什么,以及如何使用SpringBoot对接Kafka 架构必备能力——kafka的选型对比及应用场景 Kafka存取原理与实现分析,打破面试难关 防止消息丢失与消息重复——Kafka可…...

“1-5-15”原则:中国联通数字化监控平台可观测稳定性保障实践
一分钟精华速览 “只知道系统有问题,但是找不到问题到底出在哪里”,这几乎是大家都面临过、或正在面临的问题。用户在投诉,但是我的指标都是正常的,到底是哪一环出问题了? 本文详细介绍了中国联通在智能运维领域的应用…...

LinkedList详解-Deque接口链表实现方案
简介 LinkedList实现了List和Deque接口。List是一个有序的集合,可以包含重复元素,它提供了在列表的头部、尾部或指定位置进行插入、删除和查找等操作的方法。Deque是双端队列,提供了在列表的头部和尾部进行插入和删除操作的方法。通过实现这…...

【考研数据结构代码题1】二叉搜索树的插入与查找
题目:请用C语言写出二叉树的二叉链表结构,并编写一个函数在二叉搜索树中可以搜索给定的关键字 难度:★ 二叉树的二叉链表结构 #include<stdio.h> #include<stdlib.h> //二叉树的结点结构 typedef struct Node{int data;//存放结…...

世微 平均电流型降压恒流驱动器 电动摩托车LED灯小钢炮驱动IC AP5218
1,来源:深圳市世微半导体有限公司 2,产品描述 AP5218 是一款 PWM工作模式, 高效率、外 围简单、内置功率管,适用于5V~100V输入的高 精度降压 LED 恒流驱动芯片。输出最大功率可达 15W,最大电流 1.5A。AP5…...

docker 下安装mysql8.0
在docker中查询mysql镜像 PS C:\Users\admin> docker search mysql NAME DESCRIPTION STARS OFFICIAL AUTOMATED mysql MySQL is a widely used, open-source relation……...

Android MVI架构的深入解析与对比
什么是MVI? M:model,此处的model并不是传统的数据模块,它是指用来存储视图状态UI State的一个模块 。比如请求数据时的loading、请求失败的提示页面等UI层面的变化状态。 V:view,视图模块 I:…...

达梦数据库表空间管理常用SQL
达梦数据库表空间管理常用SQL 表空间容量分析表空间创建与扩容 查看数据库状态: select name,instance_name,status$,mode$ from v$instance; --mode$显示Primary为主库select name,status$,role$ from v$database; --status$:1 启动,2 启动…...

Flutter 组件集录 | InheritedNotifier 内置状态管理组件
theme: cyanosis 1. 前言 在上一篇 《Flutter 知识集锦 | 监听与通知 ChangeNotifier》 中,我们介绍了 ChangeNotifier 对象通知监听者的能力。并通过一个简单的模拟下载进度案例,介绍了它的使用方式: | 案例演示 | 监听-通知关系 | | --- | …...

NOIP2023模拟10联测31 涂鸦
题目大意 有一面由 n m n\times m nm个格子组成的墙,每个格子要么是黑色,要么是白色。你每次将会进行这样的操作:等概率随机选择一个位置 ( x , y ) (x,y) (x,y)和一个颜色 c c c(黑色或白色),࿰…...

【Python基础知识一】基本语法、常用数据类型等
Python基础知识: 1 标识符(Identifier)2 关键字/保留字(Keyword)3 引号4 编码5 输入输出6 行与缩进7 多行语句8 注释9 数据类型9.1 数字(Number)类型9.2 变量(variate)9.3 字符串(St…...

听听ChatGPT对IT行业的发展和就业前景的看法
🌈个人主页: Aileen_0v0🔥系列专栏:PYTHON学习系列专栏💫"没有罗马,那就自己创造罗马~" 目录 (1)判断素数 写法1: 写法2: (2)计算1-100的偶数之和 写法1: 写法2: (3)计算1-100的奇数之和 (4)多层循环 IT行业哪个方向比较…...

〖程序员的自我修养 - 认知剖析篇⑤〗- 选择前端还是后端?
人之所以会觉得迷茫,本质上是欠缺对自己的一个控制力、识别庞杂信息、去伪存真的独立思考与认知能力。 说明:该文属于 程序员的自我修养 专栏,购买任意白宝书体系化专栏可加入易编程社区,早鸟价订阅模式除外。福利:加入社区的小伙伴们,除了可以获取博主所有付费专栏的阅读…...

Rust语言初步
文章目录 安装与测试变量条件语句和函数数组和元组循环 安装与测试 可以从官网直接下载。下载rustup-init并运行之后,会打开命令行,选1默认安装,然后不出意外就安装完了。 安装完成后按照惯例查看一下版本,如不报错就算成功。 …...

BIMILLC算法源码解析
论文链接:https://arxiv.org/abs/1607.02533 源码出处:https://github.com/Harry24k/adversarial-attacks-pytorch/tree/master 源码 import torch import torch.nn as nnfrom ..attack import Attackclass BIM(Attack):r"""BIM or iter…...

Android STR研究之五
前言: 在前四篇中初步介绍了开机流程,STR流程,唤醒流程,这里讲下STR的问题点 Android STR研究之一-CSDN博客 Android STR研究之二-CSDN博客 Android STR研究之三-CSDN博客 Android STR研究之四-CSDN博客 问题1:进入STR…...

python3+requests接口自动化测试实例详细操作
前段时间由于公司测试方向的转型,由原来的web页面功能测试转变成接口测试,之前大多都是手工进行,利用postman和jmeter进行的接口测试,后来,组内有人讲原先web自动化的测试框架移驾成接口的自动化框架,使用的…...

在Node.js中,什么是中间件(middleware)?它们的作用是什么?
聚沙成塔每天进步一点点 ⭐ 专栏简介 前端入门之旅:探索Web开发的奇妙世界 欢迎来到前端入门之旅!感兴趣的可以订阅本专栏哦!这个专栏是为那些对Web开发感兴趣、刚刚踏入前端领域的朋友们量身打造的。无论你是完全的新手还是有一些基础的开发…...

当函数参数为一级指针,二级指针
当函数参数为一级指针,二级指针 在讲述内容之前,先讲四点重要知识 1.当传入参数时,函数形参会立即申请形参的内存空间,函数执行完毕后,形参的内存空间立即释放掉。 1.指针是存放其他变量地址的变量。指针有自己的内…...

Hydra post登录框爆破
文章目录 无token时的Hydra post登录框爆破带Token时的Hydra post登录框爆破 无token时的Hydra post登录框爆破 登录一个无验证码和token的页面,同时抓包拦截 取出发送数据包:usernameadb&password133&submitLogin 将用户名和密码替换 userna…...

阿里云推出AI编程工具“通义灵码“;生成式 AI 入门教程 2
🦉 AI新闻 🚀 阿里云推出AI编程工具"通义灵码",支持多种语言及实时续写功能 摘要:阿里云推出了一款名为"通义灵码"的AI编程工具,支持多种主流编程语言,包括Java、Python、Go等。该工…...

使用Qt Installer Framework将自己的程序打包成安装包程序
使用Qt Installer Framework将自己的程序打包成安装包程序 制作安装包程序就是将自己的程序打包成一个可执行的exe,双击之后进行安装。 1. 在制作安装包程序之前需要安装qt官方提供的安装包制作工具Qt Installer Framework 去qt官方网址,下载对应的 Q…...

逆袭Flutter? Facebook 发布全新跨平台引擎 Hermes!
Facebook 于前日发布了新的 JavaScript 引擎:Hermes,专注于提高 React Native 应用的性能,并且在市面上那些内存较少、存储速度较慢且计算能力低下的移动设备上都有良好的表现。但是不是为了追赶Flutter?这块作者没有说明。 移动应…...

c++ 互斥锁使用详解 lock_guard
c 互斥锁使用详解 std::mutex 用于保护共享资源,防止多个线程同时修改共享资源而引发竞争条件。 成员函数 lock:锁定互斥,若互斥不可用则阻塞。try_lock:尝试锁定互斥,若互斥不可用则返回。unlock:解锁…...

【快速解决】Android Button页面跳转功能
目录 让我们直接开始 第一步:先建立一个新的activity 编辑 第二步:打开第一个页面的Java文件MainActivity 方法一:直接跳转功能如下: 方法二:输入密码才能进行跳转功能如下: 需要注意的地方 结语 让…...

C语言 pthread_create
备注void *,最好添加返回值 原因:在实践中,虽然你的函数可能不需要返回任何值,但为了与 pthread_create 函数的预期函数指针格式相匹配,最好遵守函数指针所需的返回类型。这是一种良好的编程实践,确保你的代…...

前端uniapp提交表单调用接口方法最新
目录 源码1源码2最后 源码1 <template><view class"my-add-bank-card"><!-- name"bank_name" form表单提交的input里面一定要加name绑定要传的参数 name"bank_name" type"text" v-model"address.bank_name"…...

OpenFeign的简单介绍和功能实操
前言 本文主要做一下OpenFeign的简单介绍和功能实操,实操主要是OpenFeign的超时和重试,在阅读本文章前,请完成《Nacos 注册中心介绍与实操》内的Nacos多模块生产消费者项目 什么是OpenFeign OpenFeign全名Spring Cloud OpenFeignÿ…...

webpack 高级
高级配置就是要进行 webpack 优化,让代码在编译、运行时性能更好 主要从以下角度去优化: 1、提升开发体验 2、提升打包构建速度 3、减少代码体积 4、优化代码运行性能 一、提升体验 1、SourceMap 为什么 打包出来的所有css和js合并成了一个文件&#…...

OLE DB 访问接口所需的(最大)数据长度为 18,但返回的数据长度为 6。
sqlserver查询oracle链接服务器视图,报错 给最终返回的字符串进行类型转换,字符串大小按返回值最大的那个oracle源本字段类型长度 aaaaaa AS yljgbmcast(aaaaaa AS varchar(10)) AS yljgbm...