当前位置: 首页 > news >正文

保障效率与可用,分析Kafka的消费者组与Rebalance机制

系列文章目录

上手第一关,手把手教你安装kafka与可视化工具kafka-eagle
Kafka是什么,以及如何使用SpringBoot对接Kafka
架构必备能力——kafka的选型对比及应用场景
Kafka存取原理与实现分析,打破面试难关
防止消息丢失与消息重复——Kafka可靠性分析及优化实践


在这里插入图片描述
我们上一期从可靠性分析了消息可靠性方面来分析Kafka的机制与原理,知晓了Kafka为了保障消息不丢失、不重复,所作出的种种设计。今天我们来讲关于Kafka在消费端所作出的一些机制与原理

📕作者简介:战斧,从事金融IT行业,有着多年一线开发、架构经验;爱好广泛,乐于分享,致力于创作更多高质量内容
📗本文收录于 kafka 专栏,有需要者,可直接订阅专栏实时获取更新
📘高质量专栏 云原生、RabbitMQ、Spring全家桶 等仍在更新,欢迎指导
📙Zookeeper Redis dubbo docker netty等诸多框架,以及架构与分布式专题即将上线,敬请期待


一、消费者组概念

我们其实在很多MQ组件种都有消费者组的概念,在Kafka中也不例外。消费者组与Kafka的Rebalance机制是保障Kafka消息消费效率与可用性的重要手段。
在这里插入图片描述
我们可以把多个消费者合成一个消费者组(Group)每个消费者组可以消费一个或多个主题的消息

二、消费者组的作用

1. 分区分配策略

消费者组是Kafka中实现消息分发与负载均衡的重要机制,它可以分摊消息的处理压力,并提高消息的处理效率和可用性。消费者组中的每个消费者可以独立消费分配给该消费者组的消息,在消费过程中,消费者不会相互干扰,不会重复消费同一条消息,也不会漏掉任何一条消息。

Kafka的消费者组工作流程如下图所示:
在这里插入图片描述

如上图,某个Topic里有两个分区,而我们的消费者组有两个消费者,那么两个消费者就会各自订阅一个分区,互不干扰。

当然,有些同学会问,你这里正好是两个分区、两个消费者,那如果两边数量不一样呢?

那么这就涉及到partition的分配问题,即确定那个partition由哪个consumer来消费。
Kafka有三种分配策略,一是roundrobin,一是range,还有一个StickyAssignor策略

  1. range策略
    Range是对每个Topic而言的(即一个Topic一个Topic分),首先对同一个Topic里面的分区按照序号进行排序,并对消费者按照字母顺序进行排序。然后用Partitions分区的个数除以消费者线程的总数来决定每个消费者线程消费几个分区。每个消费者消费的分区是连续的,如果除不尽,那么前面几个消费者线程将会多消费一个分区
    在这里插入图片描述

但其弊端也比较明显,排名靠前的消费者压力比较大,如果该消费者组仅订阅1个Topic还好,如果订阅多个主题,前面的消费者压力就明显更大了,如下图,消费者1订阅8个分区,而消费者3订阅6个分区

在这里插入图片描述

  1. roundrobin策略
    为了解决排名靠前的消费者压力过大的问题,一种思路就是全局考虑,把一个消费者组消费的所有分区都罗列出来并字典序排序,然后再轮询的分给消费者,我们按照上面的例子,大概的分配示意图如下
    在这里插入图片描述
    如图,当Topic1的分区10被分给消费者1后,Topic2的分区1就分配给消费者2了。那这样最后看到每个消费都订阅了7个分区,很平均了。但就完美了吗?非也,我们上面看的都是以消费者组为单位的订阅行为,但是别忘记,消费者组里面的某个消费者可能还有其他的任务,如下:
    在这里插入图片描述
    上面的消费者3除了作为消费者组的一份子,承接了Topic1和Topic2的部分分区,它还订阅了Topic3,那么消费者3的压力明显就大的太多了
  2. StickyAssignor策略
    该策略的实现更加复杂,它要求从一种更加全局的视角来分配,充分考虑到消费者组内每个消费者组的实际订阅数。它有两个目的:
    分区的分配要尽可能的均匀,分配给消费者者的主题分区数最多相差一个;
    分区的分配尽可能的与上次分配的保持相同。
    至于其具体原理,可以参考官方文档,这里不继续深入探讨了

2. 分配原理

我们上面说了几种分区分配的方案,这种分配任务的方式被称为协作分区(cooperative partitioning)。在cooperative partitioning过程中,那么协作分区的结果谁来保存呢?其实是组协调器(Group Coordinator),Kafka通过组协调器来保存消费者间的划分,实现了消费者组的自动管理,使得消费者组可以根据实际情况动态地扩容、缩容。

当然,这里需要介绍下协调器的概念,每一个Kafka集群都有若干个Coordinator,它们分别负责不同的任务。目前Kafka中的Coordinator主要有以下几种:

  • Group Coordinator:负责管理消费者组,包括新增、删除和重平衡操作。

  • Transaction Coordinator:负责事务的管理,包括启动、提交和回滚等操作。

  • Metadata Coordinator:负责维护Kafka集群中各个Partition的元数据信息,包括分区的leader和ISR等信息。

  • Admin Coordinator:负责管理Kafka集群的各种配置信息,包括topic的创建、删除和分区的增、删、改等操作。

我们这里要讲的就是其中的组协调器(Group Coordinator),Group Coordinator是一个服务,每个Broker在启动的时候都会启动一个该服务。Group Coordinator的作用是用来存储Group的相关Meta信息,并将对应Partition的Offset信息记录到Kafka内置Topic(__consumer_offsets)中,当我们建立一个组的时候,都会选择一个Coordinator来操作与存储自己组内各Partition的Offset信息

三、Rebalance机制

1. Rebalance的作用

我们前面提到,消费者组里的各个消费者会被做分配操作。那如果某一个消费者挂掉了怎么办呢?这个消费者负责的那些分区岂不是没人订阅了?

别担心,Kafka提供了Rebalance机制。Rebalance机制可以动态地分配分区,使得每个消费者负载均衡,提高消费效率和可用性。一般来说,Rebalance机制会在以下情况下发生:

  • 消费者加入或退出消费者组,当消费者加入或退出消费者组时,协调器会触发Rebalance机制
  • 分区数目发生变化:当Kafka的主题被扩容或缩容时,会触发Rebalance机制,重新分配分区。。
  • Kafka Broker发生变化:当Kafka Broker发生变化时,例如节点重启或宕机等,会触发Rebalance机制

其实很好理解,A 订阅 B,那显然只有当A 或 B 的数量发生变动的时候,才需要再次平衡

2. Rebalance的实现

我们已增添一个消费者为例,说明下Rebalance发生的全过程:

  1. 消费者加入/退出:当一个消费者加入或退出消费者组时,它会向Group Coordinator发送JOIN GROUP或LEAVE GROUP请求。

  2. 协调者选举:如果Group Coordinator收到的是JOIN GROUP请求,则会根据Group Leader选举机制选举一个Group LeaderGroup Leader的职责是进行rebalance操作,分配partition给消费者。(注意Group Leader是消费者组内的某个消费者,和Group Coordinator不是一个东西)

  3. 分组协商Group Leader选举完成后,它会向其他消费者发送SYNC GROUP请求,要求其他消费者加入rebalance操作。其他消费者加入后,Group Leader会根据消费者的订阅信息,计算出新的分配方案。分配方案会以ASSIGN PARTITIONS请求的形式发送给每个消费者。

  4. 重新分配partition:每个消费者在收到ASSIGN PARTITIONS请求后,会按照分配方案重新分配自己需要消费的partition,然后完成rebalance操作。

  5. 继续消费:重新分配partition后,消费者会继续从分配的partition中消费数据。

借用网上的图来说明下情况,你也可以把整个Rebalance分为两步:JoinSync

  • Join阶段,所有成员都向coordinator发送JoinGroup请求,请求加入消费组,最后由Group Coordinator来选出其中一个消费者作为Leader,Leader能知道组内所有消费者。
    在这里插入图片描述
  • Sync阶段,leader开始分配消费方案,一旦完成分配,leader会将这个方案封装进SyncGroup请求中发给coordinator,非leader也会发SyncGroup请求,只是内容为空。coordinator接收到分配方案之后会把方案塞进SyncGroup的response中发给各个consumer
    在这里插入图片描述
    而至于分配方案具体是怎样的,其实就是在上一小节已经说过的 分区分配策略

3. Rebalance的优劣

Kafka的rebalance主要是为了实现消费者的负载均衡。通过上面的学习,相信大家也能总结出rebalance机制的优点就是增强容错性支持动态扩容

  • 增强容错性:当某个消费者意外退出或宕机,rebalance可以重新分配该消费者所消费的partition给其他消费者,从而保障消费的连续性,并减少对业务的影响。

  • 支持动态扩容:在Kafka系统运行中,如果需要增加消费者数量,rebalance可以根据新的消费者加入,重新分配partition,确保消费者的负载均衡。

但凡事有利有弊,rebalance最大的缺点就是延迟影响性:rebalance操作会涉及到分区的重新分配,会导致系统有一定的延迟。如果消费者数量很大,rebalance操作会更加复杂且耗时长。在这个期间,所有的消费者都无法执行消费,可以说影响面还是非常广的。


四、减少Rebalance的发生

我们在生产中,如非必要,应该尽量避免Rebalance,这会暂停运行中的消费过程。最好是提前就做好各种预防措施,而不是依靠Kafka的Rebalance来处理。

我们在前面说到,消费者 和 分区 的数量变化会导致Rebalance,一般其实是由于消费者的变动导致的,如果是意外的宕机我们无法防止,但是我们可以调整“短暂掉线”及“消费能力不足”的消费者,对他们更加“宽容”一点,具体如下:

每个 Consumer 实例都会定期地向 Coordinator 发送心跳请求,表明它还存活着。如果某个 Consumer 实例不能及时地发送这些心跳请求,Coordinator 就会认为该 Consumer 已经 “死” 了,从而将其从 Group 中移除,然后开启新一轮 Rebalance。这个时间可以通过Consumer 端的参数 session.timeout.ms进行配置。默认值是 45 秒

在这里插入图片描述

Consumer 端还有一个参数,用于控制 Consumer 实际消费能力对 Rebalance 的影响,即 max.poll.interval.ms 参数。它限定了 Consumer 端应用程序两次调用 poll 方法的最大时间间隔。它的默认值是 5 分钟,表示你的 Consumer 程序如果在 5 分钟之内无法消费完 poll 方法返回的消息,那么 Consumer 会主动发起 “离开组” 的请求,Coordinator 也会开启新一轮 Rebalance

在这里插入图片描述
一般来说,为了预防Rebalance,我们可以调大上面两个参数,同时加快心跳频率,也就是调小heartbeat.interval.ms

在这里插入图片描述

总结

本期我们讲了Kafka消费端的成组设置,也了解了组内的分配规则,以及消费者发生变动后会导致的Rebalance机制,最后介绍了减少Rebalance发生的一些参数调整。希望大家能有所收获,下次我们将继续深入讲解Kafka的其他原理,如果你对此有兴趣,可以直接订阅本 kafka 专栏

相关文章:

保障效率与可用,分析Kafka的消费者组与Rebalance机制

系列文章目录 上手第一关,手把手教你安装kafka与可视化工具kafka-eagle Kafka是什么,以及如何使用SpringBoot对接Kafka 架构必备能力——kafka的选型对比及应用场景 Kafka存取原理与实现分析,打破面试难关 防止消息丢失与消息重复——Kafka可…...

“1-5-15”原则:中国联通数字化监控平台可观测稳定性保障实践

一分钟精华速览 “只知道系统有问题,但是找不到问题到底出在哪里”,这几乎是大家都面临过、或正在面临的问题。用户在投诉,但是我的指标都是正常的,到底是哪一环出问题了? 本文详细介绍了中国联通在智能运维领域的应用…...

LinkedList详解-Deque接口链表实现方案

简介 LinkedList实现了List和Deque接口。List是一个有序的集合,可以包含重复元素,它提供了在列表的头部、尾部或指定位置进行插入、删除和查找等操作的方法。Deque是双端队列,提供了在列表的头部和尾部进行插入和删除操作的方法。通过实现这…...

【考研数据结构代码题1】二叉搜索树的插入与查找

题目&#xff1a;请用C语言写出二叉树的二叉链表结构&#xff0c;并编写一个函数在二叉搜索树中可以搜索给定的关键字 难度&#xff1a;★ 二叉树的二叉链表结构 #include<stdio.h> #include<stdlib.h> //二叉树的结点结构 typedef struct Node{int data;//存放结…...

世微 平均电流型降压恒流驱动器 电动摩托车LED灯小钢炮驱动IC AP5218

1&#xff0c;来源&#xff1a;深圳市世微半导体有限公司 2&#xff0c;产品描述 AP5218 是一款 PWM工作模式, 高效率、外 围简单、内置功率管&#xff0c;适用于5V&#xff5e;100V输入的高 精度降压 LED 恒流驱动芯片。输出最大功率可达 15W&#xff0c;最大电流 1.5A。AP5…...

docker 下安装mysql8.0

在docker中查询mysql镜像 PS C:\Users\admin> docker search mysql NAME DESCRIPTION STARS OFFICIAL AUTOMATED mysql MySQL is a widely used, open-source relation……...

Android MVI架构的深入解析与对比

什么是MVI&#xff1f; M&#xff1a;model&#xff0c;此处的model并不是传统的数据模块&#xff0c;它是指用来存储视图状态UI State的一个模块 。比如请求数据时的loading、请求失败的提示页面等UI层面的变化状态。 V&#xff1a;view&#xff0c;视图模块 I&#xff1a;…...

达梦数据库表空间管理常用SQL

达梦数据库表空间管理常用SQL 表空间容量分析表空间创建与扩容 查看数据库状态&#xff1a; select name,instance_name,status$,mode$ from v$instance; --mode$显示Primary为主库select name,status$,role$ from v$database; --status$&#xff1a;1 启动&#xff0c;2 启动…...

Flutter 组件集录 | InheritedNotifier 内置状态管理组件

theme: cyanosis 1. 前言 在上一篇 《Flutter 知识集锦 | 监听与通知 ChangeNotifier》 中&#xff0c;我们介绍了 ChangeNotifier 对象通知监听者的能力。并通过一个简单的模拟下载进度案例&#xff0c;介绍了它的使用方式&#xff1a; | 案例演示 | 监听-通知关系 | | --- | …...

NOIP2023模拟10联测31 涂鸦

题目大意 有一面由 n m n\times m nm个格子组成的墙&#xff0c;每个格子要么是黑色&#xff0c;要么是白色。你每次将会进行这样的操作&#xff1a;等概率随机选择一个位置 ( x , y ) (x,y) (x,y)和一个颜色 c c c&#xff08;黑色或白色&#xff09;&#xff0c;&#xff0…...

【Python基础知识一】基本语法、常用数据类型等

Python基础知识&#xff1a; 1 标识符&#xff08;Identifier&#xff09;2 关键字/保留字&#xff08;Keyword&#xff09;3 引号4 编码5 输入输出6 行与缩进7 多行语句8 注释9 数据类型9.1 数字(Number)类型9.2 变量&#xff08;variate&#xff09;9.3 字符串&#xff08;St…...

听听ChatGPT对IT行业的发展和就业前景的看法

&#x1f308;个人主页: Aileen_0v0&#x1f525;系列专栏:PYTHON学习系列专栏&#x1f4ab;"没有罗马,那就自己创造罗马~" 目录 (1)判断素数 写法1: 写法2: (2)计算1-100的偶数之和 写法1: 写法2: (3)计算1-100的奇数之和 (4)多层循环 IT行业哪个方向比较…...

〖程序员的自我修养 - 认知剖析篇⑤〗- 选择前端还是后端?

人之所以会觉得迷茫,本质上是欠缺对自己的一个控制力、识别庞杂信息、去伪存真的独立思考与认知能力。 说明:该文属于 程序员的自我修养 专栏,购买任意白宝书体系化专栏可加入易编程社区,早鸟价订阅模式除外。福利:加入社区的小伙伴们,除了可以获取博主所有付费专栏的阅读…...

Rust语言初步

文章目录 安装与测试变量条件语句和函数数组和元组循环 安装与测试 可以从官网直接下载。下载rustup-init并运行之后&#xff0c;会打开命令行&#xff0c;选1默认安装&#xff0c;然后不出意外就安装完了。 安装完成后按照惯例查看一下版本&#xff0c;如不报错就算成功。 …...

BIMILLC算法源码解析

论文链接&#xff1a;https://arxiv.org/abs/1607.02533 源码出处&#xff1a;https://github.com/Harry24k/adversarial-attacks-pytorch/tree/master 源码 import torch import torch.nn as nnfrom ..attack import Attackclass BIM(Attack):r"""BIM or iter…...

Android STR研究之五

前言&#xff1a; 在前四篇中初步介绍了开机流程&#xff0c;STR流程&#xff0c;唤醒流程&#xff0c;这里讲下STR的问题点 Android STR研究之一-CSDN博客 Android STR研究之二-CSDN博客 Android STR研究之三-CSDN博客 Android STR研究之四-CSDN博客 问题1&#xff1a;进入STR…...

python3+requests接口自动化测试实例详细操作

前段时间由于公司测试方向的转型&#xff0c;由原来的web页面功能测试转变成接口测试&#xff0c;之前大多都是手工进行&#xff0c;利用postman和jmeter进行的接口测试&#xff0c;后来&#xff0c;组内有人讲原先web自动化的测试框架移驾成接口的自动化框架&#xff0c;使用的…...

在Node.js中,什么是中间件(middleware)?它们的作用是什么?

聚沙成塔每天进步一点点 ⭐ 专栏简介 前端入门之旅&#xff1a;探索Web开发的奇妙世界 欢迎来到前端入门之旅&#xff01;感兴趣的可以订阅本专栏哦&#xff01;这个专栏是为那些对Web开发感兴趣、刚刚踏入前端领域的朋友们量身打造的。无论你是完全的新手还是有一些基础的开发…...

当函数参数为一级指针,二级指针

当函数参数为一级指针&#xff0c;二级指针 在讲述内容之前&#xff0c;先讲四点重要知识 1.当传入参数时&#xff0c;函数形参会立即申请形参的内存空间&#xff0c;函数执行完毕后&#xff0c;形参的内存空间立即释放掉。 1.指针是存放其他变量地址的变量。指针有自己的内…...

Hydra post登录框爆破

文章目录 无token时的Hydra post登录框爆破带Token时的Hydra post登录框爆破 无token时的Hydra post登录框爆破 登录一个无验证码和token的页面&#xff0c;同时抓包拦截 取出发送数据包&#xff1a;usernameadb&password133&submitLogin 将用户名和密码替换 userna…...

前端导出带有合并单元格的列表

// 导出async function exportExcel(fileName "共识调整.xlsx") {// 所有数据const exportData await getAllMainData();// 表头内容let fitstTitleList [];const secondTitleList [];allColumns.value.forEach(column > {if (!column.children) {fitstTitleL…...

定时器任务——若依源码分析

分析util包下面的工具类schedule utils&#xff1a; ScheduleUtils 是若依中用于与 Quartz 框架交互的工具类&#xff0c;封装了定时任务的 创建、更新、暂停、删除等核心逻辑。 createScheduleJob createScheduleJob 用于将任务注册到 Quartz&#xff0c;先构建任务的 JobD…...

《通信之道——从微积分到 5G》读书总结

第1章 绪 论 1.1 这是一本什么样的书 通信技术&#xff0c;说到底就是数学。 那些最基础、最本质的部分。 1.2 什么是通信 通信 发送方 接收方 承载信息的信号 解调出其中承载的信息 信息在发送方那里被加工成信号&#xff08;调制&#xff09; 把信息从信号中抽取出来&am…...

C++ 基础特性深度解析

目录 引言 一、命名空间&#xff08;namespace&#xff09; C 中的命名空间​ 与 C 语言的对比​ 二、缺省参数​ C 中的缺省参数​ 与 C 语言的对比​ 三、引用&#xff08;reference&#xff09;​ C 中的引用​ 与 C 语言的对比​ 四、inline&#xff08;内联函数…...

土地利用/土地覆盖遥感解译与基于CLUE模型未来变化情景预测;从基础到高级,涵盖ArcGIS数据处理、ENVI遥感解译与CLUE模型情景模拟等

&#x1f50d; 土地利用/土地覆盖数据是生态、环境和气象等诸多领域模型的关键输入参数。通过遥感影像解译技术&#xff0c;可以精准获取历史或当前任何一个区域的土地利用/土地覆盖情况。这些数据不仅能够用于评估区域生态环境的变化趋势&#xff0c;还能有效评价重大生态工程…...

鱼香ros docker配置镜像报错:https://registry-1.docker.io/v2/

使用鱼香ros一件安装docker时的https://registry-1.docker.io/v2/问题 一键安装指令 wget http://fishros.com/install -O fishros && . fishros出现问题&#xff1a;docker pull 失败 网络不同&#xff0c;需要使用镜像源 按照如下步骤操作 sudo vi /etc/docker/dae…...

ArcGIS Pro制作水平横向图例+多级标注

今天介绍下载ArcGIS Pro中如何设置水平横向图例。 之前我们介绍了ArcGIS的横向图例制作&#xff1a;ArcGIS横向、多列图例、顺序重排、符号居中、批量更改图例符号等等&#xff08;ArcGIS出图图例8大技巧&#xff09;&#xff0c;那这次我们看看ArcGIS Pro如何更加快捷的操作。…...

论文笔记——相干体技术在裂缝预测中的应用研究

目录 相关地震知识补充地震数据的认识地震几何属性 相干体算法定义基本原理第一代相干体技术&#xff1a;基于互相关的相干体技术&#xff08;Correlation&#xff09;第二代相干体技术&#xff1a;基于相似的相干体技术&#xff08;Semblance&#xff09;基于多道相似的相干体…...

【Go语言基础【12】】指针:声明、取地址、解引用

文章目录 零、概述&#xff1a;指针 vs. 引用&#xff08;类比其他语言&#xff09;一、指针基础概念二、指针声明与初始化三、指针操作符1. &&#xff1a;取地址&#xff08;拿到内存地址&#xff09;2. *&#xff1a;解引用&#xff08;拿到值&#xff09; 四、空指针&am…...

多模态图像修复系统:基于深度学习的图片修复实现

多模态图像修复系统:基于深度学习的图片修复实现 1. 系统概述 本系统使用多模态大模型(Stable Diffusion Inpainting)实现图像修复功能,结合文本描述和图片输入,对指定区域进行内容修复。系统包含完整的数据处理、模型训练、推理部署流程。 import torch import numpy …...