Kafka运行机制(一):Kafka集群启动,controller选举,生产消费流程
前置知识
Kafka基本概念https://blog.csdn.net/dxh9231028/article/details/141270920?spm=1001.2014.3001.5501
1. Kafka集群启动
Kafka在启动集群中的各个broker时,broker会向controller注册自己,并且从controller节点同步集群元数据。
broker是Kafka集群中的一个角色,Kafka集群中有两个角色,分别是broker和controller。其中broker服务生产和消费数据,以及集群中数据同步等,而controller则是负责协调各个broker,维护集群的元数据信息,那么什么是集群的元数据。
Kafka集群中由生产者生产的数据叫消息,而集群的状态信息,如集群节点信息,主题信息,主题分区信息,等等。
在传统的zookeeper模式下,所有节点都有broker角色,并在集群启动时会选择一个broker节点作为controller节点,其他节点从zookeeper集群中存储和拉取集群元数据,controller负责将各种集群元数据信息的更改注册到zookeeper集群中。
而在Kraft模式下,集群元数据交由Kafka自身管理,集群中各个节点可以在broker和controller中通过配置项选择自己的角色(可以两个都选择),而被选择为controller的节点会在内部进行选举,选举出一个真正的controller,而其他未被选举为controller的节点则是在当前controller的节点意外宕机时发挥作用。
由于所有broker节点都需要向controller节点发起注册,所以在Kraft模式下,controller节点选举出来之前,其他节点无法正常启动。而Zookeeper中controller的选举时通过各个broker节点在zookeeper集群中创建临时有序节点来竞争controller角色,所以只需要一个broker就可以完成选举。
2. controller选举流程
当集群第一次启动或集群中的controller角色节点宕机时会触发controller的重新选举,在zookeeper模式和kraft模式下,两者略有不同。
zookeeper模式
在zookeeper模式下,在集群第一次启动时会创建临时有序节点来争夺controller角色,在当前controller角色意外宕机后,zookeeper会查找当前的临时有序节点中序号最小的broker,继续当controller,换句话说,谁先启动,谁当controller。这一过程在上面的图片中已经很好的解释了。
kraft模式
在kraft模式下,集群节点通过具有controller角色的节点来进行controller节点的选举和投票。在Kafka集群正常运行的过程中其他为当选controller的controller角色节点会持续的和当前controller维持心跳机制,当未当选节点发送的心跳信号在一定时间内的不到回应时,其会认为当前controller已经宕机,然后这个节点会变为candidate节点。
candidate携带着任期号和日志信息,向其他带有controller角色的节点发起投票。candidate节点首先会提高自己的任期号(初始值是0),向其他的节点发起投票请求,其他节点在接收请求时会比较任期号和日志信息,判断对方的信息是否比自己的信息更新。如果对方的信息更新,那么则会投票给对方,并且将自己的任期号更新至和对方一样(如果日志信息不满足,但任期号比自己大,当前节点也不会投票给对方,不过仍然会更新自己的任期号)。
当一个candidate获取了大多数节点的投票后则会当选新的controller,不过因为其并没有获取全部节点投票,所以其仍然有可能没有一部分节点的数据内有的数据,所以其他在上任controller后还要向其他节点拉取数据,以保证不丢失数据。
3. 消息生产和消费流程
当controller成功选举后,broker可以成功完成注册,Kakfa集群就可以成功启动,紧接着便可以开始进行消息的生产和消费 。
消息的真题流程包括生产生产消息,经过序列化变成二进制数组后传入Kafka集群的制定主题,通过轮训算法进入制定分区。消费者组则在组协调器的指挥下,消费者消费组协调器指定的分区,并获取对应分区当前消费分区的偏移量。具体流程如下图
这是主题只有一个副本的情况下,当我们创建主题制定多个副本时,Kafka集群会创建当前主题的多个副本,并分别存储在不同的broker中,并且副本数量可以随意指定,但不能超过broker数量,这也就是说一个主题可能会出现在其中一些broker,而不是全部borker。
不过这并不会影响到集群功能,因为虽然有些broker没有对应的主题,但其中保存的集群元数据却记录了哪些broker有这个主题,所以broker依旧可以操作对应主题的数据。
Kafka并不会讲生产者生产的消息发往所有的主题副本,因为消息数量通常很多,如果Kafka讲每个消息都发送多份,势必会极大的影响Kafka的性能,所以主题之间也存在着数据同步的过程。而既然数据同步的过程即然存在,那么也就必然会存在着Leader和Follower的关系,不过这种关系并非建立在主题之间,而是建立在分区之间,换句话说,不存在某个主题副本是leader,而是当前主题副本的某个分区副本是Leader,其他主题副本的分区从这个Leader中同步数据,并且一个主题副本也不是其中所有的分区都是Leader,而是有的分区是Leader,有的是Follower,这样说起来很难理解,所以假设我们在三主机集群中创建三分区的主题副本,创建三份,内容如下图:
可以看到图中三个分区分别有三个Leader,而这三个Leader也分布在三个主题副本之,Kafka在实际的Leader分布上,也会尽可能做到平均分布,一方面是因为Leader主要处理消息的进入,如果都集中在一个borker上,会造成压力过大。另一方面,Leader中保存着整个主题的最新数据,如果某一个主机宕机,也可以防止因为意外,所有Leader数据丢失。
相关文章:

Kafka运行机制(一):Kafka集群启动,controller选举,生产消费流程
前置知识 Kafka基本概念https://blog.csdn.net/dxh9231028/article/details/141270920?spm1001.2014.3001.5501 1. Kafka集群启动 Kafka在启动集群中的各个broker时,broker会向controller注册自己,并且从controller节点同步集群元数据。 broker是Kaf…...

安徽医科大学:利用UKB数据库和孟德尔随机化,研究发表更轻松!
UKB数据库联合孟德尔随机化 睡眠质量和肾功能竟然与一种严重的肝病密切相关!今天,和大家分享一篇文章,这篇文章深入探讨了睡眠参数和肾功能在新发严重代谢功能障碍相关脂肪性肝病(MASLD)中的机制作用。 通过这篇文章&…...

Ubuntu安装gdb出现错误的问题解决,DNS解析错误导致的安装失败
目录 一、问题 1、错误现象 2、初步分析 二、问题分析和处理 1、进一步确定问题 2、解决dns问题 (1)查看 dns解析文件 (2)修改namesever (3)测试系统 三、问题解决 1、问题进一步分析 …...

【Redis】解析Redisson 限流器源码
Redisson 一、注解AOP 代码部分提取二、设置限流器的失效时间 一、注解AOP 代码部分提取 // 调用Reids工具类的rateLimiter 方法long number RedisUtils.rateLimiter(combineKey, rateType, count, time);redis 工具类 public class RedisUtils {private static final Redis…...

docker-harbor 私有仓库部署和管理
harbor 开源的企业级的docker仓库软件。 仓库:私有仓库(用的最多) 公有仓库。 harnor是有图形化的,页面UI展示的一个工具。操作起来很直观。 harnor每个组件都是由容器构建的,所以安装harbor必须要有docker。 doc…...
机器学习笔记二-回归
回归是统计学和机器学习中的一种基本方法,用于建模变量之间的关系,特别是用一个或多个自变量(输入变量)来预测一个因变量(输出变量)的值。回归分析广泛应用于预测、趋势分析和关联研究中。根据目标和数据的…...
判断http链接中文件是否存在
最近项目遇到需要从http请求下载文件到服务器,下载前需要判断下http中的文件是否存在。如果判断本地服务器上文件是否存在,用file.exists来判断。但是这个方法却无法判断http中文件是否存在。 如果要判断http文件是否存在,用如下代码…...
Flink CDC (session模式)
1、 # Start YARN session ./bin/yarn-session.sh --detached 2、配置文件: rest.bind-port: {{REST_PORT}} rest.address: {{NODE_IP}} execution.target: yarn-session yarn.application.id: {{YARN_APPLICATION_ID}} 3、mysql-doris.yml source:type: mysql…...
下载ISO镜像的方法 Debian、Red Hat 、CentOS、Ubuntu、Kali Linux
目录 Debian Red Hat CentOS Ubuntu Kali Linux Debian 下载步骤: 访问Debian的官方网站:Debian官网。在网站上找到“Downloads”或类似的下载链接。选择适合你的计算机架构(如amd64、i386等)的Debian版本。点击下载ISO镜像…...

想学接口测试,不知道那个工具适合?
接口测试是软件测试中的一项重要任务,它主要关注系统的不同组件之间的数据交换和通信。接口测试是一种黑盒测试方法,它可以帮助我们验证系统的功能和性能是否达到预期,并且确保不同组件之间的消息传递是正确的。在接口测试过程中,…...

干货分享 | TSMaster—RP1210模块使用指南
RP1210是由技术和维护委员会(TMC)编写的一种建议性实践。RP1210用于对重型车辆射频相关的(主要针对)电子控制单元(ECU)进行二次编程和分析。本文主要针对TSMaster—RP1210模块的操作进行详细介绍。 本文关…...
一步解决Ubuntu中无法使用git clone的问题
在网上找了很多教程都无法解决,最后用了一行命令成功解决 git config --global url."https://github.com".insteadOf git://github.com输入这行命令,之后就可以使用git clone了...
c++的时间复杂度
前言 Hello,大家好我是文宇. 最近没怎么写文章了,写个教程吧. 正文 C是一种高级编程语言,用于开发各种类型的应用程序,包括计算机科学中的算法和数据结构。在编写代码时,了解算法和数据结构的时间复杂度非常重要,因为它可以帮…...
PDF转图片 JAVA
前言 以下是一个使用 Apache PDFBox 将 PDF 文件转换为图片的封装方法。这个方法将会把 PDF 的每一页转换为一张图片,并保存到指定的目录中。 1.添加依赖 首先,你需要在项目中添加 PDFBox 的依赖。如果你使用的是 Maven,可以在 pom.xml 中添…...

树莓派5 笔记26:ollama大型语言模型_中文输入法_Python_espeak文字转语音
今日继续学习树莓派5 8G:(Raspberry Pi,简称RPi或RasPi) 本人所用树莓派4B 装载的系统与版本如下: 版本可用命令 (lsb_release -a) 查询: Opencv 与 python 版本如下: 下载大语言模型,下载中文输入法&#…...
【kubernetes】k8s安全机制
Kubernetes 作为一个分布式集群的管理工具,保证集群的安全性是其一个重要的任务。API Server 是集群内部各个组件通信的中介, 也是外部控制的入口。所以 Kubernetes 的安全机制基本就是围绕保护 API Server 来设计的。 比如 kubectl 如果想向 API Server…...
Android T(13) The app is granted permissions by default
我的博客 对比Android11,frameworks\base\services\core\java\com\android\server\pm\permission文件夹下,多了个PermissionManagerServiceImpl.java. 有一部分关于权限的处理,移到了这个文件中.比如:restorePermissionState(…) all app granted permissions by default b/fr…...

4 - Linux远程访问及控制
目录 一、SSH远程管理 1. SSH概述 2.SSH的优点 3.配置OpenSSH客户端 4.sshd服务支持的两种验证方式 5. 使用SSH客户端程序 5.1 ssh - 远程登录 5.2 scp - 远程复制 6.配置密钥对验证 二、TCP Wrappers访问控制 1.TCP Wrappers 概述 2. TCP Wrappers 机制的基本原则 …...

如何使用AWS EC2资源?
随着云计算技术的迅速发展,越来越多的企业和个人选择将工作负载迁移到云端,以获取灵活性、可扩展性和成本效益。作为全球领先的云计算服务提供商,AWS为用户提供了丰富的服务,其中最受欢迎的之一是云服务器EC2。本文中九河云将探讨…...

Linux高编-进程的概念(1)
目录 1.ps aux 2.top 3.kill -2 进程pid // fork函数 getpid拿自己的进程号 getppid拿父进程号 fork()&&fork()||fork() 父子进程的关系: 僵尸进程,孤儿进程 僵…...
golang循环变量捕获问题
在 Go 语言中,当在循环中启动协程(goroutine)时,如果在协程闭包中直接引用循环变量,可能会遇到一个常见的陷阱 - 循环变量捕获问题。让我详细解释一下: 问题背景 看这个代码片段: fo…...

安宝特方案丨XRSOP人员作业标准化管理平台:AR智慧点检验收套件
在选煤厂、化工厂、钢铁厂等过程生产型企业,其生产设备的运行效率和非计划停机对工业制造效益有较大影响。 随着企业自动化和智能化建设的推进,需提前预防假检、错检、漏检,推动智慧生产运维系统数据的流动和现场赋能应用。同时,…...
生成 Git SSH 证书
🔑 1. 生成 SSH 密钥对 在终端(Windows 使用 Git Bash,Mac/Linux 使用 Terminal)执行命令: ssh-keygen -t rsa -b 4096 -C "your_emailexample.com" 参数说明: -t rsa&#x…...

蓝桥杯3498 01串的熵
问题描述 对于一个长度为 23333333的 01 串, 如果其信息熵为 11625907.5798, 且 0 出现次数比 1 少, 那么这个 01 串中 0 出现了多少次? #include<iostream> #include<cmath> using namespace std;int n 23333333;int main() {//枚举 0 出现的次数//因…...

智能分布式爬虫的数据处理流水线优化:基于深度强化学习的数据质量控制
在数字化浪潮席卷全球的今天,数据已成为企业和研究机构的核心资产。智能分布式爬虫作为高效的数据采集工具,在大规模数据获取中发挥着关键作用。然而,传统的数据处理流水线在面对复杂多变的网络环境和海量异构数据时,常出现数据质…...
return this;返回的是谁
一个审批系统的示例来演示责任链模式的实现。假设公司需要处理不同金额的采购申请,不同级别的经理有不同的审批权限: // 抽象处理者:审批者 abstract class Approver {protected Approver successor; // 下一个处理者// 设置下一个处理者pub…...

人工智能(大型语言模型 LLMs)对不同学科的影响以及由此产生的新学习方式
今天是关于AI如何在教学中增强学生的学习体验,我把重要信息标红了。人文学科的价值被低估了 ⬇️ 转型与必要性 人工智能正在深刻地改变教育,这并非炒作,而是已经发生的巨大变革。教育机构和教育者不能忽视它,试图简单地禁止学生使…...

C/C++ 中附加包含目录、附加库目录与附加依赖项详解
在 C/C 编程的编译和链接过程中,附加包含目录、附加库目录和附加依赖项是三个至关重要的设置,它们相互配合,确保程序能够正确引用外部资源并顺利构建。虽然在学习过程中,这些概念容易让人混淆,但深入理解它们的作用和联…...
站群服务器的应用场景都有哪些?
站群服务器主要是为了多个网站的托管和管理所设计的,可以通过集中管理和高效资源的分配,来支持多个独立的网站同时运行,让每一个网站都可以分配到独立的IP地址,避免出现IP关联的风险,用户还可以通过控制面板进行管理功…...
Redis:现代应用开发的高效内存数据存储利器
一、Redis的起源与发展 Redis最初由意大利程序员Salvatore Sanfilippo在2009年开发,其初衷是为了满足他自己的一个项目需求,即需要一个高性能的键值存储系统来解决传统数据库在高并发场景下的性能瓶颈。随着项目的开源,Redis凭借其简单易用、…...