当前位置: 首页 > news >正文

Kafka运行机制(一):Kafka集群启动,controller选举,生产消费流程

前置知识

Kafka基本概念icon-default.png?t=N7T8https://blog.csdn.net/dxh9231028/article/details/141270920?spm=1001.2014.3001.5501

1. Kafka集群启动

Kafka在启动集群中的各个broker时,broker会向controller注册自己,并且从controller节点同步集群元数据。

broker是Kafka集群中的一个角色,Kafka集群中有两个角色,分别是broker和controller。其中broker服务生产和消费数据,以及集群中数据同步等,而controller则是负责协调各个broker,维护集群的元数据信息,那么什么是集群的元数据。

Kafka集群中由生产者生产的数据叫消息,而集群的状态信息,如集群节点信息,主题信息,主题分区信息,等等。

在传统的zookeeper模式下,所有节点都有broker角色,并在集群启动时会选择一个broker节点作为controller节点,其他节点从zookeeper集群中存储和拉取集群元数据,controller负责将各种集群元数据信息的更改注册到zookeeper集群中。 

而在Kraft模式下,集群元数据交由Kafka自身管理,集群中各个节点可以在broker和controller中通过配置项选择自己的角色(可以两个都选择),而被选择为controller的节点会在内部进行选举,选举出一个真正的controller,而其他未被选举为controller的节点则是在当前controller的节点意外宕机时发挥作用。

由于所有broker节点都需要向controller节点发起注册,所以在Kraft模式下,controller节点选举出来之前,其他节点无法正常启动。而Zookeeper中controller的选举时通过各个broker节点在zookeeper集群中创建临时有序节点来竞争controller角色,所以只需要一个broker就可以完成选举。

2. controller选举流程

当集群第一次启动或集群中的controller角色节点宕机时会触发controller的重新选举,在zookeeper模式和kraft模式下,两者略有不同。

zookeeper模式

在zookeeper模式下,在集群第一次启动时会创建临时有序节点来争夺controller角色,在当前controller角色意外宕机后,zookeeper会查找当前的临时有序节点中序号最小的broker,继续当controller,换句话说,谁先启动,谁当controller。这一过程在上面的图片中已经很好的解释了。

kraft模式

在kraft模式下,集群节点通过具有controller角色的节点来进行controller节点的选举和投票。在Kafka集群正常运行的过程中其他为当选controller的controller角色节点会持续的和当前controller维持心跳机制,当未当选节点发送的心跳信号在一定时间内的不到回应时,其会认为当前controller已经宕机,然后这个节点会变为candidate节点。

candidate携带着任期号和日志信息,向其他带有controller角色的节点发起投票。candidate节点首先会提高自己的任期号(初始值是0),向其他的节点发起投票请求,其他节点在接收请求时会比较任期号和日志信息,判断对方的信息是否比自己的信息更新。如果对方的信息更新,那么则会投票给对方,并且将自己的任期号更新至和对方一样(如果日志信息不满足,但任期号比自己大,当前节点也不会投票给对方,不过仍然会更新自己的任期号)。

当一个candidate获取了大多数节点的投票后则会当选新的controller,不过因为其并没有获取全部节点投票,所以其仍然有可能没有一部分节点的数据内有的数据,所以其他在上任controller后还要向其他节点拉取数据,以保证不丢失数据。

3. 消息生产和消费流程

当controller成功选举后,broker可以成功完成注册,Kakfa集群就可以成功启动,紧接着便可以开始进行消息的生产和消费 。

消息的真题流程包括生产生产消息,经过序列化变成二进制数组后传入Kafka集群的制定主题,通过轮训算法进入制定分区。消费者组则在组协调器的指挥下,消费者消费组协调器指定的分区,并获取对应分区当前消费分区的偏移量。具体流程如下图

 这是主题只有一个副本的情况下,当我们创建主题制定多个副本时,Kafka集群会创建当前主题的多个副本,并分别存储在不同的broker中,并且副本数量可以随意指定,但不能超过broker数量,这也就是说一个主题可能会出现在其中一些broker,而不是全部borker。

不过这并不会影响到集群功能,因为虽然有些broker没有对应的主题,但其中保存的集群元数据却记录了哪些broker有这个主题,所以broker依旧可以操作对应主题的数据。

Kafka并不会讲生产者生产的消息发往所有的主题副本,因为消息数量通常很多,如果Kafka讲每个消息都发送多份,势必会极大的影响Kafka的性能,所以主题之间也存在着数据同步的过程。而既然数据同步的过程即然存在,那么也就必然会存在着Leader和Follower的关系,不过这种关系并非建立在主题之间,而是建立在分区之间,换句话说,不存在某个主题副本是leader,而是当前主题副本的某个分区副本是Leader,其他主题副本的分区从这个Leader中同步数据,并且一个主题副本也不是其中所有的分区都是Leader,而是有的分区是Leader,有的是Follower,这样说起来很难理解,所以假设我们在三主机集群中创建三分区的主题副本,创建三份,内容如下图:

可以看到图中三个分区分别有三个Leader,而这三个Leader也分布在三个主题副本之,Kafka在实际的Leader分布上,也会尽可能做到平均分布,一方面是因为Leader主要处理消息的进入,如果都集中在一个borker上,会造成压力过大。另一方面,Leader中保存着整个主题的最新数据,如果某一个主机宕机,也可以防止因为意外,所有Leader数据丢失。

相关文章:

Kafka运行机制(一):Kafka集群启动,controller选举,生产消费流程

前置知识 Kafka基本概念https://blog.csdn.net/dxh9231028/article/details/141270920?spm1001.2014.3001.5501 1. Kafka集群启动 Kafka在启动集群中的各个broker时,broker会向controller注册自己,并且从controller节点同步集群元数据。 broker是Kaf…...

安徽医科大学:利用UKB数据库和孟德尔随机化,研究发表更轻松!

UKB数据库联合孟德尔随机化 睡眠质量和肾功能竟然与一种严重的肝病密切相关!今天,和大家分享一篇文章,这篇文章深入探讨了睡眠参数和肾功能在新发严重代谢功能障碍相关脂肪性肝病(MASLD)中的机制作用。 通过这篇文章&…...

Ubuntu安装gdb出现错误的问题解决,DNS解析错误导致的安装失败

目录 一、问题 1、错误现象 2、初步分析 二、问题分析和处理 1、进一步确定问题 2、解决dns问题 (1)查看 dns解析文件 (2)修改namesever (3)测试系统 三、问题解决 1、问题进一步分析 &#xf…...

【Redis】解析Redisson 限流器源码

Redisson 一、注解AOP 代码部分提取二、设置限流器的失效时间 一、注解AOP 代码部分提取 // 调用Reids工具类的rateLimiter 方法long number RedisUtils.rateLimiter(combineKey, rateType, count, time);redis 工具类 public class RedisUtils {private static final Redis…...

docker-harbor 私有仓库部署和管理

harbor 开源的企业级的docker仓库软件。 仓库:私有仓库(用的最多) 公有仓库。 harnor是有图形化的,页面UI展示的一个工具。操作起来很直观。 harnor每个组件都是由容器构建的,所以安装harbor必须要有docker。 doc…...

机器学习笔记二-回归

回归是统计学和机器学习中的一种基本方法,用于建模变量之间的关系,特别是用一个或多个自变量(输入变量)来预测一个因变量(输出变量)的值。回归分析广泛应用于预测、趋势分析和关联研究中。根据目标和数据的…...

判断http链接中文件是否存在

最近项目遇到需要从http请求下载文件到服务器,下载前需要判断下http中的文件是否存在。如果判断本地服务器上文件是否存在,用file.exists来判断。但是这个方法却无法判断http中文件是否存在。 如果要判断http文件是否存在,用如下代码&#xf…...

Flink CDC (session模式)

1、 # Start YARN session ./bin/yarn-session.sh --detached 2、配置文件: rest.bind-port: {{REST_PORT}} rest.address: {{NODE_IP}} execution.target: yarn-session yarn.application.id: {{YARN_APPLICATION_ID}} 3、mysql-doris.yml source:type: mysql…...

下载ISO镜像的方法 Debian、Red Hat 、CentOS、Ubuntu、Kali Linux

目录 Debian Red Hat CentOS Ubuntu Kali Linux Debian 下载步骤: 访问Debian的官方网站:Debian官网。在网站上找到“Downloads”或类似的下载链接。选择适合你的计算机架构(如amd64、i386等)的Debian版本。点击下载ISO镜像…...

想学接口测试,不知道那个工具适合?

接口测试是软件测试中的一项重要任务,它主要关注系统的不同组件之间的数据交换和通信。接口测试是一种黑盒测试方法,它可以帮助我们验证系统的功能和性能是否达到预期,并且确保不同组件之间的消息传递是正确的。在接口测试过程中,…...

干货分享 | TSMaster—RP1210模块使用指南

RP1210是由技术和维护委员会(TMC)编写的一种建议性实践。RP1210用于对重型车辆射频相关的(主要针对)电子控制单元(ECU)进行二次编程和分析。本文主要针对TSMaster—RP1210模块的操作进行详细介绍。 本文关…...

一步解决Ubuntu中无法使用git clone的问题

在网上找了很多教程都无法解决,最后用了一行命令成功解决 git config --global url."https://github.com".insteadOf git://github.com输入这行命令,之后就可以使用git clone了...

c++的时间复杂度

前言 Hello,大家好我是文宇. 最近没怎么写文章了,写个教程吧. 正文 C是一种高级编程语言,用于开发各种类型的应用程序,包括计算机科学中的算法和数据结构。在编写代码时,了解算法和数据结构的时间复杂度非常重要,因为它可以帮…...

PDF转图片 JAVA

前言 以下是一个使用 Apache PDFBox 将 PDF 文件转换为图片的封装方法。这个方法将会把 PDF 的每一页转换为一张图片,并保存到指定的目录中。 1.添加依赖 首先,你需要在项目中添加 PDFBox 的依赖。如果你使用的是 Maven,可以在 pom.xml 中添…...

树莓派5 笔记26:ollama大型语言模型_中文输入法_Python_espeak文字转语音

今日继续学习树莓派5 8G:(Raspberry Pi,简称RPi或RasPi) 本人所用树莓派4B 装载的系统与版本如下: 版本可用命令 (lsb_release -a) 查询: Opencv 与 python 版本如下: 下载大语言模型,下载中文输入法&#…...

【kubernetes】k8s安全机制

Kubernetes 作为一个分布式集群的管理工具,保证集群的安全性是其一个重要的任务。API Server 是集群内部各个组件通信的中介, 也是外部控制的入口。所以 Kubernetes 的安全机制基本就是围绕保护 API Server 来设计的。 比如 kubectl 如果想向 API Server…...

Android T(13) The app is granted permissions by default

我的博客 对比Android11,frameworks\base\services\core\java\com\android\server\pm\permission文件夹下,多了个PermissionManagerServiceImpl.java. 有一部分关于权限的处理,移到了这个文件中.比如:restorePermissionState(…) all app granted permissions by default b/fr…...

4 - Linux远程访问及控制

目录 一、SSH远程管理 1. SSH概述 2.SSH的优点 3.配置OpenSSH客户端 4.sshd服务支持的两种验证方式 5. 使用SSH客户端程序 5.1 ssh - 远程登录 5.2 scp - 远程复制 6.配置密钥对验证 二、TCP Wrappers访问控制 1.TCP Wrappers 概述 2. TCP Wrappers 机制的基本原则 …...

如何使用AWS EC2资源?

随着云计算技术的迅速发展,越来越多的企业和个人选择将工作负载迁移到云端,以获取灵活性、可扩展性和成本效益。作为全球领先的云计算服务提供商,AWS为用户提供了丰富的服务,其中最受欢迎的之一是云服务器EC2。本文中九河云将探讨…...

Linux高编-进程的概念(1)

目录 1.ps aux 2.top 3.kill -2 进程pid // fork函数 getpid拿自己的进程号 getppid拿父进程号 fork()&&fork()||fork() 父子进程的关系: 僵尸进程,孤儿进程 僵…...

go语言中new和make的区别

在 Go 语言中,new 函数不能用来创建通道(chan),这是因为 new 只分配内存并返回指向该内存的指针,而不负责初始化内存。 为什么不能使用 new 来创建通道? new 只能分配内存,但不会对内存进行初…...

SpringBoot响应式编程(3)R2DBC

一、概述 1.1简介 R2DBC基于Reactive Streams反应流规范,它是一个开放的规范,为驱动程序供应商和使用方提供接口(r2dbc-spi),与JDBC的阻塞特性不同,它提供了完全反应式的非阻塞API与关系型数据库交互。 …...

什么是私有继承

私有,公有,针对类而言; 私有( private )的成员,自己的,只能在自己内部( 类的定义体内部 )访问,外部( 类的定义体外部 )不能访问/调用; 公有( 或者说公开,public )的成员&#xff0…...

Scratch编程:开启智能硬件控制的大门

标题:“Scratch编程:开启智能硬件控制的大门” 在当今数字化时代,编程不仅仅是与计算机的交互,更是与物理世界的连接。Scratch,这款由麻省理工学院媒体实验室开发的视觉化编程语言,以其易学易用的特性&…...

机器学习第十二章-计算学习理论

目录 12.1基础知识 12.2 PAC学习 12.3有限假设空间 12.3.1可分情形 12.3.2不可分情形 12.4VC维 12.5 Rademacher复杂度 12.1基础知识 计算学习理论研究的是关于通过"计算"来进行"学习"的理论,即关于机器学习的理论基础,其目的…...

Java-自定义注解操作日志记录处理(@Pointcut注解不是必须的)

在Java中,使用自定义注解结合Spring AOP来实现操作日志记录是一种常见的做法。这种方式可 以帮助你轻松地在不修改业务代码的情况下增加日志记录的功能。 下面我将详细介绍如何定义一个自定义注解,并结合Spring AOP来实现操作日志记录的功能。 1. 定义自定义注解 首先,我…...

【c++】深入理解别名机制--引用

🌟🌟作者主页:ephemerals__ 🌟🌟所属专栏:C 目录 前言 一、引用的概念和定义 二、引用的特性 三、引用的实用性 1.引用传参 2.引用做返回值 2.1 引用做返回值的作用 2.2 引用坍缩问题、悬挂引用问…...

简便的qemu img扩容方法

虚拟机用着用着磁盘空间就不够了,那就要想办法增加磁盘空间大小 了。在虚拟机本身磁盘的基础上直接增加空间大小最简便,于是记录一下方法。 首先,在虚拟机关机状态下,使用qemu-img命令给虚拟机的磁盘镜像增加虚拟空间5GB&#xff…...

EPERM: operation not permitted,

这个错误提示 EPERM: operation not permitted, mkdir C:\Program Files\nodejs\node_global\node_modules\pnpm_tmp 通常是因为权限不足导致的。在 Windows 系统中,C:\Program Files\ 目录通常需要管理员权限才能写入。 要解决这个问题,你可以尝试以下…...

将Centos 8 Linux内核版本升级或降级到指定版本

本文以centos 8.0为例,内核版本为4.18.0-80.el8.x86_64,升级到内核版本为4.18.0-80.4.2.el8_0.x86_64。 1.查看当前系统版本信息 [rootcentos80-1905 ~]# uname -sr Linux 4.18.0-80.el8.x86_642.在网站:https://vault.centos.org/里面下载…...