当前位置：首页 > news >正文

01、kafka知识点综合

news 2026/5/31 18:59:21

kafka是一个优秀大吞吐消息队列，下面我就从实用的角度来讲讲kafka中，“kafka为何有大吞吐的机制”，“数据不丢失问题”，“精准一次消费问题”

01、kafka的架构组织和运行原理

kafka集群各个节点的名称叫broker，因为kafka是一个消息队列，所以对应着有producer和consumer。在数据组织层面来说，kafka是通过topic来区分同一类数据，但是topic是抽象的概念，具体组织数据的Partition，它是物理的文件，topic中的数据会具体落在各个Partition中，一个Partition的数据又有多个segment组成，segment也是抽象的，segment中包含了log和index文件，这才是kafka具体存储数据的文件。

02、kafka为什么能实现低延迟高吞吐

kafka通过如下的技术实现它的低延迟高吞吐

Zero Copy（零拷贝）技术
- kafka的零拷贝技术在代码层面是调用Java的NIO包下的FileChannel实现，其中的transferTo()方式是具体实现零拷贝方法。
零拷贝的具体实现需要操作系统和硬件的支持，在Linux中上述的transferTo方法最终会调用到底层的sendfile方法实现，如下图sendfile方法只需要进行2次“上下文切换”和2次的DMA数据拷贝即可完成数据的读写操作（对应kafka的数据生产和消费）（DMA：它是一种无须CPU参与就能直接把内存数据和外设数据进行交换的设备，是CPU读写大批量数据的一种替代设备）
Page Cache（页缓存）+ 磁盘顺序读写
- 当数据写入磁盘的时，数据会被先写入Page Cache，一般操作系统是按照4kb划分一个Page，根据一定机制，再把一批Page刷到磁盘中，这样就会有一批生产者产生的数据其实还是在操作系统内存中的，此时如果consumer在拉取数据，直接从Page Cache中就能拿到，如果生产者和消费者的速率差不多的情况下，kafka相当于是基于内存在读写数据
- 而且kafka在flush到磁盘的时候，数据是按照磁盘顺序读写，这样也大大提升了刷写的速度。
分区分段 + 索引
- kafka中通过Partition把topic中的数据分成若干份放入broker中，在Partition中数据其实是按照一个个小的segment存储的，这也非常符合很多分布式系统的分区分桶的思路。
- 与此同时，kafka也给一个个segment建立了稀疏索引文件，也就是哪些xxxx.index和xxxx.timestapindex文件
批量读写
- 同时kafka在读写的时候也都是按照批操作的，这样相对于单条处理来说减少了不必要的额外传输开销
批量压缩
- 压缩可以通过减少message的体积，使数据在网络传输时得到很大优化

03、kafka中如何实现CAP原则

CAP 原则是指在一个分布式系统中，对于，一致性，可用性和分区容忍性，是不能同时满足的，总的来说kafka不是严格的只实现CAP原则中的某两个放弃其中一个，它是一种动态的平衡

kafka通过多副本的ISR机制实现分区容忍性
- kafka对于每个topic会提供多个一模一样的副本，然后在这些副本中选出一个leader来对外提供读写服务。其中这些正常的副本会在一个ISR的集合中，如果其中一个副本挂掉就会被踢出ISR，但是服务正常可用，如果是leader挂掉，此次会根据配置让ISR中的副本选举出新的leader对外提供服务，这里就牺牲了系统的可用性
kafka通过高水位机制实现数据的一致性
- kafka通过牺牲follow副本的可用性，只允许leader副本对外提供读写服务来提高数据的一致性，这在一致性的实现上简单很多。
- 具体来说kafka是通过只对外提供高水位以下的数据访问，从而实现各个副本之间数据的最终一致性。
在版本的kafka中，高水位机制会出现丢数据和数据不一致的情况，在高版本中通过epoch机制修复了这样的问题。
kafka对于可用性来说没有做到那么严格，比如leader副本所在的机器有问题，对应的topic短暂不可用一直要到新的leader选举成功才行

04、数据不丢失的具体实现

broker端：
- 通过配置不能让落后太多的副本参加leader的选举（unclean.leader.election.enable = false）
- 开启配置多个副本（replication.factor > 1）
producer端：
- ack设置为-1或是all（pro.put(ProducerConfig.ACKS_CONFIG,“all”)）
- send方法中一定要用带返回值的，如果失败了可以及时的得到通知或是做出相应的策略
consumer端
- offset的提交设置为手动提交

05、kafka中的消费者组及相关问题

kafka的consumer在消费topic数据的时候是通过group的方式消费的
group中还有一个rebalance的过程，它是为了更好的把消费者分配到分区中消费数据存在的，rebalance机制运行起来的时候，所有的消费者都会暂停工作，对系统有比较大的影响

group的作用
- 隔离不同group中消费者的互相影响，实现kafka消息的订阅模式
group中消费数据特点
- 一个Partition只能让同一个group中的一个消费者来消费（为了保证分区中数据的顺序性），一般情况下一个分区分配一个消费者去消费即可，也会出现一个消费者同时消费多个分区的情况
group的中consumer的分配和管理
- 它是通过rebalance机制来分配和管理，rebalance机制会把group中的每个消费者分配到对应的topic的Partition中进行消费，如果其中一个消费者挂了，它会从新分配一个新的过来消费，有新的消费者加入会给它分配对应的分区消费
rebalance机制的问题
- 在rebalance机制运行的过程中，group中的所有消费者都会停下来不消费参加rebalance，这就会给系统带来一定时间的停摆
rebalance机制产生的条件和应对
- group中consumer数量发生变化时，订阅的topic发生变化时，订阅的topic的Partition发生变化时，这三种情况下都会触发rebalance机制
- rebalance机制如果不是频繁发生的话是一种正常现象，
非正常情况下减少rebalance触发
- 例如，consumer没有及时发送心跳请求导致误以为对应的consumer挂掉，还有consumer处理数据时间过长导致被踢出group，这些都是非正常情况
- 可以根据自己业务运行时间调整调大，heartbeat.intgerval.ms，session.timeout.ms,max.poll.interval.ms等参数的数值

06、kafka集群的调优

broker端集群优化
- 设置num.replica.fetcher参数与CPU核数一致，提供副本同步的效率
- 调大replica.fetch.min.bytes里避免小批量数据的同步，提供吞吐量
- 调大replica.fetch.max.byte在一批次中尽量多的同步数据，也是为了提高吞吐量
- 指定broker端JVM的垃圾回收器为G1
producer端优化
- 调大batch.size参数提供批次写入的量增大吞吐量，默认是16k
- 调大buffer.memory参数，提高生产者端缓存的内存大小
- retriest调大重试次数避免网络抖动带来的问题
- 根据业务的需求调整ack的值
consumer端优化
- 根据具体业务调整max.poll.records的大小
- max.poll.interval.ms调整批次拉取之间的最大延迟，避免不必要的rebalance
- heartbeat.interval.ms调整消费者和kafka之间的心跳超时时间，一般调整为session.timeout.ms的三分之一，避免不必要的rebalance

01、kafka知识点综合

kafka是一个优秀大吞吐消息队列，下面我就从实用的角度来讲讲kafka中，“kafka为何有大吞吐的机制”，“数据不丢失问题”，“精准一次消费问题” 01、kafka的架构组织和运行原理 kafka集群各个节点的名称叫broker，因为kaf…...

编程日记 2025/1/14 14:20:18

怎么用python写个唤醒睡眠电脑的脚本？

环境： win10 python3.12 问题描述： 怎么用python写个唤醒睡眠电脑的脚本？ 解决方案： 1.唤醒处于睡眠状态的电脑通常不是通过编程直接实现的，而是依赖于硬件和操作系统提供的特性。对于Windows系统，可…...

编程日记 2025/1/14 14:19:16

【Linux】Linux开发：GDB调试器与Git版本控制工具指南

Linux相关知识点可以通过点击以下链接进行学习一起加油！初识指令指令进阶权限管理yum包管理与vim编辑器GCC/G编译器make与Makefile自动化构建在 Linux 开发中，GDB 调试器和 Git 版本控制工具是开发者必备的利器。GDB 帮助快速定位代码问题，G…...

编程日记 2025/1/14 14:18:14

Git 的引用规格（refspec）语法

目录引用规格语法格式常见用法强制 -f 和的区别git fetch origin remote-branch:local-branch 和 git push origin local-branch:remote-branch 区别引用规格语法格式格式如下：[]<src>:<dst> 常见用法 # fetch git fetch origin <remote-bra…...

编程日记 2025/1/14 14:11:06

反转链表题目

文章目录反转链表题目链接：[在线OJ](https://leetcode.cn/problems/reverse-linked-list/description/)题目详解思路1：思路1算法复杂度思路2代码实现思路2算法复杂度结语欢迎大家来到我的博客，给生活来点impetus 让我们进入《题海探骊》…...

编程日记 2025/1/14 14:10:04

LED灯按键调光芯片、PWM调光IC、发光灯控制调光芯片

按键调光芯片，特别是LED灯使用PWM调光的芯片IC，是一种用于控制LED灯具亮度的集成电路，常用于台灯、壁灯、吊灯等照明设备中。这种芯片通过脉冲宽度调制（PWM）技术来调节LED的亮度，可以实现从最亮到最暗的平滑…...

编程日记 2025/1/14 14:03:55

Android Room 报错：too many SQL variables (code 1 SQLITE_ERROR) 原因及解决方法

报错信息： android.database.sqlite.SQLiteException: too many SQL variables (code 1 SQLITE_ERROR): while compiling: SELECT * FROM points WHERE id IN (?,?,?,...,?,?,?)SQLiteException: too many SQL variables 通常是由于一次查询或插入的 SQL 语句…...

编程日记 2025/1/14 13:57:46

USA-Entrepreneur-20240708-Business/Unusual

How to Get More Attention You can’t run a great business if you can’t capture people’s attention, says Gary Vaynerchuk. “如果你无法吸引人们的注意力，你就不能经营一家伟大的企业。”——Gary VaynerchukGary Vaynerchuk是一位知名的企业家、作家和公…...

编程日记 2025/1/14 13:55:40

AI算法在目标锁定跟踪领域的利与弊！

AI目标锁定与制导的优点提高精度和效率： AI算法能够快速准确地分析大量数据，从而改进目标识别和跟踪，提高打击或投放的准确性和效率。通过深度学习模型，AI可以识别图像中的特征并判断是否存在目标，进一步提取目标…...

编程日记 2025/1/14 13:53:30

移远BC28_opencpu方案_pin脚分配

先上图，BC28模块的pin脚如图所示： 下面看看GPIO的复用管脚然后我自己整理了一份完整的pin功能列表...

编程日记 2025/1/14 13:52:25

初学stm32 --- II2C_AT24C02，向EEPROM中读写数据

目录 IIC总线协议介绍 IIC总线结构图 IIC协议时序 1. ACK（Acknowledge） 2. NACK（Not Acknowledge） IO口模拟II2C协议发送起始信号： 发送停止信号： 检测应答信号： 发送应答信号&#x…...

编程日记 2025/1/14 13:51:24

动态规划汇总1

1.动态规划动态规划，英文：Dynamic Programming，简称DP，如果某一问题有很多重叠子问题，使用动态规划是最有效的。所以动态规划中每一个状态一定是由上一个状态推导出来的，这一点就区分于贪心&#xff0c…...

编程日记 2025/1/14 13:50:19

【计算机网络】lab5 ARP协议

🌈 个人主页：十二月的猫-CSDN博客 🔥 系列专栏： 🏀计算机网络_十二月的猫的博客-CSDN博客 💪🏻 十二月的寒冬阻挡不了春天的脚步，十二点的黑夜遮蔽不住黎明的曙光目录 1. 前言 2.…...

编程日记 2025/1/14 13:49:16

分布式缓存redis

分布式缓存redis 1 redis单机（单节点）部署缺点 （1）数据丢失问题：redis是内存存储，服务重启可能会丢失数据 （2）并发能力问题：redis单节点（单机）部…...

编程日记 2025/1/14 13:48:13

【Rust】数据类型

目录思维导图 1. 数据类型概述 1.1 标量类型 1.1.1 整数类型 1.1.2 浮点数类型 1.1.3 布尔类型 1.1.4 字符类型 1.2 复合类型 1.2.1 元组类型 1.2.2 数组类型 2. 类型注解与类型推断 3. 整数溢出处理 4. 数字运算 5. 示例思维导图 1. 数据类型概述 Rust是一种静…...

编程日记 2025/1/14 13:47:11

在现代工业自动化领域CClinkIE转ModbusTCP网关的应用

在现代工业自动化领域，开疆智能CCLINKIE转ModbusTCP网关扮演着至关重要的角色，尤其是在立体仓库的应用中。立体仓库系统通过高度集成的自动化设备和先进的信息技术，实现了物料存储和管理的高效率。CCLINKIE转ModbusTCP网关作为连接不同工业通…...

编程日记 2025/1/14 13:46:07

ASP.NET Core与GraphQL集成

一、引言：探索 C# 与ASP.NET Core、GraphQL 的协同魅力在当今数字化浪潮中，Web 开发领域不断演进，新技术层出不穷。C# 作为.NET 平台上的中流砥柱，凭借其强大的功能与优雅的语法，成为众多开发者构建各类应用程序的得…...

编程日记 2025/1/14 13:45:02

Zabbix 从入门到精通

一、Zabbix 简介 1.1 什么是 Zabbix Zabbix 是一个基于 Web 界面的提供分布式系统监视以及网络监视功能的企业级开源解决方案。它能监控各种网络参数，保证服务器系统的安全运营；并提供灵活的通知机制以让系统管理员快速定位 / 解决存在的各种问题。 1…...

编程日记 2025/1/14 13:44:01

文生图模型的技术原理、训练方案与微调方案

文生图模型的技术原理、训练方案与微调方案引言文生图（Text-to-Image）模型是一类能够根据文本描述生成对应图像的深度学习模型。近年来，随着生成对抗网络（GANs）和扩散模型（Diffusion Models）等技术的进步，文生图模型在图像生成领域取得了显著的进展。本文将详细介绍…...

编程日记 2025/1/14 13:38:55

3_CSS3 渐变 --[CSS3 进阶之路]

CSS3 引入了渐变（gradients），它允许在两个或多个指定的颜色之间显示平滑的过渡。CSS3 支持两种类型的渐变： 线性渐变（Linear Gradients）：颜色沿着一条线性路径变化，可以是水平、垂直…...

编程日记 2025/1/14 13:30:43

AI智能体架构设计：从成本黑洞到价值引擎的解耦之道

1. 从成本黑洞到价值引擎：为什么你的AI智能体架构正在吞噬预算又到了季度技术复盘会，财务那边递过来的云账单和工程人力成本，是不是又让你倒吸一口凉气？你看着报表上那个名为“AI智能体平台”的项目，它的资源消耗曲线几…...

编程新知 2026/5/26 5:04:27

Shiro RememberMe反序列化漏洞深度解析与实战利用

1. 这个漏洞不是“老古董”，而是理解Java安全边界的活教材很多人看到CVE-2016-4437，第一反应是“Shiro都淘汰了，还讲这个干啥？”——我去年在给一家做政企内部系统的客户做渗透复测时，就遇到过一个上线三年的审批平台&…...

编程新知 2026/5/26 3:24:07

top50 BF16算力(TFLOPS) 显卡排行榜天梯图

排名显卡型号BF16算力(TFLOPS)售价(元)单TFLOPS价格(元)1B200(SXM)45002200000488.892H200(SXM)19801200000606.063MI300X1307750000573.834H100 SXM519501100000564.105RTX PRO 6000 Blackwell1150780000678.266H100 PCIe 80GB1560850000544.877RTX 50906803400050.008A100 80…...

编程新知 2026/5/26 3:07:52

GEMM内核与MHA中的寄存器分配优化策略

1. GEMM内核与寄存器分配基础解析通用矩阵乘法（GEMM）作为深度学习计算的核心算子，其性能表现直接决定了神经网络训练和推理的效率。在硬件层面，寄存器分配的优劣往往能带来数倍的性能差异。我们以典型的GEMM运算C αAB βC为例&…...

编程新知 2026/5/26 3:05:52

深度解析HS2-HF Patch：从技术框架到创作工具链的完整升级方案

深度解析HS2-HF Patch：从技术框架到创作工具链的完整升级方案【免费下载链接】HS2-HF_Patch Automatically translate, uncensor and update HoneySelect2! 项目地址: https://gitcode.com/gh_mirrors/hs/HS2-HF_Patch 你是否曾因Honey Select 2的原版体验受…...

编程新知 2026/5/25 21:31:51

脉冲神经网络加速器设计与边缘计算优化

1. 脉冲神经网络加速器的设计挑战与突破在边缘计算领域，脉冲神经网络(SNN)正以其独特的生物启发特性引发新一轮技术变革。与传统人工神经网络(ANN)相比，SNN通过离散的脉冲信号传递信息，模拟生物神经元的工作机制，理论上可实现超低…...

编程新知 2026/5/25 21:19:36

3分钟告别英文恐惧：Android Studio中文界面轻松切换指南

3分钟告别英文恐惧：Android Studio中文界面轻松切换指南【免费下载链接】AndroidStudioChineseLanguagePack AndroidStudio中文插件(官方修改版本） 项目地址: https://gitcode.com/gh_mirrors/an/AndroidStudioChineseLanguagePack 你是否曾经因…...

编程新知 2026/5/25 20:11:59

ArduPilot飞行模式实战：从代码角度看Stabilize、Acro、Loiter模式如何切换（附避坑指南）

ArduPilot飞行模式深度解析：从状态机到实战避坑指南在开源飞控领域，ArduPilot以其强大的飞行模式系统著称。不同于普通用户只需了解模式功能，开发者更需要掌握模式切换的底层机制——这直接关系到飞行安全与二次开发效率。本文将带您深入Sta…...

编程新知 2026/5/25 17:50:38

终极指南：Windows 10完美安装PL2303驱动，解决老旧USB转串口芯片兼容性问题

终极指南：Windows 10完美安装PL2303驱动，解决老旧USB转串口芯片兼容性问题【免费下载链接】pl2303-win10 Windows 10 driver for end-of-life PL-2303 chipsets. 项目地址: https://gitcode.com/gh_mirrors/pl/pl2303-win10 你是否还在为Windows…...

编程新知 2026/5/25 17:44:03

基于EMA与轻量级机器学习的Wi-Fi链路质量预测实战

1. 项目概述与核心价值在工业自动化、仓储物流和智能制造等场景里，无线网络的稳定性正变得前所未有的重要。想象一下，一个自动导引运输车（AGV）正在执行物料搬运任务，或者一个机械臂正在与中央控制系统进行实时数据同步…...

编程新知 2026/5/25 17:15:08