Kafka 实战指南:原理剖析与高并发场景设计模式
一、介绍
Kafka是由 Apache 软件基金会开发的开源流处理平台,作为高吞吐量的分布式发布订阅消息系统,采用 Scala 和 Java 编写。
Kafka是一种消息服务(MQ),在理论上可以达到十万的并发。
代表的MQ软件——
kafka 十万并发
RocketMa 百万并发
rabbitMQ 十万并发
zeroMQ 百万并发
二、术语解释

1.Producer(生产者)
- 负责将消息发送到 Kafka 集群的进程;
- 根据消息的 Key 或分区策略,将消息路由到对应 Topic 的分区;
- 支持异步批量发送,提升吞吐量。
2.Consumer(消费者)
- 从 Kafka 集群订阅并处理消息的进程;
- 通过消费者组(Consumer Group)实现负载均衡,同一组内的消费者竞争消费分区消息;
- 通过手动提交偏移量(Offset)精确控制消费进度。
3.Broker(消息服务器)
- Kafka 集群的核心节点,负责存储、管理消息;
- 每个 Topic 被划分为多个分区(Partition),Broker 管理分区的分配、复制和故障转移;
- 支持水平扩展,通过添加节点提升集群容量和性能。
4.Topic(主题)
- 消息的逻辑分组,按业务模块划分;
- 物理上由多个分区组成,消息按追加模式写入分区日志;
- 支持多生产者写入和多消费者组订阅。
5.Partition(分区)
- Topic 的物理分片,每个分区是有序的、不可变的消息日志;
- 单个分区内的消息严格有序,不同分区间消息顺序无关;
- 通过多分区并行读写,提升消息处理吞吐量。
三、作用
用来处理消费者在网站中的所有动作流数据,就是在分布式业务环境,实现不同组件、不同的功能模块的高效通信。

四、优点
1、解耦:允许我们独立的扩展或修改列两边的处理过程;
2、扩展性: 因为消息队列解耦了你的处理过程,所以增大消息入队和处理的频率是很容易的,只要另外增加处理过程即可;
3、流量削峰:高流量的时候,使用消息队列作为中间件可以将流量的高峰保存在消息队列中,从而防止了系统的高请求,减轻服务器的请求处理压力;
4、可恢复性:即使一个处理消息的进程挂掉,加入队列中的消息仍可以在系统恢复后被处理;
5、顺序保证: 在大多使用场景下,数据处理的顺序都很重要。大部分消息队列本来就是排序的,并且能保证数据会按照特定的顺序来处理。Kafka保证一个Partition内的消息的有序性;
6、缓冲:有助于解决生产消息和消费消息的处理速度不一致的情况;
7、异步通信:消息队列允许用户把消息放入队列但不立即处理它。
(解耦是降低系统组件间依赖,使其独立运行、灵活扩展的设计方法,常见于消息队列、微服务等场景,可提升系统灵活性与可靠性)
(Partition是分区,在Kafka工作过程中,生产者将消息发送到特定Topic主题中,消费者通过订阅Topic 获取消息,而每个Topic可分为多个分区,分区是Topic的物理分片,如下图所示)

(Kafka设定Topic主题这一概念就是为了确保消息的有序性的,就是确保消息的顺序的)
五、观察者模式
(1)描述
观察者模式(Observer),又叫发布-订阅模式(Publish/Subscribe)
(2)依赖关系
定义对象间一种一对多的依赖关系,使得每当一个对象改变状态,则所有依赖于它的对象都会得到通知并自动更新,一个对象(目标对象)的状态发生改变,所有的依赖对象(观察者对象)都将得到通知。

六、生产者消费者模式
(1)介绍
生产者消费者模式——
即N个线程进行生产,同时N个线程进行消费,两种角色通过内存缓冲区进行通信
生产者——
负责向缓冲区里面添加数据单元
消费者——
负责从缓冲区里面取出数据单元
(2)与传统模式的比较
传统模式——
生产者直接将消息传递给指定的消费者;
耦合性特别高,当生产者或者消费者发生变化,都需要重写业务逻辑。
生产者消费者模式——
通过一个容器来解决生产者和消费者的强耦合问题。生产者和消费者彼此之间不直接通讯,而通过阻塞队列(通过FIFO以及阻塞机制来实现)来进行通讯。
(3)数据传递流程
生产者将生产好的数据以数据单元的格式放入缓存区,之后消费者从缓冲区中取出数据单元,而且整个过程一般遵循FIFO先进先出原则,支持多并发。
七、缓冲区
(1)解耦
假设生产者和消费者分别是两个类。如果让生产者直接调用消费者的某个方法,那么生产者对于消费者就会产生依赖,所以缓冲区通过中间容器切断生产者与消费者的直接联系,实现代码、执行流程、故障和扩展的全面解耦,以支持异步处理,增强系统灵活性和可靠性
(2)支持并发
生产者直接同步调用消费者方法时,若消费者处理缓慢会导致生产者阻塞。通过缓冲区的异步处理机制解耦生产与消费流程,允许多线程 / 进程并行读写,结合线程安全保障操作原子性,并通过流量控制实现流量削峰,显著提升系统吞吐量和资源利用率。
(3)支持忙闲不均
缓冲区还有另一个好处。如果制造数据的速度时快时慢,缓冲区的好处就体现出来了,当数据制造快的时候,消费者来不及处理,未处理的数据可以暂时存在缓冲区中,等生产者的制造速度慢下来,消费者再慢慢处理掉。
八、消息系统的核心原理
(1)点对点消息传递
在点对点消息系统中,消息持久化到一个队列中,此时将有一个或多个消费者消费队列中的数据,但是一条消息只能被消费一次,当一个消费者消费了队列中的某条数据之后,该条数据则从消息队列中删除,该模式即使有多个消费者同时消费数据,也能保证数据处理的顺序,基于推送模型的消息系统,由消息代理记录消费状态,消息代理将消息推送(push)到消费者后,标记这条消息为已经被消费,但是这种方式无法很好地保证消费的处理语义。

(2)发布订阅消息传递
在发布-订阅消息系统中,消息被持久化到一个topic(主题)中,消费者可以订阅一个或多个topic,消费者可以消费该topic中所有的数据,同一条数据可以被多个消费者消费,数据被消费后不会立马删除,在发布-订阅消息系统中,消息的生产者被称为发布者,消费者被称为订阅者,Kafka 采取拉取模型(Pol),由自己控制消费速度,消费者可以按照任意的偏移量进行消费。

(点对点模型就好比那邮递员按顺序送信,一封信只能被一个收件人收取,且按发送顺序到达邮箱;而发布订阅模型就类似广播,一条消息被所有人接收,只是顺序可能不一致)
九、消息确认机制
(1)介绍
Kafka 通过消费者手动提交偏移量(Offset)来实现消息确认。
当product发送消息后,leader(主)将消息同步给follower(从),然后返回ack给producter,表示消息已经收到了,此时才可以继续发送下一条消息。
Kafka提供了以下三种ack级别(就是下面的可靠性语义)——
0(异步):leader接受到了消息马上返回ack,此时可能还没有写入磁盘,可能丢失数据。
1(半同步):leader将消息写入磁盘后,马上返回ack,此时可能还没有同步follower,同样可能丢失数据。
-1(all)(同步):leader和follower都将数据写入磁盘后,返回ack。但是如果在写入磁盘后,ack尚未发送,此时leader发生了故障,会导致数据写入重复。
(这三个就是,0先不向从服务器保持同步,直接返回ack确认;1是只要有一台从服务器同步了,就直接返回ack确认;而-1是确保所有的从服务器同步完成后才返回ack确认)
(2)确认流程
消费者从分区拉取消息并处理;
处理完成后,消费者向Kafka提交已处理消息的偏移量;
Kafka记录偏移量,作为消息 “已确认” 的依据。
(3)可靠性语义
至少一次(At-Least-Once):先处理消息再提交,确保消息不丢失(可能重复)
最多一次(At-Most-Once):先提交再处理,避免重复(可能丢失)
(4)优缺点
优点——
精确控制:消费者手动提交偏移量,确保消息处理完成后确认,保障数据一致性;
灵活语义:支持防丢失、防重复的不同功能,适配不同可靠性需求;
异步批量优化:批量提交减少交互次数,提升吞吐量;
高可用性:消费者组内实例独立管理偏移量,故障不影响其他实例。
缺点——
开发难度大:需手动管理偏移量提交逻辑,处理异常场景,易引入bug;
数据风险高:至少一次语义可能导致消息重复,最多一次语义有消息丢失风险;
运维成本高:偏移量存储在内部主题,需额外维护分区和副本;
可见性受影响:延迟确认会使消息未及时标记为已消费,影响可见性。
十、副本机制

就是Kafka接收到消息(数据)会为之创建对应的副本,确保整个服务的高可用性和数据冗余。
Kafka安装部署-CSDN博客
相关文章:
Kafka 实战指南:原理剖析与高并发场景设计模式
一、介绍 Kafka是由 Apache 软件基金会开发的开源流处理平台,作为高吞吐量的分布式发布订阅消息系统,采用 Scala 和 Java 编写。 Kafka是一种消息服务(MQ),在理论上可以达到十万的并发。 代表的MQ软件—— kafka 十万…...
大型语言模型Claude的“思维模式”最近被公开解剖
每周跟踪AI热点新闻动向和震撼发展 想要探索生成式人工智能的前沿进展吗?订阅我们的简报,深入解析最新的技术突破、实际应用案例和未来的趋势。与全球数同行一同,从行业内部的深度分析和实用指南中受益。不要错过这个机会,成为AI领…...
安装windows server 2016没有可选硬盘,设备安装过ubuntu系统
如果在安装 Windows Server 2016 时无法识别已安装过 Ubuntu 的硬盘,可能是由于硬盘分区格式(如 ext4)与 Windows 不兼容,或缺少必要的驱动程序。以下是详细的解决方案: 1. 检查 BIOS/UEFI 设置 确认硬盘模式 • 重启电…...
贡献法(C++)
贡献法的核心思想: 不要一个个子串去算“有多少种字符”,而是反过来想——每个字符能“贡献”给多少个子串 1.子串分值 #include<bits/stdc.h> #define int long long using namespace std; string s; int sum0; signed main() {cin>>s;for…...
Spring Event 观察者模型及事件和消息队列之间的区别笔记
Spring Event观察者模型:基于内置事件实现自定义监听 在Spring框架中,观察者模式通过事件驱动模型实现,允许组件间通过事件发布与监听进行解耦通信。这一机制的核心在于ApplicationEvent、ApplicationListener和ApplicationEventPublisher等接…...
【Nova UI】三、探秘 BEM:解锁前端 CSS 命名的高效密码
序言 在上一篇文章中,我们一步一个脚印,扎实地完成了 Vue 组件库搭建的环境搭建工作,从 pnpm 的精妙运用到 TypeScript 的细致配置✍️,每个环节都为组件库的诞生筑牢根基。现在,当我们把目光聚焦到组件库的样式设计时…...
Qt中存储多规则形状图片
在Qt中,您可以通过多种方式处理和存储具有非矩形(多规则形状)的图片。以下是几种主要实现方案: 1. 使用透明通道存储不规则形状 实现方法 // 创建带透明背景的QPixmap QPixmap pixmap(400, 400); pixmap.fill(Qt::transparent);QPainter painter(&…...
前端界面在线excel编辑器 。node编写post接口获取文件流,使用传参替换表格内容展示、前后端一把梭。
首先luckysheet插件是支持在线替换excel内容编辑得但是浏览器无法调用本地文件,如果只是展示,让后端返回文件得二进制文件流就可以了,直接使用luckysheet展示。 这里我们使用xlsx-populate得node简单应用来调用本地文件,自己写一个…...
核心知识——Spark核心数据结构:RDD
引入 通过前面的学习,我们对于Spark已经有一个基本的认识,并且搭建了一个本地的练习环境,因为本专栏的主要对象是数仓和数分,所以就不花大篇幅去写环境搭建等内容,当然,如果感兴趣的小伙伴可以留言&#x…...
Python如何为区块链治理注入智能与高效?
Python如何为区块链治理注入智能与高效? 引言 区块链治理作为一个新兴领域,旨在解决去中心化网络中的决策与协调问题。无论是以太坊的协议升级,还是DAO(去中心化自治组织)内部的投票机制,治理效率与公正性始终是核心挑战。然而,Python的灵活性与强大的生态系统为区块链…...
树莓派 —— 在树莓派4b板卡下编译FFmpeg源码,支持硬件编解码器(mmal或openMax硬编解码加速)
🔔 FFmpeg 相关音视频技术、疑难杂症文章合集(掌握后可自封大侠 ⓿_⓿)(记得收藏,持续更新中…) 正文 1、准备工作 (1)树莓派烧录RaspberryPi系统 (2)树莓派配置固定IP(文末) (3)xshell连接树莓派 (4)...
【Easylive】auditVideo方法详细解析
【Easylive】项目常见问题解答(自用&持续更新中…) 汇总版 auditVideo 方法是视频审核的核心方法,负责处理视频审核状态的变更、用户积分奖励、数据同步以及文件清理等操作。下面我将从功能、流程、设计思路等方面进行全面解析。 1. 方…...
【数据分享】中国3254座水库集水区特征数据集(免费获取)
水库在水循环、碳通量、能量平衡中扮演关键角色,实实在在地影响着我们的生活。其功能和环境影响高度依赖于地理位置、上游流域属性(如地形、气候、土地类型)和水库自身的动态特征(如水位、蒸发量)。但在此之前一直缺乏…...
Maven安装与配置完整指南
Maven安装与配置完整指南 1. 前言 Apache Maven 是一个强大的项目管理和构建工具,广泛应用于Java项目开发。它通过 POM(Project Object Model) 文件管理项目依赖,并提供了标准化的构建流程。 本文详细介绍 Maven的下载、安装、环境配置、镜像加速、IDE集成 以及 常见问题…...
我用Axure画了一个富文本编辑器,还带交互
最近尝试用Axure RP复刻了一个富文本编辑器,不仅完整还原了工具栏的各类功能,还通过交互设计实现了接近真实编辑器操作体验。整个设计过程聚焦功能还原与交互流畅性,最终成果令人惊喜。 编辑器采用经典的三区布局:顶部工具栏集成了…...
Uniapp自定义TabBar组件全封装实践与疑难问题解决方案
前言 在当前公司小程序项目中,我们遇到了一个具有挑战性的需求:根据不同用户身份动态展示差异化的底部导航栏(TabBar) 。这种多角色场景下的UI适配需求,在提升用户体验和实现精细化运营方面具有重要意义。 在技术调研…...
【PCB工艺】软件是如何控制硬件的发展过程
软件与硬件的关系密不可分,软件的需求不断推动硬件的发展,而硬件的进步又为软件创新提供了基础。 时光回溯到1854年,亨利戈培尔发明了电灯泡(1879年,托马斯阿尔瓦爱迪生找到了更合适的材料研制出白炽灯。)…...
Javascript代码压缩混淆工具terser详解
原始的JavaScript代码在正式的服务器上,如果没有进行压缩,混淆,不仅加载速度比较慢,而且还存在安全和性能问题. 因此现在需要进行压缩,混淆处理. 处理方案简单描述一下: 1. 使用 terser 工具进行 安装 terser工具: # npm 安装 npm install terser --save-dev# 或使用 yarn 安…...
【教程】如何利用bbbrisk一步一步实现评分卡
利用bbbrisk一步一步实现评分卡 一、什么是评分卡1.1.什么是评分卡1.2.评分卡有哪些 二、评分卡怎么弄出来的2.1.如何制作评分卡2.2.制作评分卡的流程 三、变量的分箱3.1.数据介绍3.2.变量自动分箱3.3.变量的筛选 四、构建评分卡4.1.评分卡实现代码4.2.评分卡表4.3.阈值表与分数…...
RAG优化:python从零实现Proposition Chunking[命题分块]让 RAG不再“断章取义”,从此“言之有物”!
🧠 向所有学习者致敬! “学习不是装满一桶水,而是点燃一把火。” —— 叶芝 我的博客主页: https://lizheng.blog.csdn.net 🌐 欢迎点击加入AI人工智能社区! 🚀 让我们一起努力,共创AI未来! 🚀 大家好,本篇要聊的是一个让 RAG不再“断章取义”的神奇技术——命…...
丝杆,同步带,链条选型(我要自学网)
这里的选型可以70%的正确率,正确率不高,但是选型速度会比较快。 1.丝杆选型 后面还有一堆计算公式,最终得出的结果是导程25,轴径25mm的丝杆。 丝杆选择长度时,还要注意细长比,长度/直径 一般为30到50。 2…...
【YOLO系列】基于YOLOv8的无人机野生动物检测
基于YOLOv8的无人机野生动物检测 1.前言 在野生动物保护、生态研究和环境监测领域,及时、准确地检测和识别野生动物对于保护生物多样性、预防人类与野生动物的冲突以及制定科学的保护策略至关重要。传统的野生动物监测方法通常依赖于地面巡逻、固定摄像头或无线传…...
一文详细讲解Python(详细版一篇学会Python基础和网络安全)
引言 在当今数字化时代,Python 作为一种简洁高效且功能强大的编程语言,广泛应用于各个领域,从数据科学、人工智能到网络安全等,都能看到 Python 的身影。而网络安全作为保障信息系统和数据安全的关键领域,其重要性不言…...
NFS 重传次数速率监控
这张图展示的是 NFS 重传次数速率监控,具体解释如下: 1. 指标含义 监控指标 node_nfs_rpc_retransmissions_total 统计 NFS(网络文件系统)通信中 RPC(远程过程调用)的重传次数,rate(node_nfs_…...
【Java】Hibernate的一级缓存
Session是有一个缓存, 又叫Hibernate的一级缓存 session缓存是由一系列的Java集合构成的。当一个对象被加入到Session缓存中,这个对象的引用就加入到了java的集合中,以后即使应用程序中的引用变量不再引用该对象,只要Session缓存不被清空&…...
学习笔记--(6)
import numpy as np import matplotlib.pyplot as plt from scipy.special import erfc# 设置参数 rho 0.7798 z0 4.25 # 确保使用大写 Z0,与定义一致def calculate_tau(z, z_prime, rho, s_values):return np.log(rho * z * z_prime * s_values / 2)# 定义 chi_…...
【QT5 网络编程示例】TCP 通信
文章目录 TCP 通信 TCP 通信 QT主要通过QTcpSocket 和 QTcpServer两个类实现服务器和客户端的TCP 通信。 QTcpSocket 是 Qt 提供的套接字类,看用于建立、管理和操作 TCP 连接。 常用方法 connectToHost(host, port):连接到指定服务器。disconnectFro…...
JWT在线解密/JWT在线解码 - 加菲工具
JWT在线解密/JWT在线解码 首先进入加菲工具 选择 “JWT 在线解密/解码” https://www.orcc.top 或者直接进入JWT 在线解密/解码 https://www.orcc.top/tools/jwt 进入功能页面 使用 输入对应的jwt内容,点击解码按钮即可...
【Linux】用户向硬件寄存器写入值过程理解
思考一下,当我们咋用户态向寄存器写入一个值,这个过程是怎么样的呢?以下是应用程序通过标准库函数(如 write()、ioctl() 或 mmap())向硬件寄存器写入值的详细过程,从用户空间到内核再到硬件的完整流程&…...
【Easylive】convertVideo2Ts 和 union 方法解析
【Easylive】项目常见问题解答(自用&持续更新中…) 汇总版 这两个方法是 transferVideoFile 中用于视频文件处理的核心辅助方法,下面我将结合它们在 transferVideoFile 中的使用场景进行详细解释。 1. convertVideo2Ts 方法解析 方法签…...

