当前位置：首页 > article >正文

Kafka 实战指南：原理剖析与高并发场景设计模式

article 2026/2/14 2:10:48

一、介绍

Kafka是由 Apache 软件基金会开发的开源流处理平台，作为高吞吐量的分布式发布订阅消息系统，采用 Scala 和 Java 编写。

Kafka是一种消息服务（MQ），在理论上可以达到十万的并发。

代表的MQ软件——

kafka 十万并发

RocketMa 百万并发

rabbitMQ 十万并发

zeroMQ 百万并发

二、术语解释

1.Producer（生产者）

负责将消息发送到 Kafka 集群的进程；
根据消息的 Key 或分区策略，将消息路由到对应 Topic 的分区；
支持异步批量发送，提升吞吐量。

2.Consumer（消费者）

从 Kafka 集群订阅并处理消息的进程；
通过消费者组（Consumer Group）实现负载均衡，同一组内的消费者竞争消费分区消息；
通过手动提交偏移量（Offset）精确控制消费进度。

3.Broker（消息服务器）

Kafka 集群的核心节点，负责存储、管理消息；
每个 Topic 被划分为多个分区（Partition），Broker 管理分区的分配、复制和故障转移；
支持水平扩展，通过添加节点提升集群容量和性能。

4.Topic（主题）

消息的逻辑分组，按业务模块划分；
物理上由多个分区组成，消息按追加模式写入分区日志；
支持多生产者写入和多消费者组订阅。

5.Partition（分区）

Topic 的物理分片，每个分区是有序的、不可变的消息日志；
单个分区内的消息严格有序，不同分区间消息顺序无关；
通过多分区并行读写，提升消息处理吞吐量。

三、作用

用来处理消费者在网站中的所有动作流数据，就是在分布式业务环境，实现不同组件、不同的功能模块的高效通信。

四、优点

1、解耦：允许我们独立的扩展或修改列两边的处理过程；

2、扩展性：因为消息队列解耦了你的处理过程，所以增大消息入队和处理的频率是很容易的，只要另外增加处理过程即可；

3、流量削峰：高流量的时候，使用消息队列作为中间件可以将流量的高峰保存在消息队列中，从而防止了系统的高请求，减轻服务器的请求处理压力；

4、可恢复性：即使一个处理消息的进程挂掉，加入队列中的消息仍可以在系统恢复后被处理；

5、顺序保证：在大多使用场景下，数据处理的顺序都很重要。大部分消息队列本来就是排序的，并且能保证数据会按照特定的顺序来处理。Kafka保证一个Partition内的消息的有序性；

6、缓冲：有助于解决生产消息和消费消息的处理速度不一致的情况；

7、异步通信：消息队列允许用户把消息放入队列但不立即处理它。

（解耦是降低系统组件间依赖，使其独立运行、灵活扩展的设计方法，常见于消息队列、微服务等场景，可提升系统灵活性与可靠性）

（Partition是分区，在Kafka工作过程中，生产者将消息发送到特定Topic主题中，消费者通过订阅Topic 获取消息，而每个Topic可分为多个分区，分区是Topic的物理分片，如下图所示）

（Kafka设定Topic主题这一概念就是为了确保消息的有序性的，就是确保消息的顺序的）

五、观察者模式

（1）描述

观察者模式（Observer），又叫发布-订阅模式（Publish/Subscribe）

（2）依赖关系

定义对象间一种一对多的依赖关系，使得每当一个对象改变状态，则所有依赖于它的对象都会得到通知并自动更新，一个对象（目标对象）的状态发生改变，所有的依赖对象（观察者对象）都将得到通知。

六、生产者消费者模式

（1）介绍

生产者消费者模式——

即N个线程进行生产，同时N个线程进行消费，两种角色通过内存缓冲区进行通信

生产者——

负责向缓冲区里面添加数据单元

消费者——

负责从缓冲区里面取出数据单元

（2）与传统模式的比较

传统模式——

生产者直接将消息传递给指定的消费者；

耦合性特别高，当生产者或者消费者发生变化，都需要重写业务逻辑。

生产者消费者模式——

通过一个容器来解决生产者和消费者的强耦合问题。生产者和消费者彼此之间不直接通讯，而通过阻塞队列（通过FIFO以及阻塞机制来实现）来进行通讯。

（3）数据传递流程

生产者将生产好的数据以数据单元的格式放入缓存区，之后消费者从缓冲区中取出数据单元，而且整个过程一般遵循FIFO先进先出原则，支持多并发。

七、缓冲区

（1）解耦

假设生产者和消费者分别是两个类。如果让生产者直接调用消费者的某个方法，那么生产者对于消费者就会产生依赖，所以缓冲区通过中间容器切断生产者与消费者的直接联系，实现代码、执行流程、故障和扩展的全面解耦，以支持异步处理，增强系统灵活性和可靠性

（2）支持并发

生产者直接同步调用消费者方法时，若消费者处理缓慢会导致生产者阻塞。通过缓冲区的异步处理机制解耦生产与消费流程，允许多线程 / 进程并行读写，结合线程安全保障操作原子性，并通过流量控制实现流量削峰，显著提升系统吞吐量和资源利用率。

（3）支持忙闲不均

缓冲区还有另一个好处。如果制造数据的速度时快时慢，缓冲区的好处就体现出来了，当数据制造快的时候，消费者来不及处理，未处理的数据可以暂时存在缓冲区中，等生产者的制造速度慢下来，消费者再慢慢处理掉。

八、消息系统的核心原理

（1）点对点消息传递

在点对点消息系统中，消息持久化到一个队列中，此时将有一个或多个消费者消费队列中的数据，但是一条消息只能被消费一次，当一个消费者消费了队列中的某条数据之后，该条数据则从消息队列中删除，该模式即使有多个消费者同时消费数据，也能保证数据处理的顺序，基于推送模型的消息系统，由消息代理记录消费状态，消息代理将消息推送(push)到消费者后，标记这条消息为已经被消费，但是这种方式无法很好地保证消费的处理语义。

（2）发布订阅消息传递

在发布-订阅消息系统中，消息被持久化到一个topic（主题）中，消费者可以订阅一个或多个topic，消费者可以消费该topic中所有的数据，同一条数据可以被多个消费者消费，数据被消费后不会立马删除，在发布-订阅消息系统中，消息的生产者被称为发布者，消费者被称为订阅者，Kafka 采取拉取模型（Pol），由自己控制消费速度，消费者可以按照任意的偏移量进行消费。

（点对点模型就好比那邮递员按顺序送信，一封信只能被一个收件人收取，且按发送顺序到达邮箱；而发布订阅模型就类似广播，一条消息被所有人接收，只是顺序可能不一致）

九、消息确认机制

（1）介绍

Kafka 通过消费者手动提交偏移量（Offset）来实现消息确认。

当product发送消息后，leader（主）将消息同步给follower（从），然后返回ack给producter，表示消息已经收到了，此时才可以继续发送下一条消息。

Kafka提供了以下三种ack级别（就是下面的可靠性语义）——

0（异步）：leader接受到了消息马上返回ack，此时可能还没有写入磁盘，可能丢失数据。

1（半同步）：leader将消息写入磁盘后，马上返回ack，此时可能还没有同步follower，同样可能丢失数据。

-1（all）（同步）：leader和follower都将数据写入磁盘后，返回ack。但是如果在写入磁盘后，ack尚未发送，此时leader发生了故障，会导致数据写入重复。

（这三个就是，0先不向从服务器保持同步，直接返回ack确认；1是只要有一台从服务器同步了，就直接返回ack确认；而-1是确保所有的从服务器同步完成后才返回ack确认）

（2）确认流程

消费者从分区拉取消息并处理；

处理完成后，消费者向Kafka提交已处理消息的偏移量；

Kafka记录偏移量，作为消息 “已确认” 的依据。

（3）可靠性语义

至少一次（At-Least-Once）：先处理消息再提交，确保消息不丢失（可能重复）

最多一次（At-Most-Once）：先提交再处理，避免重复（可能丢失）

（4）优缺点

优点——

精确控制：消费者手动提交偏移量，确保消息处理完成后确认，保障数据一致性；

灵活语义：支持防丢失、防重复的不同功能，适配不同可靠性需求；

异步批量优化：批量提交减少交互次数，提升吞吐量；

高可用性：消费者组内实例独立管理偏移量，故障不影响其他实例。

缺点——

开发难度大：需手动管理偏移量提交逻辑，处理异常场景，易引入bug；

数据风险高：至少一次语义可能导致消息重复，最多一次语义有消息丢失风险；

运维成本高：偏移量存储在内部主题，需额外维护分区和副本；

可见性受影响：延迟确认会使消息未及时标记为已消费，影响可见性。

十、副本机制

就是Kafka接收到消息（数据）会为之创建对应的副本，确保整个服务的高可用性和数据冗余。

Kafka安装部署-CSDN博客

Kafka 实战指南：原理剖析与高并发场景设计模式

一、介绍 Kafka是由 Apache 软件基金会开发的开源流处理平台，作为高吞吐量的分布式发布订阅消息系统，采用 Scala 和 Java 编写。 Kafka是一种消息服务（MQ），在理论上可以达到十万的并发。代表的MQ软件—— kafka 十万…...

编程日记 2026/2/14 2:10:48

大型语言模型Claude的“思维模式”最近被公开解剖

每周跟踪AI热点新闻动向和震撼发展想要探索生成式人工智能的前沿进展吗？订阅我们的简报，深入解析最新的技术突破、实际应用案例和未来的趋势。与全球数同行一同，从行业内部的深度分析和实用指南中受益。不要错过这个机会，成为AI领…...

编程日记 2026/2/13 13:22:47

安装windows server 2016没有可选硬盘，设备安装过ubuntu系统

如果在安装 Windows Server 2016 时无法识别已安装过 Ubuntu 的硬盘，可能是由于硬盘分区格式（如 ext4）与 Windows 不兼容，或缺少必要的驱动程序。以下是详细的解决方案： 1. 检查 BIOS/UEFI 设置确认硬盘模式 • 重启电…...

编程日记 2025/6/9 2:47:09

贡献法（C++）

贡献法的核心思想： 不要一个个子串去算“有多少种字符”，而是反过来想——每个字符能“贡献”给多少个子串 1.子串分值 #include<bits/stdc.h> #define int long long using namespace std; string s; int sum0; signed main() {cin>>s;for…...

编程日记 2025/5/24 2:16:09

Spring Event 观察者模型及事件和消息队列之间的区别笔记

Spring Event观察者模型：基于内置事件实现自定义监听在Spring框架中，观察者模式通过事件驱动模型实现，允许组件间通过事件发布与监听进行解耦通信。这一机制的核心在于ApplicationEvent、ApplicationListener和ApplicationEventPublisher等接…...

编程日记 2025/7/29 0:37:58

【Nova UI】三、探秘 BEM：解锁前端 CSS 命名的高效密码

序言在上一篇文章中，我们一步一个脚印，扎实地完成了 Vue 组件库搭建的环境搭建工作，从 pnpm 的精妙运用到 TypeScript 的细致配置✍️，每个环节都为组件库的诞生筑牢根基。现在，当我们把目光聚焦到组件库的样式设计时…...

编程日记 2025/5/24 1:11:01

Qt中存储多规则形状图片

在Qt中，您可以通过多种方式处理和存储具有非矩形(多规则形状)的图片。以下是几种主要实现方案： 1. 使用透明通道存储不规则形状实现方法 // 创建带透明背景的QPixmap QPixmap pixmap(400, 400); pixmap.fill(Qt::transparent);QPainter painter(&…...

编程日记 2025/6/10 12:49:57

前端界面在线excel编辑器。node编写post接口获取文件流，使用传参替换表格内容展示、前后端一把梭。

首先luckysheet插件是支持在线替换excel内容编辑得但是浏览器无法调用本地文件，如果只是展示，让后端返回文件得二进制文件流就可以了，直接使用luckysheet展示。这里我们使用xlsx-populate得node简单应用来调用本地文件，自己写一个…...

编程日记 2026/2/11 0:19:58

核心知识——Spark核心数据结构：RDD

引入通过前面的学习，我们对于Spark已经有一个基本的认识，并且搭建了一个本地的练习环境，因为本专栏的主要对象是数仓和数分，所以就不花大篇幅去写环境搭建等内容，当然，如果感兴趣的小伙伴可以留言&#x…...

编程日记 2026/2/13 2:12:53

Python如何为区块链治理注入智能与高效？

Python如何为区块链治理注入智能与高效？引言区块链治理作为一个新兴领域，旨在解决去中心化网络中的决策与协调问题。无论是以太坊的协议升级，还是DAO（去中心化自治组织）内部的投票机制，治理效率与公正性始终是核心挑战。然而，Python的灵活性与强大的生态系统为区块链…...

编程日记 2025/9/14 0:33:56

树莓派 —— 在树莓派4b板卡下编译FFmpeg源码，支持硬件编解码器（mmal或openMax硬编解码加速）

🔔 FFmpeg 相关音视频技术、疑难杂症文章合集（掌握后可自封大侠 ⓿_⓿）（记得收藏，持续更新中…）正文 1、准备工作（1）树莓派烧录RaspberryPi系统（2）树莓派配置固定IP（文末）（3）xshell连接树莓派（4）...

编程日记 2025/5/26 16:22:46

【Easylive】auditVideo方法详细解析

【Easylive】项目常见问题解答（自用&持续更新中…） 汇总版 auditVideo 方法是视频审核的核心方法，负责处理视频审核状态的变更、用户积分奖励、数据同步以及文件清理等操作。下面我将从功能、流程、设计思路等方面进行全面解析。 1. 方…...

编程日记 2025/5/12 3:59:51

【数据分享】中国3254座水库集水区特征数据集（免费获取）

水库在水循环、碳通量、能量平衡中扮演关键角色，实实在在地影响着我们的生活。其功能和环境影响高度依赖于地理位置、上游流域属性（如地形、气候、土地类型）和水库自身的动态特征（如水位、蒸发量）。但在此之前一直缺乏…...

编程日记 2026/2/7 1:09:26

Maven安装与配置完整指南

Maven安装与配置完整指南 1. 前言 Apache Maven 是一个强大的项目管理和构建工具，广泛应用于Java项目开发。它通过 POM（Project Object Model）文件管理项目依赖，并提供了标准化的构建流程。本文详细介绍 Maven的下载、安装、环境配置、镜像加速、IDE集成以及常见问题…...

编程日记 2025/5/15 7:50:24

我用Axure画了一个富文本编辑器，还带交互

最近尝试用Axure RP复刻了一个富文本编辑器，不仅完整还原了工具栏的各类功能，还通过交互设计实现了接近真实编辑器操作体验。整个设计过程聚焦功能还原与交互流畅性，最终成果令人惊喜。编辑器采用经典的三区布局：顶部工具栏集成了…...

编程日记 2026/2/13 20:27:02

Uniapp自定义TabBar组件全封装实践与疑难问题解决方案

前言在当前公司小程序项目中，我们遇到了一个具有挑战性的需求：根据不同用户身份动态展示差异化的底部导航栏（TabBar） 。这种多角色场景下的UI适配需求，在提升用户体验和实现精细化运营方面具有重要意义。在技术调研…...

编程日记 2026/2/14 2:35:11

【PCB工艺】软件是如何控制硬件的发展过程

软件与硬件的关系密不可分，软件的需求不断推动硬件的发展，而硬件的进步又为软件创新提供了基础。时光回溯到1854年，亨利戈培尔发明了电灯泡（1879年，托马斯阿尔瓦爱迪生找到了更合适的材料研制出白炽灯。）…...

编程日记 2026/2/12 7:28:44

Javascript代码压缩混淆工具terser详解

原始的JavaScript代码在正式的服务器上,如果没有进行压缩,混淆,不仅加载速度比较慢,而且还存在安全和性能问题. 因此现在需要进行压缩,混淆处理. 处理方案简单描述一下: 1. 使用 terser 工具进行安装 terser工具: # npm 安装 npm install terser --save-dev# 或使用 yarn 安…...

编程日记 2026/1/24 20:50:02

【教程】如何利用bbbrisk一步一步实现评分卡

利用bbbrisk一步一步实现评分卡一、什么是评分卡1.1.什么是评分卡1.2.评分卡有哪些二、评分卡怎么弄出来的2.1.如何制作评分卡2.2.制作评分卡的流程三、变量的分箱3.1.数据介绍3.2.变量自动分箱3.3.变量的筛选四、构建评分卡4.1.评分卡实现代码4.2.评分卡表4.3.阈值表与分数…...

编程日记 2026/2/13 5:57:09

RAG优化：python从零实现Proposition Chunking[命题分块]让 RAG不再“断章取义”，从此“言之有物”！

🧠 向所有学习者致敬！ “学习不是装满一桶水，而是点燃一把火。” —— 叶芝我的博客主页： https://lizheng.blog.csdn.net 🌐 欢迎点击加入AI人工智能社区！ 🚀 让我们一起努力，共创AI未来！ 🚀 大家好，本篇要聊的是一个让 RAG不再“断章取义”的神奇技术——命…...

编程日记 2026/2/3 23:03:06

丝杆，同步带，链条选型（我要自学网）

这里的选型可以70%的正确率，正确率不高，但是选型速度会比较快。 1.丝杆选型后面还有一堆计算公式，最终得出的结果是导程25，轴径25mm的丝杆。丝杆选择长度时，还要注意细长比，长度/直径一般为30到50。 2…...

编程日记 2026/2/14 0:49:56

【YOLO系列】基于YOLOv8的无人机野生动物检测

基于YOLOv8的无人机野生动物检测 1.前言在野生动物保护、生态研究和环境监测领域，及时、准确地检测和识别野生动物对于保护生物多样性、预防人类与野生动物的冲突以及制定科学的保护策略至关重要。传统的野生动物监测方法通常依赖于地面巡逻、固定摄像头或无线传…...

编程日记 2026/2/7 3:30:33

一文详细讲解Python（详细版一篇学会Python基础和网络安全）

引言在当今数字化时代，Python 作为一种简洁高效且功能强大的编程语言，广泛应用于各个领域，从数据科学、人工智能到网络安全等，都能看到 Python 的身影。而网络安全作为保障信息系统和数据安全的关键领域，其重要性不言…...

编程日记 2026/2/14 5:45:42

NFS 重传次数速率监控

这张图展示的是 NFS 重传次数速率监控，具体解释如下： 1. 指标含义监控指标 node_nfs_rpc_retransmissions_total 统计 NFS（网络文件系统）通信中 RPC（远程过程调用）的重传次数，rate(node_nfs_…...

编程日记 2025/5/25 3:23:24

【Java】Hibernate的一级缓存

Session是有一个缓存, 又叫Hibernate的一级缓存 session缓存是由一系列的Java集合构成的。当一个对象被加入到Session缓存中，这个对象的引用就加入到了java的集合中，以后即使应用程序中的引用变量不再引用该对象，只要Session缓存不被清空&…...

编程日记 2026/2/5 17:32:05

import numpy as np import matplotlib.pyplot as plt from scipy.special import erfc# 设置参数 rho 0.7798 z0 4.25 # 确保使用大写 Z0，与定义一致def calculate_tau(z, z_prime, rho, s_values):return np.log(rho * z * z_prime * s_values / 2)# 定义 chi_…...

编程日记 2026/2/14 6:42:25

【QT5 网络编程示例】TCP 通信

文章目录 TCP 通信 TCP 通信 QT主要通过QTcpSocket 和 QTcpServer两个类实现服务器和客户端的TCP 通信。 QTcpSocket 是 Qt 提供的套接字类，看用于建立、管理和操作 TCP 连接。常用方法 connectToHost(host, port)：连接到指定服务器。disconnectFro…...

编程日记 2025/5/25 5:23:03

JWT在线解密/JWT在线解码 - 加菲工具

JWT在线解密/JWT在线解码首先进入加菲工具选择 “JWT 在线解密/解码” https://www.orcc.top 或者直接进入JWT 在线解密/解码 https://www.orcc.top/tools/jwt 进入功能页面使用输入对应的jwt内容，点击解码按钮即可...

编程日记 2026/2/14 3:31:58

【Linux】用户向硬件寄存器写入值过程理解

思考一下，当我们咋用户态向寄存器写入一个值，这个过程是怎么样的呢？以下是应用程序通过标准库函数（如 write()、ioctl() 或 mmap()）向硬件寄存器写入值的详细过程，从用户空间到内核再到硬件的完整流程&…...

编程日记 2025/5/24 2:12:54

【Easylive】convertVideo2Ts 和 union 方法解析

【Easylive】项目常见问题解答（自用&持续更新中…） 汇总版这两个方法是 transferVideoFile 中用于视频文件处理的核心辅助方法，下面我将结合它们在 transferVideoFile 中的使用场景进行详细解释。 1. convertVideo2Ts 方法解析方法签…...

编程日记 2025/5/23 22:19:39

一、介绍

二、术语解释

三、作用

四、优点

五、观察者模式

（1）描述

（2）依赖关系

六、生产者消费者模式

（1）介绍

（2）与传统模式的比较

（3）数据传递流程

七、缓冲区

（1）解耦

（2）支持并发

（3）支持忙闲不均

八、消息系统的核心原理

（1）点对点消息传递

（2）发布订阅消息传递

九、消息确认机制

（1）介绍

（2）确认流程

（3）可靠性语义

（4）优缺点

十、副本机制

相关文章：