当前位置：首页 > news >正文

Kafka 什么速度那么快

news 2026/5/19 17:31:10

批量发送消息

Kafka 采用了批量发送消息的方式，通过将多条消息按照分区进行分组，然后每次发送一个消息集合，看似很平常的一个手段，其实它大大提升了 Kafka 的吞吐量。

消息压缩

消息压缩的目的是为了进一步减少网络传输带宽。而对于压缩算法来说，通常是数据量越大，压缩效果才会越好。

因为有了批量发送这个前期，从而使得 Kafka 的消息压缩机制能真正发挥出它的威力。对比压缩单条消息，同时对多条消息进行压缩，能大幅减少数据量，从而更大程度提高网络传输率。

多分区

Kafka 使用的是多分区策略，消息被组织成一个一个的主题（topic），而主题可以划分为多个分区（partition）。每个分区都是一个有序、持久化的日志，而 Kafka 通过分区来实现消息的水平扩展和负载均衡。

每个分区内的消息有一个唯一的偏移量（offset），消费者可以根据偏移量读取消息。一个主题可以有多个分区，而消费者可以并行地消费不同分区的消息。

Kafka 使用分区的副本机制来实现数据的冗余备份，而每个主题的分区可以配置多个副本，其中一个副本为 leader（领导者），其他副本为 follower（跟随者）。所有写入操作都由 leader 处理，而 follower 会定期从 leader 同步数据，保持与 leader 数据的一致性。

当 leader 节点故障时，Kafka 会自动从剩余的 follower 中选举新的 leader，确保数据的可用性。

顺序写入

Kafka 的特性之一就是高吞吐率，但是 Kafka 的消息是保存在磁盘上的，一般认为在磁盘上读写数据是会降低性能的，但是 Kafka 即使是普通的服务器，Kafka 也可以轻松支持每秒百万级的写入请求，超过了大部分的消息中间件，这种特性也使得 Kafka 在日志处理等海量数据场景广泛应用。

Kafka 为防止丢失数据，会把收到的消息都写入到硬盘中。为了优化写入速度 Kafka 采用了两个技术：顺序写入和 MMFile。

因为硬盘是机械结构，每次读写都会寻址->写入，其中寻址是一个“机械动作”，它是最耗时的。所以硬盘最讨厌随机I/O，最喜欢顺序I/O。为了提高读写硬盘的速度，Kafka就是使用顺序I/O。这样省去了大量的内存开销以及节省了IO寻址的时间。

即便是顺序写入硬盘，硬盘的访问速度还是不可能追上内存。所以 Kafka 的写入性能也不可能和内存进行对比，因此 Kafka 的数据并不是实时的写入硬盘中，它充分利用了现代操作系统分页存储（Page Cache）来利用内存提高 I/O 效率。

Memory Mapped Files

Memory Mapped Files(MMAP或MMFile)也称内存映射文件，在64位操作系统中一般可以表示20G的数据文件，它的工作原理是直接利用操作系统的 Page 实现文件到物理内存的直接映射。完成 MMAP 映射后，用户对内存的所有操作会被操作系统自动的刷新到磁盘上，极大地降低了 IO 使用率。

常规的文件操作为了提高读写性能，使用了 Page Cache 机制，但是由于页缓存处在内核空间中，不能被用户进程直接寻址，所以读文件时还需要通过系统调用，将页缓存中的数据再次拷贝到用户空间中。而采用 mmap 后，它将磁盘文件与进程虚拟地址做了映射，并不会招致系统调用，以及额外的内存 copy 开销，从而提高了文件读取效率。

Page Cache

虽然磁盘顺序写已经很快了，但是对比内存顺序写仍然慢了几个数量级。Kafka 用到了 Page Cache 技术，利用了操作系统本身的缓存技术，在读写磁盘日志文件时，其实操作的都是内存，然后由操作系统决定什么时候将 Page Cache 里的数据真正刷入磁盘。

如果在极端的情况下会存在丢失数据的风险。

零拷贝

传统模式下，当需要对一个文件进行传输的时候，其具体流程细节如下：

用户进程调用 read ，系统调用向操作系统发出IO请求，请求读取数据到自己的内存缓冲区中。自己进入阻塞状态。
操作系统收到请求后，进一步将IO请求发送磁盘。
磁盘驱动器收到内核的IO请求，把数据从磁盘读取到驱动器的缓冲中。此时不占用CPU。当驱动器的缓冲区被读满后，向内核发起中断信号告知自己缓冲区已满。
内核收到中断，使用CPU时间将磁盘驱动器的缓存中的数据拷贝到内核缓冲区中。
如果内核缓冲区的数据少于用户申请的读的数据，重复步骤3跟步骤4，直到内核缓冲区的数据足够多为止。
将数据从内核缓冲区拷贝到用户缓冲区，同时从系统调用中返回，完成任务。

Kafka服务器在响应客户端读取的时候，底层使用 ZeroCopy 技术，直接将磁盘无需拷贝到用户空间，而是直接将数据通过内核空间传递输出，数据并没有抵达用户空间。

Kafka 什么速度那么快

批量发送消息

消息压缩

多分区

顺序写入

Memory Mapped Files

Page Cache

零拷贝

相关文章：

Kafka 什么速度那么快

环形链表笔记（自用）

js循环中发起请求数据不一致问题

工作流自动化：提升效率、节约成本的重要工具

仿牛客论坛项目day7｜Kafka

[SpringCloud] 组件性能优化技巧

okhttp下载文件 Java下载文件 javaokhttp下载文件下载文件 java下载 okhttp下载 okhttp

Oracle/PL/SQL奇技淫巧之Json转表

每日一学——网络安全

python中的lstm：介绍和基本使用方法

【Flink】Flink窗口触发器

深度云化时代，什么样的云网络才是企业的“心头好”？

【快应用】快应用广告学习之激励视频广告

国产化系统中遇到的视频花屏、卡顿以及延迟问题的记录与总结

go内存管理机制

【Python】Web学习笔记_flask(5)——会话cookie对象

用友U8+CRM 任意文件上传+读取漏洞复现

【量化课程】08_1.机器学习量化策略基础实战

Mongodb 更新集合的方法到底有几种 (中) ？

预演攻击：谁需要网络靶场，何时需要

TranslucentTB完全指南：轻松实现Windows任务栏透明化的终极方案

试0998y测试0998y试0998y测试0998y试0998y测试0998y试0998y测试0998y

实战剖析：利用Fluxion构建WiFi钓鱼热点与密码捕获

工作流的常见模式 [ 2 ]

Watchify常见问题解决方案：解决监视失败的7个实用技巧

量子优化技术在工业数据生产规划中的应用与实践

【SysBench】从零到一：在Linux上部署sysbench-1.20进行数据库压测

别再乱点U盘里的.exe了！手把手教你清除‘Usb Disk.exe’病毒并恢复隐藏文件

基于树莓派A+与3.5寸PiTFT打造便携式触摸屏设备全攻略

Codex 怎么详细科学地先出计划