当前位置：首页 > news >正文

Kafka零拷贝技术与传统数据复制次数比较

news 2026/5/14 11:33:34

读Kafka技术书遇到困惑:

"对比传统的数据复制和“零拷贝技术”这两种方案。假设有10个消费者，传统复制方式的数据复制次数是4×10=40次，而“零拷贝技术”只需1+10= 11次（一次表示从磁盘复制到页面缓存，另外10次表示10个消费者各自读取一次页面缓存）。显然，“零拷贝技术”比传统复制方式需要的复制次数更少。 "

困惑我的有两个问题:

1. 传统一次数据传输为什么需要4次拷贝

2. 为什么零拷贝下10个消费者只需要11次

第一个问题:传统一次数据传输为什么需要4次拷贝?

传统数据传输在实现上包含两个操作, read 和write,都是由用户程序来发起, 其中read和write中各有两次复制操作. read负责将数据从磁盘加载到内存空间中, 由于用户程序没有直接读取磁盘或写入网卡等操作系统资源的的权限, 因此每次调用时, 上下文都需要从用户态切换到内核态.

在read中, 首先由系统交由DMA(direct memory access)做第一次复制, 将数据从磁盘搬运到内核空间的文件系统的页面缓存中; 然后再交由CPU执行数据的第二次复制, 将数据从页面缓存拷贝到用户内存空间中.

在write时, 首先cpu会将数据将用户空间拷贝到内核空间(文件系统缓冲区,pagecache), 放在socket缓存区中,完成第一次复制; 然后再由DMA将数据从socket缓存区搬运到网卡接口, 由网卡将数据传输到到网络中.

在此过程中发生了4次用户态与内核态的上下文切换(一次系统调用会发生两次上下文切换)、4次拷贝, 其中CPU复制两次、 DMA复制两次, 在其中很多复制步骤是非必要的, 如何进行优化?

常见优化手段有两种:

mmap + write
sendfile

mmap是个共享缓存方案, 即把内核空间缓存去中的数据映射到用户空间中, 可被用户程序直接使用, 进行共享, 就不用将数据从内核空间搬到用户空间了, 在write时还是需要由CPU将数据从共享区复制到socket缓存区中.

这种做法还是会有4次上下文切换, 但少了一次数据拷贝. 做了优化, 但不多.

再看另外一种sendfile, sendfile可以看成是对mmap + write操作的一种封装, 只需要指定下文件描述符和数据长度, 将两次系统调用减少为一次, 可以做到在内核态时将数据从磁盘复制到网卡, 但其中还是会经过三次数据复制:

磁盘->内核缓存
内核缓存-> socket缓存
socket缓存->网卡

这种不是实际意义上的零拷贝, 但不在发生从内核空间到用户空间的拷贝了, 所以我理解所谓零拷贝指的是不发生从内核空间到用户空间的拷贝了。

第二个问题: 为什么零拷贝下10个消费者只需要11次拷贝?

那第二个问题"为什么零拷贝下10个消费者只需要11次拷贝?"怎么理解?

这是使用了更牛逼的SG-DMA（The Scatter-Gather Direct Memory Access）技术, SG-DMA是一种特殊的DMA, 通过sendfile指定的文件描述符和数据长度, 实现了将内核中页缓存数据直接搬运到网卡中, 中间不需要经过socket缓存区, 且中间拷贝操作全程无cpu参与.

在这种意义下, 零拷贝指的是零cpu拷贝技术.

SG-DMA实现了仅需两次拷贝就完成了一次磁盘数据的网络传输操作, 而对于10个消费者则需要10次使用SG-DMA将数据从内核页缓存拷贝到网卡的动作, 页缓存顾名思义是数据在内核空间的缓存, 对于同一条数据从磁盘拷贝到内核空间后就缓存起来, 后面再使用时就可无需再重新拷贝了.

所以1条消息发送给10个消费者, kafka做到了仅需通过11次拷贝就完成了, 越少的数据复制, 就越能更快的读取的数据, 延迟越少, 消费者性能就越好, 你说他的文件传输效率高不高.

其他使用零拷贝技术的还有Nginx系统.

其他:

chatgpt的答案:

零拷贝技术与传统数据复制次数比较解释

传统数据复制

在传统的数据复制方法中，数据在从磁盘到达消费者之前会经历多次复制。这个过程通常包括以下步骤：

从磁盘读取数据到内核空间的文件系统缓冲区（页缓存）。
从文件系统缓冲区复制数据到用户空间的应用程序缓冲区。
从应用程序缓冲区复制数据回内核空间的socket缓冲区。
从socket缓冲区将数据发送到网络。

如果有10个消费者，这个过程需要为每个消费者重复进行，导致数据被复制了4次（磁盘到文件系统缓冲区，文件系统缓冲区到用户空间，用户空间到socket缓冲区，socket缓冲区到网络）。因此，总的数据复制次数是4×10=40次。

零拷贝技术

零拷贝技术通过减少数据在用户空间和内核空间之间的不必要复制，来降低CPU的负载和提高数据传输效率。在零拷贝的情况下，数据传输过程如下：

从磁盘读取数据到内核空间的文件系统缓冲区（页缓存），这是唯一的一次数据复制。
使用零拷贝技术（如Linux的sendfile系统调用），直接从文件系统缓冲区传输数据到网络，避免了数据到用户空间的复制。

每个消费者直接从文件系统缓冲区读取数据，所以对于10个消费者，数据复制次数为1（磁盘到文件系统缓冲区）加上10（每个消费者读取一次文件系统缓冲区），总共是1+10=11次。

结论

零拷贝技术显著减少了数据复制次数，从40次降低到了11次。这减少了CPU的工作负担，提高了数据传输的效率，并且减少了延迟。在处理大量数据或者高速网络传输时，零拷贝技术的优势尤为明显

参考:

chatgpt
原来 8 张图，就可以搞懂「零拷贝」了https://www.cnblogs.com/xiaolincoding/p/13719610.html

Kafka零拷贝技术与传统数据复制次数比较

读Kafka技术书遇到困惑: "对比传统的数据复制和“零拷贝技术”这两种方案。假设有10个消费者，传统复制方式的数据复制次数是41040次，而“零拷贝技术”只需110 11次（一次表示从磁盘复制到页面缓存，另外10次表示10个消费者各自…...

编程日记 2024/2/13 16:00:26

npm ERR! network This is a problem related to network connectivity.

遇到 ETIMEDOUT 错误时，这表明npm尝试连接到npm仓库时超时了，这通常是由网络连接问题引起的。这可能是因为网络不稳定、连接速度慢、或者你的网络配置阻止了对npm仓库的访问。以下是一些解决这个问题的步骤： 1. 检查网络连接首先&#xff…...

编程日记 2024/2/13 15:55:38

【SQL高频基础题】619.只出现一次的最大数字

题目： MyNumbers 表： ------------------- | Column Name | Type | ------------------- | num | int | ------------------- 该表可能包含重复项（换句话说，在SQL中，该表没有主键）。这张表的每…...

编程日记 2024/2/13 15:53:36

GPIO 1> 硬件框图2> 工作模式 1> 硬件框图 2> 工作模式 C语言描述 /** * brief Configuration Mode enumeration */typedef enum { GPIO_Mode_AIN 0x0, // Analog Input 模拟输入 GPIO_Mode_IN_FLOATING 0x04, // input floating 浮空输入GPIO_Mode_I…...

编程日记 2024/2/13 15:51:34

新增同步管理、操作日志模块，支持公共链接分享，DataEase开源数据可视化分析平台v2.3.0发布

2024年2月5日，DataEase开源数据可视化分析平台正式发布v2.3.0版本。这一版本的功能升级包括：新增“同步管理”功能模块，用户可通过此模块，将传统数据库中的数据定时同步到Apache Doris中，让数据分析更快速&#xff1…...

编程日记 2024/2/13 15:49:32

跟着pink老师前端入门教程-day19

一、移动WEB开发之流式布局 1、移动端基础 1.1 浏览器现状 PC端常见浏览器：360浏览器、谷歌浏览器、火狐浏览器、QQ浏览器、百度浏览器、搜狗浏览器、IE浏览器。移动端常见浏览器：UC浏览器，QQ浏览器，欧朋浏览器&#xff0…...

编程日记 2024/2/13 15:44:28

ChatGPT学习第一周

📖 学习目标掌握ChatGPT基础知识理解ChatGPT的基本功能和工作原理。认识到ChatGPT在日常生活和业务中的潜在应用。了解AI和机器学习的基本概念获取人工智能（AI）和机器学习（ML）的初步了解。理解这些技术是如何支撑…...

编程日记 2024/2/13 15:43:27

爬爬爬——今天是浏览器窗口切换和给所选人打钩（自动化）

学习爬虫路还很长，第一阶段花了好多天了，还在底层，虽然不是我专业要学习的语言，和必备的知识，但是我感觉还挺有意思的。加油，这两天把建模和ai也不学了，唉过年了懒了！ 加油坚持就是…...

编程日记 2024/2/13 15:42:26

Netty应用(五) 之 Netty引入 EventLoop

目录第三章 Netty 1.什么是Netty？ 2.为什么需要使用Netty？ 3.Netty的发展历程 4.谁在使用Netty？ 5.为什么上述这些分布式产品都使用Netty？ 6.第一个Netty应用 7.如何理解Netty是NIO的封装 8.logback日志使用的加强 9.Ev…...

编程日记 2024/2/13 15:38:22

【c++基础】国王的魔镜

说明国王有一个魔镜，可以把任何接触镜面的东西变成原来的两倍——只是，因为是镜子嘛，增加的那部分是反的。比如一条项链，我们用AB来表示，不同的字母表示不同颜色的珍珠。如果把B端接触镜面的话，魔镜会把…...

编程日记 2024/2/13 15:37:21

配置DNS正反向解析服务！！！！

一.准备工作 #关闭防火墙和selinux,或者允许服务通过 [rootnode ~]# nmcli c mod ens32 ipv4.method manual ipv4.address 192.168.32.133/24 ipv4.gateway 192.168.32.2 ipv4.dns 192.168.32.132 [rootnode ~]# nmcli c reload [rootnode ~]# nmcli c up ens32[rootnode ~]# …...

编程日记 2024/2/13 15:33:16

大模型2024规模化场景涌现，加速云计算走出第二增长曲线

导读：2024，大模型第一批规模化应用场景已出现。如果说“百模大战”是2023年国内AI产业的关键词，那么2024年我们将正式迈进“应用为王”的新阶段。不少业内观点认为，2024年“百模大战”将逐渐收敛甚至洗牌，而大模型在…...

编程日记 2024/2/13 15:32:15

Gitlab和Jenkins集成实现CI (三)

Gitlab和Jenkins集成实现CI (一) Gitlab和Jenkins集成实现CI (二) Gitlab和Jenkins集成实现CI (三) 自动部署配置免密ssh 进入http服务器生成ssh密钥 ssh-keygen -t rsa进入jenkins(容器) 拷贝公钥 ssh-copy-id http服务器用户名http服务器ip #输入http服务器密码配…...

编程日记 2024/2/13 15:30:11

随机过程及应用学习笔记（二）随机过程的基本概念

随机过程论就是研究随时间变化的动态系统中随机现象的统计规律的一门数学学科。目录前言一、随机过程的定义及分类 1、定义 2、分类二、随机过程的分布及其数字特征 1、分布函数 2、数字特征均值函数和方差函数协方差函数和相关函数 3、互协方差函数与互相关函…...

编程日记 2024/2/13 15:28:08

【机器学习】Kmeans如何选择k值

确定 K 值是 K-means 聚类分析的一个重要步骤。不同的 K 值可能会产生不同的聚类结果，因此选择合适的 K 值非常重要。以下是一些常见的方法来选择 K 值：手肘法：该方法基于绘制聚类内误差平方和（SSE）与 K 值之间的关系图。随着 K 值的增加，SSE会逐渐降低，但降低幅度逐…...

编程日记 2024/2/13 15:27:06

LeetCode 热题 100 | 链表（下）

目录 1 148. 排序链表 2 23. 合并 K 个升序链表 3 146. LRU 缓存 3.1 解题思路 3.2 详细过程 3.3 完整代码菜鸟做题第三周，语言是 C 1 148. 排序链表解题思路： 遍历链表，把每个节点的 val 都存入数组中用 sort 函数对数组进…...

编程日记 2024/2/13 15:17:58

Ubuntu搭建计算集群

计算机硬件和技术的发展使得高性能模拟和计算在生活和工作中的作用逐渐显现出来，无论是计算化学，计算物理和当下的人工智能都离不开高性能计算。笔者工作主要围绕计算化学和物理开展，亦受限于自身知识和技术所限，文中只是浅显地尝…...

编程日记 2024/2/13 15:13:52

数据结构~~树（2024/2/8）

目录树 1、定义： 2、树的基本术语： 3、树的表示树 1、定义： 树是一种非线性的数据结构，它是由n（n>0）个有限结点组成一个具有层次关系的集合。把它叫做树是因为它看起来像一棵倒挂的树&…...

编程日记 2024/2/13 15:08:47

【教学类-48-03】202402011“闰年”（每4年一次 2月有29日）世纪年必须整除400才是闰年）

2000-2099年之间的闰年有25次， 背景需求： 已经制作了对称年月的数字提取，和年月日相等的年份提取【教学类-48-01】20240205对称的“年”和“月日”（如2030 0302）-CSDN博客文章浏览阅读84次。【教学类-48-01】202402…...

编程日记 2024/2/13 15:03:20

如何开发一个属于自己的人工智能语言大模型？

要开发一个属于自己的人工智能语言模型，你需要遵循以下步骤： 数据收集：首先你需要大量的文本数据来训练你的模型。这些数据可以来自于各种来源，例如书籍、网站、新闻文章等。你需要确保这些数据足够多样化，以便模型能学…...

编程日记 2024/2/13 15:01:18

从零构建可控AI智能体中枢：Comobot部署、配置与实战指南

1. 项目概述：从零构建一个可控的智能体中枢如果你和我一样，对市面上的AI助手感到既兴奋又有些许无奈——兴奋于它们强大的能力，无奈于它们要么是“黑盒”服务，数据安全存疑；要么部署复杂，难以深度定制——那…...

编程新知 2026/5/14 11:17:53

Kubescape命令行自动补全：提升安全扫描效率的技巧

Kubescape命令行自动补全：提升安全扫描效率的技巧【免费下载链接】kubescape Kubescape is an open-source Kubernetes security platform for your IDE, CI/CD pipelines, and clusters. It includes risk analysis, security, compliance, and misconfiguration …...

编程新知 2026/5/14 10:50:19

Gemini浏览器插件深度评测：3大隐藏功能+4个高危误用陷阱，Chrome用户必须立即自查

更多请点击： https://intelliparadigm.com 第一章：Gemini浏览器插件深度评测：3大隐藏功能4个高危误用陷阱，Chrome用户必须立即自查 Gemini 浏览器插件（v2.4.1）虽以“AI网页摘要”为公开定位，但…...

编程新知 2026/5/14 8:37:20

阿里季报图解：营收2434亿 AI迎商业化拐点，模型及应用ARR年底破300亿，派息25亿美元

雷递网雷建平 5月13日阿里巴巴（美股代码：“baba”，港股代号：9988）今日发布2026年第一季度的财报。财报显示，阿里2026年第一季度营收为2433.8亿元（352.83亿美元），同比增长…...

编程新知 2026/5/14 7:39:28

C++终端游戏开发：数据结构与算法在像素冒险世界中的应用

1. 项目概述：一个终端里的像素冒险世界如果你像我一样，对那种在命令行里跑起来的、充满复古像素感的游戏情有独钟，同时又对数据结构和算法如何驱动游戏逻辑感到好奇，那么autrin/Pokeman这个项目绝对值得你花时间研究。这不仅仅是一…...

编程新知 2026/5/14 5:30:19

5分钟掌握Nexus Mods App：告别模组管理烦恼的终极解决方案

5分钟掌握Nexus Mods App：告别模组管理烦恼的终极解决方案【免费下载链接】NexusMods.App Home of the development of the Nexus Mods App 项目地址: https://gitcode.com/gh_mirrors/ne/NexusMods.App 还在为游戏模组冲突、依赖缺失而烦恼吗？N…...

编程新知 2026/5/14 3:56:45

5分钟掌握暗黑2存档编辑：免费开源工具d2s-editor完全指南

5分钟掌握暗黑2存档编辑：免费开源工具d2s-editor完全指南【免费下载链接】d2s-editor 项目地址: https://gitcode.com/gh_mirrors/d2/d2s-editor 还在为暗黑破坏神2重复刷装备而烦恼？想快速体验不同职业Build却不想从头练级？今天我要…...

编程新知 2026/5/14 3:29:27

openclaw-nerve：构建自包含应用包，彻底解决跨平台部署难题

1. 项目概述与核心价值最近在折腾一些自动化脚本和工具链，发现很多开源项目在依赖管理、环境配置和跨平台部署上，依然存在不小的摩擦。一个典型的场景是：你从GitHub上clone了一个看起来很酷的项目，满心欢喜地准备跑起来看看效果&a…...

编程新知 2026/5/14 3:14:59

Copaw-dev：基于CLI的开发者工作流自动化工具实践指南

1. 项目概述：一个为开发者量身定制的“副驾驶”如果你是一名开发者，尤其是经常在终端里敲命令、管理多个项目、需要快速切换环境的那类，那你一定对“效率工具”有着近乎偏执的追求。今天要聊的这个项目，hellogxp/copaw-dev&#x…...

编程新知 2026/5/14 2:13:38

【Amazon Quick 桌面 AI 助手初体验】把重复造轮子的活交给 Quick 大显身手

🪪 本文作者：许业宝 ✍️ 作者信息： 🌞 VSTECS云解决方案架构师 ｜ AWS APN Ambassador ｜ 🪪 AWS Community Builder | 亚马逊云科技技能云博主 | UGL ⭐ 已获得 AWS 认证大满贯（13 个…...

编程新知 2026/5/13 22:36:37

Kafka零拷贝技术与传统数据复制次数比较

零拷贝技术与传统数据复制次数比较解释

传统数据复制

零拷贝技术

结论

相关文章：

Kafka零拷贝技术与传统数据复制次数比较

npm ERR! network This is a problem related to network connectivity.

【SQL高频基础题】619.只出现一次的最大数字

STM32F1 - GPIO外设

新增同步管理、操作日志模块，支持公共链接分享，DataEase开源数据可视化分析平台v2.3.0发布

跟着pink老师前端入门教程-day19

ChatGPT学习第一周

爬爬爬——今天是浏览器窗口切换和给所选人打钩（自动化）

Netty应用(五) 之 Netty引入 EventLoop

【c++基础】国王的魔镜

配置DNS正反向解析服务！！！！

大模型2024规模化场景涌现，加速云计算走出第二增长曲线

Gitlab和Jenkins集成实现CI (三)

随机过程及应用学习笔记（二）随机过程的基本概念

【机器学习】Kmeans如何选择k值

LeetCode 热题 100 | 链表（下）

Ubuntu搭建计算集群

数据结构~~树（2024/2/8）

【教学类-48-03】202402011“闰年”（每4年一次 2月有29日）世纪年必须整除400才是闰年）

如何开发一个属于自己的人工智能语言大模型？

从零构建可控AI智能体中枢：Comobot部署、配置与实战指南

Kubescape命令行自动补全：提升安全扫描效率的技巧

Gemini浏览器插件深度评测：3大隐藏功能+4个高危误用陷阱，Chrome用户必须立即自查

阿里季报图解：营收2434亿 AI迎商业化拐点，模型及应用ARR年底破300亿，派息25亿美元

C++终端游戏开发：数据结构与算法在像素冒险世界中的应用

5分钟掌握Nexus Mods App：告别模组管理烦恼的终极解决方案

5分钟掌握暗黑2存档编辑：免费开源工具d2s-editor完全指南

openclaw-nerve：构建自包含应用包，彻底解决跨平台部署难题

Copaw-dev：基于CLI的开发者工作流自动化工具实践指南

【Amazon Quick 桌面 AI 助手初体验】把重复造轮子的活交给 Quick 大显身手