Kafka高性能设计

- 高性能设计概述
- Kafka高性能是多方面协同的结果,包括集群架构、分布式存储、ISR数据同步及高效利用磁盘和操作系统特性等。
- 主要体现在消息分区、顺序读写、页缓存、零拷贝、消息压缩和分批发送六个方面。
- 消息分区
- 存储不受单台服务器限制,能处理更多数据,数据量过大还会分段存储。
- 顺序读写
- Kafka消息存储在磁盘文件中,写文件时以追加方式新增数据,顺序读写效率高(与随机读写比较,主要在于磁盘寻址过程)。
- 顺序读写数据连续,寻址快;随机存放数据不连续,寻址耗时,查找效率低,所以磁盘顺序读写效率较高。
- 页缓存
- 是Linux中的概念,类似系统缓存。读写磁盘文件时,数据先读到页缓存中再操作,提升性能。
- 零拷贝
- 作用是减少磁盘IO和网络IO,是Kafka高性能非常重要的一环。
原来的模式 -> 四次数据拷贝

- Linux系统划分用户空间和内核空间,用户空间权限小,内核空间权限大。
- Kafka服务在用户空间,生产者发送消息时,数据先从用户空间拷贝到内核空间的页缓存,批量发送时再写入磁盘。
- 消费者消费消息时,先在页缓存中找,没有则到磁盘文件读取并拷贝到页缓存,再从页缓存拷贝到用户空间的Kafka,最后通过socket连接和网卡发送给消费者,共经历四次数据拷贝。
使用零拷贝 -> 两次数据拷贝

- Kafka使用零拷贝后,消费者消费数据时,若页缓存中不存在消息,从磁盘读取数据到页缓存后,Kafka委托系统直接从页缓存拷贝数据到网卡,数据拷贝次数减少为两次,性能提高。
- 消息压缩
- Kafka内部提供多种数据压缩算法,发送数据时可设置,压缩后可减少磁盘IO(特别是网络IO),但压缩会耗费一定CPU,需根据实际情况设置。
- 分批发送
- 将消息打包分批发送,多个消息组成一个批次,减少网络传输开销,提高网络传输效率和吞吐量。可通过参数配置控制批量发送消息的大小(默认16K),还设置了等待时间,若在等待时间内未达到16K,Kafka也会将缓冲区数据发送出去,避免消息积压。
- 面试回答建议
- 回答面试官关于Kafka高性能设计问题时,至少要陈述消息分区、顺序读写、页缓存和零拷贝这四点内容。消息分区使存储不受单台服务器限制;顺序读写提升读写效率;页缓存将磁盘访问变为内存访问提高性能;零拷贝减少上下游切换和数据拷贝。还可提及消息压缩减少磁盘IO和网络IO,分批发送减少网络开销等内容,同时文稿里提供了参考回答供查阅。
Kafka中零拷贝的实现是其高性能设计的重要部分,通过减少数据拷贝次数来提升性能,具体实现过程如下:
1. 传统数据传输中的数据拷贝
在Linux系统中,存在用户空间和内核空间的划分,用户空间权限小,内核空间权限大且可调用系统资源。当Kafka服务在用户空间进行数据传输时,例如生产者发送消息到磁盘以及消费者消费消息的过程,涉及多次数据拷贝:
- 生产者发送消息时,数据从用户空间拷贝到内核空间的页缓存,批量发送时再从页缓存写入磁盘,这是两次数据拷贝。
- 消费者消费消息时,若页缓存中没有消息,需先从磁盘文件读取消息拷贝到页缓存,再从页缓存拷贝到用户空间的Kafka,最后通过socket连接和网卡发送给消费者,这里共发生四次数据拷贝。频繁的数据拷贝操作导致性能不高。
2. Kafka零拷贝的实现流程

为了提升性能,Kafka采用了零拷贝技术,其流程如下:
- 消费者消费数据时,Kafka先判断页缓存中是否存在消息。若不存在,从磁盘文件读取数据并拷贝到页缓存,这一步与传统方式相同。
- 关键在于,Kafka在得知消费者要消费消息后,不再将数据从页缓存拷贝到用户空间的Kafka,而是委托系统直接从页缓存把数据拷贝到网卡,从而直接将数据发送给消费者。
3. 零拷贝的优势
通过这种方式,Kafka实现了零拷贝,数据拷贝次数从传统方式的至少四次减少为两次(磁盘到页缓存、页缓存到网卡)。拷贝次数的减少极大地提高了数据传输效率,降低了CPU和内存的开销,从而提升了Kafka的整体性能,使其能够更高效地处理大规模数据的传输和存储。
相关文章:
Kafka高性能设计
高性能设计概述 Kafka高性能是多方面协同的结果,包括集群架构、分布式存储、ISR数据同步及高效利用磁盘和操作系统特性等。主要体现在消息分区、顺序读写、页缓存、零拷贝、消息压缩和分批发送六个方面。 消息分区 存储不受单台服务器限制,能处理更多数据…...
Redis字符串底层结构对数值型的支持常用数据结构和使用场景
字符串底层结构 SDS (Simple Dynamic Strings) 是 Redis 中用于实现字符串类型的一种数据结构。SDS 的设计目标是提供高效、灵活的字符串操作,同时避免传统 C 字符串的一些缺点。 struct sdshdr {int len; // 已使用的长度int free; // 未使用的长度char bu…...
uniapp 微信小程序 数据空白展示组件
效果图 html <template><view class"nodata"><view class""><image class"nodataimg":src"$publicfun.locaAndHttp()?localUrl:$publicfun.httpUrlImg(httUrl)"mode"aspectFit"></image>&l…...
在vscode的ESP-IDF中使用自定义组件
以hello-world为例,演示步骤和注意事项 1、新建ESP-IDF项目 选择模板 从hello-world模板创建 2、打开项目 3、编译结果没错 正在执行任务: /home/azhu/.espressif/python_env/idf5.1_py3.10_env/bin/python /home/azhu/esp/v5.1/esp-idf/tools/idf_size.py /home…...
目标检测,语义分割标注工具--labelimg labelme
1 labelimg labelimg可以用来标注目标检测的数据集, 提供多种格式的输出, 如Pascal Voc, YOLO等。 1.1 安装 pip install labelimg1.2 使用 命令行直接输入labelimg即可打开软件主界面进行操作。 使用非常简单, 不做过细的介绍࿰…...
发明专利与实用新型专利申请过程及自助与代办方式对比
申请专利(发明专利、实用新型专利、外观设计专利)有两种方式:1、自己直接向国家知识产权局申请。2、通过专利代办处申请。以下是对这两种专利类型(发明专利、实用新型专利)申请过程及两种申请方式的详细介绍和对比,参考…...
Datawhale AI冬令营(第二期)动手学AI Agent task2--学Prompt工程,优化Agent效果
目录 如何写好Prompt? 工具包神器1:Prompt框架——CO-STAR 框架 工具包神器2:Prompt结构优化 工具包神器3:引入案例 案例:构建虚拟女友小冰 1. 按照 CO-STAR框架 梳理目标 2. 撰写Prompt 3. 制作对话生成应用&…...
基于python对网页进行爬虫简单教程
python对网页进行爬虫 基于BeautifulSoup的爬虫—源码 """ 基于BeautifulSoup的爬虫###?一、BeautifulSoup简介1.?Beautiful?Soup提供一些简单的、python式的函数用来处理导航、搜索、修改分析树等功能。它是一个工具箱,通过解析文档为用户提供…...
【JavaEE进阶】@RequestMapping注解
目录 📕前言 🌴项目准备 🌲建立连接 🚩RequestMapping注解 🚩RequestMapping 注解介绍 🎄RequestMapping是GET还是POST请求? 🚩通过Fiddler查看 🚩Postman查看 …...
【WebAR-图像跟踪】在Unity中基于Imagine WebAR实现AR图像识别
写在前面的话 感慨一下, WebXR的发展是真的快,20年的时候,大多都在用AR.js做WebAR。随着WebXR标准发展,现在诸如Threejs、AFrame、Unity等多个平台都支持里WebXR。 本文将介绍在Unity中使用 Image Tracker实现Web端的AR图像识别功…...
向bash shell脚本传参
例子: ~ script % touch parameter.sh ~ script % chmod 755 parameter.sh ~ % vim parameter.shparameter.sh: #!/usr/bin/env bashecho the name of current script is $0echo the first parameter is $1echo the second parameter is $2echo all parameters: $…...
Oracle中listagg与wm_concat函数的区别
Oracle中listagg与wm_concat都可以用于将多行数据合并成一个字符串的两个函数,区别如下: 1、分隔符:listagg支持指定分隔符,wm_concat默认为","不支持指定; 2、排序:listagg支持排序后…...
热更新与资源管理
热更新、资源管理、打包发布是 Unity 游戏开发中关键的技术点。这些功能可以极大地提高项目的灵活性和资源利用效率,尤其是在多平台、长生命周期的游戏项目中。以下从技术概述、知识点分析、实现方法和代码举例逐一进行详细分析。 一、热更新 热更新指在不重新发布…...
Momentum Provably Improves Error Feedback!
以下是您提供的论文摘要的翻译: **摘要** 由于在分布式环境中训练机器学习模型时通信开销较高,现代算法不可避免地依赖于有损通信压缩。然而,如果不加以处理,压缩造成的错误会传播,并可能导致严重的不稳定行为&#…...
Elasticsearch-脚本查询
脚本查询 概念 Scripting是Elasticsearch支持的一种专门用于复杂场景下支持自定义编程的强大的脚本功能,ES支持多种脚本语言,如painless,其语法类似于Java,也有注释、关键字、类型、变量、函数等,其就要相对于其他脚本高出几倍的性…...
《Opencv》基础操作详解(3)
接上篇:《Opencv》基础操作详解(2)-CSDN博客 Opencv基础操作 目录 Opencv基础操作 18、图像边界填充 19、阈值处理(图像的二值化) 20、图像平滑处理 (1)、均值滤波(Mean Filte…...
meshy的文本到3d的使用
Meshy官方网站: 中文官网: Meshy官网中文站 编辑 Opens in a new window 编辑www.meshycn.com Meshy AI 中文官网首页 英文官网: Meshy目前似乎还没有单独的英文官网,但您可以在中文官网上找到英文界面或相关英文资料。 链…...
C语言技巧之有条件的累加
什么叫有条件的累加? 主要是依靠循环,一般形式是一个在循环里面遍历,另一个只有达到一定的条件才会累加(移动到下一个变量),从言语也能看出来,主要是用在字符串和数组里面的,毕竟链表…...
解释为什么fetch(JavaScript)无法将读取的数据存入外部变量
(一)问题描述 你可能会遇到这样的情况:在fetch之外创建变量,将fetch获取到的数据赋值给这个变量以便在fetch外使用,但在使用这个变量的时候发现值是空的,这是为什么呢? (二…...
Windows Subsystem for Linux (WSL)
目录 定义与功能 版本与特点 应用场景 启用 WSL 功能 更新WSL及其内核 下载Linux发行版本 WSL(Windows Subsystem for Linux)是微软在Windows 10和Windows 11中引入的一项功能,使用户能够在Windows上原生运行Linux的命令行工具和应用程…...
【Axure高保真原型】引导弹窗
今天和大家中分享引导弹窗的原型模板,载入页面后,会显示引导弹窗,适用于引导用户使用页面,点击完成后,会显示下一个引导弹窗,直至最后一个引导弹窗完成后进入首页。具体效果可以点击下方视频观看或打开下方…...
超短脉冲激光自聚焦效应
前言与目录 强激光引起自聚焦效应机理 超短脉冲激光在脆性材料内部加工时引起的自聚焦效应,这是一种非线性光学现象,主要涉及光学克尔效应和材料的非线性光学特性。 自聚焦效应可以产生局部的强光场,对材料产生非线性响应,可能…...
Qt Widget类解析与代码注释
#include "widget.h" #include "ui_widget.h"Widget::Widget(QWidget *parent): QWidget(parent), ui(new Ui::Widget) {ui->setupUi(this); }Widget::~Widget() {delete ui; }//解释这串代码,写上注释 当然可以!这段代码是 Qt …...
基于Docker Compose部署Java微服务项目
一. 创建根项目 根项目(父项目)主要用于依赖管理 一些需要注意的点: 打包方式需要为 pom<modules>里需要注册子模块不要引入maven的打包插件,否则打包时会出问题 <?xml version"1.0" encoding"UTF-8…...
深入解析C++中的extern关键字:跨文件共享变量与函数的终极指南
🚀 C extern 关键字深度解析:跨文件编程的终极指南 📅 更新时间:2025年6月5日 🏷️ 标签:C | extern关键字 | 多文件编程 | 链接与声明 | 现代C 文章目录 前言🔥一、extern 是什么?&…...
ip子接口配置及删除
配置永久生效的子接口,2个IP 都可以登录你这一台服务器。重启不失效。 永久的 [应用] vi /etc/sysconfig/network-scripts/ifcfg-eth0修改文件内内容 TYPE"Ethernet" BOOTPROTO"none" NAME"eth0" DEVICE"eth0" ONBOOT&q…...
2023赣州旅游投资集团
单选题 1.“不登高山,不知天之高也;不临深溪,不知地之厚也。”这句话说明_____。 A、人的意识具有创造性 B、人的认识是独立于实践之外的 C、实践在认识过程中具有决定作用 D、人的一切知识都是从直接经验中获得的 参考答案: C 本题解…...
逻辑回归暴力训练预测金融欺诈
简述 「使用逻辑回归暴力预测金融欺诈,并不断增加特征维度持续测试」的做法,体现了一种逐步建模与迭代验证的实验思路,在金融欺诈检测中非常有价值,本文作为一篇回顾性记录了早年间公司给某行做反欺诈预测用到的技术和思路。百度…...
给网站添加live2d看板娘
给网站添加live2d看板娘 参考文献: stevenjoezhang/live2d-widget: 把萌萌哒的看板娘抱回家 (ノ≧∇≦)ノ | Live2D widget for web platformEikanya/Live2d-model: Live2d model collectionzenghongtu/live2d-model-assets 前言 网站环境如下,文章也主…...
提升移动端网页调试效率:WebDebugX 与常见工具组合实践
在日常移动端开发中,网页调试始终是一个高频但又极具挑战的环节。尤其在面对 iOS 与 Android 的混合技术栈、各种设备差异化行为时,开发者迫切需要一套高效、可靠且跨平台的调试方案。过去,我们或多或少使用过 Chrome DevTools、Remote Debug…...
