当前位置：首页 > news >正文

Kafka 高并发设计之数据压缩与批量消息处理

news 2026/2/10 12:04:07

《Kafka 高性能架构设计 7 大秘诀》专栏第 6 章。

压缩，是一种用时间换空间的 trade-off 思想，用 CPU 的时间去换磁盘或者网络 I/O 传输量，用较小的 CPU 开销来换取更具性价比的磁盘占用和更少的网络 I/O 传输。

Kafka 是一个高吞吐量、可扩展的分布式消息系统，深入掌握 Kafka 的数据压缩和批量数据处理机制，对于优化系统性能和资源使用至关重要。

Kafka 数据压缩机制

数据压缩在 Kafka 中有助于减少磁盘空间的使用和网络带宽的消耗，从而提升整体性能。

通过减少消息的大小，压缩可以显著降低生产者和消费者之间的数据传输时间。

Chaya：Kafka 支持的压缩算法有哪些？

在 Kafka 2.1.0 版本之前，Kafka 支持 3 种压缩算法：GZIP、Snappy 和 LZ4。从 2.1.0 开始，Kafka 正式支持 Zstandard 算法（简写为 zstd）。

Chaya：这么多压缩算法，我如何选择？

一个压缩算法的优劣，有两个重要的指标：压缩比，文件压缩前的大小与压缩后的大小之比，比如源文件占用 1000 M 内存，经过压缩后变成了 200 M，压缩比 = 1000 /200 = 5，压缩比越高越高；另一个指标是压缩/解压缩吞吐量，比如每秒能压缩或者解压缩多少 M 数据，吞吐量越高越好。

如下图是 Facebook Zstandard 官网提供的一份压缩算法 benchmark 比较结果：

从图中可以看到，ZSTD 压缩比最高，但是吞吐量中规中矩。LZ4 在吞吐量方面属于王者。

GZIP：压缩比高，但压缩和解压缩速度相对较慢。适用于对传输带宽要求较高的场景。
Snappy：由 Google 开发，压缩和解压缩速度快，但压缩比相对较低。适用于对性能要求较高的场景。
LZ4：在压缩和解压缩速度以及压缩比之间取得良好平衡。适用于对性能和压缩比有综合需求的场景。
ZSTD：由 Facebook 开发，提供高压缩比和较快的压缩解压速度。适用于对高效压缩和快速处理都有需求的场景。

在 Kafka 的性能测试结果中，不同压缩算法的两个指标有以下排序特点。

吞吐量方面：LZ4 > Snappy > zstd 和 GZIP；
压缩比方面：zstd > LZ4 > GZIP > Snappy。

何时压缩

Chaya：我觉得可以在生产者和 Broker 端进行压缩，对么？

在生产者端压缩是很自然的想法，大部分情况下 Broker 收到 Producer 端的消息后是原封不动的保存，并不会进行压缩。

生产者压缩

Kafka 的数据压缩主要在生产者端进行。具体步骤如下：

生产者配置压缩方式：在 KafkaProducer 配置中设置 compression.type 参数，可以选择 gzip、snappy、lz4 或 zstd。
消息压缩：生产者将消息批量收集到一个 batch 中，然后对整个 batch 进行压缩。这种批量压缩方式可以获得更高的压缩率。
压缩消息存储：压缩后的 batch 以压缩格式存储在 Kafka 的主题（Topic）分区中。
消费者解压缩：消费者从 Kafka 主题中获取消息时，首先对接收到的 batch 进行解压缩，然后处理其中的每一条消息。

Kafka 高并发设计之数据压缩与批量消息处理

《Kafka 高性能架构设计 7 大秘诀》专栏第 6 章。压缩，是一种用时间换空间的 trade-off 思想，用 CPU 的时间去换磁盘或者网络 I/O 传输量，用较小的 CPU 开销来换取更具性价比的磁盘占用和更少的网络 I/O 传输。 Kafka 是一个高吞吐量、可扩展…...

编程日记 2024/7/15 1:27:44

设计模式使用场景实现示例及优缺点（行为型模式——模板方法模式）

模板方法模式（Template Method Pattern） 模板方法模式（Template Method Pattern）是一种行为设计模式，它定义了一个操作中的算法的骨架，将算法的一些步骤延迟到子类中。这样可以在不改变算法的结构的前提下…...

编程日记 2024/7/15 1:26:43

ETL数据集成丨主流ETL工具(ETLCloud、DataX、Kettle)数据传输性能大PK

目前市面上的ETL工具众多，为了方便广大企业用户在选择ETL工具时有一个更直观性能方面的参考值，我们选取了目前市面上最流行的三款ETL工具（ETLCloud、DataX、Kettle）来作为本次性能传输的代表，虽然性能测试数据有很多相…...

编程日记 2024/7/15 1:25:41

eNSP：防火墙设置模拟公司配置（二）

实验拓扑： 实验要求（二）： 7： 办公设备可以通过电信连接和移动上网（多对多NAT，并且需要保留一个公网IP） 8： 分公司通过公网移动电信，访问DMZ的http服务器 9&a…...

编程日记 2024/7/15 1:23:40

vue3 两个组件之间传值

Props 父组件可以通过 props 将数据传递给子组件。这是最常见的组件间通信方式 <template><ChildComponent :message"parentMessage" /></template><script>import ChildComponent from ./ChildComponent.vue;export…...

编程日记 2024/7/15 1:21:38

基于matlab的深度学习案例及基础知识专栏前言

专栏简介内容涵盖深度学习基础知识、深度学习典型案例、深度学习工程文件、信号处理等相关内容，博客由基于matlab的深度学习案例、matlab基础知识、matlab图像基础知识和matlab信号处理基础知识四部分组成。一、基于matlab的深度学习案例 1.1、matlab:基于模…...

编程日记 2024/7/15 1:16:33

机器学习——L1 L2 范数 —＞L1 L2正则化

1、L1范数和L2范数是机器学习和数据分析中经常使用的两种范数，它们之间存在多个方面的区别。以下是关于L1范数和L2范数区别的详细解释： 一、定义差异 L1范数：也被称为曼哈顿范数，是向量元素的绝对值之和。对于一个n维向量x&am…...

编程日记 2024/7/15 1:15:32

大模型时代，还需要跨端framework吗？

跨端在我近十年的大前端从业经验中，有一半是在和flutter/rn打交道。虽然，flutter和rn官方和社区已经在非常努力的优化、填坑了，但是这两者的坑还是远远高于原生开发。但是，在锁表的大周期下，华为带着鸿蒙来了&#…...

编程日记 2024/7/15 1:14:31

ASP.NET Core----基础学习05----将数据传递给视图文件的五种情况

文章目录 1. 类型一：使用ViewData将数据传递给视图文件（默认视图文件）2. 类型二：自定义选择视图文件并传递ViewData数据3. 类型三：使用ViewBag将数据传递给视图文件4. 类型四：在视图文件中使用model转化为…...

编程日记 2024/7/15 1:13:30

Flutter实现局部刷新的几种方式

目录前言 1.局部刷新的重要性 1.概念 2.重要性 2.局部刷新实现的几种方式 1.使用setState方法进行局部刷新 2.使用StatefulWidget和InheritedWidget局部刷新UI 3.ValueNotifier和ValueListenableBuilder 4.StreamBuilder 5.Provider 6.GetX 7.使用GlobalKey 前言 …...

编程日记 2024/7/15 1:07:24

力扣题解（回文子串）

647. 回文子串给你一个字符串 s ，请你统计并返回这个字符串中回文子串的数目。回文字符串是正着读和倒过来读一样的字符串。子字符串是字符串中的由连续字符组成的一个序列。思路： 首先，本题要求的是数目，而且不要求没…...

编程日记 2024/7/15 1:05:22

对数的基本概念

概念在数学中，对数是对求幂的逆运算，正如除法是乘法的倒数，反之亦然。这意味着一个数字的对数是必须产生过另一个固定数字(基数)的指数如果a的x次方等于N（a > 0, 且a不等于1），那么数x叫做以a为底N的…...

编程日记 2024/7/15 1:03:19

C双指针滑动窗口算法

这也许是双指针技巧的最⾼境界了，如果掌握了此算法，可以解决⼀⼤类⼦字符串匹配的问题原理 1、我们在字符串 S 中使⽤双指针中的左右指针技巧，初始化 left right 0，把索引闭区间 [left, right] 称为⼀个「窗⼝」。 2、我们先…...

编程日记 2024/7/15 1:01:18

一、WPF命令 1.ICommand代码创建一个文件夹和文件 using System; using System.Collections.Generic; using System.Linq; using System.Text; using System.Threading.Tasks; using System.Windows.Input;namespace 学习.Command {public class MyCommand : ICommand{Acti…...

编程日记 2024/7/15 0:55:12

升级到LVGL9的一些变化（后续发现再补充）

目录一、主要内容二、新增内容三、常规API变化四、Display API（显示API）五、其他最近在将LVGL8的demo代码升级到LVGL9，带来不小的变化，收集网上的一些内容，整理如下：一、主要内容二、新增内容三、常规API变化四、Display API（显示API）...

编程日记 2024/7/15 0:54:11

当在多线程环境中使用 C++进行编程时，怎样确保线程安全以及如何处理线程之间的同步和通信？

在C中确保线程安全性和处理线程之间的同步和通信有多种方法。下面是一些常用的技术和技巧： 互斥锁：使用互斥锁可以确保只有一个线程可以访问共享资源。在访问共享资源之前获取锁，在完成后释放锁。这可以防止多个线程同时访问同一份数据&#…...

编程日记 2024/7/15 0:52:09

博物馆地图导航系统：高精度地图引擎与AR/VR融合，实现博物馆数字化转型

在人民日益追求精神文化的时代下，博物馆作为传承与展示人类文明的璀璨殿堂，其重要性不言而喻。然而，随着博物馆规模的不断扩大和藏品种类的日益丰富，游客在享受知识盛宴的同时，也面临着“迷路”与“错过”的困扰。博物…...

编程日记 2024/7/15 0:51:07

liunx作业笔记1

一、选择题（每小题2分，共20分） 1、下列变量命名为Shell中无效变量名的是（ D ） A、v_ar1 B、var1 C、_var D、*var 变量名以字母开头，包含下划线和数字。 2、关于expr命令的使用下列命令中得数不等于…...

编程日记 2024/7/15 0:50:07

大话C语言：第31篇指针和数组的关系

数组在内存中是连续存放的，其名称代表了数组首元素的首地址，该地址是常量， 也就是一个指向数组首元素的指针。因此，指针和数组有着密切的关系： 可以使用指针来访问和操作数组中的元素。通过指针的算术运算，…...

编程日记 2024/7/15 0:44:02

Mysql-索引应用

目录索引应用 MySQL有哪些索引? 普通索引和唯一索引有什么区别? 哪个更新性能更好? 、聚簇索引的主键索引怎么设置? 追问:假如你不设置会怎么样? 我们一般选择什么样的字段来建立索引? 索引越多越好吗? 索引怎么优化? （覆盖索引优化、防止索引失效、…...

编程日记 2024/7/15 0:43:01

内存分配函数malloc kmalloc vmalloc

内存分配函数malloc kmalloc vmalloc malloc实现步骤： 1）请求大小调整：首先，malloc 需要调整用户请求的大小，以适应内部数据结构（例如，可能需要存储额外的元数据）。通常，这包括对齐调整，确保分配的内存地址满足特定硬件要求（如对齐到8字节或16字节边界）。 2）空闲…...

编程新知 2025/11/1 5:21:39

linux之kylin系统nginx的安装

一、nginx的作用 1.可做高性能的web服务器直接处理静态资源（HTML/CSS/图片等），响应速度远超传统服务器类似apache支持高并发连接 2.反向代理服务器隐藏后端服务器IP地址，提高安全性 3.负载均衡服务器支持多种策略分发流量…...

编程新知 2026/2/8 20:42:56

label-studio的使用教程(导入本地路径)

文章目录 1. 准备环境2. 脚本启动2.1 Windows2.2 Linux 3. 安装label-studio机器学习后端3.1 pip安装(推荐)3.2 GitHub仓库安装 4. 后端配置4.1 yolo环境4.2 引入后端模型4.3 修改脚本4.4 启动后端 5. 标注工程5.1 创建工程5.2 配置图片路径5.3 配置工程类型标签5.4 配置模型5.…...

编程新知 2026/2/7 20:40:53

突破不可导策略的训练难题：零阶优化与强化学习的深度嵌合

强化学习（Reinforcement Learning, RL）是工业领域智能控制的重要方法。它的基本原理是将最优控制问题建模为马尔可夫决策过程，然后使用强化学习的Actor-Critic机制（中文译作“知行互动”机制），逐步迭代求解…...

编程新知 2026/2/5 4:17:42

VB.net复制Ntag213卡写入UID

本示例使用的发卡器：https://item.taobao.com/item.htm?ftt&id615391857885 一、读取旧Ntag卡的UID和数据 Private Sub Button15_Click(sender As Object, e As EventArgs) Handles Button15.Click轻松读卡技术支持:网站:Dim i, j As IntegerDim cardidhex, …...

编程新知 2026/2/9 6:48:28