当前位置: 首页 > article >正文

【kafka系列】日志存储设计 消息写入、读取

目录

日志存储设计

1. 日志存储的目录结构

2. 日志内容格式设计

3. 日志索引设计

4. 设计优势

消息写入流程

示例

流程图

消息读取流程

示例

关键设计细节

流程图


日志存储设计

Kafka的日志存储是其高吞吐、持久化能力的核心设计,其结构包含目录组织消息格式索引设计三部分。


1. 日志存储的目录结构
  • 分区目录:每个Topic分区对应一个目录,命名格式为<topic>-<partition>,例如orders-0
  • Segment文件:每个分区目录下包含多个日志段(Segment),每个段由两个文件组成:
    • .log文件:存储实际消息(如00000000000000000000.log),文件名基于基准位移(Base Offset),即该段第一条消息的Offset。
    • .index文件:稀疏索引文件(如00000000000000000000.index),记录Offset到物理位置的映射。
  • 活跃段(Active Segment):当前正在写入的Segment,文件名格式为<nextOffset>.log,例如新段的第一条消息Offset为100,则文件名为00000000000000000100.log

源码关键类

  • Log:管理分区的所有Segment(ConcurrentNavigableMap<Long, LogSegment>)。
  • LogSegment:封装单个Segment的.log和.index文件操作。

2. 日志内容格式设计

Kafka消息以**批次(RecordBatch)**为单位存储,每个批次包含多条消息,减少I/O开销。单条消息格式如下:

RecordBatch Header:Base Offset (int64)Length (int32)Partition Leader Epoch (int32)Magic (int8)CRC (int32)Attributes (int16)Last Offset Delta (int32)First Timestamp (int64)Max Timestamp (int64)Producer ID (int64)Producer Epoch (int16)Base Sequence (int32)Records Count (int32)Record (多条):Length (varint)Attributes (int8)Timestamp Delta (varint)Offset Delta (varint)Key (varint bytes)Value (varint bytes)Headers (varint array)

特点

  • 紧凑二进制格式:通过变长类型(varint)和位移差值(Delta)压缩空间。
  • 批量写入:多个Record打包成RecordBatch,减少网络和磁盘I/O。
  • 幂等与事务支持:通过Producer IDEpochSequence字段实现。

3. 日志索引设计
  • 稀疏索引(Sparse Index):.index文件不记录每条消息的Offset,而是每隔一定消息量(如4KB)记录一个索引项。
  • 索引项结构:每个索引项占8字节,包含两个字段:
    • Relative Offset:相对于基准位移的差值(4字节)。
    • Physical Position:对应.log文件中的物理位置(4字节)。

索引查询流程(源码见OffsetIndex类):

  1. 根据目标Offset,通过二分查找找到最近的索引项。
  2. 从.log文件的对应位置开始顺序扫描,直到找到目标消息。

4. 设计优势
  • 高效查询:稀疏索引+顺序扫描平衡了索引大小与查询速度。
  • 快速扩容:Segment文件按基准Offset分割,易于清理旧数据和扩展新文件。
  • 高吞吐:批量写入、页缓存、零拷贝等技术最大化磁盘和网络效率。

通过这种设计,Kafka在保证消息持久化的同时,实现了百万级TPS的吞吐能力。


消息写入流程

示例

生产者发送一条消息{"order_id": 1001}到Topic orders的Partition 0。

写入流程

  1. 选择分区:根据Partitioner确定消息写入orders-0
  2. 追加到活跃段
    • Broker将消息封装为RecordBatch,追加到当前活跃段(如00000000000000001000.log)。
    • 更新对应的索引文件00000000000000001000.index(每隔4KB或一定时间写入索引项)。
  1. 刷盘策略:根据log.flush.interval.messageslog.flush.interval.ms决定何时将数据从页缓存刷到磁盘。

源码关键方法

  • Log.append():处理消息追加。
  • LogSegment.append():写入.log文件并更新索引。

流程图


消息读取流程

示例

消费者请求读取Offset为1005的消息。

1. 消费者发送FetchRequest:请求包含目标Topic、Partition和Offset(例如Offset=1005)。
2. Broker验证Offset有效性

  • 检查Offset是否在LogStartOffset(日志起始位移)和HighWatermark(已提交消息的最大位移)之间。
  • 若Offset无效(如小于LogStartOffset或大于HighWatermark),返回错误OFFSET_OUT_OF_RANGE
  1. 定位Segment文件
    • Broker根据Offset值,在分区的Log对象中通过二分查找找到对应的LogSegment
    • 具体逻辑:在LogSegments(一个有序的ConcurrentNavigableMap)中调用floorEntry(Offset),找到基准Offset ≤ 目标Offset的Segment。
    • 示例:Offset=1005 → 找到基准Offset=1000的Segment(文件00000000000000001000.log)。
  1. 加载索引文件
    • 打开对应Segment的.index文件(稀疏索引),通过内存映射(MappedByteBuffer)加载到内存。
  1. 解析Offset并查询索引
    • 计算相对Offset目标Offset - 基准Offset(如1005 - 1000 = 5)。
    • .index文件中二分查找最接近且≤相对Offset的索引项。
    • 示例:索引项可能为[4 → 4096](相对Offset=4,对应.log文件的物理位置4096字节)。
  1. 定位消息物理位置
    • 根据索引项中的物理位置(4096),从.log文件的该位置开始顺序扫描
    • 逐条解析消息头中的Offset,直到找到目标Offset=1005的消息。
  1. 操作系统缓存与文件缓存
    • 页缓存(Page Cache):Kafka依赖操作系统的页缓存机制,.log.index文件会被缓存到内存,后续读取直接从内存访问,避免磁盘I/O。
    • 内存映射(Memory-Mapped Files):索引文件通过MappedByteBuffer映射到内存,加速索引查询。
  1. 返回消息数据
    • 将找到的消息数据封装为FetchResponse返回给消费者,消息内容可能直接从页缓存中读取(零拷贝优化)

关键设计细节

1. Offset解析与索引查询

  • 相对Offset计算
    索引文件中存储的是相对于Segment基准Offset的差值(如基准Offset=1000,索引项中的相对Offset=5 → 实际Offset=1005)。
  • 稀疏索引优化
    索引文件仅记录部分Offset(如每隔4KB),通过二分查找快速定位到近似位置,再顺序扫描少量数据。

2. 文件定位与缓存机制

  • Segment文件定位
    LogSegments使用ConcurrentNavigableMap维护所有Segment,floorEntry(Offset)方法通过跳表(Skip List)快速查找。
  • 操作系统缓存
    • 页缓存:Kafka的.log文件读写完全依赖操作系统的页缓存,消息读取时直接从内存访问,避免磁盘寻址。
    • 内存映射文件:.index文件通过FileChannel.map()映射到内存,索引查询几乎无磁盘I/O。

3. 顺序扫描优化

  • 批量读取:从.log文件的物理位置开始,按块(如8KB)读取数据,减少小文件I/O次数。
  • 零拷贝(Zero-Copy)
    消息数据通过FileChannel.transferTo()直接从页缓存发送到网络Socket,无需经过用户态(源码见FileRecords.writeTo())。

流程图


 


相关文章:

【kafka系列】日志存储设计 消息写入、读取

目录 日志存储设计 1. 日志存储的目录结构 2. 日志内容格式设计 3. 日志索引设计 4. 设计优势 消息写入流程 示例 流程图 消息读取流程 示例 关键设计细节 流程图 日志存储设计 Kafka的日志存储是其高吞吐、持久化能力的核心设计&#xff0c;其结构包含目录组织、…...

【C】初阶数据结构5 -- 栈

前面学习了两种最基本的数据结构 -- 顺序表和链表&#xff0c;接下来就可以基于这两种数据结构来实现其他数据结构了。其实&#xff0c;其他的数据结构的物理结构要么是数组&#xff0c;要么就是链表&#xff0c;所以学好顺序表和链表是学好其他数据结构的基础。接下里&#xf…...

Spring MVC Streaming and SSE Request Processing SSE可以实现chatgpt一次请求分批次响应的效果

1. Introduction This simple tutorial demonstrates the use of several asynchronous and streaming objects in Spring MVC 5.x.x. Specifically, we’ll review three key classes: ResponseBodyEmitterSseEmitterStreamingResponseBody Also, we’ll discuss how to i…...

Python学习心得格式化字符串的format

format的格式控制&#xff1a;format控制格式有6种&#xff0c;分别对所输出的内容进行控制。 语法结构&#xff1a; print({0:所设置的格式}.format(字符串)) 1.引号符号&#xff1a;&#xff1a; 2.填充&#xff1a;所设定的要填充的内容&#xff0c;比如说填充* 3.对齐…...

CNN-LSSVM卷积神经网络最小二乘支持向量机多变量多步预测,光伏功率预测

代码地址&#xff1a;CNN-LSSVM卷积神经网络最小二乘支持向量机多变量多步预测&#xff0c;光伏功率预测 CNN-LSSVM卷积神经网络最小二乘支持向量机多变量多步预测&#xff0c;光伏功率预测 一、引言 1、研究背景和意义 光伏发电作为可再生能源的重要组成部分&#xff0c;近…...

python io.StringIO类介绍

io.StringIO 是 Python io 模块中的一个类,用于在内存中创建类似文件的对象,专门用于处理 字符串数据。它的行为类似于文件对象,可以进行 读 (read)、写 (write)、查找 (seek) 等操作,而不需要实际创建物理文件。 1. io.StringIO 的作用 模拟文件操作,避免读写实际文件,提…...

架构设计系列(三):架构模式

一、概述 关于移动应用开发中常见的架构模式&#xff0c;这些模式是为了克服早期模式的局限性而引入。常见的 架构模式有&#xff1a; MVC, MVP, MVVM, MVVM-C, and VIPER 二、MVC, MVP, MVVM, MVVM-C, and VIPER架构模式 MVC、MVP、MVVM、MVVM-C 和 VIPER 是移动应用开发中…...

[C++语法基础与基本概念] std::function与可调用对象

std::function与可调用对象 函数指针lambda表达式std::function与std::bind仿函数总结std::thread与可调用对象std::async与可调用对象回调函数 可调用对象是指那些像函数一样可以直接被调用的对象&#xff0c;他们广泛用于C的算法&#xff0c;回调&#xff0c;事件处理等机制。…...

强化学习-NPG

NPG来源于PG算法&#xff0c;是TRPO算法的前身。 随机梯度策略算法的输入输出问题&#xff08;不得不考虑的&#xff09;&#xff1a; PG算法用函数表示策略&#xff0c;该表示方法不直接输出动作&#xff08;有别于“确定性梯度策略”&#xff09;&#xff0c;那么就有两种可以…...

JVM学习与理解

目录 JVM介绍&#xff1a; 解释&#xff1a; 特点&#xff1a; 整体构成&#xff1a; 执行过程&#xff1a; 运行时数据区&#xff1a; Java堆剖析&#xff1a; 堆内存区域划分 为什么要分代呢&#xff1f; 内存分配&#xff1a; 新生区与老年区配置比例&#xff1a…...

ArrayList、LinkedList、Vector

ArrayList 和 LinkedList 的区别是什么&#xff1f; 数据结构实现&#xff1a;ArrayList 是动态数组的数据结构实现&#xff0c;而 LinkedList 是双向链表的数据结构实 现。 随机访问效率&#xff1a;ArrayList 比 LinkedList 在随机访问的时候效率要高&#xff0c;因为 Linked…...

数据守护者:备份文件的重要性及自动化备份实践

在信息化社会&#xff0c;数据已成为企业运营和个人生活的重要组成部分。无论是企业的核心业务数据&#xff0c;还是个人的珍贵照片、重要文档&#xff0c;数据的丢失或损坏都可能带来无法估量的损失。因此&#xff0c;备份文件的重要性愈发凸显&#xff0c;它不仅是数据安全的…...

【LLM强化学习】Deep使用的强化学习方法 GRPO 理论理解与实践

一、写在前面 预训练 赋予了 LLMs 广阔的知识和强大的语言能力,但模型本身并不知道 什么是好的,什么是坏的,什么是符合人类偏好的。我们需要 引导 LLMs 学习人类的价值观,理解指令背后的意图,并生成更安全、更可靠、更符合人类期望的文本。强化学习(Reinforcement Learn…...

初阶c语言(练习题,猜随机数,关机程序)

目录 第一题&#xff0c;使用函数编写一个随机数&#xff0c;然后自己猜&#xff0c;猜随机数 第二道题&#xff08;关机程序&#xff09; 实现代码&#xff08;关机程序&#xff09; 实现代码&#xff08;猜数字&#xff09; 前言&#xff1a; 学习c语言&#xff0c;学习…...

TypeScript 与后端开发Node.js

文章目录 一、搭建 TypeScript Node.js 项目 &#xff08;一&#xff09;初始化项目并安装相关依赖 1、创建项目目录并初始化2、安装必要的依赖包 &#xff08;二&#xff09;配置 TypeScript 编译选项&#xff08;如模块解析方式适合后端&#xff09; 二、编写服务器代码 &a…...

基于SSM+uniapp的鲜花销售小程序+LW示例参考

1.项目介绍 系统角色&#xff1a;管理员、商户功能模块&#xff1a;用户管理、商户管理、鲜花分类管理、鲜花管理、订单管理、收藏管理、购物车、充值、下单等技术选型&#xff1a;SSM&#xff0c;Vue&#xff08;后端管理web&#xff09;&#xff0c;uniapp等测试环境&#x…...

数据开放共享和平台整合优化取得实质性突破的智慧物流开源了

智慧物流视频监控平台是一款功能强大且简单易用的实时算法视频监控系统。它的愿景是最底层打通各大芯片厂商相互间的壁垒&#xff0c;省去繁琐重复的适配流程&#xff0c;实现芯片、算法、应用的全流程组合&#xff0c;从而大大减少企业级应用约95%的开发成本可通过边缘计算技术…...

2025互联网医院系统源码解析:AI陪诊问诊APP的未来发展

2025年&#xff0c;AI陪诊问诊APP将如何在技术上创新&#xff0c;如何推动互联网医院的进一步发展&#xff0c;成为了我们今天探讨的核心内容。在本文中&#xff0c;我们将通过源码解析&#xff0c;深入分析这一前沿技术的未来发展趋势&#xff0c;帮助广大从业者更好地理解这一…...

【NLP 22、语言模型 language model】

有时候我也想听听&#xff0c;我在你心里&#xff0c;是什么样子 —— 25.1.12 一、什么是语言模型 语言是灵活的&#xff0c;也是有规律的 了解一门语言的人可以判断一句话是否“合理” 通俗来讲&#xff0c;语言模型用来评价一句话(句子可以看作是字的组合)是否“合理”或…...

(萌新入门)如何从起步阶段开始学习STM32 —— 0.碎碎念

目录 前言与导论 碎碎念 所以&#xff0c;我到底需要知道哪些东西呢 从一些基础的概念入手 常见的工具和说法 ST公司 MDK5 (Keil5) CubeMX 如何使用MDK5的一些常用功能 MDK5的一些常见的设置 前言与导论 非常感谢2301_77816627-CSDN博客的提问&#xff0c;他非常好奇…...

Eclipse:关闭多余的工具条

Eclipse默认的工具条非常多&#xff0c;可以通过如下方法选择关闭一些不常用的&#xff1a; 1.选择菜单Window -> Perspective -> Customize Perspective 2.根据需要勾选Toolbar Visbility下面的工具条项...

Git标签管理:从基础到高阶自动化实践

引言 在软件发布过程中&#xff0c;88%的生产事故与版本标记错误相关。Git标签&#xff08;Tag&#xff09;作为版本控制的关键锚点&#xff0c;不仅是发布流程的里程碑&#xff0c;更是代码审计和问题追溯的重要依据。本文将深入Git标签的底层机制&#xff0c;揭示企业级标签…...

【第3章:卷积神经网络(CNN)——3.6 CNN的高级特性与优化策略】

在2012年ImageNet竞赛的颁奖现场,当AlexNet以超出第二名10%的惊人准确率夺冠时,整个计算机视觉界都意识到:这个叫CNN的架构正在重写游戏规则。十年后的今天,当我们站在YOLOv8、Vision Transformer等新架构的肩膀上回望,会发现经典CNN的进化史就是一部浓缩的深度学习发展史…...

【R语言】非参数检验

一、Mann-Whitney检验 在R语言中&#xff0c;Mann-Whitney U检验&#xff08;也称为Wilcoxon秩和检验&#xff09;用于比较两个独立样本的中位数是否存在显著差异。它是一种非参数检验&#xff0c;适用于数据不满足正态分布假设的情况。 1、独立样本 # 创建两个独立样本数据…...

250214-java类集框架

单列集合是list和set&#xff0c;list的实现类有ArrayList和LinkedList&#xff0c;前者是数组实现&#xff0c;后者是链表实现。list和set&#xff0c;前者有序、可重复&#xff0c;后者无序不可重复。 1.单列集合 1.1. list java.util.List接口继承自Collection接口&#…...

集成测试总结文档

1. 集成测试的定义 集成测试&#xff08;Integration Testing&#xff09;是在单元测试之后&#xff0c;将多个独立的软件模块或组件组合在一起进行测试的过程&#xff0c;目的是验证这些模块之间的接口、数据传递、协作逻辑是否符合设计要求&#xff0c;并发现因集成引发的缺…...

POI 的 Excel 读写操作教程

POI 的 Excel 读写操作教程 一、POI 简介 Apache POI 是一款在 Java 开发中广受欢迎的开源库&#xff0c;主要用于处理各种 Microsoft Office 文件格式&#xff0c;Excel 文件便是其中之一。凭借其功能强大的 API&#xff0c;POI 不仅支持对 Excel 文件的读取、写入和修改&am…...

ROS2 话题通信

1. 基本概念 发布-订阅模型&#xff1a;节点间通过话题&#xff08;Topic&#xff09;异步通信&#xff0c;发布者&#xff08;Publisher&#xff09;发送消息&#xff0c;订阅者&#xff08;Subscriber&#xff09;接收消息。 话题&#xff08;Topic&#xff09;&#xff1a;…...

【学习资源】时间序列数据分析方法(1)

时间序列数据分析是一个有趣的话题&#xff0c;让我们多花一些时间来研究。此篇为第一篇文章。主要介绍特征提取方法、深度学习时序数据分析模型、参考资源。期望能帮助大家解决工业领域的相关问题。 1 特征提取方法&#xff1a;信号处理 (来源:INTELLIGENT FAULT DIAGNOSIS A…...

Hadoop集群安装与配置指南(CentOS 7)

Hadoop集群安装与配置指南&#xff08;CentOS 7&#xff09; 一、虚拟机准备 安装虚拟机软件 下载VMware或VirtualBox&#xff0c;完成安装并激活。 注意&#xff1a;选择NAT模式&#xff0c;配置子网IP&#xff08;如192.168.10.0&#xff09;。 CentOS 7安装 下载CentOS 7…...