从零手写Java版本的LSM Tree (一):LSM Tree 概述
🔥 推荐一个高质量的Java LSM Tree开源项目!
https://github.com/brianxiadong/java-lsm-tree
java-lsm-tree 是一个从零实现的Log-Structured Merge Tree,专为高并发写入场景设计。
核心亮点:
⚡ 极致性能:写入速度超过40万ops/秒,完爆传统B+树
🏗️ 完整架构:MemTable跳表 + SSTable + WAL + 布隆过滤器 + 多级压缩
📚 深度教程:12章详细教程,从基础概念到生产优化,每行代码都有注释
🔒 并发安全:读写锁机制,支持高并发场景
💾 数据可靠:WAL写前日志确保崩溃恢复,零数据丢失
适合谁?
- 想深入理解LSM Tree原理的开发者
- 需要高写入性能存储引擎的项目
- 准备数据库/存储系统面试的同学
- 对分布式存储感兴趣的工程师
⭐ 给个Star支持开源!
第1章:LSM Tree 概述
什么是LSM Tree?
Log-Structured Merge Tree (LSM Tree) 是一种专为写密集型工作负载优化的数据结构。它被广泛应用于现代数据库系统中,如LevelDB、RocksDB、Cassandra、HBase等。
简单来说,就是特别适用于写多读少的场景,比如日志、调用链记录等。
核心设计思想
LSM Tree的核心思想是:
- 将随机写入转换为顺序写入
- 将写入操作与读取操作分离优化
- 通过多层存储结构平衡内存和磁盘的使用
LSM Tree vs 传统B+树
我们来对比一下LSM Tree和Mysql使用的传统B+树:
特征 | B+树 | LSM Tree |
---|---|---|
写入性能 | O(log N) 随机写 | O(log M) 顺序写 (M << N) |
读取性能 | O(log N) | O(log N + K) |
空间放大 | 低 | 中等 |
写放大 | 高 | 低 |
适用场景 | 读多写少 | 写多读少 |
LSM Tree 架构概览
系统架构图
图表说明: 这个架构图展示了LSM Tree的完整数据流向和组件关系。左侧显示写入路径:客户端写入请求首先写入WAL日志确保持久性,然后存入Active MemTable,当MemTable容量满时转为Immutable状态并刷盘生成SSTable文件。右侧显示读取路径:客户端读取请求会依次查询MemTable和各级SSTable文件。布隆过滤器附加在每个SSTable上用于快速过滤,压缩策略在后台持续优化存储结构。这种设计实现了写入的高性能(顺序写)和读取的合理性能(分层查找)。
很复杂吗?但是当我们一行代码一行代码实现了这个LSM Tree之后,你会发现其实也并不难。
架构层次说明
内存层 (Memory Layer)
WAL (Write-Ahead Log)
: 写前日志,确保数据持久性Active MemTable
: 接收新写入的内存表Immutable MemTable
: 正在刷盘的只读内存表
磁盘层 (Disk Layer)
Level 0
: 直接从MemTable刷盘的SSTable文件Level 1-N
: 通过压缩生成的分层SSTable文件Bloom Filter
: 每个SSTable的布隆过滤器
后台进程 (Background Process)
Compaction Strategy
: 压缩策略,负责合并和清理SSTable
数据流向
写入路径: Client → WAL → MemTable → SSTable → Compaction
读取路径: Client → MemTable → Immutable → Level 0 → Level 1 → ... → Level N
核心组件详解
1. MemTable (内存表)
- 作用: 内存中的有序数据结构,接收所有写入操作
- 实现: 使用跳表 (ConcurrentSkipListMap) 保证有序性和线程安全
- 容量: 达到阈值时触发刷盘操作
2. Immutable MemTable (不可变内存表)
- 作用: 正在刷盘的MemTable,只读状态
- 目的: 避免阻塞新的写入操作
- 生命周期: 刷盘完成后自动删除
3. SSTable (Sorted String Table)
- 作用: 磁盘上的不可变有序文件
- 特点:
- 数据按键有序存储
- 包含布隆过滤器
- 支持快速查找
4. WAL (Write-Ahead Log)
- 作用: 写前日志,确保数据持久性
- 格式: 管道分隔的文本格式
- 恢复: 系统重启时重放日志恢复数据
5. Bloom Filter (布隆过滤器)
- 作用: 快速判断键是否可能存在
- 优化: 减少无效的磁盘I/O操作
- 特点: 无假阴性,有假阳性
6. Compaction Strategy (压缩策略)
- 作用: 后台合并SSTable文件
- 目的:
- 清理过期/删除的数据
- 控制文件数量
- 优化查询性能
数据流详解
写入流程
写入流程说明: 这个流程图详细展示了LSM Tree的写入过程。每个写入操作首先记录到WAL日志中,这是持久性的第一道保障。然后数据写入Active MemTable,这是一个内存中的有序结构,提供快速的写入性能。当MemTable达到容量阈值时,系统会将其标记为Immutable(不可变),同时创建新的Active MemTable继续接收写入,这样保证了写入操作的连续性。Immutable MemTable随后被刷盘到磁盘上的SSTable文件,完成持久化。最后系统检查是否需要触发压缩操作来优化存储结构。这个流程确保了高写入性能和数据的可靠性。
读取流程
读取流程说明: 这个流程图展示了LSM Tree的分层查找策略。读取操作遵循"新数据优先"的原则,首先查询Active MemTable,因为它包含最新的数据。如果没找到,继续查询Immutable MemTable,这些是正在刷盘但尚未完成的数据。接下来按时间倒序查询SSTable文件,新文件优先查询,因为它们包含更新的数据版本。在查询每个SSTable之前,系统会先使用布隆过滤器快速判断键是否可能存在,这能有效减少无效的磁盘I/O操作。如果布隆过滤器表明键可能存在,才会实际读取文件进行查找。这种分层查找机制平衡了读取性能和存储效率。
性能特征
写入性能优势
- 顺序写入: WAL和SSTable都是顺序写,充分利用磁盘特性
- 批量刷盘: MemTable批量写入SSTable,减少I/O次数
- 无锁写入: 使用并发跳表,减少锁竞争
读取性能考虑
- 多层查找: 需要查询多个数据源
- 布隆过滤器: 显著减少无效磁盘访问
- 缓存友好: 热数据通常在MemTable中
空间使用
- 写放大: 压缩过程中的数据重写
- 空间放大: 删除数据的墓碑标记
- 优化: 定期压缩清理无效数据
实际应用场景
适合的场景
- ✅ 写多读少: 日志系统、监控数据
- ✅ 时序数据: IoT传感器数据、指标收集
- ✅ 缓存系统: 高频写入的缓存更新
- ✅ 事件存储: 审计日志、用户行为跟踪
不适合的场景
- ❌ 读多写少: 传统OLTP应用
- ❌ 复杂查询: 需要复杂SQL的场景
- ❌ 强一致性: 需要ACID事务的场景
核心优势
- 高写入吞吐量: 40万+ ops/sec
- 低写入延迟: 平均1.8微秒
- 良好的扩展性: 数据量增长对写性能影响小
- 崩溃恢复: WAL确保数据不丢失
- 并发友好: 支持多线程读写
实现挑战
- 读放大: 需要查询多个数据源
- 空间放大: 压缩前的冗余数据
- 压缩开销: 后台压缩消耗CPU/IO
- 复杂性: 多组件协调的复杂性
下一步学习
现在你已经了解了LSM Tree的整体架构,接下来我们将深入学习各个组件:
- KeyValue数据结构 - 理解基础数据格式
- MemTable实现 - 深入跳表和并发控制
- SSTable格式 - 磁盘存储的设计细节
思考题
- 为什么LSM Tree适合写密集型工作负载?
- 布隆过滤器如何提升读取性能?
- 压缩策略的作用是什么?
下一章预告: 我们将学习LSM Tree的基础数据结构KeyValue,理解时间戳、删除标记等核心概念。
相关文章:
从零手写Java版本的LSM Tree (一):LSM Tree 概述
🔥 推荐一个高质量的Java LSM Tree开源项目! https://github.com/brianxiadong/java-lsm-tree java-lsm-tree 是一个从零实现的Log-Structured Merge Tree,专为高并发写入场景设计。 核心亮点: ⚡ 极致性能:写入速度超…...

在Zenodo下载文件 用到googlecolab googledrive
方法:Figshare/Zenodo上的数据/文件下载不下来?尝试利用Google Colab :https://zhuanlan.zhihu.com/p/1898503078782674027 参考: 通过Colab&谷歌云下载Figshare数据,超级实用!!࿰…...
FOPLP vs CoWoS
以下是 FOPLP(Fan-out panel-level packaging 扇出型面板级封装)与 CoWoS(Chip on Wafer on Substrate)两种先进封装技术的详细对比分析,涵盖技术原理、性能、成本、应用场景及市场趋势等维度: 一、技术原…...
CppCon 2015 学习:REFLECTION TECHNIQUES IN C++
关于 Reflection(反射) 这个概念,总结一下: Reflection(反射)是什么? 反射是对类型的自我检查能力(Introspection) 可以查看类的成员变量、成员函数等信息。反射允许枚…...

【1】跨越技术栈鸿沟:字节跳动开源TRAE AI编程IDE的实战体验
2024年初,人工智能编程工具领域发生了一次静默的变革。当字节跳动宣布退出其TRAE项目(一款融合大型语言模型能力的云端AI编程IDE)时,技术社区曾短暂叹息。然而这一退场并非终点——通过开源社区的接力,TRAE在WayToAGI等…...

高端性能封装正在突破性能壁垒,其芯片集成技术助力人工智能革命。
2024 年,高端封装市场规模为 80 亿美元,预计到 2030 年将超过 280 亿美元,2024-2030 年复合年增长率为 23%。 细分到各个终端市场,最大的高端性能封装市场是“电信和基础设施”,2024 年该市场创造了超过 67% 的收入。…...
前端工具库lodash与lodash-es区别详解
lodash 和 lodash-es 是同一工具库的两个不同版本,核心功能完全一致,主要区别在于模块化格式和优化方式,适合不同的开发环境。以下是详细对比: 1. 模块化格式 lodash 使用 CommonJS 模块格式(require/module.exports&a…...

动态规划-1035.不相交的线-力扣(LeetCode)
一、题目解析 光看题目要求和例图,感觉这题好麻烦,直线不能相交啊,每个数字只属于一条连线啊等等,但我们结合题目所给的信息和例图的内容,这不就是最长公共子序列吗?,我们把最长公共子序列连线起…...

网页端 js 读取发票里的二维码信息(图片和PDF格式)
起因 为了实现在报销流程中,发票不能重用的限制,发票上传后,希望能读出发票号,并记录发票号已用,下次不再可用于报销。 基于上面的需求,研究了OCR 的方式和读PDF的方式,实际是可行的ÿ…...

MeshGPT 笔记
[2311.15475] MeshGPT: Generating Triangle Meshes with Decoder-Only Transformers https://library.scholarcy.com/try 真正意义上的AI生成三维模型MESHGPT来袭!_哔哩哔哩_bilibili GitHub - lucidrains/meshgpt-pytorch: Implementation of MeshGPT, SOTA Me…...

Appium下载安装配置保姆教程(图文详解)
目录 一、Appium软件介绍 1.特点 2.工作原理 3.应用场景 二、环境准备 安装 Node.js 安装 Appium 安装 JDK 安装 Android SDK 安装Python及依赖包 三、安装教程 1.Node.js安装 1.1.下载Node 1.2.安装程序 1.3.配置npm仓储和缓存 1.4. 配置环境 1.5.测试Node.j…...

qt+vs Generated File下的moc_和ui_文件丢失导致 error LNK2001
qt 5.9.7 vs2013 qt add-in 2.3.2 起因是添加一个新的控件类,直接把源文件拖进VS的项目里,然后VS卡住十秒,然后编译就报一堆 error LNK2001 一看项目的Generated Files下的moc_和ui_文件丢失了一部分,导致编译的时候找不到了。因…...
41道Django高频题整理(附答案背诵版)
解释一下 Django 和 Tornado 的关系? Django和Tornado都是Python的web框架,但它们的设计哲学和应用场景有所不同。 Django是一个高级的Python Web框架,鼓励快速开发和干净、实用的设计。它遵循MVC设计,并强调代码复用。Django有…...

基于stm32F10x 系列微控制器的智能电子琴(附完整项目源码、详细接线及讲解视频)
注:文章末尾网盘链接中自取成品使用演示视频、项目源码、项目文档 所用硬件:STM32F103C8T6、无源蜂鸣器、44矩阵键盘、flash存储模块、OLED显示屏、RGB三色灯、面包板、杜邦线、usb转ttl串口 stm32f103c8t6 面包板 …...
2025.6.9总结(利与弊)
凡事都有两面性。在大厂上班也不例外。今天找开发定位问题,从一个接口人不断溯源到另一个 接口人。有时候,不知道是谁的责任填。将工作内容分的很细,每个人负责其中的一小块。我清楚的意识到,自己就是个可以随时替换的螺丝钉&…...
【Ftrace 专栏】Ftrace 参考博文
ftrace、perf、bcc、bpftrace、ply、simple_perf的使用Ftrace 基本用法Linux 利用 ftrace 分析内核调用如何利用ftrace精确跟踪特定进程调度信息使用 ftrace 进行追踪延迟Linux-培训笔记-ftracehttps://www.kernel.org/doc/html/v4.18/trace/events.htmlhttps://blog.csdn.net/…...
CppCon 2015 学习:Reactive Stream Processing in Industrial IoT using DDS and Rx
“Reactive Stream Processing in Industrial IoT using DDS and Rx” 是指在工业物联网(IIoT)场景中,结合 DDS(Data Distribution Service) 和 Rx(Reactive Extensions) 技术,实现 …...
python打卡第47天
昨天代码中注意力热图的部分顺移至今天 知识点回顾: 热力图 作业:对比不同卷积层热图可视化的结果 def visualize_attention_map(model, test_loader, device, class_names, num_samples3):"""可视化模型的注意力热力图,展示模…...
大数据驱动企业决策智能化的路径与实践
📝个人主页🌹:慌ZHANG-CSDN博客 🌹🌹期待您的关注 🌹🌹 一、引言:数据驱动的企业竞争力重构 在这个瞬息万变的商业时代,“快者胜”的竞争逻辑愈发明显。企业如何在复杂环…...
深入理解 React 样式方案
React 的样式方案较多,在应用开发初期,开发者需要根据项目业务具体情况选择对应样式方案。React 样式方案主要有: 1. 内联样式 2. module css 3. css in js 4. tailwind css 这些方案中,均有各自的优势和缺点。 1. 方案优劣势 1. 内联样式: 简单直观,适合动态样式和…...

高抗扰度汽车光耦合器的特性
晶台光电推出的125℃光耦合器系列产品(包括KL357NU、KL3H7U和KL817U),专为高温环境下的汽车应用设计,具备以下核心优势和技术特点: 一、技术特性分析 高温稳定性 采用先进的LED技术和优化的IC设计,确保在…...
13.10 LangGraph多轮对话系统实战:Ollama私有部署+情感识别优化全解析
LangGraph多轮对话系统实战:Ollama私有部署+情感识别优化全解析 LanguageMentor 对话式训练系统架构与实现 关键词:多轮对话系统设计、场景化提示工程、情感识别优化、LangGraph 状态管理、Ollama 私有化部署 1. 对话训练系统技术架构 采用四层架构实现高扩展性的对话训练…...

如何做好一份技术文档?从规划到实践的完整指南
如何做好一份技术文档?从规划到实践的完整指南 🌟 嗨,我是IRpickstars! 🌌 总有一行代码,能点亮万千星辰。 🔍 在技术的宇宙中,我愿做永不停歇的探索者。 ✨ 用代码丈量世界&…...

SQL注入篇-sqlmap的配置和使用
在之前的皮卡丘靶场第五期SQL注入的内容中我们谈到了sqlmap,但是由于很多朋友看不了解命令行格式,所以是纯手动获取数据库信息的 接下来我们就用sqlmap来进行皮卡丘靶场的sql注入学习,链接:https://wwhc.lanzoue.com/ifJY32ybh6vc…...
起重机起升机构的安全装置有哪些?
起重机起升机构的安全装置是保障吊装作业安全的关键部件,主要用于防止超载、失控、断绳等危险情况。以下是常见的安全装置及其功能和原理: 一、超载保护装置(核心安全装置) 1. 起重量限制器 功能:实时监测起升载荷&a…...
Python的__call__ 方法
在 Python 中,__call__ 是一个特殊的魔术方法(magic method),它允许一个类的实例像函数一样被调用。当你在一个对象后面加上 () 并执行时(例如 obj()),Python 会自动调用该对象的 __call__ 方法…...

Linux操作系统共享Windows操作系统的文件
目录 一、共享文件 二、挂载 一、共享文件 点击虚拟机选项-设置 点击选项,设置文件夹共享为总是启用,点击添加,可添加需要共享的文件夹 查询是否共享成功 ls /mnt/hgfs 如果显示Download(这是我共享的文件夹)&…...

Redis上篇--知识点总结
Redis上篇–解析 本文大部分知识整理自网上,在正文结束后都会附上参考地址。如果想要深入或者详细学习可以通过文末链接跳转学习。 1. 基本介绍 Redis 是一个开源的、高性能的 内存键值数据库,Redis 的键值对中的 key 就是字符串对象,而 val…...
Java多线程实现之Runnable接口深度解析
Java多线程实现之Runnable接口深度解析 一、Runnable接口概述1.1 接口定义1.2 与Thread类的关系1.3 使用Runnable接口的优势 二、Runnable接口的基本实现方式2.1 传统方式实现Runnable接口2.2 使用匿名内部类实现Runnable接口2.3 使用Lambda表达式实现Runnable接口 三、Runnabl…...

李沐--动手学深度学习--GRU
1.GRU从零开始实现 #9.1.2GRU从零开始实现 import torch from torch import nn from d2l import torch as d2l#首先读取 8.5节中使用的时间机器数据集 batch_size,num_steps 32,35 train_iter,vocab d2l.load_data_time_machine(batch_size,num_steps) #初始化模型参数 def …...