Elasticsearch索引机制与Lucene段合并策略深度解析
引言
在现代分布式搜索引擎Elasticsearch中,文档的索引、更新和删除操作不仅是用户交互的核心入口,更是底层存储架构设计的关键挑战。本文围绕以下核心链路展开:
- 文档生命周期管理:从客户端请求路由到分片定位,从内存缓冲区(Buffer)到事务日志(Translog)的双重写入机制,揭示数据持久化的完整路径;
- 实时性与可靠性平衡:通过剖析Translog同步/异步刷盘策略、内存缓冲区刷新(Refresh)与持久化刷盘(Flush)的触发逻辑,解读搜索可见性与故障恢复的底层保障;
- Lucene段合并优化:深入对比分层合并(TieredMergePolicy)、字节大小合并(LogByteSizeMergePolicy)和文档数量合并(LogDocMergePolicy)等策略,探讨如何通过段合并提升查询效率、释放磁盘空间并优化I/O负载。
通过系统性梳理,本文将为开发者提供从API操作到底层存储的全视角技术图谱,助力高性能搜索服务的设计与调优。
索引文档的过程
索引文档:将新的文档添加到索引中或者覆盖已经存在的文档。
并非只有协调节点可能进行数据转发,可以将请求发送到任何一个数据节点,该节点都可以处理请求或将请求转发给适当的节点以完成请求处理。
- 客户端向 Node 1 (任意一个节点)发送新建、覆盖请求。
- 节点使用文档ID(文档ID可以人工指定,不指定将自动创建唯一值) 确定文档属于分片 0(hash(_id)%number_of_primary_shards) 。请求会被转发到 Node 3,因为分片 0 的主分片目前被分配在 Node 3 上。
- Node 3 写入操作不仅保存在内存缓冲区中,同时也被记录到事务日志(Translog)中。Translog是一个位于磁盘上的追加日志,它记录了所有对索引的更改,以确保在发生故障时能够恢复数据。
- 当内存缓冲区达到一定大小,或者Translog达到一定大小时。Flush操作会将内存缓冲区中的数据以及Translog中的更改持久化到磁盘上的Lucene索引文件的Segment中,并且会清空旧的Translog。
number_of_primary_shards:索引的主分片数量。
更新和删除文档的过程
- 客户端向任意节点发送更新、删除请求,协调节点并根据文档ID确定要更新的分片(Shard),将请求转发到分片的主节点上。
- 主分片会创建一个新的文档,保留相同的文档ID和一个更高的版本号。同时在段对应的.del文件中记录旧版本的文档。(更新文档)
- 在段对应的.del文件中记录旧版本的文档。(删除文档)
- 修改操作不仅保存在内存缓冲区中,同时也被记录到事务日志(Translog)中。Translog是一个位于磁盘上的追加日志,它记录了所有对索引的更改,以确保在发生故障时能够恢复数据。
- 当内存缓冲区达到一定大小,或者Translog达到一定大小时。Flush操作会将内存缓冲区中的数据以及Translog中的更改持久化到磁盘上的Lucene索引文件的Segment中,并且会清空旧的Translog。
- 废弃的文档由后台线程在段合并阶段进行删除,释放磁盘空间。
Translog刷盘(Flush)时机
Translog的刷盘:是指将Translog内存中的数据写入到Translog日志中(磁盘)。
Translog的刷盘方式有两种:同步(request)和异步(async),index.translog.durability为request表示同步(默认同步),为async表示异步。
同步方式:意味着每次写操作之后会立即将 Translog 刷新到磁盘。
异步方式:可以通过index.translog.sync_interval(默认5s),当达到配置值时触发刷盘。
Lucene中的段(Segment)
Segment是物理日志,而TransLog是逻辑日志,在Lucene中,每当有新的文档被添加时,数据首先写入内存缓冲区(buffer)。当缓冲区达到一定大小或满足特定条件时,数据会被刷新到磁盘,形成一个新的段。这个初始段的大小依赖于缓冲区的大小和写入的文档数量。多个索引的修改都会被分开写入多个段中。
Lucene中的段生成
只有生成Luence段之后,才能被搜索到。
refresh操作:index.refresh_interval(默认1s),可以适当调大例如30s。定时将内存缓冲区数据写入到新的Lucene段文件中,不会清空translog。
flush操作:当translog大小达到index.translog.flush_threshold_size(默认512m),会将translog中的数据写入到磁盘上的 Lucene 段文件中,并创建一个新的 translog 文件,并清空旧的translog。
Lucene中的段合并
段合并的好处
- 提高查询效率:多个小段可能导致查询时需要访问多个索引文件,使查询效率降低。合并段可以减少段的数量,从而减少查询过程中需要读取的文件,提高查询速度。
- 释放磁盘空间:删除文档不会立即从段中移除,而是标记为已删除。通过段合并,可以彻底清除这些标记为删除的文档,释放磁盘空间。
段合并策略
TieredMergePolicy(分层合并策略)
默认段合并策略,根据段的大小和数量将段分为不同的层级(Tiers),并在合适的时机触发段合并。
通过设置segments_per_tier
参数控制每层的最大段数,每层段数超过时触发合并。通过设置max_merge_at_once
参数控制一次合并的最大段数。
通过段的大小对段进行分层。具体来说,它会将段按照大小分为不同的层,每一层中的段大小范围不同。层的划分并不是固定的,而是动态调整的。
LogByteSizeMergePolicy(基于字节大小的合并策略)
基于段的字节大小来决定合并。它会尝试将小段合并成较大的段,以控制合并后的段大小。
通过设置min_merge_size
参数控制段合并操作的最小段大小(小于min_merge_size
优先合并)。max_merge_size
参数控制段合并操作的最大段大小,当段的大小超过这个阈值时,不再参与合并。
LogDocMergePolicy(基于文档数量的合并策略)
基于段中的文档数量来决定合并。它会尝试将包含少量文档的段合并成包含更多文档的段。
通过设置min_merge_docs
参数控制段合并操作的最小段的文档数量(小于min_merge_docs
优先合并)。和max_merge_docs
参数控制段合并操作的最大段的文档数量,当段的文档数量超过这个阈值时,不再参与合并。
感谢您的阅读!如果文章中有任何问题或不足之处,欢迎及时指出,您的反馈将帮助我不断改进与完善。期待与您共同探讨技术,共同进步!
相关文章:

Elasticsearch索引机制与Lucene段合并策略深度解析
引言 在现代分布式搜索引擎Elasticsearch中,文档的索引、更新和删除操作不仅是用户交互的核心入口,更是底层存储架构设计的关键挑战。本文围绕以下核心链路展开: 文档生命周期管理:从客户端请求路由到分片定位,从内存…...
BPE、WordPiece 与 Unigram:三种主流子词分词算法对比
BPE、WordPiece 与 Unigram:三种主流子词分词算法对比 在构建现代自然语言处理模型时,Tokenizer 是连接文本与模型之间的桥梁。而在 tokenizer 的设计中,BPE(Byte Pair Encoding)、WordPiece 和 Unigram 三种子词&…...
青少年编程与数学 02-020 C#程序设计基础 11课题、可视化编程
青少年编程与数学 02-020 C#程序设计基础 11课题、可视化编程 一、可视化编程1. 降低学习门槛2. 提高学习兴趣3. 便于学习和掌握4. 为后续学习打下基础5. 适合不同年龄段和背景的初学者6. 适合初学者的可视化编程工具 二、可视化编程适合初学者1. 降低学习门槛2. 提高学习兴趣3…...
AI时代新词-AI驱动的自动化(AI - Driven Automation)
一、什么是AI驱动的自动化? AI驱动的自动化(AI - Driven Automation)是指利用人工智能技术实现各种流程和任务的自动化。这种自动化不仅包括简单的重复性任务,还涵盖了复杂的决策和优化任务。AI驱动的自动化通过机器学习、深度学…...

整合Jdk17+Spring Boot3.2+Elasticsearch9.0+mybatis3.5.12的简单用法
Elasticsearch是一个基于Lucene的分布式搜索和分析引擎,广泛应用于全文搜索、日志分析等场景。结合Spring Boot可以快速构建强大的搜索应用。本文将介绍如何在Spring Boot项目中集成和使用Elasticsearch。 ES9.0.1目前支持的包只有 elasticsearch-rest-client/ …...
Starrocks 物化视图的实现以及在刷新期间能否读数据
背景 本司在用Starrocks做一些业务上的分析的时候,用到了物化视图,并且在高QPS的情况下,RT也没有很大的波动,所以在此研究一下Starrock的实现,以及在刷新的时候是不是原子性的 本文基于Starrocks 3.3.5 结论 Starro…...
前后端传输 Long 类型数据时(时间戳,雪花算法ID),精度丢失的根本原因
前后端传输 Long 类型数据时,精度丢失的根本原因是 JavaScript 的 Number 类型无法精确表示超过 53 位(64 位双精度浮点数)的整数,而 Java 的 Long 类型是 64 位整数。当后端返回的 Long 值超过 2^53-1(即 90071992547…...
探索容器技术:Docker与Kubernetes的实践指南
随着云计算和微服务架构的兴起,容器技术已经成为软件开发和部署的新标准。容器技术以其轻量级、可移植性和灵活性等特点,为应用程序的快速部署、扩展和管理提供了强大的支持。在众多容器技术中,Docker和Kubernetes无疑是最受欢迎的两种。本文…...

Ubuntu从0到1搭建监控平台:本地部署到公网访问实战教程Cpolar穿透与Docker部署全过程
文章目录 前言1.关于Ward2.Docker部署3.简单使用ward4.安装cpolar内网穿透5. 配置ward公网地址6. 配置固定公网地址总结 前言 IT运维人员是否常为服务器管理系统的复杂操作所困扰?当海量性能指标图表与密集预警信号同时涌现时,这种信息过载往往让专业团…...

vscode java debug terminal 中文乱码
现象 解决 快捷键 ctrl , 进入setting 配文件添加 "terminal.integrated.automationProfile.windows": {"path": "cmd","args": ["/k","chcp","65001"]}terminal 启动时,活动也改为 utf-…...

3D PDF如何制作?SOLIDWORKS MBD模板定制技巧
SOLIDWORKS制作3D PDF模版 SOLIDWORKS MBD能够帮助工程师以清晰直观的方式描述产品尺寸信息。在3D PDF文件中,用户可以自由旋转和移动视图,方便查看模型的各个尺寸细节。 本文将带您一步步学习如何使用SOLIDWORKS MBD制作专业的3D PDF模板,…...

Qt DateTimeEdit(时间⽇期的微调框)
使⽤ QDateEdit 作为⽇期的微调框. 使⽤ QTimeEdit 作为时间的微调框 使⽤ QDateTimeEdit 作为时间⽇期的微调框. 这⼏个控件⽤法⾮常相似, 我们以 QDateTimeEdit 为例进⾏介绍. QDateTimeEdit 核⼼属性 属性说明dateTime时间⽇期的值. 形如 2000/1/1 0:00:00date单纯⽇期…...

C# 类和继承(屏蔽基类的成员)
屏蔽基类的成员 虽然派生类不能删除它继承的任何成员,但可以用与基类成员名称相同的成员来屏蔽(mask) 基类成员。这是继承的主要功能之一,非常实用。 例如,我们要继承包含某个特殊方法的基类。该方法虽然适合声明它的…...
基于qt5和stk10开发的互联调试
基于qt5和stk10开发的互联调试程序 QTSTK_Test_yuanwenjian/CppIncludes/AgAsHpopPlugin.tlb , 110080 QTSTK_Test_yuanwenjian/CppIncludes/agashpopplugin.tlh , 108623 QTSTK_Test_yuanwenjian/CppIncludes/AgAttrAutomation.tlb , 11408 QTSTK_Test_yuanwenjian/CppInclude…...
matlab雷达定位仿真
一、边扫描边跟踪雷达仿真 边扫描边跟踪(BISTAR)雷达仿真是一种实时雷达信号处理的技术,用于模拟雷达系统的操作过程,特别是那些具备连续扫描能力的雷达。它的基本原理和流程可以分为以下几个步骤: (1&…...

基于vue框架的动物园饲养管理系统a7s60(程序+源码+数据库+调试部署+开发环境)带论文文档1万字以上,文末可获取,系统界面在最后面。
系统程序文件列表 项目功能:饲养员,健康登记,工作进度,动物信息,进食信息,动物健康,动物医治,饲料信息,工作留言 开题报告内容 基于Vue框架的动物园饲养管理系统开题报告 一、研究背景与意义 (一)研究背景 随着城市化进程加快和公众对生…...
MySQL 索引和事务
目录 前言 一、MySQL 索引介绍 1. 索引概述 2. 索引作用 3. 索引的分类 3.1 普通索引 3.2 唯一索引 3.3 主键索引 3.4 组合索引 (最左前缀) 3.5 全文索引 (FULLTEXT) 3.6 创建索引的原则依据 3.7 查看索引 3.8 删除索引 二、MySQL 事务 1. 事务的 ACID 原则 MYS…...
BERT分类器和朴素贝叶斯分类器比较
一、核心原理对比 维度预训练模型(如BERT)朴素贝叶斯分类器模型类型深度学习模型,基于Transformer架构,通过大规模无监督预训练学习语言表示。传统机器学习模型,基于贝叶斯定理和特征条件独立假设。特征表示自动学习文本的上下文相关表示(contextual embeddings),捕捉长…...

WPS自动换行
换行前 换行后 快捷键 第一步:启用「自动换行」功能 选中目标单元格/区域:点击需要设置的单元格(或拖动选中多个单元格)。开启自动换行(3种方式任选): 快捷按钮:在顶部菜单栏点击「…...
C#面向对象核心:类继承详解
类继承是什么? 继承是面向对象编程的三大特性之一,允许新类(派生类)基于已有类(基类)进行扩展。通过继承,派生类可以“免费”获得基类的字段、方法等成员,并添加自身独有的功能。 …...

maven中的grpc编译插件protobuf-maven-plugin详解
protobuf-maven-plugin 是 Maven 中用于编译 Protocol Buffers(protobuf)文件并生成对应语言代码(如 Java、C、Python 等)的插件。在 gRPC 项目中,它常被用来生成服务端和客户端所需的代码。以下是该插件的详细解析&am…...

服务发现Nacos
目录 Nacos server 安装 注册服务到Nacos server 接口访问Nacos server中的已注册服务 Nacos控制台介绍 Nacos:一个更易于构建云原生应用的动态服务发现、配置管理和服务管理平台。 在分布式服务应用中,各类服务需要统一的注册、统一的管理,这个组件工具…...

社群分享:义乌|杭州电商|店群卖家,私域鱼塘运营的排单系统开源|私域鱼塘运营|返款软件开源
熟悉东哥的朋友都知道,我自己也运营一个电商社群,主要是针对玩私域|鱼塘的电商玩家。 在当前电商环境下,社群分享型电商、店群卖家及私域鱼塘运营者,面临着日益复杂的订单管理和客服调度问题。传统的人工处理不仅效率低…...

C#回调函数深度解析
文章目录 前言什么是回调函数C#中实现回调的方式委托(Delegate)事件(Event)Action和FuncPredicateAsyncCallback匿名方法和Lambda表达式 回调函数实际应用场景异步编程事件处理策略模式LINQ查询 回调函数的优缺点优点缺点 最佳实践与注意事项总结相关资源 前言 在现代软件开发…...

通义智文开源QwenLong-L1: 迈向长上下文大推理模型的强化学习
🎉 动态 2025年5月26日: 🔥 我们正式发布🤗QwenLong-L1-32B——首个采用强化学习训练、专攻长文本推理的LRM模型。在七项长文本文档问答基准测试中,QwenLong-L1-32B性能超越OpenAI-o3-mini和Qwen3-235B-A22B等旗舰LRM,…...
HTTP代理的实际用处有哪些?HTTP代理强在哪里?
嘿,小伙伴们!今天咱们来聊聊 HTTP 代理。大家可能会经常在网页上看到类似“HTTP 代理”的关键词,是不是会心生疑惑:这不就是个技术名词吗?它到底有啥用呢?别急,听我娓娓道来。 一、什么是HTTP代…...

低代码——表单生成器以form-generator为例
主要执行流程说明: 初始化阶段 : 接收表单配置对象formConf深拷贝配置,初始化表单数据和验证规则处理每个表单组件的默认值和特殊配置(如文件上传) 渲染阶段 : 通过render函数创建el-form根组件递归渲染表…...
【Vue Vapor Mode :技术突破与性能优化的可能性】
Vue Vapor Mode :技术突破与性能优化的可能性 前言 作为一名有着Vue 2经验和Vue 3经验的开发者,你一定深刻体会过Vue从Options API到Composition API的演进,也感受过Vue 3在性能上相比Vue 2的显著提升。现在,Vue团队正在开发一个…...
Parasoft C++Test软件单元测试_常见问题及处理
系列文章目录 Parasoft C++Test软件静态分析:操作指南(编码规范、质量度量)、常见问题及处理 Parasoft C++Test软件单元测试:操作指南、实例讲解、常见问题及处理 Parasoft C++Test软件集成测试:操作指南、实例讲解、常见问题及处理 进阶扩展:自动生成静态分析文档、自动…...
vue渲染数组各子项实现文本超出宽度显示tooltip
vue渲染数组各子项实现文本超出宽度显示tooltip 需求背景 vue项目中,通过v-for渲染数组,子项中均存在一行描述文字。当描述文字超出固定宽度时,显示省略号并且鼠标悬浮时显示tooltip;当描述文字不超出固定宽度时则正常显示&…...