当前位置：首页 > news >正文

大数据-180 Elasticsearch - 原理剖析索引写入与近实时搜索

news 2026/5/19 7:35:22

点一下关注吧！！！非常感谢！！持续更新！！！

目前已经更新到了：

Hadoop（已更完）
HDFS（已更完）
MapReduce（已更完）
Hive（已更完）
Flume（已更完）
Sqoop（已更完）
Zookeeper（已更完）
HBase（已更完）
Redis （已更完）
Kafka（已更完）
Spark（已更完）
Flink（已更完）
ClickHouse（已更完）
Kudu（已更完）
Druid（已更完）
Kylin（已更完）
Elasticsearch（正在更新…）

章节内容

上节我们完成了如下的内容：

Elasticsearch 倒排索引
Elasticsearch 读写流程

在这里插入图片描述

索引文档写入和近实时搜索原理

基本概念

Segments in Lucene

众所周知，Elasticsearch存储的基本单元是Shard，ES中的一个Index可能分为多个Shard，事实上每个Shard都是一个Lucence的Index，并且每个LucenceIndex由多个Segment组成，每个Segment事实上是一些倒排索引的集合，每次创建一个新的Document，都会归属于一个新的Segment，而不会去修改原来的Segment。且每次的文档删除操作，会仅仅标记Segment中该文档为删除状态，而不会真正的立马物理删除，所以说ES的index可以理解为一个抽象的概念。就像下图所示：
在这里插入图片描述

Translog-Hbase WAL（Write Ahead Log）

Write Ahead Log 预写入日志
新文档被索引意味着文档会被首先写入内存buffer和translog文件，每个shard都对应一个translog文件

在这里插入图片描述

Refresh In Elasticsearch

在Elasticsearch中，_refresh操作默认每秒执行一次，意味着将内存buffer的数据写入到一个新的Segment中，这个时候索引变成了可检索的，写入新Segment后会清空内存buffer。
在这里插入图片描述

Flush In Elasticsearch

Flush 操作意味着将内存buffer的数据全部写入到新的Segment中，并将内存中所有Segments全部刷盘，并且清空translog日志的过程。
在这里插入图片描述

近实时搜索

基本流程

Elasticsearch写入流程，当一个写请求到达Elasticsearch后，ES将数据写入MemoryBuffer中，并添加事务日志（translog）。如果每次一条数据写入内存后立即写到硬盘上，由于写入的数据肯定是离散的，因此写入磁盘的操作也就是随机写入了。硬盘随机写入的效率相当低，会严重降低ES的性能。
因此ES在设计时在MemoryBuffer和硬盘之间加入了高速缓存（FileSystemCache）来提高ES的写效率。
当写请求发送到ES后，ES将数据写入MemoryBuffer中，此时写入的数据还不能查询到。默认设置下，ES每1秒钟将MemoryBuffer中的数据Refresh到Linux的FileSystemCache，并清空MemoryBuffer，此时写入的数据就可以被查询到了。
在这里插入图片描述

Refresh API

在Elasticsearch中，写入和打开一个新段的轻量的过程叫做Refresh，默认情况下每个分片会每秒自动刷新一次。这就是为什么我们说Elasticsearch是“近”实时搜索：文档的变化并不是立即对搜索可见，但会在一秒之内变成可见。
这些行为可能会对新用户操作困惑，他们索引了一个文档然后尝试搜索它，但却没有搜索到。这个问题的解决方法是用 Refresh API 执行一次手动刷新：

POST /_refreshPOST /my_blogs/_refreshPOST /my_blogs/_doc/1?refresh
{"xxx": "xxx"}PUT /test/_doc/2?refresh=true
{"xxx": "xxx"}

刷新（Refresh）所有的索引
只刷新（Refresh）blogs 索引
只刷新文档

并不是所有的情况都需要每秒刷新，可能你正在使用Elasticsearch索引大量的文件，你可能想优化索引速度而不是近实时搜索，可以通过设置 refrsh_interval，降低每个索引的刷新频率。

PUT /my_logs
{"settings": {"refresh_interval": "30s"}
}

refresh_interval可以在既存索引上动态更新，在生产环境中，当你正在建立一个大的索引时，可以先关比自动刷新，待开始使用该索引时，再把他们调回来。

PUT /my_logs/_settings
{"refresh_interval": -1
}PUT /my_logs/_settings
{"refresh_interval": "1s"
}

持久化变更

基本流程

持久化变更flush
即使通过每秒刷新（Refresh）实现了近实时搜索，仍然要经常进行完整提交来确保从失败中恢复。但在两次提交之间发生变化的文档怎么办？我们也不希望丢掉这些数据。
Elasticsearch增加了一个Translog，叫做事务日志，在每一次对Elasticsearch操作时都会进行日志记录，通过translog，整个流程是下面这个样子：

第一步：一个文档被索引之后，就会被添加到内存缓冲区中，并且追加到了translog，如下图描述一样：
新的文档被添加到内存缓冲区并且追加到了事务日志：
在这里插入图片描述
第二步：刷新（refresh）使分片处于下图描述的状态，分片每秒刷新（refresh）一次：

这些内存缓冲区的文档被写入到一个新的段中，且没有进行fsync操作
这个段被打开，使其可被搜索。
内存缓存区被清空

刷新（refresh）完成后，缓存被清空但是事务日志不会。

在这里插入图片描述
第三步：这个进程继续工作，更多的文档被添加到内存缓冲区和追加到事务日志，事务日志不断积累文档：

每隔一段时间：列如translog 变得越来越大，索引被刷新（flush），一个新的translog被创建，并且一个全量提交被执行。

所有在内存缓冲区的文档都被写入一个新的段（Segment）
缓冲区被清空
一个提交点被写入硬盘
文件系统缓存通过fsync被刷新（flush）
老的translog被删除

translog提供所有还没有被刷到磁盘的操作的一个持久化记录，当Elasticsearch启动的时候，它会从磁盘中使用最后一个提交点去恢复已经得段，并且会重放translog中所有在最后一次提交后发生的变更操作。
translog也被用来提供实时CRUD，当你试着通过ID查询、解析、删除一个文档，它会在尝试从相应的段中检索之前，首先检查translog任何最近的变更。这意味着它总是能够实时的获取到文档的最新版本。在刷新（flush）之后，段被全量提交，并且事务日志被清空。

在这里插入图片描述

flush API

这个执行一个提交并且截断translog的行为在Elasticsearch被称作一次flush，分片每30分钟被自动刷新（flush），或者在translog太大（512M）的时候也会刷新。
flush API可以被用来执行一个手工的刷新（flush）：

POST /blogs/_flushPOST /_flush?wait_for_ongoin

刷新（flush）blogs索引
刷新（flush）所有的索引并且等待所有刷新在返回前完成，我们很少需要自己手动执行一个flush操作，通常情况下，自动刷新就够了。

这就是说，在重启节点或者关闭之前执行flush有益于你的索引，当Elasticsearch尝试恢复或重新打开一个索引的时候，它需要重放translog中所有的操作，所以如果日志越短，恢复的会越快。

Translog安全问题

Translog有多安全？
Translog的目的是保证操作不会丢失，但是却引出了对应的问题：
在文件被fsync到磁盘前，被写入的文件在重启之后就会丢失。这个过程在主分片和复制分片都会发生。最终，基本上，这意味着在整个请求被fsync到主分片和复制分片的translog之前，你的客户端不会得到一个200的OK响应，在每次写请求后执行一个fsync会带来性能上的损失，尽管实践表明这个损失并不大（特别是bluk导入，在一次请求时平摊了大量的文档开销）
但是对于一些大容量的偶尔丢失几秒数据问题并不眼中的集群，使用异步的fsync还是比较有益的。比如，写入的数据被缓存到内存中，再每5秒执行一次fsync。
这个行为可以通过设置durability参数为async来启动。

PUT /my_index/x_settings
{"index.translog.durability": "async","index.translog.sync_interval": "5s"
}

这个选项可以针对索引单独设置，并且可以动态修改，如果你决定使用异步translog的话，你需要保证在发生crash时，丢失掉sync_interval时间段的数据也无所谓。请在决定前知晓这个特性。
如果你不确定这个行为的后果，最好使用默认参数：“index.translog.durability”: “request” 来避免数据丢失。

大数据-180 Elasticsearch - 原理剖析索引写入与近实时搜索

点一下关注吧！！！非常感谢！！持续更新！！！ 目前已经更新到了： Hadoop（已更完）HDFS（已更完）MapReduce（已更完&am…...

编程日记 2024/10/22 3:21:43

大数据-172 Elasticsearch 索引操作与 IK 分词器自定义停用词 Nginx 服务

点一下关注吧！！！非常感谢！！持续更新！！！ 目前已经更新到了： Hadoop（已更完）HDFS（已更完）MapReduce（已更完&am…...

编程日记 2024/10/22 3:20:42

【Java后端】之 ThreadLocal 详解

想象一下，你有一个工具箱，里面放着各种工具。在多人共用这个工具箱的时候，很容易出现混乱，比如有人拿走了你的锤子，或者你找不到合适的螺丝刀。为了避免这种情况，最好的办法就是每个人都有自己独立的工具箱…...

编程日记 2024/10/22 3:17:38

2.链表（代码随想录——python版本）

2.链表（代码随想录——python版本） 链表的概念： 链表是由指针串联在一起的线性结构，一个节点（node）由两部分组成： 数据域——用来存储数据；指针域——用来指向下一个节点&#xf…...

编程日记 2024/10/22 3:15:36

6个解决“由于找不到vcruntime140_1.dll无法继续执行代码”问题的方法

vcruntime140_1.dll丢失的问题在Windows操作系统中相对常见，它通常与Microsoft Visual C Redistributable有关。本文将详细解读vcruntime140_1.dll丢失的原因、解决方法以及预防措施，帮助用户更好地应对这一问题。一，vcruntime140_1.dll文件…...

编程日记 2024/10/22 3:11:32

常用数据库获取表，视图，列，索引信息

一、分页获取数据库用户的所有表 (1)、Oracle，OceanBase(Oracle内核版)，DM 使用ALL_TABLES，需要添加当前用户作为查询条件 select a3.* from (select a2.* from (select a1.*, rownum rn1 from ( select t1.table_name, t2.comments fro…...

编程日记 2024/10/22 3:10:31

架构设计笔记-16-嵌入式系统架构设计理论与实践

目录知识要点嵌入式微处理器存储器（memory） 内（外）总线逻辑嵌入式操作系统（Embedded Operating System，EOS） 通用中间件嵌入式中间件的一般架构典型嵌入式中间件系统案例分析 1…...

编程日记 2024/10/22 3:09:28

SpringSecurity使用介绍

1、SpringSecurity 1.1 SpringSecurity简介 Spring Security是基于Spring的安全框架,提供了包含认证和授权的落地方案；Spring Security底层充分利用了Spring IOC和AOP功能，为企业应用系统提供了声明式安全访问控制解决方案；SpringSecurity可…...

编程日记 2024/10/22 3:08:27

# Js 回调函数

Js 回调函数文章目录 Js 回调函数回调函数的定义和使用回调函数的常见用途异步操作事件处理回调函数的优点和缺点优点缺点回调地狱解决回调地狱的方法使用 Promise使用 async/await 应用函数式编程中的回调函数高阶函数函数柯里化异步编程中的回调函数回调函数的错误处理传…...

编程日记 2024/10/22 3:04:23

COOLSHELL文章：从Code Review 谈如何做技术【阅读笔记】

从Code Review 谈如何做技术原文链接：https://coolshell.cn/articles/11432.html#google_vignette 工程师需要有责任心和修养，不是做出来就了事，而是要做漂亮。这也是山寨和工业的区别，只以做出来为标准是劳动密集型的装配生产线…...

编程日记 2024/10/22 3:03:22

3.1.1 ReactOS系统中二叉树创建一个MEMORY_AREA节点

二叉树中创建一个MEMORY_AREA节点： 二叉树中创建一个MEMORY_AREA节点： MmCreateMemoryArea() 参数AddressSpace是MADDRESS SPACE结构指针，所指向的数据结构代表着一个进程的用户空间。参数BaseAddress是个指针，用来给定和返回内…...

编程日记 2024/10/22 3:01:18

三、Linux 安装全攻略

Linux 安装全攻略在当今的科技时代，Linux 操作系统以其稳定性、安全性和高度的可定制性而备受青睐。本文将详细介绍 Linux 的安装过程，包括关键步骤和下载资源获取方式，帮助你顺利踏上 Linux 之旅。一、为什么选择 Linux Linux 有许多优…...

编程日记 2024/10/22 3:00:16

Ansible自动化工具

一、Ansible概述 1.1 什么是Ansible Ansible 是一个开源的自动化工具，用于配置管理、应用程序部署和任务自动化。它让你可以通过编写简单的 YAML 文件（剧本，Playbooks），轻松管理和配置多个服务器。Ansible 的特点是无…...

编程日记 2024/10/22 2:59:15

Flutter Container组件

Over the past few years, I’ve been fortunate to collaborate with interior designers, and there’s a distinct flair to their approach to crafting captivating interiors. It’s not just about arranging furniture randomly; they meticulously plan layouts, sele…...

编程日记 2024/10/22 2:57:12

点一下关注吧！！！非常感谢！！持续更新！！！

目前已经更新到了：

章节内容

索引文档写入和近实时搜索原理

基本概念

Segments in Lucene

Translog-Hbase WAL（Write Ahead Log）

Refresh In Elasticsearch

Flush In Elasticsearch

近实时搜索

基本流程

Refresh API

持久化变更

基本流程

flush API

Translog安全问题

相关文章：