当前位置: 首页 > news >正文

Elasticsearch:无状态世界中的数据安全

作者:来自 Elastic Henning Andersen

在最近的博客文章中,我们宣布了支持 Elastic Cloud Serverless 产品的无状态架构。通过将持久性保证和复制卸载到对象存储(例如 Amazon S3),我们获得了许多优势和简化。

从历史上看,Elasticsearch 依靠本地磁盘持久性来确保数据安全并处理陈旧或孤立的节点。在本博客中,我们将讨论无状态的数据持久性保证,包括我们如何使用安全检查隔离新的写入和删除,以防止陈旧节点不安全地确认这些操作。

在以下博客文章中,我们将介绍持久性承诺的基础知识以及 Elasticsearch 如何使用操作日志 (translog) 来快速安全地确认对客户端的写入。接下来,我们将深入研究问题,介绍对我们有帮助的概念,最后解释额外的安全检查,使我们能够自信地确认对客户端的写入。

持久性承诺和 translog

当客户端将数据写入 Elasticsearch 时(例如使用 _bulk API),Elasticsearch 将为该请求提供 HTTP 响应代码。Elasticsearch 仅在数据已安全存储时才提供成功的 HTTP 响应代码 (200/201)。我们使用操作日志(称为 translog),请求在确认写入之前附加并存储在其中。translog 允许我们重放未成功持久化到底层 Lucene 索引的操作(例如,如果在我们确认写入到客户端后节点崩溃)。有关 translog 和 Lucene 索引的更多信息,请参阅我们最近关于薄索引分片的博客文章中的此部分,其中我们解释了我们现在如何在对象存储中存储 Lucene 索引和 translog。

不知道是最糟糕的 - 问题

主节点将分片分配给索引节点,然后该节点负责将传入的数据索引到该分片中。但是,我们必须考虑此节点与主节点和/或集群其余部分失去通信的情况。

在这种情况下,主节点将(在超时后)假定该节点不再运行,并将受影响的分片重新分配给其他节点。先前的分配现在将被视为过时或陈旧(stale)。过时的节点可能仍在运行,试图索引和保存它收到的数据。

在这种情况下,可能有两个分片所有者试图确认写入但彼此失去通信,我们有两个问题需要解决:

  • 避免对象存储中的文件覆盖
  • 确保已确认的写入不会丢失

Primary terms - 数量增加以求得救

Elasticsearch 多年来一直使用我们称为 primary terms 的东西。每当将主分片分配给节点时,都会为其分配一个 primary term。如果主分片发生故障或从未分配(unassigned)变为已分配(assiined),主服务器(master)将在重新分配主分片之前增加 promary term 的值。这给出了主分片分配和所有权的严格顺序,在较低的 primary terms 之后分配较高的 primary terms。

对于无状态(stateless),我们在写入对象存储的索引文件路径中使用 primary terms,以确保不会发生上述第一个问题。如果分片发生故障并被重新分配,我们知道它将具有更高的 primary term。分片只会在 primary term 特定的路径中写入文件,因此较旧的分片分配和较新的分片分配不可能写入相同的文件。它们只是写入不同的路径。

Primary term 也用于最终提供耐用性保证,稍后会详细介绍。

请注意,主分片重定位不会增加 primary term 的值,而是涉及主分片重定位的两个节点通过明确的协议交接所有权。

Coordination term 和节点离开生成( node-left generation)

Elasticsearch 中的协调子系统是一种用于集群级别协调的强一致性机制,包括集群成员资格和集群元数据(均称为集群状态)。

在无状态(stateless)中,此系统还建立在对象存储之上,上传新的集群状态版本。与有状态一样,它为称为 “term” 的选举维护一个不断增加的数字(我们在此将其称为 coordination term,以将其与上一节中描述的 primary term 区分开来)。每当一个节点决定开始新的选举时,它都会在新的 coordination term 内这样做,该 term 高于之前看到的任何 term(有关有状态中此工作的更多详细信息,请参阅此处的博客文章)。

在无状态中,选举通过我们称为租约(lease file)文件的对象存储文件进行。此文件包含 coordination term 和声称该 term 是该 term 的当选主节点的节点。

此文件将有助于我们在此处感兴趣的安全检查。如果 coordination term 仍然相同,我们就知道当选主节点没有改变。

然而,仅有协调项是不够的,因为即使节点离开集群,这也不一定会发生改变。为了检测数据节点是否未离开集群,我们还将节点离开生成添加到租约文件中。这是一个递增的数字,每次节点离开集群时都会增加。当 term 发生变化时,它会从零重置(但在这里我们可以忽略这一点)。

租约文件作为持久化新集群状态的一部分写入对象存储。此写入发生在根据新集群状态采取任何操作(如分片恢复)之前。

对象存储先读后写语义

我们使用对象存储以无状态存储所有数据,因此对象存储的可见性保证非常重要。最终,安全检查建立在这些保证之上。

以下是我们依赖的主要对象存储可见性保证:

  • 先读后写:成功写入后,任何读取都将返回新内容。
  • 先列表后写入:成功写入后,任何与新文件匹配的列表都将返回该文件。

这些在几年前并不是必然的,但现在已在 AWS S3、GCP 和 Azure blob 存储中提供。

安全检查

有了上述必要的构建块,我们现在可以进行实际的安全检查和安全论证。虽然 translog 保证了写入的持久性,但在确认写入之前,我们需要确保节点仍然是指定的索引节点。事实来源是集群状态,因此数据节点需要确定它具有足够新的集群状态,以确定确认写入是否安全。

我们只对非优雅事件感兴趣,例如节点崩溃、网络分区等。分片重定位等优雅事件通过显式交接来处理,以保证其正确性(我们不会在本篇博文中深入讨论这个问题)。

让我们考虑一个非优雅事件,例如主节点检测到保存分片的数据节点不再响应,因此它将节点从集群中弹出。我们将在这种情况下检查安全检查,看看它如何避免陈旧的节点可能错误地确认对客户端的写入。

安全检查在响应客户端之前添加了一项额外检查:

  • 从对象存储中读取租约文件。如果 coordination term 或节点左代已超过节点本地集群状态中的值,则它不能依赖集群状态,直到收到具有更高或相等coordination term 和节点离开生成的更新版本。有了足够新的集群状态,可以使用它来检查分片的 primary term 是否已更改。如果已更改,则写入将失败。

在理想情况下,这里不会有任何等待,因为与正常写请求的频率相比,term 和节点离开生成的变化非常不频繁。因此,这个检查的开销很小。

请注意,顺序是重要的:在安全检查之前,translog 文件已经成功上传。稍后我们将解释原因。

非正常的节点离开事件会导致租约文件中的节点离开生成编号递增。之后,一个新节点可能会被分配到该分片并开始恢复数据(这可能只是一次集群状态更新,但这里唯一重要的部分是租约文件写入和节点开始恢复的顺序,这一点是有保证的)。

新分配的节点随后会读取分片数据并恢复 translog 中包含的数据。

我们看到事件的顺序如下:

  • 原始数据节点在读取租约文件之前写入 translog。
  • 主节点在新数据节点开始恢复之前(因此也在读取 translog 之前)将递增的节点离开生成写入租约文件。
  • 对象存储保证了对租约文件和 translog 文件的先读后写(read-after-write)。

这里需要考虑两种主要情况:

  • 原始数据节点写入了 translog 文件,并读取了一个租约文件,表明它仍在集群中且是分片的拥有者(primary term 没有改变)。
    • 我们可以确定主节点在数据节点读取之前未成功更新租约文件。因此,原始数据节点对 translog 的写入发生在新节点分配读取 translog 之前,保证这些操作可供新节点进行恢复。
  • 原始数据节点写入了 translog 文件,但在等待租约文件中的信息反映的新集群状态后,它不再是分片的拥有者(导致写入请求失败)。
    • 我们不会成功响应该写入请求,因此不会承诺持久性。
    • translog 数据可能在恢复期间对新节点分配可用,但这没问题。写入失败的请求实际上持久化了数据,这也是可以接受的。

因此,我们可以看到,Elasticsearch 成功响应的任何写入将对同一分片的未来拥有者可用,进而证明了我们的安全性论点。

同样,我们可以论证主节点故障转移的情况也是安全的。在这种情况下,coordination term 而不是节点离开生成会发生变化。我们这里不再详细说明。

这种相同的安全检查也应用于其他一些关键情况:

  • 在索引文件删除期间。当 Lucene 合并段时,旧段可以被删除。我们在这里添加了安全检查,以防止删除新节点分配可能需要的文件。
  • 在 translog 文件删除期间。当对象存储中的索引数据包含所有操作时,translog 可以被删除。同样,我们在这里添加了安全检查,以防止删除新节点分配可能需要的 translog 文件。

结论

恭喜,你已经读到了最后,希望你喜欢这里的深入研究。我们描述了一种新颖的机制,用于确保 Elasticsearch 持久安全地将写入持久化到对象存储,即使在出现任何类型的中断导致 Elasticsearch 有两个节点拥有对同一分片的索引的情况下也是如此。我们非常关心这些方面,如果你也这样做,也许可以看看我们的开放职位。

向 David Turner、Francisco Fernández Castaño 和 Tim Brooks 致敬,他们在这里完成了大部分实际工作。

准备好自己尝试一下了吗?开始免费试用。

想要获得 Elastic 认证?了解下一次 Elasticsearch 工程师培训何时开始!

原文:Data safety in a stateless world — Search Labs

相关文章:

Elasticsearch:无状态世界中的数据安全

作者:来自 Elastic Henning Andersen 在最近的博客文章中,我们宣布了支持 Elastic Cloud Serverless 产品的无状态架构。通过将持久性保证和复制卸载到对象存储(例如 Amazon S3),我们获得了许多优势和简化。 从历史上…...

动手学习RAG:迟交互模型colbert微调实践 bge-m3

动手学习RAG: 向量模型动手学习RAG: BGE向量模型微调实践]()动手学习RAG: BCEmbedding 向量模型 微调实践]()BCE ranking 微调实践]()GTE向量与排序模型 微调实践]()模型微调中的模型序列长度]()相似度与温度系数 本文我们来进行ColBERT模型的实践,按惯例&#xff…...

springboot 整合quartz定时任务

提示:文章写完后,目录可以自动生成,如何生成可参考右边的帮助文档 文章目录 前言一、pom的配置1.加注解 二、使用方法1.工程图2.创建工具类 三、controller 实现 前言 提示:这里可以添加本文要记录的大概内容: 提示&a…...

erlang学习: Mnesia Erlang数据库3

Mnesia数据库删除实现和事务处理 -module(test_mnesia). -include_lib("stdlib/include/qlc.hrl").-record(shop, {item, quantity, cost}). %% API -export([insert/3, select/0, select/1, delete/1, transaction/1,start/0, do_this_once/0]). start() ->mnes…...

善于善行——贵金属回收

在当今社会,贵金属回收已成为一项日益重要的产业。随 着科技的不断进步和人们对资源可持续利用的认识逐渐提高,贵金属回收的现状也备受关注。 目前,贵金属回收市场呈现出蓬勃发展的态势。一方面,贵金属如金、银、铂、钯等在众多领…...

用CSS 方式设置 table 样式

在现代Web开发中,使用CSS来设置table的样式是一种常见且强大的方法,它能让你的表格数据既美观又易于阅读。下面我将通过一个示例来展示如何使用现代CSS技巧来美化表格。 效果图 HTML 结构 首先,我们定义一个基本的HTML表格结构:…...

Elasticsearch7.x 集群迁移文档

一、集群样例信息 集群名称:escluster-ali-test 1、源集群:(source_cluster) 节点IP节点名称节点角色是否为master节点10.200.112.149es2.gj1.china-job.cndata,master是10.200.112.151es1.gj1.china-job.cndata,master否10.200.112.153es…...

高空抛物检测算法的应用场景解析

高空抛物事件频发,对公众安全构成严重威胁。无论是居民区还是商业中心,从高层建筑中丢弃物品都可能导致人员伤亡和财产损失。传统的监控手段多以事后追溯为主,无法在事发时及时预警和干预。为应对这一难题,视觉分析技术的发展为高…...

Leetcode 无重复字符的最长子串

算法思想: 滑动窗口:通过 start 和 end 来维护一个滑动窗口,start 指向当前窗口的起点,end 是当前窗口的末尾。滑动窗口中的字符都是无重复的。哈希表 charIndexMap:用于存储每个字符及其最近一次出现的位置。更新起始…...

用命令行的方式启动.netcore webapi

用命令行的方式启动.netcore web项目 进入指定的项目文件夹,比如我发布后的代码放在下面文件夹中 在此地址栏中输入“cmd”,打开命令提示符,进入到发布代码目录 命令行启动.netcore项目的命令为: dotnet 项目启动文件.dll --urls"ht…...

Spring6详细学习笔记(IOC+AOP)

一、Spring系统架构介绍 1.1、定义 Spring是一个轻量级的控制反转(IoC)和面向切面(AOP)的容器(框架)。Spring官网 Spring是一款主流的Java EE 轻量级开源框架,目的是用于简化Java企业级引用的开发难度和开发周期。从简单性、可测试性和松耦…...

@RequestMapping 基于哪个库进行通信

RequestMapping 是 Spring Framework 中用于处理 HTTP 请求的注解,主要用于定义控制器方法的请求映射。它并不直接基于某个特定的通信库,而是依赖于 Spring MVC 框架的核心功能。 1. Spring MVC RequestMapping 是 Spring MVC 的一部分,Spr…...

GPIO(General Purpose Input/Output)输入/输出

GPIO最简单的功能是输出高低电平;GPIO还可以被设置为输入功能,用于读取按键等输入信号;也可以将GPIO复用成芯片上的其他外设的控制引脚。 STM32F407ZGT6有8组IO。分别为GPIOA~GPIOH,除了GPIOH只有两个IO,其余每组IO有…...

两个pdf合并成一个pdf,这些pdf合并小技巧了解下

在日常工作和学习中,我们经常会遇到需要将多个PDF文件合并成一个文件的情况。这不仅可以提高文件管理的效率,还能让信息展示更加集中和便捷。今天就来给大家分享几种非常简单便捷的PDF合并小技巧,一起来学习下吧。 方法一:WPS WP…...

Transformer学习(2):自注意力机制

回顾 注意力机制 自注意力机制 自注意力机制中同样包含QKV,但它们是同源(Q≈K≈V),也就是来自相同的输入数据X,X可以分为 ( x 1 , x 2 , . . , x n ) (x_1,x_2,..,x_n) (x1​,x2​,..,xn​)。 而通过输入嵌入层(input embedding)&#xff0c…...

分类预测|基于粒子群优化径向基神经网络的数据分类预测Matlab程序PSO-RBF 多特征输入多类别输出 含基础RBF程序

分类预测|基于粒子群优化径向基神经网络的数据分类预测Matlab程序PSO-RBF 多特征输入多类别输出 含基础RBF程序 文章目录 一、基本原理1. 粒子群优化算法(PSO)2. 径向基神经网络(RBF)PSO-RBF模型流程总结 二、实验结果三、核心代码…...

【React】Vite 构建 React

项目搭建 vite 官网:Vite 跟着文档走即可,选择 react ,然后 ts swc。 着重说一下 package-lock.json 这个文件有两个作用: 锁版本号(保证项目在不同人手里安装的依赖都是相同的,解决版本冲突的问题&am…...

算法刷题:300. 最长递增子序列、674. 最长连续递增序列、718. 最长重复子数组

300. 最长递增子序列 1.dp定义:dp[i]表示i之前包括i的以nums[i]结尾的最长递增子序列的长度 2.递推公式:if (nums[i] > nums[j]) dp[i] max(dp[i], dp[j] 1); 注意这里不是要dp[i] 与 dp[j] 1进行比较,而是我们要取dp[j] 1的最大值…...

【linux】一种基于虚拟串口的方式使两个应用通讯

在Linux系统中,两个应用之间通过串口(Serial Port)进行通信是一种常见的通信方式,特别是在嵌入式系统、工业自动化等领域。串口通信通常涉及到对串口设备的配置和读写操作。以下是一个基本的步骤指南,说明如何在Linux中…...

并行程序设计基础——并行I/O(3)

目录 一、多视口的并行文件并行读写 1、文件视口与指针 1.1 MPI_FILE_SET_VIEW 1.2 MPI_FILE_GET_VIEW 1.3 MPI_FILE_SEEK 1.4 MPI_FILE_GET_POSTION 1.5 MPI_FILE_GET_BYTE_OFFSET 2、阻塞方式的视口读写 2.1 MPI_FILE_READ 2.2 MPI_FILE_WRITE 2.3 MPI_FILE_READ_…...

性能测试-jmeter脚本录制(十五)

一、jmeter脚本录制(不推荐)简介: 二、jmeter脚本录制步骤 1、添加代理服务器和线程组 2、配置http代理服务器的端口和目标线程组 3修改本机浏览器代理 4、点击启动 5、每次操作页面前,修改提示文字...

关系型数据库 - MySQL I

MySQL 数据库 MySQL 是一种关系型数据库。开源免费,并且方便扩展。在 Java 开发中常用于保存和管理数据。默认端口号 3306。 MySQL 数据库主要分为 Server 和存储引擎两部分,现在最常用的存储引擎是 InnoDB。 指令执行过程 MySQL 数据库接收到用户指令…...

解锁AI写作新境界:5款工具让你的论文创作事半功倍

在这个数字化飞速发展的时代,人工智能(AI)已经不再是科幻小说中的幻想,而是实实在在地融入了我们的日常生活。特别是在学术领域,AI技术的介入正在改变传统的论文写作方式。你是否还在为撰写论文而熬夜苦战?…...

一文读懂多组学联合分析产品在医学领域的应用

疾病的发生和发展通常涉及多个层面的生物学过程,包括基因表达、蛋白质功能、代谢物变化等。传统的单一组学研究只能提供某一层面的信息,而多组学关联分析能够综合多个层面的数据,提供更全面、更深入的疾病理解。例如,通过分析患者…...

js react 笔记 2

起因, 目的: 记录一些 js, react, css 1. 生成一个随机的 uuid // 需要先安装 crypto 模块 const { randomUUID } require(crypto);const uuid randomUUID(); console.log(uuid); // 输出类似 9b1deb4d-3b7d-4bad-9bdd-2b0d7b3dcb6d 2. 使用 props, 传递参数…...

快速使用react 全局状态管理工具--redux

redux Redux 是 JavaScript 应用中管理应用状态的工具,特别适用于复杂的、需要共享状态的中大型应用。Redux 的核心思想是将应用的所有状态存储在一个单一的、不可变的状态树(state tree)中,状态只能通过触发特定的 action 来更新…...

活动系统开发之采用设计模式与非设计模式的区别-非设计模式

1、父类Base.php <?php /*** 初始化控制器* User: Administrator* Date: 2022/9/26* Time: 18:00*/ declare (strict_types 1); namespace app\controller; use app\model\common\Token; use app\BaseController; use app\BaseError; use OpenSSL\Encrypt; use app\model…...

JVM面试(六)垃圾收集器

目录 概述STW收集器的并发和并行 Serial收集器ParNew收集器Parallel Scavenge收集器Serial Old收集器Parallel Old收集器CMS收集器Garbage First&#xff08;G1&#xff09;收集器 概述 上一章我们分析了垃圾收集算法&#xff0c;那这一章我们来认识一下这些垃圾收集器是如何运…...

固态硬盘装系统有必要分区吗?

前言 现在的新电脑有哪一台是不使用固态硬盘的呢&#xff1f;这个好像很少很少了…… 有个朋友买了一台新的笔记本电脑&#xff0c;开机之后&#xff0c;电脑只有一个分区&#xff08;系统C盘500GB&#xff09;。这时候她想要给笔记本分区…… 这个真的有必要分区吗&#xf…...

网络安全架构师

网络安全架构师负责构建全面的安全框架&#xff0c;以保护组织的数字资产免受侵害&#xff0c;确保组织在数字化转型的同时维持强大的安全防护。 摩根大通的网络安全运营副总裁兼安全架构总监Lester Nichols强调&#xff0c;成为网络安全架构师对现代企业至关重要&#xff0c;…...