Elasticsearch:如何轻松安全地对实时 Elasticsearch 索引重新索引你的数据

在很多的时候,由于一些需求,我们不得不修改索引的映射,也即 mapping,这个时候我们需要重新索引(reindex)来把之前的数据索引到新的索引中。槽糕的是,我们的这个索引还在不断地收集实时数据,那么我们该如何处理这种情况呢?
比如,我们有这样的一个案例。假设你有一个名为 production_logs 的索引处于活动状态,这意味着它不断接收新数据。现在假设你想要以需要重新索(reindex)引该索引的所有数据的方式更新其映射:通常,当你想要更改现有字段的数据类型(例如从keyword 到 integer)时,会发生这种情况。
好的,现在你拥有的选项将取决于你首先如何设置索引。
你需要一个 index template
如果你没有自己创建索引,Elasticsearch 能够创建索引,这意味着如果你尝试索引 foo 索引中的某些数据,Elasticsearch 将创建它(如果它尚不存在)。
通过这样做,它使用称为动态映射的功能为这个新索引创建默认映射。
这就是你需要索引模板的原因! 此功能允许你定义 Elasticsearch 自动创建的索引将获得的所有属性,包括其设置和映射。
因此,如果你的 production_logs 索引没有索引模板,仍然是时候创建它了。 我们称它为 production_logs_template 并将此模板的模式设置为 production_logs* ,这意味着每次 Elasticearch 将自动创建名称与模式 production_logs* 匹配的索引时,它将应用该模板(请参阅完整文档)。
以下是索引模板创建请求的示例:
PUT _index_template/production_logs_template
{"index_patterns": [ "production_logs*"],"template": {"settings": {...},"mappings": {...}}
}
案例 1:你已经有一个 index alias
将真实索引隐藏在索引别名后面始终是一个好习惯。
它引入的抽象级别可帮助你在后台执行修改,而不会影响索引的用户(无论是人还是软件)。
因此,假设你获得了当前链接到要修改的 production_logs 索引的日志别名,并且你想要根据 production_logs_template 更新索引的映射。
这里的方法很简单:
- 更新索引模板以定义新映射
- 创建一个新索引,其名称与 production_logs* 匹配(例如 production_logs_1 )
- 切换日志别名以指向这个新索引
POST _aliases
{"actions": [{"add": {"index": "production_logs_1","alias": "logs"}},{"remove": {"index": "production_logs","alias": "logs"}}]
}
在上面我们的 add 及 remove 是一个原子操作,也即同时起作用。中间不会有其它的操作,这样保证在删除的同时,向我们的索引别名 logs 写入的数据能够正确地写入到新的索引中。
- 将数据从 production_logs 重新索引到 production_logs_1
POST _reindex?wait_for_completion=false
{"source": {"index": "production_logs"},"dest": {"index": "production_logs_1"}
}
此请求将返回一个 task_id,你可以使用它来监视重建索引过程的进度。
以下是你收到的响应示例:
{"task": "<task_id>"
}
你可以发出请求以利用任务管理 API:
GET _tasks/<task_id>?human
上述命令可以让我们知道任务的进度。就是这么简单! 在重建索引过程结束时,你的 production_logs_1 索引将包含所有新旧数据,并具有正确的映射。 👏
案例2:你还没有一个 index alias
嗯,这会更难,但没有什么是不可能的,对吧?
从现在开始,我们仍然可以面临(至少)两种不同的情况:你是否使用摄入管道(ingest pipeline)。
在下文中,请记住我们已经创建了一个驱动 production_logs* 索引的索引模板。
案例 2.1:你正在使用一个 ingest pipeline

假设使用 production_logs_pipeline 将数据索引到 Elasticsearch,该管道处理任何传入事件,然后再将其索引到 production_logs 索引中。
以下是你想要更新实时索引的几个步骤。
首先,修改 production_logs_pipeline,在末尾添加 set processor。
{"set": {"field": "_index","value": "{{{_index}}}_1"}
}
现在,所有通过此摄取管道的文档都将重定向到 production_logs_1 索引。
然后,你可以将所有数据从 production_logs 重新索引到名为 production_logs_orig 的新索引索引。
POST _reindex?wait_for_completion=false
{"source": {"index": "production_logs"},"dest": {"index": "production_logs_orig"}
}
这里请注意,索引 production_logs_1 和 production_logs_orig 都将根据索引模板 production_logs_template 创建!
重新索引任务完成后,你可以安全地删除 production_logs 索引(它的所有数据都已存储在 production_logs_orig 索引中)。
现在我们可以创建一个新的索引别名,它将被命名为 production_logs 并将同时针对 production_logs_orig 和 production_logs_1 索引,后者将是写入索引。
POST _aliases
{"actions": [{"add": {"index": "production_logs_orig","alias": "production_logs"}},{"add": {"index": "production_logs_1","alias": "production_logs","is_write_index": true}}]
}
最后,你需要返回到以前版本的 production_logs_pipeline,以便传入的数据从现在开始将使用新创建的 production_logs 别名。
作为最终结果,我们现在有一个索引别名指向两个具有预期映射的索引👏
💡 有可能再次从 production_logs_orig 重新索引到 production_logs_1 最后只有一个索引。
案例 2.2:索引是直接对索引进行的,没有摄取管道

在这种情况下,需要执行更多步骤,遗憾的是无法创建别名来替换原始索引,但你仍然可以将新映射应用于实时索引。
因此,首先你必须创建一个新的摄取管道,我们将其命名为 temp_pipeline:
PUT _ingest/pipeline/temp_pipeline
{"processors": [{"set": {"field": "_index","value": "{{{_index}}}_1"}}]
}
它只有一个处理器,其作用是将传入的文档重定向到一个新索引,该索引的名称是原始索引并以 _1 为后缀。
现在我们要表明任何进入 production_logs 索引的文档现在都应该使用这个新的摄取管道。 我们可以在我们的索引上利用 index.default_pipeline 设置,这将允许我们应用管道,即使原始索引请求没有提到它。
PUT production_logs/_settings
{"index": {"default_pipeline": "temp_pipeline"}
}
从现在开始,每个传入的文档都将被重定向到 production_logs_1 索引,该索引将使用 production_logs_template 索引模板自动创建。
production_logs 索引不会获得任何新文档,因此我们可以将数据从该索引重新索引到一个名为 production_logs_orig 的新文档。
POST _reindex?wait_for_completion=false
{"source": {"index": "production_logs"},"dest": {"index": "production_logs_orig"}
}
和以前一样,我们可以使用任务管理 API来监控重建索引过程。
完成后,我们删除 production_logs,下一个传入文档到达后将立即重新创建! 它将获得预期的映射(感谢索引模板)所以我们处于这种情况:
- production_logs_orig 索引包含在我们开始操作之前索引的所有数据
- production_logs_1 索引包含从迁移开始到删除之前的 production_logs 索引之间已编制索引的所有数据
- production_logs 索引已重新创建并收集所有新数据(在如下的步骤中进行操作)
要回到单索引状态,我们只需将数据从 production_logs_orig 和 production_logs_1 重新索引到 production_logs 。
POST _reindex?wait_for_completion=false
{"source": {"index": "production_logs_1, production_logs_orig"},"dest": {"index": "production_logs"}
}
作为最终结果,我们将所有以前的数据(以及所有新数据)与新映射一起存储在 production_logs 索引中 👏
结论
本文可以帮助实现一些数据操作,但请记住当前在 Elasticsearch 中处理数据时的最佳实践:
- 始终使用别名从你用来与之交互的资源中抽象出你的真实索引
- 如果处理时间序列,最好是使用数据流!
相关文章:
Elasticsearch:如何轻松安全地对实时 Elasticsearch 索引重新索引你的数据
在很多的时候,由于一些需求,我们不得不修改索引的映射,也即 mapping,这个时候我们需要重新索引(reindex)来把之前的数据索引到新的索引中。槽糕的是,我们的这个索引还在不断地收集实时数据&…...
【算法笔记】前缀和与差分
第一课前缀和与差分 算法是解决问题的方法与步骤。 在看一个算法是否优秀时,我们一般都要考虑一个算法的时间复杂度和空间复杂度。 现在随着空间越来越大,时间复杂度成为了一个算法的重要指标,那么如何估计一个算法的时间复杂度呢…...
python实战应用讲解-【实战应用篇】函数式编程-八皇后问题(附示例代码)
目录 知识储备-迭代器相关模块 itertools 模块 创建新的迭代器 根据最短输入序列长度停止的迭代器...
【Servlet篇】如何解决Request请求中文乱码的问题?
前言 前面一篇文章我们探讨了 Servlet 中的 Request 对象,Request 请求对象中封装了请求数据,使用相应的 API 就可以获取请求参数。 【Servlet篇】一文带你读懂 Request 对象 也许有小伙伴已经发现了前面的方式获取请求参数时,会出现中文乱…...
SpringBoot:SpringBoot简介与快速入门(1)
SpringBoot快速入门1. SpringBoot简介2. SpringBoot快速入门2.1 创建SpringBoot项目(必须联网,要不然创建失败,在模块3会讲到原因)2.2 编写对应的Controller类2.3 启动测试3. Spring官网构建工程4. SpringBoot工程快速启动4.1 为什…...
RabbitMQ学习(十一):RabbitMQ 集群
一、集群1.1 为什么要使用集群前面我们介绍了如何安装及运行 RabbitMQ 服务,不过这些是单机版的,无法满足目前真实应用的 要求。如果 RabbitMQ 服务器遇到内存崩溃、机器掉电或者主板故障等情况,该怎么办?单台 RabbitMQ 服务器可以…...
学渣适用版——Transformer理论和代码以及注意力机制attention的学习
参考一篇玩具级别不错的代码和案例 自注意力机制 注意力机制是为了transform打基础。 参考这个自注意力机制的讲解流程很详细, 但是学渣一般不知道 key,query,value是啥。 结合B站和GPT理解 注意力机制是一种常见的神经网络结构࿰…...
网上这么多IT的培训机构,我们该怎么选?
说实话,千万不要把这个答案放在网上来找,因为你只能得到别人觉得合适的或者机构的广告;当然个人的培训经历可以听一听的,毕竟不靠谱的机构也有,比如让你交一两万去上线上课程或者一百号来人坐一起看视频,这…...
数据结构与算法—跳表(skiplist)
目录 前言 跳表 查询时间分析 1、时间复杂度 o(logn) 2、空间复杂度O(n) 动态插入和删除 跳表动态更新 跳表与红黑树比较 跳表实现 前言 二分查找用的数组 链表可不可以实现二分查找呢? 跳表 各方面性能比较优秀的动态数据结构,可以支持快速…...
【C++】5.C/C++内存管理
1.C/C内存管理 int globalVar 1; static int staticGlobalVar 1; void Test() {static int staticVar 1;int localVar 1;int num1[10] {1, 2, 3, 4};char char2[] "abcd";char* pChar3 "abcd";int* ptr1 (int*)malloc(sizeof (int)*4);int* ptr2 …...
一文让你彻底理解关于消息队列的使用
一、消息队列概述 消息队列中间件是分布式系统中重要的组件,主要解决应用解耦,异步消息,流量削锋等问题,实现高性能,高可用,可伸缩和最终一致性架构。目前使用较多的消息队列有ActiveMQ,Rabbit…...
条件期望3
条件期望例题—连续发生的事情 连续地做二项实验, 每一次成功概率为p. 当连续k次成功时, 停止实验. 求停止实验时做的总实验次数的期望. 解: 错误解法 设NkN_kNk为停止实验时做的总实验次数, 则 E[Nk]E[E[Nk∣Nk−1]]∑jk−1∞E[Nk∣Nk−1j]\begin{split} E[N_k] & E[E…...
第四届蓝桥杯省赛 C++ B组 - 翻硬币
✍个人博客:https://blog.csdn.net/Newin2020?spm1011.2415.3001.5343 📚专栏地址:蓝桥杯题解集合 📝原题地址:翻硬币 📣专栏定位:为想参加蓝桥杯的小伙伴整理常考算法题解,祝大家都…...
linux shell 入门学习笔记14 shell脚本+数学计算
概念 把复杂的命令执行过程,通过逻辑代码,组成一个脚本文件的方式就叫做shell脚本。 shebang #! /bin/bash #! /bin/perl #! /bin/python执行脚本的方式 source my_first.sh . my_first.shbash my_first.sh ./my_first.sh变量引用 ${var} 取出变量结果 …...
ESP32设备驱动-MAX30100心率监测传感器驱动
MAX30100心率监测传感器驱动 1、MAX30100介绍 MAX30100 是一款集成脉搏血氧饱和度和心率监测传感器解决方案。 它结合了两个 LED、一个光电探测器、优化的光学器件和低噪声模拟信号处理,以检测脉搏血氧饱和度和心率信号。 MAX30100 采用 1.8V 和 3.3V 电源供电,可通过软件…...
RTD2169芯片停产|完美替代RTD2169芯片|CS5260低BOM成本替代RTD2169方案设计
RTD2169芯片停产|完美替代RTD2169芯片|CS5260低BOM成本替代RTD2169方案设计 瑞昱的RTD2169芯片目前已经停产了, 那么之前用RTD2169来设计TYPEC转VGA方案的产品,该如何生产这类产品?且RTD2169芯片价格较贵,芯片封装尺寸是QFN40&…...
urho3d数据库
只有在启用以下两个构建选项之一时,数据库子系统才会构建到Urho3D库中:Urho3D_Database_ODBC和Urho3D-Database_SQLITE。当两个选项都启用时,URHO3D_DATABASE_ODBC优先。这些构建选项决定子系统将使用哪个数据库API。ODBC DB API更适用于本地…...
141. 周期
Powered by:NEFU AB-IN Link 文章目录141. 周期题意思路代码141. 周期 题意 一个字符串的前缀是从第一个字符开始的连续若干个字符,例如 abaab 共有 5个前缀,分别是 a,ab,aba,abaa,abaab。 我们希望知道一…...
Windows下命令执行绕过技巧总结(渗透测试专用)
一、连接符1、双引号不要求双引号闭合举例:"who"a"mi" //闭合的 "who"a"mi //不闭合的2、圆括号必须在两边,不能包括中间的字符。举例:((whoami))3、^符号(转译符号)不可以在结尾&…...
mindspore的MLP模型(多层感知机)
导入模块 import hashlib import os import tarfile import zipfile import requests import numpy as np import pandas as pd import mindspore import mindspore.dataset as ds from mindspore import nn import mindspore.ops as ops import mindspore.numpy as mnp from …...
智慧工地云平台源码,基于微服务架构+Java+Spring Cloud +UniApp +MySql
智慧工地管理云平台系统,智慧工地全套源码,java版智慧工地源码,支持PC端、大屏端、移动端。 智慧工地聚焦建筑行业的市场需求,提供“平台网络终端”的整体解决方案,提供劳务管理、视频管理、智能监测、绿色施工、安全管…...
AtCoder 第409场初级竞赛 A~E题解
A Conflict 【题目链接】 原题链接:A - Conflict 【考点】 枚举 【题目大意】 找到是否有两人都想要的物品。 【解析】 遍历两端字符串,只有在同时为 o 时输出 Yes 并结束程序,否则输出 No。 【难度】 GESP三级 【代码参考】 #i…...
ETLCloud可能遇到的问题有哪些?常见坑位解析
数据集成平台ETLCloud,主要用于支持数据的抽取(Extract)、转换(Transform)和加载(Load)过程。提供了一个简洁直观的界面,以便用户可以在不同的数据源之间轻松地进行数据迁移和转换。…...
成都鼎讯硬核科技!雷达目标与干扰模拟器,以卓越性能制胜电磁频谱战
在现代战争中,电磁频谱已成为继陆、海、空、天之后的 “第五维战场”,雷达作为电磁频谱领域的关键装备,其干扰与抗干扰能力的较量,直接影响着战争的胜负走向。由成都鼎讯科技匠心打造的雷达目标与干扰模拟器,凭借数字射…...
【开发技术】.Net使用FFmpeg视频特定帧上绘制内容
目录 一、目的 二、解决方案 2.1 什么是FFmpeg 2.2 FFmpeg主要功能 2.3 使用Xabe.FFmpeg调用FFmpeg功能 2.4 使用 FFmpeg 的 drawbox 滤镜来绘制 ROI 三、总结 一、目的 当前市场上有很多目标检测智能识别的相关算法,当前调用一个医疗行业的AI识别算法后返回…...
安全突围:重塑内生安全体系:齐向东在2025年BCS大会的演讲
文章目录 前言第一部分:体系力量是突围之钥第一重困境是体系思想落地不畅。第二重困境是大小体系融合瓶颈。第三重困境是“小体系”运营梗阻。 第二部分:体系矛盾是突围之障一是数据孤岛的障碍。二是投入不足的障碍。三是新旧兼容难的障碍。 第三部分&am…...
[免费]微信小程序问卷调查系统(SpringBoot后端+Vue管理端)【论文+源码+SQL脚本】
大家好,我是java1234_小锋老师,看到一个不错的微信小程序问卷调查系统(SpringBoot后端Vue管理端)【论文源码SQL脚本】,分享下哈。 项目视频演示 【免费】微信小程序问卷调查系统(SpringBoot后端Vue管理端) Java毕业设计_哔哩哔哩_bilibili 项…...
Windows安装Miniconda
一、下载 https://www.anaconda.com/download/success 二、安装 三、配置镜像源 Anaconda/Miniconda pip 配置清华镜像源_anaconda配置清华源-CSDN博客 四、常用操作命令 Anaconda/Miniconda 基本操作命令_miniconda创建环境命令-CSDN博客...
解读《网络安全法》最新修订,把握网络安全新趋势
《网络安全法》自2017年施行以来,在维护网络空间安全方面发挥了重要作用。但随着网络环境的日益复杂,网络攻击、数据泄露等事件频发,现行法律已难以完全适应新的风险挑战。 2025年3月28日,国家网信办会同相关部门起草了《网络安全…...
关于uniapp展示PDF的解决方案
在 UniApp 的 H5 环境中使用 pdf-vue3 组件可以实现完整的 PDF 预览功能。以下是详细实现步骤和注意事项: 一、安装依赖 安装 pdf-vue3 和 PDF.js 核心库: npm install pdf-vue3 pdfjs-dist二、基本使用示例 <template><view class"con…...
