elasticsearch 使用enrich processor填充数据
文章目录
- 使用 POST 请求手动插入用户数据
- 1. 创建 Enrich Policy
- 步骤 1.1: 创建 Enrich Policy
- 步骤 1.2: 执行 Enrich Policy
- 2. 创建 Ingest Pipeline
- 步骤 2.1: 创建 Ingest Pipeline
- 步骤 2.2: 配置 Enrich Processor 参数
- 3. 使用 Ingest Pipeline
- 步骤 3.1: 使用 Pipeline 进行文档索引
- 步骤 3.2: 查询和查看结果
- 4. 更新 Enrich Policy(如果需要)
- 步骤 4.1: 更新 Enrich Policy
- 步骤 4.2: 重新执行 Enrich Policy
- 5. 清理 Enrich Policy(如果不再使用)
- 总结
在 Elasticsearch 中使用 enrich 处理器的流程包括几个主要步骤。首先,您需要定义一个 enrich policy,然后将该策略应用到 Ingest Pipeline 中,最后在数据索引过程中使用该管道来实现数据的丰富操作。下面是一个详细的流程步骤。
使用 POST 请求手动插入用户数据
POST /users/_doc/1
{"user_id": "1234","user_name": "John Doe","email": "johndoe@example.com","age": 30,"address": "123 Elm Street"
}
1. 创建 Enrich Policy
enrich policy 定义了如何从某个源索引中提取数据,并根据特定字段将其与目标文档进行匹配。这是使用 enrich 处理器的基础。
步骤 1.1: 创建 Enrich Policy
假设我们有一个 users 索引,存储了用户的详细信息(如 user_id、user_name、email 等),并且我们想将这些信息基于 user_id 字段丰富到其他索引中的文档。
PUT _enrich/policy/user_enrich_policy
{"match": {"indices": ["users"], // 数据来源索引"match_field": "user_id", // 用于匹配的字段"enrich_fields": ["user_name", "email", "age"] // 要从源索引中获取的字段}
}
在这里:
indices: 源数据所在的索引(这里是users索引)。match_field: 用于匹配的字段(这里是user_id字段)。enrich_fields: 要从源索引中获取并丰富目标文档的字段(比如user_name、email、age等)。
步骤 1.2: 执行 Enrich Policy
创建了 enrich policy 后,你需要执行它,这样 Elasticsearch 就会根据 match 查询从源索引中提取数据。
POST _enrich/policy/user_enrich_policy/_execute
执行此请求后,Elasticsearch 将根据政策从 users 索引中提取数据并创建一个内存中的匹配索引。
注意:Enrich Policy 是一个异步操作,创建并执行之后,它会定期更新和同步相关的数据。
2. 创建 Ingest Pipeline
enrich 处理器是通过 Ingest Pipeline 来使用的。在这个管道中,你可以配置 enrich 处理器,它会在文档被索引时将 enrich 数据合并到目标文档中。
步骤 2.1: 创建 Ingest Pipeline
你可以创建一个使用 enrich 处理器的 Ingest Pipeline。该管道会基于文档中的 user_id 字段从 user_enrich_policy 中查找并合并信息。
PUT _ingest/pipeline/user_enrich_pipeline
{"description": "Enrich user data from users index","processors": [{"enrich": {"policy_name": "user_enrich_policy", // 使用的 enrich policy 名称"field": "user_id", // 用于匹配的字段名"target_field": "user_info" // 合并到目标文档的字段名}}]
}
在这里:
policy_name: 指定我们创建的user_enrich_policy。field: 目标文档中用来匹配的字段(在这里是user_id)。target_field: 合并后的数据将被存储在目标文档中的字段(比如user_info)。
步骤 2.2: 配置 Enrich Processor 参数
在 enrich 处理器中,你还可以使用以下几个可选参数:
ignore_missing: 是否忽略缺失的匹配项。默认为false,即当没有找到匹配时,会抛出错误。如果设置为true,则会忽略没有匹配的情况,目标字段将保持为空。max_matches: 如果有多个匹配项,限制合并数据的数量。默认为 1。
3. 使用 Ingest Pipeline
当 enrich 处理器和管道准备好后,你可以在索引文档时使用它。
步骤 3.1: 使用 Pipeline 进行文档索引
当你将文档索引到 Elasticsearch 时,可以指定要使用的 ingest pipeline,在该管道中,enrich 处理器会根据 user_id 字段从 users 索引获取并合并相关数据。
POST /my_index/_doc/1?pipeline=user_enrich_pipeline
{"user_id": "1234" // 当前文档中包含 user_id,enrich 处理器会根据此字段进行匹配
}
步骤 3.2: 查询和查看结果
一旦文档被成功索引,你可以查询目标文档并查看 user_info 字段,里面会包含 users 索引中对应 user_id 的信息。
GET /my_index/_doc/1
假设 user_id 为 1234,那么返回的文档可能如下:
{"_id": "1","_source": {"user_id": "1234","user_info": {"user_name": "John Doe","email": "johndoe@example.com","age": 30}}
}
在这里,user_info 字段包含了来自 users 索引的用户数据(如 user_name、email 和 age)。
4. 更新 Enrich Policy(如果需要)
如果你需要更新 enrich policy,可以进行相应的调整,比如添加或删除字段,修改匹配规则等。然后,重新执行 enrich policy。
步骤 4.1: 更新 Enrich Policy
PUT _enrich/policy/user_enrich_policy
{"match": {"indices": ["users"],"match_field": "user_id","enrich_fields": ["user_name", "email", "age", "address"] // 新增加了 address 字段}
}
步骤 4.2: 重新执行 Enrich Policy
POST _enrich/policy/user_enrich_policy/_execute
更新后,新的
user_info字段将包括新的数据(例如address)。
5. 清理 Enrich Policy(如果不再使用)
当不再需要某个 enrich policy 时,可以删除它:
DELETE _enrich/policy/user_enrich_policy
这会删除 enrich policy 和关联的匹配数据。
总结
使用 enrich 处理器的完整流程包括以下几个步骤:
- 创建 Enrich Policy:定义从源索引中提取数据的规则。
- 执行 Enrich Policy:执行政策并创建匹配数据。
- 创建 Ingest Pipeline:在管道中使用
enrich处理器,将匹配的数据合并到目标文档中。 - 使用 Pipeline 索引数据:使用指定的管道进行文档索引。
- 查询数据:查询文档,查看合并后的数据。
- 更新和清理:根据需求更新或删除 enrich policy。
通过 enrich 处理器,您可以在索引文档时将来自其他索引的相关数据动态合并,从而减少实时查询的复杂度和延迟。
相关文章:
elasticsearch 使用enrich processor填充数据
文章目录 使用 POST 请求手动插入用户数据1. 创建 Enrich Policy步骤 1.1: 创建 Enrich Policy步骤 1.2: 执行 Enrich Policy 2. 创建 Ingest Pipeline步骤 2.1: 创建 Ingest Pipeline步骤 2.2: 配置 Enrich Processor 参数 3. 使用 Ingest Pipeline步骤 3.1: 使用 Pipeline 进…...
VMProtect:软件保护与安全的全面解决方案
在当今数字化时代,软件的安全性和保密性愈发重要。VMProtect 作为一款备受瞩目的软件保护工具,因其强大的功能和广泛的应用而成为开发者保护软件的首选方案。 VMProtect 是一款新一代的软件保护实用程序,支持多个编译器平台,包括…...
Web 毕设篇-适合小白、初级入门练手的 Spring Boot Web 毕业设计项目:教室信息管理系统(前后端源码 + 数据库 sql 脚本)
🔥博客主页: 【小扳_-CSDN博客】 ❤感谢大家点赞👍收藏⭐评论✍ 1.0 项目介绍 开发工具:IDEA、VScode 服务器:Tomcat, JDK 17 项目构建:maven 数据库:mysql 8.0 系统用户前台和管理…...
第十二篇:linux下socket本地套接字通讯
使用套接字除了可以实现网络间不同主机间的通信外,还可以实现同一主机的不同进程间的通信,且建立的通信是双向的通信。socket进程通信与网络通信使用的是统一套接口,只是地址结构与某些参数不同。 用途 进程间通信:本地套…...
Spring Boot 2.1.7 数据源自动加载过程详解
在 Spring Boot 中,数据源的自动配置是框架中一个关键功能,本文将以 Spring Boot 2.1.7 版本为例,详细讲解在单数据源情况下数据源是如何自动加载的。我们通过源码分析,追踪整个加载流程。 1. 自动配置类的发现 Spring Boot 使用…...
【Vue.js 3.0】provide 、inject 函数详解
在 Vue 3 中,provide 和 inject 是用于跨组件层次结构进行依赖注入的一对 API。这些 API 主要用于祖先组件和后代组件之间的数据传递,尤其是当这些组件之间没有直接的父子关系时。 1. 示例 1.1 provide provide 函数用于在祖先组件中定义一个值&#…...
JVM(Java虚拟机)的虚拟机栈
JVM(Java虚拟机)的虚拟机栈是Java程序运行时的重要组件,以下是对其的详细解析: 一、概念与功能 概念:虚拟机栈也称为Java栈,是JVM为每个线程分配的一个私有的内存区域。每个线程在创建时都会创建一个虚拟…...
Elasticsearch02-安装7.x
零、文章目录 Elasticsearch02-安装7.x 1、Windows安装Elasticsearch (1)JDK安装 Elasticsearch是基于java开发的,所以需要安装JDK。我们安装的Elasticsearch版本是7.15,对应JDK至少1.8版本以上。也可以不安装jdk,…...
iPhone恢复技巧:如何从 iPhone 恢复丢失的照片
在计算机时代,我们依靠手机来捕捉和存储珍贵的回忆。但是,如果您不小心删除或丢失了手机上的照片怎么办?这真的很令人沮丧和烦恼,不是吗?好吧,如果您在 iPhone 上丢失了照片,您不必担心…...
vba批量化调整word的图和图表标题
vba代码 将图片进行居中操作 Sub ChangePictureFormate()Dim oPara As ParagraphDim oRange As RangeDim i As LongDim beforeIsPicture As BooleanbeforesIsPicture False 确保文档中至少有图片If ActiveDocument.InlineShapes.Count 0 ThenMsgBox "没有找到图片。&qu…...
【Flutter_Web】Flutter编译Web第二篇(webview篇):flutter_inappwebview如何改造方法,变成web之后数据如何交互
前言 欢迎来到第二篇文章,这也是第二个难题,就是原有的移动端本身一些页面H5的形式去呈现(webview),例如某些需要动态更换内容的页面,某些活动页面、支付页面,不仅仅做页面呈现,还包…...
【C语言的奥秘11】指针知识点总结(续)
目录 一、指针的运算 1、指针与整数相加减 2、指针-指针(地址-地址) 3、指针的关系运算 六、指针和数组 七、二级指针 八、指针数组 一、指针的运算 1、指针与整数相加减 看一下下面的代码: #include<stdio.h> int my_strlen(c…...
excel 列名是数据表 的字段名 ,单元格的值 是数据表对应字段的值,生成sql插入语句
在 Excel 中,按 Alt F11 打开 VBA 编辑器。在菜单栏选择 插入 -> 模块,在新模块中粘贴以下代码。 VBA 代码 Sub GenerateSQLInsertStatementsToFile()Dim ws As WorksheetDim lastRow As Long, lastCol As Long, i As Long, j As LongDim sql As S…...
AI Agent与MEME:技术与文化融合驱动Web3创新
AI Agent如何引领Web3新时代? 随着Web3与区块链技术的迅速发展,AI Agent作为人工智能与区块链的交汇点,正在逐步成为推动去中心化生态的重要力量。同时,MEME文化凭借其强大的社区驱动力和文化渗透力,在链上生态中扮演着…...
IO的入门
目录 1.IO概述1.1流的分类 2.字符流2.1 案例 1.IO概述 IO(Input/Output):输入和输出,指的是某个设备或环境进行数据的输入或者输出。例如:键盘的输入,再比如显示器就是输出设备,输出图像。 对于java来说输…...
构建一个rust生产应用读书笔记四(实战1)
我们需要从访客那里收集哪些信息,以便将其登记为电子邮件通讯的订阅者? 电子邮件地址:这是最基本的要求,因为我们需要通过电子邮件地址向订阅者发送内容。姓名:虽然这不是强制性的,但我们希望收集一个名字…...
SpringCloudAlibaba | Sentinel从基础到进阶
一、Sentinel简介 Sentinel是SpringCloudAlibaba的一个组件,主要用于解决微服务架构中的高可用性和稳定性问题(雪崩问题)。 常见的使用场景有: 流量控制舱壁模式(线程隔离)超时处理熔断降级 二、流量控…...
算法刷题Day18: BM41 输出二叉树的右视图
题目链接 描述 思路: 递归构造二叉树在Day15有讲到。复习一下,就是使用递归构建左右子树。将中序和前序一分为二。 接下来是找出每一层的最右边的节点,可以利用队列层次遍历。 利用队列长度记录当前层有多少个节点,每次从队列里…...
【信息系统项目管理师-论文真题】2015下半年论文详解(包括解题思路和写作要点)
更多内容请见: 备考信息系统项目管理师-专栏介绍和目录 文章目录 论题一:大项目或多项目的成本管理解题思路写作要点论题二:项目的采购管理解题思路写作要点论题一:大项目或多项目的成本管理 随着移动互联网、物联网、云计算、大数据等新一代信息技术的广泛应用,我国目前…...
Windows如何安装go环境,离线安装beego
一、安装go 1、下载go All releases - The Go Programming Language 通过网盘分享的文件:分享的文件 链接: https://pan.baidu.com/s/1MCbo3k3otSoVdmIR4mpPiQ 提取码: hxgf 下载amd64.zip文件,然后解压到指定的路径 2、配置环境变量 需要新建两个环境…...
浏览器访问 AWS ECS 上部署的 Docker 容器(监听 80 端口)
✅ 一、ECS 服务配置 Dockerfile 确保监听 80 端口 EXPOSE 80 CMD ["nginx", "-g", "daemon off;"]或 EXPOSE 80 CMD ["python3", "-m", "http.server", "80"]任务定义(Task Definition&…...
C++_核心编程_多态案例二-制作饮品
#include <iostream> #include <string> using namespace std;/*制作饮品的大致流程为:煮水 - 冲泡 - 倒入杯中 - 加入辅料 利用多态技术实现本案例,提供抽象制作饮品基类,提供子类制作咖啡和茶叶*//*基类*/ class AbstractDr…...
树莓派超全系列教程文档--(61)树莓派摄像头高级使用方法
树莓派摄像头高级使用方法 配置通过调谐文件来调整相机行为 使用多个摄像头安装 libcam 和 rpicam-apps依赖关系开发包 文章来源: http://raspberry.dns8844.cn/documentation 原文网址 配置 大多数用例自动工作,无需更改相机配置。但是,一…...
Vue3 + Element Plus + TypeScript中el-transfer穿梭框组件使用详解及示例
使用详解 Element Plus 的 el-transfer 组件是一个强大的穿梭框组件,常用于在两个集合之间进行数据转移,如权限分配、数据选择等场景。下面我将详细介绍其用法并提供一个完整示例。 核心特性与用法 基本属性 v-model:绑定右侧列表的值&…...
centos 7 部署awstats 网站访问检测
一、基础环境准备(两种安装方式都要做) bash # 安装必要依赖 yum install -y httpd perl mod_perl perl-Time-HiRes perl-DateTime systemctl enable httpd # 设置 Apache 开机自启 systemctl start httpd # 启动 Apache二、安装 AWStats࿰…...
全面解析各类VPN技术:GRE、IPsec、L2TP、SSL与MPLS VPN对比
目录 引言 VPN技术概述 GRE VPN 3.1 GRE封装结构 3.2 GRE的应用场景 GRE over IPsec 4.1 GRE over IPsec封装结构 4.2 为什么使用GRE over IPsec? IPsec VPN 5.1 IPsec传输模式(Transport Mode) 5.2 IPsec隧道模式(Tunne…...
是否存在路径(FIFOBB算法)
题目描述 一个具有 n 个顶点e条边的无向图,该图顶点的编号依次为0到n-1且不存在顶点与自身相连的边。请使用FIFOBB算法编写程序,确定是否存在从顶点 source到顶点 destination的路径。 输入 第一行两个整数,分别表示n 和 e 的值(1…...
企业如何增强终端安全?
在数字化转型加速的今天,企业的业务运行越来越依赖于终端设备。从员工的笔记本电脑、智能手机,到工厂里的物联网设备、智能传感器,这些终端构成了企业与外部世界连接的 “神经末梢”。然而,随着远程办公的常态化和设备接入的爆炸式…...
R 语言科研绘图第 55 期 --- 网络图-聚类
在发表科研论文的过程中,科研绘图是必不可少的,一张好看的图形会是文章很大的加分项。 为了便于使用,本系列文章介绍的所有绘图都已收录到了 sciRplot 项目中,获取方式: R 语言科研绘图模板 --- sciRplothttps://mp.…...
系统掌握PyTorch:图解张量、Autograd、DataLoader、nn.Module与实战模型
本文较长,建议点赞收藏,以免遗失。更多AI大模型应用开发学习视频及资料,尽在聚客AI学院。 本文通过代码驱动的方式,系统讲解PyTorch核心概念和实战技巧,涵盖张量操作、自动微分、数据加载、模型构建和训练全流程&#…...
