Elasticsearch 中管道介绍
Elasticsearch 中管道
文章目录
- Elasticsearch 中管道
- 1、管道( Ingest Pipeline)
- 1.**管道描述**
- 2.**处理器(Processors)**
- (1)**`attachment`处理器**
- (2)**`remove`处理器**
- 3.**整体流程**
- 4.**应用场景**
- 示例:如何使用该管道
- 总结
- 2、如何设置`attachment`处理器取出`指定`字段
- 如何设置`attachment`处理器不取出`title`字段
- 示例:不导出`title`
- 解释:
- 其他可能提取的字段:
- 总结:
- 3、`properties`参数类型
- 1. **content**(文件内容)
- 2.**标题**
- 3. **author**(作者)
- 4. **content_type**(文件类型)
- 5. **language**(语言)
- 6.**关键词**(关键词)
- 7.**日期**(创建或修改日期)
- 8. **content_length**(内容长度)
- 9. **page_count**(页数)
- 10.**名称**(文件名)
- 11. **other_fields**(其他元数据字段)
- 总结
- 4、自定义`properties`参数类型
- **1.使用映射(Mapping)定义字段类型**
- **1.后处理(Post-Processing)**
- 5、修改 Ingest Pipeline 的步骤
- 示例:修改一个摄取管道
- 示例 1:修改描述和添加处理器
- 示例2:仅更新某个处理器
- 处理器类型
- 验证修改
- 删除 Ingest Pipeline
- 总结
- 6、 Java 客户端对管道的增、删、改、查操作
- 1.添加依赖
- 2.创建Elasticsearch客户端
- 3.增、删、改、查操作示例
- 3.1 增加管道
- 3.2 修改管道
- 3.3 删除项目
- 3.4 查询项目
- 4. 完整示例程序
- 总结
- 注意事项
1、管道( Ingest Pipeline)
请求请求PUT /_ingest/pipeline/attachment
是在Elasticsearch中创建一个Ingest Pipeline,用于处理文档中的附件(如PDF、Word、TXT等),提取出其中的文本内容和元数据,并删除原始的附件数据。具体解释如下:
1.管道描述
"description": "提取附件信息"
表明该Pipeline的目的是从上传的文件数据中提取内容和元数据。
2.处理器(Processors)
这个Pipeline包含两个处理器,分别是attachment
CPU和remove
CPU。
(1)attachment
处理器
{"attachment": {"field": "content","ignore_missing": true}
}
- 处理器:
attachment
基于Elasticsearch的Ingest Attachment Processor插件,它的作用是从指定字段中提取文件内容作用和元数据。这里指定的字段是content
,该字段通常是包含附件文件的Base64编码数据,比如PDF、Word或者TXT文件的内容。 - 内容提取:该处理器会解析
content
字段中存储的附件,并提取:- 文本内容(
attachment.content
) - 文件类型(
attachment.content_type
) - 语言(
attachment.language
) - 作者(
attachment.author
,如果文件中有的话) - 文件大小(
attachment.content_length
)等元数据
- 文本内容(
ignore_missing: true
:如果content
字段不存在或者为空,处理器不会报错,但是会忽略这个字段并继续执行。这很实用,因为文档某些可能没有附件,你不希望整个处理过程缺少因为字段而失败。
(2)remove
处理器
{"remove": {"field": "content"}
}
- 作用:该处理器会在
attachment
处理器提取完数据后,删除原始的content
字段,对Base64编码的文件数据。这样可以减少存储空间的占用,因为在提取完文本内容和元数据之后,通常不再需要保存原始的Base64数据。
3.整体流程
这个Pipeline的执行流程是:
- 提取文件内容和元数据:首先,
attachment
处理器从content
字段中提取附件的内容和相关元数据,存储在新的attachment
字段中。 - 删除原始的Base64数据文件:接着,
remove
处理器会删除原始的content
字段,确保只保留提取出的文本和元数据,减少存储空间。
4.应用场景
可能的Pipeline主要用于处理包含文件附件的文档,比如你有一个PDF文件或Word文档,想要提取其中的文本并进行全面的搜索或分析。典型的使用场景包括:
- 全文搜索:您可以对提取出的文件内容进行全文搜索,而不需要保留原始的文件数据。
- 文件元数据存储:您可以存储并查询文件的元数据(如作者、文件类型、文件大小等),用于过滤或分析。
示例:如何使用该管道
-
创建管道(如本例中已经完成)
PUT /_ingest/pipeline/attachment {"description": "提取附件信息","processors": [{"attachment": {"field": "content","ignore_missing": true}},{"remove": {"field": "content"}}] }
-
上传文件并进行处理 上传一个文件的Base64编码内容并通过该Pipeline进行处理:
POST /my_index/_doc?pipeline=attachment {"content": "BASE64_ENCODED_FILE_CONTENT" }
-
存储的文档内容:执行成功后,Elasticsearch会存储提取出的
attachment
字段(文件内容和元数据),而不会保存原始的content
字段。文档的索引可能看起来像这样:
{"_index": "my_index","_id": "1","_source": {"attachment": {"content": "This is the extracted text from the file...","content_type": "application/pdf","language": "en","author": "Author Name","content_length": 12345}} }
总结
这个Pipeline的作用是从文档中的附件(如PDF、Word、TXT文件等)提取内容和元数据,进而删除原始的Base64编码数据,以优化存储并为全文搜索等操作做好准备。
2、如何设置attachment
处理器取出指定
字段
在Elasticsearch的attachment
处理器中,如果您不想提取文档属性中的标题(title
),可以通过properties
参数来控制要提取哪些字段。**properties
**参数允许您指定只提取某些元数据字段,避免提取不需要的字段(如title
) 。
如何设置attachment
处理器不取出title
字段
您可以在attachment
处理器的配置中使用properties
参数,明确指定需要提取的字段,并排除不需要的title
字段。
示例:不导出title
PUT /_ingest/pipeline/attachment
{"description": "提取附件信息,不包括标题","processors": [{"attachment": {"field": "content","properties": ["content", "content_type", "language", "author", "content_length"],"ignore_missing": true}},{"remove": {"field": "content"}}]
}
解释:
-
properties
:该参数定义了要提取的具体字段。在示例中,properties
被设置为:
content
: 文件实际文本内容content_type
: 文件的 MIME 类型(如application/pdf
)language
: 文件语言author
: 文件的作者content_length
: 文件内容长度(字节数)
通过明确指定这些字段,attachment
处理器只会提取你需要的字段,不会提取title
字段。
其他可能提取的字段:
如果您想进一步控制其他可能的元数据字段,以下是attachment
处理器支持的常见字段列表:
content
: 文件实际文本内容content_type
: 文件类型(如application/pdf
、application/msword
等)language
: 文件的语言(如en
、fr
)。author
: 文档的作者(如果存在)。title
: 文档的标题(如果存在)。date
: 文章创建日期keywords
: 文档中可能存在的关键词。content_length
: 文件内容的字节数
总结:
通过在attachment
处理器中使用properties
参数,您可以精确控制哪些字段会被提取。如果您不需要提取文件的title
,只需要在properties
中修复即可,就像上面的例子那样明确指定所需的其他字段。
3、properties
参数类型
在Elasticsearch的Ingest Attachment Processor中,当你不指定properties
参数时,它默认会提取文件的所有可用元数据属性,如title
(标题)、author
(作者)、content_type
(文件类型)等。这些元数据会存储在生成的attachment
字段中。
来说,取出的元数据存储在不同的字段中,每个字段对应不同的元数据类型,存储的数据类型根据属性的内容取不同。以下是主要元数据属性对应其类型:
1. content(文件内容)
-
類型:
string
-
说明: 提取出文件的实际内容。
-
示例 :
"content": "This is the text extracted from the file..."
2.标题
-
类型:
string
或null
-
说明:提取出的文档标题(如果存在)。在很多
相关文章:

Elasticsearch 中管道介绍
Elasticsearch 中管道 文章目录 Elasticsearch 中管道1、管道( Ingest Pipeline)1.**管道描述**2.**处理器(Processors)**(1)**`attachment`处理器**(2)**`remove`处理器**3.**整体流程**4.**应用场景**示例:如何使用该管道总结2、如何设置`attachment`处理器取出`指定…...
将jinjia2后端传到前端的字典数据转化为json
后端代码 from flask import Flask, render_template, jsonifyapp Flask(__name__)app.route(/) def index():data {key: value, number: 123}return render_template(index.html, datadata)if __name__ __main__:app.run(debugTrue) 前端代码 使用tojson过滤器即可 <!…...

Linux中如何理解一切皆文件
根据之前的学习我们会有一些少许的疑惑,我们的stdin ,stdout,stderr访问的是键盘显示器,然而键盘显示器等他们都有一个共同的特点就是他们都是外设,那么这些外设是怎么被看成是文件的呢? 看图可以知道硬件的…...
【贪心算法】(第十一篇)
目录 坏了的计算器(medium) 题目解析 讲解算法原理 编写代码 合并区间(medium) 题目解析 讲解算法原理 编写代码 坏了的计算器(medium) 题目解析 1.题目链接:. - 力扣(Leet…...

React(五) 受控组件和非受控组件; 获取表单元素的值。高阶组件(重点),Portals; Fragment组件;严格模式StrictMode
文章目录 一、受控组件1. 什么是受控组件2. 收集input框内容3. 收集checkBox的值4. 下拉框select总结 二、非受控组件三、高阶组件1. 高阶组件的概念 (回顾高阶函数)2. 高阶组件应用:注入props(1) 高阶组件给---函数式组件注入props(2) 高阶组件给---类组件注入prop…...
深入解析 Jenkins 自动化任务链:三大方法实现任务间依赖与状态控制
文章目录 前言1. 使用 “Build Trigger”(构建触发器)2. 使用 Jenkins Pipeline 实现任务触发3. 使用 Jenkins 的 “Parameterized Trigger Plugin” 插件例子1:任务 A 成功后自动执行任务 B例子2:任务 A 成功后自动执行 Pipeline…...

无人机飞手执照培训为什么需要脱产学习?
无人机飞手执照培训需要脱产学习的原因主要基于以下几个方面: 一、知识体系的系统性与复杂性 无人机飞手培训涵盖的内容广泛且深入,包括无人机基础知识、飞行原理、气象学、法律法规等多个方面。这些知识体系相互关联,需要学员进行系统的学…...

PostgreSQL(十三)pgcrypto 扩展实现 AES、PGP 加密,并自定义存储过程
目录 一、pgcrypto 简介1.1 安装 pgcrypto 扩展1.2 pgcrypto 包含的函数 二、用法①:对称加密(使用 AES、Blowfish 算法)2.1 密钥2.2 密钥偏移量 三、用法②:PGP加解密3.1 什么是PGP算法?3.2 使用 GPG 生成密钥对3.3 列…...
uniapp使用webView打开的网页有缓存如何解决(APP,微信小程序)
1、给webView的url增加时间戳 this.webviewUrl ${url}?t${new Date().getTime()}; // 添加时间戳 2、在nginx服务器上添加响应头,告诉浏览器不可以使用缓存 location / {root /opt/webs/lcdp-client/dist;index index.html index.htm;try_files $uri $uri/ /…...

HarmonyOS 模块化设计
1.HarmonyOS 模块化设计 模块化设计文档 应用程序包开发与使用文档 1.1. 概述 组件化一直是移动端比较流行的开发方式,有着编译运行快,业务逻辑分明,任务划分清晰等优点,HarmonyOs组件化的使用,有利于模块之间的解…...

解决docker拉取readeck镜像报Error response from daemon: toomanyrequests问题
readeck 是一个内容中心,目前已支持中文翻译 这是本地化部署后的效果: 原命令为: docker run --rm -ti -p 8000:8000 -v readeck-data:/readeck codeberg.org/readeck/readeck:latest Unable to find image codeberg.org/readeck/readeck:la…...

duilib的应用 在双屏异分辨率的显示器上 运行显示不出来
背景:win11,duilib应用,双显示器,两台分辨率相同,分别设置不同的缩放以后,应用运行以后,程序闪一下消失或者程序还在,但是UI显示不出来。 原因 窗口风格设置不合理,所以…...

零代码快速开发智能体 |甘肃旅游通
在互联网信息爆炸的时代,寻找一处让人心动的旅游胜地往往需要花费大量的时间和精力。而今天,我要向大家介绍一款能够帮助你轻松规划甘肃之行的智能体——“甘肃旅游通”。这款智能体通过低代码开发,集合了丰富的旅游信息和个性化推荐功能&…...

【MATLAB源码-第187期】基于matlab的人工蜂群优化算法(ABC)机器人栅格路径规划,输出做短路径图和适应度曲线。
操作环境: MATLAB 2022a 1、算法描述 Artificial Bee Colony(ABC)算法是一种模仿蜜蜂觅食行为的优化算法,它通过模拟蜜蜂群体的社会结构和行为来解决数学优化问题。本文将详细介绍ABC算法的基本原理、算法流程、以及在实际应用…...
qt获取本地语言
获取本地语言 #define QSTRING_TO_UTF8(str) std::string(str.toUtf8()) enum LanguageType {kLanguageTypeChinese,kLanguageTypeTradition,kLanguageTypeEnglish };QLocale qlLanguage;QString qstrLangCode qlLanguage.languageToString(qlLanguage.language());LOG(INFO)…...

【Spring篇】Spring中的Bean管理
🧸安清h:个人主页 🎥个人专栏:【计算机网络】【Mybatis篇】 🚦作者简介:一个有趣爱睡觉的intp,期待和更多人分享自己所学知识的真诚大学生。 目录 🎯Spring IOC容器 Ὢ…...

UV灯 VS LED灯,LED美甲灯是紫外线灯吗?
美甲灯是使甲油胶固化的重要工具,目前最常用的美甲灯一般是UV灯、LED灯以及CCFL灯。 一、不同的灯之间到底有什么区别呢?这次让我们好好看一下 UV灯: UV灯是紫外线灯管的简称。UV灯属于热阴极荧光灯,发出UVA(长波紫…...

得物App3D博物馆亮相“两博会”,正品保障助力消费体验升级
近日,2024中国体育文化博览会、中国体育旅游博览会(以下简称“两博会”)在苏州国际展览中心盛大开幕。本次展会汇聚了众多国内外体育文化、体育旅游领域的顶尖企业和品牌,共同展示体育产业的发展成果和最新趋势。在C展馆C21展位&a…...

rancher安装并快速部署k8s 管理集群工具
主机准备 准备4台主机 3台用于k8s集群 ,1台用于rancher 每台服务器新增配置文件 vi etc/sysctl.confnet.ipv4.ip_forward 1 刷新生效 sysctl –p 安装docker 安装的时候可以去github上检索rancher看看最新版本适配那个版本的docker,这里安装23.0.1…...

NVR接入录像回放平台EasyCVR视频融合平台语音对讲配置
国标GB28181视频平台EasyCVR视频融合平台可拓展性强、视频能力灵活,平台可提供视频监控直播、云端录像、云存储、录像检索与回看、智能告警、平台级联、云台控制、语音对讲、智能分析接入等功能。其中,在语音对讲方面,NVR接入录像回放平台目前…...

UE5 学习系列(二)用户操作界面及介绍
这篇博客是 UE5 学习系列博客的第二篇,在第一篇的基础上展开这篇内容。博客参考的 B 站视频资料和第一篇的链接如下: 【Note】:如果你已经完成安装等操作,可以只执行第一篇博客中 2. 新建一个空白游戏项目 章节操作,重…...

Linux 文件类型,目录与路径,文件与目录管理
文件类型 后面的字符表示文件类型标志 普通文件:-(纯文本文件,二进制文件,数据格式文件) 如文本文件、图片、程序文件等。 目录文件:d(directory) 用来存放其他文件或子目录。 设备…...

【机器视觉】单目测距——运动结构恢复
ps:图是随便找的,为了凑个封面 前言 在前面对光流法进行进一步改进,希望将2D光流推广至3D场景流时,发现2D转3D过程中存在尺度歧义问题,需要补全摄像头拍摄图像中缺失的深度信息,否则解空间不收敛…...
测试markdown--肇兴
day1: 1、去程:7:04 --11:32高铁 高铁右转上售票大厅2楼,穿过候车厅下一楼,上大巴车 ¥10/人 **2、到达:**12点多到达寨子,买门票,美团/抖音:¥78人 3、中饭&a…...
MVC 数据库
MVC 数据库 引言 在软件开发领域,Model-View-Controller(MVC)是一种流行的软件架构模式,它将应用程序分为三个核心组件:模型(Model)、视图(View)和控制器(Controller)。这种模式有助于提高代码的可维护性和可扩展性。本文将深入探讨MVC架构与数据库之间的关系,以…...

微信小程序 - 手机震动
一、界面 <button type"primary" bindtap"shortVibrate">短震动</button> <button type"primary" bindtap"longVibrate">长震动</button> 二、js逻辑代码 注:文档 https://developers.weixin.qq…...

江苏艾立泰跨国资源接力:废料变黄金的绿色供应链革命
在华东塑料包装行业面临限塑令深度调整的背景下,江苏艾立泰以一场跨国资源接力的创新实践,重新定义了绿色供应链的边界。 跨国回收网络:废料变黄金的全球棋局 艾立泰在欧洲、东南亚建立再生塑料回收点,将海外废弃包装箱通过标准…...

CocosCreator 之 JavaScript/TypeScript和Java的相互交互
引擎版本: 3.8.1 语言: JavaScript/TypeScript、C、Java 环境:Window 参考:Java原生反射机制 您好,我是鹤九日! 回顾 在上篇文章中:CocosCreator Android项目接入UnityAds 广告SDK。 我们简单讲…...

中医有效性探讨
文章目录 西医是如何发展到以生物化学为药理基础的现代医学?传统医学奠基期(远古 - 17 世纪)近代医学转型期(17 世纪 - 19 世纪末)现代医学成熟期(20世纪至今) 中医的源远流长和一脉相承远古至…...

嵌入式学习笔记DAY33(网络编程——TCP)
一、网络架构 C/S (client/server 客户端/服务器):由客户端和服务器端两个部分组成。客户端通常是用户使用的应用程序,负责提供用户界面和交互逻辑 ,接收用户输入,向服务器发送请求,并展示服务…...