当前位置：首页 > news >正文

ES-分析器

news 2026/2/10 22:33:18

分析器

两种常用的英语分析器

1 测试工具

#可以通过这个来测试分析器 实际生产环境中我们肯定是配置在索引中来工作
GET _analyze
{"text": "My Mom's Son is an excellent teacher","analyzer": "english"
}

2 实际效果
比如我们有下面这样一句话：My Mom’s Son is an excellent teacher

GET _analyze
{"text": "My Mom's Son is an excellent teacher","analyzer": "english"
}

分析器分析以后,大写统一转换为了小写，is 被省了等，所以经过这个分析器处理以后会得到下面的结果
在这里插入图片描述
我们换一个分析器结果就会不一样

GET _analyze
{"text": "My Mom's Son is an excellent teacher","analyzer": "standard"
}

结果如下：
在这里插入图片描述

char_filter

html_strip 用来处理html标签

PUT my_index
{"settings": {"analysis": {"char_filter": {#这里是申明"my_char_filter": {"type": "html_strip", #过滤html 标签 "escaped_tags": ["a" #忽略a标签]}},"analyzer": {#这里是使用"my_analyzer": {"char_filter": ["my_char_filter"],"tokenizer": "keyword"}}}}
}

GET /my_index/_analyze 
{"text" : "<html>fdsf</html>","analyzer": "my_analyzer"
}

可以看到html这个表签被替换掉了：
在这里插入图片描述

mapping 用来处理映射

PUT my_index
{"settings": {"analysis": {"char_filter": {"my_char_filter": {"type": "mapping","mappings": ["S=>*","B=>*"]}},"analyzer": {"my_analyzer": {"char_filter": ["my_char_filter"],"tokenizer": "keyword"}}}}
}

GET /my_index/_analyze 
{"text" : "总是加班真SB","analyzer": "my_analyzer"
}

结果如下：
在这里插入图片描述

pattern_replace

PUT my_index
{"settings": {"analysis": {"char_filter": {"my_char_filter": {"type": "pattern_replace","pattern":"(\\d{3})\\d(\\d{4})","replacement" : "$1****$2"}},"analyzer": {"my_analyzer": {"char_filter": ["my_char_filter" #这里是可以写多个的],"tokenizer": "keyword"}}}}
}

GET /my_index/_analyze 
{"text" : "1008610086","analyzer": "my_analyzer"
}

在这里插入图片描述

Filter

synonym_graph

PUT my_index
{"settings": {"analysis": {"filter": {"my_filter": {"type": "synonym_graph","synonyms_path" : "analysis/analysis.txt" #这里修改文件好像是不能直接生效需要重新创建索引}},"analyzer": {"my_analyzer": {"filter": ["my_filter"],"tokenizer": "keyword"}}}}
}

GET /my_index/_analyze 
{"text" : ["liyong","love","baby"],"analyzer": "my_analyzer"
}

运行结果如下：
在这里插入图片描述
也可以直接写到下面：

PUT my_index
{"settings": {"analysis": {"filter": {"my_filter": {"type": "synonym_graph","synonyms" : ["liyong,love,baby=>99"] #直接把映射的东西写到这里}},"analyzer": {"my_analyzer": {"filter": ["my_filter"],"tokenizer": "keyword"}}}}
}GET /my_index/_analyze 
{"text" : ["liyong","love","baby"],"analyzer": "my_analyzer"
}

在这里插入图片描述

GET my_index/_analyze
{"tokenizer": "standard","filter":{"type": "condition", #条件也就是根据下面的条件"filter":"uppercase", #转换为大写"script": {"source": "token.getTerm().length()<5" #小于5的字符串替换为大写}},"text":["assas assa sasa dsdsdsdsdsd sdsdsdss"]
}

在这里插入图片描述

stop
Stopwords⽤于删除不要的介词和词语,以下为简写

PUT my_index
{"settings": {"analysis": {"analyzer": {"my_analyzer": {"type": "standard","stopwords": ["me","you"]}}}}
}

也可以这样写：

PUT my_index
{"settings": {"analysis": {"filter": {"my_filter": {"type": "stop","stopwords": ["me","you"]}},"analyzer": {"my_analyzer": {"tokenizer": "standard","filter": ["my_filter"]}}}}
}

自定义分析器

PUT my_index
{"settings": {"analysis": {"char_filter": {"my_char_filter": {"type": "mapping","mappings": ["&=>and","|=>or"]}},"filter": {"my_filter": {"type": "stop","stopwords": ["is","in","a","at"]}},"tokenizer": {"my_tokenizer": {"type": "pattern","pattern": "[ ,.!]"}},"analyzer": {"my_analyzer": {"char_filter": ["my_char_filter"],"filter": ["my_filter"],"tokenizer": "my_tokenizer","type": "custom" #指定自定义}}}}
}

tokenizer 重写了分词方式比如这个例子就是按照, . !来分割，然后进行后续的过滤处理，在实际生产环境中非常重要。

中文分词器

ik下载
安装到插件下面：
在这里插入图片描述

#由于没有对应的版本需要修改这个文件强行改成我们的版本
vim plugin-descriptor.properties

在这里插入图片描述
注意ik文件的所属用户和所属组

使用

GET /my_index/_analyze
{"text": "我是一个兵来自老百姓","analyzer": "ik_smart"
}

在这里插入图片描述

自定义分词库
我再config 新建一个目录config/custom.dic 自定义输入

<?xml version="1.0" encoding="UTF-8"?>
<!DOCTYPE properties SYSTEM "http://java.sun.com/dtd/properties.dtd">
<properties><comment>IK Analyzer 扩展配置</comment><!--用户可以在这里配置自己的扩展字典 --><entry key="ext_dict">./custom/custom.dic;./custom/custom1.dic</entry> #如果有多个用;隔开<!--用户可以在这里配置自己的扩展停止词字典--><entry key="ext_stopwords"></entry><!--用户可以在这里配置远程扩展字典 --> #这里支持远程网址词典获取这样做的好处是不用重启es 这里就可以写一个controller 来把词典打印到网页上 https://blog.csdn.net/qq_34304427/article/details/123539694?spm=1001.2014.3001.5502 可以参考这篇博客<!-- <entry key="remote_ext_dict">words_location</entry> --><!--用户可以在这里配置远程扩展停止词字典--><!-- <entry key="remote_ext_stopwords">words_location</entry> -->
</properties>

GET /my_index/_analyze
{"text": "我是一个兵来自老百姓,我真的好想你宝宝","analyzer": "ik_smart"
}

在这里插入图片描述

ES-分析器

分析器两种常用的英语分析器 1 测试工具 #可以通过这个来测试分析器实际生产环境中我们肯定是配置在索引中来工作 GET _analyze {"text": "My Moms Son is an excellent teacher","analyzer": "english" }2 实际效果比如我们有下…...

编程日记 2023/12/12 1:16:38

智能优化算法应用：基于缎蓝园丁鸟算法3D无线传感器网络(WSN)覆盖优化 - 附代码

智能优化算法应用：基于缎蓝园丁鸟算法3D无线传感器网络(WSN)覆盖优化 - 附代码文章目录智能优化算法应用：基于缎蓝园丁鸟算法3D无线传感器网络(WSN)覆盖优化 - 附代码1.无线传感网络节点模型2.覆盖数学模型及分析3.缎蓝园丁鸟算法4.实验参数设定5.算法…...

编程日记 2023/12/12 1:15:37

【开发问题】vue的前端和java的后台，用sm4，实现前台加密，后台解密

sm4加密 vue引入的包代码加密解密 javamaven代码运行结果 vue 引入的包 npm install sm-crypto代码加密解密加密： key ：代表着密钥，必须是16 字节的十六进制密钥 password ：加密前的密码 sm4Password ：代表sm4加密…...

编程日记 2023/12/12 1:09:32

【算法专题】分治 - 快速排序

分治 - 快速排序分治 - 快速排序1. 颜色分类2. 排序数组(快速排序)3. 数组中的第K个最大元素4. 库存管理Ⅲ5. 排序数组(归并排序)6. 交易逆序对的总数7. 计算右侧小于当前元素的个数8. 翻转对分治 - 快速排序 1. 颜色分类做题链接 -> Leetcode -75.颜色分类题目&…...

编程日记 2023/12/12 1:08:31

UG NX二次开发(C#)-求曲线在某一点处的法矢和切矢

提示：文章写完后，目录可以自动生成，如何生成可参考右边的帮助文档文章目录 1、前言2、在UG NX中创建一个曲线3、直接放代码4、测试案例1、前言最近确实有点忙了，好久没更新博客了。今天恰好有时间，就更新下，还请家人们见谅。今天我们讲一下如何获取一条曲线上某一条曲…...

编程日记 2023/12/12 1:07:30

leetcode 622. 设计循环链表

这道题讲了两种方法，第一个代码是用数组实现的，第二个是用链表实现的，希望对你们有帮助 （最好在VS自己测试一遍，再放到 leetcode上哦） 下面的是主函数（作参考），静下心来…...

编程日记 2023/12/12 1:06:29

Linux：dockerfile编写搭建tomcat练习（9）

我使用的httpyum仓库本地使用了5个文件，tomcat使用的官网解压直接用的包】 Dockerfile 主配置文件基于centos基础镜像 jdk1.8.0_91 java环境 run.sh 启动脚本 centos.repo 仓库文件 tomcat 源码包 vim Dockerfile写入FROM centos MAINTAINER ta…...

编程日记 2023/12/12 1:03:27

Linux 基础IO

文章目录前言基础IO定义系统IO接口文件描述符重定向原理缓冲区刷新前言要知道每个函数/接口的全部参数和返回值建议去官网或者直接在Linux的man手册中查，这不是复制粘贴函数用法的文章。 C语言文件读写介绍链接基础IO定义 IO是Input/Output的缩写&#xff0c…...

编程日记 2023/12/12 1:02:26

uniapp 打开文件管理器上传(H5、微信小程序、android app三端)文件

H5跟安卓APP 手机打开的效果图： Vue页面： <template><view class"content"><button click"uploadFiles">点击上传</button></view> </template><script>export default {data() {return…...

编程日记 2023/12/12 0:58:23

掌控安全 -- header注入

http header注入该注入是指利用后端验证客户端口信息（比如常用的cookie验证）或者通过http header中获取客户端的一些信息（比如useragent用户代理等其他http header字段信息），因为这些信息是会重新返回拼接到后台中的&…...

编程日记 2023/12/12 0:55:20

windows批处理脚本（.bat）如何激活Anconda Prompt虚拟环境

通过call 来调用激活脚本， activate myenv指的是要激活的环境，若省略，则激活的是base环境。 call : 从另一个批处理程序调用一个批处理程序，而不停止父批处理程序。 call C:\ProgramData\Anaconda3\Scripts\activate.bat activate…...

编程日记 2023/12/12 0:53:18

扩散模型实战（十四）：扩散模型生成音频

推荐阅读列表： 扩散模型实战（一）：基本原理介绍扩散模型实战（二）：扩散模型的发展扩散模型实战（三）：扩散模型的应用扩散模型实战（四&#xff…...

编程日记 2023/12/12 0:52:17

《微信小程序开发从入门到实战》学习四十七

4.4 云函数 4.4.5 云函数的定时触发如果云函数需要定时执行，可以使用云函数定时触发器。配置了定时触发器，云函数会在相应时间点被自动触发。函数返回结果不会返回调用方在需要添加触发器的云函数下新建文件config.json。格式如下： &quo…...

编程日记 2023/12/12 0:51:17

LeetCode刷题笔记之数组

一、二分查找 1. 704【二分查找】题目： 给定一个 n 个元素有序的（升序） 整型数组 nums 和一个目标值 target ，写一个函数搜索 nums 中的 target，如果目标值存在返回下标，否则返回 -1。代码：…...

编程日记 2023/12/12 0:48:14

ViT：视觉 Transformer

ViT：视觉 Transformer 网络结构Transformer 编码器MLP 头CNN 和 Transformer 网络结构 Transformer 的优势：注意力机制相当于一个多标签检索系统，位置嵌入能知道每个单词的位置，而且适合并行。尝试把 Transformer 迁移到视觉领…...

编程日记 2023/12/12 0:47:13

Jmeter 请求签名api接口-BeanShell

Jmeter 请求签名api接口-BeanShell 项目签名说明编译扩展jar包jmeter 使用 BeanShell 调用jar包中的签名方法项目签名说明有签名算法的api接口本地不好测试，使用BeanShell 扩展jar 包对参数进行签名，接口签名算法使用 sha512Hex 算法。签名的说明如下…...

编程日记 2023/12/12 0:46:12

No suitable driver found for jdbc:mysql://localhost:3306（2023/12/7更新）

有两种情况： 压根没安装下载了但没设为库或方法不对大多数为第一种情况： 一. 下载jdbc 打开网址选择一个版本进行下载 https://nowjava.com/jar/version/mysql/mysql-connector-java.html 二.安装jdbc 在项目里建一个lib文件夹在把之前下载的jar文…...

编程日记 2023/12/12 0:42:09

word文档中数字格式转换（排版助手）

示例：李老师收入了234243.33元，产量3000公斤； 张老师收入了2324324元，产量45555公斤； 孙老师收入了600000元，产量2342公斤王老师收入了1234443243元，产量1243142公斤。 1、数字批量转换成千…...

编程日记 2023/12/12 0:41:08

阿里云docker加速

文章目录一、阿里云镜像仓库配置二、配置加速1. CentOS2. Mac3. Windows注意一、阿里云镜像仓库配置 1.注册阿里云账号，并登陆到阿里云后台，进入控制台面板 2.进入控制台以后，找到左上方的三横的功能列表按钮，在弹出来的功能…...

编程日记 2023/12/12 0:40:06

Panalog 日志审计系统 sprog_deletevent.php SQL 注入漏洞复现

0x01 产品简介 Panalog大数据日志审计系统定位于将大数据产品应用于高校、公安、政企、医疗、金融、能源等行业之中，针对网络流量的信息进行日志留存，可对用户上网行为进行审计，逐渐形成大数据采集、大数据分析、大数据整合的工作模式…...

编程日记 2023/12/12 0:39:05

UE5 学习系列（二）用户操作界面及介绍

这篇博客是 UE5 学习系列博客的第二篇，在第一篇的基础上展开这篇内容。博客参考的 B 站视频资料和第一篇的链接如下： 【Note】：如果你已经完成安装等操作，可以只执行第一篇博客中 2. 新建一个空白游戏项目章节操作，重…...

编程新知 2026/2/10 11:02:44

基于距离变化能量开销动态调整的WSN低功耗拓扑控制开销算法matlab仿真

目录 1.程序功能描述 2.测试软件版本以及运行结果展示 3.核心程序 4.算法仿真参数 5.算法理论概述 6.参考文献 7.完整程序 1.程序功能描述通过动态调整节点通信的能量开销，平衡网络负载，延长WSN生命周期。具体通过建立基于距离的能量消耗模型&am…...

编程新知 2026/2/10 16:20:04

Linux-07 ubuntu 的 chrome 启动不了

文章目录问题原因解决步骤一、卸载旧版chrome二、重新安装chorme三、启动不了，报错如下四、启动不了，解决如下总结问题原因在应用中可以看到chrome，但是打不开(说明：原来的ubuntu系统出问题了，这个是备用的硬盘&a…...

编程新知 2026/1/29 17:56:19

图表类系列各种样式PPT模版分享

图标图表系列PPT模版，柱状图PPT模版，线状图PPT模版，折线图PPT模版，饼状图PPT模版，雷达图PPT模版，树状图PPT模版图表类系列各种样式PPT模版分享：图表系列PPT模板https://pan.quark.cn/s/20d40aa…...

编程新知 2026/2/4 18:07:02

鸿蒙DevEco Studio HarmonyOS 5跑酷小游戏实现指南

1. 项目概述本跑酷小游戏基于鸿蒙HarmonyOS 5开发，使用DevEco Studio作为开发工具，采用Java语言实现，包含角色控制、障碍物生成和分数计算系统。 2. 项目结构 /src/main/java/com/example/runner/├── MainAbilitySlice.java // 主界…...

编程新知 2025/12/19 22:56:05

一、电话号码的字母组合 import java.util.ArrayList; import java.util.List;import javax.management.loading.PrivateClassLoader;public class letterCombinations {private static final String[] KEYPAD {"", //0"", //1"abc", //2"…...

编程新知 2026/1/24 12:01:38

推荐 github 项目:GeminiImageApp(图片生成方向，可以做一定的素材)

推荐 github 项目:GeminiImageApp(图片生成方向，可以做一定的素材) 这个项目能干嘛? 使用 gemini 2.0 的 api 和 google 其他的 api 来做衍生处理简化和优化了文生图和图生图的行为(我的最主要) 并且有一些目标检测和切割(我用不到) 视频和 imagefx 因为没 a…...

编程新知 2026/1/25 10:41:07

STM32---外部32.768K晶振（LSE）无法起振问题

晶振是否起振主要就检查两个1、晶振与MCU是否兼容；2、晶振的负载电容是否匹配目录一、判断晶振与MCU是否兼容二、判断负载电容是否匹配 1. 晶振负载电容（CL）与匹配电容（CL1、CL2）的关系 2. 如何选择 CL1 和 CL…...

编程新知 2026/2/7 10:55:43

MeshGPT 笔记

[2311.15475] MeshGPT: Generating Triangle Meshes with Decoder-Only Transformers https://library.scholarcy.com/try 真正意义上的AI生成三维模型MESHGPT来袭！_哔哩哔哩_bilibili GitHub - lucidrains/meshgpt-pytorch: Implementation of MeshGPT, SOTA Me…...

编程新知 2026/2/4 16:02:23

【题解-洛谷】P10480 可达性统计

题目：P10480 可达性统计题目描述给定一张 N N N 个点 M M M 条边的有向无环图，分别统计从每个点出发能够到达的点的数量。输入格式第一行两个整数 N , M N,M N,M，接下来 M M M 行每行两个整数 x , y x,y x,y，表示从 …...

编程新知 2025/12/15 8:11:23

ES-分析器

分析器

两种常用的英语分析器

char_filter

Filter

自定义分析器

中文分词器

相关文章：

ES-分析器

智能优化算法应用：基于缎蓝园丁鸟算法3D无线传感器网络(WSN)覆盖优化 - 附代码

【开发问题】vue的前端和java的后台，用sm4，实现前台加密，后台解密

【算法专题】分治 - 快速排序

UG NX二次开发(C#)-求曲线在某一点处的法矢和切矢

leetcode 622. 设计循环链表

Linux：dockerfile编写搭建tomcat练习（9）

Linux 基础IO

uniapp 打开文件管理器上传(H5、微信小程序、android app三端)文件

掌控安全 -- header注入

windows批处理脚本（.bat）如何激活Anconda Prompt虚拟环境

扩散模型实战（十四）：扩散模型生成音频

《微信小程序开发从入门到实战》学习四十七

LeetCode刷题笔记之数组

ViT：视觉 Transformer

Jmeter 请求签名api接口-BeanShell

No suitable driver found for jdbc:mysql://localhost:3306（2023/12/7更新）

word文档中数字格式转换（排版助手）

阿里云docker加速

Panalog 日志审计系统 sprog_deletevent.php SQL 注入漏洞复现

UE5 学习系列（二）用户操作界面及介绍

基于距离变化能量开销动态调整的WSN低功耗拓扑控制开销算法matlab仿真

Linux-07 ubuntu 的 chrome 启动不了

图表类系列各种样式PPT模版分享

鸿蒙DevEco Studio HarmonyOS 5跑酷小游戏实现指南

回溯算法学习

推荐 github 项目:GeminiImageApp(图片生成方向，可以做一定的素材)

STM32---外部32.768K晶振（LSE）无法起振问题

MeshGPT 笔记

【题解-洛谷】P10480 可达性统计