当前位置: 首页 > news >正文

【Elasticsearch】keyword分析器

Elasticsearch 中的`keyword`分析器是一种非常特殊的分析器,它的行为与其他常见的分析器(如`standard`、`whitespace`等)截然不同。`keyword`分析器的核心功能是将整个输入字符串作为一个单一的标记(token)返回,而不会对其进行任何拆分或进一步处理。以下是对`keyword`分析器的详细描述,包括其工作原理、适用场景、配置方法以及与其他分析器的对比。

1.工作原理

`keyword`分析器是一个“无操作”(noop)分析器,它的工作原理非常简单:

• 输入:接收一个完整的字符串作为输入。

• 处理:不对输入字符串进行任何拆分或修改,直接将整个字符串作为一个单一的标记返回。

• 输出:返回一个包含整个输入字符串的标记列表,列表中只有一个标记。

例如,假设输入字符串为:

```

"The 2 QUICK Brown-Foxes jumped over the lazy dog's bone."

```

使用`keyword`分析器后,输出结果为:

```

[ "The 2 QUICK Brown-Foxes jumped over the lazy dog's bone." ]

```

2.适用场景

由于`keyword`分析器不会对输入字符串进行拆分,因此它适用于以下几种场景:

2.1 精确匹配

当你需要对某个字段进行精确匹配时,`keyword`分析器非常有用。例如:

• 用户输入的完整短语:如果用户输入一个完整的短语(如搜索框中的内容),使用`keyword`分析器可以确保只有完全匹配该短语的文档才会被检索到。

• 代码片段:对于存储代码片段的字段,使用`keyword`分析器可以确保代码片段作为一个整体被索引和搜索。

• 文件名和路径:文件名和路径通常需要精确匹配,使用`keyword`分析器可以避免因分词而导致的不精确结果。

2.2 保持字符串完整性

某些字段需要保持原始输入的完整性,而不是被拆分为多个标记。例如:

• 标签(Tags):标签字段通常需要精确匹配,而不是被拆分为多个单词。

• 状态码(Status Codes):状态码字段通常是一个固定的字符串,需要保持原样。

• 用户输入的完整命令:用户输入的完整命令(如 SQL 查询)需要作为一个整体被索引和搜索。

2.3 自定义分析器的起点

虽然`keyword`分析器本身不可配置,但你可以基于它创建自定义分析器。通过添加标记过滤器(token filters),你可以进一步定制分析器的行为。例如:

• 大小写转换:在保持字符串完整性的同时,将所有字符转换为小写或大写。

• 去除特殊字符:在保持字符串完整性的同时,去除某些特殊字符。

3.配置方法

`keyword`分析器本身是不可配置的,但你可以通过创建自定义分析器来实现类似的功能,并添加额外的标记过滤器。

3.1 创建自定义分析器

以下是一个基于`keyword`分析器创建自定义分析器的示例:

```json

PUT /keyword_example

{

  "settings": {

    "analysis": {

      "analyzer": {

        "rebuilt_keyword": {

          "tokenizer": "keyword",

          "filter": []

        }

      }

    }

  }

}

```

 

 

在这个例子中,`rebuilt_keyword`是一个自定义分析器,它使用了`keyword`分词器(tokenizer),并且没有添加任何标记过滤器。你可以根据需要添加标记过滤器来进一步定制分析器的行为。

4.示例代码

以下是一些使用`keyword`分析器的示例代码,

POST _analyze
{
  "analyzer": "keyword",
  "text": "The 2 QUICK Brown-Foxes jumped over the lazy dog's bone."
}
 

5.对比其他分析器

为了更好地理解`keyword`分析器的作用,我们可以将其与其他常见的分析器进行对比:

5.1`standard`分析器

`standard`分析器会将输入字符串拆分为多个单词,并去除标点符号。例如:

• 输入:`"The 2 QUICK Brown-Foxes jumped over the lazy dog's bone."`

• 输出:`["the", "2", "quick", "brown", "foxes", "jumped", "over", "the", "lazy", "dog's", "bone"]`

5.2`whitespace`分析器

`whitespace`分析器会将输入字符串按空格拆分为多个单词,但不会去除标点符号。例如:

• 输入:`"The 2 QUICK Brown-Foxes jumped over the lazy dog's bone."`

• 输出:`["The", "2", "QUICK", "Brown-Foxes", "jumped", "over", "the", "lazy", "dog's", "bone."]`

5.3`keyword`分析器

`keyword`分析器不会对输入字符串进行任何拆分,而是将整个字符串作为一个单一的标记返回。例如:

• 输入:`"The 2 QUICK Brown-Foxes jumped over the lazy dog's bone."`

• 输出:`["The 2 QUICK Brown-Foxes jumped over the lazy dog's bone."]`

6.总结

`keyword`分析器在 Elasticsearch 中的主要作用是保持字符串的完整性,确保输入的字符串作为一个单一的标记被索引和搜索。它适用于需要精确匹配的场景,以及那些不需要分词的字段。如果你需要对字段进行更复杂的处理,可以基于`keyword`分析器创建自定义分析器,并添加标记过滤器来进一步定制分析器的行为。

通过合理使用`keyword`分析器,你可以更好地满足不同字段的索引和搜索需求,提高数据处理的灵活性和准确性。

相关文章:

【Elasticsearch】keyword分析器

Elasticsearch 中的keyword分析器是一种非常特殊的分析器,它的行为与其他常见的分析器(如standard、whitespace等)截然不同。keyword分析器的核心功能是将整个输入字符串作为一个单一的标记(token)返回,而不…...

重生之我在异世界学编程之C语言:深入预处理篇(上)目录)

大家好,这里是小编的博客频道 小编的博客:就爱学编程 很高兴在CSDN这个大家庭与大家相识,希望能在这里与大家共同进步,共同收获更好的自己!!! 本文目录 引言正文一、预处理的作用与流程&#xf…...

MySQL数据库误删恢复_mysql 数据 误删

2、BigLog日志相关 2.1、检查biglog状态是否开启 声明: 当前为mysql版本5.7 当前为mysql版本5.7****当前为mysql版本5.7 2.1.1、Navicat工具执行 SHOW VARIABLES LIKE LOG_BIN%;OFF 是未开启状态,如果不是ON 开启状态需要开启为ON。{默认情况下就是关闭状态} 2.…...

SpringAI集成DeepSeek实战

SpringAI集成DeepSeek实战教程 引言 Spring AI作为Spring生态系统中的新成员,为开发者提供了便捷的AI集成方案。本文将详细介绍如何在Spring项目中集成DeepSeek模型,实现智能对话等功能。 环境准备 在开始之前,请确保您的开发环境满足以下要…...

解决 THC/THC.h: No such file or directory 报错

报错现象: cc1plus: warning: command line option ‘-Wstrict-prototypes’ is valid for C/ObjC but not for C In file included from /data/joyiot/liyong/codes/graspnet-baseline/knn/src/knn.h:5:0,from /data/joyiot/liyong/codes/graspnet-baseline/knn/s…...

S4D480 S4HANA 基于PDF的表单打印

2022年元旦的笔记草稿 SAP的表单打印从最早的SAPScripts 到后来的SMARTFORM,步入S4时代后由于Fiori的逐渐普及,更适应Web的Adobe Form成了SAP主流output文件格式。 目录 一、 基于PDF表单打印系统架构Interface 接口Form 表单ContextLayout 二、表单接…...

数组_移除元素

数组_移除元素 一、leetcode-27二、题解1.代码2.思考 一、leetcode-27 移除元素 给你一个数组 nums 和一个值 val,你需要 原地 移除所有数值等于 val 的元素。元素的顺序可能发生改变。然后返回 nums 中与 val 不同的元素的数量。 假设 nums 中不等于 val 的元素数…...

Vue2/Vue3分别如何使用Watch

在 Vue 2 和 Vue 3 中,watch 用于监听数据的变化并执行相应的逻辑。虽然两者的核心功能相同,但在语法和使用方式上有一些区别。以下是 Vue 2 和 Vue 3 中使用 watch 的详细说明: Vue 2 中的 watch 在 Vue 2 中,watch 是通过选项式…...

C++从入门到实战(四)C++引用与inline,nullptr

C从入门到实战(四)C引用与inline,nullptr 前言一、C 引用(一)什么是引用(二)引用的特点(三)引用作为函数参数(四)引用作为函数返回值(…...

Linux库制作与原理:【静态库】【动态库】【目标文件】【ELF文件】【ELF从形成到假造轮廓】【理解链接和加载】

目录 一.什么是库 二.静态库 2.1创建静态库 我们在之前的路径下新建lib使用我们自己的库 2.2 使用makefile生成静态库 三.动态库 3.1动态库生成 3.2动态库使用 3.3库运行搜索路径 四.目标文件 五.ELF文件 六.ELF从形成到加载轮廓 6.1ELF形成可执行 6.2 ELF可执行文…...

项目BUG

项目BUG 前言 我创作这篇博客的目的是记录学习技术过程中的笔记。希望通过分享自己的学习经历,能够帮助到那些对相关领域感兴趣或者正在学习的人们。 项目BUG 1.低频率信号(100k或 200K以下)可以直接用一根导线焊接出几根导线来分几路,高频率信号只能…...

wordpress部署nginx版的

一、通过nginx部署wordpress 1、用yum源安装nginx yum install -y nginx 2、安装php相关软件 前提安装webtatic rpm -Uvh https://mirror.webtatic.com/yum/el7/webtatic-release.rpm 通过yum源安装php相关软件 yum -y install php72w php72w-pdo php72w-mysqlnd php72w…...

【鸿蒙Next】优秀鸿蒙博客集锦

鸿蒙基础开发:多文件压缩上传及断点续传_鸿蒙 断点续传-CSDN博客...

【第2章:神经网络基础与实现——2.1 前馈神经网络的结构与工作原理】

老铁们好!今天我们要来一场长达两万字的超详细技术探险,我会像拆解乐高积木一样把前馈神经网络(Feedforward Neural Network)的每个零件摆在台面上,用最接地气的方式让你彻底搞懂这个深度学习基石的工作原理。准备好了吗?我们开始吧! 第一章:神经网络的 “乐高积木” 1…...

python-leetcode-阶乘后的零

172. 阶乘后的零 - 力扣(LeetCode) class Solution:def trailingZeroes(self, n: int) -> int:count 0while n > 5:n // 5count nreturn count...

Python:学生管理系统(继承性、多态性)。

输出样例如图: 题目内容: 利用继承、多态性等面向对象程序功能编写程序,实现学生管理系统,并包含以下内容: 第一,基类为学生类,并以此派生出本科生类、研究生类。 第二,本科生类包含…...

网络安全RSA加密

网络安全课相关知识: RSA预备知识 1.1 快速幂算法 顾名思义,快速幂就是快速算底数的$n$次幂。其时间复杂度为${\rm{O(log n)}}$,与朴素的$O\left( n \right)$相比,效率有了极大的提高。具体可以参考百度百科:快速幂。…...

Vue学习笔记4

Vue学习笔记 一、自定义创建项目 基于VueCli自定义创建项目架子 二、vuex基本认知 1、vuex概述 是什么:是vue的状态管理工具(插件),状态就是数据 大白话:vuex是一个插件,可以帮助我们管理vue通用的数…...

mariadb数据库的安装与部署

1、通过yum源安装mariadb数据库 yum -y install mariadb-server 2、启动mariadb数据库服务 systemctl start mariadb.service 3、配置mariadb数据库全局环境变量 systemctl enable mariadb.service 4、修改mariadb数据库默认密码,数据库默认密码为空 执行…...

单调队列与栈

一.题 1. 思路&#xff1a; 构建小压大的单调递减栈&#xff0c;对于每个栈的元素都进行处理并加到结果上 class Solution { public:int sumSubarrayMins(vector<int>& arr) {int stk[10000000],top 0;long long ans 0;for(int i 0;i<arr.size();i){while(top…...

深度学习在微纳光子学中的应用

深度学习在微纳光子学中的主要应用方向 深度学习与微纳光子学的结合主要集中在以下几个方向&#xff1a; 逆向设计 通过神经网络快速预测微纳结构的光学响应&#xff0c;替代传统耗时的数值模拟方法。例如设计超表面、光子晶体等结构。 特征提取与优化 从复杂的光学数据中自…...

大数据学习栈记——Neo4j的安装与使用

本文介绍图数据库Neofj的安装与使用&#xff0c;操作系统&#xff1a;Ubuntu24.04&#xff0c;Neofj版本&#xff1a;2025.04.0。 Apt安装 Neofj可以进行官网安装&#xff1a;Neo4j Deployment Center - Graph Database & Analytics 我这里安装是添加软件源的方法 最新版…...

Appium+python自动化(十六)- ADB命令

简介 Android 调试桥(adb)是多种用途的工具&#xff0c;该工具可以帮助你你管理设备或模拟器 的状态。 adb ( Android Debug Bridge)是一个通用命令行工具&#xff0c;其允许您与模拟器实例或连接的 Android 设备进行通信。它可为各种设备操作提供便利&#xff0c;如安装和调试…...

React Native 开发环境搭建(全平台详解)

React Native 开发环境搭建&#xff08;全平台详解&#xff09; 在开始使用 React Native 开发移动应用之前&#xff0c;正确设置开发环境是至关重要的一步。本文将为你提供一份全面的指南&#xff0c;涵盖 macOS 和 Windows 平台的配置步骤&#xff0c;如何在 Android 和 iOS…...

AI Agent与Agentic AI:原理、应用、挑战与未来展望

文章目录 一、引言二、AI Agent与Agentic AI的兴起2.1 技术契机与生态成熟2.2 Agent的定义与特征2.3 Agent的发展历程 三、AI Agent的核心技术栈解密3.1 感知模块代码示例&#xff1a;使用Python和OpenCV进行图像识别 3.2 认知与决策模块代码示例&#xff1a;使用OpenAI GPT-3进…...

CMake基础:构建流程详解

目录 1.CMake构建过程的基本流程 2.CMake构建的具体步骤 2.1.创建构建目录 2.2.使用 CMake 生成构建文件 2.3.编译和构建 2.4.清理构建文件 2.5.重新配置和构建 3.跨平台构建示例 4.工具链与交叉编译 5.CMake构建后的项目结构解析 5.1.CMake构建后的目录结构 5.2.构…...

Golang dig框架与GraphQL的完美结合

将 Go 的 Dig 依赖注入框架与 GraphQL 结合使用&#xff0c;可以显著提升应用程序的可维护性、可测试性以及灵活性。 Dig 是一个强大的依赖注入容器&#xff0c;能够帮助开发者更好地管理复杂的依赖关系&#xff0c;而 GraphQL 则是一种用于 API 的查询语言&#xff0c;能够提…...

【快手拥抱开源】通过快手团队开源的 KwaiCoder-AutoThink-preview 解锁大语言模型的潜力

引言&#xff1a; 在人工智能快速发展的浪潮中&#xff0c;快手Kwaipilot团队推出的 KwaiCoder-AutoThink-preview 具有里程碑意义——这是首个公开的AutoThink大语言模型&#xff08;LLM&#xff09;。该模型代表着该领域的重大突破&#xff0c;通过独特方式融合思考与非思考…...

linux arm系统烧录

1、打开瑞芯微程序 2、按住linux arm 的 recover按键 插入电源 3、当瑞芯微检测到有设备 4、松开recover按键 5、选择升级固件 6、点击固件选择本地刷机的linux arm 镜像 7、点击升级 &#xff08;忘了有没有这步了 估计有&#xff09; 刷机程序 和 镜像 就不提供了。要刷的时…...

自然语言处理——Transformer

自然语言处理——Transformer 自注意力机制多头注意力机制Transformer 虽然循环神经网络可以对具有序列特性的数据非常有效&#xff0c;它能挖掘数据中的时序信息以及语义信息&#xff0c;但是它有一个很大的缺陷——很难并行化。 我们可以考虑用CNN来替代RNN&#xff0c;但是…...