当前位置：首页 > news >正文

【2024软考架构案例题】你知道 Es 的几种分词器吗？Standard、Simple、WhiteSpace、Keyword 四种分词器你知道吗？

news 2026/5/22 7:55:16

👉博主介绍：博主从事应用安全和大数据领域，有8年研发经验，5年面试官经验，Java技术专家，WEB架构师，阿里云专家博主，华为云云享专家，51CTO 专家博主

⛪️ 个人社区：个人社区
💞 个人主页：个人主页
🙉 专栏地址： ✅ Java 中级
🙉八股文专题：剑指大厂，手撕 Java 八股文

在这里插入图片描述

文章目录

- - 1. 什么是 Standard 分词器？
  - 2. 什么是 Simple 分词器？
  - 3. 什么是 WhiteSpace 分词器？
  - 4. 什么是 Keyword 分词器？

1. 什么是 Standard 分词器？

Standard 分词器（Standard Tokenizer）是 Elasticsearch 和 Lucene 中最常用的分词器之一。它主要用于处理自然语言文本，能够识别单词、数字、电子邮件地址、URL 等，并将它们分割成单独的词元（tokens）。Standard 分词器遵循 Unicode 文本分段算法（Unicode Text Segmentation Algorithm），能够处理多种语言的文本。

特点：

识别单词：能够识别常见的单词边界。
处理标点符号：会忽略大多数标点符号，但保留电子邮件地址和 URL。
处理数字：能够识别并保留数字。
处理特殊字符：能够处理一些特殊字符，如连字符和撇号。

示例：

POST _analyze
{"analyzer": "standard","text": "Elasticsearch is a powerful search engine. Visit https://www.elastic.co for more information."
}

输出：

{"tokens": [{ "token": "elasticsearch", "start_offset": 0, "end_offset": 11, "type": "<ALPHANUM>", "position": 0 },{ "token": "is", "start_offset": 12, "end_offset": 14, "type": "<ALPHANUM>", "position": 1 },{ "token": "a", "start_offset": 15, "end_offset": 16, "type": "<ALPHANUM>", "position": 2 },{ "token": "powerful", "start_offset": 17, "end_offset": 25, "type": "<ALPHANUM>", "position": 3 },{ "token": "search", "start_offset": 26, "end_offset": 32, "type": "<ALPHANUM>", "position": 4 },{ "token": "engine", "start_offset": 33, "end_offset": 39, "type": "<ALPHANUM>", "position": 5 },{ "token": "visit", "start_offset": 41, "end_offset": 46, "type": "<ALPHANUM>", "position": 6 },{ "token": "https", "start_offset": 47, "end_offset": 52, "type": "<ALPHANUM>", "position": 7 },{ "token": "www.elastic.co", "start_offset": 53, "end_offset": 68, "type": "<ALPHANUM>", "position": 8 },{ "token": "for", "start_offset": 70, "end_offset": 73, "type": "<ALPHANUM>", "position": 9 },{ "token": "more", "start_offset": 74, "end_offset": 78, "type": "<ALPHANUM>", "position": 10 },{ "token": "information", "start_offset": 79, "end_offset": 90, "type": "<ALPHANUM>", "position": 11 }]
}

2. 什么是 Simple 分词器？

Simple 分词器（Simple Tokenizer）是一个简单的分词器，它将文本按非字母字符（如空格、标点符号等）分割成词元。它只保留字母字符，并将所有字母转换为小写。

特点：

简单分割：只按非字母字符分割。
小写转换：将所有字母转换为小写。
不处理数字：数字被视为非字母字符，会被分割掉。

示例：

POST _analyze
{"tokenizer": "simple_pattern","text": "Elasticsearch is a powerful search engine. Visit www.elastic.co for more information."
}

输出：

{"tokens": [{ "token": "elasticsearch", "start_offset": 0, "end_offset": 11, "type": "word", "position": 0 },{ "token": "is", "start_offset": 12, "end_offset": 14, "type": "word", "position": 1 },{ "token": "a", "start_offset": 15, "end_offset": 16, "type": "word", "position": 2 },{ "token": "powerful", "start_offset": 17, "end_offset": 25, "type": "word", "position": 3 },{ "token": "search", "start_offset": 26, "end_offset": 32, "type": "word", "position": 4 },{ "token": "engine", "start_offset": 33, "end_offset": 39, "type": "word", "position": 5 },{ "token": "visit", "start_offset": 41, "end_offset": 46, "type": "word", "position": 6 },{ "token": "wwwelasticco", "start_offset": 50, "end_offset": 62, "type": "word", "position": 7 },{ "token": "for", "start_offset": 64, "end_offset": 67, "type": "word", "position": 8 },{ "token": "more", "start_offset": 68, "end_offset": 72, "type": "word", "position": 9 },{ "token": "information", "start_offset": 73, "end_offset": 84, "type": "word", "position": 10 }]
}

3. 什么是 WhiteSpace 分词器？

WhiteSpace 分词器（Whitespace Tokenizer）是最简单的分词器之一，它仅按空格分割文本，不处理其他标点符号或特殊字符。

特点：

按空格分割：只按空格分割文本。
保留所有字符：不忽略任何字符，包括标点符号和数字。

示例：

POST _analyze
{"tokenizer": "whitespace","text": "Elasticsearch is a powerful search engine. Visit www.elastic.co for more information."
}

输出：

{"tokens": [{ "token": "Elasticsearch", "start_offset": 0, "end_offset": 11, "type": "word", "position": 0 },{ "token": "is", "start_offset": 12, "end_offset": 14, "type": "word", "position": 1 },{ "token": "a", "start_offset": 15, "end_offset": 16, "type": "word", "position": 2 },{ "token": "powerful", "start_offset": 17, "end_offset": 25, "type": "word", "position": 3 },{ "token": "search", "start_offset": 26, "end_offset": 32, "type": "word", "position": 4 },{ "token": "engine.", "start_offset": 33, "end_offset": 40, "type": "word", "position": 5 },{ "token": "Visit", "start_offset": 41, "end_offset": 46, "type": "word", "position": 6 },{ "token": "www.elastic.co", "start_offset": 47, "end_offset": 62, "type": "word", "position": 7 },{ "token": "for", "start_offset": 63, "end_offset": 66, "type": "word", "position": 8 },{ "token": "more", "start_offset": 67, "end_offset": 71, "type": "word", "position": 9 },{ "token": "information.", "start_offset": 72, "end_offset": 85, "type": "word", "position": 10 }]
}

4. 什么是 Keyword 分词器？

Keyword 分词器（Keyword Tokenizer）是一个不分词的分词器，它将整个输入文本作为一个单一的词元处理。这意味着输入文本不会被分割成多个词元。

特点：

不分词：将整个输入文本作为一个词元处理。
保留原样：不进行任何转换或修改。

示例：

POST _analyze
{"tokenizer": "keyword","text": "Elasticsearch is a powerful search engine. Visit www.elastic.co for more information."
}

输出：

{"tokens": [{ "token": "Elasticsearch is a powerful search engine. Visit www.elastic.co for more information.", "start_offset": 0, "end_offset": 85, "type": "word", "position": 0 }]
}

Standard 分词器：适用于自然语言文本，能够识别单词、数字、电子邮件地址和 URL。
Simple 分词器：简单地按非字母字符分割文本，并将所有字母转换为小写。
WhiteSpace 分词器：仅按空格分割文本，保留所有字符。
Keyword 分词器：将整个输入文本作为一个单一的词元处理，不分词。

这些分词器各有特点，适用于不同的场景。选择合适的分词器可以提高搜索和索引的效率和准确性。

精彩专栏推荐订阅：在下方专栏👇🏻
✅ 2023年华为OD机试真题（A卷&B卷）+ 面试指导
✅ 精选100套 Java 项目案例
✅ 面试需要避开的坑（活动）
✅ 你找不到的核心代码
✅ 带你手撕 Spring
✅ Java 初阶

在这里插入图片描述

【2024软考架构案例题】你知道 Es 的几种分词器吗？Standard、Simple、WhiteSpace、Keyword 四种分词器你知道吗？

👉博主介绍： 博主从事应用安全和大数据领域，有8年研发经验，5年面试官经验，Java技术专家，WEB架构师，阿里云专家博主，华为云云享专家，51CTO 专家博主 ⛪️ 个人社区&#x…...

编程日记 2024/11/14 17:10:11

Elman 神经网络 MATLAB 函数详解

Elman 神经网络 MATLAB 函数详解一、引言 Elman 神经网络是一种在时间序列分析和动态系统建模领域广泛应用的递归神经网络（RNN）。MATLAB 提供了一系列强大的函数来创建、训练和应用 Elman 神经网络，使得用户能够方便地利用其处理具有时间序…...

编程日记 2024/11/14 17:08:09

vue el-date-picker 日期选择器禁用失效问题

当value-format"yyyy-MM-dd"的格式不要改为"yyyyMMdd"，否则会导致日期选择器禁用失效问题，因为该组件默认的格式就是yyyy-MM-dd。 <el-col v-for"(item, index) in formData" :key"index" ><el-date-…...

编程日记 2024/11/14 17:07:04

搭建Python2和Python3虚拟环境

搭建Python3虚拟环境 1. 更新pip2. 搭建Python3虚拟环境第一步：安装python虚拟化工具第二步： 创建虚拟环境 3. 搭建Python2虚拟环境第一步：安装虚拟环境模块第二步：创建虚拟环境 4. workon命令管理虚拟机第一步：安装扩…...

编程日记 2024/11/14 17:06:02

【HarmonyOS NEXT】一次开发多端部署（以轮播图、Tab栏、列表为例，配合栅格布局与媒体查询，进行 UI 的一多开发）

关键词：一多、响应式、媒体查询、栅格布局、断点、UI 随着设备形态的逐渐增多，应用界面适配也面临着很大问题，在以往的安卓应用开发过程中，往往需要重新开发一套适用于大屏展示的应用，耗时又耗力，而鸿蒙提供…...

编程日记 2024/11/14 17:05:01

ubontu--cuDNN安装

1. 下载 cuDNN https://developer.nvidia.com/cudnn 2. 拷贝到服务器/home/<username>文件夹下解压缩到当前文件夹： tar -xvf cudnn-linux-x86_64-9.5.1.17_cuda11-archive.tar.xz复制头文件和库文件到cuda安装目录/usr/local/cuda/ sudo cp /home/usern…...

编程日记 2024/11/14 17:04:00

高项 - 项目范围管理

个人总结，仅供参考，欢迎加好友一起讨论博文更新参考时间点：2024-12 高项 - 章节与知识点汇总：点击跳转文章目录高项 - 项目范围管理范围管理ITO规划监控管理基础产品范围与项目范围管理新实践 5大过程组与范围管理过程概述裁…...

编程日记 2024/11/14 17:01:58

如何获取PostgreSQL慢查询？从小白到高手的实战指南

数据库优化是性能调优的核心，而慢查询则是性能瓶颈的罪魁祸首。如何找到慢查询并优化它们，是每个开发者和DBA都必须掌握的技能。今天，我们就来聊聊如何在PostgreSQL中快速获取慢查询日志，并结合不同场景进行分析优化。本文风格参…...

编程日记 2024/11/14 17:00:57

golang分布式缓存项目 Day4 一致性哈希

注：该项目原作者：https://geektutu.com/post/geecache-day1.html。本文旨在记录本人做该项目时的一些疑惑解答以及部分的测试样例以便于本人复习为什么使用一致性哈希我该访问谁对于分布式缓存来说，当一个节点接收到请求，如…...

编程日记 2024/11/14 16:53:50

ARM 汇编指令

blr指令的基本概念和用途在 ARM64 汇编中，blr是 “Branch with Link to Register” 的缩写。它是一种分支指令，主要用于跳转到一个由寄存器指定的地址，并将返回地址保存到链接寄存器（Link Register，LR）中。…...

编程日记 2024/11/14 16:52:49

打造个性化体验：在Axure中创建你的专属组件库

打造个性化体验：在Axure中创建你的专属组件库在数字产品设计的浪潮中，效率和一致性是设计团队追求的两大圣杯。随着项目的不断扩展，重复性的工作逐渐增多，设计师们开始寻找能够提高工作效率、保持设计一致性的解决方案。而 …...

编程日记 2024/11/14 16:51:48

如何用WordPress和Shopify提升SEO表现？

选择合适的建站程序对于SEO优化非常重要。目前，WordPress和Shopify是两种备受推崇的建站平台，各有优势。 WordPress最大的优点是灵活性。它支持大量SEO插件，帮助你调整元标签、生成站点地图、优化内容结构等。这些功能让你能够轻松地提升网站…...

编程日记 2024/11/14 16:47:43

不泄密的安全远程控制软件需要哪些技术

在数字化浪潮中，远程控制软件已不再是简单的辅助工具，而是成为企业运作和日常工作中不可或缺的一部分。随着远程办公模式的广泛采纳，这些软件提供了一种既安全又高效的途径来管理和访问远端系统。无论是在家办公、技术支持还是远程教育&#…...

编程日记 2024/11/14 16:46:41

rust高级特征

文章目录不安全的rust解引用裸指针裸指针与引用和智能指针的区别裸指针使用解引用运算符 *，这需要一个 unsafe 块调用不安全函数或方法在不安全的代码之上构建一个安全的抽象层使用 extern 函数调用外部代码rust调用C语言函数rust接口被C语言程序调用访问或修改可…...

编程日记 2024/11/14 16:45:40

STM32F407简单驱动步进电机（标准库）

配置单片机型号：STM32F104ZGT6 步进电机：YK28HB40-01A 驱动器：YKD2204M-Plus 接线方式： pu：接对应的产生PWM的引脚，这里接PF9，对应TIM14_CH1通道！ pu-：接单片机的G…...

编程日记 2024/11/14 16:43:38

使用热冻结数据层生命周期优化在 Elastic Cloud 中存储日志的成本

作者：来自 Elastic Jonathan Simon 收集数据对于可观察性和安全性至关重要，而确保数据能够快速搜索且获得低延迟结果对于有效管理和保护应用程序和基础设施至关重要。但是，存储所有这些数据会产生持续的存储成本，这为节省成本创造…...

编程日记 2024/11/14 16:41:33

LeetCode131. 分割回文串（2024冬季每日一题 4）

给你一个字符串 s，请你将 s 分割成一些子串，使每个子串都是回文串。返回 s 所有可能的分割方案。示例 1： 输入：s “aab” 输出：[[“a”,“a”,“b”],[“aa”,“b”]] 示例 2： 输入：s “a…...

编程日记 2024/11/14 16:37:28

万字长文解读深度学习——训练（DeepSpeed、Accelerate）、优化（蒸馏、剪枝、量化）、部署细节

🌺历史文章列表🌺 深度学习——优化算法、激活函数、归一化、正则化深度学习——权重初始化、评估指标、梯度消失和梯度爆炸深度学习——前向传播与反向传播、神经网络（前馈神经网络与反馈神经网络）、常见算法概要汇总万字长文解读…...

编程日记 2024/11/14 16:32:24

STM32—独立看门狗（IWDG）和窗口看门狗（WWDG）

概述： WDG(Watchdog) 看门狗，看门狗可以监控程序的运行状态，当程序因为设计漏洞、硬件故障、电磁干扰等原因，出现卡死或跑飞现象时，看门狗能计时复位程序，避免程序陷入长时间的罢工状态，保证系…...

编程日记 2024/11/14 16:28:19

ks8 本地化部署 F5-TTS

huggingface上有一个demo可以打开就能玩 https://huggingface.co/spaces/mrfakename/E2-F5-TTS 上传了一段懂王的演讲片段，然后在 generate text框内填了点古诗词，生成后这语气这效果，离真懂王就差一个手风琴了。 F5-TTS 项目地址&#xf…...

编程日记 2024/11/14 16:25:14

1分钟带你认识分辨率帧率，码率 HDR 的作用

日常刷视频，刷到关于剪辑的只是，就会老是听到一些分辨率，帧率码率 HDR 这个名字，那你一定很好奇，这些是什么，有什么作用，今天小编就用最简单直白的话，一分钟带你搞懂四大核心参数的…...

编程新知 2026/5/22 6:54:14

WTEW的操作记录

WTEW的操作记录WTEW事务代码的操作记录WTEW事务代码的操作记录 1、查询贸易合同信息如果是自己创建可以使用WB21、WB22、WB23事务码，如果是税码更新用WBRP更新价格 2、创建后续单据，采购TC创建采购订单，销售TC创建销售订单，注…...

编程新知 2026/5/22 6:29:27

影刀RPA 企业级专题篇：多租户自动化平台与账号环境隔离设计

影刀RPA 企业级专题篇：多租户自动化平台与账号环境隔离设计作者：林焱很多自动化系统前期。其实都默认只有一个“使用方”。几个流程。几台执行机。统一浏览器环境。前期问题不大。但真正进入企业级阶段以后。系统会逐渐出现&#xff1…...

编程新知 2026/5/22 5:15:08

关于国内SDR（成都振芯）的介绍说明

概述软件无线电（SDR）是一种无线电通信技术，其关键功能（如调制解调、滤波、变频等）通过软件在可编程硬件（如FPGA、DSP）上实现，而非依赖固定的硬件电路。这使得无线电设备具有高度的灵…...

编程新知 2026/5/22 3:28:31

GitHub 被黑或因员工安装 Nx Console 恶意扩展引发，更多详情待调查

聚焦源代码安全，网罗国内外最新资讯！ 编译：代码卫士专栏供应链安全数字化时代，软件无处不在。软件如同社会中的“虚拟人”，已经成为支撑社会正常运转的最基本元素之一，软件的安全性问题也正在成为当今社会的…...

编程新知 2026/5/22 3:02:33

java springboot-vue社区资源共享系统社区活动报名系统

目录同行可拿货,招校园代理 ,本人源头供货商项目概述技术栈核心功能模块系统架构设计部署方案扩展性设计项目技术支持源码获取详细视频演示 ：同行可合作点击我获取源码->->进我个人主页-->获取博主联系方式同行可拿货,招校园代理 ,本人源头供货商项目概述…...

编程新知 2026/5/22 2:49:08

Unity TMP InputField光标稳定方案：字体、渲染与输入法深度适配

1. 为什么InputField光标会“消失”、错位、卡死——不是Bug，是渲染管线的底层博弈你有没有在Unity项目里遇到过这样的场景：UI界面一切正常，唯独InputField的光标不显示；或者光标明明在文字末尾，点击却跳到中间&#…...

编程新知 2026/5/22 2:25:44

Array作为顶层参数-优化设计(二)

一、核心代码#include "array_FIFO.h"void array_FIFO (dout_t d_o[4], din_t d_i[4], didx_t idx[4]) { //void array_FIFO (dout_t d_o[4], din_t *d_i, didx_t idx[4]) { #pragma HLS INTERFACE s_axilite register depth4 portd_i //#pragma HLS INTERFACE s_axi…...

编程新知 2026/5/21 23:47:03

收藏必备！小白程序员轻松上手大模型：RAG技术实战指南（含评测体系）

本文深入浅出地解析了RAG（检索增强生成）技术在大模型开发中的应用，覆盖了从文档加载、智能切分到索引构建、检索优化、生成调优的全链路实战指南，并介绍了进阶的Graph RAG和多跳推理。特别强调了“可测、可调、可信赖”的RAG工程化…...

编程新知 2026/5/21 23:43:02

JetBrains IDE试用期重置终极指南：轻松解决IDE过期问题

JetBrains IDE试用期重置终极指南：轻松解决IDE过期问题【免费下载链接】ide-eval-resetter 项目地址: https://gitcode.com/gh_mirrors/id/ide-eval-resetter 你是否曾经遇到过这样的困扰：正在专注编码时，突然弹出的"试用期已结…...

编程新知 2026/5/21 22:35:06

文章目录

1. 什么是 Standard 分词器？

2. 什么是 Simple 分词器？

3. 什么是 WhiteSpace 分词器？

4. 什么是 Keyword 分词器？

相关文章：