当前位置：首页 > news >正文

【实战 ES】实战 Elasticsearch：快速上手与深度实践-1.2.2倒排索引原理与分词器（Analyzer）

news 2026/5/27 2:00:59

👉 点击关注不迷路
👉 点击关注不迷路
👉 点击关注不迷路

文章大纲

1.2.2倒排索引原理与分词器（`Analyzer`）
- 1. `倒排索引：搜索引擎的基石`
- - 1.1 正排索引 vs 倒排索引
  - - 示例数据对比：
  - 1.2 倒排索引核心结构
  - - 压缩效果对比（`1亿文档场景`）：
  - 1.3 性能优化策略
- 2. 分词器（`Analyzer`）工作机制
- - 2.1 分词器三层处理流程
  - 2.2 内置分词器对比
  - - 分词性能测试（处理10万条商品标题）：
  - 2.3 中文分词深度解决方案
- 3. 联合应用实战案例
- - 3.1 电商搜索优化
  - 3.2 日志多语言处理
  - 3.3 敏感词过滤系统
- 4. 性能对比与最佳实践
- - 4.1 `倒排索引配置建议`
  - 4.2 分词器选择指南
  - 4.3 联合优化最佳实践

1.2.2倒排索引原理与分词器（`Analyzer`）

1. `倒排索引：搜索引擎的基石`

1.1 正排索引 vs 倒排索引

索引类型	数据结构	典型查询场景	时间复杂度
正排索引	文档ID → 字段内容	已知ID查内容（`SELECT *`）	O(1)
倒排索引	词项 → [文档ID列表]	关键词搜索（`WHERE text LIKE`）	O(log n) + O(m)

示例数据对比：

文档集合

文档ID	标题
1	Elasticsearch实战
2	搜索引擎核心技术

正排索引
倒排索引

1.2 倒排索引核心结构

倒排索引 = 词项字典（Term Dictionary） + 倒排列表（Posting List）

压缩效果对比（`1亿文档场景`）：

存储方式	原始大小	压缩后大小	查询速度
未压缩文档ID列表	400MB	-	120ms
`Roaring Bitmaps`	400MB	15MB	45ms

Roaring Bitmaps：是一种用于高效存储和操作稀疏位图（bitmap）的数据结构，通过将一个大的位图分割成多个 16 位的桶（bucket），每个桶对应一个 16 位的键值。
- 优势
  - 节省空间：对于稀疏位图，Roaring Bitmaps 比传统的位图存储方式节省大量的内存空间。
  - 高效操作：支持快速的并集、交集、差集等操作，操作速度快。
  - 易于扩展：可以方便地处理大规模的位图数据。
- 存储方式
  - 数组存储：当桶中元素较少时，使用一个短整型数组来存储这些元素。
  - 位图存储：当桶中元素较多时，使用传统的位图（bitmap）来存储。

1.3 性能优化策略

1. 索引分片（Sharding）
- 将大索引切分为多个分片并行处理
- 示例：10亿文档索引分为20个分片，查询性能提升8倍
1. 段合并（Segment Merge）
- 后台自动合并小段为更大段
- 减少打开文件数，提升IO效率
- 典型合并策略：Tiered Merge Policy
  - Tiered Merge Policy（分层合并策略）是 Elasticsearch 等搜索引擎中用于管理索引段（Segment）合并的一种策略。
  - 在搜索引擎中，新的数据写入时会生成新的索引段，随着时间推移，索引段数量会增多，这会影响查询性能，因此需要对这些索引段进行合并。
  - Tiered Merge Policy 采用分层的方式来管理和合并这些索引段，以平衡合并成本和查询性能。
- 工作原理
  - 分层存储：将索引段按照大小划分为不同的层，每一层中的索引段大小相近。较小的索引段位于较低的层，较大的索引段位于较高的层。
  - 合并规则：当某一层的索引段数量超过一定阈值时，会触发合并操作，将该层的多个索引段合并成一个或多个较大的索引段，并将其提升到上一层。

禁用不需要的特性

PUT /logs
{"mappings": {"_doc": {"properties": {"message": {"type": "text","norms": false,      // 禁用评分因子存储"index_options": "freqs"  // 不存储位置信息}}}}
}

2. 分词器（`Analyzer`）工作机制

2.1 分词器三层处理流程

在这里插入图片描述

示例：处理"Elasticsearch's 中文分词"

1. 字符过滤器：去除HTML标签、替换缩写（如将’s替换为空）
  → “Elasticsearch 中文分词”
1. 分词器：按空格/标点切分
  → [“Elasticsearch”, “中文”, “分词”]
1. Token过滤器：转小写、移除停用词
  → [“elasticsearch”, “中文”, “分词”]

2.2 内置分词器对比

分词器类型	处理逻辑	`中文支持`	示例输入 → 输出
Standard	按Unicode文本分割，转小写	差	“Elasticsearch实战” → [“elasticsearch”, “实战”]
Simple	非字母字符切分，保留大写	无	“Hello-World” → [“Hello”, “World”]
Whitespace	按空格切分，保留原始大小写	无	“Hello World” → [“Hello”, “World”]
`IK``（中文增强）`	`智能语义切分`	`优秀`	“搜索引擎” → [“搜索”, “引擎”, “搜索引擎”]

分词性能测试（处理10万条商品标题）：

分词器	耗时（秒）	内存占用（GB）	准确率（F1值）
Standard	4.2	1.8	0.62
IK	6.7	2.5	0.89
`Jieba`	5.9	2.1	`0.91`

2.3 中文分词深度解决方案

痛点分析：
- 歧义切分（如"南京市长江大桥" → 南京/市长/江大桥或南京市/长江/大桥）
- 新词识别（如网络用语"奥利给"）
IK分词器实战配置：

PUT /news
{"settings": {"analysis": {"analyzer": {"ik_smart_custom": {"type": "custom","tokenizer": "ik_smart","filter": ["lowercase", "stopwords_filter"]}},"filter": {"stopwords_filter": {"type": "stop","stopwords": ["的", "是", "了"]}}}}
}

3. 联合应用实战案例

3.1 电商搜索优化

需求：提升"女士冬季羽绒服"搜索准确率

解决方案：

1. 使用IK分词器配置同义词

"filter": {"synonym_filter": {"type": "synonym","synonyms": ["羽绒服 => 羽绒衣, 羽绒外套"]}
}

1. 倒排索引存储词项位置信息

"mappings": {"properties": {"title": {"type": "text","index_options": "offsets"  // 存储位置信息用于短语匹配}}
}

效果：
搜索召回率提升37%
相关商品点击率（CTR）从22%提升至41%

3.2 日志多语言处理

场景：国际业务日志含中/英/日文本
配置方案：

PUT /logs
{"settings": {"analysis": {"analyzer": {"multi_lang": {"type": "custom","char_filter": ["html_strip"],"tokenizer": "standard","filter": ["lowercase","cjk_width"  // 全角转半角（处理日语）]}}}}
}

处理效果：
- 日文文本 “エラーメッセージ” → [“エラーメッセージ”]
- 中文文本 “错误信息” → [“错”, “误”, “信”, “息”]

3.3 敏感词过滤系统

实现方案：

1. 自定义字符过滤器

"char_filter": {"sensitive_filter": {"type": "mapping","mappings": ["傻X => **", "垃圾 => **"]}
}

1. 在分词器链中应用

"analyzer": {"safe_analyzer": {"char_filter": ["sensitive_filter"],"tokenizer": "ik_smart"}
}

测试结果：
原始文本：“这个产品简直是垃圾！”
处理后词项：[“这个”, “产品”, “简直”, “是”, “**”]

4. 性能对比与最佳实践

4.1 `倒排索引配置建议`

场景	推荐配置	预期收益
高频短语查询	启用`index_options: positions`	短语查询速度提升3倍
大文本存储	禁用`_source`字段 + 开启`best_compression`	存储空间减少40%
实时性要求高	设置`refresh_interval: 30s`	写入吞吐量提升120%

4.2 分词器选择指南

场景	推荐分词器	关键特性
中文搜索	`IK分词器`	`细粒度切分 + 新词识别`
多语言混合	标准分词器 + 小写过滤	基础分词 + 统一规范化
`代码/日志分析`	`白名单分词器`	保留特殊符号（如`HTTP_200`）

4.3 联合优化最佳实践

1. 冷热数据分层
- 热数据：SSD存储 + 高副本数（保障查询性能）
- 冷数据：HDD存储 + 禁用副本（降低成本）

混合索引策略

PUT /products
{"settings": {"index": {"number_of_shards": 6,"number_of_replicas": 1,"analysis": { ... }}},"mappings": {"dynamic_templates": [{"strings_as_keywords": {"match_mapping_type": "string","mapping": { "type": "keyword" }}}]}
}

1. 监控与调优
- 使用_analyzeAPI测试分词效果
```
GET /_analyze
{"analyzer": "ik_smart","text": "自然语言处理技术"
}
```
- 通过indices.stats接口监控索引性能

【实战 ES】实战 Elasticsearch：快速上手与深度实践-1.2.2倒排索引原理与分词器（Analyzer）

👉 点击关注不迷路 👉 点击关注不迷路 👉 点击关注不迷路文章大纲 1.2.2倒排索引原理与分词器（Analyzer）1. 倒排索引：搜索引擎的基石1.1 正排索引 vs 倒排索引示例数据对比： 1.2 倒排索引核心结…...

编程日记 2025/2/28 6:17:45

Vue.js响应式基础

响应式基础 API 参考本页和后面很多页面中都分别包含了选项式 API 和组合式 API 的示例代码。现在你选择的是组合式 API。你可以使用左侧侧边栏顶部的“API 风格偏好”开关在 API 风格之间切换。声明响应式状态 ref() 在组合式 API 中，推荐使用 ref() 函数来声明…...

编程日记 2025/2/28 6:16:43

DeepSeek-OpenSourceWeek-第四天-Optimized Parallelism Strategies

DeepSeek 在 #OpenSourceWeek（开源周）的第四天推出了两项新工具，旨在让深度学习更快、更高效：**DualPipe** 和 **EPLB**。 DualPipe 定义：DualPipe 是一种用于 V3/R1 训练中计算与通信重叠的双向pipline并行算法。作用：它通过实现前向和后向计算-通信阶段的完全重叠，减…...

编程日记 2025/2/28 6:15:37

深入浅出：插入排序算法完全解析

1. 什么是插入排序？ 插入排序（Insertion Sort）是一种简单的排序算法，其基本思想与我们整理扑克牌的方式非常相似。我们将扑克牌从第二张开始依次与前面已排序的牌进行比较，将其插入到合适的位置，直到所有牌…...

编程日记 2025/2/28 6:14:34

【Keras图像处理入门：图像加载与预处理全解析】

本文将全面讲解如何使用Keras进行图像加载、预处理和数据增强，为深度学习模型准备高质量的图像数据。一、单张图像处理基础 1. 图像加载与尺寸调整 from keras.preprocessing import image# 加载图像并调整尺寸 img image.load_img(example.jpg, target_size(1…...

编程日记 2025/2/28 6:13:32

企业级AI办公落地实践：基于钉钉/飞书的标准产品解决方案

一、平台化AI的崛起：开箱即用的智能革命 2024年企业AI应用调研数据显示： 73%的中型企业选择平台标准产品而非自研头部SaaS平台AI功能渗透率达89%典型ROI周期从18个月缩短至3-6个月核心优势对比： 维度自研方案平台标准产品部署周期6-12个…...

编程日记 2025/2/28 6:12:31

对于邮箱地址而言，短中划线（Hyphen, -）和长中划线（Em dash, —）有区别吗

对于邮箱地址而言，**短中划线（Hyphen, -）和长中划线（Em dash, —）**有明确的区别： 短中划线（Hyphen, -）： 在邮箱地址中，短中划线是可以使用的，通常…...

编程日记 2025/2/28 6:11:30

C++ STL（三）list

目录 list是什么构造函数元素访问容量操作修改迭代器 code实例实现简单的list forward_list是什么构造函数元素访问容量修改迭代器 code实例实现一个简单的forward_list list是什么 std::list 是 C 标准模板库（STL）中的一个…...

编程日记 2025/2/28 6:09:28

Vue3+TypeScript 封装一个好用的防抖节流自定义指令

一、前言：为什么需要防抖节流？ 在前端开发中，高频触发的事件（如滚动、输入、点击等）容易导致性能问题。防抖（debounce） 和节流（throttle） 是两种常用的优化手段&#x…...

编程日记 2025/2/28 6:08:27

HarmonyOS+Django实现图片上传

话不多说，直接看代码： HarmonyOS部分代码 import { router } from "kit.ArkUI" import PreferencesUtil from "../utils/PreferencesUtil" import { photoAccessHelper } from "kit.MediaLibraryKit" import fs from oh…...

编程日记 2025/2/28 6:07:26

vscode 版本

vscode官网 Visual Studio Code - Code Editing. Redefined 但是官网只提供最新在之前的版本就要去github找了 https://github.com/microsoft/vscode/releases 获取旧版本vscode安装包的方法_vscode 老版本-CSDN博客...

编程日记 2025/2/28 6:06:23

Python 爬虫实战案例 - 获取拉勾网招聘职位信息

引言拉勾网，作为互联网招聘领域的佼佼者，汇聚了海量且多样的职位招聘信息。这些信息涵盖了从新兴科技领域到传统行业转型所需的各类岗位，无论是初出茅庐的应届生，还是经验丰富的职场老手，都能在其中探寻到机遇。对…...

编程日记 2025/2/28 6:05:21

结构型模式---外观模式

概念外观模式是一种结构型设计模式，它的核心思想是为复杂的子系统提供一个统一的接口，简化客户端与子系统的交互。外观模式通过引入一个高层接口，隐藏子系统的复杂性，使客户端更容易使用。适用场景用于客户端无需具体操作子…...

编程日记 2025/2/28 6:04:19

Docker数据卷操作实战

什么是数据卷数据卷是一个可供一个或多个容器使用的特殊目录，它绕过 UFS，可以提供很多有用的特性: 数据卷可以在容器之间共享和享用对数据卷的修改立马生效对数据卷的更新，不会影响镜像数据卷默认会一直存在，即时容器被…...

编程日记 2025/2/28 6:03:16

技术速递｜Copilot Usage Advanced Dashboard 教程

作者：Xuefeng Yin 排版：Alan Wang Copilot Usage Advanced Dashboard 是为了充分利用 GitHub Copilot API 中的几乎所有数据，用到的 API 有： List teams of an onganization Get a summary of Copilot metrics for a team Get C…...

编程日记 2025/2/28 6:01:13

【Python爬虫(90)】以Python爬虫为眼，洞察金融科技监管风云

【Python爬虫】专栏简介：本专栏是 Python 爬虫领域的集大成之作，共 100 章节。从 Python 基础语法、爬虫入门知识讲起，深入探讨反爬虫、多线程、分布式等进阶技术。以大量实例为支撑，覆盖网页、图片、音频等各类数据爬取，还涉及数据处理与分析。无论是新手小白还是进阶开发…...

编程日记 2025/2/28 6:00:11

Shell学习(1/6) 教程-变量

一、教程 Shell 是一个用 C 语言编写的程序，它是用户使用 Linux 的桥梁。Shell 既是一种命令语言，又是一种程序设计语言。 Shell 是指一种应用程序，这个应用程序提供了一个界面，用户通过这个界面访问操作系统内核的服务。 Shell…...

编程日记 2025/2/28 5:59:10

《Qt窗口动画实战：Qt实现呼吸灯效果》

Qt窗口动画实战：Qt实现呼吸灯效果在嵌入式设备或桌面应用中，呼吸灯效果是一种常见且优雅的UI动画，常用于指示系统状态或吸引用户注意。本文将介绍如何使用Qt动画框架实现平滑的呼吸灯效果。一、实现原理利用Qt自带的动画框架来实现&…...

编程日记 2025/2/28 5:58:08

RabbitMQ系列（六）基本概念之Routing Key

在 RabbitMQ 中，Routing Key（路由键） 是用于将消息从交换机（Exchange）路由到指定队列（Queue）的关键参数。其核心作用是通过特定规则匹配绑定关系，确保消息被正确分发。以下是其核心机…...

编程日记 2025/2/28 5:57:06

Spring Boot 集成 Kafka

在现代软件开发中，分布式系统和微服务架构越来越受到关注。为了实现系统之间的异步通信和解耦，消息队列成为了一种重要的技术手段。Kafka 作为一种高性能、分布式的消息队列系统，被广泛应用于各种场景。而 Spring Boot 作为一种流行的 Java 开…...

编程日记 2025/2/28 5:55:04

3分钟快速上手：用BetterNCM安装器彻底改造你的网易云音乐

3分钟快速上手：用BetterNCM安装器彻底改造你的网易云音乐【免费下载链接】BetterNCM-Installer 一键安装 Better 系软件项目地址: https://gitcode.com/gh_mirrors/be/BetterNCM-Installer 还在使用功能单一的网易云音乐吗？想不想让你的播放器拥…...

编程新知 2026/5/26 4:48:24

软阴影：那个让虚拟世界“温柔起来“的光影小秘密

一、从一只小猫的影子说起前几天我在朋友家做客，他家养了一只胖乎乎的橘猫，正趴在阳台的窗边晒太阳。我无意间瞥了一眼那只猫脚边的影子，突然被一个细节震撼了—— 那只猫的影子——并不是一片均匀的黑。仔细看——猫肚子紧贴地板的地方——…...

编程新知 2026/5/26 2:29:35

Windows文件夹共享

目标：同一局域网实现在一台计算机上共享文件夹，在另一台电脑访问一、电脑A 1.点击要共享的文件夹 -> 属性 -> 共享2.添加Everyone用户组3.控制面板中网络共享关闭密码保存，在访问时不用输入账号密码。二、电脑B 1.在文件资源管理器路径…...

编程新知 2026/5/25 23:39:42

DIY四路自动音频源切换器：从信号检测到继电器隔离的完整设计

1. 项目概述与核心需求解析作为一个喜欢在工作室里捣鼓各种音频设备的玩家，我经常遇到一个挺烦人的问题：我的功放只有一组输入，但我想接的设备却有好几个——台式电脑、平板、蓝牙接收模块，还有一台树莓派。每次想切换音源&#x…...

编程新知 2026/5/25 20:59:15

NanaZip：现代Windows文件压缩问题的终极解决方案

NanaZip：现代Windows文件压缩问题的终极解决方案【免费下载链接】NanaZip The 7-Zip derivative intended for the modern Windows experience 项目地址: https://gitcode.com/gh_mirrors/na/NanaZip 还在为Windows文件压缩工具界面老旧、功能单一而烦恼吗&…...

编程新知 2026/5/25 20:22:05

UE4SS终极指南：从零开始掌握虚幻引擎脚本系统【免费下载链接】RE-UE4SS Injectable LUA scripting system, SDK generator, live property editor and other dumping utilities for UE4/5 games 项目地址: https://gitcode.com/gh_mirrors/re/RE-UE4SS UE4S…...

编程新知 2026/5/26 20:05:55