当前位置：首页 > news >正文

ElasticSearch映射分词

news 2026/5/3 22:56:10

弃用Type

why

映射

查询 mapping of index

创建 index with mapping

添加 field with mapping

数据迁移

1.新建一个 index with correct mapping

2.数据迁移 reindex data into that index

分词

POST _analyze

自定义词库

ik分词器

circuit_breaking_exception

弃用Type

ES 6.x 之前，Type 开始弃用

ES 7.x ，被弱化，仍支持

ES 8.x ，完全移除

弃用后，每个索引只包含一种文档类型

如果需要区分不同类型的文档，俩种方式：

创建不同的索引
在文档中添加自定义字段来实现。

why

Elasticsearch 的底层存储（Lucene）是基于索引的，而不是基于 Type 的。

在同一个索引中，不同 Type 的文档可能具有相同名称但不同类型的字段，这种字段类型冲突会导致数据不一致和查询错误。

GET /bank/_search
{"query": {"match": {"address": "mill lane"}},"_source": ["account_number","address"]
}

从查询语句可以看出，查询是基于index的，不会去指定type。如果有不同type的address，就会引起查询冲突。

映射

Mapping 定义 doc和field 如何被存储和被检索

Mapping（映射） 是 Elasticsearch 中用于定义文档结构和字段类型的机制。它类似于关系型数据库中的表结构（Schema），用于描述文档中包含哪些字段、字段的数据类型（如文本、数值、日期等），以及字段的其他属性（如是否分词、是否索引等）。

Mapping 是 Elasticsearch 的核心概念之一，它决定了数据如何被存储、索引和查询。

查询 mapping of index

_mapping

GET /bank/_mapping

{"bank" : {"mappings" : {"properties" : {"account_number" : {"type" : "long"},"address" : {"type" : "text","fields" : {"keyword" : {"type" : "keyword","ignore_above" : 256}}},"age" : {"type" : "long"},"balance" : {"type" : "long"},"city" : {"type" : "text","fields" : {"keyword" : {"type" : "keyword","ignore_above" : 256}}},"email" : {"type" : "text","fields" : {"keyword" : {"type" : "keyword","ignore_above" : 256}}},"employer" : {"type" : "text","fields" : {"keyword" : {"type" : "keyword","ignore_above" : 256}}},"firstname" : {"type" : "text","fields" : {"keyword" : {"type" : "keyword","ignore_above" : 256}}},"gender" : {"type" : "text","fields" : {"keyword" : {"type" : "keyword","ignore_above" : 256}}},"lastname" : {"type" : "text","fields" : {"keyword" : {"type" : "keyword","ignore_above" : 256}}},"state" : {"type" : "text","fields" : {"keyword" : {"type" : "keyword","ignore_above" : 256}}}}}}
}

text 可以添加子field ---keyword，类型是 keyword。keyword存储精确值

创建 index with mapping

Put /{indexName}

Put /my_index
{"mappings": {"properties": {"account_number": {"type": "long"},"address": {"type": "text","fields": {"keyword": {"type": "keyword","ignore_above": 256}}},"city": {"type": "keyword"}}}
}

添加 field with mapping

PUT /{indexName}/_mapping + mapping.properties请求体

PUT /my_index/_mapping
{"properties": {"state": {"type": "keyword","index": false}}
}

"index": false 该字段无法被索引，不会参与检索默认true

数据迁移

ES不支持修改已存在的mapping。若想更新已存在的mapping，就要进行数据迁移。

1.新建一个 index with correct mapping

PUT /my_bank
{"mappings": {"properties": {"account_number": {"type": "long"},"address": {"type": "text","fields": {"keyword": {"type": "keyword","ignore_above": 256}}},"age": {"type": "integer"},"balance": {"type": "long"},"city": {"type": "keyword"},"email": {"type": "keyword"},"employer": {"type": "keyword"},"firstname": {"type": "text","fields": {"keyword": {"type": "keyword","ignore_above": 256}}},"gender": {"type": "keyword"},"lastname": {"type": "text","fields": {"keyword": {"type": "keyword","ignore_above": 256}}},"state": {"type": "keyword"}}}
}

2.数据迁移 reindex data into that index

POST _reindex
{"source": {"index": "bank","type": "account"},"dest": {"index": "my_bank"}
}

ES 8.0 弃用type参数

分词

将文本拆分为单个词项（tokens）

POST _analyze

标准分词器

POST _analyze
{"analyzer": "standard","text": ["it's test data","hello world"]
}

Response

{"tokens" : [{"token" : "it's","start_offset" : 0,"end_offset" : 4,"type" : "<ALPHANUM>","position" : 0},{"token" : "test","start_offset" : 5,"end_offset" : 9,"type" : "<ALPHANUM>","position" : 1},{"token" : "data","start_offset" : 10,"end_offset" : 14,"type" : "<ALPHANUM>","position" : 2},{"token" : "hello","start_offset" : 15,"end_offset" : 20,"type" : "<ALPHANUM>","position" : 3},{"token" : "world","start_offset" : 21,"end_offset" : 26,"type" : "<ALPHANUM>","position" : 4}]
}

自定义词库

nginx/html目录下创建es/term.text，添加词条

配置ik远程词库，/elasticsearch/config/analysis-ik/IKAnalyzer.cfg.xml

测试

POST _analyze
{"analyzer": "ik_smart","text": "尚硅谷项目谷粒商城"
}

[尚硅谷，谷粒商城]为term.text词库中的词条

Response

{"tokens" : [{"token" : "尚硅谷","start_offset" : 0,"end_offset" : 3,"type" : "CN_WORD","position" : 0},{"token" : "项目","start_offset" : 3,"end_offset" : 5,"type" : "CN_WORD","position" : 1},{"token" : "谷粒商城","start_offset" : 5,"end_offset" : 9,"type" : "CN_WORD","position" : 2}]
}

ik分词器

中文分词

github地址

https://github.com/infinilabs/analysis-ik

下载地址

bin/elasticsearch-plugin install https://get.infini.cloud/elasticsearch/analysis-ik/7.4.2

进入docker容器ES 下载 ik 插件

卸载插件

elasticsearch-plugin remove analysis-ik

测试

POST _analyze
{"analyzer": "ik_smart","text": "我要成为java高手"
}

Response

{"tokens" : [{"token" : "我","start_offset" : 0,"end_offset" : 1,"type" : "CN_CHAR","position" : 0},{"token" : "要","start_offset" : 1,"end_offset" : 2,"type" : "CN_CHAR","position" : 1},{"token" : "成为","start_offset" : 2,"end_offset" : 4,"type" : "CN_WORD","position" : 2},{"token" : "java","start_offset" : 4,"end_offset" : 8,"type" : "ENGLISH","position" : 3},{"token" : "高手","start_offset" : 8,"end_offset" : 10,"type" : "CN_WORD","position" : 4}]
}

circuit_breaking_exception

熔断器机制被触发

{"error": {"root_cause": [{"type": "circuit_breaking_exception","reason": "[parent] Data too large, data for [<http_request>] would be [124604192/118.8mb], which is larger than the limit of [123273216/117.5mb], real usage: [124604192/118.8mb], new bytes reserved: [0/0b], usages [request=0/0b, fielddata=1788/1.7kb, in_flight_requests=0/0b, accounting=225547/220.2kb]","bytes_wanted": 124604192,"bytes_limit": 123273216,"durability": "PERMANENT"}],"type": "circuit_breaking_exception","reason": "[parent] Data too large, data for [<http_request>] would be [124604192/118.8mb], which is larger than the limit of [123273216/117.5mb], real usage: [124604192/118.8mb], new bytes reserved: [0/0b], usages [request=0/0b, fielddata=1788/1.7kb, in_flight_requests=0/0b, accounting=225547/220.2kb]","bytes_wanted": 124604192,"bytes_limit": 123273216,"durability": "PERMANENT"},"status": 429
}

查看ES日志

docker logs elasticsearch

检查 Elasticsearch 的内存使用情况

GET /_cat/nodes?v&h=name,heap.percent,ram.percent

如果 heap.percent 或 ram.percent 接近 100%，说明内存不足。

增加 Elasticsearch 堆内存

删除并重新创建容器调整 -Xms 和 -Xmx 参数 256m

docker run --name elasticsearch -p 9200:9200 -p 9300:9300 \
> -e "discovery.type=single-node" \
> -e ES_JAVA_OPTS="-Xms64m -Xmx256m" \
> -v /mydata/elasticsearch/config/elasticsearch.yml:/usr/share/elasticsearch/config/elasticsearch.yml \
> -v  /mydata/elasticsearch/data:/usr/share/elasticsearch/data \
> -v /mydata/elasticsearch/plugins:/usr/share/elasticsearch/plugins \
> -d elasticsearch:7.4.2

ElasticSearch映射分词

目录弃用Type why 映射查询 mapping of index 创建 index with mapping 添加 field with mapping 数据迁移 1.新建一个 index with correct mapping 2.数据迁移 reindex data into that index 分词 POST _analyze 自定义词库 ik分词器 circuit_breaking_excep…...

编程日记 2025/2/18 14:26:59

JVM——堆的回收：引用计数发和可达性分析法、五种对象引用

目录引用计数法和可达性分析法引用计数法： 可达性分析算法： 五种对象引用软引用： 弱引用： 引用计数法和可达性分析法引用计数法： 引用计数法会为每个对象维护一个引用计数器，当对象被引用时加1&…...

编程日记 2025/2/18 14:24:52

PosgreSQL比MySQL更优秀吗？

一日，一群开发者对PosgreSQL是不是比MySQL更优秀进行了激烈的辩论，双方吵的都要打起来了正方有以下理由： PostgreSQL严格遵循SQL标准规范，相较MySQL在语法兼容性和功能完整性方面展现出更强的体系化设计，尤其在事务处…...

编程日记 2025/2/18 14:22:50

冒险岛079 V8 整合版源码搭建教程+IDEA启动

今天教大家来部署下一款超级怀旧游戏冒险岛，冒险岛源码是开源的，但是开源的代码会有各种，本人进行了加工整合，并且用idea进行了启动测试，经过修改后没有任何问题。启动截图后端控制台前端游戏界面声明冒险岛源码…...

编程日记 2025/2/18 14:21:47

基于Python的Flask微博话题舆情分析可视化系统

2024数据 ✅️标价源码远程部署加 20 ✅️爬虫可用有六月数据 ✅️修复bug不会突然打不开网页系统稳定系统的功能如下: 1.数据的爬取 2.用户的登录注册 3.热词统计，舆情统计 4.文章统计分析 5.发布地址统计 6.评论统计 7.情感分类统计编程语言：py…...

编程日记 2025/2/18 14:19:40

ms-swift3 序列分类训练

目录引言一、数据集准备二、训练/推理代码 2.1 训练 2.2 推理三、性能验证引言 swift 3.x支持了序列分类Command Line Parameters — swift 3.2.0.dev0 documentation 想尝试一下用多模态（图像）的序列分类与普通的图像分类任务有啥区别一、…...

编程日记 2025/2/18 14:17:35

VSCode 实用快捷键

前文 VSCode 作为文本编辑神器, 熟练使用其快捷键更是效率翻倍, 本文介绍 VSCode 常用的实用的快捷键实用快捷键涉及到文本操作, 搜索定位, 多光标, 面板打开等快捷键功能快捷键复制光标当前行 (不需要鼠标选中) Ctrl C 剪切光标当前行 (不需要鼠标选中) Ctrl X 当前行下…...

编程日记 2025/2/18 14:16:33

MVC模式和MVVM模式

目录一、MVC模式和MVVM模式 1. MVC模式 2. MVVM 模式 3.在Qt中的应用示例 4.总结二、MVC与MVVM模式的共同点和区别 1.共同点 2.区别 3.交互流程 4.总结 MVC（Model-View-Controller）和MVVM（Model-View-ViewModel）是两种…...

编程日记 2025/2/18 14:12:27

CSS伪类选择器全解析：让你的样式更加灵活和智能

目录前言一、什么是伪类选择器？ 二、常见的伪类选择器详解 1. :hover —— 悬停状态 2. :active —— 活动状态 3. :focus —— 焦点状态综合案例 4. :first-child —— 第一个子元素 5. :last-child —— 最后一个子元素 6. :nth-child(n) —— 按顺序选…...

编程日记 2025/2/18 14:09:21

【GESP】2024年12月图形化一级 -- 飞行的小猫

飞行的小猫 1. 准备工作 （1）删除默认小猫角色。 （2）添加角色Cat Flying和Clouds。 （3）删除默认白色背景，添加背景Blue Sky 2。 2. 功能实现 （1）点击绿旗&#xff0c…...

编程日记 2025/2/18 14:06:16

30填学习自制操作系统第二天

今天要干什么？ 初步了解汇编语言使用汇编重新写个昨天的镜像文件继续开发一: 什么是电信号？ 电脑的处理中心是CPU，即“central process unit”的缩写，翻译成中文就是“中央处理单元”，顾名思义，他就是…...

编程日记 2025/2/18 14:05:15

MapReduce的工作原理及其在大数据处理中的应用

MapReduce是一种由Google提出的面向大数据并行处理的计算模型、框架和平台，它通过将复杂的数据处理任务分解为两个简单的阶段——Map（映射）和Reduce（归约），实现了分布式并行计算，极大地提高了数…...

编程日记 2025/2/18 14:01:10

vue3.x 的provide 与 inject详细解读

在 Vue 3.x 中，provide 和 inject 是一对用于实现依赖注入的 API。它们允许父组件向其所有子组件（无论嵌套多深）传递数据或方法，而不需要通过 props 逐层传递。这在开发复杂组件或高阶组件时非常有用。 1. provide 的基本用法 p…...

编程日记 2025/2/18 13:58:06

c#中“事件-event”的经典示例与理解

在C#编程语言中，事件（Event）是一个非常重要的概念，它提供了一种松耦合的方式，让对象间能够通知彼此，而无需直接联系。事件的使用可以让我们的代码更加灵活、可扩展且易于维护。事件可以视作委托的实例&…...

编程日记 2025/2/18 13:55:00

《第三代大语言模型Grok 3：闪亮登场》

《第三代大语言模型Grok 3：闪亮登场》在科技飞速发展的今天，人工智能领域的每一次重大突破都如同巨石投入平静湖面，激起千层浪。当地时间 2 月 15 日，马斯克在社交平台 X 上投下了这样一颗 “巨石”，他宣布旗下人工智能公司 xAI 开发的第三代大语言模型 Grok 3，将于北京…...

编程日记 2025/2/18 13:51:50

rem、em、vw区别

在前端开发里，rem、em、vw都是用来设置元素大小的单位，下面就用大白话讲讲它们的区别。参考标准不一样 rem：就像大家都用同一把“大尺子”来量东西，这把“大尺子”就是网页里根元素（也就是 <html> 标签&#…...

编程日记 2025/2/18 13:50:48

C语言简单练习题

文章目录练习题一、计算n的阶乘bool类型二、计算1!2!3!...10!三、计算数组arr中的元素个数二分法查找四、动态打印字符Sleep()ms延时函数system("cls")清屏函数五、模拟用户登录strcmp()函数六、猜数字小游戏产生一个随机数randsrandRAND_MAX时间戳time() 示例 …...

编程日记 2025/2/18 13:48:44

C++ ——static关键字

1、static修饰局部变量---->静态局部变量特点： （1）第一次调用时创建，然后第一次调用结束时没有被回收，以后每次调用，都延用上一次调用结束时的值，直到程序结束时，才被回收 &a…...

编程日记 2025/2/18 13:47:43

Jasper AI技术浅析（二）：语言模型

Jasper AI 的核心语言模型是基于 OpenAI 的 GPT-4（Generative Pre-trained Transformer 4）构建的。GPT-4 是一种生成式预训练语言模型，利用深度学习技术，特别是 Transformer 架构，来理解和生成自然语言。 1. GPT-4 的基本原理 1.1 Transformer 架构 GPT-4 基于 Transfo…...

编程日记 2025/2/18 13:45:39

2026年Hermes Agent/OpenClaw如何安装？1分钟京东云萌新安装及百炼Coding Plan指南

2026年Hermes Agent/OpenClaw如何安装？1分钟京东云萌新安装及百炼Coding Plan指南。本文面向零基础用户，完整说明在轻量服务器与本地Windows11、macOS、Linux系统中部署OpenClaw（Clawdbot）的流程，包含环境配置、服务启…...

编程新知 2026/5/3 21:13:17

ArcGIS Pro 3.x 保姆级教程：用栅格计算器搞定USLE土壤侵蚀模型（附完整公式与数据）

ArcGIS Pro 3.x 实战指南：栅格计算器构建USLE土壤侵蚀模型的完整流程第一次打开ArcGIS Pro的栅格计算器时，那个充满数学符号的界面让我头皮发麻。直到完成第一个USLE模型项目后，我才发现这套工具链的强大之处——它能把复杂的土壤侵蚀计算转…...

编程新知 2026/5/3 20:59:07

自动驾驶点云标注效率提升400%：用Python自建半自动标注流水线，含3D框+实例分割+动态滤波模块

更多请点击： https://intelliparadigm.com 第一章：自动驾驶点云标注的工程挑战与技术演进点云标注是自动驾驶感知系统训练的关键前置环节，其质量直接决定3D目标检测、语义分割与BEV（Bird’s Eye View）建模的泛化能力…...

编程新知 2026/5/3 20:11:17

DIY 3D打印机电源与散热改造：从12V升级24V热床，告别加热慢

3D打印机热床升级实战：从12V到24V的极速升温方案每次启动3D打印前，盯着缓慢爬升的热床温度计，你是否也经历过那种等待的煎熬？特别是使用大尺寸热床时，12V系统的功率瓶颈让预热时间动辄超过10分钟。这不仅是时间浪费&a…...

编程新知 2026/5/3 20:06:52

Zotero Style：重新定义文献管理的5个高效可视化功能

Zotero Style：重新定义文献管理的5个高效可视化功能【免费下载链接】zotero-style Ethereal Style for Zotero 项目地址: https://gitcode.com/GitHub_Trending/zo/zotero-style 在学术研究的道路上，文献管理往往是研究者面临的最大挑战之一。Zo…...

编程新知 2026/5/3 19:27:05

终极Kirimase社区贡献指南：如何快速为这个开源项目做出贡献

终极Kirimase社区贡献指南：如何快速为这个开源项目做出贡献【免费下载链接】kirimase Build full-stack Next.js apps, incredibly fast 项目地址: https://gitcode.com/gh_mirrors/ki/kirimase Kirimase是一个命令行工具，用于快速构建全栈Next.…...

编程新知 2026/5/3 18:47:48

终极风扇控制指南：免费开源工具让你完全掌控PC散热系统

终极风扇控制指南：免费开源工具让你完全掌控PC散热系统【免费下载链接】FanControl.Releases This is the release repository for Fan Control, a highly customizable fan controlling software for Windows. 项目地址: https://gitcode.com/GitHub_Trending/f…...

编程新知 2026/5/3 18:08:42

Anno 1800 Mod Loader完全掌握：终极模组加载解决方案深度解析

Anno 1800 Mod Loader完全掌握：终极模组加载解决方案深度解析【免费下载链接】anno1800-mod-loader The one and only mod loader for Anno 1800, supports loading of unpacked RDA files, XML merging and Python mods. 项目地址: https://gitcode.com/gh_mirr…...

编程新知 2026/5/3 17:51:47

Hugging Face Text Embeddings Inference (TEI) 生产部署与性能优化实战

1. 项目概述：为什么我们需要一个专门的文本嵌入推理服务？如果你正在构建一个涉及语义搜索、文档检索或者RAG（检索增强生成）的应用，那么“文本嵌入”这个词对你来说一定不陌生。简单来说，文本嵌入就是把一段…...

编程新知 2026/5/3 17:39:30

Windows下Selenium ChromeDriver启动报错全攻略：从版本匹配到安全策略参数配置

Windows下Selenium ChromeDriver启动报错深度解析与实战指南当你第一次看到"Only local connections are allowed"这个报错时，可能会感到困惑——明明ChromeDriver版本与浏览器完全匹配，为什么还是无法正常启动？这个问题背后隐藏着…...

编程新知 2026/5/3 17:36:57

弃用Type

why

映射

查询 mapping of index

创建 index with mapping

添加 field with mapping

数据迁移

1.新建 一个 index with correct mapping

2.数据迁移 reindex data into that index

分词

POST _analyze

自定义词库

ik分词器

circuit_breaking_exception

相关文章：

1.新建一个 index with correct mapping