当前位置：首页 > news >正文

【Elasticsearch】Mapping概述

news 2026/5/1 9:49:55

以下是Elasticsearch中提到的关于Mapping的各模块概述：

---

1.Dynamic mapping（动态映射）

动态映射是指Elasticsearch在索引文档时，自动检测字段类型并创建字段映射的过程。当你首次索引一个文档时，Elasticsearch会根据字段的值类型（如字符串、数字、日期等）自动推断字段的映射类型。例如：

• 字符串字段会被自动映射为`text`或`keyword`类型。

• 数字字段会被映射为`integer`、`long`等类型。

• 日期字段会被映射为`date`类型。

动态映射的优点是方便快捷，但缺点是可能导致意外的字段类型推断，因此在生产环境中通常建议显式定义映射。

---

2.Explicit mapping（显式映射）

显式映射是指在索引创建时，手动定义字段的映射类型和参数。通过显式映射，你可以精确控制字段的存储方式、分析器、是否可搜索等属性。例如：

```json

PUT /my_index

{

"mappings": {

"properties": {

"name": { "type": "text" },

"age": { "type": "integer" },

"created_at": { "type": "date" }

}

```

显式映射适用于需要对字段进行精细控制的场景，例如自定义分词器、设置字段是否存储等。

---

3.Runtime fields（运行时字段）

运行时字段是一种在查询时动态计算的字段，而不是在索引时存储的字段。运行时字段可以基于已有的字段进行计算或转换，例如：

• 将字符串字段转换为日期格式。

• 根据多个字段的值计算一个新字段。

运行时字段的优点是灵活性高，但可能会对查询性能产生一定影响，因为每次查询都需要动态计算字段值。

---

4.Field data types（字段数据类型）

字段数据类型定义了字段可以存储的数据格式和行为。Elasticsearch支持多种数据类型，包括：

• 核心数据类型：如`text`、`keyword`、`integer`、`float`、`date`等。

• 复杂数据类型：如`object`、`nested`、`geo_point`等。

• 特殊数据类型：如`ip`、`binary`、`completion`等。

选择合适的数据类型对于优化存储和查询性能至关重要。

---

5.Metadata fields（元数据字段）

元数据字段是Elasticsearch自动为每个文档添加的特殊字段，用于存储文档的元信息。常见的元数据字段包括：

• `_id`：文档的唯一标识符。

• `_index`：文档所属的索引名称。

• `_type`：文档的类型（在7.x及以后版本中已被废弃）。

• `_source`：存储原始JSON文档。

• `_timestamp`：文档的创建时间戳。

这些字段通常用于管理和查询文档的元信息。

---

6.Mapping parameters（映射参数）

映射参数是用于定义字段行为的额外配置。常见的映射参数包括：

• `index`：指定字段是否可搜索。

• `store`：指定字段是否存储在索引中。

• `analyzer`：指定字段使用的分词器。

• `norms`：是否启用字段的规范化。

• `copy_to`：将字段的值复制到另一个字段。

通过这些参数，可以对字段的行为进行更细致的控制。

---

7.Mapping limit settings（映射限制设置）

映射限制设置用于控制索引的映射复杂度，以防止索引过大或过于复杂。常见的限制设置包括：

• `index.mapping.nested_fields.limit`：限制嵌套字段的数量。

• `index.mapping.nested_objects.limit`：限制嵌套对象的深度。

• `index.mapping.total_fields.limit`：限制索引中字段的总数。

• `index.mapping.depth.limit`：限制字段嵌套的深度。

这些设置有助于优化索引性能和资源使用。

---

8.Removal of mapping types（移除映射类型）

在Elasticsearch 7.x及以后版本中，`_type`字段已被废弃并移除。在早期版本中，`_type`用于区分同一索引中的不同文档类型，但在新版本中，Elasticsearch建议使用单独的索引来代替类型的概念。移除`_type`的主要原因是简化索引结构，减少复杂性，并提高性能。

Elasticsearch 的mapping（映射）是定义文档及其字段如何存储和索引的过程。它类似于传统数据库中的表结构定义，但在 Elasticsearch 中，映射更加灵活且具有动态性。以下是关于 Elasticsearch 映射的详细说明，包括其核心概念、主要功能以及如何使用它来优化数据存储和查询性能。

---

1.映射的作用
在 Elasticsearch 中，映射定义了以下几个关键内容：

• 字段的存储方式：字段的数据类型（如`text`、`keyword`、`integer`、`date`等）。

• 字段的索引方式：字段是否可搜索、是否存储原始值、是否进行分词等。

• 元数据字段：如`_source`、`_id`、`_index`等，用于管理文档的元信息。

• 字段的额外配置：如是否启用规范化（`norms`）、是否支持多字段（`multi-fields`）等。

---

2.映射的类型
Elasticsearch 提供了多种映射方式，以满足不同的需求。

2.1 动态映射（Dynamic Mapping）
动态映射允许 Elasticsearch 自动检测字段的数据类型并创建映射。当你首次索引一个文档时，Elasticsearch 会根据字段的值类型自动推断字段的映射类型。例如：

• 字符串字段会被自动映射为`text`或`keyword`。

• 数字字段会被映射为`integer`或`long`。

• 日期字段会被映射为`date`。

优点：

• 方便快捷，适合快速开发和原型设计。

• 自动适应新字段，无需手动定义。

缺点：

• 可能导致意外的字段类型推断。

• 不适合对性能和存储有严格要求的场景。

动态模板（Dynamic Templates）：
你可以通过动态模板定义自定义映射规则，基于字段名称或数据类型匹配条件来应用特定的映射。例如：

```json
PUT /my_index
{
"mappings": {
"dynamic_templates": [
{
"strings_as_keywords": {
"match_mapping_type": "string",
"mapping": { "type": "keyword" }
}
}
]
}
}
```

在上述例子中，所有字符串字段都会被自动映射为`keyword`类型。

---

2.2 显式映射（Explicit Mapping）
显式映射允许你在索引创建时手动定义字段的映射类型和参数。这种方式提供了更高的灵活性和控制力。例如：

```json
PUT /my_index
{
"mappings": {
"properties": {
"name": { "type": "text" },
"age": { "type": "integer" },
"created_at": { "type": "date" },
"location": { "type": "geo_point" }
}
}
}
```

优点：

• 精确控制字段的存储和索引方式。

• 避免动态映射可能导致的类型推断错误。

• 适合生产环境和对性能要求较高的场景。

缺点：

• 需要提前定义字段，不够灵活。

---

2.3 运行时字段（Runtime Fields）
运行时字段是一种在查询时动态计算的字段，而不是在索引时存储的字段。它们可以基于已有的字段进行计算或转换。例如：

```json
PUT /my_index/_mapping
{
"runtime": {
"day_of_week": {
"type": "keyword",
"script": "emit(doc['created_at'].value.dayOfWeekEnum.getDisplayName(TextStyle.FULL, Locale.ROOT))"
}
}
}
```

在上述例子中，`day_of_week`字段会在查询时动态计算文档的`created_at`字段对应的星期几。

优点：

• 灵活性高，无需重新索引即可添加新字段。

• 可以基于已有字段进行复杂计算。

缺点：

• 查询性能可能受到影响，因为每次查询都需要动态计算字段值。

---

3.映射的组件
Elasticsearch 的映射由以下几个关键组件组成：

3.1 字段（Fields）
字段是文档的基本单元，每个字段都有自己的数据类型。Elasticsearch 支持多种数据类型，包括：

• 核心数据类型：`text`、`keyword`、`integer`、`float`、`date`、`boolean`等。

• 复杂数据类型：`object`、`nested`、`array`等。

• 特殊数据类型：`geo_point`、`geo_shape`、`ip`、`completion`等。

3.2 元数据字段（Metadata Fields）
元数据字段是 Elasticsearch 自动为每个文档添加的特殊字段，用于存储文档的元信息。常见的元数据字段包括：

• `_id`：文档的唯一标识符。

• `_index`：文档所属的索引名称。

• `_source`：存储原始 JSON 文档。

• `_timestamp`：文档的创建时间戳。

3.3 映射参数（Mapping Parameters）
映射参数是用于定义字段行为的额外配置。常见的映射参数包括：

• `index`：指定字段是否可搜索。

• `store`：指定字段是否存储在索引中。

• `analyzer`：指定字段使用的分词器。

• `norms`：是否启用字段的规范化。

• `copy_to`：将字段的值复制到另一个字段。

3.4 多字段（Multi-Fields）
多字段允许你将同一个字段以不同的方式索引。例如，你可以将一个字符串字段同时索引为`text`和`keyword`，以满足全文搜索和排序/聚合的需求。例如：

```json
PUT /my_index
{
"mappings": {
"properties": {
"name": {
"type": "text",
"fields": {
"keyword": { "type": "keyword" }
}
}
}
}
}
```

在上述例子中，`name`字段被索引为`text`类型，同时通过`fields`添加了一个`keyword`多字段。

---

4.映射的管理
Elasticsearch 提供了多种工具和 API 来管理映射。

4.1 创建索引和映射
在创建索引时，可以显式定义映射：

```json
PUT /my_index
{
"mappings": {
"properties": {
"name": { "type": "text" },
"age": { "type": "integer" }
}
}
}
```

4.2 更新映射
使用Update Mapping API可以更新现有的映射。例如，添加新字段：

```json
PUT /my_index/_mapping
{
"properties": {
"email": { "type": "keyword" }
}
}
```

4.3 获取映射
使用Get Mapping API可以查看索引的映射定义：

```json
GET /my_index/_mapping
```

---

5.防止映射爆炸
在 Elasticsearch 中，定义过多字段可能导致映射爆炸（Mapping Explosion），这可能会导致内存不足错误，并且很难恢复。为了避免这种情况，可以使用以下策略：

• 限制字段数量：通过设置`index.mapping.total_fields.limit`参数限制索引中字段的总数。

• 限制嵌套深度：通过设置`index.mapping.depth.limit`参数限制字段嵌套的深度。

• 谨慎使用动态映射：避免每条新文档都引入新字段，尽量在索引创建时显式定义字段。

---

6.移除映射类型（Removal of Mapping Types）
在 Elasticsearch 7.x 及更高版本中，`_type`字段已被废弃并移除。在早期版本中，`_type`用于区分同一索引中的不同文档类型，但在新版本中，Elasticsearch 建议使用单独的索引来代替类型的概念。移除`_type`的主要原因是简化索引结构，减少复杂性，并提高性能。

---

7.映射的优化建议
为了优化 Elasticsearch 的映射，可以遵循以下最佳实践：

• 显式定义字段：尽量使用显式映射，避免动态映射可能导致的类型推断错误。

• 使用多字段：根据需求将字段索引为多种类型，以满足不同的查询需求。

• 限制字段数量：避免过多字段导致映射爆炸。

• 选择合适的数据类型：例如，使用`keyword`而非`text`进行排序或聚合。

• 使用运行时字段：在不重新索引的情况下进行模式更改。

---

总结
Elasticsearch 的映射是定义文档结构和字段行为的核心机制。通过动态映射、显式映射和运行时字段，你可以灵活地管理数据的存储和索引方式。合理设计映射

---

如果你对某个模块有更深入的问题，欢迎继续提问！

【Elasticsearch】Mapping概述

相关文章：

【Elasticsearch】Mapping概述

GPT-4o悄然升级：能力与个性双突破，AI竞技场再掀波澜

如何选择合适的超参数来训练Bert和TextCNN模型？

C# SpinLock 类使用详解

【linux】在 Linux 上部署 DeepSeek-r1:32/70b：解决下载中断问题

机器学习所需要的数学知识【01】

4.【线性代数】——矩阵的LU分解

【清晰教程】本地部署DeepSeek-r1模型

Spring Cloud工程搭建

使用Redis实现分布式锁，基于原本单体系统进行业务改造

【MediaTek】 T750 openwrt-23.05编 cannot find dependency libexpat for libmesode

CHARMM-GUI EnzyDocker: 一个基于网络的用于酶中多个反应状态的蛋白质 - 配体对接的计算平台

c# 2025/2/17 周一

vite【详解】常用配置 vite.config.js / vite.config.ts

最新智能优化算法：阿尔法进化（Alpha Evolution，AE）算法求解23个经典函数测试集，MATLAB代码

用于可靠工业通信的5G-TSN集成原型：基于帧复制与消除可靠性的研究

HaProxy源码安装(Rocky8)

shell脚本备份MySQL数据库和库下表

23. AI-大语言模型

Linux /dev/null

MobaXterm连CentOS7踩坑记：‘Server refused to start a shell/command‘ 报错排查与预防全攻略

搞懂5G QoS配置：QCI/5QI、ARP、GBR/MBR参数到底怎么设？一个实战案例说清楚

QMCDecode：三步解锁QQ音乐加密格式，macOS用户的终极音频自由方案

Qwen2.5-Coder与TensorRT-LLM前瞻解码优化实践

Windows Cleaner终极指南：3步解决C盘爆红，让电脑重回巅峰状态

2026年离线语音转文字软件核心功能详解（本地运行·零数据上传）

ggplot2数据可视化终极指南：10个真实世界案例深度解析

Swift代码风格自动化检查终极指南：从混乱到规范的最佳实践

量子计算误差缓解与基准测试技术解析

从0到百万级长连接：PHP+Swoole+LLM生产环境落地手册（含TLS双向认证+JWT续期+断线语义恢复）