当前位置: 首页 > article >正文

【Elasticsearch】Elasticsearch 核心技术(二):映射

Elasticsearch 核心技术(二):映射

  • 1.什么是映射(Mapping)
    • 1.1 元字段(Meta-Fields)
    • 1.2 数据类型 vs 映射类型
      • 1.2.1 数据类型
      • 1.2.2 映射类型
  • 2.实际运用案例
    • 案例 1:电商产品索引映射
    • 案例 2:动态模板设置
  • 3.动态映射与静态映射详解
    • 3.1 动态映射 (Dynamic Mapping)
      • 3.1.1 动态映射的三种模式
      • 3.1.2 动态映射示例
    • 3.2 静态映射(Explicit Mapping)
      • 静态映射示例
    • 3.3 对比
    • 3.4 最佳实践建议
  • 4.映射修改详解
    • 4.1 可以修改的内容
    • 4.2 不可修改的内容
    • 4.3 修改映射的解决方案
    • 4.4 案例:将字符串字段从 text 改为 keyword
      • 4.4.1 错误方式(直接修改会失败)
      • 4.4.2 正确方式(通过重建索引)
    • 4.5 注意事项
  • 5.注意事项

1.什么是映射(Mapping)

映射是 Elasticsearch 中定义文档及其包含字段如何存储和索引的过程。它相当于关系型数据库中的表结构定义,决定了:

  • 每个字段的数据类型
  • 字段是否被索引
  • 字段的索引方式
  • 字段的分析器设置
  • 字段的格式(如日期格式)

1.1 元字段(Meta-Fields)

元字段是 Elasticsearch 为每个文档自动创建的内部字段,用于管理文档的元数据。常见的元字段包括:

  • 标识元字段
    • _index:文档所属的索引
    • _id:文档的唯一 ID
  • 文档源元字段
    • _source:存储原始 JSON 文档
  • 索引元字段
    • _field_names:包含非空值的所有字段
  • 路由元字段
    • _routing:用于将给定文档路由到指定的分片。
  • 其他元字段
    • _meta:应用特定的元数据
    • _version:文档版本号

例如 Kibana 中自带的 sample_data_ecommerce 示例数据。

在这里插入图片描述

下面框出来的就是元字段信息。

在这里插入图片描述

1.2 数据类型 vs 映射类型

1.2.1 数据类型

指字段值的具体类型,如:

  • 核心类型:textkeywordlongintegershortbytedoublefloatbooleandate
  • 复杂类型:objectnested
  • 地理类型:geo_pointgeo_shape
  • 特殊类型:ipcompletiontoken_count

1.2.2 映射类型

在 Elasticsearch 7.0 之前,索引可以包含多个类型(类似于表),但 7.0 之后已弃用,每个索引现在只有一个隐式的 _doc 类型。

2.实际运用案例

案例 1:电商产品索引映射

PUT /products
{"mappings": {"properties": {"name": { "type": "text", "analyzer": "ik_max_word" },"price": { "type": "double" },"description": { "type": "text" },"category": { "type": "keyword" },"tags": { "type": "keyword" },"created_at": { "type": "date", "format": "yyyy-MM-dd HH:mm:ss" },"specs": { "type": "object" },"location": { "type": "geo_point" }}}
}

案例 2:动态模板设置

PUT /my_index
{"mappings": {"dynamic_templates": [{"strings_as_keywords": {"match_mapping_type": "string","mapping": {"type": "keyword"}}}]}
}

3.动态映射与静态映射详解

3.1 动态映射 (Dynamic Mapping)

动态映射是 Elasticsearch 自动检测和创建字段映射的能力。当索引一个新文档时,如果包含未定义的字段,Elasticsearch 会根据字段值自动推断数据类型并创建映射。

3.1.1 动态映射的三种模式

  • true(默认):自动添加新字段
  • false:忽略新字段(不索引但会存储在 _source 中)
  • strict:拒绝包含新字段的文档(抛出异常)

3.1.2 动态映射示例

# 创建索引时不定义映射(使用默认动态映射)
PUT /dynamic_index# 插入包含新字段的文档
POST /dynamic_index/_doc/1
{"name": "John Doe",  # 自动识别为text字段"age": 30,          # 自动识别为long"birth_date": "1990-01-01",  # 自动识别为date"is_active": true,   # 自动识别为boolean"salary": 5000.50,   # 自动识别为float"tags": ["tech", "sports"],  # 自动识别为text数组"address": {         # 自动识别为object"street": "123 Main St","city": "New York"}
}

查看自动生成的映射

GET /dynamic_index/_mapping# 返回结果示例:
{"dynamic_index": {"mappings": {"properties": {"address": {"properties": {"city": { "type": "text", "fields": { "keyword": { "type": "keyword" } } },"street": { "type": "text", "fields": { "keyword": { "type": "keyword" } } }}},"age": { "type": "long" },"birth_date": { "type": "date" },"is_active": { "type": "boolean" },"name": { "type": "text", "fields": { "keyword": { "type": "keyword" } } },"salary": { "type": "float" },"tags": { "type": "text", "fields": { "keyword": { "type": "keyword" } } }}}}
}

3.2 静态映射(Explicit Mapping)

静态映射是手动预定义索引的字段结构和数据类型,在创建索引时明确指定每个字段的类型和属性。

静态映射示例

# 创建索引时明确定义映射
PUT /static_index
{"mappings": {"dynamic": "strict",  # 严格模式,禁止未定义的字段"properties": {"name": {"type": "text","analyzer": "standard","fields": {"keyword": { "type": "keyword" }}},"age": { "type": "integer" },"birth_date": {"type": "date","format": "yyyy-MM-dd||epoch_millis"},"is_active": { "type": "boolean" },"salary": { "type": "scaled_float", "scaling_factor": 100 },"tags": {"type": "keyword"},"address": {"type": "object","properties": {"street": { "type": "keyword" },"city": { "type": "keyword" },"coordinates": { "type": "geo_point" }}},"comments": {"type": "nested","properties": {"user": { "type": "keyword" },"message": { "type": "text" },"rating": { "type": "byte" }}}}}
}

尝试插入未定义字段的文档

POST /static_index/_doc/1
{"name": "Jane Smith","age": 28,"new_field": "test"  # 将抛出异常,因为dynamic=strict
}# 错误响应:
{"error": {"root_cause": [{"type": "strict_dynamic_mapping_exception","reason": "mapping set to strict, dynamic introduction of [new_field] within [_doc] is not allowed"}]},"status": 400
}

3.3 对比

特性动态映射静态映射
字段创建方式自动推断手动预定义
灵活性
可控性
适合场景开发初期、数据结构不确定生产环境、数据结构稳定
性能影响可能产生不理想的映射可优化映射提升性能
维护成本低(初期)高(后期整理)高(前期)低(后期)
数据一致性可能不一致高度一致

3.4 最佳实践建议

  • 开发阶段:可以使用动态映射快速原型开发。

    PUT /dev_index
    {"mappings": {"dynamic": true}
    }
    
  • 过渡阶段:使用动态模板(dynamic templates)控制自动映射。

    PUT /transition_index
    {"mappings": {"dynamic_templates": [{"strings_as_keywords": {"match_mapping_type": "string","mapping": {"type": "keyword"}}}]}
    }
    
  • 生产环境:推荐使用静态映射。

    PUT /prod_index
    {"mappings": {"dynamic": "strict","properties": {// 明确定义所有字段}}
    }
    
  • 混合使用:可以结合两者优势。

    PUT /hybrid_index
    {"mappings": {"dynamic": "false",  # 不自动索引新字段,但存储在_source"properties": {// 明确定义已知字段}}
    }
    

通过合理选择映射策略,可以在灵活性和可控性之间取得平衡,为不同阶段的业务需求提供最合适的解决方案。

4.映射修改详解

在 Elasticsearch 中,映射创建后是可以修改的,但有重要的限制和注意事项。

4.1 可以修改的内容

  • 添加新字段:任何时候都可以向现有映射添加新字段。

    PUT /my_index/_mapping
    {"properties": {"new_field": { "type": "text" }}
    }
    
  • 修改某些字段属性

    • 可以更新 fields 多字段设置
    • 可以修改 analyzersearch_analyzer 等分析相关设置
    • 可以修改 ignore_above(keyword 字段)
    • 可以修改 null_value 设置
  • 动态映射规则:可以更新动态模板(dynamic templates)

4.2 不可修改的内容

  • 字段数据类型:不能更改已有字段的数据类型。
    • 例如:不能将 text 改为 keyword,不能将 long 改为 integer
  • 已索引的字段:不能更改已索引字段的基本结构。
    • 例如:不能将单字段改为多字段。
  • 字段名称:不能直接重命名字段。

4.3 修改映射的解决方案

当需要做不允许的修改时,可以考虑以下方案:

  • 重建索引(Reindex)

    • 创建新索引,定义新映射。
    • 使用 Reindex API 将数据从旧索引复制到新索引。
    • 示例:
      POST _reindex
      {"source": { "index": "old_index" },"dest": { "index": "new_index" }
      }
      
  • 使用别名(Alias)

    • 创建指向新索引的别名。
    • 无缝切换应用查询到新索引。
    • 示例:
      POST _aliases
      {"actions": [{ "remove": { "index": "old_index", "alias": "my_alias" } },{ "add": { "index": "new_index", "alias": "my_alias" } }]
      }
      
  • 多字段(Multi-fields)

    • 为字段添加不同数据类型的多字段版本。
    • 示例:
      PUT /my_index/_mapping
      {"properties": {"my_field": {"type": "text","fields": {"keyword": { "type": "keyword" }}}}
      }
      

4.4 案例:将字符串字段从 text 改为 keyword

4.4.1 错误方式(直接修改会失败)

PUT /my_index/_mapping
{"properties": {"category": { "type": "keyword" }  // 如果原先是text,这会报错}
}

4.4.2 正确方式(通过重建索引)

// 1. 创建新索引
PUT /my_index_v2
{"mappings": {"properties": {"category": { "type": "keyword" }}}
}// 2. 重新索引数据
POST _reindex
{"source": { "index": "my_index" },"dest": { "index": "my_index_v2" }
}// 3. 切换别名
POST _aliases
{"actions": [{ "remove": { "index": "my_index", "alias": "products" } },{ "add": { "index": "my_index_v2", "alias": "products" } }]
}

4.5 注意事项

  • 生产环境谨慎操作:映射更改可能影响现有查询和应用程序。
  • 停机时间考虑:重建大索引可能需要时间,规划好维护窗口。
  • 版本兼容性:Elasticsearch 不同版本对映射修改的支持可能不同。
  • 监控影响:修改后监控集群性能和查询结果。
  • 备份数据:重大映射修改前建议备份重要数据。
  • 测试环境验证:先在测试环境验证映射修改的效果。

通过合理规划映射修改策略,可以在最小化影响的情况下实现索引结构的演进。

5.注意事项

  • 提前规划映射:生产环境中应预先定义好映射,避免依赖动态映射
  • 避免映射爆炸
    • 设置 index.mapping.total_fields.limit(默认 1000)
    • 使用 dynamic: falsedynamic: strict 控制动态字段
  • 合理选择数据类型
    • 需要全文搜索用 text,需要精确匹配/聚合用 keyword
    • 数值类型选择最合适的范围(如能用 integer 就不用 long
  • 元字段使用
    • 不要修改 _source 字段,它是文档的原始 JSON
    • 使用 _routing 优化查询性能
  • 映射更新限制
    • 已有字段的映射类型不能更改
    • 只能添加新字段或修改某些参数(如增加字段的 fields
  • 性能考虑
    • 避免过多的嵌套对象
    • 对于不搜索的字段设置 "index": false
  • 版本兼容性
    • Elasticsearch 7.x 及以后版本已移除映射类型概念
    • 升级时要注意 API 变化

通过合理设计映射,可以显著提高 Elasticsearch 的查询性能和存储效率。

相关文章:

【Elasticsearch】Elasticsearch 核心技术(二):映射

Elasticsearch 核心技术(二):映射 1.什么是映射(Mapping)1.1 元字段(Meta-Fields)1.2 数据类型 vs 映射类型1.2.1 数据类型1.2.2 映射类型 2.实际运用案例案例 1:电商产品索引映射案…...

【计算机网络】网络层协议

1. ICMP协议的介绍及应用 IP协议的助手 —— ICMP 协议 ping 是基于 ICMP 协议工作的,所以要明白 ping 的工作,首先我们先来熟悉 ICMP 协议。 ICMP 全称是 Internet Control Message Protocol,也就是互联网控制报文协议。 里面有个关键词 …...

.NET Core接口IServiceProvider

.NET Core 接口 IServiceProvider 深度剖析 在 .NET Core 和 .NET 5 的世界里,依赖注入(Dependency Injection,简称 DI)是构建可维护、可测试应用程序的关键技术。而 IServiceProvider 接口,正是依赖注入机制中的核心…...

结构型设计模式之Proxy(代理)

结构型设计模式之Proxy(代理) 前言: 代理模式,aop环绕通知,动态代理,静态代理 都是代理的一种,这次主要是记录设计模式的代理demo案例,详情请看其他笔记。 1)意图 为其…...

案例分享--汽车制动卡钳DIC测量

制动系统是汽车的主要组成部分,是汽车的主要安全部件之一。随着车辆性能的不断提高,车速不断提升,对车辆的制动系统也随之提出了更高要求,因此了解车辆制动系统中每个部件的动态行为成为了制动系统优化的主要途径,同时…...

Redis Set集合命令、内部编码及应用场景(详细)

文章目录 前言普通命令SADDSMEMBERSSISMEMBERSCARDSPOPSMOVESREM 集合间操作SINTERSINTERSTORESUNIONSUNIONSTORESDIFFSDIFFSTORE 命令小结内部编码使用场景 前言 集合类型也是保存多个字符串类型的元素的,但和列表类型不同的是,集合中 1)元…...

C++算法动态规划1

DP定义: 动态规划是分治思想的延申,通俗一点来说就是大事化小,小事化无的艺术。 在将大问题化解为小问题的分治过程中,保存对这些小问题已经处理好的结果,并供后面处理更大规模的问题时直接使用这些结果。 动态规划具…...

【快速预览经典深度学习模型:CNN、RNN、LSTM、Transformer、ViT全解析!】

🚀快速预览经典深度学习模型:CNN、RNN、LSTM、Transformer、ViT全解析! 📌你是否还在被深度学习模型名词搞混?本文带你用最短时间掌握五大经典模型的核心概念和应用场景,助你打通NLP与CV的任督二脉&#xf…...

KaiwuDB在边缘计算领域的应用与优势

KaiwuDB 在边缘计算场景中主要应用于 工业物联网(IIoT)、智能电网、车联网 等领域,通过其分布式多模架构和轻量化设计,在边缘侧承担 数据实时处理、本地存储与协同分析 的核心作用。以下是具体案例和功能解析: 1. 典型…...

如何避免二极管过载?

如何避免二极管过载? 二极管作为电路中的基础元件,其过载可能导致性能下降甚至烧毁。以下从选型、安装、保护设计及散热四方面提供实用解决二极管过载方案: 精准选型匹配需求 根据电路特性选择二极管类型:高频电路优先选用肖特基…...

Vue.js组件开发系统性指南

结合核心概念、最佳实践及性能优化策略,帮助您构建高效可维护的组件体系: 一、组件基础与核心结构 1.单文件组件(SFC)组织 模板:使用<template>定义HTML结构,遵循单根元素原则。 逻辑:在<script>中通过export default导出组件选项(数据、方法、生命周期钩…...

React---day9

11、css 11.1 styled的基本使用 CSS-in-JS的模式就是一种将样式&#xff08;CSS&#xff09;也写入到JavaScript中的方式&#xff0c;并且可以方便的使用JavaScript的状态&#xff1b; npm add styled-componentsconst Title styled.h1font-size: 1.5em;text-align: center…...

设计模式 - 模板方法模式

该模式将定义一个操作中的算法骨架&#xff0c;并将算法的一些步骤延迟到子类中实现&#xff0c;使得子类可以在不改变算法结构的情况下重定义算法的某些特定步骤。 例如&#xff0c;炒菜的步骤是固定的&#xff0c;具体可分为倒油、热油、倒蔬菜、倒调料品、翻炒等。通过模板…...

鸿蒙开发List滑动每项标题切换悬停

鸿蒙开发List滑动每项标题切换悬停 鸿蒙List滑动每项标题切换悬停&#xff0c;功能也很常见 一、效果图&#xff1a; 二、思路&#xff1a; ListItemGroup({ header: this.itemHead(secondClassify, index) }) 三、关键代码&#xff1a; build() {Column() {List() {ListIt…...

ubuntu开机自动挂载windows下的硬盘

我是ubuntu和windows的双系统开发&#xff0c;在ubuntu下如果想要访问windows的硬盘&#xff0c;需要手动点击硬盘进行挂载&#xff0c;这个硬盘我每次编译完都会使用&#xff0c;所以用下面的步骤简化操作&#xff0c;让系统每次开机后自动挂载。 第一步. 确定硬盘的设备标识…...

C# 实现软件开机自启动(不需要管理员权限)

本文参考C#/WPF/WinForm/程序实现软件开机自动启动的两种常用方法&#xff0c;将里面中的第一种方法做了封装成AutoStart类&#xff0c;使用时直接两三行代码就可以搞定。 自启动的原理是将软件的快捷方式创建到计算机的自动启动目录下&#xff08;不需要管理员权限&#xff0…...

使用 Golang `testing/quick` 包进行高效随机测试的实战指南

使用 Golang testing/quick 包进行高效随机测试的实战指南 Golang testing/quick 包概述testing/quick 包的功能和用途为什么选择 testing/quick 进行测试快速入门&#xff1a;基本用法导入 testing/quick 包基本使用示例&#xff1a;快速生成测试数据quick.Check 和 quick.Val…...

32 C 语言字符处理函数详解:isalnum、isalpha、iscntrl、isprint、isgraph、ispunct、isspace

1 isalnum() 函数 1.1 函数原型 #include <ctype.h>int isalnum(int c); 1.2 功能说明 isalnum() 函数用于检查传入的整数参数是否为 ASCII 编码的字母或数字字符&#xff08;A - Z、a - z、0 - 9&#xff0c;对应 ASCII 值 65 - 90、97 - 122、48 - 57&#xff09;。…...

Qt实现一个悬浮工具箱源码分享

一、效果展示 二、源码分享 hoverToolboxWidget.h #ifndef HOVERTOOLBOXWIDGET_H #define HOVERTOOLBOXWIDGET_H#include <QWidget> #include <QMouseEvent> #include <QPropertyAnimation> #include <QStyleOption> #include <QPainter>namespa…...

线夹金具测温在线监测装置:电力设备安全运行的“隐形卫士”

在电网系统中&#xff0c;线夹金具是连接导线与输电塔架的关键部件&#xff0c;其运行状态直接影响电力传输的稳定性。传统人工巡检方式存在效率低、盲区多、数据滞后等问题&#xff0c;而线夹金具测温在线监测装置的普及&#xff0c;正为电力设备运维带来革新。 一、工作原理&…...

《TCP/IP 详解 卷1:协议》第4章:地址解析协议

ARP 协议 地址解析协议&#xff08;ARP, Address Resolution Protocol&#xff09;是IPv4协议栈中一个关键的组成部分&#xff0c;用于在网络层的IP地址与数据链路层的硬件地址&#xff08;如MAC地址&#xff09;之间建立映射关系。它的主要任务是&#xff1a; 将32位的IPv4地…...

Dify 离线升级操作手册(适用于无外网企业内网环境)

一、准备工作 准备一台能访问互联网的外网机器 用于拉取最新的 Dify 镜像和代码建议使用 Linux 或 Windows Docker 环境 准备传输介质 U盘、移动硬盘&#xff0c;或企业内部网络共享路径 确认当前内网 Dify 版本和配置 确认版本号&#xff0c;备份配置文件和数据库 二、外…...

Windows下运行Redis并设置为开机自启的服务

下载Redis-Windows 点击redis-windows-7.4.0下载链接下载Redis 解压之后得到如下文件 右键install_redis.cmd文件&#xff0c;选择在记事本中编辑。 将这里改为redis.windows.conf后保存&#xff0c;退出记事本&#xff0c;右键后选择以管理员身份运行。 在任务管理器中能够…...

网络编程之网络基础

基础理论&#xff1a;IP、子网掩码、端口号、字节序、网络基础模型、传输协议 socket&#xff1a;TCP、UDP、广播、组播、抓包工具的使用、协议头、并发服务器 Modbus协议 、HTTP协议、HTML、 分析服务器 源码、数据库 一、认识网络 网络&#xff1a;实现多设备通信 二、IP地址…...

Spring AI(11)——SSE传输的MCP服务端

WebMVC的服务器传输 支持SSE&#xff08;Server-Sent Events&#xff09; 基于 Spring MVC 的服务器传输和可选的STDIO运输 导入jar <dependency><groupId>org.springframework.ai</groupId><artifactId>spring-ai-starter-mcp-server-webmvc</a…...

计算机网络备忘录

计算机网络 - 网络互联与互联网 计算机网络重点学习本章&#xff0c;属于核心知识 包含网络层和传输层 的 相关协议 计算机网络层次重点掌握网络层与传输层。其中网络层主要是IP协议&#xff0c;解决主机-主机通信&#xff0c;传输层主要是TCP/UDP 协议&#xff0c;解决应用-…...

Spring Boot论文翻译防丢失 From船长cap

本文内容 微服务 微服务风格的特性组件化&#xff08;Componentization &#xff09;与服务&#xff08;Services&#xff09;围绕业务功能的组织产品不是项目强化终端及弱化通道分散治理分散数据管理基础设施自动化容错性设计设计改进 微服务是未来吗其它 微服务系统多大微…...

[蓝桥杯]最优包含

最优包含 题目描述 我们称一个字符串 SS 包含字符串 TT 是指 TT 是 SS 的一个子序列&#xff0c;即可以从字符串 SS 中抽出若干个字符&#xff0c;它们按原来的顺序组合成一个新的字符串与 TT 完全一样。 给定两个字符串 SS 和 TT&#xff0c;请问最少修改 SS 中的多少个字符…...

NuxtJS入门指南:环境安装及报错解决

在学习NuxtJS的过程中&#xff0c;正确的安装环境是非常重要的一步。然而&#xff0c;有时候在安装过程中会遇到一些问题&#xff0c;比如使用corepack安装pnpm时出现的错误。本文将详细介绍如何安装NuxtJS以及解决上述安装过程中遇到的问题。 Nuxt.js简介 Nuxt.js是一个强大的…...

在java 项目 springboot3.3 中 调用第三方接口(乙方),如何做到幂等操作(调用方为甲方,被调用方为乙方)? 以及啥是幂等操作?

什么是幂等操作&#xff1f; 幂等性&#xff08;Idempotence&#xff09; 是指一个操作无论执行一次还是多次&#xff0c;对系统状态产生的影响都是相同的。在分布式系统中&#xff0c;由于网络不稳定、超时重试等因素&#xff0c;接口可能被重复调用&#xff0c;幂等设计能确…...