Elasticsearch 数据建模:从原理到实战的降维打击指南
Elasticsearch 数据建模:从原理到实战的降维打击指南 🚀
第一章 数据建模的物理法则:倒排索引的奇妙世界
1.1 倒排索引:比字典更聪明的数据结构
当你在ES中存入"Hello World"时,背后发生了这些魔法:
// 原始文档
{"id": 1,"content": "Hello World"
}// 倒排索引生成(简化版)
{"terms": {"hello": [1],"world": [1]},"doc_values": {"1": ["Hello World"]}
}
核心原理:
- 词典(Term Dictionary):存储所有唯一词项,使用FST(有限状态转换器)压缩存储
- 倒排列表(Postings List):记录每个词项出现的文档ID和位置信息
- Doc Values:列式存储,为排序和聚合加速
💡 冷知识:ES默认会为每个text字段同时生成正排和倒排索引,这就是为什么即使不指定
fielddata=true也能做聚合的原因(但会吃内存!)
1.2 分片(Shard)的量子纠缠现象
一个索引被拆分成多个分片时,数据路由算法:
shard_num = hash(_routing) % num_primary_shards
重要参数:
index.number_of_shards:主分片数(一旦设置不可修改)index.routing_partition_size:自定义路由分区数_routing字段:自定义路由键(默认使用_id)
分片设计黄金公式:
理想分片大小 = (节点内存大小 * 0.5) / 预期分片总数
(每个分片建议控制在10-50GB之间)
第二章 映射设计的核武器库 💣
2.1 字段类型底层揭秘
| 类型 | 数据结构 | 内存消耗 | 典型场景 |
|---|---|---|---|
text | 倒排索引 + DocValues | 高 | 全文搜索 |
keyword | DocValues | 低 | 精确匹配/聚合 |
long | BKD Tree | 最低 | 范围查询 |
nested | 独立隐藏文档 | 爆炸高 | 一对多关系 |
join | 父子文档链表 | 较高 | 多对多关系 |
2.2 动态映射的七十二变
ES的类型自动识别规则:
def detect_type(value):if isinstance(value, bool):return "boolean"elif isinstance(value, float):return "float" elif re.match(r'^\d{4}-\d{2}-\d{2}$', value):return "date"# ...其他规则
防御性配置:
{"mappings": {"dynamic": "strict", // 禁止未定义字段"properties": {"user": {"type": "object","dynamic": true // 允许子字段动态扩展}}}
}
2.3 分词器的解剖课
一个标准分析器的处理流程:
原始文本 -> 字符过滤器 -> 分词器 -> Token过滤器
自定义分析器示例:
"settings": {"analysis": {"analyzer": {"my_analyzer": {"type": "custom","char_filter": ["html_strip"],"tokenizer": "ik_max_word","filter": ["lowercase","synonym_filter"]}},"filter": {"synonym_filter": {"type": "synonym","synonyms_path": "analysis/synonym.txt"}}}
}
第三章 高阶建模:时序数据与关联关系
3.1 时间序列优化六脉神剑
- 冷热架构:通过
node.attr.box_type: hot标记节点 - Rollover API:自动滚动创建新索引
POST /logs-000001/_rollover
{"conditions": {"max_age": "7d","max_docs": 1000000}
}
- Downsampling:使用TSDS(Time Series Data Stream)自动降采样
- 索引生命周期管理(ILM):自动化Hot->Warm->Cold->Delete流程
3.2 关联关系处理:ES版的《甄嬛传》
| 方案 | 实现方式 | 查询复杂度 | 适用场景 |
|---|---|---|---|
| Nested | 存储为独立隐藏文档 | O(n) | 一对少量,写少读多 |
| Join | 父子文档同分片 | O(1)+Join | 层级关系 |
| 应用层关联 | 多次查询+内存关联 | O(1)*n | 灵活但耗客户端资源 |
| 冗余字段 | 数据反范式化 | O(1) | 读性能要求极高 |
父子文档路由陷阱:
// 父子文档必须路由到同一分片
String routing = parentId;
// 查询时必须指定路由
SearchRequestBuilder request = client.prepareSearch("index").setRouting(routing);
第四章 性能调优:从青铜到钛合金的进化
4.1 写入优化:让ES变身喷射战士
-
Refresh Interval:调整刷新频率(默认1s)
{"settings": {"refresh_interval": "30s" // 写入高峰期可关闭(-1)} } -
Bulk 黄金法则:
单批次大小 = 5~15MB 并发线程数 = CPU核数 * 2 -
索引缓冲区:调整
indices.memory.index_buffer_size(默认10%)
4.2 查询加速:给Lucene引擎装涡轮
-
Force Merge:减少分段数量
POST /index/_forcemerge?max_num_segments=1 -
预热文件系统缓存:
GET /index/_search?query=xxx&preference=_cache -
Doc Values优化:
{"properties": {"price": {"type": "integer","doc_values": true // 默认开启,非聚合字段可关闭}} }
第五章 终极实战:电商平台建模全流程
5.1 商品中心建模
PUT /products
{"settings": {"number_of_shards": 3,"index": {"sort.field": ["category_id", "price"],"sort.order": ["asc", "desc"] }},"mappings": {"dynamic": "strict","properties": {"spu_id": {"type": "keyword"},"sku_list": {"type": "nested","properties": {"sku_id": {"type": "keyword"},"specs": {"type": "flattened"} // 应对动态属性}},"category_ancestry": {"type": "keyword"}, // 存储类目路径 1/2/3"location": {"type": "geo_point"}}}
}
5.2 搜索推荐优化
混合搜索DSL:
{"query": {"script_score": {"query": {"multi_match": {"query": "手机","fields": ["name^3", "description"]}},"script": {"source": """double score = _score;if (doc['sales'].value > 1000) {score *= 1.5;}return score;"""}}}
}
结语:建模是一门平衡的艺术
记住这三个永恒的矛盾:
- 存储成本 vs 查询性能:是否需要预处理字段?
- 灵活性 vs 稳定性:动态映射开还是关?
- 实时性 vs 吞吐量:Refresh间隔设多少?
最后送各位一张护身符:
# 查看索引的真实内存占用
GET _cat/indices?v&h=index,store.size,pri.store.size
愿你的数据模型既能乘风破浪,又能岁月静好! 🌊
相关文章:
Elasticsearch 数据建模:从原理到实战的降维打击指南
Elasticsearch 数据建模:从原理到实战的降维打击指南 🚀 第一章 数据建模的物理法则:倒排索引的奇妙世界 1.1 倒排索引:比字典更聪明的数据结构 当你在ES中存入"Hello World"时,背后发生了这些魔法&#…...
python defaultdict用法
摘要 使用 defaultdict 可以简化处理字典中缺失键的情况。以下是几个使用 defaultdict 的示例,展示了它在不同场景下的应用。 示例 1:分组文件 假设我们有一组文件名,想要根据文件扩展名将它们分组。我们可以使用 defaultdict 来实现这一点…...
Java 与设计模式(15):模板方法模式
一、定义 模板方法模式是一种行为设计模式,它定义了一个操作中的算法的骨架(也就是大致的步骤和流程),而将一些具体步骤的实现延迟到子类中。这样,子类可以不改变算法的结构即可重新定义算法的某些特定步骤。 二、Ja…...
ubuntu更新失败:apt-get install -f Transaction failed: 软件包系统已损坏
检查您是否使用了第三方源。如果是就禁用它们,它们常常导致问题。 然后在终端中运行以下命令:apt-get install -f Transaction failed: 软件包系统已损坏下列软件包未满足的依赖关系:sunloginclient: Depends: libappindicator3-1 但是 %%s 没…...
16-使用QtChart创建动态图表:入门指南
QtChart是Qt框架中的一个强大模块,用于创建各种类型的图表,如折线图、柱状图、饼图等。它提供了丰富的API和灵活的配置选项,使得开发者能够轻松地将数据可视化集成到应用程序中。本文将介绍如何使用QtChart创建一个简单的动态折线图ÿ…...
C++ | 虚函数
在 C 面向对象编程领域,多态性堪称核心概念,而虚函数则是实现运行时多态的关键所在。 一、虚函数的概念与作用 1.1 什么是虚函数 虚函数是 C 中用于实现动态多态的成员函数。在基类中使用virtual关键字声明虚函数后,派生类能够重写&#x…...
单元测试整理
在国外软件开发中,单元测试必不可少,但是国内并不太重视这一块,一个好的单元测试可以提前发现很多问题,也减去和测试battle的时间 Spring单元测试 JUnit4 RunWith 指明单元测试框架 e.g. RunWith(SpringJUnit4ClassRunner.cla…...
Delphi语言的软件工程
Delphi语言的软件工程 引言 在软件工程的历史长河中,Delphi语言作为一种快速应用程序开发(RAD)的工具,凭借其高效的开发环境和强大的编程能力,一直在软件开发领域占有一席之地。本文将探讨Delphi语言的历史背景、特性…...
XSS攻击(跨站脚本攻击)详解与实战
文章目录 一、什么是XSS?二、XSS分类与场景三、XSS攻击实战流程四、CTF中的XSS利用五、XSS防御方案六、绕过过滤的常见技巧七、实战练习资源 一、什么是XSS? XSS(Cross-Site Scripting) 是一种通过向网页注入恶意脚本(…...
【C++指南】类和对象(十):const成员函数
💓 博客主页:倔强的石头的CSDN主页 📝Gitee主页:倔强的石头的gitee主页 ⏩ 文章专栏:《C指南》 期待您的关注 目录 引言 一、const成员函数的定义与语法 1. 基本语法 2. 底层原理 二、const成员函数的作用与约束…...
数值分析与科学计算导引——误差与算法举例
文章目录 第一章 数值分析与科学计算导引1.1 数值分析的对象、作用与特点数值分析的对象数值分析的作用数值分析的特点 1.2 数值计算的误差误差分类误差与有效数字数值运算的误差估计 1.3 算法举例秦九韶算法求多项式值开根号迭代算法牛顿切线加权平均的松弛技术 第一章 数值分…...
ubuntu安装docker 无法拉取问题
sudo docker run hello-world [sudo] ubuntu 的密码: Unable to find image hello-world:latest locally docker: Error response from daemon: Get "https://registry-1.docker.io/v2/": context deadline exceeded (Client.Timeout exceeded while awai…...
【C++项目】Rpc通信框架设计
目录 Rpc远程调用的思想 项目框架设计 服务端模块划分 网络通信模块 Network 应用层通信协议模块 Protocol 消息分发处理模块 Dispatcher 远程调用路由功能模块 RpcRouter 编辑 发布订阅功能模块 Publish-Subscribe 服务注册/发现/上线/下线功能模块 Registry-Disc…...
八股取士--dockerk8s
一、Docker 基础 Docker 和虚拟机的区别是什么? 答案: 虚拟机(VM):虚拟化硬件,每个 VM 有独立操作系统,资源占用高,启动慢。Docker:容器化应用,共享宿主机内核…...
Autojs: 使用 SQLite
例子 let db new SQLiteUtil("/sdcard/A_My_DB/sqlite.db");db.fastCreateTable("user_table",{name: "",online: false,},["name"] // 设置 name 为唯一, 重复项 不会添加成功 );// 新增数据的 ID let row_id db.insert("use…...
思科、华为、H3C常用命令对照表
取消/关闭 思科no华为undo华三undo 查看 思科show华为display华三display 退出 思科exit华为quit华三quit 设备命名 思科hostname华为sysname华三sysname 进入全局模式 思科enable、config terminal华为system-view华三system-view 删除文件 思科delete华为delete华…...
解决 `pip is configured with locations that require TLS/SSL` 错误
问题描述 在使用 pip 安装 Python 包时,可能会遇到以下错误: WARNING: pip is configured with locations that require TLS/SSL, however the ssl module in Python is not available.这意味着 Python 的 ssl 模块未正确安装或配置,导致 p…...
2025-arXiv-OmniThink:通过思考扩展机器写作的知识边界
arXiv | https://arxiv.org/abs/2501.09751 GitHub | https://github.com/zjunlp/OmniThink 项目主页 | https://zjunlp.github.io/project/OmniThink/ ModelScope 在线 Demo | https://www.modelscope.cn/studios/iic/OmniThink 摘要: 大语言模型驱动的机器写作通…...
【广州大学主办,发表有保障 | IEEE出版,稳定EI检索,往届见刊后快至1个月检索】第二届电气技术与自动化工程国际学术会议 (ETAE 2025)
第二届电气技术与自动化工程国际学术会议 (ETAE 2025) The 2nd International Conference on Electrical Technology and Automation Engineering 大会官网:http://www.icetae.com/【更多详情】 会议时间:2025年4月25-27日 会议地点:…...
机器学习:01数学基础教程
函数 极限 按照一定次数排列的一列数:“,“,…,"…,其中u 叫做通项。 对于数列{Un}如果当n无限增大时,其通项无限接近于一个常数A,则称该数列以A为极限或称数列收敛于A,否则称数列为发散, 极限值 左…...
【根据当天日期输出明天的日期(需对闰年做判定)。】2022-5-15
缘由根据当天日期输出明天的日期(需对闰年做判定)。日期类型结构体如下: struct data{ int year; int month; int day;};-编程语言-CSDN问答 struct mdata{ int year; int month; int day; }mdata; int 天数(int year, int month) {switch (month){case 1: case 3:…...
【Linux】C语言执行shell指令
在C语言中执行Shell指令 在C语言中,有几种方法可以执行Shell指令: 1. 使用system()函数 这是最简单的方法,包含在stdlib.h头文件中: #include <stdlib.h>int main() {system("ls -l"); // 执行ls -l命令retu…...
STM32F4基本定时器使用和原理详解
STM32F4基本定时器使用和原理详解 前言如何确定定时器挂载在哪条时钟线上配置及使用方法参数配置PrescalerCounter ModeCounter Periodauto-reload preloadTrigger Event Selection 中断配置生成的代码及使用方法初始化代码基本定时器触发DCA或者ADC的代码讲解中断代码定时启动…...
【单片机期末】单片机系统设计
主要内容:系统状态机,系统时基,系统需求分析,系统构建,系统状态流图 一、题目要求 二、绘制系统状态流图 题目:根据上述描述绘制系统状态流图,注明状态转移条件及方向。 三、利用定时器产生时…...
力扣-35.搜索插入位置
题目描述 给定一个排序数组和一个目标值,在数组中找到目标值,并返回其索引。如果目标值不存在于数组中,返回它将会被按顺序插入的位置。 请必须使用时间复杂度为 O(log n) 的算法。 class Solution {public int searchInsert(int[] nums, …...
基于 TAPD 进行项目管理
起因 自己写了个小工具,仓库用的Github。之前在用markdown进行需求管理,现在随着功能的增加,感觉有点难以管理了,所以用TAPD这个工具进行需求、Bug管理。 操作流程 注册 TAPD,需要提供一个企业名新建一个项目&#…...
AirSim/Cosys-AirSim 游戏开发(四)外部固定位置监控相机
这个博客介绍了如何通过 settings.json 文件添加一个无人机外的 固定位置监控相机,因为在使用过程中发现 Airsim 对外部监控相机的描述模糊,而 Cosys-Airsim 在官方文档中没有提供外部监控相机设置,最后在源码示例中找到了,所以感…...
Java求职者面试指南:计算机基础与源码原理深度解析
Java求职者面试指南:计算机基础与源码原理深度解析 第一轮提问:基础概念问题 1. 请解释什么是进程和线程的区别? 面试官:进程是程序的一次执行过程,是系统进行资源分配和调度的基本单位;而线程是进程中的…...
Selenium常用函数介绍
目录 一,元素定位 1.1 cssSeector 1.2 xpath 二,操作测试对象 三,窗口 3.1 案例 3.2 窗口切换 3.3 窗口大小 3.4 屏幕截图 3.5 关闭窗口 四,弹窗 五,等待 六,导航 七,文件上传 …...
腾讯云V3签名
想要接入腾讯云的Api,必然先按其文档计算出所要求的签名。 之前也调用过腾讯云的接口,但总是卡在签名这一步,最后放弃选择SDK,这次终于自己代码实现。 可能腾讯云翻新了接口文档,现在阅读起来,清晰了很多&…...
