当前位置：首页 > news >正文

如何优化Elasticsearch大文档查询?

news 2026/6/5 17:34:04

记录一次业务复杂场景下DSL优化的过程

背景

B端商城业务有一个场景就是客户可见的产品列表是需要N多闸口及各种其它逻辑组合过滤的，各种闸口数据及产品数据都是存储在ES的(有的是独立索引，有的是作为产品属性存储在产品文档上)。

在实际使用的过程中，发现接口的毛刺比较严重，而这部分毛刺请求的耗时基本都是花费在从ES中查询产品索引的时候。

开启了一下ES慢DSL的日志

PUT /jiankunking_product_prod/_settings
{"index.search.slowlog.threshold.query.warn": "10s","index.search.slowlog.threshold.query.info": "5s","index.search.slowlog.threshold.fetch.warn": "2s","index.indexing.slowlog.source": true
}

经过分析慢DSL日志发现耗时长的部分都是在fetch阶段。

这里有个地方需要注意

[root@jiankunking-search-01: /data/es/logs]# ls -lrth |grep -v .gz
total 2.2G
-rw-r--r-- 1 es es    0 Sep 30  2019 jiankunking_audit.json
-rw-r--r-- 1 es es    0 Sep 30  2019 jiankunking_index_indexing_slowlog.log
-rw-r--r-- 1 es es    0 Sep 30  2019 jiankunking_index_indexing_slowlog.json
-rw-r--r-- 1 es es  53M Dec 31  2023 jiankunking_deprecation.log
-rw-r--r-- 1 es es 108M Dec 31  2023 jiankunking_deprecation.json
-rw-r--r-- 1 es es  55K Jul 30 10:43 jiankunking_server.json
-rw-r--r-- 1 es es  52K Jul 30 10:43 jiankunking.log
-rw-r--r-- 1 es es  63M Jul 30 11:32 jiankunking_index_search_slowlog.log //这里是完整的DSL
-rw-r--r-- 1 es es 8.9M Jul 30 11:32 jiankunking_index_search_slowlog.json //这里的DSL会被截断

分析

已知问题点

产品文档身上有4个属性会很大
- 属性A(nested属性):可以到几万个
- 属性B(nested属性):可以到几百个
- 属性C(string数组):可以到几万个
- 属性D(大Object):可以到几万个
ES fetch阶段慢，其实就是从相关分片请求文档内容慢(这时候id其实已经知道了)

大体就是下图这么个流程

在这里插入图片描述

下面简化一下请求的DSL，看下移除所有复杂的查询逻辑后，直接按照_id来terms查询效果如何？

DSL

GET /jiankunking_product_prod/_search
{"size": 10000,"_source": {"includes": ["code","group","groupBrand"],"excludes": []},"query": {"terms": {"_id": ["具体文档_id"]}}
}

不同文档大小查询时延

当前分析的DSL原本命中的文档数就是8306
下表中的文档数是直接在terms中查询的id数

文档数	文档大小(Bytes)	文档大小(KB)	响应时延(ms)	备注
8306	无限制		5908
5908	<500,000	<488	2327	剔除大的
6929	<200,000	<195	1507	剔除大的
5731	<100,000	<97	599	剔除大的
4925	<50,000	<49	356	剔除大的
4236	< 30,000	<29	214	剔除大的(注意这里，当文档大小比较小的时候，4000+的文档查询其实是比较快的)
----	----	----	----	----
4070	>30,000	>29	6261	剔除小的
3381	>50,000	>49	6050	剔除小的
2572	>100,000	>97	5388	剔除小的
1377	>200,000	>195	4973	剔除小的
669	>500,000	>488	3984	剔除小的
381	>1,000,000	>976	3169	剔除小的
217	>2,000,000	>1952	2391	剔除小的
88	>3,000,000	>2928	1244	剔除小的

分析

文档数与文档大小查询分析
- 剔除大文档之后，查询数据效率提升明显
- 剔除小文档之后，查询数据效率提升缓慢

到这里我们可以发现当文档size比较小的时候几千个文档的查询RT是很短的，但当随着请求命中的大文档越来越多，RT极速增加。

回看下我们的产品索引数据，可以发现大字段其实都是用来过滤的，并不是返回给页面需要的；那我们是不是可以：将索引拆分为两个或者ES只用来作为二级索引返回ids,然后去MySQL中查询具体的产品信息？

在这里插入图片描述

那我们将慢DSL中中查询的字段修改为只返回_id

POST /jiankunking_product_prod/_search
{"size": 10000,"_source": false,"query": {"terms": {"_id": [""],"boost": 1}}
}

这时候查询耗时只需要203ms,这种情况下还能不能再优化了呢？答案是可以的

索引中文档_id就是产品的code

POST /jiankunking_product_prod/_search
{"size": 10000,"_source": false,"stored_fields": "_none_","docvalue_fields": ["code"],"query": {"terms": {"code": [""],"boost": 1}}
}

这时候查询只需要76ms。

结论

到这里这次优化基本结束了，最终的方案就是

通过从jiankunking_product_prod索引中通过列存获取ids
到MySQL或者新的产品主数据索引中查询具体的产品数据

思考

为啥不直接从jiankunking_product_prod索引中通过列存获取前端需要的数据呢？

因为真实业务场景中需要返回的产品属性虽然每个不大，但总数有20多个，列存在返回字段数多且命中文档大小都不大的场景下，相比原逻辑直接从_source中取会略有下降。

更多原理性解释，可以看下这里:https://jiankunking.com/elasticsearch-source-doc-values-and-store-performance.html

ES适合的场景都有哪些？

目前我这边遇到的场景主要有：

检索加速
- 数据查询的主存储
  - 当文档大小不是太大的时候，索引检索完直接返回需要的数据
- 二级索引
  - 针对的就是本文这种场景
日志
- 应用/容器日志
  - 这里追求的更多是高吞吐的写入
- 业务日志

具体索引中数据大小是什么情况呢？

分位数	大小 (KB)
0.05	1.16
0.10	1.39
0.15	1.61
0.20	1.69
0.25	1.77
0.30	2.14
0.35	2.97
0.40	3.50
0.45	3.90
0.50	4.24
0.55	4.92
0.60	5.73
0.65	7.15
0.70	8.82
0.75	13.13
0.80	32.32
0.85	57.52
0.90	114.39
0.95	262.47
0.99	989.75

在这里插入图片描述

拓展阅读

https://jiankunking.com/elasticsearch-source-doc-values-and-store-performance.html
https://jiankunking.com/elasticsearch-scroll-and-search-after.html
https://luis-sena.medium.com/stop-using-the-id-field-in-elasticsearch-6fb650d1fbae
https://jiankunking.com/elasticsearch-avoid-the-fetch-phase-when-retrieving-only-id.html
https://jiankunking.com/elasticsearch-query-secret.html
https://www.elastic.co/guide/en/elasticsearch/reference/current/general-recommendations.html

如何优化Elasticsearch大文档查询?

记录一次业务复杂场景下DSL优化的过程背景 B端商城业务有一个场景就是客户可见的产品列表是需要N多闸口及各种其它逻辑组合过滤的，各种闸口数据及产品数据都是存储在ES的(有的是独立索引，有的是作为产品属性存储在产品文档上)。在实际使用的过程中&a…...

编程日记 2025/1/21 1:27:24

Kotlin Bytedeco OpenCV 图像图像54 透视变换图像矫正

Kotlin Bytedeco OpenCV 图像图像54 透视变换图像矫正 1 添加依赖2 测试代码3 测试结果在OpenCV中，仿射变换（Affine Transformation）和透视变换（Perspective Transformation）是两种常用的图像几何变换方法。变换方…...

编程日记 2025/1/21 1:26:22

Linux中DataX使用第一期

简介 DataX 是阿里云 DataWorks数据集成的开源版本，在阿里巴巴集团内被广泛使用的离线数据同步工具/平台。DataX 实现了包括 MySQL、Oracle、OceanBase、SqlServer、Postgre、HDFS、Hive、ADS、HBase、TableStore(OTS)、MaxCompute(ODPS)、Hologres、DRDS, databen…...

编程日记 2025/1/21 1:22:18

[Qt]事件-鼠标事件、键盘事件、定时器事件、窗口改变事件、事件分发器与事件过滤器

目录前言：Qt与操作系统的关系一、Qt事件 1.事件介绍 2.事件的表现形式常见的Qt事件： 常见的事件描述: 3.事件的处理方式处理鼠标进入和离开事件案例控件添加到对象树底层原理二、鼠标事件 1.鼠标按下和释放事件（单击&#x…...

编程日记 2025/1/21 1:21:17

关于机器学习的一份总结

在之前的文章中分别有详细的关于机器学习中某一学习算法的介绍，但缺少一个总体关于机器学习的总结，所以在这篇文中就是关于机器学习的一份总结。在最近的日子中，人工智能日益火热起来，而机器学习是其中举足轻重的一部分&#xf…...

编程日记 2025/1/21 1:19:15

【18】Word：明华中学-儿童医保❗

目录题目 NO2 NO3 NO4 NO5 NO6 NO7 NO8 NO9 题目 NO2 布局→页面设置对话框→纸张方向：横向→纸张大小：A3 ；页面设置对话框：直接输入纸张大小的宽度和高度即可→页面设置对话框：上下左右边距→版式&…...

编程日记 2025/1/21 1:12:08

如何用selenium来链接并打开比特浏览器进行自动化操作（1）

前言本文是该专栏的第76篇，后面会持续分享python爬虫干货知识，记得关注。本文，笔者将基于“比特浏览器”，通过selenium来实现链接并打开比特浏览器，进行相关的“自动化”操作。值得一提的是，在本专栏之前，笔者有详细介绍过“使用selenium或者pyppeteer（puppeteer）…...

编程日记 2025/1/21 1:08:03

基于springboot+thymeleaf+Redis仿知乎网站问答项目源码

项目介绍基于springbootthymeleafRedis仿知乎网站问答项目源码，可以作为毕业设计项目参考学习按照需要一定动手能力发文章，发视频，发想法，提问回答，注册登录开发环境使用技术：springbootthymeleafRe…...

编程日记 2025/1/21 1:06:01

目录 bean definitionBeanPostProcessorBeanFactoryPostProcessorComponent and Further Stereotype AnnotationsAOP Concepts bean definition https://docs.spring.io/spring-framework/docs/5.1.3.RELEASE/spring-framework-reference/core.html#beans-child-bean-definiti…...

编程日记 2025/1/21 1:03:58

2024年AI与大数据技术趋势洞察：跨领域创新与社会变革

目录引言技术洞察 1. 大模型技术的创新与开源推动 2. AI Agent 智能体平台技术 3. 多模态技术的兴起：跨领域应用的新风口 4. 强化学习与推荐系统：智能化决策的底层驱动 5. 开源工具与平台的快速发展：赋能技术创新 6. 技术安全与伦理：AI技术的双刃剑 7. 跨领域技…...

编程日记 2025/1/21 1:02:54

ThinkPhp项目解决静态资源请求的跨域问题的解决思路

背景：我在前端使用vue语言开发的，请求的后端是用ThinkPhp项目开发的。我vue项目里的请求php接口，自带header参数的跨域问题通过网上查询到的server端配置方法已经解决了。我使用的是中间件的配置方法： <?php//admin 项目配…...

编程日记 2025/1/21 0:59:43

mybatis的多对一、一对多的用法

目录 1、使用VO聚合对象（可以解决这两种情况） 多对一： 一对多： 2、非聚合的多对一做法： 3、非聚合的一对多做法： 1、使用VO聚合对象（可以解决这两种情况） 当我需要多对一、一对…...

编程日记 2025/1/21 0:58:41

消息队列实战指南：三大MQ 与 Kafka 适用场景全解析

前言：在当今数字化时代，分布式系统和大数据处理变得愈发普遍，消息队列作为其中的关键组件，承担着系统解耦、异步通信、流量削峰等重要职责。ActiveMQ、RabbitMQ、RocketMQ 和 Kafka 作为市场上极具代表性的消息队列产品&#xff0…...

编程日记 2025/1/21 0:55:34

前端发送Ajax请求的技术Axios

目录 1.引入Axios文件 2.使用Axios发送请求 2.1请求方法的别名请求的URL地址怎么来的？ 后端实现前后端交互 1.引入Axios文件 <script src"https://unpkg.com/axios/dist/axios.min.js"></script> 2.使用Axios发送请求 2.1请求方法的…...

编程日记 2025/1/21 0:52:27

第17章：Python TDD回顾与总结货币类开发

写在前面这本书是我们老板推荐过的，我在《价值心法》的推荐书单里也看到了它。用了一段时间 Cursor 软件后，我突然思考，对于测试开发工程师来说，什么才更有价值呢？如何让 AI 工具更好地辅助自己写代码，或许…...

编程日记 2025/1/21 0:49:23

opencv_KDTree_搜索介绍及示例

cv::flann::KDTreeIndexParams 说明，使用？ cv::flann::KDTreeIndexParams 是 OpenCV 中用于配置 KD 树（K-Dimensional Tree）索引参数的类。KD 树是一种用于多维空间中的点搜索的数据结构，常用于最近邻搜索等问题。在…...

编程日记 2025/1/21 0:48:17

Windows 上安装 MongoDB 的 zip 包

博主介绍： 大家好，我是想成为Super的Yuperman，互联网宇宙厂经验，17年医疗健康行业的码拉松奔跑者，曾担任技术专家、架构师、研发总监负责和主导多个应用架构。近期专注： RPA应用研究，主流厂商产…...

编程日记 2025/1/21 0:46:14

先进制造aps专题二十七西门子opcenter aps架构分析

欧美的商业aps，主要就是sap apo,西门子opcenter aps,达索quintiq 从技术的层面，西门子aps是不如sap apo的，但是西门子aps是西门子数字化工厂产品的核心，有很多特色，所以分析西门子aps主要分计划器和排产器两个部分计…...

编程日记 2025/1/21 0:42:11

【数据分享】1929-2024年全球站点的逐年平均气温数据（Shp\Excel\无需转发）

气象数据是在各项研究中都经常使用的数据，气象指标包括气温、风速、降水、湿度等指标，其中又以气温指标最为常用！说到气温数据，最详细的气温数据是具体到气象监测站点的气温数据！本次我们为大家带来的就是具体到气象监…...

编程日记 2025/1/21 0:41:10

智能检索新范式，让AIAgent自主决策，提升RAG效率100%！

市面上的 RAG 系统，不管叫什么名字，本质上只有两种做法： 第一种，一次性检索。把用户的 query 向量化，从语料库里捞出 Top-K 个文档片段，拼成一个大 prompt 塞给模型。GraphRAG、HippoRAG、LightRAG 都属于…...

编程新知 2026/5/26 2:55:48

MongoDB Limit 与 Skip 方法详解

MongoDB Limit 与 Skip 方法详解引言 MongoDB 是一个高性能、可伸缩的文档存储系统，它提供了强大的数据存储和查询功能。在处理大量数据时，Limit 与 Skip 方法是 MongoDB 中常用的查询优化工具。本文将详细介绍 MongoDB 中的 Limit 与 Skip 方法，包括其基本用法、性能影响…...

编程新知 2026/5/25 23:29:17

从“DOC/PDF”到“WPS”：细看GJB438C-2021文档格式要求背后的国产化信号与落地指南

从“DOC/PDF”到“WPS”：GJB438C-2021文档格式变革的深度解读与实施策略当一份国家军用标准在文档格式描述中刻意删除"DOC/PDF"字样，转而明确标注"（WPS）文档处理器"时，这绝非简单的技术参数调整。…...

编程新知 2026/5/25 23:20:56

解决方法：庐山派K230接串口没识别到端口问题

一、插入usb转串口工具之前二、插入usb转串口工具之后三、解决方法说明：🔍 核心原因：USB Serial 设备，没有被识别为 COM 口你现在看到的 USB Serial，说明开发板已经正常启动了，USB 也被电脑识别到了&#x…...

编程新知 2026/5/25 21:11:33

如何快速解锁中兴光猫权限：zteOnu工具完整使用指南

如何快速解锁中兴光猫权限：zteOnu工具完整使用指南【免费下载链接】zteOnu A tool that can open ZTE onu device factory mode 项目地址: https://gitcode.com/gh_mirrors/zt/zteOnu 中兴光猫作为家庭网络的核心设备，其强大的硬件性能常常被默认…...

编程新知 2026/5/25 21:11:33

03 - 变量与数据类型

03 - 变量与数据类型变量是编程里最基础的概念，相当于你往电脑里存东西的"容器"。这章我们把变量的命名规则、Python 的几种基本数据类型都过一遍。变量是什么说白了，变量就是一个有名字的盒子。你往里面放个东西，以后想用这个…...

编程新知 2026/5/25 20:36:10

Claude端到端测试设计终极清单：覆盖17类非功能需求（含延迟敏感度分级、幻觉熔断阈值、多轮对话状态持久化验证）

更多请点击： https://kaifayun.com 第一章：Claude端到端测试设计的演进逻辑与核心范式 Claude端到端测试并非静态产物，而是随模型能力边界拓展、交互场景复杂化及可靠性要求升级而持续演化的工程实践。其演进逻辑根植于三个关键张力&#xf…...

编程新知 2026/5/25 20:30:09

如何在5分钟内使用CrewAI Studio快速搭建AI工作流：零代码AI智能体开发终极指南

如何在5分钟内使用CrewAI Studio快速搭建AI工作流：零代码AI智能体开发终极指南【免费下载链接】CrewAI-Studio A user-friendly, multi-platform GUI for managing and running CrewAI agents and tasks. Supports Conda and virtual environments, no coding need…...

编程新知 2026/5/26 18:58:49

终极指南：Windows 10完美安装PL2303驱动，解决老旧USB转串口芯片兼容性问题

终极指南：Windows 10完美安装PL2303驱动，解决老旧USB转串口芯片兼容性问题【免费下载链接】pl2303-win10 Windows 10 driver for end-of-life PL-2303 chipsets. 项目地址: https://gitcode.com/gh_mirrors/pl/pl2303-win10 你是否还在为Windows…...

编程新知 2026/5/25 17:44:03

终极STL到STEP转换指南：如何实现3D打印模型到CAD设计的无缝衔接

终极STL到STEP转换指南：如何实现3D打印模型到CAD设计的无缝衔接【免费下载链接】stltostp Convert stl files to STEP brep files 项目地址: https://gitcode.com/gh_mirrors/st/stltostp 在数字化制造和工程设计领域，STL到STEP转换已成为连接3D…...

编程新知 2026/5/25 17:21:50

背景

分析

DSL

不同文档大小查询时延

分析

结论

思考

为啥不直接从jiankunking_product_prod索引中通过列存获取前端需要的数据呢？

ES适合的场景都有哪些？

具体索引中数据大小是什么情况呢？

拓展阅读

相关文章：