ES使用笔记,聚合分组后再分页,探索性能优化问题
之前分享过一篇文档,也是关于聚合分组后再分页的具体实现,当时只想着怎么实现,没有去主要探索ES性能优化的问题,
这篇我会换一种方式,重新实现这个聚合分组后再分页的操作,并且指出能优化性能点,可能我们再使用的时候,并没有注意过的点,希望对你有帮助!大佬的话,请忽略!
上源码
public SearchResultVo searchSupplier(SearchPageVo searchPageVo) {// 创建搜索结果对象SearchResultVo searchResultVo = new SearchResultVo();// 获取基础的搜索请求对象SearchRequest searchRequest = CloudBaseQueryBuilder.getBaseSubOrderIndexRequest();// 创建搜索源构建器SearchSourceBuilder sourceBuilder = new SearchSourceBuilder();// 创建机会页面对象并设置目录IDOpportunityPageVo vo = new OpportunityPageVo();vo.setCatalogIds(searchPageVo.getCatalogId());// 根据搜索类型设置供应商名称或单位名称if (PlatformConstant.COMMON_TYPE_YES.equals(searchPageVo.getType())) {vo.setSupplierName(searchPageVo.getName());} else {vo.setUnitName(searchPageVo.getName());}// 获取基础的条件查询BoolQueryBuilder boolQuery = CloudBaseQueryBuilder.getBaseOpportunityBoolQuery(vo);// 设置分组聚合int termsSize = (searchPageVo.getPageNo() - 1) * searchPageVo.getPageSize() + searchPageVo.getPageSize();TermsAggregationBuilder termsAggregationBuilder = AggregationBuilders.terms("aggregation").field(PlatformConstant.COMMON_TYPE_YES.equals(searchPageVo.getType()) ? "supplierName.keyword" : "unitName.keyword").size(termsSize).shardSize(termsSize * 2 + 10).subAggregation(AggregationBuilders.filters("orderTypeFilters",new FiltersAggregator.KeyedFilter("Agreement", QueryBuilders.termQuery("orderType", 3)),new FiltersAggregator.KeyedFilter("Estore", QueryBuilders.termQuery("orderType", 1))).subAggregation(AggregationBuilders.sum("totalPriceSum").field("totalPrice")) // 聚合总金额).subAggregation(AggregationBuilders.cardinality("orderCount").field("id.keyword"));// 设置总唯一值聚合CardinalityAggregationBuilder totel = AggregationBuilders.cardinality("totel").field(PlatformConstant.COMMON_TYPE_YES.equals(searchPageVo.getType()) ? "supplierName.keyword" : "unitName.keyword")// 精确度越高 内存消耗越大.precisionThreshold(40000);// 设置过滤器聚合FilterAggregationBuilder filter = AggregationBuilders.filter("bool_filter", boolQuery);List<Object> objectList = new ArrayList<>();objectList.add("orderCount");objectList.add(SortOrder.DESC);// 设置桶排序聚合termsAggregationBuilder.subAggregation(new BucketSortPipelineAggregationBuilder("bucket_sort",Arrays.asList(new FieldSortBuilder((String) objectList.get(0)).order((SortOrder) objectList.get(1)))).from((searchPageVo.getPageNo() - 1) * searchPageVo.getPageSize()).size(searchPageVo.getPageSize()));// 将分组聚合和总唯一值聚合添加到过滤器聚合中filter.subAggregation(termsAggregationBuilder);filter.subAggregation(totel);// 将过滤器聚合添加到搜索源构建器中sourceBuilder.aggregation(filter);// 设置搜索请求的源searchRequest.source(sourceBuilder);// 记录搜索请求日志log.info("searchRequest:" + sourceBuilder.toString());try {// 执行搜索请求并获取响应SearchResponse searchResponse = elasticsearchClient.search(searchRequest, RequestOptions.DEFAULT);// 获取过滤器聚合结果Filter boolFilter = searchResponse.getAggregations().get("bool_filter");// 获取总唯一值聚合结果Cardinality cardinality = boolFilter.getAggregations().get("totel");// 获取分组聚合结果Terms unitNameAggregation = boolFilter.getAggregations().get("aggregation");List<? extends Terms.Bucket> buckets = unitNameAggregation.getBuckets();List<SearchListVo> searchList = new ArrayList<>();// 遍历每个分组聚合桶for (Terms.Bucket bucket : buckets) {SearchListVo searchListVo = new SearchListVo();// 设置供应商名称或单位名称if (PlatformConstant.COMMON_TYPE_YES.equals(searchPageVo.getType())) {searchListVo.setSupplierName(bucket.getKeyAsString());} else {searchListVo.setUnitName(bucket.getKeyAsString());}// 获取订单类型过滤器聚合结果Filters filters = bucket.getAggregations().get("orderTypeFilters");// 设置电商订单金额searchListVo.setEstoreAmount(BigDecimal.valueOf(((Sum) filters.getBucketByKey("Estore").getAggregations().get("totalPriceSum")).getValue()));// 设置协议订单金额searchListVo.setAgreementAmount(BigDecimal.valueOf(((Sum) filters.getBucketByKey("Agreement").getAggregations().get("totalPriceSum")).getValue()));// 获取订单数量聚合结果Cardinality orderCount = bucket.getAggregations().get("orderCount");searchListVo.setSum((int) orderCount.getValue());searchList.add(searchListVo);}// 设置搜索结果的总数和列表searchResultVo.setTotal(Long.valueOf(cardinality.getValue()).intValue());searchResultVo.setList(searchList);} catch (IOException e) {// 记录搜索错误日志log.error("Error searching supplier", e);}return searchResultVo;
}
代码中的注释,方便我的代码逻辑,其中分页我还是用到了BucketSortPipelineAggregationBuilder这个类
BucketSortPipelineAggregationBuilder 是 Elasticsearch 中用于对聚合桶进行排序和分页的类。下面是对该类的作用、意义、使用场景、优点以及对性能的影响的详细解释:
- 作用和意义 排序:允许你对聚合结果中的桶进行排序。例如,可以按某个聚合值(如订单数量、总金额等)对供应商或单位进行排序。 分页:通过设置 from 和 size 参数,可以实现对聚合结果的分页,从而支持分页查询。 为什么使用这个类
- 复杂排序需求:当需要对聚合结果进行复杂的排序(例如,按多个字段排序)时,BucketSortPipelineAggregationBuilder
提供了灵活的排序选项。 分页支持:在处理大量聚合结果时,分页是非常重要的,可以减少每次查询返回的数据量,提高查询效率和用户体验。 - 优点 灵活性:支持多种排序方式,包括按字段排序、按脚本排序等。 分页能力:内置分页功能,方便实现分页查询。 性能优化:通过减少每次查询返回的数据量,可以显著提高查询性能,尤其是在处理大量数据时。
内存使用优化:通过分页和排序,可以减少内存占用,避免一次性加载大量数据导致的内存问题。 - 对性能的影响 减少数据传输:通过分页,每次查询只返回所需的数据量,减少了网络传输的数据量。 减少内存占用:避免一次性加载大量数据到内存中,减少了内存压力。
提高查询速度:通过排序和分页,可以更快地定位和返回所需的数据,提高查询速度。
再构建聚合时,使用了TermsAggregationBuilder类,其中两个参数size和shardSize,这两个参数可以优化性能,如果不设置的话,ES默认size=10,shardSize也是10,在 Elasticsearch 的 terms 聚合中,size 和 shard_size 参数用于控制聚合结果的数量和分片级别的聚合结果数量
两个参数的区别:
-
size: 作用: 控制最终返回的分组数量。 示例: size: 20 表示最终返回最多 20 个供应商分组。
-
shard_size: 作用: 控制每个分片返回的分组数量。 示例: shard_size: 10 表示每个分片最多返回 10
个供应商分组。 -
size 和 shard_size 的关系
shard_size:
每个分片独立地对数据进行聚合,并返回最多 shard_size 个分组。
例如,如果有 5 个分片,每个分片返回 10 个分组,那么协调节点将收到 50 个分组。
size:
协调节点从所有分片收集到的分组中,选择前 size 个分组。
例如,如果 size: 20,协调节点将从 50 个分组中选择前 20 个分组。 -
性能优化:
减少网络传输: 通过设置较小的 shard_size,可以减少每个分片返回的数据量,从而减少网络传输开销。
提高效率: 协调节点只需处理较少的中间结果,从而提高整体查询效率。
准确性:
避免遗漏: 通过设置较大的 shard_size,可以确保每个分片返回足够的分组,从而避免在协调节点合并时遗漏重要的分组。
精确排序: 确保最终返回的分组是全局排序后的结果,而不是每个分片排序后的结果。 -
示例
假设有一个索引包含 100 个供应商,每个分片包含 20 个文档。配置如下:
size: 20: 最终返回 20 个供应商分组。
shard_size: 10: 每个分片返回 10 个供应商分组。
分片聚合
分片 1: 返回供应商 A, B, C, D, E, F, G, H, I, J。
分片 2: 返回供应商 K, L, M, N, O, P, Q, R, S, T。
分片 3: 返回供应商 U, V, W, X, Y, Z, A1, B1, C1, D1。
分片 4: 返回供应商 E1, F1, G1, H1, I1, J1, K1, L1, M1, N1。
分片 5: 返回供应商 O1, P1, Q1, R1, S1, T1, U1, V1, W1, X1。
协调节点聚合
合并分组: 协调节点将所有分组合并,得到 50 个供应商分组。
排序: 协调节点按文档数量降序排序,如果数量相同则按供应商名称升序排序。
选择前 20 个分组: 最终返回前 20 个供应商分组。 -
冲突问题
冲突: 由于 shard_size 控制每个分片返回的分组数量,如果 shard_size 设置得太小,可能会导致某些重要的分组被遗漏,从而影响最终结果的准确性。
避免冲突: 通过合理设置 shard_size,确保每个分片返回足够的分组,从而避免在协调节点合并时遗漏重要的分组。 -
总结
shard_size 和 size 的关系是:shard_size 控制每个分片返回的分组数量,size 控制最终返回的分组数量。
性能优化: 通过设置较小的 shard_size,可以减少网络传输开销,提高查询效率。
准确性: 通过设置较大的 shard_size,可以确保每个分片返回足够的分组,从而避免遗漏重要的分组,确保最终结果的准确性。所以shard_size的大小要我们的数据量,业务需求去调整,没有绝对的正确,只有相对的平衡
还有个计算分组的总条数,我使用的是计算唯一的类:CardinalityAggregationBuilder,其中precisionThreshold就是调整的阙值,这个参数决定了Elasticsearch在计算基数时使用的内存大小和精度之间的权衡。较高的阈值会提高精度但增加内存消耗,
那么在ES中还有哪些聚合方式:
在Elasticsearch中,除了 TermsAggregationBuilder,还有其他几种常用的聚合类。以下是几种常见的聚合类及其特点、优缺点和对性能的影响:
-
Terms Aggregation
作用:用于按字段值进行分组统计。
优点:
灵活性高,支持多种子聚合。
支持排序、过滤等操作。
缺点:
对于大基数(大量唯一值)字段,性能较差,内存消耗较大。
需要设置合理的 shardSize 和 precisionThreshold 来平衡精度和性能。
性能影响:随着唯一值数量增加,性能会显著下降。 -
Histogram Aggregation
作用:用于数值字段的区间分组统计。
优点:
适合数值型数据的区间分析。
计算简单,性能较好。
缺点:
不适用于非数值字段。
区间划分需要预先设定。
性能影响:性能较好,但依赖于区间的合理设置。 -
Date Histogram Aggregation
作用:用于日期字段的时间区间分组统计。
优点:
专门针对日期字段优化。
支持灵活的时间间隔(如天、月、年)。
缺点:
仅适用于日期字段。
性能影响:性能较好,特别是对于时间序列数据。 -
Range Aggregation
作用:用于数值或日期字段的范围分组统计。
优点:
支持自定义范围。
适合分析特定范围内的数据分布。
缺点:
需要手动定义范围边界。
性能影响:性能较好,取决于范围的数量和复杂度。 -
Composite Aggregation
作用:用于多字段组合分组统计,支持深度分页。
优点:
支持多字段组合分组。
支持深度分页,避免一次性加载大量数据。
缺点:
复杂度较高,配置较为繁琐。
性能影响:性能较好,特别适合大数据集的分页查询。 -
Significant Terms Aggregation
作用:用于发现显著不同的项,常用于异常检测。
优点:
适合发现异常或显著变化的数据。
自动计算显著性。
缺点:
计算复杂,性能较低。
性能影响:性能较差,适合小规模数据集或特定场景。 -
Cardinality Aggregation
作用:用于计算唯一值的数量。
优点:
简单易用,适合唯一值统计。
缺点:
对于大基数字段,性能较差,内存消耗大。
性能影响:性能取决于 precisionThreshold 的设置。 -
聚合类的选择建议
如果需要按离散值分组:使用 Terms Aggregation 或 Composite Aggregation。Composite Aggregation 更适合大数据集的分页查询。
如果需要按数值或日期区间分组:使用 Histogram Aggregation 或 Date Histogram Aggregation。
如果需要按范围分组:使用 Range Aggregation。
如果需要发现显著变化的数据:使用 Significant Terms Aggregation。
如果需要计算唯一值数量:使用 Cardinality Aggregation,并根据实际需求调整 precisionThreshold。
相关文章:
ES使用笔记,聚合分组后再分页,探索性能优化问题
之前分享过一篇文档,也是关于聚合分组后再分页的具体实现,当时只想着怎么实现,没有去主要探索ES性能优化的问题, 这篇我会换一种方式,重新实现这个聚合分组后再分页的操作,并且指出能优化性能点,可能我们再使用的时候,并没有注意过的点,希望对你有帮助!大佬的话,请忽略! 上源码…...
VUE3 vite下的axios跨域
在使用 Vite 开发时,如果你的前端项目需要请求后端 API,且后端和前端不在同一个域上,可能会遇到跨域问题。跨域是指浏览器出于安全考虑,阻止了前端网页向不同源(域名、协议、端口)发送请求。 解决跨域问题…...
Mac下安装ADB环境的三种方式
参考网址: Mac下安装ADB环境的三种方式-百度开发者中心 ADB,即Android Debug Bridge,是Android开发过程中不可或缺的工具。通过ADB,开发者可以在计算机上管理设备或模拟器上的应用,提供了丰富的调试功能。然而&#…...
在Vue中,<img> 标签的 src 值
1. 直接指定 src 的值(适用于网络图片) 如果你使用的是网络图片(即图片的URL是完整的HTTP或HTTPS链接),可以直接指定 src 的值: vue 复制 <template><div><img src"https://exampl…...
Kotlin基础知识学习(三)
函数使用 基本用法 函数声明变化 如果函数是公开的,则public关键字可以省略。用fun关键字表示函数的定义。如果函数没有返回值可以不用声明。如果函数表示重载,直接在fun同一行用override修饰。函数参数格式是变量名:变量类型。函数参数允…...

渗透测试之XEE[外部实体注入]漏洞 原理 攻击手法 xml语言结构 防御手法
目录 原理 XML语言解释 什么是xml语言: 以PHP举例xml外部实体注入 XML语言结构 面试题目 如何寻找xxe漏洞 XEE漏洞修复域防御 提高版本 代码修复 php java python 手动黑名单过滤(不推荐) 一篇文章带你深入理解漏洞之 XXE 漏洞 - 先知社区 原理 XXE&…...

店铺营业状态设置(day05)
Redis入门 Redis简介 Redis 是一个基于内存的 key-value 结构数据库。Redis 是互联网技术领域使用最为广泛的存储中间件。 Redis是一个基于内存的 key-value 结构数据库。 主要特点: 1、基于内存存储,读写性能高 2、适合存储热点数据(热点…...

游戏引擎学习第84天
仓库:https://gitee.com/mrxiao_com/2d_game_2 我们正在试图弄清楚如何完成我们的世界构建 上周做了一些偏离计划的工作,开发了一个小型的背景位图合成工具,这个工具做得还不错,虽然是临时拼凑的,但验证了背景构建的思路。这个过…...

快手SDK接入错误处理经验总结(WebGL方案)
1、打包时提示Assets\WebGLTemplates\ks路径下未找到Index.html文件错误 处理方法:直接使用Unity默认模板下的Index.html文件即可 文件所在路径:Unity安装路径\Editor\Data\PlaybackEngines\WebGLSupport\BuildTools\WebGLTemplates\Default 参考图&a…...

C语言 for 循环:解谜数学,玩转生活!
放在最前面的 🎈 🎈 我的CSDN主页:OTWOL的主页,欢迎!!!👋🏼👋🏼 🎉🎉我的C语言初阶合集:C语言初阶合集,希望能…...
Node.js 与 JavaScript 是什么关系
JavaScript 是一种编程语言,而 Node.js 是 JavaScript 的一个运行环境,它们在不同的环境中使用,具有一些共同的语言基础,但也有各自独特的 API 和模块,共同推动着 JavaScript 在前后端开发中的广泛应用。 一、基础语言…...

Java 大视界 -- Java 大数据性能监控与调优:全链路性能分析与优化(十五)
💖💖💖亲爱的朋友们,热烈欢迎你们来到 青云交的博客!能与你们在此邂逅,我满心欢喜,深感无比荣幸。在这个瞬息万变的时代,我们每个人都在苦苦追寻一处能让心灵安然栖息的港湾。而 我的…...

深入Spring Boot:自定义Starter开发与实践
引言 Spring Boot通过其强大的自动配置机制和丰富的Starter模块,极大地简化了Spring应用的开发过程。Starter模块封装了一组相关的依赖和配置,使得开发者可以通过简单的依赖引入,快速启用特定的功能。然而,除了使用Spring Boot提…...
React 中hooks之useTransition使用总结
目录 概述基本用法使用场景最佳实践注意事项 概述 什么是 useTransition? useTransition 是 React 18 引入的新 Hook,用于标记非紧急的状态更新。它允许组件在状态转换期间保持响应,通过将某些更新标记为"过渡"来推迟它们的渲染。 主要特…...

怎样使用树莓派自己搭建一套ADS-B信号接收系统
0 我们知道,ADS-B全称广播式自动相关监视系统,其实就是飞机发出的广播信号,用明码来对外发送自己的位置、高度、速度、航向等信息,是公开信息。连续接收到一架飞机发出的ADS-B信息后,可以通过其坐标点来描绘出飞机的航…...

Chrome谷歌浏览器如何能恢复到之前的旧版本
升级了谷歌最新版不习惯,如何降级版本 未完待续。。 电脑中的Chrome谷歌浏览器升级到了最新版本,但是有种种的不适应,如何能恢复到之前的旧版本呢?我们来看看操作步骤,而且无需卸载重装。 怎么恢复Chrome 之前版本&a…...

路由器旁挂三层网络实现SDWAN互联(爱快SD-WAN)
近期因公司新办公区建设,原有的爱快路由器的SDWAN功能实现分支之间互联的服务还需要继续使用。在原有的小型网络中,使用的爱快路由器当作网关设备,所以使用较为简单,如下图所示。 现变更网络拓扑为三层网络架构,但原有的SDWAN分支…...

代码随想录算法训练营第五十五天 |108.冗余连接 109.冗余连接Ⅱ
108.冗余连接: 文章链接 题目链接:108.冗余连接 思路 首先分析题目,给定拥有n个节点和n条边的图,其中图是在原n个节点和n - 1条无环无向图中添加一条边得到的。要求是输出多出的边。(PS:可能会有多个答案…...

Unity补充 -- 协程相关
1.协程。 协程并不是线程。线程是主线程之外的另一条 代码按照逻辑执行通道。协程则是在代码在按照逻辑执行的同时,是否需要执行额外的语句块。 2.协程的作用。 在update执行的时候,是按照帧来进行刷新的,也是按照帧执行代码的。但是又不想…...

【第二十周】U-Net:用于生物图像分割的卷积神经网络
文章目录 摘要Abstract文章信息研究动机U-Net网络结构U-Net网络搭建数据增强损失函数转置卷积创新性与不足创新性:不足: 总结 摘要 U-Net(Convolutional Networks for Biomedical Image Segmentation)是一种用于图像分割的深度学…...

利用最小二乘法找圆心和半径
#include <iostream> #include <vector> #include <cmath> #include <Eigen/Dense> // 需安装Eigen库用于矩阵运算 // 定义点结构 struct Point { double x, y; Point(double x_, double y_) : x(x_), y(y_) {} }; // 最小二乘法求圆心和半径 …...

【JavaEE】-- HTTP
1. HTTP是什么? HTTP(全称为"超文本传输协议")是一种应用非常广泛的应用层协议,HTTP是基于TCP协议的一种应用层协议。 应用层协议:是计算机网络协议栈中最高层的协议,它定义了运行在不同主机上…...

相机Camera日志实例分析之二:相机Camx【专业模式开启直方图拍照】单帧流程日志详解
【关注我,后续持续新增专题博文,谢谢!!!】 上一篇我们讲了: 这一篇我们开始讲: 目录 一、场景操作步骤 二、日志基础关键字分级如下 三、场景日志如下: 一、场景操作步骤 操作步…...
React Native在HarmonyOS 5.0阅读类应用开发中的实践
一、技术选型背景 随着HarmonyOS 5.0对Web兼容层的增强,React Native作为跨平台框架可通过重新编译ArkTS组件实现85%以上的代码复用率。阅读类应用具有UI复杂度低、数据流清晰的特点。 二、核心实现方案 1. 环境配置 (1)使用React Native…...

全球首个30米分辨率湿地数据集(2000—2022)
数据简介 今天我们分享的数据是全球30米分辨率湿地数据集,包含8种湿地亚类,该数据以0.5X0.5的瓦片存储,我们整理了所有属于中国的瓦片名称与其对应省份,方便大家研究使用。 该数据集作为全球首个30米分辨率、覆盖2000–2022年时间…...
ffmpeg(四):滤镜命令
FFmpeg 的滤镜命令是用于音视频处理中的强大工具,可以完成剪裁、缩放、加水印、调色、合成、旋转、模糊、叠加字幕等复杂的操作。其核心语法格式一般如下: ffmpeg -i input.mp4 -vf "滤镜参数" output.mp4或者带音频滤镜: ffmpeg…...

第一篇:Agent2Agent (A2A) 协议——协作式人工智能的黎明
AI 领域的快速发展正在催生一个新时代,智能代理(agents)不再是孤立的个体,而是能够像一个数字团队一样协作。然而,当前 AI 生态系统的碎片化阻碍了这一愿景的实现,导致了“AI 巴别塔问题”——不同代理之间…...

UR 协作机器人「三剑客」:精密轻量担当(UR7e)、全能协作主力(UR12e)、重型任务专家(UR15)
UR协作机器人正以其卓越性能在现代制造业自动化中扮演重要角色。UR7e、UR12e和UR15通过创新技术和精准设计满足了不同行业的多样化需求。其中,UR15以其速度、精度及人工智能准备能力成为自动化领域的重要突破。UR7e和UR12e则在负载规格和市场定位上不断优化…...
高效线程安全的单例模式:Python 中的懒加载与自定义初始化参数
高效线程安全的单例模式:Python 中的懒加载与自定义初始化参数 在软件开发中,单例模式(Singleton Pattern)是一种常见的设计模式,确保一个类仅有一个实例,并提供一个全局访问点。在多线程环境下,实现单例模式时需要注意线程安全问题,以防止多个线程同时创建实例,导致…...

使用LangGraph和LangSmith构建多智能体人工智能系统
现在,通过组合几个较小的子智能体来创建一个强大的人工智能智能体正成为一种趋势。但这也带来了一些挑战,比如减少幻觉、管理对话流程、在测试期间留意智能体的工作方式、允许人工介入以及评估其性能。你需要进行大量的反复试验。 在这篇博客〔原作者&a…...