ES使用笔记,聚合分组后再分页,探索性能优化问题
之前分享过一篇文档,也是关于聚合分组后再分页的具体实现,当时只想着怎么实现,没有去主要探索ES性能优化的问题,
这篇我会换一种方式,重新实现这个聚合分组后再分页的操作,并且指出能优化性能点,可能我们再使用的时候,并没有注意过的点,希望对你有帮助!大佬的话,请忽略!
上源码
public SearchResultVo searchSupplier(SearchPageVo searchPageVo) {// 创建搜索结果对象SearchResultVo searchResultVo = new SearchResultVo();// 获取基础的搜索请求对象SearchRequest searchRequest = CloudBaseQueryBuilder.getBaseSubOrderIndexRequest();// 创建搜索源构建器SearchSourceBuilder sourceBuilder = new SearchSourceBuilder();// 创建机会页面对象并设置目录IDOpportunityPageVo vo = new OpportunityPageVo();vo.setCatalogIds(searchPageVo.getCatalogId());// 根据搜索类型设置供应商名称或单位名称if (PlatformConstant.COMMON_TYPE_YES.equals(searchPageVo.getType())) {vo.setSupplierName(searchPageVo.getName());} else {vo.setUnitName(searchPageVo.getName());}// 获取基础的条件查询BoolQueryBuilder boolQuery = CloudBaseQueryBuilder.getBaseOpportunityBoolQuery(vo);// 设置分组聚合int termsSize = (searchPageVo.getPageNo() - 1) * searchPageVo.getPageSize() + searchPageVo.getPageSize();TermsAggregationBuilder termsAggregationBuilder = AggregationBuilders.terms("aggregation").field(PlatformConstant.COMMON_TYPE_YES.equals(searchPageVo.getType()) ? "supplierName.keyword" : "unitName.keyword").size(termsSize).shardSize(termsSize * 2 + 10).subAggregation(AggregationBuilders.filters("orderTypeFilters",new FiltersAggregator.KeyedFilter("Agreement", QueryBuilders.termQuery("orderType", 3)),new FiltersAggregator.KeyedFilter("Estore", QueryBuilders.termQuery("orderType", 1))).subAggregation(AggregationBuilders.sum("totalPriceSum").field("totalPrice")) // 聚合总金额).subAggregation(AggregationBuilders.cardinality("orderCount").field("id.keyword"));// 设置总唯一值聚合CardinalityAggregationBuilder totel = AggregationBuilders.cardinality("totel").field(PlatformConstant.COMMON_TYPE_YES.equals(searchPageVo.getType()) ? "supplierName.keyword" : "unitName.keyword")// 精确度越高 内存消耗越大.precisionThreshold(40000);// 设置过滤器聚合FilterAggregationBuilder filter = AggregationBuilders.filter("bool_filter", boolQuery);List<Object> objectList = new ArrayList<>();objectList.add("orderCount");objectList.add(SortOrder.DESC);// 设置桶排序聚合termsAggregationBuilder.subAggregation(new BucketSortPipelineAggregationBuilder("bucket_sort",Arrays.asList(new FieldSortBuilder((String) objectList.get(0)).order((SortOrder) objectList.get(1)))).from((searchPageVo.getPageNo() - 1) * searchPageVo.getPageSize()).size(searchPageVo.getPageSize()));// 将分组聚合和总唯一值聚合添加到过滤器聚合中filter.subAggregation(termsAggregationBuilder);filter.subAggregation(totel);// 将过滤器聚合添加到搜索源构建器中sourceBuilder.aggregation(filter);// 设置搜索请求的源searchRequest.source(sourceBuilder);// 记录搜索请求日志log.info("searchRequest:" + sourceBuilder.toString());try {// 执行搜索请求并获取响应SearchResponse searchResponse = elasticsearchClient.search(searchRequest, RequestOptions.DEFAULT);// 获取过滤器聚合结果Filter boolFilter = searchResponse.getAggregations().get("bool_filter");// 获取总唯一值聚合结果Cardinality cardinality = boolFilter.getAggregations().get("totel");// 获取分组聚合结果Terms unitNameAggregation = boolFilter.getAggregations().get("aggregation");List<? extends Terms.Bucket> buckets = unitNameAggregation.getBuckets();List<SearchListVo> searchList = new ArrayList<>();// 遍历每个分组聚合桶for (Terms.Bucket bucket : buckets) {SearchListVo searchListVo = new SearchListVo();// 设置供应商名称或单位名称if (PlatformConstant.COMMON_TYPE_YES.equals(searchPageVo.getType())) {searchListVo.setSupplierName(bucket.getKeyAsString());} else {searchListVo.setUnitName(bucket.getKeyAsString());}// 获取订单类型过滤器聚合结果Filters filters = bucket.getAggregations().get("orderTypeFilters");// 设置电商订单金额searchListVo.setEstoreAmount(BigDecimal.valueOf(((Sum) filters.getBucketByKey("Estore").getAggregations().get("totalPriceSum")).getValue()));// 设置协议订单金额searchListVo.setAgreementAmount(BigDecimal.valueOf(((Sum) filters.getBucketByKey("Agreement").getAggregations().get("totalPriceSum")).getValue()));// 获取订单数量聚合结果Cardinality orderCount = bucket.getAggregations().get("orderCount");searchListVo.setSum((int) orderCount.getValue());searchList.add(searchListVo);}// 设置搜索结果的总数和列表searchResultVo.setTotal(Long.valueOf(cardinality.getValue()).intValue());searchResultVo.setList(searchList);} catch (IOException e) {// 记录搜索错误日志log.error("Error searching supplier", e);}return searchResultVo;
}
代码中的注释,方便我的代码逻辑,其中分页我还是用到了BucketSortPipelineAggregationBuilder这个类
BucketSortPipelineAggregationBuilder 是 Elasticsearch 中用于对聚合桶进行排序和分页的类。下面是对该类的作用、意义、使用场景、优点以及对性能的影响的详细解释:
- 作用和意义 排序:允许你对聚合结果中的桶进行排序。例如,可以按某个聚合值(如订单数量、总金额等)对供应商或单位进行排序。 分页:通过设置 from 和 size 参数,可以实现对聚合结果的分页,从而支持分页查询。 为什么使用这个类
- 复杂排序需求:当需要对聚合结果进行复杂的排序(例如,按多个字段排序)时,BucketSortPipelineAggregationBuilder
提供了灵活的排序选项。 分页支持:在处理大量聚合结果时,分页是非常重要的,可以减少每次查询返回的数据量,提高查询效率和用户体验。 - 优点 灵活性:支持多种排序方式,包括按字段排序、按脚本排序等。 分页能力:内置分页功能,方便实现分页查询。 性能优化:通过减少每次查询返回的数据量,可以显著提高查询性能,尤其是在处理大量数据时。
内存使用优化:通过分页和排序,可以减少内存占用,避免一次性加载大量数据导致的内存问题。 - 对性能的影响 减少数据传输:通过分页,每次查询只返回所需的数据量,减少了网络传输的数据量。 减少内存占用:避免一次性加载大量数据到内存中,减少了内存压力。
提高查询速度:通过排序和分页,可以更快地定位和返回所需的数据,提高查询速度。
再构建聚合时,使用了TermsAggregationBuilder类,其中两个参数size和shardSize,这两个参数可以优化性能,如果不设置的话,ES默认size=10,shardSize也是10,在 Elasticsearch 的 terms 聚合中,size 和 shard_size 参数用于控制聚合结果的数量和分片级别的聚合结果数量
两个参数的区别:
-
size: 作用: 控制最终返回的分组数量。 示例: size: 20 表示最终返回最多 20 个供应商分组。
-
shard_size: 作用: 控制每个分片返回的分组数量。 示例: shard_size: 10 表示每个分片最多返回 10
个供应商分组。 -
size 和 shard_size 的关系
shard_size:
每个分片独立地对数据进行聚合,并返回最多 shard_size 个分组。
例如,如果有 5 个分片,每个分片返回 10 个分组,那么协调节点将收到 50 个分组。
size:
协调节点从所有分片收集到的分组中,选择前 size 个分组。
例如,如果 size: 20,协调节点将从 50 个分组中选择前 20 个分组。 -
性能优化:
减少网络传输: 通过设置较小的 shard_size,可以减少每个分片返回的数据量,从而减少网络传输开销。
提高效率: 协调节点只需处理较少的中间结果,从而提高整体查询效率。
准确性:
避免遗漏: 通过设置较大的 shard_size,可以确保每个分片返回足够的分组,从而避免在协调节点合并时遗漏重要的分组。
精确排序: 确保最终返回的分组是全局排序后的结果,而不是每个分片排序后的结果。 -
示例
假设有一个索引包含 100 个供应商,每个分片包含 20 个文档。配置如下:
size: 20: 最终返回 20 个供应商分组。
shard_size: 10: 每个分片返回 10 个供应商分组。
分片聚合
分片 1: 返回供应商 A, B, C, D, E, F, G, H, I, J。
分片 2: 返回供应商 K, L, M, N, O, P, Q, R, S, T。
分片 3: 返回供应商 U, V, W, X, Y, Z, A1, B1, C1, D1。
分片 4: 返回供应商 E1, F1, G1, H1, I1, J1, K1, L1, M1, N1。
分片 5: 返回供应商 O1, P1, Q1, R1, S1, T1, U1, V1, W1, X1。
协调节点聚合
合并分组: 协调节点将所有分组合并,得到 50 个供应商分组。
排序: 协调节点按文档数量降序排序,如果数量相同则按供应商名称升序排序。
选择前 20 个分组: 最终返回前 20 个供应商分组。 -
冲突问题
冲突: 由于 shard_size 控制每个分片返回的分组数量,如果 shard_size 设置得太小,可能会导致某些重要的分组被遗漏,从而影响最终结果的准确性。
避免冲突: 通过合理设置 shard_size,确保每个分片返回足够的分组,从而避免在协调节点合并时遗漏重要的分组。 -
总结
shard_size 和 size 的关系是:shard_size 控制每个分片返回的分组数量,size 控制最终返回的分组数量。
性能优化: 通过设置较小的 shard_size,可以减少网络传输开销,提高查询效率。
准确性: 通过设置较大的 shard_size,可以确保每个分片返回足够的分组,从而避免遗漏重要的分组,确保最终结果的准确性。所以shard_size的大小要我们的数据量,业务需求去调整,没有绝对的正确,只有相对的平衡
还有个计算分组的总条数,我使用的是计算唯一的类:CardinalityAggregationBuilder,其中precisionThreshold就是调整的阙值,这个参数决定了Elasticsearch在计算基数时使用的内存大小和精度之间的权衡。较高的阈值会提高精度但增加内存消耗,
那么在ES中还有哪些聚合方式:
在Elasticsearch中,除了 TermsAggregationBuilder,还有其他几种常用的聚合类。以下是几种常见的聚合类及其特点、优缺点和对性能的影响:
-
Terms Aggregation
作用:用于按字段值进行分组统计。
优点:
灵活性高,支持多种子聚合。
支持排序、过滤等操作。
缺点:
对于大基数(大量唯一值)字段,性能较差,内存消耗较大。
需要设置合理的 shardSize 和 precisionThreshold 来平衡精度和性能。
性能影响:随着唯一值数量增加,性能会显著下降。 -
Histogram Aggregation
作用:用于数值字段的区间分组统计。
优点:
适合数值型数据的区间分析。
计算简单,性能较好。
缺点:
不适用于非数值字段。
区间划分需要预先设定。
性能影响:性能较好,但依赖于区间的合理设置。 -
Date Histogram Aggregation
作用:用于日期字段的时间区间分组统计。
优点:
专门针对日期字段优化。
支持灵活的时间间隔(如天、月、年)。
缺点:
仅适用于日期字段。
性能影响:性能较好,特别是对于时间序列数据。 -
Range Aggregation
作用:用于数值或日期字段的范围分组统计。
优点:
支持自定义范围。
适合分析特定范围内的数据分布。
缺点:
需要手动定义范围边界。
性能影响:性能较好,取决于范围的数量和复杂度。 -
Composite Aggregation
作用:用于多字段组合分组统计,支持深度分页。
优点:
支持多字段组合分组。
支持深度分页,避免一次性加载大量数据。
缺点:
复杂度较高,配置较为繁琐。
性能影响:性能较好,特别适合大数据集的分页查询。 -
Significant Terms Aggregation
作用:用于发现显著不同的项,常用于异常检测。
优点:
适合发现异常或显著变化的数据。
自动计算显著性。
缺点:
计算复杂,性能较低。
性能影响:性能较差,适合小规模数据集或特定场景。 -
Cardinality Aggregation
作用:用于计算唯一值的数量。
优点:
简单易用,适合唯一值统计。
缺点:
对于大基数字段,性能较差,内存消耗大。
性能影响:性能取决于 precisionThreshold 的设置。 -
聚合类的选择建议
如果需要按离散值分组:使用 Terms Aggregation 或 Composite Aggregation。Composite Aggregation 更适合大数据集的分页查询。
如果需要按数值或日期区间分组:使用 Histogram Aggregation 或 Date Histogram Aggregation。
如果需要按范围分组:使用 Range Aggregation。
如果需要发现显著变化的数据:使用 Significant Terms Aggregation。
如果需要计算唯一值数量:使用 Cardinality Aggregation,并根据实际需求调整 precisionThreshold。
相关文章:
ES使用笔记,聚合分组后再分页,探索性能优化问题
之前分享过一篇文档,也是关于聚合分组后再分页的具体实现,当时只想着怎么实现,没有去主要探索ES性能优化的问题, 这篇我会换一种方式,重新实现这个聚合分组后再分页的操作,并且指出能优化性能点,可能我们再使用的时候,并没有注意过的点,希望对你有帮助!大佬的话,请忽略! 上源码…...
VUE3 vite下的axios跨域
在使用 Vite 开发时,如果你的前端项目需要请求后端 API,且后端和前端不在同一个域上,可能会遇到跨域问题。跨域是指浏览器出于安全考虑,阻止了前端网页向不同源(域名、协议、端口)发送请求。 解决跨域问题…...
Mac下安装ADB环境的三种方式
参考网址: Mac下安装ADB环境的三种方式-百度开发者中心 ADB,即Android Debug Bridge,是Android开发过程中不可或缺的工具。通过ADB,开发者可以在计算机上管理设备或模拟器上的应用,提供了丰富的调试功能。然而&#…...
在Vue中,<img> 标签的 src 值
1. 直接指定 src 的值(适用于网络图片) 如果你使用的是网络图片(即图片的URL是完整的HTTP或HTTPS链接),可以直接指定 src 的值: vue 复制 <template><div><img src"https://exampl…...
Kotlin基础知识学习(三)
函数使用 基本用法 函数声明变化 如果函数是公开的,则public关键字可以省略。用fun关键字表示函数的定义。如果函数没有返回值可以不用声明。如果函数表示重载,直接在fun同一行用override修饰。函数参数格式是变量名:变量类型。函数参数允…...

渗透测试之XEE[外部实体注入]漏洞 原理 攻击手法 xml语言结构 防御手法
目录 原理 XML语言解释 什么是xml语言: 以PHP举例xml外部实体注入 XML语言结构 面试题目 如何寻找xxe漏洞 XEE漏洞修复域防御 提高版本 代码修复 php java python 手动黑名单过滤(不推荐) 一篇文章带你深入理解漏洞之 XXE 漏洞 - 先知社区 原理 XXE&…...

店铺营业状态设置(day05)
Redis入门 Redis简介 Redis 是一个基于内存的 key-value 结构数据库。Redis 是互联网技术领域使用最为广泛的存储中间件。 Redis是一个基于内存的 key-value 结构数据库。 主要特点: 1、基于内存存储,读写性能高 2、适合存储热点数据(热点…...

游戏引擎学习第84天
仓库:https://gitee.com/mrxiao_com/2d_game_2 我们正在试图弄清楚如何完成我们的世界构建 上周做了一些偏离计划的工作,开发了一个小型的背景位图合成工具,这个工具做得还不错,虽然是临时拼凑的,但验证了背景构建的思路。这个过…...

快手SDK接入错误处理经验总结(WebGL方案)
1、打包时提示Assets\WebGLTemplates\ks路径下未找到Index.html文件错误 处理方法:直接使用Unity默认模板下的Index.html文件即可 文件所在路径:Unity安装路径\Editor\Data\PlaybackEngines\WebGLSupport\BuildTools\WebGLTemplates\Default 参考图&a…...

C语言 for 循环:解谜数学,玩转生活!
放在最前面的 🎈 🎈 我的CSDN主页:OTWOL的主页,欢迎!!!👋🏼👋🏼 🎉🎉我的C语言初阶合集:C语言初阶合集,希望能…...
Node.js 与 JavaScript 是什么关系
JavaScript 是一种编程语言,而 Node.js 是 JavaScript 的一个运行环境,它们在不同的环境中使用,具有一些共同的语言基础,但也有各自独特的 API 和模块,共同推动着 JavaScript 在前后端开发中的广泛应用。 一、基础语言…...

Java 大视界 -- Java 大数据性能监控与调优:全链路性能分析与优化(十五)
💖💖💖亲爱的朋友们,热烈欢迎你们来到 青云交的博客!能与你们在此邂逅,我满心欢喜,深感无比荣幸。在这个瞬息万变的时代,我们每个人都在苦苦追寻一处能让心灵安然栖息的港湾。而 我的…...

深入Spring Boot:自定义Starter开发与实践
引言 Spring Boot通过其强大的自动配置机制和丰富的Starter模块,极大地简化了Spring应用的开发过程。Starter模块封装了一组相关的依赖和配置,使得开发者可以通过简单的依赖引入,快速启用特定的功能。然而,除了使用Spring Boot提…...
React 中hooks之useTransition使用总结
目录 概述基本用法使用场景最佳实践注意事项 概述 什么是 useTransition? useTransition 是 React 18 引入的新 Hook,用于标记非紧急的状态更新。它允许组件在状态转换期间保持响应,通过将某些更新标记为"过渡"来推迟它们的渲染。 主要特…...

怎样使用树莓派自己搭建一套ADS-B信号接收系统
0 我们知道,ADS-B全称广播式自动相关监视系统,其实就是飞机发出的广播信号,用明码来对外发送自己的位置、高度、速度、航向等信息,是公开信息。连续接收到一架飞机发出的ADS-B信息后,可以通过其坐标点来描绘出飞机的航…...

Chrome谷歌浏览器如何能恢复到之前的旧版本
升级了谷歌最新版不习惯,如何降级版本 未完待续。。 电脑中的Chrome谷歌浏览器升级到了最新版本,但是有种种的不适应,如何能恢复到之前的旧版本呢?我们来看看操作步骤,而且无需卸载重装。 怎么恢复Chrome 之前版本&a…...

路由器旁挂三层网络实现SDWAN互联(爱快SD-WAN)
近期因公司新办公区建设,原有的爱快路由器的SDWAN功能实现分支之间互联的服务还需要继续使用。在原有的小型网络中,使用的爱快路由器当作网关设备,所以使用较为简单,如下图所示。 现变更网络拓扑为三层网络架构,但原有的SDWAN分支…...

代码随想录算法训练营第五十五天 |108.冗余连接 109.冗余连接Ⅱ
108.冗余连接: 文章链接 题目链接:108.冗余连接 思路 首先分析题目,给定拥有n个节点和n条边的图,其中图是在原n个节点和n - 1条无环无向图中添加一条边得到的。要求是输出多出的边。(PS:可能会有多个答案…...

Unity补充 -- 协程相关
1.协程。 协程并不是线程。线程是主线程之外的另一条 代码按照逻辑执行通道。协程则是在代码在按照逻辑执行的同时,是否需要执行额外的语句块。 2.协程的作用。 在update执行的时候,是按照帧来进行刷新的,也是按照帧执行代码的。但是又不想…...

【第二十周】U-Net:用于生物图像分割的卷积神经网络
文章目录 摘要Abstract文章信息研究动机U-Net网络结构U-Net网络搭建数据增强损失函数转置卷积创新性与不足创新性:不足: 总结 摘要 U-Net(Convolutional Networks for Biomedical Image Segmentation)是一种用于图像分割的深度学…...

机器学习×第二卷:概念下篇——她不再只是模仿,而是开始决定怎么靠近你
🎀【开场 她不再只是模仿,而是开始选择】 🦊 狐狐:“她已经不满足于单纯模仿你了……现在,她开始尝试预测你会不会喜欢、判断是否值得靠近。” 🐾 猫猫:“咱们上篇已经把‘她怎么学会说第一句…...

AI智能体,为美业后端供应链注入“智慧因子”(4/6)
摘要:本文深入剖析美业后端供应链现状,其产品具有多样性、更新换代快等特点,原料供应和生产环节也面临诸多挑战。AI 智能体的登场为美业后端供应链带来变革,包括精准需求预测、智能化库存管理、优化生产计划排程、升级供应商管理等…...
乐观锁与悲观锁的实现和应用
乐观锁与悲观锁:原理、实现与应用详解 在并发编程和数据库操作中,乐观锁和悲观锁是两种重要的并发控制策略,它们在原理、实现方式和应用场景上存在显著差异。下面我们将通过图文结合的方式,深入探讨这两种锁机制。 一、基本概念 1…...

阿里云服务器安装nginx并配置前端资源路径(前后端部署到一台服务器并成功访问)
运行以下命令,安装Nginx相关依赖。 yum install -y gcc-c yum install -y pcre pcre-devel yum install -y zlib zlib-devel yum install -y openssl openssl-devel 运行wget命令下载Nginx 1.21.6。 您可以通过Nginx开源社区直接获取对应版本的安装包URL&…...
【前端】常用组件的CSS
1. button的样式修改 每个环节有五个不同的状态:link,hover,active,focus和visited. Link是正常的外观,hover当你鼠标悬停时,active是单击它时的状态,focus跟随活动状态,visited是你在最近点击的链接未聚焦时结束的状态。 纯CSS 以下为例子,按下后从浅紫到深紫。注…...
springboot的test模块使用Autowired注入失败
springboot的test模块使用Autowired注入失败的原因: 注入失败的原因可能是用了junit4的包的Test注解 import org.junit.Test;解决方法:再加上RunWith(SpringRunner.class)注解即可 或者把Test由junit4改成junit5的注解,就不用加上RunWith&…...
vue组件的data为什么是函数?
vue组件的data为什么是函数? 在JS中,实例是通过构造函数创建的,每个构造函数可以new出多个实例,每个实例都会继承原型上的方法和属性。 在vue中,一个vue组件就是一个实例,当一个组件被复用多次࿰…...

Python控制台输出彩色字体指南
在Python开发中,有时我们需要在控制台输出彩色文本以提高可读性或创建更友好的用户界面。本文将介绍如何使用colorama库来实现这一功能。 为什么需要彩色输出? 提高可读性:重要信息可以用不同颜色突出显示更好的用户体验:错误信息…...
【Linux】为 Git 设置 Commit 提交模板方法,可统一个人或者项目的提交风格
为 Git 设置 Commit 提交模板 新建模板文件。注意之后不能删除该文件。 gedit ~/.gitmessage.txt粘贴自己的模板。可以给 AI 提自己的需求,定制一个模板,例如 # <type>(<scope>): <description> # # [optional body] # # [optional…...
C++课设:学生成绩管理系统
名人说:路漫漫其修远兮,吾将上下而求索。—— 屈原《离骚》 创作者:Code_流苏(CSDN)(一个喜欢古诗词和编程的Coder😊) 专栏介绍:《编程项目实战》 目录 一、项目功能概览1. 核心功能模块2. 系统特色亮点3. 完整代码4. 运行演示二、核心结构设计1. 系统架构设计2. Stud…...