当前位置：首页 > article >正文

【Elasticsearch】管道聚合

article 2026/4/26 1:47:16

管道聚合就是在已有聚合结果之上在进行聚合，管道聚合是针对于聚合的聚合

在 Elasticsearch 中，管道聚合（Pipeline Aggregations）是一种特殊的聚合类型，用于对其他聚合的结果进行进一步的计算和处理，而不是直接从文档集合中提取数据。管道聚合可以基于其他聚合的输出来生成新的聚合结果，从而实现更复杂的数据分析。
管道聚合的主要特点

1. 基于其他聚合的输出：

• 管道聚合不直接处理文档数据，而是对其他聚合的结果进行计算。

• 例如，计算某个聚合结果的导数、移动平均值、最大值等。

2. 链式调用：

• 管道聚合可以链式调用，即一个管道聚合的结果可以作为另一个管道聚合的输入。

• 例如，计算二阶导数（即导数的导数）。

3. 灵活的引用：

• 使用`buckets_path`参数来引用其他聚合的结果。

• 可以引用嵌套聚合的结果，也可以引用同级聚合的结果。

4. 不能有子聚合：

• 管道聚合本身不能包含子聚合，但可以通过引用其他聚合的结果来实现类似的功能。

管道聚合的类型
Elasticsearch 提供了多种类型的管道聚合，每种类型用于不同的计算场景。以下是一些常见的管道聚合类型：

1.导数聚合（Derivative）
计算某个聚合结果的变化率。例如，计算销售额的每日变化率。

```json
{
"aggs": {
"sales_per_day": {
"date_histogram": {
"field": "timestamp",
"calendar_interval": "day"
},
"aggs": {
"total_sales": {
"sum": {
"field": "sales"
}
},
"sales_derivative": {
"derivative": {
"buckets_path": "total_sales"
}
}
}
}
}
}
```

2.移动平均聚合（Moving Average）
计算某个聚合结果的移动平均值。例如，计算7天的移动平均销售额。

```json
{
"aggs": {
"sales_per_day": {
"date_histogram": {
"field": "timestamp",
"calendar_interval": "day"
},
"aggs": {
"total_sales": {
"sum": {
"field": "sales"
}
},
"moving_avg_sales": {
"moving_avg": {
"buckets_path": "total_sales",
"window": 7
}
}
}
}
}
}
```

3.累计和聚合（Cumulative Sum）
计算某个聚合结果的累计和。例如，计算销售额的累计和。

```json
{
"aggs": {
"sales_per_day": {
"date_histogram": {
"field": "timestamp",
"calendar_interval": "day"
},
"aggs": {
"total_sales": {
"sum": {
"field": "sales"
}
},
"cumulative_sales": {
"cumulative_sum": {
"buckets_path": "total_sales"
}
}
}
}
}
}
```

4.桶脚本聚合（Bucket Script）
基于多个聚合结果进行自定义计算。例如，计算 T 恤销售额占总销售额的百分比。

```json
{
"aggs": {
"sales_per_month": {
"date_histogram": {
"field": "order_date",
"calendar_interval": "month"
},
"aggs": {
"total_sales": {
"sum": {
"field": "sales"
}
},
"tshirt_sales_sum": {
"sum": {
"field": "tshirt_sales"
}
},
"tshirt_sales_percentage": {
"bucket_script": {
"buckets_path": {
"total": "total_sales",
"tshirt": "tshirt_sales_sum"
},
"script": "params.total > 0 ? (params.tshirt / params.total * 100) : 0"
}
}
}
}
}
}
```

5.最大桶聚合（Max Bucket）
从兄弟聚合中选择最大值。例如，计算每月最大销售额。

```json
{
"aggs": {
"sales_per_month": {
"date_histogram": {
"field": "date",
"calendar_interval": "month"
},
"aggs": {
"sales": {
"sum": {
"field": "price"
}
}
}
},
"max_monthly_sales": {
"max_bucket": {
"buckets_path": "sales_per_month>sales"
}
}
}
}
```

管道聚合的使用场景

1. 时间序列分析：

• 计算时间序列数据的变化率（导数）、移动平均值、累计和等。

• 适用于销售额、流量、温度等时间序列数据的分析。

2. 比例和百分比计算：

• 计算某个指标占总指标的比例或百分比。

• 例如，计算某个产品的销售额占总销售额的百分比。

3. 异常检测：

• 通过计算导数或移动平均值，检测数据中的异常点。

• 例如，检测销售额的突然变化。

4. 多指标比较：

• 使用桶脚本聚合对多个指标进行自定义计算。

• 例如，计算两个指标的比值或差值。

注意事项

1. 性能问题：

• 管道聚合的计算基于其他聚合的结果，可能会增加查询的复杂度和计算时间。

• 在处理大规模数据时，需要特别注意性能优化。

2. `buckets_path`的正确使用：

• 确保`buckets_path`的路径正确，避免路径错误导致查询失败。

• 使用相对路径时，注意路径的层级关系。

3. 脚本的安全性：

• 在使用脚本时，确保脚本逻辑正确，避免除以零等错误。

• 例如，使用条件语句`params.total > 0 ? (params.tshirt / params.total * 100) : 0`。

总结
管道聚合是 Elasticsearch 中一种强大的工具，用于对其他聚合的结果进行进一步的计算和分析。通过合理使用管道聚合，可以实现复杂的数据分析需求，例如时间序列分析、比例计算、异常检测等。掌握管道聚合的使用方法和注意事项，可以帮助你更高效地进行数据分析和查询优化。

【Elasticsearch】管道聚合

相关文章：

【Elasticsearch】管道聚合

Python的那些事第十八篇：框架与算法应用研究，人工智能与机器学习

【大数据安全分析】为什么要用大数据技术进行安全分析？

java微服务常用技术

【Qt 常用控件】多元素控件（QListWidget、QTabelWidgt、QTreeWidget）

ubuntu文件同步

解决VsCode的 Vetur 插件has no default export Vetur问题

DeepSeek本地部署详细指南

DNS污染：网络世界的“隐形劫持”与防御

AF3 superimpose函数解读

python制作自己的一款Markdowm格式消除工具

【C#零基础从入门到精通】(三)——C#变量和数据类型详解

如何从头训练大语言模型: A simple technical report

gitlab无法登录问题

食品饮料生产瓶颈？富唯智能协作机器人来 “破壁”

Python 实现 macOS 系统代理的设置

深度学习之神经网络框架搭建及模型优化

excel 日期转换

Awtk 如何添加开机画面

【设计模式】【行为型模式】命令模式（Command）

C++模拟实现AVL树

推荐算法实践：movielens数据集

dynamic_cast和static_cast和const_cast

React进行路由跳转的方法汇总

python卷积神经网络人脸识别示例实现详解

以Unity6.0为例，如何在Unity中开启DLSS功能

CSDN 大模型笔记

Flink怎么保证Exactly - Once 语义

AOS安装及操作演示

Python 操作 MongoDB 教程