当前位置：首页 > news >正文

hive、spark、presto 中的增强聚合-grouping sets、rollup、cube

news 2025/11/25 23:33:09

1、什么是增强聚合和多维分析函数？

2、grouping sets - 指定维度组合

3、with rollup - 上卷维度组合

4、with cube - 全维度组合

5、Grouping__ID、grouping() 的使用场景

6、使用增强聚合会不会对查询性能有提升呢？

7、对grouping sets、with cube、with rollup 的优化

1、什么是增强聚合和多维分析函数？

增强聚合指的是：

在SQL中使用分组聚合查询时，使用 grouping sets、rollup、cube 语句进行操作

在常见的数据引擎中都支持这种语法，比如hive、spark、presto、ck、flinkSQL

使用增强聚合不仅可以简化SQL代码，而且还能对SQL语句的性能有所提升

多维分析指的是：

SQL语法中的多维分析指的是多种维度组合的分析，而不是多种维度的分析

hive官网链接：hive官网

2、grouping sets - 指定维度组合

功能说明：

对指定的分组字段进行多种维度组合的聚合计算

hive-语法：

-- TODO 必须开区map端合并
select 维度A,维度B,维度C,聚合函数(度量字段) ,grouping__id
from 表名 [where ]
group by A,B,C 
grouping sets( (A),(A,B),(A,B,C),..维度组合 )

presto、FlinkSQL、SparkSQL-语法：

select 维度A,维度B,维度C,聚合函数(度量字段) ,grouping(A,B,C) as grouping_id
from 表名 [where ]
group by
grouping sets( (A),(A,B),(A,B,C),..维度组合 )

语法区别：

1、hiveSQL中 group by 后面必须添加分组的字段

presto、flinksql、sparksql group by 后面不需要指定分组字段

2、hiveSQL中可以使用 grouping__id字段

presto、flinksql、sparksql 中并没有提供 grouping__id字段，需要使用grouping(a,b,c) 函数来计算

代码示例(HiveSQL):

-- TODO 必须开区map端合并
set hive.map.aggr=true;
SELECT prov,city,area,count(1),grouping__id
FROM (select '河北省' as prov,'石家庄市' as city,'新华区' as area,'张1' as name union all select '河北省','石家庄市','新华区','张2' union all select '河南省','郑州市','高开区','张3' union all select '河南省','郑州市','高开区','张4' union all select '河南省','郑州市','高开区','张5' union all select '河南省','新乡市','中华区','张6') AS person_info_df
group by prov,city,area grouping sets ((prov,city,area),(prov)
)
;

代码示例(presto、flinkSQL、sparkSQL):

SELECT prov,city,area,count(1),grouping(prov,city,area) as grouping_id
FROM (VALUES  ('河北省','石家庄市','新华区','张1'),('河北省','石家庄市','新华区','张2'),('河南省','郑州市','高开区','张3'),('河南省','郑州市','高开区','张4'),('河南省','郑州市','高开区','张5'),('河南省','新乡市','中华区','张6')) AS person_info_df (prov,city,area,name)
group by grouping sets ((prov,city,area),(prov)
)
;

3、with rollup - 上卷维度组合

功能说明：

上卷维度组合，较grouping sets相比，不需要指定维度组合

GROUP BY a, b, c, WITH ROLLUP 等价于

GROUP BY a, b, c GROUPING SETS ( (a, b, c), (a, b), (a), ( ))

hive-语法：

-- TODO 必须开区map端合并
select 维度A,维度B,维度C,聚合函数(度量字段) ,grouping__id
from 表名 [where ]
group by A,B,C 
with rollup

presto、FlinkSQL、SparkSQL-语法：

select 维度A,维度B,维度C,聚合函数(度量字段) ,grouping(A,B,C) as grouping_id
from 表名 [where ]
group by
rollup(A,B,C)

代码示例(HiveSQL):

-- 1.必须开区map端合并
set hive.map.aggr=true;
SELECT prov,city,area,count(1),grouping__id
FROM (select '河北省' as prov,'石家庄市' as city,'新华区' as area,'张1' as name union all select '河北省','石家庄市','新华区','张2' union all select '河南省','郑州市','高开区','张3' union all select '河南省','郑州市','高开区','张4' union all select '河南省','郑州市','高开区','张5' union all select '河南省','新乡市','中华区','张6') AS person_info_df
group by prov,city,area with rollup
;

代码示例(presto、flinkSQL、sparkSQL):

SELECT prov,city,area,count(1),grouping(prov,city,area) as grouping_id
FROM (VALUES  ('河北省','石家庄市','新华区','张1'),('河北省','石家庄市','新华区','张2'),('河南省','郑州市','高开区','张3'),('河南省','郑州市','高开区','张4'),('河南省','郑州市','高开区','张5'),('河南省','新乡市','中华区','张6')) AS person_info_df (prov,city,area,name)
group by rollup(prov,city,area) 
;

4、with cube - 全维度组合

功能说明：

多维度组合，会计算所有分组字段的维度组合，较grouping sets相比，不需要指定维度组合

GROUP BY a, b, c, WITH CUBE 等价于

GROUP BY a, b, c GROUPING SETS ( (a, b, c), (a, b), (b, c), (a, c), (a), (b), (c), ( ))

cube(key1,key2...) 维度组合数：

hive-语法：

-- TODO 必须开区map端合并
select 维度A,维度B,维度C,聚合函数(度量字段) ,grouping__id
from 表名 [where ]
group by A,B,C 
with cube

presto、FlinkSQL、SparkSQL-语法：

select 维度A,维度B,维度C,聚合函数(度量字段) ,grouping(A,B,C) as grouping_id
from 表名 [where ]
group by
cube(A,B,C)

代码示例(HiveSQL):

-- 1.必须开区map端合并
set hive.map.aggr=true;
SELECT prov,city,area,count(1),grouping__id
FROM (select '河北省' as prov,'石家庄市' as city,'新华区' as area,'张1' as name union all select '河北省','石家庄市','新华区','张2' union all select '河南省','郑州市','高开区','张3' union all select '河南省','郑州市','高开区','张4' union all select '河南省','郑州市','高开区','张5' union all select '河南省','新乡市','中华区','张6') AS person_info_df
group by prov,city,area with cube
;

代码示例(presto、flinkSQL、sparkSQL):

SELECT prov,city,area,count(1),grouping(prov,city,area) as grouping_id
FROM (VALUES  ('河北省','石家庄市','新华区','张1'),('河北省','石家庄市','新华区','张2'),('河南省','郑州市','高开区','张3'),('河南省','郑州市','高开区','张4'),('河南省','郑州市','高开区','张5'),('河南省','新乡市','中华区','张6')) AS person_info_df (prov,city,area,name)
group by cube(prov,city,area) 
;

5、Grouping__ID、grouping() 的使用场景

功能说明：

可以用来判断分组字段是否参与聚合，下面为 Grouping__ID 、grouping() 计算逻辑

使用场景：

当使用 grouping sets、with rollup、with cube进行聚合时，对不参与聚合的字段会使用null进行填充，这就导致查询结果中分组字段为null时，无法区分是填充的null还是分组字段本身的null

遇到上述情况，可以使用下面两种解决方式

1、将分组字段中的null进行替换处理，比如9999、other、其他

2、使用 Grouping__ID 或者 grouping() 进行区分

6、使用增强聚合会不会对查询性能有提升呢？

测试用例-grouping sets：

-- TODO 必须开区map端合并
set hive.map.aggr=true;
SELECT prov,city,area,count(1),grouping__id
FROM (select '河北省' as prov,'石家庄市' as city,'新华区' as area,'张1' as name union all select '河北省','石家庄市','新华区','张2' union all select '河南省','新乡市','中华区','张6') AS person_info_df
group by prov,city,area grouping sets ((prov,city,area),(prov,city),(prov)
)
;

测试用例-group by + union all：

set hive.map.aggr=true;
SELECT prov,city,area,count(1)
FROM (select '河北省' as prov,'石家庄市' as city,'新华区' as area,'张1' as name union all select '河北省','石家庄市','新华区','张2' union all select '河南省','新乡市','中华区','张6'
) AS person_info_df
group by prov,city,areaunion all SELECT prov,city,null as area,count(1)
FROM (select '河北省' as prov,'石家庄市' as city,'新华区' as area,'张1' as name union all select '河北省','石家庄市','新华区','张2' union all select '河南省','新乡市','中华区','张6') AS person_info_df
group by prov,cityunion all SELECT prov,null as city,null as area,count(1)
FROM (select '河北省' as prov,'石家庄市' as city,'新华区' as area,'张1' as name union all select '河北省','石家庄市','新华区','张2' union all select '河南省','新乡市','中华区','张6') AS person_info_df
group by prov

对比执行计划：

对比运行时长：

结论：

通过上面执行计划和运行时长的对比，使用 grouping sets、with cube、with rollup 确实比

group by + union all 方式的性能要好，因为增强group by避免了多次读取底表，降低生成

job的个数，从而减轻了磁盘和网络I/O时的压力。

7、对grouping sets、with cube、with rollup 的优化

由于在使用增强group by时，会在同一个job中完成多种维度组合的聚合(2的N次方)，当底表数据量太大或维度过多时，可能造成计算资源不够而导致任务失败。

在 Hive中可以使用 set hive.new.job.grouping.set.cardinality=30 来对job进行拆分。

参数说明：

验证SQL-实验组：

验证SQL-对照组：

hive、spark、presto 中的增强聚合-grouping sets、rollup、cube

目录 1、什么是增强聚合和多维分析函数？ 2、grouping sets - 指定维度组合 3、with rollup - 上卷维度组合 4、with cube - 全维度组合 5、Grouping__ID、grouping() 的使用场景 6、使用增强聚合会不会对查询性能有提升呢？ 7、对grouping sets、…...

编程日记 2023/9/20 5:59:57

elasticsearch bulk 批量操作

1：bulk 是 elasticsearch 提供的一种批量增删改的操作API bulk 对 JSON串有着严格的要求。每个JSON串不能换行 ，只能放在同一行，同时， 相邻的JSON串之间必须要有换行 （Linux下是\n；Window下是\r\n&#…...

编程日记 2023/9/20 5:58:56

力扣11、盛最多水的容器

方法一：双指针考察： 贪心、数组、双指针说明本题是一道经典的面试题，最优的做法是使用「双指针」。如果读者第一次看到这题，不一定能想出双指针的做法。复杂度分析时间复杂度：O(N)，双指针总计最多…...

编程日记 2023/9/20 5:56:54

IIC协议详解

目录 1.IIC协议概述 2.IIC总线传输 3.IIC-51单片机应用 1.起始信号 2.终止信号 3.应答信号 4.数据发送 4.IIC-32单片机应用用到的库函数： 1.IIC协议概述 IIC全称Inter-Integrated Circuit (集成电路总线)是由PHILIPS公司在80年代开发的两线式串行总线&…...

编程日记 2023/9/20 5:55:53

element ui-表头自定义提示框

版本 “element-ui”: “^2.15.5”,需求：鼠标悬浮到该列表头，显示提示框代码 <el-table:data"xxxx"><el-table-column label"序号" width"40" type"index" /><el-table-columnv-for"(ite…...

编程日记 2023/9/20 5:54:52

Python 图形化界面基础篇：创建顶部菜单

Python 图形化界面基础篇：创建顶部菜单引言 Tkinter 库简介步骤1：导入 Tkinter 模块步骤2：创建 Tkinter 窗口步骤3：创建顶部菜单栏步骤4：处理菜单项的点击事件步骤5：启动 Tkinter 主事件循环完整示例代码…...

编程日记 2023/9/20 5:52:49

java实现十大排序算法

文章目录冒泡排序选择排序插入排序希尔排序归并排序快速排序堆排序桶排序基数排序计数排序验证各个排序的时间复杂度和空间复杂度冒泡排序冒泡排序（Bubble Sort）是一种简单的比较排序算法，它的基本思想是重复地交换相邻的两个元素&#x…...

编程日记 2023/9/20 5:51:47

Linux日志管理-logrotate（crontab定时任务、Ceph日志转储）

文章目录一、logrotate概述二、logrotate基本用法三、logrotate运行机制logrotate参数四、logrotate是怎么做到滚动日志时不影响程序正常的日志输出呢？Linux文件操作机制方案一方案二五、logrotate实战--Ceph日志转储参考一、logrotate概述 logrotate是一个用于…...

编程日记 2023/9/20 5:50:46

用PHP异步协程控制python爬虫脚本，实现多协程分布式爬取

背景公司需要爬取指定网站的产品数据。但是个人对python的多进程和协程不是特别熟悉。所以，想通过php异步协程，发起爬取url请求控制python爬虫脚本，达到分布式爬取的效果。准备 1.准备一个mongodb数据库用于存放爬取数据2.引入flask包&a…...

编程日记 2023/9/20 5:49:45

VUE3写后台管理（3） 1.环境1.node2.vite3.Element-plus4.vue-router5.element icon6.less7.vuex8.vue-demi9.mockjs10.axios11.echarts 2.首页1.布局Main2.头部导航栏CommonHeader3.左侧菜单栏CommonLeft4.首页Home1.从后端获取数据显示到前端table的三种…...

编程日记 2023/9/20 5:46:42

机器学习笔记之最优化理论与算法(十二)无约束优化问题——共轭梯度法

机器学习笔记之最优化理论与方法——共轭梯度法引言回顾：共轭方向法的重要特征线性共轭梯度法共轭方向公式的证明过程关于线搜索公式中参数的化简关于线搜索公式中步长部分的化简关于线搜索公式中共轭方向系数的化简参数化简的目的非线性共轭梯度法(FR,PRP方法)关…...

编程日记 2023/9/20 5:45:42

JVM中的java同步互斥工具应用演示及设计分析

1.火车站售票系统仿真某火车站目前正在出售火车票，共有50张票，而它有3个售票窗口同时售票，下面设计了一个程序模拟该火车站售票，通过实现Runnable接口实现（模拟网络延迟）。伪代码： Ticket类…...

编程日记 2023/9/20 5:41:38

数据治理-数据质量

实现数据质量的前提就是数据本身是可靠和可信的。导致数据质量低下的因素组织缺乏对低质量数据影响的理解，缺乏规划、孤岛式系统设计、不一致的开发过程、不完整的文档、缺乏标准或缺乏治理等。所有组织都会遇到与数据质量有关的问题。数据质量需要跨职能的承诺…...

编程日记 2023/9/20 5:39:35

[sqoop]hive3.1.2 hadoop3.1.1安装sqoop1.4.7

参考: Hadoop3.2.4Hive3.1.2sqoop1.4.7安装部署_hadoop sqoop安装_alicely07的博客-CSDN博客一、安装 1、解压 tar -zxvf sqoop-1.4.7.bin__hadoop-2.6.0.tar.gz -C /home/data_warehouse/module mv sqoop-1.4.7.bin__hadoop-2.6.0 sqoop-1.4.72、配置文件 sqoop-env.s…...

编程日记 2023/9/20 5:38:33

js事件的详细介绍

11.事件 1.什么是事件 js属于事件驱动编程,把驱动,执行,调用通过一些交互,触发一些函数事件:发起-->执行绑定事件-->触发事件on 绑定 emit触发 off解绑2.事件分类鼠标事件点击事件 onclick 双击事件 ondblclick 按下事件 onmousedown 抬起事件 onmouseup 鼠标进…...

编程日记 2023/9/20 5:37:32

虚幻4学习笔记（12）操控导入的角色、动画蓝图、播放蒙太奇和打包、角色重定向

虚幻4学习笔记操控导入的角色设置鼠标旋转关掉动态模糊动画蓝图、播放蒙太奇和打包角色走路奔跑动画shift 奔跑F 跳舞移动打断跳舞打包角色重定向姿势调整解决跑步腿分太开隐藏剑 B站UP谌嘉诚课程：https://www.bilibili.com/video/BV164411Y732 操控导入的角色…...

编程日记 2023/9/20 5:35:30

hive with tez:无法从链中的任何提供者加载aws凭据

环境信息 hadoop 3.1.0 hive-3.1.3 tez 0.9.1 问题描述可以从hadoop命令行正确地访问s3a uri。我可以创建外部表和如下命令： create external table mytable(a string, b string) location s3a://mybucket/myfolder/; select * from mytable limit 20; 执行正…...

编程日记 2023/9/20 5:33:26

Ubuntu修改静态IP、网关和DNS的方法总结

Ubuntu修改静态IP、网关和DNS的方法总结 ubuntu系统（其他debian的衍生版本好像也可以）修改静态IP有以下几种方法。（搜索总结，可能也不太对） /etc/netplan (use) Ubuntu 18.04开始可以使用netplan配置网络&#xff0…...

编程日记 2023/9/20 5:32:25

Eureka服务器注册

一。Eureka服务器注册 1.pom.xml <?xml version"1.0" encoding"UTF-8"?> <project xmlns"http://maven.apache.org/POM/4.0.0"xmlns:xsi"http://www.w3.org/2001/XMLSchema-instance"xsi:schemaLocation"http://mav…...

编程日记 2023/9/20 5:29:23

Windows安装GPU版本的pytorch详细教程

文章目录 chatGLM2-6B安装教程正式安装 chatGLM2-6B ChatGLM2-6B版本要装pytorch2.0，而且要2.0.1 ，因此CUDA不能用12.0 ，也不能用10.0，只能用11.x 版本。安装教程 pip install直接下载安装官网： https://pytorch.…...

编程日记 2023/9/20 5:28:22

CTF show Web 红包题第六弹

提示 1.不是SQL注入 2.需要找关键源码思路进入页面发现是一个登录框，很难让人不联想到SQL注入，但提示都说了不是SQL注入，所以就不往这方面想了先查看一下网页源码，发现一段JavaScript代码，有一个关键类ctfs…...

编程新知 2025/11/21 5:30:05

Spark 之入门讲解详细版（1）

1、简介 1.1 Spark简介 Spark是加州大学伯克利分校AMP实验室（Algorithms, Machines, and People Lab）开发通用内存并行计算框架。Spark在2013年6月进入Apache成为孵化项目，8个月后成为Apache顶级项目，速度之快足见过人之处&…...

编程新知 2025/11/21 6:15:38

【Oracle APEX开发小技巧12】

有如下需求： 有一个问题反馈页面，要实现在apex页面展示能直观看到反馈时间超过7天未处理的数据，方便管理员及时处理反馈。我的方法：直接将逻辑写在SQL中，这样可以直接在页面展示完整代码： SELECTSF.FE…...

编程新知 2025/11/22 1:12:01

Zustand 状态管理库：极简而强大的解决方案

Zustand 是一个轻量级、快速和可扩展的状态管理库，特别适合 React 应用。它以简洁的 API 和高效的性能解决了 Redux 等状态管理方案中的繁琐问题。核心优势对比基本使用指南 1. 创建 Store // store.js import create from zustandconst useStore create((set)…...

编程新知 2025/11/22 0:30:32

P3 QT项目----记事本（3.8）

3.8 记事本项目总结项目源码 1.main.cpp #include "widget.h" #include <QApplication> int main(int argc, char *argv[]) {QApplication a(argc, argv);Widget w;w.show();return a.exec(); } 2.widget.cpp #include "widget.h" #include &q…...

编程新知 2025/11/16 21:55:09

Cinnamon修改面板小工具图标

Cinnamon开始菜单-CSDN博客设置模块都是做好的，比GNOME简单得多！ 在 applet.js 里增加 const Settings imports.ui.settings;this.settings new Settings.AppletSettings(this, HTYMenusonichy, instance_id); this.settings.bind(menu-icon, menu…...

编程新知 2025/11/17 13:08:22

MODBUS TCP转CANopen 技术赋能高效协同作业

在现代工业自动化领域，MODBUS TCP和CANopen两种通讯协议因其稳定性和高效性被广泛应用于各种设备和系统中。而随着科技的不断进步，这两种通讯协议也正在被逐步融合，形成了一种新型的通讯方式——开疆智能MODBUS TCP转CANopen网关KJ-TCPC-CANP…...

编程新知 2025/11/16 21:54:12

【单片机期末】单片机系统设计

主要内容：系统状态机，系统时基，系统需求分析，系统构建，系统状态流图一、题目要求二、绘制系统状态流图题目：根据上述描述绘制系统状态流图，注明状态转移条件及方向。三、利用定时器产生时…...

编程新知 2025/11/23 5:23:31

新能源汽车智慧充电桩管理方案：新能源充电桩散热问题及消防安全监管方案

随着新能源汽车的快速普及，充电桩作为核心配套设施，其安全性与可靠性备受关注。然而，在高温、高负荷运行环境下，充电桩的散热问题与消防安全隐患日益凸显，成为制约行业发展的关键瓶颈。如何通过智慧化管理手段优化散…...

编程新知 2025/11/22 15:30:39

BCS 2025｜百度副总裁陈洋：智能体在安全领域的应用实践

6月5日，2025全球数字经济大会数字安全主论坛暨北京网络安全大会在国家会议中心隆重开幕。百度副总裁陈洋受邀出席，并作《智能体在安全领域的应用实践》主题演讲，分享了在智能体在安全领域的突破性实践。他指出，百度通过将安全能力…...

编程新知 2025/11/23 8:27:30

hive、spark、presto 中的增强聚合-grouping sets、rollup、cube

1、什么是增强聚合和多维分析函数？

2、grouping sets - 指定维度组合

3、with rollup - 上卷维度组合

4、with cube - 全维度组合

5、Grouping__ID、grouping() 的使用场景

6、使用增强聚合会不会对查询性能有提升呢？

7、对grouping sets、with cube、with rollup 的优化

相关文章：

hive、spark、presto 中的增强聚合-grouping sets、rollup、cube

elasticsearch bulk 批量操作

力扣11、盛最多水的容器

IIC协议详解

element ui-表头自定义提示框

Python 图形化界面基础篇：创建顶部菜单

java实现十大排序算法

Linux日志管理-logrotate（crontab定时任务、Ceph日志转储）

用PHP异步协程控制python爬虫脚本，实现多协程分布式爬取

VUE3写后台管理(3)

机器学习笔记之最优化理论与算法(十二)无约束优化问题——共轭梯度法

JVM中的java同步互斥工具应用演示及设计分析

数据治理-数据质量

[sqoop]hive3.1.2 hadoop3.1.1安装sqoop1.4.7

js事件的详细介绍

虚幻4学习笔记（12）操控导入的角色、动画蓝图、播放蒙太奇和打包、角色重定向

hive with tez:无法从链中的任何提供者加载aws凭据

Ubuntu修改静态IP、网关和DNS的方法总结

Eureka服务器注册

Windows安装GPU版本的pytorch详细教程

CTF show Web 红包题第六弹

Spark 之入门讲解详细版（1）

【Oracle APEX开发小技巧12】

Zustand 状态管理库：极简而强大的解决方案

P3 QT项目----记事本（3.8）

Cinnamon修改面板小工具图标

MODBUS TCP转CANopen 技术赋能高效协同作业

【单片机期末】单片机系统设计

新能源汽车智慧充电桩管理方案：新能源充电桩散热问题及消防安全监管方案

BCS 2025｜百度副总裁陈洋：智能体在安全领域的应用实践

1、什么是增强聚合和多维分析函数？

2、grouping sets - 指定维度组合

3、with rollup - 上卷维度组合

4、with cube - 全维度组合

5、Grouping__ID、grouping() 的使用场景

6、使用 增强聚合 会不会对查询性能有提升呢？

7、对grouping sets、with cube、with rollup 的优化

相关文章：

6、使用增强聚合会不会对查询性能有提升呢？