当前位置：首页 > news >正文

Hive企业级调优[5]—— HQL语法优化之数据倾斜

news 2026/2/9 2:52:50

HQL语法优化之数据倾斜

数据倾斜概述

分组聚合导致的数据倾斜

优化说明

优化案例

Join导致的数据倾斜

优化说明

优化案例

HQL语法优化之数据倾斜

数据倾斜概述

数据倾斜问题通常指的是参与计算的数据分布不均，即某个key或某些key的数据量远超其他key，导致在shuffle阶段，大量相同key的数据被发送到同一个Reduce节点，从而使该Reduce节点所需的时间远超其他Reduce节点，成为整个任务的瓶颈。Hive中的数据倾斜常见于分组聚合和join操作的场景中。

分组聚合导致的数据倾斜

优化说明

在Hive中，未经优化的分组聚合是通过一个MapReduce Job来实现的。Map端负责读取数据并按分组字段进行分区，通过shuffle将数据发送到Reduce端，在此完成最终的聚合运算。如果分组字段的值分布不均，则可能导致大量相同key的数据进入同一个Reduce，从而引起数据倾斜。

针对由分组聚合导致的数据倾斜问题，有两种解决思路：

Map-Side聚合 开启Map-Side聚合后，数据会在Map端完成部分聚合工作。即使原始数据是倾斜的，经过Map端的初步聚合后，发送给Reduce的数据也会更加均匀，从而减轻数据倾斜的问题。相关参数包括：
- set hive.map.aggr=true; （启用map-side聚合）
- set hive.map.aggr.hash.min.reduction=0.5; （用于检测源表是否适合进行map-side聚合）
- set hive.groupby.mapaggr.checkinterval=100000; （用于检测源表是否适合map-side聚合的条数）
- set hive.map.aggr.hash.force.flush.memory.threshold=0.9; （map-side聚合所用的hash table，占用map task堆内存的最大比例）
Skew-GroupBy优化 Skew-GroupBy优化的原理是启动两个MR任务，第一个MR任务按照随机数分区，将数据分散发送到Reduce，完成部分聚合；第二个MR任务按照分组字段分区，完成最终的聚合。相关参数包括：
- set hive.groupby.skewindata=true; （启用分组聚合数据倾斜优化）

优化案例

示例SQL语句

hive (default)> select province_id, count(*) from order_detail group by province_id;

优化思路

Map-Side聚合 设置参数：
- set hive.map.aggr=true;
- set hive.groupby.skewindata=false;
Skew-GroupBy优化 设置参数：
- set hive.groupby.skewindata=true;
- set hive.map.aggr=false;

Join导致的数据倾斜

优化说明

未经优化的join操作，默认使用common join算法，通过一个MapReduce Job完成计算。Map端负责读取join操作所需表的数据，并按照关联字段进行分区，通过shuffle发送到Reduce端，在此完成最终的join操作。如果关联字段的值分布不均，则可能导致大量相同key的数据进入同一个Reduce，从而引起数据倾斜。

对于由join导致的数据倾斜问题，有如下三种解决方案：

Map Join 使用map join算法可以在Map端完成join操作，无需shuffle和reduce阶段，适用于大表join小表时发生数据倾斜的情况。相关参数包括：
- set hive.auto.convert.join=true; （启动Map Join自动转换）
- set hive.mapjoin.smalltable.filesize=250000; （Common Join转为Map Join的判断条件）
- set hive.auto.convert.join.noconditionaltask=true; （开启无条件转Map Join）
- set hive.auto.convert.join.noconditionaltask.size=10000000; （无条件转Map Join时的小表之和阈值）
Skew Join Skew Join的原理是为倾斜的大key单独启动一个map join任务进行计算，其余key进行正常的common join。相关参数包括：
- set hive.optimize.skewjoin=true; （启用skew join优化）
- set hive.skewjoin.key=100000; （触发skew join的阈值）
调整SQL语句 若参与join的两表均为大表，其中一张表的数据是倾斜的，可以通过调整SQL语句的方式来进行优化。

优化案例

示例SQL语句

hive (default)> select * from order_detail od join province_info pi on od.province_id=pi.id;

优化思路

Map Join 设置参数：
- set hive.auto.convert.join=true;
- set hive.optimize.skewjoin=false;
Skew Join 设置参数：
- set hive.optimize.skewjoin=true;
- set hive.auto.convert.join=false;

Hive企业级调优[5]—— HQL语法优化之数据倾斜

HQL语法优化之数据倾斜

数据倾斜概述

分组聚合导致的数据倾斜

优化说明

优化案例

Join导致的数据倾斜

优化说明

优化案例

相关文章：

Hive企业级调优[5]—— HQL语法优化之数据倾斜

表示速度的speed与velocity语义辨析

Electron 图标修改

项目扩展二：消息拉取功能的实现

C语言6大常用标准库 -- 4.＜math.h＞

【图像匹配】基于SIFT算法的图像匹配，matlab实现

C++门迷宫

用最通俗易懂的语言和例子讲解三维点云

VM虚拟机下载以及激活

详解Ajax与axios的区别

golang学习笔记28——golang中实现多态与面向对象

运行 xxxxApplication 时出错。命令行过长。通过 JAR 清单或通过类路径文件缩短命令行，然后重新运行。

k8s自动清理pod脚本分享

Go并发编程的高级技巧——请求复制与限流

网站建设模板选择哪种

【linux】kill命令

Python基础 | 在虚拟环境中安装并在指定文件夹中打开Jupyter notebook

1.Spring-容器-注册

Mapper.xml SQL大于小于号转义符

Linux：进程（三）——进程状态

C++_核心编程_多态案例二-制作饮品

盘古信息PCB行业解决方案：以全域场景重构，激活智造新未来

Unity3D中Gfx.WaitForPresent优化方案

cf2117E

Python如何给视频添加音频和字幕

C# 求圆面积的程序（Program to find area of a circle）

MySQL 8.0 事务全面讲解

基于Springboot+Vue的办公管理系统

jmeter聚合报告中参数详解

Ubuntu Cursor升级成v1.0