Apache Hive--排序函数解析
在大数据处理与分析中,Apache Hive是一个至关重要的数据仓库工具。其丰富的函数库为数据处理提供了诸多便利,排序函数便是其中一类非常实用的工具。通过排序函数,我们能够在查询结果集中为每一行数据分配一个排名值,这对于数据分析、报表生成等工作具有重要意义。本文将深入探讨Apache Hive中的排序函数,通过具体的HQL代码和数据实例进行说明,并阐述它们之间的区别。
0. 排序函数:ORDER、SORT、CLUSTER
ORDER BY
- 功能:
ORDER BY
会对整个数据集按照指定的列进行全局排序,确保最终输出的结果是完全有序的。 - 代码示例:
假设我们有之前创建的student_scores
表,包含student_name
(学生姓名)和score
(成绩)字段。
SELECT student_name, score
FROM student_scores
ORDER BY score DESC;
- 结果展示:
student_name | score |
---|---|
David | 95 |
Bob | 90 |
Cathy | 90 |
Alice | 85 |
Charlie | 85 |
整个结果集按照成绩从高到低进行了全局排序。
SORT BY
- 功能:
SORT BY
用于在每个Reducer内对数据进行排序。它不会对整个数据集进行全局排序,而是在每个Reducer的分区内进行排序,在处理大规模数据时可提高处理效率。 - 代码示例:
SET mapreduce.job.reduces = 3; -- 设置Reducer数量为3
SELECT student_name, score
FROM student_scores
SORT BY score DESC;
- 结果展示:
由于SORT BY
是在每个Reducer内排序,结果会根据Reducer的处理情况而有所不同。假设每个Reducer处理的数据如下(实际情况可能因数据分配方式不同而不同):
- Reducer 1:
student_name | score |
---|---|
David | 95 |
- Reducer 2:
student_name | score |
---|---|
Bob | 90 |
Cathy | 90 |
- Reducer 3:
student_name | score |
---|---|
Alice | 85 |
Charlie | 85 |
每个Reducer内的数据按成绩降序排列,但整体结果集并非全局有序。
CLUSTER BY
- 功能:
CLUSTER BY
用于对数据进行分桶操作,它会根据指定的列对数据进行哈希运算,将数据均匀分布到不同的桶(bucket)中,同时在每个桶内对数据按指定列进行排序。这在数据量较大时,有助于提升查询性能,特别是在进行连接(join)操作以及与排序相关的操作时。 - 代码示例:
-- 创建按score分桶的学生成绩表
CREATE TABLE student_scores_clustered (student_name STRING,score INT
)
CLUSTERED BY (score) INTO 2 BUCKETS;-- 将数据插入到分桶表
INSERT INTO TABLE student_scores_clustered
SELECT student_name, score
FROM student_scores;-- 查询分桶表
SELECT student_name, score
FROM student_scores_clustered;
- 结果展示:
数据会根据score
列的哈希值分配到不同的桶中,并且在每个桶内按score
排序。假设分桶结果如下(实际情况可能因哈希算法和数据分布不同而不同):
- Bucket 1:
student_name | score |
---|---|
David | 95 |
Bob | 90 |
Cathy | 90 |
- Bucket 2:
student_name | score |
---|---|
Alice | 85 |
Charlie | 85 |
每个桶内的数据按 score
排序。
小结
ORDER BY 用于全局排序,适用于需要最终结果完全有序的场景,但处理大数据时性能可能较低。
SORT BY 在每个 Reducer 内排序,适用于大规模数据处理,提高处理效率,但不保证全局有序。
CLUSTER BY 进行分桶并在桶内排序,主要用于优化特定查询(如 join)的性能,同时结合了分桶和局部排序的功能。
1. ROW_NUMBER窗口函数
1.1 功能概述
ROW_NUMBER
窗口函数为结果集中的每一行分配一个唯一的连续排名值,从1开始,按照ORDER BY
子句指定的顺序递增。无论数据值是否相同,其排名都不会出现重复,且是连续的。
1.2 代码示例
假设有一个学生成绩表student_scores
,包含student_name
(学生姓名)和score
(成绩)字段:
CREATE TABLE student_scores (student_name STRING,score INT
);INSERT INTO student_scores VALUES
('Alice', 85),
('Bob', 90),
('Cathy', 90),
('Charlie', 85),
('David', 95);
使用ROW_NUMBER
函数对学生成绩进行排名的查询如下:
SELECTstudent_name,score,ROW_NUMBER() OVER (ORDER BY score DESC) AS rank
FROMstudent_scores;
上述代码中,ROW_NUMBER() OVER (ORDER BY score DESC)
表示按照score
降序排列,为每一行数据分配一个唯一的排名。
1.3 结果展示
执行上述查询后,结果如下:
student_name | score | rank |
---|---|---|
David | 95 | 1 |
Bob | 90 | 2 |
Cathy | 90 | 3 |
Alice | 85 | 4 |
Charlie | 85 | 5 |
2. RANK窗口函数
2.1 功能概述
RANK
窗口函数同样用于为结果集的行分配排名。但当遇到相同值时,会分配相同的排名,并且下一个排名会跳过相应的数量。例如,如果有两个并列第2名,那么下一个排名将是第4名。
2.2 代码示例
仍以上述student_scores
表为例,使用RANK
函数进行排名的查询为:
SELECTstudent_name,score,RANK() OVER (ORDER BY score DESC) AS rank
FROMstudent_scores;
2.3 结果展示
执行该查询后,结果如下【相同分数的排名是随机的】:
student_name | score | rank |
---|---|---|
David | 95 | 1 |
Bob | 90 | 2 |
Cathy | 90 | 2 |
Alice | 85 | 4 |
Charlie | 85 | 4 |
可以看到,Bob和Cathy成绩相同,排名都是2,下一个排名直接跳到了4。
3. DENSE_RANK窗口函数
3.1 功能概述
DENSE_RANK
窗口函数也用于排名,与RANK
函数不同之处在于,当遇到相同值时,虽然也会分配相同的排名,但下一个排名不会跳过。即即使有并列情况,排名依然是连续的。
3.2 代码示例
还是针对student_scores
表,使用DENSE_RANK
函数排名的查询为:
SELECTstudent_name,score,DENSE_RANK() OVER (ORDER BY score DESC) AS rank
FROMstudent_scores;
3.3 结果展示
执行查询后,结果如下【相同分数的排名是随机的】:
student_name | score | rank |
---|---|---|
David | 95 | 1 |
Bob | 90 | 2 |
Cathy | 90 | 2 |
Alice | 85 | 3 |
Charlie | 85 | 3 |
这里Bob和Cathy并列第2名,下一个排名是第3名,没有跳过。
结合partition by 进行使用实现组内排序
在 Apache Hive 中,PARTITION BY 子句与排序窗口函数结合使用时,会先将数据按照指定的列进行分区,然后在每个分区内分别应用排序函数。这在处理需要分区统计排名的场景中非常有用。
ROW_NUMBER 窗口函数结合 PARTITION BY
功能说明:在每个分区内,ROW_NUMBER 函数为每一行分配一个唯一的连续排名值,从 1 开始,按照 ORDER BY 子句指定的顺序递增。不同分区之间的排名相互独立。
代码示例:假设 student_scores 表新增 class(班级)字段,现在要查询每个班级内学生成绩的排名。
-- 创建包含班级字段的学生成绩表
CREATE TABLE student_scores (student_name STRING,score INT,class STRING
);-- 插入数据
INSERT INTO student_scores VALUES
('Alice', 85, 'Class1'),
('Bob', 90, 'Class1'),
('Charlie', 85, 'Class2'),
('David', 95, 'Class2');-- 使用ROW_NUMBER函数结合PARTITION BY查询
SELECTstudent_name,score,class,ROW_NUMBER() OVER (PARTITION BY class ORDER BY score DESC) AS rank
FROMstudent_scores;
结果展示:
student_name | score | class | rank |
---|---|---|---|
Bob | 90 | Class1 | 1 |
Alice | 85 | Class1 | 2 |
David | 95 | Class2 | 1 |
Charlie | 85 | Class2 | 2 |
在这个结果中,PARTITION BY class 将数据按班级分为 Class1 和 Class2 两个分区,ROW_NUMBER 函数在每个分区内分别对学生成绩进行排名。
RANK 窗口函数结合 PARTITION BY
功能说明:与 ROW_NUMBER 类似,不过在每个分区内,当遇到相同值时,RANK 函数会分配相同的排名,并且下一个排名会跳过相应的数量。
代码示例:
SELECTstudent_name,score,class,RANK() OVER (PARTITION BY class ORDER BY score DESC) AS rank
FROMstudent_scores;
结果展示:
student_name | score | class | rank |
---|---|---|---|
Bob | 90 | Class1 | 1 |
Alice | 85 | Class1 | 2 |
David | 95 | Class2 | 1 |
Charlie | 85 | Class2 | 2 |
同样,在每个班级分区内,按照成绩排名,相同成绩的学生排名相同,下一个排名会跳过相应数量。
DENSE_RANK 窗口函数结合 PARTITION BY
功能说明:在每个分区内,DENSE_RANK 函数遇到相同值时也会分配相同的排名,但下一个排名不会跳过,保持排名的连续性。
代码示例:
SELECTstudent_name,score,class,DENSE_RANK() OVER (PARTITION BY class ORDER BY score DESC) AS rank
FROMstudent_scores;
结果展示:
student_name | score | class | rank |
---|---|---|---|
Bob | 90 | Class1 | 1 |
Alice | 85 | Class1 | 2 |
David | 95 | Class2 | 1 |
Charlie | 85 | Class2 | 2 |
在每个班级分区内,排名是连续的,即使有相同成绩的学生,下一个排名也不会跳过。
小结
ROW_NUMBER
:分配唯一且连续的排名,无论数据值是否重复,排名都不会间断。RANK
:相同数据值分配相同排名,下一个排名会跳过相应数量,导致排名可能不连续。DENSE_RANK
:相同数据值分配相同排名,但下一个排名不会跳过,排名始终连续。
排序函数的优化
在Apache Hive中优化排序函数的性能,可从以下几个关键方面着手:
1. 数据预处理
- 数据过滤:在使用排序函数前,尽量通过
WHERE
子句对数据进行过滤,减少参与排序的数据量。例如,在上述student_scores
表中,如果我们只关心成绩大于80分的学生排名,可在查询中添加WHERE
条件:
SELECTstudent_name,score,ROW_NUMBER() OVER (ORDER BY score DESC) AS rank
FROMstudent_scores
WHEREscore > 80;
- 数据抽样:对于大规模数据集,可先进行抽样处理,对抽样数据进行排序分析,获取大致结果。这在对数据整体趋势有初步了解时很有用。比如,从海量销售数据中抽取1%的数据来分析销售排名趋势。
2. 合理使用分区
- 分区表设计:将数据按合适的列进行分区,可显著提高排序性能。比如,在销售数据中,按日期分区,查询某段时间内的销售排名时,Hive可直接在相关分区内操作,减少扫描的数据量。
-- 创建按日期分区的销售表
CREATE TABLE sales (product STRING,quantity INT
)
PARTITIONED BY (sale_date STRING);
- 分区裁剪:查询时,Hive会自动进行分区裁剪,只读取相关分区的数据。例如:
SELECTproduct,quantity,RANK() OVER (ORDER BY quantity DESC) AS rank
FROMsales
WHEREsale_date BETWEEN '2023-01-01' AND '2023-01-31';
3. 选择合适的排序函数
- 根据业务需求:明确业务场景对排名的具体要求,合理选择
ROW_NUMBER
、RANK
或DENSE_RANK
。如果需要唯一且连续的排名,ROW_NUMBER
是最佳选择;若允许并列排名且排名可间断,RANK
更合适;若要并列排名且排名连续,DENSE_RANK
是正确之选。避免因错误选择函数导致不必要的计算。 - 函数性能差异:虽然这三个排序函数在功能上有差异,但性能差异相对较小。不过,
ROW_NUMBER
由于不需要处理并列排名情况,在数据量极大且无并列值的情况下,理论上可能会稍快一些。
4. 配置参数调整
- 内存分配:适当增加Hive任务的内存分配,可使排序操作更高效。通过修改
hive-site.xml
文件中的相关参数,如mapreduce.map.memory.mb
和mapreduce.reduce.memory.mb
,为排序操作提供足够内存。 - 并行度调整:合理调整MapReduce任务的并行度,可充分利用集群资源。例如,根据集群节点数量和数据量,设置
mapreduce.job.maps
和mapreduce.job.reduces
参数,提高排序任务的执行效率。
5. 索引使用【高版本hive】
- 创建索引:对排序依据的列创建索引,能加快排序速度。例如,在
student_scores
表中,对score
列创建索引:
CREATE INDEX score_index ON TABLE student_scores(score);
- 索引维护:定期维护索引,确保其有效性。当数据发生大量插入、更新或删除操作后,重建或优化索引,以保证排序性能。
总结
Apache Hive的排序函数在多种场景下都有广泛应用。在数据分析中,当我们需要明确数据的先后顺序,如找出成绩排名前几的学生、销售额排名靠前的产品等,ROW_NUMBER
函数可提供精确且唯一的排名,适用于严格区分先后顺序的场景。而在一些竞赛排名、成绩评级等场景中,如果允许并列排名且需要体现排名的间断性,RANK
函数更为合适。对于希望在并列排名时保持排名连续性的场景,比如分析员工绩效等级,DENSE_RANK
函数则能满足需求。这些排序函数为数据处理和分析提供了灵活多样的方式,帮助数据分析师和工程师更高效地从海量数据中提取有价值的信息。
相关文章:
Apache Hive--排序函数解析
在大数据处理与分析中,Apache Hive是一个至关重要的数据仓库工具。其丰富的函数库为数据处理提供了诸多便利,排序函数便是其中一类非常实用的工具。通过排序函数,我们能够在查询结果集中为每一行数据分配一个排名值,这对于数据分析…...
Java 接口安全指南
Java 接口安全指南 概述 在现代 Web 应用中,接口(API)是前后端交互的核心。然而,接口的安全性常常被忽视,导致数据泄露、未授权访问等安全问题。本文将详细介绍 Java 中如何保障接口安全,涵盖以下内容&am…...

合合信息名片全能王上架原生鸿蒙应用市场,成为首批数字名片类应用
长期以来,名片都是企业商务沟通的重要工具。随着企业数字化转型,相较于传统的纸质名片,数字名片对于企业成员拓展业务、获取商机、提升企业形象等方面发挥着重要作用。近期,合合信息旗下名片全能王正式上线原生鸿蒙应用市场&#…...

38.【3】CTFHUB web sql 报错注入
进入靶场 按照提示输入1 显示查询正确 既然是报错注入,先判断整形还是字符型注入 先输入1 and 11 再输入1 and 12 都显示查询正确,可知此为字符串型注入,不是数字型注入 然后就不会了 求助AI和其他wp 由以上2张搜索结果知updatexml是适用…...

RC2在线加密工具
RC2是由著名密码学家Ron Rivest设计的一种传统对称分组加密算法,它可作为DES算法的建议替代算法。RC2是一种分组加密算法,RC2的密钥长度可变,可以从8字节到128字节,安全性选择更加灵活。 开发调试上,有时候需要进行对…...
NVIDIA 下 基于Ubuntun20.04下 使用脚本安装 ros2-foxy 和 使用docker安装 ros2-foxy
一、前提介绍: 本文主要采用两种方式在NVIDIA 下基于 Ubuntun20.04安装 ros2-foxy。 使用环境: NVIDIA 为 Jetson 系列下 Jetson Xavier NX; Ubuntun版本:20.04 二、安装方法: 1、使用脚本编译方式: 使…...

STL容器-- list的模拟实现(附源码)
STL容器-- list的模拟实现(附源码) List的实现主要考察我们对list这一容器的理解,和代码的编写能力,通过上节对list容器的使用,我们对list容器已经有了一些基本的了解,接下来就让我们来实现一些list容器常见…...
python——句柄
一、概念 句柄指的是操作系统为了标识和访问对象而提供的一个标识符,在操作系统中,每个对象都有一个唯一的句柄,通过句柄可以访问对象的属性和方法。例如文件、进程、窗口等都有句柄。在编程中,可以通过句柄来操作这些对象&#x…...
KubeSphere 与 Pig 微服务平台的整合与优化:全流程容器化部署实践
一、前言 近年来,为了满足越来越复杂的业务需求,我们从传统单体架构系统升级为微服务架构,就是把一个大型应用程序分割成可以独立部署的小型服务,每个服务之间都是松耦合的,通过 RPC 或者是 Rest 协议来进行通信,可以按照业务领域来划分成独立的单元。但是微服务系统相对…...

ESP8266-01S、手机、STM32连接
1、ESP8266-01S的工作原理 1.1、AP和STA ESP8266-01S为WIFI的透传模块,主要模式如下图: 上节说到,我们需要用到AT固件进行局域网应用(ESP8266连接的STM32和手机进行连接)。 ESP8266为一个WiFi透传模块,和…...

Web开发 -前端部分-CSS-2
一 长度单位 代码实现: <!DOCTYPE html> <html lang"zh-CN"><head><meta charset"UTF-8"><meta name"viewport" content"widthdevice-width, initial-scale1.0"><title>Document<…...

【QT用户登录与界面跳转】
【QT用户登录与界面跳转】 1.前言2. 项目设置3.设计登录界面3.1 login.pro参数3.2 界面设置3.2.1 登录界面3.2.2 串口主界面 4. 实现登录逻辑5.串口界面6.测试功能7.总结 1.前言 在Qt应用程序开发中,实现用户登录及界面跳转功能是构建交互式应用的重要步骤之一。下…...

记录一次关于spring映射postgresql的jsonb类型的转化器事故,并使用hutool的JSONArray完成映射
事件的起因是这样的,那次事故发生的起因是因为WebFlux和postgreSQL去重新做鱼皮的鱼图图项目(鱼图图作业)。 在做到picture表的时候,发现postgreSQL中有个jsonb的类型可以更好的支持json数组。 出于锻炼新技术的目的,…...

基于 HTML5 Canvas 制作一个精美的 2048 小游戏--day2
为了使 2048 游戏的设计更加美观和用户友好,我们可以进行以下几项优化: 改善颜色方案:使用更温馨的颜色组合。添加动画效果:为方块的移动和合并添加渐变效果。优化分数显示:在分数增加时使用动画效果。 以下是改进后…...

Django框架:python web开发
1.环境搭建: (a)开发环境:pycharm (b)虚拟环境(可有可无,优点:使用虚拟环境可以把使用的包自动生成一个文件,其他人需要使用时可以直接选择导入包ÿ…...

MySQL、HBase、ES的特点和区别
MySQL:关系型数据库,主要面向OLTP,支持事务,支持二级索引,支持sql,支持主从、Group Replication架构模型(本文全部以Innodb为例,不涉及别的存储引擎)。 HBase࿱…...

联发科MTK6762/MT6762安卓核心板_4G智能模块应用
MT6762安卓核心板是一款工业级高性能、可运行 android9.0 操作系统的 4G智能模块。MT6762平台打造具备 AI 体验、先进双摄像头拍摄效果且具备丰富连接功能的智能手机主板。 MT6762安卓核心板 是一款髙性能低功耗的 4G 全网通安卓智能模块。此模块支持 2G/3G/4G 移动,…...
Windows7系统下载安装Source Code Pro字库
Source Code Pro字库介绍 Source Code Pro是由Adobe推出的一款专为代码展示和编写设计的开源等宽字体。它不仅在编程社区中广受好评,还被广泛应用于各种编辑器环境中,以提升代码的可读性和编程体验。 Source Code Pro的设计充分考虑了编程符号的呈…...
Navicat 17 功能简介 | 商业智能 BI
Navicat 17 功能简介 | 商业智能BI 随着 17 版本的发布,Navicat 也带来了众多的新特性,包括兼容更多数据库、全新的模型设计、可视化智能 BI、智能数据分析、可视化查询解释、高质量数据字典、增强用户体验、扩展 MongoDB 功能、轻松固定查询结果、便捷U…...

C# winodw TableLayoutPanel 料盒生产状态UI自动生成
料盒生产状态UI自动生成,效果如下 以前公司项目的这些都是手动拖控件做的。每个设备的料盒数量不一样,层数不一样时都要发好几个小时去改相关细节和代码。上次改了一次。这个又来了。上次就有想法做成根据参数自动生成。但项目时间有限有没有去深入思路和…...
【网络】每天掌握一个Linux命令 - iftop
在Linux系统中,iftop是网络管理的得力助手,能实时监控网络流量、连接情况等,帮助排查网络异常。接下来从多方面详细介绍它。 目录 【网络】每天掌握一个Linux命令 - iftop工具概述安装方式核心功能基础用法进阶操作实战案例面试题场景生产场景…...

C++实现分布式网络通信框架RPC(3)--rpc调用端
目录 一、前言 二、UserServiceRpc_Stub 三、 CallMethod方法的重写 头文件 实现 四、rpc调用端的调用 实现 五、 google::protobuf::RpcController *controller 头文件 实现 六、总结 一、前言 在前边的文章中,我们已经大致实现了rpc服务端的各项功能代…...

Vue3 + Element Plus + TypeScript中el-transfer穿梭框组件使用详解及示例
使用详解 Element Plus 的 el-transfer 组件是一个强大的穿梭框组件,常用于在两个集合之间进行数据转移,如权限分配、数据选择等场景。下面我将详细介绍其用法并提供一个完整示例。 核心特性与用法 基本属性 v-model:绑定右侧列表的值&…...
Cesium1.95中高性能加载1500个点
一、基本方式: 图标使用.png比.svg性能要好 <template><div id"cesiumContainer"></div><div class"toolbar"><button id"resetButton">重新生成点</button><span id"countDisplay&qu…...

江苏艾立泰跨国资源接力:废料变黄金的绿色供应链革命
在华东塑料包装行业面临限塑令深度调整的背景下,江苏艾立泰以一场跨国资源接力的创新实践,重新定义了绿色供应链的边界。 跨国回收网络:废料变黄金的全球棋局 艾立泰在欧洲、东南亚建立再生塑料回收点,将海外废弃包装箱通过标准…...

EtherNet/IP转DeviceNet协议网关详解
一,设备主要功能 疆鸿智能JH-DVN-EIP本产品是自主研发的一款EtherNet/IP从站功能的通讯网关。该产品主要功能是连接DeviceNet总线和EtherNet/IP网络,本网关连接到EtherNet/IP总线中做为从站使用,连接到DeviceNet总线中做为从站使用。 在自动…...

零基础设计模式——行为型模式 - 责任链模式
第四部分:行为型模式 - 责任链模式 (Chain of Responsibility Pattern) 欢迎来到行为型模式的学习!行为型模式关注对象之间的职责分配、算法封装和对象间的交互。我们将学习的第一个行为型模式是责任链模式。 核心思想:使多个对象都有机会处…...
Java多线程实现之Thread类深度解析
Java多线程实现之Thread类深度解析 一、多线程基础概念1.1 什么是线程1.2 多线程的优势1.3 Java多线程模型 二、Thread类的基本结构与构造函数2.1 Thread类的继承关系2.2 构造函数 三、创建和启动线程3.1 继承Thread类创建线程3.2 实现Runnable接口创建线程 四、Thread类的核心…...

10-Oracle 23 ai Vector Search 概述和参数
一、Oracle AI Vector Search 概述 企业和个人都在尝试各种AI,使用客户端或是内部自己搭建集成大模型的终端,加速与大型语言模型(LLM)的结合,同时使用检索增强生成(Retrieval Augmented Generation &#…...
Linux离线(zip方式)安装docker
目录 基础信息操作系统信息docker信息 安装实例安装步骤示例 遇到的问题问题1:修改默认工作路径启动失败问题2 找不到对应组 基础信息 操作系统信息 OS版本:CentOS 7 64位 内核版本:3.10.0 相关命令: uname -rcat /etc/os-rele…...