当前位置：首页 > news >正文

HiveSQL一天一个小技巧：如何将分组内数据填充完整？

news 2026/5/13 16:30:29

0 需求

1 需求分析

需求分析：需求中需要求出分组中按成绩排名取倒数第二的值作为新字段，且分组内没有倒数第二条的时候取当前值。

如果本题只是求分组内排序后倒数第二，则很简单，使用row_number()函数即可求出，但是本题问题点在于没有倒数第二时候需要保留当前值，如何优雅求出呢？

使用row_number()函数得到如下结果

with data as(select 111 as stu_id, 'class1' as class_name, 69 as scoreunion allselect 113 as stu_id, 'class1' as class_name, 74 as scoreunion allselect 112 as stu_id, 'class1' as class_name, 80 as scoreunion allselect 115 as stu_id, 'class1' as class_name, 93 as scoreunion allselect 114 as stu_id, 'class1' as class_name, 94 as scoreunion allselect 124 as stu_id, 'class2' as class_name, 70 as scoreunion allselect 121 as stu_id, 'class2' as class_name, 74 as scoreunion allselect 123 as stu_id, 'class2' as class_name, 78 as scoreunion allselect 122 as stu_id, 'class2' as class_name, 86 as scoreunion allselect 9999 as stu_id, 'class3' as class_name, 99 as score)
select stu_id, class_name, score, row_number() over (partition by class_name order by score desc ) rn1from data

根据上述结果，如何取出倒数第二值？上层使用case when rn = 2 then score end ,看看效果

with data as(select 111 as stu_id, 'class1' as class_name, 69 as scoreunion allselect 113 as stu_id, 'class1' as class_name, 74 as scoreunion allselect 112 as stu_id, 'class1' as class_name, 80 as scoreunion allselect 115 as stu_id, 'class1' as class_name, 93 as scoreunion allselect 114 as stu_id, 'class1' as class_name, 94 as scoreunion allselect 124 as stu_id, 'class2' as class_name, 70 as scoreunion allselect 121 as stu_id, 'class2' as class_name, 74 as scoreunion allselect 123 as stu_id, 'class2' as class_name, 78 as scoreunion allselect 122 as stu_id, 'class2' as class_name, 86 as scoreunion allselect 9999 as stu_id, 'class3' as class_name, 99 as score)
select stu_id, class_name, score, case when  rn1 = 2 then score end as  res
from (select stu_id, class_name, score, row_number() over (partition by class_name order by score desc ) rn1--, row_number() over (partition by class_name order by score  ) rn2from data) t

倒数第二值是取出来了，但是还不符合要求，需求中要求该分组内生成的字段每一行全部为该值，如何做呢？这里有个小技巧，也是数据清洗的手段，如何将分组内空值用该分组内有值的值填充完整？我们采用max()函数开窗的技巧：max() over(partition by 分组字段)，这样同一个组内的所有空值都会被赋值为同一个字段。SQL如下：


with data as(select 111 as stu_id, 'class1' as class_name, 69 as scoreunion allselect 113 as stu_id, 'class1' as class_name, 74 as scoreunion allselect 112 as stu_id, 'class1' as class_name, 80 as scoreunion allselect 115 as stu_id, 'class1' as class_name, 93 as scoreunion allselect 114 as stu_id, 'class1' as class_name, 94 as scoreunion allselect 124 as stu_id, 'class2' as class_name, 70 as scoreunion allselect 121 as stu_id, 'class2' as class_name, 74 as scoreunion allselect 123 as stu_id, 'class2' as class_name, 78 as scoreunion allselect 122 as stu_id, 'class2' as class_name, 86 as scoreunion allselect 9999 as stu_id, 'class3' as class_name, 99 as score)
select stu_id, class_name, score, max(case when  rn1 = 2 then score end ) over(partition by class_name)   as  res
from (select stu_id, class_name, score, row_number() over (partition by class_name order by score desc ) rn1--, row_number() over (partition by class_name order by score  ) rn2from data) t

我们看到其结果值越来越符合预期，但是对于分组内只有一个值的如何处理呢？这里我们需要辅助判断，我们可以采用采用min() =max()判断，也可以采用percent_rank()=0判断等等，这里我们采用min() =max()判断，只要最大值等于最小值说明就分组内值唯一，最终SQL如下：

with data as(select 111 as stu_id, 'class1' as class_name, 69 as scoreunion allselect 113 as stu_id, 'class1' as class_name, 74 as scoreunion allselect 112 as stu_id, 'class1' as class_name, 80 as scoreunion allselect 115 as stu_id, 'class1' as class_name, 93 as scoreunion allselect 114 as stu_id, 'class1' as class_name, 94 as scoreunion allselect 124 as stu_id, 'class2' as class_name, 70 as scoreunion allselect 121 as stu_id, 'class2' as class_name, 74 as scoreunion allselect 123 as stu_id, 'class2' as class_name, 78 as scoreunion allselect 122 as stu_id, 'class2' as class_name, 86 as scoreunion allselect 9999 as stu_id, 'class3' as class_name, 99 as score)
select stu_id, class_name, score, max(casewhen rn1 != rn2 and rn1 = 2  --正序和倒序值不等 则取倒数第二的值 （rn1=2的值）then scorewhen rn1 = rn2 then score   --正序和倒序值相等 则取当前值end) over (partition by class_name) res
from (select stu_id, class_name, score, dense_rank()  over (partition by class_name order by score desc ) rn1, dense_rank() over (partition by class_name order by score) rn2 --用来辅助判断-- , percent_rank() over (partition by class_name order by score) pr --也可以采用该函数辅助判断(pr=0时候)from data) t

2 小结

本文通过实际需求中的案例，讲解了如何将分组内空值补充完整的技巧，通过开窗，min()/max() over(partition by 分组字段)来补充，注意点max()函数中根据实际情况写case when语句，或构造符合实际需求的条件，往往数据清晰中会用到这一技巧。

HiveSQL一天一个小技巧：如何将分组内数据填充完整？

0 需求

1 需求分析

2 小结

相关文章：

HiveSQL一天一个小技巧：如何将分组内数据填充完整？

【亲测可用】BEV Fusion (MIT) 环境配置

【调试方法】基于vs环境下的实用调试技巧

单目标应用：蜣螂优化算法DBO优化RBF神经网络实现数据预测（提供MATLAB代码）

MTK平台开发入门到精通（Thermal篇）热管理介绍

最好的 QML 教程，让你的代码飞起来！

笔记（六）——stack容器的基础理论知识

Web前端学习：四 - 练习

odoo15 标题栏自定义

视觉SLAM十四讲 ch3 (三维空间刚体运动)笔记

问题解决：java.net.SocketTimeoutException: Read timed out

前端代码优化方法

【批处理脚本】-1.16-文件内字符串查找增强命令findstr

三天吃透Redis面试八股文

数据湖架构Hudi（三）Hudi核心概念

在数字优先的世界中打击知识产权盗窃

机器学习算法原理——逻辑斯谛回归

【华为OD机试】最优资源分配/芯片资源占用（C++ Java JavaScript Python）

600 条最强 Linux 命令总结

python自学之《21天学通Python》(15)——第18章数据结构基础

Cursor Pro破解工具：5步实现永久免费使用的完整指南

终极矢量图标库完全指南：Remix Icon 3200+免费图标深度解析

如何通过HWInfo插件实现精准硬件监控与风扇控制：完整配置指南

面试官最爱问的FPGA亚稳态问题，我用这3个真实波形图给你讲透

AntiDupl.NET：告别数字杂乱，让图片管理回归优雅

长期使用后观察Taotoken聚合路由在高并发下的稳定性

LENS多模态模型评估实战：从模块消融到失败案例的深度剖析

3大技术创新：重新定义Windows Android生态的工具体验

收藏必备！小白程序员轻松入门大模型：RAG架构详解与实践

ESP32内存不够用？手把手教你修改Arduino IDE分区表，榨干16MB Flash