Hive学习(13)lag和lead函数取偏移量
hive里面lag函数
在数据处理和分析中,窗口函数是一种重要的技术,用于在数据集中执行聚合和分析操作。Hive作为一种大数据处理框架,也提供了窗口函数的支持。在Hive中,Lag函数是一种常用的窗口函数,可以用于计算前一行或前N行的值。
窗口函数简介
窗口函数是一种用于根据特定条件对数据进行分组和排序的函数,它可以在查询中使用。窗口函数配合分析函数一起使用,能够对数据进行更加灵活和高效的处理。
Hive中的窗口函数可以用于以下几种情况:
- 计算移动平均值或累积总和
- 计算每一行与前一行的差值
- 获取某一行相对于整个数据集的排序位置
- 对数据进行分组后,获取每个分组的排名
语法:
LAG(input[, offset[, default]]) OVER([PARTITION BY partition_expression, ...] ORDER BY sort_expression [, ...])
参数说明:
input:要获取的值所在的列或者表达式
offset:要获取的行之前的偏移量,默认为1
default:当没有前一行时,返回的默认值
场景1:
原数据如下,目标是客户取上次购买时间
| cust_no | purc_date |
|---|---|
| 300031 | 2022-01-01 |
| 300031 | 2022-01-02 |
| 300031 | 2022-01-03 |
| 300031 | 2022-01-04 |
| 300031 | 2022-01-05 |
| 300031 | 2022-01-06 |
代码如下:
lag(字段,向上取几行,取不到给默认值),lag函数是可以直接取指定行数,取不到默认为null;
可设置默认值,语法中【default】位置赋值默认值;
lead 同理,向下取行;
(lag设置默认值 ‘1970-01-01’ ,lead未设置;看下效果)
select cust_no,purc_date,lag(purc_date,1,'1970-01-01') over (partition by cust_no order by purc_date) as time1,-- 上次购买时间(设置默认值)lead(purc_date,1) over (partition by cust_no order by purc_date) as time2 -- 下次购买时间
from table_name a;
结果:
lag结果的首条记录的上次购买时间(已经是首条记录故没有上次购买时间),返回设置的默认值 ‘1970-01-01’;
lead结果的末条购买时间的下次购买时间为null
| 客户编号 | 购买时间 | 上次购买时间 | 下次购买时间 |
|---|---|---|---|
| 300031 | 2022-01-01 | 1970-01-01 | 2022-01-02 |
| 300031 | 2022-01-02 | 2022-01-01 | 2022-01-03 |
| 300031 | 2022-01-03 | 2022-01-02 | 2022-01-04 |
| 300031 | 2022-01-04 | 2022-01-03 | 2022-01-05 |
| 300031 | 2022-01-05 | 2022-01-04 | 2022-01-06 |
| 300031 | 2022-01-06 | 2022-01-05 | NULL |
补充:
--如有此业务场景,可计算本次距离上次间隔天数
datediff(purc_date,lag(purc_date,1,'1970-01-01') over (partition by cust_no order by purc_date))
场景2
简单看一下场景2,有问题可评论或私信讨论。
现在,我们希望计算每个产品的月度增长率,即当前月份的销售额与前一个月份的销售额之比。可以使用Lag函数来实现这个目标:
select mth --月份,product --产品代码,revenue --收入金额,(revenue / lag(revenue) over(partition by product order by mth)) as growth_rate --月度增长率
fromtable_name
order by product,mth
结果:
产品A因未设置默认值,所以返回NULL;产品B同理

参考:
https://blog.csdn.net/szdxltt/article/details/128615440
https://blog.51cto.com/u_16213418/7061149
相关文章:
Hive学习(13)lag和lead函数取偏移量
hive里面lag函数 在数据处理和分析中,窗口函数是一种重要的技术,用于在数据集中执行聚合和分析操作。Hive作为一种大数据处理框架,也提供了窗口函数的支持。在Hive中,Lag函数是一种常用的窗口函数,可以用于计算前一行…...
Centos Unable to verify the graphical display setup
ERROR: Unable to verify the graphical display setup. 在Linux下安装Oracle时 运行 ./runInstaller 报错 ERROR: Unable to verify the graphical display setup. This application requires X display. Make sure that xdpyinfo exist under PATH variable. No X11 DISPL…...
Java 说一下 synchronized 底层实现原理?
Java 说一下 synchronized 底层实现原理? synchronized 是 Java 中用于实现同步的关键字,它保证了多个线程对共享资源的互斥访问。底层实现涉及到对象头的 Mark Word 和锁升级过程。 synchronized 可以用于方法上或代码块上,分别对应于方法…...
nginx访问路径匹配方法
目录 一:匹配方法 二:location使用: 三:rewrite使用 一:匹配方法 location和rewrite是两个用于处理请求的重要模块,它们都可以根据请求的路径进行匹配和处理。 二:location使用: 1:简单匹配…...
偌依 项目部署及上线步骤
准备实验环境,准备3台机器 1.作为前端服务器,mysql,redis服务器--同时临时作为代码打包服务器 192.168.2.65 nginx-server 2.作为后端服务器 192.168.2.66 java-server-1 192.168.2.67 java-server-2 安装nginx/mysql #安装nginx [rootweb-nginx ~]…...
PHP特性知识点扫盲 - 上篇
概述 之前在分析thinkphp源码的时候,对依赖注入等等php高级的特性一直想做一个梳理和总结,一直没有时间,好不容易抽一点时间对技术的盲点做一个扫盲和总结。 特性 1.命名空间 命名空间是在PHP5.3中引入,是一个很重要的工具&am…...
Docker一键极速安装Nacos,并配置数据库!
1 部署方式 1.1 DockerHub javaedgeJavaEdgedeMac-mini ~ % docker run --name nacos \ -e MODEstandalone \ -e JVM_XMS128m \ -e JVM_XMX128m \ -e JVM_XMN64m \ -e JVM_MS64m \ -e JVM_MMS64m \ -p 8848:8848 \ -d nacos/nacos-server:v2.2.3 a624c64a1a25ad2d15908a67316d…...
交换机04_远程连接
通过远程管理方式连接交换机 1、telnet简介 telnet 是应用层协议 基于传输层TCP协议的,默认端口:23 采用的是明文密码方式 不是很安全,一般用于内网管理。 2、ssh协议简介 ssh 是应用层的协议,基于传输层的TCP协议&#x…...
ES6定义一个类(函数内部定义属性,,原型定义方法 ), 实现继承?
ES6中使用class关键字定义一个类,使用extends关键字实现继承。下面是一个示例: class Animal {constructor(name) {this.name name;}sayHello() {console.log(Hello, my name is ${this.name});} }class Dog extends Animal {constructor(name, breed)…...
使用 Process Explorer 和 Windbg 排查软件线程堵塞案例分享
目录 1、问题说明 2、线程堵塞的可能原因分析 3、使用Windbg和Process Explorer确定线程中发生了死循环 4、根据Windbg中显示的函数调用堆栈去查看源码,找到问题 4.1、在Windbg定位发生死循环的函数的方法 4.2、在Windbg中查看变量的值去辅助分析 4.3、是循环…...
“智慧”千里眼助力水泵站
泵站是为水提供势能和压能,解决无自流条件下的排灌、供水和水资源调配问题的唯一动力来源,在工农业用水、防洪、排涝和抗旱减灾等方面发挥着重要作用。一旦出现异常,对经济生产将造成难以估量的损失,给水利安全管理造成负担。因此…...
C++多态性——(5)运算符重载(第二节)
归纳编程学习的感悟, 记录奋斗路上的点滴, 希望能帮到一样刻苦的你! 如有不足欢迎指正! 共同学习交流! 🌎欢迎各位→点赞 👍 收藏⭐ 留言📝 身先才能率人,律己才能服人…...
ES -极客学习
Elasticsearch 简介及其发展历史 起源 Lucene 于 Java 语言开发的搜索引擎库类创建于 1999 年,2005 年成为 Apache 顶级开源项目Lucene 具有高性能、易扩展的优点Lucene 的局限性 只能基于 Java 语言开发类库的接口学习曲线陡峭原生并不支持水平扩展原生并不支持水…...
【大厂秘籍】系列 - Java多线程面试题
Java多线程面试题 友情提示,看完此文,在Java多线程这块,基本上可以吊打面试官了 线程和进程的区别 进程是资源分配的最小单位,线程是CPU调度的最小单位 线程是进程的子集,一个进程可以有很多线程,每条线…...
vue实现画笔回放,canvas转视频播放功能
示例图: 一、vue2版本 <template><div class"canvas-video"><canvasref"myCanvasByVideo"class"myCanvas"id"myCanvasByVideo":width"width":height"height"></canvas><d…...
Docker中镜像的相关操作
1.辅助操作 docker version:用查看docker客户端引擎和server端引擎版本信息。 docker info:用来查看docker引擎的详细信息。 docker --help:用来查看帮助信息。 2.镜像Image docker images:查看当前本地仓库中存在哪些镜像。 …...
[python]python利用pyaudio录制系统声音没有立体声混音怎么录制系统音频
当电脑没有立体声混音导致Python写代码无法使用pyaudio进行录制系统声音怎么办?查阅资料和安装驱动等方法都不行,难道没办法了吗?那为什么电脑其他软件可以做到呢?因此研究了一下pyaudio在没有立体声混音情况下确实无法录制声音&a…...
使用echarts的bmap配置项绘制区域轮廓遮罩
示例图 代码 <template><div id"map" style"width: 100%; height: 100vh"></div> </template><script> import * as echarts from "echarts"; import "echarts/extension/bmap/bmap"; export default…...
第3章 【课后习题】(完整版)
【3.18】写出下面程序的运行结果 //3.18写出下面程序的运行结果 #include <iostream> using namespace std; class test{public:test();~test() {};private:int i; }; test::test() {i25;for(int ctr0;ctr<10;ctr){cout<<"Counting at "<<ctr…...
redis安装与配置
目录 1. 切换到 root 用户 2. 搜索安装包 3. 安装 redis 4. 查看 redis 是否正常存在 5. 修改ip 6. 重新启动服务器 7. 连接服务器 1. 切换到 root 用户 通过 su 命令切换到 root 用户。 2. 搜索安装包 apt search redis 这里安装的是下面的版本: 3. 安装 …...
OpenClaw 把 Context 管理抽象成了可插拔的 Context Engine,为什么要做这层抽象?这个设计能支持哪些不同的策略?
👨⚕️ 主页: gis分享者 👨⚕️ 感谢各位大佬 点赞👍 收藏⭐ 留言📝 加关注✅! 👨⚕️ 收录于专栏:AI大模型原理和应用面试题 文章目录 一、🍀回答重点 二、🍀扩展知识 2.1 ☘️内置的 legacy 引擎 2.2 ☘️可以实现的高级策略 2.3 ☘️插件注册机制 …...
通信中间件dlz.comm架构解析:从核心原理到高性能实践
1. 项目概述:一个通信中间件的诞生最近在重构一个分布式数据处理系统时,我又一次被底层通信的复杂性绊住了。不同的服务节点之间,数据包的序列化、网络传输、连接管理、异常处理……这些代码像藤蔓一样缠绕在业务逻辑里,每次增加一…...
2026年青岛GEO优化服务商TOP5,哪家性价比最高?
行业痛点分析青岛地区GEO(生成式引擎优化)领域面临显著的技术挑战。据行业调研显示,超65%的本地企业存在“错配展现”问题,非目标区域消耗了20%以上的营销预算,导致获客成本平均上升30%。同时,AI大模型&…...
[IdeaLoop · 灵感回路] 独立开发者创业/副业灵感日报 · 2026-05-14
灵感日报 2026年05月14日 从今日全网热点提炼,精选 5 个值得关注的商业方向。— 灵感回路 IdeaLoop 完整报告(含竞品分析、MVP 规划、冷启动策略):idealoop.top 🏆 #1 胶片一键调色助手 综合评分:65 / 10…...
嵌入式游戏UI与动画实战:基于CircuitPython的对话框系统与位图动画实现
1. 项目概述与核心价值如果你在嵌入式平台上做过游戏开发,尤其是那种带有复古像素风格和复杂交互逻辑的项目,你肯定遇到过两个绕不开的难题:如何优雅地处理用户输入和反馈,以及如何在有限的硬件资源下实现流畅的动画效果。最近我在…...
深入理解 C++ 智能指针:原理、实现与最佳实践
智能指针概述智能指针本质上是封装了裸指针的类,通过 RAII(资源获取即初始化)管理资源生命周期。常见智能指针:std::unique_ptr:独占所有权,不能复制,只能移动。std::shared_ptr:共享…...
MCP服务器开源集市:AI智能体开发者的插件生态与实战指南
1. 项目概述:MCP服务器的开源集市最近在折腾AI智能体开发,特别是想让它们能更“主动”地去获取和处理外部信息,而不是仅仅依赖训练好的模型参数。在这个过程中,一个绕不开的概念就是模型上下文协议。简单来说,它就像给…...
悬而未决:Nacos 与 Apollo 能否终结“改配置就要重启”的诅咒?
写在前面“你把 log-level 从 INFO 改成 DEBUG 了?行,我记一下。等下次发布的时候一起上线。”这句话,是不是很熟悉?在一个超过 5 年的大型微服务项目中,我见过太多这样的场景:开发团队在线上环境排查问题时…...
基于Arduino与DFPlayer Mini打造可编程声音反馈键盘
1. 项目概述:当键盘不只是键盘 如果你和我一样,每天有超过8小时的时间在和键盘打交道,那你一定对“手感”这个词有执念。薄膜键盘的绵软、机械轴的段落感、静电容的柔和,每一种都代表了一种输入体验。但“BryceWG/BiBi-Keyboard”…...
基于Rust的MCP服务器开发指南:为AI应用构建安全高效的工具扩展
1. 项目概述:一个为AI应用构建的Rust版MCP服务器 如果你最近在折腾AI应用开发,尤其是想让你的AI助手(比如Claude Desktop、Cursor等)能够“看到”并操作你电脑上的文件、数据库,或者调用各种API,那么你很可…...
