当前位置: 首页 > news >正文

【面试题】Hive 查询:如何查找用户连续三天登录的记录

1. 需求概述

在分析用户行为时,查询用户的连续登录数据是一个常见需求。例如,我们需要找出每个用户连续三天登录的记录。给定一个包含用户登录记录的表,我们需要对这些数据进行处理,提取出用户连续三天登录的日期。

2. 问题说明

假设我们有一个用户登录记录表 user_log,表结构如下:

iddt
12024-04-25
12024-04-26
12024-04-27
12024-04-28
12024-04-30
12024-05-01
12024-05-02
12024-05-04
12024-05-05
22024-04-25
22024-04-28
22024-05-02
22024-05-03
22024-05-04

我们的目标是找出每个用户连续三天登录的所有数据记录,期望的输出结果如下:

iddt
12024-04-25
12024-04-26
12024-04-27
12024-04-28
12024-04-30
12024-05-01
12024-05-02
22024-05-02
22024-05-03
22024-05-04

3. 查询思路

为了完成这个任务,我们可以利用 Hive SQL 的窗口函数来处理这个问题。主要的思路是:

  1. 窗口函数的使用:通过 LEAD() 函数获取当前登录记录的下一天和下两天的日期。
  2. 日期差计算:计算当前日期和下一天、下两天的日期差,判断是否为连续的三天。
  3. 筛选符合条件的数据:最终筛选出满足条件(即连续三天登录)的数据记录。

4. 查询实现

下面是具体的 Hive SQL 查询实现:

with t as (select *, lead(dt,1,dt) over(partition by id order by dt) last_day, lead(dt,2,dt) over(partition by id order by dt) last_2_day from user_log
),
t2 as (select *, datediff(last_2_day, dt) date_diff from t
)
select distinct id, d 
from t2 
lateral view explode(map('dt', dt, 'last_day', last_day, 'last_2_day', last_2_day)) tem as s, d 
where date_diff = 2;

5.代码解析

1. 子查询 t

这个子查询为每个用户的登录记录添加了两列,分别是 last_daylast_2_day,它们表示当前记录的下一天和下两天的登录日期。这里使用了窗口函数 LEAD() 来实现。

  • LEAD(dt, 1, dt):这个窗口函数获取当前行的下一天登录日期。如果下一天不存在,则返回当前日期 dt 作为默认值。
  • LEAD(dt, 2, dt):这个窗口函数获取当前行的下两天登录日期。如果下两天不存在,则返回当前日期 dt 作为默认值。
  • PARTITION BY id:按 id 列(即用户ID)对数据进行分组。
  • ORDER BY dt:按日期排序。

所以,t 子查询的结果将会如下(假设数据表 user_log 的某一部分):

iddtlast_daylast_2_day
12024-04-252024-04-262024-04-27
12024-04-262024-04-272024-04-28
12024-04-272024-04-282024-04-30
12024-04-282024-04-302024-05-01
12024-04-302024-05-012024-05-02
12024-05-012024-05-022024-05-04
12024-05-022024-05-042024-05-05

 

2. 子查询 t2

t2 子查询中,我们计算了日期差 date_diff,它表示 last_2_day 和当前登录日期 dt 之间的天数差。使用了 DATEDIFF() 函数来计算两个日期之间的天数差。

  • DATEDIFF(last_2_day, dt):计算 last_2_day 与当前日期 dt 之间的天数差。

date_diff 为 2 的记录说明 dtlast_2_day 是连续的三天登录。

3. LATERAL VIEW 和 EXPLODE

在查询的外层,使用了 LATERAL VIEWEXPLODE 来对数据进行展平操作,并对每个用户的连续三天登录日期进行处理。

  • LATERAL VIEWLATERAL VIEW 用于展开复杂数据类型(如数组或映射)。在这个查询中,LATERAL VIEW 展开了一个映射(map),每个映射包含了 dtlast_day 和 last_2_day 三个字段。
  • EXPLODE(map(...))EXPLODE 会将一个映射中的每个键值对展开为多行。对于每一行数据,都会根据映射的每个键值对创建一行记录。

map('dt', dt, 'last_day', last_day, 'last_2_day', last_2_day) 创建了一个映射(map),映射的键是 'dt''last_day''last_2_day',值分别是 dtlast_daylast_2_day

这将会生成一个包含每个字段名(dtlast_daylast_2_day)和值的结果行。LATERAL VIEW 使得每一行的键值对都展开为多行数据,因此可以进一步进行查询操作。

4. 查询的最终条件

最后,通过 where date_diff = 2 筛选出符合条件的记录。这意味着我们只选取那些连续三天登录的记录(日期差为 2),并通过 distinct 去重。

5. 查询结果示例

在执行查询后,我们将得到如下结果:

iddt
12024-04-25
12024-04-26
12024-04-27
12024-04-28
12024-04-30
12024-05-01
12024-05-02
22024-05-02
22024-05-03
22024-05-04

 这个结果显示了每个用户连续三天登录的记录,符合我们预期的输出。

 

 

相关文章:

【面试题】Hive 查询:如何查找用户连续三天登录的记录

1. 需求概述 在分析用户行为时,查询用户的连续登录数据是一个常见需求。例如,我们需要找出每个用户连续三天登录的记录。给定一个包含用户登录记录的表,我们需要对这些数据进行处理,提取出用户连续三天登录的日期。 2. 问题说明…...

高活跃社区 Doge 与零知识证明的强强联手,QED 重塑可扩展性

在 Web3 的广阔生态中,Doge 无疑是最具标志性和趣味性的项目之一。作为一种起源于网络文化的符号,Doge 从最初的互联网玩笑发展为如今备受全球关注的去中心化资产,依靠其独特的魅力和广泛的用户基础,构建了一个充满活力的社区。 …...

qt QAbstractTableModel详解

1、概述 QAbstractTableModel 是 Qt 框架中的一个类,用于在 Qt 应用程序中实现自定义的表格数据模型。它是 Qt 中的一个抽象基类,提供了创建和操作表格数据所需的接口。QAbstractTableModel 为模型提供了一个标准接口,这些模型将其数据表示为…...

掌握 Navicat 数据库结构设计 | 提升工作效率的秘诀

近期,我们介绍了 Navicat 17 的一系列的新特性,包括:兼容更多数据库、全新的模型设计、可视化 BI、智能数据分析、可视化查询解释、高质量数据字典、增强用户体验、扩展 MongoDB 功能、轻松固定查询结果、便捷 URI、支持更多平台等。今天&…...

Ollama AI 框架缺陷可能导致 DoS、模型盗窃和中毒

近日,东方联盟网络安全研究人员披露了 Ollama 人工智能 (AI) 框架中的六个安全漏洞,恶意行为者可能会利用这些漏洞执行各种操作,包括拒绝服务、模型中毒和模型盗窃。 知名网络安全专家、东方联盟创始人郭盛华表示:“总的来说&…...

vue 3:监听器

目录 1. 基本概念 2. 侦听数据源类型 1. 监听getter函数 2. 监听 ref 或 reactive 的引用 3. 多个来源组成的数组 4. 避免直接传递值!!! 3. 深层侦听器 4. 立即回调的侦听器 5. 一次性侦听器 6. watchEffect() 7. 暂停、恢复和停止…...

Java学习路线:Maven(四)Maven常用命令

在IDEA的Maven模块中,可以看到每个项目都有一个生命周期 这些生命周期实际上是Maven的一些插件,每个插件都有各自的功能,而双击这些插件就可以执行命令 这些命令的功能如下: clean:清除整个 target文件夹&#xff0c…...

服务器数据恢复—分区结构被破坏的reiserfs文件系统数据恢复案例

服务器数据恢复环境: 一台服务器中有一组由4块SAS硬盘组建的RAID5阵列,上层安装linux操作系统统。分区结构:boot分区LVM卷swap分区(按照顺序),LVM卷中划分了一个reiserfs文件系统作为根分区。 服务器故障…...

lua入门教程:type函数

在Lua中,type 函数是一个内置函数,用于返回给定值的类型。Lua 支持多种数据类型,包括 nil(空值)、boolean(布尔值)、number(数字)、string(字符串&#xff09…...

Java图片转word

该方法可以控制一页是否只显示存放一张图片 第一步 <dependency><groupId>org.apache.poi</groupId><artifactId>poi-ooxml</artifactId><version>5.2.3</version></dependency><dependency><groupId>org.apache…...

立体视觉的核心技术:视差计算与图像校正详解

立体视觉的核心技术&#xff1a;视差计算与图像校正详解 在立体视觉中&#xff0c;通过双目相机&#xff08;即左右两台相机&#xff09;的不同视角捕获的图像&#xff0c;结合几何关系&#xff0c;我们可以推算出场景中物体的深度。本文将深入讲解如何基于视差&#xff08;di…...

PaddleNLP的FAQ问答机器人

项目源码获取方式见文章末尾&#xff01; 600多个深度学习项目资料&#xff0c;快来加入社群一起学习吧。 《------往期经典推荐------》 项目名称 1.【DDRNet模型创新实现人像分割】 2.【卫星图像道路检测DeepLabV3Plus模型】 3.【GAN模型实现二次元头像生成】 4.【CNN模型实…...

2024年12月中国多场国际学术会议,EI检索录用!

2024年12月&#xff0c;多场国际学术会议将在中国多地召开&#xff0c;涵盖AI、机器人、大数据、网络安全、传感制造、环境工程、物联网等领域&#xff0c;促进学术交流&#xff0c;录用论文将EI检索&#xff0c;诚邀国内外专家参会。 第三届人工智能、人机交互和机器人国际学…...

日语学习的难易程度

日语学习的难易程度是一个相对主观的问题&#xff0c;它受到多种因素的影响&#xff0c;包括个人的语言学习能力、学习方法、学习时间、学习资源的可获得性以及个人对日语文化的兴趣和投入程度等。以下是对日语学习难易程度的一些分析&#xff1a; 优点与易学之处 文字系统&am…...

java-web-web后端知识小结

spring框架三大核心: IOC--控制反转 DI---依赖注入 AOP--面向切面编程 web开发技术小结 1.过滤器,JWT令牌 2.三层架构 IOC, DI AOP, 全局异常处理, 事务管理 mybatis 3.数据操作与存储 mysql 阿里云OSS(云存储) 各个技术的归属: 1.过滤器, cookie,session--javaWeb 2.JWT, 阿里…...

常见的排序算法(二)

归并排序 归并排序&#xff08;Merge Sort&#xff09;是一种基于分治法&#xff08;Divide and Conquer&#xff09;的排序算法。它将一个大的问题分解成小的问题&#xff0c;然后递归地解决这些小问题&#xff0c;最后合并&#xff08;merge&#xff09;得到最终的排序结果。…...

spark的RDD分区的设定规则

目录 一、第一种&#xff1a;parallelize 获取rdd时 二、第二种&#xff1a;通过外部读取数据-textFile 三、上面提到了默认分区数&#xff0c;那么默认分区是怎么计算呢&#xff1f; 一、第一种&#xff1a;parallelize 获取rdd时 没有指定&#xff1a;spark.default.paral…...

【点云网络】voxelnet 和 pointpillar

VoxelNet 和 pointpillar 这两个网络可以认为后者是前者的升级版本&#xff0c;都是采用了空间划分的方法&#xff0c; 一个是体素&#xff0c;一个是pillar, 前者是3D卷积处理中间特征&#xff0c;后者是2D卷积处理中间特征。 voxelnet voxelnet 应该是比较早的onestage的网…...

HAL库硬件IIC驱动气压传感器BMP180

环境 1、keilMDK 5.38 2、STM32CUBEMX 初始配置 默认即可。 程序 1、头文件 #ifndef __BMP_180_H #define __BMP_180_H#include "main.h"typedef struct {float fTemp; /*温度&#xff0c;摄氏度*/float fPressure; /*压力&#xff0c;pa*/float fAltitude; /*…...

探索Python音频处理的奥秘:Pydub库的魔法

文章目录 探索Python音频处理的奥秘&#xff1a;Pydub库的魔法第一部分&#xff1a;背景介绍第二部分&#xff1a;Pydub是什么&#xff1f;第三部分&#xff1a;如何安装Pydub&#xff1f;第四部分&#xff1a;Pydub的简单函数使用方法1. 打开音频文件2. 播放音频3. 导出音频文…...

RAG检索体系①【第十一篇】:混合检索架构(BM25+向量+过滤),工业级召回落地方案

生产级 RAG 避坑实战合集【第十一篇】文章简介&#xff1a;前十篇我们彻底打通数据层改写层&#xff1a;文档清洗、Chunk切块、元数据、生命周期、Query双层改写。绝大多数人做完这些&#xff0c;直接无脑上单向量检索。线上投产全部翻车。本文直击行业痛点&#xff1a;纯向量检…...

化工行业节能改造数据监测系统方案

针对工厂存在能源利用不足、设备利用率偏低、人工抄表粗放等痛点&#xff0c;某化工企业通过落实多项节能数字化改造措施&#xff0c;实现变废为宝、节能增效等多种能源效益。主要举措包括&#xff1a;通过回收高温蒸汽驱动闲置汽轮机实现发电、通过回收富余蒸汽为生产提供热源…...

量子计算如何革新机器翻译:QEDACVC系统解析

1. 量子计算与机器翻译的技术融合量子计算正在为自然语言处理领域带来革命性的变化。传统机器翻译系统依赖于经典计算机架构&#xff0c;如基于Transformer的模型&#xff0c;虽然取得了显著进展&#xff0c;但在处理低资源语言和实时多语言场景时仍面临挑战。量子机器翻译的核…...

Ubuntu 22.04升级后,Chrome总提示‘连接中断’?别急着重装,试试检查这个代理设置

Ubuntu 22.04升级后Chrome连接中断的深度排查指南 最近不少Ubuntu 22.04用户在系统升级后遇到了一个令人困扰的问题——Chrome浏览器频繁提示"连接中断"。这个问题看似简单&#xff0c;实则可能隐藏着系统级网络配置变更的深层原因。本文将带你从多个维度全面排查&am…...

保姆级教程:用YOLOv5+DeepSort从零搭建一个车辆计数测速系统(附完整源码和数据集)

从零构建智能交通分析系统&#xff1a;YOLOv5与DeepSort实战指南 在智能交通管理领域&#xff0c;计算机视觉技术正发挥着越来越重要的作用。本文将带您一步步搭建一个完整的车辆计数与测速系统&#xff0c;结合YOLOv5目标检测和DeepSort多目标跟踪算法&#xff0c;实现从视频流…...

2026年盲审前论文降AI攻略:盲审提交前AIGC超标免费4.8元知网达标完整处理方案

2026年盲审前论文降AI攻略&#xff1a;盲审提交前AIGC超标免费4.8元知网达标完整处理方案 答辩前三天&#xff0c;AI率还有74%。 翻遍论坛找方法&#xff0c;最终用嘎嘎降AI&#xff08;www.aigcleaner.com&#xff09;把74%降到6.8%&#xff0c;4.8元&#xff0c;当天搞定。…...

NVDC充电架构深度解析:智能电源管理如何提升笔记本性能与电池寿命

1. 项目概述&#xff1a;NVDC充电器&#xff0c;一个被低估的“能量管家”如果你是一位经常需要带着笔记本电脑移动办公的资深用户&#xff0c;或者是一位对设备续航和充电效率有极致追求的硬件爱好者&#xff0c;那么“NVDC”这个词&#xff0c;很可能已经或即将进入你的视野。…...

PNetLab-vs-EVE-NG安全性分析

1 PNetLab vs EVE-NG社区版&#xff1a;从一次CVE看"免费fork"的安全代价 1.1 痛点引入 2025年11月&#xff0c;CVE-2025-63749被公开披露——PNetLab 5.3.11存在命令注入漏洞&#xff0c;攻击者通过qemu_options参数注入$(/bin/bash -c reverse_shell)&#xff0c;…...

编程统计员工午休时长,下午工作效率数据,划定合理休息时间,科学提升全天职场整体工作产能。

基于商务智能&#xff08;BI&#xff09;思想的「员工午休时长 vs 下午工作效率」分析系统&#xff0c;保持中立、去营销化、无引流。一、实际应用场景描述某中型互联网团队发现&#xff1a;- 有人午休时间过长&#xff0c;下午精神仍不佳- 有人午休过短&#xff0c;下午效率明…...

手把手教你改造10块钱的USBASP烧录器,让它兼容Arduino IDE和AVRDUDESS

10元USBASP烧录器改造实战&#xff1a;解锁Arduino与AVRDUDESS全兼容方案 从闲置到全能&#xff1a;低成本硬件改造的价值探索 在电子制作和嵌入式开发领域&#xff0c;专业烧录工具往往价格不菲。但你可能不知道&#xff0c;手头那台吃灰的"智峰"版USBASP烧录器&…...