当前位置: 首页 > news >正文

大数据_SQL_5min访问达到100次的用户

某公司网站每日访问量达到10亿级别的访问量,
每次访问记录一条数据,数据包含如下字段:用户ID,访问时间(毫秒级),访问页面。
要求使用hive求出所有在5分钟内访问次数达到100次的用户(求出用户ID即可)

假设存在如下表

table_a

用户id (uid),  访问事件 (visit_time), 访问页面 (page)

解题思路

这道题需要换一个思路求解,不要直接按照题目的思路去做。可以转化为下面这个问题,如果按照时间排序,某条日志之后的第100条日志,与该条日志的时间差在5min之内。

则可以认为5分钟内访问达到100次。

题解

一个简化的例子,5min超过3条,并且认为时间是unix_timestamp(s)

--odps sql 
--********************************************************************--
--author:sam
--create time:2024-08-08 21:31:12
--********************************************************************---- 用户id (uid),  访问事件 (visit_time), 访问页面 (page)with tmpa as (select 1 as uid,1723123977 as visit_time,'home' as page union all select 1 as uid,1723124077 as visit_time,'home2' as page union all select 1 as uid,1723124177 as visit_time,'home2' as page union all select 1 as uid,1723124277 as visit_time,'home2' as page union all select 2 as uid,1723124277 as visit_time,'home2' as page union allselect 2 as uid,1723125277 as visit_time,'home2' as page 
)-- select 
--     uid,
--     visit_time,
--     page,
--     lag(visit_time,3,0) over(partition by uid order by visit_time) as before_3_time
-- from tmpa select uid
from 
(select uid,visit_time,page,lag(visit_time,3,0) over(partition by uid order by visit_time) as before_3_timefrom tmpa 
) t1 
where (visit_time - before_3_time) <= 300
group by uid 

函数LAG说明

lag(<expr>[, bigint <offset>[, <default>]]) over([partition_clause] orderby_clause)

命令说明

返回当前行往前(朝分区头部方向)第offset行数据对应的表达式expr的值。表达式expr可以是列、列运算或者函数运算等。

参数说明

  • expr:必填。待计算返回结果的表达式。

  • offset:可选。偏移量,BIGINT类型常量,取值大于等于0。值为0时表示当前行,为1时表示前一行,以此类推。默认值为1。输入值为STRING类型、DOUBLE类型则隐式转换为BIGINT类型后进行运算。

  • default:可选。当offset指定的范围越界时的缺省值,常量,默认值为NULL。需要与expr对应的数据类型相同。如果expr非常量,则基于当前行进行求值。

  • partition_clause及orderby_clause:详情请参见windowing_definition。

相关文章:

大数据_SQL_5min访问达到100次的用户

某公司网站每日访问量达到10亿级别的访问量&#xff0c; 每次访问记录一条数据&#xff0c;数据包含如下字段&#xff1a;用户ID&#xff0c;访问时间&#xff08;毫秒级&#xff09;&#xff0c;访问页面。 要求使用hive求出所有在5分钟内访问次数达到100次的用户&#xff08;…...

Python PDF文本处理技巧 - 查找和高亮文字

目录 使用工具 Python在PDF中查找和高亮文字并统计出现次数和页码 Python在PDF的特定页面区域中查找和高亮文字 Python使用正则表达式在PDF中查找和高亮文字 Python在PDF中查找文字并获取它的坐标位置 其他查找条件设置 在日常工作和学习中&#xff0c;我们常常需要处理各…...

虚幻引擎 C++ 实现平面阴影

1、平面阴影介绍 平面阴影是一种相对简单的渲染阴影的方式&#xff0c;可以理解为对一个模型渲染两次&#xff0c;一次是渲染模型本身&#xff0c;另一次是渲染模型的投影。渲染投影可以看作是将模型的顶点变换到地面的投影空间再渲染&#xff0c;可以理解为渲染了一个“压扁”…...

leetcode 67. 二进制求和

二进制求和 已解答 简单 相关标签 相关企业 给你两个二进制字符串 a 和 b &#xff0c;以二进制字符串的形式返回它们的和。 示例 1&#xff1a; 输入:a “11”, b “1” 输出&#xff1a;“100” 示例 2&#xff1a; 输入&#xff1a;a “1010”, b “1011” 输出&…...

【C++ 面试 - 基础题】每日 3 题(一)

✍个人博客&#xff1a;Pandaconda-CSDN博客 &#x1f4e3;专栏地址&#xff1a;http://t.csdnimg.cn/fYaBd &#x1f4da;专栏简介&#xff1a;在这个专栏中&#xff0c;我将会分享 C 面试中常见的面试题给大家~ ❤️如果有收获的话&#xff0c;欢迎点赞&#x1f44d;收藏&…...

【动态规划】1、不同路径II+2、三角形最小路径和

1、不同路径II&#xff08;难度中等&#xff09; 该题对应力扣网址 AC代码 只会写简单的if-else class Solution { public:int uniquePathsWithObstacles(vector<vector<int>>& obstacleGrid) {//1、定义子问题//2、子问题递推关系//3、确定dp数组的计算顺序…...

JavaEE-多线程编程单例模式

一、等待通知 系统内部&#xff0c;线程之间是抢占式执行的&#xff0c;随即调度&#xff0c;程序可以通过手动干预的方式&#xff0c;能够让线程一定程度的按咱们想要的顺序执行&#xff0c;无法主动让某个线程被调度&#xff0c;但可以主动让某个线程等待。等待通知可以安排…...

RHCA III之路---EX436-6

RHCA III之路---EX436-6 1. 题目2. 解题3. 确认 1. 题目 2. 解题 三台node分别运行 yum install -y device-mapper-multipath mpathconf --enable systemctl enable --now multipathd3. 确认 fdisk -l...

Vuex模块化 深入浅出超详细

Vuex 模块化 为什么需要模块化&#xff1f; 随着项目规模的增长&#xff0c;单一的 store 文件会变得庞大且难以管理&#xff1b; Vuex 的模块化是一种组织和管理应用状态的策略&#xff1a;&#xff0c;它允许将全局的状态管理分解成更小、更可管理的部分&#xff1b; 逻辑清…...

细说MCU检测按键输入的外部中断和修改HAL_GPIO_EXTI_IRQHandler() 的实现方法

目录 一、 硬件板及设计目的 二、建立工程 1.配置GPIO 2.配置时钟源和Debug 3.配置系统时钟 4.配置NVIC 三、代码编写 四、修改HAL_GPIO_EXTI_IRQHandler() 一、 硬件板及设计目的 本文使用的硬件板是ST的开发板NUCLEO-G474RE&#xff0c;板上MCU型号为ST…...

昂科烧录器支持XHSC小华半导体的32位微控制器HC32F005C6P

芯片烧录行业领导者-昂科技术近日发布最新的烧录软件更新及新增支持的芯片型号列表&#xff0c;其中XHSC小华半导体的32位微控制器HC32F005C6P已经被昂科的通用烧录平台AP8000所支持。 HC32F005C6P是Low Pin Count、宽电压工作范围的MCU&#xff0c;集成12位1Msps高精度SARADC…...

根据 IP 地址配置子网示例(下挂 hub 接不同 vlan 终端)

我们一般根据端口配置子网比较简单&#xff0c;但是如果换接口&#xff0c;就又要到交换机上重新配置端口所属 vlan 了&#xff0c;紧急情况下&#xff0c;还是比较耽误时间的。但如果根据IP地址配置 vlan&#xff0c;则可以插在交换机上任意端口&#xff0c;排障时比较节省时间…...

Flink-DataWorks第四部分:数据同步(第60天)

系列文章目录 2.4.2 DataStudio侧实时同步 2.4.3 数据集成侧同步任务 文章目录 系列文章目录前言2.4.2 DataStudio侧实时同步2.4.3 数据集成侧同步任务 前言 本文主要详解了DataWorks的数据同步&#xff0c;为第四部分&#xff1a; 由于篇幅过长&#xff0c;分章节进行发布。…...

go post请求,参数是raw json格式,response是固定结构。

在Go语言中&#xff0c;使用net/http包可以很方便地发送HTTP请求&#xff0c;包括POST请求。当需要发送raw JSON格式的参数时&#xff0c;通常会使用encoding/json包来将Go的结构体序列化为JSON字符串&#xff0c;然后使用http.NewRequest函数创建请求&#xff0c;并通过http.C…...

国产开源大模型都有哪些?

随着ChatGPT引领的大模型热潮&#xff0c;国内的公司开始相继投入研发自己的人工智能大模型&#xff0c;截止到2023年10月&#xff0c;国产公司的大模型有近百个&#xff0c;包括一些通用大模型&#xff0c;比如百度的文心一言&#xff0c;也有特定领域的专用大模型&#xff0c…...

基于Hadoop的超市进货推荐系统设计与实现【springboot案例项目】

文章目录 有需要本项目的代码或文档以及全部资源&#xff0c;或者部署调试可以私信博主项目介绍系统分析系统设计数据表设计表4-1&#xff1a;关于我们表4-2&#xff1a;用户表4-3&#xff1a;管理员表表4-4&#xff1a;token表表4-5&#xff1a;系统简介表4-6&#xff1a;收藏…...

ChatGPT能从这几个方面提升学术论文质量

学境思源&#xff0c;一键生成论文初稿&#xff1a; AcademicIdeas - 学境思源AI论文写作 写作和编辑高质量的学术论文是一项具有挑战性的任务。随着人工智能技术的进步&#xff0c;ChatGPT作为一种强大的语言生成工具&#xff0c;正逐渐成为提升论文质量的得力助手。从头脑风…...

Python3的安装及基础指令

Day 20 基础语法 1、环境&#xff1a;python2内置&#xff0c;安装并使用python3&#xff0c;最新版3.12版可以使用源码安装 # 查看python版本号 [rootpython ~]#yum list installed|grep python [rootpython ~]#yum list installed|grep epel [rootpython ~]# yum -y …...

使用Spring与JDK动态代理实现事务管理

使用Spring与JDK动态代理实现事务管理 在现代企业级应用开发中&#xff0c;事务管理是一项关键的技术&#xff0c;它可以保证一系列操作要么全部成功&#xff0c;要么全部失败&#xff0c;从而确保数据的一致性和完整性。Spring框架提供了强大的事务管理能力&#xff0c;但有时…...

服务器硬件及RAID配置

服务器及 RAID 磁盘阵列介绍 RAID0 俗称 “ 条带 ” &#xff0c;它将两个或多个硬盘组成一个逻辑硬盘&#xff0c;容量是所有硬盘之和&#xff0c;因 为是多个硬盘组合成一个&#xff0c;故可并行写操作&#xff0c;写入速度提高&#xff0c;但此方式硬盘数据没有冗余&#…...

告别Frida注入:手把手教你用IDA和010 Editor修改TikTok的libsscronet.so实现抓包(Android 30.8.4)

静态逆向实战&#xff1a;不依赖Frida修改TikTok核心通信模块实现抓包 在移动安全研究领域&#xff0c;动态注入工具如Frida一直是分析应用协议的主流选择。但当面对TikTok这类采用自研通信协议的应用时&#xff0c;频繁的版本更新会导致动态注入方案需要持续维护。本文将展示一…...

从ChatGLM到DeepSeek-V2:我用LLaMA-Factory一站式搞定5种大模型的高效微调

从ChatGLM到DeepSeek-V2&#xff1a;我用LLaMA-Factory一站式搞定5种大模型的高效微调 在开源大模型技术快速迭代的今天&#xff0c;工程师和研究者面临着一个幸福的烦恼&#xff1a;如何在ChatGLM、DeepSeek、Qwen、Yi、LLaMA等不同架构的模型之间高效切换和实验&#xff1f;传…...

从白炽灯到LED:聊聊那些“不听话”的非线性元件(附特性曲线解读)

从白炽灯到LED&#xff1a;聊聊那些“不听话”的非线性元件&#xff08;附特性曲线解读&#xff09; 记得我第一次用电阻给LED限流时&#xff0c;那颗蓝色LED在我眼前发出"啪"的一声轻响就永远熄灭了。那时我才明白&#xff0c;电路世界里不是所有元件都像电阻那样&q…...

每日一问-20260405--戴尔显示器型号命名速查表

戴尔显示器型号命名速查表&#xff08;超清晰版&#xff09;看完这张表&#xff0c;以后任何戴尔显示器&#xff0c;看一眼型号就知道定位、尺寸、年份、功能。一、整体结构格式&#xff1a;系列 尺寸 年份 后缀例&#xff1a;SE 24 16 H 入门家用系列 24 英寸 2016 年款 …...

AGI能力边界与安全约束

AGI能力边界与安全约束&#x1f4dd; 本章学习目标&#xff1a;通过本章学习&#xff0c;你将全面掌握"AGI能力边界与安全约束"这一核心主题&#xff0c;建立系统性认知。一、引言&#xff1a;为什么这个话题如此重要 在人工智能快速发展的今天&#xff0c;AGI能力边…...

YOLO系列算法改进 | 主干改进篇 | 替换QARepVGG量化感知重参数化网络 | 通过权重与激活分布的协同优化,在保持部署推理速度的同时解决INT8量化精度崩塌难题 | AAAI 2024

0. 前言 本文介绍QARepVGG量化感知重参数化网络,并将其集成到ultralytics最新发布的YOLOv26目标检测算法中,替换原有Backbone网络。QARepVGG通过重新设计RepVGG的多分支结构(移除Identity与11分支的BN层、在分支融合后添加后置BN),从根本上解决了重参数化网络在INT8量化时…...

PINN实战:如何用PyTorch自定义神经网络结构求解偏微分方程?

PINN实战&#xff1a;PyTorch自定义神经网络架构设计指南 在科学计算领域&#xff0c;物理信息神经网络(PINN)正逐渐成为求解偏微分方程(PDE)的新范式。与传统的数值方法不同&#xff0c;PINN将物理方程直接编码到神经网络中&#xff0c;通过自动微分技术实现端到端的求解。本文…...

赛马娘DMM版汉化优化终极指南:三分钟打造完美中文体验

赛马娘DMM版汉化优化终极指南&#xff1a;三分钟打造完美中文体验 【免费下载链接】umamusume-localify Localify "ウマ娘: Pretty Derby" DMM client 项目地址: https://gitcode.com/gh_mirrors/um/umamusume-localify 还在为赛马娘DMM版的日文界面而头疼吗&…...

XGP-save-extractor:跨平台开源工具守护游戏存档数据安全

XGP-save-extractor&#xff1a;跨平台开源工具守护游戏存档数据安全 【免费下载链接】XGP-save-extractor Python script to extract savefiles out of Xbox Game Pass for PC games 项目地址: https://gitcode.com/gh_mirrors/xg/XGP-save-extractor 在游戏世界中&…...

Obsidian 完全指南:从入门到精通

一、简介 Obsidian 是一款基于 Markdown 的本地知识管理工具,以双向链接和插件生态著称。 什么是 Obsidian Obsidian 是一款基于本地 Markdown 文件的知识管理和笔记工具。所有笔记以纯文本 .md 文件存储在本地,数据完全由用户掌控,无需依赖云端服务。也可以平替Typora。 …...