当前位置: 首页 > news >正文

留存率的定义与SQL实现

1.什么是留存率

留存率是指在特定时间段内,仍然继续使用某项产品或服务的用户占用户总数的百分比。

通常,留存率会以日,周,或月为单位进行统计和分析。

2.SQL留存率常见问题

1.计算新用户登录的日期的次日留存率以及3日留存率

CREATE TABLE ods_user_login_log (user_id VARCHAR(255) NOT NULL,login_dt VARCHAR(255) NOT NULL
);
INSERT INTO ods_user_login_log VALUES 
('001','20240701'),
('001','20240701'),
('002','20240701'),
('003','20240701'),
('001','20240702'),
('002','20240702'),
('002','20240702'),
('001','20240703'),
('002','20240704'),
('004','20240704')
;

有一张用户登录日志表 ods_usr_login_log,包含 user_id(用户ID)和 login_dt(登录日期)。每个用户在同一天可能登录多次。

问题:计算有新用户登录的日期的次日留存率和3日留存率。

N日留存用户数:指某日活跃的用户在第N日再次活跃的用户数量。

本道题思路如下:

  1. 找出每个用户首次登录的日期

    使用子查询 t1,通过 MIN(login_dt) 函数获取每个用户的首次登录日期,并将其转换为日期格式 date
  2. 将所有登录记录转换为日期格式

    子查询 t2 将 login_dt 字段转换为日期格式。
  3. 计算次日留存率和3日留存率

    • 在最终的 SELECT 语句中,使用 DATEDIFF(t2.dt, t1.dt) 来计算用户登录日期与其首次登录日期的天数差。
    • 对于次日留存率,当天数差为1时,使用 COUNT(DISTINCT t2.user_id) 统计次日再次登录的用户数量,并将其除以首次登录的用户数量 COUNT(DISTINCT t1.user_id),得到次日留存率。
    • 对于3日留存率,类似地,当天数差为3时,计算第3日再次登录的用户数,并进行相应的计算。
  4. LEFT JOIN 进行多表联查

为什么使用LEFT JOIN?
LEFT JOIN 的作用是保留左表中的所有记录(即使在右表中没有匹配项)。在这个SQL语句中,左表是子查询 t1,它包含每个用户的首次登录日期。右表是 t2,它包含用户的所有登录记录。通过 LEFT JOIN,我们可以确保所有首次登录的用户都会出现在最终的结果中,即使这些用户在后续的指定日期(如次日或第3日)没有再次登录。这样可以保证在计算留存率时,所有首次登录的用户都被纳入分母,即使他们在后续日期没有登录,确保留存率计算准确无误。

一分钟搞明白Join、Left Join、Right Join的区别_join left join right join-CSDN博客

-- 计算用户首次登录的日期
with t1 as (select  user_id,cast(min(login_dt) as date) as dtfrom ods_user_login_loggroup by user_id, cast(login_dt as date)
),
-- 将数据转为date格式
t2 as (select user_id, cast(login_dt as date) as dtfrom ods_user_login_loggroup by user_id, cast(login_dt as date) 
)select t1.dt-- 确保用户在同一天登录的数据只被计算一次
,count(distinct case when datediff(t2.dt, t1.dt) = 1 then t2.user_id else null end) / count(distinct t1.user_id) as retain_1d_rate
,count(distinct case when datediff(t2.dt, t1.dt) = 3 then t2.user_id else null end) / count(distinct t1.user_id) as retain_3d_rate
from t1
left join t2
on t1.user_id = t2.user_id
group by t1.dt
;

2.2021年11月每天新用户的次日留存率_牛客题霸_牛客网

在本道题中,我们同样是计算新用户的次日留存率。

但数据列却完全不同,第一道题中,我们的数据列就只有登录时间。

在本题中,我们既有in_time进入时间,又有离开时间out_time。

那么就会存在一个情况:当在一条记录中,如果in_time-进入时间和out_time-离开时间跨天了。

如:(101, 9002, '2021-11-04 11:00:55', '2021-11-05 11:00:59', 0);

这时我们也算该用户在两天里都活跃过

那么,我们该如果计算,才能实现该逻辑呢?

具体来说,就是将in_time和out_time合并为同一个数据列,记录每个用户在每天的活跃情况。

select uid, date(in_time) as active_dt from tb_user_logunion all
select uid, date(out_time) as active_dt from tb_user_log

具体来说,我们就是把out_time也算作是活跃日。

在这里我们使用UNION ALL,是因为:

  • 它可以保留所有的用户行为记录,包括重复的日期。这对于准确计算次日留存率很重要。
  • 我们需要考虑每个用户可能在同一天多次访问的情况。使用 UNION ALL 确保了我们捕获到所有这些访问记录。(然后distinct去重)

剩下的操作就跟第一道题一样,计算用户首次登录的日期,然后通过计算datediff(end_time, start_time)来确定日期间隔。

with t1 as (select uid,min(in_time) as dtfrom tb_user_loggroup by uid
),
t2 as (select uid, date(in_time) as active_dt from tb_user_logunion allselect uid, date(out_time) as active_dt from tb_user_log
)select date_format(t1.dt,'%Y-%m-%d') as dt,round(count(distinct case when datediff(t2.active_dt,t1.dt) = 1 then t2.uid else null end) /count(distinct t1.uid),2) as uv_left_ratefrom t1left join t2on t1.uid = t2.uidwhere date_format(t1.dt,'%Y-%m') = '2021-11'-- t1.dt BETWEEN '2021-11-01' AND '2021-11-30'group by date_format(t1.dt,'%Y-%m-%d')

优化小建议:

使用 DATE_FORMAT(t1.dt, '%Y-%m') = '2021-11' 进行筛选,这样的条件会在查询时对所有结果再次进行格式化,可能会影响性能。 (格式化 + 筛选)

使用 t1.dt BETWEEN '2021-11-01' AND '2021-11-30' 进行时间范围过滤,这样的条件可以利用之前已经格式化好的数据,性能更好。 (只有筛选)

20230724024159.png?origin_url=chrome-extension%3A%2F%2Fpbhpcbdjngblklnibanbkgkogjmbjeoe%2Fsrc%2Fpublic%2Fimages%2F128px.png&pos_id=htfBsUYu)

相关文章:

留存率的定义与SQL实现

1.什么是留存率 留存率是指在特定时间段内,仍然继续使用某项产品或服务的用户占用户总数的百分比。 通常,留存率会以日,周,或月为单位进行统计和分析。 2.SQL留存率常见问题 1.计算新用户登录的日期的次日留存率以及3日留存率 …...

Java的锁机制详解

在并发编程中,锁 是用于控制多个线程对共享资源进行访问的工具。Java提供了多种锁机制,从最基础的 synchronized 到高级的 ReentrantLock,这些锁帮助我们确保线程安全,并能有效避免数据竞争和死锁问题。 1. synchronized 关键字…...

用户登录与信息管理:实现小程序登录与用户信息存储

用户登录与信息管理:实现小程序登录与用户信息存储 在现代的移动应用中,用户登录与信息管理是构建个性化用户体验的基础。小程序作为轻量级的应用形式,在简化开发流程的同时,也需要我们妥善管理用户的登录状态与用户信息。本文将…...

Java如何调用构造函数和方法以及使用

调用构造函数的格式 构造函数在创建新对象时被调用。调用格式如下: ClassName objectName new ClassName(parameters); ClassName:你需要创建其实例的类的名称。 objectName:你将创建的对象的名称。 parameters:如果你使用的是…...

TFBoys谁最重

题目 使用go语言设计一个程序计算TFBoys谁最重,要求使用结构体表示TFBoys三个成员,设计函数计算三个重量的最大值。 程序 package main import ("fmt") type Person struct {Name stringWeight float64} func (p Person) GetWeigh…...

scp 通过中间机器进行远程拷贝

有时候,我们想要通过 scp将一台机器上的文件拷贝至另外一台机器,但这两台机器可能没有直接联通,需要通过中间机器进行跳转才能访问,一个麻烦的办法就是,先将文件拷贝至中间机器,然后再从中间机器拷贝至另外…...

探索 Python 高精度计算的奥秘:mpmath 库全解析

文章目录 探索 Python 高精度计算的奥秘:mpmath 库全解析背景:为何选择 mpmath?第二部分:mpmath 是什么?第三部分:如何安装 mpmath?第四部分:mpmath 函数使用示例第五部分&#xff1…...

<<迷雾>> 第10章 用机器做一连串的加法(1)--使用两排开关分别给出被加数和加数 示例电路

info::操作说明 鼠标单击逻辑输入切换 0|1 状态 primary::在线交互操作链接 https://cc.xiaogd.net/?startCircuitLinkhttps://book.xiaogd.net/cyjsjdmw-examples/assets/circuit/cyjsjdmw-ch10-01-5-bit-adder.txt 原图...

Stable Diffusion最新版nowebui的api使用详解

最近在使用stable diffusion最新版的Stable Diffusion WebUI Forge进行api调用,下面来一步一步的进行展开吧!!! 1、下载lllyasviel/stable-diffusion-webui-forge GitHub - lllyasviel/stable-diffusion-webui-forgeContribute to lllyasviel/stable-diffusion-webui-for…...

云服务器架构详解:X86计算_ARM_GPU/FPGA/ASIC_裸金属_超级计算集群

阿里云服务器架构有什么区别?X86计算、ARM计算、GPU/FPGA/ASIC、弹性裸金属服务器、超级计算集群有什么区别?阿里云服务器网aliyunfuwuqi.com分享云服务器ECS架构详细说明: 阿里云服务器ECS架构说明 阿里云服务器ECS架构 X86计算 X86计算架…...

高级java每日一道面试题-2024年10月4日-数据库篇-MySQL索引底层结构为什么使用B+树?

如果有遗漏,评论区告诉我进行补充 面试官: MySQL索引底层结构为什么使用B树? 我回答: 该面试题本质还是在考察B树的数据结构和在数据库系统中的应用,下边是详细的回答。 B树的基本特性 B 树的结构特点 非叶子节点只存储键值信息,不存储…...

【JVM】内存分析工具JConsole/Visual VM

1 缘起 日常补充JVM调优,调优实践前需要学习一些理论做支撑, JVM调优三步:理论>GC分析>JVM调优, 我们会有一些玩笑话说,做了这么久Java开发,做过JVM调优吗? 做过,面试时。当然…...

一静 、二平 、三忍 、四让、五淡

一静 、二平 、三忍 、四让、五淡。 作者:儒风君 来源:儒风大家(ID: rufengdajia) 古人为人、处事、修身,都有独特的章法。 一静、二平、三忍、四让、五淡。 说透中国人的大智慧。 1 静 《道德经》里讲:“清静为天下正。”…...

js 深入理解函数(一):函数的本质

目录 概述1. 箭头函数2. 函数名 :指向函数的指针3. 理解参数3.1 arguments 对象的作用3.2 arguments 的注意点3.3 箭头函数中的参数 4. 没有重载5. 默认参数值5.1 ES 6 支持显示定义默认参数5.2 传 undefined 等于没有传值5.3 arguments 不反映参数默认值5.4 默认值…...

MySql表结构设计

创建 create table 表名(字段1 字段类型 [约束] [comment 字段1注释],...) [comment 表注释];约束是作用于表中字段上的规则,用于限制存储在表中的数据。它的目的是保证数据库中数据的正确性、有效性和完整性。 约束描述关键字非空约束限制该字段不能为nullnot nu…...

java:pdfbox 3.0 去除扫描版PDF中文本水印

官网下载 https://pdfbox.apache.org/download.html下载 pdfbox-app-3.0.3.jar cd D:\pdfbox 运行 java -jar pdfbox-app-3.0.3.jar java -jar pdfbox-app-3.0.3.jar Usage: pdfbox [COMMAND] [OPTIONS] Commands:debug Analyzes and inspects the internal structu…...

python知识点100篇系列(17)-替换requests的python库httpx

Requests 是使用 Apache2 Licensed 许可证的 基于Python开发的HTTP 库,其在Python内置模块的基础上进行了高度的封装,使用Requests可以轻而易举的完成浏览器可有的任何操作。 但是在python3.6之后,出现了一个requests的替代选项; httpx httpx是Python新一代的网络请求库…...

python 实现graph list图列算法

graph list图列算法介绍 图列(Graph List)算法通常指的是在图的表示中,使用列表(List)或更具体地说,邻接表(Adjacency List)来表示图的一种算法。邻接表是图的一种常见表示方法&…...

LFU算法 初始频率 动态频率

LFU(Least Frequently Used)算法是一种缓存淘汰策略,其核心思想是根据数据的访问频率来决定淘汰哪些数据。具体来说,     LFU算法认为如果一个数据在过去一段时间内被访问的次数很少,那么它在未来被再次访问的概率也…...

Spring Boot 进阶-详解SpringBoot的复杂数据校验规则

在之前的文章中,我们介绍了SpringBoot整合JSR-303规则来完成数据校验操作。接下来我们来聊一聊关于数据校验的具体用法。 之前的文章中举过一个简单的例子通过学生信息提交的例子来介绍了关于数据校验如何去做。那么接下来这篇文章,我们就来看看对于一些复杂的数据校验如何完…...

如何进行有效的友链seo优化_seo优化需要注意哪些要点

如何进行有效的友链SEO优化 在网络世界中,SEO(搜索引擎优化)是提升网站可见性和流量的关键手段之一。而在SEO优化的过程中,友链(友情链接)也是一种重要的手段。如何进行有效的友链SEO优化,是许…...

告别键盘连击困扰:KeyboardChatterBlocker的智能防抖解决方案

告别键盘连击困扰:KeyboardChatterBlocker的智能防抖解决方案 【免费下载链接】KeyboardChatterBlocker A handy quick tool for blocking mechanical keyboard chatter. 项目地址: https://gitcode.com/gh_mirrors/ke/KeyboardChatterBlocker 你是否曾在重要…...

Phi-4-mini-reasoning实战:快速理解和复现经典黑马点评项目

Phi-4-mini-reasoning实战:快速理解和复现经典黑马点评项目 1. 项目背景与挑战 黑马点评作为经典的实战项目,涵盖了电商平台的核心功能模块,是许多开发者学习分布式系统架构的首选案例。然而对于初学者而言,面对这样一个包含多模…...

Pixel Aurora Engine基础教程:8-BIT音效视觉化——将MIDI转像素动态图初探

Pixel Aurora Engine基础教程:8-BIT音效视觉化——将MIDI转像素动态图初探 1. 认识Pixel Aurora引擎 Pixel Aurora是一款专为像素艺术创作设计的AI绘图工作站,它将现代AI技术与复古游戏美学完美融合。这款引擎最独特之处在于能将音乐数据转化为动态像素…...

网站纠错页面对 SEO 有什么作用_网站图片和视频优化对 SEO 有什么技巧

网站纠错页面对 SEO 有什么作用 在网站管理和搜索引擎优化(SEO)方面,纠错页面的作用常常被忽视。网站纠错页面实际上对 SEO 有着重要的影响。当用户访问一个网站时,如果遇到 404 错误(页面未找到)或其他错…...

Qwen3-Reranker-0.6B效果实测:轻量级模型如何让搜索结果更智能

Qwen3-Reranker-0.6B效果实测:轻量级模型如何让搜索结果更智能 1. 重排序模型的价值与挑战 在构建搜索系统时,我们常常面临一个困境:基于嵌入模型的向量检索能快速返回大量候选结果,但真正相关的文档可能埋没在列表中。就像用渔…...

别只盯着PID!用STM32的PWM差速控制,让你的循迹小车转弯更稳(附源码分析)

STM32 PWM差速控制:让循迹小车转弯更稳的实战技巧 循迹小车的核心挑战之一是如何实现平滑稳定的转弯控制。许多开发者习惯性地直接套用PID算法,却忽略了更基础的PWM差速控制策略。实际上,通过精心设计的PWM占空比调整方案,完全可以…...

假芯片识别与防范:工程师实战指南

1. 假芯片泛滥:半导体行业的隐秘危机最近在调试一块电路板时,我发现一个奇怪的现象:明明使用的是同型号的MCU,但部分板子的功耗异常偏高。经过一周的排查,最终发现问题出在芯片上——我们采购到了一批"套牌"…...

OpenClaw截图分析进阶:千问3.5-9B识别UI元素与操作建议

OpenClaw截图分析进阶:千问3.5-9B识别UI元素与操作建议 1. 为什么需要截图分析能力? 上周我在测试一个内部工具时遇到了一个典型问题——某个按钮在特定分辨率下会消失不见。手动排查需要反复调整窗口尺寸并肉眼检查,效率极低。这时我想到了…...

用快马AI快速原型:十分钟搭建腾讯云龙虾主题资源监控面板

今天想和大家分享一个有趣的小项目——用InsCode(快马)平台快速搭建腾讯云龙虾主题的资源监控面板原型。这个项目特别适合想要快速验证创意的开发者,整个过程不到十分钟就能完成,而且完全不需要后端支持。 项目构思 这个创意的核心是把云资源管理界面趣味…...