[数据分析] 数据指标体系搭建
在数据分析的学习过程中,我们通常会要求掌握以下两点:
1.理解数据,懂得从数据中发现业务指标(学会如何去看懂数据)
2.使用相关指标去分析数据,同时使用多个指标去分析一个问题(了解常见的指标)
当我们拿到数据(通常以Excel或者数据库方式去呈现数据),那么我们如何去理解数据?
1.理解数据
(1) 弄清楚数据每一栏位表示的是什么意思
(2) 对数据进行分类(有助于后期的分析)
通常将数据分为三类:
1.用户数据:用户的基本信息,包括姓名、性别、邮箱、年龄、家庭地址、职业、教育水平等
2.行为数据:记录用户做过什么的数据,其主要包括用户做了哪些行为、发生行为的时间等
例如:逛电商购物平台,用户行为可以是用户在某个产品页面的停留时间、浏览过哪些产品、购买了哪些产品等
3.产品数据:包括产品名称、产品类别、产品评论、库存等
一个平台里的东西都可以看作产品,例如优酷上的视频,CSDN里面的文章,淘宝里面的商品都可以看作产品
例如:把CSDN发过的文章看作产品,这样“产品数据”就包括文章标题、文章阅读量、发布文章的日期等
对于数据的分类并不是绝对的,要根据具体业务去灵活定义
有些数据从不同角度来看,可以属于不同的分类。例如,对于B站视频的收藏量而言,收藏是一个用户的行为,那么收藏量可以看作是行为数据;另外,收藏是产品(视频)被收藏,那么收藏量也可以看作是产品数据
2.构建指标体系
聚焦某一个业务问题或者场景进行数据分析时,首先需要构建合理的指标体系或者模型,从而能够有效“整理”来自不同数据源的各场景所汇聚的大量数据
2.1 什么是指标?
指标是指将业务单元精分后量化的度量值,能够使得业务目标可描述、可度量、可拆解;另一种说法:用某个统一标准去衡量业务,这个统一的标准就是指标
2.1.1 用户数据指标
① 日新增用户数:产品每天新增的用户是多少
提示Tips:按渠道维度来拆解新增用户,可以看出不同渠道分别新增了多少用户,从而判断出渠道推广的效果
② 活跃用户数按时间可分为日活跃用户数、周活跃用户数以及月活跃用户数
日活跃用户数:一天之内活跃的用户数
周活跃用户数:一周之内至少活跃一次的用户总数
月活跃用户数:一个月之内至少活跃一次的用户总数
提示Tips:统计活跃用户数需要去除重复的数据,例如小明每天都登录CSDN博客网站,每天活跃1次,1个月活跃30次,月活跃人数不是30而是1,不管1个人1个月活跃多少次,月活跃人数是1
③ 活跃率是活跃用户在总用户中的占比,根据时间可分为日活跃率、周活跃率以及月活跃率
④ 留存率:第1天新增的用户中,在第N天还在使用产品的用户数除以第一天新增总用户数,如果按时间划分,留存率可分为次日留存率、第3日留存率、第7日留存率以及第30日留存率
举个栗子,某产品第1天新增用户100个,第2天这100个人里面有40个人还在使用该产品,那么次日留存率 = 40 / 100 = 40% ;如果第7天这100个人里面有20个人还在使用该产品,那么第7日留存率 = 20 / 100 = 20%
次日留存率:第1天新增的用户中,在第2天使用过产品的用户数 / 第1天新增总用户数
第3日留存率:第1天新增的用户中,在第3天使用过产品的用户数 / 第1天新增总用户数
第7日留存率:第1天新增的用户中,在第7天使用过产品的用户数 / 第1天新增总用户数
第30日留存率:第1天新增的用户中,在第30天使用过产品的用户数 / 第1天新增总用户数
提示Tips:留存可以评估产品功能对用户的黏性,反映用户留存的指标,我们可以使用留存率来表示
通过渠道推广过来的新用户,经过一段时间可能会有一部分用户逐渐流水,这类用户被称为流失用户,留下来的用户称为留存用户
2.1.2 行为数据指标
① PV(Page View):访问次数,一定时间内某个页面的浏览次数
某一个网页1天中被打开10次,那么PV就是10,可理解为用户每打开一个网页可以看做一个PV
② UV(Unique Visitor):访问人数,一定时间内访问某个页面的人数
某一个网页1天中被1个人打开过10次,那么UV是1而不是10
提示Tips:通过比较PV或者UV的大小,可以看到用户喜欢产品的哪个功能,不喜欢哪个功能,从而根据用户行为来优化产品
③ 转发率:转发某功能的用户数 / 看到该功能的用户数
④ 转化率:在一个统计周期内,完成转化行为的次数占推广信息总点击次数的比率
提示Tips:转化率的计算方法与具体业务场景有关
举例说明
店铺转化率 = 购买产品的人数 / 到店铺的人数
广告转化率 = 点击广告的人数 / 看到广告的人数
2.1.3 产品数据指标
① GMV(Gross Merchandise Volume):成交总额,包括销售额、取消订单金额、拒收订单金额和退货订单金额
一个电商企业的月销售额为20w元,未支付订单金额2w元,拒收订单金额0.5w元,退货订单1w元,那么该电商的GMV = 20w + 2w + 0.5w + 1w = 23.5w
提示Tips:只要拍下的订单,就会被计入到GMV中,不管取消不取消订单、拒不拒收货物、退不退货
② 成交数量:下单的产品数量
③ 访问时长:用户使用App或者网站的总时长
④ ARPU(Average Revenue Per User):人均付费,也称为客单价
人均付费 = 总收入 / 总用户数
⑤ ARPPU(Average Revenue Per Paying User):付费用户人均付费
付费用户人均付费 = 总收入 / 付费人数
⑥ 人均访问时长:统计每个人使用产品的平均时长
人均访问时长 = 总时长 / 总用户数
⑦ 付费率:反映产品的变现能力和用户质量
付费率 = (付费人数 / 总用户数) x 100%
某App产品有100万注册用户,其中有10万用户有在该App进行过消费,那么该产品的付费率 = (100000 / 1000000) x 100% = 10%
⑧ 复购率:重复购买频率,指一定时间内,消费两次以上的用户数/付费人数,用于反映用户的付费频率
复购率 = 消费两次以上的人数 / 付费人数
⑨ 产品相关:根据具体的业务需求,灵活扩展使用产品相关指标
例如:热销产品Top N、好评产品Top N、差评产品Top N
注意:除了上述介绍的指标以外,还有其他指标并没有进行讲解,我们也可以按行业(制造业、金融、互联网电商等)以及按业务(推广效果等)不同的维度进行指标选取和设定,读者可自行去查阅检索
2.2 指标类型
(1) 原子指标
原子指标 = 行为事件 + 度量
可理解为某一业务行为事件下的度量,是业务定义中不可拆分的指标,如点击量
原子指标还会基于维度、修饰词、统计口径构建出派生指标
(2) 派生指标
派生指标 = 一个原子指标 + 多个修饰词 + 时间周期
例如:
原子指标 = 点击量
派生指标 = 近一周ios注册用户点击量
近一周ios注册用户点击量
时间周期:近一周 修饰词:ios 维度:注册用户 原子指标:点击量
2.3 如何选择指标?
这么多指标,如何选择呢?选择指标的时候,需要考虑两点
1.好的数据指标应该是比例
通常要想理解一个数字的真实含义,最好把它除以一个总数,换算成一个比例。
例如:告诉你公众号打开次日文章用户数(活跃用户数)是1万,让你分析公众号是否有问题。这其实是看不出来的,如果告诉你总粉丝数有10万,那么可以计算出次日活跃率 = 1万(活跃用户数) / 10万(总用户数) = 10%,与行业平均活跃率(公众号的平均活跃率是5%)相比较而言,会发现该公众号活跃率很高
所以,在求职面试或者工作里看到指标的时候,要看这个指标是不是个比例,如果不是,需要换算成比例
2.根据目前的业务重点,找到核心指标
核心指标没有唯一标准。不同的公司关注的业务重点不一样,即使是同一家公司在不同的发展阶段,业务重点也不一样,所以要根据目前的业务重点,去寻找核心指标
案例 | 核心指标 |
照片分享率 | |
月活跃用户率 | |
喜马拉雅 | 用户收听时长 |
注:用户收听时长,就是每一个用户进来以后,他能听多久的音频(喜马拉雅是音频APP)
2.4 什么是指标体系?
在统计研究中,如果要说明总体全貌,只使用一个指标往往只能反映总体某一方面的数量特征。此时,就需要同时使用多个相关指标,而这多个相关又相互独立的指标所构成的统一整体,即为指标体系(指标体系是从不同维度梳理业务,把指标有系统的组织起来)
将指标体系化本质是将数据指标系统性的组织起来
简而言之,指标体系 = 指标 + 体系,一个指标不能叫指标体系,几个毫无关系的指标也不能叫指标体系,如果只有指标而没有体系,我们能够获取的信息就会变得很乱(指标体系不是指标的罗列)
建立指标体系的目的在于获取全局性的、有体系的信息,进而通过这些信息去驱动业务的发展,达成组织目标
指标体系的作用
1.监控业务情况
2.通过拆解指标寻找当前业务问题
3.评估业务可改进的地方,找出下一步工作的方向
对于一家公司的业务是否正常(健康),可以通过指标体系对业务进行监控。当业务出现异常时,就能以最快的速度发现问题,开始分析,然后解决这些问题,最大化地减少损失。
缺少数据指标体系规划,容易出现的问题:
1.问题定位难
2.数据采集工作反复进行
3.上下目标不一致
4.监控、分析阶段效率低
分析具体业务问题时,找数据会变得越来越难,每天会消耗大量时间在不断寻找数据、核对指标的泥潭中,因此构建数据指标体系极为重要
好的指标体系是随着实践的深入和认识的提高,逐渐生长出来的,而非起初就完美设计出来
2.5 如何建立指标体系?
每个指标可以从以下3个方面确定统计口径
① 指标业务含义:这个指标在业务上表示什么?
② 指标定义:这个指标是怎么定义的?
③ 数据来源:从什么地方收集的原始数据?数据统计的时间范围是什么?
1.明确部门KPI,设定一级指标
一级指标是用于衡量公司或部门运营整体目标达成的情况以及战略目标的结果
一级指标并非只能是一个指标,有可能需要多个指标来综合评价
2.了解业务运营情况,设定二级指标
针对一级指标进行分析拆解,高效定位一级指标波动的原因,具体如何拆解,需要了解业务是如何运营的
3.梳理业务流程,设定三级指标
定位二级指标变动的原因,把二级指标按照业务流程拆解为更细的三级指标,指导一线部门的决策
4.通过报表监控指标,不断更新指标体系
通过前面三个步骤找到一级指标、二级指标以及三级指标,使用表格、图表来展示指标,通过报表监控指标,方便业务部门掌握业务情况的同时,也能够实时更新指标体系
制作报表步骤
(1) 需求分析
制作报表的目的是什么?
(2) 建立指标体系
(3) 设计展现形式
如何展示数据,才能让业务部门更容易地理解数据?
(4) 编写需求文档
说明报表原型,更新频率等信息
(5) 报表开发
和开发沟通排期,跟进开发进度,验证报表的数据质量
补充扩展知识:建立指标体系需要注意以下4点
① 抓住问题重点,需要设置准确的一级指标
② 指标之间需要有逻辑关系
如果不按照业务流程来建立指标体系,虽然指标很多,但是指标之间没有逻辑关系,以至于出现问题的时候,找不到对应的业务节点是哪个,没有办法解决实际问题
③ 拆解的指标需要有业务意义,不能只为了拆解而拆解
④ 建立指标体系需要各部门紧密沟通,需要对公司业务和各部门职能有深刻的理解
相关文章:

[数据分析] 数据指标体系搭建
在数据分析的学习过程中,我们通常会要求掌握以下两点: 1.理解数据,懂得从数据中发现业务指标(学会如何去看懂数据) 2.使用相关指标去分析数据,同时使用多个指标去分析一个问题(了解常见的指标) 当我们拿到数据(通常以Excel或者数据库方式去…...
Dubbo 源码分析 – 集群容错之 Cluster
3.2.2 FailbackClusterInvoker FailbackClusterInvoker 会在调用失败后,返回一个空结果给服务提供者。并通过定时任务对失败的调用进行重传,适合执行消息通知等操作。下面来看一下它的实现逻辑。 public class FailbackClusterInvoker<T> extend…...
Spring学习20230208-09
IOC底层原理 IOC概念 :面向对象编程中的一种设计原则,用来降低耦合度 通过控制反转,对象在被创建的时候,由一个调控系统内所有对象的外界实体将其所依赖的对象引用传递给他。可以说,依赖被注入到对象中。控制反转&…...

tomcat10部署报错WebStatFilter cannot be cast to jakarta.servlet.Filter
异常信息09-Feb-2023 23:08:49.946 严重 [main] org.apache.catalina.core.StandardContext.filterStart 启动过滤器异常[DruidWebStatFilter]java.lang.ClassCastException: com.alibaba.druid.support.http.WebStatFilter cannot be cast to jakarta.servlet.Filterat org.ap…...

Linux修改文件时间或创建新文件:touch
每个文件在Linux下面都记录了许多的时间参数,其实是三个主要的变动时间 修改时间(modification time,mtime):当该文件的【内容数据】变更时,就会更新这个时间,内容数据是指文件的内容ÿ…...

原生微信小程序按需引入vant
vant Vant Weapp - 轻量、可靠的小程序 UI 组件库 1.npm安装 找到项目根目录 安装 # 通过 npm 安装 npm i vant/weapp -S --production# 通过 yarn 安装 yarn add vant/weapp --production# 安装 0.x 版本 npm i vant-weapp -S --production 2 .修改 app.json 将 app.jso…...

高性能IO模型:为什么单线程Redis能那么快?
我们通常说Redis是单线程,主要是指Redis的网络IO和键值对读写是由一个线程来完成的。这也是Redis对外提供键值存储服务的主要流程。 但redis的其他功能,比如持久化、异步删除、集群数据同步等,其实是由额外的线程执行的。 Redis为什么用单线…...

【数据集】中国各类水文专业常用数据集合集
1 水文气象数据 1.1 中国站点尺度天然径流量估算数据集(1961~2018年) 论文: J2022-High-quality reconstruction of China’s natural streamflow-缪驰远(北京师范大学地理科学学部) 研究内容:…...

落枕、肩颈酸痛,用磁疗就可缓解!
睡觉之前还是好好的,一觉醒来脖子莫名疼痛,转都转不了,有时候连肩膀和上肢都难受,很可能是“落枕”了。 落枕引起的肩颈疼痛与多种因素有关,如颈肩部肌肉的过度使用、不良的睡眠姿势或颈肩部受寒湿空气的侵袭ÿ…...

一文教会你如何选择远程桌面(五大主流远程软件全面讲解)
写在前面 作为程序员的我们,随时随地写代码改代码是我们的日常。刚回到家,就被老板、产品经理cue是常有的事。基于这种情况,一般都会随身携带电脑,随时备战,不过每天背着电脑上下班非常不方便。因此资深程序员的解决方…...

【yolov5】yolov5训练自己的数据集全流程----包含本人设计的快速数据处理脚本
关于yolo应用时能用到的脚本集合,推荐收藏: https://chenlinwei.blog.csdn.net/article/details/127299428 1. 工程化快速yolo训练流程指定版(无讲解) 1.1 抽样数据集xml转txt输出量化分析 python make_dataset.pymake_dataset…...

leaflet 加载CSV数据,显示图形(代码示例046)
第046个 点击查看专栏目录 本示例的目的是介绍演示如何在vue+leaflet中加载CSV文件,将图形显示在地图上。 直接复制下面的 vue+openlayers源代码,操作2分钟即可运行实现效果; 注意如果OpenStreetMap无法加载,请加载其他来练习 文章目录 示例效果配置方式示例源代码(共74…...

百趣代谢组学资讯:槟榔的基因组为雌雄同株植物的性别决定提供见解
文章标题:The genome of Areca catechu provides insights into sex determination of monoecious plants 发表期刊:New Phytologist 影响因子:10.323 作者单位:海南大学 百趣生物提供服务:植物激素高通量靶标定…...

SSO单点登录 - 多系统,单一位置登录,实现多系统同时登录 学习笔记
(1)单点登录 多系统的前提下,单一位置的登录,会实现多系统同时登录的一种技术。 常出现在互联网应用和企业级平台中 如:京东 单点登录一般是用于互相授信的系统,实现单一位置登录,全系统有效的。 注意:…...

图解LeetCode——剑指 Offer 32 - III. 从上到下打印二叉树 III
一、题目 请实现一个函数按照之字形顺序打印二叉树,即:第一行按照从左到右的顺序打印,第二层按照从右到左的顺序打印,第三行再按照从左到右的顺序打印,其他行以此类推。 二、示例 2.1> 示例1 提示: …...

【快排与归并排序算法】
作者:指针不指南吗 专栏:算法篇 🐾或许会很慢,但是不可以停下🐾 文章目录一、快速排序 ( Quick Sort )二、归并排序 ( Merge Sort )总结一、快速排序 ( Quick Sort ) 1.思路 找出一个分界点,随机的调整区间…...

面试官问我:说说你对JMM内存模型的理解?为什么需要JMM?
点个关注,必回关 随着CPU和内存的发展速度差异的问题,导致CPU的速度远快于内存,所以现在的CPU加入了高速 缓存,高速缓存一般可以分为L1、L2、L3三级缓存。基于上面的例子我们知道了这导致了缓存一致 性的问题,所以加入…...
工程管理系统源码之提高工程项目管理软件的效率
高效的工程项目管理软件不仅能够提高效率还应可以帮你节省成本提升利润 在工程行业中,管理不畅以及不良的项目执行,往往会导致项目延期、成本上升、回款拖后,最终导致项目整体盈利下降。企企管理云业财一体化的项目管理系统,确保…...
SpringBoot集成xxl-job实现
SpringBoot集成xxl-job实现 一、xxl-job介绍 xxl-job是一个分布式任务调度平台,核心设计目标是开发迅速、学习简单、轻量级、易扩展。源码:下载地址编译环境:Maven3、Jdk1.8、MySQL5.7 二、调度中心 初始化调度数据库,执行指定…...

欧几里得度量和余弦度量的可取消生物识别方案
欧几里得度量和余弦度量的可取消生物识别方案 便捷的生物识别数据是一把双刃剑,在为生物识别认证系统的繁荣铺平道路的同时,也带来了个人隐私问题。为了缓解这种担忧,提出了各种生物特征模板保护方案来保护生物特征模板免于信息泄露。现有提案…...

K8S认证|CKS题库+答案| 11. AppArmor
目录 11. AppArmor 免费获取并激活 CKA_v1.31_模拟系统 题目 开始操作: 1)、切换集群 2)、切换节点 3)、切换到 apparmor 的目录 4)、执行 apparmor 策略模块 5)、修改 pod 文件 6)、…...
Golang 面试经典题:map 的 key 可以是什么类型?哪些不可以?
Golang 面试经典题:map 的 key 可以是什么类型?哪些不可以? 在 Golang 的面试中,map 类型的使用是一个常见的考点,其中对 key 类型的合法性 是一道常被提及的基础却很容易被忽视的问题。本文将带你深入理解 Golang 中…...
蓝桥杯 2024 15届国赛 A组 儿童节快乐
P10576 [蓝桥杯 2024 国 A] 儿童节快乐 题目描述 五彩斑斓的气球在蓝天下悠然飘荡,轻快的音乐在耳边持续回荡,小朋友们手牵着手一同畅快欢笑。在这样一片安乐祥和的氛围下,六一来了。 今天是六一儿童节,小蓝老师为了让大家在节…...
在Ubuntu中设置开机自动运行(sudo)指令的指南
在Ubuntu系统中,有时需要在系统启动时自动执行某些命令,特别是需要 sudo权限的指令。为了实现这一功能,可以使用多种方法,包括编写Systemd服务、配置 rc.local文件或使用 cron任务计划。本文将详细介绍这些方法,并提供…...

c#开发AI模型对话
AI模型 前面已经介绍了一般AI模型本地部署,直接调用现成的模型数据。这里主要讲述讲接口集成到我们自己的程序中使用方式。 微软提供了ML.NET来开发和使用AI模型,但是目前国内可能使用不多,至少实践例子很少看见。开发训练模型就不介绍了&am…...
【学习笔记】深入理解Java虚拟机学习笔记——第4章 虚拟机性能监控,故障处理工具
第2章 虚拟机性能监控,故障处理工具 4.1 概述 略 4.2 基础故障处理工具 4.2.1 jps:虚拟机进程状况工具 命令:jps [options] [hostid] 功能:本地虚拟机进程显示进程ID(与ps相同),可同时显示主类&#x…...
ip子接口配置及删除
配置永久生效的子接口,2个IP 都可以登录你这一台服务器。重启不失效。 永久的 [应用] vi /etc/sysconfig/network-scripts/ifcfg-eth0修改文件内内容 TYPE"Ethernet" BOOTPROTO"none" NAME"eth0" DEVICE"eth0" ONBOOT&q…...

USB Over IP专用硬件的5个特点
USB over IP技术通过将USB协议数据封装在标准TCP/IP网络数据包中,从根本上改变了USB连接。这允许客户端通过局域网或广域网远程访问和控制物理连接到服务器的USB设备(如专用硬件设备),从而消除了直接物理连接的需要。USB over IP的…...
Hive 存储格式深度解析:从 TextFile 到 ORC,如何选对数据存储方案?
在大数据处理领域,Hive 作为 Hadoop 生态中重要的数据仓库工具,其存储格式的选择直接影响数据存储成本、查询效率和计算资源消耗。面对 TextFile、SequenceFile、Parquet、RCFile、ORC 等多种存储格式,很多开发者常常陷入选择困境。本文将从底…...

推荐 github 项目:GeminiImageApp(图片生成方向,可以做一定的素材)
推荐 github 项目:GeminiImageApp(图片生成方向,可以做一定的素材) 这个项目能干嘛? 使用 gemini 2.0 的 api 和 google 其他的 api 来做衍生处理 简化和优化了文生图和图生图的行为(我的最主要) 并且有一些目标检测和切割(我用不到) 视频和 imagefx 因为没 a…...