当前位置: 首页 > news >正文

笔记(数据运营方向)

以下是一些在工作过程中的小笔记,写的比较杂乱,后续再进行分类~

1、掌握sql窗口函数
窗口函数又名开窗函数,属于分析函数的一种。用于解决复杂报表统计需求的功能强大的函数。窗口函数用于计算基于组的某种聚合值,它和聚合函数的不同之处是:对于每个组返回多行,而聚合函数对于每个组只返回一行。
开窗函数指定了分析函数工作的数据窗口大小,这个数据窗口大小可能会随着行的变化而变化。下面列举一些常用窗口函数:
获取数据排名的:ROW_NUMBER() RAND() DEBSE_RANK() PERCENT_RANK()
获取分组内的第一名或者最后一名等:FIRST_VALUE() LAST_VALUE() LEAD() LAG()
累计分布:vCUME_DIST() NTH_VALUE() NTILE()

2、统计概率
描述性统计(平均值,标准差,中位数)
概率(独立事件,相关事件,期望,包括贝叶斯)
概率分布(离散概率分布,连续概率分布)
统计推断(抽样,置信区间,假设检验)

3、介绍项目主要采用STAR原则去讲解,有过程,有结果。
STAR原则是四个四个英文单词的首字母组合,分别是Situation(情景)、Task(目标)、Action(行动)和Result(结果)。

4、AB测试与假设检验?
AB测试:为同一个目标,设计两种方案,将两种方案随机投放市场中,让组成成分相同(相似)用户去随机体验两种方案之一,根据观测结果,判断哪个方案效果更好,结果可以通过CTR点击率(CTR =(点击次数 / 展示次数)×100%)或者下单率来衡量。
假设检验:假设检验是先对总体参数提出一个假设值,然后利用样本信息判断这一假设是否成立,是传统统计学的重要内容,主要有卡方检验(看分类数据之间有没有关联)、t检验(比较平均值)、F检验(比较方差-离散程度)等,在AB测试中扮演显著性检验的角色。

5、TO C指标体系?
指标是量化衡量标准、衡量目标的单位或方法,例如对电商或内容数据分析来说,最常见的指标就是UV(独立访客数)和PV(页面浏览量),而针对APP来说,最常见的就是DAU(日活跃用户数),MAU(月活跃用户数)。
核心指标:休眠用户、潜在用户、活跃用户、流失用户、进入活跃用户、今日注册用户、今日访问用户、今日下单用户
流量指标:PV、UV
转化率&留存指标:总体转化率、百度转化率等,次日留存、三日留存、七日留存等
内容质量指标:播放量、刷新量、展现量、分发量、点击量、播放完成量、下载量
商品运营指标:商品分享类指标、商品复购类指标、商品收藏购买指标

6、如果次留下降了 5%该怎么分析?
首先采用“两层模型”分析:对用户进行细分,包括新老、渠道、活动、画像等多个维度,然后分别计算每个维度下不同用户的次日留存率。通过这种方法定位到导致留存率下降的用户群体是谁
对于目标群体次日留存下降问题,具体情况具体分析。具体分析可以采用“内部-外部”因素考虑,内部因素分为获客(渠道质量低、活动获取非目标用户)、满足需求(新功能改动引发某类用户不满)、提活手段(签到等提活手段没打成目标、产品自然使用周期低导致上次获得的大量用户短期内不需要再使用等);外部因素采用PEST分析,政治(政策影响)、经济(短期内主要是竞争环境,如对竞争对手的活动)、社会(舆论压力、用户生活方式变化、消费心理变化、价值观变化等偏好变化)、技术(创新解决方案的出现、分销渠道变化等)

7、AARRR模型是什么?
AARRR分别代表了五个单词,又分别对应了产品生命周期中的五个阶段:
获取(Acquisition):用户如何发现(并来到)你的产品?
激活(Activation):用户的第一次使用体验如何?
留存(Retention):用户是否还会回到产品(重复使用)?
收入(Revenue):产品怎样(通过用户)赚钱?
传播(Refer):用户是否愿意告诉其他用户?

8、CPA、CPS、CPM、CPT、CPC 是什么?
CPA(Cost Per Action) 每行动成本。CPA是一种按广告投放实际效果计价方式的广告,即按回应的有效问卷或注册来计费,而不限广告投放量。电子邮件营销(EDM)现在有很多都是CPA的方式在进行。
CPS(Cost Per Sales):以实际销售产品数量来换算广告刊登金额。CPS是一种以实际销售产品数量来计算广告费用的广告,这种广告更多的适合购物类、导购类、网址导航类的网站,需要精准的流量才能带来转化。
CPM(Cost Per Mille) 每千人成本。CPM是一种展示付费广告,只要展示了广告主的广告内容,广告主就为此付费。
CPT(Cost Per Time) 每时间段成本。CPT是一种以时间来计费的广告,国内很多的网站都是按照“一个星期多少钱”这种固定收费模式来收费。
CPC(Cost Per Click) 每点击成本。CPC是一种点击付费广告,根据广告被点击的次数收费。如关键词广告一般采用这种定价模式,比较典型的有Google广告联盟的AdSense for Content和百度联盟的百度竞价广告。

9、数据缺失值处理办法
删除样本或删除字段
用中位数、平均值、众数等填充
插补:同类均值插补、多重插补、极大似然估计
用其它字段构建模型,预测该字段的值,从而填充缺失值(注意:如果该字段也是用于预测模型中作为特征,那么用其它字段建模填充缺失值的方式,并没有给最终的预测模型引入新信息)
onehot,将缺失值也认为一种取值
压缩感知及矩阵补全

10、用Python怎么进行数据分析?
数据获取:如果采用现有数据集,则直接用内置函数或第三方库读取;如果没有现成数据,运用requests库和bs4库等进行数据采集。
数据清洗:利用numpy、pandas等库进行缺失值、异常值处理。
数据探索:利用pandas、matplotlib等库进行数据描述统计分析及可视化。
特征工程:构建指标体系,采用sklearn等库中聚类降维与特征筛选方法进行特征工程构建。
数据建模:利用传统统计学模型(statsmodels库)或者机器学习模型(sklearn、keras、tensorflow、pytorch等库)进行建模并评估最终得出结果。

11、数仓中ODS、DW、DM概念及区别?
ODS(Operational Data Store) 主要用于存储从各个业务系统,是简单清洗过的原始数据。ODS的数据最终流入DW。及时性、与业务数据相近、数据质量低。
DW (Data Warehouse)数据仓库,是一个面向主题的、集成的、相对稳定的、反映历史变化的数据集合。从 ODS 以及其他外部数据源中获取数据,经过了 ETL(抽取、转换、加载)过程,使得数据能够以一种统一的、适合分析的方式存储。。并且,数据仓库的数据会保留历史记录,用于支持数据分析和决策。面向主题、数据集成高、相对稳定(更新与历史数据)
DM(Data Mart) 数据集市,DW的子集,为了满足特定业务的数据分析需求而构建的小型数据仓库,针对性强,数据范围窄,便于分析与访问。

12、数仓中维度建模含义?有哪几种模式?
维度建模(dimensional modeling)是专门用于分析型数据库、数据仓库、数据集市建模的方法。 它本身属于一种关系建模方法,包含了基本的两个概念:维度表(dimension, 表示对分析主题所属类型的描述。)和事实表(fact table,表示对分析主题的度量)。
维度建模包含三种模式:
星形模式:由一个事实表和多个维度表组成,适用于相对简单、业务规则明确的数据分析场景(一张表多个维度分析)
雪花模式:雪花模式是对星型模式的扩展和细化。在雪花模式中,维度表可以进一步分解为多个子维度表,形成一种类似雪花的形状。适用于对数据规范性要求较高、数据冗余度要求较低,并且对查询性能要求不是特别高的场景(一张表多个维度内拆分维度分析)
星座模式:包含多个事实表,这些事实表共享一些维度表(多个表共用维度分析)

13、维度表和事实表
维度表:主要用于描述事实表中的数据,包含了用于对事实进行分类、筛选、汇总的各种属性信息
事实表:存储业务过程中的度量数据,也就是业务的关键绩效指标(KPI)相关的数据,是数据分析的核心。
二者关系:事实表与维度表通过外键-主键进行关联,这样就可以从事实表中的数据追溯到相应的维度信息,从而实现从多个维度对事实进行分析。

14、维度和度量
维度:是观察和分析数据的角度或属性。它用于对数据进行分类、分组和筛选,帮助用户从不同的层次和范围理解数据。
度量:是可以进行量化和计算的业务数据指标,用于衡量业务活动的程度或结果。(值)

15、埋点:
埋点是一种数据采集的方法,它是在应用程序(包括网站、移动 APP 等)中特定的位置添加代码,用来记录用户的行为以及应用程序的状态变化等相关信息。就像是在程序中 “埋下” 了一个个数据收集的 “点”,当用户的操作或者程序运行到这些点的时候,就会触发数据记录的动作。

16、数据模型概念:
(1)定义:
数据模型是一种对数据特征的抽象表示,它通过定义数据的结构、关系以及约束条件,来描述数据如何被组织、存储和操作。简单来说,数据模型就像是一个蓝图,规定了数据的形状、各个部分之间的关联方式以及一些必须遵守的规则。
例如,在一个图书馆管理系统中,书籍的数据模型可能包括书籍的编号、书名、作者、出版日期、类别等信息。这些信息的组合方式和它们之间的相互关系(如一本书只有一个编号,一个作者可以有多本书等)就构成了书籍数据的模型。
(2) 分类:
概念数据模型:(定义字段)从业务角度描述数据的需求和概念(如用户、商品、订单等实体,且之间或存在购买等相互作用的关系)
逻辑数据模型:(设计表结构)定义了数据的结构和关系(如详细定义 用户ID-主键、用户名、密码、订单ID-主键等属性,且定义订单与用户之间通过用户ID进行关联-外键关系)
物理数据模型:(数据库信息)考虑了具体的数据库管理系统(DBMS)的特性,如数据类型、存储方式等(如定义用户Id为INT、用户名为VARCHAR等、数据文件存储位置等)
(3)数据模型设计流程:
需求分析阶段:业务理解(是什么)、数据需求梳理(目的)、确认数据范围和边界(范围)
概念模型设计阶段:识别实体(有什么)、定义实体属性、确认实体之间关系(关系)
逻辑模型设计阶段:数据结构细化(将实体转换为逻辑上的表结构)、定义完整性约束、设计数据操作逻辑(考虑如何对数据进行增、删、改、查操作)
物理模型设计阶段:选择数据库管理系统(DBMS)、确定数据存储结构、考虑性能优化、进行容量规划和存储分配
模型验证和优化阶段:数据模型验证(检查能够满足业务需求,包括存储/查询/更新等操作是否符合预期/准确)、性能测试和优化、反馈和调整

17、运营中产生的数据包括全局数据(all)和用户个体数据(针对单人的信息)

18、聚合窗口函数和聚合函数的区别
(1)聚合函数
对一组值计算,返回一个单一值,如 SUM、AVG 等。
常和 GROUP BY 一起用,结果集行数会因分组而减少或只有一个值(无分组时)。
计算是基于整个数据集或分组后的组。
(2)聚合窗口函数
也进行聚合操作,但为每一行返回一个聚合值。
结果集行数和原始数据集相同。
通过定义窗口(分区、排序、范围等)在滑动窗口内计算。

19、常见的连接方式有哪些?
内连接(INNER JOIN):返回两表中满足连接条件的行,用于获取相互关联的数据。
左连接(LEFT JOIN):返回左表所有行和右表中匹配的行,用于完整保留左表记录。
右连接(RIGHT JOIN):返回右表所有行和左表中匹配的行,用于完整保留右表记录。
全连接(FULL JOIN):返回两表所有行,用于合并全部信息。
交叉连接(CROSS JOIN):返回两表所有行的组合,用于生成所有可能的组合情况。

20、通配符有哪些?
%(百分号):在 SQL 的LIKE操作符中使用,可匹配零个或多个字符。
_(下划线):在LIKE操作符中使用,只能匹配单个字符。
[](方括号):在LIKE操作符中使用,用于指定一个字符集合,匹配集合中的任意一个字符。

相关文章:

笔记(数据运营方向)

以下是一些在工作过程中的小笔记,写的比较杂乱,后续再进行分类~ 1、掌握sql窗口函数 窗口函数又名开窗函数,属于分析函数的一种。用于解决复杂报表统计需求的功能强大的函数。窗口函数用于计算基于组的某种聚合值,它和聚合函数的…...

qt vs ios开发应用环境搭建和上架商店的记录

qt 下载链接如下 https://download.qt.io/new_archive/qt/5.14/5.14.2/qt-opensource-mac-x64-5.14.2.dmg 安装选项全勾选就行,这里特别说明下qt5.14.2/qml qt5.14.2对qml支持还算成熟,但很多特性还得qt6才行,这里用qt5.14.2主要是考虑到服…...

[cg] glDrawBuffers MRT的应用

glDrawBuffers 是 OpenGL 中的一个函数,用于指定渲染结果输出到哪些颜色缓冲区。它通常在多渲染目标(MRT, Multiple Render Targets)中使用,允许一个渲染操作同时将结果输出到多个颜色缓冲区,而不是默认情况下的单个颜…...

IO模型与NIO基础二

抽象基类之二 FilterInputStream FilterInputStream 的作用是用来“封装其它的输入流,并为它们提供额外的功能”。 它的常用的子类有BufferedInputStream和DataInputStream。 (1) BufferedInputStream的作用就是为“输入流提供缓冲功能,以及mark()和res…...

【设计模式】 单例模式(单例模式哪几种实现,如何保证线程安全,反射破坏单例模式)

单例模式 作用:单例模式的核心是保证一个类只有一个实例,并且提供一个访问实例的全局访问点。 实现方式优缺点饿汉式线程安全,调用效率高 ,但是不能延迟加载懒汉式线程安全,调用效率不高,能延迟加载双重检…...

T-SQL语言的数据库交互

T-SQL语言的数据库交互 引言 随着信息技术的不断发展,数据库在各个行业中扮演着越来越重要的角色。数据库的有效管理和优化对于企业的数据安全、效率提升和决策支持至关重要。T-SQL(Transact-SQL)作为微软SQL Server的重要扩展语言&#xf…...

【Linux系统】Ext系列磁盘文件系统二:引入文件系统(续篇)

inode 和 block 的映射 该博文中有详细解释:【Linux系统】inode 和 block 的映射原理 目录与文件名 这里有几个问题: 问题一: 我们访问文件,都是用的文件名,没用过 inode 号啊? 之前总是说可以通过一个…...

慧集通(DataLinkX)iPaaS集成平台-业务建模之域

通过左侧导航菜单〖业务建模〗→〖域〗,进入该界面;在该界面可以查看到系统中已存在的域列表。 新建域 在慧集通平台中进入【业务建模】的【域】页面,点击【新建】按钮进入新建页面;输入编码,名称、模块以及对应数据类…...

【机器学习实战】kaggle 欺诈检测---使用生成对抗网络(GAN)解决欺诈数据中正负样本极度不平衡问题

【机器学习实战】kaggle 欺诈检测---如何解决欺诈数据中正负样本极度不平衡问题https://blog.csdn.net/2302_79308082/article/details/145177242 本篇文章是基于上次文章中提到的对抗生成网络,通过对抗生成网络生成少数类样本,平衡欺诈数据中正类样本极…...

android wifi framework与wpa_supplicant的交互

android frmework直接与wpa_supplicant进行交互,使用aidl或者hidl 二、事件 framework注册事件的地方: packages/modules/Wifi/service/java/com/android/server/wifi/SupplicantStaIfaceCallbackImpl.java class SupplicantStaIfaceCallbackImpl exte…...

初学stm32 --- flash模仿eeprom

目录 STM32内部FLASH简介 内部FLASH构成(F1) FLASH读写过程(F1) 闪存的读取 闪存的写入 内部FLASH构成(F4 / F7 / H7) FLASH读写过程(F4 / F7 / H7) 闪存的读取 闪存的写入 …...

使用C语言实现栈的插入、删除和排序操作

栈是一种后进先出(LIFO, Last In First Out)的数据结构,这意味着最后插入的元素最先被删除。在C语言中,我们可以通过数组或链表来实现栈。本文将使用数组来实现一个简单的栈,并提供插入(push)、删除(pop)以及排序(这里采用一种简单的排序方法,例如冒泡排序)的操作示…...

C语言程序环境和预处理详解

本章重点: 程序的翻译环境 程序的执行环境 详解:C语言程序的编译链接 预定义符号介绍 预处理指令 #define 宏和函数的对比 预处理操作符#和##的介绍 命令定义 预处理指令 #include 预处理指令 #undef 条件编译 程序的翻译环境和执行环…...

基于机器学习随机森林算法的个人职业预测研究

1.背景调研 随着信息技术的飞速发展,特别是大数据和云计算技术的广泛应用,各行各业都积累了大量的数据。这些数据中蕴含着丰富的信息和模式,为利用机器学习进行职业预测提供了可能。机器学习算法的不断进步,如深度学习、强化学习等…...

三种文本相似计算方法:规则、向量与大模型裁判

文本相似计算 项目背景 目前有众多工作需要评估字符串之间的相似(相关)程度:  比如,RAG 智能问答系统文本召回阶段需要计算用户文本与文本库内文本的相似分数,返回前TopK个候选文本。  在评估大模型生成的文本阶段,也需要评估…...

Python语言的计算机基础

Python语言的计算机基础 绪论 在当今信息技术飞速发展的时代,编程已经成为了一种必备技能。Python凭借其简洁、易读和强大的功能,逐渐成为初学者学习编程的首选语言。本文将以Python语言为基础,探讨计算机科学的基本概念,并帮助…...

Dify应用-工作流

目录 DIFY 工作流参考 DIFY 工作流 2025-1-15 老规矩感谢参考文章的作者,避免走弯路。 2025-1-15 方便容易上手 在dify的一个桌面上,添加多个节点来完成一个任务。 每个工作流必须有一个开始和结束节点。 节点之间用线连接即可。 每个节点可以有输入和输出 输出类型有,字符串,…...

02.02、返回倒数第 k 个节点

02.02、[简单] 返回倒数第 k 个节点 1、题目描述 实现一种算法,找出单向链表中倒数第 k 个节点。返回该节点的值。 2、题解思路 本题的关键在于使用双指针法,通过两个指针(fast 和 slow),让 fast 指针比 slow 指针…...

Linux手写FrameBuffer任意引脚驱动spi屏幕

一、硬件设备 开发板:香橙派 5Plus,cpu:RK3588,带有 40pin 外接引脚。 屏幕:SPI 协议 0.96 寸 OLED。 二、需求 主要是想给板子增加一个可视化的监视器,并且主页面可调。 平时跑个模型或者服务,…...

怎么修复损坏的U盘?而且不用格式化的方式!

当你插入U盘时,若电脑弹出“需要格式化才能使用”提示,且无法打开或读取其中的数据,说明U盘极有可能已经损坏。除此之外,若电脑在连接U盘后显示以下信息,也可能意味着U盘出现问题,需要修复损坏的U盘&#x…...

地震勘探——干扰波识别、井中地震时距曲线特点

目录 干扰波识别反射波地震勘探的干扰波 井中地震时距曲线特点 干扰波识别 有效波:可以用来解决所提出的地质任务的波;干扰波:所有妨碍辨认、追踪有效波的其他波。 地震勘探中,有效波和干扰波是相对的。例如,在反射波…...

《从零掌握MIPI CSI-2: 协议精解与FPGA摄像头开发实战》-- CSI-2 协议详细解析 (一)

CSI-2 协议详细解析 (一) 1. CSI-2层定义(CSI-2 Layer Definitions) 分层结构 :CSI-2协议分为6层: 物理层(PHY Layer) : 定义电气特性、时钟机制和传输介质(导线&#…...

JVM垃圾回收机制全解析

Java虚拟机(JVM)中的垃圾收集器(Garbage Collector,简称GC)是用于自动管理内存的机制。它负责识别和清除不再被程序使用的对象,从而释放内存空间,避免内存泄漏和内存溢出等问题。垃圾收集器在Ja…...

家政维修平台实战20:权限设计

目录 1 获取工人信息2 搭建工人入口3 权限判断总结 目前我们已经搭建好了基础的用户体系,主要是分成几个表,用户表我们是记录用户的基础信息,包括手机、昵称、头像。而工人和员工各有各的表。那么就有一个问题,不同的角色&#xf…...

vue3 定时器-定义全局方法 vue+ts

1.创建ts文件 路径&#xff1a;src/utils/timer.ts 完整代码&#xff1a; import { onUnmounted } from vuetype TimerCallback (...args: any[]) > voidexport function useGlobalTimer() {const timers: Map<number, NodeJS.Timeout> new Map()// 创建定时器con…...

NLP学习路线图(二十三):长短期记忆网络(LSTM)

在自然语言处理(NLP)领域,我们时刻面临着处理序列数据的核心挑战。无论是理解句子的结构、分析文本的情感,还是实现语言的翻译,都需要模型能够捕捉词语之间依时序产生的复杂依赖关系。传统的神经网络结构在处理这种序列依赖时显得力不从心,而循环神经网络(RNN) 曾被视为…...

CRMEB 框架中 PHP 上传扩展开发:涵盖本地上传及阿里云 OSS、腾讯云 COS、七牛云

目前已有本地上传、阿里云OSS上传、腾讯云COS上传、七牛云上传扩展 扩展入口文件 文件目录 crmeb\services\upload\Upload.php namespace crmeb\services\upload;use crmeb\basic\BaseManager; use think\facade\Config;/*** Class Upload* package crmeb\services\upload* …...

汇编常见指令

汇编常见指令 一、数据传送指令 指令功能示例说明MOV数据传送MOV EAX, 10将立即数 10 送入 EAXMOV [EBX], EAX将 EAX 值存入 EBX 指向的内存LEA加载有效地址LEA EAX, [EBX4]将 EBX4 的地址存入 EAX&#xff08;不访问内存&#xff09;XCHG交换数据XCHG EAX, EBX交换 EAX 和 EB…...

Java多线程实现之Thread类深度解析

Java多线程实现之Thread类深度解析 一、多线程基础概念1.1 什么是线程1.2 多线程的优势1.3 Java多线程模型 二、Thread类的基本结构与构造函数2.1 Thread类的继承关系2.2 构造函数 三、创建和启动线程3.1 继承Thread类创建线程3.2 实现Runnable接口创建线程 四、Thread类的核心…...

安卓基础(aar)

重新设置java21的环境&#xff0c;临时设置 $env:JAVA_HOME "D:\Android Studio\jbr" 查看当前环境变量 JAVA_HOME 的值 echo $env:JAVA_HOME 构建ARR文件 ./gradlew :private-lib:assembleRelease 目录是这样的&#xff1a; MyApp/ ├── app/ …...