CDA数据分析师一级经典错题知识点总结(5)
1、数值型缺失值用中位数补充,分类数据用众数补充。
2、偏态系数>1就是高度偏,0.5到1是中度。
3、分布和检验
在 t检验之前进行 F检验的目的是确保 t检验的方差齐性假设成立。如果 F检验结果显示方差不相等,则需要切换到调整后的 t 检验(Welch t检验),以获得更准确的分析结果。
分布类型 | 常用检验方法 | 适用场景 |
---|---|---|
正态分布 | 正态性检验 | 判断数据分布形式,作为后续分析前提 |
卡方分布 | 卡方检验、方差检验 | 分析分类数据的独立性或分布拟合优度 |
t分布 | t检验 | 小样本均值比较,数据需服从正态分布 |
F分布 | 方差分析(ANOVA)、回归方程的显著性检验 | 多组数据均值比较,数据需服从正态分布 |
均值:
t检验是样本均值检验,比较均值差异。
z检验用于大样本(样本量 > 30)或已知总体标准差的情况。例如,比较城市居民的平均收入是否达到全国平均水平。
方差:
F检验,比较两个样本的方差是否相等、是用于判断t检验的前提,所以F在t前。
方差分析检验,用于比较三个及以上组的均值是否相等。例如,不同城市对某商品满意度的差异。
Pearson相关性检验:
- 用于检验两个变量是否呈线性相关,适用于正态分布的数据。
Spearman秩相关性检验:
- 替代Pearson相关性检验,用于非正态分布数据或等级数据。
分布:
卡方分布检验:
用于离散型数据,检验实际分布与理论分布是否一致。例如,检验某调查数据与预期比例的吻合程度。
分类:
卡方检验(Chi-square test):
- 检验分类变量之间的独立性。例如,分析性别与购物偏好是否相关。
4、箱线图 从小到大排列
Q1代表1/4分位点,Q3代表3/4分位点,Q1<Q3。
中位数在Q1和Q3之间,Q3-Q1=1QR,其中Q1-1.5(1QR) 为下限
Q3+1.5(1QR)为上限。
5、销售一般用目标比和同环比。
6、库销比反应进销存的流转速度,进而反映资金利用率。
7、SPU和SKU
SPU:Standard Product Unit,标准产品单元,可以理解为一个产品型号,比如上面图片看到的iPhone 14 (A2884) 就是一个标准的产品单元,它属于生产制造过程的一个标准品,标准品在缺乏具体规格信息的时候是不能直接售卖的(除非这个产品系列只有一个规格)。
SKU:Stock Keeping Unit,最小库存单元,也就是对应仓库中的一件商品,这个商品的规格信息在入库的时候就已经确定了的,因此是可以直接售卖的。
SPU 和 SKU 的关系:SPU 是一个相对抽象的概念,而SKU 是具象化的 SPU,也就是在 SPU 基础上添加了一个可售卖完整的规格信息,从而能够让顾客明确知道拿到手的商品是什么样。以服装为例,服装的一个款式是一个 SPU,只有加上了尺码、颜色后才能成为一个 SKU。、
8、波士顿矩形,又称为 BCG矩阵(Boston Consulting Group Matrix)。
- 明星(Stars):
- 特点:高市场增长率 + 高市场份额。
- 策略:投资支持,继续扩大市场占有率,但需大量资金投入。
- 例子:快速增长的主流产品或市场占主导地位的创新业务。
- 金牛(Cash Cows):
- 特点:低市场增长率 + 高市场份额。
- 策略:维持现状,收割利润,支持其他业务发展。
- 例子:成熟市场中的核心盈利产品。
- 问题(Question Marks):
- 特点:高市场增长率 + 低市场份额。
- 策略:选择性投资,找到有潜力的业务转化为明星,否则放弃。
- 例子:新兴但竞争激烈的市场业务。
- 瘦狗(Dogs):
- 特点:低市场增长率 + 低市场份额。
- 策略:减少投资甚至退出,避免资源浪费。
- 例子:市场边缘产品或夕阳产业。
9、统计图表不能用维度字段作为横坐标。
10、BI报表在设计阶段是把业务转为维度和度量的过程。
11、峰度 = 0是正态分布。
12、总订单平均值,要计算非重复订单。
13、AARRR模型:获取、激活、留存、获益(提高客单价付费转化率Revenue)、传播
14、ARPU(Average Revenue Per User) 平均用户收入,总收入/活跃用户数量
、CRM(Customer Relationship Management) 客户关系管理,重点在于提升客户满意度与忠诚度,并最终实现收益增长。
、CVM(Customer Value Management) 客户价值管理,强调通过分析客户的生命周期价值(CLV Customer Lifetime Value )优化与客户的互动,主要关注客户的长期收益贡献。
15、DML语言
-- 修改字段名
ALTER TABLE table_name
RENAME COLUMN old_column_name TO new_column_name;
-- 添加字段
ALTER TABLE employees
ADD hire_date DATE;
--删除字段
ALTER TABLE table_name
DROP COLUMN column_name;
ALTER TABLE employees
DROP COLUMN hire_date;-- 修改表名
ALTER TABLE employees
RENAME TO staff;-- 添加主键
ALTER TABLE employees
ADD PRIMARY KEY (employee_id);
-- 删除主键
ALTER TABLE employees
DROP PRIMARY KEY;
-- 语句更改字段属性或位置时至少需要指定字段名+字段的数据类型
ALTER TABLE employees
MODIFY salary INT AFTER age;
16、线性相关的强度
r=协方差 / 标准差的乘积
- 非常强的相关性:
- r 的绝对值接近 1(即 r 在 0.8 到 1.0 或 -0.8 到 -1.0 之间)表示非常强的线性关系。
- 强相关性:
- r 的绝对值在 0.6 到 0.8 之间表示强的线性关系。
- 中等程度的相关性:
- r的绝对值在 0.3 到 0.6 之间表示中等程度的线性关系。
- 弱相关性:
- r的绝对值在 0.1 到 0.3 之间表示弱的线性关系。
- 非常弱的相关性或无相关性:
- r的绝对值小于 0.1 通常被认为是非常弱的相关性或没有线性相关。
17、浏览量PV是对店铺内所有页面的总浏览量,而访问数visit(session数)是用户到达店铺或者平台到离开的一次完整访问,跳失次数表示用户进入首页没有下一步操作就离开的次数。
UV 访客数 是独立访问数
跳失率= 跳失次数/访问数
平均访问深度= 浏览量/访问数
18、ARPU,用户平均收入,Average Revenue Per User = 总收入/总用户数。
19、CAC,用户获取成本,Customer Acquisition Cost 。
20、费用支付核算方式
- CPM Mille 千次曝光
- CPS Sales 实际销售
- CPC Click 点击收费
21、表格结构数据的函数组成部分:操作符、函数表达式、参数、返回值。
22、空值是空白值的简称。
23、漏斗模型需要关注体型、流速、体量。
24、数据驱动业务:以经验为主,经验比数据更加可信。
25、BI报表和业务分析报告的区别主要是:
- 侧重业务面的完整叙述
- 动态信息
- 以表格图表为主
- 基于多源数据
相关文章:
CDA数据分析师一级经典错题知识点总结(5)
1、数值型缺失值用中位数补充,分类数据用众数补充。 2、偏态系数>1就是高度偏,0.5到1是中度。 3、分布和检验 在 t检验之前进行 F检验的目的是确保 t检验的方差齐性假设成立。如果 F检验结果显示方差不相等,则需要切换到调整后的 t 检验…...
服务器、电脑和移动手机操作系统
一、服务器操作系统 1、Windows Server 开发商是微软公司。友好的用户界面、与微软生态系统的高度集成、提供了广泛的企业级功能(如Active Directory、DNS、DHCP服务等)。适合需要大量运行Microsoft应用和服务的企业环境,如SQL Server等。经…...

深入解析 Flink 与 Spark 的性能差异
💖 欢迎来到我的博客! 非常高兴能在这里与您相遇。在这里,您不仅能获得有趣的技术分享,还能感受到轻松愉快的氛围。无论您是编程新手,还是资深开发者,都能在这里找到属于您的知识宝藏,学习和成长…...

如何在 Linux、MacOS 以及 Windows 中打开控制面板
控制面板不仅仅是一系列图标和菜单的集合;它是通往优化个人计算体验的大门。通过它,用户可以轻松调整从外观到性能的各种参数,确保他们的电脑能够完美地适应自己的需求。无论是想要提升系统安全性、管理硬件设备,还是简单地改变桌…...
微信小程序中 隐藏scroll-view 滚动条 网页中隐藏滚动条
在微信小程序中隐藏scroll-view的滚动条可以通过以下几种方法实现: 方法一:使用CSS隐藏滚动条 在小程序的样式文件中(如app.wxss或页面的.wxss文件),添加以下CSS代码来隐藏滚动条: scroll-view ::-webkit…...

Java 实现 Elasticsearch 查询当前索引全部数据
Java 实现 Elasticsearch 查询当前索引全部数据 需求背景通常情况Java 实现查询 Elasticsearch 全部数据写在最后 需求背景 通常情况下,Elasticsearch 为了提高查询效率,对于不指定分页查询条数的查询语句,默认会返回10条数据。那么这就会有…...

android刷机
android ota和img包下载地址: https://developers.google.com/android/images?hlzh-cn android启动过程 线刷 格式:ota格式 模式:recovery 优点:方便、简单,刷机方法通用,不会破坏手机底层数据࿰…...

【25考研】西南交通大学计算机复试重点及经验分享!
一、复试内容 上机考试:考试题型为编程上机考试,使用 C 语言,考试时长包括 15 分钟模拟考试和 120 分钟正式考试,考试内容涵盖顺序结构、选择结构、循环结构、数组、指针、字符串处理、函数、递归、结构体、动态存储、链表等知识点…...
OpenCV相机标定与3D重建(49)将视差图(disparity map)重投影到三维空间中函数reprojectImageTo3D()的使用
操作系统:ubuntu22.04 OpenCV版本:OpenCV4.9 IDE:Visual Studio Code 编程语言:C11 算法描述 将视差图像重投影到3D空间。 cv::reprojectImageTo3D 是 OpenCV 库中的一个函数,用于将视差图(disparity map)…...

学习HTTP Range
HTTP Range 请求 一种通过指定文件字节范围加载部分数据的技术,广泛用于断点续传、流媒体播放、分布式文件系统的数据分片加载等场景。 请求格式-在请求头中使用 Range 字段指定所需的字节范围 Range: bytes0-1023// bytes0-1023:表示请求文件的第 0 …...

大语言模型训练的数据集从哪里来?
继续上篇文章的内容说说大语言模型预训练的数据集从哪里来以及为什么互联网上的数据已经被耗尽这个说法并不专业,再谈谈大语言模型预训练数据集的优化思路。 1. GPT2使用的数据集是WebText,该数据集大概40GB,由OpenAI创建,主要内…...
Webpack和Vite的区别
一、构建速度方面 webpack默认是将所有模块都统一打包成一个js文件,每次修改都会重写构建整个项目,自上而下串行执行,所以会随着项目规模的增大,导致其构建打包速度会越来越慢 vite只会对修改过的模块进行重构,构建速…...

【再谈设计模式】模板方法模式 - 算法骨架的构建者
一、引言 在软件工程、软件开发过程中,我们经常会遇到一些算法或者业务逻辑具有固定的流程步骤,但其中个别步骤的实现可能会因具体情况而有所不同的情况。模板方法设计模式(Template Method Design Pattern)就为解决这类问题提供了…...

Bytebase 3.1.1 - 可定制的快捷访问首页
🚀 新功能 可定制的快捷访问首页。 支持查询 Redis 集群中所有节点。 赋予项目角色时,过期时间可以定义精确到秒级的时间点。 🔔 重大变更 移除 Database 消息里的实例角色信息。调用 GetInstance 或 ListInstanceRoles 以获取实例角色信息…...

Java阶段四04
第4章-第4节 一、知识点 CSRF、token、JWT 二、目标 理解什么是CSRF攻击以及如何防范 理解什么是token 理解什么是JWT 理解session验证和JWT验证的区别 学会使用JWT 三、内容分析 重点 理解什么是CSRF攻击以及如何防范 理解什么是token 理解什么是JWT 理解session验…...
B2C API安全警示:爬虫之外,潜藏更大风险挑战
在数字化时代,B2C(Business-to-Consumer)电子商务模式已成为企业连接消费者、推动业务增长的重要桥梁。而B2C API(应用程序编程接口)作为企业与消费者之间数据交互的桥梁,其安全性更是至关重要。然而&#…...

OCR文字识别—基于PP-OCR模型实现ONNX C++推理部署
概述 PaddleOCR 是一款基于 PaddlePaddle 深度学习平台的开源 OCR 工具。PP-OCR是PaddleOCR自研的实用的超轻量OCR系统。它是一个两阶段的OCR系统,其中文本检测算法选用DB,文本识别算法选用CRNN,并在检测和识别模块之间添加文本方向分类器&a…...

如何播放视频文件
文章目录 1. 概念介绍2. 使用方法2.1 实现步骤2.2 具体细节3. 示例代码4. 内容总结我们在上一章回中介绍了"如何获取文件类型"相关的内容,本章回中将介绍如何播放视频.闲话休提,让我们一起Talk Flutter吧。 1. 概念介绍 播放视频是我们常用的功能,不过Flutter官方…...

MySQL -- 约束
1. 数据库约束 数据库约束时关系型数据库的一个重要功能,主要的作用是保证数据的有效性,也可以理解为数据的正确性(数据本身是否正确,关联关系是否正确) 人工检查数据的完整性工作量非常大,在数据库中定义一些约束,那么数据在写入数据库的时候,就会帮我们做一些校验.并且约束一…...

php 使用simplexml_load_string转换xml数据格式失败
本文介绍如何使用php函数解析xml数据为数组。 <?php$a <xml><ToUserName><![CDATA[ww8b77afac71336111]]></ToUserName><FromUserName><![CDATA[sys]]></FromUserName><CreateTime>1736328669</CreateTime><Ms…...

Chapter03-Authentication vulnerabilities
文章目录 1. 身份验证简介1.1 What is authentication1.2 difference between authentication and authorization1.3 身份验证机制失效的原因1.4 身份验证机制失效的影响 2. 基于登录功能的漏洞2.1 密码爆破2.2 用户名枚举2.3 有缺陷的暴力破解防护2.3.1 如果用户登录尝试失败次…...
生成xcframework
打包 XCFramework 的方法 XCFramework 是苹果推出的一种多平台二进制分发格式,可以包含多个架构和平台的代码。打包 XCFramework 通常用于分发库或框架。 使用 Xcode 命令行工具打包 通过 xcodebuild 命令可以打包 XCFramework。确保项目已经配置好需要支持的平台…...
【根据当天日期输出明天的日期(需对闰年做判定)。】2022-5-15
缘由根据当天日期输出明天的日期(需对闰年做判定)。日期类型结构体如下: struct data{ int year; int month; int day;};-编程语言-CSDN问答 struct mdata{ int year; int month; int day; }mdata; int 天数(int year, int month) {switch (month){case 1: case 3:…...

如何在看板中体现优先级变化
在看板中有效体现优先级变化的关键措施包括:采用颜色或标签标识优先级、设置任务排序规则、使用独立的优先级列或泳道、结合自动化规则同步优先级变化、建立定期的优先级审查流程。其中,设置任务排序规则尤其重要,因为它让看板视觉上直观地体…...

LeetCode - 394. 字符串解码
题目 394. 字符串解码 - 力扣(LeetCode) 思路 使用两个栈:一个存储重复次数,一个存储字符串 遍历输入字符串: 数字处理:遇到数字时,累积计算重复次数左括号处理:保存当前状态&a…...
1688商品列表API与其他数据源的对接思路
将1688商品列表API与其他数据源对接时,需结合业务场景设计数据流转链路,重点关注数据格式兼容性、接口调用频率控制及数据一致性维护。以下是具体对接思路及关键技术点: 一、核心对接场景与目标 商品数据同步 场景:将1688商品信息…...

成都鼎讯硬核科技!雷达目标与干扰模拟器,以卓越性能制胜电磁频谱战
在现代战争中,电磁频谱已成为继陆、海、空、天之后的 “第五维战场”,雷达作为电磁频谱领域的关键装备,其干扰与抗干扰能力的较量,直接影响着战争的胜负走向。由成都鼎讯科技匠心打造的雷达目标与干扰模拟器,凭借数字射…...
【HarmonyOS 5 开发速记】如何获取用户信息(头像/昵称/手机号)
1.获取 authorizationCode: 2.利用 authorizationCode 获取 accessToken:文档中心 3.获取手机:文档中心 4.获取昵称头像:文档中心 首先创建 request 若要获取手机号,scope必填 phone,permissions 必填 …...
MySQL账号权限管理指南:安全创建账户与精细授权技巧
在MySQL数据库管理中,合理创建用户账号并分配精确权限是保障数据安全的核心环节。直接使用root账号进行所有操作不仅危险且难以审计操作行为。今天我们来全面解析MySQL账号创建与权限分配的专业方法。 一、为何需要创建独立账号? 最小权限原则…...

听写流程自动化实践,轻量级教育辅助
随着智能教育工具的发展,越来越多的传统学习方式正在被数字化、自动化所优化。听写作为语文、英语等学科中重要的基础训练形式,也迎来了更高效的解决方案。 这是一款轻量但功能强大的听写辅助工具。它是基于本地词库与可选在线语音引擎构建,…...