数据科学、数据分析、人工智能必备知识汇总-----常用数据分析方法-----持续更新
| 数据科学、数据分析、人工智能必备知识汇总-----主目录-----持续更新(进不去说明我没写完):https://blog.csdn.net/grd_java/article/details/140174015 |
|---|
文章目录
- 一、对比分析法
- 1. 按时间和地区
- 2. 同比和环比
- 二、分组分析法
- 三、结构分析法
- 四、交叉分析法
- 五、矩阵分析法
- 六、杜邦分析法
- 七、漏斗图分析法
一、对比分析法
| 对比分析法 |
|---|
- 将两个或两个以上的指标进行对比分析,通过对比分析可以直观地看到事物的变化或差距
- 对比分析可以基于时间进行对比,也可以基于分类(地区、部门、类别等)进行对比
- 例如,利用对比分析法分析某公司历年销售额的变化,基于时间的对比通常用折线图
- 例如,通过对比分析法分析不同地区的销售额,基于分类的对比通常采用柱形图或条形图
1. 按时间和地区
最简单最没有技术含量的对比方法,但是却简单好用
假设我们有如下数据
| 按时间 |
|---|
- 此时我们只需要建立数据透视图,将订单日期拖入行,销售额拖入值
- 插入空白折线图(不选择任何数据,直接插入折线图)
- 选中图表,在图表设计选项卡选中“选择数据”按钮,然后在弹出的窗口中点击添加(图列项系列)
- 然后在系列值中选择销售额数据区域
- 然后在水平(分类)轴标签选择“编辑”,然后选择年份数据即可
| 按地区,操作方法和上面同理,只不过分类轴从年份变为地区 |
|---|
2. 同比和环比
基于时间的对比有两个常用指标:同比和环比
- 同比:分析指标与同期进行比较,一般用于两年相同月份的比较上
- 环比:分析指标与相邻周期(上个月)进行比较,一般用于相邻月份的比较上
| 同比 |
|---|
- 我们现在有4年的数据,现在我们想要实现后一年和前一年的对比,例如下图中,2014是第一年,没有2013年的数据是不需要考虑年度同比的,而从2015年开始,需要和前一年进行对比
- 数据透视表中,我们在值窗口额外增加一列销售额,这个销售额,我们需要修改它的值字段设置。名称改为同比增长,值显示方式设置为差异,基本字段设置为年,基本项设置为上一个。也就是以年为单位,和去年进行差异比较
- 上一步完成了同步增长值,现在我们可以额外求出同比增长率,操作方法和上面一样,只需将值显示方式改为差异百分比即可
| 环比 |
|---|
- 同比是不同时段的相同字段进行比较,而环比是相邻两个时段的相同字段进行比较,比如2014年的2月和1月进行比较
- 操作方法还是一样的,额外拖入一个销售额字段到值窗口,然后进行值字段设置,名称改为环比增长,值显示方式还是选择差异,然后基本字段要选择订单日期,因为我们要按月进行比较,然后基本项选择上一个。表示每个月和上个月进行比较
- 环比增长率也是一样的操作方式,将值显示方式改为差异百分比即可
二、分组分析法
| 分组分析法 |
|---|
主要用于查看数据的分布,即绘制直方图。例如,某公司想了解客户购买数量的情况,可以绘制客户购买数量的直方图
- 上图中可以看出,大多数客户的购买数量在6件以下
- 有981人只买了1件,1174人购买数量大于6件,但是不超过11件
- 而7766人选择了2到6件,只有极少数客户购买数量大于11件
| 需要掌握的公式 |
|---|
FREQUENCY(data_array,bins_array):以一列垂直数组返回一组数据的频率分布
=frequency(data_array,bins_array)
# data_array表示要分组统计的列
# bins_array分组依据,是我们人为创造的分组组距
| 构建序列 |
|---|
- 数据如下,每个订单有数量,表示这个订单一次卖出几个
- 我们分别求出数量字段中的最大值,最小值。然后人为规定组距为5,表示每个分组的大小为5
- 然后我们从1开始,后面每组都由前一个组值+组距构成。也就是说第一组1开始,第二组=第一组的1+组距5 = 6.第三组=第二组的6+组距5 = 11.代表的区间就是(0,1],(1,6],(6,11]…
- 通过上面介绍的FREQUENCY()函数进行分组统计,也就是将不同区间的数值统计出来
- 其中,第一个参数是我们要分组统计的列,也就是订单表中,每个订单购买的产品数量那一列
- 第二个参数就是我们的分组依据,也就是通过组距生成的1,6,11,16
| 生成直方图 |
|---|
- 创建空白二维柱形图,然后添加两个图例项,都是频数(通过Frequency函数生成的),而分类选择区间
- 更改图表类型,选择组合图,将系列2设置为折线图
三、结构分析法
- 结构分析法主要用于分析各部分占总体的比例
- 例如分析不同产品类别所占的比例,可以通过饼图来表示
- 结构分析法也可以添加时间维度,例如对比不同年份的不同产品类别的销售额
- 一般使用堆积柱形图表示
| 分析部分与总体的关系 |
|---|
- 首先将产品类别放入行窗口,将销售额拖两个放入值窗口,第二个销售额字段进行值字段设置,设置值显示方式为列汇总的百分比
- 然后为其生成饼图(这里用的是三维饼图),系列选择百分比销售额占比,分类轴选择产品分类
| 对比不同时间维度的结构分析 |
|---|
- 首先透视表的行是年份,列是商品类别,值是销售额
- 然后添加空白堆积图,先在图表数据区域进行选择,将类别和数据都选中,但是不要选择总计
- 然后系列选择类别,水平分类选择年份即可
四、交叉分析法
- 主要用于分析两个变量之间的关系,通过交叉表呈现,二维交叉表也叫列联表
- 例如分析不同地区的各产品类别的销售额,绘制出交叉表,通过雷达图进行分析
五、矩阵分析法
- 又称波士顿分析法,以事物两个属性为坐标轴绘制散点图
- 例如分析不同地区的销售额与销售数量
| 波士顿矩阵,以市场增长率和市场占有率作为坐标轴,将企业产品分为四类(问题产品,明星产品,瘦狗产品,现金牛产品) |
|---|
- 明星产品:需要加大投资,继续增长
- 现金牛产品:成熟,保持即可,最大程度榨取(挤奶)
- 瘦狗产品:剥离或撤销,需要放弃
- 问题产品:分析问题,增加市场占有率或放弃
- 说白了就是将一个产品的市场增长率和市场占有率输入散点图中,如果在第一象限就是明星产品,第二象限就是问题产品,依此类推
| 操作步骤 |
|---|
- 插入空白散点图,选择数据,图例项系列的x选择销售额,y轴选择数量
- 删掉图表中网格线后,选中横坐标,设置坐标轴格式,我们想要实现销售额中心点是均值,大于均值去右边,小于均值去左边,那么我们就设置其横坐标轴交叉点为坐标轴值,设置为均值即可
- 同理,纵坐标轴也让数量的均值作为原点值
- 将两个坐标轴的标签设置为无
- 我们要让每个散点显示自己所在地区,因此添加数据标签后设置数据标签格式,让标签只显示单元格中的值,区域就选择地区即可
- 添加坐标轴标题
六、杜邦分析法
- 由美国杜邦公司创造并最先采用的综合分析法,主要利用企业主要财务指标分析企业财务状况
- 杜邦分析中的核心概念:净资产回报率,return on equity,ROE,又称净资产收益率
- 例如:某企业初始资金100万RMB,想要代理某种产品进行销售,100万就是总权益资产,此时,总资产等于总权益资产,为100万
- 假设产品的进货单价为1万,100万能够进货100个,一个卖1万2,卖一批货的销售收入是120万,利润为120-100=20万
- 假设一年卖一次,也就是100个,此时,ROE=净利润/总权益资产=20/100=20%,因此ROE=净资产利润率
- 上面例子中的企业提高ROE的方法
- 涨价:售价提高到1万5,卖一批货100个利润就是50万,ROE提升至50%
- 借钱多进货:银行贷款150万,总资产为250万,进货250个,一年利润就是250×0.2=50万,ROE提升至50%,这种方法叫
加杠杆,此时总权益资产仍是100万,借来的150万叫负债
- 杠杆比率:总资产/总权益资产,这里,总资产为250万,总权益资产为100万,杠杆比率为250/100=2.5,杠杆比率也叫
权益乘数- ROE = 净资产利润率 × 权益乘数
- ps:没有负债的情况下,权益乘数为1,也就是ROE=净资产利润率×1
- 多卖几批货:一年卖2.5次(250个),则一年利润50万,ROE提升至50%,此法叫作提升
资产周转率,如果之前的资产周转率记为1,现在的资产周转率就变为2.5,ROE=净资产利润率×资产周转率
- 一年买一次货的情况,资产周转率就是1
- 因此有以下公式,ROE = 净资产利润率 × 权益乘数 × 资产周转率
七、漏斗图分析法
- 通过漏斗图分析业务问题,适合业务流程规范、周期长、多环节的业务问题
- 例如,通过漏斗图分析某电商网站的流量数据
| 操作步骤 |
|---|
- 要想漏斗图好看,就需要辅助列,首先将原数据放在中间的展示列,可以发现F2单元格的值是所有值中最大的,记为MAX,我们要围绕它做辅助列。而两边就是我们要放的辅助值,这个辅助值为(MAX + 1000 - 当前值)/2,其中当前值就是每个展示列的值,我们要为每个当前值两边放上辅助值
- 因为自带漏斗图不太方便,因此我们选用堆积条形图来做,数据区域选择我们刚才创建的辅助数据
- 选择两边的辅助列堆积条,让其设置为无填充,这样剩下的区域正好是漏斗图的区域
- 选中纵坐标轴,设置其坐标轴选项为逆序类别
- 添加数据标签并将两边辅助列数据删除
- 选中数据序列,将其间隙宽度设置为0
- 可操作性更强,标签可以拖出,而直接生成漏斗图是做不到这么灵活的
相关文章:
数据科学、数据分析、人工智能必备知识汇总-----常用数据分析方法-----持续更新
数据科学、数据分析、人工智能必备知识汇总-----主目录-----持续更新(进不去说明我没写完):https://blog.csdn.net/grd_java/article/details/140174015 文章目录 一、对比分析法1. 按时间和地区2. 同比和环比 二、分组分析法三、结构分析法四、交叉分析法五、矩阵分…...
学习vue Router 一 起步,编程式导航,历史记录,路由传参
目录 起步,安装 1. 安装 2. 使用 命名路由 编程式导航 1. 字符串模式 2. 对象模式 3. 命名路由模式 历史记录 replace的使用 横跨历史 路由传参 1. query路由传参 2. 动态路由传参 3. 二者的区别 起步,安装 router 路由 因为vue是单页应用…...
Qt/C++最新地图组件发布/历时半年重构/同时支持各种地图内核/包括百度高德腾讯天地图
一、前言说明 最近花了半年时间,专门重构了整个地图组件,之前写的比较粗糙,有点为了完成功能而做的,没有考虑太多拓展性和易用性。这套地图自检这几年大量的实际项目和用户使用下来,反馈了不少很好的建议和意见&#…...
Laravel + Thinkphp 生成二维码
安装依赖 composer require endroid/qr-code 编写ThinkPhP代码 public function index() {// 创建二维码内容$qrCode new QrCode(Hello World);// 设置二维码的配置$qrCode->setSize(300);$qrCode->setMargin(10);// 获取二维码图像$writer new PngWriter();$result…...
2408C++,C++20的无侵入式反射
原文 C17基于结构绑定的编译期反射 事实上不需要宏的编译期反射在C17中已用得很多了,比如struct_pack的编译期反射就不需要宏,因为C17结构绑定可直接得到一个聚集类的成员的引用. struct person {int id;std::string name;int age; }; int main() {person p{1, "tom&qu…...
抽象工厂模式(Abstract factory pattern)- python实现
抽象工厂模式的通俗示例 想象一下,你正在经营一家家具店,你需要从不同的供应商那里采购不同的家具系列。有的供应商提供的是现代风格家具,包括现代沙发、现代椅子和现代桌子;而有的供应商提供的是古典风格家具,包括古…...
adb Connection reset by peer的解决方法
本文同步发于:https://www.cnblogs.com/yeshen-org/p/18350232 最近在编译一个老项目,项目中依赖了很多第三方库,用gradle编译要20-30分钟,而且内存开销很大。 公司配的15G内存的电脑,一次编译能用到14G。 编译的时候&…...
111111111
1111111111111111111...
搜维尔科技:Varjo XR-4使用UE5 打造最具沉浸感的混合现实环境
Varjo XR-4使用UE5打造最具沉浸感的混合现实环境 搜维尔科技:Varjo XR-4使用UE5 打造最具沉浸感的混合现实环境...
从分散到集中:TSINGSEE青犀EasyCVR视频汇聚网关在视频整体监控解决方案中的整合作用
边缘计算视频汇聚网关是基于开放式、大融合、全兼容、标准化的设计架构理念,依据《安全防范视频监控联网系统信息传输、交换、控制技术要求》(GB/T28181-2011)标准开发,集流媒体转发、视频编码、视频管理、标准通信协议、网络穿透…...
React学习-jsx语法
jsx语法,浏览器不认识,需要经过babel编译 https://babeljs.io/ 面试题:jsx的作用? 普通回答:可以在js中返回dom,经过babel编译成js认识的代码import { jsx as _jsx, jsxs as _jsxs } from "react/j…...
uniapp多图上传uni.chooseImage上传照片uni.uploadFile
uniapp多图上传uni.chooseImage上传照片uni.uploadFile 代码示例: /**上传照片 多图*/getImage() {uni.chooseImage({count: 9, //默认9sizeType: [original, compressed], //可以指定是原图还是压缩图,默认二者都有sourceType: [album], //从相册选择/…...
鸿蒙(API 12 Beta2版)媒体开发【处理音频焦点事件】
音频打断策略 多音频并发,即多个音频流同时播放。此场景下,如果系统不加管控,会造成多个音频流混音播放,容易让用户感到嘈杂,造成不好的用户体验。为了解决这个问题,系统预设了音频打断策略,对…...
c语言第12天
指针的引入 为函数修改实参提供支持。 为动态内存管理提供支持。 为动态数据结构提供支持。 为内存访问提供另一种途径。 指针概述 内存地址:系统为了内存管理的方便,将内存划分为一个个的内存单元(1个内存单元占1个字 节)&…...
回归预测|一种多输入多输出的粒子群优化支持向量机数据回归预测Matlab程序PSO-MSVR非for循环实现 原理上进行修改多输出
回归预测|一种多输入多输出的粒子群优化支持向量机数据回归预测Matlab程序PSO-MSVR非for循环实现 原理上进行修改多输出 文章目录 前言回归预测|一种多输入多输出的粒子群优化支持向量机数据回归预测Matlab程序PSO-MSVR非for循环实现 原理上进行修改多输出 一、PSO-MSVR模型1. …...
《花100块做个摸鱼小网站! 》第二篇—后端应用搭建和完成第一个爬虫
一、前言 大家好呀,我是summo,前面已经教会大家怎么去阿里云买服务器(链接在这,需要自取:https://developer.aliyun.com/huodong/dashiblogger?userCodemtbtcjr1),以及怎么搭建JDK、Redis、My…...
Mapreduce_csv_averageCSV文件计算平均值
csv文件求某个平均数据 查询每个部门的平均工资,最后输出 数据处理过程 employee_noheader.csv(没做关于首行的处理,运行时请自行删除) EmployeeID,EmployeeName,DepartmentID,Salary 1,ZhangSan,101,5000 2,LiSi,102,6000…...
将UEC++项目转码成UTF-8
方法一 如果文件不多的话,可以手动一个一个进行修改。添加 “高级保存选项” 手动改为UTF-8 方法二 使用editorconfig文件,统一编码问题。通过:“工具” > “选项”>"文本编辑器" > "C/C" > "代码样式…...
深入探索MySQL C API:使用C语言操作MySQL数据库
目录 引言 一. MySQL C API简介 二. MySQL C API核心函数 2.1 初始化和连接 2.2 配置和执行 2.3 处理结果 2.4 清理和关闭 2.5 错误处理 三. MySQL使用过程 四. 实现CRUD操作 4.1 创建数据库并建立表 编辑 4.2 添加数据(Create) 编辑 …...
武汉流星汇聚:亚马逊助力跨境电商扬帆起航,海外影响力显著提升
在全球化浪潮的推动下,跨境电商已成为连接世界市场的重要桥梁。而在这场跨越国界的商业盛宴中,亚马逊作为全球电商的领军者,以其独特的商业模式、庞大的用户基础,为无数企业提供了前所未有的发展机遇。武汉流星汇聚电子商务有限公…...
微信小程序之bind和catch
这两个呢,都是绑定事件用的,具体使用有些小区别。 官方文档: 事件冒泡处理不同 bind:绑定的事件会向上冒泡,即触发当前组件的事件后,还会继续触发父组件的相同事件。例如,有一个子视图绑定了b…...
【Web 进阶篇】优雅的接口设计:统一响应、全局异常处理与参数校验
系列回顾: 在上一篇中,我们成功地为应用集成了数据库,并使用 Spring Data JPA 实现了基本的 CRUD API。我们的应用现在能“记忆”数据了!但是,如果你仔细审视那些 API,会发现它们还很“粗糙”:有…...
【python异步多线程】异步多线程爬虫代码示例
claude生成的python多线程、异步代码示例,模拟20个网页的爬取,每个网页假设要0.5-2秒完成。 代码 Python多线程爬虫教程 核心概念 多线程:允许程序同时执行多个任务,提高IO密集型任务(如网络请求)的效率…...
JUC笔记(上)-复习 涉及死锁 volatile synchronized CAS 原子操作
一、上下文切换 即使单核CPU也可以进行多线程执行代码,CPU会给每个线程分配CPU时间片来实现这个机制。时间片非常短,所以CPU会不断地切换线程执行,从而让我们感觉多个线程是同时执行的。时间片一般是十几毫秒(ms)。通过时间片分配算法执行。…...
MySQL中【正则表达式】用法
MySQL 中正则表达式通过 REGEXP 或 RLIKE 操作符实现(两者等价),用于在 WHERE 子句中进行复杂的字符串模式匹配。以下是核心用法和示例: 一、基础语法 SELECT column_name FROM table_name WHERE column_name REGEXP pattern; …...
优选算法第十二讲:队列 + 宽搜 优先级队列
优选算法第十二讲:队列 宽搜 && 优先级队列 1.N叉树的层序遍历2.二叉树的锯齿型层序遍历3.二叉树最大宽度4.在每个树行中找最大值5.优先级队列 -- 最后一块石头的重量6.数据流中的第K大元素7.前K个高频单词8.数据流的中位数 1.N叉树的层序遍历 2.二叉树的锯…...
Spring Cloud Gateway 中自定义验证码接口返回 404 的排查与解决
Spring Cloud Gateway 中自定义验证码接口返回 404 的排查与解决 问题背景 在一个基于 Spring Cloud Gateway WebFlux 构建的微服务项目中,新增了一个本地验证码接口 /code,使用函数式路由(RouterFunction)和 Hutool 的 Circle…...
服务器--宝塔命令
一、宝塔面板安装命令 ⚠️ 必须使用 root 用户 或 sudo 权限执行! sudo su - 1. CentOS 系统: yum install -y wget && wget -O install.sh http://download.bt.cn/install/install_6.0.sh && sh install.sh2. Ubuntu / Debian 系统…...
【JVM】Java虚拟机(二)——垃圾回收
目录 一、如何判断对象可以回收 (一)引用计数法 (二)可达性分析算法 二、垃圾回收算法 (一)标记清除 (二)标记整理 (三)复制 (四ÿ…...
day36-多路IO复用
一、基本概念 (服务器多客户端模型) 定义:单线程或单进程同时监测若干个文件描述符是否可以执行IO操作的能力 作用:应用程序通常需要处理来自多条事件流中的事件,比如我现在用的电脑,需要同时处理键盘鼠标…...














































