当前位置: 首页 > news >正文

数据科学、数据分析、人工智能必备知识汇总-----常用数据分析方法-----持续更新

数据科学、数据分析、人工智能必备知识汇总-----主目录-----持续更新(进不去说明我没写完):https://blog.csdn.net/grd_java/article/details/140174015

文章目录

  • 一、对比分析法
    • 1. 按时间和地区
    • 2. 同比和环比
  • 二、分组分析法
  • 三、结构分析法
  • 四、交叉分析法
  • 五、矩阵分析法
  • 六、杜邦分析法
  • 七、漏斗图分析法

一、对比分析法

对比分析法
  1. 将两个或两个以上的指标进行对比分析,通过对比分析可以直观地看到事物的变化或差距
  2. 对比分析可以基于时间进行对比,也可以基于分类(地区、部门、类别等)进行对比
  3. 例如,利用对比分析法分析某公司历年销售额的变化,基于时间的对比通常用折线图
    在这里插入图片描述
  1. 例如,通过对比分析法分析不同地区的销售额,基于分类的对比通常采用柱形图或条形图
    在这里插入图片描述

1. 按时间和地区

最简单最没有技术含量的对比方法,但是却简单好用

假设我们有如下数据
在这里插入图片描述

按时间
  1. 此时我们只需要建立数据透视图,将订单日期拖入行,销售额拖入值
    在这里插入图片描述
  1. 插入空白折线图(不选择任何数据,直接插入折线图)
    在这里插入图片描述
  1. 选中图表,在图表设计选项卡选中“选择数据”按钮,然后在弹出的窗口中点击添加(图列项系列)
    在这里插入图片描述
  1. 然后在系列值中选择销售额数据区域
    在这里插入图片描述
  1. 然后在水平(分类)轴标签选择“编辑”,然后选择年份数据即可
    在这里插入图片描述
    在这里插入图片描述
按地区,操作方法和上面同理,只不过分类轴从年份变为地区

在这里插入图片描述

2. 同比和环比

基于时间的对比有两个常用指标:同比和环比

  1. 同比:分析指标与同期进行比较,一般用于两年相同月份的比较上
  2. 环比:分析指标与相邻周期(上个月)进行比较,一般用于相邻月份的比较上
    在这里插入图片描述
同比
  1. 我们现在有4年的数据,现在我们想要实现后一年和前一年的对比,例如下图中,2014是第一年,没有2013年的数据是不需要考虑年度同比的,而从2015年开始,需要和前一年进行对比
    在这里插入图片描述
  1. 数据透视表中,我们在值窗口额外增加一列销售额,这个销售额,我们需要修改它的值字段设置。名称改为同比增长,值显示方式设置为差异,基本字段设置为年,基本项设置为上一个。也就是以年为单位,和去年进行差异比较
    在这里插入图片描述
  1. 上一步完成了同步增长值,现在我们可以额外求出同比增长率,操作方法和上面一样,只需将值显示方式改为差异百分比即可
    在这里插入图片描述
环比
  1. 同比是不同时段的相同字段进行比较,而环比是相邻两个时段的相同字段进行比较,比如2014年的2月和1月进行比较
  2. 操作方法还是一样的,额外拖入一个销售额字段到值窗口,然后进行值字段设置,名称改为环比增长,值显示方式还是选择差异,然后基本字段要选择订单日期,因为我们要按月进行比较,然后基本项选择上一个。表示每个月和上个月进行比较
    在这里插入图片描述
  1. 环比增长率也是一样的操作方式,将值显示方式改为差异百分比即可
    在这里插入图片描述

二、分组分析法

分组分析法

主要用于查看数据的分布,即绘制直方图。例如,某公司想了解客户购买数量的情况,可以绘制客户购买数量的直方图
在这里插入图片描述

  1. 上图中可以看出,大多数客户的购买数量在6件以下
  2. 有981人只买了1件,1174人购买数量大于6件,但是不超过11件
  3. 而7766人选择了2到6件,只有极少数客户购买数量大于11件
需要掌握的公式

FREQUENCY(data_array,bins_array):以一列垂直数组返回一组数据的频率分布

=frequency(data_array,bins_array)
# data_array表示要分组统计的列
# bins_array分组依据,是我们人为创造的分组组距
构建序列
  1. 数据如下,每个订单有数量,表示这个订单一次卖出几个
    在这里插入图片描述
  2. 我们分别求出数量字段中的最大值,最小值。然后人为规定组距为5,表示每个分组的大小为5
    在这里插入图片描述
  1. 然后我们从1开始,后面每组都由前一个组值+组距构成。也就是说第一组1开始,第二组=第一组的1+组距5 = 6.第三组=第二组的6+组距5 = 11.代表的区间就是(0,1],(1,6],(6,11]…
    在这里插入图片描述
  1. 通过上面介绍的FREQUENCY()函数进行分组统计,也就是将不同区间的数值统计出来
    在这里插入图片描述
  1. 其中,第一个参数是我们要分组统计的列,也就是订单表中,每个订单购买的产品数量那一列
  2. 第二个参数就是我们的分组依据,也就是通过组距生成的1,6,11,16
生成直方图
  1. 创建空白二维柱形图,然后添加两个图例项,都是频数(通过Frequency函数生成的),而分类选择区间
    在这里插入图片描述
  1. 更改图表类型,选择组合图,将系列2设置为折线图
    在这里插入图片描述

三、结构分析法

  1. 结构分析法主要用于分析各部分占总体的比例
  2. 例如分析不同产品类别所占的比例,可以通过饼图来表示
    在这里插入图片描述
  1. 结构分析法也可以添加时间维度,例如对比不同年份的不同产品类别的销售额
  2. 一般使用堆积柱形图表示
    在这里插入图片描述
分析部分与总体的关系

在这里插入图片描述

  1. 首先将产品类别放入行窗口,将销售额拖两个放入值窗口,第二个销售额字段进行值字段设置,设置值显示方式为列汇总的百分比
  2. 然后为其生成饼图(这里用的是三维饼图),系列选择百分比销售额占比,分类轴选择产品分类
    在这里插入图片描述
对比不同时间维度的结构分析

在这里插入图片描述

  1. 首先透视表的行是年份,列是商品类别,值是销售额
  2. 然后添加空白堆积图,先在图表数据区域进行选择,将类别和数据都选中,但是不要选择总计
  3. 然后系列选择类别,水平分类选择年份即可

四、交叉分析法

  1. 主要用于分析两个变量之间的关系,通过交叉表呈现,二维交叉表也叫列联表
  2. 例如分析不同地区的各产品类别的销售额,绘制出交叉表,通过雷达图进行分析
    在这里插入图片描述

五、矩阵分析法

  1. 又称波士顿分析法,以事物两个属性为坐标轴绘制散点图
  2. 例如分析不同地区的销售额与销售数量
    在这里插入图片描述
波士顿矩阵,以市场增长率和市场占有率作为坐标轴,将企业产品分为四类(问题产品,明星产品,瘦狗产品,现金牛产品)

在这里插入图片描述

  1. 明星产品:需要加大投资,继续增长
  2. 现金牛产品:成熟,保持即可,最大程度榨取(挤奶)
  3. 瘦狗产品:剥离或撤销,需要放弃
  4. 问题产品:分析问题,增加市场占有率或放弃
  5. 说白了就是将一个产品的市场增长率和市场占有率输入散点图中,如果在第一象限就是明星产品,第二象限就是问题产品,依此类推
操作步骤
  1. 插入空白散点图,选择数据,图例项系列的x选择销售额,y轴选择数量
    在这里插入图片描述
  2. 删掉图表中网格线后,选中横坐标,设置坐标轴格式,我们想要实现销售额中心点是均值,大于均值去右边,小于均值去左边,那么我们就设置其横坐标轴交叉点为坐标轴值,设置为均值即可
    在这里插入图片描述
  3. 同理,纵坐标轴也让数量的均值作为原点值
    在这里插入图片描述
  4. 将两个坐标轴的标签设置为无
    在这里插入图片描述
  5. 我们要让每个散点显示自己所在地区,因此添加数据标签后设置数据标签格式,让标签只显示单元格中的值,区域就选择地区即可
    在这里插入图片描述
    在这里插入图片描述
  6. 添加坐标轴标题
    在这里插入图片描述

六、杜邦分析法

  1. 由美国杜邦公司创造并最先采用的综合分析法,主要利用企业主要财务指标分析企业财务状况
  2. 杜邦分析中的核心概念:净资产回报率,return on equity,ROE,又称净资产收益率
  1. 例如:某企业初始资金100万RMB,想要代理某种产品进行销售,100万就是总权益资产,此时,总资产等于总权益资产,为100万
  2. 假设产品的进货单价为1万,100万能够进货100个,一个卖1万2,卖一批货的销售收入是120万,利润为120-100=20万
  3. 假设一年卖一次,也就是100个,此时,ROE=净利润/总权益资产=20/100=20%,因此ROE=净资产利润率
  1. 上面例子中的企业提高ROE的方法
  1. 涨价:售价提高到1万5,卖一批货100个利润就是50万,ROE提升至50%
  2. 借钱多进货:银行贷款150万,总资产为250万,进货250个,一年利润就是250×0.2=50万,ROE提升至50%,这种方法叫加杠杆,此时总权益资产仍是100万,借来的150万叫负债
  1. 杠杆比率:总资产/总权益资产,这里,总资产为250万,总权益资产为100万,杠杆比率为250/100=2.5,杠杆比率也叫权益乘数
  2. ROE = 净资产利润率 × 权益乘数
  3. ps:没有负债的情况下,权益乘数为1,也就是ROE=净资产利润率×1
  1. 多卖几批货:一年卖2.5次(250个),则一年利润50万,ROE提升至50%,此法叫作提升资产周转率,如果之前的资产周转率记为1,现在的资产周转率就变为2.5,ROE=净资产利润率×资产周转率
  1. 一年买一次货的情况,资产周转率就是1
  2. 因此有以下公式,ROE = 净资产利润率 × 权益乘数 × 资产周转率
    在这里插入图片描述

七、漏斗图分析法

  1. 通过漏斗图分析业务问题,适合业务流程规范、周期长、多环节的业务问题
  2. 例如,通过漏斗图分析某电商网站的流量数据
    在这里插入图片描述
操作步骤
  1. 要想漏斗图好看,就需要辅助列,首先将原数据放在中间的展示列,可以发现F2单元格的值是所有值中最大的,记为MAX,我们要围绕它做辅助列。而两边就是我们要放的辅助值,这个辅助值为(MAX + 1000 - 当前值)/2,其中当前值就是每个展示列的值,我们要为每个当前值两边放上辅助值
    在这里插入图片描述
  2. 因为自带漏斗图不太方便,因此我们选用堆积条形图来做,数据区域选择我们刚才创建的辅助数据
    在这里插入图片描述
  3. 选择两边的辅助列堆积条,让其设置为无填充,这样剩下的区域正好是漏斗图的区域
    在这里插入图片描述
  4. 选中纵坐标轴,设置其坐标轴选项为逆序类别
    在这里插入图片描述
  5. 添加数据标签并将两边辅助列数据删除
    在这里插入图片描述
  6. 选中数据序列,将其间隙宽度设置为0
    在这里插入图片描述
  7. 可操作性更强,标签可以拖出,而直接生成漏斗图是做不到这么灵活的
    在这里插入图片描述

相关文章:

数据科学、数据分析、人工智能必备知识汇总-----常用数据分析方法-----持续更新

数据科学、数据分析、人工智能必备知识汇总-----主目录-----持续更新(进不去说明我没写完):https://blog.csdn.net/grd_java/article/details/140174015 文章目录 一、对比分析法1. 按时间和地区2. 同比和环比 二、分组分析法三、结构分析法四、交叉分析法五、矩阵分…...

学习vue Router 一 起步,编程式导航,历史记录,路由传参

目录 起步,安装 1. 安装 2. 使用 命名路由 编程式导航 1. 字符串模式 2. 对象模式 3. 命名路由模式 历史记录 replace的使用 横跨历史 路由传参 1. query路由传参 2. 动态路由传参 3. 二者的区别 起步,安装 router 路由 因为vue是单页应用…...

Qt/C++最新地图组件发布/历时半年重构/同时支持各种地图内核/包括百度高德腾讯天地图

一、前言说明 最近花了半年时间,专门重构了整个地图组件,之前写的比较粗糙,有点为了完成功能而做的,没有考虑太多拓展性和易用性。这套地图自检这几年大量的实际项目和用户使用下来,反馈了不少很好的建议和意见&#…...

Laravel + Thinkphp 生成二维码

安装依赖 composer require endroid/qr-code 编写ThinkPhP代码 public function index() {// 创建二维码内容$qrCode new QrCode(Hello World);// 设置二维码的配置$qrCode->setSize(300);$qrCode->setMargin(10);// 获取二维码图像$writer new PngWriter();$result…...

2408C++,C++20的无侵入式反射

原文 C17基于结构绑定的编译期反射 事实上不需要宏的编译期反射在C17中已用得很多了,比如struct_pack的编译期反射就不需要宏,因为C17结构绑定可直接得到一个聚集类的成员的引用. struct person {int id;std::string name;int age; }; int main() {person p{1, "tom&qu…...

抽象工厂模式(Abstract factory pattern)- python实现

抽象工厂模式的通俗示例 想象一下,你正在经营一家家具店,你需要从不同的供应商那里采购不同的家具系列。有的供应商提供的是现代风格家具,包括现代沙发、现代椅子和现代桌子;而有的供应商提供的是古典风格家具,包括古…...

adb Connection reset by peer的解决方法

本文同步发于:https://www.cnblogs.com/yeshen-org/p/18350232 最近在编译一个老项目,项目中依赖了很多第三方库,用gradle编译要20-30分钟,而且内存开销很大。 公司配的15G内存的电脑,一次编译能用到14G。 编译的时候&…...

111111111

1111111111111111111...

搜维尔科技:Varjo XR-4使用UE5 打造最具沉浸感的混合现实环境

Varjo XR-4使用UE5打造最具沉浸感的混合现实环境 搜维尔科技:Varjo XR-4使用UE5 打造最具沉浸感的混合现实环境...

从分散到集中:TSINGSEE青犀EasyCVR视频汇聚网关在视频整体监控解决方案中的整合作用

边缘计算视频汇聚网关是基于开放式、大融合、全兼容、标准化的设计架构理念,依据《安全防范视频监控联网系统信息传输、交换、控制技术要求》(GB/T28181-2011)标准开发,集流媒体转发、视频编码、视频管理、标准通信协议、网络穿透…...

React学习-jsx语法

jsx语法,浏览器不认识,需要经过babel编译 https://babeljs.io/ 面试题:jsx的作用? 普通回答:可以在js中返回dom,经过babel编译成js认识的代码import { jsx as _jsx, jsxs as _jsxs } from "react/j…...

uniapp多图上传uni.chooseImage上传照片uni.uploadFile

uniapp多图上传uni.chooseImage上传照片uni.uploadFile 代码示例: /**上传照片 多图*/getImage() {uni.chooseImage({count: 9, //默认9sizeType: [original, compressed], //可以指定是原图还是压缩图,默认二者都有sourceType: [album], //从相册选择/…...

鸿蒙(API 12 Beta2版)媒体开发【处理音频焦点事件】

音频打断策略 多音频并发,即多个音频流同时播放。此场景下,如果系统不加管控,会造成多个音频流混音播放,容易让用户感到嘈杂,造成不好的用户体验。为了解决这个问题,系统预设了音频打断策略,对…...

c语言第12天

指针的引入 为函数修改实参提供支持。 为动态内存管理提供支持。 为动态数据结构提供支持。 为内存访问提供另一种途径。 指针概述 内存地址:系统为了内存管理的方便,将内存划分为一个个的内存单元(1个内存单元占1个字 节)&…...

回归预测|一种多输入多输出的粒子群优化支持向量机数据回归预测Matlab程序PSO-MSVR非for循环实现 原理上进行修改多输出

回归预测|一种多输入多输出的粒子群优化支持向量机数据回归预测Matlab程序PSO-MSVR非for循环实现 原理上进行修改多输出 文章目录 前言回归预测|一种多输入多输出的粒子群优化支持向量机数据回归预测Matlab程序PSO-MSVR非for循环实现 原理上进行修改多输出 一、PSO-MSVR模型1. …...

《花100块做个摸鱼小网站! 》第二篇—后端应用搭建和完成第一个爬虫

一、前言 大家好呀,我是summo,前面已经教会大家怎么去阿里云买服务器(链接在这,需要自取:https://developer.aliyun.com/huodong/dashiblogger?userCodemtbtcjr1),以及怎么搭建JDK、Redis、My…...

Mapreduce_csv_averageCSV文件计算平均值

csv文件求某个平均数据 查询每个部门的平均工资,最后输出 数据处理过程 employee_noheader.csv(没做关于首行的处理,运行时请自行删除) EmployeeID,EmployeeName,DepartmentID,Salary 1,ZhangSan,101,5000 2,LiSi,102,6000…...

将UEC++项目转码成UTF-8

方法一 如果文件不多的话,可以手动一个一个进行修改。添加 “高级保存选项” 手动改为UTF-8 方法二 使用editorconfig文件,统一编码问题。通过:“工具” > “选项”>"文本编辑器" > "C/C" > "代码样式…...

深入探索MySQL C API:使用C语言操作MySQL数据库

目录 引言 一. MySQL C API简介 二. MySQL C API核心函数 2.1 初始化和连接 2.2 配置和执行 2.3 处理结果 2.4 清理和关闭 2.5 错误处理 三. MySQL使用过程 四. 实现CRUD操作 4.1 创建数据库并建立表 ​编辑 4.2 添加数据(Create) ​编辑 …...

武汉流星汇聚:亚马逊助力跨境电商扬帆起航,海外影响力显著提升

在全球化浪潮的推动下,跨境电商已成为连接世界市场的重要桥梁。而在这场跨越国界的商业盛宴中,亚马逊作为全球电商的领军者,以其独特的商业模式、庞大的用户基础,为无数企业提供了前所未有的发展机遇。武汉流星汇聚电子商务有限公…...

C语言:设计模式

C语言和设计模式(总结篇) 书籍:《大话设计模式》 2、C语言和设计模式:原型模式(复制自己,生成另外一个实例对象) 17、C语言实现面向对象编程 : 封装、继承、多态 ---- C语言可:封…...

Pandas数据选择的艺术:深入理解loc和iloc

在数据科学领域,Pandas是处理和分析数据的瑞士军刀。掌握Pandas中的数据选择技巧,尤其是loc和iloc的使用,对于提高数据处理效率至关重要。本文将深入探讨loc和iloc的用法,通过丰富的示例,帮助你精确地选取所需的数据&a…...

<数据集>固定视角监控牧场绵羊识别数据集<目标检测>

数据集格式:VOCYOLO格式 图片数量:3615张 标注数量(xml文件个数):3615 标注数量(txt文件个数):3615 标注类别数:1 标注类别名称:[Sheep] 序号类别名称图片数框数1Sheep361529632 使用标注工具&#…...

浙大数据结构慕课课后题(06-图2 Saving James Bond - Easy Version)(拯救007)

题目要求: This time let us consider the situation in the movie "Live and Let Die" in which James Bond, the worlds most famous spy, was captured by a group of drug dealers. He was sent to a small piece of land at the center of a lake fi…...

前置(1):npn 和yarn ,pnpm安装依赖都是从那个源安装的啊,有啥优缺点呢

在使用 npm、yarn 或 pnpm 进行依赖管理和安装时,它们通常默认从 npm 的公共仓库(https://registry.npmjs.org/)获取包。不过,用户可以配置它们以从其他源获取,例如企业内部的私有仓库或镜像站点(如淘宝的 …...

视频融合项目中的平台抉择:6大关键要素助力精准选型

随着安防监控系统行业的快速发展,视频融合项目逐渐成为城市治理、企业管理及智能建筑等领域的重要组成部分。视频融合平台作为视频数据整合、管理和分析的核心,其选择直接影响到项目的成功与否。 在当前智慧业务类项目的集成过程中,我们不仅…...

微信小程序项目结构

微信小程序的项目结构相对清晰,主要包括以下几个部分: 一、项目根目录文件 app.js:小程序项目的入口文件,通过调用App()函数来启动整个小程序的生命周期。这个文件包含了小程序的全局数据、生命周期函数等。 app.json:…...

C++unordered_map的用法

unordered_map的简介 unordered_map是一种容器&#xff0c;可以把字符串当做数字&#xff0c;可以使用[]操作符来访问key值对应的值。 格式&#xff1a; unordered_map<要被转换的类型&#xff0c;转换的类型> 变量名{{要被转换的数或字符&#xff0c;转换的数或字符}}/…...

代码随想录算法训练营第三十六天| 188.买卖股票的最佳时机IV、309.最佳买卖股票时机含冷冻期、714.买卖股票的最佳时机含手续费

写代码的第三十六天 买股票&#xff0c;卡卡买股票&#xff0c;就爱买股票。。。 188.买卖股票的最佳时机IV 思路 本题是多次进行买卖&#xff0c;所以根据上题进行修改。 解决问题1&#xff1a;dp数组的含义以及定义&#xff1f;上题定义的事dp[i][0]初始状态,dp[i][1]第一…...

Golang | Leetcode Golang题解之第332题重新安排行程

题目&#xff1a; 题解&#xff1a; func findItinerary(tickets [][]string) []string {var (m map[string][]string{}res []string)for _, ticket : range tickets {src, dst : ticket[0], ticket[1]m[src] append(m[src], dst)}for key : range m {sort.Strings(m[key])…...