当前位置: 首页 > news >正文

数据科学、数据分析、人工智能必备知识汇总-----常用数据分析方法-----持续更新

数据科学、数据分析、人工智能必备知识汇总-----主目录-----持续更新(进不去说明我没写完):https://blog.csdn.net/grd_java/article/details/140174015

文章目录

  • 一、对比分析法
    • 1. 按时间和地区
    • 2. 同比和环比
  • 二、分组分析法
  • 三、结构分析法
  • 四、交叉分析法
  • 五、矩阵分析法
  • 六、杜邦分析法
  • 七、漏斗图分析法

一、对比分析法

对比分析法
  1. 将两个或两个以上的指标进行对比分析,通过对比分析可以直观地看到事物的变化或差距
  2. 对比分析可以基于时间进行对比,也可以基于分类(地区、部门、类别等)进行对比
  3. 例如,利用对比分析法分析某公司历年销售额的变化,基于时间的对比通常用折线图
    在这里插入图片描述
  1. 例如,通过对比分析法分析不同地区的销售额,基于分类的对比通常采用柱形图或条形图
    在这里插入图片描述

1. 按时间和地区

最简单最没有技术含量的对比方法,但是却简单好用

假设我们有如下数据
在这里插入图片描述

按时间
  1. 此时我们只需要建立数据透视图,将订单日期拖入行,销售额拖入值
    在这里插入图片描述
  1. 插入空白折线图(不选择任何数据,直接插入折线图)
    在这里插入图片描述
  1. 选中图表,在图表设计选项卡选中“选择数据”按钮,然后在弹出的窗口中点击添加(图列项系列)
    在这里插入图片描述
  1. 然后在系列值中选择销售额数据区域
    在这里插入图片描述
  1. 然后在水平(分类)轴标签选择“编辑”,然后选择年份数据即可
    在这里插入图片描述
    在这里插入图片描述
按地区,操作方法和上面同理,只不过分类轴从年份变为地区

在这里插入图片描述

2. 同比和环比

基于时间的对比有两个常用指标:同比和环比

  1. 同比:分析指标与同期进行比较,一般用于两年相同月份的比较上
  2. 环比:分析指标与相邻周期(上个月)进行比较,一般用于相邻月份的比较上
    在这里插入图片描述
同比
  1. 我们现在有4年的数据,现在我们想要实现后一年和前一年的对比,例如下图中,2014是第一年,没有2013年的数据是不需要考虑年度同比的,而从2015年开始,需要和前一年进行对比
    在这里插入图片描述
  1. 数据透视表中,我们在值窗口额外增加一列销售额,这个销售额,我们需要修改它的值字段设置。名称改为同比增长,值显示方式设置为差异,基本字段设置为年,基本项设置为上一个。也就是以年为单位,和去年进行差异比较
    在这里插入图片描述
  1. 上一步完成了同步增长值,现在我们可以额外求出同比增长率,操作方法和上面一样,只需将值显示方式改为差异百分比即可
    在这里插入图片描述
环比
  1. 同比是不同时段的相同字段进行比较,而环比是相邻两个时段的相同字段进行比较,比如2014年的2月和1月进行比较
  2. 操作方法还是一样的,额外拖入一个销售额字段到值窗口,然后进行值字段设置,名称改为环比增长,值显示方式还是选择差异,然后基本字段要选择订单日期,因为我们要按月进行比较,然后基本项选择上一个。表示每个月和上个月进行比较
    在这里插入图片描述
  1. 环比增长率也是一样的操作方式,将值显示方式改为差异百分比即可
    在这里插入图片描述

二、分组分析法

分组分析法

主要用于查看数据的分布,即绘制直方图。例如,某公司想了解客户购买数量的情况,可以绘制客户购买数量的直方图
在这里插入图片描述

  1. 上图中可以看出,大多数客户的购买数量在6件以下
  2. 有981人只买了1件,1174人购买数量大于6件,但是不超过11件
  3. 而7766人选择了2到6件,只有极少数客户购买数量大于11件
需要掌握的公式

FREQUENCY(data_array,bins_array):以一列垂直数组返回一组数据的频率分布

=frequency(data_array,bins_array)
# data_array表示要分组统计的列
# bins_array分组依据,是我们人为创造的分组组距
构建序列
  1. 数据如下,每个订单有数量,表示这个订单一次卖出几个
    在这里插入图片描述
  2. 我们分别求出数量字段中的最大值,最小值。然后人为规定组距为5,表示每个分组的大小为5
    在这里插入图片描述
  1. 然后我们从1开始,后面每组都由前一个组值+组距构成。也就是说第一组1开始,第二组=第一组的1+组距5 = 6.第三组=第二组的6+组距5 = 11.代表的区间就是(0,1],(1,6],(6,11]…
    在这里插入图片描述
  1. 通过上面介绍的FREQUENCY()函数进行分组统计,也就是将不同区间的数值统计出来
    在这里插入图片描述
  1. 其中,第一个参数是我们要分组统计的列,也就是订单表中,每个订单购买的产品数量那一列
  2. 第二个参数就是我们的分组依据,也就是通过组距生成的1,6,11,16
生成直方图
  1. 创建空白二维柱形图,然后添加两个图例项,都是频数(通过Frequency函数生成的),而分类选择区间
    在这里插入图片描述
  1. 更改图表类型,选择组合图,将系列2设置为折线图
    在这里插入图片描述

三、结构分析法

  1. 结构分析法主要用于分析各部分占总体的比例
  2. 例如分析不同产品类别所占的比例,可以通过饼图来表示
    在这里插入图片描述
  1. 结构分析法也可以添加时间维度,例如对比不同年份的不同产品类别的销售额
  2. 一般使用堆积柱形图表示
    在这里插入图片描述
分析部分与总体的关系

在这里插入图片描述

  1. 首先将产品类别放入行窗口,将销售额拖两个放入值窗口,第二个销售额字段进行值字段设置,设置值显示方式为列汇总的百分比
  2. 然后为其生成饼图(这里用的是三维饼图),系列选择百分比销售额占比,分类轴选择产品分类
    在这里插入图片描述
对比不同时间维度的结构分析

在这里插入图片描述

  1. 首先透视表的行是年份,列是商品类别,值是销售额
  2. 然后添加空白堆积图,先在图表数据区域进行选择,将类别和数据都选中,但是不要选择总计
  3. 然后系列选择类别,水平分类选择年份即可

四、交叉分析法

  1. 主要用于分析两个变量之间的关系,通过交叉表呈现,二维交叉表也叫列联表
  2. 例如分析不同地区的各产品类别的销售额,绘制出交叉表,通过雷达图进行分析
    在这里插入图片描述

五、矩阵分析法

  1. 又称波士顿分析法,以事物两个属性为坐标轴绘制散点图
  2. 例如分析不同地区的销售额与销售数量
    在这里插入图片描述
波士顿矩阵,以市场增长率和市场占有率作为坐标轴,将企业产品分为四类(问题产品,明星产品,瘦狗产品,现金牛产品)

在这里插入图片描述

  1. 明星产品:需要加大投资,继续增长
  2. 现金牛产品:成熟,保持即可,最大程度榨取(挤奶)
  3. 瘦狗产品:剥离或撤销,需要放弃
  4. 问题产品:分析问题,增加市场占有率或放弃
  5. 说白了就是将一个产品的市场增长率和市场占有率输入散点图中,如果在第一象限就是明星产品,第二象限就是问题产品,依此类推
操作步骤
  1. 插入空白散点图,选择数据,图例项系列的x选择销售额,y轴选择数量
    在这里插入图片描述
  2. 删掉图表中网格线后,选中横坐标,设置坐标轴格式,我们想要实现销售额中心点是均值,大于均值去右边,小于均值去左边,那么我们就设置其横坐标轴交叉点为坐标轴值,设置为均值即可
    在这里插入图片描述
  3. 同理,纵坐标轴也让数量的均值作为原点值
    在这里插入图片描述
  4. 将两个坐标轴的标签设置为无
    在这里插入图片描述
  5. 我们要让每个散点显示自己所在地区,因此添加数据标签后设置数据标签格式,让标签只显示单元格中的值,区域就选择地区即可
    在这里插入图片描述
    在这里插入图片描述
  6. 添加坐标轴标题
    在这里插入图片描述

六、杜邦分析法

  1. 由美国杜邦公司创造并最先采用的综合分析法,主要利用企业主要财务指标分析企业财务状况
  2. 杜邦分析中的核心概念:净资产回报率,return on equity,ROE,又称净资产收益率
  1. 例如:某企业初始资金100万RMB,想要代理某种产品进行销售,100万就是总权益资产,此时,总资产等于总权益资产,为100万
  2. 假设产品的进货单价为1万,100万能够进货100个,一个卖1万2,卖一批货的销售收入是120万,利润为120-100=20万
  3. 假设一年卖一次,也就是100个,此时,ROE=净利润/总权益资产=20/100=20%,因此ROE=净资产利润率
  1. 上面例子中的企业提高ROE的方法
  1. 涨价:售价提高到1万5,卖一批货100个利润就是50万,ROE提升至50%
  2. 借钱多进货:银行贷款150万,总资产为250万,进货250个,一年利润就是250×0.2=50万,ROE提升至50%,这种方法叫加杠杆,此时总权益资产仍是100万,借来的150万叫负债
  1. 杠杆比率:总资产/总权益资产,这里,总资产为250万,总权益资产为100万,杠杆比率为250/100=2.5,杠杆比率也叫权益乘数
  2. ROE = 净资产利润率 × 权益乘数
  3. ps:没有负债的情况下,权益乘数为1,也就是ROE=净资产利润率×1
  1. 多卖几批货:一年卖2.5次(250个),则一年利润50万,ROE提升至50%,此法叫作提升资产周转率,如果之前的资产周转率记为1,现在的资产周转率就变为2.5,ROE=净资产利润率×资产周转率
  1. 一年买一次货的情况,资产周转率就是1
  2. 因此有以下公式,ROE = 净资产利润率 × 权益乘数 × 资产周转率
    在这里插入图片描述

七、漏斗图分析法

  1. 通过漏斗图分析业务问题,适合业务流程规范、周期长、多环节的业务问题
  2. 例如,通过漏斗图分析某电商网站的流量数据
    在这里插入图片描述
操作步骤
  1. 要想漏斗图好看,就需要辅助列,首先将原数据放在中间的展示列,可以发现F2单元格的值是所有值中最大的,记为MAX,我们要围绕它做辅助列。而两边就是我们要放的辅助值,这个辅助值为(MAX + 1000 - 当前值)/2,其中当前值就是每个展示列的值,我们要为每个当前值两边放上辅助值
    在这里插入图片描述
  2. 因为自带漏斗图不太方便,因此我们选用堆积条形图来做,数据区域选择我们刚才创建的辅助数据
    在这里插入图片描述
  3. 选择两边的辅助列堆积条,让其设置为无填充,这样剩下的区域正好是漏斗图的区域
    在这里插入图片描述
  4. 选中纵坐标轴,设置其坐标轴选项为逆序类别
    在这里插入图片描述
  5. 添加数据标签并将两边辅助列数据删除
    在这里插入图片描述
  6. 选中数据序列,将其间隙宽度设置为0
    在这里插入图片描述
  7. 可操作性更强,标签可以拖出,而直接生成漏斗图是做不到这么灵活的
    在这里插入图片描述

相关文章:

数据科学、数据分析、人工智能必备知识汇总-----常用数据分析方法-----持续更新

数据科学、数据分析、人工智能必备知识汇总-----主目录-----持续更新(进不去说明我没写完):https://blog.csdn.net/grd_java/article/details/140174015 文章目录 一、对比分析法1. 按时间和地区2. 同比和环比 二、分组分析法三、结构分析法四、交叉分析法五、矩阵分…...

学习vue Router 一 起步,编程式导航,历史记录,路由传参

目录 起步,安装 1. 安装 2. 使用 命名路由 编程式导航 1. 字符串模式 2. 对象模式 3. 命名路由模式 历史记录 replace的使用 横跨历史 路由传参 1. query路由传参 2. 动态路由传参 3. 二者的区别 起步,安装 router 路由 因为vue是单页应用…...

Qt/C++最新地图组件发布/历时半年重构/同时支持各种地图内核/包括百度高德腾讯天地图

一、前言说明 最近花了半年时间,专门重构了整个地图组件,之前写的比较粗糙,有点为了完成功能而做的,没有考虑太多拓展性和易用性。这套地图自检这几年大量的实际项目和用户使用下来,反馈了不少很好的建议和意见&#…...

Laravel + Thinkphp 生成二维码

安装依赖 composer require endroid/qr-code 编写ThinkPhP代码 public function index() {// 创建二维码内容$qrCode new QrCode(Hello World);// 设置二维码的配置$qrCode->setSize(300);$qrCode->setMargin(10);// 获取二维码图像$writer new PngWriter();$result…...

2408C++,C++20的无侵入式反射

原文 C17基于结构绑定的编译期反射 事实上不需要宏的编译期反射在C17中已用得很多了,比如struct_pack的编译期反射就不需要宏,因为C17结构绑定可直接得到一个聚集类的成员的引用. struct person {int id;std::string name;int age; }; int main() {person p{1, "tom&qu…...

抽象工厂模式(Abstract factory pattern)- python实现

抽象工厂模式的通俗示例 想象一下,你正在经营一家家具店,你需要从不同的供应商那里采购不同的家具系列。有的供应商提供的是现代风格家具,包括现代沙发、现代椅子和现代桌子;而有的供应商提供的是古典风格家具,包括古…...

adb Connection reset by peer的解决方法

本文同步发于:https://www.cnblogs.com/yeshen-org/p/18350232 最近在编译一个老项目,项目中依赖了很多第三方库,用gradle编译要20-30分钟,而且内存开销很大。 公司配的15G内存的电脑,一次编译能用到14G。 编译的时候&…...

111111111

1111111111111111111...

搜维尔科技:Varjo XR-4使用UE5 打造最具沉浸感的混合现实环境

Varjo XR-4使用UE5打造最具沉浸感的混合现实环境 搜维尔科技:Varjo XR-4使用UE5 打造最具沉浸感的混合现实环境...

从分散到集中:TSINGSEE青犀EasyCVR视频汇聚网关在视频整体监控解决方案中的整合作用

边缘计算视频汇聚网关是基于开放式、大融合、全兼容、标准化的设计架构理念,依据《安全防范视频监控联网系统信息传输、交换、控制技术要求》(GB/T28181-2011)标准开发,集流媒体转发、视频编码、视频管理、标准通信协议、网络穿透…...

React学习-jsx语法

jsx语法,浏览器不认识,需要经过babel编译 https://babeljs.io/ 面试题:jsx的作用? 普通回答:可以在js中返回dom,经过babel编译成js认识的代码import { jsx as _jsx, jsxs as _jsxs } from "react/j…...

uniapp多图上传uni.chooseImage上传照片uni.uploadFile

uniapp多图上传uni.chooseImage上传照片uni.uploadFile 代码示例: /**上传照片 多图*/getImage() {uni.chooseImage({count: 9, //默认9sizeType: [original, compressed], //可以指定是原图还是压缩图,默认二者都有sourceType: [album], //从相册选择/…...

鸿蒙(API 12 Beta2版)媒体开发【处理音频焦点事件】

音频打断策略 多音频并发,即多个音频流同时播放。此场景下,如果系统不加管控,会造成多个音频流混音播放,容易让用户感到嘈杂,造成不好的用户体验。为了解决这个问题,系统预设了音频打断策略,对…...

c语言第12天

指针的引入 为函数修改实参提供支持。 为动态内存管理提供支持。 为动态数据结构提供支持。 为内存访问提供另一种途径。 指针概述 内存地址:系统为了内存管理的方便,将内存划分为一个个的内存单元(1个内存单元占1个字 节)&…...

回归预测|一种多输入多输出的粒子群优化支持向量机数据回归预测Matlab程序PSO-MSVR非for循环实现 原理上进行修改多输出

回归预测|一种多输入多输出的粒子群优化支持向量机数据回归预测Matlab程序PSO-MSVR非for循环实现 原理上进行修改多输出 文章目录 前言回归预测|一种多输入多输出的粒子群优化支持向量机数据回归预测Matlab程序PSO-MSVR非for循环实现 原理上进行修改多输出 一、PSO-MSVR模型1. …...

《花100块做个摸鱼小网站! 》第二篇—后端应用搭建和完成第一个爬虫

一、前言 大家好呀,我是summo,前面已经教会大家怎么去阿里云买服务器(链接在这,需要自取:https://developer.aliyun.com/huodong/dashiblogger?userCodemtbtcjr1),以及怎么搭建JDK、Redis、My…...

Mapreduce_csv_averageCSV文件计算平均值

csv文件求某个平均数据 查询每个部门的平均工资,最后输出 数据处理过程 employee_noheader.csv(没做关于首行的处理,运行时请自行删除) EmployeeID,EmployeeName,DepartmentID,Salary 1,ZhangSan,101,5000 2,LiSi,102,6000…...

将UEC++项目转码成UTF-8

方法一 如果文件不多的话,可以手动一个一个进行修改。添加 “高级保存选项” 手动改为UTF-8 方法二 使用editorconfig文件,统一编码问题。通过:“工具” > “选项”>"文本编辑器" > "C/C" > "代码样式…...

深入探索MySQL C API:使用C语言操作MySQL数据库

目录 引言 一. MySQL C API简介 二. MySQL C API核心函数 2.1 初始化和连接 2.2 配置和执行 2.3 处理结果 2.4 清理和关闭 2.5 错误处理 三. MySQL使用过程 四. 实现CRUD操作 4.1 创建数据库并建立表 ​编辑 4.2 添加数据(Create) ​编辑 …...

武汉流星汇聚:亚马逊助力跨境电商扬帆起航,海外影响力显著提升

在全球化浪潮的推动下,跨境电商已成为连接世界市场的重要桥梁。而在这场跨越国界的商业盛宴中,亚马逊作为全球电商的领军者,以其独特的商业模式、庞大的用户基础,为无数企业提供了前所未有的发展机遇。武汉流星汇聚电子商务有限公…...

ShortURL MCP 集成指南

在今天的数字时代,短链接的生成和管理变得越来越重要。Ace Data Cloud 提供的 ShortURL MCP 服务器,利用 MCP (模型上下文协议),允许 AI 模型(如 Claude、GPT 等)通过标准化接口调用外部工具,从而更加便利地…...

SenseVoice-Small ONNX模型效果惊艳展示:中英粤日韩五语种同步识别样例

SenseVoice-Small ONNX模型效果惊艳展示:中英粤日韩五语种同步识别样例 今天,我想带大家看一个让我眼前一亮的语音识别模型——SenseVoice-Small的ONNX版本。它最吸引我的地方,是能同时识别中文、英文、粤语、日语和韩语,而且速度…...

解决多显示器显示错乱难题:SetDPI带来的视觉一致性变革

解决多显示器显示错乱难题:SetDPI带来的视觉一致性变革 【免费下载链接】SetDPI 项目地址: https://gitcode.com/gh_mirrors/se/SetDPI 问题诊断:当多显示器成为工作障碍 为什么专业人士的多屏工作站反而降低效率?摄影师小林的修图软…...

【实战指南】Windows10链路聚合配置:从LBFO报错到NetSwitchTeam的完美切换

1. 为什么需要链路聚合?从原理到应用场景 当你用笔记本连着WiFi下载大文件时,突然需要视频会议,是不是常遇到网络卡顿?这就是单网口的瓶颈。链路聚合(Link Aggregation)就像把多条车道合并成高速公路&#…...

Gemini 2.0与Gemma混搭开发:手把手教你构建低成本AI代理系统

Gemini 2.0与Gemma混搭开发:构建低成本AI代理系统的实战指南 1. 双轨战略的技术架构设计 谷歌的闭源Gemini与开源Gemma组合为开发者提供了独特的混合部署可能。这种架构设计的核心在于分层处理:将计算密集型任务交给云端Gemini处理,而设备端则…...

OpenClaw学术场景应用:Qwen3-32B镜像辅助论文数据处理

OpenClaw学术场景应用:Qwen3-32B镜像辅助论文数据处理 1. 为什么需要自动化论文数据处理? 作为一名经常需要处理实验数据的研究人员,我过去常常花费大量时间在Excel和Python之间来回切换。数据清洗、格式转换、异常值检测这些重复性工作不仅…...

GLM-4.1V-9B-Base零基础入门:5分钟学会上传图片智能问答

GLM-4.1V-9B-Base零基础入门:5分钟学会上传图片智能问答 1. 认识GLM-4.1V-9B-Base GLM-4.1V-9B-Base是智谱开源的一款视觉多模态理解模型,专门用于处理图像内容识别、场景描述和目标问答等任务。与普通聊天模型不同,它专注于视觉理解能力&a…...

节能模式!OpenClaw优化Qwen3-4B模型夜间任务功耗

节能模式!OpenClaw优化Qwen3-4B模型夜间任务功耗 1. 为什么需要关注OpenClaw的能耗问题 去年夏天,我的MacBook Pro在运行OpenClaw执行夜间数据整理任务时,风扇狂转的声音把我从睡梦中吵醒。摸到发烫的机身时,我突然意识到——这…...

Linux生产环境性能优化:内存优先策略,彻底规避Swap性能损耗

Linux生产环境性能优化:内存优先策略,彻底规避Swap性能损耗 前言 作为深耕企业级运维与安全领域的从业者,我们在Oracle/SAP HANA数据库、VMware虚拟化、K8s云原生集群、PrometheusELK监控体系的生产运维中,最常遇到的性能痛点之一…...

千里科技“AI+车”加速度:2025年营收增长42%、净利翻倍、新业务突破

A股上市公司重庆千里科技股份有限公司(以下简称“千里科技”)今日发布2025年年度报告,公司收入、利润双增长,“AI车”商业化实现突破。报告期内,全年实现营业收入99.99亿元,同比增长42.13%;归母…...