数据分析概述
数据分析概述
- 数据的性质
- 数据的概念
- 数据与信息的区别和联系
- 数据的类型
- 按照度量尺度分
- 按时间状况分
- 什么是数据分析
- 数据分析的重要性
- 数据分析的内容
- 数据分析作用
- 数据分析的基本流程
- 典型的数据分析的流程
- 数据分析方法
- 对比分析法
- 分组分析法
- 定量数据分布分析——具体事例
- 结构分析法
- 平均分析法
- 矩阵关联分析法
- 高级数据分析法
- 数据分析的常用工具
- 数据分析的开发环境
数据的性质
数据的概念
数据:就是描述事物的符号,是对客观事物的性质、 状态和相互关系等进行记载的物理符号或者是这些物理符号的组合。
在计算机系统中:各种文字、字母、数字符号的组合,图形、图像、视频、音频等统称为数据,数据经过加工后就成为了信息。
在现实世界中:天气预报、居民身份证号码、快递单号和火车时刻表中都包含了大量的数据。
数据与信息的区别和联系
- 数据是信息的表现形式和载体,信息则是数据的内涵
- 数据与信息不可分离,信息依赖数据来表达,数据则生动具体表达信息
- 数据是符号的,物理的;信息是用来决策、预测等对数据有意义的表示;
数据的类型
按照度量尺度分
定性数据(也称为计数数据,quantitative data)
a.度量事物进行分类的结果,数据表现为类别
b.用文字来表述。如性别、区域、产品分类等等
定量数据(也称为计量数据, data)
a.度量事物的精确测度,结果表现为具体的数值
b.用数字来表述。如身高、体重、家庭收入、成绩等
按时间状况分
动态数据(也称为时间序列数据,time series data)
a.是按照一定的时间间隔对某一变量在不同时间的取值进行观测得到一组数据
b.反映在不同时间收集到的数据描述现象随时间变化的情况
例如,收集2001-2015年各季度我国各地区国内生产总值(GDP,单位:万亿元)的数据,这些数据变形成时间序列数据。
什么是数据分析
数据分析的重要性
数据分析的内容
- 数据分析是指根据分析目的,利用数学、统计学、计算机科学等相结合的科学统计分析方法,对业务系
统、互联网上的结构化、半结构化和非结构化的数据进行分析,提取有价值的信息,并形成结论进行展 示的过程。 - 数据分析的本质,是通过总结数据的规律,解决业务问题,以帮助在实际工作中的管理者做出判断和决 策。
- 主要包括以下三个内容:
- 现状分析:分析已经发生了什么
- 原因分析:分析为什么会出现这种情况
- 预测分析:分析未来可能发生什么
数据分析作用
(1)通过数据分析,可及时纠正不当的生产和营销措施。
(2)通过数据分析,可以对计划进度做到实时跟踪。
(3)通过数据分析,可以及时了解成本管制情况,掌握员工思想动态。
(4)完善的数据管理和分析,可以对生产流程进行科学管理,最大限度地降低生产管理风险。
数据分析的基本流程
典型的数据分析的流程
➢业务理解:数据分析中的业务理解,也是明确需求,是数据分析环节的第一步和最重要的步骤之一,决定 了后续的分析的方向、方法。
➢ 数据获取:数据是数据分析工作的基础,是指根据需求分析的结果提取,收集数据。
➢ 数据处理:也叫数据预处理是指对数据进行规约、清洗、加工,使得整体数据变为干净整齐,可以直接用 于分析这一过程的总称。
➢数据分析:分析是指通过选择合适的分析方法和工具对数据进行分析建模,发现数据中的有价值信息,并得出结论的过程。
➢验证结果:数据分析的结果是数据主观结果的体现,需要通过真实场景或评测指标进行验证。
➢ 结果展示:以图表方式清晰、直观地呈现数据分析结果,便于理解
➢ 数据应用:也叫部署,是指将通过了正式应用数据分析结果与结论应用至实际生产系统的过程。
数据分析方法
对比分析法
对比分析法也称为比较分析法,是把客观事物加以比较,以达到认识事物的本质和规律并做出正确的评价。对比分析法通常是把两个相互联系的指标数据进行比较,从数量上展示和说明研究对象规模有大小、水平和高低、速度的快慢,以及各种关系是否协调。
对比分析可以选择不同的维度进行分析,常用的有以下维度。
(1)时间维度
(2)空间维度
(3)计划目标标准维度
(4)经验与理论标准维度
分组分析法
分组分析法是根据数据分析对象的特征,按照一定的指标,把数据分析对象划分为不同的部分和类型来进行研究,以揭示其内在的联系和规律性。分组的目的是为了便于对比,因此分组法要和对比法结合运用。分组分析法的关键在于确定组数与组距。
组距分组步骤:
1.确定组数,根据数据的本身特点来确定,组数不能太多也不能太少
2.确定各组的组距。 组距=(最大值-最小值)/组数
3.根据组距的大小,对数据进行分组整理,划归至相应组内。
定量数据分布分析——具体事例
下表是描述菜品捞起生鱼片在2014年第二个季度的销售数据,绘制销售量的频率分布表、频率分布图,对该定量数据做出相应的分析。
第一步:求极差
极差 = 最大值 - 最小值 = 3960-45=3915
第二步:分组
这里根据业务数据的含义,可取组距为500。
组数 = 极差/组距 = 3915/500=7.83=8
第三步:决定分点,如下表:
第四步:绘制频率分布直方图
根据分组区间得到如下表的频率分布表,见下表。其中,第1列把数据所在的范围分成的若干组段,第1个组段要包括最小值,最后一个组段要包括最大值,习惯上将各组段设为左闭右开的半开区间,如第一个分组为[0,500)。第2列组中值是各组段的代表值,由本组段的上、下限相加除以2得到。第3列和第4列分别为频数和频率。第5列是累计频率,是否需要该列,视情况而定。
第五步:绘制频率分布直方图
若以2014年第二季度捞起生鱼片每天的销售额为横轴,以各组段的频率密度(频率与组距之比)为纵轴,表3‑3的数据可绘制成频率分布直方图,见图:
结构分析法
结构分析法是指分析总体内的各部分与总体之间进行对比的分析方法,即总体内各部分占总体的比例,属于相对指标。一般某部分的比例越大,说明其重要程度越高,对总体的影响越大。
结构相对指标(比例)的计算公式:
结构相对指标(比例)=(总体某部分的数值/总体总量)×100%
市场占有率=(某种商品销售量/该种商品市场销售总量)×100%
平均分析法
平均分析法就是运用计算平均数的方法来反映总体在一定时间、地点条件下某一数量特征的一般水平。平均指标可用于同一现象的不同地区、不同部门或单位间的对比,还可用于同一现象在不同时间的对比。
算术平均数的计算公式:
算术平均数=总体各单位数值的总和/总体单位个数
特点:
算术平均数是非常重要的基础性指标。平均数是综合指标,它的特点是将总体内各单位的数量差异抽象化,它只能代表总体的一般水平,掩盖了在平均数后各单位的差异。
矩阵关联分析法
根据事物(如产品、服务等)的两个重要属性(指标)作为分析的依据,进行分类关联分析,找出解决问题的一种分析方法,也成为矩阵关联分析方法。
(1)第一象限(高度关注区):属于重要性高、满意度也高的象限。
(2)第二象限(优先改进区):属于重要性高、但满意度低的象限。
(3)第三象限(无关紧要区):属于重要性低、满意度也低的象限。
(4)第四象限(维持优势区):属于重要性低、满意度高的象限。
高级数据分析法
- 聚类分析
- 相关分析
- 回归分析
…
数据分析的常用工具
目前主流的数据分析语言有R, Python, MATLAB三种程序语言。
Python 数据分析主要包含以下 5 个方面优势
➢语法简单精练。对于初学者来说,比起其他编程语言, Python更容易上手。
➢ 有很强大的库。可以只使用Python这一种语言去构建以数据为中心的应用程序。
➢ 功能强大。 Python是一个混合体,丰富的工具集使它介于传统的脚本语言和系统语言之间。 Python不仅具 备所有脚本语言简单和易用的特点,还提供了编译语言所具有的高级软件工程工具。
➢ 不仅适用于研究和原型构建,同时也适用于构建生产系统。研究人员和工程技术人员使用同一种编程工具,会给企业带来非常显著的组织效益,并降低企业的运营成本。
➢ Python是一门胶水语言。 Python程序能够以多种方式轻易地与其他语言的组件“粘接”在一起。
数据分析的开发环境
相关文章:

数据分析概述
数据分析概述 数据的性质数据的概念数据与信息的区别和联系 数据的类型按照度量尺度分按时间状况分 什么是数据分析数据分析的重要性数据分析的内容数据分析作用 数据分析的基本流程典型的数据分析的流程 数据分析方法对比分析法分组分析法定量数据分布分析——具体事例 结构分…...

网络编程初识
如果这篇有没接触过的知识点,请转到网络编程先导知识_小梁今天敲代码了吗的博客-CSDN博客 目录 IPv4和IPv6的概念: 子网掩码 默认网关 ping命令 端口 OSI网络分层模型 TCP/IP四层模型 字节序转换函数 IP地址转换 上一篇介绍了网络编程的先导知…...

软考A计划-试题模拟含答案解析-卷十二
点击跳转专栏>Unity3D特效百例点击跳转专栏>案例项目实战源码点击跳转专栏>游戏脚本-辅助自动化点击跳转专栏>Android控件全解手册点击跳转专栏>Scratch编程案例 👉关于作者 专注于Android/Unity和各种游戏开发技巧,以及各种资源分享&am…...

I.MX RT1170加密启动详解(1):Encrypted Boot image组成
使用RT1170芯片构建的所有平台一般都是高端场合,我们需要考虑软件的安全需求。该芯片集成了一系列安全功能。这些特性中的大多数提供针对特定类型攻击的保护,并且可以根据所需的保护程度配置为不同的级别。这些特性可以协同工作,也可以独立工…...

Linux---用户切换命令(su命令、sudo命令、exit命令)
1. su命令 root用户拥有最大的系统操作权限,而普通用户在许多地方的权限是受限的。 普通用户的权限,一般在其HOME目录内是不受限的。 一旦出了HOME目录,大多数地方,普通用户仅有只读和执行权限,无修改权限。 su 是…...

手机图片怎么提取文字?高效渠道一览
随着智能手机的普及,我们现在可以随时随地使用手机拍照记录生活中的点滴。然而,有时候我们拍照之后可能需要提取图片中的文字,比如拍下的菜谱、公告、名片等等。这时,我们就需要使用手机图片提取文字的功能。 - 采用OCR技术拍照识…...

Elasticsearch 聚合数据结果不精确问题解决方案
Elasticsearch 聚合数据结果不精确 背景 近期我们项目中出现使用ES聚合某个索引的数据取TOP 10的数据和相同条件下查询所有数据然后按数据量排序取的TOP 10的数据不一致的问题。 下面我们简单分析一下这个问题,列出一些常见的解决方案。 问题 Elasticsearch分片…...
Qt经典面试题:Qt开启线程的几种方式
方法一:从QThread类派生 ①创建一个类从QThread类派生 ②在子线程类中重写 run 函数, 将处理操作写入该函数中 ③在主线程中创建子线程对象, 启动子线程,调用start()函数 这种方法涉及到创建一个从QThread类派生的子类,并在该子类中重写run()函数。处理操…...

使用chartgtp写Android代码
<LinearLayout android:layout_width"match_parent" android:layout_height"match_parent" android:orientation"horizontal"> <TextView android:id"id/姓名" …...

【C++】4.jsoncpp库:jsoncpp库安装与使用入门
😏★,:.☆( ̄▽ ̄)/$:.★ 😏 这篇文章主要介绍jsoncpp的使用。 学其所用,用其所学。——梁启超 欢迎来到我的博客,一起学习知识,共同进步。 喜欢的朋友可以关注一下,下次更新不迷路&am…...

HTML、CSS、 JavaScript介绍(二)
CSS 指层叠样式表 (Cascading Style Sheets),CSS定义如何显示 HTML 元素。HTML 标签原本被设计为用于定义文档内容,样式表定义如何显示 HTML 元素,就像 HTML 中的字体标签和颜色属性所起的作用那样。样式通常保存在外部的 .css 文件中。我们只…...
高效益的淘客APP要怎么开发,需要哪些功能
现在各大淘客app都有移动端的app,但是一直不知道如何推广出去。客app想要赚钱,要思考怎么推广淘客app,推广适用于非常执行力的人。淘客app推广首要第一条,产品要好,app要好,返利要高,用户才会使…...

Java基础--->IO流(2)【常见IO模型】
文章目录 计算机角度IO操作系统IO常见的IO模型Java 中 3 种常见 IO 模型BIO(BlockingI/O)【同步阻塞IO】NIO(Non-blocking/New I/O)【非阻塞IO】IO多路复用AIO(Asynchronous I/O)【异步IO】 计算机角度IO 根…...
JavaScript let 和 const
在JavaScript中,let和const是用于声明变量的关键字。 let关键字用于声明一个块级作用域的变量。块级作用域是指在一个代码块(通常是在花括号 {} 内部)中声明的变量只在该代码块内部有效。例如: javascript function example() {…...
云原生下多集群的监控系统背景、架构设计与实现
随着云原生技术的普及,越来越多的企业开始采用多集群部署方案来提高系统的可用性和灵活性。在这种情况下,如何有效地监控多个集群的运行状态,成为了云原生架构下的一个重要问题。 多集群监控系统需要考虑以下几个方面的问题: 监…...

利用OpenCV处理图像
OpenCV是非常流行的图像处理库,下面介绍一下其对图像的基本操作。 1. 安装与环境 安装还有点儿复杂的,但百度几篇博客基本能解决,这里就不多说了。 安装好后,要在工程中使用OpenCV的头文件和库,需要在CMakeLists.tx…...
【面试实战】SpringIoC、AOP、MVC面试实战
version:1.0 文章目录 SpringSpring基础 / IoC🙎♂️面试官:举例Spring的模块?🙎♂️面试官:Spring、SpringMVC、Spring Boot关系?🙎♂️面试官:说说对SpringIoC的了解?🙎♂️面试官:什么是Spring Bean?🙎♂️面试官:Bean的作用域?🙎♂️面…...
[Redis 分布式锁 ]
目录 前言: 使用场景: 基于 Redis 实现分布式锁的详细示例: 使用示例: 依赖: Redis分布式锁控制并发访问: 前言: 记录一些小笔记 , 如果对你有帮助 那就更好了 使用场景: Redis 实现分布式锁的使用场景包括: 防止重复操作…...
如何创建Vue实例?Vue实例有哪些属性和方法
Vue实例就是Vue的实例化对象,就像你有一个iPhone,那么iPhone就是你的实例化对象。要创建Vue实例,就像你想拥有一部iPhone一样,首先要有一个设计图。 这个设计图就相当于Vue实例的options对象,你可以设置它的属性&…...

InnoDB Cluster集群Mysql Router代理层最佳实践
InnoDB Cluster 集群 & Mysql-Router 代理层 前言 Mysql是现今最常用的关系型数据库之一,高可用一直是我们对软件服务的要求。常见的Mysql高可用是主从配置,在主节点挂掉后需要依赖监控脚本进行主从切换将从节点升级,后台服务代码层面也…...

【HarmonyOS 5.0】DevEco Testing:鸿蒙应用质量保障的终极武器
——全方位测试解决方案与代码实战 一、工具定位与核心能力 DevEco Testing是HarmonyOS官方推出的一体化测试平台,覆盖应用全生命周期测试需求,主要提供五大核心能力: 测试类型检测目标关键指标功能体验基…...

让AI看见世界:MCP协议与服务器的工作原理
让AI看见世界:MCP协议与服务器的工作原理 MCP(Model Context Protocol)是一种创新的通信协议,旨在让大型语言模型能够安全、高效地与外部资源进行交互。在AI技术快速发展的今天,MCP正成为连接AI与现实世界的重要桥梁。…...

多模态大语言模型arxiv论文略读(108)
CROME: Cross-Modal Adapters for Efficient Multimodal LLM ➡️ 论文标题:CROME: Cross-Modal Adapters for Efficient Multimodal LLM ➡️ 论文作者:Sayna Ebrahimi, Sercan O. Arik, Tejas Nama, Tomas Pfister ➡️ 研究机构: Google Cloud AI Re…...
4. TypeScript 类型推断与类型组合
一、类型推断 (一) 什么是类型推断 TypeScript 的类型推断会根据变量、函数返回值、对象和数组的赋值和使用方式,自动确定它们的类型。 这一特性减少了显式类型注解的需要,在保持类型安全的同时简化了代码。通过分析上下文和初始值,TypeSc…...

R 语言科研绘图第 55 期 --- 网络图-聚类
在发表科研论文的过程中,科研绘图是必不可少的,一张好看的图形会是文章很大的加分项。 为了便于使用,本系列文章介绍的所有绘图都已收录到了 sciRplot 项目中,获取方式: R 语言科研绘图模板 --- sciRplothttps://mp.…...

嵌入式学习之系统编程(九)OSI模型、TCP/IP模型、UDP协议网络相关编程(6.3)
目录 一、网络编程--OSI模型 二、网络编程--TCP/IP模型 三、网络接口 四、UDP网络相关编程及主要函数 编辑编辑 UDP的特征 socke函数 bind函数 recvfrom函数(接收函数) sendto函数(发送函数) 五、网络编程之 UDP 用…...
[USACO23FEB] Bakery S
题目描述 Bessie 开了一家面包店! 在她的面包店里,Bessie 有一个烤箱,可以在 t C t_C tC 的时间内生产一块饼干或在 t M t_M tM 单位时间内生产一块松糕。 ( 1 ≤ t C , t M ≤ 10 9 ) (1 \le t_C,t_M \le 10^9) (1≤tC,tM≤109)。由于空间…...
Python常用模块:time、os、shutil与flask初探
一、Flask初探 & PyCharm终端配置 目的: 快速搭建小型Web服务器以提供数据。 工具: 第三方Web框架 Flask (需 pip install flask 安装)。 安装 Flask: 建议: 使用 PyCharm 内置的 Terminal (模拟命令行) 进行安装,避免频繁切换。 PyCharm Terminal 配置建议: 打开 Py…...

CTF show 数学不及格
拿到题目先查一下壳,看一下信息 发现是一个ELF文件,64位的 用IDA Pro 64 打开这个文件 然后点击F5进行伪代码转换 可以看到有五个if判断,第一个argc ! 5这个判断并没有起太大作用,主要是下面四个if判断 根据题目…...
比特币:固若金汤的数字堡垒与它的四道防线
第一道防线:机密信函——无法破解的哈希加密 将每一笔比特币交易比作一封在堡垒内部传递的机密信函。 解释“哈希”(Hashing)就是一种军事级的加密术(SHA-256),能将信函内容(交易细节…...