数据分析概述
数据分析概述
- 数据的性质
- 数据的概念
- 数据与信息的区别和联系
- 数据的类型
- 按照度量尺度分
- 按时间状况分
- 什么是数据分析
- 数据分析的重要性
- 数据分析的内容
- 数据分析作用
- 数据分析的基本流程
- 典型的数据分析的流程
- 数据分析方法
- 对比分析法
- 分组分析法
- 定量数据分布分析——具体事例
- 结构分析法
- 平均分析法
- 矩阵关联分析法
- 高级数据分析法
- 数据分析的常用工具
- 数据分析的开发环境
数据的性质
数据的概念
数据:就是描述事物的符号,是对客观事物的性质、 状态和相互关系等进行记载的物理符号或者是这些物理符号的组合。
在计算机系统中:各种文字、字母、数字符号的组合,图形、图像、视频、音频等统称为数据,数据经过加工后就成为了信息。
在现实世界中:天气预报、居民身份证号码、快递单号和火车时刻表中都包含了大量的数据。
数据与信息的区别和联系
- 数据是信息的表现形式和载体,信息则是数据的内涵
- 数据与信息不可分离,信息依赖数据来表达,数据则生动具体表达信息
- 数据是符号的,物理的;信息是用来决策、预测等对数据有意义的表示;
数据的类型
按照度量尺度分
定性数据(也称为计数数据,quantitative data)
a.度量事物进行分类的结果,数据表现为类别
b.用文字来表述。如性别、区域、产品分类等等
定量数据(也称为计量数据, data)
a.度量事物的精确测度,结果表现为具体的数值
b.用数字来表述。如身高、体重、家庭收入、成绩等

按时间状况分
动态数据(也称为时间序列数据,time series data)
a.是按照一定的时间间隔对某一变量在不同时间的取值进行观测得到一组数据
b.反映在不同时间收集到的数据描述现象随时间变化的情况
例如,收集2001-2015年各季度我国各地区国内生产总值(GDP,单位:万亿元)的数据,这些数据变形成时间序列数据。

什么是数据分析
数据分析的重要性


数据分析的内容
- 数据分析是指根据分析目的,利用数学、统计学、计算机科学等相结合的科学统计分析方法,对业务系
统、互联网上的结构化、半结构化和非结构化的数据进行分析,提取有价值的信息,并形成结论进行展 示的过程。 - 数据分析的本质,是通过总结数据的规律,解决业务问题,以帮助在实际工作中的管理者做出判断和决 策。
- 主要包括以下三个内容:
- 现状分析:分析已经发生了什么
- 原因分析:分析为什么会出现这种情况
- 预测分析:分析未来可能发生什么
数据分析作用
(1)通过数据分析,可及时纠正不当的生产和营销措施。
(2)通过数据分析,可以对计划进度做到实时跟踪。
(3)通过数据分析,可以及时了解成本管制情况,掌握员工思想动态。
(4)完善的数据管理和分析,可以对生产流程进行科学管理,最大限度地降低生产管理风险。
数据分析的基本流程
典型的数据分析的流程

➢业务理解:数据分析中的业务理解,也是明确需求,是数据分析环节的第一步和最重要的步骤之一,决定 了后续的分析的方向、方法。
➢ 数据获取:数据是数据分析工作的基础,是指根据需求分析的结果提取,收集数据。
➢ 数据处理:也叫数据预处理是指对数据进行规约、清洗、加工,使得整体数据变为干净整齐,可以直接用 于分析这一过程的总称。
➢数据分析:分析是指通过选择合适的分析方法和工具对数据进行分析建模,发现数据中的有价值信息,并得出结论的过程。
➢验证结果:数据分析的结果是数据主观结果的体现,需要通过真实场景或评测指标进行验证。
➢ 结果展示:以图表方式清晰、直观地呈现数据分析结果,便于理解
➢ 数据应用:也叫部署,是指将通过了正式应用数据分析结果与结论应用至实际生产系统的过程。
数据分析方法
对比分析法
对比分析法也称为比较分析法,是把客观事物加以比较,以达到认识事物的本质和规律并做出正确的评价。对比分析法通常是把两个相互联系的指标数据进行比较,从数量上展示和说明研究对象规模有大小、水平和高低、速度的快慢,以及各种关系是否协调。
对比分析可以选择不同的维度进行分析,常用的有以下维度。
(1)时间维度
(2)空间维度
(3)计划目标标准维度
(4)经验与理论标准维度
分组分析法
分组分析法是根据数据分析对象的特征,按照一定的指标,把数据分析对象划分为不同的部分和类型来进行研究,以揭示其内在的联系和规律性。分组的目的是为了便于对比,因此分组法要和对比法结合运用。分组分析法的关键在于确定组数与组距。
组距分组步骤:
1.确定组数,根据数据的本身特点来确定,组数不能太多也不能太少
2.确定各组的组距。 组距=(最大值-最小值)/组数
3.根据组距的大小,对数据进行分组整理,划归至相应组内。
定量数据分布分析——具体事例
下表是描述菜品捞起生鱼片在2014年第二个季度的销售数据,绘制销售量的频率分布表、频率分布图,对该定量数据做出相应的分析。

第一步:求极差
极差 = 最大值 - 最小值 = 3960-45=3915
第二步:分组
这里根据业务数据的含义,可取组距为500。
组数 = 极差/组距 = 3915/500=7.83=8
第三步:决定分点,如下表:

第四步:绘制频率分布直方图
根据分组区间得到如下表的频率分布表,见下表。其中,第1列把数据所在的范围分成的若干组段,第1个组段要包括最小值,最后一个组段要包括最大值,习惯上将各组段设为左闭右开的半开区间,如第一个分组为[0,500)。第2列组中值是各组段的代表值,由本组段的上、下限相加除以2得到。第3列和第4列分别为频数和频率。第5列是累计频率,是否需要该列,视情况而定。

第五步:绘制频率分布直方图
若以2014年第二季度捞起生鱼片每天的销售额为横轴,以各组段的频率密度(频率与组距之比)为纵轴,表3‑3的数据可绘制成频率分布直方图,见图:

结构分析法
结构分析法是指分析总体内的各部分与总体之间进行对比的分析方法,即总体内各部分占总体的比例,属于相对指标。一般某部分的比例越大,说明其重要程度越高,对总体的影响越大。
结构相对指标(比例)的计算公式:
结构相对指标(比例)=(总体某部分的数值/总体总量)×100%
市场占有率=(某种商品销售量/该种商品市场销售总量)×100%
平均分析法
平均分析法就是运用计算平均数的方法来反映总体在一定时间、地点条件下某一数量特征的一般水平。平均指标可用于同一现象的不同地区、不同部门或单位间的对比,还可用于同一现象在不同时间的对比。
算术平均数的计算公式:
算术平均数=总体各单位数值的总和/总体单位个数
特点:
算术平均数是非常重要的基础性指标。平均数是综合指标,它的特点是将总体内各单位的数量差异抽象化,它只能代表总体的一般水平,掩盖了在平均数后各单位的差异。
矩阵关联分析法
根据事物(如产品、服务等)的两个重要属性(指标)作为分析的依据,进行分类关联分析,找出解决问题的一种分析方法,也成为矩阵关联分析方法。

(1)第一象限(高度关注区):属于重要性高、满意度也高的象限。
(2)第二象限(优先改进区):属于重要性高、但满意度低的象限。
(3)第三象限(无关紧要区):属于重要性低、满意度也低的象限。
(4)第四象限(维持优势区):属于重要性低、满意度高的象限。
高级数据分析法
- 聚类分析
- 相关分析
- 回归分析
…
数据分析的常用工具
目前主流的数据分析语言有R, Python, MATLAB三种程序语言。

Python 数据分析主要包含以下 5 个方面优势
➢语法简单精练。对于初学者来说,比起其他编程语言, Python更容易上手。
➢ 有很强大的库。可以只使用Python这一种语言去构建以数据为中心的应用程序。
➢ 功能强大。 Python是一个混合体,丰富的工具集使它介于传统的脚本语言和系统语言之间。 Python不仅具 备所有脚本语言简单和易用的特点,还提供了编译语言所具有的高级软件工程工具。
➢ 不仅适用于研究和原型构建,同时也适用于构建生产系统。研究人员和工程技术人员使用同一种编程工具,会给企业带来非常显著的组织效益,并降低企业的运营成本。
➢ Python是一门胶水语言。 Python程序能够以多种方式轻易地与其他语言的组件“粘接”在一起。
数据分析的开发环境

相关文章:
数据分析概述
数据分析概述 数据的性质数据的概念数据与信息的区别和联系 数据的类型按照度量尺度分按时间状况分 什么是数据分析数据分析的重要性数据分析的内容数据分析作用 数据分析的基本流程典型的数据分析的流程 数据分析方法对比分析法分组分析法定量数据分布分析——具体事例 结构分…...
网络编程初识
如果这篇有没接触过的知识点,请转到网络编程先导知识_小梁今天敲代码了吗的博客-CSDN博客 目录 IPv4和IPv6的概念: 子网掩码 默认网关 ping命令 端口 OSI网络分层模型 TCP/IP四层模型 字节序转换函数 IP地址转换 上一篇介绍了网络编程的先导知…...
软考A计划-试题模拟含答案解析-卷十二
点击跳转专栏>Unity3D特效百例点击跳转专栏>案例项目实战源码点击跳转专栏>游戏脚本-辅助自动化点击跳转专栏>Android控件全解手册点击跳转专栏>Scratch编程案例 👉关于作者 专注于Android/Unity和各种游戏开发技巧,以及各种资源分享&am…...
I.MX RT1170加密启动详解(1):Encrypted Boot image组成
使用RT1170芯片构建的所有平台一般都是高端场合,我们需要考虑软件的安全需求。该芯片集成了一系列安全功能。这些特性中的大多数提供针对特定类型攻击的保护,并且可以根据所需的保护程度配置为不同的级别。这些特性可以协同工作,也可以独立工…...
Linux---用户切换命令(su命令、sudo命令、exit命令)
1. su命令 root用户拥有最大的系统操作权限,而普通用户在许多地方的权限是受限的。 普通用户的权限,一般在其HOME目录内是不受限的。 一旦出了HOME目录,大多数地方,普通用户仅有只读和执行权限,无修改权限。 su 是…...
手机图片怎么提取文字?高效渠道一览
随着智能手机的普及,我们现在可以随时随地使用手机拍照记录生活中的点滴。然而,有时候我们拍照之后可能需要提取图片中的文字,比如拍下的菜谱、公告、名片等等。这时,我们就需要使用手机图片提取文字的功能。 - 采用OCR技术拍照识…...
Elasticsearch 聚合数据结果不精确问题解决方案
Elasticsearch 聚合数据结果不精确 背景 近期我们项目中出现使用ES聚合某个索引的数据取TOP 10的数据和相同条件下查询所有数据然后按数据量排序取的TOP 10的数据不一致的问题。 下面我们简单分析一下这个问题,列出一些常见的解决方案。 问题 Elasticsearch分片…...
Qt经典面试题:Qt开启线程的几种方式
方法一:从QThread类派生 ①创建一个类从QThread类派生 ②在子线程类中重写 run 函数, 将处理操作写入该函数中 ③在主线程中创建子线程对象, 启动子线程,调用start()函数 这种方法涉及到创建一个从QThread类派生的子类,并在该子类中重写run()函数。处理操…...
使用chartgtp写Android代码
<LinearLayout android:layout_width"match_parent" android:layout_height"match_parent" android:orientation"horizontal"> <TextView android:id"id/姓名" …...
【C++】4.jsoncpp库:jsoncpp库安装与使用入门
😏★,:.☆( ̄▽ ̄)/$:.★ 😏 这篇文章主要介绍jsoncpp的使用。 学其所用,用其所学。——梁启超 欢迎来到我的博客,一起学习知识,共同进步。 喜欢的朋友可以关注一下,下次更新不迷路&am…...
HTML、CSS、 JavaScript介绍(二)
CSS 指层叠样式表 (Cascading Style Sheets),CSS定义如何显示 HTML 元素。HTML 标签原本被设计为用于定义文档内容,样式表定义如何显示 HTML 元素,就像 HTML 中的字体标签和颜色属性所起的作用那样。样式通常保存在外部的 .css 文件中。我们只…...
高效益的淘客APP要怎么开发,需要哪些功能
现在各大淘客app都有移动端的app,但是一直不知道如何推广出去。客app想要赚钱,要思考怎么推广淘客app,推广适用于非常执行力的人。淘客app推广首要第一条,产品要好,app要好,返利要高,用户才会使…...
Java基础--->IO流(2)【常见IO模型】
文章目录 计算机角度IO操作系统IO常见的IO模型Java 中 3 种常见 IO 模型BIO(BlockingI/O)【同步阻塞IO】NIO(Non-blocking/New I/O)【非阻塞IO】IO多路复用AIO(Asynchronous I/O)【异步IO】 计算机角度IO 根…...
JavaScript let 和 const
在JavaScript中,let和const是用于声明变量的关键字。 let关键字用于声明一个块级作用域的变量。块级作用域是指在一个代码块(通常是在花括号 {} 内部)中声明的变量只在该代码块内部有效。例如: javascript function example() {…...
云原生下多集群的监控系统背景、架构设计与实现
随着云原生技术的普及,越来越多的企业开始采用多集群部署方案来提高系统的可用性和灵活性。在这种情况下,如何有效地监控多个集群的运行状态,成为了云原生架构下的一个重要问题。 多集群监控系统需要考虑以下几个方面的问题: 监…...
利用OpenCV处理图像
OpenCV是非常流行的图像处理库,下面介绍一下其对图像的基本操作。 1. 安装与环境 安装还有点儿复杂的,但百度几篇博客基本能解决,这里就不多说了。 安装好后,要在工程中使用OpenCV的头文件和库,需要在CMakeLists.tx…...
【面试实战】SpringIoC、AOP、MVC面试实战
version:1.0 文章目录 SpringSpring基础 / IoC🙎♂️面试官:举例Spring的模块?🙎♂️面试官:Spring、SpringMVC、Spring Boot关系?🙎♂️面试官:说说对SpringIoC的了解?🙎♂️面试官:什么是Spring Bean?🙎♂️面试官:Bean的作用域?🙎♂️面…...
[Redis 分布式锁 ]
目录 前言: 使用场景: 基于 Redis 实现分布式锁的详细示例: 使用示例: 依赖: Redis分布式锁控制并发访问: 前言: 记录一些小笔记 , 如果对你有帮助 那就更好了 使用场景: Redis 实现分布式锁的使用场景包括: 防止重复操作…...
如何创建Vue实例?Vue实例有哪些属性和方法
Vue实例就是Vue的实例化对象,就像你有一个iPhone,那么iPhone就是你的实例化对象。要创建Vue实例,就像你想拥有一部iPhone一样,首先要有一个设计图。 这个设计图就相当于Vue实例的options对象,你可以设置它的属性&…...
InnoDB Cluster集群Mysql Router代理层最佳实践
InnoDB Cluster 集群 & Mysql-Router 代理层 前言 Mysql是现今最常用的关系型数据库之一,高可用一直是我们对软件服务的要求。常见的Mysql高可用是主从配置,在主节点挂掉后需要依赖监控脚本进行主从切换将从节点升级,后台服务代码层面也…...
React Native 开发环境搭建(全平台详解)
React Native 开发环境搭建(全平台详解) 在开始使用 React Native 开发移动应用之前,正确设置开发环境是至关重要的一步。本文将为你提供一份全面的指南,涵盖 macOS 和 Windows 平台的配置步骤,如何在 Android 和 iOS…...
【Web 进阶篇】优雅的接口设计:统一响应、全局异常处理与参数校验
系列回顾: 在上一篇中,我们成功地为应用集成了数据库,并使用 Spring Data JPA 实现了基本的 CRUD API。我们的应用现在能“记忆”数据了!但是,如果你仔细审视那些 API,会发现它们还很“粗糙”:有…...
Web 架构之 CDN 加速原理与落地实践
文章目录 一、思维导图二、正文内容(一)CDN 基础概念1. 定义2. 组成部分 (二)CDN 加速原理1. 请求路由2. 内容缓存3. 内容更新 (三)CDN 落地实践1. 选择 CDN 服务商2. 配置 CDN3. 集成到 Web 架构 …...
初学 pytest 记录
安装 pip install pytest用例可以是函数也可以是类中的方法 def test_func():print()class TestAdd: # def __init__(self): 在 pytest 中不可以使用__init__方法 # self.cc 12345 pytest.mark.api def test_str(self):res add(1, 2)assert res 12def test_int(self):r…...
人机融合智能 | “人智交互”跨学科新领域
本文系统地提出基于“以人为中心AI(HCAI)”理念的人-人工智能交互(人智交互)这一跨学科新领域及框架,定义人智交互领域的理念、基本理论和关键问题、方法、开发流程和参与团队等,阐述提出人智交互新领域的意义。然后,提出人智交互研究的三种新范式取向以及它们的意义。最后,总结…...
Java毕业设计:WML信息查询与后端信息发布系统开发
JAVAWML信息查询与后端信息发布系统实现 一、系统概述 本系统基于Java和WML(无线标记语言)技术开发,实现了移动设备上的信息查询与后端信息发布功能。系统采用B/S架构,服务器端使用Java Servlet处理请求,数据库采用MySQL存储信息࿰…...
iview框架主题色的应用
1.下载 less要使用3.0.0以下的版本 npm install less2.7.3 npm install less-loader4.0.52./src/config/theme.js文件 module.exports {yellow: {theme-color: #FDCE04},blue: {theme-color: #547CE7} }在sass中使用theme配置的颜色主题,无需引入,直接可…...
Golang——9、反射和文件操作
反射和文件操作 1、反射1.1、reflect.TypeOf()获取任意值的类型对象1.2、reflect.ValueOf()1.3、结构体反射 2、文件操作2.1、os.Open()打开文件2.2、方式一:使用Read()读取文件2.3、方式二:bufio读取文件2.4、方式三:os.ReadFile读取2.5、写…...
为什么要创建 Vue 实例
核心原因:Vue 需要一个「控制中心」来驱动整个应用 你可以把 Vue 实例想象成你应用的**「大脑」或「引擎」。它负责协调模板、数据、逻辑和行为,将它们变成一个活的、可交互的应用**。没有这个实例,你的代码只是一堆静态的 HTML、JavaScript 变量和函数,无法「活」起来。 …...
日常一水C
多态 言简意赅:就是一个对象面对同一事件时做出的不同反应 而之前的继承中说过,当子类和父类的函数名相同时,会隐藏父类的同名函数转而调用子类的同名函数,如果要调用父类的同名函数,那么就需要对父类进行引用&#…...
