当前位置: 首页 > news >正文

数据分析概述

数据分析概述

  • 数据的性质
    • 数据的概念
      • 数据与信息的区别和联系
    • 数据的类型
      • 按照度量尺度分
      • 按时间状况分
  • 什么是数据分析
    • 数据分析的重要性
    • 数据分析的内容
    • 数据分析作用
  • 数据分析的基本流程
    • 典型的数据分析的流程
  • 数据分析方法
    • 对比分析法
    • 分组分析法
      • 定量数据分布分析——具体事例
    • 结构分析法
    • 平均分析法
    • 矩阵关联分析法
    • 高级数据分析法
  • 数据分析的常用工具
  • 数据分析的开发环境

数据的性质

数据的概念

数据:就是描述事物的符号,是对客观事物的性质、 状态和相互关系等进行记载的物理符号或者是这些物理符号的组合。
在计算机系统中:各种文字、字母、数字符号的组合,图形、图像、视频、音频等统称为数据,数据经过加工后就成为了信息。
在现实世界中:天气预报、居民身份证号码、快递单号和火车时刻表中都包含了大量的数据。

数据与信息的区别和联系

  • 数据是信息的表现形式和载体,信息则是数据的内涵
  • 数据与信息不可分离,信息依赖数据来表达,数据则生动具体表达信息
  • 数据是符号的,物理的;信息是用来决策、预测等对数据有意义的表示;

数据的类型

按照度量尺度分

定性数据(也称为计数数据,quantitative data)
a.度量事物进行分类的结果,数据表现为类别
b.用文字来表述。如性别、区域、产品分类等等
定量数据(也称为计量数据, data)
a.度量事物的精确测度,结果表现为具体的数值
b.用数字来表述。如身高、体重、家庭收入、成绩等
在这里插入图片描述

按时间状况分

动态数据(也称为时间序列数据,time series data)
a.是按照一定的时间间隔对某一变量在不同时间的取值进行观测得到一组数据
b.反映在不同时间收集到的数据描述现象随时间变化的情况
例如,收集2001-2015年各季度我国各地区国内生产总值(GDP,单位:万亿元)的数据,这些数据变形成时间序列数据。
在这里插入图片描述

什么是数据分析

数据分析的重要性

在这里插入图片描述
在这里插入图片描述

数据分析的内容

  • 数据分析是指根据分析目的,利用数学、统计学、计算机科学等相结合的科学统计分析方法,对业务系
    统、互联网上的结构化、半结构化和非结构化的数据进行分析,提取有价值的信息,并形成结论进行展 示的过程。
  • 数据分析的本质,是通过总结数据的规律,解决业务问题,以帮助在实际工作中的管理者做出判断和决 策。
  • 主要包括以下三个内容:
    • 现状分析:分析已经发生了什么
    • 原因分析:分析为什么会出现这种情况
    • 预测分析:分析未来可能发生什么

数据分析作用

(1)通过数据分析,可及时纠正不当的生产和营销措施。
(2)通过数据分析,可以对计划进度做到实时跟踪。
(3)通过数据分析,可以及时了解成本管制情况,掌握员工思想动态。
(4)完善的数据管理和分析,可以对生产流程进行科学管理,最大限度地降低生产管理风险。

数据分析的基本流程

典型的数据分析的流程

在这里插入图片描述
业务理解:数据分析中的业务理解,也是明确需求,是数据分析环节的第一步和最重要的步骤之一,决定 了后续的分析的方向、方法。

数据获取:数据是数据分析工作的基础,是指根据需求分析的结果提取,收集数据。

数据处理:也叫数据预处理是指对数据进行规约、清洗、加工,使得整体数据变为干净整齐,可以直接用 于分析这一过程的总称。
数据分析:分析是指通过选择合适的分析方法和工具对数据进行分析建模,发现数据中的有价值信息,并得出结论的过程。
验证结果:数据分析的结果是数据主观结果的体现,需要通过真实场景或评测指标进行验证。
结果展示:以图表方式清晰、直观地呈现数据分析结果,便于理解

数据应用:也叫部署,是指将通过了正式应用数据分析结果与结论应用至实际生产系统的过程。

数据分析方法

对比分析法

对比分析法也称为比较分析法,是把客观事物加以比较,以达到认识事物的本质和规律并做出正确的评价。对比分析法通常是把两个相互联系的指标数据进行比较,从数量上展示和说明研究对象规模有大小、水平和高低、速度的快慢,以及各种关系是否协调。
对比分析可以选择不同的维度进行分析,常用的有以下维度。
(1)时间维度
(2)空间维度
(3)计划目标标准维度
(4)经验与理论标准维度

分组分析法

分组分析法是根据数据分析对象的特征,按照一定的指标,把数据分析对象划分为不同的部分和类型来进行研究,以揭示其内在的联系和规律性。分组的目的是为了便于对比,因此分组法要和对比法结合运用。分组分析法的关键在于确定组数与组距。
组距分组步骤:
1.确定组数,根据数据的本身特点来确定,组数不能太多也不能太少
2.确定各组的组距。 组距=(最大值-最小值)/组数
3.根据组距的大小,对数据进行分组整理,划归至相应组内。

定量数据分布分析——具体事例

下表是描述菜品捞起生鱼片在2014年第二个季度的销售数据,绘制销售量的频率分布表、频率分布图,对该定量数据做出相应的分析。
在这里插入图片描述
第一步:求极差
极差 = 最大值 - 最小值 = 3960-45=3915
第二步:分组
这里根据业务数据的含义,可取组距为500。
组数 = 极差/组距 = 3915/500=7.83=8
第三步:决定分点,如下表:
在这里插入图片描述
第四步:绘制频率分布直方图
根据分组区间得到如下表的频率分布表,见下表。其中,第1列把数据所在的范围分成的若干组段,第1个组段要包括最小值,最后一个组段要包括最大值,习惯上将各组段设为左闭右开的半开区间,如第一个分组为[0,500)。第2列组中值是各组段的代表值,由本组段的上、下限相加除以2得到。第3列和第4列分别为频数和频率。第5列是累计频率,是否需要该列,视情况而定。
在这里插入图片描述
第五步:绘制频率分布直方图
若以2014年第二季度捞起生鱼片每天的销售额为横轴,以各组段的频率密度(频率与组距之比)为纵轴,表3‑3的数据可绘制成频率分布直方图,见图:
在这里插入图片描述

结构分析法

结构分析法是指分析总体内的各部分与总体之间进行对比的分析方法,即总体内各部分占总体的比例,属于相对指标。一般某部分的比例越大,说明其重要程度越高,对总体的影响越大。
结构相对指标(比例)的计算公式:
结构相对指标(比例)=(总体某部分的数值/总体总量)×100%
市场占有率=(某种商品销售量/该种商品市场销售总量)×100%

平均分析法

平均分析法就是运用计算平均数的方法来反映总体在一定时间、地点条件下某一数量特征的一般水平。平均指标可用于同一现象的不同地区、不同部门或单位间的对比,还可用于同一现象在不同时间的对比。
算术平均数的计算公式:
算术平均数=总体各单位数值的总和/总体单位个数
特点:
算术平均数是非常重要的基础性指标。平均数是综合指标,它的特点是将总体内各单位的数量差异抽象化,它只能代表总体的一般水平,掩盖了在平均数后各单位的差异。

矩阵关联分析法

根据事物(如产品、服务等)的两个重要属性(指标)作为分析的依据,进行分类关联分析,找出解决问题的一种分析方法,也成为矩阵关联分析方法。
在这里插入图片描述
(1)第一象限(高度关注区):属于重要性高、满意度也高的象限。
(2)第二象限(优先改进区):属于重要性高、但满意度低的象限。
(3)第三象限(无关紧要区):属于重要性低、满意度也低的象限。
(4)第四象限(维持优势区):属于重要性低、满意度高的象限。

高级数据分析法

  • 聚类分析
  • 相关分析
  • 回归分析

数据分析的常用工具

目前主流的数据分析语言有R, Python, MATLAB三种程序语言。
在这里插入图片描述
Python 数据分析主要包含以下 5 个方面优势
语法简单精练。对于初学者来说,比起其他编程语言, Python更容易上手。

有很强大的库。可以只使用Python这一种语言去构建以数据为中心的应用程序。

功能强大。 Python是一个混合体,丰富的工具集使它介于传统的脚本语言和系统语言之间。 Python不仅具 备所有脚本语言简单和易用的特点,还提供了编译语言所具有的高级软件工程工具。
➢ 不仅适用于研究和原型构建,同时也适用于构建生产系统。研究人员和工程技术人员使用同一种编程工具,会给企业带来非常显著的组织效益,并降低企业的运营成本。
Python是一门胶水语言。 Python程序能够以多种方式轻易地与其他语言的组件“粘接”在一起。

数据分析的开发环境

在这里插入图片描述

相关文章:

数据分析概述

数据分析概述 数据的性质数据的概念数据与信息的区别和联系 数据的类型按照度量尺度分按时间状况分 什么是数据分析数据分析的重要性数据分析的内容数据分析作用 数据分析的基本流程典型的数据分析的流程 数据分析方法对比分析法分组分析法定量数据分布分析——具体事例 结构分…...

网络编程初识

如果这篇有没接触过的知识点,请转到网络编程先导知识_小梁今天敲代码了吗的博客-CSDN博客 目录 IPv4和IPv6的概念: 子网掩码 默认网关 ping命令 端口 OSI网络分层模型 TCP/IP四层模型 字节序转换函数 IP地址转换 上一篇介绍了网络编程的先导知…...

软考A计划-试题模拟含答案解析-卷十二

点击跳转专栏>Unity3D特效百例点击跳转专栏>案例项目实战源码点击跳转专栏>游戏脚本-辅助自动化点击跳转专栏>Android控件全解手册点击跳转专栏>Scratch编程案例 👉关于作者 专注于Android/Unity和各种游戏开发技巧,以及各种资源分享&am…...

I.MX RT1170加密启动详解(1):Encrypted Boot image组成

使用RT1170芯片构建的所有平台一般都是高端场合,我们需要考虑软件的安全需求。该芯片集成了一系列安全功能。这些特性中的大多数提供针对特定类型攻击的保护,并且可以根据所需的保护程度配置为不同的级别。这些特性可以协同工作,也可以独立工…...

Linux---用户切换命令(su命令、sudo命令、exit命令)

1. su命令 root用户拥有最大的系统操作权限,而普通用户在许多地方的权限是受限的。 普通用户的权限,一般在其HOME目录内是不受限的。 一旦出了HOME目录,大多数地方,普通用户仅有只读和执行权限,无修改权限。 su 是…...

手机图片怎么提取文字?高效渠道一览

随着智能手机的普及,我们现在可以随时随地使用手机拍照记录生活中的点滴。然而,有时候我们拍照之后可能需要提取图片中的文字,比如拍下的菜谱、公告、名片等等。这时,我们就需要使用手机图片提取文字的功能。 - 采用OCR技术拍照识…...

Elasticsearch 聚合数据结果不精确问题解决方案

Elasticsearch 聚合数据结果不精确 背景 近期我们项目中出现使用ES聚合某个索引的数据取TOP 10的数据和相同条件下查询所有数据然后按数据量排序取的TOP 10的数据不一致的问题。 下面我们简单分析一下这个问题,列出一些常见的解决方案。 问题 Elasticsearch分片…...

Qt经典面试题:Qt开启线程的几种方式

方法一:从QThread类派生 ①创建一个类从QThread类派生 ②在子线程类中重写 run 函数, 将处理操作写入该函数中 ③在主线程中创建子线程对象, 启动子线程,调用start()函数 这种方法涉及到创建一个从QThread类派生的子类,并在该子类中重写run()函数。处理操…...

使用chartgtp写Android代码

<LinearLayout android:layout_width"match_parent" android:layout_height"match_parent" android:orientation"horizontal"> <TextView android:id"id/姓名" …...

【C++】4.jsoncpp库:jsoncpp库安装与使用入门

&#x1f60f;★,:.☆(&#xffe3;▽&#xffe3;)/$:.★ &#x1f60f; 这篇文章主要介绍jsoncpp的使用。 学其所用&#xff0c;用其所学。——梁启超 欢迎来到我的博客&#xff0c;一起学习知识&#xff0c;共同进步。 喜欢的朋友可以关注一下&#xff0c;下次更新不迷路&am…...

HTML、CSS、 JavaScript介绍(二)

CSS 指层叠样式表 (Cascading Style Sheets)&#xff0c;CSS定义如何显示 HTML 元素。HTML 标签原本被设计为用于定义文档内容&#xff0c;样式表定义如何显示 HTML 元素&#xff0c;就像 HTML 中的字体标签和颜色属性所起的作用那样。样式通常保存在外部的 .css 文件中。我们只…...

高效益的淘客APP要怎么开发,需要哪些功能

现在各大淘客app都有移动端的app&#xff0c;但是一直不知道如何推广出去。客app想要赚钱&#xff0c;要思考怎么推广淘客app&#xff0c;推广适用于非常执行力的人。淘客app推广首要第一条&#xff0c;产品要好&#xff0c;app要好&#xff0c;返利要高&#xff0c;用户才会使…...

Java基础--->IO流(2)【常见IO模型】

文章目录 计算机角度IO操作系统IO常见的IO模型Java 中 3 种常见 IO 模型BIO&#xff08;BlockingI/O&#xff09;【同步阻塞IO】NIO&#xff08;Non-blocking/New I/O&#xff09;【非阻塞IO】IO多路复用AIO&#xff08;Asynchronous I/O&#xff09;【异步IO】 计算机角度IO 根…...

JavaScript let 和 const

在JavaScript中&#xff0c;let和const是用于声明变量的关键字。 let关键字用于声明一个块级作用域的变量。块级作用域是指在一个代码块&#xff08;通常是在花括号 {} 内部&#xff09;中声明的变量只在该代码块内部有效。例如&#xff1a; javascript function example() {…...

云原生下多集群的监控系统背景、架构设计与实现

随着云原生技术的普及&#xff0c;越来越多的企业开始采用多集群部署方案来提高系统的可用性和灵活性。在这种情况下&#xff0c;如何有效地监控多个集群的运行状态&#xff0c;成为了云原生架构下的一个重要问题。 多集群监控系统需要考虑以下几个方面的问题&#xff1a; 监…...

利用OpenCV处理图像

OpenCV是非常流行的图像处理库&#xff0c;下面介绍一下其对图像的基本操作。 1. 安装与环境 安装还有点儿复杂的&#xff0c;但百度几篇博客基本能解决&#xff0c;这里就不多说了。 安装好后&#xff0c;要在工程中使用OpenCV的头文件和库&#xff0c;需要在CMakeLists.tx…...

【面试实战】SpringIoC、AOP、MVC面试实战

version:1.0 文章目录 SpringSpring基础 / IoC🙎‍♂️面试官:举例Spring的模块?🙎‍♂️面试官:Spring、SpringMVC、Spring Boot关系?🙎‍♂️面试官:说说对SpringIoC的了解?🙎‍♂️面试官:什么是Spring Bean?🙎‍♂️面试官:Bean的作用域?🙎‍♂️面…...

[Redis 分布式锁 ]

目录 前言: 使用场景: 基于 Redis 实现分布式锁的详细示例&#xff1a; 使用示例&#xff1a; 依赖: Redis分布式锁控制并发访问: 前言: 记录一些小笔记 , 如果对你有帮助 那就更好了 使用场景: Redis 实现分布式锁的使用场景包括&#xff1a; 防止重复操作&#xf…...

如何创建Vue实例?Vue实例有哪些属性和方法

Vue实例就是Vue的实例化对象&#xff0c;就像你有一个iPhone&#xff0c;那么iPhone就是你的实例化对象。要创建Vue实例&#xff0c;就像你想拥有一部iPhone一样&#xff0c;首先要有一个设计图。 这个设计图就相当于Vue实例的options对象&#xff0c;你可以设置它的属性&…...

InnoDB Cluster集群Mysql Router代理层最佳实践

InnoDB Cluster 集群 & Mysql-Router 代理层 前言 Mysql是现今最常用的关系型数据库之一&#xff0c;高可用一直是我们对软件服务的要求。常见的Mysql高可用是主从配置&#xff0c;在主节点挂掉后需要依赖监控脚本进行主从切换将从节点升级&#xff0c;后台服务代码层面也…...

Leetcode 3577. Count the Number of Computer Unlocking Permutations

Leetcode 3577. Count the Number of Computer Unlocking Permutations 1. 解题思路2. 代码实现 题目链接&#xff1a;3577. Count the Number of Computer Unlocking Permutations 1. 解题思路 这一题其实就是一个脑筋急转弯&#xff0c;要想要能够将所有的电脑解锁&#x…...

Maven 概述、安装、配置、仓库、私服详解

目录 1、Maven 概述 1.1 Maven 的定义 1.2 Maven 解决的问题 1.3 Maven 的核心特性与优势 2、Maven 安装 2.1 下载 Maven 2.2 安装配置 Maven 2.3 测试安装 2.4 修改 Maven 本地仓库的默认路径 3、Maven 配置 3.1 配置本地仓库 3.2 配置 JDK 3.3 IDEA 配置本地 Ma…...

C++.OpenGL (14/64)多光源(Multiple Lights)

多光源(Multiple Lights) 多光源渲染技术概览 #mermaid-svg-3L5e5gGn76TNh7Lq {font-family:"trebuchet ms",verdana,arial,sans-serif;font-size:16px;fill:#333;}#mermaid-svg-3L5e5gGn76TNh7Lq .error-icon{fill:#552222;}#mermaid-svg-3L5e5gGn76TNh7Lq .erro…...

JS设计模式(4):观察者模式

JS设计模式(4):观察者模式 一、引入 在开发中&#xff0c;我们经常会遇到这样的场景&#xff1a;一个对象的状态变化需要自动通知其他对象&#xff0c;比如&#xff1a; 电商平台中&#xff0c;商品库存变化时需要通知所有订阅该商品的用户&#xff1b;新闻网站中&#xff0…...

Go 语言并发编程基础:无缓冲与有缓冲通道

在上一章节中&#xff0c;我们了解了 Channel 的基本用法。本章将重点分析 Go 中通道的两种类型 —— 无缓冲通道与有缓冲通道&#xff0c;它们在并发编程中各具特点和应用场景。 一、通道的基本分类 类型定义形式特点无缓冲通道make(chan T)发送和接收都必须准备好&#xff0…...

API网关Kong的鉴权与限流:高并发场景下的核心实践

&#x1f525;「炎码工坊」技术弹药已装填&#xff01; 点击关注 → 解锁工业级干货【工具实测|项目避坑|源码燃烧指南】 引言 在微服务架构中&#xff0c;API网关承担着流量调度、安全防护和协议转换的核心职责。作为云原生时代的代表性网关&#xff0c;Kong凭借其插件化架构…...

SQL进阶之旅 Day 22:批处理与游标优化

【SQL进阶之旅 Day 22】批处理与游标优化 文章简述&#xff08;300字左右&#xff09; 在数据库开发中&#xff0c;面对大量数据的处理任务时&#xff0c;单条SQL语句往往无法满足性能需求。本篇文章聚焦“批处理与游标优化”&#xff0c;深入探讨如何通过批量操作和游标技术提…...

EEG-fNIRS联合成像在跨频率耦合研究中的创新应用

摘要 神经影像技术对医学科学产生了深远的影响&#xff0c;推动了许多神经系统疾病研究的进展并改善了其诊断方法。在此背景下&#xff0c;基于神经血管耦合现象的多模态神经影像方法&#xff0c;通过融合各自优势来提供有关大脑皮层神经活动的互补信息。在这里&#xff0c;本研…...

大模型真的像人一样“思考”和“理解”吗?​

Yann LeCun 新研究的核心探讨&#xff1a;大语言模型&#xff08;LLM&#xff09;的“理解”和“思考”方式与人类认知的根本差异。 核心问题&#xff1a;大模型真的像人一样“思考”和“理解”吗&#xff1f; 人类的思考方式&#xff1a; 你的大脑是个超级整理师。面对海量信…...

java+webstock

maven依赖 <dependency><groupId>org.java-websocket</groupId><artifactId>Java-WebSocket</artifactId><version>1.3.5</version></dependency><dependency><groupId>org.apache.tomcat.websocket</groupId&…...