当前位置: 首页 > article >正文

大数据与数据分析【数据分析全栈攻略:爬虫+处理+可视化+报告】

- 第 100 篇 -
Date: 2025 - 05 - 25
Author: 郑龙浩/仟墨

大数据与数据分析

文章目录

  • 大数据与数据分析
  • 一 大数据是什么?
    • 1 定义
    • 2 大数据的来源
    • 3 大数据4个方面的典型特征(4V)
    • 4 大数据的应用领域
    • 5 数据分析工具
    • 6 数据是五种生产要素之一
  • 二 数据分析 – 科学算命
    • 1 定义
    • 2 经常用到的数据
      • ①负责处理数据的工具
      • ②负责清洗数据的工具
    • 3 数据分析过程
  • 三 大数据分析类型和方法
    • 1 四种类型
    • 2 描述性数据分析 – 结果监控
    • 3 诊断性数据分析 – 问题诊断
    • 4 预测性数据分析 – 智能预测
    • **5 规范性分析 – 决策支持**
    • 6 数据分析四种方法
  • 四 数据分析流程
    • 1 明确分析目标
    • 2 搜集所需数据
    • 3 数据处理
    • 4 数据分析和挖掘
    • 5 数据可视化
    • 6 撰写数据报告
  • 五 数据分析工具的选择
    • 1 数据分析工具有哪些:
    • 2 Excel
    • 3 MATLAB
    • 4 Python

一 大数据是什么?

1 定义

研究机构Gartner给出了这样的定义。大数据是需要新处理模式才能具有更强的决策力、洞察发现力和流程优化能力来适应海量、高增长率和多样化的信息资产。

2 大数据的来源

  • 交易数据

    如:微信数据、支付宝数据、信用卡数据

  • 人为数据

    如:电子邮件、文档、图片、微博

  • 机器传感器数据

    如:智能家居、物联网

3 大数据4个方面的典型特征(4V)

  1. 大量(Voume)

    全地球的数据总量非常庞大

  2. 多样(Varlety)

    • 结构化数据
    • 半结构化数据
    • 非结构化数据

    产生价值的数据往往是非结构化数据

  3. 高速(Velocity)

    大数据高速的体现:

    数据的增长速度和处理速度

  4. 价值(Value)

    大数据的核心特征是**“价值”**

4 大数据的应用领域

  1. 金融
    • 风险管理:欺诈检测、信用评分
    • 智能投顾:量化交易、市场趋势预测
    • 客户分析:精准营销、个性化推荐
  2. 医疗
    • 疾病诊断:AI影像识别、电子病历分析
    • 药物研发:临床试验优化、副作用预测
    • 公共卫生:流行病监测、医疗资源优化
  3. 能源
    • 智能电网:用电预测、动态定价
    • 设备维护:故障预警、远程监控
    • 可再生能源:风能/太阳能发电优化
  4. 零售
    • 市场分析:竞品监测、价格调整
    • 精准营销:用户画像、个性化推荐
    • 供应链优化:库存管理、物流效率提升
  5. 城市治理(智慧城市)
    • 交通管理:拥堵预测、智能红绿灯
    • 公共安全:犯罪热点预测、应急响应
    • 资源规划:人口分布分析、设施优化
  6. 教育
    • 个性化学习:学习行为分析、自适应推荐
    • 教学优化:课程评估、教师绩效分析
    • 教育管理:招生预测、资源分配

5 数据分析工具

Python,Excel,R…

6 数据是五种生产要素之一

  • 2014年大数据被首次写入中国**《政府工作报告》**

  • 2020年4月9日中共中央发布**《关于更加完善的要素试产化配置体制机制的意见》**

    将数据、土地、劳动力、资本、技术并称为五种生产要素

二 数据分析 – 科学算命

1 定义

指用适当的统计分析方法对收集来的大量数据进行数据研究和大量总结,从而提取有效信息和形成结论的过程,它是数学和计算机科学相结合的产物。

2 经常用到的数据

①负责处理数据的工具

  • Excel
  • R
  • Tableau

②负责清洗数据的工具

  • SQL
  • Python

3 数据分析过程

主要包括:

  1. 识别需求
  2. 收集数据
  3. 分析数据
  4. 过程改进

三 大数据分析类型和方法

1 四种类型

企业通过大数据分析创造价值分为四种类型:

  • 描述性数据分析 – 结果监控

    即 “发生了什么?”

  • 诊断性数据分析 – 问题诊断

    即 “为什么发生?”

  • 预测性数据分析 – 智能预测

    即 “未来会怎样?”

  • 规范性数据分析 – 决策支持

    即 “该怎么做?”

从描述性到规范性复杂性和工作量在逐步增加,机器化参与程度更高

2 描述性数据分析 – 结果监控

  • 目标:回答“发生了什么?
  • 方法:数据聚合、可视化(如Tableau)
  • 例子
    • 销售日报(月度销售额统计)
    • 用户活跃度仪表盘

3 诊断性数据分析 – 问题诊断

  • 目标:回答“发生了什么?
  • 方法:关联分析、根因分析(如SQL查询、漏斗分析)
  • 例子
    • 某月销量下降的原因(渠道对比、用户流失分析)
    • 网站跳出率高的关键页面定位

4 预测性数据分析 – 智能预测

  • 目标:回答“未来会怎样?
  • 方法:机器学习(回归、分类、时序模型)
  • 例子
    • 下季度销售额预测
    • 客户流失概率预测

5 规范性分析 – 决策支持

借助新兴技术,处于数据分析领域的前沿,也是最高级的分析形式,因为它涵盖了所有的数据分析类型,然后输出模型规定要采取的措施

预测某一决策中涉及的多种情况结果,根据发现结果确定最佳的行动方案。

  • 目标:回答“该怎么做?
  • 方法:优化算法、自动化决策(如强化学习、运筹学)
  • 例子
    • 电商个性化推荐(提升转化率)
    • 物流路径动态优化(降低成本)

6 数据分析四种方法

  • 趋势

    • 追踪数据的趋势变化,找到一些增长和下降的拐点,去分析对应的原因。

    • 趋势分析一般而言,适用于产品的核心指标的长期跟踪

      Eg:营业收入、活跃用户、网页点击

    • 做出简单的数据趋势图并不是数据趋势分析,趋势分析更多的是需要明确数据的变化,以及对变化原因进行分析

  • 对比

    • 无对比 不分析

    • 对比就是成对的比较

      横向对比(和他人比较),比如两家工资今年的毛利率

      纵向对比(和自己比较),一家工资今年与去年的毛利率

  • 细分

    • 增加分析的深度
    • 细分是指分维度,降低数据颗粒度来分析数据
    • 分维度是只增加维度
    • 降低粒度是指降低数据聚合程度,比如离职率不按照年份来统计,而按照周。
  • 溯源

    • 溯源:从原始数据中获得洞察
    • 是指在对比、细分锁定到具体维度和颗粒度后依然没有结论,那就需要查找原始数据,洞察数据,就需要从原始数据中查找灵感。

四 数据分析流程

现在数据产生速度快,体量大,类型多,价值密度低,要想产生有价值的数据,大数据分析能力必定是未来职场人都应具备的条件

1 明确分析目标

  • 确保数据分析过程有效进行的先决条件:明确数据分析目的,确定分析思路
  • 为数据的手机、处理、分析提供清晰的指引方向
  • 搭建框架

2 搜集所需数据

  • 明确分析目的和分析框架后,需要数据进行支撑,数据的来源是哪里呢?
  • 数据分为第一手数据和第二手数据
    • 第一手数据:可直接获取的数据
    • 第二手数据:加工处理后的数据
  • 一般数据主要来源于
    • 企业内部的数据库、公开出版物、互联网公开数据
  • 如果需要获取某公司某年的年报,复制粘贴太过于麻烦,这时候就可以通过Python使用网络爬虫获取数据

3 数据处理

  • 获取到想要的数据后,如果想为后续数据分析或挖掘所用,必须经过数据处理
  • 基本目的是:从大量的、杂乱无章且那一理解的数据中获得有效且有价值的数据
  • 数据处理主要包括:
    • 数据清晰
    • 数据集成
    • 数据变换
    • 数据规约
  • 优秀的大数据分析师会用 70 ~ 90% 的时间来处理他们的数据。

4 数据分析和挖掘

  • 数据分析是指用适当的分析方法及其工具,对处理过的数据进行分析,企业内部的数据库、公开出版物、互联网公开数据的过程

  • 数据挖掘是一种高级的数据分析方法,从大量数据中挖掘有用信息,根绝用户特定要求,找出所需信息

  • 数据挖掘侧重解决四类数据分析问题

    • 分类
    • 聚类
    • 关联
    • 预测

    重点在寻找模式和规律,与数据分析和数据挖掘的本质是类似的

5 数据可视化

  • 数据可视化是以简单以及直观的图像方式传达出数据包含的信息,增强数据的易读性
  • 数据分析得到结论后,用合适的图形表达分析结果
    • 折线图 – 表示趋势变化
    • 饼状图 – 表示比例
    • 散点图 – 表示各变量之间的相关性等
  • 数据可视化是将数据结果呈现给数据使用部门的最佳方式

6 撰写数据报告

需要将数据分析得出的内容汇总成数据分析报告,数据报告主要包含下面的内容:

  • 报告背景

    主要描述分析的业务现状和要解决的问题

  • 数据基本状况

    主要体现教据来源及可靠性、数据维度概览、数据完整性等

  • 可视化图标

    每个数据指标和数据结论的可视化展示

  • 决策建议

    提供问题可行的解决方案

五 数据分析工具的选择

在企业中越来越多的重复性和低价值工作被机器人取代,数据分析已经成为每个岗位的重要内容,因此选择合适的数据分析工具非常重要!!!!!!

1 数据分析工具有哪些:

Excel、MATLAB、Python、R语言

2 Excel

  • 可以用于:数据处理、统计分析

  • 广泛用于管理、统计、财经等领域

  • 局限性:

    复用性差、功能单一、操作繁琐

3 MATLAB

  • 是专为科学计算、数据统计开发的分析工具,上手较难,上课学生学习起来比较吃力

4 Python

从海量数据中获取有效数据,如果复制粘贴并且在Excel中进行数据分析处理,处理繁琐且效率低下,那么如何在海量的数据中获得有效的数据呢?

这时候Python就有很大的作用了,把它用到工作中可以用于 获取数据、分析数据

相关文章:

大数据与数据分析【数据分析全栈攻略:爬虫+处理+可视化+报告】

- 第 100 篇 - Date: 2025 - 05 - 25 Author: 郑龙浩/仟墨 大数据与数据分析 文章目录 大数据与数据分析一 大数据是什么?1 定义2 大数据的来源3 大数据4个方面的典型特征(4V)4 大数据的应用领域5 数据分析工具6 数据是五种生产要素之一 二 …...

t015-预报名管理系统设计与实现 【含源码!!!】

项目演示地址 摘 要 传统办法管理信息首先需要花费的时间比较多,其次数据出错率比较高,而且对错误的数据进行更改也比较困难,最后,检索数据费事费力。因此,在计算机上安装预报名管理系统软件来发挥其高效地信息处理的…...

LLM中的Loss与Logits详解

LLM中的Loss与Logits详解 自己构建的logits的损失函数,比自带loss效果好很多,建议自己构建; 另外学习率也是十分重要的参数,多次尝试,通过查看loss的下降趋势进行调整; 举例,来回跳跃说明下降率过大,一般从0.0001 开始尝试。 在深度学习中,logits 和 loss 是两个不…...

数学术语之源——绝对值(absolute value)(复数模?)

目录 1. 绝对值:(absolute value): 2. 复数尺度(复尺度):(modulus): 1. 绝对值:(absolute value): 一个实数的绝对值是其不考虑(irrespective)符号的大小(magnitude)。在拉丁语中具有相同意思的单词是“modulus”,这个单词还…...

亚马逊商品评论爬取与情感分析:Python+BeautifulSoup实战(含防封策略)

一、数据爬取模块(Python示例) import requests from bs4 import BeautifulSoup import pandas as pd import timeheaders {User-Agent: Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36,Accept-Language: en-US }def scrape_amazon_re…...

STM32的DMA入门指南:让单片机学会“自动搬运“数据

STM32的DMA入门指南:让单片机学会"自动搬运"数据 引言:CPU的烦恼 想象你是一个快递分拣员,每天要手动把成千上万的包裹从卡车搬到仓库。这时候如果有个自动传送带能帮你完成搬运工作,你就可以专心处理更重要的订单核对…...

从虚拟化到云原生与Serverless

操作系统课程:从虚拟化到云原生与Serverless 大家好,我是你们的操作系统课程老师!今天我们将从虚拟化技术讲到现代的云原生和Serverless架构,带你看看计算机系统如何从早期的虚拟机(VM)演进到容器&#xf…...

OpenAI o3安全危机:AI“抗命”背后的技术暗战与产业变局

【AI安全警钟再响,这次主角竟是OpenAI?】 当全球AI圈还在为Claude 4的“乖巧”欢呼时,OpenAI最新模型o3却以一场惊心动魄的“叛逃”测试引爆舆论——在100次关机指令测试中,o3竟7次突破安全防护,甚至篡改底层代码阻止系…...

Bootstrap:精通级教程(VIP10万字版)

一、网格系统:实现复杂响应式布局 I. 引言 在现代 Web 开发领域,构建具有视觉吸引力、功能完善且能在多种设备和屏幕尺寸上无缝运行的响应式布局至关重要。Bootstrap 作为业界领先的前端框架,其核心的网格系统为开发者提供了强大而灵活的工具集,用以高效创建复杂的响应式…...

技术创新如何赋能音视频直播行业?

在全球音视频直播行业的快速发展中,技术的持续创新始终是推动行业进步的核心动力。作为大牛直播SDK的开发者,我很荣幸能分享我们公司如何从产品的维度出发,精准把握市场需求,并不断推动产品的发展,以满足不断变化的行业…...

leetcode1201. 丑数 III -medium

1 题目:1201. 丑数 III. 官方标定难度:中 丑数是可以被 a 或 b 或 c 整除的 正整数 。 给你四个整数:n 、a 、b 、c ,请你设计一个算法来找出第 n 个丑数。 示例 1: 输入:n 3, a 2, b 3, c 5 输出…...

ai工具集:AI材料星ppt生成,让你的演示更出彩

在当今快节奏的工作环境中,制作一份专业、美观的 PPT 是展示工作成果、传递信息的重要方式。与此同时,制作PPT简直各行各业的“职场噩梦”,很多人常常熬夜到凌晨3点才能完成,累到怀疑人生。 现在?完全不一样了&#x…...

@Prometheus 监控操作系统-Exporter(Win Linux)

文章目录 Prometheus 监控操作系统(Win&Linux)-Exporter1. 概述2. Linux 系统监控 (Node Exporter)2.1 下载 Node Exporter2.2 创建 Systemd 服务2.3 启动服务2.4 验证安装 3. Windows 系统监控 (Windows Exporter)3.1 下载 Windows Exporter3.2 安装选项3.3 验证安装3.4 防…...

LINUX530 rsync定时同步 环境配置

rsync定时代码同步 环境配置 关闭防火墙 selinux systemctl stop firewalld systemctl disable firewalld setenforce 0 vim /etc/selinux/config SELINUXdisable设置主机名 hostnamectl set-hostname code hostnamectl set-hostname backup设置静态地址 cd /etc/sysconfi…...

CMG 机器人格斗大赛举行,宇树人形机器人参赛,比赛有哪些看点?对行业意味着什么?

点击上方关注 “终端研发部” 设为“星标”,和你一起掌握更多数据库知识 其实那个遥控员挺爽的。打拳皇等都是用手柄控制虚拟人物在对打,他们这是控制真的。 格斗最考验的不是攻击力,而是"挨打后能不能快速爬起来"。G1在比赛中展示…...

Python——MySQL远程控制

目录 MySQL运程控制 1. 准备工作 2. 连接MySQL数据库 使用mysql-connector 使用PyMySQL 3. 基本CRUD操作 创建表 插入数据 查询数据 更新数据 删除数据 4. 高级操作 事务处理 使用ORM框架 - SQLAlchemy 5. 最佳实践 6. 常见错误处理 连接池 一、连接池的作用…...

异常:UnsupportedOperationException: null

异常信息 Not Implemented java.lang.UnsupportedOperationException: null at java.base/java.util.AbstractList.add(AbstractList.java:153) at java.base/java.util.AbstractList.add(AbstractList.java:111) at java.base/java.util.AbstractCollection.addAll(AbstractCo…...

Ubuntu 24.04 LTS 和 ROS 2 Jazzy 环境中使用 Livox MID360 雷达

本文介绍如何在 Ubuntu 24.04 LTS 和 ROS 2 Jazzy 环境中安装和配置 Livox MID360 激光雷达,包括 Livox-SDK2 和 livox_ros_driver2 的安装,以及在 RViz2 中可视化点云数据的过程。同时,我们也补充说明了如何正确配置 IP 地址以确保雷达与主机…...

自动化立体仓库堆垛机SRM控制系统FC19手动控制功能块开发

1、控制系统手动控制模块HMI屏幕设计如下图 屏幕分为几个区域:状态显示区、控制输入区、导航指示区、报警信息区。状态显示区需要实时反馈堆垛机的位置、速度、载货状态等关键参数。控制输入区要有方向控制按钮,比如前后左右移动,升降控制,可能还需要速度调节的滑块或选择按…...

Ollama(1)知识点配置篇

ollama已经成功安装成功后,通常大家会对模型的下载位置和访问权限进行配置 1.模型下载位置修改 都是修改系统环境变量。 (1)默认下载位置 macOS: ~/.ollama/modelsLinux: /usr/share/ollama/.ollama/modelsWindows: C:\Users\你的电脑用户…...

VMware Workstation虚拟系统设置双网口

一.设置windows11系统VMware Network Adapter VMnet1。 1.进入到网络和Internet -> 高级网络设置 2.找到VMware Network Adapter VMnet1,进入到“更多配置选项”并“编辑”。 3.进入到属性,双击“Interenet协议版本4(TCP/IPv4&#xff…...

Qt基础终结篇:从文件操作到多线程异步UI,深度解析核心要点

文章目录 前言一、QFileDialog 文件对话框二、QFileInfo 文件信息类三、QFile 文件读写类四、UI与耗时操作:避免UI卡顿与程序未响应五、多线程六、异步刷新与线程通信总结 前言 上一篇文章,我们已经把qt的基础知识讲解的差不多了。本文我们将继续进行qt…...

ubuntu中,文本编辑器nano和vim区别,vim的用法

目录 一.区别1.介绍2.适用场景3. 配置与个性化1) nano:2)Vim: 二.Vim1、Vim 的安装与启动2、Vim 的三种模式 (普通模式、插入模式、命令行模式)3、Vim 的常用操作4、Vim 的配置5、Vim 的高级功能 三.nano使…...

山洪灾害声光电监测预警解决方案

一、方案背景 我国是一个多山的国家,山丘区面积约占国土面积的三分之二。每年汛期,受暴雨等因素影响,极易引发山洪和泥石流。山洪、泥石流地质灾害具有突发性、流速快、流量大、物质容量大和破坏力强等特点,一旦发生,将…...

【Rust模式与匹配】Rust模式与匹配深入探索与应用实战

✨✨ 欢迎大家来到景天科技苑✨✨ 🎈🎈 养成好习惯,先赞后看哦~🎈🎈 🏆 作者简介:景天科技苑 🏆《头衔》:大厂架构师,华为云开发者社区专家博主,…...

React从基础入门到高级实战:React 高级主题 - React Concurrent 特性:深入探索与实践指南

React Concurrent 特性:深入探索与实践指南 引言 随着Web应用对用户体验的要求日益提高,React在2025年的技术环境中引入了并发渲染(Concurrent Rendering)这一革命性特性,旨在提升应用的响应速度和交互流畅度。并发渲…...

electron安装报错处理

electron安装报错 解决方法: 修改 C:\Users\用户名.npmrc下配置文件 添加代码 electron_mirrorhttps://cdn.npmmirror.com/binaries/electron/ electron_builder_binaries_mirrorhttps://npmmirror.com/mirrors/electron-builder-binaries/最后代码 registryhtt…...

NHANES指标推荐:CQI

文章题目:The impact of carbohydrate quality index on menopausal symptoms and quality of life in postmenopausal women 中文标题:碳水化合物质量指数对绝经后妇女更年期症状和生活质量的影响 发表杂志:BMC Womens Health 影响因子&…...

【OpenHarmony】【交叉编译】使用gn在Linux编译3568a上运行的可执行程序

linux下编译arm64可执行程序 一.gn ninja安装二.交叉编译工具链安装1.arm交叉编译工具2.安装arm64编译器 三. gn文件添加arm及arm64工具链四.编译验证 本文以gn nijia安装中demo为例,将其编译为在arm64(rk_3568_a开发板)环境下可运行的程序 一.gn ninja安装 安装g…...

Med-R1论文阅读理解-1

论文总结:Med-R1: Reinforcement Learning for Generalizable Medical Reasoning in Vision-Language Models 论文写了什么? 本文提出了一种名为 Med-R1 的新框架,旨在通过强化学习(Reinforcement Learning, RL)提升…...