当前位置: 首页 > news >正文

《系统架构设计师教程(第2版)》第11章-未来信息综合技术-07-大数据技术概述

文章目录

  • 1. 大数据的定义
  • 2. 大数据的研究内容
    • 2.1 面临的问题
    • 2.2 面临的挑战
    • 2.3 分析步骤
      • 2.3.1 数据获取和记录
      • 2.3.2 信息抽取和清洗
      • 2.3.3 数据集成、聚集和表示
      • 2.3.4 查询处理、数据建模和分析
      • 2.3.5 解释
  • 3.大数据的应用领域
    • 3.1 制造业的应用
    • 3.2 服务业的应用
    • 3.3 交通行业的应用
    • 3.4 医疗行业的应用

1. 大数据的定义

  • 维基百科的定义:
    • 大数据指的是那些规模庞大或极其复杂的数据集,
    • 超出了现有的常规工具在合理成本和可接受时间范围内进行捕获、管理和处理的能力

教材原文:大数据是指其大小或复杂性无法通过现有常用的软件工具,以合理的成本并在可接受的时限内对其进行捕获、管理和处理的数据集。这些困难包括数据的收入、存储、搜索、共享、分析、可视化。

  • Granter的定义:3V模型

    • 大规模 (Volume)
    • 多样化 (Variety)
    • 高处理速度 (Velocity)
  • 由此衍生的大数据的三大挑战

    1. 不断增长的数据量
    2. 多格式数据
    3. 性能(高处理速度)
      • 涉及终端数据处理能力、数据流访问和交付、服务器计算处理能力、后端存储的吞吐能力
  • IBM 的定义:

    • 3V模型: 大规模 (Volume)、多样化 (Variety)、 高速度 (Velocity)
    • +第四V:潜藏价值 (Value)
  • SAS 的定义

    • 3V模型: 大规模 (Volume)、多样化 (Variety)、 高速度 (Velocity)
    • 可变性:数据流可能具有高度的不一致性,并存在周期性的峰值
    • 复杂性:数据来源的多样性
      • 连接、匹配、清洗和转化的复杂性
      • 不同数据源之间连接关系、关联关系、层次关系的复杂性

2. 大数据的研究内容

2.1 面临的问题

2012年冬季,来自IBM、微软、谷歌、HP、MIT、斯坦福、加州大学伯克利分校、UIUC等产业界和学术界的数据库领域专家通过在线的方式共同发布了一个关于大数据的白皮书,指出大数据面临着5个主要问题:

  • 异构性 (Heterogeneity)
  • 规模 (Scale)
  • 时间性 (Timeliness)
  • 复杂性 (Complexity)
  • 隐私性 (Privacy)

可见:

  • 对应Granter的3V模型,增加了“复杂性”和“隐私性”
  • 对应SAS定义的5点,“可变性”被“隐私性”替换

2.2 面临的挑战

对应上边面临的问题,其研究工作将面临5个方面的挑战:

  • 数据获取问题

数据筛选,那些保存那些丢弃,目前这些决策还只能采用特设方法给出。

  • 数据结构问题

如何将没有语义的内容转换为结构化的格式,以便进行后续处理。

  • 数据集成问题

如何将数据进行有效关联

  • 数据分析、组织、抽取、建模问题

数据分析是许多大数据应用的瓶颈,目前底层算法缺乏伸缩性、对待分析数据的复杂性估计不够,等等。

  • 数据分析的结果呈现问题

如何呈现分析结果,并与非技术的领域专家进行交互

2.3 分析步骤

白皮书给出了大数据的分析步骤如下:

2.3.1 数据获取和记录

  • 研究数据压缩中的科学问题
    • 能够智能地处理原始数据
    • 在不丢失信息的情况下,将海量数据压缩到人可以理解的程度
  • 研究“在线”数据分析技术
    • 能够处理实时流数据
  • 研究元数据自动获取技术
  • 研究数据来源技术
    • 追踪数据的产生和处理过程

2.3.2 信息抽取和清洗

  • 信息抽取:从文本、图像、音频等数据源中自动提取有价值的信息,将其转化为结构化的数据形式,以便进一步分析和利用
  • 信息清洗:对原始数据进行清理、校验和纠正,以去除噪声、重复、错误或不一致的数据,提高数据的质量和准确性

2.3.3 数据集成、聚集和表示

  • 概念:
    • 数据集成:将多个不同来源、格式的数据整合到一起,形成一个统一的数据集,以便进行综合分析
    • 数据聚集:对数据进行汇总和统计,以便从宏观上了解数据的特征和趋势
    • 数据表示:将数据以一种易于理解和使用的方式呈现出来,让人们能够更直观地理解数据
      • 如:图表、表格、可视化图形等
  • 作用:
    • 解决存在大量异构数据问题,以便对大规模数据进行有效分析

2.3.4 查询处理、数据建模和分析

  • 充满噪声的大数据也可能比小样本数据更有价值
    • 大数据得到的一般统计数据通常强于具有波动性的个体数据,往往透露更可靠的隐藏模式和知识
    • 通过信息冗余以弥补缺失的数据、交叉验证冲突的情况、验证可信赖的关系
  • 数据挖掘需要的条件:
    • 完整的、经过清洗的、可信的、可被高效访问的数据
    • 声明性的查询(例如 SQL) 和挖掘接口
    • 可扩展的挖掘算法及大数据计算环境
  • 目前需要研究的问题
    • 查询处理方面:
      • 在TB级别上的可伸缩复杂交互查询技术
    • 大数据分析方面
      • 缺乏数据库系统之间的协作
      • 需要研究并实现:将声明性查询语言与数据挖掘、数据统计包有机整合在一起的数据分析系统

2.3.5 解释

  • 大数据分析系统应该支持用户对产生结果的了解、验证、分析。

3.大数据的应用领域

3.1 制造业的应用

  • 创造了掌握用户需求为目标的智慧化制造业

如:

  • 一些计算机硬件供应商正在收集和分析设备信息对设备预测,并提前维护
  • 为下一代产品提供灵感
  • 海量数据扩大了算法和运筹学的应用领域在制造业的应用

例如,在部分制造企业,算法对生产线的传感器信息进行分析,形成了自我调节的流程,从而减少了浪费,避免了代价高昂(有
时还十分危险)的人为干预,最终提升产量。

3.2 服务业的应用

  • 服务业演化的两种形态:
    • 信息技术与服务业相结合的信息服务业
      • 如:计算机软件、通信服务、信息咨询服务
      • 大数据的应用:如,收集用户行为推送广告
    • 应用信息技术改造传统服务业而来的服务业
      • 如:信息化改造后的商业、金融业、旅游业等
      • 大数据的应用:
        • 厂商可以通过实时跟踪客户行为、更新客户偏好、建立可能行为的模型
        • 银行可以从大量数据中发现信用卡欺诈和盗用
        • 理财网站从统计的消费数据中来预测宏观的经济趋势

3.3 交通行业的应用

  • 大数据时代下的智慧交通:
    • 融合传感器、监视视频、GPS、气象监测等设备产生的海量数据
    • 从中提取出人们真正需要的信息
    • 将通过计算提供最佳的出行方式和路线,及时而准确地进行发布和推送给用户

3.4 医疗行业的应用

大数据下的医疗行业:

  • 将医疗机构的电子病历记录标准化,形成全方位多维度的大数据仓库
  • 系统全面分析患者的基本资料、诊断结果、处方、医疗保险等数据
  • 综合以上数据,在医生的参与下通过决策支持系统,选择最佳的医疗护理解决方案

在这里插入图片描述

相关文章:

《系统架构设计师教程(第2版)》第11章-未来信息综合技术-07-大数据技术概述

文章目录 1. 大数据的定义2. 大数据的研究内容2.1 面临的问题2.2 面临的挑战2.3 分析步骤2.3.1 数据获取和记录2.3.2 信息抽取和清洗2.3.3 数据集成、聚集和表示2.3.4 查询处理、数据建模和分析2.3.5 解释 3.大数据的应用领域3.1 制造业的应用3.2 服务业的应用3.3 交通行业的应…...

前端面试题54(断点续传讲解)

断点续传是一种在上传或下载大文件时,如果因为网络问题中断,可以从已经上传或下载的部分继续,而不是重新开始的技术。这对于提高用户体验和节省带宽非常有帮助。下面我将分别从HTTP协议层面、前端实现思路以及一个简单的前端实现示例来讲解断…...

YOLOv10改进 | Conv篇 | RCS-OSA替换C2f实现暴力涨点(减少通道的空间对象注意力机制)

一、本文介绍 本文给大家带来的改进机制是RCS-YOLO提出的RCS-OSA模块,其全称是"Reduced Channel Spatial Object Attention",意即"减少通道的空间对象注意力"。这个模块的主要功能是通过减少特征图的通道数量,同时关注空…...

【C++BFS】690. 员工的重要性

本文涉及知识点 CBFS算法 LeetCode690. 员工的重要性 你有一个保存员工信息的数据结构,它包含了员工唯一的 id ,重要度和直系下属的 id 。 给定一个员工数组 employees,其中: employees[i].id 是第 i 个员工的 ID。 employees[…...

视频调整帧率、分辨率+音画同步

# python data_utils/pre_video/multi_fps_crop_sync.pyimport cv2 import os from tqdm import tqdm import subprocess# 加载人脸检测模型 face_cascade cv2.CascadeClassifier(cv2.data.haarcascades haarcascade_frontalface_default.xml)def contains_face(frame):gray …...

【深度学习】关于模型加速

模型转为半精度的会加快推理速度吗 将模型转为半精度(通常指16位浮点数,即FP16)确实可以加快推理速度,同时还能减少显存(GPU内存)的使用。以下是一些关键点: 加快推理速度的原因 减少计算量&a…...

Python中time模块用法示例详解

前言 仅供个人学习用,如果对各位朋友有参考价值,给个赞或者收藏吧 ^_^ 一、time模块介绍 time模块是Python中处理时间相关操作的核心工具,提供了时间获取、格式化、转换、延迟以及计时等多种功能。 总的来说time模块中时间可以有3种格式&…...

解决POST请求中文乱码问题

解决POST请求中文乱码问题 1、乱码原因2、解决方法3、具体步骤 💖The Begin💖点点关注,收藏不迷路💖 在Web开发中,处理POST请求时经常遇到中文乱码问题,这主要是由于服务器在接收到POST请求的数据后&#x…...

Axure-黑马

Axure-黑马 编辑时间2024/7/12 来源:B站黑马程序员 需求其他根据:visio,墨刀 Axure介绍 Axure RP是美国Axure Software Solution给公司出品的一款快速原型大的软件,一般来说使用者会称他为Axure 应用场景 拉投资使用 给项目团…...

Centos解决服务器时间不准的问题

CentOS 系统时间老是自己变化可能有以下几个原因: 硬件时钟问题:服务器的硬件时钟可能出现故障或不准确。 时区设置错误:如果时区设置不正确,可能导致显示的时间与实际期望的时间不符。 系统服务异常:与时间同步相关…...

摸鱼大数据——Kafka——Kafka的shell命令使用

Kafka本质上就是一个消息队列的中间件的产品,主要负责消息数据的传递。也就说学习Kafka 也就是学习如何使用Kafka生产数据,以及如何使用Kafka来消费数据 topics操作 注意: 创建topic不指定分区数和副本数,默认都是1个 分区数可以后期通过alter增大,但是…...

在 Linux/Debian/Ubuntu 上使用 Brasero 刻录光盘

在 Ubuntu 系统中,Brasero 是一个非常方便的光盘刻录工具。无论是创建数据光盘、音频光盘还是刻录光盘镜像文件,Brasero 都能轻松胜任。本文将介绍如何在 Ubuntu 上安装和使用 Brasero 进行光盘刻录。 安装 Brasero 在大多数 Ubuntu 版本中&#xff0c…...

QT之嵌入外部第三方软件到本窗体中

一、前言 使用QT开发,有时需要调用一些外部程序,但是单独打开一个外部窗口有的场合很不合适,最好是嵌入到开发的QT程序界面中。还有就是自己开发的n个程序,一个主程序托n个子程序,为了方便管理将各个程序独立&#xf…...

解决GET请求中文乱码问题

解决GET请求中文乱码问题 1、乱码的根本原因2、解决方法方法一:修改Tomcat配置(推荐)方法二:使用URLEncoder和URLDecoder(不推荐用于GET请求乱码)方法三:String类编解码(不直接解决乱…...

弥合人类与人工智能的知识差距:AlphaZero 中的概念发现和迁移(1)

文章目录 一、摘要二、简介三、相关工作3.1 基于概念的解释3.2 强化学习中生成解释3.3 国际象棋与人工智能 四、什么是概念?五、发掘概念5.1 挖掘概念向量5.1.1 静态概念的概念约束5.1.2 动态概念的概念约束 5.2 过滤概念 一、摘要 人工智能(AI&#xff…...

cpp的cbp

.cbp 文件是 Code::Blocks 的项目文件。Code::Blocks 是一个开源的跨平台集成开发环境(IDE),主要用于 C、C 以及 Fortran 编程。.cbp 文件包含有关项目的所有配置信息,包括文件路径、编译选项、链接器设置等。 以下是 .cbp 文件的…...

jQuery 选择器

jQuery 选择器 jQuery 是一个快速、小巧且功能丰富的 JavaScript 库。它使得 HTML 文档遍历和操作、事件处理、动画和 AJAX 等操作更加简单,适用于各种浏览器。jQuery 的核心特性之一是其强大的选择器引擎,它允许开发者通过 CSS 选择器语法轻松地选取和操作 DOM 元素。本文将…...

Linux系统编程-进程控制相关操作详解

进程(Process)是计算机科学中一个基本的概念,特别是在操作系统领域中非常重要。它指的是在系统中正在运行的一个程序的实例。每个进程都是系统资源分配的基本单位,是程序执行时的一个实例。以下是关于进程的详细解释: …...

分布式I/O从站的认知

为什么需要分布式I/O从站? 当PLC与控制机构距离过远时,远距离会带来信号干扰,分布式I/O从站只需要一个网络线缆连接。 ET200分布式I/O从站家族 体积紧凑、功能强大。 ET200SP ET200M ET200S ET200iSP ET200 AL ET200pro ET200 eco PN 通讯协议…...

【python】PyQt5顶层窗口相关操作API原理剖析,企业级应用实战分享

✨✨ 欢迎大家来到景天科技苑✨✨ 🎈🎈 养成好习惯,先赞后看哦~🎈🎈 🏆 作者简介:景天科技苑 🏆《头衔》:大厂架构师,华为云开发者社区专家博主,…...

网络编程(Modbus进阶)

思维导图 Modbus RTU(先学一点理论) 概念 Modbus RTU 是工业自动化领域 最广泛应用的串行通信协议,由 Modicon 公司(现施耐德电气)于 1979 年推出。它以 高效率、强健性、易实现的特点成为工业控制系统的通信标准。 包…...

后进先出(LIFO)详解

LIFO 是 Last In, First Out 的缩写,中文译为后进先出。这是一种数据结构的工作原则,类似于一摞盘子或一叠书本: 最后放进去的元素最先出来 -想象往筒状容器里放盘子: (1)你放进的最后一个盘子&#xff08…...

CTF show Web 红包题第六弹

提示 1.不是SQL注入 2.需要找关键源码 思路 进入页面发现是一个登录框,很难让人不联想到SQL注入,但提示都说了不是SQL注入,所以就不往这方面想了 ​ 先查看一下网页源码,发现一段JavaScript代码,有一个关键类ctfs…...

前端开发面试题总结-JavaScript篇(一)

文章目录 JavaScript高频问答一、作用域与闭包1.什么是闭包(Closure)?闭包有什么应用场景和潜在问题?2.解释 JavaScript 的作用域链(Scope Chain) 二、原型与继承3.原型链是什么?如何实现继承&a…...

【HTTP三个基础问题】

面试官您好!HTTP是超文本传输协议,是互联网上客户端和服务器之间传输超文本数据(比如文字、图片、音频、视频等)的核心协议,当前互联网应用最广泛的版本是HTTP1.1,它基于经典的C/S模型,也就是客…...

#Uniapp篇:chrome调试unapp适配

chrome调试设备----使用Android模拟机开发调试移动端页面 Chrome://inspect/#devices MuMu模拟器Edge浏览器:Android原生APP嵌入的H5页面元素定位 chrome://inspect/#devices uniapp单位适配 根路径下 postcss.config.js 需要装这些插件 “postcss”: “^8.5.…...

【C++特殊工具与技术】优化内存分配(一):C++中的内存分配

目录 一、C 内存的基本概念​ 1.1 内存的物理与逻辑结构​ 1.2 C 程序的内存区域划分​ 二、栈内存分配​ 2.1 栈内存的特点​ 2.2 栈内存分配示例​ 三、堆内存分配​ 3.1 new和delete操作符​ 4.2 内存泄漏与悬空指针问题​ 4.3 new和delete的重载​ 四、智能指针…...

iview框架主题色的应用

1.下载 less要使用3.0.0以下的版本 npm install less2.7.3 npm install less-loader4.0.52./src/config/theme.js文件 module.exports {yellow: {theme-color: #FDCE04},blue: {theme-color: #547CE7} }在sass中使用theme配置的颜色主题,无需引入,直接可…...

水泥厂自动化升级利器:Devicenet转Modbus rtu协议转换网关

在水泥厂的生产流程中,工业自动化网关起着至关重要的作用,尤其是JH-DVN-RTU疆鸿智能Devicenet转Modbus rtu协议转换网关,为水泥厂实现高效生产与精准控制提供了有力支持。 水泥厂设备众多,其中不少设备采用Devicenet协议。Devicen…...

图解JavaScript原型:原型链及其分析 | JavaScript图解

​​ 忽略该图的细节(如内存地址值没有用二进制) 以下是对该图进一步的理解和总结 1. JS 对象概念的辨析 对象是什么:保存在堆中一块区域,同时在栈中有一块区域保存其在堆中的地址(也就是我们通常说的该变量指向谁&…...