当前位置: 首页 > news >正文

《系统架构设计师教程(第2版)》第11章-未来信息综合技术-07-大数据技术概述

文章目录

  • 1. 大数据的定义
  • 2. 大数据的研究内容
    • 2.1 面临的问题
    • 2.2 面临的挑战
    • 2.3 分析步骤
      • 2.3.1 数据获取和记录
      • 2.3.2 信息抽取和清洗
      • 2.3.3 数据集成、聚集和表示
      • 2.3.4 查询处理、数据建模和分析
      • 2.3.5 解释
  • 3.大数据的应用领域
    • 3.1 制造业的应用
    • 3.2 服务业的应用
    • 3.3 交通行业的应用
    • 3.4 医疗行业的应用

1. 大数据的定义

  • 维基百科的定义:
    • 大数据指的是那些规模庞大或极其复杂的数据集,
    • 超出了现有的常规工具在合理成本和可接受时间范围内进行捕获、管理和处理的能力

教材原文:大数据是指其大小或复杂性无法通过现有常用的软件工具,以合理的成本并在可接受的时限内对其进行捕获、管理和处理的数据集。这些困难包括数据的收入、存储、搜索、共享、分析、可视化。

  • Granter的定义:3V模型

    • 大规模 (Volume)
    • 多样化 (Variety)
    • 高处理速度 (Velocity)
  • 由此衍生的大数据的三大挑战

    1. 不断增长的数据量
    2. 多格式数据
    3. 性能(高处理速度)
      • 涉及终端数据处理能力、数据流访问和交付、服务器计算处理能力、后端存储的吞吐能力
  • IBM 的定义:

    • 3V模型: 大规模 (Volume)、多样化 (Variety)、 高速度 (Velocity)
    • +第四V:潜藏价值 (Value)
  • SAS 的定义

    • 3V模型: 大规模 (Volume)、多样化 (Variety)、 高速度 (Velocity)
    • 可变性:数据流可能具有高度的不一致性,并存在周期性的峰值
    • 复杂性:数据来源的多样性
      • 连接、匹配、清洗和转化的复杂性
      • 不同数据源之间连接关系、关联关系、层次关系的复杂性

2. 大数据的研究内容

2.1 面临的问题

2012年冬季,来自IBM、微软、谷歌、HP、MIT、斯坦福、加州大学伯克利分校、UIUC等产业界和学术界的数据库领域专家通过在线的方式共同发布了一个关于大数据的白皮书,指出大数据面临着5个主要问题:

  • 异构性 (Heterogeneity)
  • 规模 (Scale)
  • 时间性 (Timeliness)
  • 复杂性 (Complexity)
  • 隐私性 (Privacy)

可见:

  • 对应Granter的3V模型,增加了“复杂性”和“隐私性”
  • 对应SAS定义的5点,“可变性”被“隐私性”替换

2.2 面临的挑战

对应上边面临的问题,其研究工作将面临5个方面的挑战:

  • 数据获取问题

数据筛选,那些保存那些丢弃,目前这些决策还只能采用特设方法给出。

  • 数据结构问题

如何将没有语义的内容转换为结构化的格式,以便进行后续处理。

  • 数据集成问题

如何将数据进行有效关联

  • 数据分析、组织、抽取、建模问题

数据分析是许多大数据应用的瓶颈,目前底层算法缺乏伸缩性、对待分析数据的复杂性估计不够,等等。

  • 数据分析的结果呈现问题

如何呈现分析结果,并与非技术的领域专家进行交互

2.3 分析步骤

白皮书给出了大数据的分析步骤如下:

2.3.1 数据获取和记录

  • 研究数据压缩中的科学问题
    • 能够智能地处理原始数据
    • 在不丢失信息的情况下,将海量数据压缩到人可以理解的程度
  • 研究“在线”数据分析技术
    • 能够处理实时流数据
  • 研究元数据自动获取技术
  • 研究数据来源技术
    • 追踪数据的产生和处理过程

2.3.2 信息抽取和清洗

  • 信息抽取:从文本、图像、音频等数据源中自动提取有价值的信息,将其转化为结构化的数据形式,以便进一步分析和利用
  • 信息清洗:对原始数据进行清理、校验和纠正,以去除噪声、重复、错误或不一致的数据,提高数据的质量和准确性

2.3.3 数据集成、聚集和表示

  • 概念:
    • 数据集成:将多个不同来源、格式的数据整合到一起,形成一个统一的数据集,以便进行综合分析
    • 数据聚集:对数据进行汇总和统计,以便从宏观上了解数据的特征和趋势
    • 数据表示:将数据以一种易于理解和使用的方式呈现出来,让人们能够更直观地理解数据
      • 如:图表、表格、可视化图形等
  • 作用:
    • 解决存在大量异构数据问题,以便对大规模数据进行有效分析

2.3.4 查询处理、数据建模和分析

  • 充满噪声的大数据也可能比小样本数据更有价值
    • 大数据得到的一般统计数据通常强于具有波动性的个体数据,往往透露更可靠的隐藏模式和知识
    • 通过信息冗余以弥补缺失的数据、交叉验证冲突的情况、验证可信赖的关系
  • 数据挖掘需要的条件:
    • 完整的、经过清洗的、可信的、可被高效访问的数据
    • 声明性的查询(例如 SQL) 和挖掘接口
    • 可扩展的挖掘算法及大数据计算环境
  • 目前需要研究的问题
    • 查询处理方面:
      • 在TB级别上的可伸缩复杂交互查询技术
    • 大数据分析方面
      • 缺乏数据库系统之间的协作
      • 需要研究并实现:将声明性查询语言与数据挖掘、数据统计包有机整合在一起的数据分析系统

2.3.5 解释

  • 大数据分析系统应该支持用户对产生结果的了解、验证、分析。

3.大数据的应用领域

3.1 制造业的应用

  • 创造了掌握用户需求为目标的智慧化制造业

如:

  • 一些计算机硬件供应商正在收集和分析设备信息对设备预测,并提前维护
  • 为下一代产品提供灵感
  • 海量数据扩大了算法和运筹学的应用领域在制造业的应用

例如,在部分制造企业,算法对生产线的传感器信息进行分析,形成了自我调节的流程,从而减少了浪费,避免了代价高昂(有
时还十分危险)的人为干预,最终提升产量。

3.2 服务业的应用

  • 服务业演化的两种形态:
    • 信息技术与服务业相结合的信息服务业
      • 如:计算机软件、通信服务、信息咨询服务
      • 大数据的应用:如,收集用户行为推送广告
    • 应用信息技术改造传统服务业而来的服务业
      • 如:信息化改造后的商业、金融业、旅游业等
      • 大数据的应用:
        • 厂商可以通过实时跟踪客户行为、更新客户偏好、建立可能行为的模型
        • 银行可以从大量数据中发现信用卡欺诈和盗用
        • 理财网站从统计的消费数据中来预测宏观的经济趋势

3.3 交通行业的应用

  • 大数据时代下的智慧交通:
    • 融合传感器、监视视频、GPS、气象监测等设备产生的海量数据
    • 从中提取出人们真正需要的信息
    • 将通过计算提供最佳的出行方式和路线,及时而准确地进行发布和推送给用户

3.4 医疗行业的应用

大数据下的医疗行业:

  • 将医疗机构的电子病历记录标准化,形成全方位多维度的大数据仓库
  • 系统全面分析患者的基本资料、诊断结果、处方、医疗保险等数据
  • 综合以上数据,在医生的参与下通过决策支持系统,选择最佳的医疗护理解决方案

在这里插入图片描述

相关文章:

《系统架构设计师教程(第2版)》第11章-未来信息综合技术-07-大数据技术概述

文章目录 1. 大数据的定义2. 大数据的研究内容2.1 面临的问题2.2 面临的挑战2.3 分析步骤2.3.1 数据获取和记录2.3.2 信息抽取和清洗2.3.3 数据集成、聚集和表示2.3.4 查询处理、数据建模和分析2.3.5 解释 3.大数据的应用领域3.1 制造业的应用3.2 服务业的应用3.3 交通行业的应…...

前端面试题54(断点续传讲解)

断点续传是一种在上传或下载大文件时,如果因为网络问题中断,可以从已经上传或下载的部分继续,而不是重新开始的技术。这对于提高用户体验和节省带宽非常有帮助。下面我将分别从HTTP协议层面、前端实现思路以及一个简单的前端实现示例来讲解断…...

YOLOv10改进 | Conv篇 | RCS-OSA替换C2f实现暴力涨点(减少通道的空间对象注意力机制)

一、本文介绍 本文给大家带来的改进机制是RCS-YOLO提出的RCS-OSA模块,其全称是"Reduced Channel Spatial Object Attention",意即"减少通道的空间对象注意力"。这个模块的主要功能是通过减少特征图的通道数量,同时关注空…...

【C++BFS】690. 员工的重要性

本文涉及知识点 CBFS算法 LeetCode690. 员工的重要性 你有一个保存员工信息的数据结构,它包含了员工唯一的 id ,重要度和直系下属的 id 。 给定一个员工数组 employees,其中: employees[i].id 是第 i 个员工的 ID。 employees[…...

视频调整帧率、分辨率+音画同步

# python data_utils/pre_video/multi_fps_crop_sync.pyimport cv2 import os from tqdm import tqdm import subprocess# 加载人脸检测模型 face_cascade cv2.CascadeClassifier(cv2.data.haarcascades haarcascade_frontalface_default.xml)def contains_face(frame):gray …...

【深度学习】关于模型加速

模型转为半精度的会加快推理速度吗 将模型转为半精度(通常指16位浮点数,即FP16)确实可以加快推理速度,同时还能减少显存(GPU内存)的使用。以下是一些关键点: 加快推理速度的原因 减少计算量&a…...

Python中time模块用法示例详解

前言 仅供个人学习用,如果对各位朋友有参考价值,给个赞或者收藏吧 ^_^ 一、time模块介绍 time模块是Python中处理时间相关操作的核心工具,提供了时间获取、格式化、转换、延迟以及计时等多种功能。 总的来说time模块中时间可以有3种格式&…...

解决POST请求中文乱码问题

解决POST请求中文乱码问题 1、乱码原因2、解决方法3、具体步骤 💖The Begin💖点点关注,收藏不迷路💖 在Web开发中,处理POST请求时经常遇到中文乱码问题,这主要是由于服务器在接收到POST请求的数据后&#x…...

Axure-黑马

Axure-黑马 编辑时间2024/7/12 来源:B站黑马程序员 需求其他根据:visio,墨刀 Axure介绍 Axure RP是美国Axure Software Solution给公司出品的一款快速原型大的软件,一般来说使用者会称他为Axure 应用场景 拉投资使用 给项目团…...

Centos解决服务器时间不准的问题

CentOS 系统时间老是自己变化可能有以下几个原因: 硬件时钟问题:服务器的硬件时钟可能出现故障或不准确。 时区设置错误:如果时区设置不正确,可能导致显示的时间与实际期望的时间不符。 系统服务异常:与时间同步相关…...

摸鱼大数据——Kafka——Kafka的shell命令使用

Kafka本质上就是一个消息队列的中间件的产品,主要负责消息数据的传递。也就说学习Kafka 也就是学习如何使用Kafka生产数据,以及如何使用Kafka来消费数据 topics操作 注意: 创建topic不指定分区数和副本数,默认都是1个 分区数可以后期通过alter增大,但是…...

在 Linux/Debian/Ubuntu 上使用 Brasero 刻录光盘

在 Ubuntu 系统中,Brasero 是一个非常方便的光盘刻录工具。无论是创建数据光盘、音频光盘还是刻录光盘镜像文件,Brasero 都能轻松胜任。本文将介绍如何在 Ubuntu 上安装和使用 Brasero 进行光盘刻录。 安装 Brasero 在大多数 Ubuntu 版本中&#xff0c…...

QT之嵌入外部第三方软件到本窗体中

一、前言 使用QT开发,有时需要调用一些外部程序,但是单独打开一个外部窗口有的场合很不合适,最好是嵌入到开发的QT程序界面中。还有就是自己开发的n个程序,一个主程序托n个子程序,为了方便管理将各个程序独立&#xf…...

解决GET请求中文乱码问题

解决GET请求中文乱码问题 1、乱码的根本原因2、解决方法方法一:修改Tomcat配置(推荐)方法二:使用URLEncoder和URLDecoder(不推荐用于GET请求乱码)方法三:String类编解码(不直接解决乱…...

弥合人类与人工智能的知识差距:AlphaZero 中的概念发现和迁移(1)

文章目录 一、摘要二、简介三、相关工作3.1 基于概念的解释3.2 强化学习中生成解释3.3 国际象棋与人工智能 四、什么是概念?五、发掘概念5.1 挖掘概念向量5.1.1 静态概念的概念约束5.1.2 动态概念的概念约束 5.2 过滤概念 一、摘要 人工智能(AI&#xff…...

cpp的cbp

.cbp 文件是 Code::Blocks 的项目文件。Code::Blocks 是一个开源的跨平台集成开发环境(IDE),主要用于 C、C 以及 Fortran 编程。.cbp 文件包含有关项目的所有配置信息,包括文件路径、编译选项、链接器设置等。 以下是 .cbp 文件的…...

jQuery 选择器

jQuery 选择器 jQuery 是一个快速、小巧且功能丰富的 JavaScript 库。它使得 HTML 文档遍历和操作、事件处理、动画和 AJAX 等操作更加简单,适用于各种浏览器。jQuery 的核心特性之一是其强大的选择器引擎,它允许开发者通过 CSS 选择器语法轻松地选取和操作 DOM 元素。本文将…...

Linux系统编程-进程控制相关操作详解

进程(Process)是计算机科学中一个基本的概念,特别是在操作系统领域中非常重要。它指的是在系统中正在运行的一个程序的实例。每个进程都是系统资源分配的基本单位,是程序执行时的一个实例。以下是关于进程的详细解释: …...

分布式I/O从站的认知

为什么需要分布式I/O从站? 当PLC与控制机构距离过远时,远距离会带来信号干扰,分布式I/O从站只需要一个网络线缆连接。 ET200分布式I/O从站家族 体积紧凑、功能强大。 ET200SP ET200M ET200S ET200iSP ET200 AL ET200pro ET200 eco PN 通讯协议…...

【python】PyQt5顶层窗口相关操作API原理剖析,企业级应用实战分享

✨✨ 欢迎大家来到景天科技苑✨✨ 🎈🎈 养成好习惯,先赞后看哦~🎈🎈 🏆 作者简介:景天科技苑 🏆《头衔》:大厂架构师,华为云开发者社区专家博主,…...

流程图编辑框架LogicFlow-vue-ts和js

LogicFlow官网https://site.logic-flow.cn/LogicFlow 是一款流程图编辑框架,提供了一系列流程图交互、编辑所必需的功能和灵活的节点自定义、插件等拓展机制。LogicFlow支持前端研发自定义开发各种逻辑编排场景,如流程图、ER图、BPMN流程等。在工作审批配…...

goaccess分析json格式日志

一.安装使用yum安装,yum install goaccess 二.主要介绍格式问题 1.nginx日志格式如下: log_format main escapejson {"time_local":"$time_local", "remote_addr":"$remote_addr", "r…...

游戏AI的创造思路-技术基础-决策树(1)

决策树,是每个游戏人必须要掌握的游戏AI构建技术,难度小,速度快,结果直观,本篇将对决策树进行小小解读~~~~ 目录 1. 定义 2. 发展历史 3. 决策树的算法公式和函数 3.1. 信息增益(Information Gain&…...

OPenCV实现直方图均衡化----20240711

# 直方图均衡化import cv2 import numpy as np import matplotlib.pyplot as plt# 读取彩色图像 img = cv2.imread("./pictures/Lena.jpg")# 检查图像是否加载成功 if img is None:print("Could not open or find the i...

2023年全国大学生电子信息竞赛E题——自动追踪系统(stm32和openmv+普通舵机)完美解决第四问

当时做的时候,当时看别人开源的23年的题,感觉一头雾水。两个字没思路。确实只有做了才会有思路。我这里清晰的整理出来思路。 1.第一问的复位问题就是写一个函数,如果按键按下,就进入,再按下就退出 当然这个复位是写死…...

【UNI-APP】阿里NLS一句话听写typescript模块

阿里提供的demo代码都是javascript,自己捏个轮子。参考着自己写了一个阿里巴巴一句话听写Nls的typescript模块。VUE3的组合式API形式 startClient:开始听写,注意下一步要尽快开启识别和传数据,否则6秒后会关闭 startRecognition…...

Apache Spark分布式计算框架架构介绍

目录 一、概述 二、Apache Spark架构组件栈 2.1 概述 2.2 架构图 2.3 架构分层组件说明 2.3.1 支持数据源 2.3.2 调度运行模式 2.3.3 Spark Core核心 2.3.3.1 基础设施 2.3.3.2 存储系统 2.3.3.3 调度系统 2.3.3.4 计算引擎 2.3.4 生态组件 2.3.4.1 Spark SQL 2.…...

Visual Studio 2019 (VS2019) 中使用 CMake 配置 OpenCV 库(快捷版)

2024.07.11 测试有效 最近需要用一下 opencv 处理图像,简单配置了一下Cmake下的 opencv 库。 没有编译 opencv ,也不知道他们为什么要自己编译 opencv 。 一、下载并安装 OpenCV 1.前往 OpenCV 官方网站 下载适用于您的系统的 OpenCV 安装包。 2.点击直接…...

BUG解决:postman可以请求成功,但Python requests请求报403

目录 问题背景 问题定位 问题解决 问题背景 使用Python的requests库对接物联数据的接口之前一直正常运行,昨天突然请求不通了,通过进一步验证发现凡是使用代码调用接口就不通,而使用postman就能调通,请求参数啥的都没变。 接口…...

VScode常用快捷键

VScode介绍 VSCode(全称:Visual Studio Code)是一款由微软开发且跨平台的免费源代码编辑器。能够在windows、Linux、IOS等平台上运行,通过安装一些插件可以让这个编辑器变成一个编译器。与Visual Studio相比,它是免费…...