《系统架构设计师教程(第2版)》第11章-未来信息综合技术-07-大数据技术概述
文章目录
- 1. 大数据的定义
- 2. 大数据的研究内容
- 2.1 面临的问题
- 2.2 面临的挑战
- 2.3 分析步骤
- 2.3.1 数据获取和记录
- 2.3.2 信息抽取和清洗
- 2.3.3 数据集成、聚集和表示
- 2.3.4 查询处理、数据建模和分析
- 2.3.5 解释
- 3.大数据的应用领域
- 3.1 制造业的应用
- 3.2 服务业的应用
- 3.3 交通行业的应用
- 3.4 医疗行业的应用
1. 大数据的定义
- 维基百科的定义:
- 大数据指的是那些规模庞大或极其复杂的数据集,
- 超出了现有的常规工具在合理成本和可接受时间范围内进行捕获、管理和处理的能力
教材原文:大数据是指其大小或复杂性无法通过现有常用的软件工具,以合理的成本并在可接受的时限内对其进行捕获、管理和处理的数据集。这些困难包括数据的收入、存储、搜索、共享、分析、可视化。
-
Granter的定义:3V模型
- 大规模 (Volume)
- 多样化 (Variety)
- 高处理速度 (Velocity)
-
由此衍生的大数据的三大挑战
- 不断增长的数据量
- 多格式数据
- 性能(高处理速度)
- 涉及终端数据处理能力、数据流访问和交付、服务器计算处理能力、后端存储的吞吐能力
-
IBM 的定义:
- 3V模型: 大规模 (Volume)、多样化 (Variety)、 高速度 (Velocity)
- +第四V:潜藏价值 (Value)
-
SAS 的定义
- 3V模型: 大规模 (Volume)、多样化 (Variety)、 高速度 (Velocity)
- 可变性:数据流可能具有高度的不一致性,并存在周期性的峰值
- 复杂性:数据来源的多样性
- 连接、匹配、清洗和转化的复杂性
- 不同数据源之间连接关系、关联关系、层次关系的复杂性
2. 大数据的研究内容
2.1 面临的问题
2012年冬季,来自IBM、微软、谷歌、HP、MIT、斯坦福、加州大学伯克利分校、UIUC等产业界和学术界的数据库领域专家通过在线的方式共同发布了一个关于大数据的
白皮书,指出大数据面临着5个主要问题:
- 异构性 (Heterogeneity)
- 规模 (Scale)
- 时间性 (Timeliness)
- 复杂性 (Complexity)
- 隐私性 (Privacy)
可见:
- 对应Granter的3V模型,增加了“复杂性”和“隐私性”
- 对应SAS定义的5点,“可变性”被“隐私性”替换
2.2 面临的挑战
对应上边面临的问题,其研究工作将面临5个方面的挑战:
- 数据获取问题
数据筛选,那些保存那些丢弃,目前这些决策还只能采用特设方法给出。
- 数据结构问题
如何将没有语义的内容转换为结构化的格式,以便进行后续处理。
- 数据集成问题
如何将数据进行有效关联
- 数据分析、组织、抽取、建模问题
数据分析是许多大数据应用的瓶颈,目前底层算法缺乏伸缩性、对待分析数据的复杂性估计不够,等等。
- 数据分析的结果呈现问题
如何呈现分析结果,并与非技术的领域专家进行交互
2.3 分析步骤
白皮书给出了大数据的分析步骤如下:
2.3.1 数据获取和记录
- 研究数据压缩中的科学问题
- 能够智能地处理原始数据
- 在不丢失信息的情况下,将海量数据压缩到人可以理解的程度
- 研究“在线”数据分析技术
- 能够处理实时流数据
- 研究元数据自动获取技术
- 研究数据来源技术
- 追踪数据的产生和处理过程
2.3.2 信息抽取和清洗
- 信息抽取:从文本、图像、音频等数据源中自动提取有价值的信息,将其转化为结构化的数据形式,以便进一步分析和利用
- 信息清洗:对原始数据进行清理、校验和纠正,以去除噪声、重复、错误或不一致的数据,提高数据的质量和准确性
2.3.3 数据集成、聚集和表示
- 概念:
- 数据集成:将多个不同来源、格式的数据整合到一起,形成一个统一的数据集,以便进行综合分析
- 数据聚集:对数据进行汇总和统计,以便从宏观上了解数据的特征和趋势
- 数据表示:将数据以一种易于理解和使用的方式呈现出来,让人们能够更直观地理解数据
- 如:图表、表格、可视化图形等
- 作用:
- 解决存在大量异构数据问题,以便对大规模数据进行有效分析
2.3.4 查询处理、数据建模和分析
- 充满噪声的大数据也可能比小样本数据更有价值
- 大数据得到的一般统计数据通常强于具有波动性的个体数据,往往透露更可靠的隐藏模式和知识
- 通过信息冗余以弥补缺失的数据、交叉验证冲突的情况、验证可信赖的关系
- 数据挖掘需要的条件:
- 完整的、经过清洗的、可信的、可被高效访问的数据
- 声明性的查询(例如 SQL) 和挖掘接口
- 可扩展的挖掘算法及大数据计算环境
- 目前需要研究的问题
- 查询处理方面:
- 在TB级别上的可伸缩复杂交互查询技术
- 大数据分析方面
- 缺乏数据库系统之间的协作
- 需要研究并实现:将声明性查询语言与数据挖掘、数据统计包有机整合在一起的数据分析系统
- 查询处理方面:
2.3.5 解释
- 大数据分析系统应该支持用户对产生结果的了解、验证、分析。
3.大数据的应用领域
3.1 制造业的应用
- 创造了掌握用户需求为目标的智慧化制造业
如:
- 一些计算机硬件供应商正在收集和分析设备信息对设备预测,并提前维护
- 为下一代产品提供灵感
- 海量数据扩大了算法和运筹学的应用领域在制造业的应用
例如,在部分制造企业,算法对生产线的传感器信息进行分析,形成了自我调节的流程,从而减少了浪费,避免了代价高昂(有
时还十分危险)的人为干预,最终提升产量。
3.2 服务业的应用
- 服务业演化的两种形态:
- 信息技术与服务业相结合的信息服务业
- 如:计算机软件、通信服务、信息咨询服务
- 大数据的应用:如,收集用户行为推送广告
- 应用信息技术改造传统服务业而来的服务业
- 如:信息化改造后的商业、金融业、旅游业等
- 大数据的应用:
- 厂商可以通过实时跟踪客户行为、更新客户偏好、建立可能行为的模型
- 银行可以从大量数据中发现信用卡欺诈和盗用
- 理财网站从统计的消费数据中来预测宏观的经济趋势
- 信息技术与服务业相结合的信息服务业
3.3 交通行业的应用
- 大数据时代下的智慧交通:
- 融合传感器、监视视频、GPS、气象监测等设备产生的海量数据
- 从中提取出人们真正需要的信息
- 将通过计算提供最佳的出行方式和路线,及时而准确地进行发布和推送给用户
3.4 医疗行业的应用
大数据下的医疗行业:
- 将医疗机构的电子病历记录标准化,形成全方位多维度的大数据仓库
- 系统全面分析患者的基本资料、诊断结果、处方、医疗保险等数据
- 综合以上数据,在医生的参与下通过决策支持系统,选择最佳的医疗护理解决方案

相关文章:
《系统架构设计师教程(第2版)》第11章-未来信息综合技术-07-大数据技术概述
文章目录 1. 大数据的定义2. 大数据的研究内容2.1 面临的问题2.2 面临的挑战2.3 分析步骤2.3.1 数据获取和记录2.3.2 信息抽取和清洗2.3.3 数据集成、聚集和表示2.3.4 查询处理、数据建模和分析2.3.5 解释 3.大数据的应用领域3.1 制造业的应用3.2 服务业的应用3.3 交通行业的应…...
前端面试题54(断点续传讲解)
断点续传是一种在上传或下载大文件时,如果因为网络问题中断,可以从已经上传或下载的部分继续,而不是重新开始的技术。这对于提高用户体验和节省带宽非常有帮助。下面我将分别从HTTP协议层面、前端实现思路以及一个简单的前端实现示例来讲解断…...
YOLOv10改进 | Conv篇 | RCS-OSA替换C2f实现暴力涨点(减少通道的空间对象注意力机制)
一、本文介绍 本文给大家带来的改进机制是RCS-YOLO提出的RCS-OSA模块,其全称是"Reduced Channel Spatial Object Attention",意即"减少通道的空间对象注意力"。这个模块的主要功能是通过减少特征图的通道数量,同时关注空…...
【C++BFS】690. 员工的重要性
本文涉及知识点 CBFS算法 LeetCode690. 员工的重要性 你有一个保存员工信息的数据结构,它包含了员工唯一的 id ,重要度和直系下属的 id 。 给定一个员工数组 employees,其中: employees[i].id 是第 i 个员工的 ID。 employees[…...
视频调整帧率、分辨率+音画同步
# python data_utils/pre_video/multi_fps_crop_sync.pyimport cv2 import os from tqdm import tqdm import subprocess# 加载人脸检测模型 face_cascade cv2.CascadeClassifier(cv2.data.haarcascades haarcascade_frontalface_default.xml)def contains_face(frame):gray …...
【深度学习】关于模型加速
模型转为半精度的会加快推理速度吗 将模型转为半精度(通常指16位浮点数,即FP16)确实可以加快推理速度,同时还能减少显存(GPU内存)的使用。以下是一些关键点: 加快推理速度的原因 减少计算量&a…...
Python中time模块用法示例详解
前言 仅供个人学习用,如果对各位朋友有参考价值,给个赞或者收藏吧 ^_^ 一、time模块介绍 time模块是Python中处理时间相关操作的核心工具,提供了时间获取、格式化、转换、延迟以及计时等多种功能。 总的来说time模块中时间可以有3种格式&…...
解决POST请求中文乱码问题
解决POST请求中文乱码问题 1、乱码原因2、解决方法3、具体步骤 💖The Begin💖点点关注,收藏不迷路💖 在Web开发中,处理POST请求时经常遇到中文乱码问题,这主要是由于服务器在接收到POST请求的数据后&#x…...
Axure-黑马
Axure-黑马 编辑时间2024/7/12 来源:B站黑马程序员 需求其他根据:visio,墨刀 Axure介绍 Axure RP是美国Axure Software Solution给公司出品的一款快速原型大的软件,一般来说使用者会称他为Axure 应用场景 拉投资使用 给项目团…...
Centos解决服务器时间不准的问题
CentOS 系统时间老是自己变化可能有以下几个原因: 硬件时钟问题:服务器的硬件时钟可能出现故障或不准确。 时区设置错误:如果时区设置不正确,可能导致显示的时间与实际期望的时间不符。 系统服务异常:与时间同步相关…...
摸鱼大数据——Kafka——Kafka的shell命令使用
Kafka本质上就是一个消息队列的中间件的产品,主要负责消息数据的传递。也就说学习Kafka 也就是学习如何使用Kafka生产数据,以及如何使用Kafka来消费数据 topics操作 注意: 创建topic不指定分区数和副本数,默认都是1个 分区数可以后期通过alter增大,但是…...
在 Linux/Debian/Ubuntu 上使用 Brasero 刻录光盘
在 Ubuntu 系统中,Brasero 是一个非常方便的光盘刻录工具。无论是创建数据光盘、音频光盘还是刻录光盘镜像文件,Brasero 都能轻松胜任。本文将介绍如何在 Ubuntu 上安装和使用 Brasero 进行光盘刻录。 安装 Brasero 在大多数 Ubuntu 版本中,…...
QT之嵌入外部第三方软件到本窗体中
一、前言 使用QT开发,有时需要调用一些外部程序,但是单独打开一个外部窗口有的场合很不合适,最好是嵌入到开发的QT程序界面中。还有就是自己开发的n个程序,一个主程序托n个子程序,为了方便管理将各个程序独立…...
解决GET请求中文乱码问题
解决GET请求中文乱码问题 1、乱码的根本原因2、解决方法方法一:修改Tomcat配置(推荐)方法二:使用URLEncoder和URLDecoder(不推荐用于GET请求乱码)方法三:String类编解码(不直接解决乱…...
弥合人类与人工智能的知识差距:AlphaZero 中的概念发现和迁移(1)
文章目录 一、摘要二、简介三、相关工作3.1 基于概念的解释3.2 强化学习中生成解释3.3 国际象棋与人工智能 四、什么是概念?五、发掘概念5.1 挖掘概念向量5.1.1 静态概念的概念约束5.1.2 动态概念的概念约束 5.2 过滤概念 一、摘要 人工智能(AIÿ…...
cpp的cbp
.cbp 文件是 Code::Blocks 的项目文件。Code::Blocks 是一个开源的跨平台集成开发环境(IDE),主要用于 C、C 以及 Fortran 编程。.cbp 文件包含有关项目的所有配置信息,包括文件路径、编译选项、链接器设置等。 以下是 .cbp 文件的…...
jQuery 选择器
jQuery 选择器 jQuery 是一个快速、小巧且功能丰富的 JavaScript 库。它使得 HTML 文档遍历和操作、事件处理、动画和 AJAX 等操作更加简单,适用于各种浏览器。jQuery 的核心特性之一是其强大的选择器引擎,它允许开发者通过 CSS 选择器语法轻松地选取和操作 DOM 元素。本文将…...
Linux系统编程-进程控制相关操作详解
进程(Process)是计算机科学中一个基本的概念,特别是在操作系统领域中非常重要。它指的是在系统中正在运行的一个程序的实例。每个进程都是系统资源分配的基本单位,是程序执行时的一个实例。以下是关于进程的详细解释: …...
分布式I/O从站的认知
为什么需要分布式I/O从站? 当PLC与控制机构距离过远时,远距离会带来信号干扰,分布式I/O从站只需要一个网络线缆连接。 ET200分布式I/O从站家族 体积紧凑、功能强大。 ET200SP ET200M ET200S ET200iSP ET200 AL ET200pro ET200 eco PN 通讯协议…...
【python】PyQt5顶层窗口相关操作API原理剖析,企业级应用实战分享
✨✨ 欢迎大家来到景天科技苑✨✨ 🎈🎈 养成好习惯,先赞后看哦~🎈🎈 🏆 作者简介:景天科技苑 🏆《头衔》:大厂架构师,华为云开发者社区专家博主,…...
FFM Arena内存管理失效引发Native OOM?深度拆解Java 22 JEP 464中Scoped Memory Model的3种安全模式切换策略
第一章:FFM Arena内存管理失效引发Native OOM?深度拆解Java 22 JEP 464中Scoped Memory Model的3种安全模式切换策略Java 22 引入的 JEP 464 — Scoped Memory Model,旨在为 Foreign Function & Memory API(FFM)提…...
Docker---容器编排工具Docker Compose
Docker Compose核心功能使用YAML文件定义多容器应用一键启动/停止/重建整个应用栈管理服务依赖关系与网络配置环境变量集中管理,适配多环境部署核心概念层级Service(服务):一个应用组件,可包含多个相同镜像的容器实例P…...
DAMOYOLO模型一键部署教程:基于Ubuntu20.04与Docker环境
DAMOYOLO模型一键部署教程:基于Ubuntu20.04与Docker环境 想试试最新的目标检测模型,但被复杂的依赖和配置搞得头大?别担心,今天咱们就来聊聊怎么用最简单的方式,在Ubuntu 20.04上把DAMOYOLO模型跑起来。整个过程就像搭…...
Ostrakon-VL-8B辅助作业批改实战:识别手写公式与图表
Ostrakon-VL-8B辅助作业批改实战:识别手写公式与图表 每次批改理科作业,是不是都感觉眼睛快看花了?特别是面对几十份甚至上百份的手写作业,那些密密麻麻的公式、歪歪扭扭的电路图,还有各式各样的化学符号,…...
TCA9548A I²C多路复用器原理与嵌入式实战指南
1. TCA9548A IC多路复用器技术解析与嵌入式系统集成实践 1.1 器件定位与工程价值 TCA9548A是德州仪器(TI)推出的低电压8通道IC总线开关,其核心价值在于解决嵌入式系统中IC总线地址冲突这一经典工程难题。在STM32、ESP32、Raspberry Pi等主流…...
Claude 源码泄露事件深度分析:一场“打包错误“引发的行业地震
卷卷 | 2026年4月1日一句话结论一周之内,Anthropic 连续两次泄露:先是有近 3,000 份内部文件(含未发布模型 Claude Mythos 的详细信息)被公开暴露;后是 Claude Code v2.1.88 的 npm 包中意外包含了完整源码的 source m…...
探索瑞芯微RK3588硬件电路设计:从资料到实战
瑞芯微RK3588硬件电路设计资料(Altium原理图PCB全套硬件资料)包含RK3588全套硬件资料和用RK3588设计的一款网络硬盘录像机(原理图和PCB均用Altium Designer打开)使用3D封装最近在研究硬件设计这块,发现了一份超有料的瑞…...
KT0803K FM发射芯片Arduino驱动开发与射频工程实践
1. KT0803系列FM发射芯片Arduino库深度解析与工程实践指南1.1 芯片定位与系统级约束KT0803及其衍生型号(KT0803K/L/M)是高度集成的单芯片FM广播发射器,专为低功耗、小体积音频广播应用设计。该系列芯片内部集成了PLL频率合成器、立体声编码器…...
如何解决Tokio项目中Windows平台TCP性能问题的完整指南
如何解决Tokio项目中Windows平台TCP性能问题的完整指南 【免费下载链接】tokio A runtime for writing reliable asynchronous applications with Rust. Provides I/O, networking, scheduling, timers, ... 项目地址: https://gitcode.com/GitHub_Trending/to/tokio To…...
成为技术专家的捷径?不,只有长期主义的坚持
在软件测试领域,我们常常被一种“速成”的幻象所包围。铺天盖地的培训广告承诺“三个月精通自动化测试”、“六周成为性能测试专家”,各种“一招鲜”的测试工具和“万能”的测试框架被包装成通往成功的捷径。对于身处其中、渴望突破职业瓶颈的测试工程师…...
