《系统架构设计师教程(第2版)》第11章-未来信息综合技术-07-大数据技术概述
文章目录
- 1. 大数据的定义
- 2. 大数据的研究内容
- 2.1 面临的问题
- 2.2 面临的挑战
- 2.3 分析步骤
- 2.3.1 数据获取和记录
- 2.3.2 信息抽取和清洗
- 2.3.3 数据集成、聚集和表示
- 2.3.4 查询处理、数据建模和分析
- 2.3.5 解释
- 3.大数据的应用领域
- 3.1 制造业的应用
- 3.2 服务业的应用
- 3.3 交通行业的应用
- 3.4 医疗行业的应用
1. 大数据的定义
- 维基百科的定义:
- 大数据指的是那些规模庞大或极其复杂的数据集,
- 超出了现有的常规工具在合理成本和可接受时间范围内进行捕获、管理和处理的能力
教材原文:大数据是指其大小或复杂性无法通过现有常用的软件工具,以合理的成本并在可接受的时限内对其进行捕获、管理和处理的数据集。这些困难包括数据的收入、存储、搜索、共享、分析、可视化。
-
Granter的定义:3V模型
- 大规模 (Volume)
- 多样化 (Variety)
- 高处理速度 (Velocity)
-
由此衍生的大数据的三大挑战
- 不断增长的数据量
- 多格式数据
- 性能(高处理速度)
- 涉及终端数据处理能力、数据流访问和交付、服务器计算处理能力、后端存储的吞吐能力
-
IBM 的定义:
- 3V模型: 大规模 (Volume)、多样化 (Variety)、 高速度 (Velocity)
- +第四V:潜藏价值 (Value)
-
SAS 的定义
- 3V模型: 大规模 (Volume)、多样化 (Variety)、 高速度 (Velocity)
- 可变性:数据流可能具有高度的不一致性,并存在周期性的峰值
- 复杂性:数据来源的多样性
- 连接、匹配、清洗和转化的复杂性
- 不同数据源之间连接关系、关联关系、层次关系的复杂性
2. 大数据的研究内容
2.1 面临的问题
2012年冬季,来自IBM、微软、谷歌、HP、MIT、斯坦福、加州大学伯克利分校、UIUC等产业界和学术界的数据库领域专家通过在线的方式共同发布了一个关于大数据的
白皮书,指出大数据面临着5个主要问题:
- 异构性 (Heterogeneity)
- 规模 (Scale)
- 时间性 (Timeliness)
- 复杂性 (Complexity)
- 隐私性 (Privacy)
可见:
- 对应Granter的3V模型,增加了“复杂性”和“隐私性”
- 对应SAS定义的5点,“可变性”被“隐私性”替换
2.2 面临的挑战
对应上边面临的问题,其研究工作将面临5个方面的挑战:
- 数据获取问题
数据筛选,那些保存那些丢弃,目前这些决策还只能采用特设方法给出。
- 数据结构问题
如何将没有语义的内容转换为结构化的格式,以便进行后续处理。
- 数据集成问题
如何将数据进行有效关联
- 数据分析、组织、抽取、建模问题
数据分析是许多大数据应用的瓶颈,目前底层算法缺乏伸缩性、对待分析数据的复杂性估计不够,等等。
- 数据分析的结果呈现问题
如何呈现分析结果,并与非技术的领域专家进行交互
2.3 分析步骤
白皮书给出了大数据的分析步骤如下:
2.3.1 数据获取和记录
- 研究数据压缩中的科学问题
- 能够智能地处理原始数据
- 在不丢失信息的情况下,将海量数据压缩到人可以理解的程度
- 研究“在线”数据分析技术
- 能够处理实时流数据
- 研究元数据自动获取技术
- 研究数据来源技术
- 追踪数据的产生和处理过程
2.3.2 信息抽取和清洗
- 信息抽取:从文本、图像、音频等数据源中自动提取有价值的信息,将其转化为结构化的数据形式,以便进一步分析和利用
- 信息清洗:对原始数据进行清理、校验和纠正,以去除噪声、重复、错误或不一致的数据,提高数据的质量和准确性
2.3.3 数据集成、聚集和表示
- 概念:
- 数据集成:将多个不同来源、格式的数据整合到一起,形成一个统一的数据集,以便进行综合分析
- 数据聚集:对数据进行汇总和统计,以便从宏观上了解数据的特征和趋势
- 数据表示:将数据以一种易于理解和使用的方式呈现出来,让人们能够更直观地理解数据
- 如:图表、表格、可视化图形等
- 作用:
- 解决存在大量异构数据问题,以便对大规模数据进行有效分析
2.3.4 查询处理、数据建模和分析
- 充满噪声的大数据也可能比小样本数据更有价值
- 大数据得到的一般统计数据通常强于具有波动性的个体数据,往往透露更可靠的隐藏模式和知识
- 通过信息冗余以弥补缺失的数据、交叉验证冲突的情况、验证可信赖的关系
- 数据挖掘需要的条件:
- 完整的、经过清洗的、可信的、可被高效访问的数据
- 声明性的查询(例如 SQL) 和挖掘接口
- 可扩展的挖掘算法及大数据计算环境
- 目前需要研究的问题
- 查询处理方面:
- 在TB级别上的可伸缩复杂交互查询技术
- 大数据分析方面
- 缺乏数据库系统之间的协作
- 需要研究并实现:将声明性查询语言与数据挖掘、数据统计包有机整合在一起的数据分析系统
- 查询处理方面:
2.3.5 解释
- 大数据分析系统应该支持用户对产生结果的了解、验证、分析。
3.大数据的应用领域
3.1 制造业的应用
- 创造了掌握用户需求为目标的智慧化制造业
如:
- 一些计算机硬件供应商正在收集和分析设备信息对设备预测,并提前维护
- 为下一代产品提供灵感
- 海量数据扩大了算法和运筹学的应用领域在制造业的应用
例如,在部分制造企业,算法对生产线的传感器信息进行分析,形成了自我调节的流程,从而减少了浪费,避免了代价高昂(有
时还十分危险)的人为干预,最终提升产量。
3.2 服务业的应用
- 服务业演化的两种形态:
- 信息技术与服务业相结合的信息服务业
- 如:计算机软件、通信服务、信息咨询服务
- 大数据的应用:如,收集用户行为推送广告
- 应用信息技术改造传统服务业而来的服务业
- 如:信息化改造后的商业、金融业、旅游业等
- 大数据的应用:
- 厂商可以通过实时跟踪客户行为、更新客户偏好、建立可能行为的模型
- 银行可以从大量数据中发现信用卡欺诈和盗用
- 理财网站从统计的消费数据中来预测宏观的经济趋势
- 信息技术与服务业相结合的信息服务业
3.3 交通行业的应用
- 大数据时代下的智慧交通:
- 融合传感器、监视视频、GPS、气象监测等设备产生的海量数据
- 从中提取出人们真正需要的信息
- 将通过计算提供最佳的出行方式和路线,及时而准确地进行发布和推送给用户
3.4 医疗行业的应用
大数据下的医疗行业:
- 将医疗机构的电子病历记录标准化,形成全方位多维度的大数据仓库
- 系统全面分析患者的基本资料、诊断结果、处方、医疗保险等数据
- 综合以上数据,在医生的参与下通过决策支持系统,选择最佳的医疗护理解决方案

相关文章:
《系统架构设计师教程(第2版)》第11章-未来信息综合技术-07-大数据技术概述
文章目录 1. 大数据的定义2. 大数据的研究内容2.1 面临的问题2.2 面临的挑战2.3 分析步骤2.3.1 数据获取和记录2.3.2 信息抽取和清洗2.3.3 数据集成、聚集和表示2.3.4 查询处理、数据建模和分析2.3.5 解释 3.大数据的应用领域3.1 制造业的应用3.2 服务业的应用3.3 交通行业的应…...
前端面试题54(断点续传讲解)
断点续传是一种在上传或下载大文件时,如果因为网络问题中断,可以从已经上传或下载的部分继续,而不是重新开始的技术。这对于提高用户体验和节省带宽非常有帮助。下面我将分别从HTTP协议层面、前端实现思路以及一个简单的前端实现示例来讲解断…...
YOLOv10改进 | Conv篇 | RCS-OSA替换C2f实现暴力涨点(减少通道的空间对象注意力机制)
一、本文介绍 本文给大家带来的改进机制是RCS-YOLO提出的RCS-OSA模块,其全称是"Reduced Channel Spatial Object Attention",意即"减少通道的空间对象注意力"。这个模块的主要功能是通过减少特征图的通道数量,同时关注空…...
【C++BFS】690. 员工的重要性
本文涉及知识点 CBFS算法 LeetCode690. 员工的重要性 你有一个保存员工信息的数据结构,它包含了员工唯一的 id ,重要度和直系下属的 id 。 给定一个员工数组 employees,其中: employees[i].id 是第 i 个员工的 ID。 employees[…...
视频调整帧率、分辨率+音画同步
# python data_utils/pre_video/multi_fps_crop_sync.pyimport cv2 import os from tqdm import tqdm import subprocess# 加载人脸检测模型 face_cascade cv2.CascadeClassifier(cv2.data.haarcascades haarcascade_frontalface_default.xml)def contains_face(frame):gray …...
【深度学习】关于模型加速
模型转为半精度的会加快推理速度吗 将模型转为半精度(通常指16位浮点数,即FP16)确实可以加快推理速度,同时还能减少显存(GPU内存)的使用。以下是一些关键点: 加快推理速度的原因 减少计算量&a…...
Python中time模块用法示例详解
前言 仅供个人学习用,如果对各位朋友有参考价值,给个赞或者收藏吧 ^_^ 一、time模块介绍 time模块是Python中处理时间相关操作的核心工具,提供了时间获取、格式化、转换、延迟以及计时等多种功能。 总的来说time模块中时间可以有3种格式&…...
解决POST请求中文乱码问题
解决POST请求中文乱码问题 1、乱码原因2、解决方法3、具体步骤 💖The Begin💖点点关注,收藏不迷路💖 在Web开发中,处理POST请求时经常遇到中文乱码问题,这主要是由于服务器在接收到POST请求的数据后&#x…...
Axure-黑马
Axure-黑马 编辑时间2024/7/12 来源:B站黑马程序员 需求其他根据:visio,墨刀 Axure介绍 Axure RP是美国Axure Software Solution给公司出品的一款快速原型大的软件,一般来说使用者会称他为Axure 应用场景 拉投资使用 给项目团…...
Centos解决服务器时间不准的问题
CentOS 系统时间老是自己变化可能有以下几个原因: 硬件时钟问题:服务器的硬件时钟可能出现故障或不准确。 时区设置错误:如果时区设置不正确,可能导致显示的时间与实际期望的时间不符。 系统服务异常:与时间同步相关…...
摸鱼大数据——Kafka——Kafka的shell命令使用
Kafka本质上就是一个消息队列的中间件的产品,主要负责消息数据的传递。也就说学习Kafka 也就是学习如何使用Kafka生产数据,以及如何使用Kafka来消费数据 topics操作 注意: 创建topic不指定分区数和副本数,默认都是1个 分区数可以后期通过alter增大,但是…...
在 Linux/Debian/Ubuntu 上使用 Brasero 刻录光盘
在 Ubuntu 系统中,Brasero 是一个非常方便的光盘刻录工具。无论是创建数据光盘、音频光盘还是刻录光盘镜像文件,Brasero 都能轻松胜任。本文将介绍如何在 Ubuntu 上安装和使用 Brasero 进行光盘刻录。 安装 Brasero 在大多数 Ubuntu 版本中,…...
QT之嵌入外部第三方软件到本窗体中
一、前言 使用QT开发,有时需要调用一些外部程序,但是单独打开一个外部窗口有的场合很不合适,最好是嵌入到开发的QT程序界面中。还有就是自己开发的n个程序,一个主程序托n个子程序,为了方便管理将各个程序独立…...
解决GET请求中文乱码问题
解决GET请求中文乱码问题 1、乱码的根本原因2、解决方法方法一:修改Tomcat配置(推荐)方法二:使用URLEncoder和URLDecoder(不推荐用于GET请求乱码)方法三:String类编解码(不直接解决乱…...
弥合人类与人工智能的知识差距:AlphaZero 中的概念发现和迁移(1)
文章目录 一、摘要二、简介三、相关工作3.1 基于概念的解释3.2 强化学习中生成解释3.3 国际象棋与人工智能 四、什么是概念?五、发掘概念5.1 挖掘概念向量5.1.1 静态概念的概念约束5.1.2 动态概念的概念约束 5.2 过滤概念 一、摘要 人工智能(AIÿ…...
cpp的cbp
.cbp 文件是 Code::Blocks 的项目文件。Code::Blocks 是一个开源的跨平台集成开发环境(IDE),主要用于 C、C 以及 Fortran 编程。.cbp 文件包含有关项目的所有配置信息,包括文件路径、编译选项、链接器设置等。 以下是 .cbp 文件的…...
jQuery 选择器
jQuery 选择器 jQuery 是一个快速、小巧且功能丰富的 JavaScript 库。它使得 HTML 文档遍历和操作、事件处理、动画和 AJAX 等操作更加简单,适用于各种浏览器。jQuery 的核心特性之一是其强大的选择器引擎,它允许开发者通过 CSS 选择器语法轻松地选取和操作 DOM 元素。本文将…...
Linux系统编程-进程控制相关操作详解
进程(Process)是计算机科学中一个基本的概念,特别是在操作系统领域中非常重要。它指的是在系统中正在运行的一个程序的实例。每个进程都是系统资源分配的基本单位,是程序执行时的一个实例。以下是关于进程的详细解释: …...
分布式I/O从站的认知
为什么需要分布式I/O从站? 当PLC与控制机构距离过远时,远距离会带来信号干扰,分布式I/O从站只需要一个网络线缆连接。 ET200分布式I/O从站家族 体积紧凑、功能强大。 ET200SP ET200M ET200S ET200iSP ET200 AL ET200pro ET200 eco PN 通讯协议…...
【python】PyQt5顶层窗口相关操作API原理剖析,企业级应用实战分享
✨✨ 欢迎大家来到景天科技苑✨✨ 🎈🎈 养成好习惯,先赞后看哦~🎈🎈 🏆 作者简介:景天科技苑 🏆《头衔》:大厂架构师,华为云开发者社区专家博主,…...
深入剖析AI大模型:大模型时代的 Prompt 工程全解析
今天聊的内容,我认为是AI开发里面非常重要的内容。它在AI开发里无处不在,当你对 AI 助手说 "用李白的风格写一首关于人工智能的诗",或者让翻译模型 "将这段合同翻译成商务日语" 时,输入的这句话就是 Prompt。…...
边缘计算医疗风险自查APP开发方案
核心目标:在便携设备(智能手表/家用检测仪)部署轻量化疾病预测模型,实现低延迟、隐私安全的实时健康风险评估。 一、技术架构设计 #mermaid-svg-iuNaeeLK2YoFKfao {font-family:"trebuchet ms",verdana,arial,sans-serif;font-size:16px;fill:#333;}#mermaid-svg…...
WordPress插件:AI多语言写作与智能配图、免费AI模型、SEO文章生成
厌倦手动写WordPress文章?AI自动生成,效率提升10倍! 支持多语言、自动配图、定时发布,让内容创作更轻松! AI内容生成 → 不想每天写文章?AI一键生成高质量内容!多语言支持 → 跨境电商必备&am…...
有限自动机到正规文法转换器v1.0
1 项目简介 这是一个功能强大的有限自动机(Finite Automaton, FA)到正规文法(Regular Grammar)转换器,它配备了一个直观且完整的图形用户界面,使用户能够轻松地进行操作和观察。该程序基于编译原理中的经典…...
html css js网页制作成品——HTML+CSS榴莲商城网页设计(4页)附源码
目录 一、👨🎓网站题目 二、✍️网站描述 三、📚网站介绍 四、🌐网站效果 五、🪓 代码实现 🧱HTML 六、🥇 如何让学习不再盲目 七、🎁更多干货 一、👨…...
#Uniapp篇:chrome调试unapp适配
chrome调试设备----使用Android模拟机开发调试移动端页面 Chrome://inspect/#devices MuMu模拟器Edge浏览器:Android原生APP嵌入的H5页面元素定位 chrome://inspect/#devices uniapp单位适配 根路径下 postcss.config.js 需要装这些插件 “postcss”: “^8.5.…...
技术栈RabbitMq的介绍和使用
目录 1. 什么是消息队列?2. 消息队列的优点3. RabbitMQ 消息队列概述4. RabbitMQ 安装5. Exchange 四种类型5.1 direct 精准匹配5.2 fanout 广播5.3 topic 正则匹配 6. RabbitMQ 队列模式6.1 简单队列模式6.2 工作队列模式6.3 发布/订阅模式6.4 路由模式6.5 主题模式…...
AI+无人机如何守护濒危物种?YOLOv8实现95%精准识别
【导读】 野生动物监测在理解和保护生态系统中发挥着至关重要的作用。然而,传统的野生动物观察方法往往耗时耗力、成本高昂且范围有限。无人机的出现为野生动物监测提供了有前景的替代方案,能够实现大范围覆盖并远程采集数据。尽管具备这些优势…...
【JVM面试篇】高频八股汇总——类加载和类加载器
目录 1. 讲一下类加载过程? 2. Java创建对象的过程? 3. 对象的生命周期? 4. 类加载器有哪些? 5. 双亲委派模型的作用(好处)? 6. 讲一下类的加载和双亲委派原则? 7. 双亲委派模…...
Linux nano命令的基本使用
参考资料 GNU nanoを使いこなすnano基础 目录 一. 简介二. 文件打开2.1 普通方式打开文件2.2 只读方式打开文件 三. 文件查看3.1 打开文件时,显示行号3.2 翻页查看 四. 文件编辑4.1 Ctrl K 复制 和 Ctrl U 粘贴4.2 Alt/Esc U 撤回 五. 文件保存与退出5.1 Ctrl …...
