《系统架构设计师教程(第2版)》第11章-未来信息综合技术-07-大数据技术概述
文章目录
- 1. 大数据的定义
- 2. 大数据的研究内容
- 2.1 面临的问题
- 2.2 面临的挑战
- 2.3 分析步骤
- 2.3.1 数据获取和记录
- 2.3.2 信息抽取和清洗
- 2.3.3 数据集成、聚集和表示
- 2.3.4 查询处理、数据建模和分析
- 2.3.5 解释
- 3.大数据的应用领域
- 3.1 制造业的应用
- 3.2 服务业的应用
- 3.3 交通行业的应用
- 3.4 医疗行业的应用
1. 大数据的定义
- 维基百科的定义:
- 大数据指的是那些规模庞大或极其复杂的数据集,
- 超出了现有的常规工具在合理成本和可接受时间范围内进行捕获、管理和处理的能力
教材原文:大数据是指其大小或复杂性无法通过现有常用的软件工具,以合理的成本并在可接受的时限内对其进行捕获、管理和处理的数据集。这些困难包括数据的收入、存储、搜索、共享、分析、可视化。
-
Granter的定义:3V模型
- 大规模 (Volume)
- 多样化 (Variety)
- 高处理速度 (Velocity)
-
由此衍生的大数据的三大挑战
- 不断增长的数据量
- 多格式数据
- 性能(高处理速度)
- 涉及终端数据处理能力、数据流访问和交付、服务器计算处理能力、后端存储的吞吐能力
-
IBM 的定义:
- 3V模型: 大规模 (Volume)、多样化 (Variety)、 高速度 (Velocity)
- +第四V:潜藏价值 (Value)
-
SAS 的定义
- 3V模型: 大规模 (Volume)、多样化 (Variety)、 高速度 (Velocity)
- 可变性:数据流可能具有高度的不一致性,并存在周期性的峰值
- 复杂性:数据来源的多样性
- 连接、匹配、清洗和转化的复杂性
- 不同数据源之间连接关系、关联关系、层次关系的复杂性
2. 大数据的研究内容
2.1 面临的问题
2012年冬季,来自IBM、微软、谷歌、HP、MIT、斯坦福、加州大学伯克利分校、UIUC等产业界和学术界的数据库领域专家通过在线的方式共同发布了一个关于大数据的
白皮书,指出大数据面临着5个主要问题:
- 异构性 (Heterogeneity)
- 规模 (Scale)
- 时间性 (Timeliness)
- 复杂性 (Complexity)
- 隐私性 (Privacy)
可见:
- 对应Granter的3V模型,增加了“复杂性”和“隐私性”
- 对应SAS定义的5点,“可变性”被“隐私性”替换
2.2 面临的挑战
对应上边面临的问题,其研究工作将面临5个方面的挑战:
- 数据获取问题
数据筛选,那些保存那些丢弃,目前这些决策还只能采用特设方法给出。
- 数据结构问题
如何将没有语义的内容转换为结构化的格式,以便进行后续处理。
- 数据集成问题
如何将数据进行有效关联
- 数据分析、组织、抽取、建模问题
数据分析是许多大数据应用的瓶颈,目前底层算法缺乏伸缩性、对待分析数据的复杂性估计不够,等等。
- 数据分析的结果呈现问题
如何呈现分析结果,并与非技术的领域专家进行交互
2.3 分析步骤
白皮书给出了大数据的分析步骤如下:
2.3.1 数据获取和记录
- 研究数据压缩中的科学问题
- 能够智能地处理原始数据
- 在不丢失信息的情况下,将海量数据压缩到人可以理解的程度
- 研究“在线”数据分析技术
- 能够处理实时流数据
- 研究元数据自动获取技术
- 研究数据来源技术
- 追踪数据的产生和处理过程
2.3.2 信息抽取和清洗
- 信息抽取:从文本、图像、音频等数据源中自动提取有价值的信息,将其转化为结构化的数据形式,以便进一步分析和利用
- 信息清洗:对原始数据进行清理、校验和纠正,以去除噪声、重复、错误或不一致的数据,提高数据的质量和准确性
2.3.3 数据集成、聚集和表示
- 概念:
- 数据集成:将多个不同来源、格式的数据整合到一起,形成一个统一的数据集,以便进行综合分析
- 数据聚集:对数据进行汇总和统计,以便从宏观上了解数据的特征和趋势
- 数据表示:将数据以一种易于理解和使用的方式呈现出来,让人们能够更直观地理解数据
- 如:图表、表格、可视化图形等
- 作用:
- 解决存在大量异构数据问题,以便对大规模数据进行有效分析
2.3.4 查询处理、数据建模和分析
- 充满噪声的大数据也可能比小样本数据更有价值
- 大数据得到的一般统计数据通常强于具有波动性的个体数据,往往透露更可靠的隐藏模式和知识
- 通过信息冗余以弥补缺失的数据、交叉验证冲突的情况、验证可信赖的关系
- 数据挖掘需要的条件:
- 完整的、经过清洗的、可信的、可被高效访问的数据
- 声明性的查询(例如 SQL) 和挖掘接口
- 可扩展的挖掘算法及大数据计算环境
- 目前需要研究的问题
- 查询处理方面:
- 在TB级别上的可伸缩复杂交互查询技术
- 大数据分析方面
- 缺乏数据库系统之间的协作
- 需要研究并实现:将声明性查询语言与数据挖掘、数据统计包有机整合在一起的数据分析系统
- 查询处理方面:
2.3.5 解释
- 大数据分析系统应该支持用户对产生结果的了解、验证、分析。
3.大数据的应用领域
3.1 制造业的应用
- 创造了掌握用户需求为目标的智慧化制造业
如:
- 一些计算机硬件供应商正在收集和分析设备信息对设备预测,并提前维护
- 为下一代产品提供灵感
- 海量数据扩大了算法和运筹学的应用领域在制造业的应用
例如,在部分制造企业,算法对生产线的传感器信息进行分析,形成了自我调节的流程,从而减少了浪费,避免了代价高昂(有
时还十分危险)的人为干预,最终提升产量。
3.2 服务业的应用
- 服务业演化的两种形态:
- 信息技术与服务业相结合的信息服务业
- 如:计算机软件、通信服务、信息咨询服务
- 大数据的应用:如,收集用户行为推送广告
- 应用信息技术改造传统服务业而来的服务业
- 如:信息化改造后的商业、金融业、旅游业等
- 大数据的应用:
- 厂商可以通过实时跟踪客户行为、更新客户偏好、建立可能行为的模型
- 银行可以从大量数据中发现信用卡欺诈和盗用
- 理财网站从统计的消费数据中来预测宏观的经济趋势
- 信息技术与服务业相结合的信息服务业
3.3 交通行业的应用
- 大数据时代下的智慧交通:
- 融合传感器、监视视频、GPS、气象监测等设备产生的海量数据
- 从中提取出人们真正需要的信息
- 将通过计算提供最佳的出行方式和路线,及时而准确地进行发布和推送给用户
3.4 医疗行业的应用
大数据下的医疗行业:
- 将医疗机构的电子病历记录标准化,形成全方位多维度的大数据仓库
- 系统全面分析患者的基本资料、诊断结果、处方、医疗保险等数据
- 综合以上数据,在医生的参与下通过决策支持系统,选择最佳的医疗护理解决方案

相关文章:
《系统架构设计师教程(第2版)》第11章-未来信息综合技术-07-大数据技术概述
文章目录 1. 大数据的定义2. 大数据的研究内容2.1 面临的问题2.2 面临的挑战2.3 分析步骤2.3.1 数据获取和记录2.3.2 信息抽取和清洗2.3.3 数据集成、聚集和表示2.3.4 查询处理、数据建模和分析2.3.5 解释 3.大数据的应用领域3.1 制造业的应用3.2 服务业的应用3.3 交通行业的应…...
前端面试题54(断点续传讲解)
断点续传是一种在上传或下载大文件时,如果因为网络问题中断,可以从已经上传或下载的部分继续,而不是重新开始的技术。这对于提高用户体验和节省带宽非常有帮助。下面我将分别从HTTP协议层面、前端实现思路以及一个简单的前端实现示例来讲解断…...
YOLOv10改进 | Conv篇 | RCS-OSA替换C2f实现暴力涨点(减少通道的空间对象注意力机制)
一、本文介绍 本文给大家带来的改进机制是RCS-YOLO提出的RCS-OSA模块,其全称是"Reduced Channel Spatial Object Attention",意即"减少通道的空间对象注意力"。这个模块的主要功能是通过减少特征图的通道数量,同时关注空…...
【C++BFS】690. 员工的重要性
本文涉及知识点 CBFS算法 LeetCode690. 员工的重要性 你有一个保存员工信息的数据结构,它包含了员工唯一的 id ,重要度和直系下属的 id 。 给定一个员工数组 employees,其中: employees[i].id 是第 i 个员工的 ID。 employees[…...
视频调整帧率、分辨率+音画同步
# python data_utils/pre_video/multi_fps_crop_sync.pyimport cv2 import os from tqdm import tqdm import subprocess# 加载人脸检测模型 face_cascade cv2.CascadeClassifier(cv2.data.haarcascades haarcascade_frontalface_default.xml)def contains_face(frame):gray …...
【深度学习】关于模型加速
模型转为半精度的会加快推理速度吗 将模型转为半精度(通常指16位浮点数,即FP16)确实可以加快推理速度,同时还能减少显存(GPU内存)的使用。以下是一些关键点: 加快推理速度的原因 减少计算量&a…...
Python中time模块用法示例详解
前言 仅供个人学习用,如果对各位朋友有参考价值,给个赞或者收藏吧 ^_^ 一、time模块介绍 time模块是Python中处理时间相关操作的核心工具,提供了时间获取、格式化、转换、延迟以及计时等多种功能。 总的来说time模块中时间可以有3种格式&…...
解决POST请求中文乱码问题
解决POST请求中文乱码问题 1、乱码原因2、解决方法3、具体步骤 💖The Begin💖点点关注,收藏不迷路💖 在Web开发中,处理POST请求时经常遇到中文乱码问题,这主要是由于服务器在接收到POST请求的数据后&#x…...
Axure-黑马
Axure-黑马 编辑时间2024/7/12 来源:B站黑马程序员 需求其他根据:visio,墨刀 Axure介绍 Axure RP是美国Axure Software Solution给公司出品的一款快速原型大的软件,一般来说使用者会称他为Axure 应用场景 拉投资使用 给项目团…...
Centos解决服务器时间不准的问题
CentOS 系统时间老是自己变化可能有以下几个原因: 硬件时钟问题:服务器的硬件时钟可能出现故障或不准确。 时区设置错误:如果时区设置不正确,可能导致显示的时间与实际期望的时间不符。 系统服务异常:与时间同步相关…...
摸鱼大数据——Kafka——Kafka的shell命令使用
Kafka本质上就是一个消息队列的中间件的产品,主要负责消息数据的传递。也就说学习Kafka 也就是学习如何使用Kafka生产数据,以及如何使用Kafka来消费数据 topics操作 注意: 创建topic不指定分区数和副本数,默认都是1个 分区数可以后期通过alter增大,但是…...
在 Linux/Debian/Ubuntu 上使用 Brasero 刻录光盘
在 Ubuntu 系统中,Brasero 是一个非常方便的光盘刻录工具。无论是创建数据光盘、音频光盘还是刻录光盘镜像文件,Brasero 都能轻松胜任。本文将介绍如何在 Ubuntu 上安装和使用 Brasero 进行光盘刻录。 安装 Brasero 在大多数 Ubuntu 版本中,…...
QT之嵌入外部第三方软件到本窗体中
一、前言 使用QT开发,有时需要调用一些外部程序,但是单独打开一个外部窗口有的场合很不合适,最好是嵌入到开发的QT程序界面中。还有就是自己开发的n个程序,一个主程序托n个子程序,为了方便管理将各个程序独立…...
解决GET请求中文乱码问题
解决GET请求中文乱码问题 1、乱码的根本原因2、解决方法方法一:修改Tomcat配置(推荐)方法二:使用URLEncoder和URLDecoder(不推荐用于GET请求乱码)方法三:String类编解码(不直接解决乱…...
弥合人类与人工智能的知识差距:AlphaZero 中的概念发现和迁移(1)
文章目录 一、摘要二、简介三、相关工作3.1 基于概念的解释3.2 强化学习中生成解释3.3 国际象棋与人工智能 四、什么是概念?五、发掘概念5.1 挖掘概念向量5.1.1 静态概念的概念约束5.1.2 动态概念的概念约束 5.2 过滤概念 一、摘要 人工智能(AIÿ…...
cpp的cbp
.cbp 文件是 Code::Blocks 的项目文件。Code::Blocks 是一个开源的跨平台集成开发环境(IDE),主要用于 C、C 以及 Fortran 编程。.cbp 文件包含有关项目的所有配置信息,包括文件路径、编译选项、链接器设置等。 以下是 .cbp 文件的…...
jQuery 选择器
jQuery 选择器 jQuery 是一个快速、小巧且功能丰富的 JavaScript 库。它使得 HTML 文档遍历和操作、事件处理、动画和 AJAX 等操作更加简单,适用于各种浏览器。jQuery 的核心特性之一是其强大的选择器引擎,它允许开发者通过 CSS 选择器语法轻松地选取和操作 DOM 元素。本文将…...
Linux系统编程-进程控制相关操作详解
进程(Process)是计算机科学中一个基本的概念,特别是在操作系统领域中非常重要。它指的是在系统中正在运行的一个程序的实例。每个进程都是系统资源分配的基本单位,是程序执行时的一个实例。以下是关于进程的详细解释: …...
分布式I/O从站的认知
为什么需要分布式I/O从站? 当PLC与控制机构距离过远时,远距离会带来信号干扰,分布式I/O从站只需要一个网络线缆连接。 ET200分布式I/O从站家族 体积紧凑、功能强大。 ET200SP ET200M ET200S ET200iSP ET200 AL ET200pro ET200 eco PN 通讯协议…...
【python】PyQt5顶层窗口相关操作API原理剖析,企业级应用实战分享
✨✨ 欢迎大家来到景天科技苑✨✨ 🎈🎈 养成好习惯,先赞后看哦~🎈🎈 🏆 作者简介:景天科技苑 🏆《头衔》:大厂架构师,华为云开发者社区专家博主,…...
Cursor实现用excel数据填充word模版的方法
cursor主页:https://www.cursor.com/ 任务目标:把excel格式的数据里的单元格,按照某一个固定模版填充到word中 文章目录 注意事项逐步生成程序1. 确定格式2. 调试程序 注意事项 直接给一个excel文件和最终呈现的word文件的示例,…...
<6>-MySQL表的增删查改
目录 一,create(创建表) 二,retrieve(查询表) 1,select列 2,where条件 三,update(更新表) 四,delete(删除表…...
K8S认证|CKS题库+答案| 11. AppArmor
目录 11. AppArmor 免费获取并激活 CKA_v1.31_模拟系统 题目 开始操作: 1)、切换集群 2)、切换节点 3)、切换到 apparmor 的目录 4)、执行 apparmor 策略模块 5)、修改 pod 文件 6)、…...
Spring Boot 实现流式响应(兼容 2.7.x)
在实际开发中,我们可能会遇到一些流式数据处理的场景,比如接收来自上游接口的 Server-Sent Events(SSE) 或 流式 JSON 内容,并将其原样中转给前端页面或客户端。这种情况下,传统的 RestTemplate 缓存机制会…...
AI Agent与Agentic AI:原理、应用、挑战与未来展望
文章目录 一、引言二、AI Agent与Agentic AI的兴起2.1 技术契机与生态成熟2.2 Agent的定义与特征2.3 Agent的发展历程 三、AI Agent的核心技术栈解密3.1 感知模块代码示例:使用Python和OpenCV进行图像识别 3.2 认知与决策模块代码示例:使用OpenAI GPT-3进…...
Spring Boot+Neo4j知识图谱实战:3步搭建智能关系网络!
一、引言 在数据驱动的背景下,知识图谱凭借其高效的信息组织能力,正逐步成为各行业应用的关键技术。本文聚焦 Spring Boot与Neo4j图数据库的技术结合,探讨知识图谱开发的实现细节,帮助读者掌握该技术栈在实际项目中的落地方法。 …...
【C语言练习】080. 使用C语言实现简单的数据库操作
080. 使用C语言实现简单的数据库操作 080. 使用C语言实现简单的数据库操作使用原生APIODBC接口第三方库ORM框架文件模拟1. 安装SQLite2. 示例代码:使用SQLite创建数据库、表和插入数据3. 编译和运行4. 示例运行输出:5. 注意事项6. 总结080. 使用C语言实现简单的数据库操作 在…...
前端开发面试题总结-JavaScript篇(一)
文章目录 JavaScript高频问答一、作用域与闭包1.什么是闭包(Closure)?闭包有什么应用场景和潜在问题?2.解释 JavaScript 的作用域链(Scope Chain) 二、原型与继承3.原型链是什么?如何实现继承&a…...
【数据分析】R版IntelliGenes用于生物标志物发现的可解释机器学习
禁止商业或二改转载,仅供自学使用,侵权必究,如需截取部分内容请后台联系作者! 文章目录 介绍流程步骤1. 输入数据2. 特征选择3. 模型训练4. I-Genes 评分计算5. 输出结果 IntelliGenesR 安装包1. 特征选择2. 模型训练和评估3. I-Genes 评分计…...
音视频——I2S 协议详解
I2S 协议详解 I2S (Inter-IC Sound) 协议是一种串行总线协议,专门用于在数字音频设备之间传输数字音频数据。它由飞利浦(Philips)公司开发,以其简单、高效和广泛的兼容性而闻名。 1. 信号线 I2S 协议通常使用三根或四根信号线&a…...
