当前位置: 首页 > news >正文

第14章 大数据与数据科学知识点梳理

第14章 大数据与数据科学知识点梳理(附带页码)


在这里插入图片描述
◼ 原则:组织应仔细管理与大数据源相关的元数据,以便对数据文件及其来源和价值进行准确的清单管理。P386

◼ 大数据:数据量大(Volume)、数据更新快(Velocity)、数据类型多样/可变(Variety)。数据黏度大(Viscosity)。数据波动性大(Volatility)。数据准确性低(Veracity)。P390

◼ 数据科学家:从数据中探究、研发预测模型、机器学习模型、规范性模型和分析方法并将研发结果 进行部署供相关方分析的人。P386

◼ 大多数据仓库都依赖于 ETL,大数据解决方案,如数据湖,则依赖于 ELT。P386

◼ 业务驱动:期望抓住从多种流程生成的数据集中发现的商机,是提升一个组织大数据和数据科学能力的最大业务驱动力。P387

◼ 数据科学依赖:1)丰富的数据源。2)信息组织和分析。3)信息交付。4)展示发现和数据洞察。P389

◼ 数据科学的过程阶段:1 定义大数据战略和业务需求。2 选择数据源。3 获得和接收数据源。4 制定数据假设和方法。5 集成和调整进行数据分析。6 使用模型探索数据。7 部署和监控。P388-389
在这里插入图片描述
◼ 数据湖是一种可以提取、存储、评估和分析不同类型和结构海量数据的环境,可供多种场景使用。提供 1)数据科学家可以挖掘和分析数据的环境。2)原始数据的集中存储区域,只需很少量的转换(如果需要的话)。3)数据仓库明细历史数据的备用存储区域。4)信息记录的在线归档。5)可以通过自动化的模型识别提取流数据的环境。

◼ 数据湖可能很快变成数据沼泽,在数据被摄取时要对元数据进行管理。

◼ 基于服务的体系结构(Services-Based Architecture,SBA)正成为一种立即提供数据的方法,并使用相同的数据源来更新完整、准确的历史数据。数据会发送到 ODS 中实现即时存取,也会将数据发送到数据仓库中以实现历史积累。包括三个主要的组件,分别是 1)批处理层。数据湖作为批处理层提供服务,包括近期的和历史的数据。2)加速层。只包括实时数据。3)服务层。提供连接批处理和加速层数据的接口。P393

◼ 机器学习探索了学习算法的构建和研究,是无监督学习和监督学习方法的结合。无监督学习称为数据挖掘,监督学习是基于复杂的数字理论。第三分支正处于形成过程,没有经过教师的认可就可实现了目标优化,称为强化学习。通过编程使机器可以快速从查询中学习并适应不断变化的数据集,是机器学习。这些算法一般分为三种类型:1)监督学习(Supervised learning)。2)无监督学习(Unsupervised learning)。基于找到的那些隐藏的规律(数据挖掘)。3)强化学习(Reinforcement learning)。基于目标的实现(如在国际象棋中击败对手)。P394

◼ 语义分析。从大量非结构化或半结构化数据中检索并获得见解的自动化方法,用于感知人们对品牌、产品、服务或其他类型主题的感觉和看法。P394

◼ 数据挖掘(Data mining)机器学习的一个分支,无监督学习。技术:1)剖析(Profiling)。尝试描述典型行为,用于建立异常检测应用程序的行为规范。2)数据缩减(Data reduction)。用较小的数据集来替换大数据。3)关联(Association)。根据交易涉及的元素,找到它们之间的联系。4)聚类(Clustering)。基于元素的共享特征,聚合为不同的簇。5)自组织映射(Selforganizing maps)。减少评估空间的维度。P395

◼ 预测分析(Predictive Analytics)是有监督学习的子领域,用户尝试对数据元素进行建模,并通过评估概率估算来预测未来结果。基于可能事件(购买、价格变化等)与可变因素(包括历史数据)的概率模型开发。当它接收到其它信息时,模型会触发组织的反应。预测模型的最简单形式是预估(Forecast)。P395

◼ 规范分析(Prescriptive Analytics):它对将会影响结果的动作进行定义,而不仅仅是根据已发生的动作预测结果。规范分析预计将会发生什么,何时会发生,并暗示它将会发生的原因。P396

◼ 非结构化数据分析。结合了文本挖掘、关联分析、聚类分析和其他无监督学习技术来处理大型数据集。扫描和标记是向非结构化数据添加“钩子“的一个方法。P396

◼ 运营分析(Operational Analytics)运营 BI 或流式分析:是从运营过程与实时分析的整合中产生的。运运营分析包括跟踪和整合实时信息流,根据行为预测模型得出结论,并触发自动响应和警报。P396

◼ 数据可视化(Visualization)是通过使用图片或图形表示来解释概念、想法和事实的过程。数据可视化通过视觉概览(如图表或图形)来帮助理解基础数据。长期以来,可视化一直是数据分析的关键。P397

◼ 数据混搭(Data Mashups)将数据和服务结合在一起,以可视化的方式展示见解或分析结果。

◼ 【活动 1】定义大数据战略和业务需求。1)组织试图解决什么问题,需要分析什么。2)要使用或获取的数据源是什么。3)提供数据的及时性和范围。4)对其他数据结构的影响以及与其他数据结构的相关性。5)对现有建模数据的影响。P397

◼ 【活动 2】选择数据源。需要了解以下内容:1)数据源头。2)数据格式。3)数据元素代表什么。4)如何连接其他数据。5)数据的更新频率。需要评估数据的价值和可靠性:1)基础数据。2)粒度。3)一致性。4)可靠性。5)检查/分析新数据源。P398

◼ 【活动 3】获得和接收数据源。获取时需要捕获有关源的关键元数据,如来源、大小、时效性和相关内容的额外知识。迭代地识别当前数据资产基础和这些数据源的差距,使用分析、可视化、挖掘或其他数据科学方法探索这些数据源,以定义模型算法输入或模型假设。在整合数据之前,应先评估数据的质量。P399

◼ 【活动 4】制定数据假设和方法。制订数据科学解决方案需要构建统计模型,找出数据元素和数据集内部以及二者之间的相关性和趋势。模型的效果取决于输入数据的质量和模型本身的健全性。P400

◼ 【活动 5】集成和调整数据进行分析。准备用于分析的数据包括了解数据中的内容、查找各种来源的数据间的链接以及调整常用数据以供使用。一方法是使用共有键值整合数据的通用模型。另一方法是使用数据库引擎内的索扫描和连接数据。P400

◼ 【活动 6】使用模型探索数据。1.填充预测模型。需要使用历史信息预先填充配置预测模型,这些信息涉及模型中的客户、市场、产品或模型触发因素之外的其他因素。2.训练模型。需要通过数据模型进行训练。训练包括基于数据重复运行模型以验证假设,将导致模型更改。训练需要平衡,通过针对有限数据文件夹的训练避免过度拟合。3.评估模型。将数据放入平台并准备分析后,数据科学就开始了。针对训练集进行模型构建、评估和验证。4.创建数据可视化。必须满足与模
型目的相关的特定需求,每个可视化应该能够回答一个问题或提供一个见解。P400-402

◼ 【活动 7】部署和监控。满足业务需求的模型,必须以可行的方式部署到生产中,以获得持续监控。1.揭示洞察和发现。洞察应与行动项目相关联,这样组织才能从数据科学工作中受益。2.使用附加数据源迭代。数据科学是一个迭代的过程。P402

◼ 工具大规模并行处理(MPP)。1)数据库内的高级分析。2)非结构化数据分析(Hadoop,MapReduce)。3)分析结果与操作系统的集成。4)跨多媒体和设备的数据可视化。5)链接结构化和非结构化信息的语义。6)使用物联网的新数据源。7)高级可视化能力。8)数据扩展能力。9)技术和工具集的协作。数据仓库、数据集市和操作型数据存储(ODS)。No-SQL 技术。批处理接口。大数据内存技术。决策标准工具集。流程实施工具。专业服务。

◼ 工具MPP 无共享技术和架构。基于分布式文件的数据库。 数据库内算法。大数据云解决方案。统计计算和图形语言。数据可视化工具集。p402-406

◼ MPP 无共享技术和架构。在所有可用的本地化硬件上,自动分发数据和并行化查询工作负载的系统是大数据分析的最佳解决方案。P403

◼ 基于文件的解决方案中使用的模型称为 MapReduce。该模型有三个主要步骤:1)映射(Map)。识别和获取需要分析的数据。2)洗牌(Shuffle)。依据所需的分析模式组合数据。3)归并(Reduce)。删除重复或执行聚合,以便将结果数据集的大小减少到需要的规模。P404

◼ 方法:(1)解析建模。1)描述性建模以紧凑的方式汇总或表示数据结。。2)解释性建模是数据统计模型的应用,主要是验证关于理论构造的因果假设。预测分析的关键是通过训练模型来学习,学习方法的效果取决于它在测试集(与训练集相互独立)上的预测能力。(2)大数据建模。对数据仓库进行物理建模的主要驱动因素是为查询性能而启用数据填充。P406-407

◼ 实施指南:管理数据仓库数据的许多一般规则适用于管理大数据。实施大数据环境的差异与一组未知问题有关:如何使用数据、哪些数据有价值、需要保留多长时间。P407

◼ 战略交付成果应考虑管理以下要素:1)信息生命周期。2)元数据。3)数据质量。4)数据采集。5)数据访问和安全性。6)数据治理。7)数据隐私。8)学习和采用。9)运营。P407-408

◼ 就绪评估/风险评估。评估与关键成功因素相关的组织准备情况,具体包括:1)业务相关性。2)业务准备情况。3)经济可行性。4)原型。5)可能最具挑战性的决策将围绕数据采购、平台开发和资源配置进行。6)数字资料存储有许多来源,并非所有来源都需要内部拥有和运营。7)市场上有多种工具和技术,满足一般需求将是一个挑战。8)保护具有专业技能的员工,并在实施过程中留住顶尖人才,可能需要考虑替代方案,包括专业服务、云采购或合作。9)培养内部人才的时间可能会超过交付窗口的时间。P408

◼ 大数据实施将汇集多关键的跨职能角色。包括:1)大数据平台架构师。硬件、操作系统、文件系统和服务。2)数据摄取架构师。数据分析、系统记录、数据建模和数据映射。提供或支持将源映射到 Hadoop 集群以进行查询和分析。3)元数据专家。元数据接口、元数据架构和内容。4)分析设计主管。最终用户分析设计、最佳实践依靠相关工具集指导实施,以及最终用户结果集简化。5)数据科学家。提供基于统计和可计算性的理论知识,交付适当的工具和技术,应用到功能需求的架构和模型设计咨询。P409

◼ 大数据和数据科学治理:寻源。共享。元数据。丰富。访问。P409

◼ 数据科学和可视化标准:最佳实践是建立一个定义和发布可视化标准和指南的社区,并在指定的交付方法中审查。标准可能包括:1)分析范例、用户团体、主题域的工具标准。2)新数据的请求。3)数据集流程标准。4)采用中立的、专业的陈述过程,避免产生有偏见的结果,并确保所有要素都以公平一致的方式完成,包括:①数据包含和排除。②模型中的假设。③结果统计有效性。④结果解释的有效性。⑤采用适当的方法。P409-410

◼ 元数据需要作为数据提取的一部分进行谨慎管理,否则数据湖将迅速成为数据沼泽。

◼ 成熟的大数据组织使用数据质量工具集扫描数据输入源,用以了解相关信息,大多工具都有:1)发现。信息驻留在数据集中的位置。2)分类。基于标准化模式存在哪些类型的信息。3)分析。如何填充和构建数据。4)映射。可以将哪些其他数据集与这些值匹配。

◼ 度量指标:1.技术使用指标。2.加载和扫描指标。提取率和与用户社区的交互。3.学习和故事场景。常用的测量方法包括:1)已开发模型的数量和准确性。2)已识别的机会中实现的收入。3)避免已识别的威胁所降低的成本。P412

相关文章:

第14章 大数据与数据科学知识点梳理

第14章 大数据与数据科学知识点梳理(附带页码) ◼ 原则:组织应仔细管理与大数据源相关的元数据,以便对数据文件及其来源和价值进行准确的清单管理。P386 ◼ 大数据:数据量大(Volume)、数据更新…...

FHE全同态加密简介

1. 何为FHE? FHE (Fully homomorphic encryption): 是一种隐私技术,支持直接对密文进行计算,而无需对密文先解密再计算。即,任何第三方或云厂商,都可对敏感信息的密文进行处理,而无需访问密文内…...

【vue】跨组件通信--依赖注入

import { provide,inject } from vue provide&#xff1a;将父组件的数据传递给所有子组件&#xff08;子孙都有&#xff09;inject&#xff1a;接收provide 项目文件结构 App.vue是Header.vue的父组件&#xff0c;Header.vue是Nav.vue的父组件 传值过程 App.vue <tem…...

Aritest+python+Jenkins解放双手iOS/Android自动化

ARITest、Python 和 Jenkins 可以结合在一起创建一个自动化测试解决方案&#xff0c;实现持续集成和持续测试的目标。以下是三者如何协同工作的基本概念&#xff1a; 1. **ARITest**&#xff1a; ARITest 是一款功能全面的自动化测试工具&#xff0c;提供 UI 自动化、接口自…...

Problem #7 [Medium]

This problem was asked by Facebook. Given the mapping a = 1, b = 2, … z = 26, and an encoded message, count the number of ways it can be decoded. For example, the message ‘111’ would give 3, since it could be decoded as ‘aaa’, ‘ka’, and ‘ak’. Y…...

MySQ数据库: MySQL数据库的安装配置 ,图文步骤详细,一篇即可完成安装完成! MySQL数据库如何与客户端连接

LiuJinTao&#xff1a; 2024年4月14日 文章目录 MySQL的安装配置1. 下载2. 安装 三、 MySQL 启动与停止1. 第一种 方式&#xff1a;2. 第二种方式&#xff1a; 四、MySQL 客户端连接2. 方式二&#xff1a; MySQL的安装配置 1. 下载 官方下载网址&#xff1a;https://www.mysq…...

vue3+vant自动导入+pina+vite+js+pnpm搭建项目框架

vue3vant自动导入pinavitejspnpm搭建项目框架 文章目录 vue3vant自动导入pinavitejspnpm搭建项目框架1. 安装pnpm&#xff08;如果还没有安装&#xff09;&#xff1a;2. 创建项目目录并进入该目录&#xff1a;3. 初始化项目&#xff1a;4. 安装Vite作为构建工具&#xff1a;5.…...

使用 Axios 处理 AxiosError 的三种常见方法

在使用 Axios 时处理 AxiosError 有几种常见的方法: 使用 try-catch 语句捕获异常: try {const response await axios.get(/api/data);// 处理响应数据 } catch (error) {if (error.response) {// 请求成功但状态码不在 2xx 范围console.log(error.response.data);console.l…...

linux上安装Tomcat

安装Tomcat 安装JDK https://www.oracle.com/java/technologies/downloads/#license-lightbox mkdir -p /usr/java tar xf jdk-11.0.22_linux-x64_bin.tar.gz ln -sv /usr/java/jdk /usr/java/jdk-11.0.22配置环境变量&#xff1a; cat > /etc/profile.d/java.sh <&…...

Ubuntu20.04安装ROS过程记录以及常见报错处理

官网安装步骤如下&#xff1a; http://wiki.ros.org/cn/noetic/Installation/Ubuntu#A.2BXwBZy1uJiMU- 第一个&#xff1a;添加ROS软件源 sudo sh -c echo "deb http://packages.ros.org/ros/ubuntu $(lsb_release -sc) main" > /etc/apt/sources.list.d/ros-la…...

PaddleOCR 图片日期识别

目录 一 . 获取图片信息种对应坐标区域日期信息 &#xff08;类型为1&#xff1a;http链接 类型为 2本地图片路径&#xff09; 二 . ocr图片识别日期信息获取&#xff0c;调用获取图片区域相应位置方法 三 . 如有所需获取rtsp流回放格式 四 . 完整代码如下 &#xff08…...

HTML5学习记录

简介 超文本标记语言&#xff08;HyperText Markup Language&#xff0c;简称HTML&#xff09;&#xff0c;是一种用于创建网页的标准标记语言。 编辑器 下载传送门https://code.visualstudio.com/ 下载编辑器插件 标题 标题通过 <h1> - <h6> 标签进行定义。 …...

提升法律文书起草效率:AlphaGPT 助力律师快速生成诉讼和仲裁文件

法律文书起草对于法律专业人士而言是一项基础而关键的任务。无论是民事、刑事还是行政诉讼&#xff0c;以及仲裁案件&#xff0c;精确的法律文书撰写对于案件的成功至关重要。然而&#xff0c;这一过程往往既耗时又复杂&#xff0c;尤其是在处理复杂的案情和面对当事人难以理解…...

大数据之 Hive 快速搭建的详细步骤

Hive hive 搭建三种模式: 内嵌模式本地模式远程模式内嵌模式 Hadoop 和 Hive 整合 修改 hadoop/etc/下的 core-site.xml: <property><name>hadoop.proxyuser.root.hosts</name><value>*</value> </property> <property><nam…...

从入门到高级的99个python知识点

大家好&#xff0c;想掌握Python编程语言&#xff0c;从零基础的小白晋升为大神&#xff1f;没问题&#xff01;接下来我们将以轻松有趣的方式&#xff0c;逐一解锁Python学习路上的99个关键知识点。每一步都将结合实际应用场景、函数功能解析及简洁代码演示&#xff0c;带你深…...

设计模式之备忘录模式(上)

备忘录模式 1&#xff09;概述 1.定义 在不破坏封装的前提下&#xff0c;捕获一个对象的内部状态&#xff0c;并在该对象之外保存这个状态&#xff0c;可以在以后将对象恢复到原先保存的状态。 2.作用 备忘录模式提供了一种状态恢复的实现机制&#xff0c;使得用户可以方便…...

算法中二分搜索详解

文章目录 在有序数组中找num是否存在实现思路实现代码(里面运用了对数器)在有序数组中找>num的最左位置实现思路代码实现 在有序数组中找<num的最右位置实现思路实现代码 二分搜索不一定发生在有序数组上(比如寻找峰值问题)题目描述实现思路实现代码 在有序数组中找num是…...

关于无线充电项目总结IP6826

1、电路 1.1 选用芯片IP6826英集芯 支持PD3.0 5-15W 1.2 推荐电路 讲解这个是官方推荐图 注意以下几点&#xff1a; NTC是100K的别买错了 L就是线圈 我这选用的A11 6.3 uH 淘宝买的 需要陪400nf NPO或CBB 还可以10uh配250nf&#xff08;这个我没试过&#xff09; 如果led2闪烁…...

[CSS]样式属性+元素设置

哎呀&#xff0c;好多东西&#xff0c;根本记不住&#xff0c;更多的还是边用边记吧&#xff0c;这里的代码就当使用范例&#xff0c;但其实如果可以让gpt应该会更好&#xff0c;哎学吧&#xff0c;反正记得住当然更好 文本 属性名描述word-break单词换行。取值如下&#xff1…...

优雅关闭jar程序shell 脚本

参考竽道Linux部署 #!/bin/bash set -eDATE$(date %Y%m%d%H%M) # 基础路径 BASE_PATH/work/projects/yudao-server # 服务名称。同时约定部署服务的 jar 包名字也为它。 SERVER_NAMEyudao-server # 环境 PROFILES_ACTIVEdev# heapError 存放路径 HEAP_ERROR_PATH$BASE_PATH/he…...

RestClient

什么是RestClient RestClient 是 Elasticsearch 官方提供的 Java 低级 REST 客户端&#xff0c;它允许HTTP与Elasticsearch 集群通信&#xff0c;而无需处理 JSON 序列化/反序列化等底层细节。它是 Elasticsearch Java API 客户端的基础。 RestClient 主要特点 轻量级&#xff…...

大话软工笔记—需求分析概述

需求分析&#xff0c;就是要对需求调研收集到的资料信息逐个地进行拆分、研究&#xff0c;从大量的不确定“需求”中确定出哪些需求最终要转换为确定的“功能需求”。 需求分析的作用非常重要&#xff0c;后续设计的依据主要来自于需求分析的成果&#xff0c;包括: 项目的目的…...

测试markdown--肇兴

day1&#xff1a; 1、去程&#xff1a;7:04 --11:32高铁 高铁右转上售票大厅2楼&#xff0c;穿过候车厅下一楼&#xff0c;上大巴车 &#xffe5;10/人 **2、到达&#xff1a;**12点多到达寨子&#xff0c;买门票&#xff0c;美团/抖音&#xff1a;&#xffe5;78人 3、中饭&a…...

多种风格导航菜单 HTML 实现(附源码)

下面我将为您展示 6 种不同风格的导航菜单实现&#xff0c;每种都包含完整 HTML、CSS 和 JavaScript 代码。 1. 简约水平导航栏 <!DOCTYPE html> <html lang"zh-CN"> <head><meta charset"UTF-8"><meta name"viewport&qu…...

保姆级教程:在无网络无显卡的Windows电脑的vscode本地部署deepseek

文章目录 1 前言2 部署流程2.1 准备工作2.2 Ollama2.2.1 使用有网络的电脑下载Ollama2.2.2 安装Ollama&#xff08;有网络的电脑&#xff09;2.2.3 安装Ollama&#xff08;无网络的电脑&#xff09;2.2.4 安装验证2.2.5 修改大模型安装位置2.2.6 下载Deepseek模型 2.3 将deepse…...

数学建模-滑翔伞伞翼面积的设计,运动状态计算和优化 !

我们考虑滑翔伞的伞翼面积设计问题以及运动状态描述。滑翔伞的性能主要取决于伞翼面积、气动特性以及飞行员的重量。我们的目标是建立数学模型来描述滑翔伞的运动状态,并优化伞翼面积的设计。 一、问题分析 滑翔伞在飞行过程中受到重力、升力和阻力的作用。升力和阻力与伞翼面…...

何谓AI编程【02】AI编程官网以优雅草星云智控为例建设实践-完善顶部-建立各项子页-调整排版-优雅草卓伊凡

何谓AI编程【02】AI编程官网以优雅草星云智控为例建设实践-完善顶部-建立各项子页-调整排版-优雅草卓伊凡 背景 我们以建设星云智控官网来做AI编程实践&#xff0c;很多人以为AI已经强大到不需要程序员了&#xff0c;其实不是&#xff0c;AI更加需要程序员&#xff0c;普通人…...

云原生安全实战:API网关Envoy的鉴权与限流详解

&#x1f525;「炎码工坊」技术弹药已装填&#xff01; 点击关注 → 解锁工业级干货【工具实测|项目避坑|源码燃烧指南】 一、基础概念 1. API网关 作为微服务架构的统一入口&#xff0c;负责路由转发、安全控制、流量管理等核心功能。 2. Envoy 由Lyft开源的高性能云原生…...

当下AI智能硬件方案浅谈

背景&#xff1a; 现在大模型出来以后&#xff0c;打破了常规的机械式的对话&#xff0c;人机对话变得更聪明一点。 对话用到的技术主要是实时音视频&#xff0c;简称为RTC。下游硬件厂商一般都不会去自己开发音视频技术&#xff0c;开发自己的大模型。商用方案多见为字节、百…...

职坐标物联网全栈开发全流程解析

物联网全栈开发涵盖从物理设备到上层应用的完整技术链路&#xff0c;其核心流程可归纳为四大模块&#xff1a;感知层数据采集、网络层协议交互、平台层资源管理及应用层功能实现。每个模块的技术选型与实现方式直接影响系统性能与扩展性&#xff0c;例如传感器选型需平衡精度与…...