当前位置: 首页 > news >正文

大数据分析|设计大数据分析的三个阶段

文献来源:Saggi M K, Jain S. A survey towards an integration of big data analytics to big insights for value-creation[J]. Information Processing & Management, 2018, 54(5): 758-790.

下载链接:链接:https://pan.baidu.com/s/14IGaCOc-plxAiaVhwOgUvA 
提取码:4w8k

        如何设计BDA-DM(Big data analytics & decision-making framework (BDA-DMF))框架?

        大数据分析与决策框架(BDA-DMF)框架如图5所示,旨在发现商业生态系统中的价值。该图显示了大数据管理、大数据分析、数据可视化和价值创造决策,分别在第4、5、6和7节中讨论。

        如何设计BDA-DM框架?大数据分析是一种数据密集型架构,它提供了用于数据生成、数据采集、数据存储、高级数据分析、可视化和价值创造决策等各个阶段的各种技术和平台,如图7所示。它遵循自上而下的方法。它包括各种技术,如Hadoop、HBase、Cassandra、MongoDB, NoSQL等。由于其局限性,这些工具和技术无法解决数据存储、数据搜索、数据共享、数据可视化以及实时分析等现实问题。

        大数据管理(BDM)为大数据分析提供了基础设施,可以应用数据管理技术、工具和平台,包括存储、预处理、处理和安全。BDM中涉及的组件描述如下:

(一)数据源

        大数据生成是指从各种相关来源生成数据。它可以由人、机器、业务流程和具有描述性、预测性和规定性的数据技术生成。

(1)大数据生成

        数据领域蓬勃发展的数据领域由各种描述性术语表示,例如:结构化、非结构化、机器和传感器生成的数据、批处理和实时处理数据、生物识别数据、人为生成的数据和业务生成的数据。图6显示了各代大数据分析领域的相关性

        •机器生成数据:机器生成的数据来自多个计算机网络、传感器、卫星、音频、视频流、移动电话应用程序和安全漏洞预测。

        •人工生成数据:它可以由人收集,例如:识别细节,包括他们的姓名,地址,年龄,职业,工资,资格等。然而,真正的流数据可以由各种文件、文档、日志文件、研究、电子邮件和社交媒体网站(如Facebook、Twitter、YouTube、LinkedIn)生成。

        •业务生成数据:全球所有公司的业务数据量估计每1.2年翻一番,如交易数据、企业数据和政府机构数据。当讨论BDA的商业智能(BI)时,它意味着:商业智能领域内的价值(数据是否包含任何对我的业务需求有价值的信息?),可见性(对问题的洞察力和远见的重点以及与之相关的适当解决方案)和判决(基于问题,计算能力和资源的决策者的潜力)(Wu, Buyya, & Ramamohanarao, 2016a)。

(2)数据类型

        以下是三种类型的分析,组织和行业可以使用它们来学习和获得洞察力,以促进他们的业务。

        •描述性:它由各种技术和代表当前和以前发生过程的推断数据的摘要组成。标准报告、特别报告、指示板、查询和向下钻取是描述性分析的各种示例。它被定义为回顾过去,以便得出一些推论。“出什么事了?”

          •预测性:预测性分析建模是根本原因分析、蒙特卡罗模拟和数据挖掘。它有时用于实时或批处理过程。Siegal(2010)指出,通过采用这些预测分析来组织七个连续的目标,即竞争、成长、执行、改进、满足、学习和行动。它预测未来的趋势。-“会发生什么?”

          •说明性:该技术适用于未来的场景,并根据预测提出解决方案或有见地的行动。Basu(2013)代表了规范性分析的五大支柱,即混合数据、综合预测和处方、处方和副作用、自适应算法和反馈机制。-“我们该怎么办?”

(二)数据采集

        这里,数据采集涵盖了数据仓库或任何其他数据库中数据摄取的广泛收集、过滤和清理过程。(Chen, Mao, & Liu, 2014)研究了由于各种设备,数据采集支持异质性。

(1)数据采集

        从现实环境中获取未处理的数据,并对其进行熟练开发的过程。日志文件广泛用于扩展由多个源和所有电子设备上的应用程序生成的数据收集,如扩展日志格式(W3C)、通用日志文件格式(NCSA)和IIS日志格式(Microsoft)。

        传感器是测量物理量并通过数字信号将其转换为可读形式的另一种替代品。存在几种类型的传感器,如听觉,声音,汽车,振动,电流,天气,热,压力通过有线或无线网络传输。网络爬虫通常用于从各种基于网站的过程(如网络搜索引擎或网络缓存)收集数据或应用程序(Castillo, 2005)。

(2)数据暂存

        此外,它被定义为收集各种数据集以及嘈杂的、冗余的和一致的数据的过程。它分为两种可选模型,即:流处理模型和批处理模型。流处理模型以最快的速度对数据进行分析,得出结果,数据以非常快的速度以连续的形式到达。为了支持它,有一些开源系统,包括Storm, S4和Kafka (Hu, Wen, Chua, & Li, 2014)。

        在批处理模型中,首先存储数据,然后分析数据。在这个模型中,MapReduce (Dean & Ghemawat, 2008)已经成为主导平台。图8显示了(a)数据阶段分为数据探索和数据预处理两部分,(b)预测模型。

        •数据探索(Data Exploration:):数据探索有两个主要目的。首先,确定和理解数据的性质和特征。其次,确定可能严重影响模型的数据质量问题。数据探索和数据挖掘被广泛用于发现新的见解。例如:—数据质量报告(平均值、众数、中位数和范围);标准偏差和百分位数;条形图、直方图和箱形图)和数据质量问题(有效或无效)。

        •预处理(Pre-Processing):为了从大数据中提取有意义的信息,需要通过各种工具,即Apache Hadoop、NoSQL和MapReduce,对数据进行清理、整合和转换。预处理涉及到一系列步骤,即如何整合数据、如何转换数据、如何选择正确的模型进行分析以及如何提供结果。

        -清理:清理、解决数据质量和格式问题是预处理的一个基本目标。它使我们能够发现不精确、不充分或不节制的数据,这些数据需要改变、删除和提高数据质量。

        -集成:使用提取、转换和加载(ETL)过程,可以对数据进行清洗、转换,使其适用于数据挖掘和各种在线分析。

        -转换:对原始数据进行转换,使其适合于分析和成型,例如使用一些工具对数据进行整合和打包:ETL, DMT, Pig。可以在数据的实时格式中应用各种操作,例如拆分数据、合并数据、执行计算、将数据与外部数据域连接以及将数据传播到多个目的地。

(三)数据存储与处理

        它是管理数据存储的过程。它并行执行活动以优化存储过程。数据集群、复制和索引是完成大数据管理中存储阶段的重要活动。

        它是指从不同的来源收集数据后,可以以不同的形式存储多少类型的数据。有各种有用的大数据存储工具,即Hbase, NoSQL, Gluster, HDFS和GFS 。在消息传递接口上引入了一种创新的方法来并行化基于数据的应用程序。图9描述了不同平台的大数据存储情况。

相关文章:

大数据分析|设计大数据分析的三个阶段

文献来源:Saggi M K, Jain S. A survey towards an integration of big data analytics to big insights for value-creation[J]. Information Processing & Management, 2018, 54(5): 758-790. 下载链接:链接:https://pan.baidu.com/s/1…...

华为机考入门python3--(7)牛客7-取近似值

分类:数字 知识点: str转float float(str) 向上取整 math.ceil(float_num) 向下取整 math.floor(float_num) 题目来自【牛客】 import math def round_to_int(float_num): # 如果小数点后的数值大于等于0.5,则向上取整&#xf…...

C# Avalonia 11.0.6 绘图

在 Avalonia 11.0.6 中,Render 方法是被标记为 sealed 的,意味着不能直接在子类中重写这个方法。这样的设计可能是为了确保一致性和避免误用。 如果你需要在 Avalonia 中进行自定义的绘图操作,可以使用 DrawingContext,但是需要通…...

使用java -jar命令运行jar包提示“错误:找不到或无法加载主类“的问题分析

用maven把普通java项目打包成可运行的jar后,打开cmd用java -jar运行此jar包时报错: 用idea运行该项目则没有问题 。 其实原因很简单,我们忽略了2个细节。 java指令默认在寻找class文件的地址是通过CLASSPATH环境变量中指定的目录中寻找的。我…...

Tomcat组件架构与数据流

一、背景与简介 Tomcat我们都知道是一个开源的、实现了大部分Java EE、Servlet、JSP规范的Servlet容器, 允许我们将实现了Serlvet接口的Web程序war包进行部署运行。 但是你有对Tomcat做过细致的学习么? 我相信大部分同学和我一样,之前也是只会进行简单使用&#x…...

AES算法:数据传输的安全保障

在当今数字化时代,数据安全成为了一个非常重要的问题。随着互联网的普及和信息技术的发展,我们需要一种可靠的加密算法来保护我们的敏感数据。Advanced Encryption Standard(AES)算法应运而生。本文将介绍AES算法的优缺点、解决了…...

前端小案例——动态导航栏文字(HTML + CSS, 附源码)

一、前言 实现功能: 这案例是一个具有动态效果的导航栏。导航栏的样式设置了一个灰色的背景,并使用flex布局在水平方向上平均分配了四个选项。每个选项都是一个li元素,包含一个文本和一个横向的下划线。 当鼠标悬停在选项上时,选项的文本颜色…...

前置机、堡垒机(跳板机)【2024-02-04】

文章目录 0、前言1、前置机1.1、概念1.2、功能1.3、使用场景1.4、总结 2、堡垒机2.1、概念2.2、功能2.3、使用场景2.4、总结 3、前置机和堡垒机3.1、设计理念与目的3.2、功能3.3、使用场景 0、前言 文章借鉴: https://blog.csdn.net/weixin_45565886/article/detai…...

从编程中理解:大脑的短期记忆和长期记忆

在编程中,我们可以将大脑的短期记忆和长期记忆类比为程序中的变量作用域和持久化存储。在Unity C#编程环境下,可以这样解释: 假设金庸武侠世界中的人物张无忌正在修炼九阳真经。我们用C#代码来模拟他学习武功的过程,其中涉及的“…...

Rust 本地文档的使用:rustup doc

Rust 是一种系统级编程语言,以其安全性、速度和内存控制能力而闻名。为了方便开发者更好地了解并利用 Rust 标准库和工具链中的功能,Rust 提供了一种内置的文档浏览方式——通过 rustup doc 命令。 安装 rustup 在查阅 Rust 文档之前,确保你…...

uni-app切换页面刷新,返回上一页刷新(onShow钩子函数的使用)

切换页面刷新:通过onShow()便可实现 返回上一页通过uni.navigateBack({delta: 1});实现 以返回上一页刷新为例 从B页面返回上一页到A页面,在A页面写入方法refreshHandler() //a.vue methods: { // 执行刷新逻辑refreshHandler() {uni.request({ur…...

adb 无线连接 操作Android设备

最近集五福活动比较热门 可以用这个工具 用自己擅长的语言写一个循环程序 运行起来就可以 自动帮我们 看视频得福卡了 很方便 while (true) {sleep(mt_rand(15, 25));system(adb shell input swipe 500 2000 500 1000 100); } 1. 首先下载 安卓开发工具 adb adb网盘链接 链接…...

春节运维不打烊:一体化运维高效保障企业IT与机房环境

随着技术的不断发展和企业数字化转型的深入,IT运维已经成为企业运营不可或缺的一部分。尤其在春节期间,一体化运维管理系统以其独特的技术特性和卓越的功能,为企业的稳定运行提供了坚实保障,确保了节日的祥和与工作的连续高效。 一…...

类银河恶魔城学习记录1-5 CollisionCheck源代码 P32

Alex教程每一P的教程原代码加上我自己的理解初步理解写的注释,可供学习Alex教程的人参考 【Unity教程】从0编程制作类银河恶魔城游戏_哔哩哔哩_bilibili Player.cs using System.Collections; using System.Collections.Generic; using Unity.VisualScripting; u…...

spring boot 使用 Kafka

一、Kafka作为消息队列的好处 高吞吐量:Kafka能够处理大规模的数据流,并支持高吞吐量的消息传输。 持久性:Kafka将消息持久化到磁盘上,保证了消息不会因为系统故障而丢失。 分布式:Kafka是一个分布式系统&#xff0c…...

LFU缓存(Leetcode460)

例题: 分析: 这道题可以用两个哈希表来实现,一个hash表(kvMap)用来存储节点,另一个hash表(freqMap)用来存储双向链表,链表的头节点代表最近使用的元素,离头节…...

Vue学习笔记:计算属性

计算属性 入门进阶二次进阶三次进阶四次进阶结界五次进阶六次进阶七次进阶八次进阶九次进阶终章彩蛋 入门 Vue.js中,计算属性示例: export default {data() {return {firstName: John,lastName: Doe};},computed: {// 计算属性:全名fullNam…...

深度学习本科课程 实验2 前馈神经网络

任务 3.3 课程实验要求 (1)手动实现前馈神经网络解决上述回归、二分类、多分类任务 l 从训练时间、预测精度、Loss变化等角度分析实验结果(最好使用图表展示) (2)利用torch.nn实现前馈神经网络解决上述回归…...

【python】python爱心代码【附源码】

一、实现效果: 欢迎来到英杰社区https://bbs.csdn.net/topics/617804998 二、完整代码: import math import random import threading import time from math import sin, cos, pi, log from tkinter import * import re# 烟花相关设置 Fireworks [] m…...

Linux---信号

前言 到饭点了,我点了一份外卖,然后又开了一把网游,这个时候,我在打游戏的过程中,我始终记得外卖小哥会随时给我打电话,通知我我去取外卖,这个时候游戏还没有结束。我在打游戏的过程中需要把外…...

Redis相关知识总结(缓存雪崩,缓存穿透,缓存击穿,Redis实现分布式锁,如何保持数据库和缓存一致)

文章目录 1.什么是Redis?2.为什么要使用redis作为mysql的缓存?3.什么是缓存雪崩、缓存穿透、缓存击穿?3.1缓存雪崩3.1.1 大量缓存同时过期3.1.2 Redis宕机 3.2 缓存击穿3.3 缓存穿透3.4 总结 4. 数据库和缓存如何保持一致性5. Redis实现分布式…...

【Java学习笔记】Arrays类

Arrays 类 1. 导入包:import java.util.Arrays 2. 常用方法一览表 方法描述Arrays.toString()返回数组的字符串形式Arrays.sort()排序(自然排序和定制排序)Arrays.binarySearch()通过二分搜索法进行查找(前提:数组是…...

前端导出带有合并单元格的列表

// 导出async function exportExcel(fileName "共识调整.xlsx") {// 所有数据const exportData await getAllMainData();// 表头内容let fitstTitleList [];const secondTitleList [];allColumns.value.forEach(column > {if (!column.children) {fitstTitleL…...

【大模型RAG】Docker 一键部署 Milvus 完整攻略

本文概要 Milvus 2.5 Stand-alone 版可通过 Docker 在几分钟内完成安装;只需暴露 19530(gRPC)与 9091(HTTP/WebUI)两个端口,即可让本地电脑通过 PyMilvus 或浏览器访问远程 Linux 服务器上的 Milvus。下面…...

【Java_EE】Spring MVC

目录 Spring Web MVC ​编辑注解 RestController RequestMapping RequestParam RequestParam RequestBody PathVariable RequestPart 参数传递 注意事项 ​编辑参数重命名 RequestParam ​编辑​编辑传递集合 RequestParam 传递JSON数据 ​编辑RequestBody ​…...

【碎碎念】宝可梦 Mesh GO : 基于MESH网络的口袋妖怪 宝可梦GO游戏自组网系统

目录 游戏说明《宝可梦 Mesh GO》 —— 局域宝可梦探索Pokmon GO 类游戏核心理念应用场景Mesh 特性 宝可梦玩法融合设计游戏构想要素1. 地图探索(基于物理空间 广播范围)2. 野生宝可梦生成与广播3. 对战系统4. 道具与通信5. 延伸玩法 安全性设计 技术选…...

九天毕昇深度学习平台 | 如何安装库?

pip install 库名 -i https://pypi.tuna.tsinghua.edu.cn/simple --user 举个例子: 报错 ModuleNotFoundError: No module named torch 那么我需要安装 torch pip install torch -i https://pypi.tuna.tsinghua.edu.cn/simple --user pip install 库名&#x…...

C#中的CLR属性、依赖属性与附加属性

CLR属性的主要特征 封装性: 隐藏字段的实现细节 提供对字段的受控访问 访问控制: 可单独设置get/set访问器的可见性 可创建只读或只写属性 计算属性: 可以在getter中执行计算逻辑 不需要直接对应一个字段 验证逻辑: 可以…...

基于IDIG-GAN的小样本电机轴承故障诊断

目录 🔍 核心问题 一、IDIG-GAN模型原理 1. 整体架构 2. 核心创新点 (1) ​梯度归一化(Gradient Normalization)​​ (2) ​判别器梯度间隙正则化(Discriminator Gradient Gap Regularization)​​ (3) ​自注意力机制(Self-Attention)​​ 3. 完整损失函数 二…...

2025年渗透测试面试题总结-腾讯[实习]科恩实验室-安全工程师(题目+回答)

安全领域各种资源,学习文档,以及工具分享、前沿信息分享、POC、EXP分享。不定期分享各种好玩的项目及好用的工具,欢迎关注。 目录 腾讯[实习]科恩实验室-安全工程师 一、网络与协议 1. TCP三次握手 2. SYN扫描原理 3. HTTPS证书机制 二…...