当前位置: 首页 > news >正文

大数据分析|设计大数据分析的三个阶段

文献来源:Saggi M K, Jain S. A survey towards an integration of big data analytics to big insights for value-creation[J]. Information Processing & Management, 2018, 54(5): 758-790.

下载链接:链接:https://pan.baidu.com/s/14IGaCOc-plxAiaVhwOgUvA 
提取码:4w8k

        如何设计BDA-DM(Big data analytics & decision-making framework (BDA-DMF))框架?

        大数据分析与决策框架(BDA-DMF)框架如图5所示,旨在发现商业生态系统中的价值。该图显示了大数据管理、大数据分析、数据可视化和价值创造决策,分别在第4、5、6和7节中讨论。

        如何设计BDA-DM框架?大数据分析是一种数据密集型架构,它提供了用于数据生成、数据采集、数据存储、高级数据分析、可视化和价值创造决策等各个阶段的各种技术和平台,如图7所示。它遵循自上而下的方法。它包括各种技术,如Hadoop、HBase、Cassandra、MongoDB, NoSQL等。由于其局限性,这些工具和技术无法解决数据存储、数据搜索、数据共享、数据可视化以及实时分析等现实问题。

        大数据管理(BDM)为大数据分析提供了基础设施,可以应用数据管理技术、工具和平台,包括存储、预处理、处理和安全。BDM中涉及的组件描述如下:

(一)数据源

        大数据生成是指从各种相关来源生成数据。它可以由人、机器、业务流程和具有描述性、预测性和规定性的数据技术生成。

(1)大数据生成

        数据领域蓬勃发展的数据领域由各种描述性术语表示,例如:结构化、非结构化、机器和传感器生成的数据、批处理和实时处理数据、生物识别数据、人为生成的数据和业务生成的数据。图6显示了各代大数据分析领域的相关性

        •机器生成数据:机器生成的数据来自多个计算机网络、传感器、卫星、音频、视频流、移动电话应用程序和安全漏洞预测。

        •人工生成数据:它可以由人收集,例如:识别细节,包括他们的姓名,地址,年龄,职业,工资,资格等。然而,真正的流数据可以由各种文件、文档、日志文件、研究、电子邮件和社交媒体网站(如Facebook、Twitter、YouTube、LinkedIn)生成。

        •业务生成数据:全球所有公司的业务数据量估计每1.2年翻一番,如交易数据、企业数据和政府机构数据。当讨论BDA的商业智能(BI)时,它意味着:商业智能领域内的价值(数据是否包含任何对我的业务需求有价值的信息?),可见性(对问题的洞察力和远见的重点以及与之相关的适当解决方案)和判决(基于问题,计算能力和资源的决策者的潜力)(Wu, Buyya, & Ramamohanarao, 2016a)。

(2)数据类型

        以下是三种类型的分析,组织和行业可以使用它们来学习和获得洞察力,以促进他们的业务。

        •描述性:它由各种技术和代表当前和以前发生过程的推断数据的摘要组成。标准报告、特别报告、指示板、查询和向下钻取是描述性分析的各种示例。它被定义为回顾过去,以便得出一些推论。“出什么事了?”

          •预测性:预测性分析建模是根本原因分析、蒙特卡罗模拟和数据挖掘。它有时用于实时或批处理过程。Siegal(2010)指出,通过采用这些预测分析来组织七个连续的目标,即竞争、成长、执行、改进、满足、学习和行动。它预测未来的趋势。-“会发生什么?”

          •说明性:该技术适用于未来的场景,并根据预测提出解决方案或有见地的行动。Basu(2013)代表了规范性分析的五大支柱,即混合数据、综合预测和处方、处方和副作用、自适应算法和反馈机制。-“我们该怎么办?”

(二)数据采集

        这里,数据采集涵盖了数据仓库或任何其他数据库中数据摄取的广泛收集、过滤和清理过程。(Chen, Mao, & Liu, 2014)研究了由于各种设备,数据采集支持异质性。

(1)数据采集

        从现实环境中获取未处理的数据,并对其进行熟练开发的过程。日志文件广泛用于扩展由多个源和所有电子设备上的应用程序生成的数据收集,如扩展日志格式(W3C)、通用日志文件格式(NCSA)和IIS日志格式(Microsoft)。

        传感器是测量物理量并通过数字信号将其转换为可读形式的另一种替代品。存在几种类型的传感器,如听觉,声音,汽车,振动,电流,天气,热,压力通过有线或无线网络传输。网络爬虫通常用于从各种基于网站的过程(如网络搜索引擎或网络缓存)收集数据或应用程序(Castillo, 2005)。

(2)数据暂存

        此外,它被定义为收集各种数据集以及嘈杂的、冗余的和一致的数据的过程。它分为两种可选模型,即:流处理模型和批处理模型。流处理模型以最快的速度对数据进行分析,得出结果,数据以非常快的速度以连续的形式到达。为了支持它,有一些开源系统,包括Storm, S4和Kafka (Hu, Wen, Chua, & Li, 2014)。

        在批处理模型中,首先存储数据,然后分析数据。在这个模型中,MapReduce (Dean & Ghemawat, 2008)已经成为主导平台。图8显示了(a)数据阶段分为数据探索和数据预处理两部分,(b)预测模型。

        •数据探索(Data Exploration:):数据探索有两个主要目的。首先,确定和理解数据的性质和特征。其次,确定可能严重影响模型的数据质量问题。数据探索和数据挖掘被广泛用于发现新的见解。例如:—数据质量报告(平均值、众数、中位数和范围);标准偏差和百分位数;条形图、直方图和箱形图)和数据质量问题(有效或无效)。

        •预处理(Pre-Processing):为了从大数据中提取有意义的信息,需要通过各种工具,即Apache Hadoop、NoSQL和MapReduce,对数据进行清理、整合和转换。预处理涉及到一系列步骤,即如何整合数据、如何转换数据、如何选择正确的模型进行分析以及如何提供结果。

        -清理:清理、解决数据质量和格式问题是预处理的一个基本目标。它使我们能够发现不精确、不充分或不节制的数据,这些数据需要改变、删除和提高数据质量。

        -集成:使用提取、转换和加载(ETL)过程,可以对数据进行清洗、转换,使其适用于数据挖掘和各种在线分析。

        -转换:对原始数据进行转换,使其适合于分析和成型,例如使用一些工具对数据进行整合和打包:ETL, DMT, Pig。可以在数据的实时格式中应用各种操作,例如拆分数据、合并数据、执行计算、将数据与外部数据域连接以及将数据传播到多个目的地。

(三)数据存储与处理

        它是管理数据存储的过程。它并行执行活动以优化存储过程。数据集群、复制和索引是完成大数据管理中存储阶段的重要活动。

        它是指从不同的来源收集数据后,可以以不同的形式存储多少类型的数据。有各种有用的大数据存储工具,即Hbase, NoSQL, Gluster, HDFS和GFS 。在消息传递接口上引入了一种创新的方法来并行化基于数据的应用程序。图9描述了不同平台的大数据存储情况。

相关文章:

大数据分析|设计大数据分析的三个阶段

文献来源:Saggi M K, Jain S. A survey towards an integration of big data analytics to big insights for value-creation[J]. Information Processing & Management, 2018, 54(5): 758-790. 下载链接:链接:https://pan.baidu.com/s/1…...

华为机考入门python3--(7)牛客7-取近似值

分类:数字 知识点: str转float float(str) 向上取整 math.ceil(float_num) 向下取整 math.floor(float_num) 题目来自【牛客】 import math def round_to_int(float_num): # 如果小数点后的数值大于等于0.5,则向上取整&#xf…...

C# Avalonia 11.0.6 绘图

在 Avalonia 11.0.6 中,Render 方法是被标记为 sealed 的,意味着不能直接在子类中重写这个方法。这样的设计可能是为了确保一致性和避免误用。 如果你需要在 Avalonia 中进行自定义的绘图操作,可以使用 DrawingContext,但是需要通…...

使用java -jar命令运行jar包提示“错误:找不到或无法加载主类“的问题分析

用maven把普通java项目打包成可运行的jar后,打开cmd用java -jar运行此jar包时报错: 用idea运行该项目则没有问题 。 其实原因很简单,我们忽略了2个细节。 java指令默认在寻找class文件的地址是通过CLASSPATH环境变量中指定的目录中寻找的。我…...

Tomcat组件架构与数据流

一、背景与简介 Tomcat我们都知道是一个开源的、实现了大部分Java EE、Servlet、JSP规范的Servlet容器, 允许我们将实现了Serlvet接口的Web程序war包进行部署运行。 但是你有对Tomcat做过细致的学习么? 我相信大部分同学和我一样,之前也是只会进行简单使用&#x…...

AES算法:数据传输的安全保障

在当今数字化时代,数据安全成为了一个非常重要的问题。随着互联网的普及和信息技术的发展,我们需要一种可靠的加密算法来保护我们的敏感数据。Advanced Encryption Standard(AES)算法应运而生。本文将介绍AES算法的优缺点、解决了…...

前端小案例——动态导航栏文字(HTML + CSS, 附源码)

一、前言 实现功能: 这案例是一个具有动态效果的导航栏。导航栏的样式设置了一个灰色的背景,并使用flex布局在水平方向上平均分配了四个选项。每个选项都是一个li元素,包含一个文本和一个横向的下划线。 当鼠标悬停在选项上时,选项的文本颜色…...

前置机、堡垒机(跳板机)【2024-02-04】

文章目录 0、前言1、前置机1.1、概念1.2、功能1.3、使用场景1.4、总结 2、堡垒机2.1、概念2.2、功能2.3、使用场景2.4、总结 3、前置机和堡垒机3.1、设计理念与目的3.2、功能3.3、使用场景 0、前言 文章借鉴: https://blog.csdn.net/weixin_45565886/article/detai…...

从编程中理解:大脑的短期记忆和长期记忆

在编程中,我们可以将大脑的短期记忆和长期记忆类比为程序中的变量作用域和持久化存储。在Unity C#编程环境下,可以这样解释: 假设金庸武侠世界中的人物张无忌正在修炼九阳真经。我们用C#代码来模拟他学习武功的过程,其中涉及的“…...

Rust 本地文档的使用:rustup doc

Rust 是一种系统级编程语言,以其安全性、速度和内存控制能力而闻名。为了方便开发者更好地了解并利用 Rust 标准库和工具链中的功能,Rust 提供了一种内置的文档浏览方式——通过 rustup doc 命令。 安装 rustup 在查阅 Rust 文档之前,确保你…...

uni-app切换页面刷新,返回上一页刷新(onShow钩子函数的使用)

切换页面刷新:通过onShow()便可实现 返回上一页通过uni.navigateBack({delta: 1});实现 以返回上一页刷新为例 从B页面返回上一页到A页面,在A页面写入方法refreshHandler() //a.vue methods: { // 执行刷新逻辑refreshHandler() {uni.request({ur…...

adb 无线连接 操作Android设备

最近集五福活动比较热门 可以用这个工具 用自己擅长的语言写一个循环程序 运行起来就可以 自动帮我们 看视频得福卡了 很方便 while (true) {sleep(mt_rand(15, 25));system(adb shell input swipe 500 2000 500 1000 100); } 1. 首先下载 安卓开发工具 adb adb网盘链接 链接…...

春节运维不打烊:一体化运维高效保障企业IT与机房环境

随着技术的不断发展和企业数字化转型的深入,IT运维已经成为企业运营不可或缺的一部分。尤其在春节期间,一体化运维管理系统以其独特的技术特性和卓越的功能,为企业的稳定运行提供了坚实保障,确保了节日的祥和与工作的连续高效。 一…...

类银河恶魔城学习记录1-5 CollisionCheck源代码 P32

Alex教程每一P的教程原代码加上我自己的理解初步理解写的注释,可供学习Alex教程的人参考 【Unity教程】从0编程制作类银河恶魔城游戏_哔哩哔哩_bilibili Player.cs using System.Collections; using System.Collections.Generic; using Unity.VisualScripting; u…...

spring boot 使用 Kafka

一、Kafka作为消息队列的好处 高吞吐量:Kafka能够处理大规模的数据流,并支持高吞吐量的消息传输。 持久性:Kafka将消息持久化到磁盘上,保证了消息不会因为系统故障而丢失。 分布式:Kafka是一个分布式系统&#xff0c…...

LFU缓存(Leetcode460)

例题: 分析: 这道题可以用两个哈希表来实现,一个hash表(kvMap)用来存储节点,另一个hash表(freqMap)用来存储双向链表,链表的头节点代表最近使用的元素,离头节…...

Vue学习笔记:计算属性

计算属性 入门进阶二次进阶三次进阶四次进阶结界五次进阶六次进阶七次进阶八次进阶九次进阶终章彩蛋 入门 Vue.js中,计算属性示例: export default {data() {return {firstName: John,lastName: Doe};},computed: {// 计算属性:全名fullNam…...

深度学习本科课程 实验2 前馈神经网络

任务 3.3 课程实验要求 (1)手动实现前馈神经网络解决上述回归、二分类、多分类任务 l 从训练时间、预测精度、Loss变化等角度分析实验结果(最好使用图表展示) (2)利用torch.nn实现前馈神经网络解决上述回归…...

【python】python爱心代码【附源码】

一、实现效果: 欢迎来到英杰社区https://bbs.csdn.net/topics/617804998 二、完整代码: import math import random import threading import time from math import sin, cos, pi, log from tkinter import * import re# 烟花相关设置 Fireworks [] m…...

Linux---信号

前言 到饭点了,我点了一份外卖,然后又开了一把网游,这个时候,我在打游戏的过程中,我始终记得外卖小哥会随时给我打电话,通知我我去取外卖,这个时候游戏还没有结束。我在打游戏的过程中需要把外…...

Linux相关概念和易错知识点(42)(TCP的连接管理、可靠性、面临复杂网络的处理)

目录 1.TCP的连接管理机制(1)三次握手①握手过程②对握手过程的理解 (2)四次挥手(3)握手和挥手的触发(4)状态切换①挥手过程中状态的切换②握手过程中状态的切换 2.TCP的可靠性&…...

c++ 面试题(1)-----深度优先搜索(DFS)实现

操作系统:ubuntu22.04 IDE:Visual Studio Code 编程语言:C11 题目描述 地上有一个 m 行 n 列的方格,从坐标 [0,0] 起始。一个机器人可以从某一格移动到上下左右四个格子,但不能进入行坐标和列坐标的数位之和大于 k 的格子。 例…...

高等数学(下)题型笔记(八)空间解析几何与向量代数

目录 0 前言 1 向量的点乘 1.1 基本公式 1.2 例题 2 向量的叉乘 2.1 基础知识 2.2 例题 3 空间平面方程 3.1 基础知识 3.2 例题 4 空间直线方程 4.1 基础知识 4.2 例题 5 旋转曲面及其方程 5.1 基础知识 5.2 例题 6 空间曲面的法线与切平面 6.1 基础知识 6.2…...

css的定位(position)详解:相对定位 绝对定位 固定定位

在 CSS 中,元素的定位通过 position 属性控制,共有 5 种定位模式:static(静态定位)、relative(相对定位)、absolute(绝对定位)、fixed(固定定位)和…...

LeetCode - 199. 二叉树的右视图

题目 199. 二叉树的右视图 - 力扣(LeetCode) 思路 右视图是指从树的右侧看,对于每一层,只能看到该层最右边的节点。实现思路是: 使用深度优先搜索(DFS)按照"根-右-左"的顺序遍历树记录每个节点的深度对于…...

七、数据库的完整性

七、数据库的完整性 主要内容 7.1 数据库的完整性概述 7.2 实体完整性 7.3 参照完整性 7.4 用户定义的完整性 7.5 触发器 7.6 SQL Server中数据库完整性的实现 7.7 小结 7.1 数据库的完整性概述 数据库完整性的含义 正确性 指数据的合法性 有效性 指数据是否属于所定…...

wpf在image控件上快速显示内存图像

wpf在image控件上快速显示内存图像https://www.cnblogs.com/haodafeng/p/10431387.html 如果你在寻找能够快速在image控件刷新大图像(比如分辨率3000*3000的图像)的办法,尤其是想把内存中的裸数据(只有图像的数据,不包…...

Chrome 浏览器前端与客户端双向通信实战

Chrome 前端(即页面 JS / Web UI)与客户端(C 后端)的交互机制,是 Chromium 架构中非常核心的一环。下面我将按常见场景,从通道、流程、技术栈几个角度做一套完整的分析,特别适合你这种在分析和改…...

热烈祝贺埃文科技正式加入可信数据空间发展联盟

2025年4月29日,在福州举办的第八届数字中国建设峰会“可信数据空间分论坛”上,可信数据空间发展联盟正式宣告成立。国家数据局党组书记、局长刘烈宏出席并致辞,强调该联盟是推进全国一体化数据市场建设的关键抓手。 郑州埃文科技有限公司&am…...

xmind转换为markdown

文章目录 解锁思维导图新姿势:将XMind转为结构化Markdown 一、认识Xmind结构二、核心转换流程详解1.解压XMind文件(ZIP处理)2.解析JSON数据结构3:递归转换树形结构4:Markdown层级生成逻辑 三、完整代码 解锁思维导图新…...