大数据分析|设计大数据分析的三个阶段
文献来源:Saggi M K, Jain S. A survey towards an integration of big data analytics to big insights for value-creation[J]. Information Processing & Management, 2018, 54(5): 758-790.
下载链接:链接:https://pan.baidu.com/s/14IGaCOc-plxAiaVhwOgUvA
提取码:4w8k
如何设计BDA-DM(Big data analytics & decision-making framework (BDA-DMF))框架?
大数据分析与决策框架(BDA-DMF)框架如图5所示,旨在发现商业生态系统中的价值。该图显示了大数据管理、大数据分析、数据可视化和价值创造决策,分别在第4、5、6和7节中讨论。
如何设计BDA-DM框架?大数据分析是一种数据密集型架构,它提供了用于数据生成、数据采集、数据存储、高级数据分析、可视化和价值创造决策等各个阶段的各种技术和平台,如图7所示。它遵循自上而下的方法。它包括各种技术,如Hadoop、HBase、Cassandra、MongoDB, NoSQL等。由于其局限性,这些工具和技术无法解决数据存储、数据搜索、数据共享、数据可视化以及实时分析等现实问题。
大数据管理(BDM)为大数据分析提供了基础设施,可以应用数据管理技术、工具和平台,包括存储、预处理、处理和安全。BDM中涉及的组件描述如下:
(一)数据源
大数据生成是指从各种相关来源生成数据。它可以由人、机器、业务流程和具有描述性、预测性和规定性的数据技术生成。
(1)大数据生成
数据领域蓬勃发展的数据领域由各种描述性术语表示,例如:结构化、非结构化、机器和传感器生成的数据、批处理和实时处理数据、生物识别数据、人为生成的数据和业务生成的数据。图6显示了各代大数据分析领域的相关性
•机器生成数据:机器生成的数据来自多个计算机网络、传感器、卫星、音频、视频流、移动电话应用程序和安全漏洞预测。
•人工生成数据:它可以由人收集,例如:识别细节,包括他们的姓名,地址,年龄,职业,工资,资格等。然而,真正的流数据可以由各种文件、文档、日志文件、研究、电子邮件和社交媒体网站(如Facebook、Twitter、YouTube、LinkedIn)生成。
•业务生成数据:全球所有公司的业务数据量估计每1.2年翻一番,如交易数据、企业数据和政府机构数据。当讨论BDA的商业智能(BI)时,它意味着:商业智能领域内的价值(数据是否包含任何对我的业务需求有价值的信息?),可见性(对问题的洞察力和远见的重点以及与之相关的适当解决方案)和判决(基于问题,计算能力和资源的决策者的潜力)(Wu, Buyya, & Ramamohanarao, 2016a)。
(2)数据类型
以下是三种类型的分析,组织和行业可以使用它们来学习和获得洞察力,以促进他们的业务。
•描述性:它由各种技术和代表当前和以前发生过程的推断数据的摘要组成。标准报告、特别报告、指示板、查询和向下钻取是描述性分析的各种示例。它被定义为回顾过去,以便得出一些推论。“出什么事了?”
•预测性:预测性分析建模是根本原因分析、蒙特卡罗模拟和数据挖掘。它有时用于实时或批处理过程。Siegal(2010)指出,通过采用这些预测分析来组织七个连续的目标,即竞争、成长、执行、改进、满足、学习和行动。它预测未来的趋势。-“会发生什么?”
•说明性:该技术适用于未来的场景,并根据预测提出解决方案或有见地的行动。Basu(2013)代表了规范性分析的五大支柱,即混合数据、综合预测和处方、处方和副作用、自适应算法和反馈机制。-“我们该怎么办?”
(二)数据采集
这里,数据采集涵盖了数据仓库或任何其他数据库中数据摄取的广泛收集、过滤和清理过程。(Chen, Mao, & Liu, 2014)研究了由于各种设备,数据采集支持异质性。
(1)数据采集
从现实环境中获取未处理的数据,并对其进行熟练开发的过程。日志文件广泛用于扩展由多个源和所有电子设备上的应用程序生成的数据收集,如扩展日志格式(W3C)、通用日志文件格式(NCSA)和IIS日志格式(Microsoft)。
传感器是测量物理量并通过数字信号将其转换为可读形式的另一种替代品。存在几种类型的传感器,如听觉,声音,汽车,振动,电流,天气,热,压力通过有线或无线网络传输。网络爬虫通常用于从各种基于网站的过程(如网络搜索引擎或网络缓存)收集数据或应用程序(Castillo, 2005)。
(2)数据暂存
此外,它被定义为收集各种数据集以及嘈杂的、冗余的和一致的数据的过程。它分为两种可选模型,即:流处理模型和批处理模型。流处理模型以最快的速度对数据进行分析,得出结果,数据以非常快的速度以连续的形式到达。为了支持它,有一些开源系统,包括Storm, S4和Kafka (Hu, Wen, Chua, & Li, 2014)。
在批处理模型中,首先存储数据,然后分析数据。在这个模型中,MapReduce (Dean & Ghemawat, 2008)已经成为主导平台。图8显示了(a)数据阶段分为数据探索和数据预处理两部分,(b)预测模型。
•数据探索(Data Exploration:):数据探索有两个主要目的。首先,确定和理解数据的性质和特征。其次,确定可能严重影响模型的数据质量问题。数据探索和数据挖掘被广泛用于发现新的见解。例如:—数据质量报告(平均值、众数、中位数和范围);标准偏差和百分位数;条形图、直方图和箱形图)和数据质量问题(有效或无效)。
•预处理(Pre-Processing):为了从大数据中提取有意义的信息,需要通过各种工具,即Apache Hadoop、NoSQL和MapReduce,对数据进行清理、整合和转换。预处理涉及到一系列步骤,即如何整合数据、如何转换数据、如何选择正确的模型进行分析以及如何提供结果。
-清理:清理、解决数据质量和格式问题是预处理的一个基本目标。它使我们能够发现不精确、不充分或不节制的数据,这些数据需要改变、删除和提高数据质量。
-集成:使用提取、转换和加载(ETL)过程,可以对数据进行清洗、转换,使其适用于数据挖掘和各种在线分析。
-转换:对原始数据进行转换,使其适合于分析和成型,例如使用一些工具对数据进行整合和打包:ETL, DMT, Pig。可以在数据的实时格式中应用各种操作,例如拆分数据、合并数据、执行计算、将数据与外部数据域连接以及将数据传播到多个目的地。
(三)数据存储与处理
它是管理数据存储的过程。它并行执行活动以优化存储过程。数据集群、复制和索引是完成大数据管理中存储阶段的重要活动。
它是指从不同的来源收集数据后,可以以不同的形式存储多少类型的数据。有各种有用的大数据存储工具,即Hbase, NoSQL, Gluster, HDFS和GFS 。在消息传递接口上引入了一种创新的方法来并行化基于数据的应用程序。图9描述了不同平台的大数据存储情况。
相关文章:

大数据分析|设计大数据分析的三个阶段
文献来源:Saggi M K, Jain S. A survey towards an integration of big data analytics to big insights for value-creation[J]. Information Processing & Management, 2018, 54(5): 758-790. 下载链接:链接:https://pan.baidu.com/s/1…...

华为机考入门python3--(7)牛客7-取近似值
分类:数字 知识点: str转float float(str) 向上取整 math.ceil(float_num) 向下取整 math.floor(float_num) 题目来自【牛客】 import math def round_to_int(float_num): # 如果小数点后的数值大于等于0.5,则向上取整…...
C# Avalonia 11.0.6 绘图
在 Avalonia 11.0.6 中,Render 方法是被标记为 sealed 的,意味着不能直接在子类中重写这个方法。这样的设计可能是为了确保一致性和避免误用。 如果你需要在 Avalonia 中进行自定义的绘图操作,可以使用 DrawingContext,但是需要通…...

使用java -jar命令运行jar包提示“错误:找不到或无法加载主类“的问题分析
用maven把普通java项目打包成可运行的jar后,打开cmd用java -jar运行此jar包时报错: 用idea运行该项目则没有问题 。 其实原因很简单,我们忽略了2个细节。 java指令默认在寻找class文件的地址是通过CLASSPATH环境变量中指定的目录中寻找的。我…...

Tomcat组件架构与数据流
一、背景与简介 Tomcat我们都知道是一个开源的、实现了大部分Java EE、Servlet、JSP规范的Servlet容器, 允许我们将实现了Serlvet接口的Web程序war包进行部署运行。 但是你有对Tomcat做过细致的学习么? 我相信大部分同学和我一样,之前也是只会进行简单使用&#x…...

AES算法:数据传输的安全保障
在当今数字化时代,数据安全成为了一个非常重要的问题。随着互联网的普及和信息技术的发展,我们需要一种可靠的加密算法来保护我们的敏感数据。Advanced Encryption Standard(AES)算法应运而生。本文将介绍AES算法的优缺点、解决了…...

前端小案例——动态导航栏文字(HTML + CSS, 附源码)
一、前言 实现功能: 这案例是一个具有动态效果的导航栏。导航栏的样式设置了一个灰色的背景,并使用flex布局在水平方向上平均分配了四个选项。每个选项都是一个li元素,包含一个文本和一个横向的下划线。 当鼠标悬停在选项上时,选项的文本颜色…...
前置机、堡垒机(跳板机)【2024-02-04】
文章目录 0、前言1、前置机1.1、概念1.2、功能1.3、使用场景1.4、总结 2、堡垒机2.1、概念2.2、功能2.3、使用场景2.4、总结 3、前置机和堡垒机3.1、设计理念与目的3.2、功能3.3、使用场景 0、前言 文章借鉴: https://blog.csdn.net/weixin_45565886/article/detai…...
从编程中理解:大脑的短期记忆和长期记忆
在编程中,我们可以将大脑的短期记忆和长期记忆类比为程序中的变量作用域和持久化存储。在Unity C#编程环境下,可以这样解释: 假设金庸武侠世界中的人物张无忌正在修炼九阳真经。我们用C#代码来模拟他学习武功的过程,其中涉及的“…...

Rust 本地文档的使用:rustup doc
Rust 是一种系统级编程语言,以其安全性、速度和内存控制能力而闻名。为了方便开发者更好地了解并利用 Rust 标准库和工具链中的功能,Rust 提供了一种内置的文档浏览方式——通过 rustup doc 命令。 安装 rustup 在查阅 Rust 文档之前,确保你…...
uni-app切换页面刷新,返回上一页刷新(onShow钩子函数的使用)
切换页面刷新:通过onShow()便可实现 返回上一页通过uni.navigateBack({delta: 1});实现 以返回上一页刷新为例 从B页面返回上一页到A页面,在A页面写入方法refreshHandler() //a.vue methods: { // 执行刷新逻辑refreshHandler() {uni.request({ur…...

adb 无线连接 操作Android设备
最近集五福活动比较热门 可以用这个工具 用自己擅长的语言写一个循环程序 运行起来就可以 自动帮我们 看视频得福卡了 很方便 while (true) {sleep(mt_rand(15, 25));system(adb shell input swipe 500 2000 500 1000 100); } 1. 首先下载 安卓开发工具 adb adb网盘链接 链接…...
春节运维不打烊:一体化运维高效保障企业IT与机房环境
随着技术的不断发展和企业数字化转型的深入,IT运维已经成为企业运营不可或缺的一部分。尤其在春节期间,一体化运维管理系统以其独特的技术特性和卓越的功能,为企业的稳定运行提供了坚实保障,确保了节日的祥和与工作的连续高效。 一…...
类银河恶魔城学习记录1-5 CollisionCheck源代码 P32
Alex教程每一P的教程原代码加上我自己的理解初步理解写的注释,可供学习Alex教程的人参考 【Unity教程】从0编程制作类银河恶魔城游戏_哔哩哔哩_bilibili Player.cs using System.Collections; using System.Collections.Generic; using Unity.VisualScripting; u…...

spring boot 使用 Kafka
一、Kafka作为消息队列的好处 高吞吐量:Kafka能够处理大规模的数据流,并支持高吞吐量的消息传输。 持久性:Kafka将消息持久化到磁盘上,保证了消息不会因为系统故障而丢失。 分布式:Kafka是一个分布式系统,…...

LFU缓存(Leetcode460)
例题: 分析: 这道题可以用两个哈希表来实现,一个hash表(kvMap)用来存储节点,另一个hash表(freqMap)用来存储双向链表,链表的头节点代表最近使用的元素,离头节…...
Vue学习笔记:计算属性
计算属性 入门进阶二次进阶三次进阶四次进阶结界五次进阶六次进阶七次进阶八次进阶九次进阶终章彩蛋 入门 Vue.js中,计算属性示例: export default {data() {return {firstName: John,lastName: Doe};},computed: {// 计算属性:全名fullNam…...
深度学习本科课程 实验2 前馈神经网络
任务 3.3 课程实验要求 (1)手动实现前馈神经网络解决上述回归、二分类、多分类任务 l 从训练时间、预测精度、Loss变化等角度分析实验结果(最好使用图表展示) (2)利用torch.nn实现前馈神经网络解决上述回归…...

【python】python爱心代码【附源码】
一、实现效果: 欢迎来到英杰社区https://bbs.csdn.net/topics/617804998 二、完整代码: import math import random import threading import time from math import sin, cos, pi, log from tkinter import * import re# 烟花相关设置 Fireworks [] m…...

Linux---信号
前言 到饭点了,我点了一份外卖,然后又开了一把网游,这个时候,我在打游戏的过程中,我始终记得外卖小哥会随时给我打电话,通知我我去取外卖,这个时候游戏还没有结束。我在打游戏的过程中需要把外…...
RestClient
什么是RestClient RestClient 是 Elasticsearch 官方提供的 Java 低级 REST 客户端,它允许HTTP与Elasticsearch 集群通信,而无需处理 JSON 序列化/反序列化等底层细节。它是 Elasticsearch Java API 客户端的基础。 RestClient 主要特点 轻量级ÿ…...

网络六边形受到攻击
大家读完觉得有帮助记得关注和点赞!!! 抽象 现代智能交通系统 (ITS) 的一个关键要求是能够以安全、可靠和匿名的方式从互联车辆和移动设备收集地理参考数据。Nexagon 协议建立在 IETF 定位器/ID 分离协议 (…...
STM32+rt-thread判断是否联网
一、根据NETDEV_FLAG_INTERNET_UP位判断 static bool is_conncected(void) {struct netdev *dev RT_NULL;dev netdev_get_first_by_flags(NETDEV_FLAG_INTERNET_UP);if (dev RT_NULL){printf("wait netdev internet up...");return false;}else{printf("loc…...

iPhone密码忘记了办?iPhoneUnlocker,iPhone解锁工具Aiseesoft iPhone Unlocker 高级注册版分享
平时用 iPhone 的时候,难免会碰到解锁的麻烦事。比如密码忘了、人脸识别 / 指纹识别突然不灵,或者买了二手 iPhone 却被原来的 iCloud 账号锁住,这时候就需要靠谱的解锁工具来帮忙了。Aiseesoft iPhone Unlocker 就是专门解决这些问题的软件&…...

Java-41 深入浅出 Spring - 声明式事务的支持 事务配置 XML模式 XML+注解模式
点一下关注吧!!!非常感谢!!持续更新!!! 🚀 AI篇持续更新中!(长期更新) 目前2025年06月05日更新到: AI炼丹日志-28 - Aud…...
高防服务器能够抵御哪些网络攻击呢?
高防服务器作为一种有着高度防御能力的服务器,可以帮助网站应对分布式拒绝服务攻击,有效识别和清理一些恶意的网络流量,为用户提供安全且稳定的网络环境,那么,高防服务器一般都可以抵御哪些网络攻击呢?下面…...
根据万维钢·精英日课6的内容,使用AI(2025)可以参考以下方法:
根据万维钢精英日课6的内容,使用AI(2025)可以参考以下方法: 四个洞见 模型已经比人聪明:以ChatGPT o3为代表的AI非常强大,能运用高级理论解释道理、引用最新学术论文,生成对顶尖科学家都有用的…...
【C++从零实现Json-Rpc框架】第六弹 —— 服务端模块划分
一、项目背景回顾 前五弹完成了Json-Rpc协议解析、请求处理、客户端调用等基础模块搭建。 本弹重点聚焦于服务端的模块划分与架构设计,提升代码结构的可维护性与扩展性。 二、服务端模块设计目标 高内聚低耦合:各模块职责清晰,便于独立开发…...

Spring数据访问模块设计
前面我们已经完成了IoC和web模块的设计,聪明的码友立马就知道了,该到数据访问模块了,要不就这俩玩个6啊,查库势在必行,至此,它来了。 一、核心设计理念 1、痛点在哪 应用离不开数据(数据库、No…...

Qemu arm操作系统开发环境
使用qemu虚拟arm硬件比较合适。 步骤如下: 安装qemu apt install qemu-system安装aarch64-none-elf-gcc 需要手动下载,下载地址:https://developer.arm.com/-/media/Files/downloads/gnu/13.2.rel1/binrel/arm-gnu-toolchain-13.2.rel1-x…...