当前位置: 首页 > news >正文

文献翻译与阅读《Integration Approaches for Heterogeneous Big Data: A Survey》

CYBERNETICS AND INFORMATION TECHNOLOGIES’24

论文原文下载地址:原文下载

目录

1 引言

2 大数据概述

3 大数据的异构性

4 讨论整合方法

4.1 大数据仓库(BDW)

4.2 大数据联盟(BDF)

5 DW 和 DF 方法的比较、分析和结论

5.1 BDW:

优点:

缺点

5.2 BDF:

优点:

缺点:

5.3 建议


1 引言

背景:数字技术的发展和各种来源数据的涌入,使处理异构大数据成为企业的一项重要任务[1],而这一任务的核心需要能够合并和评估这些数据,以获得更深入的洞察力和有效的决策[1]。

传统的数据管理方法:无法处理异构数据,也无法处理各种数据源、格式和质量[1]。

因此,企业需要利用先进的数据管理技术[1],采用综合方法。

本文:

  1. 指出了相关的数据属性,如速度、数量、真实性、多样性和价值
  2. 举例说明了数据源的异构性,如传感器数据、社交媒体和医疗保健信息。
  3. 探讨了 现代企业 在管理异构大数据方面 面临的挑战和机遇。
  4. 提出了异构大数据整合的两种方法:数据仓库和数据联盟。讨论了它们作为整合、管理和分析异构大数据的策略各自的优缺点。
  5. 对各种大数据的管理进行了调查。深入分析了处理异构大数据的复杂性和可能性。
  6. 对于希望了解和充分利用异构大数据管理所带来的挑战和机遇的研究人员、专业人士和决策者来说,这是一个资源库,可帮助其做出明智决策和实现商业成功。

2 大数据概述

大数据是指:组织目前正在处理的大量有组织且非结构化数据。

大数据产生来源:传感器、电子商务交易和社交媒体。

随着技术的发展,大数据的产生越来越多,有必要使用更先进的技术对其进行存储、处理和分析。

大数据的主要特征,包括5V:

  1. Volume [ˈvɒljuːm]:数据量。处理和存储方案有:使用分布式系统和云存储。
    1. 优势:捕获大规模数据
    2. 局限:未考虑数据的实用性或质量
  2. Velocity [vəˈlɒsəti]:数据生成、采集和处理的速度。在实时情况下数据产生的速度很快,必须快速检查这些数据。处理数据方法有:使用流处理和实时分析。
    1. 优势:捕捉数据处理速度
    2. 局限:未考虑数据的实用性或质量
  3. variety [vəˈraɪəti]:数据形式和来源的多样性。大数据包括结构化数据、半结构化数据和非结构化数据。处理数据方法有:自然语言处理和计算机视觉。有人指出,在处理一系列数据格式时,有可能总是得到不准确的结果。
    1. 优势:捕捉数据的多样性
    2. 局限:未考虑数据的实用性或质量
  4. Veracity [vəˈræsəti]:数据的可信度和准确性。确保数据质量和准确性、完整性、可靠性和一致性,要保证数据的可靠性具有很大挑战。处理数据方法有:数据标准化和剖析等现代数据验证和清理流程。文献[36]提出了一种解决方案,可有效处理真实性问题,并显著减少大数据发生的次数。
    1. 优势:掌握数据的质量和可靠性
    2. 局限:难以客观衡量
  5. Value [ˈvæljuː]:数据的商业价值或影响。组织可以通过研究数据发现隐藏的模式和联系。开发 BDAC 能带来更好的决策和结果[39]。要想从数据中获得有意义的见解,分析数据方法有:预测建模和机器学习。分析数据工具和技术有Hadoop、Spark 和 NoSQL 数据库。
    1. 优势:捕捉数据的有用性
    2. 局限:难以客观衡量

应用领域:教育、医疗保健、金融、零售、电信和旅游。

庞大的数据集规模与异质性可能性的增加直接相关[62],这种关系是大数据的一个非常重要的方面。

3 大数据的异构性

异构大数据概念:社交媒体数据、传感器数据、金融数据、医疗数据、客户数据、供应链数据、人力资源数据、环境数据、教育数据、交通数据和制造数据等种类繁多的数据被称为异构大数据。

数据来源:结构化、非结构化和多媒体格式等。

处理异构数据的好处:

  1. 可以全面了解当前的问题
  2. 根据分析这些不同数据集所获得的见解做出更好的决策[67, 68]。

在处理异构数据时,对来自多种不同格式、结构和模型的数据进行整合是一项挑战[64-66]:

  1. 要有效管理和分析异构数据,就必须掌握数据管理领域的专门技能、知识和先进技术[67, 69]。
  2. 在同时管理众多数据类型时,有可能获得不准确的结果[34]。解决因数据集异构性而产生的任何质量问题变得至关重要。

有几项研究强调,为了获得有价值的见解,从而取得商业成功和竞争优势,必须采取综合方法(数据的整合、预处理、分析、管理和语义整合)来释放各种数据源的全部潜力。

4 讨论整合方法

数据集成概念:是指合并和组合来自不同来源和格式的数据,以创建统一、无缝视图的过程[104, 105]。

整合来自程序、数据库和文件系统的数据会给这一过程带来挑战[106]。

整合数据的困难:大量数据来自不同来源,结构各异,且不断变化[107, 108]。

整合数据的挑战

  1. 连接记录
  2. 映射模式
  3. 融合数据 [109]
  4. 提取、组合和交换信息以创建全面综合视图等任务

数据集成是一种程序性机制,好处:

  1. 为组织内部用户使用和访问数据提供便利,提高可访问性,促进对信息的理解
  2. 防止任何潜在的丢失、确保数据的完整性和质量。
  3. 有助于将存储在单个数据源中的数据更改与多个额外数据源持续同步[111]。

现有工作:

  1. [114]:在工业物联网应用领域,提出了一种实时大数据集成解决方案,以解决物联网设备产生的数据异构问题。所提出的解决方案可管理多样化和异构存储库中的数据提取、处理和存储。
  2. [115]:提出了一种强调数据集成系统特征的方法,但没具体说明不同数据库之间的更新传播控制。使用了两种方法整合数据的解决方案:
    1. 基于全局数据模式,即使用统一模式整合多个数据库中的数据;
    2. 基于 “对等”网络概念,即通过对等网络传播更新。
  3. [116]:强调了数据迁移过程中的数据完整性,并介绍了分类查询语言(CQL),将其作为一种可理解的语言,用于数据传输和与复杂模式的交互。但未提及数据流集成。强调了合并异构数据集工具的必要性。
  4. [71]:提出了一个框架,可实现对物联网设备和传感器生成的数据进行监控,并将其与历史数据进行整合。方法以 SQL 为基础,旨在提高拥有不同数据模型的分布式数据存储库的可访问性和利用率。此外,该框架还能让用户将物联网(IoT)设备和传感器生成的数据与已有的历史数据集无缝合并,从而增强数据的可访问性和利用率。
  5. [117-121]:对数据整合的最新方法进行了调查,以解决大数据带来的问题。
  6. [122]:利用更先进的索引技术实时处理高速数据,使数据更易于分析是个挑战。
  7. [117]:提出了几个数据集成问题:
    1. 模式异构,当各种数据源使用不同的模式表示同一主题时,就会出现这种情况。
    2. 数据冲突,可能是由于数据不完整、数据不正确和过时的数据造成。
  8. [123]:利用人工智能技术自动合并来自许多来源(结构化或非结构化)的大量数据。旨在根据数据的元数据分析数据,以验证数据的相似性和可行的整合程度。采用了集成模块,其结构具有适应性,便于维护、部署和根据需要集成新的数据模型。

整合方法:包括数据仓库、数据映射和数据联盟[124]。数据仓库和数据联盟是两种主流方案[125]。

4.1 大数据仓库(BDW)

与数据仓库(DW)相比,大数据仓库(BDW)代表着一种进步。

BDW:一种已被采用的用于整合大数据源的方法。包括为转换和加载的多个来源的数据建立一个存储库。

    1. 优点:有助于将多个来源的数据整合到一个数据库中,便于访问和分析
    2. 为便于整合来自多个来源的异构数据:建立一个强大的分布式数据仓库平台。

传统DW:更适合于有组织的历史数据分析,难以进行横向扩展,因此要确保做到这一点颇具挑战性[128]。

实施 BDW 系统耗时且昂贵的原因是:需要仔细考虑以下几个方面:

  1. 数据建模
  2. 复杂的映射
  3. 复杂的转换程序

现有工作:

  1. [129, 130]:开发了一种定制 BDW 架构,旨在管理异构数据,实现有效的大数据处理。
  2. [131, 132]:BDWs 更容易横向发展,并能实时分析数据。
  3. [133]:提出了一种基于时空 BDW 的干旱数据管理架构。为了将数据加载到 Hadoop 系统中,并行使用了 Apache Flume,以加快数据摄取并提高整个系统的效率。
  4. [134]:提出了一种支持大数据分析的 BDW 架构,该架构能够自动或半自动地适应需求变化或数据扩展。
  5. [126]指出,以互补的方式利用 Hadoop、Apache Spark、Data Lake 和 Delta Lake 等大数据技术和工具,可有效增强和支持现有的 DW 系统。

这种集成不仅增强了可扩展性,还有助于降低传统 DW 架构的建设成本。

数据仓库的概念:是一种完善成熟的管理范式,得到了广泛认可方法论的支持。

大数据领域仍处于发展阶段,虽已有几种方法试图处理部分问题,但大数据的全面集成解决方案尚未完全实现。

4.2 大数据联盟(BDF)

大数据联盟是指:将分散在不同地点的数据源的数据进行组合和分析,以创建统一视图,从而进行高级分析和决策的过程[135]。

与将数据整合到一个地方的方法不同,BDF 的目的:将数据保留在其来源中,使其易于在这些来源之间进行探索和分析。

BDF适用场景:数据所有者关注隐私、安全和控制,BDF避免了存储的需要,而存储可能具有挑战性或不可取[136]。

BDF如何有效解决了访问不同数据源的难题:通过将不同数据源映射到 RDF(S)/OWL 本体或关系模式等单一模式中,允许在这种统一模式上运行 SPARQL 或 SQL 等查询 [135]。

现代数据管理系统通常包含:联合查询应答工具 [137]。

联合查询回答的主要目标:创建一种从数据源访问数据的一致方式,而无需在中央存储库中重复数据。

实现这一目标的方法:使用针对联盟内数据源的子查询,并根据预定义规则评估其结果。

跨异构大数据源的数据联盟 在研究和行业中 都是一个活跃的领域。然而,数据联盟系统仍然需要一个基础和既定原则[135]。

现有工作:

  1. [138] 基于本体的数据访问(OBDA):使用 Spark、Presto 和 OBDA 框架将数据源中的数据结合起来,这样就可以使用 SPARQL 进行查询,利用本体术语持续访问数据类型。
  2. [139] FEDSA,一种针对执法场景中的查询需求而设计的数据联合解决方案。有助于收集和探索信息。
  3. [140]:提出了一个框架,其重点是在物联网(IoT)背景下分析数据。这种方法考虑到了物联网系统网络,每个系统都有自己独特的数据模型。

5 DW 和 DF 方法的比较、分析和结论

5.1 BDW:

  1. 优点:

    1. 专为管理海量数据集而设计,可扩展性强,
    2. 可通过横向和纵向扩展选项来处理数据增长。
    3. 具有实时分析功能,有助于基于数据做出决策。
  2. 缺点

    1. 过程非常复杂,要求很高,
    2. 原因:它需要整合各种来源的数据、进行巨大的数据转换和建模,以确保数据完整性和稳健的管理,这需要付出巨大的努力和额外的实施成本。

5.2 BDF:

  1. 优点:

    1. 可以减少数据转换的需要
    2. 原因:可以从多个来源获取数据,创建一个虚拟的数据画面,而无需进行物理整合。由于它是虚拟的,不需要存储,因此可以降低基础设施的成本。
  2. 缺点:

    1. 执行需要从不同来源获取数据的查询时可能会遇到一些困难。

 

5.3 建议

企业需要:

  1. 根据各自的目标和预算限制,在这两种数据管理战略之间做出选择。
  2. 考虑所需的大数据类型,包括
    1. 基础设施要求
    2. 实时分析能力
    3. 可扩展性
    4. 集成性
    5. 复杂性
    6. 实施成本

相关文章:

文献翻译与阅读《Integration Approaches for Heterogeneous Big Data: A Survey》

CYBERNETICS AND INFORMATION TECHNOLOGIES’24 论文原文下载地址:原文下载 目录 1 引言 2 大数据概述 3 大数据的异构性 4 讨论整合方法 4.1 大数据仓库(BDW) 4.2 大数据联盟(BDF) 5 DW 和 DF 方法的比较、分…...

应用最优化方法及MATLAB实现——第3章代码实现

一、概述 在阅读最优方法及MATLAB实现后,想着将书中提供的代码自己手敲一遍,来提高自己对书中内容理解程度,巩固一下。 这部分内容主要针对第3章的内容,将其所有代码实现均手敲一遍,中间部分代码自己根据其公式有些许的…...

django的增删改查,排序,分组等常用的ORM操作

Django 的 ORM(对象关系映射)提供了一种方便的方式来与数据库进行交互。 1. Django模型 在 myapp/models.py 中定义一个示例模型:python from django.db import modelsclass Person(models.Model):name models.CharField(max_length100)age…...

Leetcode Java学习记录——树、二叉树、二叉搜索树

文章目录 树的定义树的遍历中序遍历代码 二叉搜索树 常见二维数据结构:树/图 树和图的区别就在于有没有环。 树的定义 public class TreeNode{public int val;public TreeNode left,right;public TreeNode(int val){this.val val;this.left null;this.right nu…...

华为HCIP Datacom H12-821 卷30

1.单选题 以下关于OSPF协议报文说法错误的是? A、OSPF报文采用UDP报文封装并且端口号是89 B、OSPF所有报文的头部格式相同 C、OSPF协议使用五种报文完成路由信息的传递 D、OSPF所有报文头部都携带了Router-ID字段 正确答案:A 解析: OSPF用IP报文直接封装协议报文,…...

element el-table实现表格动态增加/删除/编辑表格行,带校验规则

本篇文章记录el-table增加一行可编辑的数据列,进行增删改。 1.增加空白行 直接在页面mounted时对form里面的table列表增加一行数据,直接使用push() 方法增加一列数据这个时候也可以设置一些默认值。比如案例里面的 产品件数 。 mounted() {this.$nextTi…...

QT调节屏幕亮度

1、目标 利用QT实现调节屏幕亮度功能:在无屏幕无触控时,将屏幕亮度调低,若有触控则调到最亮。 2、调节亮度命令 目标装置使用嵌入式Linux系统,调节屏幕亮度的指令为: echo x > /sys/class/backlight/backlight/…...

实变函数精解【3】

文章目录 点集求导集 闭集参考文献 点集 求导集 例1 E { 1 / n 1 / m : n , m ∈ N } 1. lim ⁡ n → ∞ ( 1 / n 1 / m ) 1 / m 2. lim ⁡ n , m → ∞ ( 1 / n 1 / m ) 0 3. E ′ { 0 , 1 , 1 / 2 , 1 / 3 , . . . . } E\{1/n1/m:n,m \in N\} \\1.\lim_{n \rightar…...

JVM:SpringBoot TomcatEmbeddedWebappClassLoader

文章目录 一、介绍二、SpringBoot中TomcatEmbeddedWebappClassLoader与LaunchedURLClassLoader的关系 一、介绍 TomcatEmbeddedWebappClassLoader 是 Spring Boot 在其内嵌 Tomcat 容器中使用的一个类加载器(ClassLoader)。在 Spring Boot 应用中&#…...

蜂窝互联网接入:连接世界的无缝体验

通过Wi—Fi,人们可以方便地接入互联网,但无线局域网的覆盖范围通常只有10~100m。当我们携带笔记本电脑在外面四处移动时,并不是在所有地方都能找到可接入互联网的Wi—Fi热点,这时候蜂窝移动通信系统可以为我们提供广域…...

Sprint Boot 2 核心功能(一)

核心功能 1、配置文件 application.properties 同基础入门篇的application.properties用法一样 Spring Boot 2 入门基础 application.yaml(或application.yml) 基本语法 key: value;kv之间有空格大小写敏感使用缩进表示层级关系缩进不允…...

GitLab CI/CD实现项目自动化部署

1 GitLab CI/CD介绍 GitLab CI/CD 是 GitLab 中集成的一套用于软件开发的持续集成(Continuous Integration)、持续交付(Continuous Delivery)和持续部署(Continuous Deployment)工具。这套系统允许开发团队…...

阿里云调整全球布局关停澳洲云服务器,澳洲服务器市场如何选择稳定可靠的云服务?

近日,阿里云宣布将关停澳大利亚地域的数据中心服务,这一决定引发了全球云计算行业的广泛关注。作为阿里云的重要海外市场之一,澳洲的数据中心下架对于当地的企业和个人用户来说无疑是一个不小的挑战。那么,在阿里云调整全球布局的…...

排序(二)——快速排序(QuickSort)

欢迎来到繁星的CSDN,本期内容包括快速排序(QuickSort)的递归版本和非递归版本以及优化。 一、快速排序的来历 快速排序又称Hoare排序,由霍尔 (Sir Charles Antony Richard Hoare) ,一位英国计算机科学家发明。霍尔本人是在发现冒泡排序不够快…...

<数据集>穿越火线cf人物识别数据集<目标检测>

数据集格式:VOCYOLO格式 图片数量:3440张 标注数量(xml文件个数):3440 标注数量(txt文件个数):3440 标注类别数:1 标注类别名称:[person] 使用标注工具:labelImg 标注规则:对…...

a+=1和a=a+1的区别

文章目录 a1 和a a1的区别一、实例代码二、代码解释三、总结 a1 和a a1的区别 一、实例代码 public class Test {public static void main(String[] args) {byte a 10; // a a 1; // a (byte) (a 1);a 1;System.out.println(a);} }上面的对变量a进行加一操作时&a…...

设计模式使用场景实现示例及优缺点(结构型模式——桥接模式)

结构型模式 桥接模式(Bridge Pattern) 桥接模式(Bridge Pattern)是一种结构型设计模式,其主要目的是“将抽象与实现解耦,使得两者可以独立地变化”。这种模式通过提供抽象化和实现化之间的桥接结构&#…...

Spring——自动装配Bean

自动装配是Spring满足bean依赖的一种方式 Spring会在上下文中自动寻找,并自动给bean装配属性 在Spring中有三种装配的方式: 1. 在xml中显示配置 2. 在java中显示配置 3. 隐式的自动装配bean【重要】 测试 记得创建Cat、Dog、People类 public clas…...

云端典藏:iCloud中个人收藏品目录的智能存储方案

云端典藏:iCloud中个人收藏品目录的智能存储方案 在数字化生活不断推进的今天,个人收藏品的管理也趋向于电子化和云端化。iCloud作为苹果公司提供的云服务,为个人收藏品目录的存储和管理提供了一个安全、便捷、跨设备的解决方案。本文将详细…...

安全开发基础篇-数据溢出

上一节我们简单讲解了多语言的数据类型,我们只需要知道这个概念,并且在不同语言有不同的规矩就好。这节讲数据溢出,严格说应该是字符串溢出和整数溢出。 在软件开发中,字符串和整数溢出漏洞是常见的安全问题,它们可能…...

装饰模式(Decorator Pattern)重构java邮件发奖系统实战

前言 现在我们有个如下的需求,设计一个邮件发奖的小系统, 需求 1.数据验证 → 2. 敏感信息加密 → 3. 日志记录 → 4. 实际发送邮件 装饰器模式(Decorator Pattern)允许向一个现有的对象添加新的功能,同时又不改变其…...

RocketMQ延迟消息机制

两种延迟消息 RocketMQ中提供了两种延迟消息机制 指定固定的延迟级别 通过在Message中设定一个MessageDelayLevel参数,对应18个预设的延迟级别指定时间点的延迟级别 通过在Message中设定一个DeliverTimeMS指定一个Long类型表示的具体时间点。到了时间点后&#xf…...

【机器视觉】单目测距——运动结构恢复

ps:图是随便找的,为了凑个封面 前言 在前面对光流法进行进一步改进,希望将2D光流推广至3D场景流时,发现2D转3D过程中存在尺度歧义问题,需要补全摄像头拍摄图像中缺失的深度信息,否则解空间不收敛&#xf…...

【Go】3、Go语言进阶与依赖管理

前言 本系列文章参考自稀土掘金上的 【字节内部课】公开课,做自我学习总结整理。 Go语言并发编程 Go语言原生支持并发编程,它的核心机制是 Goroutine 协程、Channel 通道,并基于CSP(Communicating Sequential Processes&#xff0…...

OpenLayers 分屏对比(地图联动)

注:当前使用的是 ol 5.3.0 版本,天地图使用的key请到天地图官网申请,并替换为自己的key 地图分屏对比在WebGIS开发中是很常见的功能,和卷帘图层不一样的是,分屏对比是在各个地图中添加相同或者不同的图层进行对比查看。…...

学校时钟系统,标准考场时钟系统,AI亮相2025高考,赛思时钟系统为教育公平筑起“精准防线”

2025年#高考 将在近日拉开帷幕,#AI 监考一度冲上热搜。当AI深度融入高考,#时间同步 不再是辅助功能,而是决定AI监考系统成败的“生命线”。 AI亮相2025高考,40种异常行为0.5秒精准识别 2025年高考即将拉开帷幕,江西、…...

Netty从入门到进阶(二)

二、Netty入门 1. 概述 1.1 Netty是什么 Netty is an asynchronous event-driven network application framework for rapid development of maintainable high performance protocol servers & clients. Netty是一个异步的、基于事件驱动的网络应用框架,用于…...

在鸿蒙HarmonyOS 5中使用DevEco Studio实现企业微信功能

1. 开发环境准备 ​​安装DevEco Studio 3.1​​: 从华为开发者官网下载最新版DevEco Studio安装HarmonyOS 5.0 SDK ​​项目配置​​: // module.json5 {"module": {"requestPermissions": [{"name": "ohos.permis…...

【从零开始学习JVM | 第四篇】类加载器和双亲委派机制(高频面试题)

前言: 双亲委派机制对于面试这块来说非常重要,在实际开发中也是经常遇见需要打破双亲委派的需求,今天我们一起来探索一下什么是双亲委派机制,在此之前我们先介绍一下类的加载器。 目录 ​编辑 前言: 类加载器 1. …...

上位机开发过程中的设计模式体会(1):工厂方法模式、单例模式和生成器模式

简介 在我的 QT/C 开发工作中,合理运用设计模式极大地提高了代码的可维护性和可扩展性。本文将分享我在实际项目中应用的三种创造型模式:工厂方法模式、单例模式和生成器模式。 1. 工厂模式 (Factory Pattern) 应用场景 在我的 QT 项目中曾经有一个需…...