当前位置: 首页 > news >正文

如何处理多模态数据噪声不均衡动态?天大等最新《低质量数据的多模态融合》综述

图片

多模态融合致力于整合来自多种模态的信息,目的是实现更准确的预测。在包括自动驾驶和医疗诊断等广泛的场景中,多模态融合已取得显著进展。然而,在低质量数据环境下,多模态融合的可靠性大部分仍未被探索。本文综述了开放多模态融合面临的常见挑战和最新进展,并将它们呈现在一个全面的分类体系中。从数据中心的视角,我们确定了低质量数据上多模态融合面临的四个主要挑战,即(1)噪声多模态数据,它们被不同种类的噪声污染;(2)不完整的多模态数据,某些模态缺失;(3)不平衡的多模态数据,不同模态的质量或属性有显著差异;以及(4)质量变化的多模态数据,每种模态的质量会根据不同样本动态变化。这一新的分类体系将使研究人员能够理解该领域的现状,并识别出几个潜在的研究方向。我们还讨论了这一领域的开放问题以及有趣的未来研究方向。

图片

论文:https://arxiv.org/abs/2404.18947

我们对世界的感知基于多种模态,例如触觉、视觉、听觉、嗅觉和味觉。即使某些感官信号不可靠,人类也能从不完美的多模态输入中提取有用线索,并进一步拼凑出正在发生事件的整个场景【1】。随着感知技术的发展,我们可以轻松收集各种形式的数据进行分析。为了充分释放每种模式的价值,多模态融合作为一种有前景的范式出现,通过整合所有可用线索进行下游分析任务,以获得精确和可靠的预测,例如医学图像分析、自动驾驶车辆【2】【3】和情感识别【4】【5】【6】。直观地说,融合来自不同模式的信息提供了探索跨模态相关性并获得更好性能的可能性。然而,人们越来越认识到,广泛使用的AI模型常常被低质量数据中的假相关性和偏见所误导。在现实世界中,由于意外的环境因素或传感器问题,不同模态的质量通常存在差异。一些最近的研究实证和理论上表明,传统的多模态融合可能在野外的低质量多模态数据上失败,例如不平衡【7】【8】【9】【10】、噪声【11】或甚至损坏【12】的多模态数据。为了克服这一限制,并向实际应用中强大且通用的多模态学习迈进一步,我们确定了低质量多模态数据的特性,并专注于现实世界多模态机器融合的一些独特挑战。我们还强调了可能有助于使多模态融合在开放环境中更加可靠和值得信赖的技术进展。在本文中,我们识别并探索了围绕低质量多模态数据的多模态融合的四个核心技术挑战。它们总结如下(也在图1中直观展示): 

(1) 噪声多模态数据。第一个基本挑战是学习如何减轻多模态数据中任意噪声的潜在影响。高维多模态数据往往包含复杂的噪声。多模态数据的异质性使得识别和减少潜在噪声成为挑战,同时也提供了通过探索不同模态之间的相关性来识别和减少噪声的机会。

(2) 不完整的多模态数据。第二个基本挑战是如何学习带有部分缺失模态的多模态数据(即不完整的多模态数据)。例如,在医疗领域,即使是患有同一疾病的患者也可能选择不同的医疗检查,产生不完整的多模态数据。开发能够处理不完整多模态数据的灵活且可靠的多模态学习方法是一个具有挑战性但充满希望的研究方向。 

(3) 不平衡的多模态数据。第三个基本挑战是如何减轻模态间偏差和差异的影响。例如,视觉模态通常比听觉模态更有效,导致模型采取捷径且缺乏对音频的探索。尽管现有融合方法表现出有希望的性能,但它们可能无法在某些偏好特定模态的应用上比单模态主导模型表现更好。

(4) 质量动态变化的多模态数据。第四个基本挑战是如何适应多模态数据的质量动态变化性质。在实践中,由于不可预见的环境因素或传感器问题,一个模态的质量通常会因不同样本而变化。例如,在低光或逆光条件下,RGB图像的信息量不如热成像模态。因此,在实际应用中,意识到融合中的质量变化并动态整合多模态数据是必要的。 

为了应对这些日益重要的多模态融合问题,本研究系统地组织了通过几个分类体系的关键挑战。与以往讨论各种多模态学习任务【13】【14】的相关工作不同,这项综述主要关注多模态学习中最基本的问题以及在下游任务中低质量多模态数据所引起的独特挑战,包括聚类、分类、对象检测和语义分割。在以下部分中,我们通过最近的进展和多模态融合面临的技术挑战详细介绍了这一领域:在噪声多模态数据上的学习(第2节)、缺失模态插补(第3节)、平衡多模态融合(第4节)和动态多模态融合(第5节)。第6节提供了一个作为结论的讨论。

在噪声多模态数据上的学习

在现实世界场景中收集高质量的多模态数据不可避免地面临着由噪声带来的重大挑战。多模态数据【15】的噪声可能源于传感器错误【16】、环境干扰或传输损失。对于视觉模态,传感器中的电子噪声会导致细节丢失。此外,音频模态可能因环境因素受到意外的扭曲。更糟糕的是,弱对齐甚至未对齐的多模态样本也常见,这存在于更高级别的语义空间中。幸运的是,考虑多模态之间的相关性或更好地利用多模态数据可以帮助融合噪声多模态数据。各种相关工作【16】【17】【18】表明,多模态模型超越了它们的单模态对应物。这可以归因于多模态数据利用不同模态之间的相关性,识别和减轻潜在噪声的能力。

多模态噪声大致可以根据其来源分为两类:1) 模态特定噪声,来源于各个模态的传感器错误、环境因素或传输;2) 跨模态噪声,来源于未对齐的多模态对,可以被视为语义级别的噪声。

不完整多模态学习

在真实应用中收集的多模态数据常常不完整,某些样本的部分模态因意外因素(如设备损坏、数据传输和存储损失)而缺失。例如,在面向用户的推荐系统中,浏览行为历史和信用评分信息可能并不总是对某些用户可用【48】。同样地,虽然结合多种模态的数据,例如磁共振成像(MRI)扫描、正电子发射断层扫描(PET)和脑脊液(CSF)信息,可以为阿尔茨海默病提供更准确的诊断【49】【50】,但由于PET扫描的高测量成本和CSF的不适感侵入性测试,一些患者可能拒绝进行这些检查。因此,在阿尔茨海默病诊断中常见不完整的多模态数据【51】。通常,传统的多模态学习模型假设多模态数据的完整性,因此不能直接适用于部分模态缺失的情况。针对这一问题,旨在探索具有部分缺失模态的不完整多模态数据的信息的不完整多模态学习出现,并在近年来获得了越来越多的研究关注【52】。在本节中,我们主要关注不完整多模态学习研究的当前进展。从是否对缺失数据进行插补的角度来看,我们将现有方法分为两大类,包括基于插补的和无插补的不完整多模态学习,其中基于插补的方法进一步分为两组,如图2所示,包括实例和模态级别的插补。

平衡多模态学习

不同的模态之间紧密相关,因为它们从不同的视角描述同一概念。这一属性激发了多模态学习的兴盛,其中多种模态被整合,旨在增强对相关事件或对象的理解。然而,尽管存在自然的跨模态相关性,每种模态都有其独特的数据来源和形式。例如,音频数据通常表现为一维波形,而视觉数据则由像素组成的图像构成。一方面,这种差异赋予了每种模态不同的属性,如收敛速度,然后使得同时处理和学习所有模态变得困难,给联合多模态学习带来了难度。另一方面,这种差异也反映在单模态数据的质量上。尽管所有模态描述相同的概念,它们与目标事件或对象相关的信息量不同。例如,考虑一个标有会议的音视觉样本,视觉数据明显显示了会议的视觉内容,这很容易被识别(见图1c)。而相应的音频数据是嘈杂的街道汽车声,很难与会议标签建立联系。视觉模态的信息量显然比音频模态多。由于深度神经网络的贪婪本性【9】,多模态模型倾向于仅依赖具有充足与目标相关信息的高质量模态,同时对其他模态欠拟合。为了应对这些挑战并提高多模态模型的效能,最近的研究集中于策略上,以平衡模态之间的差异并增强模型的整体性能。

动态多模态融合

当前的多模态融合方法常基于一种假设,即多模态数据的质量是静态的,这在现实世界场景中并不总是成立的。处理具有动态变化质量的多模态数据是多模态智能系统不可避免的问题。由于意外的环境因素和传感器问题,一些模态可能会遭受可靠性差和丢失任务特定信息的问题。此外,不同模态的质量会根据场景动态变化,如图5所示。这一现象激发了一种新的多模态学习范式,即动态多模态融合,其目标是适应多模态数据质量的动态变化并有选择性地整合任务特定信息。在本节中,我们关注动态多模态融合的挑战,并将当前文献中的进展分类为三个主要方向,包括启发式、基于注意力和意识到不确定性的动态融合。

相关文章:

如何处理多模态数据噪声不均衡动态?天大等最新《低质量数据的多模态融合》综述

多模态融合致力于整合来自多种模态的信息,目的是实现更准确的预测。在包括自动驾驶和医疗诊断等广泛的场景中,多模态融合已取得显著进展。然而,在低质量数据环境下,多模态融合的可靠性大部分仍未被探索。本文综述了开放多模态融合…...

Autosar NvM配置-手动配置Nvblock及使用-基于ETAS软件

文章目录 前言NvDataInterfaceNvBlockNvM配置SWC配置RTE Mapping使用生成的接口操作NVM总结前言 NVM作为存储协议栈中最顶层的模块,是必须要掌握的。目前项目基本使用MCU带的Dflash模块,使用Fee模拟eeprom。在项目前期阶段,应该充分讨论需要存储的内容,包括应用数据,诊断…...

【c++算法篇】双指针(下)

🔥个人主页:Quitecoder 🔥专栏:算法笔记仓 朋友们大家好啊,本篇文章我们来到算法的双指针的第二部分 目录 1.有效三角形的个数2.查找总价格为目标值的两个商品3.三数之和4.四数之和5.双指针常见场景总结 1.有效三角形…...

微图乐 多种装B截图一键制作工具(仅供娱乐交流)

软件介绍 采用exe进程交互通信。全新UI界面,让界面更加清爽简约。支持zfb、VX、TX、Yin行、Dai款、游戏等图片生成,一键超清原图复制到剪辑板,分享给好友。适用于提高商家信誉度,产品销售额度。装逼娱乐,用微图乐。图…...

基于Springboot的点餐平台

基于SpringbootVue的点餐平台的设计与实现 开发语言:Java数据库:MySQL技术:SpringbootMybatis工具:IDEA、Maven、Navicat 系统展示 用户登录 首页展示 菜品信息 菜品资讯 购物车 后台登录 用户管理 菜品分类管理 菜品信息管理 …...

C# 获取一个字符串中非数字部分?

方法一:使用正则表达式 使用正则表达式可以便捷地匹配并提取出字符串中所有非数字字符。与之前保留数字时的做法相反,这次我们将匹配数字并替换为空字符串,从而留下非数字部分。 using System; using System.Text.RegularExpressions;publi…...

今日总结2024/5/7

今日复习LIS二分优化的使用 P2782 友好城市 确定一边城市排序完后&#xff0c;另外一边满足坐标上升的最大数目即是桥的最大个数 为上升子序列模型 #include <iostream> #include <algorithm> #include <utility> #define x first #define y second cons…...

爬虫学习(3)豆瓣电影

代码 import requests import jsonif __name__ "__main__":url https://movie.douban.com/j/chart/top_list#post请求参数处理&#xff08;同get请求一致&#xff09;headers {"User-Agent": Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/53…...

GNU Radio创建FFT、IFFT C++ OOT块

文章目录 前言一、GNU Radio官方FFT弊端二、创建自定义的 C OOT 块1、创建 OOT 模块2、创建 OOT 块3、修改 C 和 CMAKE 文件4、编译及安装 OOT 块 三、测试1、grc 图2、运行结果①、时域波形对比②、频谱图对比 四、资源自取 前言 GNU Radio 自带的 FFT 模块使用起来不是很方便…...

125.两两交换链表中的节点(力扣)

题目描述 代码解决及思路 /*** Definition for singly-linked list.* struct ListNode {* int val;* ListNode *next;* ListNode() : val(0), next(nullptr) {}* ListNode(int x) : val(x), next(nullptr) {}* ListNode(int x, ListNode *next) : val(x), …...

APP精准推送广告是怎么做到的?

你有没有遇到这种情况&#xff0c;刚和家人聊起五一去哪玩&#xff0c;各种软件就刷到各地旅游景点。刚和朋友说到健身计划&#xff0c;转眼间网购平台就给你推荐各种健身用品&#xff0c;这些软件是如何知道我们的需求&#xff0c;难道我们的手机被监听了&#xff1f;从技术上…...

RapidJSON介绍

1.简介 RapidJSON 是一个 C 的 JSON 解析库&#xff0c;由腾讯开源。 支持 SAX 和 DOM 风格的 API&#xff0c;并且可以解析、生成和查询 JSON 数据。RapidJSON 快。它的性能可与strlen() 相比。可支持 SSE2/SSE4.2 加速。RapidJSON 独立。它不依赖于 BOOST 等外部库。它甚至…...

大型企业总分支多区域数据传输,效率为先还是安全为先?

大型企业为了业务拓展需要&#xff0c;会在全国乃至全球各地设立分公司和办事机构&#xff0c;以便更好地处理当地事务&#xff0c;并进行市场的开拓和客户维护&#xff0c;此时&#xff0c;企业内部就衍生出了新的业务需求&#xff0c;即多区域数据传输。 多区域很难准确定义&…...

C语言例题35、反向输出字符串(指针方式),例如:输入abcde,输出edcba

#include <stdio.h>void reverse(char *p) {int len 0;while (*p ! \0) { //取得字符串长度p;len;}while (len > 0) { //反向打印到终端printf("%c", *--p);len--;} }int main() {char s[255];printf("请输入一个字符串&#xff1a;");gets(s)…...

场景文本检测识别学习 day09(Swin Transformer论文精读)

Patch & Window 在Swin Transformer中&#xff0c;不同层级的窗口内部的补丁数量是固定的&#xff0c;补丁内部的像素数量也是固定的&#xff0c;如上图的红色框就是不同的窗口&#xff08;Window&#xff09;&#xff0c;窗口内部的灰色框就是补丁&#xff08;Patch&#…...

抖音小店个人店和个体店有什么不同?区别问题,新手必须了解!

哈喽~我是电商月月 新手开抖音小店入驻时会发现&#xff0c;选择入驻形式时有三个选择&#xff0c;个人店&#xff0c;个体店和企业店 其中&#xff0c;个人店和个体店只差了一个字&#xff0c;但个人店不需要营业执照&#xff0c;是不是入驻时选择个人店会更好一点呢&#x…...

动态规划入门和应用示例

文章目录 前言斐波那契数列爬楼梯总结优点&#xff1a;缺点&#xff1a; 前言 动态规划&#xff08;Dynamic Programming&#xff0c;DP&#xff09;是运筹学的一个分支&#xff0c;是求解决策过程最优化的数学方法。它主要用于解决一类具有重叠子问题和最优子结构性质的问题。…...

【C语言】精品练习题

目录 题目一&#xff1a; 题目二&#xff1a; 题目三&#xff1a; 题目四&#xff1a; 题目五&#xff1a; 题目六&#xff1a; 题目七&#xff1a; 题目八&#xff1a; 题目九&#xff1a; 题目十&#xff1a; 题目十一&#xff1a; 题目十二&#xff1a; 题目十…...

数据库(MySQL)—— DML语句

数据库&#xff08;MySQL&#xff09;—— DML语句 什么是DML语句添加数据给全部字段添加数据批量添加数据 修改数据删除数据 什么是DML语句 在MySQL中&#xff0c;DML&#xff08;Data Manipulation Language&#xff0c;数据操纵语言&#xff09;语句主要用于对数据库中的数…...

【最大公约数 并集查找 调和级数】1998. 数组的最大公因数排序

本文涉及知识点 最大公约数 并集查找 调和级数 LeetCode1998. 数组的最大公因数排序 给你一个整数数组 nums &#xff0c;你可以在 nums 上执行下述操作 任意次 &#xff1a; 如果 gcd(nums[i], nums[j]) > 1 &#xff0c;交换 nums[i] 和 nums[j] 的位置。其中 gcd(nums…...

《Qt C++ 与 OpenCV:解锁视频播放程序设计的奥秘》

引言:探索视频播放程序设计之旅 在当今数字化时代,多媒体应用已渗透到我们生活的方方面面,从日常的视频娱乐到专业的视频监控、视频会议系统,视频播放程序作为多媒体应用的核心组成部分,扮演着至关重要的角色。无论是在个人电脑、移动设备还是智能电视等平台上,用户都期望…...

大数据零基础学习day1之环境准备和大数据初步理解

学习大数据会使用到多台Linux服务器。 一、环境准备 1、VMware 基于VMware构建Linux虚拟机 是大数据从业者或者IT从业者的必备技能之一也是成本低廉的方案 所以VMware虚拟机方案是必须要学习的。 &#xff08;1&#xff09;设置网关 打开VMware虚拟机&#xff0c;点击编辑…...

鸿蒙中用HarmonyOS SDK应用服务 HarmonyOS5开发一个医院查看报告小程序

一、开发环境准备 ​​工具安装​​&#xff1a; 下载安装DevEco Studio 4.0&#xff08;支持HarmonyOS 5&#xff09;配置HarmonyOS SDK 5.0确保Node.js版本≥14 ​​项目初始化​​&#xff1a; ohpm init harmony/hospital-report-app 二、核心功能模块实现 1. 报告列表…...

Robots.txt 文件

什么是robots.txt&#xff1f; robots.txt 是一个位于网站根目录下的文本文件&#xff08;如&#xff1a;https://example.com/robots.txt&#xff09;&#xff0c;它用于指导网络爬虫&#xff08;如搜索引擎的蜘蛛程序&#xff09;如何抓取该网站的内容。这个文件遵循 Robots…...

使用 SymPy 进行向量和矩阵的高级操作

在科学计算和工程领域&#xff0c;向量和矩阵操作是解决问题的核心技能之一。Python 的 SymPy 库提供了强大的符号计算功能&#xff0c;能够高效地处理向量和矩阵的各种操作。本文将深入探讨如何使用 SymPy 进行向量和矩阵的创建、合并以及维度拓展等操作&#xff0c;并通过具体…...

Android第十三次面试总结(四大 组件基础)

Activity生命周期和四大启动模式详解 一、Activity 生命周期 Activity 的生命周期由一系列回调方法组成&#xff0c;用于管理其创建、可见性、焦点和销毁过程。以下是核心方法及其调用时机&#xff1a; ​onCreate()​​ ​调用时机​&#xff1a;Activity 首次创建时调用。​…...

R语言速释制剂QBD解决方案之三

本文是《Quality by Design for ANDAs: An Example for Immediate-Release Dosage Forms》第一个处方的R语言解决方案。 第一个处方研究评估原料药粒径分布、MCC/Lactose比例、崩解剂用量对制剂CQAs的影响。 第二处方研究用于理解颗粒外加硬脂酸镁和滑石粉对片剂质量和可生产…...

怎么让Comfyui导出的图像不包含工作流信息,

为了数据安全&#xff0c;让Comfyui导出的图像不包含工作流信息&#xff0c;导出的图像就不会拖到comfyui中加载出来工作流。 ComfyUI的目录下node.py 直接移除 pnginfo&#xff08;推荐&#xff09;​​ 在 save_images 方法中&#xff0c;​​删除或注释掉所有与 metadata …...

libfmt: 现代C++的格式化工具库介绍与酷炫功能

libfmt: 现代C的格式化工具库介绍与酷炫功能 libfmt 是一个开源的C格式化库&#xff0c;提供了高效、安全的文本格式化功能&#xff0c;是C20中引入的std::format的基础实现。它比传统的printf和iostream更安全、更灵活、性能更好。 基本介绍 主要特点 类型安全&#xff1a…...

6️⃣Go 语言中的哈希、加密与序列化:通往区块链世界的钥匙

Go 语言中的哈希、加密与序列化:通往区块链世界的钥匙 一、前言:离区块链还有多远? 区块链听起来可能遥不可及,似乎是只有密码学专家和资深工程师才能涉足的领域。但事实上,构建一个区块链的核心并不复杂,尤其当你已经掌握了一门系统编程语言,比如 Go。 要真正理解区…...