当前位置: 首页 > news >正文

如何处理多模态数据噪声不均衡动态?天大等最新《低质量数据的多模态融合》综述

图片

多模态融合致力于整合来自多种模态的信息,目的是实现更准确的预测。在包括自动驾驶和医疗诊断等广泛的场景中,多模态融合已取得显著进展。然而,在低质量数据环境下,多模态融合的可靠性大部分仍未被探索。本文综述了开放多模态融合面临的常见挑战和最新进展,并将它们呈现在一个全面的分类体系中。从数据中心的视角,我们确定了低质量数据上多模态融合面临的四个主要挑战,即(1)噪声多模态数据,它们被不同种类的噪声污染;(2)不完整的多模态数据,某些模态缺失;(3)不平衡的多模态数据,不同模态的质量或属性有显著差异;以及(4)质量变化的多模态数据,每种模态的质量会根据不同样本动态变化。这一新的分类体系将使研究人员能够理解该领域的现状,并识别出几个潜在的研究方向。我们还讨论了这一领域的开放问题以及有趣的未来研究方向。

图片

论文:https://arxiv.org/abs/2404.18947

我们对世界的感知基于多种模态,例如触觉、视觉、听觉、嗅觉和味觉。即使某些感官信号不可靠,人类也能从不完美的多模态输入中提取有用线索,并进一步拼凑出正在发生事件的整个场景【1】。随着感知技术的发展,我们可以轻松收集各种形式的数据进行分析。为了充分释放每种模式的价值,多模态融合作为一种有前景的范式出现,通过整合所有可用线索进行下游分析任务,以获得精确和可靠的预测,例如医学图像分析、自动驾驶车辆【2】【3】和情感识别【4】【5】【6】。直观地说,融合来自不同模式的信息提供了探索跨模态相关性并获得更好性能的可能性。然而,人们越来越认识到,广泛使用的AI模型常常被低质量数据中的假相关性和偏见所误导。在现实世界中,由于意外的环境因素或传感器问题,不同模态的质量通常存在差异。一些最近的研究实证和理论上表明,传统的多模态融合可能在野外的低质量多模态数据上失败,例如不平衡【7】【8】【9】【10】、噪声【11】或甚至损坏【12】的多模态数据。为了克服这一限制,并向实际应用中强大且通用的多模态学习迈进一步,我们确定了低质量多模态数据的特性,并专注于现实世界多模态机器融合的一些独特挑战。我们还强调了可能有助于使多模态融合在开放环境中更加可靠和值得信赖的技术进展。在本文中,我们识别并探索了围绕低质量多模态数据的多模态融合的四个核心技术挑战。它们总结如下(也在图1中直观展示): 

(1) 噪声多模态数据。第一个基本挑战是学习如何减轻多模态数据中任意噪声的潜在影响。高维多模态数据往往包含复杂的噪声。多模态数据的异质性使得识别和减少潜在噪声成为挑战,同时也提供了通过探索不同模态之间的相关性来识别和减少噪声的机会。

(2) 不完整的多模态数据。第二个基本挑战是如何学习带有部分缺失模态的多模态数据(即不完整的多模态数据)。例如,在医疗领域,即使是患有同一疾病的患者也可能选择不同的医疗检查,产生不完整的多模态数据。开发能够处理不完整多模态数据的灵活且可靠的多模态学习方法是一个具有挑战性但充满希望的研究方向。 

(3) 不平衡的多模态数据。第三个基本挑战是如何减轻模态间偏差和差异的影响。例如,视觉模态通常比听觉模态更有效,导致模型采取捷径且缺乏对音频的探索。尽管现有融合方法表现出有希望的性能,但它们可能无法在某些偏好特定模态的应用上比单模态主导模型表现更好。

(4) 质量动态变化的多模态数据。第四个基本挑战是如何适应多模态数据的质量动态变化性质。在实践中,由于不可预见的环境因素或传感器问题,一个模态的质量通常会因不同样本而变化。例如,在低光或逆光条件下,RGB图像的信息量不如热成像模态。因此,在实际应用中,意识到融合中的质量变化并动态整合多模态数据是必要的。 

为了应对这些日益重要的多模态融合问题,本研究系统地组织了通过几个分类体系的关键挑战。与以往讨论各种多模态学习任务【13】【14】的相关工作不同,这项综述主要关注多模态学习中最基本的问题以及在下游任务中低质量多模态数据所引起的独特挑战,包括聚类、分类、对象检测和语义分割。在以下部分中,我们通过最近的进展和多模态融合面临的技术挑战详细介绍了这一领域:在噪声多模态数据上的学习(第2节)、缺失模态插补(第3节)、平衡多模态融合(第4节)和动态多模态融合(第5节)。第6节提供了一个作为结论的讨论。

在噪声多模态数据上的学习

在现实世界场景中收集高质量的多模态数据不可避免地面临着由噪声带来的重大挑战。多模态数据【15】的噪声可能源于传感器错误【16】、环境干扰或传输损失。对于视觉模态,传感器中的电子噪声会导致细节丢失。此外,音频模态可能因环境因素受到意外的扭曲。更糟糕的是,弱对齐甚至未对齐的多模态样本也常见,这存在于更高级别的语义空间中。幸运的是,考虑多模态之间的相关性或更好地利用多模态数据可以帮助融合噪声多模态数据。各种相关工作【16】【17】【18】表明,多模态模型超越了它们的单模态对应物。这可以归因于多模态数据利用不同模态之间的相关性,识别和减轻潜在噪声的能力。

多模态噪声大致可以根据其来源分为两类:1) 模态特定噪声,来源于各个模态的传感器错误、环境因素或传输;2) 跨模态噪声,来源于未对齐的多模态对,可以被视为语义级别的噪声。

不完整多模态学习

在真实应用中收集的多模态数据常常不完整,某些样本的部分模态因意外因素(如设备损坏、数据传输和存储损失)而缺失。例如,在面向用户的推荐系统中,浏览行为历史和信用评分信息可能并不总是对某些用户可用【48】。同样地,虽然结合多种模态的数据,例如磁共振成像(MRI)扫描、正电子发射断层扫描(PET)和脑脊液(CSF)信息,可以为阿尔茨海默病提供更准确的诊断【49】【50】,但由于PET扫描的高测量成本和CSF的不适感侵入性测试,一些患者可能拒绝进行这些检查。因此,在阿尔茨海默病诊断中常见不完整的多模态数据【51】。通常,传统的多模态学习模型假设多模态数据的完整性,因此不能直接适用于部分模态缺失的情况。针对这一问题,旨在探索具有部分缺失模态的不完整多模态数据的信息的不完整多模态学习出现,并在近年来获得了越来越多的研究关注【52】。在本节中,我们主要关注不完整多模态学习研究的当前进展。从是否对缺失数据进行插补的角度来看,我们将现有方法分为两大类,包括基于插补的和无插补的不完整多模态学习,其中基于插补的方法进一步分为两组,如图2所示,包括实例和模态级别的插补。

平衡多模态学习

不同的模态之间紧密相关,因为它们从不同的视角描述同一概念。这一属性激发了多模态学习的兴盛,其中多种模态被整合,旨在增强对相关事件或对象的理解。然而,尽管存在自然的跨模态相关性,每种模态都有其独特的数据来源和形式。例如,音频数据通常表现为一维波形,而视觉数据则由像素组成的图像构成。一方面,这种差异赋予了每种模态不同的属性,如收敛速度,然后使得同时处理和学习所有模态变得困难,给联合多模态学习带来了难度。另一方面,这种差异也反映在单模态数据的质量上。尽管所有模态描述相同的概念,它们与目标事件或对象相关的信息量不同。例如,考虑一个标有会议的音视觉样本,视觉数据明显显示了会议的视觉内容,这很容易被识别(见图1c)。而相应的音频数据是嘈杂的街道汽车声,很难与会议标签建立联系。视觉模态的信息量显然比音频模态多。由于深度神经网络的贪婪本性【9】,多模态模型倾向于仅依赖具有充足与目标相关信息的高质量模态,同时对其他模态欠拟合。为了应对这些挑战并提高多模态模型的效能,最近的研究集中于策略上,以平衡模态之间的差异并增强模型的整体性能。

动态多模态融合

当前的多模态融合方法常基于一种假设,即多模态数据的质量是静态的,这在现实世界场景中并不总是成立的。处理具有动态变化质量的多模态数据是多模态智能系统不可避免的问题。由于意外的环境因素和传感器问题,一些模态可能会遭受可靠性差和丢失任务特定信息的问题。此外,不同模态的质量会根据场景动态变化,如图5所示。这一现象激发了一种新的多模态学习范式,即动态多模态融合,其目标是适应多模态数据质量的动态变化并有选择性地整合任务特定信息。在本节中,我们关注动态多模态融合的挑战,并将当前文献中的进展分类为三个主要方向,包括启发式、基于注意力和意识到不确定性的动态融合。

相关文章:

如何处理多模态数据噪声不均衡动态?天大等最新《低质量数据的多模态融合》综述

多模态融合致力于整合来自多种模态的信息,目的是实现更准确的预测。在包括自动驾驶和医疗诊断等广泛的场景中,多模态融合已取得显著进展。然而,在低质量数据环境下,多模态融合的可靠性大部分仍未被探索。本文综述了开放多模态融合…...

Autosar NvM配置-手动配置Nvblock及使用-基于ETAS软件

文章目录 前言NvDataInterfaceNvBlockNvM配置SWC配置RTE Mapping使用生成的接口操作NVM总结前言 NVM作为存储协议栈中最顶层的模块,是必须要掌握的。目前项目基本使用MCU带的Dflash模块,使用Fee模拟eeprom。在项目前期阶段,应该充分讨论需要存储的内容,包括应用数据,诊断…...

【c++算法篇】双指针(下)

🔥个人主页:Quitecoder 🔥专栏:算法笔记仓 朋友们大家好啊,本篇文章我们来到算法的双指针的第二部分 目录 1.有效三角形的个数2.查找总价格为目标值的两个商品3.三数之和4.四数之和5.双指针常见场景总结 1.有效三角形…...

微图乐 多种装B截图一键制作工具(仅供娱乐交流)

软件介绍 采用exe进程交互通信。全新UI界面,让界面更加清爽简约。支持zfb、VX、TX、Yin行、Dai款、游戏等图片生成,一键超清原图复制到剪辑板,分享给好友。适用于提高商家信誉度,产品销售额度。装逼娱乐,用微图乐。图…...

基于Springboot的点餐平台

基于SpringbootVue的点餐平台的设计与实现 开发语言:Java数据库:MySQL技术:SpringbootMybatis工具:IDEA、Maven、Navicat 系统展示 用户登录 首页展示 菜品信息 菜品资讯 购物车 后台登录 用户管理 菜品分类管理 菜品信息管理 …...

C# 获取一个字符串中非数字部分?

方法一:使用正则表达式 使用正则表达式可以便捷地匹配并提取出字符串中所有非数字字符。与之前保留数字时的做法相反,这次我们将匹配数字并替换为空字符串,从而留下非数字部分。 using System; using System.Text.RegularExpressions;publi…...

今日总结2024/5/7

今日复习LIS二分优化的使用 P2782 友好城市 确定一边城市排序完后&#xff0c;另外一边满足坐标上升的最大数目即是桥的最大个数 为上升子序列模型 #include <iostream> #include <algorithm> #include <utility> #define x first #define y second cons…...

爬虫学习(3)豆瓣电影

代码 import requests import jsonif __name__ "__main__":url https://movie.douban.com/j/chart/top_list#post请求参数处理&#xff08;同get请求一致&#xff09;headers {"User-Agent": Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/53…...

GNU Radio创建FFT、IFFT C++ OOT块

文章目录 前言一、GNU Radio官方FFT弊端二、创建自定义的 C OOT 块1、创建 OOT 模块2、创建 OOT 块3、修改 C 和 CMAKE 文件4、编译及安装 OOT 块 三、测试1、grc 图2、运行结果①、时域波形对比②、频谱图对比 四、资源自取 前言 GNU Radio 自带的 FFT 模块使用起来不是很方便…...

125.两两交换链表中的节点(力扣)

题目描述 代码解决及思路 /*** Definition for singly-linked list.* struct ListNode {* int val;* ListNode *next;* ListNode() : val(0), next(nullptr) {}* ListNode(int x) : val(x), next(nullptr) {}* ListNode(int x, ListNode *next) : val(x), …...

APP精准推送广告是怎么做到的?

你有没有遇到这种情况&#xff0c;刚和家人聊起五一去哪玩&#xff0c;各种软件就刷到各地旅游景点。刚和朋友说到健身计划&#xff0c;转眼间网购平台就给你推荐各种健身用品&#xff0c;这些软件是如何知道我们的需求&#xff0c;难道我们的手机被监听了&#xff1f;从技术上…...

RapidJSON介绍

1.简介 RapidJSON 是一个 C 的 JSON 解析库&#xff0c;由腾讯开源。 支持 SAX 和 DOM 风格的 API&#xff0c;并且可以解析、生成和查询 JSON 数据。RapidJSON 快。它的性能可与strlen() 相比。可支持 SSE2/SSE4.2 加速。RapidJSON 独立。它不依赖于 BOOST 等外部库。它甚至…...

大型企业总分支多区域数据传输,效率为先还是安全为先?

大型企业为了业务拓展需要&#xff0c;会在全国乃至全球各地设立分公司和办事机构&#xff0c;以便更好地处理当地事务&#xff0c;并进行市场的开拓和客户维护&#xff0c;此时&#xff0c;企业内部就衍生出了新的业务需求&#xff0c;即多区域数据传输。 多区域很难准确定义&…...

C语言例题35、反向输出字符串(指针方式),例如:输入abcde,输出edcba

#include <stdio.h>void reverse(char *p) {int len 0;while (*p ! \0) { //取得字符串长度p;len;}while (len > 0) { //反向打印到终端printf("%c", *--p);len--;} }int main() {char s[255];printf("请输入一个字符串&#xff1a;");gets(s)…...

场景文本检测识别学习 day09(Swin Transformer论文精读)

Patch & Window 在Swin Transformer中&#xff0c;不同层级的窗口内部的补丁数量是固定的&#xff0c;补丁内部的像素数量也是固定的&#xff0c;如上图的红色框就是不同的窗口&#xff08;Window&#xff09;&#xff0c;窗口内部的灰色框就是补丁&#xff08;Patch&#…...

抖音小店个人店和个体店有什么不同?区别问题,新手必须了解!

哈喽~我是电商月月 新手开抖音小店入驻时会发现&#xff0c;选择入驻形式时有三个选择&#xff0c;个人店&#xff0c;个体店和企业店 其中&#xff0c;个人店和个体店只差了一个字&#xff0c;但个人店不需要营业执照&#xff0c;是不是入驻时选择个人店会更好一点呢&#x…...

动态规划入门和应用示例

文章目录 前言斐波那契数列爬楼梯总结优点&#xff1a;缺点&#xff1a; 前言 动态规划&#xff08;Dynamic Programming&#xff0c;DP&#xff09;是运筹学的一个分支&#xff0c;是求解决策过程最优化的数学方法。它主要用于解决一类具有重叠子问题和最优子结构性质的问题。…...

【C语言】精品练习题

目录 题目一&#xff1a; 题目二&#xff1a; 题目三&#xff1a; 题目四&#xff1a; 题目五&#xff1a; 题目六&#xff1a; 题目七&#xff1a; 题目八&#xff1a; 题目九&#xff1a; 题目十&#xff1a; 题目十一&#xff1a; 题目十二&#xff1a; 题目十…...

数据库(MySQL)—— DML语句

数据库&#xff08;MySQL&#xff09;—— DML语句 什么是DML语句添加数据给全部字段添加数据批量添加数据 修改数据删除数据 什么是DML语句 在MySQL中&#xff0c;DML&#xff08;Data Manipulation Language&#xff0c;数据操纵语言&#xff09;语句主要用于对数据库中的数…...

【最大公约数 并集查找 调和级数】1998. 数组的最大公因数排序

本文涉及知识点 最大公约数 并集查找 调和级数 LeetCode1998. 数组的最大公因数排序 给你一个整数数组 nums &#xff0c;你可以在 nums 上执行下述操作 任意次 &#xff1a; 如果 gcd(nums[i], nums[j]) > 1 &#xff0c;交换 nums[i] 和 nums[j] 的位置。其中 gcd(nums…...

iOS实现一个高性能的跑马灯

效果图 该跑马灯完全通过CATextLayer 实现&#xff0c;轻量级&#xff0c;并且通过 系统的位移动画实现滚动效果&#xff0c;避免了使用displaylink造成的性能瓶颈&#xff0c;使用系统动画&#xff0c;系统自动做了很多性能优化&#xff0c;实现更好的性能&#xff0c;并使用…...

MySQL的视图、存储过程、触发器

视图 介绍 视图是一种虚拟存在的表。视图中的数据并不在数据库中实际存在&#xff0c;行和列数据来自定义视图的查询中使用的表&#xff0c;并且是在使用视图时动态生成的。通俗的讲&#xff0c;视图只保存了查询的SQL逻辑&#xff0c;不保存查询结果。所以我们在创建视图的时…...

【图像特征点匹配】

图像特征点匹配 图像特征点匹配是计算机视觉中的一项关键技术,它涉及在两个或多个图像之间寻找并匹配具有独特属性的点,这些点被称为特征点。 立体视觉:通过匹配同一场景的不同视角图像中的特征点,可以重建场景的三维结构。物体识别:通过匹配物体表面的特征点,可以识别和…...

GZIPOutputStream JSON压缩

一、背景 小王瞥了一眼历史记录表&#xff0c;不禁惊呼&#xff1a;“这表怎么这么大&#xff1f;”同事们闻声纷纷围拢过来查看。仔细一瞧&#xff0c;发现这个表的大小竟然超过了3G。主管随即指示小王打开相应的表数据检查&#xff0c;发现其中存储了用户的权限信息&#xf…...

毫米波雷达原理(含代码)(含ARS548 4D毫米波雷达数据demo和可视化视频)

毫米波雷达原理 1. 传统毫米波雷达1.1 雷达工作原理1.2 单目标距离估计1.3 单目标速度估计1.4 单目标角度估计1.5 多目标距离估计1.6 多目标速度估计1.7多目标角度估计1.7 总结 3. FMCW雷达数据处理算法4. 毫米波雷达的目标解析(含python代码)5. ARS548 4D毫米波雷达数据demo(含…...

3.1 Gateway之路由请求和转发

1.依赖坐标 <!--网关--><dependency><groupId>org.springframework.cloud</groupId><artifactId>spring-cloud-starter-gateway</artifactId></dependency><!--服务注册和发现--><dependency><groupId>com.alibab…...

人脸识别开源算法库和开源数据库

目录 1. 人脸识别开源算法库 1.1 OpenCV人脸识别模块 1.2 Dlib人脸识别模块 1.3 SeetaFace6 1.4 DeepFace 1.5 InsightFace 2. 人脸识别开源数据库 2.1 CelebA 2.2 LFW 2.3 MegaFace 2.4 Glint360K 2.5 WebFace260M 人脸识别 (Face Recognition) 是一种基于人的面部…...

Excel 中用于在一个范围中查找特定的值,并返回同一行中指定列的值 顺序不一样 可以处理吗

一、需求 Excel 中&#xff0c;在一列&#xff08;某范围内&#xff09;查找另一列特定的值&#xff0c;并返回同一行中另一指定列的值&#xff0c; 查找列和返回列的顺序不一样 二、 实现 1、下面是一个使用 INDEX 和 MATCH 函数的例子&#xff1a; 假设你有以下数据&…...

MySql-日期分组

一、分别统计各时间各类型数据条数 数据库的 request_time字段 数据类型&#xff1a;timestamp 默认值&#xff1a;CURRENT_TIMESTAMP 例子&#xff1a; 2024-01-26 08:25:48 原数据&#xff1a; 1、将数据按照日期&#xff08;年月日&#xff09;形式输出 按照request_…...

有哪些方法可以在运行时动态生成一个Java类?

使用 Java 反射 API&#x1f6a9;&#xff1a; Java 的反射 API 允许在运行时查询和操作类和对象。虽然反射 API 本身不直接提供生成新类的功能&#xff0c;但可以用于动态调用构造函数、方法和访问字段&#xff0c;这在某些情况下可以作为动态生成类的一部分。 字节码操作库&…...