当前位置：首页 > news >正文

ER论文阅读-Incomplete Multimodality-Diffused Emotion Recognition

news 2025/7/7 19:24:36

基本介绍：NeurIPS, 2024, CCF-A

原文链接：https://proceedings.neurips.cc/paper_files/paper/2023/file/372cb7805eaccb2b7eed641271a30eec-Paper-Conference.pdf

Abstract

人类多模态情感识别（MER）旨在通过多种异质模态（如语言、视觉和音频）感知和理解人类情感。与单一模态相比，多模态中的互补信息有助于更稳健的情感理解。然而，在现实世界的场景中，模态缺失阻碍了多模态理解，导致MER性能下降。为了解决这一问题，本文提出了一种不完全多模态-扩散情感识别（IMDer）方法，以缓解不完全多模态下的MER挑战。为了恢复缺失的模态，IMDer利用基于分数的扩散模型，将输入的高斯噪声映射到缺失模态的期望分布空间，并根据其原始分布恢复缺失数据。特别地，为了减少缺失模态和恢复模态之间的语义歧义，现有的模态被嵌入为条件，以引导和优化基于扩散的恢复过程。与以往的工作相比，IMDer中的基于扩散的模态恢复机制能够同时实现分布一致性和语义消歧。恢复模态的特征可视化展示了模态特定分布的连续性和语义对齐。此外，定量实验结果验证了IMDer在各种模态缺失模式下取得了最新的MER准确率。

Introduction

受益于多模态数据的内在异质性，各种模态被用于多模态情感识别（MER）以从协同的角度理解人类的行为和意图。近年来，MER已成为情感计算领域最活跃的研究课题之一，具有诸多应用，如医疗保健和机器人技术。稳健的MER依赖于从多样化的模态中学习和结合表示。在之前的研究中，Zadeh等人设计了一个张量融合网络，该网络将配对的模态作为输入以编码双模态表示，随后融合生成三模态表示。Tsai等人提出了一种多模态Transformer，用于学习模态之间的潜在适应性和相关性。此后，各种先进的方法探索了多模态Transformer的不同变体，以构建稳健的MER框架。

然而，在现实世界的场景中，并非所有模态总是可用的，例如，语言数据可能由于语音识别错误而丢失；视频数据可能由于隐私和安全问题无法访问。这些不完整的多模态数据最终严重阻碍了MER的性能。对于不完全多模态下的MER，一种简单的方法是从现有模态中恢复缺失的模态。如图1（a）所示，便捷的模态恢复方法旨在通过设计良好的编码器-解码器框架，建立可用模态与缺失模态之间的映射来恢复缺失模态。

其中，赵等人结合了自动编码器与循环一致性学习进行模态恢复。Lian等人设计了一种图补全网络，利用图神经网络重构缺失部分。然而，这些早期方法未能明确考虑与每个模态的内在区分性高度相关的模态特定分布。例如，一张图像通过成千上万个像素展示了快乐面孔的视觉外观，而相应的文本则使用离散的词语描述了这一情感。

在本文中，我们旨在通过提出一种不完全多模态-扩散情感识别（IMDer）方法，挑战不完全多模态下的MER问题，如图1（b）所示。为了恢复缺失的模态，IMDer利用了流行的基于分数的扩散模型，该模型将输入的随机噪声映射到缺失模态的分布空间。特别地，基于分数的扩散模型通过随机微分方程（SDE）扰动数据来捕捉缺失模态的分布。在拥有足够数据和模型容量的情况下，我们能够通过解决逆时间SDE（即去噪过程），从先验噪声分布开始，利用训练良好的分数模型恢复分布一致的模态。

为了减少缺失模态与相应恢复模态之间的语义歧义，我们使用现有的可用模态作为语义条件，来引导和优化恢复过程。嵌入在可用模态中的信息促使IMDer同时实现分布一致性和语义消歧。最后，恢复的模态与现有的模态一起被输入到多模态融合和预测网络中，用于MER任务。总结而言，本研究的贡献如下：

为了应对不完全多模态下的MER挑战，我们提出了不完全多模态-扩散情感识别（IMDer）方法。IMDer将输入的随机噪声映射到缺失模态的分布空间，并根据其原始分布恢复缺失数据。
为了最大限度地减少缺失模态与恢复模态之间的语义歧义，我们利用可用模态作为先验条件，引导和优化恢复过程。这确保了恢复的模态在分布和语义上都保持一致。
我们在公开的MER数据集上进行了大量实验，在不同的模态缺失模式下均取得了优越或相当的结果。恢复模态的特征可视化表明了其分布一致性和语义对齐。

ER论文阅读-Incomplete Multimodality-Diffused Emotion Recognition

Abstract

Introduction

相关文章：

ER论文阅读-Incomplete Multimodality-Diffused Emotion Recognition

Matlab自学笔记36：日期时间型的概念、分类和创建方法

Spring Boot自定义配置项

【C++篇】C++类与对象深度解析（六）：全面剖析拷贝省略、RVO、NRVO优化策略

什么时候用synchronized，什么时候用Reentrantlock

[ffmpeg]音频格式转换

SSRF工具类-SsrfTool

python集合运算介绍及示例代码

『功能项目』按钮的打开关闭功能【73】

Linux 常用命令 - more 【分页显示文件内容】

Kotlin Android 环境搭建

常见协议及其默认使用的端口号

04-Docker常用命令

数字化转型中的供应链管理优化

【Python报错已解决】SyntaxError: invalid syntax

树上差分+lca 黑暗的锁链

opencv4.5.5 GPU版本编译

线性跟踪微分器TD详细测试(Simulink 算法框图+SCL完整源代码)

LabVIEW闪退

【WPF】03 动态生成控件

【kafka】Golang实现分布式Masscan任务调度系统

进程地址空间（比特课总结）

PPT|230页| 制造集团企业供应链端到端的数字化解决方案：从需求到结算的全链路业务闭环构建

【项目实战】通过多模态+LangGraph实现PPT生成助手

Java-41 深入浅出 Spring - 声明式事务的支持事务配置 XML模式 XML+注解模式

css的定位（position）详解：相对定位绝对定位固定定位

IT供电系统绝缘监测及故障定位解决方案

css3笔记（1）自用

Go 并发编程基础：通道（Channel）的使用

Caliper 配置文件解析：fisco-bcos.json