当前位置：首页 > news >正文

【IF-MMIN】利用模态不变性特征进行缺失模态的鲁棒多模态情感识别

news 2026/2/10 20:22:16

代码地址：github地址传送

文章是基于MMIN的改进 -> MMIN传送

abstract

多模态情感识别利用跨模态的互补信息来获得性能。然而，我们不能保证所有模式的数据总是存在于实践中。在跨模态数据缺失预测研究中，异质性模态之间的固有差异即模态差距是一个挑战。为了解决这个问题，我们提出在缺失模态想象网络（IF-MMIN）中使用不变特征，该网络包括两个新的机制：1)全模态场景下基于中心矩差异（CMD）距离的不变特征学习策略；2)利用基于不变特征的想象模块（IF-IM）来缓解缺失模态预测过程中的模态差距，从而提高多模态联合表示的鲁棒性。在IEMOCAP基准数据集上的综合实验表明，该模型优于所有基线，并在不确定缺失模态条件下不断提高整体情绪识别性能。

intro

缺失模态的多模态情感识别研究寻求在现实环境中进行情感识别[1,2]，其中一些数据可能由于摄像机遮挡，麦克风损坏等而丢失。模态缺失问题的主流解决方案可以概括为两类：

1)缺失数据生成[3-5]，

2)多模态联合表示学习[6,7]。

在[3]中，提出了一个编码器-解码器网络来生成。在[7]中，研究了一种基于循环一致性损失的翻译方法来学习模态之间的联合表示。在[1]中，研究了一种缺失模态想象网络（Missing Modality Imagination Network，简称MMIN），通过预测缺失模态来学习联合表征，该网络结合了上述两种方法。异构模态之间的模态差距[8 - 10]仍然是一个问题，它对情绪识别的准确性产生不利影响。问题是如何缩小这种形态差距。虽然模态有其独特的特征，但它们在语义空间中共享相同的信息。将模态不变特征引入到全模态数据的多模态情感识别中，取得了显著的效果。Hazarika等[8]提出了共享子空间来学习模态之间潜在的共性，以减少模态差距的影响。Liu等[11]提出了离散共享空间来捕获细粒度表示，以提高跨模态检索的准确性。所有的研究都表明，情态不变特征有效地弥补了情态差异。我们注意到，在缺失情态条件下，没有相关的情感识别工作。

在这项工作中，我们提出了一个具有不变特征的缺失模态想象网络（IF-MMIN）。具体来说，我们首先使用基于中心矩差异（CMD）距离[12]的约束训练策略来学习各种模态之间的模态不变特征。然后，我们设计了IF-MMIN神经结构，从可用模态中预测缺失模态的不变特征。

本工作的主要贡献有：

1)提出了一种基于cmd的距离约束训练方法来学习全模态间的模态不变性；

2)在跨模态想象过程中引入不变特征，减少模态差距的影响，增强多模态联合表示的鲁棒性；

3)在各种缺失模态条件下的实验结果表明，所提出的IF-MMIN在缺失模态情况下具有准确的情感识别性能

方法

提出的IF-MMIN方案首先在全模态信号下采用基于中心矩差异（CMD）距离的不变特征学习策略，学习模态特定特征和模态不变特征；在IF-MMIN训练过程中，IF-IM读取这两个特征，通过缺失模态想象学习鲁棒联合表示

CMD基于距离的不变特征学习

图1：基于中心矩差异（CMD）距离的不变性特征学习管道，包括特异性和不变性编码器以及分类器。红色箭头表示基于cmd的距离约束，以强制各种模态特征映射到相同的语义子空间。

如图所示，不变特征学习管道包括三个模块：特异性编码器、不变性编码器和分类器。特异性编码器旨在提取高级特征从原始特征来表示模态特定的特征。不变性编码器以模态特定特征作为输入，提取模态不变特征H，该特征由高级特征(Ha；高压;在所有形式中。最后，基于全连接层的分类器输入h和h的连接来预测情感类别。在修饰之后，我们将采用预训练的特异性和不变性编码器以及提出的IF-IM模块来构建IF-MMIN架构

Q：CMD是什么？距离约束体现在哪里？

A：CMD（中央矩差异）是一种用于衡量两个概率分布之间差异的距离度量方法。它通过比较两个分布的各阶中心矩，评估它们在统计特性上的差异，从而量化分布之间的距离。

CMD距离约束用于模态不变特征学习，其目的是通过最小化不同模态特征分布之间的差异，学习到模态不变的表示，使得模型在处理多模态数据时更加鲁棒。

对于每个模态，使用模态特异编码器提取高级特征，将所有模态的特异性特征输入模态不变性编码器，得到模态不变特征，接着，对于任意两个模态，计算它们的CMD损失，总的CMD损失为所有模态对之间CMD损失累加。

特异性和不变性编码器

如图1中蓝色块所示，特异性编码器由三个模块组成：声学、视觉和文本编码器，分别简称Enca、Encv和Enct。具体来说，利用LSTM[13]和max-pooling层从原始特征中提取出话语级声学特征。与具有类似的结构，读取原始特征并输出话语级视觉特征。采用了NLP领域的一种功率文本表示模型TextCNN[14]，从原始特征中提取出话语级文本特征。

不变性编码器如图1中绿色块所示，由全连接层、激活函数和dropout层组成。它的目的是映射特定于模态的特性利用基于cmd的距离约束策略（如图1中红色箭头所示）将其放入共享子空间中，获得高级特征。然后，我们将三个高级特征连接到模态不变特征H中。

基于cmd的距离约束

基于cmd的距离约束旨在减少高层特征之间的差异。请注意，CMD[12]是一种最先进的距离度量，它通过匹配两个特征的顺序矩差来测量两个特征分布之间的差异。我们确保模态不变表示可以通过最小化来学习：

其中E(H)是输入样本H的经验期望向量，是H坐标的所有k阶样本中心矩的向量。

Q：这个损失怎么理解？

A：E（H）计算的是特征H的期望向量，代表了一阶中心矩，Ck（H）代表的是特征H的第k阶中心矩向量，由公式计算得。

一阶中心矩的差异目的是测量不同模态间特征的平均值差异，对于每一对模态m1和m2，计算它们的特征向量的均值之差L2范数，并求和，系数1/3是用来平衡不同阶数中心矩对损失函数的贡献，防止高阶矩对损失函数的影响过大。

2阶及以上中心矩的差异目的是比较不同模态间的特征分布形状，如离散度、偏度和峰度等。对于每一对模态m1和m2，计算它们从第二阶到第k阶中心矩的差异的L2范数，并求和。阶数K的选择依赖于分析的深度，较大的K能够捕获更复杂的分布特性，但计算成本也更高。

IF-MMIN Training

(a)表示IF-MMIN的整体架构，蓝色锁表示其参数在IF-MMIN训练期间是固定的；(b)显示了模态不变特征感知想象模块的详细结构

IF-MMIN的整体架构如图2(a)所示，其中包括：

1)特异性编码器；

2)不变性编码器；

3)模态不变特征感知想象模块（简称IFIM）；

4)分类器。

假设全模态输入为。

特异性编码器需要，其中miss表示特定缺失的模态，作为提取模态特定特征的输入，然后将其连接为最终输出h。不变性编码器读取来预测模态不变特征，是高级特征。然后将h和融合到IF-IM中以预测缺失模态的特征。然后，将IF-IM的所有中间层的隐藏特征组合在一起作为联合表示C，如图2(b)所示，以预测最终的情绪类别o。为了确保IF-MMIN中模态不变特征预测和缺失模态想象过程的稳定性，在分类损失（Classification Loss, Lcls）的基础上增加想象损失（imagination Loss, Limg）和不变性损失（Invariance Loss, Linv）。请注意，专用性和不变性编码器的参数由2.1.1节中提到的相应模块初始化。

不变特征感知想象模块（IF-IM）

如图2(b)所示，IF-IM是用级联自编码器构建的，其中包括M个自编码器。与[1]不同的是，IF-IM同时读取。此外，是给予每个自编码器的级联输入，以辅助缺失的模态想象并缓解模态间隙问题。

每个自编码器记为。则每个自编码器的计算可定义为：

其中∆zi为第i个自编码器的输出。IF-IM的想象缺失模态可定义为：。

Q：他和MMIN想象模块有什么区别？

A：MMIN的想象模块：

区别在于IF-IM同时读取了h和H'，而MMIN只读取了h

虽然IF-IM和传统的MMIN都使用自编码器结构，IF-IM通过其独特的级联和累加策略，提供了对模态缺失更为精细和准确的处理方式。

损失函数

在IF-MMIN训练过程中，使用分类损失来监督具有情感类别目标的训练: 。更重要的是，想象损失用于最小化IF-IM输出与缺失模态的模态特定特征之间的距离：，而不变性损失旨在迫使全模态信号的预测模态不变特征与目标模态不变特征相互接近：。

实验与结果

我们在交互式情绪二元动作捕捉（IEMOCAP）数据集上验证了IF-MMIN[15]。接下来[1]，我们将IEMOCAP情绪标签处理为四类：快乐、愤怒、悲伤和中性。训练集/验证集/测试集的分割比例为8:1:1。

实验装置

具体编码器Enca和Encv的隐藏大小设置为128，Enct包含3个卷积块，内核大小分别为3、4、5，输出大小为128。不变性编码器Enc0输出的大小H为128。IF-IM由5个自动编码器组成，大小为384-256-128-64-128-256-384，其中隐藏向量大小为64。分类器包括3个完全连接的层，大小分别为{128,128,4}。由于的值比小得多（约1%），我们将λ1设为1，λ2设为100，以平衡数值差异，提升在总损失中的重要性。批大小为128，dropout rate为0.5。我们采用Adam优化器[18]，其动态学习率为0.0002，初始学习率为0.0002，并使用Lambda LR[19]更新学习率。

我们进行了所有实验，包括不变特征学习和IF-MMIN训练，并进行了10次交叉验证，其中每一次交叉验证包含40个epoch。为了证明模型的鲁棒性，我们将每个模型运行三次，以减轻参数随机初始化的影响。我们在验证集上选择最佳模型，并在测试集上报告其性能。所有模型都使用Pytorch深度学习工具包实现，并在单个NVIDIA Tesla P100显卡上运行。

对比实验

我们开发了三种多模态情绪识别系统进行比较研究。

1) MCTN[7]通过缺失模态和可用模态之间的循环转换来学习联合表示；

2) MMIN[1]是缺失模态问题的最先进模型，它通过自编码器和循环一致性学习，通过跨模态想象学习联合表示；

3) MMIN w/o cycle[1]去掉了MMIN的循环一致性学习部分，只保留了前向缺失模态想象过程，这与我们的IFMMIN相当

不确定缺失情态的主要结果

为了在不同的缺失模态测试条件下验证我们的IF-MMIN[1]，我们报告了加权精度（WA）[20]和非加权精度（UA）[21]的所有结果。

如表1的第2行到第5行所示，我们的IFMMIN在所有缺失模态测试条件下达到了最高的平均值。对于每个条件，IF-MMIN也优于所有基线，除了条件fag和fvg，其中它与最佳基线相当。可能的原因是文本模态比听觉和视觉模态包含更多的语义信息[22]。综上所述，所有结果表明，IF-MMIN可以学习稳健的多模态联合表示，通过引入模态不变特征来缓解模态差距，从而在不同的缺失模态测试条件下取得了显著的性能。

消融实验

IF-MMIN利用不变特征并添加不变性损失来增强缺失模态的想象，IF-IM采用级联输入的不变特征。

为了验证他们的贡献，我们进行了以下消融实验：

1)在IF-MMIN训练过程中，丢弃了Linv。

2) IF-MMIN w/o级联输入系统仅将作为IF-IM中第一个自编码器的输入，而不是每个自编码器的输入。

从表1的第5 ~ 7行可以看出，IF-MMIN在大多数情况下也优于IF-MMIN w/o Linv和IF-MMIN w/o级联输入，这证实了1)IF-MMIN的不变性编码器可以在Linv约束下准确预测不变性特征，从而更好地服务于IF-IM；2)级联输入可以提供自编码器各层工作时的先验知识，确实增强了IF-IM的想象能力。

可视化分析

不变特征学习的准确性是IF-MMIN正常工作的前提。因此，为了验证不变特征学习相关模块、的作用，我们对IF-MMIN进行了如下可视化实验。

不变性特征的可视化分析与Linv。

(a)为所有六种缺失模态条件下预测模态不变特征H’分布的t-SNE图。

(b)表示IF-MMIN训练过程中Linv的收敛轨迹。（x轴表示迭代次数，y轴表示损失值）。

我们使用t-SNE算法在二维平面上可视化六种缺失条件下的[23]，如图3(a)所示。我们从测试集中随机抽取600个句子，每个条件100个句子，提取600个不变特征H0。因此，有600点在

图3(a)，每种颜色100个点。观察到在各种条件下所有的H0在特征分布上都形成了一个清晰的聚类，这是令人鼓舞的。图3(b)为IF-MMIN训练过程中Linv的收敛轨迹，其中x轴表示历元，y轴表示损失值。图中光滑的曲线表明，H0和H在训练过程中非常接近，从而进一步证明了Linv的有效性。由于H是在Lcmd约束下学习的，所以也证明了Lcmd的有效性。

conclusion

本文研究了一种新的不变特征感知多模态情感识别模型（IF-MMIN），该模型包括基于cmd的基于距离的不变特征学习和不变特征感知缺失模态想象模块（IF-IM）。通过利用不变性特征，我们的IF-MMIN可以缓解模态差距，提高多模态联合表示的鲁棒性。在IEMOCAP上的实验结果表明，在各种缺失模态条件下，所提出的IF-MMIN优于初始基线。在未来的工作中，我们将探索进一步改进不变特征学习的方法。