【IF-MMIN】利用模态不变性特征进行缺失模态的鲁棒多模态情感识别
代码地址:github地址传送
文章是基于MMIN的改进 -> MMIN传送
abstract
多模态情感识别利用跨模态的互补信息来获得性能。然而,我们不能保证所有模式的数据总是存在于实践中。在跨模态数据缺失预测研究中,异质性模态之间的固有差异即模态差距是一个挑战。为了解决这个问题,我们提出在缺失模态想象网络(IF-MMIN)中使用不变特征,该网络包括两个新的机制:1)全模态场景下基于中心矩差异(CMD)距离的不变特征学习策略;2)利用基于不变特征的想象模块(IF-IM)来缓解缺失模态预测过程中的模态差距,从而提高多模态联合表示的鲁棒性。在IEMOCAP基准数据集上的综合实验表明,该模型优于所有基线,并在不确定缺失模态条件下不断提高整体情绪识别性能。
intro
缺失模态的多模态情感识别研究寻求在现实环境中进行情感识别[1,2],其中一些数据可能由于摄像机遮挡,麦克风损坏等而丢失。模态缺失问题的主流解决方案可以概括为两类:
1)缺失数据生成[3-5],
2)多模态联合表示学习[6,7]。
在[3]中,提出了一个编码器-解码器网络来生成。在[7]中,研究了一种基于循环一致性损失的翻译方法来学习模态之间的联合表示。在[1]中,研究了一种缺失模态想象网络(Missing Modality Imagination Network,简称MMIN),通过预测缺失模态来学习联合表征,该网络结合了上述两种方法。异构模态之间的模态差距[8 - 10]仍然是一个问题,它对情绪识别的准确性产生不利影响。问题是如何缩小这种形态差距。虽然模态有其独特的特征,但它们在语义空间中共享相同的信息。将模态不变特征引入到全模态数据的多模态情感识别中,取得了显著的效果。Hazarika等[8]提出了共享子空间来学习模态之间潜在的共性,以减少模态差距的影响。Liu等[11]提出了离散共享空间来捕获细粒度表示,以提高跨模态检索的准确性。所有的研究都表明,情态不变特征有效地弥补了情态差异。我们注意到,在缺失情态条件下,没有相关的情感识别工作。
在这项工作中,我们提出了一个具有不变特征的缺失模态想象网络(IF-MMIN)。具体来说,我们首先使用基于中心矩差异(CMD)距离[12]的约束训练策略来学习各种模态之间的模态不变特征。然后,我们设计了IF-MMIN神经结构,从可用模态中预测缺失模态的不变特征。
本工作的主要贡献有:
1)提出了一种基于cmd的距离约束训练方法来学习全模态间的模态不变性;
2)在跨模态想象过程中引入不变特征,减少模态差距的影响,增强多模态联合表示的鲁棒性;
3)在各种缺失模态条件下的实验结果表明,所提出的IF-MMIN在缺失模态情况下具有准确的情感识别性能
方法
提出的IF-MMIN方案首先在全模态信号下采用基于中心矩差异(CMD)距离的不变特征学习策略,学习模态特定特征和模态不变特征;在IF-MMIN训练过程中,IF-IM读取这两个特征,通过缺失模态想象学习鲁棒联合表示
CMD基于距离的不变特征学习
图1:基于中心矩差异(CMD)距离的不变性特征学习管道,包括特异性和不变性编码器以及分类器。红色箭头表示基于cmd的距离约束,以强制各种模态特征映射到相同的语义子空间。
如图所示,不变特征学习管道包括三个模块:特异性编码器、不变性编码器和分类器。特异性编码器旨在提取高级特征从原始特征
来表示模态特定的特征。不变性编码器以模态特定特征作为输入,提取模态不变特征H,该特征由高级特征(Ha;高压;在所有形式中。最后,基于全连接层的分类器输入h和h的连接来预测情感类别。在修饰之后,我们将采用预训练的特异性和不变性编码器以及提出的IF-IM模块来构建IF-MMIN架构
Q:CMD是什么?距离约束体现在哪里?
A:CMD(中央矩差异)是一种用于衡量两个概率分布之间差异的距离度量方法。它通过比较两个分布的各阶中心矩,评估它们在统计特性上的差异,从而量化分布之间的距离。
CMD距离约束用于模态不变特征学习,其目的是通过最小化不同模态特征分布之间的差异,学习到模态不变的表示,使得模型在处理多模态数据时更加鲁棒。
对于每个模态,使用模态特异编码器提取高级特征,将所有模态的特异性特征输入模态不变性编码器,得到模态不变特征,接着,对于任意两个模态,计算它们的CMD损失,总的CMD损失为所有模态对之间CMD损失累加。
特异性和不变性编码器
如图1中蓝色块所示,特异性编码器由三个模块组成:声学、视觉和文本编码器,分别简称Enca、Encv和Enct。具体来说,利用LSTM[13]和max-pooling层从原始特征
中提取出话语级声学特征
。
与
具有类似的结构,读取原始特征
并输出话语级视觉特征
。
采用了NLP领域的一种功率文本表示模型TextCNN[14],从原始特征
中提取出话语级文本特征
。
不变性编码器如图1中绿色块所示,由全连接层、激活函数和dropout层组成。它的目的是映射特定于模态的特性
利用基于cmd的距离约束策略(如图1中红色箭头所示)将其放入共享子空间中,获得高级特征
。然后,我们将三个高级特征连接到模态不变特征H中。
基于cmd的距离约束
基于cmd的距离约束旨在减少高层特征之间的差异。请注意,CMD[12]是一种最先进的距离度量,它通过匹配两个特征的顺序矩差来测量两个特征分布之间的差异。我们确保模态不变表示可以通过最小化
来学习:
其中E(H)是输入样本H的经验期望向量,是H坐标的所有k阶样本中心矩的向量。
Q:这个损失怎么理解?
A:E(H)计算的是特征H的期望向量,代表了一阶中心矩,Ck(H)代表的是特征H的第k阶中心矩向量,由公式
计算得。
一阶中心矩的差异目的是测量不同模态间特征的平均值差异,对于每一对模态m1和m2,计算它们的特征向量的均值之差L2范数,并求和,系数1/3是用来平衡不同阶数中心矩对损失函数的贡献,防止高阶矩对损失函数的影响过大。
2阶及以上中心矩的差异目的是比较不同模态间的特征分布形状,如离散度、偏度和峰度等。对于每一对模态m1和m2,计算它们从第二阶到第k阶中心矩的差异的L2范数,并求和。阶数K的选择依赖于分析的深度,较大的K能够捕获更复杂的分布特性,但计算成本也更高。
IF-MMIN Training
(a)表示IF-MMIN的整体架构,蓝色锁表示其参数在IF-MMIN训练期间是固定的;(b)显示了模态不变特征感知想象模块的详细结构
IF-MMIN的整体架构如图2(a)所示,其中包括:
1)特异性编码器;
2)不变性编码器;
3)模态不变特征感知想象模块(简称IFIM);
4)分类器。
假设全模态输入为。
特异性编码器需要,其中miss表示特定缺失的模态,作为提取模态特定特征的输入
,然后将其连接为最终输出h。不变性编码器读取
来预测模态不变特征
,
是高级特征
。然后将h和
融合到IF-IM中以预测缺失模态的特征。然后,将IF-IM的所有中间层的隐藏特征组合在一起作为联合表示C,如图2(b)所示,以预测最终的情绪类别o。为了确保IF-MMIN中模态不变特征预测和缺失模态想象过程的稳定性,在分类损失(Classification Loss, Lcls)的基础上增加想象损失(imagination Loss, Limg)和不变性损失(Invariance Loss, Linv)。请注意,专用性和不变性编码器的参数由2.1.1节中提到的相应模块初始化。
不变特征感知想象模块(IF-IM)
如图2(b)所示,IF-IM是用级联自编码器构建的,其中包括M个自编码器。与[1]不同的是,IF-IM同时读取。此外,
是给予每个自编码器的级联输入,以辅助缺失的模态想象并缓解模态间隙问题。
每个自编码器记为。则每个自编码器的计算可定义为:
其中∆zi为第i个自编码器的输出。IF-IM的想象缺失模态可定义为:
。
Q:他和MMIN想象模块有什么区别?
A:MMIN的想象模块:
区别在于IF-IM同时读取了h和H',而MMIN只读取了h
虽然IF-IM和传统的MMIN都使用自编码器结构,IF-IM通过其独特的级联和累加策略,提供了对模态缺失更为精细和准确的处理方式。
损失函数
在IF-MMIN训练过程中,使用分类损失来监督具有情感类别目标的训练
:
。更重要的是,想象损失
用于最小化IF-IM输出
与缺失模态的模态特定特征
之间的距离:
,而不变性损失
旨在迫使全模态信号的预测模态不变特征
与目标模态不变特征
相互接近:
。
实验与结果
我们在交互式情绪二元动作捕捉(IEMOCAP)数据集上验证了IF-MMIN[15]。接下来[1],我们将IEMOCAP情绪标签处理为四类:快乐、愤怒、悲伤和中性。训练集/验证集/测试集的分割比例为8:1:1。
实验装置
具体编码器Enca和Encv的隐藏大小设置为128,Enct包含3个卷积块,内核大小分别为3、4、5,输出大小为128。不变性编码器Enc0输出的大小H为128。IF-IM由5个自动编码器组成,大小为384-256-128-64-128-256-384,其中隐藏向量大小为64。分类器包括3个完全连接的层,大小分别为{128,128,4}。由于的值比
小得多(约1%),我们将λ1设为1,λ2设为100,以平衡数值差异,提升
在总损失中的重要性。批大小为128,dropout rate为0.5。我们采用Adam优化器[18],其动态学习率为0.0002,初始学习率为0.0002,并使用Lambda LR[19]更新学习率。
我们进行了所有实验,包括不变特征学习和IF-MMIN训练,并进行了10次交叉验证,其中每一次交叉验证包含40个epoch。为了证明模型的鲁棒性,我们将每个模型运行三次,以减轻参数随机初始化的影响。我们在验证集上选择最佳模型,并在测试集上报告其性能。所有模型都使用Pytorch深度学习工具包实现,并在单个NVIDIA Tesla P100显卡上运行。
对比实验
我们开发了三种多模态情绪识别系统进行比较研究。
1) MCTN[7]通过缺失模态和可用模态之间的循环转换来学习联合表示;
2) MMIN[1]是缺失模态问题的最先进模型,它通过自编码器和循环一致性学习,通过跨模态想象学习联合表示;
3) MMIN w/o cycle[1]去掉了MMIN的循环一致性学习部分,只保留了前向缺失模态想象过程,这与我们的IFMMIN相当
不确定缺失情态的主要结果
为了在不同的缺失模态测试条件下验证我们的IF-MMIN[1],我们报告了加权精度(WA)[20]和非加权精度(UA)[21]的所有结果。
如表1的第2行到第5行所示,我们的IFMMIN在所有缺失模态测试条件下达到了最高的平均值。对于每个条件,IF-MMIN也优于所有基线,除了条件fag和fvg,其中它与最佳基线相当。可能的原因是文本模态比听觉和视觉模态包含更多的语义信息[22]。综上所述,所有结果表明,IF-MMIN可以学习稳健的多模态联合表示,通过引入模态不变特征来缓解模态差距,从而在不同的缺失模态测试条件下取得了显著的性能。
消融实验
IF-MMIN利用不变特征并添加不变性损失
来增强缺失模态的想象,IF-IM采用级联输入的不变特征
。
为了验证他们的贡献,我们进行了以下消融实验:
1)在IF-MMIN训练过程中,丢弃了Linv。
2) IF-MMIN w/o级联输入系统仅将作为IF-IM中第一个自编码器的输入,而不是每个自编码器的输入。
从表1的第5 ~ 7行可以看出,IF-MMIN在大多数情况下也优于IF-MMIN w/o Linv和IF-MMIN w/o级联输入,这证实了1)IF-MMIN的不变性编码器可以在Linv约束下准确预测不变性特征,从而更好地服务于IF-IM;2)级联输入可以提供自编码器各层工作时的先验知识,确实增强了IF-IM的想象能力。
可视化分析
不变特征学习的准确性是IF-MMIN正常工作的前提。因此,为了验证不变特征学习相关模块、
的作用,我们对IF-MMIN进行了如下可视化实验。
不变性特征的可视化分析与Linv。
(a)为所有六种缺失模态条件下预测模态不变特征H’分布的t-SNE图。
(b)表示IF-MMIN训练过程中Linv的收敛轨迹。(x轴表示迭代次数,y轴表示损失值)。
我们使用t-SNE算法在二维平面上可视化六种缺失条件下的[23],如图3(a)所示。我们从测试集中随机抽取600个句子,每个条件100个句子,提取600个不变特征H0。因此,有600点在
图3(a),每种颜色100个点。观察到在各种条件下所有的H0在特征分布上都形成了一个清晰的聚类,这是令人鼓舞的。图3(b)为IF-MMIN训练过程中Linv的收敛轨迹,其中x轴表示历元,y轴表示损失值。图中光滑的曲线表明,H0和H在训练过程中非常接近,从而进一步证明了Linv的有效性。由于H是在Lcmd约束下学习的,所以也证明了Lcmd的有效性。
conclusion
本文研究了一种新的不变特征感知多模态情感识别模型(IF-MMIN),该模型包括基于cmd的基于距离的不变特征学习和不变特征感知缺失模态想象模块(IF-IM)。通过利用不变性特征,我们的IF-MMIN可以缓解模态差距,提高多模态联合表示的鲁棒性。在IEMOCAP上的实验结果表明,在各种缺失模态条件下,所提出的IF-MMIN优于初始基线。在未来的工作中,我们将探索进一步改进不变特征学习的方法。
相关文章:

【IF-MMIN】利用模态不变性特征进行缺失模态的鲁棒多模态情感识别
代码地址:github地址传送 文章是基于MMIN的改进 -> MMIN传送 abstract 多模态情感识别利用跨模态的互补信息来获得性能。然而,我们不能保证所有模式的数据总是存在于实践中。在跨模态数据缺失预测研究中,异质性模态之间的固有差异即模态…...

RGB图像,排列方式NHWC适合CPU计算,NCHW适合GPU计算
之前写过笔记OpenCV读取图像时按照BGR的顺序HWC排列,PyTorch按照RGB的顺序CHW排列,HWC格式排列,那么内存位置计算公式是? 在比较NHWC(channels_last)和NCHW(channels_first)这两种图像数据通道格式的效率时…...

布朗运动
内容来源 数理金融初步(原书第3版)Sheldon M. Ross著 冉启康译 机械工业出版社 布朗运动 定义 如果随机变量集合 X ( t ) X(t) X(t) 满足以下条件 X ( 0 ) X(0) X(0) 是一个给定的常数 对所有正数 y y y 和 t t t,随机变量 X ( y t …...

WPF+MVVM案例实战(二十二)- 制作一个侧边弹窗栏(CD类)
文章目录 1、案例效果1、侧边栏分类2、CD类侧边弹窗实现1、样式代码实现2、功能代码实现3 运行效果4、源代码获取1、案例效果 1、侧边栏分类 A类 :左侧弹出侧边栏B类 :右侧弹出侧边栏C类 :顶部弹出侧边栏D类 :底部弹出侧边栏2、CD类侧边弹窗实现 1、样式代码实现 在原有的…...

集成旺店通旗舰版售后单至MySQL数据库
旺店通旗舰版-售后单集成到MySQL的技术实现 在数据驱动的业务环境中,如何高效、准确地将旺店通旗舰奇门的数据集成到MySQL数据库,是许多企业面临的重要挑战。本文将分享一个具体的系统对接案例:旺店通旗舰版-售后单-->BI泰海-售后订单表(…...

【Linux】从零开始使用多路转接IO --- epoll
当你偶尔发现语言变得无力时, 不妨安静下来, 让沉默替你发声。 --- 里则林 --- 从零开始认识多路转接 1 epoll的作用和定位2 epoll 的接口3 epoll工作原理4 实现epollserverV1 1 epoll的作用和定位 之前提过的多路转接方案select和poll 都有致命缺点…...

爬虫学习4
from threading import Thread#创建任务 def func(name):for i in range(100):print(name,i)if __name__ __main__:#创建线程t1 Thread(targetfunc,args("1"))t2 Thread(targetfunc, args("2"))t1.start()t2.start()print("我是诛仙剑")from …...

CTF之web题集详情随手笔记
《Web安全》http://mp.weixin.qq.com/s?__bizMzkwNjY1Mzc0Nw&mid2247484238&idx1&snca66551c31e37b8d726f151265fc9211&chksmc0e47a12f793f3049fefde6e9ebe9ec4e2c7626b8594511bd314783719c216bd9929962a71e6&scene21#wechat_redirect 1 WEB 1 靶场目…...

TDengine 集群能力:超越 InfluxDB 的水平扩展与开源优势
随着物联网、车联网等领域的快速发展,企业所面临的数据采集量呈爆炸式增长,这对 IT 基础设施和数据库提出了严峻挑战。传统单机版数据库逐渐无法应对高并发的数据写入和复杂的查询需求。因此,底层数据库必须具备水平扩展能力,以确…...

MATCH_DIRECT_BOOT_AWARE和MATCH_DIRECT_BOOT_UNAWARE
PackageManager.MATCH_DIRECT_BOOT_AWARE和PackageManager.MATCH_DIRECT_BOOT_UNAWARE 在Android系统中,PackageManager类提供了一些标志位,用于控制查询系统中的应用和组件时的行为。其中,MATCH_DIRECT_BOOT_AWARE和MATCH_DIRECT_BOOT_UNAWA…...

LabVIEW离心泵性能优化测试系统
开发了一套基于LabVIEW平台开发的离心泵性能优化测试系统。系统集成了数据采集、流量控制、数据存储、报表生成等功能,提供了低成本、便捷操作的解决方案,适用于工业场景中对离心泵性能的精确测评。 项目背景 随着工业化进程的加速,离心泵在…...

token和jwt区别
Token 和 JSON Web Token (JWT) 都是用于身份验证和授权的技术,但它们之间有一些重要的区别。下面是它们的主要区别和各自的特性: 1. 概念上的区别 Token: 广义概念:Token 是一个通用术语,指的是任何形式的令牌,用于在客户端和服务器之间传递身份验证和授权信息。实现方…...

新闻稿件管理:SpringBoot框架实战指南
3系统分析 3.1可行性分析 通过对本新闻稿件管理系统实行的目的初步调查和分析,提出可行性方案并对其一一进行论证。我们在这里主要从技术可行性、经济可行性、操作可行性等方面进行分析。 3.1.1技术可行性 本新闻稿件管理系统采用SSM框架,JAVA作为开发语…...

AI运动小程序开发常见问题集锦二
截止到现在写博文时,我们的AI运动识别小程序插件已经迭代了23个版本,成功应用于健身、体育、体测、AR互动等场景;为了让正在集成或者计划进行功能扩展优化的用户,少走弯路、投入更少的开发资源,针对近期的咨询问题&…...

nginx安装
下载地址 https://nginx.org/en/download.html选择 把下载好的压缩包放在 解压 tar -zxf nginx-1.27.2.tar.gz下载 yum install -y gcc-c pcre pcre-devel zlib zlib-devel openssl openssl-devel ./configuremake&&make install这样表示安装成功 接下去启动nginx…...

【Linux驱动开发】内核定时器的配置和使用
【Linux驱动开发】内核定时器的配置和使用 文章目录 Linux内核时钟定时器调用方式延时函数 应用附录:嵌入式Linux驱动开发基本步骤开发环境驱动文件编译驱动安装驱动自动创建设备节点文件 驱动开发驱动设备号地址映射,虚拟内存和硬件内存地址字符驱动旧…...

Kubernetes架构及核心组件
一、基本架构 Kubernetes集群可以被看作是一个工厂,而各个组件则是这个工厂里的不同部门: Kubernetes API服务器:就像是这个工厂的总经理,负责接收所有的请求并将它们分配给相应的部门进行处理。 etcd:就像是这个工厂的记事本,负责记录所有的配置信息和状态信息,以便其…...

Fastflow工作流系统源码
可视化工作流程审批插件,作为一款高效的企业管理工具,其核心价值在于帮助用户根据企业独特的业务模式和管理模式,灵活自定义所需的各种流程应用。这一功能极大地提升了企业的自主性和灵活性,使得企业能够迅速构建出贴合自身运营需…...

小林渗透入门:burpsuite+proxifier抓取小程序流量
目录 前提: 代理: proxifier: 步骤: bp证书安装 bp设置代理端口: proxifier设置规则: proxifier应用规则: 结果: 前提: 在介绍这两个工具具体实现方法之前࿰…...

AiPPT - 全智能 AI 一键生成 PPT
一、产品介绍 AiPPT是一款基于人工智能技术的智能演示文稿制作工具。它结合了先进的AI算法与用户友好的界面设计,旨在帮助用户快速、高效地创建出专业且富有吸引力的PPT演示文稿。AiPPT不仅能够自动排版、优化内容布局,还能根据用户输入的关键词或主题&…...

React 前端使用 Input 输入框的样式上传一个 Excel 文件并读取内容对象数组
本文讲解了关于如何在 React 前端使用 Input 输入框上传一个 Excel 文件,并读取文件内容转成 json 数据格式(对象数组)。 文章目录 1、Excel 文件展示2、完整代码3、数据结果展示4、前端样式展示5、使用 button 按钮的前端样式 1、Excel 文件…...

【测试工具】Fastbot 客户端稳定性测试
背景 做这个主要为了发版之前提前发现崩溃,风险前置。适合客户端很重的业务。 优点:你不改动也能用, 维护成本不高。 缺点:容易进入H5页面无法返回,效果有限。 备注:我这边接手别人维护,公司…...

软件测试学习笔记丨Vue常用指令-输入绑定(v-model)
本文转自测试人社区,原文链接:https://ceshiren.com/t/topic/23461 指令 指令是将一些特殊行为应用到页面DOM元素的特殊属性 格式都是以v-开始的,例如: v-model:双向绑定v-if和v-else:元素是否存在v-sho…...

C#、C和C++的主要区别
C#和C的区别在于:C#代码首先会被编译为CLR(公共语言运行库),然后由.NET框架解析;它是在虚拟机上执行,会自动进行内存管理,不支持使用指针。C将会直接被编译为机器代码&am…...

我们来学mysql -- 连接(原理版)
我们来学mysql -- 连接 题记两张表驱动表 题记 回到初学者的视角,navicat或命令窗口,呈现一行行数据,类比为excel工作薄更是深入人心通过join将多表的记录关联起来,这似乎也没啥问题只是好像是那么回事,又…似乎有想说…...

PyQt5的安装与简介
目录 一、介绍 二、PyQt5的安装 1、安装PyQt5 2、安装Qt的工具包 三、配置Qt工具 1、配置Designer (1)、打开pycharm,找到设置选项 (2)、找到工具-->外部工具 (3)、点击号,创建外部工…...

100种算法【Python版】第43篇——优化算法之模拟退火算法
本文目录 1 算法说明2 算法示例:Rosenbrock函数极值3 算法应用1:复杂函数极值4 算法应用2:TSP问题1 算法说明 模拟退火(Simulated Annealing, SA)算法最早由斯图尔特西尔伯特和约瑟夫斯图尔特于1983年提出,灵感来源于金属退火过程。金属在加热后会变得更加柔软,冷却时逐…...

初识动态规划(由浅入深)
🤓 动态规划入门与进阶指南 📘 动态规划(Dynamic Programming, DP)是一种非常经典的📐算法方法,特别适合用来解决那些有大量重复计算的问题🌀。它可以将复杂的问题拆分为小问题🧩&a…...

关于大模型微调与训练的问题,大模型训练的难点在哪里?
前言 “ 大模型训练的难点不在于大模型本身,而在于训练数据 ” 这两天有一个小兄弟问我关于大模型训练的问题,然后他想自己训练一个小模型,但又不知道该怎么操作;所以,今天就再来讨论一下大模型的训练问题࿰…...

如何对数据库的表字段加密解密处理?
对于表格数据的加密处理,通常涉及到对数据库中存储的数据进行加密,以保护敏感信息。 Java示例(使用AES算法加密数据库表数据) 首先,你需要一个数据库连接,这里假设你使用的是JDBC连接MySQL数据库。以下是…...