当前位置：首页 > news >正文

【论文阅读笔记】Smil: Multimodal learning with severely missing modality

news 2026/2/9 16:13:37

Ma M, Ren J, Zhao L, et al. Smil: Multimodal learning with severely missing modality[C]//Proceedings of the AAAI Conference on Artificial Intelligence. 2021, 35(3): 2302-2310.[开源]

本文的核心思想是探讨和解决多模态学习中的一个重要问题：在训练和测试数据中严重缺失某些模态时，如何有效进行学习。具体来说，这里的“严重缺失”指的是在多达90%的训练样本中缺少一些模态信息。在过去的研究中，大多关注于如何处理测试数据的模态不完整性，而对于训练数据的模态不完整性，尤其是严重缺失的情况，探讨较少。文章提出了一种新的方法——SMIL（Severely Missing Modality in Multimodal Learning），使用贝叶斯元学习来同时实现两个目标：灵活性（在训练、测试或两者中处理缺失模态）和效率（从不完整的模态中高效学习）。核心思想是通过扰动潜在特征空间，使单一模态的嵌入能够近似全模态的嵌入。为了验证这一方法的有效性，作者在三个流行的基准数据集（MM-IMDb, CMU-MOSI 和 avMNIST）上进行了一系列实验。结果表明，SMIL在处理严重模态缺失的多模态学习问题方面，相比现有方法和生成型基准（如自编码器和生成对抗网络）具有更好的性能。

模态重建

模态重建是通过使用重建网络来实现的。该网络利用可用的模态信息来生成缺失模态的近似值，从而在潜在特征空间中生成完整的数据，并促进两个方面的灵活性。一方面，该模型可以通过使用完整和不完整的数据进行联合训练来挖掘混合数据的全部潜力。另一方面，在测试时，通过打开或关闭特征重建网络，该模型可以以统一的方式处理不完整或完整的输入。具体来说，重建网络被训练来预测先验权重的权重，而不是直接生成缺失模态。这是通过学习一组可以使用 K-means 或 PCA 在所有模态完整样本之间聚类的模态先验 M 来实现的。然后，通过计算模态先验的加权和来重建缺失模态。这种方法可以有效地处理缺失模态问题，并在实验中取得了良好的结果。

不确定性引导特征正则化

该网络通过对特征进行扰动来评估数据的不确定性，并将不确定性评估用作特征正则化，以克服模型和数据偏差。具体来说，该网络使用一组随机噪声向量来扰动输入特征，并计算每个扰动的输出的方差。然后，将方差用作特征正则化的权重，以减少特征之间的差异。这种方法可以有效地处理低质量和不完整的特征，并提高多模态模型的鲁棒性和泛化能力。与之前的确定性正则化方法相比，不确定性引导特征正则化可以显著提高模型的容量和性能。

贝叶斯元学习框架

通过利用贝叶斯元学习框架来联合优化所有网络实现的。具体来说，主网络 $f_{\theta}$ 在重构 $f_{\phi_{\phi}}$ 网络和正则化 $f_{\phi_{r}}$ 网络的帮助下在 $D_m$ 上进行元训练。然后，在 $D_f$ 上对更新后的主网络 $f_{\theta^{*}}$ 进行元测试。最后，通过梯度下降元更新网络参数 $\left\{\boldsymbol{\theta}, \boldsymbol{\phi}_{c}, \boldsymbol{\phi}_{r}\right\}$ 。该框架旨在优化目标函数，即最小化 $\mathcal{L}\left(\mathcal{D}^{f} ; \boldsymbol{\theta}^{*}, \boldsymbol{\psi}\right)$ ，其中 $\boldsymbol{\theta}^{*}=\boldsymbol{\theta}-\alpha \nabla_{\boldsymbol{\theta}} \mathcal{L}\left(\mathcal{D}^{m} ; \boldsymbol{\psi}\right)$ ， $\psi=\left\{\phi_{c}, \phi_{r}\right\}$ 表示重构和正则化网络参数的组合。贝叶斯元学习的目标是最大化条件似然： $\log p(\mathbf{Y} \mid \mathbf{X} ; \boldsymbol{\theta})$ 。然而，解决它涉及到不可行的真后验 $p (z ∣ X)$ 。因此，通过一种分摊分布 $q (z ∣ X; ψ)$ 来近似真后验分布，并且近似的下限形式可以定义为 $\begin{aligned} \mathcal{L}_{\boldsymbol{\theta}, \boldsymbol{\psi}}=\boldsymbol{E}_{q(\mathbf{z} \mid \mathbf{X} ; \boldsymbol{\theta}, \boldsymbol{\psi})}[\log p(\mathbf{Y} \mid \mathbf{X}, \mathbf{z} ; \boldsymbol{\theta})]- & \operatorname{KL}[q(\mathbf{z} \mid \mathbf{X} ; \boldsymbol{\psi}) \| p(\mathbf{z} \mid \mathbf{X})] . \end{aligned}$

我们通过蒙特卡罗(MC)抽样来最大化这个下界

【论文阅读笔记】Smil: Multimodal learning with severely missing modality

相关文章：

【论文阅读笔记】Smil: Multimodal learning with severely missing modality

在Windows系统上安装git-Git的过程记录

qt QString常用方法

吴恩达《机器学习》10-6-10-7:学习曲线、决定下一步做什么

分子骨架跃迁工具-DiffHopp 评测

MySQL双主双从数据库集群搭建

vue实现动态路由菜单！！！

企业如何选择安全又快速的大文件传输平台

springboot 自定义starter逐级抽取

GAN：ImprovedGAN-训练GAN的改进策略

docker限制容器内存的方法

阿里达摩院裁撤量子实验室

mysql数据库基础知识,Mysql的索引和主键区别，数据库的事务的基本特性

解决Vscode使用git提交卡住的问题

Linux C语言 32-网络编程之UDP例程

ubuntu22.04系统下载程序和依赖，并拷贝到指定路径下

Kafka KRaft 版本集群部署详细教程（附配置文件详细解释）

在龙蜥 anolis os 23 上源码安装 PostgreSQL 16.1

UDP的不可靠性可以用来做什么

vue3还用this吗？getCurrentInstance获取当前组件实例

阿里云ACP云计算备考笔记 (5)——弹性伸缩

linux 下常用变更-8

三体问题详解

Rust 异步编程

MySQL中【正则表达式】用法

C++ Visual Studio 2017厂商给的源码没有.sln文件易兆微芯片下载工具加开机动画下载。

Angular微前端架构：Module Federation + ngx-build-plus (Webpack)

Java求职者面试指南：Spring、Spring Boot、MyBatis框架与计算机基础问题解析

算法：模拟

vulnyx Blogger writeup