【论文阅读笔记】Smil: Multimodal learning with severely missing modality
Ma M, Ren J, Zhao L, et al. Smil: Multimodal learning with severely missing modality[C]//Proceedings of the AAAI Conference on Artificial Intelligence. 2021, 35(3): 2302-2310.[开源]
本文的核心思想是探讨和解决多模态学习中的一个重要问题:在训练和测试数据中严重缺失某些模态时,如何有效进行学习。具体来说,这里的“严重缺失”指的是在多达90%的训练样本中缺少一些模态信息。在过去的研究中,大多关注于如何处理测试数据的模态不完整性,而对于训练数据的模态不完整性,尤其是严重缺失的情况,探讨较少。文章提出了一种新的方法——SMIL(Severely Missing Modality in Multimodal Learning),使用贝叶斯元学习来同时实现两个目标:灵活性(在训练、测试或两者中处理缺失模态)和效率(从不完整的模态中高效学习)。核心思想是通过扰动潜在特征空间,使单一模态的嵌入能够近似全模态的嵌入。为了验证这一方法的有效性,作者在三个流行的基准数据集(MM-IMDb, CMU-MOSI 和 avMNIST)上进行了一系列实验。结果表明,SMIL在处理严重模态缺失的多模态学习问题方面,相比现有方法和生成型基准(如自编码器和生成对抗网络)具有更好的性能。

- 模态重建
模态重建是通过使用重建网络来实现的。该网络利用可用的模态信息来生成缺失模态的近似值,从而在潜在特征空间中生成完整的数据,并促进两个方面的灵活性。一方面,该模型可以通过使用完整和不完整的数据进行联合训练来挖掘混合数据的全部潜力。另一方面,在测试时,通过打开或关闭特征重建网络,该模型可以以统一的方式处理不完整或完整的输入。具体来说,重建网络被训练来预测先验权重的权重,而不是直接生成缺失模态。这是通过学习一组可以使用 K-means 或 PCA 在所有模态完整样本之间聚类的模态先验 M 来实现的。然后,通过计算模态先验的加权和来重建缺失模态。这种方法可以有效地处理缺失模态问题,并在实验中取得了良好的结果。
- 不确定性引导特征正则化
该网络通过对特征进行扰动来评估数据的不确定性,并将不确定性评估用作特征正则化,以克服模型和数据偏差。具体来说,该网络使用一组随机噪声向量来扰动输入特征,并计算每个扰动的输出的方差。然后,将方差用作特征正则化的权重,以减少特征之间的差异。这种方法可以有效地处理低质量和不完整的特征,并提高多模态模型的鲁棒性和泛化能力。与之前的确定性正则化方法相比,不确定性引导特征正则化可以显著提高模型的容量和性能。
- 贝叶斯元学习框架
通过利用贝叶斯元学习框架来联合优化所有网络实现的。具体来说,主网络 f θ f_{\theta} fθ在重构 f ϕ ϕ f_{\phi_{\phi}} fϕϕ网络和正则化 f ϕ r f_{\phi_{r}} fϕr网络的帮助下在 D m D_m Dm上进行元训练。然后,在 D f D_f Df上对更新后的主网络 f θ ∗ f_{\theta^{*}} fθ∗进行元测试。最后,通过梯度下降元更新网络参数 { θ , ϕ c , ϕ r } \left\{\boldsymbol{\theta}, \boldsymbol{\phi}_{c}, \boldsymbol{\phi}_{r}\right\} {θ,ϕc,ϕr}。该框架旨在优化目标函数,即最小化 L ( D f ; θ ∗ , ψ ) \mathcal{L}\left(\mathcal{D}^{f} ; \boldsymbol{\theta}^{*}, \boldsymbol{\psi}\right) L(Df;θ∗,ψ),其中 θ ∗ = θ − α ∇ θ L ( D m ; ψ ) \boldsymbol{\theta}^{*}=\boldsymbol{\theta}-\alpha \nabla_{\boldsymbol{\theta}} \mathcal{L}\left(\mathcal{D}^{m} ; \boldsymbol{\psi}\right) θ∗=θ−α∇θL(Dm;ψ), ψ = { ϕ c , ϕ r } \psi=\left\{\phi_{c}, \phi_{r}\right\} ψ={ϕc,ϕr}表示重构和正则化网络参数的组合。贝叶斯元学习的目标是最大化条件似然: log p ( Y ∣ X ; θ ) \log p(\mathbf{Y} \mid \mathbf{X} ; \boldsymbol{\theta}) logp(Y∣X;θ)。然而,解决它涉及到不可行的真后验 p ( z ∣ X ) p(z|X) p(z∣X)。因此,通过一种分摊分布 q ( z ∣ X ; ψ ) q(z|X;ψ) q(z∣X;ψ)来近似真后验分布,并且近似的下限形式可以定义为 L θ , ψ = E q ( z ∣ X ; θ , ψ ) [ log p ( Y ∣ X , z ; θ ) ] − KL [ q ( z ∣ X ; ψ ) ∥ p ( z ∣ X ) ] . \begin{aligned} \mathcal{L}_{\boldsymbol{\theta}, \boldsymbol{\psi}}=\boldsymbol{E}_{q(\mathbf{z} \mid \mathbf{X} ; \boldsymbol{\theta}, \boldsymbol{\psi})}[\log p(\mathbf{Y} \mid \mathbf{X}, \mathbf{z} ; \boldsymbol{\theta})]- & \operatorname{KL}[q(\mathbf{z} \mid \mathbf{X} ; \boldsymbol{\psi}) \| p(\mathbf{z} \mid \mathbf{X})] . \end{aligned} Lθ,ψ=Eq(z∣X;θ,ψ)[logp(Y∣X,z;θ)]−KL[q(z∣X;ψ)∥p(z∣X)].
我们通过蒙特卡罗(MC)抽样来最大化这个下界

相关文章:
【论文阅读笔记】Smil: Multimodal learning with severely missing modality
Ma M, Ren J, Zhao L, et al. Smil: Multimodal learning with severely missing modality[C]//Proceedings of the AAAI Conference on Artificial Intelligence. 2021, 35(3): 2302-2310.[开源] 本文的核心思想是探讨和解决多模态学习中的一个重要问题:在训练和测…...
在Windows系统上安装git-Git的过程记录
01-上git的官网下载git的windows安装版本 下载页面链接: https://git-scm.com/downloads 选择Standalone Installer的版本进行下载: 这里给大家一全git-2.43.0的百度网盘下载链接: https://pan.baidu.com/s/11HwNTCZmtSWj0VG2x60HIA?pwdut…...
qt QString常用方法
1. QString 尾部拼接,尾部插入字符.调用append()函数.同时,QString字符串直接用加号 也可以进行拼接. QString s "我的女神";s s "刘亦菲";s "最近可好?";s.append("你跑哪儿去了?");//拼接结果: 我的女神刘亦菲最近可好?你跑…...
吴恩达《机器学习》10-6-10-7:学习曲线、决定下一步做什么
一、学习曲线 1. 学习曲线概述 学习曲线将训练集误差和交叉验证集误差作为训练集实例数量(m)的函数绘制而成。这意味着从较少的数据开始,逐渐增加训练集的实例数量。该方法的核心思想在于,当训练较少数据时,模型可能…...
分子骨架跃迁工具-DiffHopp 评测
一、文章背景介绍 DiffHopp模型发表在ICML 2023 Workshop on Computational Biology(简称:2023 ICML-WCB)上的文章。第一作者是剑桥计算机系的Jos Torge。 DiffHopp是一个专门针对骨架跃迁任务而训练的E3等变条件扩散模型。此外,…...
MySQL双主双从数据库集群搭建
1 引言 在之前的文章中提到过相关搭建方法,具体请参考《MySQL主从数据库搭建》这篇文章,本文主要讲述双主双从,双主多从集群的搭建方式。 这里要问一个问题,为什么MySQL要搭建数据库集群呢?我想应该有以下几点原因&…...
vue实现动态路由菜单!!!
目录 总结一、步骤1.编写静态路由编写router.jsmain.js注册 2.编写permisstions.js权限文件编写permisstions.jsaxios封装的APIstore.js状态库system.js Axios-APIrequest.js axios请求实例封装 3.编写菜单树组件MenuTree.vue 4.主页中使用菜单树组件 总结 递归处理后端响应的…...
企业如何选择安全又快速的大文件传输平台
在现代信息化社会,数据已经成为各个行业的重要资源,而数据的传输和交换则是数据价值的体现。在很多场合,企业需要传输或接收大文件,例如设计图纸、视频素材、软件开发包、数据库备份等。这些文件的大小通常在几百兆字节到几十个字…...
springboot 自定义starter逐级抽取
自定义starter 背景:各个组件需要引入starter 还有自己的配置风格 –基本配置原理 (1)自定义配置文件 导入配置可以在配置文件中自动识别,提示 导入依赖后可以发现提示 (2)配置文件实现 –让配置文件对其他模块生…...
GAN:ImprovedGAN-训练GAN的改进策略
论文:https://arxiv.org/abs/1606.03498 代码:https://github.com/openai/improved_gan 发表:NIPS 2016 一、文章创新 1:Feature matching:特征匹配通过为生成器指定新目标来解决GANs的不稳定性,从而防止…...
docker限制容器内存的方法
在服务器中使用 docker 时,如果不对 docker 的可调用内存进行限制,当 docker 内的程序出现不可预测的问题时,就很有可能因为内存爆炸导致服务器主机的瘫痪。而对 docker 进行限制后,可以将瘫痪范围控制在 docker 内。 因此&#…...
阿里达摩院裁撤量子实验室
我是卢松松,点点上面的头像,欢迎关注我哦! 马云的达摩院也不搞量子计算了,因为缺钱,整体裁掉了达摩院量子实验室,把所有的设备都赠送给了浙江大学。 达摩院量子实验室:总共30个研究员…...
mysql数据库基础知识,Mysql的索引和主键区别,数据库的事务的基本特性
文章目录 数据库基础知识Mysql的索引和主键的区别数据库的事务的基本特性 数据库基础知识 为什么要使用数据库 数据保存在内存 优点: 存取速度快 缺点: 数据不能永久保存 数据保存在文件 优点: 数据永久保存 缺点:1…...
解决Vscode使用git提交卡住的问题
使用Vscode的git提交代码经常会很慢/卡住。 先点击左下角,进入设置 找到git的配置(建议直接搜索),把use Editor As commit input的勾选去掉即可解决。...
Linux C语言 32-网络编程之UDP例程
Linux C语言 32-网络编程之UDP例程 本节关键字:C语言 网络编程 UDP协议 套接字操作 服务端 客户端 相关C库函数:setsockopt, socket, bind, recvfrom, sendto, close 相关接口介绍 Linux C语言 30-套接字操作 例程执行任务说明 本例程中服务端的任务…...
ubuntu22.04系统下载程序和依赖,并拷贝到指定路径下
脚本1 apt install aptitude apt-get -d install xxx #xxx是待下载的安装包 mv /var/cache/apt/archives/* /home/tuners/1apt install aptitude apt-get -d install xxx mv /var/cache/apt/archives/*.deb /home/tuners/1 xxx 为程序包名称 /home/tuners/1为保存程序包的…...
Kafka KRaft 版本集群部署详细教程(附配置文件详细解释)
版本说明 Ubuntu 18.04.6Kafka 3.6.0JDK8 集群配置 操作系统ip域名Kafka Broker 端口Kafka Controller 端口Ubuntu 18.04.6192.168.50.131kafka1.com90929093Ubuntu 18.04.6192.168.50.132kafka2.com90929093Ubuntu 18.04.6192.168.50.133kafka3.com90929093 安装 vim, cur…...
在龙蜥 anolis os 23 上 源码安装 PostgreSQL 16.1
在龙蜥 OS 23上,本来想使用二进制安装,结果发现没有针对龙蜥的列表: 于是想到了源码安装,下面我们列出了PG源码安装的步骤: 1.安装准备 1.1.创建操作系统组及用户 groupadd postgres useradd -g postgres -m postgr…...
UDP的不可靠性可以用来做什么
User Datagram Protocol(UDP,用户数据报协议)是互联网协议套件中的一种传输层协议。与TCP不同,UDP是一种无连接的、不可靠的协议。 要知道UDP可以用来做什么,首先我们要知道它有何特点: 1,无连接: UDP是一…...
vue3还用this吗?getCurrentInstance获取当前组件实例
在 Vue 2 中,this 关键字代表当前组件实例。在组件的选项对象中,this 可以用于访问组件实例的属性、方法以及 Vue 实例的一些特定方法。 在Vue3中,我们发现this是undefined,那我们真的没法使用this了吗?vu3给我们提供…...
Ventoy终极指南:一个U盘启动所有系统,告别重复格式化烦恼 [特殊字符]
Ventoy终极指南:一个U盘启动所有系统,告别重复格式化烦恼 😎 【免费下载链接】Ventoy A new bootable USB solution. 项目地址: https://gitcode.com/GitHub_Trending/ve/Ventoy 还在为每次安装系统都要重新制作启动盘而烦恼吗&#x…...
隧道裂缝剥落病害AI识别系统
我国现有公路隧道超2.5万座,总里程超2.8万公里,其中运营超过15年的老旧隧道占比达35%。据交通运输部2025年统计,年均因隧道结构病害导致的交通中断超1200次,直接经济损失超45亿元。传统检测模式暴露四大核心痛点:检测周…...
账务台账数据
银行里说的 “账务台账数据”,本质就是按会计规则把每笔业务逐笔、分户、分科目记下来的完整明细流水 余额 辅助信息,核心是 “可逐笔追溯、可对账、可审计” 的一套明细数据。下面用通俗、具体的方式拆开说:一、银行 “账务台账” 到底是什…...
超低功耗电池电压监控电路设计:从LM324到LPV324的硬件方案优化
1. 项目概述与核心需求解析在捣鼓各种电池供电的电子设备时,无论是自己做的无线传感器节点、便携式小工具,还是给孩子改装的玩具,有一个问题总是绕不开:你怎么知道电池快没电了?总不能每次都等到设备彻底罢工ÿ…...
League Akari:如何通过LCU API实现英雄联盟游戏流程的智能化管理?
League Akari:如何通过LCU API实现英雄联盟游戏流程的智能化管理? 【免费下载链接】League-Toolkit An all-in-one toolkit for LeagueClient. Gathering power 🚀. 项目地址: https://gitcode.com/gh_mirrors/le/League-Toolkit Leag…...
WarcraftHelper:让魔兽争霸3在现代电脑上完美运行的关键插件
WarcraftHelper:让魔兽争霸3在现代电脑上完美运行的关键插件 【免费下载链接】WarcraftHelper Warcraft III Helper , support 1.20e, 1.24e, 1.26a, 1.27a, 1.27b 项目地址: https://gitcode.com/gh_mirrors/wa/WarcraftHelper 你是否还在为《魔兽争霸3》这…...
为什么你的霓虹总像“塑料灯带”?Midjourney光子散射模拟缺陷曝光:3个被官方隐瞒的--sref调参禁区
更多请点击: https://kaifayun.com 第一章:为什么你的霓虹总像“塑料灯带”? 霓虹效果在现代 UI 设计中无处不在——按钮悬停、加载指示器、焦点高亮……但多数实现却流于表面:生硬的 box-shadow、固定色值的渐变边框、缺乏物理感…...
如何用YOLOv5实现FPS游戏智能瞄准:完整实战指南
如何用YOLOv5实现FPS游戏智能瞄准:完整实战指南 【免费下载链接】FPSAutomaticAiming 基于yolov5的FPS游戏AI。 项目地址: https://gitcode.com/gh_mirrors/fp/FPSAutomaticAiming 在竞技射击游戏中,精准瞄准是决定胜负的关键因素,而F…...
别光看手册!手把手教你读懂气体放电管(GDT)的6个关键参数,选型不踩坑
气体放电管实战选型指南:从参数表到电路设计的6个关键决策点 每次打开气体放电管(GDT)的英文数据手册,面对密密麻麻的参数表格和波形图,不少工程师都会陷入选择困难——这些数值到底如何影响实际电路保护效果…...
3PEAK思瑞浦 TPA6532-VS1R MSOP8 运算放大器
特性 供电电压:1.75伏至5.5伏 偏移电压:土1.5mV(最大) 通用峰值电压:300kHz,斜率:0.15V/us 轨到轨输入和输出 0.1Hz至10Hz电压噪声:1Vpp 开机和关机电流期间无明显输出抖动 低功耗:每通道最大25安培工作温度范围:-40C至125C...
