当前位置：首页 > news >正文

论文笔记：是什么让多模态学习变得困难？

news 2026/2/11 3:44:22

整理了What Makes Training Multi-modal Classification Networks Hard? 论文的阅读笔记

背景
方法
- OGR
- 基于最小化OGR的多监督信号混合
- 在实践中的应用
实验

背景

直观上，多模态网络接收更多的信息，因此它应该匹配或优于其单峰网络。然而，最好的单模态网络往往优于多模态网络。这种观察在不同的模态组合以及不同的视频分类任务和基准上是一致的。如表一所示：

本文提出了两个主要原因：多模态网络往往容易过拟合；不同的模态过拟合和泛化率不同，因此使用单一优化策略联合训练它们是次优的。图一展示了一些尝试的改进，包括dropout、早停、SE门和NL门等，然而，这些方法都无法解决这些问题。
本文提出了一种称为顺应性混合（Gradient-Blending）的技术缓解这种情况，这是一种新的训练方案，与任务无关、与架构无关，通过多个监督信号的最佳混合来最小化OGR（在下文中提出）。

方法

OGR

我们首先假设单峰学习和多峰学习的基本形式：
$\mathcal{L}(\mathcal{C}(\varphi_m(X)),y)$ $\mathcal{L}_{multi}(\mathcal{C}(\varphi_{m_1}\oplus\varphi_{m_2}\oplus...\ \varphi_{m_k}),y)$ 其中， $\mathcal{C}$ 表示分类器， $\varphi_m$ 表示模态特定权重， $y$ 是标签。多峰网络是单峰网络的超集，对于多峰网络中任何一个模态，通过选择最好权重，可以构造与单峰网络同样好的解，然而在实际情况，这是不可能的。
过拟合通常被理解为在训练集中学习到的模式不会推广到目标分布。基于这一点，我们可以将第 $N$ 个时期的过拟合定义为 $\mathcal{L}_N^T$ 和 $\mathcal{L}_N^V$ 之间的差距。两个模型检查点之间的训练质量可以通过过拟合和泛化的变化来衡量（图3中的 $\Delta G$ ， $\Delta O$ ）。在检查点 $N$ 和 $N + n$ 之间，我们可以定义过拟合与泛化比（OGR）： $OGR\equiv|\frac{\Delta O_{N,n}}{\Delta G_{N,n}}|=|\frac{\Delta O_{N+n}-O_N}{\mathcal{L}_N^*-\mathcal{L}_{N+n}^*}|$
在这里插入图片描述
直观上，我们可以在训练期间最小化 $OGR$ ，但是有两个麻烦：1、全局优化OGR将是非常昂贵的。2、如果是欠拟合模型，那么这个损失会非常小。
因此，我们建议解决一个无穷小问题：给定梯度的几个估计，将它们混合以最小化无穷小 $OGR^2$ ，我们将此混合应用于优化流程。每个梯度步长在验证损失的每单位增益上尽可能少地增加泛化误差，从而最大限度地减少过拟合。在多模态设置中，这意味着我们将来自多个模态的梯度估计结合起来，并最小化OGR2，以确保每个梯度步长现在产生的增益不比单个最佳模态的增益差。这个 $L^2$ 问题允许一个简单的封闭式解决方案，易于实现，并且在实践中工作得很好。
考虑一个单一的参数更新步骤，其估计为梯度。由于两个检查点之间的距离很小，我们使用一阶近似： $\Delta G ≈ <\nabla \mathcal{L}^*,g^*>$ 和 $\Delta O ≈ <\nabla \mathcal{L}^T-\nabla \mathcal{L}^*,g^*>$ 。因此，对于单个向量 $g^*$ ， $OGR^2$ 为: $OCR^2=(\frac{<\nabla \mathcal{L}^T-\nabla \mathcal{L}^*,g^*>}{<\nabla \mathcal{L}^*,g^*>})^2$

基于最小化OGR的多监督信号混合

我们可以通过为每个模态的特征和融合特征分别添加分类器来获得梯度的多个估计（下图c）。通过分别反向传播每个损失来获得每模态梯度 $\{\hat g_i\}_{i=1}^k$ 。我们的下一个结果允许我们将它们全部混合到具有更好泛化行为的单个向量中。
在这里插入图片描述设 ${v_k\}_0^M$ 是 $\mathcal{L}^*$ 的一组估计值，其过拟合近似为 $\mathbb{E}[<\nabla \mathcal{L}^T-\nabla \mathcal{L}^*,v_k><\nabla \mathcal{L}^T-\nabla \mathcal{L}^*,v_j>]=0,j\neq k$ 。给定约束 $\sum_kw_k=1$ ，该问题的最优权重 $w_k\in \mathcal{R}$ ： $w^*=arg min \mathbb{E}[(\frac{<\nabla \mathcal{L}^T-\nabla \mathcal{L}^*,\sum_kw_kv_k>}{\mathcal{L}^*,\sum_kw_kv_k})^2]$ are given by: $w^*_k=\frac{1}{Z}\frac{<\mathcal{L}^*,v_k>}{\sigma_k^2}$ 其中， $\sigma_k^2\equiv\mathbb{E}[<\nabla \mathcal{L}^T-\nabla \mathcal{L}^*,v_k>]$ ， $Z$ 是一个标准化常数 $Z=\sum_k\frac{<\mathcal{L}^*,v_k>}{2\sigma_k^2}$ 。

在实践中的应用

我们采用多任务架构来构建上述优化的近似解决方案。即为所有模态构建单独的损失。在每个反向传播步骤中，模态 $m_i$ 梯度是 $\nabla \mathcal{L}_i$ ，来自融合损失的梯度记为 $\mathcal{L}_{k+1}$ 。产生混合梯度： $\mathcal{L}_{blend}=\sum_{i=1}^{k+1}w_i\mathcal{L}_i$ 通过适当选择 $w_i$ ，就产生了实现梯度混合的方便方法。直观地，损失重新加权重新校准学习时间表，以平衡不同模态的泛化/过拟合率。
在实践中，我们无法看到目标分布结果（测试集）测量OGR。为了测量OGR，我们保留训练集的子集V来近似目标分布。算法1提供了一种连续混合权重估计。以及两种不同的梯度混合方法（算法2，算法3）：1.离线渐变混合（Offline Gradient-Blending）：只计算一次权重，并使用一组固定权重来训练整个时期。2.在线渐变混合（Online Gradient-Blending）：完整版本，定期重新计算权重（例如，每n个epoch称为超级epoch），并使用超级epoch的新权重来训练模型。

实验

本文使用三种视频数据集进行消融：Kinetics、mini-Sports和mini-AudioSet：
在这里插入图片描述
本文的方法超过了单峰和后期融合。本文进一步验证了朴素联合训练中的过拟合问题：

在这两个数据集上，音频模型过拟合最多，视频过拟合最少。与仅视频模型相比，朴素联合音频-RGB模型具有较低的训练误差和较高的验证误差;即朴素音频-RGB联合训练增加了过拟合，解释了与单独视频相比的准确性下降。我们扩展了分析，考虑了三种模态（音频、RGB和光流）的所有4种可能组合。在每种情况下，朴素联合训练的验证准确度都明显低于最佳单流模型（表1），而训练准确度几乎总是更高。
不同优化器的比较：
在这里插入图片描述
表四给出了本文的方法与朴素联合训练和最佳单流模型的比较：

G-Blend在不同的基准测试和任务上优于所有基线方法：

在AudioSet上与最新方法的比较。GBlend在性能上大大优于现有的方法：
在这里插入图片描述与EPIC-Kitchen最先进方法的比较:

论文笔记：是什么让多模态学习变得困难？

整理了What Makes Training Multi-modal Classification Networks Hard? 论文的阅读笔记

背景

方法

OGR

基于最小化OGR的多监督信号混合

在实践中的应用

实验

相关文章：

论文笔记：是什么让多模态学习变得困难？

ChatGPT Search开放：实时多模态搜索新体验

Centos7.9 离线安装docker

C语言函数在调用过程中具体是怎么和栈互动的？

【Java中常见的异常及其处理方式】

如何更新项目中的 npm 或 Yarn 依赖包至最新版本

SpringBoot3整合FastJSON2如何配置configureMessageConverters

《Vue3实战教程》2：Vue3快速上手

ubuntu 24.04.1安装FTP流程

多功能护照阅读器港澳通行证阅读机RS232串口主动输出协议，支持和单片机/Linux对接使用

5个用于构建Web应用程序的Go Web框架

Qt中的异步相关类

浅谈仓颉语言的优劣

Linux 显示系统活动进程状态命令 ps 详细介绍

scala中正则表达式的使用

数据分析和AI丨知识图谱，AI革命中数据集成和模型构建的关键推动者

cocos creator制作2dTop-down游戏（虚拟摇杆、地图加载）

SQL Server 批量插入数据的方式汇总及优缺点分析

linux上抓包RoCEv2

【机器学习与数据挖掘实战】案例04：基于K-Means算法的信用卡高风险客户识别

DeepSeek 赋能智慧能源：微电网优化调度的智能革新路径

HTML 列表、表格、表单

基础测试工具使用经验

Ascend NPU上适配Step-Audio模型

鱼香ros docker配置镜像报错：https://registry-1.docker.io/v2/

让AI看见世界：MCP协议与服务器的工作原理

RNN避坑指南：从数学推导到LSTM/GRU工业级部署实战流程

CSS设置元素的宽度根据其内容自动调整

回溯算法学习

Webpack性能优化：构建速度与体积优化策略