当前位置：首页 > news >正文

MMA: Multi-Modal Adapter for Vision-Language Models

news 2026/5/11 11:37:36

在这里插入图片描述

两个观察

图1所示。各种基于transformer的CLIP模型中不同层的数据集级识别精度。这个实验是为了确定样本属于哪个数据集。我们用不同的种子运行了三次，并报告了每层识别精度的平均值和标准差。 $XE mb e d$ 是指变压器块之前的文本或图像嵌入层（即自关注层和前馈层[13]）， $XP ro j$ 是指文本或图像投影层。注意，本实验仅使用来自所有数据集的训练样例进行评估。

如图1所示，我们有两个观测：

Observation-1。在预训练的文本和图像编码器中，较高的层包含可区分的数据集特定表示，而较低的层包含跨不同数据集的可通用表示。这些结果表明，为下游任务调整高层比低层更容易，冻结低层比高层可以保存更多的可泛化知识。

Observation-2。在大多数情况下，文本特征，因为它们是用语义类别名称编码的，在数据集中比视觉特征更容易区分。此外，低层的文本和图像特征之间的间隙比高层的更大。因此，我们认为在文本和图像特征之间对齐较低的层比在较高的层之间对齐更困难，特别是在有限的训练样本下进行调优。

Macro Design(宏观的设计)

新的适配器 $\mathcal{A}$ （在下一节中详细介绍）被部分添加到图像和文本编码器的几个更高层中。形式上，对于图像编码器 $\mathcal{V}$ ，我们从第 $k$ 个transformer块中添加适配器 $\mathcal{A}^v$

这里，下划线表示可训练的块。 $\alpha$ 是任务特定知识和一般预训练知识之间的平衡系数。显然， $\alpha=0$ 在不集成任何额外知识的情况下退化为原始transformer块。同样，我们在文本编码器 $\tau$ 上增加适配器 $\mathcal{A}^t$

Micro Design(微观设计)

该单元首先使用单独的投影层将每个分支输入投影到具有相同尺寸的特征中。然后，使用一个共享投影层来聚合这些双峰信号，然后使用一个单独的层来匹配每个分支的输出维度。形式上，这个过程可以概括如下：

一个类似的过程被添加到文本编码器如下：

其中， $\bm W_{kw}$ 和 $\bm W_{kd}$ 是图所示的第 $k$ 个“上”和“下”投影层，其中模态分支用上标突出显示。 $\bm W_{ks}$ 是第 $k$ 个投影层，由Eq.（11）和Eq.（12）中的不同分支共享。重要的是，共享投影作为两个模态之间的桥梁，允许梯度相互传播，从而更好地对齐不同的模态信号。

实验

me：简单的改动，但效果真的很好啊。

结论

以CLIP为例[50]的大规模VLM对下游任务的适应提出了一个巨大的挑战，主要是因为可训练参数的数量庞大，而可用训练样本的规模有限。在本文中，我们提出了一种针对视觉和语言分支设计的多模态适配器（MMA），以增强其各自表示之间的一致性。我们系统地分析了视觉和语言分支跨数据集的特征的判别性和泛化性，因为这两个特征在迁移学习中起着重要的作用，特别是在少样本设置中。基于我们的分析，我们有选择地将MMA引入到特定的更高的transformer层，以实现区分和泛化之间的最佳平衡。我们通过三个代表性任务来评估我们方法的有效性：对新类别的泛化，对新目标数据集的适应，以及看不见的领域转移。与其他先进方法的比较表明，我们的综合性能在所有三种类型的评估中都取得了卓越的表现。

参考资料

论文下载(CVPR 2024)

https://openaccess.thecvf.com/content/CVPR2024/papers/Yang_MMA_Multi-Modal_Adapter_for_Vision-Language_Models_CVPR_2024_paper.pdf

代码地址

https://github.com/ZjjConan/Multi-Modal-Adapter

MMA: Multi-Modal Adapter for Vision-Language Models

两个观察

Macro Design(宏观的设计)

Micro Design(微观设计)

实验

结论

参考资料

论文下载(CVPR 2024)

代码地址

相关文章：

MMA: Multi-Modal Adapter for Vision-Language Models

uniapp通过id获取div的宽度，高度，位置等（应该是任意平台都通用）

Python Transformer 模型的基本原理：BERT 和 GPT 以及它们在情感分析中的应用

【云原生】Kubernets1.29部署StorageClass-NFS作为存储类，动态创建pvc（已存在NFS服务端）

使用 Pandas 进行时间序列分析的 10个关键点

使用 Mermaid 语言描述 AGI 系统架构图

绘制线性可分支持向量机决策边界图代码解析

No.23 笔记 | WEB安全 - 任意文件漏洞 part 5

EasyPlayer.js网页播放器,支持FLV、HLS、WebSocket、WebRTC、H.264/H.265、MP4、ts各种音视频流播放

WPF数据绑定的五大模式

从零到一：大学新生编程入门攻略与成长指南

详细分析Pytorch中的transpose基本知识（附Demo）| 对比 permute

初识WebGL

【力扣】Go语言回溯算法详细实现与方法论提炼

「C/C++」C/C++ 之第三方库使用规范

六、元素应用CSS的习题

正式入驻！上海斯歌BPM PaaS管理软件等产品入选华为云联营商品

使用 Axios 上传大文件分片上传

Nginx+Lua脚本+Redis 实现自动封禁访问频率过高IP

PART 1 数据挖掘概论 — 数据挖掘方法论

Visual C++运行库合集(vcredist)深度解析与高级部署方案

茉莉花插件：重塑你的中文文献研究新范式

AI编程套餐怎么选：别只看模型和额度，更要看你会不会被绑定

模拟芯片巨头Maxim 2010技术日深度解读：从工艺到应用的创新启示

ATF IronPython集成：如何在C应用中嵌入Python脚本引擎的完整指南

把轻量接口做成真正可用的业务入口，聊透 ABAP HTTP Service Editor 的开发节奏

SVG 滤镜：全面解析与高效应用

Go语言CLI工具服务化：基于JSON-RPC的进程间通信与自动化集成

App安全测试实战：OWASP ZAP 2.8 代理配置进阶与场景化应用

AI研发团队“隐性崩溃”前的9个信号：SITS2026追踪18个月的142起项目衰变案例全复盘