当前位置：首页 > article >正文

HeBA Heterogeneous Bottleneck Adapters for Robust Vision-Language Models

article 2026/3/18 16:21:16

HeBA: Heterogeneous Bottleneck Adapters for Robust Vision-Language ModelsAuthors:Md Jahidul IslamDeep-Dive Summary:HeBA: 用于鲁棒视觉语言模型的异构瓶颈适配器 (Heterogeneous Bottleneck Adapters)摘要将 CLIP 等大规模视觉语言模型VLMs适配到下游任务时通常采用“一刀切”的架构方法即视觉和文本 Token 统一由宽泛的通用适配器处理。我们认为这种同质化忽略了两种模态截然不同的结构特性——图像的空间局部性与文本的语义密度。为此我们提出了HeBAHeterogeneous Bottleneck Adapter这是一个引入了模态特定结构归纳偏差的统一架构框架。HeBA 通过三大架构创新区别于传统设计异构性Heterogeneity通过 2D 深度可分离卷积处理视觉 Token 以保留空间相关性而通过稠密线性投影处理文本 Token 以捕捉语义关系。瓶颈正则化Bottleneck Regularization不同于标准的扩张式适配器HeBA 采用压缩瓶颈D → D / 4 D \rightarrow D / 4D→D/4强制模型学习紧凑、鲁棒的特征并作为结构正则化器。主动梯度初始化Active Gradient Initialization我们挑战了受限的零初始化范式利用 Kaiming 初始化策略确保初始梯度流充足在不损害冻结主干预训练知识的前提下加速收敛。实验表明HeBA 在 11 个少样本基准测试中达到了新的 SOTA。1. 引言视觉语言模型如 CLIP通过在海量图像-文本对上进行对比学习将视觉和语义表示对齐。虽然它们具有强大的零样本泛化能力但在特定领域如卫星图像、医疗扫描应用时仍需要进行适配。在少样本学习Few-Shot Learning设置下微调面临“稳定性-塑性”困境全参数微调计算昂贵且易导致灾难性遗忘。因此研究转向了参数高效微调PEFT如提示学习Prompt Learning和适配器微调Adapter Tuning。目前的适配器如 CLIP-Adapter、Tip-Adapter存在架构同质化问题它们将具有 2D 空间相关性的视觉 Token 和稠密语义序列的文本 Token 均视为统一的一维向量。这种“空间失忆”丢弃了关键的结构线索。图 1基类到新类的泛化表现。HeBA 在 11 个数据集上的新类准确率78.62%和调和平均值81.35%均创下新纪录。最近的 LwEIB 尝试引入深度卷积但其依赖于“反向瓶颈”将特征维度扩大 4 倍这增加了过拟合风险且优化环境脆弱。HeBA 通过以下方式解决这些问题异构归纳偏差视觉流采用 2D 深度可分离卷积瓶颈文本流采用稠密线性瓶颈。结构正则化采用压缩结构D → D / 4 D \rightarrow D / 4D→D/4限制模型容量过滤噪声并学习低秩表示。主动梯度初始化采用 Kaiming 初始化替代零初始化避免早期训练中的梯度消失并结合动态缩放和标签平滑以稳定学习过程。2. 相关工作2.1. 视觉语言模型与适配VLMs如 CLIP的适配已从全微调转向 PEFT以保留零样本鲁棒性。2.2. 提示学习如 CoOp、CoCoOp 和 MaPLe 等方法通过优化文本或多模态 Token 进行语义对齐。PromptSRC 和 LASP-V 等后续工作引入了正则化约束。2.3. 基于适配器及混合方法CLIP-Adapter 插入 MLP 瓶颈Tip-Adapter 使用键值缓存。LwEIB 引入了卷积但由于参数过重需要复杂的启发式优化。HeBA 通过压缩瓶颈D → D / 4 D \rightarrow D / 4D→D/4与其区别开来提供了内在的稳定性。2.4. 少样本学习中的归纳偏差HeBA 明确解耦了偏差视觉流执行 2D 空间局部性文本流执行语义全局性从而提升了效率。图 2HeBA 框架概览。冻结 CLIP 主干注入轻量化、模态特定的适配器。视觉适配器使用3 × 3 3 \times 33×3深度卷积DW-Conv文本适配器使用线性瓶颈并采用主动 Kaiming 初始化。3. 方法论HeBA 强制执行严格的维度压缩和模态特定处理。3.1. 异构瓶颈架构设第l ll层的输入为x l ∈ R N × D \mathbf{x}_{l} \in \mathbb{R}^{N \times D}xl∈RN×D。适配后的输出x l 1 \mathbf{x}_{l 1}xl1通过残差连接计算x l 1 L a y e r N o r m ( x l s ⋅ F H e B A ( x l ) ) ( 1 ) \mathbf{x}_{l 1} \mathrm{LayerNorm}(\mathbf{x}_{l} s \cdot \mathcal{F}_{HeBA}(\mathbf{x}_{l})) \quad (1)xl1LayerNorm(xls⋅FHeBA(xl))(1)其中s ss是动态缩放因子。HeBA 将特征压缩至D ′ D / 4 D D / 4D′D/4。3.1.1. 视觉流空间感知卷积视觉 Token 被重塑为 2D 网格X 2 D ∈ R B × D × N × N \mathbf{X}_{2D} \in \mathbb{R}^{B \times D \times \sqrt{N} \times \sqrt{N}}X2D∈RB×D×N×N。视觉适配器F v i s \mathcal{F}_{vis}Fvis定义为Z d o w n C o n v 1 × 1 ( X 2 D ) ∈ R B × D r × N × N ( 2 ) \mathbf{Z}_{down} \mathrm{Conv}_{1 \times 1}(\mathbf{X}_{2D}) \in \mathbb{R}^{B \times \frac{D}{r} \times \sqrt{N} \times \sqrt{N}} \quad (2)ZdownConv1×1(X2D)∈RB×rD×N×N(2)Z m i d D W − C o n v 3 × 3 ( Z d o w n ) ( 3 ) \mathbf{Z}_{mid} \mathrm{DW - Conv}_{3 \times 3}(\mathbf{Z}_{down}) \quad (3)ZmidDW−Conv3×3(Zdown)(3)F v i s ( x ) F l a t t e n ( C o n v 1 × 1 ( σ ( Z m i d ) ) ) ( 4 ) \mathcal{F}_{vis}(\mathbf{x}) \mathrm{Flatten}(\mathrm{Conv}_{1 \times 1}(\sigma (\mathbf{Z}_{mid}))) \quad (4)Fvis(x)Flatten(Conv1×1(σ(Zmid)))(4)其中D W − C o n v 3 × 3 \mathrm{DW - Conv}_{3 \times 3}DW−Conv3×3聚合局部空间上下文σ \sigmaσ为 GELU 激活函数。图 3HeBA 中的模型级归纳偏差集成。文本适配器使用线性瓶颈视觉适配器使用深度卷积上采样层使用 Kaiming 初始化。3.1.2. 文本流语义保持投影由于空间局部性对文本无关文本适配器F t e x t \mathcal{F}_{text}Ftext直接作用于 Token 序列F t e x t ( x ) W u p ⋅ σ ( W d o w n ⋅ x ) ( 5 ) \mathcal{F}_{t e x t}(\mathbf{x}) \mathbf{W}_{u p}\cdot \sigma \left(\mathbf{W}_{d o w n}\cdot \mathbf{x}\right) \quad (5)Ftext(x)Wup⋅σ(Wdown⋅x)(5)使用稠密线性拓扑来保持全局语义完整性。3.2. 主动梯度初始化范式与 Tip-Adapter 和 MaPLe 使用零初始化W u p 0 \mathbf{W}_{up} 0Wup0不同HeBA 采用主动 Kaiming 初始化策略W u p ∼ N ( 0 , 2 n i n ) , b u p 0 ( 6 ) \mathbf{W}_{u p}\sim \mathcal{N}(0, \frac{2}{n_{i n}}), \quad \mathbf{b}_{u p} 0 \quad (6)Wup∼N(0,nin2),bup0(6)这确保了从第一轮迭代起就有稳健的梯度流加速了对下游分布的适配同时由于 CLIP 主干被冻结预训练知识得到了本质上的保护。Original Abstract:Adapting large-scale Vision-Language Models (VLMs) like CLIP to downstream tasks often suffers from a “one-size-fits-all” architectural approach, where visual and textual tokens are processed uniformly by wide, generic adapters. We argue that this homogeneity ignores the distinct structural nature of the modalities – spatial locality in images versus semantic density in text. To address this, we propose HeBA (Heterogeneous Bottleneck Adapter), a unified architectural framework that introduces modality-specific structural inductive biases. HeBA departs from conventional designs through three key architectural innovations: (1) Heterogeneity: It processes visual tokens via 2D depthwise-separable convolutions to preserve spatial correlations, while distinctively processing text tokens via dense linear projections to capture semantic relationships; (2) Bottleneck Regularization: Unlike standard expanding adapters, HeBA employs a compression bottleneck (D - D/4) that explicitly forces the model to learn compact, robust features and acts as a structural regularizer; and (3) Active Gradient Initialization: We challenge the restrictive zero-initialization paradigm, utilizing a Kaiming initialization strategy that ensures sufficient initial gradient flow to accelerate convergence without compromising the frozen backbone’s pre-trained knowledge. Extensive experiments demonstrate that HeBA’s architecturally specialized design achieves superior stability and accuracy, establishing a new state-of-the-art on 11 few-shot benchmarks. Code is available at https://github.com/Jahid12012021/VLM-HeBA.PDF Link:2603.16653v1部分平台可能图片显示异常请以我的博客内容为准

HeBA Heterogeneous Bottleneck Adapters for Robust Vision-Language Models

相关文章：

HeBA Heterogeneous Bottleneck Adapters for Robust Vision-Language Models

协程学习笔记1

团队协作效率遭遇瓶颈？这 1 个开放式网盘生态，救活了 10 万+ 企业的文档流（含竞品实测）

结构建模与数字孪生破解偏远桥梁监测难题

Android jetpack LiveData (二) 原理篇

【PCIe 验证每日学习・Day13】DLLP 与 ACK/NAK 重传机制基础验证

Linux 的 cat 命令

burpsuite详细安装教程及功能讲解

春日桌搭新首选！ROG魔霸9 Mini：3L 迷你机身，塞下锐龙 9+RTX5070

Qt导航栏组件A03：VS Code 风格的图标侧栏

计算机毕业设计源码：Python贝壳租房数据可视化与智能推荐系统 Scrapy爬虫可视化推荐系统大数据数据分析大模型房源房子（建议收藏）✅

深度探索Fluent中的电弧、激光与熔滴一体化模拟

电-气-热综合能源系统节点能价计算方法研究

香草纪元开服教程：使用云鸢联机平台快速搭建“食旅纪行”服务器（高配推荐版）

增程式电动汽车自适应ECMS能量管理策略：基于工况的Matlab实现方案

Comsol锂枝晶模型：锂枝晶生长与锂离子浓度、电势分布的模拟

基于改进蛇优化算法(GOSO/ISO)优化极限梯度提升树的时间序列预测

大厂ZigBee射频芯片CC2430反向电路探索

Matlab实现频率切片小波变换（FSWT）绘制时频图

Prompt工程深度揭秘

飞轮储能系统建模详解与MATLAB仿真实践（含永磁同步电机驱动模型）含多种模型与建模仿真指南

基于全阶磁链观测器的异步电机矢量控制

高级特性之dubbo超时机制及集群容错机制

西门子S7-1200 PLC工业污水处理系统：基于博途V13sp1的WinCC画面组态与仿真报告

事件触发控制代码及其对应参考文献

实测对比后！千笔AI，开源免费降重首选

直驱风机Simulink仿真模型与永磁直驱式风力发电系统整体仿真：380V与690V双电压仿真...

Canoe-Autosar网络管理自动化测试脚本及Capl源码：全套、可直接使用修改项目配置

基于LADRC自抗扰控制的VSG三相逆变器预同步并网策略

桥梁裂缝图像识别智慧桥梁钢筋裸漏图像识别基建领域混凝土结构病害检测桥梁病害图像 YOLO格式数据集第10515期