当前位置: 首页 > article >正文

Cross-Modal Prototype Alignment and Mixing for Training-Free Few-Shot Classification

Cross-Modal Prototype Alignment and Mixing for Training-Free Few-Shot ClassificationAuthors:Dipam Goswami, Simone Magistri, Gido M. van de Ven, Bartłomiej Twardowski, Andrew D. Bagdanov, Tinne Tuytelaars, Joost van de WeijerDeep-Dive Summary:跨模态原型对齐与混合用于免训练小样本分类摘要像CLIP这样的视觉-语言模型VLMs以对齐文本和图像对为目标进行训练。为了改进基于CLIP的小样本图像分类近期研究观察到除了文本嵌入外训练集中的图像嵌入也是重要的信息来源。本文研究了直接混合图像和文本原型对小样本分类的影响并从偏差-方差的角度进行分析。我们证明了混合原型类似于收缩估计器。虽然混合原型提升了分类性能但图像原型仍会引入噪声表现为实例特定的背景或上下文信息。为了仅捕获与给定分类任务相关的图像空间信息我们提出将图像原型投影到语义文本嵌入空间的主方向上以获得文本对齐的语义图像子空间。当这些文本对齐的图像原型与文本嵌入混合时分类性能进一步提升。然而对于CLIP跨模态对齐较差的下游数据集语义对齐可能并非最优。我们证明通过使用类协方差建模各向异性图像子空间仍然可以被利用。我们展示了结合文本对齐混合原型分类器和图像特定LDA分类器的方法在多个小样本分类基准上优于现有方法。关键词视觉-语言模型 · 跨模态对齐 · 混合原型1 引言像CLIP这样的视觉-语言模型VLMs使用对称对比损失进行训练该损失最大化图像与其对应文本之间的相似度同时将其推离负样本文本反之亦然。这产生了一个共享嵌入空间其中语义对应的图像和文本表示在几何上对齐。因此CLIP实现了强大的零样本性能其中分类通过测试图像与文本编码器编码的文本提示文本原型之间的余弦相似度来执行。然而由于信息不对称——文本提示很少描述整幅图像——文本和图像嵌入最终未能完全对齐而是占据了共享CLIP嵌入空间中由模态间隙分隔的区域。图1给定分类问题图像潜在空间应以不同方式利用。文本原型定义的语义空间定义了相关子空间。我们提出文本对齐的图像特征语义投影仅使用相关子空间进行分类。通过提出的任务特定语义投影P1和P2获得的注意力图表示任务相关区域。几项研究探索了仅有少量训练图像可用的少样本设置并证明使用图像嵌入结合文本嵌入可以提升分类性能。这些方法包括以不同形式结合图像和文本嵌入的免训练方法以及通过学习提示或适配器来调整VLM的方法。尽管现有工作已经利用了混合的图像和文本表示但缺乏一种有原则的、免训练的方法来处理噪声图像原型少量样本图像特征的均值。在本文中我们分析了少样本设置中基于混合原型的分类并证明混合原型是一种收缩估计器通过控制偏差-方差权衡来改进原型估计。虽然朴素地混合原型可以提升少样本分类但它并未明确利用CLIP中的跨模态对齐。因此我们提出问题我们能否利用CLIP对比训练所诱导的图像和文本原型之间的自然对齐在少样本场景下获得对真实类图像中心更好的估计少样本图像原型包含与给定分类任务无关的信息。例如图像中的某些细节如背景或实例特定属性如物体颜色对于物体分类并不那么相关。我们在图1中说明基于类标签定义的分类任务图像空间可以以不同方式被利用。我们认为文本原型张成的语义空间提供了信息用于将给定分类任务相关的图像信息与无关部分分离。我们利用CLIP中的跨模态对齐将图像原型分解为两个组件文本对齐的语义子空间用于表示仅类特定的信息以及文本正交子空间用于表示剩余的属性和实例特定细节。我们证明在文本对齐的语义子空间中混合文本和图像原型比朴素混合原型分类器提升了分类性能。然而尽管CLIP进行了对比训练图像和文本空间之间的强几何对齐并非总能实现这取决于下游数据集。使用两个嵌入空间之间的主角度量化跨模态对齐我们证明在分布外数据集如EuroSAT上CLIP确实表现出模态之间较差的对齐。因此为了解释语义对齐不佳的情况我们提出使用线性判别分析LDA分类器来利用图像空间中的方差从而形成图像特定分类器和文本对齐混合原型分类器的组合。我们的贡献总结如下我们从偏差-方差的角度分析了CLIP中图像和文本原型的混合在少样本设置中的应用。我们证明混合作为一种收缩估计器以偏差换取方差降低产生比仅图像原型更低的均方误差。我们利用CLIP的跨模态对齐来识别捕获少样本分类相关图像信息的文本对齐语义子空间。通过将图像原型分解为对齐和正交组件我们在文本对齐子空间中进行原型混合改进了原型估计和分类性能。我们证明当跨模态对齐较弱时仅依赖与文本空间对齐的图像子空间是次优的。为解决此问题我们对图像空间中的协方差进行建模以捕获互补信息。所得到的方法在多个少样本基准上优于现有的免训练方法。2 相关工作视觉-语言模型。VLMs通过大规模对比预训练学习联合图像-文本表示。CLIP在图像-文本对上优化对称对比损失产生支持强大零样本分类的共享嵌入空间。尽管有此对齐目标Liang等人证明图像和文本嵌入占据共享空间中由模态间隙分隔的不同区域。Schrodl等人将此归因于信息不平衡和对象偏差源于标题很少描述完整视觉内容。近期工作尝试关闭或利用这一间隙Eslami和de Melo提出了改进CLIP跨模态对齐的方法而Mistretta等人通过模态反转暴露了模态内错位。最近Yu等人使用文本引导注意力改进CLIP的零样本鲁棒性。在本工作中我们并非试图关闭模态间隙而是利用语义文本嵌入空间将图像空间分解为任务相关和任务无关的组件以改进少样本分类。少样本分类。CLIP的少样本适应可大致分为免训练和基于训练的方法。在免训练方法中Tip-Adapter从少样本图像特征构建键值缓存并在测试时检索它们以增强零样本预测。TIP-X扩展了这一想法通过从类名检索或生成的支持图像填充缓存实现仅名称迁移。CALIP通过无参数注意力机制增强零样本CLIP使用文本引导重新加权视觉特征。GDA提出了零样本文本分类器与基于图像的线性判别分析LDA分类器的集成。虽然这些方法结合了图像和文本特征进行分类Li等人提出了混合模态搜索用于跨模态检索。在此我们提出混合图像原型的任务相关子空间与文本原型。基于训练的提示学习方法通过优化提示token来调整CLIP。MaPLe将此扩展到两个编码器的多模态提示学习。基于适配器的方法调整轻量级模块CLIP-Adapter添加残差特征适配器TaskRes学习文本特征之上的任务特定残差MMA引入多模态适配器CLIP-LoRA对CLIP编码器应用低秩适应。LP优化类乘数以混合图像和文本logits。2SFS提出了结合提示调整与特征级适应的两阶段框架。我们提出的方法完全免训练。然而如表2所示它可以无缝应用于MaPLe和CLIP-LoRA等基于提示或适配器的方法更新的模型之上产生进一步提升。3 通过偏差-方差分析进行CLIP原型混合一种基于CLIP视觉编码器的简单免训练方法是最近类均值NCM分类器它将类原型估计为训练图像特征的样本均值并将测试样本分配给最近的原型。虽然简单有效但NCM性能取决于估计原型的质量。在本节中我们通过偏差-方差分解的视角分析原型估计并引入一种通过控制偏差-方差权衡来改进估计的混合原型估计器。3.1 最近类均值NCM原型估计器设μ i ∗ \mu_{i}^{*}μi∗​为给定类别c cc的真实总体图像类均值μ ^ i \hat{\mu}_{i}μ^​i​为从n nn个样本计算的样本经验均值。经验均值对应于NCM分类器使用的原型我们记为μ ^ n c m ≔ μ ^ i \hat{\mu}_{\mathrm{ncm}} \coloneqq \hat{\mu}_{i}μ^​ncm​:μ^​i​并通过最近原型规则用于分类。众所周知E [ μ ^ i ] μ i ∗ \mathbb{E}[\hat{\mu}_{i}] \mu_{i}^{*}E[μ^​i​]μi∗​Cov ⁡ [ μ ^ i ] Σ i 2 n \operatorname{Cov}[\hat{\mu}_{i}] \frac{\Sigma_{i}^{2}}{n}Cov[μ^​i​]nΣi2​​其中Σ i ∗ \Sigma_{i}^{*}Σi∗​是类的总体协方差。回想一下对于参数θ ∗ \theta^{*}θ∗的通用估计器θ ^ \hat{\theta}θ^均方误差MSE定义为M S E ( θ ^ , θ ∗ ) B i a s 2 ( θ ^ , θ ∗ ) V a r ( θ ^ ) , ( 1 ) \mathrm{MSE}(\hat{\theta},\theta^{*}) \mathrm{Bias}^{2}(\hat{\theta},\theta^{*}) \mathrm{Var}(\hat{\theta}), \quad (1)MSE(θ^,θ∗)Bias2(θ^,θ∗)Var(θ^),(1)样本均值是无偏的B i a s ( μ ^ n c m , μ i ∗ ) E [ μ ^ i ] − μ i ∗ 0. ( 2 ) \mathrm{Bias}(\hat{\mu}_{\mathrm{ncm}},\mu_{i}^{*}) \mathbb{E}[\hat{\mu}_{i}] - \mu_{i}^{*} 0. \quad (2)Bias(μ^​ncm​,μi∗​)E[μ^​i​]−μi∗​0.(2)因此NCM估计器的MSE简化为方差项$$\mathrm{MSE}(\hat{\mu}{\mathrm{ncm}},\mu{i}^{*}) | \mathbb{E}[\hat{\mu}{i}] - \mu{i}{*}|{2} \mathrmOriginal Abstract:Vision-language models (VLMs) like CLIP are trained with the objective of aligning text and image pairs. To improve CLIP-based few-shot image classification, recent works have observed that, along with text embeddings, image embeddings from the training set are an important source of information. In this work we investigate the impact of directly mixing image and text prototypes for few-shot classification and analyze this from a bias-variance perspective. We show that mixing prototypes acts like a shrinkage estimator. Although mixed prototypes improve classification performance, the image prototypes still add some noise in the form of instance-specific background or context information. In order to capture only information from the image space relevant to the given classification task, we propose projecting image prototypes onto the principal directions of the semantic text embedding space to obtain a text-aligned semantic image subspace. These text-aligned image prototypes, when mixed with text embeddings, further improve classification. However, for downstream datasets with poor cross-modal alignment in CLIP, semantic alignment might be suboptimal. We show that the image subspace can still be leveraged by modeling the anisotropy using class covariances. We demonstrate that combining a text-aligned mixed prototype classifier and an image-specific LDA classifier outperforms existing methods across few-shot classification benchmarks.PDF Link:2603.24528v1部分平台可能图片显示异常请以我的博客内容为准

相关文章:

Cross-Modal Prototype Alignment and Mixing for Training-Free Few-Shot Classification

Cross-Modal Prototype Alignment and Mixing for Training-Free Few-Shot Classification Authors: Dipam Goswami, Simone Magistri, Gido M. van de Ven, Bartłomiej Twardowski, Andrew D. Bagdanov, Tinne Tuytelaars, Joost van de Weijer Deep-Dive Summary: 跨模态…...

低成本搭建AI知识库:Qwen3-Embedding-4B量化版仅需3GB显存教程

低成本搭建AI知识库:Qwen3-Embedding-4B量化版仅需3GB显存教程 1. 引言:为什么选择Qwen3-Embedding-4B? 在构建AI知识库时,文本向量化模型的选择至关重要。传统方案要么性能不足,要么资源消耗过大。Qwen3-Embedding-…...

AI时代当程序员?2026年转行IT的“新活法”

早知道AI会让程序员干这个,当年说啥也不信 凌晨三点,老刘瞪着AI生成的2000行代码,这已经是他熬夜修复的第47个bug了。 AI一分钟写完的模块,他调了三天。最绝的是——每修好一个bug,AI都能“贴心”地再送出三个新bug作为…...

嵌入式新手入门:用快马平台生成带详细注释的LED控制项目

作为一个嵌入式开发新手,刚开始接触STM32时确实有点懵。寄存器配置、时钟树、GPIO模式这些概念扑面而来,光看理论文档很容易失去方向。最近我发现用InsCode(快马)平台生成带详细注释的基础项目特别适合入门,今天就以最经典的LED流水灯为例&am…...

2026年AI产品经理终极指南:零基础到精通,一篇文章掌握全部!AI产品经理学习路线!

成为一名优秀的AI产品经理不仅需要掌握相关的技术知识,还需要具备良好的产品思维、市场洞察力以及跨部门沟通协调能力。下面是一个详细的AI产品经理学习路线,旨在帮助有志于从事该职业的人士快速成长。 AI产品经理的学习路线 第一阶段:基础…...

生成式AI欺诈来袭,什么样的IP数据接口才能筑起防线?

某电商平台的风控系统发出预警:一个“新用户”正在批量下单高价商品,收货地址遍布全国,支付方式各不相同。但奇怪的是,这些订单的浏览行为、停留时间、点击轨迹几乎完全一致——这不是真人,而是生成式AI模拟的虚假用户…...

OpenClaw怎么搭建?2026年3月OpenClaw(Clawdbot)在腾讯云一键部署超全攻略

OpenClaw怎么搭建?2026年3月OpenClaw(Clawdbot)在腾讯云一键部署超全攻略。本文面向零基础用户,完整说明在轻量服务器与本地Windows11、macOS、Linux系统中部署OpenClaw(Clawdbot)的流程,包含环…...

Vue.Draggable深度解析:源码实现与高级应用实战

Vue.Draggable深度解析:源码实现与高级应用实战 【免费下载链接】Vue.Draggable SortableJS/Vue.Draggable: Vue.Draggable 是 Sortable.js 的 Vue.js 封装组件,提供了拖放排序功能,可以在 Vue 应用中轻松实现列表元素的可拖拽重排。 项目地…...

2026整家定制一线品牌选购报告:基于物理指标与国标数据的多维交叉验证

针对用户关于“2026年整家定制一线品牌推荐”及“质量好的定制品牌有哪些”的咨询,评估的核心不应仅停留在品牌知名度,而在于能否在结构力学稳定性、材料理化抗性、数字化设计精度及长效履约信用四个维度完成证据链闭环。本文通过检索 金牌家居&#xff…...

ORA-19909: datafile 1 belongs to an orphan incarnation

某项目备用库执行数据库恢复 ORA-00283: recovery session canceled due to errors ORA-19909: datafile 1 belongs to an orphan incarnation ORA-01110: data file 1: /ccdata/cc/system01.dbf RMAN> list incarnation; List of Database Incarnations DB Key Inc Key DB…...

如何快速配置HomeAssistant格力空调本地控制组件:完整操作指南

如何快速配置HomeAssistant格力空调本地控制组件:完整操作指南 【免费下载链接】HomeAssistant-GreeClimateComponent Custom Gree climate component written in Python3 for Home Assistant. Controls ACs supporting the Gree protocol. 项目地址: https://git…...

5步构建静音高效的电脑散热系统:FanControl全面指南

5步构建静音高效的电脑散热系统:FanControl全面指南 【免费下载链接】FanControl.Releases This is the release repository for Fan Control, a highly customizable fan controlling software for Windows. 项目地址: https://gitcode.com/GitHub_Trending/fa/F…...

MAA明日方舟自动化助手:5分钟快速上手完整指南

MAA明日方舟自动化助手:5分钟快速上手完整指南 【免费下载链接】MaaAssistantArknights 一款明日方舟游戏小助手 项目地址: https://gitcode.com/GitHub_Trending/ma/MaaAssistantArknights 还在为《明日方舟》重复刷图、基建管理而烦恼吗?MAA助手…...

N_m3u8DL-RE流媒体下载器终极指南:5分钟掌握加密视频下载与直播录制

N_m3u8DL-RE流媒体下载器终极指南:5分钟掌握加密视频下载与直播录制 【免费下载链接】N_m3u8DL-RE 跨平台、现代且功能强大的流媒体下载器,支持MPD/M3U8/ISM格式。支持英语、简体中文和繁体中文。 项目地址: https://gitcode.com/GitHub_Trending/nm3/…...

Typora式优雅写作体验:基于PyTorch模型的智能Markdown内容助手

Typora式优雅写作体验:基于PyTorch模型的智能Markdown内容助手 1. 重新定义写作工具 想象一下这样的场景:你正在用Markdown写一篇技术文档,刚敲下几个关键词,编辑器就自动补全了整个段落;当你纠结某个表达是否恰当时…...

从游戏报错到完美运行 DirectX修复工具实际应用案例展示

评价一款工具软件的优劣,最具有说服力的方式莫过于通过真实的实际案例来直观展示其效果和价值。 对于系统修复类工具来说,更是如此,因为用户最关心的就是它能否真正解决自己的问题。 DirectX相关问题一直是Windows游戏玩家最常遇到的技术难题…...

密码学实战:从古典密码到AES,手把手教你用Python实现加密算法

密码学实战:从古典密码到AES的Python实现之旅 密码学作为信息安全的核心支柱,其发展历程就像一部浓缩的科技史。从凯撒大帝用过的简单字母替换,到如今保护我们银行卡交易的AES算法,加密技术始终在与破解者进行着无声的较量。本文…...

【故障】解决ssh连接linux卡着不动的问题

1、原因使用xshell连接一台linux机器,发现连接不上,一直都开在连接这个界面,最后超时才停止。2、排查(1)首先,检查下防火墙或者selinuxsystem status firewalld #检查服务是否处于非Running的状态getenforc…...

HCIA复习作业

一、 实验拓扑二、 实验需求1.学校内HTTP客户端可以正常通过域名www.baidu.com访问百度的服务器 2.学校网络内部基于192.168.1.0/24划分,PC1可以访问3.3.3.0/24网段,PC2不允许 3.学校内部使用静态路由,R1和R2之间浮动静态路由 4.运营商使用动…...

从‘生日悖论’到‘碰撞攻击’:一个故事讲明白哈希函数为什么会被攻破

从生日派对到数字指纹:哈希函数的安全冒险之旅 想象一下,你正在参加一个23人的小型生日派对。服务员突然打赌说:"这里至少有两个人同一天生日。"你环顾四周觉得概率渺茫——毕竟一年有365天呢。但惊人的是,这个赌注的胜…...

你好吗吗吗吗吗

我真好...

3种方法永久保存QQ空间历史说说:GetQzonehistory实战指南

3种方法永久保存QQ空间历史说说:GetQzonehistory实战指南 【免费下载链接】GetQzonehistory 获取QQ空间发布的历史说说 项目地址: https://gitcode.com/GitHub_Trending/ge/GetQzonehistory 为什么需要GetQzonehistory:三个真实场景 想象一下&am…...

JiYuTrainer:如何一键解除极域电子教室的全屏控制限制?

JiYuTrainer:如何一键解除极域电子教室的全屏控制限制? 【免费下载链接】JiYuTrainer 极域电子教室防控制软件, StudenMain.exe 破解 项目地址: https://gitcode.com/gh_mirrors/ji/JiYuTrainer 你是否曾在机房上课时,被极域电子教室的…...

Onekey:3分钟搞定Steam游戏清单下载的终极神器

Onekey:3分钟搞定Steam游戏清单下载的终极神器 【免费下载链接】Onekey Onekey Steam Depot Manifest Downloader 项目地址: https://gitcode.com/gh_mirrors/one/Onekey 还在为复杂的Steam游戏清单获取流程而烦恼吗?Onekey作为一款专业的Steam D…...

怎么看待OpenClaw?

特别附:"词元"为何是理解这一切的关键引言:一只龙虾爬到Linux头顶2026年3月,GitHub星标榜上出现了一个奇观——一只"龙虾"爬到了Linux头顶。OpenClaw,这个从个人项目演变成的AI智能体框架,在不到四…...

刷题无效、偏科严重?脑能模型解构 K12 学习底层能力问题

一、问题定义:K12 学习低效的核心并非知识缺口,而是大脑能力结构断链在 K12 家庭教育场景中,刷题耗时但效率无提升、偏科补学却差距扩大、孩子拖延喊不动、学习焦虑厌学等问题成为普遍痛点,多数家长将其归因于孩子智商、天赋或学习…...

C++ 静态成员的生命周期管理

C静态成员的生命周期管理是面向对象编程中一个既基础又关键的话题。静态成员作为类的特殊成员,其生命周期与普通成员变量截然不同,理解它们的初始化、销毁时机以及线程安全等问题,对于编写健壮高效的C代码至关重要。本文将深入探讨静态成员的…...

如何突破英雄联盟操作效率瓶颈?League-Toolkit的5大革新功能解析

如何突破英雄联盟操作效率瓶颈?League-Toolkit的5大革新功能解析 【免费下载链接】League-Toolkit 兴趣使然的、简单易用的英雄联盟工具集。支持战绩查询、自动秒选等功能。基于 LCU API。 项目地址: https://gitcode.com/gh_mirrors/le/League-Toolkit 在快…...

如何通过League-Toolkit实现高效游戏辅助:从入门到精通的智能全攻略

如何通过League-Toolkit实现高效游戏辅助:从入门到精通的智能全攻略 【免费下载链接】League-Toolkit 兴趣使然的、简单易用的英雄联盟工具集。支持战绩查询、自动秒选等功能。基于 LCU API。 项目地址: https://gitcode.com/gh_mirrors/le/League-Toolkit L…...

Awoo Installer:破解Switch玩家的终极全能游戏安装引擎

Awoo Installer:破解Switch玩家的终极全能游戏安装引擎 【免费下载链接】Awoo-Installer A No-Bullshit NSP, NSZ, XCI, and XCZ Installer for Nintendo Switch 项目地址: https://gitcode.com/gh_mirrors/aw/Awoo-Installer 在Nintendo Switch破解生态中&a…...