当前位置：首页 > news >正文

【prompt四】Domain Prompt Learning for Efficiently Adapting CLIP to Unseen Domains

news 2026/2/9 21:23:34

motivation

领域泛化(DG)是一个复杂的迁移学习问题，旨在学习未知领域的可泛化模型。最近的基础模型(FMs)对许多分布变化都具有鲁棒性，因此，应该从本质上提高DG的性能。在这项工作中，我们研究了采用视觉语言基础模型CLIP来解决图像分类中的DG问题的通用方法。虽然ERM使用标准DG基准极大地提高了更大的主干和训练数据集的准确性，但在许多实际情况下，微调fm是不切实际的。我们提出了DPL(领域提示学习)作为一种以条件提示生成形式进行领域推理的新方法。

DPL只需要训练一个轻量级的提示生成器(三层MLP)，其参数与之前DG文献中的分类投影仪的规模相当，就可以显著提高DPL的精度。DPL与CLIP的结合提供了令人惊讶的性能，在几个标准数据集(即PACS, VLCS, OfficeHome和TerraIncognita)上将zero-shotCLIP的准确率从73.7%提高到79.3%。

1.introduce

像对比语言图像预训练(CLIP)这样的大型预训练视觉语言模型是一种新兴的模型，在学习跨许多视觉任务的可转移表征方面显示出巨大的潜力。CLIP的核心是通过将图像的表示与图像的文本描述的表示进行对比来学习图像表示，例如“一张{类名}的照片”。文本描述通常被称为提示，其设计对于提高CLIP性能至关重要。值得注意的是，CLIP可以处理看不见的类，而无需通过使用目标类名适当地更改文本描述来对它们进行微调。

本文使用DomainBed研究了CLIP对各种分布变化的鲁棒性，DomainBed是最近提出的DG设置基准。虽然之前的工作在基准测试中测试了各种DG方法，但研究最多的是集中在中等规模的预训练模型上，如ResNet18或ResNet50。在DG设置中利用CLIP有两种最简单的方法(图2)。第一种方法是对CLIP训练的图像编码器进行微调，类似于ResNet和ViT等其他视觉模型。CLIP训练的骨干网络大大优于许多仅在图像上训练的骨干网络，如ResNet、big transfer和vision transformer 。然而，与此同时，微调有时会降低某些领域的性能，这表明微调可能会扭曲预训练特征的良好特性。另一个简单方法是设计模板提示符，例如“一个{类名}的照片”。这种方法的明显优点是，它不需要优化任何网络，因此，通过预训练保持表征学习。尽管它很简单，但zero-sho CLIP在许多DG基准上仍然比在源域上微调的视觉骨干(例如ResNet18, ResNet50, ViT-B16)更稳健，而它不如由CLIP训练的微调视觉骨干。

在DG中应用CLIP的三种方法的概念说明。

(1)微调用可训练的分类器更新CLIP的图像编码器。

(2)在不更新训练域参数的情况下，在测试时使用手工提示进行zero-sho CLIP对比预测。

(3)提示学习训练一个提示优化器，然后利用优化后的提示进行预测。

DPL分属于(3)提示学习，它在训练阶段训练一个提示生

【prompt四】Domain Prompt Learning for Efficiently Adapting CLIP to Unseen Domains

motivation

1.introduce

相关文章：

【prompt四】Domain Prompt Learning for Efficiently Adapting CLIP to Unseen Domains

利用Amazon Bedrock畅玩Claude 3等多种领先模型，抢占AI高地(体验倒计时4小时)

MySql分布式事务

android基础学习

解决方案：Python画图汉字丢失显示小方块

JWT的是什么

git常用命令集合

UDP通信发送和接收 || UDP实现全双工通信

Mac 以SH脚本安装Arthas

Elasticsearch：dense vector 数据类型及标量量化

Linux C/C++下使用Lex/Yacc构建实现DBMS（Minisql）

c语言指针小白基础教学

面向对象设计之里氏替换原则

MySQL·SQL优化

Dockerfile指令大全

第八个实验：(A+B)-C的结果判断奇偶特性

设计模式：观察者模式 ⑧

【重温设计模式】迭代器模式及其Java示例

（001）UV 的使用以及导出

一文理解CAS和自旋的区别(荣耀典藏版)

后进先出（LIFO）详解

RocketMQ延迟消息机制

如何将联系人从 iPhone 转移到 Android

ArcGIS Pro制作水平横向图例+多级标注

JVM暂停（Stop-The-World，STW）的原因分类及对应排查方案

DeepSeek 技术赋能无人农场协同作业：用 AI 重构农田管理 “神经网”

推荐 github 项目:GeminiImageApp(图片生成方向，可以做一定的素材)

GitHub 趋势日报 (2025年06月06日)

Git常用命令完全指南：从入门到精通

解析奥地利 XARION激光超声检测系统：无膜光学麦克风 + 无耦合剂的技术协同优势及多元应用