【prompt一】Domain Adaptation via Prompt Learning
1.Motivation
当前的UDA方法通过对齐源和目标特征空间来学习域不变特征。这种对齐是由诸如统计差异最小化或对抗性训练等约束施加的。然而,这些约束可能导致语义特征结构的扭曲和类可辨别性的丧失。
在本文中,引入了一种新的UDA提示学习范式,即通过提示学习进行领域适应(DAPL)。使用了预训练的视觉语言模型,并且只优化了很少的参数。主要思想是将领域信息嵌入到提示中,这是一种由自然语言生成的表示形式,然后用于执行分类。该域信息仅由来自同一域的图像共享,从而根据每个域动态调整分类器。
2.Introduce
通过对齐域来减少差异可能会导致语义信息的丢失。当数据分布的流形结构很复杂时,这种损失来自于语义和领域信息的纠缠性。为了解决这个问题,最近的一些UDA方法主张保留语义信息以保持类的可判别性。然而,这些方法在领域对齐和保留语义特征之间存在微妙的权衡,因为两个目标可能是对立的。学习解纠缠的语义和领域表示可以是一种选择,因为领域对齐可以被丢弃。
为了学习解纠缠语义和领域表示,将提示学习方法引入UDA,通过学习连续标签空间中的表示。图2说明了提示设计。提示符由三部分组成:与领域无关的上下文、特定于领域的上下文和类标签(token)。每个图像通过提示符的类标签对应一个ground truth类。例如,显示“狗的艺术作品”的图像可以对应提示“绘画狗的图像”。与领域无关的上下文表示一般任务信息,并在所有图像之间共享。特定于域的上下文表示域信息,并在每个域中共享。类标签区分不同的类别。
这种提示学习方法使我们能够学习领域和类别的解纠缠表示,并避免语义信息的丢失。应用对比目标进行训练。图像和文本只有在领域和类别匹配的情况下才构成一对正例,其他情况都是反例。通过对比XS和y的表示,“sketch”和“dogs”的图像和文本表示分别在特征空间中对齐。此外,通过对比XT和y,“sketch”的文本表示被推离“photo”域。因此,领域和类别的表示分别是对齐的。采用对比语言图像预训练(contrast Language Image Pretraining, CLIP)作为主干,促进提示学习和对比学习。
3.Method
3.1. Preliminaries
采用CLIP作为主干。模型由图像编码器f(·)和文本编码器g(·)组成。图像编码器可以是ResNet或Vision Transformer (ViT),文本编码器是Transformer。图像和文本输入可以通过编码器直接从高维空间转换到低维特征空间。
CLIP以对比的方式使用图像-文本对进行训练。每个输入文本以“一张[CLASS]的照片”的格式描述一个类别([CLASS]是类别标记)。正对是一个图像xi及其对应描述xi的类别的文本ti。负对是小批量中图像xi以及具有不相关描述tj, j≠i。训练目标是最大化正对的余弦相似度,最小化负对的余弦相似度。对比学习目标将图像和文本表示在相同的特征空间中对齐。
在特征对齐后,该模型能够进行zero-shot推理。通过转发K个类别描述,一个图像x将属于相似度最大的类别:
其中T是用户定义的超参数(温度),<.>表示余弦相似度。
上面描述的输入文本是一个手工设计的提示符,由一系列离散的记号组成。人工设计的提示符被转换成词嵌入空间中的固定向量。由于这些向量对于类别的表示可能不是最优的,所以可以优化标记的连续嵌入。连续表示tk允许更精确地描述语义特征,这对上下文变量学习很重要。
现有的提示学习方法采用了一种领域不可知论的风格,即上下文在所有领域和所有类别之间共享。它遵循统一的风格:
式中[v]m1, m1∈{1,2,…M1}是与嵌入词具有相同维数的向量,M1是提示符中应用的上下文令牌的数量。
3.2. Domain Adaptation via Prompt Learning
由于单独的领域不可知上下文不能处理领域之间的分布转移,使用领域特定上下文(DSC)来捕获每个领域的独特特征。具体地说,提示包含两个对应的上下文,一个域不可知论上下文和一个域特定上下文。使用来表示特定于领域的标记,这些标记与词嵌入具有相同的维度。特定于领域的上下文在所有类别之间共享,但专门为每个领域设计
。特定于域的token的数量用M2表示。域指示器表示源域和目标域d∈{s, u}。整个提示符定义为以下格式:
当文本特征空间中的[CLASS]token不能完全建模每个类之间的差异时,领域不可知的上下文可以遵循由类特定上下文表示的类特定样式。每个类都可以用不同的token初始化:
可训练的类特定上下文可以学习比仅[CLASS]令牌更细粒度的表示。
本文的主要结果基于类特定上下文和领域特定上下文,如Eq.(5)。
有2K个类别,因为分别为源域和目标域应用了不同的提示任务。给定源域的一组训练样本{xsi, ysi}Nsi=1,可以得到训练样本属于第k类的概率:
以图像xi属于k类的概率,最小化给定真标签ysi的标准交叉熵损失。损失计算如下:
为了进一步利用未标记的数据,在目标域上生成伪标签。从K个预测概率最大的类中选择,作为训练数据的伪标签
:
仅为最大预测概率大于伪标签质量的固定阈值τ的未标记数据生成伪标签。利用CLIP的zero-shot推理能力来生成伪标签。用对比目标Eq.(6)来训练这些未标记的图像及其伪标签的目标域提示符:
其中I{·}为指示函数。总的来说,提出的通过提示学习(DAPL)的领域适应方法可以以端到端方式进行训练,并且具有总对比损失:
现有的域自适应方法在源域上训练分类器学习一个条件概率分布P (y|xs)。通过对齐P (f(xs))和P (f(xu))的边际分布,可以直接利用条件概率在目标域上进行推理。当条件概率分布P (y|xs)≠P (y|xu)时,这些方法可能面临性能下降的风险。本文方法不对齐边缘分布,而是学习两个条件概率分布P (y|xs)和P(y|xu)通过学习两组提示符, k∈{1,2,…K}。因此,本文方法既可以处理条件分布偏移,也可以处理边际分布偏移。DAPL的概述如图3所示。
通过提示学习的领域适应(DAPL):(a) DAPL训练可学习的上下文变量:领域不可知的上下文变量和领域特定的上下文变量,以及由文本编码器组合和编码的[CLASS]令牌。(b)图像编码器对来自不同域的图像进行编码。(c)接下来,计算文本和图像特征之间的余弦相似度,并鼓励正对(具有匹配的域和类)对齐。在Eq.(6)中定义分类概率,并在图像特征和地面真值类之间应用交叉熵损失来训练网络。
3.3. Disentanglement by Contrastive Learning
采用对比损失L作为优化目标。在这里,提供了一个直观的解释为什么这个目标达到了预期的目标:视觉编码器和文本编码器各自将输入编码成两个分离的潜在表示,将领域信息与内在类信息分离。只有当类信息和领域信息对齐时,文本特征和图像特征之间的距离才会最小化。通过最小化这些正对之间的距离(最大化相似性),可以最大化正确标签的概率(参见Eq.(6))。
首先,假设可视化表示f(xdi)包含两部分:域d的域信息和类c的固有类信息(图4 (a), zd和zc)。
同样,语言嵌入g(tdk)包含同样的两部分:域d的域信息和类c的类信息(图4 (a), pd和pc)。
接下来,证明了通过优化对比目标可以将这些领域信息和类信息分离开来。
图4 (b)提供了一个说明性示例。在这个例子中,有四个图像-文本对,它们有两个类(猫、狗)和两个域(照片、素描)。以图像I1,提示符P1和P2为例。图像可以与提示符P1形成正对,与提示符P2形成负对。通过优化对比目标,使图像特征f(I1)与g(P1)的句子嵌入之间的距离最小(绿色),而图像特征f(I1)与g(P2)的句子嵌入之间的距离最大(红色)。声称这迫使狗的类信息从照片或素描的领域表示中解脱出来。相反,假设领域信息和类信息在表示中仍然纠缠在一起,即领域表示(p1d和p2d)中包含狗的类信息。在这种情况下,I1和P2仍然匹配,并且f(I1)和g(P2)之间的距离可以通过删除该类信息进一步最大化。换句话说,通过优化对比损失来减少领域表示中的类信息。同样,取(I1, P3)为负对,从类表示中去掉域信息,否则由于类表示中照片的域信息纠缠,f(I1)仍然匹配g(P3)。结合这两个负对,可以通过最小化对比目标,迫使领域表示和内在类信息相互分离。
4.实验
4.1 setting
实现细节。对于Office-Home,使用预训练的CLIP模型,并采用ResNet-50作为其图像编码器。在编码器中固定参数,并使用mini-batchSGD优化器训练提示符200 epoch,其中批大小设置为32。初始学习率设置为0.003,并使用余弦退火规则进行衰减。对于VisDA-2017,使用ResNet-101作为图像编码器,利用预训练的CLIP模型获得结果。图像和文本编码器的参数是固定的,使用32个批次的小批量SGD优化器训练提示符25个epoch。最初将学习率设置为0.003,并使用余弦退火规则进行衰减。对于超参数,上下文令牌M1和域特定令牌M2的长度都设置为16。令牌号的其他选择将在第4.3节中讨论。上下文向量使用标准偏差为0.02的零均值高斯分布随机初始化。Office-Home的伪标记阈值τ设置为0.6,VisDA-2017设置为0.5。关于τ值的进一步讨论见第4.3节。
4.2 实验结果
4.3 消融实验
消融:特定于领域的上下文。为了证明领域特定上下文的有效性和必要性,比较了以下提示设置在VisDA-2017数据集上的性能:
(1)手动设计提示“一张[CLASS]的照片”作为基线;
(2)统一上下文形式的领域不可知论提示(如式(3)所示);
(3)特定类别语境形式的领域不可知论提示;
(4)领域不可知论提示,其形式为与领域特定上下文统一的上下文(如式(4)所示);
(5)领域不可知提示,其形式为类特定上下文和领域特定上下文(如Eq.(5)所示)。
消融:上下文令牌长度。在表4中进行实验,探索上下文令牌长度的影响。
与领域无关和特定于领域的上下文令牌的长度分别用M1和M2表示。从结果可以看出,当M1 < M2时,性能稍低。总的来说,令牌长度对本文方法的性能影响很小。这意味着可以用少量的标记来学习连续表示。
消融:伪标签阈值。在表5中,给出了本文方法对超参数τ的灵敏度,范围从0.4到0.7。由于伪标签的质量和数量之间的权衡,本文方法似乎对τ不敏感。例如,当τ为0.7时,训练模型的伪标签更少,但置信度更高,伪标签的质量可以弥补数量减少带来的性能下降。
相关文章:

【prompt一】Domain Adaptation via Prompt Learning
1.Motivation 当前的UDA方法通过对齐源和目标特征空间来学习域不变特征。这种对齐是由诸如统计差异最小化或对抗性训练等约束施加的。然而,这些约束可能导致语义特征结构的扭曲和类可辨别性的丧失。 在本文中,引入了一种新的UDA提示学习范式࿰…...

视频编辑与制作,添加视频封面的软件
如今,视频已经成为了我们生活中不可或缺的一部分,无论是社交媒体上的短视频,还是电影、电视剧,视频都以其独特的魅力吸引着我们的目光。而在这背后,视频剪辑软件功不可没。今天,我就为大家揭秘一款新一代的…...

Deepin更换仿Mac主题
上一篇博客说了要写一篇deepin系统的美化教程 先看效果图: 准备工作: 1.你自己 嘻嘻嘻 2.能上网的deepin15.11电脑 首先去下载主题 本次需要系统美化3部分:1.图标 2.光标 3.壁纸 开始之前,请先把你的窗口特效打开,…...
【Flink-Kafka-To-ClickHouse】使用 Flink 实现 Kafka 数据写入 ClickHouse
【Flink-Kafka-To-ClickHouse】使用 Flink 实现 Kafka 数据写入 ClickHouse 1)导入相关依赖2)代码实现2.1.resources2.1.1.appconfig.yml2.1.2.log4j.properties2.1.3.log4j2.xml2.1.4.flink_backup_local.yml 2.2.utils2.2.1.DBConn2.2.2.CommonUtils2.…...

浅谈Redis分布式锁(下)
作者简介:大家好,我是smart哥,前中兴通讯、美团架构师,现某互联网公司CTO 联系qq:184480602,加我进群,大家一起学习,一起进步,一起对抗互联网寒冬 自定义Redis分布式锁的…...
Django Rest Framework框架的安装
Django Rest Framework框架的安装 Django Rest Framework框架的安装 1.DRF简介2.安装依赖3.安装使用pip安装添加rest_framework应用 1.DRF简介 Django REST Framework是Web api的工具包。它是在Django框架基础之上,进行了二次开发。 2.安装依赖 链接python安装 …...

深度学习(七):bert理解之输入形式
传统的预训练方法存在一些问题,如单向语言模型的局限性和无法处理双向上下文的限制。为了解决这些问题,一种新的预训练方法随即被提出,即BERT(Bidirectional Encoder Representations from Transformers)。通过在大规模…...

如何用Excel制作一张能在网上浏览的动态数据报表
前言 如今各类BI产品大行其道,“数据可视化”成为一个热门词汇。相比价格高昂的各种BI软件,用Excel来制作动态报表就更加经济便捷。今天小编就将为大家介绍一下如何使用葡萄城公司的纯前端表格控件——SpreadJS来实现一个Excel动态报表: 实…...

双向数据绑定是什么
一、什么是双向绑定 我们先从单向绑定切入单向绑定非常简单,就是把Model绑定到View,当我们用JavaScript代码更新Model时,View就会自动更新双向绑定就很容易联想到了,在单向绑定的基础上,用户更新了View,Mo…...
鱼眼标定方式
鱼眼作用 人单眼水平视角最大可达156度,垂直方向150度。为了增加可视范围,摄像头可以通过畸变参数扩大视野,一般100度到200度的fov。所以鱼眼是为了看的视野更大,注意在一定分辨率下,fov边缘的像素点稀疏,…...
详解Keras3.0 KerasNLP Models: GPT2 GPT2Tokenizer
1、GPT2Tokenizer 用于将文本数据转换为适合训练和预测的格式,主要功能是将输入的文本进行分词、编码等操作,以便在神经网络中使用 keras_nlp.models.GPT2Tokenizer(vocabulary, merges, **kwargs) 参数说明 vocabulary:一个字典&#x…...

2016年第五届数学建模国际赛小美赛B题直达地铁线路解题全过程文档及程序
2016年第五届数学建模国际赛小美赛 B题 直达地铁线路 原题再现: 在目前的大都市地铁网络中,在两个相距遥远的车站之间运送乘客通常需要很长时间。我们可以建议在两个长途车站之间设置直达班车,以节省长途乘客的时间。 第一部分…...

三秦通ETC续航改造
前些天开车时ETC每隔2分钟滴滴响一下,重插卡提示电池电压低 2.8V。看来应该是电池不行了。去银行更换ETC应该是需要费用的。还有一种办法是注销掉,然后去别的银行办一个。不过我想自己更换电池试一下。 首先拆下ETC,我使用的办法是开水烫。烧…...

使用Python实现发送Email电子邮件【第19篇—python发邮件】
文章目录 👽使用Python实现发送Email电子邮件🎶实现原理🏃Python实现发送Email电子邮件-基础版👫实现源码🙆源码解析 💇Python实现发送Email电子邮件-完善版👫实现源码🙆源码解析&am…...
Docker基本命令和Docker怎么自己制作镜像
基本命令 启动新的容器(指定容器名称和端口映射【主机端口:容器端口】) docker run --name 容器名 -p 8080:80 镜像名 启动新的容器(交互式) docker run -it centos7-with-jdk /bin/bash 特权方式启动容器 docker run -d --…...

Netty-2-数据编解码
解析编解码支持的原理 以编码为例,要将对象序列化成字节流,你可以使用MessageToByteEncoder或MessageToMessageEncoder类。 这两个类都继承自ChannelOutboundHandlerAdapter适配器类,用于进行数据的转换。 其中,对于MessageToMe…...

伽马校正:FPGA
参考资料: Tone Mapping 与 Gamma Correction - 知乎 (zhihu.com) Book_VIP: 《基于MATLAB与FPGA的图像处理教程》此书是业内第一本基于MATLAB与FPGA的图像处理教程,第一本真正结合理论及算法加速方案,在Matlab验证,以及在FPGA上…...

【SpringCloud笔记】(8)服务网关之GateWay
GateWay 概述简介 官网地址: 上一代网关Zuul 1.x:https://github.com/Netflix/zuul/wiki(有兴趣可以了解一下) gateway:https://cloud.spring.io/spring-cloud-static/spring-cloud-gateway/2.2.1.RELEASE/reference/…...

Compose常用布局
Compose布局基础知识 上一节对Compose做了简单的介绍,本章节主要介绍Compose中常用的布局,其中包括三个基础布局(Colmun、Row、Box);以及其他常用布局(ConstraintLayout 、BoxWithConstraints、HorizontalP…...

使用keytool查看Android APK签名
文章目录 一、找到JDK位置二、使用方法2.1 打开windows命令行工具2.2 查看签名 三、如何给APK做系统签名呢? 一、找到JDK位置 安卓AS之后,可选择继续安装JDK,如本文使用amazon版本默认位置:C:\Users\66176.jdks\corretto-1.8.0_342可通过自…...
DeepSeek 赋能智慧能源:微电网优化调度的智能革新路径
目录 一、智慧能源微电网优化调度概述1.1 智慧能源微电网概念1.2 优化调度的重要性1.3 目前面临的挑战 二、DeepSeek 技术探秘2.1 DeepSeek 技术原理2.2 DeepSeek 独特优势2.3 DeepSeek 在 AI 领域地位 三、DeepSeek 在微电网优化调度中的应用剖析3.1 数据处理与分析3.2 预测与…...

Unity3D中Gfx.WaitForPresent优化方案
前言 在Unity中,Gfx.WaitForPresent占用CPU过高通常表示主线程在等待GPU完成渲染(即CPU被阻塞),这表明存在GPU瓶颈或垂直同步/帧率设置问题。以下是系统的优化方案: 对惹,这里有一个游戏开发交流小组&…...
从零实现富文本编辑器#5-编辑器选区模型的状态结构表达
先前我们总结了浏览器选区模型的交互策略,并且实现了基本的选区操作,还调研了自绘选区的实现。那么相对的,我们还需要设计编辑器的选区表达,也可以称为模型选区。编辑器中应用变更时的操作范围,就是以模型选区为基准来…...

SCAU期末笔记 - 数据分析与数据挖掘题库解析
这门怎么题库答案不全啊日 来简单学一下子来 一、选择题(可多选) 将原始数据进行集成、变换、维度规约、数值规约是在以下哪个步骤的任务?(C) A. 频繁模式挖掘 B.分类和预测 C.数据预处理 D.数据流挖掘 A. 频繁模式挖掘:专注于发现数据中…...

UDP(Echoserver)
网络命令 Ping 命令 检测网络是否连通 使用方法: ping -c 次数 网址ping -c 3 www.baidu.comnetstat 命令 netstat 是一个用来查看网络状态的重要工具. 语法:netstat [选项] 功能:查看网络状态 常用选项: n 拒绝显示别名&#…...

最新SpringBoot+SpringCloud+Nacos微服务框架分享
文章目录 前言一、服务规划二、架构核心1.cloud的pom2.gateway的异常handler3.gateway的filter4、admin的pom5、admin的登录核心 三、code-helper分享总结 前言 最近有个活蛮赶的,根据Excel列的需求预估的工时直接打骨折,不要问我为什么,主要…...
LLM基础1_语言模型如何处理文本
基于GitHub项目:https://github.com/datawhalechina/llms-from-scratch-cn 工具介绍 tiktoken:OpenAI开发的专业"分词器" torch:Facebook开发的强力计算引擎,相当于超级计算器 理解词嵌入:给词语画"…...

ardupilot 开发环境eclipse 中import 缺少C++
目录 文章目录 目录摘要1.修复过程摘要 本节主要解决ardupilot 开发环境eclipse 中import 缺少C++,无法导入ardupilot代码,会引起查看不方便的问题。如下图所示 1.修复过程 0.安装ubuntu 软件中自带的eclipse 1.打开eclipse—Help—install new software 2.在 Work with中…...

QT: `long long` 类型转换为 `QString` 2025.6.5
在 Qt 中,将 long long 类型转换为 QString 可以通过以下两种常用方法实现: 方法 1:使用 QString::number() 直接调用 QString 的静态方法 number(),将数值转换为字符串: long long value 1234567890123456789LL; …...
React---day11
14.4 react-redux第三方库 提供connect、thunk之类的函数 以获取一个banner数据为例子 store: 我们在使用异步的时候理应是要使用中间件的,但是configureStore 已经自动集成了 redux-thunk,注意action里面要返回函数 import { configureS…...