当前位置: 首页 > article >正文

知识引导上下文优化(KgCoOp):一种解决灾难性遗忘的 Prompt Tuning 机制

来源DeepHub IMBA 本文约3000字建议阅读5分钟本文提出了一种简单有效的约束机制。视觉-语言模型VLMs如 CLIP 彻底改变了零样本图像识别的处理方式。这类模型在包含 4 亿个图像-文本对的大规模数据集上进行训练捕获了海量通用知识具备了识别未被明确训练过对象的能力。当尝试通过 Prompt Tuning 过程将这些全能型模型适配到特定下游任务时通常会遇到瓶颈。这是因为模型在特定任务上变成了专家却不可避免地牺牲了原有的基础智能这种现象在业内被称为 Base-to-New 泛化困境。论文《Visual-Language Prompt Tuning with Knowledge-guided Context Optimization》KgCoOp深入研究了这一问题提出了一种简单有效的约束机制。现代机器学习系统经常被部署在不断有新类别出现的环境中。如果一个模型只能在已知类别上保持高准确率面对新类别时却表现糟糕其在实际工程应用中的可靠性就会大打折扣。提高对未见类别的泛化能力是构建泛化的视觉-语言系统的必由之路。Knowledge-guided Context OptimizationKgCoOp框架概述展示了如何使用知识引导损失对可学习 Prompt 进行正则化以保持泛化能力。为什么 CoOp 在未见类别上失败Prompt Tuning 的具体实现之一 Context OptimizationCoOp用可学习的上下文向量替代了固定的手工模板如 a photo of a [Class]。这种微调方式拉升了模型在训练期见过的 Base 类别上的表现随之而来的却是灾难性知识遗忘。在少量标注样本上微调时模型会学习到仅对这些特定类别有判别性的文本知识从而严重偏离其他所有类别。跨 11 个基准测试的实证数据揭示了一个明显的趋势——标准微调CoOp虽然提升了 Base 准确率却把新类别上的性能压低到了不仅不及预期甚至低于原始零样本模型的水准。零样本 vs. 标准微调的性能对比Data averaged across 11 benchmarks using ViT-B/16.遗忘的几何学新类别性能损失的程度▽new与可学习 Prompt 嵌入wcoop)和原始手工 CLIP 嵌入wclip)之间的欧几里得距离直接一致。Base-to-New 泛化对比显示标准 Prompt Tuning 提高了已见类别的性能但降低了未见类别的准确率。学习到的 Prompt 与手工 Prompt 之间的距离越大未见类别上的性能退化越严重。在 DTD纹理和 EuroSAT卫星影像等数据集中学习到的 Prompt 偏离 CLIP 锚点最远泛化差距也最为悬殊。如果能将可学习 Prompt 限制在原始通用知识的附近就可以维持原有的泛化能力。Knowledge-guided Context OptimizationKgCoOpKgCoOp 引入了一种新的正则化框架。该框架不再允许 Prompt 在优化过程中自由漂移专门加入了一个知识引导损失(Lkg)专门用于最小化可学习 Prompt 与手工 Prompt 之间的差距。A. 前置知识 - CLIP 和 CoOp零样本 CLIP 中图像嵌入x和类别y的预测概率p(y|x)计算方式为其中d(x,__wy^__clip)代表余弦相似度(w^__clip)代表来自手工模板的嵌入。CoOp 将这些模板替换为M个可学习的上下文向量V {v1, v2, …, vM }此时 Prompt 变为ti^coop {v1 , v2 , ..., vM , ci }ci为类别 Token。B. KgCoOp 公式KgCoOp 提出减少可学习 Prompt 与手工 Prompt 之间的物理距离能够有效缓解底层知识的遗忘。其训练目标是在标准交叉熵损失(Lce)的基础上叠加这一新约束其中引入的知识引导损失(Lkg)定义为微调后的嵌入wi与 CLIP 锚点 (wi^clip)之间的均方欧几里得距离在最小化这个距离的过程中KgCoOp 强制模型在针对当前任务进行参数优化的同时记住其通用预训练特征。实验设置与基准测试相关指标在 11 个多样化的图像分类基准上对 KgCoOp 进行了评估实验骨干网络选用 ResNet-50 和 ViT-B/16测试条件主要设定为 16-shot。覆盖的数据集包含了 ImageNet、Caltech101 等通用对象OxfordPets、StanfordCars、Flowers102、Food101、FGVCAircraft 等细粒度类别以及 EuroSAT卫星影像、UCF101动作识别、DTD纹理、SUN397场景等专业领域。Comparison in the base-to-new setting with different K-shot samples in terms of the average performance among all 11 datasets and backbones(ViT-B/16 and ResNet-50)测试结果显示KgCoOp 在所有参测设置的平均统计中取得了最高的调和均值。ProGrad 在 Base 类别上确实表现更好但在处理新类别时与 KgCoOp 存在量级差异。具体到 ViT-B/16 骨干网络配合 16 个样本的场景下KgCoOp 把新类别的准确率相较于 CoOp 基线拉高了 5.61%比 CoCoOp 也高出 1.91%。这一数据佐证了 KgCoOp 较好地平衡了任务特定性能与通用性基本化解了 Base-Novel 困境。应对 Base-to-New 挑战工程上的核心诉求是在不牺牲 Base已见类别准确率的前提下尽可能挖掘 New未见类别的性能潜力。采用 ViT-B/16 前置配合 16-shotKgCoOp 在新类别准确率指标上相对标准 CoOp 基线提升了 5.61%。综合 11 个数据集的数据KgCoOp 测得 77.0% 的调和均值峰值压制了 CoCoOp75.83%和 ProGrad76.16%等路线。在 EuroSAT、UCF101 这类特征专业性较强的数据集上KgCoOp 也在 8 个基准中拿到了新类别的最高分。领域泛化场景中的表现领域泛化DG主要用于测试类别标签恒定但数据源发生分布偏移时模型展现出的抵抗衰减能力。实验流程上先使用 16-shot 样本在标准 ImageNet 集中进行训练随后转至四个分布外的变体集ImageNetV2、ImageNet-Sketch、对抗样本集 ImageNet-A 和渲染集 ImageNet-R中跑评估。Comparison of prompt learning in the domain generalization with 16-shot source samples where vp and tp denote the visual prompting and textual prompting, respectively.效率与泛化的指标分解超参数 λ 的敏感度表现。定量分析揭示出一个直接规律增大 λ 可以减小 Lkg 距离迫使学习得到的 Prompt 进一步贴近手工 Prompt。距离收窄带动的调和均值拉升在 λ8.0 时见顶。继续加大 λ 会让约束变得过于苛刻反而阻断了模型对当前任务特有判别特征的吸收引发指标回落。只要约束在一个合理的区间内最小化学习知识与通用知识间的偏差确实是保持未见领域泛化水位的主力手段。计算开销与训练耗时比对。计算嵌入空间的欧几里得距离带来的算力开销微乎其微。CoCoOp 因为需要给每一个实例单独生成图像条件的上下文速度慢了将近 26 倍160 ms/image。ProGrad 要计算梯度并为每次参数更新做对齐检查耗时同样居高不下22 ms/image。相比之下KgCoOp 的吞吐量达到了 6m/s基本做到了用最低的时间成本换取第一梯队的精度。Lkg 项在现有框架里的兼容性。Lkg 约束不是一个孤立的技巧它完全可以作为插件融合到其他的 Prompt Tuning 架构当中。从 ViT-B/16 的训练时间与性能表可以看出外挂知识引导约束后CoCoOp 和 ProGrad 的新类别性能和调和均值都出现了一致的上扬。CoCoOp 叠加 Lkg 后新类别准确率从 71.69% 升至 74.75%调和均值涨了 0.49%。ProGrad 叠加 Lkg 后新类别准确率从 70.75% 升至 74.72%调和均值由 76.16% 爬到 76.63%。针对标准文本 Prompt Tuning 发现的灾难性遗忘已被证实是跨网络架构的底层通病而 KgCoOp 这一套逻辑具备横向拓展到更多 Prompt 体系落地应用的潜力。上下文长度的影响因素。为了对标现有的基线实验虽然把上下文长度 M4 作为了默认测试标准但在消融分析中发现把长度设定为 8 个 Token能在已见和未见类别上挤出更大的性能空间。如果有算力支撑稍长的序列长度这是一个低成本的性能调优发力点。Effect of contect lengthEffect of Initialization局限探讨KgCoOp 在提拉未见类别泛化能力的同时依然面临着稳定性与适应性博弈的老问题。给知识引导约束加码未见类别的评分会变好看但已见类别的上限往往会被压低几分。这种此消彼长折射出一个硬约束的副作用限定了学习到的 Prompt 与原始 CLIP 表征的物理距离扼杀了过拟合的风险也削弱了模型向特定偏门场景彻底倾斜的灵活性。引入超参数 λ 意味着多了一层调参负担。设定偏差轻则导致欠拟合重则让 Prompt 机制的自适应能力名存实亡。总结自动匹配约束强度的机制依然是工程界亟待攻克的盲区。未来的迭代如果尝试引入数据驱动的超参数自适应模型在稳定性和灵活性之间的切换将更加从容。调整乃至约束本身跟基础模型的参数优化处于同等地位。KgCoOp 提供了一套务实的调优路径参考清单。面对基座模型首要动作是跑通零样本基线摸清泛化指标的绝对谷底在哪。在遇到硬件算力瓶颈或是延迟卡控严格的生产环境KgCoOp 是直接拿来保底的降本方案。调试期间密切监测期望校准误差ECE可以规避 Lkg 约束过重引发的概率输出欠置信。维护微调参数与源知识的几何对齐关系是一套经过验证的轻量级技法仅凭一个欧几里得距离损失便兜住了在新领域的下限摆脱了对新样本增量数据的过度依赖。by Gauri Kosurkar编辑文婧关于我们数据派THU作为数据科学类公众号背靠清华大学大数据研究中心分享前沿数据科学与大数据技术创新研究动态、持续传播数据科学知识努力建设数据人才聚集平台、打造中国大数据最强集团军。新浪微博数据派THU微信视频号数据派THU今日头条数据派THU

相关文章:

知识引导上下文优化(KgCoOp):一种解决灾难性遗忘的 Prompt Tuning 机制

来源:DeepHub IMBA 本文约3000字,建议阅读5分钟本文提出了一种简单有效的约束机制。视觉-语言模型(VLMs)如 CLIP 彻底改变了零样本图像识别的处理方式。这类模型在包含 4 亿个图像-文本对的大规模数据集上进行训练,捕获…...

C++/Qt 使用 Tushare 获取股票信息

探索数据之源:使用tushare为Qt/C学习项目获取股票数据在进行金融量化分析或学习金融市场行为时,获取高质量、结构化的股票数据是至关重要的第一步。作为一个计划将Qt/C用于金融数据可视化或策略模拟的学习者,我近期深入体验了使用Python库tus…...

VR视频转换终极指南:让3D内容在普通设备上轻松播放

VR视频转换终极指南:让3D内容在普通设备上轻松播放 【免费下载链接】VR-reversal VR-Reversal - Player for conversion of 3D video to 2D with optional saving of head tracking data and rendering out of 2D copies. 项目地址: https://gitcode.com/gh_mirro…...

如何用ChatALL实现AI智能协同:一次提问,多模型对比的解决方案

如何用ChatALL实现AI智能协同:一次提问,多模型对比的解决方案 【免费下载链接】ChatALL Concurrently chat with ChatGPT, Bing Chat, Bard, Alpaca, Vicuna, Claude, ChatGLM, MOSS, 讯飞星火, 文心一言 and more, discover the best answers 项目地…...

好用还专业!高效论文写作全流程AI论文网站推荐(2026 最新)

论文写作全流程可拆解为文献调研→选题/开题→大纲/初稿→文献综述→降重/去AI味→润色/格式→查重/投稿七大环节,以下工具按环节精准匹配,兼顾中文适配、降重能力、去AI痕迹、学术合规四大核心需求,覆盖免费/付费、通用/垂直场景。2026年AI论…...

缺失的第一个正数(力扣100)

最朴素的想法就是从1开始查找,看看谁不在,时间复杂度为On但是需要把原数组变成集合,空间复杂度为On不符合题目的常数级空间开销我们要找的是“第一个缺失的正数”。如果数组长度是 $N$,那么这个答案一定落在 [1, N1] 这个区间里。…...

终极简单教程:如何使用bilibili-parse免费获取B站视频资源

终极简单教程:如何使用bilibili-parse免费获取B站视频资源 【免费下载链接】bilibili-parse bilibili Video API 项目地址: https://gitcode.com/gh_mirrors/bi/bilibili-parse 想要快速获取B站视频资源却不知道从何入手?bilibili-parse作为一款简…...

3D元器件库技术解析与工程应用指南

## 1. 3D元器件库技术解析与应用指南### 1.1 3D封装库的技术价值 在现代电子设计自动化(EDA)流程中,高质量的3D元器件库可显著提升设计效率。本套封装库包含1088个标准封装模型,涵盖电阻器、电容器、接线端子、IC芯片、晶振等常见电子元件,所…...

SAP FICO财务账期管理实战:关键配置与月结操作指南

1. SAP FICO财务账期管理基础概念 财务账期管理是SAP FICO模块中最基础也最重要的功能之一。简单来说,它就像财务部门的"门禁系统",控制着哪些会计凭证能在特定时间段被录入系统。想象一下,如果超市收银台没有营业时间限制&#xf…...

手把手教你用NOAA气象数据做可视化分析(含常见字段解析与避坑指南)

手把手教你用NOAA气象数据做可视化分析(含常见字段解析与避坑指南) 气象数据可视化是理解气候模式、分析极端天气事件的重要工具。美国国家海洋和大气管理局(NOAA)提供的全球历史气候网络日数据(GHCN-Daily&#xff0…...

5个必知技巧:让你的PT下载效率提升300%的浏览器插件指南

5个必知技巧:让你的PT下载效率提升300%的浏览器插件指南 【免费下载链接】PT-Plugin-Plus PT 助手 Plus,为 Microsoft Edge、Google Chrome、Firefox 浏览器插件(Web Extensions),主要用于辅助下载 PT 站的种子。 项…...

深度剖析:synchronized 底层实现原理(JVM 视角)

一、Java对象内存布局的深度拆解原文提到了对象头,这里补充64位JVM的完整对象布局和对齐填充的底层原因。1.1 64位JVM的完整对象结构text┌─────────────────────────────────────────────┐ │ 对象头…...

类型注解写错=线上Bug潜伏!:3个导致Pydantic崩溃、FastAPI 500、mypy静默失效的致命细节

第一章:类型注解写错线上Bug潜伏!:3个导致Pydantic崩溃、FastAPI 500、mypy静默失效的致命细节泛型未参数化:List 而非 List[str] 的隐式陷阱 Pydantic v2 强制要求泛型类型必须显式参数化。若仅写 List(而非 List[str…...

利用快马平台快速构建免费节点测试工具原型,十分钟完成开发

今天想和大家分享一个快速验证免费节点可用性的小工具开发过程。作为一个经常需要测试代理节点的开发者,手动一个个验证实在太费时间,于是我用InsCode(快马)平台快速搭建了一个原型工具,整个过程比想象中简单很多。 需求分析 免费节点测试工具…...

Windows Defender移除工具终极指南:如何彻底禁用Windows Defender提升系统性能

Windows Defender移除工具终极指南:如何彻底禁用Windows Defender提升系统性能 【免费下载链接】windows-defender-remover A tool which is uses to remove Windows Defender in Windows 8.x, Windows 10 (every version) and Windows 11. 项目地址: https://git…...

ComfyUI与Stable Diffusion WebUI模型共享终极指南:如何通过extra_model_paths.yaml一键配置

ComfyUI与Stable Diffusion WebUI模型共享终极指南:如何通过extra_model_paths.yaml一键配置 在AI绘图领域,ComfyUI和Stable Diffusion WebUI(简称WebUI)各有优势。ComfyUI以其高度可定制的工作流著称,而WebUI则提供了…...

免费内容解锁工具:提升信息获取效率的技术解决方案

免费内容解锁工具:提升信息获取效率的技术解决方案 【免费下载链接】bypass-paywalls-chrome-clean 项目地址: https://gitcode.com/GitHub_Trending/by/bypass-paywalls-chrome-clean 在信息爆炸的数字时代,专业内容与普通用户之间往往隔着一道…...

nanomsg性能基准测试终极指南:不同消息大小下的吞吐量对比分析

nanomsg性能基准测试终极指南:不同消息大小下的吞吐量对比分析 【免费下载链接】nanomsg nanomsg library 项目地址: https://gitcode.com/gh_mirrors/na/nanomsg nanomsg是一个轻量级、高性能的消息传递库,专为解决常见的通信模式而设计。作为na…...

HertzBeat与Prometheus兼容性详解:平滑迁移和生态整合终极指南

HertzBeat与Prometheus兼容性详解:平滑迁移和生态整合终极指南 Apache HertzBeat是一款功能强大的开源实时监控系统,与Prometheus生态系统完美兼容,提供无代理、高性能集群和自定义监控功能。🚀 作为新一代监控工具,H…...

Apache Sedona 使用教程

Apache Sedona 使用教程 项目介绍 Apache Sedona 是一个用于大规模空间数据处理的分布式计算系统。它基于 Apache Spark,提供了高效的空间数据处理能力,支持多种空间数据类型和操作。Sedona 旨在为大数据环境下的地理空间分析提供强大的支持,…...

深入理解incubator-pagespeed-ngx配置:50个实用参数详解与最佳实践

深入理解incubator-pagespeed-ngx配置:50个实用参数详解与最佳实践 Apache incubator-pagespeed-ngx是一个强大的Nginx性能优化模块,能够自动优化网站资源,显著提升页面加载速度。无论你是网站管理员还是开发人员,掌握其配置参数…...

League-Toolkit:提升英雄联盟竞技效率的智能辅助工具集

League-Toolkit:提升英雄联盟竞技效率的智能辅助工具集 【免费下载链接】League-Toolkit 兴趣使然的、简单易用的英雄联盟工具集。支持战绩查询、自动秒选等功能。基于 LCU API。 项目地址: https://gitcode.com/gh_mirrors/le/League-Toolkit League-Toolki…...

Python制作简易PDF查看工具——PDFViewerV1.0

PDFViewer PDF浏览工具,是使用Python语言(使用PyQt5开发界面,PDF解析使用PyMuPDF开源模块)开发的PDF查看工具,已经实现基本翻页浏览、OCR文字识别(基于开源主流文字识别模型实现)、内容查找高亮…...

Medusa小程序:微信、支付宝等小程序平台对接的完整指南

Medusa小程序:微信、支付宝等小程序平台对接的完整指南 【免费下载链接】medusa 项目提供了构建数字商务所需的组件和服务,旨在简化和加速电子商务平台的开发工作流程。 项目地址: https://gitcode.com/GitHub_Trending/me/medusa Medusa是一个强…...

这份榜单够用!盘点2026年用户挚爱的一键生成论文工具

一天写完毕业论文在2026年已不再是天方夜谭。以下是2026年最炸裂、实测能大幅提速的一键生成论文工具,覆盖选题构思、文献综述、数据整理、格式排版等核心场景,高效搞定论文不再只是梦想。 一、全流程王者:一站式搞定论文全链路(一…...

导师严选!盘点2026年抢手爆款的AI论文写作工具

一天写完毕业论文在2026年已不再是天方夜谭。2026年最炸裂、实测能大幅提速的AI论文写作工具,覆盖选题构思、文献整理、内容生成、降重润色四大核心场景,帮你高效搞定论文,轻松应对学术挑战。 一、全流程王者:一站式搞定论文全链路…...

简易CPU设计入门:算术逻辑单元(五)

专栏导航 上一篇:简易CPU设计入门:算术逻辑单元(四) 专栏目录 下一篇:简易CPU设计入门:算术逻辑单元(六) 项目代码下载 请大家首先准备好本项目所用的源代码。如果已经下载了&am…...

Kali Linux 2026.1 发布 (2026 主题 BackTrack 模式) - 领先的渗透测试发行版

Kali Linux 2026.1 发布 (2026 主题 & BackTrack 模式) - 领先的渗透测试发行版 The most advanced Penetration Testing Distribution 请访问原文链接:https://sysin.org/blog/kali-linux/ 查看最新版。原创作品,转载请保留出处。 作者主页&…...

网页实现文字转语音朗读功能

SpeechSynthesisUtterance是HTML5中新增的API&#xff0c;用于将指定文字合成为对应的语音。 <button onclick"play()">朗读</button> <script>var utterThis new SpeechSynthesisUtterance();utterThis.text "hello word";utterThis…...

PlayCover终极指南:三步在Mac上畅玩iOS游戏与应用

PlayCover终极指南&#xff1a;三步在Mac上畅玩iOS游戏与应用 【免费下载链接】PlayCover Community fork of PlayCover 项目地址: https://gitcode.com/gh_mirrors/pl/PlayCover 还在为心爱的iOS游戏无法在Mac上体验而烦恼吗&#xff1f;PlayCover为你打开了一扇全新的…...