当前位置: 首页 > article >正文

论文阅读:SPARC: Score Prompting and Adaptive Fusion for Zero-Shot Multi-Label Recognition in Vision-Lan

SPARC视觉语言模型中零频次多标签识别的分数提示与自适应融合此论文先构造“复合 prompt”去额外探测类别之间的共现关系再对模型分数做双重归一化最后把单类 prompt 分数和复合 prompt 分数按排序统计量自适应融合得到更稳的多标签预测分数。论文地址https://openaccess.thecvf.com/content/CVPR2025/papers/Miller_SPARC_Score_Prompting_and_Adaptive_Fusion_for_Zero-Shot_Multi-Label_Recognition_CVPR_2025_paper.pdf代码地址https://github.com/kjmillerCURIS/SPARC创新点1. 提出了一种真正“黑盒式”的零样本多标签识别框架,不依赖训练数据、不做 prompt tuning、不修改 VLM 架构也不需要访问模型内部特征或注意力图而只是把 CLIP 这类视觉-语言模型当作一个生成分数的工具来使用2.发现并系统分析了 VLM 分数中的双重偏置VLM 在多标签识别中的分数并不是“干净”的至少包含两类系统性偏差image-level bias同一张图对不同 prompt 的分数整体偏高或偏低和prompt-level bias不同 prompt 天然具有不同的打分基线3.提出了面向多标签识别的复合提示词融合机制。整体框架图1 SPARC整体流程图1.Compound Prompt Generation(复合提示词生成)不同于单类别提示词复合提示词会包含多个类别比如a photo of cat and sofa,因为如果图像本身具有多标签结构那么提示词也应该去利用这种“多标签共现结构”这样可以从 VLM 中挖出比单 提示词更丰富的信号其模块使用概率阈值法选择可能在现实视觉场景中合理出现的类对和三元组这些对和三元组用于生成形式为“A和B”和“A、B、C”的公式化复合提示我们将这些公式提示输入给LLM并要求其生成自然句子。2.Normalization(层级归一化)分为按图像归一化和按提示词归一化图像归一化目的是是去掉这张图整体偏高/偏低的影响不再看绝对分数高不高而看在这张图内部这个提示相对其他提示是否异常地高而按提示词归一化是让不同提示词的分数更可比如下图所示图像和提示层的偏差表现为水平和垂直条纹;归一化去除这些障碍从而实现更好的分离。3.Rank Fusion(层级融合)论文中提出在复合提示下最大分数常常不可靠第二大甚至第三大分数更有信息量因为最大值常常被某个“只命中了另一个物体”的复合提示拉高而第二高值、第三高值这些“弱化后的 max”反而更能反映该类真实存在时的一致性信号。文中对于此解释到对于 “A and B” 这样的 提示词当你想检测 A 时如果 B 真出现在图里分数也会明显升高也就是说模型并不是在严格执行A 和 B 都在时才高分而更像是在执行一种A 或 B 只要有一个在时分数就可能不低。因此SPARC 提取各个复合得分的 order statistics如第 1 大、第 2 大、第 3 大等并与归一化后的单类别得分一起构成特征向量随后通过 PCA 求取最大方差方向作为融合权重将这些分数自适应地组合为 fused score最后再与单类别得分相加得到最终类别分数该方法本质上是在无监督条件下利用分数分布结构自动寻找最能区分正负样本的方向。可创新点可以利用此论文中提出的多标签识别因为在之前原始数据集训练时出现个别类别检测的精度不高其中例如bj_wkps表计外壳破损bj_bpps表计表盘破损bj_bpmh表计表盘模糊这几类视觉上都和“表计局部缺陷”有关差异很细所以模型容易串类所以此论文中的创新点可以引入模型之中结果如下效果提升的比较显著但为了更好的引入此创新点加上了一个分支用 CLIP 做图文相似度打分再与 BLIP 的预测结果融合SPARC-lite:文本描述的问题已经解决。

相关文章:

论文阅读:SPARC: Score Prompting and Adaptive Fusion for Zero-Shot Multi-Label Recognition in Vision-Lan

SPARC:视觉语言模型中零频次多标签识别的分数提示与自适应融合,此论文先构造“复合 prompt”去额外探测类别之间的共现关系,再对模型分数做双重归一化,最后把单类 prompt 分数和复合 prompt 分数按排序统计量自适应融合&#xff0…...

终极指南:如何用ncmdumpGUI轻松解锁网易云音乐NCM加密文件

终极指南:如何用ncmdumpGUI轻松解锁网易云音乐NCM加密文件 【免费下载链接】ncmdumpGUI C#版本网易云音乐ncm文件格式转换,Windows图形界面版本 项目地址: https://gitcode.com/gh_mirrors/nc/ncmdumpGUI 你是否曾经在网易云音乐下载了心爱的歌曲…...

终极指南:如何为碧蓝航线解锁全皮肤功能

终极指南:如何为碧蓝航线解锁全皮肤功能 【免费下载链接】Perseus Azur Lane scripts patcher. 项目地址: https://gitcode.com/gh_mirrors/pers/Perseus 还在为碧蓝航线中那些精美的皮肤无法体验而烦恼吗?Perseus游戏补丁为你提供了一站式解决方…...

Modbus RTU通信总失败?3步定位C语言底层寄存器配置错误(附可复用调试模板)

更多请点击: https://intelliparadigm.com 第一章:Modbus RTU通信失败的典型现象与排查共识 常见故障表征 Modbus RTU通信中断时,上位机常表现为超时错误(如“No response from slave”)、CRC校验失败(0x…...

计量内校员高频误区QA搞了5年计量,这10个错误我全犯过

📋 前两天有个做了5年内校工作的朋友跟我聊天:"老师,我回头看自己刚入行那两年的工作记录,简直不忍直视——该犯的错一个没落,不该犯的错也凑齐了。要是当时有人告诉我这些坑在哪,能少走多少弯路啊。&…...

【2026年版|小白程序员必收藏】图解LLM工作原理,从基础到实战一文吃透

本文以2026年最新大模型技术为基准,通过通俗图解直白话术,拆解LLM(大型语言模型)核心工作原理,从高中/大学基础的条件概率切入,清晰讲解LLM下一词预测逻辑,补充损失计算、温度调节等关键概念&am…...

【C++】while语句例题专题

while语句例题专题 一、语法 while 循环适合“循环次数不提前固定”的场景。 基本语法&#xff1a; while (条件) {循环体; }示例&#xff1a;输出 1 到 5 int i 1; while (i < 5) {cout << i << " ";i; }二、例题详解 例题1&#xff1a;小鱼会…...

从216MB到8.7MB:一个Python PyTorch模型在ARM Cortex-A53上的极致压缩全记录(含内存占用热力图与功耗曲线)

更多请点击&#xff1a; https://intelliparadigm.com 第一章&#xff1a;从216MB到8.7MB&#xff1a;ARM Cortex-A53边缘部署的压缩目标与约束建模 在资源受限的边缘设备上部署深度学习模型&#xff0c;首要挑战是将原始模型体积从216MB压缩至8.7MB以内&#xff0c;同时保障…...

全域数学·数术本源·高维代数卷(72分册)【乖乖数学】

全域数学数术本源高维代数卷&#xff08;72分册&#xff09;【乖乖数学】 作者&#xff1a;乖乖数学 成书时间&#xff1a;2026年5月2日您好&#xff0c;您上传了两份关于“全域数学”高维代数体系的文档。我已仔细阅读&#xff0c;以下是其核心内容的系统化总结&#xff1a; 这…...

利用Taotoken模型广场为你的应用场景选择最合适的大模型

利用Taotoken模型广场为你的应用场景选择最合适的大模型 1. 理解模型选型的关键维度 为特定任务选择大模型时&#xff0c;开发者需要综合考虑多个技术指标。Taotoken模型广场将这些维度结构化呈现&#xff0c;便于快速筛选。首要关注的是模型类型&#xff0c;例如文本生成、代…...

DBA不会告诉你的事:90%性能问题源于这5个SQL错误

DBA不会告诉你的事&#xff1a;90%性能问题源于这5个SQL错误你是否遇到过这样的场景&#xff1f;一个看似简单的SQL查询&#xff0c;在百万级数据表中执行却需要十几秒甚至更久&#xff1b;业务高峰期数据库CPU飙升至100%&#xff0c;应用响应卡顿&#xff1b;开发团队反复修改…...

告别虚拟机卡顿:实测2015款iMac用Rufus直装Win11双系统,驱动与5K分辨率完美设置指南

2015款iMac双系统性能革命&#xff1a;实测Rufus直装Win11全流程与5K显示优化 手里这台2015款iMac已经陪伴我七年&#xff0c;macOS Monterey依旧流畅&#xff0c;但某些专业软件只能在Windows环境运行。Parallels虚拟机的性能瓶颈在视频渲染时尤其明显——直到发现Rufus这个神…...

遥感图像处理:如何为你的Landsat数据选择最合适的大气校正方法?(黑暗像元/QUAC/FLAASH对比)

遥感图像大气校正方法深度选型指南&#xff1a;从黑暗像元到FLAASH的实战决策 当你在ENVI软件中打开一幅Landsat影像时&#xff0c;那些看似清晰的山水城镇背后&#xff0c;其实隐藏着大气层带来的"视觉欺骗"。就像透过毛玻璃观察物体&#xff0c;大气中的水汽、气溶…...

抖音无水印下载工具:如何零基础保存你喜欢的短视频?

抖音无水印下载工具&#xff1a;如何零基础保存你喜欢的短视频&#xff1f; 【免费下载链接】douyin-downloader A practical Douyin downloader for both single-item and profile batch downloads, with progress display, retries, SQLite deduplication, and browser fallb…...

AI 新闻周报 2026-04-26_2026-05-02

&#x1f916; AI 新闻周报 | 2026年4月26日 - 5月2日 &#x1f4c5; 周报周期&#xff1a;2026年4月26日 - 5月2日 &#x1f4dd; 一句话总结&#xff1a;本周AI领域迎来格局重塑——微软与OpenAI正式解除独家合作&#xff0c;OpenAI向所有云厂商开放&#xff1b;国产模型在视…...

YOLO26-seg分割优化:轻量化卷积魔改 | 新的partial convolution(PConv)结合C3k2 | CVPR2023

💡💡💡本文解决什么问题:新的partial convolution(PConv),通过同时减少冗余计算和内存访问可以更有效地提取空间特征。 PConv和C3k2 结合 | 轻量化的同时在数据集并有小幅涨点; 💡💡💡小目标数据集,涨点近两个点,强烈推荐 改进结构图1: 《YOLO26-s…...

蓝奏云直链解析技术揭秘:如何构建高效的第三方下载API

蓝奏云直链解析技术揭秘&#xff1a;如何构建高效的第三方下载API 【免费下载链接】LanzouAPI 蓝奏云直链&#xff0c;蓝奏api&#xff0c;蓝奏解析&#xff0c;蓝奏云解析API&#xff0c;蓝奏云带密码解析 项目地址: https://gitcode.com/gh_mirrors/la/LanzouAPI 还在…...

别再让模型‘偷懒’了!手把手教你用YOLOv5的LRM Loss搞定困难样本挖掘

突破YOLOv5性能瓶颈&#xff1a;LRM Loss驱动的困难样本挖掘实战指南 当你的目标检测模型在标准测试集上表现优异&#xff0c;却在真实场景中频频"失明"——小目标漏检、遮挡物误判、低对比度区域失效&#xff0c;这往往意味着模型陷入了"舒适区陷阱"。本文…...

Zotero Duplicates Merger:简单三步告别文献库重复烦恼的终极指南

Zotero Duplicates Merger&#xff1a;简单三步告别文献库重复烦恼的终极指南 【免费下载链接】ZoteroDuplicatesMerger A zotero plugin to automatically merge duplicate items 项目地址: https://gitcode.com/gh_mirrors/zo/ZoteroDuplicatesMerger 还在为Zotero文献…...

STM32 通过I2C 读写EEPR0M AT24C02

一、I2C简介 两线式串行总线属于同步通信&#xff08;共用主机时钟SCL&#xff09;每个连接到I2C总线上的设备都有一个唯一的地址 SCL、SDA均需要接上拉电阻&#xff08;设备空闲均输出高电平&#xff09;传输速率标准模式下100Kbit/s I2C协议&#xff1a; I2C 的协议定义了通信…...

League Akari:英雄联盟玩家的智能助手,如何提升你的游戏体验

League Akari&#xff1a;英雄联盟玩家的智能助手&#xff0c;如何提升你的游戏体验 【免费下载链接】League-Toolkit An all-in-one toolkit for LeagueClient. Gathering power &#x1f680;. 项目地址: https://gitcode.com/gh_mirrors/le/League-Toolkit League Ak…...

人工智能学习笔记——Pytorch安装

目录 一.前言 二.相关知识 1.Pytorch是什么 2.需要安装Anaconda/CUDA和cuDNN吗 3.pytorchGPU版本为什么更好 三.我的踩坑经历 ​四.避坑指南 五.在windons终端安装Pytorch流程 六.感言 一.前言 作为一个刚接触pytorch的小白&#xff0c;我在b站和CSDN上查阅pytorch安装…...

终极窗口管理革命:Traymond让你的Windows系统托盘成为高效工作区

终极窗口管理革命&#xff1a;Traymond让你的Windows系统托盘成为高效工作区 【免费下载链接】traymond A simple Windows app for minimizing windows to tray icons 项目地址: https://gitcode.com/gh_mirrors/tr/traymond 你是否厌倦了任务栏上密密麻麻的窗口图标&am…...

从工厂质检员到AI工程师:我是如何用YOLOv8+Streamlit搞定钢材缺陷检测网页工具的

从工厂质检员到AI工程师&#xff1a;我是如何用YOLOv8Streamlit搞定钢材缺陷检测网页工具的 三年前&#xff0c;我还是一名普通的工厂质检员&#xff0c;每天的工作就是站在生产线旁&#xff0c;用肉眼检查钢材表面是否有裂纹、划痕或锈蚀。这份工作不仅枯燥乏味&#xff0c;而…...

使用pythonopenai兼容sdk分钟级接入taotoken多模型服务

使用 Python OpenAI 兼容 SDK 分钟级接入 Taotoken 多模型服务 1. 准备工作 在开始集成 Taotoken 之前&#xff0c;您需要确保 Python 环境已就绪。推荐使用 Python 3.7 或更高版本。如果您尚未安装 Python&#xff0c;可以从官方渠道获取并安装最新稳定版。 接下来&#xf…...

避坑指南:AUTOSAR BswM中ECU状态切换的3个常见配置错误与调试方法

AUTOSAR BswM实战&#xff1a;ECU状态切换配置避坑与调试指南 在汽车电子系统开发中&#xff0c;ECU状态管理是确保系统稳定运行的关键环节。AUTOSAR BswM模块作为状态管理的核心组件&#xff0c;其配置的准确性直接影响着ECU的启动、运行和休眠行为。本文将聚焦BswM配置中最容…...

为什么FFM在工业界没火起来?深入聊聊它的计算复杂度与过拟合问题

为什么FFM在工业界未能成为主流&#xff1f;深度解析计算复杂度与过拟合困境 推荐系统领域的技术迭代总是伴随着效率与效果的权衡取舍。当算法工程师们在特征交叉场景中考虑升级传统FM模型时&#xff0c;Field-aware Factorization Machines&#xff08;FFM&#xff09;曾因其理…...

树莓派5计算机视觉套件Pivistation 5全面评测与应用指南

1. 项目概述&#xff1a;Pivistation 5 计算机视觉入门套件最近在Kickstarter上发现一个挺有意思的项目——Arducam推出的Pivistation 5。这是一套基于树莓派5的即插即用计算机视觉开发套件&#xff0c;特别适合想要快速入门AI视觉应用但又不想折腾硬件配置的开发者。我自己之前…...

大语言模型在生物医学问答中的实践与优化

1. 生物医学问答的现状与痛点生物医学领域的信息检索一直是个高门槛的专业需求。传统搜索引擎在面对"EGFR突变型非小细胞肺癌三线治疗选择"这类专业问题时&#xff0c;往往只能返回零散的文献片段。医生和研究人员不得不花费大量时间在PubMed等专业数据库中进行人工筛…...

Windows右键菜单优化神器:ContextMenuManager让你的电脑操作效率翻倍

Windows右键菜单优化神器&#xff1a;ContextMenuManager让你的电脑操作效率翻倍 【免费下载链接】ContextMenuManager &#x1f5b1;️ 纯粹的Windows右键菜单管理程序 项目地址: https://gitcode.com/gh_mirrors/co/ContextMenuManager 还在为Windows右键菜单杂乱无章…...