当前位置：首页 > news >正文

【论文笔记】Attention Prompting on Image for Large Vision-Language Models

news 2025/11/10 0:16:54

🍎个人主页：小嗷犬的个人主页
🍊个人网站：小嗷犬的技术小站
🥭个人信条：为天地立心，为生民立命，为往圣继绝学，为万世开太平。

基本信息

标题: Attention Prompting on Image for Large Vision-Language Models
作者: Runpeng Yu, Weihao Yu, Xinchao Wang
发表: ECCV 2024
arXiv: https://arxiv.org/abs/2409.17143

基本信息

摘要

与大型语言模型（LLMs）相比，大型视觉语言模型（LVLMs）也能接受图像作为输入，从而展现出更多有趣的涌现能力，并在各种视觉语言任务上表现出令人印象深刻的表现。

受LLMs中的文本提示启发，视觉提示已被探索以增强LVLM感知视觉信息的能力。

然而，之前的视觉提示技术仅处理视觉输入，不考虑文本查询，限制了模型遵循文本指令完成任务的能力。

为了填补这一空白，在这项工作中，我们提出了一种名为Attention Prompting on Image（API）的新提示技术，它简单地在原始输入图像上叠加一个由文本查询引导的注意力热图，从而有效地增强了LVLM在各种任务上的表现。

具体来说，我们使用类似于CLIP的辅助模型根据文本查询生成输入图像的注意力热图。

然后，热图简单地乘以原始图像的像素值，以获得LVLM的实际输入图像。

在各个视觉语言基准上的大量实验验证了我们的技术的有效性。

例如，API在MM-Vet和LLaVA-Wild基准上分别将LLaVA-1.5提高了3.8%和2.9%。

主要贡献

我们发现，当前的视觉提示技术严重修改输入图像，而没有考虑文本查询，限制了模型准确遵循指令的能力。
为了填补这一空白，我们提出了API方法，探讨如何从各种类型的VLM模型中提取有价值的归因图，并将它们作为视觉提示来提供视觉感知的线索，从而提高性能。
我们的实验证明了该方法在各种数据集上对广泛VLM模型的有效性。此外，我们的方法在解决幻觉问题上也已被证明是有效的。

方法

Attention Prompting on Image

使用一个辅助的大型视觉语言模型结合输入图像和文本提示，生成一个由文本查询引导的注意力热图，再将注意力热图叠加在原始图像上。

Obtaining Attribution Map from CLIP

CLIP模型 $g_{\text{clip}}$ 由一个视觉编码器和一个文本编码器组成，在隐空间中计算输入图像和文本之间的相似度 $sim(\hat{I}, \hat{T})$ ，其中 $\hat{I} = g_{\text{clip}}^{\text{img}}(I)$ ， $\hat{T} = g_{\text{clip}}^{\text{text}}(T)$ 。该相似度用于度量整张图像和文本之间的相关性。为了获得文本查询到每个图像patch的相关度图，我们需要对图像级别的相似度特征 $\hat{I}$ 进行分解，以此得到每个图像patch特征与文本特征 $\hat{T}$ 的相似度。

由于存在残差连接，视觉编码器的最终输出 $\hat{I}$ 实际上包括了每一层的影响。因此， $\hat{I}$ 可以表示为每一层类别标记位置值的线性组合：

$\hat{I} = \mathcal{L}\left(\left[Z_{\text{cls}}^{0}\right]\right) + \sum_{l=1}^{L}\mathcal{L}\left(\left[\operatorname{MSA}^{l}\left(Z^{l-1}\right)\right]_{\text{cls}}\right) + \sum_{l=1}^{L}\mathcal{L}\left(\left[\operatorname{MLP}^{l}\left(\hat{Z}^{l}\right)\right]_{\text{cls}}\right)$

$L$ 表示视觉编码器中Transformer层的数量，其中 $\operatorname{MSA}$ 和 $\operatorname{MLP}$ 分别代表Transformer中的多头自注意力结构和多层感知器结构； $\mathcal{L}$ 代表包括全连接层和Transformer结构之后计算相似度得分之前执行的归一化操作的线性变换； $Z^l$ 表示第 $l$ 个Transformer层的输入token序列； $[Z]_\text{cls}$ 表示token序列 $Z$ 中cls token的值。这些输出的cls token通过残差连接聚合，形成视觉编码器的输出。

在这些求和项中，MSA最后几层的输出起着决定性作用，而来自浅层MSA层输出、MLP输出以及与输入图像无关的 $Z^0_\text{cls}$ 项的贡献可以视为对最终相似度测量的忽略不计。因此，相似度 $sim(\hat{I}, \hat{T})$ 可以通过计算 $\hat{T}$ 与深层MSA的聚合输出的相似度来近似：

$\operatorname{sim}(\hat{I}, \hat{T}) \approx \operatorname{sim}\left(\sum_{l=L^{\prime}}^{L}\mathcal{L}\left(\left[\operatorname{MSA}^{l}\left(Z^{l-1}\right)\right]_{\text{cls}}\right), \hat{T}\right)$

其中 $L^{\prime}$ 代表预定义的起始层索引。为进一步计算文本查询对每个patch的归因，我们展开多头自注意力机制的操作：

$\begin{align*} {\left[\operatorname{MSA}^{l}\left(Z^{l-1}\right)\right]_{cls}} &= \sum_{h}^{H}\left[A^{(l, h)} V^{(l, h)} W^{(l, h)}\right]_{cls} + B^{l} \\ &= \sum_{t=1}^{T} \underbrace{\left[\sum_{h}^{H} A_{cls, t}^{(l, h)} V_{t,:}^{(l, h)} W^{(l, h)} + \frac{1}{H T} B^{l}\right]}_{\text{The MSA output corresponding to the }t\text{-th patch(token)}} \triangleq \sum_{t=1}^{T} \eta_{t}^{l} \end{align*}$

在第 $l$ 层中， $A (l, h)$ 和 $V (l, h)$ 分别是对应于第 $h$ 个注意力头的注意力图和Value矩阵； $W (l, h)$ 是第 $l$ 层中用于合并多个注意力头的权重矩阵，对应于第 $h$ 个头； $B (l)$ 是第 $l$ 层中用于合并多个注意力头的偏置矩阵； $A_{cls, t}^{(l, h)}$ 表示cls token对第 $t$ 个token的注意力值； $V_{t,:}^{(l,h)}$ 表示 $V (l, h)$ 的第 $t$ 行； $H$ 和 $T$ 分别是注意力头的数量和token的数量；而值 $T$ 等于patch数 $\times P + 1$ 。

因此，第 $t$ 个patch的特征可以表示为 $\psi_{t}\triangleq\sum_{l=L^{\prime}}^{L}\mathcal{L}\left(\eta_{t}^{l}\right)$ ，我们可以计算文本查询与第 $t$ 个图像patch之间的相似性。相应地，归因图 $\Psi^{cls} \in \mathbb{R}^{P \times P}$ 被定义为：

$\Psi^{cls}_{i,j} \triangleq sim(\psi_{t}, \hat{T}), \quad\text{where}\ t = 1 + j + P * (i - 1).$

通过对 cls token进行分解，我们可以识别哪些patch与查询更为相关。当查询包含特定实体时，这种方法特别有效，允许进行精确的定位。然而，在复杂的视觉问答（VQA）任务中，查询中往往没有明确提及实体，或者回答问题所涉及的逻辑和分析过程可能依赖于查询中没有明确提及的实体。为了解决这个问题，我们还定义了另一个互补归因图 $\Psi^{comp}$ 。该图旨在捕捉与查询具有潜在或隐含相关性的区域。

我们实验观察到，在CLIP的视觉Transformer中，查询特征 $\hat{T}$ 与最终层中除cls token外的token的相似度得分可以（反向）选择重要区域。对应图像背景或大块单色区域的patch与 $\hat{T}$ 的相似度得分显著高于代表特定实体（这些实体可能不一定出现在查询中）的token。一个可能的解释是，这些“空白”token本身缺乏有价值的信息，被Transformer视为寄存器。Transformer最初利用它们存储来自其他token的信息，随后通过注意力机制过滤和汇总这些存储的信息到cls token，以形成最终的预测。因此，与 $\hat{T}$ 具有高相似度得分的除cls token外的token，代表信息含量低的patch，可以不予考虑。我们定义互补归因图如下：

$\Psi^{comp}_{i,j} \triangleq 1 - sim(\mathcal{L}(Z^L_t), \hat{T}), \quad\text{where}\ t = 1 + j + P * (i - 1).$

$Z^L_t$ 表示最后一个Transformer层的第 $t$ 个输出token。互补归因图与相似度成反比，表明缺乏信息的patch被忽略，仅保留具有潜在相关性的patch。

因此，我们获得了两张相互补充的归因图： $\Psi^{cls}$ 明确识别与查询实体直接相关的区域，但可能遗漏一些可能相关的区域。 $\Psi^{comp}$ 同样识别所有可能相关的区域，但缺乏特异性，无法突出显示与查询实体直接相关的区域。

通过以下操作整合两个归因图，我们得到CLIP的最终归因图：

$\Psi_{i,j} \triangleq \Psi^{cls}_{i,j} + \Psi^{comp}_{i,j} - \Psi^{cls}_{i,j} * \Psi^{comp}_{i,j}$

这种整合可以被视为一种soft OR操作。

Obtaining Attribution Map from LLaVA

LLaVA模型是一种MLLM，它利用多头自注意力机制从文本查询和图像patch中提取信息，预测后续的token。给定长度为 $N$ 的文本token序列 $Z^\text{text} = {\{Z^\text{text}_t \}}_{t=1}^{N}$ ，以及长度为 $\times P$ 的图像token序列 $Z^\text{img} = {\{Z^\text{img}_t \}}_{t=1}^{P \times P}$ ，LLaVA生成一个长度为 $M$ 的新token序列 $Z^\text{out} = {\{Z^\text{out}_t \}}_{t=1}^{M}$ 。我们直接使用token $Z^\text{out}_t$ 与每个图像token之间的注意力权重作为 $Z^\text{out}_t$ 对该图像patch的归因。类似于CLIP模型的策略，我们选择深层的注意力图来提取注意力权重。最终的归因图在整个生成的token序列和所有注意力头之间平均。形式上，归因图 $\Psi$ 定义为：

$\Psi_{i, j} \triangleq \frac{1}{M H} \sum_{m=1}^{M} \sum_{h=1}^{H} A_{m, t}^{(\bar{L}, h)}, \quad\text{where}\ t = j + P * (i - 1).$

在定义中， $A^{(\bar{L}, h)}$ 是第 $\bar{L}$ 层的第 $h$ 个头对应的注意力图，其中 $\bar{L}$ 是一个超参数集合；为了符号的简洁性，此处 $A^{(\bar{L}, h)}$ 是整个注意力图的一个子矩阵，仅包括 $Z^\text{out}$ 和 $Z^\text{img}$ 之间的交叉注意力； $A_{m, t}^{(\bar{L}, h)}$ 仍然表示从第 $m$ 个token到第 $t$ 个token的注意力值。

From Token Space to Pixel Space

$\Psi \in \mathbb{R}^{P \times P}$ 的归因图在token空间中生成。我们首先将其调整回像素空间以获得原始热图 $\hat{\Phi} \triangleq \operatorname{Resize}(\Psi)$ 。由于patch的方形形状， $\hat{\Phi}$ 中的掩码模式也呈矩形。为了减轻矩形掩码模式与物体不规则形状不匹配的问题，我们应用均值滤波器以获得最终热图 $\Phi \triangleq \operatorname{Mean_k}(\hat{\Phi})$ ，其中 $k$ 是滤波器的核大小。然后，将最终热图 $\Phi$ 通过将其用作 alpha 通道叠加到原始图像上，得到标注后的最终图像 $I^a$ 。

实验

主实验

Comparison of our method with previous textual and visual prompting methods for various LVLMs

与先前针对各种LVLMs的文本和视觉提示方法的比较。

消融实验

Ablation study on the auxiliary VLM Scale

关于辅助VLM Scale的消融实验。

Ablation study on the mean filter kernel size

关于均值滤波器核大小的消融实验。

Ablation study on the Transformer layer for attribution map extraction

关于用于归因图提取的Transformer层的消融实验

The comparison between our method and textual self-reflection method and their combination

本文方法与文本self-reflection方法的比较及结合。

The performance of our method on hallucination datasets

本文方法在幻觉数据集上的表现。

总结

在这项工作中，我们介绍了一种名为Attention Prompting on Image（API）的新型视觉提示技术，该技术结合了一个辅助的LVLM，根据文本查询在图像上生成注意力热图。

我们广泛的实验证明了我们的提示方法在不同基准上对不同LVLM的优势。

此外，我们的方法为使用视觉信号进行LVLM集成和LVLM自我反思提供了新的见解。

【论文笔记】Attention Prompting on Image for Large Vision-Language Models

🍎个人主页：小嗷犬的个人主页 🍊个人网站：小嗷犬的技术小站 🥭个人信条：为天地立心，为生民立命，为往圣继绝学，为万世开太平。基本信息标题: Attention Prompting on I…...

编程日记 2024/11/3 6:40:17

VScode设置系统界面字体

现象： 系统界面字体太大，导致菜单栏字体显示不全，每次使用都要先点然后才能打开终端和帮助缩小字体应该就可以实现全部都看到的效果步骤 Window: Zoom Level 调整所有窗口的默认缩放级别。大于“0”的每个增量（例如“1”&…...

编程日记 2024/11/3 6:36:14

Java中常见的异常类型

1、Exception和Error有什么区别？ 首先Exception和Error都是继承于Throwable类，在Java中只有Throwable类型的实例才可以被抛出（throw）或者捕获（catch），它是异常处理机制的基本组成类型。 Except…...

编程日记 2024/11/3 6:35:13

Java学习Day58：相声二人组！(项目统计数据Excel图表导出)

<!DOCTYPE html> <html xmlns"http://www.w3.org/1999/html"><head><meta charset"utf-8"><meta http-equiv"X-UA-Compatible" content"IEedge"><title>瑞通健康</tit…...

编程日记 2024/11/3 6:34:12

springboot 自动装配和bean注入原理及实现

装配：创建bean，并加入IOC容器。注入：创建bean之间的依赖关系。 1、类自动装配 SpringBoot 自动装配使得开发人员可以轻松地搭建、配置和运行应用程序，而无需手动管理大部分的 bean 和配置。 Spring Boot 的自动装配机制与模块…...

编程日记 2024/11/3 6:30:08

解决Redis缓存穿透（缓存空对象、布隆过滤器）

文章目录背景代码实现前置实体类常量类工具类结果返回类控制层缓存空对象布隆过滤器结合两种方法背景缓存穿透是指客户端请求的数据在缓存中和数据库中都不存在，这样缓存永远不会生效，这些请求都会打到数据库常见的解决方案有两种，分别…...

编程日记 2024/11/3 6:28:06

初探Flink的序列化

Flink中的序列化应用场景程序通常使用(至少)两种不同的数据表示形式[2]： 1. 在内存中，数据保存在对象、结构体、列表、数组、哈希表和树等结构中。 2. 将数据写入文件或通过网络发送时，必须将其序列化为字节序列。从内存中的表示到字节序列…...

编程日记 2024/11/3 6:27:04

QT 机器视觉 (3. 虚拟相机SDK、测试工具)

本专栏从实际需求场景出发详细还原、分别介绍大型工业化场景、专业实验室场景、自动化生产线场景、各种视觉检测物体场景介绍本专栏应用场景更适合涉及到视觉相关工作者、包括但不限于一线操作人员、现场实施人员、项目相关维护人员，希望了解2D、3D相机视觉相关操作…...

编程日记 2024/11/3 6:26:03

1分钟解决Excel打开CSV文件出现乱码问题

一、编码问题 1、不同编码格式 CSV 文件有多种编码格式，如 UTF - 8、UTF - 16、ANSI 等。如果 CSV 文件是 UTF - 8 编码，而 Excel 默认使用的是 ANSI 编码打开，就可能出现乱码。例如，许多从网络应用程序或非 Windows 系统生成的 …...

编程日记 2024/11/3 6:25:02

基于SpringBoot+Vue的仓库管理系统【前后端分离】

基于SpringBootVue的仓库管理系统设计与实现摘要仓库管理系统在现代企业物流中具有重要作用，能够有效提高库存管理效率，优化资源配置。本系统采用Spring Boot作为后端框架，Vue作为前端框架，通过前后端分离的开发模式构建一个现代…...

编程日记 2024/11/3 6:24:01

vue和django接口联调

vue访问服务端接口配置跨域前端跨域打开vite.config.js，在和resolve同级的地方添加配置。 proxy代表代理的意思 "/api"是以/api开头的路径走这个配置 target代表目标 changeOrigin: true,是开启跨域请求 rewrite是编辑路径。 (path) > pa…...

编程日记 2024/11/3 6:22:59

2-141 怎么实现ROI-CS压缩感知核磁成像

怎么实现ROI-CS压缩感知核磁成像，这个案例告诉你。基于matlab的ROI-CS压缩感知核磁成像。ROI指在图像中预先定义的特定区域或区域集合，选择感兴趣的区域，通过减少信号重建所需的数据来缩短信号采样时间，减少计算量，并在…...

编程日记 2024/11/3 6:21:58

开源库 FloatingActionButton

开源库FloatingActionButton Github:https://github.com/Clans/FloatingActionButton 这个库是在前面这个库android-floating-action-button的基础上修改的，增加了一些更强大和实用的特性。特性： Android 5.0 以上点击会有水波纹效果可以选择自定义…...

编程日记 2024/11/3 6:20:57

技术选型不当对项目的影响与补救措施

在项目管理中，初期技术选型与项目需求不匹配的情况并不罕见，这可能导致项目延误、成本增加和最终成果的不理想。补救的关键措施包括：重新评估技术选型、加强团队沟通、实施有效的需求管理以及建立持续的反馈机制。其中，重新评估技…...

编程日记 2024/11/3 6:18:55

Spring的核心类: BeanFactory, ApplicationContext 笔记241103

Spring的核心类: BeanFactory, ApplicationContext, ConfigurableApplicationContext, WebApplicationContext, WebServerApplicationContext, ClassPathXmlApplicationContext, FileSystemXmlApplicationContext, XmlWebApplicationContext, AnnotationConfigServletWebServer…...

编程日记 2024/11/3 6:17:54

基本信息

摘要

主要贡献

方法

Obtaining Attribution Map from CLIP

Obtaining Attribution Map from LLaVA

From Token Space to Pixel Space

实验

主实验

消融实验

总结

相关文章：