当前位置：首页 > news >正文

Less is More: Focus Attention for Efficient DETR

news 2026/2/10 1:05:06

在这里插入图片描述

摘要

类似detr的模型显著提高了探测器的性能，甚至优于经典的卷积模型。然而，在传统的编码器结构中，所有的标记都带来了冗余的计算负担。最近的稀疏化策略利用了信息标记的一个子集，通过稀疏编码器来降低注意力的复杂性，从而保持性能。但这些方法往往依赖于不可靠的模型统计数据。此外，简单地减少标记填充在很大程度上阻碍了检测性能，限制了这些稀疏模型的应用。我们提出了Focus-DETR，它将注意力集中在信息更丰富的标记上，以便更好地在计算效率和模型准确性之间进行权衡。具体地说，我们重构了具有双重注意的编码器，其中包括一个标记评分机制，该机制同时考虑了多尺度特征映射中对象的定位和类别语义信息。我们有效地放弃了背景查询，并基于分数增强了细粒度对象查询的语义交互。与在相同设置下最先进的稀疏detr类探测器相比，我们的Focus-DETR在COCO上实现50.4AP（+2.2）的同时，获得了相当的复杂性。

介绍

目标检测是计算机视觉中的一项基本任务，其目的是预测图像中目标的边界框和类别，如图1 (a)所示，在现实应用中具有重要意义。

在这里插入图片描述

Carion等人提出的DETR使用可学习查询从变压器编码器的输出中探测图像特征，二部图匹配来执行基于集的盒预测。类detr模型取得了显著的进展，并逐渐与基于卷积神经网络的检测器缩小了差距。DETR中的全局关注提高了检测性能，但由于没有明确识别所有标记的冗余计算，造成了计算负担和效率低下。为了解决这个问题，可变形的DETR 通过密钥稀疏化将二次复杂度降低为线性复杂度，由于利用多尺度特性的优势，它已经发展成为一个主流范式。在此，我们进一步分析了这些模型中组件的计算负担和延迟（图2）。如图2所示，我们观察到编码器的计算成本为可变形DETR中解码器的8.8×，在DINO 中为7.0×。此外，在可变形的DETR和DINO中，编码器的延迟约为解码器的4∼8倍，这强调了提高编码器模块的效率的必要性。与此同时，以往的工作已经普遍讨论了在变压器编码器中压缩令牌的可行性。例如，PnP-DETR 将整个特征抽象为精细的前景对象特征向量和少量粗糙的背景上下文特征向量。IMFA [34]基于解码器层的预测来搜索关键点，对多尺度特征进行采样，并以单尺度特征聚合采样特征。稀疏的DETR [26]提出通过查询稀疏性来保持令牌的二维空间结构，这使其适用于可变形的DETR [37]，利用多尺度特征。通过利用解码器中的交叉注意映射作为令牌重要性得分，稀疏DETR仅使用编码器中30%的查询就实现了与可变形DETR相媲美的性能。

在这里插入图片描述

尽管取得了种种进展，但目前的模型仍然受到次最优标记选择策略的挑战。如图1 (b)所示，所选的标记包含大量的噪声，一些必要的对象标记明显被忽略了。特别是，稀疏DETR对前景预测器的监督很大程度上依赖于解码器的交叉注意图（DAM），它是基于解码器完全从编码器先验的查询计算出来的。初步实验表明，当稀疏DETR嵌入模型时，由于DAM和保留的前景令牌之间的弱相关性，严重的性能衰减。然而，最先进的DETR类模型，如DINO ，已经证明了所选的特征是初步的内容特征，没有进一步的细化，可能会对解码器产生模糊和误导。在这种情况下，DAM的监督效率低下。此外，在这个单调稀疏编码器中，保留的前景令牌的数量仍然众多，并且由于计算成本的限制，在没有更细粒度选择的情况下执行查询交互是不可行的。

为了解决这些问题，我们提出了Focus-DETR方法，通过叠加定位和类别语义信息，将注意力分配到信息更多的标记上。首先，我们设计了一个评分机制来确定标记的语义级别。前景令牌选择器（FTS）旨在放弃基于跨多尺度特征的自上而下的分数调制的背景令牌。我们根据地面真相从主干上分配{1,0}标签，并预测前景概率。来自多尺度特征图的高级标记的得分可以调节低层次标记的得分，以提高选择的有效性。为了将语义信息引入到标记选择过程中，我们设计了一个多类别得分预测器。前景和类别得分将共同决定具有较强类别语义的更细粒度的标记，如图1 (d).所示。基于不同语义层次的可靠分数和选择，我们将前景标记和更细粒度的对象标记提供给具有双重关注的编码器。因此，弥补了远距离信息混合中可变形注意的局限性，并通过细粒度的标记更新增强了前景查询的语义信息。综上所述，Focus-DETR基于获取更准确的前景信息，通过逐步引入语义信息，关注细粒度标记，双重重构了编码器的计算过程，并以最小的计算代价进一步增强细粒度标记。大量的实验验证了FocusDETR的性能。此外，Focus-DETR对于使用不同查询构造策略的类似detr的模型是通用的。例如，我们的方法在相同的设置下，与具有相似的计算成本相比，可以在COCO上实现50.4AP（+2.2）。

方法

我们首先描述了FocusDETR的总体架构。然后，我们详细阐述了我们的核心贡献： (a)构建了一个评分机制，它同时考虑了来自多尺度特征的本地化和类别语义信息。因此，我们获得了对前景和细粒度对象标记的两级显式识别；(b)基于评分机制，我们将不同语义级别的标记引入双重注意编码器，提高了查询的语义信息，平衡了模型性能和计算成本。并对其计算复杂度进行了详细的分析。

Model Architecture

在这里插入图片描述

如图3所示，Focus-DETR由主干、双注意编码器和解码器组成。骨干网可配备ResNet [10]或SwinTrans[20]。为了利用主干的多尺度特征 $\{f_l\}^L_{l=1}（L = 4）$ ，其中 $f_l∈R^{C×H_l×W_l}$ ，我们从三个不同尺度（即1/8、1/16、16、1/16、32）和下样本 $f_3$ 得到 $f_4$ （即1/64）。在输入双注意编码器之前，多尺度特征映射 $\{f_l\}^L_{ l=1}$ 首先通过前景令牌选择器（第3.2节），使用一系列自上向下分数调制来指示令牌是否属于前景。然后，每一层所选择的前景令牌将通过多类别得分预测器，利用前景和语义信息，选择目标得分较高的令牌（第3.2节）。这些对象令牌将进一步相互交互，并通过所提出的双重关注来补充前景查询的语义限制（第3.3节）。

Scoring mechanism

Foreground Token Selector

稀疏DETR[26]已经证明，只涉及编码器的标记子集才能实现类似的性能。然而，如图4所示，稀疏DETR [26]提供的令牌选择有很多缺点。特别是，许多保存下来的令牌与前景对象并不对齐。

在这里插入图片描述

我们认为稀疏DETR的挑战在于它对令牌选择的监督依赖于DAM。DAM和保留的前景令牌之间的相关性将由于可学习查询而减少，这在训练过程中带来错误。我们没有预测伪地面真实[26]，而是利用地面真实框和标签来监督受[17]启发的前景选择。为了正确地为每个标记提供一个二进制标签，决定它是否出现在前景，我们设计了一个标签分配协议，以利用不同尺度的对象的多尺度特性。

特别地，我们首先为不同特征映射的边界框设置一个大小范围，并将相邻区间的重叠增加50%，以增强边界附近的预测。形式上，对于每个具有步幅 $s_l$ 的标记 $t^{（i，j）}_l$ ，其中l是尺度水平的指数，（i，j）是特征图中的位置，我们将原始图像中对应的坐标（x，y）表示为
在这里插入图片描述

考虑到相邻的特征图，我们的协议根据以下规则确定标签 $l_l^{(x,y)}$ ，即：
在这里插入图片描述

其中 $D_{Bbox} (x、y、w、h）$ 表示地面真相框， $d^{（i，j）}_l =max（h/2，w/2）∈[r^ l_ b，r^l_ e ]$ ,表示（x、y）与边界框中心之间的最大棋盘格距离， $[r^ l_ b，r^l_ e ]$ 表示对象的间隔预测l层特性和 $r^l_b<r^{l+1}_b<r^l_e<r^{l+1}_e$ 和 $r^{l+1}_b=(r^l_b+r^l_e)/2,l=\{0,1,2,3\}$ ， $r_b^0=0$ 和 $r_e^ 3 =∞$ 。DETR稀疏方法的另一个缺点是对多尺度特征的利用不足。特别是忽略了不同尺度之间的语义关联和标记选择决策的差异。为了填补这一差距，我们构建了具有自上而下的分数调制的FTS模块。我们首先设计了一个基于多层感知器（MLP）的评分模块来预测每个特征图中的前景得分。考虑到高级特征映射比具有更高分辨率的低级特征包含更丰富的语义，我们利用高级语义的前景分数作为补充信息来调制相邻的低级语义的特征映射。如图5所示，我们的自上而下的分数调制只通过上采样逐层传输前景分数。形式上，给定特征图 $f_l，l∈\{2,3,4\}$ ，

在这里插入图片描述

$S_l$ 表示前景得分的特征地图，UP(·)是使用上采样函数双线性插值， $MLP_F(·)$ 是一个全球得分预测标记在所有特征地图， $\{αl\}^{L−1}_{l=1}$ 是一组可学习的调制系数，和L表示多尺度的层特征地图。不同特征图的定位信息以这种方式相互关联。

Multi-category score predictor

在选择具有高前景下降概率的标记后，我们然后寻求一个有效的操作来确定更细粒度的标记，以最小的计算代价进行查询增强。直观地说，在这种情况下，引入更细粒度的类别信息将是有益的。基于此动机，我们提出了一种新的更细粒度的标记选择机制，并与前景标记选择相结合，以更好地利用标记特征。如图3所示，为了避免对背景令牌的无意义计算，我们采用了一种同时考虑定位信息和类别语义信息的堆叠策略。

具体来说，由预测器 $MLP_C（·）$ 计算出的前景得分和类别得分的乘积将被用来作为我们确定注意力计算中涉及的细粒度标记的最终标准 $p_j$ ，即：

在这里插入图片描述

其中， $s_j$ 和 $c_j$ 分别代表 $T_f^ j$ 的前景得分和类别概率。与来自编码器输出的两阶段可变形DETR [37]的查询选择策略不同，我们的多类别概率不包括背景类别（∅）。我们将根据 $p_j$ 来确定用于增强计算的令牌。

Calculation Process of Dual Attention

所提出的可靠的令牌评分机制将使我们能够执行更细粒度和歧视性的计算。在根据评分机制逐步选择前景和细粒度对象标记后，首先通过增强自注意，利用细粒度对象标记的交互信息和相应的位置编码。然后，增强的对象令牌将被分散到原来的前景令牌中。通过这种方式，Focus-DETR可以利用具有增强的语义信息的前景查询。此外，由于可靠的细粒度标记评分，与简单的查询稀疏策略相比，编码器中的双重注意有效地提高了性能，而计算成本的增加可以忽略不计。我们利用算法1来说明编码器中的细粒度特征选择和增强过程。

在这里插入图片描述

Complexity Analysis

证明复杂度没有因为模块而上升。

Optimization

与类似于detr的检测器一样，我们的模型以端到端方式进行训练，损失函数定义为：

在这里插入图片描述

Loss for feature scoring mechanism

Focus-DETR通过FTS模块获得前景令牌。Focal损失应用于FTS训练如下：

在这里插入图片描述

其中 $p_f$ 表示前景概率， $α_f = 0.25$ 和γ = 2为经验超参数。

实验

在这里插入图片描述

可视化

在这里插入图片描述

消融

作者做的很充分，有需要，看原文比较好。

Limitation and Future Directions

虽然Focus-DETR设计了一种微妙的令牌评分机制和细粒度的特征增强方法，但更分层的语义分级策略，如对象边界或中心，仍然值得探索。此外，我们未来的工作将是构建一个统一的特征语义评分机制和细粒度的特征增强算法。

总结

本文提出了Focus-DETR来关注信息更丰富的标记，以更好地在计算效率和模型精度之间进行权衡。Focus-DETR的核心组件是一种用于特征语义的多层次识别策略，它利用了一种同时考虑位置和语义信息的评分机制。Focus-DETR通过精确选择前景和细粒度标记进行增强，实现了计算效率和模型精度之间更好的权衡。实验结果表明，Focus-DETR已成为类detr模型标记剪枝的SOTA方法。我们的工作对基于变压器的探测器的设计具有指导意义。

摘要

介绍

相关工作

Transformer-based detectors

Lightweight Vision Transformers

方法

Model Architecture

Scoring mechanism

Foreground Token Selector

Multi-category score predictor

Calculation Process of Dual Attention

Complexity Analysis

Optimization

Loss for feature scoring mechanism

实验

可视化

消融

Limitation and Future Directions

总结

相关文章：