当前位置：首页 > news >正文

Inception Transformer

news 2026/2/8 21:10:13

paper链接: https://arxiv.org/abs/2205.12956v2

code链接: https://github.com/sail-sg/iFormer

Inception Transformer

一、引言
二、实现细节
三、实验
- 一、分类
- 二、检测
- 三、分割
- 四、消融实验

一、引言

最近的研究表明，Transformer具有很强的建立远程依赖关系的能力，但在捕获高频信息时却表现不佳。为了解决这个问题，本文提出了一种新颖的通用Inception Transformer(简称iF)，它可以有效地学习视觉数据中高频和低频信息的综合特征。具体地说，将卷积和最大池化的优点移植到Transformer上，以捕获高频信息。与最近的混合框架不同，Inception混频器通过通道分裂机制，采用并行卷积/最大池化路径和自注意路径作为高频和低频混频器，带来了更高的效率，同时具有对分散在宽频率范围内的判别信息建模的灵活性。考虑到底层更多地用于捕获高频细节，而顶层更多地用于建模低频全局信息，进一步引入了频率斜坡结构，即逐渐减少给高频混频器的维数，增加低频混频器的维数，可以有效地权衡不同层之间的高低频分量。
ViT及其变体对视觉数据中的低频捕获能力很强，主要包括场景或对象的全局形状和结构，但对高频学习能力不强，主要包括局部边缘和纹理。这可以直观地解释为:vit中用于在非重叠补丁令牌之间交换信息的主要操作self attention是一个全局操作，并且更能够捕获全局信息(低频)。下图1(a)和1(b)所示，傅里叶频谱和相对对数振幅表明，ViT倾向于很好地捕获低频信号，而很少捕获高频信号。这种低频偏好降低了ViTs的性能，主要表现在:(1)在所有层中填充低频信息会导致高频成分(如局部纹理)的劣化，削弱了ViTs的建模能力;2)高频信息也具有鉴别性，可以使许多任务受益，例如(细粒度)分类。实际上，人类视觉系统以不同的频率提取视觉基本特征低频提供视觉刺激的全局信息，高频传达图像的局部空间变化(如局部边缘/纹理)。因此，有必要开发一种新的ViT体系结构来捕获视觉数据中的高频和低频。
CNN是一般视觉任务最基本的骨干。与ViTs不同，它通过感受野内的局部卷积覆盖更多的局部信息，从而有效地提取高频特征。最近的研究考虑到CNN和ViTs的优势互补，将二者进行了整合。有些方法将卷积层和注意层按串行方式堆叠，将局部信息注入全局上下文。不幸的是，这种串行方式只在一层中对一种类型的依赖项建模，要么是全局的，要么是局部的，并且在局部建模期间丢弃全局信息，反之亦然。其他工作采用并行注意力和卷积同时学习输入的全局和局部依赖关系。但是，部分通道用于处理局部信息，另一部分用于全局建模，这意味着当前的并行结构如果处理每个分支中的所有通道，则具有信息冗余。
在这里插入图片描述
为了解决这个问题，作者提出了一个简单有效的Inception Transformer (iFormer)，如下图所示，它将CNN捕获高频的优点嫁接到vit上。

iFormer的关键组件是一个Inception令牌混合器，如下图所示。这种Inception混频器旨在通过捕获数据中的高频和低频来增强vit在频谱中的感知能力。为此，Inception混频器首先将输入特征沿通道维度进行分割，然后将分割后的分量分别送入高频混频器和低频混频器。
在这里插入图片描述

这里的高频混频器由最大池化操作和并行卷积操作组成，而低频混频器由ViTs中的自注意实现。这样，iFormer可以有效地捕获相应通道上的特定频率信息，从而在较宽的频率范围内获得更全面的特征。
此外，较低的层通常需要更多的局部信息，而较高的层需要更多的全局信息。这是因为，就像人类的视觉系统一样，高频分量中的细节有助于底层捕捉视觉的基本特征，也有助于逐步收集局部信息，从而对输入有一个全局的理解。受此启发，设计了一个频率斜坡结构。特别是，从低到高，逐步向低频混频器提供更多的通道维度。

二、实现细节

与串行方法相比，文献中将注意力与卷积并行结合的作品并不多。CoaT和ViTAE引入卷积作为平行于注意的分支，并利用elementwise sum对两个分支的输出进行合并。然而，Raghu等人发现，一些通道倾向于提取局部依赖关系，而其他通道则用于建模全局信息，这表明当前并行机制处理不同分支中的所有通道具有冗余性。相反，将通道分成高频和低频的分支。GLiT也采用并行方式，但直接将卷积和注意分支的特征拼接成混频器输出，缺少不同频率特征的融合。相反，本文设计了一个显式的融合模块来合并来自低频和高频分支的输出。
提出的Inception混合器，将CNN提取高频表示的强大能力嫁接到Transformer上。之所以使用“Inception”这个名字，是因为令牌混合器受到具有多个分支的Inception模块[的启发。Inception混频器没有直接将图像令牌送入MSA混频器，而是先将输入特征沿通道维度进行分割，然后将分割后的分量分别送入高频混频器和低频混频器。其中高频混频器由最大池化操作和并行卷积操作组成，而低频混频器由自注意实现。
给定输入特征映射 $X∈R^{N×C}$ ，将X沿通道维度分解为 $X_h∈R^{N×C_h}$ 和 $X_l∈R^{N×C_l}$ ，其中 $C_h + C_l = c$ ，将X_h和X_l分别分配给高频混频器和低频混频器。
高频混合器:考虑到最大滤波器的敏锐灵敏度和卷积运算的细节感知，提出了一种并行结构来学习高频成分。沿通道将输入 $X_h$ 分为 $Xh1∈RN×Ch2X_{h1}∈R^{N× \frac{C_h}{2}}$ 和 $Xh2∈RN×Ch2X_{h2}∈R^{N× \frac{C_h}{2}}$ 。如下所示， $X_{h1}$ 嵌入max-pooling层和线性层， $X_{h2}$ 馈送到线性层和深度卷积层。
在这里插入图片描述

最后，将低频和高频混频器的输出沿通道维度进行拼接:

上采样操作选择每个位置的最近点的值，而不考虑任何其他点，这导致相邻符号之间过度平滑。作者设计了一个融合模块来克服这个问题，即在补丁之间交换信息的深度卷积，同时保持跨通道线性层，像以前的Transformer一样在每个位置工作。最终输出可以表示为：
在这里插入图片描述
像普通的Transformer一样，iFormer配备了前馈网络(FFN)，不同的是，它还包含了上面的Inception令牌混合器(ITM);在ITM和FFN之前应用LayerNorm (LN)。因此，Inception Transformer块的正式定义为:

低频混频器。使用多头自注意在低频混频器的所有令牌之间进行信息通信。尽管特征图具有较强的全局表示学习能力，但较大的分辨率会给底层带来较大的计算成本。因此，简单地使用平均池化层来降低注意力操作前 $X_l$ 的空间尺度，使用上采样层来恢复注意力操作后的原始空间维度。这种设计极大地降低了计算开销，使注意力操作集中在全局信息的嵌入上。这个分支可以定义为：
在这里插入图片描述
请注意，池化层和上采样层的内核大小和步幅仅在前两个阶段设置为2。
如下图所示，主干有四个不同通道和空间维度的阶段。对于每个块，定义了一个通道比，以更好地平衡高频和低频成分，即 $ChC\frac{C_h}{C}$ 和 $ClC\frac{C_l}{C}$ ，其中 $ChC+ClC=1\frac{C_h}{C}+\frac{C_l}{C}=1$ 。在频率斜坡结构中， $ChC\frac{C_h}{C}$ 从浅层到深层逐渐减小， $ClC\frac{C_l}{C}$ ，逐渐增大。因此，通过灵活的频率斜坡结构，iFormer可以有效地权衡各层的高频和低频分量。
在这里插入图片描述
不同iFormer模型的配置如下：