当前位置：首页 > news >正文

VIT论文阅读与理解

news 2026/4/11 14:26:57

transform网络结构

在这里插入图片描述

vision transform网络结构

在这里插入图片描述
图1：模型概述。我们将图像分割成固定大小的补丁，线性嵌入每个补丁，添加位置嵌入，并将结果向量序列馈送到标准Transformer编码器。为了执行分类，我们使用标准方法向序列中添加一个额外的可学习的“分类令牌”。
在这里插入图片描述

补丁生成与嵌入向量

在这里插入图片描述

这段代码的功能是从一个图像张量中提取固定大小的 patch，并将这些 patch 转换为特定的排列形式。下面逐步说明这段代码的操作：

在这里插入图片描述

vision transform实验

我们评估了ResNet、Vision Transformer （ViT）和hybrid的表示学习能力。为了了解每个模型的数据需求，我们在不同大小的数据集上进行预训练，并评估许多基准任务。当考虑到预训练模型的计算成本时，ViT表现非常好，以较低的预训练成本在大多数识别基准上达到最先进的水平。最后，我们使用自我监督进行了一个小实验，并表明自我监督的ViT在未来是有希望的。

设置

数据集。

为了探索模型的可扩展性，我们使用了具有1k个类和1.3M张图像的ILSVRC-2012 ImageNet数据集（我们在下文中将其称为ImageNet），具有21k个类和14M张图像（Deng等人，2009）的超集ImageNet-21k，以及具有18k个类和303M张高分辨率图像的JFT（Sun等人，2017）。我们根据Kolesnikov等人（2020）的研究，将预训练数据集与下游任务的测试集进行去重。我们将在这些数据集上训练的模型转移到几个基准任务中：原始验证标签和清理后的ReaL标签上的ImageNet（Beyer等人，2020）、CIFAR-10/100（Krizhevsky，2009）、Oxford IIIT Pets（Parkhi等人，2012）和Oxford Flowers-102（Nilsback&Zisserman，2008）。对于这些数据集，预处理遵循Kolesnikov等人（2020）的研究。

我们还对19个任务的VTAB分类套件进行了评估（Zhai等人，2019b）。VTAB使用每个任务1000个训练示例来评估向不同任务的低数据传输。任务分为三组：自然任务、宠物任务、CIFAR任务等。专业——医学和卫星图像，以及结构化——需要几何理解的任务，如定位。

模型变体

我们将ViT配置基于用于BERT的配置（Devlin等人，2019），如表1所示。“Base”和“Large”模型直接采用BERT，我们添加了更大的“Huge”模型。在下文中，我们使用简短的符号来表示模型大小和输入补丁大小：例如，ViT-L/16表示输入补丁大小为16×16的“大”变体。请注意，Transformer的序列长度与补丁大小的平方成反比，因此补丁大小较小的模型在计算上更昂贵

在这里插入图片描述
对于基线CNN，我们使用ResNet（He等人，2016），但用组归一化（Wu&He，2018）替换批归一化层（Ioffe&Szegedy，2015），并使用标准化卷积（Qiao等人，2019）。这些修改改善了传输（Kolesnikov等人，2020），我们将修改后的模型称为“ResNet（BiT）”。对于混合体，我们将中间特征图输入ViT，补丁大小为一个“像素”。为了尝试不同的序列长度，我们要么（i）取常规ResNet50的第4阶段的输出，要么（ii）删除第4阶段，在第3阶段放置相同数量的层（保持总层数），然后取这个扩展的第3阶段的输出。选项（ii）导致序列长度增加4倍，ViT模型更昂贵

训练和微调。我们使用Adam（Kingma&Ba，2015）训练所有模型，包括ResNets，其中β1=0:9，β2=0:999，批量大小为4096，并应用0.1的高权重衰减，我们发现这对所有模型的转移都很有用（附录D.1显示，与常见做法相比，Adam在我们的环境中对ResNets的效果略好于SGD）。我们使用线性学习率预热和衰减，详见附录B.1。为了进行微调，我们使用动量SGD，批量大小为512，适用于所有型号，请参阅附录B.1.1。对于表2中的ImageNet结果，我们以更高的分辨率进行了微调：ViT-L/16为512，ViT-H/14为518，还使用了Polyak和Juditsky（1992）的平均值，系数为0:9999（Ramachandran等人，2019；Wang等人，2020b）。

在这里插入图片描述

微调准确率（Fine-tuning accuracy）：微调指的是在已经训练好的模型基础上，进一步在目标数据集上训练，以调整模型参数。这种方法通常需要较长的训练时间，但它能通过调整模型参数适应特定任务，从而提升准确性。

少量示例学习准确率（Few-shot accuracy）：在少量示例学习中，模型通常只用少数样本（少量数据）来进行学习，而不进行完全的微调。在这里，作者采用的是一种正则化的最小二乘回归问题来优化模型表现。这种方法通过冻结模型的特征表示，仅通过少量数据来找到与目标向量的映射关系，通常计算效率较高。

目的：
微调：通常提供更好的准确性，但代价较高，需要更多的计算资源和时间。
少量示例学习：用来快速评估模型的表现，特别是在微调过于昂贵或耗时的情况下。通过线性回归的方式，可以在较短时间内获得一个近似的结果。

与最新技术的比较

我们首先将我们最大的型号ViT-H/14和ViT-L/16与文献中最先进的CNN进行比较。第一个比较点是大迁移（BiT）（Kolesnikov等人，2020），它使用大ResNets进行监督迁移学习。第二个是Noisy Student（Xie等人，2020），它是一个大型的EfficientNet，在ImageNet和JFT300M上使用半监督学习进行训练，并去除标签。目前，Noisy Student是ImageNet和BiT-L上其他数据集的最新技术。所有模型都是在TPUv3硬件上训练的，我们报告了预训练每个模型所需的TPUv3核心天数，即用于训练的TPU v3核心数量（每个芯片2个）乘以训练时间（以天为单位）

表2显示了结果。在JFT-300M上预训练的较小ViT-L/16模型在所有任务上都优于BiT-L（在同一数据集上预训练），同时训练所需的计算资源要少得多。更大的型号ViT-H/14进一步提高了性能，特别是在更具挑战性的数据集上——ImageNet、CIFAR-100和VTAB套件。有趣的是，该模型的预训练计算量仍然比现有技术少得多。然而，我们注意到，预训练效率不仅可能受到架构选择的影响，还可能受到其他参数的影响，如训练计划、优化器、权重衰减等。我们在第4.4节中提供了不同架构的性能与计算的对照研究。最后，在公共ImageNet-21k数据集上预训练的ViT-L/16模型在大多数数据集上也表现良好，同时预训练所需的资源更少：它可以在大约30天内使用具有8个核心的标准云TPUv3进行训练。
在这里插入图片描述

检查视觉变换器（Vision Transformer）

为了理解视觉变换器如何处理图像数据，我们分析其内部表示。视觉变换器的第一层将展平的图像块投影到一个低维空间（公式1）。图7（左）展示了学习到的嵌入滤波器的主要成分，这些成分类似于图像块中细致结构的低维表示的合理基函数。

在这里插入图片描述
ViT-L/32 RGB值的初始线性嵌入滤波器。

在投影之后，学习到的位置嵌入被添加到图像块表示中。图7（中）显示了模型学习如何根据位置嵌入之间的相似性来编码图像内的距离。即，较近的块通常会有相似的位置嵌入。进一步地，行列结构出现：同一行/列中的块具有相似的嵌入。最后，对于较大的网格，正弦结构有时会显现（附录D）。位置嵌入学习表示2D图像拓扑，解释了为何手工设计的2D感知嵌入变体未能带来改进（附录D.4）。
在这里插入图片描述
自注意力使得ViT能够在最低层集成整个图像的信息。我们研究了网络在多大程度上利用了这一能力。具体来说，我们计算了信息在图像空间中的平均距离（图7，右）。这一“注意力距离”类似于CNN中的感受野大小。我们发现，一些注意力头会关注已经图像的绝大部分，表明模型确实具备整合全局信息的能力。其他注意力头则集中于低层中的信息，这种高度局部化的注意力在应用ResNet混合模型之前的Transformer中更为明显（图7，右），这表明它可能在早期卷积层中具有类似的功能。进一步地，模型在图像区域的关注表现出与图像分类相关的区域（图6）

局部与全局信息的整合：不同的注意力头会分别处理图像的局部细节和全局信息，部分头部关注整个图像，其他头部则集中在更小的区域上。这表明ViT模型能够有效地在图像的不同区域内进行信息整合
在这里插入图片描述

transform网络结构

vision transform网络结构

补丁生成与嵌入向量

vision transform实验

设置

数据集。

模型变体

与最新技术的比较

检查视觉变换器（Vision Transformer）

相关文章：