当前位置：首页 > news >正文

彻底改变计算机视觉的 Vision Transformer (ViT) 综合指南（视觉转换器终极指南）

news 2026/5/29 3:57:48

欢迎来到雲闪世界。大家好！对于那些还不认识我的人，我叫 Francois，我是 Meta 的研究科学家。我热衷于解释先进的 AI 概念并使其更容易理解。

今天，让我们深入探讨计算机视觉领域最重要的贡献之一：Vision Transformer（ViT）。

首先介绍一些历史......

Vision Transformer 由 Alexey Dosovitskiy 等人 (Google Brain) 于 2021 年在论文《一张图片价值 16×16 个字》中提出。当时，Transformers 已被证明是实现 NLP 任务出色性能的关键，并于 2017 年在必读论文《注意力就是你所需要的一切》中提出。

2017 年至 2021 年间，曾有多次尝试将注意力机制集成到卷积神经网络 (CNN) 中。然而，这些尝试大多是混合模型（将 CNN 层与注意力层相结合），缺乏可扩展性。谷歌通过完全消除卷积并利用其计算能力来扩展模型来解决此问题。

这篇文章回答的价值百万美元的问题是……

Google Vision 团队遵循了 Google 内部另一个设计文本 Transformers 的团队提供的指导方针。他们解决的关键挑战是：

“注意力机制如何适应图像？”

在 NLP 中，标记（单词或子单词）是计算注意力的基础。然而，图像本身并不适合进行这样的标记化。单个像素应该被视为一个标记吗？还是应该将整个图像视为一个标记？

如果将每个像素视为一个单位，则需要计算所有像素的注意力机制。对于 224×224（包含 50,176 个像素）这样的低分辨率图像，这将需要大约25 亿次运算——以目前的技术来说，这是一项不切实际的任务。

相反，将整个图像视为单个标记太过简单。解决方案介于两者之间：将图像转换为一系列补丁。在他们的论文中，作者使用了分辨率为16×16 像素的补丁。

Vision Transformer 架构：

关键符号：

P = 16：补丁大小
H, W：图像的高度和宽度，必须能被 P 整除
C = 3：通道数（RGB）
D：潜在向量大小，表示补丁标记展平后的维度。

从数学上来说：

这是需要理解的最重要的部分。一旦我们有了一系列标记，我们就可以应用 Transformer 编码器。我们只需要了解如何向这些标记添加位置编码，以及如何从所有标记中获取单个向量表示。

CLS（类）标记：整个图像的表示

如果您熟悉注意力机制，您就会认识到，从N 个标记开始并应用L层注意力会产生N 个标记 — 每个补丁一个。这形成了“特征图”，其中每个补丁被编码为维度为 D 的向量（标记）。

然而，要对图像进行分类，我们需要一个向量来表示它。虽然可以将所有N 个token 平均或“池化”为一个向量，但作者采用了一种类似于 BERT 的方法，即引入一个专门用于此用途的 token：CLS token。

此标记附加到图像中的其他N 个标记。因此输入序列由N+1 个标记组成。

位置编码

将 token 直接输入注意力机制会导致缺乏空间意识，因为该机制不知道每个块的位置。为了解决这个问题，我们为每个 token 添加了位置编码。

位置编码可以是硬编码的（例如，使用 sin/cos 函数，如在“Attention is All You Need ”论文中所述）或在训练期间学习。

我个人非常喜欢 Barton 和 Sutton 的“惨痛教训”，即每当我们尝试将归纳偏差放入模型中时，我们都会发现，如果有足够的数据和缩放，让模型自己学习实际上会更好。

在 VIT 论文中，位置编码是可以学习的。从上一部分中，我们看到我们以维度(N+1, D) 的矩阵结束。因此，位置编码也是添加的维度(N+1, D)的矩阵。

很好！现在我们对 ViT 架构有了全面的了解。

更高分辨率下的微调

在现代深度学习中（例如 2017 年 Transformer 问世之后），解决问题的标准方法变成了：

步骤 1：在非常大的数据集上预训练一个非常大的神经网络

第 2 步：针对我们想要解决的任务进行微调。

在计算机视觉中，有一个很酷的技巧可以提高性能：以比预训练期间使用的分辨率（通常较低）更高的分辨率对 Vision Transformer (ViT) 进行微调。但“以更高的分辨率进行微调”到底是什么意思？这是否意味着我们在图像中使用更小的块，以便我们拥有更多的标记，还是我们只是拍摄更高分辨率的图像？它是如何工作的？

让我们开始吧！

这是我个人偶然遇到的一个问题，所以我将深入解释它。

当我们提到以更高的分辨率进行微调时，我们的意思是增加图像分辨率，同时保持补丁分辨率固定。

例如，将图像分辨率从 224×224 增加到 640×640 会导致补丁数量从 196 个增加到 1600 个。这带来了挑战，因为位置嵌入矩阵最初的大小为 196 个标记，不再与新的标记数量相匹配。

那么，解决办法是什么？

插值。我们通过使用双三次插值填充间隙来扩展原始位置嵌入，从而有效地调整嵌入大小以匹配新的补丁数量。

ViT 的缩放定律

与卷积神经网络 (CNN) 不同，视觉变换器 (ViT) 缺乏内置归纳偏差，例如空间局部性和平移不变性。这意味着 ViT 必须完全从数据中学习这些模式，这使得它们成为高度数据密集型模型。

因此，我们可以想知道随着数据和参数的增多，VIT 的性能会如何发展。

ViT 的优点在于，它们的性能能够随着更多数据和更多参数而很好地扩展。

然而，有一个问题。在数据有限的情况下，传统的 CNN 往往占上风。CNN 采用归纳偏差设计，使其能够更有效地从较小的数据集中学习。它们利用空间层次和局部特征等模式，这使得它们在数据稀疏时表现更好。

因此，如果您要解决数据有限的问题，CNN 可能是更好的选择。但如果您的数据集很大，ViT 可能会提供更出色的性能。盈亏平衡点取决于您的数据的具体情况。

模型到底学到了什么？

让我们来分析一下一些关键见解：

1.嵌入过滤器是什么样的？

2.模型如何学习位置嵌入？

3.注意力机制是关注附近的标记还是远处的标记？

1.嵌入过滤器：

值得注意的是，ViT 学习到的 RGB 嵌入过滤器与 CNN 中的过滤器类似，可以捕捉垂直线和水平线等基本视觉纹理。从本质上讲，尽管 ViT 不使用卷积，但它们学习到的嵌入在识别和表示基本图像特征方面具有类似的用途。

2. 位置嵌入：

当谈到位置嵌入时，ViT 会形成网格状结构。学习到的嵌入通常表现出一种模式，即同一行或同一列中的值相似。

有趣的是，发现模型自己学习了这种位置编码，它能够理解图像的结构（虽然它只能看到一个标记列表）。

3.注意力机制：

ViT 中的注意力机制在整个网络层中不断发展。在早期阶段，它倾向于关注附近的标记，这类似于捕获局部特征的方式。随着您深入网络，注意力机制会转向更全局的视角，使模型能够整合来自远处标记的信息并理解整个图像的高级关系。

这种从局部到全局注意力的进展凸显了 ViT 在处理图像时如何构建越来越复杂的表示，从而使其能够捕捉复杂的模式。

总之，虽然 ViT 从学习基本的视觉模式和位置信息开始，但它们逐渐发展出推理图像中更大、更抽象特征的能力。

恭喜你，你成功了！

感谢关注雲闪世界。（Aws解决方案架构师vs开发人员&GCP解决方案架构师vs开发人员）

彻底改变计算机视觉的 Vision Transformer (ViT) 综合指南（视觉转换器终极指南）

首先介绍一些历史......

这篇文章回答的价值百万美元的问题是……

Vision Transformer 架构：

CLS（类）标记：整个图像的表示

位置编码

更高分辨率下的微调

ViT 的缩放定律

模型到底学到了什么？

相关文章：

彻底改变计算机视觉的 Vision Transformer (ViT) 综合指南（视觉转换器终极指南）

vue3 v-bind=“$attrs“ 的一些理解，透传 Attributes相关说明及事例说明

鸿蒙开发基础知识-页面布局【第四篇】

用CSS实现前端响应式布局

【docker】docker启动sqlserver

Python爬虫01

关于vue项目启动报错Error: error:0308010C:digital envelope routines::unsupported

随笔1：数学建模与数值计算

SDN架构详解

platform框架

零成本搞定静态博客——十分钟安装hugo与主题

windows C++ 并行编程-转换使用取消的 OpenMP 循环以使用并发运行时

经验笔记：跨站脚本攻击（Cross-Site Scripting，简称XSS）

演示：基于WPF的DrawingVisual和谷歌地图瓦片开发的地图（完全独立不依赖第三方库）

【C++】static作用总结

视频提取字幕的软件有哪些？高效转录用这些

(4)SVG-path中的椭圆弧A(绝对)或a(相对)

docker国内镜像源报错解决方案

《C++进阶之路：探寻预处理宏的替代方案》

【综合案例】使用鸿蒙编写掘金评论列表案例

保姆级教程：在CentOS 7上用达梦8搭建DCA练习环境（附ulimit、VNC、ODBC全配置）

基于Arduino与应变片传感器的高精度厨房电子秤DIY全攻略

基于MaixCam的延时摄影系统：从硬件选型到Python编程全解析

Claude端到端测试设计：从零搭建可审计、可回放、可量化的AI服务测试流水线（含开源Schema校验工具）

可解释AI新突破：基于局部帕累托最优的模型解释框架

账务台账数据

【python】ImportError: DLL load failed while importing QtWidgets: 找不到指定的程序。重新安装后搞定

Vue2-Verify：解决前端验证码安全性与用户体验平衡问题的技术方案实现

如何用WaveTools终极优化《鸣潮》游戏性能：从卡顿到丝滑的完整指南

Unity/Unreal开发者必看：用手机和陀螺仪实验，5分钟搞懂万向节死锁（附避坑指南）