当前位置：首页 > article >正文

深度学习篇---ViT

article 2026/5/1 20:43:11

ViT是Vision Transformer的缩写是一种将 Transformer 架构从自然语言处理NLP迁移到计算机视觉CV领域的深度学习模型。它由 Google Brain 团队在 2020 年提出论文《An Image is Worth 16x16 Words》颠覆了长期以来 CNN卷积神经网络主导视觉任务的传统。一句话ViT 把图像切成一个个小方块Patch当成“单词”送给 Transformer 去理解就像 GPT 处理文本一样。一、ViT 的核心原理与 CNN 的根本区别1.1 CNN 的做法传统方法通过卷积核滑动窗口提取局部特征边缘、纹理、简单形状多层堆叠后感受野逐渐扩大最终看到全局归纳偏置假设邻近像素相关性高局部性1.2 ViT 的做法革命性变化关键突破完全抛弃卷积没有卷积核、没有池化、没有下采样全局感受野从第一层开始每个 Patch 可以“看到”所有其他 Patch 的关系依赖大规模预训练需要在 JFT-300M3 亿张图或 ImageNet-21K1400 万张上预训练才能超越 CNN二、ViT 的优势 vs 劣势维度ViTCNN如 ResNet、EfficientNet归纳偏置几乎没有纯数据驱动强局部性、平移不变性小数据集表现❌ 差容易过拟合✅ 好大数据集表现✅ 超越 CNNImageNet 88.5%→90.9%一般到达瓶颈计算复杂度O(N²)N 是 Patch 数量224x224 切 16x16 时 N196O(K²×H×W)K 是卷积核大小可解释性注意力图可可视化特征图较难解释参数量大ViT-Base 86MViT-Large 307M中等ResNet50 25M对遮挡的鲁棒性更强全局依赖较弱依赖局部纹理关键结论数据量决定选择—— 百万级图像用 CNN千万级图像用 ViT 或混合架构。三、ViT 在边缘计算Jetson上的挑战3.1 为什么 ViT 比 CNN 更难跑在 Orin Nano/NX 上瓶颈说明ViT 的影响CNN 的情况内存带宽自注意力的矩阵乘法需要频繁读取 Q、K、V极高1024x1024 的注意力矩阵中等卷积权重重用计算量FLOPsViT-B/16 处理 224x224~17 GFLOPsResNet50 ~4 GFLOPs内存占用存储中间注意力矩阵224x224 时约 196x19638K 个元素但大图512x512时飙升到 1024x10241M卷积层内存占用平稳算子支持需要高效实现 Softmax、LayerNorm、GELUJetson 的 TensorRT 支持较好从 8.0 开始非常成熟3.2 实际性能对比Jetson Orin NX 上实测模型输入尺寸参数量FLOPs推理 FPSFP16TensorRTResNet50224x22425M4 GFLOPs~1000 FPSEfficientNet-B3300x30012M1.8 GFLOPs~600 FPSViT-B/16224x22486M17 GFLOPs~65 FPSViT-L/16224x224307M60 GFLOPs~18 FPSSwin-T224x22428M4.5 GFLOPs~220 FPSSwin-TShifted Window Transformer是一种层级 ViT计算复杂度降为 O(N)更适合边缘设备。四、ViT 的变体更适合 Jetson 的版本模型创新点优势适合场景Swin Transformer窗口注意力层级结构线性复杂度可做通用骨干目标检测、分割媲美 CNN 速度MobileViT轻量卷积 Transformer 混合参数量小2-6M适合移动端手机、无人机实时推理EfficientViT多尺度注意力硬件友好设计在 ARM 上加速明显Jetson Nano / 树莓派Compact ViT蒸馏剪枝ViT-B 压缩 10 倍精度不降小众任务、原型验证在 Jetson Orin 系列上优先推荐 Swin-T它比 ViT-B 快 3-4 倍精度相当而且支持 TensorRT 深度优化。五、在 Jetson 上部署 ViT 的实战建议5.1 什么时候必须用 ViT而不是 CNN任务需要全局上下文理解如 3D 姿态估计、全景分割、视觉问答你的训练数据量超过 1 亿张图如自动驾驶的原始采集数据输入图像尺寸巨大如 1024x1024 遥感图CNN 的感受野不够5.2 什么时候不要用 ViT摄像头是 IMX219800 万像素且目标很小如零件缺陷、人脸关键点推理帧率要求 100 FPSJetson 上跑 ViT 很难模型需要频繁更新或快速迭代ViT 训练成本高5.3 混合策略CNN 做特征提取ViT 做关系建模# 示例先走 EfficientNet 提取关键点再用 Tiny ViT 做时序注意力 1. 每帧图像 → EfficientNet-B0 → 512 维特征向量 2. 堆叠 16 帧的特征 → 16x512 → 小 ViT4 层→ 动作分类这种方案在 Orin NX 上可达 200 FPS。六、一句话总结 ViTViT 是计算机视觉的“GPT 时刻”它证明 Transformer 不需要卷积也能看懂图像但代价是需要巨大算力和数据。在 Jetson Orin NX 上ViT 勉强可用100 FPS而 Orin Nano 更适合它的轻量变体 Swin-T如果是 IMX219 做实时检测CNN 依然是最好的选择。

深度学习篇---ViT

相关文章：

深度学习篇---ViT

100+中文词向量完全指南：如何高效使用预训练模型提升NLP任务性能

Cursor智能体开发：能力概述

geojson.io 数据验证与修复：确保你的GeoJSON文件完美无缺

5个秘诀快速掌握ComfyUI图像增强插件：Impact Pack终极使用指南

向量范数在机器学习中的应用与优化策略

别再让服务器“跑偏”了：手把手教你排查和优化Linux下的NUMA性能问题

评论系统实现详解：在React Native中构建Dribbble作品评论区

别再死记硬背了！用银行1104报表和反洗钱场景，一次搞懂数仓分层与拉链表设计

每日安全情报报告 · 2026-05-01

不止于CRC：深入聊聊微信小程序里处理文本编码的那些事儿（TextEncoder平替方案盘点）

【MySQL | 第十一篇】InnoDB引擎

Boss-Key：一键隐藏窗口的终极隐私保护解决方案

Bili2text：3步完成B站视频转文字的高效解决方案

Krita-AI-Diffusion：如何通过中文本地化技术让全球用户无障碍使用AI绘画插件

DataScienceR项目实战：Facebook评论提取与社交数据分析

3D高斯散射技术与视觉幻觉攻击原理详解

SST（固态变压器）设计核心参数与方案选型表

Qt布局实战：用QSplitter和QSpacer打造一个可拖拽分割的仿IDE界面

Node.js二维码生成终极指南：使用node-qrcode快速创建个性化二维码

Vue项目里给Element UI的el-tabs加个丝滑的左右滑动动画（附完整代码）

Boss-Key老板键：Windows窗口隐私保护的终极解决方案

C++ 选择引用传递还是指针传递

【C++篇】类与对象：从面向过程到面向对象的跨越

【C++】第六节—内存管理

告别手动水印：semi-utils如何让每张照片自动拥有专业标识

长期项目使用Taotoken的月度账单与用量分析体验

5分钟实战：用ArchivePasswordTestTool找回遗忘的压缩包密码

手把手教你用iDriver搞定华为服务器Win16驱动：从下载、校验到静默安装一条龙

从‘Building kernel modules’报错聊起：Linux内核模块与NVIDIA驱动的‘爱恨情仇’