当前位置：首页 > news >正文

Transformer（二）（VIT,TNT）（基于视觉CV）

news 2026/2/10 18:30:34

1.视觉中的Attention

2.VIT框架（图像分类，不需要decoder）

2.1整体框架

2.2.CNN和Transformer遇到的问题

2.3.1CNN

2.3.2Transformer

2.3.3二者对比

2.4.公式理解

3TNT

参考文献

1.视觉中的Attention

对于人类而言看到一幅图可以立即区分背景和主体，我们希望计算机也可以清楚区分背景和主体，这样就可以专注在主体上提取特征。

2.VIT框架（图像分类，不需要decoder）

2.1整体框架

如下图所示，transformer框架需要输入为序列形式，但图像是高维的，所以首先要对图像预处理，简单理解，假设下图是一个30*30*3的输入，将其分为9块，每块大小为10*10*3，再对其做一个卷积处理，变成300*1。

同样图像处理也要考虑到位置编码（Position Embedding），有两种方式，一种是直接再一维空间用1，2，3，4....，一种是在二维空间用（1，1），（1，2）...。一维，二维对结果影响不大(仅图像分类)。但编码方式，也是一个创新点。

下图框架为分类任务，多加了一部分，简单理解，目的在于整合所有输入量，最后用其进行分类

和文本处理，区别在于多了一个图像的数据处理，要将高维变成序列形式，

最后说下下图右的框架，Norm是归一化处理，Multi-Head Attention是多头注意力机制，MLP是全连接层。

2.2.CNN和Transformer遇到的问题

2.3.1CNN

以Resnet50为例，首先回忆一下感受野的概念，即当前层神经元（特征图）可以看到的原图的区域，我们假设conv1，conv6，conv11，conv16，此时我们想做一个分类任务，区分这个女生好不好看，对于conv1它的感受野为红色小框，显然特征过小，conv4为绿色小框，此时已经能看到眼睛，但还是不足以做出判断，conv11为黄色框，此时已经能看到较多的局部特征，但还不足以准确判断，最后来到conv16，此时足以看到整个脸，可以进行判别，但我们发现想要得到一个全局信息这个过程需要多层嵌套才能实现，比较麻烦。

对比一下，CNN通常第一层卷积用3*3的核也就是说只能看到原图3*3大小的区域，可能要最后一层才能看到全局，而transformer可以实现第一层就看到全局。

2.3.2Transformer

transformer对于CNN需要极大数据集才能得到好的结果。

2.3.3二者对比

2.4.公式理解

E为全连接层，目的是对输入数据进行预处理，就是将高维图像变成序列形式，假设P*P=196，就是图像分割的块数，像上面将图分为9块的意思，C=256是每一块含有的向量，D=512，目的是将256映射成512，N=196是位置信息编码，+1是因为图像分类任务要多一个输入，LN是归一化处理，MSA是多头自注意力机制，MLP是全连接层。类似于残差链接。可以对比流程图理解。

3TNT

假设VIT每一个patch是16*16.TNT希望这个patch更小。

基于这个思想，TNT将数据预处理，分为外部和内部两块，外部和VIT一样，内部就是对外部的信息再次细分，比方说外部一个patch是16*16，内部就用4*4的块进行分割，下面超像素的概念就是不想按照1*1大小进行分割，多选择几个像素点分割。

在实际应用中，如下图所示，将一个图分为4块（外部），VIT中是直接预处理后变成一个4维向量输入了，而在TNT中，假设第3块（外部），进行了一个内部分割，然后重构后也变成一个4维向量，将其加入外部的4维向量。同样内外部都做位置编码时效果最好。

从可视化角度看，TNT在不同层下得到的结果更好，从T-SNE看，TNT更集中，效果更好。

参考文献

1.【VIT算法模型源码解读】1-项目配置说明1.mp4_哔哩哔哩_bilibili

Transformer（二）（VIT,TNT）（基于视觉CV）

目录 1.视觉中的Attention 2.VIT框架（图像分类，不需要decoder） 2.1整体框架 2.2.CNN和Transformer遇到的问题 2.3.1CNN 2.3.2Transformer 2.3.3二者对比 2.4.公式理解 3TNT 参考文献 1.视觉中的Attention 对于人类而言看到一幅图可以立…...

编程日记 2023/8/13 13:53:17

Scratch 详解之线性→代数之——求两线段交点坐标

可能有人要问：求交点坐标有什么用呢？而且为啥要用线代来求？直线方程不行吗？？？ 这个问题，我只能说，直线方程计算的次数过多了，而且动不动就要考虑线的方向，90的…...

编程日记 2023/8/13 13:52:16

Python-组合数据类型

今天要介绍的是Python的组合数据类型整理不易，希望得到大家的支持，欢迎各位读者评论点赞收藏感谢！ 目录知识点知识导图1、组合数据类型的基本概念1.1 组合数据类型1.2 集合类型概述1.3 序列类型概述1.4 映射类型概述 2、列表类型2.1 列表的…...

编程日记 2023/8/13 13:51:15

vue3+vue-simple-uploader实现大文件上传

vue-simple-uploader本身是基于vue2实现，如果要使用vue3会报错。如何在vue3中使用，可参考我的另一篇文章：解决vue3中不能使用vue-simple-uploader__Jyann_的博客-CSDN博客一.实现思路使用vue-simple-uploader组件的uploader组件，设置自动上传为false，即可开启手动上传。…...

编程日记 2023/8/13 13:50:14

自适应变异麻雀搜索算法及其Matlab实现

麻雀搜索算法( sparrow search algorithm，SSA) 是2020 年新提出的一种元启发式算法[1]，它是受麻雀种群的觅食和反捕食行为启发，将搜索群体分为发现者、加入者和侦察者 3 部分，其相互分工寻找最优值，通过 19 个标准测试…...

编程日记 2023/8/13 13:49:13

ETL技术入门之ETLCloud初认识

首先ETL是什么？ ETL代表“Extract, Transform, Load”，是一种用于数据集成和转换的过程。它在数据管理和分析中扮演着重要的角色。下面我们将分解每个步骤： Extract（抽取）： 这一步骤涉及从多个不同的数据源…...

编程日记 2023/8/13 13:48:12

uniapp项目如何运行在微信小程序模拟器上

在HbuilderX中的小程序写完后自己一定要保存，否则会出不来效果那么怎么让uniapp项目运行在微信小程序开发工具中呢 1 在hbuilderx中点击运行到小程序模拟器 2 然后在项目目录中会生成一个文件夹在微信小程序开发软件中的工具>安全设置>打开端口或者在微…...

编程日记 2023/8/13 13:47:11

数据挖掘全流程解析

数据挖掘全流程解析数据指标选择在这一阶段，使用直方图和柱状图的方式对数据进行分析，观察什么数据属性对于因变量会产生更加明显的结果。如何绘制直方图和条形统计图数据清洗观察数据是否存在数据缺失或者离群点的情况。数据异常的两种情况…...

编程日记 2023/8/13 13:46:10

详细介绍如何对音乐信息进行检索和音频节拍跟踪

在本文中，我们将了解节拍的概念，以及我们在尝试跟踪节拍时面临的挑战。然后我们将介绍解决问题的方法以及业界最先进的解决方案。介绍音乐就在我们身边。每当我们听到任何与我们的心灵和思想相关的音乐时，我们就会迷失其中。我们下意识地随着听到的节拍而敲击。您一定已…...

编程日记 2023/8/13 13:45:08

Java课题笔记~ HTTP协议（请求和响应）

Servlet最主要的作用就是处理客户端请求，并向客户端做出响应。为此，针对Servlet的每次请求，Web服务器在调用service()方法之前，都会创建两个对象分别是HttpServletRequest和HttpServletResponse。其中HttpServletRequest用于封…...

编程日记 2023/8/13 13:44:06

在x86下运行的Ubuntu系统上部署QEMU用于模拟RISC-V硬件环境

1.配置工作环境 sudo apt install gcc bison flex libncurses-dev ninja-build \pkg-config build-essential zlib1g-dev pkg-config libglib2.0-dev \binutils-dev libboost-all-dev autoconf libtool libssl-dev \libpixman-1-dev python-capstone virtualenv software-prop…...

编程日记 2023/8/13 13:43:05

网络爬虫选择代理IP的标准

Hey，小伙伴们！作为一家http代理产品供应商，我知道网络爬虫在选择代理IP时可能会遇到些问题，毕竟市面上有很多选择。别担心！今天我要给大家分享一些实用的建议，帮助你们选择适合网络爬虫的代理IP。一起来看看…...

编程日记 2023/8/13 13:42:03

RxJava 复刻简版之三，map 多次中转数据

案例代码：https://gitee.com/bobidali/lite-rx-java/commit/292e9227a5491f7ec6a07f395292ef8e6ff69290 RxJava 的调用第一步是封装了观察者接受了数据的处理，进一步就是使用 map 将数据操作传递给上下游 1、类似Observer.create 创建一个简单的观察者…...

编程日记 2023/8/13 13:41:01

06 Word2Vec模型（第一个专门做词向量的模型，CBOW和Skip-gram）

博客配套视频链接: https://space.bilibili.com/383551518?spm_id_from=333.1007.0.0 b 站直接看配套 github 链接：https://github.com/nickchen121/Pre-training-language-model 配套博客链接：https://www.cnblogs.com/nickchen121/p/15105048.html 神经网络语言模型（NNL…...

编程日记 2023/8/13 13:39:59

Axure RP9小白安装教程

第一步： 打开：Axure中文学习网第二步： 鼠标移动软件下载，点击Axure RP 9下载既可第三步： 注意：Axure RP 9 MAC正式版为苹果版本，Axure RP 9 WIN正式版为Windows版本中文汉化包&#xff…...

编程日记 2023/8/13 13:38:57

腾讯云CVM服务器2核2g1m带宽支持多少人访问？

腾讯云2核2g1m的服务器支持多少人同时访问？2核2g1m云服务器短板是在1M公网带宽上，腾讯云服务器网以网站应用为例，当大规模用户同时访问网站时，很大概率会卡在公网带宽上，所以压根就谈不上2核2G的CPU内存计算性能是否够…...

编程日记 2023/8/13 13:37:55

8.12学习笔记

在PyTorch中，Dataset和DataLoader是用于处理数据的两个重要类。Dataset类是一个抽象类，用于表示数据集。它的主要作用是将数据加载到内存中，并提供一种统一的方式来访问数据。为了使用Dataset类，你需要继承它并实现两个方法&#…...

编程日记 2023/8/13 13:36:54

计算机体系中的不同的缓存存储层级说明

分级说明 L1缓存的标准延迟是4个周期。这意味着，当CPU请求数据时，L1缓存需要4个时钟周期来将数据传输给CPU。 L2缓存的标准延迟是12个周期。相对于L1缓存，L2缓存的容量更大，但其读取速度更慢，需要更多的时钟周期来传输…...

编程日记 2023/8/13 13:35:52

HCIP 链路聚合技术

1、链路聚合概述为了保证网络的稳定性，仅仅是设备进行备份还不够，我们需要针对我们的链路进行备份，同时也增加了链路的利用率，提高带宽。避免一条链路出现故障，导致网络无法正常通信。这就可以使用链路聚合技术。以…...

编程日记 2023/8/13 13:34:51

网页爬虫中常用代理IP主要有哪几种？

各位爬虫探索者，你是否有想过在网页爬虫中使用代理IP来规避限制实现数据自由？在这篇文章中，作为一名IP代理产品供应商，我将为你揭示常见的网页爬虫代理IP类型，让你在爬虫的世界中游刃有余！ 一、免费公开代理…...

编程日记 2023/8/13 13:33:49

Prompt Tuning、P-Tuning、Prefix Tuning的区别

一、Prompt Tuning、P-Tuning、Prefix Tuning的区别 1. Prompt Tuning（提示调优）核心思想：固定预训练模型参数，仅学习额外的连续提示向量（通常是嵌入层的一部分）。实现方式：在输入文本前添加可训练的连续向量（软提示），模型只更新这些提示参数。优势：参数量少（仅提…...

编程新知 2026/2/10 1:20:48

盘古信息PCB行业解决方案：以全域场景重构，激活智造新未来

一、破局：PCB行业的时代之问在数字经济蓬勃发展的浪潮中，PCB（印制电路板）作为 “电子产品之母”，其重要性愈发凸显。随着 5G、人工智能等新兴技术的加速渗透，PCB行业面临着前所未有的挑战与机遇。产品迭代…...

编程新知 2026/2/7 17:29:24

Swift 协议扩展精进之路：解决 CoreData 托管实体子类的类型不匹配问题（下）

概述在 Swift 开发语言中，各位秃头小码农们可以充分利用语法本身所带来的便利去劈荆斩棘。我们还可以恣意利用泛型、协议关联类型和协议扩展来进一步简化和优化我们复杂的代码需求。不过，在涉及到多个子类派生于基类进行多态模拟的场景下，…...

编程新知 2026/1/23 4:56:05

DBAPI如何优雅的获取单条数据

API如何优雅的获取单条数据案例一对于查询类API，查询的是单条数据，比如根据主键ID查询用户信息，sql如下： select id, name, age from user where id #{id}API默认返回的数据格式是多条的，如下： {&qu…...

编程新知 2026/2/2 22:06:13

今日科技热点速览

🔥 今日科技热点速览 🎮 任天堂Switch 2 正式发售任天堂新一代游戏主机 Switch 2 今日正式上线发售，主打更强图形性能与沉浸式体验，支持多模态交互，受到全球玩家热捧。 🤖 人工智能持续突破 DeepSeek-R1&…...

编程新知 2025/11/20 14:26:29

Hive 存储格式深度解析：从 TextFile 到 ORC，如何选对数据存储方案？

在大数据处理领域，Hive 作为 Hadoop 生态中重要的数据仓库工具，其存储格式的选择直接影响数据存储成本、查询效率和计算资源消耗。面对 TextFile、SequenceFile、Parquet、RCFile、ORC 等多种存储格式，很多开发者常常陷入选择困境。本文将从底…...

编程新知 2025/12/6 10:54:35

基于Java Swing的电子通讯录设计与实现：附系统托盘功能代码详解

JAVASQL电子通讯录带系统托盘一、系统概述本电子通讯录系统采用Java Swing开发桌面应用，结合SQLite数据库实现联系人管理功能，并集成系统托盘功能提升用户体验。系统支持联系人的增删改查、分组管理、搜索过滤等功能，同时可以最小化到系统…...

编程新知 2025/10/4 20:58:43

基于Java+MySQL实现（GUI）客户管理系统

客户资料管理系统的设计与实现第一章需求分析 1.1 需求总体介绍本项目为了方便维护客户信息为了方便维护客户信息，对客户进行统一管理，可以把所有客户信息录入系统，进行维护和统计功能。可通过文件的方式保存相关录入数据，对…...

编程新知 2026/1/25 10:12:06

Python+ZeroMQ实战：智能车辆状态监控与模拟模式自动切换

目录关键点技术实现1 技术实现2 摘要： 本文将介绍如何利用Python和ZeroMQ消息队列构建一个智能车辆状态监控系统。系统能够根据时间策略自动切换驾驶模式（自动驾驶、人工驾驶、远程驾驶、主动安全），并通过实时消息推送更新车…...

编程新知 2025/11/12 0:06:50

iview框架主题色的应用

1.下载 less要使用3.0.0以下的版本 npm install less2.7.3 npm install less-loader4.0.52./src/config/theme.js文件 module.exports {yellow: {theme-color: #FDCE04},blue: {theme-color: #547CE7} }在sass中使用theme配置的颜色主题，无需引入，直接可…...

编程新知 2026/1/31 9:29:45

1.视觉中的Attention

2.VIT框架（图像分类，不需要decoder）

2.1整体框架

2.2.CNN和Transformer遇到的问题

2.3.1CNN

2.3.2Transformer

2.3.3二者对比

2.4.公式理解

3TNT

参考文献

相关文章：