当前位置：首页 > news >正文

VIT总结

news 2025/12/23 11:01:32

关于transformer、VIT和Swin T的总结

1.transformer

1.1.注意力机制

An attention function can be described as mapping a query and a set of key-value pairs to an output, where the query, keys, values, and output are all vectors. The output is computed as a weighted sum of the values, where the weight assigned to each value is computed by a compatibility function of the query with the corresponding key.[1]
输入是query和 key-value，注意力机制首先计算query与每个key的关联性（compatibility），每个关联性作为每个value的权重（weight），各个权重与value的乘积相加得到输出。

Attention Is All You Need 中用到的attention叫做“Scaled Dot-Product Attention”，具体过程如下图所示：
在这里插入图片描述
代码实现：

import torch
import torch.nn as nnclass SelfAttention(nn.Module):def __init__(self, embed_size, heads):super(SelfAttention, self).__init__()self.embed_size = embed_sizeself.heads = headsself.head_dim = embed_size // headsassert (self.head_dim * heads == embed_size), "Embed size needs  to  be div by heads"self.values = nn.Linear(self.head_dim, self.head_dim, bias=False)self.keys = nn.Linear(self.head_dim, self.head_dim, bias=False)self.queries = nn.Linear(self.head_dim, self.head_dim, bias=False)self.fc_out = nn.Linear(heads * self.head_dim, embed_size)def forward(self, values, keys, query, mask):N = query.shape[0]  # the number of training examplesvalue_len, key_len, query_len = values.shape[1], keys.shape[1], query.shape[1]# Split embedding into self.heads piecesvalues = values.reshape(N, value_len, self.heads, self.head_dim)keys = keys.reshape(N, key_len, self.heads, self.head_dim)queries = query.reshape(N, query_len, self.heads, self.head_dim)values = self.values(values)keys = self.keys(keys)queries = self.queries(queries)energy = torch.einsum("nqhd,nkhd->nhqk", [queries, keys])# queries shape: (N, query_len, heads, heads_dim)# keys shape: (N, key_len, heads, heads_dim)# energy shape: (N, heads, query_len, key_len)if mask is not None:energy = energy.masked_fill(mask == 0, float("-1e20"))# Fills elements of self tensor with value where mask is Trueattention = torch.softmax(energy / (self.embed_size ** (1 / 2)), dim=3)out = torch.einsum("nhql, nlhd->nqhd", [attention, values]).reshape(N, query_len, self.heads * self.head_dim)# attention shape: (N, heads, query_len, key_len)# values shape: (N, value_len, heads, head_dim)# after einsum (N, query_len, heads, head_dim) then flatten last two dimensionsout = self.fc_out(out)return out

1.为什么有mask?
NLP处理不定长文本需要padding，但是padding的内容无意义，所以处理时需要mask.
2.关于qkv
qkv是相同的，需要查询的q，与每一个key相乘得到权重信息，权重与v相乘，这样结果受权重大的v影响
3.为什么除以根号dk

We suspect that for large values of dk, the dot products grow large in magnitude, pushing the softmax function into regions where it has extremely small gradients 4. To counteract this effect, we scale the dot products by 1 √dk
点积过大，经过softmax,进入饱和区，梯度很小

4.为什么需要多头
在这里插入图片描述
不同头部的output就是从不同层面（representation subspace）考虑关联性而得到的输出。

1.2.TransformerBlock

解码端的后面两部分和编码段一样，所以打包成一个类
在这里插入图片描述

class TransformerBlock(nn.Module):def __init__(self, embed_size, heads, dropout, forward_expansion):super(TransformerBlock, self).__init__()self.attention = SelfAttention(embed_size, heads)self.norm1 = nn.LayerNorm(embed_size)self.norm2 = nn.LayerNorm(embed_size)self.feed_forward = nn.Sequential(nn.Linear(embed_size, forward_expansion * embed_size),nn.ReLU(),nn.Linear(forward_expansion * embed_size, embed_size))self.dropout = nn.Dropout(dropout)def forward(self, value, key, query, mask):attention = self.attention(value, key, query, mask)x = self.dropout(self.norm1(attention + query))forward = self.feed_forward(x)out = self.dropout(self.norm2(forward + x))return out

1.3.Encoder

关键的就是位置编码

class Encoder(nn.Module):def __init__(self,src_vocab_size,embed_size,num_layers,heads,device,forward_expansion,dropout,max_length):super(Encoder, self).__init__()self.embed_size = embed_sizeself.device = deviceself.word_embedding = nn.Embedding(src_vocab_size, embed_size)self.position_embedding = nn.Embedding(max_length, embed_size)self.layers = nn.ModuleList([TransformerBlock(embed_size,heads,dropout=dropout,forward_expansion=forward_expansion)for _ in range(num_layers)])self.dropout = nn.Dropout(dropout)def forward(self, x, mask):N, seq_lengh = x.shapepositions = torch.arange(0, seq_lengh).expand(N, seq_lengh).to(self.device)out = self.dropout(self.word_embedding(x) + self.position_embedding(positions))for layer in self.layers:out = layer(out, out, out, mask)return out

2.VIT

在这里插入图片描述

Reference:

[1].Attention Is All You Need
[2].https://zhuanlan.zhihu.com/p/366592542
[3].代码实现：https://zhuanlan.zhihu.com/p/653170203
[4].An Image is Worth 16x16 Words: Transformers for Image Recognition at Scale

VIT总结

关于transformer、VIT和Swin T的总结 1.transformer 1.1.注意力机制 An attention function can be described as mapping a query and a set of key-value pairs to an output, where the query, keys, values, and output are all vectors. The output is computed as a wei…...

编程日记 2023/12/3 5:22:33

C++11——initializer_list

initializer_list的简介 initializer_list是C11新出的一个类型，正如类型的简介所说，initializer_list一般用于作为构造函数的参数，来让我们更方便赋值但是光看这些，我们还是不知道initializer_list到底是个什么类型，…...

编程日记 2023/12/3 5:21:32

数学字体 Mathematical fonts

Mathematical fonts 数学字体： ABCDEFGHIJKLMNOPQRSTUVWXYZabcdefghijklmnopqrstuvwxyzRQSZ \\ \mathcal{ABCDEFGHIJKLMNOPQRSTUVWXYZabcdefghijklmnopqrstuvwxyzRQSZ} \\ \mathfrak{ABCDEFGHIJKLMNOPQRSTUVWXYZabcdefghijklmnopqrstuvwxyzRQSZ} \\ \mathbb{ABC…...

编程日记 2023/12/3 5:20:31

Python简单模拟蓝牙车钥匙协议

本文设计一个简单的蓝牙车钥匙协议，协议包含DH密钥协商和基于RSA的身份认证功能，以及防重放与消息完整性验证。 1. 密钥协商过程: - 设定 DH 参数：素数 p 和生成元 g。 - 发送方（Alice）生成 DH 的私钥 a 并计算公钥 A…...

编程日记 2023/12/3 5:19:30

【Python3】【力扣题】383. 赎金信

【力扣题】题目描述： 题解： 两个字符串ransomNote和magazine，ransomNote中每个字母都在magazine中一一对应（顺序可以不同）。即分别统计两个字符串中每个字母出现的次数，ransomNote中每个字母的个数小于等…...

编程日记 2023/12/3 5:18:29

外包搞了6年，技术退步明显......

先说情况，大专毕业，18年通过校招进入湖南某软件公司，干了接近6年的功能测试，今年年初，感觉自己不能够在这样下去了，长时间呆在一个舒适的环境会让一个人堕落!而我已经在一个企业干了四年的功能测试&#xf…...

编程日记 2023/12/3 5:17:28

uni-app x生成的安卓包，安装时，提示不兼容。解决方案

找到 manifest.json 进入：源码视图代码 {"name" : "xxx康养","appid" : "__xxx6","description" : "xxx康养","versionName" : "1.0.12","versionCode" : 100012,&…...

编程日记 2023/12/3 5:14:25

Screenshot To Code

序言对于GPT-4我只是一个门外汉，至于我为什么要了解screenshot to code，只是因为我想知道，在我不懂前端设计的情况下，能不能通过一些工具辅助自己做一些简单的前端界面设计。如果你想通过此文深刻了解GPT-4或者该开源项目&#…...

编程日记 2023/12/3 5:13:25

SpringBoot 是如何启动一个内置的Tomcat

为什么说Spring Boot框架内置Tomcat 容器，Spring Boot框架又是怎么样去启动Tomcat的？我简单总结下学习过程。一：简单了解SpringBoot的启动类我们都知道Spring Boot框架的启动类上是需要使用 @SpringBootApplication 注解标注的， @SpringBootApplication 是一个复合注解…...

编程日记 2023/12/3 5:12:24

《功能磁共振多变量模式分析中空间分辨率对解码精度的影响》论文阅读

《The effect of spatial resolution on decoding accuracy in fMRI multivariate pattern analysis》文章目录一、简介论文的基本信息摘要二、论文主要内容语音刺激的解码任务多变量模式分析（MVPA）K空间空间分辨率和平滑对MVPA的影响平滑的具体过程…...

编程日记 2023/12/3 5:11:22

pygame实现贪吃蛇小游戏

import pygame import random# 游戏初始化 pygame.init()# 游戏窗口设置 win_width, win_height 800, 600 window pygame.display.set_mode((win_width, win_height)) pygame.display.set_caption("Snake Game")# 颜色设置 WHITE (255, 255, 255) BLACK (0, 0, 0…...

编程日记 2023/12/3 5:10:21

反序列化漏洞(二)

目录 pop链前置知识，魔术方法触发规则 pop构造链解释（开始烧脑了） 字符串逃逸基础字符减少字符串逃逸基础字符增加实例获取flag 字符串增多逃逸字符串减少逃逸延续反序列化漏洞(一)的内容 pop链前置知识，魔术方法触…...

编程日记 2023/12/3 5:09:20

【开箱即用】前后端同时开源！周末和AI用Go语言共同研发了一款笔记留言小程序！

大家好，我是豆小匠。真的是当你在怀疑AI会不会取代人类的时候，别人已经用AI工具加速几倍的生产速度了… 周末体验了和AI共同开发的感受，小项目真的可以一人全干了… 本次实验使用的AI工具有两个：1. GitHub Copilot（…...

编程日记 2023/12/3 5:07:18

java对xml压缩

import java.util.*; import java.util.zip.GZIPOutputStream; import java.nio.charset.StandardCharsets; import org.apache.commons.codec.binary.Base64;/*** 模板压缩** param xml 模板xml* return* throws Exception*/public static String businessData(String xml) th…...

编程日记 2023/12/3 5:06:16

GoLang切片

一、切片基础 1、切片的定义切片（Slice）是一个拥有相同类型元素的可变长度的序列它是基于数组类型做的一层封装它非常灵活，支持自动扩容切片是一个引用类型，它的内部结构包含地址、长度和容量声明切片类型的基本语法如下&#…...

编程日记 2023/12/3 5:05:16

前端入门（四）Ajax、Promise异步、Axios通信、vue-router路由、组件库

文章目录 AjaxAjax特点 Promise 异步编程（缺）Promise基本使用状态 - PromiseState结果 - PromiseResult AxiosVue中使用AxiosAxios请求方式getpostput和patchdelete并发请求 Vue路由 - vue-router单页面Web应用（single page web application&…...

编程日记 2023/12/3 5:02:13

正则表达式回溯陷阱

一、匹配场景判断一个句子是不是正规英文句子 text "I am a student" 一个正常的英文句子如上，英文单词空格隔开英文单词多个英文字符 [a-zA-Z] 空格用 \s 表示那么一个句子就是单词空格（一个或者多个，最后那个单词…...

编程日记 2023/12/3 5:01:12

MATLAB实战 | S函数的设计与应用

S函数用于开发新的Simulink通用功能模块，是一种对模块库进行扩展的工具。S函数可以采用MATLAB语言、C、C、FORTRAN、Ada等语言编写。在S函数中使用文本方式输入公式、方程，非常适合复杂动态系统的数学描述，并且在仿真过程中可以对仿真进行更精…...

编程日记 2023/12/3 5:00:11

Day41 使用listwidget制作简易图片播放器

1.简介使用QlistWidget实现简易图片播放器，可以打开一个图片序列，通过item的单击事件实现图片的切换，通过设置list的各种属性实现图片预览的显示，美化滚动条即可实现一个简易图片播放器。 2.效果 3.实现步骤： 1.初始…...

编程日记 2023/12/3 4:59:10

matlab 基于卡尔曼滤波的GPS-INS的数据融合的导航

1、内容简介略 25-可以交流、咨询、答疑 2、内容说明基于卡尔曼滤波的GPS-INS的数据融合的导航 "基于卡尔曼滤波的GPS-INS的数据融合的导航基于卡尔曼滤波实现GPS-INS组合导航系统" 卡尔曼滤波、GPS、INS、数据融合、导航 3、仿真分析 4、参考论文略 …...

编程日记 2023/12/3 4:56:07

浏览器访问 AWS ECS 上部署的 Docker 容器（监听 80 端口）

✅ 一、ECS 服务配置 Dockerfile 确保监听 80 端口 EXPOSE 80 CMD ["nginx", "-g", "daemon off;"]或 EXPOSE 80 CMD ["python3", "-m", "http.server", "80"]任务定义（Task Definition&…...

编程新知 2025/12/18 8:31:26

7.4.分块查找

一.分块查找的算法思想： 1.实例： 以上述图片的顺序表为例， 该顺序表的数据元素从整体来看是乱序的，但如果把这些数据元素分成一块一块的小区间， 第一个区间[0,1]索引上的数据元素都是小于等于10的， 第二…...

编程新知 2025/12/23 3:06:42

springboot 百货中心供应链管理系统小程序

一、前言随着我国经济迅速发展，人们对手机的需求越来越大，各种手机软件也都在被广泛应用，但是对于手机进行数据信息管理，对于手机的各种软件也是备受用户的喜爱，百货中心供应链管理系统被用户普遍使用，为方…...

编程新知 2025/12/21 23:06:51

Android15默认授权浮窗权限

我们经常有那种需求，客户需要定制的apk集成在ROM中，并且默认授予其【显示在其他应用的上层】权限，也就是我们常说的浮窗权限，那么我们就可以通过以下方法在wms、ams等系统服务的systemReady()方法中调用即可实现预置应用默认授权浮…...

编程新知 2025/12/15 2:28:48

MySQL中【正则表达式】用法

MySQL 中正则表达式通过 REGEXP 或 RLIKE 操作符实现（两者等价），用于在 WHERE 子句中进行复杂的字符串模式匹配。以下是核心用法和示例： 一、基础语法 SELECT column_name FROM table_name WHERE column_name REGEXP pattern; …...

编程新知 2025/11/21 22:02:37

【学习笔记】深入理解Java虚拟机学习笔记——第4章虚拟机性能监控，故障处理工具

第2章虚拟机性能监控，故障处理工具 4.1 概述略 4.2 基础故障处理工具 4.2.1 jps:虚拟机进程状况工具命令：jps [options] [hostid] 功能：本地虚拟机进程显示进程ID（与ps相同），可同时显示主类&#x…...

编程新知 2025/12/5 18:12:58

python执行测试用例，allure报乱码且未成功生成报告

allure执行测试用例时显示乱码：‘allure’ �����ڲ����ⲿ���Ҳ���ǿ�&am…...

编程新知 2025/12/9 4:11:09

HDFS分布式存储 zookeeper

hadoop介绍狭义上hadoop是指apache的一款开源软件用java语言实现开源框架，允许使用简单的变成模型跨计算机对大型集群进行分布式处理（1.海量的数据存储 2.海量数据的计算）Hadoop核心组件 hdfs（分布式文件存储系统）&a…...

编程新知 2025/12/15 21:06:42

深入浅出深度学习基础：从感知机到全连接神经网络的核心原理与应用

文章目录前言一、感知机 (Perceptron)1.1 基础介绍1.1.1 感知机是什么？1.1.2 感知机的工作原理 1.2 感知机的简单应用：基本逻辑门1.2.1 逻辑与 (Logic AND)1.2.2 逻辑或 (Logic OR)1.2.3 逻辑与非 (Logic NAND) 1.3 感知机的实现1.3.1 简单实现 (基于阈…...

编程新知 2025/12/19 23:08:34

RSS 2025｜从说明书学习复杂机器人操作任务：NUS邵林团队提出全新机器人装配技能学习框架Manual2Skill

视觉语言模型（Vision-Language Models, VLMs），为真实环境中的机器人操作任务提供了极具潜力的解决方案。尽管 VLMs 取得了显著进展，机器人仍难以胜任复杂的长时程任务（如家具装配），主要受限于人…...

编程新知 2025/12/21 19:15:32