当前位置：首页 > news >正文

Swin Transformer

news 2026/2/9 11:22:45

Swin Transformer

简介

下采样的层级设计，能够逐渐增大感受野。
采用window进行注意力计算，极大降低了内存消耗，避免了整张图像尺寸大小的qkv矩阵
滑窗操作包括不重叠的 local window，和重叠的 cross-window。不重叠的local windows将注意力计算限制在一个窗口（window size固定），而cross-windows则让不同窗口之间信息可以进行关联，实现了信息的交互。

整体架构

930f1a33661f56ef6e4bb0bab3062769_3_Figure_3

Patch Partition结构：将图像切分重排，并进行embedding
Patch Merging结构：下采样方法，实现层次化结构
Swin Transformer Block：一个W-MSA ,一个SW-MSA,也即是一个window-多头注意力机制和一个shift-windows多头注意力机制，实现将自注意力机制限制在一个windows中进行计算，同时，通过shift-window解决限制在一个windows中后，不同windows之间无信息共享的问题。

Patch Embedding

在图像切分重排中，采用的是使用patch size大小的conv2d进行实现

class PatchEmbed(nn.Module):r""" Image to Patch Embedding图像切分重排Args:img_size (int): Image size.  Default: 224.patch_size (int): Patch token size. Default: 4.in_chans (int): Number of input image channels. Default: 3.embed_dim (int): Number of linear projection output channels. Default: 96.norm_layer (nn.Module, optional): Normalization layer. Default: None"""def __init__(self, img_size=224, patch_size=4, in_chans=3, embed_dim=96, norm_layer=None):super().__init__()img_size = to_2tuple(img_size)patch_size = to_2tuple(patch_size)patches_resolution = [img_size[0] // patch_size[0], img_size[1] // patch_size[1]]self.img_size = img_sizeself.patch_size = patch_sizeself.patches_resolution = patches_resolutionself.num_patches = patches_resolution[0] * patches_resolution[1]self.in_chans = in_chansself.embed_dim = embed_dimself.proj = nn.Conv2d(in_chans, embed_dim, kernel_size=patch_size, stride=patch_size)if norm_layer is not None:self.norm = norm_layer(embed_dim)else:self.norm = Nonedef forward(self, x):B, C, H, W = x.shape# FIXME look at relaxing size constraintsassert H == self.img_size[0] and W == self.img_size[1], \f"Input image size ({H}*{W}) doesn't match model ({self.img_size[0]}*{self.img_size[1]})."x = self.proj(x).flatten(2).transpose(1, 2)  # B Ph*Pw Cif self.norm is not None:x = self.norm(x)return x

Patch Merging

class PatchMerging(nn.Module):r""" Patch Merging Layer.Args:input_resolution (tuple[int]): Resolution of input feature.dim (int): Number of input channels.norm_layer (nn.Module, optional): Normalization layer.  Default: nn.LayerNorm"""def __init__(self, input_resolution, dim, norm_layer=nn.LayerNorm):super().__init__()self.input_resolution = input_resolutionself.dim = dimself.reduction = nn.Linear(4 * dim, 2 * dim, bias=False)self.norm = norm_layer(4 * dim)def forward(self, x):"""x: B, H*W, C"""H, W = self.input_resolutionB, L, C = x.shapeassert L == H * W, "input feature has wrong size"assert H % 2 == 0 and W % 2 == 0, f"x size ({H}*{W}) are not even."x = x.view(B, H, W, C)x0 = x[:, 0::2, 0::2, :]  # B H/2 W/2 Cx1 = x[:, 1::2, 0::2, :]  # B H/2 W/2 Cx2 = x[:, 0::2, 1::2, :]  # B H/2 W/2 Cx3 = x[:, 1::2, 1::2, :]  # B H/2 W/2 Cx = torch.cat([x0, x1, x2, x3], -1)  # B H/2 W/2 4*Cx = x.view(B, -1, 4 * C)  # B H/2*W/2 4*Cx = self.norm(x)x = self.reduction(x)return x

SW-MSA设计

如下所示，w-msa mask避免窗口5和窗口3进行相似度计算，通过mask只在窗口内部进行计算。

通过对特征图移位，并给Attention设置mask来间接实现的。能在保持原有的window个数下，最后的计算结果等价

2023-11-18_10-20-26

2023-11-18_10-23-41

Window Attention

$Attention(Q,K,V)=Softmax(\frac{QK^T}{\sqrt{d}}+B)V$

相对位置编码

coords_h = torch.arange(self.window_size[0])
coords_w = torch.arange(self.window_size[1])
coords = torch.stack(torch.meshgrid([coords_h, coords_w]))  # 2, Wh, Ww
coords_flatten = torch.flatten(coords, 1)  # 2, Wh*Ww
relative_coords = coords_flatten[:, :, None] - coords_flatten[:, None, :]  # 2, Wh*Ww, Wh*Ww
relative_coords = relative_coords.permute(1, 2, 0).contiguous()  # Wh*Ww, Wh*Ww, 2
relative_coords[:, :, 0] += self.window_size[0] - 1  # shift to start from 0
relative_coords[:, :, 1] += self.window_size[1] - 1
relative_coords[:, :, 0] *= 2 * self.window_size[1] - 1
relative_position_index = relative_coords.sum(-1)  # Wh*Ww, Wh*Ww
self.register_buffer("relative_position_index", relative_position_index)

对于相对位置编码，在2维坐标系中，当偏移从0开始时，（2，1）和（1，2）相对（0，0）的位置编码是不同的，而转为1维坐标后，却是相同数值，为了解决这个问题，采用对x坐标2 * self.window_size[1] - 1操作，从而进行区分。而该相对位置编码需要2 * self.window_size[1] - 1编码数值。

A Survey of Transformers

图解Swin Transformer - 知乎 (zhihu.com)

Swin Transformer

Swin Transformer 简介下采样的层级设计，能够逐渐增大感受野。采用window进行注意力计算，极大降低了内存消耗，避免了整张图像尺寸大小的qkv矩阵滑窗操作包括不重叠的 local window，和重叠的 cross-window。不重叠的local window…...

编程日记 2023/11/19 17:39:42

【csapp lab】lab2_bomblab

文章目录前言实验内容phase_1phase_2phase_3phase_4phase_5phase_6secret_phase 前言刚做了csapp lab2，记录一下。我这里用的的系统环境是Ubuntu22.04，是64位系统，与用32位系统可能有所差异。实验共包括七个阶段，每个阶段考…...

编程日记 2023/11/19 17:38:41

开发者分享 | Ascend C算子开发及单算子调用

本文分享自《AscendC算子开发及单算子调用》，作者：goldpancake。笔者在阅读Ascend C官方文档的过程中发现，对于初学者来说，尤其是第一次接触异构编程思想的初学者，有部分内容是无需特别关注的，例如算子工…...

编程日记 2023/11/19 17:37:40

如何在 Linux 上部署 RabbitMQ

如何在 Linux 上部署 RabbitMQ 文章目录如何在 Linux 上部署 RabbitMQ安装 Erlang从预构建的二进制包安装从源代码编译 Erlang RabbitMQ 的安装使用 RabbitMQ Assistant 连接 RabbitMQ Assistant 是一款优秀的RabbitMQ 可视化管理工具，提供丰富的管理功能。下载地址…...

编程日记 2023/11/19 17:36:39

解决更换NodeJs版本后npm -v返回空白

一、问题描述 win11电脑上输入cmd进入控制台，输入 node --version 有正常返回安装的nodejs的版本号再输入 npm -v 返回空白。正常情况应该是要返回版本号。二、问题背景最近准备学习vue，在不久前已经安装了NodeJs和python。运行了好几个开源项…...

编程日记 2023/11/19 17:35:38

【ES常用查询】基于ElasticsearchRestTemplate及NativeSearchQuery的查询

包含当前es所有的查询， 需要什么代码直接照搬，改个参数就行！ 用的好请务必给我点赞！！！感谢爱你们！！！ （周末更筒） 为啥写这篇文章呢&#xff…...

编程日记 2023/11/19 17:34:37

全志XR806基于http的无线ota功能实验

XR806不仅硬件功能多，XR806也提供了功能极其丰富的SDK，几天体验下来非常容易上手。常见的功能几乎都有相应的cmd或demo实现，HAL也做得非常全面，非常适合快速开发。这一点超级好评！本文章要实现的无线OTA也基于该SDK。 …...

编程日记 2023/11/19 17:32:32

2023年11月15号期中测验选择题（Java）

本篇续接《2023年11月15号期中测验判断题（Java）》->传送门 2-1 以下程序运行结果是 public class Test extends Father{private String name"test";public static void main(String[] args){Test test new Test();System.out.println(tes…...

编程日记 2023/11/19 17:31:31

C# static关键字详解

在C#中，static关键字有许多重要的用途。以下是关于如何使用static关键字的一些详细信息： 静态类（Static Classes）：静态类是不能实例化的类，它的所有成员都是静态的。静态类常常用作工具类或帮助类&#xff…...

编程日记 2023/11/19 17:30:30

开发一款回合制游戏，需要注意什么？

随着游戏行业的蓬勃发展，回合制游戏因其深度的策略性和令人着迷的游戏机制而受到玩家们的热烈欢迎。如果你计划投身回合制游戏的开发领域，本文将为你提供一份详细的指南，从游戏设计到发布，助你成功打造一款引人入胜的游戏。 1. 游…...

编程日记 2023/11/19 17:29:29

java的包装类

目录 1. 包装类 1.1 基本数据类型和对应的包装类 1.2 装箱和拆箱 1.3 自动装箱和自动拆箱 1. 包装类在Java中，由于基本类型不是继承自Object，为了在泛型代码中可以支持基本类型，Java给每个基本类型都对应了一个包装类型。若想了解…...

编程日记 2023/11/19 17:28:27

【数据结构(一)】线性结构和非线性结构

文章目录线性结构和非线性结构1. 线性结构2. 非线性结构线性结构和非线性结构数据结构包括：线性结构和非线性结构。 1. 线性结构线性结构作为最常用的数据结构，其特点是数据元素之间存在一对一的线性关系。线性结构有两种不同的存储结构&#xff…...

编程日记 2023/11/19 17:26:22

持续集成指南：GitHubAction 自动构建+部署AspNetCore项目

前言之前研究了使用 GitHub Action 自动构建和发布 nuget 包：开发现代化的.NetCore控制台程序：(4)使用GithubAction自动构建以及发布nuget包现在更进一步，使用 GitHub Action 在其提供的 runner 里构建 docker 镜像，之后提交到阿…...

编程日记 2023/11/19 17:25:21

Docker 笔记（三）--容器

Docker 笔记（三）–容器记录Docker 安装操作记录，便于查询。参考链接: Docker 入门到实战教程(三)镜像和容器链接: docker run中的-itd参数正确使用链接: docker官方文档链接: 阿里云Debian 镜像链接: Debian 全球镜像站链接: Debian/Ub…...

编程日记 2023/11/19 17:24:20

一、gd32f103的PA15问题 1、 #define GPIO_SWJ_NONJTRST_REMAP ((uint32_t)0x00300100U) /*!< full SWJ(JTAG-DP SW-DP),but without NJTRST */ #define GPIO_SWJ_SWDPENABLE_REMAP ((uint32_t)0x00300200U) /*!< JTAG-DP disabled and SW-DP enab…...

编程日记 2023/11/19 17:23:18

QT小记：警告Use multi-arg instead

"Use multi-arg instead" 是一个提示，建议使用 QObject::tr() 函数的多参数版本来处理多个占位符，而不是使用单参数版本。在 Qt 中，tr() 是用于进行文本翻译（国际化）的函数。它允许你在应用程序中使用多种…...

编程日记 2023/11/19 17:22:18

皮肤性病科专家谭巍主任提出HPV转阴后饮食七点建议

HPV转阴是每一位感染者都期盼的，因为转阴所以健康，只有转为阴性才意味着不具备传染性，从此也不必再害怕将病毒传染给家人的风险，也不必再担忧持续感染而引发的健康风险。总之，HPV转阴是预示感染者恢复健康与否的主要标…...

编程日记 2023/11/19 17:18:14

快速弄懂C++中的智能指针

智能指针是C中的一个对象，它的行为类似于指针，但它提供了自动的内存管理功能。当智能指针超出作用域时（比如说在函数中使用智能指针指向了一个对象，当该函数结束时会自动销毁该对象），它会自动删除其所指向的…...

编程日记 2023/11/19 17:17:12

C#调用C++ dll教程

文章目录一、创建C dll项目二、C#程序员调用C dll三、C与C#数据类型对应基本数据类型对应表C指针类型与C#类型在使用C#开发客户端时，有时需要调用C dll，本篇博客来介绍C#程序如何调用C dll。一、创建C dll项目首先使用VS2022创建C dll项目&#xf…...

编程日记 2023/11/19 17:16:11

计算机毕设深度学习大数据股票预测系统 - python lstm

文章目录 0 前言1 课题意义1.1 股票预测主流方法 2 什么是LSTM2.1 循环神经网络2.1 LSTM诞生 2 如何用LSTM做股票预测2.1 算法构建流程2.2 部分代码 3 实现效果3.1 数据3.2 预测结果项目运行展示开发环境数据获取最后 0 前言 🔥 这两年开始毕业设计和毕业答辩的要…...

编程日记 2023/11/19 17:14:08

Linux 文件类型，目录与路径，文件与目录管理

文件类型后面的字符表示文件类型标志普通文件：-（纯文本文件，二进制文件，数据格式文件） 如文本文件、图片、程序文件等。目录文件：d（directory） 用来存放其他文件或子目录。设备…...

编程新知 2026/2/8 20:42:46

React Native在HarmonyOS 5.0阅读类应用开发中的实践

一、技术选型背景随着HarmonyOS 5.0对Web兼容层的增强，React Native作为跨平台框架可通过重新编译ArkTS组件实现85%以上的代码复用率。阅读类应用具有UI复杂度低、数据流清晰的特点。二、核心实现方案 1. 环境配置 （1）使用React Native…...

编程新知 2025/8/19 2:57:37

测试markdown--肇兴

day1： 1、去程：7:04 --11:32高铁高铁右转上售票大厅2楼，穿过候车厅下一楼，上大巴车 ￥10/人 **2、到达：**12点多到达寨子，买门票，美团/抖音：￥78人 3、中饭&a…...

编程新知 2025/12/14 11:45:02

在WSL2的Ubuntu镜像中安装Docker

Docker官网链接: https://docs.docker.com/engine/install/ubuntu/ 1、运行以下命令卸载所有冲突的软件包： for pkg in docker.io docker-doc docker-compose docker-compose-v2 podman-docker containerd runc; do sudo apt-get remove $pkg; done2、设置Docker…...

编程新知 2026/2/4 16:23:56

Springboot社区养老保险系统小程序

一、前言随着我国经济迅速发展，人们对手机的需求越来越大，各种手机软件也都在被广泛应用，但是对于手机进行数据信息管理，对于手机的各种软件也是备受用户的喜爱，社区养老保险系统小程序被用户普遍使用，为方…...

编程新知 2026/1/26 2:48:53

让回归模型不再被异常值“带跑偏“，MSE和Cauchy损失函数在噪声数据环境下的实战对比

在机器学习的回归分析中，损失函数的选择对模型性能具有决定性影响。均方误差（MSE）作为经典的损失函数，在处理干净数据时表现优异，但在面对包含异常值的噪声数据时，其对大误差的二次惩罚机制往往导致模型参数…...

编程新知 2026/1/28 2:18:46

Linux 中如何提取压缩文件？

Linux 是一种流行的开源操作系统，它提供了许多工具来管理、压缩和解压缩文件。压缩文件有助于节省存储空间，使数据传输更快。本指南将向您展示如何在 Linux 中提取不同类型的压缩文件。 1. Unpacking ZIP Files ZIP 文件是非常常见的，要在 …...

编程新知 2026/2/1 5:38:25

【 java 虚拟机知识第一篇】

目录 1.内存模型 1.1.JVM内存模型的介绍 1.2.堆和栈的区别 1.3.栈的存储细节 1.4.堆的部分 1.5.程序计数器的作用 1.6.方法区的内容 1.7.字符串池 1.8.引用类型 1.9.内存泄漏与内存溢出 1.10.会出现内存溢出的结构 1.内存模型 1.1.JVM内存模型的介绍内存模型主要分…...

编程新知 2026/1/31 8:12:12

STM32---外部32.768K晶振（LSE）无法起振问题

晶振是否起振主要就检查两个1、晶振与MCU是否兼容；2、晶振的负载电容是否匹配目录一、判断晶振与MCU是否兼容二、判断负载电容是否匹配 1. 晶振负载电容（CL）与匹配电容（CL1、CL2）的关系 2. 如何选择 CL1 和 CL…...

编程新知 2026/2/7 10:55:43

libfmt: 现代C++的格式化工具库介绍与酷炫功能

libfmt: 现代C的格式化工具库介绍与酷炫功能 libfmt 是一个开源的C格式化库，提供了高效、安全的文本格式化功能，是C20中引入的std::format的基础实现。它比传统的printf和iostream更安全、更灵活、性能更好。基本介绍主要特点类型安全&#xff1a…...

编程新知 2025/9/14 12:09:11

Swin Transformer

Swin Transformer

简介

整体架构

Patch Embedding

Patch Merging

SW-MSA设计

Window Attention

相对位置编码

相关文章：

Swin Transformer

【csapp lab】lab2_bomblab

开发者分享 | Ascend C算子开发及单算子调用

如何在 Linux 上部署 RabbitMQ

解决更换NodeJs版本后npm -v返回空白

【ES常用查询】基于ElasticsearchRestTemplate及NativeSearchQuery的查询

全志XR806基于http的无线ota功能实验

2023年11月15号期中测验选择题（Java）

C# static关键字详解

开发一款回合制游戏，需要注意什么？

java的包装类

【数据结构(一)】线性结构和非线性结构

持续集成指南：GitHubAction 自动构建+部署AspNetCore项目

Docker 笔记（三）--容器

gd32关于IO引脚配置的一些问题

QT小记：警告Use multi-arg instead

皮肤性病科专家谭巍主任提出HPV转阴后饮食七点建议

快速弄懂C++中的智能指针

C#调用C++ dll教程

计算机毕设深度学习大数据股票预测系统 - python lstm

Linux 文件类型，目录与路径，文件与目录管理

React Native在HarmonyOS 5.0阅读类应用开发中的实践

测试markdown--肇兴

在WSL2的Ubuntu镜像中安装Docker

Springboot社区养老保险系统小程序

让回归模型不再被异常值“带跑偏“，MSE和Cauchy损失函数在噪声数据环境下的实战对比

Linux 中如何提取压缩文件？

【 java 虚拟机知识第一篇】

STM32---外部32.768K晶振（LSE）无法起振问题

libfmt: 现代C++的格式化工具库介绍与酷炫功能