当前位置：首页 > news >正文

【代码】Swan-Transformer 代码详解（待完成）

news 2025/12/29 12:22:11

1. 局部注意力 Window Attention (W-MSA Module)

class WindowAttention(nn.Module):r""" Window based multi-head self attention (W-MSA) module with relative position bias.It supports both of shifted and non-shifted window.Args:dim (int): Number of input channels.window_size (tuple[int]): The height and width of the window.num_heads (int): Number of attention heads.qkv_bias (bool, optional):  If True, add a learnable bias to query, key, value. Default: Trueattn_drop (float, optional): Dropout ratio of attention weight. Default: 0.0proj_drop (float, optional): Dropout ratio of output. Default: 0.0"""def __init__(self, dim, window_size, num_heads, qkv_bias=True, attn_drop=0., proj_drop=0.):super().__init__()self.dim = dimself.window_size = window_size  # [Mh, Mw]print(self.window_size)self.num_heads = num_headshead_dim = dim // num_headsself.scale = head_dim ** -0.5# define a parameter table of relative position biasself.relative_position_bias_table = nn.Parameter(torch.zeros((2 * window_size[0] - 1) * (2 * window_size[1] - 1), num_heads))  # [2*Mh-1 * 2*Mw-1, nH]# get pair-wise relative position index for each token inside the windowcoords_h = torch.arange(self.window_size[0])coords_w = torch.arange(self.window_size[1])coords = torch.stack(torch.meshgrid([coords_h, coords_w], indexing="ij"))  # [2, Mh, Mw]coords_flatten = torch.flatten(coords, 1)  # [2, Mh*Mw]# [2, Mh*Mw, 1] - [2, 1, Mh*Mw]relative_coords = coords_flatten[:, :, None] - coords_flatten[:, None, :]  # [2, Mh*Mw, Mh*Mw]relative_coords = relative_coords.permute(1, 2, 0).contiguous()  # [Mh*Mw, Mh*Mw, 2]relative_coords[:, :, 0] += self.window_size[0] - 1  # shift to start from 0relative_coords[:, :, 1] += self.window_size[1] - 1relative_coords[:, :, 0] *= 2 * self.window_size[1] - 1relative_position_index = relative_coords.sum(-1)  # [Mh*Mw, Mh*Mw]self.register_buffer("relative_position_index", relative_position_index)self.qkv = nn.Linear(dim, dim * 3, bias=qkv_bias)self.attn_drop = nn.Dropout(attn_drop)self.proj = nn.Linear(dim, dim)self.proj_drop = nn.Dropout(proj_drop)nn.init.trunc_normal_(self.relative_position_bias_table, std=.02)self.softmax = nn.Softmax(dim=-1)def forward(self, x, mask: Optional[torch.Tensor] = None):"""Args:x: input features with shape of (num_windows*B, Mh*Mw, C)mask: (0/-inf) mask with shape of (num_windows, Wh*Ww, Wh*Ww) or None"""# [batch_size*num_windows, Mh*Mw, total_embed_dim]B_, N, C = x.shape# qkv(): -> [batch_size*num_windows, Mh*Mw, 3 * total_embed_dim]# reshape: -> [batch_size*num_windows, Mh*Mw, 3, num_heads, embed_dim_per_head]# permute: -> [3, batch_size*num_windows, num_heads, Mh*Mw, embed_dim_per_head]qkv = self.qkv(x).reshape(B_, N, 3, self.num_heads, C // self.num_heads).permute(2, 0, 3, 1, 4)# [batch_size*num_windows, num_heads, Mh*Mw, embed_dim_per_head]q, k, v = qkv.unbind(0)  # make torchscript happy (cannot use tensor as tuple)# transpose: -> [batch_size*num_windows, num_heads, embed_dim_per_head, Mh*Mw]# @: multiply -> [batch_size*num_windows, num_heads, Mh*Mw, Mh*Mw]q = q * self.scaleattn = (q @ k.transpose(-2, -1))# relative_position_bias_table.view: [Mh*Mw*Mh*Mw,nH] -> [Mh*Mw,Mh*Mw,nH]relative_position_bias = self.relative_position_bias_table[self.relative_position_index.view(-1)].view(self.window_size[0] * self.window_size[1], self.window_size[0] * self.window_size[1], -1)relative_position_bias = relative_position_bias.permute(2, 0, 1).contiguous()  # [nH, Mh*Mw, Mh*Mw]attn = attn + relative_position_bias.unsqueeze(0)if mask is not None:# mask: [nW, Mh*Mw, Mh*Mw]nW = mask.shape[0]  # num_windows# attn.view: [batch_size, num_windows, num_heads, Mh*Mw, Mh*Mw]# mask.unsqueeze: [1, nW, 1, Mh*Mw, Mh*Mw]attn = attn.view(B_ // nW, nW, self.num_heads, N, N) + mask.unsqueeze(1).unsqueeze(0)attn = attn.view(-1, self.num_heads, N, N)attn = self.softmax(attn)else:attn = self.softmax(attn)attn = self.attn_drop(attn)# @: multiply -> [batch_size*num_windows, num_heads, Mh*Mw, embed_dim_per_head]# transpose: -> [batch_size*num_windows, Mh*Mw, num_heads, embed_dim_per_head]# reshape: -> [batch_size*num_windows, Mh*Mw, total_embed_dim]x = (attn @ v).transpose(1, 2).reshape(B_, N, C)x = self.proj(x)x = self.proj_drop(x)return x

【代码】Swan-Transformer 代码详解（待完成）

1. 局部注意力 Window Attention (W-MSA Module) class WindowAttention(nn.Module):r""" Window based multi-head self attention (W-MSA) module with relative position bias.It supports both of shifted and non-shifted window.Args:dim (int): Number…...

编程日记 2024/8/22 13:52:40

iframe.contentDocument 和document.documentElement的区别

iframe.contentDocument 和 document.documentElement 是用于访问不同内容的两个不同的对象或属性。 1. iframe.contentDocument 内容: iframe.contentDocument 代表的是 <iframe> 元素所嵌入的文档的 Document 对象。它允许你访问和操作嵌入的文档（即 ifram…...

编程日记 2024/8/22 13:51:39

计算机操作员试题（中篇）

计算机操作员试题（中篇） 335.在 Excel中，把鼠标指向被选中单元格边框，当指变成箭头时，拖动鼠标到目标单元格时，将完成( )操作。 (A)删除 (B)移动 ©自动填充 (D)复制 336.在 Excel 工作表的单元格中，如想输入数字字符串 070615 (例如学号)，则应输入()。 (A) 0007…...

编程日记 2024/8/22 13:48:34

车规级MCU「换道」竞赛

汽车芯片，尤其是MCU市场正在进入拐点期。本周，总部位于荷兰的汽车芯片制造商—恩智浦（NXP）半导体总裁兼首席执行官Kurt Sievers在公司第二季度财报电话会议上告诉投资者，由于汽车需求停滞不前，该公司正在努…...

编程日记 2024/8/22 13:47:33

数学生物学-2-离散时间模型(Discrete Time Models）

上一篇介绍了一个指数增长模型。然而，我们也看到，在现实情况下，细菌培养的增长是在离散的时间（在这种情况下是小时）进行测量的，种群并没有无限增长，而是趋于以S形曲线趋于平稳，称为“…...

编程日记 2024/8/22 13:45:30

免费开源！AI视频自动剪辑已成现实！效率提升80%，打工人福音！（附详细教程）

大家好，我是程序员X小鹿，前互联网大厂程序员，自由职业2年，也一名 AIGC 爱好者，持续分享更多前沿的「AI 工具」和「AI副业玩法」，欢迎一起交流~ 想象一下，假设老板给你布置了一项任务&#xff1a…...

编程日记 2024/8/22 13:44:29

NtripShare全站仪自动化监测之气象改正

最近有幸和自动化监测领域权威专家进行交流，讨论到全站仪气象改正的问题，因为有些观点与专家不太一致，所以再次温习了一下全站仪气象改正的技术细节。气象改正的概念全站仪一般利用光波进行测距，首先仪器会处理测距光波的相位漂…...

编程日记 2024/8/22 13:43:28

【人工智能】项目案例分析：使用自动编码器进行信用卡欺诈检测

一、项目背景信用卡欺诈是金融行业面临的一个重要问题，快速且准确的欺诈检测对于保护消费者和金融机构的利益至关重要。本项目旨在通过利用自动编码器（Autoencoder）这一无监督学习算法，来检测信用卡交易中的欺诈行为&#xff0c…...

编程日记 2024/8/22 13:42:27

【工控】线扫相机小结

背景简介我目前接触到的线扫相机有两种形式：无采集卡，数据通过网线传输。配备采集卡，使用PCIe接口。第一种形式的数据通过网线传输，速度较慢，因此扫描和生成图像的速度都较慢，参数设置主要集中在相机本身。第二种形式的相机配备采集卡，通常速度更快，但由于相机和…...

编程日记 2024/8/22 13:41:25

将Web应用部署到Tomcat根目录的三种方法

将应用部署到Tomcat根目录的三种方法将应用部署到Tomcat根目录的目的是可以通过"http://[ip]:[port]"直接访问应用，而不是使用"http://[ip]:[port]/[appName]"上下文路径进行访问。方法一：（最简单直接的方法&#xff0…...

编程日记 2024/8/22 13:40:24

工业和信息化部教育与考试中心计算机相关专业介绍

国家工信部的认证证书在行业内享有较高声誉。此外，还设有专门的工业和信息化技术技能人才数据库查询服务，进一步方便了个人和企业对相关职业能力证书的查询需求。序号专业工种级别备注 1 JAVA程序员初级职业技术 2 电子…...

编程日记 2024/8/22 13:39:22

第二证券：生物天然气线上交易达成创新探索互联互通、气证合一

8月20日，上海石油天然气生意中心在国内立异推出生物天然气线上生意。当日，绿气新动力（北京）有限公司（简称“绿气新动力”）挂单的1500万立方米生物天然气被百事食物（我国）有限公司&am…...

编程日记 2024/8/22 13:38:20

重磅！RISC-V+OpenHarmony平板电脑发布

仟江水商业电讯（8月18日北京委托发布）RISC-V作为历史上全球发展速度最快、创新最为活跃的开放指令架构，正在不断拓展高性能计算领域的边界。OpenHarmony是由开放原子开源基金会孵化并运营的开源项目，已成为发展速度最快的智能终…...

编程日记 2024/8/22 13:37:19

[DL]深度学习_扩散模型

扩散模型原理深入浅出扩散模型一、概念简介 1、Denoising Diffusion Probalistic Models，DDPM 1.1 扩散模型运行原理首先sample一个都是噪声的图片向量，这个向量的shape和要生成的图像大小相同。通过Denoise过程来一步一步有规律的滤去噪声。Den…...

编程日记 2024/8/22 13:36:18

AI学习记录 - 如何快速构造一个简单的token词汇表

创作不易，有用的话点个赞先直接贴代码，我们再慢慢分析，代码来自openai的图像分类模型的一小段 def bytes_to_unicode():"""Returns list of utf-8 byte and a corresponding list of unicode strings.The reversible bpe c…...

编程日记 2024/8/22 13:35:16

JAVA中的数组流ByteArrayOutputStream

Java 中的 ByteArrayOutputStream 是一个字节数组输出流，它允许应用程序以字节的形式写入数据到一个字节数组缓冲区中。以下是对 ByteArrayOutputStream 的详细介绍，包括其构造方法、方法、使用示例以及运行结果。一、ByteArrayOutputStream 概述 Byt…...

编程日记 2024/8/22 13:33:13

S3C2440中断处理

一、中断处理机制概述中断是CPU在执行程序过程中，遇到急需处理的事件时，暂时停止当前程序的执行，转而执行处理该事件的中断服务程序，并在处理完毕后返回原程序继续执行的过程。S3C2440提供了丰富的中断源，包括内部中…...

编程日记 2024/8/22 13:31:11

《数据分析与知识发现》

《数据分析与知识发现》介绍 1 期刊定位《数据分析与知识发现》（Data Analysis and Knowledge Discovery）是由中国科学院主管、中国科学院文献情报中心主办的学术性专业期刊。期刊创刊于2017年，由《现代图书情报技术》（1985-20…...

编程日记 2024/8/22 13:30:09

IaaS，PaaS，aPaaS，SaaS，FaaS，如何区分？

IaaS, PaaS，SaaS，aPaaS 还有一种 FaaS ，这几个都是云服务中常见的 5 大类型： IaaS：基础架构即服务，Infrastructure as a Service PaaS：平台即服务，Platform as a Service aPaaS&…...

编程日记 2024/8/22 13:27:05

软件测试工具分享

要想在测试中旗开得胜，趁手的“武器”那是相当重要（说人话，要保证测试质量和效率，测试工具也很重要）。现在，小酋打算亮一亮自己的武器库，希望不要闪瞎你的眼（天上在打雷，…...

编程日记 2024/8/22 13:25:03

大数据学习栈记——Neo4j的安装与使用

本文介绍图数据库Neofj的安装与使用，操作系统：Ubuntu24.04，Neofj版本：2025.04.0。 Apt安装 Neofj可以进行官网安装：Neo4j Deployment Center - Graph Database & Analytics 我这里安装是添加软件源的方法最新版…...

编程新知 2025/12/28 13:46:14

OpenLayers 分屏对比(地图联动)

注：当前使用的是 ol 5.3.0 版本，天地图使用的key请到天地图官网申请，并替换为自己的key 地图分屏对比在WebGIS开发中是很常见的功能，和卷帘图层不一样的是，分屏对比是在各个地图中添加相同或者不同的图层进行对比查看。…...

编程新知 2025/12/25 18:22:43

scikit-learn机器学习

# 同时添加如下代码, 这样每次环境(kernel)启动的时候只要运行下方代码即可: # Also add the following code, # so that every time the environment (kernel) starts, # just run the following code: import sys sys.path.append(/home/aistudio/external-libraries)机…...

编程新知 2025/7/5 19:39:42

什么是VR全景技术

VR全景技术，全称为虚拟现实全景技术，是通过计算机图像模拟生成三维空间中的虚拟世界，使用户能够在该虚拟世界中进行全方位、无死角的观察和交互的技术。VR全景技术模拟人在真实空间中的视觉体验，结合图文、3D、音视频等多媒体元素…...

编程新知 2025/12/22 8:31:54

【UE5 C++】通过文件对话框获取选择文件的路径

目录效果步骤源码效果步骤 1. 在“xxx.Build.cs”中添加需要使用的模块 ，这里主要使用“DesktopPlatform”模块 2. 添加后闭UE编辑器，右键点击 .uproject 文件，选择 "Generate Visual Studio project files"，重…...

编程新知 2025/12/24 23:39:44

恶补电源：1.电桥

一、元器件的选择搜索并选择电桥，再multisim中选择FWB，就有各种型号的电桥: 电桥是用来干嘛的呢？ 它是一个由四个二极管搭成的“桥梁”形状的电路，用来把交流电（AC）变成直流电（DC）。…...

编程新知 2025/12/28 8:51:19

《信号与系统》第 6 章信号与系统的时域和频域特性

目录 6.0 引言 6.1 傅里叶变换的模和相位表示 6.2 线性时不变系统频率响应的模和相位表示 6.2.1 线性与非线性相位 6.2.2 群时延 6.2.3 对数模和相位图 6.3 理想频率选择性滤波器的时域特性 6.4 非理想滤波器的时域和频域特性讨论 6.5 一阶与二阶连续时间系统 6.5.1 …...

编程新知 2025/12/27 20:54:54

机器学习的数学基础：线性模型

线性模型线性模型的基本形式为： f ( x ) ω T x b f\left(\boldsymbol{x}\right)\boldsymbol{\omega}^\text{T}\boldsymbol{x}b f(x)ωTxb 回归问题利用最小二乘法，得到 ω \boldsymbol{\omega} ω和 b b b的参数估计$ \boldsymbol{\hat{\omega}}…...

编程新知 2025/10/2 9:07:50

负载均衡器》》LVS、Nginx、HAproxy 区别

虚拟主机先4，后7...

编程新知 2025/12/25 8:32:39

【向量库】Weaviate概述与架构解析

文章目录一、什么是weaviate二、High-Level Architecture1. Core Components2. Storage Layer3. 组件交互流程三、核心组件1. API Layer2. Schema Management3. Vector Indexing3.1. 查询原理3.2. 左侧：Search Process（搜索流程）3.3. 右侧&…...

编程新知 2025/12/27 7:16:29

相关文章：