当前位置：首页 > news >正文

场景文本检测识别学习 day09（Swin Transformer论文精读）

news 2026/2/10 7:57:19

Patch & Window

在这里插入图片描述

在Swin Transformer中，不同层级的窗口内部的补丁数量是固定的，补丁内部的像素数量也是固定的，如上图的红色框就是不同的窗口（Window），窗口内部的灰色框就是补丁（Patch）
如果输入图像的宽W、高H，增加到原来的两倍，那么输入图像的总面积（总像素数量）就增加到原来的四倍（2H * 2W = 4HW）
在ViT中，由于窗口是固定的，且就是整个输入图片，所以当我们将输入图片分割成很多个尺寸为16 * 16 的patch时，如果输入图像的总面积增加到原来的四倍，那么patch的数量也会变成原来的四倍，那么计算复杂度 $O( N^2 · d)$ ，就变成了 $O( (4N)^2 · d) = O( 16N^2 · d)$ ，其中d是每个patch的维度，N是patch的数量。因此，对于ViT来说，计算复杂度是跟图像增加的大小成平方关系
在Swin Transformer中，由于窗口不是固定的，但是窗口内部的补丁数量是固定的，补丁的尺寸也是固定的，所以当我们将输入图片的总面积增加到原来的四倍，那么只有窗口的数量增加到原来的四倍，那么计算复杂度 $O( M^2 · N · d)$ ，就变成了 $O( M^2 · 4N · d)$ ，其中M是每个窗口内补丁的数量，N是窗口的数量，d是每个补丁patch的维度。（虽然每个patch的维度都不一样，这里先不管了）

Swin Transformer

Swin Transformer 提出ViT具有两个缺点：
1. 没有多尺度特征，不能生成多尺度的特征图传给FPN (检测) \ U-Net (分割)，从而对于不同大小的物体都能进行良好感知
3. 全局计算自注意力浪费资源，并且计算复杂度跟图像增加的大小成平方关系
对于以上缺点，Swin Transformer给出了以下的解决方法：
在这里插入图片描述

不同于ViT—在整张输入图片上进行自注意力计算。Swin Transformer是在窗口内进行自注意力计算的，同时这个窗口又是包含固定数量的patch，每个patch的尺寸也是固定的。由于在图像领域中，同一个物体的不同部位、或语义相似的不同物体大概率会出现在相邻的地方，所以没必要像ViT那样–对整张图进行自注意力操作，其实可以借鉴CNN卷积的局部性的归纳偏置，在一个小的局部窗口内进行自注意力计算，也是差不多够用的。所以Swin Transformer使用了尺寸不一的窗口来避免序列长度过大，从而节约计算资源。
不同于ViT— 在每个Transformer Encoder Block上都是做相同尺寸的自注意力操作，得到的也是相同尺寸的特征。Swin Transformer在不同尺寸的窗口内做自注意力操作，从而得到不同尺寸的特征图，也就是多尺度的特征图。
在Swin Transformer中，这叫做patch merging。这跟CNN的池化操作很类似，CNN通过池化Pooling，来增大每一个卷积核能看到的感受野，从而使每次池化后的卷积核能够抓住不同尺寸的物体。
在Swin Transformer中，灰色的格子叫patch是最小的计算单元（尺寸为4 * 4），红色的格子叫window是中等的计算单元，最小的窗口里有7 * 7个patch，通过将整张图分成不同的窗口，只计算窗口内的自注意力，可以极大程度的减小序列长度，减小计算复杂度。
shifted window是指：先将左侧图中的分割线往右下移动两个patch，然后将左上角变大后的窗口重新按中心分割成四个窗口，再将分割线往左上移动两个patch，就变成右图的样子。
shifted window 和 patch merging的好处如下：
1. 当我们进行注意力计算的时候，只在Swin Transformer的局部窗口内进行局部自注意力计算，相比ViT的全局窗口来说，可以减少序列长度，节省内存，加快计算。
2. 因为自注意力都是只在窗口内进行，所以如果不进行shift，那么某个窗口内的patch就永远无法注意到其他窗口内patch的信息，这就违背了Transformer的初衷—更好的理解上下文，掌握全局信息。但是经过shift之后，比如中间的窗口，就是由之前四个窗口的patch组成的，也就表示中间窗口进行自注意力计算后，可以关注到其他窗口的信息，窗口和窗口之间可以进行交互（Cross-Window Connection）
3. 再加上之前的patch merging，那么在不断合并的时候，每个patch可以注意到很多其他窗口的patch信息，即每个patch的感受野会不断增大
4. 因此虽然我们计算的是每个窗口内的局部自注意力，但是实际上它近似等于一个全局的自注意力。

池化

在这里插入图片描述

如果使用卷积核大小为（1 * 2）具体为 [1 , -1]，由于卷积操作对位置很敏感，所以对最左侧的输入进行卷积之后，得到的结果只有一列是1，即边缘会检测不准，如果当图片发生微小改变后，边缘经过卷积都会发生变化。所以卷积对于位置的敏感性不是一个很好的事。因此最好能具有一定程度的平移不变性，即当图片发生微小的改变，卷积结果不会发生改变。
所以往往在卷积之后加入池化操作，以上是二维最大池化的示意过程
通过二维最大池化的结果可以看出，池化的操作近似于模糊化，在卷积输出的值附近出现多次同样的值。
池化层和卷积层类似，都有填充和步幅
但是池化层没有可学习的参数，直接从输入中选取值了
池化层的输出通道数等于输入通道数，即在每个输入通道应用池化层来获得相对应的输出通道。（由于卷积层可以改变通道，而池化层往往是跟在卷积层后面，所以池化层就不需要改变通道数了）

场景文本检测识别学习 day09（Swin Transformer论文精读）

Patch & Window 在Swin Transformer中，不同层级的窗口内部的补丁数量是固定的，补丁内部的像素数量也是固定的，如上图的红色框就是不同的窗口（Window），窗口内部的灰色框就是补丁（Patch&#…...

编程日记 2024/5/7 23:01:09

抖音小店个人店和个体店有什么不同？区别问题，新手必须了解！

哈喽~我是电商月月新手开抖音小店入驻时会发现，选择入驻形式时有三个选择，个人店，个体店和企业店其中，个人店和个体店只差了一个字，但个人店不需要营业执照，是不是入驻时选择个人店会更好一点呢&#x…...

编程日记 2024/5/7 23:00:08

动态规划入门和应用示例

文章目录前言斐波那契数列爬楼梯总结优点：缺点： 前言动态规划（Dynamic Programming，DP）是运筹学的一个分支，是求解决策过程最优化的数学方法。它主要用于解决一类具有重叠子问题和最优子结构性质的问题。…...

编程日记 2024/5/7 22:59:07

【C语言】精品练习题

目录题目一： 题目二： 题目三： 题目四： 题目五： 题目六： 题目七： 题目八： 题目九： 题目十： 题目十一： 题目十二： 题目十…...

编程日记 2024/5/7 22:57:05

数据库（MySQL）—— DML语句

数据库（MySQL）—— DML语句什么是DML语句添加数据给全部字段添加数据批量添加数据修改数据删除数据什么是DML语句在MySQL中，DML（Data Manipulation Language，数据操纵语言）语句主要用于对数据库中的数…...

编程日记 2024/5/7 22:56:03

【最大公约数并集查找调和级数】1998. 数组的最大公因数排序

本文涉及知识点最大公约数并集查找调和级数 LeetCode1998. 数组的最大公因数排序给你一个整数数组 nums ，你可以在 nums 上执行下述操作任意次 ： 如果 gcd(nums[i], nums[j]) > 1 ，交换 nums[i] 和 nums[j] 的位置。其中 gcd(nums…...

编程日记 2024/5/7 22:55:02

iOS实现一个高性能的跑马灯

效果图该跑马灯完全通过CATextLayer 实现，轻量级，并且通过系统的位移动画实现滚动效果，避免了使用displaylink造成的性能瓶颈，使用系统动画，系统自动做了很多性能优化，实现更好的性能，并使用…...

编程日记 2024/5/7 22:54:01

MySQL的视图、存储过程、触发器

视图介绍视图是一种虚拟存在的表。视图中的数据并不在数据库中实际存在，行和列数据来自定义视图的查询中使用的表，并且是在使用视图时动态生成的。通俗的讲，视图只保存了查询的SQL逻辑，不保存查询结果。所以我们在创建视图的时…...

编程日记 2024/5/7 22:51:59

【图像特征点匹配】

图像特征点匹配图像特征点匹配是计算机视觉中的一项关键技术，它涉及在两个或多个图像之间寻找并匹配具有独特属性的点，这些点被称为特征点。立体视觉：通过匹配同一场景的不同视角图像中的特征点，可以重建场景的三维结构。物体识别：通过匹配物体表面的特征点，可以识别和…...

编程日记 2024/5/7 22:49:56

GZIPOutputStream JSON压缩

一、背景小王瞥了一眼历史记录表，不禁惊呼：“这表怎么这么大？”同事们闻声纷纷围拢过来查看。仔细一瞧，发现这个表的大小竟然超过了3G。主管随即指示小王打开相应的表数据检查，发现其中存储了用户的权限信息&#xf…...

编程日记 2024/5/7 22:48:55

毫米波雷达原理(含代码)(含ARS548 4D毫米波雷达数据demo和可视化视频)

毫米波雷达原理 1. 传统毫米波雷达1.1 雷达工作原理1.2 单目标距离估计1.3 单目标速度估计1.4 单目标角度估计1.5 多目标距离估计1.6 多目标速度估计1.7多目标角度估计1.7 总结 3. FMCW雷达数据处理算法4. 毫米波雷达的目标解析(含python代码)5. ARS548 4D毫米波雷达数据demo(含…...

编程日记 2024/5/7 22:47:53

3.1 Gateway之路由请求和转发

1.依赖坐标 <dependency><groupId>org.springframework.cloud</groupId><artifactId>spring-cloud-starter-gateway</artifactId></dependency><dependency><groupId>com.alibab…...

编程日记 2024/5/7 22:46:53

目录 1. 人脸识别开源算法库 1.1 OpenCV人脸识别模块 1.2 Dlib人脸识别模块 1.3 SeetaFace6 1.4 DeepFace 1.5 InsightFace 2. 人脸识别开源数据库 2.1 CelebA 2.2 LFW 2.3 MegaFace 2.4 Glint360K 2.5 WebFace260M 人脸识别 (Face Recognition) 是一种基于人的面部…...

编程日记 2024/5/7 22:44:51

Excel 中用于在一个范围中查找特定的值，并返回同一行中指定列的值顺序不一样可以处理吗

一、需求 Excel 中，在一列（某范围内）查找另一列特定的值，并返回同一行中另一指定列的值， 查找列和返回列的顺序不一样二、实现 1、下面是一个使用 INDEX 和 MATCH 函数的例子： 假设你有以下数据&…...

编程日记 2024/5/7 22:42:49

MySql-日期分组

一、分别统计各时间各类型数据条数数据库的 request_time字段数据类型：timestamp 默认值：CURRENT_TIMESTAMP 例子： 2024-01-26 08:25:48 原数据： 1、将数据按照日期（年月日）形式输出按照request_…...

编程日记 2024/5/7 22:41:48

有哪些方法可以在运行时动态生成一个Java类？

使用 Java 反射 API🚩： Java 的反射 API 允许在运行时查询和操作类和对象。虽然反射 API 本身不直接提供生成新类的功能，但可以用于动态调用构造函数、方法和访问字段，这在某些情况下可以作为动态生成类的一部分。字节码操作库&…...

编程日记 2024/5/7 22:39:46

JAVA两个线程交替打印实现

方案1 Semaphore 机制通过信息号机制来协调两个线程，一个线程打印后，给另一个线程释放一个信号量 Semaphore semaphorea new Semaphore(1);Semaphore semaphoreb new Semaphore(0);Thread threada new Thread(new Runnable() {Overridepublic void…...

编程日记 2024/5/7 22:38:45

【C语言】学习C语言

C语言简介 C语言是一门十分流行的编程语言，由美国贝尔实验室的 Dennis Ritchie 在 20 世纪 70 年代开发。 C语言具有高效、可移植、灵活、简单等特点，被广泛应用于操作系统、编译器、数据库、图形界面、嵌入式系统、网络通信、游戏等领域。本文将带你…...

编程日记 2024/5/7 22:37:44

C 深入指针（2）

目录 1 野指针 1.1 成因 1.2 如何规避野指针 2 assert 断言 2.1 用法 2.2 assert 的优点 2.1 assert 的缺点 3 小注解 3.1 Debug 和 Release 1 野指针【概念】： 野指针就是指针指向的位置是不可知的（随机的、不正确的、没有明确限制的&#…...

编程日记 2024/5/7 22:36:43

FileLink跨网文件交换，推动企业高效协作｜半导体行业解决方案

随着信息技术的迅猛发展，全球信息产业已经迎来了前所未有的繁荣与变革。在这场科技革命中，半导体作为信息产业的基础与核心，其重要性日益凸显，半导体的应用场景和市场需求将进一步扩大。然而，在这一繁荣的背后&#x…...

编程日记 2024/5/7 22:35:42

XML Group端口详解

在XML数据映射过程中，经常需要对数据进行分组聚合操作。例如，当处理包含多个物料明细的XML文件时，可能需要将相同物料号的明细归为一组，或对相同物料号的数量进行求和计算。传统实现方式通常需要编写脚本代码，增加了开…...

编程新知 2026/2/9 13:51:46

VB.net复制Ntag213卡写入UID

本示例使用的发卡器：https://item.taobao.com/item.htm?ftt&id615391857885 一、读取旧Ntag卡的UID和数据 Private Sub Button15_Click(sender As Object, e As EventArgs) Handles Button15.Click轻松读卡技术支持:网站:Dim i, j As IntegerDim cardidhex, …...

编程新知 2026/2/9 6:48:28

Vue3 + Element Plus + TypeScript中el-transfer穿梭框组件使用详解及示例

使用详解 Element Plus 的 el-transfer 组件是一个强大的穿梭框组件，常用于在两个集合之间进行数据转移，如权限分配、数据选择等场景。下面我将详细介绍其用法并提供一个完整示例。核心特性与用法基本属性 v-model：绑定右侧列表的值&…...

编程新知 2026/2/4 4:25:40

【第二十一章 SDIO接口(SDIO)】

第二十一章 SDIO接口目录第二十一章 SDIO接口(SDIO) 1 SDIO 主要功能 2 SDIO 总线拓扑 3 SDIO 功能描述 3.1 SDIO 适配器 3.2 SDIOAHB 接口 4 卡功能描述 4.1 卡识别模式 4.2 卡复位 4.3 操作电压范围确认 4.4 卡识别过程 4.5 写数据块 4.6 读数据块 4.7 数据流…...

编程新知 2026/2/1 13:28:03

定时器任务——若依源码分析

分析util包下面的工具类schedule utils： ScheduleUtils 是若依中用于与 Quartz 框架交互的工具类，封装了定时任务的创建、更新、暂停、删除等核心逻辑。 createScheduleJob createScheduleJob 用于将任务注册到 Quartz，先构建任务的 JobD…...

编程新知 2026/1/26 14:24:46

屋顶变身“发电站” ，中天合创屋面分布式光伏发电项目顺利并网！

5月28日，中天合创屋面分布式光伏发电项目顺利并网发电，该项目位于内蒙古自治区鄂尔多斯市乌审旗，项目利用中天合创聚乙烯、聚丙烯仓库屋面作为场地建设光伏电站，总装机容量为9.96MWp。项目投运后，每年可节约标煤3670…...

编程新知 2026/2/9 17:55:49

【AI学习】三、AI算法中的向量

在人工智能（AI）算法中，向量（Vector）是一种将现实世界中的数据（如图像、文本、音频等）转化为计算机可处理的数值型特征表示的工具。它是连接人类认知（如语义、视觉特征）与…...

编程新知 2026/1/1 14:01:45

Springboot社区养老保险系统小程序

一、前言随着我国经济迅速发展，人们对手机的需求越来越大，各种手机软件也都在被广泛应用，但是对于手机进行数据信息管理，对于手机的各种软件也是备受用户的喜爱，社区养老保险系统小程序被用户普遍使用，为方…...

编程新知 2026/1/26 2:48:53

初探Service服务发现机制

1.Service简介 Service是将运行在一组Pod上的应用程序发布为网络服务的抽象方法。主要功能：服务发现和负载均衡。 Service类型的包括ClusterIP类型、NodePort类型、LoadBalancer类型、ExternalName类型 2.Endpoints简介 Endpoints是一种Kubernetes资源&#xf…...

编程新知 2026/2/6 15:01:23

多模态图像修复系统：基于深度学习的图片修复实现

多模态图像修复系统：基于深度学习的图片修复实现 1. 系统概述本系统使用多模态大模型（Stable Diffusion Inpainting）实现图像修复功能，结合文本描述和图片输入，对指定区域进行内容修复。系统包含完整的数据处理、模型训练、推理部署流程。 import torch import numpy …...

编程新知 2025/9/9 21:28:16

场景文本检测识别学习 day09（Swin Transformer论文精读）

Patch & Window

Swin Transformer

池化

相关文章：

场景文本检测识别学习 day09（Swin Transformer论文精读）

抖音小店个人店和个体店有什么不同？区别问题，新手必须了解！

动态规划入门和应用示例

【C语言】精品练习题

数据库（MySQL）—— DML语句

【最大公约数并集查找调和级数】1998. 数组的最大公因数排序

iOS实现一个高性能的跑马灯

MySQL的视图、存储过程、触发器

【图像特征点匹配】

GZIPOutputStream JSON压缩

毫米波雷达原理(含代码)(含ARS548 4D毫米波雷达数据demo和可视化视频)

3.1 Gateway之路由请求和转发

人脸识别开源算法库和开源数据库

Excel 中用于在一个范围中查找特定的值，并返回同一行中指定列的值顺序不一样可以处理吗

MySql-日期分组

有哪些方法可以在运行时动态生成一个Java类？

JAVA两个线程交替打印实现

【C语言】学习C语言

C 深入指针（2）

FileLink跨网文件交换，推动企业高效协作｜半导体行业解决方案

XML Group端口详解

VB.net复制Ntag213卡写入UID

Vue3 + Element Plus + TypeScript中el-transfer穿梭框组件使用详解及示例

【第二十一章 SDIO接口(SDIO)】

定时器任务——若依源码分析

屋顶变身“发电站” ，中天合创屋面分布式光伏发电项目顺利并网！

【AI学习】三、AI算法中的向量

Springboot社区养老保险系统小程序

初探Service服务发现机制

多模态图像修复系统：基于深度学习的图片修复实现