当前位置: 首页 > news >正文

Inception Transformer

paper链接: https://arxiv.org/abs/2205.12956v2

code链接: https://github.com/sail-sg/iFormer

Inception Transformer

  • 一、引言
  • 二、实现细节
  • 三、实验
    • 一、分类
    • 二、检测
    • 三、分割
    • 四、消融实验

一、引言

最近的研究表明,Transformer具有很强的建立远程依赖关系的能力,但在捕获高频信息时却表现不佳。为了解决这个问题,本文提出了一种新颖的通用Inception Transformer(简称iF),它可以有效地学习视觉数据中高频和低频信息的综合特征。具体地说,将卷积和最大池化的优点移植到Transformer上,以捕获高频信息。与最近的混合框架不同,Inception混频器通过通道分裂机制,采用并行卷积/最大池化路径和自注意路径作为高频和低频混频器,带来了更高的效率,同时具有对分散在宽频率范围内的判别信息建模的灵活性。考虑到底层更多地用于捕获高频细节,而顶层更多地用于建模低频全局信息,进一步引入了频率斜坡结构,即逐渐减少给高频混频器的维数,增加低频混频器的维数,可以有效地权衡不同层之间的高低频分量。
ViT及其变体对视觉数据中的低频捕获能力很强,主要包括场景或对象的全局形状和结构,但对高频学习能力不强,主要包括局部边缘和纹理。这可以直观地解释为:vit中用于在非重叠补丁令牌之间交换信息的主要操作self attention是一个全局操作,并且更能够捕获全局信息(低频)。下图1(a)和1(b)所示,傅里叶频谱和相对对数振幅表明,ViT倾向于很好地捕获低频信号,而很少捕获高频信号。这种低频偏好降低了ViTs的性能,主要表现在:(1)在所有层中填充低频信息会导致高频成分(如局部纹理)的劣化,削弱了ViTs的建模能力;2)高频信息也具有鉴别性,可以使许多任务受益,例如(细粒度)分类。实际上,人类视觉系统以不同的频率提取视觉基本特征低频提供视觉刺激的全局信息,高频传达图像的局部空间变化(如局部边缘/纹理)。因此,有必要开发一种新的ViT体系结构来捕获视觉数据中的高频和低频。
CNN是一般视觉任务最基本的骨干。与ViTs不同,它通过感受野内的局部卷积覆盖更多的局部信息,从而有效地提取高频特征。最近的研究考虑到CNN和ViTs的优势互补,将二者进行了整合。有些方法将卷积层和注意层按串行方式堆叠,将局部信息注入全局上下文。不幸的是,这种串行方式只在一层中对一种类型的依赖项建模,要么是全局的,要么是局部的,并且在局部建模期间丢弃全局信息,反之亦然。其他工作采用并行注意力和卷积同时学习输入的全局和局部依赖关系。但是,部分通道用于处理局部信息,另一部分用于全局建模,这意味着当前的并行结构如果处理每个分支中的所有通道,则具有信息冗余。
在这里插入图片描述
为了解决这个问题,作者提出了一个简单有效的Inception Transformer (iFormer),如下图所示,它将CNN捕获高频的优点嫁接到vit上。
在这里插入图片描述
iFormer的关键组件是一个Inception令牌混合器,如下图所示。这种Inception混频器旨在通过捕获数据中的高频和低频来增强vit在频谱中的感知能力。为此,Inception混频器首先将输入特征沿通道维度进行分割,然后将分割后的分量分别送入高频混频器和低频混频器。
在这里插入图片描述

这里的高频混频器由最大池化操作和并行卷积操作组成,而低频混频器由ViTs中的自注意实现。这样,iFormer可以有效地捕获相应通道上的特定频率信息,从而在较宽的频率范围内获得更全面的特征。
此外,较低的层通常需要更多的局部信息,而较高的层需要更多的全局信息。这是因为,就像人类的视觉系统一样,高频分量中的细节有助于底层捕捉视觉的基本特征,也有助于逐步收集局部信息,从而对输入有一个全局的理解。受此启发,设计了一个频率斜坡结构。特别是,从低到高,逐步向低频混频器提供更多的通道维度。

二、实现细节

与串行方法相比,文献中将注意力与卷积并行结合的作品并不多。CoaT和ViTAE引入卷积作为平行于注意的分支,并利用elementwise sum对两个分支的输出进行合并。然而,Raghu等人发现,一些通道倾向于提取局部依赖关系,而其他通道则用于建模全局信息,这表明当前并行机制处理不同分支中的所有通道具有冗余性。相反,将通道分成高频和低频的分支。GLiT也采用并行方式,但直接将卷积和注意分支的特征拼接成混频器输出,缺少不同频率特征的融合。相反,本文设计了一个显式的融合模块来合并来自低频和高频分支的输出。
提出的Inception混合器,将CNN提取高频表示的强大能力嫁接到Transformer上。之所以使用“Inception”这个名字,是因为令牌混合器受到具有多个分支的Inception模块[的启发。Inception混频器没有直接将图像令牌送入MSA混频器,而是先将输入特征沿通道维度进行分割,然后将分割后的分量分别送入高频混频器和低频混频器。其中高频混频器由最大池化操作和并行卷积操作组成,而低频混频器由自注意实现。
给定输入特征映射X∈RN×CX∈R^{N×C}XRN×C,将X沿通道维度分解为Xh∈RN×ChX_h∈R^{N×C_h}XhRN×ChXl∈RN×ClX_l∈R^{N×C_l}XlRN×Cl,其中Ch+Cl=cC_h + C_l = cCh+Cl=c,将X_h和X_l分别分配给高频混频器和低频混频器。
高频混合器:考虑到最大滤波器的敏锐灵敏度和卷积运算的细节感知,提出了一种并行结构来学习高频成分。沿通道将输入XhX_hXh分为Xh1∈RN×Ch2X_{h1}∈R^{N× \frac{C_h}{2}}Xh1RN×2ChXh2∈RN×Ch2X_{h2}∈R^{N× \frac{C_h}{2}}Xh2RN×2Ch。如下所示,Xh1X_{h1}Xh1嵌入max-pooling层和线性层,Xh2X_{h2}Xh2馈送到线性层和深度卷积层。
在这里插入图片描述
在这里插入图片描述
最后,将低频和高频混频器的输出沿通道维度进行拼接:
在这里插入图片描述
上采样操作选择每个位置的最近点的值,而不考虑任何其他点,这导致相邻符号之间过度平滑。作者设计了一个融合模块来克服这个问题,即在补丁之间交换信息的深度卷积,同时保持跨通道线性层,像以前的Transformer一样在每个位置工作。最终输出可以表示为:
在这里插入图片描述
像普通的Transformer一样,iFormer配备了前馈网络(FFN),不同的是,它还包含了上面的Inception令牌混合器(ITM);在ITM和FFN之前应用LayerNorm (LN)。因此,Inception Transformer块的正式定义为:
在这里插入图片描述
低频混频器。使用多头自注意在低频混频器的所有令牌之间进行信息通信。尽管特征图具有较强的全局表示学习能力,但较大的分辨率会给底层带来较大的计算成本。因此,简单地使用平均池化层来降低注意力操作前XlX_lXl的空间尺度,使用上采样层来恢复注意力操作后的原始空间维度。这种设计极大地降低了计算开销,使注意力操作集中在全局信息的嵌入上。这个分支可以定义为:
在这里插入图片描述
请注意,池化层和上采样层的内核大小和步幅仅在前两个阶段设置为2。
如下图所示,主干有四个不同通道和空间维度的阶段。对于每个块,定义了一个通道比,以更好地平衡高频和低频成分,即ChC\frac{C_h}{C}CChClC\frac{C_l}{C}CCl,其中ChC+ClC=1\frac{C_h}{C}+\frac{C_l}{C}=1CCh+CCl=1。在频率斜坡结构中,ChC\frac{C_h}{C}CCh从浅层到深层逐渐减小,ClC\frac{C_l}{C}CCl,逐渐增大。因此,通过灵活的频率斜坡结构,iFormer可以有效地权衡各层的高频和低频分量。
在这里插入图片描述
不同iFormer模型的配置如下:
在这里插入图片描述

三、实验

一、分类

在这里插入图片描述
在这里插入图片描述

二、检测

在这里插入图片描述

三、分割

在这里插入图片描述

四、消融实验

在这里插入图片描述
在这里插入图片描述

相关文章:

Inception Transformer

paper链接: https://arxiv.org/abs/2205.12956v2 code链接: https://github.com/sail-sg/iFormer Inception Transformer一、引言二、实现细节三、实验一、分类二、检测三、分割四、消融实验一、引言 最近的研究表明,Transformer具有很强的建立远程依赖关系的能力…...

10分钟学会数据库压力测试,你敢信?

目录 前言 查看数据库版本 下载驱动: 菜单路径 配置 Variable Name Bound to Pool模块配置 Connection pool configuration模块配置 Database Connection Configuration模块配置 菜单路径 Variable Name Bound to Pool 脚本结构 脚本(执行查询…...

论文阅读 | Video Super-Resolution Transformer

引言:2021年用Transformer实现视频超分VSR的文章,改进了SA并在FFN中加入了光流引导 论文:【here】 代码:【here】 Video Super-Resolution Transformer 引言 视频超分中有一组待超分的图片,因此视频超分也经常被看做…...

7-6 带头节点的双向循环链表操作

本题目要求读入一系列整数,依次插入到双向循环链表的头部和尾部,然后顺序和逆序输出链表。 链表节点类型可以定义为 typedef int DataType; typedef struct LinkedNode{DataType data;struct LinkedNode *prev;struct LinkedNode *next; }LinkedNode;链…...

npm publish 、 npm adduser 提示 403 的问题

0. 查看使用的源:npm config get registry1. 如果使用的不是官方的源,切换:npm config set registry https://registry.npmjs.org/2. 登录:npm adduser3. 查看是否登录成功:npm whoami4. 执行发布命令:npm …...

Java 8的函数式接口使用示例

什么是函数式接口 有且只有一个抽象方法的接口被称为函数式接口,函数式接口适用于函数式编程的场景,Lambda就是Java中函数式编程的体现,可以使用Lambda表达式创建一个函数式接口的对象,一定要确保接口中有且只有一个抽象方法&…...

2023年企业如何改善员工体验?为什么员工体验很重要?

什么是员工体验?大约 96% 的企业领导者表示,专注于员工体验可以更轻松地留住顶尖人才。[1] 这还不是全部。令人震惊的是,87%的企业领导者还表示,优先考虑员工的幸福感将给他们带来竞争优势。尽管有这些发现,但只有19%的…...

设计模式:桥接模式让抽象和实现解耦,各自独立变化

一、问题场景 现在对”不同手机类型“的 “不同品牌”实现操作编程(比如: 开机、关机、上网,打电话等) 二、传统解决方案 传统方案解决手机使用问题类图: 三、传统方案分析 传统方案解决手机操作问题分析 1、扩展性问题(类爆炸),如果我们…...

C++学习记录——십 STL初级认识、标准库string类

文章目录1、什么是STL2、STL简介3、什么是string类4、string类的常用接口说明1、常见构造函数2、容量操作3、迭代器4、其他的标准库的string类关于string类的内容,可以在cplusplus.com查看到。 1、什么是STL STL是C标准库的重要组成部分,不仅是一个可复…...

【redis】redis缓存与数据库的一致性

【redis】redis缓存与数据库的一致性【1】四种同步策略【2】更新缓存还是删除缓存(1)更新缓存(2)删除缓存【3】先更新数据库还是先删除缓存(1)出现失败时候的情况1-先删除缓存,再更新数据库&…...

XCP实战系列介绍12-基于Vector_Davinci工具的XCP配置介绍(一)

本文框架 1.概述2. EcuC配置2.1 Pdu添加步骤2.2 配置项说明3. Can 模块配置4. CanIf 模块配置4.1 接收帧的Hardware Receive Object配置4.2 接收帧和发送帧的Pdu配置1.概述 在文章《看了就会的XCP协议介绍》中详细介绍了XCP的协议,在《XCP实战系列介绍01-测量与标定底层逻辑》…...

Unity Material详解

一、创建 二、属性 1.Shader:Unity内置了一些shader,用户自定义的shader也在这里出现. Edit: 可以编辑一些shader可编辑的内容,如一些属性. 2.Rendering Mode:渲染模式 Opaque-不透明-石头适用于所有的不透明的物体Cutout-镂空-破布透明度只有0%和100…...

碰撞检测算法分类

包围形法粗糙检测, 包含以下两种类检测外接圆法轴对齐包围矩形, AABB 碰撞检测算法之包围形法分离轴精细检测 BOX vs PolygonOBBseparating Axis Theorem碰撞检测算法之分离轴定理GJKGJK(Gilbert–Johnson–Keerthi), 相比 SAT 算法&#xff…...

代码随想录第十二天(

文章目录232. 用栈实现队列补充知识——Deque232. 用栈实现队列 答案思路: 在push数据的时候,只要数据放进输入栈就好,但在pop的时候,操作就复杂一些,输出栈如果为空,就把进栈数据全部导入进来&#xff0…...

电源模块 DC-DC直流升压正负高压输出12v24v转±110V±150V±220V±250V±300V±600V

特点效率高达80%以上1*2英寸标准封装电源正负双输出稳压输出工作温度: -40℃~85℃阻燃封装,满足UL94-V0 要求温度特性好可直接焊在PCB 上应用HRA 1~40W系列模块电源是一种DC-DC升压变换器。该模块电源的输入电压分为:4.5~9V、9~18V、及18~36VDC标准&…...

【动画图解】这个值取对了,ViewPager2才能纵享丝滑

前言 在前两篇文章中,我们通过一张张清晰明了的「示意图」,详细地复盘了RecyclerView「缓存复用机制」与「预拉取机制」的工作流程,这种「图解」创作形式也得到了来自不同平台读者们的一致认可。 而从本文开始,我们将正式进入Vi…...

CSDN每日一练:小豚鼠搬家

题目名称:小豚鼠搬家 时间限制:1000ms内存限制:256M 题目描述 小豚鼠排排坐。 小艺酱买了一排排格子的小房子n*m,她想让k只小豚鼠每只小豚鼠都有自己的房子。 但是为了不浪费空间,她想要小房子的最外圈尽量每行每列都有…...

Dockerfile命令及实践构建一个网站

dockerfile用于构建docker镜像的,部署一个用于运行你所需的容器环境。相当一个脚本,通过dockerfile自己的指令,来构建软件依赖、文件依赖、存储、定制docker镜像的方式有两种:手动修改容器内容,导出新的镜像基于Docker…...

[VMware]Ubuntu18.04 网络图标消失

Ubuntu 18.04 网络图标消失运行环境问题解决NO.1 执行 sudo systemctl stop network-managerNO.2 执行 sudo rm /var/lib/NetworkManager/NetworkManager.stateNO.3 执行 sudo systemctl start network-managerNO.4 vi /etc/NetworkManager/NetworkManager.confNO.5 执行 sudo …...

国产C2000,P2P替代TMS320F280049C,独立双核32位CPU,主频高达400MHz

一、特性参数 1、独立双核,32位CPU,单核主频400MHz 2、IEEE 754 单精度浮点单元 (FPU) 3、三角函数单元 (TMU) 4、1MB 的 FLASH (ECC保护) 5、1MB 的 SRAM (ECC保护&…...

谷歌浏览器插件

项目中有时候会用到插件 sync-cookie-extension1.0.0:开发环境同步测试 cookie 至 localhost,便于本地请求服务携带 cookie 参考地址:https://juejin.cn/post/7139354571712757767 里面有源码下载下来,加在到扩展即可使用FeHelp…...

ES6从入门到精通:前言

ES6简介 ES6(ECMAScript 2015)是JavaScript语言的重大更新,引入了许多新特性,包括语法糖、新数据类型、模块化支持等,显著提升了开发效率和代码可维护性。 核心知识点概览 变量声明 let 和 const 取代 var&#xf…...

Prompt Tuning、P-Tuning、Prefix Tuning的区别

一、Prompt Tuning、P-Tuning、Prefix Tuning的区别 1. Prompt Tuning(提示调优) 核心思想:固定预训练模型参数,仅学习额外的连续提示向量(通常是嵌入层的一部分)。实现方式:在输入文本前添加可训练的连续向量(软提示),模型只更新这些提示参数。优势:参数量少(仅提…...

从WWDC看苹果产品发展的规律

WWDC 是苹果公司一年一度面向全球开发者的盛会,其主题演讲展现了苹果在产品设计、技术路线、用户体验和生态系统构建上的核心理念与演进脉络。我们借助 ChatGPT Deep Research 工具,对过去十年 WWDC 主题演讲内容进行了系统化分析,形成了这份…...

【力扣数据库知识手册笔记】索引

索引 索引的优缺点 优点1. 通过创建唯一性索引,可以保证数据库表中每一行数据的唯一性。2. 可以加快数据的检索速度(创建索引的主要原因)。3. 可以加速表和表之间的连接,实现数据的参考完整性。4. 可以在查询过程中,…...

如何在看板中体现优先级变化

在看板中有效体现优先级变化的关键措施包括:采用颜色或标签标识优先级、设置任务排序规则、使用独立的优先级列或泳道、结合自动化规则同步优先级变化、建立定期的优先级审查流程。其中,设置任务排序规则尤其重要,因为它让看板视觉上直观地体…...

可靠性+灵活性:电力载波技术在楼宇自控中的核心价值

可靠性灵活性:电力载波技术在楼宇自控中的核心价值 在智能楼宇的自动化控制中,电力载波技术(PLC)凭借其独特的优势,正成为构建高效、稳定、灵活系统的核心解决方案。它利用现有电力线路传输数据,无需额外布…...

java调用dll出现unsatisfiedLinkError以及JNA和JNI的区别

UnsatisfiedLinkError 在对接硬件设备中,我们会遇到使用 java 调用 dll文件 的情况,此时大概率出现UnsatisfiedLinkError链接错误,原因可能有如下几种 类名错误包名错误方法名参数错误使用 JNI 协议调用,结果 dll 未实现 JNI 协…...

【大模型RAG】Docker 一键部署 Milvus 完整攻略

本文概要 Milvus 2.5 Stand-alone 版可通过 Docker 在几分钟内完成安装;只需暴露 19530(gRPC)与 9091(HTTP/WebUI)两个端口,即可让本地电脑通过 PyMilvus 或浏览器访问远程 Linux 服务器上的 Milvus。下面…...

Java - Mysql数据类型对应

Mysql数据类型java数据类型备注整型INT/INTEGERint / java.lang.Integer–BIGINTlong/java.lang.Long–––浮点型FLOATfloat/java.lang.FloatDOUBLEdouble/java.lang.Double–DECIMAL/NUMERICjava.math.BigDecimal字符串型CHARjava.lang.String固定长度字符串VARCHARjava.lang…...