当前位置：首页 > news >正文

论文阅读——SG-Former

news 2026/2/10 8:50:30

SG-Former: Self-guided Transformer with Evolving Token Reallocation

1. Introduction

方法的核心是利用显著性图，根据每个区域的显著性重新分配tokens。显著性图是通过混合规模的自我关注来估计的，并在训练过程中自我进化。直观地说，我们将更多的tokens分配给显著区域，以实现细粒度的关注，而将更少的tokens分配到次要区域，以换取效率和全局感受场。

2. Method

hybrid-scale Transformer block提取混合尺度对象和多粒度信息，指导区域重要性；self-guided Transformer block根据混合尺度Transformer块的显著性信息，在保持显著区域细粒度的同时，对全局信息进行建模。

2.1 Self-Guided Attention

通过将几个tokens合并为一个token聚合来减少序列长度这种减少注意力计算的聚合方法面临两个问题：（i）信息可能在显著区域丢失或与不相关的信息混合，（ii）在次要区域或背景区域，许多标记（序列的较高比例）对于简单语义是冗余的，同时需要大量计算。

输入特征图：，映射为Q、K、V

然后H个相互独立的自注意力头平行的计算自注意力，为了计算注意力后保持特征图大小不变的同时降低计算成本，使用重要性引导聚合模块（IAM）固定Q的长度，但聚合K和V的tokens。

其中是significance map。将S的值生序排列，分为n个子区域。s1是最不重要的，Sn是最重要的。r是聚合率，每r个tokens聚合在一起。在不同重要性的区域设置了不同的聚合率r1，··，rn，使得每个子区域都有一个聚合率，并且子区域越重要，聚合率越小。

IAM的目标是在显著区域将更少的令牌聚合为一（即，保留更多），在背景区域将更多的令牌聚合成一（即保留更少）。

然后：

F是聚合函数。

2.2 Hybrid-scale Attention

H个heads分成h组，每组H/h个heads。

将聚合成一个，Q不聚合，这样A和KV的数量不一样了，然后将QKV分窗口，窗口大小M，Q和KV数量不一样，所以Q的窗口大小是：

计算注意力：

计算significance map：

3 实验结果

反正现在试的，这个模型比VIT快很多，计算量也少很多，但是不知道效果，实验结果还没出来。

论文阅读——SG-Former

相关文章：

论文阅读——SG-Former

常用环境部署(十三)——GitLab整体备份及迁移

海外数据中心代理与住宅代理：优缺点全面对比

springboot实现OCR

【Scala 】注解

数通基础知识总结

机器学习深度学习面试笔记

安卓和Android是两种不同的操作系统？

Java学习——设计模式——结构型模式2

什么是Maven ??? (以及关于依赖，中央仓库，国内源）

c++期末考题笔试来咯

目标检测篇：如何根据xml标注文件生成类别classes的json文件

spring见解2基于注解的IOC配置

Uncaught TypeError: Cannot read property ‘snj‘ of null

Jenkins基础教程

嵌入式C语言--WatchDog最全概念

数据结构【树篇】(二）

2024上海城博会|上海国际城市与建筑博览会-官网

Dockerfile - 基于 SpringBoot 项目自定义镜像（项目上线全过程）

论文查重降重写成大白话可以吗

Linux应用开发之网络套接字编程(实例篇)

逻辑回归：给不确定性划界的分类大师

使用分级同态加密防御梯度泄漏

Linux相关概念和易错知识点（42）（TCP的连接管理、可靠性、面临复杂网络的处理）

电脑插入多块移动硬盘后经常出现卡顿和蓝屏

定时器任务——若依源码分析

学校招生小程序源码介绍

【配置 YOLOX 用于按目录分类的图片数据集】

浅谈不同二分算法的查找情况

2023赣州旅游投资集团