当前位置：首页 > news >正文

【论文阅读】MCTformer: 弱监督语义分割的多类令牌转换器

news 2026/2/9 22:54:43

【论文阅读】MCTformer: 弱监督语义分割的多类令牌转换器

文章目录

【论文阅读】MCTformer: 弱监督语义分割的多类令牌转换器
- 一、介绍
- 二、联系工作
- 三、方法
- 四、实验结果

Multi-class Token Transformer for Weakly Supervised Semantic Segmentation

本文提出了一种新的基于变换的框架来学习类特定对象定位映射作为弱监督语义分割(WSSS)的伪标签

可以利用标准视觉转换器中一个类令牌的参与区域来形成与类无关的定位映射，我们研究了转换器模型是否也可以通过学习转换器中的多个类令牌来有效地捕获特定于类的注意力

提出了一个多类令牌转换器，称为MCTformer，它使用多个类令牌来学习类令牌和补丁令牌之间的交互

提出的MCTformer可以成功地从对应于不同token的类到patch关注生成类判别对象定位映射

我们还建议使用从patch -patch转换器注意力中提取的patch级成对亲和度来进一步细化定位图

提出的框架被证明可以完全补充类激活映射(CAM)方法

一、介绍

弱监督语义分割(WSSS)旨在通过弱监督来减轻对像素级真值标签的依赖

利用弱标签生成高质量的伪分割真值标签

图像级标签可以提供简单的弱标签，其仅指示某些类的存在或不存在定位信息

来自卷积神经网络（CNNs）的对象定位图。尽管使用了复杂的CAM扩展策略或多个训练步骤，但现有方法在定位对象的完整性和准确性方面仍然表现出有限的性能

视觉转换器（ViT）作为第一个专门为计算机视觉设计的转换器模型，最近在多个视觉任务上取得了性能突破

ViT在大规模图像识别方面取得了最先进的性能，这要归功于其强大的远程上下文建模能力

ViT还使用一个额外的cls token来聚合来自整个patch token序列的信息

最近的一项工作DINO揭示了在自监督ViT特征中存在关于图像语义分割的明确信息

在实际工作中我们探究了Class_cls, CNN_cls和Patch_cls的联系，最后选择了Class_cls, CNN_cls

从类标记的注意力图中发现语义场景布局

注意力图在无监督分割任务中产生了有希望的结果

但如何将头部与正确的语义类相关联仍不清楚。也就是说，这些注意力映射仍然是类不可知的

在这里插入图片描述

在之前的Transformer中，仅使用一个cls_token（红色方块）来聚合来自patch_token（蓝色方块）的信息
所提出的MCTformer使用多个类令牌来学习cls_token和patch_token之间的交互。学习的类对不同类标记的注意力进行Patch可以生成类特定的对象定位图

利用Transformer的特定类别注意力是一项挑战

现有的基于转换器的作品有一个共同的问题，即仅使用一个cls_token，这使得在单个图像上准确定位不同对象具有挑战性

存在的问题：

cls_token设计本质上不可避免地从其他对象类别和背景中捕获上下文信息
导致相当无歧视和有噪声的对象定位
模型容量不足以实现有针对性的判别定位性能

一个简单的想法是利用多个cls_token，它将负责学习不同对象类的表示。为此，我们提出了一种多类令牌转换器（MCTformer），其中使用多个类特定令牌来利用类特定转换器的注意力

作用：

拥有类特定令牌的目标不能通过简单地增加ViT中cls_token的数量来实现，因为这些类令牌仍然没有特定的含义
沿着嵌入维度对来自转换器编码器的输出类令牌应用平均池，以生成cls_token，这些分数由基本事实类标签直接监督
学习到的类对不同类的注意力的patch可以直接用作类特定的定位图
所学习的patch到patch的注意力可以作为patch级别的成对亲和力
所提出的转换器框架完全补充了CAM方法。这导致类标记和补丁标记之间的高度一致性，从而显著增强了它们派生的对象定位图的判别能力

贡献：

建议利用类特定的转换器注意力进行弱监督语义分割
提出了一个有效的转换器框架，其中包括一个新的多类令牌转换器（MCTformer），结合类感知训练策略，从类中学习特定于类的定位图，以修补不同类令牌的注意力
使用patch到patch的注意力作为patch级别的成对亲和力，这可以显著细化特定类别的转换器注意力

二、联系工作

大多数现有的WSSS方法依赖于类激活映射来从CNN中提取对象定位图

因此无法为语义分割网络的学习提供足够的监督。为了解决这个问题，已经提出了特定的分割损失

SEC损失
CRF损失
对比损失

进从CAM图中获得的伪分割标签上。这些方法可分为以下几类：生成高质量的CAM映射。一些方法开发了启发式策略，如“隐藏和搜索”[31]和擦除[40]，应用于图像[24，49]或特征图[16，21]，以驱动网络学习新的对象模式

子类别和跨图像语义来定位更准确的对象区域

正则化损失来引导网络发现更多的对象区域

通过引入扩张卷积来解决标准图像分类CNN的感受野有限的问题

Refining CAM maps with affinity learning

Ahn等人提出了affinity ，从原始CAM图的可靠种子中学习相邻像素之间的仿射关系

网络可以预测仿射矩阵以通过随机游动传播CAM映射

分割结果中的置信像素学习了成对亲和网络

直接从分类网络的特征图中学习亲和度，以细化CAM图

Xu等人[44]提出了一种跨任务亲和性，该亲和性是从弱监督多任务框架中的显著性和分割表示中学习的

我们提出了一种基于Transformer的模型来提取类特定的对象定位图。我们利用Transformer机制中的转换器注意图来生成对象定位图

Transformer

Transformer，最初设计用于对NLP领域中长序列的长程依赖性进行建模

如图像分类[10]、显著性检测[27]和语义分割[30]，实现了有希望的性能

然后，这些标记被转发到多个堆叠的基于自我关注[37]的层中，使每个补丁都具有全局感受野

自监督方法应用于ViT，并观察到类标记在补丁上的注意力包含关于场景语义布局的信息

TS-CAM，使CAM模块适应ViT。然而，TS-CAM只利用了ViT的类不可知注意力映射

提出的多类令牌转换器框架被证明比原始ViT更好地补充了CAM机制，生成了比TS-CAM更好的对象定位图

三、方法

具体框架：

在这里插入图片描述

新的纯基于Transformer的框架（MCTformer-V1）来利用变换器注意力的类特定对象定位图

输入RGB图像首先被分割成不重叠的patch，然后被转换成patch标记序列

使用多个cls_token。这些类标记与嵌入patch信息的补丁标记连接，以形成转换器编码器的输入标记

cls_token和patch_token。我们对最后一层的输出cls_token应用平均池来生成类分数，而不是像传统的转换器那样使用多层感知（MLP）来进行分类预测

cls_token直接产生的类分数和基本事实类标签之间计算分类损失

聚合来自多个层的注意力图

从patch到patch的注意力中提取patch级别的成对亲和力，以进一步细化类到补丁的注意

类特定的定位图被用作种子以生成伪标签来监督分割模型

Multi-class token结构设计

考虑一个输入图像，它被分割成N×N个补丁
patch标记序列
C类标记序列
C类标记与补丁标记级联，并添加位置嵌入
每个编码层由一个多头注意力（MHA）模块、一个MLP和分别应用于MHA和MLP之前的两个LayerNorm层组成

我们使用标准的自关注层来捕获令牌之间的长程依赖关系。更具体地说，我们首先对输入token序列进行归一化

在这里插入图片描述

token到token的注意力映射A_t2t

全局成对注意力映射At2t

每一行表示特定class对所有patch的注意力得分

考虑到较高的层学习更多的高级判别表示（而较早的层捕获更多的一般和低级视觉信息）

class融合到最后K个变换器编码层的patch注意力

在这里插入图片描述

A_mct是从所提出的MCFormer-V1的第l个变换器编码层提取的特定于类的变换器注意力。

以生成最终的class特定对象定位映射A_mctR^C×N×N

在这里插入图片描述

Class-specific attention refinement

在先前的工作中经常使用成对仿射来细化对象定位图。它通常需要一个额外的网络或额外的层来学习亲和图

我们建议从所提出的MCTformer的patch匹配注意力中提取成对亲和图，而无需额外的计算或监督

通过提取patch到patch的注意力A_p2pR^M×M来实现的

在这里插入图片描述

所提取的亲和度用于进一步细化类特定的变换器注意力

在这里插入图片描述

细化的类特定定位图

可以获得更好的对象定位图，并提高外观连续性

Class-aware training

与传统的转换器使用来自最后一层的单个cls_token通过MLP执行分类预测相比，我们有多个类令牌，并且我们需要确保不同的类令牌可以学习不同的类判别信息

平均值集中输出类令牌以生成类分数

在这里插入图片描述

我们计算类c的类得分y（c）与其基本事实标签之间的soft margin loss

我们将CAM模块集成到所提出的多类令牌转换器框架中

我们将其划分为输出类令牌T_{out_cls} R^C×D和输出补丁令牌T_{out_pth} R^N×D

patch标记进行整形，并将其转发到具有C个输出通道的卷积层

总损失是分别根据类标记和补丁标记在图像级基本事实标记和类预测之间计算的两个soft margin loss的总和

在这里插入图片描述

将PatchCAM和特定于类的转换器注意力相结合

可以从最后一个卷积层提取基于补丁标记的CAM（此后称为PatchCAM）图

将提取的PatchCAM映射与所提出的类特定变换器注意力映射相结合

通过逐元素乘法运算产生融合的对象定位映射

where ◦ denotes the Hadamard product

类特定的对象定位映射细化。类似于MCTformer-V1中提出的注意力细化机制

我们也可以从MCTformer-V2中提取Patch到Patch的注意力图作为Patch级别的成对亲和度，以细化融合的对象定位图

在这里插入图片描述

其中CAM方法可以灵活而稳健地适应多标签图像

四、实验结果

数据集:PASCAL VOC 2012和MS COCO 2014

PASCAL VOC：

即训练集（train）、验证集（val）和测试集，每个子集分别包含1464、1449和1456个图像
20个对象类和一个用于语义分割任务的背景类
10582张图像的增强集以及中的额外数据进行训练

MSCOCO：

80个对象类和一个背景类进行语义分割
其训练集和验证集分别包含80K和40K图像

只使用了这些数据集的图像级基本事实标签

ImageNet[9]上预训练的DeiT-S主干构建了所提出的MCTformer

具体细节：

遵循了中提供的数据扩充和默认训练参数
训练图像的大小调整为256×256
然后裁剪为224×224
在测试时，我们使用多尺度测试和超参数的CRF进行后处理

在这里插入图片描述

【论文阅读】MCTformer: 弱监督语义分割的多类令牌转换器

【论文阅读】MCTformer: 弱监督语义分割的多类令牌转换器文章目录【论文阅读】MCTformer: 弱监督语义分割的多类令牌转换器一、介绍二、联系工作三、方法四、实验结果 Multi-class Token Transformer for Weakly Supervised Semantic Segmentation 本文提出了一种新的基于变换…...

编程日记 2024/4/14 23:49:24

FMix: Enhancing Mixed Sample Data Augmentation 论文阅读

1 Abstract 近年来，混合样本数据增强（Mixed Sample Data Augmentation，MSDA）受到了越来越多的关注，出现了许多成功的变体，例如MixUp和CutMix。通过研究VAE在原始数据和增强数据上学习到的函数之间的互信息…...

编程日记 2024/4/14 23:46:21

2024蓝桥A组A题

艺术与篮球（蓝桥） 问题描述格式输入格式输出评测用例规模与约定解析参考程序难度等级问题描述格式输入无格式输出一个整数评测用例规模与约定无解析模拟就好从20000101-20240413每一天计算笔画数是否大于50然后天数； 记得判断平…...

编程日记 2024/4/14 23:43:19

Linux journalctl命令详解

文章目录 1.介紹2.概念设置system time基本的日志查阅方法按时过滤日志（by Time）显示本次启动以来的日志（Current Boot）按Past Boots按时间窗口按感兴趣的消息筛选按unit按进程、用户、Group ID按组件路径显示内核消息按消息优先级…...

编程日记 2024/4/14 23:42:18

恢复MySQL！是我的条件反射，PXB开源的力量...

📢📢📢📣📣📣 哈喽！大家好，我是【IT邦德】，江湖人称jeames007，10余年DBA及大数据工作经验一位上进心十足的【大数据领域博主】！😜&am…...

编程日记 2024/4/14 23:38:14

Storm详细配置

一、认识Storm Apache Storm是个实时数据处理的“大能”，它可以实时接收、处理并转发大量数据流，就像一个高速运转的物流中心，确保数据及时、准确地到达目的地。我们要做的，就是把这个物流中心搭建起来，并且根据我们的…...

编程日记 2024/4/14 23:35:11

linux redis部署教程

单节点部署： 单节点部署 Redis 非常简单，只需要在一台服务器上安装 Redis 服务即可。以下是在 Linux 环境下的单节点部署步骤： 安装 Redis：打开终端，并执行以下命令来更新软件包列表并安装 Redis 服务器：…...

编程日记 2024/4/14 23:31:07

【Java】隐式锁(synchronized)：如何解决餐厅等座的并发难题

当你走进一家熙熙攘攘的餐厅，准备享受一顿美味的晚餐时，你是否曾想过，这里正上演着一场场微观的线程战争？在这个场景中，每一张桌子都代表着珍贵的共享资源，而每一位顾客（线程）都在争…...

编程日记 2024/4/14 23:30:05

科技论文和会议录制高质量Presentation Video视频方法

一、背景机器人领域，许多高质量的期刊和会议（如IEEE旗下的TRO，RAL，IROS，ICRA等）在你的论文收录后，需要上传一个Presentation Video材料，且对设备兼容性和视频质量有较高要求&#…...

编程日记 2024/4/14 23:28:03

Spring高手之路17——动态代理的艺术与实践

文章目录 1. 背景2. JDK动态代理2.1 定义和演示2.2 不同方法分别代理2.3 熔断限流和日志监控 3. CGLIB动态代理3.1 定义和演示3.2 不同方法分别代理（对比JDK动态代理写法）3.3 熔断限流和日志监控（对比JDK动态代理写法） 4. 动态代理…...

编程日记 2024/4/14 23:27:02

如何在Unity中使用设计模式

在 Unity 环境中，设计模式是游戏开发人员遇到的常见问题的通用解决方案。将它们视为解决游戏开发中特定挑战的经过验证的模板或蓝图。以下是一些简单易懂的设计模式： 1. 单例=> 单例模式确保一个类只有一个实例，并提供对该实例的全局访问点。在 Unity 中，可以使用单例模…...

编程日记 2024/4/14 23:26:01

基于springboot+vue+Mysql的旅游管理系统

开发语言：Java框架：springbootJDK版本：JDK1.8服务器：tomcat7数据库：mysql 5.7（一定要5.7版本）数据库工具：Navicat11开发软件：eclipse/myeclipse/ideaMaven包：…...

编程日记 2024/4/14 23:24:59

vue3+ts中判断输入的值是不是经纬度格式

vue3ts中判断输入的值是不是经纬度格式 vue代码： <template #bdjhwz"{ record }"><a-row :gutter"8" v-show"!record.editable"><a-col :span"12"><a-input placeholder"经度" v-model:v…...

编程日记 2024/4/14 23:18:53

python常用知识总结

文章目录 1. 常用内置函数1. ASCII码与字符相互转换 1. 常用内置函数 1. ASCII码与字符相互转换 # 用户输入字符 c input("请输入一个字符: ")# 用户输入ASCII码，并将输入的数字转为整型 a int(input("请输入一个ASCII码: "))print( c &qu…...

编程日记 2024/4/14 23:17:52

常用的启发式算法

A算法：在电子地图导航软件中，当你输入目的地时，软件就会利用A算法来计算从现在的位置到目的地的最佳路径。该算法兼顾了路径的优化以及计算速度，保证了结果的准确性以及反馈的实时性。模拟退火算法：模拟退火算法常被…...

编程日记 2024/4/14 23:16:51

应该如何进行POC测试？—【DBA从入门到实践】第三期

在数据库选型过程中，为确保能够灵活应对数据规模的不断扩大和处理需求的日益复杂化，企业和技术人员会借助POC测试来评估不同数据库系统的性能。在测试过程中，性能、并发处理能力、存储成本以及高可用性等核心要素通常会成为大家关注的焦点&am…...

编程日记 2024/4/14 23:15:50

通过Clojure中的集合与序列谈谈抽象的重要

与君共勉：生命不息，学习不止，切忌浮躁，静下心来，每天进步一点点。 Clojure简介 Clojure是一门运行在JVM上面的Lisp方言，其它的Lisp方言还有Scheme、Common Lisp等。Lisp相关的著名书籍有《计算机程序的构…...

编程日记 2024/4/14 23:14:48

Rust---模式（Pattern）匹配

目录模式是什么它用来做什么模式匹配和赋值为什么会有模式匹配模式匹配用在什么地方match 表达式if let表达式while let表达式for 循环let 语句函数参数不可驳模式匹配和可驳模式匹配模式是什么在Rust中，模式（Pattern）是一种用于匹配和解构数据的语法结构。模式匹配中常用…...

编程日记 2024/4/14 23:12:44

MATLAB 计算点投影到平面上的坐标（59）

MATLAB 计算点投影到平面上的坐标（59）一、算法介绍二、算法实现1.代码2.结果一、算法介绍点投影到平面，计算投影点的坐标，下面提供MATLAB版本的计算程序，直接运行即可，内有验证数据，具体看代码即可。二、算法实现 1.代码代码如下（示例）： % 平面上的三个点分…...

编程日记 2024/4/14 23:11:43

2024年MathorCup数学建模B题甲骨文智能识别中原始拓片单字自动分割与识别研究解题文档与程序

2024年第十四届MathorCup高校数学建模挑战赛 B题甲骨文智能识别中原始拓片单字自动分割与识别研究原题再现： 甲骨文是我国目前已知的最早成熟的文字系统，它是一种刻在龟甲或兽骨上的古老文字。甲骨文具有极其重要的研究价值，不仅对中国文…...

编程日记 2024/4/14 23:10:41

vscode里如何用git

打开vs终端执行如下： 1 初始化 Git 仓库（如果尚未初始化） git init 2 添加文件到 Git 仓库 git add . 3 使用 git commit 命令来提交你的更改。确保在提交时加上一个有用的消息。 git commit -m "备注信息" 4 …...

编程新知 2025/8/24 20:45:38

前面是指南，后面是日志 sudo dnf config-manager --add-repo https://download.docker.com/linux/centos/docker-ce.repo sudo dnf install docker-ce docker-ce-cli containerd.io -y docker version sudo systemctl start docker sudo systemctl status docker …...

编程新知 2025/7/27 10:03:12

dedecms 织梦自定义表单留言增加ajax验证码功能

增加ajax功能模块，用户不点击提交按钮，只要输入框失去焦点，就会提前提示验证码是否正确。一，模板上增加验证码 <input name"vdcode"id"vdcode" placeholder"请输入验证码" type"text&quo…...

编程新知 2026/2/5 17:51:52

JDK 17 新特性

#JDK 17 新特性 /**************** 文本块 *****************/ python/scala中早就支持，不稀奇 String json “”" { “name”: “Java”, “version”: 17 } “”"; /**************** Switch 语句 -> 表达式 *****************/ 挺好的&#xff…...

编程新知 2026/1/29 5:34:29

自然语言处理——Transformer

自然语言处理——Transformer 自注意力机制多头注意力机制Transformer 虽然循环神经网络可以对具有序列特性的数据非常有效，它能挖掘数据中的时序信息以及语义信息，但是它有一个很大的缺陷——很难并行化。我们可以考虑用CNN来替代RNN，但是…...

编程新知 2026/2/1 7:05:07

QT： `long long` 类型转换为 `QString` 2025.6.5

在 Qt 中，将 long long 类型转换为 QString 可以通过以下两种常用方法实现： 方法 1：使用 QString::number() 直接调用 QString 的静态方法 number()，将数值转换为字符串： long long value 1234567890123456789LL; …...

编程新知 2026/2/1 6:30:04

OPenCV CUDA模块图像处理-----对图像执行均值漂移滤波（Mean Shift Filtering）函数meanShiftFiltering()

操作系统：ubuntu22.04 OpenCV版本：OpenCV4.9 IDE:Visual Studio Code 编程语言：C11 算法描述在 GPU 上对图像执行均值漂移滤波（Mean Shift Filtering），用于图像分割或平滑处理。该函数将输入图像中的…...

编程新知 2026/1/20 12:53:30

20个超级好用的 CSS 动画库

分享 20 个最佳 CSS 动画库。它们中的大多数将生成纯 CSS 代码，而不需要任何外部库。 1.Animate.css 一个开箱即用型的跨浏览器动画库，可供你在项目中使用。 2.Magic Animations CSS3 一组简单的动画，可以包含在你的网页或应用项目中。 3.An…...

编程新知 2026/2/9 22:04:45

【网络安全】开源系统getshell漏洞挖掘

审计过程： 在入口文件admin/index.php中： 用户可以通过m,c,a等参数控制加载的文件和方法，在app/system/entrance.php中存在重点代码： 当M_TYPE system并且M_MODULE include时，会设置常量PATH_OWN_FILE为PATH_APP.M_T…...

编程新知 2026/1/31 2:59:25

Caliper 配置文件解析：fisco-bcos.json

config.yaml 文件 config.yaml 是 Caliper 的主配置文件，通常包含以下内容： test:name: fisco-bcos-test # 测试名称description: Performance test of FISCO-BCOS # 测试描述workers:type: local # 工作进程类型number: 5 # 工作进程数量monitor:type: - docker- pro…...

编程新知 2025/10/24 15:14:02

【论文阅读】MCTformer: 弱监督语义分割的多类令牌转换器

【论文阅读】MCTformer: 弱监督语义分割的多类令牌转换器

文章目录

一、介绍

二、联系工作

三、方法

四、实验结果

相关文章：

【论文阅读】MCTformer: 弱监督语义分割的多类令牌转换器

FMix: Enhancing Mixed Sample Data Augmentation 论文阅读

2024蓝桥A组A题

Linux journalctl命令详解

恢复MySQL！是我的条件反射，PXB开源的力量...

Storm详细配置

linux redis部署教程

【Java】隐式锁(synchronized)：如何解决餐厅等座的并发难题

科技论文和会议录制高质量Presentation Video视频方法

Spring高手之路17——动态代理的艺术与实践

如何在Unity中使用设计模式

基于springboot+vue+Mysql的旅游管理系统

vue3+ts中判断输入的值是不是经纬度格式

python常用知识总结

常用的启发式算法

应该如何进行POC测试？—【DBA从入门到实践】第三期

通过Clojure中的集合与序列谈谈抽象的重要

Rust---模式（Pattern）匹配

MATLAB 计算点投影到平面上的坐标（59）

2024年MathorCup数学建模B题甲骨文智能识别中原始拓片单字自动分割与识别研究解题文档与程序

vscode里如何用git

在rocky linux 9.5上在线安装 docker

dedecms 织梦自定义表单留言增加ajax验证码功能

JDK 17 新特性

自然语言处理——Transformer

QT： `long long` 类型转换为 `QString` 2025.6.5

OPenCV CUDA模块图像处理-----对图像执行均值漂移滤波（Mean Shift Filtering）函数meanShiftFiltering()

20个超级好用的 CSS 动画库

【网络安全】开源系统getshell漏洞挖掘

Caliper 配置文件解析：fisco-bcos.json