笔记03----NeurIPS2024 涨点!SSA:用于语义分割的语义和空间自适应像素级分类器(即插即用)
前言
文章标题:《SSA-Seg: Semantic and Spatial Adaptive Pixel-level Classiffer for Semantic Segmentation》
助力语义分割涨点!SSA:一种新颖的语义和空间自适应分类器,显著提高了基线模型的分割性能,比如SegNeXt、OCRNet和UperNet等模型,而计算成本的增加却很小,代码已开源!
单位:华为诺亚,浙江大学
问题:
- 语义域特征偏差:由于测试图像的内容和分布可能与训练数据存在很大差异(如背景复杂、对象分布多样),测试图像中的像素特征可能与训练时学习的固定语义原型不一致,导致分类性能下降。
举一个例子:金斧头,银斧头,你却只认得铁斧头

- 空间域信息丢失:传统方法未充分利用目标对象的空间结构信息,导致边界模糊以及对小目标的识别能力不足。
创新:
语义和空间自适应分类器(SSA-Seg):
- 空间原型自适应(SPPA):利用位置编码获得空间特征,通过粗分割掩码计算空间域中心,建模像素特征与空间之间的关系,生成空间原型,改进像素与空间原型之间的关系,提升边界和小目标分割性能。
- 语义原型自适应(SEPA):使用粗分割掩码计算语义域中心,生成自适应的语义原型,改进像素与语义原型之间的相似性,提升语义类别对齐能力。
源码下载
github:https://github.com/xwmaxwma/SSA-Seg
实现
SPPA:
对于从骨干和分类头输出的语义特征 S f S_f Sf,我们首先通过位置编码生成空间特征 P f P_f Pf。然后,我们保留原始的1x1卷积以生成粗级Mask: M c M_c Mc。在 M c M_c Mc的引导下,空间域的中心 P c P_c Pc,并将其与一个可学习的位置编码 P p P_p Pp融合生成空间原型
SEPA:
对于从骨干和分类头输出的语义特征 S f S_f Sf,我们保留原始的1x1卷积以生成粗级Mask: M c M_c Mc。在 M c M_c Mc的引导下,语义中心 S c S_c Sc,并将其与固定的语义原型 S S S和 S c S_c Sc融合,以生成语义原型 S p S_p Sp
SSA:
(空间原型 P p P_p Pp+语义原型 S p S_p Sp)*(语义特征 S f S_f Sf+空间特征 P f P_f Pf)=Output
class SEPA_SPPA(nn.Module):def __init__(self, num_classes, channels):super(SEPA_SPPA, self).__init__()self.channels = channels # 通道数,用于特征图的维度self.num_classes = num_classes # 类别数,用于位置嵌入和预测# SEPA模块:生成特征位置编码self.get_feat_pos = nn.Conv2d(self.channels, self.channels, 3, 1, 1, bias=True, groups=self.channels) # 使用深度可分离卷积生成特征位置编码self.center_pos = nn.Embedding(self.num_classes, self.channels) # 可学习的向量类别位置嵌入,大小为(类别数, 通道数)self.center_pos_proj = nn.Sequential(nn.Linear(self.channels * 2, self.channels // 2, bias=False), # 降维nn.ReLU(inplace=True), # 激活函数nn.Linear(self.channels // 2, self.channels), # 恢复到原通道维度)self.feat_proj = nn.Identity() # 特征映射,不做额外操作# SPPA模块:生成语义原型self.center_content_proj = nn.Sequential(nn.Linear(self.channels * 2, self.channels // 2, bias=False), # 原型降维nn.ReLU(inplace=True), # 激活函数nn.Linear(self.channels // 2, self.channels), # 恢复到原通道数)self.center_proj = nn.Linear(self.channels, self.channels, bias=False) # 最终类中心特征的线性映射# 获取中心位置编码def get_center_pos(self, attn, feat_pos):"""根据注意力图(attn)和特征位置编码(feat_pos)计算中心位置编码"""center_pos = self.center_pos.weight # 获取类中心位置嵌入b, k, h, w = attn.size() # 批量大小、类别数、高度、宽度c = feat_pos.shape[1] # 特征图通道数# 将注意力和特征图展平,用于矩阵计算attn = attn.reshape(b, k, -1) # (b, k, h*w)feat_pos = feat_pos.reshape(b, c, -1).permute(0, 2, 1) # (b, h*w, c)# 归一化注意力并计算中心位置attn = F.softmax(attn, dim=-1) # 在像素维度上进行softmaxcenter_pos = center_pos.unsqueeze(0).repeat(b, 1, 1) # 扩展为(b, k, c)center_pos = torch.cat([center_pos, torch.matmul(attn, feat_pos)], dim=-1) # 拼接原始位置编码和计算出的编码 (b, k, 2c)center_pos = self.center_pos_proj(center_pos) # 投影到中心位置编码 (b, k, c)return center_pos# 生成像素分类预测def get_pred(self, x, proto):"""根据特征图和语义原型生成像素分类预测"""b, c, h, w = x.size() # 批量大小、通道数、高度、宽度if len(proto.shape) == 3: # 如果原型是三维的 (b, k, c)cls_num = proto.size(1) # 类别数x = x / (torch.norm(x, 2, 1, True) + 1e-12) # 对特征进行L2归一化proto = proto / (torch.norm(proto, 2, -1, True) + 1e-12) # 对原型进行L2归一化x = x.contiguous().view(b, c, h * w) # 展平特征 (b, c, h*w)pred = proto @ x # 点乘生成预测 (b, cls, h*w)elif len(proto.shape) == 2: # 如果原型是二维的 (k, c)cls_num = proto.size(0) # 类别数x = x / (torch.norm(x, 2, 1, True) + 1e-12) # 特征归一化proto = proto / (torch.norm(proto, 2, 1, True) + 1e-12) # 原型归一化x = x.contiguous().view(b, c, h * w) # 展平特征proto = proto.unsqueeze(0) # 扩展维度为 (1, cls, c)pred = proto @ x # 点乘生成预测 (b, cls, h*w)pred = pred.contiguous().view(b, cls_num, h, w) # 恢复为原始大小return pred * 15 # 放大预测值# 前向传播def forward(self, feat, pred, proto):"""输入特征图、注意力图和原型,输出像素分类预测语义特征featpred是预测输出值proto固定的语义原型,通过调用主干网络的分割头权重赋值self.conv_seg.weight.squeeze()"""# SPPA模块feat_pos = self.get_feat_pos(feat) # 获取特征位置编码center_pos = self.get_center_pos(attn=pred, feat_pos=feat_pos) # 空间原型# SEPA模块raw_x = feat.clone()b, c, h, w = raw_x.shape[:]pred = pred.view(b, proto.shape[0], h * w)pred = F.softmax(pred, 1) # b, n, hwpred_proto = (pred @ raw_x.view(b, c, h * w).permute(0, 2, 1)) / (pred.sum(-1).unsqueeze(-1) + 1e-12)pred_proto = torch.cat([pred_proto, proto.unsqueeze(0).repeat(pred_proto.shape[0], 1, 1)], -1) # b, n, 2cpred_proto = self.center_content_proj(pred_proto) #语义原型# 语义特征feat,feat_pos空间特征feat = self.feat_proj(feat+feat_pos) # 对特征图进行投影# pred_proto语义原型 center_pos空间原型center = self.center_proj(pred_proto + center_pos) # 结合语义原型和位置编码生成类中心特征pred = self.get_pred(feat, center) # 根据类中心特征生成像素分类预测return pred
if __name__ == "__main__":# 初始化模型num_classes = 21 # 类别数channels = 256 # 特征图通道数model = SEPA_SPPA(num_classes=num_classes, channels=channels) # 实例化模型# 构造测试输入b, c, h, w = 4, 256, 64, 64 # 批量大小、通道数、高度、宽度k = num_classes # 类别数feat = torch.randn(b, c, h, w) # 模拟特征图attn = torch.randn(b, k, h, w) # 模拟注意力图proto = torch.randn(k, c) # 模拟语义原型# 前向传播测试pred = model(feat, attn, proto) # 获取预测结果print(f"预测结果形状: {pred.shape}") # 打印预测结果的形状
实验
SSA-Seg在最新通用(顶部)和轻量化(底部)方法上的性能比较。FLOPS(G)的计算基于ADE20K和COCO-Stuff-10K的512x512输入大小,以及PASCAL-Context的480x480输入大小。延迟(ms)的计算基于V100 GPU的512x512的输入大小。绿色数字表示相对于基线的增加
相关文章:

笔记03----NeurIPS2024 涨点!SSA:用于语义分割的语义和空间自适应像素级分类器(即插即用)
前言 文章标题:《SSA-Seg: Semantic and Spatial Adaptive Pixel-level Classiffer for Semantic Segmentation》 助力语义分割涨点!SSA:一种新颖的语义和空间自适应分类器,显著提高了基线模型的分割性能,比如SegNeXt、OCRNet和UperNet等模型…...
自定义比较函数 down 作为 sort 函数的参数实现数组元素从大到小排序
【自定义比较函数 down 作为 sort 函数的参数实现数组元素从大到小排序】 #include <bits/stdc.h> using namespace std;const int maxn1e35; int a[maxn];bool down(int u,int v) {return u>v; }int main() {int n;cin>>n;for(int i0; i<n; i) cin>>…...
在 Spring Boot 中使用 JPA(Java Persistence API)进行数据库操作
步骤 1: 添加依赖 在 pom.xml 文件中添加相关依赖: <dependencies><!-- Spring Boot Starter Web --><dependency><groupId>org.springframework.boot</groupId><artifactId>spring-boot-starter-web</artifactId><…...
简单聊聊PLT和GOT
在 Linux 的动态链接中,PLT(Procedure Linkage Table) 和 GOT(Global Offset Table) 是动态链接机制中的两个关键组件,它们一起支持程序动态加载共享库以及在运行时解析符号地址。下面是它们的作用和原理&a…...

FaRM译文
No compromises: distributed transactions with consistency, availability, and performance Aleksandar Dragojevic, Dushyanth Narayanan, Edmund B. Nightingale, Matthew Renzelmann, Alex Shamis, Anirudh Badam, Miguel Castro Microsoft Research 目录 摘要 1. 引…...
用vue框架写一个时钟的页面
你可以使用Vue框架来创建一个简单的时钟页面。首先,你需要在HTML文件中引入Vue框架的CDN: <script src"https://cdn.jsdelivr.net/npm/vue"></script>然后,创建一个包含时钟功能的Vue实例: <div id&qu…...

HTML表单-第二部分
HTML表单 表单元素是允许用户在表单中输入内容,比如:文本域,下拉列表,单选框,复选框等等‘ 使用<from>标签创建 例如 <from> . input . </from> HTML表单-输入元素 <input>标签创建ÿ…...

PyQt5:一个逗号引发的闪退血案
【日常小计】 在开发PyQt5程序时,调用了一个写入excel表格的后端方法,但是每次打开页面点击对应的动作,窗口就会闪退,而且Python后台也没有提示出任何的异常堆栈,后来经过在后端一点一点的单点测试,终于发…...

AI智能体Prompt预设词指令大全+GPTs应用使用
AI智能体使用指南 直接复制在AI工具助手中使用(提问前) 可前往SparkAi系统用户官网进行直接使用 SparkAI系统介绍文档:Docs 常见AI智能体GPTs应用大全在线使用 自定义添加制作AI智能体进行使用: 文章润色器 你是一位具有敏锐洞察…...

SSM整合原理实战案例《任务列表案例》
一、前端程序搭建和运行: 1.整合案例介绍和接口分析: (1).案例功能预览: (2).接口分析: 学习计划分页查询 /* 需求说明查询全部数据页数据 请求urischedule/{pageSize}/{currentPage} 请求方式 get 响应的json{"code":200,"flag":true,"data&…...
在风能市场持续增长的情况下,全球【环氧活性稀释剂】的需求呈现明显上涨的趋势
摘要 据 HengCe 最新调研,2023年中国环氧活性稀释剂市场销售收入达到了 万元,预计2030年可以达到 万元,2024-2030期间年复合增长率(CAGR)为 %。本研究项目旨在梳理环氧活性稀释剂领域产品系列,洞悉行业特点、市场存量空间及增量空…...

CSS一些小点 —— 12.7
1. box-sizing: border-box box-sizing 属性,默认值为 content-box box-sizing: border-box 使padding和border的值不会再影响元素的宽高;padding和border的值算在指定宽高的内部(但是外边距依然算做外部) 2. overflow: hidden …...

[NeurlPS 2022] STaR 开源代码实现解读
STaR 方法代码开源,这里给出一个中文代码解读地址:repo入口点:iteration_train.py;关键代码:device_train.py, device_inference.py, and create_finetune_tfrecords.py;基于 JAX、RAY,在 Googl…...

Android笔记【15】跳转页面返回信息
一、问题 学习一段代码 val intent Intent(thisSecondActivity, MainActivity::class.java) intent.putExtra("extra_data", data) startActivity(intent) 二、内容 这段代码是在 Android 应用中启动一个新的活动(Activity),具…...
使用 Qt 打造高效的 .run 软件包管理器
在软件开发领域,.run 软件包因其便携性和自解压特性而备受青睐,特别是由 makeself 工具生成的 .run 软件包。这些软件包通常包含一个完整的程序或库,以及一个用于解压和安装的脚本。然而,手动管理这些软件包(尤其是进行…...

python学opencv|读取视频(二)制作gif
【1】引言 前述已经完成了图像和视频的读取学习,本次课学习制作gif格式动图。 【2】教程 实际上想制作gif格式动图是一个顺理成章的操作,完成了图像和视频的处理,那就自然而然会对gif的处理也产生兴趣。 不过在opencv官网、matplotlib官网…...

19. Three.js案例-创建一个带有纹理映射的旋转平面
19. Three.js案例-创建一个带有纹理映射的旋转平面 实现效果 知识点 WebGLRenderer (WebGL渲染器) WebGLRenderer 是 Three.js 中用于渲染场景的主要类。它利用 WebGL 技术在浏览器中绘制 3D 图形。 构造器 new THREE.WebGLRenderer(parameters)参数类型描述parametersobj…...

ASP.NET|日常开发中常用属性详解
JAVA |日常开发中常用属性详解 前言一、控件属性(以 TextBox 控件为例)1.1 Text 属性:1.2 MaxLength 属性:1.3 ReadOnly 属性:1.4 IsPostBack 属性(在ASP.NET Web Forms 中)…...

vscode CMakeLists中对opencv eigen的引用方法
CMakeLists.txt 项目模式(只有一个main函数入口) cmake_minimum_required(VERSION 3.5)project(vsin01 VERSION 0.1 LANGUAGES CXX)set(CMAKE_CXX_STANDARD 17) set(CMAKE_CXX_STANDARD_REQUIRED ON)set(OpenCV_DIR G:/MinGW_Opencv/opencv4.10/opencv…...

使用Goland对6.5840项目进行go build出现异常
使用Goland对6.5840项目进行go build出现异常 Lab地址: https://pdos.csail.mit.edu/6.824/labs/lab-mr.html项目地址: git://g.csail.mit.edu/6.5840-golabs-2024 6.5840运行环境: mac系统 goland git clone git://g.csail.mit.edu/6.5840-golabs-2024 6.5840 cd 6.5840/src…...

Zustand 状态管理库:极简而强大的解决方案
Zustand 是一个轻量级、快速和可扩展的状态管理库,特别适合 React 应用。它以简洁的 API 和高效的性能解决了 Redux 等状态管理方案中的繁琐问题。 核心优势对比 基本使用指南 1. 创建 Store // store.js import create from zustandconst useStore create((set)…...
精益数据分析(97/126):邮件营销与用户参与度的关键指标优化指南
精益数据分析(97/126):邮件营销与用户参与度的关键指标优化指南 在数字化营销时代,邮件列表效度、用户参与度和网站性能等指标往往决定着创业公司的增长成败。今天,我们将深入解析邮件打开率、网站可用性、页面参与时…...
laravel8+vue3.0+element-plus搭建方法
创建 laravel8 项目 composer create-project --prefer-dist laravel/laravel laravel8 8.* 安装 laravel/ui composer require laravel/ui 修改 package.json 文件 "devDependencies": {"vue/compiler-sfc": "^3.0.7","axios": …...

中医有效性探讨
文章目录 西医是如何发展到以生物化学为药理基础的现代医学?传统医学奠基期(远古 - 17 世纪)近代医学转型期(17 世纪 - 19 世纪末)现代医学成熟期(20世纪至今) 中医的源远流长和一脉相承远古至…...

保姆级教程:在无网络无显卡的Windows电脑的vscode本地部署deepseek
文章目录 1 前言2 部署流程2.1 准备工作2.2 Ollama2.2.1 使用有网络的电脑下载Ollama2.2.2 安装Ollama(有网络的电脑)2.2.3 安装Ollama(无网络的电脑)2.2.4 安装验证2.2.5 修改大模型安装位置2.2.6 下载Deepseek模型 2.3 将deepse…...
A2A JS SDK 完整教程:快速入门指南
目录 什么是 A2A JS SDK?A2A JS 安装与设置A2A JS 核心概念创建你的第一个 A2A JS 代理A2A JS 服务端开发A2A JS 客户端使用A2A JS 高级特性A2A JS 最佳实践A2A JS 故障排除 什么是 A2A JS SDK? A2A JS SDK 是一个专为 JavaScript/TypeScript 开发者设计的强大库ÿ…...

【C++特殊工具与技术】优化内存分配(一):C++中的内存分配
目录 一、C 内存的基本概念 1.1 内存的物理与逻辑结构 1.2 C 程序的内存区域划分 二、栈内存分配 2.1 栈内存的特点 2.2 栈内存分配示例 三、堆内存分配 3.1 new和delete操作符 4.2 内存泄漏与悬空指针问题 4.3 new和delete的重载 四、智能指针…...
Vue 模板语句的数据来源
🧩 Vue 模板语句的数据来源:全方位解析 Vue 模板(<template> 部分)中的表达式、指令绑定(如 v-bind, v-on)和插值({{ }})都在一个特定的作用域内求值。这个作用域由当前 组件…...

[论文阅读]TrustRAG: Enhancing Robustness and Trustworthiness in RAG
TrustRAG: Enhancing Robustness and Trustworthiness in RAG [2501.00879] TrustRAG: Enhancing Robustness and Trustworthiness in Retrieval-Augmented Generation 代码:HuichiZhou/TrustRAG: Code for "TrustRAG: Enhancing Robustness and Trustworthin…...

【Veristand】Veristand环境安装教程-Linux RT / Windows
首先声明,此教程是针对Simulink编译模型并导入Veristand中编写的,同时需要注意的是老用户编译可能用的是Veristand Model Framework,那个是历史版本,且NI不会再维护,新版本编译支持为VeriStand Model Generation Suppo…...