当前位置: 首页 > news >正文

【CCNet】《CCNet:Criss-Cross Attention for Semantic Segmentation》

在这里插入图片描述

ICCV-2019


文章目录

  • 1 Background and Motivation
  • 2 Related Work
  • 3 Advantages / Contributions
  • 4 Method
  • 5 Experiments
    • 5.1 Datasets and Metrics
    • 5.2 Experiments on Cityscapess
    • 5.3 Experiments on ADE20K
    • 5.4 Experiments on COCO
  • 6 Conclusion(own)


1 Background and Motivation

分割任务中全局的上下文信息非常重要,如果高效轻量的获取上下文?

Thus, is there an alternative solution to achieve such a target in a more efficient way?

作者提出了 Criss-Cross Attention

相比于 Non-local(【NL】《Non-local Neural Networks》)

复杂度从 O((HxW)x(HxW)) 降低到了 O((HxW)x(H+W-1))

2 Related Work

  • semantic segmentation
  • contextual information aggregation
  • Attention model

3 Advantages / Contributions

  • 提出 Criss-Cross 注意力,capture contextual information from full-image dependencies in a more efficient and effective way
  • 在语义分割数据集 Cityscapes, ADE20K 和实例分割数据 COCO 上均有提升

4 Method

整理流程如下
在这里插入图片描述

Criss-Cross Attention Module 用了两次,叫 recurrent Criss-Cross attention (RCCA) module

下面是和 non-local 的对比
在这里插入图片描述
比如(b)中,计算蓝色块的 attention,绿色块不同深浅表示与蓝色块的相关程度,第一次结合十字架attention得到黄色块,第二次再结合十字架attention,得到红色块

为什么两次,因为一次捕获不到全局上下文信息,两次就可以,如下图

在这里插入图片描述

第一次,计算深绿色块的 Criss-Cross 注意力,只能获取到浅绿色块的信息,蓝色块的信息获取不到,浅绿色可以获取到蓝色块信息
第二次,计算深绿色块的 Criss-Cross 注意力,因为第一次计算浅绿色块注意力时已经有蓝色块信息了,此时,可以获取到蓝色块信息

更细节的 Criss-Cross 注意力图如下
在这里插入图片描述

下面结合图 3 看看公式表达

输入 H ∈ R C × W × H H \in \mathbb{R}^{C \times W \times H} HRC×W×H

query 和 key, { Q , K } ∈ R C ′ × W × H \{Q, K\} \in \mathbb{R}^{{C}' \times W \times H} {Q,K}RC×W×H C ′ {C}' C 为 1/8 C C C

Q u ∈ R C ′ Q_u \in \mathbb{R}^{{C}'} QuRC u u u H × W H \times W H×W 中空间位置索引,特征图 Q 的子集(每个空间位置)

Ω u ∈ R ( H + W − 1 ) × C ′ \Omega_{u} \in \mathbb{R}^{(H + W -1) \times {C}' } ΩuR(H+W1)×C,特征图 K 的子集(每个十字架)

Affinity operation 可以定义为

d i , u = Q u Ω i , u T d_{i,u} = Q_u \Omega_{i, u}^T di,u=QuΩi,uT

Q Q Q上每个空间位置 Q u Q_u Qu,找到 K K K 上对应的同行同列十字架 Ω u \Omega_{u} Ωu i i i 是十字架中空间位置的索引, d i , u ∈ D d_{i,u} \in {D} di,uD D ∈ R ( H + W − 1 ) × W × H D \in \mathbb{R}^{(H+W-1) \times W \times H} DR(H+W1)×W×H Q Q Q K K K 计算的 D D D 经过 softmax 后成 A ∈ R ( H + W − 1 ) × W × H A \in \mathbb{R}^{(H + W -1) \times W \times H} AR(H+W1)×W×H

Q Q Q K K K 计算出来了权重 A A A 最终作用到 K K K 上,形式如下:

H u ′ = ∑ i ∈ ∣ Φ u ∣ A i , u Φ i , u + H u {H}_u^{'} = \sum_{i \in | \Phi_u|} A_{i,u}\Phi_{i,u} + H_u Hu=iΦuAi,uΦi,u+Hu

Φ i , u \Phi_{i,u} Φi,u Ω i , u \Omega_{i, u} Ωi,u,一个是特征图 V V V 的子集,一个是特征图 K K K 的子集, H H H 是输入, H ′ {H}^{'} H 为输出, i i i 是十字架索引, u u u H H H x W W W 空间位置索引

为了使每一个位置 u u u 可以与任何位置对应起来,作者通过两次计算 Criss-cross 来完成,只需对 H ′ {H}^{'} H 再次计算 criss-cross attention,输出 H ′ ′ {H}^{''} H′′,此时就有:

u u u and θ \theta θ in the same row or column
在这里插入图片描述
A A A 表示 loop = 1 时的注意力 weight, A ′ {A}' A 表示 loop = 2 时的 weight

u u u and θ \theta θ not in the same row or column,eg 图 4,深绿色位置是 u u u,蓝色的位置是 θ \theta θ
在这里插入图片描述

在这里插入图片描述
加上
在这里插入图片描述

再看看代码

import torch
import torch.nn as nn
import torch.nn.functional as Fdef INF(B,H,W):return -torch.diag(torch.tensor(float("inf")).cuda().repeat(H),0).unsqueeze(0).repeat(B*W,1,1)class CrissCrossAttention(nn.Module):def __init__(self, in_channels):super(CrissCrossAttention, self).__init__()self.in_channels = in_channelsself.channels = in_channels // 8self.ConvQuery = nn.Conv2d(self.in_channels, self.channels, kernel_size=1)self.ConvKey = nn.Conv2d(self.in_channels, self.channels, kernel_size=1)self.ConvValue = nn.Conv2d(self.in_channels, self.in_channels, kernel_size=1)self.SoftMax = nn.Softmax(dim=3)self.INF = INFself.gamma = nn.Parameter(torch.zeros(1))def forward(self, x):b, _, h, w = x.size()# [b, c', h, w]query = self.ConvQuery(x)# [b, w, c', h] -> [b*w, c', h] -> [b*w, h, c']query_H = query.permute(0, 3, 1, 2).contiguous().view(b*w, -1, h).permute(0, 2, 1)# [b, h, c', w] -> [b*h, c', w] -> [b*h, w, c']query_W = query.permute(0, 2, 1, 3).contiguous().view(b*h, -1, w).permute(0, 2, 1)# [b, c', h, w]key = self.ConvKey(x)# [b, w, c', h] -> [b*w, c', h]key_H = key.permute(0, 3, 1, 2).contiguous().view(b*w, -1, h)# [b, h, c', w] -> [b*h, c', w]key_W = key.permute(0, 2, 1, 3).contiguous().view(b*h, -1, w)# [b, c, h, w]value = self.ConvValue(x)# [b, w, c, h] -> [b*w, c, h]value_H = value.permute(0, 3, 1, 2).contiguous().view(b*w, -1, h)# [b, h, c, w] -> [b*h, c, w]value_W = value.permute(0, 2, 1, 3).contiguous().view(b*h, -1, w)# [b*w, h, c']* [b*w, c', h] -> [b*w, h, h] -> [b, h, w, h]energy_H = (torch.bmm(query_H, key_H) + self.INF(b, h, w)).view(b, w, h, h).permute(0, 2, 1, 3)# [b*h, w, c']*[b*h, c', w] -> [b*h, w, w] -> [b, h, w, w]energy_W = torch.bmm(query_W, key_W).view(b, h, w, w)# [b, h, w, h+w]  concate channels in axis=3 concate = self.SoftMax(torch.cat([energy_H, energy_W], 3))# [b, h, w, h] -> [b, w, h, h] -> [b*w, h, h]attention_H = concate[:,:,:, 0:h].permute(0, 2, 1, 3).contiguous().view(b*w, h, h)attention_W = concate[:,:,:, h:h+w].contiguous().view(b*h, w, w)# [b*w, h, c]*[b*w, h, h] -> [b, w, c, h]out_H = torch.bmm(value_H, attention_H.permute(0, 2, 1)).view(b, w, -1, h).permute(0, 2, 3, 1)out_W = torch.bmm(value_W, attention_W.permute(0, 2, 1)).view(b, h, -1, w).permute(0, 2, 1, 3)return self.gamma*(out_H + out_W) + xif __name__ == "__main__":model = CrissCrossAttention(512)x = torch.randn(2, 512, 28, 28)model.cuda()out = model(x.cuda())print(out.shape)

Q,K,A,V 还是比较直接

参考

  • CCNet–于"阡陌交通"处超越恺明Non-local

  • 语义分割系列20-CCNet(pytorch实现)

5 Experiments

5.1 Datasets and Metrics

  • Cityscapes
  • ADE20K
  • COCO

Mean IoU (mIOU, mean of class-wise intersection over union section over union) for Cityscapes and ADE20K and the standard COCO metrics Average Precision (AP) for COCO

5.2 Experiments on Cityscapess

(1)Comparisons with state-of-the-arts
在这里插入图片描述
DPC 用了更强的主干,更多的数据集来 train

在这里插入图片描述

(2)Ablation studies

在这里插入图片描述
消融了下循环的次数,还是很猛的,第一次就提升了 2.9 个点,第二次又提升了 1.8 个

看看效果图,重点看作者圈出来的白色虚线椭圆区域
在这里插入图片描述

对比看看其他的 context aggregation 模块
在这里插入图片描述
作者的 Criss-Cross Attention 比较猛

其次比较猛的是 Non-local,但是作者的计算量小很多

在这里插入图片描述
看看特征图,重点看作者圈出来的绿色十字加号区域
在这里插入图片描述

5.3 Experiments on ADE20K

在这里插入图片描述

5.4 Experiments on COCO

在这里插入图片描述

6 Conclusion(own)

《Large Kernel Matters Improve Semantic Segmentation by Global Convolutional Network》

在这里插入图片描述

在这里插入图片描述
在这里插入图片描述

相关文章:

【CCNet】《CCNet:Criss-Cross Attention for Semantic Segmentation》

ICCV-2019 文章目录 1 Background and Motivation2 Related Work3 Advantages / Contributions4 Method5 Experiments5.1 Datasets and Metrics5.2 Experiments on Cityscapess5.3 Experiments on ADE20K5.4 Experiments on COCO 6 Conclusion(own) 1 Ba…...

Qt QSQlite数据库插入字符串中存在单个双引号或单个单引号解决方案

1. 前言 当进行数据库写入或更新时,有时会遇到存在字符串中包含单个双引号或者单引号。 2. 单引号和双引号""作用 在数据库中,字符串常量时需要用一对英文单引号或英文双引号""将字符串常量括起来。 比如: select * …...

Linux系统中的IP地址、主机名、和域名解析

1.IP地址 每一台联网的电脑都会有一个地址,用于和其它计算机进行通讯 IP地址主要有2个版本,V4版本和V6版本(V6很少用,暂不涉及) IPv4版本的地址格式是:a.b.c.d,其中abcd表示0~255的数字&…...

soc算法【周末总结】

1 实验一(SOC误差30%放电实验) 1.1 实验过程 1、对电池包进行充电,将昨天放空的电池包进行充电,充电至SOC40%左右; 2、电池包SOC为38%时,手动修改SOC值为70%,开始放电 3、SOC由70%缓慢降至4…...

SpringBoot之优化高并发场景下的HttpClient并提升QPS

HttpClient优化思路 使用连接池(简单粗暴) 长连接优化(特殊业务场景) httpclient和httpget复用 合理的配置参数(最大并发请求数,各种超时时间,重试次数) 异步请求优化&#xff0…...

go-zero 如何在任意地方获取yaml中的值

1、config配置文件中新增全局变量 package configimport "github.com/zeromicro/go-zero/rest"type Config struct {rest.RestConfDB struct {DataSource string}Redis struct {Addr stringPassWord stringUserName string}Auth struct {AccessSecret stringAcc…...

C++20结构化绑定应用实例(二百五十六)

简介: CSDN博客专家,专注Android/Linux系统,分享多mic语音方案、音视频、编解码等技术,与大家一起成长! 优质专栏:Audio工程师进阶系列【原创干货持续更新中……】🚀 人生格言: 人生…...

改进YOLOv8注意力系列四:结合中心化特征金字塔EVCBlock、大核卷积注意力LKA_Attention、全局注意力MobileViTAttention

改进YOLOv8注意力系列三:结合CrissCrossAttention、ECAAttention、EMAU期望最大化注意力 代码大核卷积注意力LKA_Attention中心化特征金字塔EVCBlock全局注意力MobileViTAttention加入方法各种yaml加入结构本文提供了改进 YOLOv8注意力系列包含不同的注意力机制以及多种加入方…...

idea中使用Lombok 失效,@Slf4j 找不到符号的解决办法

文章目录 一、前言二、问题排查和解决方案三、 其他解决方案3.1 另一种解决方案3.2 参考文章 一、前言 今天在一个多module工程中,新增了一个 springboot(版本 2.2.4.RELEASE) module,像往常一样,我引入了lombok依赖&…...

MySQL修炼手册8:约束与完整性:保证数据的一致性

目录 写在开头1 主键与唯一键约束1.1 PRIMARY KEY约束的作用1.2 主键的复合使用1.3 主键的修改与删除1.4 UNIQUE约束的应用场景1.5 主键与唯一键约束的性能影响1.6 主键的自动增长1.7 主键的最佳实践1.8 独特性与业务需求1.9 避免过度使用唯一约束1.10 主键与唯一键的关系 2 外…...

React入门 - 03(初识 React 组件和 JSX)

本章内容 目录 1.初识 React 组件2.关于 JSX 继上一节的工程案例,我们这一节主要了解一下 React组件和 “JSX 语法”。 前置知识点:ES6模块化&继承 1.初识 React 组件 1、打开 src/index.js文件(项目的入口文件)内容&…...

华为OD机试 - 反射计数(Java JS Python C)

题目描述 给定一个包含 0 和 1 的二维矩阵。 给定一个初始位置和速度,一个物体从给定的初始位置出发,在给定的速度下进行移动,遇到矩阵的边缘则发生镜面发射。 无论物体经过 0 还是 1,都不影响其速度。 请计算并给出经过 t 时间单位后,物体经过 1 点的次数。 矩阵以左…...

Linux系统中使用systemctl命令控制软件的启动和关闭

Linux系统很多软件(内置或第三方)均支持使用systemctl命令控制:启动、停止、开机自启 能够被systemctl管理的软件,一般也称之为:服务 1.功能和语法 功能:控制系统服务的启动关闭等 语法:syst…...

2024年01月微软更新Bug 已解决 !Explorer.EXE 提示:Windows无法访问指定设备、路径或文件。你可能没有适当的权限访问该项目。

前倾概要 近期大量出现如上图问题,杀毒,系统急救箱都没反应,罪魁祸首就是微软更新! 点击什么都是:Windows无法访问指定设备、路径或文件。你可能没有适当的权限访问该项目。 但软件使用正常,还能通过建立…...

Qt/QML编程学习之心得:slider(34)

滑条slider,有时也成为进度条progressbar,在GUI界面中也是经常用到的。 import QtQuick 2.9 import QtQuick.Controls 2.0 import QtQuick.Layouts 1.2ApplicationWindow {id:rootvisible: truewidth: 1920height: 720//title: qsTr("Hello World&q…...

使用metricbeat 监控多ES集群

背景 ES 本身自带 监控,属于xpack 中的内容,为商业版,需要收费; 并且 monitor 功能必须要在security开启后才能使用,还有就是集群监控自己,将采集到的性能数据保存到本集群,这是一个比较差的设…...

阿里云服务器+宝塔 (尝试部署一个最简单的静态页面)

1. 免费白嫖一个阿里服务器 进入网址:服务器购买地址 选择预装宝塔面板 购买完成后前往控制台 查看当前实例 设置或修改密码 设置用户名和密码 2. 远程连接到服务器 2.1. 使用Workbench连接 输入用户名和密码连接成功页面如下: 2.2. 使…...

每日一题——LeetCode1160.拼写单词

方法一 个人方法: 先统计chars里每个字符出现的次数,再对words里每个字符串统计每个字符出现的字符,当: 1、字符串里出现chars里没有的字符 2、字符串里某个字符出现的次数大于该字符在chars里出现的次数 以上两种情况则不符合…...

物联网协议Coap之Core和NetWork简介

目录 前言 一、Coap的Core包 1、Coap对象 2、Message对象 3、Request对象 4、Response对象 二、Coap的NetWork调试 1、UDP运行模式 2、Network消息接收 3、Sender线程发送数据 三、总结 前言 在之前的博文中,对Californium中Coap的实现进行了简要的介绍&a…...

Java SE入门及基础(10)

switch选择结构 1. 概念 switch 表示开关的意思,为了帮助理解,下面以线路为例,进行解释说明 上图中表示一条带有多个开关的线路,当开关打开时,该开关所控制的灯即被点亮。 2. 语法规则 switch ( 表达式 ){ //…...

python/java环境配置

环境变量放一起 python: 1.首先下载Python Python下载地址:Download Python | Python.org downloads ---windows -- 64 2.安装Python 下面两个,然后自定义,全选 可以把前4个选上 3.环境配置 1)搜高级系统设置 2…...

【ROS】Nav2源码之nav2_behavior_tree-行为树节点列表

1、行为树节点分类 在 Nav2(Navigation2)的行为树框架中,行为树节点插件按照功能分为 Action(动作节点)、Condition(条件节点)、Control(控制节点) 和 Decorator(装饰节点) 四类。 1.1 动作节点 Action 执行具体的机器人操作或任务,直接与硬件、传感器或外部系统…...

TRS收益互换:跨境资本流动的金融创新工具与系统化解决方案

一、TRS收益互换的本质与业务逻辑 (一)概念解析 TRS(Total Return Swap)收益互换是一种金融衍生工具,指交易双方约定在未来一定期限内,基于特定资产或指数的表现进行现金流交换的协议。其核心特征包括&am…...

Unit 1 深度强化学习简介

Deep RL Course ——Unit 1 Introduction 从理论和实践层面深入学习深度强化学习。学会使用知名的深度强化学习库,例如 Stable Baselines3、RL Baselines3 Zoo、Sample Factory 和 CleanRL。在独特的环境中训练智能体,比如 SnowballFight、Huggy the Do…...

根据万维钢·精英日课6的内容,使用AI(2025)可以参考以下方法:

根据万维钢精英日课6的内容,使用AI(2025)可以参考以下方法: 四个洞见 模型已经比人聪明:以ChatGPT o3为代表的AI非常强大,能运用高级理论解释道理、引用最新学术论文,生成对顶尖科学家都有用的…...

mysql已经安装,但是通过rpm -q 没有找mysql相关的已安装包

文章目录 现象:mysql已经安装,但是通过rpm -q 没有找mysql相关的已安装包遇到 rpm 命令找不到已经安装的 MySQL 包时,可能是因为以下几个原因:1.MySQL 不是通过 RPM 包安装的2.RPM 数据库损坏3.使用了不同的包名或路径4.使用其他包…...

OPenCV CUDA模块图像处理-----对图像执行 均值漂移滤波(Mean Shift Filtering)函数meanShiftFiltering()

操作系统:ubuntu22.04 OpenCV版本:OpenCV4.9 IDE:Visual Studio Code 编程语言:C11 算法描述 在 GPU 上对图像执行 均值漂移滤波(Mean Shift Filtering),用于图像分割或平滑处理。 该函数将输入图像中的…...

Java求职者面试指南:Spring、Spring Boot、MyBatis框架与计算机基础问题解析

Java求职者面试指南:Spring、Spring Boot、MyBatis框架与计算机基础问题解析 一、第一轮提问(基础概念问题) 1. 请解释Spring框架的核心容器是什么?它在Spring中起到什么作用? Spring框架的核心容器是IoC容器&#…...

【网络安全】开源系统getshell漏洞挖掘

审计过程: 在入口文件admin/index.php中: 用户可以通过m,c,a等参数控制加载的文件和方法,在app/system/entrance.php中存在重点代码: 当M_TYPE system并且M_MODULE include时,会设置常量PATH_OWN_FILE为PATH_APP.M_T…...

在鸿蒙HarmonyOS 5中使用DevEco Studio实现企业微信功能

1. 开发环境准备 ​​安装DevEco Studio 3.1​​: 从华为开发者官网下载最新版DevEco Studio安装HarmonyOS 5.0 SDK ​​项目配置​​: // module.json5 {"module": {"requestPermissions": [{"name": "ohos.permis…...