当前位置：首页 > news >正文

【Block总结】PSA，金字塔挤压注意力，解决传统注意力机制在捕获多尺度特征时的局限性

news 2025/12/29 17:39:00

论文信息

标题: EPSANet: An Efficient Pyramid Squeeze Attention Block on Convolutional Neural Network
论文链接: arXiv
GitHub链接: https://github.com/murufeng/EPSANet

在这里插入图片描述

创新点

EPSANet提出了一种新颖的金字塔挤压注意力（PSA）模块，旨在解决传统注意力机制在捕获多尺度特征时的局限性。其主要创新点包括：

高效性: PSA模块能够在较低的计算成本下有效提取多尺度空间信息。
灵活性: 该模块可以作为即插即用的组件，轻松集成到现有的卷积神经网络（CNN）架构中。
多尺度特征表示: EPSANet通过自适应地重新校准跨维通道的注意权重，增强了特征表示能力。

方法

EPSANet的核心是PSA模块，其实现过程如下：

多尺度特征提取: 通过Squeeze and Concat (SPC)模块获得通道维度上的多尺度特征图。
注意力计算: 使用SEWeight模块提取不同尺度特征图的注意力，生成通道方向的注意力向量。
再校准: 通过Softmax对通道维度的注意向量进行再校准，得到多尺度信道的再校准权重。
特征融合: 在重新校准的权重和对应的特征图上进行按元素乘积，输出丰富的多尺度特征图。

效果

EPSANet在多个计算机视觉任务中表现出色，包括图像分类、目标检测和实例分割。与传统的通道注意力方法相比，EPSANet在性能上有显著提升。例如：

在ImageNet数据集上，EPSANet的Top-1准确率比SENet-50提高了1.93%。
在MS-COCO数据集上，使用Mask-RCNN时，EPSANet在目标检测和实例分割任务中分别提高了2.7和1.7的AP值。

实验结果

实验结果表明，EPSANet在多个标准数据集上均超越了当前最新的技术。具体表现为：

在COCO 2017数据集上，EPSANet的目标检测率超越了ECANet，AP75指标提高了1.4%。
论文中进行了大量的定性和定量实验，验证了EPSANet在图像分类、目标检测和实例分割方面的先进性能。

总结

EPSANet通过引入金字塔挤压注意力模块，成功地提升了卷积神经网络在多尺度特征提取方面的能力。其灵活的设计使得EPSANet能够广泛应用于各种计算机视觉任务，展现出良好的泛化性能和高效性。该研究为未来的深度学习模型设计提供了新的思路和方法。

代码

import torch
import torch.nn as nnclass SEWeightModule(nn.Module):def __init__(self, channels, reduction=16):super(SEWeightModule, self).__init__()self.avg_pool = nn.AdaptiveAvgPool2d(1)self.fc1 = nn.Conv2d(channels, channels//reduction, kernel_size=1, padding=0)self.relu = nn.ReLU(inplace=True)self.fc2 = nn.Conv2d(channels//reduction, channels, kernel_size=1, padding=0)self.sigmoid = nn.Sigmoid()def forward(self, x):out = self.avg_pool(x)out = self.fc1(out)out = self.relu(out)out = self.fc2(out)weight = self.sigmoid(out)return weightdef conv(in_planes, out_planes, kernel_size=3, stride=1, padding=1, dilation=1, groups=1):"""standard convolution with padding"""return nn.Conv2d(in_planes, out_planes, kernel_size=kernel_size, stride=stride,padding=padding, dilation=dilation, groups=groups, bias=False)def conv1x1(in_planes, out_planes, stride=1):"""1x1 convolution"""return nn.Conv2d(in_planes, out_planes, kernel_size=1, stride=stride, bias=False)class PSAModule(nn.Module):def __init__(self, inplans, planes, conv_kernels=[3, 5, 7, 9], stride=1, conv_groups=[1, 4, 8, 16]):super(PSAModule, self).__init__()self.conv_1 = conv(inplans, planes//4, kernel_size=conv_kernels[0], padding=conv_kernels[0]//2,stride=stride, groups=conv_groups[0])self.conv_2 = conv(inplans, planes//4, kernel_size=conv_kernels[1], padding=conv_kernels[1]//2,stride=stride, groups=conv_groups[1])self.conv_3 = conv(inplans, planes//4, kernel_size=conv_kernels[2], padding=conv_kernels[2]//2,stride=stride, groups=conv_groups[2])self.conv_4 = conv(inplans, planes//4, kernel_size=conv_kernels[3], padding=conv_kernels[3]//2,stride=stride, groups=conv_groups[3])self.se = SEWeightModule(planes // 4)self.split_channel = planes // 4self.softmax = nn.Softmax(dim=1)def forward(self, x):batch_size = x.shape[0]x1 = self.conv_1(x)x2 = self.conv_2(x)x3 = self.conv_3(x)x4 = self.conv_4(x)feats = torch.cat((x1, x2, x3, x4), dim=1)feats = feats.view(batch_size, 4, self.split_channel, feats.shape[2], feats.shape[3])x1_se = self.se(x1)x2_se = self.se(x2)x3_se = self.se(x3)x4_se = self.se(x4)x_se = torch.cat((x1_se, x2_se, x3_se, x4_se), dim=1)attention_vectors = x_se.view(batch_size, 4, self.split_channel, 1, 1)attention_vectors = self.softmax(attention_vectors)feats_weight = feats * attention_vectorsfor i in range(4):x_se_weight_fp = feats_weight[:, i, :, :]if i == 0:out = x_se_weight_fpelse:out = torch.cat((x_se_weight_fp, out), 1)return outif __name__ == "__main__":dim=512# 如果GPU可用，将模块移动到 GPUdevice = torch.device("cuda" if torch.cuda.is_available() else "cpu")# 输入张量 (batch_size, channels,height, width)x = torch.randn(1,dim,14,14).to(device)# 初始化 PSAModule 模块block = PSAModule(dim,dim) # kernel_size为height或者widthprint(block)block = block.to(device)# 前向传播output = block(x)print("输入:", x.shape)print("输出:", output.shape)

输出结果：
在这里插入图片描述

【Block总结】PSA，金字塔挤压注意力，解决传统注意力机制在捕获多尺度特征时的局限性

论文信息标题: EPSANet: An Efficient Pyramid Squeeze Attention Block on Convolutional Neural Network论文链接: arXivGitHub链接: https://github.com/murufeng/EPSANet 创新点 EPSANet提出了一种新颖的金字塔挤压注意力（PSA）模块，旨…...

编程日记 2025/2/8 14:07:21

代码随想录算法训练营第三十一天| 回溯算法04

491. 递增子序列题目： 代码随想录视频讲解：回溯算法精讲，树层去重与树枝去重 | LeetCode：491.递增子序列_哔哩哔哩_bilibili 这题需要注意的点： 1. path长度在2以上才放入最终结果 2. 需要记录已经使用过的数字&am…...

编程日记 2025/2/8 14:06:19

pycharm集成通义灵码应用

在pycharm中安装通义灵码 1、打开files-settings 2、选中plugins-搜索”TONGYI Lingma“，点击安装 3.安装完成后在pycharm的右侧就有通义灵码的标签 4、登录账号 5、查看代码区域代码，每一个方法前面都多了通义灵码的标识，可以直接选择…...

编程日记 2025/2/8 14:02:14

赛博算命之 ”梅花易数“ 的 “JAVA“ 实现 ——从玄学到科学的探索

hello~朋友们！好久不见！ 今天给大家带来赛博算命第三期——梅花易数的java实现赛博算命系列文章： 周易六十四卦掐指一算——小六壬更多优质文章：个人主页 JAVA系列：JAVA 大佬们互三哦~互三必回！&#xf…...

编程日记 2025/2/8 14:00:12

【Leetcode刷题记录】54. 螺旋矩阵--模拟，以及循环条件处理的一些细节

54. 螺旋矩阵给你一个 m 行 n 列的矩阵 matrix ，请按照顺时针螺旋顺序 ，返回矩阵中的所有元素。示例 1： 输入：matrix [[1,2,3],[4,5,6],[7,8,9]] 输出：[1,2,3,6,9,8,7,4,5] 解题思路顺时针螺旋顺序也就是“从左向…...

编程日记 2025/2/8 13:59:11

c++计算机教程

目的做出-*/%计算机要求做出可以计算-*/%的计算机实现完整代码 #include<bits/stdc.h> int main() {std::cout<<"加减- 乘* 除/ 取余% \没有了|(因为可以算三位)"<<"\n"<<"提示:每打完一个符号或打完一个数,\…...

编程日记 2025/2/8 13:56:08

蓝桥杯Java之输入输出练习题

题目 1：多组AB（基础版） 题目描述： 输入多组数据，每组数据包含两个整数 A 和 B，计算它们的和。输入以文件结尾（EOF） 结束。输入格式： 每行包含两个整数 A 和 B&#x…...

编程日记 2025/2/8 13:55:06

【R语言】环境空间

一、环境空间的特点环境空间是一种特殊类型的变量，它可以像其它变量一样被分配和操作，还可以以参数的形式传递给函数。 R语言中环境空间具有如下3个特点： 1、对象名称唯一性此特点指的是在不同的环境空间中可以有同名的变量出现&#x…...

编程日记 2025/2/8 13:48:59

【系统架构设计师】分布式数据库透明性

目录 1. 说明2. 分片透明3. 复制透明4. 位置透明5. 逻辑透明（局部数据模型透明）6.例题6.1 例题1 1. 说明 1.在分布式数据库系统中，分片透明、复制透明、位置透明和逻辑透明是几个重要的基本概念。2.分片透明、复制透明、位置透明和逻辑透明是…...

编程日记 2025/2/8 13:42:51

openpnp2.2 - 环境搭建 - 编译 + 调试 + 打包

文章目录 openpnp2.2 - 环境搭建 - 编译调试打包概述笔记前置任务克隆代码库切到最新的tag清理干净编译工程关掉旧工程打开已经克隆好的openpnp2.2工程将IDEA的SDK配置为openjdk23 切换中英文UI设置JAVA编译器构建工程跑测试用例单步调试下断点导出工程的JAR包安装install…...

编程日记 2025/2/8 13:39:48

OpenCV：图像修复

目录简述 1. 原理说明 1.1 Navier-Stokes方法（INPAINT_NS） 1.2 快速行进方法（INPAINT_TELEA） 2. 实现步骤 2.1 输入图像和掩膜（Mask） 2.2 调用cv2.inpaint()函数 2.3 完整代码示例 2.4 运行结果 …...

编程日记 2025/2/8 13:37:44

方法如下： void loadQss(int qssType) {QString name;if (qssType 1)name ":/qss/day.qss";elsename ":/qss/night.qss";QFile file(name);file.open(QFile::ReadOnly);QString qss;qss file.readAll();qApp->setStyleSheet(qss);file.…...

编程日记 2025/2/8 13:36:43

MySQL三大版本的演进

三大版本的演进文章目录三大版本的演进一：5.6版本（大跃进时期）1：支持只读事务2：innodb存储引擎增强2.1：缓冲池刷盘策略优化2.2：BufferPool缓冲池预热 3：新增Performance_Schema库监…...

编程日记 2025/2/8 13:33:40

利用 IMU 估计人体关节轴向和位置 —— 论文推导

Title: 利用 IMU 估计人体关节轴向和位置 —— “Joint axis and position estimation from inertial measurement data by exploiting kinematic constraints” —— 论文推导文章目录 I. 论文回顾II. 铰接关节的约束1. 铰接关节约束的原理2. 铰接关节约束的梯度3. 铰接关节约…...

编程日记 2025/2/8 13:32:39

脚本一键生成管理下游k8s集群的kubeconfig

一、场景 1.1 需要管理下游k8s集群的场景。 1.2 不希望使用默认的cluster-admin权限的config. 二、脚本 **重点参数： 2.1 配置变量。 1、有单独namespace的权限和集群只读权限。 2、自签名的CA证书位置要正确。 2.2 如果配置错误，需要重新…...

编程日记 2025/2/8 13:28:35

数据库系统概念第六版记录三

外码约束（Foreign Key Constraint） 外码（Foreign Key, FK）是关系数据库中的一个约束，它用于保证表之间的引用完整性。外码的值必须： 要么存在于被引用表的主键列中，要么为空（NULL&…...

编程日记 2025/2/8 13:27:33

YOLOv11-ultralytics-8.3.67部分代码阅读笔记-files.py

files.py ultralytics\utils\files.py 目录 files.py 1.所需的库和模块 2.class WorkingDirectory(contextlib.ContextDecorator): 3.def spaces_in_path(path): 4.def increment_path(path, exist_okFalse, sep"", mkdirFalse): 5.def file_age(path__fi…...

编程日记 2025/2/8 13:26:31

微信小程序案例1——制作猫眼电影底部标签导航栏

文章目录一、项目步骤1 新建一个无AppID的movie项目2将准备好的底部标签导航图标拷贝到movie项目下面(将图标文件夹image放到项目文件夹里）3 打开App.json配置文件，在pages数组里添加4个页面路径:电影“pages/movie/movie”、影院“pages/cinema/cinema…...

编程日记 2025/2/8 13:23:28

【大数据技术】搭建完全分布式高可用大数据集群（Kafka）

搭建完全分布式高可用大数据集群（Kafka） kafka_2.13-3.9.0.tgz注：请在阅读本篇文章前，将以上资源下载下来。写在前面本文主要介绍搭建完全分布式高可用集群 Kafka 的详细步骤。注意：统一约定将软件安装包存放于虚拟机的/software目录下，软件安装至/opt目录下。安…...

编程日记 2025/2/8 13:22:27

【服务器知识】如何在linux系统上搭建一个nfs

文章目录 NFS网络系统搭建**1. 准备工作****2. 服务器端配置****(1) 安装 NFS 服务****(2) 创建共享目录****(3) 配置共享规则****(4) 生效配置并启动服务****(5) 防火墙配置** **3. 客户端配置****(1) 安装 NFS 客户端工具****(2) 创建本地挂载点****(3) 挂载 NFS 共享目录***…...

编程日记 2025/2/8 13:21:26

51c自动驾驶~合集58

我自己的原文哦~ https://blog.51cto.com/whaosoft/13967107 #CCA-Attention 全局池化局部保留，CCA-Attention为LLM长文本建模带来突破性进展琶洲实验室、华南理工大学联合推出关键上下文感知注意力机制（CCA-Attention），…...

编程新知 2025/12/19 17:46:10

前端导出带有合并单元格的列表

// 导出async function exportExcel(fileName "共识调整.xlsx") {// 所有数据const exportData await getAllMainData();// 表头内容let fitstTitleList [];const secondTitleList [];allColumns.value.forEach(column > {if (!column.children) {fitstTitleL…...

编程新知 2025/12/20 8:22:45

CentOS下的分布式内存计算Spark环境部署

一、Spark 核心架构与应用场景 1.1 分布式计算引擎的核心优势 Spark 是基于内存的分布式计算框架，相比 MapReduce 具有以下核心优势： 内存计算：数据可常驻内存，迭代计算性能提升 10-100 倍（文档段落：3-79…...

编程新知 2025/12/26 8:10:47

《通信之道——从微积分到 5G》读书总结

第1章绪论 1.1 这是一本什么样的书通信技术，说到底就是数学。那些最基础、最本质的部分。 1.2 什么是通信通信发送方接收方承载信息的信号解调出其中承载的信息信息在发送方那里被加工成信号（调制） 把信息从信号中抽取出来&am…...

编程新知 2025/12/28 17:07:52

GC1808高性能24位立体声音频ADC芯片解析

1. 芯片概述 GC1808是一款24位立体声音频模数转换器（ADC），支持8kHz~96kHz采样率，集成Δ-Σ调制器、数字抗混叠滤波器和高通滤波器，适用于高保真音频采集场景。 2. 核心特性高精度：24位分辨率&#xff0c…...

编程新知 2025/12/20 16:13:31

Linux离线（zip方式）安装docker

目录基础信息操作系统信息docker信息安装实例安装步骤示例遇到的问题问题1：修改默认工作路径启动失败问题2 找不到对应组基础信息操作系统信息 OS版本：CentOS 7 64位内核版本：3.10.0 相关命令： uname -rcat /etc/os-rele…...

编程新知 2025/11/23 23:50:53

《C++ 模板》

目录函数模板类模板非类型模板参数模板特化函数模板特化类模板的特化模板，就像一个模具，里面可以将不同类型的材料做成一个形状，其分为函数模板和类模板。函数模板函数模板可以简化函数重载的代码。格式：templa…...

编程新知 2025/6/11 3:20:47

初探Service服务发现机制

1.Service简介 Service是将运行在一组Pod上的应用程序发布为网络服务的抽象方法。主要功能：服务发现和负载均衡。 Service类型的包括ClusterIP类型、NodePort类型、LoadBalancer类型、ExternalName类型 2.Endpoints简介 Endpoints是一种Kubernetes资源&#xf…...

编程新知 2025/12/28 12:34:37

人机融合智能 | “人智交互”跨学科新领域

本文系统地提出基于“以人为中心AI(HCAI)”理念的人-人工智能交互(人智交互)这一跨学科新领域及框架,定义人智交互领域的理念、基本理论和关键问题、方法、开发流程和参与团队等,阐述提出人智交互新领域的意义。然后,提出人智交互研究的三种新范式取向以及它们的意义。最后,总结…...

编程新知 2025/12/17 20:13:49

Vue ③-生命周期 || 脚手架

生命周期思考：什么时候可以发送初始化渲染请求？（越早越好） 什么时候可以开始操作dom？（至少dom得渲染出来） Vue生命周期： 一个Vue实例从创建到销毁的整个过程。生命周期四个…...

编程新知 2025/12/24 22:26:36

【Block总结】PSA，金字塔挤压注意力，解决传统注意力机制在捕获多尺度特征时的局限性

论文信息

创新点

方法

效果

实验结果

总结

代码

相关文章：

【Block总结】PSA，金字塔挤压注意力，解决传统注意力机制在捕获多尺度特征时的局限性

代码随想录算法训练营第三十一天| 回溯算法04

pycharm集成通义灵码应用

赛博算命之 ”梅花易数“ 的 “JAVA“ 实现 ——从玄学到科学的探索

【Leetcode刷题记录】54. 螺旋矩阵--模拟，以及循环条件处理的一些细节

c++计算机教程

蓝桥杯Java之输入输出练习题

【R语言】环境空间

【系统架构设计师】分布式数据库透明性

openpnp2.2 - 环境搭建 - 编译 + 调试 + 打包

OpenCV：图像修复

QT全局所有QSS样式实时切换

MySQL三大版本的演进

利用 IMU 估计人体关节轴向和位置 —— 论文推导

脚本一键生成管理下游k8s集群的kubeconfig

数据库系统概念第六版记录三

YOLOv11-ultralytics-8.3.67部分代码阅读笔记-files.py

微信小程序案例1——制作猫眼电影底部标签导航栏

【大数据技术】搭建完全分布式高可用大数据集群（Kafka）

【服务器知识】如何在linux系统上搭建一个nfs

51c自动驾驶~合集58

前端导出带有合并单元格的列表

CentOS下的分布式内存计算Spark环境部署

《通信之道——从微积分到 5G》读书总结

GC1808高性能24位立体声音频ADC芯片解析

Linux离线（zip方式）安装docker

《C++ 模板》

初探Service服务发现机制

人机融合智能 | “人智交互”跨学科新领域

Vue ③-生命周期 || 脚手架