当前位置：首页 > article >正文

ResNeSt: Split-Attention Networks论文学习笔记

article 2026/5/12 8:09:43

在这里插入图片描述

这张图展示了一个名为“Split-Attention”的神经网络结构，该结构在一个基数组（cardinal group）内进行操作。基数组通常指的是在神经网络中处理的一组特征或通道。图中展示了如何通过一系列操作来实现对输入特征的注意力机制。

以下是图中各部分的解释：
输入层：
图中顶部有多个输入（Input 1, Input 2, …, Input r），这些输入的特征维度为 (h,w,c)，其中 h 和 w 分别表示特征图的高度和宽度，c 表示通道数。

特征聚合：
这些输入特征通过一个加法操作（+）聚合成一个特征图，其维度仍然是 (h,w,c)。

全局池化：
聚合后的特征图通过全局池化（Global pooling）操作，将其空间维度（即 h 和 w）压缩为一个单一的值，得到一个维度为 (c,) 的向量。

密集层和激活函数：
这个向量通过一个密集层（Dense c′ + BN + ReLU），其中 c′ 是输出维度，BN 表示批归一化（Batch Normalization），ReLU 是激活函数。这一步的目的是生成一个特征表示 (c′,)。

分割注意力：
特征表示 (c′,) 被分割成多个部分，每个部分通过一个密集层（Dense c）进行处理，生成多个特征向量 (ci,)。

Softmax 操作：
这些特征向量通过一个 r-Softmax 操作，生成一组权重。Softmax 操作将这些特征向量转换为概率分布，表示每个特征的重要性。

加权特征：
这些权重与原始输入特征进行逐元素相乘（×），然后将结果相加（+），得到最终的输出特征图，其维度仍然是 (h,w,c)。

这个结构通过全局池化和密集层生成特征表示，然后通过Softmax操作生成权重，最后将这些权重应用于原始输入特征，以实现对输入特征的注意力机制。图中为了方便可视化，使用了 c=C/K 的表示，其中 C 是总通道数，K 是基数组的数量。

在这里插入图片描述
这张图比较了三种不同的神经网络块：SE-Net Block、SK-Net Block 和 ResNeSt Block。每种块都旨在通过不同的方法增强网络的特征提取能力。图中详细展示了这些块的结构和操作流程。

SE-Net Block
输入：特征图尺寸为 (h,w,c)。
操作：
通过一个 1×1 卷积层将通道数减少到 c′。
通过一个 3×3 卷积层进一步处理特征。
再次通过一个 1×1 卷积层恢复通道数到 c。
应用 Split Attention 机制。
最后通过一个加法操作将处理后的特征与原始输入特征相加。

SK-Net Block
输入：特征图尺寸为 (h,w,c)。
操作：
通过一个 1×1 卷积层将通道数减少到 c。
分别通过两个不同大小的卷积核（3×3 和 5×5）处理特征，每个卷积核的输出通道数为 c′，且分组数为 32。
应用 Split Attention 机制。
最后通过一个 1×1 卷积层恢复通道数到 c，并与原始输入特征相加。

ResNeSt Block
输入：特征图尺寸为 (h,w,c)。
操作：
将输入特征分成多个基数组（Cardinal groups），每个基数组包含 r 个特征图。
每个基数组内，特征图被进一步分割成 r 个部分，每个部分通过一个 1×1 卷积层将通道数减少到 c′/k，然后通过一个 3×3 卷积层处理特征。
应用 Split Attention 机制。
将处理后的特征图在每个基数组内进行拼接（Concatenate），然后通过一个 1×1 卷积层恢复通道数到 c。
最后通过一个加法操作将处理后的特征与原始输入特征相加。

总结

SE-Net Block：通过减少和恢复通道数，以及应用 Split Attention 机制来增强特征提取能力。
SK-Net Block：通过使用不同大小的卷积核和 Split Attention 机制来处理特征。
ResNeSt Block：通过将特征图分成多个基数组，并在每个基数组内应用 Split Attention 机制，然后将处理后的特征图拼接和恢复通道数，以增强特征提取能力。

图中提到的 Split Attention 机制的详细视图在图 3 中展示，实际实现中使用基数-主视图（cardinality-major view），即具有相同基数组索引的特征图组相邻放置。在补充材料中提到，实际实现中使用基数-主视图可以通过分组卷积和标准 CNN 层进行模块化和加速。

在这里插入图片描述
图 4 展示了 ResNeSt 块的 Radix-major 实现方式。Radix-major 实现是将具有相同基数（radix）索引但不同基数组（cardinality）的特征图组物理上相邻放置。这种实现可以使用统一的 CNN 操作符来实现。

以下是图中各部分的解释：

输入层：
输入特征图的尺寸为 (h,w,c)。

特征图分割：
输入特征图被分割成 r 个部分，每个部分对应一个基数组（Cardinal group）。

基数组处理：
每个基数组包含多个特征图，每个特征图通过一个 1×1 卷积层将通道数减少到 c′/kr，然后通过一个 3×3 卷积层进一步处理特征。每个基数组处理后的特征图被拼接（Concatenate）在一起。

全局池化：
拼接后的特征图通过全局池化（Global pooling）操作，将其空间维度（即 h 和 w）压缩为一个单一的值，得到一个维度为 (c′,) 的向量。

密集层和激活函数：
这个向量通过两个密集层（Dense c′′，group = k 和 Dense c7，group = k），其中 c′′ 和 c7 是输出维度，group = k 表示分组数为 k。

Softmax 操作：
这些特征向量通过一个 r-Softmax 操作，生成一组权重。Softmax 操作将这些特征向量转换为概率分布，表示每个特征的重要性。

加权特征：
这些权重与原始输入特征进行逐元素相乘（×），然后将结果相加（+），得到最终的输出特征图，其维度仍然是 (h,w,c)。

输出层：
最后通过一个 1×1 卷积层恢复通道数到 c，并与原始输入特征相加。

这个结构通过将输入特征图分割成多个基数组，每个基数组内进行卷积操作，然后通过全局池化和密集层生成特征表示，再通过Softmax操作生成权重，最后将这些权重应用于原始输入特征，以实现对输入特征的注意力机制。图中展示的 Radix-major 实现方式使得具有相同基数索引但不同基数组的特征图组物理上相邻放置，从而可以使用统一的 CNN 操作符来实现。

ResNeSt: Split-Attention Networks论文学习笔记

相关文章：

ResNeSt: Split-Attention Networks论文学习笔记

【matlab】绘图离散数据---＞连续函数

pyside6-uic form.ui -o ui_form.py 的作用

Qt中QVariant的使用

基础项目实战——3D赛车（c++）

【SpringBoot教程】Spring Boot + MySQL + HikariCP 连接池整合教程

每日一题 430. 扁平化多级双向链表

vue3表格数据分2个表格序号连续展示

【愚公系列】《循序渐进Vue.js 3.x前端开发实践》027-组件的高级配置和嵌套

一文讲解Java中Object类常用的方法

操作系统之输入输出

【Convex Optimization Stanford】Lec3 Function

【Linux探索学习】第二十七弹——信号（一）：Linux 信号基础详解

SpringBoot或SpringAI对接DeekSeek大模型

Funnel-Transformer：通过过滤序列冗余实现高效语言处理

【搜索回溯算法】：BFS的魔力--如何使用广度优先搜索找到最短路径

【算法】经典博弈论问题——威佐夫博弈 python

CUDA学习-内存访问

力扣动态规划-13【算法学习day.107】

《剪映5.9官方安装包》免费自动生成字幕

ESP32-S3模组上跑通esp32-camera（32）

Brave132 编译指南 Windows 篇：安装 Visual Studio 2022（二）

DBO-高斯回归预测matlab

2025美国大学生数学建模竞赛美赛E题成品参考论文（48页）（含模型，可运行代码，求解结果）

VMware 中Ubuntu无网络连接/无网络标识解决方法【已解决】

Vuex中的getter和mutation有什么区别

笔试-二维数组2

基于RIP的MGRE VPN综合实验

十三先天记

Autosar-Os是怎么运行的？（Os基础模块）