当前位置：首页 > news >正文

ResNeSt: Split-Attention Networks论文学习笔记

news 2025/12/15 13:41:52

在这里插入图片描述

这张图展示了一个名为“Split-Attention”的神经网络结构，该结构在一个基数组（cardinal group）内进行操作。基数组通常指的是在神经网络中处理的一组特征或通道。图中展示了如何通过一系列操作来实现对输入特征的注意力机制。

以下是图中各部分的解释：
输入层：
图中顶部有多个输入（Input 1, Input 2, …, Input r），这些输入的特征维度为 (h,w,c)，其中 h 和 w 分别表示特征图的高度和宽度，c 表示通道数。

特征聚合：
这些输入特征通过一个加法操作（+）聚合成一个特征图，其维度仍然是 (h,w,c)。

全局池化：
聚合后的特征图通过全局池化（Global pooling）操作，将其空间维度（即 h 和 w）压缩为一个单一的值，得到一个维度为 (c,) 的向量。

密集层和激活函数：
这个向量通过一个密集层（Dense c′ + BN + ReLU），其中 c′ 是输出维度，BN 表示批归一化（Batch Normalization），ReLU 是激活函数。这一步的目的是生成一个特征表示 (c′,)。

分割注意力：
特征表示 (c′,) 被分割成多个部分，每个部分通过一个密集层（Dense c）进行处理，生成多个特征向量 (ci,)。

Softmax 操作：
这些特征向量通过一个 r-Softmax 操作，生成一组权重。Softmax 操作将这些特征向量转换为概率分布，表示每个特征的重要性。

加权特征：
这些权重与原始输入特征进行逐元素相乘（×），然后将结果相加（+），得到最终的输出特征图，其维度仍然是 (h,w,c)。

这个结构通过全局池化和密集层生成特征表示，然后通过Softmax操作生成权重，最后将这些权重应用于原始输入特征，以实现对输入特征的注意力机制。图中为了方便可视化，使用了 c=C/K 的表示，其中 C 是总通道数，K 是基数组的数量。

在这里插入图片描述
这张图比较了三种不同的神经网络块：SE-Net Block、SK-Net Block 和 ResNeSt Block。每种块都旨在通过不同的方法增强网络的特征提取能力。图中详细展示了这些块的结构和操作流程。

SE-Net Block
输入：特征图尺寸为 (h,w,c)。
操作：
通过一个 1×1 卷积层将通道数减少到 c′。
通过一个 3×3 卷积层进一步处理特征。
再次通过一个 1×1 卷积层恢复通道数到 c。
应用 Split Attention 机制。
最后通过一个加法操作将处理后的特征与原始输入特征相加。

SK-Net Block
输入：特征图尺寸为 (h,w,c)。
操作：
通过一个 1×1 卷积层将通道数减少到 c。
分别通过两个不同大小的卷积核（3×3 和 5×5）处理特征，每个卷积核的输出通道数为 c′，且分组数为 32。
应用 Split Attention 机制。
最后通过一个 1×1 卷积层恢复通道数到 c，并与原始输入特征相加。

ResNeSt Block
输入：特征图尺寸为 (h,w,c)。
操作：
将输入特征分成多个基数组（Cardinal groups），每个基数组包含 r 个特征图。
每个基数组内，特征图被进一步分割成 r 个部分，每个部分通过一个 1×1 卷积层将通道数减少到 c′/k，然后通过一个 3×3 卷积层处理特征。
应用 Split Attention 机制。
将处理后的特征图在每个基数组内进行拼接（Concatenate），然后通过一个 1×1 卷积层恢复通道数到 c。
最后通过一个加法操作将处理后的特征与原始输入特征相加。

总结

SE-Net Block：通过减少和恢复通道数，以及应用 Split Attention 机制来增强特征提取能力。
SK-Net Block：通过使用不同大小的卷积核和 Split Attention 机制来处理特征。
ResNeSt Block：通过将特征图分成多个基数组，并在每个基数组内应用 Split Attention 机制，然后将处理后的特征图拼接和恢复通道数，以增强特征提取能力。

图中提到的 Split Attention 机制的详细视图在图 3 中展示，实际实现中使用基数-主视图（cardinality-major view），即具有相同基数组索引的特征图组相邻放置。在补充材料中提到，实际实现中使用基数-主视图可以通过分组卷积和标准 CNN 层进行模块化和加速。

在这里插入图片描述
图 4 展示了 ResNeSt 块的 Radix-major 实现方式。Radix-major 实现是将具有相同基数（radix）索引但不同基数组（cardinality）的特征图组物理上相邻放置。这种实现可以使用统一的 CNN 操作符来实现。

以下是图中各部分的解释：

输入层：
输入特征图的尺寸为 (h,w,c)。

特征图分割：
输入特征图被分割成 r 个部分，每个部分对应一个基数组（Cardinal group）。

基数组处理：
每个基数组包含多个特征图，每个特征图通过一个 1×1 卷积层将通道数减少到 c′/kr，然后通过一个 3×3 卷积层进一步处理特征。每个基数组处理后的特征图被拼接（Concatenate）在一起。

全局池化：
拼接后的特征图通过全局池化（Global pooling）操作，将其空间维度（即 h 和 w）压缩为一个单一的值，得到一个维度为 (c′,) 的向量。

密集层和激活函数：
这个向量通过两个密集层（Dense c′′，group = k 和 Dense c7，group = k），其中 c′′ 和 c7 是输出维度，group = k 表示分组数为 k。

Softmax 操作：
这些特征向量通过一个 r-Softmax 操作，生成一组权重。Softmax 操作将这些特征向量转换为概率分布，表示每个特征的重要性。

加权特征：
这些权重与原始输入特征进行逐元素相乘（×），然后将结果相加（+），得到最终的输出特征图，其维度仍然是 (h,w,c)。

输出层：
最后通过一个 1×1 卷积层恢复通道数到 c，并与原始输入特征相加。

这个结构通过将输入特征图分割成多个基数组，每个基数组内进行卷积操作，然后通过全局池化和密集层生成特征表示，再通过Softmax操作生成权重，最后将这些权重应用于原始输入特征，以实现对输入特征的注意力机制。图中展示的 Radix-major 实现方式使得具有相同基数索引但不同基数组的特征图组物理上相邻放置，从而可以使用统一的 CNN 操作符来实现。

ResNeSt: Split-Attention Networks论文学习笔记

相关文章：

ResNeSt: Split-Attention Networks论文学习笔记

澳洲硕士毕业论文写作中如何把握主题

STM32 LED呼吸灯

Java数据库操作指南：快速上手JDBC【学术会议-2025年数字化教育与信息技术（DEIT 2025】

2024年个人总结

GitHub 仓库的 Archived 功能详解：中英双语

LeetCode：56.合并区间

Vue演练场基础知识（七）插槽

进程池的制作（linux进程间通信，匿名管道... ...）

【Linux】Linux C比较两个 IPv6 网关地址是否相等，包括前缀

【uniapp】uniapp使用java线程池

面试题-Java集合框架

Java基础教程（007）：方法的重载与方法的练习

【ESP32】ESP-IDF开发 | WiFi开发 | TCP传输控制协议 + TCP服务器和客户端例程

npm cnpm pnpm npx yarn的区别

debian12.9编译freeswitch1.10.12【默认安装】

使用 C/C++ 调用 libcurl 调试消息

【愚公系列】《循序渐进Vue.js 3.x前端开发实践》030-自定义组件的插槽Mixin

大一计算机的自学总结：异或运算

通过protoc工具生成proto的pb.go文件以及使用protoc-go-inject-tag工具注入自定义标签

Qt/C++开发监控GB28181系统/取流协议/同时支持udp/tcp被动/tcp主动

爬虫基础学习day2

自然语言处理——循环神经网络

Python 包管理器 uv 介绍

Linux C语言网络编程详细入门教程：如何一步步实现TCP服务端与客户端通信

Xen Server服务器释放磁盘空间

[论文阅读]TrustRAG: Enhancing Robustness and Trustworthiness in RAG

算术操作符与类型转换：从基础到精通

02.运算符

PH热榜 | 2025-06-08