当前位置：首页 > news >正文

注意力机制详解系列（五）：分支与时间注意力机制

news 2026/2/9 15:57:38

在这里插入图片描述

👨‍💻作者简介： 大数据专业硕士在读，CSDN人工智能领域博客专家，阿里云专家博主，专注大数据与人工智能知识分享，公众号：GoAI的学习小屋，免费分享书籍、简历、导图等资料，更有学习交流群分享AI和大数据资料，加群方式加公众号回复“加群”即可。
🎉专栏推荐： 目前在写CV方向专栏，更新不限于目标检测、OCR、图像分类、图像分割等方向，目前活动仅19.9，虽然付费但会长期更新，感兴趣的小伙伴可以关注下➡️专栏地址
🎉学习者福利： 强烈推荐一个优秀AI学习网站，包括机器学习、深度学习等理论与实战教程，非常适合AI学习者。➡️网站链接。
🎉技术控福利： 程序员兼职社区招募！技术范围广，CV、NLP方向均可，要求有一定基础，最好是研究生及以上或有工作经验，欢迎大佬加入！群内Python、c++、Matlab等各类编程语言单应有尽有, 资源靠谱、费用自谈，有意向➡️访问。

📝导读：本篇为注意力机制系列第三篇，主要介绍注意力机制中的空间注意力机制，对空间注意力机制方法进行详细讲解，会对重点论文会进行标注 * ，并配上论文地址和对应代码。

🆙注意力机制详解系列目录：
1️⃣注意力机制详解系列（一）：注意力机制概述
2️⃣注意力机制详解系列（二）：通道注意力机制
3️⃣注意力机制详解系列（三）：空间注意力机制
4️⃣注意力机制详解系列（四）：混合注意力机制
5️⃣注意力机制详解系列（五）：分支与时间注意力机制

📝导读：本篇为注意力机制系列第五篇，主要介绍注意力机制中的分支与时间注意力机制，对分支与时间注意力机制方法进行详细讲解，会对重点论文会进行标注 * ，并配上论文地址和对应代码。

Branch注意力机制

在这里插入图片描述

branch注意力机制主要是关注哪个图片的意思，如一个branch中对不同图片以不同的权重，如CondConv,Dynamic Conv 等；或者在多个branch中，对不同的branch不同的权重，如Highway Network，SKNet, ResNeSt等。

Highway Network

论文:https://arxiv.org/abs/1507.06228

github: https://github.com/jzilly/RecurrentHighwayNetworks

Highway Network基于门机制引入了transform gate T 和carry gate C ，输出output是由tranform input和carry input组成，和resnet的思想有点相似。

SKNet

论文:https://arxiv.org/pdf/1903.06586.pdf

github: https://github.com/implus/SKNet

SKNet 对不同输入使用的卷积核感受野不同,参数权重也不同,可以自适应的对输出进行处理，与SENet有相同的地位：

sknet模块主要由 Split、Fuse、Select 三部分组成。

这里的Split是指对输入特征进行不同卷积核大小的完整卷积操作(包括efficient grouped/depthwise convolutions，Batch Normalization，ReLU function)。如结构图所示，对特征图进行Kernel3×3和Kernel5×5的卷积操作，得到两个输出，这里为了进一步减少计算量，会将5x5的卷积由两个3x3的卷积实现。在得到两个特征图后，第二步为Fuse部分，和SE模块相似，先将两个特征图逐像素相加后，使用全局平均池化（GAP），压缩成11c的特征图后，先降维再升维经过两次全连接，输出两个矩阵a和b,a和b各位置逐值相加和为1，即a=1-b。第三步为select部分，区别SENet,这里使用a和b的权重矩阵分别对第一步输出的两个特征图加权，最后求和得到最后的输出。

SKNet也是可直接嵌入网络的轻量级模块，SKNet使用时涉及到了卷积核数量和大小的选择问题。直观来说SKNet相当于给网络融入了soft attention机制，使网络可以获取不同感受野的信息，这或许可以成为一种泛化能力更好的网络结构。至于为何将SKNet放在branch attention 下面，可能是因为在第一步时使用了分组卷积吧。

ResNeSt

论文:https://hangzhang.org/files/resnest.pdf

github: https://github.com/zhanghang1989/ResNeSt

ResNeSt是基于SENet,SKNet和ResNext ，把attention 做到group level。

CondConv

论文:https://arxiv.org/abs/1904.04971

github: https://github.com/tensorflow/tpu/tree/master/models/official/efficientnet/condconv

作者提出一种条件参数卷积，它可以为每个样例学习一个特定的卷积核参数，通过替换标准卷积，CondConv可以提升模型的尺寸与容量，同时保持高效推理。

CondConv提出的方法与**混合专家方法（Mixture of Experts）**类似，需要在执行卷积计算之前通过多个专家对输入样本计算加权卷积核。主要需要计算几个较为昂贵的依赖样本的routing函数，Routing函数对应的模块与注意力模块类似，包括平均池化，全连接层和Sigmoid激活层。关键的是，每个卷积核只需计算一次并作用于不同位置即可。这意味着：通过提升专家数据量可达到提升网络容量的目的，而代码仅仅是很小的推理耗时：每个额外参数仅需一次乘加。如上图所示。

Dynamic Conv

论文:https://arxiv.org/pdf/1912.03458.pdf

github: https://github.com/kaijieshi7/Dynamic-convolution-Pytorch

文章提出的动态卷积能够根据输入，动态地集成多个并行的卷据核为一个动态核，可以提升模型表达能力而无需提升网络深度与宽度。通过简单替换成动态卷积。

动态卷积有K个kernel，共享相同的kernel size和输入输出维度，通过attention weight结合起来，与SENet对卷积的通道加权不同，动态卷积对卷积核加权。

时域注意力机制

时域注意力机制在cv领域主要考虑有时序信息的领域，如视频领域中的动作识别方向，其注意力机制主要是在时序列中，关注某一时序即某一帧的信息。

在这里插入图片描述

TAM

paper: https://arxiv.org/abs/2005.06803v1

github: https://github.com/liu-zhy/temporal-adaptive-module

由于存在拍摄视角变化和摄像机运动等多个因素，视频数据通常表现出较为复杂的时序动态特性，不同视频在时序维度上呈出不同的运动模式。为了解决这个问题，时序自适应模块（TAM）为每个视频生成特定的时序建模核。该算法针对不同视频片段，灵活高效地生成动态时序核，自适应地进行时序信息聚合。整体结构入下图所示：

TAM将时序自适应核的学习过程分解为局部分支和全局分支。全局分支（ G ）基于全局时序信息生成视频自适应的动态卷积核以聚合时序信息，这种方式的特点是对时序位置不敏感，忽略了局部间的差异性。而局部分支（L ）使用带有局部时序视野的 1D 卷积学习视频的局部结构信息，生成对时序位置敏感的重要性权重，以弥补全局分支存在的不足。

GLTR

paper: https://arxiv.org/abs/1908.10049

github: https://github.com/ljn114514/GLTR

这是一篇用于行人ReID领域的一篇论文，作者提出在短期建模，基于当前帧的相邻几帧，能加强当前帧人物在该时间段的外观和运动情况，当任务发生遮挡时，则需要使用长期建模，增加时间跨度。所以论文在融合帧的特征时，短期建模和长期建模一起用上：

在短期建模时，使用了空洞卷积，增加感受野，在这里则是增加对当前帧的相邻几帧一起进行卷积处理，也就是综合相邻几帧的信息来增强当前帧的信息。在长期建模中，则使用的是transformer中的self-attention 机制。transformer的attention计算是通过所有信息与当前信息的关系计算的，也就是相当于基于当前帧与全部帧的关系，将全部帧的信息选择性的给予到当前帧，是一个长期建模的过程。也是变相的将注意力机制用在建模中。

分支注意力机制论文总结

Training very deep networks (NeurIPS 2015) pdf 🔥
Selective kernel networks (CVPR 2019) pdf 🔥
CondConv: Conditionally Parameterized Convolutions for Efficient Inference (NeurIPS 2019) pdf
Dynamic convolution: Attention over convolution kernels (CVPR 2020) pdf
ResNest: Split-attention networks (arXiv 2020) pdf 🔥

时间注意力机制论文总结

Jointly attentive spatial-temporal pooling networks for video-based person re-identification (ICCV 2017) pdf 🔥
Video person reidentification with competitive snippet-similarity aggregation and co-attentive snippet embedding (CVPR 2018) pdf
Scan: Self-and-collaborative attention network for video person re-identification (TIP 2019) [pdf](

Branch注意力机制

Highway Network

SKNet

ResNeSt

CondConv

Dynamic Conv

时域注意力机制

TAM

GLTR

分支注意力机制论文总结

时间注意力机制论文总结

相关文章：