当前位置：首页 > news >正文

如何在在 YOLOv3模型中添加Attention机制

news 2025/7/13 8:15:09

在YOLOv3模型中添加Attention机制需要以下几个步骤：

1. 规定格式

当添加新的模块（如Attention机制模块）时，需要像定义[convolutional]、[maxpool]等层在cfg文件中的格式一样，对新模块进行格式规定。
例如对于SE模块，它有一个参数为reduction（默认是16），则在cfg文件中添加SE模块的格式为[se] reduction=16。对于CBAM模块，空间注意力机制和通道注意力机制中存在ratio和kernelsize两个参数，在cfg文件中的格式规定为[cbam] ratio=16 kernelsize=7。

2. 修改解析部分

由于添加了自定义的参数，需要修改解析cfg文件的函数。
在parse_model_cfg函数中，需要对supported字段进行修改，将新模块的参数添加进去。例如，原来的supported字段包含常见的参数类型，添加SE和CBAM模块后，supported字段应变为['type', 'batch_normalize', 'filters', 'size', 'stride', 'pad', 'activation', 'layers', 'groups','from', 'mask', 'anchors', 'classes', 'num', 'jitter', 'ignore_thresh', 'truth_thresh', 'random','stride_x', 'stride_y', 'ratio', 'reduction', 'kernelsize']，以确保解析函数能够正确识别新模块的参数。

3. 实现SE和CBAM

SE模块实现
- SE模块通过SELayer类实现。在__init__函数中，定义了avg_pool（自适应平均池化层）和fc（全连接层序列）。avg_pool将输入特征图进行平均池化得到1x1的特征图，fc则由两个线性层和中间的ReLU激活函数以及最后的Sigmoid激活函数组成，用于对通道进行重新加权。
- 在forward函数中，首先对输入x进行平均池化得到y，然后通过fc对y进行处理，最后将处理后的结果与原始输入x相乘并扩展到与x相同的形状，即return x * y.expand_as(x)。
CBAM模块实现
- CBAM模块由SpatialAttention类和ChannelAttention类组成。
- SpatialAttention类用于空间注意力机制。在__init__函数中，根据kernel_size（只能是3或7）定义卷积层conv和sigmoid激活函数。在forward函数中，首先计算输入特征图在通道维度上的平均和最大值，然后将它们拼接起来，通过卷积层和sigmoid激活函数得到空间注意力权重，最后将输入特征图与空间注意力权重相乘。
- ChannelAttention类用于通道注意力机制。在__init__函数中，定义了avg_pool和max_pool（自适应平均池化层和自适应最大池化层）以及sharedMLP（由两个卷积层和中间的ReLU激活函数组成的共享多层感知机）和sigmoid激活函数。在forward函数中，分别对输入特征图进行平均池化和最大池化，然后通过sharedMLP进行处理，最后将处理后的结果相加并通过sigmoid激活函数得到通道注意力权重，将输入特征图与通道注意力权重相乘。

4. 设计cfg文件

以yolov3 - tiny.cfg为基础进行修改。以添加SE模块为例，通常在backbone之后的部分添加注意力机制模块进行信息重构。
在cfg文件中，按照规定的格式添加SE模块相关的配置信息，如[se] reduction=16。同时，在合适的位置调整网络结构，例如在一些卷积层和池化层之后添加注意力机制模块，以使其能够对特征图进行有效的处理。

5. 模型构建

在model.py文件中的create_modules函数中进行添加。当解析到se类型的模块时，创建SELayer并添加到模块列表中。例如：

elif mdef['type'] == 'se':modules.add_module('se_module',SELayer(output_filters[-1], reduction=int(mdef['reduction'])))

修改Darknet中的forward部分的函数。在forward函数中，对不同类型的层进行处理时，将se类型的层与卷积层、上采样层、最大池化层等同等对待。例如：

for i, (mdef, module) in enumerate(zip(self.module_defs, self.module_list)):mtype = mdef['type']if mtype in ['convolutional', 'upsample', 'maxpool', 'se']:x = module(x)

通过以上步骤，即可在YOLOv3模型中添加Attention机制。需要注意的是，添加Attention机制后，可能需要进行一些实验和调参，以确定其最佳位置和参数设置，从而提高模型的性能。

6. 除了添加Attention机制，YOLOv3模型还可以添加以下一些机制：

1）空洞卷积（Dilated Convolution）

原理
- 空洞卷积在不增加参数量的情况下增大了感受野。它通过在卷积核元素之间插入空洞来实现，例如一个3x3的卷积核，设置空洞率为2时，实际感受野相当于5x5的卷积核，但参数量仍然是3x3卷积核的参数量。
作用
- 有助于更好地捕捉目标的上下文信息，对于检测不同尺度的目标尤其是小目标可能有帮助。它可以在不损失太多分辨率的情况下，让网络能够“看到”更广泛的区域，提高对目标的检测能力。

2）多尺度训练（Multi - Scale Training）

原理
- 在训练过程中，输入图片的尺寸不是固定的，而是在一定范围内随机选择。例如，YOLOv3的下采样一般是32倍，那么可以选择多尺度训练的图片尺寸为32的倍数，最小320x320，最大608x608等。
作用
- 使模型能够学习到不同尺度下目标的特征，提高模型对不同大小目标的检测性能和泛化能力。因为在实际应用中，目标的大小是多样的，多尺度训练可以让模型更好地适应这种情况。

3）特征金字塔网络（Feature Pyramid Network，FPN）

原理
- FPN通过构建特征金字塔来融合不同层次的特征。它将低层次的具有高分辨率的特征图和高层次的具有强语义信息的特征图进行融合，使得最终用于检测的特征图既包含了丰富的细节信息又有足够的语义信息。
作用
- 可以有效提高对不同尺度目标的检测性能。对于小目标检测，低层次的特征图可以提供更准确的位置信息；对于大目标检测，高层次的特征图可以提供更准确的类别信息，通过融合这些特征，模型能够更好地检测不同尺度的目标。

4）加权损失函数（Weighted Loss Function）

原理
- 根据不同的情况对损失函数的各个部分进行加权。例如，在处理类别不平衡问题时，可以对不同类别的损失进行加权，使得模型更加关注少数类别的学习；或者根据目标的难易程度（如根据预测框与真实框的IoU值）对边界框回归损失和置信度损失进行加权。
作用
- 可以提高模型在面对一些特殊情况（如类别不平衡、目标难易程度差异大等）时的训练效果和性能，使得模型能够更加合理地分配学习资源，提高对不同情况的适应能力。

5）模型融合（Model Fusion）

原理
- 将多个不同结构或训练得到的模型进行融合。例如，可以将多个不同初始化或在不同数据集上训练的YOLOv3模型进行融合，或者将YOLOv3模型与其他目标检测模型进行融合。融合的方式可以是简单的平均融合、加权融合等。
作用
- 综合多个模型的优点，提高模型的性能和稳定性。不同的模型可能在不同方面具有优势，通过融合可以使最终的模型在检测准确性、鲁棒性等方面得到提升。

如何在在 YOLOv3模型中添加Attention机制

在YOLOv3模型中添加Attention机制需要以下几个步骤： 1. 规定格式当添加新的模块（如Attention机制模块）时，需要像定义[convolutional]、[maxpool]等层在cfg文件中的格式一样，对新模块进行格式规定。例如对于SE模块&a…...

编程日记 2024/10/10 5:56:02

单点登录Apereo CAS 7.1安装配置教程

笔者目前正在做一个单点登录的课题，历时较长总算摸到一些门路，其中的辛酸不易按下不表。截至本文发布，CAS的最新版本为7.1。由于涉及到课题内容，而且内容比较新，整理试验不容易，暂时只对VIP开放，后续课题完成后会完全开放，敬请谅解。 CAS项目区别在CAS的项目选择上，…...

编程日记 2024/10/10 5:54:00

windows C++-移除界面工作线程(一)

本文档演示了如何使用并发运行时将 Microsoft 基础类 (MFC) 应用程序中由用户界面 (UI) 线程执行的工作移动到工作线程。本文档还演示了如何提高冗长绘制操作的性能。通过将阻塞性操作（例如，绘制）卸载到工作线程来从 UI 线程中移除工作&am…...

编程日记 2024/10/10 5:51:57

Qt小bug — LINK : fatal error LNK1158: 无法运行“rc.exe“

Qt小bug —— LINK ：fatal error LNK1158：无法运行"rc.exe" 环境 Qt 5.14.2 MSVC 2015 x64 现象解决在电脑上找到rc.exe 和rcdll.dll （一般在C:\Program Files(x86)\Windows Kits*\bin\x64下面）拷贝到 C:\Qt\Qt5…...

编程日记 2024/10/10 5:50:57

c++小游戏

目录狼人杀走迷宫炸弹人贪吃蛇飞翔的小鸟跑酷吃豆人飞机大战人生模拟器坦克大战修仙模拟器搜集了一些小游戏，名字下是个人是个人喜欢度，可供参考~ 狼人杀 ❤❤❤❤ #include<bits/stdc.h> #include<cstdio> #incl…...

编程日记 2024/10/10 5:49:55

k8s为什么用Calico

‌Calico是一种开源的网络和安全解决方案，主要用于容器、虚拟机、宿主机之间的网络连接。‌ 它支持Kubernetes、OpenShift、Docker EE、OpenStack等PaaS或IaaS平台，提供高效的网络通信和安全控制功能‌12。 Calico的核心组件包括Felix、etcd、BIRD等。F…...

编程日记 2024/10/10 5:48:51

HashMap 和 Hashtable 有什么区别？

HashMap和Hashtable都是Java中常用的存储键值对的集合类，它们都实现了Map接口，但二者之间存在一些显著的区别。以下是对HashMap和Hashtable区别的详细归纳： 一、线程安全性 HashMap：是非线程安全的，即多个线程可以同…...

编程日记 2024/10/10 5:47:50

【机器学习】深度学习、强化学习和深度强化学习？

深度学习、强化学习和深度强化学习是机器学习的三个重要子领域。它们有着各自独特的应用场景和研究目标，虽然都属于机器学习的范畴，但各自的实现方式和侧重点有所不同。 1. 深度学习（Deep Learning） 深度学习是一种基于神经网络的…...

编程日记 2024/10/10 5:45:48

fastadmin 多商户模式下侧边栏跳转路径BUG

记录：仅作自己项目记录，在一个域名下部署多套项目时，若不是多商户模式项目会出现跳转路径问题。修改 \manystore\library\Auth.php 文件的 getSidebar 方法 // 1 改为： $v[url] isset($v[url]) && $v[url] ? $v[url]…...

编程日记 2024/10/10 5:44:47

java内置的四种函数式接口

供给型：Supplier 无入参，有返回值。 FunctionalInterface public interface Supplier<T> {T get();}消费型：Consumer 有入参，无返回值。 FunctionalInterface public interface Consumer<T> {void accept(T t);de…...

编程日记 2024/10/10 5:43:45

如何获取 uni-app 应用发布所需的证书、私钥与配置文件

引言在开发和发布iOS应用时，开发者常常会面临一系列复杂的证书、私钥密码以及配置文件的管理问题。这些配置不仅影响到应用的开发调试，还决定了应用是否能够顺利通过审核并发布到App Store。对于使用uni-app进行开发的开发者来说，自动生成的…...

编程日记 2024/10/10 5:42:43

TCP网络通信——多线程

前面分别用多进程和多路复用完成了TCP网络通信，本文就来讲讲多线程的TCP通信。首先来了解一下线程的概念： 1、线程是进程的执行路线，它是进程内部的控制序列，或者说线程是进程的一部分(进程是一个资源单位，线程是执行单…...

编程日记 2024/10/10 5:41:41

【exp报错注入】

整数范围最大整数 exp 函数介绍报错盲注注入 payload分析 709C-ASCII 值就等于我们下面的 7091-1 ，C就是我们要猜的值，当我们猜测的值和ASCII码相等时，那么exp就不会出现报错，因为1-1还是等于709： 练习 id1 an…...

编程日记 2024/10/10 5:40:39

基于SpringBoot问卷调查系统小程序【附源码】

基于SpringBoot问卷调查系统小程序效果如下： 管理员登录界面管理员功能界面调查人管理界面问卷调查管理界面问卷题目管理界面用户登录界面 APP首页界面公告信息界面研究背景随着科学技术的飞速发展，各行各业都在努力与现代先进技术接轨&…...

编程日记 2024/10/10 5:38:37

LLM - 配置 GraphRAG + Ollama 服务构建中文知识图谱

欢迎关注我的CSDN：https://spike.blog.csdn.net/ 本文地址：https://spike.blog.csdn.net/article/details/142795151 免责声明：本文来源于个人知识与公开资料，仅用于学术交流，欢迎讨论，不支持转载。 GraphR…...

编程日记 2024/10/10 5:34:33

简单认识redis - 6 redis 存储速度快的原因

1基于内存存储缓存（内存）读写速度很快，相比于磁盘存储的Mysql 省去了磁盘I/O的次数。 2.高效的数据结构 SDS动态字符串： 1.字符串长度处理：Redis获取字符串长度，时间复杂度为O(1)，而C语言中&am…...

编程日记 2024/10/10 5:33:30

【Qt Quick】状态：State 使用

State 是 Qt Quick 中管理界面组件状态的关键工具。它允许我们定义组件的不同状态，并且在用户交互或事件发生时进行状态切换，从而实现属性、外观和行为的动态变化。通过使用 State，可以避免复杂的条件逻辑，使代码更加简洁和可维护…...

编程日记 2024/10/10 5:32:29

ICE/TURN/STUN/Coturn服务器搭建

ICE 当我们想要实现在公网环境下的语音/视频通话功能时，就需要用到ICE交互式连接建立。ICE不是一种协议，整合了 STUN 和 TURN 两种协议（用于 NAT 穿透）的框架。 ICE的主要目标是解决NAT（网络地址转换）穿越…...

编程日记 2024/10/10 5:31:28

ctf.bugku-eval

题目来源：eval - Bugku CTF 访问页面， 代码解释 <?phpinclude "flag.php"; //包含"flag.php"文件$a $_REQUEST[hello]; //从请求参数hello中获取值并赋给变量$a。 eval( "var_dump($a);"); //…...

编程日记 2024/10/10 5:30:27

Extreme Compression of Large Language Models via Additive Quantization阅读

文章目录 Abstract1. Introduction2. Background & Related Work2.1. LLM量化2.2. 最近邻搜索的量化 3.AQLM:Additive Quantization for LLMs3.1. 概述3.1.0 补充**步骤说明****举例说明** 3.2. 阶段1：代码的波束搜索3.3. 阶段2：码本更新3.4. 阶段3&…...

编程日记 2024/10/10 5:29:25

华为云AI开发平台ModelArts

华为云ModelArts：重塑AI开发流程的“智能引擎”与“创新加速器”！ 在人工智能浪潮席卷全球的2025年，企业拥抱AI的意愿空前高涨，但技术门槛高、流程复杂、资源投入巨大的现实，却让许多创新构想止步于实验室。数据科学家…...

编程新知 2025/7/11 3:22:21

【Linux】C语言执行shell指令

在C语言中执行Shell指令在C语言中，有几种方法可以执行Shell指令： 1. 使用system()函数这是最简单的方法，包含在stdlib.h头文件中： #include <stdlib.h>int main() {system("ls -l"); // 执行ls -l命令retu…...

编程新知 2025/6/21 17:11:09

Python实现prophet 理论及参数优化

文章目录 Prophet理论及模型参数介绍Python代码完整实现prophet 添加外部数据进行模型优化之前初步学习prophet的时候，写过一篇简单实现，后期随着对该模型的深入研究，本次记录涉及到prophet 的公式以及参数调优，从公式可以更直观…...

编程新知 2025/7/10 9:35:38

屋顶变身“发电站” ，中天合创屋面分布式光伏发电项目顺利并网！

5月28日，中天合创屋面分布式光伏发电项目顺利并网发电，该项目位于内蒙古自治区鄂尔多斯市乌审旗，项目利用中天合创聚乙烯、聚丙烯仓库屋面作为场地建设光伏电站，总装机容量为9.96MWp。项目投运后，每年可节约标煤3670…...

编程新知 2025/7/12 10:13:03

unix/linux，sudo，其发展历程详细时间线、由来、历史背景

sudo 的诞生和演化，本身就是一部 Unix/Linux 系统管理哲学变迁的微缩史。来，让我们拨开时间的迷雾，一同探寻 sudo 那波澜壮阔（也颇为实用主义）的发展历程。历史背景：su的时代与困境 ( 20 世纪 70 年代 - 80 年代初) 在 sudo 出现之前，Unix 系统管理员和需要特权操作的…...

编程新知 2025/7/11 18:27:36