当前位置: 首页 > news >正文

YOLOv5算法改进(16)— 增加小目标检测层

前言:Hello大家好,我是小哥谈。小目标检测层是指在目标检测任务中用于检测小尺寸目标的特定网络层。由于小目标具有较小的尺寸和低分辨率,它们往往更加难以检测和定位。YOLOv5算法的检测速度与精度较为平衡,但是对于小目标的检测效果不佳,根据一些论文,我们可以通过增加检测层来提高对小目标的特征提取能力,以提高算法在密集场景下的表现。🌈 

 前期回顾:

          YOLOv5算法改进(1)— 如何去改进YOLOv5算法

          YOLOv5算法改进(2)— 添加SE注意力机制

          YOLOv5算法改进(3)— 添加CBAM注意力机制

          YOLOv5算法改进(4)— 添加CA注意力机制

          YOLOv5算法改进(5)— 添加ECA注意力机制

          YOLOv5算法改进(6)— 添加SOCA注意力机制

          YOLOv5算法改进(7)— 添加SimAM注意力机制

          YOLOv5算法改进(8)— 替换主干网络之MobileNetV3

          YOLOv5算法改进(9)— 替换主干网络之ShuffleNetV2

          YOLOv5算法改进(10)— 替换主干网络之GhostNet

          YOLOv5算法改进(11)— 替换主干网络之EfficientNetv2

          YOLOv5算法改进(12)— 替换主干网络之Swin Transformer

          YOLOv5算法改进(13)— 替换主干网络之PP-LCNet

          YOLOv5算法改进(14)— 更换Neck之BiFPN

          YOLOv5算法改进(15)— 更换Neck之AFPN

          目录

🚀1.小目标检测介绍

💥💥1.1 小目标定义

💥💥1.2 小目标检测难点

💥💥1.3 小目标检测意义

💥💥1.4 YOLOv5中的小目标检测

🚀2.增加小目标检测层的方法

💥💥2.1 网络结构

💥💥2.2 添加步骤

💥💥步骤1:创建自定义yaml文件

💥💥步骤2:验证是否添加成功

🚀1.小目标检测介绍

💥💥1.1 小目标定义

🍀(1)以目标检测领域的通用数据集COCO为例,小目标是指小于32×32个像素点(中目标是指32×32 ~ 96×96,大目标是指大于96×96);

🍀(2)在实际应用场景中,通常更倾向于使用相对于原图的比例来定义,比如物体标注框的长宽乘积,除以整个图像的长宽乘积,再开根号,如果结果小于3%,就称之为小目标。

💥💥1.2 小目标检测难点

🍀(1)包含小目标的样本数量较少,这样潜在的让目标检测模型更关注中大目标的检测;

🍀(2)由于小目标覆盖的区域更小,这样小目标的位置会缺少多样性。我们推测这使得小目标检测的在验证时的通用性变得很难。

💥💥1.3 小目标检测意义

小目标检测的意义在于它可以提高技术的应用范围,同时可以帮助大家更好地理解图像中的细节信息。此外,小目标检测其实在我们日常生活中的许多领域均有广泛的应用,例如交通监控、医学影像分析、无人机航拍等。🌴

举个例子:

交通监控领域,小目标检测可用于识别交通信号灯、车牌等;

医学影像分析领域,小目标检测可用于识别微小的肿瘤细胞等;

自动驾驶领域,小目标检测可用于识别微小的障碍物,以弥补激光雷达难以探测的窘况。

等等......🍉 🍓 🍑 🍈 🍌 🍐 

💥💥1.4 YOLOv5中的小目标检测

针小目标检测,YOLOv5的效果可能不好的原因是由于小目标样本的尺寸较小,而YOLOv5模型的下采样倍数较大,导致较深的特征图难以学习到小目标的特征信息。为了改善这个问题,可以考虑在YOLOv5模型中增加小目标检测层,将较浅的特征图与深特征图拼接后进行检测。🍄

这种方式实现简单有效,只需要修改YOLOv5模型文件的yaml即可增加小目标检测层。然而,增加检测层后会带来计算量的增加,从而导致推理检测的速度降低。但是对于小目标的检测,这种改进确实能够取得良好的效果。


🚀2.增加小目标检测层的方法

💥💥2.1 网络结构

YOLOv5 - 5.0网络结构图:

YOLOv5 - 6.0网络结构图:

YOLOv5 - 5.0YOLOv5 - 6.0网络结构图可知,都是由输入端+主干网络Backbone+Neck网络+输出端四部分组成的。

关于YOLOv5的相关知识,请参考文章:👇

YOLOv5基础知识入门(2)— YOLOv5核心基础知识讲解

由网络结构图可知,YOLOv5原始只有3个检测头,分别是20×20(大目标)40×40(中目标)80×80(小目标),我们要增加小目标检测层,可以在80×80(小目标)的上面增加,也就是增加160×160检测层🌱

YOLOv5s模型只有3个预测层,当将尺寸为640×640的图像输入网络时,Neck 网络分别进行8倍16倍32倍下采样,对应的预测层特征图尺寸为80×8040×4020×20,用来检测小目标、中目标和大目标。在YOLOv5s原始网络上增加一个预测层,在Neck网络中增加1次上采样,第3次上采样后,与主干网络第2层融合,得到新增加的160×160的预测层,用以检测小目标。整个模型改进后采用4个预测尺度的预测层,将底层特征高分辨率和深层特征高语义信息充分利用,并且未显著增加网络复杂度。🌄

当增加了一层之后,网络结构就变成下面这样子了。👇

YOLOv5 - 5.0版本:

YOLOv5 - 6.0版本:

说明:♨️♨️♨️

上图中,红框部分为新增的检测层,随着箭头往上走,将Neck网络中80×80的特征图经过上采样变成160×160。

💥💥2.2 添加步骤

💥💥步骤1:创建自定义yaml文件

models文件夹中复制yolov5s.yaml,粘贴并重命名为yolov5s_SmallTarget.yaml

针对增加小目标检测层,我们需要做两处修改。

修改1:

🍀(1)修改Anchor:增加一组较小的anchor

#---原始的anchors--#
anchors:- [10,13, 16,30, 33,23]  # P3/8- [30,61, 62,45, 59,119]  # P4/16- [116,90, 156,198, 373,326]  # P5/32

若输入图像的尺寸是640×640

# P3/8     对应的检测特征图大小为 80×80,用于检测大小在 8×8 以上的目标。

# P4/16   对应的检测特征图大小为 40×40,用于检测大小在 16×16 以上的目标。

# P5/32   对应的检测特征图大小为 20×20,用于检测大小在 32×32 以上的目标。

#---修改后的anchors---#
anchors:- [4,5, 8,10, 22,18]   #  P2/4- [10,13, 16,30, 33,23]  # P3/8- [30,61, 62,45, 59,119]  # P4/16- [116,90, 156,198, 373,326]  # P5/32

 # P2/4     新增加的anchors,对应的检测特征图大小为 160×160,用于检测大小在 4×4 以上的目标。

修改2:

YOLOv5中的head包括 Neck Detect(输出端) 两部分。修改head部分,增加一层网络结构。

#---原始的head部分---#
head:[[-1, 1, Conv, [512, 1, 1]],[-1, 1, nn.Upsample, [None, 2, 'nearest']],[[-1, 6], 1, Concat, [1]],  # cat backbone P4[-1, 3, C3, [512, False]],  # 13[-1, 1, Conv, [256, 1, 1]],[-1, 1, nn.Upsample, [None, 2, 'nearest']],[[-1, 4], 1, Concat, [1]],  # cat backbone P3[-1, 3, C3, [256, False]],  # 17 (P3/8-small)[-1, 1, Conv, [256, 3, 2]],[[-1, 14], 1, Concat, [1]],  # cat head P4[-1, 3, C3, [512, False]],  # 20 (P4/16-medium)[-1, 1, Conv, [512, 3, 2]],[[-1, 10], 1, Concat, [1]],  # cat head P5[-1, 3, C3, [1024, False]],  # 23 (P5/32-large)[[17, 20, 23], 1, Detect, [nc, anchors]],  # Detect(P3, P4, P5)]

修改后的head部分如下所示:

#---修改后的head部分---#
head:
#neck#[512,20,20][[-1, 1, Conv, [512, 1, 1]],  #10  卷积层  [512,20,20][-1, 1, nn.Upsample, [None, 2, 'nearest']], #11  上采样 [512,40,40][[-1, 6], 1, Concat, [1]],      #12 Concat [1024,40,40][-1, 3, C3, [512, False]],      #13 C3  [512,40,40][-1, 1, Conv, [256, 1, 1]],     #14  卷积层  [256,40,40][-1, 1, nn.Upsample, [None, 2, 'nearest']], #15  上采样 [256,80,80][[-1, 4], 1, Concat, [1]], #16 Concat  [512,80,80]#[-1, 3, C3, [256, False]],  # 被删了#下面是我们自己加的[-1, 3, C3, [256, False]], #17  C3 [256,80,80][-1, 1, Conv, [128, 1, 1]], #18  卷积层  [128,80,80][-1, 1, nn.Upsample, [None, 2, 'nearest']],   #19 上采样 [256,160,160][[-1, 2], 1, Concat, [1]],  #20 Concat [512,160,160]#head[-1, 3, C3, [128, False]],  #21  C3 [128,160,160][-1, 1, Conv, [128, 3, 2]], #22  卷积层  [128,80,80][[-1, 18], 1, Concat, [1]], #23  Concat [512,160,160][-1, 3, C3, [256, False]],  #24   C3  [256,160,160][-1, 1, Conv, [256, 3, 2]],  #25  卷积层 [256,40,40][[-1, 14], 1, Concat, [1]],  #26 Concat [512,160,160][-1, 3, C3, [512, False]],  #27 C3  [512,40,40][-1, 1, Conv, [512, 3, 2]], #28  卷积层 [512,20,20][[-1, 10], 1, Concat, [1]],  #29  特征融合 [1024,20,20][-1, 3, C3, [1024, False]],  #30 C3  [1027,20,20][[21, 24, 27, 30], 1, Detect, [nc, anchors]],  # 将21, 24, 27, 30传入检测头]

yaml文件修改后的完整代码如下:

# YOLOv5 🚀 by Ultralytics, GPL-3.0 license# Parameters
nc: 80
depth_multiple: 0.67
width_multiple: 0.75anchors:- [4,5, 8,10, 22,18]   #  P2/4- [10,13, 16,30, 33,23]  # P3/8- [30,61, 62,45, 59,119]  # P4/16- [116,90, 156,198, 373,326]  # P5/32# YOLOv5 v6.0 backbone
backbone:[[-1, 1, Conv, [64, 6, 2, 2]],  #0 卷积层 [64,320,320 ][-1, 1, Conv, [128, 3, 2]], #1   卷积层 [128,160,160][-1, 3, C3, [128]],         #2   C3 [128,160,160][-1, 1, Conv, [256, 3, 2]], #3   卷积层 [256,80,80][-1, 6, C3, [256]],         #4   C3 [256,80,80][-1, 1, Conv, [512, 3, 2]],  #5  卷积层 [512,40,40][-1, 9, C3, [512]],          #6 C3 [512,40,40][-1, 1, Conv, [1024, 3, 2]], #7  卷积层 [1024,20,20][-1, 3, C3, [1024]],         #8  C3 [1024,20,20][-1, 1, SPPF, [1024, 5]],    #9 SPPF  [1024,20,20]]head:
#neck#[512,20,20][[-1, 1, Conv, [512, 1, 1]],  #10  卷积层  [512,20,20][-1, 1, nn.Upsample, [None, 2, 'nearest']], #11  上采样 [512,40,40][[-1, 6], 1, Concat, [1]],      #12 Concat [1024,40,40][-1, 3, C3, [512, False]],      #13 C3  [512,40,40][-1, 1, Conv, [256, 1, 1]],     #14  卷积层  [256,40,40][-1, 1, nn.Upsample, [None, 2, 'nearest']], #15  上采样 [256,80,80][[-1, 4], 1, Concat, [1]], #16 Concat  [512,80,80]#[-1, 3, C3, [256, False]],  # 被删了#下面是添加的[-1, 3, C3, [256, False]], #17  C3 [256,80,80][-1, 1, Conv, [128, 1, 1]], #18  卷积层  [128,80,80][-1, 1, nn.Upsample, [None, 2, 'nearest']],   #19 上采样 [128,160,160][[-1, 2], 1, Concat, [1]],  #20 Concat [512,160,160]#head[-1, 3, C3, [128, False]],  #21  C3 [128,160,160][-1, 1, Conv, [128, 3, 2]], #22  卷积层  [128,80,80][[-1, 18], 1, Concat, [1]], #23  Concat [512,160,160][-1, 3, C3, [256, False]],  #24   C3  [256,160,160][-1, 1, Conv, [256, 3, 2]],  #25  卷积层 [256,40,40][[-1, 14], 1, Concat, [1]],  #26 Concat [512,160,160][-1, 3, C3, [512, False]],  #27 C3  [512,40,40][-1, 1, Conv, [512, 3, 2]], #28  卷积层 [512,20,20][[-1, 10], 1, Concat, [1]],  #29  特征融合 [1024,20,20][-1, 3, C3, [1024, False]],  #30 C3  [1027,20,20][[21, 24, 27, 30], 1, Detect, [nc, anchors]],  # 将21, 24, 27, 30传入检测头]

💥💥步骤2:验证是否添加成功

yolo.py文件里,配置我们刚才自定义的yolov5s_SmallTarget.yaml

然后运行yolo.py,得到结果。👇

这样就算添加成功了。🎉🎉🎉  


相关文章:

YOLOv5算法改进(16)— 增加小目标检测层

前言:Hello大家好,我是小哥谈。小目标检测层是指在目标检测任务中用于检测小尺寸目标的特定网络层。由于小目标具有较小的尺寸和低分辨率,它们往往更加难以检测和定位。YOLOv5算法的检测速度与精度较为平衡,但是对于小目标的检测效…...

蓝桥杯官网练习题(图像模糊)

题目描述 小蓝有一张黑白图像,由 nm 个像素组成,其中从上到下共 n 行,每行从左到右 �m 列。每个像素由一个 0 到 255 之间的灰度值表示。 现在,小蓝准备对图像进行模糊操作,操作的方法为: 对…...

使用鳄鱼指标和ADX开立空头的条件,3秒讲清楚

使用鳄鱼指标和ADX开立空头的条件其实很简单,anzo capital昂首资本3秒钟讲清楚。 首先,市场行情需呈水平状态。再者,均线体系开始向上发散,给出明确的信号。最后,ADX确认该信号,要求指数上涨20%以上&#…...

RabbitMQ死信队列与延迟队列

目录 死信队列 死信队列的定义 死信队列的应用场景 死信队列的作用 死信队列架构图 死信队列代码实现 延迟队列 延迟队列的定义 延迟队列的应用场景 延迟队列的作用 延迟队列架构图 延迟队列的代码实现 死信队列 死信队列的定义 死信队列(Dead Letter …...

存储管理呀

世界太吵,别听,别看,别管,别怕,向前走 一. 存储管理 初识硬盘 机械 HDD 固态 SSDSSD的优势 SSD采用电子存储介质进行数据存储和读取的一种技术,拥有极高的存储性能,被认为是存储技术发展的未来…...

学习 BeautifulSoup 库从入门到精通

可以按照以下步骤进行: 1. 安装 BeautifulSoup: 首先,确保你已经安装了 Python。然后可以使用 pip 命令来安装 BeautifulSoup 库。在命令行中输入以下命令: pip install beautifulsoup42. 导入 BeautifulSoup: 在 …...

JavaScript基础知识总结

目录 一、js代码位置 二、变量与数据类型 1、声明变量 2、基本类型(7种基本类型) 1、undefined和null 2、String ⭐ 模板字符串(Template strings) 3、number和bigint ⭐ 4、boolean ⭐ 5、symbol 3、对象类型 1、Fun…...

技术面试与HR面:两者之间的关联与区别

🌷🍁 博主猫头虎(🐅🐾)带您 Go to New World✨🍁 🦄 博客首页——🐅🐾猫头虎的博客🎐 🐳 《面试题大全专栏》 🦕 文章图文…...

【Redis】为什么要学 Redis

文章目录 前言一、Redis 为什么快二、Redis 的特性2.1 将数据储存到内存中2.2 可编程性2.3 可扩展性2.4 持久性2.5 支持集群2.6 高可用性 三、Redis 的应用场景四、不能使用 Redis 的场景 前言 关于为什么要学 Redis 这个问题,一个字就可以回答,那就是&…...

动静态库生成使用

🔥🔥 欢迎来到小林的博客!!       🛰️博客主页:✈️林 子       🛰️博客专栏:✈️ Linux       🛰️社区 :✈️ 进步学堂       &#x1f6f0…...

LLVM编译安装

LLVM编译安装 #全量下载 git clone https://github.com/llvm/llvm-project.git #只下载最新commit版本 git clone --depth 1 https://github.com/llvm/llvm-project.git#配置 #!/bin/bash set -ex cmake -S llvm -B build -DCMAKE_INSTALL_PREFIX/data0/huozai/software/insta…...

表的内连接和外连接

表的连接是SQL中的一种操作,用于将两个或多个表中的数据按照某个条件进行关联。 内连接 使用内连接将两个表(Table1 和 Table2)进行连接: select * from Table1 inner join Table2 on Table1.id Table2.id;举例: -- 用普通的写法 select…...

三、C#—变量,表达式,运算符(3)

🌻🌻 目录 一、变量1.1 变量1.2 使用变量的步骤1.3 变量的声明1.4 变量的命名规则1.5 变量的初始化1.6 变量初始化的三种方法1.7 变量的作用域1.8 变量使用实例1.9 变量常见错误 二、C#数据类型2.1 数据类型2.2 值类型2.2.1 值类型直接存储值2.2.2 简单类…...

纷享销客受邀出席CDIE2023数字化创新博览会 助力大中型企业增长

2023年,穿越周期,用数字化的力量重塑企业经营与增长的逻辑,再次成为企业数字化技术应用思考的主旋律,以数字经济为主线,数字技术融入产业发展与企业增长为依据,推动中国企业数字化升级。 9月5日&#xff0c…...

linux下qt交叉编译 tslib 库

在 Linux 下进行 Qt 的交叉编译,并包含 tslib 库,可以按照以下步骤进行操作:1. 准备交叉编译工具链:首先,你需要准备适用于目标平台的交叉编译工具链。这个工具链包括交叉编译器、 2. 链接器和其他相关的工具&#xff…...

2.13 PE结构:实现PE代码段加密

代码加密功能的实现原理,首先通过创建一个新的.hack区段,并对该区段进行初始化,接着我们向此区段内写入一段具有动态解密功能的ShellCode汇编指令集,并将程序入口地址修正为ShellCode地址位置处,当解密功能被运行后则可…...

Rust更换Cargo国内源,镜像了寂寞

换皮不换身 换了国内源,构建时该卡还会卡。因为它所谓的换源,只是更换crates.io“索引”的源,而不是package“内容”的源。换了国内源后,在国内编译时访问 crates.io-index 自然会快很多,可是crates.io-index里面的信…...

【网络安全带你练爬虫-100练】第23练:文件内容的删除+写入

目录 0x00 前言: 0x02 解决: 0x00 前言: 本篇博文可能会有一点点的超级呆 0x02 解决: 你是不是也会想: 使用pyrhon将指定文件夹位置里面的1.txt中数据全部删除以后---->然后再将参数req_text的值写入到1.txt …...

ESP32蓝牙实例-BLE服务器与客户端通信

BLE服务器与客户端通信 文章目录 BLE服务器与客户端通信1、软件准备2、硬件准备3、代码实现3.1 BLE服务器实现3.2 Android手机测试BLE服务器3.3 ESP32 BLE客户端在本文中,我们将介绍如何使用低功耗蓝牙在两个 ESP32 开发板之间执行 BLE 服务器客户端通信。 换句话说,将介绍如…...

第11章_瑞萨MCU零基础入门系列教程之SysTick

本教程基于韦东山百问网出的 DShanMCU-RA6M5开发板 进行编写,需要的同学可以在这里获取: https://item.taobao.com/item.htm?id728461040949 配套资料获取:https://renesas-docs.100ask.net 瑞萨MCU零基础入门系列教程汇总: ht…...

376. Wiggle Subsequence

376. Wiggle Subsequence 代码 class Solution { public:int wiggleMaxLength(vector<int>& nums) {int n nums.size();int res 1;int prediff 0;int curdiff 0;for(int i 0;i < n-1;i){curdiff nums[i1] - nums[i];if( (prediff > 0 && curdif…...

VTK如何让部分单位不可见

最近遇到一个需求&#xff0c;需要让一个vtkDataSet中的部分单元不可见&#xff0c;查阅了一些资料大概有以下几种方式 1.通过颜色映射表来进行&#xff0c;是最正规的做法 vtkNew<vtkLookupTable> lut; //值为0不显示&#xff0c;主要是最后一个参数&#xff0c;透明度…...

深入解析C++中的extern关键字:跨文件共享变量与函数的终极指南

&#x1f680; C extern 关键字深度解析&#xff1a;跨文件编程的终极指南 &#x1f4c5; 更新时间&#xff1a;2025年6月5日 &#x1f3f7;️ 标签&#xff1a;C | extern关键字 | 多文件编程 | 链接与声明 | 现代C 文章目录 前言&#x1f525;一、extern 是什么&#xff1f;&…...

【C++从零实现Json-Rpc框架】第六弹 —— 服务端模块划分

一、项目背景回顾 前五弹完成了Json-Rpc协议解析、请求处理、客户端调用等基础模块搭建。 本弹重点聚焦于服务端的模块划分与架构设计&#xff0c;提升代码结构的可维护性与扩展性。 二、服务端模块设计目标 高内聚低耦合&#xff1a;各模块职责清晰&#xff0c;便于独立开发…...

LeetCode - 199. 二叉树的右视图

题目 199. 二叉树的右视图 - 力扣&#xff08;LeetCode&#xff09; 思路 右视图是指从树的右侧看&#xff0c;对于每一层&#xff0c;只能看到该层最右边的节点。实现思路是&#xff1a; 使用深度优先搜索(DFS)按照"根-右-左"的顺序遍历树记录每个节点的深度对于…...

人机融合智能 | “人智交互”跨学科新领域

本文系统地提出基于“以人为中心AI(HCAI)”理念的人-人工智能交互(人智交互)这一跨学科新领域及框架,定义人智交互领域的理念、基本理论和关键问题、方法、开发流程和参与团队等,阐述提出人智交互新领域的意义。然后,提出人智交互研究的三种新范式取向以及它们的意义。最后,总结…...

NPOI操作EXCEL文件 ——CAD C# 二次开发

缺点:dll.版本容易加载错误。CAD加载插件时&#xff0c;没有加载所有类库。插件运行过程中用到某个类库&#xff0c;会从CAD的安装目录找&#xff0c;找不到就报错了。 【方案2】让CAD在加载过程中把类库加载到内存 【方案3】是发现缺少了哪个库&#xff0c;就用插件程序加载进…...

用神经网络读懂你的“心情”:揭秘情绪识别系统背后的AI魔法

用神经网络读懂你的“心情”:揭秘情绪识别系统背后的AI魔法 大家好,我是Echo_Wish。最近刷短视频、看直播,有没有发现,越来越多的应用都开始“懂你”了——它们能感知你的情绪,推荐更合适的内容,甚至帮客服识别用户情绪,提升服务体验。这背后,神经网络在悄悄发力,撑起…...

【笔记】AI Agent 项目 SUNA 部署 之 Docker 构建记录

#工作记录 构建过程记录 Microsoft Windows [Version 10.0.27871.1000] (c) Microsoft Corporation. All rights reserved.(suna-py3.12) F:\PythonProjects\suna>python setup.py --admin███████╗██╗ ██╗███╗ ██╗ █████╗ ██╔════╝…...

【见合八方平面波导外腔激光器专题系列】用于干涉光纤传感的低噪声平面波导外腔激光器2

----翻译自Mazin Alalus等人的文章 摘要 1550 nm DWDM 平面波导外腔激光器具有低相位/频率噪声、窄线宽和低 RIN 等特点。该腔体包括一个半导体增益芯片和一个带布拉格光栅的平面光波电路波导&#xff0c;采用 14 引脚蝶形封装。这种平面波导外腔激光器设计用于在振动和恶劣的…...