当前位置：首页 > news >正文

Yolo-Z：改进的YOLOv5用于小目标检测

news 2026/2/10 21:06:19

一、前言

二、背景

三、新思路

四、实验分析

论文地址：2112.11798.pdf (arxiv.org)

一、前言

随着自动驾驶汽车和自动驾驶赛车越来越受欢迎，对更快、更准确的检测器的需求也在增加。

虽然我们的肉眼几乎可以立即提取上下文信息，即使是在很远的地方，但图像分辨率和计算资源的限制使得检测较小的对象（即在输入图像中占据小像素区域的对象）对机器来说是一项真正具有挑战性的任务和广阔的研究领域。

本研究探讨了如何修改流行的YOLOv5目标检测器以提高其在检测较小对象方面的性能，特别是在自主赛车中的应用。为了实现这一点，研究者研究了替换模型的某些结构元素（以及它们的连接和其他参数）如何影响性能和推理时间。为此，研究者提出了一系列不同尺度的模型，将其命名为“YOLO-Z”，当以50%的IoU检测较小的物体时，这些模型的mAP提升高达6.9%，而代价与原始YOLOv5相比，推理时间增加了 3ms。

研究者们的目标是为未来的研究提供有关调整流行检测器（例如YOLOv5）以解决特定任务的潜力的信息，并提供有关特定更改如何影响小物体检测的见解。这些发现应用于更广泛的自动驾驶汽车环境，可以增加此类系统可用的环境信息量。

二、背景

检测图像中的小物体具有挑战性，主要是由于模型可用的分辨率和上下文信息有限。许多实现目标检测的系统都以实时速度执行此操作，从而对计算资源提出了特定要求，尤其是在处理要在捕获图像的同一设备上进行时。许多自动驾驶车辆系统就是这种情况，其中车辆本身实时捕获和处理图像，通常是为了通知其下一步行动。在这种情况下，检测较小的物体意味着检测距离汽车较远的物体，从而可以更早地检测到这些物体，有效地扩大了车辆的检测范围。这一特定领域的改进将更好地为系统提供信息，使其能够做出更稳健和可行的决策。由于目标检测器的性质，较小对象的细节在其卷积主干的每一层处理时失去了意义。在本研究中，“小物体”是指在输入图像中占据小像素区域的物体。

目前，已经有很多研究者努力改进对较小物体的检测[如An Evaluation of Deep Learning Methods for Small Object Detection]，但许多都围绕着图像的特定区域进行处理或集中在two-stages检测器周围，这些检测器以实现以推理时间为代价获得更好的性能，使其不太适合实时应用程序。这也是为此类应用开发了如此多的单级检测器的原因。增加输入图像分辨率是绕过此问题的另一种明显方法，但会导致处理时间显着增加。

三、新思路

已经投入了一些努力来开发将处理导向输入图像的某些区域的系统，这使我们能够调整分辨率，从而绕过定义对象的像素较少的限制。然而，这种方法更适合对时间不敏感的系统，因为它们需要多次通过不同规模的网络。这种更加关注特定尺度的想法仍然可以激发我们处理某些特征图的方式。此外，通过查看如何处理特征图而不是仅仅修改主干可以学到很多东西。不同类型的特征金字塔网络（FPN）可以不同地聚合特征图，以不同方式增强主干。这种技术被证明是相当有效的。

YOLOv5框架

YOLOv5为其模型提供了四种不同的尺度，S、M、L和X，分别代表Small、Medium、Large和Xlarge。这些比例中的每一个都将不同的乘数应用于模型的深度和宽度，这意味着模型的整体结构保持不变，但每个模型的大小和复杂性都会按比例缩放。

在实验中，我们在所有尺度上分别对模型结构进行更改，并将每个模型视为不同的模型，以评估其效果。为了设置基线，我们训练并测试了YOLOv5四个未修改版本。然后，分别测试了对这些网络的更改，以便根据我们的基线结果分别观察它们的影响。在进入下一阶段时，那些似乎对提高准确性或推理时间没有贡献的技术和结构被过滤掉了。然后，尝试了所选技术的组合。重复这个过程，观察某些技术是相互补充还是相互削弱，并逐渐增加更复杂的组合。

Proposed architectural changes

YOLOv5使用yaml文件来指示解析器如何构建模型。我们使用此设置编写自己的高级指令，说明如何构建模型的不同构建块以及使用哪些参数，从而修改其结构。为了实现新结构，我们安排并为每个构建块或层提供参数，并在必要时指示解析器如何构建它。用我们的话来说，我们利用了YOLOv5提供的基础和实验网络块，同时在需要的地方实现了额外的块来模拟所需的结构。

其中，neck的修改：

在这项工作中，将当前的Pan-Net[Path aggregation network for instance segmentation]简化为FPN，并将其替换为biFPN[EfficientDet: Scalable and Efficient Object Detection]。在这两种情况下，neck都保留了类似的功能，但复杂性有所不同，因此实现它们所需的层数和连接数也有所不同。

其他修改可见论文。

Yolo-Z：改进的YOLOv5用于小目标检测

一、前言

二、背景

三、新思路

四、实验分析

相关文章：

Yolo-Z：改进的YOLOv5用于小目标检测

系列八、Spring IOC有哪些扩展点，在什么时候调用

《AI时代架构师修炼之道：ChatGPT让架构师插上翅膀》

git命令清单

使用Nokogiri和OpenURI库进行HTTP爬虫

arcpy.message实现探索

centos卸载自带的Python3.6.8 安装指定的版本号

《TCP/IP详解卷一：协议》第5章的IPv4数据报的IHL字段解释

想去银行的背完这些软件测试面试题，你就稳了...

目标检测(Object Detection): 你需要知道的一些概念

〔001〕虚幻 UE5 发送 get、post 请求、读取 json 文件

一条 SQL 是如何在 MyBatis 中执行的

《低代码指南》——维格云机器人常见报错怎么解决？

哈夫曼树c语言版

食堂系统登录报错

uniapp原生插件之乐橙摄像机播放插件(子账号云台对讲版)

Http代理与socks5代理有何区别？如何选择？（一）

system verilog VSCode Windows 配置简述

Linux中的Shell编程

图像特征Vol.1：计算机视觉特征度量|第二弹：【统计区域度量】

2025年能源电力系统与流体力学国际会议 (EPSFD 2025)

MongoDB学习和应用(高效的非关系型数据库)

【磁盘】每天掌握一个Linux命令 - iostat

在四层代理中还原真实客户端ngx_stream_realip_module

将对透视变换后的图像使用Otsu进行阈值化，来分离黑色和白色像素。这句话中的Otsu是什么意思？

微信小程序云开发平台MySQL的连接方式

【OSG学习笔记】Day 16: 骨骼动画与蒙皮（osgAnimation）

自然语言处理——Transformer

MySQL中【正则表达式】用法

C++八股 —— 单例模式