当前位置：首页 > news >正文

【YOLO学习】YOLOv3详解

news 2025/12/22 13:22:25

文章目录

1. 网络结构
- 1.1 结构介绍
- 1.2 改进
2. 训练与测试过程
3. 总结

1. 网络结构

1.1 结构介绍

1. 与 YOLOv2 不同的是，YOLOv3 在 Darknet-19 里加入了 ResNet 残差连接，改进之后的模型叫 Darknet-53。在 ImageNet上实验发现 Darknet-53 相对于 ResNet-152 和 ResNet101，不仅在分类精度上差不多，计算速度还比 ResNet-152 和 ResNet-101 快多了，网络层数也比它们少。

在这里插入图片描述

2. YOLOv3 在三个不同的尺度上对框进行预测。使用类似于特征金字塔网络的概念从这些尺度上提取特征。

（1）YOLOv3 采用了 3 个不同尺度的特征图（三个不同卷积层提取的特征）。YOLOv3 通过下采样 32 倍、16 倍和 8 倍得到 3 个不同尺度的特征图。例如输入 416×416 的图像，则会得到 13×13 (416/32)，26×26 (416/16) 以及 52×52 (416/8) 这 3 个尺度的特征图。

在这里插入图片描述

（2）YOLOv3 每个尺度的特征图上使用 3 个 anchor box。使用 dimension clusters 得到 9 个聚类中心（anchor boxes），并将这些 anchor boxes 划分到 3 个尺度特征图上，尺度更大的特征图使用更小的先验框。

在这里插入图片描述

（3）YOLOv3 对每个尺度下的特征图都进行边界框的预测。每种尺度的特征图上可以得到 N × N × [3 × (4 + 1 + 80)] 的结果（分别是 N x N 个 gird cell ，3 种尺度的 anchor boxes，4 个边界框偏移值、1 个目标预测置信度以及 80 种类别的预测概率）

1.2 改进

1. (1) 没有采用最大池化层，转而采用步长为 2 的卷积层进行下采样。 (2) 为了防止过拟合，在每个卷积层之后加入了一个 BN 层和一个 Leaky ReLU。 (3) 引入了残差网络的思想，目的是为了让网络可以提取到更深层的特征，同时避免出现梯度消失或爆炸。 (4) 将网络的中间层和后面某一层的上采样进行张量拼接，达到多尺度特征融合的目的。

2. (1) YOLOv3 使用的是 logistic 分类器，而不是之前使用的 softmax。 (2) 在 YOLOv3 的训练中，使用了 Binary Cross Entropy ( BCE, 二元交叉熵) 来进行类别预测。

3. 在 YOLOv3 中，利用逻辑回归来预测每个边界框的客观性分数( object score )，也就是 YOLOv1 论文中说的 confidence :

正样本：如果当前预测的包围框比之前其他的任何包围框更好的与 ground truth 对象重合，那它的置信度就是 1。
忽略样本：如果当前预测的包围框不是最好的，但它和 ground truth对象重合了一定的阈值（这里是0.5）以上，神经网络会忽略这个预测。
负样本: 若 bounding box 没有与任一 ground truth 对象对应，那它的置信度就是 0。

Q1：为什么 YOLOv3 要将正样本 confidence score 设置为 1?
置信度意味着该预测框是或者不是一个真实物体，是一个二分类，所以标签是 1、0 更加合理。并且在学习小物体时，有很大程度会影响 IOU。如果像 YOLOv1 使用 bounding box 与 ground truth 对象的IOU 作为 confidence，那么 confidence score 始终很小，无法有效学习，导致检测的 Recall 不高。

Q2：为什么存在忽略样本?
由于 YOLOv3 采用了多尺度的特征图进行检测，而不同尺度的特征图之间会有重合检测的部分。例如检测一个物体时，在训练时它被分配到的检测框是第一个特征图的第三个 bounding box，IOU 为 0.98，此时恰好第二个特征图的第一个 bounding box 与该 ground truth 对象的 IOU 为 0.95，也检测到了该 ground truth 对象，如果此时给其 confidence score 强行打 0，网络学习的效果会不理想。

2. 训练与测试过程

在这里插入图片描述

3. 总结

在这里插入图片描述

【YOLO学习】YOLOv3详解

文章目录

1. 网络结构

1.1 结构介绍

1.2 改进

2. 训练与测试过程

3. 总结

相关文章：

【YOLO学习】YOLOv3详解

JDK1.0主要特性

CSS基础-盒子模型（三）

深度学习中的损失函数详解

系统架构设计师-下午案例题（2022年下半年）

高级图片编辑器Photopea

详解zookeeper四字命令

docker 进入容器运行命令

一行 Python 代码能实现什么丧心病狂的功能？圣诞树源代码

mit6824-01-MapReduce详解

在Docker中运行微服务注册中心Eureka

白话进程＞线程＞协程

论文阅读：Attention is All you Need

【Linux 】文件描述符fd、重定向、缓冲区（超详解）

Unity WebGL使用nginx作反向代理处理跨域，一些跨域的错误处理（添加了反向代理的配置依旧不能跨域）

视频转文字免费的软件有哪些？6款工具一键把视频转成文字！又快又方便！

解决DHCP服务异常导致设备无法获取IP地址的方法

Python机器学习模型的部署与维护：版本管理、监控与更新策略

免费送源码：Java+ssm+JSP+Ajax+MySQL SSM汽车租赁管理系统计算机毕业设计原创定制

Vivado viterbi decoder license

React Native 开发环境搭建（全平台详解）

uni-app学习笔记二十二---使用vite.config.js全局导入常用依赖

服务器硬防的应用场景都有哪些？

什么是库存周转？如何用进销存系统提高库存周转率？

BCS 2025｜百度副总裁陈洋：智能体在安全领域的应用实践

【论文阅读28】-CNN-BiLSTM-Attention-（2024）

推荐 github 项目:GeminiImageApp(图片生成方向，可以做一定的素材)

AI+无人机如何守护濒危物种？YOLOv8实现95%精准识别

云原生安全实战：API网关Kong的鉴权与限流详解

vulnyx Blogger writeup