当前位置：首页 > article >正文

计算机视觉---YOLOv4

article 2026/4/17 20:50:03

YOLOv4（You Only Look Once v4）于2020年由Alexey Bochkovskiy等人提出，是YOLO系列的重要里程碑。它在YOLOv3的基础上整合了当时最先进的计算机视觉技术，实现了检测速度与精度的显著提升。以下从主干网络、颈部网络、头部检测、训练策略、损失函数、正则化方法

一、主干网络（Backbone）：从Darknet53到CSPDarknet53

YOLOv3的瓶颈

Darknet53：采用全卷积结构，包含53个卷积层，结合残差连接（Residual Connection），在精度与速度间取得平衡，但计算量较大，且特征复用效率有待提升。

YOLOv4的改进

CSP结构引入（Cross Stage Partial Network）
- 核心思想：将主干网络的每个阶段（Stage）的特征图分为两部分，一部分直接传递（Partial Connection），另一部分进行常规卷积，最后拼接融合。
- 优势：
  - 减少计算量：通过跨阶段特征融合，避免重复计算，提升计算效率。
  - 增强梯度传播：分离的梯度路径使网络更易训练，缓解梯度消失。
  - 轻量化设计：在YOLOv4中，CSPDarknet53相比Darknet53减少约15%的参数量，同时保持精度。
激活函数替换：Mish替代LeakyReLU
- Mish公式： $\text{Mish} = x \cdot \tanh(\ln(1 + e^x))$
- 优势：
  - 光滑连续的非单调特性，保留负值信息，增强特征表达能力。
  - 相比LeakyReLU，在深层网络中精度更高，但计算量略有增加。
- 例外：YOLOv4-tiny仍使用LeakyReLU以降低计算成本。
SPP模块集成（Spatial Pyramid Pooling）
- 位置：在CSPDarknet53的末端加入SPP模块（YOLOv3无此结构）。
- 作用：通过多尺度池化（如1×1, 5×5, 9×9, 13×13最大池化）扩大感受野，融合不同尺度特征，提升目标多尺度检测能力。
- 效果：实验表明，SPP模块使YOLOv4的mAP提升2.7%~3.2%。

在这里插入图片描述

二、颈部网络（Neck）：从FPN到PAN+SPP

YOLOv3的瓶颈

单一FPN结构：仅通过自上而下路径融合高层语义特征，底层细节特征（如小目标位置信息）传递不足。

YOLOv4的改进

FPN+PAN结构（Path Aggregation Network）
- 双向特征融合：
  - 自上而下路径（FPN）：传递高层语义特征（如“汽车”“人”的类别信息）。
  - 自下而上路径（PAN）：增强底层细节特征（如边缘、纹理）的传递，尤其提升小目标检测性能。
- 对比YOLOv3：YOLOv3仅使用FPN，而YOLOv4通过PAN补充底层特征流动，形成更强大的特征金字塔。

YOLOv4中的PAN不是加法，是拼接
在这里插入图片描述

SPP模块的延续作用
- 在颈部网络中，SPP模块进一步扩大感受野，且计算成本低（仅在主干末端和颈部各用一次）。

三、头部检测（Head）：多尺度检测与激活函数优化

YOLOv3的设计

三尺度检测：输出13×13、26×26、52×52三种尺度特征图，分别检测大、中、小目标。
激活函数：分类头使用Softmax（单标签分类），回归头使用Sigmoid预测坐标偏移。

YOLOv4的改进

分类头：Logistic激活替代Softmax
- 支持多标签分类：YOLOv3的Softmax强制单标签，而YOLOv4通过Logistic激活（独立二分类）支持目标的多标签预测（如“人”同时属于“运动员”和“行人”）。
锚框优化
- 使用K-means聚类重新生成锚框，适配COCO数据集的目标尺寸分布，提升先验框与真实框的匹配度。
检测头结构轻量化
- 通过减少卷积层数量或使用深度可分离卷积（如YOLOv4-tiny），降低计算量，适配移动端。

四、训练策略：数据增强与自对抗训练

YOLOv3的数据增强

基础增强：随机翻转、裁剪、缩放、颜色抖动等。

YOLOv4的改进

Mosaic数据增强
- 原理：将4张图像随机缩放、裁剪、拼接成1张新图像，背景丰富且包含更多小目标。
- 优势：
  - 提升小目标检测性能（小目标在拼接后可能成为中/大目标）。
  - 减少对Batch Normalization的依赖（单张图像包含4张图的统计特征），可使用更小的Batch Size训练。
MixUp增强
- 混合两张图像及其标签，通过线性插值生成新样本，提升模型泛化能力，抑制过拟合。
Random Erase：用随机值或训练集的平均像素值替换图像中的区域
Hide and Seek:根据概率设置随机隐藏一些补丁
自对抗训练（Self-Adversarial Training, SAT）
- 两阶段流程：
  - 阶段1：模型反向更新输入图像（而非网络参数），生成对抗样本（使模型误检）。
  - 阶段2：用对抗样本正常训练模型，提升鲁棒性。
- 对比传统对抗训练：无需外部攻击算法，仅通过模型自身生成扰动，计算成本更低。

6.DropBlock
在这里插入图片描述

五、损失函数：从Smooth L1到CIoU Loss

YOLOv3的损失函数

坐标损失：Smooth L1损失，仅计算预测框与真实框的坐标偏移，未考虑框的重叠面积和形状。
分类损失：交叉熵损失。
置信度损失：二元交叉熵损失，衡量预测框与真实框的重叠程度（IoU）。

存在的问题：没有相交则IOU=0无法进行梯度计算，相同的IOU却反应不出实际情况是怎么样

在这里插入图片描述

YOLOv4的改进

GIOU引入面积
在这里插入图片描述
DIOU引入中心点距离

CIoU Loss替代Smooth L1
- 公式：
  
  $\text{CIoU} = 1 - \text{IoU} + \frac{\rho^2(b, b^{gt})}{c^2} + \alpha v$
  其中：
  - $\rho^2$ ：预测框与真实框中心点的欧氏距离。
  - $c$ ：包含两框的最小外接矩形对角线长度。
  - $\alpha$ ：权重参数，(v)：衡量预测框与真实框的宽高比一致性。
- 优势：
  - 同时优化重叠面积（IoU）、中心点距离、宽高比，收敛更快，定位更精准。
  - 解决传统IoU/L1损失在无重叠时梯度消失的问题。
置信度损失结合CIoU
- 置信度不仅反映IoU，还融入CIoU的惩罚项，使模型更关注框的形状和位置匹配。

六、正则化与优化技术

1. 跨卡批量归一化（CmBN, Cross mini-Batch Normalization）

背景：YOLOv3使用普通BN，多卡训练时各卡独立计算统计量，可能导致模型不稳定。
CmBN改进：在每个Batch内跨GPU收集统计量（而非全量数据），平衡训练稳定性与计算效率，尤其适合小Batch Size场景。

2. 优化器与学习率策略

优化器：YOLOv4默认使用SGD（YOLOv3也常用SGD，但YOLOv4调参更精细）。
学习率调度：
- 余弦退火（Cosine Annealing）：周期性衰减学习率，避免过早收敛到局部最优。
- Warmup策略：训练初期缓慢提升学习率，防止模型在随机初始化阶段崩溃。

3. 标签平滑（Label Smoothing）

对真实标签添加微小噪声（如将one-hot标签从[0,1,0]改为[0.05,0.9,0.05]），抑制模型对标签的过度自信，提升泛化能力。

非极大值抑制NMS改进

DIOU-NMS
在这里插入图片描述

七、SAM注意力机制模块

Convolutional Block Attention Module（CBAM）是一种轻量级卷积神经网络注意力模块。它通过通道注意力和空间注意力双重机制优化特征表达：先对特征图进行全局平均池化与最大池化，经全连接层生成通道注意力权重，聚焦重要特征通道；再对通道维度做平均与最大池化，通过卷积生成空间注意力权重，定位关键空间区域。两者顺序堆叠，为特征图分配动态权重，增强有效信息、抑制冗余，可无缝嵌入各类CNN架构，在几乎不增加计算量的前提下提升模型表征能力。CBAM注意力机制在NLP,CV等领域广泛应用。
在这里插入图片描述

YOLOv4引入了SAM(Spatial Attention Module)
SAM（空间注意力模块）是神经网络中聚焦空间维度的注意力机制模块。其输入特征图后，先在通道维度分别进行平均池化与最大池化，生成两张空间特征图；再将二者拼接，通过卷积操作输出空间注意力权重图，该权重图与原特征图相乘，可增强关键空间区域的特征响应，抑制无关位置信息。SAM能让模型更关注“何处”是重要特征，常与通道注意力结合（如CBAM），轻量级且计算高效，适用于各类CNN架构以提升空间特征表征能力。
在这里插入图片描述

八、其他改进与性能对比

1. 测试阶段优化

多尺度测试（Multi-Scale Testing, MST）：输入图像缩放至不同尺寸进行推理，提升小目标检测精度（牺牲速度）。
自适应锚框机制：根据输入图像尺寸动态调整锚框比例，适配不同分辨率。

2. 轻量化变体：YOLOv4-tiny

主干网络：使用CSPDarknet53的轻量化版本，减少卷积层和通道数（如仅保留前13层）。
颈部网络：移除SPP和PAN，仅用简单FPN。
检测头：仅保留两个尺度（13×13和26×26），适合移动端或嵌入式设备。

3. 性能对比（COCO数据集）

模型	Backbone	mAP@0.5	FPS (Tesla V100)
YOLOv3	Darknet53	57.9	40
YOLOv4	CSPDarknet53	65.7	65
YOLOv4-tiny	CSPDarknet53-tiny	40.2	448

结论：YOLOv4相比YOLOv3，mAP提升约7.8%，FPS提升62.5%，实现“精度与速度双突破”。

八、总结：YOLOv4的技术突破点

模块	YOLOv3	YOLOv4	改进收益
主干网络	Darknet53	CSPDarknet53 + SPP	轻量化、更强特征表达
颈部网络	FPN	FPN + PAN	底层细节与高层语义双向融合
数据增强	基础增强	Mosaic + MixUp + SAT	小目标检测与鲁棒性提升
损失函数	Smooth L1 + BCE	CIoU Loss	定位更精准，收敛更快
正则化	普通BN + Dropout	CmBN + 标签平滑	训练稳定性与泛化能力提升
激活函数	LeakyReLU	Mish（主干）	非线性表达增强
检测头	Softmax（单标签）	Logistic（多标签）	支持多标签分类

九、常见误区与注意事项

YOLOv4与YOLOv5的关系：
- YOLOv4是官方版本，由原团队开发；YOLOv5由Ultralytics公司基于PyTorch重构，非官方但更易部署，两者技术路线不同（如YOLOv5使用Focus结构和不同的CSP变体）。
Mish的适用场景：
- 算力充足时使用Mish可提升精度；嵌入式设备建议用LeakyReLU或Swish优化版。
锚框的必要性：
- YOLOv4仍依赖手工设计的锚框，而后续YOLOv5s/YOLOX尝试无锚框（Anchor-Free）设计，需注意技术演进趋势。

朝饮花上露，夜卧松下风。
云英化为水，光采与我同。 —王昌龄

一、主干网络（Backbone）：从Darknet53到CSPDarknet53

YOLOv3的瓶颈

YOLOv4的改进

二、颈部网络（Neck）：从FPN到PAN+SPP

YOLOv3的瓶颈

YOLOv4的改进

三、头部检测（Head）：多尺度检测与激活函数优化

YOLOv3的设计

YOLOv4的改进

四、训练策略：数据增强与自对抗训练

YOLOv3的数据增强

YOLOv4的改进

五、损失函数：从Smooth L1到CIoU Loss

YOLOv3的损失函数

存在的问题：没有相交则IOU=0无法进行梯度计算，相同的IOU却反应不出实际情况是怎么样

YOLOv4的改进

六、正则化与优化技术

1. 跨卡批量归一化（CmBN, Cross mini-Batch Normalization）

2. 优化器与学习率策略

3. 标签平滑（Label Smoothing）

非极大值抑制NMS改进

七、SAM注意力机制模块

八、其他改进与性能对比

1. 测试阶段优化

2. 轻量化变体：YOLOv4-tiny

3. 性能对比（COCO数据集）

八、总结：YOLOv4的技术突破点

九、常见误区与注意事项

相关文章：