当前位置：首页 > article >正文

【计算机视觉实战】第10章 | 单阶段目标检测YOLO与SSD：实时检测的极致追求

article 2026/4/1 22:06:59

欢迎来到《计算机视觉实战》系列教程的第十章。在第九章我们学习了Faster R-CNN等两阶段检测器它们精度高但速度慢。本章我们将学习单阶段检测器One-stage Detector特别是YOLO和SSD它们在保持可观精度的同时实现了实时检测。1. 环境声明Python版本Python 3.12PyTorch版本PyTorch 2.2torchvision版本0.17NumPy版本1.262. 单阶段 vs 两阶段检测器2.1 核心思想对比两阶段检测器Faster R-CNN第一阶段RPN生成候选区域提议第二阶段对每个提议进行分类和边界框精调单阶段检测器YOLO/SSD在单次前向传播中直接预测类别和边界框无需区域提议网络和两步处理defcompare_detectors():单阶段 vs 两阶段检测器对比print(性能对比 (COCO mAP 0.5:0.95):)print(*60)print(f{模型:20}{mAP:10}{FPS:10}{特点:30})print(-*60)print(f{Faster R-CNN:20}{42.0:10}{5:10}{最高精度:30})print(f{RetinaNet:20}{40.8:10}{12:10}{Focal Loss:30})print(f{SSD512:20}{38.5:10}{22:10}{多尺度:30})print(f{YOLOv5m:20}{45.0:10}{120:10}{平衡:30})print(f{YOLOv8n:20}{37.4:10}{300:10}{超实时:30})print(*60)print(\n关键洞察:)print(1. 两阶段检测器精度高但速度慢)print(2. 单阶段检测器速度快适合实时应用)print(3. YOLOv5/v8在速度和精度上取得了很好的平衡)print(4. 现代YOLO版本精度已接近Faster R-CNN)compare_detectors()3. YOLO系列详解3.1 YOLOv1开创性的单阶段检测importtorchimporttorch.nnasnnclassYOLOv1(nn.Module):YOLOv1简化版实现def__init__(self,num_classes20,num_grids7,num_bboxes2):super().__init__()self.num_classesnum_classes self.num_gridsnum_grids self.num_bboxesnum_bboxes# 主干网络 (类似GoogLeNet)self.backbonenn.Sequential(nn.Conv2d(3,64,7,stride2,padding3),nn.LeakyReLU(0.1),nn.MaxPool2d(2,2),# 1/2nn.Conv2d(64,192,3,padding1),nn.LeakyReLU(0.1),nn.MaxPool2d(2,2),# 1/4nn.Conv2d(192,128,1),nn.LeakyReLU(0.1),nn.Conv2d(128,256,3,padding1),nn.LeakyReLU(0.1),nn.MaxPool2d(2,2),# 1/8nn.Conv2d(256,256,1),nn.LeakyReLU(0.1),nn.Conv2d(256,512,3,padding1),nn.LeakyReLU(0.1),nn.MaxPool2d(2,2),# 1/16nn.Conv2d(512,256,1),nn.LeakyReLU(0.1),nn.Conv2d(256,512,3,padding1),nn.LeakyReLU(0.1),nn.Conv2d(512,512,1),nn.LeakyReLU(0.1),nn.Conv2d(512,1024,3,padding1),nn.LeakyReLU(0.1),nn.MaxPool2d(2,2),# 1/32nn.Conv2d(1024,512,1),nn.LeakyReLU(0.1),nn.Conv2d(512,1024,3,padding1),nn.LeakyReLU(0.1),nn.Conv2d(1024,1024,3,stride2,padding1),nn.LeakyReLU(0.1),# 1/64nn.Conv2d(1024,1024,3,padding1),nn.LeakyReLU(0.1),nn.Conv2d(1024,1024,3,padding1),nn.LeakyReLU(0.1),)# 检测头# 输出: S x S x (B*5 C)# 每个格子预测B个边界框每个框有5个值(cx, cy, w, h, conf)# 加上C个类别概率self.detectornn.Sequential(nn.Flatten(),nn.Linear(1024*7*7,4096),nn.LeakyReLU(0.1),nn.Linear(4096,num_grids*num_grids*(num_bboxes*5num_classes)),)defforward(self,x):featuresself.backbone(x)outputself.detector(features)# reshape为 (batch, S, S, B*5C)returnoutput.view(-1,self.num_grids,self.num_grids,self.num_bboxes*5self.num_classes)print(YOLOv1的核心创新:)print(*50)print(1. 将图像划分为S×S网格)print(2. 每个格子预测B个边界框和置信度)print(3. 每个框预测4个坐标值(cx,cy,w,h)和置信度)print(4. 加上C个类别概率)print(5. 单次前向传播完成检测速度极快)print(\n但YOLOv1存在:)print(- 对小物体检测效果差)print(- 召回率较低)print(- 定位精度不如两阶段方法)3.2 YOLOv3多尺度预测importtorchimporttorch.nnasnnclassYOLOv3(nn.Module):YOLOv3简化版 - 使用多尺度预测def__init__(self,num_classes80):super().__init__()self.num_classesnum_classes# 主干网络 (Darknet-53风格)self.backboneself._build_backbone()# 多尺度检测头# 大特征图 - 小物体# 中特征图 - 中等物体# 小特征图 - 大物体self.detect_largenn.Conv2d(256,3*(5num_classes),1)self.detect_mediumnn.Conv2d(512,3*(5num_classes),1)self.detect_smallnn.Conv2d(1024,3*(5num_classes),1)defforward(self,x): 返回三个尺度的检测结果 - 大: (batch, 3*(5C), 13, 13) - 中: (batch, 3*(5C), 26, 26) - 小: (batch, 3*(5C), 52, 52) # 简化的前向传播returnNone,None,Noneprint(YOLOv3的改进:)print(*50)print(1. Darknet-53主干网络更强的特征提取)print(2. FPN多尺度特征金字塔)print(3. 3个不同尺度的检测头)print(4. 使用sigmoid代替softmax支持多标签分类)print(5. 13x13, 26x26, 52x52三种特征图)print(\n改进效果:)print(- 小物体检测大幅提升)print(- 中等和大物体保持高性能)print(- 速度仍然很快 (YOLOv3-608: 20 FPS))3.3 YOLOv5/v8现代YOLOimporttorchdefyolov8_architecture():YOLOv8架构特点print(YOLOv8核心设计:)print(*50)print(1. CSPDarknet主干 PANet颈部)print(2. Anchor-free检测头 (YOLOX开创))print(3. Decoupled检测头 (分类和回归分开))print(4. 新的损失函数: Bbox Loss Distribution Focal Loss)print(5. 数据增强: Mosaic, MixUp, CopyPaste)print(\nYOLOv8 YAML配置 (COCO mAP):)configs{n:{mAP50:37.4,mAP50-95:28.0,params:3.2,FPS:300},s:{mAP50:44.9,mAP50-95:33.7,params:11.2,FPS:200},m:{mAP50:51.2,mAP50-95:39.2,params:25.9,FPS:120},l:{mAP50:53.1,mAP50-95:41.8,params:43.7,FPS:90},x:{mAP50:54.8,mAP50-95:43.4,params:68.2,FPS:60},}print(f{模型:8}{mAP50:12}{mAP50-95:15}{参数量(M):15}{FPS:10})print(-*60)forname,cfginconfigs.items():print(fYOLOv8-{name:4}{cfg[mAP50]:12}{cfg[mAP50-95]:15}{cfg[params]:15}{cfg[FPS]:10})yolov8_architecture()4. SSD多尺度单阶段检测classSSD(nn.Module):SSD (Single Shot MultiBox Detector)def__init__(self,num_classes21):super().__init__()# VGG16主干网络self.vggnn.Sequential(nn.Conv2d(3,64,3,padding1),nn.ReLU(),nn.Conv2d(64,64,3,padding1),nn.ReLU(),nn.MaxPool2d(2,2),nn.Conv2d(64,128,3,padding1),nn.ReLU(),nn.Conv2d(128,128,3,padding1),nn.ReLU(),nn.MaxPool2d(2,2),nn.Conv2d(128,256,3,padding1),nn.ReLU(),nn.Conv2d(256,256,3,padding1),nn.ReLU(),nn.Conv2d(256,256,3,padding1),nn.ReLU(),nn.MaxPool2d(2,2),# 38x38nn.Conv2d(256,512,3,padding1),nn.ReLU(),nn.Conv2d(512,512,3,padding1),nn.ReLU(),nn.Conv2d(512,512,3,padding1),nn.ReLU(),nn.MaxPool2d(2,2),# 19x19nn.Conv2d(512,512,3,padding1),nn.ReLU(),nn.Conv2d(512,512,3,padding1),nn.ReLU(),nn.Conv2d(512,512,3,padding1),nn.ReLU(),nn.MaxPool2d(2,2),# 10x10nn.Conv2d(512,1024,3,padding1),nn.ReLU(),nn.Conv2d(1024,1024,1),nn.ReLU(),# 额外卷积层nn.Conv2d(1024,256,1),nn.ReLU(),nn.Conv2d(256,512,3,stride2,padding1),nn.ReLU(),# 5x5)# 多尺度特征图检测# 38x38, 19x19, 10x10, 5x5, 3x3, 1x1self.detection_headsnn.ModuleList([nn.Conv2d(512,4*(num_classes5),3,padding1),# 38x38nn.Conv2d(1024,6*(num_classes5),3,padding1),# 19x19nn.Conv2d(512,6*(num_classes5),3,padding1),# 10x10nn.Conv2d(256,6*(num_classes5),3,padding1),# 5x5nn.Conv2d(256,4*(num_classes5),3,padding1),# 3x3nn.Conv2d(256,4*(num_classes5),1),# 1x1])print(SSD的设计特点:)print(*50)print(1. VGG16主干网络保留额外卷积层)print(2. 6个不同尺度的特征图)print(3. 每个位置使用多个默认框 (default boxes))print(4. 多尺度特征适合检测不同大小的物体)print(5. 比YOLO稍慢但精度更好)5. RetinaNet与Focal Lossdeffocal_loss():Focal Loss解决单阶段检测器正负样本不均衡问题print(样本不均衡问题:)print(*50)print(- 单阶段检测器需要在所有位置预测)print(- 背景区域远多于物体区域 (如1000:1))print(- 大量易分类的背景样本主导梯度)print(- 难分类的物体样本被忽视)print(\nFocal Loss公式:)print(FL(pt) -αt(1-pt)^γ * log(pt))print(- γ (gamma): 聚焦参数越大越关注难样本)print(- α (alpha): 平衡正负样本的权重)print(- pt: 分类概率)print(\n实验结果:)print(- γ0: 标准交叉熵)print(- γ2, α0.25: Focal Loss)print(- 相比标准交叉熵AP提升约3个点)focal_loss()6. 实战使用YOLOv8importtorchdefuse_yolov8():使用YOLOv8进行目标检测# 实际使用ultralytics库# from ultralytics import YOLOprint(YOLOv8使用示例:)print(*50)print( from ultralytics import YOLO # 加载预训练模型 model YOLO(yolov8n.pt) # nano版本 model YOLO(yolov8s.pt) # small版本 model YOLO(yolov8m.pt) # medium版本 # 推理 results model(image.jpg) # 绘制结果 results[0].show() # 获取检测框 boxes results[0].boxes for box in boxes: x1, y1, x2, y2 box.xyxy[0] conf box.conf[0] cls box.cls[0] print(f类别: {int(cls)}, 置信度: {conf:.2f}, 位置: ({x1:.0f}, {y1:.0f}, {x2:.0f}, {y2:.0f})) )use_yolov8()7. 本章小结通过本章学习我们掌握了单阶段 vs 两阶段理解了两类检测器的核心区别YOLO演进从YOLOv1到YOLOv8的发展历程多尺度预测FPN在单阶段检测中的应用Focal Loss解决样本不均衡的创新方法SSD设计多尺度特征图检测策略一句话总结YOLO系列通过不断的工程优化和算法改进在实时检测领域建立了标杆地位YOLOv8更是将精度和速度做到了极致平衡。下一章预告第11章《图像分割语义分割与实例分割》将带你学习U-Net、Mask R-CNN等分割网络。如果本章内容对你有帮助欢迎点赞、收藏和关注。

【计算机视觉实战】第10章 | 单阶段目标检测YOLO与SSD：实时检测的极致追求

相关文章：

【计算机视觉实战】第10章 | 单阶段目标检测YOLO与SSD：实时检测的极致追求

Phi-4-mini-reasoning实战教程：批量处理CSV数学题库生成标准答案

豪鹏科技2025年财报透视：毛利率提升5.2个百分点，费用管控成效显著

SEO和SEM对于中小企业的意义是什么_SEO 和 SEM 的报告指标有哪些

管理员命令提示符命令提示符 cmd

小型纯电动汽车轮毂电机及大角度转向系统的数字化设计【含catia、solidworks、CAD图纸、答辩PPT、说明书】

快速部署Python3.10环境：Miniconda镜像实战教学

从选型到焊接：一份给嵌入式新手的晶振避坑指南（含32.768KHz实例）

软考软件评测师备考避坑指南：过来人告诉你这5个章节最容易丢分（附2024最新考纲解析）

别再死记硬背了！用C++/Java手把手实现线索二叉树（附完整代码与避坑指南）

SDXL 1.0电影级绘图工坊：RTX 4090专属，5分钟零基础部署教程

ARL灯塔扫不出指纹？手把手教你用Python脚本批量导入指纹库，提升资产识别准确率

数据科学驱动的自动化分析：缠论量化开源工具包的技术实践与价值

500套帐篷发往西非：我们凭什么拿下这单？

INNISO1接口模块

GLM-OCR完整教程：部署、使用、API、案例，一篇搞定所有

别再为联合仿真头疼了！手把手教你用Amesim 2019和Matlab 2022b配置S-Function（Win10环境）

Excel 根据A列标签拆分为多个列数据

余姚加工中心编程培训排行榜单

3步搞定黑苹果配置：OpCore-Simplify自动化工具如何解决90%的安装难题

学习网络安全至少需要什么配置的电脑？

防爆气象站为什么能够成为化工行业的必备仪器

EmbeddingGemma-300m部署指南：Ollama镜像+Prometheus监控+日志追踪一体化

数据仓库核心概念：事实表和维度表详解与实战应用

Ostrakon-VL 模型推理加速实战：使用 .accelerate 库优化扫描速度

深度解析：数据仓库——定义、核心架构与企业核心价值

掌握QMK Toolbox的4个实战阶段：开源键盘定制工具从入门到精通的学习路径

Transformer 从0到1：注意力机制的数学形式——Query, Key, Value 三元组

BI 项目交付 SOP

dig (Domain Information Groper)：从命令行到自动化运维的DNS探秘