从 YOLOv1 到 YOLOv2:目标检测的进化之路
引言
你有没有想过,当你用手机拍一张照片,里面的人、车、狗是怎么被自动识别出来的?这背后靠的就是目标检测技术。目标检测是计算机视觉中的一个重要领域,它不仅要回答“图片里有什么”,还要告诉你“这些东西在哪里”。今天,我们要聊的是目标检测领域的两个经典模型:YOLOv1 和 YOLOv2。它们的名字听起来很酷——“You Only Look Once”(你只看一次),不仅名字帅,性能也很强。这篇博客将带你走进 YOLO 的世界,聊聊它们的原理、区别,以及那些听起来高大上的概念,比如 mAP、FPS、IoU 等。我们会尽量用大白话解释,并在后面深入讲解数学公式和代码实现,让你轻松看懂!
第一部分:YOLOv1——目标检测的“快男”
YOLOv1 的诞生
YOLOv1 是 2015 年由 Joseph Redmon 等人提出的,它最大的特点就是“快”。在它之前,很多目标检测模型(比如 R-CNN 系列)需要先找“可能有东西”的区域(region proposal),再去分类,这样速度很慢。而 YOLOv1 说:“我不要两步走,我要一步到位!”它把目标检测看成一个回归问题,直接从整张图片预测出物体的位置和类别。
YOLOv1 的原理
想象你在玩一个游戏,面前有一张网格地图,地图被分成 7×7 的小格子。你的任务是:每个格子告诉我,里面有没有东西(比如人、车、猫),如果有,它是什么,在格子里的具体位置是哪儿。YOLOv1 就是这么干的。它把图片分成 S×S 的网格(默认是 7×7),每个格子负责预测:
- 有没有物体(用一个概率值表示,叫做“置信度”)。
- 物体的边界框(bounding box,用 4 个数字表示:中心点 x、y 坐标,宽度 w,高度 h)。
- 物体是什么类别(比如 20 个类别,就预测 20 个概率值)。
每个格子可以预测 B 个边界框(YOLOv1 里 B=2),所以一张图片总共预测 S×S×B 个边界框。最终,模型会输出一个巨大的张量(tensor),比如 7×7×30(后面会解释为什么是 30)。
网络架构
YOLOv1 的网络灵感来自 GoogleNet,用了 24 个卷积层(卷积层就像是图片的“特征提取器”)和 2 个全连接层(全连接层负责把特征整合起来做预测)。输入一张 448×448 的图片,经过层层卷积,最后输出 7×7×30 的张量。为什么是 30 呢?因为每个格子预测 2 个边界框(每个框有 5 个数:x, y, w, h + 置信度),加上 20 个类别的概率,所以是 2×5 + 20 = 30。
损失函数详解
损失函数是模型的“老师”,告诉它预测得好不好。YOLOv1 的损失函数有三部分,我们来详细拆解一下:


别被公式吓到,我们拆解开来看。

通俗解释
简单说,YOLOv1 的损失函数就像一个评分表:框的位置准不准(定位),有没有物体猜得对不对(置信度),类别分得清不清楚(分类)。通过调整权重(𝜆coordλcoord 和 𝜆noobjλnoobj),让模型更关注框的位置,而不是过多惩罚没物体的格子。
优点与缺点
- 优点:快!因为只看一次图片,FPS(每秒帧数)能达到 45,比 R-CNN 快得多。
- 缺点:准度不够高。因为每个格子只能预测 2 个框,小物体或密集物体容易漏掉,mAP(平均精度均值)只有 63.4% 左右。
第二部分:YOLOv2——更快更准的升级版
YOLOv2 的诞生
YOLOv1 虽然快,但精度不高,漏检多。于是 2016 年,团队推出了 YOLOv2(也叫 YOLO9000),目标是“更快、更准、能识别更多东西”。YOLOv2 不仅改进了架构,还能识别 9000 种物体,简直是“全能选手”。
YOLOv2 的原理
YOLOv2 保留了“只看一次”的核心思想,但做了很多改进。比如,它不再固定用 7×7 网格,而是引入了锚框(anchor boxes)。锚框是什么?想象你在超市买东西,每个货架上有不同形状的盒子,YOLOv2 会先猜一些“标准盒子”(锚框),然后根据这些盒子微调出真实的边界框。这样,每个格子可以预测更多框(默认 5 个),小物体和密集物体检测效果更好。
网络架构
YOLOv2 抛弃了 GoogleNet,设计了一个新网络叫 Darknet-19。它有 19 个卷积层和 5 个池化层,输入图片大小变成了 416×416(不是 448×448 了),输出是 13×13 的网格。为什么是 13×13?因为 416 除以 32(卷积过程中的步幅)刚好是 13。每个格子预测 5 个锚框,输出张量变成了 13×13×(5×(5+类别数))。
损失函数详解
YOLOv2 的损失函数和 YOLOv1 类似,但优化了细节:


解释一下:

通俗解释
YOLOv2 的损失函数更聪明了。它不再直接预测框的位置,而是预测相对于锚框的偏移量,这样模型更容易学到规律。置信度也更依赖 IoU,让“框得好不好”更科学。
新特性
- Batch Normalization:加在卷积层后,加速训练,提升精度。
- 高分辨率训练:先用低分辨率训练,再切换到高分辨率。
- 多尺度训练:随机调整输入大小(比如 320×320 到 608×608)。
优点与缺点
- 优点:精度提升到 mAP 78.6%,FPS 还能保持 67,实时性超强。
- 缺点:对极小物体仍不够敏感,复杂场景下仍有改进空间。
第三部分:YOLOv1 vs YOLOv2——全方位对比
网络架构
- YOLOv1:24 个卷积层 + 2 个全连接层,输入 448×448,输出 7×7 网格。
- YOLOv2:Darknet-19(19 个卷积层),输入 416×416,输出 13×13 网格,去掉全连接层。
损失函数
- YOLOv1:直接预测坐标,权重不平衡。
- YOLOv2:预测锚框偏移量,用 IoU 优化置信度。
检测能力
- YOLOv1:2 个框/格子,适合大物体。
- YOLOv2:5 个锚框/格子,小物体检测更好。
性能指标
- FPS:YOLOv1 约 45,YOLOv2 高达 67。
- mAP:YOLOv1 为 63.4%,YOLOv2 提升到 78.6%。
第四部分:概念扫盲——mAP、FPS、IoU 等
mAP(平均精度均值)
mAP 是“总成绩”,先算每个类别的 AP(精度-召回率曲线下面积),再平均。越高越好。
FPS(每秒帧数)
FPS 是速度指标,越高越适合实时应用。
精准率(Precision)和召回率(Recall)
- 精准率:预测对的占预测总数的比例。
- 召回率:找到的占真实总数的比例。
IoU(交并比)
IoU = 重叠面积 / 总面积,衡量框的准度。
YOLOv1 和 YOLOv2 是目标检测的里程碑。YOLOv1 用“快”打开新思路,YOLOv2 在速度和精度上找到平衡。
第五部分:代码示例
from ultralytics import YOLO# 加载预训练的YOLO模型
model = YOLO('yolov8n.pt') # 使用YOLOv8 nano模型,适合轻量级应用# 进行目标检测
results = model('image.jpg') # 输入图像文件路径# 处理检测结果
for result in results:boxes = result.boxes # 获取检测框for box in boxes:x, y, w, h = box.xywh[0] # 获取坐标和宽高conf = box.conf.item() # 获取置信度cls = box.cls.item() # 获取类别print(f"检测到目标:类别={cls}, 置信度={conf:.2f}, 坐标=({x:.1f}, {y:.1f}), 宽高=({w:.1f}, {h:.1f})")# 可视化结果(保存或显示)
results[0].save() # 保存带检测框的图像
以上是一个简单的Python代码示例,直接调用YOLO库进行目标检测,强调应用场景(如监控或自动驾驶)。
相关文章:
从 YOLOv1 到 YOLOv2:目标检测的进化之路
引言 你有没有想过,当你用手机拍一张照片,里面的人、车、狗是怎么被自动识别出来的?这背后靠的就是目标检测技术。目标检测是计算机视觉中的一个重要领域,它不仅要回答“图片里有什么”,还要告诉你“这些东西在哪里”…...
RTDETR融合[CVPR205]ARConv中的自适应矩阵卷积
RT-DETR使用教程: RT-DETR使用教程 RT-DETR改进汇总贴:RT-DETR更新汇总贴 《Adaptive Rectangular Convolution for Remote Sensing Pansharpening》 一、 模块介绍 论文链接:https://arxiv.org/pdf/2503.00467 代码链接:https:/…...
【linux】使用 crontab 新增定时任务
目录 1. 打开 crontab 编辑器2. 添加定时任务3. 保存并退出4. 确认定时任务 1. 打开 crontab 编辑器 1.在终端中输入以下命令: crontab -e2. 添加定时任务 1.在打开的 crontab 文件中,添加你的定时任务。2.假设我们希望每天的 5 点 30 分执行一个脚本…...
项目-个人博客测试报告
目录 一、项目背景 二、项目功能 三、测试计划 (1)功能测试 (2)自动化测试 (3)性能测试 一、项目背景 1、个人博客系统是一个操作简单的基于Spring前后端分离的项目,同时使用MySQL数据库来进…...
软考计算机知识-流水线
计算机流水线类似工业生产过程的流水线,在同一时间,m个部件进行不同的操作,完成对不同对象的处理。 理解重叠:让不同的指令在时间上重叠地解释。在解释第k条指令的操作完成之前,就可以开始解释第k1条指令。 题1&#…...
Linux驱动开发实战(五):Qt应用程序点RGB灯(保姆级快速入门!)
Linux驱动开发实战(五):Qt应用程序点RGB灯(保姆级快速入门!) 文章目录 Linux驱动开发实战(五):Qt应用程序点RGB灯(保姆级快速入门!)前…...
前端登录鉴权全解析:主流方案对比与实现指南
文章目录 一、常见登录鉴权方式概览1.1 主流方案对比1.2 技术特性对比 二、Session/Cookie方案2.1 实现原理2.2 代码实现2.3 优缺点分析 三、JWT方案3.1 实现原理3.2 代码实现3.3 优缺点分析 四、OAuth方案4.1 实现原理4.2 代码实现4.3 优缺点分析 五、SSO方案5.1 实现原理5.2 …...
【C++】每日一练(链表的中间结点)
本篇博客给大家带来的是用C语言来解答找中间结点! 🐟🐟文章专栏:每日一练 🚀🚀若有问题评论区下讨论,我会及时回答 ❤❤欢迎大家点赞、收藏、分享! 今日思想:不服输的…...
『大模型笔记』什么是MCP?将AI智能体与数据库和API集成
什么是MCP?将AI智能体与数据库和API集成 文章目录 MCP 由多个组件组成,最重要的有以下三个:MCP 体系结构MCP 的实际应用示例为什么要关注 MCP?官方MCP架构图总结如果你正在构建 AI 智能体,可能听说过 MCP(Model Context Protocol,模型上下文协议)。MCP 是一个开源标准…...
使用Redis如何实现分布式锁?(超卖)
分布式锁概念 在多线程环境下,为了保证数据的线程安全,锁保证同一时刻,只有一个可以访问和更新共享数据。在单机系统我们可以使用 synchronized 锁、Lock 锁保证线程安全。 synchronized 锁是 Java 提供的一种内置锁,在单个 JVM …...
【雅思播客07】I‘m in debt.负债
Hey guys! Welcome to my channel, I’m Mavis. Good morning! 欢迎来到我的频道,我是Mavis老师,早上好呀! Today we’re gonna learn a dialogue about recession, a period of temporary economic decline during which trade and indu…...
实现悬浮按钮拖动,兼容h5和微信小程序
h5用js写,微信小程序用 代码里面没有完全实现吸附边缘的功能,需要吸附边缘的话还得自己再完善下(h5的吸附边缘是可以的,小程序的还有点问题) 主要功能是:图片上写文字的悬浮按钮,文字使用的是…...
JavaScript 模块 vs C# 类:封装逻辑的两种哲学
引言 在现代软件开发中,模块化和面向对象设计是代码组织的核心课题。本文通过对比 JavaScript 模块(ES6 Module)与 C# 类(Class)的实现方式,探讨两种语言在封装逻辑时的不同哲学,并给出实际应用…...
Java面向对象编程进阶:深入理解static、单例模式与继承
在面向对象编程(OOP)中,掌握高级特性是提升代码质量和设计能力的关键。本文基于Java语言,深入探讨static关键字、单例设计模式、继承等核心概念,并结合实际应用场景与深度思考,帮助读者构建系统化的知识体系…...
【6】拓扑排序学习笔记
前言 有向无环图和拓扑排序直接关联到中后期的图论建模思想,是很重要的基础知识。这个如果不彻底弄懂,以后图论会很困难。 有向无环图 正如其名,一个边有向,没有环的图,也叫DAG。 DAG图实际运用:描述含…...
珠算之加减法中出现负数情况
在珠算加减法过程中出现负数情况的处理 如果数字 A 小于 B,要求计算 A-B,此时出现了小数减大数的情况,其结果应该是负数。 在平时,计算 A-B 时,如果发现 A 小于 B,则计算时只要计算 B-A,结果记…...
使用Python在Word中生成多种不同类型的图表
目录 工具与环境配置 在 Word 中创建图表的步骤 在Word中创建柱形图 在Word中创建条形图 在Word中创建折线图 在Word中创建饼图 在Word中创建散点图 在Word中创建气泡图 在 Word 文档中插入图表不仅能更直观地呈现数据,还能提升文档的可读性和专业性。常见的…...
pycharm + anaconda + yolo11(ultralytics) 的视频流实时检测,保存推流简单实现
目录 背景pycharm安装配置代码实现创建本地视频配置 和 推流配置视频帧的处理和检测框绘制主要流程遇到的一些问题 背景 首先这个基于完整安装配置了anaconda和yolo11的环境,如果需要配置开始的话,先看下专栏里另一个文章。 这次的目的是实现拉取视频流…...
Netty基础—5.Netty的使用简介
大纲 1.Netty服务端的启动流程 2.服务端IO事件的处理类 3.Netty客户端的启动流程 4.客户端IO事件的处理类 5.启动Netty服务端和客户端的方法说明 6.Netty服务端和客户端使用总结 7.什么是TCP粘包拆包 8.TCP粘包拆包的几种情况 9.TCP粘包拆包的原因 10.粘包问题的解决…...
C++初阶——类和对象(一)
C初阶——类和对象(一) 一、面向过程和面向对象 1.面向过程 面向过程的程序设计(Procedure-Oriented Programming),简称POP,是一种是以程序执行流程为核心的编程范式。它是先分析出解决问题所需要的的步…...
1141. 【贪心算法】排队打水
题目描述 有n(n<1000)个人在一个水龙头前排队接水,假如每个人接水的时间为Ti, 请编程找出这n个人排队的一种顺序,使得n个人的平均等待时间最小。输入 输入文件共两行,第一行为n; 第二行分别…...
RabbitMQ入门:从安装到高级消息模式
文章目录 一. RabbitMQ概述1.1 同步/异步1.1.1 同步调用1.1.2 异步调用 1.2 消息中间件1.2.1 概念1.2.2 作用1.2.3 常见的消息中间件1.2.4 其他中间件 1.3 RabbitMQ1.3.1 简介1.3.2 特点1.3.3 方式1.3.4 架构1.3.5 运行流程 二. 安装2.1 Docker 安装 RabbitMQ 三. 简单队列&…...
Linux应用:进程的回收
进程的诞生和消亡 程的诞生通常是通过系统调用(如fork、exec等)来创建新进程。当一个进程完成其任务或者出现错误时,它会进入消亡阶段。进程可以通过exit函数主动结束自身,也可能由于操作系统的调度策略(如资源耗尽、…...
如何利用 AI 技术快速定位和修复生产环境问题
网罗开发 (小红书、快手、视频号同名) 大家好,我是 展菲,目前在上市企业从事人工智能项目研发管理工作,平时热衷于分享各种编程领域的软硬技能知识以及前沿技术,包括iOS、前端、Harmony OS、Java、Python等…...
Linux find 命令完全指南
find 是 Linux 系统最强大的文件搜索工具,支持 嵌套遍历、条件筛选、执行动作。以下通过场景分类解析核心用法,涵盖高效搜索、文件管理及高级技巧: 一、基础搜索模式 1. 按文件名搜索(精确/模糊匹配) <BASH> f…...
市场波动中的风险管理与策略优化
市场波动中的风险管理与策略优化 在市场交易中,价格的波动性为投资者提供了交易机会,但同时也带来了风险。如何在市场不确定性中进行有效的风险管理,并优化交易策略,是每位交易者都需要思考的问题。本文将探讨市场波动的影响因素、…...
(链表)206. 反转链表
给你单链表的头节点 head ,请你反转链表,并返回反转后的链表。 示例 1: 输入:head [1,2,3,4,5] 输出:[5,4,3,2,1]示例 2: 输入:head [1,2] 输出:[2,1]示例 3: 输入&am…...
Jetson Orin NX jupyter lab的安装和使用
主要是为了梳理一下整个过程,其实步骤很简单,但容易出错。 注意,实际只有两个文件需要写入,一个是jupyter_lab_config.py,一个是jupyter.service。 配置文件的名字要写对,如果总是copy网上的代码࿰…...
前端npm包- CropperJS
文章目录 一、CropperJS**核心特性****官网与文档****安装与使用**1. **通过 npm/yarn/pnpm 安装**2. **HTML 结构**3. **引入 CSS 和 JS**4. **初始化裁剪器** **相关插件/替代方案****适用场景****注意事项** 总结 一、CropperJS cropperjs 是一个轻量级、功能强大的 图片裁…...
农业建设项目管理系统评测:8款推荐工具优缺点分析
本文主要介绍了以下8款农业建设项目管理系统:1.PingCode; 2. Worktile ;3. 建米农业工程项目管理系统;4. 开创云数字农业管理平台; 5. Trimble Ag Software;6.Conservis; 7. Agworld ࿱…...
