当前位置: 首页 > article >正文

从 YOLOv1 到 YOLOv2:目标检测的进化之路

引言

你有没有想过,当你用手机拍一张照片,里面的人、车、狗是怎么被自动识别出来的?这背后靠的就是目标检测技术。目标检测是计算机视觉中的一个重要领域,它不仅要回答“图片里有什么”,还要告诉你“这些东西在哪里”。今天,我们要聊的是目标检测领域的两个经典模型:YOLOv1YOLOv2。它们的名字听起来很酷——“You Only Look Once”(你只看一次),不仅名字帅,性能也很强。这篇博客将带你走进 YOLO 的世界,聊聊它们的原理、区别,以及那些听起来高大上的概念,比如 mAP、FPS、IoU 等。我们会尽量用大白话解释,并在后面深入讲解数学公式和代码实现,让你轻松看懂!


第一部分:YOLOv1——目标检测的“快男”

YOLOv1 的诞生

YOLOv1 是 2015 年由 Joseph Redmon 等人提出的,它最大的特点就是“快”。在它之前,很多目标检测模型(比如 R-CNN 系列)需要先找“可能有东西”的区域(region proposal),再去分类,这样速度很慢。而 YOLOv1 说:“我不要两步走,我要一步到位!”它把目标检测看成一个回归问题,直接从整张图片预测出物体的位置和类别。

YOLOv1 的原理

想象你在玩一个游戏,面前有一张网格地图,地图被分成 7×7 的小格子。你的任务是:每个格子告诉我,里面有没有东西(比如人、车、猫),如果有,它是什么,在格子里的具体位置是哪儿。YOLOv1 就是这么干的。它把图片分成 S×S 的网格(默认是 7×7),每个格子负责预测:

  1. 有没有物体(用一个概率值表示,叫做“置信度”)。
  2. 物体的边界框(bounding box,用 4 个数字表示:中心点 x、y 坐标,宽度 w,高度 h)。
  3. 物体是什么类别(比如 20 个类别,就预测 20 个概率值)。

每个格子可以预测 B 个边界框(YOLOv1 里 B=2),所以一张图片总共预测 S×S×B 个边界框。最终,模型会输出一个巨大的张量(tensor),比如 7×7×30(后面会解释为什么是 30)。

网络架构

YOLOv1 的网络灵感来自 GoogleNet,用了 24 个卷积层(卷积层就像是图片的“特征提取器”)和 2 个全连接层(全连接层负责把特征整合起来做预测)。输入一张 448×448 的图片,经过层层卷积,最后输出 7×7×30 的张量。为什么是 30 呢?因为每个格子预测 2 个边界框(每个框有 5 个数:x, y, w, h + 置信度),加上 20 个类别的概率,所以是 2×5 + 20 = 30。

损失函数详解

损失函数是模型的“老师”,告诉它预测得好不好。YOLOv1 的损失函数有三部分,我们来详细拆解一下:

别被公式吓到,我们拆解开来看。

通俗解释

简单说,YOLOv1 的损失函数就像一个评分表:框的位置准不准(定位),有没有物体猜得对不对(置信度),类别分得清不清楚(分类)。通过调整权重(𝜆coordλcoord​ 和 𝜆noobjλnoobj​),让模型更关注框的位置,而不是过多惩罚没物体的格子。

优点与缺点

  • 优点:快!因为只看一次图片,FPS(每秒帧数)能达到 45,比 R-CNN 快得多。
  • 缺点:准度不够高。因为每个格子只能预测 2 个框,小物体或密集物体容易漏掉,mAP(平均精度均值)只有 63.4% 左右。

第二部分:YOLOv2——更快更准的升级版

YOLOv2 的诞生

YOLOv1 虽然快,但精度不高,漏检多。于是 2016 年,团队推出了 YOLOv2(也叫 YOLO9000),目标是“更快、更准、能识别更多东西”。YOLOv2 不仅改进了架构,还能识别 9000 种物体,简直是“全能选手”。

YOLOv2 的原理

YOLOv2 保留了“只看一次”的核心思想,但做了很多改进。比如,它不再固定用 7×7 网格,而是引入了锚框(anchor boxes)。锚框是什么?想象你在超市买东西,每个货架上有不同形状的盒子,YOLOv2 会先猜一些“标准盒子”(锚框),然后根据这些盒子微调出真实的边界框。这样,每个格子可以预测更多框(默认 5 个),小物体和密集物体检测效果更好。

网络架构

YOLOv2 抛弃了 GoogleNet,设计了一个新网络叫 Darknet-19。它有 19 个卷积层和 5 个池化层,输入图片大小变成了 416×416(不是 448×448 了),输出是 13×13 的网格。为什么是 13×13?因为 416 除以 32(卷积过程中的步幅)刚好是 13。每个格子预测 5 个锚框,输出张量变成了 13×13×(5×(5+类别数))。

损失函数详解

YOLOv2 的损失函数和 YOLOv1 类似,但优化了细节:

解释一下:

通俗解释

YOLOv2 的损失函数更聪明了。它不再直接预测框的位置,而是预测相对于锚框的偏移量,这样模型更容易学到规律。置信度也更依赖 IoU,让“框得好不好”更科学。

新特性

  1. Batch Normalization:加在卷积层后,加速训练,提升精度。
  2. 高分辨率训练:先用低分辨率训练,再切换到高分辨率。
  3. 多尺度训练:随机调整输入大小(比如 320×320 到 608×608)。

优点与缺点

  • 优点:精度提升到 mAP 78.6%,FPS 还能保持 67,实时性超强。
  • 缺点:对极小物体仍不够敏感,复杂场景下仍有改进空间。

第三部分:YOLOv1 vs YOLOv2——全方位对比

网络架构

  • YOLOv1:24 个卷积层 + 2 个全连接层,输入 448×448,输出 7×7 网格。
  • YOLOv2:Darknet-19(19 个卷积层),输入 416×416,输出 13×13 网格,去掉全连接层。

损失函数

  • YOLOv1:直接预测坐标,权重不平衡。
  • YOLOv2:预测锚框偏移量,用 IoU 优化置信度。

检测能力

  • YOLOv1:2 个框/格子,适合大物体。
  • YOLOv2:5 个锚框/格子,小物体检测更好。

性能指标

  • FPS:YOLOv1 约 45,YOLOv2 高达 67。
  • mAP:YOLOv1 为 63.4%,YOLOv2 提升到 78.6%。

第四部分:概念扫盲——mAP、FPS、IoU 等

mAP(平均精度均值)

mAP 是“总成绩”,先算每个类别的 AP(精度-召回率曲线下面积),再平均。越高越好。

FPS(每秒帧数)

FPS 是速度指标,越高越适合实时应用。

精准率(Precision)和召回率(Recall)

  • 精准率:预测对的占预测总数的比例。
  • 召回率:找到的占真实总数的比例。

IoU(交并比)

IoU = 重叠面积 / 总面积,衡量框的准度。

YOLOv1 和 YOLOv2 是目标检测的里程碑。YOLOv1 用“快”打开新思路,YOLOv2 在速度和精度上找到平衡。

第五部分:代码示例

from ultralytics import YOLO# 加载预训练的YOLO模型
model = YOLO('yolov8n.pt')  # 使用YOLOv8 nano模型,适合轻量级应用# 进行目标检测
results = model('image.jpg')  # 输入图像文件路径# 处理检测结果
for result in results:boxes = result.boxes  # 获取检测框for box in boxes:x, y, w, h = box.xywh[0]  # 获取坐标和宽高conf = box.conf.item()    # 获取置信度cls = box.cls.item()      # 获取类别print(f"检测到目标:类别={cls}, 置信度={conf:.2f}, 坐标=({x:.1f}, {y:.1f}), 宽高=({w:.1f}, {h:.1f})")# 可视化结果(保存或显示)
results[0].save()  # 保存带检测框的图像

以上是一个简单的Python代码示例,直接调用YOLO库进行目标检测,强调应用场景(如监控或自动驾驶)。

相关文章:

从 YOLOv1 到 YOLOv2:目标检测的进化之路

引言 你有没有想过,当你用手机拍一张照片,里面的人、车、狗是怎么被自动识别出来的?这背后靠的就是目标检测技术。目标检测是计算机视觉中的一个重要领域,它不仅要回答“图片里有什么”,还要告诉你“这些东西在哪里”…...

RTDETR融合[CVPR205]ARConv中的自适应矩阵卷积

RT-DETR使用教程: RT-DETR使用教程 RT-DETR改进汇总贴:RT-DETR更新汇总贴 《Adaptive Rectangular Convolution for Remote Sensing Pansharpening》 一、 模块介绍 论文链接:https://arxiv.org/pdf/2503.00467 代码链接:https:/…...

【linux】使用 crontab 新增定时任务

目录 1. 打开 crontab 编辑器2. 添加定时任务3. 保存并退出4. 确认定时任务 1. 打开 crontab 编辑器 1.在终端中输入以下命令: crontab -e2. 添加定时任务 1.在打开的 crontab 文件中,添加你的定时任务。2.假设我们希望每天的 5 点 30 分执行一个脚本…...

项目-个人博客测试报告

目录 一、项目背景 二、项目功能 三、测试计划 (1)功能测试 (2)自动化测试 (3)性能测试 一、项目背景 1、个人博客系统是一个操作简单的基于Spring前后端分离的项目,同时使用MySQL数据库来进…...

软考计算机知识-流水线

计算机流水线类似工业生产过程的流水线,在同一时间,m个部件进行不同的操作,完成对不同对象的处理。 理解重叠:让不同的指令在时间上重叠地解释。在解释第k条指令的操作完成之前,就可以开始解释第k1条指令。 题1&#…...

Linux驱动开发实战(五):Qt应用程序点RGB灯(保姆级快速入门!)

Linux驱动开发实战(五):Qt应用程序点RGB灯(保姆级快速入门!) 文章目录 Linux驱动开发实战(五):Qt应用程序点RGB灯(保姆级快速入门!)前…...

前端登录鉴权全解析:主流方案对比与实现指南

文章目录 一、常见登录鉴权方式概览1.1 主流方案对比1.2 技术特性对比 二、Session/Cookie方案2.1 实现原理2.2 代码实现2.3 优缺点分析 三、JWT方案3.1 实现原理3.2 代码实现3.3 优缺点分析 四、OAuth方案4.1 实现原理4.2 代码实现4.3 优缺点分析 五、SSO方案5.1 实现原理5.2 …...

【C++】每日一练(链表的中间结点)

本篇博客给大家带来的是用C语言来解答找中间结点! 🐟🐟文章专栏:每日一练 🚀🚀若有问题评论区下讨论,我会及时回答 ❤❤欢迎大家点赞、收藏、分享! 今日思想:不服输的…...

『大模型笔记』什么是MCP?将AI智能体与数据库和API集成

什么是MCP?将AI智能体与数据库和API集成 文章目录 MCP 由多个组件组成,最重要的有以下三个:MCP 体系结构MCP 的实际应用示例为什么要关注 MCP?官方MCP架构图总结如果你正在构建 AI 智能体,可能听说过 MCP(Model Context Protocol,模型上下文协议)。MCP 是一个开源标准…...

使用Redis如何实现分布式锁?(超卖)

分布式锁概念 在多线程环境下,为了保证数据的线程安全,锁保证同一时刻,只有一个可以访问和更新共享数据。在单机系统我们可以使用 synchronized 锁、Lock 锁保证线程安全。 synchronized 锁是 Java 提供的一种内置锁,在单个 JVM …...

【雅思播客07】I‘m in debt.负债

Hey guys! Welcome to my channel, I’m Mavis. Good morning! 欢迎来到我的频道,我是Mavis老师,早上好呀! Today we’re gonna learn a dialogue about recession, a period of temporary economic decline during which trade and indu…...

实现悬浮按钮拖动,兼容h5和微信小程序

h5用js写,微信小程序用 代码里面没有完全实现吸附边缘的功能,需要吸附边缘的话还得自己再完善下(h5的吸附边缘是可以的,小程序的还有点问题) 主要功能是:图片上写文字的悬浮按钮,文字使用的是…...

JavaScript 模块 vs C# 类:封装逻辑的两种哲学

引言 在现代软件开发中,模块化和面向对象设计是代码组织的核心课题。本文通过对比 JavaScript 模块(ES6 Module)与 C# 类(Class)的实现方式,探讨两种语言在封装逻辑时的不同哲学,并给出实际应用…...

Java面向对象编程进阶:深入理解static、单例模式与继承

在面向对象编程(OOP)中,掌握高级特性是提升代码质量和设计能力的关键。本文基于Java语言,深入探讨static关键字、单例设计模式、继承等核心概念,并结合实际应用场景与深度思考,帮助读者构建系统化的知识体系…...

【6】拓扑排序学习笔记

前言 有向无环图和拓扑排序直接关联到中后期的图论建模思想,是很重要的基础知识。这个如果不彻底弄懂,以后图论会很困难。 有向无环图 正如其名,一个边有向,没有环的图,也叫DAG。 DAG图实际运用:描述含…...

珠算之加减法中出现负数情况

在珠算加减法过程中出现负数情况的处理 如果数字 A 小于 B,要求计算 A-B,此时出现了小数减大数的情况,其结果应该是负数。 在平时,计算 A-B 时,如果发现 A 小于 B,则计算时只要计算 B-A,结果记…...

使用Python在Word中生成多种不同类型的图表

目录 工具与环境配置 在 Word 中创建图表的步骤 在Word中创建柱形图 在Word中创建条形图 在Word中创建折线图 在Word中创建饼图 在Word中创建散点图 在Word中创建气泡图 在 Word 文档中插入图表不仅能更直观地呈现数据,还能提升文档的可读性和专业性。常见的…...

pycharm + anaconda + yolo11(ultralytics) 的视频流实时检测,保存推流简单实现

目录 背景pycharm安装配置代码实现创建本地视频配置 和 推流配置视频帧的处理和检测框绘制主要流程遇到的一些问题 背景 首先这个基于完整安装配置了anaconda和yolo11的环境,如果需要配置开始的话,先看下专栏里另一个文章。 这次的目的是实现拉取视频流…...

Netty基础—5.Netty的使用简介

大纲 1.Netty服务端的启动流程 2.服务端IO事件的处理类 3.Netty客户端的启动流程 4.客户端IO事件的处理类 5.启动Netty服务端和客户端的方法说明 6.Netty服务端和客户端使用总结 7.什么是TCP粘包拆包 8.TCP粘包拆包的几种情况 9.TCP粘包拆包的原因 10.粘包问题的解决…...

C++初阶——类和对象(一)

C初阶——类和对象(一) 一、面向过程和面向对象 1.面向过程 面向过程的程序设计(Procedure-Oriented Programming),简称POP,是一种是以程序执行流程为核心的编程范式。它是先分析出解决问题所需要的的步…...

1141. 【贪心算法】排队打水

题目描述 有n&#xff08;n<1000&#xff09;个人在一个水龙头前排队接水&#xff0c;假如每个人接水的时间为Ti&#xff0c; 请编程找出这n个人排队的一种顺序&#xff0c;使得n个人的平均等待时间最小。输入 输入文件共两行&#xff0c;第一行为n&#xff1b; 第二行分别…...

RabbitMQ入门:从安装到高级消息模式

文章目录 一. RabbitMQ概述1.1 同步/异步1.1.1 同步调用1.1.2 异步调用 1.2 消息中间件1.2.1 概念1.2.2 作用1.2.3 常见的消息中间件1.2.4 其他中间件 1.3 RabbitMQ1.3.1 简介1.3.2 特点1.3.3 方式1.3.4 架构1.3.5 运行流程 二. 安装2.1 Docker 安装 RabbitMQ 三. 简单队列&…...

Linux应用:进程的回收

进程的诞生和消亡 程的诞生通常是通过系统调用&#xff08;如fork、exec等&#xff09;来创建新进程。当一个进程完成其任务或者出现错误时&#xff0c;它会进入消亡阶段。进程可以通过exit函数主动结束自身&#xff0c;也可能由于操作系统的调度策略&#xff08;如资源耗尽、…...

如何利用 AI 技术快速定位和修复生产环境问题

网罗开发 &#xff08;小红书、快手、视频号同名&#xff09; 大家好&#xff0c;我是 展菲&#xff0c;目前在上市企业从事人工智能项目研发管理工作&#xff0c;平时热衷于分享各种编程领域的软硬技能知识以及前沿技术&#xff0c;包括iOS、前端、Harmony OS、Java、Python等…...

Linux find 命令完全指南

find 是 Linux 系统最强大的文件搜索工具&#xff0c;支持 嵌套遍历、条件筛选、执行动作。以下通过场景分类解析核心用法&#xff0c;涵盖高效搜索、文件管理及高级技巧&#xff1a; 一、基础搜索模式 1. 按文件名搜索&#xff08;精确/模糊匹配&#xff09; <BASH> f…...

市场波动中的风险管理与策略优化

市场波动中的风险管理与策略优化 在市场交易中&#xff0c;价格的波动性为投资者提供了交易机会&#xff0c;但同时也带来了风险。如何在市场不确定性中进行有效的风险管理&#xff0c;并优化交易策略&#xff0c;是每位交易者都需要思考的问题。本文将探讨市场波动的影响因素、…...

(链表)206. 反转链表

给你单链表的头节点 head &#xff0c;请你反转链表&#xff0c;并返回反转后的链表。 示例 1&#xff1a; 输入&#xff1a;head [1,2,3,4,5] 输出&#xff1a;[5,4,3,2,1]示例 2&#xff1a; 输入&#xff1a;head [1,2] 输出&#xff1a;[2,1]示例 3&#xff1a; 输入&am…...

Jetson Orin NX jupyter lab的安装和使用

主要是为了梳理一下整个过程&#xff0c;其实步骤很简单&#xff0c;但容易出错。 注意&#xff0c;实际只有两个文件需要写入&#xff0c;一个是jupyter_lab_config.py&#xff0c;一个是jupyter.service。 配置文件的名字要写对&#xff0c;如果总是copy网上的代码&#xff0…...

前端npm包- CropperJS

文章目录 一、CropperJS**核心特性****官网与文档****安装与使用**1. **通过 npm/yarn/pnpm 安装**2. **HTML 结构**3. **引入 CSS 和 JS**4. **初始化裁剪器** **相关插件/替代方案****适用场景****注意事项** 总结 一、CropperJS cropperjs 是一个轻量级、功能强大的 图片裁…...

农业建设项目管理系统评测:8款推荐工具优缺点分析

本文主要介绍了以下8款农业建设项目管理系统&#xff1a;1.PingCode&#xff1b; 2. Worktile &#xff1b;3. 建米农业工程项目管理系统&#xff1b;4. 开创云数字农业管理平台&#xff1b; 5. Trimble Ag Software&#xff1b;6.Conservis&#xff1b; 7. Agworld &#xff1…...