YOLOv5基础知识入门(3)— 目标检测相关知识点

前言:Hello大家好,我是小哥谈。YOLO算法发展历程和YOLOv5核心基础知识学习完成之后,接下来我们就需要学习目标检测相关知识了。为了让大家后面可以顺利地用YOLOv5进行目标检测实战,本节课就带领大家学习一下目标检测的基础知识点,希望大家学习之后有所收获!🌈
前期回顾:
YOLOv5基础知识入门(1)— YOLO算法的发展历程
YOLOv5基础知识入门(2)— YOLOv5核心基础知识讲解
目录
🚀1.目标检测
🚀2.目标检测数据集
2.1 PASCAL VOC数据集
2.2 MS COCO数据集
🚀3.目标检测性能指标
3.1 检测精度指标
3.2 检测速度指标

🚀1.目标检测
目标检测(Object Detection)的任务是找出图像中所有感兴趣的目标(物体),确定它们的位置和大小,是机器视觉领域的核心问题之一。由于各类物体有不同的外观、形状、姿态,再加上成像时的光照、遮挡等因素的干扰,目标检测一直是机器视觉领域最具有挑战性的问题。🍃
计算机视觉中关于图像识别有四大类任务:
- 分类(Classification):解决“是什么?”的问题,即给定一张图片或一段视频判断里面包含什么类别的目标。
- 定位(Location):解决“在哪里?”的问题,即定位出这个目标的的位置。
- 检测(Detection):解决“是什么?在哪里?”的问题,即定位出这个目标的的位置并且知道目标物体是什么。
- 分割(Segmentation):分为实例的分割(Instance-level)和场景分割(Scene-level),解决“每一个像素属于哪个目标物或场景”的问题。
说明:
百科定义:♨️♨️♨️
目标检测,也叫目标提取,是一种基于目标几何和统计特征的图像分割。它将目标的分割和识别合二为一,其准确性和实时性是整个系统的一项重要能力。尤其是在复杂场景中,需要对多个目标进行实时处理时,目标自动提取和识别就显得特别重要。随着计算机技术的发展和计算机视觉原理的广泛应用,利用计算机图像处理技术对目标进行实时跟踪研究越来越热门,对目标进行动态实时跟踪定位在智能化交通系统、智能监控系统、军事目标检测及医学导航手术中手术器械定位等方面具有广泛的应用价值。
关于目标检测,具体如下图所示:

用YOLOv5进行目标检测,我们需要解决所检测目标的定位和识别问题。💗
定位(Localization):解决的是目标“在哪里?”的问题,即需要获知目标位置(最小外接矩形,Bounding box)。
识别(Recognition):解决的是目标“是什么?”的问题,即需要获知目标的类别标签(Category label)和置信度得分(Confidence score)。
说明:
置信度:♨️♨️♨️
置信度是介于0-1(或100%)之间的数字,它描述模型认为此预测边界框包含某类别目标的概率。通俗来说,即有多大概率确定所检测的物体是某物体。
同时,除了目标检测,还有分类、定位、实例分割等任务。
定位是找到检测图像中带有一个给定标签的单个目标 。
检测是找到图像中带有给定标签的所有目标。

🚀2.目标检测数据集
目标检测需要使用到数据集,本节课就给大家介绍一下目标检测领域常用的PASCAL VOC和MS COCO数据集。🍄
2.1 PASCAL VOC数据集
PASCAL VOC挑战赛在2005年至2012年间展开。PASCAL VOC挑战赛 (The PASCAL Visual Object Classes )是一个世界级的计算机视觉挑战赛,PASCAL全称:Pattern Analysis, Statical Modeling and Computational Learning,是一个由欧盟资助的网络组织。很多优秀的计算机视觉模型比如分类、定位、检测、分割、动作识别等模型都是基于PASCAL VOC挑战赛及其数据集上推出的,尤其是一些目标检测模型(比如大名鼎鼎的R-CNN系列,以及后面的YOLO、SSD等)。📚
PASCAL VOC从2005年开始举办挑战赛,每年的内容都有所不同,从最开始的分类,到后面逐渐增加检测、分割、人体布局、动作识别(Object Classification 、Object Detection、Object Segmentation、Human Layout、Action Classification)等内容,数据集的容量以及种类也在不断的增加和改善。该项挑战赛催生出了一大批优秀的计算机视觉模型(尤其是以深度学习技术为主的)。🎏
PASCAL VOC 2007: 9963张图像,24640个标注。
PASCAL VOC 2012: 11530 张图像,27450个标注。
该数据集有20个分类:
- Person: person
- Animal: bird、cat、cow、dog、horse、sheep
- Vehicle: aeroplane、bicycle、boat、bus、car、motorbike、train
- Indoor: bottle、chair、dining table、potted plant、sofa、tv/monitor

说明:
链接: The PASCAL Visual Object Classes Challenge 2012 (VOC2012)
2.2 MS COCO数据集
MS COCO的全称是Microsoft Common Objects in Context,起源于是微软于 2014年出资标注的Microsoft COCO数据集,与ImageNet 竞赛一样,被视为是计算机视觉领域最受关注和最权威的比赛之一。在ImageNet竞赛停办后,COCO竞赛就成为是当前目标识别、检测等领域的一个最权威、最重要的标杆,也是目前该领域在国际上唯一能汇集Google、微软、 Facebook以及国内外众多顶尖院校和优秀创新企业共同参与的大赛。🎏
COCO(Common Objects in Context)数据集包含20万个图像:11.5万多张训练集图像, 5千张验证集图像,2万多张测试集图像。80个类别中有超过50万个目标标注,平均每个图像的目标数为7.2。🌷
说明:
链接:COCO - Common Objects in Context (cocodataset.org)
🚀3.目标检测性能指标
目标检测的性能指标包括检测精度(检测效果是否足够好)和检测速度(检测速度是否足够快)。🍉
检测精度指标:
- Precision, Recall, F1 score
- IoU (Intersection over Union)
- P-R curve (Precison-Recall curve)
- AP (Average Precision)
- mAP (mean Average Precision)
检测速度指标:
- 前传耗时
- 每秒帧数 FPS (Frames Per Second)
- 浮点运算量(FLOPS)
3.1 检测精度指标
(1)混淆矩阵(confusion matrix)
混淆矩阵(confusion matrix),是对分类问题预测结果的总结。使用计数值汇总正确和不正确预测的数量,并按每个类进行细分,显示了分类模型进行预测时会对哪一部分产生混淆。通过这个矩阵可以方便地看出机器是否将两个不同的类混淆了(即把一个类错认成了另一个)。🐳
混淆矩阵不仅可以让我们直观的了解分类模型所犯的错误,更重要的是可以了解哪些错误类型正在发生,正是这种对结果的分解克服了仅使用分类准确率带来的局限性(总体到细分)。❤️

总结:
精度Precision(查准率)是评估预测的准不准(看预测列)
召回率Recall(查全率)是评估找的全不全(看实际行)
(2)IoU (Intersection over Union )
IoU(Intersection over Union,IoU),即两个边界框相交面积与相并面积的比值,边界框的准确度可以用IoU进行表示;一般约定,在检测中,IOU>0.5,则认为检测正确,IOU<0.5,则认为检测错误。一般阈值设为0.5(需要根据实际情况进行设定)。🌱

说明:
IoU与混淆矩阵的关系:♨️♨️♨️
如果阈值设为0.5,那么
如果IOU ≥ 0.5,则认为检测正确,归类为TP。
如果IOU<0.5,则认为检测错误,归类为FP。
当图像中存在一个真实目标,而未能检测到目标时,将其归类为FN。
当没有检测某图像的物体时(即没有对该图像进行检测,该图像其实没有用处),将其归类为TN。
(3)P-R curve
P-R curve (Precison-Recall curve)曲线体现的是精确率和召回率的关系。在准确率很高的前提下,尽可能的检测到全部的类别。因此希望我们的曲线接近(1,1),即希望曲线的面积尽可能接近1。🌟

(4)AP和mAP
AP (Average Precision),衡量的是学习出来的模型在每个类别上的好坏。
mAP (mean Average Precision),衡量的是学习出来的模型在所有类别上的好坏。mAP就是取所有类别上AP的平均值。

用一个简单的例子来演示平均精度(AP)的计算。 假设数据集中总共有5个苹果。 我们收集模型为苹果作的所有预测(以10次预测举例),并根据预测的置信水平(从最高到最低)对其进行排名。 第二列表示预测是否正确。 如果它与 ground truth匹配并且IoU≥0.5,则是正确的。🌺
由下图可以看到,Recall随着包含更多预测而增加,但Precision会上下波动。

3.2 检测速度指标
前传耗时(ms):从输入一张图像到输出最终结果所消耗的时间,包括前处理耗时(如图像归一化)、网络前传耗时、后处理耗时(如非极大值抑制)。🌿
说明:
关于非极大值抑制,请参考我的另外一篇文章:♨️♨️♨️
目标检测中NMS(非极大值抑制)原理解析
每秒帧数 FPS(Frames Per Second):每秒钟能处理的图像数量 。
FPS是图像领域中的定义,是指画面每秒传输帧数,通俗来讲就是指动画或视频的画面数。FPS是测量用于保存、显示动态视频的信息数量。每秒钟帧数愈多,所显示的动作就会愈流畅。通常,要避免动作不流畅的最低是30。🍀
浮点运算量(FLOPS):处理一张图像所需要的浮点运算数量,跟具体软硬件没有关系,可以公平地比较不同算法之间的检测速度。

相关文章:
YOLOv5基础知识入门(3)— 目标检测相关知识点
前言:Hello大家好,我是小哥谈。YOLO算法发展历程和YOLOv5核心基础知识学习完成之后,接下来我们就需要学习目标检测相关知识了。为了让大家后面可以顺利地用YOLOv5进行目标检测实战,本节课就带领大家学习一下目标检测的基础知识点&…...
10个AI绘图生成器让绘画更简单
AI不仅影响商业和医疗保健等行业,还在创意产业中发挥着越来越大的作用,开创了AI绘画生成器新时代。在绘画领域当然也是如此,与传统的绘画工具不同,AI人工智能时代的绘画工具是全自动的、智能的,甚至可以说是“傻瓜式”…...
干货满满的Python知识,学会这些你也能成为大牛
目录 1. 爬取网站数据 2. 数据清洗与处理 3. 数据可视化 4. 机器学习模型训练 5. 深度学习模型训练 6. 总结 1. 爬取网站数据 在我们的Python中呢,使用爬虫可以轻松地获取网站的数据。可以使用urllib、requests、BeautifulSoup等库进行数据爬取和处理。以下是…...
【Leetcode】155. 最小栈、JZ31 栈的压入、弹出序列
作者:小卢 专栏:《Leetcode》 喜欢的话:世间因为少年的挺身而出,而更加瑰丽。 ——《人民日报》 155. 最小栈 155. 最小栈 题目描述; 设计一个支持 push ,pop ,top …...
网络安全(黑客技术)自学笔记
一、什么是网络安全?什么是黑客? 网络安全可以基于攻击和防御视角来分类,我们经常听到的 “红队”、“渗透测试” 等就是研究攻击技术,而“蓝队”、“安全运营”、“安全运维”则研究防御技术。 无论网络、Web、移动、桌面、云等…...
iOS学习—制作全局遮罩
在.h文件中线声明show()方法 - (void)show; .m文件中添加全屏遮罩,在遮罩上添加了一个选择框并添加了底部弹出的动画,可自行在其中添加tableview、pickerview等其他视图,并添加了点击选择框视图外区域隐藏 #import "MaskView.h"…...
GRPC-连接池-GPT
gRPC Dart 管理优化 User grpc for dart 如何统一管理多个Client的创建和销毁,给我一个最优解 ChatGPT 对于在Dart中使用gRPC创建和销毁多个Client的统一管理,您可以使用一个单例模式的管理类来实现最优解。 首先,创建一个管理类,…...
YOLOv5、YOLOv8改进: GSConv+Slim Neck
论文题目:Slim-neck by GSConv: A better design paradigm of detector architectures for autonomous vehicles 论文:https://arxiv.org/abs/2206.02424 代码:https://github.com/AlanLi1997/Slim-neck-by-GSConv 在计算机视觉领域&#x…...
重发布选路问题
一、思路 ; 1.增加不优选路开销解决选路不佳问题 2.用增加开销的方式使R1 不将ASBR传的R7传给另一台ASBR解决R1、R2、R3、R4pingR7环回环路 二、操作 ------IP地址配置如图 1.ospf及rip的宣告 rip: [r1]rip 1 [r1-rip-1]version 2 [r1-rip-1]netw…...
LinearAlgebraMIT_9_LinearIndependence/SpanningASpace/Basis/Dimension
这节课我们主要学习一下(Linear Independence)线性无关,(spanning a space)生成空间,(basis)基和(dimension)维度。同时我们要注意这四个很重要的基本概念的描述对象,我们会说向量组线性无关,由一个向量组生成的空间,子…...
Redission 解锁异常:attempt to unlock lock, not locked by current thread by node id
标题:解锁异常:Redission中的"attempt to unlock lock, not locked by current thread by node id"问题分析与解决方案 在分布式系统中,锁是常用的同步机制,用于保护共享资源,避免并发冲突。Redission是一个…...
AIGC技术揭秘:探索火热背后的原因与案例
文章目录 什么是AIGC技术?为何AIGC技术如此火热?1. 提高效率与创造力的完美结合2. 拓展应用领域,创造商业价值3. 推动技术创新和发展 AIGC技术案例解析1. 艺术创作:生成独特的艺术作品2. 内容创作:实时生成各类内容3. …...
【Linux】总结1-命令工具
文章目录 基础指令shell命令以及运行原理Linux权限粘滞位工具 基础指令 ls、pwd、touch、mkdir、netstat、cp、mv、cd、tar、zip、unzip、grep、pstack、ps、rm、cat、more、less、head、tail、find、ulimit -a、clear、whoami、man touch:创建文件,也包…...
Git远程仓库
Git远程仓库 推送拉取git fetchgit pull 克隆 推送 Git是分布式版本控制系统,同一个Git仓库,可以分布到不同的机器上。那要怎么实现这种分布呢?我们可以找一台电脑充当服务器,也就是扮演远程仓库的角色,一直都处于开机…...
Redis缓存设计
缓存能够有效地加速应用的读写速度,同时也可以降低后端负载,对日常应用的开发至关重要。但是将缓存加入应用架构后也会带来一些问题,本文将针对这些问题介绍缓存使用技巧和设计方案。 1缓存的收益和成本 下图左侧为客户端直接调用存储层的架…...
华熙生物肌活:2023年版Bio-MESO肌活油性皮肤科学护肤指南
关于报告的所有内容,公众【营销人星球】获取下载查看 核心观点 以悦己和尝鲜为消费动机的他们,已迅速崛起成为护肤行业的焦点人群。而在新生代护肤议题中,“油性皮肤护理”已经成为一个至关重要的子集。今天,中国新生代人口数量…...
mysql索引介绍
索引可以提升查询速度,会影响where查询,以及order by排序。MySQL索引类型如下: 从索引存储结构划分:B Tree索引、Hash索引、全文索引 从应用层次划分:主键索引、唯一索引、单值索引、复合索引 从索引键值类型划分&am…...
说一下什么是tcp的2MSL,为什么客户端在 TIME-WAIT 状态必须等待 2MSL 的时间?
1.TCP之2MSL 1.1 MSL MSL:Maximum Segment Lifetime报文段最大生存时间,它是任何报文段被丢弃前在网络内的最长时间 1.2为什么存在MSL TCP报文段以IP数据报在网络内传输,而IP数据报则有限制其生存时间的TTL字段,并且TTL的限制是基于跳数 1.3…...
更新spring boot jar包中的BOOT-INF/lib目录下的jar包
更新spring-boot jar包中的BOOT-INF/lib目录下的jar包 场景 需要更新lib目录下某个jar包的配置文件 失败的解决方法 用解压软件依次打开spring-boot jar包(设为a.jar)、BOOT-INF/lib目录下的jar包(设为b.jar),然后修改…...
纯前端 -- html转pdf插件总结
一、html2canvasjsPDF(文字会被截断): 将HTML元素呈现给添加到PDF中的画布对象,不能仅使用jsPDF,需要html2canvas或rasterizeHTML html2canvasjsPDF的具体使用链接 二、html2pdf(内容显示不全文字会被截断…...
2026 年 7 款国产化企业级智能体横向对比:信创适配与落地能力测评
进入 2026 年,中国信创产业已从基础软硬件的“局部替代”全面迈向核心业务系统的“体系化升级”。在这一背景下,企业级智能体(AI Agent)不再仅仅是技术实验室中的原型,而是成为了驱动金融、能源、政务等关键行业数字化…...
移远EC200N-CN模组避坑指南:STM32开发中那些容易忽略的电源、SIM卡与AT指令细节
移远EC200N-CN模组实战避坑手册:STM32开发者必须掌握的电源管理、SIM卡适配与AT指令高阶技巧 当你在深夜调试室里第17次重启EC200N-CN模组时,示波器上那个诡异的电源纹波波形终于暴露了问题所在——VBAT_RF引脚上的去耦电容竟然少焊了一个。这种看似微不…...
在Windows上轻松运行安卓应用:APK安装器完全指南
在Windows上轻松运行安卓应用:APK安装器完全指南 【免费下载链接】APK-Installer An Android Application Installer for Windows 项目地址: https://gitcode.com/GitHub_Trending/ap/APK-Installer 想在Windows电脑上直接运行安卓应用,但又不想安…...
大模型推理冷启动优化:NVIDIA Model Streamer技术解析
1. 大模型推理中的冷启动延迟问题剖析在部署大型语言模型(LLM)的实际生产环境中,冷启动延迟一直是困扰工程师的核心痛点。当用户请求突然激增时,传统的串行加载方式会导致模型权重从存储设备到GPU内存的传输过程成为明显的性能瓶颈…...
OpenLyrics:foobar2000开源歌词显示面板的完整技术解析与配置指南
OpenLyrics:foobar2000开源歌词显示面板的完整技术解析与配置指南 【免费下载链接】foo_openlyrics An open-source lyric display panel for foobar2000 项目地址: https://gitcode.com/gh_mirrors/fo/foo_openlyrics OpenLyrics是一款专为foobar2000设计的…...
告别盲猜!用Python脚本模拟UDS诊断,带你深度理解NRC的触发逻辑与优先级
告别盲猜!用Python脚本模拟UDS诊断,带你深度理解NRC的触发逻辑与优先级 在汽车电子开发与测试领域,UDS(Unified Diagnostic Services)协议作为诊断通信的核心标准,其Negative Response Code(NRC…...
智能仪表电源噪声大、影响计量精度?50V耐压CSM7375F33SR、LDO高纹波抑制+低压差设计,轻松过滤电源干扰,配合2.2μA超低静态电流,让电表水表的计量精度和续航双双拉满!
CSM7375系列LDO在电表/水表/智能仪表上的应用深度分析电表、水表等智能仪表对电源的要求非常严苛,CSM7375系列LDO的特性几乎是为这类场景量身打造的,下面从场景痛点、参数匹配、实际应用三个维度展开详细分析。一、智能仪表的电源核心痛点智能仪表&#…...
从数据日报到周报:用Hive SQL自动生成业务日期维度的完整流程
从数据日报到周报:用Hive SQL构建自动化业务日期维度的全流程指南 每天早上9点,数据团队总会收到业务部门的连环追问:"昨天的GMV数据出来了吗?""本周累计用户增长了多少?""和上月同期相比转化…...
real-anime-z部署教程:端口7860映射与Nginx反向代理配置,支持HTTPS安全访问
real-anime-z部署教程:端口7860映射与Nginx反向代理配置,支持HTTPS安全访问 1. 镜像介绍 real-anime-z 是一个专为二次元插画创作设计的文生图镜像,能够快速生成高质量的动漫风格图像。无论是角色设计、头像创作还是宣传插画,这…...
LTspice仿真运放补偿网络波特图,这个偏置调节电路是关键(附PI/II/PID模型)
LTspice仿真中运放补偿网络波特图的关键:偏置调节电路设计与实战 在电源管理和控制系统的设计中,补偿网络的波特图分析是确保环路稳定性的核心环节。许多工程师在使用LTspice进行仿真时,常常遇到一个令人困惑的现象——明明电路连接正确&…...
