当前位置: 首页 > news >正文

【卷积神经网络】YOLO 算法原理

在计算机视觉领域中,目标检测(Object Detection)是一个具有挑战性且重要的新兴研究方向。目标检测不仅要预测图片中是否包含待检测的目标,还需要在图片中指出它们的位置。2015 年,Joseph Redmon, Santosh Divvala 等人提出第一个 YOLO 模型,该模型具有实时性高、支持多物体检测的特点,已成为目标检测领域热门的研究算法。本文主要介绍 YOLO 算法及其基本原理。

目录

1 YOLO 算法介绍

2 YOLO 算法原理

2.1 滑动窗口的卷积实现

2.2 非极大值抑制

2.3 Anchor Box


1 YOLO 算法介绍

        在目标检测算法的发展过程中,人们一开始采用 Proposal + 图像分类的思路,Proposal 用于预测目标位置,分类用于识别目标的类别。这类算法被称为 Two-stage 算法,例如 R-CNN,Faster R-CNN 算法。

        2015 年,Joseph Redmon, Santosh Divvala 等人在《You Only Look Once: Unified, Real-Time Object Detection》论文中提出 YOLO 模型,开启了 YOLO 算法的研究热潮。经过后来人们的不断改进,YOLO 算法已经发展成为一个庞大的家族,后来人们把第一个 YOLO 模型称为 YOLO v1 模型。

YOLO 检测算法的大致处理步骤:

(1)调整输入图像的大小为 448 x 448;

(2)使用卷积网络对输入图像执行一次预测;

(3)对预测结果进行非极大值抑制。

        YOLO 模型使用单个卷积网络同时预测多个边界框,以及对应框的类别概率。与传统的目标检测方法相比,这种统一的模型有以下优点:

        (1)YOLO 的预测速度快,由于模型将检测框转化为回归问题,因此只用一个网络同时输出目标的位置与分类信息;

        (2)YOLO 模型在进行预测时对图像进行全局推理。与基于滑动窗口和区域建议的技术不同,YOLO 在训练和测试期间看到整个图像,因此它隐式地学习关于类别及其形状的上下文信息。

参考论文链接:

[1] You Only Look Once: Unified, Real-Time Object Detection

[2] YOLO9000: Better, Faster, Stronger

2 YOLO 算法原理

        YOLO 算法把输入图像分成 S x S 个方格,每个方格输出一个 B x 5 + C 维的张量。这里,B 是每个方格预测方框(Bounding box)的数目,C 表示需要检测的对象类别数目。如果检测目标的中点落在某个方格内,那么目标物体就由该方格进行检测与输出。

        YOLO 算法采用了相对坐标的方法,并使用 Logistic 激活函数,使每个坐标的取值落在区间 0 到 1。目标检测网络在每个边界框处预测 5 个值,分别是 t_{x}, \, t_{y}, \, t_{w}, \, t_{h} 和 t_{o}. 如果单元格相对图像左上角偏移记为 (c_{x}, c_{y}),并且先验边界框宽度、高度分别记为 p_{w}, \, p_{h},对应的预测结果为:

b_{x} = \sigma (t_{x}) + c_{x}

b_{y} = \sigma (t_{y}) + c_{y}

b_{w} = p_{w} \, e^{t_{w}}

b_{h} = p_{h} \, e^{t_{h}}

Pr(object) * IOU(b, object) = \sigma (t_{o})

2.1 滑动窗口的卷积实现

        YOLO v1 检测网络有 24 个卷积层,以及最后的 2 个全连接层。中间交替的 1×1 卷积层用于减少先前层的特征数量。

        相比 YOLO v1 模型,YOLO v2 输出层使用卷积层代替全连接层。这样处理之后,间接地使用卷积算子实现滑动窗口的功能,滑动窗口移动的步长是卷积运算的步长。最终检测网络只需执行一次检测过程,就可以同时输出不同区域的预测结果。

2.2 非极大值抑制

        把输入图像分成多个方格的设计思路,增强了网络检测多个物体的能力。通常一个待检测的对象由一个方格进行预测,然而对于较大的检测对象,同一个对象可能会触发多个预测框,非极大值抑制(Non-max suppression)可以解决这个问题。

非极大值抑制的大致过程如下:

(1)选择预测得分最高的预测框;

(2)遍历剩下的预测框,逐个计算 IoU 值;

(3)如果 IoU 值超过阈值(通常设为 0.5 或 0.6),则丢弃预测框,否则保留;

(4)选择预测得分第二高的预测框,重复 (2)~(3)步骤。

2.3 Anchor Box

        当图像中存在两个物体,且这两个物体的中点均落在同一个方格中时,目标检测网络只能输出其中一个物体的位置结果。这时就需要引入 Anchor box 的设计思路。
        Anchor box 的思路是,预先定义两个形状不同的预测框,然后重新定义预测标签。预测标签同时包含 anchor box1 与 anchor box2 的预测信息。在训练网络时,检测对象会分配给包含其中点的方格,并且具有较高 IoU 值的 anchor box。

        由于这些预测框带有先验信息,因此也被称为先验框。

        相比手工选择的方式,YOLO v2 模型对训练集的标注框进行了 k-means 聚类。在聚类个数 k 取 5 时,模型在召回率与复杂性之间折衷。

【参考文献】

[1] Joseph Redmon, et al. “You only look once: Unified, real-time object detection.” Proceedings of the IEEE conference on computer vision and pattern recognition. 2016.

[2] Joseph Redmon, et al. “YOLO9000: Better, Faster, Stronger”  Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition. 2017.

相关文章:

【卷积神经网络】YOLO 算法原理

在计算机视觉领域中,目标检测(Object Detection)是一个具有挑战性且重要的新兴研究方向。目标检测不仅要预测图片中是否包含待检测的目标,还需要在图片中指出它们的位置。2015 年,Joseph Redmon, Santosh Divvala 等人…...

云计算与ai人工智能对高防cdn的发展

高防CDN(Content Delivery Network)作为网络安全领域的一项关键技术,致力于保护在线内容免受各种网络攻击,包括分布式拒绝服务攻击(DDoS)等。然而,随着人工智能(AI)和大数…...

Web3时代:探索DAO的未来之路

Web3 的兴起不仅代表着技术进步,更是对人类协作、创新和价值塑造方式的一次重大思考。在 Web3 时代,社区不再仅仅是共同兴趣的聚集点,而变成了一个价值交流和创新的平台。 去中心化:超越技术的革命 去中心化不仅仅是 Web3 的技术…...

odbcinst文件

odbcinst文件是ODBC(Open Database Connectivity)驱动程序管理器的配置文件。ODBC是一种标准的数据库访问接口,允许应用程序通过统一的方式连接和访问不同类型的数据库。 odbcinst文件通常位于操作系统的特定目录中,并且用于定义…...

(CQUPT 的某数据结构homework)

CQUPT 的某数据结构homework 基于线性表的图书信息管理基于栈的算术表达式求值基于字符串模式匹配算法的病毒感染检测问题 基于哈夫曼树的数据压缩算法基于二叉树的表达式求值算法基于 Dijsktra 算法的最短路基于广度优先搜索的六度空间排序算法的实现与分析 基于线性表的图书信…...

Android页面周期、页面跳转

1.什么是Activity? Activity是Android的四大组件之一,它是一种可以包含用户界面的组件,主要用于和用户进行交互。Activity用于显示用户界面,用户通过Activity交互完成相关操作,一个APP允许有多个Activity。 2.Activi…...

腾讯云轻量应用镜像、系统镜像、Docker基础镜像、自定义镜像和共享镜像介绍

腾讯云轻量应用服务器镜像类型分为应用镜像、系统镜像、Docker基础镜像、自定义镜像和共享镜像,腾讯云百科txybk.com来详细说下不同镜像类型说明和详细介绍: 轻量应用服务器镜像类型说明 腾讯云轻量应用服务器 应用镜像:独有的应用镜像除了包…...

YOLOv8芒果独家首发 | 改进新主干:改进版目标检测新范式骨干PPHGNetv2,百度出品,提升YOLOv8检测能力

💡本篇内容:YOLOv8改进新主干:目标检测新范式骨干PPHGNetv2改进版,百度出品,提升YOLOv8检测能力 💡🚀🚀🚀本博客 改进源代码改进 适用于 YOLOv8 按步骤操作运行改进后的代码即可 💡本文提出改进 原创 方式:二次创新,YOLOv8专属,充分结合YOLOv8和 PPHGNetv…...

工作测试点

智能硬件的兼容性测试 通常涉及以下几个方面: 硬件兼容性测试:测试智能硬件是否与不同类型的设备(如电脑、手机、平板电脑等)硬件兼容。这包括测试设备的接口类型(如USB、HDMI、Bluetooth等)是否能够正确连…...

智慧医院—互联网医院系统带你体验数字化时代

智慧医疗作为当今医疗领域的新热点,也将在未来中得到充分展现。包括智慧医院、远程医疗、医疗大数据等多个方面,这些智慧医疗新产物和服务将改变传统的医疗模式,提供更加高效、便捷的医疗服务。 1、远程医疗服务:智慧医疗为患者提…...

eclipse Occurrence

eclipse Occurrence Occurrence of initUi2_setData_99 Window->Preferences->General->Editors->Text Editors->Annotations->Occurrences 个人感觉最好用的颜色; 边线,正文都可以看得清楚...

浏览器自动化脚本 Selenium WebDriver(Java)常用 API 汇总

一、Selenium Webdriver 常用的API &#xff08;一&#xff09;引入依赖 <dependency><groupId>org.seleniumhq.selenium</groupId><artifactId>selenium-java</artifactId><version>3.141.59</version></dependency>开始&am…...

学习笔记|两独立样本秩和检验|曼-惠特尼 U数据分布图|规范表达|《小白爱上SPSS》课程:SPSS第十二讲 | 两独立样本秩和检验如何做?

目录 学习目的软件版本原始文档两独立样本秩和检验一、实战案例二、统计策略三、SPSS操作1、正态性检验2、两样本秩和检验 四、结果解读疑问&#xff1a;曼-惠特尼 U数据分布图如何绘制&#xff1f; 五、规范报告1、规范表格2、规范文字 六、划重点 学习目的 SPSS第十二讲 | 两…...

【Python微信机器人】第三篇:使用ctypes调用进程函数和读取内存结构体

目录修整 目前的系列目录(后面会根据实际情况变动): 在windows11上编译python将python注入到其他进程并运行注入Python并使用ctypes主动调用进程内的函数和读取内存结构体使用汇编引擎调用进程内的任意函数利用beaengine反汇编引擎的c接口写一个pyd库&#xff0c;用于实现inl…...

easyExcel按模板填充数据,处理模板列表合并问题等,并导出为html,pdf,png等格式文件demo

1.工具类 /*** excle模板填充并转换html* * @param response 返回* @param order 主体内容* @param goods 配件列表* @param pro 项目列表* @throws IOException*/public static void moudleExcleToHtml(HttpServletResponse response, String moudleUrl, Object o…...

怎么开发小程序?微信小程序开发方式

小程序开发之所以受到欢迎&#xff0c;是因为相比于APP&#xff0c;小程序的开发成本更低。不需要下载和安装&#xff0c;用户可以直接在微信内使用&#xff0c;节省了开发和维护的成本。小程序的开发方式有很多种&#xff0c;常见的有&#xff1a;自己源码开发、模板编辑、购买…...

测试从外包到自研再到大厂,这5年鬼知道我是怎么过来的

18岁那年我背井离乡来到从来没有来过的郑州。在一所普通的二本院校里学网络工程。 很明显&#xff0c;在大学以前只会用电脑开关机打LOL的我恍然间只觉得自己来到了人间天堂&#xff0c;没有人管&#xff0c;也没有任何烦恼无忧无虑的过了三年大学生涯。 直到秋招的开始&…...

Stable Diffusion系列(二):ControlNet基础控件介绍

文章目录 线稿提取类Canny&#xff1a;边缘检测SoftEdge&#xff1a;软边缘检测Lineart&#xff1a;精细线稿提取Scribble/Sketch&#xff1a;涂鸦提取MLSD&#xff1a;建筑领域的线条提取 3D提取类Normal map&#xff1a;法线贴图Depth&#xff1a;深度计算Segmentation&#…...

sql server数据库跟踪——SQL Server Profiler解析

工具&#xff1a; SQL Server Profiler这个工具是SQL Server数据库自带的语句执行跟踪工具&#xff0c;常使用于分析软件修改数据库时所执行的语句&#xff0c;适合用来研究软件运行数据库的原理。 打开方式&#xff1a; 本机安装了SQL server的话&#xff0c;都是自带的。直接…...

多机多卡分布式训练

1. 环境搭建 分布式训练框架&#xff1a;acceleratedeepspeedpdsh(可有可无)基础环境&#xff1a;cuda、显卡驱动、pytorch 1.1 安装相关包 cuda安装&#xff1a;参考官网安装步骤 wget https://developer.download.nvidia.com/compute/cuda/11.8.0/local_installers/cuda-…...

滞回电压计算的误差来源与修正策略

滞回比较器的阈值与滞回电压计算&#xff0c;通常基于理想运放与理想元件模型&#xff0c;但实际电路中&#xff0c;运放非理想特性、元件参数误差、外部干扰等因素&#xff0c;会导致理论计算值与实际测量值存在偏差 —— 轻则影响抗干扰效果&#xff0c;重则导致电路阈值偏移…...

如何快速搭建个人数字图书馆:Talebook私有书库终极指南

如何快速搭建个人数字图书馆&#xff1a;Talebook私有书库终极指南 【免费下载链接】talebook 一个简单好用的个人书库 项目地址: https://gitcode.com/gh_mirrors/ta/talebook 想要拥有一个属于自己的数字图书馆吗&#xff1f;Talebook是一个基于Calibre的简单好用的个…...

可解释AI(XAI):让黑盒模型变得透明

XAI在软件测试中的革命性意义在人工智能&#xff08;AI&#xff09;技术迅猛发展的今天&#xff0c;深度学习等黑盒模型已成为软件系统的核心组件&#xff0c;广泛应用于推荐系统、自动驾驶、金融风控等领域。然而&#xff0c;这些模型的决策过程往往像“黑箱”一样不可预测&am…...

医疗数据报表无数据问题完整排查复盘

一、场景与问题说明本次问题发生在医疗数据中台病案相关报表开发中&#xff0c;具体场景为&#xff1a;超声门诊科室相关的业务报表&#xff0c;在展示检查项目名称、执行医生这两个关键字段时&#xff0c;完全无数据展示&#xff0c;前端页面一片空白&#xff0c;客户直接反馈…...

营销自动化数据驱动 - 多源数据 OLAP 架构演进们

1. 流图&#xff1a;数据的河流 如果把传统的堆叠面积图想象成一块块整齐堆叠的积木&#xff0c;那么流图就像一条蜿蜒流淌的河流&#xff0c;河道的宽窄变化自然流畅&#xff0c;波峰波谷过渡平滑。 它特别适合展示多个类别数据随时间的变化趋势&#xff0c;尤其是当你想强调整…...

让开发流程更高效:为 Visual Studio 订阅用户解锁 Syncfusion凸

一、什么是requests&#xff1f; requests 是一个用于发送HTTP请求的 Python 库。 它可以帮助你&#xff1a; 轻松发送GET、POST、PUT、DELETE等请求 处理Cookie、会话等复杂性 自动解压缩内容 处理国际化域名和URL 二、应用场景 requests 广泛应用于以下实际场景&#xff1a; …...

Beyond All Reason代码架构分析:理解Spring引擎上的游戏开发模式

Beyond All Reason代码架构分析&#xff1a;理解Spring引擎上的游戏开发模式 【免费下载链接】Beyond-All-Reason Main game repository for Beyond All Reason. 项目地址: https://gitcode.com/gh_mirrors/be/Beyond-All-Reason Beyond All Reason&#xff08;简称BAR&…...

OpenClaw资源监控:Qwen3.5-9B预警系统异常与自动处理

OpenClaw资源监控&#xff1a;Qwen3.5-9B预警系统异常与自动处理 1. 为什么需要智能化的资源监控 去年夏天&#xff0c;我的开发机因为磁盘写满导致线上服务日志无法写入&#xff0c;造成了整整两小时的服务中断。这件事让我意识到&#xff1a;传统的监控告警系统存在两个致命…...

# 002、智能体基础架构:从LLM到多模态模型的支撑体系

上周调一个视觉问答的Demo&#xff0c;半夜被报警短信吵醒。日志里赫然一行&#xff1a;RuntimeError: Expected tensor for image to be CUDA, but got CPU。就这一行错误&#xff0c;背后是三个小时的多模态数据管道调试——图像在预处理阶段漏了.cuda()&#xff0c;而文本编…...

git restore --source 提交id 和 git reset --hard 提交id 有什么区别

这两个命令长得像、都能“回到过去”&#xff0c;但核心逻辑、操作范围、安全性天差地别&#xff0c;一句话先点破&#xff1a; ✅ git restore --source 提交id&#xff1a;文件级操作&#xff0c;只恢复文件内容&#xff0c;不删提交历史、不改动分支&#xff0c;安全无风险 …...