YOLO的框架及版本迭代
YOLO(You Only Look Once)是一种非常流行的实时目标检测算法,其特点是将目标检测任务转换为一个回归问题,通过一次前向传播就可以同时完成目标的分类和定位。以下是YOLO框架的整体架构和工作原理:
一、YOLO的基本框架
1. 输入层
- 输入是一张图像,通常被调整为固定大小的方形图像,例如 416 × 416 416 \times 416 416×416 或 640 × 640 640 \times 640 640×640。
- 输入图像的每个像素点被归一化为 [ 0 , 1 ] [0, 1] [0,1] 之间的浮点数。
2. 主干网络(Backbone)
- 这是YOLO的核心特征提取部分,类似于卷积神经网络(CNN)。
- 不同版本的YOLO使用不同的主干网络:
- YOLOv1 使用了简单的 GoogLeNet 风格的CNN。
- YOLOv2、YOLOv3 使用了 Darknet 网络。
- YOLOv4、YOLOv5 引入了 CSPDarknet。
- YOLOv7 进一步优化了网络结构,引入了 ELAN 层。
- YOLOv8 使用了更轻量级的结构,如 EfficientNet 或 Transformer。
3. 特征金字塔网络(Feature Pyramid Network, FPN)
- 将不同尺度的特征图结合,帮助检测不同大小的目标。
- YOLOv3 及以后版本引入了 FPN 和 PAN(Path Aggregation Network),实现更好的多尺度特征融合。
4. 输出层(Detection Head)
- YOLO将输入图像划分为 S × S S \times S S×S 的网格,每个网格负责检测一个或多个目标。
- 对于每个网格,预测:
- Bounding Box:边界框的位置( x , y , w , h x, y, w, h x,y,w,h)。
- 置信度:边界框中是否有物体以及置信度。
- 类别概率:每个类别的概率。
输出的张量结构如下:
( S × S × B × ( 5 + C ) ) (S \times S \times B \times (5 + C)) (S×S×B×(5+C))
其中:
- S × S S \times S S×S:网格大小。
- B B B:每个网格的预测框数量(例如 YOLOv3 中 B = 3 B=3 B=3)。
- 5 5 5:包含边界框的 x , y , w , h x, y, w, h x,y,w,h 和置信度。
- C C C:类别数量。
二、YOLO的工作流程
- 图像输入:将原始输入图像调整为固定大小。
- 特征提取:主干网络提取图像中的特征。
- 预测框生成:生成多个边界框,并为每个框预测置信度和类别概率。
- 非极大值抑制(NMS):通过置信度和 IoU(交并比)过滤掉重叠和低置信度的框,保留最佳的预测框。
- 输出结果:输出检测到的目标类别、边界框位置和置信度。
三、YOLO的优缺点
优点:
- 速度快:YOLO可以在实时条件下完成目标检测,适用于实时应用。
- 端到端训练:YOLO直接从图像中学习特征并预测目标位置和类别。
- 单一模型:不需要额外的候选区域生成步骤。
缺点:
- 对小目标的检测效果较差:由于将图像划分为较大的网格,小目标可能被忽略。
- 精度可能不如两阶段方法(如Faster R-CNN):尤其是在复杂的背景下。
四、YOLO模型的改进版本
| 版本 | 主要改进 | 优势 |
|---|---|---|
| YOLOv1 | 单次检测,回归问题 | 速度快,简单 |
| YOLOv2 | 使用Darknet,Batch Normalization | 提高检测精度 |
| YOLOv3 | 多尺度检测,FPN | 改善小目标检测 |
| YOLOv4 | CSPDarknet、PAN、数据增强 | 进一步提升速度与精度 |
| YOLOv5 | PyTorch实现,模块化更强 | 更易训练和部署 |
| YOLOv7 | ELAN、E-ELAN模块 | 提高计算效率 |
| YOLOv8 | 支持Transformer、EfficientNet等 | 更轻量化、更高精度 |
五、YOLO的代码框架示例(PyTorch)
import torch
import torch.nn as nnclass YOLO(nn.Module):def __init__(self, num_classes=80):super(YOLO, self).__init__()# Backbone: Feature extractionself.backbone = DarknetBackbone()# Head: Detection headself.head = DetectionHead(num_classes)def forward(self, x):features = self.backbone(x)output = self.head(features)return outputclass DarknetBackbone(nn.Module):# 定义YOLO的Darknet主干网络def __init__(self):super(DarknetBackbone, self).__init__()# 多层卷积层self.layers = nn.Sequential(nn.Conv2d(3, 32, kernel_size=3, stride=1, padding=1),nn.BatchNorm2d(32),nn.ReLU(inplace=True),# 更多的卷积层...)def forward(self, x):return self.layers(x)class DetectionHead(nn.Module):# 定义检测头def __init__(self, num_classes):super(DetectionHead, self).__init__()self.conv = nn.Conv2d(512, (5 + num_classes) * 3, kernel_size=1)def forward(self, x):return self.conv(x)# 测试模型
model = YOLO(num_classes=80)
input_tensor = torch.randn(1, 3, 416, 416)
output = model(input_tensor)
print(output.shape)
总结
YOLO的核心思想是一次看全图,将目标检测作为回归问题进行端到端学习。它具有高效、实时的特点,并且通过不同版本的改进,在速度和精度之间取得了良好的平衡。
相关文章:
YOLO的框架及版本迭代
YOLO(You Only Look Once)是一种非常流行的实时目标检测算法,其特点是将目标检测任务转换为一个回归问题,通过一次前向传播就可以同时完成目标的分类和定位。以下是YOLO框架的整体架构和工作原理: 一、YOLO的基本框架…...
PotPlayer 最新版本支持使用 Whisper 自动识别语音生成字幕
PotPlayer 最新版本支持使用 Whisper 自动识别语音生成字幕 设置使用下载地址 设置 使用 下载地址 https://www.videohelp.com/software/PotPlayer...
JavaScript零基础入门速通(中)
目录 1. 函数 1.1 函数声明 1.2 返回值 1.3 匿名函数 1.4 箭头函数 2. 对象 2.1 创建对象 2.2 访问和修改对象的属性 2.3 对象方法 3. 数组 3.1 创建数组 3.2 数组方法 3.3 遍历数组 4. 作用域 4.1 全局作用域 4.2 局部作用域 4.3 块级作用域 5. 事件处理 5…...
【Yarn Bug】 yarn 安装依赖出现的网络连接问题
最近,在初始化 Ant Design Pro 前端脚手架过程中,使用 yarn 安装依赖时遇到了网络连接问题,具体错误信息提示为 info There appears to be trouble with your network connection. Retrying...。通过百度查询,得知出现这种问题的原…...
字节青训Marscode_5:寻找最大葫芦——最新题解
步骤1:问题定义与分析 输入条件: 整数n:牌的数量整数max:葫芦牌面值之和的上限数组array:n张牌的牌面值 输出条件: 两个整数组成的数组[a,b]: a表示三张相同牌的牌面值b表示两张相同牌的牌面值如…...
MySQL —— MySQL 程序
目录 前言 一、MySQL 程序简介 二、mysqld -- MySQL 服务器 三、mysql -- MySQL 客户端 1. mysql 客户端简介 2. mysql 客户端选项 (1)指定选项的方式 (2)mysql 客户端命令常用选项 (3)在命令行中使…...
LLamafactory API部署与使用异步方式 API 调用优化大模型推理效率
文章目录 背景介绍第三方大模型API 介绍LLamafactory 部署API大模型 API 调用工具类项目开源 背景介绍 第三方大模型API 目前,市面上有许多第三方大模型 API 服务提供商,通过 API 接口向用户提供多样化的服务。这些平台不仅能提供更多类别和类型的模型…...
不玩PS抠图了,改玩Python抠图
网上找了两个苏轼的印章图片: 把这两个印章抠出来的话,对于不少PS高手来说是相当容易,但是要去掉其中的水印,可能要用仿制图章慢慢描绘,图章的边缘也要慢慢勾画或者用通道抠图之类来处理,而且印章的红色也不…...
三维渲染中顺序无关的半透明混合(OIT)(一Depth Peeling)
>本文收集关于透明对象渲染技术中关于OIT技术的资料,尝试用简单的逻辑对这些内容进行整理。 1、透明对象的特殊对待 不要小瞧png图片和jpg图片的差异!在一般的三维平台,png代表的是带透明通道的纹理,而jpg代表的是不带透明的…...
Linux零基础入门--Makefile和make--纯干货无废话!!
目录 Makefile的概念与使用 Makefile的编写 多个源文件的Makefile编写 Makefile的概念与使用 Makefile其实是linux中的一种包含构建指令的文件,用于自动化构建 一个工程中的源文件不计数,其按类型、功能、模块分别放在若干个目录中,makefi…...
vim编辑器的一些配置和快捷键
记录vim编辑器的一些配置和快捷键,边学边用: yy 复制dd 删除p:粘贴ctrly 取消撤销u:撤销:w 写入:q 退出a/i 插入O: 上方插入一个空行o:下方插入一个空行:e 打开文件编辑 其他配置: 上移一行和下移一行&a…...
电子应用设计方案-31:智能AI音响系统方案设计
智能 AI 音响系统方案设计 一、引言 智能 AI 音响作为一种新兴的智能家居设备,通过融合语音识别、自然语言处理、音频播放等技术,为用户提供便捷的语音交互服务和高品质的音乐体验。本方案旨在设计一款功能强大、性能稳定、用户体验良好的智能 AI 音响系…...
【设计模式】【结构型模式(Structural Patterns)】之装饰模式(Decorator Pattern)
1. 设计模式原理说明 装饰模式(Decorator Pattern) 是一种结构型设计模式,它允许在不改变对象接口的前提下,动态地给对象增加额外的责任或功能。这种模式创建了一个装饰类,用于包装原有的类,并在保持类方法…...
【AI】JetsonNano启动时报错:soctherm OC ALARM
1、问题描述 将JetsonNano烧写SD卡镜像为Ubuntu20.04后,启动时报错:soctherm OC ALARM,启动失败;然后系统一直重启 2、原因分析 “soctherm OC ALARM”是检测到系统温度超过安全阈值时发出的过热警告。 “soctherm”代表系统…...
QT:生成二维码 QRCode
目录 1.二维码历史2.QT源码3.界面展示4.工程源码链接 1.二维码历史 二维码(2-Dimensional Bar Code),是用某种特定的几何图形按一定规律在平面(二维方向上)分布的黑白相间的图形记录数据符号信息的。它是指在一维条码…...
【LeetCode刷题之路】120:三角形最小路径和的两种解法(动态规划优化)
LeetCode刷题记录 🌐 我的博客主页:iiiiiankor🎯 如果你觉得我的内容对你有帮助,不妨点个赞👍、留个评论✍,或者收藏⭐,让我们一起进步!📝 专栏系列:LeetCode…...
神经网络中常见的激活函数Sigmoid、Tanh和ReLU
激活函数在神经网络中起着至关重要的作用,它们决定了神经元的输出是否应该被激活以及如何非线性地转换输入信号。不同的激活函数适用于不同的场景,选择合适的激活函数可以显著影响模型的性能和训练效率。以下是三种常见的激活函数:Sigmoid、T…...
适用于学校、医院等低压用电场所的智能安全配电装置
引言 电力,作为一种清洁且高效的能源,极大地促进了现代生活的便捷与舒适。然而,与此同时,因使用不当或维护缺失等问题,漏电、触电事件以及电气火灾频发,对人们的生命安全和财产安全构成了严重威胁…...
基于python爬虫的智慧人才数据分析系统
废话不多说,先看效果图 更多效果图可私信我获取 源码分享 import os import sysdef main():"""Run administrative tasks."""os.environ.setdefault(DJANGO_SETTINGS_MODULE, 智慧人才数据分析系统.settings)try:from django.core.m…...
LeetCode-315. Count of Smaller Numbers After Self
目录 题目描述 解题思路 【C】 【Java】 复杂度分析 LeetCode-315. Count of Smaller Numbers After Selfhttps://leetcode.com/problems/count-of-smaller-numbers-after-self/description/ 题目描述 Given an integer array nums, return an integer array counts whe…...
进程地址空间(比特课总结)
一、进程地址空间 1. 环境变量 1 )⽤户级环境变量与系统级环境变量 全局属性:环境变量具有全局属性,会被⼦进程继承。例如当bash启动⼦进程时,环 境变量会⾃动传递给⼦进程。 本地变量限制:本地变量只在当前进程(ba…...
【OSG学习笔记】Day 18: 碰撞检测与物理交互
物理引擎(Physics Engine) 物理引擎 是一种通过计算机模拟物理规律(如力学、碰撞、重力、流体动力学等)的软件工具或库。 它的核心目标是在虚拟环境中逼真地模拟物体的运动和交互,广泛应用于 游戏开发、动画制作、虚…...
DeepSeek 赋能智慧能源:微电网优化调度的智能革新路径
目录 一、智慧能源微电网优化调度概述1.1 智慧能源微电网概念1.2 优化调度的重要性1.3 目前面临的挑战 二、DeepSeek 技术探秘2.1 DeepSeek 技术原理2.2 DeepSeek 独特优势2.3 DeepSeek 在 AI 领域地位 三、DeepSeek 在微电网优化调度中的应用剖析3.1 数据处理与分析3.2 预测与…...
Mybatis逆向工程,动态创建实体类、条件扩展类、Mapper接口、Mapper.xml映射文件
今天呢,博主的学习进度也是步入了Java Mybatis 框架,目前正在逐步杨帆旗航。 那么接下来就给大家出一期有关 Mybatis 逆向工程的教学,希望能对大家有所帮助,也特别欢迎大家指点不足之处,小生很乐意接受正确的建议&…...
线程与协程
1. 线程与协程 1.1. “函数调用级别”的切换、上下文切换 1. 函数调用级别的切换 “函数调用级别的切换”是指:像函数调用/返回一样轻量地完成任务切换。 举例说明: 当你在程序中写一个函数调用: funcA() 然后 funcA 执行完后返回&…...
对WWDC 2025 Keynote 内容的预测
借助我们以往对苹果公司发展路径的深入研究经验,以及大语言模型的分析能力,我们系统梳理了多年来苹果 WWDC 主题演讲的规律。在 WWDC 2025 即将揭幕之际,我们让 ChatGPT 对今年的 Keynote 内容进行了一个初步预测,聊作存档。等到明…...
Unity | AmplifyShaderEditor插件基础(第七集:平面波动shader)
目录 一、👋🏻前言 二、😈sinx波动的基本原理 三、😈波动起来 1.sinx节点介绍 2.vertexPosition 3.集成Vector3 a.节点Append b.连起来 4.波动起来 a.波动的原理 b.时间节点 c.sinx的处理 四、🌊波动优化…...
Yolov8 目标检测蒸馏学习记录
yolov8系列模型蒸馏基本流程,代码下载:这里本人提交了一个demo:djdll/Yolov8_Distillation: Yolov8轻量化_蒸馏代码实现 在轻量化模型设计中,**知识蒸馏(Knowledge Distillation)**被广泛应用,作为提升模型…...
力扣热题100 k个一组反转链表题解
题目: 代码: func reverseKGroup(head *ListNode, k int) *ListNode {cur : headfor i : 0; i < k; i {if cur nil {return head}cur cur.Next}newHead : reverse(head, cur)head.Next reverseKGroup(cur, k)return newHead }func reverse(start, end *ListNode) *ListN…...
CRMEB 中 PHP 短信扩展开发:涵盖一号通、阿里云、腾讯云、创蓝
目前已有一号通短信、阿里云短信、腾讯云短信扩展 扩展入口文件 文件目录 crmeb\services\sms\Sms.php 默认驱动类型为:一号通 namespace crmeb\services\sms;use crmeb\basic\BaseManager; use crmeb\services\AccessTokenServeService; use crmeb\services\sms\…...
