当前位置：首页 > news >正文

YOLO的框架及版本迭代

news 2026/5/12 3:16:24

YOLO（You Only Look Once）是一种非常流行的实时目标检测算法，其特点是将目标检测任务转换为一个回归问题，通过一次前向传播就可以同时完成目标的分类和定位。以下是YOLO框架的整体架构和工作原理：

一、YOLO的基本框架

1. 输入层

输入是一张图像，通常被调整为固定大小的方形图像，例如 $416 \times 416$ 或 $640 \times 640$ 。
输入图像的每个像素点被归一化为 $[0, 1]$ 之间的浮点数。

2. 主干网络（Backbone）

这是YOLO的核心特征提取部分，类似于卷积神经网络（CNN）。
不同版本的YOLO使用不同的主干网络：
- YOLOv1 使用了简单的 GoogLeNet 风格的CNN。
- YOLOv2、YOLOv3 使用了 Darknet 网络。
- YOLOv4、YOLOv5 引入了 CSPDarknet。
- YOLOv7 进一步优化了网络结构，引入了 ELAN 层。
- YOLOv8 使用了更轻量级的结构，如 EfficientNet 或 Transformer。

3. 特征金字塔网络（Feature Pyramid Network, FPN）

将不同尺度的特征图结合，帮助检测不同大小的目标。
YOLOv3 及以后版本引入了 FPN 和 PAN（Path Aggregation Network），实现更好的多尺度特征融合。

4. 输出层（Detection Head）

YOLO将输入图像划分为 $\times S$ 的网格，每个网格负责检测一个或多个目标。
对于每个网格，预测：
- Bounding Box：边界框的位置（ $x, y, w, h$ ）。
- 置信度：边界框中是否有物体以及置信度。
- 类别概率：每个类别的概率。

输出的张量结构如下：
$\times S \times B \times (5 + C))$
其中：

$\times S$ ：网格大小。
$B$ ：每个网格的预测框数量（例如 YOLOv3 中 $B = 3$ ）。
$5$ ：包含边界框的 $x, y, w, h$ 和置信度。
$C$ ：类别数量。

二、YOLO的工作流程

图像输入：将原始输入图像调整为固定大小。
特征提取：主干网络提取图像中的特征。
预测框生成：生成多个边界框，并为每个框预测置信度和类别概率。
非极大值抑制（NMS）：通过置信度和 IoU（交并比）过滤掉重叠和低置信度的框，保留最佳的预测框。
输出结果：输出检测到的目标类别、边界框位置和置信度。

三、YOLO的优缺点

优点：

速度快：YOLO可以在实时条件下完成目标检测，适用于实时应用。
端到端训练：YOLO直接从图像中学习特征并预测目标位置和类别。
单一模型：不需要额外的候选区域生成步骤。

缺点：

对小目标的检测效果较差：由于将图像划分为较大的网格，小目标可能被忽略。
精度可能不如两阶段方法（如Faster R-CNN）：尤其是在复杂的背景下。

四、YOLO模型的改进版本

版本	主要改进	优势
YOLOv1	单次检测，回归问题	速度快，简单
YOLOv2	使用Darknet，Batch Normalization	提高检测精度
YOLOv3	多尺度检测，FPN	改善小目标检测
YOLOv4	CSPDarknet、PAN、数据增强	进一步提升速度与精度
YOLOv5	PyTorch实现，模块化更强	更易训练和部署
YOLOv7	ELAN、E-ELAN模块	提高计算效率
YOLOv8	支持Transformer、EfficientNet等	更轻量化、更高精度

五、YOLO的代码框架示例（PyTorch）

import torch
import torch.nn as nnclass YOLO(nn.Module):def __init__(self, num_classes=80):super(YOLO, self).__init__()# Backbone: Feature extractionself.backbone = DarknetBackbone()# Head: Detection headself.head = DetectionHead(num_classes)def forward(self, x):features = self.backbone(x)output = self.head(features)return outputclass DarknetBackbone(nn.Module):# 定义YOLO的Darknet主干网络def __init__(self):super(DarknetBackbone, self).__init__()# 多层卷积层self.layers = nn.Sequential(nn.Conv2d(3, 32, kernel_size=3, stride=1, padding=1),nn.BatchNorm2d(32),nn.ReLU(inplace=True),# 更多的卷积层...)def forward(self, x):return self.layers(x)class DetectionHead(nn.Module):# 定义检测头def __init__(self, num_classes):super(DetectionHead, self).__init__()self.conv = nn.Conv2d(512, (5 + num_classes) * 3, kernel_size=1)def forward(self, x):return self.conv(x)# 测试模型
model = YOLO(num_classes=80)
input_tensor = torch.randn(1, 3, 416, 416)
output = model(input_tensor)
print(output.shape)

总结

YOLO的核心思想是一次看全图，将目标检测作为回归问题进行端到端学习。它具有高效、实时的特点，并且通过不同版本的改进，在速度和精度之间取得了良好的平衡。

YOLO的框架及版本迭代

YOLO（You Only Look Once）是一种非常流行的实时目标检测算法，其特点是将目标检测任务转换为一个回归问题，通过一次前向传播就可以同时完成目标的分类和定位。以下是YOLO框架的整体架构和工作原理： 一、YOLO的基本框架…...

编程日记 2024/12/2 4:11:04

PotPlayer 最新版本支持使用 Whisper 自动识别语音生成字幕

PotPlayer 最新版本支持使用 Whisper 自动识别语音生成字幕设置使用下载地址设置使用下载地址 https://www.videohelp.com/software/PotPlayer...

编程日记 2024/12/2 4:09:02

JavaScript零基础入门速通（中）

目录 1. 函数 1.1 函数声明 1.2 返回值 1.3 匿名函数 1.4 箭头函数 2. 对象 2.1 创建对象 2.2 访问和修改对象的属性 2.3 对象方法 3. 数组 3.1 创建数组 3.2 数组方法 3.3 遍历数组 4. 作用域 4.1 全局作用域 4.2 局部作用域 4.3 块级作用域 5. 事件处理 5…...

编程日记 2024/12/2 4:07:00

【Yarn Bug】 yarn 安装依赖出现的网络连接问题

最近，在初始化 Ant Design Pro 前端脚手架过程中，使用 yarn 安装依赖时遇到了网络连接问题，具体错误信息提示为 info There appears to be trouble with your network connection. Retrying...。通过百度查询，得知出现这种问题的原…...

编程日记 2024/12/2 4:05:59

字节青训Marscode_5：寻找最大葫芦——最新题解

步骤1：问题定义与分析输入条件： 整数n：牌的数量整数max：葫芦牌面值之和的上限数组array：n张牌的牌面值输出条件： 两个整数组成的数组[a,b]： a表示三张相同牌的牌面值b表示两张相同牌的牌面值如…...

编程日记 2024/12/2 4:04:57

MySQL —— MySQL 程序

目录前言一、MySQL 程序简介二、mysqld -- MySQL 服务器三、mysql -- MySQL 客户端 1. mysql 客户端简介 2. mysql 客户端选项 （1）指定选项的方式 （2）mysql 客户端命令常用选项 （3）在命令行中使…...

编程日记 2024/12/2 4:03:56

LLamafactory API部署与使用异步方式 API 调用优化大模型推理效率

文章目录背景介绍第三方大模型API 介绍LLamafactory 部署API大模型 API 调用工具类项目开源背景介绍第三方大模型API 目前，市面上有许多第三方大模型 API 服务提供商，通过 API 接口向用户提供多样化的服务。这些平台不仅能提供更多类别和类型的模型…...

编程日记 2024/12/2 4:02:54

不玩PS抠图了，改玩Python抠图

网上找了两个苏轼的印章图片： 把这两个印章抠出来的话，对于不少PS高手来说是相当容易，但是要去掉其中的水印，可能要用仿制图章慢慢描绘，图章的边缘也要慢慢勾画或者用通道抠图之类来处理，而且印章的红色也不…...

编程日记 2024/12/2 4:01:54

三维渲染中顺序无关的半透明混合(OIT）（一Depth Peeling）

>本文收集关于透明对象渲染技术中关于OIT技术的资料，尝试用简单的逻辑对这些内容进行整理。 1、透明对象的特殊对待不要小瞧png图片和jpg图片的差异！在一般的三维平台，png代表的是带透明通道的纹理，而jpg代表的是不带透明的…...

编程日记 2024/12/2 3:57:49

Linux零基础入门--Makefile和make--纯干货无废话！！

目录 Makefile的概念与使用 Makefile的编写多个源文件的Makefile编写 Makefile的概念与使用 Makefile其实是linux中的一种包含构建指令的文件，用于自动化构建一个工程中的源文件不计数，其按类型、功能、模块分别放在若干个目录中，makefi…...

编程日记 2024/12/2 3:53:46

vim编辑器的一些配置和快捷键

记录vim编辑器的一些配置和快捷键，边学边用： yy 复制dd 删除p：粘贴ctrly 取消撤销u：撤销:w 写入:q 退出a/i 插入O: 上方插入一个空行o：下方插入一个空行:e 打开文件编辑其他配置： 上移一行和下移一行&a…...

编程日记 2024/12/2 3:52:42

电子应用设计方案-31：智能AI音响系统方案设计

智能 AI 音响系统方案设计一、引言智能 AI 音响作为一种新兴的智能家居设备，通过融合语音识别、自然语言处理、音频播放等技术，为用户提供便捷的语音交互服务和高品质的音乐体验。本方案旨在设计一款功能强大、性能稳定、用户体验良好的智能 AI 音响系…...

编程日记 2024/12/2 3:51:41

【设计模式】【结构型模式（Structural Patterns）】之装饰模式（Decorator Pattern）

1. 设计模式原理说明装饰模式（Decorator Pattern） 是一种结构型设计模式，它允许在不改变对象接口的前提下，动态地给对象增加额外的责任或功能。这种模式创建了一个装饰类，用于包装原有的类，并在保持类方法…...

编程日记 2024/12/2 3:49:39

【AI】JetsonNano启动时报错：soctherm OC ALARM

1、问题描述将JetsonNano烧写SD卡镜像为Ubuntu20.04后，启动时报错：soctherm OC ALARM，启动失败；然后系统一直重启 2、原因分析 “soctherm OC ALARM”是检测到系统温度超过安全阈值时发出的过热警告。 “soctherm”代表系统…...

编程日记 2024/12/2 3:48:38

QT:生成二维码 QRCode

目录 1.二维码历史2.QT源码3.界面展示4.工程源码链接 1.二维码历史二维码（2-Dimensional Bar Code），是用某种特定的几何图形按一定规律在平面（二维方向上）分布的黑白相间的图形记录数据符号信息的。它是指在一维条码…...

编程日记 2024/12/2 3:44:34

【LeetCode刷题之路】120：三角形最小路径和的两种解法（动态规划优化）

LeetCode刷题记录 🌐 我的博客主页：iiiiiankor🎯 如果你觉得我的内容对你有帮助，不妨点个赞👍、留个评论✍，或者收藏⭐，让我们一起进步！📝 专栏系列：LeetCode…...

编程日记 2024/12/2 3:42:31

神经网络中常见的激活函数Sigmoid、Tanh和ReLU

激活函数在神经网络中起着至关重要的作用，它们决定了神经元的输出是否应该被激活以及如何非线性地转换输入信号。不同的激活函数适用于不同的场景，选择合适的激活函数可以显著影响模型的性能和训练效率。以下是三种常见的激活函数：Sigmoid、T…...

编程日记 2024/12/2 3:38:26

适用于学校、医院等低压用电场所的智能安全配电装置

引言电力，作为一种清洁且高效的能源，极大地促进了现代生活的便捷与舒适。然而，与此同时，因使用不当或维护缺失等问题，漏电、触电事件以及电气火灾频发，对人们的生命安全和财产安全构成了严重威胁&#xf…...

编程日记 2024/12/2 3:36:23

基于python爬虫的智慧人才数据分析系统

废话不多说，先看效果图更多效果图可私信我获取源码分享 import os import sysdef main():"""Run administrative tasks."""os.environ.setdefault(DJANGO_SETTINGS_MODULE, 智慧人才数据分析系统.settings)try:from django.core.m…...

编程日记 2024/12/2 3:32:17

LeetCode-315. Count of Smaller Numbers After Self

目录题目描述解题思路【C】【Java】复杂度分析 LeetCode-315. Count of Smaller Numbers After Selfhttps://leetcode.com/problems/count-of-smaller-numbers-after-self/description/ 题目描述 Given an integer array nums, return an integer array counts whe…...

编程日记 2024/12/2 3:29:14

AI工具导航与实战指南：从分类体系到选型策略

1. 项目概述：AI-Infinity，一个前沿AI工具的探索者指南如果你和我一样，对AI领域层出不穷的新工具感到既兴奋又头疼，那么这个项目绝对值得你花时间深入了解。AI-Infinity，这个由开发者meetpateltech维护的GitHub仓库&…...

编程新知 2026/5/12 2:09:42

Windows风扇控制终极解决方案：FanControl深度配置指南

Windows风扇控制终极解决方案：FanControl深度配置指南【免费下载链接】FanControl.Releases This is the release repository for Fan Control, a highly customizable fan controlling software for Windows. 项目地址: https://gitcode.com/GitHub_Trending/fa…...

编程新知 2026/5/12 2:01:00

markdownReader：终极Chrome插件，让本地Markdown文件阅读体验提升300%

markdownReader：终极Chrome插件，让本地Markdown文件阅读体验提升300% 【免费下载链接】markdownReader markdownReader is a extention for chrome, used for reading markdown file. 项目地址: https://gitcode.com/gh_mirrors/ma/markdownReader …...

编程新知 2026/5/12 1:39:54

Tarjan算法：从DFS序到强连通分量的寻路指南（附C++实战与缩点技巧）

1. 从迷宫探索到强连通王国：Tarjan算法的生活隐喻想象你正在探索一座巨大的迷宫，手里拿着粉笔和记事本。每走到一个新的岔路口，你就在墙上标记数字（第一个到的路口标1，第二个标2...），这就是DFS…...

编程新知 2026/5/11 23:49:50

马斯克解散 xAI、接纳 Anthropic：亡羊补牢的无奈，与一场被 AGI 神话带偏的豪赌

马斯克解散 xAI、接纳 Anthropic：亡羊补牢的无奈，与一场被 AGI 神话带偏的豪赌 2026 年 5 月 6 日，两件事同时发生： 一、Anthropic 宣布获得 xAI Colossus 1 集群的全部算力——22 万张英伟达 GPU，300 兆瓦电力容量。 …...

编程新知 2026/5/11 23:21:36

别再只怪芯片了！拆解一个智能家居产品，看它的EMC静电防护设计到底哪里出了问题

智能家居静电防护失效分析：从产品拆解看EMC设计盲区最近一位做智能门锁的创业者朋友向我吐槽：他们的旗舰产品在北方冬季频繁出现用户触摸时死机的情况，售后返修率飙升到15%。拆机检测却显示主板芯片完好，问题究竟出在哪里&#…...

编程新知 2026/5/11 21:49:16

告别理论！在Spartan-6上玩转DDR3：从MIG IP核配置到UCF约束文件修改的完整避坑指南

Spartan-6 FPGA DDR3实战：从MIG配置到硬件调试的全链路解析当你在ISE中点击"Generate"按钮完成MIG IP核配置时，真正的挑战才刚刚开始。这份指南将带你穿越从IP核生成到稳定运行的完整链路，特别聚焦那些官方文档语焉不详、网络教程…...

编程新知 2026/5/11 20:59:26

DSP+FPGA异构架构在实时信号处理中的应用与优化

1. 实时信号处理系统架构解析在工业自动化、医疗影像和通信系统中，对信号处理实时性要求极高的场景比比皆是。传统纯软件方案往往受限于CPU的串行处理特性，难以满足严格的时序要求。这正是DSPFPGA异构架构大显身手的领域——我曾参与过多个类似项目&…...

编程新知 2026/5/11 20:40:18

详解51单片机智能小车避障核心：超声波、漫反射与红外传感器的实战选型与调试

1. 智能小车避障传感器的核心选择做智能小车最让人头疼的就是避障功能了。我当年第一次做51单片机小车时，光选传感器就折腾了好几个星期。市面上常见的避障传感器主要有三种：超声波模块、漫反射光电管和红外传感器。每种传感器都有自己的脾气&#xff…...

编程新知 2026/5/11 20:02:28

从原理到实践：液压与气压传动核心概念与应用场景解析

1. 液压与气压传动的核心原理液压与气压传动是现代工业中广泛应用的动力传输方式，它们虽然介质不同，但都遵循着相似的物理原理。液压系统使用不可压缩的液体（通常是液压油）作为工作介质，而气压系统则使用可压缩的空气…...

编程新知 2026/5/11 19:40:50