YOLO系列发展历程:从YOLOv1到YOLO11,目标检测技术的革新与突破
文章目录
- 前言
- 一、YOLOv1:单阶段目标检测的开端
- 二、YOLOv2:更精准的实时检测
- 三、YOLOv3:阶梯特征融合
- 四、YOLOv4:性能和速度的新平衡
- 五、YOLOv5:易用性和扩展性的加强
- 六、YOLOv6:工业部署的利器
- 七、YOLOv7:轻量化与精度的平衡
- 八、YOLOv8:改装复杂场景
- 九、YOLOv9:自动化训练与优化
- 十、YOLOv10:超大规模模型的挑战
- 十一、YOLO11:下一代目标检测
- 总结
前言
**YOLO(You Only Look Once)**系列模型无疑是目标检测领域的一座里程碑,自2016年首次提出以来,便在目标检测领域掀起了一场革命。从YOLOv1的开创性提出,到YOLO11的不断迭代升级,该系列模型持续突破自我,引领着目标检测技术的发展潮流。

一、YOLOv1:单阶段目标检测的开端

YOLOv1是2015年Joseph Redmon 及其团队推出,首次将目标检测视为单一的回归问题,通过神经网络直接预测目标的边界框和类别概率,其速度快、网络结构简单,这一检测模型彻底颠覆了传统检测方法的框架。

YOLOV1将图像划分为网格进行检测,检测精度上较低,特别是在小目标和密集目标的场景中性能较差。
- 参考论文:You Only Look Once: Unified, Real-Time Object Detection
- 论文链接:https://arxiv.org/abs/1506.02640
二、YOLOv2:更精准的实时检测

2016年,由原班人马推出YOLOv2,其改进了YOLOv1的不足,引入批量归一化(Batch Normalization)锚框、维度聚类等,增强了模型的泛化能力以及使用基于K均值的框图设计,YOLOv2在性能上有了显著提升。
但YOLOv2没有进行多尺度特征的结合预测,而且依旧无法检测到非常小的目标。更多技术的引入虽然提升了性能,但增加了复杂性。
- 参考论文:YOLO9000: Better, Faster, Stronger
- 论文链接:https://arxiv.org/abs/1612.08242
三、YOLOv3:阶梯特征融合

Joseph Redmon 和 Ali Farhadi在2018年推出YOLOv3,YOLOv3在前两代的基础上,通过引入多维度检测策略和Darknet-53骨干网络,显著提升了对小目标的检测能力,同时还利用特征金字塔网络(FPN),在不同的测量上进行预测,支持多标签分类任务。
但其模型尺寸急剧增大,难以在嵌入式设备上安装。而且在高密度目标场景下,检测精度容易缺失。
- 参考论文:YOLOv3: An Incremental Improvement
- 论文链接:https://arxiv.org/abs/1804.02767
四、YOLOv4:性能和速度的新平衡

2020年,Alexey Bochkovskiy等发布YOLOv4模型,大量优化实现了性能与速度的最佳平衡。引入CSPDarknet53和多种增强技术(Mosaic数据增强、DropBlock正则化等),使其在COCO数据集上达到了SOTA性能,使其更高效且更适合单GPU训练,包括CBN、PAN、SAM等。
尽管YOLOV4在多尺度特征融合方面有所改进,但在检测极小目标时仍可能存在一定的局限性。
- 参考论文:YOLOv4: Optimal Speed and Accuracy of Object Detection
- 论文链接:https://arxiv.org/abs/2004.10934
五、YOLOv5:易用性和扩展性的加强

YOLOv5是第一个非原YOLO创始团队推出,而是由Ultralytics于2020年推出的模型,因其提供了轻量化模型和大规模模型的多种版本(n、s、m、l、x),易于部署和集成自动化训练工具,YOLOv5赢得了业界的广泛赞誉与青睐,而且YOLOv5 相较于第四版,无论是学习率调整、运行效率方面还是模型精度、速度都有显著提升。
但其对于小目标、密集物体检测方面还有待提升,在复杂场景下,可能会出现误检和漏检的情况。
- 参考论文:Improved YOLOv5 network for real-time multi-scale traffic sign detection
- 论文链接:https://arxiv.org/abs/2112.08782
六、YOLOv6:工业部署的利器

YOLOv6是在2022年由国内科技公司美团研发,其更专注于工业场景的实际需求,YOLOv6在速度和精度之间达到了较好的权衡,支持自定义部署,适合资源设定的环境,改进了损失函数设计,提升了检测效果。
在光照、姿态等条件变化较大的场景下,检测精度可能会下降。部分针对特定硬件平台优化,泛用性稍弱。
- 参考论文:YOLOv6: A Single-Stage Object Detection Framework for Industrial Applications
- 论文链接:https://arxiv.org/abs/2209.02976
七、YOLOv7:轻量化与精度的平衡

YOLOv7是由YOLOv4团队进行研发推出,该版本实现了轻量化网络结构的设计,提出了动态标签分配机制,优化了目标框匹配,在速度和精度上都超过所有(此版本以前)已知的目标检测器。
但在针对增加的数据集需要大量的训练时间,以及在某些复杂场景下或对小目标的检测效果可能不如其他算法。
- 参考论文:YOLOv7: Trainable bag-of-freebies sets new state-of-the-art for real-time object detectors
- 论文链接:https://arxiv.org/abs/2207.02696
八、YOLOv8:改装复杂场景

YOLOv8依旧是由Ultralytics公司在2023年发布,在复杂场景下表现优异,引入新的注意力机制和数据增强策略,支持全方位的视觉 AI 任务,使得用户可以在各个应用和领域中利用YOLOv8的功能。
尽管进行了优化,但高性能的模型仍需要较大的计算资源。复杂的网络结构和多个模块增加了模型的复杂度和训练难度。
- 参考文档:https://docs.ultralytics.com/models/yolov8/
九、YOLOv9:自动化训练与优化

2023年,中国台湾 Academia Sinica、台北科技大学等机构联合开发YOLOv9此次改进是基于YOLOv7的基础上,增强了自动化和模型自适应能力,使用AutoML技术实现模型结构和超参数的自动搜索,两者结合设计在深度模型的参数数量、计算量等方面都比YOLOv8由所减少。
但AutoML的引入增加了模型开发的时间成本,对于极端复杂或遮挡严重的目标,检测效果可能受到影响。
- 参考论文:YOLOv9: Learning What You Want to Learn Using Programmable Gradient Information
- 论文链接:https://arxiv.org/abs/2402.13616
十、YOLOv10:超大规模模型的挑战

YOLOv10在2024年由清华大学开源,针对超大规模模型进行了优化,提出NMSfree(非极大值抑制)训练的一致双分配,实现了高效的端到端检测。引入了整体效率精度驱动的模型设计策略。
虽然进行了轻量化设计,但相对于一些更简单的模型来说,YOLOV10的复杂度仍然较高。
- 参考论文:YOLOv10: Real-Time End-to-End Object Detection
- 论文链接:https://arxiv.org/abs/2405.14458
十一、YOLO11:下一代目标检测

YOLO11是Ultralytics推出的最新一代计算机视觉模型,代表了目标检测领域的最新进展,采用全新的Transformer架构,支持多模态输入,并提供了灵活的部署方案,它在对象检测、实例分割、图像分类、姿势估计、定向物体检测和对象跟踪等计算机视觉任务上展现了卓越的性能和准确性,相较于YOLOv8有了显著提升。
- 官网源码下载地址:https://github.com/ultralytics/ultralytics
总结
总结而言,YOLO系列模型在目标检测领域不断刷新纪录,从精度到效率均取得了显著成就。尽管每一代模型都有其局限性,但它们的创新推动了整个领域的发展。
值得一提的是,Coovally模型训练平台不仅包含YOLOv3、YOLOv5、YOLOv8等热门算法,最新发布的YOLO11算法平台也已上线。
无论你是初学者还是经验丰富的开发者,都可以在这里轻松尝试和体验YOLO系列模型的强大功能。
欢迎大家使用Coovally平台,探索目标检测的无限可能!后续将对YOLO系列算法进行详细解读,并进行案例分析
相关文章:
YOLO系列发展历程:从YOLOv1到YOLO11,目标检测技术的革新与突破
文章目录 前言一、YOLOv1:单阶段目标检测的开端二、YOLOv2:更精准的实时检测三、YOLOv3:阶梯特征融合四、YOLOv4:性能和速度的新平衡五、YOLOv5:易用性和扩展性的加强六、YOLOv6:工业部署的利器七、YOLOv7&…...
深入浅出:序列化与反序列化的全面解析
文章目录 1. 引言2. 什么是序列化?2.1 为什么需要序列化? 3. 什么是反序列化?3.1 反序列化的重要性 4. 序列化与反序列化的实现4.1 JSON (JavaScript Object Notation)4.2 XML (eXtensible Markup Language)4.3 Protocol Buffers (Protobuf)4…...
word实践:正文/标题/表图等的共用模板样式设置
说在前面 最近使用word新建文件很多,发现要给大毛病,每次新建一个word文件,标题/正文的字体、大小和间距都要重新设置一遍,而且每次设置这些样式都忘记了参数,今天记录一下,以便后续方便查看使用。现在就以…...
Blender中使用BlenderGIS插件快速生成城市建筑模型
导入下载 BlenderGIS 插件 去github上下载其压缩包,地址如下: https://github.com/domlysz/BlenderGIS 在BlenderGIS中导入这个插件压缩包: 点击上方菜单栏的编辑,点击偏好设置 在插件>从磁盘安装中导入刚刚下载的压缩包 可…...
【单元测试】单元测试的重要性
1一些错误的认识 在实际的单元测试过程中总会有一些错误的认识左右着我们,使之成为单元测试最大的障碍,在此将其一一分析如下: 它太浪费时间了,现在要赶进度,时间上根本不允许,或者随便做做应付领导。 …...
Codeforces Round 992 (Div. 2)
这场cf只在b卡了一下,因为b真是犯蠢了,我以为会向下取整,结果是完全就不取整,或者说是向上取整,卡了我半个小时,要不是紧急看了题一下,昨天那场就毁了 话不多说,直接开讲 A. Game …...
el-table一键选择全部行,切换分页后无法勾选
el-table一键全选,分页的完美支持 问题背景尝试解决存在问题问题分析 解决方案改进思路如下具体代码实现如下 问题背景 现在有个需求,一个表格有若干条数据(假设数量大于20,每页10条,保证有2个以上分页即可)。 现在需要在表格上方…...
负载均衡最佳实践及自定义负载均衡器
文章目录 负载均衡最佳实践及自定义负载均衡器一、负载均衡概述二、轮询负载均衡器(一)理论介绍(二)Java 实现示例(三)关键步骤(四)流程图 三、随机负载均衡器(一&#x…...
大模型 LMDeploy 量化部署
1 模型部署 定义: 在软件工程中,部署通常指的是将开发完毕的软件投入使用的过程。在人工智能领域,模型部署是实现深度学习算法落地应用的关键步骤。简单来说,模型部署就是将训练好的深度学习模型在特定环境中运行的过程。 场景…...
算法设计5_分支限界法
分支限界法 分支限界法常以广度优先或以最小耗费(最大效益)优先的方式搜索问题的解空间树,裁剪那些不能得到最优解的子树以提高搜索效率。 步骤: ① 定义解空间(对解编码); ② 确定解空间的树结构; ③ 按BFS等方式搜索: a.每个活…...
2025年人工智能专业可以考哪些证书呢?
人工智能是目前全球热门的专业领域之一,随着人工智能应用范围的不断扩大,越来越多的人开始关注人工智能相关证书的获取。那么,人工智能专业可以考什么证书呢?本文将为大家介绍人工智能相关证书的种类。 人工智能机器视觉应用工程师…...
仿真技术助力高尔夫球打破传统设计局限,实现球杆强大的功能
Altair近日宣布与业内领先的高尔夫装备制造商 Cleveland Golf 开展合作,以设计新款 HiBore XL 球杆。借助 Altair 先进的仿真与设计技术,Cleveland Golf 不断刷新高尔夫装备的行业标准,并在球杆产品设计方面实现突破。 Cleveland Golf 借助 A…...
微前端架构学习笔记
前言 之前遇到过一个需求,有两个项目分别由两个不同的部门负责,不同技术栈,不同代码仓库: A 项目是官网,负责展示产品亮点等信息,有多个入口可以进入 B 项目中的不同页面。B 项目是业务线,负责…...
DApp开发:从合约到系统快速上线解决方案
在区块链技术迅猛发展的今天,去中心化应用(DApp)作为区块链的一项重要应用,已经吸引了众多开发者和企业的关注。与传统应用程序不同,DApp依托于区块链的去中心化特点,实现了透明、安全、不可篡改等优势&…...
react 中 useState 中的 set 方法异步解决
使用 useEffect 监听状态的改变。 一、异步特性 在批量处理状态更新时,用以提高性能。 二、异步解决 使用useEffect来处理更新后的状态,useEffect钩子在组件渲染后执行,并且会在依赖项(第二个参数)发生变化时重新执…...
UAC2.0 speaker——带反馈端点的 USB speaker(16bit 单声道)
UAC2.0 speaker 系列文章 UAC2.0 speaker——单声道 USB speaker(16bit) UAC2.0 speaker——类特殊请求 UAC2.0 speaker——音量控制 UAC2.0 speaker——多采样率支持 UAC2.0 speaker——24/32bit 支持 UAC2.0 speaker——speaker 数据传输 UAC2.0 speaker——同时支持 16bi…...
docker的简单使用
文章目录 docker简介docker架构镜像和容器镜像有关的常用命令容器相关常用命令 docker简介 Docker是一个开源的应用容器引擎,基于Go语言并遵从Apache2.0协议开源。 Docker可以让开方子打包他们的应用以及依赖包到一个轻量级、可移植的容器中,然后发布到…...
Selenium:强大的 Web 自动化测试工具
Selenium:强大的 Web 自动化测试工具 在当今的软件开发和测试领域,自动化工具的重要性日益凸显。Selenium 就是一款备受欢迎的 Web 自动化测试工具,它为开发者和测试人员提供了强大的功能和便利。本文将详细介绍 Selenium 是什么,…...
设计模式 在PLM系统的应用场景介绍
通义灵码 设计模式在 PLM(产品生命周期管理)系统中扮演着重要的角色,可以帮助开发人员更好地组织代码、提高系统的可维护性和扩展性。以下是一些常见的设计模式及其在 PLM 系统中的应用场景: 1. 单例模式(Singleton …...
C#请求https提示未能为 SSL/TLS 安全通道建立信任关系
System.Net.WebException: 基础连接已经关闭: 未能为 SSL/TLS 安全通道建立信任关系 ,这个错误通常表明你的应用程序在尝试建立一个安全的 SSL/TLS 连接时遇到了问题。这通常是由于证书验证失败引起的。证书验证失败可能有几个原因: 证书不受信任&#…...
利用最小二乘法找圆心和半径
#include <iostream> #include <vector> #include <cmath> #include <Eigen/Dense> // 需安装Eigen库用于矩阵运算 // 定义点结构 struct Point { double x, y; Point(double x_, double y_) : x(x_), y(y_) {} }; // 最小二乘法求圆心和半径 …...
多模态2025:技术路线“神仙打架”,视频生成冲上云霄
文|魏琳华 编|王一粟 一场大会,聚集了中国多模态大模型的“半壁江山”。 智源大会2025为期两天的论坛中,汇集了学界、创业公司和大厂等三方的热门选手,关于多模态的集中讨论达到了前所未有的热度。其中,…...
Prompt Tuning、P-Tuning、Prefix Tuning的区别
一、Prompt Tuning、P-Tuning、Prefix Tuning的区别 1. Prompt Tuning(提示调优) 核心思想:固定预训练模型参数,仅学习额外的连续提示向量(通常是嵌入层的一部分)。实现方式:在输入文本前添加可训练的连续向量(软提示),模型只更新这些提示参数。优势:参数量少(仅提…...
基于距离变化能量开销动态调整的WSN低功耗拓扑控制开销算法matlab仿真
目录 1.程序功能描述 2.测试软件版本以及运行结果展示 3.核心程序 4.算法仿真参数 5.算法理论概述 6.参考文献 7.完整程序 1.程序功能描述 通过动态调整节点通信的能量开销,平衡网络负载,延长WSN生命周期。具体通过建立基于距离的能量消耗模型&am…...
《Qt C++ 与 OpenCV:解锁视频播放程序设计的奥秘》
引言:探索视频播放程序设计之旅 在当今数字化时代,多媒体应用已渗透到我们生活的方方面面,从日常的视频娱乐到专业的视频监控、视频会议系统,视频播放程序作为多媒体应用的核心组成部分,扮演着至关重要的角色。无论是在个人电脑、移动设备还是智能电视等平台上,用户都期望…...
理解 MCP 工作流:使用 Ollama 和 LangChain 构建本地 MCP 客户端
🌟 什么是 MCP? 模型控制协议 (MCP) 是一种创新的协议,旨在无缝连接 AI 模型与应用程序。 MCP 是一个开源协议,它标准化了我们的 LLM 应用程序连接所需工具和数据源并与之协作的方式。 可以把它想象成你的 AI 模型 和想要使用它…...
【Redis技术进阶之路】「原理分析系列开篇」分析客户端和服务端网络诵信交互实现(服务端执行命令请求的过程 - 初始化服务器)
服务端执行命令请求的过程 【专栏简介】【技术大纲】【专栏目标】【目标人群】1. Redis爱好者与社区成员2. 后端开发和系统架构师3. 计算机专业的本科生及研究生 初始化服务器1. 初始化服务器状态结构初始化RedisServer变量 2. 加载相关系统配置和用户配置参数定制化配置参数案…...
Python爬虫(一):爬虫伪装
一、网站防爬机制概述 在当今互联网环境中,具有一定规模或盈利性质的网站几乎都实施了各种防爬措施。这些措施主要分为两大类: 身份验证机制:直接将未经授权的爬虫阻挡在外反爬技术体系:通过各种技术手段增加爬虫获取数据的难度…...
实现弹窗随键盘上移居中
实现弹窗随键盘上移的核心思路 在Android中,可以通过监听键盘的显示和隐藏事件,动态调整弹窗的位置。关键点在于获取键盘高度,并计算剩余屏幕空间以重新定位弹窗。 // 在Activity或Fragment中设置键盘监听 val rootView findViewById<V…...
如何理解 IP 数据报中的 TTL?
目录 前言理解 前言 面试灵魂一问:说说对 IP 数据报中 TTL 的理解?我们都知道,IP 数据报由首部和数据两部分组成,首部又分为两部分:固定部分和可变部分,共占 20 字节,而即将讨论的 TTL 就位于首…...
