当前位置: 首页 > news >正文

YOLO系列发展历程:从YOLOv1到YOLO11,目标检测技术的革新与突破

文章目录

  • 前言
  • 一、YOLOv1:单阶段目标检测的开端
  • 二、YOLOv2:更精准的实时检测
  • 三、YOLOv3:阶梯特征融合
  • 四、YOLOv4:性能和速度的新平衡
  • 五、YOLOv5:易用性和扩展性的加强
  • 六、YOLOv6:工业部署的利器
  • 七、YOLOv7:轻量化与精度的平衡
  • 八、YOLOv8:改装复杂场景
  • 九、YOLOv9:自动化训练与优化
  • 十、YOLOv10:超大规模模型的挑战
  • 十一、YOLO11:下一代目标检测
  • 总结


前言

**YOLO(You Only Look Once)**系列模型无疑是目标检测领域的一座里程碑,自2016年首次提出以来,便在目标检测领域掀起了一场革命。从YOLOv1的开创性提出,到YOLO11的不断迭代升级,该系列模型持续突破自我,引领着目标检测技术的发展潮流。
在这里插入图片描述


一、YOLOv1:单阶段目标检测的开端

在这里插入图片描述
YOLOv1是2015年Joseph Redmon 及其团队推出,首次将目标检测视为单一的回归问题,通过神经网络直接预测目标的边界框和类别概率,其速度快、网络结构简单,这一检测模型彻底颠覆了传统检测方法的框架。
在这里插入图片描述
YOLOV1将图像划分为网格进行检测,检测精度上较低,特别是在小目标和密集目标的场景中性能较差。

  • 参考论文:You Only Look Once: Unified, Real-Time Object Detection
  • 论文链接:https://arxiv.org/abs/1506.02640

二、YOLOv2:更精准的实时检测

在这里插入图片描述
2016年,由原班人马推出YOLOv2,其改进了YOLOv1的不足,引入批量归一化(Batch Normalization)锚框、维度聚类等,增强了模型的泛化能力以及使用基于K均值的框图设计,YOLOv2在性能上有了显著提升。在这里插入图片描述

但YOLOv2没有进行多尺度特征的结合预测,而且依旧无法检测到非常小的目标。更多技术的引入虽然提升了性能,但增加了复杂性。

  • 参考论文:YOLO9000: Better, Faster, Stronger
  • 论文链接:https://arxiv.org/abs/1612.08242

三、YOLOv3:阶梯特征融合

在这里插入图片描述

Joseph Redmon 和 Ali Farhadi在2018年推出YOLOv3,YOLOv3在前两代的基础上,通过引入多维度检测策略和Darknet-53骨干网络,显著提升了对小目标的检测能力,同时还利用特征金字塔网络(FPN),在不同的测量上进行预测,支持多标签分类任务。
但其模型尺寸急剧增大,难以在嵌入式设备上安装。而且在高密度目标场景下,检测精度容易缺失。

  • 参考论文:YOLOv3: An Incremental Improvement
  • 论文链接:https://arxiv.org/abs/1804.02767

四、YOLOv4:性能和速度的新平衡

在这里插入图片描述

2020年,Alexey Bochkovskiy等发布YOLOv4模型,大量优化实现了性能与速度的最佳平衡。引入CSPDarknet53和多种增强技术(Mosaic数据增强、DropBlock正则化等),使其在COCO数据集上达到了SOTA性能,使其更高效且更适合单GPU训练,包括CBN、PAN、SAM等。在这里插入图片描述

尽管YOLOV4在多尺度特征融合方面有所改进,但在检测极小目标时仍可能存在一定的局限性。

  • 参考论文:YOLOv4: Optimal Speed and Accuracy of Object Detection
  • 论文链接:https://arxiv.org/abs/2004.10934

五、YOLOv5:易用性和扩展性的加强

在这里插入图片描述

YOLOv5是第一个非原YOLO创始团队推出,而是由Ultralytics于2020年推出的模型,因其提供了轻量化模型和大规模模型的多种版本(n、s、m、l、x),易于部署和集成自动化训练工具,YOLOv5赢得了业界的广泛赞誉与青睐,而且YOLOv5 相较于第四版,无论是学习率调整、运行效率方面还是模型精度、速度都有显著提升。
但其对于小目标、密集物体检测方面还有待提升,在复杂场景下,可能会出现误检和漏检的情况。

  • 参考论文:Improved YOLOv5 network for real-time multi-scale traffic sign detection
  • 论文链接:https://arxiv.org/abs/2112.08782

六、YOLOv6:工业部署的利器

在这里插入图片描述

YOLOv6是在2022年由国内科技公司美团研发,其更专注于工业场景的实际需求,YOLOv6在速度和精度之间达到了较好的权衡,支持自定义部署,适合资源设定的环境,改进了损失函数设计,提升了检测效果。
在光照、姿态等条件变化较大的场景下,检测精度可能会下降。部分针对特定硬件平台优化,泛用性稍弱。

  • 参考论文:YOLOv6: A Single-Stage Object Detection Framework for Industrial Applications
  • 论文链接:https://arxiv.org/abs/2209.02976

七、YOLOv7:轻量化与精度的平衡

在这里插入图片描述

YOLOv7是由YOLOv4团队进行研发推出,该版本实现了轻量化网络结构的设计,提出了动态标签分配机制,优化了目标框匹配,在速度和精度上都超过所有(此版本以前)已知的目标检测器。
但在针对增加的数据集需要大量的训练时间,以及在某些复杂场景下或对小目标的检测效果可能不如其他算法。

  • 参考论文:YOLOv7: Trainable bag-of-freebies sets new state-of-the-art for real-time object detectors
  • 论文链接:https://arxiv.org/abs/2207.02696

八、YOLOv8:改装复杂场景

在这里插入图片描述

YOLOv8依旧是由Ultralytics公司在2023年发布,在复杂场景下表现优异,引入新的注意力机制和数据增强策略,支持全方位的视觉 AI 任务,使得用户可以在各个应用和领域中利用YOLOv8的功能。
尽管进行了优化,但高性能的模型仍需要较大的计算资源。复杂的网络结构和多个模块增加了模型的复杂度和训练难度。

  • 参考文档:https://docs.ultralytics.com/models/yolov8/

九、YOLOv9:自动化训练与优化

在这里插入图片描述

2023年,中国台湾 Academia Sinica、台北科技大学等机构联合开发YOLOv9此次改进是基于YOLOv7的基础上,增强了自动化和模型自适应能力,使用AutoML技术实现模型结构和超参数的自动搜索,两者结合设计在深度模型的参数数量、计算量等方面都比YOLOv8由所减少。在这里插入图片描述

但AutoML的引入增加了模型开发的时间成本,对于极端复杂或遮挡严重的目标,检测效果可能受到影响。

  • 参考论文:YOLOv9: Learning What You Want to Learn Using Programmable Gradient Information
  • 论文链接:https://arxiv.org/abs/2402.13616

十、YOLOv10:超大规模模型的挑战

在这里插入图片描述

YOLOv10在2024年由清华大学开源,针对超大规模模型进行了优化,提出NMSfree(非极大值抑制)训练的一致双分配,实现了高效的端到端检测。引入了整体效率精度驱动的模型设计策略。在这里插入图片描述

虽然进行了轻量化设计,但相对于一些更简单的模型来说,YOLOV10的复杂度仍然较高。

  • 参考论文:YOLOv10: Real-Time End-to-End Object Detection
  • 论文链接:https://arxiv.org/abs/2405.14458

十一、YOLO11:下一代目标检测

在这里插入图片描述

YOLO11是Ultralytics推出的最新一代计算机视觉模型,代表了目标检测领域的最新进展,采用全新的Transformer架构,支持多模态输入,并提供了灵活的部署方案,它在对象检测、实例分割、图像分类、姿势估计、定向物体检测和对象跟踪等计算机视觉任务上展现了卓越的性能和准确性,相较于YOLOv8有了显著提升。

  • 官网源码下载地址:https://github.com/ultralytics/ultralytics

总结

总结而言,YOLO系列模型在目标检测领域不断刷新纪录,从精度到效率均取得了显著成就。尽管每一代模型都有其局限性,但它们的创新推动了整个领域的发展。
值得一提的是,Coovally模型训练平台不仅包含YOLOv3、YOLOv5、YOLOv8等热门算法,最新发布的YOLO11算法平台也已上线。在这里插入图片描述

无论你是初学者还是经验丰富的开发者,都可以在这里轻松尝试和体验YOLO系列模型的强大功能。在这里插入图片描述

欢迎大家使用Coovally平台,探索目标检测的无限可能!后续将对YOLO系列算法进行详细解读,并进行案例分析

相关文章:

YOLO系列发展历程:从YOLOv1到YOLO11,目标检测技术的革新与突破

文章目录 前言一、YOLOv1:单阶段目标检测的开端二、YOLOv2:更精准的实时检测三、YOLOv3:阶梯特征融合四、YOLOv4:性能和速度的新平衡五、YOLOv5:易用性和扩展性的加强六、YOLOv6:工业部署的利器七、YOLOv7&…...

深入浅出:序列化与反序列化的全面解析

文章目录 1. 引言2. 什么是序列化?2.1 为什么需要序列化? 3. 什么是反序列化?3.1 反序列化的重要性 4. 序列化与反序列化的实现4.1 JSON (JavaScript Object Notation)4.2 XML (eXtensible Markup Language)4.3 Protocol Buffers (Protobuf)4…...

word实践:正文/标题/表图等的共用模板样式设置

说在前面 最近使用word新建文件很多,发现要给大毛病,每次新建一个word文件,标题/正文的字体、大小和间距都要重新设置一遍,而且每次设置这些样式都忘记了参数,今天记录一下,以便后续方便查看使用。现在就以…...

Blender中使用BlenderGIS插件快速生成城市建筑模型

导入下载 BlenderGIS 插件 去github上下载其压缩包,地址如下: https://github.com/domlysz/BlenderGIS 在BlenderGIS中导入这个插件压缩包: 点击上方菜单栏的编辑,点击偏好设置 在插件>从磁盘安装中导入刚刚下载的压缩包 可…...

【单元测试】单元测试的重要性

1一些错误的认识 在实际的单元测试过程中总会有一些错误的认识左右着我们,使之成为单元测试最大的障碍,在此将其一一分析如下: 它太浪费时间了,现在要赶进度,时间上根本不允许,或者随便做做应付领导。 …...

Codeforces Round 992 (Div. 2)

这场cf只在b卡了一下,因为b真是犯蠢了,我以为会向下取整,结果是完全就不取整,或者说是向上取整,卡了我半个小时,要不是紧急看了题一下,昨天那场就毁了 话不多说,直接开讲 A. Game …...

el-table一键选择全部行,切换分页后无法勾选

el-table一键全选,分页的完美支持 问题背景尝试解决存在问题问题分析 解决方案改进思路如下具体代码实现如下 问题背景 现在有个需求,一个表格有若干条数据(假设数量大于20,每页10条,保证有2个以上分页即可)。 现在需要在表格上方…...

负载均衡最佳实践及自定义负载均衡器

文章目录 负载均衡最佳实践及自定义负载均衡器一、负载均衡概述二、轮询负载均衡器(一)理论介绍(二)Java 实现示例(三)关键步骤(四)流程图 三、随机负载均衡器(一&#x…...

大模型 LMDeploy 量化部署

1 模型部署 定义: 在软件工程中,部署通常指的是将开发完毕的软件投入使用的过程。在人工智能领域,模型部署是实现深度学习算法落地应用的关键步骤。简单来说,模型部署就是将训练好的深度学习模型在特定环境中运行的过程。 场景…...

算法设计5_分支限界法

分支限界法 分支限界法常以广度优先或以最小耗费(最大效益)优先的方式搜索问题的解空间树,裁剪那些不能得到最优解的子树以提高搜索效率。 步骤: ① 定义解空间(对解编码); ② 确定解空间的树结构; ③ 按BFS等方式搜索: a.每个活…...

2025年人工智能专业可以考哪些证书呢?

人工智能是目前全球热门的专业领域之一,随着人工智能应用范围的不断扩大,越来越多的人开始关注人工智能相关证书的获取。那么,人工智能专业可以考什么证书呢?本文将为大家介绍人工智能相关证书的种类。 人工智能机器视觉应用工程师…...

仿真技术助力高尔夫球打破传统设计局限,实现球杆强大的功能

Altair近日宣布与业内领先的高尔夫装备制造商 Cleveland Golf 开展合作,以设计新款 HiBore XL 球杆。借助 Altair 先进的仿真与设计技术,Cleveland Golf 不断刷新高尔夫装备的行业标准,并在球杆产品设计方面实现突破。 Cleveland Golf 借助 A…...

微前端架构学习笔记

前言 之前遇到过一个需求,有两个项目分别由两个不同的部门负责,不同技术栈,不同代码仓库: A 项目是官网,负责展示产品亮点等信息,有多个入口可以进入 B 项目中的不同页面。B 项目是业务线,负责…...

DApp开发:从合约到系统快速上线解决方案

在区块链技术迅猛发展的今天,去中心化应用(DApp)作为区块链的一项重要应用,已经吸引了众多开发者和企业的关注。与传统应用程序不同,DApp依托于区块链的去中心化特点,实现了透明、安全、不可篡改等优势&…...

react 中 useState 中的 set 方法异步解决

使用 useEffect 监听状态的改变。 一、异步特性 在批量处理状态更新时,用以提高性能。 二、异步解决 使用useEffect来处理更新后的状态,useEffect钩子在组件渲染后执行,并且会在依赖项(第二个参数)发生变化时重新执…...

UAC2.0 speaker——带反馈端点的 USB speaker(16bit 单声道)

UAC2.0 speaker 系列文章 UAC2.0 speaker——单声道 USB speaker(16bit) UAC2.0 speaker——类特殊请求 UAC2.0 speaker——音量控制 UAC2.0 speaker——多采样率支持 UAC2.0 speaker——24/32bit 支持 UAC2.0 speaker——speaker 数据传输 UAC2.0 speaker——同时支持 16bi…...

docker的简单使用

文章目录 docker简介docker架构镜像和容器镜像有关的常用命令容器相关常用命令 docker简介 Docker是一个开源的应用容器引擎,基于Go语言并遵从Apache2.0协议开源。 Docker可以让开方子打包他们的应用以及依赖包到一个轻量级、可移植的容器中,然后发布到…...

Selenium:强大的 Web 自动化测试工具

Selenium:强大的 Web 自动化测试工具 在当今的软件开发和测试领域,自动化工具的重要性日益凸显。Selenium 就是一款备受欢迎的 Web 自动化测试工具,它为开发者和测试人员提供了强大的功能和便利。本文将详细介绍 Selenium 是什么&#xff0c…...

设计模式 在PLM系统的应用场景介绍

通义灵码 设计模式在 PLM(产品生命周期管理)系统中扮演着重要的角色,可以帮助开发人员更好地组织代码、提高系统的可维护性和扩展性。以下是一些常见的设计模式及其在 PLM 系统中的应用场景: 1. 单例模式(Singleton …...

C#请求https提示未能为 SSL/TLS 安全通道建立信任关系

System.Net.WebException: 基础连接已经关闭: 未能为 SSL/TLS 安全通道建立信任关系 ,这个错误通常表明你的应用程序在尝试建立一个安全的 SSL/TLS 连接时遇到了问题。这通常是由于证书验证失败引起的。证书验证失败可能有几个原因: 证书不受信任&#…...

KubeSphere 容器平台高可用:环境搭建与可视化操作指南

Linux_k8s篇 欢迎来到Linux的世界,看笔记好好学多敲多打,每个人都是大神! 题目:KubeSphere 容器平台高可用:环境搭建与可视化操作指南 版本号: 1.0,0 作者: 老王要学习 日期: 2025.06.05 适用环境: Ubuntu22 文档说…...

【算法训练营Day07】字符串part1

文章目录 反转字符串反转字符串II替换数字 反转字符串 题目链接&#xff1a;344. 反转字符串 双指针法&#xff0c;两个指针的元素直接调转即可 class Solution {public void reverseString(char[] s) {int head 0;int end s.length - 1;while(head < end) {char temp …...

《基于Apache Flink的流处理》笔记

思维导图 1-3 章 4-7章 8-11 章 参考资料 源码&#xff1a; https://github.com/streaming-with-flink 博客 https://flink.apache.org/bloghttps://www.ververica.com/blog 聚会及会议 https://flink-forward.orghttps://www.meetup.com/topics/apache-flink https://n…...

10-Oracle 23 ai Vector Search 概述和参数

一、Oracle AI Vector Search 概述 企业和个人都在尝试各种AI&#xff0c;使用客户端或是内部自己搭建集成大模型的终端&#xff0c;加速与大型语言模型&#xff08;LLM&#xff09;的结合&#xff0c;同时使用检索增强生成&#xff08;Retrieval Augmented Generation &#…...

处理vxe-table 表尾数据是单独一个接口,表格tableData数据更新后,需要点击两下,表尾才是正确的

修改bug思路&#xff1a; 分别把 tabledata 和 表尾相关数据 console.log() 发现 更新数据先后顺序不对 settimeout延迟查询表格接口 ——测试可行 升级↑&#xff1a;async await 等接口返回后再开始下一个接口查询 ________________________________________________________…...

20个超级好用的 CSS 动画库

分享 20 个最佳 CSS 动画库。 它们中的大多数将生成纯 CSS 代码&#xff0c;而不需要任何外部库。 1.Animate.css 一个开箱即用型的跨浏览器动画库&#xff0c;可供你在项目中使用。 2.Magic Animations CSS3 一组简单的动画&#xff0c;可以包含在你的网页或应用项目中。 3.An…...

STM32HAL库USART源代码解析及应用

STM32HAL库USART源代码解析 前言STM32CubeIDE配置串口USART和UART的选择使用模式参数设置GPIO配置DMA配置中断配置硬件流控制使能生成代码解析和使用方法串口初始化__UART_HandleTypeDef结构体浅析HAL库代码实际使用方法使用轮询方式发送使用轮询方式接收使用中断方式发送使用中…...

Caliper 配置文件解析:fisco-bcos.json

config.yaml 文件 config.yaml 是 Caliper 的主配置文件,通常包含以下内容: test:name: fisco-bcos-test # 测试名称description: Performance test of FISCO-BCOS # 测试描述workers:type: local # 工作进程类型number: 5 # 工作进程数量monitor:type: - docker- pro…...

Bean 作用域有哪些?如何答出技术深度?

导语&#xff1a; Spring 面试绕不开 Bean 的作用域问题&#xff0c;这是面试官考察候选人对 Spring 框架理解深度的常见方式。本文将围绕“Spring 中的 Bean 作用域”展开&#xff0c;结合典型面试题及实战场景&#xff0c;帮你厘清重点&#xff0c;打破模板式回答&#xff0c…...

手机平板能效生态设计指令EU 2023/1670标准解读

手机平板能效生态设计指令EU 2023/1670标准解读 以下是针对欧盟《手机和平板电脑生态设计法规》(EU) 2023/1670 的核心解读&#xff0c;综合法规核心要求、最新修正及企业合规要点&#xff1a; 一、法规背景与目标 生效与强制时间 发布于2023年8月31日&#xff08;OJ公报&…...