当前位置: 首页 > news >正文

YOLO系列论文综述(从YOLOv1到YOLOv11)【第15篇(完结):讨论和未来展望】

总结

  • 0 前言
  • 1 YOLO与人工通用智能(AGI)
  • 2 YOLO作为“能够行动的神经网络”
  • 3 具身人工智能(EAI)
  • 4 边缘设备上的YOLO
  • 5 评估统计指标的挑战
  • 6 YOLO与环境影响


YOLO系列博文:

  1. 【第1篇:概述物体检测算法发展史、YOLO应用领域、评价指标和NMS】
  2. 【第2篇:YOLO系列论文、代码和主要优缺点汇总】
  3. 【第3篇:YOLOv1——YOLO的开山之作】
  4. 【第4篇:YOLOv2——更好、更快、更强】
  5. 【第5篇:YOLOv3——多尺度预测】
  6. 【第6篇:YOLOv4——最优速度和精度】
  7. 【第7篇:YOLOv5——使用Pytorch框架、AutoAnchor、多尺度预训练模型】
  8. 【第8篇:YOLOv6——更高的并行度、引入量化和蒸馏以提高性能加速推理】
  9. 【第9篇:YOLOv7——跨尺度特征融合】
  10. 【第10篇:YOLOv8——集成检测、分割和跟踪能力】
  11. 【第11篇:YOLO变体——YOLO+Transformers、DAMO、PP、NAS】
  12. 【第12篇:YOLOv9——可编程梯度信息(PGI)+广义高效层聚合网络(GELAN)】
  13. 【第13篇:YOLOv10——实时端到端物体检测】
  14. 【第14篇:YOLOv11——在速度和准确性方面具有无与伦比的性能】
  15. 【第15篇(完结):讨论和未来展望】

0 前言

本文研究了十几个个YOLO版本,从最初的YOLO模型到最新的YOLOv8。通过对比,我们可以确定几个关键的模式:

  • 锚Anchor:最初的YOLO模型相对简单,没有采用锚点,而最先进的模型则依赖于带有锚点的两阶段检测器。YOLOv2采用了锚点,从而提高了边界盒的预测精度。这种趋势持续了五年,直到YOLOX引入了一个无锚的方法,取得了最先进的结果。从那时起,随后的YOLO版本已经放弃了锚的使用;
  • 框架:最初,YOLO是使用Darknet框架开发的,后续版本也是如此。然而,当Ultralytics将YOLOv3 移植到PyTorch时,其余的YOLO版本都是使用PyTorch开发的,导致了增强功能的激增。另一个利用的深度学习语言是PaddlePaddle,一个最初由百度开发的开源框架;
  • 骨干Backbone:YOLO模型的骨干架构随着时间的推移发生了重大变化。从由简单的卷积层和最大集合层组成的Darknet架构开始,后来的模型在YOLOv4中加入了跨阶段部分连接(CSP),在YOLOv6和YOLOv7中加入了重新参数化,并在DAMO-YOLO中加入了神经架构搜索;
  • 性能:虽然YOLO模型的性能随着时间的推移有所提高,但值得注意的是,它们往往优先考虑平衡速度和准确性,而不是只关注准确性。这种权衡是YOLO框架的一个重要方面,允许在各种应用中进行实时物体检测。

预计YOLO变体将继续改进对小目标物体的检测性能,特别是在进入如精密制造等更专业领域时。可以结合注意力机制以增强小物体检测,而视觉变换器的使用则可能进一步提高YOLO捕捉全局上下文依赖关系的能力,这一趋势表明需要在保持高精度的同时满足严格帧率要求的轻量级架构上进行改进。随着YOLO的发展,满足细分应用需求将推动架构设计和优化的进一步创新,确保其在对精确度和效率有严格要求的领域中持续相关性。例如,通过像ChatGPT这样的模型来促进语音命令与监控系统的集成,可以改变安全机制,使其更加互动和响应迅速。在医疗保健领域,结合医学影像、历史患者数据和实时症状描述,可以显著提高医疗响应的个性化和准确性。

展望未来,YOLO适应多模态进步的能力将在开创下一代智能应用方面发挥关键作用。从既能解释路标又能理解行人手势的自动驾驶汽车,到能根据视觉线索和语音指令做出反应的智能家居,YOLO与更广泛的数据类型和更深层次的上下文理解相结合,预示着人工智能的一个划时代阶段。这一变革阶段有望大幅提高机器视觉系统的交互性和认知能力,标志着视觉过程自动化的一个关键转变。

1 YOLO与人工通用智能(AGI)

AGI指的是具有人类水平或更高智能的智能代理,能够解决各种复杂问题。YOLO作为专注于目标检测的专业AI,突出了处理和解释视觉数据的关键能力,成为AGI的一个关键组成部分。一个AGI系统需要将类似于YOLO的目标检测与其他认知能力(如自然语言理解和推理)结合起来,以实现实时执行各种任务。例如,配备AGI的机器人可以使用YOLO进行视觉识别,以导航并与环境互动,同时利用自然语言模型来理解和响应口头指令。这种集成将展示出类似人类能力的多功能性和通用智能,使AGI系统能够无缝执行复杂且多样化的任务,从而更接近实现真正的AGI。

2 YOLO作为“能够行动的神经网络”

这一代神经网络以其先进的视觉和语言能力令人惊叹,推动了AI感知和解释能力的边界。然而,下一代神经网络将不仅限于理解,还能在实时中采取行动并执行任务。YOLO准备在这个转型中扮演关键角色。它在目标检测中的无与伦比的速度和准确性使其成为需要即时响应的应用的理想选择,如自动驾驶、机器人技术和实时监控。随着我们走向一个AI不仅能看、能说,还能自主执行复杂任务的未来,YOLO将在连接感知与行动之间起到关键作用。其中一个项目是“BEHAVIOUR”,这是一个以人为中心的模拟基准,用于评估斯坦福大学[287]的具身AI解决方案。

3 具身人工智能(EAI)

具身人工智能(EAI)是指与物理实体或身体集成的AI系统,允许它们以更自然和类人的方式与真实世界互动。将YOLO整合进这些系统中可以显著增强它们的感官能力,使它们能够更高效和准确地与物理世界互动。YOLO在具身AI中的应用包括自动驾驶车辆、机器人、人机交互、医疗保健等。

4 边缘设备上的YOLO

YOLO在边缘设备上的部署为未来的研发开辟了几条有希望的道路。一个潜在的方向是通过进一步的优化技术,如模型剪枝、量化以及开发专门的硬件加速器,提高算法在超低功耗微控制器和嵌入式系统等更为受限环境中的效率和准确性。此外,将YOLO与高级通信协议和边缘计算框架集成,可以促进边缘设备与集中式云服务之间的无缝协作,提升整体系统性能和可扩展性。探索YOLO与其他AI驱动功能(如异常检测和预测分析)的集成,可能在医疗保健、智慧城市和工业自动化等领域解锁新的应用。随着边缘计算的不断发展,YOLO适应支持联邦学习范式的调整,可以在保障数据隐私的同时实现对象检测模型的持续学习和改进。这些未来方向不仅会扩大YOLO的能力,还会大大推进智能边缘计算系统的发展。

5 评估统计指标的挑战

威胁:依赖单一的统计汇总指标来衡量YOLO的检测能力可能无法全面反映系统在各种YOLO应用中的表现,因此需要使用多个指标。
缓解:尽管存在这一局限性,我们的主要前提是所选指标使我们能够比较不同的YOLO系统,并充分评估它们的整体有效性。在跨不同应用综合评估检测系统时,认识到统计摘要固有的局限性至关重要。因此,我们旨在通过公开承认这些潜在威胁来提高评审的清晰度和可靠性,这种方法提供了一个对YOLO技术在不同领域中目标检测各方面限制的更细致的理解。

6 YOLO与环境影响

训练和重新训练YOLO非常耗能,导致大量的能源和水资源消耗,以及显著的二氧化碳排放。这种环境影响凸显了关于AI发展可持续性的担忧,强调了迫切需要更有效的做法来减少大规模模型训练的生态足迹。

相关文章:

YOLO系列论文综述(从YOLOv1到YOLOv11)【第15篇(完结):讨论和未来展望】

总结 0 前言1 YOLO与人工通用智能(AGI)2 YOLO作为“能够行动的神经网络”3 具身人工智能(EAI)4 边缘设备上的YOLO5 评估统计指标的挑战6 YOLO与环境影响 YOLO系列博文: 【第1篇:概述物体检测算法发展史、YO…...

Java设计模式 —— 【创建型模式】原型模式(浅拷贝、深拷贝)详解

文章目录 前言原型模式一、浅拷贝1、案例2、引用数据类型 二、深拷贝1、重写clone()方法2、序列化 总结 前言 先看一下传统的对象克隆方式: 原型类: public class Student {private String name;public Student(String name) {this.name name;}publi…...

SciAssess——评估大语言模型在科学文献处理中关于模型的记忆、理解和分析能力的基准

概述 大规模语言模型(如 Llama、Gemini 和 GPT-4)的最新进展因其卓越的自然语言理解和生成能力而备受关注。对这些模型进行评估对于确定其局限性和潜力以及促进进一步的技术进步非常重要。为此,人们提出了一些特定的基准来评估大规模语言模型…...

SQLModel与FastAPI结合:构建用户增删改查接口

SQLModel简介 SQLModel是一个现代化的Python库,旨在简化与数据库的交互。它结合了Pydantic和SQLAlchemy的优势,使得定义数据模型、进行数据验证和与数据库交互变得更加直观和高效。SQLModel由FastAPI的创始人Sebastin Ramrez开发,专为与FastA…...

【RISC-V CPU debug 专栏 2.3 -- Run Control】

文章目录 Run ControlHart 运行控制状态位状态信号操作流程时间与实现注意事项Run Control 在 RISC-V 调试架构中,运行控制模块通过管理多个状态位来对硬件线程(harts)的执行进行调节和控制。这些状态位帮助调试器请求暂停或恢复 harts,并在 hart 复位时进行控制。以下是运…...

探索 IntelliJ IDEA 中 Spring Boot 运行配置

前言 IntelliJ IDEA 作为一款功能强大的集成开发环境(IDE),为 Spring Boot 应用提供了丰富的运行配置选项,定义了如何在 IntelliJ IDEA 中运行 Spring Boot 应用程序,当从主类文件运行应用程序时,IDE 将创建…...

三除数枚举

给你一个整数 n 。如果 n 恰好有三个正除数 ,返回 true ;否则,返回 false 。 如果存在整数 k ,满足 n k * m ,那么整数 m 就是 n 的一个 除数 。 输入:n 4 输出:true 解释:4 有三…...

【051】基于51单片机温度计【Proteus仿真+Keil程序+报告+原理图】

☆、设计硬件组成:51单片机最小系统DS18B20温度传感器LCD1602液晶显示按键设置蜂鸣器LED灯。 1、本设计采用STC89C51/52、AT89C51/52、AT89S51/52作为主控芯片; 2、采用DS18B20温度传感器测量温度,并且通过LCD1602实时显示温度;…...

[Java]微服务之服务保护

雪崩问题 微服务调用链路中的某个服务故障,引起整个链路中的所有微服务都不可用,这就是雪崩 雪崩问题产生的原因是什么? 微服务相互调用,服务提供者出现故障或阻塞。服务调用者没有做好异常处理,导致自身故障。调用链中的所有服…...

自动驾驶目标检测融合全貌

1、early fusion 早期融合,特点用到几何空间转换3d到2d或者2d到3d的转换,用像素找点云或者用点云找像素。 2、deep fusion 深度融合,也是特征级别融合,也叫多模态融合,如bevfusion范式 3、late fusion 晚融合&#x…...

消息框(Message Box)的测试方法和测试用例

我来帮你了解消息框(Message Box)的测试方法和测试用例的编写。 我已经创建了一个测试用例示例,让我为你解释消息框测试的主要方面: 测试维度: 功能性测试:验证消息框的基本功能是否正常样式测试:确认不同类型消息框…...

Ubuntu 包管理

APT&dpkg 查看已安装包 查看所有已经安装的包 dpkg -l 查找包 apt search <package_name>搜索软件包列表&#xff0c;找到与搜索关键字匹配的包 dpkg与grep结合查找特定的包 dpkg -s <package>&#xff1a;查看某个安装包的详细信息 安装包 apt安装命令 更新…...

[Ubuntu] linux之Ubuntu18.04的下载及在虚拟机中详细安装过程(附有下载链接)

前言 ubuntu 链接&#xff1a;https://pan.quark.cn/s/283509d0d36e 提取码&#xff1a;dfT1 链接失效&#xff08;可能被官方和谐&#xff09;可评论或私信我重发 下载压缩包后解压 &#xff01;&#xff01;安装路径不要有中文 下载后解压得到.iso文件&#xff0c;不要放在…...

ffmpeg安装(windows)

ffmpeg安装-windows 前言ffmpeg安装路径安装说明 前言 ffmpeg的安装也是开箱即用的,并没有小码哥说的那么难 ffmpeg安装路径 这就下载好了! 安装说明 将上面的bin目录加入到环境变量,然后在cmd中测试一下: C:\Users\12114\Desktop\test\TaskmgrPlayer\x64\Debug>ffmpe…...

服务器数据恢复—raid6阵列硬盘被误重组为raid5阵列的数据恢复案例

服务器存储数据恢复环境&#xff1a; 存储中有一组由12块硬盘组建的RAID6阵列&#xff0c;上层linux操作系统EXT3文件系统&#xff0c;该存储划分3个LUN。 服务器存储故障&分析&#xff1a; 存储中RAID6阵列不可用。为了抢救数据&#xff0c;运维人员使用原始RAID中的部分…...

linux内核编译启动总结

linux kernel 编译 升级汇总 写在前面内核编译获取kernel代码开始前的准备工作 编译过程1\.解压与净化将下载好的linux内核解压至/usr/src 2\. 得到源代码后,将其净化3\. 配置要进行编译的内核4.编译内核. &#xff08;15分钟&#xff09;5.编译模块.方法1:方法2&#xff1a; 6…...

Android Studio的AI工具插件使用介绍

Android Studio的AI工具插件使用介绍 一、前言 Android Studio 的 AI 工具插件具有诸多重要作用&#xff0c;以下是一些常见的方面&#xff1a; 代码生成与自动补全 代码优化与重构 代码解读 学习与知识获取 智能搜索与资源推荐实际使用中可以添加注释&#xff0c;解读某段代…...

本地部署 WireGuard 无需公网 IP 实现异地组网

WireGuard 是一个高性能、极简且易于配置的开源虚拟组网协议。使用路由侠内网穿透使其相互通讯。 第一步&#xff0c;服务端&#xff08;假设为公司电脑&#xff09;和客户端&#xff08;假设为公司外的电脑&#xff09;安装部署 WireGuard 1&#xff0c;点此下载&#xff08;…...

asyncio.ensure_future 与 asyncio.create_task:Python异步编程中的选择

asyncio.ensure_future 与 asyncio.create_task&#xff1a;Python异步编程中的选择 引言asyncio.ensure_futureasyncio.create_task两者的区别参数接受范围任务调度的保证代码可读性 哪个更好&#xff1f;使用asyncio.create_task使用asyncio.ensure_future 结论参考 引言 在…...

CTF之密码学(密码特征分析)

一.MD5,sha1,HMAC,NTLM 1.MD5&#xff1a;MD5一般由32/16位的数字(0-9)和字母(a-f)组成的字符串 2.sha1&#xff1a;这种加密的密文特征跟MD5差不多&#xff0c;只不过位数是40&#xff08;sha256&#xff1a;64位&#xff1b;sha512:128位&#xff09; 3.HMAC&#xff1a;这…...

【决胜公务员考试】求职OMG——见面课测验1

2025最新版&#xff01;&#xff01;&#xff01;6.8截至答题&#xff0c;大家注意呀&#xff01; 博主码字不易点个关注吧,祝期末顺利~~ 1.单选题(2分) 下列说法错误的是:&#xff08; B &#xff09; A.选调生属于公务员系统 B.公务员属于事业编 C.选调生有基层锻炼的要求 D…...

《基于Apache Flink的流处理》笔记

思维导图 1-3 章 4-7章 8-11 章 参考资料 源码&#xff1a; https://github.com/streaming-with-flink 博客 https://flink.apache.org/bloghttps://www.ververica.com/blog 聚会及会议 https://flink-forward.orghttps://www.meetup.com/topics/apache-flink https://n…...

CRMEB 框架中 PHP 上传扩展开发:涵盖本地上传及阿里云 OSS、腾讯云 COS、七牛云

目前已有本地上传、阿里云OSS上传、腾讯云COS上传、七牛云上传扩展 扩展入口文件 文件目录 crmeb\services\upload\Upload.php namespace crmeb\services\upload;use crmeb\basic\BaseManager; use think\facade\Config;/*** Class Upload* package crmeb\services\upload* …...

Map相关知识

数据结构 二叉树 二叉树&#xff0c;顾名思义&#xff0c;每个节点最多有两个“叉”&#xff0c;也就是两个子节点&#xff0c;分别是左子 节点和右子节点。不过&#xff0c;二叉树并不要求每个节点都有两个子节点&#xff0c;有的节点只 有左子节点&#xff0c;有的节点只有…...

是否存在路径(FIFOBB算法)

题目描述 一个具有 n 个顶点e条边的无向图&#xff0c;该图顶点的编号依次为0到n-1且不存在顶点与自身相连的边。请使用FIFOBB算法编写程序&#xff0c;确定是否存在从顶点 source到顶点 destination的路径。 输入 第一行两个整数&#xff0c;分别表示n 和 e 的值&#xff08;1…...

Mysql中select查询语句的执行过程

目录 1、介绍 1.1、组件介绍 1.2、Sql执行顺序 2、执行流程 2.1. 连接与认证 2.2. 查询缓存 2.3. 语法解析&#xff08;Parser&#xff09; 2.4、执行sql 1. 预处理&#xff08;Preprocessor&#xff09; 2. 查询优化器&#xff08;Optimizer&#xff09; 3. 执行器…...

现有的 Redis 分布式锁库(如 Redisson)提供了哪些便利?

现有的 Redis 分布式锁库&#xff08;如 Redisson&#xff09;相比于开发者自己基于 Redis 命令&#xff08;如 SETNX, EXPIRE, DEL&#xff09;手动实现分布式锁&#xff0c;提供了巨大的便利性和健壮性。主要体现在以下几个方面&#xff1a; 原子性保证 (Atomicity)&#xff…...

基于IDIG-GAN的小样本电机轴承故障诊断

目录 🔍 核心问题 一、IDIG-GAN模型原理 1. 整体架构 2. 核心创新点 (1) ​梯度归一化(Gradient Normalization)​​ (2) ​判别器梯度间隙正则化(Discriminator Gradient Gap Regularization)​​ (3) ​自注意力机制(Self-Attention)​​ 3. 完整损失函数 二…...

搭建DNS域名解析服务器(正向解析资源文件)

正向解析资源文件 1&#xff09;准备工作 服务端及客户端都关闭安全软件 [rootlocalhost ~]# systemctl stop firewalld [rootlocalhost ~]# setenforce 0 2&#xff09;服务端安装软件&#xff1a;bind 1.配置yum源 [rootlocalhost ~]# cat /etc/yum.repos.d/base.repo [Base…...

站群服务器的应用场景都有哪些?

站群服务器主要是为了多个网站的托管和管理所设计的&#xff0c;可以通过集中管理和高效资源的分配&#xff0c;来支持多个独立的网站同时运行&#xff0c;让每一个网站都可以分配到独立的IP地址&#xff0c;避免出现IP关联的风险&#xff0c;用户还可以通过控制面板进行管理功…...