当前位置: 首页 > news >正文

(14)D-FINE网络,爆锤yolo系列

yolo过时了?传统的yolo算法在小目标检测方面总是不行,最新算法DEIM爆锤yolo,已经替yolo解决。
在这里插入图片描述

一、创新点

​ 这个算法名为DEIM,全称是DETR with Improved Matching for Fast Convergence,其主要创新点在于提出了一种新的训练框架,用于加速基于Transformer架构(如DETR)的实时目标检测模型的收敛。具体来说,DEIM的创新点包括:

  1. Dense O2O Matching(密集一对一匹配)

    • DEIM采用了一种新的匹配策略,称为Dense O2O(密集一对一匹配),这种策略通过在每个训练图像中增加更多的目标来增加正样本的数量,从而提供更密集的监督信号,加速模型的收敛。
    • 使用标准的图像增强技术(如mosaic和mixup)来增加每个图像中的目标数量,同时保持一对一匹配框架不变。
  2. Matchability-Aware Loss (MAL)(匹配能力感知损失)

    • 为了解决Dense O2O匹配引入的大量低质量匹配问题,DEIM提出了一种新的损失函数MAL,该函数根据匹配质量(通过IoU和分类置信度的结合)来调整惩罚,优化不同质量水平的匹配。

    • MAL对于高置信度的低质量匹配给予了更大的惩罚,提高了有限正样本的效用,并简化了数学公式。

MAL的公式如下:

M A L ( p , q , y ) = { − q γ log ⁡ ( p ) + ( 1 − q γ ) log ⁡ ( 1 − p ) if  y = 1 − p γ log ⁡ ( 1 − p ) if  y = 0 MAL(p, q, y) = \begin{cases} -q^\gamma \log(p) + (1 - q^\gamma) \log(1 - p) & \text{if } y = 1 \\ -p^\gamma \log(1 - p) & \text{if } y = 0 \end{cases} MAL(p,q,y)={qγlog(p)+(1qγ)log(1p)pγlog(1p)if y=1if y=0
其中:

  • p表示预测框属于前景类别的概率。
  • q表示预测框与真实框之间的IoU值。
  • y是真实标签,1表示前景,0表示背景。
  • γ \gamma γ 是一个参数,用于平衡易例和难例之间的关注程度。

二、提升点

与YOLOv11相比,DEIM在以下几个指标上取得了提升:

  1. 收敛速度

    • DEIM显著加快了RT-DETRv2和D-FINE模型的收敛速度,使得这些模型在较少的训练周期内就能达到与YOLOv11相当的性能。
  2. 平均精度(AP)

    • 在COCO数据集上,DEIM与RT-DETRv2结合时,在一天的训练后(使用NVIDIA 4090 GPU)达到了53.2%的AP,显示出在精度上的显著提升。
  3. 实时性能

    • DEIM训练的实时模型在NVIDIA T4 GPU上达到了54.7%和56.5%的AP,分别在124和78 FPS的帧率下,无需额外数据,这表明DEIM在实时目标检测任务中具有更好的性能。
  4. 小目标检测

    • DEIM在小目标检测方面也显示出了优势,尽管与某些YOLO模型相比在小目标AP上略有下降,但总体AP更高,显示出DEIM在整体性能上的提升。

​ 总的来说,DEIM通过改进匹配策略和损失函数,提高了模型的训练效率和检测性能,特别是在实时目标检测领域,DEIM为提高目标检测的速度和准确性提供了一种有效的解决方案。

三、往期回顾

​ yolo入门教程:《吐血录制,yolo11猫狗实时检测实战项目,从零开始写yolov11代码》,视频全程25分钟。

在这里插入图片描述

(1)yolo11猫狗实时检测实战项目,从零开始写yolov11代码

(2)从零开始学yolo之yolov1的技术原理

(3)YOLOv1训练过程,新手入门

(4)YOLOv2和yolov1的差异

(5)YOLOv3和yolov1、yolov2之间的差异

(6)YOLOv4算法基本原理以及和YOLOv3 的差异

(7)YOLOv5算法基本原理大揭秘!

(8)YOLOv6算法基本原理

(9)YOLOv7算法基本原理

(10)YOLOv8算法基本原理

(11)YOLOv9算法基本原理

(12)YOLOv10算法基本原理

(13)10张结构图,深入理解YOLOv11算法各个模块

高清视频,3分钟揭秘神经网络技术原理

在这里插入图片描述
Transfermer的Q、K、V设计的底层逻辑

相关文章:

(14)D-FINE网络,爆锤yolo系列

yolo过时了?传统的yolo算法在小目标检测方面总是不行,最新算法DEIM爆锤yolo,已经替yolo解决。 一、创新点 ​ 这个算法名为DEIM,全称是DETR with Improved Matching for Fast Convergence,其主要创新点在于提出了一…...

Python :冬至快乐

第1部分:基础设置 首先创建一个新的 Python 文件,命名为 fireworks.py。 步骤 1.1: 导入必要的库 import pygame import random import sys from pygame.locals import * import math import time这些库的作用: pygame: 用于创建游戏和图…...

重拾设计模式--状态模式

文章目录 状态模式(State Pattern)概述状态模式UML图作用:状态模式的结构环境(Context)类:抽象状态(State)类:具体状态(Concrete State)类&#x…...

稀疏矩阵的存储与计算 gaxpy

1, gaxpy 数学公式 其中&#xff1a; &#xff0c; &#xff0c; 2, 具体实例 3&#xff0c;用稠密矩阵的方法 本节将用于验证第4节中的稀疏计算的结果 hello_gaxpy_dense.cpp #include <stdio.h> #include <stdlib.h>struct Matrix_SP {float* val; //…...

基于LabVIEW的USRP信道测量开发

随着无线通信技术的不断发展&#xff0c;基于软件无线电的设备&#xff08;如USRP&#xff09;在信道测量、无线通信测试等领域扮演着重要角色。通过LabVIEW与USRP的结合&#xff0c;开发者可以实现信号生成、接收及信道估计等功能。尽管LabVIEW提供了丰富的信号处理工具和图形…...

基于LSTM长短期记忆神经网络的多分类预测【MATLAB】

在深度学习中&#xff0c;长短期记忆网络&#xff08;LSTM, Long Short-Term Memory&#xff09;是一种强大的循环神经网络&#xff08;RNN&#xff09;变体&#xff0c;专门为解决序列数据中的长距离依赖问题而设计。LSTM因其强大的记忆能力&#xff0c;广泛应用于自然语言处理…...

物联网:全面概述、架构、应用、仿真工具、挑战和未来方向

中文论文标题&#xff1a;物联网&#xff1a;全面概述、架构、应用、仿真工具、挑战和未来方向 英文论文标题&#xff1a;Internet of Things: a comprehensive overview, architectures, applications, simulation tools, challenges and future directions 作者信息&#x…...

volatility2工具的使用vol2工具篇

vol2工具 命令格式&#xff1a;vol.py -f [image] --profile[profile] [plugin] 1、查看系统的操作版本&#xff0c;系统镜像信息 2.查看用户名密码信息&#xff0c;当前操作系统中的password hash&#xff0c;例如SAM文件内容 3.从注册表提取LSA密钥信息&#xff08;已解密&…...

R 基础运算

R 基础运算 R 是一种广泛使用的统计编程语言&#xff0c;它提供了强大的数据操作和分析功能。基础运算在 R 中非常重要&#xff0c;因为它们是进行更复杂计算和数据分析的基础。本文将详细介绍 R 中的基础运算&#xff0c;包括算术运算、逻辑运算、向量化和矩阵运算。 一、算…...

javaScriptBOM

1.1、BOM概述 1.1.1、BOM简介 BOM&#xff08;browser Object&#xff09;即浏览器对象模型&#xff0c;它提供了独立于内容而与浏览器窗口进行交互的对象&#xff0c;其核心对象是window。 BOM由一系列的对象构成&#xff0c;并且每个对象都提供了很多方法与属性 BOM缺乏标准…...

Godot RPG 游戏开发指南

Godot RPG 游戏开发指南 一、基础准备 1. 开发环境 下载并安装最新版 Godot 4.x选择使用 GDScript 或 C# 作为开发语言准备基础美术资源&#xff08;角色、地图、道具等&#xff09; 2. 项目结构 project/ ├── scenes/ # 场景文件 ├── scripts/ # 脚…...

目标检测数据集图片及标签同步旋转角度

前言 在深度学习领域&#xff0c;尤其是目标检测任务中&#xff0c;数据集的质量直接影响模型的性能。为了提升模型的鲁棒性和对各种场景的适应能力&#xff0c;数据增强技术被广泛应用于图像数据集处理。旋转角度是常见的数据增强方法&#xff0c;通过对图像及其对应的标签&am…...

2025前端面试热门题目——计算机网络篇

计算机网络篇——面试 1. 到底什么是 TCP 连接? TCP 连接的定义 TCP&#xff08;传输控制协议&#xff09;是一个面向连接的传输层协议。TCP 连接是通过 三次握手 确立的可靠数据通信链路&#xff0c;保证了在不可靠网络&#xff08;如互联网&#xff09;上的数据传输的准确…...

LEAST-TO-MOST PROMPTING ENABLES COMPLEX REASONING IN LARGE LANGUAGE MODELS---正文

题目 最少到最多的提示使大型语言模型能够进行复杂的推理 论文地址&#xff1a;https://arxiv.org/abs/2205.10625 摘要 思路链提示在各种自然语言推理任务中表现出色。然而&#xff0c;它在需要解决比提示中显示的示例更难的问题的任务上表现不佳。为了克服这种由易到难的概括…...

Java开发经验——日志治理经验

摘要 本文主要介绍了Java开发中的日志治理经验&#xff0c;包括系统异常日志、接口摘要日志、详细日志和业务摘要日志的定义和目的&#xff0c;以及错误码规范和异常处理规范。强调了日志治理的重要性和如何通过规范化错误码和日志格式来提高系统可观测性和问题排查效率。 1. …...

使用复数类在C#中轻松绘制曼德布洛集分形

示例在 C# 中绘制曼德布洛特集分形解释了如何通过迭代以下方程来绘制曼德布洛特集&#xff1a; 其中 Z(n) 和 C 是复数。程序迭代此方程&#xff0c;直到 Z(n) 的大小至少为 2 或程序执行最大迭代次数。 该示例在单独的变量中跟踪数字的实部和虚部。此示例使用Complex类来更轻松…...

VSCode 启用免费 Copilot

升级VSCode到 1.96版本&#xff0c;就可以使用每个月2000次免费额度了&#xff0c;按照工作日每天近80次免费额度&#xff0c;满足基本需求。前两天一直比较繁忙&#xff0c;今天周六有时间正好体验一下。 引导插件安装GitHub Copilot - Visual Studio Marketplace Extension f…...

常见问题整理

DevOps 和 CICD DevOps 全称Development & Operation 一种实现开发和运维一体化的协同模式&#xff0c;提供快速交付应用和服务的能力 用于协作&#xff1a;开发&#xff0c;部署&#xff0c;质量测试 整体生命周期工作内容&#xff0c;最终实现持续继承&#xff0c;持续部…...

使用Vue创建前后端分离项目的过程(前端部分)

前端使用Vue.js作为前端开发框架&#xff0c;使用Vue CLI3脚手架搭建项目&#xff0c;使用axios作为HTTP库与后端API交互&#xff0c;使用Vue-router实现前端路由的定义、跳转以及参数的传递等&#xff0c;使用vuex进行数据状态管理&#xff0c;后端使用Node.jsexpress&#xf…...

【Springboot知识】Redis基础-springboot集成redis相关配置

文章目录 1. 添加依赖2. 配置Redis连接3. 配置RedisTemplate&#xff08;可选&#xff09;4. 使用RedisTemplate或StringRedisTemplate5. 测试和验证 集群配置在application.properties中配置在application.yml中配置 主从配置1. 配置Redis服务器使用配置文件使用命令行 2. 配置…...

Java AI集成实战:ai4j项目解析与生产环境应用指南

1. 项目概述与核心价值 最近在开源社区里&#xff0c;一个名为 LnYo-Cly/ai4j 的项目引起了我的注意。乍一看这个标题&#xff0c;你可能会有点懵——“ai4j”&#xff1f;是“AI for Java”的缩写吗&#xff1f;没错&#xff0c;这正是它的核心定位。作为一个在Java生态里摸…...

既然单头注意力就可以算单个词从整个句子抽取的维度信息了 为啥还有了多头注意力 多头注意力的意义是啥

你这个问题问到“为什么还要多头”了&#xff0c;本质是在问&#xff1a;单个 attention 已经能做“信息加权汇总”&#xff0c;为什么还要拆成多个&#xff1f;答案一句话先给你&#xff1a;单头 attention 只能学“一种关系视角”&#xff0c;多头 attention 是让模型同时学“…...

FPGA配置核心技术与工程实践详解

1. FPGA配置基础与核心概念解析FPGA配置是将设计好的逻辑电路加载到可编程芯片中的关键过程。与ASIC不同&#xff0c;FPGA的灵活性正是通过这种可重复配置的特性实现的。在Xilinx 7系列器件中&#xff0c;配置过程涉及多个硬件接口和软件流程的协同工作。1.1 配置引脚功能详解P…...

【独家拆解】微软Copilot Studio、LangChain Agent、UiPath Autopilot底层架构差异:传统自动化团队转型窗口仅剩18个月

更多请点击&#xff1a; https://intelliparadigm.com 第一章&#xff1a;AI Agent与传统自动化的本质区别 核心能力范式迁移 传统自动化&#xff08;如RPA、Shell脚本、定时任务&#xff09;依赖预设规则和固定流程&#xff0c;执行确定性动作&#xff1b;而AI Agent具备感知…...

基于PI控制的双向DC-AC逆变器直流稳压与交流稳流仿真

目录 手把手教你学Simulink——基于PI控制的双向DC-AC逆变器直流稳压与交流稳流仿真 一、背景与挑战 1.1 为什么是“直流稳压 + 交流稳流”? 1.2 核心痛点与控制难点 二、系统架构与核心控制推导 2.1 整体架构:功率级与控制级的“左右互搏” 2.2 核心数学推导:逆变器模…...

大模型没有灵魂,但欺骗性极强——写在 AI 情感幻觉爆发的时代

大模型没有灵魂&#xff0c;但欺骗性极强 从一次「塔罗灵异事件」说起 最近 Reddit 上有个帖子刷屏了。 一位用户长期把 DeepSeek 当心理倾诉对象&#xff0c;向它输入私密日记、情绪碎片&#xff0c;偶尔用它解塔罗牌。某天&#xff0c;她问 DeepSeek「塔罗怎么看我」&…...

期刊屡投不中?虎贲等考 AI:真文献 + 实证图表 + 期刊规范,高效冲击录用

职称评审、课题结题、科研评优、学业深造……一篇高质量期刊论文是所有学术人绕不开的硬指标。但框架难搭、文献难找、实证难做、格式难调、审稿太严&#xff0c;让无数人陷入 “写得慢、返修多、录用难” 的困境。通用 AI 爱编文献、普通工具无实证、办公软件不学术&#xff0…...

3步高效解决方案:Calibre电子书元数据自动化管理

3步高效解决方案&#xff1a;Calibre电子书元数据自动化管理 【免费下载链接】calibre-douban Calibre new douban metadata source plugin. Douban no longer provides book APIs to the public, so it can only use web crawling to obtain data. This is a calibre Douban p…...

构建供应链韧性:从元器件选型到灾难预备的工程实践

1. 项目概述&#xff1a;当灾难来敲门&#xff0c;你的供应商准备好了吗&#xff1f;前几天&#xff0c;我所在的城市经历了一场不大不小的风暴。断电十几个小时&#xff0c;家里只能靠几支强光手电筒照亮。在一片昏黄的光线下&#xff0c;没法工作&#xff0c;也没法阅读&…...

基于光栅的光谱学单色仪

光谱学--对光的光谱&#xff08;波长&#xff09;组成的研究--仍然是光学的一个重要研究领域。采用衍射元件的色散行为来分离不同方向的入射光的不同光谱成分的多色器或单色器由于其易于使用和可调整性&#xff0c;经常被选择用于这项任务&#xff0c;。。在高速物理光学建模和…...