(14)D-FINE网络,爆锤yolo系列
yolo过时了?传统的yolo算法在小目标检测方面总是不行,最新算法DEIM爆锤yolo,已经替yolo解决。

一、创新点
这个算法名为DEIM,全称是DETR with Improved Matching for Fast Convergence,其主要创新点在于提出了一种新的训练框架,用于加速基于Transformer架构(如DETR)的实时目标检测模型的收敛。具体来说,DEIM的创新点包括:
-
Dense O2O Matching(密集一对一匹配):
- DEIM采用了一种新的匹配策略,称为Dense O2O(密集一对一匹配),这种策略通过在每个训练图像中增加更多的目标来增加正样本的数量,从而提供更密集的监督信号,加速模型的收敛。
- 使用标准的图像增强技术(如mosaic和mixup)来增加每个图像中的目标数量,同时保持一对一匹配框架不变。
-
Matchability-Aware Loss (MAL)(匹配能力感知损失):
-
为了解决Dense O2O匹配引入的大量低质量匹配问题,DEIM提出了一种新的损失函数MAL,该函数根据匹配质量(通过IoU和分类置信度的结合)来调整惩罚,优化不同质量水平的匹配。
-
MAL对于高置信度的低质量匹配给予了更大的惩罚,提高了有限正样本的效用,并简化了数学公式。
-
MAL的公式如下:
M A L ( p , q , y ) = { − q γ log ( p ) + ( 1 − q γ ) log ( 1 − p ) if y = 1 − p γ log ( 1 − p ) if y = 0 MAL(p, q, y) = \begin{cases} -q^\gamma \log(p) + (1 - q^\gamma) \log(1 - p) & \text{if } y = 1 \\ -p^\gamma \log(1 - p) & \text{if } y = 0 \end{cases} MAL(p,q,y)={−qγlog(p)+(1−qγ)log(1−p)−pγlog(1−p)if y=1if y=0
其中:
- p表示预测框属于前景类别的概率。
- q表示预测框与真实框之间的IoU值。
- y是真实标签,1表示前景,0表示背景。
- γ \gamma γ 是一个参数,用于平衡易例和难例之间的关注程度。
二、提升点
与YOLOv11相比,DEIM在以下几个指标上取得了提升:
-
收敛速度:
- DEIM显著加快了RT-DETRv2和D-FINE模型的收敛速度,使得这些模型在较少的训练周期内就能达到与YOLOv11相当的性能。
-
平均精度(AP):
- 在COCO数据集上,DEIM与RT-DETRv2结合时,在一天的训练后(使用NVIDIA 4090 GPU)达到了53.2%的AP,显示出在精度上的显著提升。
-
实时性能:
- DEIM训练的实时模型在NVIDIA T4 GPU上达到了54.7%和56.5%的AP,分别在124和78 FPS的帧率下,无需额外数据,这表明DEIM在实时目标检测任务中具有更好的性能。
-
小目标检测:
- DEIM在小目标检测方面也显示出了优势,尽管与某些YOLO模型相比在小目标AP上略有下降,但总体AP更高,显示出DEIM在整体性能上的提升。
总的来说,DEIM通过改进匹配策略和损失函数,提高了模型的训练效率和检测性能,特别是在实时目标检测领域,DEIM为提高目标检测的速度和准确性提供了一种有效的解决方案。
三、往期回顾
yolo入门教程:《吐血录制,yolo11猫狗实时检测实战项目,从零开始写yolov11代码》,视频全程25分钟。

(1)yolo11猫狗实时检测实战项目,从零开始写yolov11代码
(2)从零开始学yolo之yolov1的技术原理
(3)YOLOv1训练过程,新手入门
(4)YOLOv2和yolov1的差异
(5)YOLOv3和yolov1、yolov2之间的差异
(6)YOLOv4算法基本原理以及和YOLOv3 的差异
(7)YOLOv5算法基本原理大揭秘!
(8)YOLOv6算法基本原理
(9)YOLOv7算法基本原理
(10)YOLOv8算法基本原理
(11)YOLOv9算法基本原理
(12)YOLOv10算法基本原理
(13)10张结构图,深入理解YOLOv11算法各个模块
高清视频,3分钟揭秘神经网络技术原理

Transfermer的Q、K、V设计的底层逻辑
相关文章:
(14)D-FINE网络,爆锤yolo系列
yolo过时了?传统的yolo算法在小目标检测方面总是不行,最新算法DEIM爆锤yolo,已经替yolo解决。 一、创新点 这个算法名为DEIM,全称是DETR with Improved Matching for Fast Convergence,其主要创新点在于提出了一…...
Python :冬至快乐
第1部分:基础设置 首先创建一个新的 Python 文件,命名为 fireworks.py。 步骤 1.1: 导入必要的库 import pygame import random import sys from pygame.locals import * import math import time这些库的作用: pygame: 用于创建游戏和图…...
重拾设计模式--状态模式
文章目录 状态模式(State Pattern)概述状态模式UML图作用:状态模式的结构环境(Context)类:抽象状态(State)类:具体状态(Concrete State)类&#x…...
稀疏矩阵的存储与计算 gaxpy
1, gaxpy 数学公式 其中: , , 2, 具体实例 3,用稠密矩阵的方法 本节将用于验证第4节中的稀疏计算的结果 hello_gaxpy_dense.cpp #include <stdio.h> #include <stdlib.h>struct Matrix_SP {float* val; //…...
基于LabVIEW的USRP信道测量开发
随着无线通信技术的不断发展,基于软件无线电的设备(如USRP)在信道测量、无线通信测试等领域扮演着重要角色。通过LabVIEW与USRP的结合,开发者可以实现信号生成、接收及信道估计等功能。尽管LabVIEW提供了丰富的信号处理工具和图形…...
基于LSTM长短期记忆神经网络的多分类预测【MATLAB】
在深度学习中,长短期记忆网络(LSTM, Long Short-Term Memory)是一种强大的循环神经网络(RNN)变体,专门为解决序列数据中的长距离依赖问题而设计。LSTM因其强大的记忆能力,广泛应用于自然语言处理…...
物联网:全面概述、架构、应用、仿真工具、挑战和未来方向
中文论文标题:物联网:全面概述、架构、应用、仿真工具、挑战和未来方向 英文论文标题:Internet of Things: a comprehensive overview, architectures, applications, simulation tools, challenges and future directions 作者信息&#x…...
volatility2工具的使用vol2工具篇
vol2工具 命令格式:vol.py -f [image] --profile[profile] [plugin] 1、查看系统的操作版本,系统镜像信息 2.查看用户名密码信息,当前操作系统中的password hash,例如SAM文件内容 3.从注册表提取LSA密钥信息(已解密&…...
R 基础运算
R 基础运算 R 是一种广泛使用的统计编程语言,它提供了强大的数据操作和分析功能。基础运算在 R 中非常重要,因为它们是进行更复杂计算和数据分析的基础。本文将详细介绍 R 中的基础运算,包括算术运算、逻辑运算、向量化和矩阵运算。 一、算…...
javaScriptBOM
1.1、BOM概述 1.1.1、BOM简介 BOM(browser Object)即浏览器对象模型,它提供了独立于内容而与浏览器窗口进行交互的对象,其核心对象是window。 BOM由一系列的对象构成,并且每个对象都提供了很多方法与属性 BOM缺乏标准…...
Godot RPG 游戏开发指南
Godot RPG 游戏开发指南 一、基础准备 1. 开发环境 下载并安装最新版 Godot 4.x选择使用 GDScript 或 C# 作为开发语言准备基础美术资源(角色、地图、道具等) 2. 项目结构 project/ ├── scenes/ # 场景文件 ├── scripts/ # 脚…...
目标检测数据集图片及标签同步旋转角度
前言 在深度学习领域,尤其是目标检测任务中,数据集的质量直接影响模型的性能。为了提升模型的鲁棒性和对各种场景的适应能力,数据增强技术被广泛应用于图像数据集处理。旋转角度是常见的数据增强方法,通过对图像及其对应的标签&am…...
2025前端面试热门题目——计算机网络篇
计算机网络篇——面试 1. 到底什么是 TCP 连接? TCP 连接的定义 TCP(传输控制协议)是一个面向连接的传输层协议。TCP 连接是通过 三次握手 确立的可靠数据通信链路,保证了在不可靠网络(如互联网)上的数据传输的准确…...
LEAST-TO-MOST PROMPTING ENABLES COMPLEX REASONING IN LARGE LANGUAGE MODELS---正文
题目 最少到最多的提示使大型语言模型能够进行复杂的推理 论文地址:https://arxiv.org/abs/2205.10625 摘要 思路链提示在各种自然语言推理任务中表现出色。然而,它在需要解决比提示中显示的示例更难的问题的任务上表现不佳。为了克服这种由易到难的概括…...
Java开发经验——日志治理经验
摘要 本文主要介绍了Java开发中的日志治理经验,包括系统异常日志、接口摘要日志、详细日志和业务摘要日志的定义和目的,以及错误码规范和异常处理规范。强调了日志治理的重要性和如何通过规范化错误码和日志格式来提高系统可观测性和问题排查效率。 1. …...
使用复数类在C#中轻松绘制曼德布洛集分形
示例在 C# 中绘制曼德布洛特集分形解释了如何通过迭代以下方程来绘制曼德布洛特集: 其中 Z(n) 和 C 是复数。程序迭代此方程,直到 Z(n) 的大小至少为 2 或程序执行最大迭代次数。 该示例在单独的变量中跟踪数字的实部和虚部。此示例使用Complex类来更轻松…...
VSCode 启用免费 Copilot
升级VSCode到 1.96版本,就可以使用每个月2000次免费额度了,按照工作日每天近80次免费额度,满足基本需求。前两天一直比较繁忙,今天周六有时间正好体验一下。 引导插件安装GitHub Copilot - Visual Studio Marketplace Extension f…...
常见问题整理
DevOps 和 CICD DevOps 全称Development & Operation 一种实现开发和运维一体化的协同模式,提供快速交付应用和服务的能力 用于协作:开发,部署,质量测试 整体生命周期工作内容,最终实现持续继承,持续部…...
使用Vue创建前后端分离项目的过程(前端部分)
前端使用Vue.js作为前端开发框架,使用Vue CLI3脚手架搭建项目,使用axios作为HTTP库与后端API交互,使用Vue-router实现前端路由的定义、跳转以及参数的传递等,使用vuex进行数据状态管理,后端使用Node.jsexpress…...
【Springboot知识】Redis基础-springboot集成redis相关配置
文章目录 1. 添加依赖2. 配置Redis连接3. 配置RedisTemplate(可选)4. 使用RedisTemplate或StringRedisTemplate5. 测试和验证 集群配置在application.properties中配置在application.yml中配置 主从配置1. 配置Redis服务器使用配置文件使用命令行 2. 配置…...
3步让老Mac焕发新生:OpenCore Legacy Patcher完整重生方案
3步让老Mac焕发新生:OpenCore Legacy Patcher完整重生方案 【免费下载链接】OpenCore-Legacy-Patcher 体验与之前一样的macOS 项目地址: https://gitcode.com/GitHub_Trending/op/OpenCore-Legacy-Patcher 当你心爱的Mac电脑被苹果官方宣布"过时"&…...
快马AI一键生成链表可视化原型,交互演示助力算法设计
最近在复习数据结构时,发现链表这种基础但重要的结构,光看静态图示很难理解指针变化。正好尝试用InsCode(快马)平台快速搭建了一个可视化演示工具,整个过程比想象中简单很多,分享下实现思路: 需求拆解 首先明确需要实现…...
什么是SSE 流式推送
SSE 流式推送(Server-Sent Events,服务器发送事件),是一种基于 HTTP 协议、服务器主动向客户端单向推送实时数据流的 Web 技术(HTML5 标准)。 一、一句话理解 客户端(浏览器)用 Even…...
Rustup离线安装完整指南:在没有网络的环境中搭建Rust开发平台
Rustup离线安装完整指南:在没有网络的环境中搭建Rust开发平台 【免费下载链接】rustup The Rust toolchain installer 项目地址: https://gitcode.com/gh_mirrors/ru/rustup 你是否曾经需要在完全隔离的网络环境中安装Rust开发工具链?ᾑ…...
百川2-13B-4bits量化原理解析:OpenClaw任务中的精度损失补偿方案
百川2-13B-4bits量化原理解析:OpenClaw任务中的精度损失补偿方案 1. 从一次失败的自动化任务说起 上周我尝试用OpenClaw自动整理一批技术文档时遇到了奇怪的现象:当AI助手处理到第37个Markdown文件时,突然开始重复生成相同的段落内容。查看…...
告别“手搓论文”焦虑:百考通AI期刊写作全流程通关秘籍
从选题到投稿,一套工具,帮你避开90%的审稿雷区 在学术研究的漫长旅途中,许多研究者都曾面临这样的困境:精心培育的 idea,扎实的实验数据,却在转化为论文、投向期刊的“最后一公里”屡屡碰壁。不是因为研究本…...
除了浏览器点一点,Oracle 19c EM Express还能这么用?几个提升DBA效率的隐藏技巧
Oracle 19c EM Express高阶应用:解锁DBA效率提升的五大隐藏技巧 当你已经能够熟练地通过浏览器访问Oracle 19c EM Express时,是否思考过这个轻量级管理工具还能为你带来哪些惊喜?本文将带你超越基础操作,探索那些被大多数DBA忽略的…...
FPGA实战:用Verilog手搓8点FFT核心(附完整代码与仿真对比)
FPGA实战:从零构建8点FFT核心的完整指南 在数字信号处理领域,快速傅里叶变换(FFT)算法是当之无愧的"瑞士军刀"。作为一名FPGA工程师,我曾在多个项目中需要将FFT算法部署到硬件平台,期间积累了不少…...
Python实战:用WordCloud打造个性化圆形词云图
1. 为什么你需要圆形词云图? 词云图是数据可视化中最直观的展现形式之一。相比传统的柱状图、折线图,词云能更生动地呈现文本数据的核心信息。而圆形词云图在视觉上更加聚焦,特别适合用于社交媒体分析、用户画像展示等场景。比如你要分析微博…...
ESP32S3上电重启问题终极排查指南:从电源纹波到SPI电阻的实战经验
ESP32S3上电重启问题终极排查指南:从电源纹波到SPI电阻的实战经验 当ESP32S3开发板在批量生产中出现上电重启问题时,硬件工程师往往会面临一场与时间赛跑的挑战。最近在调试某款智能家居网关时,我们遇到了典型的RTC_SW_SYS_RST错误ÿ…...
