当前位置：首页 > news >正文

RT-DETR手把手教程，注意力机制如何添加在网络的不同位置进行创新优化

news 2026/2/20 16:33:34

💡💡💡本文独家改进：本文首先复现了将EMA引入到RT-DETR中，并跟不同模块进行结合创新；1）Rep C3结合；2）直接作为注意力机制放在网络不同位置；3）高效和HGBlock结合；

总有一种改进适用你的数据集，完成涨点工作并进行创新

推荐指数：五星

RT-DETR魔术师专栏介绍：

https://blog.csdn.net/m0_63774211/category_12497375.html

✨✨✨魔改创新RT-DETR

🚀🚀🚀引入前沿顶会创新，助力RT-DETR

🍉🍉🍉基于ultralytics优化，与YOLO完美结合

1.RT-DETR介绍

论文： https://arxiv.org/pdf/2304.08069.pdf

RT-DETR (Real-Time DEtection TRansformer) ，一种基于 DETR 架构的实时端到端检测器，其在速度和精度上取得了 SOTA 性能

为什么会出现：

YOLO 检测器有个较大的待改进点是需要 NMS 后处理，其通常难以优化且不够鲁棒，因此检测器的速度存在延迟。为避免该问题，我们将目光移向了不需要 NMS 后处理的 DETR，一种基于 Transformer 的端到端目标检测器。然而，相比于 YOLO 系列检测器，DETR 系列检测器的速度要慢的多，这使得"无需 NMS "并未在速度上体现出优势。上述问题促使我们针对实时的端到端检测器进行探索，旨在基于 DETR 的优秀架构设计一个全新的实时检测器，从根源上解决 NMS 对实时检测器带来的速度延迟问题。

RT-DETR是第一个实时端到端目标检测器。具体而言，我们设计了一个高效的混合编码器，通过解耦尺度内交互和跨尺度融合来高效处理多尺度特征，并提出了IoU感知的查询选择机制，以优化解码器查询的初始化。此外，RT-DETR支持通过使用不同的解码器层来灵活调整推理速度，而不需要重新训练，这有助于实时目标检测器的实际应用。RT-DETR-L在COCO val2017上实现了53.0%的AP，在T4 GPU上实现了114FPS，RT-DETR-X实现了54.8%的AP和74FPS，在速度和精度方面都优于相同规模的所有YOLO检测器。RT-DETR-R50实现了53.1%的AP和108FPS，RT-DETR-R101实现了54.3%的AP和74FPS，在精度上超过了全部使用相同骨干网络的DETR检测器。

2.EMA介绍

论文：https://arxiv.org/abs/2305.13563v1

录用：ICASSP2023

通过通道降维来建模跨通道关系可能会给提取深度视觉表示带来副作用。本文提出了一种新的高效的多尺度注意力(EMA)模块。以保留每个通道上的信息和降低计算开销为目标，将部分通道重塑为批量维度，并将通道维度分组为多个子特征，使空间语义特征在每个特征组中均匀分布。

本文提出了一种新的跨空间学习方法，并设计了一个多尺度并行子网络来建立短和长依赖关系。
1)我们考虑一种通用方法，将部分通道维度重塑为批量维度，以避免通过通用卷积进行某种形式的降维。
2)除了在不进行通道降维的情况下在每个并行子网络中构建局部的跨通道交互外，我们还通过跨空间学习方法融合两个并行子网络的输出特征图。
3)与CBAM、NAM[16]、SA、ECA和CA相比，EMA不仅取得了更好的结果，而且在所需参数方面效率更高。

3. EMA加入到RT-DETR

3.1 新建ultralytics/nn/attention/EMA.py

代码详见：

RT-DETR手把手教程，注意力机制如何添加在网络的不同位置进行创新优化，EMA注意力为案列-CSDN博客

3.3 EMA_attention如何跟RT-DETR结合进行结合创新

3.3.1 如何跟Rep C3结合

# Ultralytics YOLO 🚀, AGPL-3.0 license
# RT-DETR-l object detection model with P3-P5 outputs. For details see https://docs.ultralytics.com/models/rtdetr# Parameters
nc: 80  # number of classes
scales: # model compound scaling constants, i.e. 'model=yolov8n-cls.yaml' will call yolov8-cls.yaml with scale 'n'# [depth, width, max_channels]l: [1.00, 1.00, 1024]backbone:# [from, repeats, module, args]- [-1, 1, HGStem, [32, 48]]  # 0-P2/4- [-1, 6, HGBlock, [48, 128, 3]]  # stage 1- [-1, 1, DWConv, [128, 3, 2, 1, False]]  # 2-P3/8- [-1, 6, HGBlock, [96, 512, 3]]   # stage 2- [-1, 1, DWConv, [512, 3, 2, 1, False]]  # 4-P3/16- [-1, 6, HGBlock, [192, 1024, 5, True, False]]  # cm, c2, k, light, shortcut- [-1, 6, HGBlock, [192, 1024, 5, True, True]]- [-1, 6, HGBlock, [192, 1024, 5, True, True]]  # stage 3- [-1, 1, DWConv, [1024, 3, 2, 1, False]]  # 8-P4/32- [-1, 6, HGBlock, [384, 2048, 5, True, False]]  # stage 4head:- [-1, 1, Conv, [256, 1, 1, None, 1, 1, False]]  # 10 input_proj.2- [-1, 1, AIFI, [1024, 8]]- [-1, 1, Conv, [256, 1, 1]]   # 12, Y5, lateral_convs.0- [-1, 1, nn.Upsample, [None, 2, 'nearest']]- [7, 1, Conv, [256, 1, 1, None, 1, 1, False]]  # 14 input_proj.1- [[-2, -1], 1, Concat, [1]]- [-1, 3, EMA_attentionC3, [256]]  # 16, fpn_blocks.0- [-1, 1, Conv, [256, 1, 1]]   # 17, Y4, lateral_convs.1- [-1, 1, nn.Upsample, [None, 2, 'nearest']]- [3, 1, Conv, [256, 1, 1, None, 1, 1, False]]  # 19 input_proj.0- [[-2, -1], 1, Concat, [1]]  # cat backbone P4- [-1, 3, EMA_attentionC3, [256]]    # X3 (21), fpn_blocks.1- [-1, 1, Conv, [256, 3, 2]]   # 22, downsample_convs.0- [[-1, 17], 1, Concat, [1]]  # cat Y4- [-1, 3, EMA_attentionC3, [256]]    # F4 (24), pan_blocks.0- [-1, 1, Conv, [256, 3, 2]]   # 25, downsample_convs.1- [[-1, 12], 1, Concat, [1]]  # cat Y5- [-1, 3, EMA_attentionC3, [256]]    # F5 (27), pan_blocks.1- [[21, 24, 27], 1, RTDETRDecoder, [nc]]  # Detect(P3, P4, P5)

3.3.2 直接作为注意力机制放在网络不同位置

# Ultralytics YOLO 🚀, AGPL-3.0 license
# RT-DETR-l object detection model with P3-P5 outputs. For details see https://docs.ultralytics.com/models/rtdetr# Parameters
nc: 80  # number of classes
scales: # model compound scaling constants, i.e. 'model=yolov8n-cls.yaml' will call yolov8-cls.yaml with scale 'n'# [depth, width, max_channels]l: [1.00, 1.00, 1024]backbone:# [from, repeats, module, args]- [-1, 1, HGStem, [32, 48]]  # 0-P2/4- [-1, 6, HGBlock, [48, 128, 3]]  # stage 1- [-1, 1, DWConv, [128, 3, 2, 1, False]]  # 2-P3/8- [-1, 6, HGBlock, [96, 512, 3]]   # stage 2- [-1, 1, DWConv, [512, 3, 2, 1, False]]  # 4-P3/16- [-1, 6, HGBlock, [192, 1024, 5, True, False]]  # cm, c2, k, light, shortcut- [-1, 6, HGBlock, [192, 1024, 5, True, True]]- [-1, 6, HGBlock, [192, 1024, 5, True, True]]  # stage 3- [-1, 1, DWConv, [1024, 3, 2, 1, False]]  # 8-P4/32- [-1, 6, HGBlock, [384, 2048, 5, True, False]]  # stage 4head:- [-1, 1, Conv, [256, 1, 1, None, 1, 1, False]]  # 10 input_proj.2- [-1, 1, AIFI, [1024, 8]]- [-1, 1, Conv, [256, 1, 1]]   # 12, Y5, lateral_convs.0- [-1, 1, EMA_attention, [256]]   # 13- [-1, 1, nn.Upsample, [None, 2, 'nearest']]- [7, 1, Conv, [256, 1, 1, None, 1, 1, False]]  # 15 input_proj.1- [[-2, -1], 1, Concat, [1]]- [-1, 3, RepC3, [256]]  # 17, fpn_blocks.0- [-1, 1, Conv, [256, 1, 1]]   # 18, Y4, lateral_convs.1- [-1, 1, EMA_attention, [256]]   # 19- [-1, 1, nn.Upsample, [None, 2, 'nearest']]- [3, 1, Conv, [256, 1, 1, None, 1, 1, False]]  # 21 input_proj.0- [[-2, -1], 1, Concat, [1]]  # cat backbone P4- [-1, 3, RepC3, [256]]    # X3 (23), fpn_blocks.1- [-1, 1, Conv, [256, 3, 2]]   # 24, downsample_convs.0- [[-1, 19], 1, Concat, [1]]  # cat Y4- [-1, 3, RepC3, [256]]    # F4 (26), pan_blocks.0- [-1, 1, Conv, [256, 3, 2]]   # 27, downsample_convs.1- [[-1, 13], 1, Concat, [1]]  # cat Y5- [-1, 3, RepC3, [256]]    # F5 (29), pan_blocks.1- [[23, 26, 29], 1, RTDETRDecoder, [nc]]  # Detect(P3, P4, P5)

3.3.3 高效和HGBlock结合

# Ultralytics YOLO 🚀, AGPL-3.0 license
# RT-DETR-l object detection model with P3-P5 outputs. For details see https://docs.ultralytics.com/models/rtdetr# Parameters
nc: 80  # number of classes
scales: # model compound scaling constants, i.e. 'model=yolov8n-cls.yaml' will call yolov8-cls.yaml with scale 'n'# [depth, width, max_channels]l: [1.00, 1.00, 1024]backbone:# [from, repeats, module, args]- [-1, 1, HGStem, [32, 48]]  # 0-P2/4- [-1, 6, HGBlock, [48, 128, 3]]  # stage 1- [-1, 1, DWConv, [128, 3, 2, 1, False]]  # 2-P3/8- [-1, 6, HGBlock, [96, 512, 3]]   # stage 2- [-1, 1, DWConv, [512, 3, 2, 1, False]]  # 4-P3/16- [-1, 6, HGBlock, [192, 1024, 5, True, False]]  # cm, c2, k, light, shortcut- [-1, 6, HGBlock, [192, 1024, 5, True, True]]- [-1, 6, HGBlock, [192, 1024, 5, True, True]]  # stage 3- [-1, 1, DWConv, [1024, 3, 2, 1, False]]  # 8-P4/32- [-1, 6, HGBlock_EMA_attention, [384, 2048, 5, True, False]]  # stage 4head:- [-1, 1, Conv, [256, 1, 1, None, 1, 1, False]]  # 10 input_proj.2- [-1, 1, AIFI, [1024, 8]]- [-1, 1, Conv, [256, 1, 1]]   # 12, Y5, lateral_convs.0- [-1, 1, nn.Upsample, [None, 2, 'nearest']]- [7, 1, Conv, [256, 1, 1, None, 1, 1, False]]  # 14 input_proj.1- [[-2, -1], 1, Concat, [1]]- [-1, 3, RepC3, [256]]  # 16, fpn_blocks.0- [-1, 1, Conv, [256, 1, 1]]   # 17, Y4, lateral_convs.1- [-1, 1, nn.Upsample, [None, 2, 'nearest']]- [3, 1, Conv, [256, 1, 1, None, 1, 1, False]]  # 19 input_proj.0- [[-2, -1], 1, Concat, [1]]  # cat backbone P4- [-1, 3, RepC3, [256]]    # X3 (21), fpn_blocks.1- [-1, 1, Conv, [256, 3, 2]]   # 22, downsample_convs.0- [[-1, 17], 1, Concat, [1]]  # cat Y4- [-1, 3, RepC3, [256]]    # F4 (24), pan_blocks.0- [-1, 1, Conv, [256, 3, 2]]   # 25, downsample_convs.1- [[-1, 12], 1, Concat, [1]]  # cat Y5- [-1, 3, RepC3, [256]]    # F5 (27), pan_blocks.1- [[21, 24, 27], 1, RTDETRDecoder, [nc]]  # Detect(P3, P4, P5)

4.总结

本文复现了将EMA引入到RT-DETR中，并跟不同模块进行结合创新；

1）Rep C3结合；

2）直接作为注意力机制放在网络不同位置；

3）高效和HGBlock结合；

RT-DETR手把手教程，注意力机制如何添加在网络的不同位置进行创新优化

💡💡💡本文独家改进：本文首先复现了将EMA引入到RT-DETR中，并跟不同模块进行结合创新；1）Rep C3结合；2）直接作为注意力机制放在网络不同位置；3）高效…...

编程日记 2023/11/21 20:39:03

qt treeview 删除节点

Qt 中，要删除 QTreeView 中的节点，可以通过操作其模型（QAbstractItemModel）来实现。以下是一个简单的示例，展示如何从 QTreeView 中删除节点。假设你有一个 QTreeView，它使用了 QStandardItemModel 作为模…...

编程日记 2023/11/21 20:38:02

【单词】【2019】

...

编程日记 2023/11/21 20:37:01

Java自动化驱动浏览器搜索稻香

下载最新的Chrome浏览器查看chrome版本，在浏览器地址栏输入：chrome://version/ 下载对应的浏览器驱动，将其放到一个目录中，我放到了D:/chromedriver-win64 导入对应的依赖【注意：不要导入最新的版本，最…...

编程日记 2023/11/21 20:35:59

php聊天室通讯系统常用的接口对接函数 curl、file_get_contents()、WebSocket、消息队列

方法有： 1、HTTP请求，可以通过PHP的curl库或者file_get_contents()函数发送HTTP请求来与聊天室接口进行通信； 2、WebSocket协议，可以使用PHP的WebSocket库或者第三方库来与聊天室接口进行对接； 3、使用这些SDK或者包装…...

编程日记 2023/11/21 20:34:58

SQL基础理论篇（九）：存储过程

文章目录简介存储过程的形式定义一个存储过程使用delimiter定义语句结束符存储过程中的三种参数类型流控制语句存储过程的优缺点参考文献简介存储过程Stored Procedure，SQL中的另一个重要应用。前面说的视图，只能勉强跟编程中的函数相似&#xff…...

编程日记 2023/11/21 20:33:57

申银万国期货通过ZStack Cube信创超融合一体机打造金融信创平台

信创是数字中国建设的重要组成部分，也是数字经济发展的关键推动力量。作为云基础软件企业，云轴科技ZStack产品矩阵全面覆盖数据中心云基础设施，ZStack信创云首批通过可信云《一云多芯IaaS平台能力要求》先进级，是其中唯一兼容四种…...

编程日记 2023/11/21 20:32:56

SquareCTF-2023 Web Writeups

官方wp：CTFtime.org / Square CTF 2023 tasks and writeups sandbox Description： I “made” “a” “python” “sandbox” “”“” nc 184.72.87.9 8008 先nc连上看看，只允许一个单词，空格之后的直接无效了。 flag就在当…...

编程日记 2023/11/21 20:31:55

Docker-compose 安装mysql8

1、编写docker-compose.yml文件 version: 3.8 services:mysql:container_name: mysql8image: mysql:8.0.18restart: alwaysports:- 3306:3306privileged: truevolumes:- $PWD/log:/var/log/mysql- $PWD/conf/my.cnf:/etc/mysql/my.cnf- $PWD/data:/var/lib/mysqlenvironment:M…...

编程日记 2023/11/21 20:28:51

分布式锁实现对比

1、对比 tairzookeper性能高低可靠性低高 2、zookeper实现分布式锁特点： Zookeeper能保证数据的强一致性，用户任何时候都可以相信集群中每个节点的数据都是相同的。加锁客户端在ZooKeeper一个特定的节点下创建临时顺序节点&…...

编程日记 2023/11/21 20:27:50

Ubuntu 系统上使用 QQ 邮箱的 SMTP 服务器发送邮件，msmtp（已验证）

安装 msmtp sudo apt-get update sudo apt-get install msmtp2 .配置 msmtp nano ~/.msmtprcdefaults auth on tls on tls_starttls on tls_trust_file /etc/ssl/certs/ca-certificates.crt logfile ~/.msmtp.logaccount qq host …...

编程日记 2023/11/21 20:26:49

笔记54：门控循环单元 GRU

本地笔记地址：D:\work_file\DeepLearning_Learning\03_个人笔记\3.循环神经网络\第9章：动手学深度学习~现代循环神经网络 a a a a a a a...

编程日记 2023/11/21 20:25:48

数据仓库高级面试题

数仓高内聚低耦合是怎么做的定义高内聚：强调模块内部的相对独立性，要求模块内部的元素尽可能的完成一个功能，不混杂其他功能，从而使模块保持简洁，易于理解和管理。低耦合：模块之间的耦合度要尽可能的…...

编程日记 2023/11/21 20:24:47

【OpenGauss源码学习 —— 列存储（ColumnTableSample）】

执行算子（ColumnTableSample） 概述ColumnTableSample 类ColumnTableSample::ColumnTableSample 构造函数ColumnTableSample::~ColumnTableSample 析构函数ExecCStoreScan 函数ColumnTableSample::scanVecSample 函数ColumnTableSample::getMaxOffset 函数…...

编程日记 2023/11/21 20:23:45

【开源】基于JAVA的校园二手交易系统

项目编号： S 009 ，文末获取源码。 \color{red}{项目编号：S009，文末获取源码。} 项目编号：S009，文末获取源码。目录一、摘要1.1 项目介绍1.2 项目录屏二、功能模块2.1 数据中心模块2.2 二手商品档案管理模…...

编程日记 2023/11/21 20:22:43

C 语言结构体(struct)

C 语言结构体(struct) 在本教程中，您将学习C语言编程中的结构类型。您将借助示例学习定义和使用结构。在C语言编程中，有时需要存储实体的多个属性。实体不必仅具有一种类型的所有信息。它可以具有不同数据类型的不同属性。 C 数组允许定义可存储相…...

编程日记 2023/11/21 20:21:42

Linux：zip包的压缩与解压

压缩文件： zip命令语法： zip [-AcdDfFghjJKlLmoqrSTuvVwXyz$][-b <工作目录>][-ll][-n <字尾字符串>][-t <日期时间>][-<压缩效率>][压缩文件][文件...][-i <范本样式>][-x <范本样式>] 补充说明：zi…...

编程日记 2023/11/21 20:20:41

Linux 时区设置

对于服务器来说，linux的时区影响着运行之上的数据库和后端程序的时区应该和数据库和后端及其他程序的时区保持一致其他相关时区的设置 pgsql时区设置： php时区设置： 1.显示当前的时间和时区 date结果类似下面，图中显示的是ut…...

编程日记 2023/11/21 20:18:39

Linux本地WBO创作白板部署与远程访问

文章目录前言1. 部署WBO白板2. 本地访问WBO白板3. Linux 安装cpolar4. 配置WBO公网访问地址5. 公网远程访问WBO白板6. 固定WBO白板公网地址前言 WBO在线协作白板是一个自由和开源的在线协作白板，允许多个用户同时在一个虚拟的大型白板上画图。该白板对所有线上用…...

编程日记 2023/11/21 20:17:38

leetcode刷题日记:205. Isomorphic Strings(同构字符串)

205. Isomorphic Strings(同构字符串) 对于同构字符串来说也就是对于字符串s与字符串t，对于 s [ i ] s[i] s[i]可以映射到 t [ i ] t[i] t[i],同时对于任意 s [ k ] s [ i ] s[k]s[i] s[k]s[i]都有 s [ k ] s[k] s[k]映射到 t [ k ] t[k] t[k],则 t [ k ] t [ i …...

编程日记 2023/11/21 20:15:35

IDEA运行Tomcat出现乱码问题解决汇总

最近正值期末周，有很多同学在写期末Java web作业时，运行tomcat出现乱码问题，经过多次解决与研究，我做了如下整理： 原因： IDEA本身编码与tomcat的编码与Windows编码不同导致，Windows 系统控制台…...

编程新知 2026/2/20 15:03:13

简易版抽奖活动的设计技术方案

1.前言本技术方案旨在设计一套完整且可靠的抽奖活动逻辑，确保抽奖活动能够公平、公正、公开地进行，同时满足高并发访问、数据安全存储与高效处理等需求，为用户提供流畅的抽奖体验，助力业务顺利开展。本方案将涵盖抽奖活动的整体架构设计、核心流程逻辑、关键功能实现以及…...

编程新知 2026/2/17 18:22:38

Python：操作 Excel 折叠

💖亲爱的技术爱好者们，热烈欢迎来到 Kant2048 的博客！我是 Thomas Kant，很开心能在CSDN上与你们相遇～💖 本博客的精华专栏：【自动化测试】【测试经验】【人工智能】【Python】 Python 操作 Excel 系列读取单元格数据按行写入设置行高和列宽自动调整行高和列宽水平…...

编程新知 2026/2/18 19:36:32

基于Flask实现的医疗保险欺诈识别监测模型

基于Flask实现的医疗保险欺诈识别监测模型项目截图项目简介社会医疗保险是国家通过立法形式强制实施，由雇主和个人按一定比例缴纳保险费，建立社会医疗保险基金，支付雇员医疗费用的一种医疗保险制度， 它是促进社会文明和进步的…...

编程新知 2026/2/20 13:50:06

el-switch文字内置

el-switch文字内置效果 vue <div style"color:#ffffff;font-size:14px;float:left;margin-bottom:5px;margin-right:5px;">自动加载</div> <el-switch v-model"value" active-color"#3E99FB" inactive-color"#DCDFE6"…...

编程新知 2026/1/26 10:00:16

多模态大语言模型arxiv论文略读（108）

CROME: Cross-Modal Adapters for Efficient Multimodal LLM ➡️ 论文标题：CROME: Cross-Modal Adapters for Efficient Multimodal LLM ➡️ 论文作者：Sayna Ebrahimi, Sercan O. Arik, Tejas Nama, Tomas Pfister ➡️ 研究机构: Google Cloud AI Re…...

编程新知 2026/2/1 6:11:51

C++八股 —— 单例模式

文章目录 1. 基本概念2. 设计要点3. 实现方式4. 详解懒汉模式 1. 基本概念线程安全（Thread Safety） 线程安全是指在多线程环境下，某个函数、类或代码片段能够被多个线程同时调用时，仍能保证数据的一致性和逻辑的正确性&#xf…...

编程新知 2026/2/19 16:23:18

【Redis】笔记｜第8节｜大厂高并发缓存架构实战与优化

缓存架构代码结构代码详情功能点： 多级缓存，先查本地缓存，再查Redis，最后才查数据库热点数据重建逻辑使用分布式锁，二次查询更新缓存采用读写锁提升性能采用Redis的发布订阅机制通知所有实例更新本地缓存适用读多…...

编程新知 2026/2/14 16:42:25

C/C++ 中附加包含目录、附加库目录与附加依赖项详解

在 C/C 编程的编译和链接过程中，附加包含目录、附加库目录和附加依赖项是三个至关重要的设置，它们相互配合，确保程序能够正确引用外部资源并顺利构建。虽然在学习过程中，这些概念容易让人混淆，但深入理解它们的作用和联…...

编程新知 2026/2/18 14:02:18

Windows安装Miniconda

一、下载 https://www.anaconda.com/download/success 二、安装三、配置镜像源 Anaconda/Miniconda pip 配置清华镜像源_anaconda配置清华源-CSDN博客四、常用操作命令 Anaconda/Miniconda 基本操作命令_miniconda创建环境命令-CSDN博客...

编程新知 2026/2/17 1:11:06