当前位置: 首页 > article >正文

【DN-DETR论文阅读】:基于查询去噪的DETR训练加速范式,从根源解决双边匹配不稳定问题

论文信息标题DN-DETR: Accelerate DETR Training by Introducing Query Denoising会议CVPR 2022 (Oral)单位香港科技大学、清华大学、IDEA研究院代码github.com/IDEA-Research/DN-DETR论文https://arxiv.org/pdf/2203.01305.pdf一、引言DETR训练为什么慢得让人崩溃DETR凭借端到端、无Anchor、无NMS的极简检测范式封神但它有个致命缺陷训练收敛极慢常规需要500轮才能达到稳定性能是Faster R-CNN的10倍以上。过往工作都把锅甩给交叉注意力效率低查询没有显式空间先验多尺度特征缺失但本文直接戳穿真相DETR收敛慢的核心元凶是——双边匹配匈牙利算法不稳定早期训练中同一查询在不同轮次会被分配给不同GT优化目标持续跳变模型根本学不动。于是DN-DETR提出查询去噪训练Denoising Training把带噪声的真实框直接作为辅助查询送入解码器让模型学习“去噪还原真值”绕过不稳定的双边匹配最终效果✅ 训练收敛速度提升1倍50轮 原版100轮✅ COCO数据集**1.9 AP**巨大涨点✅ 12轮训练达到46.0 AP50轮达到49.5 AP✅ 即插即用兼容所有DETR变体Deformable/Anchor/DAB等✅ 还能用于分割、3D检测、追踪等所有集合预测任务二、核心动机双边匹配的“不稳定性”毒瘤2.1 什么是匹配不稳定DETR通过匈牙利算法把查询和真值做一对一匹配但这个过程天生不稳定成本矩阵微小变化 → 匹配结果剧烈跳变查询的优化目标频繁改变 → 梯度混乱早期训练尤为严重 → 收敛极慢2.2 量化指标匹配不稳定性 IS本文首次定义不稳定性得分 ISIS1N∑i1N∑j1M1(Vji≠Vji−1)IS \frac{1}{N}\sum_{i1}^{N}\sum_{j1}^{M}\boldsymbol{1}(V_j^i \neq V_j^{i-1})ISN1​∑i1N​∑j1M​1(Vji​Vji−1​)符号解释ISISIS不稳定性得分越高越不稳定NNN图像数量MMM查询数量VjiV_j^iVji​第iii轮第jjj个查询的匹配结果1(⋅)\boldsymbol{1}(\cdot)1(⋅)指示函数成立为1否则为0通俗解释统计前后两轮之间有多少查询的匹配目标发生了“跳变”。2.3 可视化证据不稳定性对比图DAB-DETR 和 DN-DETR 在训练过程中的 IS 值。对于每种方法我们在相同的设置下进行 12 个周期的训练。我们通过在验证集上测试每两个周期之间匈牙利匹配的变化来计算 IS 值。曲线含义蓝色DAB-DETR基线橙色DN-DETR本文方法横轴训练轮数Epoch纵轴不稳定性得分IS图片分析DN-DETR的IS曲线全程显著低于基线证明去噪训练大幅降低了双边匹配的不稳定性让查询优化目标更稳定。三、核心原理查询去噪到底怎么做3.1 总体思想在标准DETR训练基础上额外加入一批“带噪声的真值查询”从真值框构造带噪声的查询送入解码器做去噪还原真值去噪损失直接监督不经过双边匹配主任务依旧使用匈牙利损失推理时丢弃所有去噪查询完全不影响速度一句话总结用简单的去噪任务“带路”让模型先学会框回归再去做困难的双边匹配。3.2 去噪查询构造对真值框(x,y,w,h)(x,y,w,h)(x,y,w,h)加入随机噪声xnoisedxδxx^{noised} x \delta_xxnoisedxδx​ynoisedyδyy^{noised} y \delta_yynoisedyδy​wnoisedw⋅δww^{noised} w \cdot \delta_wwnoisedw⋅δw​hnoisedh⋅δhh^{noised} h \cdot \delta_hhnoisedh⋅δh​符号解释x,yx,yx,y真值框中心坐标w,hw,hw,h真值框宽高δx,δy\delta_x,\delta_yδx​,δy​高斯噪声δw,δh\delta_w,\delta_hδw​,δh​缩放噪声同时对类别标签也加入噪声实现分类回归联合去噪。3.3 双重查询设计解码器接收两类查询标准查询正常可学习查询匈牙利损失监督去噪查询带噪声真值构造去噪损失监督并使用注意力掩码隔离两类查询互不干扰。3.4 总损失函数LtotalLhungλ⋅Ldn\mathcal{L}_{total} \mathcal{L}_{hung} \lambda \cdot \mathcal{L}_{dn}Ltotal​Lhung​λ⋅Ldn​符号解释Lhung\mathcal{L}_{hung}Lhung​标准匈牙利损失Ldn\mathcal{L}_{dn}Ldn​去噪损失分类回归λ\lambdaλ损失权重通常取1四、核心创新点全文精读总结创新1提出查询去噪训练范式首次将去噪思想引入DETR训练用辅助去噪任务稳定双边匹配加速收敛。创新2分类回归联合去噪同时对框坐标类别标签加噪并还原提供全维度强监督。创新3注意力掩码隔离查询主查询与去噪查询互不干扰保证去噪只辅助不破坏主任务。创新4零推理开销训练用去噪查询推理直接丢弃速度、结构、部署完全不变。创新5极致通用兼容所有DETR变体还能用于分割、追踪、3D检测等。五、核心代码PyTorch官方风格# # DN-DETR 核心去噪查询构造# defgenerate_denoising_queries(gt_boxes,gt_labels,noise_scale0.2): 输入真值框、真值标签 输出带噪声的去噪查询、去噪目标、注意力掩码 # 1. 坐标加噪noisetorch.randn_like(gt_boxes)*noise_scale noised_boxesgt_boxesnoise noised_boxesbox_clip(noised_boxes)# 2. 标签加噪noised_labelsgt_labels.clone()ifrandom.random()0.1:noised_labelstorch.randint_like(noised_labels,0,91)# 3. 生成注意力掩码去噪查询只看自己不干扰主查询dn_masktorch.ones(len(noised_boxes),len(noised_boxes))returnnoised_boxes,noised_labels,dn_mask# # 去噪损失计算# defdenoising_loss(pred_boxes,pred_logits,gt_boxes,gt_labels):# 回归L1GIoU损失loss_boxgiou_loss(pred_boxes,gt_boxes)l1_loss(pred_boxes,gt_boxes)# 分类交叉熵损失loss_clscross_entropy(pred_logits,gt_labels)returnloss_boxloss_cls六、实验结果与深度分析6.1 主实验结果COCO val2017模型训练轮数APAP50AP75DAB-DETR1244.162.347.3DN-DAB-DETR1246.064.649.6DAB-DETR5047.665.550.8DN-DAB-DETR5049.567.252.7表格1来自原文Table 1实验分析12轮1.9 AP超级涨点50轮1.9 AP持续涨点小/中/大目标全面提升6.2 收敛速度对比我们基于变形式 DETR 并采用去噪训练构建的模型 DN-可变形-DETR 与基于 ResNet-50 骨干网络的先前模型之间的收敛曲线。曲线含义下方曲线DAB-DETR上方曲线DN-DAB-DETR图片分析DN-DETR收敛速度大幅领先50轮效果超过基线100轮训练成本减半。6.3 锚框-目标距离对比DAB-DETR 与 DN-DETR 在锚点与目标距离方面的对比。纵轴查询锚框与真值框的平均距离图片分析DN-DETR的距离全程更小证明查询能更快定位到目标位置。6.4 通用性实验表格2来自原文Table 8模型基线APDN后AP提升Deformable DETR45.347.01.7Vanilla DETR42.043.61.6Anchor DETR43.545.11.6Mask2Former48.750.11.4实验分析DN-DETR是通用训练插件所有DETR类模型、分割模型全涨点。七、全文总结最精炼5句话根源DETR训练慢 双边匹配不稳定查询优化目标跳变方案加入去噪查询学习从噪声还原真值绕过不稳定匹配结构主查询 去噪查询掩码隔离双重损失监督效果收敛加速1倍1.9 AP零推理开销价值工业落地必备成为DINO、MaskDINO、GroupDETR等SOTA的基础模块DN-DETR是DETR训练方式的革命性改进用最简单的去噪思想解决了最核心的匹配不稳定难题。

相关文章:

【DN-DETR论文阅读】:基于查询去噪的DETR训练加速范式,从根源解决双边匹配不稳定问题

论文信息 标题:DN-DETR: Accelerate DETR Training by Introducing Query Denoising会议:CVPR 2022 (Oral)单位:香港科技大学、清华大学、IDEA研究院代码:github.com/IDEA-Research/DN-DETR论文:https://arxiv.org/pdf…...

DataAgent落地指南:从架构设计到工程实现,4阶段实战手册助你成为企业智能分析先锋!

本文深入解析DataAgent(数据智能体)的核心概念、架构设计及工程实现,重点介绍ReAct循环的思考方式、单Agent到多Agent的复杂场景编排,以及四阶段落地实施路线图。文章强调DataAgent区别于对话式BI的自主性与工具调用能力&#xff…...

从开发者视角感受Taotoken多模型聚合调用的便捷性

从开发者视角感受Taotoken多模型聚合调用的便捷性 1. 多模型统一接入的工程价值 在原型开发阶段,我们经常需要快速验证不同大模型的实际表现。传统方式下,开发者需要分别注册多个平台账号、申请API Key、阅读各家的接入文档,并针对不同供应…...

3个超实用功能让《鸣潮》体验翻倍!新手也能轻松上手的优化工具

3个超实用功能让《鸣潮》体验翻倍!新手也能轻松上手的优化工具 【免费下载链接】WaveTools 🧰鸣潮工具箱 项目地址: https://gitcode.com/gh_mirrors/wa/WaveTools 还在为《鸣潮》游戏体验不够流畅而烦恼吗?想解锁更高帧率却不知道如何…...

【Prometheus】 `by` 和 `without` 子句在聚合操作中的作用是什么?请举例说明

Prometheus 聚合中的 by 与 without 深度解析:从 Kafka Lag 全局视图到 ClickHouse 合并压力的精准标签控制 用户问题原文: 32. by 和 without 子句在聚合操作中的作用是什么?请举例说明。 本文将围绕上述问题,系统性剖析 Prometheus 聚合操作中 by 与 without 子句 的设计…...

Unity项目JSON处理实战指南:高效配置与深度解析

Unity项目JSON处理实战指南:高效配置与深度解析 【免费下载链接】Newtonsoft.Json-for-Unity Newtonsoft.Json (Json.NET) 10.0.3, 11.0.2, 12.0.3, & 13.0.1 for Unity IL2CPP builds, available via Unity Package Manager 项目地址: https://gitcode.com/g…...

AISMM模型落地失效真相:87%失败源于“治理-工程”语义断层——附2024最新跨职能对齐检查矩阵

更多请点击: https://intelliparadigm.com 第一章:AISMM模型与AI治理框架融合的底层逻辑 AISMM(Artificial Intelligence Service Maturity Model)并非孤立的技术评估体系,而是以系统性、可演进、可审计为设计原语&a…...

突发:AISMM认证通道将于2026年Q2关闭旧版评估协议!现在不掌握V2.1动态基线,Q3招标直接出局

更多请点击: https://intelliparadigm.com 第一章:2026奇点智能技术大会:AISMM评估工具 AISMM(Artificial Intelligence System Maturity Model)评估工具是2026奇点智能技术大会正式发布的开源框架,旨在系…...

HPH的构造是怎样的

HPH(高压均质机)的构造乍一看显得颇为复杂,然而深入探究后会发现其原理清晰明了。简单来讲,它主要由动力系统、均质阀组、冷却系统和进排料模块这四大部分所构成。动力系统为整个高压均质机提供运转的动力源泉,均质阀组…...

HPH构造拆解:核心部件与工作原理

HPH由哪些关键部件组成 高压均质机(HPH)的核心构造主要围绕高压泵和均质阀来展开。高压泵一般采用柱塞式结构,借助曲轴带动三至五组柱塞进行往复运动,从而把物料吸入并且压缩至数百甚至上千巴的压力。均质阀包含阀座、阀芯以及冲击…...

OS08A20 MIPI 传输相关寄存器完整汇总

1. 系统启动与模式选择 这部分寄存器是 MIPI 工作的前提,必须在配置 MIPI 控制器之前正确设置。 地址寄存器名关键位功能描述0x3660CORE 0[5] mipi_pclk_sel接口选择0: MIPI 1: LVDS0x300FMIPI SC[4] mipi_enMIPI 模块总使能 1: 开启0x3015CLKRST1[6] scik_stbMIP…...

HPH构造核心部件拆解

HPH(高压均质机)作为乳液、细胞破碎以及纳米分散过程中的关键设备,其构造对于处理效果与稳定性有着直接且重要的影响。深入理解它的内部布局,能够助力你在实际操作中快速排查故障,还能进一步优化工艺参数,从…...

Docker 27跨架构镜像构建避坑手册(27个真实CI/CD故障现场复盘)

更多请点击: https://intelliparadigm.com 第一章:Docker 27跨架构镜像构建全景认知 Docker 27 引入了原生增强的跨架构镜像构建能力,依托 BuildKit 的深度集成与 QEMU 用户态模拟的自动化协同,显著降低了 multi-arch 构建的运维…...

全球化运营新挑战:数据治理如何破局

一、全球化运营的下一道门槛:数据治理2026年,企业全球化已从“市场拓展”进入“深度运营”阶段。当业务版图跨越多个国家和地区,一个被反复验证的挑战浮出水面:数据治理能力,正在成为制约全球化效率的核心变量。这背后…...

OCAuxiliaryTools:如何快速配置OpenCore黑苹果的完整指南

OCAuxiliaryTools:如何快速配置OpenCore黑苹果的完整指南 【免费下载链接】OCAuxiliaryTools Cross-platform GUI management tools for OpenCore(OCAT) 项目地址: https://gitcode.com/gh_mirrors/oc/OCAuxiliaryTools OCAuxiliaryTo…...

效率倍增:用快马AI自动生成模块化树莓派环境监测站代码

最近在折腾树莓派的环境监测项目,发现从零开始写代码实在太费时间了。尤其是要同时处理传感器数据采集、本地存储和远程传输这些基础功能,经常要重复造轮子。后来发现了InsCode(快马)平台,用它的AI生成功能快速搭建了一个模块化的环境监测站框…...

快速原型:用快马AI十分钟生成黑果精灵配置脚本,告别繁琐手动调试

最近在折腾黑苹果安装,发现手动配置EFI和驱动适配特别耗时,尤其是对新手来说,硬件兼容性排查和参数调试简直是噩梦。于是想做个简化版工具来自动化这个过程,正好用InsCode(快马)平台快速验证想法,没想到十分钟就搭出了…...

Linux应用

指令常用的Linux指令ls命令执行什么功能,可以带哪些参数功能列出指定目录中的目录,以及文件参数-a:显示所有文件及目录(.开头的隐藏文件也会列出)-l:除文件名外,亦将文件型态、权限、拥有者、文…...

01-java基础

java基础 创建项目删除项目快捷输入 psvmsout 注释 单行注释多行注释 关键字字面量变量数据类型(内存) 整数小数字符布尔 标识符键盘录入 java基础 配套完整代码:GitHub仓库 https://github.com/LIN-commit/java-learning 代码所在目录&am…...

ESP8266/ESP32烧录总超时?别急着换线!这6个排查步骤帮你省下半天调试时间

ESP8266/ESP32烧录超时问题排查实战指南 深夜的实验室里,显示屏上又一次弹出"Timed out waiting for packet header"的红色错误提示,这已经是今晚第七次烧录失败了。开发板静静躺在桌面上,仿佛在嘲笑你的无能为力。别急着摔键盘或下…...

4步掌握VR-Reversal:从3D沉浸到2D平面的终极转换指南

4步掌握VR-Reversal:从3D沉浸到2D平面的终极转换指南 【免费下载链接】VR-reversal VR-Reversal - Player for conversion of 3D video to 2D with optional saving of head tracking data and rendering out of 2D copies. 项目地址: https://gitcode.com/gh_mir…...

终极B站视频下载器:轻松获取4K高清与大会员专享内容

终极B站视频下载器:轻松获取4K高清与大会员专享内容 【免费下载链接】bilibili-downloader B站视频下载,支持下载大会员清晰度4K,持续更新中 项目地址: https://gitcode.com/gh_mirrors/bil/bilibili-downloader 想永久保存B站的学习资…...

从像素到场景:知识图谱如何让AI‘看懂’卫星图像?一个给GISer的新思路

从像素到场景:知识图谱如何让AI‘看懂’卫星图像?一个给GISer的新思路 当你在ENVI中完成第100次监督分类,却发现模型将灌溉农田误判为野生草地时,或许该重新思考:我们是否过度依赖像素光谱而忽略了地理常识&#xff1f…...

IP Interrupt Status Register (Read/TOW)中断状态寄存器说明

一、中断状态寄存器说明 // 0x00c : IP Interrupt Status Register (Read/TOW) // bit 0 - Channel 0 (ap_done) // bit 1 - Channel 1 (ap_ready) // others - reserved 寄存器地址、访问属性(Read/TOW)、位域定义&#xff0…...

用GEE和Landsat数据,5分钟评估你家乡的生态环境变化(RSEI实战)

用GEE和Landsat数据5分钟评估家乡生态变化:零代码基础实战指南 每次回到家乡,你是否注意到河流变窄了、绿地减少了,或是夏天越来越热?这些变化背后是复杂的生态环境演变。过去只有专业机构才能完成的生态评估,现在通过…...

别再折腾宝塔了!用XShell+Ubuntu从GitHub克隆到Nginx部署前端项目的保姆级避坑实录

从零构建前端部署流水线:告别可视化工具的命令行实战指南 第一次用宝塔面板部署前端项目时,那种"一键完成"的畅快感确实令人着迷。但当我遇到需要定制Nginx配置、调试权限问题时,黑箱操作带来的无力感让我意识到:是时候…...

从Word迁移到LaTeX:如何像处理Word一样轻松管理你的图片、表格和公式?

从Word到LaTeX的无缝迁移:图片、表格与公式的高效管理指南 第一次接触LaTeX的Word用户往往会感到手足无措——那些熟悉的拖拽操作和可视化工具突然变成了需要记忆的代码命令。但别担心,LaTeX的代码化操作实际上提供了一种更精确、更自动化的文档控制方式…...

波士顿咨询:中国无人驾驶出租车上路——迈向规模化商业化 2026

这份 2026 年 4 月波士顿咨询(BCG)报告核心结论:中国 L4 级无人驾驶出租车(Robotaxi)已进入规模化商业化前夜,消费者接受度极高、技术成熟可用、市场潜力巨大,行业进入明确拐点。一、消费者端&a…...

告别if-else混乱:用行为树重构你的ROS2机器人决策逻辑(以Nav2恢复机制为例)

告别if-else混乱:用行为树重构你的ROS2机器人决策逻辑(以Nav2恢复机制为例) 在开发自主移动机器人时,最令人头疼的莫过于处理各种异常情况和恢复逻辑。当机器人遇到规划失败、传感器异常或环境突变时,传统的if-else嵌套…...

Gemini3.1Pro助你高效完成竞品分析

竞品分析最折磨人的地方在于:它不是“写一段文字”就结束,而是要把一堆零散材料变成可决策的对比结论。很多团队卡在同一个死循环:资料收集不了就凑合、收集到了又来不及整理、整理成表又发现口径不统一,最后评审时大家仍在争“到…...