当前位置：首页 > news >正文

Deformable DETR：Deformable Transformers for End-to-End Object Detection论文学习

news 2025/11/21 13:13:18

1. 为什么提出了Deformable DETR？

因为DETR本身的计算量大，收敛速度慢。其次是小目标检测效果差。主要原因是Attention模块每次只关注一小部分采样点，导致需要很多轮数才能学习到真实需要关注的目标。

Deformable DETR注意力模块只关注一个query周围的少量关键采样点集，采样点的位置并非固定，而是可学习的。同时，受到deformable convolution（可变性卷积）的启发，认为Attention模块也可以关注更灵活的采样点，让每个位置不必和所有位置交互计算，只需要和部分（学习来的，重要的部分）进行交互即可，进而提出deformable attention模块。

2. 模型架构图

在这里插入图片描述
论文的deformable attention 模块

再看看基础的backbone：

保留尺寸小的特征图有利于检测大目标，保留尺寸大的特征图善于检测小目标。为此，Deformable DETR提取4个尺寸下的特征图（DETR仅1个尺寸），特征提取过程如下图：
在这里插入图片描述

3. 相比于detr，主要的改进如下：

多尺度 feature map（参考上图最左侧）
Encoder部分的Muti-Head Self-Attention改为Multi-Scale Deformable Self-Attention
Dncoder部分的Muti-Head Attention改为Multi-Scale Deformable Cross-Attention
让检测头prediction heads预测边界框与参考点的相对偏移量，以进一步降低优化难度。
目标数上限从100提升至300，在最后预测的时候会选择top-k前100进行预测。

此处借鉴：https://blog.csdn.net/qq_51352130/article/details/142690269一张图，和detr的结构进行对比一波。
在这里插入图片描述
为什么Decoder中的Multi-Head Self-Attention模块不改成Multi-Scale Deformable Cross-Attention模块？

这儿有些懵，借用博客的解释：在交叉注意模块中，对象查询从特征映射中提取特征，其中的key是来自编码器的输出特征映射；在自注意模块中，对象查询相互交互，其中key是对象查询(key value的来源一般都是同一个)。而本文提出的可变形注意模块是将卷积特征图作为关键元素设计的，因为交叉注意模块使用了encoder的输出，encoder的输入是特征图，因此只需要修改交叉注意模块就可以了。

4. 实验分析

本文中，query是由二维参考点 $p_q$ 和content feature $z_q$ 组成。content feature用于生成参考点的偏移量 $\vartriangle{p_{mqk}}$ 和attention权重矩阵 $A_{mqk}$ 。此处的q指query，m指多头的头数，k指参考点个数。其中，参考点是由object query经过一个全连接和sigmoid函数得到。对于单尺度的计算公式如下：
在这里插入图片描述
当加入了多头后，计算公式如下：

查询情况的变化：
其次，为了进一步加快收敛，作者在query的初始化和优化方式上也进行了改进，query使用2维参考点初始化，并且每一层decoder都进行优化（论文中称为Iterative Bounding Box Refinement），再传递到下一层decoder。注意这里和下文优化query方式的不同点，此处每一层优化的只是参考点。参考点是用于 deformable convolution的。

在对公式进行一波对比，借用大佬的图:https://zhuanlan.zhihu.com/p/677614600
在这里插入图片描述

5. 两阶段detr

最后，作者提出了两阶段 Deformable DETR，先在第一阶段生成候选query（此时只有transformer encoder），每个像素值作为一个query，预测对应的bbox，然后选择分数较高的bbox作为第二阶段的query。

与Faster R-CNN + FPN相比，DETR需要更多的训练epoch来收敛，在检测小目标时性能更差。与DETR比较，Deformable DETR 使用10x更少的训练轮次实现了更好的性能表现(特别是在小物体上)。

在这里插入图片描述
上图中的表显示，Deformable Detr的效果优势，最后作者还测试了每一层decoder都进行优化方式和两阶段的Deformable Detr效果，效果确实不错。

Deformable DETR：Deformable Transformers for End-to-End Object Detection论文学习

1. 为什么提出了Deformable DETR？

2. 模型架构图

3. 相比于detr，主要的改进如下：

4. 实验分析

5. 两阶段detr

相关文章：

Deformable DETR：Deformable Transformers for End-to-End Object Detection论文学习

机器学习-43-可解释性机器学习库LIME

【Unity功能集】TextureShop纹理工坊（五）选区

Spring Cloud OpenFeign快速入门demo

研发效能DevOps: Vite 使用 Element Plus

sfnt-pingpong -测试网络性能和延迟的工具

Kubernetes、Docker 和 Docker Registry 关系是是什么？

docker部署微信小程序自动构建发布和更新

模仿elementui的Table，实现思路

Unity中使用环形缓冲区平滑抖动值

【Yonghong 企业日常问题 06】上传的文件不在白名单，修改allow.jar.digest属性添加允许上传的文件SH256值？

SpringBoot使用 AOP 实现自定义日志记录并保存在Mysql

谷歌开源最强天气预报AI模型 GenCast

C++打造局域网聊天室第十课：客户端编程及数据发送

Nginx整合Lua脚本

【C++】C++11 STL容器emplace方法原理剖析

QT-简单视觉框架代码

AI新书推荐：深度学习和大模型原理与实践（清华社）

[spring]处理器

重温设计模式--中介者模式

【磁盘】每天掌握一个Linux命令 - iostat

Keil 中设置 STM32 Flash 和 RAM 地址详解

【HarmonyOS 5 开发速记】如何获取用户信息（头像/昵称/手机号）

优选算法第十二讲：队列 + 宽搜优先级队列

Python ROS2【机器人中间件框架】简介

使用Matplotlib创建炫酷的3D散点图：数据可视化的新维度

回溯算法学习

智能AI电话机器人系统的识别能力现状与发展水平

GruntJS-前端自动化任务运行器从入门到实战

论文阅读：LLM4Drive: A Survey of Large Language Models for Autonomous Driving