当前位置：首页 > news >正文

DETR论文阅读

news 2026/2/11 4:06:02

1. 动机

传统的目标检测任务需要大量的人工先验知识，例如预定义的先验anchor，NMS后处理策略等。这些人工先验知识引入了很多人为因素，且较难处理。如果能够端到端到直接生成目标检测结果，将会使问题变得很优雅。

2. 主要贡献

提出了一个新的目标函数，用二分图匹配的方式强制模型输出一个独一无二的目标框，避免了传统方法中的非极大值抑制。

首次把transformer引入到目标检测领域。

简化了检测流程，有效地消除了对许多人工设计组件的需求，如NMS或anchor生成。实现了端到端的目标检测。

3. 模型结构

DETR将目标检测看作一种set prediction问题，并提出了一个十分简洁的目标检测pipeline，即CNN提取基础特征，送入Transformer做关系建模，得到的输出通过二分图匹配算法与图片上的ground truth做匹配。

先使用CNN对图像进行特征提取，把得到的二维特征转换到一维，然后送入transformer的encoder-decoder结构之中。然后利用decoder的结果预测检测框的输出。

3.1. backbone

DETR基础版本的backbone使用torchvision上预训练过的ResNet-50，训练时冻结BN层参数。设输入img维度为(3, H, W)，经过backbone后变为 $(2048, \frac{H}{32}, \frac{W}{32})$ 。此外在后续实验阶段论文还使用了ResNet-101以及改进过的DC5版本。

3.2. transfomer

CNN提取的特征拉直（flatten）后加入位置编码（positional encoding）得到序列特征，作为Transformer encoder的输入。Transformer中的attention机制具有全局感受野，能够实现全局上下文的关系建模，其中encoder和decoder均由多个encoder、decoder层堆叠而成。每个encoder层中包含self-attention机制，每个decoder中包含self-attention和cross-attention。

3.3. object queries

输出100个目标框和它的分类。设计了一套全新的损失函数，能够在训练的时候把与ground truth匹配的框算作为正样本，不匹配的框作为负样本。在推理的时候使用一个阈值来选择结果，预测得分高于阈值的作为输出，低于阈值的忽略。

transformer解码器中的序列是object queries。每个query对应图像中的一个物体实例（包含背景实例 ϕ），它通过cross-attention从编码器输出的序列中对特定物体实例的特征做聚合，又通过self-attention建模该物体实例域其他物体实例之间的关系。最终，FFN基于特征聚合后的object queries做分类的检测框的回归。

值得一提的是，object queries是可学习的embedding，与当前输入图像的内容无关（不由当前图像内容计算得到）。论文中对不同object query在COCO数据集上输出检测框的位置做了统计（如上图所示），可以看不同object query是具有一定位置倾向性的。对object queries的理解可以有多个角度。首先，它随机初始化，并随着网络的训练而更新，因此隐式建模了整个训练集上的统计信息。其次，在目标检测中每个object query可以看作是一种可学习的动态anchor，可以发现，不同于Faster RCNN, RetinaNet等方法在特征的每个像素上构建稠密的anchor不同，detr只用少量稀疏的anchor（object queries）做预测，这也启发了后续的一系列工作。

3.4. 损失函数

DETR有两种损失：（1）二分图匹配阶段的损失，用于确定最优匹配。（2）在最优匹配下的模型损失。

3.4.1. 二分图匹配

我们知道DETR每次输出包含N=100个预测目标的集合，由于GT集合元素个数小于N，我们用 $\phi$ 将GT集合元素个数填充至N个。那么预测集合与GT集合总的二分图匹配个数就有 $A_N^N$ 个，我们所有匹配的集合设为 $\Sigma_N$ 。我们要做的就是找到这个最优的匹配，公式如下图所示。

$\hat{\sigma}=argmin\sum_i^NL_{match}\left(y_i,\hat{y}_{\sigma(i)}\right)$

$\hat{\sigma}$ 即为最优匹配， $y_i$ 与 $\hat{y}_{\sigma(i)}$ 分别代表GT值和预测值。

以往的一些研究包括本论文都是使用的匈牙利算法 Hungarian algorithm 来计算最优匹配的。

3.4.2. 匹配后损失计算

有了最优的匹配 $\hat{\sigma}$ 后，便要计算模型的损失，公式如下。

$L_{Hungarian}\left(y,\hat{y}\right)=\sum_{i=1}^N\left[-log\:\hat{p}_{\hat{\sigma}(i)}\left(c_i\right)+1_{\left\{c_i\neq\phi\right\}}L_{box}\left(b_i,\hat{b}_{\hat{\sigma}(i)}\right)\right]$$ $$L_{box}\left(b_i,\hat{b}_{\hat{\sigma}(i)}\right)=\lambda_{iou}L_{iou}\left(b_i,\hat{b}_{\hat{\sigma}(i)}\right)+\lambda_{L1}\left|\left|b_i-\hat{b}_{\hat{\sigma}(i)}\right|\right|_1$

其中 $y_i=(c_i,b_i)$ ，分别代表GT类别和bbox参数{x,y,w,h}；在最优匹配 $\hat{\sigma}$ 下，预测的类别分数和bbox参数分别为 $\hat{p}_{\hat{\sigma}(i)}\left(c_i\right)$ 和 $\hat{b}_{\hat{\sigma}}\left(i\right)$ ；

$\lambda_{iou}$ 和 $\lambda_{L1}$ 为超参数用于调节权重。

参考文献

End-to-end object detection with transformers

DETR目标检测新范式带来的思考 - 知乎

DETR（DEtection TRansformer）要点总结-CSDN博客

DETR 论文精读【论文精读】_哔哩哔哩_bilibili

DETR论文阅读

1. 动机传统的目标检测任务需要大量的人工先验知识，例如预定义的先验anchor，NMS后处理策略等。这些人工先验知识引入了很多人为因素，且较难处理。如果能够端到端到直接生成目标检测结果，将会使问题变得很优雅。 2. 主要贡献提…...

编程日记 2025/1/21 1:35:31

关于vite+vue3+ts项目中env.d.ts 文件详解

env.d.ts 文件是 Vite 项目中用于定义全局类型声明的 TypeScript 文件。它帮助开发者向 TypeScript提供全局的类型提示，特别是在使用一些特定于 Vite 的功能时（如 import.meta.env）。以下是详细讲解及代码示例文章目录 **1. env.d.ts 文件的…...

编程日记 2025/1/21 1:31:28

如何优化Elasticsearch大文档查询?

记录一次业务复杂场景下DSL优化的过程背景 B端商城业务有一个场景就是客户可见的产品列表是需要N多闸口及各种其它逻辑组合过滤的，各种闸口数据及产品数据都是存储在ES的(有的是独立索引，有的是作为产品属性存储在产品文档上)。在实际使用的过程中&a…...

编程日记 2025/1/21 1:27:24

Kotlin Bytedeco OpenCV 图像图像54 透视变换图像矫正

Kotlin Bytedeco OpenCV 图像图像54 透视变换图像矫正 1 添加依赖2 测试代码3 测试结果在OpenCV中，仿射变换（Affine Transformation）和透视变换（Perspective Transformation）是两种常用的图像几何变换方法。变换方…...

编程日记 2025/1/21 1:26:22

Linux中DataX使用第一期

简介 DataX 是阿里云 DataWorks数据集成的开源版本，在阿里巴巴集团内被广泛使用的离线数据同步工具/平台。DataX 实现了包括 MySQL、Oracle、OceanBase、SqlServer、Postgre、HDFS、Hive、ADS、HBase、TableStore(OTS)、MaxCompute(ODPS)、Hologres、DRDS, databen…...

编程日记 2025/1/21 1:22:18

[Qt]事件-鼠标事件、键盘事件、定时器事件、窗口改变事件、事件分发器与事件过滤器

目录前言：Qt与操作系统的关系一、Qt事件 1.事件介绍 2.事件的表现形式常见的Qt事件： 常见的事件描述: 3.事件的处理方式处理鼠标进入和离开事件案例控件添加到对象树底层原理二、鼠标事件 1.鼠标按下和释放事件（单击&#x…...

编程日记 2025/1/21 1:21:17

关于机器学习的一份总结

在之前的文章中分别有详细的关于机器学习中某一学习算法的介绍，但缺少一个总体关于机器学习的总结，所以在这篇文中就是关于机器学习的一份总结。在最近的日子中，人工智能日益火热起来，而机器学习是其中举足轻重的一部分&#xf…...

编程日记 2025/1/21 1:19:15

【18】Word：明华中学-儿童医保❗

目录题目 NO2 NO3 NO4 NO5 NO6 NO7 NO8 NO9 题目 NO2 布局→页面设置对话框→纸张方向：横向→纸张大小：A3 ；页面设置对话框：直接输入纸张大小的宽度和高度即可→页面设置对话框：上下左右边距→版式&…...

编程日记 2025/1/21 1:12:08

如何用selenium来链接并打开比特浏览器进行自动化操作（1）

前言本文是该专栏的第76篇，后面会持续分享python爬虫干货知识，记得关注。本文，笔者将基于“比特浏览器”，通过selenium来实现链接并打开比特浏览器，进行相关的“自动化”操作。值得一提的是，在本专栏之前，笔者有详细介绍过“使用selenium或者pyppeteer（puppeteer）…...

编程日记 2025/1/21 1:08:03

基于springboot+thymeleaf+Redis仿知乎网站问答项目源码

项目介绍基于springbootthymeleafRedis仿知乎网站问答项目源码，可以作为毕业设计项目参考学习按照需要一定动手能力发文章，发视频，发想法，提问回答，注册登录开发环境使用技术：springbootthymeleafRe…...

编程日记 2025/1/21 1:06:01

读spring官方文档的一些关键知识点介绍

目录 bean definitionBeanPostProcessorBeanFactoryPostProcessorComponent and Further Stereotype AnnotationsAOP Concepts bean definition https://docs.spring.io/spring-framework/docs/5.1.3.RELEASE/spring-framework-reference/core.html#beans-child-bean-definiti…...

编程日记 2025/1/21 1:03:58

2024年AI与大数据技术趋势洞察：跨领域创新与社会变革

目录引言技术洞察 1. 大模型技术的创新与开源推动 2. AI Agent 智能体平台技术 3. 多模态技术的兴起：跨领域应用的新风口 4. 强化学习与推荐系统：智能化决策的底层驱动 5. 开源工具与平台的快速发展：赋能技术创新 6. 技术安全与伦理：AI技术的双刃剑 7. 跨领域技…...

编程日记 2025/1/21 1:02:54

ThinkPhp项目解决静态资源请求的跨域问题的解决思路

背景：我在前端使用vue语言开发的，请求的后端是用ThinkPhp项目开发的。我vue项目里的请求php接口，自带header参数的跨域问题通过网上查询到的server端配置方法已经解决了。我使用的是中间件的配置方法： <?php//admin 项目配…...

编程日记 2025/1/21 0:59:43

mybatis的多对一、一对多的用法

目录 1、使用VO聚合对象（可以解决这两种情况） 多对一： 一对多： 2、非聚合的多对一做法： 3、非聚合的一对多做法： 1、使用VO聚合对象（可以解决这两种情况） 当我需要多对一、一对…...

编程日记 2025/1/21 0:58:41

消息队列实战指南：三大MQ 与 Kafka 适用场景全解析

前言：在当今数字化时代，分布式系统和大数据处理变得愈发普遍，消息队列作为其中的关键组件，承担着系统解耦、异步通信、流量削峰等重要职责。ActiveMQ、RabbitMQ、RocketMQ 和 Kafka 作为市场上极具代表性的消息队列产品&#xff0…...

编程日记 2025/1/21 0:55:34

前端发送Ajax请求的技术Axios

目录 1.引入Axios文件 2.使用Axios发送请求 2.1请求方法的别名请求的URL地址怎么来的？ 后端实现前后端交互 1.引入Axios文件 <script src"https://unpkg.com/axios/dist/axios.min.js"></script> 2.使用Axios发送请求 2.1请求方法的…...

编程日记 2025/1/21 0:52:27

第17章：Python TDD回顾与总结货币类开发

写在前面这本书是我们老板推荐过的，我在《价值心法》的推荐书单里也看到了它。用了一段时间 Cursor 软件后，我突然思考，对于测试开发工程师来说，什么才更有价值呢？如何让 AI 工具更好地辅助自己写代码，或许…...

编程日记 2025/1/21 0:49:23

opencv_KDTree_搜索介绍及示例

cv::flann::KDTreeIndexParams 说明，使用？ cv::flann::KDTreeIndexParams 是 OpenCV 中用于配置 KD 树（K-Dimensional Tree）索引参数的类。KD 树是一种用于多维空间中的点搜索的数据结构，常用于最近邻搜索等问题。在…...

编程日记 2025/1/21 0:48:17

Windows 上安装 MongoDB 的 zip 包

博主介绍： 大家好，我是想成为Super的Yuperman，互联网宇宙厂经验，17年医疗健康行业的码拉松奔跑者，曾担任技术专家、架构师、研发总监负责和主导多个应用架构。近期专注： RPA应用研究，主流厂商产…...

编程日记 2025/1/21 0:46:14

地震勘探——干扰波识别、井中地震时距曲线特点

目录干扰波识别反射波地震勘探的干扰波井中地震时距曲线特点干扰波识别有效波：可以用来解决所提出的地质任务的波；干扰波：所有妨碍辨认、追踪有效波的其他波。地震勘探中，有效波和干扰波是相对的。例如，在反射波…...

编程新知 2026/2/8 20:43:05

论文解读：交大港大上海AI Lab开源论文 | 宇树机器人多姿态起立控制强化学习框架（二）

HoST框架核心实现方法详解 - 论文深度解读（第二部分）《Learning Humanoid Standing-up Control across Diverse Postures》系列文章：论文深度解读 + 算法与代码分析（二）作者机构：上海AI Lab, 上海交通大学, 香港大学, 浙江大学, 香港中文大学论文主题：人形机器人…...

编程新知 2026/2/9 0:12:12

k8s从入门到放弃之Ingress七层负载

k8s从入门到放弃之Ingress七层负载在Kubernetes（简称K8s）中，Ingress是一个API对象，它允许你定义如何从集群外部访问集群内部的服务。Ingress可以提供负载均衡、SSL终结和基于名称的虚拟主机等功能。通过Ingress，你可…...

编程新知 2025/9/7 0:12:53

深入浅出：JavaScript 中的 `window.crypto.getRandomValues()` 方法

深入浅出：JavaScript 中的 window.crypto.getRandomValues() 方法在现代 Web 开发中，随机数的生成看似简单，却隐藏着许多玄机。无论是生成密码、加密密钥，还是创建安全令牌，随机数的质量直接关系到系统的安全性。Jav…...

编程新知 2025/10/8 4:56:09

让回归模型不再被异常值“带跑偏“，MSE和Cauchy损失函数在噪声数据环境下的实战对比

在机器学习的回归分析中，损失函数的选择对模型性能具有决定性影响。均方误差（MSE）作为经典的损失函数，在处理干净数据时表现优异，但在面对包含异常值的噪声数据时，其对大误差的二次惩罚机制往往导致模型参数…...

编程新知 2026/1/28 2:18:46

HDFS分布式存储 zookeeper

hadoop介绍狭义上hadoop是指apache的一款开源软件用java语言实现开源框架，允许使用简单的变成模型跨计算机对大型集群进行分布式处理（1.海量的数据存储 2.海量数据的计算）Hadoop核心组件 hdfs（分布式文件存储系统）&a…...

编程新知 2026/1/24 4:10:44

视觉slam十四讲实践部分记录——ch2、ch3

ch2 一、使用g++编译.cpp为可执行文件并运行(P30) g++ helloSLAM.cpp ./a.out运行二、使用cmake编译 mkdir build cd build cmake .. makeCMakeCache.txt 文件仍然指向旧的目录。这表明在源代码目录中可能还存在旧的 CMakeCache.txt 文件，或者在构建过程中仍然引用了旧的路…...

编程新知 2026/2/6 15:56:54