【Paper Reading】DETR:End-to-End Object Detection with Transformers
背景
Transformer已经在NLP领域大展拳脚,逐步替代了LSTM/GRU等相关的Recurrent Neural Networks,相比于传统的RNN,Transformer主要具有以下几点优势
- 可解决长时序依赖问题,因为Transformer在计算attention的时候是在全局维度进行展开计算的,所以不存在长时序中的梯度消失等问题。
- Transformer的encoder和decoder在某些场景下均可以很好的并行化,提高的计算效率。
- Transformer具备比较好的可解释性
- Transformer的可扩展性比较强,可以灵活的增加层数。
在视觉领域也有一些方法逐步的在引入Transformer来解决一些视觉挑战任务,例如基于图片分类的ViT。本文是将Transformer引入目标检测领域中来,可以端到端的解决目标检测的问题,相比于传统基于anchor/proposal/NMS的方法而言,本文的方法主要有以下优势:
- 摆脱了对原有的基于先验知识的依赖,不再依赖proposal/NMS等基于先验的方法,整个网络是完全learnable的,并且简化了整体的pipeline。
- 相比于NMS,可以在全局视角考虑整体的最优性,消除整体的冗余。
方法
本文提出的网络结构整体上如下图所示。接下来我们将从网络结构、损失函数和匹配方法分别展开介绍

网络结构
整体的网络结构如上图所示,一张图片我们通过CNN抽取其基本的视觉特征(待讨论能不能像ViT那样,做到完全的Transformer)。得到feature map F ∈ R H × W × C F \in R^{H \times W \times C} F∈RH×W×C,然后我们将其reshape成为 F ∈ R ( H × W ) × C F \in R^{(H \times W) \times C} F∈R(H×W)×C。那么我们就得到一个长度为 H × W H \times W H×W的序列,每个unit的维度的是 C C C。
我们再将得到的序列输入到transformer的encoder进行特征的加工,相当于重构每个unite的表征,使其可以从全局的视角加载特征和。这里的unit相当于就是“Proposal”。
Encoder输出后的feature再会输入给decoder,decoder基于Encoder的特征和位置编码特征输出每个位置应该预测的proposal。如下图所示,object queries就是每个position的embedding。
-
QA1:Encoder和Decoder的position embedding是不是一样的?
- 答案是不一样的,Encoder的position embedding可以理解是二维的,他针对feature map上的每一个位置进行embedding。而Decoder中的position embedding是“proposal”维度的,先验是一张图片最多会有100个框,所以Decoder中最多会有100个position。Decoder的position embedding是lookup 查表得到的,整体上第一个position代表什么含义?是否有说明?
- 具体实现上,object queries是 N(100) 个learnable embedding,训练刚开始时可以随机初始化。在训练过程中,因为需要生成不同的boxes,object queries会被迫使变得不同来反映位置信息,所以也可以称为leant positional encoding (注意和encoder中讲的position encoding区分,不是一个东西)。
- 由于在训练过程中,会预测100个框,然后和gt去做匹配,计算loss,这就会反推每个decoder的position embedding默认代表某个位置的框?但是实验代码并没有可视化说明?
-
QA2:Decoder中的QKV分别是什么?
Encoder不用说,就是unit的特征。Decoder中- Q:查询的信息,一般就是position embedding,由于这里会引入先验,最多100个框,所以Q的size为 R 100 × d R^{100 \times d} R100×d
- K:和基础的transformer一样,第一层的attention K和V都是上面的Q。第二层的attention K为Encoder的输入,一般大小为 R ( H × W ) × d R^{(H \times W) \times d} R(H×W)×d
- V:和基础的transformer一样,第一层的attention K和V都是上面的Q。第二层的attention K为Encoder的输入,一般大小为 R ( H × W ) × d R^{(H \times W) \times d} R(H×W)×d

损失函数
损失函数整体由三部分组成,分类损失+l1loss+GIoU loss。后面两个算是位置优化的损失函数。为什么需要两个?
- L1的劣势:不具备尺度不变性。大物体和小物体之间的loss是不公平的。
- GIoU的劣势:收敛过慢(DIoU中有说)
- GIoU的定义
L g i o u = I o U − C − u i o n C L_{giou} = IoU - \frac{C-uion}{C} Lgiou=IoU−CC−uion - GIoU的特性
- 非负性、三角不等性
- 尺度不变性
- 取值范围[-1, 1],且GIoU <= IoU。
匹配方法
首先将整个问题抽象为匹配问题。给定N个预测的框和M个GT的框。计算min(N, M)个框之间的一个完全匹配。
具体来说,第一步我们根据上述的损失函数定义,计算一个cost矩阵, c o s t i , j cost_{i,j} costi,j代表的含义就是第i个预测框和第j个gt之间的损失函数。我们是希望寻找到一个最佳匹配,使得整体的损失函数是最小的。这里作者采用的是匈牙利算法。详情可以参考wiki。
- QA1:没有被匹配上的预测框是否计算loss。
这部分从代码来看,会计算分类的loss。而不会计算pos的loss。- pos loss

- pos loss
- QA2:匈牙利算法简化版本:
- 给定矩阵C
- 选择每一行中最小的数,并从C中减去,得到C1
- 选择每一列中最小的数,并从C1中减去,得到C2
- 基于C2判断,必须用尽可能少的列或行标记来覆盖矩阵中的所有零。下面的过程是完成这个要求的一种方法:
4.1 首先,尽可能多地分配任务。

4.2 标记所有未分配的行(第 3 行)。
4.3 标记所有新标记的行中 0所在(且未标记)的对应列(第 1 列)。
4.4 标记所有在新标记的列中有分配的行(第 1 行)。
4.5 对所有未分配的行重复上述过程。 - 现在划掉所有已标记的列和未标记的行(第 1 列和第 2, 4 行)。

- 现在删除已画线的行和列。这将留下一个矩阵如下:重新开始步骤2。

相关文章:
【Paper Reading】DETR:End-to-End Object Detection with Transformers
背景 Transformer已经在NLP领域大展拳脚,逐步替代了LSTM/GRU等相关的Recurrent Neural Networks,相比于传统的RNN,Transformer主要具有以下几点优势 可解决长时序依赖问题,因为Transformer在计算attention的时候是在全局维度进行…...
【rust/入门】windows安装rust gnu环境(折腾)
说在前面 首先说明,我是rust入门选手,之前都是在wsl写rust,突然想在windows下装下rust。windows版本:windows11 22H2原文换源 心路历程 看到教程我陷入了沉默,(官方推荐) 打开Microsoft C Build Tools我开始不解&…...
java面试---字符串相关内容
字符串 1. 什么是Java中的字符串池(String Pool)?2. String、StringBuilder和StringBuffer之间的区别是什么?3. 如何比较两个字符串的内容是否相等?4、equals和的区别5. String类有哪些常用的方法? 1. 什么…...
MYSQL进阶-事务的基础知识
1.什么是数据库事务? 就是把好几个sql语句打包成一个整体执行,要么全部成功,要么全部失败!!! 事务是一个不可分割的数据库操作序列,也是数据库并发控制的基本单位,其执 行的结果必…...
【C++】C++面向对象,泛型编程总结篇(封装,继承,多态,模板)|(秋招篇)
文章目录 前言如何理解面向对象?如何理解泛型编程?C面向对象的三大特性是什么构造函数有哪几种?讲一下移动构造函数当我们定义一个类 系统会自动帮我们生成哪些函数?标题讲一下类中三类成员(公有私有保护)三…...
【Github】作为程序员不得不知道的几款Github加速神器
文章目录 背景推荐1:FastGithub推荐2:dev-sidecar推荐3:Watt Toolkit推荐4:篡改猴插件用户脚本1)下载安装-->篡改猴 Tampermonkey 插件2)下载安装-->Github 增强 - 高速下载 用户脚本 推荐5ÿ…...
react18之08自定义hook (简单的axios-get、修改浏览器title、localStorage、获取滚动条位置、img转换为base64)
目录 react18之自定义hook ()01:自定义一个 简单的axios hook 发起get请求useHttp.jsx使用useHttp hook效果 02:自定义一个 修改浏览器title hook03:自定义一个 localStorage(获取、存储、移除) hookuseLocalStorage.jsx使用hook效果 04&…...
对CommonJS、AMD、CMD、ES Module的理解
CommonJS 常用于:服务器端,node,webpack 特点:同步/运行时加载,磁盘读取速度快 语法: // 1. 导出:通过module.exports或exports来暴露模块 module.exports { attr1, attr2 } ex…...
JVM之类加载与字节码(二)
3. 编译期处理 什么是语法糖 所谓的 语法糖 ,其实就是指 java 编译器把 *.java 源码编译为 *.class 字节码的过程中,自动生成 和转换的一些代码,主要是为了减轻程序员的负担,算是 java 编译器给我们的一个额外福利(给…...
安装linux操作系统
安装虚拟机的步骤: 安装linux系统 之后开启虚拟机 之后重启,打开虚拟机,登录root账号...
【SpringBoot】知识
.第一个程序HelloWorld 项目创建方式:使用 IDEA 直接创建项目 1、创建一个新项目 2、选择spring initalizr , 可以看到默认就是去官网的快速构建工具那里实现 3、填写项目信息 4、选择初始化的组件(初学勾选 Web 即可) 5、填…...
react ant add/change created_at
1.引入ant的 Table import { Table, Space, Button, message } from antd; 2.获得接口的数据的时候增加上创建时间 const response await axios.get(${Config.BASE_URL}/api/v1/calculation_plans?token${getToken()});if (response.data.message ok) {const data respon…...
OSPF 动态路由协议 路由传递
影响OSPF路由选择的因素: 1.OSPF路由的开销值:宽带参考值默认为100. COST1000/接口带宽。此时接口 带宽的值可更改,更改后只改变参考数值,带宽仍然为初始值。 注意:更改COST需要 在路由的入方向,数据的出方…...
5.kubeadm安装
文章目录 kubeadm部署环境初始化所有的节点安装Docker所有节点安装kubeadm,kubelet和kubectl初始化方法一,配置文件初始化方法二,命令初始化 网络插件node节点总结 证书过期方法一方法二总结 部署Dashboard kubeadm部署 环境初始化 ###所有…...
【雕爷学编程】Arduino动手做(180)---Seeeduino Lotus开发板2
37款传感器与执行器的提法,在网络上广泛流传,其实Arduino能够兼容的传感器模块肯定是不止这37种的。鉴于本人手头积累了一些传感器和执行器模块,依照实践出真知(一定要动手做)的理念,以学习和交流为目的&am…...
6.5 池化层
是什么:池化层跟卷积层类似有个滑动窗口,用来取一个区域内的最大值或者平均值。 作用:卷积神经网络的最后的部分应该要看到整个图像的全局,通过池化(汇聚)操作,逐渐汇聚要取的像素,最终实现学习全局表示的…...
etcd
文章目录 etcd单机安装设置键值对watch操作读取键过往版本的值压缩修订版本lease租约(过期机制)授予租约撤销租约keepAlive续约获取租约信息 事务基于etcd实现分布式锁原生实现官方 concurrency 包实现 服务注册与发现Go 操作 Etcd 参考 etcd etcd 是一…...
W5500-EVB-PICO做DNS Client进行域名解析(四)
前言 在上一章节中我们用W5500-EVB-PICO通过dhcp获取ip地址(网关,子网掩码,dns服务器)等信息,给我们的开发板配置网络信息,成功的接入网络中,那么本章将教大家如何让我们的开发板进行DNS域名解析…...
单例模式(C++)
定义 保证一个类仅有一个实例,并提供一个该实例的全局访问点。 应用场景 在软件系统中,经常有这样一些特殊的类,必须保证它们在系统中只存在一个实例,才能确保它们的逻辑正确性、以及良好的效率。如何绕过常规的构造器,提供一种…...
LeetCode 热题 100 JavaScript--234. 回文链表
function ListNode(val, next) {this.val val undefined ? 0 : val;this.next next undefined ? null : next; }var isPalindrome function (head) {if (!head || !head.next) {return true; }// 使用快慢指针法找到链表的中间节点let slow head;let fast head;while …...
练习(含atoi的模拟实现,自定义类型等练习)
一、结构体大小的计算及位段 (结构体大小计算及位段 详解请看:自定义类型:结构体进阶-CSDN博客) 1.在32位系统环境,编译选项为4字节对齐,那么sizeof(A)和sizeof(B)是多少? #pragma pack(4)st…...
PPT|230页| 制造集团企业供应链端到端的数字化解决方案:从需求到结算的全链路业务闭环构建
制造业采购供应链管理是企业运营的核心环节,供应链协同管理在供应链上下游企业之间建立紧密的合作关系,通过信息共享、资源整合、业务协同等方式,实现供应链的全面管理和优化,提高供应链的效率和透明度,降低供应链的成…...
解决本地部署 SmolVLM2 大语言模型运行 flash-attn 报错
出现的问题 安装 flash-attn 会一直卡在 build 那一步或者运行报错 解决办法 是因为你安装的 flash-attn 版本没有对应上,所以报错,到 https://github.com/Dao-AILab/flash-attention/releases 下载对应版本,cu、torch、cp 的版本一定要对…...
听写流程自动化实践,轻量级教育辅助
随着智能教育工具的发展,越来越多的传统学习方式正在被数字化、自动化所优化。听写作为语文、英语等学科中重要的基础训练形式,也迎来了更高效的解决方案。 这是一款轻量但功能强大的听写辅助工具。它是基于本地词库与可选在线语音引擎构建,…...
JavaScript 数据类型详解
JavaScript 数据类型详解 JavaScript 数据类型分为 原始类型(Primitive) 和 对象类型(Object) 两大类,共 8 种(ES11): 一、原始类型(7种) 1. undefined 定…...
STM32HAL库USART源代码解析及应用
STM32HAL库USART源代码解析 前言STM32CubeIDE配置串口USART和UART的选择使用模式参数设置GPIO配置DMA配置中断配置硬件流控制使能生成代码解析和使用方法串口初始化__UART_HandleTypeDef结构体浅析HAL库代码实际使用方法使用轮询方式发送使用轮询方式接收使用中断方式发送使用中…...
OCR MLLM Evaluation
为什么需要评测体系?——背景与矛盾 能干的事: 看清楚发票、身份证上的字(准确率>90%),速度飞快(眨眼间完成)。干不了的事: 碰到复杂表格(合并单元…...
aardio 自动识别验证码输入
技术尝试 上周在发学习日志时有网友提议“在网页上识别验证码”,于是尝试整合图像识别与网页自动化技术,完成了这套模拟登录流程。核心思路是:截图验证码→OCR识别→自动填充表单→提交并验证结果。 代码在这里 import soImage; import we…...
【工具教程】多个条形码识别用条码内容对图片重命名,批量PDF条形码识别后用条码内容批量改名,使用教程及注意事项
一、条形码识别改名使用教程 打开软件并选择处理模式:打开软件后,根据要处理的文件类型,选择 “图片识别模式” 或 “PDF 识别模式”。如果是处理包含条形码的 PDF 文件,就选择 “PDF 识别模式”;若是处理图片文件&…...
Linux 内存管理调试分析:ftrace、perf、crash 的系统化使用
Linux 内存管理调试分析:ftrace、perf、crash 的系统化使用 Linux 内核内存管理是构成整个内核性能和系统稳定性的基础,但这一子系统结构复杂,常常有设置失败、性能展示不良、OOM 杀进程等问题。要分析这些问题,需要一套工具化、…...
