当前位置：首页 > news >正文

【深度学习】计算机视觉（CV）-目标检测-DETR（DEtection TRansformer）—— 基于 Transformer 的端到端目标检测

news 2026/2/10 23:39:52

1.什么是 DETR？

DETR（DEtection TRansformer） 是 Facebook AI（FAIR）于 2020 年提出的 端到端目标检测算法，它基于 Transformer 架构，消除了 Faster R-CNN、YOLO 等方法中的 候选框（Anchor Boxes） 和 非极大值抑制（NMS） 机制，使目标检测变得更简单、高效。

论文：End-to-End Object Detection with Transformers

2.DETR 的核心特点

基于 Transformer 进行目标检测，摆脱了 CNN 传统的 Anchor 机制
端到端训练，无需像 Faster R-CNN 额外使用 RPN 进行候选框生成
全局注意力机制（Self-Attention），可以建模远距离依赖关系，提高检测精度
自动去重，不需要 NMS 后处理步骤
适用于复杂场景，如密集目标检测

3.DETR 的工作流程

DETR 由 三部分 组成：

CNN 提取图像特征（ResNet-50 / ResNet-101）
Transformer 进行目标检测（编码器 + 解码器）
最终预测目标类别和边界框（分类 + 位置回归）

DETR 结构示意图

输入图片 -> CNN 提取特征 -> Transformer 处理特征 -> 预测目标类别 + 边界框

4.DETR 代码示例

使用 PyTorch 进行 DETR 目标检测

import torch
import torchvision.transforms as T
from PIL import Image
import requests# 载入 DETR 预训练模型
detr = torch.hub.load('facebookresearch/detr', 'detr_resnet50', pretrained=True, trust_repo=True)
detr.eval()# 加载图片并进行预处理
image_path = r"D:\Pictures\test.jpeg"
image = Image.open(image_path)transform = T.Compose([T.Resize(800), T.ToTensor()])
img_tensor = transform(image).unsqueeze(0)# 进行目标检测
with torch.no_grad():outputs = detr(img_tensor)# 输出检测结果
print(outputs)

运行结果

{'pred_logits': tensor([[[-17.4480,  -1.4711,  -6.0746,  ..., -10.0646,  -7.2832,  11.1362],[-17.7877,  -1.7454,  -5.9165,  ..., -11.6356,  -8.4581,  10.7261],[-18.3903,  -1.3194,  -7.6447,  ..., -11.3595,  -6.6635,  11.2573],...,[-18.0295,  -1.6913,  -6.6354,  ..., -11.4836,  -7.7729,  10.9814],[-14.4323,   1.3790,  -4.2558,  ..., -11.5297,  -7.8083,   8.1644],[-17.6349,  -1.6041,  -6.4100,  ..., -11.2120,  -7.4216,  10.7064]]]), 'pred_boxes': tensor([[[0.4990, 0.5690, 0.4764, 0.7080],[0.5039, 0.5219, 0.4657, 0.6124],[0.3920, 0.5463, 0.2963, 0.6085],[0.5231, 0.5180, 0.4489, 0.6110],[0.4986, 0.5346, 0.4989, 0.5883],[0.5145, 0.5258, 0.5162, 0.6123],[0.4251, 0.5273, 0.3235, 0.5911],[0.4012, 0.5339, 0.2816, 0.5804],[0.4025, 0.5263, 0.2526, 0.5638],[0.5153, 0.5249, 0.4807, 0.6065],[0.6775, 0.8235, 0.0436, 0.0436],[0.4380, 0.5365, 0.3368, 0.5919],[0.5044, 0.5242, 0.4791, 0.6314],[0.7352, 0.8131, 0.0248, 0.0464],[0.4567, 0.8361, 0.0448, 0.0530],[0.4981, 0.5287, 0.4715, 0.6199],[0.5047, 0.5239, 0.4570, 0.6045],[0.6295, 0.5182, 0.2367, 0.6062],[0.5980, 0.5261, 0.2878, 0.6313],[0.5106, 0.5218,

代码解析

载入 Facebook 预训练的 DETR 模型（detr_resnet50）
使用 ResNet 预处理输入图像
利用 Transformer 进行目标检测 并输出检测框

5.DETR vs Faster R-CNN vs YOLO

模型	方法	检测方式	速度（FPS）	mAP（COCO）	特点
Faster R-CNN	双阶段	RPN + ROI 池化	⏳ 5-10	🎯 76.4%	高精度，速度慢
YOLOv8	单阶段	直接预测类别 + 边界框	⚡ 60+	🎯 92%	速度快，适合实时检测
DETR	端到端	Transformer 进行检测	⏳ 15	🎯 94%	无 Anchor / NMS

DETR 适用于端到端目标检测，适合大规模数据和复杂场景。
YOLO 适用于实时检测，而 Faster R-CNN 适用于高精度任务。

6.DETR 的优化方向

DETR 速度较慢，可优化 Transformer 计算效率（如 Deformable DETR）
提升小目标检测能力（DETR 需要更大数据集进行训练）
轻量化 DETR（如 Mobile-DETR）以适应移动端部署

7.结论

DETR 通过 Transformer 解决了目标检测中的 Anchor 机制问题，简化了流程。
它具有端到端训练的优势，但速度较慢，适用于高精度目标检测任务。
随着 Transformer 在计算机视觉中的应用（如 ViT），DETR 可能成为未来目标检测的主流。

【深度学习】计算机视觉（CV）-目标检测-DETR（DEtection TRansformer）—— 基于 Transformer 的端到端目标检测

1.什么是 DETR？ DETR（DEtection TRansformer） 是 Facebook AI（FAIR）于 2020 年提出的端到端目标检测算法，它基于 Transformer 架构，消除了 Faster R-CNN、YOLO 等方法中的候选框（…...

编程日记 2025/2/19 3:04:41

Windows Docker运行Implicit-SVSDF-Planner

Windows Docker运行GitHub - ZJU-FAST-Lab/Implicit-SVSDF-Planner: [SIGGRAPH 2024 & TOG] 1. 设置环境我将项目git clone在D:/Github目录中。下载ubuntu20.04 noetic镜像 docker pull osrf/ros:noetic-desktop-full-focal 启动容器，挂载主机的D:/Github文…...

编程日记 2025/2/19 3:02:39

ELK安装部署同步mysql数据

ELK 安装部署指南 ELK 是 Elasticsearch、Logstash 和 Kibana 的简称，用于日志收集、存储、分析和可视化。 1. 安装 Elasticsearch Elasticsearch 是一个分布式搜索和分析引擎。 1.1 下载并安装访问 Elasticsearch 官网下载最新版本。解压并安装： tar…...

编程日记 2025/2/19 2:57:32

Vision Transformer图像分块嵌入核心技术解析：从数学推导到工业级应用

一、技术原理与数学建模 1.1 图像分块过程数学表达给定输入图像 x ∈ R H W C x \in \mathbb{R}^{H \times W \times C} x∈RHWC，将其分割为 N N N 个尺寸为 P P P \times P PP 的图块： x p ∈ R N ( P 2 ⋅ C ) 其中 N H W P 2 x_p \in \m…...

编程日记 2025/2/19 2:55:29

【产品资料】陀螺匠·企业助手v1.8 产品介绍

陀螺匠企业助手是一套采用Laravel 9框架结合Swoole高性能协程服务与Vue.js前端技术栈构建的新型智慧企业管理与运营系统。该系统深度融合了客户管理、项目管理、审批流程自动化以及低代码开发平台，旨在为企业提供一站式、数字化转型的全方位解决方案，助力…...

编程日记 2025/2/19 2:54:27

深度求索-DeepSeek-R1本地部署指南

1、参考：部署指南 2、参考：deepseek本地部署只需三步 DeepSeek本地部署只需三步： 1、安装运行环境：安装 Ollama：Ollama官网：官网 2、下载模型：参数越大，需要物里硬件越多 3、安装部…...

编程日记 2025/2/19 2:52:24

代码随想录day12

144.二叉树的前序遍历 //明确递归的函数，结束边界，单层逻辑 void traversal(TreeNode* node, vector<int>& list){if(node nullptr){return;}list.push_back(node->val);traversal(node->left, list);traversal(node->right, list)…...

编程日记 2025/2/19 2:49:21

告别第三方云存储！用File Browser在Windows上自建云盘随时随地访问

文章目录前言1.下载安装File Browser2.启动访问File Browser3.安装cpolar内网穿透3.1 注册账号3.2 下载cpolar客户端3.3 登录cpolar web ui管理界面3.4 创建公网地址 4.固定公网地址访问前言无论是个人用户还是企业团队，都希望能够有一个高效、安全的解决方案来…...

编程日记 2025/2/19 2:47:19

Ubuntu 下 nginx-1.24.0 源码分析 - NGX_MAX_ALLOC_FROM_POOL

NGX_MAX_ALLOC_FROM_POOL 定义在 src\core\ngx_palloc.h #define NGX_MAX_ALLOC_FROM_POOL (ngx_pagesize - 1) 在 src/os/unix/ngx_alloc.h extern ngx_uint_t ngx_pagesize; 这个全局变量定义在 src\os\unix\ngx_alloc.c 中 ngx_uint_t ngx_pagesize; 在 src/os/unix/ngx_…...

编程日记 2025/2/19 2:43:14

PyQt6/PySide6 的 SQL 数据库操作（QtSql）

一、核心组件架构 1.1 QtSql模块构成 QSqlDatabase：数据库连接管理（支持连接池）QSqlQuery：SQL语句执行与结果遍历QSqlTableModel：可编辑的表格数据模型QSqlQueryModel：只读查询结果模型QSqlRelationalTab…...

编程日记 2025/2/19 2:40:11

利用IDEA将Java.class文件反编译为Java文件：原理、实践与深度解析

文章目录引言：当.class文件遇到源代码缺失第一章：反编译技术基础认知1.1 Java编译执行原理1.2 反编译的本质1.3 法律与道德边界第二章：IDEA内置反编译工具详解2.1 环境准备2.2 三步完成基础反编译2.3 高级反编译技巧2.3.1 调试模式反编译2.…...

编程日记 2025/2/19 2:38:09

Kafka偏移量管理全攻略：从基础概念到高级操作实战

#作者：猎人文章目录前言：概念剖析kafka的两种位移消费位移消息的位移位移的提交自动提交手动提交 1、使用--to-earliest重置消费组消费指定topic进度2、使用--to-offset重置消费offset3、使用--to-datetime策略指定时间重置offset4、使用--to-current…...

编程日记 2025/2/19 2:30:01

【R语言】GitHub Copilot安装-待解决

参考： 文章目录...

编程日记 2025/2/19 2:26:58

软件定义汽车时代的功能安全和信息安全

我是穿拖鞋的汉子，魔都中坚持长期主义的汽车电子工程师。老规矩，分享一段喜欢的文字，避免自己成为高知识低文化的工程师： 简单，单纯，喜欢独处，独来独往，不易合同频过着接地气的生活…...

编程日记 2025/2/19 2:14:45

qt的QSizePolicy的使用

使用 QSizePolicy 设置控件的伸缩因子在 Qt 中，QSizePolicy 控制控件如何在布局中伸缩。如果想要影响控件的大小调整行为，可以通过 QSizePolicy::setHorizontalStretch() 和 QSizePolicy::setVerticalStretch() 设置伸缩因子。基本用法假设我们有一个…...

编程日记 2025/2/19 2:13:44

简单几个步骤完成 Oracle 到金仓数据库（KingbaseES）的迁移目标

作为国产数据库的领军选手，金仓数据库（KingbaseES）凭借其成熟的技术架构和广泛的市场覆盖，在国内众多领域中扮演着至关重要的角色。无论是国家电网、金融行业，还是铁路、医疗等关键领域，金仓数据库都以其卓…...

编程日记 2025/2/19 2:12:43

DeepSeek自动化写作软件

DeepSeek写作软件的三大核心功能对于内容创作者来说，写作不仅是表达思想的过程，更是一项需要投入大量时间和精力的任务。面对日益增长的内容需求，写作效率低下、内容质量不高等问题，常常让创作者感到焦虑。而 DeepSeek 写作软件…...

编程日记 2025/2/19 2:11:40

【kafka系列】Kafka如何实现高吞吐量？

目录 1. 生产者端优化核心机制： 关键参数： 2. Broker端优化核心机制： 关键源码逻辑： 3. 消费者端优化核心机制： 关键参数： 全链路优化流程吞吐量瓶颈与调优总结 Kafka的高吞吐能力源于其生…...

编程日记 2025/2/19 2:06:34

learn_pytorch03

第三章深度学习分为如下几个步骤 1：数据预处理，划分训练集和测试集 2：选择模型，设定损失函数和优化函数 3：用模型取拟合训练数据，并在验证计算模型上表现。接着学习了一些数据读入模型构建损失函数的构…...

编程日记 2025/2/19 2:05:33

机器学习：k近邻

所有代码和文档均在golitter/Decoding-ML-Top10: 使用 Python 优雅地实现机器学习十大经典算法。 (github.com)，欢迎查看。 K 邻近算法（K-Nearest Neighbors，简称 KNN）是一种经典的机器学习算法，主要用于分类和回归任务…...

编程日记 2025/2/19 2:04:31

synchronized 学习

学习源： https://www.bilibili.com/video/BV1aJ411V763?spm_id_from333.788.videopod.episodes&vd_source32e1c41a9370911ab06d12fbc36c4ebc 1.应用场景不超卖，也要考虑性能问题（场景） 2.常见面试问题： sync出…...

编程新知 2025/12/14 17:38:17

AI编程--插件对比分析：CodeRider、GitHub Copilot及其他

AI编程插件对比分析：CodeRider、GitHub Copilot及其他随着人工智能技术的快速发展，AI编程插件已成为提升开发者生产力的重要工具。CodeRider和GitHub Copilot作为市场上的领先者，分别以其独特的特性和生态系统吸引了大量开发者。本文将从功…...

编程新知 2026/2/9 2:15:44

微信小程序云开发平台MySQL的连接方式

注：微信小程序云开发平台指的是腾讯云开发先给结论：微信小程序云开发平台的MySQL，无法通过获取数据库连接信息的方式进行连接，连接只能通过云开发的SDK连接，具体要参考官方文档： 为什么？ 因为…...

编程新知 2026/2/1 5:24:17

稳定币的深度剖析与展望

一、引言在当今数字化浪潮席卷全球的时代，加密货币作为一种新兴的金融现象，正以前所未有的速度改变着我们对传统货币和金融体系的认知。然而，加密货币市场的高度波动性却成为了其广泛应用和普及的一大障碍。在这样的背景下，稳定…...

编程新知 2025/10/24 12:31:26

laravel8+vue3.0+element-plus搭建方法

创建 laravel8 项目 composer create-project --prefer-dist laravel/laravel laravel8 8.* 安装 laravel/ui composer require laravel/ui 修改 package.json 文件 "devDependencies": {"vue/compiler-sfc": "^3.0.7","axios": …...

编程新知 2025/10/15 0:25:46

GitFlow 工作模式（详解）

今天再学项目的过程中遇到使用gitflow模式管理代码，因此进行学习并且发布关于gitflow的一些思考 Git与GitFlow模式我们在写代码的时候通常会进行网上保存，无论是github还是gittee，都是一种基于git去保存代码的形式，这样保存代码…...

编程新知 2026/1/26 12:37:40

08. C#入门系列【类的基本概念】：开启编程世界的奇妙冒险

C#入门系列【类的基本概念】：开启编程世界的奇妙冒险嘿，各位编程小白探险家！欢迎来到 C# 的奇幻大陆！今天咱们要深入探索这片大陆上至关重要的 “建筑”—— 类！别害怕，跟着我，保准让你轻松搞…...

编程新知 2025/10/31 20:37:10

NPOI Excel用OLE对象的形式插入文件附件以及插入图片

static void Main(string[] args) {XlsWithObjData();Console.WriteLine("输出完成"); }static void XlsWithObjData() {// 创建工作簿和单元格,只有HSSFWorkbook,XSSFWorkbook不可以HSSFWorkbook workbook new HSSFWorkbook();HSSFSheet sheet (HSSFSheet)workboo…...

编程新知 2025/10/6 2:06:51