当前位置: 首页 > article >正文

DETR目标检测实战:从零开始训练自己的Transformer模型(附完整代码)

DETR目标检测实战从零开始训练自己的Transformer模型附完整代码在计算机视觉领域目标检测一直是最具挑战性的任务之一。传统基于卷积神经网络(CNN)的方法虽然取得了显著成果但往往需要复杂的后处理流程和手工设计的组件。2020年Facebook AI团队提出的DETR(DEtection TRansformer)彻底改变了这一局面首次将Transformer架构成功应用于目标检测任务实现了端到端的检测流程。本文将带您从零开始完整实现一个DETR模型的训练过程。1. 环境准备与依赖安装训练DETR模型前我们需要搭建合适的开发环境。推荐使用Python 3.8和PyTorch 1.7版本这是经过验证的稳定组合。核心依赖包清单pip install torch1.8.0cu111 torchvision0.9.0cu111 -f https://download.pytorch.org/whl/torch_stable.html pip install pycocotools matplotlib scipy opencv-python对于GPU加速确保正确配置了CUDA环境。可以通过以下命令验证import torch print(torch.cuda.is_available()) # 应返回True print(torch.cuda.device_count()) # 显示可用GPU数量常见问题排查如果遇到CUDA版本不兼容建议使用conda管理环境Windows用户可能需要额外安装Visual C构建工具对于内存有限的GPU可尝试降低batch size或使用梯度累积2. 数据集准备与预处理DETR支持标准的目标检测数据集格式最常用的是COCO格式。我们以COCO 2017数据集为例展示如何准备训练数据。2.1 数据集结构标准的COCO数据集目录结构如下coco/ ├── annotations │ ├── instances_train2017.json │ └── instances_val2017.json ├── train2017 │ └── *.jpg └── val2017 └── *.jpg2.2 数据增强策略DETR对数据增强相对敏感推荐使用以下组合from torchvision import transforms train_transforms transforms.Compose([ transforms.RandomHorizontalFlip(), transforms.ColorJitter(brightness0.2, contrast0.2, saturation0.2), transforms.RandomResizedCrop(size(800, 800), scale(0.8, 1.0)), transforms.ToTensor(), transforms.Normalize([0.485, 0.456, 0.406], [0.229, 0.224, 0.225]) ]) val_transforms transforms.Compose([ transforms.Resize(800), transforms.ToTensor(), transforms.Normalize([0.485, 0.456, 0.406], [0.229, 0.224, 0.225]) ])注意DETR对输入图像尺寸没有严格要求但建议保持长宽比接近1:1800x800是一个经过验证的合理尺寸。3. 模型构建与配置DETR的核心架构包含四个主要组件CNN骨干网络、Transformer编码器、Transformer解码器和预测头。3.1 骨干网络实现DETR默认使用ResNet-50作为骨干网络import torchvision from torch import nn class Backbone(nn.Module): def __init__(self, nameresnet50, train_backboneTrue, dilationFalse): super().__init__() backbone getattr(torchvision.models, name)( replace_stride_with_dilation[False, False, dilation], pretrainedTrue) self.num_channels 2048 if name in (resnet50, resnet101) else 512 self.body nn.Sequential( backbone.conv1, backbone.bn1, backbone.relu, backbone.maxpool, backbone.layer1, backbone.layer2, backbone.layer3, backbone.layer4 ) def forward(self, x): return self.body(x)3.2 Transformer实现DETR使用标准的Transformer架构但有一些关键修改from torch.nn import MultiheadAttention class TransformerEncoderLayer(nn.Module): def __init__(self, d_model, nhead, dim_feedforward2048, dropout0.1): super().__init__() self.self_attn MultiheadAttention(d_model, nhead, dropoutdropout) self.linear1 nn.Linear(d_model, dim_feedforward) self.dropout nn.Dropout(dropout) self.linear2 nn.Linear(dim_feedforward, d_model) self.norm1 nn.LayerNorm(d_model) self.norm2 nn.LayerNorm(d_model) self.dropout1 nn.Dropout(dropout) self.dropout2 nn.Dropout(dropout) self.activation nn.ReLU()3.3 完整模型组装将各组件整合为完整DETR模型class DETR(nn.Module): def __init__(self, num_classes, num_queries100, hidden_dim256): super().__init__() self.backbone Backbone() self.conv nn.Conv2d(2048, hidden_dim, 1) self.transformer Transformer(d_modelhidden_dim) self.query_embed nn.Embedding(num_queries, hidden_dim) self.class_embed nn.Linear(hidden_dim, num_classes 1) self.bbox_embed MLP(hidden_dim, hidden_dim, 4, 3) def forward(self, x): features self.backbone(x) features self.conv(features) hs self.transformer(features, self.query_embed.weight) outputs_class self.class_embed(hs) outputs_coord self.bbox_embed(hs).sigmoid() return {pred_logits: outputs_class[-1], pred_boxes: outputs_coord[-1]}4. 训练流程与技巧DETR的训练有其特殊性需要特别注意损失函数和优化策略。4.1 匈牙利匹配损失实现DETR的核心创新之一是基于匈牙利算法的二部图匹配损失from scipy.optimize import linear_sum_assignment def hungarian_matcher(outputs, targets): bs, num_queries outputs[pred_logits].shape[:2] indices [] for i in range(bs): cost_class -out_prob[i] cost_bbox torch.cdist(out_bbox[i], tgt_bbox[i], p1) cost_giou -generalized_box_iou(box_cxcywh_to_xyxy(out_bbox[i]), box_cxcywh_to_xyxy(tgt_bbox[i])) C cost_bbox cost_class cost_giou C C.reshape(num_queries, -1).cpu() indices.append(linear_sum_assignment(C)) return indices4.2 训练超参数设置经过实验验证的推荐参数参数推荐值说明学习率1e-4使用线性warmupBatch Size4-8取决于GPU内存Epochs300需要长时间训练优化器AdamW权重衰减0.0001学习率调度StepLR每200epoch衰减10倍4.3 训练加速技巧混合精度训练使用Apex或PyTorch原生AMPfrom torch.cuda.amp import autocast, GradScaler scaler GradScaler() with autocast(): outputs model(inputs) loss criterion(outputs, targets) scaler.scale(loss).backward() scaler.step(optimizer) scaler.update()梯度累积在小批量GPU上模拟大批量训练accumulation_steps 4 for i, (inputs, targets) in enumerate(dataloader): loss criterion(model(inputs), targets) / accumulation_steps loss.backward() if (i1) % accumulation_steps 0: optimizer.step() optimizer.zero_grad()5. 模型评估与可视化训练完成后我们需要评估模型性能并进行结果分析。5.1 评估指标实现标准COCO评估指标实现from pycocotools.coco import COCO from pycocotools.cocoeval import COCOeval def evaluate(model, dataset, device): model.eval() results [] for img, _ in dataset: with torch.no_grad(): outputs model(img.unsqueeze(0).to(device)) # 转换输出为COCO格式 # ... 省略转换代码 ... results.extend(coco_results) coco_gt COCO(dataset.coco) coco_dt coco_gt.loadRes(results) coco_eval COCOeval(coco_gt, coco_dt, bbox) coco_eval.evaluate() coco_eval.accumulate() coco_eval.summarize() return coco_eval.stats5.2 结果可视化使用Matplotlib绘制检测结果import matplotlib.pyplot as plt def plot_results(img, outputs, threshold0.7): probas outputs[pred_logits].softmax(-1)[0, :, :-1] keep probas.max(-1).values threshold fig, ax plt.subplots(1, figsize(10,10)) ax.imshow(img) for p, (x, y, w, h) in zip(probas[keep], outputs[pred_boxes][0, keep]): ax.add_patch(plt.Rectangle((x-w/2, y-h/2), w, h, fillFalse, colorr, linewidth2)) cl p.argmax() text f{CLASSES[cl]}: {p[cl]:0.2f} ax.text(x-w/2, y-h/2, text, fontsize10, bboxdict(facecoloryellow, alpha0.5)) plt.axis(off) plt.show()在实际项目中DETR的训练往往需要3-5天时间在8块V100上但得到的模型具有很好的泛化能力。一个常见的问题是初期训练损失下降缓慢这属于正常现象通常50个epoch后会看到明显提升。

相关文章:

DETR目标检测实战:从零开始训练自己的Transformer模型(附完整代码)

DETR目标检测实战:从零开始训练自己的Transformer模型(附完整代码) 在计算机视觉领域,目标检测一直是最具挑战性的任务之一。传统基于卷积神经网络(CNN)的方法虽然取得了显著成果,但往往需要复杂的后处理流程和手工设…...

Jellyfin MetaShark插件终极配置指南:打造完美中文影视元数据刮削系统

Jellyfin MetaShark插件终极配置指南:打造完美中文影视元数据刮削系统 【免费下载链接】jellyfin-plugin-metashark jellyfin电影元数据插件 项目地址: https://gitcode.com/gh_mirrors/je/jellyfin-plugin-metashark Jellyfin MetaShark插件是一款专为中文用…...

罗技鼠标宏如何让《绝地求生》压枪变得简单?掌握这3个核心配置技巧

罗技鼠标宏如何让《绝地求生》压枪变得简单?掌握这3个核心配置技巧 【免费下载链接】logitech-pubg PUBG no recoil script for Logitech gaming mouse / 绝地求生 罗技 鼠标宏 项目地址: https://gitcode.com/gh_mirrors/lo/logitech-pubg 对于《绝地求生》…...

AI幻觉正在“吃掉“信任:一次保险购买引发的血案

写在前面:当AI开始"伪造"付款二维码,你还能相信它吗?本文将深入剖析AI幻觉的危害,并探讨如何在大模型时代守住安全底线。 文章目录一、事件回顾:AI生成的"致命二维码"二、什么是AI幻觉&#xff1f…...

数据库性能优化实战:我在生产环境踩过的那些坑

系列导读:本篇将深入讲解数据库性能优化的核心方法与实战技巧。作为一名在后端开发一线奋斗了5年的工程师,我几乎每天都会和数据库打交道。从最初的查询超时、PGC告警,到后来的连接池耗尽、慢查询拖垮整个服务,这些问题我都一一经…...

LayerDivider终极指南:5步将单张插画转换为可编辑分层PSD

LayerDivider终极指南:5步将单张插画转换为可编辑分层PSD 【免费下载链接】layerdivider A tool to divide a single illustration into a layered structure. 项目地址: https://gitcode.com/gh_mirrors/la/layerdivider 你是否曾经面对一张精美的插画&…...

Graphormer效果展示:催化剂吸附能预测与DFT计算结果的误差分布图

Graphormer效果展示:催化剂吸附能预测与DFT计算结果的误差分布图 1. 模型概述 Graphormer是一种基于纯Transformer架构的图神经网络,专门为分子图(原子-键结构)的全局结构建模与属性预测而设计。该模型在OGB、PCQM4M等分子基准测…...

手把手教你复现IEEE 2025高光谱图像盲超分算法DBSR(附开源代码与避坑指南)

高光谱图像盲超分实战:从零复现DBSR算法的完整指南 高光谱图像超分辨率技术正在遥感、医疗和工业检测领域掀起新一轮应用革命。当我在医疗影像分析项目中首次接触DBSR算法时,那种从模糊光谱数据中重建出清晰组织结构的体验令人难忘——就像给显微镜装上了…...

深度解析Kindle电子书封面修复技术实现原理与架构设计

深度解析Kindle电子书封面修复技术实现原理与架构设计 【免费下载链接】Fix-Kindle-Ebook-Cover A tool to fix damaged cover of Kindle ebook. 项目地址: https://gitcode.com/gh_mirrors/fi/Fix-Kindle-Ebook-Cover Fix-Kindle-Ebook-Cover是一款专注于解决Kindle电子…...

高德地图JS 2.0进阶:MarkerCluster高效聚合与交互事件全解析

1. 高德地图JS 2.0的MarkerCluster核心优势 高德地图JS API 2.0版本对标记点聚合进行了全面重构,MarkerCluster的底层实现从"先渲染后聚合"改为"先聚合后渲染"。实测在5000个标记点的场景下,2.0版本的帧率比1.4版本提升近3倍&#x…...

Pyecharts实战指南:从入门到精通的数据可视化技巧

1. Pyecharts:数据可视化的瑞士军刀 第一次接触Pyecharts是在三年前的一个商业分析项目里,当时客户要求用动态图表展示销售数据。试过Matplotlib和Seaborn后,我发现它们生成的静态图表总是差那么点意思。直到发现了这个基于Echarts的Python库…...

从零搭建一个简易RTSP视频服务器:用Live555、FFmpeg和GStreamer分别实现一遍

从零搭建简易RTSP视频服务器:Live555、FFmpeg与GStreamer实战对比 在流媒体技术领域,RTSP(Real Time Streaming Protocol)作为控制多媒体服务器与客户端之间交互的标准协议,广泛应用于视频监控、直播推流等场景。本文…...

高分辨率国风壁纸生成:LiuJuan模型超分与优化技巧展示

高分辨率国风壁纸生成:LiuJuan模型超分与优化技巧展示 每次看到别人分享的精美国风壁纸,你是不是也好奇,那些细节丰富、色彩饱满、分辨率超高的图片是怎么做出来的?直接用模型生成的图,放大后总觉得有点糊&#xff0c…...

UABEA:Unity游戏资源编辑器的跨平台革命

UABEA:Unity游戏资源编辑器的跨平台革命 【免费下载链接】UABEA c# uabe for newer versions of unity 项目地址: https://gitcode.com/gh_mirrors/ua/UABEA 你是否曾为无法直接编辑Unity游戏中的纹理、音频和模型资源而烦恼?当你想要为喜爱的游戏…...

用Cesium做个地图标记功能?手把手教你实现点击获取经纬度的完整流程

用Cesium实现地图标记功能:从点击事件到经纬度坐标的完整指南 第一次接触Cesium的三维地球开发时,最让我兴奋的就是能够像主流地图应用那样,通过点击获取任意位置的经纬度信息。这个看似简单的功能背后,其实隐藏着屏幕像素、三维空…...

如何免费解锁iOS激活锁:AppleRa1n离线绕过工具完整指南

如何免费解锁iOS激活锁:AppleRa1n离线绕过工具完整指南 【免费下载链接】applera1n icloud bypass for ios 15-16 项目地址: https://gitcode.com/gh_mirrors/ap/applera1n 你是否曾经因为忘记Apple ID密码而无法使用自己的iPhone?或者购买的二手…...

绕过官方限制:在WD MyCloud Gen2上安装第三方App的完整避坑指南(含SSH开启)

WD MyCloud Gen2进阶玩法:解锁第三方应用生态全攻略 对于追求个性化定制的技术爱好者来说,WD MyCloud Gen2这款NAS设备就像一块未经雕琢的璞玉。虽然官方系统提供了基础的存储功能,但其封闭的应用生态却限制了更多可能性。本文将带你深入探索…...

KMS智能激活脚本终极指南:3分钟免费激活Windows和Office全版本

KMS智能激活脚本终极指南:3分钟免费激活Windows和Office全版本 【免费下载链接】KMS_VL_ALL_AIO Smart Activation Script 项目地址: https://gitcode.com/gh_mirrors/km/KMS_VL_ALL_AIO 还在为Windows系统激活烦恼吗?面对复杂的激活流程和高昂的…...

Sketchfab平替?实测5个国内免费3D模型库(含新增资源站),哪个更适合你?

国内3D模型资源站深度测评:从毕设到外包项目的实战选型指南 当Sketchfab因网络限制或付费门槛成为设计路上的绊脚石时,国内是否藏着不输国际水准的3D模型库?作为经历过上百次模型下载踩坑的设计老鸟,我耗时两周对五家主流国内资源…...

从Arduino Nano到ATmega328P-PU:独立芯片烧录Arduino Uno引导程序的完整指南

1. 为什么需要独立烧录ATmega328P-PU芯片 很多刚开始玩Arduino的朋友都会有这样的困惑:明明用现成的Arduino开发板(比如Nano或者Uno)已经很方便了,为什么还要费劲去折腾单独的ATmega328P-PU芯片?这个问题我也思考了很久…...

Step3-VL-10B在内容审核中的应用:敏感图文识别+文字语义一致性校验实战

Step3-VL-10B在内容审核中的应用:敏感图文识别文字语义一致性校验实战 1. 引言:当内容审核遇上多模态AI 想象一下,你是一家社交平台的内容审核负责人。每天,海量的图片和文字内容像潮水一样涌来。一张看似普通的风景照&#xff…...

AXI协议深度解析:非对齐传输的实现与优化策略

1. 非对齐传输的本质与挑战 第一次接触AXI协议的非对齐传输时,我盯着波形图看了整整三天才恍然大悟。所谓非对齐传输,就像搬家时遇到家具尺寸和房门宽度不匹配的情况——你的32位数据包想从0x1002这个"门框"挤进去,但标准对齐地址…...

规避GCJ02偏移的坐标统一方案

在开发基于腾讯地图的 AI 原生应用(如智能出行规划助手)时,坐标系转换是一个极易导致定位偏移的“隐形杀手”。如果前端展示(JSAPI GL)与后端计算(WebService)使用的坐标系不一致,会…...

如何让经典《植物大战僵尸》完美适配现代宽屏显示器?PvZWidescreen模组深度解析

如何让经典《植物大战僵尸》完美适配现代宽屏显示器?PvZWidescreen模组深度解析 【免费下载链接】PvZWidescreen Widescreen mod for Plants vs Zombies 项目地址: https://gitcode.com/gh_mirrors/pv/PvZWidescreen 厌倦了在宽屏显示器上玩《植物大战僵尸》…...

超越K因子:基于奈奎斯特判据的ADS射频稳定性深度解析

1. K稳定性因子的局限性:为什么我们需要奈奎斯特判据? 作为一名射频工程师,我在设计MMIC功放时经常遇到一个令人头疼的问题:明明晶体管栅长已经很小了,加上稳定电路后增益却从15dB骤降到不足10dB。这种"高增益与稳…...

Kubernetes核心组件图解:用生活中的例子理解Pod、Deployment和Service

Kubernetes核心组件图解:用生活中的例子理解Pod、Deployment和Service 想象你走进一家五星级酒店,门童微笑着为你拉开大门——这就像Kubernetes集群的入口。大堂经理(API Server)核对你的预订信息(YAML配置&#xff0…...

深度学习驱动的图像超分辨率实战:从理论到代码的完整指南

1. 图像超分辨率:让模糊照片重获新生的魔法 你有没有遇到过这样的情况?手机里珍藏的老照片因为年代久远变得模糊不清,或者从网上下载的图片放大后全是马赛克。这时候,图像超分辨率技术就像是一个神奇的"修图师"&#xf…...

打造智能广告投放引擎:架构设计与性能优化实战

1. 智能广告投放引擎的核心挑战 每天有数十亿次广告请求在互联网上发生,但真正能触达目标用户的可能不到十分之一。我在参与某电商平台广告系统重构时,亲眼见证了一个糟糕的投放引擎如何烧掉广告主的预算——某次促销活动中,因为用户画像匹配…...

PASCAL VOC2012数据集实战指南:从下载到目标检测应用

1. PASCAL VOC2012数据集简介 PASCAL VOC2012是计算机视觉领域最经典的基准数据集之一,最初用于PASCAL VOC挑战赛。这个数据集包含了20个常见物体类别,涵盖人、动物、交通工具和室内物品四大类。每张图片都经过精细标注,包含物体边界框、类别…...

别再裸奔了!手把手教你给Prometheus监控面板加上账号密码(基于bcrypt加密)

从零构建企业级Prometheus监控安全体系:Basic Auth实战与深度防御 监控系统作为企业IT基础设施的"眼睛",其安全性往往被严重低估。我曾亲历某金融客户因未加密的Prometheus接口导致交易量指标泄露,最终引发商业纠纷的案例——攻击者…...