当前位置: 首页 > article >正文

Detectron2模型训练实战:用自定义数据集训练Mask R-CNN(PyTorch 1.8+环境)

Detectron2模型训练实战用自定义数据集训练Mask R-CNNPyTorch 1.8环境1. 环境准备与框架安装在开始训练之前确保你的系统满足以下基本要求操作系统Linux或Windows需额外配置Python版本≥3.7PyTorch版本≥1.8CUDA版本≥10.2推荐11.3GPU显存≥8GB训练Mask R-CNN建议11GB以上1.1 安装PyTorch和依赖项首先安装与CUDA版本匹配的PyTorch# 对于CUDA 11.3 conda install pytorch1.12.1 torchvision0.13.1 torchaudio0.12.1 cudatoolkit11.3 -c pytorch然后安装其他必要依赖pip install cython opencv-python pyyaml matplotlib tqdm1.2 安装COCO APIDetectron2需要COCO API来处理数据集pip install githttps://github.com/cocodataset/cocoapi.git#subdirectoryPythonAPI1.3 安装Detectron2推荐从源码编译安装以获得最佳兼容性git clone https://github.com/facebookresearch/detectron2.git cd detectron2 pip install -e .注意如果遇到编译错误请确保已安装正确版本的GCC≥5.4和NVCC2. 准备自定义数据集2.1 数据集格式转换Detectron2原生支持COCO格式如果你的数据是VOC或其他格式需要先转换from detectron2.data.datasets import register_coco_instances import json # 创建COCO格式的标注文件 def convert_to_coco(input_annotations, output_file): coco_format { info: {}, licenses: [], categories: [{id: 1, name: your_class}], # 替换为你的类别 images: [], annotations: [] } # 添加转换逻辑... with open(output_file, w) as f: json.dump(coco_format, f) # 注册数据集 register_coco_instances(my_dataset_train, {}, path/to/train.json, path/to/images) register_coco_instances(my_dataset_val, {}, path/to/val.json, path/to/images)2.2 数据集验证加载并可视化数据集以确保格式正确from detectron2.utils.visualizer import Visualizer from detectron2.data import MetadataCatalog dataset_dicts DatasetCatalog.get(my_dataset_train) metadata MetadataCatalog.get(my_dataset_train) for d in random.sample(dataset_dicts, 3): img cv2.imread(d[file_name]) visualizer Visualizer(img[:, :, ::-1], metadatametadata, scale0.5) vis visualizer.draw_dataset_dict(d) cv2.imshow(Sample, vis.get_image()[:, :, ::-1]) cv2.waitKey(0)3. 配置训练参数3.1 基础配置Detectron2使用YAML文件配置模型参数。以下是Mask R-CNN的关键配置项MODEL: META_ARCHITECTURE: GeneralizedRCNN WEIGHTS: detectron2://ImageNetPretrained/MSRA/R-50.pkl # 预训练权重 BACKBONE: NAME: build_resnet_fpn_backbone RESNETS: DEPTH: 50 OUT_FEATURES: [res2, res3, res4, res5] FPN: IN_FEATURES: [res2, res3, res4, res5] ROI_HEADS: NUM_CLASSES: 1 # 你的类别数 ROI_BOX_HEAD: NAME: FastRCNNConvFCHead NUM_FC: 2 POOLER_RESOLUTION: 7 ROI_MASK_HEAD: NAME: MaskRCNNConvUpsampleHead NUM_CONV: 4 POOLER_RESOLUTION: 143.2 训练超参数优化根据硬件条件调整以下关键参数参数推荐值说明SOLVER.BASE_LR0.001-0.01学习率SOLVER.MAX_ITER20000-50000最大迭代次数SOLVER.STEPS(10000, 18000)学习率衰减步长SOLVER.IMS_PER_BATCH2-8每批图像数MODEL.ROI_HEADS.BATCH_SIZE_PER_IMAGE64-512每图RoI数3.3 数据增强策略在配置文件中添加数据增强INPUT: MIN_SIZE_TRAIN: (640, 672, 704, 736, 768, 800) # 随机缩放 MAX_SIZE_TRAIN: 1333 CROP: ENABLED: True TYPE: absolute SIZE: (512, 512) COLOR_AUG_SSD: True # 颜色扰动4. 训练过程实现4.1 启动训练使用DefaultTrainer进行训练from detectron2.engine import DefaultTrainer from detectron2.config import get_cfg cfg get_cfg() cfg.merge_from_file(path/to/config.yaml) cfg.DATASETS.TRAIN (my_dataset_train,) cfg.DATASETS.TEST (my_dataset_val,) cfg.OUTPUT_DIR output os.makedirs(cfg.OUTPUT_DIR, exist_okTrue) trainer DefaultTrainer(cfg) trainer.resume_or_load(resumeFalse) trainer.train()4.2 自定义训练逻辑如需扩展训练流程可继承DefaultTrainerclass CustomTrainer(DefaultTrainer): classmethod def build_evaluator(cls, cfg, dataset_name): return COCOEvaluator(dataset_name, output_dircfg.OUTPUT_DIR) def build_hooks(self): hooks super().build_hooks() hooks.insert(-1, LossEvalHook( cfg.TEST.EVAL_PERIOD, self.model, build_detection_test_loader( self.cfg, self.cfg.DATASETS.TEST[0], DatasetMapper(self.cfg, False) ) )) return hooks4.3 训练监控Detectron2提供多种监控方式TensorBoard集成tensorboard --logdir output自定义指标记录from detectron2.utils.events import EventStorage with EventStorage() as storage: storage.put_scalar(lr, optimizer.param_groups[0][lr], smoothingFalse) storage.put_image(input, torch.from_numpy(img[:, :, ::-1]))验证集评估from detectron2.evaluation import inference_on_dataset from detectron2.data import build_detection_test_loader evaluator COCOEvaluator(my_dataset_val, cfg, False, output_dir./output) val_loader build_detection_test_loader(cfg, my_dataset_val) print(inference_on_dataset(trainer.model, val_loader, evaluator))5. 模型优化与调参技巧5.1 学习率策略优化针对不同层设置差异化学习率from detectron2.solver import build_optimizer def build_optimizer(cfg, model): params [] for key, value in model.named_parameters(): if backbone in key: params.append({params: value, lr: cfg.SOLVER.BASE_LR * 0.1}) else: params.append({params: value}) return torch.optim.SGD(params, lrcfg.SOLVER.BASE_LR, momentum0.9)5.2 模型架构调整FPN改进方案增加P6/P7特征层FPN: IN_FEATURES: [res2, res3, res4, res5] OUT_CHANNELS: 256 TOP_BLOCK: LastLevelMaxPool使用Deformable ConvolutionRESNETS: DEFORM_ON_PER_STAGE: [False, True, True, True] DEFORM_MODULATED: True5.3 损失函数调优自定义损失权重from detectron2.modeling import ROI_HEADS_REGISTRY ROI_HEADS_REGISTRY.register() class CustomROIHeads(StandardROIHeads): def __init__(self, cfg, input_shape): super().__init__(cfg, input_shape) self.box_predictor.loss_weight {loss_cls: 1.0, loss_box_reg: 2.0} self.mask_head.loss_weight 1.56. 模型部署与推理6.1 模型导出将训练好的模型导出为TorchScript格式from detectron2.export import scripting model trainer.build_model(cfg) scripted_model scripting.export_script_model(model, (320, 320)) torch.jit.save(scripted_model, model_scripted.pt)6.2 高性能推理优化推理流程的关键参数参数推荐值说明MODEL.ROI_HEADS.SCORE_THRESH_TEST0.5-0.7检测置信度阈值MODEL.ROI_HEADS.NMS_THRESH_TEST0.3-0.5NMS重叠阈值INPUT.MIN_SIZE_TEST800输入图像最小尺寸INPUT.MAX_SIZE_TEST1333输入图像最大尺寸6.3 批量推理实现from detectron2.data import DatasetMapper from detectron2.engine import DefaultPredictor predictor DefaultPredictor(cfg) def batch_inference(images): mapper DatasetMapper(cfg, False) inputs [{image: torch.from_numpy(img[:, :, ::-1].astype(float32))} for img in images] with torch.no_grad(): outputs predictor.model(inputs) return outputs7. 常见问题解决方案7.1 训练问题排查内存不足错误减小SOLVER.IMS_PER_BATCH使用梯度累积SOLVER: GRADIENT_ACCUMULATION_STEPS: 2NaN损失检查数据标注降低学习率添加梯度裁剪SOLVER: CLIP_GRADIENTS: ENABLED: True CLIP_VALUE: 1.0 CLIP_TYPE: value7.2 性能优化技巧混合精度训练SOLVER: AMP: ENABLED: True数据加载优化from detectron2.data import build_detection_train_loader from detectron2.data.samplers import RepeatFactorTrainingSampler def build_train_loader(cfg): sampler RepeatFactorTrainingSampler( repeat_factors..., # 设置样本重复因子 shuffleTrue ) return build_detection_train_loader(cfg, samplersampler)

相关文章:

Detectron2模型训练实战:用自定义数据集训练Mask R-CNN(PyTorch 1.8+环境)

Detectron2模型训练实战:用自定义数据集训练Mask R-CNN(PyTorch 1.8环境) 1. 环境准备与框架安装 在开始训练之前,确保你的系统满足以下基本要求: 操作系统:Linux或Windows(需额外配置&#xff…...

OFA iic/ofa_visual-entailment_snli-ve_large_en镜像多场景落地:教育+电商+出版

OFA图像语义蕴含模型多场景落地:教育电商出版实战指南 1. 镜像简介与核心价值 你手头有一张图片,还有两段描述它的英文句子。你能判断这两段话在逻辑上是什么关系吗?比如,第一句话说“图片里有一个水瓶”,第二句话说…...

Phi-3-vision-128k-instruct黑马点评项目AI升级:实现菜品图片智能识别与推荐

Phi-3-vision-128k-instruct黑马点评项目AI升级:实现菜品图片智能识别与推荐 1. 引言:餐饮应用的智能化痛点 在餐饮行业数字化浪潮中,"黑马点评"作为一款广受欢迎的美食点评应用,面临着用户需求升级的挑战。传统模式下…...

8个智能脚本,让Illustrator设计效率提升10倍

8个智能脚本,让Illustrator设计效率提升10倍 【免费下载链接】illustrator-scripts Adobe Illustrator scripts 项目地址: https://gitcode.com/gh_mirrors/il/illustrator-scripts 设计效率的隐形杀手:你是否也在重复劳动? 每天花费…...

55548862

75635763...

AV1编解码器实战:如何在Chrome 85+和Firefox 86中启用AVIF图片支持

AV1编解码器实战:如何在Chrome 85和Firefox 86中启用AVIF图片支持 AVIF(AV1 Image File Format)作为新一代图像格式,凭借AV1编解码器的强大压缩能力,正在逐步改变Web图像分发的格局。对于追求极致性能的前端开发者而言…...

李慕婉-仙逆-造相Z-Turbo一键部署教程:基于Ubuntu20.04的快速环境搭建

李慕婉-仙逆-造相Z-Turbo一键部署教程:基于Ubuntu20.04的快速环境搭建 1. 开篇:为什么选择这个方案? 如果你对AI绘画感兴趣,特别是想自己动手部署一个功能强大的开源模型来玩玩,那今天这个教程就是为你准备的。李慕婉…...

OpenClaw+Qwen3.5-4B-Claude:3个提升开发效率的自动化技巧

OpenClawQwen3.5-4B-Claude:3个提升开发效率的自动化技巧 1. 为什么开发者需要OpenClaw? 作为一名长期奋战在代码一线的开发者,我一直在寻找能够真正减轻重复劳动的工具。直到遇到OpenClaw与Qwen3.5-4B-Claude的组合,才发现原来…...

Wan2.2-I2V-A14B极限测试:挑战生成复杂网络拓扑结构的动态演化视频

Wan2.2-I2V-A14B极限测试:挑战生成复杂网络拓扑结构的动态演化视频 1. 开场白:当AI遇见网络拓扑 最近在测试Wan2.2-I2V-A14B模型时,我突发奇想:这个号称能理解复杂概念的文生视频模型,能否准确呈现网络拓扑结构的动态…...

解决Mac视频预览难题:QuickLookVideo工具的创新方案

解决Mac视频预览难题:QuickLookVideo工具的创新方案 【免费下载链接】QuickLookVideo This package allows macOS Finder to display thumbnails, static QuickLook previews, cover art and metadata for most types of video files. 项目地址: https://gitcode.…...

革新性开源工具Win11Debloat:突破Windows 11性能瓶颈的系统优化方案

革新性开源工具Win11Debloat:突破Windows 11性能瓶颈的系统优化方案 【免费下载链接】Win11Debloat 一个简单的PowerShell脚本,用于从Windows中移除预装的无用软件,禁用遥测,从Windows搜索中移除Bing,以及执行各种其他…...

告别乱码!手把手教你用阿里妈妈数黑体+LVGL 8.3打造炫酷中文界面(附图标字体生成全流程)

告别乱码!手把手教你用阿里妈妈数黑体LVGL 8.3打造炫酷中文界面(附图标字体生成全流程) 在智能家居控制面板、工业HMI等嵌入式设备开发中,中文显示一直是工程师的痛点。传统解决方案要么占用过多Flash空间,要么显示效…...

超市货架摆放的秘密:手把手教你用Excel和Power BI做购物篮分析,零代码也能玩转关联规则

超市货架摆放的黄金法则:用Excel和Power BI解锁购物篮分析实战指南 走进任何一家现代超市,货架上的商品陈列绝非随意摆放——每一处细节都暗藏数据驱动的商业智慧。当传统经验法则遇上大数据分析,零售商们发现了一个颠覆认知的事实&#xff1…...

Coze插件实战:如何给你的AI小游戏添加图片生成和数据库功能

Coze插件实战:打造沉浸式AI小游戏的进阶技巧 想象一下,你正在开发一款让用户体验挥霍10亿财富的AI小游戏。用户每次选择不同的消费方式,都会触发一段图文并茂的故事情节,最终目标是花光所有钱。这种游戏不仅需要动态生成故事内容&…...

Qwen2.5-72B-Instruct实战:vLLM + FastAPI 构建标准化OpenAI兼容接口

Qwen2.5-72B-Instruct实战:vLLM FastAPI 构建标准化OpenAI兼容接口 1. 模型介绍 Qwen2.5-72B-Instruct-GPTQ-Int4是Qwen大语言模型系列的最新版本,代表了当前开源大模型领域的顶尖水平。这个72B参数的指令调优模型经过GPTQ 4-bit量化处理,…...

别再死记硬背API了!用这3个真实JS开发案例,带你玩转泛微Ecology9前端定制

别再死记硬背API了!用这3个真实JS开发案例,带你玩转泛微Ecology9前端定制 在泛微Ecology9的二次开发中,许多前端开发者都会遇到一个共同的痛点:面对庞大的API文档无从下手,每次开发都要反复查阅手册,效率低…...

【Altium】Draftsman 中钻表信息显示不全

1、 问题场景如下图所示在 PCB 内放置钻孔表信息完整,但是在 Draftsman 中添加钻孔表后发现钻孔信息被折叠,显示不全的现象。这里以【Hole Size】参数举例。图 12、软硬件环境1)、软件版本:Altium Designer 24.5.22)、…...

Pixel Mind Decoder 命令行工具开发:使用Typora风格交互进行情绪随笔分析

Pixel Mind Decoder 命令行工具开发:使用Typora风格交互进行情绪随笔分析 1. 引言:当写作遇上情绪分析 你有没有过这样的体验?在Typora里奋笔疾书时,突然想知道这段文字传递出怎样的情绪色彩。作为一个经常用Markdown写作的人&a…...

寻音捉影·侠客行企业应用:制药企业GMP培训录音中自动核查‘无菌操作’等SOP术语

寻音捉影侠客行企业应用:制药企业GMP培训录音中自动核查‘无菌操作’等SOP术语 1. 引言:制药企业的音频管理痛点 在制药企业的日常运营中,GMP(良好生产规范)培训是确保药品质量和生产安全的关键环节。每次培训都会产…...

如何快速优化Windows掌机:终极体感控制完整指南

如何快速优化Windows掌机:终极体感控制完整指南 【免费下载链接】HandheldCompanion ControllerService 项目地址: https://gitcode.com/gh_mirrors/ha/HandheldCompanion 还在为Windows掌机操作不够精准、游戏兼容性差、配置切换麻烦而烦恼吗?Ha…...

HoRain云--NumPy数据类型全解析:高效计算的关键

🎬 HoRain云小助手:个人主页 🔥 个人专栏: 《Linux 系列教程》《c语言教程》 ⛺️生活的理想,就是为了理想的生活! ⛳️ 推荐 前些天发现了一个超棒的服务器购买网站,性价比超高,大内存超划算!…...

Linux开发学习第七天——虚拟内存和物理内存

一、虚拟内存1.概念内核给进程编造的独立地址空间,每个进程都以为自己独占内存。它们靠 MMU(硬件) 页表(内核) 做映射。每个进程都独有一份,就是之前提到的进程的内存模型。2.作用隔离进程:A 进…...

使用Proteus仿真结合RWKV7-1.5B-G1A:模拟智能硬件对话系统

使用Proteus仿真结合RWKV7-1.5B-G1A:模拟智能硬件对话系统 1. 项目概述 在物联网和智能硬件快速发展的今天,如何让硬件设备具备更自然的交互能力成为一个有趣的研究方向。本文将展示一个跨学科创意项目:在Proteus仿真环境中搭建包含MCU和外…...

本科好就业的专业有哪些

本科好就业的专业主要集中在工科和医学领域,尤其以信息技术、智能制造、新能源、医疗健康等国家战略扶持或产业刚需方向的专业为佳。‌‌ 一、工科类专业 工科专业因技术硬核、对接产业紧密,在就业率和薪资上普遍表现突出。‌‌ ‌1、计算机与信息技术类…...

DeepSeek-OCR-2惊艳效果展示:多栏/斜拍/模糊PDF精准识别对比图集

DeepSeek-OCR-2惊艳效果展示:多栏/斜拍/模糊PDF精准识别对比图集 1. 从机械扫描到智能理解:OCR技术的革命性突破 如果你曾经尝试过从PDF文档中提取文字,特别是那些排版复杂、图片模糊或者拍摄角度倾斜的文档,你一定会理解那种挫…...

5分钟打造个性化Windows桌面:RoundedTB任务栏美化终极指南

5分钟打造个性化Windows桌面:RoundedTB任务栏美化终极指南 【免费下载链接】RoundedTB Add margins, rounded corners and segments to your taskbars! 项目地址: https://gitcode.com/gh_mirrors/ro/RoundedTB 厌倦了Windows千篇一律的方块任务栏&#xff1…...

Z-Image-GGUF实战案例:一步步教你画出电影级风景与动漫风格人物

Z-Image-GGUF实战案例:一步步教你画出电影级风景与动漫风格人物 1. 从零到一:你的第一个AI绘画作品 想不想体验一下,只用几句话就让AI为你画出一幅电影海报级别的风景,或者一个充满故事感的动漫角色?今天&#xff0c…...

OpenMP vs C++ 线程池:到底该用谁?

在 C 多线程并行编程中,OpenMP 和线程池是最常用的两种方案。很多开发者都会陷入困惑:同样是实现多线程加速,到底该选 OpenMP 还是 C 线程池?有人觉得 OpenMP 一行代码就能并行,简单高效;也有人偏爱线程池的…...

lumenpnp校准–连接至 LumenPnP 并配置底部相机

总目录:https://www.xlzyw.top/archives/295 既然 OpenPnP 已安装并且 LumenPnP 配置文件已放置在隐藏的系统文件夹中,OpenPnP 可以使用一些基本的预配置设置启动了。下一步是连接您的 LumenPnP 并熟悉 OpenPnP 的用户界面。。 然后,我们将安…...

Python内存管理正在消失?——2026年三大趋势预警:Rust内存安全层集成、WASI沙箱化运行时、实时GC延迟<50μs(仅限首批Early Adopter)

第一章:Python智能体内存管理策略2026最新趋势随着大语言模型驱动的Python智能体(Agent)在生产环境中的深度部署,内存管理已从传统CPython引用计数循环检测机制,演进为面向LLM推理生命周期的多维协同治理范式。2026年主…...