当前位置: 首页 > article >正文

mmdetection自定义数据集训练全流程解析

1. 从零开始搭建mmdetection训练环境第一次接触mmdetection时我被它强大的目标检测能力所吸引但也被复杂的配置过程劝退过几次。经过多个项目的实战我总结出了一套最稳定的环境搭建方法特别适合新手快速上手。mmdetection作为OpenMMLab家族的重要成员对Python和PyTorch版本有严格要求。我强烈建议使用Python 3.8 PyTorch 1.9的组合这个组合在多个项目中验证过最稳定。安装时最容易踩的坑是CUDA版本不匹配这里分享一个检查清单# 检查NVIDIA驱动版本 nvidia-smi # 查看CUDA版本 nvcc --version # 验证PyTorch能否调用GPU python -c import torch; print(torch.cuda.is_available())安装mmdetection时我习惯先创建干净的conda环境conda create -n mmdet python3.8 -y conda activate mmdet pip install torch1.9.0cu111 torchvision0.10.0cu111 -f https://download.pytorch.org/whl/torch_stable.html pip install mmcv-full -f https://download.mmcv.ai/mmcv/dist/cu111/torch1.9.0/index.html git clone https://github.com/open-mmlab/mmdetection.git cd mmdetection pip install -v -e .实测发现使用国内镜像源可以大幅加速安装过程。在pip安装命令后加上-i https://pypi.tuna.tsinghua.edu.cn/simple能节省大量时间。安装完成后建议运行demo测试from mmdet.apis import init_detector, inference_detector config configs/faster_rcnn/faster_rcnn_r50_fpn_1x_coco.py checkpoint checkpoints/faster_rcnn_r50_fpn_1x_coco_20200130-047c8118.pth model init_detector(config, checkpoint, devicecuda:0) inference_detector(model, demo/demo.jpg)2. 自定义数据集准备与处理在工业质检项目中我处理过各种奇怪的数据集格式最终发现COCO格式是兼容性最好的选择。制作自定义数据集时建议使用labelme标注后通过脚本转换这里分享我常用的转换模板import json import os from PIL import Image def labelme2coco(labelme_json, output_json): coco {images: [], annotations: [], categories: []} # 类别定义 for i, cls in enumerate(classes): coco[categories].append({id: i1, name: cls}) # 图片和标注处理 ann_id 1 for img_id, json_file in enumerate(labelme_json): with open(json_file) as f: data json.load(f) # 处理图片信息 img_path os.path.join(img_dir, data[imagePath]) width, height Image.open(img_path).size coco[images].append({ id: img_id, file_name: data[imagePath], width: width, height: height }) # 处理标注信息 for shape in data[shapes]: points np.array(shape[points]) x_min, y_min points.min(axis0) x_max, y_max points.max(axis0) coco[annotations].append({ id: ann_id, image_id: img_id, category_id: classes.index(shape[label])1, bbox: [x_min, y_min, x_max-x_min, y_max-y_min], area: (x_max-x_min)*(y_max-y_min), iscrowd: 0 }) ann_id 1 with open(output_json, w) as f: json.dump(coco, f)数据集目录结构应该这样组织coco-data/ ├── annotations │ ├── instances_train.json │ └── instances_val.json └── images ├── train └── val特别提醒标注文件中的category_id必须从1开始0在mmdetection中被保留为背景类。遇到过因为id从0开始导致训练报错的案例调试了整整一天才发现问题。3. 配置文件深度定制技巧选择模型就像选工具不同任务需要不同的螺丝刀。对于小目标检测我推荐Cascade RCNN对实时性要求高的场景YOLOv3是不错的选择而Deformable DETR在处理不规则物体时表现突出。修改配置文件时这三个地方必须检查mmdet/datasets/coco.py中的CLASSESmmdet/evaluation/functional/class_names.py中的coco_classes模型配置文件中的num_classes和数据路径以Faster RCNN为例关键配置修改如下# 修改模型类别数 model dict( roi_headdict( bbox_headdict(num_classes8))) # 修改数据集配置 data dict( traindict( ann_filedata/coco/annotations/instances_train.json, img_prefixdata/coco/images/train/), valdict( ann_filedata/coco/annotations/instances_val.json, img_prefixdata/coco/images/val/), testdict( ann_filedata/coco/annotations/instances_val.json, img_prefixdata/coco/images/val/))训练参数调优经验学习率batch_size2时lr0.002比较稳妥训练轮次小数据集建议50-100epoch大数据集可以适当减少数据增强RandomFlip和PhotoMetricDistortion对提升模型鲁棒性很有效4. 训练监控与问题排查训练开始时我习惯先用小批量数据测试流程是否通畅python tools/train.py configs/faster_rcnn.py --work-dir work_dirs --validate --gpus 1常见的训练问题及解决方案Loss不下降检查学习率是否过小数据标注是否正确显存不足减小batch_size开启梯度累积验证指标异常确认验证集标注是否完整训练过程中TensorBoard是最佳观察窗口tensorboard --logdir work_dirs --port 6006重点关注这些指标变化loss_rpn_cls建议值0.0-0.3loss_rpn_bbox建议值0.0-0.2mAP0.5达到0.7以上说明模型表现良好5. 预测结果可视化优化预测结果可视化是展示成果的重要环节我经常需要调整这些参数# 修改检测框颜色 def _draw_instances(self, image, instances, colors[(255,255,255)]*80): # 修改置信度显示格式 labels [f{self.classes[class_id]} {score:.2f} for class_id, score in zip(instances.labels, instances.scores)]实际项目中我总结出这些可视化技巧不同类别使用对比色方便区分置信度保留两位小数即可大图适当调大字体小图减小线宽添加推理时间显示方便性能评估完整的预测脚本示例from mmdet.apis import init_detector, show_result_pyplot config configs/faster_rcnn.py checkpoint work_dirs/latest.pth model init_detector(config, checkpoint) result inference_detector(model, test.jpg) show_result_pyplot(model, test.jpg, result, score_thr0.3)在部署到生产环境时建议将模型导出为ONNX格式torch.onnx.export(model, dummy_input, model.onnx, input_names[input], output_names[output], dynamic_axes{input: {0: batch}, output: {0: batch}})

相关文章:

mmdetection自定义数据集训练全流程解析

1. 从零开始搭建mmdetection训练环境 第一次接触mmdetection时,我被它强大的目标检测能力所吸引,但也被复杂的配置过程劝退过几次。经过多个项目的实战,我总结出了一套最稳定的环境搭建方法,特别适合新手快速上手。 mmdetection作…...

Qwen3.5-9B应用场景:技术文档问答、截图分析、多轮编程辅导落地实践

Qwen3.5-9B应用场景:技术文档问答、截图分析、多轮编程辅导落地实践 1. 认识Qwen3.5-9B大模型 Qwen3.5-9B是一款拥有90亿参数的开源大语言模型,在技术文档处理、图像理解和编程辅助方面表现出色。这个模型特别适合需要同时处理文字和图片信息的场景&am…...

LFE并发编程:如何利用Erlang OTP构建高可用系统

LFE并发编程:如何利用Erlang OTP构建高可用系统 【免费下载链接】lfe Lisp Flavoured Erlang (LFE) 项目地址: https://gitcode.com/gh_mirrors/lf/lfe Lisp Flavoured Erlang (LFE) 是结合了Lisp语法和Erlang强大并发能力的编程语言,它允许开发者…...

前端工程化新方法:别再手动配置了

前端工程化新方法:别再手动配置了 什么是前端工程化新方法? 前端工程化新方法是指在前端开发中,随着技术的发展,出现的新的工程化技术和方法。别以为工程化只是配置 Webpack,那是十年前的玩法了。 为什么需要关注前端工…...

Qwen3.5-9B多模态能力展示:同一张产品图→识别品牌/描述功能/生成营销文案

Qwen3.5-9B多模态能力展示:同一张产品图→识别品牌/描述功能/生成营销文案 1. 多模态AI的惊艳表现 想象一下,当你上传一张产品图片,AI不仅能准确识别品牌和型号,还能详细描述产品功能,甚至为你生成吸引人的营销文案—…...

深度学习——交叉熵损失函数

调用示例 loss_fun F.cross_entropy()loss loss_fun(y_pred, labels)一句话描述 交叉熵损失函数是描述:预测的概率分布和真实概率分布之间差异的损失函数。差异越大,损失值越高;差异越小,损失值越低。 举例说明 假设有一只猫的图…...

解锁RK平台OpenCV+GStreamer全链路硬件加速:从解码到色彩转换的性能跃迁

1. 为什么你的RK平台视频处理帧率上不去? 第一次在RK3588上跑OpenCV视频处理时,我也被诡异的帧率数据惊到了——明明用了GStreamer硬解码,1080p视频居然只能跑到7帧!这就像买了辆跑车却只能龟速前进。经过反复测试发现&#xff0c…...

XUpdate自定义主题实战:打造独特版本更新提示界面

XUpdate自定义主题实战:打造独特版本更新提示界面 【免费下载链接】XUpdate 🚀A lightweight, high availability Android version update framework.(一个轻量级、高可用性的Android版本更新框架) 项目地址: https://gitcode.com/gh_mirrors/xu/XUpda…...

3DSident:你的任天堂3DS系统信息检测终极指南 [特殊字符]

3DSident:你的任天堂3DS系统信息检测终极指南 🎮 【免费下载链接】3DSident PSPident clone for 3DS 项目地址: https://gitcode.com/gh_mirrors/3d/3DSident 对于任天堂3DS的自制软件爱好者和技术用户来说,了解设备详细信息至关重要。…...

python mixer

## 聊聊 Python 里的 Mixer:一个不太起眼但很省事的工具 平时写代码,尤其是做测试或者快速搭建原型的时候,经常需要一堆假数据。比如用户的名字、邮箱、文章的标题和内容,或者订单的金额。自己手动编这些数据,写个循环…...

TCP 长连接服务:登录注册认证体系实战指南

TCP 长连接服务:登录注册认证体系实战指南 在 IM 即时通讯、游戏服务、物联网设备通信等 TCP 长连接场景中,连接准入认证是服务安全的第一道防线。 我们需要实现一套「先认证、后业务」的流程:客户端 TCP 连接建立后,不直接开放业…...

【TCP/IP】IIS FTP服务器端口冲突与匿名登录配置实战

1. IIS FTP服务器端口冲突问题解析 最近在搭建FTP服务器做TCP/IP协议分析实验时,遇到了一个典型问题:IIS FTP服务无法正常启动,匿名登录总是失败。经过排查发现,原来是FileZilla Server偷偷占用了21端口。这种情况在实际工作中很常…...

Simulink与Matlab协同建模仿真

Simulink 是 MATLAB 环境中的一个核心工具箱,构成了一个紧密集成的、以图形化建模和仿真为核心的动态系统分析平台。它们的关系与分工可以概括为:MATLAB 提供底层的计算引擎、编程语言和算法库,而 Simulink 则在此之上提供了一个直观的、基于…...

MQTT over WebSocket实战指南:从EMQX安装到消息收发全流程

1. MQTT over WebSocket 技术解析 MQTT over WebSocket 是物联网领域常用的通信方案,它巧妙地将MQTT协议的轻量级特性与WebSocket的浏览器友好性相结合。这种组合方式特别适合需要浏览器与物联网设备双向通信的场景,比如智能家居控制面板、工业监控大屏等…...

青少年软编等考五级题解目录

这个专栏发布中国电子学会主办的青少年软件编程等级考试 C 语言五级题目解析,每篇文章包含一次考试完整题目的思路解析。由于考级允许使用 C/C 语言,因此解析中给出的参考代码均为 C 代码。为了方便大家查找,特此发布一篇文章作为目录。 所有…...

Ubuntu20.04编译Carla0.9.13实战:从环境配置到资源下载的完整避坑指南

1. 环境准备:Ubuntu20.04基础配置 在开始编译Carla0.9.13之前,确保你的Ubuntu20.04系统已经完成基础环境配置。我实测发现,跳过这一步会导致后续编译过程中出现各种依赖缺失问题。首先打开终端,执行系统更新: sudo a…...

青少年软编等考四级题解目录

这个专栏发布中国电子学会主办的青少年软件编程等级考试 C 语言四级题目解析,每篇文章包含一次考试完整题目的思路解析。由于考级允许使用 C/C 语言,因此解析中给出的参考代码均为 C 代码。为了方便大家查找,特此发布一篇文章作为目录。 所有…...

从‘遍地都是’到‘最新版本’:聊聊H5st参数演变与前端风控对抗的那些事儿

H5st参数演进史:一场前端风控与自动化脚本的永恒博弈 当你在电商平台浏览商品时,页面背后正上演着一场看不见的攻防战。H5st参数作为这场战役中的关键武器,已经从最初的简单防御演变为如今复杂的加密体系。这串看似随机的字符,实际…...

小红书博主必看:AI智能体如何5分钟搞定高颜值封面+3张内容页(附保姆级教程)

小红书博主效率革命:AI智能体5分钟打造高颜值图文全攻略 每次打开小红书后台准备更新内容时,你是不是也经历过这样的纠结:花半小时找模板、一小时调排版,最后出来的效果还是不够"小红书"?作为深耕小红书运营…...

EVA-01部署教程:Qwen2.5-VL-7B模型微调+领域适配(NERV战术语料)

EVA-01部署教程:Qwen2.5-VL-7B模型微调领域适配(NERV战术语料) 1. 引言:欢迎来到NERV指挥中心 想象一下,你面前有一个能看懂图片、理解复杂场景、还能用“战术术语”和你对话的AI助手。它不仅能告诉你图片里有什么&a…...

CLIP ViT-H-14图像编码服务广告应用:创意海报图像情感倾向分析

CLIP ViT-H-14图像编码服务广告应用:创意海报图像情感倾向分析 1. 项目概述 CLIP ViT-H-14图像编码服务是基于CLIP ViT-H-14(laion2B-s32B-b79K)模型的图像特征提取解决方案,为开发者提供RESTful API和Web界面两种使用方式。这项服务特别适合需要分析图…...

达摩院春联模型实战教程:接入钉钉机器人实现群内春联点播

达摩院春联模型实战教程:接入钉钉机器人实现群内春联点播 过年贴春联,是咱们中国人的传统习俗。但每年想一副有新意、有文采的春联可不容易。现在好了,有了AI技术,这事儿变得简单又有趣。 今天要给大家分享的,就是如…...

Qwen3-ForcedAligner-0.6B多场景落地:无障碍服务为听障人士生成精准字幕流

Qwen3-ForcedAligner-0.6B多场景落地:无障碍服务为听障人士生成精准字幕流 1. 引言:让音频内容"看得见"的技术突破 想象一下这样的场景:一位听障朋友正在观看视频课程,虽然视频有字幕,但字幕与语音不同步&…...

从翻译到定制:手把手教你用Buildroot 2025.05手册玩转嵌入式Linux BSP开发

从翻译到实战:深度解析Buildroot 2025.05手册的嵌入式Linux开发实践 1. 嵌入式Linux开发的新范式 在嵌入式系统开发领域,Buildroot已成为构建轻量级Linux系统的首选工具之一。2025.05版本的Buildroot手册不仅是一份技术文档,更是嵌入式开发者…...

Linux系统下USB蓝牙SPP服务端开发实战:从环境配置到数据通信

1. 环境准备:从零搭建蓝牙开发环境 第一次在Linux下折腾蓝牙开发时,我对着满屏的命令行参数发懵。后来才发现,其实只要搞定三个核心组件就能开工:BlueZ蓝牙协议栈、USB蓝牙适配器驱动、基础开发工具链。这里分享下我验证过的配置方…...

【计算机网络】网络基础 (网络协议/TCP/IP协议栈/局域网内外数据传输/数据封装、解包、分用)

目录 计算机网络的发展历程 我国的互联网发展历程 认识“协议” 初识网络协议 OSI 七层模型 TCP/IP协议栈 TCP/IP协议栈、局域网、以太网、互联网之间的关系 局域网内部数据传输基本流程 数据的封装、解包和分用 以太网通信基本原理 跨局域网数据传输基本流程 计算机…...

STM32实战:串口USART数据收发与中断处理(基于STM32F103C8T6标准库)*从零到一*

1. 串口通信基础与STM32硬件准备 第一次接触STM32串口通信时,我对着USART和UART这两个词发懵——后来发现它们就像孪生兄弟,USART比UART多了同步时钟功能。我们常用的STM32F103C8T6开发板上有3个USART接口,最常用的是USART1,对应P…...

Ansible之Playbook(五):高级用法

Playbook高级用法一、本地执行(Local Action)应用场景当控制节点(非目标主机)需要执行特定操作时使用,如生成报告、处理临时文件等。OpenEuler实现方式- name: 在控制节点生成主机清单报告hosts: alltasks:- name: 收集…...

用于街头拍摄的摄像头

1 充电宝2 太阳能板我觉得用充电宝,物联网低功耗摄像头就可以了,因为录制的视频是等到拿回去以后再分析的,不用联网,联网是为了确保摄像头的安全,不被别人拿走。但是这个安装的过程:1 如果晚上12点去安装&a…...

未来5年最“钱“景岗位揭晓:AI产品经理,普通人如何从0到1逆袭?(内含3步进阶法+学习资源)

文章指出AI产品经理是未来5年最具潜力的岗位,并分析了想抓住AI机会的人常遇到的3种状态:观望者、探索者和跑偏者。文章将AI产品经理分为工具型、应用型和专业型,建议普通人以成为应用型AI产品经理为目标。文章提出了从入门到上手的3步学习法&…...