当前位置：首页 > article >正文

如何实现Mask Track RCNN

article 2026/4/29 10:41:26

一、配置环境1. 环境选择的是pytorch 2.0.1cuda118conda env list #查看当前环境 conda create --name openmmlab python3.8 -y conda activate openmmlab pip install torch2.0.1 torchvision0.15.2 torchaudio2.0.2 --index-url https://download.pytorch.org/whl/cu118 --extra-index-url https://pypi.tuna.tsinghua.edu.cn/simple2. 其次安装 MMEngine 、MMCV。pip install -U openmim mim install mmengine mim install mmcv2.0.0 mim install mmdet3.0.03. 之后安装MMdetectiongit clone https://github.com/open-mmlab/mmdetection.git cd mmdetection pip install -v -e . # -v means verbose, or more output # -e means installing a project in editable mode, # thus any local modifications made to the code will take effect without reinstallation.二、数据准备将labelme标注出来的文件imagejson转换成YoutubeVIS 2019格式python tools/dataset_converters/labelme2video.py将YoutubeVIS 2019数据集转化成COCO 视频格式python ./tools/dataset_converters/youtubevis2coco.py -i ./data/youtube_vis_2019 -o ./data/youtube_vis_2019/annotations --version 2019三、模型训练实验中跑了ResNet50、ResNet101、RexNet101三种backbone下的模型。batchsize2epoch50.#训练代码 4块GPU #ResNet50 bash tools/dist_train.sh configs/masktrack_rcnn/ME_masktrack_inial.py 4 #ResNet101 bash tools/dist_train.sh configs/masktrack_rcnn/ME_masktrack_101.py 4 #RexNet101 bash tools/dist_train.sh configs/masktrack_rcnn/ME_masktrack_x101.py 4 #如果要使用随机数种子的话命令变成 bash tools/dist_train.sh configs/masktrack_rcnn/ME_masktrack_inial.py 4 \ --seed 0 \ --work-dir work_dirs/ME_masktrack_round2_seed0四、推理一显示图像#使用mot_demo.py输入的数据有视频、config配置、模型权重、保存成哪个mp4、fps设置。 python /hy-tmp/demo/mot_demo.py data/youtube_vis_2019me/test/JPEGImages/new_downcell3 configs/masktrack_rcnn/masktrack-rcnn_mask-rcnn_r50_fpn_8xb1-12e_youtubevis2019.py --checkpoint /hy-tmp/work_dirs/masktrack-rcnn_r50/epoch_50.pth --show --out visbool_cell2.mp4 --fps 5二计算mAP和mAR重点#将评估数据先打印出一个json文件result.json以压缩包的形式放在里面 python tools/test_tracking.py configs/masktrack_rcnn/ME_masktrack_inial.py --checkpoint work_dirs/masktrack-rcnn_r50_round1/epoch_50.pth --work-dir youtube_vis_R50 #其次将result.json下载到本地使用Google Colab运行代码输出mAP和mARresult.json下载到本地使用Google Colab计算mAP和mAR计算的代码如下这段代码在seqformer_refine中import matplotlib.pyplot as plt from pycocotools.ytvos import YTVOS from pycocotools.ytvoseval import YTVOSeval import pylab import numpy as np # 强行给 numpy 加上 float 属性欺骗旧代码 np.float float np.int int # 顺手把 int 也补上以防万一 # --------------------- vita ------------------ pylab.rcParams[figure.figsize] (10.0, 8.0) annType bbox # 放valid.json annFile /content/test.json visGt YTVOS(annFile) #initialize vis detections api resFile /content/results_maskrcnn_final.json visDt visGt.loadRes(resFile) vidIds sorted(visGt.getVidIds()) # vidIds vidIds[0:53] # vidIds vidIds[np.random.randint(53)] # running evaluation visEval YTVOSeval(visGt,visDt,annType) visEval.params.vidIds vidIds visEval.evaluate() visEval.accumulate() visEval.summarize()四、Baseline与SOTABaseline选择使用去掉Tracking Head的部分训练baseline的命令行为#训练代码 bash tools/dist_train.sh /hy-tmp/configs/mask_rcnn/my_baseline_r50.py 4 --seed 1717 --work-dir /hy-tmp/work_dirs_baseline/R50 #推理代码将图像的结果拼接成视频的结果然后再放到Google Colab里面去计算 python tools/inference_to_ytvis.py

如何实现Mask Track RCNN

相关文章：

如何实现Mask Track RCNN

阿里Agent岗三面：在什么场景下，你会选择使用图数据库来增强传统的向量检索？

为什么说MoeKoeMusic是二次元音乐爱好者的终极播放器？揭秘这款开源酷狗客户端的完整使用指南

用`include玩转Verilog全局参数：跨模块配置与仿真提速实战

SVN版本回退实战：从误删代码到紧急修复，我的血泪教训与完整操作手册

别再乱码了！手把手教你用Qt Linguist（Qt语言家）搞定VS项目的中英文翻译

告别C盘红色警告！把WSL 2的虚拟硬盘迁移并扩容到其他盘（D/E盘教程）

Matlab复现：基于综合需求响应与阶梯型碳交易机制的综合能源系统优化调度策略

像素史诗·智识终端Dify低代码平台集成：快速构建AI工作流应用

FontCenter：如何彻底解决AutoCAD字体缺失问题的技术方案

传统OCR管道改造：LightOnOCR-2-1B替代Tesseract的迁移方案

StructBERT中文情感分类在跨境电商落地：多语言评论统一情感映射方案

3步实现微信聊天记录永久保存：WeChatMsg完整使用手册

告别手动部署！用Docker Compose一键搞定若依Vue全家桶（Java/MySQL/Redis/Nginx）

Qt项目实战：用QCustomPlot 2.1.1实现曲线拖拽与框选缩放（附完整源码）

告别UI配色烦恼：用Android Palette库5分钟搞定图片主题色提取

Pixel Epic智识终端参数详解：‘逻辑发散概率’对研报创新性影响分析

SpringBoot项目里用JasperReport生成PDF报表，从设计到导出网页显示全流程避坑

热键侦探：彻底解决Windows热键冲突的终极方案

告别官方文档！Jetson Nano(JetPack 4.6)离线/内网部署jetson-inference完整流程与资源包分享

别再乱买线了！一文看懂手机OTG连接U盘、键盘的正确姿势（附Type-C/Micro接口区别）

抖音无水印批量下载：3个高效方案解决内容采集难题

DLSS Swapper终极指南：三步解锁游戏性能提升秘籍

自动驾驶的“夜视眼”如何炼成？深入拆解跨模态图像融合中的对齐难题

ADB复杂命令拆解

告别路径爆破！用RouteVulScan这款Burp插件，精准揪出隐藏的目录遍历漏洞

2025_NIPS_Multi-Agent Reinforcement Learning with Communication-Constrained Priors

TGRS 2026 即插即用 | 注意力篇 | SFSDF：多尺度空域+多频率频域协同，局部细节+全局结构，全维度特征捕捉！

PMP刷题必备口诀-18（题库+答案详细解析）

Video2X高性能视频处理架构深度解析：C++多线程与硬件加速实现