当前位置: 首页 > article >正文

如何实现Mask Track RCNN

一、配置环境1. 环境选择的是pytorch 2.0.1cuda118conda env list #查看当前环境 conda create --name openmmlab python3.8 -y conda activate openmmlab pip install torch2.0.1 torchvision0.15.2 torchaudio2.0.2 --index-url https://download.pytorch.org/whl/cu118 --extra-index-url https://pypi.tuna.tsinghua.edu.cn/simple2. 其次安装 MMEngine 、MMCV。pip install -U openmim mim install mmengine mim install mmcv2.0.0 mim install mmdet3.0.03. 之后安装MMdetectiongit clone https://github.com/open-mmlab/mmdetection.git cd mmdetection pip install -v -e . # -v means verbose, or more output # -e means installing a project in editable mode, # thus any local modifications made to the code will take effect without reinstallation.二、数据准备将labelme标注出来的文件imagejson转换成YoutubeVIS 2019格式python tools/dataset_converters/labelme2video.py将YoutubeVIS 2019数据集转化成COCO 视频格式python ./tools/dataset_converters/youtubevis2coco.py -i ./data/youtube_vis_2019 -o ./data/youtube_vis_2019/annotations --version 2019三、模型训练实验中跑了ResNet50、ResNet101、RexNet101三种backbone下的模型。batchsize2epoch50.#训练代码 4块GPU #ResNet50 bash tools/dist_train.sh configs/masktrack_rcnn/ME_masktrack_inial.py 4 #ResNet101 bash tools/dist_train.sh configs/masktrack_rcnn/ME_masktrack_101.py 4 #RexNet101 bash tools/dist_train.sh configs/masktrack_rcnn/ME_masktrack_x101.py 4 #如果要使用随机数种子的话命令变成 bash tools/dist_train.sh configs/masktrack_rcnn/ME_masktrack_inial.py 4 \ --seed 0 \ --work-dir work_dirs/ME_masktrack_round2_seed0四、推理一显示图像#使用mot_demo.py输入的数据有视频、config配置、模型权重、保存成哪个mp4、fps设置。 python /hy-tmp/demo/mot_demo.py data/youtube_vis_2019me/test/JPEGImages/new_downcell3 configs/masktrack_rcnn/masktrack-rcnn_mask-rcnn_r50_fpn_8xb1-12e_youtubevis2019.py --checkpoint /hy-tmp/work_dirs/masktrack-rcnn_r50/epoch_50.pth --show --out visbool_cell2.mp4 --fps 5二计算mAP和mAR重点#将评估数据先打印出一个json文件result.json以压缩包的形式放在里面 python tools/test_tracking.py configs/masktrack_rcnn/ME_masktrack_inial.py --checkpoint work_dirs/masktrack-rcnn_r50_round1/epoch_50.pth --work-dir youtube_vis_R50 #其次将result.json下载到本地使用Google Colab运行代码输出mAP和mARresult.json下载到本地使用Google Colab计算mAP和mAR计算的代码如下这段代码在seqformer_refine中import matplotlib.pyplot as plt from pycocotools.ytvos import YTVOS from pycocotools.ytvoseval import YTVOSeval import pylab import numpy as np # 强行给 numpy 加上 float 属性欺骗旧代码 np.float float np.int int # 顺手把 int 也补上以防万一 # --------------------- vita ------------------ pylab.rcParams[figure.figsize] (10.0, 8.0) annType bbox # 放valid.json annFile /content/test.json visGt YTVOS(annFile) #initialize vis detections api resFile /content/results_maskrcnn_final.json visDt visGt.loadRes(resFile) vidIds sorted(visGt.getVidIds()) # vidIds vidIds[0:53] # vidIds vidIds[np.random.randint(53)] # running evaluation visEval YTVOSeval(visGt,visDt,annType) visEval.params.vidIds vidIds visEval.evaluate() visEval.accumulate() visEval.summarize()四、Baseline与SOTABaseline选择使用去掉Tracking Head的部分训练baseline的命令行为#训练代码 bash tools/dist_train.sh /hy-tmp/configs/mask_rcnn/my_baseline_r50.py 4 --seed 1717 --work-dir /hy-tmp/work_dirs_baseline/R50 #推理代码将图像的结果拼接成视频的结果然后再放到Google Colab里面去计算 python tools/inference_to_ytvis.py

相关文章:

如何实现Mask Track RCNN

一、配置环境 1. 环境选择的是pytorch 2.0.1cuda118 conda env list #查看当前环境 conda create --name openmmlab python3.8 -y conda activate openmmlabpip install torch2.0.1 torchvision0.15.2 torchaudio2.0.2 --index-url https://download.pytorch.org/whl/cu118 -…...

阿里Agent岗三面:在什么场景下,你会选择使用图数据库来增强传统的向量检索?

👔面试官:在什么场景下,你会选择使用图数据库来增强传统的向量检索? 🙋‍♂️我:图数据库?我觉得向量检索已经够用了吧,大部分场景都能覆盖,图数据库主要是搞社交网络那…...

为什么说MoeKoeMusic是二次元音乐爱好者的终极播放器?揭秘这款开源酷狗客户端的完整使用指南

为什么说MoeKoeMusic是二次元音乐爱好者的终极播放器?揭秘这款开源酷狗客户端的完整使用指南 【免费下载链接】MoeKoeMusic 一款开源简洁高颜值的酷狗第三方客户端 An open-source, concise, and aesthetically pleasing third-party client for KuGou that support…...

用`include玩转Verilog全局参数:跨模块配置与仿真提速实战

用include玩转Verilog全局参数:跨模块配置与仿真提速实战 在FPGA和ASIC设计中,参数化设计是提升代码复用性和可维护性的关键。想象一下,当你面对一个包含数十个模块的大型项目,每个模块都有自己的一套配置参数,而仿真时…...

SVN版本回退实战:从误删代码到紧急修复,我的血泪教训与完整操作手册

SVN版本回退实战:从误删代码到紧急修复,我的血泪教训与完整操作手册 那天下午三点,咖啡杯里的液体早已见底,我的眼皮开始打架。就在这个恍惚的瞬间,我犯下了职业生涯中最昂贵的错误——误删了整个项目的核心模块代码并…...

别再乱码了!手把手教你用Qt Linguist(Qt语言家)搞定VS项目的中英文翻译

彻底解决Qt多语言乱码:VS项目国际化全流程实战指南 在跨语言桌面应用开发中,乱码问题堪称开发者噩梦。当你的中文界面在Qt Linguist中显示为"烫烫烫",或者翻译后的文字变成问号方块时,这种挫败感足以让任何开发者抓狂。…...

告别C盘红色警告!把WSL 2的虚拟硬盘迁移并扩容到其他盘(D/E盘教程)

彻底解放C盘空间:WSL 2虚拟硬盘迁移与智能扩容全攻略 每次打开Windows资源管理器,那个刺眼的红色警告条总让人心头一紧——C盘又满了。对于深度使用WSL 2的开发者和数据科学工作者来说,这个问题尤为棘手。默认安装在C盘的WSL 2虚拟硬盘(VHDX)…...

Matlab复现:基于综合需求响应与阶梯型碳交易机制的综合能源系统优化调度策略

matlab复现,考虑综合需求响应和阶梯型碳交易机制的综合能源系统优化调度策略。 关键词,综合能源系统,碳交易机制,综合需求响应。 matlab复现,考虑综合需求响应和阶梯型碳交易机制的综合能源系统优化调度策略。 关键词&…...

像素史诗·智识终端Dify低代码平台集成:快速构建AI工作流应用

像素史诗智识终端Dify低代码平台集成:快速构建AI工作流应用 1. 引言:低代码时代的AI应用开发 想象一下,你是一家电商公司的产品经理,需要快速搭建一个能自动回答客户问题的智能客服系统。传统开发方式可能需要组建技术团队、购买…...

FontCenter:如何彻底解决AutoCAD字体缺失问题的技术方案

FontCenter:如何彻底解决AutoCAD字体缺失问题的技术方案 【免费下载链接】FontCenter AutoCAD自动管理字体插件 项目地址: https://gitcode.com/gh_mirrors/fo/FontCenter FontCenter是一款开源AutoCAD字体管理插件,通过C客户端与Python Web服务器…...

传统OCR管道改造:LightOnOCR-2-1B替代Tesseract的迁移方案

传统OCR管道改造:LightOnOCR-2-1B替代Tesseract的迁移方案 1. 引言 如果你正在使用传统的OCR系统处理文档,很可能还在依赖Tesseract这样的经典工具。虽然Tesseract在过去十几年里一直是行业标准,但它的多阶段处理流程(检测→识别…...

StructBERT中文情感分类在跨境电商落地:多语言评论统一情感映射方案

StructBERT中文情感分类在跨境电商落地:多语言评论统一情感映射方案 1. 项目背景与价值 跨境电商平台每天面临海量的多语言用户评论,这些评论包含了宝贵的用户反馈和市场洞察。然而,不同语言的情感表达方式差异巨大,传统的情感分…...

3步实现微信聊天记录永久保存:WeChatMsg完整使用手册

3步实现微信聊天记录永久保存:WeChatMsg完整使用手册 【免费下载链接】WeChatMsg 提取微信聊天记录,将其导出成HTML、Word、CSV文档永久保存,对聊天记录进行分析生成年度聊天报告 项目地址: https://gitcode.com/GitHub_Trending/we/WeChat…...

告别手动部署!用Docker Compose一键搞定若依Vue全家桶(Java/MySQL/Redis/Nginx)

容器化部署若依Vue全家桶:Docker Compose实战指南 在传统服务器部署中,开发者往往需要花费大量时间在环境配置、依赖安装和服务调优上。每次部署新环境,都要重复执行相同的步骤:安装JDK、配置MySQL、编译Redis、调整Nginx参数...这…...

Qt项目实战:用QCustomPlot 2.1.1实现曲线拖拽与框选缩放(附完整源码)

Qt实战:基于QCustomPlot 2.1.1的交互式曲线拖拽与智能缩放开发指南 在工业数据监控、医疗波形分析或金融趋势预测等场景中,开发者经常需要实现既能全局概览又能局部精细调整的数据可视化界面。传统静态图表已无法满足现代交互需求,而Qt生态中…...

告别UI配色烦恼:用Android Palette库5分钟搞定图片主题色提取

告别UI配色烦恼:用Android Palette库5分钟搞定图片主题色提取 在移动应用开发中,视觉体验的重要性不言而喻。一个精心设计的UI界面能显著提升用户留存率和满意度。然而,对于大多数开发者来说,配色方案的选择往往是个令人头疼的问题…...

Pixel Epic智识终端参数详解:‘逻辑发散概率’对研报创新性影响分析

Pixel Epic智识终端参数详解:逻辑发散概率对研报创新性影响分析 1. 产品概述与核心价值 Pixel Epic智识终端是一款革命性的研究报告辅助工具,它将枯燥的科研过程转化为一场充满探索乐趣的像素RPG冒险。基于AgentCPM-Report大模型构建,这款工…...

SpringBoot项目里用JasperReport生成PDF报表,从设计到导出网页显示全流程避坑

SpringBoot与JasperReport实战:从报表设计到Web端PDF导出的完整解决方案 在当今企业级应用开发中,报表功能几乎是每个系统的标配需求。无论是财务对账单、销售统计还是运营分析,将数据以专业格式呈现的能力直接影响着用户体验。JasperReport…...

热键侦探:彻底解决Windows热键冲突的终极方案

热键侦探:彻底解决Windows热键冲突的终极方案 【免费下载链接】hotkey-detective A small program for investigating stolen key combinations under Windows 7 and later. 项目地址: https://gitcode.com/gh_mirrors/ho/hotkey-detective 你是否曾经遇到过…...

告别官方文档!Jetson Nano(JetPack 4.6)离线/内网部署jetson-inference完整流程与资源包分享

Jetson Nano(JetPack 4.6)离线部署jetson-inference全攻略:从资源包制作到内网实战 在工业质检、智慧农业等边缘计算场景中,Jetson Nano常常需要部署在无外网环境的生产线上。去年为某汽车零部件厂商部署缺陷检测系统时,工厂车间完全隔离外网…...

别再乱买线了!一文看懂手机OTG连接U盘、键盘的正确姿势(附Type-C/Micro接口区别)

手机OTG连接全攻略:从U盘到键盘的智能玩法解析 每次看到抽屉里那堆形状各异的USB线材就头疼?明明都是"OTG线",为什么有的能连U盘却识别不了键盘?上周帮同事调试手机外接设备时,发现她买了三条不同接口的OTG线…...

抖音无水印批量下载:3个高效方案解决内容采集难题

抖音无水印批量下载:3个高效方案解决内容采集难题 【免费下载链接】douyin-downloader A practical Douyin downloader for both single-item and profile batch downloads, with progress display, retries, SQLite deduplication, and browser fallback support. …...

DLSS Swapper终极指南:三步解锁游戏性能提升秘籍

DLSS Swapper终极指南:三步解锁游戏性能提升秘籍 【免费下载链接】dlss-swapper 项目地址: https://gitcode.com/GitHub_Trending/dl/dlss-swapper 你是否曾因为游戏帧数太低而烦恼?或者想体验最新DLSS技术但游戏迟迟不更新?DLSS Swa…...

自动驾驶的“夜视眼”如何炼成?深入拆解跨模态图像融合中的对齐难题

自动驾驶的“夜视眼”如何炼成?深入拆解跨模态图像融合中的对齐难题 凌晨3点的城市高架桥上,一辆自动驾驶测试车正以60公里时速巡航。突然,前方200米处出现一个横穿马路的行人——红外传感器捕捉到了人体热辐射,但可见光摄像头因路…...

ADB复杂命令拆解

1、获取包名方法一:最简单直接(手机正在运行该 App)adb shell dumpsys window | findstr mCurrentFocus快速查看当前手机屏幕上,到底是哪个 App 的哪个页面(Activity)正处于显示状态。adb shell&#xff1a…...

告别路径爆破!用RouteVulScan这款Burp插件,精准揪出隐藏的目录遍历漏洞

告别路径爆破!用RouteVulScan精准挖掘隐藏目录漏洞的实战指南 在渗透测试中,最令人头疼的往往不是那些复杂的逻辑漏洞,而是明明存在却难以发现的"低级错误"——比如暴露的.git目录、遗留的备份文件、或是忘记删除的phpinfo页面。传…...

2025_NIPS_Multi-Agent Reinforcement Learning with Communication-Constrained Priors

一、文章主要内容总结 该研究聚焦多智能体强化学习(MARL)在实际场景中面临的通信受限问题(如带宽有限、通信损耗、延迟等),现有方法在可扩展性和鲁棒性上存在不足,难以适配复杂动态环境。为此,提出一套通信受限MARL框架,核心内容包括: 问题建模:将带通信约束的多智能…...

TGRS 2026 即插即用 | 注意力篇 | SFSDF:多尺度空域+多频率频域协同,局部细节+全局结构,全维度特征捕捉!

文章目录 模块出处 模块介绍 模块提出的动机(Motivation) 适用范围与模块效果 模块代码及使用方式 模块出处 Paper:SFIEET: Spectral Frequency-Induced Edge Enhancement Transformer for Hyperspectral Change Detection Code:https://github.com/bcshi83/SFIEET 模块介…...

PMP刷题必备口诀-18(题库+答案详细解析)

刷题必背口诀想提高利润率、降低成本,最有效的方法就是找行业里做得最好的(标杆),看看人家是怎么做的,照着改进。关键逻辑:需要基于已有数据、对标最佳实践找到改进点,实现降本增效工具核心作用…...

Video2X高性能视频处理架构深度解析:C++多线程与硬件加速实现

Video2X高性能视频处理架构深度解析:C多线程与硬件加速实现 【免费下载链接】video2x A machine learning-based video super resolution and frame interpolation framework. Est. Hack the Valley II, 2018. 项目地址: https://gitcode.com/GitHub_Trending/vi/…...