当前位置：首页 > news >正文

使用MMYOLO中yolov8训练自己VOC数据集实战

news 2026/2/9 1:25:09

概述

MMYOLO是商汤公司基于PyTorch框架和YOLO系列算法开源的工具箱

- 目前支持的任务

目标检测
旋转框目标检测

- 支持的算法

YOLOv5
YOLOv6
YOLOv7
YOLOv8
YOLOX
RTMDet
RTMDet-Rotated

- 支持的数据集

COCO Dataset
VOC Dataset
CrowdHuman Dataset
DOTA 1.0 Dataset

安装和验证

conda create -n mmyolo python=3.8 -y
conda activate mmyolo
# 如果你有 GPU
conda install pytorch torchvision -c pytorch
# 如果你是 CPU
# conda install pytorch torchvision cpuonly -c pytorchgit clone https://github.com/open-mmlab/mmyolo.git
cd mmyolo
pip install -U openmim
mim install -r requirements/mminstall.txt
# Install albumentations
mim install -r requirements/albu.txt
# Install MMYOLO
mim install -v -e .
# "-v" 指详细说明，或更多的输出
# "-e" 表示在可编辑模式下安装项目，因此对代码所做的任何本地修改都会生效，从而无需重新安装。

请参考以下链接
link

一,数据集准备

1. voc 转labelme

虽然官方显示支持VOC格式的数据集,但是只找到由labelme转换yolo的的示例,因此我先将voc格式转yolo,

1.1 voc格式如下

VOCdevkit/VOC2007/Annotations/JPEGImages/

1.2转换后的格式如下

在这里插入图片描述

1.3 转换代码如下

'''
VOC格式转换为labelme的json格式
-------------------
VOCdevkit/VOC2007/Annotations/JPEGImages/
----------------
python voc_to_labelme.py 
命令行参数解释：
--voc_dir  VOC数据集目录，默认VOCdevkit/VOC2007
--labelme_version Labelme版本号，默认3.2.6
--labelme_shape   Labelme标记框形状，支持rectangle或polygon，默认rectangle
--image_data      Labelme的imageData节点是否输出数据，默认True
--out_dir         Labelme格式数据集的输出目录
'''import argparse
import glob
import base64
import logging
import io
import os
import PIL
import PIL.Image
import xml.etree.ElementTree as ET
import json
import shutildef parse_opt(known=False):parser = argparse.ArgumentParser(description='xml2json')parser.add_argument('--voc_dir', default='/home/ai-developer/桌面/VOCdevkit/VOC2007', help='voc directory')parser.add_argument('--labelme_version', default='5.1.1', help='labelme version')parser.add_argument('--labelme_shape', default='rectangle', help='labelme shape')parser.add_argument('--image_data', default=True, type=bool, help='wether write image data to json')parser.add_argument('--out_dir', default='/home/ai-developer/桌面/labelme', help='the path of output directory')opt = parser.parse_args()return opt
def read_xml_gtbox_and_label(xml_path):tree = ET.parse(xml_path)root = tree.getroot()size = root.find('size')width = int(size.find('width').text)height = int(size.find('height').text)depth = int(size.find('depth').text)points = []for obj in root.iter('object'):cls = obj.find('name').textpose = obj.find('pose').textxmlbox = obj.find('bndbox')xmin = float(xmlbox.find('xmin').text)xmax = float(xmlbox.find('xmax').text)ymin = float(xmlbox.find('ymin').text)ymax = float(xmlbox.find('ymax').text)point = [cls, xmin, ymin, xmax, ymax]points.append(point)return points, width, heightdef voc_bndbox_to_labelme(opt):xml_dir = os.path.join(opt.voc_dir,'Annotations')img_dir = os.path.join(opt.voc_dir,'JPEGImages')if not os.path.exists(opt.out_dir):os.makedirs(opt.out_dir)xml_files = glob.glob(os.path.join(xml_dir,'*.xml'))for xml_file in xml_files:_, filename = os.path.split(xml_file)filename = filename.rstrip('.xml')# print('filename',filename)img_name = filename + '.jpg'img_path = os.path.join(img_dir, img_name)points, width, height = read_xml_gtbox_and_label(xml_file)json_str = {}json_str['version'] = opt.labelme_versionjson_str['flags'] = {}shapes = []for i in range(len(points)):cls, xmin, ymin, xmax, ymax = points[i]shape = {}shape['label'] = clsif opt.labelme_shape == 'rectangle':shape['points'] = [[xmin, ymin],[xmax, ymax]]else: #polygonshape['points'] = [[xmin, ymin],[xmax, ymin],[xmax, ymax],[xmin, ymax]]shape['group_id'] = None# shape['fill_color'] = Noneshape['shape_type'] = opt.labelme_shapeshape['flags'] = {}shapes.append(shape)json_str['imagePath'] = "../images/"+img_namejson_str['imageData'] = "null"json_str['imageHeight'] = heightjson_str['imageWidth'] = widthjson_str['shapes'] = shapestarget_path = os.path.join(opt.out_dir,img_name)shutil.copy(img_path, target_path)json_file = os.path.join(opt.out_dir, filename + '.json')with open(json_file, 'w') as f:json.dump(json_str, f, indent=2,ensure_ascii=False)def main(opt):voc_bndbox_to_labelme(opt)if __name__ == '__main__':opt = parse_opt()main(opt)

1.4.转换后的效果图

在这里插入图片描述

1.5,使用MMYOLO脚本将labelme的label转换为COCO的label:

python tools/dataset_converters/labelme2coco.py --img-dir ${图片文件夹路径} \--labels-dir ${label 文件夹位置} \--out ${输出 COCO label json 路径} \[--class-id-txt ${class_with_id.txt 路径}]

在这里插入图片描述

1.6 检查转换的 COCO labe

python tools/analysis_tools/browse_coco_json.py --img-dir ${图片文件夹路径} \--ann-file ${COCO label json 路径}

1.7 数据集划分为训练集、验证集和测试集

python tools/misc/coco_split.py --json ${COCO label json 路径} \--out-dir ${划分 label json 保存根路径} \--ratios ${划分比例} \[--shuffle] \[--seed ${划分的随机种子}]

在这里插入图片描述

1.7 修改config文件

1.8 数据集可视化分析

python tools/analysis_tools/dataset_analysis.py configs/custom_dataset/yolov5_s-v61_syncbn_fast_1xb32-100e_cat.py \--out-dir work_dirs/dataset_analysis_cat/train_dataset

在这里插入图片描述

1.9 计算anchor

python tools/analysis_tools/optimize_anchors.py configs/custom_dataset/yolov5_s-v61_syncbn_fast_1xb32-100e_cat.py \--algorithm v5-k-means \--input-shape 640 640 \--prior-match-thr 4.0 \--out-dir work_dirs/dataset_analysis_cat

在这里插入图片描述

2.0 开始训练

在这里插入图片描述

2.1 推理

python demo/image_demo.py ./test_images/      ./work_dirs/yolov8_shebei/yolov8_s_fast_1xb12-40e_cat.py ./work_dirs/yolov8_shebei/epoch_80.pth --out-dir ./result/

或者


from mmdet.apis import init_detector, inference_detectorconfig_file = '/home/ai-developer/mmyolo-main/work_dirs/yolov8_s_fast_1xb12-40e_cat/yolov8_s_fast_1xb12-40e_cat.py'
checkpoint_file = '/home/ai-developer/mmyolo-main/work_dirs/yolov8_s_fast_1xb12-40e_cat/epoch_40.pth'
model = init_detector(config_file, checkpoint_file, device='cuda')  # or device='cuda:0'
result=inference_detector(model, '/home/ai-developer/mmyolo-main/test_images/rk_2021052500119850.jpg')
pred_instances = result.pred_instances[result.pred_instances.scores >0.3]
# dataset_classes = model.dataset_meta.get('classes')
# print('dataset_classes:-----------------------',dataset_classes)
# print(pred_instances['scores'])
# print(pred_instances['labels'])
# print(pred_instances['bboxes'])for i in range(0,len(pred_instances['scores'])):result_list = []result_list.append(float(pred_instances['scores'][i]))result_list.append((pred_instances['labels'][i]).tolist())result_list.append((pred_instances['bboxes'][i]).tolist())print(result_list)

使用MMYOLO中yolov8训练自己VOC数据集实战

概述 MMYOLO是商汤公司基于PyTorch框架和YOLO系列算法开源的工具箱 - 目前支持的任务目标检测旋转框目标检测 - 支持的算法 YOLOv5YOLOv6YOLOv7YOLOv8YOLOXRTMDetRTMDet-Rotated - 支持的数据集 COCO Dataset VOC Dataset CrowdHuman Dataset DOTA 1.0 Dataset 安装…...

编程日记 2024/1/27 20:14:46

解决方案 | 基于SFTP协议的文件传输断点续传Java实现方案

背景因项目需要，我们服务每天都需要通过SFTP协议来对接上下游进行文件传输，但是对于一些大文件，在与第三方公司的服务器对接过程中很可能会因为网络问题或上下游服务器性能问题导致文件上传或者下载被中断，每次重试都需要重新对…...

编程日记 2024/1/27 20:13:44

web前端项目-动画特效【附源码】

文章目录一：赛车游戏动画HTML源码：JS源码：CSS源码：（1）normalize.css（2）style.css 二：吉普车动画演示HTML源码：CSS源码：（1&#xff09…...

编程日记 2024/1/27 20:08:39

蓝桥杯备战——6.串口通讯

1.分析原理图由上图我们可以看到串口1通过CH340接到了USB口上，通过串口1我们就能跟电脑进行数据交互。另外需要注意的是STC15F是有两组高速串口的，而且可以切换端口。 2.配置串口由于比赛时间紧，我们最好不要去现场查寄存器手册&#x…...

编程日记 2024/1/27 20:07:38

Redis为什么速度快：数据结构、存储及IO网络原理总结

Redis，作为内存数据结构存储的佼佼者，其高性能表现一直备受赞誉。那么，Redis究竟是如何实现这一点的呢？接下来，我们将更深入地探讨其背后的关键技术，并提供进一步的优化策略。一、内存存储与数据结构设计…...

编程日记 2024/1/27 20:06:38

OSI七层模型 | TCP/IP模型 | 网络和操作系统的联系 | 网络通信的宏观流程

文章目录 1.OSI七层模型2.TCP/IP五层(或四层)模型3.网络通信的宏观流程3.1.同网段通信3.2.跨网段通信 1.OSI七层模型在计算机通信诞生之初，不同的厂商都生产自己的设备，都有自己的网络通讯标准，导致了不同厂家之间各种协议不兼容&#xff0…...

编程日记 2024/1/27 20:03:33

Java集合总览

1.总览 Java中的集合分List、Set、Queue、Map 4种类型。 List：大多数实现元素可以为null，可重复，底层是数组或链表的结构，支持动态扩容 Set：大多数实现元素可以为null但只能是1个，不能重复， …...

编程日记 2024/1/27 20:02:32

C# 设置一个定时器函数

C#中，创建设置一个定时器，能够定时中断执行特定操作，可以用于发送心跳、正计时和倒计时等。本文对C#的定时器简单封装一下，哎，以方便定时器的创建。定义 using Timer System.Timers.Timer;class SetTimer {Timer …...

编程日记 2024/1/27 20:01:31

第十四届蓝桥杯省赛pythonB组题。管道

5407. 管道 - AcWing题库有一根长度为 len的横向的管道，该管道按照单位长度分为 len 段，每一段的中央有一个可开关的阀门和一个检测水流的传感器。一开始管道是空的，位于 Li 的阀门会在 Si 时刻打开，并不断让水流入管道。…...

编程日记 2024/1/27 19:56:27

淘宝扭蛋机小程序：新时代的互动营销与娱乐体验

随着科技的快速发展，小程序已经成为人们日常生活中不可或缺的一部分。在众多的小程序中，淘宝扭蛋机小程序以其独特的互动性和趣味性，吸引了大量用户。本文将深入探讨淘宝扭蛋机小程序的特色、用户体验以及未来发展。一、淘宝扭蛋机小程序的…...

编程日记 2024/1/27 19:53:24

深度强化学习（王树森）笔记02

深度强化学习（DRL） 本文是学习笔记，如有侵权，请联系删除。本文在ChatGPT辅助下完成。参考链接 Deep Reinforcement Learning官方链接：https://github.com/wangshusen/DRL 源代码链接：https://github.c…...

编程日记 2024/1/27 19:47:19

【分布式技术专题】「分布式技术架构」探索Tomcat技术架构设计模式的奥秘（Server和Service组件原理分析）

探索Tomcat技术架构设计模式的奥秘 Tomcat系统架构分析Tomcat 整体结构Tomcat总体结构图以 Service 作为“婚姻”1) Service 接口方法列表 2) StandardService 的类结构图方法列表 3) StandardService. SetContainer4) StandardService. addConnector 以 Server 为“居”1) Ser…...

编程日记 2024/1/27 19:46:18

常用的gpt-4 prompt words收集8

本文介绍我最近收集的一些好用的chatgpt-4的prompts，如果你也有好用的提示词可以互相交流一下。 1. I ran into some trouble on my way to work. 迟到原因 2. In my heart, the most delicious coffee is the Hawaii Dirty from Manner. Only the Nong series a…...

编程日记 2024/1/27 19:44:17

【GitHub项目推荐--开源2D 游戏引擎】【转载】

microStudio 是一个可在浏览器中运行的游戏引擎，它拥有一套精美、设计精良、全面的工具，可以非常轻松地帮助你创建 2D 游戏。你可以在浏览器中访问 microStudio.dev 开始搭建你的游戏，当然你可以克隆现有项目或创建新游戏并开始编码&#x…...

编程日记 2024/1/27 19:42:15

鸿蒙APP的应用场景

鸿蒙APP可以用于多种场合和设备类型，这是鸿蒙系统的分布式能力和多终端适配的优势。以下是一些鸿蒙APP的应用场景，希望对大家有所帮助。北京木奇移动技术有限公司，专业的软件外包开发公司，欢迎交流合作。 1.智能手机和平板电脑&am…...

编程日记 2024/1/27 19:40:13

goland课程管理(6)

项目目录结构如下图所示： core包下面： class.go package coreimport "github.com/gin-gonic/gin"func Class1(ctx *gin.Context) {}course.go package coreimport (. "cookie/database". "cookie/model""fmt"…...

编程日记 2024/1/27 19:39:12

04.Elasticsearch应用（四）

Elasticsearch应用（四） 1.什么是索引索引是文档的容器，是一类文档的结合索引是一个逻辑命名空间，它映射到一个或多个主分片，并且可以具有零个或多个副本分片索引中数据分散在Shard上索引的Mapping定义文档字段的类型…...

编程日记 2024/1/27 19:38:11

Python之数据可视化（地图）

目录一基础地图应用二全国疫情图一数据准备二数据处理二湖北省疫情图一数据准备二数据处理一基础地图应用导入map地图对象 from pyecharts.charts import Map map Map() 写入数据 data [("北京市",100),("上海市"…...

编程日记 2024/1/27 19:37:10

etcd技术解析：构建高可用分布式系统的利器

1. 引言随着云原生技术的兴起，分布式系统的构建变得愈发重要。etcd作为一个高可用的分布式键值存储系统，在这个领域发挥着至关重要的作用。本文将深入探讨etcd的技术细节，以及如何利用它构建高可用的分布式系统。 2. etcd简介 etcd是一个开…...

编程日记 2024/1/27 19:33:06

Pillow图像处理：从零开始的奇妙之旅

图像处理，就像是一场神奇的冒险，让我们的照片变得更有趣、更生动。而在这个冒险的旅途中，Pillow就如同一位魔法师，为我们开启了无尽的可能性。无论你是刚刚踏入图像处理领域的小白，还是已经略有基础的程序员&#xff0…...

编程日记 2024/1/27 19:28:01

椭圆曲线密码学(ECC)

一、ECC算法概述椭圆曲线密码学（Elliptic Curve Cryptography）是基于椭圆曲线数学理论的公钥密码系统，由Neal Koblitz和Victor Miller在1985年独立提出。相比RSA，ECC在相同安全强度下密钥更短（256位ECC ≈ 3072位RSA…...

编程新知 2025/10/1 22:26:06

python爬虫：Newspaper3k 的详细使用（好用的新闻网站文章抓取和解析的Python库）

更多内容请见：爬虫和逆向教程-专栏介绍和目录文章目录一、Newspaper3k 概述1.1 Newspaper3k 介绍1.2 主要功能1.3 典型应用场景1.4 安装二、基本用法2.2 提取单篇文章的内容2.2 处理多篇文档三、高级选项3.1 自定义配置3.2 分析文章情感四、实战案例4.1 构建新闻摘要聚合器…...

编程新知 2025/10/25 7:51:48

新能源汽车智慧充电桩管理方案：新能源充电桩散热问题及消防安全监管方案

随着新能源汽车的快速普及，充电桩作为核心配套设施，其安全性与可靠性备受关注。然而，在高温、高负荷运行环境下，充电桩的散热问题与消防安全隐患日益凸显，成为制约行业发展的关键瓶颈。如何通过智慧化管理手段优化散…...

编程新知 2026/1/29 3:00:56

现代密码学 | 椭圆曲线密码学—附py代码

Elliptic Curve Cryptography 椭圆曲线密码学（ECC）是一种基于有限域上椭圆曲线数学特性的公钥加密技术。其核心原理涉及椭圆曲线的代数性质、离散对数问题以及有限域上的运算。椭圆曲线密码学是多种数字签名算法的基础，例如椭圆曲线数字签…...

编程新知 2026/2/6 7:30:33

Module Federation 和 Native Federation 的比较

前言 Module Federation 是 Webpack 5 引入的微前端架构方案，允许不同独立构建的应用在运行时动态共享模块。 Native Federation 是 Angular 官方基于 Module Federation 理念实现的专为 Angular 优化的微前端方案。概念解析 Module Federation (模块联邦) Modul…...

编程新知 2026/1/31 13:48:37

SpringCloudGateway 自定义局部过滤器

场景： 将所有请求转化为同一路径请求（方便穿网配置）在请求头内标识原来路径，然后在将请求分发给不同服务 AllToOneGatewayFilterFactory import lombok.Getter; import lombok.Setter; import lombok.extern.slf4j.Slf4j; impor…...

编程新知 2026/2/1 4:53:36

多模态大语言模型arxiv论文略读（108）

CROME: Cross-Modal Adapters for Efficient Multimodal LLM ➡️ 论文标题：CROME: Cross-Modal Adapters for Efficient Multimodal LLM ➡️ 论文作者：Sayna Ebrahimi, Sercan O. Arik, Tejas Nama, Tomas Pfister ➡️ 研究机构: Google Cloud AI Re…...

编程新知 2026/2/1 6:11:51

图表类系列各种样式PPT模版分享

图标图表系列PPT模版，柱状图PPT模版，线状图PPT模版，折线图PPT模版，饼状图PPT模版，雷达图PPT模版，树状图PPT模版图表类系列各种样式PPT模版分享：图表系列PPT模板https://pan.quark.cn/s/20d40aa…...

编程新知 2026/2/4 18:07:02

Angular微前端架构：Module Federation + ngx-build-plus (Webpack)

以下是一个完整的 Angular 微前端示例，其中使用的是 Module Federation 和 npx-build-plus 实现了主应用（Shell）与子应用（Remote）的集成。 🛠️ 项目结构 angular-mf/ ├── shell-app/ # 主应用&…...

编程新知 2025/12/3 10:52:37

React---day11

14.4 react-redux第三方库提供connect、thunk之类的函数以获取一个banner数据为例子 store： 我们在使用异步的时候理应是要使用中间件的，但是configureStore 已经自动集成了 redux-thunk，注意action里面要返回函数 import { configureS…...

编程新知 2026/1/19 2:13:24

概述

MMYOLO是商汤公司基于PyTorch框架和YOLO系列算法开源的工具箱

- 目前支持的任务

- 支持的算法

- 支持的数据集

安装和验证

一,数据集准备

1. voc 转labelme

1.1 voc格式如下

1.2转换后的格式如下

1.3 转换代码如下

1.4.转换后的效果图

1.5,使用MMYOLO脚本将labelme的label转换为COCO的label:

1.6 检查转换的 COCO labe

1.7 数据集划分为训练集、验证集和测试集

1.7 修改config文件

1.8 数据集可视化分析

1.9 计算anchor

2.0 开始训练

2.1 推理

相关文章：