当前位置：首页 > news >正文

voc数据集格式与yolo数据集格式的区别及相互转化

news 2026/3/27 18:50:27

Pascal VOC数据集是目标检测领域最常用的标准数据集之一，几乎所有检测方向的论文都会给出其在VOC数据集上训练并评测的效果。VOC数据集包含的信息非常全，它不仅被拿来做目标检测，也可以拿来做分割等任务，因此除了目标检测所需的文件之外，还包含分割任务所需的文件，比如 SegmentationClass, SegmentationObject等

下面我们来认识一下Pascal voc数据集的文件目录结构，Pascal VOC数据主要有2007和2012两年的数据，其中2007有train,val,test,而2012只有train和val

#第一级
VOCdevkit
├── VOC2007
└── VOC2012
#第二级
VOCdevkit/VOC2007
├── Annotations
├── ImageSets
├── JPEGImages
├── SegmentationClass
└── SegmentationObject

VOCdevkit/VOC2012
├── Annotations
├── ImageSets
├── JPEGImages
├── SegmentationClass
└── SegmentationObject
#以VOC2007为例，第三级
## Annotations
VOCdevkit/VOC2007/Annotations/
├── 000001.xml
├── 000002.xml
├── 000003.xml
├── 000004.xml
├── 000005.xml
├── 000006.xml
├── 000007.xml
├── 000008.xml
├── 000009.xml
├── 000010.xml
...
## JPEGImages
VOCdevkit/VOC2007/JPEGImages/
├── 000001.jpg
├── 000002.jpg
├── 000003.jpg
├── 000004.jpg
├── 000005.jpg
├── 000006.jpg
├── 000007.jpg
├── 000008.jpg
├── 000009.jpg
├── 000010.jpg
├── 000011.jpg
├── 000012.jpg
├── 000013.jpg

##ImageSets
VOCdevkit/VOC2007/ImageSets/
├── Layout
├── Main
└── Segmentation

#ImageSets第四级
VOCdevkit/VOC2007/ImageSets/
├── Layout
│ ├── test.txt
│ ├── train.txt
│ ├── trainval.txt
│ └── val.txt
├── Main
│ ├── aeroplane_test.txt
│ ├── aeroplane_train.txt
│ ├── aeroplane_trainval.txt
│ ├── aeroplane_val.txt
│ ├── bicycle_test.txt
│ ├── bicycle_train.txt
│ ├── bicycle_trainval.txt
│ ├── bicycle_val.txt
│ ├── bird_test.txt
│ ├── bird_train.txt
│ ├── bird_trainval.txt
│ ├── bird_val.txt
│ ├── boat_test.txt
│ ├── boat_train.txt
│ ├── boat_trainval.txt
│ ├── boat_val.txt
│ ├── bottle_test.txt
│ ├── bottle_train.txt
│ ├── bottle_trainval.txt
│ ├── bottle_val.txt
│ ├── bus_test.txt
│ ├── bus_train.txt
│ ├── bus_trainval.txt
│ ├── bus_val.txt
│ ├── car_test.txt
│ ├── car_train.txt
│ ├── car_trainval.txt
│ ├── car_val.txt
│ ├── cat_test.txt
│ ├── cat_train.txt
│ ├── cat_trainval.txt
│ ├── cat_val.txt
│ ├── chair_test.txt
│ ├── chair_train.txt
│ ├── chair_trainval.txt
│ ├── chair_val.txt
│ ├── cow_test.txt
│ ├── cow_train.txt
│ ├── cow_trainval.txt
│ ├── cow_val.txt
│ ├── diningtable_test.txt
│ ├── diningtable_train.txt
│ ├── diningtable_trainval.tx
│ ├── diningtable_val.txt
│ ├── dog_test.txt
│ ├── dog_train.txt
│ ├── dog_trainval.txt
│ ├── dog_val.txt
│ ├── horse_test.txt
│ ├── horse_train.txt
│ ├── horse_trainval.txt
│ ├── horse_val.txt
│ ├── motorbike_test.txt
│ ├── motorbike_train.txt
│ ├── motorbike_trainval.txt
│ ├── motorbike_val.txt
│ ├── person_test.txt
│ ├── person_train.txt
│ ├── person_trainval.txt
│ ├── person_val.txt
│ ├── pottedplant_test.txt
│ ├── pottedplant_train.txt
│ ├── pottedplant_trainval.tx
│ ├── pottedplant_val.txt
│ ├── sheep_test.txt
│ ├── sheep_train.txt
│ ├── sheep_trainval.txt
│ ├── sheep_val.txt
│ ├── sofa_test.txt
│ ├── sofa_train.txt
│ ├── sofa_trainval.txt
│ ├── sofa_val.txt
│ ├── test.txt
│ ├── train_test.txt
│ ├── train_train.txt
│ ├── train_trainval.txt
│ ├── train.txt
│ ├── train_val.txt
│ ├── trainval.txt
│ ├── tvmonitor_test.txt
│ ├── tvmonitor_train.txt
│ ├── tvmonitor_trainval.txt
│ ├── tvmonitor_val.txt
│ └── val.txt
└── Segmentation
├── test.txt
├── train.txt
├── trainval.txt
└── val.txt

1.JPEGImages

这个文件夹中存放所有的图片，包括训练验证测试用到的所有图片。

2.ImageSets

这个文件夹中包含三个子文件夹，Layout、Main、Segmentation

Layout 文件夹中存放的是 train，valid，test 或者 train+valid 数据集的文件名
Segmentation文件夹中存放的是分割所用train，valid，test 或者 train+valid 数据集的文件名
Main 文件夹中存放的是各个类别所在图片的文件名，比如 cow_val，表示valid数据集中，包含有cow类别目标的图片名称。

3.Annotations

Annotation文件夹中存放着每张图片相关的标注信息，以xml格式的文件存储，标注文件中各个属性的含义，见下图。

红框区域内的内容是我们真正需要关注的，它包含。

filename：图片名称
size：图片宽高，
depth：表示图片通道数
object：表示目标，包含下面两部分内容。
- 首先是目标的类别 name 为dog。pose表示目标姿势为left，truncated 表示是否是一个被截断的目标，1表示是，0表示不是，在这个例子中，只露出狗头部分，所以 truncated 为1。difficult 为 0 表示此目标不是一个难以识别的目标。
- 然后是目标的 bbox 信息，可以看到，这里是以 [xmin,ymin,xmax,ymax] 格式进行标注的，分别表示dog目标的左上角和右下角坐标。xmin ,ymin ,xmax, ymax bbox的坐标格式是box的左上角和右下角的坐标，坐标的方式是在第四象限，且x越往右越大，y越往下越大。

一张图片中有多少需要识别的目标，其 xml 文件中就有多少个 object。上面的例子中有两个object，分别对应人和狗。

yolo数据集的格式通常为:

class_id x y w h

下图为一张图片按照yolo格式进行标注的txt标注文件

voc与yolo数据集格式比较如下:

理解了voc格式的数据集以及yolo格式的数据集，那么将两者相互转化就容易多了。下面为voc转yolo格式的案例模板代码:

import xml.etree.ElementTree as ET
import osvoc_folder = r"E:\Download_Datasets\detection_reflect_clothes\Annotations" #储存voc格式的xml标注文件的文件夹
yolo_folder = r"E:\Download_Datasets\yolo_detection_reflect_clothes\labels" #转换后的yolo格式标注文件的储存文件夹class_id = ["person",'other_clothes','hat','reflective_clothes'] #储存数据集中目标种类名称的列表，接下来的转换函数中会将该列表中种类名称对应的列表索引号作为写入yolo标注文件中该类目标的种类序号#voc标注的目标框坐标值转换到yolo标注的目标框坐标值的函数
#按照上图复现计算过程
def convert(size, box):dw = 1. / size[0]dh = 1. / size[1]x = (box[0] + box[1]) / 2.0y = (box[2] + box[3]) / 2.0w = box[1] - box[0]h = box[3] - box[2]x = x * dww = w * dwy = y * dhh = h * dhreturn (x, y, w, h)#对单个voc标注文件进行转换成其对应的yolo文件的函数
def convert_annotation(xml_file):file_name = xml_file.strip(".xml")  # 这一步将所有voc格式标注文件取出后缀名“.xml”，方便接下来作为yolo格式标注文件的名称in_file = open(os.path.join(voc_folder,xml_file)) #打开当前转换的voc标注文件out_file = open(os.path.join(yolo_folder,file_name + ".txt",),'w') #创建并打开要转换成的yolo格式标注文件tree = ET.parse(in_file)root = tree.getroot()size = root.find('size')w = int(size.find('width').text)h = int(size.find('height').text)for obj in root.iter('object'):cls = obj.find('name').textcls_id = class_id.index(cls)xmlbox = obj.find('bndbox')b = (float(xmlbox.find('xmin').text),float(xmlbox.find('xmax').text),float(xmlbox.find('ymin').text),float(xmlbox.find('ymax').text))bb = convert((w, h), b)out_file.write(str(cls_id) + " " + " ".join([str(a) for a in bb]) + '\n')xml_fileList = os.listdir(voc_folder) #将所有voc格式的标注文件的名称取出存放到列表xml_fileList中
for xml_file in xml_fileList: #这里的for循环开始依次对所有voc格式标注文件生成其对应的yolo格式的标注文件convert_annotation(xml_file)

voc数据集格式与yolo数据集格式的区别及相互转化

Pascal VOC数据集是目标检测领域最常用的标准数据集之一，几乎所有检测方向的论文都会给出其在VOC数据集上训练并评测的效果。VOC数据集包含的信息非常全，它不仅被拿来做目标检测，也可以拿来做分割等任务，因此除了目标检测所需的文…...

编程日记 2023/10/9 15:31:15

超详细！Android Termux上如何安装MySQL，内网穿透实现公网远程访问

文章目录前言1.安装MariaDB2.安装cpolar内网穿透工具3. 创建安全隧道映射mysql4. 公网远程连接5. 固定远程连接地址前言 Android作为移动设备，尽管最初并非设计为服务器，但是随着技术的进步我们可以将Android配置为生产力工具，变成一个随身…...

编程日记 2023/10/9 15:29:13

TSNE降维学习

在学习使用Cora数据集时，输入的初始为[2708, 1433], 输入一共有2708个点，每个节点有1433个特征。测试集的大小为[1000, 1433]最后的输出为[1000, 7]，表示每个点的类别。我们要的就是查看这个[1000, 7]的预测结果。想要将他展示在一个平面上是…...

编程日记 2023/10/9 15:27:11

基于Python+Selenium的web自动化测试框架详解

简介随着Web应用程序的广泛应用和不断发展，Web自动化测试已经成为软件质量保证中的一个重要环节。而PythonSelenium作为一组强大的工具和框架，已经成为Web自动化测试领域中的热门技术之一。PythonSelenium可以帮助我们快速、准确地模拟用户行为和操作&…...

编程日记 2023/10/9 15:26:10

C (1094) : DS双向链表—前驱后继

Description 在双向链表中，A有一个指针指向了后继节点B，同时，B又有一个指向前驱节点A的指针。这样不仅能从链表头节点的位置遍历整个链表所有节点，也能从链表尾节点开始遍历所有节点。对于给定的一列数据，按照给定的…...

编程日记 2023/10/9 15:25:09

mp4视频太大怎么压缩变小？

mp4视频太大怎么压缩变小？确实，很多培训和教学都转向了线上模式，这使得我们需要下载或分享大量的在线教学视频。然而，由于MP4视频文件通常较大，可能会遇到无法打开或发送的问题。为了解决这个问题，我们可以…...

编程日记 2023/10/9 15:24:06

一.创建实体类 package com.siact.product.jwp.module.report.dto;import com.alibaba.excel.annotation.ExcelProperty; import com.alibaba.excel.annotation.write.style.ColumnWidth; import com.alibaba.excel.annotation.write.style.ContentRowHeight; import com.alib…...

编程日记 2023/10/9 15:22:04

LongLoRA：超长上下文，大语言模型高效微调方法

麻省理工学院和香港中文大学联合发布了LongLoRA，这是一种全新的微调方法，可以增强大语言模型的上下文能力，而无需消耗大量算力资源。通常，想增加大语言模型的上下文处理能力，需要更多的算力支持。例如，将…...

编程日记 2023/10/9 15:21:03

【漏洞复现】某 NVR 视频存储管理设备远程命令执行

漏洞描述 NUUO NVR是中国台湾NUUO公司旗下的一款网络视频记录器，该设备存在远程命令执行漏洞，攻击者可利用该漏洞执行任意命令，进而获取服务器的权限。免责声明技术文章仅供参考，任何个人和组织使用网络应当遵守宪法法律&am…...

编程日记 2023/10/9 15:20:02

若依前端-应用路径发布和使用

官网的路径：前端手册 | RuoYi 应用路径有些特殊情况需要部署到子路径下，例如：https://www.ruoyi.vip/admin，可以按照下面流程修改。 1、修改vue.config.js中的publicPath属性 publicPath: process.env.NODE_ENV "produ…...

编程日记 2023/10/9 15:19:01

Mojo 正式发布，Rust 能否与之匹敌？

9 月 7 日，Modular 公司宣布正式发布 Mojo：Mojo 现在已经开放本地下载——初步登陆 Linux 系统，并将很快提供 Mac 与 Windows 版本。据介绍，Mojo 最初的目标是比 Python 快 35000 倍，近日该团队表示，Mojo 将…...

编程日记 2023/10/9 15:17:59

opencv实现抠图，图像拼接，图像融合

在OpenCV中，你可以使用图像拼接、抠图和将图像的一部分放在另一张图片的指定位置。以下是示例代码，演示如何执行这些操作： 图像拼接要将两张图像拼接在一起，你可以使用 cv::hconcat（水平拼接）和 cv::vco…...

编程日记 2023/10/9 15:16:58

照片处理软件Lightroom Classic mac中文版功能介绍（Lrc2021）

Lightroom Classic 2022 mac是一款桌面编辑工具，lrc2021 mac包括提亮颜色、使灰暗的摄影更加生动、删除瑕疵、将弯曲的画面拉直等。您可以在电脑桌面上轻松整理所有照片。使用Lightroom Classic， 轻松整理编辑照片，为您的作品锦上添花。 Ligh…...

编程日记 2023/10/9 15:15:57

asp.net高校留学生信息管理系统VS开发sqlserver数据库web结构c#编程Microsoft Visual Studio

一、源码特点 asp.net 高校留学生信息管理系统是一套完善的web设计管理系统，系统具有完整的源代码和数据库，系统主要采用B/S模式开发。开发环境为vs2010，数据库为sqlserver2008，使用c#语言开发 asp.net留学生信息管理系…...

编程日记 2023/10/9 15:14:56

C# - Opencv应用（1）之VS下环境配置详解

C# - Opencv应用（1） 之VS下环境配置详解有时候，单纯c#做前端时会联合C实现的dll来落地某些功能由于有时候会用C - Opencv实现算法后封装成dll，但是有时候会感觉麻烦，不如直接通过C#直接调用Opencv在此慢慢总结下C# -…...

编程日记 2023/10/9 15:13:55

rsync 远程同步实现快速、安全、高效的异地备份

目录 1 rsync 远程同步 1.1 rsync是什么？ 1.2 rsync同步方式 1.3 rsync的特性 1.4 rsync的应用场景 1.5 rsync与cp、scp对比 1.6 rsync同步源 2 配置rsync源服务器 2.1 建立/etc/rsyncd.conf 配置文件 3 发起端 4 发起端配置 rsyncinotify 4.1 修改rsync…...

编程日记 2023/10/9 15:12:54

医学访问学者面试技巧

医学访问学者面试是一个非常重要的环节，它决定了你是否能够获得这个宝贵的机会去国外的大学或研究机构学习和研究。在这篇文章中，知识人网小编将分享一些关于医学访问学者面试的技巧，帮助你在面试中表现出色。 1. 准备充分在参加医学访问学…...

编程日记 2023/10/9 15:10:51

【19】c++设计模式——＞桥接模式

桥接模式的定义 C的桥接模式（Bridge Pattern）是一种结构型设计模式，它将抽象部分与实现部分分离，使得它们可以独立地变化。桥接模式的核心思想是利用组合关系代替继承关系，将系统划分成多个独立的、功能不同的类层次结…...

编程日记 2023/10/9 15:09:50

网络安全：六种常见的网络攻击手段

1、什么是VPN服务？ 虚拟专用网络（或VPN）是您的设备与另一台计算机之间通过互联网的安全连接。VPN服务可用于在离开办公室时安全地访问工作计算机系统。但它们也常用于规避政府审查制度，或者在电影流媒体网站上阻止位置封锁&#…...

编程日记 2023/10/9 15:08:48

使用HbuilderX运行uniapp中小程序项目

下载HbuilderX，下载链接： HBuilderX-高效极客技巧导入相关项目。下载微信开发者工具。使用微信开发者工具打开：注意：如果是第一次使用，需要先配置小程序ide的相关路径，才能运行成功。如下图，需…...

编程日记 2023/10/9 15:07:47

Obsidian Full Calendar：5步构建个人知识与时间管理一体化系统

Obsidian Full Calendar：5步构建个人知识与时间管理一体化系统【免费下载链接】obsidian-full-calendar Keep events and manage your calendar alongside all your other notes in your Obsidian Vault. 项目地址: https://gitcode.com/gh_mirrors/obs/obsidian…...

编程新知 2026/3/27 16:35:29

Nemo文件管理器终极指南：Cinnamon桌面环境下的高效文件管理神器

Nemo文件管理器终极指南：Cinnamon桌面环境下的高效文件管理神器【免费下载链接】nemo File browser for Cinnamon 项目地址: https://gitcode.com/gh_mirrors/ne/nemo Nemo是Cinnamon桌面环境的官方文件管理器，作为一个免费开源的软件项目&#…...

编程新知 2026/3/27 15:57:16

不用Arduino IDE也能烧录ESP32-CAM？试试这个更简单的工具

告别Arduino IDE：5种高效烧录ESP32-CAM的替代方案当开发者第一次接触ESP32-CAM时，Arduino IDE往往是默认的烧录工具。但随着时间的推移，许多用户会发现这个"官方推荐"的环境存在诸多限制：臃肿的安装包、缓慢的编译速度…...

编程新知 2026/3/27 14:52:48

课堂教学质量综合评分系统

目录一、项目环境与目录结构 1. 环境要求 2. 推荐目录结构二、核心类设计：ClassroomScorer 三、关键代码深度解析 1. 基础路径配置 2. 初始化方法：极致灵活的配置 3. 上下文管理器：统一封装 CSV 读取 4. 数据加载：4 类 …...

编程新知 2026/3/27 14:18:19

从AHB到AXI：手把手带你用Verilog仿真看Outstanding如何提升SoC数据吞吐

从AHB到AXI：深入解析Outstanding机制如何优化SoC数据吞吐效率在复杂的SoC设计中，总线架构的选择直接影响系统性能。传统AHB总线虽然结构简单，但在高并发场景下容易成为瓶颈。AXI协议通过引入Outstanding、Out-of-order等机制，显著…...

编程新知 2026/3/27 14:18:10

夜间自动化利器：OpenClaw+nanobot定时执行爬虫任务

夜间自动化利器：OpenClawnanobot定时执行爬虫任务 1. 为什么选择OpenClaw做夜间自动化凌晨三点，我的电脑屏幕突然亮了起来。这不是灵异事件，而是OpenClaw正在执行我预设的爬虫任务——收集行业数据、清洗整理、存入数据库，整个…...

编程新知 2026/3/27 11:50:14

Mi-Create终极指南：三步快速创建专属小米手表表盘

Mi-Create终极指南：三步快速创建专属小米手表表盘【免费下载链接】Mi-Create Unofficial watchface creator for Xiaomi wearables ~2021 and above 项目地址: https://gitcode.com/gh_mirrors/mi/Mi-Create 想要为你的小米手表打造独一无二的个性化表盘吗&…...

编程新知 2026/3/27 10:13:30

移动端视频适配难题：xgplayer的CSS全屏模式实战指南（含16:9与9:16适配技巧）

移动端视频适配难题：xgplayer的CSS全屏模式实战指南（含16:9与9:16适配技巧） 在移动端视频播放场景中，屏幕比例适配一直是开发者面临的棘手问题。传统全屏模式在处理非常规比例视频（如竖屏9:16内容）时往往表…...

编程新知 2026/3/27 9:43:07

OpenClaw沙盒体验：不装本地环境玩转GLM-4.7-Flash

OpenClaw沙盒体验：不装本地环境玩转GLM-4.7-Flash 1. 为什么选择沙盒体验？ 作为一个长期关注AI自动化工具的技术爱好者，我一直在寻找一个既能快速验证想法又不会污染本地开发环境的方式。OpenClaw的本地部署虽然强大，但配置过程…...

编程新知 2026/3/27 9:37:04

AsrTools全攻略：革新语音转文字效率的智能解决方案

编程新知 2026/3/27 9:00:47

voc数据集格式与yolo数据集格式的区别及相互转化

相关文章：

voc数据集格式与yolo数据集格式的区别及相互转化

超详细！Android Termux上如何安装MySQL，内网穿透实现公网远程访问

TSNE降维学习

基于Python+Selenium的web自动化测试框架详解

C (1094) : DS双向链表—前驱后继

mp4视频太大怎么压缩变小？

利用easy excel 实现文件导出

LongLoRA：超长上下文，大语言模型高效微调方法

【漏洞复现】某 NVR 视频存储管理设备远程命令执行

若依前端-应用路径发布和使用

Mojo 正式发布，Rust 能否与之匹敌？

opencv实现抠图，图像拼接，图像融合

照片处理软件Lightroom Classic mac中文版功能介绍（Lrc2021）

asp.net高校留学生信息管理系统VS开发sqlserver数据库web结构c#编程Microsoft Visual Studio

C# - Opencv应用（1）之VS下环境配置详解

rsync 远程同步实现快速、安全、高效的异地备份

医学访问学者面试技巧

【19】c++设计模式——＞桥接模式

网络安全：六种常见的网络攻击手段

使用HbuilderX运行uniapp中小程序项目

Obsidian Full Calendar：5步构建个人知识与时间管理一体化系统

Nemo文件管理器终极指南：Cinnamon桌面环境下的高效文件管理神器

不用Arduino IDE也能烧录ESP32-CAM？试试这个更简单的工具

课堂教学质量综合评分系统

从AHB到AXI：手把手带你用Verilog仿真看Outstanding如何提升SoC数据吞吐

夜间自动化利器：OpenClaw+nanobot定时执行爬虫任务

Mi-Create终极指南：三步快速创建专属小米手表表盘

移动端视频适配难题：xgplayer的CSS全屏模式实战指南（含16:9与9:16适配技巧）

OpenClaw沙盒体验：不装本地环境玩转GLM-4.7-Flash

AsrTools全攻略：革新语音转文字效率的智能解决方案