当前位置：首页 > news >正文

【yolov5】将标注好的数据集进行划分（附完整可运行python代码）

news 2026/2/9 21:12:13

问题描述

准备使用yolov5训练自己的模型，自己将下载的开源数据集按照自己的要求重新标注了一下，然后现在对其进行划分。

问题分析

划分数据集主要的步骤就是，首先要将数据集打乱顺序，然后按照一定的比例将其分为训练集，验证集和测试集。
这里我定的比例是7：1：2。

步骤流程

1、将数据集打乱顺序

数据集有图片和标注文件，我们需要把两种文件绑定然后将其打乱顺序。
首先读取数据后，将两种文件通过zip函数绑定

	each_class_image = []each_class_label = []for image in os.listdir(file_path):each_class_image.append(image)for label in os.listdir(xml_path):each_class_label.append(label)data=list(zip(each_class_image,each_class_label))

然后打乱顺序，再将两个列表分开

    random.shuffle(data)each_class_image,each_class_label=zip(*data)

2、按照确定好的比例将两个列表元素分割

分别用三个列表储存一下图片和标注文件的元素

	train_images = each_class_image[0:int(train_rate * total)]val_images = each_class_image[int(train_rate * total):int((train_rate + val_rate) * total)]test_images = each_class_image[int((train_rate + val_rate) * total):]train_labels = each_class_label[0:int(train_rate * total)]val_labels = each_class_label[int(train_rate * total):int((train_rate + val_rate) * total)]test_labels = each_class_label[int((train_rate + val_rate) * total):]

3、在本地生成文件夹，将划分好的数据集分别保存

这样就保存好了。

    for image in train_images:#print(image)old_path = file_path + '/' + imagenew_path1 = new_file_path + '/' + 'train' + '/' + 'images'if not os.path.exists(new_path1):os.makedirs(new_path1)new_path = new_path1 + '/' + imageshutil.copy(old_path, new_path)for label in train_labels:#print(label)old_path = xml_path + '/' + labelnew_path1 = new_file_path + '/' + 'train' + '/' + 'labels'if not os.path.exists(new_path1):os.makedirs(new_path1)new_path = new_path1 + '/' + labelshutil.copy(old_path, new_path)for image in val_images:old_path = file_path + '/' + imagenew_path1 = new_file_path + '/' + 'val' + '/' + 'images'if not os.path.exists(new_path1):os.makedirs(new_path1)new_path = new_path1 + '/' + imageshutil.copy(old_path, new_path)for label in val_labels:old_path = xml_path + '/' + labelnew_path1 = new_file_path + '/' + 'val' + '/' + 'labels'if not os.path.exists(new_path1):os.makedirs(new_path1)new_path = new_path1 + '/' + labelshutil.copy(old_path, new_path)for image in test_images:old_path = file_path + '/' + imagenew_path1 = new_file_path + '/' + 'test' + '/' + 'images'if not os.path.exists(new_path1):os.makedirs(new_path1)new_path = new_path1 + '/' + imageshutil.copy(old_path, new_path)for label in test_labels:old_path = xml_path + '/' + labelnew_path1 = new_file_path + '/' + 'test' + '/' + 'labels'if not os.path.exists(new_path1):os.makedirs(new_path1)new_path = new_path1 + '/' + labelshutil.copy(old_path, new_path)

运行结果展示

直接运行单个python文件即可。
在这里插入图片描述
运行完毕
去本地查看

图片和标注文件乱序，且一一对应。

完整代码分享

import os
import shutil
import randomrandom.seed(0)def split_data(file_path,xml_path, new_file_path, train_rate, val_rate, test_rate):each_class_image = []each_class_label = []for image in os.listdir(file_path):each_class_image.append(image)for label in os.listdir(xml_path):each_class_label.append(label)data=list(zip(each_class_image,each_class_label))total = len(each_class_image)random.shuffle(data)each_class_image,each_class_label=zip(*data)train_images = each_class_image[0:int(train_rate * total)]val_images = each_class_image[int(train_rate * total):int((train_rate + val_rate) * total)]test_images = each_class_image[int((train_rate + val_rate) * total):]train_labels = each_class_label[0:int(train_rate * total)]val_labels = each_class_label[int(train_rate * total):int((train_rate + val_rate) * total)]test_labels = each_class_label[int((train_rate + val_rate) * total):]for image in train_images:print(image)old_path = file_path + '/' + imagenew_path1 = new_file_path + '/' + 'train' + '/' + 'images'if not os.path.exists(new_path1):os.makedirs(new_path1)new_path = new_path1 + '/' + imageshutil.copy(old_path, new_path)for label in train_labels:print(label)old_path = xml_path + '/' + labelnew_path1 = new_file_path + '/' + 'train' + '/' + 'labels'if not os.path.exists(new_path1):os.makedirs(new_path1)new_path = new_path1 + '/' + labelshutil.copy(old_path, new_path)for image in val_images:old_path = file_path + '/' + imagenew_path1 = new_file_path + '/' + 'val' + '/' + 'images'if not os.path.exists(new_path1):os.makedirs(new_path1)new_path = new_path1 + '/' + imageshutil.copy(old_path, new_path)for label in val_labels:old_path = xml_path + '/' + labelnew_path1 = new_file_path + '/' + 'val' + '/' + 'labels'if not os.path.exists(new_path1):os.makedirs(new_path1)new_path = new_path1 + '/' + labelshutil.copy(old_path, new_path)for image in test_images:old_path = file_path + '/' + imagenew_path1 = new_file_path + '/' + 'test' + '/' + 'images'if not os.path.exists(new_path1):os.makedirs(new_path1)new_path = new_path1 + '/' + imageshutil.copy(old_path, new_path)for label in test_labels:old_path = xml_path + '/' + labelnew_path1 = new_file_path + '/' + 'test' + '/' + 'labels'if not os.path.exists(new_path1):os.makedirs(new_path1)new_path = new_path1 + '/' + labelshutil.copy(old_path, new_path)if __name__ == '__main__':file_path = "D:/Files/dataSet/drone_images"xml_path = 'D:/Files/dataSet/drone_labels'new_file_path = "D:/Files/dataSet/droneData"split_data(file_path,xml_path, new_file_path, train_rate=0.7, val_rate=0.1, test_rate=0.2)

【yolov5】将标注好的数据集进行划分（附完整可运行python代码）

问题描述准备使用yolov5训练自己的模型，自己将下载的开源数据集按照自己的要求重新标注了一下，然后现在对其进行划分。问题分析划分数据集主要的步骤就是，首先要将数据集打乱顺序，然后按照一定的比例将其分为训练集&#xf…...

编程日记 2023/2/19 6:47:17

es-05分词器

文章目录分词器1 normalization：文档规范化,提高召回率2 字符过滤器（character filter）：分词之前的预处理，过滤无用字符3 令牌过滤器（token filter）：停用词、时态转换、大小写转换、…...

编程日记 2023/2/19 6:46:09

已解决zipfile.BadZipFile: File is not a zip file

已解决Python openpyxl 读取Excel文件，抛出异常zipfile.BadZipFile: File is not a zip file的正确解决，亲测有效！！！ 文章目录报错问题报错翻译报错原因解决方法联系博主免费帮忙解决报错报错问题一个小伙伴遇到问题跑…...

编程日记 2023/2/19 6:45:00

Mybatis源码分析：Mybatis的数据存储对象

前言：SQLSession是对JDBC的封装一：SQLSession和JDBC的对照说明左边是我们的客户端程序，右边是我们的MySQL数据仓，或者叫MySQL实例 Mybatis是对JDBC的封装，将JDBC封装成了一个核心的SQLSession对象 JDBC当中的核心对…...

编程日记 2023/2/19 6:43:51

学习 Python 之 Pygame 开发坦克大战（二）

学习 Python 之 Pygame 开发坦克大战（二）坦克大战的需求开始编写坦克大战1. 搭建主类框架2. 获取窗口中的事件3. 创建基类4. 初始化我方坦克类5. 完善我方坦克的移动5. 完善我方坦克的显示6. 在主类中加入我方坦克并完成坦克移动7. 初始化子弹类8. 完善子…...

编程日记 2023/2/19 6:42:41

短视频时代是靠什么赚钱的，介绍常见的5种方式，简单明了

目前，短视频越来越火热，大家都知道做短视频可以赚钱，那么究竟是靠什么赚钱的，又有几个人知道呢？短视频创业有个人、有团队，怎么实现团队的生存和发展。常见的几种变现方式有： 1、平台分成各…...

编程日记 2023/2/19 6:41:36

关于CentOS维护的几条简单命令

1、检查/etc/passwd这个文件里面有没有异常用户名2、通过命令top查看是否有异常进程，按M键对进程进行排序3、通过命令netstat -lnpt，查看是否有异常端口号4、通过命令ll -a /proc/PID，查看异常进程执行文件所在位置5、通过命令kill -9 PID&am…...

编程日记 2023/2/19 6:40:30

PoW 、PoS ， DPoS 算法

PoW 、PoS ， DPoS 算法在区块链领域，多采用 PoW 工作量证明算法、PoS 权益证明算法，以及 DPoS 代理权益证明算法，以上三种是业界主流的共识算法，这些算法与经典分布式一致性算法不同的是融入了经济学博弈的概念。 …...

编程日记 2023/2/19 6:39:22

远程调用RestTemplate远程调用RestTemplate方式调用存在的问题Http客户端Feign实现步骤自定义配置Feign优化Feign性能优化——连接池配置最佳实践RestTemplate远程调用 Bean // LoadBalancedpublic RestTemplate restTemplate(){return new RestTemplate();}Autowiredprivat…...

编程日记 2023/2/19 6:38:14

2023年全国最新二级建造师精选真题及答案1

百分百题库提供二级建造师考试试题、二建考试预测题、二级建造师考试真题、二建证考试题库等，提供在线做题刷题，在线模拟考试，助你考试轻松过关。 11.当事人未依照法律、行政法规规定办理租赁合同登记备案手续的，租赁合同&#xf…...

编程日记 2023/2/19 6:37:08

HydroD 实用教程（四）水动力模型

目录一、前言二、Hydro Properties2.1 Compartment Properties2.2 Rudder and Thruster2.3 Wind Properties三、Hydro Structure3.1 Load Cross Sections四、Loading Conditions4.1 Mass Model4.2 Second Order Surface Model4.3 Wadam Offbody Points4.4 Additional Matrices…...

编程日记 2023/2/19 6:36:01

vue项目第七天

项目中模块操做业务使用ajax（需要使用接口认证）修改封装的findData发送ajax请求管理员列表内部搜索业务复用之前的findData 方法即可实现整个查询业务。实现退出业务在下拉菜单上添加事件以及属性。用户退出登录，二次登录系统菜单可能不存在的…...

编程日记 2023/2/19 6:34:55

拂晓·微信机器人

前言本项目是基于千寻微信框架进行的功能开发，采用SpringBoot青云客机器人进行开发。千寻初衷是想开源一个框架的写法，并不是为了用来运营，因此功能不全，所以使用和适配前请查看是否与自己需求匹配。因此本文主要通过千寻客…...

编程日记 2023/2/19 6:33:49

React：Hooks工作机制

Hooks规则 React Hooks的使用，有两个规则： Hooks只能在函数组件中使用；不能在条件、循环或者嵌套函数中使用hook。确保每一次渲染中都按照同样的顺序被调用，import React, {useState } from "react"; export default function PersonalInfoComponent() {const […...

编程日记 2023/2/19 6:32:43

基于深度神经网络的3D模型合成【Transformer vs. CNN】

本文介绍用于3D模型合成的transformer网络与深度卷积网络。推荐：使用 NSDT场景设计器快速搭建 3D场景。 1、概述从单一视角合成 3D 数据是一种基本的人类视觉功能，这对计算机视觉算法来说极具挑战性，这是一个共识。但在 3D 传感器&#…...

编程日记 2023/2/19 6:31:36

前端面试题整理之HMTL篇（一）

HTML面试题（一） 前言： 面试题及答案解析，大部分来自网络整理，我自己做了一些简化，如果想了解的更多，可以搜索一下，前端面试题宝典微信公众号或者查百度，另外如果出现错误…...

编程日记 2023/2/19 6:28:09

【论文速递】ICLR2018 - 用于小样本语义分割的条件网络

【论文速递】ICLR2018 - 用于小样本语义分割的条件网络【论文原文】：CONDITIONAL NETWORKS FOR FEW-SHOT SEMANTIC SEGMENTATION（Workshop track - ICLR 2018） 【作者信息】：Kate Rakelly Evan Shelhamer Trevor Darrell Alexe…...

编程日记 2023/2/19 6:27:04

本地生成动漫风格 AI 绘画图像｜Stable Diffusion WebUI 的安装和局域网部署教程

Stable Diffusion WebUI 的安装和部署教程1. 简介2. 安装环境2.1 Windows2.2 Linux3. 运行4. 模型下载链接5. 局域网部署5.1 Windows5.2 Linux6. 其他资源1. 简介先放一张WebUI的图片生成效果图，以给大家学习的动力 ：） 怎么样，…...

编程日记 2023/2/19 6:25:58

用一行Python代码，为图片上水印版权！

今天一个朋友跟我吐槽：前段时间，我辛辛苦苦整理的一份XX攻略，分享给自己的一些朋友，结果今天看到有人堂而皇之地拿着这份攻略图片去引流，并声称是自己整理的，真是岂有此理！他自己总结吃一堑长一…...

编程日记 2023/2/19 6:24:48

java中的lambda表达式

java中的lambda表达式java中的lambda表达式语法参数的不同写法代码块的不同写法函数式接口运用方法引用object::instanceMethodClass::staticMethodClass::instanceMethod什么是lambda表达式？ 带参数变量的表达式。 java中的lambda表达式我对java中lambda表达式是这…...

编程日记 2023/2/19 6:23:41

《用户共鸣指数（E）驱动品牌大模型种草：如何抢占大模型搜索结果情感高地》

在注意力分散、内容高度同质化的时代，情感连接已成为品牌破圈的关键通道。我们在服务大量品牌客户的过程中发现，消费者对内容的“有感”程度，正日益成为影响品牌传播效率与转化率的核心变量。在生成式AI驱动的内容生成与推荐环境中&#xff0…...

编程新知 2026/2/2 1:48:09

Mac软件卸载指南，简单易懂！

刚和Adobe分手，它却总在Library里给你写"回忆录"？卸载的Final Cut Pro像电子幽灵般阴魂不散？总是会有残留文件，别慌！这份Mac软件卸载指南，将用最硬核的方式教你"数字分手术"&#xff0…...

编程新知 2026/2/7 0:48:56

C++中string流知识详解和示例

一、概览与类体系 C 提供三种基于内存字符串的流，定义在 <sstream> 中： std::istringstream：输入流，从已有字符串中读取并解析。std::ostringstream：输出流，向内部缓冲区写入内容，最终取…...

编程新知 2025/11/30 11:30:47

多模态大语言模型arxiv论文略读（108）

CROME: Cross-Modal Adapters for Efficient Multimodal LLM ➡️ 论文标题：CROME: Cross-Modal Adapters for Efficient Multimodal LLM ➡️ 论文作者：Sayna Ebrahimi, Sercan O. Arik, Tejas Nama, Tomas Pfister ➡️ 研究机构: Google Cloud AI Re…...

编程新知 2026/2/1 6:11:51

【JavaWeb】Docker项目部署

引言之前学习了Linux操作系统的常见命令，在Linux上安装软件，以及如何在Linux上部署一个单体项目，大多数同学都会有相同的感受，那就是麻烦。核心体现在三点： 命令太多了，记不住软件安装包名字复杂&…...

编程新知 2026/2/4 16:07:02

Spring数据访问模块设计

前面我们已经完成了IoC和web模块的设计，聪明的码友立马就知道了，该到数据访问模块了，要不就这俩玩个6啊，查库势在必行，至此，它来了。一、核心设计理念 1、痛点在哪应用离不开数据（数据库、No…...

编程新知 2026/2/4 16:13:50

C++ Visual Studio 2017厂商给的源码没有.sln文件易兆微芯片下载工具加开机动画下载。

1.先用Visual Studio 2017打开Yichip YC31xx loader.vcxproj，再用Visual Studio 2022打开。再保侟就有.sln文件了。易兆微芯片下载工具加开机动画下载 ExtraDownloadFile1Info.\logo.bin|0|0|10D2000|0 MFC应用兼容CMD 在BOOL CYichipYC31xxloaderDlg::OnIni…...

编程新知 2026/2/5 4:21:48

有限自动机到正规文法转换器v1.0

1 项目简介这是一个功能强大的有限自动机（Finite Automaton, FA）到正规文法（Regular Grammar）转换器，它配备了一个直观且完整的图形用户界面，使用户能够轻松地进行操作和观察。该程序基于编译原理中的经典…...

编程新知 2026/1/31 13:13:32

算法：模拟

1.替换所有的问号 1576. 替换所有的问号 - 力扣（LeetCode） 遍历字符串：通过外层循环逐一检查每个字符。遇到 ? 时处理： 内层循环遍历小写字母（a 到 z）。对每个字母检查是否满足： 与…...

编程新知 2026/1/25 10:01:01

MFC 抛体运动模拟：常见问题解决与界面美化

在 MFC 中开发抛体运动模拟程序时，我们常遇到轨迹残留、无效刷新、视觉单调、物理逻辑瑕疵等问题。本文将针对这些痛点，详细解析原因并提供解决方案，同时兼顾界面美化，让模拟效果更专业、更高效。问题一：历史轨迹与小球残影残留现象小球运动后，历史位置的 “残影”…...

编程新知 2026/1/29 12:12:12

【yolov5】将标注好的数据集进行划分（附完整可运行python代码）

问题描述

问题分析

步骤流程

1、将数据集打乱顺序

2、按照确定好的比例将两个列表元素分割

3、在本地生成文件夹，将划分好的数据集分别保存

运行结果展示

完整代码分享

相关文章：

【yolov5】将标注好的数据集进行划分（附完整可运行python代码）

es-05分词器

已解决zipfile.BadZipFile: File is not a zip file

Mybatis源码分析：Mybatis的数据存储对象

学习 Python 之 Pygame 开发坦克大战（二）

短视频时代是靠什么赚钱的，介绍常见的5种方式，简单明了

关于CentOS维护的几条简单命令

PoW 、PoS ， DPoS 算法

SpringCloud(PS)远程调用--Feign

2023年全国最新二级建造师精选真题及答案1

HydroD 实用教程（四）水动力模型

vue项目第七天

拂晓·微信机器人

React：Hooks工作机制

基于深度神经网络的3D模型合成【Transformer vs. CNN】

前端面试题整理之HMTL篇（一）

【论文速递】ICLR2018 - 用于小样本语义分割的条件网络

本地生成动漫风格 AI 绘画图像｜Stable Diffusion WebUI 的安装和局域网部署教程

用一行Python代码，为图片上水印版权！

java中的lambda表达式

《用户共鸣指数（E）驱动品牌大模型种草：如何抢占大模型搜索结果情感高地》

Mac软件卸载指南，简单易懂！

C++中string流知识详解和示例

多模态大语言模型arxiv论文略读（108）

【JavaWeb】Docker项目部署

Spring数据访问模块设计

C++ Visual Studio 2017厂商给的源码没有.sln文件易兆微芯片下载工具加开机动画下载。

有限自动机到正规文法转换器v1.0

算法：模拟

MFC 抛体运动模拟：常见问题解决与界面美化