当前位置：首页 > article >正文

将COCO格式的物体检测数据集划分训练集、验证集和测试集

article 2026/3/6 14:26:23

导入所需库

定义数据集路径

创建输出目录

读取JSON注释文件

随机打乱图像列表

计算划分大小

复制图像到相应文件夹

完整代码

导入所需库

我们需要以下Python库：

os：处理文件路径。

json：读取和写入JSON文件。

numpy：随机打乱图像列表。

shutil：复制图像文件。

import os
import json
import numpy as np
import shutil

定义数据集路径

设置数据集的根目录、图像文件夹和注释文件路径。

根目录："D:\\dataset"

图像文件夹："D:\\dataset\\images"

注释文件："D:\\dataset\\annotations.json"

# 数据集路径（请根据实际情况修改）
dataset_root = "D:\\dataset"
images_folder = os.path.join(dataset_root, "images")
annotations_path = os.path.join(dataset_root, "annotations.json")

创建输出目录

在根目录下创建output文件夹，并在其中创建out_train、out_val和out_test子文件夹。

# 输出路径
output_root = os.path.join(dataset_root, "output")
os.makedirs(output_root, exist_ok=True)

train_folder = os.path.join(output_root, "out_train")
val_folder = os.path.join(output_root, "out_val")
test_folder = os.path.join(output_root, "out_test")
os.makedirs(train_folder, exist_ok=True)
os.makedirs(val_folder, exist_ok=True)
os.makedirs(test_folder, exist_ok=True)

读取JSON注释文件

加载COCO格式的JSON文件，提取images（图像信息）、annotations（标注信息）和categories（类别信息）。

# 读取注释文件
with open(annotations_path, "r") as f:
annotations_data = json.load(f)

# 提取数据
images = annotations_data["images"]
annotations = annotations_data["annotations"]
categories = annotations_data["categories"]

随机打乱图像列表

使用numpy随机打乱图像列表，确保划分的随机性。

# 随机打乱图像列表
np.random.shuffle(images)

计算划分大小

根据图像总数和比例计算训练集和测试集的大小：

假设图像总数为N。

训练集：N * 0.8。

验证集：N * 0.0 = 0。

测试集：N * 0.2。

# 定义划分比例
train_ratio, val_ratio, test_ratio = 0.8, 0, 0.2

# 计算大小
num_images = len(images)
num_train = int(num_images * train_ratio)
num_val = int(num_images * val_ratio) # 将为0

# 划分图像
train_images = images[:num_train]
val_images = images[num_train:num_train + num_val] # 空列表
test_images = images[num_train + num_val:]

复制图像到相应文件夹

将训练集和测试集的图像复制到对应的文件夹。

# 复制图像
for img in train_images:
shutil.copy(os.path.join(images_folder, img["file_name"]),
os.path.join(train_folder, img["file_name"]))

for img in val_images: # 不会执行
shutil.copy(os.path.join(images_folder, img["file_name"]),
os.path.join(val_folder, img["file_name"]))

for img in test_images:
shutil.copy(os.path.join(images_folder, img["file_name"]),
os.path.join(test_folder, img["file_name"]))

完整代码

以下是完整的Python脚本：

import os
import json
import numpy as np
import shutil# 数据集路径（请根据实际情况修改）
dataset_root = "D:\\dataset"
images_folder = os.path.join(dataset_root, "images")
annotations_path = os.path.join(dataset_root, "annotations.json")# 输出路径
output_root = os.path.join(dataset_root, "output")
os.makedirs(output_root, exist_ok=True)train_folder = os.path.join(output_root, "out_train")
val_folder = os.path.join(output_root, "out_val")
test_folder = os.path.join(output_root, "out_test")
os.makedirs(train_folder, exist_ok=True)
os.makedirs(val_folder, exist_ok=True)
os.makedirs(test_folder, exist_ok=True)# 读取注释文件
with open(annotations_path, "r") as f:annotations_data = json.load(f)# 提取数据
images = annotations_data["images"]
annotations = annotations_data["annotations"]
categories = annotations_data["categories"]# 随机打乱图像列表
np.random.shuffle(images)# 定义划分比例
train_ratio, val_ratio, test_ratio = 0.8, 0, 0.2# 计算大小
num_images = len(images)
num_train = int(num_images * train_ratio)
num_val = int(num_images * val_ratio)# 划分图像
train_images = images[:num_train]
val_images = images[num_train:num_train + num_val]
test_images = images[num_train + num_val:]# 复制图像
for img in train_images:shutil.copy(os.path.join(images_folder, img["file_name"]), os.path.join(train_folder, img["file_name"]))for img in val_images:shutil.copy(os.path.join(images_folder, img["file_name"]), os.path.join(val_folder, img["file_name"]))for img in test_images:shutil.copy(os.path.join(images_folder, img["file_name"]), os.path.join(test_folder, img["file_name"]))# 函数：过滤注释
def filter_annotations(annotations, image_ids):return [ann for ann in annotations if ann["image_id"] in image_ids]# 获取image_ids
train_image_ids = [img["id"] for img in train_images]
val_image_ids = [img["id"] for img in val_images]
test_image_ids = [img["id"] for img in test_images]# 过滤注释
train_ann = filter_annotations(annotations, train_image_ids)
val_ann = filter_annotations(annotations, val_image_ids)
test_ann = filter_annotations(annotations, test_image_ids)# 创建JSON字典
train_json = {"images": train_images, "annotations": train_ann, "categories": categories}
val_json = {"images": val_images, "annotations": val_ann, "categories": categories}
test_json = {"images": test_images, "annotations": test_ann, "categories": categories}# 写入JSON文件
with open(os.path.join(output_root, "out_train.json"), "w") as f:json.dump(train_json, f)
with open(os.path.join(output_root, "out_val.json"), "w") as f:json.dump(val_json, f)
with open(os.path.join(output_root, "out_test.json"), "w") as f:json.dump(test_json, f)print("数据集划分完成！")

将COCO格式的物体检测数据集划分训练集、验证集和测试集

目录导入所需库定义数据集路径创建输出目录读取JSON注释文件随机打乱图像列表计算划分大小复制图像到相应文件夹完整代码导入所需库我们需要以下Python库： os：处理文件路径。 json：读取和写入JSON文件。 numpy&#xff…...

编程日记 2026/2/22 1:19:14

机器学习之距离度量方法

常见的距离度量方法及相关函数、图示如下： 1. 欧几里得距离（Euclidean Distance）函数公式：对于两个 ( n ) 维向量 ( x = ( x 1 , x 2 , ⋯ ,...

编程日记 2026/2/16 2:47:28

3.1 在VisionPro脚本中添加CogGraphicLabel

本案例需要实现如下功能： 1.加载toolBlock 2.加载图片， 3.运行Block 4.VisionPro中添加脚本显示数值。见下图：详细代码（C#以及visionPro）见下面链接： https://download.csdn.net/download/qq_340474…...

编程日记 2026/2/14 18:29:56

自动化APP测试APPium的元素等待

在使用Appium进行移动应用自动化测试时，有三种等待。隐式等待driver.implicitly_wait() 显式等待（常用） time.sleep() 隐式等待（Implicit Wait） 应用场景： 当你希望对所有元素定位操作设置统一的超时…...

编程日记 2026/2/15 20:37:11

AI：Machine Learning Data Science

机器学习与数据科学左侧机器学习 Machine Learning 机器学习是一门多领域交叉学科，涉及概率论、统计学、逼近论、凸分析、算法复杂度理论等多门学科。专门研究计算机怎样模拟或实现人类的学习行为，以获取新的知识或技能，重新组织已有的知…...

编程日记 2026/3/4 16:43:17

软件需求分类、需求获取（高软46）

系列文章目录软件需求分类，需求获取文章目录系列文章目录前言一、软件需求二、获取需求三、真题总结前言本节讲明软件需求分类、需求获取的相关知识。一、软件需求二、获取需求三、真题总结就是高软笔记，大佬请略过！...

编程日记 2026/3/6 1:16:01

vue3vue-elementPlus-admin框架中form组件的upload写法

dialog中write组件代码 let ImageList reactive<UploadFile[]>([])const formSchema reactive<FormSchema[]>([{field: ImageFiles,label: 现场图片,component: Upload,colProps: { span: 24 },componentProps: {limit: 5,action: PATH_URL /upload,headers: {…...

编程日记 2026/2/16 8:46:28

嵌入式Linux | 什么是 BootLoader、Linux 内核（kernel）、和文件系统?

01 什么是 BootLoader 呢？ 它是个引导程序，也就是硬件复位以后第一个要执行的程序，它主要工作就是初始化操作系统运行的环境，比如说内存、定时器、缓冲器等，当这个工作做完以后，再把操作系统的代码加载…...

编程日记 2026/2/19 22:30:12

【ARM中R0寄存器】

ARM中R0寄存器 1 RO介绍1.1 R0 的主要作用1 函数返回值2 函数参数3 通用寄存器4 与其他寄存器的区别 1.2 示例 1 RO介绍在ARM架构中，R0寄存器是一个通用寄存器；是16 个通用寄存器（R0 到 R15）中的第一个，通常用于存储…...

编程日记 2026/2/13 23:00:33

【JDK17】Jlink一秒生成精简的JRE

之前介绍了 Java17模块化的JDK，模块化后按需使用Jlink 用于精简生成 JRE 环境，这让快速的开发环境增强了编码的愉悦感。在实际生产环境中使用 mave 进行项目的构建，其次再是精简 JRE 缩小容器镜像体积，为实现一体化的流程&#xf…...

编程日记 2025/11/20 11:16:48

【第9章】亿级电商平台订单系统-整体技术架构设计

1-1 本章导学课程主题：系统蓝图描绘与整体技术架构设计核心学习内容： ▶️ 订单系统的整体技术架构设计 ▶️ 架构设计核心方法论与实践应用本章核心内容架构 1. 技术预研架构设计的基础支撑环节关键技术可行性分析与选型依据2. 整体技术架构设计方法与步骤结构化设计方法…...

编程日记 2026/2/27 13:33:59

函数（函数的概念、库函数、自定义函数、形参和实参、return语句、数组做函数参数、嵌套调用和链式访问、函数的声明和定义、static和extern）

一、函数的概念 •C语⾔中的函数：⼀个完成某项特定的任务的⼀⼩段代码 •函数又被翻译为子函数（更准确） •在C语⾔中我们⼀般会⻅到两类函数：库函数⾃定义函数二、库函数 1 .标准库和头文件 •C语⾔的国际标准ANSIC规定了⼀…...

编程日记 2026/3/4 13:09:54

AGI大模型（6）：提示词模型进阶

1 零样本提示如今，经过⼤量数据训练并调整指令的LLM能够执⾏零样本任务。代码如下： from openai import OpenAI from dotenv import load_dotenv load_dotenv() # 初始化 OpenAI 服务。 client = OpenAI()prompt = """ 将⽂本分类为中性、负⾯或正⾯。⽂…...

编程日记 2026/2/22 16:22:05

ImGui 学习笔记（五） —— 字体文件加载问题

ImGui 加载字体文件的函数似乎存在编码问题，这一点可能跟源文件的编码也有关系，我目前源文件编码是 UTF-16。当参数中包含中文字符时，ImGui 内部将字符转换为宽字符字符集时候，采用的 MultiByteToWideChar API 参数不太对&#…...

编程日记 2026/3/3 5:43:54

OpenCV计算摄影学（20）非真实感渲染之增强图像的细节函数detailEnhance()

操作系统：ubuntu22.04 OpenCV版本：OpenCV4.9 IDE:Visual Studio Code 编程语言：C11 算法描述此滤波器增强特定图像的细节。 cv::detailEnhance用于增强图像的细节，通过结合空间域和频率域的处理，提升图像中特定细节…...

编程日记 2026/3/5 15:27:25

Android PC 要来了？Android 16 Beta3 出现 Enable desktop experience features 选项

在之前的《Android 桌面窗口新功能推进》我们就聊过，Google 就一直在努力改进 Android 的内置桌面模式，例如添加了适当的窗口标题、捕捉窗口的能力、悬停选项、窗口大小调整、最小化支持、app-to-web 等。比如在搭载 Android 15 QPR 1 Beta 2 的 Pix…...

编程日记 2026/3/5 23:50:44

数据集格式转换——json2txt、xml2txt、txt2json【复制就能用】

秋招面试专栏推荐：深度学习算法工程师面试问题总结【百面算法工程师】——点击即可跳转 💡💡💡本专栏所有程序均经过测试，可成功执行💡💡💡 专栏地址：YOLO11入门 + 改进涨点——点击即可跳转欢迎订阅目录 json2txt脚本 xml2txt txt2json...

编程日记 2026/2/15 18:17:48

Git常用操作之GitLab

Git常用操作之GitLab 小薛博客官网：小薛博客Git常用操作之GitLab官方地址 1、GitLab安装 https://gitlab.cn/install/ 1、Docker安装GitLab https://docs.gitlab.cn/jh/install/docker.html 1、设置卷位置在设置其他所有内容之前，请配置一个新的…...

编程日记 2026/3/5 5:34:28

【商城实战(33)】解锁版本迭代与更新策略

【商城实战】专栏重磅来袭！这是一份专为开发者与电商从业者打造的超详细指南。从项目基础搭建，运用 uniapp、Element Plus、SpringBoot 搭建商城框架，到用户、商品、订单等核心模块开发，再到性能优化、安全加固、多端适配&#xf…...

编程日记 2026/2/19 0:16:26

强化学习 - PPO控制无人机

PPO（Proximal Policy Optimization，近端策略优化）是一种强化学习算法，用于训练智能体（无人机）如何在环境中做出决策。它本质上是策略梯度（Policy Gradient）方法的一种改进&#xf…...

编程日记 2026/2/15 16:34:45

QT 磁盘文件教程03-创建、删除、复制文件

【1】新建文件 bool CreateFile(QString name){QString fileName name ; //"文件绝对路径名"QFile file(fileName);QFileInfo fileInfo(file);QString fileExtension fileInfo.suffix();if(fileExtension.isEmpty()) {fileName".txt";}file.setFileName…...

编程日记 2026/2/15 7:06:17

Netty基础—NIO的使用简介

1.Buffer缓冲区 (1)Buffer缓冲区的作用在NIO中，所有的数据都是通过使用Buffer缓冲区来处理的。如果要通过NIO，将数据写到文件和网络或从文件和网络中读取数据，那么就需要使用Buffer缓冲区来进行处理。 (2)Buffer缓冲区的4个核心概念 Buffer缓…...

编程日记 2026/3/4 9:10:14

Matlab 汽车ABS实现模糊pid和pid控制

1、内容简介 Matlab 181-汽车ABS实现模糊pid和pid控制可以交流、咨询、答疑 2、内容说明略实现汽车防抱死制动系统（ABS）的控制算法，通常涉及到传统的PID控制和模糊PID控制两种方法。下面将分别介绍这两种控制策略的基本概念以及如何在M…...

编程日记 2026/3/2 15:43:03

驾驭数据洪流：实时数据分析与流处理技术的革命

驾驭数据洪流：实时数据分析与流处理技术的革命在现代社会，数据不再是冷冰冰的存储单位，而是实时运转的“生命体”。从电商交易监控、社交媒体互动，到自动驾驶决策，我们正被无数实时数据所包围。与此同时，实时数据分析和流处理技术应运而生，成为解决这一时代难题的关键…...

编程日记 2026/2/14 17:43:19

Muon: An optimizer for hidden layers in neural networks

引言在深度学习领域，优化算法对模型训练效率和性能起着关键作用。从经典的随机梯度下降 (SGD) 及其动量法，到自适应优化方法 Adam/AdamW 等，一系列优化器大大加速了神经网络的收敛。然而，随着模型规模和数据量的爆炸式增长&…...

编程日记 2026/2/28 15:35:16

网络安全运维应急响应与溯源分析实战案例

在日常运维过程中，网络安全事件时有发生，快速响应和精准溯源是保障业务稳定运行的关键。本文将通过一个实际案例，详细解析从发现问题到溯源定位，再到最终解决的完整流程。目录一、事件背景二、事件发现 1. 监控告警触发 2…...

编程日记 2026/2/24 3:36:38

【VSCODE 插件可视化】：SVG 编辑插件 SVG Editor

插件下载 svgeditor 创建文件 Windows/Linux 快捷键 Ctrl Shift P 打开VSCODE 命令面板查找 New File With Svg Editor 编辑文件保存文件打开文件以继续编辑 CG 选中多个：shift单击没找到横向分布功能无法用键盘微调位置...

编程日记 2026/3/2 9:27:36

Cursor插件市场打不开解决

问题现象： cursor搜索插件的时候提示错误，无法搜索安装插件 error while fetching extensions.failed to fetch 问题原因 cursor默认安装使用的并不是vs code的插件市场，国内网络有时候打不开解决修改插件市场地址并重启cursor 打开cur…...

编程日记 2026/3/6 3:11:51

嵌入式开发之STM32学习笔记day06

基于STM32F103C8T6的开发实践——从入门到精通01 1. 引言 STM32系列微控制器是STMicroelectronics推出的一款高性能、低功耗的32位微控制器，广泛应用于嵌入式系统中。STM32F103C8T6是其中非常受欢迎的一款，凭借其强大的性能、丰富的外设接口和低廉的价格…...

编程日记 2026/2/17 22:36:22

K8S学习之基础三十五：k8s之Prometheus部署模式

Prometheus 有多种部署模式，适用于不同的场景和需求。以下是几种常见的部署模式： 1. 单节点部署这是最简单的部署模式，适用于小型环境或测试环境。特点： 单个 Prometheus 实例负责所有的数据采集、存储和查询。配置简单&…...

编程日记 2026/3/1 8:41:04

导入所需库

定义数据集路径

创建输出目录

读取JSON注释文件

随机打乱图像列表

计算划分大小

复制图像到相应文件夹

完整代码

相关文章：