当前位置: 首页 > article >正文

保姆级教程:用Python脚本将Animal Pose数据集一键转成YOLO格式(含关键点)

从零实现Animal Pose数据集到YOLO格式的完整转换指南当你第一次打开Animal Pose数据集时面对那些密密麻麻的JSON标注文件是否感到无从下手别担心这篇文章将带你一步步完成从COCO格式到YOLO格式的完整转换过程包括处理那些令人头疼的图片格式混杂和关键点坐标越界问题。1. 准备工作与环境配置在开始转换之前我们需要确保所有必要的工具和库已经就位。这个阶段看似简单但却是整个流程顺利进行的基础。首先创建一个干净的Python虚拟环境是个好习惯python -m venv animalpose_env source animalpose_env/bin/activate # Linux/Mac # 或者 animalpose_env\Scripts\activate # Windows接下来安装必要的依赖库pip install pillow tqdm numpy提示建议使用Python 3.8或更高版本以避免潜在的兼容性问题。数据集下载后你的文件夹结构应该如下animal-pose-dataset/ ├── annotations/ │ ├── keypoints.json ├── images/ │ ├── 000001.jpg │ ├── 000002.jpeg │ └── ...2. 理解数据集结构与YOLO格式要求Animal Pose数据集包含5类动物狗、猫、牛、马、羊的20个关键点标注。每个关键点包含x、y坐标和可见性标志0不可见1可见2遮挡。YOLO格式要求每个图像对应一个.txt文件每行包含class_id x_center y_center width height x1 y1 v1 ... x20 y20 v20其中所有坐标都是相对于图像宽高的归一化值0-1之间。3. 核心转换代码实现让我们逐步构建转换脚本。首先创建一个convert_animalpose_to_yolo.py文件import os import json from tqdm import tqdm import argparse from PIL import Image def parse_args(): parser argparse.ArgumentParser() parser.add_argument(--json_path, requiredTrue, helpCOCO格式的JSON标注文件路径) parser.add_argument(--img_dir, requiredTrue, help原始图片所在目录) parser.add_argument(--save_dir, requiredTrue, helpYOLO格式标签保存目录) return parser.parse_args() def convert_bbox(size, box): 将COCO格式的bbox转换为YOLO格式 dw 1.0 / size[0] dh 1.0 / size[1] x_center (box[0] box[2]) / 2.0 y_center (box[1] box[3]) / 2.0 width box[2] - box[0] height box[3] - box[1] return [ round(x_center * dw, 6), round(y_center * dh, 6), round(width * dw, 6), round(height * dh, 6) ] def convert_keypoints(size, keypoints): 处理关键点坐标确保在0-1范围内 normalized [] for i in range(0, len(keypoints), 3): x min(1.0, max(0.0, keypoints[i] / size[0])) y min(1.0, max(0.0, keypoints[i1] / size[1])) v keypoints[i2] normalized.extend([round(x, 6), round(y, 6), int(v)]) return normalized4. 处理实际工程中的坑点在实际操作中你会遇到几个常见问题图片格式混杂问题数据集包含.jpg、.jpeg和.png格式图片关键点坐标越界部分标注点超出图像边界路径配置问题不同操作系统路径分隔符差异4.1 统一图片格式解决方案创建一个convert_images.bat文件Windows或convert_images.shLinux/Macecho off for %%i in (*.jpeg) do ( ren %%i %%~ni.jpg ) for %%i in (*.png) do ( mogrify -format jpg %%i del %%i )注意需要先安装ImageMagick来使用mogrify命令4.2 主转换逻辑实现继续完善我们的Python脚本def main(): args parse_args() # 创建保存目录 os.makedirs(args.save_dir, exist_okTrue) # 加载COCO格式标注 with open(args.json_path) as f: data json.load(f) # 创建类别映射 category_map {cat[id]: idx for idx, cat in enumerate(data[categories])} # 保存类别文件 with open(os.path.join(args.save_dir, classes.txt), w) as f: f.write(\n.join([cat[name] for cat in data[categories]])) # 处理每张图片 for img_info in tqdm(data[images], descProcessing images): img_path os.path.join(args.img_dir, img_info[file_name]) try: with Image.open(img_path) as img: width, height img.size except FileNotFoundError: print(fWarning: {img_path} not found, skipping) continue # 为每张图片创建对应的标签文件 txt_path os.path.join(args.save_dir, os.path.splitext(img_info[file_name])[0] .txt) with open(txt_path, w) as f_txt: # 找到该图片的所有标注 annotations [ann for ann in data[annotations] if ann[image_id] img_info[id]] for ann in annotations: # 转换边界框 bbox convert_bbox((width, height), ann[bbox]) # 转换关键点 keypoints convert_keypoints((width, height), ann[keypoints]) # 写入YOLO格式行 line [str(category_map[ann[category_id]])] \ [str(x) for x in bbox] \ [str(x) for x in keypoints] f_txt.write( .join(line) \n) if __name__ __main__: main()5. 验证转换结果转换完成后我们需要验证生成的文件是否正确。以下是一个简单的验证脚本import os import random from PIL import Image, ImageDraw def visualize_yolo_label(img_path, label_path, class_names): 可视化YOLO格式的标签 img Image.open(img_path) draw ImageDraw.Draw(img) w, h img.size with open(label_path) as f: for line in f: parts line.strip().split() class_id int(parts[0]) bbox list(map(float, parts[1:5])) keypoints list(map(float, parts[5:])) # 绘制边界框 x_center, y_center, width, height bbox x1 (x_center - width/2) * w y1 (y_center - height/2) * h x2 (x_center width/2) * w y2 (y_center height/2) * h draw.rectangle([x1, y1, x2, y2], outlinered, width2) # 绘制关键点 for i in range(0, len(keypoints), 3): x keypoints[i] * w y keypoints[i1] * h v int(keypoints[i2]) color green if v 0 else gray draw.ellipse([x-3, y-3, x3, y3], fillcolor) return img # 随机选择一张图片进行可视化 label_dir path_to_yolo_labels img_dir path_to_images class_names [dog, cat, cow, horse, sheep] label_files os.listdir(label_dir) sample_file random.choice(label_files) img_file os.path.splitext(sample_file)[0] .jpg visual_img visualize_yolo_label( os.path.join(img_dir, img_file), os.path.join(label_dir, sample_file), class_names ) visual_img.show()6. 高级技巧与优化建议6.1 批量处理脚本优化对于大型数据集可以考虑使用多进程加速处理from multiprocessing import Pool def process_image(args): img_info, data, img_dir, save_dir, category_map args # ...处理逻辑与之前相同... if __name__ __main__: args parse_args() # ...初始化代码... # 多进程处理 with Pool(processesos.cpu_count()) as pool: tasks [(img, data, args.img_dir, args.save_dir, category_map) for img in data[images]] list(tqdm(pool.imap(process_image, tasks), totallen(tasks)))6.2 数据集分割通常需要将数据集分为训练集、验证集和测试集import random from sklearn.model_selection import train_test_split def split_dataset(label_dir, output_dir, test_size0.2, val_size0.1): all_files [f for f in os.listdir(label_dir) if f.endswith(.txt)] random.shuffle(all_files) # 先分测试集 train_val, test train_test_split(all_files, test_sizetest_size) # 再从剩余中分验证集 train, val train_test_split(train_val, test_sizeval_size/(1-test_size)) # 写入划分文件 for name, files in [(train, train), (val, val), (test, test)]: with open(os.path.join(output_dir, f{name}.txt), w) as f: f.write(\n.join([f./images/{name}/{os.path.splitext(f)[0]}.jpg for f in files]))6.3 数据增强考虑在转换过程中可以考虑添加一些简单的数据增强def apply_augmentation(img_info, bbox, keypoints): 简单的数据增强示例 # 随机水平翻转 if random.random() 0.5: width img_info[width] bbox flip_bbox(bbox, width) keypoints flip_keypoints(keypoints, width) # 随机调整亮度/对比度 # ... return bbox, keypoints def flip_bbox(bbox, img_width): x_center, y_center, w, h bbox new_x 1.0 - x_center return [new_x, y_center, w, h] def flip_keypoints(keypoints, img_width): flipped [] for i in range(0, len(keypoints), 3): x 1.0 - keypoints[i] flipped.extend([x, keypoints[i1], keypoints[i2]]) return flipped7. 实际训练准备转换完成后你的目录结构应该如下yolo_animal_pose/ ├── images/ │ ├── train/ │ │ ├── 000001.jpg │ │ └── ... │ ├── val/ │ │ ├── 000101.jpg │ │ └── ... ├── labels/ │ ├── train/ │ │ ├── 000001.txt │ │ └── ... │ ├── val/ │ │ ├── 000101.txt │ │ └── ... ├── train.txt ├── val.txt └── classes.txt创建YOLO训练配置文件animal_pose.yaml:# 训练/验证数据路径 train: ./yolo_animal_pose/train.txt val: ./yolo_animal_pose/val.txt # 类别数量 nc: 5 # 类别名称 names: [dog, cat, cow, horse, sheep] # 关键点配置 kpt_shape: [20, 3] # 20个关键点每个点(x,y,visibility) flip_idx: [2,1, 4,3, 6,5, 8,7, 10,9, 12,11, 14,13, 16,15, 18,17, 20,19] # 对称关键点索引现在你就可以使用YOLOv8-Pose等模型开始训练了yolo pose train dataanimal_pose.yaml modelyolov8n-pose.pt epochs100 imgsz640

相关文章:

保姆级教程:用Python脚本将Animal Pose数据集一键转成YOLO格式(含关键点)

从零实现Animal Pose数据集到YOLO格式的完整转换指南 当你第一次打开Animal Pose数据集时,面对那些密密麻麻的JSON标注文件,是否感到无从下手?别担心,这篇文章将带你一步步完成从COCO格式到YOLO格式的完整转换过程,包括…...

WarcraftHelper:魔兽争霸3现代硬件兼容性终极解决方案

WarcraftHelper:魔兽争霸3现代硬件兼容性终极解决方案 【免费下载链接】WarcraftHelper Warcraft III Helper , support 1.20e, 1.24e, 1.26a, 1.27a, 1.27b 项目地址: https://gitcode.com/gh_mirrors/wa/WarcraftHelper 还在为经典游戏《魔兽争霸3》在现代…...

ESP32-C3 AWS IoT ExpressLink模块开发指南

1. ESP32-C3 AWS IoT ExpressLink模块与开发套件深度解析当我在2023年初第一次接触到ESP32-C3 AWS IoT ExpressLink模块时,立刻意识到这可能是物联网开发者一直在等待的"即插即用"解决方案。作为一位经历过无数次IoT设备云端对接痛苦的开发者,…...

别再傻傻分不清了!CODESYS编程中FUN、FB、PRG到底怎么选?附实战场景对比

CODESYS编程实战指南:FUN、FB、PRG的选择逻辑与场景化应用 在工业自动化领域,CODESYS作为一款强大的PLC编程工具,其程序组织单元(POU)的设计理念直接影响着工程师的编程效率和系统可靠性。对于刚接触CODESYS的开发者来说,面对FUN(…...

Beyond Compare 5企业级授权管理实战指南:3种密钥生成与部署方案

Beyond Compare 5企业级授权管理实战指南:3种密钥生成与部署方案 【免费下载链接】BCompare_Keygen Keygen for BCompare 5 项目地址: https://gitcode.com/gh_mirrors/bc/BCompare_Keygen Beyond Compare 5作为业界领先的文件对比工具,其授权管理…...

OpenCore Legacy Patcher:让老款Mac重获新生的三大核心功能

OpenCore Legacy Patcher:让老款Mac重获新生的三大核心功能 【免费下载链接】OpenCore-Legacy-Patcher Experience macOS just like before 项目地址: https://gitcode.com/GitHub_Trending/op/OpenCore-Legacy-Patcher 还在为手中的老款Mac无法升级最新macO…...

ARM926EJ-S PXP芯片时钟架构与复位系统解析

1. ARM926EJ-S PXP开发芯片时钟架构解析 1.1 多时钟域设计原理 ARM926EJ-S PXP开发芯片采用典型的多时钟域设计,这种架构在现代嵌入式系统中非常普遍。多时钟域设计的核心思想是根据不同功能模块的性能需求和功耗考虑,为其提供独立的时钟源。这种设计主…...

基于MCP协议构建AI记忆系统:从向量检索到生产部署全解析

1. 项目概述:AI记忆系统的核心价值最近在折腾AI应用开发,特别是想让AI助手能记住我们之前的对话,实现更连贯、个性化的交互。这听起来简单,但真做起来,你会发现“记忆”功能是区分一个玩具级AI和一个真正有用助手的关键…...

qmc-decoder:解锁QQ音乐专属格式的完整解决方案,3分钟实现音频自由

qmc-decoder:解锁QQ音乐专属格式的完整解决方案,3分钟实现音频自由 【免费下载链接】qmc-decoder Fastest & best convert qmc 2 mp3 | flac tools 项目地址: https://gitcode.com/gh_mirrors/qm/qmc-decoder 你是否曾因QQ音乐下载的歌曲无法…...

把ESP32-CAM玩出花:除了局域网监控,它还能做这5个有趣项目

解锁ESP32-CAM的隐藏玩法:5个突破性项目实战指南 如果你已经用ESP32-CAM搭建过基础的监控系统,那么是时候探索这个微型开发板更令人兴奋的可能性了。这款集成了Wi-Fi、蓝牙和摄像头的多功能模块,其潜力远不止于简单的视频监控。让我们深入五个…...

不止于计算器:用C++的ExprTk库给你的应用嵌入一个“迷你脚本引擎”

不止于计算器:用C的ExprTk库给你的应用嵌入一个“迷你脚本引擎” 在游戏开发、工业仿真或数据分析工具中,我们常常遇到这样的需求:如何让最终用户在不修改核心代码的情况下,自定义业务规则?传统解决方案要么依赖完整的…...

Docker怎么快速入门?实操教程有哪些步骤?

新手入门 Docker 最推荐从安装 Docker Desktop 开始,先在本地跑通 hello-world 测试镜像,再逐步学习镜像拉取、容器运行和基础命令,适合想快速体验容器化技术的开发者和运维人员。先说结论:Docker 入门不需要先啃原理,…...

Java科学可视化框架设计与线程安全实践

1. Java科学可视化框架设计背景科学计算可视化在现代工程与科研领域扮演着关键角色。想象一下,当你需要分析五万个气体粒子的扩散过程时,密密麻麻的数据表格远不如动态的3D可视化来得直观有效。这正是我们设计这个Java科学可视化框架的初衷——将复杂的数…...

Atlas200I DK A2内核编译避坑记:手动为AX210网卡定制驱动模块

Atlas200I DK A2内核编译实战:为AX210网卡定制驱动的完整指南 当Atlas200I DK A2开发板遇到Intel AX210无线网卡时,官方内核的缺失让许多开发者陷入困境。这不是简单的驱动安装问题,而是一场从内核源码到硬件适配的深度技术探险。本文将带你…...

百度网盘直链解析工具:3步告别限速,实现高速下载

百度网盘直链解析工具:3步告别限速,实现高速下载 【免费下载链接】baidu-wangpan-parse 获取百度网盘分享文件的下载地址 项目地址: https://gitcode.com/gh_mirrors/ba/baidu-wangpan-parse 你是否曾因百度网盘非会员下载速度太慢而焦虑&#xf…...

AI写作质量与安全扫描:OpenClaw智能审查技能的设计与应用

1. 项目概述:一个为AI写作任务而生的“质检员”在AI辅助写作日益普及的今天,无论是生成代码注释、撰写技术文档,还是创作营销文案,我们常常面临一个共同的痛点:如何确保AI生成的内容不仅“能用”,而且“好用…...

WechatDecrypt:三步解密微信聊天记录,重获你的数字记忆宝库

WechatDecrypt:三步解密微信聊天记录,重获你的数字记忆宝库 【免费下载链接】WechatDecrypt 微信消息解密工具 项目地址: https://gitcode.com/gh_mirrors/we/WechatDecrypt 在数字时代,我们的聊天记录不仅仅是文字,更是情…...

Go语言实现轻量级HTTP代理1proxy:部署、配置与性能调优指南

1. 项目概述:一个轻量级HTTP代理的诞生最近在折腾一些需要网络请求隔离或者调试的场景,比如本地开发时模拟不同地区的网络环境,或者自动化脚本需要稳定的请求出口,一个靠谱的HTTP代理就成了刚需。市面上的代理软件要么太重&#x…...

18_AI视频创作必存:14种新增创意运镜的视觉实验与提示词库

在 AI 视频创作中,创意运镜是打破物理法则的视觉特效。 当常规镜头不足以表达你的想象力时,这14种运镜方法将让你的画面拥有动态模糊的速度诗、水彩水墨的东方魂、漫画分镜的叙事趣、以及时间冻结的哲学感。 🔥 深度拆解 精选篇 1. 动态模糊运镜与旋转模糊运镜(Motion B…...

SAP Migration Cockpit实战:手把手教你搞定物料主数据迁移(附Excel模板避坑指南)

SAP Migration Cockpit实战:物料主数据迁移全流程与Excel模板避坑指南 每次接手新的SAP实施项目,数据迁移总是让顾问们既期待又忐忑。作为系统切换的核心环节,物料主数据的迁移质量直接影响后续业务流程的顺畅度。最近在帮一家制造业客户实施…...

GPT-4 API应用开发实战:从零构建智能对话系统

1. 项目概述:一个开源GPT-4接口项目的深度解构 最近在GitHub上看到一个名为“anupammaurya6767/GPT4”的项目,这个标题乍一看挺有意思。它不像是一个官方的OpenAI项目,更像是一个开发者基于个人兴趣或特定需求搭建的接口封装或应用。作为一名…...

不止是Move命令:用Python脚本给你的Windows文件管理加上‘智能过滤’开关

用Python打造智能文件管家:超越基础Move命令的高级筛选方案 每次整理电脑文件时,你是否厌倦了重复的拖拽操作?当需要移动包含"报告"但不含"草稿"的Word文档,或者上周修改过的所有图片时,基础的mov…...

WLP封装技术解析与可靠性测试实践

1. WLP封装技术解析:从硅片到PCB的直接互联 晶圆级封装(Wafer-Level Packaging, WLP)作为芯片级封装(Chip Scale Package, CSP)技术的典型代表,正在重塑现代电子器件的集成方式。与传统封装工艺不同&#x…...

新手开发者首次使用 Taotoken 完成从注册到调用的全流程体验

新手开发者首次使用 Taotoken 完成从注册到调用的全流程体验 1. 注册与初始准备 作为一名刚接触大模型开发的新手,我首先访问了 Taotoken 的官方网站。注册流程非常直观,只需要提供邮箱和设置密码即可完成账号创建。登录后,控制台的布局简洁…...

智能图像浏览解决方案:零配置高效看图助手

智能图像浏览解决方案:零配置高效看图助手 【免费下载链接】ImageGlass 🏞 A lightweight, versatile image viewer 项目地址: https://gitcode.com/gh_mirrors/im/ImageGlass 还在为Windows图片查看器功能单一而烦恼?ImageGlass作为一…...

AutoGPT-Next-Web:一键部署个人AI智能体Web应用全攻略

1. 项目概述与核心价值 最近在折腾AI智能体应用,发现了一个宝藏项目——AutoGPT-Next-Web。简单来说,它就是一个能让你一键部署个人专属AutoGPT网页界面的工具。想象一下,你有一个能自己思考、规划并执行任务的AI助手,现在通过这个…...

Clawthority:为AI代理构建代码级安全护栏的插件式策略引擎

1. 项目概述:为AI代理装上“安全护栏”如果你正在使用或开发AI代理,尤其是那些能够调用外部工具(比如读写文件、执行命令、发送邮件)的智能体,那么一个核心的焦虑点一定是:我如何确保它不会做出危险操作&am…...

量子电路合成:MDL原则与零样本迁移的创新方法

1. 量子电路合成的核心挑战与创新思路量子计算领域近年来取得了一系列突破性进展,但将抽象的量子算法转化为实际可执行的量子门序列(即量子电路合成)仍然是一个关键瓶颈。传统方法主要面临三大挑战:组合爆炸问题:n个量…...

命令行与微信集成:运维自动化通知与交互式助手实战

1. 项目概述:当命令行遇上微信 作为一名长期在运维和开发一线摸爬滚打的工程师,我每天打交道最多的就是命令行终端。从服务器部署、日志排查到自动化脚本, bash 、 zsh 和各类 CLI 工具是我的左膀右臂。然而,一个现实痛点始终…...

ECharts custom series实战:手把手教你为多系列柱状图添加渐变/条纹背景(Vue3+TS示例)

ECharts自定义系列实战:打造多系列柱状图的渐变与条纹背景 在数据可视化领域,柱状图是最基础却最常被使用的图表类型之一。但当我们需要在同一个图表中展示多个数据系列,并且要为每个柱子添加复杂的背景效果时,常规的配置方法往往…...