当前位置: 首页 > article >正文

roLabelImg标注转YOLO格式实战:手把手教你处理旋转目标检测数据集

roLabelImg标注转YOLO格式实战手把手教你处理旋转目标检测数据集在计算机视觉领域旋转目标检测正逐渐成为研究热点。与传统水平框检测不同旋转框能更精确地定位倾斜或密集排列的物体。roLabelImg作为一款开源的旋转标注工具生成的XML格式标注需要转换为YOLO训练所需的TXT格式。本文将深入解析这一转换过程提供可直接运行的Python脚本并分享实际项目中的经验技巧。1. 环境准备与基础概念旋转目标检测在遥感图像、文本检测、工业质检等领域有广泛应用。与常规的YOLO格式不同旋转框标注需要额外存储角度信息。roLabelImg生成的XML文件中每个对象包含中心点坐标(cx,cy)、宽度(w)、高度(h)和旋转角度(angle)五个关键参数。典型的roLabelImg XML结构如下robndbox cx542.5/cx cy243.5/cy w47.0/w h20.0/h angle1.047/angle /robndbox转换前的准备工作安装Python 3.6环境准备已标注的roLabelImg XML文件创建项目目录结构project/ ├── xmllabels/ # 存放原始XML文件 ├── labels/ # 输出YOLO格式TXT文件 └── convert.py # 转换脚本2. 核心转换算法解析转换脚本的核心是将roLabelImg的旋转框参数转换为YOLO格式。YOLO旋转框格式为class_id x_center y_center width height angle_degrees其中所有坐标和尺寸都是相对于图像宽高的归一化值(0-1)角度以度为单位(0-179)。关键转换函数分析def convert(size, box): 归一化坐标转换 dw 1. / (size[0]) # 宽度归一化因子 dh 1. / (size[1]) # 高度归一化因子 x box[0] * dw # 中心点x坐标归一化 y box[1] * dh # 中心点y坐标归一化 w box[2] * dw # 宽度归一化 h box[3] * dh # 高度归一化 return x, y, w, h角度处理需要特别注意roLabelImg使用弧度制需要转换为角度制当宽度小于高度时需要交换w/h并调整角度最终角度应落在0-179度范围内3. 完整转换脚本实现以下是经过优化的完整转换脚本增加了错误处理和日志功能#!/usr/bin/env python3 # -*- coding: utf-8 -*- import xml.etree.ElementTree as ET import os import math from tqdm import tqdm # 进度条显示 # 配置参数 CLASSES [ship, airplane, storage-tank] # 修改为你的类别 XML_DIR xmllabels # XML文件目录 TXT_DIR labels # 输出TXT目录 LOG_FILE conversion.log # 日志文件 def setup_logging(): 初始化日志系统 import logging logging.basicConfig( filenameLOG_FILE, levellogging.INFO, format%(asctime)s - %(levelname)s - %(message)s ) return logging.getLogger() logger setup_logging() def convert(size, box): 坐标归一化转换 dw, dh 1./size[0], 1./size[1] x box[0] * dw y box[1] * dh w box[2] * dw h box[3] * dh return x, y, w, h def process_angle(theta_rad, w, h): 处理旋转角度 if w h: theta_deg (math.degrees(theta_rad) 90) % 180 else: theta_deg math.degrees(theta_rad) % 180 return int(round(theta_deg)) def convert_annotation(xml_file): 处理单个XML文件 try: tree ET.parse(xml_file) root tree.getroot() # 获取图像尺寸 size root.find(size) w int(size.find(width).text) h int(size.find(height).text) # 准备输出文件 basename os.path.splitext(os.path.basename(xml_file))[0] txt_file os.path.join(TXT_DIR, f{basename}.txt) with open(txt_file, w) as f: for obj in root.iter(object): cls obj.find(name).text if cls not in CLASSES: continue robndbox obj.find(robndbox) cx float(robndbox.find(cx).text) cy float(robndbox.find(cy).text) width float(robndbox.find(w).text) height float(robndbox.find(h).text) angle float(robndbox.find(angle).text) # 处理特殊情况 if width 0 or height 0: logger.warning(fInvalid box size in {xml_file}) continue # 转换坐标和角度 x, y, w_norm, h_norm convert((w,h), (cx,cy,width,height)) theta process_angle(angle, width, height) # 写入YOLO格式 cls_id CLASSES.index(cls) f.write(f{cls_id} {x:.6f} {y:.6f} {w_norm:.6f} {h_norm:.6f} {theta}\n) return True except Exception as e: logger.error(fError processing {xml_file}: {str(e)}) return False def main(): 主转换流程 # 创建输出目录 os.makedirs(TXT_DIR, exist_okTrue) # 获取所有XML文件 xml_files [f for f in os.listdir(XML_DIR) if f.endswith(.xml)] if not xml_files: logger.error(No XML files found in input directory) return # 批量转换 success_count 0 for xml_file in tqdm(xml_files, descConverting): full_path os.path.join(XML_DIR, xml_file) if convert_annotation(full_path): success_count 1 logger.info(fConversion completed. Success: {success_count}/{len(xml_files)}) print(f\n转换完成成功处理 {success_count}/{len(xml_files)} 个文件) if __name__ __main__: main()4. 常见问题与解决方案在实际项目中我们可能会遇到以下典型问题4.1 角度处理异常现象转换后的检测框方向不正确原因宽高比接近1时角度判断不稳定弧度到角度的转换存在精度损失解决方案# 在process_angle函数中添加容错处理 if abs(w - h) 1e-3: # 近似正方形 theta_deg math.degrees(theta_rad) % 90 # 限制在0-90度4.2 坐标越界问题现象归一化后的坐标超出[0,1]范围修复方法# 在convert函数中添加边界检查 x max(0, min(1, x)) y max(0, min(1, y)) w_norm max(0, min(1, w_norm)) h_norm max(0, min(1, h_norm))4.3 多类别处理当需要处理多个类别时建议使用字典提高效率CLASS_DICT {name: idx for idx, name in enumerate(CLASSES)} # 在convert_annotation中使用 cls_id CLASS_DICT.get(cls, -1) if cls_id -1: continue5. 验证转换结果转换完成后建议使用以下脚本可视化检查结果import cv2 import numpy as np def draw_rotated_box(img, x, y, w, h, angle, color(0,255,0), thickness2): 在图像上绘制旋转矩形框 cx int(x * img.shape[1]) cy int(y * img.shape[0]) width int(w * img.shape[1]) height int(h * img.shape[0]) rect ((cx, cy), (width, height), angle) box cv2.boxPoints(rect) box np.int0(box) cv2.drawContours(img, [box], 0, color, thickness) return img def visualize(image_file, label_file): 可视化标注结果 img cv2.imread(image_file) with open(label_file) as f: for line in f: parts line.strip().split() if len(parts) ! 6: continue cls_id, x, y, w, h, angle parts img draw_rotated_box(img, float(x), float(y), float(w), float(h), int(angle)) cv2.imshow(Preview, img) cv2.waitKey(0) cv2.destroyAllWindows()使用建议对转换后的样本进行随机抽查重点关注边界情况和特殊角度比较原始标注和转换后结果的一致性6. 性能优化与批量处理对于大规模数据集可以考虑以下优化措施多进程处理from multiprocessing import Pool def batch_convert(xml_files): with Pool(processes4) as pool: # 使用4个进程 results list(tqdm(pool.imap(convert_annotation, xml_files), totallen(xml_files))) return sum(results) # 返回成功计数内存优化技巧使用生成器逐步处理文件及时关闭文件句柄避免不必要的DOM解析实际项目中一个包含10,000张图像的数据集在8核CPU上转换时间通常不超过5分钟。转换过程中建议监控内存使用情况特别是处理超大尺寸图像时。7. 与其他工具的集成转换后的YOLO格式标注可以直接用于以下场景YOLOv5-OBB训练python train.py --data dataset.yaml --weights yolov5s-obb.pt --img 640其中dataset.yaml配置示例# 旋转目标检测数据集配置 train: ../train/images val: ../val/images # 类别信息 names: 0: ship 1: airplane 2: storage-tankLabelImg-YOLO格式验证使用支持旋转框的标注工具验证转换结果推荐使用LabelMe或CVAT进行二次检查在模型训练阶段建议先在小批量数据上验证标注的正确性再开始全量训练。一个实用的技巧是编写数据加载时的可视化检查代码确保训练器读取的标注与预期一致。

相关文章:

roLabelImg标注转YOLO格式实战:手把手教你处理旋转目标检测数据集

roLabelImg标注转YOLO格式实战:手把手教你处理旋转目标检测数据集 在计算机视觉领域,旋转目标检测正逐渐成为研究热点。与传统水平框检测不同,旋转框能更精确地定位倾斜或密集排列的物体。roLabelImg作为一款开源的旋转标注工具,生…...

Blender启动场景文件startup.blend的终极配置手册(含资源库管理)

Blender启动场景文件startup.blend的终极配置手册(含资源库管理) 每次打开Blender时,那个默认的立方体、灯光和相机组合是否让你感到厌倦?专业3D艺术家的工作效率往往始于一个精心调校的启动环境。本文将带你深入探索Blender启动场…...

Ego_planner实战:从传感器标定到自主飞行的完整避障系统部署

1. 从零搭建无人机自主避障系统 第一次接触Ego_planner时,我被这个开源项目惊艳到了——它居然能让无人机像长了眼睛一样自主避开障碍物。但真正部署时才发现,从传感器标定到稳定飞行,中间藏着无数细节坑点。下面我就把踩过的坑和实战经验完整…...

Youtu-VL-4B-Instruct应用案例:电商商品图自动描述与文字识别

Youtu-VL-4B-Instruct应用案例:电商商品图自动描述与文字识别 1. 电商商品图处理的痛点与解决方案 在电商运营中,商品图片是吸引顾客的第一道门槛。每天,运营团队需要处理成千上万的商品图片——撰写描述、提取关键信息、分类归档。传统的人…...

DeepSeek-OCR-2实操案例:医疗报告PDF识别→结构化字段(姓名/日期/诊断)提取

DeepSeek-OCR-2实操案例:医疗报告PDF识别→结构化字段(姓名/日期/诊断)提取 1. 项目背景与价值 医疗报告处理是医院日常工作中的重要环节,但传统的手工录入方式效率低下且容易出错。一份典型的医疗报告包含患者姓名、检查日期、…...

Arcmap地理配准实战:如何用XY坐标快速校正无人机航拍图(2024最新版)

Arcmap地理配准实战:如何用XY坐标快速校正无人机航拍图(2024最新版) 去年在帮某自然保护区处理无人机航拍数据时,发现团队花费了整整三天时间反复调整控制点——直到我们掌握了XY坐标直接输入法。这种看似基础的操作,配…...

Notion AI工作流避坑指南:Agent功能常见配置错误与性能优化技巧

Notion AI工作流避坑指南:Agent功能常见配置错误与性能优化技巧 Notion 3.0的Agent功能确实为团队协作带来了革命性的改变,但就像任何新技术一样,它在实际应用中也会遇到各种"坑"。作为一位深度使用Notion AI工作流的实践者&#x…...

图像处理避坑指南:为什么你的光流法对齐总出现鬼影?从原理到解决方案

图像处理避坑指南:为什么你的光流法对齐总出现鬼影?从原理到解决方案 在动态场景分析、视频稳定化和医学影像处理中,光流法因其无需特征点匹配的优势成为帧对齐的常用工具。但许多开发者在实际应用中都会遇到同一个棘手问题——经过光流对齐后…...

Keil调试窗口全解析:从Watch到Memory,这些隐藏功能你用过吗?

Keil调试窗口全解析:从Watch到Memory,这些隐藏功能你用过吗? 当你在Keil中调试一个复杂的嵌入式系统时,是否曾感到调试窗口太多无从下手?或者明明有个功能可以快速定位问题,却因为不熟悉而绕了远路&#xf…...

CTF选手必备:Fenjing全自动SSTI绕过WAF实战指南(附校队真题解析)

CTF选手必备:Fenjing全自动SSTI绕过WAF实战指南(附校队真题解析) 在CTF比赛中,SSTI(服务器端模板注入)漏洞一直是Web安全赛道的经典题型。随着WAF(Web应用防火墙)规则日益复杂&#…...

Psim+C语言实战:LLC闭环仿真中的数字发波技巧(附完整代码)

PsimC语言实战:LLC闭环仿真中的数字发波技巧(附完整代码) 在电力电子系统设计中,LLC谐振变换器因其高效率、高功率密度等优势,已成为电源设计的热门选择。而数字控制技术的引入,则为LLC带来了更灵活的控制方…...

微信小程序音乐播放器优化指南:提升用户体验的5个技巧

微信小程序音乐播放器优化指南:提升用户体验的5个技巧 在移动互联网时代,音乐播放器已成为用户日常娱乐的重要组成部分。微信小程序凭借其轻量级、无需安装的特性,成为音乐类应用的重要载体。然而,许多开发者往往只关注基础功能的…...

从基础到定制:深度解析uniapp原生扫码插件Ba-Scanner的进阶应用场景

1. 为什么选择Ba-Scanner作为uniapp扫码解决方案 第一次接触Ba-Scanner是在去年一个零售项目上,当时客户要求实现毫秒级扫码体验,还要能连续扫描5000个商品不卡顿。试过几个插件后,发现这个原生插件在性能上确实碾压其他方案。它的核心优势在…...

知网研学Word插件引文样式切换全攻略:从国标到APA的灵活应用

1. 知网研学Word插件引文样式基础认知 第一次用知网研学Word插件时,发现它默认的引文样式是国标顺序编码制,也就是按照文献在文中出现的先后顺序用数字编号。比如你引用的第一篇文献标[1],第二篇标[2],如果同一篇文献被多次引用&a…...

融合注意力与大核卷积的UNet改进:NEU-SEG钢材缺陷分割实战解析

1. 钢材表面缺陷检测的技术挑战 在钢铁制造行业中,表面缺陷检测一直是个让人头疼的问题。想象一下,你站在一条高速运转的钢铁生产线旁,需要从每分钟几十米移动速度的钢板上找出比头发丝还细的划痕——这就是质检员每天面临的真实挑战。传统的…...

SeqGPT-560M镜像特性:模型权重只读挂载、服务进程非root权限、最小化攻击面

SeqGPT-560M镜像特性:模型权重只读挂载、服务进程非root权限、最小化攻击面 1. 模型介绍与核心价值 SeqGPT-560M是阿里达摩院推出的零样本文本理解模型,拥有5.6亿参数,专门针对中文场景优化设计。这个模型最大的特点是无需训练即可完成文本…...

VSCode远程开发实战:X11转发实现matplotlib图形交互

1. 为什么需要X11转发? 很多数据分析师和开发者都遇到过这样的尴尬:在本地Windows电脑上用VSCode连接远程Linux服务器跑Python脚本时,matplotlib绘制的图形死活显示不出来。要么只能通过Jupyter Notebook截图查看,要么就得折腾远程…...

k8s入门到实战(二)—— Windows下Minikube安装避坑与快速验证

1. 为什么选择Minikube作为Kubernetes学习工具 刚开始接触Kubernetes时,我完全被它的复杂性吓到了。光是搭建一个最简单的集群就需要配置各种证书、网络插件和存储系统,更别提后续的维护了。直到发现了Minikube这个神器,才真正打开了我的Kube…...

【香橙派镜像实战指南】从选型到环境配置的避坑与优化

1. 香橙派镜像选型实战 第一次拿到香橙派开发板时,面对官网琳琅满目的镜像列表,我和大多数新手一样陷入选择困难。经过三个物联网项目的实战验证,我总结出这套五步筛选法: 明确硬件型号:不同代际的香橙派(如…...

图解CV中的交叉注意力:用QKV三兄弟玩转特征匹配(附PyTorch代码示例)

图解CV中的交叉注意力:用QKV三兄弟玩转特征匹配(附PyTorch代码示例) 在计算机视觉领域,让模型学会"该看哪里"一直是个核心挑战。想象一下相亲场景:你(Query)带着理想条件去匹配对方&a…...

遗传算法实战:用Python手把手教你解决背包问题(附完整代码)

遗传算法实战:用Python手把手教你解决背包问题(附完整代码) 背包问题作为组合优化领域的经典案例,常被用来验证算法的有效性。想象你是一位探险家,面对一堆价值不等、重量各异的宝物,如何在背包承重限制下选…...

从Sobel到Canny:Matlab edge函数不同算法效果对比与性能优化指南

从Sobel到Canny:Matlab edge函数不同算法效果对比与性能优化指南 在数字图像处理领域,边缘检测是提取图像特征的关键步骤。Matlab作为科学计算领域的标杆工具,其内置的edge函数集成了多种经典边缘检测算法,每种算法都有其独特的数…...

从YAML到PyTorch模型:Ultralytics YOLO V8/V11 网络构建与参数映射全解析

1. YAML配置与模型构建的桥梁 第一次看到YOLO的YAML配置文件时,我盯着那些中括号和数字组合发呆了好久。直到亲手修改了几次参数后,才真正理解这种"配置即代码"的设计有多精妙。让我们从一个实际案例开始:假设你要给无人机巡检系统…...

如何快速掌握开源项目管理:GanttProject 5个高效技巧完全指南

如何快速掌握开源项目管理:GanttProject 5个高效技巧完全指南 【免费下载链接】ganttproject Official GanttProject repository 项目地址: https://gitcode.com/gh_mirrors/ga/ganttproject 在现代项目管理中,寻找一款既专业又免费的工具往往令人…...

Chatbot Arena Leaderboard 的幻觉问题:原理剖析与实战解决方案

在AI模型竞技场中,Chatbot Arena Leaderboard 无疑是一个重要的风向标,它通过众包投票的方式,直观地展示了不同大语言模型在用户心中的“战斗力”排名。然而,在这个看似公平的“擂台”背后,一个名为“幻觉”&#xff0…...

小白也能上手:Phi-3-vision-128k图文对话模型快速体验教程

小白也能上手:Phi-3-vision-128k图文对话模型快速体验教程 1. 认识Phi-3-vision-128k图文对话模型 Phi-3-Vision-128K-Instruct是微软推出的轻量级多模态模型,属于Phi-3模型家族的最新成员。这个模型最大的特点是能够同时理解图片和文字,支…...

VibeVoice快速上手:5步完成文本转语音,支持音频下载

VibeVoice快速上手:5步完成文本转语音,支持音频下载 1. 前言:为什么选择VibeVoice? 语音合成技术正在改变我们与数字内容交互的方式。VibeVoice作为微软开源的轻量级实时TTS模型,凭借其出色的响应速度和高质量的语音…...

在Windows上运行Android应用:WSABuilds完整指南

在Windows上运行Android应用:WSABuilds完整指南 【免费下载链接】WSABuilds Run Windows Subsystem For Android on your Windows 10 and Windows 11 PC using prebuilt binaries with Google Play Store (MindTheGapps) and/or Magisk or KernelSU (root solutions…...

从零开始学Python异常处理:新手避坑指南与最佳实践

从零开始学Python异常处理:新手避坑指南与最佳实践 第一次运行Python代码时看到满屏红色报错是什么感受?作为新手,你可能既困惑又沮丧——明明照着教程写的代码,为什么突然"崩溃"了?事实上,这些红…...

手把手教你用留数定理搞定Laplace逆变换(附MATLAB仿真代码)

手把手教你用留数定理搞定Laplace逆变换(附MATLAB仿真代码) 在信号处理、控制理论和电路分析等工程领域,Laplace变换就像一把瑞士军刀,能够将复杂的微分方程转化为简单的代数方程。但当我们得到频域解后,如何优雅地回到…...