Python移动未标注的图片数据集
Python移动未标注的图片数据集
- 前言
- 前提条件
- 相关介绍
- 实验环境
- Python移动未标注的图片数据集
- 情况一:有图,无标注文件
- 代码实现
- 输出结果
- 情况二:有图,有标注文件,但标注信息为空
- 代码实现
- 输出结果
- 情况一与情况二同时都考虑
- 代码实现
- 输出结果
- 拓展:移动有标注文件却无对应图片的标注文件
- 代码实现
- 输出结果

前言
- 由于本人水平有限,难免出现错漏,敬请批评改正。
- 更多精彩内容,可点击进入Python日常小操作专栏、OpenCV-Python小应用专栏、YOLO系列专栏、自然语言处理专栏或我的个人主页查看
- YOLOv8 Ultralytics:使用Ultralytics框架训练RT-DETR实时目标检测模型
- 基于DETR的人脸伪装检测
- YOLOv7训练自己的数据集(口罩检测)
- YOLOv8训练自己的数据集(足球检测)
- YOLOv5:TensorRT加速YOLOv5模型推理
- YOLOv5:IoU、GIoU、DIoU、CIoU、EIoU
- 玩转Jetson Nano(五):TensorRT加速YOLOv5目标检测
- YOLOv5:添加SE、CBAM、CoordAtt、ECA注意力机制
- YOLOv5:yolov5s.yaml配置文件解读、增加小目标检测层
- Python将COCO格式实例分割数据集转换为YOLO格式实例分割数据集
- YOLOv5:使用7.0版本训练自己的实例分割模型(车辆、行人、路标、车道线等实例分割)
- 使用Kaggle GPU资源免费体验Stable Diffusion开源项目
前提条件
- 熟悉Python
相关介绍
- Python是一种跨平台的计算机程序设计语言。是一个高层次的结合了解释性、编译性、互动性和面向对象的脚本语言。最初被设计用于编写自动化脚本(shell),随着版本的不断更新和语言新功能的添加,越多被用于独立的、大型项目的开发。
- PyTorch 是一个深度学习框架,封装好了很多网络和深度学习相关的工具方便我们调用,而不用我们一个个去单独写了。它分为 CPU 和 GPU 版本,其他框架还有 TensorFlow、Caffe 等。PyTorch 是由 Facebook 人工智能研究院(FAIR)基于 Torch 推出的,它是一个基于 Python 的可续计算包,提供两个高级功能:1、具有强大的 GPU 加速的张量计算(如 NumPy);2、构建深度神经网络时的自动微分机制。
- YOLOv5是一种单阶段目标检测算法,该算法在YOLOv4的基础上添加了一些新的改进思路,使其速度与精度都得到了极大的性能提升。它是一个在COCO数据集上预训练的物体检测架构和模型系列,代表了Ultralytics对未来视觉AI方法的开源研究,其中包含了经过数千小时的研究和开发而形成的经验教训和最佳实践。
- Labelme是一款图像标注工具,由麻省理工(MIT)的计算机科学和人工智能实验室(CSAIL)研发。它是用Python和PyQT编写的,开源且免费。Labelme支持Windows、Linux和Mac等操作系统。
- 这款工具提供了直观的图形界面,允许用户在图像上标注多种类型的目标,例如矩形框、多边形、线条等,甚至包括更复杂的形状。标注结果以JSON格式保存,便于后续处理和分析。这些标注信息可以用于目标检测、图像分割、图像分类等任务。
- 总的来说,Labelme是一款强大且易用的图像标注工具,可以满足不同的图像处理需求。
- Labelme标注json文件是一种用于存储标注信息的文件格式,它包含了以下几个主要的字段:
version: Labelme的版本号,例如"4.5.6"。flags: 一些全局的标志,例如是否是分割任务,是否有多边形,等等。shapes: 一个列表,每个元素是一个字典,表示一个标注对象。每个字典包含了以下几个字段:
label: 标注对象的类别名称,例如"dog"。points: 一个列表,每个元素是一个坐标对,表示标注对象的边界点,例如[[10, 20], [30, 40]]。group_id: 标注对象的分组编号,用于表示属于同一组的对象,例如1。shape_type: 标注对象的形状类型,例如"polygon",“rectangle”,“circle”,等等。flags: 一些针对该标注对象的标志,例如是否是难例,是否被遮挡,等等。lineColor: 标注对象的边界线颜色,例如[0, 255, 0, 128]。fillColor: 标注对象的填充颜色,例如[255, 0, 0, 128]。imagePath: 图像文件的相对路径,例如"img_001.jpg"。imageData: 图像文件的二进制数据,经过base64编码后的字符串,例如"iVBORw0KGgoAAAANSUhEUgAA…"。imageHeight: 图像的高度,例如600。imageWidth: 图像的宽度,例如800。
以下是一个Labelme标注json文件的示例:
{"version": "4.5.6","flags": {},"shapes": [{"label": "dog","points": [[121.0,233.0],[223.0,232.0],[246.0,334.0],[121.0,337.0]],"group_id": null,"shape_type": "polygon","flags": {}}],"lineColor": [0,255,0,128],"fillColor": [255,0,0,128],"imagePath": "img_001.jpg","imageData": "iVBORw0KGgoAAAANSUhEUgAA...","imageHeight": 600,"imageWidth": 800
}
实验环境
- Python 3.x (面向对象的高级语言)
Python移动未标注的图片数据集
情况一:有图,无标注文件

代码实现
import os
import cv2
import json
import copy
import shutildef is_null_info_in_json(in_json_path):'''判断json文件的标注信息是否为空'''with open(in_json_path,'r') as f:json_data = json.load(f)# print(json_data)# 以查询label信息为例,比如输出'label' == "49"的标注信息json_data_shape = copy.deepcopy(json_data['shapes'])if json_data_shape == []:return Truereturn Falsedef move_img_no_json(in_img_path,output_dir):'''情况一:有图,无标注文件,只移动图'''shutil.move(in_img_path,output_dir)def move_img_and_json(in_img_path,in_json_path,output_dir):'''情况二:有图,有标注文件,但标注信息为空,既移动图,也移动json文件'''shutil.move(in_img_path,output_dir)shutil.move(in_json_path,output_dir)if __name__=="__main__":in_img_dir = 'images/'in_json_dir = 'jsons/'output_dir = 'output/'if not os.path.exists(output_dir):os.mkdir(output_dir) img_name_list = [i for i in os.listdir(in_img_dir) if i.endswith('.png')]# print(img_name_list)json_name_list = [i for i in os.listdir(in_json_dir) if i.endswith('.json')]# print(json_name_list)for img_name in img_name_list:in_img_path = in_img_dir + img_namein_json_path = in_json_dir + img_name[:-4]+'.json'# 情况一:有图,无标注文件if not os.path.exists(in_json_path):move_img_no_json(in_img_path,output_dir)
输出结果

情况二:有图,有标注文件,但标注信息为空

{"version": "5.2.0.post4","flags": {},"shapes": [],"imagePath": "flower.png","imageData": null,"imageHeight": 394,"imageWidth": 850
}
代码实现
import os
import cv2
import json
import copy
import shutildef is_null_info_in_json(in_json_path):'''判断json文件的标注信息是否为空'''with open(in_json_path,'r') as f:json_data = json.load(f)# print(json_data)# 以查询label信息为例,比如输出'label' == "49"的标注信息json_data_shape = copy.deepcopy(json_data['shapes'])if json_data_shape == []:return Truereturn Falsedef move_img_no_json(in_img_path,output_dir):'''情况一:有图,无标注文件,只移动图'''shutil.move(in_img_path,output_dir)def move_img_and_json(in_img_path,in_json_path,output_dir):'''情况二:有图,有标注文件,但标注信息为空,既移动图,也移动json文件'''shutil.move(in_img_path,output_dir)shutil.move(in_json_path,output_dir)if __name__=="__main__":in_img_dir = 'images/'in_json_dir = 'jsons/'output_dir = 'output/'if not os.path.exists(output_dir):os.mkdir(output_dir) img_name_list = [i for i in os.listdir(in_img_dir) if i.endswith('.png')]# print(img_name_list)json_name_list = [i for i in os.listdir(in_json_dir) if i.endswith('.json')]# print(json_name_list)for img_name in img_name_list:in_img_path = in_img_dir + img_namein_json_path = in_json_dir + img_name[:-4]+'.json'if not os.path.exists(in_json_path):passelse:# 情况二:有图,有标注文件,但标注信息为空if is_null_info_in_json(in_json_path):move_img_and_json(in_img_path,in_json_path,output_dir)
输出结果

情况一与情况二同时都考虑

代码实现
import os
import cv2
import json
import copy
import shutildef is_null_info_in_json(in_json_path):'''判断json文件的标注信息是否为空'''with open(in_json_path,'r') as f:json_data = json.load(f)# print(json_data)# 以查询label信息为例,比如输出'label' == "49"的标注信息json_data_shape = copy.deepcopy(json_data['shapes'])if json_data_shape == []:return Truereturn Falsedef move_img_no_json(in_img_path,output_dir):'''情况一:有图,无标注文件,只移动图'''shutil.move(in_img_path,output_dir)def move_img_and_json(in_img_path,in_json_path,output_dir):'''情况二:有图,有标注文件,但标注信息为空,既移动图,也移动json文件'''shutil.move(in_img_path,output_dir)shutil.move(in_json_path,output_dir)if __name__=="__main__":in_img_dir = 'images/'in_json_dir = 'jsons/'output_dir = 'output/'if not os.path.exists(output_dir):os.mkdir(output_dir) img_name_list = [i for i in os.listdir(in_img_dir) if i.endswith('.png')]# print(img_name_list)json_name_list = [i for i in os.listdir(in_json_dir) if i.endswith('.json')]# print(json_name_list)for img_name in img_name_list:in_img_path = in_img_dir + img_namein_json_path = in_json_dir + img_name[:-4]+'.json'# 情况一:有图,无标注文件if not os.path.exists(in_json_path):move_img_no_json(in_img_path,output_dir)else:# 情况二:有图,有标注文件,但标注信息为空if is_null_info_in_json(in_json_path):move_img_and_json(in_img_path,in_json_path,output_dir)
输出结果

拓展:移动有标注文件却无对应图片的标注文件

代码实现
import os
import cv2
import json
import copy
import shutildef is_null_info_in_json(in_json_path):'''判断json文件的标注信息是否为空'''with open(in_json_path,'r') as f:json_data = json.load(f)# print(json_data)# 以查询label信息为例,比如输出'label' == "49"的标注信息json_data_shape = copy.deepcopy(json_data['shapes'])if json_data_shape == []:return Truereturn Falsedef move_img_no_json(in_img_path,output_dir):'''情况一:有图,无标注文件,只移动图'''shutil.move(in_img_path,output_dir)def move_img_and_json(in_img_path,in_json_path,output_dir):'''情况二:有图,有标注文件,但标注信息为空,既移动图,也移动json文件'''shutil.move(in_img_path,output_dir)shutil.move(in_json_path,output_dir)def move_json_no_img(in_json_path,output_dir):'''移动有标注文件却无对应图片的标注文件'''shutil.move(in_json_path,output_dir)if __name__=="__main__":in_img_dir = 'images/'in_json_dir = 'jsons/'output_dir = 'output/'if not os.path.exists(output_dir):os.mkdir(output_dir) img_name_list = [i for i in os.listdir(in_img_dir) if i.endswith('.png')]# print(img_name_list)json_name_list = [i for i in os.listdir(in_json_dir) if i.endswith('.json')]# print(json_name_list)for json_name in json_name_list:in_img_path = in_img_dir + json_name[:-5] + '.png'in_json_path = in_json_dir + json_name# 移动有标注文件却无对应图片的标注文件if not os.path.exists(in_img_path):move_json_no_img(in_json_path,output_dir)
输出结果

- 由于本人水平有限,难免出现错漏,敬请批评改正。
- 更多精彩内容,可点击进入Python日常小操作专栏、OpenCV-Python小应用专栏、YOLO系列专栏、自然语言处理专栏或我的个人主页查看
- YOLOv8 Ultralytics:使用Ultralytics框架训练RT-DETR实时目标检测模型
- 基于DETR的人脸伪装检测
- YOLOv7训练自己的数据集(口罩检测)
- YOLOv8训练自己的数据集(足球检测)
- YOLOv5:TensorRT加速YOLOv5模型推理
- YOLOv5:IoU、GIoU、DIoU、CIoU、EIoU
- 玩转Jetson Nano(五):TensorRT加速YOLOv5目标检测
- YOLOv5:添加SE、CBAM、CoordAtt、ECA注意力机制
- YOLOv5:yolov5s.yaml配置文件解读、增加小目标检测层
- Python将COCO格式实例分割数据集转换为YOLO格式实例分割数据集
- YOLOv5:使用7.0版本训练自己的实例分割模型(车辆、行人、路标、车道线等实例分割)
- 使用Kaggle GPU资源免费体验Stable Diffusion开源项目
相关文章:
Python移动未标注的图片数据集
Python移动未标注的图片数据集 前言前提条件相关介绍实验环境Python移动未标注的图片数据集情况一:有图,无标注文件代码实现输出结果 情况二:有图,有标注文件,但标注信息为空代码实现输出结果 情况一与情况二同时都考虑…...
判断css文字发生了截断,增加悬浮提示
示例: 固定显示宽度,溢出显示...,利用了css的属性,想要实现成下面这样: 针对溢出的文字,hover显示全部。 提示很好加,使用tooltip组件就行了,难点是如何判断是否发生了文字溢出。…...
day33-37-SpringBootV12(整合Spring,SpringMVC,Mybatis,日志,api测试等框架)
ssm spring --> applicationContext.xml配置文件 springmvc --> springmvc.xml配置文件 mybatis —> mybatis-config.xml配置文件 —> springboot优化了之前的框架配置,思想是约定大于配置 一、引言 1.1 初始化配置 为了使用SSM框架去开发,准备SSM…...
如何处理好面试中的“压力测试”?
作为一名求职者,在面试时有时遇到的是压力测试,有时则遇到的是一些无良企业单位,究竟如何把握忍耐的限度,才合格当一个能经受压力的员工,才能避免对无良单位的一味隐忍! 压力面试是指有意制造紧张,以了解求…...
大数据----31.hbase安装启动
二.Hbase安装 先前安装: Zookeeper 正常部署 首先保证 Zookeeper 集群的正常部署,并启动之。 三台机器都执行:zkServer.sh startHadoop 正常部署 Hadoop 集群的正常部署并启动。 主节点上进行 :start-all.sh 1.HBase 的获取 一定…...
ChatGPT Plus重新开启订阅
12月14日凌晨,OpenAI首席执行官Sam Altman在社交平台宣布,终于找到了更多的GPU算力,重新开启订阅ChatGPT Plus。 上个月15日,OpenAI就因为算力不足,以及用户激增等原因暂停了ChatGPT Plus订阅。 Sam表示,在…...
C#科学绘图之scottPlot绘制多个图像
文章目录 示例移除图像图例信号图 scott系列:绘图初步 示例 从名字就能看出,ScottPlot的绘图函数AddScatter的作用是为图窗添加数据点,换言之,每调用一次AddScatter,就可以在图窗中添加一组图像。下面添加两个按钮&a…...
二百一十五、Flume——Flume拓扑结构之复制和多路复用的开发案例(亲测,附截图)
一、目的 对于Flume的复制和多路复用拓扑结构,进行一个小的开发测试 二、复制和多路复用拓扑结构 (一)结构含义 Flume 支持将事件流向一个或者多个目的地。 (二)结构特征 这种模式可以将相同数据复制到多个channe…...
Leetcode—2962.统计最大元素出现至少 K 次的子数组【中等】
2023每日刷题(五十六) Leetcode—2962.统计最大元素出现至少 K 次的子数组 滑动窗口算法思想 参考的灵神思路 实现代码 class Solution { public:long long countSubarrays(vector<int>& nums, int k) {int n nums.size();long long ans…...
MapReduce模拟统计每日车流量-解决方案
MapReduce模拟统计每日车流量-解决方案 1.Map阶段:将原始数据分割成若干个小块,每个小块由一个Map任务处理。Map任务将小块中的每个数据项映射成为一个键值对,其中键为时间戳,值为车流量。2.Shuffle阶段:将Map任务输出…...
【深度学习】强化学习(二)马尔可夫决策过程
文章目录 一、强化学习问题1、交互的对象2、强化学习的基本要素3、策略(Policy)4、马尔可夫决策过程1. 基本元素2. 交互过程的表示3. 马尔可夫过程(Markov Process)4. 马尔可夫决策过程(MDP)5. 轨迹的概率计…...
Vue.js 使用基础知识
Vue.js 是一款用于构建用户界面的渐进式框架,它专注于视图层。Vue.js 不同于传统的 JavaScript 框架,它采用了组件化的开发方式,使得开发者可以更加高效和灵活地构建交互式的 Web 应用程序。 目录 什么是 Vue.js安装 Vue.jsVue 实例模板语法插…...
Linux---计划任务
本章主要介绍如何创建计划任务 使用 at 创建计划任务使用 crontab 创建计划任务 有时需要在某个指定的时间执行一个操作,此时就要使用计划任务了。计划任务有两种: 一个是at计划任务,另一个是 crontab计划任务。 下面我们分别来看这两种计划…...
.NET微信网页开发之通过UnionID机制解决多应用用户帐号统一问题
背景 随着公司微信相关业务场景的不断拓展,从最初的一个微信移动应用、然后发展成微信公众号应用、然后又有了微信小程序应用。但是随着应用的拓展,如何保证相同用户的微信用户在不同应用中登录的同一个账号呢?今天的主题就来了.NET微信网页…...
【docker】docker入门与安装
Docker 一、入门 Docker的主要目标是:Build, Ship and Run Any App, Anywhere,也就是通过对应用组件的封装、分发、部署、运行等生命周期的管理,使用户的APP及其运行环境能做到一次镜像,处处运行。 Docker运行速度快的原因 Docker有比虚拟…...
视觉学习笔记12——百度飞浆框架的PaddleOCR 安装、标注、训练以及测试
系列文章目录 虚拟环境部署 参考博客1 参考博客2 参考博客3 参考博客4 文章目录 系列文章目录一、简单介绍1.OCR介绍2.PaddleOCR介绍 二、安装1.anaconda基础环境1)anaconda的基本操作2)搭建飞浆的基础环境 2.安装paddlepaddle-gpu版本1)安装…...
深入分析ClassLocader工作机制
文章目录 一、ClassLoader简介1. 概念2. ClassLoader类结构分析 二、ClassLoader的双亲委派机制三、Class文件的加载流程1. 简介2. 加载字节码到内存3. 验证与解析4. 初始化Class对象 四、常见加载类错误分析1. ClassNotFoundException2. NoClassDefFoundError3. UnsatisfiledL…...
算法通关村第十二关—字符串转换(青铜)
一、转换成小写字母 LeetCode709.给你一个字符串s,将该字符串中的大写字母转换成相同的小写字母,返回新的字符串。 示例1: 输入:s"Hello" 输出:"hello" 示例2: 输入:s&qu…...
C#基础与进阶扩展合集-基础篇(持续更新)
目录 本文分两篇,进阶篇点击:C#基础与进阶扩展合集-进阶篇 一、基础入门 Ⅰ 关键字 Ⅱ 特性 Ⅲ 常见异常 Ⅳ 基础扩展 1、哈希表 2、扩展方法 3、自定义集合与索引器 4、迭代器与分部类 5、yield return 6、注册表 7、不安全代码 8、方法…...
ReactJs笔记摘录
文章目录 前言目录结构组件动态组件高阶组件 Hook函数useStateuseEffectuseContextuseReduceruseCallbackuseMemo JSX语法根元素与斜杠使用变量推荐使用className替代class属性写法三元表达式 vs &&antd和tailwindcss 组件通信父传子:props和自定义函数事件…...
相机响应函数(CRF)的奥秘:为什么你的OpenCV计算结果每次都不一样?
相机响应函数(CRF)的稳定性挑战:从原理到OpenCV实战优化 每次用同样的代码计算相机响应函数(CRF),结果却总是不尽相同?这背后隐藏着从硬件特性到算法实现的复杂交互。本文将带您深入理解CRF的本质,剖析OpenCV实现中的关键变量&…...
TradingAgents-CN终极教程:10分钟搭建你的AI股票投资分析系统
TradingAgents-CN终极教程:10分钟搭建你的AI股票投资分析系统 【免费下载链接】TradingAgents-CN 基于多智能体LLM的中文金融交易框架 - TradingAgents中文增强版 项目地址: https://gitcode.com/GitHub_Trending/tr/TradingAgents-CN 还在为复杂的金融量化系…...
探索人机协同:在快马平台上用Cursor实践AI辅助开发工作流
最近在尝试用AI辅助开发时,发现了一个特别有意思的工作模式:通过自然语言描述需求,让AI生成代码,然后直接在页面上展示和编辑。这种"描述-生成-调整"的循环,让开发效率提升了不少。今天就来分享一下在InsCod…...
Batex:Blender批量FBX导出终极指南,3D艺术家必备的高效工作流解决方案
Batex:Blender批量FBX导出终极指南,3D艺术家必备的高效工作流解决方案 【免费下载链接】batex Export selected objects as fbx in batch operation 项目地址: https://gitcode.com/gh_mirrors/ba/batex 还在为Blender中繁琐的单个模型导出而烦恼…...
如何实现Android视频下载器的高效协程调度:Seal下载器的性能优化终极指南
如何实现Android视频下载器的高效协程调度:Seal下载器的性能优化终极指南 【免费下载链接】Seal 🦭 Video/Audio Downloader for Android, based on yt-dlp, designed with Material You 项目地址: https://gitcode.com/gh_mirrors/se/Seal Seal是…...
PowerPaint-V1实战体验:用画笔涂抹想修改的区域,选择模式即可智能修复
PowerPaint-V1实战体验:用画笔涂抹想修改的区域,选择模式即可智能修复 1. 开箱即用的图像修复神器 最近在测试各种AI图像处理工具时,发现PowerPaint-V1这款基于Gradio的智能图像修复工具特别实用。它最大的特点就是操作简单直观:…...
C++笔记 缺省值 函数重载 名字空间域(基础核心)
本文为C基础核心知识点笔记,聚焦「缺省值」「函数重载(概念)」「名字空间域」三大高频基础考点,语言通俗、重点突出,兼顾入门理解和考试记忆,适合新手入门、作业复习及GitHub归档。一、缺省值(默…...
Qwen3-VL-30B功能全体验:图文对话、图表分析、多图推理一网打尽
Qwen3-VL-30B功能全体验:图文对话、图表分析、多图推理一网打尽 1. 开篇:认识这个视觉语言"全能选手" 当你第一次听说Qwen3-VL-30B这个名字时,可能会被它的技术参数吓到——300亿参数的视觉语言模型,听起来像是实验室…...
在线客服系统源码 | 支持PC管理端+H5访客端+实时聊天
这是一个在线客服系统项目,包含三个主要部分:后端API服务器、PC端管理系统和H5端客服系统。以下是各部分的详细介绍: 1. 后端API服务器 主要功能:用户认证:管理员登录验证快捷回复管理:创建、读取、更新、删…...
如何用60元的消费级IMU实现车载组合导航?SINS/NHC实战解析
如何用60元的消费级IMU实现车载组合导航?SINS/NHC实战解析 在自动驾驶和车载导航领域,高精度定位一直是核心技术难题。传统方案依赖昂贵的专业级惯性测量单元(IMU),成本动辄数千元,让许多预算有限的开发者望而却步。但你可能不知…...
