当前位置：首页 > news >正文

统计数据集的TXT、XML及JSON标注文件中各类别/每个标签的数量

news 2026/5/10 23:15:28

在计算机视觉和深度学习领域，标注文件是模型训练的重要组成部分。无论是图像分类、目标检测还是图像分割，正确的标注能够显著提升模型的性能。在实际应用中，我们需要快速了解每个类别的样本数量，以便进行数据分析、平衡类别分布或优化模型训练。

以下是各个格式的文件代码，输出均按照标签数量从多到少排序，其中txt输入需要修改列表中标签。

统计YOLO格式的TXT文件

import os
from collections import Counterstring_table = ['hat','nohat']  #按顺序修改为类别列表
folder_path = r' '  #修改为txt文件夹
category_counter = Counter()for filename in os.listdir(folder_path):if filename.endswith('.txt'):file_path = os.path.join(folder_path, filename)with open(file_path, 'r') as file:for line in file:category_index = int(line.split()[0])if category_index < len(string_table):category = string_table[category_index]category_counter[category] += 1
print("各类别数量:")
for category in string_table:count = category_counter[category]print(f"{category}: {count}")

统计VOC格式的XML文件

import os
import xml.etree.ElementTree as ETclass_count = {}
folder_path = r' '  # 此处修改为xml文件夹
for filename in os.listdir(folder_path):if filename.endswith('.xml'):tree = ET.parse(os.path.join(folder_path, filename))root = tree.getroot()for obj in root.findall('object'):name = obj.find('name').textif name in class_count:class_count[name] += 1else:class_count[name] = 1
sorted_class_count = sorted(class_count.items(), key=lambda x: x[1], reverse=True)
print("各类别数量:")
for name, count in sorted_class_count:print(f"{name}: {count}")

统计JSON文件

import os
import json
from collections import Counterjson_folder = r' '  # 修改JSON文件夹路径
json_files = [f for f in os.listdir(json_folder) if f.endswith('.json')]
category_counter = Counter()
for json_file in json_files:with open(os.path.join(json_folder, json_file), 'r') as f:data = json.load(f)for shape in data['shapes']:category = shape['label']category_counter[category] += 1
sorted_category_count = sorted(category_counter.items(), key=lambda x: x[1], reverse=True)
print("各类别数量：")
for category, count in sorted_category_count:print(f"{category}: {count}")

统计数据集的TXT、XML及JSON标注文件中各类别/每个标签的数量

在计算机视觉和深度学习领域，标注文件是模型训练的重要组成部分。无论是图像分类、目标检测还是图像分割，正确的标注能够显著提升模型的性能。在实际应用中，我们需要快速了解每个类别的样本数量，以便进行数据分析、平衡类别分布或…...

编程日记 2024/10/30 20:59:08

Facebook登录客户追踪:了解用户访问路径，优化客户体验

随着数字化转型的不断加速，精准的客户数据收集和用户行为追踪成为企业提升用户体验和优化业务流程的关键。Facebook登录作为一种便捷的第三方登录方式，已经被广泛应用于各类网站和应用中。它不仅简化了用户的注册与登录流程，还帮助企业获得用…...

编程日记 2024/10/30 20:58:07

NUUO摄像头 debugging_center_utils 远程命令执行漏洞复现

0x01 产品描述： ‌ NUUO摄像头‌是由中国台湾NUUO公司生产的一款网络视频录像机（Network Video Recorder，简称NVR），广泛应用于零售、交通、教育、政府和银行等多个领域。它能够同时管理多个IP摄像头&#xff0c…...

编程日记 2024/10/30 20:55:02

Nginx 的讲解和案例示范

一、基础理解 1.1 Nginx 是什么？ Nginx是一个高性能的 Web 服务器和反向代理服务器，同时也可以作为邮件代理服务器。Nginx 以其高并发处理能力、低内存消耗和丰富的功能受到广泛欢迎。主要功能： 静态资源服务：高效地提供 HTM…...

编程日记 2024/10/30 20:53:00

微信小程序元素水平居中或垂直居中

最近在做一个微信小程序的项目，其中涉及到css样式实现将<navigator>标签内的图片和文本元素垂直排列，并水平居中。在尝试实现的过程中，将元素在标签内的所有排列情况都顺带实现了。上代码： index.wxml <navigator url&…...

编程日记 2024/10/30 20:50:58

ClickHouse 神助攻：纽约城市公共交通管理（MTA）数据应用挑战赛

本文字数：13198；估计阅读时间：33 分钟作者：The PME Team 本文在公众号【ClickHouseInc】首发我们一向对开放数据挑战充满热情，所以当发现 MTA（城市交通管理局）在其官网发起了这样的挑战时&…...

编程日记 2024/10/30 20:49:57

ELK + Filebeat + Spring Boot：日志分析入门与实践（二）

目录一、环境 1.1 ELKF环境 1.2 版本 1.3 流程二、Filebeat安装 2.1 安装 2.2 新增配置采集日志三、logstash 配置 3.1 配置输出日志到es 3.2 Grok 日志格式解析 3.2 启动 logstash 3.3 启动项目查看索引一、环境 1.1 ELKF环境 springboot项目：w…...

编程日记 2024/10/30 20:48:56

使用 Docker Compose 将数据版 LobeChat 服务端部署

LobeChat 是一个基于 TypeScript 的开源聊天机器人项目，支持本地部署和接入多个大语言模型。本文介绍如何使用 Docker Compose 将 LobeChat 服务端及其数据库部署到生产环境，让您拥有一个私有化的、可定制的 AI 聊天助手。一、部署前准备服务器&…...

编程日记 2024/10/30 20:47:55

python如何完成金融领域的数据分析，思路以及常见的做法是什么？

引言在现代金融领域，数据分析已成为决策支持的重要工具。随着金融市场的复杂性和数据量的激增，传统的分析方法已无法满足需求。 Python作为一种强大的编程语言，凭借其丰富的库和工具，成为金融数据分析的首选语言之一。本文将探讨如何利用Python进行金融数据分析，包括…...

编程日记 2024/10/30 20:46:54

密码管理工具实现

该文档详细描述了实现一个简单的密码管理工具的过程，工具基于PHP和MySQL构建，支持用户注册、密码存储、管理以及角色权限控制等核心功能。系统架构设计技术栈：PHP（后端逻辑）、MySQL（数据存储&#xff09…...

编程日记 2024/10/30 20:45:52

构造函数和new操作符 - 2024最新版前端秋招面试短期突击面试题【100道】

构造函数和new操作符 - 2024最新版前端秋招面试短期突击面试题【100道】 🏗️ 在JavaScript中，构造函数和new操作符是创建对象的重要方式。深入理解它们的基本概念和用法，可以帮助你更有效地使用JavaScript进行开发。以下是关于构造函数和ne…...

编程日记 2024/10/30 20:43:50

6.Linux按键驱动-阻塞与非阻塞

默认打开文件时候是阻塞的当设置打开方式为非阻塞时，无数据时会返回。当设置打开方式为阻塞时，无数据的时候会等待1.设置打开方式为非阻塞立即返回，无法读出，返回-1 2.设置为阻塞核心在于驱动程序中的.read函数的支持 …...

编程日记 2024/10/30 20:41:47

Mac打开环境变量配置文件，source ~/.zshrc无法打开问题解决

本文将会介绍，Mac如何打开zshrc环境变量配置文件。在搭建开发环境的时候，通常我们需要配置环境变量，例如：ANDROID_HOME、nvm等。具体的做法是把配置环境变量的命令加入到 shell 的配置文件中。如果你的 shell 是 zsh&#xff…...

编程日记 2024/10/30 20:40:46

计算机前沿技术-人工智能算法-大语言模型-最新研究进展-2024-10-23

计算机前沿技术-人工智能算法-大语言模型-最新研究进展-2024-10-23 目录文章目录计算机前沿技术-人工智能算法-大语言模型-最新研究进展-2024-10-23目录1. Advancements in Visual Language Models for Remote Sensing: Datasets, Capabilities, and Enhancement Techniques摘…...

编程日记 2024/10/30 20:39:45

【C#】搭建环境之CSharp+OpenCV

在我们使用C#编程中，对图片处理时会用到OpenCV库，以及其他视觉厂商提供的封装库，这里因为OpenCV是开源库，所以在VS资源里可以直接安装使用，这里简单说明一下搭建的步骤及实现效果，留存。 1. 项目创建 1.1…...

编程日记 2024/10/30 20:37:43

100种算法【Python版】第25篇——Bidirectional Search算法

本文目录 1 算法原理2 路径计算的算法步骤3 python代码4 算法应用1 算法原理 Bidirectional Search（双向搜索）算法是为了解决图中最短路径问题而提出的一种搜索策略，旨在提高搜索效率。该算法的核心思想是同时从起点和终点进行搜索，直到两个搜索相遇。这种方法有效地减少了…...

编程日记 2024/10/30 20:36:42

WebSocket与Socket

一、定义与用途 Socket Socket（套接字）是一个抽象层，用于在网络上执行进程间的通信。它为应用程序提供了发送和接收数据的机制，通过IP和端口号来标识网络中唯一的位置。Socket可以使用TCP进行面向连接的可靠通信，也可以…...

编程日记 2024/10/30 20:35:41

Python 3 维护有序列表 bisect

在Python 3中，bisect模块提供了用于维护有序列表的函数，主要用于在有序序列中进行二分查找以及插入操作，以下是其常见用法的介绍： 1. 导入模块首先需要导入bisect模块： import bisect2. 主要函数及用法 bisect.bi…...

编程日记 2024/10/30 20:31:34

vue版本太低无法执行vue ui命令

连接 ui和create目前都只支持3.0以后得版本才能使用 https://blog.csdn.net/m0_67318913/article/details/136775252?utm_mediumdistribute.pc_relevant.none-task-blog-2defaultbaidujs_baidulandingword~default-0-136775252-blog-121204604.235v43pc_blog_bottom_relevance…...

编程日记 2024/10/30 20:29:32

数据结构之二叉树的遍历------先根遍历(五）

提示：本篇章主要讲解数据结构中树的相关知识。文章目录二叉树的遍历为什么要提出这么多遍历方法？先根遍历二叉树（TLR）先根遍历二叉树的递归算法（重点）先根遍历二叉树的非递归算法(了解，但是得…...

编程日记 2024/10/30 20:28:30

初创团队如何利用 Taotoken 低成本启动 AI 功能开发与迭代

🚀 告别海外账号与网络限制！稳定直连全球优质大模型，限时半价接入中。 👉 点击领取海量免费额度初创团队如何利用 Taotoken 低成本启动 AI 功能开发与迭代对于资源有限的初创团队而言，在开发具备 AI 功能的产品时&a…...

编程新知 2026/5/10 23:06:58

对比直接使用厂商API，通过Taotoken调用大模型的延迟体感差异

🚀 告别海外账号与网络限制！稳定直连全球优质大模型，限时半价接入中。 👉 点击领取海量免费额度对比直接使用厂商API，通过Taotoken调用大模型的延迟体感差异 1. 关于延迟体感的说明在接入大模型服务时，…...

编程新知 2026/5/10 21:58:10

从选型到调试：MCP2517FD与ATA6563收发器搭配实战避坑指南

从选型到调试：MCP2517FD与ATA6563收发器搭配实战避坑指南在工业控制和车载电子系统中，CAN FD总线技术正逐步取代传统CAN总线，成为高速数据传输的新标准。作为硬件工程师，我们常常面临这样的挑战：如何在有限的项目周期…...

编程新知 2026/5/10 21:49:52

QMC音频转换工具终极指南：快速免费解锁加密音乐文件

QMC音频转换工具终极指南：快速免费解锁加密音乐文件【免费下载链接】qmc-decoder Fastest & best convert qmc 2 mp3 | flac tools 项目地址: https://gitcode.com/gh_mirrors/qm/qmc-decoder 你是否曾遇到过下载的音乐文件无法在普通播放器中播放的困扰…...

编程新知 2026/5/10 21:20:48

为什么92%的AI模型在生产环境首月衰减超40%？——2026奇点大会首发AI原生CI/CD流水线诊断框架

更多请点击： https://intelliparadigm.com 第一章：AI原生部署策略：2026奇点智能技术大会DevOps实践指南在2026奇点智能技术大会上，主流云原生平台已全面转向AI原生部署范式——模型即服务（MaaS）与基础设施…...

编程新知 2026/5/10 19:55:04

从CI/CD到AI/CD：SITS2026定义的下一代测试流水线（附头部大厂内部迁移路径图）

更多请点击： https://intelliparadigm.com 第一章：AI研发自动化测试：SITS2026专题 AI研发流程中，测试环节正从人工验证转向模型感知驱动的闭环自动化。SITS2026（Semantic Intelligence Testing Suite 2026&#xff09…...

编程新知 2026/5/10 19:55:04

KMS_VL_ALL_AIO终极指南：一站式Windows与Office智能激活解决方案

KMS_VL_ALL_AIO终极指南：一站式Windows与Office智能激活解决方案【免费下载链接】KMS_VL_ALL_AIO Smart Activation Script 项目地址: https://gitcode.com/gh_mirrors/km/KMS_VL_ALL_AIO KMS_VL_ALL_AIO是一款功能强大的智能激活脚本工具，专为W…...

编程新知 2026/5/10 18:55:15

如何利用Taotoken模型广场为你的特定应用场景选择性价比最优的模型

🚀 告别海外账号与网络限制！稳定直连全球优质大模型，限时半价接入中。 👉 点击领取海量免费额度如何利用Taotoken模型广场为你的特定应用场景选择性价比最优的模型为你的应用选择一个合适的大语言模型，往往需要在性…...

编程新知 2026/5/10 18:53:12

SK海力士：从行业寒冬到AI风口逆袭，多重风险下能否穿越下一轮行业变局？

SK海力士：从行业寒冬到AI风口的逆袭与隐忧，能否穿越下一轮行业变局？2025年至今，全球资本市场最魔幻的黑马行业，当属存储芯片。在其中，全球第二大存储巨头SK海力士，是最大受益者之一。2025年&…...

编程新知 2026/5/10 18:36:52

从《只狼》到你的项目：聊聊UE4布娃娃系统如何做出更‘有戏’的死亡动画

从《只狼》到你的项目：用UE4布娃娃系统打造叙事级死亡动画在《只狼》中，当敌人从悬崖坠落时扭曲的肢体，或是Boss战败后跪地缓缓倒下的瞬间，这些死亡动画远不止是技术实现——它们成为玩家情感体验的延伸。作为UE4开发者&#xff…...

编程新知 2026/5/10 16:32:42

相关文章：