当前位置：首页 > news >正文

PCB缺陷检测数据集 xml 可转yolo格式，共10688张图片

news 2025/7/7 12:56:32

PCB缺陷检测数据集（yolov5,v7,v8）数据集总共有两个文件夹，一个是pcb整体标注，一个是pcb部分截图。整体标注有6个分类，开路，短路等都已经标注，标注格式为xml，每个文件夹下有100多张的图片，可转yolo格式，跑过效果很好，北京大学PCB数据集。第二个是第一个的部分和增强，共10688张图片，多篇pcb论文用的是这个数据集（共6类），训练集和检测集总共有10688张，看最后一张图。标注格式为txt，可直接yolov5,v7,v8检测。

项目概述

本数据集是一个专门用于印刷电路板（PCB）缺陷检测的数据集，包含两个主要部分：一个是整体标注的PCB图像，另一个是部分截图和增强后的图像。整体标注部分有6个分类，包括开路、短路等常见缺陷，并且已经使用XML格式进行了标注。第二个部分是对第一个部分的部分截图和增强处理，共有10688张图像，标注格式为YOLO格式（txt文件），可以直接用于YOLOv5、YOLOv7和YOLOv8模型的训练和检测。

数据集特点

高质量标注：所有标注数据经过处理，确保了标注质量。
多样化类别：涵盖六类常见的PCB缺陷。
多用途：适用于多种目标检测任务，特别是涉及PCB缺陷检测的应用。
易于使用：提供了详细的说明文档和预处理好的标注文件，方便用户快速上手。
学术认可：多篇PCB相关论文使用了该数据集，具有较高的学术价值和实际应用价值。

数据集结构

PCB_Defect_Detection_Dataset/
├── full_boards/                         # 整体标注的PCB图像
│   ├── images/                          # 图像文件夹
│   │   ├── train/                       # 训练集图像
│   │   ├── val/                         # 验证集图像
│   │   └── test/                        # 测试集图像
│   ├── annotations/                     # 标注文件夹 (XML格式)
│   │   ├── train/                       # 训练集标注
│   │   ├── val/                         # 验证集标注
│   │   └── test/                        # 测试集标注
├── partial_and_augmented/               # 部分截图和增强后的图像
│   ├── images/                          # 图像文件夹
│   │   ├── train/                       # 训练集图像
│   │   ├── val/                         # 验证集图像
│   │   └── test/                        # 测试集图像
│   ├── labels/                          # 标注文件夹 (YOLO格式)
│   │   ├── train/                       # 训练集标注
│   │   ├── val/                         # 验证集标注
│   │   └── test/                        # 测试集标注
├── README.md                            # 项目说明文档
└── data.yaml                            # 数据集配置文件

数据集内容

总数据量：
- 整体标注的PCB图像：每个文件夹下约100多张图像。
- 部分截图和增强后的图像：共10688张图像。
标注格式：
- 整体标注：XML格式。
- 部分截图和增强：YOLO格式（txt文件）。
标注对象：各类PCB缺陷的位置。
类别及数量：

类别名	标注个数
开路 (Open Circuit)	具体数量
短路 (Short Circuit)	具体数量
缺失元件 (Missing Component)	具体数量
错误元件 (Wrong Component)	具体数量
裂纹 (Crack)	具体数量
污染 (Contamination)	具体数量

总计：
- 图像总数：整体标注约600张，部分截图和增强10688张
- 标注总数：具体数量根据实际情况而定
- 总类别数 (nc)：6类

使用说明

环境准备：
- 确保安装了Python及其相关库（如torch、opencv-python、matplotlib等）。
- 下载并解压数据集到本地目录。
- 安装YOLOv5、YOLOv7或YOLOv8所需的依赖项：
```
git clone https://github.com/ultralytics/yolov5
cd yolov5
pip install -r requirements.txt
```
加载数据集：
- 可以使用常见的编程语言（如Python）来加载和处理数据集。
- 示例代码如下：

import os
import xml.etree.ElementTree as ET
import pandas as pd
from pathlib import Path
from yolov5.utils.datasets import LoadImages, LoadImagesAndLabels
from yolov5.models.experimental import attempt_load
from yolov5.utils.general import non_max_suppression, scale_coords
from yolov5.utils.torch_utils import select_device
import cv2
import numpy as np# 定义数据集路径
dataset_path = 'PCB_Defect_Detection_Dataset'# 加载整体标注的图像和标注
def load_full_boards(folder):images_folder = os.path.join(dataset_path, 'full_boards', 'images', folder)annotations_folder = os.path.join(dataset_path, 'full_boards', 'annotations', folder)dataset = []for image_file in os.listdir(images_folder):if image_file.endswith('.jpg') or image_file.endswith('.png'):image_path = os.path.join(images_folder, image_file)annotation_path = os.path.join(annotations_folder, image_file.replace('.jpg', '.xml').replace('.png', '.xml'))tree = ET.parse(annotation_path)root = tree.getroot()labels = []for obj in root.findall('object'):name = obj.find('name').textbndbox = obj.find('bndbox')xmin = int(bndbox.find('xmin').text)ymin = int(bndbox.find('ymin').text)xmax = int(bndbox.find('xmax').text)ymax = int(bndbox.find('ymax').text)labels.append([name, xmin, ymin, xmax, ymax])dataset.append({'image_path': image_path,'labels': labels})return dataset# 加载部分截图和增强后的图像和标注
def load_partial_and_augmented(folder):images_folder = os.path.join(dataset_path, 'partial_and_augmented', 'images', folder)labels_folder = os.path.join(dataset_path, 'partial_and_augmented', 'labels', folder)dataset = []for image_file in os.listdir(images_folder):if image_file.endswith('.jpg') or image_file.endswith('.png'):image_path = os.path.join(images_folder, image_file)label_path = os.path.join(labels_folder, image_file.replace('.jpg', '.txt').replace('.png', '.txt'))with open(label_path, 'r') as f:labels = [line.strip().split() for line in f.readlines()]dataset.append({'image_path': image_path,'labels': labels})return dataset# 示例：加载整体标注的训练集
full_boards_train_dataset = load_full_boards('train')
print(f"Number of training images (full boards): {len(full_boards_train_dataset)}")# 示例：加载部分截图和增强后的训练集
partial_and_augmented_train_dataset = load_partial_and_augmented('train')
print(f"Number of training images (partial and augmented): {len(partial_and_augmented_train_dataset)}")

模型训练：
- 使用预训练的YOLOv5、YOLOv7或YOLOv8模型进行微调，或者从头开始训练。
- 示例代码如下（以YOLOv5为例）：

# 设置设备
device = select_device('')# 加载预训练模型或从头开始训练
model = attempt_load('yolov5s.pt', map_location=device)  # 或者 'path/to/custom_model.pt'
model.train()# 数据集配置文件
data_yaml = 'PCB_Defect_Detection_Dataset/data.yaml'# 训练参数
hyp = 'yolov5/data/hyps/hyp.scratch.yaml'  # 超参数配置文件
epochs = 100
batch_size = 16
img_size = 640# 开始训练
%cd yolov5
!python train.py --img {img_size} --batch {batch_size} --epochs {epochs} --data {data_yaml} --weights yolov5s.pt

模型推理：
- 使用训练好的模型进行推理，并在图像上绘制检测结果。
- 示例代码如下：

def detect(image_path, model, device, img_size=640):img0 = cv2.imread(image_path)img = letterbox(img0, new_shape=img_size)[0]img = img[:, :, ::-1].transpose(2, 0, 1)  # BGR to RGB, to 3x416x416img = np.ascontiguousarray(img)img = torch.from_numpy(img).to(device)img = img.half() if half else img.float()  # uint8 to fp16/32img /= 255.0  # 0 - 255 to 0.0 - 1.0if img.ndimension() == 3:img = img.unsqueeze(0)# 推理with torch.no_grad():pred = model(img, augment=False)[0]# NMSpred = non_max_suppression(pred, 0.4, 0.5, classes=None, agnostic=False)for i, det in enumerate(pred):  # 每个图像的检测结果if det is not None and len(det):det[:, :4] = scale_coords(img.shape[2:], det[:, :4], img0.shape).round()for *xyxy, conf, cls in reversed(det):label = f'{model.names[int(cls)]} {conf:.2f}'plot_one_box(xyxy, img0, label=label, color=(0, 255, 0), line_thickness=3)return img0# 示例：检测单张图像
result_img = detect('path/to/image.jpg', model, device)
cv2.imshow('Detection Result', result_img)
cv2.waitKey(0)
cv2.destroyAllWindows()

性能评估：
- 使用测试集进行性能评估，计算mAP、召回率、精确率等指标。
- 可以使用YOLOv5自带的评估脚本：
  bash
  深色版本
```
python val.py --data PCB_Defect_Detection_Dataset/data.yaml --weights best.pt --img 640
```

注意事项

数据格式：确保图像文件和标注文件的命名一致，以便正确匹配。
硬件要求：建议使用GPU进行训练和推理，以加快处理速度。如果没有足够的计算资源，可以考虑使用云服务提供商的GPU实例。
超参数调整：根据实际情况调整网络架构、学习率、批次大小等超参数，以获得更好的性能。

应用场景

PCB制造：自动检测PCB上的缺陷，提高生产效率和产品质量。
智能监控：结合自动化生产线，实现对PCB的实时监控和预警。
科研教育：用于PCB缺陷检测研究和教学，提高学生和工程师的专业技能。

PCB缺陷检测数据集 xml 可转yolo格式，共10688张图片

项目概述

数据集特点

数据集结构

数据集内容

使用说明

注意事项

应用场景

相关文章：

PCB缺陷检测数据集 xml 可转yolo格式，共10688张图片

【linux开发-驱动】-设备树

不动产证ocr识别场景解析、房产证识别API

gpg 密钥生成、导入、导出、自动输入密码

新个性化时尚解决方案！Prompt2Fashion：自动生成多风格、类型时尚图像数据集。

软件设计师——计算机网络

Python 实现电话号码和Email地址提取程序

JavaGuide（3）

微信小程序15天

用Python制作数据可视化仪表盘：使用Dash与Plotly构建实时交互式仪表盘

干部管理系统：全面提升干部管理效能

Java之方法

MyBatis 数据表与实体映射的隐藏陷阱

leetcode-239. 滑动窗口最大值

springboot项目中开启mybatis的sql日志

卷积的计算——nn.Conv2d（Torch.nn里的Convolution Layers模块里的Conv2d类）

确保接口安全：六大方案有效解决幂等性问题

代码随想录算法训练营第二十九天| 93. 复原 IP 地址，78. 子集， 90. 子集 II

【WebGis开发 - Cesium】三维可视化项目教程---初始化场景

点云中ICP算法的详解

基于算法竞赛的c++编程（28）结构体的进阶应用

基于FPGA的PID算法学习———实现PID比例控制算法

AI Agent与Agentic AI：原理、应用、挑战与未来展望

使用Matplotlib创建炫酷的3D散点图：数据可视化的新维度

基于TurtleBot3在Gazebo地图实现机器人远程控制

推荐 github 项目:GeminiImageApp(图片生成方向，可以做一定的素材)

Python 实现 Web 静态服务器（HTTP 协议）

淘宝扭蛋机小程序系统开发：打造互动性强的购物平台

CVPR2025重磅突破：AnomalyAny框架实现单样本生成逼真异常数据，破解视觉检测瓶颈！

c# 局部函数定义、功能与示例