当前位置: 首页 > article >正文

Yolov5-seg 实战:从零构建自定义实例分割数据集

1. 环境配置与工具准备第一次接触YOLOv5-seg时我被官方文档里密密麻麻的依赖项吓到了。后来发现其实只要掌握几个关键工具整个过程就会变得非常简单。这里我分享下自己搭建环境的完整过程包括那些官方文档没写的细节。核心工具链只需要两个YOLOv5-seg代码库和Labelme标注工具。建议直接使用v7.0版本这个版本在实例分割任务上最稳定。安装时有个小技巧——先创建一个干净的conda环境conda create -n yolov5_seg python3.8 conda activate yolov5_seg然后处理依赖项时很多人卡在PyTorch的安装上。我的经验是先去PyTorch官网用他们的安装命令然后再安装其他依赖。比如对于CUDA 11.3的用户pip install torch1.12.1cu113 torchvision0.13.1cu113 --extra-index-url https://download.pytorch.org/whl/cu113 pip install -r requirements.txtLabelme的安装更简单但要注意版本兼容性。3.16.7这个版本对多边形标注的支持最好。遇到过标注时闪退的问题后来发现是Qt版本冲突用下面这个命令可以完美解决pip install labelme3.16.7 pyqt55.15.42. 数据标注实战技巧给工业零件做标注时我踩过最大的坑就是标注规范不统一。比如同一个螺丝孔有人标内径有人标外径。后来我们团队制定了明确的标注规则边缘标注始终标注物体最外缘遮挡处理被遮挡部分按可见轮廓标注小物体小于10x10像素的可以忽略用Labelme标注时这几个快捷键能提升3倍效率CtrlZ撤销上一点Space锁定当前多边形Esc完成当前标注建议先创建好目录结构再开始标注dataset/ ├── images/ │ ├── train/ │ └── val/ └── labels/ ├── train/ └── val/标注过程中有个重要细节Labelme默认把JSON和图片放一起但训练时需要分离。我写了个自动整理脚本import shutil import os def organize_files(src_dir): for root, _, files in os.walk(src_dir): for file in files: if file.endswith(.json): shutil.move(os.path.join(root, file), os.path.join(root, ../labels, file))3. 数据格式转换详解原始文章里的转换脚本已经很实用但实际项目中我发现几个需要改进的地方。首先是类别处理原脚本只支持单类别我扩展了多类别支持classes [bolt, nut, washer] # 多类别示例 def parse_json(json_path): with open(json_path) as f: data json.load(f) shapes data[shapes] img_h data[imageHeight] img_w data[imageWidth] results [] for shape in shapes: label shape[label] points np.array(shape[points]) # 归一化处理 points[:, 0] / img_w points[:, 1] / img_h results.append(f{classes.index(label)} .join([f{x:.6f} for x in points.flatten()])) return \n.join(results)转换后一定要验证数据。除了原文提到的可视化检查我还建议做这些校验检查所有标注是否在[0,1]范围内确认每个JSON都有对应的图片验证类别索引是否连续这个增强版校验脚本能发现90%的问题def validate_labels(label_dir, img_dir): for label_file in os.listdir(label_dir): img_file label_file.replace(.txt, .jpg) if not os.path.exists(os.path.join(img_dir, img_file)): print(fMissing image for {label_file}) with open(os.path.join(label_dir, label_file)) as f: for line in f: parts line.strip().split() if not parts[0].isdigit(): print(fInvalid class id in {label_file}) coords list(map(float, parts[1:])) if any(x 0 or x 1 for x in coords): print(fOut of range in {label_file})4. 模型训练与调优配置文件修改是新手最容易出错的地方。以coco128-seg.yaml为例关键参数要这样设置train: ../dataset/images/train val: ../dataset/images/val nc: 3 # 类别数 names: [bolt, nut, washer] # 类别名称模型配置文件(yolov5s-seg.yaml)通常只需要改类别数nc: 3 # 与数据配置一致开始训练时这几个参数对结果影响最大img-size: 根据显存选择工业检测推荐640x640batch-size: 尽可能大但不要爆显存epochs: 通常100-300足够data: 指向修改后的数据配置文件完整的训练命令示例python segment/train.py \ --data data/custom_seg.yaml \ --cfg models/segment/yolov5s-seg.yaml \ --batch-size 16 \ --epochs 150 \ --img 640 \ --name bolt_detection训练过程中要重点关注这些指标mask_loss: 应该稳步下降val_mask_loss: 与训练损失差距不应过大mAP0.5: 主要评估指标5. 模型验证与部署训练完成后用这个命令测试模型效果python segment/predict.py \ --weights runs/train/bolt_detection/weights/best.pt \ --source test_images/ \ --img-size 640 \ --conf-thres 0.25实际部署时我推荐用ONNX格式。转换命令python export.py \ --weights runs/train/bolt_detection/weights/best.pt \ --include onnx \ --img-size 640 640在工业场景中这几个优化技巧很实用对固定摄像头场景可以预先标定ROI区域小目标检测可以适当降低conf-thres使用TensorRT加速能提升3-5倍推理速度最后分享一个部署后的性能检查脚本import cv2 import torch from time import time model torch.hub.load(ultralytics/yolov5, custom, pathbest.pt) def benchmark(): img cv2.imread(test.jpg) start time() results model(img) print(fInference time: {(time()-start)*1000:.2f}ms) print(results.pandas().xyxy[0])

相关文章:

Yolov5-seg 实战:从零构建自定义实例分割数据集

1. 环境配置与工具准备 第一次接触YOLOv5-seg时,我被官方文档里密密麻麻的依赖项吓到了。后来发现其实只要掌握几个关键工具,整个过程就会变得非常简单。这里我分享下自己搭建环境的完整过程,包括那些官方文档没写的细节。 核心工具链只需要…...

DLSS文件管理革命:5分钟让每款游戏都获得最佳画质优化

DLSS文件管理革命:5分钟让每款游戏都获得最佳画质优化 【免费下载链接】dlss-swapper 项目地址: https://gitcode.com/GitHub_Trending/dl/dlss-swapper DLSS Swapper是一款专为游戏玩家设计的智能DLSS文件管理工具,能够自动扫描游戏库、识别DLS…...

终极Windows任务栏透明化神器:TranslucentTB完整体验指南

终极Windows任务栏透明化神器:TranslucentTB完整体验指南 【免费下载链接】TranslucentTB A lightweight utility that makes the Windows taskbar translucent/transparent. 项目地址: https://gitcode.com/gh_mirrors/tr/TranslucentTB 想要让Windows桌面焕…...

直线型一阶倒立摆的VREP仿真实战:手把手教你实现起摆与稳摆控制

直线型一阶倒立摆的VREP仿真实战:手把手教你实现起摆与稳摆控制 在控制理论的学习和研究中,倒立摆系统一直被视为检验各种控制算法的"试金石"。这个看似简单的物理系统,却蕴含着丰富的控制理论内涵——非线性、不稳定、强耦合等特…...

别让AI代码,变成明天的技术债残

如果有多个供应商,你也可以使用 [[CC-Switch]] 来可视化管理这些API key,以及claude code 的skills。 # 多平台安装指令 curl -fsSL https://claude.ai/install.sh | bash ## Claude Code 配置 GLM Coding Plan curl -O "https://cdn.bigmodel.cn/i…...

终极指南:如何在macOS上快速安装QLVideo视频预览神器

终极指南:如何在macOS上快速安装QLVideo视频预览神器 【免费下载链接】QuickLookVideo This package allows macOS Finder to display thumbnails, static QuickLook previews, cover art and metadata for most types of video files. 项目地址: https://gitcode…...

架构演进:Logcat Reader如何重构Android日志调试领域

架构演进:Logcat Reader如何重构Android日志调试领域 【免费下载链接】LogcatReader A simple app for viewing logcat logs on an android device. 项目地址: https://gitcode.com/gh_mirrors/lo/LogcatReader Logcat Reader是一款专为Android开发者设计的开…...

揭秘DXVK:Vulkan驱动的Direct3D翻译层革命

揭秘DXVK:Vulkan驱动的Direct3D翻译层革命 【免费下载链接】dxvk Vulkan-based implementation of D3D8, 9, 10 and 11 for Linux / Wine 项目地址: https://gitcode.com/gh_mirrors/dx/dxvk DXVK(Direct3D to Vulkan)是一款革命性的开…...

【OpenClaw】通过 Nanobot 源码学习架构---()总体吃

核心摘要:这篇文章能帮你 ?? 1. 彻底搞懂条件分支与循环的适用场景,告别选择困难。 ?? 2. 掌握遍历DOM集合修改属性的标准姿势与性能窍门。 ?? 3. 识别流程控制中的常见“坑”,并学会如何优雅地绕过去。 ?? 主要内容脉络 ?? 一、痛…...

从MobileViT到BERT:结构化剪枝如何帮你打造“小钢炮”模型?实战案例与调参避坑指南

从MobileViT到BERT:结构化剪枝实战与调参避坑指南 在移动端和边缘计算场景中,模型小型化已成为AI落地的关键瓶颈。当我们将参数量超过1亿的ViT或BERT部署到手机、嵌入式设备甚至普通GPU服务器时,内存占用大、推理延迟高、能耗超标等问题会集中…...

玩一玩微软的 bit 模型:BitNet. 一个 CPU 就能跑起来的大模型谀

一、 什么是 AI Skills:从工具级到框架级的演化 AI Skills(AI 技能) 的概念最早在 Claude Code 等前沿 Agent 实践中被强化。最初,Skills 被视为“工具级”的增强,如简单的文件读写或终端操作,方便用户快速…...

当大模型把“张一鸣”识别成地名、“Transformer”标为人物——奇点大会NER鲁棒性红蓝对抗测试全记录(含137个对抗样本集)

第一章:2026奇点智能技术大会:大模型命名实体识别 2026奇点智能技术大会(https://ml-summit.org) 大模型NER的范式演进 传统基于BiLSTM-CRF的命名实体识别方法在2026年已全面让位于大语言模型驱动的上下文感知NER架构。本届大会展示的核心突破在于&…...

MiniMax M. 发布!Redis 故障排查 + 跨语言重构场景实测,表现如何?焉

一、前言:什么是 OFA VQA 模型? OFA(One For All)是字节跳动提出的多模态预训练模型,支持视觉问答、图像描述、图像编辑等多种任务,其中视觉问答(VQA)是最常用的功能之一——输入一…...

仅限头部AI平台内部流出的配额审计清单:覆盖Token级计量、跨模型共享配额、突发流量信用额度等8项稀缺机制

第一章:大模型工程化限流与配额管理 2026奇点智能技术大会(https://ml-summit.org) 在大规模语言模型服务化落地过程中,限流与配额管理是保障系统稳定性、公平性与商业可持续性的核心工程能力。当数百个业务方共享同一套推理集群时,突发流量…...

Python——排序

排序一、sorted() 函数(推荐)对字典列表排序(工作超常用)二、list.sort()三、手写快速排序四、高级用法:按指定条件排序1. 按字符串长度2. 按数字绝对值3. 按对象/字典某个字段(接口/测试数据常用&#xff…...

Excel导出避坑指南:Vue项目中xlsx库的6个常见问题及解决方案

Vue项目中Excel导出实战:破解xlsx库的6大高频难题 在Vue项目开发中,数据导出为Excel文件是常见的业务需求,而xlsx库作为前端处理Excel的利器,其使用过程中却暗藏诸多"坑点"。本文将聚焦开发者在真实项目中遇到的6个典型…...

实测对比:CST仿真3.5GHz波导魔T的5种边界条件设置方案

实测对比:CST仿真3.5GHz波导魔T的5种边界条件设置方案 在射频工程领域,波导魔T作为关键的无源器件,其性能直接影响整个系统的信号质量。特别是在5G基站滤波器等应用中,3.4-4GHz频段的特性控制尤为关键。本文将深入探讨五种不同边界…...

Jasmine漫画浏览器终极指南:打造跨设备无缝阅读体验的完整教程

Jasmine漫画浏览器终极指南:打造跨设备无缝阅读体验的完整教程 【免费下载链接】jasmine A comic browser,support Android / iOS / MacOS / Windows / Linux. 项目地址: https://gitcode.com/gh_mirrors/jas/jasmine Jasmine漫画浏览器是一款革…...

HY-Motion 1.0一键部署:云服务器(阿里云/AWS)3分钟上线Web服务

HY-Motion 1.0一键部署:云服务器(阿里云/AWS)3分钟上线Web服务 1. 概述:从文字到动画的魔法转换 想象一下,你只需要输入"一个人在跳舞",电脑就能自动生成一个逼真的3D舞蹈动画。这不是科幻电影…...

CompressO终极指南:免费开源视频压缩神器,一键释放95%存储空间

CompressO终极指南:免费开源视频压缩神器,一键释放95%存储空间 【免费下载链接】compressO Convert any video/image into a tiny size. 100% free & open-source. Available for Mac, Windows & Linux. 项目地址: https://gitcode.com/gh_mir…...

Pharma NLP:药品命名实体识别的代码工程实践

“把这几十万份 ADR(不良反应)报告里的药品名、不良事件、剂量信息都提取出来?现在全靠人工,一个人一天顶多 80 份,三年的报告积压在那儿了。” 药品 NER 跟你在 CoNLL-2003 上跑的那个 NER,不是一个物种。 通用 NER 里,"苹果"要么是水果要么是公司,上下文清…...

扫地机器人,大厂扫地机器人 源代码,freertos实时操作系统,企业级应用源码

扫地机器人,大厂扫地机器人 源代码,freertos实时操作系统,企业级应用源码,适合需要学习嵌入式以及实时操作系统的工程师,32端代码能实现延边避障防跌 落充电等功能。 硬件驱动包含 陀螺仪姿态传感器bmi160、电源管理bq…...

Pi0机器人控制中心边缘计算效果展示:低延迟实时控制演示

Pi0机器人控制中心边缘计算效果展示:低延迟实时控制演示 1. 引言 想象一下,一个机器人能够像人类一样快速响应指令,几乎感觉不到任何延迟——你让它抬手,它瞬间抬手;你让它转向,它立即转向。这种流畅的实…...

gte-base-zh语义去重方案:千万级UGC内容基于gte-base-zh的高效重复检测

gte-base-zh语义去重方案:千万级UGC内容基于gte-base-zh的高效重复检测 1. 引言:当内容泛滥遇上重复难题 你有没有遇到过这样的场景?每天打开内容平台,推送的文章、视频、帖子看起来都差不多,好像总在重复。作为平台…...

EtherLab IGH1.6.5新版本发布:7年等待后的全面升级

1. 七年磨一剑:EtherLab IGH1.6.5的诞生背景 2017年10月发布的EtherLab IGH1.5.2版本,曾经是工业自动化领域的一个重要里程碑。这个开源EtherCAT主站解决方案,凭借其稳定性和灵活性,在机器人控制、数控机床、自动化生产线等场景中…...

影子货币:商家跑路,储值卡变成废纸

中国影子货币全图谱 目录 中国影子货币全图谱 一、第一类:银行表外影子货币(规模最大,约50万亿元) 1. 银行现金管理类理财产品(规模约18万亿元) 2. 银行非保本理财产品(规模约22万亿元) 3. 银行同业存单与同业理财(规模约10万亿元) 二、第二类:非银金融机构影子货币…...

Vue项目实战:基于Element-UI的El-Select-Tree树形下拉选择器封装指南

1. 为什么需要封装El-Select-Tree组件 在实际开发中,我们经常会遇到需要选择树形结构数据的场景。比如选择部门、分类目录或者地区信息时,传统的下拉选择器无法直观展示层级关系。Element-UI虽然提供了el-select和el-tree两个独立组件,但原生…...

H5年会抽奖实战:手机号与微信头像双模式实现

1. 为什么选择H5实现年会抽奖 每到年底,企业年会就成了大家最期待的活动之一。作为技术人,我们总想用些新花样让抽奖环节更有趣。去年我负责公司年会抽奖系统开发时,就遇到了一个典型需求:既要支持传统的手机号抽奖,又…...

ESP8266 OTA升级实战:基于巴法云的极简实现方案

1. ESP8266 OTA升级入门:为什么选择巴法云? 每次给ESP8266设备更新固件都要插USB线?太麻烦了!OTA(Over-The-Air)无线升级技术能让你像手机更新APP一样轻松升级设备固件。而巴法云平台的出现,把原…...

ESP居然能当 DNS 服务器用?内含NCSI欺骗和DNS劫持实现蓝

前言 Kubernetes 本身并不复杂,是我们把它搞复杂的。无论是刻意为之还是那种虽然出于好意却将优雅的原语堆砌成 鲁布戈德堡机械 的狂热。平台最初提供的 ReplicaSets、Services、ConfigMaps,这些基础组件简单直接,甚至显得有些枯燥。但后来我…...