当前位置: 首页 > article >正文

保姆级教程:在Ubuntu 20.04上用PyTorch 1.12和YOLOv5s完整训练COCO数据集(附时间预估与常见坑点)

从零开始Ubuntu 20.04下YOLOv5s训练COCO数据集的实战指南引言在计算机视觉领域目标检测一直是核心研究方向之一。YOLO(You Only Look Once)系列算法因其出色的实时性和准确性成为工业界和学术界的宠儿。本文将带你从零开始在Ubuntu 20.04系统上使用PyTorch 1.12框架完整训练YOLOv5s模型在COCO数据集上的全过程。不同于简单的命令罗列本教程将深入每个操作环节解释背后的原理和常见问题。无论你是刚接触深度学习的学生还是希望快速上手YOLOv5的开发者都能从中获得实用的操作指南。我们将特别关注那些容易被忽略但至关重要的细节比如环境配置中的依赖冲突、数据集准备的路径陷阱以及如何根据你的GPU配置优化训练参数。1. 环境准备与验证1.1 系统基础环境配置Ubuntu 20.04作为长期支持版本提供了稳定的基础环境。我们首先需要确保系统已安装必要的编译工具和依赖项sudo apt update sudo apt upgrade -y sudo apt install -y build-essential cmake git wget unzip python3-dev python3-pip对于深度学习开发NVIDIA驱动和CUDA工具包的安装至关重要。建议使用官方推荐的驱动版本ubuntu-drivers devices # 查看推荐驱动版本 sudo apt install nvidia-driver-510 # 安装推荐版本驱动安装完成后验证驱动是否正常工作nvidia-smi # 应显示GPU信息和驱动版本1.2 CUDA与cuDNN安装PyTorch 1.12官方推荐使用CUDA 11.3版本。我们可以通过官方仓库安装wget https://developer.download.nvidia.com/compute/cuda/repos/ubuntu2004/x86_64/cuda-ubuntu2004.pin sudo mv cuda-ubuntu2004.pin /etc/apt/preferences.d/cuda-repository-pin-600 sudo apt-key adv --fetch-keys https://developer.download.nvidia.com/compute/cuda/repos/ubuntu2004/x86_64/3bf863cc.pub sudo add-apt-repository deb https://developer.download.nvidia.com/compute/cuda/repos/ubuntu2004/x86_64/ / sudo apt update sudo apt install -y cuda-11-3安装完成后将CUDA加入环境变量echo export PATH/usr/local/cuda-11.3/bin:$PATH ~/.bashrc echo export LD_LIBRARY_PATH/usr/local/cuda-11.3/lib64:$LD_LIBRARY_PATH ~/.bashrc source ~/.bashrccuDNN是NVIDIA提供的深度学习加速库需要单独下载安装。从NVIDIA开发者网站下载对应版本后sudo dpkg -i libcudnn8_8.2.1.32-1cuda11.3_amd64.deb sudo dpkg -i libcudnn8-dev_8.2.1.32-1cuda11.3_amd64.deb1.3 Python环境与PyTorch安装建议使用conda或venv创建独立的Python环境python3 -m venv yolov5-env source yolov5-env/bin/activate安装PyTorch 1.12及其依赖pip install torch1.12.1cu113 torchvision0.13.1cu113 torchaudio0.12.1 --extra-index-url https://download.pytorch.org/whl/cu113验证PyTorch是否能正确识别CUDAimport torch print(torch.__version__) # 应输出1.12.1 print(torch.cuda.is_available()) # 应输出True2. COCO数据集准备与处理2.1 数据集下载与结构COCO数据集是目标检测领域的基准数据集之一包含80个类别的超过20万张标注图像。官方提供了多种下载方式我们推荐使用脚本下载mkdir -p ~/datasets/coco cd ~/datasets/coco wget http://images.cocodataset.org/zips/train2017.zip wget http://images.cocodataset.org/zips/val2017.zip wget http://images.cocodataset.org/annotations/annotations_trainval2017.zip解压文件并组织目录结构unzip train2017.zip -d images unzip val2017.zip -d images unzip annotations_trainval2017.zip -d annotations最终目录结构应如下coco/ ├── annotations/ │ ├── instances_train2017.json │ └── instances_val2017.json └── images/ ├── train2017/ └── val2017/2.2 YOLOv5数据格式转换YOLOv5使用特定的数据格式需要将COCO的JSON标注转换为TXT格式。我们可以使用YOLOv5提供的转换脚本git clone https://github.com/ultralytics/yolov5 cd yolov5 pip install -r requirements.txt创建自定义的YAML配置文件data/coco.yaml# COCO 2017 dataset http://cocodataset.org # Example usage: python train.py --data coco.yaml # parent # ├── yolov5 # └── datasets # └── coco ← downloads here (20.1 GB) # Train/val/test sets as 1) dir: path/to/imgs, 2) file: path/to/imgs.txt, or 3) list: [path/to/imgs1, path/to/imgs2, ..] path: ../datasets/coco train: images/train2017 val: images/val2017 test: # test images (optional) # Classes names: 0: person 1: bicycle 2: car # ...完整80个类别运行转换脚本python utils/convert_coco.py --data data/coco.yaml --output data/coco2.3 数据验证与可视化在开始训练前建议验证数据是否正确加载python train.py --data data/coco.yaml --weights --cfg models/yolov5s.yaml --batch-size 16 --epochs 1这将运行一个测试周期确保数据管道正常工作。如果遇到图像显示问题可以修改utils/general.pyimport matplotlib matplotlib.use(Agg) # 禁用GUI显示3. YOLOv5模型训练3.1 训练参数详解YOLOv5提供了丰富的训练参数理解这些参数对优化训练至关重要python train.py \ --data coco.yaml \ --cfg yolov5s.yaml \ --weights \ --batch-size 32 \ --epochs 300 \ --img 640 \ --device 0 \ --workers 8 \ --cache ram \ --hyp data/hyps/hyp.scratch-low.yaml关键参数说明参数说明推荐值--batch-size每批处理的图像数量根据GPU显存调整--img输入图像尺寸640或更高--epochs训练轮数300-500--device使用的GPU编号0或0,1多卡--workers数据加载线程数CPU核心数的2-4倍--cache数据缓存方式ram或disk3.2 训练过程监控YOLOv5集成了多种监控工具TensorBoard自动记录训练指标tensorboard --logdir runs/train训练日志runs/train/exp/results.csv包含所有指标权重文件每个epoch保存的模型权重验证结果定期在验证集上评估并保存最佳模型3.3 训练时间预估训练时间受多种因素影响GPU型号RTX 3090 vs RTX 5000Batch Size32 vs 64图像尺寸640 vs 1280经验估算公式总时间 ≈ (单epoch时间) × (epoch数) × (1 验证开销)例如在RTX 5000 16GB上batch-size64时5个epoch耗时100分钟300epoch总时间 ≈ (100/5)×300 100小时4. 常见问题与优化策略4.1 显存不足解决方案当遇到CUDA out of memory错误时可以尝试减小batch-size从64降到32或16减小图像尺寸从640降到512使用梯度累积python train.py --batch-size 16 --accumulate 2 # 等效batch-size32启用混合精度python train.py --batch-size 32 --amp4.2 训练不稳定问题如果训练出现loss震荡或NaN值调整学习率修改data/hyps/hyp.scratch-low.yaml中的lr0使用预热设置--warmup-epochs 3检查数据标注可能存在错误标注尝试不同优化器--optimizer AdamW4.3 模型性能提升技巧数据增强修改data/hyps/hyp.scratch-low.yaml中的增强参数迁移学习使用预训练权重python train.py --weights yolov5s.pt多尺度训练--multi-scale自动批处理--batch-size auto5. 模型评估与部署5.1 验证集评估训练完成后使用最佳模型评估性能python val.py --data coco.yaml --weights runs/train/exp/weights/best.pt --img 640关键指标解读指标说明良好值mAP0.5IoU0.5时的平均精度0.5mAP0.5:0.95IoU从0.5到0.95的平均精度0.3Precision查准率0.7Recall查全率0.65.2 模型导出与部署YOLOv5支持多种导出格式PyTorch转ONNXpython export.py --weights best.pt --include onnxTensorRT加速python export.py --weights best.pt --include engine --device 0TorchScript格式python export.py --weights best.pt --include torchscript5.3 推理测试使用导出的模型进行推理import torch model torch.hub.load(ultralytics/yolov5, custom, pathbest.pt) results model(test.jpg) results.show()对于生产环境建议使用TensorRT加速的引擎文件可获得数倍的推理速度提升。

相关文章:

保姆级教程:在Ubuntu 20.04上用PyTorch 1.12和YOLOv5s完整训练COCO数据集(附时间预估与常见坑点)

从零开始:Ubuntu 20.04下YOLOv5s训练COCO数据集的实战指南 引言 在计算机视觉领域,目标检测一直是核心研究方向之一。YOLO(You Only Look Once)系列算法因其出色的实时性和准确性,成为工业界和学术界的宠儿。本文将带你从零开始,在…...

从量子自旋到量子比特:原理、应用与工程实践全解析

1. 从“旋转的电子”到“内禀角动量”:自旋概念的祛魅如果你在大学里上过量子力学课,大概率在某个时刻被“自旋”这个概念迎面撞上。我记得当时教授在黑板上写下“电子自旋为1/2”,然后试图用一个小球绕自身轴旋转的经典图像来解释&#xff0…...

告别GSWP3:手把手教你为CESM2.1.3配置自定义气象强迫数据集(CLM1PT模式详解)

告别GSWP3:手把手教你为CESM2.1.3配置自定义气象强迫数据集(CLM1PT模式详解) 当研究团队需要将ERA5、CMIP6等新型再分析数据接入CESM模型时,往往会在数据接口环节遭遇"黑箱"操作困境。本文将以CLM1PT模式为切入点&#…...

别再复制粘贴了!手把手教你用Simscape Language从零创建自定义物理模块(附完整代码)

从零构建Simscape自定义物理模块:工程师的深度实践指南 在物理系统建模领域,预置的标准化组件库往往无法满足复杂工程场景的需求。当您面对一个特殊的齿轮传动机构、非线性的液压元件或是定制化的传感器模型时,掌握Simscape Language的自定义…...

FPGA与CPLD在数字机顶盒中的关键技术应用

1. 可编程逻辑器件在数字机顶盒中的核心价值 数字机顶盒作为连接广播网络与终端显示设备的关键枢纽,其设计面临三大核心挑战:多标准兼容性、快速功能迭代和成本控制。Xilinx Spartan系列FPGA和CoolRunner CPLD通过硬件可重构特性,为这些挑战提…...

HEIF Utility终极指南:如何在Windows上免费打开和转换苹果HEIF照片

HEIF Utility终极指南:如何在Windows上免费打开和转换苹果HEIF照片 【免费下载链接】HEIF-Utility HEIF Utility - View/Convert Apple HEIF images on Windows. 项目地址: https://gitcode.com/gh_mirrors/he/HEIF-Utility 还在为iPhone照片在Windows电脑上…...

保姆级教程:在Ubuntu 20.04上用YOLOv5 v6.2训练你自己的COCO数据集(附完整数据准备流程)

在Ubuntu 20.04上从零构建YOLOv5 v6.2自定义训练环境的完整指南 当你想在本地工作站或云服务器上训练自己的目标检测模型时,YOLOv5无疑是最受欢迎的选择之一。但许多教程都假设你已经熟悉了Linux环境配置、数据集处理等前置知识,这让不少初学者在第一步…...

别再手动调参了!用Python+OpenCV玩转NCC立体匹配,手把手教你生成高质量视差图

PythonOpenCV实战:NCC立体匹配参数调优全指南 立体匹配是计算机视觉中获取深度信息的关键技术,而NCC(归一化互相关)作为经典的灰度匹配算法,在实际项目中既简单又实用。但很多开发者在使用时往往陷入手动调参的困境—…...

从NOI真题到算法思维:向量叉积在计算几何中的实战解析

1. 向量叉积:从数学公式到代码实现 第一次接触NOI真题中计算三角形面积的题目时,我被那个看似复杂的向量叉积公式吓了一跳。但当我真正理解它的原理后,才发现这简直是计算几何中的"瑞士军刀"。让我们从一个具体的例子开始&#xff…...

终极跨平台桌面待办工具:My-TODOs如何重塑你的任务管理体验

终极跨平台桌面待办工具:My-TODOs如何重塑你的任务管理体验 【免费下载链接】My-TODOs A cross-platform desktop To-Do list. 跨平台桌面待办小工具 项目地址: https://gitcode.com/gh_mirrors/my/My-TODOs 你是否厌倦了复杂的任务管理软件?是否…...

如何快速解决Visual C++运行库安装问题:终极一站式解决方案指南

如何快速解决Visual C运行库安装问题:终极一站式解决方案指南 【免费下载链接】vcredist AIO Repack for latest Microsoft Visual C Redistributable Runtimes 项目地址: https://gitcode.com/gh_mirrors/vc/vcredist 你是否曾经遇到过应用程序无法启动&…...

ARM-MPU实战:从寄存器配置到内存安全防护

1. ARM-MPU基础概念与核心价值 第一次接触ARM-MPU时,我盯着开发板反复确认了三遍接线——明明程序逻辑完全正确,却总是莫名其妙进入HardFault中断。后来才发现是某个野指针改写了关键数据区,这种隐蔽的错误让我意识到内存保护的重要性。ARM-M…...

如何在JavaScript中快速生成专业的PowerPoint演示文稿

如何在JavaScript中快速生成专业的PowerPoint演示文稿 【免费下载链接】PptxGenJS Build PowerPoint presentations with JavaScript. Works with Node, React, web browsers, and more. 项目地址: https://gitcode.com/gh_mirrors/pp/PptxGenJS PptxGenJS是一个功能强大…...

深度实战:如何用League Akari将英雄联盟游戏效率提升300%的终极秘籍

深度实战:如何用League Akari将英雄联盟游戏效率提升300%的终极秘籍 【免费下载链接】League-Toolkit An all-in-one toolkit for LeagueClient. Gathering power 🚀. 项目地址: https://gitcode.com/gh_mirrors/le/League-Toolkit 你是否经历过在…...

别再轮询了!用STM32外部中断(EXTI)实现按键响应,效率提升不止一点点

STM32外部中断实战:从轮询到事件驱动的效率革命 刚接触STM32开发的工程师,往往会在按键检测这类基础功能上陷入"轮询陷阱"——用while循环不断检查GPIO状态,搭配delay_ms函数试图消除抖动。这种模式在51单片机时代或许可行&#x…...

SignalTap调试进阶:巧用约束与别名捕获FPGA优化后的关键信号

1. 为什么优化后的信号会"消失"? 很多FPGA工程师都遇到过这样的场景:明明在代码里明确定义了reg和wire信号,但在SignalTap里死活找不到它们的身影。这其实不是工具出了问题,而是Quartus的综合优化在"作怪"。…...

还在手动整理ai会议纪要浪费宝贵下班时间?2026年这4款真香AI工具3分钟搞定3小时会议

作为挖了快三年AI效率工具的爱好者,我上周刚被3小时项目复盘会的纪要搞到加班到九点,试了一圈新出的工具,直接给大家上结论:听脑AI是目前同类会议纪要工具里最值得用的,没有之一。 直达链接:https://iting…...

Python实战:三大曲线平滑技术对比与场景选型指南

1. 曲线平滑处理的必要性 当你处理传感器数据、金融时间序列或任何带有噪声的曲线时,原始数据往往像一条暴躁的蚯蚓——上下乱窜让人抓狂。我在处理工业传感器数据时就遇到过这种情况:一条本该平滑的温度曲线,因为电磁干扰变成了"心电图…...

告别手机外放‘破音’:深入拆解SmartPA技术如何拯救MTK平台的音频体验

告别手机外放‘破音’:深入拆解SmartPA技术如何拯救MTK平台的音频体验 你是否曾在用手机外放音乐时,遇到音量调大就出现刺耳破音的情况?或是发现低音部分总是软弱无力,完全没有沉浸感?这些问题在采用MTK平台的手机中尤…...

完整指南:3分钟解锁你的加密音乐文件

完整指南:3分钟解锁你的加密音乐文件 【免费下载链接】qmc-decoder Fastest & best convert qmc 2 mp3 | flac tools 项目地址: https://gitcode.com/gh_mirrors/qm/qmc-decoder 你是否曾经遇到过这样的情况:从音乐平台下载的歌曲只能在特定应…...

从编码器线数到电子齿轮比:一份给PLC编程员的伺服电机脉冲计算避坑指南

从编码器线数到电子齿轮比:PLC工程师的伺服电机脉冲计算实战手册 在工业自动化领域,伺服系统的精确定位控制一直是工程师面临的核心挑战。当机械臂需要以0.001mm的精度进行装配,或是数控机床要完成微米级的切削时,脉冲计算的准确…...

如何快速解锁中兴光猫:zteOnu工具的完整指南

如何快速解锁中兴光猫:zteOnu工具的完整指南 【免费下载链接】zteOnu A tool that can open ZTE onu device factory mode 项目地址: https://gitcode.com/gh_mirrors/zt/zteOnu 中兴光猫工厂模式解锁神器zteOnu是一款专为网络爱好者设计的开源工具&#xff…...

保姆级教程:在银河麒麟V10上为gcc编译的程序添加可执行权限(附kysec_set命令详解)

银河麒麟V10系统下gcc编译程序执行权限问题全解析 在银河麒麟V10操作系统中,许多开发者首次使用gcc编译程序后,会遇到一个看似简单却令人困惑的问题:明明已经为生成的可执行文件添加了传统Linux权限(如chmod x)&#…...

开源图表实时编辑器:从代码到可视化的无缝创作解决方案

开源图表实时编辑器:从代码到可视化的无缝创作解决方案 【免费下载链接】mermaid-live-editor Edit, preview and share mermaid charts/diagrams. New implementation of the live editor. 项目地址: https://gitcode.com/GitHub_Trending/me/mermaid-live-edito…...

如何用5分钟彻底解决Mac菜单栏混乱?Ice菜单栏管理工具终极指南

如何用5分钟彻底解决Mac菜单栏混乱?Ice菜单栏管理工具终极指南 【免费下载链接】Ice Powerful menu bar manager for macOS 项目地址: https://gitcode.com/GitHub_Trending/ice/Ice 你是否曾盯着Mac屏幕顶部那密密麻麻的图标海洋感到无力?Wi-Fi图…...

保姆级教程:SAP S/4HANA数据迁移,用LTMC从零导入会计科目(附模板避坑指南)

SAP S/4HANA会计科目迁移实战:LTMC工具全流程详解与避坑手册 当企业首次部署SAP S/4HANA时,会计科目主数据的迁移往往是财务模块实施的关键第一步。不同于传统ECC系统,S/4HANA的简化数据模型对会计科目结构提出了新要求,而Migrati…...

从IEEE 1588到EtherCAT DC:深入对比两种工业网络时间同步协议的核心差异与应用选型

工业网络时间同步技术深度解析:EtherCAT DC与IEEE 1588的实战选型指南 在智能制造和自动化控制领域,毫秒级的响应时间早已成为过去式。现代工业网络对时间同步精度的要求已经进入纳秒时代——这相当于光在真空中仅能传播30厘米的时间跨度。当多个伺服电…...

从Arduino到STM32:GRBL固件选型、下载与刷写全攻略(2024版)

从Arduino到STM32:2024年GRBL固件选型与刷写实战指南 在DIY激光雕刻机和CNC设备的构建过程中,控制器的选择与GRBL固件的配置往往是决定项目成败的关键环节。面对市场上琳琅满目的硬件平台——从经典的Arduino Uno到性能更强的STM32系列开发板&#xff0…...

HS2-HF_Patch终极指南:一站式汉化与功能增强解决方案

HS2-HF_Patch终极指南:一站式汉化与功能增强解决方案 【免费下载链接】HS2-HF_Patch Automatically translate, uncensor and update HoneySelect2! 项目地址: https://gitcode.com/gh_mirrors/hs/HS2-HF_Patch HS2-HF_Patch是《Honey Select 2》玩家的终极解…...

3分钟掌握B站缓存转换:开源m4s-converter工具全攻略

3分钟掌握B站缓存转换:开源m4s-converter工具全攻略 【免费下载链接】m4s-converter 一个跨平台小工具,将bilibili缓存的m4s格式音视频文件合并成mp4 项目地址: https://gitcode.com/gh_mirrors/m4/m4s-converter 还在为B站下架视频而烦恼吗&…...