PyTorch 深度学习实战(29):目标检测与 YOLOv12 实战
在上一篇文章中,我们探讨了对比学习与自监督表示学习。本文将深入计算机视觉的核心任务之一——目标检测,重点介绍最新的 YOLOv12 (You Only Look Once v12) 算法。我们将使用 PyTorch 实现 YOLOv12 模型,并在 COCO 数据集上进行训练和评估。
一、YOLOv12 基础
YOLOv12 是 Ultralytics 于 2024 年 12 月发布的最新版本,相比 YOLOv11 具有革命性改进。
1. YOLOv12 的核心思想
-
Omni-Dimensional 动态网络:
-
根据输入分辨率动态调整网络结构
-
-
神经架构搜索 (NAS):
-
自动优化模型架构
-
-
多模态融合:
-
支持图像、视频和点云数据联合训练
-
-
自监督预训练:
-
新增对比学习预训练模式
-
2. YOLOv12 的优势
| 指标 | YOLOv11 | YOLOv12 | 提升幅度 |
|---|---|---|---|
| mAP@0.5:0.95 | 56.2 | 58.7 | +4.4% |
| 推理速度(FPS) | 425 | 520 | +22% |
| 训练效率 | 1x | 1.8x | +80% |
| 能效比 | 1x | 1.5x | +50% |
3. YOLOv12 的算法流程
-
动态输入处理:自动适应不同分辨率输入
-
多模态特征提取:统一处理图像/视频/点云
-
NAS 优化预测头:自动调整检测头结构
-
自监督微调:可选对比学习增强模式
-
混合精度推理:自动切换 FP16/INT8
二、COCO 数据集实战
我们将使用 PyTorch 和 Ultralytics 官方实现进行 YOLOv12 的训练和评估。
1. 实现步骤
-
安装 YOLOv12 环境
-
准备 COCO 数据集
-
配置模型参数
-
训练和评估模型
-
测试模型性能
2. 代码实现
import torch
from ultralytics import YOLO
from PIL import Image
import matplotlib.pyplot as plt
from matplotlib.patches import Rectangle
# 设备配置
device = torch.device("cuda" if torch.cuda.is_available() else "cpu")
# 加载预训练模型 (下载地址为https://github.com/sunsmarterjie/yolov12/releases/download/v1.0/yolov12s.pt)
model = YOLO('yolov12s.pt').to(device)
# COCO 类别标签
coco_labels = model.names # 自动从模型获取
# 检测函数
def detect(image_path):# 加载图像img = Image.open(image_path)# 推理results = model(img, conf=0.5, iou=0.45)# 解析结果detections = []for result in results:boxes = result.boxesfor box in boxes:detections.append({'bbox': box.xyxy[0].tolist(),'confidence': box.conf.item(),'class': coco_labels[int(box.cls)]})return img, detections
# 可视化函数
def plot_detections(image, detections):plt.figure(figsize=(12, 8))plt.imshow(image)ax = plt.gca()for det in detections:bbox = det['bbox']rect = Rectangle((bbox[0], bbox[1]), bbox[2]-bbox[0], bbox[3]-bbox[1],linewidth=2, edgecolor='r', facecolor='none')ax.add_patch(rect)plt.text(bbox[0], bbox[1]-5, f"{det['class']} {det['confidence']:.2f}",color='red', fontsize=12, bbox=dict(facecolor='white', alpha=0.7))plt.axis('off')plt.show()
# 测试检测
image_path = "test.jpg" # 替换为你的测试图像
original_image, detections = detect(image_path)
plot_detections(original_image, detections)
原图:

输出图:

三、YOLOv12 关键技术
1. Omni-Dimensional 动态网络
class OmniDimensionalBlock(nn.Module):def __init__(self, c1, c2):super().__init__()# 动态卷积核选择self.conv = nn.ModuleDict({'3x3': nn.Conv2d(c1, c2, 3),'5x5': nn.Conv2d(c1, c2, 5),'dilated': nn.Conv2d(c1, c2, 3, dilation=2)})def forward(self, x):# 根据输入分辨率选择操作h, w = x.shape[2:]if max(h,w) > 640:return self.conv['5x5'](x)elif min(h,w) < 320:return self.conv['dilated'](x)else:return self.conv['3x3'](x)
2. 动态标签分配
![]()
其中权重系数随训练动态调整:
def dynamic_k_matching(scores, targets, current_epoch):# 动态调整k值k = max(1, int(10 * (1 - current_epoch/max_epoch)))# 计算匹配分数match_quality = alpha*iou + beta*cls_score + gamma*center_prior# 执行top-k选择_, topk_idx = match_quality.topk(k, dim=1)return topk_idx
3. 损失函数
YOLOv12 使用改进的多任务损失:

四、自定义数据集训练
1. 数据准备
# custom_data.yaml
path: ./datasets/custom
train: images/train
val: images/val
# 多模态支持示例
modality: - image# - video # 可选视频数据
names:0: pedestrian1: vehicle2: traffic_sign
2. 训练配置
# 训练参数
args = {'data': 'custom_data.yaml','epochs': 100,'batch': 32,'imgsz': 640,'optimizer': 'AdamW','lr0': 0.002,'cos_lr': True,'label_smoothing': 0.1,'nas': 'partial', # 部分架构搜索'self_supervised': False # 可选自监督模式
}
# 开始训练
model = YOLO('yolov12s.pt')
results = model.train(**args)
3. 模型评估
metrics = model.val(data='custom_data.yaml',batch=32,imgsz=640,conf=0.001,iou=0.6
)
print(f"mAP@0.5: {metrics.box.map:.3f}")
4.使用coco8
from ultralytics import YOLO
# coco8.yaml下载地址为https://github.com/ultralytics/ultralytics/blob/main/ultralytics/cfg/datasets/coco8.yaml
# Load a model
model = YOLO("yolo11n.pt") # load a pretrained model (recommended for training)
# Train the model
results = model.train(data="coco8.yaml", epochs=100, imgsz=640)
metrics = model.val(data='coco8.yaml',batch=32,imgsz=640,conf=0.001,iou=0.6
)
print(f"mAP@0.5: {metrics.box.map:.3f}")
输出为:

五、总结
本文详细介绍了 YOLOv12 的核心改进和 PyTorch 实现,包括:
-
Omni-Dimensional 动态网络的输入自适应机制
-
多模态统一架构的跨模态学习能力
-
自监督-有监督联合训练策略
-
全自动架构搜索的硬件优化
在下一篇文章《模型压缩与量化部署》中,我们将深入解析 YOLOv12 的量化技术和部署优化策略。
实践建议:
-
高精度场景:使用
yolov12x+ NAS 全量搜索 -
实时系统:选择
yolov12n+ INT8 量化 -
多模态应用:启用
modality参数联合训练 -
数据不足时:开启
self_supervised=True模式
相关文章:
PyTorch 深度学习实战(29):目标检测与 YOLOv12 实战
在上一篇文章中,我们探讨了对比学习与自监督表示学习。本文将深入计算机视觉的核心任务之一——目标检测,重点介绍最新的 YOLOv12 (You Only Look Once v12) 算法。我们将使用 PyTorch 实现 YOLOv12 模型,并在 COCO 数据集上进行训练和评估。…...
Python爬虫:开启数据抓取的奇幻之旅(一)
目录 一、爬虫初印象:揭开神秘面纱 二、工欲善其事:前期准备 (一)Python 环境搭建 1.下载 Python 安装包: 2.运行安装程序: 3.配置环境变量(若自动添加失败)&#x…...
python下载m3u8格式视频
一、安装 m3u8库 pip install requests pip install requests m3u8 二、编码实现 import os import re import requests import subprocess# 下载ts文件 def down_ts_file(base_url, m3u8_url, download_dir):# 从m3u8文件中获取所有ts的分片名称信息response requests.get…...
【区块链安全 | 第五篇】DeFi概念详解
文章目录 DeFi1. DeFi 生态概览2. 去中心化交易所(DEX)2.1 AMM(自动做市商)模型2.2 订单簿模式(现货交易) 3. 借贷协议3.1 Aave3.2 使用闪电贷(Flash Loan) 4. 稳定币(St…...
【初探数据结构】归并排序与计数排序的序曲
💬 欢迎讨论:在阅读过程中有任何疑问,欢迎在评论区留言,我们一起交流学习! 👍 点赞、收藏与分享:如果你觉得这篇文章对你有帮助,记得点赞、收藏,并分享给更多对数据结构感…...
基于ruoyi快速开发平台搭建----超市仓库管理(修改记录1)
一、数据库的设计一定注意不要用关键字 数据库是同学设计的,但是在实践过程中,发现,生成的代码一直报错,结果发现数据库里面商品表里面的商品类别竟然设置成class, 注意:: class 是 Java 中的关键字&…...
《AI加持,SQL Server预测性维护全攻略》
在数字化时代,数据就是企业的生命线,而SQL Server作为一款应用广泛的关系型数据库管理系统,承载着企业海量的数据资产。但数据库运行过程中,故障就像隐藏在暗处的“定时炸弹”,随时可能引发数据丢失、业务中断等严重后…...
Java基础——面向对象
1.抽象Abstract:抽象类和抽象方法; 抽象类:不完整的类,就是抽象类:abstract class 类名; 抽象方法:只有声明,没有实现的方法; abstract 返回值类型 方法名(参数&#…...
Springboot学习笔记3.20
目录 1.实战篇第一课 我们将会在本次实战中学习到哪些知识点? 开发模式和环境搭建: 注册接口 1.Lombok 2.开发流程 1.controller层,这个层会指明访问路径和要执行的逻辑: 2.我们把返回结果根据接口文档包装成一个类result&a…...
Ubuntu和Windows实现文件互传
1.开启Ubuntu下的FTP服务: (1)终端输入: sudo apt-get install vsftpd(2)安装完成后: 终端输入: /etc 是 Linux 系统的全局配置文件目录,存储系统和应用程序的配置信息…...
java面向对象从入门到入土
面向对象进阶 (写程序的套路) 面向:拿,找 对象:能干活的东西 面向对象编程:拿东西过来做对应的事情 (写程序的套路) 面向:拿,找 对象:能干活的东西 面向对象编程:拿东西过来做对应的事情 重点学习:学习已有对象并使用,学习如何自己设计对象并使用 设计对…...
linux ACL权限控制之用户权限控制程序设计
linux中的ACL(Access Control List,访问控制列表)是一种比传统UNIX权限更细粒度的权限控制机制,允许为文件和目录设置更为具体的用户和组权限。本文介绍使用acl命令和程序api对文件进行更精细的用户权限控制。 1. 命令行示例 使…...
Java多线程与JConsole实践:从线程状态到性能优化!!!
目录 一、前言二、JConsole 使用教程二、线程的基本状态2.1新建状态(New)2.2就绪状态(Ready)2.3运行状态(Running)2.4 阻塞状态(Blocked)2.5. 等待状态(Waitingÿ…...
从入门到精通:SQL注入防御与攻防实战——红队如何突破,蓝队如何应对!
引言:为什么SQL注入攻击依然如此强大? SQL注入(SQL Injection)是最古老且最常见的Web应用漏洞之一。尽管很多公司和组织都已经采取了WAF、防火墙、数据库隔离等防护措施,但SQL注入依然在许多情况下能够突破防线&#…...
Stable Diffusion vue本地api接口对接,模型切换, ai功能集成开源项目 ollama-chat-ui-vue
1.开启Stable Diffusion的api服务 编辑webui-user.bat 添加 –api 开启api服务,然后保存启动就可以了 2.api 文档地址 http://127.0.0.1:7860/docs3. 文生图 接口 地址 /sdapi/v1/txt2img //post 请求入参 {enable_hr: false, // 开启高清hrdenoising_stre…...
缓存使用纪要
一、本地缓存:Caffeine 1、简介 Caffeine是一种高性能、高命中率、内存占用低的本地缓存库,简单来说它是 Guava Cache 的优化加强版,是当下最流行、最佳(最优)缓存框架。 Spring5 即将放弃掉 Guava Cache 作为缓存机…...
第十四届蓝桥杯真题(PWM输出)
一.LED 先配置LED的八个引脚为GPIO_OutPut,锁存器PD2也是,然后都设置为起始高电平,生成代码时还要去解决引脚冲突问题 二.按键 按键配置,由原理图按键所对引脚要GPIO_Input 生成代码,在文件夹中添加code文件夹&#…...
【Qt】ffmpeg编码—存储(H264)
目录 一、编码分析 1.解码线程: 编辑2.编码线程: 编辑 编辑 二、ffmpeg编码 1.注册所有组件 2.编码初始化函数 (2)打开视频流 4.查找编码器 5. 写文件头信息,写到formatContex中 6.发送一帧数据给编码器…...
Webview详解(下)
第三阶段:性能优化 加载速度优化 缓存策略 缓存策略可以显著减少网络请求,提升页面加载速度。常用的缓存策略包括 HTTP 缓存和本地资源预加载。 1. HTTP 缓存 HTTP 缓存利用 HTTP 协议中的缓存机制(如 Cache-Control、ETag 等࿰…...
【MySQL基础-16】MySQL DELETE语句:深入理解与应用实践
1. DELETE语句基础:数据删除的艺术 在数据库管理中,DELETE语句是维护数据完整性和清理过期信息的关键工具。与日常生活中的"删除"不同,数据库中的删除操作需要更加谨慎和精确,因为数据一旦删除,恢复可能非常…...
相对位置嵌入和旋转位置编码
1. 相对位置嵌入:给注意力机制加“人际关系记忆” 像班级座位表 想象全班同学(序列的各个元素)坐成一个圈,老师(模型)要记住每个人之间的相对位置: 传统方法:老师给每个座位贴绝对…...
Unity编辑器功能及拓展(1) —特殊的Editor文件夹
Unity中的Editor文件夹是一个具有特殊用途的目录,主要用于存放与编辑器扩展功能相关的脚本和资源。 一.纠缠不清的UnityEditor 我们Unity中进行游戏构建时,我们经常遇到关于UnityEditor相关命名空间丢失的报错,这时候,只得将报错…...
REC一些操作解法
一.Linux命令长度突破 1.源码如下 <?php $param $_REQUEST[param];if ( strlen($param) < 8 ) {echo shell_exec($param); } 2.源码分析 echo执行函数,$_REQUEST可以接post、get、cookie传参 3.破题思路 源码中对参数长度做了限制,小于8位&a…...
powershell7.5.0不支持conda的问题
经历:这周手欠使用vscode的powershell时提示我更新,我就更新了,更新完激活不了conda环境了,查询了半天是powershell最新版7.5.0与目前conda25.1.1以前的版本不支持的问题。 问题环境:powershell版本>7.5.0ÿ…...
Android Jetpack学习总结(源码级理解)
ViewModel 和 LiveData 是 Android Jetpack 组件库中的两个核心组件,它们能帮助开发者更有效地管理 UI 相关的数据,并且能够在配置变更(如屏幕旋转)时保存和恢复 UI 数据。 ViewModel作用 瞬态数据丢失的恢复,比如横竖…...
Unity中UDP异步通信常用API使用
Begin开头的方法 BeginSendTo BeginSendTo 是 UdpClient 类中的一个重要方法,用于开始一个异步操作来发送 UDP 数据报到指定的远程端点 public IAsyncResult BeginSendTo(byte[] datagram,int bytes,IPEndPoint endPoint,AsyncCallback requestCallback,object s…...
解决Dify:failed to init dify plugin db问题
Dify最新版本1.1.3(langgenius/dify: Dify is an open-source LLM app development platform. Difys intuitive interface combines AI workflow, RAG pipeline, agent capabilities, model management, observability features and more, letting you quickly go from prototy…...
[AI绘图] ComfyUI 中自定义节点插件安装方法
ComfyUI 是一个强大的 AI 图像生成工具,支持自定义节点插件扩展其功能。本文介绍 ComfyUI 中安装自定义节点插件的三种方法,包括 Git Clone 方式、插件管理器安装方式,以及手动解压 ZIP 文件的方法,并分析它们的优缺点。 1. Git Clone 方法 使用 git clone 是最稳定且推荐…...
【机械视觉】C#+VisionPro联合编程———【六、visionPro连接工业相机设备】
【机械视觉】C#VisionPro联合编程———【六、visionPro连接工业相机设备】 目录 【机械视觉】C#VisionPro联合编程———【六、visionPro连接工业相机设备】 前言: 连接步骤说明 一. 硬件连接 支持的相机接口类型: 连接步骤 2. 软件配置 Visio…...
CI/CD基础知识
什么是CI/CD CI:持续集成,开发人员频繁地将代码集成到主干(主分支)中每次集成都通过自动化构建和测试来验证,从而尽早发现集成错误,常用的CI工具包括Jenkins、Travis CI、CircleCI、GitLab CI等 CD&#…...
