当前位置：首页 > article >正文

PyTorch 深度学习实战（29）：目标检测与 YOLOv12 实战

article 2026/2/17 13:15:15

在上一篇文章中，我们探讨了对比学习与自监督表示学习。本文将深入计算机视觉的核心任务之一——目标检测，重点介绍最新的 YOLOv12 (You Only Look Once v12) 算法。我们将使用 PyTorch 实现 YOLOv12 模型，并在 COCO 数据集上进行训练和评估。

一、YOLOv12 基础

YOLOv12 是 Ultralytics 于 2024 年 12 月发布的最新版本，相比 YOLOv11 具有革命性改进。

1. YOLOv12 的核心思想

Omni-Dimensional 动态网络：
- 根据输入分辨率动态调整网络结构
神经架构搜索 (NAS)：
- 自动优化模型架构
多模态融合：
- 支持图像、视频和点云数据联合训练
自监督预训练：
- 新增对比学习预训练模式

2. YOLOv12 的优势

指标	YOLOv11	YOLOv12	提升幅度
mAP@0.5:0.95	56.2	58.7	+4.4%
推理速度(FPS)	425	520	+22%
训练效率	1x	1.8x	+80%
能效比	1x	1.5x	+50%

3. YOLOv12 的算法流程

动态输入处理：自动适应不同分辨率输入
多模态特征提取：统一处理图像/视频/点云
NAS 优化预测头：自动调整检测头结构
自监督微调：可选对比学习增强模式
混合精度推理：自动切换 FP16/INT8

二、COCO 数据集实战

我们将使用 PyTorch 和 Ultralytics 官方实现进行 YOLOv12 的训练和评估。

1. 实现步骤

安装 YOLOv12 环境
准备 COCO 数据集
配置模型参数
训练和评估模型
测试模型性能

2. 代码实现

import torch
from ultralytics import YOLO
from PIL import Image
import matplotlib.pyplot as plt
from matplotlib.patches import Rectangle

# 设备配置
device = torch.device("cuda" if torch.cuda.is_available() else "cpu")

# 加载预训练模型 (下载地址为https://github.com/sunsmarterjie/yolov12/releases/download/v1.0/yolov12s.pt)
model = YOLO('yolov12s.pt').to(device)

# COCO 类别标签
coco_labels = model.names  # 自动从模型获取

# 检测函数
def detect(image_path):# 加载图像img = Image.open(image_path)# 推理results = model(img, conf=0.5, iou=0.45)# 解析结果detections = []for result in results:boxes = result.boxesfor box in boxes:detections.append({'bbox': box.xyxy[0].tolist(),'confidence': box.conf.item(),'class': coco_labels[int(box.cls)]})return img, detections

# 可视化函数
def plot_detections(image, detections):plt.figure(figsize=(12, 8))plt.imshow(image)ax = plt.gca()for det in detections:bbox = det['bbox']rect = Rectangle((bbox[0], bbox[1]), bbox[2]-bbox[0], bbox[3]-bbox[1],linewidth=2, edgecolor='r', facecolor='none')ax.add_patch(rect)plt.text(bbox[0], bbox[1]-5, f"{det['class']} {det['confidence']:.2f}",color='red', fontsize=12, bbox=dict(facecolor='white', alpha=0.7))plt.axis('off')plt.show()

# 测试检测
image_path = "test.jpg"  # 替换为你的测试图像
original_image, detections = detect(image_path)
plot_detections(original_image, detections)

原图：

输出图：

三、YOLOv12 关键技术

1. Omni-Dimensional 动态网络

class OmniDimensionalBlock(nn.Module):def __init__(self, c1, c2):super().__init__()# 动态卷积核选择self.conv = nn.ModuleDict({'3x3': nn.Conv2d(c1, c2, 3),'5x5': nn.Conv2d(c1, c2, 5),'dilated': nn.Conv2d(c1, c2, 3, dilation=2)})def forward(self, x):# 根据输入分辨率选择操作h, w = x.shape[2:]if max(h,w) > 640:return self.conv['5x5'](x)elif min(h,w) < 320:return self.conv['dilated'](x)else:return self.conv['3x3'](x)

2. 动态标签分配

其中权重系数随训练动态调整：

def dynamic_k_matching(scores, targets, current_epoch):# 动态调整k值k = max(1, int(10 * (1 - current_epoch/max_epoch)))# 计算匹配分数match_quality = alpha*iou + beta*cls_score + gamma*center_prior# 执行top-k选择_, topk_idx = match_quality.topk(k, dim=1)return topk_idx

3. 损失函数

YOLOv12 使用改进的多任务损失：

四、自定义数据集训练

1. 数据准备

# custom_data.yaml
path: ./datasets/custom
train: images/train
val: images/val

# 多模态支持示例
modality: - image# - video  # 可选视频数据

names:0: pedestrian1: vehicle2: traffic_sign

2. 训练配置

# 训练参数
args = {'data': 'custom_data.yaml','epochs': 100,'batch': 32,'imgsz': 640,'optimizer': 'AdamW','lr0': 0.002,'cos_lr': True,'label_smoothing': 0.1,'nas': 'partial',  # 部分架构搜索'self_supervised': False  # 可选自监督模式
}

# 开始训练
model = YOLO('yolov12s.pt')
results = model.train(**args)

3. 模型评估

metrics = model.val(data='custom_data.yaml',batch=32,imgsz=640,conf=0.001,iou=0.6
)

print(f"mAP@0.5: {metrics.box.map:.3f}")

4.使用coco8

from ultralytics import YOLO
# coco8.yaml下载地址为https://github.com/ultralytics/ultralytics/blob/main/ultralytics/cfg/datasets/coco8.yaml
# Load a model
model = YOLO("yolo11n.pt")  # load a pretrained model (recommended for training)

# Train the model
results = model.train(data="coco8.yaml", epochs=100, imgsz=640)

metrics = model.val(data='coco8.yaml',batch=32,imgsz=640,conf=0.001,iou=0.6
)

print(f"mAP@0.5: {metrics.box.map:.3f}")

输出为：

五、总结

本文详细介绍了 YOLOv12 的核心改进和 PyTorch 实现，包括：

Omni-Dimensional 动态网络的输入自适应机制
多模态统一架构的跨模态学习能力
自监督-有监督联合训练策略
全自动架构搜索的硬件优化

在下一篇文章《模型压缩与量化部署》中，我们将深入解析 YOLOv12 的量化技术和部署优化策略。

实践建议：

高精度场景：使用 yolov12x + NAS 全量搜索
实时系统：选择 yolov12n + INT8 量化
多模态应用：启用 modality 参数联合训练
数据不足时：开启 self_supervised=True 模式

PyTorch 深度学习实战（29）：目标检测与 YOLOv12 实战

在上一篇文章中，我们探讨了对比学习与自监督表示学习。本文将深入计算机视觉的核心任务之一——目标检测，重点介绍最新的 YOLOv12 (You Only Look Once v12) 算法。我们将使用 PyTorch 实现 YOLOv12 模型，并在 COCO 数据集上进行训练和评估。…...

编程日记 2026/2/16 8:58:45

Python爬虫：开启数据抓取的奇幻之旅（一）

目录一、爬虫初印象：揭开神秘面纱二、工欲善其事：前期准备 （一）Python 环境搭建 1.下载 Python 安装包： 2.运行安装程序： 3.配置环境变量（若自动添加失败）&#x…...

编程日记 2026/2/13 11:35:17

一、安装 m3u8库 pip install requests pip install requests m3u8 二、编码实现 import os import re import requests import subprocess# 下载ts文件 def down_ts_file(base_url, m3u8_url, download_dir):# 从m3u8文件中获取所有ts的分片名称信息response requests.get…...

编程日记 2026/2/15 7:54:41

【区块链安全 | 第五篇】DeFi概念详解

文章目录 DeFi1. DeFi 生态概览2. 去中心化交易所（DEX）2.1 AMM（自动做市商）模型2.2 订单簿模式（现货交易） 3. 借贷协议3.1 Aave3.2 使用闪电贷（Flash Loan） 4. 稳定币（St…...

编程日记 2026/2/15 11:27:42

【初探数据结构】归并排序与计数排序的序曲

💬 欢迎讨论：在阅读过程中有任何疑问，欢迎在评论区留言，我们一起交流学习！ 👍 点赞、收藏与分享：如果你觉得这篇文章对你有帮助，记得点赞、收藏，并分享给更多对数据结构感…...

编程日记 2026/2/12 17:23:00

基于ruoyi快速开发平台搭建----超市仓库管理（修改记录1）

一、数据库的设计一定注意不要用关键字数据库是同学设计的，但是在实践过程中，发现，生成的代码一直报错，结果发现数据库里面商品表里面的商品类别竟然设置成class, 注意：： class 是 Java 中的关键字&…...

编程日记 2026/2/13 18:00:21

《AI加持，SQL Server预测性维护全攻略》

在数字化时代，数据就是企业的生命线，而SQL Server作为一款应用广泛的关系型数据库管理系统，承载着企业海量的数据资产。但数据库运行过程中，故障就像隐藏在暗处的“定时炸弹”，随时可能引发数据丢失、业务中断等严重后…...

编程日记 2026/2/11 15:11:26

Java基础——面向对象

1.抽象Abstract：抽象类和抽象方法； 抽象类：不完整的类，就是抽象类：abstract class 类名； 抽象方法:只有声明，没有实现的方法； abstract 返回值类型方法名（参数&#…...

编程日记 2026/2/16 19:25:08

Springboot学习笔记3.20

目录 1.实战篇第一课我们将会在本次实战中学习到哪些知识点？ 开发模式和环境搭建： 注册接口 1.Lombok 2.开发流程 1.controller层，这个层会指明访问路径和要执行的逻辑： 2.我们把返回结果根据接口文档包装成一个类result&a…...

编程日记 2026/2/12 12:29:09

Ubuntu和Windows实现文件互传

1.开启Ubuntu下的FTP服务： （1）终端输入： sudo apt-get install vsftpd（2）安装完成后： 终端输入： /etc 是 Linux 系统的全局配置文件目录，存储系统和应用程序的配置信息…...

编程日记 2026/2/13 6:27:48

java面向对象从入门到入土

面向对象进阶（写程序的套路）面向：拿，找对象：能干活的东西面向对象编程：拿东西过来做对应的事情（写程序的套路）面向：拿，找对象：能干活的东西面向对象编程：拿东西过来做对应的事情重点学习：学习已有对象并使用，学习如何自己设计对象并使用设计对…...

编程日记 2026/2/5 17:41:31

linux ACL权限控制之用户权限控制程序设计

linux中的ACL（Access Control List，访问控制列表）是一种比传统UNIX权限更细粒度的权限控制机制，允许为文件和目录设置更为具体的用户和组权限。本文介绍使用acl命令和程序api对文件进行更精细的用户权限控制。 1. 命令行示例使…...

编程日记 2026/2/5 17:09:38

Java多线程与JConsole实践：从线程状态到性能优化！！！

目录一、前言二、JConsole 使用教程二、线程的基本状态2.1新建状态（New）2.2就绪状态（Ready）2.3运行状态（Running）2.4 阻塞状态（Blocked）2.5. 等待状态（Waiting&#xff…...

编程日记 2026/2/14 22:16:17

从入门到精通：SQL注入防御与攻防实战——红队如何突破，蓝队如何应对！

引言：为什么SQL注入攻击依然如此强大？ SQL注入（SQL Injection）是最古老且最常见的Web应用漏洞之一。尽管很多公司和组织都已经采取了WAF、防火墙、数据库隔离等防护措施，但SQL注入依然在许多情况下能够突破防线&#…...

编程日记 2026/2/12 1:14:48

Stable Diffusion vue本地api接口对接，模型切换, ai功能集成开源项目 ollama-chat-ui-vue

1.开启Stable Diffusion的api服务编辑webui-user.bat 添加 –api 开启api服务，然后保存启动就可以了 2.api 文档地址 http://127.0.0.1:7860/docs3. 文生图接口地址 /sdapi/v1/txt2img //post 请求入参 {enable_hr: false, // 开启高清hrdenoising_stre…...

编程日记 2026/2/14 20:48:28

缓存使用纪要

一、本地缓存：Caffeine 1、简介 Caffeine是一种高性能、高命中率、内存占用低的本地缓存库，简单来说它是 Guava Cache 的优化加强版，是当下最流行、最佳（最优）缓存框架。 Spring5 即将放弃掉 Guava Cache 作为缓存机…...

编程日记 2026/2/13 15:25:10

第十四届蓝桥杯真题（PWM输出）

一.LED 先配置LED的八个引脚为GPIO_OutPut，锁存器PD2也是，然后都设置为起始高电平，生成代码时还要去解决引脚冲突问题二.按键按键配置，由原理图按键所对引脚要GPIO_Input 生成代码，在文件夹中添加code文件夹&#…...

编程日记 2026/2/15 9:46:04

【Qt】ffmpeg编码—存储（H264）

目录一、编码分析 1.解码线程： 编辑2.编码线程： 编辑编辑二、ffmpeg编码 1.注册所有组件 2.编码初始化函数 （2）打开视频流 4.查找编码器 5. 写文件头信息，写到formatContex中 6.发送一帧数据给编码器…...

编程日记 2026/2/13 16:41:51

Webview详解（下）

第三阶段：性能优化加载速度优化缓存策略缓存策略可以显著减少网络请求，提升页面加载速度。常用的缓存策略包括 HTTP 缓存和本地资源预加载。 1. HTTP 缓存 HTTP 缓存利用 HTTP 协议中的缓存机制（如 Cache-Control、ETag 等&#xff0…...

编程日记 2026/2/11 19:01:07

【MySQL基础-16】MySQL DELETE语句：深入理解与应用实践

1. DELETE语句基础：数据删除的艺术在数据库管理中，DELETE语句是维护数据完整性和清理过期信息的关键工具。与日常生活中的"删除"不同，数据库中的删除操作需要更加谨慎和精确，因为数据一旦删除，恢复可能非常…...

编程日记 2026/2/12 13:21:03

相对位置嵌入和旋转位置编码

1. 相对位置嵌入：给注意力机制加“人际关系记忆” 像班级座位表想象全班同学（序列的各个元素）坐成一个圈，老师（模型）要记住每个人之间的相对位置： 传统方法：老师给每个座位贴绝对…...

编程日记 2026/2/12 14:54:12

Unity编辑器功能及拓展(1) —特殊的Editor文件夹

Unity中的Editor文件夹是一个具有特殊用途的目录，主要用于存放与编辑器扩展功能相关的脚本和资源。一.纠缠不清的UnityEditor 我们Unity中进行游戏构建时，我们经常遇到关于UnityEditor相关命名空间丢失的报错，这时候，只得将报错…...

编程日记 2026/2/14 17:20:35

REC一些操作解法

一.Linux命令长度突破 1.源码如下 <?php $param $_REQUEST[param];if ( strlen($param) < 8 ) {echo shell_exec($param); } 2.源码分析 echo执行函数，$_REQUEST可以接post、get、cookie传参 3.破题思路源码中对参数长度做了限制，小于8位&a…...

编程日记 2026/2/17 1:47:52

powershell7.5.0不支持conda的问题

经历：这周手欠使用vscode的powershell时提示我更新，我就更新了，更新完激活不了conda环境了，查询了半天是powershell最新版7.5.0与目前conda25.1.1以前的版本不支持的问题。问题环境：powershell版本>7.5.0&#xff…...

编程日记 2026/2/12 17:09:31

Android Jetpack学习总结（源码级理解）

ViewModel 和 LiveData 是 Android Jetpack 组件库中的两个核心组件，它们能帮助开发者更有效地管理 UI 相关的数据，并且能够在配置变更（如屏幕旋转）时保存和恢复 UI 数据。 ViewModel作用瞬态数据丢失的恢复，比如横竖…...

编程日记 2026/2/12 12:37:15

Unity中UDP异步通信常用API使用

Begin开头的方法 BeginSendTo BeginSendTo 是 UdpClient 类中的一个重要方法，用于开始一个异步操作来发送 UDP 数据报到指定的远程端点 public IAsyncResult BeginSendTo(byte[] datagram,int bytes,IPEndPoint endPoint,AsyncCallback requestCallback,object s…...

编程日记 2026/2/15 8:41:36

解决Dify:failed to init dify plugin db问题

Dify最新版本1.1.3(langgenius/dify: Dify is an open-source LLM app development platform. Difys intuitive interface combines AI workflow, RAG pipeline, agent capabilities, model management, observability features and more, letting you quickly go from prototy…...

编程日记 2026/2/13 12:24:07