当前位置: 首页 > news >正文

[深度学习][python]yolov12+bytetrack+pyqt5实现目标追踪

【算法介绍】

实时目标检测因其低延迟特性而持续受到广泛关注,具有重要的实际应用价值[4, 17, 24, 28]。其中,YOLO系列[3, 24, 28, 29, 32, 45-47, 53, 57, 58]通过有效平衡延迟与精度,在该领域占据主导地位。尽管YOLO的改进多集中在损失函数[8, 35, 43, 44, 48, 67, 68]和标签分配[22, 23, 34, 59, 69]等方面,网络架构设计仍是核心研究方向[24, 28, 32, 57, 58]。尽管以注意力为核心的视觉变换器(ViT)架构已展现出强大的建模能力,特别是在小模型中[20, 21, 25, 50],但大多数架构设计仍聚焦于CNN,这主要受限于注意力机制的效率问题。具体而言,注意力机制面临二次计算复杂度和低效内存访问操作两大挑战(后者正是FlashAttention[13, 14]致力于解决的问题)。因此,在相似计算预算下,基于CNN的架构性能比基于注意力的架构高约3倍[38],这严重阻碍了注意力机制在追求高推理速度的YOLO系统中的应用。

本文旨在应对这些挑战,并构建以注意力为核心的YOLO框架——YOLOv12。我们提出了以下三项关键改进:

  1. 区域注意力模块(A²):通过简单地将特征图划分为垂直和水平区域,在保持大感受野的同时降低了注意力计算复杂度,从而提升了速度。
  2. 残差高效层聚合网络(R-ELAN):解决了注意力机制引入的优化难题,特别针对大规模模型。R-ELAN在原始ELAN[57]的基础上进行了两项改进:(i) 引入了采用缩放技术的块级残差设计;(ii) 重新设计了特征聚合方法。
  3. 架构改进:针对YOLO系统对传统注意力架构进行了调整,包括:(a) 引入FlashAttention以解决注意力内存访问问题;(b) 移除位置编码等设计以提升速度和简洁性;(c) 将MLP比例从4调整为1.2,以平衡注意力与前馈网络的计算量;(d) 减少堆叠块深度以优化训练;(e) 尽可能利用卷积操作的计算效率。

基于上述设计,我们开发了一个包含五种规模(N/S/M/L/X)的新型实时检测器家族。遵循YOLOv11[28]的实验设置(未使用额外技巧),在标准目标检测基准上的大量实验表明,YOLOv12在延迟-精度和FLOPs-精度权衡上显著优于先前模型(如图1所示)。例如:

  • YOLOv12-N以40.6% mAP超越了YOLOv10-N[53](提升2.1% mAP)且速度更快,同时以相当速度超越了YOLOv11-N[28](提升1.2% mAP)。
  • 相比RT-DETR-R18[66]和RT-DETRv2-R18[40],YOLOv12-S在mAP上分别提升1.5%和0.1%,延迟加快42%,计算量仅需其36%,参数量仅需其45%。

综上,YOLOv12的贡献在于:

  • 通过方法论创新和架构改进,成功构建了以注意力为核心的简洁高效的YOLO框架,打破了CNN模型在YOLO系列中的主导地位。
  • 在不依赖预训练等额外技术的情况下,YOLOv12以快速的推理速度和更高的检测精度实现了SOTA结果,充分展现了其巨大潜力。

【效果展示】

【测试环境】

anaconda3+python3.10
torch==2.5.1
numpy==1.26.4
cython_bbox-0.1.3-cp310-cp310-win_amd64.whl

注意一定要用源码提供cython_bbox进行安装否则会和numpy不兼容。

【视频演示】

[深度学习][python]yolov12+bytetrack+pyqt5实现目标追踪_哔哩哔哩_bilibili

【调用代码】

from Yolov12Detector import *
from ByteTackManager import *
from tracking_utils.timer import Timer
save_file = None  # not None will save videocap = cv2.VideoCapture('car.mp4')
out = Noneframe_fps = int(cap.get(cv2.CAP_PROP_FPS))
# 获取视频帧宽度和高度
frame_width = int(cap.get(cv2.CAP_PROP_FRAME_WIDTH))
frame_height = int(cap.get(cv2.CAP_PROP_FRAME_HEIGHT))
print("video fps={},width={},height={}".format(frame_fps, frame_width, frame_height))
if save_file:fourcc = cv2.VideoWriter_fourcc(*'mp4v')out = cv2.VideoWriter(save_file, fourcc, frame_fps, (frame_width, frame_height))
detector = Yolov12Detector()
tracker = BYTETracker()
frame_id = 0
timer = Timer()
while True:ret, frame = cap.read()frame_id += 1if not ret:print('read over!')breaktimer.tic()result_list = detector.inference_image(frame)if len(result_list)>0:online_targets = tracker.update(result_list)#print(online_targets)online_tlwhs = []online_ids = []online_scores = []for t in online_targets:tlwh = t.tlwhtid = t.track_idvertical = tlwh[2] / tlwh[3] > 1.6if tlwh[2] * tlwh[3] > 10 and not vertical:online_tlwhs.append(tlwh)online_ids.append(tid)online_scores.append(t.score)timer.toc()#print(online_tlwhs)online_im = plot_tracking(frame, online_tlwhs, online_ids, frame_id=frame_id + 1,fps=1. / timer.average_time)if save_file:out.write(online_im)cv2.imshow('frame', online_im)if cv2.waitKey(1) & 0xFF == ord('q'):breakif save_file:out.release()
cap.release()
cv2.destroyAllWindows()

 【参考文献】

1. blog.csdn.net/hhhhhhhhhhwwwwwwwwww/article/details/145725555

相关文章:

[深度学习][python]yolov12+bytetrack+pyqt5实现目标追踪

【算法介绍】 实时目标检测因其低延迟特性而持续受到广泛关注,具有重要的实际应用价值[4, 17, 24, 28]。其中,YOLO系列[3, 24, 28, 29, 32, 45-47, 53, 57, 58]通过有效平衡延迟与精度,在该领域占据主导地位。尽管YOLO的改进多集中在损失函数…...

【深度学习】矩阵的理解与应用

一、矩阵基础知识 1. 什么是矩阵? 矩阵是一个数学概念,通常表示为一个二维数组,它由行和列组成,用于存储数值数据。矩阵是线性代数的基本工具之一,广泛应用于数学、物理学、工程学、计算机科学、机器学习和数据分析等…...

我是如何从 0 到 1 找到 Web3 工作的?

作者:Lotus的人生实验 关于我花了一个月的时间,从 0 到 1 学习 Web3 相关的知识和编程知识。然后找到了一个 Web3 创业公司实习的远程工作。 👇👇👇 我的背景: 计算机科班,学历还可以(大厂门槛水平) 毕业工…...

《Keras 3 :使用 Vision Transformers 进行物体检测》:此文为AI自动翻译

《Keras 3 :使用 Vision Transformers 进行物体检测》 作者:Karan V. Dave 创建日期:2022 年 3 月 27 日最后修改时间:2023 年 11 月 20 日描述:使用 Vision Transformer 进行对象检测的简单 Keras 实现。 (i) 此示例使用 Keras 3 在 Colab 中查看 GitHub 源 介绍 A…...

java(spring boot)实现向deepseek/GPT等模型的api发送请求/多轮对话(附源码)

我们再启动应用并获取api密钥后就可以对它发送请求了,但是官方文档对于如何进行多轮对话以及怎么自定义参数并没有说的很清楚,给的模板也没有java的,因此我们需要自己实现。 import org.json.JSONArray; import org.json.JSONObject;import j…...

module ‘cv2.dnn‘ has no attribute ‘DictValue‘解决办法

module ‘cv2.dnn‘ has no attribute ‘DictValue‘解决办法 pip install opencv-python4.7.0.72 -i https://pypi.tuna.tsinghua.edu.cn/simple 测试: python -c"import cv2"...

将RocketMQ集成到了Spring Boot项目中,实现站内信功能

1. 添加依赖 首先&#xff0c;在pom.xml中添加RocketMQ的依赖&#xff1a; <dependencies><!-- Spring Boot Starter Web --><dependency><groupId>org.springframework.boot</groupId><artifactId>spring-boot-starter-web</artifac…...

Deepseek 怼CHATGPT实况

提示词&#xff1a; 用犀利的语言批评ChatGPT 深度思考&#xff08;R1) 嗯&#xff0c;用户让我用犀利的语言批评ChatGPT。首先&#xff0c;我需要理解他们的动机。可能他们遇到了ChatGPT的某些问题&#xff0c;比如回答不准确或者缺乏深度&#xff0c;所以想表达不满。也有…...

基础篇11-图像分割(上)--阈值的方法

图像分割是图像处理的重要内容&#xff0c;是位于底层的图像处理、特征提取与上一层次的图像分析之间的关键步骤。图像分割的相关技术较多&#xff0c;分为三篇介绍。本节是上篇&#xff0c;介绍基于阈值的技术。 1 引言 图像分割是计算机视觉和图像处理中的核心任务之一&…...

[特殊字符] LeetCode 62. 不同路径 | 动态规划+递归优化详解

在解 LeetCode 的过程中&#xff0c;路径计数问题是动态规划中一个经典的例子。今天我来分享一道非常基础但极具代表性的题目——不同路径。不仅适合初学者入门 DP&#xff08;动态规划&#xff09;&#xff0c;还能帮助你打下递归思维的基础。 本文将介绍&#xff1a; &…...

常用的 JVM 参数:配置与优化指南

文章目录 常用的 JVM 参数&#xff1a;配置与优化指南引言 1. 内存管理参数1.1 堆内存配置1.2 方法区&#xff08;元空间&#xff09;配置1.3 直接内存配置 2. 垃圾回收参数2.1 垃圾回收器选择2.2 GC 日志配置2.3 GC 调优参数 3. 性能监控参数3.1 堆内存转储3.2 JVM 监控3.3 远…...

【JavaWeb学习Day17】

Tlias智能学习系统&#xff08;员工管理&#xff09; 新增员工&#xff1a; 三层架构职责&#xff1a; Controller&#xff1a;1.接收请求参数&#xff08;员工信息&#xff09;&#xff1b;2.调用service方法&#xff1b;3.响应结果。 具体实现&#xff1a; /***新增员工…...

DeepSeek 提示词:定义、作用、分类与设计原则

&#x1f9d1; 博主简介&#xff1a;CSDN博客专家&#xff0c;历代文学网&#xff08;PC端可以访问&#xff1a;https://literature.sinhy.com/#/?__c1000&#xff0c;移动端可微信小程序搜索“历代文学”&#xff09;总架构师&#xff0c;15年工作经验&#xff0c;精通Java编…...

前端大文件上传

1. 开场概述 “大文件上传是前端开发中常见的需求&#xff0c;但由于文件体积较大&#xff0c;直接上传可能会遇到网络不稳定、服务器限制等问题。因此&#xff0c;通常需要采用分片上传、断点续传、并发控制等技术来优化上传体验” 2. 核心实现方案 “我通常会采用以下方案…...

JDK源码系列(一)Object

Object 概述 Object类是所有类的基类——java.lang.Object。 Object类是所有类的基类&#xff0c;当一个类没有直接继承某个类时&#xff0c;默认继承Object类Object类属于java.lang包下&#xff0c;此包下的所有类在使用时无需手动导入&#xff0c;系统会在程序编译期间自动…...

【Python 打造高效文件分类工具】

【Python】 打造高效文件分类工具 一、代码整体结构二、关键代码解析&#xff08;一&#xff09;初始化部分&#xff08;二&#xff09;界面创建部分&#xff08;三&#xff09;核心功能部分&#xff08;四&#xff09;其他辅助功能部分 三、运行与使用四、示图五、作者有话说 …...

大数据组件(四)快速入门实时数据湖存储系统Apache Paimon(1)

Paimon的下载及安装&#xff0c;并且了解了主键表的引擎以及changelog-producer的含义参考&#xff1a; 大数据组件(四)快速入门实时数据湖存储系统Apache Paimon(1) 利用Paimon表做lookup join&#xff0c;集成mysql cdc等参考&#xff1a; 大数据组件(四)快速入门实时数据…...

边缘安全加速(Edge Security Acceleration)

边缘安全加速&#xff08;Edge Security Acceleration&#xff0c;简称ESA&#xff09;是一种通过将安全功能与网络边缘紧密结合来提升安全性和加速网络流量的技术。ESA的目标是将安全措施部署到接近用户或设备的地方&#xff0c;通常是在网络的边缘&#xff0c;而不是将所有流…...

C/C++高性能Web开发框架全解析:2025技术选型指南

一、工业级框架深度解析&#xff08;附性能实测&#xff09; 1. Drogon v2.1&#xff1a;异步框架性能王者 核心架构&#xff1a; Reactor 非阻塞I/O线程池&#xff08;参考Nginx模型&#xff09; 协程实现&#xff1a;基于Boost.Coroutine2&#xff08;兼容C11&#xff09;…...

fedora 安装 ffmpeg 过程记录

参考博客&#xff1a;1. linux(centos)安装 ffmpeg,并添加 libx264库&#xff1a;https://blog.csdn.net/u013015301/article/details/140778199ffmpeg 执行时如添加参数 -vcodec libx264&#xff0c;会出现错误&#xff1a;Unknown encoder libx264’的错误&#xff0c;缺少li…...

别再降级Playwright了!用Docker在CentOS 7上无痛运行最新版浏览器自动化

在CentOS 7上通过Docker容器化方案运行最新版Playwright的完整指南 如果你是一名长期使用CentOS 7进行自动化测试的开发者&#xff0c;很可能遇到过这样的困境&#xff1a;当你兴奋地想要尝试Playwright的最新功能时&#xff0c;却被系统提示GLIBC_2.27 not found这类依赖错误。…...

YOLO系列算法改进 | C3k2改进篇 | 融合SFD显著特征判别模块,全局通道关系建模驱动复杂环境精准感知,适应遥感与边缘部署场景 | ICME 2026

0. 前言 本文介绍SFD显著特征判别模块(Salient Feature Discriminator),并将其集成到ultralytics最新发布的YOLO26目标检测算法中,构建C3k2_SFD创新模块。SFD是一种通过通道间关系建模和图结构推理来判别显著特征的注意力机制,旨在解决复杂背景下目标与背景难以区分、微小…...

终极指南:如何在Windows 11上免费运行Android应用并深度开发

终极指南&#xff1a;如何在Windows 11上免费运行Android应用并深度开发 【免费下载链接】WSA Developer-related issues and feature requests for Windows Subsystem for Android 项目地址: https://gitcode.com/gh_mirrors/ws/WSA Windows Subsystem for Android&…...

2026年怎么从培训学员反馈辨真假?这3个判断标准很实用

"做HR快6年&#xff0c;年年牵头做内部培训&#xff0c;每次收完学员反馈&#xff0c;我都头疼——哪是真满意哪是随便应付交差&#xff1f;以前踩过好多坑&#xff0c;白瞎培训预算不说&#xff0c;改方案也改不到点子上。今天把我摸出来的3个判断标准放这&#xff0c;看…...

别再只盯着算法了!搭建一个高可用的实时配送调度系统,架构设计与工程实践才是关键

高可用实时配送调度系统的架构设计与工程实践 当午间高峰期的外卖订单如潮水般涌入系统&#xff0c;或是"双十一"期间每分钟数万笔配送请求需要处理时&#xff0c;算法模型的理论最优解在工程实践中往往面临严峻挑战。真正决定系统成败的&#xff0c;是能否在每秒数万…...

别再死磕梯度下降了!用Python手写BFGS算法,5分钟搞定二次函数优化

别再死磕梯度下降&#xff01;用Python手写BFGS算法&#xff0c;5分钟搞定二次函数优化 优化算法是机器学习和数据科学中的核心工具&#xff0c;而梯度下降可能是大多数人接触到的第一个优化方法。但当你开始处理更复杂的模型或更大规模的数据时&#xff0c;梯度下降的局限性就…...

AI工程师的上下文管理术:让长对话不失忆的工程实践

LLM最大的局限之一&#xff0c;是有限的上下文窗口。GPT-4o有128K token&#xff0c;Gemini 1.5 Pro有100万token——听起来很大&#xff0c;但实际生产中&#xff0c;长对话积累、知识库检索内容、工具调用结果……很快就能填满。更根本的问题是&#xff1a;不是塞满上下文就好…...

【C++26合约编程避坑手册】:踩过17个早期采用者陷阱后总结的6条黄金法则

https://intelliparadigm.com 第一章&#xff1a;C26合约编程的演进脉络与核心语义 C26 正式将合约&#xff08;Contracts&#xff09;纳入标准核心特性&#xff0c;标志着从 C20 的实验性支持迈向生产就绪的语义保障机制。合约不再仅是编译期断言&#xff0c;而是具备可配置检…...

通达信公式进阶:巧用逻辑与选择函数,让你的策略信号更“聪明”

通达信公式进阶&#xff1a;逻辑与选择函数的实战应用指南 在量化交易的世界里&#xff0c;通达信公式是许多投资者构建交易策略的利器。然而&#xff0c;很多用户在使用过程中常常遇到一个痛点&#xff1a;策略信号过于简单导致假信号频出&#xff0c;实战效果大打折扣。本文将…...

2026科技风向标:大模型、Agent、具身智能,谁将引领AI新纪元?

2026 年&#xff0c;谁的主场&#xff1f; 作为顶流的 OpenAI&#xff0c;在 2025 年经历了阵痛与转型。一方面&#xff0c;其维持着通用大模型能力的上限位置&#xff0c;其模型在推理、代码、多模态等多个维度持续作为行业对标对象&#xff1b;另一方面&#xff0c;GPT-5 的…...