【YOLO改进】换遍MMDET主干网络之Pyramid Vision Transformerv2(PVTv2)(基于MMYOLO)
Pyramid Vision Transformer v2(PVTv2)
Pyramid Vision Transformer v2(PVTv2)是在PVTv1的基础上进行改进的一种深度学习模型,它同样结合了Transformer架构和金字塔结构,旨在提供更强大的特征表示和更好的性能。
PVTv2的主要改进包括:
- 降低计算复杂度:通过引入线性复杂度注意层(Linear Complexity Attention Layer),PVTv2将PVTv1的计算复杂度从二次降低到线性,使得模型在处理高分辨率输入时更加高效。
- 重叠补丁嵌入:PVTv2采用了重叠补丁嵌入(Overlapping Patch Embedding)来替代PVTv1中的非重叠补丁嵌入。这种方法可以更好地保留图像的局部连续性,提高模型的性能。
- 卷积前馈网络:在PVTv2中,卷积前馈网络(Convolutional Feed-Forward Network)被用来替代PVTv1中的全连接前馈网络。这种方法可以引入卷积的局部性和层次性,进一步提高模型的性能。
通过这些改进,PVTv2在多个基本视觉任务(如分类、检测和分割)上实现了显著的性能提升,并且在参数量和计算量方面也具有更好的优化。
PVTv2作为YOLO主干网络的可行性分析
- 性能优势:PVTv2作为PVTv1的改进版本,具有更强的特征表达能力和更高的性能。将其作为YOLO的主干网络,可以使得YOLO能够更有效地提取图像中的特征信息,从而提高目标检测的精度和效率。特别是在处理多尺度目标时,PVTv2的金字塔结构和线性复杂度注意层能够提供更丰富的特征信息,进一步提高模型的性能。
- 兼容性:尽管PVTv2主要基于Transformer架构,但其金字塔结构的设计使其仍然可以与YOLO的检测头进行有效地融合。通过合理的网络结构和参数设置,可以将PVTv2作为YOLO的主干网络来使用,并形成完整的目标检测模型。
- 优化与改进:在实际应用中,可以根据具体任务需求对PVTv2进行进一步的优化和改进。例如,可以通过调整网络结构、深度、宽度等参数来平衡模型的性能和速度;也可以采用一些先进的优化技术(如剪枝、量化等)来减小模型的参数量和计算量,进一步提高模型的实时性和部署能力。
替换Pyramid Vision Transformerv2(PVTv2)(基于MMYOLO)
OpenMMLab 2.0 体系中 MMYOLO、MMDetection、MMClassification、MMSelfsup 中的模型注册表都继承自 MMEngine 中的根注册表,允许这些 OpenMMLab 开源库直接使用彼此已经实现的模块。 因此用户可以在 MMYOLO 中使用来自 MMDetection、MMClassification、MMSelfsup 的主干网络,而无需重新实现。
假设想将'Pyramid Vision Transformerv2(PVTv2)'作为 'yolov5' 的主干网络,则配置文件如下:
_base_ = './yolov5_s-v61_syncbn_8xb16-300e_coco.py'deepen_factor = _base_.deepen_factor
widen_factor = 1.0
channels = [64, 160, 256]
checkpoint_file = 'https://github.com/whai362/PVT/releases/download/v2/pvt_v2_b0.pth' #model = dict(backbone=dict(_delete_=True, # 将 _base_ 中关于 backbone 的字段删除type='mmdet.PyramidVisionTransformerV2', # 使用 mmdet 中的 PyramidVisionTransformerV2embed_dims=32,num_layers=[2, 2, 2, 2],out_indices =(1, 2, 3), #设置PyramidVisionTransformerv2输出的stage,这里设置为1,2,3,默认为(0,1,2,3)init_cfg=dict(type='Pretrained', checkpoint=checkpoint_file)),neck=dict(type='YOLOv5PAFPN',deepen_factor=deepen_factor,widen_factor=widen_factor,in_channels=channels, # 注意:PyramidVisionTransformer 输出的3个通道是 [64, 160, 256],和原先的 yolov5-s neck 不匹配,需要更改out_channels=channels),bbox_head=dict(type='YOLOv5Head',head_module=dict(type='YOLOv5HeadModule',in_channels=channels, # head 部分输入通道也要做相应更改widen_factor=widen_factor))
)
相关文章:
【YOLO改进】换遍MMDET主干网络之Pyramid Vision Transformerv2(PVTv2)(基于MMYOLO)
Pyramid Vision Transformer v2(PVTv2) Pyramid Vision Transformer v2(PVTv2)是在PVTv1的基础上进行改进的一种深度学习模型,它同样结合了Transformer架构和金字塔结构,旨在提供更强大的特征表示和更好的…...
【漏洞复现】RuvarOA协同办公平台 WorkFlow接口处存在SQL注入
免责声明:文章来源互联网收集整理,请勿利用文章内的相关技术从事非法测试,由于传播、利用此文所提供的信息或者工具而造成的任何直接或者间接的后果及损失,均由使用者本人负责,所产生的一切不良后果与文章作者无关。该…...
Kubelet containerd 管理命令 ctr常用操作
镜像常用操作 1. 拉取镜像 ctr images pull docker.io/library/nginx:alpine 指定平台 --all-platforms:所有平台(amd64 、arm、386 、ppc64le 等),不加的话下载当前平台架构 --platform:指定linux/amd64平台 ctr …...
求一个B站屏蔽竖屏视频的脚本
求一个B站屏蔽竖屏视频的脚本 现在B站竖屏竖屏越来越多了,手机还好点给我一个按钮,选择不喜欢,但是我一般都用网页版看视屏,网页版不给我选择不喜欢的按钮,目测大概1/4到1/3的视频都是竖屏视频。 目前网页版唯一的进…...
用Github+HUGO搭建博客的经验教训
1. 创建两个Github仓库 一个是博客源仓库(private),用于储存所有博客源文件(Markdown文件和图片文件等)。 另一个是GitHub Pages仓库(public),用于储存由 Hugo 从Markdown 文件生成的…...
MongoDB4.4操作命令
show dbs; // 显示所有数据的列表use mvx; //如果数据库不存在,则创建数据库,否则切换到指定数据库。db; // 查看当前数据库 db.mvx.insertOne({username: root}); // 插入数据 当你插入一些文档时,MongoDB 会自动创建集 db.dropDatabase(); …...
共享旅游革命:千益畅行卡的优势揭秘
在共享经济的快速发展中,共享旅游创业已成为许多创新者和投资者关注的重点。特别是千益畅行,作为共享旅游行业的新秀,其商业模型和经营策略引起了市场的高度讨论。然而,对于这个公司是否仅仅是新一轮的市场“收割者”,…...
【doghead】mac: clion2024.1启动崩溃
doghead 是在mac 下跑各种数据的因此,在配置了环境后, 进行mac 构建 【doghead】mac构建,首先对mac的clion进行安装 mac 下安装clion2024.1 之前可能装过crack的clion教育优惠的clion跟之前的应该不同clion2024.1 在mac的新系统下崩溃google下竟然没有…...
企业合规视角下的菜鸟网络与拼多多不正当竞争案
近日,浙江省高院对备受瞩目的“菜鸟网络诉拼多多不正当竞争案”做出终审判决。该案件从2022年初发酵至今,终于以法院驳回拼多多上诉、维持一审判决而告一段落。此案不仅在法律层面引起广泛关注,更在企业合规方面提供了重要的案例参考。 根据判…...
如何在Java中处理日期和时间?介绍Java 8中的时间API
在 Java 中处理日期和时间,您可以使用 Java 8 引入的新的日期时间 API,也被称为 JSR-310,位于 java.time 包中。这个新的 API 解决了旧的 java.util.Date 类和 java.util.Calendar 类的线程安全和设计问题,并提供了一组丰富的工具…...
24数维杯ABC题思路已更新!!!!
24数维杯A题保姆级思路+配套代码+后续参考论文 简单麦麦https://www.jdmm.cc/file/2710639/ 24数维杯B题保姆级思路+可执行代码+后续参考论文 简单麦麦https://www.jdmm.cc/file/2710640/ 24数维杯C题保姆级思路+可执…...
Fastapi+docker+tortoise-orm+celery
因为项目是后期引入celery,所以导致构建docker的时候只有fastapi的项目,celery的重启比较麻烦 1.docker安装celery pip install celery安装celery的时候注意python版本与celery版本的适配,有些celery的版本不支持python的版本,具体的版本请看…...
springBoot笔记五(pom.xml\yml)
1-pom.xml里的start表示会安装已经设置好的相关版本的依赖,起步依赖。 2-optional设置为ture,显示可选择的依赖 3-修改端口server.port9999 4-yml文件书写 (1)空格代表分级,值前面要写空格 (2)-…...
三生随记——耳机里的诅咒
深夜,城市的灯火已经渐渐熄灭,只剩下一轮明月孤独地悬挂在天空中,洒下银白色的光芒。在这样一个寂静的夜晚,李浩独自一人坐在昏暗的房间里,耳机紧紧贴在耳边,他正在观看一部知名的恐怖电影。 电影里的恐怖情…...
嵌入式学习<2>:EXTI、ADC、NVIC和AFIO
嵌入式学习_part2 本部分笔记用于学习记录,笔记源头 >>b站江科大_STM32入门教程_EXTI EXTI、ADC、NVIC和AFIO 开发环境:keil MDK、STM32F103C8T6 1 )EXTI STM32F10xxx参考手册(中文)-> 中断与事件 ->…...
Nginx - server、listen、server_name和多服务请求处理(三)
server 上下文 server { }server指令用于配置一个虚拟服务。listen指令描述了本服务可接受链接的所有地址和端口,server_name指令列举了所有服务的名字,例如 server {listen 80;server_name example.org www.example.org; }listen 指令 Syntax: …...
C语言/数据结构——(相交链表)
一.前言 今天在力扣上刷到了一道题,想着和大家一起分享一下这道题——相交链表https://leetcode.cn/problems/intersection-of-two-linked-lists废话不多说,让我们开始今天的分享吧。 二.正文 1.1题目描述 是不是感觉好长,我也这么觉得。哈…...
【二叉树算法题记录】二叉树的所有路径,路径总和——回溯
目录 257. 二叉树的所有路径题目描述题目分析cpp代码 112. 路径总和题目描述题目分析cpp代码 257. 二叉树的所有路径 题目描述 给你一个二叉树的根节点root ,按任意顺序,返回所有从根节点到叶子节点的路径。 题目分析 其实从根节点往下走,…...
verilog基础语法之数据类型
verilog基础语法之数据类型 1、 wire类型2、 reg类型3、向量 Verilog最常用的数据类型有两种:线网(wire)和寄存器(reg)。其中,wire 类型表示硬件单元之间的物理连线,reg用来表示存储单元。 1、…...
ansible部署lamp架构
搭建参考:ansible批量运维管理-CSDN博客 定义ansible主机清单 [rootansible-server ~]# vim /etc/hosts 192.168.200.129 host01 192.168.200.130 host02 [rootansible-server ~]# vim /etc/ansible/hosts [webserver] host01 host02 在ansible端编写index.html…...
用Verilog在FPGA上实现一个真实的十字路口红绿灯(附完整代码与仿真)
从零构建FPGA十字路口交通灯控制系统:Verilog实战指南 十字路口交通灯控制是数字逻辑设计的经典案例,也是FPGA初学者从理论迈向实践的重要一步。本文将带你完整实现一个基于Xilinx Basys3开发板的交通灯控制系统,涵盖状态机设计、时序约束、仿…...
教育心理学教程资源合集
08. 考研心理学课程 文件大小: 34.9GB内容特色: 34.9GB全科视频讲义真题,一站备齐适用人群: 心理学考研党、跨专业考生、二战冲刺核心价值: 名师系统梳理考点,节省50%整理时间下载链接: https://pan.quark.cn/s/074261ae5d32 06. 教育心理学࿰…...
Python实战:用SymPy解常微分方程 vs 偏微分方程的5个关键差异
Python实战:用SymPy解常微分方程 vs 偏微分方程的5个关键差异 微分方程是数学建模的核心工具,而Python的SymPy库让符号计算变得触手可及。但当你真正在Jupyter Notebook中敲下dsolve()命令时,是否困惑过为什么有些方程秒出结果,有…...
ROS2时间处理避坑指南:从rclcpp::Time到header.stamp的5种转换方法
ROS2时间处理避坑指南:从rclcpp::Time到header.stamp的5种转换方法 在ROS2开发中,时间戳处理看似简单却暗藏玄机。许多开发者在将rclcpp::Time转换为header.stamp时踩过坑——从版本兼容性问题到精度丢失,再到线程安全陷阱。本文将带您深入理…...
终极SQLite命令行工具litecli:10个必备功能完全指南
终极SQLite命令行工具litecli:10个必备功能完全指南 【免费下载链接】litecli CLI for SQLite Databases with auto-completion and syntax highlighting 项目地址: https://gitcode.com/gh_mirrors/li/litecli 如果你正在寻找一个功能强大、简单易用的SQLit…...
FFCreator 10个实用技巧:轻松掌握视频制作的核心功能
FFCreator 10个实用技巧:轻松掌握视频制作的核心功能 【免费下载链接】FFCreator 一个基于node.js的高速视频制作库 A fast video processing library based on node.js 项目地址: https://gitcode.com/gh_mirrors/ff/FFCreator FFCreator是一个基于Node.js的…...
Atmosphere系统功能扩展指南:从基础配置到高级应用的完整学习路径
Atmosphere系统功能扩展指南:从基础配置到高级应用的完整学习路径 【免费下载链接】Atmosphere-stable 大气层整合包系统稳定版 项目地址: https://gitcode.com/gh_mirrors/at/Atmosphere-stable 问题导入:为什么需要自定义系统 想象一下&#x…...
电磁波相关(AI回答)
物质都会吸收多种频率(或波段)的电磁波 是的,绝大多数物质都会吸收多种频率(或波段)的电磁波,而不是只吸收单一频率。这正是我们前面讨论的选择性吸收在实际中的体现:物质内部有多种微观能量模…...
如何为Unity游戏添加自定义功能:BepInEx插件框架的全方位实战指南
如何为Unity游戏添加自定义功能:BepInEx插件框架的全方位实战指南 【免费下载链接】BepInEx Unity / XNA game patcher and plugin framework 项目地址: https://gitcode.com/GitHub_Trending/be/BepInEx BepInEx是一款专为Unity Mono、IL2CPP和.NET框架游戏…...
怎样快速掌握mGBA测试套件:5个专业技巧确保模拟器稳定性
怎样快速掌握mGBA测试套件:5个专业技巧确保模拟器稳定性 【免费下载链接】mgba mGBA Game Boy Advance Emulator 项目地址: https://gitcode.com/gh_mirrors/mg/mgba mGBA作为一款开源的高精度Game Boy Advance模拟器,其测试套件是确保模拟器稳定…...
