【目标检测】YOLOv5:修改自己的网络结构
前言
YOLOv5就像一座金矿,里面有无数可以学习的东西。之前的博文一直将YOLOv5当作一个黑盒使用,只考虑模型的输入和输出,以此来对模型进行二次开发。
本篇博文将更近一层,深入到“金矿”内部,来尝试对模型结构进行替换。
模型构建解析
YOLOv5是通过yaml格式的模型配置文件来搭建模型架构的,这里我之前的博文【目标检测】YOLOv5:模型构建解析已经做过了解读,对此不再复述。
YOLOv5模型主要分5.0和6.0及以上版本,两者有少许区别,本文以后者模型为主。
YOLOv5s模型架构图如下,此图来源于目标检测 YOLOv5网络v6 0版本总结

修改模型
本文修改的目标是修改18、21这两个卷积块,这里是通过一个卷积核为3,步长为2的卷积核实现下采样,我的目标是修改为两个不同尺寸的卷积核,输出结果为两个不同卷积核之和。

验证维度
修改尺寸最麻烦的就是维度变化,因此在修改之前,最好对修改的部分单独模拟数据查看shape。
下面是一个测试示例:
import torch.nn as nn
import torchdef autopad(k, p=None, d=1): # kernel, padding, dilation# Pad to 'same' shape outputsif d > 1:k = d * (k - 1) + 1 if isinstance(k, int) else [d * (x - 1) + 1 for x in k] # actual kernel-sizeif p is None:p = k // 2 if isinstance(k, int) else [x // 2 for x in k] # auto-padreturn pclass Conv(nn.Module):# Standard convolution with args(ch_in, ch_out, kernel, stride, padding, groups, dilation, activation)default_act = nn.SiLU() # default activationdef __init__(self, c1, c2, k=1, s=1, p=None, g=1, d=1, act=True):super().__init__()self.conv = nn.Conv2d(c1, c2, k, s, autopad(k, p, d), groups=g, dilation=d, bias=False)self.bn = nn.BatchNorm2d(c2)self.act = self.default_act if act is True else act if isinstance(act, nn.Module) else nn.Identity()def forward(self, x):return self.act(self.bn(self.conv(x)))def forward_fuse(self, x):return self.act(self.conv(x))class Multi_Conv(nn.Module):# Multi Different Kernel-size Convdef __init__(self, c1, c2, e=1.0):super().__init__()c_ = int(c2 * e)self.cv1 = Conv(c1, c_, 3, 2)self.cv2 = Conv(c1, c_, 7, 2)def forward(self, x):return self.cv1(x) + self.cv2(x)if __name__ == '__main__':input_tensor = torch.rand(1, 128, 80, 80)conv = Conv(128, 256, 3, 2)mult_conv = Multi_Conv(128, 256)output_tensor1 = conv(input_tensor)print(output_tensor1.shape) # torch.Size([1, 256, 40, 40])output_tensor2 = mult_conv(input_tensor)print(output_tensor2.shape) # torch.Size([1, 256, 40, 40])
注:Conv并非pytorch原生的卷积,yolov5作者对其进行了重构,添加了autopad这个函数,这个可以让人在修改卷积核大小时,自动填充padding,以保证输出结果维度一致。
从上面这个示例可知,添加了我原创的双卷积核结构Multi_Conv之后,输出维度和单核输出一致。
嵌入模型
修改模型主要有两个方法,第一种是直接修改配置文件(.yaml),yaml主要是用来控制模型的串行连接,修改完之后意味着后面的标号也需要进行调整,较为麻烦。
另一种思路就是模块替代,在模型单核模块中,替换成一个复杂的结构,这里选择第二种方法。
首先将创建的原创结构添加到models/common.py文件中:
class Multi_Conv(nn.Module):# Multi Different Kernel-size Convdef __init__(self, c1, c2, e=1.0):super().__init__()c_ = int(c2 * e)self.cv1 = Conv(c1, c_, 3, 2)self.cv2 = Conv(c1, c_, 7, 2)def forward(self, x):return self.cv1(x) + self.cv2(x)
然后在models/yolo.py中添加Multi_Conv:
if m in {Conv, GhostConv, Bottleneck, GhostBottleneck, SPP, SPPF, DWConv, MixConv2d, Focus, CrossConv,BottleneckCSP, C3, C3TR, C3SPP, C3Ghost, nn.ConvTranspose2d, DWConvTranspose2d, C3x, Multi_Conv}
添加完成之后,运行一下yolo.py,可以看到自己创立的模块已经被成功加载:

查看速度和参数量
在设计网络模型时,最好能够直观查看模型各层运行效率,在yolo.py中,作者预留了line-profile这个参数接口,设为True之后,可以看到模型每一层的参数量用时:
time (ms) GFLOPs params module6.75 0.73 3520 models.common.Conv0.70 0.96 18560 models.common.Conv2.09 0.98 18816 models.common.C30.54 0.95 73984 models.common.Conv1.86 1.49 115712 models.common.C30.40 0.95 295424 models.common.Conv2.59 2.01 625152 models.common.C30.60 0.95 1180672 models.common.Conv1.40 0.95 1182720 models.common.C30.60 0.53 656896 models.common.SPPF0.20 0.11 131584 models.common.Conv0.10 0.00 0 torch.nn.modules.upsampling.Upsample0.00 0.00 0 models.common.Concat1.50 1.16 361984 models.common.C30.30 0.11 33024 models.common.Conv0.00 0.00 0 torch.nn.modules.upsampling.Upsample0.00 0.00 0 models.common.Concat1.40 1.17 90880 models.common.C36.65 3.04 950784 models.common.Multi_Conv0.00 0.00 0 models.common.Concat1.40 0.95 296448 models.common.C34.19 1.52 1901056 models.common.Multi_Conv0.00 0.00 0 models.common.Concat1.30 0.90 1117184 models.common.C30.50 0.73 229245 Detect35.05 - - Total
相关文章:
【目标检测】YOLOv5:修改自己的网络结构
前言 YOLOv5就像一座金矿,里面有无数可以学习的东西。之前的博文一直将YOLOv5当作一个黑盒使用,只考虑模型的输入和输出,以此来对模型进行二次开发。 本篇博文将更近一层,深入到“金矿”内部,来尝试对模型结构进行替换…...
spring boot 工程整合mongodb,遇到的坑
首先说一下背景,因为其他的一个web工程有使用mongo,我想着给另外一个工程把mongo也加过来吧。也是最近做一个发送 丘比特信 的需求,觉得这个信应该是存到 mongodb。结果拿过来遇到了很大的坑,也是对版本对原理不了解吧。 下面介…...
防抖函数(最全 最干净 最好理解)
1.应用场景 1.input输入框 输入远程查询 2.邮箱,手机号验证,用户名验证 3.resize等高评率场景 2.解决问题 高频场景带来的重复渲染 等问题 多次操作 只在操作结束后再执行操作函数 3.具体实现 3.1this问题(因为settimeout是window的对…...
王小川,才是深「爱」李彦宏的那个人?
在推出中国首个类ChatGPT产品「文心一言」后,李彦宏在接受专访时断言,中国基本不会再出一个OpenAI了,「创业公司重新做一个ChatGPT其实没有多大意义,基于大语言模型开发应用机会很大,没有必要再重新发明一遍轮子。」 听…...
南京邮电大学通达学院2023《电子装配实习》报告
南京邮电大学通达学院2023《电子装配实习》报告 一 声明二 题目/实习报告提示三 例答 红笺寄 休遣玉人知 ——赠nmy 一 声明 南京邮电大学通达学院2023《电子装配实习》报告 答案更新时间:2023.04.10,已更新完成,如无错误不在更新 由于作者解答能力有限…...
Linux--tty
Linux 终端(TTY) TTY 是 Teletype 或 Teletypewriter 的缩写,原来是指电传打字机,后来这种设备逐渐键盘和显示器取代。不管是电传打字机还是键盘显示器,都是作为计算机的终端设备存在的,所以 TTY 也泛指计算机的终端(terminal)设…...
一位女程序员的自述:我是如何成为前端工程师的
今天,我想和大家分享一下我的职场经历:我是如何成为一名前端工程师的,以及我为什么会选择这个职业。此外,大家比较关心的是我们为什么要出国工作呢?也是想给自己的职业生涯做一个阶段性的总结,尤其是作为一…...
C++命名空间详解
1.什么是命名空间 在c中,名称(name)可以是符号常量、变量、函数、结构、枚举、类和对象等等。工程越大,名称互相冲突性的可能性越大。另外使用多个厂商的类库时,也可能导致名称冲突。为了避免,在大规模程序…...
HDMI EDID概念梳理
EDID概念梳理: EDID数据格式: EDID包含两个部分,基本的EDID只有128个字节,还有128字节的扩展EDID,扩展部分不是必须有的。那通常电视都有扩展EDID。那EDID的详细定义在规范里面都可以找到,主要有以下几部分…...
Android端推送消息之极光推送
推送方式 轮询 --实现方式: 周期性主动获取网络中的数据; --缺点: 费电, 费流量; SMS --实现方式: 服务器端向手机端发送短信, 手机监听短信广播, 将拦截的短信信息进行显示; --优点: 省电, 省流量, 在没有网络的偏远地点也能接收到推送消息; --缺点: 费钱, 一毛钱一条;…...
2023测试工程师全新技术栈,吃透这些,起薪就15k
相信每个准备软件测试面试的同学,不管你是大学刚毕业,满心憧憬着进入公司实习、非计算机行业转行软件测试、自学测试就业还是培训后就业,都会面临着众多的疑问和不解,那就是该怎么走出着第一步,今天本文一次性告诉你&a…...
十、CNN卷积神经网络实战
一、确定输入样本特征和输出特征 输入样本通道数4、期待输出样本通道数2、卷积核大小33 具体卷积层的构建可参考博文:八、卷积层 设定卷积层 torch.nn.Conv2d(in_channelsin_channel,out_channelsout_channel,kernel_sizekernel_size,padding1,stride1) 必要参数&a…...
App 自动化测试
一、移动端测试基础 1 移动端自动化环境搭建 1.1 java安装 1.2 Android SDK安装 SDK (Software Development Kit) 软件开发工具包是软件开发工程师用于为特定的软件包、软件框架、硬件平台、操作系统等建立应用软件的开发工具的集合。Android SDK 就是 Android 专属的软件开…...
考研英语知识点
考研英语知识点 一、在考研英语考试中,常考的英语时态 1.一般现在时 (Simple Present Tense) 一般现在时指的是现在正在进行或经常发生的事情。它用于描述普遍真理,频繁的习惯,以及现在正在发生的事情。例如:我每天早上六点起床…...
IPSEC实验(IPSECVPN点到点,DSVPN,IPSECVPN旁挂)
目录 一、复现实验1、防火墙的IPSECVPN点到点实验-1,拓扑图的搭建-2,配置IP,开通ping,并且设置策略-3,在网络中的IPSEC进行配置第一阶段:发出的UDP500流量第二阶段 发出的ESP流量二台防火墙建立策略禁用其它策略,在IPSEC上配置策略…...
从4k到42k,软件测试工程师的涨薪史,给我看哭了
清明节一过,盲猜大家已经无心上班,在数着日子准备过五一,但一想到银行卡里的余额……瞬间心情就不美丽了。 最近,2023年高校毕业生就业调查显示,本科毕业月平均起薪为5825元。调查一出,便有很多同学表示自己…...
tomcat作业
简述静态网页和动态网页的区别。 静态网页和动态网页是网站的两种基本类型。它们的主要区别在于它们如何生成和呈现网页内容。 静态网页是一种由服务器直接发送给用户的固定HTML文件,其中包含所有网页的内容和样式。这些页面不会随着用户的操作而改变,它…...
除了Java,还可以培训学习哪些IT技术?
除了Java,还可以培训学习哪些IT技术? 转行IT学Java似乎已经成为很多人的首选,原因无非是开发技术含量高、开发有前景、开发是一个互联网企业的核心岗位,最重要的是开发薪资待遇高。但其实只单纯因为薪资选择Java的话,小…...
Mysql优化(一)-- sql语句优化概述及数据库优化
1. sql语句优化 1.1 优化查询过程中的数据访问 访问数据太多导致查询性能下降确定应用程序是否在检索大量超过需要的数据,可能是太多行或列确认MySQL服务器是否在分析大量不必要的数据行避免犯如下SQL语句错误 查询不需要的数据。解决办法:使用limit解…...
深度学习快速参考:1~5
原文:Deep Learning Quick Reference 协议:CC BY-NC-SA 4.0 译者:飞龙 本文来自【ApacheCN 深度学习 译文集】,采用译后编辑(MTPE)流程来尽可能提升效率。 不要担心自己的形象,只关心如何实现目…...
对比直接使用官方API体验Taotoken在用量可视化方面的优势
🚀 告别海外账号与网络限制!稳定直连全球优质大模型,限时半价接入中。 👉 点击领取海量免费额度 对比直接使用官方API体验Taotoken在用量可视化方面的优势 效果展示类,分享开发者在同时使用官方渠道与Taotoken聚合服务…...
移动魔百盒CM101s刷机后体验:告别卡顿,解锁安装自由,这存储空间真香!
移动魔百盒CM101s焕新体验:从卡顿到流畅的全方位升级 每次打开电视都要忍受漫长的加载等待,存储空间不足导致无法安装新应用,系统自带功能单一无法满足全家需求——这或许是许多移动魔百盒CM101s用户的共同困扰。经过一周的深度使用测试&…...
S32K3 PIT定时器深度解析:从硬件原理到汽车电子实战应用
1. 项目概述:为什么S32K3的PIT如此值得深挖?在嵌入式开发,特别是汽车电子领域,定时器是驱动整个系统心跳的核心外设。当项目标题指向“S32K3的周期性中断定时器(PIT)”时,这绝不仅仅是一个简单的…...
永强数据恢复硬盘设备加密数据专业解锁恢复服务
在当今数字化时代,数据的重要性不言而喻。无论是个人用户存储的珍贵照片、视频,还是企业存储的关键商业数据,一旦丢失,都可能带来巨大的损失。而硬盘设备加密数据的丢失或无法解锁,更是让人头疼不已。北京永强数据恢复…...
网站推广新纪元:品牌100工程引领下的精准引流与高效转化
在数字化转型的浪潮中,72%的企业网站上线后却陷入了“无人问津”的尴尬境地。缺乏系统的推广策略,仅31%的企业能通过科学推广实现流量与转化双提升。品牌100工程在深度陪跑实践中发现,2026年的网站推广已告别“盲目投放”时代,更注…...
飞书机器人+OpenClaw(小龙虾)本地AI:从创建应用到配置AppID/Secret全流程
OpenClaw 连接飞书完整图文教程 本文结合当前飞书开放平台页面、本目录里的截图素材,以及 OpenClaw Windows 现有飞书配置方式整理。 适用于“先在飞书开放平台创建企业自建应用,再把 App ID 和 App Secret 填回 OpenClaw”的接入流程。 先说结论&…...
3步解锁Figma中文界面:设计师效率翻倍的终极指南
3步解锁Figma中文界面:设计师效率翻倍的终极指南 【免费下载链接】figmaCN 中文 Figma 插件,设计师人工翻译校验 项目地址: https://gitcode.com/gh_mirrors/fi/figmaCN 还在为Figma的英文界面而烦恼?每次操作都要在大脑中翻译一遍&am…...
基于NirDiamant/agents-towards-production项目的LangSmith可观测性实践指南
基于NirDiamant/agents-towards-production项目的LangSmith可观测性实践指南 【免费下载链接】agents-towards-production End-to-end, code-first tutorials for building production-grade GenAI agents. From prototype to enterprise deployment. 项目地址: https://gitc…...
终极指南:如何用ROFL-Player永久解决英雄联盟回放版本兼容性问题
终极指南:如何用ROFL-Player永久解决英雄联盟回放版本兼容性问题 【免费下载链接】ROFL-Player (No longer supported) One stop shop utility for viewing League of Legends replays! 项目地址: https://gitcode.com/gh_mirrors/ro/ROFL-Player 还在为英雄…...
OpenRAM SRAM编译器:如何用开源工具革新芯片内存设计流程
OpenRAM SRAM编译器:如何用开源工具革新芯片内存设计流程 【免费下载链接】OpenRAM An open-source static random access memory (SRAM) compiler. 项目地址: https://gitcode.com/gh_mirrors/op/OpenRAM 在当今高性能计算和AI芯片设计中,片上SR…...
