YOLOv6-目标检测论文解读
文章目录
- 摘要
- 问题
- 算法
- 网络设计
- Backbone
- Neck
- Head
- 标签分配
- SimOTA(YOLOX提出):
- TAL(Task alignment learning,TOOD提出)
- 损失函数
- 分类损失
- 框回归损失
- 目标损失
- 行业有用改进
- 自蒸馏
- 图像灰度边界填充
- 量化及部署
- 实验
- 消融实验
- 损失函数
- 量化实验
- 结论
论文: 《YOLOv6: A Single-Stage Object Detection Framework for Industrial Applications》
github: https://github.com/meituan/YOLOv6
摘要
YOLOv6-N在T4平台COCO数据集达到35.9 AP,推理速度1234FPS;YOLOv6-S达到43.5 AP,推理速度495FPS,超越YOLOv5-S、YOLOX-S、PPYOLOE-S;YOLOv6-M/L达到49.5%/52.3%;如图1所示

问题
作者发现以下几点可用于优化YOLO
1、RepVGG重参数化可应用于检测器;
2、基于重参数化的探测器的量化也需要精心处理,由于其异构配置而导致的性能下降将难以处理;
3、之前工作较少关注部署;
4、标签分配策略及损失函数设计需要进一步验证 ;
5、对于部署,训练过程可以使用知识蒸馏等策略,但不增加推理成本;
为了推理加速,作者使用了PTQ、QAT量化方法;
YOLOv6总结如下:
1、设计不同结构,达到速度与性能均衡;
2、在分类及回归任务使用自蒸馏策略;
3、充分验证标签分配、损失函数、数据增强策略;
4、使用RepOptimizer及channel级蒸馏改进量化机制;
算法
YOLOv6整体框架如图2所示

网络设计
Backbone
RepVGG将训练时多分支重参数化为推理时单分支结构,达到速度与精度平衡;
受此影响,对于小模型作者设计EfficientRep,如图3a为训练时RepBlock,图3b为推理时将RepBlock转换为33卷积+ReLU形式;
随着模型增大,平铺直连网络结构计算量、参数量指数级增长;对此作者提出CSPStackRep Block如图3c所示,由3个11卷积及多个子网络组成,其中子网络包括两个RepConv+ReLU构成,除此之外,使用CSP连接;与PP-YOLOE中CSPRepResStage相比,CSPStackRep更加简洁,达到速度与精度平衡。

Neck
作者使用YOLOv4、YOLOv5中魔改的PAN(将shortcut改为concat),同时对于小模型使用RepBlock替换CSPBlock,对于大模型使用CSPStackRep Block替换CSPBlock,YOLOv6中neck命名为Rep-PAN。
Head
作者使用分类回归解耦头,并引入混合通道策略(hybrid-channel,HC),每个仅使用一个1个3*3卷积层,称为Efficient Decoupled Head,进一步降低计算量;
Anchor-free方案不需要预设参数,同时后处理耗时短;Anchor-free方案有两种:point-base(FCOS)、keypoint-based(CornerNet),YOLOv6使用point-based方案;
标签分配
SimOTA(YOLOX提出):
SimOTA过程如下:
1、计算成对预测框与真值框代价,由分类及回归loss构成;
2、计算真值框与前k个预测框iou,其和为Dynamic k;因此对于不同真值框,其Dynamic k存在差异。
3、最后选择代价最小的前Dynamic k个预测框作为正样本;
但是SimOTA导致训练过程变慢,因此作者未使用SimOTA.
TAL(Task alignment learning,TOOD提出)
1、在各个特征层计算gt与预测框iou及与分类得分乘积作为score,进行分类检测任务对齐;
2、对于每个gt选择top-k个最大的score对应bbox;
3、选取bbox所使用anchor的中心落在gt内的为正样本;
4、若一个anchor box对应多个gt,则选择gt与预测框iou最大那个预测框对应anchor负责该gt;
TAL使用代价函数(包含分类及回归信息)代替iou进行划分样本标签,从一定程度上解决分类回归不统一问题,比如分类效果不好但定位效果好。
经过实验,作者发现TAL相对于SimOTA性能更好且训练稳定,因此YOLOv6使用TAL;
作者发现PP-YOLOE中改进的ET-head为带来性能增益,但降低推理耗时,因此作者仍使用Efficient decoupled head.
损失函数
分类损失
Focal Loss通过更改cross-entropy损失权重解决正负样本类别不均衡及难易样本不均衡问题;
QFL为解决训练推理时框质量及分类得分用法不一致问题,比如训练过程各个分支分别训练,但是推理时分类得分与质量得分相乘作为nms score进行排序;QFL将FL中硬标签转为软标签,由类别与iou乘积作为软标签;
VFL考虑到正负样本不同重要程度,正样本少而负样本多,VFL降低负样本损失权重;
Poly Loss将分类损失拆分为一系列加权多项式,实验表明效果优于交叉熵损失和FL。
经过实验作者选择VariFocal Loss作为分类损失
框回归损失
框回归损失由最初L1损失,到iou系列损失,iou损失已经证明有效,因为其与评价指标一致;作者在YOLOv6-N及YOLOv6-T使用SIoU损失,其余使用GIoU损失;
DFL将框位置连续分布简化为离散概率分布;YOLOv6-M/L使用DFL,其余未使用。
def distribution_focal_loss(pred, label):r"""Distribution Focal Loss (DFL) is from `Generalized Focal Loss: LearningQualified and Distributed Bounding Boxes for Dense Object Detection<https://arxiv.org/abs/2006.04388>`_.Args:pred (torch.Tensor): Predicted general distribution of bounding boxes(before softmax) with shape (N, n+1), n is the max value of theintegral set `{0, ..., n}` in paper.label (torch.Tensor): Target distance label for bounding boxes withshape (N,).Returns:torch.Tensor: Loss tensor with shape (N,)."""dis_left = label.long()dis_right = dis_left + 1weight_left = dis_right.float() - labelweight_right = label - dis_left.float()loss = (F.cross_entropy(pred, dis_left, reduction="none") * weight_left+ F.cross_entropy(pred, dis_right, reduction="none") * weight_right)return loss
目标损失
FCOS引入centerness用于降低低质量框得分,YOLOX通过IoU分支进行,作者尝试目标损失,但未带来增益。
行业有用改进
作者训练时长由300epoch提升到400epoch,性能提升
自蒸馏
作者限制教师模型与学生模型网络结构相同,但经过预训练,因此称为自蒸馏。
归因于DFL损失,回归分支也可使用知识蒸馏,损失函数如式1所示,

图像灰度边界填充
与YOLOv5、YOLOv7一致,作者对图片边界进行half-stride灰度填充,这一策略有助于提升图像边界目标检出能力,但会增加推理耗时。
对此作者认为与马赛克增强有关,最后一轮训练时关闭马赛克操作,同时原图增加灰度边界后,resize到原始图片尺寸,可在不增加耗时情况下,保持或提升模型性能。
量化及部署
作者使用RepOptimizer训练模型获取PTQ(训练后量化)友好权重,如图4所示,特征分布大幅收缩;
为进一步提升PTQ表现,作者选择部分量化敏感层仍使用浮点计算;作者使用MSE、SNR、余弦相似度、AP进行评估,选择top-6量化敏感层仍使用浮点计算。
为防止PTQ不足,作者引入QAT(训练中量化),保证训练推理一致,作者同样使用RepOptimizer,此外使用channel-wise蒸馏,如图5所示;
YOLOv6-S达到42.3 AP,在batch32时达到869FPS。

实验
表1汇总YOLO系列在COCO数据集性能,
与YOLOv5-N/YOLOv7-Tiny相比,YOLOv6-N分别提升7.9%/2.6%,并且诉苦更快;
与YOLOX-S/PPYOLOE-S相比,YOLOv6-S性能分别提升3.0%/0.4%,且速度更快;
YOLOv6-M相比于YOLOv5-M,性能提升4.2%,耗时接近,相比于YOLOX-M/PPYOLOE-M,性能提升2.7%/0.6%,耗时更短;
YOLOv6-L相比于YOLOX-L/PPYOLOE-L,耗时接近,性能分别提升2.8%/1.1%;
YOLOv6-L-ReLU中将YOLOv6-L中SiLU替换为ReLU,速度更快,性能略下降;

消融实验
表2作者比较backbone及neck中不同block及CSPStackRep Block中channel系数(CC)影响,作者发现不同网络结构适用不同策略;

表3表示YOLOv6-L neck中参数影响,窄深网络相对于宽浅网络,性能提升0.2%,耗时接近;
YOLO系列中常用激活函数有ReLU、LReLU、Swish、SiLU、Mish等,虽然SiLU最常用,带来性能提升,但是部署时无法与卷积层融合,ReLU更具有速度优势;

表4作者验证卷积层与激活函数不同组合性能,Conv+SiLU性能最佳,但RepConv+ReLU达到性能与速度均衡;作者在YOLOv6-N/T/S/M中使用RepConv/ReLU,为了达到更高推理速度,YOLOv6-L中使用Conv/SiLU,为了追求性能;

表5作者以YOLOv5-N为基线,验证YOLOv6-N中不同部件影响,解耦头(DH)性能提升1.4%
,耗时增加5%;anchor-free(AF)方案耗时降低51%;
EfficientRep Backbone+Rep-PAN neck(EB+RN)使得性能提升3.6%,耗时降低21%;
Head中混合通道策略(hybrid-channel,HC)使得性能太好0.2%,耗时降低6.8%;

表6展示不同label assign策略影响;

损失函数
损失函数包括分类损失、回归损失、可选择的目标损失,如式3,

表8作者对不同分类损失函数进行验证,作者选用VFL;

表示9作者对不同回归损失,进行比较;YOLOv6-N及YOLOv6-T使用SIoU损失,其余使用GIoU损失;

表10表示概率损失函数影响,YOLOv6-M/L使用DFL,其余未使用;

表11表示目标损失影响,可见YOLOv6-N/S/M中目标损失均为带来增益;作者分析由于TAL中两分支与目标分支存在冲突,TAL中将IoU与分类联合作为,额外引入一分支导致两分支对齐变为三分支,增加对齐难度;

表12表明延长训练epoch,性能提升;

表13表明自蒸馏应用于分类分支性能提升0.4%,回归分支性能提升0.3%,weight decay带来性能提升0.6%;

表14表明当不进行灰度补边时,移除马赛克带来性能下降;使用马赛克,同时输入图片634*634,进行3个像素灰度补边,性能进一步提升;

量化实验
表15表明RepOptimizer带来性能大幅改进;

表16表明**Partial QAT(只对敏感层进行量化)**比full QAT性能更佳,但耗时略增加;

表17表明作者量化的YOLOv6-S速度快性能佳,其余检测器使用PaddleSlim中基于蒸馏量化方法;
结论
YOLOv6实验了目前先进目标检测策略,同时引入作者想法,在速度及性能上超越当前实时目标检测器。
相关文章:
YOLOv6-目标检测论文解读
文章目录摘要问题算法网络设计BackboneNeckHead标签分配SimOTA(YOLOX提出):TAL(Task alignment learning,TOOD提出)损失函数分类损失框回归损失目标损失行业有用改进自蒸馏图像灰度边界填充量化及部署实验消…...
【factoryio】使用SCL编写 <机械手控制> 程序
使用虚拟工厂软件和博图联合仿真来编写【scl】机械手控制程序 文章目录 目录 文章目录 前言 二、程序编写 1.机械手运行部分 2.启动停止部分 3.急停复位部分 三、完整代码 总结 前言 在前面我们一起写过了许多案例控制的编写,在这一章我们一起来编写一下一个…...
QT学习记录散件
fromLocal8Bit() qt中fromLocal8Bit()函数可以设置编码。 因为QT默认的编码是unicode,不能显示中文的 而windows默认使用(GBK/GB2312/GB18030) 所以使用fromLocal8Bit()函数,可以实现从本地字符集GB到Unicode的转换,从…...
[SSD科普之1] PCIE接口详解及应用模式
PCI-Express(peripheral component interconnect express)是一种高速串行计算机扩展总线标准,它原来的名称为“3GIO”,是由英特尔在2001年提出的,旨在替代旧的PCI,PCI-X和AGP总线标准。一、PCI-E x1/x4/x8/x16插槽模式PCI-E有 x1/…...
Linux设备驱动模型与 sysfs实现分析
RTOS和Linux系统上开发驱动的方式非常的不同,在RTOS系统下,驱动和驱动之间并没有实质性的联系,不同的驱动和BSP之间仅仅通过一层很薄很薄的设备管理框架聚合在一起构成RTOS的设备管理子系统。图形化表示如下: 设备驱动&BSP之间互相独立,互不影响,互不依赖,独立实现,…...
软考高级之制定备考计划
制定备考计划 高项准备时间最好是三个月以上,分为三个阶段来复习。 第一个阶段——熟悉知识点 第二个阶段——刷题 第三个阶段——冲刺复习 具体操作 第一个阶段 这个阶段的复习以教材和视频为主,掌握重要知识点。基础知识要打牢。例如࿱…...
[Pytorch] Linear层输出nan
参考链接: https://discuss.pytorch.org/t/well-formed-input-into-a-simple-linear-layer-output-nan/74720/11 总结原因: numpy需要更新 PS. 查看numpy版本号 打开Anaconda Prompt 进入环境 输入命令conda activate envname 然后输入pip show numpy…...
2023-2-19-What is ‘ template<typename E, E V> ‘?
目录C里面template怎么用inline函数模板类模板函数模板特化C里面template怎么用 template是什么? template其实是C的一种语法糖,本意是去简化程序员的工作. void swap(int *a,int *b){int temp *a;*a *b;*b temp; }比如在写一个交换函数的的时候,参数为两个in…...
华为OD机试题 - 字符串加密(JavaScript)
最近更新的博客 华为OD机试题 - 任务总执行时长(JavaScript) 华为OD机试题 - 开放日活动(JavaScript) 华为OD机试 - 最近的点 | 备考思路,刷题要点,答疑 【新解法】 华为OD机试题 - 最小步骤数(JavaScript) 华为OD机试题 - 任务混部(JavaScript) 华为OD机试题 - N 进…...
美团前端一面手写面试题
实现斐波那契数列 // 递归 function fn (n){if(n0) return 0if(n1) return 1return fn(n-2)fn(n-1) } // 优化 function fibonacci2(n) {const arr [1, 1, 2];const arrLen arr.length;if (n < arrLen) {return arr[n];}for (let i arrLen; i < n; i) {arr.push(arr[…...
2D图像处理:缺陷检测--仿照Halcon的Variation Model
文章目录 基于 C++&Opencv 的检测结果(Robust模式-MAD)一、Variation Model1.1 准备和训练模型方法1.2 比较模板方法1.3 过滤(保留符合缺陷特征的区域)二、参考基于 C++&Opencv 的检测结果(Robust模式-MAD) 一、Variation Model Halcon中的Variation Model主要是将待…...
JavaScript 注释
JavaScript 注释可用于提高代码的可读性。JavaScript 注释JavaScript 不会执行注释。我们可以添加注释来对 JavaScript 进行解释,或者提高代码的可读性。单行注释以 // 开头。本例用单行注释来解释代码:实例// 输出标题:document.getElementB…...
浅谈使用CDN加速的OSS
目录引出OSS对象存储服务CDNCDN加速OSS资源总结引出 之前,我在写项目的时候,因为项目中存在音视频的存储,然后我看圈子里面的人都是使用OSS对象存储来处理,然后我也跟风去使用了,然后在之后,我一个朋友问我…...
华为OD机试题 - 服务依赖(JavaScript)
最近更新的博客 华为OD机试题 - 任务总执行时长(JavaScript) 华为OD机试题 - 开放日活动(JavaScript) 华为OD机试 - 最近的点 | 备考思路,刷题要点,答疑 【新解法】 华为OD机试题 - 最小步骤数(JavaScript) 华为OD机试题 - 任务混部(JavaScript) 华为OD机试题 - N 进…...
整合K8s+SpringCloudK8s+SpringBoot+gRpc
本文使用K8s当做服务注册与发现、配置管理,使用gRpc用做服务间的远程通讯一、先准备K8s我在本地有个K8s单机二、准备service-providerpom<?xml version"1.0" encoding"UTF-8"?> <project xmlns"http://maven.apache.org/POM/4.…...
Django框架之模型视图--HttpResponse对象
HttpResponse对象 视图在接收请求并处理后,必须返回HttpResponse对象或子对象。HttpRequest对象由Django创建,HttpResponse对象由开发人员创建。 1 HttpResponse 可以使用django.http.HttpResponse来构造响应对象。 HttpResponse(content响应体, con…...
Linux下的Jenkins安装教程
当前环境 CentOS 7.8Java 11(注意当前jenkins支持的Java版本最低为Java11)FinalShell 3.9(操作环境) 安装Jenkins PS:不建议使用Docker安装Jenkins,因为使用Jenkins的时候一般会调用外部程序,…...
[软件工程导论(第六版)]第5章 总体设计(课后习题详解)
文章目录1. 为每种类型的模块耦合举一个具体例子。2. 为每种类型的模块内聚举一个具体例子。3. 用面向数据流的方法设计下列系统的软件结构。4. 美国某大学共有200名教师,校方与教师工会刚刚签订一项协议。按照协议,所有年工资超过$26000(含$…...
力扣62.不同路径
文章目录力扣62.不同路径题目描述方法1:暴力深搜(超时未通过)方法2:动态规划力扣62.不同路径 题目描述 一个机器人位于一个 m x n 网格的左上角 (起始点在下图中标记为 “Start” )。 机器人每次只能向下或者向右移动一步。机器…...
【验证码的识别】—— 图形验证码的识别
前言 (结尾有彩蛋欧) 目前,许多网站采取各种各样的措施来反爬虫,其中一个措施便是使用验证码。随着技术的发展,验证码的花样越来越多。验证码最初是几个数字组合的简单的图形验证码,后来加入了英文字母和混…...
DeepSeek 赋能智慧能源:微电网优化调度的智能革新路径
目录 一、智慧能源微电网优化调度概述1.1 智慧能源微电网概念1.2 优化调度的重要性1.3 目前面临的挑战 二、DeepSeek 技术探秘2.1 DeepSeek 技术原理2.2 DeepSeek 独特优势2.3 DeepSeek 在 AI 领域地位 三、DeepSeek 在微电网优化调度中的应用剖析3.1 数据处理与分析3.2 预测与…...
土地利用/土地覆盖遥感解译与基于CLUE模型未来变化情景预测;从基础到高级,涵盖ArcGIS数据处理、ENVI遥感解译与CLUE模型情景模拟等
🔍 土地利用/土地覆盖数据是生态、环境和气象等诸多领域模型的关键输入参数。通过遥感影像解译技术,可以精准获取历史或当前任何一个区域的土地利用/土地覆盖情况。这些数据不仅能够用于评估区域生态环境的变化趋势,还能有效评价重大生态工程…...
JVM暂停(Stop-The-World,STW)的原因分类及对应排查方案
JVM暂停(Stop-The-World,STW)的完整原因分类及对应排查方案,结合JVM运行机制和常见故障场景整理而成: 一、GC相关暂停 1. 安全点(Safepoint)阻塞 现象:JVM暂停但无GC日志,日志显示No GCs detected。原因:JVM等待所有线程进入安全点(如…...
python报错No module named ‘tensorflow.keras‘
是由于不同版本的tensorflow下的keras所在的路径不同,结合所安装的tensorflow的目录结构修改from语句即可。 原语句: from tensorflow.keras.layers import Conv1D, MaxPooling1D, LSTM, Dense 修改后: from tensorflow.python.keras.lay…...
C#中的CLR属性、依赖属性与附加属性
CLR属性的主要特征 封装性: 隐藏字段的实现细节 提供对字段的受控访问 访问控制: 可单独设置get/set访问器的可见性 可创建只读或只写属性 计算属性: 可以在getter中执行计算逻辑 不需要直接对应一个字段 验证逻辑: 可以…...
MySQL 知识小结(一)
一、my.cnf配置详解 我们知道安装MySQL有两种方式来安装咱们的MySQL数据库,分别是二进制安装编译数据库或者使用三方yum来进行安装,第三方yum的安装相对于二进制压缩包的安装更快捷,但是文件存放起来数据比较冗余,用二进制能够更好管理咱们M…...
Go 并发编程基础:通道(Channel)的使用
在 Go 中,Channel 是 Goroutine 之间通信的核心机制。它提供了一个线程安全的通信方式,用于在多个 Goroutine 之间传递数据,从而实现高效的并发编程。 本章将介绍 Channel 的基本概念、用法、缓冲、关闭机制以及 select 的使用。 一、Channel…...
JS手写代码篇----使用Promise封装AJAX请求
15、使用Promise封装AJAX请求 promise就有reject和resolve了,就不必写成功和失败的回调函数了 const BASEURL ./手写ajax/test.jsonfunction promiseAjax() {return new Promise((resolve, reject) > {const xhr new XMLHttpRequest();xhr.open("get&quo…...
接口自动化测试:HttpRunner基础
相关文档 HttpRunner V3.x中文文档 HttpRunner 用户指南 使用HttpRunner 3.x实现接口自动化测试 HttpRunner介绍 HttpRunner 是一个开源的 API 测试工具,支持 HTTP(S)/HTTP2/WebSocket/RPC 等网络协议,涵盖接口测试、性能测试、数字体验监测等测试类型…...
【学习笔记】erase 删除顺序迭代器后迭代器失效的解决方案
目录 使用 erase 返回值继续迭代使用索引进行遍历 我们知道类似 vector 的顺序迭代器被删除后,迭代器会失效,因为顺序迭代器在内存中是连续存储的,元素删除后,后续元素会前移。 但一些场景中,我们又需要在执行删除操作…...
