当前位置：首页 > news >正文

目标检测——YOLOR算法解读

news 2026/2/9 22:01:28

论文：YOLOR-You Only Learn One Representation: Unifified Network for Multiple Tasks
作者：Chien-Yao Wang, I-Hau Yeh, Hong-Yuan Mark Liao
链接：https://arxiv.org/abs/2105.04206
代码：https://github.com/WongKinYiu/yolor

YOLO系列算法解读：

YOLOv1通俗易懂版解读
SSD算法解读
YOLOv2算法解读
YOLOv3算法解读
YOLOv4算法解读
YOLOv5算法解读
YOLOR算法解读
YOLOX算法解读

PP-YOLO系列算法解读：

PP-YOLO算法解读
PP-YOLOv2算法解读
PP-PicoDet算法解读
PP-YOLOE算法解读
PP-YOLOE-R算法解读

文章目录

1、算法概述
2、YOLOR细节
- 2.1 隐性知识如何工作
- 2.2 统一网络的隐性知识
3、实验结果
- 3.1 实验设置
- 3.2 FPN特征对齐消融实验
- 3.3 目标检测预测细化消融实验
- 3.4 多任务规范表征消融实验
- 3.5 隐式知识建模不同算子比较
- 3.6 隐式知识提升目标检测

1、算法概述

人类可以通过视觉、听觉、触觉以及过去的经验来“理解”世界。经验可以通过正常学习(作者称之为显性知识)，也可以通过潜意识(作者称之为隐性知识)来学习。即对于一段数据，人类可以从显性知识中直接学习到它，也可以从大脑中以前的经验(潜意识)中推导分析它。然而，经过训练的卷积神经网络（CNN）模型通常只能实现一个目标，即直接从数据中学习。一般来说，从训练过的CNN中提取出来的特征通常对其他类型的问题适应性较差。造成上述问题的主要原因是我们只从神经元中提取特征，而没有利用CNN中丰富的隐性知识。在真实人脑运行时，上述隐性知识可以有效地辅助大脑完成各种任务，如下图所示：

隐性知识是指在潜意识中学习到的知识。然而，对于隐性学习如何运作以及如何获得隐性知识，目前还没有一个系统的定义。在神经网络的一般定义中，从浅层获得的特征通常称为显性知识，从深层获得的特征称为隐性知识。论文中将与观测数据(网络输入)直接对应的知识称为显性知识。对于模型中隐含的与观测无关的知识，我们称之为隐性知识。
作者提出了一个统一的网络来整合隐性知识和显性知识，使学习模型包含一个通用的表示，这个通用的表示使得子表示适合于各种任务。图2©说明了该统一网络体系结构。本文构建统一网络的方法是将压缩感知和深度学习结合起来。

借鉴知乎@算法小乔画的YOLOR网络结构图，可以看到作者主要在输出层OutProcess中增加了两个隐性知识向量shift-Channels和Control-Channels，这里的隐性知识向量，就是单独初始化一个向量shape为[1,C,1,1], 其中C与前一层的输出outchannels一致，有点类似于通道注意力的意思，然后在训练过程中，参数随着训练优化更新。shift-Channels将隐性知识向量与前一层的特征通过相加Add的方式进行融合；Control-Channels将隐性知识向量与前一层的特征通过相乘Mul的方式进行融合。
YOLOR网络结构图

2、YOLOR细节

2.1 隐性知识如何工作

本文的主要目的是建立一个能够有效训练隐性知识的统一网络，因此在后续的研究中，我们首先将重点放在如何训练隐性知识和快速推理上。由于隐性表示zi与观测无关，我们可以把它看作一组常数张量Z={z1,z2,⋯,zk}。在本节中，我们将介绍作为常量张量的隐性知识如何应用于各种任务。

多维空间降维

一个好的表征应该能够在它所属的多维空间中找到一个合适的投影，并有助于后续目标任务的顺利完成。例如，如图3所示，如果目标类别可以通过投影空间中的超平面成功分类，那将是最好的结果。在上面的例子中，我们可以利用投影向量的内积和隐式表示来达到降低流形空间维数的目的，有效地完成各种任务。
内核空间对齐

在多任务和多头神经网络中，核空间失调是一个常见的问题，图4(a)举例说明了多任务和多头神经网络中的核空间失调。为了解决这个问题，我们可以对输出特征和隐式表示进行加法和乘法，这样就可以对核空间进行平移、旋转和缩放，以对齐神经网络的每个输出核空间，如图4(b)所示。上述操作模式可广泛应用于不同领域，如特征金字塔网络（FPN）中大目标与小目标的特征对齐、利用知识蒸馏来对齐大模型与小模型、零样本迁移等问题。
更多的功能

除了可以应用于不同任务的功能外，隐性知识还可以扩展为更多的功能。如图5所示，通过引入加法，可以使神经网络预测中心坐标的偏移量。还可以引入乘法来自动搜索锚点的超参数集，这是基于anchor的目标检测经常需要的。此外，点乘法和串联可分别用于执行多任务特征选择和为后续计算设置前提条件。

2.2 统一网络的隐性知识

在本节中，我们将比较传统网络和提出的统一网络的目标函数，并解释为什么引入隐性知识对训练多用途网络很重要。同时，我们还将详细阐述本文提出的方法。

卷积网络
对于卷积网络的目标函数，如下：

其中x是观测量，即网络的输入，θ代表卷积网络的参数集，f_θ(.)代表卷积网络运行；卷积网络训练，即最小化误差ε，使输入x经过卷积网络尽可能贴近真实数据y。

如图6(a)所示，我们需要对同一标注有不同的样本，以获取数据的丰富性。换句话说，我们期望得到的解空间仅对当前任务ti是有区别的，而对各种除ti以外的潜在任务是不变的，其中T={t1,⋯,tn}。
对于一般用途的神经网络，我们希望所得到的表示能服务于T。因此，我们需要放松ε，以便在流形空间上同时找到每个任务的解，如图6(b)所示。然而，上述要求使得我们不可能用简单的数学方法，如一个one-hot向量的最大值或欧氏距离的阈值来求解ti。为了解决这个问题，我们必须对错误项ε进行建模，以便为不同的任务找到解决方案，如图6( c)所示。
统一网络
为了训练所提出的统一网络，我们将显性知识和隐性知识结合起来对误差项进行建模，然后用它来指导多用途网络的训练过程。相应的训练公式如下：

其中ϵ_ex和ϵ_im是分别对观测值x和潜在编码z的显式误差和隐式误差进行建模的运算。g_ϕ这里是一个特定于任务的操作，用于从显性知识和隐性知识中组合或选择信息。
已有的将显性知识整合到f_θ(.)的方法，可以将（2）改写为（3）。

其中*表示了f和g之间的可能操作。可能是加法、乘法或者串联。
如果我们把误差项的推导过程扩展到处理多个任务，我们可以得到如下公式：

其中，Z={z1,z2,⋯,zT}是不同任务的隐式编码，Φ是用于从Z生成隐性知识表示的参数，Ψ用于从显式表示和隐式表示的不同组合中计算最终输出参数。
对于不同的任务，我们可以使用下面的公式获得预测：

对于所有的任务我们都从一个统一表示f_θ(x)，完成特定任务的隐式表示g_ϕ(z)开始，最后用任务识别器d_Ψ完成不同的任务。
隐性知识的建模
隐性知识可用如下方式建模：
对于Vector/Matrix/Tensor，使用向量z直接作为隐性知识的先验，直接作为隐式表示。(z)
对于Neural Network，使用向量z作为隐性知识的先验，然后使用权值矩阵进行线性组合或非线性化，从而成为隐式表示。(Wz)
对于Matrix Factorization，使用多个向量作为隐性知识的先验，这些隐性先验由Z和系数c形成隐式表示。(Z^Tc)
Training
如果模型一开始没有任何先验的隐性知识，也就是说，它不会对显式表征fθ(x)产生任何影响。那我们就直接初始化一个向量z即可，对于结合操作是相加或串连的，z服从N(0,σ)，对于结合操作是乘法的，z服从N(1，σ)，这里σ初始化的时候都是接近于0的。z和Φ都是在训练过程中遵循梯度反向传播算法进行优化的。
Inference
因为隐性知识与观测量x无关，所以无论gϕ多么复杂，在推理过程之前都可以被简化为一组常数张量。

3、实验结果

3.1 实验设置

在这里插入图片描述
本文通过FPN中的feature alignment（特征对齐）、目标检测中的prediction refinement（预测细化）、单模型中的multi-task learning（多任务学习）来应用implicit knowledge（隐式知识）（注：本文的多任务学习指特征嵌入、多标签图像分类和目标检测）。使用YOLOV4-CSP作为baseline model，隐式知识添加位置如上图所示，所有训练超参数与Scaled-YOLOv4一致。

3.2 FPN特征对齐消融实验

使用简单的向量隐式表征和加法算子，在FPN的每一个特征映射层添加隐式知识进行特征对齐，各个指标均获得了提升，如表1所示。
在这里插入图片描述

3.3 目标检测预测细化消融实验

使用简单的向量隐式表征和加法算子，在YOLO的每一个输出层添加隐式知识进行预测细化，大部分指标都获得到了一定的增益，如表2所示。
在这里插入图片描述

3.4 多任务规范表征消融实验

当需要同时训练一个被多个任务共享的模型时，由于损失函数的联合优化过程是必须执行的，因此在执行过程中往往会出现多方相互拉动的情况，这种情况将导致最终的整体性能比单独训练多个模型然后集成它们要差。为了解决这个问题，作者提出为训练多任务训练一个规范的表征，通过给每个任务分支引入隐式表征增强表征能力，表3展示了使用简单的向量隐式表征和加法算子进行不同联合训练方式的结果，（检测和特征嵌入联合训练，引入加法隐式表征）取得了最好的对比结果。
在这里插入图片描述

3.5 隐式知识建模不同算子比较

在这里插入图片描述
表4显示了图10中不同算子融合显式表征与隐式表征的结果。
在特征对齐实验中，相加与串联（concat）操作能够提升性能表现，相乘有所下降。特征对齐的实验结果完全符合其物理特性，因为它必须处理全局偏移和所有单个簇的缩放。
在预测细化实验中，由于concat会增加输出维度，所以只比较相加与相乘的效果，在这里相乘的效果更好。这是由于中心偏移在执行预测时使用加法解码，而锚框尺度使用乘法解码，而中心坐标是以网格为界的，影响较小，但人工设置的锚框具有较大的优化空间，因此改进更为显著。
在这里插入图片描述

3.6 隐式知识提升目标检测

按照Scaled-YOLOv4训练过程，先从头训练 300 epochs，然后微调150 epochs，表8展示了目标检测中引入隐式知识的优势。表9与SOTA方法进行了比较，值得注意的是YOLOR并没有增加额外的数据和标注做训练，只通过引入隐式知识的统一网络，YOLOR不仅达到了足可以和SOTA方法比拟的结果，而且速度非常快。
在这里插入图片描述

目标检测——YOLOR算法解读

论文：YOLOR-You Only Learn One Representation: Unifified Network for Multiple Tasks 作者：Chien-Yao Wang, I-Hau Yeh, Hong-Yuan Mark Liao 链接：https://arxiv.org/abs/2105.04206 代码：https://github.com/WongKinYiu/yolo…...

编程日记 2024/3/21 8:52:44

NVIDIA NCCL 源码学习（十三）- IB SHARP

背景之前我们看到了基于ring和tree的两种allreduce算法，对于ring allreduce，一块数据在reduce scatter阶段需要经过所有的rank，allgather阶段又需要经过所有rank；对于tree allreduce，一块数据数据在reduce阶段要上行…...

编程日记 2024/3/21 8:51:43

Spark-Scala语言实战（4）

在之前的文章中，我们学习了如何在scala中定义无参，带参以及匿名函数。想了解的朋友可以查看这篇文章。同时，希望我的文章能帮助到你，如果觉得我的文章写的不错，请留下你宝贵的点赞，谢谢。 Spark-Scala语言…...

编程日记 2024/3/21 8:50:41

ffmpeg不常用命令整理

最近做了许多有关音视频方面的工作，接触了一些不常用的命令，整理分享出来。 1.剪辑视频 ffmpeg -ss 1 -to 4 -accurate_seek -i input.mp4 -c:v copy output.mp4指定从视频中的第1秒开始，到第4秒结束的部分剪辑。 ss：指定开始时…...

编程日记 2024/3/21 8:49:40

怎么理解面向对象？一文带你全面理解

文章目录 1、类和对象（1）面向过程和面向对象初步认识（2）类的引入（3）类的定义（4）类的访问限定符及封装4.1 访问限定符4.2 封装 （5）类的作用域（6&am…...

编程日记 2024/3/21 8:48:37

神经网络（深度学习，计算机视觉，得分函数，损失函数，前向传播，反向传播，激活函数）

目录一、神经网络简介二、深度学习要解决的问题三、深度学习的应用四、计算机视觉五、计算机视觉面临的挑战六、得分函数七、损失函数八、前向传播九、反向传播十、神经元的个数对结果的影响十一、正则化与激活函数一、神经网络简介神经网络是一种有监督…...

编程日记 2024/3/21 8:45:34

Tomcat的Host Manager页面403的原因和解决办法

目录背景原因: 解决方案背景一直报错 403 Access Denied You are not authorized to view this page.By default the Host Manager is only accessible from a browser running on the same machine as Tomcat. If you wish to modify this restriction, youll need to…...

编程日记 2024/3/21 8:43:32

零基础学华为ip认证难吗？华为认证费用多少？

零基础学华为ip认证难吗？ 首先，零基础的学习者可以通过系统的学习，逐步掌握网络基础知识和技能。可以通过阅读教材、参加培训课程、进行实践操作等方式，不断提升自己的知识和技能水平。同时，学习者还可以利用华为提供的…...

编程日记 2024/3/21 8:42:31

[C语言]——内存函数

目录一.memcpy使用和模拟实现（内存拷贝） 二.memmove 使用和模拟实现三.memset 函数的使用（内存设置） 四.memcmp 函数的使用 C语言中规定： memcpy拷贝的就是不重叠的内存memmove拷贝的就是重叠的内存但是在VS202…...

编程日记 2024/3/21 8:41:30

QGIS编译（跨平台编译）056：PDAL编译（Windows、Linux、MacOS环境下编译）

点击查看专栏目录文章目录 1、PDAL介绍2、PDAL下载3、Windows下编译4、linux下编译5、MacOS下编译1、PDAL介绍 PDAL（Point Data Abstraction Library）是一个开源的地理空间数据处理库，它专注于点云数据的获取、处理和分析。PDAL 提供了丰富的工具和库，用于处理激光扫描仪、…...

编程日记 2024/3/21 8:38:27

计算机三级——网络技术（综合题第二题）

路由器工作模式用户模式当通过Console或Telnet方式登录到路由器时，只要输入的密码正确，路由器就直接进入了用户模式。在该模式下，系统提示符为一个尖括号(>)。如果用户以前为路由器输入过名称，则该名称将会显示在尖指号的前…...

编程日记 2024/3/21 8:36:25

Python 深度学习第二版（GPT 重译）（二）

四、入门神经网络：分类和回归本章涵盖您的第一个真实世界机器学习工作流示例处理矢量数据上的分类问题处理矢量数据上的连续回归问题本章旨在帮助您开始使用神经网络解决实际问题。您将巩固从第二章和第三章中获得的知识，并将所学应用于三个新…...

编程日记 2024/3/21 8:34:22

【Redis】Redis常见原理和数据结构

Redis 什么是redis redis是一款基于内存的k-v数据结构的非关系型数据库，读写速度非常快，常用于缓存，消息队列、分布式锁等场景。 redis的数据类型 string：字符串缓存对象，分布式ID，token，se…...

编程日记 2024/3/21 8:33:20

3个Tips，用“AI”开启新生活

相信最近，很多朋友们都回归到了忙碌的生活节奏中。生活模式的切换，或多或少会带来身体或情绪状况的起伏。新技术正在为人们生活的方方面面带来便利。3个小Tips或许能让你也从新技术中获益，从身到心，用“AI”开启新生活。关”A…...

编程日记 2024/3/21 8:30:17

【ROS | OpenCV】在ROS中实现多版本OpenCV、cv_bridge共存：安装与配置指南

在 Ubuntu 20.04 中，ROS Noetic 默认安装的 OpenCV 版本为 4.2.0。如果您需要确认系统中已安装的 OpenCV 版本，可以使用以下命令： sudo find / -iname "*opencv*"然而，许多开源算法都是基于 OpenCV 3 编写的&#xff0…...

编程日记 2024/3/21 8:29:16

Docker容器化技术（docker-compose示例:部署discuz论坛和wordpress博客，使用adminer管理数据库）

安装docker-compose [rootservice ~]# systemctl stop firewalld [rootservice ~]# setenforce 0 [rootservice ~]# systemctl start docker[rootservice ~]# wget https://github.com/docker/compose/releases/download/v2.5.0/docker-compose-linux-x86_64创建目录 [rootse…...

编程日记 2024/3/21 8:28:15