当前位置：首页 > news >正文

深度学习知识补充

news 2026/2/8 17:05:49

候选位置(proposal)
RCNN

什么时ROI？

在图像处理领域，感兴趣区域(region of interest ， ROI) 是从图像中选择的一个图像区域，这个区域是你的图像分析所关注的重点。圈定该区域以便进行进一步处理。使用ROI圈定你想读的目标，可以减少处理时间，增加精度。

什么是stride？

步长。

什么是padding？

padding是为了解决以下两个问题：

1.每卷积一次，图像就会变小，卷积几次图像就会变得非常小
2.图像角落和边缘的像素卷积过程中被使用到的次数非常少，而其他地方的像素被多次重叠使用，丢失了边界上许多信息。

所以为了解决上面两个问题，在卷积之前使用pad（填充）周边方式。

卷积过程padding的理解

什么是稀疏矩阵？

在矩阵中，若数值为0的元素数目远远多于非0元素的数目，并且非0元素分布没有规律时，则称该矩阵为稀疏矩阵；与之相反，若非0元素数目占大多数时，则称该矩阵为稠密矩阵。定义非零元素的总数比上矩阵所有元素的总数为矩阵的稠密度。
通常认为矩阵中非零元素的总数比上矩阵所有元素总数的值小于等于0.05时，则称该矩阵为稀疏矩阵(sparse matrix)；与之相区别的是，如果非零元素的分布存在规律（如上三角矩阵、下三角矩阵、对角矩阵），则称该矩阵为特殊矩阵。
百度百科-稀疏矩阵

什么是下采样？什么是上采样？

下采样（subsampled），又称为降采样（downsampled）。可以通俗地理解为缩小图像，减少矩阵的采样点数。例如：隔位取值、合并区域等。

上采样（upsampling），又称为插值（interpolating）。可以通俗地理解为放大图像，增加矩阵的采样点数。例如：内插值、反卷积等

computer vision笔记：上采样和下采样
下采样与上采样

什么是感受野（receptive field , RF）？如何计算？

感受野的定义是卷积神经网络每一层输出的特征图上的像素点在输入图片（原图）上映射区域的大小。
怎么计算呢，一般都是从输出倒推向输入，通过以下的公式进行计算：
在这里插入图片描述

1.最后一层（卷积层或池化层）输出特征图感受野的大小等于卷积核的大小。
2.依次向前计算其他层数的感受野大小。
3.计算感受野的大小时忽略图像边缘的影响，即不考虑padding的大小。
以下面的网络结构为例：

什么是feature map？

在CNN的设定里，Feature Map是卷积核卷出来的,你用各种情况下的卷积核去乘以原图，会得到各种各样的feature map。你可以理解为你从多个角度去分析图片。而不同的特征提取（核）会提取不同的feature，模型想要达成的目的是解一个最优化，来找到能解释现象的最佳的一组卷积核。

理解卷积神经网络CNN中的特征图 feature map——该博客解释卷积网络的核心思想很明白。
CNN一个牛逼的地方就在于通过感受野和权值共享减少了神经网络需要训练的参数的个数。总之，卷积网络的核心思想是将：局部感受野、权值共享（或者权值复制）以及时间或空间亚采样这三种结构思想结合起来获得了某种程度的位移、尺度、形变不变性.

什么是anchor？

anchor称为预定义边框。
Faster R-CNN的Anchor box 实际上就是用来生成一系列先验框的规则，其生成的先验框有以下三部分构成：

CNN提取的Feature Map的点，来定位边框的位置。
Anchor box的Scale来表示边框的大小
Anchor box的Aspect Ratio来表示边框的形状

one stage中的目标检测
是直接在最后提取的Feature map上使用预定义的Anchor生成一系列的边框，最后再对这些边框进行回归。
two stage中的目标检测
提取的Feature map上使用预定义的Anchor生成一系列的边框，这些边框经过RPN网络，生成一些的ROI区域。将提取到的ROI输入到后续网络中进行边框回归，这就比one stage的方法多了一步，所以精度和耗时上都有所增加。

目标检测中anchor的概念

什么是Softmax函数？

一文详解Softmax函数

什么是交叉熵？

交叉熵（Cross-Entropy）
二分类问题的标准 loss 是交叉熵。

什么是focal loss？

focal loss不仅仅解决了样本非平衡的问题，同样有助于模型的整体性能提高。
focal loss 通俗讲解

one-stage 和 two-stage的区别？

One-stage网络以yolo系列网络为代表的，two-stage网络以faster-rcnn为代表的，

One-Stage
主要思路：直接通过卷积神经网络提取特征，预测目标的分类与定位；

Two-Stage
主要思路：先进行区域生成，即生成候选区域（Region Proposal），在通过卷积神经网络预测目标的分类与定位；
目标检测之one-stage和two-stage网络的区别

RPN是什么？

RPN（Region Proposal Network）是Faster-RCNN网络用于提取预选框（也就是RCNN中使用Selective Search算法进行Region Proposal的部分）
我们知道RCNN及Fast-RCNN中一个性能瓶颈就是提取预选框的部分，而RPN很好地对这个部分进行了优化，原因在于它将卷积神经网络引入了进来，使用特征提取的形式生成出预选框的位置从而降低了Selective Search算法带来的计算时间上的开销。
详解RPN网络

什么是词袋模型？

词袋模型（Bag-of-words model）是用于自然语言处理和信息检索中的一种简单的文档表示方法。通过这一模型，一篇文档可以通过统计所有单词的数目来表示，这种方法不考虑语法和单词出现的先后顺序。这一模型在文档分类里广为应用，通过统计每个单词的出现次数（频率）作为分类器的特征。
计算机视觉中同样可以用到词袋模型。
词袋模型（Bag-of-words model）

什么是one-hot编码？

one-hot编码，又称独热编码、一位有效编码。其方法是使用N位状态寄存器来对N个状态进行编码，每个状态都有它独立的寄存器位，并且在任意时候，其中只有一位有效。
one-hot编码