当前位置：首页 > news >正文

目标检测——OverFeat算法解读

news 2026/2/10 13:30:58

论文：OverFeat: Integrated Recognition, Localization and Detection using Convolutional Networks
作者：Pierre Sermanet, David Eigen, Xiang Zhang, Michael Mathieu, Rob Fergus, Yann LeCun
链接：https://arxiv.org/abs/1312.6229

文章目录

1、算法概述
2、OverFeat细节
- 2.1 分类
- 2.2 定位
3、创新点

1、算法概述

OverFeat算法同时实现图像分类、定位及检测任务，也证明了采用一个网络同时做三种任务可以提高分类、定位、检测的准确率。文章介绍了一种通过累积预测边界框来定位和检测的方法。通过结合许多定位预测，可以在没有背景样本训练的情况下进行检测任务，不进行背景训练也可以让网络只关注正面类，以获得更高的准确性。文中报道的结果是基于ILSVRC2013的，分类报道TOP5(分类概率前5个包含groundTruth就算正确)；定位也是报道TOP5但是需加上TOP5各自对应目标的bounding box预测且bounding box与groundTruth矩形框标注的iou大于50%才能算bounding box预测正确；检测任务就需要预测图像中的每个目标了（类别加定位，包括背景类）并以mAP的指标报道结果。

2、OverFeat细节

2.1 分类

OverFeat仿照AlexNet设计，但是对网络结构和推理步骤进行了改进；文中分类网络分为两种：速度和精度，结构如下：
在这里插入图片描述

相对于AlexNet，它没有采用对比度归一化，没有用带重叠的池化层，网络前两层使用了小的stride从而保留了比较大的特征图，因为大的stride虽然能快速减小特征图从而对网络推理提速但是对精度有损害。最终精度模型比速度模型的TOP5错误率少了2.21%（14.18%对16.39%）。

多尺度分类
AlexNet中，应用了多视角(multi-view)投票技术用来提升最后预测类别的精度，即通过4次corner_crop加一次center_crop，同时应用水平翻转共计10次分类结果来投票出最终的类别；然而这种方式还是忽略了大量图片区域，也在图片重叠区域存在计算冗余，此外，这种方式也只是图片的单一尺度，不一定是卷积神经网络最合适的推理尺度。所以作者采用了6种不同尺度的测试图像作为输入（每个尺度图像还增加了水平翻转），而且作者认为在特征提取最后一层（conv 5）直接做 max pooling，将导致最终输入图像的检测粒度不足，提出用偏移池化(offset pooling)操作实现让分类器的视角窗口在特征图上滑动，最终将偏移池化得到的特征图组合在一起输出结果。如下表、下图所示：
卷积和高效的滑窗
在此之前，很多滑动窗口技术都是为每个窗口重复进行所有的计算，这对计算资源的消耗是巨大的。而卷积天然就带有滑窗的方式，如下图所示，因为卷积操作是共享卷积核滑动操作，所以计算非常高效，作者最后在测试阶段，将最后的全连接层替换成了1x1卷积层，这样就能适应比训练图像大的图片测试了。

2.2 定位

由分类到定位，基于之前的分类网络，把网络的分类器替换成回归器，训练这个网络预测每个位置和尺度的物体边界框，就可以实现定位任务。回归器也取网络的前5层的feature map输出作为bounding box的输入，该feature map也用作分类器训练，所以分类器和回归器共用前面的特征。回归器的输出是4个值，代表bounding box的坐标，每个类都有对应的bounding box预测。训练回归器时，前5层不参与训练；如果样本和真实标签的重叠小于50%，则样本不参与回归器的训练。（由于样本预处理和增强的原因，可能导致样本的范围和真实标签已经重叠较小）。下面看看定位/检测具体的工作步骤：
在这里插入图片描述

3、创新点

采用multiscale、sliding window、offset pooling实现多尺度滑窗采样，基于卷积高效实现滑窗思想，在同一网络框架下实现分类、定位、检测。

目标检测——OverFeat算法解读

文章目录

1、算法概述

2、OverFeat细节

2.1 分类

2.2 定位

3、创新点

相关文章：

目标检测——OverFeat算法解读

vue获取主机id和IP地址

在pytorch中自定义dataset读取数据

ConvNeXt V2: Co-designing and Scaling ConvNets with Masked Autoencoders

Java后端的登录、注册接口是怎么实现的

TCP Keepalive 和 HTTP Keep-Aliv

操作系统复习笔记

Java中实现单例模式的方式

Vue3-01-创建项目

Go 语言中的反射机制

[leetcode 前缀和]

Python与ArcGIS系列（十五）根据距离抓取字段

YOLOv8分割训练及分割半自动标注

jsp页面通过class或者id获取a标签上的属性的值

题目：美丽的区间（蓝桥OJ 1372）

解决：During handling of the above exception, another exception occurred

计算机基础知识65

Python开发运维：Python垃圾回收机制

ros2/ros安装ros-dep||rosdep init错误

《深入理解计算机系统》学习笔记 - 第四课 - 机器级别的程序

linux之kylin系统nginx的安装

智慧医疗能源事业线深度画像分析（上）

论文解读：交大港大上海AI Lab开源论文 | 宇树机器人多姿态起立控制强化学习框架（二）

基于距离变化能量开销动态调整的WSN低功耗拓扑控制开销算法matlab仿真

MySQL中【正则表达式】用法

USB Over IP专用硬件的5个特点

Reasoning over Uncertain Text by Generative Large Language Models

Linux离线（zip方式）安装docker

LLMs 系列实操科普（1）

【LeetCode】3309. 连接二进制表示可形成的最大数值（递归|回溯|位运算）