当前位置: 首页 > news >正文

深度学习基础——SSD目标检测

SSD网络介绍

使用多个特征图作为特征预测层。

SSD (Single Shot MultiBox Detector)于2016年提出。当网络输入为300×300大小时,在VOC2007测试集上达到74.3%的mAP;当输入是512×512大小时,达到了76.9%的mAP
 

SSD_Backbone部分介绍

不变的部分

特征提取网络沿用了VGG-16(网络结构如图所示)的Conv5_3层之前的所有结构

改变的部分

将VGG-16的第5个池化层(pool_5)从2×2,步长2改为3×3,步长1(修改后的pool_5特征图的大小不变)
将VGG-16的两个全连接层(FC6 & FC7)改为两个卷积层(Conv6 & Conv7)
增加了4个卷积层

        随着网络层数的加深,提取到的特征信息抽象程度也随之加大,高层语义信息中小目标物体的特征信息会减少,因此,如图所示,网络选择用较大的特征图检测较小的目标物体,用语义信息丰富的特征图检测较大的物体。选取Conv4_3、Conv7、Conv8_2、Conv9_2、Conv10_2、Conv11_2的特征图作为预测特征层,从而实现针对不同大小物体的目标检测。

 

不同大小特征图检测不同大小目标的物体 

        左图中“猫”相较与“狗”的特征较小,所以对于“猫”这类尺寸较小的物体的检测来说选用浅层特征图,“狗”这类尺寸较大的物体用高层、含语义信息丰富的特征图来检测。
 

默认框生成机制

        类似于Faster R-CNN网络中的锚框(Anchor)生成机制用来检测图片中的目标物体,SSD中有默认框(Default Box)生成机制。在每个预测特征层的每个cell上都会生成默认框。

        左图为默认框生成效果的简单示例,黄色点为当前cell的中心点,蓝框的宽高比为1:3和3:1、绿框的宽高比为1:2和2:1、红框的宽高比为1:1
 

默认框尺寸的计算公式如下所示: 

 

式中sk为当前预测层的默认框的尺寸,smin为默认框最小尺寸,smax为默认框最大尺寸,作为网络超参数设置。m为预测特征层的数量,在SSD300网络中m为6。
默认框宽高比有1:1、1:2、2:1、1:3、3:1共5种设置,不同比例下的宽、高计算公式如下所示:

 

 式中wak、hak分别为第k个预测特征层在比例ar下对应的宽、高。对于宽高比为1:1的默认框,其对应的尺寸除了当前预测特征层的默认框尺寸sk之外,还有sk' = √(SkSk+1)

在SSD_VGG16官方源代码中默认框的设置如下表所示:

        默认框中心坐标点设置过程如下图所示。将当前特征图进行坐标遍历,图中黄色点为当前遍历到的特征图坐标点,将该点的横纵坐标值各加0.5,再分别对整个原图尺寸进行归一化操作,即得到cell相对于原图的中心坐标点,也是默认框的中心坐标点,图中绿色点为当前像素(cell)的中心坐标点。

 以计算中心坐标点的y轴坐标值为例:

  • 先将当前层特征图的高网格点化
  • 再加0.5的偏移值
  • 再乘以特征图上一步对应在原图上的跨度
  • 最后除以原图的高
  • 得到相对于原图的中心点

 正负样本匹配

正负样本选取准则:

  • 选择与Ground Truth交并比最大的默认框所对应的IOU值;
  • 将与当前标注信息中的每个Ground Truth交并比最大的默认框所对应的IOU值设为2,即选为正样本。若不进行这一步,将会有Ground Truth未匹配到默认框;
  • 将与Ground Truth交并比大于0.5的默认框也设为正样本。

假设当前5个默认框与3个真值的交并比如下:

(1)选择与GT0框交并比最大的默认框的索引值记为idx
(2)将idx所对应的IOU值置为2.0
(3)将与GT交并比大于0.5的默认框均置为正样本

SSD的损失函数

 总损失函数计算公式如下所示,式中L(·)为总损失函数,N为被选取出来的默认框的个数,包括正样本和负样本,参数a为1

 坐标回归损失函数如下所示:

式中l为预测的坐标偏移量,g为默认框与Ground Truth框d的坐标偏移量。分别为中心点坐标cx、cy的偏移损失分别为宽度w和高度h的缩放损失。计算坐标回归损失的时候只计算正样本的回归损失。
类别损失函数如下所示:


 

预测器的实现

        3×3卷积核实现类别分数预测以及坐标偏移量回归。对于每个预测特征层上的每个位置,会有k个默认框,对每个默认框进行预测,所以输出大小为:

m × n × k × (C+4)

        其中, m,n为当前特征预测层的宽高,k为预测特征层每个位置上产生的默认框的个数,c为加上背景后的类别数,4为边界框坐标(x, y,  OMEGA, h)回归参数的个数.

        定义MobileNetV2的反向残差结构(反向残差结构如下图所示,(a)为残差结构,(b)为反向残差结构)

反向残差结构

  • 先通过一个1x 1的普通卷积将h × w × d大小的特征图升维得到h×w× td大小的特征图,t对应代码中的扩展因子(expand _ratio)参数
  • 再通过3×3的深度方向的卷积(Depthwise Convolution)操作,所得到的特征图大小为

  • 最后通过1× 1的点卷积(Pointwise Convolution)降维,此时使用的激活函数不是ReLU6激活函数,而是线性激活函数反向残差结构中只有当步距(stride=1),且输入与输出特征维度相同时,会有和残差结构中的shortcut连接

当扩展因子为1时,反向残差结构第一层没有1×1的普通卷积。

        下图为MobileNetV2网络结构示意图,图中t为扩展因子,c为输出特征图深度,n为反向残差块重复次数,s为每个反向残差层中第一个反向残差块的步距

 Focal Loss损失函数

其中α,为平衡正负样本因子,y为平衡难例因子
 

相关文章:

深度学习基础——SSD目标检测

SSD网络介绍 使用多个特征图作为特征预测层。 SSD (Single Shot MultiBox Detector)于2016年提出。当网络输入为300300大小时,在VOC2007测试集上达到74.3%的mAP;当输入是512512大小时,达到了76.9%的mAP SSD_Backbone部分介绍 不变的部分 特征提取网…...

鸿蒙系统优缺点,能否作为开发者选择

凡是都有对立面,就直接说说鸿蒙的优缺点吧。 鸿蒙的缺点: 鸿蒙是从2019年开始做出来的,那时候是套壳Android大家都知晓。从而导致大家不看鸿蒙系统,套壳Android就是多次一举。现在鸿蒙星河版已经是纯血鸿蒙,但是它的…...

强化学习入门(Matlab2021b)-创建环境【2】

目录 1 前言2 利用step和reset函数创建自定义环境2.1 对象描述2.2 reset函数2.3 step函数2.3 构建自定义环境3 使用匿名函数传递额外的参数4 可视化检查自定义函数的输出参考链接1 前言 本文介绍如何基于MATLAB编写step、reset函数,创建自己的强化学习环境(Environment)。 使…...

OkHttp 相关问题

1、OkHttp请求整体流程是怎么样? ​ Request-》OkHttpClient-》RealCall 同步 -》 在调用线程 执行五大拦截器 异步 -》 使用分发器将任务在线程池执行 五大拦截器 ---首先AsyncCall --加到等待队列readyAsyncCalls--》判断host有没有 已经存在。有,就赋值原来的。(reuseC…...

html的表单标签(上):form标签和input标签

表单标签 表单是让用户输入信息的重要途径。 用表单标签来完成与服务器的一次交互,比如你登录QQ账号时的场景。 表单分成两个部分: 表单域:包含表单元素的区域,用form标签来表示。表单控件:输入框,提交按…...

网页数据的解析提取(XPath的使用----lxml库详解)

在提取网页信息时,最基础的方法是使用正则表达式,但过程比较烦琐且容易出错。对于网页节点来说,可以定义id、class或其他属性,而且节点之间还有层次关系,在网页中可以通过XPath或CSS选择器来定位一个或多个节点。那么&…...

dell r740服务器黄灯闪烁维修现场解决

1:首先看一下这款DELL非常主力的PowerEdge R740服务器长啥样,不得不说就外观来说自从IBM抛弃System X系列服务器后,也就戴尔这个外观看的比较顺眼。 图一:是DELL R740前视图(这款是8盘机型) 图二&#xff…...

202426读书笔记|《尼采诗精选》——高蹈于生活之上,提升自己向下观望

202426读书笔记|《尼采诗精选》——高蹈于生活之上,提升自己向下观望 第一辑 早期尼采诗歌选辑(1858—1869年)第二辑 前期尼采遗著中的诗歌选辑(1871—1882年)第五辑 戏谑、狡计与复仇——德语韵律短诗序曲&#xff08…...

【PX4学习笔记】13.飞行安全与炸机处理

目录 文章目录 目录使用QGC地面站的安全设置、安全绳安全参数在具体参数中的体现安全绳 无人机炸机处理A:无人机异常时控操作B:无人机炸机现场处理C:无人机炸机后期维护和数据处理D:无人机再次正常飞行测试 无人机飞行法律宣传 使…...

Puppeteer 使用实战:如何将自己的 CSDN 专栏文章导出并用于 Hexo 博客(二)

文章目录 上一篇效果演示Puppeteer 修改浏览器的默认下载位置控制并发数错误重试并发控制 错误重试源码 上一篇 Puppeteer 使用实战:如何将自己的 CSDN 专栏文章导出并用于 Hexo 博客(一) 效果演示 上一篇实现了一些基本功能,…...

[ 2024春节 Flink打卡 ] -- 优化(draft)

2024,游子未归乡。工作需要,flink coding。觉知此事要躬行,未休,特记 资源配置调优内存设置 TaskManager内存模型 https://nightlies.apache.org/flink/flink-docs-release-1.18/docs/deployment/config/ TaskManager 内存模型…...

电脑进水无法开机怎么办 电脑进水开不了机的解决方法

意外总是会不定时打破你的计划,电脑这类电器最怕遇到的除了火还有水,设备进水会导致数据丢失,那么我们遇到电脑进水怎么办?进水之后不正确处理也会引起很多不必要的麻烦. 解决办法 第一步:关机 如果您的电脑是在开…...

【Flutter】底部导航BottomNavigationBar的使用

常用基本属性 属性名含义是否必须items底部导航栏的子项List是currentIndex当前显示索引否onTap底部导航栏的点击事件, Function(int)否type底部导航栏类型,定义 [BottomNavigationBar] 的布局和行为否selectedItemColor选中项图标和label的颜色否unsel…...

Vue封装全局公共方法

有的时候,我们需要在多个组件里调用一个公共方法,这样我们就能将这个方法封装成全局的公共方法。 我们先在src下的assets里新建一个js文件夹,然后建一个common.js的文件,如下图所示: 然后在common.js里写我们的公共方法,比如这里我们写了一个testLink的方法,然后在main…...

雪花算法生成分布式主键ID

直接上代码,复制即可使用 public class SnowflakeIdGenerator {private static final long START_TIMESTAMP 1624000000000L; // 设置起始时间戳,2021-06-18 00:00:00private static final long DATA_CENTER_ID_BITS 5L;private static final long WO…...

第三百五十九回

文章目录 1. 概念介绍2. 使用方法3. 代码与效果3.1 示例代码3.2 运行效果 4. 内容总结 013pickers2.gif 我们在上一章回中介绍了"如何实现Numberpicker"相关的内容,本章回中将介绍wheelChoose组件.闲话休提,让我们一起Talk Flutter吧。 1. 概念…...

vue3 用xlsx 解决 excel 低版本office无法打开问题

需求背景解决思路解决效果将json导出为excel将table导为excel导出样式 需求背景 原使用 vue3-json-excel &#xff0c;导致在笔记本office环境下&#xff0c;出现兼容性问题 <vue3-json-excel class"export-btn" :fetch"excelGetList" :fields"js…...

Java后端底座从无到有的搭建(随笔)

文章目录 开发模式的演变草创时期1.0时期&#xff08;基座时期&#xff09;1.1时期&#xff08;低代码时期&#xff09;2.0时期&#xff08;无代码时期&#xff09; 前言&#xff1a;本文是笔者在初创公司&#xff0c;一年多来Java后端服务底座搭建过程的总结&#xff0c;如有不…...

Rust介绍与开发环境搭建

Rust 是一种系统编程语言&#xff0c;它专注于内存安全、并发和性能。它是由 Mozilla 开发的&#xff0c;并得到了许多社区的广泛支持。Rust 的设计理念是“安全 by default”&#xff0c;这意味着你不需要特殊的工具或技巧来编写安全的代码。 Rust 的主要特点&#xff1a; 内…...

本地TCP通讯(C++)

概要 利用TCP技术&#xff0c;实现本地ROS1和ROS2的通讯。 服务端代码 头文件 #include <ros/ros.h> #include "std_msgs/String.h" #include "std_msgs/Bool.h" #include <iostream> #include <cstring> #include <unistd.h>…...

【杂谈】-递归进化:人工智能的自我改进与监管挑战

递归进化&#xff1a;人工智能的自我改进与监管挑战 文章目录 递归进化&#xff1a;人工智能的自我改进与监管挑战1、自我改进型人工智能的崛起2、人工智能如何挑战人类监管&#xff1f;3、确保人工智能受控的策略4、人类在人工智能发展中的角色5、平衡自主性与控制力6、总结与…...

TDengine 快速体验(Docker 镜像方式)

简介 TDengine 可以通过安装包、Docker 镜像 及云服务快速体验 TDengine 的功能&#xff0c;本节首先介绍如何通过 Docker 快速体验 TDengine&#xff0c;然后介绍如何在 Docker 环境下体验 TDengine 的写入和查询功能。如果你不熟悉 Docker&#xff0c;请使用 安装包的方式快…...

阿里云ACP云计算备考笔记 (5)——弹性伸缩

目录 第一章 概述 第二章 弹性伸缩简介 1、弹性伸缩 2、垂直伸缩 3、优势 4、应用场景 ① 无规律的业务量波动 ② 有规律的业务量波动 ③ 无明显业务量波动 ④ 混合型业务 ⑤ 消息通知 ⑥ 生命周期挂钩 ⑦ 自定义方式 ⑧ 滚的升级 5、使用限制 第三章 主要定义 …...

IGP(Interior Gateway Protocol,内部网关协议)

IGP&#xff08;Interior Gateway Protocol&#xff0c;内部网关协议&#xff09; 是一种用于在一个自治系统&#xff08;AS&#xff09;内部传递路由信息的路由协议&#xff0c;主要用于在一个组织或机构的内部网络中决定数据包的最佳路径。与用于自治系统之间通信的 EGP&…...

测试markdown--肇兴

day1&#xff1a; 1、去程&#xff1a;7:04 --11:32高铁 高铁右转上售票大厅2楼&#xff0c;穿过候车厅下一楼&#xff0c;上大巴车 &#xffe5;10/人 **2、到达&#xff1a;**12点多到达寨子&#xff0c;买门票&#xff0c;美团/抖音&#xff1a;&#xffe5;78人 3、中饭&a…...

将对透视变换后的图像使用Otsu进行阈值化,来分离黑色和白色像素。这句话中的Otsu是什么意思?

Otsu 是一种自动阈值化方法&#xff0c;用于将图像分割为前景和背景。它通过最小化图像的类内方差或等价地最大化类间方差来选择最佳阈值。这种方法特别适用于图像的二值化处理&#xff0c;能够自动确定一个阈值&#xff0c;将图像中的像素分为黑色和白色两类。 Otsu 方法的原…...

【android bluetooth 框架分析 04】【bt-framework 层详解 1】【BluetoothProperties介绍】

1. BluetoothProperties介绍 libsysprop/srcs/android/sysprop/BluetoothProperties.sysprop BluetoothProperties.sysprop 是 Android AOSP 中的一种 系统属性定义文件&#xff08;System Property Definition File&#xff09;&#xff0c;用于声明和管理 Bluetooth 模块相…...

MySQL 8.0 OCP 英文题库解析(十三)

Oracle 为庆祝 MySQL 30 周年&#xff0c;截止到 2025.07.31 之前。所有人均可以免费考取原价245美元的MySQL OCP 认证。 从今天开始&#xff0c;将英文题库免费公布出来&#xff0c;并进行解析&#xff0c;帮助大家在一个月之内轻松通过OCP认证。 本期公布试题111~120 试题1…...

浅谈不同二分算法的查找情况

二分算法原理比较简单&#xff0c;但是实际的算法模板却有很多&#xff0c;这一切都源于二分查找问题中的复杂情况和二分算法的边界处理&#xff0c;以下是博主对一些二分算法查找的情况分析。 需要说明的是&#xff0c;以下二分算法都是基于有序序列为升序有序的情况&#xf…...

ArcGIS Pro制作水平横向图例+多级标注

今天介绍下载ArcGIS Pro中如何设置水平横向图例。 之前我们介绍了ArcGIS的横向图例制作&#xff1a;ArcGIS横向、多列图例、顺序重排、符号居中、批量更改图例符号等等&#xff08;ArcGIS出图图例8大技巧&#xff09;&#xff0c;那这次我们看看ArcGIS Pro如何更加快捷的操作。…...