当前位置: 首页 > news >正文

论文阅读(十六):Deep Residual Learning for Image Recognition

文章目录

  • 1.介绍
  • 2.基本原理
  • 3.两种残差块
  • 4.网络结构


  论文:Deep Residual Learning for Image Recognition
  论文链接:Deep Residual Learning for Image Recognition
  代码链接:Github

1.介绍

在这里插入图片描述
  在ResNet网络提出之前,传统的卷积神经网络都是通过将一系列卷积层与下采样层进行堆叠得到的。但是当堆叠到一定网络深度时,就会出现两个问题:

  • 梯度消失/梯度爆炸。
  • 退化问题。

其中,在论文中针对两个问题提出了如下解决方案:

  • 1.梯度消失/梯度爆炸:可通过数据预处理及在网络中使用 B a t c h N o r m a l i z a t i o n Batch\;Normalization BatchNormalization来解决。
  • 2.退化问题(随着网络层数的加深,效果会变差,如上图所示):本文提出了残差结构( R e s i d u a l B l o c k Residual\;Block ResidualBlock)进行解决。

  残差块设计的基本思想是,人为地让神经网络某些层跳过下一层神经元的连接,通过隔层相连来弱化每层之间的强联系,这种网络结构称为残差网络( R e s N e t s ResNets ResNets)。效果如下图所示,可见,随着网络的不断加深,效果并没有变差,而是变的更好了。
在这里插入图片描述

2.基本原理

  残差指的是输入特征 x x x与经过卷积模块提取的特征 H ( x ) H(x) H(x)之间的差值。网络深度的增加却使得模型性能下降,说明增加的层并不能学习到新的特征,甚至会导致原始特征的丢失。而若能保证即使新增加的层未学习到任何内容,但也能复制浅层网络学习到的特征(相当于浅层网络的恒等映射),此时深层网络的性能与浅层网络相同,也就解决了残差问题。
  传统的CNN网络如左图所示( C o n v + R e L U + C o n v Conv+ReLU+Conv Conv+ReLU+Conv):
在这里插入图片描述
其输出可定义为 H ( x ) = C o n v ( R e L U ( C o n v ( x ) ) ) H(x)=Conv(ReLU(Conv(x))) H(x)=Conv(ReLU(Conv(x))),而残差网络的结构如下图所示:
在这里插入图片描述
与普通CNN网络结构相比,残差网络增加了跳跃连接( s k i p c o n n e c t i o n skip\;connection skipconnection),将输入 x x x恒等映射到第二个激活函数之前与 F ( x ) = C o n v ( R e L U ( C o n v ( x ) ) ) F(x)=Conv(ReLU(Conv(x))) F(x)=Conv(ReLU(Conv(x)))之间相加(假设 w e i g h t l a y e r = C o n v weight\;layer=Conv weightlayer=Conv)。通过这种操作,使得网络在最差的情况下也能获得和输入一样的输出,即增加的层什么也不学习,仅仅复制输入的特征,至少使得网络不会出现退化的问题。

3.两种残差块

   R e s N e t ResNet ResNet中一共有两种残差块结构:
在这里插入图片描述

其中,左侧的残差结构常用于层数较少的 R e s N e t ResNet ResNet中,如例如ResNet18层和ResNet34层网络。而右侧则常用于层数较多的 R e s N e t ResNet ResNet中。这是因为右侧的残差结构能够减少网络参数与运算量。同样输入一个channel为256的特征矩阵,如果使用左侧的残差结构需要大约1170648个参数,但如果使用右侧的残差结构只需要69632个参数。

【残差结构一】
在这里插入图片描述
  上图中左侧的残差块结构用于 R e s N e t 18 − l a y e r 、 34 − l a y e r ResNet\;18-layer、34-layer ResNet18layer34layer网络中,其主分支由两个3x3的卷积层组成,而右侧的分支结构则实现 x x x的恒等映射。
  在 R e s N e t 34 − l a y e r ResNet\;34-layer ResNet34layer中有一些恒等映射使用虚线连接的残差结构,如:
在这里插入图片描述
其真实结构如上图右侧所示,此时恒等映射需要通过卷积核1x1大小、步长为2、个数为128的卷积层来调整 x x x的形状,使之能够与 F ( x ) F(x) F(x)进行相加。

【残差结构二】
在这里插入图片描述
  上图左侧的残差块结构用于 R e s N e t 50 − l a y e r 、 101 − l a y e r 、 152 − l a y e r ResNet\;50-layer、101-layer、152-layer ResNet50layer101layer152layer中,主分支中共有三个卷积层,其中,第一个卷积层用于压缩输入矩阵的通道数,第三个卷积层则将通道数还原回原始大小。
  这些网络中同样有一些恒等映射使用虚线连接的残差结构,具体实现方式如右图所示。其并不直接进行恒等映射,而是使用1x1的卷积块调整输入矩阵的通道数,使能够与 F ( x ) F(x) F(x)正常相加来实现恒等映射。例如, R e s N e t 50 − l a y e r ResNet\;50-layer ResNet50layer B o t t l e n e c k Bottleneck Bottleneck代码实现:

class Bottleneck(nn.Module):def __init__(self, inplanes, planes, stride=1, downsample=None, dilation=1):#inplanes:输入通道数;planes:输出通道数;stride:步幅;downsample:下采样层;dilation:膨胀系数super(Bottleneck, self).__init__()#1×1卷积self.conv1      = nn.Conv2d(inplanes, planes, kernel_size=1, bias=False)self.bn1        = nn.BatchNorm2d(planes)#3×3卷积self.conv2      = nn.Conv2d(planes, planes, kernel_size=3, stride=stride, padding=(3*dilation-1)//2, bias=False, dilation=dilation)self.bn2        = nn.BatchNorm2d(planes)#1×1卷积self.conv3      = nn.Conv2d(planes, planes*4, kernel_size=1, bias=False)self.bn3        = nn.BatchNorm2d(planes*4)#下采样(若步幅不为1或输入通道数与目标通道数不匹配,则进行下采样)self.downsample = downsampledef forward(self, x):residual = x#1×1卷积out      = F.relu(self.bn1(self.conv1(x)), inplace=True)#3×3卷积out      = F.relu(self.bn2(self.conv2(out)), inplace=True)#1×1卷积out      = self.bn3(self.conv3(out))#若不能直接将x与特征残差连接,则需下采样(对应虚线部分)if self.downsample is not None:residual = self.downsample(x)#残差连接return F.relu(out+residual, inplace=True)

downsample在网络中的实现为:

if stride != 1 or self.inplanes != planes*4:#使用1×1卷积和批量归一化进行下采样downsample = nn.Sequential(nn.Conv2d(self.inplanes, planes*4, kernel_size=1, stride=stride, bias=False), nn.BatchNorm2d(planes*4))

4.网络结构

在这里插入图片描述
  下面这幅图是原论文给出的不同深度的ResNet网络结构配置,表中的残差结构给出了主分支上卷积核的大小与卷积核个数,其中, x N xN xN表示将该残差结构重复N次。
  在 R e s N e t 18 − l a y e r 、 34 − l a y e r 、 50 − l a y e r 、 101 − l a y e r 、 152 − l a y e r ResNet\;18-layer、34-layer、50-layer、101-layer、152-layer ResNet18layer34layer50layer101layer152layer中, c o n v 3 _ x 、 c o n v 4 _ x 、 c o n v 5 _ x conv3\_x、conv4\_x、conv5\_x conv3_xconv4_xconv5_x对应的残差链(指由多个残差块连接而成)结构中,第一层均使用带虚线的残差块来调整输入矩阵的形状(将输入矩阵的高和宽缩减为原来的一半,将图像通道数调整成下一层残差结构所需要的通道数)。例如, 34 − l a y e r 34-layer 34layer的结构如下图所示:
在这里插入图片描述
  而在 R e s N e t 50 − l a y e r 、 101 − l a y e r 、 152 − l a y e r ResNet\;50-layer、101-layer、152-layer ResNet50layer101layer152layer中,其 c o n v 2 _ x conv2\_x conv2_x结构的第一层也是虚线残差块结构,其需要调整输入特征矩阵的通道数。

相关文章:

论文阅读(十六):Deep Residual Learning for Image Recognition

文章目录 1.介绍2.基本原理3.两种残差块4.网络结构 论文:Deep Residual Learning for Image Recognition   论文链接:Deep Residual Learning for Image Recognition   代码链接:Github 1.介绍 在ResNet网络提出之前,传统的卷…...

Dubbo 序列化方式

Hession 这是dubbo的默认序列化协议,是一种二进制协议,他的特点是序列化的速度比较快,并且序列化的数据体积比较小。Hession适合于大部分场景,因此被选为dubbo的默认序列化协议。 Json Json是一种基于文本的序列化方式&#xf…...

如何替换OCP节点(二):使用 antman脚本 | OceanBase应用实践

前言: OceanBase Cloud Platform(简称OCP),是 OceanBase数据库的专属企业级数据库管理平台。 在实际生产环境中,OCP的安装通常是第一步,先搭建OCP平台,进而依赖OCP来创建、管理和监控我们的生…...

15.JVM垃圾收集算法

一、垃圾收集算法 1.分代收集理论 分代收集理论是JAVA虚拟机进行垃圾回收的一种思想,根据对象存活周期的不同将内存分成不同的几个区域;一般将JAVA堆内存分为新生代和老年代;根据每个分代特点选择不同的垃圾收集器; 在新生代中&am…...

软件工程:图书管理系统甘特图

1 实验目的 熟悉GanttProject 软件环境,能够使用GanttProject绘制甘特图,进行项目管理与规划。 2 实验内容 为小型图书管理系统项目的实施计划绘制甘特图。 小型图书管理系统项目包含登录、浏览、管理读者、管理图书资料、管理书目、登记借书、登记还书、预定图书、…...

视频的编解码格式

文章目录 视频的编解码格式概念术语视频处理流程视频封装格式视频编码格式视频编解码器,视频容器和视频文件格式之间的区别补充视频码率 参考资料 视频的编解码格式 概念术语 两大组织主导视频压缩的组织及其联合(joint)组织 ITU-T(VCEG) ITU-T的中文名称是国际电信…...

网络资源模板--Android Studio 实现简易新闻App

目录 一、项目演示 二、项目测试环境 三、项目详情 四、完整的项目源码 一、项目演示 网络资源模板--基于Android studio 实现的简易新闻App 二、项目测试环境 三、项目详情 登录页 用户输入: 提供账号和密码输入框,用户可以输入登录信息。支持“记…...

LabVIEW提高开发效率技巧----离线调试

离线调试是LabVIEW开发中一项重要的技巧,通过使用Simulate Signal Express VI生成虚拟数据,开发者能够有效减少对实际硬件的依赖,加速开发过程。这种方法不仅可以提高开发效率,还能降低成本,增强系统的灵活性。 ​ 离…...

6N137S1取反电路图

文章目录 一、前言二、6N137S1性能介绍三、应用电路图 一、前言 在硬件电路设计中需要用到隔离电路,但此引脚输出为WS2812的信号,频率有840khz,所以需要使用逻辑光耦,选用6N137S1光耦,速率能达到10Mhz,能满…...

Nullinux:一款针对Linux操作系统的安全检测工具

关于Nullinux Nullinux是一款针对Linux操作系统的安全检测工具,广大研究人员可以利用该工具针对Linux目标设备执行网络侦查和安全检测。 该工具可以通过SMB枚举目标设备的安全状况信息,其中包括操作系统信息、域信息、共享信息、目录信息和用户信息。如…...

学会这 5 个 AI 神器做字体设计,保证让你私单接到爆!

最近我在浏览 AI 绘画的相关内容时,发现不少图像都是与字体相关的,而且其中一些呈现出的艺术特效很是让人眼前一亮。 放在之前,我们需要掌握一些专业技能、并花费大量时间才能设计出精致酷炫的艺术字,但是现在却可以轻松用文本直…...

《Vue3 踩坑》expose 和 defineExpose 暴露属性或方法注意事项

选项式写法 使用 选项式API - 状态选项 - expose 一定要注意: 接下来,进一步看示例说明: 设置 expose 仅显示列出的属性/方法才能被父组件调用;代码第 2 行,父组件可访问属性 a 和 方法 myFunc01,不可访…...

10.13论文阅读

通过联合学习检测和描述关键点增强可变形局部特征 摘要 局部特征提取是计算机视觉中处理图像匹配和检索等关键任务的常用方法。大多数方法的核心理念是图像经历仿射变换,忽略了诸如非刚性形变等更复杂的效果。此外,针对非刚性对应的新兴工作仍然依赖于…...

六西格玛黑带项目:TBX-02无人机飞行稳定性提升——张驰咨询

一、项目背景与问题定义 TBX-02是该公司最新发布的消费级无人机,面向摄影爱好者和户外探险者。产品上市后,通过客户反馈和实际测试数据发现,该无人机在复杂飞行环境中,如强风或快速移动时,存在明显的飞行抖动和稳定性…...

git clone 国内镜像

比如 git clone https://github.com/HKUST-Aerial-Robotics/A-LOAM.git 改成 git clone https://gitclone.com/github.com/HKUST-Aerial-Robotics/A-LOAM.git...

【服务器虚拟化】

服务器虚拟化是一种将一台物理服务器划分为多个虚拟服务器的技术,每个虚拟服务器都可以独立运行操作系统和应用程序。下面是一个详细的教程,以KVM虚拟化为例,介绍了具体的操作步骤和执行命令。 准备工作 a. 确保你的服务器支持虚拟化技术&…...

【RAG】aiops第一名方案-EasyRAG:自动网络运营的高效检索增强生成框架

来看一个RAG比赛方案,提出了一个名为EasyRAG的框架,用于自动化网络操作的检索增强生成。该框架旨在解决网络操作中信息检索和生成效率低、准确性差的问题。研究难点包括:如何在保证准确性的前提下提高检索和生成的效率;如何实现简…...

3款备受好评的电脑数据恢复软件,赶紧收藏以备不时之需

在日常工作和生活中,电脑数据丢失是许多人都会遇到的问题。无论是误删文件、硬盘格式化,还是系统崩溃,都可能导致重要数据的丢失。所以,好用的数据恢复软件必不可少。 但在如今的市场上数据恢复软件琳琅满目,它们在恢复…...

.net core 实现多线程方式有哪些

在 .NET Core 中,有多种方式可以实现多线程编程。这些方式包括使用 Thread 类、Task 和 Parallel 类库。每种方法都有其适用场景和优缺点。下面我将通过代码示例来展示这些不同的多线程实现方式。 1. 使用 Thread 类 Thread 类是 .NET 中最基本的多线程实现方式。…...

《Linux从小白到高手》综合应用篇:深入理解Linux磁盘及IO优化

1. 前言 其实磁盘优化和IO优化,我在前面的其他Linux调优博文中已经讲述过或者涉及过了,但是太过零碎,所以本篇就来集中深入讨论下Linux磁盘和IO调优。 2.磁盘调优 结合我多年的经验,本人认为磁盘调优最重要的是读写性能的提升和…...

装饰模式(Decorator Pattern)重构java邮件发奖系统实战

前言 现在我们有个如下的需求,设计一个邮件发奖的小系统, 需求 1.数据验证 → 2. 敏感信息加密 → 3. 日志记录 → 4. 实际发送邮件 装饰器模式(Decorator Pattern)允许向一个现有的对象添加新的功能,同时又不改变其…...

stm32G473的flash模式是单bank还是双bank?

今天突然有人stm32G473的flash模式是单bank还是双bank?由于时间太久,我真忘记了。搜搜发现,还真有人和我一样。见下面的链接:https://shequ.stmicroelectronics.cn/forum.php?modviewthread&tid644563 根据STM32G4系列参考手…...

FastAPI 教程:从入门到实践

FastAPI 是一个现代、快速(高性能)的 Web 框架,用于构建 API,支持 Python 3.6。它基于标准 Python 类型提示,易于学习且功能强大。以下是一个完整的 FastAPI 入门教程,涵盖从环境搭建到创建并运行一个简单的…...

基础测试工具使用经验

背景 vtune,perf, nsight system等基础测试工具,都是用过的,但是没有记录,都逐渐忘了。所以写这篇博客总结记录一下,只要以后发现新的用法,就记得来编辑补充一下 perf 比较基础的用法: 先改这…...

linux 错误码总结

1,错误码的概念与作用 在Linux系统中,错误码是系统调用或库函数在执行失败时返回的特定数值,用于指示具体的错误类型。这些错误码通过全局变量errno来存储和传递,errno由操作系统维护,保存最近一次发生的错误信息。值得注意的是,errno的值在每次系统调用或函数调用失败时…...

苍穹外卖--缓存菜品

1.问题说明 用户端小程序展示的菜品数据都是通过查询数据库获得,如果用户端访问量比较大,数据库访问压力随之增大 2.实现思路 通过Redis来缓存菜品数据,减少数据库查询操作。 缓存逻辑分析: ①每个分类下的菜品保持一份缓存数据…...

NFT模式:数字资产确权与链游经济系统构建

NFT模式:数字资产确权与链游经济系统构建 ——从技术架构到可持续生态的范式革命 一、确权技术革新:构建可信数字资产基石 1. 区块链底层架构的进化 跨链互操作协议:基于LayerZero协议实现以太坊、Solana等公链资产互通,通过零知…...

管理学院权限管理系统开发总结

文章目录 🎓 管理学院权限管理系统开发总结 - 现代化Web应用实践之路📝 项目概述🏗️ 技术架构设计后端技术栈前端技术栈 💡 核心功能特性1. 用户管理模块2. 权限管理系统3. 统计报表功能4. 用户体验优化 🗄️ 数据库设…...

Python Ovito统计金刚石结构数量

大家好,我是小马老师。 本文介绍python ovito方法统计金刚石结构的方法。 Ovito Identify diamond structure命令可以识别和统计金刚石结构,但是无法直接输出结构的变化情况。 本文使用python调用ovito包的方法,可以持续统计各步的金刚石结构,具体代码如下: from ovito…...

vulnyx Blogger writeup

信息收集 arp-scan nmap 获取userFlag 上web看看 一个默认的页面,gobuster扫一下目录 可以看到扫出的目录中得到了一个有价值的目录/wordpress,说明目标所使用的cms是wordpress,访问http://192.168.43.213/wordpress/然后查看源码能看到 这…...