当前位置：首页 > news >正文

【机器学习合集】模型设计之残差网络 -＞（个人学习记录笔记）

news 2026/2/8 22:22:21

文章目录

模型设计之残差网络
- 1. 什么是残差结构
- - 1.1 网络加深遇到的优化问题
  - 1.2 short connect技术
- 2. 残差网络及有效性理解
- - 2.1 残差网络
- 3. 残差网络的发展
- - 3.1 密集残差网络
  - 3.2 更宽的残差网络(wide resnet)
  - 3.3 分组残差网络
  - 3.4 Dual Path Network
  - 3.5 加权残差网络
  - 3.6 预激活残差

模型设计之残差网络

残差网络（Residual Network，通常缩写为ResNet）是一种深度神经网络架构，最早由微软研究员提出。ResNet的核心思想是通过引入残差块（Residual Blocks）来解决深度神经网络训练中的梯度消失和梯度爆炸问题，从而使得更深的网络能够更容易地训练和优化。
以下是ResNet的主要特点和设计原则：

残差块（Residual Blocks）：
残差块是ResNet的基本构建单元，它包含了跳跃连接（skip connection）和残差映射（residual mapping）。
跳跃连接允许信息在不同层之间直接传递，而不是通过多个非线性激活函数。这有助于避免梯度消失问题，使网络更容易训练。
残差映射通过跳跃连接将输入特征与经过一些卷积层变换的特征相加，从而使网络学习残差（即差异），而不是完整的映射。这有助于网络捕捉更丰富的特征。

深度增加：
ResNet允许非常深的网络，通常包含数十到数百个层。通过使用残差块，可以轻松增加网络的深度而不会导致性能下降。
更深的网络有助于学习更复杂的特征，提高了模型的表现，特别适用于大规模图像分类等任务。

瓶颈结构：
为了减少参数量和计算复杂度，ResNet引入了瓶颈结构，其中每个残差块包含了一个较小的1x1卷积层、一个3x3卷积层和另一个1x1卷积层。这可以有效减少通道数和计算开销。

预训练和微调：
ResNet模型通常通过在大规模图像数据集上进行预训练，然后微调到特定任务。这种迁移学习方法能够在数据有限的情况下取得很好的结果。

引入注意力机制：
可以将注意力机制引入ResNet以增强其性能，特别是在处理复杂的计算机视觉任务中。通过引入注意力机制，模型可以更好地关注重要的特征。

总之，ResNet是一种强大的深度学习模型架构，已被广泛应用于计算机视觉任务，如图像分类、目标检测和图像分割。其核心思想是通过残差块来构建深层神经网络，从而克服深度神经网络中的梯度问题，实现更好的性能。

1. 什么是残差结构

1.1 网络加深遇到的优化问题

网络达到一定深度后，梯度消散与爆炸带来的性能下降问题
此前的解决方案：更好的优化方法，更好的初始化策略，BN层，ReLU激活函数等

1.2 short connect技术

在信号处理系统中，对输入数据进行中心化转换，即将数据减去均值，被广泛验证有利于加快系统的学习速度。

早期验证

2012年Tapani Raiko验证了shortcut connections和非线性变换提高了随机梯度下降算法的学习能力，并且提高了模型的泛化能力。
2015年Rupesh Kumar Srivastava提出highway network(残差的结构)，借鉴了来自于LSTM的控制门的思想

2. 残差网络及有效性理解

2.1 残差网络

2015年何凯明等人提出deep residual network
缓解梯度消失问题，训练上1000层的模型
F的梯度变化远远大于G，引入残差后的映射对输出的变化更敏感，这样有利于网络参数进行学习
神经网络的退化(只有少量的隐藏单元对不同的输入改变它们的激活值)是难以训练深层网络根本原因所在，残差打破了网络的对称性，消除了网络中的奇点
残差网络可以看作是多个不同深度模型的集成，提高了泛化能力，”Residual networks behave like ensembles of relatively shallow networks“

3. 残差网络的发展

3.1 密集残差网络

提高多层通道的利用率，密集连接网络(DenseNet)，增强各层的信息流动

3.2 更宽的残差网络(wide resnet)

通道数更大

3.3 分组残差网络

分组成若干个相同的子分支

3.4 Dual Path Network

ResNext与DenseNet的结合

3.5 加权残差网络

残差网络中两个通道之间相加时一条已经激活，另一条没有，提出将激活函数提前到残差通道，然后进行加权融合的思路

3.6 预激活残差

改变卷积+归一化+激活函数(conv+bn+relu)的顺序

注意：部分内容来自阿里云天池

【机器学习合集】模型设计之残差网络 -＞（个人学习记录笔记）

文章目录模型设计之残差网络1. 什么是残差结构1.1 网络加深遇到的优化问题1.2 short connect技术 2. 残差网络及有效性理解2.1 残差网络 3. 残差网络的发展3.1 密集残差网络3.2 更宽的残差网络(wide resnet)3.3 分组残差网络3.4 Dual Path Network3.5 加权残差网络3.6 预激活残…...

编程日记 2023/10/31 19:18:18

GoLong的学习之路（十六）基础工具之Gin框架

Gin框架介绍及使用，这张不用看内容就知道非常重要，重要到什么地步呢？重要到开发java不会Spring全家桶这种概念。上几篇文章写的是如何构建骨架，经脉。这一章是将血肉注入。文章目录 Gin框架RESTful API Gin渲染HTML渲染静态文件…...

编程日记 2023/10/31 19:17:17

VMware打开centos黑屏解决方法汇总

VMware打开centos黑屏解决方法汇总前言：一. VMware打开centos黑屏解决方法汇总一 .情况情况一：情况二情况三二. 解决方法最简单的方法：一. 以管理员权限在命令行执行1. 管理员身份运行cmd2. 输入“netsh winsock reset”,回车3. 重启电脑即…...

编程日记 2023/10/31 19:15:16

5G物联网关相较有线网关有哪些独特优势

5G为产业物联网应用带来了质的飞跃，5G技术实现更高速率、更低延迟和更大带宽，使得物联网能够接入更多数量的设备，实现更稳定、高效的连接和数据传输，在提高生产效率的同时，也进一步促进了物联网的应用发展和升级。针对…...

编程日记 2023/10/31 19:14:15

【数据结构】顺序表的学习

前言:在之前我们学习了C语言的各种各样的语法，因此我们今天开始学习数据结构这一个模块，因此我们就从第一个部分来开始学习"顺序表"。 💖 博主CSDN主页:卫卫卫的个人主页 💞 👉 专栏分类:C程序设计谭浩强版本…...

编程日记 2023/10/31 19:13:14

在NISQ小型计算机上执行大型并行量子计算的可能性

简介 Steve White提出了密度矩阵重整化群（DMRG）的基本思想，即纠缠是一种有价值的资源，可以用来精确或近似地描述大量子系统。后来，这一思想被理解为优化矩阵积状态（MPS）的算法，支持…...

编程日记 2023/10/31 19:12:13

考虑时空相关性的风电功率预测误差MATLAB代码

微❤关注“电气仔推送”获得资料（专享优惠） 风电功率预测置信区间误差分析拟合 1.风电功率预测误差--时空相关性展示第一一个时间段的风电功率预测与实际风电功率值的比较。填充区域表示预测的不确定性，显示了95%置信区间内预测可能的范围…...

编程日记 2023/10/31 19:11:13

文章目录环境服务类启动项注入使用依赖注入的优点环境 .NET Core 7.0ASP.NET CoreVisual Studio 2022 服务类 public class T_TempService {public T_TempService(){}public void Test(){}}启动项注入 #region 依赖注入 builder.Services.AddTransient<T_TempService&g…...

编程日记 2023/10/31 19:10:08

解决proteus仿真stm32，IIC通讯，IIC DEBUG无法显示从机应答信号的问题（问题情况为在8位数据后应答位显示？）

1、错误现象错误现象如下，在IIC数据传输8位数据后，IIC DEBUG的应答位无法显示应答位 2、错误原因我们打开信号传输的示波器，直接去查看IIC从机校验位的数据波形，可以看到从机示波器显示的的波形为半高ACK，那错误原…...

编程日记 2023/10/31 19:09:07

PHP判断闰年

闰年的规则 1.能被4整除且不能被100整除 （普通闰年） 2.能被400整除，公历年份是整百数的，必须是400的倍数才是闰年（世纪闰年） 代码 function isLeapYear($year) {if($year%40 && $year%100!0){r…...

编程日记 2023/10/31 19:08:05

证照之星XE专业版下载专业证件照制作工具

值得肯定的是智能背景替换功能，轻松解决背景处理这一世界难题。不得不提及的是新增打印字体设置，包含字体选择、字号大小、字体颜色等。不同领域的应用证明了万能制作，系统支持自定义证照规格，并预设了17种常用的证件照规格。人所…...

编程日记 2023/10/31 19:07:04

VR全景图片如何制作？揭秘VR全景图片制作全流程

引言： VR全景图片是一种以全景视角为基础的图片制作技术，能够呈现出更为真实、立体的视觉体验。通过VR全景图片，观众可以360环顾四周，仿佛身临其境，提供了一种全新的感官体验，那么如何制作出令人满意的全景…...

编程日记 2023/10/31 19:06:03

vue element el-table-column 循环示例代码

如果你想循环生成多个el-table-column，可以使用v-for指令。以下是一个示例： <template><el-table :data"tableData"><el-table-column v-for"column in columns" :key"column.prop" :label"column.l…...

编程日记 2023/10/31 19:05:02

R语言生物群落（生态）数据统计分析与绘图实践技术应用

R 语言作的开源、自由、免费等特点使其广泛应用于生物群落数据统计分析。生物群落数据多样而复杂，涉及众多统计分析方法。以生物群落数据分析中的最常用的统计方法回归和混合效应模型、多元统计分析技术及结构方程等数量分析方法为主线，通过多个来自经典…...

编程日记 2023/10/31 19:04:01

有了 GPT，还需要付费咨询吗？

之前写过一篇文章《在创业公司，我靠它续命 …》，提到现在写代码基本靠 GPT。现在这种状况不仅没有改变，反而依赖更深。公司立项开发产品的 Linux 版本，全靠我一个人。我之前虽然一直使用 Linux 开发环境，对 Linux 系统…...

编程日记 2023/10/31 19:03:01

如何搭建一台服务器？

一.准备工作 1. 确定服务器类型：根据需求选择适合的服务器类型，如网站服务器、数据库服务器、文件服务器等。 2. 选择操作系统：根据服务器类型选择合适的操作系统，如Linux（如Ubuntu、CentOS）、Windows Se…...

编程日记 2023/10/31 19:01:59

[转载]C++序列化框架介绍和对比

Google Protocol Buffers Protocol buffers 是一种语言中立，平台无关，可扩展的序列化数据的格式，可用于通信协议，数据存储等。 Protocol buffers 在序列化数据方面，它是灵活的，高效的。相比于 XML 来说&…...

编程日记 2023/10/31 19:00:58

分类预测 | Matlab实现KOA-CNN-BiLSTM-selfAttention多特征分类预测（自注意力机制）

分类预测 | Matlab实现KOA-CNN-BiLSTM-selfAttention多特征分类预测（自注意力机制） 目录分类预测 | Matlab实现KOA-CNN-BiLSTM-selfAttention多特征分类预测（自注意力机制）分类效果基本描述程序设计参考资料分类效果基本描述 1…...

编程日记 2023/10/31 18:59:55

浮点数和定点数（上）：怎么用有限的Bit表示尽可能多的信息？

目录背景浮点数的不精确性定点数的表示浮点数的表示小结背景在我们日常的程序开发中，不只会用到整数。更多情况下，我们用到的都是实数。比如，我们开发一个电商 App，商品的价格常常会是 9 块 9；再比如&…...

编程日记 2023/10/31 18:55:48

一文详解汽车电子LIN总线

0.摘要汽车电子LIN总线不同于CAN总线。 LIN总线基本上是CAN总线的廉价补充，相比于CAN总线，它提供较低的可靠性和性能。同时LIN总线也是一个应用非常广泛的网络协议，并且越来越受欢迎。再一次，我们准备了一个关于LIN总线的简要…...

编程日记 2023/10/31 18:53:44

新能源汽车智慧充电桩管理方案：新能源充电桩散热问题及消防安全监管方案

随着新能源汽车的快速普及，充电桩作为核心配套设施，其安全性与可靠性备受关注。然而，在高温、高负荷运行环境下，充电桩的散热问题与消防安全隐患日益凸显，成为制约行业发展的关键瓶颈。如何通过智慧化管理手段优化散…...

编程新知 2026/1/29 3:00:56

论文解读：交大港大上海AI Lab开源论文 | 宇树机器人多姿态起立控制强化学习框架（一）

宇树机器人多姿态起立控制强化学习框架论文解析论文解读：交大&港大&上海AI Lab开源论文 | 宇树机器人多姿态起立控制强化学习框架（一） 论文解读：交大&港大&上海AI Lab开源论文 | 宇树机器人多姿态起立控制强化…...

编程新知 2025/8/27 0:58:09

PL0语法，分析器实现！

简介 PL/0 是一种简单的编程语言，通常用于教学编译原理。它的语法结构清晰，功能包括常量定义、变量声明、过程（子程序）定义以及基本的控制结构（如条件语句和循环语句）。 PL/0 语法规范 PL/0 是一种教学用的小型编程语言，由 Niklaus Wirth 设计，用于展示编译原理的核…...

编程新知 2026/1/29 17:06:33

JDK 17 新特性

#JDK 17 新特性 /**************** 文本块 *****************/ python/scala中早就支持，不稀奇 String json “”" { “name”: “Java”, “version”: 17 } “”"; /**************** Switch 语句 -> 表达式 *****************/ 挺好的&#xff…...

编程新知 2026/1/29 5:34:29