深度革命:ResNet 如何用 “残差连接“ 颠覆深度学习
一文快速了解 ResNet创新点
在深度学习的历史长河中,2015年或许是最具突破性的一年。这一年,微软亚洲研究院的何恺明团队带着名为ResNet(残差网络)的模型横空出世,在ImageNet图像分类竞赛中以3.57%的错误率夺冠,将人类视觉的识别误差(约5.1%)远远甩在身后。更令人震撼的是,ResNet将神经网络的深度推至152层,彻底打破了"深层网络无法训练"的魔咒。这场革命的核心,正是一个简单却极具颠覆性的设计——残差连接。

一、深度学习的"死亡峡谷":梯度消失与退化问题
在ResNet诞生前,深度学习领域正陷入一场危机。理论上,更深的网络能够捕捉更复杂的特征,但实践中,当网络层数超过20层时,训练误差反而急剧上升,甚至出现"退化现象":深层网络的表现不如浅层网络。
罪魁祸首是梯度消失:在反向传播中,梯度经过多层非线性激活函数后趋近于零,导致网络无法更新参数。传统解决方案(如ReLU激活函数、权重初始化)虽有缓解,但无法根治。
二、残差连接:给神经网络装上"高速公路"
ResNet的天才之处在于提出了一个反直觉的假设:让网络学习"残差"而非直接学习输出。其核心设计是在传统卷积层间插入跳跃连接(Shortcut Connection),形成残差块(Residual Block)。
数学公式:
y = F ( x , W ) + x y = F(x, W) + x y=F(x,W)+x
其中,( F(x, W) ) 是残差函数,( x ) 是输入信号的直接传递。
关键作用:
- 梯度回传"高速公路":跳跃连接允许梯度绕过中间层直接回传,避免梯度消失。
- 学习目标简化:网络只需拟合残差 ( F ( x , W ) = y − x ) ( F(x, W) = y - x ) (F(x,W)=y−x),而非复杂的直接映射 ( y = F ( x , W ) ) ( y = F(x, W) ) (y=F(x,W))。
- 恒等映射保障:当残差为零时,网络退化为恒等映射,确保深层网络不会比浅层网络更差。
三、残差块:模块化设计的胜利
ResNet将残差连接与 批量归一化(BatchNorm) 结合,形成了标志性的残差块结构。根据网络深度不同,分为两种变体:
1. Basic Block(用于ResNet-18/34)
由两个3x3卷积层组成,适合较浅网络。
2. Bottleneck Block(用于ResNet-50/101/152)
通过1x1卷积降低维度,减少计算量,适合深层网络。
模块化设计的优势在于:
- 可扩展性:通过堆叠不同数量的残差块,轻松构建18层到152层的网络。
- 特征复用:每一层都能利用前面所有层的信息,避免特征丢失。
四、ImageNet上的封神之战
2015年的ImageNet竞赛中,ResNet以152层的惊人体量参赛,其表现远超预期:
- 错误率3.57%,比第二名VGG-19(7.32%)低一半。
- 计算效率提升:相比VGG,ResNet参数更少、速度更快。
这场胜利不仅是技术的突破,更是对深度学习范式的彻底颠覆:深层网络从此成为可能。何恺明团队的论文《Deep Residual Learning for Image Recognition》被引用量至今超过10万次,成为深度学习领域的奠基之作。
五、从计算机视觉到AI宇宙:残差思想的燎原之火
ResNet的影响早已超越图像分类,成为整个AI领域的"通用语言":
1. 计算机视觉
- ResNeXt:通过分组卷积增强模型表达能力。
- DenseNet:密集连接进一步强化特征传递。
- Mask R-CNN:结合ResNet与区域卷积,在目标检测领域封神。
2. 自然语言处理
- Transformer:在自注意力机制中引入残差连接,成为大模型的基石。
- BERT:通过残差结构处理多层Transformer的梯度问题。
3. 其他领域
- 医学影像:残差网络用于病灶检测与分割。
- 自动驾驶:深层ResNet处理实时路况识别。
六、残差连接的哲学启示
ResNet的成功揭示了一个深刻的真理:复杂问题可以通过简单的结构创新解决。残差连接的本质是承认网络的"不完美",允许它逐步逼近目标,而非一步到位。这种设计哲学甚至影响了AI伦理领域——通过模块化、可解释的残差结构,研究者试图让神经网络更透明可控。
结语:革命仍在继续
从ResNet到如今的千层大模型,残差连接始终是深度学习的"灵魂组件"。它不仅解决了技术难题,更重新定义了人们对神经网络的认知:深度不再是障碍,而是力量的源泉。随着AI进入多模态、大模型时代,残差思想仍在焕发新的生命力。这场始于2015年的深度革命,至今仍在书写属于它的传奇。
相关文章:
深度革命:ResNet 如何用 “残差连接“ 颠覆深度学习
一文快速了解 ResNet创新点 在深度学习的历史长河中,2015年或许是最具突破性的一年。这一年,微软亚洲研究院的何恺明团队带着名为ResNet(残差网络)的模型横空出世,在ImageNet图像分类竞赛中以3.57%的错误率夺冠&#…...
Java基础与集合
参考 Java基础知识详解:从面向对象到异常处理-CSDN博客 2024年 Java 面试八股文(20w字)_java面试八股文-CSDN博客 基础知识 java概述 什么是java? java是一种面向对象的编程语言 java特点 面向对象(继承&#…...
【Python 算法零基础 1.线性枚举】
我装作漠视一切,以为这样就可以不在乎 —— 25.3.17 一、线性枚举的基本概念 1.时间复杂度 线性枚举的时间复杂度为 O(nm),其中 n是线性表的长度。m 是每次操作的量级,对于求最大值和求和来说,因为操作比较简单,所以 …...
深入理解 Linux 的 top 命令:实时监控系统性能
在 Linux 系统管理和性能优化中,top 命令是一个不可或缺的工具。它可以实时显示系统的进程信息和资源使用情况,帮助管理员快速定位性能瓶颈。本文将详细介绍 top 命令的输出内容及其使用方法,帮助你更好地掌握系统性能监控。 一、top 命令简介 top 是一个动态显示系统状态的…...
003 SpringCloud整合-LogStash安装及ELK日志收集
SpringCloud整合-LogStash安装及ELK日志收集 文章目录 SpringCloud整合-LogStash安装及ELK日志收集1.安装ElasticSearch和kibana2.Docker安装logstash1.拉取docker镜像2.创建外部挂载目录3.拷贝容器内部文件到宿主机4.修改外部挂载文件5.运行docker容器 3.整合kibana1.进入kiba…...
AI预测体彩排3新模型百十个定位预测+胆码预测+杀和尾+杀和值2025年3月18日第22弹
前面由于工作原因停更了很长时间,停更期间很多彩友一直私信我何时恢复发布每日预测,目前手头上的项目已经基本收尾,接下来恢复发布。当然,也有很多朋友一直咨询3D超级助手开发的进度,在这里统一回复下。 由于本人既精…...
数据结构入门(1)——算法复杂度
目录 一、前言 二、数据结构 2.1数据结构的概念 2.2数据结构的组成 2.3算法 三、oj题引进 四、复杂度 4.1复杂度的概念 4.2大O渐进表示法 4.3时间复杂度 4.4时间复杂度计算示例 4.4.1示例1 4.4.2示例2 4.4.3示例3 4.4.4示例4 4.4.5示例5 4.4.6示例6 4.4.7示例7 4.4.8示例8 4.5空…...
JavaScript基础-DOM 简介
在现代Web开发中,JavaScript与HTML和CSS一起构成了网页的核心技术。而在这三者之中,DOM(Document Object Model,文档对象模型)作为浏览器处理网页内容的一种接口,扮演着至关重要的角色。通过DOM,…...
VS Code + Git 分支操作指南(附流程图)
VS Code + Git 分支操作指南(附流程图) 本指南将手把手教你如何在 Visual Studio Code (VS Code) 中使用 Git 进行项目开发管理,配合标准分支模型(main、develop、feature/* 等),并附上直观的流程图,适合新手快速上手! 📌 前置准备 安装 Git安装 VS Code安装 VS Cod…...
Oracle ASM Failgroup故障组
Oracle ASM Failgroup故障组 1. 故障组的核心作用2. 故障组的配置规则3. 故障组的设计最佳实践4. 故障组的实际示例场景1:普通冗余(2个故障组)场景2:高冗余(3个故障组,跨数据中心) 关键注意事项…...
【最新版】智慧小区物业管理小程序源码+uniapp全开源
一.系统介绍 智慧小区物业管理小程序,包含小区物业缴费、房产管理、在线报修、业主活动报名、在线商城等功能。为物业量身打造的智慧小区运营管理系统,贴合物业工作场景,轻松提高物业费用收缴率,更有功能模块个性化组合,助力物业节约成本高效运营。 二.搭建环境 系统环…...
DeepSeek搭建本地知识库
1. 注册硅基流动 首先,打开浏览器,访问硅基流动的官方网站。 https://account.siliconflow.cn/ 在注册页面准确输入你的手机号,完成账号注册。这是搭建本地知识库的第一步,为后续获取重要权限做准备。 成功注册后,进…...
实验9 高级搜索技术1
实验9 高级搜索技术1 一、实验目的 (1)掌握高级搜索技术的相关理论,能根据实际情况选取合适的搜索方法; (2)进一步熟悉爬山法搜索技术,掌握其在搜索过程中的优缺点; (3&…...
【数据挖掘】Python基础环境安装配置
【数据挖掘】Python基础环境安装配置 一、摘要二、安装Python3.13.2三、安装Jupyter Notebook四、安装Numpy和Pandas以及matplotlib五、安装scikit-learn库和seaborn库 一、摘要 本文主要介绍如何在Windows上安装Python3.13.2,然后基于该Python版本安装Jupyter not…...
【2025新版本】【谷粒商城版】Kubernetes
本文作者: slience_me 文章目录 【2025】Kubernetes1. docker安装2. kubernetes安装前3. kubeadm,kubelet,kubectl3.1 简介kubeadmkubeletkubectl常用指令 3.2 安装3.3 kubeadm初始化3.4 加入从节点(工作节点)3.5 安装Pod网络插件(CNI)3.6 Ku…...
vulhub-Billu-b0x攻略
靶场下载链接 https://download.vulnhub.com/billu/Billu_b0x.zip 将kali和Billu,NAT连接 获取靶场ip arp-scan -l 使用diesearch进行目录扫描 dirsearch -u " " 查看目录中的信息 打开add.php,得到有上传文件功能的(看到后面你会发现其实这里就可以完…...
vue3+Ts+elementPlus二次封装Table分页表格,表格内展示图片、switch开关、支持
目录 一.项目文件结构 二.实现代码 1.子组件(表格组件) 2.父组件(使用表格) 一.项目文件结构 1.表格组件(子组件)位置 2.使用表格组件的页面文件(父组件)位置 3.演示图片位置 ele…...
数字人本地部署之llama-本地推理模型
llama 本地服务命令 llama-server.exe -m "data/LLM/my.gguf" --port 8080 -m data/LLM/my.gguf -m 属于命令行选项,一般用来指定要加载的模型文件。 data/LLM/my.gguf 是模型文件的路径。gguf 格式的文件是一种用于存储语言模型权重的文件格式&…...
RUOYI框架在实际项目中的应用三:Ruoyi微服务版本-RuoYi-Cloud
如需观看Ruoyi框架的整体介绍,请移步:RUOYI框架在实际项目中的应用一:ruoyi简介 一、Ruoyi微服务版本-Ruoyi微服务版本 1、官方资料 1:代码地址:https://gitee.com/y_project/RuoYi-Cloud.git 2:文档介绍…...
linux操作系统3
1.安装桌面的centos操作系统 二.linux相对路径和绝对路径 1.相对路径:从当前目录开始数的不完整路径 2.绝对路径:从跟开始数的完整路径 (这2种路径主要是为了方便用户操作) 3.linux用户和用户组管理 创建用户组:useradd 删除用户:userdel 用户的修改:usermod(可以修改用…...
windows创建开机启动任务
1、背景 一个java应用程序,需要做成开机启动,系统为windows系统。 2、创建启动脚本 创建一个 .bat 文件(例如 startup.bat),并将其保存到 Java 应用程序的目录中(如 E:\gitcode\mygit\learn\database\jdk2…...
素数判定方法详解:从基础试除法到优化策略
素数是只能被1和自身整除的正整数。素数的判定是数论中的基础问题,也是算法竞赛中的常见考点。 一、知识点 素数的定义: 素数(质数)是大于1的自然数,且只能被1和自身整除。 试除法: 通过遍历从2到sqrt(n)…...
BFS,DFS带图详解+蓝桥杯算法题+经典例题
1.BFS和DFS的定义与实现方式 1.1 深度优先搜索(DFS) 基本概念:DFS 是一种用于遍历或搜索图或树的算法。它从起始节点开始,沿着一条路径尽可能深地探索下去,直到无法继续或者达到目标节点,然后回溯到上一个…...
「清华大学、北京大学」DeepSeek 课件PPT专栏
你要的 这里都打包好啦,快快收藏起来! 名称 链接 团队简介 类型 DeepSeek——从入门到精通 1️⃣ DeepSeek从入门到精通「清华团队」 清华大学新闻与传播学院 新媒体研究中心 元宇宙文化实验室 PPT课件 DeepSeek如何赋能职场应用? ——从提示语…...
如何在 Github 上获得 1000 star?
作为程序员,Github 是第一个绕不开的网站。我们每天都在上面享受着开源带来的便利,我相信很多同学也想自己做一个开源项目,从而获得大家的关注。然而,理想很丰满,现实却是开发了很久的项目仍然无人问津。 最近&#x…...
on-policy对比off-policy
目录 持续更新。。。 on-policy与off-policy的定义 Q-learning属于on-policy算法还是off-policy算法? 为什么off-policy适用于从离线经验或多种探索策略中学习,明明 On-policy 也可以基于探索学习的啊? 重要性权重方法 off-policy方法可…...
标准卡尔曼滤波
1.状态转移方程和观测方程 状态转移方程 x k A x k − 1 B u k w k x_k A x_{k-1} Bu_k w_k xkAxk−1Bukwk x k x_k xk:k时刻的 状态向量,理论上的真实状态。 x k − 1 x_{k-1} xk−1:k-1时刻的 状态向量,理论…...
主流区块链
文章目录 主流链1. Solana特点:适用场景:工具链: 2. Binance Smart Chain (BSC)特点:适用场景:工具链: 3. Avalanche特点:适用场景:工具链: 4. Polkadot特点:…...
pytorch中有哪些损失函数
L1Loss 计算预测值 ypred 和真实值 ytrue 之间的平均绝对误差(MAE),公式为 L ( y p r e d , y t r u e ) 1 n ∑ i 1 n ∣ y p r e d i − y t r u e i ∣ L(y_{pred},y_{true})\frac1n\sum^n_{i1}|y^i_{pred}-y^i_{true}| L(ypred,ytru…...
【设计模式有哪些】
一、创建型模式(Creation Patterns) 1. 单例模式(Singleton) 核心思想:保证一个类仅有一个实例,并提供全局访问点。实现方式:public class Singleton {// 1. 私有静态实例,volatil…...
