当前位置：首页 > article >正文

深度学习里面的而优化函数 Adam，SGD，动量法，AdaGrad 等 | PyTorch 深度学习实战

article 2026/4/29 12:45:01

前一篇文章，使用线性回归模型逼近目标模型 | PyTorch 深度学习实战

本系列文章 GitHub Repo: https://github.com/hailiang-wang/pytorch-get-started

本篇文章内容来自于强化学习必修课：引领人工智能新时代【梗直哥瞿炜】

深度学习里面的而优化函数

发展历史
- 不同梯度下降算法的原理概述
- 核心差异
- 最佳策略的讨论
Momentum 动量法
- 物理学中的动量
- 深度学习中的动量
- 梯度更新
- 运动轨迹
- 优缺点
AdaGrad 算法
- 基本思想
- 稀疏特征
- 优缺点
AdaDelta 算法
- 基本原理
- 优缺点
RMSProp 算法
- 基本原理
- 优缺点
Adam 算法
- 基本思想
Links

发展历史

机器学习，就是随机初始化参数，然后根据损失函数，不断的使用梯度更新参数。因此，如何精确的调整参数，十分重要，这个参数更新的算法就是梯度下降，梯度下降算法出现后，不断的演进。

梯度下降变种算法提出时间轴：

1847 年梯度下降算法
1957 年随机梯度下降算法 SGD
1993 年动量法
1994 年小批量随机梯度动量法
2011 年 AdaGrad 算法
2011 年 AdaDelta 算法
2012 年 RMSProp/AdaDelta 算法
2014 年 Adam 算法

在这里插入图片描述

不同梯度下降算法的原理概述

在这里插入图片描述

不同算法的区别，主要体现在 2,3 步。对于1、4 步，是通用的。

核心差异

更多参考文章深度学习里面的而优化函数

在这里插入图片描述

通过可视化比较，不同算法在梯度上，选择下降的方向是不同的，论文《An empirical analysis of the optimization of deep network loss surfaces》。

比如，RMSProp 和 AdaDelta 算法
在这里插入图片描述

最佳策略的讨论

不能一下子确定哪个最好，要根据数据、问题进行尝试，通常的经验如下：

不想做精细的调优，那么就用 Adam；类似于开车上的自动挡
更加自如地控制优化迭代的各类参数，那么 SGD，选择性的添加动量等，相当于开车上的手动挡
先用 Adam 快速下降，再用 SGD 调优

在这里插入图片描述

还是熟悉自己的数据，如果数据是稀疏的，那么就是选择学习率自适应的算法
使用一个小规模的验证集，进行控制变量法的对比，看哪个算法能快速的收敛

在这里插入图片描述

Momentum 动量法

物理学中的动量

动量守恒定律：一个物质系统不受外力或所受外力之和为零，（即 $F_{合外力}=0$ ），那么它的动量必定守恒。这个定律用数学表达式记作：

在这里插入图片描述

因为动量是矢量，所以动量守恒定律的等式是一个矢量方程。若物体的运动是一维的，那么可以通过规定正方向将这个方程标量化，其中“+”表示物体运动方向与正方向相同，“-”表示物体运动方向与正方向相反。若物体的运动是二维甚至更高维度，则求和符合矢量相加减的原则。

动量守恒定律不仅适用于二体体系，也适用于多体体系：不仅适用于惯性系，也适用于非惯性系。动量守恒定律的适用范围比牛顿运动定律广。

在这里插入图片描述

深度学习中的动量

优化梯度下降的算法：动量有加速收敛的效果。

在这里插入图片描述

梯度更新

动量随机梯度下降。

将当前的梯度与上一步的梯度加权平均来减少梯度的震荡。

在这里插入图片描述

运动轨迹

直观的观察到，为什么动量可以优化学习过程：

在这里插入图片描述

优缺点

在这里插入图片描述

AdaGrad 算法

AdaGrad 是二阶随机梯度下降动量法的改进版本。二阶动量的出现，意味着自适应学习率优化算法时代的到来。（优化学习率的调整）

基本思想

在这里插入图片描述

对更新的很频繁的参数，更新的慢一点；对更新的不频繁的参数，当更新发生的时候，更新的大一点。更新过程：

计算一阶动量 $g_{\tau}$
根据一阶动量计算二阶动量 $V_{t}$
根据二阶动量、一阶动量和学习率，计算 $\eta_{t}$
根据 $\eta_{t}$ 更新参数 $w$

原理：参数更新越频繁， $V_{t}$ 越大，因为其出现在分母上，导致最终本次参数更新越小；与之相反，如果在更新过程历史中，参数更新越少，则 $V_{t}$ 越小，导致最终参数更新越大。

稀疏特征

当样本空间是稀疏特征矩阵的时候，AdaGrad 算法特别有效果。

在这里插入图片描述

优缺点

AdaGrad 算法优缺点
在这里插入图片描述

左图是标准的 SGD，右侧是 AdaGrad.

AdaDelta 算法

避免使用手动调整学习率的方法，来控制训练过程。自动调整学习率，使得训练过程更加顺畅。

基本原理

在这里插入图片描述

左侧是 RMSProp 算法，右侧是 AdaDelta 算法
$\epsilon$ 是一个正数，防止分母为零
E 是对当前梯度 g 或 $\Delta w$ 求期望

优缺点

在这里插入图片描述

RMSProp 算法

AdaGrad 存在学习率过小，学习收敛慢的问题。RMSProp 算法是对 AdaGrad 的问题的改进。

基本原理

![[../assets/media/screenshot_20250206130441.png]]

基本原理是：改变二阶动量计算方法的策略，不累积全部历史梯度，而只关注过去一段时间窗口的下降梯度。

优缺点

![[../assets/media/screenshot_20250206130509.png]]

缺点：增加了超参数，对稀疏特征矩阵的学习效果变差。

Adam 算法

目前最流行的梯度算法改进。

基本思想

把一阶动量和二阶动量都用起来。自适应动量估计。

快速收敛
引入两个因子 $\beta_{1}$ 控制一阶动量，通常使用 0.9; $\beta_{2}$ 控制二阶动量，通常设置为 0.999
$\widehat m_{t}$ 和 $\widehat v_{t}$ 分别是对一阶动量和二阶动量的偏差矫正

在这里插入图片描述

深度学习里面的而优化函数 Adam，SGD，动量法，AdaGrad 等 | PyTorch 深度学习实战

前一篇文章，使用线性回归模型逼近目标模型 | PyTorch 深度学习实战本系列文章 GitHub Repo: https://github.com/hailiang-wang/pytorch-get-started 本篇文章内容来自于强化学习必修课：引领人工智能新时代【梗直哥瞿炜】深度学习里面的而优化函数 …...

编程日记 2026/4/29 12:45:01

基于Spring Boot的图书个性化推荐系统的设计与实现（LW+源码+讲解）

专注于大学生项目实战开发,讲解,毕业答疑辅导，欢迎高校老师/同行前辈交流合作✌。技术范围：SpringBoot、Vue、SSM、HLMT、小程序、Jsp、PHP、Nodejs、Python、爬虫、数据可视化、安卓app、大数据、物联网、机器学习等设计与开发。主要内容：…...

编程日记 2026/4/29 12:50:31

【实战】excel分页写入导出大文件

类 RequestMapping("export")ResponseBodypublic void export(HttpServletResponse response) {long start System.currentTimeMillis();QueryVo query new QueryVo();// response响应头setResponseHeader(response, "excel");ExcelWriter writer Excel…...

编程日记 2025/12/16 12:40:31

【论文阅读】Comment on the Security of “VOSA“

Comment on the Security of Verifiable and Oblivious Secure Aggregation for Privacy-Preserving Federated Learning -- 关于隐私保护联邦中可验证与遗忘的安全聚合的安全性论文来源摘要Introduction回顾 VOSA 方案对VOSA不可伪造性的攻击对于类型 I 的攻击对于类型 II 的…...

编程日记 2026/4/29 12:49:39

3.攻防世界 Confusion1（服务器模板注入SSTI）

题目描述如下进入题目页面如下图片是蟒蛇、大象？python、php？ 猜测需要代码审计点击 F12查看源码，有所提示flag 但是也没有其他信息了猜测本题存在SSTI（服务器模板注入）漏洞，为验证，构造…...

编程日记 2026/4/29 13:20:14

保姆级教程！SQL Server数据库的备份和还原

使用 SQL Server Management Studio (SSMS) 备份和还原数据库 1、数据库备份 Step 1 打开 SSMS 输入server name 以及用户名和密码连接到你的 SQL Server 实例 Step 2 展开Database,选中你要备份的数据库 Step 3 右击选中的数据库，点击Tasks --> Back …...

编程日记 2026/4/29 12:44:45

AlwaysOn 可用性组副本所在服务器以及该副本上数据库的各项状态信息

目录标题 AlwaysOn语句代码解释：1. sys.dm_hadr_database_replica_states 视图字段详细解释及官网链接官网链接字段解释 2. sys.availability_replicas 视图字段详细解释及官网链接官网链接字段解释查看视图的创建语句方法一：使用 SQL Server Managemen…...

编程日记 2026/4/29 12:50:04

Android telephony | supl PDN建立和定位信息获取

在Android系统中，SUPL（Secure User Plane Location）是一种用于辅助GPS定位的技术，它通过建立特定的APN（Access Point Name）连接来传输定位数据。以下介绍Android Telephony发起SUPL APN的PDN（P…...

编程日记 2025/5/26 12:53:04

ip地址是手机号地址还是手机地址

在数字化生活的浪潮中，IP地址、手机号和手机地址这三个概念如影随形，它们各自承载着网络世界的独特功能，却又因名称和功能的相似性而时常被混淆。尤其是“IP地址”这一术语，经常被错误地与手机号地址或手机地址划上等号。本文旨在…...

编程日记 2026/4/29 21:41:46

【react】react面试题

react面试题 1.对 React 的理解、特性 2.react18有哪些更新 3.JSX是什么 4.解释为什么浏览器不能读取jsx 6.ReactNative中，如何解决8081端口被占用而提示无法访问的问题？ 7. React 生命周期 8.react事件机制 9.react 组件传值 10.React改…...

编程日记 2025/5/27 6:27:39

zephyr devicetree

Syntax and structure — Zephyr Project Documentation Input files There are four types of devicetree input files: sources (.dts) includes (.dtsi) overlays (.overlay) bindings (.yaml) The devicetree files inside the zephyr directory look like this: …...

编程日记 2026/4/26 11:53:15

深度学习里面的而优化函数

发展历史

不同梯度下降算法的原理概述

核心差异

最佳策略的讨论

Momentum 动量法

物理学中的动量

深度学习中的动量

梯度更新

运动轨迹

优缺点

AdaGrad 算法

基本思想

稀疏特征

优缺点

AdaDelta 算法

基本原理

优缺点

RMSProp 算法

基本原理

优缺点

Adam 算法

基本思想

Links

相关文章：