当前位置：首页 > news >正文

梯度下降优化器：SGD -＞ SGDM -＞ NAG -＞AdaGrad -＞ AdaDelta -＞ Adam -＞ Nadam -＞ AdamW

news 2026/5/24 9:23:43

1 前言

2 梯度概念

3 一般梯度下降法

4 BGD

5 SGD

6 MBGD

7 Momentum

8 SGDM（SGD with momentum）

9 NAG(Nesterov Accelerated Gradient)

10 AdaGrad

11 RMSProp

12 Adadelta

13 Adam

13 Nadam

14 AdamW

15 Lion（EvoLved Sign Momentum)

16 参考

1 前言

深度学习梯度下降优化器经历了 SGD -> SGDM -> NAG ->AdaGrad -> AdaDelta -> Adam -> Nadam -> AdamW等。

2 梯度概念

在单变量的实值函数的情况，梯度只是导数。

双变量，梯度公式如下：

3 一般梯度下降法

梯度下降法目前主要分为三种方法,区别在于每次参数更新时计算的样本数据量不同：批量梯度下降法(BGD, Batch Gradient Descent)，随机梯度下降法(SGD, Stochastic Gradient Descent)及小批量梯度下降法(Mini-batch Gradient Descent)。

4 BGD

使用整个训练集的数据来计算损失函数对参数的梯度

在一次更新中，就对整个数据集计算梯度，所以计算起来非常慢，遇到很大量的数据集也会非常棘手，而且不能投入新数据实时更新模型。

5 SGD

和 BGD 的一次用所有数据计算梯度相比，SGD 每次更新时对每个样本进行梯度更新。

SGD的噪音较BGD要多，使得SGD并不是每次迭代都向着整体最优化方向。所以虽然训练速度快，但是准确度下降，并不是全局最优

6 MBGD

MBGD 每一次利用一小批样本，即 n 个样本进行计算，这样它可以降低参数更新时的方差，收敛更稳定，另一方面可以充分地利用深度学习库中高度优化的矩阵操作来进行更有效的梯度计算。

7 Momentum

指数加权移动平均算法（Exponentially Weighted Moving-Average, EWMA），是通过历史值和当前时间的观测值来估计一个时间序列的方法，如下面公式：

“动量”这个概念源自于物理学，解释力在一段时间内作用所产生的物理量。动量基本就是上面指数加权移动平均算法的思想。

momentum方法不仅考虑当前梯度g，还考虑历史梯度。这样可以加速 SGD，并且抑制震荡。

可以使得梯度方向不变的维度上速度变快，梯度方向有所改变的维度上的更新速度变慢，这样就可以加快收敛并减小震荡。

超参数设定值: 一般 γ 取值 0.9 左右。

8 SGDM（SGD with momentum）

SGDM也就是SGD+ Momentum。类似上面第7节Momentum的内容。

在SGD中增加动量的概念，使得前几轮的梯度也会加入到当前的计算中（会有一定衰减），通过对前面一部分梯度的指数加权平均使得梯度下降过程更加平滑，减少动荡，收敛也比普通的SGD快。当前梯度方向与累计梯度方向一致时，梯度会被加强，从而这一步下降幅度增大，若方向不一致，则会减弱当前下降的梯度幅度。

9 NAG(Nesterov Accelerated Gradient)

在Momentum的基础上，计算当前梯度时也引入，以“向前看”看到的梯度而不是当前位置梯度去更新。NAG算法相对于Momentum多了一个本次梯度相对上次梯度的变化量，这个变化量本质上是对目标函数二阶导的近似。由于利用了二阶导的信息，NAG算法才会比Momentum具有更快的收敛速度。。

能够让算法提前看到前方的地形梯度，如果前面的梯度比当前位置的梯度大，那就可以把步子迈得比原来大一些，如果前面的梯度比现在的梯度小，那就可以把步子迈得小一些。

NAG 可以使 RNN 在很多任务上有更好的表现。

10 AdaGrad

Adaptive Gradient，自适应梯度，是梯度下降优化算法的扩展。

AdaGrad的主要优点之一是它消除了手动调整学习率的需要。AdaGrad在迭代过程中不断调整学习率，并让目标函数中的每个参数都分别拥有自己的学习率。

自适应的学习率可以帮助算法在梯度大的参数方向减缓学习速率，而在梯度小的参数方向加快学习速率，这就导致了神经网络的训练速度的加快。

Adagrad 的优点是减少了学习率的手动调节

超参数设定值：一般η选取0.01

缺点：

它的缺点是分母会不断积累，这样学习率就会收缩并最终会变得非常小。

11 RMSProp

RMSprop 是 Geoff Hinton 提出的一种自适应学习率方法。

AdaGrad算法虽然解决了学习率无法根据当前梯度自动调整的问题，但是过于依赖之前的梯度，在梯度突然变化无法快速响应。RMSProp算法为了解决这一问题，在AdaGrad的基础上添加了衰减速率参数。也就是说在当前梯度与之前梯度之间添加了权重，如果当前梯度的权重较大，那么响应速度也就更快

12 Adadelta

Adadelta第一版和RMSprop公式类似。

对 Adagrad 的第二版公式如下，取消了学习率。

Adadelta对于AdaGrad的改进主要是：

1）对于每个维度,用梯度平方的指数加权平均代替了至今全部梯度的平方和,避免了后期更新时更新幅度逐渐趋近于0的问题

2）用更新量的平方的指数加权平均来动态代替全局的标量的学习率,避免了对学习率的敏感。

13 Adam

Adam，名字来自：Adaptive Moment Estimation，自适应矩估计。是2014年提出的。

Adam相当于 RMSprop + Momentum。

第一项梯度就是损失函数L对求偏导。

第二项为t时刻，梯度在动量形式下的一阶矩估计。

第三项为梯度在动量形式下的二阶矩估计。

第四项为偏差纠正后的一阶矩估计。其中：是贝塔1的t次方，下面同理。

第五项为偏差纠正后的二阶矩估计。

最后一项是更新公式。

矩估计公式如下：

13 Nadam

NAdam是 Nesterov accelerated gradient (NAG)和Adam的结合。类似NAG的思路，如下面第一个公式，梯度的计算复杂了。

14 AdamW

下面粉色是Adam + L2正则化算法，绿色是Adamw 即 Adam + weight decate 。

L2正则化需要在loss中加入正则项,之后再算梯度,最后在反向传播,而Adamw直接将正则项的梯度加入反向传播的公式中,省去了手动在loss中加正则项这一步。

AdamW是在Adam+L2正则化的基础上进行改进的算法。

15 Lion（EvoLved Sign Momentum)

sign是符号函数，即正数变为1、负数变为-1。

与 AdamW 和各种自适应优化器（这些优化器需要同时保存一阶和二阶矩）相比，Lion 只需要动量并利用符号操作来计算更新，并且将额外的内存占用减半。这在训练大模型或大批量时很有用。

Lion 在一系列模型（Transformer、MLP、ResNet、U-Net 和 Hybrid）和任务（图像分类、视觉 - 语言对比学习、扩散、语言建模和微调）中展示了出色的性能。

16 参考

Adam优化器（通俗理解）：Adam优化器（通俗理解）_Longer2048的博客-CSDN博客
深度学习——优化器算法Optimizer详解（BGD、SGD、MBGD、Momentum、NAG、Adagrad、Adadelta、RMSprop、Adam）：https://www.cnblogs.com/zywnnblog/p/14995220.html
比Momentum更快：揭开Nesterov Accelerated Gradient的真面目：比Momentum更快：揭开Nesterov Accelerated Gradient的真面目 - 知乎
机器学习中的优化算法(3)-AdaGrad, Adadelta(附Python示例)：机器学习中的优化算法(3)-AdaGrad, Adadelta(附Python示例) - 知乎

1 前言

2 梯度概念

3 一般梯度下降法

4 BGD

5 SGD

6 MBGD

7 Momentum

8 SGDM（SGD with momentum）

9 NAG(Nesterov Accelerated Gradient)

10 AdaGrad

11 RMSProp

12 Adadelta

13 Adam

13 Nadam

14 AdamW

15 Lion（EvoLved Sign Momentum)

16 参考

相关文章：