当前位置：首页 > news >正文

手撕深度学习中的优化器

news 2026/2/8 17:39:17

深度学习中的优化算法采用的原理是梯度下降法，选取适当的初值params，不断迭代，进行目标函数的极小化，直到收敛。由于负梯度方向时使函数值下降最快的方向，在迭代的每一步，以负梯度方向更新params的值，从而达到减少函数值的目的。

Gradient descent in deep learning

在这里插入图片描述

Optimizer

class Optimizer:"""优化器基类，默认是L2正则化"""def __init__(self, lr, weight_decay):self.lr = lrself.weight_decay = weight_decaydef step(self, grads, params):# 计算当前时刻下降的步长decrement = self.compute_step(grads)if self.weight_decay:decrement += self.weight_decay * params# 更新参数params -= decrementdef compute_step(self, grads):raise NotImplementedError

SGD

随机梯度下降
$θt=θ−η⋅gt\theta_t = \theta-\eta \cdot g_t$

每次随机抽取一个batch的样本进行梯度下降
对学习率敏感，太小收敛速度很慢，太大会在极小值附近震荡
对于非凸函数，容易陷入局部最小值或鞍点

class SGD(Optimizer):"""stochastic gradient descent"""def __init__(self, lr=0.1, weight_decay=0.0):super().__init__(lr, weight_decay)def compute_step(self, grads):return self.lr * grads

SGDm

在SGD中加入动量（momentum）模拟是物体运动时的惯性，即更新的时候在一定程度上保留之前更新的方向，同时利用当前batch的梯度微调最终的更新方向。这样一来，可以在一定程度上增加稳定性，从而学习地更快，并且还有一定摆脱局部最优的能力。
$υt=γυt−1+gtθt=θt−1−ηυt\upsilon_t = \gamma \upsilon_{t-1} + g_t \qquad \theta_t=\theta_{t-1} - \eta \upsilon_t$

gt是当前时刻的梯度，vt是当前时刻参数的下降距离
带动量的小球滚下山坡，可能会错过山谷

class SGDm(Optimizer):"""stochastic gradient descent with momentum"""def __init__(self, lr=0.1, momentum=0.9, weight_decay=0.0):super().__init__(lr, weight_decay)self.momentum = momentumself.beta = 0def compute_step(self, grads):self.beta = self.momentum * self.beta + (1 - self.momentum) * gradsreturn self.lr * self.beta

Adagrad

$θt=θt−1−η∑i=0t−1(gi)2gt−1\theta_t=\theta_{t-1} - \frac{\eta}{\sqrt{\sum^{t-1}_{i=0}{(g_i)^2}}}g_{t-1}$

自适应调节学习率
对低频的参数做较大的更新，对高频的做较小的更新，也因此，对于稀疏的数据它的表现很好，很好地提高了 SGD 的鲁棒性
缺点是分母梯度的累积，最后梯度消失

class Adagrad(Optimizer):"""Divide the learning rate of each parameter by theroot-mean-square of its previous derivatives"""def __init__(self, lr=0.1, eps=1e-8, weight_decay=0.0):super().__init__(lr, weight_decay)self.eps = epsself.state_sum = 0def compute_step(self, grads):self.state_sum += grads ** 2decrement = grads / (self.state_sum ** 0.5 + self.eps) * self.lrreturn decrement

RMSProp

指数滑动平均更新梯度的平方，为解决Adagrad 梯度急剧下降而提出
$υ1=g02υt=αυt−1+(1−α)(gt−1)2\upsilon_1 = g_0^2 \qquad \upsilon_t = \alpha\upsilon_{t-1} + (1-\alpha)(g_{t-1})^2$

$θt=θt−1−ηυtgt−1\theta_t=\theta_{t-1} - \frac{\eta}{\sqrt{\upsilon_t}} g_{t-1}$

class RMSProp(Optimizer):"""Root Mean Square Prop optimizer"""def __init__(self, lr=0.1, alhpa=0.99, eps=1e-8, weight_decay=0.0):super().__init__(lr, weight_decay)self.eps = epsself.alpha = alhpaself.state_sum = 0def compute_step(self, grads):self.state_sum = self.alpha * self.state_sum + (1 - self.alpha) * grads ** 2decrement = grads / (self.state_sum ** 0.5 + self.eps) * self.lrreturn decrement

Adam

SGDm和RMSProp的结合，Adam 算法通过计算梯度的一阶矩估计和二阶矩估计而为不同的参数设计独立的自适应性学习率。

SGDm

$θt=θt−1−mtmt=β1mt−1+(1−β1)gt−1\theta_t=\theta_{t-1} - m_t \qquad m_t = \beta_1 m_{t-1} + (1-\beta_1)g_{t-1}$

RMSProp

$θt=θt−1−ηυtgt−1\theta_t=\theta_{t-1} - \frac{\eta}{\sqrt{\upsilon_t}} g_{t-1}$

$υ1=g02υt=β2υt−1+(1−β2)(gt−1)2\upsilon_1 = g_0^2 \qquad \upsilon_t = \beta_2\upsilon_{t-1} + (1-\beta_2)(g_{t-1})^2$

Adam

$θt=θt−1−ηυt′+εmt′\theta_t = \theta_{t-1} - \frac{\eta}{\sqrt{\upsilon_t'+\varepsilon}} m_t'$

$mt′=mt1−β1tvt′=vt1−β2tβ1=0.9β2=0.999m_t' = \frac{m_t}{1-\beta_1^t} \qquad v_t' = \frac{v_t}{1-\beta_2^t} \qquad \beta_1=0.9 \quad \beta_2=0.999$

class Adam(Optimizer):"""combination of SGDm and RMSProp"""def __init__(self, lr=0.1, betas=(0.9, 0.999), eps=1e-8, weight_decay=0.0):super().__init__(lr, weight_decay)self.eps = epsself.beta1, self.beta2 = betasself.mt = self.vt = 0self._t = 0def compute_step(self, grads):self._t += 1self.mt = self.beta1 * self.mt + (1 - self.beta1) * gradsself.vt = self.beta2 * self.vt + (1 - self.beta2) * (grads ** 2)mt = self.mt / (1 - self.beta1 ** self._t)vt = self.vt / (1 - self.beta2 ** self._t)decrement = mt / (vt ** 0.5 + self.eps) * self.lrreturn decrement

我平时做视觉任务主要用SGDm和Adam两个优化器，感觉带正则化的SGDm的效果非常好，然后调一下学习率和衰减策略

参考资料：

torch.optim — PyTorch documentation
tinynn: A lightweight deep learning library

手撕深度学习中的优化器

Optimizer

SGD

SGDm

Adagrad

RMSProp

Adam

相关文章：

手撕深度学习中的优化器

英文打字小游戏

PCB生产工艺流程三：生产PCB的内层线路有哪7步

算法竞赛进阶指南0x61 最短路

[学习篇] Autoreleasepool

晶体基本知识

免费CRM如何进行选择？

关于金融类iOS套壳上架，我帮你总结了这些经验

4年功能测试月薪9.5K，3个月时间成功进阶自动化，跳槽涨薪6k后我的路还很长...

python url解码详解

leetcode102：二叉树的层序遍历

深度学习openMMLab的介绍和使用

【vue2】axios请求与axios拦截器的使用详解

文件上传都发生了啥

【vim进阶】vim编辑器的多文件操作（如何打开多个文件，如何进行文件间的切换，如何关闭其中的某一个文件）

ToBeWritten之车辆通信

自定义 Jackson 的 ObjectMapper, springboot多个模块共同引用,爽

【面试】Redis面试题

前端后端交互系列之原生Ajax的使用

openGauss 5.0企业版主从部署，实战狂飙

2024年赣州旅游投资集团社会招聘笔试真

【第二十一章 SDIO接口(SDIO)】

智能在线客服平台：数字化时代企业连接用户的 AI 中枢

Qt Http Server模块功能及架构

python如何将word的doc另存为docx

HashMap中的put方法执行流程（流程图）

AI病理诊断七剑下天山，医疗未来触手可及

搭建DNS域名解析服务器(正向解析资源文件)

【p2p、分布式，区块链笔记 MESH】Bluetooth蓝牙通信 BLE Mesh协议的拓扑结构定向转发机制

「全栈技术解析」推客小程序系统开发：从架构设计到裂变增长的完整解决方案