当前位置：首页 > news >正文

AdamW算法

news 2025/11/5 3:38:06

AdamW算法是优化算法Adam的一个变体，它在深度学习中广泛应用。AdamW的主要改进在于它正则化方法的改变，即通过权重衰减（weight decay）而不是L2正则化，来控制模型参数的大小，从而提升了训练的稳定性和效果。

AdamW算法的背景

Adam优化器结合了动量（Momentum）和RMSProp的优点，能够在各种神经网络结构中实现高效的训练。然而，Adam算法中的L2正则化实现存在一些问题，特别是在实际实现中，L2正则化被融合到了梯度更新中，这可能导致不稳定的权重更新。

AdamW的改进

AdamW通过将权重衰减（weight decay）从梯度更新过程中分离出来，解决了这些问题。具体来说，AdamW将权重衰减直接应用到权重更新步骤中，而不是将其作为损失函数的一部分进行梯度计算。

AdamW算法的公式

AdamW的更新公式与Adam类似，但引入了显式的权重衰减项。以下是AdamW的核心公式：

偏移修正的动量估计：
$m_t = \beta_1 m_{t-1} + (1 - \beta_1) g_t$ $v_t = \beta_2 v_{t-1} + (1 - \beta_2) g_t^2$
偏移修正：
$\hat{m}_t = \frac{m_t}{1 - \beta_1^t}$ $\hat{v}_t = \frac{v_t}{1 - \beta_2^t}$
参数更新：
$\theta_t = \theta_{t-1} - \eta \frac{\hat{m}_t}{\sqrt{\hat{v}_t} + \epsilon} - \eta \lambda \theta_{t-1}$

其中：

$\theta_t$ 是参数。
$g_t$ 是梯度。
$m_t$ 和 $v_t$ 是一阶和二阶动量估计。
$\eta$ 是学习率。
$\beta_1$ 和 $\beta_2$ 分别是动量项的指数衰减率。
$\epsilon$ 是防止除零的小常数。
$\lambda$ 是权重衰减系数。

AdamW的优点

更稳定的权重更新：权重衰减独立于梯度计算，使得权重更新更稳定。
更好的正则化效果：权重衰减可以更有效地防止模型过拟合。
适用于广泛的模型：AdamW在各种深度学习模型中表现优异，尤其是在大规模神经网络中。

实现AdamW算法

以下是使用PyTorch实现AdamW优化器的示例代码：

import torch
import torch.optim as optim
from torch.utils.data import DataLoader, TensorDataset# 定义数据集和数据加载器
data = torch.randn(1000, 10)  # 假设有1000个样本，每个样本有10个特征
labels = torch.randint(0, 2, (1000,))  # 假设二分类任务
dataset = TensorDataset(data, labels)
data_loader = DataLoader(dataset, batch_size=32, shuffle=True)# 定义模型
model = torch.nn.Linear(10, 2)
criterion = torch.nn.CrossEntropyLoss()# 创建AdamW优化器
optimizer = optim.AdamW(model.parameters(), lr=0.001, weight_decay=0.01)# 训练循环
num_epochs = 100
for epoch in range(num_epochs):for batch_data, batch_labels in data_loader:optimizer.zero_grad()outputs = model(batch_data)loss = criterion(outputs, batch_labels)loss.backward()optimizer.step()# 打印每个epoch的损失print(f'Epoch {epoch+1}/{num_epochs}, Loss: {loss.item()}')

总结

AdamW优化器通过将权重衰减从梯度更新过程中分离出来，提供了更稳定和有效的正则化方法。它在许多深度学习应用中表现优异，成为现代神经网络训练的标准选择之一。

AdamW算法

AdamW算法的背景

AdamW的改进

AdamW算法的公式

AdamW的优点

实现AdamW算法

总结

相关文章：

AdamW算法

【c++进阶(二)】STL之string类的模拟实现

PHPStudy（xp 小皮）V8.1.1 通过cmd进入MySQL命令行模式

php反序列化初步了解

Windows系统电脑本地部署AI音乐创作工具并实现无公网IP远程使用

玩转Linux进度条

真国色码上赞，科技流量双剑合璧，商家获客新纪元开启

C++：特殊类设计和四种类型转换

（南京观海微电子）——屏幕材质及优缺点对比

uniapp uni.showModal 出现点击没有反应

Vue3-VueRouter

【图像处理与机器视觉】频率域滤波

python第五次作业

JS面向对象编程

kotlin1.8.10问题导致gson报错TypeToken type argument must not contain a type variable

数据库漫谈-国产数据库

小白跟做江科大32单片机之光敏传感器控制蜂鸣器

使用 Django Channels 构建实时聊天应用（包含用户认证和消息持久化）

【Elasticsearch】es基础入门-03.RestClient操作文档

LeetCode - 二分查找(Binary Search)算法集合(Python)[左右边界|旋转数组|双列表]

华为云AI开发平台ModelArts

Xshell远程连接Kali（默认 | 私钥）Note版

R语言AI模型部署方案：精准离线运行详解

在rocky linux 9.5上在线安装 docker

深入浅出：JavaScript 中的 `window.crypto.getRandomValues()` 方法

HTML 列表、表格、表单

学校时钟系统，标准考场时钟系统，AI亮相2025高考，赛思时钟系统为教育公平筑起“精准防线”

PostgreSQL——环境搭建

【免费数据】2005-2019年我国272个地级市的旅游竞争力多指标数据（33个指标）

Yolo11改进策略：Block改进|FCM，特征互补映射模块|AAAI 2025|即插即用