当前位置：首页 > article >正文

深度学习 —— 学习率衰减策略

article 2026/4/24 2:48:11

目录学习率策略1. 先说结论2. 图例各种学习率下的图3. 学习率的方式4. 公式4. 神经网络的训练流程5. 完整代码示例学习率策略模型调优的时候可能才会用1. 先说结论① 学习率小梯度下降慢② 学习率大梯度下降快③ 学习率过大可能导致梯度震荡或暴涨2. 图例各种学习率下的图lr [0.01, 0.1, 0.125, 0.2, 0.4]3. 学习率的方式① 等间隔学习率衰减. optim.lr_scheduler.StepLR② 指定间隔学习率衰减 optim.lr_scheduler.MultiStepLR③ 指数学习率衰减. optim.lr_scheduler.ExponentialLR上图1 第一行代码上图2 第二行代码上图3 第三行代码# 学习率调度器 optimizer: 梯度下降优化器 step_size间隔周期 gama: 衰减系数 milestones 指定间隔调整点。比如【50125160】那就是51开始 126开始 161开始 scheduler optim.lr_scheduler.StepLR(optimizer,step_size50,gamma0.5) # 指定间隔学习率衰减策略 scheduler optim.lr_scheduler.MultiStepLR(optimizer,milestones[50,125,160],gamma0.5) # 指数间隔学习率衰减策略 scheduler optim.lr_scheduler.ExponentialLR(optimizer,gamma0.95)④ 周期重启的余弦退火策略.optim.lr_scheduler.CosineAnnealingWarmRestarts4. 公式下面代码显示上图结果。通常总训练轮数最少有5~10个周期。重启找到个最优状态找到个局部最小值。epoch 总周期长度。比如要5个周期。epoch 200T_0 40. 周期数 200/40# 批次数 iteration 10 scheduler optim.lr_scheduler.ExponentialLR(optimizer,gamma0.95) # 模型训练 # 遍历批次 for i in range(iteration): # 1.前向传播 y_pred w * x # 2.计算损失 # 3.梯度清零 # 4.反向传播 # 5.更新参数:w新 w旧-学习率*梯度 # 6.更新学习率 scheduler.step()如果: T_mult 2 .第一个周期点是 50第二个周期点是150第三个350.周期值 50 100 200 optimizer: 梯度下降优化器 T_0: 第一个周期的轮数 eta_min: 最小学习率最大学习率在 optimizer optim.SGD([w],lrlr) 里面上面给的是0.1 T_mult: # 周期倍增因子,默认为1表示每个周期的轮数相同 scheduler optim.lr_scheduler.CosineAnnealingWarmRestarts( optimizer, # 优化器对象 T_050, # 第一个周期的轮数 eta_min0, T_mult1, )4. 神经网络的训练流程1.准备数据集2.构建神经网络模型3.设置损失函数和优化器以及学习率调度器4.模型训练1.前向传播2.计算损失3.梯度清零4.反向传播5.更新参数:w新 w旧-学习率*梯度6.更新学习率5.模型测试5. 完整代码示例# 导包 import torch import torch.nn as nn import torch.optim as optim # 优化器模块提供各种优化器对象比如SGD,Adam import matplotlib.pyplot as plt # 绘图 # 设置中文字体 plt.rcParams[font.sans-serif] [SimHei] # 微软雅黑 plt.rcParams[axes.unicode_minus] False # 解决负号显示问题 # 定义函数演示周期重启的余弦退火策略 def demo(): # 0.初始化参数 lr 0.1 epochs 200 iteration 10 # 1.准备数据集 x torch.tensor([1.0],dtypetorch.float32) y_true torch.tensor([0.0],dtypetorch.float32) # 2.构建神经网络模型 # 创建张量模拟网络参数 w torch.tensor([1.0],dtypetorch.float32,requires_gradTrue) # 3.设置损失函数和优化器以及学习率调度器 # 损失函数 loss_fn nn.MSELoss() # 优化器 optimizer optim.SGD([w],lrlr) # 学习率调度器 optimizer: 梯度下降优化器 step_size间隔周期 gama: 衰减系数 milestones 指定间隔调整点。比如【50125160】那就是51开始 126开始 161开始 #scheduler optim.lr_scheduler.StepLR(optimizer,step_size50,gamma0.5) # 指定间隔学习率衰减策略 #scheduler optim.lr_scheduler.MultiStepLR(optimizer,milestones[50,125,160],gamma0.5) # 指数间隔学习率衰减策略 #scheduler optim.lr_scheduler.ExponentialLR(optimizer,gamma0.95) # 周期重启的余弦退火策略 optimizer: 梯度下降优化器 T_0: 第一个周期的轮数 eta_min: 最小学习率最大学习率在 optimizer optim.SGD([w],lrlr) 里面上面给的是0.1 T_mult: # 周期倍增因子,默认为1表示每个周期的轮数相同 scheduler optim.lr_scheduler.CosineAnnealingWarmRestarts( optimizer, # 优化器对象 T_050, # 第一个周期的轮数 eta_min0, T_mult1, ) # 4.模型训练 # 定义列表记录训练轮数和学习率 lr_list [] epoch_list [] for epoch in range(epochs): # 0.获取当前轮数和学习率保存到记录列表中 epoch_list.append(epoch) lr_list.append(scheduler.get_last_lr()[0]) # 遍历批次 for i in range(iteration): # 1.前向传播 y_pred w * x # 2.计算损失 # 3.梯度清零 # 4.反向传播 # 5.更新参数:w新 w旧-学习率*梯度 # 6.更新学习率 scheduler.step() # 5.可视化学习率变化 plt.plot(epoch_list,lr_list) plt.title(周期重启的余弦退火策略) plt.xlabel(epoch) plt.ylabel(lr) plt.show() # 测试 if __name__ __main__: demo()

深度学习 —— 学习率衰减策略

相关文章：

深度学习 —— 学习率衰减策略

百度网盘直链解析工具：告别龟速下载，重获下载自由

深度学习 —— 正则化批量归一化BN

告别本地显卡焦虑：用阿里云PAI一站式部署ChatGLM3，我的云端AI开发环境搭建实录

一根同轴电缆的逆袭：SDI接口如何靠‘复用’老设备，成为专业视频传输的30年常青树？

从华为3COM到H3C再到紫光：一个网络设备品牌的“前世今生”与认证体系变迁

深入浅出AUTOSAR通信栈：用一张图讲清楚CAN、CANIF、PDUR、COM、CANTP之间的数据流转

从TOPS到实际吞吐量：解码AI芯片推理效率的四大关键指标

告别串口不够用：手把手教你用WK2124芯片为树莓派/香橙派扩展4个UART

LNMP架构里，Nginx和PHP-FPM到底是怎么‘谈恋爱’的？一次讲清FastCGI通信原理与调优

别再傻傻分不清！OBW、IBW、RBW、VBW，5分钟搞懂射频工程师的四种‘带宽’

【应用方案】语音 + 触控 + 灯效融合，AI 线控器重构智能家电交互体验

全面掌握QtScrcpy：高效实现Android设备屏幕镜像与控制的终极指南

Godot游戏资源提取：3分钟学会PCK文件解包技巧

逆向知乎x-zse-96参数时，我踩过的那些‘环境坑’：从Canvas到Window原型链的完整避坑指南

量子电路经典模拟：理论与工程实践

量子控制中的运动诱导误差与深度强化学习优化

LoRa网络‘侦察兵’：深入SX126x CAD原理，从调制解调器视角看懂信号检测

别只盯着Windows了！Fyne跨平台开发环境全攻略：从macOS、Linux到树莓派，一篇搞定

NsEmuTools：如何快速部署和管理NS模拟器的终极解决方案

支持向量机(SVM)原理与应用实战指南

C4D R26全新界面实战：手把手教你自定义工作区，效率提升200%

微积分学习必备：代数、三角与函数分析基础

Qt 6.5实战：用QMediaPlayer和QVideoWidget快速打造一个带界面的本地视频播放器

算法训练营第11天｜ 80. 删除有序数组中的重复项

ZEROSIM框架：Transformer加速模拟电路设计

Redis Stream实战：手把手教你用XGROUP CREATE解决‘NOGROUP’报错，搞定异步秒杀队列

超表面技术在无线安全通信中的应用与原理

避坑指南：ArcGIS中河网上下游分析，为什么你的流向总是不对？

Zustand和Pinia的对比（谁更好用）