当前位置：首页 > news >正文

深度学习-学习率调整策略

news 2025/11/4 6:14:33

在深度学习中，学习率调整策略（Learning Rate Scheduling）用于在训练过程中动态调整学习率，以实现更快的收敛和更好的模型性能。选择合适的学习率策略可以避免模型陷入局部最优、震荡不稳定等问题。下面介绍一些常见的学习率调整策略：

1. Step Decay（分步衰减）

原理

Step Decay 是一种分段衰减策略，每隔一定的训练周期或步骤，学习率会缩减一个固定的因子。这可以在训练中途降低学习率，从而让模型在训练末期更加稳定地收敛。

公式

其中：

initial_lr 是初始学习率
factor 是每次衰减的因子，一般小于 1（例如 0.1）
k 是衰减次数

适用场景

适合训练中需要逐步收敛的模型，如卷积神经网络。在一定训练轮次后，降低学习率有助于模型以更稳定的步伐接近最优解。

优缺点

优点：可以逐步收敛，适合比较平稳的优化任务。
缺点：由于步长是固定的，可能会导致过早或过晚调整学习率。

代码示例

在 PyTorch 中实现 Step Decay 可以使用 StepLR：

import torch
import torch.optim as optim
import torch.nn as nn# 假设我们有一个简单的模型
model = nn.Linear(10, 2)
optimizer = optim.SGD(model.parameters(), lr=0.1)  # 初始学习率 0.1
scheduler = optim.lr_scheduler.StepLR(optimizer, step_size=10, gamma=0.5)  # 每10个epoch衰减一半# 模拟训练过程
for epoch in range(30):# 假设进行前向和后向传播optimizer.zero_grad()output = model(torch.randn(10))loss = nn.MSELoss()(output, torch.randn(2))loss.backward()optimizer.step()# 更新学习率scheduler.step()print(f"Epoch {epoch+1}, Learning Rate: {scheduler.get_last_lr()[0]}")

2. Exponential Decay（指数衰减）

原理

指数衰减策略的学习率会以指数方式逐渐减少，公式为：

其中 decay_rate 控制学习率下降的速度。指数衰减适合需要平稳下降的任务，因为这种衰减是连续的且平滑。

适用场景

适合长时间训练或训练数据复杂的模型，能让模型在训练后期继续保持较好的收敛效果。

优缺点

优点：平滑衰减，适合长时间训练。
缺点：如果 decay_rate 设置不当，可能会导致过早或过晚下降。

代码示例

在 PyTorch 中使用 ExponentialLR 实现：

scheduler = optim.lr_scheduler.ExponentialLR(optimizer, gamma=0.9)  # 指数衰减因子 0.9for epoch in range(30):optimizer.zero_grad()output = model(torch.randn(10))loss = nn.MSELoss()(output, torch.randn(2))loss.backward()optimizer.step()# 更新学习率scheduler.step()print(f"Epoch {epoch+1}, Learning Rate: {scheduler.get_last_lr()[0]}")

3. Cosine Annealing（余弦退火）

原理

Cosine Annealing 利用余弦函数使学习率周期性下降，并在周期末期快速降低至接近 0 的值。

其中 T_max 是控制余弦周期的最大步数，周期性下降可以使模型在接近全局最优时表现更稳定。

适用场景

适合在有一定噪声的数据集上进行多轮次训练，使模型在每个周期内都能充分探索损失函数的不同区域。

优缺点

优点：自然周期下降，易于模型在训练中后期稳定收敛。
缺点：周期设置需要与任务匹配，否则可能在全局最优时过早结束。

代码示例

在 PyTorch 中使用 CosineAnnealingLR 实现：

scheduler = optim.lr_scheduler.CosineAnnealingLR(optimizer, T_max=30)for epoch in range(30):optimizer.zero_grad()output = model(torch.randn(10))loss = nn.MSELoss()(output, torch.randn(2))loss.backward()optimizer.step()# 更新学习率scheduler.step()print(f"Epoch {epoch+1}, Learning Rate: {scheduler.get_last_lr()[0]}")

4. Reduce on Plateau（基于验证集表现动态调整）

原理

当验证集的损失在一段时间（耐心期）内没有显著下降，则将学习率按一定因子减少。这样可以防止模型陷入局部最优。

适用场景

特别适合那些验证集损失不稳定或在收敛后期趋于平稳的模型，比如需要细致调整的分类任务。

优缺点

优点：自适应调整学习率，使训练在收敛后期更稳定。
缺点：依赖验证集表现，调整耐心期参数复杂。

代码示例

在 PyTorch 中使用 ReduceLROnPlateau 实现：

scheduler = optim.lr_scheduler.ReduceLROnPlateau(optimizer, mode='min', factor=0.1, patience=5)for epoch in range(30):optimizer.zero_grad()output = model(torch.randn(10))loss = nn.MSELoss()(output, torch.randn(2))loss.backward()optimizer.step()# 模拟验证损失val_loss = loss.item() + (epoch % 10) * 0.1  # 可调节该值scheduler.step(val_loss)print(f"Epoch {epoch+1}, Learning Rate: {optimizer.param_groups[0]['lr']}")

5. Cyclical Learning Rate (CLR)

原理

CLR 设定了上下限值，让学习率在两者之间循环，探索损失空间不同区域，防止陷入局部最优。

适用场景

适合包含复杂损失结构的任务，如图像分类中的较大卷积网络。

优缺点

优点：避免陷入局部最优，提高全局搜索能力。
缺点：调整范围较难控制，适用性有限。

代码示例

可以使用 torch.optim 库实现自定义的 CLR：

import numpy as np# 计算CLR的函数
def cyclical_learning_rate(step, base_lr=0.001, max_lr=0.006, step_size=2000):cycle = np.floor(1 + step / (2 * step_size))x = np.abs(step / step_size - 2 * cycle + 1)lr = base_lr + (max_lr - base_lr) * np.maximum(0, (1 - x))return lr# 训练过程
for step in range(10000):lr = cyclical_learning_rate(step)optimizer.param_groups[0]['lr'] = lroptimizer.zero_grad()output = model(torch.randn(10))loss = nn.MSELoss()(output, torch.randn(2))loss.backward()optimizer.step()if step % 1000 == 0:print(f"Step {step}, Learning Rate: {optimizer.param_groups[0]['lr']}")

6. One Cycle Policy（单周期策略）

原理

One Cycle Policy 从较低学习率开始，逐渐增加到最大值，然后再逐步减小到较低值。适合需要快速探索和稳定收敛的任务。

适用场景

适合迁移学习和较小数据集。

优缺点

优点：适合迁移学习，能快速稳定收敛。
缺点：对于较长训练任务效果一般。

代码示例

在 PyTorch 中实现 One Cycle Policy：

from torch.optim.lr_scheduler import OneCycleLRscheduler = OneCycleLR(optimizer, max_lr=0.1, steps_per_epoch=100, epochs=10)for epoch in range(10):for i in range(100):  # 假设一个 epoch 有 100 个 batchoptimizer.zero_grad()output = model(torch.randn(10))loss = nn.MSELoss()(output, torch.randn(2))loss.backward()optimizer.step()scheduler.step()  # 每步更新学习率print(f"Epoch {epoch+1}, Step {i+1}, Learning Rate: {scheduler.get_last_lr()[0]}")

7.如何选择合适的学习率调整策略？

（1）. 数据规模和训练时长

小数据集且训练时间短：
使用 One Cycle Policy 或 Cyclical Learning Rate。这类策略能够快速调整学习率，在有限的时间内加速训练并避免局部最优。
中等数据集且训练时间适中：
可以选择 Step Decay 或 Exponential Decay。这些策略在收敛过程中平稳下降，适合中等规模的任务。
大数据集且长时间训练：
选择 Cosine Annealing 或 Reduce on Plateau。这类策略能够适应较长的训练周期，避免学习率下降过快，从而保持稳定的收敛效果。

（2）. 模型类型和复杂度

简单模型（如浅层神经网络）：
使用 Step Decay 或 Exponential Decay。这些简单的衰减策略适合训练时间不长且模型复杂度低的情况。
深度模型（如卷积神经网络、递归神经网络）：
选择 Cosine Annealing、Reduce on Plateau 或 One Cycle Policy。这些策略在后期能平滑衰减，有助于复杂模型更好地探索损失函数的不同区域。
预训练模型的微调：
One Cycle Policy 是一个理想选择。它从较低的学习率开始，快速升至最大，再衰减回较小值，适合在微调过程中稳定调整参数。

（3）. 任务类型

分类任务：
分类任务中常用 Step Decay、Cosine Annealing 或 Cyclical Learning Rate，特别是在图像分类任务中，余弦退火可以在训练后期更好地收敛，CLR 则有助于探索不同的损失空间。
回归任务：
Exponential Decay 或 Reduce on Plateau，回归任务通常要求模型在后期保持较稳定的收敛效果，因此指数衰减和基于验证集表现的动态调整策略更为合适。
时间序列预测：
使用 Reduce on Plateau 或 Exponential Decay，因为时间序列预测中数据较为复杂，不同时间段的学习率需求变化大，可以使用验证集损失表现来决定学习率的动态调整。

（4）. 模型对学习率敏感性

学习率敏感模型：
对学习率波动敏感的模型适合使用 Cosine Annealing 或 Reduce on Plateau。这类模型需要学习率逐步下降的过程来平稳收敛，不易受到过大的学习率波动影响。
对学习率不敏感的模型：
使用 Cyclical Learning Rate 或 One Cycle Policy，这两种策略适合让学习率在一个范围内波动，从而让模型更快跳出局部最优，快速找到全局最优解。

（5）. 损失函数表现与收敛性

损失波动较大（不稳定收敛）：
选择 Reduce on Plateau，让模型在验证集损失长时间不下降时再降低学习率，避免过早或频繁地调整学习率。
损失逐渐收敛（平稳下降）：
使用 Step Decay 或 Exponential Decay，这些策略更适合平稳下降的场景，且能在训练后期提供更小的学习率。

任务场景	推荐学习率调整策略
小数据集，快速训练	One Cycle Policy，CLR
大数据集，长时间训练	Cosine Annealing，Reduce on Plateau
微调预训练模型	One Cycle Policy
简单模型	Step Decay，Exponential Decay
深层复杂模型	Cosine Annealing，Reduce on Plateau
分类任务	Step Decay，Cosine Annealing，CLR
时间序列或自然语言处理	Exponential Decay，Reduce on Plateau
高波动的验证集损失	Reduce on Plateau

以下是一个综合示例，展示了如何在 PyTorch 中动态选择并应用学习率调整策略：

import torch
import torch.optim as optim
import torch.nn as nn
from torch.optim.lr_scheduler import StepLR, ExponentialLR, CosineAnnealingLR, ReduceLROnPlateau, OneCycleLR# 假设我们有一个简单的模型
model = nn.Linear(10, 2)
optimizer = optim.SGD(model.parameters(), lr=0.1)  # 初始学习率 0.1# 根据需求选择合适的学习率调整策略
def get_scheduler(optimizer, strategy='step_decay'):if strategy == 'step_decay':return StepLR(optimizer, step_size=10, gamma=0.5)elif strategy == 'exponential_decay':return ExponentialLR(optimizer, gamma=0.9)elif strategy == 'cosine_annealing':return CosineAnnealingLR(optimizer, T_max=30)elif strategy == 'reduce_on_plateau':return ReduceLROnPlateau(optimizer, mode='min', factor=0.1, patience=5)elif strategy == 'one_cycle':return OneCycleLR(optimizer, max_lr=0.1, steps_per_epoch=100, epochs=10)else:raise ValueError("Unknown strategy type")# 选择策略
scheduler = get_scheduler(optimizer, strategy='cosine_annealing')# 模拟训练过程
for epoch in range(30):optimizer.zero_grad()output = model(torch.randn(10))loss = nn.MSELoss()(output, torch.randn(2))loss.backward()optimizer.step()# 调整学习率if isinstance(scheduler, ReduceLROnPlateau):# 如果是 Reduce on Plateau，使用验证集的损失作为依据val_loss = loss.item() + (epoch % 10) * 0.1  # 模拟验证损失scheduler.step(val_loss)else:scheduler.step()print(f"Epoch {epoch+1}, Learning Rate: {optimizer.param_groups[0]['lr']}")

深度学习-学习率调整策略

在深度学习中，学习率调整策略（Learning Rate Scheduling）用于在训练过程中动态调整学习率，以实现更快的收敛和更好的模型性能。选择合适的学习率策略可以避免模型陷入局部最优、震荡不稳定等问题。下面介绍一些常见的学习率调整策…...

编程日记 2024/11/3 0:10:44

【学员提问bug】小程序在onUnload里面调接口，用来记录退出的时间, 但是接口调用还没成功, 页面就关闭了。如何让接口在onUnload关闭前调用成功？

这种问题比较通用，并不涉及到具体方法执行障碍，所以，解决起来也不麻烦。但是新手往往不知道如何做。在小程序中，如果在 onUnload 中调用 API 记录页面退出时间，但因为页面关闭速度较快导致请求未完成，可以…...

编程日记 2024/11/3 0:09:42

【刷题13】链表专题

目录一、两数相加二、两两交换链表的节点三、重排链表四、合并k个升序链表五、k个一组翻转链表一、两数相加题目： 思路： 注意整数是逆序存储的，结果要按照题目的要求用链表连接起来遍历l1的cur1，遍历l2的cur2，和…...

编程日记 2024/11/3 0:06:40

Python Turtle模块详解与使用教程

Python Turtle模块详解与使用教程引言 Python是一种广泛使用的编程语言，其简洁易读的语法使得它成为初学者学习编程的理想选择。而Turtle模块则是Python标准库中一个非常有趣且实用的图形绘制工具，特别适合用于教育和学习编程的基础知识。通过Turtle模…...

编程日记 2024/11/3 0:05:36

【PTA】4-2 树的同构【数据结构】

给定两棵树 T1 和 T2。如果 T1 可以通过若干次左右孩子互换就变成 T2，则我们称两棵树是“同构”的。例如图1给出的两棵树就是同构的，因为我们把其中一棵树的结点A、B、G的左右孩子互换后，就得到另外一棵树。而图2就不是同构的。图一…...

编程日记 2024/11/3 0:04:34

Node.js——fs模块-同步与异步

本文的分享到此结束，欢迎大家评论区一同讨论学习，下一篇继续分享Node.js的fs模块文件追加写入的学习。...

编程日记 2024/11/3 0:03:33

Java基于微信小程序的私家车位共享系统(附源码，文档）

博主介绍：✌stormjun、8年大厂程序员经历。全网粉丝15w、csdn博客专家、掘金/华为云/阿里云/InfoQ等平台优质作者、专注于Java技术领域和毕业项目实战✌ 🍅文末获取源码联系🍅 👇🏻 精彩专栏推荐订阅👇&…...

编程日记 2024/11/3 0:01:31

vscode 创建 vue 项目时，配置文件为什么收缩到一起展示了？

一、前言今天用 vue 官方脚手架创建工程，然后通过 vscode 打开项目发现，配置文件都被收缩在一起了。就像下面这样这有点反直觉，他们应该是在同一层级下的，怎么会这样，有点好奇，但是打开资源管理查看&…...

编程日记 2024/11/3 0:00:29

PySpark任务提交

一般情况下，spark任务是用scala开发的，但是对于一些偏业务人员，或者是基于上手的来说python的API确实降低了开发前置条件的难度，首当其冲的就是能跳过Java和Scala需要的知识储备，但是在提交任务到集群的时候就很麻烦了…...

编程日记 2024/11/2 23:55:25

【果蔬购物商城管理与推荐系统】Python+Django网页界面+协同过滤推荐算法+管理系统网站

一、介绍果蔬购物管理与推荐系统。本系统以Python作为主要开发语言，前端通过HTML、CSS、BootStrap等框架搭建界面，后端使用Django框架作为逻辑处理，通过Ajax实现前后端的数据通信。并基于用户对商品的评分信息，采用协同过滤推荐…...

编程日记 2024/11/2 23:53:23

【大模型】海外生成式AI赛道的关键玩家：OpenAI、Anthropic之外还有谁？

引言在生成式AI快速发展的今天，不同公司在各自领域发挥着独特作用。本文将从基础模型研发、开发工具框架、垂直领域应用三个维度，为读者梳理当前生成式AI技术领域的主要参与者，帮助开发者更好地把握技术发展方向。一、基础模型研发公司 O…...

编程日记 2024/11/2 23:51:20

https://cloudinit.readthedocs.io/en/latest/reference/examples.html （示例） https://cloudinit.readthedocs.io/en/latest/reference/faq.html （常见问题） https://cloudinit.readthedocs.io/en/latest/howto/debug_user_data.html （检查user_data） https://clo…...

编程日记 2024/11/2 23:49:18

Oracle 大表添加索引的最佳方式

背景： 业务系统中现在经常存在上亿数据的大表，在这样的大表上新建索引，是一个较为耗时的操作，特别是在生产环境的系统中，添加不当，有可能造成业务表锁表，业务表长时间的停服势必会影响正常业务…...

编程日记 2024/11/2 23:48:17

速度了解云原生后端！！！

云原生后端是指基于云计算技术和理念构建的后端系统架构，旨在充分利用云计算的优势，实现快速部署、弹性扩展、高可用性和高效运维。以下是云原生后端的一些关键特点和技术： 容器化容器化是云原生架构的核心之一，它使用容器技术&…...

编程日记 2024/11/2 23:46:15

云计算Openstack 虚拟机调度策略

OpenStack的虚拟机调度策略是一个复杂而灵活的系统，它主要由两种调度器实现：FilterScheduler（过滤调度器）和ChanceScheduler（随机调度器）。以下是对这两种调度器及其调度策略的详细解释： 一、F…...

编程日记 2024/11/2 23:45:14

在 macOS 上添加 hosts 文件解析的步骤

步骤 1: 打开 hosts 文件打开终端： 你可以通过 Spotlight 搜索（按 Cmd Space 并输入 Terminal）来打开终端。使用文本编辑器打开 hosts 文件： 在终端中输入以下命令，使用 nano 文本编辑器打开 hosts 文件&#xff1a…...

编程日记 2024/11/2 23:44:13

RHCE【防火墙】

目录一、防火墙简介二、iptables 实验一：搭建web服务，设置任何人能够通过80端口访问。实验二：禁止所有人ssh远程登录该服务器实验三：禁止某个主机地址ssh远程登录该服务器，允许该主机访问服务器的web服务。服…...

编程日记 2024/11/2 23:41:10

基于springboot的招聘系统的设计与实现

摘要随着互联网时代的发展，传统的线下管理技术已无法高效、便捷的管理信息。为了迎合时代需求，优化管理效率，各种各样的管理系统应运而生，国家在工作岗位要求不断提高的前提下，招聘系统建设也逐渐进入了信息化时代。…...

编程日记 2024/11/2 23:40:08

长度最小的子数组（滑动窗口）

给定一个含有 n 个正整数的数组和一个正整数 target 。找出该数组中满足其总和大于等于 target 的长度最小的子数组 [numsl, numsl1, ..., numsr-1, numsr] ，并返回其长度。如果不存在符合条件的子数组，返回 0 。示例 1： 输入&#xf…...

编程日记 2024/11/2 23:39:07

构建灵活、高效的HTTP/1.1应用：探索h11库

文章目录构建灵活、高效的HTTP/1.1应用：探索h11库背景这个库是什么？如何安装这个库？库函数使用方法使用场景常见的Bug及解决方案总结构建灵活、高效的HTTP/1.1应用：探索h11库背景在现代网络应用中，HTTP协议是基础…...

编程日记 2024/11/2 23:38:05

wordpress后台更新后前端没变化的解决方法

使用siteground主机的wordpress网站，会出现更新了网站内容和修改了php模板文件、js文件、css文件、图片文件后，网站没有变化的情况。不熟悉siteground主机的新手，遇到这个问题，就很抓狂，明明是哪都没操作错误&#x…...

编程新知 2025/11/3 4:16:22

【Python】 -- 趣味代码 - 小恐龙游戏

文章目录文章目录 00 小恐龙游戏程序设计框架代码结构和功能游戏流程总结01 小恐龙游戏程序设计02 百度网盘地址00 小恐龙游戏程序设计框架这段代码是一个基于 Pygame 的简易跑酷游戏的完整实现，玩家控制一个角色（龙）躲避障碍物（仙人掌和乌鸦）。以下是代码的详细介绍：…...

编程新知 2025/11/3 19:40:13

spring：实例工厂方法获取bean

spring处理使用静态工厂方法获取bean实例，也可以通过实例工厂方法获取bean实例。实例工厂方法步骤如下： 定义实例工厂类（Java代码），定义实例工厂（xml），定义调用实例工厂&#xff…...

编程新知 2025/8/27 18:01:27

视频字幕质量评估的大规模细粒度基准

大家读完觉得有帮助记得关注和点赞！！！ 摘要视频字幕在文本到视频生成任务中起着至关重要的作用，因为它们的质量直接影响所生成视频的语义连贯性和视觉保真度。尽管大型视觉-语言模型（VLMs）在字幕生成方面…...

编程新知 2025/11/3 8:15:39

Robots.txt 文件

什么是robots.txt？ robots.txt 是一个位于网站根目录下的文本文件（如：https://example.com/robots.txt），它用于指导网络爬虫（如搜索引擎的蜘蛛程序）如何抓取该网站的内容。这个文件遵循 Robots…...

编程新知 2025/9/9 5:38:23

tree 树组件大数据卡顿问题优化

问题背景项目中有用到树组件用来做文件目录，但是由于这个树组件的节点越来越多，导致页面在滚动这个树组件的时候浏览器就很容易卡死。这种问题基本上都是因为dom节点太多，导致的浏览器卡顿，这里很明显就需要用到虚拟列表的技术&…...

编程新知 2025/11/1 4:12:04

安卓基础（aar）

重新设置java21的环境，临时设置 $env:JAVA_HOME "D:\Android Studio\jbr" 查看当前环境变量 JAVA_HOME 的值 echo $env:JAVA_HOME 构建ARR文件 ./gradlew :private-lib:assembleRelease 目录是这样的： MyApp/ ├── app/ …...

编程新知 2025/10/2 5:21:30

省略号和可变参数模板

本文主要介绍如何展开可变参数的参数包 1.C语言的va_list展开可变参数 #include <iostream> #include <cstdarg>void printNumbers(int count, ...) {// 声明va_list类型的变量va_list args;// 使用va_start将可变参数写入变量argsva_start(args, count);for (in…...

编程新知 2025/7/9 0:26:24

Linux系统部署KES

1、安装准备 1.版本说明V008R006C009B0014 V008：是version产品的大版本。 R006：是release产品特性版本。 C009：是通用版 B0014：是build开发过程中的构建版本2.硬件要求 #安全版和企业版内存：1GB 以上硬盘&#xf…...

编程新知 2025/11/3 8:50:43

jdbc查询mysql数据库时，出现id顺序错误的情况

我在repository中的查询语句如下所示，即传入一个List<intager>的数据，返回这些id的问题列表。但是由于数据库查询时ID列表的顺序与预期不一致，会导致返回的id是从小到大排列的，但我不希望这样。 Query("SELECT NEW com…...

编程新知 2025/10/30 2:37:04

1. Step Decay（分步衰减）

原理

公式

适用场景

优缺点

代码示例

2. Exponential Decay（指数衰减）

原理

适用场景

优缺点

代码示例

3. Cosine Annealing（余弦退火）

原理

适用场景

优缺点

代码示例

4. Reduce on Plateau（基于验证集表现动态调整）

原理

适用场景

优缺点

代码示例

5. Cyclical Learning Rate (CLR)

原理

适用场景

优缺点

代码示例

6. One Cycle Policy（单周期策略）

原理

适用场景

优缺点

代码示例

7.如何选择合适的学习率调整策略？

（1）. 数据规模和训练时长

（2）. 模型类型和复杂度

（3）. 任务类型

（4）. 模型对学习率敏感性

（5）. 损失函数表现与收敛性

相关文章：