深度学习--卷积神经网络调整学习率
文章目录
- 前言
- 一、学习率
- 1、什么学习率
- 2、什么是调整学习率
- 3、目的
- 二、调整方法
- 1、有序调整
- 1)有序调整StepLR(等间隔调整学习率)
- 2)有序调整MultiStepLR(多间隔调整学习率)
- 3)有序调整ExponentialLR (指数衰减调整学习率)
- 4)有序调整CosineAnnealing (余弦退火函数调整学习率)
- 2、自适应调整
- 1)自适应调整ReduceLROnPlateau (根据指标调整学习率)
- 3、自定义调整
- 1)自定义调整LambdaLR (自定义调整学习率)
- 三、代码参考
- 总结
前言
在深度学习中,学习率(Learning Rate) 是优化算法中最重要的超参数之一。对于卷积神经网络(CNN)而言,合理的学习率调整策略直接影响模型的收敛速度、训练稳定性和最终性能。本文将系统性地介绍CNN训练中常用的学习率调整方法,并结合PyTorch代码示例和实践经验,帮助读者掌握这一关键技巧。
一、学习率
1、什么学习率
学习率是优化算法中一个重要的超参数,用于控制模型参数在每次更新时的调整幅度。学习率决定了模型在参数空间中搜索的步长大小。调整学习率是指在训练过程中根据需要改变学习率的值。
2、什么是调整学习率
常用的学习率有0.1、0.01以及0.001等,学习率越大则权重更新越快。一般来说,我们希望在训练初期学习率大一些,使得网络收敛迅速,在训练后期学习率小一些,使得网络更好的收敛到最优解。
- 使用库函数进行调整
- 手动调整学习率

3、目的
调整学习率的目的是为了能够更好地优化模型,避免训练过程中出现的一些问题,如梯度爆炸或梯度消失、陷入局部极小值等。
二、调整方法
Pytorch学习率调整策略通过 torch.optim.lr_sheduler 接口实现,本篇介绍3种库函数调整方法:
(1)有序调整:等间隔调整(Step),多间隔调整(MultiStep),指数衰减(Exponential),余弦退火(CosineAnnealing);
(2)自适应调整:依训练状况伺机而变,通过监测某个指标的变化情况(loss、accuracy),当该指标不怎么变化 时,就是调整学习率的时机(ReduceLROnPlateau);
(3)自定义调整:通过自定义关于epoch的lambda函数调整学习率(LambdaLR)。

1、有序调整
1)有序调整StepLR(等间隔调整学习率)
"""等间隔调整"""
torch.optim.lr_scheduler.StepLR(optimizer, step_size, gamma=0.1)
# optimizer: 神经网络训练中使用的优化器,
# 如optimizer = torch.optim.Adam(model.parameters(),lr=0.001)
# step_size(int): 学习率下降间隔数,单位是epoch,而不是iteration.
# gamma(float):学习率调整倍数,默认为0.1
# 每训练step_size个epoch,学习率调整为lr=lr*gamma.
2)有序调整MultiStepLR(多间隔调整学习率)
"""多间隔调整"""
torch.optim.lr_shceduler.MultiStepLR(optimizer, milestones, gamma=0.1)
milestone(list): 一个列表参数,表示多个学习率需要调整的epoch值,
如milestones=[10, 30, 80],即10轮时将gamma乘以学习率lr,30轮时、80轮时
3)有序调整ExponentialLR (指数衰减调整学习率)
'''指数衰减调整'''
torch.optim.lr_scheduler.ExponentialLR(optimizer, gamma)
参数:
gamma(float):学习率调整倍数的底数,指数为epoch,初始值我lr, 倍数为γepoch,每一轮都调整.
4)有序调整CosineAnnealing (余弦退火函数调整学习率)
'''余弦退火函数调整'''
torch.optim.lr_scheduler.CosineAnnealingLR(optimizer, T_max, eta_min=0)
参数:
Tmax(int):学习率下降到最小值时的epoch数,即当epoch=T_max时,学习率下降到余弦函数最小值,当epoch>T_max时,学习率将增大;
etamin: 学习率调整的最小值,即epoch=Tmax时,lrmin=etamin, 默认为0.
2、自适应调整
当某指标(loss或accuracy)在最近几个epoch中都没有变化(下降或升高超过给定阈值)时,调整学习率。
1)自适应调整ReduceLROnPlateau (根据指标调整学习率)
"""根据指标调整学习率"""
torch.optim.lr_scheduler.ReduceLROnPlateau(optimizer, mode='min', factor=0.1,patience=10,verbose=False, threshold=0.0001, threshold_mode='rel', cooldown=0, min_lr=0, eps=1e-08)
-
optimizer: 被包装的优化器。
-
mode: 可以是 ‘min’ 或 ‘max’。如果是 ‘min’,当监测的指标停止下降时学习率会被降低;如果是
-
‘max’,当指标停止上升时学习率会被降低。
-
factor: 学习率降低的因子,新的学习率会是旧学习率乘以这个因子。
-
patience: 在指标停止改善之后等待多少个周期才降低学习率。
-
threshold: 用于衡量新的最优值的阈值,只关注显著的变化。
-
threshold_mode: 可以是 ‘rel’ 或 ‘abs’。在 ‘rel’ 模式下,动态阈值会根据最佳值和阈值的相对关系来设定;在 ‘abs’ 模式下,动态阈值会根据最佳值加上或减去阈值来设定。
-
cooldown: 在学习率被降低之后,等待多少个周期再继续正常操作。
-
min_lr: 所有参数组或每个组的学习率的下限。
-
eps: 应用于学习率的最小衰减。如果新旧学习率之间的差异小于 eps,则忽略这次更新。
3、自定义调整
可以为不同层设置不同的学习率。
1)自定义调整LambdaLR (自定义调整学习率)
torch.optim.lr_scheduler.LambdaLR(optimizer, lr_lambda)
参数:
lr_lambda(function or list): 自定义计算学习率调整倍数的函数,通常时epoch的函数,当有多个参数组时,设为list.
三、代码参考
loss_fn = nn.CrossEntropyLoss() # 创建交叉熵损失函数对象
optimizer = torch.optim.Adam(model.parameters(),lr=0.001) #创建一个优化器,一开始lr可以大一些
scheduler = torch.optim.lr_scheduler.StepLR(optimizer,step_size=5,gamma=0.5) # 调整学习率
"""optimizer是一个PyTorch优化器对象
step_size表示学习率调整的步长
gamma表示学习率的衰减因子,即每次调整后将当前学习率乘以gamma
""""""训练模型"""
train_dataloader = DataLoader(training_data, batch_size=64, shuffle=True)
test_dataloader = DataLoader(test_data, batch_size=64, shuffle=True)epochs = 10
acc_s = []
loss_s = []for t in range(epochs):print(f"Epoch {t+1}\n---------------------------")train(train_dataloader,model,loss_fn,optimizer)test(test_dataloader, model, loss_fn)scheduler.step()
print(bast_acc)
总结
没有"放之四海皆准"的最优策略,通过实验找到适合具体任务的方法才是王道。
相关文章:
深度学习--卷积神经网络调整学习率
文章目录 前言一、学习率1、什么学习率2、什么是调整学习率3、目的 二、调整方法1、有序调整1)有序调整StepLR(等间隔调整学习率)2)有序调整MultiStepLR(多间隔调整学习率)3)有序调整ExponentialLR (指数衰减调整学习率)4)有序调整…...
Apache中间件解析漏洞与安全加固
Apache作为全球使用最广泛的Web服务器,其灵活性和模块化设计使其成为开发者的首选。然而,其解析机制和配置不当可能导致严重的安全风险。本文将从漏洞原理、攻击案例和安全配置三个维度,结合真实场景,解析…...
TORL:解锁大模型推理新境界,强化学习与工具融合的创新变革
在大语言模型(LLMs)推理能力不断提升的当下,如何让模型更高效地解决复杂计算和推理任务成为关键。本文介绍的TORL(Tool-Integrated Reinforcement Learning)框架给出了全新方案。它通过强化学习让大模型自主运用计算工…...
Maven 依赖坐标与BOM统一管理
🧑 博主简介:CSDN博客专家,历代文学网(PC端可以访问:https://literature.sinhy.com/#/?__c1000,移动端可微信小程序搜索“历代文学”)总架构师,15年工作经验,精通Java编…...
华为OD机试真题——通过软盘拷贝文件(2025A卷:200分)Java/python/JavaScript/C++/C语言/GO六种最佳实现
2025 A卷 200分 题型 本文涵盖详细的问题分析、解题思路、代码实现、代码详解、测试用例以及综合分析; 并提供Java、python、JavaScript、C、C语言、GO六种语言的最佳实现方式! 本文收录于专栏:《2025华为OD真题目录全流程解析/备考攻略/经验…...
participant中participantid的来源和用途
ParticipantQos中的wire_protocol(WireProtocolConfigQos类型)成员中存在participant_id成员: DomainParticipantImpl::DomainParticipantImpl(...) {...participant_id_ qos_.wire_protocol().participant_id; } 如果用户不指定&…...
【论文阅读25】-滑坡时间预测-PFTF
本文提出了一种前瞻性失稳时间预测方法(PFTF),可用于实时或拟实时预测滑坡、冰崩等地质灾害的失稳时间。该方法基于改进的反速度法(Inverse Velocity Method),通过多窗口平滑、迭代更新、以及自动识别加速起…...
解决AWS中ELB的目标群组中出现不正常数
当如下图中不正常数>0且小于等于目标总数时,我们需要更改相应的配置,这是针对那些没有检查方式的实例,从而采取反向配置方式 1、切换到运行健康检查,然后进行编辑各个检查指标 2、编辑如下 3、切换到属性进行编辑如下...
【TeamFlow】4.3.4 长度单位
以下是针对长度单位的实现方案,包含完整的文件结构和详细实现: 文件结构更新 src/ └── units/└── base/├── length.rs # 基础长度单位└── length/├── metric.rs # 公制单位├── imperial.rs # 英制单位├── astronomical.r…...
【Qt/C++】QPrinter关于QInternal::Printer的解析
1. 问题分析 QInternal::Printer在Qt框架中并不是一个直接暴露给用户的API。相反,它是一个枚举值,用于标识QPaintDevice的类型。在Qt中,QPaintDevice是一个抽象类,用于任何可以进行绘制的设备,如窗口、图像、打印机等…...
方案精读:华为智慧园区解决方案【附全文阅读】
随着数字化发展,园区面临转型需求。华为智慧园区解决方案应运而生,其基于物联网、大数据、云计算等技术,构建数字化使能平台,涵盖综合安防、人员与车辆管理、绿色能源、资产管理等多领域应用场景,解决传统园区在安全、效率、能耗等方面的痛点。通过实现系统互联、数据融合…...
【Java面试笔记:基础】13.谈谈接口和抽象类有什么区别?
在 Java 中,接口(Interface) 和 抽象类(Abstract Class) 都是实现多态和代码抽象的机制,但它们在设计目的、语法特性及使用场景上有显著差异。 1. 接口和抽象类的区别 接口(Interface) 定义:接口是对行为的抽象,是抽象方法的集合,用于定义 API 规范。 特点: 不能…...
03-Java入门-JDK的安装和下载
03-Java入门-JDK的安装和下载 1. 安装JDK 1)JDK概述 JDK定义: JDK(Java Development Kit)是Java开发者工具包,包含Java编译器、Java运行时环境(JRE)以及其他开发工具。作用: 必须安装JDK才能使用Java进行…...
开源作业调度框架Quartz框架详细使用说明
Quartz框架详细使用说明 Quartz 是一个功能强大的开源作业调度框架,广泛用于在Java应用程序中执行定时任务。以下是Quartz框架的详细使用说明、完整代码示例、同类框架对比以及总结表格。 1. Quartz框架概述 特点: 灵活的调度:支持多种调度方…...
C++算法(14):K路归并的最优解法
问题描述 给定K个按升序排列的数组,要求将它们合并为一个大的有序数组。例如,输入数组[[1,3,5], [2,4,6], [0,7]],合并后的结果应为[0,1,2,3,4,5,6,7]。 解决方案 思路分析 合并多个有序数组的高效方法是利用最小堆(优先队列&…...
如何配置 Conda 使用镜像源加速
如何配置 Conda 使用镜像源加速 为了提高使用 Anaconda 或 Miniconda 时包管理的速度,特别是在国内网络环境下,可以通过配置镜像源来实现更快的下载。以下是详细的步骤说明: 1. 安装 Conda(如果尚未安装) 如果你还没…...
【OS】深入理解Linux的五种IO模型
最近逛论坛在知乎看到一篇非常不错的文章,遂收藏,分享给大家 又加深了对io模型的理解 知乎一篇文章:深入理解Linux的五种IO模型 Linux的五种IO模型 阻塞I/O (Blocking I/O) • 特点:进程在数据准备和拷贝阶段均被挂起ÿ…...
67 款 App 因违规收集个人信息被通报 隐私合规检测成重新上架门槛
4 月 22 日,国家网络与信息安全信息通报中心通报 67 款违法违规收集使用个人信息的移动应用,涉及教育、金融、政务等多个领域。此次通报是 2025 年个人信息保护专项行动的重要成果,依据《网络安全法》《个人信息保护法》等法律法规࿰…...
前端热门面试题day1
内容回答较粗糙,如有疑问请自行搜索资料 什么是vue中的slot?它有什么作用 Vue中的Slot(插槽)就像给组件预先留的“内容停车位”,让父组件能把自定义内容“塞”到子组件的指定位置。它的主要作用是: 灵活定…...
华为AR1200 telnet设置
华为路由配置TELNET登 📺 启动TELNET服务 在华为路由器上启动TELNET服务,执行以下命令: telnet server enable 🔑 配置AAA认证 进入AAA认证配置,创建一个路由器登录帐号admin123,并设置密码为huawei123&…...
基于ESP32 - S3的MD5校验算法的C语言例程
下面是一个基于ESP32 - S3的MD5校验算法的C语言例程。在ESP32 - S3上实现MD5校验,你可以使用ESP-IDF(Espressif IoT Development Framework)提供的功能。 步骤: 创建项目:使用ESP-IDF创建一个新的项目。编写代码&…...
django软件开发招聘数据分析与可视化系统设计与实现(源码+lw+部署文档+讲解),源码可白嫖!
摘要 时代在飞速进步,每个行业都在努力发展现在先进技术,通过这些先进的技术来提高自己的水平和优势,招聘信息管理系统当然不能排除在外。软件开发招聘数据分析与可视化系统是在实际应用和软件工程的开发原理之上,运用Python语言…...
Maven中的(五种常用依赖范围)
Maven 定义了 五种常用依赖范围(scope),它们控制着: 哪些依赖会编译时参与哪些依赖会打包进 WAR/JAR哪些依赖会传递给其他模块哪些依赖只在测试中才有效 Maven 常用的依赖范围(scope) scope编译需要测试需…...
Python内置函数-aiter()
Python内置函数 aiter() 用于获取异步可迭代对象的异步迭代器,是异步编程中的核心工具之一。 1. 基本概念 异步可迭代对象:实现了 __aiter__() 和 __anext__() 方法的对象,支持 async for 循环。 异步迭代器:通过 aiter() 获取的…...
面试篇:Java并发与多线程
基础概念 什么是线程?线程和进程的区别是什么? 线程 是程序执行的最小单位,它是 CPU 调度和执行的基本单元。一个进程可以包含多个线程,这些线程共享进程的资源(如内存),但每个线程有自己的栈…...
Windows 同步技术-计时器队列和内存屏障
计时器队列 CreateTimerQueue 函数为计时器创建队列。 此队列中的计时器(称为 计时器队列计时器)是轻量级对象,可用于指定要在指定到期时间到达时调用的回调函数。 等待作由 线程池中的线程执行。 若要将计时器添加到队列,请调用…...
基于无障碍跳过广告-基于节点跳过广告
2025-04-22 一些广告的关闭是叉图标,获取到的信息也没什么特征,这种广告怎么跳过 用autojs无障碍的节点定位ui控件位置,点击...
内存管理(Linux程序设计)
内存管理 目录 内存管理 一.简单的内存分配 代码功能概述 代码流程图 变量声明 动态内存分配 内存分配错误检查 向内存写入字符串 设置退出状态并退出程序 二.请求全部的物理内存 代码功能概述 变量声明 三..可用内存 四.滥用内存 1.代码功能(预期 …...
element-ui、element-plus表单resetFields()无效的坑
一、基本前提: 1、form组件上必须要有ref 2、form-item上必须要有prop属性 二、新增/编辑用一个el-dialog时,先新增再编辑没问题,先编辑再新增未清空 原因 在没有点新增或着编辑时,我的el-dialog弹出框里的内容是空白的&…...
LeetCode 252 会议室 III(Meeting Rooms III)题解与模拟面试
1. 引言 在现代办公和协作中,会议室的高效利用至关重要。LeetCode 252 题“会议室 III”要求我们在给定一组会议的时间区间后,计算同一时间段内需要开的最少会议室数量,以保证所有会议能顺利进行。本题不仅是经典的区间调度问题变形…...
