当前位置：首页 > news >正文

transformers进行学习率调整lr_scheduler（warmup）

news 2026/2/11 5:11:18

一、get_scheduler实现warmup

1、warmup基本思想

Warmup（预热）是深度学习训练中的一种技巧，旨在逐步增加学习率以稳定训练过程，特别是在训练的早期阶段。它主要用于防止在训练初期因学习率过大导致的模型参数剧烈波动或不稳定。预热阶段通常是指在训练开始时，通过多个步长逐步将学习率从一个较低的值增加到目标值（通常是预定义的最大学习率）。

2、warmup基本实现

from transformers import get_schedulerscheduler = get_scheduler(name="cosine",  # 可以选择 'linear', 'cosine', 'polynomial', 'constant', 'constant_with_warmup'optimizer=optimizer,num_warmup_steps=100,  # 预热步数num_training_steps=num_training_steps  # 总的训练步数
)#linear：线性学习率下降
#cosine：余弦退火
#polynomial：多项式衰减
#constant：常数学习率
#constant_with_warmup：预热后保持常数# 上述代码等价于
from transformers import get_cosine_scheduler_with_warmupscheduler = get_cosine_scheduler_with_warmup(optimizer=optimizer,num_warmup_steps=100,  # 预热步数num_training_steps=num_training_steps  # 总的训练步数
)# 同理等价于linear, polynomial, constant分别等价于
from transformers import (get_constant_schedule, get_polynomial_decay_schedule_with_warmup, get_linear_schedule_with_warmup)

二、各种warmup策略学习率变化规律

1、get_constant_schedule学习率变化规律

2、get_cosine_schedule_with_warmup学习率变化规律

3、get_cosine_with_hard_restarts_schedule_with_warmup学习率变化规律

4、get_linear_schedule_with_warmup学习率变化规律

5、get_polynomial_decay_schedule_with_warmup学习率变化规律（power=2, power=1类似于linear）

6、注意事项

如果网络中不同框架采用不同的学习率，上述的warmup策略仍然有效（如图二、5中所示）
给schduler设置的number_training_steps一定要和训练过程相匹配，如下所示。

7、可视化学习率过程

import matplotlib.pyplot as plt
from transformers import get_scheduler
from torch.optim import AdamW
import torch
import math# 定义一些超参数learning_rate = 1e-3  # 初始学习率# 假设有一个模型
model = torch.nn.Linear(10, 2)# 获得训练总的步数
epochs = 50
batch_size = 32
#train_loader = ***
#num_train_loader = len(train_loader)
num_train_loader = 1235num_training_steps = epochs * math.ceil(num_train_loader/batch_size) # 总的训练步数# 定义优化器
optimizer = AdamW(model.parameters(), lr=learning_rate)# 创建学习率调度器
scheduler = get_scheduler(name="cosine",  # 可以选择 'linear', 'cosine', 'polynomial', 'constant', 'constant_with_warmup'optimizer=optimizer,num_warmup_steps=100,  # 预热步数num_training_steps=num_training_steps  # 总的训练步数
)# 存储每一步的学习率
learning_rates = []# for step in range(num_training_steps):
#    optimizer.step()
#    scheduler.step()
#    learning_rates.append(optimizer.param_groups[0]['lr'])for epoch in range(epochs):# for batch in train_loader:for step in range(0, num_train_loader, batch_size):optimizer.zero_grad()# loss.backward()optimizer.step()scheduler.step()learning_rates.append(optimizer.param_groups[0]['lr'])# 绘制学习率曲线
plt.plot(learning_rates)
plt.xlabel("Training Steps")
plt.ylabel("Learning Rate")
plt.title("Learning Rate Schedule")
plt.show()

实验结果：

transformers进行学习率调整lr_scheduler（warmup）

一、get_scheduler实现warmup 1、warmup基本思想 Warmup（预热）是深度学习训练中的一种技巧，旨在逐步增加学习率以稳定训练过程，特别是在训练的早期阶段。它主要用于防止在训练初期因学习率过大导致的模型参数剧烈波动或不稳定。…...

编程日记 2024/7/28 3:35:35

智能优化算法之灰狼优化算法（GWO）

智能优化算法是一类基于自然界中生物、物理或社会现象的优化技术。这些算法通过模拟自然界中的一些智能行为，如遗传学、蚁群觅食、粒子群体运动等，来解决复杂的优化问题。智能优化算法广泛应用于各种工程和科学领域，因其具有全局搜索能力、鲁…...

编程日记 2024/7/28 3:26:24

昇思25天学习打卡营第17天|计算机视觉

昇思25天学习打卡营第17天文章目录昇思25天学习打卡营第17天ShuffleNet图像分类ShuffleNet网络介绍模型架构Pointwise Group ConvolutionChannel ShuffleShuffleNet模块构建ShuffleNet网络模型训练和评估训练集准备与加载模型训练模型评估模型预测打卡记录 ShuffleNet图像分…...

编程日记 2024/7/28 3:25:23

Windows图形界面(GUI)-MFC-C/C++ - 键鼠操作

公开视频 -> 链接点击跳转公开课程博客首页 -> 链接点击跳转博客主页目录 MFC鼠标派发流程鼠标消息(客户区) 鼠标消息(非客户) 坐标处理客户区非客户坐标转换示例代码 MFC键盘击键消息虚拟键代码键状态 MFC鼠标派发流程消息捕获&#…...

编程日记 2024/7/28 3:24:23

Angular 18.2.0 的新功能增强和创新

一.Angular 增强功能 Angular 是一个以支持开发强大的 Web 应用程序而闻名的平台，最近发布了 18.2.0 版本。此更新带来了许多新功能和改进，进一步增强了其功能和开发人员体验。在本文中，我们将深入探讨 Angular 18.2.0 为开发人员社区提供的…...

编程日记 2024/7/28 3:23:22

matlab 小数取余 rem 和 mod有 bug

目录前言Matlab取余函数1 mod 函数1.1 命令行输入1.2 命令行输出 2 rem 函数2.1 命令行输入2.2 命令行输出分析原因注意前言在 Matlab 代码中mod(0.11, 0.1) < 0.01 判断为真，mod(1.11, 0.1) < 0.01判断为假，导致出现意料外的结果。结果发现…...

编程日记 2024/7/28 3:22:21

Avalonia中的数据模板

文章目录 1. 介绍和概述什么是数据模板：数据模板的用途：2. 定义数据模板在XAML中定义数据模板：在代码中定义数据模板：3. 使用数据模板在控件中使用数据模板：数据模板选择器：定义数据模板选择器：在XAML中使用数据模板选择器：4. 复杂数据模板使用嵌套数据模板：使用模板绑…...

编程日记 2024/7/28 3:21:20

Sqlmap中文使用手册 - Techniques模块参数使用

目录 1. Techniques模块的帮助文档2. 各个参数的介绍2.1 --techniqueTECH2.2 --time-secTIMESEC2.3 --union-colsUCOLS2.4 --union-charUCHAR2.5 --union-fromUFROM2.6 --dns-domainDNS2.7 --second-urlSEC2.8 --second-reqSEC 1. Techniques模块的帮助文档 Techniques:These o…...

编程日记 2024/7/28 3:19:18

科普文：kubernets原理

kubernetes 已经成为容器编排领域的王者，它是基于容器的集群编排引擎，具备扩展集群、滚动升级回滚、弹性伸缩、自动治愈、服务发现等多种特性能力。本文将带着大家快速了解 kubernetes ，了解我们谈论 kubernetes 都是在谈论什么。一、背…...

编程日记 2024/7/28 3:17:16

GO-学习-02-常量

常量是不变的 const package main import "fmt"func main() {//常量定义时必须赋值const pi 3.1415926const e 2.718//一次声明多个常量const(a 1b 2c "ihan")const(n1 100n2n3)//n2,n3也是100 同时声明多个常量时，如果省略了值则表示和…...

编程日记 2024/7/28 3:12:12

Vue系列面试题

大家好，我是有用就扩散，有用就点赞。 1.Vue中组件间有哪些通信方式？ 父子组件通信： （1）props | $emit （接收父组件数据 | 传数据给父组件） （2）ref | $refs&a…...

编程日记 2024/7/28 3:07:05

等级保护总结2

网络安全等级保护解决方案的主打产品： HiSec Insight安全态势感知系统、 FireHunter6000沙箱、 SecoManager安全控制器、 HiSecEngine USG系列防火墙和HiSecEngine AntiDDoS防御系统。华为HiSec Insight安全态势感知系统是基于商用大数据平台FusionInsight的A…...

编程日记 2024/7/28 3:05:00

关于Redis(热点数据缓存,分布式锁,缓存安全(穿透,击穿,雪崩))；

热点数据缓存: 为了把一些经常访问的数据，放入缓存中以减少对数据库的访问频率。从而减少数据库的压力，提高程序的性能。【内存中存储】成为缓存; 缓存适合存放的数据: 查询频率高且修改频率低数据安全性低作为缓存的组件: redis组件 memory组件 e…...

编程日记 2024/7/28 2:59:55

【北京迅为】《i.MX8MM嵌入式Linux开发指南》-第三篇嵌入式Linux驱动开发篇-第四十七章字符设备和杂项设备总结回顾

i.MX8MM处理器采用了先进的14LPCFinFET工艺，提供更快的速度和更高的电源效率;四核Cortex-A53，单核Cortex-M4，多达五个内核 ，主频高达1.8GHz，2G DDR4内存、8G EMMC存储。千兆工业级以太网、MIPI-DSI、USB HOST、WIFI/BT…...

编程日记 2024/7/28 2:56:52

C#初级——枚举

枚举枚举是一组命名整型常量。 enum 枚举名字 { 常量1, 常量2, …… 常量n }; 枚举的常量是由 , 分隔的列表。并且，在这个整型常量列表中，通常默认第一位枚举符号的值为0，此后的枚举符号的值都比前一位大1。在将枚举赋值给 int 类型的…...

编程日记 2024/7/28 2:55:51

Linux 动静态库

一、动静态库 1、库的理解库其实是给我们提供方法的实现，如上面的对于printf函数的实现就是在库中实现的，而这个库也就是c标准库，本质也是文件，也有对应的路径 2、区别静态库是指编译链接时，把库文件的代码全部加入…...

编程日记 2024/7/28 2:54:49

微信小游戏之三消(一)

首先设定一下单个方块 cell 类： 类定义和属性 init 方法用于初始化方块，接收游戏实例、数据、宽度、道具类型和位置。 onWarning 方法设置警告精灵的帧，并播放闪烁动作，用于显示方块的警告状态。 grow 方法根据传入的方向…...

编程日记 2024/7/28 2:49:44

软件测试---Linux

Linux命令使用：为了将来工作中与服务器设备进行交互而准备的技能（远程连接/命令的使用）数据库的使用：MySQL，除了查询动作需要重点掌握以外，其他操作了解即可什么是虚拟机通过虚拟化技术，在电脑…...

编程日记 2024/7/28 2:48:44

数据库之数据表基本操作

目录一、创建数据表 1.创建表的语法形式 2.使用SQL语句设置约束条件 1.设置主键约束 2.设置自增约束 3.设置非空约束 4.设置唯一性约束 5.设置无符号约束 6.设置默认约束 7.设置外键约束 8.设置表的存储引擎二、查看表结构 1.查看表基本结构 2.查看建表语句三…...

编程日记 2024/7/28 2:47:42

利用OSMnx求路网最短路径并可视化（二）

书接上回，为了增加多路径的可视化效果和坐标匹配最近点来实现最短路可视化，我们使用图形化工具matplotlib结合OSMnx的绘图功能来展示整个路网图，并特别高亮显示计算出的最短路径。多起终点最短路路径并计算距离和时间完整代码#运行环境 P…...

编程日记 2024/7/28 2:46:42

Golang 面试经典题：map 的 key 可以是什么类型？哪些不可以？

Golang 面试经典题：map 的 key 可以是什么类型？哪些不可以？ 在 Golang 的面试中，map 类型的使用是一个常见的考点，其中对 key 类型的合法性是一道常被提及的基础却很容易被忽视的问题。本文将带你深入理解 Golang 中…...

编程新知 2025/12/20 7:42:02

uni-app学习笔记二十二---使用vite.config.js全局导入常用依赖

在前面的练习中，每个页面需要使用ref，onShow等生命周期钩子函数时都需要像下面这样导入 import {onMounted, ref} from "vue" 如果不想每个页面都导入，需要使用node.js命令npm安装unplugin-auto-import npm install unplugin-au…...

编程新知 2025/9/14 18:41:15

C++中string流知识详解和示例

一、概览与类体系 C 提供三种基于内存字符串的流，定义在 <sstream> 中： std::istringstream：输入流，从已有字符串中读取并解析。std::ostringstream：输出流，向内部缓冲区写入内容，最终取…...

编程新知 2025/11/30 11:30:47

用docker来安装部署freeswitch记录

今天刚才测试一个callcenter的项目，所以尝试安装freeswitch 1、使用轩辕镜像 - 中国开发者首选的专业 Docker 镜像加速服务平台编辑下面/etc/docker/daemon.json文件为 {"registry-mirrors": ["https://docker.xuanyuan.me"] }同时可以进入轩…...

编程新知 2026/2/1 3:20:44

FFmpeg：Windows系统小白安装及其使用

一、安装 1.访问官网 Download FFmpeg 2.点击版本目录 3.选择版本点击安装注意这里选择的是【release buids】，注意左上角标题例如我安装在目录 F:\FFmpeg 4.解压 5.添加环境变量把你解压后的bin目录（即exe所在文件夹）加入系统变量…...

编程新知 2026/1/31 14:34:46

PostgreSQL——环境搭建

一、Linux # 安装 PostgreSQL 15 仓库 sudo dnf install -y https://download.postgresql.org/pub/repos/yum/reporpms/EL-$(rpm -E %{rhel})-x86_64/pgdg-redhat-repo-latest.noarch.rpm# 安装之前先确认是否已经存在PostgreSQL rpm -qa | grep postgres# 如果存在&#xff0…...

编程新知 2025/11/26 20:46:42