当前位置：首页 > news >正文

DLA 神经网络的极限训练方法：gradient checkpointing

news 2026/5/22 16:01:35

gradient checkpointing

一般来说，训练的过程需要保存中间结果（不管是GPU还是CPU）。前向传播根据输入(bottom_data)计算输出(top_data)，后向传播由top_diff计算bottom_diff（如果某个变量打开梯度进行训练的话）。top和bottom是包含数据和梯度的两个结构体，整个网络的每层top和bottom在训练的过程中都会保存，这消耗了大量的内存。

如果不保存这些变量，每次传播时重新分配和计算，会大大减少内存的使用量，但是也会使得网络的训练时间无限延长。为了平衡这两个矛盾，论文Training Deep Nets with Sublinear Memory Cost 使用亚线性内存成本训练深度网络：我们提出了一种系统方法来减少深度的内存消耗神经网络训练。具体来说，我们设计了一种成本高昂的算法 O（sqrt（n））内存来训练 n 层网络，只需计算成本每个小批量的额外前向传递。每隔 sqrt(n)保留一个检查点的feature map。

CODE

https://pytorch.org/docs/stable/checkpoint.html

// https://discuss.pytorch.org/t/trying-to-understand-torch-utils-checkpoint/95224
import torch
from torch import nn
from torch.utils.data import Dataset, DataLoader
import numpy as np
from tqdm.notebook import tqdmfrom torch import optim
import torchvision.models as models
from torch import nnCHECKPOINT = True
BATCH_SIZE = 32
dev = "cuda:0"class ImageDataset(Dataset):def __init__(self,length = 100000,size = 244):self.length = lengthself.size = 244def __len__(self):return self.lengthdef __getitem__(self,idx,display = False):return torch.from_numpy(np.random.randn(2,3,self.size,self.size))
train = ImageDataset()
trainloader = DataLoader(train,batch_size = BATCH_SIZE,num_workers = 24,pin_memory = True
)resnet = models.resnet50(pretrained = False)class MODEL(nn.Module):def __init__(self,model):super(MODEL,self).__init__()self.model = modelself.LR = nn.Linear(1000,1000)def forward(self,x):if CHECKPOINT == False:o1 = self.model(x[:,0])o2 = self.model(x[:,1])else:o1 = torch.utils.checkpoint.checkpoint(self.model,x[:,0])o2 = torch.utils.checkpoint.checkpoint(self.model,x[:,1])return torch.mean((self.LR(o1)-o2)**2)resnet = MODEL(resnet).to(dev)optimizer = optim.SGD(resnet.parameters(),lr = .001)for T in tqdm(trainloader):out = torch.mean(resnet(T.float().to(dev)))optimizer.zero_grad()out.backward()optimizer.step()

CG

在这里插入图片描述

https://github.com/merrymercy/dtr-prototype

ZeRO-Offload

https://arxiv.org/pdf/2101.06840.pdf 大规模模型训练一直是少数人的比赛场地需要复杂的模型重构和访问昂贵的 GPU 集群。ZeRO-Offload 通过使几乎每个人都可以访问大型模型训练。它可以训练模型单个 GPU 上超过 13 亿个参数，与 GPU 相比，大小增加了 10 倍流行的框架，如PyTorch，它不需要任何模型就可以做到这一点。从数据科学家改变或牺牲计算效率。 ZeRO-卸载通过卸载数据和计算来实现大型模型训练中央处理器。为了保持计算效率，它旨在最大限度地减少数据移入/移出 GPU，减少 CPU 计算时间，同时最大化内存节省 GPU 成本。因此，ZeRO-Offload可以在单个上实现40 TFlops / GPU。 NVIDIA V100 GPU 用于 10B 参数模型，与单独使用 PyTorch 的 30TF 相比对于 1.4B 参数模型，可以训练而不会耗尽的最大参数模型的记忆。ZeRO-Offload 还设计为在以下情况下在多个 GPU 上进行扩展可用，可在多达 128 个 GPU 上提供近乎线性的加速。此外，它可以与模型并行性协同工作，训练超过 70 亿的模型单个 DGX-2 盒子上的参数，与模型尺寸相比增加了 4.5 倍单独使用模型并行性。通过将计算和内存效率与易于使用，ZeRO-Offload 使大规模模型训练民主化，使其成为即使是数据科学家也可以访问，只需访问一个 GPU。

梯度累积

训练时大的batch一般能得到更稳定的训练效果，梯度累积训练方法是一种用于训练深度神经网络的技术，旨在减少显存需求并提高训练效果。在传统的训练方法中，模型的参数是通过单个批次（batch）的数据计算得到的梯度平均值进行更新。但在梯度累积训练中，模型的参数更新是通过多个批次的梯度累积得到的。

以下是梯度累积训练的基本步骤：

设置梯度累积步数（accumulation steps），它决定了要累积多少个批次的梯度。
初始化模型的参数。
对于每个训练批次（batch）：
- 使用当前批次的数据进行前向传播计算损失。
- 对损失进行反向传播计算梯度。
- 累积当前批次的梯度到之前的梯度值上。
当累积达到设置的步数时，将累积的梯度应用于模型参数的更新：
- 通过将累积的梯度平均化来获得参数的更新值。
- 使用更新值来更新模型的参数。
重复步骤3和4，直到完成所有的训练批次。

梯度累积训练的主要优势在于能够降低每个批次所需的显存量，允许在具有有限显存的硬件上训练更大的模型。此外，梯度累积还可以改善模型的收敛性，提高模型的性能和泛化能力。

DLA 神经网络的极限训练方法：gradient checkpointing

gradient checkpointing

CODE

CG

ZeRO-Offload

梯度累积

相关文章：

DLA 神经网络的极限训练方法：gradient checkpointing

python excel 操作

记一次Linux启动Mysql异常解决

ATFX汇市：美联储年内或仍将加息依次，美指向下空间不大

【博客687】k8s informer的list-watch机制剖析

用Python获取链家二手房房源数据，做可视化图分析数据

Yield Guild Games：社区更新 — 2023 年第二季度

Stable Diffusion - 运动服 (Gymwear Leggings) 风格服装与背景的 LoRA 配置

js-7：javascript原型、原型链及其特点

无涯教程-Perl - continue 语句函数

【贪心算法】leetcode刷题

PyMySQL库版本引起的python执行sql编码错误

第二章-算法

‘vue’不是内部或外部命令，也不是可运行的程序或批处理文件的原因及解决方法

HBase API

Qt6之QListWidget——Qt仿ToDesk侧边栏（1）

Prometheus技术文档--基本安装-docker安装并挂载数据卷-《十分钟搭建》

Android 数据库之GreenDAO

kotlin 编写一个简单的天气预报app（六）使用recyclerView显示forecast内容

jpa Page 1 of 0 containing UNKNOWN instances错误关于like问题的解决记录

3分钟快速掌握Cursor试用重置工具：一键解除AI编程助手限制的完整指南

如何5分钟免费掌握Windows风扇控制：终极散热优化指南

深度解析OBS Mac虚拟摄像头插件的架构设计与性能优化

3分钟掌握加密压缩包密码破解：ArchivePasswordTestTool终极实战指南

终极AI音乐创作工具：5分钟生成专业级歌曲翻唱

Flutter 混合栈开发完全指南：原理、架构与双向跳转实战

龙芯LoongArch开发板实战：从2K0500到3A5000的嵌入式开发指南

BarrageGrab：15+平台直播弹幕一体化采集方案，毫秒级延迟的WebSocket直连技术

智能网盘直链解析工具：免会员下载加速的全新解决方案

10个remote-browser最佳实践：提升自动化脚本性能