当前位置：首页 > article >正文

大语言模型训练中的显存占用与优化方法简述

article 2026/3/27 7:56:17

在进行大语言模型LLM的微调或预训练时显存VRAM不足通常是首要面临的问题。为了在有限的硬件资源下完成训练了解显存的具体去向以及相应的优化技术是比较基础的工作。从模型训练的流程来看显存的占用主要可以分为两大部分模型状态Model States和剩余耗时产生的中间变量主要是激活值。以下对相关的优化方法做简单的梳理。一、模型状态的显存占用与 ZeRO 技术模型状态包含了训练过程中最核心的三类数据模型参数Weights、梯度Gradients以及优化器状态Optimizer States。参数与梯度对于一个 1.7B17亿参数的模型如果使用 BF16 或 FP16 精度参数本身约占 3.4GB。在训练过程中系统还需要存储一份同样大小的梯度。优化器状态这是显存占用的“大户”。以常用的 Adam 优化器为例它需要为每个参数记录动量Momentum和方差Variance。如果使用全精度FP32来存储这些状态以保证精度其占用量通常是参数本身的数倍。为了解决这些静态数据的冗余问题微软提出的ZeROZero Redundancy Optimizer技术被广泛应用。它通过将数据切片并分散到多个显卡上来降低单卡负载ZeRO-1仅对优化器状态进行切片每张显卡只负责维护一部分参数的优化器状态。ZeRO-2在 1 的基础上进一步对梯度进行切片。这是目前平衡显存节省与通信效率较好的选择。ZeRO-3对模型参数也进行切片。当某一层需要计算时临时从其他显卡“借”来参数算完即释放。这种方式能最大程度节省显存但显卡间的通信开销会显著增加。二、激活值的显存占用与重算机制激活值Activations是指模型在“前向传播”过程中每一层神经元计算出的中间结果。与模型参数不同激活值的占用量是动态的它与训练时的批大小Batch Size和序列长度Sequence Length成正比。在处理长文本时激活值的显存占用往往会超过模型参数本身。由于反向传播计算梯度时必须用到这些中间结果因此默认情况下它们必须保留在显存中。目前的优化主流方案是梯度检查点Gradient Checkpointing其逻辑较为简单逻辑在前向传播时不再保存所有层的激活值而是只保留一小部分关键节点的“检查点”。重算当反向传播需要用到被删除的中间值时系统会根据最近的一个检查点重新进行一次前向计算。代价这是一种典型的“以时间换空间”的方法。它能节省大量的显存有时可达 70% 以上但会增加约 33% 的计算时间。三、激活值的卸载与并行策略除了重算还有一些进阶的手段来处理激活值虽然它们对硬件环境的要求更高激活值卸载Offloading将暂时不用的激活值通过 PCIe 总线搬运到 CPU 内存中需要时再搬回。受限于 PCIe 的带宽这种方法在某些配置下可能会产生较明显的延迟。序列并行Sequence Parallelism将长文本切分成几段分配给不同的显卡分别计算。这属于分布式训练的高级范畴通常需要较快的跨卡互联带宽支持。四、参数高效微调LoRA的辅助作用在讨论上述底层优化时不得不提LoRALow-Rank Adaptation。严格来说LoRA 改变的是需要更新的参数量。因为它冻结了原始模型的大部分参数只训练极小规模的旁路矩阵这直接导致梯度大幅减少只需要存储少量可训练参数的梯度。优化器状态减少对应的优化器记录也随之减少。虽然 LoRA 不直接改变激活值的计算方式但由于它极大降低了“模型状态”的显存门槛使得我们有更多的空间去增加 Batch Size 或序列长度。

大语言模型训练中的显存占用与优化方法简述

相关文章：

大语言模型训练中的显存占用与优化方法简述

SecGPT-14B案例分享：某能源企业OT网络异常通信行为识别过程

SEO_全面介绍SEO从入门到精通的关键知识点

Ostrakon-VL-8B模型剪枝与量化入门：降低部署资源消耗

UG/NX二次开发必备：C#和C++项目DLL自动签名与拷贝全攻略（附避坑指南）

NaViL-9B部署稳定性报告：7×24小时双卡运行内存泄漏监测

SEO_新手必看的SEO优化入门教程与核心方法（361 ）

LFM2.5-1.2B-Thinking部署教程：3步实现Python爬虫数据智能处理

泛微OA Ecology 安全补丁管理账号配置与实战

效果实测：nli-distilroberta-base处理长文本与跨语言推理能力

十大经典排序算法解析与实现

【实战】Ubuntu20.04硬盘挂载与权限管理全攻略（从分区合并到ext4格式化）

【声音克隆】Qwen3-TTS-12Hz-1.7B-Base优化技巧：如何生成更自然、更逼真的语音

精读《Harness design for long-running application development》：真正拉开差距的，不是模型本身，而是你怎么给它harness

南北阁 4.1-3B 开源镜像实战：Streamlit轻量化UI+CoT折叠展示一文详解

GME-Qwen2-VL-2B效果实测：抽象文字如何匹配具体图片？

Llama-3.2V-11B-cot快速部署：单命令启动+自动加载双卡4090

Gemma-3-12b-it实战教程：极简UI背后隐藏的12B模型内存映射优化策略

魔兽世界API开发助手：从新手到专家的全流程解决方案

ESP8266-ESP32 物联网开发入门

C++ 智能指针的底层实现逻辑

前端微前端架构：别再把所有功能都放在一个应用里了

从音频生成到DNA分析：手把手带你用S4和Hyena搞定Transformer不擅长的那些长序列任务

面向对象编程入门（下篇）：继承、封装与多态

依托AI改写功能的五个实用技巧，论文重复率由30%快速降至合规

cutlass代码架构分析

从 0 开始讲透 C++ Lambda（对标 Java）

云容笔谈·东方红颜影像生成系统与ComfyUI工作流集成：可视化节点式创作

nli-distilroberta-base实际项目：高校招生简章关键条款与考生疑问逻辑关系库构建

解决Redis测试环境搭建难题的try.redis工具：零配置交互式终端功能全解析