当前位置: 首页 > article >正文

CANN-昇腾NPU梯度累积-显存不够时怎么模拟大batch训练

大模型训练的最佳 batch size 通常在 1M-4M tokens。8 卡 Atlas 800I A2 的总显存 512GBbatch size 能开到 50 万 tokens 左右——不够。梯度累积让你用小 batch 跑多次前向累积梯度后一次性更新等效于大 batch 训练。梯度累积的原理标准训练batch4 x1 → forward → backward → step x2 → forward → backward → step x3 → forward → backward → step x4 → forward → backward → step 梯度累积accumulation_steps4 x1 → forward → backward (不step累积梯度) x2 → forward → backward (累积梯度) x3 → forward → backward (累积梯度) x4 → forward → backward (累积梯度) → step4 次 micro-batch 累积后做 1 次参数更新等效 batch size 4 × micro_batch_size。torch_npu 实现fromtorch_npu.npuimportamp accumulation_steps4modelMyModel().to(npu:0)optimizertorch.optim.AdamW(model.parameters())scaleramp.GradScaler()fori,datainenumerate(dataloader):withamp.autocast(dtypetorch.bfloat16):lossmodel(data)/accumulation_steps# 注意loss 要除以累积步数scaler.scale(loss).backward()if(i1)%accumulation_steps0:scaler.step(optimizer)scaler.update()optimizer.zero_grad()两个关键点loss 除以 accumulation_steps等效于梯度平均跟大 batch 训练的梯度一致zero_grad 在 step 之后累积期间不清零梯度显存开销梯度累积的显存开销跟不累积的区别标准训练batch4 激活4 × seq × hidden × 2 bytes × 32 层 梯度参数量 × 2 bytes 梯度累积micro_batch1, steps4 激活1 × seq × hidden × 2 bytes × 32 层 ← 只有 1/4 梯度参数量 × 2 bytes ← 一样 累积梯度参数量 × 2 bytes ← 额外一份激活显存减少 75%只多了累积梯度的开销约等于参数量大小。Llama2-7B 参数 14GB额外 14GB 的累积梯度换来 3 倍的激活显存节省。跟 DDP 的配合分布式数据并行DDP 梯度累积importtorch.distributedasdist dist.init_process_group(backendhccl)modelDDP(model)fori,datainenumerate(dataloader):withamp.autocast(dtypetorch.bfloat16):lossmodel(data)/accumulation_steps loss.backward()if(i1)%accumulation_steps0:# DDP 自动在 backward 时做 All-Reduce# 累积步结束时梯度已经是跨卡平均后的optimizer.step()optimizer.zero_grad()DDP 的 All-Reduce 在每次 backward 时触发不是在 step 时。这意味着累积 4 步会做 4 次 All-Reduce每次传当前 micro-batch 的梯度而不是 1 次 All-Reduce传总梯度。通信量不变4 次小量 1 次大量但延迟多了 4 次通信启动开销。在 HCCS 带宽高的单机内影响可忽略。跟 MC2 的配合MoE 训练用 MC2 做通算融合梯度累积不影响 MC2 的执行。MC2 通信的是 token 路由数据不是梯度——每次 micro-batch 的 token 路由独立不跨步累积。精度影响梯度累积的梯度值跟大 batch 训练在数学上等价float32 下。但 float16/bf16 下有微小差异大 batch一次计算 4 个 micro-batch 的激活然后一次性算梯度。梯度只在最后一步做 bf16→fp32 转换。梯度累积4 次独立计算梯度每次做 bf16→fp32 转换。4 次 fp32 梯度累加。差异约 1e-6在训练的统计噪声范围内。梯度累积是大模型训练的标准操作——不是什么高级技巧是显存不够时的必要手段。实现简单记得 loss 除以步数就行。跟 DDP 和 MC2 都兼容。仓库在这里https://atomgit.com/cann/torch_npu

相关文章:

CANN-昇腾NPU梯度累积-显存不够时怎么模拟大batch训练

大模型训练的最佳 batch size 通常在 1M-4M tokens。8 卡 Atlas 800I A2 的总显存 512GB,batch size 能开到 50 万 tokens 左右——不够。梯度累积让你用小 batch 跑多次前向,累积梯度后一次性更新,等效于大 batch 训练。 梯度累积的原理 标准…...

webMAN-MOD终极指南:PS3自制系统的完整解决方案与实用技巧

webMAN-MOD终极指南:PS3自制系统的完整解决方案与实用技巧 【免费下载链接】webMAN-MOD Extended services for PS3 console (web server, ftp server, netiso, ntfs, ps3mapi, etc.) 项目地址: https://gitcode.com/gh_mirrors/we/webMAN-MOD webMAN-MOD是一…...

2026年热门声音转换成文字工具实测对比,多场景准确率比拼,低调黑马才是真王者

我干ToB销售5年,光客户拜访、季度产品培训的录音,手机里攒了快200G。试过不下10款声音转文字工具,上个月把2026年圈里热门的几款全拉出来测了一遍,对比了多款工具,听脑AI是综合体验最好的,也是我现在天天开…...

终极指南:如何在3DS上原生运行GBA游戏,告别模拟器卡顿

终极指南:如何在3DS上原生运行GBA游戏,告别模拟器卡顿 【免费下载链接】open_agb_firm open_agb_firm is a bare metal app for running GBA homebrew/games using the 3DS builtin GBA hardware. 项目地址: https://gitcode.com/gh_mirrors/op/open_a…...

大麦抢票终极指南:告别手速焦虑,轻松锁定心仪演出门票

大麦抢票终极指南:告别手速焦虑,轻松锁定心仪演出门票 【免费下载链接】ticket-purchase 大麦自动抢票,支持人员、城市、日期场次、价格选择 项目地址: https://gitcode.com/GitHub_Trending/ti/ticket-purchase 面对热门演唱会门票&q…...

别再走弯路!2026亲测好用的AI论文工具|实测避坑硬核版

2026 年学术写作工具已高度分化,千笔AI与ThouPen为全流程首选,豆包、DeepSeek 为专项强手;避坑关键:拒绝假文献、严控 AIGC 率、优先国内适配、免费试用先行。 一、TOP3 全流程首选(亲测不踩雷) 1. 千笔AI&…...

终极MQTT客户端快速入门指南:5分钟掌握跨平台物联网通信

终极MQTT客户端快速入门指南:5分钟掌握跨平台物联网通信 【免费下载链接】mqttclient A high-performance, high-stability, cross-platform MQTT client, developed based on the socket API, can be used on embedded devices (FreeRTOS / LiteOS / RT-Thread / T…...

百度网盘Mac版破解插件:免费解锁SVIP高速下载完整指南

百度网盘Mac版破解插件:免费解锁SVIP高速下载完整指南 【免费下载链接】BaiduNetdiskPlugin-macOS For macOS.百度网盘 破解SVIP、下载速度限制~ 项目地址: https://gitcode.com/gh_mirrors/ba/BaiduNetdiskPlugin-macOS 还在为百度网盘Mac版下载速度缓慢而困…...

VideoDownloadHelper:打破视频下载壁垒的智能浏览器插件

VideoDownloadHelper:打破视频下载壁垒的智能浏览器插件 【免费下载链接】VideoDownloadHelper Chrome Extension to Help Download Video for Some Video Sites. 项目地址: https://gitcode.com/gh_mirrors/vi/VideoDownloadHelper 在信息爆炸的时代&#x…...

从零到一:打造属于你的智能语音助手完整方案

从零到一:打造属于你的智能语音助手完整方案 【免费下载链接】xiaozhi-esp32-server 本项目为xiaozhi-esp32提供后端服务,帮助您快速搭建ESP32设备控制服务器。Backend service for xiaozhi-esp32, helps you quickly build an ESP32 device control ser…...

T153核心板RISC-V实时核实战:从架构解析到电机控制应用

1. 项目概述:当RISC-V遇上实时性,T153核心板能做什么?最近几年,RISC-V架构在嵌入式领域的热度持续攀升,从最初的学术研究到如今在工业控制、物联网终端等场景的落地,其开放、灵活、可定制的特性吸引了无数开…...

Gopher360:如何用游戏手柄轻松控制您的Windows电脑?免费开源控制器映射工具完整指南

Gopher360:如何用游戏手柄轻松控制您的Windows电脑?免费开源控制器映射工具完整指南 【免费下载链接】Gopher360 Gopher360 is a free zero-config app that instantly turns your Xbox 360, Xbox One, or even DualShock controller into a mouse and k…...

Focus-DETR:基于前景特征选择的高效目标检测模型解析

1. 项目概述与核心痛点目标检测,这个计算机视觉领域的经典任务,如今正站在一个十字路口。一方面,以DETR(Detection Transformer)为代表的端到端检测范式,凭借其简洁优雅的架构和强大的性能,正迅…...

负载开关电路设计:从分立PMOS到集成芯片的选型与应用

1. 负载开关电路:从分立搭建到集成方案的全景解析在电路设计,尤其是电源管理领域,一个常见的需求是控制多个负载的供电通断。想象一下,你的系统里有主控MCU、传感器、通信模块和显示屏,你希望系统休眠时只保留MCU的待机…...

【限时解密】全球仅12家旅游公司跑通的AI Agent冷启动模型:含私有知识库构建SOP

更多请点击: https://codechina.net 第一章:【限时解密】全球仅12家旅游公司跑通的AI Agent冷启动模型:含私有知识库构建SOP 在旅游行业AI落地实践中,“冷启动难”长期制约Agent规模化部署——93%的试点项目因知识断层、意图歧义…...

Python EXE逆向工程架构解析:多格式可执行文件源码提取技术实现

Python EXE逆向工程架构解析:多格式可执行文件源码提取技术实现 【免费下载链接】python-exe-unpacker A helper script for unpacking and decompiling EXEs compiled from python code. 项目地址: https://gitcode.com/gh_mirrors/py/python-exe-unpacker …...

line_buffer + window_buffer架构

一、line buffer + win buffer架构说明 1.在图像算法处理中,line buffer + window buffer架构是非常普通使用的架构; 2.本次针对3*3的滤波,给出两种处理架构的设计方案 二、方案一步骤 ap_uint<8> window_buffer[3][3]; ap_uint<8> line_buffer[2][COLS]; …...

如何快速告别抢票焦虑:大麦抢票自动化工具的完整指南

如何快速告别抢票焦虑&#xff1a;大麦抢票自动化工具的完整指南 【免费下载链接】ticket-purchase 大麦自动抢票&#xff0c;支持人员、城市、日期场次、价格选择 项目地址: https://gitcode.com/GitHub_Trending/ti/ticket-purchase 你是否曾经为了抢到心仪演唱会门票…...

量子计算入门:从量子比特到量子退火,解析核心原理与实战路径

1. 项目概述&#xff1a;为什么我们需要理解量子计算&#xff1f;最近几年&#xff0c;量子计算这个词在科技圈的热度居高不下&#xff0c;从大公司的实验室到初创企业的融资新闻&#xff0c;似乎不谈点量子就落伍了。但说实话&#xff0c;很多讨论都停留在“量子霸权”、“算力…...

【独家首发】保险业首个AI Agent成熟度评估模型(5级量化标准+12项KPI基线数据)

更多请点击&#xff1a; https://intelliparadigm.com 第一章&#xff1a;【独家首发】保险业首个AI Agent成熟度评估模型&#xff08;5级量化标准12项KPI基线数据&#xff09; 该模型由国内头部保险科技联合实验室历时18个月实证研发&#xff0c;首次将AI Agent在核保、理赔、…...

微软Windows拆分:云AI战略转型下的业务重构与行业影响

1. 从“巨无霸”到“手术台”&#xff1a;微软拆分的深层逻辑与行业变局最近几年&#xff0c;关于微软可能进行业务拆分的讨论&#xff0c;就像科技行业的“月经帖”&#xff0c;每隔一段时间就会冒出来。但这一次&#xff0c;市场的风声似乎比以往任何时候都要紧。从“拆分Win…...

深入解析CPU L1/L2缓存:原理、性能影响与编程优化实战

1. 项目概述&#xff1a;从“快”字说起做性能调优或者写高性能代码的朋友&#xff0c;对“缓存”这个词一定不陌生。我们总在说&#xff0c;把数据放进缓存里&#xff0c;访问就快了。但缓存本身&#xff0c;尤其是离CPU核心最近的一级缓存&#xff08;L1 Cache&#xff09;和…...

从零到课标对齐:用Claude批量生成校本课程资源,72小时内完成一学期备课,你还在手动写?

更多请点击&#xff1a; https://intelliparadigm.com 第一章&#xff1a;从零到课标对齐&#xff1a;用Claude批量生成校本课程资源&#xff0c;72小时内完成一学期备课&#xff0c;你还在手动写&#xff1f; 教育数字化转型已进入深水区&#xff0c;一线教师却仍陷于“写教案…...

ADAS系统设计全解析:从传感器融合到域控制器实战

1. 项目概述与行业背景最近几年&#xff0c;但凡和汽车沾点边的行业&#xff0c;都绕不开“智能化”这三个字。作为一名在汽车电子和嵌入式系统领域摸爬滚打了十多年的工程师&#xff0c;我亲眼见证了从简单的倒车雷达&#xff0c;到如今能自动跟车、紧急刹车的ADAS系统&#x…...

华为麒麟芯片不外售背后的商业逻辑与技术护城河

1. 从一则新闻说起&#xff1a;麒麟芯片的“不对外”意味着什么前几天&#xff0c;华为轮值董事长徐直军先生在一次公开场合的发言&#xff0c;在科技圈里又激起了一阵讨论。他明确表示&#xff0c;华为“没有任何想法把麒麟芯片对外销售”。这句话乍一听&#xff0c;可能让不少…...

对比直接使用官方API体验Taotoken在稳定接入上的优势

&#x1f680; 告别海外账号与网络限制&#xff01;稳定直连全球优质大模型&#xff0c;限时半价接入中。 &#x1f449; 点击领取海量免费额度 对比直接使用官方API体验Taotoken在稳定接入上的优势 在长期将大模型能力集成到生产系统的实践中&#xff0c;开发者通常会面临一个…...

差点把用户数据泄漏给Claude Code后,我写了个 Rust 工具

两周前&#xff0c;我把公司的数据库接进了Claude Code&#xff0c;效率确实起飞了&#xff0c;直到我翻了一下会话记录。 两周前 公司的 PostgreSQL 数据库接进了Claude Code以后&#xff0c;AI 确实能干——帮我写迁移、联表、生成报表&#xff0c;效率直接起飞。 直到我随…...

告别手动下载烦恼!DouK-Downloader让抖音/TikTok数据采集变得简单

告别手动下载烦恼&#xff01;DouK-Downloader让抖音/TikTok数据采集变得简单 【免费下载链接】TikTokDownloader TikTok 发布/喜欢/合辑/直播/视频/图集/音乐&#xff1b;抖音发布/喜欢/收藏/收藏夹/视频/图集/实况/直播/音乐/合集/评论/账号/搜索/热榜数据采集工具/下载工具 …...

洛雪音乐音源配置完整教程:3分钟解锁全网无损音乐

洛雪音乐音源配置完整教程&#xff1a;3分钟解锁全网无损音乐 【免费下载链接】lxmusic- lxmusic(洛雪音乐)全网最新最全音源 项目地址: https://gitcode.com/gh_mirrors/lx/lxmusic- 洛雪音乐作为开源音乐播放器&#xff0c;通过灵活的音源配置功能&#xff0c;让用户能…...

VideoDownloadHelper:打破网页视频下载壁垒的智能解决方案

VideoDownloadHelper&#xff1a;打破网页视频下载壁垒的智能解决方案 【免费下载链接】VideoDownloadHelper Chrome Extension to Help Download Video for Some Video Sites. 项目地址: https://gitcode.com/gh_mirrors/vi/VideoDownloadHelper 你是否曾遇到过这样的困…...