当前位置：首页 > news >正文

一次pytorch分布式训练精度调试过程

news 2026/5/18 12:12:10

现象: loss不下降

过程如下:

1.减少层数，准备最小复现环境
2.dropout设置为0，重复运行二次，对比loss是否一致
3.第二次迭代开始loss不一致
4.对比backward之后的梯度,发现某一个梯度不一致
5.dump得到所有算子的规模，单算子测试功能正常
6.怀疑是内存越界导致
7.排除通信库的问题，逐算子bypass
8.dump reduce_scatter的输入，发现每次都不样
9.在异常的时候pause进程,在python调用reduce_scatter的位置打印调用栈
10.定位到有问题的模块,是一个融合算子
11.用普通算子替换,结果一致
12.复测这个规模的融合算子功能正常
13.怀疑算子内部有内存踩踏行为
14.将输入类型从fp16改为fp32,结果正常
15.review该算子内部实现,确实有几行代码将输入当fp32处理

一次pytorch分布式训练精度调试过程

现象: loss不下降

过程如下:

相关文章：

一次pytorch分布式训练精度调试过程

STM32（GPIO）

python设计模式---观察者模式

【论文笔记】KAN: Kolmogorov-Arnold Networks 全新神经网络架构KAN，MLP的潜在替代者

【投稿资讯】区块链会议CCF C -- CoopIS 2024 截止7.10 附录用率

React Native 之开发环境搭建（一）

DS高阶：B树系列

第五百零三回

[动态规划] 完美覆盖

redis深入理解之实战

python设计模式---工厂模式

探索Vue 3.0中的v-html指令

anaconda 环境配置

DS：顺序表、单链表的相关OJ题训练（2）

上传到 PyPI

盛最多水的容器（双指针）

【深度学习】实验3 特征处理

MoneyPrinter国内版改造

C++ 派生类的引入与特性

Poe是什么？怎样订阅Poe？

观察 Taotoken 用量看板如何帮助团队清晰掌握 API 调用成本

开源智能体技术解析：从LangChain到自主抓取，构建自动化工作流

网盘下载新革命：九大平台一键直链，告别客户端束缚

Flutter GetX实战：从Provider迁移到GetX，我的开发效率提升了多少？

如何在Mac上轻松导出微信聊天记录：WeChatExporter完整指南

AICoverGen终极指南：5分钟用AI制作专业级翻唱歌曲

UEFITool解析指南：三步骤掌握固件逆向分析的核心技术

三维重建实时映射技术在智慧水利中的核心应用

Pandrator：基于Python的自动化内容生成与数据转换工具实践

Linux压缩归档与备份文件管理