模型GPU->NPU(Ascend)迁移训练简述
目录
一、迁移训练流程图解
二、详细流程步骤
1. 模型训练与日志记录
2. 跨平台精度对齐对比
3. 问题定位与修复
4. 迭代验证
三、关键技术点
四、常见问题与解决方案
一、迁移训练流程图解
通过华为云的modelart进行运行环境选型



北京四使用GPU进行模型训练,生成gpulog.json文件,记录损失函数等信息。然后,使用ptdbg_ascend工具进行精度收集,生成dump文件,由于文件过大,上传到obs桶。
贵阳一使用Ascend进行模型训练,同样生成gpulog.json文件,记录损失函数等信息。使用ptdbg_ascend工具进行精度收集,生成dump文件,然后下载到本地。
接下来,对比北京四和贵阳一的dump文件,确保精度对齐。如果发现问题,生成报告并修改代码。这个流程的目的是确保不同硬件平台上的模型训练精度一致。
二、详细流程步骤
1. 模型训练与日志记录
-
北京四(GPU平台)
-
模型训练:使用
GLM-6B模型在GPU上进行训练,生成训练日志文件gpulog.json,记录损失函数(Loss)、学习率(LR)等关键指标。 -
精度数据收集:通过
ptdbg_ascend工具,收集训练过程中各层的中间计算结果(如权重、梯度、激活值),生成dump文件。 -
文件上传:由于
dump文件体积庞大(超过100M),将其上传至华为云OBS桶(如obs://glm6b-dump/beijing_gpu/)。
-
-
贵阳一(Ascend平台)
-
模型训练:在Ascend芯片上训练相同架构的
GLM-6B模型,同样生成gpulog.json日志文件。 -
精度数据收集:使用
ptdbg_ascend工具生成dump文件,记录Ascend平台的计算结果。 -
文件下载:将
dump文件从云端下载至本地目录(如./guiyang_ascend/)。
-
2. 跨平台精度对齐对比
-
对比目标:验证GPU与Ascend平台的模型计算结果是否一致,避免硬件差异导致精度偏差。
-
对比方法:
-
文件预处理:
-
提取
dump文件中的关键数据(如某层的输出张量)。 -
转换数据格式为统一的标准化格式(如Numpy数组)。
-
-
精度比对:
-
使用工具(如
numpy.allclose()或自定义脚本)逐层对比GPU与Ascend的中间结果。 -
设置误差容忍阈值(如绝对误差
atol=1e-5,相对误差rtol=1e-3)。
-
-
结果分析:
-
标记不一致的层或操作(如矩阵乘法、激活函数)。
-
生成对比报告,记录差异位置和误差值。
-
-
3. 问题定位与修复
-
报告生成:
-
若发现显著差异(如某层误差超过阈值),自动生成对比报告,包含:
-
差异层名称(如
layer4.conv1) -
最大误差值(如
max_diff=0.012) -
硬件平台差异分析(如GPU FP16与Ascend FP32的精度差异)
-
-
-
代码修复:
-
场景1:硬件兼容性问题
-
调整模型代码,适配Ascend的算子(如替换
torch.nn.functional.conv2d为Ascend专用API)。
-
-
场景2:数值精度问题
-
强制统一计算精度(如均使用FP32训练)。
-
-
场景3:随机性差异
-
固定随机种子(如设置
np.random.seed(42)和torch.manual_seed(42))。
-
-
4. 迭代验证
-
重新训练与验证:
-
修复代码后,重新在GPU和Ascend平台训练模型。
-
重复
dump文件生成、对比、分析流程,直至精度对齐达标。
-
-
自动化集成:
-
将精度对比脚本集成到CI/CD流水线中,实现自动化验证。
-
三、关键技术点
-
ptdbg_ascend工具
-
用于在Ascend平台捕获模型前向传播和反向传播的中间结果。
-
支持按层或按操作筛选
dump数据,灵活控制输出粒度。
-
-
OBS桶管理
使用华为云OBS存储大体积dump文件,支持多平台共享与版本控制。 -
误差分析工具
开发自定义脚本或使用开源工具(如TensorBoard、DeepDiff)进行数据对比。 -
跨平台兼容性设计
在代码中抽象硬件相关操作,例如:-
if platform == 'Ascend': from ascend_op import CustomConv2d else: import torch.nn.functional as F
-
四、常见问题与解决方案

1. 中间结果差异过大
-
问题描述
在对比GPU和Ascend的dump文件时,发现某些层的输出张量差异显著(如误差超过1e-3),导致模型最终精度不一致。 -
可能原因
-
硬件浮点精度差异:
GPU默认可能使用FP16混合精度训练,而Ascend可能以FP32执行,不同精度下计算的舍入误差累积后差异放大。 -
框架实现差异:
某些算子(如矩阵乘法、激活函数)在PyTorch(GPU)和昇腾(Ascend)中的底层实现不同。
-
-
解决方案
-
统一计算精度:
强制所有平台使用FP32精度训练,避免混合精度带来的误差。
代码示例(PyTorch):# 禁用自动混合精度(AMP) with torch.cuda.amp.autocast(enabled=False): # GPUoutput = model(input)
Ascend平台:在训练脚本中关闭FP16优化选项。
-
误差容忍调整:
在对比工具中放宽相对误差(如设置rtol=1e-3),允许硬件差异导致的微小偏差。
-
2. 特定层无输出
-
问题描述
在Ascend平台上,某些模型层(如自定义卷积层)的dump文件中无数据输出,导致对比流程中断。 -
可能原因
-
算子不支持:
Ascend未实现某些PyTorch原生算子(如torch.nn.functional.grid_sample),导致前向传播中断。 -
动态形状适配问题:
模型输入张量的动态形状(如可变尺寸)在Ascend上未适配。
-
-
解决方案
-
替换为等效算子:
使用昇腾提供的替代算子库(如ascend_op)覆盖不兼容的操作。
代码示例:# 原始代码(GPU) import torch.nn.functional as F output = F.conv2d(input, weight)# 修改后(Ascend) from ascend_op import CustomConv2d # 昇腾自定义卷积 output = CustomConv2d.apply(input, weight)
-
静态形状固定:
在训练前固定输入张量的形状,或在代码中添加动态形状适配逻辑。
-
3. 随机性导致结果不一致
-
问题描述
即使模型结构和输入数据完全相同,GPU和Ascend的训练结果仍存在随机性差异(如损失函数波动)。 -
可能原因
-
未固定随机种子:
权重初始化、数据加载顺序、Dropout层等环节引入随机性。 -
并行计算差异:
GPU和Ascend在多卡训练时的并行策略不同(如数据分片方式)。
-
-
解决方案
-
全局固定随机种子:
在代码开头统一设置随机种子,确保可复现性。
代码示例:import torch import numpy as np# 固定随机种子 torch.manual_seed(42) # 权重初始化 np.random.seed(42) # 数据预处理 torch.cuda.manual_seed_all(42) # GPU随机操作
-
禁用非确定性算法:
在PyTorch中禁用非确定性算法,避免硬件差异。torch.backends.cudnn.deterministic = True torch.backends.cudnn.benchmark = False
-
4. 文件对比耗时过长
-
问题描述
dump文件体积过大(如超过100GB),逐层对比所有数据点耗时过长,影响开发效率。 -
可能原因
-
全量数据对比:
逐点比对所有中间结果的计算值(如百万级张量元素)。 -
单线程处理:
未利用多核或分布式计算加速对比过程。
-
-
解决方案
-
分层抽样对比:
仅抽取关键层(如最后一层或误差敏感层)的部分数据进行快速验证。
代码示例:def compare_samples(layer_data_gpu, layer_data_ascend, sample_ratio=0.1):# 随机抽取10%的数据点对比samples = np.random.choice(len(layer_data_gpu), int(len(layer_data_gpu)*sample_ratio)max_diff = np.max(np.abs(layer_data_gpu[samples] - layer_data_ascend[samples]))return max_diff
-
启用并行处理:
使用多进程或分布式框架(如Dask)加速对比。
代码示例:from concurrent.futures import ProcessPoolExecutordef parallel_compare(layers_gpu, layers_ascend):with ProcessPoolExecutor() as executor:results = list(executor.map(compare_layers, layers_gpu, layers_ascend))return results
-
相关文章:
模型GPU->NPU(Ascend)迁移训练简述
目录 一、迁移训练流程图解 二、详细流程步骤 1. 模型训练与日志记录 2. 跨平台精度对齐对比 3. 问题定位与修复 4. 迭代验证 三、关键技术点 四、常见问题与解决方案 一、迁移训练流程图解 通过华为云的modelart进行运行环境选型 北京四使用GPU进行模型训练ÿ…...
skywalking实现原理
SkyWalking 是一个开源的分布式应用性能监控(APM)系统,主要用于微服务、云原生应用的性能监控、追踪和故障诊断。其实现原理涉及多个核心模块和技术,以下是 SkyWalking 的实现原理概述: 1. 采集数据(数据收…...
sql语言语法的学习
sql通用语法 sql分类 DDL(操作数据库和表) 操作数据库 操作表_查询 操作表_创建 举例: 操作表_删除 操作表_修改 DML(增删改表中数据) DML添加数据 DML删除数据...
3.buuctf [BSidesCF 2019]Kookie
进入题目页面如下 尝试弱口令密码登录,无果 显示无效密码 用题中给出的用户名和密码登录虽然成功但没得到flag 用burp suite抓包试试 看到username处显示cookie 题目说用admin登录 将username的值改为admin 拿到flag 最后拿到flag...
springboot245-springboot项目评审系统(源码+论文+PPT+部署讲解等)
💕💕作者: 爱笑学姐 💕💕个人简介:十年Java,Python美女程序员一枚,精通计算机专业前后端各类框架。 💕💕各类成品Java毕设 。javaweb,ssm…...
Dify+Ollama+DeepSeek部署本地大模型+知识库搭建
前言 上一篇文章《OllamaDeepSeek部署本地大模型》我们已经知道如何在本地搭建自己的大模型了,不过想要让大模型能够根据我们个人或者企业的数据情况做出精准的回答,我们还需要将自己的数据投喂给大模型才可以。本篇文章我们将会使用一个开源项目dify集…...
每日一题——不同路径的数目与矩阵最小路径和
机器人路径问题与矩阵最小路径和 1. 机器人路径问题题目描述示例示例 1示例 2 解题思路动态规划 代码实现复杂度分析 2. 矩阵的最小路径和题目描述示例示例 1示例 2 解题思路动态规划 代码实现复杂度分析 总结 1. 机器人路径问题 题目描述 一个机器人在 (m \times n) 大小的地…...
143,【3】 buuctf web [GYCTF2020]EasyThinking
进入靶场 一开始那个题目名字就想到了框架 扫描目录 访问后自动下载了 找源码 <?php namespace app\home\controller;use think\exception\ValidateException; use think\facade\Db; use think\facade\View; use app\common\model\User; use think\facade\Request; use …...
Windows逆向工程入门之栈指令与核心机制深度解析
公开视频 -> 链接点击跳转公开课程博客首页 -> 链接点击跳转博客主页 目录 Windows逆向工程入门:栈指令与核心机制深度解析 一、栈的核心概念与内存布局 二、栈操作指令详解 1. PUSH 与 POP 2. PUSHA/PUSHAD 与 POPA/POPAD 3. PUSHF/PUSHFD 与 P…...
腾讯混元hunyuan3d生成模型,本地搭建和使用
腾讯混元hunyuan3d生成模型,本地搭建和使用 腾讯混元hunyuan3d生成模型,本地搭建和使用一. 话不多说,我们直接上本地部署的详细步骤1. 将仓库拉到本地2. 下载2个模型, 注意这里推荐 先使用conda创建环境后在安装modelscope进行下载模型2.1 关于第一个模型我们要在 Hunyuan3D-1 …...
flutter image_cropper插件安装后 打包apk 报错命名空间问题
本篇文章主要讲解,Flutter安装完新依赖打包apk报错 A problem occurred configuring project ‘:image_cropper’. 命名空间问题的解决办法及原因说明。 日期:2025年2月15日 作者:任聪聪 一、报错现象: 报文信息: FAI…...
2025-2-15-4.5 链表(基础题)
文章目录 4.6 链表(基础题)206. 反转链表92. 反转链表II24. 两两交换链表中的节点 4.6 链表(基础题) 有一天我做题忽然发现要把一个数组完全倒着翻过来很费劲,今天看,链表为此而生啊。 206. 反转链表 题目…...
目标检测IoU阈值全解析:YOLO/DETR模型中的精度-召回率博弈与工程实践指南
一、技术原理与数学本质 IoU计算公式: IoU \frac{Area\ of\ Overlap}{Area\ of\ Union} \frac{A ∩ B}{A ∪ B}阈值选择悖论: 高阈值(0.6-0.75):减少误检(FP↓)但增加漏检(FN↑…...
免费大模型网站
腾讯元宝 腾讯元宝 秘塔搜索 秘塔搜索 超算互联网 超算互联网回答速度很慢 Chatbot Arena Chatbot Arena 大模型竞技场。...
【ISO 14229-1:2023 UDS诊断全量测试用例清单系列:第三节】
ISO 14229-1:2023 UDS诊断服务测试用例全解析(安全访问0x27服务) 作者:车端域控测试工程师 更新日期:2025-02-12 关键词:UDS安全访问、0x27服务、ISO 14229-1:2023、ECU安全验证 一、服务概述 安全访问服务࿰…...
macOS部署DeepSeek-r1
好奇,跟着网友们的操作试了一下 网上方案很多,主要参考的是这篇 DeepSeek 接入 PyCharm,轻松助力编程_pycharm deepseek-CSDN博客 方案是:PyCharm CodeGPT插件 DeepSeek-r1:1.5b 假设已经安装好了PyCharm PyCharm: the Pyth…...
java八股文-mysql
1. 索引 1.1 什么是索引 索引(index)是帮助Mysql高效获取数据的数据结构(有序).提高数据的检索效率,降低数据库的IO成本(不需要全表扫描).通过索引列对数据进行排序,降低数据排序成本,降低了CPU的消耗. 1.2 mysql索引使用的B树? 1. 没有使用二叉树,最坏情况o&…...
YOLO11环境搭建CUDA12.6
1.安装CUDA和cuDNN 1.1安装CUDA 1.1.1查看当前你的电脑显卡支持的最高CUDA版本,后面的安装不能超过它 通过命令的方式查看 输入nvidia-smi 1.1.2 下载CUDA 官网地址:CUDA Toolkit Archive | NVIDIA Developer 选择cuda_12.6.3 下载完成后,如下: 安装,一直下一步即可:…...
OpenEuler学习笔记(三十二):在OpenEuler上搭建项目管理平台
在OpenEuler上搭建一个支持网页和手持访问、且支持用户功能自定义的项目管理平台,可以选择多种开源工具。以下是基于 Redmine 的搭建方案,Redmine 是一个灵活的项目管理工具,支持网页和移动端访问,并且可以通过插件扩展功能。 1.…...
LabVIEW中的icon.llb 库
icon.llb 库位于 C:\Program Files (x86)\National Instruments\LabVIEW 2019\vi.lib\Platform 目录下,是 LabVIEW 系统中的一个重要库。它的主要功能是与图标相关的操作,提供了一些实用的 VI 用于处理 LabVIEW 图标的显示、修改和设置。通过该库&#x…...
React Hooks 的两个坑点
React Hooks 使用注意事项 Area: Hooks Date: February 10, 2025 Important: 🌟🌟🌟 React Hooks 注意事项 要点: useState 的初始化值 只在第一次渲染时计算,并且这个值不会随着组件重新渲染而更新。useEffect 可…...
C语言的字符串偏移小记
通过C的指针,我们可以遍历一个很长的字符串。我们针对这个字符串可以按照字符串里面的终止符做切分。 首先我们来看下面的一段代码: #include <stdio.h> #include <stdlib.h> #include <stdio.h> #include <string.h>const ch…...
Python学习心得正则表达式及re模块的使用
一、正则表达式定义以及正则表达式的构成: 1.什么式正则表达式: 正则表达式:是一个比较特殊的字符序列,能够帮助用户检查一个字符串是否符合某种特殊的模式。 2.正则表达式的构成: 正则表达式是由元字符和限定字符…...
Oracle启动与关闭(基础操作)
11g读取参数文件的顺序 9i之前,只有静态参数文件pfile文件。 9i开始,引入了动态参数文件spfile文件。 Windows: %ORACLE_HOME%\database SPFILEORCL就是动态参数文件 Linux: $ORACLE_HOME/dbs 11g中,启动数据库。…...
第二月:学习 NumPy、Pandas 和 Matplotlib 是数据分析和科学计算的基础
以下是一个为期 **1 个月(30 天)**的详细学习计划,精确到每天的学习内容和练习作业,帮助你系统地掌握 NumPy、Pandas 和 Matplotlib 的核心功能。 第 1 周:NumPy 基础 Day 1:NumPy 简介与数组创建 学习内…...
AI 语言模型发展史:统计方法、RNN 与 Transformer 的技术演进
引言 自然语言处理(NLP)是 AI 领域的重要分支,而语言模型(Language Model, LM)是 NLP 的核心技术。语言模型经历了从 统计方法 到 RNN(循环神经网络),再到 Transformer 的演进&…...
新版电脑通过wepe安装系统
官方下载链接 WIN10下载 WIN11下载 微PE 启动盘制作 1:选择启动盘的设备 2:选择对应的U盘设备,点击安装就可以,建议大于8g 3:在上方链接下载需要安装的程序包,放入启动盘,按需 更新系统 …...
Jmeter断言、关联、录制脚本
Jmeter断言 断言:让程序自动判断预期结果和实际结果是否一致 提示: Jmeter在请求的返回层面有个自动判断机制(响应状态码 2xx:成功,4xx/5xx:失败)但是请求成功了,并不代表结果一定正确,因此需要检测机制提…...
29、深度学习-自学之路-深入理解-NLP自然语言处理-做一个完形填空,让机器学习更多的内容程序展示
import sys,random,math from collections import Counter import numpy as npnp.random.seed(1) random.seed(1) f open(reviews.txt) raw_reviews f.readlines() f.close()tokens list(map(lambda x:(x.split(" ")),raw_reviews))#wordcnt Counter() 这行代码的…...
SpringBoot速成(12)文章分类P15-P20
1.新增文章分类 1.Postman登录不上,可以从头registe->login一个新的成员:注意,跳转多个url时,post/get/patch记得修改成controller类中对应方法上写的 2.postman运行成功: 但表中不更新:细节有问题: c是…...
