当前位置: 首页 > news >正文

昇思MindSpore进阶教程--开发常见问题

大家好,我是刘明,明志科技创始人,华为昇思MindSpore布道师。
技术上主攻前端开发、鸿蒙开发和AI算法研究。
努力为大家带来持续的技术分享,如果你也喜欢我的文章,就点个关注吧

MindSpore官网提供了一份在使用MindSpore过程中的 FAQ ,本章也整理了一下在迁移文档中提及的常见问题及解决方法。

环境准备

Q: 如何搭建MindSpore环境?

A: MindSpore目前支持在昇腾、GPU、CPU等多种设备上运行,但在安装过程中需要注意选择配套的硬件平台、操作系统、Python版本,否则会出现很多不可预测的报错。详细可参考 安装指导 。

更多环境准备常见问题请参考 环境准备常见问题分析 。

模型分析与准备

Q: 如何查看MindSpore对迁移代码中的API支持程度?

A: 可以使用API自动扫描工具MindSpore Dev Toolkit(推荐),或手动查询API映射表进行分析。详细可参考 分析API满足度 。

数据处理

Q: 怎么将PyTorch的dataset转换成MindSpore的dataset

A: MindSpore和PyTorch的自定义数据集逻辑是比较类似的,首先需要用户先定义一个自己的 dataset 类,该类负责定义 initgetitemlen 来读取自己的数据集,然后将该类实例化为一个对象(如: dataset/dataset_generator ),最后将这个实例化对象传入 GeneratorDataset (mindspore用法)/ DataLoader (pytorch用法),至此即可以完成自定义数据集加载了。

而MindSpore在 GeneratorDataset 的基础上提供了进一步的 map -> batch 操作,可以很方便地让用户在 map 内添加一些其他的自定义操作,并将其 batch 起来。

对应的MindSpore的自定义数据集加载如下:

# 1 Data enhancement,shuffle,sampler.
class Mydata:def __init__(self):np.random.seed(58)self.__data = np.random.sample((5, 2))self.__label = np.random.sample((5, 1))def __getitem__(self, index):return (self.__data[index], self.__label[index])def __len__(self):return len(self.__data)
dataset_generator = Mydata()
dataset = ds.GeneratorDataset(dataset_generator, ["data", "label"], shuffle=False)
# 2 Customized data enhancement
dataset = dataset.map(operations=pyFunc, {other_params})
# 3 batch
dataset = dataset.batch(batch_size, drop_remainder=True)

Q: 为什么在迭代数据的时候会报错:“The actual amount of data read from generator xx is different from generator.len xx, you should adjust generator.len to make them match” ?

A: 在定义可随机访问数据集时, len 方法返回的结果一定要是真实的数据集大小,设置大了在 getitem 取值时会有越界问题。如数据集大小未确定,可以使用可迭代数据集,详见 自定义数据集 。

Q: 为什么在迭代数据的时候会报错:“Invalid Python function, the ‘source’ of ‘GeneratorDataset’ should return same number of NumPy arrays as specified in column_names, the size of column_names is:xx and number of returned NumPy array is:xx” ?

A: 这是因为GeneratorDataset的 column_names 参数指定的列名数量与 source 参数输出的数据数量不匹配。

Q: 使用 GeneratorDataset 或 map 进行加载/处理数据时,可能会因为语法错误、计算溢出等问题导致数据报错,如何进行排查和调试?

A: 观察报错栈信息,由报错栈信息大概定位到出错代码块,在出错的代码块附近添加打印或调试点,进一步调试。详细可参考 数据处理调试方法一 。

Q: 数据增强 map 操作出错,如何调试 map 操作中各个数据处理算子?

A: 可以通过单个算子执行的方式调试或者通过数据管道调试模式调试 map 操作。
Q: 在训练的时候,会获得非常多warning提示我们数据集性能较慢应该怎么处理?

A: 可以单独迭代数据集,查看每条数据的处理时间,以此判断数据集的性能如何。详细可参考 数据处理调试方法三 。

Q: 在对数据进行处理的过程中,如果因为计算错误、数值溢出等因素,产生了异常的结果数值,从而导致训练网络时算子计算溢出、权重更新异常等问题该怎么排查?

A: 关闭混洗,固定随机种子,确保可重现性,然后利用NumPy等工具快速校验结果。详细可参考 数据处理调试方法四 。

更多数据处理常见问题请参考 数据处理常见问题分析 以及迁移中的数据处理差异请参考 MindSpore和PyTorch的数据处理差异 。

梯度求导

Q: 如何自己实现算子的反向计算?

A: MindSpore提供了自动的梯度求导接口,该功能对用户屏蔽了大量的求导细节和过程。但如果有某些特殊场景,用户需要手动控制其反向的计算,用户也可以通过Cell.bprop接口对其反向进行定义。详细可参考 自定义Cell反向 。

Q: 如何处理梯度溢出造成训练不稳定的问题?

A: 网络溢出一般表现为loss Nan/INF,loss突然变得很大等。MindSpore提供 dump数据 获取到溢出算子信息。当网络中出现梯度下溢时,可使用loss scale配套梯度求导使用,详细可参考 loss scale ;当网络出现梯度爆炸时,可考虑添加梯度裁剪,详细可参考 梯度裁剪 。

调试调优

Q: 请问想加载PyTorch预训练好的模型用于MindSpore模型finetune有什么方法?

A: 需要把PyTorch和MindSpore的参数进行一一对应,因为网络定义的灵活性,所以没办法提供统一的转化脚本。

一般情况下,CheckPoint文件中保存的就是参数名和参数值,调用相应框架的读取接口后,获取到参数名和数值后,按照MindSpore格式,构建出对象,就可以直接调用MindSpore接口保存成MindSpore格式的CheckPoint文件了。

其中主要的工作量为对比不同框架间的parameter名称,做到两个框架的网络中所有parameter name一一对应(可以使用一个map进行映射),下面代码的逻辑转化parameter格式,不包括对应parameter name。

import torch
import mindspore as msdef pytorch2mindspore(default_file = 'torch_resnet.pth'):# read pth filepar_dict = torch.load(default_file)['state_dict']params_list = []for name in par_dict:param_dict = {}parameter = par_dict[name]param_dict['name'] = nameparam_dict['data'] = ms.Tensor(parameter.numpy())params_list.append(param_dict)ms.save_checkpoint(params_list,  'ms_resnet.ckpt')

Q: loss不收敛或精度不达标,该怎么定位?

A: 精度不达标一般体现在loss不收敛上。但是有很多复杂的原因可导致精度达不到预期,定位难度较大。这里提供几个指导链接供用户逐一排查问题。

Q: 模型训练过程中,第一个step耗时很长,该怎么优化?

A: 模型训练过程中,第一个step包含网络编译时长,如果想要优化第一个step的性能,可分析模型编译是否能进行优化。详细可参考 静态图网络编译性能优化 。

Q: 模型训练过程中,非首个step耗时很长,该怎么优化?

A: 模型训练过程中,非首个step的耗时包括迭代间隙、前反向计算和迭代拖尾,如果想要优化非首step的性能,需要先获取网络的迭代轨迹,再分析哪部分是性能瓶颈,最近进行性能优化。

详细可参考 性能调优指南 ;和 性能调试案例 。

Q: 加载标杆权重进行模型推理验证正向流程时,有warning警告显示权重未加载成功,该如何解决?

A: load_checkpoint过程中,如果有权重未加载上,MindSpore会给出warning提示,一般加载失败有两种原因:1、权重名称对不上;2、权重在网络中缺失。

如果权重名称对不上,需要打印MindSpore的权重名称和标杆的权重名称,看是否MindSpore的权重名称多了backbone或network等前缀,如果是,检查MindSpore在初始化 Cell 时是否加上auto_prefix=False。

如果权重名称缺失,需要分析是否合理,如果合理,可忽略告警提示,如果不合理,需要分析网络定义是否错误,进行定位修改。

Q: 迁移过程使用PyNative进行调测,流程成功,切换成Graph模式,为什么会出现一堆的报错?

A: PyNative模式下模型进行推理的行为与一般Python代码无异。但是切换成Graph模式时,MindSpore通过源码转换的方式,将Python的源码转换成中间表达IR(Intermediate Representation),并在此基础上对IR图进行优化,最终在硬件设备上执行优化后的图。

而这一步操作中MindSpore目前还未能支持完整的Python语法全集,所以construct函数的编写会存在部分限制。

如:PyNative模式下可直接判断某个Tensor值是否为0,但切换成Graph模式则会报错不支持。

if response == 0:return loss
return loss/response

遇到类似情况,可将代码修改为:

response_gt = max(response, ms.Tensor(1))
loss = loss/response_gt
return loss

相关文章:

昇思MindSpore进阶教程--开发常见问题

大家好,我是刘明,明志科技创始人,华为昇思MindSpore布道师。 技术上主攻前端开发、鸿蒙开发和AI算法研究。 努力为大家带来持续的技术分享,如果你也喜欢我的文章,就点个关注吧 MindSpore官网提供了一份在使用MindSpore…...

【Linux】Linux进程地址空间

1.程序地址空间分配回顾 在前⾯C语⾔以及C部分介绍过⼆者的内存分配如下图所示: 全局变量区和未初始化全局变量区也被称为数据区,数据区中除了有全局变 量,还有静态变量和常量 使⽤下⾯的代码演示不同的内容所处的地址: #includ…...

创建包含可导入浏览器信任的SSL自签名证书

问题:现在的三大浏览器,chrome、edge、firefox 一般都默认启用https检查,这就要求我们自建的局域网内的网址和其他诸如nextcloud、photoprism、tiddlywiki等应用也必须要有证书。解决方法是使用openssl自己生成一个。由此则会再衍生出一个问题…...

[Windows] 很火的开源桌面美化工具 Seelen UI v2.0.2

最近,一款来自Github的开源桌面美化工具突然在网上火了起来,引发了大家的关注,不少小伙伴纷纷开始折腾了起来。而折腾的目的,无非是为了一点点乐趣而已,至于结果如何,并不是最要紧的,反倒是体验…...

华帝携手抖音头部达人,金牌导演李力持量身打造厨电定制微短剧

10月21日,由华帝独家冠名,金牌导演李力持执导,抖音头部达人逆袭丁姐领衔主演,ATV亚洲电视、知行易达、抖音商城联合出品的24集现代家庭治愈美食定制微短剧《女厨神》上线抖音。 该剧讲述了热爱生活和美食的丁姐,为了家…...

监控易监测对象及指标之:JBoss 7.1.x中间件监控

监控易是一款功能全面的监控软件,能够实时追踪和分析各类IT资源的性能数据,提供及时的故障预警和性能报告。本文将对监控易针对JBoss 7.1.x中间件的监控指标进行深入解读,以帮助用户更好地理解和应用这些数据。 JBoss 7.1.x作为一款广泛使用的…...

Java 模拟退火算法

模拟退火算法(Simulated Annealing, SA)是一种用于全局优化的启发式搜索算法,它模仿了物理学中金属退火的过程。该算法在搜索空间中逐步降低“温度”,以寻找全局最优解。下面是一个用Java实现模拟退火算法的简单示例。 假设我们要…...

LeetCode[中等] 80. 删除有序数组中的重复项 II

给你一个有序数组 nums ,请你 原地 删除重复出现的元素,使得出现次数超过两次的元素只出现两次 ,返回删除后数组的新长度。 不要使用额外的数组空间,你必须在 原地 修改输入数组 并在使用 O(1) 额外空间的条件下完成。 public cl…...

机器学习5

1.1 决策树的定义 决策树是用于分类和回归的机器学习算法。它通过一系列的“是或否”的决策来分类数据。每个决策是基于数据的某个属性进行的,如“色泽是青绿吗?”。决策树的核心是通过树状结构,将一个复杂的问题逐步拆解为多个简单的二元问…...

【Python技术】利用akshare定时获取股票实时价,低于5日线钉钉通知报警

今天看了下大盘,临时有个想法,我想知道某个股票回踩5日线的价格,如果实时价格低于5日线通过钉钉报警通知我。 说干就干,临时撸了下简单的代码,仅做演示。 1、计算5日线思路 很多券商软件的MA5价格是近5个交易日收盘…...

LINUX1.2

1.一切都是一个文件 (硬盘) 2.系统小型 轻量型,300个包 3.避免令人困惑的用户界面 ------------------> 就是没有复杂的图形界面 4.不在乎后缀名,有没有都无所谓,不是通过后缀名来定义文件的类型(win…...

Proximal Distance Algorithm (近段距离算法)

文章目录 第一篇\section*{近端距离算法(Proximal Distance Algorithm)详解}\subsection*{1. MM原理(Majorization-Minimization Principle)}\subsection*{2. 近端距离算法(Proximal Distance Algorithm)}\…...

如何判断一个数是几位数与这个数是否为回文数并打印出其逆序数

1 问题 判断一个数是几位数与这个数是否为回文数并打印出其逆序数。 2 方法 先输入一个少于五位数的数用int的方法打出这个数的个十百千万的数字再用条件语句else-if来判断这个数是几位数,并打印其逆序数最后判断这个数是否为回文数,打印其数 通过实验、…...

Solon 之 STOMP

一、STOMP 简介 如果直接使用 WebSocket 会非常累,就像用 Socket 编写 Web 应用。没有高层级的交互协议,就需要我们定义应用间所发消息的语义,还需要确保连接的两端都能遵循这些语义。 如 HTTP 在 TCP 套接字之上添加了请求-响应模型层一样…...

在掌控板上搭建http服务器

在掌控板上搭建http服务器 打开Arduino IDE&#xff0c;并且已经添加了ESP32的支持库。以下是创建一个基本HTTP服务器的步骤&#xff1a; 包含必要的库&#xff1a; #include <WiFi.h> #include <WebServer.h>配置WiFi&#xff1a; 替换ssid和password为你的WiFi网…...

HCIA复习实验

实验要求 实验拓扑以及实验分析 第一步先划分网段 先对内网划分 192.168.1.0/24划分 192.168.1.0/26---骨干主线路 192.168.1.64/26---骨干备线路 ---192.168.1.128/25--vlan2 3汇总---便于减少路由表条目---在大型网络方便 192.168.1.128/26---vlan2 192.168.1.192/26---vla…...

生信软件39 - GATK最佳实践流程重构,提高17倍分析速度的LUSH流程

1. LUSH流程简介 基因组测序通常用于分子诊断、分期和预后&#xff0c;而大量测序数据在分析时间方面提出了挑战。 对于从FASTQ到VCF的整个流程&#xff0c;LUSH流程在非GVCF和GVCF模式下都大大降低了运行时间&#xff0c;30 X WGS数据耗时不到2 h&#xff0c;从BAM到VCF约需…...

c#编写的各类应用程序、类库的引用(黑白盒)

001 课程简介&#xff0c;C# 语言简介&#xff0c;开发环境准备 (yuque.com)https://www.yuque.com/yuejiangliu/dotnet/timothy-csharp-001 一个Solution里包含多个Project 一、见识 C# 编写的各类应用程序 二、类库的引用&#xff08;黑/白盒引用&#xff09; 1、黑盒引用&a…...

计算机网络考研笔记

...

用感性的方式浅要了解什么是AI 与 大模型

什么是人工智能&#xff08;AI&#xff09;&#xff1f; 人工智能&#xff08;Artificial Intelligence&#xff0c;简称 AI&#xff09;是指由人制造出来的具有一定智能的系统&#xff0c;能够理解和学习人类的行为&#xff0c;并在某些任务上模仿人类的智能行为。这些任务包…...

终极指南:GoldHEN Cheats Manager - PlayStation 4游戏作弊代码完整管理方案

终极指南&#xff1a;GoldHEN Cheats Manager - PlayStation 4游戏作弊代码完整管理方案 【免费下载链接】GoldHEN_Cheat_Manager GoldHEN Cheats Manager 项目地址: https://gitcode.com/gh_mirrors/go/GoldHEN_Cheat_Manager GoldHEN Cheats Manager 是一款专为PlaySt…...

Anomalib Padim模型训练完整踩坑记录:从环境配置、自制数据集准备到ONNX导出一步到位

Anomalib Padim模型实战&#xff1a;工业缺陷检测从零到ONNX部署全指南 工业质检领域正经历一场从传统人工检测到智能算法驱动的变革。想象一下&#xff0c;当生产线上的金属部件以每分钟数十个的速度通过摄像头时&#xff0c;如何确保每个产品表面没有细微划痕、凹陷或腐蚀&am…...

别再折腾虚拟机了!用Docker 5分钟搞定Oracle 10g测试环境(附阿里云镜像源)

5分钟极速部署Oracle 10g&#xff1a;Docker化开发环境实战指南 每次需要搭建Oracle测试环境时&#xff0c;你是否也经历过这样的痛苦&#xff1f;下载几个GB的安装包、配置复杂的系统参数、等待漫长的安装过程&#xff0c;最后可能还会遇到各种依赖问题。作为一名长期与Oracle…...

大一大二最容易忽视的一张“证书”,却悄悄决定了很多人的未来

很多大学生到了大三才突然发现一件事&#xff1a;有些机会&#xff0c;原来早在大一大二就已经埋好了门槛。比如——英语四六级。保研、考研复试、国企网申、研究生免修英语、甚至一些实习岗位筛选&#xff0c;很多时候都会看到同一行字&#xff1a;CET-4 / CET-6 成绩这张证书…...

C#实战:基于WebAPI与Modbus构建EMS核心采集服务

1. 为什么需要EMS核心采集服务&#xff1f; 在工业现场&#xff0c;我们经常会遇到几十台甚至上百台智能电表、传感器等设备需要监控。这些设备可能来自不同厂家&#xff0c;使用不同的通信协议&#xff0c;数据格式也各不相同。想象一下&#xff0c;如果每个设备都需要单独开发…...

OpenClaw技能扩展指南:为GLM-4.7-Flash添加自定义功能

OpenClaw技能扩展指南&#xff1a;为GLM-4.7-Flash添加自定义功能 1. 为什么需要自定义技能 去年冬天&#xff0c;当我第一次尝试用OpenClaw自动整理电脑上的照片时&#xff0c;发现现有的技能库无法满足我的特殊需求——按照拍摄地点和人物自动分类。这让我意识到&#xff0…...

Mysql是怎么加锁的?

原文地址https://www.xiaolincoding.com/mysql/lock/how_to_lock.html#%E4%BB%80%E4%B9%88-sql-%E8%AF%AD%E5%8F%A5%E4%BC%9A%E5%8A%A0%E8%A1%8C%E7%BA%A7%E9%94%81 我只是精简一下做个记录 这篇汇总将基于 MySQL 8.0 的 InnoDB 引擎&#xff0c;在 可重复读&#xff08;Repe…...

变压器绕组类型 | 高频变压器绕制要点

注&#xff1a;本文为 “变压器绕制” 相关合辑。 英文引文&#xff0c;机翻未校。 如有内容异常&#xff0c;请看原文。 图片清晰度受引文原图所限。 变压器绕组类型&#xff1a;圆筒式、螺旋式、交叉式与饼式绕组 Types of Transformer Windings: Cylindrical, Helical, Cro…...

CloudScraper 配置优化:如何提升采集效率与稳定性

在合规采集场景中&#xff0c;不少用户在使用CloudScraper时&#xff0c;频繁出现请求卡顿、采集中断等问题。 本篇文章&#xff0c;LokiProxy将为您系统梳理影响CloudScraper运行效率的关键环节&#xff0c;并结合实际场景提出可行的优化思路&#xff0c;助力用户在合规框架内…...

UE4.62生成sln时失败:Missing .../DotNET/UnrealBuildTool/UnrealBuildTool/UnrealBuildTool.exe

问题1&#xff1a; vs编译报错&#xff0c;以为是热加载&#xff0c;把项目的几个文件删了&#xff0c;想右键点击Generate Visual Studio Project Files重构&#xff0c;报错。 解决方法&#xff1a;: 是看m0_62179790这个博主解决的。 只要把下面这行东西添加到你自己的UE…...