Pytorch的一小步,昇腾芯片的一大步
Pytorch的一小步,昇腾芯片的一大步
相信在AI圈的人多多少少都看到了最近的信息:PyTorch最新2.1版本宣布支持华为昇腾芯片!
1、 发生了什么事儿?
在2023年10月4日PyTorch 2.1版本的发布博客上,PyTorch介绍的beta版本新特性上有一个PRIVATEUSE1特性是提高了第三方设备的支持,并说明了华为Ascend NPU(昇腾NPU芯片)的OSS小组已经成功将torch_npu整合进入PyTorch;
人话就是: pytorch原生支持的是CPU和CUDA,现在昇腾NPU也可以支持pytorch了;
-
**PyTorch2.1 发布了
PRIVATEUSE1新特性,PyTorch介绍的beta版本PRIVATEUSE1新特性,**主要目标是让PyTorch可以使用更多的硬件; -
PyTorch 2.1对华为昇腾芯片NPU的支持:简单理解就是华为的Ascend NPU(昇腾NPU芯片)的OSS小组通过PyTorch的
PRIVATEUSE1特性让PyTorch可以在华为的NPU芯片上运行

1.1 PyTorch的PRIVATEUSE1特性是什么?
- PyTorch不是一个完全的前后端分离的架构,但是可以从前后端分离的角度理解,其中前端负责用户交互,而后端处理计算任务;
- PyTorch的前端:主要有两个,一是Python前端:另一个是C++前端; Python前端是主要的接口,而C++前端为PyTorch机器学习框架提供了纯C++接口; Python API底层是基于C++代码库,提供了诸如张量和自动微分等基础数据结构和功能;
- PyTorch的后端:指的是执行前端定义操作的计算引擎。PyTorch支持多种后端,每种后端都针对特定的硬件或运行时进行了优化。例如,它有针对CUDA、cuDNN、MKL、MKLDNN、OpenMP等的后端。这些后端控制操作的行为,并且对于利用诸如GPU计算之类的硬件加速至关重要;
- PyTorch还允许自定义后端,用户可以使用torch.compile定义自己的后端。在追踪FX图后,可以通过TorchDynamo(torch.compile的图追踪组件)调用自定义后端中的后端函数;
PRIVATEUSE1特性就是PyTorch提供的一种定制后端的机制,主要是为了帮助开发者在PyTorch中集成新的计算后端,PRIVATEUSE1特性为集成新的计算后端提供了一个结构化的方法。通过此特性,开发者可以将特定于硬件的优化和实现集成到PyTorch中,从而获得更好的性能,特别是在针对特定硬件加速器(如GPU、NPU或FPGA)时;- 简单理解就是华为的Ascend NPU(昇腾NPU芯片)的OSS小组通过PyTorch的
PRIVATEUSE1特性让PyTorch可以在华为的NPU芯片上运行。
1.2、 PyTorch2.1在华为NPU运行方式
参考官网,非常简单,代码如下:
torch.rename_privateuse1_backend("my_hardware_device")
torch.utils.generate_methods_for_privateuse1_backend()
x = torch.randn((2, 3), device='my_hardware_device')
y = x + x # run add kernel on 'my_hardware_device'
虽然通过插件(之前昇腾自己fork维护的)的形式官方支持了第三方硬件NPU,还有个极大的问题,我们可以看看PyTorch Adapter,版本配套关系及其离谱,就支持了三个pytorch版本,版本配套表一个电脑屏幕都放不下,昇腾在面向开发者文档上还是要多下功夫啊,感觉是研发根据自己的开发环境写的文档,和mindspore文档一样的问题(改天有时间再写),对于一个开发者文档是相当重要的,新手直接劝退…
另外,有意思的是,这个Pytorch Adapter在gitee上也开源了,但是文档不是同步更新,且内容逻辑是不一样的,大家可以去查查看;
gitee上的:PyTorch与Python版本配套表
| PyTorch版本 | Python版本 |
|---|---|
| PyTorch1.8.1 | Python3.7.x(3.7.5及以上)、Python3.8.x、Python3.9.x |
| PyTorch1.11.0 | Python3.7.x(3.7.5及以上)、Python3.8.x、Python3.9.x、Python3.10.x |
| PyTorch2.0.1 | Python3.8.x、Python3.9.x、Python3.10.x |
github上的:版本配套表
| PyTorch Version | Python Version |
|---|---|
| PyTorch1.8.1 | Python3.7.x(>=3.7.5),Python3.8.x,Python3.9.x |
| PyTorch1.11.0 | Python3.7.x(>=3.7.5),Python3.8.x,Python3.9.x,Python3.10.x |
| PyTorch2.0.1 | Python3.8.x,Python3.9.x,Python3.10.x |
| PyTorch2.1.0 | Python3.8.x,Python3.9.x,Python3.10.x |
2、 对pytorch和第三方芯片厂商(昇腾)有啥好处?
2.1 是原生支持了昇腾吗?

先通过【paperwithcode】看下目前市场上论文基于不同AI框架实现的框架占比情况来看,Pytorch依旧是作为一哥的存在;并且底层硬件基本都是英伟达,那么如果一个新硬件厂商想要支持Pytorch如何做呢?
我们先看看特斯拉咋做的:

正常来说:
1、 通过ONNX/torchscript作为中转来实现插件,但对于优化和开发效率有极大的影响;
2、 fork下pytorch,适配自己的硬件后并持续维护,但大家要知道Pytorch是按月发版本的,客户无法使用新特性,那硬件厂商的适配要吐血。。。
两种方式都会让使用新硬件的客户抓狂,那此次特性的更新,对于昇腾来说,其实是利好的,pytorch增加了PrivateUse1特性,相当于不用fork了!
但我们得看下其实也不是算原生支持,其实从1.1、1.2 的描述来看,pytorch增加了PrivateUse1特性,这样做可以降低对新硬 XPU 件的支持门槛,而PyTorch在做前后端做进一步的分离,以支持多硬件时代,芯片厂商实现后端后可以无缝切换;
为了验证这个功能呢,华为昇腾pytorch团队基于自己维护的torch_npu项目做了个新的后端,并且成功在torch 2.1中调用昇腾的npu;
注:彩蛋
GRAPHCORE发了一个PR(来源)增加IPU专用的DispatchKey通过了,有趣的是,一个多月后,昇腾希望在pytorch中加入NPU专用的DispatchKey(来源),但pytorch团队以PrivateUse1特性马上要支持了为由给拒绝了,昇腾还是慢了些啊,估计好气啊。。。
注:GRAPHCORE:拟未是一家人工智能芯片公司,为人工智能打造计算机系统,这些系统由先进的智能处理器(IPU)提供动力,旨在满足人工智能独特的计算要求。2016年,公司正式成立,总部位于英国布里斯托。2019年,公司在北京设立公司中国总部,并确定中文名“拟未”。目前,拟未已经设立了北京、上海、深圳和新竹办公室。
2.2对于pytorch的好处和挑战是什么?
- 好处:
进一步稳固pytorch的大哥的市场地位,难以撼动,pytorch本身也希望屏蔽硬件的差异,估计希望做到所有用户的一套代码对底层硬件无感知;估计后续pytorch的设备列表会越来越长…
- 挑战:
抛开对第三方硬件的支持这个特性,LLM领域对pytorch的冲击还是有的,当前pytorch对分布式训练的支持…
目前大厂都是pytorch+DeepSpeed/Megatron三件套在玩,大模型时代的对并行框架的需求已经是必需品了,如果只是一个pytorch那在LLM时代是没有意义的;
等等,哟,昇腾有AscendSpeed,据我所知MindSpore是把并行能力集成到框架本身,那么AscendSpeed就是DeepSpeed/Megatron等并行框架的插件咯,和适配pytorch是一个套路;好像也是没办法的办法~
2.3 对于第三方芯片厂商(昇腾)有的好处和挑战是什么?
- 好处:
对于pytorch来说是一小步,对于昇腾来说,解决了NPU支持pytorch的问题,算是生态上一大步,早就受不了第三方硬件上pytorch的各种适配和极低的开发效率;
- 挑战:
但torch_npu插件不是原生支持,会有几个较大的挑战:
1、版本更新:面对每季度release的pytorch,插件跟不上可能存在版本兼容性问题;
2、 第三方extension支持: 很多基于 torch 开发的项目本身也是一个 extension,默认一般都会有 CUDA 的支持,有的会有 CPU 的支持。也需要为新的硬件添加相应的kernel,可能的形式是做一个插件的插件,e.g. torchvision-xpu等等。如果前端 API 用法有些和 torch 不匹配的地方还要有自己的 modelzoo;
3、 **Test Coverage 的问题:**torch 本身的测试项目很多的,默认的测试不会跑非原生的 device,要保障质量是有一定难度的,毕竟 torch 用户那么多迭代了这么久才到现在的地步;
4、 LLM支持:大模型的爆发式增长,对新硬件的底层算子的支持有新的需求,如flashattension等大算子的支持,今天有flashattention,明天如果有另外一个算子的,昇腾还是要补齐基础算子的基础上,基于生态构建基于昇腾的优势算子,但昇腾的设备又没有2C端,终究在广大开发者生态上慢英伟达一拍。
加油啊,昇腾、加油啊dojo、加油啊~
天下苦英伟达久矣~
参考
1、 https://www.zhihu.com/question/624955377/answer/3239829901
2、 https://gitee.com/ascend/pytorch
相关文章:
Pytorch的一小步,昇腾芯片的一大步
Pytorch的一小步,昇腾芯片的一大步 相信在AI圈的人多多少少都看到了最近的信息:PyTorch最新2.1版本宣布支持华为昇腾芯片! 1、 发生了什么事儿? 在2023年10月4日PyTorch 2.1版本的发布博客上,PyTorch介绍的beta版本…...
C语言操作MySQL从入门到精通
大家好,我是 V 哥。今天给大家整理的内容是关于使用 C 语言操作 MySQL 数据库的详细介绍,从入门到精通,并配有案例代码和注释,帮助小白快速上手。 基本操作 1. 环境准备 在开始之前,你需要安装 MySQL 数据库和 MySQ…...
【从零开始学习计算机科学】编译原理(五)语法制导翻译
【从零开始学习计算机科学】编译原理(五)语法制导翻译 语法制导翻译语法制导定义SDDSDD的求值顺序两类重要的SDD语法制导的翻译方案SDTSDT的实现L属性定义的SDT左递归翻译方案语法制导翻译 语法表述的是语言的形式,或者说是语言的样子和结构。而程序设计语言中另一方面,是…...
uniapp uview 1.0 跨域h5配置多个代理、如何请求接口
参考文章:uniapp uView1.0跨域h5配置多个代理 官方手册:http 请求 项目中使用: 参考其他博主的文章是在manifest.json中配置代理,但在官方的手册中是直接在script请求的,我尝试请求了下没问题,上线后也不…...
化工厂防爆气象站:为石油化工、天然气等领域提供安全保障
【TH-FB02】在石油化工、天然气等高危行业中,安全生产是至关重要的。这些行业常常面临着易燃易爆、有毒有害等潜在风险,因此,对气象条件的监测和预警显得尤为重要。化工厂防爆气象站作为一种专门设计用于这些特殊环境的气象监测设备ÿ…...
Android Glide 缓存模块源码深度解析
一、引言 在 Android 开发领域,图片加载是一个极为常见且关键的功能。Glide 作为一款被广泛使用的图片加载库,其缓存模块是提升图片加载效率和性能的核心组件。合理的缓存机制能够显著减少网络请求,降低流量消耗,同时加快图片显示…...
Mac安装Neo4j图数据库
通过Homebrew 安装(推荐) 打开mac终端: 1. 安装 Homebrew(如果尚未安装) /bin/bash -c "$(curl -fsSL https://raw.githubusercontent.com/Homebrew/install/HEAD/install.sh)"2. 安装 Neo4j brew insta…...
《A Gentle Introduction to Graph Neural Networks》-GNN的综述性论文
目录 一、什么数据可以表示成一张图 (1)什么是图? (2)如何表示图的属性 (3)images as graphs(将图片表示为图) (4)text as graphs(…...
[023-01-40].第40节:组件应用 - OpenFeign与 Sentinel 集成实现fallback服务降级
SpringCloud学习大纲 一、需求说明: 需求1:通过fallback属性进行统一配置 a.问题分析: 1.需要实现cloudalibaba-consumer-nacos-order83模块通过OpenFeign调用cloudalibaba-provider-payment9001 83服务通过OpenFeign调用 9001微服务&…...
设计模式-结构型模式-装饰器模式
概述 装饰器模式 : Decorator Pattern : 是一种结构型设计模式. 作用 : 允许你动态地给对象添加功能或职责,而无需修改其原始类的代码,非常的符合 开闭原则。 实现思路 :通过创建一个包装对象(即装饰器),来…...
RK3588 编译 openssl
在编译 OpenSSL 时,你需要确保你的系统环境已经配置好了所有必要的依赖和编译工具。下面是一般步骤和一些常见问题的解决方案,特别是在使用 RK3588 这类的 ARM 处理器上。 1. 安装依赖 首先,你需要安装编译 OpenSSL 所需的依赖。这通常包括编译器(如 GCC)、make 工具、Per…...
Git前言(版本控制)
1.Git 目前世界上最先进的分布式版本控制系统。 git官网:https://git-scm.com/ 2.版本控制 2.1什么是版本控制 版本控制(Revision control)是一种在开发的过程中用于管理我们对文件、目录或工程等内容修改历史,方便查看更改历史记录备份以便恢复以前…...
visual studio配置opencv
文章目录 step1 下载opencvstep2 配置包含目录step 3 配置链接器step4 配置环境变量并重启vs2022step5 检查代码 step1 下载opencv 下载 opencv-4.8.0-windows.exe https://cloud.189.cn/web/share?codefUnqEb7naUra step2 配置包含目录 step 3 配置链接器 step4 配置环境变…...
docker修改daemon.json文件后无法启动
1.问题描述 使用阿里云docker镜像安装的docker,安装成功后默认可以启动。但是修改daemon.json配置后docker服务无法启动,提示如下错误: 从上图发现,docker服务默认使用阿里docker镜像仓库 2.解决方法 根据提示找到docker服务目…...
Linux网络:网络与操作系统1
本文是介绍网络的基本结构,以及和OS之间有什么关系 OSI七层模型 引入 使用网络是为了解决信息的长距离传送,那就需要解决四个问题: 接收方如何使用数据传输的可靠性主机如何定位数据包在局域网如何转发 人们选择用网络协议(t…...
Manus(一种AI代理或自动化工具)与DeepSeek(一种强大的语言模型或AI能力)结合使用任务自动化和智能决策
一、Manus与DeepSeek差异 十分好奇DeepSeek和Manus究竟谁更厉害些,DeepSeek是知识型大脑,Manus则是全能型执行者。即DeepSeek专注于语言处理、知识整合与专业文本生成。其核心优势在于海量参数支持的深度学习和知识推理能力,例如撰写论文、润…...
Python个人学习笔记(14):函数(匿名函数、内置函数(下)、三元表达式)
九、匿名函数 lambda表达式 语法规则: 变量 lambda 参数1,参数2,…:返回值 例:用lambda简化下述操作 def func(a,b):return ab ret func(1, 2) print(ret)代码: fn lambda a,b:ab print(fn) print(fn(12,13))结果: <fun…...
姚安娜新剧瘦了一圈,《仁心俱乐部》急诊医生顾诗宜在线上岗
《仁心俱乐部》在芒果 TV 播出,湖南卫视金鹰独播剧场也随之播出,这一剧集受到了不少观众的关注。姚安娜在剧中饰演的急诊科医生顾诗宜,她为患者检查身体时动作娴熟,与患者沟通时展现出的耐心和专注,都展现出很高的专业…...
【PyCharm】Python和PyCharm的相互关系和使用联动介绍
李升伟 整理 Python 是一种广泛使用的编程语言,而 PyCharm 是 JetBrains 开发的专门用于 Python 开发的集成开发环境(IDE)。以下是它们的相互关系和使用联动的介绍: 1. Python 和 PyCharm 的关系 Python:一种解释型、…...
【ES6】基础特性总结
概述 仅个人使用,复习ES6的笔记,比较粗糙,仅适用于浏览器端。 数据类型 ES6(ECMAScript 2015)引入了一些新的数据类型和对现有数据类型的扩展。以下是ES6中数据类型的一个简要总结表格: 数据类型描述Nu…...
串口数据记录仪DIY,体积小,全开源
作用 产品到客户现场出现异常情况,这个时候就需要一个日志记录仪、黑匣子,可以记录产品的工作情况,当出现异常时,可以搜集到上下文的数据,从而判断问题原因。 之前从网上买过,但是出现过丢数据的情况耽误…...
无障碍阅读(Web Accessibility)NVDA打开朗读查看器后,enter键不生效的原因
用NVDA测试Web Accessibility时,打开朗读查看器,enter键会无效,而不打开测试器,就没有问题,很大原因是被应用的元素不是可聚焦的,解决方法尝试: 将标签改为可聚焦的语义化标签,如 b…...
基于docker+python+paddleocr构建自己本地化ocr服务
1、使用FastAPI创建服务实例 1.1、正常程序 from fastapi import FastAPI, UploadFile, File, HTTPException from typing import List from paddleocr import PaddleOCR import numpy as np from PIL import Image import io import loggingapp FastAPI(title"游戏截图…...
【视频】V4L2、ffmpeg、OpenCV中对YUV的定义
1、常见的YUV格式 1.1 YUV420 每像素16位 IMC1:YYYYYYYY VV-- UU– IMC3:YYYYYYYY UU-- VV– 每像素12位 I420: YYYYYYYY UU VV =>YUV420P YV12: YYYYYYYY VV UU =>YUV420P NV12: YYYYYYYY UV UV =>YUV420SP(最受欢迎格式) NV21: YYYYYYYY VU VU =>YUV420SP…...
歌词相关实现
歌词相关 歌词数据模型: // Lyric.swift class Lyric: BaseModel {/// 是否是精确到字的歌词var isAccurate:Bool false/// 所有的歌词var datum:Array<LyricLine>! }// LyricLine.swift class LyricLine: BaseModel {/// 整行歌词var data:String!/// 开始…...
51单片机Proteus仿真速成教程——P1-软件与配置+Proteus绘制51单片机最小系统+新建程序模版
前言:本文主要围绕 51 单片机最小系统的绘制及程序模板创建展开。首先介绍了使用 Proteus 绘制 51 单片机最小系统的详细步骤,包括软件安装获取途径、工程创建、器件添加(如单片机 AT89C51、晶振、电容、电阻、按键等)、外围电路&…...
使用 pytesseract 进行 OCR 识别:以固定区域经纬度提取为例
引言 在智能交通、地图定位等应用场景中,经常会遇到需要从图像中提取经纬度信息的需求。本篇文章将介绍如何利用 Python 的 pytesseract 库结合 PIL 对图像进行预处理,通过固定区域裁剪,来有效地识别出图像上显示的经纬度信息。 1. OCR 与 …...
【18】单片机编程核心技巧:变量赋值与高位填充机制
【18】单片机编程核心技巧:变量赋值与高位填充机制 七律 变量赋值探秘 单字赋多字疑云开,高位零填自天来。 清零保守虽稳妥,强制转换更悠哉。 实验验证真章显,编译器间无异态。 嵌入式海行舟稳,类型分明避坑台。 注释…...
网络安全系统集成
随着信息技术的迅猛发展,网络安全问题变得越来越突出。为了应对这一挑战,软考网络安全系统集成应运而生,成为众多企业和机构的重要需求。软考网络安全系统集成旨在培养具备网络安全系统设计、实施和维护能力的专业人才,以满足国家…...
【51单片机】程序实验15.DS18B20温度传感器
主要参考学习资料:B站【普中官方】51单片机手把手教学视频 开发资料下载链接:http://www.prechin.cn/gongsixinwen/208.html 单片机套装:普中STC51单片机开发板A4标准版套餐7 目录 DS18B20介绍主要特性内部结构控制时序初始化时序写时序读时序…...
