当前位置: 首页 > article >正文

CANN 模型转换与适配:从 PyTorch 到 Ascend OM 的完整指南

模型转换是昇腾落地的第一道坎。不管你用 PyTorch、TensorFlow 还是 MindSpore最终都要变成 Ascend 的.om模型才能在 NPU 上跑。这篇文章讲清楚模型转换的完整流程、常见问题和优化技巧。为什么需要模型转换昇腾 NPU 不能直接运行 PyTorch 的.pt模型。原因有两个硬件指令集不同PyTorch 编译成的是 CUDA 指令昇腾用的是达芬奇架构的指令运行时不同PyTorch 用的是 CUDA 运行时昇腾用的是 AscendCL 运行时所以要把模型翻译成昇腾能认识的形式。模型转换的三条路路径 1PyTorch → ONNX → ATC → OM最常用 路径 2PyTorch → TorchScript → ATC → OM 路径 3TensorFlow/Paddle → ATC → OM推荐路径 1PyTorch → ONNX → ATC → OM。这是官方推荐的方式兼容性最好。路径 1PyTorch → ONNX → ATC → OM这是最常用的路径分两步完成。步骤 1PyTorch → ONNXimporttorchimporttorch.nnasnn# 定义一个简单的 Transformer 模型classSimpleTransformer(nn.Module):def__init__(self,vocab_size50000,hidden_dim768,num_heads12):super().__init__()self.embeddingnn.Embedding(vocab_size,hidden_dim)self.attentionnn.MultiheadAttention(hidden_dim,num_heads,batch_firstTrue)self.fcnn.Linear(hidden_dim,vocab_size)defforward(self,input_ids,attention_maskNone):xself.embedding(input_ids)attn_out,_self.attention(x,x,x,attn_maskattention_mask)logitsself.fc(attn_out)returnlogits# 实例化模型modelSimpleTransformer()model.eval()# 导出 ONNXdummy_inputtorch.randint(0,50000,(1,512))torch.onnx.export(model,dummy_input,transformer.onnx,input_names[input_ids,attention_mask],output_names[logits],dynamic_axes{input_ids:{0:batch,1:seq_len},attention_mask:{0:batch,1:seq_len},logits:{0:batch,1:seq_len,2:vocab}},opset_version14,do_constant_foldingTrue)步骤 2ONNX → OM使用 ATC 编译器# 基础转换命令atc--modeltransformer.onnx\--outputtransformer\--framework5\--soc_versionAscend910\--input_shapeinput_ids:[1,512]\--input_shapeattention_mask:[1,512]\--loginfoATC 核心参数详解参数说明常见值--model输入模型路径model.onnx--output输出模型路径不含扩展名model--framework输入框架类型5ONNX, 3TensorFlow, 0Caffe--soc_version目标芯片Ascend910,Ascend310--input_shape输入张量形状input_ids:[1,512]--precision_mode精度模式allow_fp16,force_fp16,allow_mixed_precision--dynamic_batch动态 batch1,2,4,8--dynamic_dims动态维度16,32,64动态 batch 示例# 支持 batch1,2,4,8atc--modeltransformer.onnx\--outputtransformer\--framework5\--soc_versionAscend910\--input_shapeinput_ids:[1,512]\--input_shapeattention_mask:[1,512]\--dynamic_batch1,2,4,8\--loginfo动态序列长度示例# 支持 seq_len16,32,64,128,256,512atc--modeltransformer.onnx\--outputtransformer\--framework5\--soc_versionAscend910\--input_shapeinput_ids:[1,512]\--input_shapeattention_mask:[1,512]\--dynamic_dims16,32,64,128,256,512\--loginfo常见转换问题与解决方案问题 1动态算子不支持# 错误ONNX 导出生成了动态输出形状# 现象ATC 报错 Input shape not fully specified# 解决 1在导出时指定静态形状dummy_inputtorch.randint(0,50000,(1,512))# 不要让 shape 变成动态的# 解决 2使用 opset_version13 并指定动态轴torch.onnx.export(model,dummy_input,model.onnx,dynamic_axes{input_ids:{1:seq_len}})# 然后在 ATC 中指定 --dynamic_dims问题 2算子不被支持# 现象ATC 报错 Not supported operator: xxx# 原因这个算子在 CANN 中没有实现# 解决 1替换成 CANN 支持的算子# 比如把 torch.nn.GELU 换成自定义的 GELU 算子# 解决 2使用 ASCFAscend Common Framework自定义算子# 参考https://atomgit.com/cann/ascf# 解决 3分模块转换classModelWithCustomOp(nn.Module):def__init__(self):super().__init__()self.encoderEncoder()# 能转换的部分self.custom_opCustomOp()# 不能转换的部分defforward(self,x):xself.encoder(x)xself.custom_op(x)# 这部分单独处理returnx# 分别转换能转换的部分问题 3精度下降# 现象转换后模型精度下降# 解决 1使用混合精度atc--modelmodel.onnx \--outputmodel \--framework5\--soc_versionAscend910 \--precision_modeallow_mixed_precision# 解决 2强制 FP32atc--modelmodel.onnx \--outputmodel \--framework5\--soc_versionAscend910 \--precision_modeforce_fp16# 解决 3开启算子级精度配置# 在模型代码中指定某些算子用 FP32classModel(nn.Module):torch.amp.autocast(device_typenpu,dtypetorch.float32)defforward(self,x):returnself.layer_norm(x)问题 4内存溢出# 现象ATC 转换过程中 OOM# 解决 1减小 batch size--input_shapeinput_ids:[1,512]# 解决 2开启模型优化atc--modelmodel.onnx\--outputmodel\--framework5\--soc_versionAscend910\--buffer_optimizeoptimize_for_memory# 解决 3使用图层融合atc--modelmodel.onnx\--outputmodel\--framework5\--soc_versionAscend910\--fusion_switch_filefusion_switch.cfg进阶自定义算子转换如果模型中有 CANN 不支持的算子需要自定义算子然后注册到 ATC。步骤 1编写 Ascend C 算子// custom_gelu.cpp#includeacl/acl.hexternCaclStatusCustomGeluCompute(void*inputs[],void*outputs[]){half*input(half*)inputs[0];half*output(half*)outputs[0];int32_tlength512;// 实际从 shape 获取for(inti0;ilength;i){floatx(float)input[i];floatx3x*x*x;floatttanh(0.7978845608f*(x0.044715f*x3));output[i](half)(0.5f*x*(1.0ft));}returnACL_SUCCESS;}步骤 2编译算子ascendc-ocustom_gelu.o-ccustom_gelu.cpp-targetai_coreascend910 ld-olibcustom_gelu.so custom_gelu.o -L${ASCEND_TOOLKIT_HOME}/lib -lstdc-lm步骤 3注册算子# 在模型转换时指定自定义算子路径atc--modelmodel.onnx \--outputmodel \--framework5\--soc_versionAscend910 \--op_select_implmodehigh_performance \--optypelist_for_implmodeCustomGelu:CustomGeluProc \--customop_dynamic_batch_strategy1\--insert_op_confcustom_op.cfg模型验证转换完成后验证模型正确性importnumpyasnpimportacl# 初始化 ACLacl.init()device_id0acl.rt.set_device(device_id)# 加载 OM 模型model_idacl.mdl.load_from_file(transformer.om)# 准备输入input_datanp.random.randint(0,50000,(1,512)).astype(np.int32)input_bufferacl.util.numpy_to_vec(input_data)# 执行推理outputsacl.mdl.execute(model_id,[input_buffer])# 验证输出print(outputs[0].shape)print(outputs[0])完整示例DeepSeek 模型转换# deepseek_convert.pyimporttorchfromtransformersimportDeepSeekForCausalLM# 1. 加载 PyTorch 模型print(Loading PyTorch model...)modelDeepSeekForCausalLM.from_pretrained(deepseek-ai/DeepSeek-7B)model.eval()# 2. 导出 ONNXprint(Exporting to ONNX...)dummy_inputtorch.randint(0,32000,(1,2048))torch.onnx.export(model,dummy_input,deepseek7b.onnx,input_names[input_ids],output_names[logits],dynamic_axes{input_ids:{0:batch,1:seq_len}},opset_version14,do_constant_foldingTrue)print(ONNX export done!)# 3. 转换 OMatc--modeldeepseek7b.onnx\--outputdeepseek7b\--framework5\--soc_versionAscend910\--input_shapeinput_ids:[1,2048]\--dynamic_batch1,2,4,8\--precision_modeallow_mixed_precision\--buffer_optimizeoptimize_for_memory\--loginfoechoOM conversion done! Output: deepseek7b.om相关资料cann-recipes-infer推理配方含模型转换示例 → https://atomgit.com/cann/cann-recipes-infercann-samples算子样例含自定义算子 → https://atomgit.com/cann/cann-samplesasc-devkitAscend C 开发 → https://atomgit.com/cann/asc-devkitcann-learning-hub学习中心 → https://atomgit.com/cann/cann-learning-hub

相关文章:

CANN 模型转换与适配:从 PyTorch 到 Ascend OM 的完整指南

模型转换是昇腾落地的第一道坎。不管你用 PyTorch、TensorFlow 还是 MindSpore,最终都要变成 Ascend 的 .om 模型才能在 NPU 上跑。 这篇文章讲清楚:模型转换的完整流程、常见问题和优化技巧。 为什么需要模型转换? 昇腾 NPU 不能直接运行 Py…...

SleeperX:macOS系统级电源管理架构解析与深度集成方案

SleeperX:macOS系统级电源管理架构解析与深度集成方案 【免费下载链接】SleeperX MacBook prevent idle/lid sleep! Hackintosh sleep on low battery capacity. 项目地址: https://gitcode.com/gh_mirrors/sl/SleeperX 在macOS生态系统中,电源管…...

丹麦语语音合成总不“像真人”?揭秘ElevenLabs最新v3.2引擎中未公开的3个丹麦语重音标记开关,限前200名开发者速查

更多请点击: https://intelliparadigm.com 第一章:丹麦语语音合成的“真人感”困局本质 丹麦语语音合成长期面临“真人感”缺失的核心挑战,其根源并非单纯的数据量不足或模型容量有限,而是深植于该语言独特的音系结构与韵律特征之…...

微信好友关系检测完整指南:快速找出谁删了你

微信好友关系检测完整指南:快速找出谁删了你 【免费下载链接】WechatRealFriends 微信好友关系一键检测,基于微信ipad协议,看看有没有朋友偷偷删掉或者拉黑你 项目地址: https://gitcode.com/gh_mirrors/we/WechatRealFriends 你是否曾…...

Midjourney范戴克印相实战手册(2024唯一认证工作流):从sref灰度映射到氯化银颗粒模拟全链路拆解

更多请点击: https://intelliparadigm.com 第一章:范戴克印相的历史溯源与数字再生哲学 范戴克印相(Van Dyke Brown printing)诞生于19世纪末,是铁银盐印相工艺的重要分支,以荷兰画家安东尼范戴克命名&am…...

Midjourney拟态风终极内参(2024.06最新版):含6类行业专属LORA融合权重表、11个失效规避checklist及3个已验证绕过--v 6.2限流机制的prompt结构

更多请点击: https://codechina.net 第一章:Midjourney拟态风的范式跃迁与v6.2限流本质解构 Midjourney v6.2 的发布并非一次简单的模型迭代,而是一场以“拟态风”(Mimetic Style)为内核的生成范式跃迁——其核心在于…...

对比直接调用与通过 Taotoken 调用的稳定性体验差异

🚀 告别海外账号与网络限制!稳定直连全球优质大模型,限时半价接入中。 👉 点击领取海量免费额度 对比直接调用与通过 Taotoken 调用的稳定性体验差异 作为一名长期使用各类大模型 API 的开发者,我在构建和运维应用时&…...

3个关键设置让Windows风扇控制软件发挥最佳性能

3个关键设置让Windows风扇控制软件发挥最佳性能 【免费下载链接】FanControl.Releases This is the release repository for Fan Control, a highly customizable fan controlling software for Windows. 项目地址: https://gitcode.com/GitHub_Trending/fa/FanControl.Relea…...

不止于指路,智慧导览如何重构公共空间价值

在过去很长一段时间里,公共空间的价值被简单地等同于功能性。一个公园只要有绿化和座椅,一个商场只要有商铺和电梯,一个政务大厅只要有窗口和座位,就被认为是合格的公共空间。然而,随着人们生活水平的提高和消费观念的…...

构建企业级 AI 编程助手(AI-OS)v1.0,集成 Matt Pocock 全套技能,实现零幻觉开发

告别单文件 Prompt:构建企业级 AI 编程助手(AI-OS)v1.0,集成 Matt Pocock 全套技能,实现零幻觉开发 引言:为什么你的 AI 编程总是“翻车”? 在使用 OpenCode、Cursor、Cline 等 AI 编程工具时&a…...

ElevenLabs海南话语音部署避坑清单(含IPA音标对齐表+海口话声调模板),限免领取仅剩200份

更多请点击: https://intelliparadigm.com 第一章:ElevenLabs海南话语音部署避坑清单(含IPA音标对齐表海口话声调模板),限免领取仅剩200份 部署ElevenLabs模型支持海口话(海南闽语)语音合成时&…...

阅读APP书源导入与使用完全指南:26个高质量书源一键获取

阅读APP书源导入与使用完全指南:26个高质量书源一键获取 【免费下载链接】Yuedu 📚「阅读」自用书源分享 项目地址: https://gitcode.com/gh_mirrors/yu/Yuedu 还在为「阅读」APP找不到稳定的小说书源而烦恼吗?这款开源阅读工具需要自…...

利用 QiWe API 实现企业微信机器人消息双向交互

1. 什么是企微机器人的“多模态”交互? 早期的微信机器人大多只能处理简单的纯文本对话。然而,在真实的商业客服场景中,客户往往会发送商品图片、发票PDF文件、产品操作视频甚至是语音消息。一个合格的企业级机器人,必须具备处理和…...

2025 年欧美明星人形机器人企业接连倒闭,中国企业融资却屡创新高,赛道冰火两重天!

01.创始人曾参与打造波士顿动力 Atlas、迪士尼机器人今年 2 月初,美国人形机器人创企 Cartwheel Robotics 宣布倒闭。创始人 Scott LaValley 曾先后任职波士顿动力、迪士尼梦想工程,行业经验丰富。他在波士顿动力从事早期双足机器人 Petman 的研发工作约…...

2026 在线考试系统哪个好?功能、客户、方案、优势与服务全对比

前言数字化转型浪潮下,在线考试系统已从教育、企业的辅助工具,升级为覆盖教学考核、人才招聘、员工培训、政务考核、资格认证、知识竞赛的核心数字基础设施。据艾瑞咨询 2026 年 2 月发布的《中国线上考试行业发展白皮书》显示,2025 年中国线…...

如何免费解决BT下载速度慢问题?终极trackerslist配置指南

如何免费解决BT下载速度慢问题?终极trackerslist配置指南 【免费下载链接】trackerslist Updated list of public BitTorrent trackers 项目地址: https://gitcode.com/GitHub_Trending/tr/trackerslist 你是否曾为BT下载的龟速而烦恼?种子明明显…...

自媒体矩阵工具选型避坑!多个平台发布指南,新手也能选对工具

做自媒体这事吧,光靠一个账号,很多时候确实不太容易把流量做起来,所以大多数人,慢慢就会去做多平台、多账号这种矩阵。可问题也很现实,账号一多,平台一散,人就容易被各种切换后台、重复发内容、…...

SubAgent 进阶:LLM 策略、工具借用与 Skill 嵌套

标签:Java SubAgent LLM策略 llmFactory allowedTools Skill嵌套 j-langchain 前置阅读:SubAgent 基础:拥有自主工具的子代理 适合人群:已掌握 SubAgent 基础用法,希望灵活控制模型选择、工具权限与多层嵌套的 Java 开…...

使用Taotoken CLI工具一键为团队所有网站项目配置统一API接入点

🚀 告别海外账号与网络限制!稳定直连全球优质大模型,限时半价接入中。 👉 点击领取海量免费额度 使用Taotoken CLI工具一键为团队所有网站项目配置统一API接入点 在团队协作开发中,确保所有成员使用统一的大模型API接…...

当“数字孪生”有了坐标、时序和一棵“会落叶的树”:NNU‑Campus‑Geo3DGS 数据集深度解读

地理编码的3D高斯,联结了数字重建与“真实地面”之间的两条坐标轴线假设你是一名城市规划师,面对一座城市的数字孪生模型——楼宇轮廓完整、道路走向清晰、绿化植被葱郁——但无论怎样旋转视角,这座模型都“悬浮”在地理基准面之上&#xff0…...

SketchBook Pro 中文版

🎨 绘画爱好者必看!SketchBook Pro 中文破解版,让你的创意自由飞翔!✨ 👋 各位CSDN的小伙伴们,大家好呀~ 今天给大家带来一款超级好用的数字绘画神器—— SketchBook Pro 中文破解版!🎨🎨🎨 如果你是喜欢画画的、搞设计的、画概念图的,或者平时需要在电脑/平…...

打印机驱动程序无法使用?原因+修复方法全攻略

日常办公、学习打印时,最让人崩溃的莫过于打印机突然报错,弹出 “打印机驱动程序无法使用”“驱动异常”“驱动失效” 等提示,任凭怎么操作都无法打印。作为连接电脑与打印机的核心桥梁,驱动程序一旦故障,打印机就会彻…...

FantiaDL终极指南:如何快速下载Fantia平台上的所有内容

FantiaDL终极指南:如何快速下载Fantia平台上的所有内容 【免费下载链接】fantiadl Download posts and media from Fantia 项目地址: https://gitcode.com/gh_mirrors/fa/fantiadl FantiaDL是一款专为Fantia用户设计的强大开源下载工具,能够帮助你…...

Java Excel导出:如何实现自定义表头与字段顺序的完全控制

背景 在最近的项目开发中,我遇到了一个常见的需求:Excel导出的列顺序必须与前端页面表格的显示顺序完全一致。这听起来很简单,但在实际实现中却遇到了不少挑战,特别是当表格包含多级表头和展开字段时。 今天我就来分享一下这个问…...

SSH密钥不能直接访问phpMyAdmin:正确使用隧道方案

1. 这个标题里藏着三个根本性误解,先说清楚再动手 “如何安全的使用ssh秘钥访问phpmyadmin”——这句话本身就是一个典型的认知错位组合。我第一次在客户现场看到这个需求时,花了一整个下午才把技术逻辑理顺。 phpMyAdmin 本质上是一个运行在 Web 服务器…...

如何为你的Python数据分析脚本注入多模型AI能力

🚀 告别海外账号与网络限制!稳定直连全球优质大模型,限时半价接入中。 👉 点击领取海量免费额度 如何为你的Python数据分析脚本注入多模型AI能力 对于数据分析师和科研工作者而言,Python脚本是处理数据、生成报告的核…...

天赐范式第49天:算不算是意外流落于人间的女娲补天石文件,女娲一直做开源项目,直到知道自己要发布论文引用不能来自CSDN个人博客,因为没有得到神农评议,要先写论文自证算子和公式,所以就把补天石文件丢了

天赐范式:兄弟,你说说我发给你这部分,算不算是意外流落于人间的女娲补天石文件伙伴:评析ZFC-CH对偶性与CFD隐喻(补天石文件附在文尾)..兄弟,你这文件要是女娲补天石,那女娲当年补的可…...

Claude Code 架构深度解析:一文搞懂 Sub-Agent、Skill 与底层模型之间的协同机制

Claude Code 架构深度解析:一文搞懂 Sub-Agent、Skill 与底层模型之间的协同机制 Claude Code 凭什么成为 AI 编程工具市场占有率第一?本文深入拆解其内部四层架构——Skill 拦截层、Claude Code 编排器、Sub-Agent 执行层、底层大模型推理层——带你彻底…...

谷歌I/O前夜Veo 4遭泄露,AI视频底层逻辑浮出水面

谷歌I/O大会开幕前夕,关于Veo 4(或被爆料的称作Gemini Omni)的泄露信息开始在圈内流传,而这次泄露所揭示的并非简单的参数迭代,而是一个真正触及AI视频生成底层范式的技术突破——它开始学会“切镜头”了。 这一变化之…...

罗技鼠标宏逆向工程:PUBG后坐力补偿系统的架构设计与实现

罗技鼠标宏逆向工程:PUBG后坐力补偿系统的架构设计与实现 【免费下载链接】logitech-pubg PUBG no recoil script for Logitech gaming mouse / 绝地求生 罗技 鼠标宏 项目地址: https://gitcode.com/gh_mirrors/lo/logitech-pubg 在竞技射击游戏中&#xff…...