当前位置: 首页 > article >正文

小模型在昇腾NPU上的推理部署:【ONNX 模型快速部署】

作者昇腾实战派小模型在NPU上的推理部署【知识地图】背景概述本文为开发者提供一份实用指南演示如何利用ONNX Runtime与华为 CANN的对接能力将通用 ONNX 模型快速部署到昇腾 AI 处理器NPU上进行高效推理。通过标准化的中间格式和高效的执行提供者实现一次导出、多处部署是拥抱国产 AI 硬件生态的便捷路径。什么是 ONNX Runtime CANNONNX Runtime (ORT)是一个跨平台的高性能推理引擎支持多种硬件后端。CANN是华为昇腾 AI 处理器的计算架构。两者的结合点在于ONNX Runtime 的 CANN Execution Provider (EP)。该执行提供者使得 ONNX Runtime 能够将计算图或算子直接调度到昇腾 NPU 上执行。其核心优势在于标准化基于开放的 ONNX 模型格式避免框架锁定高性能利用 CANN 的图编译和算子优化能力易部署无需重新训练只需一次模型转换多后端支持同一套 API 可灵活选择 CPU/GPU/NPU 等不同后端关键前提版本配套与环境要求建议使用 昇腾官方 CANN 镜像 创建容器并安装 onnxruntime 和 onnxruntime-cann。部署实践以 YOLOv5 模型为例环境准备安装 ONNX Runtime CANN建议在昇腾 NPU 开发环境或官方 Docker 容器中进行。# 1. 进入昇腾开发环境假设已安装 CANNsource/usr/local/Ascend/ascend-toolkit/set_env.sh# 2. 安装 ONNX Runtime选择与 CANN 兼容的版本pipinstallonnx1.20.0onnxruntime1.23.2 onnxruntime-cann1.23.2准备 ONNX 模型请前往 Ultralytics 官网 下载 YOLOv5 模型并使用官方脚本导出为 ONNX 格式。使用 ONNX Runtime CANN 进行推理以下为关键步骤的代码示例展示了如何使用 onnxruntime_cann 在昇腾 NPU 上加载模型并进行推理。1. 初始化模型importonnxruntimeasortdefload_model(model_path,device_id):# 设置 NPU 设备torch.npu.set_device(fnpu:{device_id})providers[(CANNExecutionProvider,{device_id:device_id,arena_extend_strategy:kNextPowerOfTwo,npu_mem_limit:4*1024*1024*1024,enable_cann_graph:True,}),]sessionort.InferenceSession(model_path,providersproviders)returnsession2. 预处理importcv2importnumpyasnpimporttorchfromultralytics.data.augmentimportLetterBoxdefpreprocess_image(image_path,target_size(640,640)):original_imagecv2.imread(image_path)# 使用 LetterBox 进行预处理保持长宽比imageLetterBox(target_size,autoFalse)(imageoriginal_image)imageimage.transpose(2,0,1)# HWC to CHWimagenp.ascontiguousarray(image)imagetorch.from_numpy(image).float()/255.0imageimage.unsqueeze(0)# 添加 batch 维度returnimage.numpy(),original_image3. 推理# 加载模型model_pathyolov5s.onnxdevice_id0# NPU 设备 IDsessionload_model(model_path,device_id)# 获取输入输出名称input_namesession.get_inputs()[0].name output_namesession.get_outputs()[0].name# 预处理图像input_image,original_imagepreprocess_image(test.jpg)# 执行推理outputssession.run([output_name],{input_name:input_image})4. 后处理后处理部分通常包括非极大值抑制NMS等操作此处以 YOLOv5 为例进行简单展示fromultralytics.utils.nmsimportnon_max_suppressiondefpostprocess(prediction,original_shape,input_shape):# 使用非极大值抑制prednon_max_suppression(prediction,conf_thres0.25,iou_thres0.45)# 将检测框映射回原图尺寸fordetinpred:ifdetisnotNoneandlen(det):det[:,:4]scale_boxes(input_shape,det[:,:4],original_shape).round()returnpred更多资源更多详细使用教程请参考 ONNX Runtime CANN 官方文档。总结本文演示了使用ONNX Runtime CANN在昇腾 NPU 上进行模型推理的核心流程。通过本文提供的示例代码开发者可以了解如何在昇腾 NPU 上使用 ONNX Runtime CANN 执行提供者加载 ONNX 模型并进行推理。主要步骤包括模型初始化配置 CANNExecutionProvider 并创建推理会话预处理将输入图像转换为模型所需的格式推理调用 ONNX Runtime 的 run 方法在 NPU 上执行计算后处理对模型输出进行解析和转换本文仅提供了关键步骤的代码片段完整的部署方案需要根据具体模型和业务需求进行补充。相比直接使用torch_npuONNX Runtime 方案更适合需要跨框架部署、已有 ONNX 格式模型或追求标准化推理流程的场景。随着 ONNX 生态和 CANN 的不断完善这一方案将成为昇腾 NPU 推理部署的重要选择。

相关文章:

小模型在昇腾NPU上的推理部署:【ONNX 模型快速部署】

作者:昇腾实战派 小模型在NPU上的推理部署: 【知识地图】 背景概述 本文为开发者提供一份实用指南,演示如何利用 ONNX Runtime 与 华为 CANN 的对接能力,将通用 ONNX 模型快速部署到昇腾 AI 处理器(NPU)…...

小模型在昇腾NPU上的推理部署:【AISBENCH】

作者:昇腾实战派 小模型在NPU上的推理部署: 【知识地图】 引言 在边缘计算和端侧AI应用蓬勃发展的今天,如何在资源有限的设备上实现高效、低延迟的模型推理,成为开发者面临的关键挑战。昇腾(Ascend)NPU …...

小模型在NPU上的推理部署:【知识地图】

作者:昇腾实战派 概述 当前,人工智能应用正加速从云端向边缘侧与终端设备渗透。在这一趋势下,计算效率高、延迟低、隐私性好的本地化推理成为关键需求。专为神经网络计算设计的NPU(神经网络处理单元) 因其在能效比上…...

[ZXMOTO 820RR-RS] [Ducati Panigale V2] [Yamaha YZF-R9]

ZXMOTO 820RR-RS Ducati Panigale V2 Yamaha YZF-R9...

3大核心功能:让AirPods在Windows系统上发挥全部潜力

3大核心功能:让AirPods在Windows系统上发挥全部潜力 【免费下载链接】AirPodsDesktop ☄️ AirPods desktop user experience enhancement program, for Windows and Linux (WIP) 项目地址: https://gitcode.com/gh_mirrors/ai/AirPodsDesktop AirPodsDeskto…...

代码补全已进入“语义理解临界点”?——SITS2026核心论文深度拆解(含LLM+AST+IDE三栈协同架构图)

第一章:SITS2026深度解读:代码补全技术演进 2026奇点智能技术大会(https://ml-summit.org) SITS2026(Smart Intelligent Text Synthesis Summit 2026)首次系统性地将代码补全技术划分为三代范式:基于规则的模板填充、…...

高效显卡配置指南:NVIDIA Profile Inspector开源工具的完整使用方案

高效显卡配置指南:NVIDIA Profile Inspector开源工具的完整使用方案 【免费下载链接】nvidiaProfileInspector 项目地址: https://gitcode.com/gh_mirrors/nv/nvidiaProfileInspector 在游戏优化和显卡性能调校领域,NVIDIA Profile Inspector&am…...

Python爬虫实战:手把手教你构建结构化宠物疫苗科普字典库 (Python 实战)!

㊗️本期内容已收录至专栏《Python爬虫实战》,持续完善知识体系与项目实战,建议先订阅收藏,后续查阅更方便~ ㊙️本期爬虫难度指数:⭐ (基础入门篇) 🉐福利: 一次订阅后,专栏内的所有…...

Python爬虫实战:手把手教你智慧场馆工程 - 构建全球会展功能分区结构化词表!

㊗️本期内容已收录至专栏《Python爬虫实战》,持续完善知识体系与项目实战,建议先订阅收藏,后续查阅更方便~ ㊙️本期爬虫难度指数:⭐ (基础入门篇) 🉐福利: 一次订阅后,专栏内的所有…...

为什么很多企业买了大模型,最后还是落不了地?

很多企业花重金采购了大模型的 API,甚至买了昂贵的算力服务器,满心欢喜地以为迎来了生产力革命,结果三个月后,系统却沦为员工写请假条和废话周报的“高级打字机”。为什么技术如此先进,在企业内部却寸步难行&#xff1…...

终极指南:如何用UnrealPakViewer深度解析UE4 Pak文件结构

终极指南:如何用UnrealPakViewer深度解析UE4 Pak文件结构 【免费下载链接】UnrealPakViewer 查看 UE4 Pak 文件的图形化工具,支持 UE4 pak/ucas 文件 项目地址: https://gitcode.com/gh_mirrors/un/UnrealPakViewer UnrealPakViewer是一款专为虚幻…...

2026年学Java的4个网站对比:慕课网、CSDN、牛客网、黑马,一张表看懂

开篇选对学习平台,Java学习效率提升3倍。本文用5个核心指标快速对比四大平台。一、速览对比表对比项🏆 慕课网CSDN牛客网黑马程序员成立时间2013年1999年2014年2006年Java课程数500门博客为主题库为主100门讲师背景一线大厂(1800位&#xff0…...

STM32嵌入AI模型全流程指南

将AI大模型嵌入STM32单片机以实现智能化&#xff0c;本质是将大型AI模型压缩、量化、编译为可在资源受限MCU&#xff08;通常仅数百KB RAM、几MB Flash&#xff09;上实时运行的C代码。所谓“大模型”在STM32语境中实为轻量化AI模型&#xff08;<1MB参数量&#xff0c;INT8精…...

别再死记硬背MobileNet了!用GhostNet+SE模块在树莓派上部署轻量级图像识别模型

在树莓派上实战GhostNetSE&#xff1a;轻量级图像识别的工程优化指南 当你在树莓派的资源限制下挣扎着运行MobileNet时&#xff0c;是否想过还有更优雅的解决方案&#xff1f;GhostNet的出现彻底改变了我们对轻量化网络的认知——它不再只是简单地削减参数&#xff0c;而是通过…...

SpringBoot+Redis 点赞系统源码:高并发写入削峰实现

点赞这个功能&#xff0c;代码写起来不复杂&#xff0c;但一旦出现热点内容&#xff0c;很容易把数据库拖垮。接口延迟抖动、慢SQL堆积、连接池打满&#xff0c;这些问题基本都出在“写路径没有控制”。 在“仿小红书”这类内容社区里&#xff0c;点赞属于典型的高频操作。湖南…...

Spring Boot 3.x 开发中缓存淘汰策略与业务访问模式不匹配问题详解

目录Spring Boot 3.x 开发中缓存淘汰策略与业务访问模式不匹配问题详解引言1. 问题表现&#xff1a;淘汰策略失配的典型症状2. 原因分析&#xff1a;淘汰策略与访问模式的错位2.1 常见淘汰策略及其适用场景2.2 业务模式复杂多变2.3 Spring Boot 3.x 中的默认行为2.4 配置与业务…...

鸿蒙Flutter混合开发实战:跨平台UI无缝集成

鸿蒙应用采用混合开发模式集成 Flutter Module&#xff0c;主要是为了解决代码复用、跨平台一致性以及利用 Flutter 丰富的 UI 生态。对于已有 Flutter 业务&#xff08;如复杂动画、图表组件&#xff09;或需要同时覆盖 Android、iOS 和鸿蒙的场景&#xff0c;直接复用 Flutte…...

如何用免费开源工具轻松将航拍照片转化为三维模型?OpenDroneMap终极指南

如何用免费开源工具轻松将航拍照片转化为三维模型&#xff1f;OpenDroneMap终极指南 【免费下载链接】ODM A command line toolkit to generate maps, point clouds, 3D models and DEMs from drone, balloon or kite images. &#x1f4f7; 项目地址: https://gitcode.com/g…...

零基础入门鸿蒙NEXT开发实战

鸿蒙 HarmonyOS NEXT&#xff08;星河版&#xff09;作为华为最新的纯血鸿蒙系统&#xff0c;彻底剥离了安卓代码&#xff0c;基于自研内核&#xff0c;标志着鸿蒙生态进入了一个全新的独立阶段。对于零基础的小白来说&#xff0c;从入门到实战需要掌握开发环境搭建、UI基础语法…...

Gopher360:3步让游戏手柄变身PC遥控器的实用工具

Gopher360&#xff1a;3步让游戏手柄变身PC遥控器的实用工具 【免费下载链接】Gopher360 Gopher360 is a free zero-config app that instantly turns your Xbox 360, Xbox One, or even DualShock controller into a mouse and keyboard. Just download, run, and relax. 项…...

Applite:让Mac应用管理效率倍增的图形化工具终极指南

Applite&#xff1a;让Mac应用管理效率倍增的图形化工具终极指南 【免费下载链接】Applite User-friendly GUI macOS application for Homebrew Casks 项目地址: https://gitcode.com/gh_mirrors/ap/Applite 你是否还在为Mac上繁琐的软件安装和管理而烦恼&#xff1f;告…...

小白也能玩转SAM3!Gradio交互界面一键部署,文字描述精准分割图片

小白也能玩转SAM3&#xff01;Gradio交互界面一键部署&#xff0c;文字描述精准分割图片 1. 什么是SAM3图像分割模型 Segment Anything Model 3&#xff08;简称SAM3&#xff09;是Meta最新发布的第三代万物分割模型。与传统的图像分割技术不同&#xff0c;SAM3最大的特点是支…...

WarcraftHelper:让经典魔兽争霸3在现代电脑上重获新生

WarcraftHelper&#xff1a;让经典魔兽争霸3在现代电脑上重获新生 【免费下载链接】WarcraftHelper Warcraft III Helper , support 1.20e, 1.24e, 1.26a, 1.27a, 1.27b 项目地址: https://gitcode.com/gh_mirrors/wa/WarcraftHelper 你是否还记得第一次进入艾泽拉斯大陆…...

子网掩码(Subnet Mask)是与IP地址搭配使用的32位二进制数,用于区分IP地址中的网络号部分和主机号部分

子网掩码&#xff08;Subnet Mask&#xff09;是与IP地址搭配使用的32位二进制数&#xff0c;用于区分IP地址中的网络号部分和主机号部分。其编码规则为&#xff1a; 所有对应网络号的位设为二进制1所有对应主机号的位设为二进制0 A、B、C三类IP地址的默认子网掩码如下&#xf…...

GetQzonehistory:3步永久备份你的QQ空间记忆,告别数据丢失焦虑

GetQzonehistory&#xff1a;3步永久备份你的QQ空间记忆&#xff0c;告别数据丢失焦虑 【免费下载链接】GetQzonehistory 获取QQ空间发布的历史说说 项目地址: https://gitcode.com/GitHub_Trending/ge/GetQzonehistory 你是否担心那些珍贵的QQ空间说说会随着时间流逝而…...

A.每日一题:2946. 循环移位后的矩阵相似检查

题目链接&#xff1a;2946. 循环移位后的矩阵相似检查&#xff08;简单&#xff09; 算法原理&#xff1a; 解法&#xff1a;模拟 1ms击败100.00% 时间复杂度O(mn) 针对每一行a 首先我们要找到左移和右移k次后的位置在哪&#xff1a; n为该行一维数组的长度 右移k次&#xff1a…...

java对数据库的增删改查

查询步骤1.准备连接数据库需要的变量 &#xff08;库名称&#xff0c;库用户名&#xff0c;库密码&#xff09; 2.提前写好查询数据库的命令 3.声明一个存参数的list 4.连接数据库&#xff08;创建连接&#xff0c;准备指令&#xff0c;连接&#xff09; …...

AMD Ryzen终极调试指南:如何精准控制硬件性能与稳定性

AMD Ryzen终极调试指南&#xff1a;如何精准控制硬件性能与稳定性 【免费下载链接】SMUDebugTool A dedicated tool to help write/read various parameters of Ryzen-based systems, such as manual overclock, SMU, PCI, CPUID, MSR and Power Table. 项目地址: https://gi…...

权重的基本概念

在机器学习和统计学中&#xff0c;权重 是一个非常核心的概念。你可以把它理解为模型中各个特征或参数的重要性系数。 为了更直观地理解&#xff0c;我们用最简单的线性回归公式来说明&#xff1a; [ \hat{y} w_1x_1 w_2x_2 … w_nx_n b ] ( x_1, x_2, … ) 是输入的特征&…...

Element UI el-upload 多文件上传 on-success 回调触发机制深度解析与实战优化

1. 多文件上传的常见痛点与 el-upload 行为解析 在实际开发中&#xff0c;文件上传功能几乎是每个Web应用都绕不开的需求。Element UI的el-upload组件因其开箱即用的特性&#xff0c;成为很多Vue开发者的首选。但当你需要处理多文件上传时&#xff0c;可能会遇到一个让人困惑的…...