当前位置: 首页 > news >正文

【2023 · CANN训练营第一季】进阶班 应用开发深入讲解→模型推理

1 模型离线推理

各步要解析如下:

  • Host&Device内存管理与数据传输: Host&Device上的内存申请与释放,内存间的相互拷贝;
  • 模型加载:将离线的om文件加载到Device上;在样例的资源初始化模块中进行。
  • 模型输入输出准备∶根据禹线om的输入输出,在Device上申请好模型的输入输出内存;在样例的资源初始化模炔中进行。
  • 执行推理:当模型的输入内存获取到有效数据后,便可以调用AscendCL接口执行模型推理,推理完成后结果生成到输出内存中;在样例的模型推理模块中进行。
  • 输出解析︰使用AscendCL接口,将模型输出数据从特定格式中解析出来;在输出数据处理模块中进行。下面将按步要进行说明。

2 Host&Device内存管理与数据传输

代码中加载输入数据时,需要申请Host内存进行存储,当输入数据处理完毕后,需要将处理完成的数据从Host内存拷贝到Device的模型输入内存中。以便于Device进行模型推理的专用计算。
以上就是Host&Device内存管理与数据传输的典型场景。对于Host&Device内存管理与数据传输来说,实际上就是:

  • Host内存管理: Host侧内存申请与释放
  • Device内存管理:Device侧内存串请与释放
  • Host&Device数据传输: Host和Device上的内存拷贝
    内存管理中其它功能:
  • 内存初始化:对申请出来的Host或Device内存进行初始
    化。
  • Device内存查询:查询Deivce上有多少内存。

image.png

2.1 Host侧内存申请与释放

Host侧内存申请与释放接口的使用方式比较简单。函数原型如下:

aclError aclrtMallocHost(oid**hostPtr, size_t size);acError aclrtFreeHost(void*hostPtr);

其中aclrtMallocHost是内存申请接口。aclrtFreeHost是其对应的释放接口;调用伪代码如下

void *hostlnput = nullptr;
int64_t size_input = 256;
ret = aclrtMallocHost(8hostlnput, size_input);if (hostlnput I= nullptr){
ret = aclrtFreeHost(hostlnput);
}

注意:Host&Device申请和释放的配套关系类似1.acirtMalloc和aclrtFree要成对出现。
2.用aclrtMalloc申请出来的内存高要对齐。
内存大小向上对齐成32整数倍+32字节(m=ALIGN_UPlen,32]+32字节);
内存起始地址高满足64字节对齐(AilGN_UP[m,64])。

2.2 Device侧内存申请与释放

Device侧内存申语与释放接口和Host侧的很相似,函数原型如下:


aclError aclrtMalloclvoid **dePtr, size_t size,aclrtMemMallocPolicy policy);
aclError aclrtFreelvoid *devPtr);

申请内存的接口多了个参数: policy,指明申请内存的策略。当前一共有三种策略可选:

  • ACL MEM MALLOC HUGE FIRST:当申请内存小于等于1M申请普通页内存。当申请内存大于1M时,优先申请天页内存,如果不够。则使用普通内存
  • AcL MEM_MALLOC_HUGE_ONLY:仅申请大页,如果大页内存不够,则返回
    错误
  • ACL MEM MALLOC_NORMAL ONLY:仅申请普通页

void*devlnput = nullptr;
size_input -256;
ret = aclrtMalloc(BdevInput size_input,ACL_MEM_MALLOC_HUGE_FIRST5;if (devlnput != nullptr){
ret = aclrtFree(devInput);}

2.3 内存初始化

刚申请出来的内存,里边的数据是随机的,有时需要对其进行统—的初始化,此时可以使用这个接口:
aclError aclrtMemset(void *devPtr, size_t maxCount, int32_tvalue, size_t count);
其参数如下所示:

  • devPtr: Host/Device上的内存的起始地址,系统会根据地址自动判断内存位置- maxCount:内存的是大长度,单位byte
  • value:设置的值需要设置为指定值的内存长度,单位Byte内存初始化的伪码如下:
void *devlnput = nullptr;size_input = 256;
ret =aclrtMalloc(&devInput, size_input,ACL_MEM_MALLOC_HUGE_FIRST;
ret = aclrtMemset(devlnput,size_input,,1,size_input);ret = aclrtMallocHost(&hostinput, size_input); 
aclrtMemcpy(devlnput size_input, hostlnput, size_input,ACL_MEMCPY_HoST_TO_DevIcE);
ret =aclrtFreeHost(hostlnput);ret = aclrtFree(devlnput);
...
ret = aclrtMalloc(BdevInput size_input,ACL_MEM_MALLOC_HUGE_FIRST5;if (devlnput != nullptr){
ret = aclrtFree(devInput);}

2.4 数据传输

数据传输所使用的内存拷贝函数原型如下:

aclError aclrtMemcpy(void *dst, size_t destMax,const void *src, size_t count, aclrtMemcpyKindkind);

其参数如下所示;. dst:目的地址
. destMax:目的内存地址的最大内存长度,单位Byte. src:源地址
. count:内存复制的长度,单位Byte

  • kind:内存复制的类型,预留参数,配置枚举值中的值无效。系统内部会根据源内存地址指针、目的内存地址指针判断是否可以将源地址的数据复制到目的地址,如果不可以,则系统会返回报错。
    其中的关键为kind参数,这里的kind实际上是一组枚举值,枚举定义如下所示:

typedef enum aclrtMemcpyKind {
ACL_MEMCPY_HOST_To_HosT,i/ Host -> HostACL_MEMCPY_HOST_TO_DEVICE,// Host -> DeviceACL_MEMCPY_DEVlCE_TO_HOST,// Device -> HostACL_MEMCPY_DEVICE_TO_DEVICE,// Device -> Device} aclrtMemcpyKind;
aclrtMemcpy(devlnput size_input, hostlnput, size_input,ACL_MEMCPY_HoST_TO_DevIcE);
ret =aclrtFreeHost(hostlnput);ret = aclrtFree(devlnput);
...
ret = aclrtMalloc(BdevInput size_input,ACL_MEM_MALLOC_HUGE_FIRST5;if (devlnput != nullptr){
ret = aclrtFree(devInput);}

2.5 Device内存查询

程序运行过程中,如何实时获取Device上有多少内存,以及多少可用内存呢?那不妨试试下面这个接口

aclError aclrtGetMemInfo(aclrtMemAttr attr, size_t *free, size_t *total)

其中的attr参数指的是内存的类型,枚举定义如下所示:

typedef enum aclrtMemAttr {
ACL_DDR_MEM,//DDR内存,DDR上所有大页内存+普通内存ACL_HBM_MEM,/ /HBM内存,HBM上所有大页内存+普通内存ACL_DDR_MEM_HUGE,//DDR大页内存
AcL_DDR_MEM_NORMAL.1/DDR普通内存ACL_HBM_MEM_HUGE,//HBM大页内存ACL_HBM_MEM_NORMAL, //HBM普通内存
ACL_DDR_MEM_P2P_HUGE.//DDR中用于Device间数据复制的大页内存ACL_DDR_MEM_P2P_NORMAL//DDR中用于Device间数据复制的普通内存ACL_HBM_MEM_P2P_HUGE,//HBM中用于Device间数据复制的大页内存ACL_HBM_MEM_P2p_NORMAL.//HBM中用于Device间数据复制的普通内存
}aclrtMemAttr;

这里提到了DDR和HBM,在这里,只需要知道Ascend910芯片中有HBM内存,在内存申请时会优先使用,使用完毕后再使用DDR内存;而Ascend310芯片中只有DDR内存。所以调用时,只需要根据自己的场景查询所有内存即可。

3 模型加载

模型加载支持多种加载方式,由用户根据需求选择从om模型文件或内存加载模型数据.选择由用户自行管理内存或由AscendCL管理内存。而不管用哪种接口,最终卸载时接口都是统一的。
image.png

4 模型输入输出准备

在调用AscendCL接口进行模型推理时,模型推理有输入、输出数据,输入、输出数据需要按照AscendCL规定的数据类型存放。相关数据类型如下:
image.png

  • 使用aclmdlDesc类型的数据描述模型基本信息,例如输入/输出的个数、数据类型、Format、维度信息等。
  • 使用acIDataBuffer类型的数据来描述每个输入/输出的内存地址、内存大小。
  • 使用aclmdIDataset类型的数据描述模型的输入、输出数据集。

5 执行推理并获取输出数据

准备好模型执行所需的输入、输出数据类型后,存放好模型执行的输入数据后,可以执行模型推理了。当前AscendCL支持同步模型执行、异步模型执行两种方式,这里说的同步、异步是站在调用者和执行者的角度。

  • 若调用模型执行的接口后需等待推理完成再返回,则表示同步的。当用户调用同步模型执行接口后,可直接从该接口的输出参数中获取模型执行的结果数据。接口调用逻辑简单。
  • 若调用模型执行的接口后不等待推理完成完成再返回,则表示异步的。异步模型执行时,AscendCL提供了Callback机利,在指定时间内一旦有推理的结果数据,就触发回调函数藐取推理结果,提高处理效率。

相关文章:

【2023 · CANN训练营第一季】进阶班 应用开发深入讲解→模型推理

1 模型离线推理 各步要解析如下: Host&Device内存管理与数据传输: Host&Device上的内存申请与释放,内存间的相互拷贝;模型加载:将离线的om文件加载到Device上;在样例的资源初始化模块中进行。模型输入输出准备∶根据禹线om的输入输出,在Device…...

单词分析问题

题目描述 小蓝正在学习一门神奇的语言,这门语言中的单词都是由小写英文字母组 成,有些单词很长,远远超过正常英文单词的长度。小蓝学了很长时间也记不住一些单词,他准备不再完全记忆这些单词,而是根据单词中哪个字母出…...

3个月出国|材料科学老师自费赴韩国访学

K老师指定韩国为访学的目标国家,希望专业匹配,尽快出国。最终我们获得了韩国庆北大学的邀请函,其学校名气、专业匹配度及导师影响力都符合K老师的要求。本案例从开始委托我们申请到最终出国,仅仅用时3个月。 K老师背景&#xff1a…...

MaaS来临,SaaS进入「奇点」时刻|产业深度

大模型热度持续发酵。MaaS的到来,不仅改变了云厂商的竞争格局,SaaS行业也将迎来「奇点」时刻。未来十年,基于MaaS底座,国内SaaS甚至可能会出现Salesforce一样的巨头。 作者|思杭 编辑|皮爷 出品|产业家 大模型热度正在持续发酵。…...

课程分享:华清远见联合NXP推出i.MX8M Plus开发与实践课程,超干超实用!

​课程名称: i.MX8M Plus开发与实践课程 课程介绍: i.MX8M Plus应用处理器是NXP推出的一款致力于推动机器学习(ML),机器视觉,多媒体与工业边缘物联网应用的工业人工智能芯片。拥有4个ARM Cortex-A53核心…...

idea将java程序打包为jar

idea将java程序打包为jar 灵光一现: 用java拉起浏览器,打开指定的网络地址,省的手动打开浏览器再复制地址过去了 本文记录了使用idea将java程序打包为jar包的过程 源码地址:https://gitcode.net/qq_39339588/jar.git 文章目录 ide…...

快速掌握Redis基础知识及使用技巧

Redis 是一个高性能、基于内存的键值数据库,其主要特点是支持多种数据结构和高并发读写操作。在本文中,我们将介绍 Redis 的基本概念和使用方法,以帮助读者快速入门 Redis。 Redis 的基本概念 Redis 是一种基于内存的高性能 key-value 存储系…...

C++控制台打飞机小游戏

我终于决定还是把这个放出来。 视频在这:https://v.youku.com/v_show/id_XNDQxMTQwNDA3Mg.html 具体信息主界面上都有写。 按空格暂停,建议暂停后再升级属性。 记录最高分的文件进行了加密。 有boss(上面视频2分47秒)。 挺好…...

Pinna的使用以及pinna的持续化存储(两种方法)

一、简介 pinia是 vue3 新的状态管理工具,简单来说相当于之前 vuex,它去掉了 Mutations 但是也是支持 vue2 的,需要的朋友可以参考下 二、使用方法 1.安装 npm install pinia -S 2..引入 import { createPinia,PiniaPluginContext } from p…...

开发中造成空指针的常见用法,如何避免

1. 前言 《手册》的第 7 页和 25 页有两段关于空指针的描述: 【强制】Object 的 equals 方法容易抛空指针异常,应使用常量或确定有值的对象来调用 equals。 【推荐】防止 NPE,是程序员的基本修养,注意 NPE 产生的场景: 返回类型为…...

MySQL事务和索引

目录 事务的概念 事务的四大特性(ACID) 原子性 隔离性 持久性 一致性 什么是脏读、幻读和不可重复读? 脏读 幻读 不可重复读 事务的隔离级别 读未提交 读已提交 可重复读 串行化 索引 索引优点 索引缺点 索引分类 索引设…...

Kali工具集简介

Kali Linux提供了数种经过定制的专门为渗透测试设计的工具。工具都会按下图中下拉选单所示的方式按组分类聚合。了解工具是做渗透测试第一个认知。 口Information Gathering(信息收集) 这些都是侦察工具,用来收集目标网络和设备的数据。在这类工具中,从找出设备的工具到查看使…...

离散数学 | 图论 | 欧拉图 | 哈密顿图 | 割点 | 桥(欧拉图和哈密顿图有没有割点和桥?)

本文主要解决以下几个问题: 1.欧拉图能不能有割点,能不能有桥? 2.哈密顿图能不能有割点,能不能有桥? 首先我们要明白几个定义 割点的定义就是在一个图G中,它本来是连通的,去掉一个点v以后这个…...

Android生命周期:理解与应用

摘要:Android生命周期是开发Android应用程序时至关重要的概念。本文将介绍Android生命周期的概念、生命周期方法的执行顺序以及如何在应用程序中正确地管理生命周期。我们还将讨论生命周期对于应用程序的重要性,并提供一些实际应用中的最佳实践和注意事项…...

00后真的是内卷王中王,真的想离职了....

都说00后躺平了,但是有一说一,该卷的还是卷。这不,前段时间我们公司来了个00年的,工作没两年,跳槽到我们公司起薪18K,都快接近我了。后来才知道人家是个卷王,从早干到晚就差搬张床到工位睡觉了。…...

linux Fd以及重定向讲解

感谢你的阅读,是对我最大的鼓励!!!! 目录 fd理解 文件操作重定向 让我们回顾C语言文件操作 首选我们要知道2个知识点: 额外知识点 如何理解一切皆文件呢? 当父进程fork创建子进程是否创建…...

Moonbeam近日提案公投一览

正在跟进Moonbeam治理的小伙伴,一起来快速浏览一下近期生态中正在发生的事情吧!其中包含多个去中心化应用的Grant加速计划提案、HRMP开拓提案以及优化质押相关平台的内容。许多提案都与网络的运作息息相关,一起了解和参与Moonbeam的发展吧&am…...

凝聚青年力量,打造数字化人才队伍

当代青年人勇于探索、敢于创新、勤于变革,积极承担社会责任。这与ABeam倡导的「Build Beyond As One.™」的品牌理念不谋而合。ABeam的青年员工是未来社会的中坚力量,也正用他们的青春能量助力ABeam在中国的发展。 01 新兴青年力量 对ABeam而言&#…...

蓝牙资讯|智能家居标准Matter 1.1 发布,智能家居产品兼容更丰富

据“CSA 连接标准联盟”官方微信号,Matter 1.1 版本已发布,“1.1 版本带来的更新使设备制造商和开发者上手更容易、产品获取认证更方便,也让产品能更快地交付给用户。该版本还为电池供电设备提供了更大支持,而这类设备涉及多种类型…...

Cube Map 系列之:手把手教你 实现天空盒(Sky Box)

什么是天空盒 An skybox is a box with textures on it to look like the sky in all directions or rather to look like what is very far away including the horizon.天空盒是一个使用纹理贴图构建的盒子,人在其中朝任何一个方向看去,其纹理彷佛天空…...

运维系列【仅供参考】:Centos之nohup 后台运行程序

Centos之nohup 后台运行程序 Centos之nohup 后台运行程序 摘要 nohup命令: 2>&1的问题 参考以下文章 Centos之nohup 后台运行程序-yellowcong 2>&1的问题 不输出文件 输出文件 参考以下文章 nohup /dev/null 2>&1 含义详解 摘要 正文 Centos之nohup 后台…...

drawio-desktop终极指南:免费跨平台打开和编辑Visio VSDX文件

drawio-desktop终极指南:免费跨平台打开和编辑Visio VSDX文件 【免费下载链接】drawio-desktop Official electron build of draw.io 项目地址: https://gitcode.com/GitHub_Trending/dr/drawio-desktop 还在为不同操作系统间的Visio文件兼容性问题而烦恼吗&…...

一键部署清音听真:Qwen3-ASR-1.7B高精度语音识别系统开箱即用

一键部署清音听真:Qwen3-ASR-1.7B高精度语音识别系统开箱即用 1. 语音识别技术的新突破 在数字化办公日益普及的今天,语音识别技术已成为提升工作效率的重要工具。然而,传统语音识别系统在面对复杂场景时往往捉襟见肘——背景噪音、专业术语…...

Spring框架中多TaskExecutor Bean冲突的自动注入问题及解决方案

1. 当Spring遇到多个TaskExecutor时的烦恼 最近在重构一个老项目时,我遇到了一个典型的Spring自动注入问题。项目启动时突然报错,控制台赫然显示"NoUniqueBeanDefinitionException: expected single matching bean but found 3"。仔细一看&…...

OpenEMS终极指南:三步构建你的智能能源管理系统

OpenEMS终极指南:三步构建你的智能能源管理系统 【免费下载链接】openems OpenEMS - Open Source Energy Management System 项目地址: https://gitcode.com/gh_mirrors/op/openems 还在为高额电费账单发愁吗?是否羡慕别人家的太阳能系统能智能调…...

OpenClaw技能开发入门:为千问3.5-35B-A3B-FP8定制多模态处理模块

OpenClaw技能开发入门:为千问3.5-35B-A3B-FP8定制多模态处理模块 1. 为什么需要自定义OpenClaw技能? 去年夏天,我负责一个数据分析项目时,每天要手动从上百张图表中提取关键数据点。当我发现OpenClaw可以通过技能扩展实现自动化…...

算法基础应用精讲【深度学习】-基于深度学习的多Agent入侵检测系统(理论篇)

目录 第一章 引言 1.1 研究背景与意义 1.2 研究现状 1.3 研究目标与主要贡献 1.4 论文(文档)结构 第二章 核心理论基础 2.1 多Agent系统(MAS)理论 2.1.1 多Agent系统的定义与核心特征 2.1.2 多Agent系统在入侵检测中的应用优势 2.2 深度学习核心算法理论 2.2.1 自…...

恒模约束波形设计(Constant Modulus Waveform Design)第2章 MIMO雷达波形设计基础

目录 2.1 MIMO雷达系统模型 2.1.1 发射-接收信号模型与阵列几何配置 2.1.2 信号依赖干扰建模 2.1.3 扩展目标与点目标检测模型 2.2 波形设计目标函数 2.2.1 波束赋形设计准则 2.2.2 输出SINR最大化框架 2.2.3 CRLB最小化方法 2.3 硬件约束与工程实现 2.3.1 高功率放大…...

MelonLoader终极指南:解锁Unity游戏的双引擎插件加载能力

MelonLoader终极指南:解锁Unity游戏的双引擎插件加载能力 【免费下载链接】MelonLoader The Worlds First Universal Mod Loader for Unity Games compatible with both Il2Cpp and Mono 项目地址: https://gitcode.com/gh_mirrors/me/MelonLoader MelonLoad…...

AMD Ryzen底层硬件调试:如何通过SMU Debug Tool实现处理器性能的精确控制与优化

AMD Ryzen底层硬件调试:如何通过SMU Debug Tool实现处理器性能的精确控制与优化 【免费下载链接】SMUDebugTool A dedicated tool to help write/read various parameters of Ryzen-based systems, such as manual overclock, SMU, PCI, CPUID, MSR and Power Table…...