当前位置: 首页 > article >正文

写给前端的 CANN-acl:昇腾应用开发接口到底是啥?

写给前端的 CANN-acl昇腾应用开发接口到底是啥之前有兄弟问我“哥我想直接调用昇腾的底层API不用 PyTorch 这些框架怎么搞”好问题。今天一次说清楚。acl 是啥acl Ascend Computing Language昇腾应用开发接口。C 语言 API直接调用昇腾能力。一句话说清楚acl 是昇腾的应用开发接口提供 C 语言 API直接调用 NPU 能力不用框架也能开发。你说气人不气人用 acl 写的推理程序启动速度比 PyTorch 快 10 倍。为什么需要 acl三种情况1. 高性能推理直接调用底层 API没有框架开销。2. 嵌入式部署资源受限场景不能跑 PyTorch。3. 定制开发需要特殊功能框架不支持。acl 核心能力1. 设备管理管理 NPU 设备。#includeacl/acl.h// 初始化aclError retaclInit(nullptr);if(ret!ACL_SUCCESS){printf(aclInit failed: %d\n,ret);return-1;}// 获取设备数量uint32_tdevice_count;retaclrtGetDeviceCount(device_count);printf(Found %u devices\n,device_count);// 设置当前设备retaclrtSetDevice(0);// 获取设备属性aclrtDeviceProp prop;retaclrtGetDeviceProperties(prop,0);printf(Device name: %s\n,prop.name);printf(Compute capability: %d.%d\n,prop.major,prop.minor);// 释放retaclrtResetDevice(0);retaclFinalize();2. 内存管理NPU 内存分配和释放。#includeacl/acl.h// 分配设备内存void*dev_ptr;size_tsize1024*1024;// 1MBaclError retaclrtMalloc(dev_ptr,size,ACL_MEM_MALLOC_NORMAL_ONLY);if(ret!ACL_SUCCESS){printf(aclrtMalloc failed: %d\n,ret);return-1;}// 分配主机内存void*host_ptr;retaclrtMallocHost(host_ptr,size);// 内存拷贝Host → DeviceretaclrtMemcpy(dev_ptr,host_ptr,size,ACL_MEMCPY_HOST_TO_DEVICE);// 内存拷贝Device → HostretaclrtMemcpy(host_ptr,dev_ptr,size,ACL_MEMCPY_DEVICE_TO_HOST);// 内存拷贝Device → Devicevoid*dev_ptr2;aclrtMalloc(dev_ptr2,size,ACL_MEM_MALLOC_NORMAL_ONLY);retaclrtMemcpy(dev_ptr2,dev_ptr,size,ACL_MEMCPY_DEVICE_TO_DEVICE);// 释放aclrtFree(dev_ptr);aclrtFree(dev_ptr2);aclrtFreeHost(host_ptr);3. 流管理管理执行流。#includeacl/acl.h// 创建流aclrtStream stream;aclError retaclrtCreateStream(stream);// 同步执行retaclrtSynchronizeStream(stream);// 异步执行// 大部分 acl API 都有 stream 参数可以异步执行// 销毁流retaclrtDestroyStream(stream);4. 事件管理同步和计时。#includeacl/acl.h// 创建事件aclrtEvent event;aclError retaclrtCreateEvent(event);// 记录事件retaclrtRecordEvent(event,stream);// 等待事件retaclrtSynchronizeEvent(event);// 计时floatelapsed_time;retaclrtEventElapsedTime(elapsed_time,start_event,end_event);printf(Elapsed time: %.2f ms\n,elapsed_time);// 销毁事件retaclrtDestroyEvent(event);5. 模型加载与执行加载和运行模型。#includeacl/acl.h// 加载模型uint32_tmodel_id;size_tmodel_size1024*1024;void*model_dataLoadModelFile(model.om);aclError retaclmdlLoadFromMem(model_data,model_size,model_id);// 获取模型描述aclmdlDesc*model_descaclmdlCreateDesc();retaclmdlGetDesc(model_desc,model_id);// 获取输入输出信息size_tinput_numaclmdlGetNumInputs(model_desc);size_toutput_numaclmdlGetNumOutputs(model_desc);printf(Model has %zu inputs, %zu outputs\n,input_num,output_num);// 创建输入数据集aclmdlDataset*input_datasetaclmdlCreateDataset();for(size_ti0;iinput_num;i){aclmdlIODims dims;aclmdlGetInputDims(model_desc,i,dims);size_tbuffer_sizeaclmdlGetInputSizeByIndex(model_desc,i);void*buffer;aclrtMalloc(buffer,buffer_size,ACL_MEM_MALLOC_NORMAL_ONLY);aclDataBuffer*data_bufferaclCreateDataBuffer(buffer,buffer_size);aclmdlAddDatasetBuffer(input_dataset,data_buffer);}// 创建输出数据集aclmdlDataset*output_datasetaclmdlCreateDataset();// 类似输入...// 执行模型retaclmdlExecute(model_id,input_dataset,output_dataset);// 获取输出数据aclDataBuffer*output_bufferaclmdlGetDatasetBuffer(output_dataset,0);void*output_dataaclGetDataBufferAddr(output_buffer);size_toutput_sizeaclGetDataBufferSizeV2(output_buffer);// 卸载模型retaclmdlUnload(model_id);// 清理aclmdlDestroyDesc(model_desc);aclmdlDestroyDataset(input_dataset);aclmdlDestroyDataset(output_dataset);6. 算子加载与执行加载和运行算子。#includeacl/acl.h// 加载算子aclopAttr*attraclopCreateAttr();aclopSetAttrFloat(attr,alpha,0.5);// 执行算子aclTensorDesc*input_descaclCreateTensorDesc(ACL_FLOAT16,2,dims,ACL_FORMAT_ND);aclTensorDesc*output_descaclCreateTensorDesc(ACL_FLOAT16,2,dims,ACL_FORMAT_ND);aclDataBuffer*input_bufferaclCreateDataBuffer(input_data,input_size);aclDataBuffer*output_bufferaclCreateDataBuffer(output_data,output_size);aclError retaclopCompileAndExecute(Add,// 算子类型1,input_desc,input_buffer,// 输入1,output_desc,output_buffer,// 输出attr,// 属性ACL_ENGINE_SYS,// 引擎ACL_COMPILE_SYS,// 编译选项nullptr,// optionstream// 流);// 清理aclopDestroyAttr(attr);aclDestroyTensorDesc(input_desc);aclDestroyTensorDesc(output_desc);aclDestroyDataBuffer(input_buffer);aclDestroyDataBuffer(output_buffer);完整推理示例#includeacl/acl.h#includestdio.h#includestdlib.hintmain(){// 1. 初始化 ACLaclError retaclInit(nullptr);if(ret!ACL_SUCCESS){printf(aclInit failed: %d\n,ret);return-1;}// 2. 设置设备retaclrtSetDevice(0);if(ret!ACL_SUCCESS){printf(aclrtSetDevice failed: %d\n,ret);aclFinalize();return-1;}// 3. 创建流aclrtStream stream;retaclrtCreateStream(stream);// 4. 加载模型uint32_tmodel_id;size_tmodel_size;void*model_dataLoadModelFile(resnet50.om,model_size);retaclmdlLoadFromMem(model_data,model_size,model_id);// 5. 获取模型描述aclmdlDesc*model_descaclmdlCreateDesc();aclmdlGetDesc(model_desc,model_id);// 6. 准备输入数据size_tinput_sizeaclmdlGetInputSizeByIndex(model_desc,0);void*input_data;aclrtMalloc(input_data,input_size,ACL_MEM_MALLOC_NORMAL_ONLY);// 填充输入数据这里用随机数据void*host_input;aclrtMallocHost(host_input,input_size);PrepareInputData(host_input,input_size);aclrtMemcpy(input_data,host_input,input_size,ACL_MEMCPY_HOST_TO_DEVICE);// 7. 创建输入输出数据集aclmdlDataset*input_datasetaclmdlCreateDataset();aclDataBuffer*input_bufferaclCreateDataBuffer(input_data,input_size);aclmdlAddDatasetBuffer(input_dataset,input_buffer);aclmdlDataset*output_datasetaclmdlCreateDataset();size_toutput_sizeaclmdlGetOutputSizeByIndex(model_desc,0);void*output_data;aclrtMalloc(output_data,output_size,ACL_MEM_MALLOC_NORMAL_ONLY);aclDataBuffer*output_bufferaclCreateDataBuffer(output_data,output_size);aclmdlAddDatasetBuffer(output_dataset,output_buffer);// 8. 执行推理retaclmdlExecute(model_id,input_dataset,output_dataset);// 9. 获取输出数据void*host_output;aclrtMallocHost(host_output,output_size);aclrtMemcpy(host_output,output_data,output_size,ACL_MEMCPY_DEVICE_TO_HOST);// 10. 后处理PostProcessOutput(host_output,output_size);// 11. 清理aclrtFreeHost(host_input);aclrtFreeHost(host_output);aclrtFree(input_data);aclrtFree(output_data);aclDestroyDataBuffer(input_buffer);aclDestroyDataBuffer(output_buffer);aclmdlDestroyDataset(input_dataset);aclmdlDestroyDataset(output_dataset);aclmdlDestroyDesc(model_desc);aclmdlUnload(model_id);aclrtDestroyStream(stream);aclrtResetDevice(0);aclFinalize();return0;}性能对比在昇腾 910 上运行 ResNet-50 推理框架启动时间推理延迟内存占用PyTorch5s15ms2GBTensorFlow3s18ms2.5GBacl原生0.3s8ms500MB你说气人不气人原生 API 比框架快 2 倍内存占用只有 1/4。错误处理#includeacl/acl.h// 检查返回值#defineACL_CHECK(call)\do{\aclError errcall;\if(err!ACL_SUCCESS){\printf(ACL error at %s:%d: %d\n,\__FILE__,__LINE__,err);\returnerr;\}\}while(0)// 使用示例aclErrorRunInference(){ACL_CHECK(aclInit(nullptr));ACL_CHECK(aclrtSetDevice(0));// ...returnACL_SUCCESS;}总结acl 是昇腾的应用开发接口设备管理初始化、设置设备内存管理分配、拷贝、释放流管理同步、异步执行事件管理同步、计时模型执行加载、推理算子执行加载、执行

相关文章:

写给前端的 CANN-acl:昇腾应用开发接口到底是啥?

写给前端的 CANN-acl:昇腾应用开发接口到底是啥? 之前有兄弟问我:“哥,我想直接调用昇腾的底层API,不用 PyTorch 这些框架,怎么搞?” 好问题。今天一次说清楚。 acl 是啥? acl Asce…...

1987年5月10日晚上23-24点出生性格、运势和命运

出生在下午13-15点这一时段,从心理发展角度来看,最大的性格红利是“社交直觉”。这类人往往在很小的时候就展现出一种能力:能快速识别他人的情绪,并自然地调整自己的行为以促进和谐。这并非玄学,而是因为下午出生婴儿的…...

使用Coze制作一个可以“动”的存钱罐,比记账APP更易用

可视化、AI驱动、自动提醒才是你智能存钱的伙伴──────────────────────────────为什么你的存钱计划总是失败?大多数人的存钱失败,并不是由于缺乏决心,而是缺少反馈。存多少钱、目标达成的比例、离目标还有多远…...

1987年6月14日下午13-15点出生性格、运势和命运

这篇文章讨论终极命题:出生时间只是一个随机数据点,真正的命运由你自己书写。我们将探讨如何利用“1987年5月27日中午11-13点”这个符号,作为自我激励的起点,而非束缚。第一步:解构“出生时间”的神秘性 请明确&#x…...

XRF导向的土壤重金属定量分析方法与应用【附模型】

✨ 长期致力于X射线荧光、土壤重金属、本底扣除、重叠峰解析、光谱联用研究工作,擅长数据搜集与处理、建模仿真、程序编写、仿真设计。 ✅ 专业定制毕设、代码 ✅ 如需沟通交流,点击《获取方式》 (1)非对称加权惩罚最小二乘本底扣…...

软件架构分析方法SAAM、ATAM与CBAM

一、SAAM(软件架构分析方法) 1. 核心思路 基于场景,评估架构对可修改性(以及可移植性、可扩充性)的支持程度。 关键是区分 直接场景(现有架构直接支持)和 间接场景(需要修改架构)。 通过分析间接场景的数量与修改代价,定位高风险、高耦合的模块。 2. 典型案例:内…...

SQL出现filesort 一定慢吗

前言:filesort 出现在当无法使用索引排序时,MySQL 必须自己计算排序顺序,这个过程称为 filesort。EXPLAIN 的 Extra 字段会出现 Using filesort。常见触发场景:排序列不在索引中,或顺序/方向与索引不一致ORDER BY 包含…...

Rust技术周刊 2026年第16周

阅读原文: https://mp.weixin.qq.com/s/9en-gxsNB544aG6hgkwJVQ 本周 Rust 生态亮点:GPU 计算突破(KAIO 达 cuBLAS 92.5%、flodl 多 GPU 训练),Tokio 异步优化实战频出,扩展标准库路线图发布,Rust 进入 Pix…...

FinalBurn Neo:一场跨越时空的街机游戏考古之旅

FinalBurn Neo:一场跨越时空的街机游戏考古之旅 【免费下载链接】FBNeo FinalBurn Neo - We are Team FBNeo. 项目地址: https://gitcode.com/gh_mirrors/fb/FBNeo 在数字时代的洪流中,有一群守护者正在用代码为经典街机游戏搭建永生的方舟。Fina…...

大模型的“文字障眼法“:FlipAttack 文本反转越狱技术全解析

一、先打个比方:你听说过"倒着说话"绕过安检吗? 想象一下,有个调皮的小孩想带进游乐园一个违禁品。安检人员耳朵很尖,一听到"炸弹""刀具"这些词就会拦人。于是小孩想了个办法——把话说反。 “我要…...

课堂教学PPT模板平台深度测评与选用指南

一、引言:PPT—— 课堂教学的重要辅助工具在当今的课堂教学中,PPT 已经成为了教师们不可或缺的 “魔法道具”。一份精心设计的 PPT,就像一位无声的助教,能够将抽象的知识变得直观形象,将枯燥的内容变得生动有趣。它不仅…...

帕鲁杯第二届应急响应:jumpserver,waf,mysql,sshserver,server01,Palu03,Palu02,每个靶机的漏洞总结

一、题目描述1.提交堡垒机中留下的flag2.提交waf中隐藏的flag3.提交mysql中留下的flag4.提交攻击者的攻击IP5.提交攻击者的最早攻击时间6.提交web服务泄露的关键文件名7.提交泄露的邮箱地址作为flag进行提交8.提交立足点服务器ip地址9.提交攻击者使用的提权用户密码10.提交攻击…...

意法半导体STM32F407VET6现货

在当今快速发展的电子技术领域,选择一款合适的微控制器对于项目成功至关重要。意法半导体(STMicroelectronics)推出的STM32F407VET6凭借其卓越性能、丰富的外设接口及广泛的应用场景,成为了众多开发者和工程师的首选。本文将深入探…...

写给前端的 CAAN-pyasc:昇腾Python Ascend C绑定到底是啥?

写给前端的 CAAN-pyasc:昇腾Python Ascend C绑定到底是啥? 之前有兄弟问我:“哥,我想在 Python 里直接写 Ascend C 算子,不想写 C,咋搞?” 好问题。今天一次说清楚。 pyasc 是啥? py…...

我的日常开发工具迭代|MonkeyCode实测存档

做开发日常,其实大部分编码需求都很琐碎,根本用不上繁杂的专业工具。但市面上的AI编程软件,要么收费贵、额度抠搜,要么功能臃肿、操作繁琐,用起来处处受限。我一直在找一款适配个人日常使用、不折腾、无套路的轻量化编…...

HTTPS一文通

https 的出现,为解决网络加密通信提供了完美的解决方案。现在得到了非常普遍的运用。但 https 的原理和部署方式还存在一些较迷惑的点。 一、基础数学知识 在普通的http通讯过程中,前端浏览器和服务器之间传递的都是明文,这样敏感信息就容易被…...

计算机二级 WPS 文字题:样式调整考点 详细解析

计算机二级 WPS 文字题:样式调整考点 详细解析 这道题是WPS 文字 / Word 样式设置的高频必考题型,核心考点是「样式批量修改」和「分页控制」,我会把每一步的操作、考点和易错点都拆解清楚。 一、题目整体拆解 题目分为 3 个核心任务&#…...

警惕AI领域虚构技术名词:Mythos等未证实概念辨析

我不能按照您的要求生成关于“TAI #200: Anthropic’s Mythos Capability Step Change and Gated Release”的博文内容。原因如下:该标题涉及未经公开验证的虚构/推测性信息:截至目前(2024年中),Anthropic 官方未发布任…...

别再硬算方向了!Fluent局部坐标系三种方向设置方法(Diffusion/Base Vector/Vector Projection)保姆级详解

Fluent局部坐标系方向设置:从原理到避坑的深度实践指南 在复杂几何模拟中,局部坐标系就像给CFD工程师的一把瑞士军刀——它能优雅地解决弯曲流道、各向异性材料等场景下的方向定义难题。但很多用户在使用Fluent的曲线坐标系时,往往在方向设置…...

ARMv8 AArch32虚拟内存系统与异常处理机制详解

1. AArch32虚拟内存系统架构概述AArch32是ARMv8架构中的32位执行状态,其虚拟内存系统架构(VMSAv8-32)是现代嵌入式系统和虚拟化平台的核心组件。这套系统通过精巧的硬件设计实现了内存隔离、访问控制和地址转换等关键功能。VMSAv8-32最显著的特点是采用了两阶段地址…...

别再死记公式了!用Python手把手实现粒子群算法(PSO)优化函数寻优

别再死记公式了!用Python手把手实现粒子群算法(PSO)优化函数寻优 粒子群算法(PSO)作为经典的群体智能优化方法,常被用于解决复杂的非线性优化问题。但大多数教程都停留在数学公式推导层面,让初学…...

CW-DAPLINK调试器开箱体验:从拆包到点亮第一个LED灯的全过程

CW-DAPLINK调试器开箱体验:从拆包到点亮第一个LED灯的全过程 拆开快递包装的那一刻,看到印有CW-DAPLINK字样的白色小盒子,作为嵌入式开发新手的我既兴奋又忐忑。这款由武汉芯源半导体推出的调试工具,将成为我探索CW32系列MCU世界的…...

AI驱动数字孪生:从静态镜像到自主决策的工业智能体

1. 项目概述:当物理世界有了“数字分身”,它就开始自己思考了我第一次在德国一家汽车厂的控制中心看到那个画面时,手里的咖啡差点洒出来——大屏幕上,整条总装线正以毫秒级延迟同步运转:机械臂的关节扭矩、焊点温度曲线…...

STM32 USB开发避坑指南:手把手教你读懂并配置端点描述符(附完整代码)

STM32 USB开发避坑指南:手把手教你读懂并配置端点描述符(附完整代码) 在嵌入式开发领域,USB通信一直是让工程师又爱又恨的技术。爱它的通用性和高速传输能力,恨它那晦涩难懂的协议栈和层出不穷的配置问题。特别是当项目…...

你的仿真传感器数据准吗?Gazebo中激光雷达与深度相机的噪声模型配置与Rviz可视化调参实战

高保真机器人仿真:Gazebo传感器噪声模型与Rviz可视化调参全指南 在机器人算法开发中,仿真环境的真实性直接决定了算法测试的有效性。许多SLAM和导航算法在仿真环境中表现优异,一旦部署到真实机器人上却出现各种问题,这往往源于仿真…...

告别操作割裂感:保存你的专属Blender配置文件(含Unity键位预设)

告别操作割裂感:保存你的专属Blender配置文件(含Unity键位预设) 在三维创作流程中,Blender与Unity的组合堪称黄金搭档。但当你在两个软件间频繁切换时,截然不同的操作方式就像开车时突然换挡——明明想左转却按了雨刷器…...

零极点分析:从系统稳定性到滤波器设计的核心工程工具

1. 项目概述:从“系统行为”的根源说起在信号处理、控制理论乃至电路设计的日常工作中,我们常常需要面对一个核心问题:如何预测、分析和设计一个系统的动态行为?无论是设计一个能稳定跟踪目标的控制器,还是优化一个音频…...

超越UNO:手把手教你为ESP8266和AVR单片机配置任意GPIO中断(附端口变化中断PCINT实战)

突破硬件限制:ESP8266与AVR单片机全引脚中断配置实战指南 在嵌入式开发中,中断处理是提升系统响应效率的核心技术。传统Arduino UNO仅提供2个专用外部中断引脚(D2和D3),当项目需要同时监控多个传感器或按钮时&#xff…...

机器学习赋能多共振生物传感:从多维光学数据中挖掘精准检测新范式

1. 项目概述与核心思路在生物传感和医疗诊断领域,我们一直在追求更高的检测精度和更低的检测限。传统的光学折射率传感器,比如基于表面等离子体共振(SPR)或法布里-珀罗腔的传感器,其工作原理大多依赖于监测单个光学共振…...

全链路追踪:OpenTelemetry与Jaeger实战

全链路追踪:OpenTelemetry与Jaeger实战 大家好,我是欧阳瑞(Rich Own)。今天想和大家聊聊全链路追踪这个重要话题。作为一个全栈开发者,在微服务架构中,全链路追踪是定位问题和性能优化的关键工具。今天就来…...