当前位置: 首页 > article >正文

CANN/ops-math 对角线张量算子

aclnnDiagFlat【免费下载链接】ops-math本项目是CANN提供的数学类基础计算算子库实现网络在NPU上加速计算。项目地址: https://gitcode.com/cann/ops-math 查看源码产品支持情况产品是否支持Ascend 950PR/Ascend 950DT√Atlas A3 训练系列产品/Atlas A3 推理系列产品√Atlas A2 训练系列产品/Atlas A2 推理系列产品√Atlas 200I/500 A2 推理产品×Atlas 推理系列产品√Atlas 训练系列产品√功能说明生成对角线张量。如果输入self为一维张量则返回二维张量self里元素为对角线值如果输入self是二维及以上张量则先进行扁平化化简为一维张量再转化为第一种场景处理。函数原型每个算子分为两段式接口必须先调用“aclnnDiagFlatGetWorkspaceSize”接口获取计算所需workspace大小以及包含了算子计算流程的执行器再调用“aclnnDiagFlat”接口执行计算。aclnnStatus aclnnDiagFlatGetWorkspaceSize( const aclTensor* self, int64_t diagonal, aclTensor* out, uint64_t* workspaceSize, aclOpExecutor** executor)aclnnStatus aclnnDiagFlat( void* workspace, uint64_t workspaceSize, aclOpExecutor* executor, aclrtStream stream)aclnnDiagFlatGetWorkspaceSize参数说明参数名输入/输出描述使用说明数据类型数据格式维度(shape)非连续TensorselfaclTensor*输入表示填充到对角线的Tensor。-FLOAT、FLOAT16、DOUBLE、INT32、INT64、INT16、INT8、UINT8、BOOL、COMPLEX64、BFLOAT16。ND1-8√diagonalint64_t输入用来指定对角线。diagonal 0表示主对角线。diagonal 0表示主对角线上方的对角线。diagonal 0表示主对角线下方的对角线。-INT64ND--outaclTensor*输出输出Tensor-与self保持一致ND1-8√workspaceSizeuint64_t*输出返回需要在Device侧申请的workspace大小。-----executoraclOpExecutor**输出返回op执行器包含了算子计算流程。-----返回值aclnnStatus返回状态码具体参见aclnn返回码。第一段接口完成入参校验出现以下场景时报错返回值错误码描述ACLNN_ERR_PARAM_NULLPTR161001传入的self或out是空指针。ACLNN_ERR_PARAM_INVALID161002self和out的数据类型不在支持的范围之内。diagonal不在支持的数据类型范围之内。aclnnDiagFlat参数说明参数名输入/输出描述workspace输入在Device侧申请的workspace内存地址。workspaceSize输入在Device侧申请的workspace大小由第一段接口aclnnDiagFlatGetWorkspaceSize获取。executor输入op执行器包含了算子计算流程。stream输入指定执行任务的Stream。返回值aclnnStatus返回状态码具体参见aclnn返回码。约束说明确定性计算aclnnDiagFlat默认确定性实现。注意当前接口aclnnDiagFlat暂不具备反向功能。调用示例示例代码如下仅供参考具体编译和执行过程请参考编译与运行样例。#include iostream #include vector #include acl/acl.h #include aclnnop/aclnn_diag_flat.h #define CHECK_RET(cond, return_expr) \ do { \ if (!(cond)) { \ return_expr; \ } \ } while (0) #define LOG_PRINT(message, ...) \ do { \ printf(message, ##__VA_ARGS__); \ } while (0) int64_t GetShapeSize(const std::vectorint64_t shape) { int64_t shapeSize 1; for (auto i : shape) { shapeSize * i; } return shapeSize; } int Init(int32_t deviceId, aclrtStream* stream) { // 固定写法资源初始化 auto ret aclInit(nullptr); CHECK_RET(ret ACL_SUCCESS, LOG_PRINT(aclInit failed. ERROR: %d\n, ret); return ret); ret aclrtSetDevice(deviceId); CHECK_RET(ret ACL_SUCCESS, LOG_PRINT(aclrtSetDevice failed. ERROR: %d\n, ret); return ret); ret aclrtCreateStream(stream); CHECK_RET(ret ACL_SUCCESS, LOG_PRINT(aclrtCreateStream failed. ERROR: %d\n, ret); return ret); return 0; } template typename T int CreateAclTensor(const std::vectorT hostData, const std::vectorint64_t shape, void** deviceAddr, aclDataType dataType, aclTensor** tensor) { auto size GetShapeSize(shape) * sizeof(T); // 调用aclrtMalloc申请device侧内存 auto ret aclrtMalloc(deviceAddr, size, ACL_MEM_MALLOC_HUGE_FIRST); CHECK_RET(ret ACL_SUCCESS, LOG_PRINT(aclrtMalloc failed. ERROR: %d\n, ret); return ret); // 调用aclrtMemcpy将host侧数据拷贝到device侧内存上 ret aclrtMemcpy(*deviceAddr, size, hostData.data(), size, ACL_MEMCPY_HOST_TO_DEVICE); CHECK_RET(ret ACL_SUCCESS, LOG_PRINT(aclrtMemcpy failed. ERROR: %d\n, ret); return ret); // 计算连续tensor的strides std::vectorint64_t strides(shape.size(), 1); for (int64_t i shape.size() - 2; i 0; i--) { strides[i] shape[i 1] * strides[i 1]; } // 调用aclCreateTensor接口创建aclTensor *tensor aclCreateTensor(shape.data(), shape.size(), dataType, strides.data(), 0, aclFormat::ACL_FORMAT_ND, shape.data(), shape.size(), *deviceAddr); return 0; } int main() { // 1. 固定写法device/stream初始化参考acl API手册 // 根据自己的实际device填写deviceId int32_t deviceId 0; aclrtStream stream; auto ret Init(deviceId, stream); CHECK_RET(ret ACL_SUCCESS, LOG_PRINT(Init acl failed. ERROR: %d\n, ret); return ret); // 2. 构造输入与输出需要根据API的接口自定义构造 std::vectorint64_t selfShape {1, 2}; std::vectorint64_t outShape {3, 3}; void* selfDeviceAddr nullptr; void* outDeviceAddr nullptr; aclTensor* self nullptr; aclTensor* out nullptr; std::vectorfloat selfHostData {2, 5}; std::vectorfloat outHostData {0, 0, 0, 0, 0, 0, 0, 0, 0}; int64_t diagonalVal 1; // 创建self aclTensor ret CreateAclTensor(selfHostData, selfShape, selfDeviceAddr, aclDataType::ACL_FLOAT, self); CHECK_RET(ret ACL_SUCCESS, return ret); // 创建out aclTensor ret CreateAclTensor(outHostData, outShape, outDeviceAddr, aclDataType::ACL_FLOAT, out); CHECK_RET(ret ACL_SUCCESS, return ret); // 3. 调用CANN算子库API需要修改为具体的Api名称 uint64_t workspaceSize 0; aclOpExecutor* executor; // 调用aclnnDiagFlat第一段接口 ret aclnnDiagFlatGetWorkspaceSize(self, diagonalVal, out, workspaceSize, executor); CHECK_RET(ret ACL_SUCCESS, LOG_PRINT(aclnnDiagFlatGetWorkspaceSize failed. ERROR: %d\n, ret); return ret); // 根据第一段接口计算出的workspaceSize申请device内存 void* workspaceAddr nullptr; if (workspaceSize 0) { ret aclrtMalloc(workspaceAddr, workspaceSize, ACL_MEM_MALLOC_HUGE_FIRST); CHECK_RET(ret ACL_SUCCESS, LOG_PRINT(allocate workspace failed. ERROR: %d\n, ret); return ret); } // 调用aclnnDiagFlat第二段接口 ret aclnnDiagFlat(workspaceAddr, workspaceSize, executor, stream); CHECK_RET(ret ACL_SUCCESS, LOG_PRINT(aclnnDiagFlat failed. ERROR: %d\n, ret); return ret); // 4. 固定写法同步等待任务执行结束 ret aclrtSynchronizeStream(stream); CHECK_RET(ret ACL_SUCCESS, LOG_PRINT(aclrtSynchronizeStream failed. ERROR: %d\n, ret); return ret); // 5. 获取输出的值将device侧内存上的结果拷贝至host侧需要根据具体API的接口定义修改 auto size GetShapeSize(outShape); std::vectorfloat resultData(size, 0); ret aclrtMemcpy(resultData.data(), resultData.size() * sizeof(resultData[0]), outDeviceAddr, size * sizeof(resultData[0]), ACL_MEMCPY_DEVICE_TO_HOST); CHECK_RET(ret ACL_SUCCESS, LOG_PRINT(copy result from device to host failed. ERROR: %d\n, ret); return ret); for (int64_t i 0; i size; i) { LOG_PRINT(result[%ld] is: %f\n, i, resultData[i]); } // 6. 释放aclTensor需要根据具体API的接口定义修改 aclDestroyTensor(self); aclDestroyTensor(out); // 7. 释放device资源 aclrtFree(selfDeviceAddr); aclrtFree(outDeviceAddr); if (workspaceSize 0) { aclrtFree(workspaceAddr); } aclrtDestroyStream(stream); aclrtResetDevice(deviceId); aclFinalize(); return 0; }【免费下载链接】ops-math本项目是CANN提供的数学类基础计算算子库实现网络在NPU上加速计算。项目地址: https://gitcode.com/cann/ops-math创作声明:本文部分内容由AI辅助生成(AIGC),仅供参考

相关文章:

CANN/ops-math 对角线张量算子

aclnnDiagFlat 【免费下载链接】ops-math 本项目是CANN提供的数学类基础计算算子库,实现网络在NPU上加速计算。 项目地址: https://gitcode.com/cann/ops-math 📄 查看源码 产品支持情况 产品是否支持 Ascend 950PR/Ascend 950DT √ Atlas A3 训…...

CANN/cannbot-skills Ops EasyASC DSL 仓库地图

Repository Map 【免费下载链接】cannbot-skills CANNBot 是面向 CANN 开发的用于提升开发效率的系列智能体,本仓库为其提供可复用的 Skills 模块。 项目地址: https://gitcode.com/cann/cannbot-skills Use this file when the question is about where som…...

设计模式的原则和策略

在局部层次,模式告诉如何解决给定背景下的特定问题;在全局层次,模式提供了一张应用程序各组件的关系图。可总结出六大原则1.单一职责原则类中的职责过多时,一具职责变化可能会削弱或抑制这个类完成其它职责的能力,导致…...

Android类加载

Android类加载机制Android类加载机制的核心是将class文件映射为内存中的class对象。类加载机制是热修复技术的基础。面试常见考点包括:双亲委派机制及其作用PathClassLoader与DexClassLoader的功能差异类初始化的触发条件静态方法为何不能调用非静态变量…...

可见性、有序性、原子性

可见性:当一个线程对共享变量进行修改后,另一个线程可以立即看到该变量修改后的最新值。有序性:程序执行的顺序按照代码的先后顺序执行。原子性:在一次或者多次操作时,要么所有操作都被执行,要么所有操作都…...

缓存内存模型

‌CPU缓存与寄存器‌CPU缓存不是寄存器..‌核心区别‌寄存器‌:位于CPU内部最顶层,速度最快(通常在一个CPU周期内完成访问),容量极小(仅几十字节到几百字节),用于存放当前正在处理的…...

cocos2d-iPhone

1.cocos2d-iphone环境搭建 第一步:下载cocos2d-iphone最新版本;地址:http://code.google.com/p/cocos2d-iphone/downloads/list (当前最新2.1-beta) 第二步:下载完成之后解压&#x…...

途游游戏AI产品经理面试题精选:10道高频考题+答案解析

途游游戏简介途游游戏(Tuyoo Games)成立于2013年,是中国领先的互动娱乐供应商,全球服务用户超过十亿,日活跃用户近500万。公司以策略、休闲双产品线为核心,代表产品包括《捕鱼大作战》等,长期位…...

TypeScript HTTP客户端clientele:声明式API与全链路类型安全实践

1. 项目概述:一个现代、类型安全的HTTP客户端库在构建现代应用程序时,与外部API进行通信几乎是每个开发者都会遇到的日常任务。无论是调用一个天气服务、与支付网关交互,还是从内部微服务获取数据,你都需要一个可靠、高效且易于维…...

《QGIS空间数据处理与高级制图》001:什么是空间数据预处理?

作者:翰墨之道,毕业于国际知名大学空间信息与计算机专业,获硕士学位,现任国内时空智能领域资深专家、CSDN知名技术博主。多年来深耕地理信息与时空智能核心技术研发,精通 QGIS、GrassGIS、OSG、OsgEarth、UE、Cesium、…...

SD-WebUI-Inpaint-Anything:智能图像修复的终极指南

SD-WebUI-Inpaint-Anything:智能图像修复的终极指南 【免费下载链接】sd-webui-inpaint-anything Inpaint Anything extension performs stable diffusion inpainting on a browser UI using masks from Segment Anything. 项目地址: https://gitcode.com/gh_mirr…...

Hermes Agent对接Taotoken自定义提供商配置详解

🚀 告别海外账号与网络限制!稳定直连全球优质大模型,限时半价接入中。 👉 点击领取海量免费额度 Hermes Agent对接Taotoken自定义提供商配置详解 1. 准备工作 在开始配置之前,你需要准备好两样东西:一个有…...

opencode-mcp:让AI编码助手学会“摇人”的本地自动化工具

1. 项目概述:当你的AI助手学会“摇人” 如果你和我一样,每天都在和Claude、Cursor这类AI编码助手打交道,那你肯定遇到过这个场景:你让它“重构一下这个模块”,它噼里啪啦给你生成了一堆代码,然后你发现它没…...

Godot运行时控制台:实时调试与游戏状态交互的瑞士军刀

1. 项目概述:一个为Godot游戏引擎量身打造的开发者控制台 如果你正在用Godot引擎开发游戏,尤其是在调试阶段,你肯定遇到过这样的场景:游戏运行时,你想快速修改一个角色的移动速度,或者想立刻查看当前场景中…...

XUnity Auto Translator:打破语言壁垒的Unity游戏翻译革命性方案

XUnity Auto Translator:打破语言壁垒的Unity游戏翻译革命性方案 【免费下载链接】XUnity.AutoTranslator 项目地址: https://gitcode.com/gh_mirrors/xu/XUnity.AutoTranslator 你是否曾经遇到过这样的情况:终于等到心仪的Unity游戏发售&#x…...

Taotoken API Key 的精细化管理与访问控制实践

🚀 告别海外账号与网络限制!稳定直连全球优质大模型,限时半价接入中。 👉 点击领取海量免费额度 Taotoken API Key 的精细化管理与访问控制实践 在团队协作与多项目并行的开发环境中,大模型 API 密钥的管理往往成为一…...

从CV到NLP:在SAM模型里第一次用torch.nn.Embedding,我搞懂了词嵌入是咋回事

从CV到NLP:在SAM模型里第一次用torch.nn.Embedding,我搞懂了词嵌入是咋回事 第一次在Segment Anything Model(SAM)的PromptEncoder模块中看到nn.Embedding时,我盯着那行代码愣了半天——作为长期在计算机视觉领域摸爬…...

鸿蒙 App 重构:如何从混乱到清晰?

子玥酱 (掘金 / 知乎 / CSDN / 简书 同名) 大家好,我是 子玥酱,一名长期深耕在一线的前端程序媛 👩‍💻。曾就职于多家知名互联网大厂,目前在某国企负责前端软件研发相关工作,主要聚…...

CANN / runtime 内存语义同步

内存语义同步 【免费下载链接】runtime 本项目提供CANN运行时组件和维测功能组件。 项目地址: https://gitcode.com/cann/runtime 内存语义同步机制允许用户基于通用Device内存实现同步。与Event/Notify同步机制不同,基于内存语义的同步机制还支持算子作为同…...

2026届学术党必备的降AI率神器实测分析

Ai论文网站排名(开题报告、文献综述、降aigc率、降重综合对比) TOP1. 千笔AI TOP2. aipasspaper TOP3. 清北论文 TOP4. 豆包 TOP5. kimi TOP6. deepseek 作为一款基于自然语言处理跟深度学习技术的智能辅助工具,AI 写作软件可以快速生成…...

别再被‘共地’坑了!STM32连接热敏打印机从接线到打印的保姆级避坑教程

STM32与热敏打印机联调实战:从共地原理到格式化文本输出的完整指南 当你兴奋地将STM32与热敏打印机连接,却发现无论如何发送数据都如同石沉大海时,那种挫败感每个嵌入式开发者都深有体会。这往往不是代码逻辑的问题,而是硬件连接…...

CANN/ops-cv 三线性上采样算子

ResizeUpsampleTrilinear 【免费下载链接】ops-cv 本项目是CANN提供的图像处理、目标检测相关的算子库,实现网络在NPU上加速计算。 项目地址: https://gitcode.com/cann/ops-cv 产品支持情况 产品是否支持Ascend 950PR/Ascend 950DTAtlas A3 训练系列产品/A…...

开源复合工程工具OpenClaw的维护实践与架构演进

1. 项目概述与核心价值 最近在开源社区里,一个名为 foxjwjw99-rgb/compound-engineering-openclaw-maintenance 的项目引起了我的注意。这个项目标题乍一看有点长,但拆解开来,信息量不小。 foxjwjw99-rgb 看起来是作者或组织的标识&#…...

多模态AI对齐技术:从CLIP对比学习到BLIP融合架构的工程实践

1. 项目概述:为什么“对齐”是多模态AI的命门?如果你最近在捣鼓大语言模型(LLM)或者图像生成模型,可能会发现一个有趣的现象:让模型“画一只猫坐在键盘上”,它可能给你生成一只猫,旁…...

昇腾CANN/GE UDF接口列表

UDF接口列表 【免费下载链接】ge GE(Graph Engine)是面向昇腾的图编译器和执行器,提供了计算图优化、多流并行、内存复用和模型下沉等技术手段,加速模型执行效率,减少模型内存占用。 GE 提供对 PyTorch、TensorFlow 前…...

构建高效工程文化:从核心原则到团队实践指南

1. 什么是好的工程文化?从一次讨论说起前几天翻看一些老资料,又看到了EE Times在2012年那篇关于工程文化的文章,里面提到了当时在Quora上很火的一个帖子:“什么造就了好的工程文化?” 发起人Edmond Lau,一位…...

CANN/sip交换向量示例

信号处理加速库SwapOperation C Demo 【免费下载链接】sip 本项目是CANN提供的一款高效、可靠的高性能信号处理算子加速库,基于华为Ascend AI处理器,专门为信号处理领域而设计。 项目地址: https://gitcode.com/cann/sip 介绍 该目录下为信号处理…...

测试90测试90测试90测试90测试90

测试90测试90测试90测试90测试90测试90测试90测试90测试90测试90...

AI编程助手Cursor开源生态实践:智能体配置与自动化工作流

1. 项目概述:当AI代码助手遇上开源协作 最近在开发者圈子里,一个名为 undivided-actium697/opencode-cursor 的项目引起了我的注意。乍一看,这像是一个普通的GitHub仓库,但它的名字组合却很有意思:“opencode”和“c…...

安全关键领域可解释AI:从技术原理到人机协同的实践指南

1. 项目概述:当AI走进驾驶舱与手术室“可解释AI”这个词,在技术圈里已经热了好几年。但如果你问一个在自动驾驶测试场里盯着屏幕的工程师,或者一个在手术室里准备引入AI辅助诊断系统的医生,他们最关心的是什么?答案往往…...