当前位置: 首页 > article >正文

CANN/ops-blas快速入门指南

快速入门基于ops-blas仓【免费下载链接】ops-blas本项目是CANN提供的高性能线性代数计算以及轻量化GEMM调用算子库。项目地址: https://gitcode.com/cann/ops-blas使用须知本指南旨在帮助您快速上手CANN和ops-blas算子仓的使用。为方便快速了解算子开发全流程将以Copy算子为实践对象其源文件位于ops-blas/blas/copy具体操作流程如下环境部署完成软件包安装和源码下载此处不再赘述。快速入门场景下推荐WebIDE或Docker环境安装操作简单。说明当前WebIDE或Docker环境默认最新商发版CANN包如需体验master分支最新能力可手动安装CANN包注意软件与源码版本配套。编译运行编译自定义算子包并安装实现快速调用算子。算子开发通过修改现有算子Kernel体验开发、编译、验证的完整闭环。算子调试掌握算子打印和性能采集方法。一、编译运行本阶段目的是快速体验项目标准流程验证环境能否成功进行算子源码编译、打包、安装和运行。1. 编译Copy算子环境准备好后注意软件与源码版本配套进入环境并访问项目源码根目录编译指定算子。通用编译命令格式bash build.sh --pkg --soc芯片版本 --ops算子名。以Copy算子为例编译命令如下bash build.sh --pkg --socascend950 --opsscopy若提示如下信息说明编译成功。Self-extractable archive cann-ops-blas_${cann_version}_linux-${arch}.run successfully created.编译成功后run包存放于项目根目录的build_out目录下。2. 安装Copy算子包./build_out/cann-${soc_name}-ops-blas_${version}_linux-${arch}.run3. 快速验证运行算子样例通用的运行命令格式bash build.sh --soc芯片版本 --ops算子名 --run。以Copy为例其提供了简单算子样例test/scopy/scopy_test.cpp运行该样例验证算子功能是否正常。bash build.sh --pkg --socascend950 --opsscopy --run预期输出打印算子Copy的计算结果表明算子已成功部署并正确执行。Running scopy_test... Output: 1.2 1.2 1.2 1.2 1.2 1.2 1.2 1.2 ... Golden: 1.2 1.2 1.2 1.2 1.2 1.2 1.2 1.2 ... [Success] Case accuracy is verification passed.二、算子开发本阶段目的是对已成功运行的Copy算子尝试修改核函数代码。1. 修改Kernel实现找到Copy算子的核心kernel实现文件blas/copy/scopy_kernel.cpp尝试修改算子中的DataCopy操作template typename T __aicore__ inline void CopyAIVT::SingleIteration(uint32_t curOffset, uint32_t dataCount) { LocalTensorT inLocal inQueue.AllocTensorT(); DataCopy(inLocal, inGM[curOffset], dataCount); inQueue.EnQueT(inLocal); int32_t eventIDMTE2ToMTE3 static_castint32_t(GetTPipePtr()-FetchEventID(AscendC::HardEvent::MTE2_MTE3)); AscendC::SetFlagAscendC::HardEvent::MTE2_MTE3(eventIDMTE2ToMTE3); AscendC::WaitFlagAscendC::HardEvent::MTE2_MTE3(eventIDMTE2ToMTE3); LocalTensorT outLocal inQueue.DeQueT(); // DataCopy(outGM[curOffset], outLocal, dataCount); // 补充相应的AIV计算操作 inQueue.FreeTensor(outLocal); int32_t eventIDMTE3ToMTE2 static_castint32_t(GetTPipePtr()-FetchEventID(AscendC::HardEvent::MTE3_MTE2)); AscendC::SetFlagAscendC::HardEvent::MTE3_MTE2(eventIDMTE3ToMTE2); AscendC::WaitFlagAscendC::HardEvent::MTE3_MTE2(eventIDMTE3ToMTE2); }2. 编译与验证重复编译运行章节中的步骤重新编译 先回到项目根目录编译命令如下bash build.sh --pkg --socascend950 --opsscopy重新安装./build_out/cann-*-ops-blas_*.run重新验证bash build.sh --socascend950 --opsscopy --run成功标志输出结果精度比对成功。Running scopy_test... Output: 1.2 1.2 1.2 1.2 1.2 1.2 1.2 1.2 ... Golden: 1.2 1.2 1.2 1.2 1.2 1.2 1.2 1.2 ... [Success] Case accuracy is verification passed.三、算子调试本阶段以Copy为例在算子中添加打印并采集算子性能数据以便后续问题分析定位。1. 打印算子如果出现执行失败、精度异常等问题添加打印进行问题分析和定位。请在blas/copy/scopy_kernel.cpp中进行代码修改。printf该接口支持打印Scalar类型数据如整数、字符型、布尔型等详细介绍请参见《Ascend C API》中“算子调测API printf”。blockLength_ (tilingData-totalLength AscendC::GetBlockNum() - 1) / AscendC::GetBlockNum(); tileNum_ tilingData-tileNum; tileLength_ ((blockLength_ tileNum_ - 1) / tileNum_ / BUFFER_NUM) ? ((blockLength_ tileNum_ - 1) / tileNum_ / BUFFER_NUM) : 1; // 打印当前核计算Block长度 AscendC::PRINTF(Tiling blockLength is %llu\n, blockLength_);DumpTensor该接口支持Dump指定Tensor的内容同时支持打印自定义附加信息比如当前行号等详细介绍请参见《Ascend C API》中“算子调测API DumpTensor”。AscendC::LocalTensorT zLocal outputQueueZ.DeQueT(); // 打印zLocal Tensor信息 DumpTensor(zLocal, 0, 128);2. 性能采集当算子功能验证正确后可通过msprof工具采集算子性能数据。生成可执行文件调用Copy算子的test样例生成可执行文件scopy_test该文件位于项目ops-blas/build/test/scopy目录。bash build.sh --socascend950 --opsscopy采集性能数据进入Copy算子可执行文件目录ops-blas/build/test/scopy执行如下命令msprof --application./scopy_test采集结果在项目ops-blas/build/test/scopy目录msprof命令执行完后会自动解析并导出性能数据结果文件详细内容请参见msprof。【免费下载链接】ops-blas本项目是CANN提供的高性能线性代数计算以及轻量化GEMM调用算子库。项目地址: https://gitcode.com/cann/ops-blas创作声明:本文部分内容由AI辅助生成(AIGC),仅供参考

相关文章:

CANN/ops-blas快速入门指南

快速入门:基于ops-blas仓 【免费下载链接】ops-blas 本项目是CANN提供的高性能线性代数计算以及轻量化GEMM调用算子库。 项目地址: https://gitcode.com/cann/ops-blas 使用须知 本指南旨在帮助您快速上手CANN和ops-blas算子仓的使用。为方便快速了解算子开…...

基于MFDFA、传递熵与Kuramoto模型的EEG信号特征工程实践

1. 项目概述:从EEG信号到网络动力学特征的工程化探索在神经科学和脑机接口领域,脑电图信号分析一直是个既迷人又充满挑战的课题。我们面对的是一系列从头皮表面采集到的、看似杂乱无章的微弱电信号,它们背后却隐藏着大脑这个复杂系统运作的奥…...

5分钟让小爱音箱变身AI语音助手:MiGPT完整指南

5分钟让小爱音箱变身AI语音助手:MiGPT完整指南 【免费下载链接】mi-gpt 🏠 将小爱音箱接入 ChatGPT 和豆包,改造成你的专属语音助手。 项目地址: https://gitcode.com/GitHub_Trending/mi/mi-gpt 你是否曾经对着小爱音箱提问&#xff…...

生成式AI在医疗领域的伦理挑战与GREAT PLEA治理框架实践

1. 项目概述:当生成式AI走进手术室与战场最近和几位在医疗信息化和国防科技领域的朋友聊天,话题不约而同地聚焦在了同一个“新工具”上:生成式人工智能。一位三甲医院的影像科主任正在为科室是否引入AI辅助报告生成系统而纠结,他既…...

PowerShell效率翻倍:给你的终端加个‘时光机’,永久保存并快速检索所有历史命令(基于PSReadLine)

PowerShell效率革命:构建你的命令时光机与智能检索系统 每次在终端里反复输入相似的命令时,你是否想过——那些曾经敲过的命令,其实是你最宝贵的数字资产?PowerShell的默认历史记录功能就像沙滩上的脚印,一次退潮就会消…...

构建AI for Science统一生态:从数据、模型到社区的核心架构与实践

1. 项目概述:当AI遇见科学,一场范式革命正在发生“AI for Science”这个词,最近几年在科研圈和工业界的热度是肉眼可见地飙升。它早已不是实验室里的概念玩具,而是正在实实在在地重塑我们探索未知、解决复杂科学问题的方式。简单来…...

从问题到解决方案:Atmosphere大气层系统深度配置与优化指南

从问题到解决方案:Atmosphere大气层系统深度配置与优化指南 【免费下载链接】Atmosphere-stable 大气层整合包系统稳定版 项目地址: https://gitcode.com/gh_mirrors/at/Atmosphere-stable Atmosphere大气层系统作为Nintendo Switch最受欢迎的自定义固件之一…...

别再买错USB转串口模块了!手把手教你用CH340G芯片自己做一个(附完整原理图)

从零打造高性价比USB转串口模块:CH340G实战指南 为什么选择自制USB转串口模块? 市面上充斥着各种USB转串口模块,价格从几元到几十元不等,质量却参差不齐。不少开发者都遇到过这样的糟心事:买回来的模块要么驱动装不上&…...

数据分析中的车辆重新分配

在数据分析中,我们常常需要处理和重新排列数据以满足特定需求。今天我们将讨论一个有趣的案例:如何使用Python中的Pandas库重新排序一个数据框(DataFrame),以确保在重新分配车辆时遵循特定的分配规则。 案例背景 假设你有一份车辆重新分配的记录表,每个车辆从一个账户转…...

基于深度学习的YOLOV8目标检测+目标跟踪+车辆测速+车辆行人计数+交互式禁停区域识别+GUI

文章目录YOLOV8目标跟踪与测速(绘制进出线与禁停区域)使用后端运行参数修改可视化界面界面参数测速不准测速不准进出线与禁停区域禁停区域时间禁停区域时间YOLOV8目标跟踪与测速(绘制进出线与禁停区域) 使用 后端运行 python d…...

图片换背景底色怎么制作?2026年最全工具对比和实战指南

最近有个朋友问我,怎样才能快速给证件照换个漂亮的背景色,结果我才意识到,身边很多人其实都在为这个问题纠结。无论是需要制作证件照、商品图还是简单的头像美化,图片换背景底色这个需求真的很常见。我自己也经历过这个阶段——以…...

2026年照片换背景底色在线制作免费工具大测评,我找到了最好用的方案

最近有个朋友要给淘宝店铺换商品图背景,另一个朋友需要准备证件照,还有人在处理婚礼合影想要统一背景……我才意识到,照片换背景底色在线制作免费这个需求,真的是太常见了。以前我对这类需求也头疼,总觉得没有专业软件…...

基于深度学习的遥感建筑物分割识别 yolov11遥感图像分割 无人机车辆识别 无人机道路分割识别

YOLOv11 在遥感图像分割中的应用:建筑物、汽车与道路的精准识别 遥感图像分割是地理信息系统(GIS)、智慧城市规划和灾害监测等领域的核心技术。随着深度学习的发展,YOLO(You Only Look Once)系列模型因其高…...

CANN元数据融合解析函数

FusionParseParamsFn(Overload) 【免费下载链接】metadef Ascend Metadata Definition 项目地址: https://gitcode.com/cann/metadef 函数功能 注册解析融合算子属性的函数,为FusionParseParamsFn的重载函数。 函数原型 [OpRegistr…...

自动化内容创作:从链接到小红书爆款素材的完整流水线实践

1. 项目概述:从链接到爆款素材的自动化流水线作为一名长期混迹于内容创作一线的博主,我深知从零开始制作一套高质量、风格统一的社交媒体素材有多耗时耗力。特别是对于小红书这类对视觉要求极高的平台,一张吸引人的知识卡片,背后往…...

CANN/ops-nn erfinv算子API文档

aclnnErfinv&aclnnInplaceErfinv 【免费下载链接】ops-nn 本项目是CANN提供的神经网络类计算算子库,实现网络在NPU上加速计算。 项目地址: https://gitcode.com/cann/ops-nn 📄 查看源码 产品支持情况 产品是否支持Ascend 950PR/Ascend 950…...

避坑指南:在GEE中合成月度NPP数据时,为什么必须加.millis()和提前clip?我的踩坑实录

GEE数据处理避坑实战:月度合成NPP数据必须掌握的.millis()与clip技巧 当你第一次在Google Earth Engine(GEE)中尝试合成月度NPP数据时,可能会觉得这不过是简单的过滤、计算和导出流程。但现实往往会给这种乐观想法当头一棒——导出…...

CANN ArgMax 算子 API 描述

ArgMax 算子 API 描述 【免费下载链接】cann-bench 评测AI在处理CANN领域代码任务的能力,涵盖算子生成、算子优化等领域,支撑模型选型、训练效果评估,统一量化评估标准,识别Agent能力短板,构建CANN领域评测平台&#x…...

AI赋能建筑电气工程:从图纸审查到智慧运维的实战指南

1. 项目概述:当AI遇见建筑电气与电子工程如果你在建筑行业,特别是电气与电子工程领域摸爬滚打过几年,一定会对几个场景深有感触:图纸改了又改,现场管线打架,设备清单对不上,调试阶段问题百出&am…...

Claude Code开发者如何配置Taotoken解决额度问题

🚀 告别海外账号与网络限制!稳定直连全球优质大模型,限时半价接入中。 👉 点击领取海量免费额度 Claude Code开发者如何配置Taotoken解决额度问题 对于依赖Claude Code进行日常开发的工程师来说,遇到原服务额度耗尽或…...

可解释AI实战指南:从特征归因到样本评估的技术选型与应用

1. 项目概述:为什么我们需要“可解释”的AI?在数据挖掘和机器学习领域,我们正处在一个前所未有的“黑盒”时代。模型,尤其是深度神经网络,其预测精度越来越高,但内部决策逻辑却越来越像一个谜。想象一下&am…...

CANN/cann-recipes-infer:DeepSeek-R1预填充优化

基于Atlas A3集群的DeepSeek-R1模型prefill阶段推理性能优化实践 【免费下载链接】cann-recipes-infer 本项目针对LLM与多模态模型推理业务中的典型模型、加速算法,提供基于CANN平台的优化样例 项目地址: https://gitcode.com/cann/cann-recipes-infer 概述 …...

每日热门skill:12万人都在用的OpenClaw邮件神器,3分钟让你的AI学会自动处理邮件

你的邮箱还在爆炸吗?每天被几百封邮件淹没,重要信息被淹没在垃圾邮件里,回复客户邮件写到手酸… 今天介绍的这个Skill,能让你的OpenClaw化身24小时在线的智能邮件秘书——自动分类、智能摘要、一键回复,甚至能根据邮件内容自动生成待办事项。 一、为什么你需要email-manag…...

CLion配置Qt开发踩坑实录:解决CMake找不到Qt、MSVC环境变量、MinGW链接失败等一堆问题

CLionQt开发环境配置全攻略:从环境搭建到疑难解析 1. 开发环境搭建前的关键考量 在Windows平台上使用CLion进行Qt开发,首先需要明确几个核心组件的选择与搭配。不同于其他IDE,CLion基于CMake构建系统,这为项目管理和跨平台开发带来…...

AI+DFT实战:机器学习势加速材料计算与高通量筛选

1. 项目概述:当AI遇见量子化学如果你在计算化学或者材料科学领域摸爬滚打过,一定对“密度泛函理论”这个词又爱又恨。爱它,是因为它几乎是目前处理复杂多电子体系最实用、最主流的量子力学方法,从催化剂的活性位点到电池材料的能带…...

CANN/asc-devkit带进位加法API

AddC 【免费下载链接】asc-devkit 本项目是CANN 推出的昇腾AI处理器专用的算子程序开发语言,原生支持C和C标准规范,主要由类库和语言扩展层构成,提供多层级API,满足多维场景算子开发诉求。 项目地址: https://gitcode.com/cann/…...

CANN/metadef删除算子输入边API

DelInputWithCond 【免费下载链接】metadef Ascend Metadata Definition 项目地址: https://gitcode.com/cann/metadef 函数功能 根据算子属性,删除算子指定输入边。 函数原型 [!NOTE]说明 数据类型为string的接口后续版本会废弃,建议使用数据类…...

基于目标模型的动态角色管理系统:从权限管控到效能赋能

1. 项目概述:从“角色”到“目标”的系统性跃迁在任何一个需要协作与管理的组织或系统中,“角色”都是一个核心概念。无论是软件开发中的权限控制,还是企业内部的岗位职责划分,我们都在用“角色”来抽象和定义个体或实体的行为边界…...

XAI 2.0:从黑箱到白盒,构建可解释、可信赖的下一代人工智能

1. 项目概述:从“黑箱”到“白盒”的进化之路如果你在银行申请贷款被拒,系统只告诉你“评分不足”,你会不会想知道具体是哪条规则卡住了你?如果你是一名医生,面对AI辅助诊断系统给出的“高风险”结论,却无法…...

CANN/sip CgemmBatched算子

HCgemmBatched 【免费下载链接】sip 本项目是CANN提供的一款高效、可靠的高性能信号处理算子加速库,基于华为Ascend AI处理器,专门为信号处理领域而设计。 项目地址: https://gitcode.com/cann/sip 产品支持情况 产品是否支持Atlas 200I/500 A2 …...