当前位置: 首页 > article >正文

CANN/pto-isa库开发者规则与限制

This file lists some rules and limitations on the implementation of this library for pto-isa developers.【免费下载链接】pto-isaParallel Tile Operation (PTO) is a virtual instruction set architecture designed by Ascend CANN, focusing on tile-level operations. This repository offers high-performance, cross-platform tile operations across Ascend platforms.项目地址: https://gitcode.com/cann/pto-isa这篇文档列出一些针对pto-isa库开发者在auto模式下的编程规则和限制。不遵守这些规则可能导致以下任何后果无法编译包括源码层面编译报错或者编译器挂掉结果错误例如精度问题差劲的性能1 - 记住pto::(Conv)Tile::data()在auto模式下返回的是vector类型而不是指针Tilestruct的.data()成员函数返回类型为TileDType其在manual和auto模式下定义是不同的manual模式下就是指针类型然而在auto模式下是clang的vector类型。 请务必将此牢记于心避免在调用tile function以外的地方直接调用.data()来尝试获得Tile的地址指针。2 - 避免在struct/class的成员上使用default-initializer在C中直接在struct/class成员上默认初始化是很常见的struct ConvTile { public: ... int shape[ConvTileDetail::MAX_CONVTILE_DIM] {1}; };然而这样会对AUTO编译器产生问题编译器内的SROA pass无法消除此成员对应的AllocaInst指令以及其对应的load和store指令会对后续的内存分配产生不利影响。请尽量避免默认初始化struct/class成员至少auto模式下不要:#ifdef __PTO_AUTO__ // In auto mode, do not have default initialization in the class definition itself for its members int shape[ConvTileDetail::MAX_CONVTILE_DIM]; #else int shape[ConvTileDetail::MAX_CONVTILE_DIM] {1}; #endif虽然是用C但是我们还是鼓励鼓励尽量使用PODplain old data来靠近C语言。3 - 在tile function以及被其调用的函数内依然需要开发者手动同步TL;DR:在tile function内包括被其调用的函数内调用set_flagwait_flag或者pipe_barrier在其他地方尽量调用PtoSetWaitFlag或者TSYNC原因PTO编译器的分析以及优化都是建立在tile这一抽象层级上的而tile function是这一抽象层级的最后一层一旦进入tile function就脱离了tile的层级范围进入了CCE的领域。因此tile function内部对于PTO编译器来说就是一个黑盒子完全不关心里面是什么。因此如果在tile function内部需要同步依然需要库开发者手动插入同步因为进入这一层已经超出了PTO编译器的使用范围。所以在tile function内部不能使用PtoSetWaitFlag或者TSYNC因为它们在auto模式下都是no-op。4 - 避免使用TASSIGN来实现PTO指令目前有一些PTO指令的内部实现直接调用了TASSIGN_IMPL。这在auto模式下是行不通的。如果开发者的意图是想alias两个tile那应该使用TRESHAPE或者TSUBVIEW来实现其余任何用途在auto模式下都不能达到正确的结果。比如如果开发者直接调用TASSIGN来分配tile的地址而这个分配的地址是基于一些算法或者代码逻辑实现的那auto编译器肯定无法感知到具体的算法逻辑而实现和manual模式下相同的内存分配结果。毕竟auto模式下的自动内存分配是完全基于每个tile的liveness analysis的没有其他任何context信息。这就是为什么目前TPUSH和TPOP的实现在auto模式下不可能正确运行。5 - 一些*_IMPL层函数的规则Some consistency must be ensured for*_IMPLand tile function interface:*_IMPL层接口需要遵守如下规则函数签名必须有PTO_INTERNAL接口其内部实现必须直接调用tile function如果需要调用其他非tile function的函数则必须被inline。确保对每个Tile调用.data()的同时调用tile function或者确保.data()返回的值是reference。示例TExp(dstTile.data(), srcTile.data()); // correct auto dst dstTile.data(); // wrong: return by value auto src srcTile.data(); // correct: return by reference TExp(dst, src);The function signature must havePTO_INTERNALmacroIts implementation should directly call tile functions inside, dont call any non-tile functions unless theyre inlined.Always call.data()function to pass into tile functions6 - tile function层接口的规则确保函数参数中使用typename ...::TileDType而不是typename ...::DType *来表示tile类型确保这些typename ...::TileDType参数是pass-by-value, 而不是pass-by-reference或者pass-by-pointer的确保所有typename ...::TileDType参数都有__in__或者__out__标记在实现中确保对每个typename ...::TileDType参数都调用__cce_get_tile_ptr来获取其buffer指针除非是unused的参数返回类型必须为void不然会违反编译器对于TF接口的假设而且是未定义行为。如果开发者想让tile function有返回值请使用pass-by-reference的入参即使对一个scalar输出也是如此。7 - 在TF层以上尽量避免动态控制流动态控制流对自动同步一直是一个巨大的挑战。我们鼓励开发者要么在tile function层以上避免使用动态控制流如果不是必须或者将控制流移到tile function内。tile function层以前有动态控制流的典型接口包括TROWEXPANDDIV_IMPL和TMULS_IMPL。【免费下载链接】pto-isaParallel Tile Operation (PTO) is a virtual instruction set architecture designed by Ascend CANN, focusing on tile-level operations. This repository offers high-performance, cross-platform tile operations across Ascend platforms.项目地址: https://gitcode.com/cann/pto-isa创作声明:本文部分内容由AI辅助生成(AIGC),仅供参考

相关文章:

CANN/pto-isa库开发者规则与限制

This file lists some rules and limitations on the implementation of this library for pto-isa developers. 【免费下载链接】pto-isa Parallel Tile Operation (PTO) is a virtual instruction set architecture designed by Ascend CANN, focusing on tile-level operati…...

CANN运行时IPC内存共享示例

11_ipc_memory_withoutpid 【免费下载链接】runtime 本项目提供CANN运行时组件和维测功能组件。 项目地址: https://gitcode.com/cann/runtime 描述 本样例展示了同一个Device、两个进程间的内存共享,在内存共享时关闭进程白名单校验。 产品支持情况 本样…...

Taotoken用量看板如何帮助项目管理者精细化控制AI成本

🚀 告别海外账号与网络限制!稳定直连全球优质大模型,限时半价接入中。 👉 点击领取海量免费额度 Taotoken用量看板如何帮助项目管理者精细化控制AI成本 对于项目管理者而言,将大模型能力集成到产品中,除了…...

从IMU到自动驾驶:卡尔曼滤波参数(Q,R)怎么调?一个Python仿真实验说清楚

卡尔曼滤波参数调优实战:用Python仿真破解Q/R矩阵之谜 在自动驾驶和机器人定位领域,卡尔曼滤波器的性能往往取决于两个神秘参数——过程噪声协方差Q和测量噪声协方差R。许多工程师能够熟练实现算法代码,却在参数调试阶段陷入反复试错的泥潭。…...

CANN/ops-blas快速入门指南

快速入门:基于ops-blas仓 【免费下载链接】ops-blas 本项目是CANN提供的高性能线性代数计算以及轻量化GEMM调用算子库。 项目地址: https://gitcode.com/cann/ops-blas 使用须知 本指南旨在帮助您快速上手CANN和ops-blas算子仓的使用。为方便快速了解算子开…...

基于MFDFA、传递熵与Kuramoto模型的EEG信号特征工程实践

1. 项目概述:从EEG信号到网络动力学特征的工程化探索在神经科学和脑机接口领域,脑电图信号分析一直是个既迷人又充满挑战的课题。我们面对的是一系列从头皮表面采集到的、看似杂乱无章的微弱电信号,它们背后却隐藏着大脑这个复杂系统运作的奥…...

5分钟让小爱音箱变身AI语音助手:MiGPT完整指南

5分钟让小爱音箱变身AI语音助手:MiGPT完整指南 【免费下载链接】mi-gpt 🏠 将小爱音箱接入 ChatGPT 和豆包,改造成你的专属语音助手。 项目地址: https://gitcode.com/GitHub_Trending/mi/mi-gpt 你是否曾经对着小爱音箱提问&#xff…...

生成式AI在医疗领域的伦理挑战与GREAT PLEA治理框架实践

1. 项目概述:当生成式AI走进手术室与战场最近和几位在医疗信息化和国防科技领域的朋友聊天,话题不约而同地聚焦在了同一个“新工具”上:生成式人工智能。一位三甲医院的影像科主任正在为科室是否引入AI辅助报告生成系统而纠结,他既…...

PowerShell效率翻倍:给你的终端加个‘时光机’,永久保存并快速检索所有历史命令(基于PSReadLine)

PowerShell效率革命:构建你的命令时光机与智能检索系统 每次在终端里反复输入相似的命令时,你是否想过——那些曾经敲过的命令,其实是你最宝贵的数字资产?PowerShell的默认历史记录功能就像沙滩上的脚印,一次退潮就会消…...

构建AI for Science统一生态:从数据、模型到社区的核心架构与实践

1. 项目概述:当AI遇见科学,一场范式革命正在发生“AI for Science”这个词,最近几年在科研圈和工业界的热度是肉眼可见地飙升。它早已不是实验室里的概念玩具,而是正在实实在在地重塑我们探索未知、解决复杂科学问题的方式。简单来…...

从问题到解决方案:Atmosphere大气层系统深度配置与优化指南

从问题到解决方案:Atmosphere大气层系统深度配置与优化指南 【免费下载链接】Atmosphere-stable 大气层整合包系统稳定版 项目地址: https://gitcode.com/gh_mirrors/at/Atmosphere-stable Atmosphere大气层系统作为Nintendo Switch最受欢迎的自定义固件之一…...

别再买错USB转串口模块了!手把手教你用CH340G芯片自己做一个(附完整原理图)

从零打造高性价比USB转串口模块:CH340G实战指南 为什么选择自制USB转串口模块? 市面上充斥着各种USB转串口模块,价格从几元到几十元不等,质量却参差不齐。不少开发者都遇到过这样的糟心事:买回来的模块要么驱动装不上&…...

数据分析中的车辆重新分配

在数据分析中,我们常常需要处理和重新排列数据以满足特定需求。今天我们将讨论一个有趣的案例:如何使用Python中的Pandas库重新排序一个数据框(DataFrame),以确保在重新分配车辆时遵循特定的分配规则。 案例背景 假设你有一份车辆重新分配的记录表,每个车辆从一个账户转…...

基于深度学习的YOLOV8目标检测+目标跟踪+车辆测速+车辆行人计数+交互式禁停区域识别+GUI

文章目录YOLOV8目标跟踪与测速(绘制进出线与禁停区域)使用后端运行参数修改可视化界面界面参数测速不准测速不准进出线与禁停区域禁停区域时间禁停区域时间YOLOV8目标跟踪与测速(绘制进出线与禁停区域) 使用 后端运行 python d…...

图片换背景底色怎么制作?2026年最全工具对比和实战指南

最近有个朋友问我,怎样才能快速给证件照换个漂亮的背景色,结果我才意识到,身边很多人其实都在为这个问题纠结。无论是需要制作证件照、商品图还是简单的头像美化,图片换背景底色这个需求真的很常见。我自己也经历过这个阶段——以…...

2026年照片换背景底色在线制作免费工具大测评,我找到了最好用的方案

最近有个朋友要给淘宝店铺换商品图背景,另一个朋友需要准备证件照,还有人在处理婚礼合影想要统一背景……我才意识到,照片换背景底色在线制作免费这个需求,真的是太常见了。以前我对这类需求也头疼,总觉得没有专业软件…...

基于深度学习的遥感建筑物分割识别 yolov11遥感图像分割 无人机车辆识别 无人机道路分割识别

YOLOv11 在遥感图像分割中的应用:建筑物、汽车与道路的精准识别 遥感图像分割是地理信息系统(GIS)、智慧城市规划和灾害监测等领域的核心技术。随着深度学习的发展,YOLO(You Only Look Once)系列模型因其高…...

CANN元数据融合解析函数

FusionParseParamsFn(Overload) 【免费下载链接】metadef Ascend Metadata Definition 项目地址: https://gitcode.com/cann/metadef 函数功能 注册解析融合算子属性的函数,为FusionParseParamsFn的重载函数。 函数原型 [OpRegistr…...

自动化内容创作:从链接到小红书爆款素材的完整流水线实践

1. 项目概述:从链接到爆款素材的自动化流水线作为一名长期混迹于内容创作一线的博主,我深知从零开始制作一套高质量、风格统一的社交媒体素材有多耗时耗力。特别是对于小红书这类对视觉要求极高的平台,一张吸引人的知识卡片,背后往…...

CANN/ops-nn erfinv算子API文档

aclnnErfinv&aclnnInplaceErfinv 【免费下载链接】ops-nn 本项目是CANN提供的神经网络类计算算子库,实现网络在NPU上加速计算。 项目地址: https://gitcode.com/cann/ops-nn 📄 查看源码 产品支持情况 产品是否支持Ascend 950PR/Ascend 950…...

避坑指南:在GEE中合成月度NPP数据时,为什么必须加.millis()和提前clip?我的踩坑实录

GEE数据处理避坑实战:月度合成NPP数据必须掌握的.millis()与clip技巧 当你第一次在Google Earth Engine(GEE)中尝试合成月度NPP数据时,可能会觉得这不过是简单的过滤、计算和导出流程。但现实往往会给这种乐观想法当头一棒——导出…...

CANN ArgMax 算子 API 描述

ArgMax 算子 API 描述 【免费下载链接】cann-bench 评测AI在处理CANN领域代码任务的能力,涵盖算子生成、算子优化等领域,支撑模型选型、训练效果评估,统一量化评估标准,识别Agent能力短板,构建CANN领域评测平台&#x…...

AI赋能建筑电气工程:从图纸审查到智慧运维的实战指南

1. 项目概述:当AI遇见建筑电气与电子工程如果你在建筑行业,特别是电气与电子工程领域摸爬滚打过几年,一定会对几个场景深有感触:图纸改了又改,现场管线打架,设备清单对不上,调试阶段问题百出&am…...

Claude Code开发者如何配置Taotoken解决额度问题

🚀 告别海外账号与网络限制!稳定直连全球优质大模型,限时半价接入中。 👉 点击领取海量免费额度 Claude Code开发者如何配置Taotoken解决额度问题 对于依赖Claude Code进行日常开发的工程师来说,遇到原服务额度耗尽或…...

可解释AI实战指南:从特征归因到样本评估的技术选型与应用

1. 项目概述:为什么我们需要“可解释”的AI?在数据挖掘和机器学习领域,我们正处在一个前所未有的“黑盒”时代。模型,尤其是深度神经网络,其预测精度越来越高,但内部决策逻辑却越来越像一个谜。想象一下&am…...

CANN/cann-recipes-infer:DeepSeek-R1预填充优化

基于Atlas A3集群的DeepSeek-R1模型prefill阶段推理性能优化实践 【免费下载链接】cann-recipes-infer 本项目针对LLM与多模态模型推理业务中的典型模型、加速算法,提供基于CANN平台的优化样例 项目地址: https://gitcode.com/cann/cann-recipes-infer 概述 …...

每日热门skill:12万人都在用的OpenClaw邮件神器,3分钟让你的AI学会自动处理邮件

你的邮箱还在爆炸吗?每天被几百封邮件淹没,重要信息被淹没在垃圾邮件里,回复客户邮件写到手酸… 今天介绍的这个Skill,能让你的OpenClaw化身24小时在线的智能邮件秘书——自动分类、智能摘要、一键回复,甚至能根据邮件内容自动生成待办事项。 一、为什么你需要email-manag…...

CLion配置Qt开发踩坑实录:解决CMake找不到Qt、MSVC环境变量、MinGW链接失败等一堆问题

CLionQt开发环境配置全攻略:从环境搭建到疑难解析 1. 开发环境搭建前的关键考量 在Windows平台上使用CLion进行Qt开发,首先需要明确几个核心组件的选择与搭配。不同于其他IDE,CLion基于CMake构建系统,这为项目管理和跨平台开发带来…...

AI+DFT实战:机器学习势加速材料计算与高通量筛选

1. 项目概述:当AI遇见量子化学如果你在计算化学或者材料科学领域摸爬滚打过,一定对“密度泛函理论”这个词又爱又恨。爱它,是因为它几乎是目前处理复杂多电子体系最实用、最主流的量子力学方法,从催化剂的活性位点到电池材料的能带…...

CANN/asc-devkit带进位加法API

AddC 【免费下载链接】asc-devkit 本项目是CANN 推出的昇腾AI处理器专用的算子程序开发语言,原生支持C和C标准规范,主要由类库和语言扩展层构成,提供多层级API,满足多维场景算子开发诉求。 项目地址: https://gitcode.com/cann/…...