当前位置: 首页 > article >正文

PyPTO Agent 实操:1天开发自定义融合算子

一、PyPTO Agent背景在 Agent 技术日益普及的当下为了提升开发体验我们推出了基于智能体平台CANNBot与高性能编程框架PyPTO的CANNBot PyPTO Agent。通过将最佳实践固化为 7 个标准化 Skill并由 4 个专业 Agent 进行协同调度成功构建了从需求分析到算子交付的端到端自动化闭环旨在帮助开发者大幅降低开发门槛快速完成高质量融合算子的开发与交付。二、快速上手环境要求依赖版本要求昇腾硬件Atlas A2 / A3 系列CANN 工具链≥ 8.0Python≥ 3.9PyTorch torch_npu≥ 2.6PyPTO Agent使用方式git clone https://gitcode.com/cann/skills.gitcd skills/teams/pypto-op-orchestratorbash init.sh project opencode # OpenCode 用户默认bash init.sh project claude # Claude Code 用户打开 opencode / claude code 后输入算子开发提示词即可简易示例提示词帮我开发一个 QAT Symmetric Per-Tensor 量化算子支持 per-tensor 对称量化FP16 输入包含 forward 和 backward。Agent 将自动依次执行需求解析 → API 探索 → 方案设计 → Golden 生成 → Kernel 开发 → 精度验证 → 性能调优。三、核心架构与技能详解整体架构PyPTO Agent 采用Agent 编排 Skill 执行的分层架构将算子开发拆解为 7 个标准化阶段。每个阶段由专属 Skill 负责4 个 Agent 按职责分工协作调度既可串联执行完整流程也可单独调用某个 Skill 完成特定任务。PyPTO Agent 架构图3.1 专家 Agent 团队PyPTO Agent 基于CANNBot 平台构建采用多智能体协同架构。团队由 4 位各司其职的虚拟专家组成共同驱动算子开发的全生命周期。Agent 角色核心职责关键能力编排师pypto-op-orchestrator全流程总控负责任务拆解、状态管理与上下文传递通过状态持久化机制.orchestrator_state.json支持断点续跑与异常恢复。分析师pypto-op-analyst设计与分析负责需求理解、Golden 方案设计及精度分析在隔离上下文中完成数学逻辑到计算图的转化。开发者pypto-op-developer代码实现负责 Kernel 源码生成、编译构建与调试具备错误自动捕获、代码回退与局部重试能力。调优师pypto-op-perf-tuner性能调优负责性能 Profiling 与参数寻优输出量化分析报告指导 Tiling 与流水线策略迭代。3.2 核心技能图谱为了实现从需求到交付的自动化我们将专家经验固化为7 项核心技能。这些技能按流水线串联各阶段输入输出清晰确保开发过程标准化。核心流程介绍四、QAT 算子开发实操案例案例背景以QAT Symmetric Per-Tensor为例展示融合算子从零到交付的全流程。算子介绍QATQuantization-Aware Training量化感知训练是一种在训练过程中模拟量化误差的技术使模型能够适应低精度推理。该算子包含正向与反向两个子 KernelForward对输入执行 scale → round → clamp → de-scale模拟推理时的量化误差Backward基于 STEStraight-Through Estimator回传梯度量化范围外梯度置零关键阶段详解用户输入用户通过提示词描述算子开发需求支持多轮对话进行需求澄清或一次性输入完整规格。示例如下阶段1需求理解Agent 接收自然语言需求后自动解析算子语义提取 shape、dtype 约束与计算逻辑生成结构化规格文档SPEC.md含 ASCII 数据流图。阶段2API 探索检索 PyPTO API 库完成公式到 API 的映射输出可行性报告与 Tiling 建议。阶段3Golden 生成基于 PyTorch 生成参考实现与测试数据集作为精度验证基准。阶段4方案设计Agent 首先基于SPEC.md进行测试用例设计涵盖了典型场景和极端场景随后基于测试需求分析算子特征规划 Tiling 策略、Loop 结构与内存布局产出设计文档。阶段5代码实现自动生成 Kernel 源码与测试用例编译通过后进入精度验证。阶段6、7精度调试与性能调优精度通过则跳过精度调试阶段进入性能调优小结完整执行流程如下结果分析Forward小算子方案6 个独立 Op 串行执行每步产生中间 Tensor 并落盘 Global Memory。PyPTO 方案融合为单个 Kernel数据一次加载至片上 UB全部中间结果就地复用完全消除中间内存访问。Backward小算子方案反向传播需多个独立算子串行执行产生大量中间 Tensor。PyPTO 方案融合为单个 Kernel仅需 3 次 Global Memory 访问输入、权重、输出显著降低带宽开销与 Kernel Launch 次数。基于 PyPTO 框架已完成多个关键融合算子的开发与交付与 PyTorch 实现的 Golden 相比性能提升如下指标QAT 对称正向QAT 对称反向QAT 非对称正向QAT 非对称反向mome_mla_prologsink_mome当前性能4.2×2.6×4.1×3.1×4.8×6×五、总结与展望依托 CANNBot 智能体平台成功将PyPTO Agent通过 7 个标准化 Skill 的模块化编排将昇腾 NPU 融合算子开发的专家经验沉淀为一套可复用的自动化工作流。从需求理解到性能调优每个阶段都有明确的输入输出与质量标准开发者只需提供自然语言描述即可驱动全流程。在 QAT 等实操案例中开发效率得到显著提升所有算子均通过严格的精度验证。目前PyPTO Agent 已支持多种融合算子的端到端开发。未来我们将持续提升复杂算子的自动生成能力增强对复杂控制流、动态 shape 等场景的支持提升生成成功率与代码质量同时引入 Profiling 驱动的自动调优能力进一步释放硬件性能潜力。借助 CANNBot 平台的可扩展性我们将持续演进 PyPTO Agent 的能力边界——我们期待与更多开发者一起共同推动昇腾 AI 生态的繁荣发展。我们诚挚欢迎社区开发者试用并参与共建PyPTO 代码仓https://gitcode.com/cann/pyptoCANNBot Skills 仓https://gitcode.com/cann/skills问题反馈https://gitcode.com/cann/pypto/issues/create/choose贡献指南欢迎提交 PR贡献新 Skill、优化现有功能或分享实践经验

相关文章:

PyPTO Agent 实操:1天开发自定义融合算子

一、PyPTO Agent背景在 Agent 技术日益普及的当下,为了提升开发体验,我们推出了基于智能体平台 CANNBot 与高性能编程框架 PyPTO 的 CANNBot PyPTO Agent。通过将最佳实践固化为 7 个标准化 Skill,并由 4 个专业 Agent 进行协同调度&#xff…...

从PyTorch到TensorRT Engine:动态Batch模型转换的完整避坑指南(含trtexec命令详解)

从PyTorch到TensorRT Engine:动态Batch模型转换的完整避坑指南(含trtexec命令详解) 在深度学习模型部署的实践中,动态Batch支持一直是工程落地的关键需求。想象一下这样的场景:你的PyTorch模型在训练时表现优异&#x…...

《英雄无敌:上古纪元》评测:经典回合制策略游戏的回归之作

开发任何一款新的《魔法门之英雄无敌》都是一场巨大的冒险。这个系列对许多玩家来说早已不只是回合制策略的经典,更是近乎无法超越的这种游戏的标杆。正因如此,每一部新作都会受到粉丝们的严苛审视:它不仅要是一款好游戏,还必须证…...

7大录制模式+双音轨独立控制:QuickRecorder让macOS录屏变得如此简单

7大录制模式双音轨独立控制:QuickRecorder让macOS录屏变得如此简单 【免费下载链接】QuickRecorder A lightweight screen recorder based on ScreenCapture Kit for macOS / 基于 ScreenCapture Kit 的轻量化多功能 macOS 录屏工具 项目地址: https://gitcode.co…...

直击昇腾硬件底层:PTO ISA为什么能帮你更快上手昇腾950?

当芯片越来越强,程序员为什么反而更难掌控它?2026年3月,新一代昇腾950系列芯片逐渐浮出水面。如果把它摊开来看,像不像一张密密麻麻的工业园区图?32个矩阵运算单元、64个向量处理核心、1.6TB/s的DDR带宽、1728 TFlops的…...

别再只用Tanh了!聊聊ReLU激活函数如何让神经网络‘偷懒’又高效(附稀疏性实验分析)

别再只用Tanh了!聊聊ReLU激活函数如何让神经网络‘偷懒’又高效(附稀疏性实验分析) 激活函数是神经网络中的关键组件,它决定了神经元如何响应输入信号。在深度学习早期,Sigmoid和Tanh函数几乎垄断了所有应用场景。但当…...

【AGI医疗应用黄金窗口期】:2024年三大临床落地场景与72小时快速验证路径

第一章:AGI的医疗应用前景展望 2026奇点智能技术大会(https://ml-summit.org) 通用人工智能(AGI)正从理论构想加速迈向临床验证阶段,其在医疗健康领域的渗透已超越传统AI的单点优化范式,转向跨模态理解、动态推理与自…...

HTML怎么实现成就徽章放大预览_HTML悬停查看大图结构【教程】

用 transform: scale() 实现 hover 图片放大最省事,但需加 overflow: hidden 防溢出、transition 保证平滑、避免 position: absolute 破坏布局,并通过 data-large-src 或 background-image 解决高清图加载,同时适配移动端 touch 和 stacking…...

从零到一:Anaconda与PyCharm联手打造专属Python虚拟环境

1. 为什么需要Python虚拟环境? 刚接触Python开发时,我最常遇到的困惑就是:为什么明明在A项目能运行的代码,放到B项目就报错?后来才发现是因为两个项目依赖的库版本不同。比如项目A需要numpy 1.20,而项目B需…...

【超级智能不是AGI的升级版】:一位参与DARPA AGI-2030项目的首席科学家的颠覆性定义(附未公开技术白皮书节选)

第一章:【超级智能不是AGI的升级版】:一位参与DARPA AGI-2030项目的首席科学家的颠覆性定义(附未公开技术白皮书节选) 2026奇点智能技术大会(https://ml-summit.org) 在DARPA AGI-2030项目内部技术评审会上,Dr. Elen…...

Java 求职者面试:音视频场景与 Spring Boot 应用

面试官提问:如何用 Java 实现音视频场景的后台服务? 场景设定:某互联网大厂正在面试一名 Java 求职者,面试官和候选人燕双非之间的对话如下:第一轮提问 面试官:燕先生,您能否简要说明一下 Java …...

软件冲刺待办列表管理化的任务管理

在快节奏的软件开发中,高效的任务管理是团队成功的关键。软件冲刺待办列表管理化的任务管理,正是为了解决这一痛点而生。它将敏捷开发中的冲刺(Sprint)与待办列表(Backlog)相结合,帮助团队清晰规…...

OpenCV连通域分析与轮廓检测实战:精准剔除图像噪声与孤立点

1. 连通域分析与轮廓检测:图像降噪的两种武器 处理文档扫描件或工业视觉图像时,最头疼的就是那些随机分布的噪点。上周我处理一批古籍扫描件,纸张上的霉斑就像撒了芝麻似的,用传统滤波方法要么模糊了文字,要么除不干净…...

大模型能写诗却不会后悔,AGI必须具备的4种涌现性能力(附MIT 2023实证测试数据)

第一章:大模型能写诗却不会后悔,AGI必须具备的4种涌现性能力(附MIT 2023实证测试数据) 2026奇点智能技术大会(https://ml-summit.org) 当前大语言模型在文本生成、逻辑推理等任务上展现出惊人表现,但MIT认知人工智能实…...

2026最权威的十大降重复率网站解析与推荐

Ai论文网站排名(开题报告、文献综述、降aigc率、降重综合对比) TOP1. 千笔AI TOP2. aipasspaper TOP3. 清北论文 TOP4. 豆包 TOP5. kimi TOP6. deepseek 日益普及的人工智能生成内容的背景之下, 将文本被识别成AI创作的比率予以降低这一…...

Windows平台安卓应用安装难题的完美解决方案:APK Installer全面指南

Windows平台安卓应用安装难题的完美解决方案:APK Installer全面指南 【免费下载链接】APK-Installer An Android Application Installer for Windows 项目地址: https://gitcode.com/GitHub_Trending/ap/APK-Installer 还在为Windows电脑无法直接安装安卓应用…...

AGI学派资源争夺战已打响:全球仅存17支真正跨学派融合团队,掌握这份《学派技术基因图谱》抢占人才与算力先机

第一章:AGI研究的主要学派与观点对比 2026奇点智能技术大会(https://ml-summit.org) 人工智能领域对通用人工智能(AGI)的探索并非单一线索,而是由多个思想传统驱动,彼此在认知建模、实现路径与哲学预设上存在深刻分野…...

抖音视频下载终极指南:douyin-downloader完整使用教程

抖音视频下载终极指南:douyin-downloader完整使用教程 【免费下载链接】douyin-downloader A practical Douyin downloader for both single-item and profile batch downloads, with progress display, retries, SQLite deduplication, and browser fallback suppo…...

终极免费实时屏幕翻译工具:如何三分钟打破语言壁垒

终极免费实时屏幕翻译工具:如何三分钟打破语言壁垒 【免费下载链接】Translumo Advanced real-time screen translator for games, hardcoded subtitles in videos, static text and etc. 项目地址: https://gitcode.com/gh_mirrors/tr/Translumo 你是否曾经…...

SITS2026 AGI原型系统接口文档首度流出,17个可调用认知原语,开发者现在接入能做什么?

第一章:SITS2026 AGI原型系统接口文档首度流出概览 2026奇点智能技术大会(https://ml-summit.org) 近日,一份标注为“SITS2026-AGI-PROTOTYPE-INTERFACE-v0.3.1-INTERNAL-DRAFT”的内部接口文档在多个AI研究社区悄然传播。该文档完整披露了面向通用人工…...

Java JDBC 封装:从原生写法到工具类封装 + 增删改查

在 Java 操作数据库的过程中,原生 JDBC 代码存在大量重复逻辑:加载驱动、获取连接、释放资源…… 这些代码在每个业务中都要写一遍,不仅繁琐,还容易出错。 本文是个人的一些学习笔记,主要内容如下: 原生 …...

5G NR上行控制信息复用:PUSCH信道上的UCI资源映射实战解析

1. 5G NR上行控制信息复用基础概念 在5G NR系统中,上行控制信息(UCI)的传输是保证通信质量的关键环节。UCI通常包含HARQ-ACK反馈、信道状态信息(CSI)和调度请求(SR)等重要内容。这些信息可以通过…...

【限时解禁】SITS2026白皮书技术附录首曝:7类AGI基准测试用例、37项性能指标定义及实测误差边界

第一章:SITS2026发布:AGI发展白皮书 2026奇点智能技术大会(https://ml-summit.org) 《SITS2026 AGI发展白皮书》由全球32家顶尖AI研究机构联合编制,首次系统定义通用人工智能(AGI)的可验证能力边界、安全对齐基准与跨…...

维普和知网AIGC检测有什么区别?不同平台降AI策略全解读

维普和知网AIGC检测有什么区别?不同平台降AI策略全解读 毕业季最让人头疼的问题之一:学校到底用哪个平台查AI率? 有的学校用知网,有的学校用维普,还有的学校两个都查。问题是同一篇论文,知网查出来15%&am…...

Pixel Aurora Engine 构建数字人素材库:快速生成多样化人物肖像与表情

Pixel Aurora Engine 构建数字人素材库:快速生成多样化人物肖像与表情 1. 数字人素材生产的行业痛点 在虚拟主播、游戏NPC和在线教育数字人项目中,高质量的人物素材需求正呈现爆发式增长。传统制作方式面临着三大核心挑战: 成本高昂&#…...

计算机视觉与深度学习 | 视觉SLAM研究综述

文章目录 一、视觉SLAM的核心原理与数学基础 1.1 前端视觉里程计 1.2 后端优化 1.3 回环检测 1.4 建图 二、主流算法与分类 2.1 基于特征点的SLAM(Feature-based / Indirect SLAM) 2.2 直接法SLAM(Direct SLAM) 2.3 视觉-惯性SLAM(VI-SLAM) 2.4 基于深度学习的SLAM 三、未…...

构建高效原神数据API:genshin.dev API完全指南

构建高效原神数据API:genshin.dev API完全指南 【免费下载链接】api A fan-made Genshin Impact API for easy access to game data. 项目地址: https://gitcode.com/gh_mirrors/api13/api 在游戏开发、数据分析、社区工具构建等场景中,获取准确、…...

Yocto WIC与WKS文件:从分区布局到镜像定制的深度解析

1. WIC镜像与WKS文件基础认知 第一次接触Yocto项目的开发者,往往会对WIC和WKS这两个术语感到困惑。简单来说,WIC(Wic Image Creator)是Yocto项目中的一种镜像生成工具,而WKS(Wic Kickstart)文件…...

JPEXS Free Flash Decompiler:终极SWF反编译工具,轻松提取Flash文件资源

JPEXS Free Flash Decompiler:终极SWF反编译工具,轻松提取Flash文件资源 【免费下载链接】jpexs-decompiler JPEXS Free Flash Decompiler 项目地址: https://gitcode.com/gh_mirrors/jp/jpexs-decompiler 还在为那些无法打开的旧版Flash文件而烦…...

从光场相机到手机摄影:聊聊那些让你‘先拍照后对焦’的黑科技是怎么实现的

从光场相机到手机摄影:揭秘“先拍照后对焦”背后的技术革命 你是否曾在拍完照片后,发现焦点没有对准想要的主体?或是拍完人像照片后,想要调整背景虚化程度?这些看似神奇的功能,其实都源自于一项被称为“光场…...