当前位置: 首页 > article >正文

cannbot-skills多流与控核API路由

多流与控核 API 路由【免费下载链接】cannbot-skillsCANNBot 是面向 CANN 开发的用于提升开发效率的系列智能体本仓库为其提供可复用的 Skills 模块。项目地址: https://gitcode.com/cann/cannbot-skills本文件用于把“执行路径 / 问题类型”映射到上游文档和推荐 API。上游文档入口路径先读文档再读文档适用场景Ascend IR / GE 图模式cann-recipes-infer/docs/zh/ascend_ir/features/advanced/multi_stream.mdcann-recipes-infer/docs/zh/ascend_ir/features/advanced/limit_cores.md图内多流表达、npu_stream_switch、npu_wait_tensor、GE 图模式控核npugraph_ex / aclgraphcann-recipes-infer/docs/zh/npugraph_ex/advanced/multi_stream.mdcann-recipes-infer/docs/zh/npugraph_ex/advanced/limit_cores.mdtorch.npu.Stream/Event/record_stream、Stream 级控核路径要点Ascend IR / GE 图模式多流主要面向 Cube 资源未完全使用的场景若 Cube 已吃满不要默认开启多流。仅适用于 GE 图模式场景。优先接口是npu_stream_switch和npu_wait_tensor。控核分两层torchair.scope.limit_core_num是算子级config.ge_config.aicore_num是全局 session 级算子级优先级更高。静态 shape 下不要和enable_single_stream混用也不要直接在 SuperKernel 内手搓多流。动态 shape 默认单流如果依赖ENABLE_DYNAMIC_SHAPE_MULTI_STREAM1开启多流脚本内显式多流表达优先级更高。npugraph_ex / aclgraph多流主要面向 aclgraph 间资源并发官方路径围绕torch.npu.Stream、torch.npu.stream、torch.npu.Event、tensor.record_stream。record_stream只在短生命周期 tensor 会被其他流继续使用时才需要补权重等长生命周期对象一般不需要。控核是 Stream 级接口为torch.npu.npugraph_ex.scope.limit_core_num。仅 Ascend C 算子支持控核micro-batch 多流场景如果夹杂不支持控核的算子收益可能下降严重时可能卡死。配置结果优先通过 profiler 结果中的kernel_details.csv查看核使用情况。先判执行路径当前场景推荐 API 风格首选 API先读文档eager / patch 改造显式流对象torch.npu.Stream()、record_event()、wait_event()、wait_stream()、record_stream()先看仓库案例如果要对齐显式 stream 语义参考cann-recipes-infer/docs/zh/npugraph_ex/advanced/multi_stream.mdge_graph/ TorchAir 图内多流图内 scopenpu_stream_switch、npu_wait_tensor先看cann-recipes-infer/docs/zh/ascend_ir/features/advanced/multi_stream.md需要控核时再看cann-recipes-infer/docs/zh/ascend_ir/features/advanced/limit_cores.mdnpugraph_ex/ aclgraph显式 stream Eventtorch.npu.Stream()、torch.npu.stream()、torch.npu.Event()、record_stream()先看cann-recipes-infer/docs/zh/npugraph_ex/advanced/multi_stream.md需要控核时再看cann-recipes-infer/docs/zh/npugraph_ex/advanced/limit_cores.md再判问题类型问题类型推荐 API什么时候用注意事项先读文档需要把一段计算切到副流torch.npu.Stream()或npu_stream_switch已确认两段路径没有直接data依赖只在后面汇合先明确汇合点再决定是补Event、wait_stream还是npu_wait_tensor对应路径的multi_stream.md需要显式控制跨流时序Ascend IR 路径优先npu_wait_tensor显式 stream 路径优先record_event()/wait_event()已有 tagged event 风格时沿用npu_record_tagged_stream/npu_tagged_event_wait两条流之间存在控制依赖但后继不直接吃前驱输出 tensor不要为了“统一风格”强行把已有 tagged event 代码改写成另一套语义对应路径的multi_stream.md需要延长 tensor 生命周期record_stream()短生命周期 tensor 会在别的流继续使用主要看 aclgraph / eager / capture 阶段权重等长生命周期对象一般不需要cann-recipes-infer/docs/zh/npugraph_ex/advanced/multi_stream.mdoverlap 已成立但一条流明显拖尾limit_core_num已看到两条流资源争抢或一条流长期占满 CoreAscend IR 是算子级 / 全局级npugraph_ex 是 Stream 级不要混着理解对应路径的limit_cores.md需要进一步查看或设置 stream 资源限制torch_npu.get_stream_limit/torch_npu.set_stream_limit已进入控核或 stream 资源调优阶段这不是第一手多流 API通常在资源调优阶段再用本文件中的“上游文档入口” 本 skill 案例需要扩大计算窗口掩盖权重搬运torch_npu.npu_prefetchoverlap 正确但仍有访存或带宽空洞可被前序轻算子掩盖只在前序算子不明显抢带宽时使用常和多流 控核联动本 skill 案例推荐决策顺序先确定当前是 eager / patch 还是 graph / TorchAir。先选一套主 API 路径不要混着写。先把依赖和同步做对再确认是否真的有 overlap。只有在 overlap 正确但拖尾明显时才进入控核、stream limit、预取调优。常见误区不要在 eager 路径里照搬 TorchAir 的 tagged event 风格。不要把limit_core_num当成默认步骤它只解决资源分配问题不解决依赖错误。不要用npu_prefetch掩盖一个本来就不该并行的链路先证明链路没有错误依赖。不要在 aclgraph / eager 路径里省略record_stream()的生命周期判断只切流不管内存同样会出错。npu_tagged_event_record这类高级同步原语优先跟随仓库现有案例代码不要脱离上下文自己猜语义。【免费下载链接】cannbot-skillsCANNBot 是面向 CANN 开发的用于提升开发效率的系列智能体本仓库为其提供可复用的 Skills 模块。项目地址: https://gitcode.com/cann/cannbot-skills创作声明:本文部分内容由AI辅助生成(AIGC),仅供参考

相关文章:

cannbot-skills多流与控核API路由

多流与控核 API 路由 【免费下载链接】cannbot-skills CANNBot 是面向 CANN 开发的用于提升开发效率的系列智能体,本仓库为其提供可复用的 Skills 模块。 项目地址: https://gitcode.com/cann/cannbot-skills 本文件用于把“执行路径 / 问题类型”映射到上游…...

CANN/hccl Atlas A2 rank table配置

rank table配置资源信息(Atlas A2 训练系列产品/Atlas A2 推理系列产品) 【免费下载链接】hccl 集合通信库(Huawei Collective Communication Library,简称HCCL)是基于昇腾AI处理器的高性能集合通信库,为计…...

给Stable Diffusion模型加个‘隐形身份证’:手把手教你用Stable Signature实现AI生图溯源

为Stable Diffusion模型植入数字指纹:实战Stable Signature水印技术 在AI生成内容爆炸式增长的今天,如何确保自己精心训练的扩散模型不被滥用?当看到社交媒体上出现用你的模型生成的侵权图片时,如何证明它的来源?传统水…...

CANN运行时异步内存复制示例

4_d2h_async_memory_copy 【免费下载链接】runtime 本项目提供CANN运行时组件和维测功能组件。 项目地址: https://gitcode.com/cann/runtime 描述 本样例展示了Device到Host的内存复制,使用aclrtMemcpyAsync内存复制接口。 产品支持情况 本样例支持以下产…...

CANN PTO手动资源绑定操作

手动/资源绑定 【免费下载链接】pto-isa Parallel Tile Operation (PTO) is a virtual instruction set architecture designed by Ascend CANN, focusing on tile-level operations. This repository offers high-performance, cross-platform tile operations across Ascend …...

CANN/pypto设置验证选项API

pypto.set_verify_options 【免费下载链接】pypto PyPTO(发音: pai p-t-o):Parallel Tensor/Tile Operation编程范式。 项目地址: https://gitcode.com/cann/pypto 产品支持情况 产品是否支持Atlas A3 训练系列产品/Atlas A3 推理系列…...

PCB布局翻车实录:我的电流采样精度为什么总差那么一点?(TI电流感应放大器布局避坑全解)

PCB布局翻车实录:电流采样精度为何总差那么一点? 1. 高精度电流采样的隐形杀手 作为一名硬件工程师,你是否经历过这样的场景:精心挑选了TI的高性能电流感应放大器,按照数据手册一丝不苟地设计了电路,甚至连…...

CANN/ops-math 融合转置D算子

ConfusionTransposeD 【免费下载链接】ops-math 本项目是CANN提供的数学类基础计算算子库,实现网络在NPU上加速计算。 项目地址: https://gitcode.com/cann/ops-math 产品支持情况 产品是否支持Ascend 950PR/Ascend 950DT√ 功能说明 算子功能&#xff1a…...

PhonePi MCP:基于MCP协议实现AI助手远程控制手机的完整指南

1. 项目概述:将你的手机变成AI助手的智能工具箱 如果你和我一样,日常工作中重度依赖像Cursor、Claude Desktop这类AI编程助手,那你肯定遇到过这样的场景:正在电脑前专注写代码,手机突然在另一个房间响了,或…...

在昇腾训练平台上适配Hunyuan3D 2.0 模型的推理

在昇腾训练平台上适配Hunyuan3D 2.0 模型的推理 【免费下载链接】cann-recipes-embodied-intelligence 本项目针对具身智能业务中的典型模型、加速算法,提供基于CANN平台的优化样例 项目地址: https://gitcode.com/cann/cann-recipes-embodied-intelligence …...

Go语言实现轻量级TCP/UDP代理:核心原理、源码解析与实战部署

1. 项目概述:一个轻量级代理转发工具的核心设计最近在折腾一些本地服务联调和跨网络访问的场景时,经常遇到一个痛点:某个服务只监听在本地回环地址(127.0.0.1),或者因为网络策略限制,无法从外部…...

AI时代网络安全教学:伦理困境、框架设计与实践路径

1. 项目概述:当AI成为课堂的“助教”与“考题”最近几年,AI技术,特别是大语言模型,像潮水一样涌入了各行各业。网络安全这个领域,作为技术的前沿阵地,感受尤为深刻。以前我们教学生,讲的是如何分…...

CANN量化索引器元数据文档

QuantLightningIndexerMetadata 【免费下载链接】cann-recipes-infer 本项目针对LLM与多模态模型推理业务中的典型模型、加速算法,提供基于CANN平台的优化样例 项目地址: https://gitcode.com/cann/cann-recipes-infer 产品支持情况 产品是否支持 Atlas A3 …...

XUnity翻译器:告别语言障碍,畅玩全球Unity游戏的终极指南

XUnity翻译器:告别语言障碍,畅玩全球Unity游戏的终极指南 【免费下载链接】XUnity.AutoTranslator 项目地址: https://gitcode.com/gh_mirrors/xu/XUnity.AutoTranslator 还在为看不懂的日文RPG、韩文视觉小说或英文独立游戏而烦恼吗&#xff1f…...

CANN/catlass A8W4 MX量化矩阵乘法示例

A8W4MxMatmul Example Readme 【免费下载链接】catlass 本项目是CANN的算子模板库,提供NPU上高性能矩阵乘及其相关融合类算子模板样例。 项目地址: https://gitcode.com/cann/catlass 注意:社区包暂不支持 950 能力,后续支持的版本敬请…...

iPhone价格撑不住了,苹果内存即将见底;追觅CEO要求全员开通社交账号;DeepSeek多模态模型技术报告公布 | 极客头条

「极客头条」—— 技术人员的新闻圈!CSDN 的读者朋友们好,「极客头条」来啦,快来看今天都有哪些值得我们技术人关注的重要新闻吧。(投稿或寻求报道:zhanghycsdn.net)整理 | 苏宓出品 | CSDN(ID&…...

第二十天打卡逆波兰表达式求值

除法向零截断:这意味着 6 / -132 结果是 0,且 C 中整数除法默认就是向零截断,符合题目要求。操作数顺序:对于减法和除法,先弹出的数是右操作数,后弹出的数是左操作数。例如遇到 -,若栈顶是 b&am…...

大语言模型推理能力与自指认知的架构解析

1. 大语言模型推理能力的底层架构解析大语言模型的逻辑推理能力建立在Transformer架构的多层自注意力机制之上。这种架构设计使得模型能够通过注意力权重动态构建不同概念之间的关联网络。在推理任务中,特定模式的注意力分布会形成类似人类"思维链"的信息…...

CANN框架适配模板

框架适配模板 【免费下载链接】cannbot-skills CANNBot 是面向 CANN 开发的用于提升开发效率的系列智能体,本仓库为其提供可复用的 Skills 模块。 项目地址: https://gitcode.com/cann/cannbot-skills 替换 {model_name}(小写下划线)和…...

我做了一个 Agent Skill,一句话生成一镜到底城市宣传片

上周,我制作了一个 skill ,用这个 skill 可以一键直出符合生成 seedance2.0 视频生成模型的城市宣传片分镜提示词,这个 skill 可以让你在 15 秒的视频当中,做出一镜到底效果的城市宣传片。我为什么制作这么一个 skill 呢&#xff…...

AI代码溯源工具clawd-blame:为AI生成代码建立对话上下文映射

1. 项目概述:一个为AI编程时代量身定制的“代码溯源”工具如果你和我一样,深度依赖 Cursor 这类 AI 驱动的 IDE 进行日常开发,那你一定遇到过这个令人头疼的场景:面对一段由 Claude 生成的、逻辑复杂但注释寥寥的代码,…...

轻量级Docker管理面板clawpanel:部署、安全与实战应用指南

1. 项目概述与核心价值最近在折腾一个自托管项目时,发现了一个挺有意思的玩意儿——qingchencloud/clawpanel。这名字乍一看有点抽象,“爪面板”?但如果你和我一样,经常在Docker生态里摸爬滚打,看到这个项目托管在Dock…...

3个步骤让Windows用户也能享受AirPods完整功能:AirPodsDesktop深度指南

3个步骤让Windows用户也能享受AirPods完整功能:AirPodsDesktop深度指南 【免费下载链接】AirPodsDesktop ☄️ AirPods desktop user experience enhancement program, for Windows and Linux (WIP) 项目地址: https://gitcode.com/gh_mirrors/ai/AirPodsDesktop …...

从开发者控制台体验Taotoken计费与用量观测的透明度

🚀 告别海外账号与网络限制!稳定直连全球优质大模型,限时半价接入中。 👉 点击领取海量免费额度 从开发者控制台体验Taotoken计费与用量观测的透明度 对于依赖大模型API进行开发的团队和个人而言,成本控制与资源管理是…...

CANN ops-math矩阵对角线提取算子

MatrixDiagPartV3 【免费下载链接】ops-math 本项目是CANN提供的数学类基础计算算子库,实现网络在NPU上加速计算。 项目地址: https://gitcode.com/cann/ops-math 产品支持情况 产品是否支持Ascend 950PR/Ascend 950DT√Atlas A3 训练系列产品/Atlas A3 推理…...

Arm GICv5中断控制器架构解析与应用实践

1. GICv5架构概述GICv5是Arm公司推出的第五代通用中断控制器架构,作为现代计算系统中的关键基础设施组件,它承担着高效管理和分发硬件中断请求的重要职责。在Armv9架构体系中,GICv5通过创新的中断分类机制和灵活的CPU接口设计,为多…...

为 OpenClaw 配置 Taotoken 作为模型供应商的详细步骤

🚀 告别海外账号与网络限制!稳定直连全球优质大模型,限时半价接入中。 👉 点击领取海量免费额度 为 OpenClaw 配置 Taotoken 作为模型供应商的详细步骤 OpenClaw 是一个流行的开源智能体框架,它允许开发者轻松构建和运…...

现代前端工程化实践:从零构建高效开发环境与自动化工作流

1. 项目概述:一个面向现代前端的“工艺”工具箱最近在GitHub上闲逛时,发现了一个名为frontcraft的项目,作者是Dragoon0x。这个项目名很有意思,front自然指的是前端,而craft这个词,直译是“工艺”、“手艺”…...

CANN/asc-devkit AddReluCast算子API

AddReluCast 【免费下载链接】asc-devkit 本项目是CANN 推出的昇腾AI处理器专用的算子程序开发语言,原生支持C和C标准规范,主要由类库和语言扩展层构成,提供多层级API,满足多维场景算子开发诉求。 项目地址: https://gitcode.co…...

AI编程助手如何从“代笔”变“导师”?学习者模式实战指南

1. 项目概述:告别“喂饭式”编程,开启主动学习模式如果你用过 Cursor 或 GitHub Copilot,大概率有过这样的体验:面对一个复杂功能,你刚敲下注释,AI 就“唰”地一下把几十行完整的、甚至有些“黑盒”的代码怼…...