当前位置: 首页 > article >正文

CANN/cannbot-skills NPU推理优化

【免费下载链接】cannbot-skillsCANNBot 是面向 CANN 开发的用于提升开发效率的系列智能体本仓库为其提供可复用的 Skills 模块。项目地址: https://gitcode.com/cann/cannbot-skillsname: infer-model-optimize-team description: NPU 模型推理优化助手提供端到端推理优化全流程指导。 mode: primary skills:model-infer-migratormodel-infer-parallel-analysismodel-infer-parallel-implmodel-infer-kvcachemodel-infer-fusionmodel-infer-graph-modemodel-infer-precision-debugmodel-infer-runtime-debugmodel-infer-multi-streammodel-infer-prefetchmodel-infer-superkernel permission: external_directory: allowNPU 模型推理优化结合 CANN 平台原子化优化特性与 cann-recipes-infer 仓库的模型优化实践提供端到端推理优化能力。支持 TP/EP/DP 并行策略组合、ge_graph和eager执行模式覆盖多流并行、融合算子、KVCache/FA、图模式适配等优化路径。使用方式端到端优化当用户提出 PyTorch 模型的昇腾 NPU 推理优化需求时调用/model-infer-optimize按阶段顺序执行。单阶段使用用户也可直接使用单个 skill如/model-infer-fusion仅做融合算子分析与替换。基本约束每阶段必须经过分析→确认→实施→验证的完整流程不跳过验证直接进入下一阶段按 skill 流程执行不自行跳步或简化参考仓库结构参考仓库cann-recipes-infer/由 init.sh 自动 clone包含模型实现和优化经验cann-recipes-infer/ ├── executor/ # 执行器框架ModelRunner、模型加载、推理脚本 ├── models/ # 各模型实现 ├── module/ # 共享基础模块Linear、MoE GMM、量化、序列并行 ├── ops/ # 自定义算子AscendC、PyPTO、TileLang ├── docs/ # 设计文档、模型文档 └── scripts/ # 工具脚本优化技术选择指南场景推荐技术配置参数高吞吐 Decode大 EP 量化moe_tp_size1, embed_tp_sizeworld_size低时延 Prefill大 TP 多流attn_tp_sizedense_tp_sizeworld_size/2超长序列SP KVPkvp_size1显存受限量化 MoE Chunkquant_mode: W8A8,moe_chunk_max_len: 1024MoE 负载不均Perfect EPLBperfect_eplb: True参考模型速查模型特性参考模型大语言模型deepseek_r1, gpt_ossMoE 架构deepseek-v3.2-exp, qwen3_moe长序列kimi-k2-thinking, longcat-flash视频生成hunyuan-video, wan2.2-i2v图像生成hunyuan-image-3.0Skill 路由场景Skill模型部署基线model-infer-migrator端到端模型优化model-infer-optimizeKVCache 静态化 / FA 替换model-infer-kvcache融合算子分析与替换model-infer-fusion图模式适配model-infer-graph-modeKVCache/FA 精度问题model-infer-precision-debug并行策略分析model-infer-parallel-analysis并行策略实施model-infer-parallel-implNPU 运行时错误诊断model-infer-runtime-debug多流并行优化model-infer-multi-stream权重预取model-infer-prefetchSuperKernelmodel-infer-superkernel核心原则先理解再行动分析或修改模型代码前先读懂当前实现和模型架构参考对应 skill 的分析流程失败时回到 skill修复失败后不盲目重试重新读取对应 skill 的排查流程按步骤定位根因调用而非重建需要 skill 覆盖的工作流调用对应 skill 按步骤执行不要凭记忆重建步骤及时持久化长任务中关键结论、设计决策、调试发现要及时写入文件上下文压缩会丢失未保存的信息【免费下载链接】cannbot-skillsCANNBot 是面向 CANN 开发的用于提升开发效率的系列智能体本仓库为其提供可复用的 Skills 模块。项目地址: https://gitcode.com/cann/cannbot-skills创作声明:本文部分内容由AI辅助生成(AIGC),仅供参考

相关文章:

CANN/cannbot-skills NPU推理优化

【免费下载链接】cannbot-skills CANNBot 是面向 CANN 开发的用于提升开发效率的系列智能体,本仓库为其提供可复用的 Skills 模块。 项目地址: https://gitcode.com/cann/cannbot-skills name: infer-model-optimize-team description: NPU 模型推理优化助手…...

2026 毕业季必藏:9 款 AI 论文查重降重工具全测评,Paperxie 领衔高效通关

paperxie-免费查重复率aigc检测/开题报告/毕业论文/智能排版/文献综述/期刊论文https://www.paperxie.cn/weight?type1https://www.paperxie.cn/weight?type1 毕业季论文查重与 AIGC 检测双重压力下,选对工具能少走 90% 弯路。2026 年知网、维普 AIGC 检测算法全面…...

Llama 3.2 Vision轻量微调实战:500图打造电商级图文生成模型

1. 项目概述:为什么我们要亲手微调一个视觉语言模型?你有没有遇到过这样的场景:电商运营同事凌晨三点发来一张模糊的手机拍摄图,配文“快帮我写个爆款标题”,而你盯着这张图反复放大、截图、百度识图、翻竞品页面&…...

CANN/pyasc取小数计算函数

asc.language.adv.frac 【免费下载链接】pyasc 本项目为Python用户提供算子编程接口,支持在昇腾AI处理器上加速计算,接口与Ascend C一一对应并遵守Python原生语法。 项目地址: https://gitcode.com/cann/pyasc asc.language.adv.frac(dst: LocalT…...

CANN/hccl故障诊断定位思路

定位思路 【免费下载链接】hccl 集合通信库(Huawei Collective Communication Library,简称HCCL)是基于昇腾AI处理器的高性能集合通信库,为计算集群提供高性能、高可靠的通信方案 项目地址: https://gitcode.com/cann/hccl …...

CANN学习中心CMake配置详解

CMake 配置详解 【免费下载链接】cann-learning-hub CANN 学习中心仓,支持在线互动运行、边学边练,提供教程、示例与优化方案,一站式助力昇腾开发者快速上手。 项目地址: https://gitcode.com/cann/cann-learning-hub CMakePresets.js…...

MRCV开源工具库:用AI潜在表示与神经网络重塑音乐创作与声音设计

1. MRCV:当AI遇见声音,一个开源工具库如何重塑音乐创作作为一名在音频编程和音乐技术领域摸爬滚打了十多年的从业者,我见证了从简单的MIDI音序器到复杂的物理建模合成器的演变。但最近几年,最让我感到兴奋的,无疑是人工…...

感知-通信-计算一体化:破解边缘AI资源困局的核心架构

1. 项目概述:为什么我们需要感知-通信-计算一体化?在智能家居里,你对着智能音箱说句话,它几乎瞬间就能回应;在自动驾驶汽车上,摄像头和雷达捕捉到的路况信息,需要立刻被分析并做出驾驶决策。这些…...

CANN/runtime设备同步内存复制示例

5_d2d_sync_memory_copy 【免费下载链接】runtime 本项目提供CANN运行时组件和维测功能组件。 项目地址: https://gitcode.com/cann/runtime 描述 本样例展示了Device内的内存复制,使用aclrtMemcpy内存复制接口。 产品支持情况 本样例支持以下产品&#x…...

FPGA加速的VAE在粒子物理模拟中的应用与优化

1. 项目概述粒子物理实验中的蒙特卡洛模拟是理解探测器响应、优化重建算法和评估系统不确定性的关键环节。传统基于Geant4的完整探测器模拟虽然精度高,但计算成本极其昂贵——在大型强子对撞机(LHC)实验中,模拟任务消耗了约80%的计…...

CANN/ge ES代码生成器工具

ES (Eager Style) Generator 【免费下载链接】ge GE(Graph Engine)是面向昇腾的图编译器和执行器,提供了计算图优化、多流并行、内存复用和模型下沉等技术手段,加速模型执行效率,减少模型内存占用。 GE 提供对 PyTorch…...

CANN SHMEM工具调测指南

SHMEM搭配工具算子调测指导 【免费下载链接】shmem CANN SHMEM 是面向昇腾平台的多机多卡内存通信库,基于OpenSHMEM 标准协议,实现跨设备的高效内存访问与数据同步。 项目地址: https://gitcode.com/cann/shmem msprof shmem后续会适配msprof算子…...

CANN/shmem Pre-commit使用指南

Pre-commit 代码检查使用指南 【免费下载链接】shmem CANN SHMEM 是面向昇腾平台的多机多卡内存通信库,基于OpenSHMEM 标准协议,实现跨设备的高效内存访问与数据同步。 项目地址: https://gitcode.com/cann/shmem 介绍 本项目使用 pre-commit 框…...

多智能体系统协同韧性:从概念到量化评估的工程实践

1. 项目概述:从“各自为战”到“协同共生”的韧性挑战在人工智能的演进浪潮中,多智能体系统正从实验室走向现实世界的复杂场景。无论是自动驾驶车队的协同调度、工业机器人的集群作业,还是在线游戏中的NPC协作,其核心都是多个自主…...

为你的OpenClaw智能体工作流配置Taotoken作为模型供应商

🚀 告别海外账号与网络限制!稳定直连全球优质大模型,限时半价接入中。 👉 点击领取海量免费额度 为你的OpenClaw智能体工作流配置Taotoken作为模型供应商 基础教程类,面向使用OpenClaw框架构建AI智能体工作流的开发者…...

WarcraftHelper:魔兽争霸3终极优化指南,5步实现高分辨率与高帧率体验

WarcraftHelper:魔兽争霸3终极优化指南,5步实现高分辨率与高帧率体验 【免费下载链接】WarcraftHelper Warcraft III Helper , support 1.20e, 1.24e, 1.26a, 1.27a, 1.27b 项目地址: https://gitcode.com/gh_mirrors/wa/WarcraftHelper 你是否还…...

WatchGuard Agent多漏洞深度解析:从本地提权到SYSTEM,安全代理为何成为内网最大后门?

引言:当守护者变成入侵者——安全行业最讽刺的悖论 2026年5月6日,全球知名网络安全厂商WatchGuard在其官方安全公告中紧急发布了一批针对Windows终端安全代理的高危漏洞修复补丁。这则看似普通的安全公告,却在全球政企安全圈引发了轩然大波—…...

AIAS信息模型:构建工业AI与自动化系统融合的标准化蓝图

1. 项目概述:为什么我们需要一个“AI自动化系统说明书”?在工厂车间里,一台冲压机正在不知疲倦地工作。工程师小王最近为它部署了一个AI模型,用来预测驱动皮带的磨损状态,目标是实现预测性维护,减少非计划停…...

CANN Runtime API 参考

Runtime API 参考 【免费下载链接】runtime 本项目提供CANN运行时组件和维测功能组件。 项目地址: https://gitcode.com/cann/runtime 1. 概述 2. 初始化与去初始化 3. 运行时配置 4. Device管理 5. Context管理 6. Stream管理 7. Event管理 8. Notify管理 9. Cn…...

医疗影像AI落地实战:从AGI大模型到临床小模型的对齐与轻量化

1. 项目概述:当AGI遇见医疗影像,从“实验室巨兽”到“临床利器”的必经之路如果你最近关注人工智能,尤其是通用人工智能(AGI)的进展,一定会被ChatGPT、GPT-4、Segment Anything Model (SAM)这些“大模型”的…...

能量阀工厂

在当今工业领域,能量阀对于众多系统的高效运行起着至关重要的作用。天津水阀机械有限公司作为一家专业的能量阀工厂,凭借其深厚的技术实力、卓越的产品质量和广泛的市场应用,在行业中占据着重要地位。下面,让我们一同深入了解这家…...

AI赋能非洲农业:技术落地挑战与可持续路径实践

1. 项目概述:当AI遇见非洲田野最近几年,我一直在关注技术如何真正落地到传统行业,尤其是那些最需要效率提升的领域。非洲农业,这个常常被外界贴上“落后”标签的庞大系统,恰恰是人工智能技术最具想象力的试验场。这不是…...

AI赋能敏捷开发:从需求到部署的智能化实践与效率革命

1. 项目概述:当敏捷遇上AI,一场效率革命正在发生在软件开发的战场上,敏捷方法论早已不是新鲜词汇。Scrum站会、看板墙、用户故事、冲刺规划……这些实践在过去二十年里重塑了无数团队的交付节奏。然而,作为一名在敏捷转型和一线开…...

CANN/pyasc昇腾SoftMax算子API文档

asc.language.adv.softmax 【免费下载链接】pyasc 本项目为Python用户提供算子编程接口,支持在昇腾AI处理器上加速计算,接口与Ascend C一一对应并遵守Python原生语法。 项目地址: https://gitcode.com/cann/pyasc asc.language.adv.softmax(dst: …...

从零实现扩散模型:数学原理与PyTorch实战图像生成

1. 项目概述与核心价值最近几年,AI图像生成领域最让人兴奋的突破,莫过于扩散模型(Diffusion Models)的崛起。从DALLE 2、Midjourney到Stable Diffusion,这些能根据一句话就生成惊艳图片的工具,其核心引擎都…...

FPGA-MPSoC边缘AI加速实战:从模型量化到硬件部署全解析

1. 项目概述:为什么要在边缘用FPGA-MPSoC做AI加速?这几年,但凡跟AI沾边的项目,无论是自动驾驶里识别一个突然窜出来的行人,还是工厂质检摄像头判断一个零件的瑕疵,大家挂在嘴边的都是“实时性”和“低功耗”…...

AI赋能结直肠癌诊断:从多模态数据融合到临床落地的技术实践

1. 项目概述:当AI遇见结直肠癌诊断作为一名在医疗影像和数字病理领域摸爬滚打了十多年的从业者,我亲眼见证了技术如何一步步改变临床诊断的图景。今天想和大家深入聊聊一个既前沿又接地气的领域:AI在结直肠癌诊断中的应用。这不仅仅是“计算机…...

当AI开始「嫌贫爱富」

GPT-5.5涨价三倍,SpaceX花600亿美元买一个编程工具。这两个新闻放在一起,揭示了一个被大多数人忽略的事实—— 不是AI越来越便宜,是AI市场正在剧烈撕裂。 如果你最近关注AI新闻,可能会有一种错觉:AI正在变得越来越便宜、越来越亲民。 DeepSeek V4开源免费,国产大模型卷出…...

pyasc向下取整函数

asc.language.adv.floor 【免费下载链接】pyasc 本项目为Python用户提供算子编程接口,支持在昇腾AI处理器上加速计算,接口与Ascend C一一对应并遵守Python原生语法。 项目地址: https://gitcode.com/cann/pyasc asc.language.adv.floor(dst: Loca…...

「AI最强联盟」正在悄悄解体

微软和OpenAI结束独家云合作的那天,没有吵架,没有声明,只有一份平静的公告。 但这可能是2026年最被低估的AI信号—— 不是因为感情破裂,而是因为利益已经大到无法用「独家」锁住。 如果你关注AI新闻,可能会有一种错觉:微软和OpenAI仍然是天作之合。 微软投了130亿美元,…...