当前位置: 首页 > article >正文

CANN模型推理优化报告

{model_name} 模型优化报告【免费下载链接】cannbot-skillsCANNBot 是面向 CANN 开发的用于提升开发效率的系列智能体本仓库为其提供可复用的 Skills 模块。项目地址: https://gitcode.com/cann/cannbot-skills生成时间{date} 优化执行者{agent / manual}1. 模型信息项目内容模型名称{model_name}模型架构{architecture: LLM / MoE / Diffusion / 多模态}模型路径{model_path}硬件平台{Atlas A2 / A3}卡数 (world_size){world_size}量化模式{BF16 / W8A8 / W8A8C8 / W4A16}执行模式{eager / ge_graph / acl_graph}1.1 模型结构概要{模型网络结构简图例如} Embedding └─ Transformer Block × N ├─ Attention (type: GQA/MHA/MLA) │ ├─ Norm → QKV Projection → RoPE → KV Cache → Flash Attention → O Projection │ └─ Prefill / Decode 分支差异说明 ├─ FFN / MoE │ ├─ Norm → Gate → Expert Compute → Combine │ └─ Shared Expert若有 └─ Residual Connection └─ LM Head2. 性能基线优化前的原始性能数据作为后续各阶段优化效果的对比基准。指标值测试条件Prefill 耗时 (ms){value}input_len{}, batch_size{}Decode 单步耗时 (ms){value}batch_size{}端到端吞吐 (tokens/s){value}input_len{}, output_len{}, batch_size{}显存占用 (GB){value}-2.1 精度基线测试输入{标准输入内容或数据集} 基线输出{模型输出结果用于后续精度对比}3. 阶段 1并行化改造如适用单卡模型可标注为“跳过”。3.1 优化措施项目内容并行策略{单卡跳过 / TP / EP / DP / CP / 混合并行}parallel_config{attn_tp / dense_tp / moe_tp / embed_tp / lmhead_tp / oproj_tp / 其他}参考实现{参考的仓库模型或并行方案}修改文件列表{file1.py, file2.py, ...}关键参数配置参数值说明world_size{N}总卡数tp_size{N}Tensor Parallel 度ep_size{N}Expert Parallel 度dp_size{N}Data Parallel 度cp_size{N}Context Parallel 度3.2 阶段 1 精度验证验证项结果详情输出一致性通过/未通过/跳过{对比方法和结果描述}关键 tensor 误差{max_rel_error}阈值: {1e-3 / 1e-2}测试输入-{与基线相同的输入}测试输出-{并行化改造后的输出}精度判定通过 / 未通过 / 跳过精度问题说明若未通过{问题描述及处理方式}3.3 阶段 1 性能验证指标基线值优化后变化Prefill 耗时 (ms){baseline}{optimized}{-X% / X%}Decode 单步耗时 (ms){baseline}{optimized}{-X% / X%}端到端吞吐 (tokens/s){baseline}{optimized}{X% / -X%}显存占用 (GB){baseline}{optimized}{-X GB / X GB}性能判定有增益 / 无增益 / 有退化 / 跳过3.4 阶段 1 结论用户确认状态已确认 / 待确认 / 跳过结论{是否进入下一阶段以及原因}4. 阶段 2KVCache 优化4.1 优化措施项目内容KVCache 模式{连续缓存 / 分页注意力 / MLA 压缩}参考实现{参考的仓库模型}修改文件列表{file1.py, file2.py, ...}关键参数配置参数值说明enable_pa{True/False}是否启用分页注意力pa_block_size{128/256}PA 块大小input_layout{BSH/TND/TND_NTD/...}FA 算子输入布局sparse_mode{Prefill: 3, Decode: 0}FA 稀疏模式cache_mode{PA_NZ / 其他}缓存格式4.2 阶段 2 精度验证验证项结果详情输出一致性通过/未通过{对比方法和结果描述}关键 tensor 误差{max_rel_error}阈值: {1e-3 / 1e-2}测试输入-{与基线相同的输入}测试输出-{KVCache 优化后的输出}精度判定通过 / 未通过精度问题说明若未通过{问题描述及处理方式}4.3 精度调试记录若触发当 4.2 精度验证未通过时由model-infer-precision-debug技能进行系统化排查。项目内容触发原因{精度验证未通过的具体症状}问题定位{Prefill/DecodeKVCache 写入/FA 计算/量化参数}根因{具体根因描述}调试过程排查步骤操作结果快速诊断{执行的检查项}{发现/未发现问题}分模块定位{定位到的模块}{问题描述}精细定位如需{逐层对比结果}{首次偏差层及模块}修复措施修改文件修改内容修改原因{file}{change}{reason}修复后验证验证项结果详情输出一致性通过/未通过{修复后对比结果}关键 tensor 误差{max_rel_error}{修复后误差}修复判定已解决 / 部分解决 / 未解决遗留风险{如有列出修复后可能的后续风险}4.4 阶段 2 性能验证指标阶段 1 后阶段 2 后本阶段变化相对基线累计变化Prefill 耗时 (ms){stage1}{stage2}{-X%}{-X%}Decode 单步耗时 (ms){stage1}{stage2}{-X%}{-X%}端到端吞吐 (tokens/s){stage1}{stage2}{X%}{X%}显存占用 (GB){stage1}{stage2}{-X GB}{-X GB}性能判定有增益 / 无增益 / 有退化4.5 阶段 2 结论用户确认状态已确认 / 待确认结论{是否进入下一阶段以及原因}5. 阶段 3融合算子优化5.1 优化措施序号模块原始实现替换算子状态备注1{module_name}{原始代码描述}{torch_npu.npu_xxx}成功/失败/跳过{备注}2...5.2 阶段 3 精度验证验证项结果详情输出一致性通过/未通过{对比方法和结果描述}关键 tensor 误差{max_rel_error}阈值: {1e-3 / 1e-2}测试输入-{与基线相同的输入}测试输出-{融合算子优化后的输出}精度判定通过 / 未通过精度问题说明若未通过{问题描述及处理方式}5.3 阶段 3 性能验证指标阶段 2 后阶段 3 后本阶段变化相对基线累计变化Prefill 耗时 (ms){stage2}{stage3}{-X%}{-X%}Decode 单步耗时 (ms){stage2}{stage3}{-X%}{-X%}端到端吞吐 (tokens/s){stage2}{stage3}{X%}{X%}显存占用 (GB){stage2}{stage3}{-X GB}{-X GB}性能判定有增益 / 无增益 / 有退化5.4 阶段 3 结论用户确认状态已确认 / 待确认结论{是否进入下一阶段以及原因}6. 阶段 4图模式适配优化6.1 优化措施项目内容图模式类型{npugraph_ex / GE 图模式}适配范围Decode 阶段Prefill 保持 eager修改文件列表{file1.py, file2.py, ...}改造内容序号改造项改造说明状态1{改造项名称}{具体改造内容}完成/未完成2...解决的图中断 (Graph Break)序号Graph Break 位置原因解决方式1{file:line}{原因描述}{解决方式}2...6.2 阶段 4 精度验证验证项结果详情输出一致性通过/未通过{对比方法和结果描述}关键 tensor 误差{max_rel_error}阈值: {1e-3 / 1e-2}测试输入-{与基线相同的输入}测试输出-{图模式适配后的输出}精度判定通过 / 未通过精度问题说明若未通过{问题描述及处理方式}6.3 阶段 4 性能验证指标阶段 3 后阶段 4 后本阶段变化相对基线累计变化Prefill 耗时 (ms){stage3}{stage4}{-X%}{-X%}Decode 单步耗时 (ms){stage3}{stage4}{-X%}{-X%}端到端吞吐 (tokens/s){stage3}{stage4}{X%}{X%}显存占用 (GB){stage3}{stage4}{-X GB}{-X GB}性能判定有增益 / 无增益 / 有退化6.4 阶段 4 结论用户确认状态已确认 / 待确认结论{最终结论}7. 功能问题记录记录优化过程中发现的所有功能性问题精度异常、运行报错、功能缺失等。序号阶段问题描述影响范围处理方式状态日志/报错路径F-1{1/2/3/4}{问题描述}{影响的模块/功能}{修复/回退/绕过/待处理}已解决/未解决{路径或内容}F-2...8. 性能问题记录记录优化过程中发现的所有性能相关问题性能退化、瓶颈、未达预期等。序号阶段瓶颈描述优化措施优化前优化后增益状态P-1{1/2/3/4}{瓶颈描述}{采取的措施}{优化前数据}{优化后数据}{X%}已优化/未解决/已绕过P-2...9. 优化总结9.1 累计优化效果指标原始基线最终结果累计变化Prefill 耗时 (ms){baseline}{final}{-X%}Decode 单步耗时 (ms){baseline}{final}{-X%}端到端吞吐 (tokens/s){baseline}{final}{X%}显存占用 (GB){baseline}{final}{-X GB}9.2 各阶段贡献阶段精度状态性能变化关键措施基线--原始模型阶段 1并行化通过/未通过/跳过{X% / -X%}{TP / EP / DP / CP / 混合并行}阶段 2KVCache通过/未通过{X% / -X%}{连续缓存/分页注意力/MLA 压缩}阶段 3融合算子通过/未通过{X% / -X%}{替换了 N 个模块}阶段 4图模式通过/未通过{X% / -X%}{Decode 阶段启用图模式}累计-{X%}-9.3 遗留问题序号问题影响建议后续处理方式1{问题描述}{影响说明}{处理建议}...9.4 后续优化建议{建议 1}{建议 2}...10. Skill 反馈优化过程中发现的 skill 和流程问题用于持续改进。序号类型涉及环节描述S-1{内容 / 执行}{skill 名称或 agent/阶段}{具体问题和改进建议}...类型说明内容 skill 描述/流程/约束/参考不足 → 改 SKILL.md执行 skill 有要求但未被遵循 → 改 agent/hooks/dispatch【免费下载链接】cannbot-skillsCANNBot 是面向 CANN 开发的用于提升开发效率的系列智能体本仓库为其提供可复用的 Skills 模块。项目地址: https://gitcode.com/cann/cannbot-skills创作声明:本文部分内容由AI辅助生成(AIGC),仅供参考

相关文章:

CANN模型推理优化报告

{model_name} 模型优化报告 【免费下载链接】cannbot-skills CANNBot 是面向 CANN 开发的用于提升开发效率的系列智能体,本仓库为其提供可复用的 Skills 模块。 项目地址: https://gitcode.com/cann/cannbot-skills 生成时间:{date} 优化执行者&am…...

CANN驱动卡自定义信息查询

dcmi_get_card_customized_info 【免费下载链接】driver 本项目是CANN提供的驱动模块,实现基础驱动和资源管理及调度等功能,使能昇腾芯片。 项目地址: https://gitcode.com/cann/driver 函数原型 int dcmi_get_card_customized_info(int card_id…...

ARM7TDMI-S处理器架构与嵌入式系统优化指南

1. ARM7TDMI-S处理器架构深度解析 ARM7TDMI-S是ARM公司推出的经典32位RISC处理器,采用冯诺依曼架构设计。作为ARMv4T架构的代表性实现,它在嵌入式系统领域具有里程碑意义。这款处理器最显著的特点是支持双指令集——标准的32位ARM指令集和压缩的16位Thum…...

浏览器扩展开发实战:实现网页搜索框自动聚焦与键盘导航优化

1. 项目概述:一个提升网页搜索效率的浏览器扩展 如果你和我一样,是个重度键盘使用者,那么你一定经历过这种场景:打开一个电商网站或者在线词典,准备搜索商品或单词时,手不得不离开键盘,挪动鼠标…...

机器学习项目工程化实战:从Poetry、Pre-commit到Hydra的标准化开发脚手架

1. 项目概述:一个面向机器学习实践者的“静修所”最近在GitHub上闲逛,发现了一个挺有意思的仓库,名字叫hesamsheikh/ml-retreat。初看这个标题,可能会有点摸不着头脑——“ml”是机器学习(Machine Learning&#xff09…...

基于大语言模型的自我提升智能体:从执行-评估-学习闭环到工程实践

1. 项目概述与核心价值最近在GitHub上看到一个挺有意思的项目,叫“self-improving”,作者是Cat-tj。光看这个名字,你可能觉得有点抽象,但点进去之后,我发现它触及了一个非常核心且前沿的议题:如何让一个AI系…...

ChatGPT-RetrievalQA数据集解析:用合成数据训练检索模型的实践指南

1. 项目概述与核心问题最近在信息检索和自然语言处理社区里,一个话题讨论得挺热:既然像ChatGPT这样的大语言模型已经能生成相当不错的答案,我们为什么还需要传统的检索模型?更进一步,ChatGPT生成的这些答案&#xff0c…...

PaperBanana:基于多智能体流程的AI科研绘图工具实战指南

1. 项目概述:用AI为科研论文自动绘制高质量图表 如果你和我一样,常年泡在实验室里写论文,那你一定对画图这件事又爱又恨。爱的是,一张清晰、美观的图表能让论文的“颜值”和说服力瞬间提升几个档次;恨的是&#xff0c…...

CANN矩阵乘实现样例

Matmul 【免费下载链接】cann-samples 算子领域高性能实战演进样例与体系化调优知识库 项目地址: https://gitcode.com/cann/cann-samples 描述 本样例展示了如何在昇腾AI处理器的CubeCore硬件单元上使用AscendC编程语言实现矩阵乘运算。下面是矩阵乘在NPU上的执行的示…...

CANN/hixl昇腾通信库

【免费下载链接】hixl HIXL(Huawei Xfer Library)是一个灵活、高效的昇腾单边通信库,面向集群场景提供简单、可靠、高效的点对点数据传输能力。 项目地址: https://gitcode.com/cann/hixl HIXL 面向集群场景提供简单、可靠、高效的点对…...

CANN/ops-tensor API 实现状态

ops-tensor API 实现状态 【免费下载链接】ops-tensor ops-tensor 是 CANN (Compute Architecture for Neural Networks)算子库中提供张量类计算的基础算子库,采用模块化设计,支持灵活的算子开发和管理。 项目地址: https://git…...

Supabase database-build:声明式PostgreSQL架构管理的工程实践

1. 项目概述:一个数据库构建的“乐高工厂”如果你在Supabase社区里混过一段时间,大概率会听说过或者用过supabase-community/database-build这个仓库。乍一看名字,它可能被误解为某个数据库的构建脚本或者一个独立的工具。但当你真正深入进去…...

Figma文件语义化重构:提升AI协作与前端开发效率

1. 项目概述:为Figma文件注入“语义灵魂”如果你是一名前端开发者,或者经常需要与设计师协作,你一定遇到过这样的场景:设计师丢过来一个Figma文件,你满怀期待地打开,准备从中提取设计规范、组件结构&#x…...

AI智能体如何通过MCP协议直接操作浏览器?DrissionPage-MCP-Server实践指南

1. 项目概述:当浏览器自动化遇上AI智能体 最近在折腾AI智能体(Agent)和自动化工具链的整合,发现一个挺有意思的痛点:很多AI助手,比如Claude、Cursor的AI编程伙伴,它们能理解你的指令&#xff0…...

多智能体系统核心架构解析:从AutoGen到Shogun的“将军”模型实践

1. 项目概述:当“将军”指挥多个AI智能体最近在开源社区里,一个名为yohey-w/multi-agent-shogun的项目引起了我的注意。光看名字,“multi-agent”和“shogun”(将军)这两个词就足够让人浮想联翩。这显然不是一个简单的…...

GPU能耗建模技术:从指令级优化到跨架构统一

1. GPU能耗建模的技术演进与核心挑战 在现代高性能计算(HPC)和机器学习领域,GPU已成为算力核心,但随之而来的能耗问题日益突出。以美国能源部的Frontier超级计算机为例,其搭载的64000块GPU在满负荷运行时功耗可达30兆瓦…...

如何为 Linux 之父,打造一台让他满意的最强主机?

今天在B站刷到了一个堪称 “世纪同框” 的视频,我关注的 LTT 频道,请来了 Linux 和 Git 之父——Linus Torvalds 本尊! 这绝对是每个技术宅的梦想时刻:当科技圈最能“整活”的 Linus,遇上最硬核的 Linus,他…...

智慧工地工作人员建筑工人工作状态检测数据集VOC+YOLO格式7375张3类别

注意数据集中有部分增强,大约5000张是原图剩余为旋转增强图片数据集格式:Pascal VOC格式YOLO格式(不包含分割路径的txt文件,仅仅包含jpg图片以及对应的VOC格式xml文件和yolo格式txt文件)图片数量(jpg文件个数):7375标注数量(xml文…...

基于MCP协议构建AI邮件助手:lettr-mcp架构设计与实现详解

1. 项目概述:一个连接AI与外部世界的“翻译官”最近在折腾AI应用开发的朋友,估计都绕不开一个词:MCP(Model Context Protocol)。简单来说,它就像给大语言模型(比如ChatGPT、Claude)装…...

开源情绪感知交互空间:从传感器到氛围生成的软硬件实现

1. 项目概述:一个开源的情绪感知与交互空间最近在GitHub上看到一个挺有意思的项目,叫“open-vibe-island”。光看名字,你可能会有点摸不着头脑,这“开放氛围岛”到底是个啥?简单来说,这是一个开源的情绪感知…...

Resonix-AG:实时音频动态处理库的架构、算法与工程实践

1. 项目概述:一个音频处理领域的“瑞士军刀”最近在音频处理社区里,一个名为Resonix-AG的项目引起了我的注意。这个由mangiapanejohn-dev维护的仓库,名字听起来就很有技术感——“Resonix”很容易让人联想到“共振”(Resonance&am…...

艾尔登法环帧率解锁与视觉增强终极指南

艾尔登法环帧率解锁与视觉增强终极指南 【免费下载链接】EldenRingFpsUnlockAndMore A small utility to remove frame rate limit, change FOV, add widescreen support and more for Elden Ring 项目地址: https://gitcode.com/gh_mirrors/el/EldenRingFpsUnlockAndMore …...

用Rust构建跨平台光标主题引擎:提升终端开发体验的个性化利器

1. 项目概述:一个为开发者打造的轻量级光标主题引擎在终端和代码编辑器的世界里,我们每天有数小时与闪烁的光标为伴。这个看似不起眼的小竖线或方块,却是我们与机器交互最直接的视觉焦点。然而,大多数开发者默认使用的都是系统或编…...

writ工具:提升AI编程指令质量与智能体协作的工程实践

1. 项目概述:为AI编码智能体构建质量与沟通层如果你和我一样,每天都在和Cursor、Claude Code这类AI编码助手打交道,那你肯定遇到过这样的场景:你精心写了一大段指令,告诉AI“重构这个函数,让它更高效”&…...

多智能体开发环境配置管理:模块化、隔离化与一键化实践

1. 项目概述:一个为多智能体协作环境量身定制的配置管理方案如果你和我一样,日常开发工作流中已经离不开各类AI助手,从代码补全、文档生成到复杂任务的自动化分解,那么你很可能已经体验过同时与多个AI智能体“协同作战”的场景。无…...

期刊名称智能缩写工具Journal Abbrev:解放科研文献管理自动化

1. 项目概述与核心价值 如果你是一名科研工作者、学术编辑,或者经常需要处理参考文献,那么“期刊名称缩写”这件事,绝对是你学术生涯中一个不大不小、但又极其磨人的痛点。想象一下,你正在撰写一篇论文,需要引用几十篇…...

实测 Taotoken 在不同时段的 API 响应延迟与稳定性观感

🚀 告别海外账号与网络限制!稳定直连全球优质大模型,限时半价接入中。 👉 点击领取海量免费额度 实测 Taotoken 在不同时段的 API 响应延迟与稳定性观感 在将大模型能力集成到应用中的过程中,API 的响应延迟与稳定性是…...

统一通信协作平台UCCL:架构解析与自托管部署实践

1. 项目概述:一个面向未来的统一通信与协作平台最近几年,远程办公和混合工作模式已经成为常态,随之而来的是团队协作工具的“爆炸式增长”。我们每天可能要在五六个不同的应用之间切换:用A软件开会,用B软件传文件&…...

2026届毕业生推荐的十大AI论文助手推荐榜单

Ai论文网站排名(开题报告、文献综述、降aigc率、降重综合对比) TOP1. 千笔AI TOP2. aipasspaper TOP3. 清北论文 TOP4. 豆包 TOP5. kimi TOP6. deepseek 人工智能写作工具是依据深度学习算法构建而成的,其具备飞快生成出结构完整且语言…...

2026届学术党必备的五大降AI率神器解析与推荐

Ai论文网站排名(开题报告、文献综述、降aigc率、降重综合对比) TOP1. 千笔AI TOP2. aipasspaper TOP3. 清北论文 TOP4. 豆包 TOP5. kimi TOP6. deepseek DeepSeek系列论文展现出大规模语言模型的技术突破,其创新架构运用混合专家模型跟…...