当前位置：首页 > article >正文

CANN-Ascend-C存储体系-昇腾NPU的四级缓存怎么用才算对

article 2026/5/23 4:10:44

写 Ascend C 算子最常犯的错误不是计算写错是数据搬运写错。昇腾NPU有四级存储每一级的容量、带宽、延迟都不同。数据该放在哪一级、什么时候搬、搬多少直接决定算子性能。四级存储级别名称容量带宽延迟用途L0HBM全局显存64GB1.2 TB/s~300ns权重、KV Cache、模型参数L1L2 Cache8MB6 TB/s~30ns自动缓存热点数据L2L1 Buffer1MB12 TB/s~5ns算子内部的中间数据L3Local Buffer256KB24 TB/s~1nsVector/Cube 当前计算的数据带宽差距是 20 倍HBM 到 Local Buffer。算子性能取决于数据在 L0 停留多久——停留越短越好。数据搬运方式DMA 搬运L0 ↔ L2由 DMA 引擎执行不占 Cube/Vector 单元。适合大批量数据搬运。// DMA 搬运HBM → L2 → L1DataCopyPad(l1_buf,hbm_buf,{block_len});// L0 → L1DataCopyPad(hbm_buf,l1_buf,{block_len});// L1 → L0Cube/Vector 自动搬运L1 ↔ L3Cube 或 Vector 单元执行计算时自动从 L1 读数据到 Local Buffer。程序员不需要手动搬。// Vector 计算时自动从 L1 读到 Local BufferAdd(z_local,x_local,y_local,block_len);// x_local, y_local 在 Local Buffer// z_local 写回 Local BufferDouble Buffer 技术单次搬运的计算流程[DMA搬入] → [计算] → [DMA搬出] → [DMA搬入] → [计算] → [DMA搬出] 计算单元空闲等待计算单元空闲等待Double Buffer 让计算和搬运重叠Buffer A: [DMA搬入] → [计算] → [DMA搬出] Buffer B: [DMA搬入] → [计算] → [DMA搬出] ↑ 跟 Buffer A 的计算同时进行代码实现classMyKernel{__aicore__inlinevoidProcess(){// 双缓冲buf_a 和 buf_b 交替使用LocalTensorhalfbuf_apipe_.GetBufferhalf(0);LocalTensorhalfbuf_bpipe_.GetBufferhalf(1);// 预取第一块DataCopy(buf_a,x_gm_[0],block_len_);for(inti0;itiles_-1;i){// 当前块计算下一块预取DataCopy(buf_b,x_gm_[(i1)*block_len_],block_len_);Compute(buf_a);// 计算第 i 块std::swap(buf_a,buf_b);}// 最后一块Compute(buf_a);}};Double Buffer 的前提L1 有足够空间放两个 buffer。1MB 的 L1 / 2 512KB per buffer。如果 block_len 4096 个 fp16 元素 8KB512KB 可以放 64 个 block空间充裕。常见性能反模式反模式 1计算完再搬运// ❌ 搬入全部数据 → 全部计算 → 搬出全部数据for(inti0;itiles_;i)DataCopy(l1[i],hbm[i],block_len_);for(inti0;itiles_;i)Compute(l1[i]);for(inti0;itiles_;i)DataCopy(hbm[i],l1[i],block_len_);// ✅ 分块计算搬运重叠for(inti0;itiles_;i){DataCopy(l1,hbm[i],block_len_);Compute(l1);DataCopy(hbm[i],l1,block_len_);}第一种 L1 放不下所有 tile会触发 L1 溢出到 L2性能降 50%。反模式 2忽略对齐// ❌ 非对齐搬运DataCopy(dst,src,17);// 17 不是 32 的倍数// ✅ 对齐搬运补零到 32 的倍数uint32_taligned_len(len31)~31;DataCopyPad(dst,src,{aligned_len});DMA 引擎的最小搬运单位是 32 bytes。非对齐长度会导致 DMA 多次发起效率降低。反模式 3L1 缓存未复用// ❌ 同一数据读两遍DataCopy(x_local,x_gm,len);// 第一次读Compute1(x_local);DataCopy(x_local,x_gm,len);// 重复读Compute2(x_local);// ✅ 读一次多步计算DataCopy(x_local,x_gm,len);Compute1(x_local);Compute2(x_local);// x_local 还在 L1 里L1 数据在算子执行期间一直有效不需要重复从 HBM 读。Ascend C 的性能调优本质上是存储调优。计算逻辑大家都差不多搬运策略决定了谁是 90 分谁是 60 分。掌握四级存储的层次关系和 Double Buffer 技术算子性能就能到 80 分以上。仓库在这里https://atomgit.com/cann/opbase

CANN-Ascend-C存储体系-昇腾NPU的四级缓存怎么用才算对

相关文章：

CANN-Ascend-C存储体系-昇腾NPU的四级缓存怎么用才算对

Day03 Web应用OSS存储负载均衡CDN加速反向代理WAF防护部署影响

Python之anonymate包语法、参数和实际应用案例

开发靠 AI 提效，测试成最大瓶颈，现状过于真实

深入了解指针（3）

论文修改踩坑无数？paperxie 帮你一站式搞定查重与 AIGC 降重难题

什么是占位符

什么是运算符

【Lovable前端开发实战指南】：20年专家亲授5个让团队抢着用的可维护性设计模式

深度解析：基于RAG与任务执行的AI Agent全能力矩阵在话务系统的工程实践

2026 年 5 月 AI 热点：大模型、硬件、人形机器人全面升级

[特殊字符]通用漏洞挖掘（黑盒篇）| 从一个登录框SQL注入，到拿下CNVD证书

编译和链接(以Windows,VS环境下C语言为例)

用 shell 命令做 AI Agent 的插件系统：为什么 Hook 不是函数调用

Gemini3.1Pro和GPT5.5写代码到底谁更强五类任务实测数据说

诚邀您参加 2026 Google Cloud Startup Day

不是碳基，也不是硅基！你好，我是金蝶灵基，企业AI原生操作系统！

谷歌“反重力”工具更新强行替换软件，用户恢复工作困难重重！

BBEdit 16 正式发布！新增百多项功能，部分用户可免费升级

uv虽快但包管理体验差：命令笨拙、更新不安全，改进之路在何方？

毫米波混合波束成形技术在VR中的应用与优化

8051项目代码流程图工具选择与应用指南

量子机器学习噪声挑战与HPQS混合框架解析

混合参数化量子态(HPQS)在量子机器学习中的应用与优化

8051仿真器OMF转SIG格式的实战指南

量子纠错码与逻辑门优化实现技术解析

Keil µVision TAB显示异常问题分析与解决方案

量子纠错码与硬件定制逻辑门的优化实现

Keil调试中局部变量修改限制的解决方案

到底什么是 AI 测试？AI 测试与传统测试的区别？