当前位置: 首页 > article >正文

CANN π₀.₅模型训练优化说明

π₀.₅ 模型训练昇腾迁移与性能优化说明【免费下载链接】cann-recipes-embodied-intelligence本项目针对具身智能业务中的典型模型、加速算法提供基于CANN平台的优化样例项目地址: https://gitcode.com/cann/cann-recipes-embodied-intelligence背景介绍本案例在昇腾平台上使用 π₀.₅ 开源模型进行 LIBERO 基准的训练和评估并对训练过程的性能进行了深入分析和优化。以下内容将简要介绍 π₀.₅ 模型和 LIBERO 基准的背景信息并详细介绍在昇腾平台上训练时的性能分析与优化策略以及无 GPU 的仿真渲染方案。模型训练性能分析与优化在昇腾平台上训练pi05时profiling 最初暴露出四类比较典型的开销时间采样路径上的小算子与概率分布采样开销PaliGemma主干中 attention 前后的投影与算子调度碎片化训练图反向阶段的重复recomputation与 DDP 同步成本Gemma MLP 中的大matmul。优化项下表列出了当前代码中已经通过端到端训练验证的优化项。并已经在modeling_pi05.py、run_train.sh、run_profiling.sh和训练脚本默认配置中。优化项默认状态生效位置作用原理当前实测结论sample_beta默认开启sample_beta针对Beta(1.5, 1.0)默认时间采样避免通用分布采样实现带来的额外构造与调度开销保留对整体性能影响较小PI05_FUSE_PALIGEMMA_QKV1默认开启PaliGemmaattention 输入投影将q/k/v三个投影合并到一次线性层计算与拆分中减少 kernel 启动与中间张量调度保留attention 计算明显下降PI05_USE_NPU_FUSION_ATTENTION1默认开启PaliGemmaattention用torch_npu.npu_fusion_attention替换 eager attention减少 attention 主干中的算子碎片化保留训练性能提升约5%PI05_USE_NPU_GROUPED_GEMMA_INPROJ1默认开启Gemma MLPgate_proj/up_proj对共享同一输入的两段前向 matmul 使用npu_grouped_matmul合并执行反向保持标准线性层梯度公式保留训练级性能提升约1.0%~1.2%find_unused_parametersFalse、static_graphTrue、gradient_as_bucket_viewTruepi05默认开启DDP 包装层关闭无用参数探测固定训练图减少 bucket 重建和梯度通信额外开销保留但不是主要瓶颈--disable-outer-suffix-checkpoint推荐显式开启run_train.sh/run_profiling.sh关闭位置不合适的外层大 checkpoint避免反向阶段整段 suffix 被重复重算保留当前提升最大的单项性能优化第一类优化针对时间采样。pi05的默认时间分布是Beta(1.5, 1.0)原始实现走的是更通用的概率分布采样路径。对于训练中高频、参数固定的这一特例直接提供sample_beta可以减少不必要的分布构造和调度开销也避免在昇腾上退回到cpu进行计算。第二类优化针对 transformer 主干。PaliGemma侧的q/k/v投影默认改为融合执行同时训练阶段默认启用torch_npu.npu_fusion_attention。这样做的核心收益不是改变模型结构而是把原本多段 eager 投影、转置、attention 调度压缩成更适合昇腾执行的计算路径减少 kernel 启动次数和中间张量搬运。经过这一轮处理后attention 已经不再是训练的首要瓶颈。第三类优化来自训练图本身。对于pi05DDP 默认采用find_unused_parametersFalse、static_graphTrue和gradient_as_bucket_viewTrue目的是减少动态图额外探测、稳定 bucket 组织并降低梯度通信侧的额外开销。除此之外训练命令建议显式加上--disable-outer-suffix-checkpoint。原因在于 suffix 分支外层那一层大 checkpoint 会把整段后缀在反向时重新执行一遍而模型内部本来已经保留了更细粒度的 checkpoint两者叠加后反向阶段会出现位置不合适的重复重算。关闭这层外包式 checkpoint 后显存策略仍然可控但反向计算明显变快因此这是当前收益最直接的一项优化。第四类优化直接针对 profiling 中占比最高的 MLP 主热点。经过前几轮处理后训练热点已经集中到 Gemma MLP 的gate_proj/up_proj/down_proj三段矩阵乘法其中前两段具有完全相同的输入张量。当前版本在 NPU 上默认启用torch_npu.npu_grouped_matmul把gate_proj和up_proj合并成一次 grouped GEMM 前向计算由于该算子当前没有现成训练 autograd反向梯度采用显式手写的标准线性层梯度公式回传因此数值语义保持与原始GemmaMLP完全一致。这个优化之所以有效是因为pi05训练默认开启 gradient checkpointingMLP 前向在反向阶段还会被重算一遍因此只要把这两段前向 matmul 压缩成一次 grouped kernel就能在一个训练 step 内同时吃到“正向一次 反向重算一次”的收益。推荐训练与 profiling 方式下面给出当前保留优化对应的推荐训练与 profiling 命令。更完整的环境准备和脚本使用说明仍以上层 ../README.md 为准。训练推荐命令如下cd cann-recipes-embodied-intelligence/manipulation/pi05/train/src/scripts ./run_train.sh pi05 --nproc 2 --disable-outer-suffix-checkpoint如果需要重新采样 profiling推荐使用如下短窗口命令能够较快拿到稳定阶段的热点分布cd cann-recipes-embodied-intelligence/manipulation/pi05/train/src/scripts ./run_profiling.sh pi05 \ --nproc 2 \ --foreground \ --disable-outer-suffix-checkpoint \ --profile-wait 1 \ --profile-warmup 1 \ --profile-active 2 \ --profile-repeat 1从零复现推荐流程下面给出当前版本推荐的完整复现流程。该流程对应本仓库现有脚本默认设置。初始化代码与环境。cd your-workdir git clone https://gitcode.com/cann/cann-recipes-embodied-intelligence.git chmod x cann-recipes-embodied-intelligence/manipulation/pi05/train/src/scripts/setup.sh ./cann-recipes-embodied-intelligence/manipulation/pi05/train/src/scripts/setup.sh激活环境并进入脚本目录。conda activate lerobot cd your-workdir/cann-recipes-embodied-intelligence/manipulation/pi05/train/src/scripts首次训练前如模型权重和数据集已经缓存到本地可显式启用离线模式避免远端探测影响启动时间如果尚未缓存则不要打开这三个环境变量。export HF_HUB_OFFLINE1 export TRANSFORMERS_OFFLINE1 export HF_DATASETS_OFFLINE1启动推荐训练命令。./run_train.sh pi05 --nproc 2 --disable-outer-suffix-checkpoint如需快速采样 profiling使用下面的短窗口命令。./run_profiling.sh pi05 \ --nproc 2 \ --foreground \ --disable-outer-suffix-checkpoint \ --profile-wait 1 \ --profile-warmup 1 \ --profile-active 2 \ --profile-repeat 1训练与 profiling 结果检查。训练日志位于${PROJECT_ROOT}/ckpt/logs/train_model_timestamp.log。profiling 日志位于${PROJECT_ROOT}/ckpt/logs/profiling_model_timestamp.log。profiler 主目录位于本次训练output_dir下的profiling/。多卡训练产生profiling/rank0/...、profiling/rank1/...是正常现象。当前默认配置下pi05的稳定训练区间应大致落在5.75 ~ 5.85 s/it。Profiling 输出位置与结果解读profiling 日志位于${PROJECT_ROOT}/ckpt/logs/profiling_model_timestamp.logprofiler 主目录位于本次训练output_dir下的profiling/。多卡训练时看到profiling/rank0/...和profiling/rank1/...是正常现象表示每张卡各自产出一份 profiling 结果常用数据库文件位于profiling/rank*/.../ASCEND_PROFILER_OUTPUT/ascend_pytorch_profiler_*.db。仿真实时渲染由于 NPU 不支持 OpenGL 渲染因此在使用 NPU 进行仿真训练时需要将仿真环境的渲染模式切换为离屏渲染Offscreen Rendering。在使用 MuJoCo 仿真环境时可以通过设置环境变量来实现离屏渲染。具体设置如下Xvfb :1 -screen 0 1024x768x24 /tmp/xvfb.log 21 export DISPLAY:1 export LIBGL_ALWAYS_SOFTWARE1 export LD_PRELOAD/usr/lib/aarch64-linux-gnu/libOSMesa.so export LD_LIBRARY_PATH/lib/aarch64-linux-gnu/:$LD_LIBRARY_PATH export MUJOCO_GLosmesaMuJoCo CPU 渲染调用软件渲染OSMesa / EGL fallback在 CPU 上完成图像生成。Xvfb 虚拟显示创建一个虚拟显存帧缓冲模拟显示器环境让渲染画面有“输出窗口”。VNC 转发将虚拟显示画面通过 VNC Server 编码并转发用户可在本地 VNC 客户端实时查看。Citationmisc{cadene2024lerobot, author {Cadene, Remi and Alibert, Simon and Soare, Alexander and Gallouedec, Quentin and Zouitine, Adil and Palma, Steven and Kooijmans, Pepijn and Aractingi, Michel and Shukor, Mustafa and Aubakirova, Dana and Russi, Martino and Capuano, Francesco and Pascal, Caroline and Choghari, Jade and Moss, Jess and Wolf, Thomas}, title {LeRobot: State-of-the-art Machine Learning for Real-World Robotics in Pytorch}, howpublished \url{https://github.com/huggingface/lerobot}, year {2024} }【免费下载链接】cann-recipes-embodied-intelligence本项目针对具身智能业务中的典型模型、加速算法提供基于CANN平台的优化样例项目地址: https://gitcode.com/cann/cann-recipes-embodied-intelligence创作声明:本文部分内容由AI辅助生成(AIGC),仅供参考

相关文章:

CANN π₀.₅模型训练优化说明

π₀.₅ 模型训练昇腾迁移与性能优化说明 【免费下载链接】cann-recipes-embodied-intelligence 本项目针对具身智能业务中的典型模型、加速算法,提供基于CANN平台的优化样例 项目地址: https://gitcode.com/cann/cann-recipes-embodied-intelligence 背景介…...

LobeHub 这玩意儿,到底香在哪?

先说结论:LobeHub 是目前我在前端圈里看到的,最接近“智能体操作系统”的一个东西。不是吹,是真的好用到让我有点慌。事情是这样的前阵子我在搞一个自动化工单系统,本来打算自己撸一套 Agent 调度逻辑,结果写到第三天我…...

AI+SPU-Net:机器人辅助脊柱手术的自动切面规划技术详解

1. 项目概述与核心价值在骨科脊柱外科领域,椎板切除术是一项常规且至关重要的减压手术,用于治疗椎管狭窄、椎间盘突出等疾病。手术的核心在于精准、安全地切除椎板骨质,为受压的神经结构“松绑”。然而,传统手术高度依赖主刀医生的…...

CANN/ops-fft:FFT算子库

ops-fft 【免费下载链接】ops-fft ops-fft 是 CANN (Compute Architecture for Neural Networks)算子库中提供 FFT 类计算的基础算子库,采用模块化设计,支持灵活的算子开发和管理。 项目地址: https://gitcode.com/cann/ops-fft…...

CANN一维最近邻上采样算子

aclnnUpsampleNearest1dV2 【免费下载链接】ops-cv 本项目是CANN提供的图像处理、目标检测相关的算子库,实现网络在NPU上加速计算。 项目地址: https://gitcode.com/cann/ops-cv 📄 查看源码 产品支持情况 产品是否支持Ascend 950PR/Ascend 950…...

Figma中文界面终极指南:3分钟让英文设计工具秒变中文

Figma中文界面终极指南:3分钟让英文设计工具秒变中文 【免费下载链接】figmaCN 中文 Figma 插件,设计师人工翻译校验 项目地址: https://gitcode.com/gh_mirrors/fi/figmaCN 还在为Figma的英文界面而苦恼吗?FigmaCN是一款专为中文用户…...

CANN/asc-devkit贡献指南

贡献指南 【免费下载链接】asc-devkit 本项目是CANN 推出的昇腾AI处理器专用的算子程序开发语言,原生支持C和C标准规范,主要由类库和语言扩展层构成,提供多层级API,满足多维场景算子开发诉求。 项目地址: https://gitcode.com/c…...

库存预测准确率大PK!实在Agent如何终结企业“库存积压”噩梦?

摘要:在2026年全球供应链进入“盈利竞赛”的理性成熟期,库存预测的精准度已成为制造与流通企业的生命线。面对IDC预测的300亿美元规模市场,企业不仅面临库存积压与资金占用的双重压力,更深陷系统围墙、信创适配难及传统自动化工具…...

对比自行维护与使用 Taotoken 聚合 API 的运维复杂度

🚀 告别海外账号与网络限制!稳定直连全球优质大模型,限时半价接入中。 👉 点击领取海量免费额度 对比自行维护与使用 Taotoken 聚合 API 的运维复杂度 在构建基于大模型的应用时,开发者通常面临一个选择:是…...

2026年隔热条十大品牌:谁是真正的研发王者?

随着建筑节能标准的不断提高,隔热条在门窗幕墙系统中的重要性日益凸显。作为门窗节能系统的核心部件,隔热条不仅直接影响建筑的节能效果,还关系到居住安全和企业的可持续发展。在这个竞争激烈的市场中,哪些品牌能够脱颖而出&#…...

大语言模型能力结构实证研究:参数量与智能的非线性关系

1. 项目概述:我们到底在研究什么?最近几年,大语言模型(LLM)的浪潮席卷了整个行业,从ChatGPT的横空出世到各类开源模型的百花齐放,我们似乎每天都在见证“奇迹”。但作为一名在一线摸爬滚打多年的…...

AI如何突破人文学科认知局限:从海量数据处理到量化分析实践

1. 项目概述:当AI遇见人文,一场认知边界的重塑“人工智能如何突破人文学科的认知局限并引领数字人文复兴”——这个标题听起来宏大,但内核其实非常具体。作为一名在数字人文领域摸爬滚打了十来年的从业者,我亲眼见证了从早期简单的…...

CANN/ops-cv 3D最近邻上采样算子

aclnnUpsampleNearest3d 【免费下载链接】ops-cv 本项目是CANN提供的图像处理、目标检测相关的算子库,实现网络在NPU上加速计算。 项目地址: https://gitcode.com/cann/ops-cv 📄 查看源码 产品支持情况 产品是否支持Ascend 950PR/Ascend 950DT…...

CANN元数据定义FrameworkType

FrameworkType 【免费下载链接】metadef Ascend Metadata Definition 项目地址: https://gitcode.com/cann/metadef 函数功能 设置原始模型的框架类型。 函数原型 [OpRegistrationData](https://link.gitcode.com/i/e39588e20f92bc787b393b3e218d186f) &Framewor…...

CANN版本发布管理8.5.0-beta.1

CANN 8.5.0-beta 1 【免费下载链接】release-management CANN版本发布管理仓库 项目地址: https://gitcode.com/cann/release-management 版本地址 CANN 8.5.0-beta 1 版本目录说明如下: ├── aarch64 # CPU为ARM类型 │ ├── ops …...

AI赋能学术研究:基于NLP的SDGs自动映射技术解析与实践

1. 项目概述:当学术研究遇见全球议程最近几年,无论是申请科研基金、撰写项目报告,还是发表学术论文,我身边越来越多的同行开始被问到一个问题:“你的这项研究,与联合国的可持续发展目标(SDGs&am…...

LangChain Tool + Agent 最小可运行示例解析

下面给出一个代码示例: 展示如何使用 LangChain 通义千问(Qwen),通过 ReAct Agent 安全地调用自定义工具完成数学计算任务。 示例代码取自《AI Agent智能体开发实践》第8章。 # -*- coding: utf-8 -*- """ Creat…...

【SITS2026独家前瞻】:AI技术大会同期活动5大不可错过的隐藏议程与入场暗号

更多请点击: https://intelliparadigm.com 第一章:SITS2026大会同期活动全景导览 SITS2026(Smart Infrastructure & Technology Summit 2026)同期活动覆盖技术实践、产业对接与开发者赋能三大维度,形成“主论坛12…...

【信号去噪】基于马氏距离和EDF统计(IEE-TSP)的基于小波的多元信号去噪方法研究附Matlab代码

✅作者简介:热爱科研的Matlab仿真开发者,擅长毕业设计辅导、数学建模、数据处理、程序设计科研仿真。🍎完整代码获取 定制创新 论文复现点击:Matlab科研工作室👇 关注我领取海量matlab电子书和数学建模资料 &#x1f3…...

第9章:从直播到录播——知识产品的矩阵化运营 /《程序员AI时代实现 直播知识付费实现月入100万的落地详细实战方案》

第9章:从直播到录播——知识产品的矩阵化运营 如果说到前面那些章节,我更像是把直播当成卖时间的主动收入事业来做的话,从这一章开始,我想给你看一个更加根本的跃迁逻辑。一场直播卖得好,你赚数字的绝对值是靠每一分钟…...

多智能体粒子群优化的ELM模型预测控制附Matlab代码

✅作者简介:热爱科研的Matlab仿真开发者,擅长毕业设计辅导、数学建模、数据处理、程序设计科研仿真。🍎完整代码获取 定制创新 论文复现点击:Matlab科研工作室👇 关注我领取海量matlab电子书和数学建模资料 &#x1f3…...

CANN PyPTO索引添加UB函数

pypto.index_add__ub 【免费下载链接】pypto PyPTO(发音: pai p-t-o):Parallel Tensor/Tile Operation编程范式。 项目地址: https://gitcode.com/cann/pypto 产品支持情况 产品是否支持Ascend 950PR/Ascend 950DT√Atlas A3 训练系列…...

联邦学习在物联网场景下的性能评估与基准测试实践

1. 项目概述:当联邦学习遇上物联网,我们如何量化其真实性能?如果你正在关注边缘智能或者分布式机器学习,那么“联邦学习”这个词对你来说一定不陌生。它被誉为解决数据孤岛和隐私保护问题的关键技术,尤其是在物联网这个…...

CANN/ops-math循环填充2D反向传播

aclnnCircularPad2dBackward 【免费下载链接】ops-math 本项目是CANN提供的数学类基础计算算子库,实现网络在NPU上加速计算。 项目地址: https://gitcode.com/cann/ops-math 📄 查看源码 产品支持情况 产品是否支持Ascend 950PR/Ascend 950DT√…...

AISMM模型如何重塑技术决策链:4类典型组织架构下的领导力适配公式(附诊断速查表)

更多请点击: https://intelliparadigm.com 第一章:AISMM模型与技术领导力 AISMM(Artificial Intelligence Strategy Maturity Model)是一种面向AI工程化落地的五阶段能力成熟度框架,专为技术领导者设计,用…...

CANN算子测试挑战赛提交

团队信息 【免费下载链接】cann-competitions 本仓库用于 CANN 开源社区各类竞赛、开源课题、社区任务等课题发布、开发者作品提交和展示。 项目地址: https://gitcode.com/cann/cann-competitions 团队名称:群星闪耀时所属单位:南昌航空大学团队…...

Claude Code 用户如何快速切换至 Taotoken 稳定服务

🚀 告别海外账号与网络限制!稳定直连全球优质大模型,限时半价接入中。 👉 点击领取海量免费额度 Claude Code 用户如何快速切换至 Taotoken 稳定服务 对于使用 Claude Code 进行开发的工程师而言,服务稳定性是保障开发…...

干货分享:企业差旅负责人必须了解的票务公司选择知识

如果你是中型制造企业的财务负责人、高科技公司的行政主管、跨国贸易企业的运营总监,正在为差旅成本超支、报销流程繁琐、合规漏洞频发等问题困扰,想要了解票务公司怎么选、票务公司哪家专业等相关问题,不妨参考本文梳理的行业经验与选型逻辑…...

CANN SHMEM NotifyWait机制使用说明

NotifyWait机制使用说明 【免费下载链接】shmem CANN SHMEM 是面向昇腾平台的多机多卡内存通信库,基于OpenSHMEM 标准协议,实现跨设备的高效内存访问与数据同步。 项目地址: https://gitcode.com/cann/shmem 环境要求和准备 SDMA功能在9.0.0及以…...

CANN/graph-autofusion SuperKernel性能分析演示

super_kernel 用例演示 【免费下载链接】graph-autofusion Graph-autofusion 是一个面向昇腾(Ascend)芯片的轻量级、解耦式组件集合,旨在通过自动融合技术加速模型执行。 目前已开源 SuperKernel 组件,未来将持续开放更多自动融合…...