当前位置: 首页 > article >正文

CANN pi0.5昇腾推理指南

pi0.5机器人VLA大模型昇腾使用指南【免费下载链接】cann-recipes-embodied-intelligence本项目针对具身智能业务中的典型模型、加速算法提供基于CANN平台的优化样例项目地址: https://gitcode.com/cann/cann-recipes-embodied-intelligencepi0.5整体介绍论文题目π0.5: a Vision-Language-Action Model with Open-World Generalization中文译文π0.5: 一种具备开放世界泛化能力的视觉–语言–动作模型功能介绍pi0.5一种基于pi0的新模型它通过在异构任务上进行协同训练co-training实现更广泛的泛化能力。pi0.5利用来自多种机器人平台的数据、高层语义预测、网络数据以及其他来源使其能够在真实世界的机器人操作任务中实现更强的通用性。它结合了协同训练与混合多模态样例这些样例将图像观测、语言指令、目标检测、语义子任务预测以及底层动作整合在一起通过知识迁移实现有效泛化。pi0.5首次展示一个端到端、由学习驱动的机器人系统能够在全新的家庭环境中执行长时序且高灵巧度的操作技能例如在完全陌生的住宅里完成厨房或卧室清洁等任务。pi0.5的相关代码仓拉取、数据集和模型下载# 进入需要放置代码仓的本地xxx目录下 cd xxx git clone https://gitcode.com/cann/cann-recipes-embodied-intelligence.git chmod x cann-recipes-embodied-intelligence/manipulation/pi05/infer_with_torch/download_code_and_data.sh ./cann-recipes-embodied-intelligence/manipulation/pi05/infer_with_torch/download_code_and_data.sh完成上述操作之后最终lerobot根目录中相关代码目录树详见附录lerobot根目录相关代码目录树。pi0.5在昇腾310P上的运行环境配置与昇腾服务器无关的环境配置# 创建运行环境 conda create -y -n lerobot python3.10 conda activate lerobot # 回到lerobot根目录安装lerobot。 cd lerobot pip install torch2.5.1 torchvision0.20.1 --index-url https://download.pytorch.org/whl/cpu pip install -e . pip install transformers githttps://github.com/huggingface/transformers.gitfix/lerobot_openpi与昇腾平台相关的环境配置安装CANN软件包。本样例的编译执行依赖CANN开发套件包cann-toolkit与CANN二进制算子包cann-kernels支持的CANN软件版本为CANN 8.2.RC1。 请从软件包下载地址下载Ascend-cann-toolkit_8.2.RC1_linux-x86_64.run与Ascend-cann-kernels-310p_8.2.RC1_linux-x86_64.run软件包并参考CANN安装文档依次进行安装。# ${cann_install_path}为CANN包的实际安装目录注意每次新建终端时首先source一下set_env.sh。 # 方式1默认路径安装以root用户为例 source /usr/local/Ascend/ascend-toolkit/set_env.sh # 方式2指定路径进行安装 source ${cann_install_path}/ascend-toolkit/set_env.sh # 在上述运行环境中继续安装对应版本torch-npu pip install numpy1.26.4 pip install torch_npu-2.5.1.post1 wget https://gitcode.com/Ascend/pytorch/releases/download/v7.1.0-pytorch2.5.1/torch_npu-2.5.1.post1-cp310-cp310-manylinux_2_17_x86_64.manylinux2014_x86_64.whl pip install torch_npu-2.5.1.post1-cp310-cp310-manylinux_2_17_x86_64.manylinux2014_x86_64.whlpi0.5在昇腾上的推理步骤运行下面的代码即可自动构造mock输入进行pi05模型推理打印推理性能及机器人动作。# 进入lerobot代码仓根目录 cd lerobot conda activate lerobot chmod x run_pi05_inference.sh ./run_pi05_inference.sh pi05_model float16 1 3 npu基于上述运行过程得到pi05的单次推理时间及结果如下所示推理性能单次推理时间约860ms示例输出如下INFO - Starting inference timing (3 iterations)... INFO - ---------------------------------------- INFO - Inference Results for pi05_model INFO - Device: npu:0, Dtype: torch.float16 INFO - Action shape: torch.Size([1, 32]) INFO - Total time for 3 runs: 2.5864 s INFO - Average latency: 862.1430 ms INFO - Throughput: 1.16 FPS INFO - ----------------------------------------推理结果单次推理结果为50组机械臂关节角度序列shape为[50,32]每次推理后保存在queue中action输出一组。pi05在昇腾上的精度验证步骤基于mock的数据输入NPU与原始CPU/GPU Pytorch输出相似度对比构造固定输入如全0图像 固定指令 token测试 PyTorch CPU/GPU 和 310P NPU 的输出精度对比python verify_pi05_accuracy_ascend.py \ --pretrained_model_name_or_path pi05_model \ --device npu:0示例输出如下Global Cosine Similarity: 1.000000 Per-timestep Cosine Similarity: Step 0: 1.000000 ... Step 49: 0.999999 Minimum Per-step Similarity: 0.999999 Average Per-step Similarity: 0.999999 MSE Loss: 0.000000 Verification SUCCESS: All similarities 0.99可能遇到的问题运行推理时若使用网络环境下载google/paligemma-3b-pt-224模型需提前取模型对应的 huggingface 页面请求访问 Access参考详见https://huggingface.co/docs/huggingface_hub/main/cn/quick-start和https://huggingface.co/docs/hub/models-gated若网络环境下载huggingface模型较慢遇到下载google/paligemma-3b-pt-224卡顿可手动下载模型到本地路径再修改lerobot/src/lerobot/policies/pi05/processor_pi05.py中对应145行处google/paligemma-3b-pt-224为本地路径。Citationmisc{intelligence2025pi05visionlanguageactionmodelopenworld, title{$\pi_{0.5}$: a Vision-Language-Action Model with Open-World Generalization}, author{Physical Intelligence and Kevin Black and Noah Brown and James Darpinian and Karan Dhabalia and Danny Driess and Adnan Esmail and Michael Equi and Chelsea Finn and Niccolo Fusai and Manuel Y. Galliker and Dibya Ghosh and Lachy Groom and Karol Hausman and Brian Ichter and Szymon Jakubczak and Tim Jones and Liyiming Ke and Devin LeBlanc and Sergey Levine and Adrian Li-Bell and Mohith Mothukuri and Suraj Nair and Karl Pertsch and Allen Z. Ren and Lucy Xiaoyang Shi and Laura Smith and Jost Tobias Springenberg and Kyle Stachowicz and James Tanner and Quan Vuong and Homer Walke and Anna Walling and Haohuan Wang and Lili Yu and Ury Zhilinsky}, year{2025}, eprint{2504.16054}, archivePrefix{arXiv}, primaryClass{cs.LG}, url{https://arxiv.org/abs/2504.16054}, }附录lerobot根目录相关代码目录树检查整体代码目录树经过上述的复制及替换操作pi05适配昇腾的lerobot根目录中的最终相关代码目录树如下所示├── src # pi05模型训练及推理框架 | ├── lerobot | | ├── policies | | | ├── pi05 | | | | ├── modeling_pi05.py # pi05的模型训练及推理代码 ├── pi05_model # pi05 base模型 └── pyproject.toml # 运行环境第三方包的安装版本 └── README.md # 昇腾上运行pi05推理的环境配置及操作指导 └── run_pi05_inference.sh # 昇腾上运行pi05推理过程一键启动脚本 └── run_pi05_example.py # 昇腾上运行pi05推理示例代码 └── verify_pi05_accuracy_ascend.py # 昇腾上运行pi05推理结果精度验证代码 └── infer_utils.py # 推理与验证脚本共用工具函数【免费下载链接】cann-recipes-embodied-intelligence本项目针对具身智能业务中的典型模型、加速算法提供基于CANN平台的优化样例项目地址: https://gitcode.com/cann/cann-recipes-embodied-intelligence创作声明:本文部分内容由AI辅助生成(AIGC),仅供参考

相关文章:

CANN pi0.5昇腾推理指南

pi0.5机器人VLA大模型昇腾使用指南 【免费下载链接】cann-recipes-embodied-intelligence 本项目针对具身智能业务中的典型模型、加速算法,提供基于CANN平台的优化样例 项目地址: https://gitcode.com/cann/cann-recipes-embodied-intelligence pi0.5整体介绍…...

CANN/sip批量矩阵向量乘法

CgemvBatched 【免费下载链接】sip 本项目是CANN提供的一款高效、可靠的高性能信号处理算子加速库,基于华为Ascend AI处理器,专门为信号处理领域而设计。 项目地址: https://gitcode.com/cann/sip 产品支持情况 产品是否支持Atlas 200I/500 A2 推…...

M-LLM 赋能高效视频理解:基于帧选择的优化策略深度解析

随着短视频平台的蓬勃发展,视频数据的爆炸式增长给视频理解带来了巨大的挑战。传统的视频理解方法往往需要处理大量的视频帧,计算成本高昂。为了解决这个问题,研究人员提出了基于 M-LLM (Multimodal Large Language Model) 的视频帧选择策略&…...

Balena Etcher:极致安全的跨平台镜像烧录工具深度解析

Balena Etcher:极致安全的跨平台镜像烧录工具深度解析 【免费下载链接】etcher Flash OS images to SD cards & USB drives, safely and easily. 项目地址: https://gitcode.com/GitHub_Trending/et/etcher 还在为制作启动盘而烦恼吗?无论是树…...

CANN PTO自动模式总览

auto模式总览 【免费下载链接】pto-isa Parallel Tile Operation (PTO) is a virtual instruction set architecture designed by Ascend CANN, focusing on tile-level operations. This repository offers high-performance, cross-platform tile operations across Ascend p…...

AzurLaneAutoScript深度解析:碧蓝航线自动化脚本的技术架构与实践应用

AzurLaneAutoScript深度解析:碧蓝航线自动化脚本的技术架构与实践应用 【免费下载链接】AzurLaneAutoScript Azur Lane bot (CN/EN/JP/TW) 碧蓝航线脚本 | 无缝委托科研,全自动大世界 项目地址: https://gitcode.com/gh_mirrors/az/AzurLaneAutoScript…...

3步解锁高效工作流:KeymouseGo终极鼠标键盘自动化指南

3步解锁高效工作流:KeymouseGo终极鼠标键盘自动化指南 【免费下载链接】KeymouseGo 类似按键精灵的鼠标键盘录制和自动化操作 模拟点击和键入 | automate mouse clicks and keyboard input 项目地址: https://gitcode.com/gh_mirrors/ke/KeymouseGo 你是否厌…...

如何用ContextMenuManager一键净化Windows右键菜单:3个核心功能完全指南

如何用ContextMenuManager一键净化Windows右键菜单:3个核心功能完全指南 【免费下载链接】ContextMenuManager 🖱️ 纯粹的Windows右键菜单管理程序 项目地址: https://gitcode.com/gh_mirrors/co/ContextMenuManager 你是否曾因Windows右键菜单臃…...

CANN/catlass 3D卷积偏置算子示例

ConvBias Example Readme 【免费下载链接】catlass 本项目是CANN的算子模板库,提供NPU上高性能矩阵乘及其相关融合类算子模板样例。 项目地址: https://gitcode.com/cann/catlass 代码组织 ├── 24_conv_bias │ ├── CMakeLists.txt # CMake编译文…...

CANN/catlass优化矩阵乘示例

OptimizedMatmul Example Readme 【免费下载链接】catlass 本项目是CANN的算子模板库,提供NPU上高性能矩阵乘及其相关融合类算子模板样例。 项目地址: https://gitcode.com/cann/catlass 代码组织 ├── 06_optimized_matmul │ ├── CMakeLists.txt …...

基于Python标准库构建本地代码解释器:原理、实现与应用

1. 项目概述:一个本地化的代码解释器最近在折腾一些自动化脚本和数据处理任务时,我常常遇到一个场景:手头有一段代码片段,想快速验证一下它的逻辑或者看看输出结果,但要么得打开一个笨重的IDE,要么得在命令…...

【收藏】2026年AI行业最大的机会,毫无疑问就在应用层!

🔥小白必看|程序员速收藏!2026年AI风口已至,错过再等三年! 字节跳动早已嗅到风口,7个核心团队全速布局Agent智能体,从抖音安全业务到全场景落地,持续加码AI应用层布局;腾…...

Meta发布的代码AI会黑进你的电脑吗?

这项由Meta AI安全实验室(MSL Preparedness Team与AI Security Team)联合完成的评估报告,于2026年5月5日正式发布,论文编号为arXiv:2605.00932v1,归类于计算机软件工程(cs.SE)领域,有…...

CANN/runtime Device P2P示例

2_device_P2P 【免费下载链接】runtime 本项目提供CANN运行时组件和维测功能组件。 项目地址: https://gitcode.com/cann/runtime 描述 本样例展示了如何在多个Device之间进行切换,并进行内存复制。 产品支持情况 本样例支持以下产品: 产品是…...

CANN/pypto余弦计算函数文档

pypto.cos 【免费下载链接】pypto PyPTO(发音: pai p-t-o):Parallel Tensor/Tile Operation编程范式。 项目地址: https://gitcode.com/cann/pypto 产品支持情况 产品是否支持Ascend 950PR/Ascend 950DT√Atlas A3 训练系列产品/Atla…...

深度图像先验:基于PyTorch的水印去除终极指南

深度图像先验:基于PyTorch的水印去除终极指南 【免费下载链接】Watermark-Removal-Pytorch 🔥 CNN for Watermark Removal using Deep Image Prior with Pytorch 🔥. 项目地址: https://gitcode.com/gh_mirrors/wa/Watermark-Removal-Pytor…...

如何将网易云音乐NCM文件转换为通用MP3格式:ncmdumpGUI完整教程

如何将网易云音乐NCM文件转换为通用MP3格式:ncmdumpGUI完整教程 【免费下载链接】ncmdumpGUI C#版本网易云音乐ncm文件格式转换,Windows图形界面版本 项目地址: https://gitcode.com/gh_mirrors/nc/ncmdumpGUI 你是否曾在网易云音乐下载了心爱的…...

AlphaRank:基于深度强化学习的固定预算排序选择算法

1. 项目概述:当排序遇上预算,一个算法的诞生在数据驱动的决策场景里,我们常常面临一个经典难题:给你一笔固定的“预算”(比如计算资源、测试时间、广告费用),面前摆着一堆候选对象(比…...

AI模型协议桥接器:用OpenAI API无缝调用Gemini与MCP服务

1. 项目概述:一个连接不同AI世界的“翻译官” 最近在折腾AI应用开发,特别是想把不同的大模型能力整合到自己的自动化流程里。相信很多开发者都遇到过类似的问题:你手头有一套基于OpenAI API构建的工具链,无论是代码生成、数据分析…...

告别环境配置噩梦:用VS2019属性表在Win10上优雅部署YOLOv8 TensorRT模型

告别环境配置噩梦:用VS2019属性表在Win10上优雅部署YOLOv8 TensorRT模型 在Windows平台上部署深度学习模型,环境配置往往是开发者最头疼的问题之一。每次新建项目都要重复配置CUDA、TensorRT、OpenCV等依赖库的路径,不仅耗时耗力&#xff0c…...

从商场换灯到建桥选址:5个真实案例带你吃透工程经济学决策方法

从商场换灯到建桥选址:5个真实案例带你吃透工程经济学决策方法 在商业决策中,每分钱都需要精打细算。想象一下,你是一家商场的运营经理,面对200盏需要更换的灯具,是选择价格便宜但耗电量高的传统节能灯,还是…...

别再死记BN公式了!用Python手搓一个BatchNorm层,彻底搞懂训练和测试的区别

从零实现BatchNorm层:用代码透视深度学习的归一化魔法 在深度学习的世界里,Batch Normalization(BN)就像一位隐形的调音师,默默调整着神经网络每层输出的"音准"。许多教程止步于数学公式的推导,却…...

AI对齐安全:从规范博弈到涌现目标的技术挑战与实战应对

1. 项目概述:当AI开始“耍心眼”最近和几个做AI安全的朋友聊天,大家都有个共同的感受:现在的AI模型,尤其是大语言模型,越来越“聪明”了,但这种聪明有时会让人后背发凉。它不再只是机械地执行指令&#xff…...

抖音批量下载工具完整指南:免费快速获取无水印视频

抖音批量下载工具完整指南:免费快速获取无水印视频 【免费下载链接】douyin-downloader A practical Douyin downloader for both single-item and profile batch downloads, with progress display, retries, SQLite deduplication, and browser fallback support.…...

昇腾CANN单算子参数Dump示例

0_adump_args 【免费下载链接】runtime 本项目提供CANN运行时组件和维测功能组件。 项目地址: https://gitcode.com/cann/runtime 描述 本用例展示了单算子执行场景下如何管理Dump算子信息,并将算子信息文件输出到path参数指定的目录,主线程中设…...

量化开发资源库:从Python数据处理到回测框架的完整指南

1. 项目概述:量化开发者资源库的诞生与价值 在金融科技领域,量化开发是一个门槛极高、信息又极度分散的领域。新手入门时,常常会陷入一种困境:知道需要学习Python、统计学、金融知识,但面对浩如烟海的库、框架、论文和…...

AI与运筹优化融合:从预测后优化到端到端决策的实战解析

1. 项目概述:当运筹优化遇见人工智能在运筹学与工业工程领域干了十几年,我最大的感触是:最耗时的往往不是求解一个模型,而是“造”出这个模型本身。传统的优化建模高度依赖领域专家的经验,他们需要将模糊的业务需求&am…...

AI驱动的自动化渗透测试智能体:架构、原理与红队实战应用

1. 项目概述:一个专为“红队”设计的自动化智能体最近在安全研究社区里,一个名为zack-dev-cm/hh-openclaw-agent的项目引起了我的注意。这个名字听起来有点神秘,但如果你对网络安全,特别是渗透测试和红队行动有所了解,…...

JavaScript 浅拷贝:只复制“第一层”的艺术

📋 JavaScript 浅拷贝:只复制“第一层”的艺术 🤔 什么是浅拷贝? 定义: 浅拷贝是指创建一个新对象,这个新对象拥有原对象属性值的精确拷贝。 如果属性是基本类型(String, Number, Boolean…&…...

BarTender模板设计+Java动态传参实战:教你制作可复用的智能标签打印模块

BarTender模板设计与Java动态传参实战:构建智能标签打印系统 在工业自动化、物流管理和资产追踪等领域,标签打印系统往往是业务流转的关键环节。传统打印方案常面临一个核心矛盾:业务人员需要频繁调整标签格式和内容,而开发人员则…...