当前位置：首页 > article >正文

CANN OpenVLA昇腾推理指南

article 2026/5/10 3:12:29

OpenVLA on 310P具身智能VLA大模型昇腾使用指南【免费下载链接】cann-recipes-embodied-intelligence本项目针对具身智能业务中的典型模型、加速算法提供基于CANN平台的优化样例项目地址: https://gitcode.com/cann/cann-recipes-embodied-intelligence本目录介绍在 Ascend 310P 上如何对 OpenVLA 模型进行离线模型转换及推理附带精度验证及仿真步骤。OpenVLA整体介绍在《OpenVLA: An Open-Source Vision-Language-Action Model》论文中提出了 OpenVLA 模型论文地址为https://arxiv.org/abs/2406.09246OpenVLA 官方仓库地址为https://github.com/openvla/openvla功能介绍OpenVLA 是一种典型的视觉-语言-动作Vision-Language-Action, VLA通用控制模型其核心思想是将视觉观测与语言指令统一编码到同一序列表示中并利用自回归autoregressive生成的方式输出动作表示如动作 token 或离散化动作序列再解码为可执行的连续控制量。通过在大规模多任务机器人示范数据上学习“从感知与语义到动作”的统一映射OpenVLA 旨在提升跨任务、跨场景的泛化能力并降低为每个任务单独训练策略的成本OpenVLA的相关代码仓拉取、仿真测试集和模型下载本样例使用的示例模型为 https://huggingface.co/openvla/openvla-7b-finetuned-libero-object这是OpenVLA官方发布的在libero_object数据集上微调后的模型模型输入输出说明OpenVLA 的输入由文本指令token与图像张量pixel_values共同构成。当启用fused vision backbone时pixel_values的通道数为633表示同一帧图像经过两套视觉预处理后在通道维拼接。输入Inputs输入名含义dtypeshape示例备注input_ids指令/提示词的 token 序列int64[B, T]T为文本 token 长度包含特殊 tokenB为 batch size常见为 1attention_mask文本 token 的有效位掩码bool或int64/int32依实现而定[B, T]1/True 表示有效 token0/False 表示 paddingpixel_values摄像头 RGB 图像经 processor 预处理后的张量float16常见[B, C, H, W]若use_fused_vision_backboneTrue则C633否则C3输出Outputs输出名含义dtypeshape示例备注actions/generated_ids动作 token或离散动作序列的 token idint64常见[B, A]A为动作维度/动作 token 个数通常由action_dim决定后续需用bin_centersaction_norm_stats反归一化得到连续动作参数符号说明Bbatch size离线验证通常为 1。T文本 token 序列长度由 prompt 长度与 tokenizer 规则决定含特殊 token。H, Wprocessor 输出的视觉输入分辨率常见为 224×224具体以 processor 配置为准。C图像通道数启用 fused backbone 时为633两套视觉塔输入拼接否则为3。A动作序列长度/动作维度通常等于action_dim与机器人自由度、动作表示方式有关。OpenVLA在昇腾310P上的运行配置与昇腾平台相关的环境配置.om 模型转化及运行需要安装 CANN 软件包。本样例的编译执行依赖 CANN 开发套件包cann-toolkit与 CANN 二进制算子包cann-kernels支持的 CANN 软件版本为CANN 8.0.0-8.2.RC1。请从软件包下载地址下载对应架构软件包并参考 CANN 安装文档依次进行安装。# ${cann_install_path}为CANN包的实际安装目录注意每次新建终端时首先source一下set_env.sh。 # 方式1默认路径安装以root用户为例 source /usr/local/Ascend/ascend-toolkit/set_env.sh # 方式2指定路径进行安装 source ${cann_install_path}/ascend-toolkit/set_env.sh与昇腾服务器无关的环境配置# 创建运行环境 conda create -y -n openvla python3.10 conda activate openvla # 拉取openvla仓库并安装示例 git clone https://github.com/openvla/openvla.git cd openvla pip install -e .仿真渲染MuJoCo无头模式如果服务器/容器缺少显示环境或 OpenGL 渲染后端MuJoCo 可能无法正常渲染。可以在运行仿真/评测前指定 EGL 无头渲染export MUJOCO_GLeglOpenVLA在昇腾310P上的推理步骤本节介绍离线推理模式通过昇腾亲和的 OM 文件的部署参考更多使用参数可参考atc工具使用文档。下面给出一条推荐的单机器链路在 310P 宿主机导出 ONNX使用Host CPU使用 ATC 将 ONNX 转为 OM在 310P 上使用 OM-backend sim-evaluator 在仿真环境评测在 310P 上需要在转化onnx的机器上额外安装onnx runtime依赖:pip install onnx # 基于Host CPU转换onnx请安装(310P 宿主机执行): pip install onnxruntime # 基于Host GPU转换onnx请安装 pip install onnxruntime-gpu1) 导出 ONNX导出前需要先对环境中的transformers库进行算子的转化修复确保OM模型转换时能匹配昇腾亲和的算子cd /path/to/conda/envs/openvla/lib/python3.10/site-packages/transformers/models/llama git apply --check -p1 /path/to/openvla/modeling_llama.patch git apply -p1 /path/to/openvla/modeling_llama.patch在 HostCPU 或 GPU上执行# 以本地目录为例models/ 里包含 config.json 等文件 # 也可以先用 huggingface-cli 下载到 models/: # pip install -U huggingface_hub # huggingface-cli download openvla/openvla-7b-finetuned-libero-object --local-dir models python3 convert_and_verify_onnx.py \ --model-path models/openvla-7b-finetuned-libero-object \ --vision-export-dir outputs/onnx/vision \ --llama-prefill-export-dir outputs/onnx/llama_prefill \ --llama-decoder-export-dir outputs/onnx/llama_decode \ --unnorm-key libero_object说明默认会用 ONNXRuntime CPU 对比 PyTorch 输出打印 max/mean diff如需跳过可加--no-validate。样例输出如下 Validating Full Inference Pipeline [1/2] Running PyTorch inference... [2/2] Running ONNX inference... Loading ONNX models with provider: CPUExecutionProvider... ONNX models loaded successfully. [3/3] Comparing results... full_pipeline_action: max abs diff 0.000000e00 full_pipeline_action: mean abs diff 0.000000e00 full_pipeline_action: ✓ MATCH (rtol0.001, atol0.001, mean_diff_threshold1e-2) PyTorch action: [ 1.43156521e-01 2.43907466e-02 9.26470588e-01 -3.15118654e-05 7.75504180e-02 -3.35294148e-02 0.00000000e00] ONNX action: [ 1.43156521e-01 2.43907466e-02 9.26470588e-01 -3.15118654e-05 7.75504180e-02 -3.35294148e-02 0.00000000e00] ✅ Full pipeline validation passed! 2) ATC 将 ONNX 转为 OM在 310P 上已安装并sourceCANN 环境执行转换脚本./convert_onnx_to_om.sh \ --vision-onnx-dir outputs/onnx/vision \ --llama-prefill-onnx-dir outputs/onnx/llama_prefill \ --llama-decoder-onnx-dir outputs/onnx/llama_decoder \ --vision-om-dir outputs/om/vision \ --llama-prefill-om-dir outputs/om/llama_prefill \ --llama-decoder-om-dir outputs/om/llama_decoder \ --soc-version Ascend310P3当模型转换完成后各个模型转换出的.om模型应在相应的各个指定output目录中在终端中有输出“ATC run success, welcome to the next use”。3) 使用 OM-backend sim-evaluator 进行仿真评测在 310P 上执行需要 ACL/ACLLite Python 依赖可用。可参考ACLLite安装教程仿真评测是在openvla官方给出的libero仿真评测的基础上修改而来可以通过应用仓库中给出的仿真适配patch获取OM-backend仿真评测代码环境仿真相关patch位于仓库sim/目录下包含robot_utils.patchopenvla_utils.patchrun_libero_eval.patch三个patch以及一个需要新增的文件openvla_om_utils.py#确保处于openvla仓库根目录 cd openvla git apply --check /path/to/xxx.patch git apply xxx.patch #新增文件需置于experiments/robot/目录下 cp /path/to/openvla_om_utils.py ./experiments/robot/准备好代码环境后可以运行以下命令进行仿真评测python3 -m experiments.robot.libero.run_libero_eval \ --model_family openvla \ --pretrained_checkpoint models/openvla-7b-finetuned-libero-object/ \ --task_suite_name libero_object \ --center_crop True \ --vision_backbone_om outputs/om/vision/vision_backbone.om \ --projector_om outputs/om/vision/projector.om \ --embedding_om outputs/om/vision/embedding.om \ --prefill_om outputs/om/llama_prefill/vla_prefill.om \ --decode_om outputs/om/llama_decode/vla_decoder.om输出评测结果日志会写入experiments/logs包含成功率等信息仿真结果视频位于rollout/date目录下date为日期OpenVLA在昇腾上的精度验证步骤接下来介绍两种验证转换后的 .om 模型在 NPU 上运行的验证方法。1基于mock的数据输入CPU/GPU与原始Pytorch输出相似度对比构造固定输入如全0图像固定指令 token测试 PyTorch CPU/GPU 和 OM 310P NPU 的输出精度对比# 在 310P 上执行需要 ACL/AclLite Python 依赖 python3 verify_om_onnx.py \ --model-path models/openvla-7b-finetuned-libero-object \ --unnorm-key libero_object \ --vision-backbone-om outputs/om/vision/vision_backbone.om \ --projector-om outputs/om/vision/projector.om \ --embedding-om outputs/omvision/embedding.om \ --prefill-om outputs/om/llama_prefill/vla_prefill.om \ --decode-om outputs/om/llama_decode/vla_decoder.om2基于仿真模拟器的功能测试MuJoCo / LIBERO使用libero仿真环境数据在 NPU 进行推理在 Host CPU 上进行仿真渲染或控制循环python3 -m experiments.robot.libero.run_libero_eval \ --model_family openvla \ --pretrained_checkpoint models/openvla-7b-finetuned-libero-object/ \ --task_suite_name libero_object \ --center_crop True \ --vision_backbone_om outputs/om/vision/vision_backbone.om \ --projector_om outputs/om/vision/projector.om \ --embedding_om outputs/om/vision/embedding.om \ --prefill_om outputs/om/llama_prefill/vla_prefill.om \ --decode_om outputs/om/llama_decode/vla_decoder.om示例效果:Citationarticle{kim24openvla, title{OpenVLA: An Open-Source Vision-Language-Action Model}, author{{Moo Jin} Kim and Karl Pertsch and Siddharth Karamcheti and Ted Xiao and Ashwin Balakrishna and Suraj Nair and Rafael Rafailov and Ethan Foster and Grace Lam and Pannag Sanketi and Quan Vuong and Thomas Kollar and Benjamin Burchfiel and Russ Tedrake and Dorsa Sadigh and Sergey Levine and Percy Liang and Chelsea Finn}, journal {arXiv preprint arXiv:2406.09246}, year{2024} }附录openvla 根目录相关代码目录树示例检查整体代码目录树经过上述的操作OpenVLA 适配昇腾的工程目录树示例如下所示格式 ├── readme.md # 本文件 ├── models # Huggingface或其他来源下载的模型 ├── openvla/ | ├── convert_and_verify_onnx.py # PyTorch - ONNX 转化脚本 | ├── verify_om_onnx.py # PyTorch(CPU) vs OM(NPU) 误差对比 | ├── vla_validation_utils.py # 精度验证辅助方法 | ├── convert_onnx_to_om.sh # ONNX - OM 转化脚本 | ├── lib | | └── modeling_llama.patch # 对transformers lib的适配patch | | | └── sim | ├── robot_utils.patch # 仿真文件robot_utils.py补丁 | ├── openvla_utils.patch # 仿真文件openvla_utils.py补丁 | ├── run_libero_eval.patch # 仿真文件run_libero_eval.py补丁 | └── openvla_om_utils.py # 仿真新增OM-Backend支持文件 | └── outputs ├── onnx/ # 输出的onnx格式模型 └── om/ # 输出的om格式模型【免费下载链接】cann-recipes-embodied-intelligence本项目针对具身智能业务中的典型模型、加速算法提供基于CANN平台的优化样例项目地址: https://gitcode.com/cann/cann-recipes-embodied-intelligence创作声明：本文部分内容由AI辅助生成（AIGC），仅供参考

CANN OpenVLA昇腾推理指南

相关文章：

CANN OpenVLA昇腾推理指南

纯Go实现Llama大模型推理引擎：llama.go架构解析与部署实践

从失效的Cursor试用重置工具看自动化脚本与API逆向工程

电容式旋转编码器：高精度运动控制新标准

gpt4local：用OpenAI API语法在本地高效运行开源大模型

为机械爪添加LCD显示：STM32驱动、UI状态机与串口通信实战

神经网络求解量子多体基态：从变分原理到JAX实战

CANN元数据定义Format转换API

双足机器人CBF-MPC高速动态避障技术解析

CANN/ops-math 广播算子

多核处理器优化实战：从原理到性能提升

魔兽争霸3现代化改造指南：如何让经典游戏在现代电脑上完美运行

Rust内存布局深度解析：从栈到堆的高效管理

Godot双网格瓦片地图系统：实现逻辑与渲染分离的2D地图架构

CANN/pyto expm1函数文档

Allegro PCB设计许可不够用？不想买新许可，浮动许可回收

Chat with NeRF：基于对话的3D视觉定位系统架构与实践

Cursor兼容VSCode扩展：lanes项目解析与手动适配实践

LlamaIndex：构建私有数据LLM应用的智能数据管道框架

为Hermes Agent配置Taotoken自定义提供商接入大模型

syncfu：声明式文件同步工具，简化开发部署流程

如何在3分钟内为Word安装完整的APA第7版引用格式：终极免费解决方案

构建模块化AI语音聊天系统：本地部署与实时对话实战

抖音音乐下载神器：3分钟搞定全网热门BGM免费下载

MCP服务器模板：快速构建AI数据连接器的脚手架指南

ARM架构Hypervisor陷阱寄存器原理与应用

STATIC框架：向量化约束解码技术解析与应用

ARM Cortex-M23/M33处理器与TrustZone安全技术解析

量子计算中的非厄米线性响应理论与薛定谔化技术

LLM在教育技术中的应用与优化策略