当前位置：首页 > article >正文

OpenVLA: 开源视觉-语言-动作模型文献解读

article 2026/4/22 21:01:26

OpenVLA: 开源视觉-语言-动作模型文献解读一、文献概述论文标题: OpenVLA: An Open-Source Vision-Language-Action Model作者: Moo Jin Kim, Karl Pertsch, Siddharth Karamcheti 等机构: Stanford University, UC Berkeley, Toyota Research Institute, Google DeepMind, Physical Intelligence, MIT发表时间: 2024年论文链接: https://arxiv.org/abs/2406.09246项目主页: https://openvla.github.io二、研究背景与关键科学问题2.1 研究背景当前机器人学习领域面临的核心挑战是策略泛化能力不足传统机器人策略难以超越训练数据进行泛化缺乏对场景干扰物、新物体和未见任务指令的鲁棒性。然而计算机视觉和自然语言处理领域的基础模型如CLIP、SigLIP、Llama 2通过海量互联网数据预训练展现出了强大的泛化能力。2.2 关键科学问题与技术挑战本文主要解决以下两个核心问题开源性缺失问题: 现有的视觉-语言-动作模型VLA如RT-2-X大多是闭源的模型架构、训练过程和数据混合策略缺乏透明度限制了研究社区的进一步发展。高效微调方法缺失: 现有工作未能探索如何将VLA模型高效地微调到新的机器人设置、环境和任务这是VLA广泛应用的关键障碍。跨本体泛化问题: 如何训练一个能够控制多种不同机器人本体embodiments的通用策略并能够快速适应新的机器人设置。计算资源限制: 如何在消费级GPU上实现VLA的微调与推理降低使用门槛。三、研究方法与技术路线3.1 核心思想OpenVLA的核心思想是直接微调视觉条件语言模型VLM来生成机器人控制动作将机器人动作预测问题重新表述为视觉-语言任务。通过利用互联网规模的预训练知识使机器人策略能够泛化到训练数据之外的物体、场景和任务。3.2 模型架构OpenVLA采用三阶段架构如图2所示3.2.1 视觉编码器Vision Encoder双编码器融合设计:SigLIP编码器: 提供高级语义特征high-level semanticsDINOv2编码器: 提供低级空间信息low-level spatial information技术细节:输入图像尺寸: 224×224像素两个编码器分别处理输入图像特征向量在通道维度拼接总参数量: 600M创新点: 融合两种视觉特征显著提升了空间推理能力这对机器人控制至关重要。实验表明相比仅使用SigLIP融合编码器在语言定位任务上提升了约10%的绝对成功率。3.2.2 投影器Projector结构: 2层MLP功能: 将视觉特征映射到语言模型的嵌入空间实现视觉token与语言token的对齐3.2.3 语言模型主干LLM Backbone基础模型: Llama 27B参数作用: 作为主要的推理和动作生成引擎预训练数据: 互联网规模的文本数据3.3 动作离散化与Token化3.3.1 动作表示机器人动作被表示为7维控制向量通常为末端执行器的6-DoF位姿夹爪开合。3.3.2 离散化策略分箱Binning方法:每个动作维度独立离散化为256个区间bins区间边界: 基于训练数据的1%和99%分位数而非最小-最大值目的: 忽略异常值保持离散化的有效粒度Token映射:Llama tokenizer仅预留100个特殊token不足以容纳256个动作token解决方案: 覆盖tokenizer词表中256个最少使用的token最后256个token这种简单方法被证明是有效的3.4 训练数据集3.4.1 数据来源Open X-Embodiment数据集:总规模: 970k真实机器人演示轨迹来源: 70多个独立机器人数据集涵盖: 多种机器人本体、任务和场景3.4.2 数据筛选与混合筛选标准:仅保留具有至少一个第三人称视角摄像机的操作数据集仅使用单臂末端执行器控制数据混合策略:主要遵循Octo的数据混合权重启发式地降低多样性较低数据集的权重提升任务和场景多样性较大数据集的权重数据组成主要部分:数据集混合权重BridgeData V213.3%Fractal12.7%Kuka12.7%BC-Z7.5%FMB Dataset7.1%DROID10.0%训练最后1/3时移除数据清洗:过滤掉全零no-op动作移除DROID数据集训练后期3.5 训练过程3.5.1 训练目标标准下一个token预测:损失函数: 交叉熵损失仅对预测的动作token计算损失忽略输入部分的损失3.5.2 关键超参数参数设置值学习率2e-5批量大小2048训练轮数27 epochs优化器AdamW学习率预热无3.5.3 重要设计决策视觉编码器微调: 与VLM训练中的常见做法冻结视觉编码器不同OpenVLA发现微调视觉编码器对VLA性能至关重要。假设原因预训练视觉主干可能未捕获足够的细粒度空间细节以支持精确的机器人控制。训练轮数: VLA训练需要多次遍历数据集27轮直到动作token准确率超过95%。这与典型的LLM/VLM训练1-2轮形成对比。图像分辨率: 选择224×224像素而非384×384像素因为后者训练时间增加3倍但性能无提升。3.5.4 训练基础设施硬件: 64×A100 GPU集群训练时间: 14天总计算量: 21,500 A100-hours3.6 微调策略3.6.1 全参数微调Full Fine-Tuning更新所有70亿参数需要8×A100 GPU5-15小时/任务3.6.2 参数高效微调Parameter-Efficient Fine-TuningLoRALow-Rank Adaptation:秩rank: r32推荐默认值应用于所有线性层仅训练1.4%的参数约100M参数内存需求: 单张A100 GPU训练时间: 10-15小时/任务性能: 与全参数微调相当其他策略对比:策略成功率训练参数VRAM需求全参数微调69.7%7,188M163.3GB*仅最后一层30.3%465M51.4GB冻结视觉47.0%6,760M156.2GB*Sandwich微调62.1%914M64.0GBLoRA (r32)68.2%~100M单卡*需要2张GPU进行FSDP分片3.7 推理优化3.7.1 量化推理精度级别对比:精度Bridge成功率VRAM需求bfloat1671.3%16.8GBint858.1%10.2GBint471.9%7.0GB关键发现:4位量化int4在内存减少超过一半的情况下性能与bfloat16相当8位量化int8性能下降主要由于推理速度降低导致的系统动态变化而非模型精度问题4位量化在A5000 GPU上可达3Hz控制频率3.7.2 推理速度默认bfloat16: RTX 4090上约6Hz4位量化: 在多数GPU上吞吐量更高支持远程推理服务器实现实时动作预测流四、实验设计与评估4.1 实验目标评估OpenVLA作为多机器人控制策略的开箱即用性能评估OpenVLA在新机器人设置上的微调效果评估参数高效微调和量化的计算效率与性能权衡4.2 评估平台与任务4.2.1 BridgeData V2 WidowX评估机器人平台: WidowX机械臂5Hz控制频率评估任务17个任务每个10次试验共170次rollout:类别任务数说明视觉泛化5未见背景、干扰物、物体外观运动泛化2未见物体位置和朝向物理泛化3未见物体尺寸和形状语义泛化4未见目标物体、指令和互联网概念语言定位3多物体场景中的语言条件任务代表性任务:Put Eggplant into Pot视觉泛化Lift Eggplant运动泛化Lift AAA Battery物理泛化Move Skull into Drying Rack语义泛化Put {Eggplant, Red Bottle} into Pot语言定位4.2.2 Google Robot评估机器人平台: 移动操作机器人RT-1/RT-2评估平台评估任务12个任务每个5次试验共60次rollout:5个分布内任务7个分布外OOD任务OOD挑战:未见背景桌布图案未见目标物体橙子、百事罐、香蕉未见指令关系“放到盘子上vs放到盘子附近”互联网概念Taylor Swift照片4.2.3 Franka机器人微调评估Franka-Tabletop设置:6个任务3个单指令3个多指令10-150个演示/任务5Hz控制频率Franka-DROID设置:1个任务Wipe Table70个演示15Hz控制频率4.2.4 LIBERO仿真评估四个任务套件:LIBERO-Spatial: 空间关系理解LIBERO-Object: 物体类型理解LIBERO-Goal: 任务目标理解LIBERO-Long: 长程任务每个套件10个任务50个演示/任务4.3 对比方法RT-1-X(35M参数): 在OpenX子集上从头训练的Transformer策略RT-2-X(55B参数): 闭源VLA当前最先进模型Octo(93M参数): 开源通用策略支持灵活微调Diffusion Policy: 从头训练的状态-of-the-art模仿学习方法4.4 主要实验结果4.4.1 开箱即用性能BridgeData V2方法平均成功率RT-1-X18.5±2.7%Octo20.0±2.6%RT-2-X50.6±3.5%OpenVLA70.6±3.2%关键发现:OpenVLA比RT-2-X55B参数高出16.5%绝对成功率参数仅7B比RT-2-X少7倍在除语义泛化外的所有类别中均优于或与RT-2-X相当4.4.2 Google Robot评估结果方法平均成功率RT-1-X33.3±6.1%Octo26.7±5.8%RT-2-X78.3±5.4%OpenVLA85.0±4.6%关键发现:OpenVLA与RT-2-X性能相当误差范围重叠两者均显著优于RT-1-X和Octo4.4.3 微调性能Franka机器人方法Franka-Tabletop平均Franka-DROID平均Diffusion Policy48.5±4.9%35.0±8.0%Diffusion Policy (matched)43.4±4.7%26.7±7.5%Octo微调43.4±4.4%38.3±8.5%OpenVLA微调67.2±4.0%58.3±7.2%OpenVLA (scratch)43.4±4.6%21.7±6.6%关键发现:OpenVLA在所有测试任务中均达到至少50%成功率在单指令任务上Diffusion Policy表现强劲在多指令、语言定位任务上OpenVLA优势明显OpenVLA (scratch)性能显著下降证明OpenX预训练的重要性4.4.4 LIBERO仿真结果方法LIBERO-SpatialLIBERO-ObjectLIBERO-GoalLIBERO-Long平均排名Diffusion Policy78.3% (3)92.5% (1)68.3% (3)50.5% (3)2.5Octo微调78.9% (2)85.7% (3)84.6% (1)51.1% (2)2.0OpenVLA微调84.7% (1)88.4% (2)79.2% (2)53.7% (1)1.5关键发现:OpenVLA在真实世界数据预训练的情况下仍能适应仿真环境平均排名最高显示其作为默认选择的潜力与Diffusion Policy和Octo的差距较真实世界实验更小可能由于领域差异五、主要创新点与学术贡献5.1 核心创新点5.1.1 首个开源通用VLA模型OpenVLA是首个完全开源的通用视觉-语言-动作模型包括模型检查点HuggingFacePyTorch训练代码微调和推理笔记本支持Open X-Embodiment数据集的完整训练流程意义: 为机器人学习社区提供了可复现、可扩展的VLA研究基础。5.1.2 融合视觉编码器设计创新性地融合SigLIP和DINOv2两种视觉编码器SigLIP提供语义理解能力DINOv2提供空间推理能力实验验证相比单编码器提升约5%性能5.1.3 系统性的VLA微调研究首次全面探索VLA的微调策略证明VLA可有效微调到新机器人设置在语言定位任务上比Diffusion Policy提升20.4%揭示OpenX预训练对下游任务的重要性5.1.4 参数高效微调与量化首次将现代LLM优化技术应用于VLALoRA微调: 仅训练1.4%参数即可达到全参数微调性能4位量化: 内存减少50%以上性能无损使VLA在消费级GPU上可行5.2 学术贡献5.2.1 方法论贡献动作离散化最佳实践: 基于分位数的离散化策略有效处理异常动作训练配方: 27轮训练、视觉编码器微调等关键设计决策数据混合策略: 基于多样性的启发式数据加权方法5.2.2 实证贡献性能基准: 在多个真实机器人和仿真平台上建立新的性能基准消融研究: 系统性分析OpenX训练、融合编码器、视觉编码器微调等组件的贡献计算效率分析: 详细的性能-计算权衡分析5.2.3 工程贡献开源代码库: 模块化PyTorch代码库支持从单GPU微调到多节点集群训练基础设施: 支持FSDP、FlashAttention、AMP等现代训练技术远程推理: 支持实时远程动作预测流5.3 对领域的影响降低研究门槛: 开源使更多研究者能够参与VLA研究推动标准化: 提供统一的VLA训练和评估框架启发后续工作: 为VLA架构设计、训练策略、微调方法提供参考六、局限性与未来工作6.1 当前局限性单图像输入: 目前仅支持单张图像观测不支持多视角、本体感知输入或观测历史推理速度: 6Hz的推理速度限制了在高频控制场景如ALOHA的50Hz中的应用可靠性: 在测试任务上的成功率通常低于90%仍有提升空间动作表示: 仅支持单步动作预测未实现动作分块action chunking6.2 未来研究方向多模态输入: 扩展支持多图像、本体感知、观测历史推理加速: 探索动作分块、投机解码speculative decoding等技术架构探索: 研究基础VLM规模对VLA性能的影响联合训练: 探索机器人动作数据与互联网规模视觉-语言数据的联合训练视觉特征: 研究最适合VLA模型的视觉特征类型七、关键实验结论7.1 消融实验结果实验主要发现OpenX训练消融移除OpenX训练导致性能下降30%证明多样化数据的重要性双编码器消融移除DINOv2导致性能下降5%空间特征有助于部分任务视觉编码器微调冻结视觉编码器导致性能显著下降微调对空间细节捕获至关重要量化推理4位量化性能无损8位量化性能下降主要由于推理速度而非精度7.2 定性观察OpenVLA和RT-2-X展现出比RT-1-X和Octo更鲁棒的行为能够在存在干扰物时接近正确物体能够根据目标物体朝向调整末端执行器姿态能够从错误中恢复如不稳定的抓取八、总结OpenVLA代表了视觉-语言-动作模型领域的重要进展通过开源一个高性能的7B参数VLA模型为机器人学习社区提供了宝贵的研究资源。其主要贡献包括性能: 在多个基准上超越55B参数的RT-2-X同时参数少7倍开源: 完全开源的模型、代码和训练流程实用性: 支持高效微调和量化推理可在消费级GPU上运行泛化性: 强大的跨本体泛化和语言定位能力这项工作为VLA的广泛应用奠定了基础并为未来研究提供了重要的参考基准。参考文献[1] Kim M J, Pertsch K, Karamcheti S, et al. OpenVLA: An Open-Source Vision-Language-Action Model[J]. arXiv preprint arXiv:2406.09246, 2024.[2] Brohan A, et al. RT-2: Vision-language-action models transfer web knowledge to robotic control[J]. arXiv preprint arXiv:2307.15818, 2023.[3] Octo Model Team, et al. Octo: An open-source generalist robot policy[Z]. 2023.[4] Chi C, et al. Diffusion policy: Visuomotor policy learning via action diffusion[C]//RSS, 2023.[5] Karamcheti S, et al. Prismatic vlms: Investigating the design space of visually-conditioned language models[J]. arXiv preprint arXiv:2402.07865, 2024.

OpenVLA: 开源视觉-语言-动作模型文献解读

相关文章：

OpenVLA: 开源视觉-语言-动作模型文献解读

终极指南：如何用WhisperX实现70倍速离线语音识别与精准时间戳

从智能窗户到海水淡化：拆解《Solar Energy Materials and Solar Cells》里的那些“跨界”太阳能技术

静态代码检查

从List到Dictionary：手把手拆解Unity C#集合源码，教你写出高性能游戏代码

告别Wormhole依赖：手把手教你理解nil Foundation的Solana轻客户端zk-bridge方案

2026年人工智能专业毕业论文降AI工具推荐：AI技术类论文怎么降AI

Openclaw 高效数据采集实战指南

测试环境管理方案

情感化设计与AI功能设计的融合趋势

ESP8266/NodeMCU开发环境避坑大全：从AT指令到MicroPython，5种方式优缺点和适用场景全解析

用MIPSsim模拟器调试alltest.asm：手把手教你观察CPU的‘内心戏’

保姆级教程：用PyTorch从零复现EfficientDet-D0（附完整代码与BiFPN详解）

模块化量子计算中的容错接口技术解析

【C# .NET 11 AI推理加速实战白皮书】：5大零拷贝优化+3层缓存穿透策略，实测吞吐提升3.8倍（企业级成本压降指南）

告别百度搜图！手把手教你用ArcGIS 10.5从DEM数据到精准流域掩膜裁剪

机器学习：基于python旅游推荐系统景点推荐系统爬虫可视化机器学习协同过滤算法

CUDA 12.1大内核参数支持解析与性能优化

Windows Cleaner：终极C盘清理与系统加速完整指南

Java原生镜像内存调试黑科技（GraalVM 23.1+专属）：jcmd + native-image-debuginfo + heapdump-to-native converter三件套实战

【豆包电脑版邀请码】输入邀请码免费抽奖一次

在线教程丨Qwen3.6系列首个开源模型Agent编程能力大涨，激活参数仅3B超越Gemma4-31B

http-equiv属性有哪些常用值_meta模拟HTTP头汇总【详解】

SAP BAPI_GOODSMVT_CREATE领料报错？手把手教你排查‘短缺未限制使用的SL’（附完整ABAP代码）

【权威预警】Spring Boot 4.0 Agent-Ready不是“开箱即用”——20年Spring生态专家实测：6类JVM参数组合导致Agent初始化阻塞超时（附JFR火焰图定位法）

RWKV-7 (1.5B World) 低显存部署教程：量化+BF16混合精度进阶方案

从SIRAL高度计到数据产品：手把手教你下载和处理CryoSat-2卫星的冰盖数据

STM32项目构建进阶：手把手教你用CMake管理标准库与HAL库混合工程（基于VSCode）

避开 Proteus 仿真 IIC 的 3 个常见坑：以 AT89C52 驱动 AT24C02 为例

手把手教你用Vivado为ZCU102配置PS端外设：以太网、USB、PCIe一个都不少