从大语言模型到具身智能的范式跃迁
过去几年LLM模型和VLM模型发展得非常快。尤其是在2020年ChatGPT发布GPT-3之后大家越来越清楚地看到模型在语言理解、知识调用、常识推理甚至跨任务泛化上已经具备了很强的能力。也正因如此一个很自然的问题开始出现如果模型已经这么“聪明”那它能不能进一步走出数字世界真正去理解环境、操作物体、完成任务而目前传统的机械臂控制通常遵循分层式技术路线其核心思想是将“感知—规划—控制”拆解为多个相对独立的模块逐级求解。在这一框架下系统首先依据环境感知结果和人工设定目标完成任务级决策然后通过正运动学与逆运动学建立机械臂关节空间与末端执行器之间的映射关系再结合路径规划、轨迹生成与反馈控制最终将高层目标转化为可执行的关节位置、速度或力矩指令。其中正运动学用于根据关节状态求解末端位姿逆运动学则用于由目标位姿反推机械臂关节配置在此基础上系统通常还需要引入运动规划算法来避障、满足运动学约束并通过 PID、阻抗控制或模型预测控制等底层方法实现稳定执行。这样的分层控制体系在结构化环境和预定义任务中具有较高的稳定性与可解释性也是目前机械臂控制的主流范式。这种方法在结构化工业场景中具有较高的稳定性与可解释性但也高度依赖精确建模、人工规则和任务先验。当任务逐渐从固定工位抓取扩展到开放环境中的语言交互、复杂操作与长程任务执行时传统分层控制框架开始暴露出模块割裂、误差累积以及泛化能力不足等问题。不过LLM 和 VLM 虽然已经拥有了很强的“理解能力”但它们本质上仍然主要工作在文本和图像构成的数字空间里缺少一个能够与真实世界持续交互的“身体”。正是在这样的背景下有些学者开始思考能不能把视觉、语言和动作统一到同一个模型框架中让模型不仅能“看懂”和“听懂”还能进一步“做出来”于是VLAVision-Language-Action模型自然而然的成为了大家研究的载体VLA模型在数学架构上可以被形式化地定义为一个端到端的马尔可夫决策过程MDP映射策略 $ \pi(a_t \mid o_t, l) 。在该表达式中代表系统在时刻接收到的高维观测数据这些数据通常由多视角的图像序列和机器人本体感受状态如关节角度、末端执行器位姿等组成代表来自人类用户的自然语言高阶指令而$则是模型直接输出的底层机器运动控制命令序列 。通过将视觉图像和文本指令编码为连续或离散的上下文特征向量并自回归或通过扩散过程生成动作张量VLA实现了从高层认知规划到低层物理执行的闭环。与此同时随着任务需求从简单的桌面抓取逐步扩展到家庭服务、工业装配等更复杂场景具身智能的硬件载体也在持续演化从早期以 UR5、Franka 为代表的单臂系统逐渐过渡到以 ALOHA、双臂 ARX 乃至人形机器人为代表的高自由度双臂协作平台。双臂系统的引入并不只是执行器数量的增加更意味着动作空间维度、协同控制复杂度以及接触规划难度的显著提升。与单臂操作相比双臂任务不仅要求机器人分别完成每只手臂的运动控制还要求其在双手之间建立稳定的时序配合、力学协调与空间协同关系。正因如此双臂具身任务也逐渐成为检验 VLA 是否真正具备复杂物理交互能力的重要场景。二、VLA的起源与早期双臂协作困境RT系列的开创与局限目前对大规模VLA模型的探索最早可追溯至Google DeepMind在2022年推出的Robotic TransformerRT系列模型。RT-1(RT-1: Robotics Transformer for Real-World Control at Scale)的问世确立了基于Transformer架构的大规模真实世界物理控制范式该模型通过吸收超过700个任务的13万个真实物理互动片段首次证明了可以通过单一的大容量神经网络统一视觉特征、语言指令和机器人动作序列输出 。而随后发布的RT-2(RT-2: Vision-Language-Action Models Transfer Web Knowledge to Robotic Control)模型更进一步确立了现代VLA的基本范式他将具身控制策略与互联网级视觉-语言预训练模型VLM进行了深度融合通过联合微调互联网规模的图文数据与机器人轨迹数据赋予了机器人强大的语义推理与跨环境泛化能力 。尽管 RT 系列在单臂抓取和桌面级语义任务中展现了惊人的潜力其核心架构在向双臂协作和高灵巧度任务扩展时暴露出深层的机制局限性。这些局限主要体现在基于“动作分词化”Action Tokenization的自回归建模路线上。为了复用 LLM 的交叉熵损失函数Cross-entropy lossRT 系列和部分早期 VLA 将连续的机器人关节角度或末端坐标强制离散化为固定数量的区间通常为 256 个 Bins但也意味着动作表示本质上仍是对连续控制空间的近似难以天然适配双臂操作中更高自由度、更强耦合、更高精度的连续控制需求。RT 系列虽然在语义理解与跨场景泛化方面显著受益于互联网规模的预训练但其“能够执行什么动作”本质上仍然受到机器人演示数据分布的严格限制。其论文也明确指出网页级视觉—语言预训练带来的主要是语义概念与视觉知识的迁移而不是全新物理技能的产生也就是说模型可以更智能地调用训练中已经掌握的操作能力却无法仅凭互联网知识自动习得机器人轨迹数据中从未出现过的新型操作技能。与此同时RT 系列高达55B的参数规模也制约了其迈向更复杂的具身场景哪怕其5B参数规模的版本实际的控制频率也仅约5Hz此外RT-2在训练与推理的过程中还需要显式约束输出词表使模型在机器人任务提示下只能采样有效的动作 token。三、VLA双臂具身的阶段式发展一阶段一从 RT 范式到开放通用基座尽管 RT 系列还存在不少问题但它确实实打实地把今天 VLA 的基本范式立住了也就是把视觉、语言和动作放进同一个大模型里统一建模让机器人不再只是“看见以后执行预设程序”而是真正开始朝着“理解指令—结合场景—直接生成动作”这条路走。RT-1 证明了大规模 Transformer 可以在真实机器人数据上学出统一控制策略RT-2 则更进一步把互联网规模的视觉—语言预训练知识接进了 机器人控制链路里让 VLA 第一次展现出比较像样的语义泛化和跨场景迁移能力。可以说后面不管是开源基座、双臂 foundation model还是后来讲的“具身大脑”本质上都没有跳出 RT 系列打下来的这套框架。但 RT 系列解决的更多是“范式能否成立”的问题真正进入双臂具身场景后研究者首先遇到的反而不是模型结构而是数据从哪里来、双臂操作模型怎么学的问题于是紧接着斯坦福团队在 2023 年推出了 ALOHA (Mobile ALOHA: 使用低成本全身遥操作学习双臂移动操作)低成本双臂平台并同时提出了 ACTAction Chunking with Transformers:Learning Fine-Grained Bimanual Manipulation with Low-Cost Hardware,这一模型虽然并不是属于严格意义上的VLA属于VA模型但它首次系统性地降低了双臂示教与模仿学习的门槛。ALOHA让双臂数据采集变得低成本、可复制而ACT则通过动作块预测和条件变分建模缓解了精细操作中误差累积与演示多样性带来的学习困难使机器人能够在较少示教样本下完成插拔、装配和双手协同等高精度任务。到 2024 年ALOHA升级为Mobile ALOHA又进一步把这条路线从静态桌面任务扩展到 whole-body 移动双臂操作与此同时Open X-Embodiment / RT-XOpen X-Embodiment: Robotic Learning Datasets and RT-X Models 则率先从数据层面打破了实验室壁垒该项目整合了 21 家机构、22 种机器人 embodiment、60 个已有数据集以及 100 万条以上真实机器人轨迹第一次构建起一个面向通用机器人学习的开放、多本体、多任务数据底座。它的意义不只是“规模更大”而在于把此前分散在不同实验室中的机器人数据统一到了同一个生态之下让通用机器人模型不再只能依赖单一实验室的封闭数据进行训练。在 Open X-Embodiment 打通开放数据底座之后Octo(Octo: An Open-Source Generalist Robot Policy)的出现进一步补上了从“开放数据”走向“开放模型”的关键一环。与其说 Octo 的目标是追求一个参数更大、指标更高的 VLA不如说它率先回答了一个更基础也更重要的问题在大规模、开放、多本体的机器人数据之上是否真的能够训练出一个可复用、可迁移、可快速适配的通用策略基座。事实证明答案是肯定的。Octo 不仅验证了开放数据足以支撑通用机器人策略的预训练也标志着机器人学习开始从“数据共享”进一步迈向“模型共享”使开放生态下的通用策略研究第一次具备了清晰而具体的实现路径。在此基础上OpenVLA(OpenVLA: An Open-Source Vision-Language-Action Model)的发布标志着“开放通用基座”真正走向成熟。作为一个 7B 参数的开源 VLAOpenVLA 基于 97 万条真实机器人演示进行训练采用 DINOv2 与 SigLIP 双视觉编码器结合 Llama 2 语言骨干的架构设计不仅显著降低了社区复现大规模 VLA 的门槛也系统验证了“大基座预训练 参数高效微调”这一范式的现实可行性。不过OpenVLA、Octo 乃至 RT-X 的主要成功仍然更偏向“通用基座”层面对于真正复杂的双臂高频协同、强接触操作和多模态动作分布它们并没有给出最终答案。也正是在这个背景下清华 TSAIL 团队开源了面向双臂操作的 RDT-1B(RDT-1B: a Diffusion Foundation Model for Bimanual Manipulation)将 diffusion foundation model 正式引入双臂具身场景该模型在 46 个数据集、100 万条以上多机器人 episodes 上完成预训练并进一步利用 6K 的 ALOHA 双臂数据进行精调标志着开放通用基座路线与双臂操作路线开始真正汇合。至此VLA 在双臂具身领域的发展也正式从早期的范式验证阶段迈入了以开放基座、真实数据积累和通用动作建模共同驱动的新阶段。二阶段二打破数据枯竭与仿真平台的大规模崛起随着VLA模型研究的快速深入大家迅速触碰到了阻碍双臂VLA发展的最大瓶颈数据枯竭Data Scarcity。虽然大模型的成功验证了通过大规模Scaling数据可以持续提升模型的能力但是与可以通过爬虫获取的互联网图文不同双臂机器人专家级演示轨迹的获取依赖人工采集因此想要大规模数据的话这一过程极其昂贵、缓慢且在任务类型、操作风格和场景分布上普遍缺乏足够的多样性已经难以支撑数十亿参数级模型对训练数据规模与覆盖范围的需求。双人一机器一天采集的百条数据对于大规模预训练所需的百万级数据简直是杯水车薪因此到了2024-2025年前后VLA的发展开始明显从“单纯做更大的模型”转向“先解决数据从哪里来”的现实问题。一方面学界和工业界当然也在尝试继续扩大真实世界数据采集规模例如DROID(DROID: A Large-Scale In-the-Wild Robot Manipulation Dataset)、AgiBot World(AGIBOT WORLD)以及RDT开源的自采微调数据集(huggingface.co)等等已经将真实轨迹规模推到百万条以上;同时另一方面越来越多研究者逐渐意识到仅靠人工遥操作和真实机器人采集仍然很难在成本、速度和多样性上真正跟上VLA的数据需求。尤其在双臂场景下任务往往伴随着复杂接触、双手协同、遮挡、形变物体和长时序操作导致真实演示不仅昂贵而且极难覆盖足够丰富的任务分布也正因如此仿真侧在这一阶段开始迅速从“辅助训练工具”演化为“数据扩增主战场”。在真正意义上的大规模数据生成工具出现之前社区其实已经先积累起一批重要的仿真 benchmark 与数据集基础。其中LIBERO(Datasets)是一个非常典型的前置节点。它本质上并不是面向双臂的数据工厂而是一个标准化的manipulation benchmark官方提供130 个语言条件任务并配有程序化任务生成管线能够持续扩展任务组合与评测配置。在此基础上研究者开始进一步思考如果仿真环境本身已经足够成熟那么能不能不再满足于少量固定 benchmark而是直接在仿真中自动生成 demonstrations、自动扩展任务、自动丰富场景分布围绕这个问题仿真数据生成工具开始集中出现。较早且非常有代表性的工作是MimicGen(MimicGen)。它的核心思想并不是从零发明任务而是从少量人工示教出发在仿真中自动合成大量新的 demonstrations。论文报告显示MimicGen 可以从不到 200 条人类 demonstrations自动扩展出50,000 条 demonstrations覆盖18 个任务以及多种场景配置、物体实例和机器人平台。这类工作的意义非常直接它第一次让“少量人类示教 大规模自动扩数”变成了一条现实可行的技术路线。