当前位置：首页 > article >正文

未来机器人的大脑：如何用神经网络模拟器实现更智能的决策？

article 2026/4/15 6:12:52

编辑：陈萍萍的公主@一点人工一点智能

未来机器人的大脑：如何用神经网络模拟器实现更智能的决策？RWM通过双自回归机制有效解决了复合误差、部分可观测性和随机动力学等关键挑战，在不依赖领域特定归纳偏见的条件下实现了卓越的预测准确性和鲁棒性。https://mp.weixin.qq.com/s/JztOQLpMRD1OueApQgISWg论文提出了名为RWM（Robotic World Model）的新型世界模型框架，通过双自回归机制和自我监督训练，解决了机器人控制中长期预测、误差累积和部分可观测性等核心挑战。文章将从摘要与引言、相关工作、方法框架、实验验证、局限性与结论等维度进行系统分析，重点剖析其技术创新点与实验设计，并评估其对机器人学与强化学习领域的贡献。通过这种结构化解读，我们将揭示该研究如何通过世界模型的精准预测与稳健策略优化，缩小仿真与现实间的鸿沟，为机器人控制提供新的解决方案。

01 简介

论文提出了一种能够准确捕捉复杂、部分可观测和随机动力学的新型世界模型学习框架。该方法通过双自回归机制和自我监督训练，实现了不依赖领域特定归纳偏见的可靠长期预测，从而确保了跨多样化机器人任务的适应性。论文特别指出了该方法在"长时程预测"、"误差累积"和"仿真到现实迁移"三大挑战上的突破，这些问题正是当前基于模型的强化学习（MBRL）领域面临的主要瓶颈。

技术贡献被归纳为三个方面：

· 创新的网络架构与训练框架

· 涵盖多样化机器人任务的综合评估套件

· 利用学习到的世界模型进行高效策略优化的框架

引言部分系统性地构建了研究问题的背景与动机。作者首先指出当前机器人系统普遍存在的关键局限：策略部署后的适应能力不足，导致无法充分利用真实世界交互产生的宝贵数据。这种局限性在动态不确定环境中尤为突出，严重制约了系统的鲁棒性和应对场景变化的能力。通过对比模型自由RL方法（如PPO和SAC）与基于模型的方法，文章有力论证了样本高效的世界模型在真实机器人应用中的必要性——模型自由方法虽然在高保真仿真中表现优异，但其高昂的交互成本使其难以应用于现实场景。

引言中对世界模型的讨论尤为深入，将其定位为环境预测模型，能够通过"想象中学习"实现规划与策略优化。作者客观评价了现有方法的不足：大多数工作通过引入领域特定的归纳偏见（如结构化状态表示或手工设计的网络架构）来提高模型保真度，这种做法虽然有效但牺牲了方法的通用性和可扩展性。相比之下，本文提出的RWM框架强调在不依赖手工设计表示或专门架构偏见的条件下，实现长期预测的鲁棒性和准确性。这是首个完全无需领域特定知识、仅依靠学习到的神经网络模拟器训练策略并成功部署到物理硬件上的框架，且性能损失最小，这一主张在后续实验部分得到了充分验证。

02 相关工作

论文对世界模型和基于模型的强化学习（MBRL）领域进行了系统性梳理，展现了作者对研究领域的全面把握。在世界模型方面，文献回顾从两个维度展开：应用领域与模型设计方法。

应用上，作者指出世界模型已成为机器人学中捕捉系统动力学、实现高效规划与控制的基石，具体应用涵盖机器人控制、基于视觉的任务以及需要丰富感知输入的任务。

模型设计方法上，文献重点对比了黑盒神经网络与融合物理原理的设计思路，前者灵活性高但泛化能力受限，后者性能优异但需要大量领域知识，这种二元对立恰恰凸显了RWM框架的创新价值——在不引入领域特定归纳偏见的前提下实现良好的泛化能力。

作者对潜在空间动力学模型的讨论尤为深入，以Deep Planning Network(PlaNet)和Dreamer系列工作为例，展示了这类方法在连续控制和视觉导航任务中的卓越性能。这些框架通过将状态空间抽象为紧凑表示，实现了高效的长期规划，并已成功扩展到真实机器人部署中。文献还特别提到将已知物理结构（如刚体动力学、半结构化拉格朗日动力学模型）融入模型设计的方法，这些工作虽然展示了令人印象深刻的结果，但需要强大的领域知识和精心设计的归纳偏见，这自然引出了本文工作的动机——开发更通用的框架。

在MBRL部分，论文从方法演进的角度进行了梳理，从早期PETS（使用概率神经网络集合建模环境动力学）到PlaNet（在学习的潜在空间中直接规划），再到Dreamer（将actor-critic框架整合到潜在动力学模型中）。这种历时性回顾清晰地展示了MBRL领域的技术发展路径。作者特别强调了混合方法的价值，如MBPO（基于模型的方法用于规划和策略优化，但使用模型自由更新细化策略）和MOPO（扩展到完全离线设置）。这些方法试图结合基于模型方法的样本效率和模型自由方法的鲁棒性，而本文提出的MBPO-PPO框架正是沿袭了这一思路但有所创新。

值得注意的是，相关工作中对梯度优化方法的讨论（如SHAC）为后续实验部分的对比埋下了伏笔。这些方法通过世界模型传播梯度来优化策略，允许在复杂高维环境中进行更精确的策略更新，但在处理不连续动力学（如腿部运动中的接触变化）时面临挑战。整个相关工作章节不仅展示了作者对领域的深刻理解，更通过精准的文献选择和组织，构建起本文工作的创新背景和技术定位。

03 方法框架

3.1 问题表述与基础理论

论文第三章"Approach"系统性地阐述了RWM的方法框架，首先从理论基础上将环境建模为部分可观测马尔可夫决策过程(POMDP)，定义为元组(S,A,O,T,R,O,γ)，其中S、A和O分别表示状态、动作和观测空间。这种形式化表述明确了问题的数学边界，特别是通过观测函数O:S→O显式处理了部分可观测性这一关键挑战。值得注意的是，作者采用了非标准符号O表示观测函数（通常记为Ω），这可能是为了与观测空间O区分，但需要在阅读时特别注意。

世界模型的核心任务是近似环境动力学，即学习 $p(s_{t+1}|s_t,a_t)$ ，通过在"想象"中实现模拟环境交互来促进策略优化。论文清晰地勾勒出典型训练流程的三个迭代步骤：

(1)从真实环境交互收集数据；

(2)使用收集的数据训练世界模型；

(3)在世界模型产生的模拟环境中优化策略。

这种循环框架反映了Dyna算法的核心思想，但作者指出现有方法在复杂低级别机器人控制应用中仍面临重大挑战，由此引出RWM的创新价值。

RWM通过历史上下文和自回归训练的引入，专门针对部分可观测和不连续动力学环境中的误差累积等挑战进行了优化。与传统世界模型相比，RWM的独特之处在于其双自回归机制——既在训练阶段通过历史观测-动作序列进行条件预测，又在预测阶段将自身预测反馈回模型以实现长期推演。这种双重机制使模型能够捕获不可观测的动力学特征，同时减轻长期预测中的误差累积问题。

3.2 自监督自回归训练机制

RWM的核心创新之一是其自监督自回归训练框架，该框架使世界模型 $p_\phi$ 能够通过利用历史观测-动作序列及其自身预测来预测未来观测。具体实现上，模型输入包含跨越M个历史步骤的观测-动作对序列，在每个时间步t预测下一个观测的分布 $p(o_{t+1}|o_{t-M+1:t},a_{t-M+1:t})$ 。预测以自回归方式生成：每一步的预测观测 $o'_{t+k}$ 被追加到历史记录中，与下一个动作at+1组合作为后续预测的输入。这个过程在N步的预测范围内重复，产生未来预测序列。

数学上，k步前的预测观测可表示为：

这种公式化表达清晰地展现了自回归预测的马尔可夫性质，其中每个预测步骤都依赖于有限的历史窗口和先前的预测。值得注意的是，类似的流程也被应用于预测特权信息c（如接触信息），这提供了额外的学习目标，隐式嵌入了准确长期预测所需的关键信息。

训练目标函数设计体现了对长期预测稳定性的考量：

其中 $L_o$ 和 $L_c$ 量化预测与真实观测及特权信息间的差异，α表示衰减因子。这种多步预测误差的加权和设计具有双重目的：一方面通过 $\alpha^k$ 的指数衰减减轻远期预测的梯度影响，另一方面强制隐藏状态编码支持准确长期预测的表示。数据构建采用在收集的轨迹上滑动大小为M+N的窗口的方法，为预测目标提供足够的历史上下文。

论文详细解释了重参数化技巧的应用，这使得端到端优化能够有效通过自回归预测传播梯度。通过纳入历史观测，RWM能够捕获不可观测的动力学，解决了部分可观测和潜在不连续环境中的挑战。与常用的teacher-forcing训练范式（图2b）相比，这种自回归训练（图2a）显著减轻了长期预测中的误差累积，同时消除了对手工设计表示或领域特定归纳偏见的依赖，增强了跨多样化任务的泛化能力。

3.3 双自回归网络架构

虽然提出的自回归训练框架可应用于任何网络架构，但RWM选择了GRU基础结构，因其能够在处理低维输入的同时保持长期历史上下文。网络预测描述下一个观测的高斯分布的均值和标准差，这种概率输出形式有助于捕捉环境的内在随机性。

RWM的创新架构体现为双自回归机制：

(1)内部自回归在上下文视界M内的每个历史步骤后自回归更新GRU隐藏状态；

(2)外部自回归将来自预测视界N的预测观测反馈回网络。

这种设计（图S6）确保了对长期依赖和转换的鲁棒性，使RWM适用于复杂的机器人应用。值得注意的是，这种双机制架构与传统的递归神经网络有本质区别——它不仅通过时间递归传递状态，还显式管理历史上下文窗口和预测反馈路径，形成了更为复杂的记忆系统。

3.4 基于世界模型的策略优化

RWM中的策略优化采用学习到的世界模型，遵循受MBPO和Dyna算法启发的框架。在想象过程中，动作由策略πθ递归生成，条件是世界模型pϕ预测的观测，而世界模型又条件于先前的预测。时间t+k的动作可表示为：

其中 $o'_{t+k}$ 根据公式(1)自回归地从分布中抽取。这种方法结合了基于模型的想象与模型自由强化学习，实现了高效稳健的策略优化，如算法1所述。

回放缓冲区D聚合由单个智能体收集的真实环境交互。世界模型pϕ按照3.2节描述的自回归方案在这些数据上进行训练。想象智能体从D中的样本初始化，并使用世界模型模拟T步的轨迹，通过强化学习算法实现策略更新。训练示意图见图S7。

论文特别讨论了PPO在 learned world models上训练的独特挑战。模型不准确性可能在策略学习过程中被利用，导致想象动态与真实动态间的差异。这个问题因PPO所需的扩展自回归推演而加剧，会放大预测误差。作者将这种方法称为MBPO-PPO，并强调RWM能够成功地通过MBPO-PPO优化超过100个自回归步骤的策略，远超MBPO、Dreamer或TD-MPC等现有框架的能力。这一结果证明了所提训练方法的准确性和稳定性，以及其在硬件上合成可部署策略的能力。

04 实验验证

4.1 自回归轨迹预测评估

论文第四章"Experiments"通过一系列精心设计的实验验证RWM的有效性。在自回归轨迹预测评估中，作者使用ANYmalD硬件收集的轨迹分析RWM的自回归预测性能，控制频率设为50Hz。模型采用历史视界M=32和预测视界N=8进行训练，网络架构和训练参数的细节分别总结在附录A.2.1和A.3.1节中。

实验结果（图3a）表明，RWM在所有观测变量上展现出预测轨迹与真实轨迹的显著对齐。这种一致性在扩展推演中持续存在，展示了模型减轻复合误差的能力——这是长期预测中的关键挑战。这种性能归功于3.2节引入的双自回归机制，即使在训练期间使用较短的预测视界也能稳定预测。图1（底部）对比了RWM预测与真实模拟的状态演变，可视化表明RWM能够在远超训练预测视界的范围内保持轨迹预测的一致性，这对稳定策略学习和部署至关重要。

作者特别分析了历史视界M和预测视界N选择的关键作用。附录A.4.1的消融研究表明，虽然延长M和N都能提高准确性，但计算成本的现实考量需要仔细调整这些超参数以获得最佳性能。这种平衡反映了机器学习中的经典权衡——模型复杂度与计算效率之间的关系，在机器人应用中尤为突出。

4.2 噪声条件下的鲁棒性测试

世界模型训练的关键挑战是其在噪声条件下的泛化能力，特别是当预测依赖自回归推演时。为评估RWM的鲁棒性，作者分析了在观测和动作上应用高斯噪声扰动时的性能表现，并将结果与同样采用自回归训练的MLP基线进行比较（图3b）。

结果显示，在所有噪声水平上，RWM相对MLP基线具有明显优势。随着预测步骤增加，MLP模型的相对预测误差显著增长，比RWM发散得更快。相比之下，RWM表现出更优的稳定性，即使在高噪声水平下也能保持较低的预测误差。这种鲁棒性可归因于3.2节引入的双自回归机制，该机制通过不断针对长期预测优化状态表示，最小化噪声输入下的误差累积。

值得注意的是，噪声鲁棒性实验设计反映了真实机器人部署的典型条件——传感器噪声和执行器不确定性无处不在。RWM在此条件下的优异表现为其在现实世界应用中的潜力提供了有力证据。

4.3 跨机器人环境的通用性评估

为评估RWM在多样化机器人环境中的通用性和鲁棒性，作者比较了其与多种基线方法的性能，包括MLP、循环状态空间模型(RSSM)和基于Transformer的架构。这些基线代表了动力学建模和策略优化中广泛采用的方法。所有模型在训练和评估期间获得相同的上下文，其训练参数详见附录A.2.2节。

结果（图4）突出表明，采用自回归训练的RWM(RWM-AR)在所有环境中** consistently实现最低预测误差**。性能差距在复杂动态任务（如腿式机器人的速度跟踪）中尤为明显，这类任务中准确的长期预测对有效控制至关重要。对比还显示RWM-AR显著优于其teacher-forcing对应方法(RWM-TF)，证实了自回归训练在减轻长期推演中复合预测误差方面的重要性。

作者特别指出，虽然基线传统上采用teacher forcing训练，但提出的自回归训练框架是架构无关的，也可应用于基线模型。当采用自回归训练时，RSSM达到了与提出的GRU架构相当的性能。然而，作者基于简化和计算效率的考量选择了GRU基础模型。另一方面，用自回归训练Transformer架构效果不佳，因为自回归预测中的多步梯度传播会导致GPU内存限制。这些结果有力证明，结合自回归训练的RWM在多样化机器人任务中实现了鲁棒且可泛化的性能。

4.4 策略学习与硬件迁移实验

使用MBPO-PPO，作者训练了一个以目标为条件的ANYmal D速度跟踪策略，利用RWM进行学习。策略的观测和动作空间详见附录A.1.1节，架构描述见A.2.3节。奖励公式由A.1.2节提供，训练参数总结在A.3.2节。作者将MBPO-PPO与两个基线进行比较：Short-Horizon Actor-Critic(SHAC)和DreamerV3。

图5（左）显示了策略优化过程中的模型误差e。虽然MBPO-PPO展示了模型误差随训练的显著降低，但SHAC在整个过程中都面临高且波动的模型误差。SHAC依赖一阶梯度进行优化，这不适合腿部运动中的不连续动力学，导致训练期间机器人行为混乱。这些混乱行为反过来又为更新RWM产生了低质量训练数据，加剧了模型不准确性。尽管Dreamer有效利用了其潜在空间动力学模型进行策略优化，但训练期间较短规划视界的依赖限制了其处理长期依赖的能力，导致策略学习中遇到适度的复合误差。

图5右侧的奖励r曲线显示，MBPO-PPO的预测奖励（虚线）最初由于策略利用模型乐观估计中的小不准确性而超过地面真实值（实线）。随着训练进行，预测与地面真实更加吻合，保持足够准确性以指导有效学习。相比之下，SHAC未能收敛，产生不稳定的行为，降低了策略和模型质量。Dreamer表现出部分收敛，相比SHAC获得更高奖励但显著落后于MBPO-PPO。

为评估学习策略的鲁棒性，作者在零样本迁移设置下将其部署到ANYmal D硬件上。如图1所示，使用MBPO-PPO学习的策略在跟踪目标条件速度命令和在外界干扰（如意外冲击和地形条件）下保持稳定性方面展现出可靠而鲁棒的性

05 局限性

论文第五章"Limitations"客观讨论了RWM框架的局限性，展现了作者严谨的科研态度。虽然通过RWM和MBPO-PPO学习的策略在鲁棒性和泛化性方面超越了现有MBRL方法，但其性能仍落后于在高保真模拟器上训练的良好调优的模型自由RL方法。这种坦诚的比较反映了当前MBRL领域的真实状况——模型自由RL作为一个更成熟、经过广泛优化的范式，在可以与近乎完美的模拟器进行无限交互的环境中确实表现更优。

作者清晰地划定了MBRL的优势领域：在精确或高效模拟不可行的场景中，如复杂现实环境下的学习和适应。表1提供了与基于高保真模拟器的PPO方法在计算和性能方面的详细比较，显示了RWM在样本效率上的显著优势（6M vs 250M状态转换）和可比较的最终性能（跟踪奖励0.90±0.04 vs 0.90±0.03），这为方法选择提供了实用参考。

论文指出了几个关键的技术限制：

(1)世界模型预训练需求——当前框架使用模拟数据预训练世界模型以减少训练不稳定性（附录A.4.3），但从零开始训练仍具挑战性，因为策略可能在探索过程中利用模型不准确性，导致低效和不稳定；

(2)在线学习挑战——需要与环境进行额外交互来微调世界模型，而直接在硬件上实现安全有效的在线学习仍然困难；

(3)安全约束整合不足——当前模拟训练避免了潜在的硬件损坏，但将安全约束和鲁棒不确定性估计纳入RWM和MBPO-PPO对于现实世界的终身学习场景至关重要。

这些限制揭示了MBRL框架中固有的权衡：在数据效率、安全性和性能之间取得平衡，同时解决真实世界机器人系统的复杂性。特别是安全约束问题，作者在附录A.5"Ethics and Societal Impacts"中进一步探讨，承认该方法可能被滥用于监视或自主执法系统等应用的双重用途潜力，同时强调了当前安全措施（如仅在模拟中训练、限制在领域偏移下验证的策略部署）的重要性。

未来研究方向可能包括：

(1)开发不确定性感知世界模型，通过概率输出或集成方法量化预测不确定性，减少策略对模型误差的利用；

(2)设计安全感知的策略优化框架，将安全约束明确纳入目标函数；

(3)实现更高效的在线适应机制，减少对预训练的依赖；

(4)开发自动恢复策略，处理硬件部署中的故障情况。

这些方向对于推动MBRL在现实机器人应用中的广泛采用至关重要。

06 结论

作者强调，RWM通过双自回归机制有效解决了复合误差、部分可观测性和随机动力学等关键挑战，在不依赖领域特定归纳偏见的条件下实现了卓越的预测准确性和鲁棒性。这一主张得到了全面实验验证的支持，包括与RSSM和基于Transformer架构等最先进方法的系统比较。

技术贡献可归纳为三个层面：

(1)提出了结合双自回归机制的新型世界模型框架，通过历史上下文和自监督长期预测训练实现准确稳健的预测；

(2)开发了MBPO-PPO策略优化方法，利用世界模型的长时程推演能力进行高效学习；

(3)展示了从模拟到硬件的零样本策略迁移能力，在ANYmal D机器人上实现了可靠部署。

这些贡献共同推进了基于模型的强化学习领域，为实现适应性强、鲁棒性高的机器人系统奠定了基础。

从方法论角度看，论文的实验设计涵盖了自回归预测精度、噪声鲁棒性、跨环境通用性和硬件部署等多个维度，并提供了详尽的附录材料（包括网络架构细节、训练参数和额外可视化）。特别是图S9展示的多样化机器人环境中的想象推演与真实模拟对比，直观证明了RWM的泛化能力。

在理论意义上，这项工作为构建通用世界模型提供了新思路，弥合了专用物理模型与纯数据驱动方法之间的鸿沟。实践价值方面，RWM框架的样本效率和部署能力使其在真实机器人应用中具有直接实用性，可能降低对高成本硬件迭代的依赖。

总体而言，这篇论文代表了机器人学习和MBRL领域的重要进展，通过创新的架构设计和训练方法，推动了世界模型在复杂机器人控制中的应用边界。虽然存在一些局限性，但作者明确指出了未来改进方向，为后续研究提供了有价值的路标。这项工作为开发能够在非结构化现实环境中可靠运行的自主机器人系统做出了实质性的贡献。