论文状态：已完成

Robotic World Model: A Neural Network Simulator for Robust Policy Optimization in Robotics

发表：2025/01/17

机器人世界模型 (1)自回归机制 (1)长时序预测 (1)模型驱动强化学习 (2)自监督训练 (1)

价格：0.100000

已有 2 人读过

本分析由 AI 生成，可能不完全准确，请以原文为准。

TL;DR 精炼摘要

本文提出了一种新颖的机器人世界模型框架，结合双重自回归机制与自监督训练，能够在不依赖领域特定偏置的情况下实现长时序的可靠预测。这一方法促进了策略优化，支持在想象环境中有效训练，并确保在现实世界系统中的无缝部署，从而解决了机器人控制中的鲁棒性与适应性问题。

摘要

Learning robust and generalizable world models is crucial for enabling efficient and scalable robotic control in real-world environments. In this work, we introduce a novel framework for learning world models that accurately capture complex, partially observable, and stochastic dynamics. The proposed method employs a dual-autoregressive mechanism and self-supervised training to achieve reliable long-horizon predictions without relying on domain-specific inductive biases, ensuring adaptability across diverse robotic tasks. We further propose a policy optimization framework that leverages world models for efficient training in imagined environments and seamless deployment in real-world systems. This work advances model-based reinforcement learning by addressing the challenges of long-horizon prediction, error accumulation, and sim-to-real transfer. By providing a scalable and robust framework, the introduced methods pave the way for adaptive and efficient robotic systems in real-world applications.

思维导图

论文精读

中文精读约 49 分钟读完 · 30,350 字

1. 论文基本信息

1.1. 标题

Robotic World Model: A Neural Network Simulator for Robust Policy Optimization in Robotics (机器人世界模型：用于机器人鲁棒策略优化的神经网络模拟器)

1.2. 作者

Chenhao Li (苏黎世联邦理工学院, ETH Zurich, Switzerland)
Andreas Krause (苏黎世联邦理工学院, ETH Zurich, Switzerland)
Marco Hutter (苏黎世联邦理工学院, ETH Zurich, Switzerland)

1.3. 发表期刊/会议

该论文作为预印本 (preprint) 发布在 arXiv 上。

1.4. 发表年份

2025年 (根据发布时间 2025-01-17T10:39:09.000Z 判断)。

1.5. 摘要

学习鲁棒且可泛化的世界模型对于在现实世界环境中实现高效且可扩展的机器人控制至关重要。本文提出了一种新颖的框架，用于学习能够准确捕捉复杂、部分可观察和随机动态的世界模型。所提出的方法采用双重自回归 (dual-autoregressive) 机制和自监督训练 (self-supervised training)，以在不依赖领域特定归纳偏置 (domain-specific inductive biases) 的情况下实现可靠的长时序预测 (long-horizon predictions)，从而确保了在各种机器人任务中的适应性。我们进一步提出了一种策略优化框架，该框架利用世界模型在想象环境 (imagined environments) 中进行高效训练，并在现实世界系统中实现无缝部署。这项工作通过解决长时序预测、误差累积 (error accumulation) 和 sim-to-real 迁移 (sim-to-real transfer) 的挑战，推进了模型-基础强化学习 (model-based reinforcement learning) 领域。通过提供一个可扩展且鲁棒的框架，所引入的方法为现实世界应用中自适应和高效的机器人系统铺平了道路。

1.6. 原文链接

原文链接: https://arxiv.org/abs/2501.10100
PDF 链接: https://arxiv.org/pdf/2501.10100v4.pdf
发布状态: 预印本 (preprint)

2. 整体概括

2.1. 研究背景与动机

近年来，随着强化学习 (Reinforcement Learning, RL) 和控制理论的进步，机器人系统取得了显著进展。然而，一个普遍的限制是，一旦策略 (policy) 部署到真实系统上，往往缺乏适应和学习能力，导致在真实世界交互过程中产生的大量有价值数据未能被充分利用。在动态和不确定环境中运行的机器人系统需要能够持续适应新条件的能力。不能利用现实世界经验进行进一步学习会限制系统的鲁棒性 (robustness)，并限制其有效处理不断演变场景的能力。真正的智能机器人系统应该能够利用有限数据高效可靠地运行，并以可扩展的方式适应现实世界条件。

虽然像近端策略优化 (Proximal Policy Optimization, PPO) 和软演员-评论家 (Soft Actor-Critic, SAC) 等模型-自由强化学习 (Model-Free Reinforcement Learning, MFRL) 算法在模拟中表现出色，但它们对交互的高要求使得它们在现实世界机器人中不切实际。因此，样本高效 (sample-efficient) 的方法对于在不需要大量环境交互的情况下利用真实世界数据中的信息至关重要。

世界模型 (World Models) 被认为是解决这一问题的一个有前景的方案，它们通过模拟环境动态来支持规划和策略优化，通常被称为在想象中学习 (learning in imagination)。然而，由于现实世界动力学的复杂性，包括非线性、随机性和部分可观察性 (partial observability)，开发可靠且可泛化的世界模型带来了独特的挑战。现有方法通常会引入领域特定归纳偏置 (domain-specific inductive biases)，如结构化状态表示或手工设计的网络架构，以提高模型保真度。虽然这些方法有效，但其可扩展性 (scalability) 和对新环境或任务的适应性受到限制。相比之下，一个无需领域特定假设来学习世界模型的通用框架，有可能增强在各种机器人系统和场景中的泛化能力和适用性。

2.2. 核心贡献/主要发现

本文提出了机器人世界模型 (Robotic World Model, RWM)，一个旨在解决上述挑战的新颖框架。其主要贡献和发现如下：

新颖的网络架构和训练框架： 引入了一种新颖的网络架构和训练框架，能够学习可靠的世界模型，这些模型能够进行长时序自回归推演 (long autoregressive rollouts)。这是下游规划和控制的关键特性，解决了长时序预测中的误差累积问题，并支持处理部分可观察和不连续的动态。
全面的评估套件： 提供了一个涵盖多种机器人任务的综合评估套件，包括机械臂操作、四足和类人机器人运动控制，以基准测试所提出的方法，并与现有世界模型框架进行比较，证明了其优越性。
高效的策略优化框架： 提出了一个高效的策略优化框架 MBPO-PPO，它利用学习到的世界模型进行连续控制，并通过在四足机器人 ANYmal D 和类人机器人 Unitree G1 上的硬件实验，证明了其能够有效泛化到真实世界场景，实现了零样本迁移 (zero-shot deployment)。
无领域特定知识的硬件部署： 据作者所知，这是第一个无需任何领域特定知识即可在学习到的神经网络模拟器上可靠训练策略，并将其部署到物理硬件上且性能损失极小的框架。这项工作通过解决长时序预测、误差累积和 sim-to-real 迁移的挑战，显著推进了模型-基础强化学习领域。

3. 预备知识与相关工作

3.1. 基础概念

强化学习 (Reinforcement Learning, RL): 一种机器学习范式，智能体 (agent) 通过与环境交互来学习如何做出决策，以最大化累积奖励。它不直接被告知采取什么行动，而是通过试错来发现哪些行动能带来最大的奖励。
世界模型 (World Models): 这是一个预测性的环境模型，它尝试学习环境的动态特性，即给定当前状态和智能体动作，环境将如何演变。通过世界模型，智能体可以在“想象”中模拟未来，进行规划和策略优化，从而减少与真实环境的交互需求。
模型-基础强化学习 (Model-Based Reinforcement Learning, MBRL): 强化学习的一种方法，它首先学习一个环境模型，然后利用这个模型进行规划或生成合成经验来训练策略。与模型-自由强化学习 (MFRL) 相比，MBRL 通常具有更高的样本效率。
部分可观察马尔可夫决策过程 (Partially Observable Markov Decision Process, POMDP): 马尔可夫决策过程 (Markov Decision Process, MDP) 的扩展，其中智能体无法直接观察到环境的完整状态。它只能通过观察 (observations) 来获取关于状态的部分信息，因此智能体需要维护一个信念状态 (belief state) 来推断当前环境的真实状态。
自回归 (Autoregressive): 一种序列模型，其在预测序列中的下一个元素时，会依赖于序列中所有先前预测出的元素以及历史真实元素。这意味着模型将其自身的输出作为未来输入的反馈，这种机制对于处理长时序依赖性非常重要，但也可能导致误差累积。
Sim-to-Real 迁移 (Sim-to-Real Transfer): 指在模拟器 (simulation) 中训练机器人策略，然后将训练好的策略直接部署到真实世界 (real-world) 物理机器人上的过程。这通常面临模拟器与真实世界之间存在的“域间隙” (domain gap) 挑战。
门控循环单元 (Gated Recurrent Unit, GRU): 一种特殊的循环神经网络 (Recurrent Neural Network, RNN) 架构，它通过引入门控机制（更新门和重置门）来解决传统 RNN 中梯度消失和梯度爆炸的问题，使其能够更好地捕捉和记忆长时序依赖信息，同时比长短期记忆网络 (LSTM) 更简单。
多层感知机 (Multi-Layer Perceptron, MLP): 一种最简单的前馈人工神经网络，由至少三层（输入层、一个或多个隐藏层、输出层）神经元组成，层与层之间全连接。每个神经元都接收前一层输出的加权和，并通过激活函数进行非线性变换。
推演 (Rollout): 在强化学习或蒙特卡洛树搜索 (Monte Carlo Tree Search, MCTS) 中，rollout 指的是从当前状态开始，根据当前策略或随机策略模拟执行一系列动作直到达到终止状态，以获得一条完整的轨迹 (trajectory) 和相应的累积奖励。这个过程通常用于评估一个状态或一个动作的价值。
真值 (Ground Truth): 在机器学习和数据科学中，Ground Truth 指的是在训练和评估模型时，用于与模型预测结果进行比较的真实、已知且准确的数据或标签。
最先进的 (state-of-the-art, SOTA): 表示在特定任务或领域中，截至目前性能最佳或技术最先进的水平。

3.2. 前人工作

3.2.1. 世界模型在机器人领域 (World Models for Robotics)

视觉先知 (Visual Foresight): 许多工作通过学习视觉动态模型来实现高维感知空间中的规划，例如用于规划视觉动态的机器人操作任务。
黑盒神经网络模型的泛化： 为了提高黑盒神经网络世界模型超出训练分布的泛化能力，许多研究将已知的物理原理或状态结构融入模型设计，例如足部放置动态、物体不变性、颗粒介质交互、频率域参数化、刚体动力学和半结构化拉格朗日动力学模型。这些方法虽然效果显著，但通常需要强大的领域知识和精心设计的归纳偏置，这限制了它们的可扩展性和对多样化机器人应用的适应性。
潜在空间动态模型 (Latent-space Dynamics Models): 提供了一种替代方案，通过将状态空间抽象为紧凑的表示，实现高效的长时序规划。
- 深度规划网络 (Deep Planning Network, PlaNet) [15]: 利用潜在动态模型直接在学习到的潜在空间中进行规划。
- Dreamer [29, 11, 30]: 作为 PlaNet 的后继者，通过将演员-评论家 (actor-critic) 框架整合到潜在动态模型中，实现了连续控制和视觉导航任务中的最先进性能，并已扩展到真实世界机器人。
- 架构设计变体： 其他工作通过自回归 Transformer [32] 和变分自编码器 [33] 的随机性来提高潜在动态模型的生成能力。

3.2.2. 模型-基础强化学习 (Model-Based Reinforcement Learning, MBRL)

MBRL 旨在解决模型-自由强化学习 (MFRL) 的局限性，特别是在样本效率和安全性至关重要的场景中。

概率集成与轨迹采样 (Probabilistic Ensembles with Trajectory Sampling, PETS) [12]: 使用概率神经网络集成来模拟环境动态。
Dreamer 系列 [29, 11, 30]: 将演员-评论家框架整合到潜在动态模型中，以同时学习动态模型和策略。
TD-MPC 和 TD-MPC2 [34, 35, 36]: 将模型-基础学习与模型预测控制 (Model Predictive Control, MPC) 相结合，实现动态环境中的高性能控制。
混合方法： 结合了 MBRL 的样本效率和 MFRL 的鲁棒性。
- 模型-基础策略优化 (Model-Based Policy Optimization, MBPO) [13]: 使用模型-基础方法进行规划和策略优化，但通过模型-自由更新来完善策略，强调在模型预测准确时有选择地依赖学习到的模型。
- 模型-基础离线策略优化 (Model-based Offline Policy Optimization, MOPO) [37]: 将 MBPO 扩展到离线设置，即完全从之前收集的数据中学习，无需进一步环境交互。
- 基于梯度的优化： 区别于使用零阶模型-自由强化学习进行策略优化，一些工作使用一阶梯度-基础优化来改进策略学习 [38, 39]，以实现更高效和精确的策略更新。

3.3. 技术演进

强化学习领域的技术演进可以概括为从依赖大量真实环境交互的模型-自由方法，逐步转向利用环境模型来提高样本效率和安全性的模型-基础方法。早期，模型-自由方法（如 PPO、SAC）在模拟器中取得了显著成功，但其高样本需求使其在真实机器人应用中难以落地。因此，研究转向了学习环境的预测模型，即世界模型。

世界模型最初侧重于对环境动态进行建模，并通过规划或在想象中学习来优化策略。为了提高模型的泛化能力，许多工作引入了领域特定归纳偏置，如将物理原理或结构化表示融入模型设计。然而，这种方法限制了模型的通用性和可扩展性。

在此背景下，潜在空间动态模型（如 PlaNet、Dreamer）的出现标志着一个重要进展，它们通过学习紧凑的潜在表示来处理高维感知输入并实现长时序规划。这些模型在模拟环境中表现出色，并开始向真实世界机器人迁移。

本文的工作 RWM 进一步推动了这一技术脉络，旨在解决当前世界模型在长时序预测中的误差累积、处理部分可观察和随机动态以及实现无缝 sim-to-real 迁移方面的核心挑战。RWM 的创新之处在于其双重自回归机制和自监督训练，使得模型能够在不依赖领域特定归纳偏置的情况下，实现更鲁棒、更准确的长时序预测。这种设计使得 RWM 能够更好地整合到混合强化学习框架（如 MBPO-PPO）中，从而在机器人硬件上实现零样本部署。RWM 代表了从领域特定、短时序预测向通用、长时序、高鲁棒性世界模型学习的重要一步，旨在弥合数据驱动建模与真实世界部署之间的鸿沟。

3.4. 差异化分析

本文提出的 RWM (Robotic World Model) 及其与 MBPO-PPO 结合的策略优化框架与现有工作相比，具有以下核心区别和创新点：

无需领域特定归纳偏置 (No Domain-Specific Inductive Biases): 现有许多高性能的世界模型和 MBRL 方法为了提高模型保真度，通常会整合领域特定知识（例如，结构化状态表示、足部接触动力学、物体不变性、刚体动力学等）。虽然这些方法在特定任务上表现出色，但它们的可扩展性和对新环境或任务的适应性受到限制。RWM 的核心创新在于，它旨在不依赖手工设计的表示或专业架构偏置的情况下，学习鲁棒且可泛化的世界模型，从而确保了在各种机器人任务中的广泛适用性。
双重自回归机制和自监督训练 (Dual-Autoregressive Mechanism and Self-Supervised Training): 这是 RWM 能够实现可靠长时序预测的关键。
- 自回归训练 (Autoregressive Training): RWM 明确地通过自回归方式进行训练，即模型将自身的预测输出作为未来预测的输入。这使得模型在训练时就接触到推理时将遇到的分布，从而显著减少了训练与推理之间的分布不匹配，并有效缓解了长时序预测中常见的误差累积问题。这与许多现有架构（如 Dreamer 系列）常用的 teacher-forcing 训练范式形成对比，后者通常只预测下一步，并使用真实的 Ground Truth (真值) 观察作为输入，虽然可以提高训练并行度，但对长时序鲁棒性有限。
- 双重自回归 (Dual-Autoregressive): RWM 进一步引入了“内层自回归”和“外层自回归”机制。内层自回归在上下文窗口 (context horizon) 内更新 GRU 隐藏状态，而外层自回归则将预测的观察结果从预测窗口 (forecast horizon) 反馈到网络中。这种精巧的设计确保了模型对长期依赖关系和状态转换的鲁棒性。
长时序推演的鲁棒性 (Robustness for Long-Horizon Rollouts): RWM 能够支持 PPO 在数百个自回归步骤上进行策略优化，这远远超出了现有框架（如 MBPO、Dreamer 或 TD-MPC）的能力。这种在长时序预测上的卓越精度和稳定性是 RWM 能够合成可部署在硬件上的策略的关键。
零样本硬件部署 (Zero-Shot Hardware Deployment): 本文成功地将通过 MBPO-PPO 框架在 RWM 上训练的策略，以零样本迁移的方式部署到 ANYmal D 四足机器人和 Unitree G1 类人机器人上，并展示了其在跟踪目标速度指令和维持外部干扰下稳定性的可靠性能。这一点是其与现有模型-基础强化学习方法的显著优势，许多现有工作虽然在模拟中表现出色，但难以实现这种级别的真实世界硬件迁移，尤其是在没有领域特定知识辅助的情况下。
对噪声的鲁棒性 (Robustness to Noise): RWM 在观察和动作受到高斯噪声扰动时，显示出比 MLP 等基线模型更低的预测误差累积和更强的稳定性，这对于真实世界中不可避免的传感器噪声和执行器误差至关重要。

综上所述，RWM 的核心优势在于其通用性、长时序预测的鲁棒性、对噪声的抵抗能力以及在真实世界硬件上的零样本部署能力，而这些都得益于其独特的双重自回归训练机制，使其能够超越传统模型-基础强化学习方法的局限性。

4. 方法论

4.1. 方法原理

本文将环境建模为一个部分可观察马尔可夫决策过程 (Partially Observable Markov Decision Process, POMDP)，智能体 (agent) 的目标是学习一个策略 (policy) 来最大化期望的折扣回报。世界模型 (World Models) 的核心思想是近似环境动态，通过在“想象”中模拟环境交互来促进策略优化。传统的训练流程包括三个迭代步骤：收集真实环境数据、训练世界模型、在世界模型模拟的环境中优化策略。

尽管现有框架在简化设置中取得成功，但将其应用于复杂的低级机器人控制仍然是一个重大挑战。为了解决这一差距，本文提出了 RWM (Robotic World Model)，一个用于在部分可观察和动态复杂环境中学习鲁棒世界模型的新框架。RWM 基于世界模型的核心概念，但引入了架构和训练上的创新，使其即使在随机和部分可观察的环境中也能实现可靠的长时序预测。通过整合历史上下文 (historical context) 和自回归训练 (autoregressive training)，RWM 解决了现实世界机器人应用中关键的误差累积、部分可观察和不连续动态等挑战。

4.2. 核心方法详解

4.2.1. 强化学习与世界模型 (Reinforcement Learning and World Models)

强化学习问题被建模为部分可观察马尔可夫决策过程 (POMDP)，其由一个元组 $( S , \mathcal { A } , \mathcal { O } , T , R , O , \gamma )$ 定义：

$S$ : 表示状态空间 (state space)。
$\mathcal { A }$ : 表示动作空间 (action space)。
$\mathcal { O }$ : 表示观察空间 (observation space)。
$T : S \times \mathcal { A } \to S$ : 捕获环境动态的转移核 (transition kernel)，定义了给定当前状态 $\boldsymbol { s } _ { t }$ 和动作 $\boldsymbol { a } _ { t }$ 时，下一个状态 $\boldsymbol { s } _ { t + 1 }$ 的概率分布 $p \left( \boldsymbol { s } _ { t + 1 } \mid \boldsymbol { s } _ { t } , \boldsymbol { a } _ { t } \right)$ 。
$R : S \times \mathcal { A } \times \mathcal { S } \to \mathbb { R }$ : 奖励函数 (reward function)，将状态转移映射到标量奖励。
$O : S \to \mathcal { O }$ : 观察核 (observation kernel)，根据概率 $p \left( o _ { t } \mid s _ { t } \right)$ 发出观察 $o _ { t } \in \mathcal { O }$ 。
$\gamma \in [ 0 , 1 ]$ : 折扣因子 (discount factor)。

智能体的目标是学习一个策略 $\pi _ { \theta } : \mathcal { O } \to \mathcal { A }$ ，以最大化期望的折扣回报： $\mathbb { E } _ { \pi _ { \theta } } \left[ \sum _ { t \geq 0 } \gamma ^ { t } r _ { t } \right]$ 其中 r _ { t } 是时间 $t$ 的奖励。

世界模型 [14] 的作用是近似环境动态，并通过在“想象”中模拟环境交互来促进策略优化 [16]。其典型训练流程包含三个迭代步骤：

数据收集： 从真实环境交互中收集数据。
模型训练： 使用收集到的数据训练世界模型。
策略优化： 在世界模型生成的模拟环境中优化策略。

4.2.2. 自监督自回归训练 (Self-supervised Autoregressive Training)

RWM 的核心是一个自监督自回归训练框架，旨在处理部分可观察环境固有的复杂性。该框架训练世界模型 $p _ { \phi }$ 来预测未来的观察，通过同时利用历史观察-动作序列和模型自身的预测，确保在扩展推演中的鲁棒性。

预测过程： 世界模型的输入由涵盖 $M$ 个历史步骤的观察-动作对序列组成。在每个时间步 $t$ ，模型预测下一个观察的分布： $p \left( o _ { t + 1 } \mid o _ { t - M + 1 : t } , a _ { t - M + 1 : t } \right)$ 。预测是自回归地生成的：在每一步，预测的观察 $o _ { t + 1 } ^ { \prime }$ 会被附加到历史中，并与下一个动作 $a _ { t + 1 }$ 结合，作为后续预测的输入。这个过程在 $N$ 个步骤的预测范围 (forecast horizon) 内重复，产生一系列未来预测。因此，向前 $k$ 个步骤的预测观察可以表示为： $\begin{array} { r } { o _ { t + k } ^ { \prime } \sim p _ { \phi } \left( \cdot { \mathrm { ~ | ~ } } o _ { t - M + k : t } , o _ { t + 1 : t + k - 1 } ^ { \prime } , a _ { t - M + k : t + k - 1 } \right) . } \end{array}$

$o _ { t + k } ^ { \prime }$ : 在时间 $t$ 预测的未来 $k$ 步的观察。
$p _ { \phi }$ : 由参数 $\phi$ 定义的世界模型。
$o _ { t - M + k : t }$ : 从时间 $t - M + k$ 到 $t$ 的真实历史观察序列。
$o _ { t + 1 : t + k - 1 } ^ { \prime }$ : 从时间 $t+1$ 到 t+k-1 的模型自身先前预测的观察序列。
$a _ { t - M + k : t + k - 1 }$ : 从时间 $t - M + k$ 到 $t + k - 1$ 的动作序列。

额外学习目标： 类似的过程也用于预测特权信息 (privileged information) $c$ ，例如接触信息 (contacts)，这提供了一个额外的学习目标，隐式地嵌入了准确长时序预测的关键信息。这种训练方案使模型接触到其在测试时将遇到的分布，从而减少了训练和推理分布之间的不匹配。

优化目标： 模型的优化通过最小化多步预测误差来完成： $\mathcal { L } = \frac { 1 } { N } \sum _ { k = 1 } ^ { N } \alpha ^ { k } \left[ L _ { o } \left( o _ { t + k } ^ { \prime } , o _ { t + k } \right) + L _ { c } \left( c _ { t + k } ^ { \prime } , c _ { t + k } \right) \right] ,$

$\mathcal { L }$ : 模型的总损失函数。
$N$ : 预测范围 (forecast horizon)，即模型向前预测的步数。
$k$ : 预测步数的索引，从 1 到 $N$ 。
$\alpha$ : 衰减因子 (decay factor)，用于加权不同预测步的损失，通常 $\alpha \in [0, 1]$ 。
$L _ { o } \left( o _ { t + k } ^ { \prime } , o _ { t + k } \right)$ : 量化预测观察 $o _ { t + k } ^ { \prime }$ 与真实观察 $o _ { t + k }$ 之间差异的损失函数（例如，均方误差）。
$L _ { c } \left( c _ { t + k } ^ { \prime } , c _ { t + k } \right)$ : 量化预测特权信息 $c _ { t + k } ^ { \prime }$ 与真实特权信息 $c _ { t + k }$ 之间差异的损失函数。

这种自回归训练目标鼓励隐藏状态编码能够支持准确可靠长时序预测的表示。

训练数据构建与技术： 训练数据通过在收集到的轨迹上滑动一个大小为 $M+N$ 的窗口来构建，这为预测目标提供了足够的历史上下文。为了改善自回归预测中的梯度传播，本文应用了重参数化技巧 (reparameterization tricks)，以实现有效的端到端优化。通过结合历史观察，RWM 捕获不可观察的动态，解决了部分可观察和潜在不连续环境的挑战。自回归训练缓解了误差累积（长时序预测中的常见问题），并消除了对手工表示或领域特定归纳偏置的需求，从而增强了在不同任务中的泛化能力。

下图（原文 Figure 2）展示了自回归训练与 teacher-forcing 训练范式的比较：

$Figure 2: Comparison of training paradigms for world models with an example of a history horizon $H = 3$ (a) Autoregressive training operates with an example of a forecast horizon $N = 2$ , leveraging historical data and its own predictions for long-horizon robustness. The dashed arrows denote the sequential autoregressive prediction steps. (b) Teacher-forcing training can be viewed as a special case of autoregressive training with a forecast horizon $N = 1$ , using ground truth observations for next-step predictions to optimize parallelization but limiting robustness to error accumulation.$ Figure 2: Comparison of training paradigms for world models with an example of a history horizon $H = 3$ (a) Autoregressive training operates with an example of a forecast horizon $N = 2$ , leveraging historical data and its own predictions for long-horizon robustness. The dashed arrows denote the sequential autoregressive prediction steps. (b) Teacher-forcing training can be viewed as a special case of autoregressive training with a forecast horizon $N = 1$ , using ground truth observations for next-step predictions to optimize parallelization but limiting robustness to error accumulation.

Figure 2: 世界模型训练范式的比较，以历史范围 $H=3$ 为例。(a) 自回归训练以预测范围 $N=2$ 为例，利用历史数据和自身的预测实现长时序鲁棒性。虚线箭头表示顺序的自回归预测步骤。(b) Teacher-forcing 训练可视为预测范围 $N=1$ 的自回归训练特例，使用 Ground Truth (真值) 观察进行下一步预测以优化并行化，但限制了对误差累积的鲁棒性。

网络架构： 尽管所提出的自回归训练框架可以应用于任何网络架构，但 RWM 采用基于 GRU (门控循环单元) 的架构，因其能够在低维输入上保持长时序历史上下文的能力。网络预测描述下一个观察的高斯分布的均值和标准差。

双重自回归机制 (Dual-autoregressive Mechanism)： RWM 引入了双重自回归机制，以确保对长期依赖和转换的鲁棒性：

内层自回归 (Inner autoregression)： 在上下文范围 $M$ 内的每个历史步骤之后，更新 GRU 的隐藏状态。
外层自回归 (Outer autoregression)： 将预测范围 $N$ 中的预测观察结果反馈到网络中。

这种架构如 Figure S6 所示：

Figure S6: Dual-autoregressive mechanism employed in RWM. Inner autoregression updates GRU hidden states after each historical step within the context horizon, while outer autoregression feeds predicted observations from the forecast horizon back into the network. The dashed arrows denote the sequential autoregressive prediction steps, highlighting robustness to long-term dependencies and transitions.

Figure S6: RWM 中采用的双重自回归机制。内层自回归在上下文范围内的每个历史步骤之后更新 GRU 隐藏状态，而外层自回归将预测范围内的预测观察结果反馈到网络中。虚线箭头表示顺序的自回归预测步骤，突出了对长期依赖和转换的鲁棒性。

4.2.3. 在学习到的世界模型上进行策略优化 (Policy Optimization on Learned World Models)

RWM 中的策略优化是使用学习到的世界模型进行的，遵循受模型-基础策略优化 (Model-Based Policy Optimization, MBPO) [13] 和 Dyna 算法 [42] 启发的框架。在“想象”过程中，动作由策略 $\pi _ { \theta }$ 递归地生成，该策略以世界模型 $p _ { \phi }$ 预测的观察为条件，而 $p _ { \phi }$ 又以先前的预测为条件。因此，时间 $t+k$ 的动作可以表示为： $\begin{array} { r } { a _ { t + k } ^ { \prime } \sim \pi _ { \theta } \left( \cdot \mid o _ { t + k } ^ { \prime } \right) , } \end{array}$

$a _ { t + k } ^ { \prime }$ : 在时间 $t+k$ 由策略生成的动作。
$\pi _ { \theta }$ : 由参数 $\theta$ 定义的策略网络。
$o _ { t + k } ^ { \prime }$ : 在时间 $t+k$ 由世界模型自回归预测的观察，如 Eq. 1 所述。

奖励是从想象中的观察和特权信息中计算出来的。该方法将模型-基础想象与模型-自由强化学习结合起来，以实现高效和鲁棒的策略优化，如 Algorithm 1 所述：

**Algorithm 1 RWM 的策略优化**

1: 初始化策略

\pi_{\theta}

、世界模型

p_{\phi}

和经验回放缓冲区

\mathcal{D}

2: for 学习迭代次数 = 1, 2, . . . do

3: 通过使用

\pi_{\theta}

与环境交互，在

\mathcal{D}

中收集观察-动作对

4: 使用从

\mathcal{D}

中采样的数据，根据 Eq. 2 通过自回归训练更新

p_{\phi}

5: 使用从

\mathcal{D}

中采样的观察初始化想象智能体 (imagination agents)

6: 使用

\pi_{\theta}

和

p_{\phi}

根据 Eq. 3 推演想象轨迹

T

步

7: 使用 PPO 或其他强化学习算法更新

\pi_{\theta}

end for

流程解释：

经验回放缓冲区 (Replay Buffer) $\mathcal{D}$ ： 累积由单个智能体收集的真实环境交互数据。
世界模型训练： 世界模型 $p _ { \phi }$ 根据 Sec. 3.2 中描述的自回归方案，利用 $\mathcal{D}$ 中的数据进行训练。
想象推演 (Imagination Rollouts)： 想象智能体从 $\mathcal{D}$ 中的样本初始化，并使用世界模型模拟轨迹，持续 $T$ 步。这些想象出的轨迹用于通过强化学习算法更新策略。

策略优化框架的训练图如 Figure S7 所示：

$Figure S7: Model-Based Policy Optimization with learned world models. The framework combines real environment interactions with simulated rollouts for efficient policy optimization. Observation and action pairs from the environment are stored in a replay buffer and used to train the autoregressive world model. Imagination rollouts using the learned model predict future states over a horizon of $T$ , providing trajectories for policy updates through reinforcement learning algorithms.$ Figure S7: Model-Based Policy Optimization with learned world models. The framework combines real environment interactions with simulated rollouts for efficient policy optimization. Observation and action pairs from the environment are stored in a replay buffer and used to train the autoregressive world model. Imagination rollouts using the learned model predict future states over a horizon of $T$ , providing trajectories for policy updates through reinforcement learning algorithms.

Figure S7: 使用学习到的世界模型进行模型-基础策略优化。该框架将真实环境交互与模拟推演相结合，以实现高效的策略优化。来自环境的观察和动作对存储在经验回放缓冲区中，并用于训练自回归世界模型。使用学习到的模型进行的想象推演在 $T$ 个步长内预测未来状态，为通过强化学习算法进行策略更新提供轨迹。

MBPO-PPO 的鲁棒性： 尽管 PPO 在机器人任务中表现强劲，但在学习到的世界模型上训练 PPO 带来了独特的挑战。模型不准确性可能在策略学习过程中被利用，导致想象动态与真实动态之间出现差异。这个问题在 PPO 所需的扩展自回归推演中尤为严重，因为这会加剧预测误差的累积。本文将这种策略优化方法称为 MBPO-PPO。尽管存在这些挑战，RWM 仍通过 MBPO-PPO 成功地在数百个自回归步骤上优化策略，远远超出了 MBPO [13]、Dreamer [29, 11, 30] 或 TD-MPC [34, 36] 等现有框架的能力。这一结果突显了所提出训练方法的准确性和稳定性，以及其合成可部署在硬件上的策略的能力。

5. 实验设置

5.1. 数据集

实验验证了 RWM 在多种机器人系统、环境和网络架构上的性能。

机器人系统：
- ANYmal D (四足机器人) [44]
- Unitree G1 (类人机器人)
环境： Isaac Lab [43] (一个用于交互式机器人学习的统一模拟框架)。
世界模型数据： 世界模型使用由速度跟踪策略在模拟中生成的数据进行预训练。其中，autoregressive trajectory prediction 的分析使用了从 ANYmal D 硬件收集的轨迹。控制频率为 $50 \mathrm{Hz}$ 。

世界模型的观察和动作空间：

观察空间 (Observation Space): 由机器人坐标系下的基础线速度 $v$ 、角速度 $\omega$ 、机器人坐标系下的重力向量测量 $g$ 、关节位置 $q$ 、关节速度 $\dot { q }$ 和关节扭矩 $\tau$ 组成。以下是原文 Table S2 的内容：

Entry	Symbol	Dimensions	Entry	Symbol	Dimensions
ANYmal D			Unitree G1
base linear velocity	U	0:3	base linear velocity	U	0:3
base angular velocity	3	3:6	base angular velocity	3	3:6
projected gravity	g	6:9	projected gravity	g	6:9
joint positions	q	9:21	joint positions	q	9:38
joint velocities	q	21:33	joint velocities	q	38:67
joint torques	τ	33:45	joint torques	τ	67:96

Table S2: 世界模型观察空间

特权信息空间 (Privileged Information Space): 用于提供额外的学习目标，隐式嵌入了准确长时序预测的关键信息。空间由膝盖和脚部接触信息组成。以下是原文 Table S3 的内容：

Entry Symbol Dimensions Entry Symbol Dimensions

ANYmal D Unitree G1

knee contact 0:4 body contact 0:26

foot contact 4:8 foot height 26:28

foot velocity 28:30

Table S3: 世界模型特权信息空间
动作空间 (Action Space): 由关节位置目标组成。以下是原文 Table S4 的内容：

Entry Symbol Dimensions Entry Symbol Dimensions

ANYmal D Unitree G1

joint position targets q* 0:12 joint position targets q* 0:29

Table S4: 动作空间

Entry	Dimensions	Entry	Dimensions
ANYmal D		Unitree G1
knee contact	0:4	body contact	0:26
foot contact	4:8	foot height	26:28
		foot velocity	28:30

Entry	Symbol	Dimensions	Entry	Symbol	Dimensions
ANYmal D			Unitree G1
joint position targets	q*	0:12	joint position targets	q*	0:29

策略的观察空间： 用于 ANYmal 速度跟踪策略的观察空间由机器人坐标系下的基础线速度 $v$ 、角速度 $\omega$ 、机器人坐标系下的重力向量测量 $g$ 、速度指令 $c$ 、关节位置 $q$ 和关节速度 $\dot { q }$ 组成。以下是原文 Table S5 的内容：

Entry	Symbol	Dimensions	Entry	Symbol	Dimensions
ANYmal D			Unitree G1
base linear velocity	U	0:3	base linear velocity	U	0:3
base angular velocity	3	3:6	base angular velocity	3	3:6
projected gravity	g	6:9	projected gravity	g	6:9
velocity command	c	9:12	velocity command	c	9:12
joint positions	q	12:24	joint positions	q	12:41
joint velocities	q	24:36	joint velocities	q	41:70

Table S5: 策略观察空间

5.2. 评估指标

5.2.1. 相对预测误差 (Relative Autoregressive Prediction Error)

概念定义 (Conceptual Definition): 衡量世界模型在自回归推演中，其预测轨迹与真实轨迹之间的平均差异。这个指标越低，表示模型的预测越准确和鲁棒。尽管原文未提供具体的数学公式，但通常相对预测误差会通过某种方式将预测误差（如均方误差）归一化，以允许在不同尺度或范围的变量之间进行比较。
数学公式 (Mathematical Formula): 原文未明确给出相对预测误差 $e$ 的具体计算公式。在实践中，它可能基于均方误差 (Mean Squared Error, MSE) 或其他距离度量，并可能通过除以真实值的方差或范围来归一化。例如，一种常见的相对误差定义是： $e = \frac{1}{K} \sum_{k=1}^{K} \frac{\| \hat{y}_k - y_k \|_2^2}{\| y_k \|_2^2 + \epsilon}$
符号解释 (Symbol Explanation):
- $K$ : 预测步数或样本总数。
- $\hat{y}_k$ : 模型在第 $k$ 步的预测值（例如，观察或状态）。
- $y_k$ : 第 $k$ 步的真实值（Ground Truth）。
- $\| \cdot \|_2$ : L2 范数（欧几里得距离）。
- $\epsilon$ : 一个小的正数，用于防止分母为零，提高数值稳定性。

5.2.2. 策略平均奖励 (Policy Mean Reward)

概念定义 (Conceptual Definition): 衡量策略在执行任务过程中获得的累积奖励。在本文中，这是通过对一系列加权奖励项求和得到的。奖励越高，表示策略在完成指定任务（如速度跟踪、维持稳定性）方面的表现越好。
数学公式 (Mathematical Formula): 总奖励 $r$ 是以下各项的加权和：
- 线速度跟踪 x, y ( $r_{v_{xy}}$ ): 鼓励机器人沿指定 x, y 方向移动。 $r _ { v _ { x y } } = w _ { v _ { x y } } e ^ { - \| c _ { x y } - v _ { x y } \| _ { 2 } ^ { 2 } / \sigma _ { v _ { x y } } ^ { 2 } }$
  - w _ { v _ { x y } }: 线速度跟踪 x, y 项的权重。
  - c _ { x y }: 指令的基础线速度 x, y 分量。
  - v _ { x y }: 当前的基础线速度 x, y 分量。
  - $\sigma _ { v _ { x y } }$ : 温度因子，控制奖励对速度误差的敏感度（例如，设置为 0.25）。
- 角速度跟踪 $z$ ( $r_{\omega_z}$ ): 鼓励机器人沿指定 $z$ $z$ 轴旋转。 $r _ { \omega _ { z } } = w _ { \omega _ { z } } e ^ { - \| c _ { z } - \omega _ { z } \| _ { 2 } ^ { 2 } / \sigma _ { \omega _ { z } } ^ { 2 } }$
  - $w _ { \omega _ { z } }$ : 角速度跟踪 $z$ 项的权重。
  - c _ { z }: 指令的基础角速度 $z$ 分量。
  - $\omega _ { z }$ : 当前的基础角速度 $z$ 分量。
  - $\sigma _ { \omega _ { z } }$ : 温度因子（例如，设置为 0.25）。
- 线速度 $z$ ( $r_{v_z}$ ): 惩罚机器人垂直方向的移动（鼓励平稳运动）。 $r _ { v _ { z } } = w _ { v _ { z } } \left. v _ { z } \right. _ { 2 } ^ { 2 }$
  - w _ { v _ { z } }: 线速度 $z$ 项的权重。
  - v _ { z }: 基础垂直速度。
- 角速度 x, y ( $r_{\omega_{xy}}$ ): 惩罚机器人滚动和俯仰方向的旋转（鼓励姿态稳定）。 $r _ { \omega _ { x y } } = w _ { \omega _ { x y } } \left. \omega _ { x y } \right. _ { 2 } ^ { 2 }$
  - $w _ { \omega _ { x y } }$ : 角速度 x, y 项的权重。
  - $\omega _ { x y }$ : 当前基础的滚动和俯仰角速度。
- 关节扭矩 ( $r_{\boldsymbol{q}_{\tau}}$ ): 惩罚过大的关节扭矩（鼓励节能和平稳动作）。 $r _ { \boldsymbol { q } _ { \tau } } = w _ { \boldsymbol { q } _ { \tau } } \left. \tau \right. _ { 2 } ^ { 2 }$
  - $w _ { \boldsymbol { q } _ { \tau } }$ : 关节扭矩项的权重。
  - $\tau$ : 关节扭矩向量。
- 关节加速度 ( $r_{\ddot{q}}$ ): 惩罚过大的关节加速度（鼓励平稳动作）。 $r _ { \ddot { q } } = w _ { \ddot { q } } \left. \ddot { q } \right. _ { 2 } ^ { 2 }$
  - $w _ { \ddot { q } }$ : 关节加速度项的权重。
  - $\ddot { q }$ : 关节加速度向量。
- 动作速率 ( $r_{\dot{a}}$ ): 惩罚动作指令的快速变化（鼓励平稳控制）。 $r _ { \dot { a } } = w _ { \dot { a } } \| a ^ { \prime } - a \| _ { 2 } ^ { 2 }$
  - $w _ { \dot { a } }$ : 动作速率项的权重。
  - $a ^ { \prime }$ : 上一步动作。
  - $a$ : 当前动作。
- 脚在空中时间 ( $r_{f_a}$ ): 奖励脚在空中的时间（鼓励高效步态）。 $r _ { f _ { a } } = w _ { f _ { a } } t _ { f _ { a } }$
  - w _ { f _ { a } }: 脚在空中时间项的权重。
  - t _ { f _ { a } }: 脚在空中时间的总和。
- 不期望接触 ( $r_c$ ): 惩罚身体与地面的意外接触（鼓励稳定步态）。 $r _ { c } = w _ { c } c _ { u }$
  - w _ { c }: 不期望接触项的权重。
  - c _ { u }: 不期望接触的计数。
- 平坦方向 ( $r_g$ ): 惩罚机器人姿态偏离平坦方向（鼓励保持水平）。 $r _ { g } = w _ { g } g _ { x y } ^ { 2 }$
  - w _ { g }: 平坦方向项的权重。
  - g _ { x y }: 投影重力向量的 x, y 分量。
- 脚部间隙 ( $r_{f_c}$ ): 奖励摆动脚的离地高度（防止拖地）。 $\begin{array} { r } { r _ { f _ { c } } = w _ { f _ { c } } h _ { f _ { c } } } \end{array}$
  - w _ { f _ { c } }: 脚部间隙项的权重。
  - h _ { f _ { c } }: 摆动脚的离地高度。
- 关节偏差 ( $r_{q_d}$ ): 惩罚关节位置偏离默认位置（鼓励保持自然姿态）。 $r _ { q _ { d } } = w _ { q _ { d } } \left\| q - q _ { 0 } \right\| _ { 1 }$
  - w _ { q _ { d } }: 关节偏差项的权重。
  - $q$ : 当前关节位置。
  - q _ { 0 }: 默认关节位置。

符号解释 (Symbol Explanation):

$\sigma$ : 温度因子。
$c$ : 指令值。
$v$ : 线速度。
$\omega$ : 角速度。
$\tau$ : 关节扭矩。
$\ddot { q }$ : 关节加速度。
$a$ : 动作。
$t_{f_a}$ : 脚在空中的时间。
$c_u$ : 不期望接触计数。
$g_{xy}$ : 投影重力向量的 x, y 分量。
$h_{f_c}$ : 脚部间隙高度。
$q_0$ : 默认关节位置。

$w$ : 各项的权重。

以下是原文 Table S6 的内容：

Symbol	Value	Symbol	Value	Symbol	Value	Symbol	Value
ANYmal D				Unitree G1
Wvxy	1.0	Wωz	0.5	Wvxy	1.0	Wωz	0.5
Wvz	-2.0	Wωxy	-0.05	Wvz	−2.0	Wωxy	-0.05
Wqt	-2.5e-5	Wq	-2.5e-7	Wqt	-2.5e-5	Wq	-2.5e-7
W	-0.01	Wfa	0.5	W	−0.05	Wfa	0.0
Wc	-1.0	Wg	-5.0	Wc	-1.0	Wg	-5.0
Wfc	0.0	Wqd	0.0	Wfc	1.0	Wqd	−1.0

Table S6: 奖励权重

5.2.3. 计算效率 (Computational Efficiency)

概念定义 (Conceptual Definition): 衡量训练和推理过程中所需的时间和计算资源。
评估指标： state transitions (状态转移数量), total training time (总训练时间), step inference time (单步推理时间)。

5.3. 对比基线

5.3.1. 世界模型比较 (World Model Comparison)

为了评估 RWM 的通用性和鲁棒性，将其与以下几种基线方法进行了比较：

MLP (多层感知机): 一种基本的神经网络架构，作为简单前馈模型的基线。
RSSM (Recurrent State-Space Model, 循环状态空间模型) [15, 29, 11, 30]: 像 PlaNet 和 Dreamer 这样的模型的基础，它将观察映射到潜在状态空间并学习潜在动态。
Transformer-based architectures (基于 Transformer 的架构) [41, 45]: 近年来在序列建模中表现出色的架构，也被用于动态建模。

所有基线模型在训练和评估时都获得相同的上下文信息，并且它们的训练参数在 Sec. A.2.2 中详细说明。RWM 自身也通过两种训练方式进行比较：teacher-forcing 训练 (RWM-TF) 和自回归训练 (RWM-AR)，以突出自回归训练的重要性。

以下是原文 Table S8 的内容：

Network	Parameter	Value
MLP	hidden shape activation	256, 256 ReLU
RSSM	type hidden size layers latent dimension prior type categories	GRU 256 2 64 categorical 32
Transformer	type dimension heads layers context length positional encoding	decoder 64 8 2 32 sinusoidal

Table S8: 基线架构

5.3.2. 策略优化比较 (Policy Optimization Comparison)

在策略优化阶段，MBPO-PPO 与以下两种基线方法进行比较：

SHAC (Short-Horizon Actor-Critic) [38]: 一种采用一阶梯度-基础方法通过世界模型传播梯度来优化策略的方法。
DreamerV3 [30]: Dreamer 系列的最新版本，它将潜在空间动态模型与演员-评论家框架相结合，强调连续控制任务中的样本效率和鲁棒性。

5.3.3. 网络架构与训练参数

RWM 架构： 以下是原文 Table S7 的内容：

Component Type Hidden Shape Activation

base GRU 256, 256 —

heads MLP 128 ReLU

Table S7: RWM 架构
MBPO-PPO 策略和价值函数架构： 以下是原文 Table S9 的内容：

Network Type Hidden Shape Activation

policy MLP 128, 128, 128 ELU

value function MLP 128, 128, 128 ELU

Table S9: 策略和价值函数架构

Component	Type	Hidden Shape	Activation
base	GRU	256, 256	—
heads	MLP	128	ReLU

Network	Type	Hidden Shape	Activation
policy	MLP	128, 128, 128	ELU
value function	MLP	128, 128, 128	ELU

RWM 训练参数： 以下是原文 Table S10 的内容：

Parameter	Symbol	Value
step time seconds	∆t	0.02
max iterations	−	2500
learning rate	√	1e-4
weight decay		1e-5
batch size		1024
history horizon	M	32
forecast horizon	N	8
forecast decay	α	1.0
approximate training hours	−	1
number of seeds	−	5

Table S10: RWM 训练参数

MBPO-PPO 训练参数： 以下是原文 Table S11 的内容：

Parameter	Symbol	Value
imagination environments		4096
imagination steps per iteration		100
step time seconds	∆t	0.02
buffer size	\|D\|	1000
max iterations	−	2500
learning rate		0.001
weight decay		0.0
learning epochs		5
mini-batches		4
KL divergence target		0.01
discount factor	γ	0.99
clip range	€	0.2
entropy coefficient		0.005
number of seeds		5

Table S11: MBPO-PPO 训练参数

6. 实验结果与分析

6.1. 自回归轨迹预测 (Autoregressive Trajectory Prediction)

世界模型在自回归推演中保持高保真度的能力对于有效的规划和策略优化至关重要。本文通过分析 RWM 的自回归预测性能来评估这一点，使用了从 ANYmal D 硬件收集的轨迹。RWM 的预测轨迹与真值轨迹在所有观察变量上展现出显著的一致性。这种一致性在长时间推演中依然保持，表明了模型减轻复合误差的能力——这是长时序预测中的一个关键挑战。这种性能归因于 Sec. 3.2 中引入的双重自回归机制，即使在训练时采用较短的预测范围，也能稳定预测。

下图（原文 Figure 3a 的左半部分）可视化了 RWM 的自回归轨迹预测：

$Figure 3: (Left) Solid lines represent ground truth trajectories, while dashed lines denote predicted state evolution. Predictions commence at $t = 3 2$ using historical observations, with future observations predicted autoregressively by feeding prior predictions back into the model. (Right) Yellow curves denote RWM at varying noise levels, demonstrating consistent robustness and lower error accumulation across forecast steps. Grey curves represent the MLP baseline, which exhibits significantly higher error accumulation and reduced robustness to noise.$ Figure 3: (Left) Solid lines represent ground truth trajectories, while dashed lines denote predicted state evolution. Predictions commence at $t = 3 2$ using historical observations, with future observations predicted autoregressively by feeding prior predictions back into the model. (Right) Yellow curves denote RWM at varying noise levels, demonstrating consistent robustness and lower error accumulation across forecast steps. Grey curves represent the MLP baseline, which exhibits significantly higher error accumulation and reduced robustness to noise.

Figure 3: (左) 实线表示真值轨迹，虚线表示预测状态演变。预测从 $t=32$ 开始使用历史观察，通过将先前的预测反馈给模型来自动回归预测未来的观察。(右) 黄色曲线表示不同噪声水平下的 RWM，展示了在不同预测步骤中一致的鲁棒性和更低的误差累积。灰色曲线表示 MLP 基线，其误差累积显著更高，对噪声的鲁棒性更差。

上图的左半部分展示了 RWM 在预测未来轨迹方面的卓越能力，预测与实际的 Ground Truth (真值) 保持高度一致。这突出了 RWM 缓解长时序预测中常见复合误差的有效性。这种鲁棒性对于稳定的策略学习和部署至关重要。

6.2. 噪声下的鲁棒性 (Robustness under Noise)

在噪声条件下泛化是训练世界模型的一个关键挑战，尤其是在预测依赖于自回归推演时。即使与训练分布的微小偏差也可能级联到未训练区域，导致模型“幻觉”未来的轨迹。为了评估 RWM 的鲁棒性，本文分析了其在高斯噪声扰动应用于观察和动作时的性能。结果与一个同样以自回归方式训练并具有相同历史和预测范围的 MLP 基线进行了比较。

下图（原文 Figure 3b 的右半部分）展示了 RWM 在不同噪声水平下的相对预测误差 $e$ ：

上图的右半部分中，黄色曲线代表 RWM，灰色曲线代表 MLP 基线。结果表明，RWM 在所有噪声水平下都表现出对 MLP 基线的明显优势。随着预测步骤的增加，MLP 模型的相对预测误差显著增长，比 RWM 更快地发散。相比之下，RWM 展现出卓越的稳定性，即使在高噪声水平下也能保持较低的预测误差。这种鲁棒性归因于 Sec. 3.2 中引入的双重自回归机制，该机制通过不断将状态表示精炼到长期预测，即使在存在噪声输入的情况下，也能最大限度地减少误差累积。

6.3. 机器人环境的通用性 (Generality across Robotic Environments)

为了评估 RWM 在不同机器人环境中的通用性和鲁棒性，本文将其性能与几种基线方法进行了比较，包括 MLP、recurrent state-space model (RSSM) [15, 29, 11, 30] 和 transformer-based architectures [41, 45]。所有模型在训练和评估时都获得相同的上下文。任务涵盖了操作场景以及四足和类人机器人运动任务。此外，本文还通过比较使用 teacher-forcing (RWM-TF) 和自回归训练 (RWM-AR) 训练的 RWM，突出了自回归训练的重要性。

下图（原文 Figure 4）展示了这些模型在不同机器人环境中的相对自回归轨迹预测误差 $e$ ：

Figure 4: Autoregressive trajectory prediction errors across diverse robotic environments and network architectures. RWM trained with autoregressive training (RWM-AR) consistently outperforms baseline methods, including MLP, recurrent state-space model (RSSM), and transformer-based architectures. RWM-AR demonstrates superior generalization and robustness across tasks, from manipulation to locomotion. Autoregressive training (RWM-AR) reduces compounding errors over long rollouts, significantly improving performance compared to teacher-forcing training (RWM-TF).

Figure 4: 在不同机器人环境和网络架构下的自回归轨迹预测误差。使用自回归训练的 RWM (RWM-AR) 始终优于基线方法，包括 MLP、循环状态空间模型 (RSSM) 和基于 Transformer 的架构。RWM-AR 在从操作到运动的各种任务中展现出卓越的泛化能力和鲁棒性。自回归训练 (RWM-AR) 减少了长时间推演中的复合误差，与 teacher-forcing 训练 (RWM-TF) 相比显著提高了性能。

结果突出表明，使用自回归训练的 RWM (RWM-AR) 性能卓越，在所有环境中始终实现最低的预测误差。RWM-AR 与基线之间的性能差距在复杂动态任务中尤为显著，例如腿式机器人的速度跟踪，其中准确的长时序预测对于有效控制至关重要。比较还显示，RWM-AR 显著优于其 teacher-forcing 对应版本 (RWM-TF)，这强调了自回归训练在缓解长时间推演中复合预测误差的重要性。

值得注意的是，基线模型通常采用 teacher-forcing 进行训练。然而，所提出的自回归训练框架是架构无关的，也可以应用于基线模型。当使用自回归训练时，RSSM 实现了与所提出的基于 GRU 的架构相当的性能。尽管如此，本文选择基于 GRU 的模型是因为其简单性和计算效率。另一方面，使用自回归训练 Transformer 架构并不能有效扩展，因为自回归预测中的多步梯度传播会导致 GPU 内存限制，从而限制了其在此方法中的实用性。这些结果表明，RWM 与自回归训练结合时，可在各种机器人任务中实现鲁棒和可泛化的性能。

6.4. 策略学习和硬件迁移 (Policy Learning and Hardware Transfer)

本文利用 RWM，通过 MBPO-PPO 训练了 ANYmal D 和 Unitree G1 的目标条件速度跟踪策略。与两种基线方法 Short-Horizon Actor-Critic (SHAC) [38] 和 DreamerV3 [30] 进行了比较。

下图（原文 Figure 5）展示了策略优化过程中的模型误差 $e$ 和策略平均奖励 $r$ ：

Figure 5: Model error and policy mean reward for the ANYmalD (left) and Unitree G1 (right) velocity tracking task with MBPO-PPO. The policy is trained using estimated rewards computed from predicted observations by RWM. Ground truth rewards, visualized with solid lines, are reported by the simulator for evaluation purposes only.

Figure 5: ANYmalD (左) 和 Unitree G1 (右) 速度跟踪任务中，MBPO-PPO 的模型误差和策略平均奖励。策略使用 RWM 预测观察计算的估计奖励进行训练。仅出于评估目的，模拟器报告了用实线表示的 Ground Truth (真值) 奖励。

从左侧的模型误差图可以看出，MBPO-PPO 在训练过程中显著降低了模型误差，表明其模型预测的准确性在不断提高。相比之下，SHAC 在整个过程中模型误差较高且波动剧烈。SHAC 依赖于一阶梯度优化，不适用于不连续的动态（如腿式运动中由于接触模式变化导致系统行为剧烈变化），导致梯度不准确，产生混乱的机器人行为和糟糕的模型质量。尽管 Dreamer 有效地利用其潜在空间动态模型进行策略优化，但其在训练过程中依赖较短的规划范围限制了其处理长时序依赖性的能力，特别是在随机环境中。因此，Dreamer 在策略学习过程中遇到了中等的复合误差，这阻碍了其收敛到最优行为。

在右侧的奖励图上，MBPO-PPO 的预测奖励（虚线）最初由于策略利用模型乐观估计中的微小不准确性而略高于 Ground Truth (真值) 奖励（实线）。但随着训练的进行，预测与真值趋于一致，并保持足够的准确性以指导有效的学习。相比之下，SHAC 未能收敛，产生了不稳定行为，降低了策略和模型的质量。Dreamer 表现出部分收敛，奖励高于 SHAC，但显著落后于 MBPO-PPO。

为了评估学习策略的鲁棒性，本文将这些策略以零样本迁移的方式部署到 ANYmal D 和 Unitree G1 硬件上。SHAC 和 Dreamer 由于在训练期间崩溃未能产生可部署的策略。然而，正如 Figure 1 所示，使用 MBPO-PPO 学习的策略在跟踪目标条件速度指令和在外部扰动（例如意外冲击和地形条件）下保持稳定性方面表现出可靠和鲁棒的性能。MBPO-PPO 在硬件部署上的成功是 RWM 生成高质量轨迹预测的直接结果，这使得准确有效的策略优化成为可能。

6.5. 局限性与对比模型-自由方法 (Limitations and Comparison to Model-Free Methods)

尽管 RWM 和 MBPO-PPO 学习的策略在鲁棒性和泛化能力上超越了现有 MBRL 方法，但它在性能上仍不及在高保真模拟器上训练的经过精细调优的模型-自由强化学习 (MFRL) 方法。MFRL 作为一种更成熟、优化更充分的范式，在可以无限次与近乎完美的模拟器交互的环境中表现出色。相比之下，MBRL 的优势在无法实现准确或高效模拟的场景中更为突出，使其成为使智能体最终在复杂现实世界环境中学习和适应的不可或缺的工具。

为了阐明计算和性能方面，以下是原文 Table 1 与高保真模拟器上基于 PPO 的方法的比较：

Method	RWM pretraining	MBPO-PPO	PPO
state transitions	6M	—	250M
total training time	50 min	5 min	10 min
step inference time	−	1 ms	1 ms
real tracking reward	−	0.90 ± 0.04	0.90 ± 0.03

Table 1: 与模型-自由方法的比较

从 Table 1 可以看出：

状态转移 (state transitions): PPO 需要 250M 的状态转移，而 RWM 预训练仅需 6M。这表明 RWM 显著提高了数据效率，这对于真实世界机器人至关重要。
总训练时间 (total training time): RWM 预训练需要 50 分钟，MBPO-PPO 策略训练需要 5 分钟。PPO 的策略训练时间为 10 分钟。虽然 PPO 的策略训练时间看似较短，但其巨大的状态转移需求通常意味着更长的实际数据收集时间或在极快模拟器上的运行时间。
单步推理时间 (step inference time): MBPO-PPO 和 PPO 都达到了 1 毫秒，表明在部署时具有相似的实时性能。
真实跟踪奖励 (real tracking reward): 两种方法在真实跟踪奖励上表现相当（0.90 ± 0.04 vs 0.90 ± 0.03），这表明 RWM 即使在数据效率更高的情况下，也能达到与高性能模型-自由方法相当的最终策略质量。

6.6. 其他实验和讨论 (Additional Experiments and Discussions)

6.6.1. 双重自回归机制消融研究 (Dual-autoregressive Mechanism Ablation Study)

下图（原文 Figure S8）展示了 RWM 中历史范围 $M$ 和预测范围 $N$ 的消融研究：

$Figure S8: Ablation study on the history horizon $M$ and forecast horizon $N$ in RWM. The heatmap on the left shows the relative autoregressive prediction error, with darker colors indicating higher errors. Models trained with larger history horizons $M$ exhibit lower errors, although the improvements plateau beyond a certain point. Forecast horizon $N$ has a significant impact, with longer horizons leading to better long-term prediction accuracy due to exposure to extended rollouts during training. The heatmap on the right illustrates training time, with darker colors representing longer durations. Increasing $N$ significantly raises training time due to sequential computation, while shorter horizons (e.g., $N = 1$ , teacher-forcing) enable faster training but result in poor prediction accuracy.$ Figure S8: Ablation study on the history horizon $M$ and forecast horizon $N$ in RWM. The heatmap on the left shows the relative autoregressive prediction error, with darker colors indicating higher errors. Models trained with larger history horizons $M$ exhibit lower errors, although the improvements plateau beyond a certain point. Forecast horizon $N$ has a significant impact, with longer horizons leading to better long-term prediction accuracy due to exposure to extended rollouts during training. The heatmap on the right illustrates training time, with darker colors representing longer durations. Increasing $N$ significantly raises training time due to sequential computation, while shorter horizons (e.g., $N = 1$ , teacher-forcing) enable faster training but result in poor prediction accuracy.

Figure S8: RWM 中历史范围 $M$ 和预测范围 $N$ 的消融研究。左侧热图显示了相对自回归预测误差，颜色越深表示误差越高。使用更大历史范围 $M$ 训练的模型误差更低，尽管改进在某个点之后趋于平稳。预测范围 $N$ 具有显著影响，更长的范围由于在训练期间接触到扩展推演，导致更好的长期预测准确性。右侧热图显示了训练时间，颜色越深表示持续时间越长。增加 $N$ 会显著增加训练时间，因为需要顺序计算，而较短的范围（例如 $N=1$ ，teacher-forcing）可以实现更快的训练，但预测准确性较差。

历史范围 $M$ (History Horizon $M$ )： 左侧热图显示，使用更长历史范围 $M$ 训练的模型始终表现出较低的预测误差，这表明提供足够的历史上下文对于捕获底层动态的重要性。然而， $M$ 的影响在某个点之后趋于平稳，这表明非常大的历史范围带来的收益递减。
预测范围 $N$ (Forecast Horizon $N$ )： $N$ 在提高长期预测准确性方面起着决定性作用。在训练期间增加 $N$ 会导致自回归推演中更好的性能，因为它鼓励模型学习对长时间预测中的复合误差具有鲁棒性的表示。
性能与计算成本的权衡： 这种改进是以增加训练时间为代价的（右侧热图）。较大的 $N$ 值由于自回归过程的顺序计算性质，需要更长的训练时间。
Teacher-forcing ( $N=1$ )： 当预测范围 $N=1$ 时（即 teacher-forcing），训练可以高度并行化，导致训练时间最短。然而，这种设置导致自回归性能不佳，因为模型在训练期间缺乏对长时序预测的暴露，未能有效处理复合误差。
最佳权衡： 结果表明，中等大小的 $M$ 和 $N$ 值可以平衡预测准确性和训练效率。例如，历史范围 $M=32$ 和预测范围 $N=8$ 可以在可管理的训练时间内实现强大的自回归性能。

6.6.2. 想象推演可视化 (Visualization of Imagination Rollouts)

下图（原文 Figure S9）展示了 RWM 在不同机器人系统中的自回归想象与 Ground Truth (真值) 模拟的对比：

Figure S9: Autoregressive imagination of RWM and ground-truth simulation across diverse robotic systems. For each environment, the top row showcases the RWM autoregressively predicting future trajectories in imagination. The second row visualizes the ground truth evolution in simulation. The visualized coordinate and arrow markers denote the predicted and measured end-effector pose and base velocity, respectively.

Figure S9: RWM 的自回归想象与 Ground Truth (真值) 模拟在不同机器人系统中的可视化。对于每个环境，顶行展示了 RWM 在想象中自回归预测未来轨迹。第二行可视化了模拟中的 Ground Truth (真值) 演变。可视化坐标和箭头标记分别表示预测和测量的末端执行器姿态和基础速度。

该图直观地展示了 RWM 在复杂机器人任务中精确模拟环境动态的能力。顶行是 RWM 在“想象”中对未来轨迹的预测，而第二行是模拟中的实际演变。预测与真值之间的高度一致性再次强调了 RWM 的高保真度和长时序鲁棒性。

6.6.3. 碰撞处理与模型预训练 (Collision Handling and Model Pretraining)

碰撞处理： 在 RWM 的预训练和在线微调阶段，当检测到机器人底座与地面接触时（表示失败），rollouts 会被终止并重置环境。RWM 被明确训练来在其特权信息预测头中预测此类终止事件。这使得世界模型能够学习导致不安全情况的转换。在策略优化期间，MBPO-PPO 将这些终止预测视为想象 rollouts 中的“情节结束事件”，从而影响 PPO 的回报计算和状态价值。
模型预训练： RWM 使用由针对类似任务训练的策略在不同动态下生成的模拟数据进行预训练。策略完全在想象中从零开始学习，RWM 使用单个环境的在线数据集进行微调。预训练是必要的，原因有二：
1. 在线数据集限制： 在线数据集极其有限，因为它仅由单个环境生成，类似于真实世界约束。完全从零开始训练世界模型会导致严重的过拟合和漫长的训练时间。
2. 不成熟策略的问题： 不成熟的策略会频繁导致机器人跌倒，生成价值有限的转换。在出现重大故障或领域偏移的情况下，仅使用这些数据训练世界模型会导致混乱的想象 rollouts，进而产生糟糕的策略更新。
  
  预训练稳定了训练，并为在线微调提供了鲁棒的初始化，特别是在动态具有挑战性的环境中。重要的是，RWM 预训练不需要来自最优策略的数据。Figure 3 表明 RWM 对领域偏移和注入噪声保持鲁棒性。作为替代方案，可以使用次优策略的数据来预热模型，这显著稳定了训练。值得注意的是，这种预训练仅在运动任务中需要，因为其动态不连续且环境终止事件较多；操作实验则不需要预训练。

6.6.4. 真实世界在线学习的挑战 (Challenges in Real-World Online Learning)

作者承认，如果能够在真实硬件上直接执行策略训练阶段，将更能证明其方法的优势。然而，目前有几个挑战阻碍了真实世界的部署：

碰撞风险： 在线学习期间，策略通常会利用世界模型的微小误差，导致过于乐观的行为，从而造成碰撞。在模拟中，这些失败可以作为纠正信号，但在真实硬件中，它们对机器人构成风险。实验表明，在线学习期间平均会发生 20 多次此类失败，这对真实世界系统是毁灭性的。
恢复策略： 即使硬件碰撞可以接受，完全自动化在线学习也需要一个能够将机器人重置到初始状态的恢复策略——这对像 ANYmal D 或 Unitree G1 这样的大型平台来说是一个特别具有挑战性的要求。
特权信息获取： 用于微调 RWM 的特权信息（例如，接触力）必须使用板载传感器进行测量或估计，这可能并非总是可用。
误差利用缓解： 为了缓解策略对模型误差的利用，可以探索不确定性感知世界模型 (uncertainty-aware world models)，但这需要对 RWM 进行额外的架构修改。

由于这些挑战，本文通过仅使用具有来自预训练环境的领域偏移的单个模拟环境来近似真实世界约束。这种设置减少了工程量，同时证明了该方法的可行性。作者表示他们正在进行的工作专门解决这些问题。

7. 总结与思考

7.1. 结论总结

本文提出了 RWM (Robotic World Model)，一个专为复杂机器人任务设计的鲁棒且可扩展的世界模型学习框架。RWM 利用双重自回归机制 (dual-autoregressive mechanism)，有效地解决了复合误差、部分可观察性和随机动态等关键挑战。通过整合历史上下文和在长预测范围内的自监督训练，RWM 在不依赖领域特定归纳偏置的情况下实现了卓越的准确性和鲁棒性，从而支持了在不同任务间的泛化。

通过广泛的实验，本文证明了 RWM 在自回归预测准确性方面始终优于最先进的方法，如 RSSM (Recurrent State-Space Model) 和 transformer-based architectures。基于 RWM，本文提出了 MBPO-PPO，一个利用世界模型长时序推演高保真度的策略优化框架。使用 MBPO-PPO 训练的策略在模拟中展现出卓越的性能，并通过在 ANYmal D 和 Unitree G1 机器人上的零样本迁移 (zero-shot deployment) 实验，证明了其在硬件上的无缝迁移能力。这项工作通过提供一个可泛化、高效且可扩展的框架来学习和部署世界模型，推进了模型-基础强化学习领域。结果突出了 RWM 在实现自适应、鲁棒和高性能机器人系统方面的潜力，为模型-基础方法在现实世界应用中的广泛采用奠定了基础。

7.2. 局限性与未来工作

7.2.1. 局限性

性能差距： 尽管 RWM 和 MBPO-PPO 学习的策略在鲁棒性和泛化能力上表现出色，但其性能略低于在高保真模拟器上训练的经过精细调优的模型-自由强化学习 (MFRL) 方法。MFRL 在能够无限次与近乎完美模拟器交互的场景中仍具有优势。
预训练依赖： 当前的世界模型需要使用模拟数据进行预训练，以减少训练过程中的不稳定性。从零开始训练仍然具有挑战性，因为策略在探索期间可能会利用模型不准确性，导致效率低下和不稳定。
在线微调数据需求： 尽管 RWM 效率较高，但仍需要额外的环境交互来微调世界模型，这提示了进一步优化的空间。
真实世界在线学习挑战： 在真实硬件上实现安全有效的在线学习仍然是一个重大挑战，主要包括：
- 策略利用模型误差导致的碰撞风险。
- 缺乏将机器人重置到初始状态的可靠恢复策略。
- 获取用于微调 RWM 的特权信息（如接触力）在真实世界中可能受限。

7.2.2. 未来工作

安全与在线学习：
- 整合安全约束和鲁棒的不确定性估计，这对于在真实世界、终身学习 (lifelong learning) 场景中部署 RWM 和 MBPO-PPO 至关重要。
- 探索不确定性感知世界模型 (uncertainty-aware world models)，以缓解策略对模型误差的利用，从而提高真实世界在线学习的安全性。
- 开发可靠的恢复策略，以应对真实世界部署中的失败事件。

7.3. 个人启发与批判

7.3.1. 个人启发

自回归训练的威力： RWM 提出的双重自回归机制和自监督训练，对于解决长时序预测中的误差累积问题提供了非常有效的思路。通过让模型在训练时就习惯于将其自身的预测作为后续输入，显著增强了其在推理时的鲁棒性。这种方法不仅适用于机器人世界模型，也可能对其他需要长时序预测（如时间序列预测、视频预测）的领域有所启发。
通用性和零样本迁移的价值： 在不依赖领域特定归纳偏置的情况下实现对复杂机器人任务的泛化和硬件上的零样本迁移，是机器人领域的一个圣杯。RWM 在 ANYmal D 和 Unitree G1 上的成功展示了通用世界模型在缩短 sim-to-real 鸿沟方面的巨大潜力，为未来更广泛的机器人应用奠定了基础。
MBRL 的样本效率优势： 论文通过与模型-自由方法的对比，再次强调了 MBRL 在样本效率方面的固有优势。在真实世界机器人场景中，每次交互的成本和时间都非常高昂，MBRL 能够以更少的数据达到与 MFRL 相当的性能，这使其成为不可或缺的工具。

7.3.2. 批判性思考

预训练数据的假设： 论文提到 RWM 需要使用模拟数据进行预训练，这些数据由“针对类似任务在不同动态下训练的策略”生成。虽然这为在线微调提供了稳定的初始化，但对于真正的“从零开始”的真实世界学习场景，如何获取这些初始的、有价值的预训练数据仍然是一个挑战。如果这些预训练数据本身需要大量人工设计或专家策略来生成，那么就部分违背了“无需领域特定知识”的通用性目标。
在线学习的安全性与实用性： 论文明确指出了真实世界在线学习的巨大挑战，如碰撞风险、缺乏恢复策略和特权信息获取。虽然这些是当前 MBRL 的普遍问题，但也意味着 RWM 离完全自主的真实世界在线学习还有距离。未来工作需要更具体地阐述如何系统性地解决这些安全和实用性问题，而不仅仅是指出不确定性感知模型等方向。例如，如何将安全屏障或形式化验证方法整合到世界模型中？
计算效率的权衡： 消融实验 (Figure S8) 表明，增加预测范围 $N$ 虽然提高了长期预测准确性，但也显著增加了训练时间。这提示了在实际应用中，需要根据任务需求和计算资源在模型鲁棒性与训练效率之间做出精细的权衡。对于资源受限的边缘机器人设备，这可能是一个实际的瓶颈。
“领域特定归纳偏置”的定义：论文强调 RWM 不依赖“领域特定归纳偏置”。然而，其 GRU 架构本身就是一种对序列数据处理的归纳偏置，而特权信息（如接触信息）的使用，虽然并非直接的物理模型，但也间接引入了关于机器人与环境交互的特定知识。这引发了一个思考：在多大程度上可以声称“完全没有”领域特定偏置，以及这种偏置的界限在哪里？

相似论文推荐

基于向量语义检索推荐的相关论文。

暂时没有找到相似论文。