论文状态：已完成

What Drives Success in Physical Planning with Joint-Embedding Predictive World Models?

发表：2025/12/31

联合嵌入预测世界模型 (1)规划算法优化 (1)物理任务泛化 (1)模拟与机器人数据实验 (1)导航与操作任务评估 (1)

原文链接 PDF 下载

价格：0.100000

已有 3 人读过

本分析由 AI 生成，可能不完全准确，请以原文为准。

TL;DR 精炼摘要

本研究探讨了联合嵌入预测性世界模型（JEPA-WMs）在物理规划中的成功要素。通过分析模型结构、训练目标和规划算法等关键组件，研究提出了一种在模拟和真实环境中都优于现有基线的模型，展现了通过在学习的表示空间中进行优化以提高规划效率的潜力。

摘要

A long-standing challenge in AI is to develop agents capable of solving a wide range of physical tasks and generalizing to new, unseen tasks and environments. A popular recent approach involves training a world model from state-action trajectories and subsequently use it with a planning algorithm to solve new tasks. Planning is commonly performed in the input space, but a recent family of methods has introduced planning algorithms that optimize in the learned representation space of the world model, with the promise that abstracting irrelevant details yields more efficient planning. In this work, we characterize models from this family as JEPA-WMs and investigate the technical choices that make algorithms from this class work. We propose a comprehensive study of several key components with the objective of finding the optimal approach within the family. We conducted experiments using both simulated environments and real-world robotic data, and studied how the model architecture, the training objective, and the planning algorithm affect planning success. We combine our findings to propose a model that outperforms two established baselines, DINO-WM and V-JEPA-2-AC, in both navigation and manipulation tasks. Code, data and checkpoints are available at https://github.com/facebookresearch/jepa-wms.

思维导图

论文精读

中文精读约 28 分钟读完 · 14,917 字

1. 论文基本信息

1.1. 标题

What Drives Success in Physical Planning with Joint-Embedding Predictive World Models? (中文：是什么驱动了基于联合嵌入预测性世界模型的物理规划取得成功？)

论文标题直接点明了研究的核心：探究一类特定的、在人工智能领域备受关注的模型——联合嵌入预测性世界模型 (Joint-Embedding Predictive World Models)——在解决物理规划任务时，其成功的关键驱动因素是什么。这预示着本文并非旨在提出一个全新的颠覆性模型，而是一篇深入的、系统性的分析研究，旨在解构现有方法的成功要素。

1.2. 作者

Jimmy Yang, Basile Terver, Adrien Bardes, Yann LeCun (Meta FAIR)
Basile Terver (INRIA Paris)
Jean Ponce (Ecole normale supérieure/PSL, New York University)

作者团队阵容强大，主要来自 Meta AI FAIR (Fundamental AI Research) 实验室。其中，Yann LeCun 是图灵奖得主，深度学习领域的奠基人之一，也是 联合嵌入预测架构 (Joint-Embedding Predictive Architectures, JEPA) 这一概念的提出者。他的参与表明这篇论文与 JEPA 的核心思想一脉相承，是对其在机器人规划领域应用的一次深入探索。其他作者也均是该领域的活跃研究者。

1.3. 发表期刊/会议

论文以预印本 (preprint) 的形式发布在 arXiv 上。arXiv 是一个开放获取的学术论文发布平台，允许研究者在同行评审前分享他们的研究成果。这篇论文的发表日期被标记为未来的 2025年12月30日，这在技术上是不可能的，很可能是提交系统中的一个占位符或元数据错误。从其引用的文献（如 DINO-WM 发表于2024年11月）和研究主题来看，这应是一篇在2024年底至2025年初完成的最新研究，通常这类工作会投递到机器学习或机器人领域的顶级会议，如 ICLR (International Conference on Learning Representations), NeurIPS (Conference on Neural Information Processing Systems), ICML (International Conference on Machine Learning) 或 CoRL (Conference on Robot Learning)。

1.4. 发表年份

2025 (根据 arXiv 元数据，但应视为2024年底或2025年初的预印本)。

1.5. 摘要

人工智能领域的一个长期目标是开发能够解决多样化物理任务并泛化到新环境的智能体。近期，一种流行的方法是：首先通过状态-动作轨迹训练一个“世界模型”，然后利用这个模型和规划算法来解决新任务。传统规划在输入空间（如像素空间）进行，但最近一类新方法在世界模型学习到的“表示空间”中进行规划，其优势在于通过抽象掉无关细节来提升规划效率。

本文将这类模型归纳为 JEPA-WMs (JEPA-based World Models)，并系统性地研究了使得这类算法成功的技术选择。研究旨在通过对几个关键组件（模型架构、训练目标、规划算法）的全面研究，找到该模型家族中的最优方法。实验在模拟环境和真实世界机器人数据上进行，最终结合研究发现，提出了一款在导航和操作任务上均优于两个现有基线模型 (DINO-WM 和 V-JEPA-2-AC) 的新模型。

1.6. 原文链接

原文链接: https://arxiv.org/abs/2512.24497
PDF 链接: https://arxiv.org/pdf/2512.24497v1.pdf
发布状态: 预印本 (Preprint)。

2. 整体概括

2.1. 研究背景与动机

2.1.1. 核心问题

论文要解决的核心问题是：在基于世界模型的机器人规划中，如何高效地学习和利用环境的动态模型？ 具体来说，当规划从高维的像素空间转移到低维、抽象的“表示空间”（或称“潜空间”）时，哪些具体的设计选择（例如模型结构、训练方法、规划器类型）是决定规划成功与否的关键？

2.1.2. 问题的重要性与现有挑战

样本效率问题: 传统的 无模型强化学习 (model-free reinforcement learning) 方法（如 Q-learning）虽然强大，但通常需要海量的交互数据才能学会一个任务，这在真实世界的机器人上是昂贵且不切实际的。
世界模型的兴起: 为了解决样本效率问题，基于模型的强化学习 (model-based reinforcement learning) 引入了 世界模型 (world model)。世界模型试图学习环境的“物理规律”，预测在当前状态下执行某个动作后，世界会变成什么样子。有了世界模型，智能体可以在“脑海中”进行模拟和规划，而无需在真实世界中反复试错，从而大大提高学习效率。
规划空间的挑战 (The Gap):
- 像素空间规划的困境: 早期的世界模型是 生成式 (generative) 的，它们试图预测未来的整个图像。这种方法计算开销巨大，并且模型会浪费大量能力去建模与任务无关的细节（比如墙壁的纹理、光影的变化）。
- 表示空间规划的希望与未知: 联合嵌入预测架构 (JEPA) 提供了一种新思路：不在像素层面做预测，而是在一个抽象的 表示空间 (representation space) 中进行。模型学习一个编码器，将图像编码成一个特征向量（嵌入），然后一个预测器学习如何根据当前的嵌入和动作，预测下一个状态的嵌入。这种方法的优点是模型只需关注世界的核心动态，忽略无关细节。然而，虽然 DINO-WM、V-JEPA-2-AC 等模型已经证明了这种方法的潜力，但它们各自采用了不同的技术实现。领域内缺乏一个清晰的共识：到底是什么让这种方法有效？ 是因为用了特定的编码器？还是特定的预测器结构？或者是某种训练技巧？这个“黑箱”阻碍了该领域的进一步发展。

2.1.3. 论文的切入点

本文的切入点非常明确和务实：不做“发明家”，做“科学家”。他们不追求提出一个全新的、革命性的算法，而是对 JEPA-WMs 这一模型家族进行一次大规模、系统性的 消融实验 (ablation study) 和对比分析。他们将 JEPA-WMs 的构建过程拆解为几个关键模块，然后像控制变量实验一样，逐一改变这些模块的配置，观察其对最终规划性能的影响，从而找到最优的组合，并提炼出通用的设计准则。

2.2. 核心贡献/主要发现

全面的实证研究: 本文对影响 JEPA-WMs 性能的多个关键因素进行了系统性研究，包括：
- 规划器: 比较了采样优化 (CEM, Nevergrad) 和梯度优化 (Adam, GD) 的优劣。
- 训练目标: 探究了 多步推演损失 (multistep rollout loss) 的影响。
- 输入模态: 分析了是否加入 本体感知 (proprioception) 信息（如机器人关节角度）的重要性。
- 模型架构: 对比了不同的视觉编码器 ( $DINOv2/v3$ , V-JEPA)、预测器深度、以及不同的动作条件化机制 (feature conditioning, sequence conditioning, AdaLN)。
- 超参数: 研究了训练上下文长度和模型规模的影响。
提炼出关键的设计准则: 基于上述研究，论文得出了一系列宝贵的结论，例如：
- 在复杂任务中，采样规划器比梯度规划器更鲁棒。
- 使用预训练的、具有良好物体分割能力的 图像编码器 (image encoders) (DINO 系列) 比视频编码器效果更好。
- 在真实世界数据上，更大的模型和更深的预测器能带来持续的性能提升，但在简单模拟环境中则不然。
- AdaLN 是一种有效且高效的动作条件化机制。
提出性能更优的模型: 论文将这些最佳实践结合起来，构建了一个新的优化版 JEPA-WM 模型。该模型在多个导航和操作任务上，一致性地超越了 DINO-WM 和 V-JEPA-2-AC 这两个强大的基线模型，证明了其研究结论的有效性。

3. 预备知识与相关工作

3.1. 基础概念

3.1.1. 世界模型 (World Model)

世界模型 (World Model) 是一个学习环境动态的内部模型。想象一下你在脑海中推演下棋的几种可能性，这个“推演”的过程就依赖于你对棋盘规则和对手行为的内部模型。在人工智能中，世界模型就是一个神经网络，它的输入是当前的状态（如一张图像）和智能体将要执行的动作（如“向前走”），输出是对下一个状态的预测。这使得智能体可以在不与真实环境交互的情况下，进行“想象”和“规划”。

3.1.2. 模型预测控制 (Model Predictive Control, MPC)

模型预测控制 (Model Predictive Control, MPC) 是一种经典的控制策略，非常适合与世界模型结合。其工作流程如下：

规划 (Plan): 在当前状态下，利用世界模型“想象”未来多种可能的动作序列，并评估哪个序列最能达成目标。这个过程通常是一个优化问题。
执行 (Execute): 从找到的最佳动作序列中，只执行第一步（或前几步）动作。
观察 (Observe): 观察执行动作后真实世界的新状态。
重复 (Repeat): 回到第一步，根据新的真实状态重新规划。这种“滚动优化”的方式使得智能体能够不断修正自己的计划以应对环境的不确定性。

3.1.3. 联合嵌入预测架构 (Joint-Embedding Predictive Architecture, JEPA)

JEPA 是一种自监督学习架构，其核心思想是 在表示空间中进行预测，而非像素空间。

传统生成式方法 (如 VAE, GAN): 试图从一个输入（如图像的一部分）直接生成另一个输入的像素。这很困难，因为模型需要耗费大量精力去还原纹理、光照等高频但可能与任务无关的细节。
JEPA 的思路: 它包含三个核心组件：
1. 编码器 (Encoder): 将输入数据（如图像 $x$ ）映射到一个抽象的表示向量（嵌入） $z_x$ 。
2. 上下文编码器 (Context Encoder): 将输入的“上下文”部分（如图像 $y$ ）也编码成一个表示向量 $z_y$ 。
3. 预测器 (Predictor): 学习一个函数，输入上下文的表示 $z_y$ ，预测目标 $x$ 的表示 $z_x$ 。
- 它的目标是让预测出的表示 $\hat{z}_x$ 与真实的表示 $z_x$ 尽可能接近。通过这种方式，模型被迫学习到数据中可预测的、本质的结构信息，而忽略掉那些随机的、不可预测的噪声和细节。

3.1.4. JEPA-WM (JEPA-based World Model)

JEPA-WM 是将 JEPA 思想应用于世界模型的产物。在这里，预测任务被定义为：

上下文 (Context): 当前的状态 $s_t$ （一张图像）和即将执行的动作 $a_t$ 。
目标 (Target): 下一个状态 $s_{t+1}$ 。 JEPA-WM 的工作流程是：

使用一个 编码器 (Encoder) 将 $s_t$ 和 $s_{t+1}$ 编码成表示向量 $z_t$ 和 $z_{t+1}$ 。
使用一个 预测器 (Predictor)，输入 $z_t$ 和动作 $a_t$ ，预测出下一个状态的表示 $\hat{z}_{t+1}$ 。
训练的目标是最小化 $\hat{z}_{t+1}$ 和 $z_{t+1}$ 之间的距离。

这种方式继承了 JEPA 的优点，即只在抽象空间中建模核心动态，从而更加高效。

$Figure 1: Left: Training of JEPA-WM: the encoder $E _ { \\phi , \\theta }$ embeds video and optionally proprioceptive observation, which is fed to the predictor $P _ { \\theta }$ , along with actions, to predict (in parallel across timesteps) the next state embedding. Right: Planning with JEPA-WM: sample action sequences, unroll the predictor on them, compute a planning cost $L ^ { p }$ for each trajectory, and use this cost to $A _ { \\theta }$ and proprioceptive encoder $E _ { \\theta } ^ { p r o p }$ are not explicitly displayed in this figure for readability.$ 该图像是示意图，展示了JEPA-WM模型的训练和规划过程。左侧部分展示了通过编码器 $E_{\theta}$ 对视频和动作进行嵌入，预测器 $P_{\theta}$ 并行预测下一个状态嵌入，并使用JEPA教师强制损失 $L$ 进行训练。右侧展示了通过样本动作序列展开预测器，计算每条轨迹的规划成本 $L^p$ ，以优化规划。

原文 Figure 1: JEPA-WM 的训练与规划流程图

上图直观地展示了 JEPA-WM 的工作原理：

左侧（训练）: 编码器 $E_{\phi, \theta}$ 将视频帧（观测）编码成嵌入。预测器 $P_{\theta}$ 接收历史嵌入和动作，预测下一帧的嵌入。通过 教师强制损失 (teacher-forcing loss) $L$ （即用真实的下一帧嵌入作为监督信号）来训练预测器。
右侧（规划）: 在规划时，系统会采样多条候选动作序列，然后使用训练好的预测器在表示空间中“推演”出每条序列对应的未来状态轨迹。最后，计算每条轨迹的规划成本 $L^p$ （通常是最终状态嵌入与目标状态嵌入的距离），并选择成本最低的动作序列来执行。

3.2. 前人工作

通用世界模型: 如 DreamerV3 和 TD-MPC2，它们是强化学习领域的标杆，通常需要奖励信号进行训练，并学习一个策略网络。本文的工作与之不同，专注于在无奖励 (reward-free) 的离线数据上学习世界模型，并在测试时用于目标导向的规划。
核心 JEPA-WM 基线:
- DINO-WM: 该模型的一个关键特点是使用了一个 预训练并冻结 (pre-trained and frozen) 的 DINOv2 视觉编码器。DINOv2 以其强大的物体分割和局部特征提取能力而闻名。DINO-WM 的成功表明，在一个强大的、固定的视觉表示基础上，只学习动态模型（预测器）是一条可行的路径。
- V-JEPA-2-AC: 该模型同样采用冻结的预训练编码器 (V-JEPA-2)，但在架构和训练细节上与 DINO-WM 不同。它在机器人操作任务上表现出色，是本文在操作任务上的一个重要比较对象。
其他潜空间规划方法:
- 梯度规划: 如 UPN (Universal Planning Networks)，它们学习一个可微分的世界模型，然后通过反向传播直接优化动作序列。本文在实验中也包含了这类方法作为对比。
- 扩散模型规划: 如 Diffuser 和 DMPC，利用扩散模型强大的生成能力来生成满足任务要求的动作轨迹。这类方法与 JEPA-WM 在模型类别和训练假设上有所不同。

3.3. 技术演进

该领域的技术演进路线大致如下： Model-Free RL (样本效率低) → Model-Based RL (引入世界模型) → Generative World Models (在像素空间预测，计算昂贵) → Latent Space World Models (在表示空间预测，更高效) → JEPA-WMs with Pre-trained Encoders (利用大规模预训练模型的强大先验知识，进一步提升性能和泛化能力)。

本文正处在技术演进的最新阶段，其核心不再是“如何从零学习一个好的表示”，而是“如何在一个已经很好的表示之上，学习一个精准的动态模型”。

3.4. 差异化分析

与 DINO-WM 和 V-JEPA-2-AC 的关系: 本文不是要取代这些模型，而是将它们视为 JEPA-WM 家族的成功范例。本文的工作是对这些范例进行“解构”，找出它们成功的共性与个性，并将最优的组件重新“组装”，从而获得一个性能更强的模型。
核心差异: 本文与之前工作的最大区别在于其 研究范式 (research paradigm)。之前的工作侧重于 “提出一个新模型并证明它有效”，而本文侧重于 “分析一类模型，找出其有效背后的原因”。这种系统性的实证分析为该领域提供了宝贵的设计准则和工程见解，其价值超越了单个模型的性能提升。

4. 方法论

4.1. 方法原理

本文的方法论核心并非创造新理论，而是对 JEPA-WM 框架进行标准化，并在此框架下系统地评估不同组件的影响。其基本原理遵循标准的 JEPA-WM 流程：将观测数据编码到潜空间，然后在潜空间中通过一个预测器来模拟（或称推演）执行一系列动作后的世界状态变化，最后通过优化动作序列来最小化预测的最终状态与目标状态在潜空间中的距离。

4.2. 核心方法详解 (逐层深入)

4.2.1. 训练阶段 (Training Phase)

训练的目标是学习一个能够准确预测未来状态嵌入的 预测器 (Predictor) $P_{\theta}$ 。

步骤 1: 数据编码 (Encoding)

给定一个从数据集中采样的轨迹片段，包含一个时间窗口内的观测 $o_{t-w:t}$ （包含视觉和可选的本体感知信息）和动作 $a_{t-w:t}$ 。
使用一个 冻结的 (frozen) 预训练视觉编码器 $E_{\phi}^{vis}$ （如 DINOv2）和一个可训练的本体感知编码器 $E_{\theta}^{prop}$ ，将观测数据编码为一系列嵌入向量。我们将这个组合编码器记为 $E_{\phi, \theta}$ 。
同时，一个可训练的动作编码器 $A_{\theta}$ 将动作序列 $a_{t-w:t}$ 编码为动作嵌入。

步骤 2: 预测 (Prediction)

将编码后的观测嵌入和动作嵌入送入可训练的预测器 $P_{\theta}$ 。预测器是一个基于 Transformer 的架构，它利用注意力机制来整合历史信息和动作信息。
预测器的任务是输出对下一个时间步 $t+1$ 的观测的嵌入的预测值，记为 $\hat{z}_{t+1}$ 。

步骤 3: 损失计算 (Loss Calculation)

模型通过 教师强制 (teacher-forcing) 的方式进行训练。这意味着在计算损失时，我们会用真实的下一帧观测 $o_{t+1}$ ，通过同一个编码器 $E_{\phi, \theta}$ 得到其真实的嵌入 $z_{t+1}$ 。
训练的目标是最小化预测嵌入 $\hat{z}_{t+1}$ 和真实嵌入 $z_{t+1}$ 之间的差距。本文使用的损失函数是 均方误差 (Mean Squared Error, MSE)。
单步预测的损失函数公式如下： $\mathcal{L} = \frac{1}{B} \sum_{b=1}^{B} L[P_{\theta}(E_{\phi, \theta}(o_{t-w:t}^b), A_{\theta}(a_{t-w:t}^b)), E_{\phi, \theta}(o_{t+1}^b)]$
- 符号解释:
  - $B$ : 批处理大小 (batch size)。
  - $o_{t-w:t}^b$ : 第 $b$ 个样本的、从时间步 t-w到 $t$ 的观测序列。
  - $a_{t-w:t}^b$ : 对应的动作序列。
  - $E_{\phi, \theta}$ : 组合编码器（视觉+本体感知）。
  - $A_{\theta}$ : 动作编码器。
  - $P_{\theta}$ : 预测器。
  - $L[\cdot, \cdot]$ : 损失函数，这里是 MSE，分别计算视觉嵌入和本体感知嵌入的误差。

步骤 4 (可选): 多步推演训练 (Multistep Rollout Training)

为了让模型在规划时（需要连续多步预测）表现得更好，论文研究了一种被称为 多步推演损失 (multistep rollout loss) 的训练策略。
在这种策略下，除了计算单步预测损失 $\mathcal{L}_1 = \mathcal{L}$ ，模型还会进行多步预测。例如，在计算两步预测损失 $\mathcal{L}_2$ 时，模型会先用 $o_t$ 预测出 $\hat{z}_{t+1}$ ，然后用这个 预测出 的 $\hat{z}_{t+1}$ （而不是真实的 $z_{t+1}$ ）和动作 $a_{t+1}$ 来预测 $\hat{z}_{t+2}$ 。最后计算 $\hat{z}_{t+2}$ 和真实 $z_{t+2}$ 之间的损失。
$k$ $k$ -步推演损失的通用公式为： $\mathcal{L}_k = \frac{1}{B} \sum_{b=1}^{B} L[P_{\theta}(\hat{z}_{t-w:t+k-1}^b, A_{\theta}(a_{t-w:t+k-1}^b)), E_{\phi, \theta}(o_{t+k}^b)]$
- 符号解释:
  - $\hat{z}_{t-w:t+k-1}^b$ : 这是一个混合序列，其中一部分是基于真实观测的嵌入，另一部分是之前步骤中 模型自己预测出 的嵌入。
  - 这个过程强迫模型学会如何从自己的（可能不完美的）预测中进行后续推演，从而更好地模拟规划时的真实情况，提高模型的鲁棒性。

4.2.2. 规划阶段 (Planning Phase)

在测试时，给定一个初始观测 $o_t$ 和一个目标观测 $o_g$ ，目标是找到一个动作序列 $a_{t:t+H-1}$ ，使得智能体能够从 $o_t$ 到达 $o_g$ 。

步骤 1: 定义规划目标 (Defining the Planning Objective)

规划是在潜空间中进行的。首先，使用编码器 $E_{\phi, \theta}$ 得到目标观测的嵌入 $z_g = E_{\phi, \theta}(o_g)$ 。
规划的目标是找到一个动作序列，使得从初始状态 $o_t$ 开始，经过这个动作序列推演得到的最终状态嵌入 $\hat{z}_{t+H}$ 与目标嵌入 $z_g$ 尽可能接近。
规划的成本函数 $L_{\alpha}^p$ $L_{α}^{p}$ 定义如下： $L_{\alpha}^p(o_t, a_{t:t+H-1}, o_g) = (L_{vis} + \alpha L_{prop})(G_{\phi, \theta}(o_t, a_{t:t+H-1}), E_{\phi, \theta}(o_g))$
- 符号解释:
  - $H$ : 规划的 视界 (horizon)，即动作序列的长度。
  - $a_{t:t+H-1}$ : 待优化的动作序列。
  - $G_{\phi, \theta}(\cdot)$ : 推演函数 (rollout function)，它接收初始观测和动作序列，并返回预测的最终状态嵌入。
  - $L_{vis}$ 和 $L_{prop}$ : 分别是在视觉嵌入和本体感知嵌入上计算的距离度量（如 L1 或 L2 距离）。
  - $\alpha$ : 一个超参数，用于权衡视觉目标和本体感知目标的重要性。

步骤 2: 状态推演 (State Rollout)

推演函数 $G_{\phi, \theta}$ $G_{ϕ, θ}$ 通过递归地调用预测器 $P_{\theta}$ $P_{θ}$ 来实现。在本文中，它被具体定义为 $F_{\phi, \theta}$ $F_{ϕ, θ}$ ： $\begin{array}{rl} & F_{\phi, \theta}: \left(o_t, a_{t-w:t+k-1}\right) \mapsto \hat{z}_{t+k}, \\ & \qquad \hat{z}_{i+1} = P_{\theta}\left(\hat{z}_{i-w:i}, A_{\theta}\left(a_{i-w:i}\right)\right), \quad i=t, \dots, t+k-1, \quad z_t = E_{\phi, \theta}\left(o_t\right) \end{array}$
- 执行逻辑:
  1. 首先，将初始观测 $o_t$ 编码为 $z_t$ 。
  2. 对于规划视界中的第一步（ $i=t$ ），预测器接收 $z_t$ 和动作 $a_t$ ，输出预测的 $\hat{z}_{t+1}$ 。
  3. 对于第二步（ $i=t+1$ ），预测器接收 $z_t, \hat{z}_{t+1}$ 和动作 $a_{t+1}$ （假设上下文窗口 $w \ge 2$ ），输出预测的 $\hat{z}_{t+2}$ 。
  4. 这个过程一直重复 $H$ 次，最终得到 $\hat{z}_{t+H}$ 。

步骤 3: 动作优化 (Action Optimization)

有了成本函数 $L_{\alpha}^p$ ，规划问题就转化为了一个优化问题：寻找使 $L_{\alpha}^p$ 最小的动作序列。
本文研究了多种优化器来解决这个问题：
- 交叉熵方法 (Cross-Entropy Method, CEM): 一种基于采样的优化算法。它维护一个动作序列的概率分布（通常是高斯分布），在每一步迭代中：(1) 从该分布中采样一批动作序列；(2) 用世界模型评估每个序列的成本；(3) 选取成本最低的一批（精英样本）；(4) 用这些精英样本来更新概率分布的均值和方差，使其更偏向于生成高性能的动作。
- Nevergrad (NG): 一个开源的免梯度优化库，本文使用它来探索比 CEM 更广泛的优化算法。
- 基于梯度的规划器 (Adam, GD): 由于整个预测过程（如果模型组件是可微的）是端到端可微的，可以直接计算成本函数对动作序列的梯度，并使用梯度下降法（如 Adam 或 SGD）来优化动作。

5. 实验设置

5.1. 数据集

实验横跨了模拟环境和真实世界数据，覆盖了导航和操作两大类任务。

Metaworld: 一个广泛使用的机器人操作任务模拟基准。本文使用了其中的 "Reach" (到达目标点) 和 "Reach-Wall" (绕过墙壁到达目标点) 任务。
Push-T: 一个模拟环境，要求一个球形智能体推动一个 T 形物块到达指定位置。
Wall: 一个简单的 2D 导航任务，智能体需要穿过一堵墙上的门到达目标点。
PointMaze: 一个 2D 导航任务，一个有惯性的球体需要在迷宫中移动到目标点。
DROID (Dataset for Robot Manipulation in the Wild): 一个大规模的、在真实世界中收集的机器人操作数据集。它包含了大量由人类远程遥控的机械臂执行日常任务的视频和动作数据。本文主要用它来训练模型。
Robocasa: 一个高度逼真的机器人模拟环境，用于 零样本迁移 (zero-shot transfer) 评估。在 DROID 数据集上训练好的模型，不经过任何微调，直接在 Robocasa 的 "Place" (放置物体) 和 "Reach" (接触物体) 任务上进行测试，以检验模型的泛化能力。

5.2. 评估指标

5.2.1. 成功率 (Success Rate)

概念定义 (Conceptual Definition): 这是评估规划任务最直接的指标。它衡量的是在所有测试回合中，智能体成功完成预定任务的回合所占的百分比。一个回合是否成功由具体环境的规则定义（例如，机械臂末端是否在目标容差范围内，或者物块是否被推到目标区域）。
数学公式 (Mathematical Formula): $\text{Success Rate} = \frac{\text{Number of Successful Episodes}}{\text{Total Number of Episodes}} \times 100\%$
符号解释 (Symbol Explanation):
- Number of Successful Episodes: 成功完成任务的测试回合总数。
- Total Number of Episodes: 进行测试的总回合数。

5.2.2. 行动分数 (Action Score)

概念定义 (Conceptual Definition): 这个指标专门用于 DROID 数据集的评估。由于 DROID 是一个离线数据集，没有实时的模拟器来判断任务是否“成功”，因此需要一个代理指标。行动分数通过比较规划器生成的动作与数据集中人类专家执行的“真实”动作之间的差异来评估规划质量。L1 误差越小，说明规划的动作越接近专家的示范，分数就越高。
数学公式 (Mathematical Formula): $\text{Action Score} = \begin{cases} 800 \times (0.1 - E) & \text{if } E < 0.1 \\ 0 & \text{otherwise} \end{cases}$ 其中， $E$ 是 行动误差 (Action Error)，即规划动作与真实动作之间的 L1 距离。
符号解释 (Symbol Explanation):
- $E$ : 规划器输出的动作序列与数据集中对应的真实动作序列之间的平均 L1 范数距离。

5.2.3. 其他分析性指标

论文还使用了一些中间指标来诊断世界模型的质量，独立于规划过程：

嵌入空间误差 (Embedding space error): 在推演过程中，预测的嵌入与真实嵌入之间的距离。这直接衡量了世界模型的预测准确性。
本体感知解码误差 (Proprioceptive decoding error): 将预测的嵌入通过一个解码器还原为本体感知状态（如关节角度），并与真实状态比较误差。
LPIPS (Learned Perceptual Image Patch Similarity): 将预测的嵌入通过一个视觉解码器生成图像，并用 LPIPS 指标衡量生成图像与真实未来图像之间的感知相似度。LPIPS 比传统的 L2 像素级损失更能反映人类的视觉感知。

5.3. 对比基线

本文将自己最终提出的优化模型与两个当前最先进的 JEPA-WM 模型进行了比较：

DINO-WM: 一个强大的基线，尤其是在利用 DINOv2 的强视觉特征方面。
V-JEPA-2-AC: 另一个强大的基线，专注于机器人操作任务，并在该领域取得了优异成绩。

选择这两个模型作为基线非常合理，因为它们是与本文研究的 JEPA-WM 范式最相关、性能最强的代表。

6. 实验结果与分析

6.1. 核心结果分析

本节是论文的核心，通过一系列精心设计的对比实验，揭示了不同设计选择对规划成功率的影响。

6.1.1. 规划器对比

$Figure 3: Left: Comparison of planning optimizers: NG is the Nevergrad-based interface for trajectory optimization that we introduce, compared to the Cross-Entropy Method (CEM), with `L _ { 1 }` or `L _ { 2 }` distance. Right: Effect of adding multistep rollout loss terms: models are trained with total loss $\\mathcal { L } _ { 1 } + \\cdots + \\mathcal { L } _ { k }$ . Rc-Pl and Rc-R denote the Place and Reach tasks of Robocasa.$ 该图像是图表，展示了不同规划优化器的性能比较和多步回滚损失项的影响。左侧柱状图比较了CEM、NG及其他模型在各种任务（如MW-Reach、Maze、Push-T等）中的表现，性能以百分比表示。右侧折线图显示了在不同回滚步骤下的平均性能。整个图表突出了不同优化算法在物理任务中的效果和稳定性。

原文 Figure 3: 规划器对比（左）与多步推演训练效果（右）

分析 (左图):

采样方法 vs. 梯度方法: CEM L2 (使用 L2 距离的交叉熵方法) 在所有任务上的平均表现最好。基于梯度的方法（Adam 和 GD）在 Metaworld 任务上表现出色，但在 Wall、Push-T 等导航任务上则彻底失败。
原因: Metaworld 的任务通常具有较为平滑的成本函数曲面，梯度下降可以有效地找到最优解。而导航任务的成本曲面是多模态的、非凸的，充满了局部最优解（比如撞墙），梯度方法很容易陷入其中。基于采样的方法（如 CEM）通过广泛探索动作空间，更能找到全局最优解。
Nevergrad (NG) vs. CEM: NG 在真实世界数据 (DROID, Robocasa) 上表现与 CEM 相当，并且其优点是超参数更少，无需精细调优，使其在迁移到新任务时更具实用性。
L2 vs. L1 距离: 在所有设置中，使用 L2 距离作为规划成本函数始终优于 L1 距离。

6.1.2. 多步推演训练

分析 (右图):

模拟环境: 从单步训练（1-step）提升到两步推演训练（2-step）时，性能有明显提升。但继续增加步数（如 3-step 及以上），性能反而下降。这说明适度的推演训练有助于模型适应规划时的自回归预测模式，但过长的推演训练可能导致模型在有限的规划上下文窗口下过拟合或不稳定。
真实世界数据 (DROID): 性能随着推演步数的增加而持续提升，在 6-step 时达到最优。这表明，真实世界环境的动态更复杂，需要模型具备更强的长期预测能力，而更长的推演训练恰好能提升这一点。

6.1.3. 其他关键设计选择的分析

Figure 4: Left: Models trained with proprioceptive input are denoted "prop", while pure visual world models are named "no-prop". Right: Comparison of JEPA-WMs trained on top of various pretrained visual encoders, all of size ViT-L for fair comparison. Rc-Pl and Rc-R denote the Place and Reach tasks of Robocasa. 该图像是图表，展示了用不同输入和预训练视觉编码器训练的JEPA-WM模型在多个任务上的表现对比。左侧显示了具有本体感知输入（prop）和无本体感知输入（no-prop）的模型在 MW-Reach、Maze 等任务上的性能；右侧展示了使用多种预训练编码器的JEPA-WM模型在相同任务上的比较。

原文 Figure 4: 本体感知（左）与编码器类型（右）的对比

本体感知 (Proprioception) (左图): 加入本体感知信息（prop）的模型性能一致性地优于纯视觉模型（no-prop）。这说明精确的自身状态信息（如手臂位置）对于精细控制至关重要，可以减少在目标附近无效振荡等问题。
编码器类型 (Encoder Type) (右图): DINO 系列编码器显著优于 V-JEPA 系列。DINOv3 在更逼真的环境（Robocasa, DROID）中表现最佳。这证实了 具有强大局部特征和物体分割能力的图像编码器是机器人规划任务的更优选择。

$Figure 5: Left: Maximum number of timesteps of state embedding seen by the predictor at train time in equation 1, the predictor takes up to $( E _ { \\phi , \\theta } ( o _ { t - W + 1 : t } ) , A _ { \\theta } ( \\bar { a } _ { t - W + 1 : t } ) )$ as context. Right: Comparison of model size: we vary from ViT-S to ViT-L the visual encoder size, as well as the predictor embedding dimension, keeping predictor depth constant at 6. Rc-Pl and $\\operatorname { R c - R }$ denote the Place and Reach tasks of Robocasa.$ 该图像是图表，显示了不同时间步长 $W$ 和模型大小对任务性能的影响。在左侧图中，性能随时间步长的变化而波动，在右侧图中，模型大小的变化对性能影响较小。多种任务如 MW-Reach-Wall、MW-Reach 和 Push-T 的性能被比较。

原文 Figure 5: 训练上下文长度（左）与模型规模（右）的对比

训练上下文长度 (Context Size) (左图): 从 $W=1$ 增加到 $W=2$ 带来了巨大的性能飞跃，这说明模型需要至少两帧来推断速度信息。对于模拟环境，最优上下文长度为 $W=3$ ；对于更复杂的 DROID 数据，最优长度为 $W=5$ 。
模型规模 (Model Scaling) (右图): 在模拟环境中，增加模型规模（从 ViT-S 到 ViT-L）并不能提升性能，甚至可能因为优化更困难而导致性能下降。然而，在 DROID 数据上，更大的模型带来了明显的性能增益。这揭示了一个重要结论：模型规模的收益与任务的复杂度直接相关。

该图像是图表，左侧展示了不同预测器架构在多个任务中的表现，包括 AdaLN、RoPE+ftcond、RoPE+seqcond 和 sincos+ftcond 的比较；右侧展示了预测器深度从 3 到 12 的性能变化。结果显示，随着深度增加，表现逐渐改善。

原文 Figure 6: 预测器架构（左）与预测器深度（右）的对比

预测器架构 (Predictor Architecture) (左图): AdaLN (自适应层归一化) 条件化机制平均表现最好。AdaLN 在预测器的每一层都注入动作信息，可以有效防止动作信号在深层网络中“消失”。
预测器深度 (Predictor Depth) (右图): 同样地，在模拟环境中，深度为 6 的预测器已足够，更深甚至有害。但在 DROID 上，更深的预测器（深度 12）能带来更好的性能。

6.2. 数据呈现 (表格)

6.2.1. 最终模型性能对比

以下是原文 Table 1 的结果，展示了作者提出的最优模型 (Ours) 与两个基线 (DWM 即 DINO-WM, VJ2AC 即 V-JEPA-2-AC) 的性能对比。数值为成功率（%）或行动分数，括号内为标准差。

Model	Maze	Wall	Push-T	MW-R	MW-RW	Rc-R	Rc-Pl	DROID
DWM	81.6 (3.4)	64.1 (4.6)	66.0 (4.7)	44.8 (8.9)	35.1 (9.4)	19.1 (13.4)	21.7 (7.2)	39.4 (2.1)
VJ2AC	—					16.2 (8.3)	33.1 (7.2)	42.9 (2.5)
Ours	83.9 (2.3)	78.8 (3.9)	70.2 (2.8)	58.2 (9.3)	41.6 (10.0)	25.4 (16.6)	30.7 (8.0)	48.2 (1.8)

分析:

作者提出的模型在绝大多数任务上都取得了最佳性能，显著超越了 DINO-WM。
与 V-JEPA-2-AC 相比，在 DROID 和 Robocasa Reach 任务上性能更优，但在 Robocasa Place 任务上略逊一筹（但在误差范围内）。
这些结果强有力地证明，通过系统性地选择和组合最优组件，可以获得比现有单一模型更强的性能，验证了本文研究方法的价值。

6.2.2. 定性结果

Figure 2: Comparison of different methods on the counterfactual Franka arm lift cup task, where we hardcode 2 actions, either "open and move up" or "close and move up". Each shows 5 model actions in open-loop rollout. Left: open and move up" action. Right: close and move up" First row: V-JEPA-2-AC. Second row: DINO-WM. Third row: our best model, described in Section 5.3. 该图像是图表，展示了不同方法在反事实法兰卡手臂举起杯子任务中的比较。左侧为‘打开并向上移动’的动作，右侧为‘关闭并向上移动’。第一行是V-JEPA-2-AC，第二行是D-WM，第三行是我们提出的最佳模型。

原文 Figure 2: 反事实任务对比

上图展示了一个定性实验：在同一个初始状态下，给定两个相反的动作（“打开并上移” vs. “闭合并上移”），模型预测的未来是什么。

V-JEPA-2-AC 和 DINO-WM (前两行): 它们的预测不够精确。在“闭合并上移”的动作下，杯子并没有很好地跟随机械臂移动，表明模型没有完全理解“闭合”动作与物体交互之间的因果关系。
Ours (第三行): 作者的模型表现出更好的物理直觉。当机械臂闭合时，杯子被牢固地“抓住”并随之移动；当机械臂张开时，杯子则留在原地。这表明其世界模型对环境动态的理解更为深刻和准确。

6.3. 消融实验/参数分析

整篇论文的核心本质上就是一场大规模、系统化的消融实验。每一节的实验结果（如规划器、编码器、模型规模等）都是对 JEPA-WM 框架中某个组件的有效性进行的验证。这些分析共同构成了对“什么驱动成功”这一问题的回答。

7. 总结与思考

7.1. 结论总结

本文对基于联合嵌入预测的世界模型（JEPA-WMs）在物理规划任务中的成功要素进行了一次全面而深入的实证研究。主要结论如下：

规划器选择至关重要: 基于采样的规划器（如 CEM）在面对复杂和多模态的规划问题时比基于梯度的规划器更为鲁棒。Nevergrad 提供了一个无需精细调优的有效替代方案。
视觉编码器的先验知识是关键: 使用预训练的、具有强大物体级理解能力的图像编码器（如 DINOv2/v3）是实现高性能规划的基础，其效果优于视频编码器。
训练策略需要与任务对齐: 适度的多步推演训练可以使模型更好地适应规划时的自回归预测，但最优的推演长度与任务复杂度相关。
模型规模应与数据复杂度匹配: 在复杂的真实世界数据上，更大的模型容量（更大的编码器、更深的预测器）能带来持续的性能提升；但在简单的模拟环境中，小模型已足够，大模型反而可能有害。
架构细节影响性能: 在预测器中，AdaLN 是一种有效的动作条件化机制。同时，提供足够的上下文（至少能推断速度）对预测至关重要。

最终，作者结合这些发现构建的优化模型，在多个基准测试中超越了现有的先进方法，证明了其研究结论的有效性和实用价值。

7.2. 局限性与未来工作

尽管论文本身未明确列出“局限性”一节，但我们可以从其研究范围和结果中推断出一些潜在的局限和未来方向：

规划视界: 文中采用的规划视界仍然相对较短。对于需要更长序列动作的复杂任务，当前的方法可能会遇到困难，例如预测误差的累积问题。
任务复杂度: 虽然实验覆盖了导航和操作，但在精细操作（如“抓取”小物体）上的成功率仍然不高。这表明当前的表示和动态模型在捕捉接触物理等复杂交互方面仍有提升空间。
探索与数据: 本文依赖于离线数据集进行训练。如何将这些强大的世界模型与在线探索策略结合，以主动收集更有信息量的数据，是一个重要的未来方向。
规划器效率: 基于采样的规划器虽然有效，但计算成本较高。研究更高效的规划算法，或者学习一个策略网络来“蒸馏”规划器的能力，是值得探索的。

7.3. 个人启发与批判

研究范式的启发: 这篇论文是“科学方法”在深度学习研究中的绝佳体现。它没有沉迷于提出一个新奇的缩写或复杂的架构，而是回归本源，通过严谨的控制变量实验，系统地回答了一个基础而重要的问题：“什么才是真正重要的？”。这种研究范式产出的见解和设计准则，对整个社区的推动作用可能比单个“SOTA”模型更大。
对实践的指导意义: 对于希望在机器人领域应用世界模型的研究者和工程师来说，这篇论文提供了一份非常宝贵的“操作手册”。它清晰地指出了哪些技术选择更有可能成功，以及在面对不同复杂度的任务时应该如何权衡模型设计，避免了大量的盲目试错。
潜在的批判性思考:
- “最优”的相对性: 论文提出的“最优”模型是基于其所探索的设计空间。这个空间虽然广泛，但并非详尽无遗。可能存在本文未曾探索的其他架构或训练技巧能带来更好的性能。
- 表示与动态的解耦: 本文遵循了“冻结强大编码器，只学习动态”的范式。这虽然有效，但也带来一个问题：预训练编码器学到的表示不一定完美适用于下游的动态预测任务。探索如何对编码器进行微调，甚至联合训练，可能是进一步提升性能的关键。
- 评估指标的局限: 成功率作为最终指标是好的，但它是一个稀疏信号。论文中对代理指标（如嵌入误差）与成功率相关性的分析表明，目前还没有一个完美的、计算成本低的代理指标可以完全替代昂贵的规划评估。这仍然是该领域的一个开放挑战。

相似论文推荐

基于向量语义检索推荐的相关论文。

暂时没有找到相似论文。