论文状态：已完成

Physical Autoregressive Model for Robotic Manipulation without Action Pretraining

发表：2025/08/13

机器人物理自回归模型 (1)基于视频预训练的机器人操作 (1)动作无关物理动态建模 (1)基于DiT的连续token解码器 (1)ManiSkill基准测试 (1)

价格：0.100000

已有 18 人读过

本分析由 AI 生成，可能不完全准确，请以原文为准。

TL;DR 精炼摘要

本文提出物理自回归模型(PAR)，创新性地将图像帧与动作结合为物理词元，以表示机器人与环境的联合演化，从而无需动作预训练，便能利用视频预训练的世界知识解决机器人操作问题。该模型基于自回归视频生成，并采用DiT去词元化器将帧与动作建模为连续信号，辅以因果掩码、并行训练和KV缓存机制，以提升性能和效率。实验证明，PAR在ManiSkill的PushCube任务上实现100%成功率，并在其他任务上媲美动作预训练基线，能准确预测未来视频及其对应的动作轨迹。

摘要

The scarcity of manipulation data has motivated the use of pretrained large models from other modalities in robotics. In this work, we build upon autoregressive video generation models to propose a Physical Autoregressive Model (PAR), where physical tokens combine frames and actions to represent the joint evolution of the robot and its environment. PAR leverages the world knowledge embedded in video pretraining to understand physical dynamics without requiring action pretraining, enabling accurate video prediction and consistent action trajectories. It also adopts a DiT-based de-tokenizer to model frames and actions as continuous tokens, mitigating quantization errors and facilitating mutual enhancement. Furthermore, we incorporate a causal mask with inverse kinematics, parallel training, and the KV-cache mechanism to further improve performance and efficiency. Experiments on the ManiSkill benchmark show that PAR achieves a 100% success rate on the PushCube task, matches the performance of action-pretrained baselines on other tasks, and accurately predicts future videos with tightly aligned action trajectories. These findings underscore a promising direction for robotic manipulation by transferring world knowledge from autoregressive video pretraining. The project page is here: https://hcplab-sysu.github.io/PhysicalAutoregressiveModel/

思维导图

论文精读

中文精读约 20 分钟读完 · 10,716 字

1. 论文基本信息 (Bibliographic Information)

标题 (Title): Physical Autoregressive Model for Robotic Manipulation without Action Pretraining (无需动作预训练的物理自回归模型用于机器人操控)
作者 (Authors): Zijian Song, Sihan Qin, Tianshui Chen, Liang Lin, Guangrun Wang.
- 作者主要来自中山大学 (Sun Yat-sen University)、x-Era AI Lab 以及广东工业大学 (Guangdong University of Technology)。他们是计算机视觉和人工智能领域的研究人员。
发表期刊/会议 (Journal/Conference): 本文目前发布在 arXiv 上，属于预印本 (Preprint)。arXiv 是一个发布未经同行评审的学术论文的平台，通常是正式发表前的版本。
发表年份 (Publication Year): 2024 年（根据 arXiv ID 2508.09822 的格式推断，但该编号实际上指向未来，应为笔误，根据内容和引用习惯，论文提交于 2024 年）。
摘要 (Abstract): 机器人操控数据的稀缺性促使研究者利用其他模态的预训练大模型。本文基于自回归视频生成模型，提出了一种物理自回归模型 (PAR)。该模型将图像帧 (frames) 和动作 (actions) 组合成物理词元 (physical tokens)，来表示机器人及其环境的联合演化。PAR 利用视频预训练中蕴含的世界知识来理解物理动态，从而无需动作预训练即可实现准确的视频预测和一致的动作轨迹。模型采用基于 DiT 的去词元化器 (de-tokenizer) 将帧和动作建模为连续词元，以减轻量化误差并促进两者相互增强。此外，通过引入带有逆运动学的因果掩码、并行训练和 KV 缓存机制，进一步提升了性能和效率。在 ManiSkill 基准测试上的实验表明，PAR 在 PushCube 任务上达到了 100% 的成功率，在其他任务上与经过动作预训练的基线模型性能相当，并能准确预测未来视频和与之紧密对齐的动作轨迹。这些发现为通过迁移自回归视频预训练的世界知识来解决机器人操控问题提供了一个有前景的方向。
原文链接 (Source Link):
- https://arxiv.org/pdf/2508.09822
- 状态：预印本 (Preprint)

2. 整体概括 (Executive Summary)

研究背景与动机 (Background & Motivation - Why):
- 核心问题： 在机器人学领域，获取大规模、高质量的人工演示数据用于训练通用操控模型是极其困难和昂贵的，这导致了“操控数据稀缺”的瓶颈。
- 问题重要性： 缺乏数据使得像计算机视觉 (CV) 和自然语言处理 (NLP) 领域那样通过大规模预训练来构建强大的基础模型变得非常困难。
- 现有挑战 (Gap)：
  1. 视觉-语言-动作模型 (Vision-Language-Action Models, VLAs) 是一个主流方向，它们试图将大型语言模型 (LLMs) 的知识迁移到机器人动作领域。然而，语言的符号推理与机器人动作的物理控制之间存在巨大的模态鸿沟 (modality gap)，导致对齐效果不佳。
  2. 离散化词元 (Discrete Tokens) 在很多模型中被用来表示连续的视觉和动作信号，但这会引入量化误差 (quantization errors)，这些误差会在长时序预测中累积，导致轨迹漂移。
- 本文切入点/创新思路： 与其依赖语言模型，不如从预训练的视频生成模型中迁移知识。因为视频生成模型，特别是自回归模型，本身就包含了对物理世界动态的深刻理解（例如，物体如何移动、如何相互作用）。本文认为这种物理动态预测能力与机器人动作生成的目标天然对齐。因此，本文提出了将视觉帧和机器人动作统一建模为“物理词元 (physical tokens)”，并通过一个自回归过程联合预测它们，从而将视频模型的世界知识无缝迁移到机器人操控任务中。
核心贡献/主要发现 (Main Contribution/Findings - What):
- 提出物理自回归模型 (PAR): 创造性地将图像帧和动作序列融合成统一的 physical tokens，并使用一个自回归 Transformer 来联合预测机器人与环境的未来状态。
- 无需动作预训练： 通过直接微调一个强大的预训练视频生成模型 (NOVA)，PAR 成功地将视频中的“世界知识”迁移到机器人操控上，完全避免了对大规模机器人动作数据的预训练需求，显著降低了数据门槛。
- 连续的生成式去词元化器： 采用基于 DiT (Diffusion Transformer) 的去词元化器来处理连续的帧和动作信号。这不仅避免了离散化带来的量化误差，还能对动作和视觉的复杂分布进行建模，促进了两个模态间的深度交互。
- 性能优异： 在 ManiSkill 基准测试中，PAR 在部分任务上达到 100% 成功率，整体性能与经过大规模动作预训练的先进模型 (SOTA) 相当，证明了该方法的有效性。

基础概念 (Foundational Concepts):
- 自回归模型 (Autoregressive Model): 这是一类生成模型，它通过序列化的方式生成数据。在生成序列中的第 $n$ 个元素时，模型会将前面已经生成的所有元素 $(1, 2, ..., n-1)$ 作为条件。这种机制非常适合处理有时序依赖关系的数据，例如语言（逐词生成）和视频（逐帧生成）。本文的 PAR 模型就是逐个预测 physical token（包含一帧图像和一个动作块）。
- 词元化 (Tokenization): 将原始输入数据（如文本、图像、动作）转换成模型可以处理的数值表示（即“词元”或 token）的过程。
  - 离散词元化 (Discrete Tokenization): 将连续信号（如图像像素）映射到一个有限的、离散的码本 (codebook) 中，类似于将句子分解成一个个单词。优点是能直接套用语言模型的框架，但缺点是会损失精度（量化误差）。
  - 连续词元化 (Continuous Tokenization): 将连续信号直接映射到一个连续的向量空间中。本文采用这种方式，并通过扩散模型来对这些连续向量的分布进行建模。
- 扩散模型 (Diffusion Models): 一类强大的深度生成模型。其核心思想分为两步：
  1. 前向过程 (Forward Process): 逐渐向一个干净的数据样本（如图像）中添加高斯噪声，直到它完全变成纯噪声。这个过程是固定的、无需学习的。
  2. 反向过程 (Reverse Process): 训练一个神经网络（通常是 U-Net 或 Transformer）来学习逆转这个加噪过程，即从纯噪声中逐步去除噪声，最终恢复出原始的、干净的数据样本。本文使用这个框架来生成高质量的连续动作和图像词元。
- DiT (Diffusion Transformer): 一种将 Transformer 架构用作扩散模型中去噪网络的模型。它将带噪的输入（如图像块）视为一系列词元，并通过 Transformer 的自注意力机制来学习它们之间的关系，从而更有效地预测和移除噪声。本文使用 DiT 作为其去词元化器。
前人工作 (Previous Works):
- 视觉-语言-动作模型 (VLAs): 如 RT-2、OpenVLA 等模型，它们将 LLM 作为大脑，通过添加一个“动作头”来输出机器人控制指令。它们的优势在于利用了 LLM 强大的常识推理能力。但如前所述，其主要局限在于语言与物理动作的模态鸿沟。
- 视频-动作联合预测 (Video-Action Joint Prediction): 如 UVA、VPP 等工作已经探索了联合学习视频和动作表示。它们证明了视频预测可以为动作生成提供有价值的物理约束。本文在此基础上，采用了更强大的自回归框架，能够利用可变长度的历史信息进行连贯的规划。
- 连续信号词元化 (Continuous Signal Tokenization): 此前已有工作尝试使用 MLP 投影或高斯混合模型来处理连续动作信号，但它们在建模任意复杂分布方面能力有限。最近的工作（如 MAR）提出使用去噪过程（即扩散模型）来建模连续信号的条件分布，本文将这一思想应用到了动作和视觉的联合自回归建模中。
技术演进 (Technological Evolution): 机器人基础模型的技术路线大致经历了从传统的模仿学习 (BC) -> 引入 Transformer 架构 (ACT, BC-T) -> 利用 LLM 知识 (VLAs) 的演进。本文则开辟了一条新的路径：从视频生成模型中汲取物理世界知识。这标志着一个重要的范式转变，即从依赖符号知识 (LLM) 转向依赖物理动态知识 (Video Model)。
差异化分析 (Differentiation):
- 与 VLA 的区别： 基础模型不同。VLA 基于 LLM，而 PAR 基于预训练的自回归视频生成模型。这使得 PAR 能更好地理解物理动态，避免了语言到动作的模态转换难题。
- 与传统 BC 模型的区别： 建模方式不同。PAR 不仅仅是简单地从观察到动作的映射，而是联合预测未来的观察（视频帧）和动作，形成一个闭环的“世界模型”。
- 与先前视频-动作模型的区别： 框架和词元化方式不同。PAR 采用了纯自回归框架，并引入了基于扩散模型的连续词元化方案，这在建模精度和生成质量上都具有优势。

4. 方法论 (Methodology - Core Technology & Implementation Details)

本部分将详细拆解 PAR 模型的技术实现。

该图像为模型结构示意图，展示了Physical Autoregressive Model (PAR) 的整体架构。图中从左到右依次输入文本嵌入、帧嵌入和动作嵌入，通过因果Transformer处理物理token，结合视频预训练权重分别进行帧扩散和动作扩散，预测机器人操作过程中的视频帧与动作序列。右侧插图展示了Transformer中包含点对点前馈、多头交叉注意力和多头自注意力的模块细节，体现了模型的多层堆叠和注意力机制。

上图（图 2）展示了 PAR 的整体架构。模型接收文本指令，然后自回归地生成一系列 physical tokens。每个 physical token 被解码成一帧图像和一个动作块。

方法原理 (Methodology Principles):
- 核心思想： 将机器人操控过程视为一个物理世界的时空演化序列。这个序列中的每一个时间步都由当前世界的视觉状态（一帧图像）和机器人即将执行的动作共同定义。通过将这两者捆绑成一个统一的物理词元 (physical token)，模型可以在一个统一的自回归框架下，像语言模型生成下一个单词一样，生成下一个“物理状态”。
- 直觉： 一个好的机器人策略不仅需要知道“下一步该做什么动作”，还需要预判“做了这个动作后世界会变成什么样”。PAR 通过联合预测动作和下一帧图像，将这两种能力内生地统一起来。
方法步骤与流程 (Steps & Procedures):
1. 输入与词元化 (Input & Tokenization):
  - 任务指令 (Text): 文本指令（如 "Push the cube to the goal"）通过一个冻结的语言模型 (Phi) 和一个线性投影层编码成一系列文本词元。
  - 图像观测 (Frames): 视频帧通过一个冻结的 3D 变分自编码器 (VAE) 压缩到低维的隐空间，然后被展平成一系列图像词元。
  - 动作 (Actions): 一个动作块 (action chunk) 包含 $L$ 个连续的机器人动作指令。这些连续的动作向量通过一个轻量级的多层感知机 (MLP) 编码成一系列动作词元。
2. 物理自回归 (Physical Autoregression):
  - 在每个时间步 $n$ ，模型将图像词元 $O_n$ 和动作词元 $A_n$ 拼接起来，形成一个物理词元 $P_n = [O_n; A_n]$ 。
  - 一个因果 Transformer (Causal Transformer) 接收历史的所有物理词元 $(P_0, ..., P_{n-1})$ 和文本指令 $T$ 作为输入，预测下一个物理词元 $P_n$ 的隐表示 $Z_n$ 。
3. 去词元化 (De-Tokenization):
  - 得到的隐表示 $Z_n$ 并不直接是最终的输出，而是作为条件输入到一个去词元化器中。
  - 去词元化器是一个基于 DiT 的扩散模型。它接收 $Z_n$ 作为条件，从一个随机噪声开始，通过多步去噪过程，生成高质量、连续的图像词元和动作词元。
  - 图像和动作的去词元化是分开进行的，分别使用 Frame-DeTokenizer 和 Action-DeTokenizer。
4. 与环境交互:
  - 解码出的动作被发送到机器人执行，环境状态随之改变。
  - 机器人捕捉到新的图像观测，该观测被编码成新的图像词元，与刚刚执行的动作一起，加入到历史上下文中，用于预测下一个时间步。这个过程循环往复，直到任务完成。
    
    该图像为示意图，展示了论文中提出的Physical Autoregressive Model (PAR)的工作流程。图中自上而下依次显示环境演变（environment evolution）、机器人执行动作并更新环境（execute和update过程），通过图像（Image）和机器人本体状态（Proprio）进行编码和解码，转化为物理tokens（Physical Token）。模型通过自回归（autoregression）机制结合序列物理tokens学习环境和动作的联合演化。

上图（图 1）生动地展示了 PAR 的自回归过程与环境演化同步进行的循环。

数学公式与关键细节 (Mathematical Formulas & Key Details):
- 物理自回归过程: 整个序列的联合概率可以被分解为一系列条件概率的乘积，这正是自回归模型的核心。 $P(T, O_0, A_0, \cdots, O_N, A_N) = p(T, P_0, \cdots, P_N) = \prod_{n=0}^{N} p(P_n | T, P_0, \cdots, P_{n-1})$ 其中， $P_n$ 是第 $n$ 个物理词元， $T$ 是任务指令。这个条件概率 $p(\cdot|\cdot)$ 就是由 Transformer 模型来建模的。
- 扩散损失 (Diffusion Loss): 这是训练去词元化器的目标函数。对于任意一个要生成的词元 $P_n$ （可以是图像或动作），其对应的条件是 Transformer 输出的隐表示 $Z_n$ 。 $\mathcal{L}(Z_n, P_n) = \mathbb{E}_{\epsilon, t} [||\epsilon - \epsilon_\theta(P_{n,t} | t, Z_n)||^2]$
  - 符号解释:
    - $P_n$ : 真实的、干净的目标词元（Ground Truth）。
    - $Z_n$ : 来自 Transformer 的条件向量。
    - $\epsilon$ : 从标准正态分布 $N(0, I)$ 中采样的高斯噪声。
    - $t$ : 噪声水平的时间步，从 [1, T] 中均匀采样。
    - $P_{n,t}$ : 对干净词元 $P_n$ 添加了 $t$ 时刻对应水平的噪声后得到的带噪词元。具体计算为 $P_{n,t} = \sqrt{\bar{\alpha}_t}P_n + \sqrt{1-\bar{\alpha}_t}\epsilon$ ，其中 $\bar{\alpha}_t$ 是预设的噪声调度表。
    - $\epsilon_\theta(\cdot)$ : 参数为 $\theta$ 的去噪网络（即 DiT），它的任务是预测添加到 $P_n$ 中的噪声 $\epsilon$ 。模型的训练目标就是最小化预测噪声与真实噪声之间的均方误差。
- 总损失函数: 总损失是所有时间步上，图像观测损失和动作损失的加权和（本文权重设为相等）。 $loss = \sum_{n=1}^{N} \mathcal{L}(Z_n, P_n) = \sum_{n=1}^{N} \left( \mathcal{L}_{obs}(Z_{O,n}, O_n) + \mathcal{L}_{act}(Z_{A,n}, A_n) \right)$
- 因果掩码 (Causal Mask):
  
  该图像为图表，展示了文本、图像帧（Frame）和动作（Action）之间的因果掩码矩阵关系。深色方块表示允许模型访问的内容，呈现出上三角的递进结构，说明当前时刻的信息只能依赖于之前或当前时刻的文本、帧和动作，体现了因果顺序和信息流的限制。标签包括Frame 0、BOA、Frame 1、Action 1、Frame 2、Action 2等，突出物理自回归模型中时间序列数据的依赖关系。
  
  上图（图 3）展示了 PAR 中独特的因果注意力掩码设计。
  - 时间因果性： 任何词元都只能关注它之前时间步的词元，确保了自回归的特性（图中整体的上三角形状）。
  - 帧内全注意力： 属于同一帧图像的内部图像块（patches）可以相互关注，这有助于模型理解帧内的空间结构。
  - 动作到帧的单向注意力： 这是一个关键设计。在预测第 $n$ 步的动作 $A_n$ 时，允许它关注第 $n$ 步的图像 $O_n$ 的词元。由于 $O_n$ 的词元在 Transformer 内部已经编码了对下一帧图像的预测信息，这相当于让动作规划可以“看到”预期的未来视觉状态。这在功能上实现了一种隐式的逆运动学 (implicit inverse kinematics)，即根据目标状态（下一帧图像）来反推需要执行的动作。

5. 实验设置 (Experimental Setup)

数据集 (Datasets):
- 实验在 ManiSkill Benchmark 上进行。这是一个广泛用于机器人操控研究的高保真度、多样化的模拟环境。
- 具体任务包括三个：PushCube (推方块)、PickCube (抓取方块) 和 StackCube (堆叠方块)。
- 对于每个任务，作者生成了 1000 个专家演示作为训练数据。这是一个相对较小的数据量，凸显了模型在数据稀缺场景下的学习能力。
评估指标 (Evaluation Metrics):
- 成功率 (Success Rate):
  1. 概念定义 (Conceptual Definition): 该指标衡量机器人在给定任务中成功完成目标的频率。它是一个二进制的、结果导向的评估标准，直接反映了策略的有效性。例如，在 PushCube 任务中，如果方块最终被推到了指定区域内，则认为该次尝试成功，记为 1；否则为失败，记为 0。成功率就是所有尝试中成功次数的比例。
  2. 数学公式 (Mathematical Formula): $\text{Success Rate} = \frac{\sum_{i=1}^{N} \mathbb{I}(\text{task}_i \text{ is successful})}{N}$
  3. 符号解释 (Symbol Explanation):
    - $N$ : 总的评估 rollout (回合) 次数。在本文中，每个任务评估 125 个 rollout。
    - $i$ : 表示第 $i$ 次评估回合。
    - $\text{task}_i$ : 表示第 $i$ 次评估回合中的任务实例。
    - $\mathbb{I}(\cdot)$ : 指示函数 (Indicator Function)。如果括号内的条件为真（即任务成功），则函数值为 1；否则为 0。
对比基线 (Baselines):
- 论文选择了一系列有代表性的模仿学习和机器人基础模型作为对比，包括：
  - ACT: 一个基于 Transformer 的模仿学习模型，使用了 action chunking 技术。
  - BC-T: 一个直接将视觉观察映射到动作的 Transformer 模型。
  - DP (Diffusion Policy): 将动作生成视为一个条件扩散过程的先进模型，是视觉运动策略学习的 SOTA 之一。
  - ICRT: 一个利用上下文模仿学习的 Transformer 模型。
  - RDT (RobotDiffusionTransformer): 一个参数量巨大 (1.3B) 且在大规模机器人数据集上进行过预训练的 DiT 模型。这是一个非常强的基线，因为它利用了大量的动作数据。

6. 实验结果与分析

核心结果分析 (Core Results Analysis):

方法	PushCube	PickCube	StackCube	平均
ACT [2023]	76%	20%	30%	42%
BC-T [2021]	98%	4%	14%	39%
DP [2023]	88%	40%	80%	69%
ICRT [2025]	77%	78%	30%	62%
RDT [2024]	100%	77%	74%	84%
PAR(Ours)	100%	73%	48%	74%

注意：此表格为根据原文数据转录，非原始图像。

*   <strong>结果解读：</strong>
    1.  在 `PushCube` 任务上，PAR 达到了 <strong>100% 的成功率</strong>，与最强的基线 RDT 持平，表现完美。
    2.  在 `PickCube` 任务上，PAR (73%) 的表现与 RDT (77%) 和 ICRT (78%) 非常接近，差距在几个百分点之内。
    3.  在最复杂的 `StackCube` 任务上，PAR (48%) 的表现不如 DP (80%) 和 RDT (74%)，但仍远超 ACT、BC-T 和 ICRT。
    4.  <strong>平均成功率：</strong> PAR (74%) 显著优于大多数基线，仅次于 RDT (84%)。
*   <strong>关键结论：</strong> <strong>PAR 在完全没有进行任何动作预训练的情况下，取得了与经过大规模动作预训练的 RDT 模型相当的性能。</strong> 这强有力地证明了从视频预训练模型中迁移世界知识的有效性，成功地绕过了对海量机器人数据的依赖。

消融实验/参数分析 (Ablation Studies / Parameter Analysis):

方法 PushCube PickCube StackCube 平均

PAR-NoAR 29.6% 4.0% 0.0% 11.2%

PAR-Discrete 87.2% 65.6% 7.2% 53.3%

PAR-Full 100.0% 72.8% 48.0% 73.6%

方法	PushCube	PickCube	StackCube	平均
PAR-NoAR	29.6%	4.0%	0.0%	11.2%
PAR-Discrete	87.2%	65.6%	7.2%	53.3%
PAR-Full	100.0%	72.8%	48.0%	73.6%