Robot (Imitation) Learning

capturing information about the robot’s interaction with its environment.

论文状态：已完成

Robot (Imitation) Learning

发表：1999/06/01

模仿学习 (4)机器人动作学习 (12)行为克隆 (1)多模态演示数据集 (1)

原文链接

价格：0.10

已有 4 人读过

本分析由 AI 生成，可能不完全准确，请以原文为准。

TL;DR 精炼摘要

本论文提出行为克隆作为机器人模仿学习的核心方法，通过利用离线多模态专家示范数据，无需设计奖励函数，避免高风险探索，实现从观测到动作的直接映射。此方法有效克服强化学习在真实机器人环境中的限制，提升学习安全性和实用性。

摘要

Figure 18 | (A) Average (with standard deviation) evolution of the actuation levels over the first 5 recorded episodes in lerobot/svla_so101_pickplace . Proprioperceptive states provide invaluable to determine the robot’s state during an episode. (B) Camera frames are also recorded alongside measurements on the robot’s state, capturing information about the robot’s interaction with its environment. 4 Robot (Imitation) Learning The best material model for a cat is another, or preferably the same cat Norbert Wiener TL;DR Behavioral Cloning provides a natural platform to learn from real-world interactions without the need to design any reward function, and generative models prove more effective than point-wise policies at dealing with multimodal demonstration datasets. Learning from human demonstrations provides a pragmatic alternative to the RL pipeline discussed in Section 3. Indeed, especially in real-world robotics, online exploration is typically costly and potentially unsafe, and designing (dense) reward signals is a brittle and task-specific process. Further, even success detection itself often requires bespoke instrumentation, while episodic training demands relia

思维导图

论文精读

中文精读约 30 分钟读完 · 13,914 字

1. 论文基本信息

1.1. 标题

Robot (Imitation) Learning（机器人（模仿）学习）

1.2. 作者

论文中未明确提及具体作者姓名及所属机构。

1.3. 发表期刊/会议

论文中未明确提及具体的期刊或会议名称。

1.4. 发表年份

论文中未明确提及具体的发表年份，但从文中引用的参考文献（如 Black et al., 2024; Chi et al., 2024; Shukor et al., 2025）推断，该内容反映的是2024年至2025年左右的最新研究进展。

1.5. 摘要

行为克隆（Behavioral Cloning）提供了一个从真实世界交互中学习的自然平台，无需设计任何奖励函数，而生成模型在处理多模态示范数据集方面比点式策略更有效。从人类示范中学习为强化学习（Reinforcement Learning）提供了一种实用的替代方案，尤其是在真实世界机器人领域，探索成本高昂且不安全，奖励设计脆弱且任务特定。行为克隆将控制问题视为模仿学习（Imitation Learning）问题，通过利用先前收集的专家示范，使自主系统能够自然地遵循数据中编码的目标和成功标准。行为克隆学习从观测（包括图像和本体感知信息）到专家动作的映射，绕过了对奖励和大量探索的需求。数据包括离线、无奖励、长度可变的专家轨迹，其中可能包含针对同一目标的多模态策略。在这种非独立同分布（non-i.i.d.）的序列数据上训练监督模型，可以实现离线学习，从而限制探索风险并避免人工奖励塑形，这使得行为克隆特别适合在硬件上进行规模化机器人学习。

1.6. 原文链接

/files/papers/6907680a971e575bdfc172d9/paper.pdf 该链接指向论文的 PDF 文件，其发布状态未明确说明。

2. 整体概括

2.1. 研究背景与动机

论文试图解决的核心问题： 该论文主要关注如何让机器人通过模仿学习有效地从人类示范中学习复杂技能，以实现自主控制，并克服传统强化学习在真实世界机器人应用中的挑战。

为什么这个问题在当前领域是重要的：

强化学习 (Reinforcement Learning, RL) 的局限性： 尽管 RL 在模拟环境中取得了显著成功，但在真实世界机器人应用中面临诸多挑战，如：
- 探索成本高昂且不安全： 机器人进行试错探索可能导致硬件损坏或危险情况。
- 奖励函数设计困难且脆弱： 设计一个既能引导机器人行为又能精确量化任务成功的奖励函数通常非常困难，并且对任务特定性很高，难以泛化。
- 样本效率低下： 真实世界数据收集成本高，RL 通常需要大量交互才能学习。
人类示范的实用性： 从人类示范中学习（即模仿学习）提供了一种实用的替代方案，因为它直接利用专家数据，无需探索和奖励设计，从而显著降低了真实世界机器人学习的门槛和风险。
多模态行为的复杂性： 人类在完成同一任务时可能表现出多种不同的策略和行为（多模态），这对传统的行为克隆方法（通常学习点式策略）提出了挑战。传统的点式策略倾向于对不同模式进行平均，导致决策模糊或无效。
数据非独立同分布 (non-i.i.d.) 和协变量偏移 (covariate shift)： 行为克隆通常在离线收集的序列数据上进行训练，这些数据是非独立同分布的，且在机器人执行学习到的策略时，可能会遇到训练数据中未曾出现的观测状态，导致性能下降（协变量偏移）。

这篇论文的切入点或创新思路： 论文的切入点在于利用先进的生成模型 (Generative Models, GMs) 来解决模仿学习中多模态数据和序列决策的问题。具体来说，它强调：

超越点式策略： 采用生成模型来建模专家行为的完整分布，从而能更好地处理多模态示范数据。
动作分块 (Action Chunking)： 学习预测一系列未来动作而非单个动作，模仿人类规划行为的方式，以应对在线、序列预测中误差累积的问题。
通用性与泛化能力： 结合视觉语言模型 (Vision-Language Models, VLMs) 构建通用机器人策略 (Generalist Robot Policies)，使其能够在不同任务、不同环境甚至不同机器人实体 (embodiment) 之间进行泛化，并通过语言指令进行条件控制。
优化推理： 提出异步推理机制，以在资源受限的真实世界机器人平台上实现高效、低延迟的策略执行。
开放科学： 倡导通过开放数据集和开放模型来降低机器人学习研究的门槛，促进社区协作。

2.2. 核心贡献/主要发现

这篇论文的核心贡献主要体现在以下几个方面：

强调并解决了行为克隆 (Behavioral Cloning, BC) 的关键局限性： 论文明确指出了传统 BC 在处理多模态示范数据和避免决策模糊方面的不足，并通过引入生成模型作为核心解决方案。
推广了生成模型在模仿学习中的应用： 论文详细介绍了变分自编码器 (Variational Auto-Encoders, VAEs)、扩散模型 (Diffusion Models, DMs) 和流匹配 (Flow Matching, FM) 等生成模型的原理，并展示了它们如何有效地建模专家行为的复杂分布。
提出了基于生成模型的具体模仿学习策略：
- 动作分块与Transformer (Action Chunking with Transformers, ACT)： 结合条件变分自编码器 (Conditional VAE, CVAE) 和 Transformer 架构，实现从人类示范中学习多动作块的策略，有效处理高维多模态数据。
- 扩散策略 (Diffusion Policy, DP)： 将扩散模型应用于模仿学习，通过条件化观测序列来预测未来动作块，展示了在少量数据下也能实现强大的性能。
优化了真实世界机器人部署的推理效率： 提出了异步推理 (Asynchronous Inference) 机制，通过将动作预测与执行解耦，有效解决了机器人在线控制中的延迟问题，提高了资源受限平台上的运行效率。
推动了通用机器人策略 (Generalist Robot Policies) 的发展：
- 视觉语言动作模型 (Vision-Language-Action, VLA)： 引入了将视觉语言模型 (VLM) 作为骨干网络，结合动作专家和流匹配技术来构建能够理解语言指令、执行多任务、跨实体操作的通用机器人策略。
- 具体模型示例： 介绍了 $π0$ 和 SmolVLA 等代表性工作，展示了如何通过大规模数据集、高效架构和开放贡献来构建此类通用模型。
倡导开放科学和社区贡献： 论文强调了开放数据集（如 Open-X, DROID）和开放模型（如 OpenVLA, SmolVLA）在降低研究门槛、促进机器人学习领域发展中的关键作用。

总而言之，论文描绘了机器人模仿学习从简单映射到复杂生成、从任务特定到通用泛化的发展轨迹，并提供了实现这些目标的关键技术和方法。

3. 预备知识与相关工作

3.1. 基础概念

3.1.1. 行为克隆 (Behavioral Cloning, BC)

行为克隆是一种模仿学习方法，其核心思想是直接学习一个从观测到专家动作的映射函数。它将机器人控制问题转化为一个监督学习问题，即通过收集专家（通常是人类）在特定任务下的观测-动作对，训练一个模型来模仿专家的行为。

工作原理： 给定一个包含专家示范轨迹的数据集 $\mathcal{D} = \{ \tau^{(i)} \}_{i=1}^N$ ，其中每个轨迹 $\tau^{(i)} = \{ (o_t^{(i)}, a_t^{(i)}) \}_{t=0}^{T_i}$ 包含观测 $o_t$ （如图像、本体感知信息）和对应的专家动作 $a_t$ 。BC 的目标是学习一个确定性映射 $f: \mathcal{O} \mapsto \mathcal{A}$ ，使得 $a_t = f(o_t)$ 。这通常通过最小化预测动作与专家动作之间的损失函数来实现。
优势：
- 无需设计复杂的奖励函数。
- 通过离线学习避免了真实世界中的探索风险。
- 能够自然地遵循专家数据中编码的目标和成功标准。
局限性：
- 数据非独立同分布 (non-i.i.d.)： 示范数据是顺序收集的，样本之间存在时间相关性，不满足监督学习中常用的独立同分布假设。
- 协变量偏移 (Covariate Shift)： 如果学习到的策略在执行过程中遇到了训练数据中没有见过的新观测状态，它可能会做出错误的决策，并逐渐偏离专家轨迹，导致误差累积。
- 多模态挑战： 对于同一任务，专家可能采取多种不同的策略。传统的 BC 方法（点式策略）倾向于对这些模式进行平均，导致生成的行为平庸或不确定。

3.1.2. 强化学习 (Reinforcement Learning, RL)

强化学习是一种通过智能体 (agent) 与环境交互来学习最优行为的机器学习范式。智能体根据环境的反馈（奖励信号）调整其策略，以最大化长期累积奖励。

与模仿学习的区别： RL 需要智能体主动探索环境并接收奖励信号，而模仿学习则直接从专家示范中学习，无需奖励函数和探索。在真实世界机器人领域，RL 的探索成本高昂且不安全，奖励设计困难，因此模仿学习成为一个实用的替代方案。

3.1.3. 生成模型 (Generative Models, GMs)

生成模型是一类机器学习模型，旨在学习训练数据的底层概率分布 p(x)。一旦学习到这个分布，模型就可以生成与训练数据相似的新样本，或者评估给定样本在真实分布下的可能性。

核心思想： 通过拟合一个近似未知的真实数据分布 p(x) 的概率分布 $p_\theta(x)$ 。
目标：
1. 生成与训练数据相似的新样本。
2. 为观测数据的高密度区域分配高似然值。
在模仿学习中的应用： 生成模型可以建模专家观测-动作对的联合分布 p(o,a)，从而能够处理多模态专家行为，生成多样化的、高质量的动作序列，而不是简单的平均。

3.1.4. 潜在变量模型 (Latent Variable Models)

潜在变量模型假设观测数据 $x$ 是由一些不可观测的潜在变量 $z$ 生成或影响的。这些潜在变量通常具有较低的维度或更抽象的语义。

核心思想： $p(x) = \int p(x|z)p(z) dz$ 。
在模仿学习中的应用： 在机器人应用中，潜在变量 $z$ 可以被解释为人类示范者正在执行的底层任务的高级表示，或者任务的不同风格、模式。通过建模 $z$ ，模型可以捕获专家行为中的多模态性和多样性。

3.1.5. Transformer 架构

Transformer 是一种基于自注意力 (self-attention) 机制的神经网络架构，最初为自然语言处理任务设计，但已成功应用于计算机视觉、机器人学习等多个领域。

核心思想： 通过注意力机制，模型可以对输入序列中的不同部分分配不同的权重，从而捕获长距离依赖关系和重要特征，而不是依赖于传统的循环或卷积结构。
在机器人学习中的应用： Transformer 能够有效处理序列数据（如动作序列、观测序列），并在多模态数据融合（如图像、本体感知信息和语言指令）方面表现出色，成为许多通用机器人策略（如 ACT, DP, $\pi_0$ ）的核心组件。

3.2. 前人工作

3.2.1. 变分自编码器 (Variational Auto-Encoders, VAEs)

Kingma 和 Welling (2013) 提出的 VAEs 是一种常用的生成模型，它通过学习潜在变量的近似后验分布和数据的条件似然分布来近似数据分布。

核心： 最大化证据下界 (Evidence Lower Bound, ELBO)。它包含两项：重构损失 (reconstruction loss)，鼓励生成器准确重构输入；以及 KL 散度正则项 (KL-divergence regularization term)，促使潜在变量的近似后验分布接近一个简单的先验分布（通常是标准高斯分布）。
目的： 学习数据的有效潜在表示，并能从潜在空间生成新数据。

3.2.2. 扩散模型 (Diffusion Models, DMs)

Ho et al. (2020) 引入的扩散模型是另一类强大的生成模型，它通过一个逐步加噪的正向扩散过程和一个逐步去噪的反向生成过程来学习数据分布。

核心： 正向过程将数据逐步转化为高斯噪声；反向过程（生成过程）则从随机噪声中逐步恢复数据。模型学习预测在每个时间步中添加的噪声，从而实现去噪。
优势： 在图像生成等任务中展现出卓越的生成质量和多样性。
与 VAEs 的区别： DMs 假设潜在变量之间存在马尔可夫链式的相互影响，而不是 VAEs 中潜在变量独立影响数据。

3.2.3. 流匹配 (Flow Matching, FM)

Lipman et al. (2023) 提出的流匹配是一种连续变换生成模型，它将扩散模型推广到更一般的情况，学习一个连续且可微分的流 (flow) 来将简单先验分布（如标准高斯）的样本传输到复杂的目标数据分布。

核心： 学习一个向量场 (vector field)，该向量场描述了样本从一个分布连续变换到另一个分布的轨迹。
优势： 相比 DMs，FM 在推理时可以实现确定性的连续轨迹，通常更高效，并且能处理任意中间分布，突破了 DMs 对高斯似然和后验的限制。

3.2.4. 条件变分自编码器 (Conditional VAEs, CVAEs)

Sohn et al. (2015) 扩展了 VAEs，引入了条件信息。CVAE 允许在生成或推断潜在变量时，以外部条件变量为输入。

核心： 在 VAE 的编码器和解码器中都加入条件信息，使得潜在空间和生成过程都受到条件变量的引导。
在模仿学习中的应用： 在 ACT 中，CVAE 被用来直接建模条件策略分布 $p(a|o)$ ，其中观测 $o$ 作为条件信息，潜在变量 $z$ 可以捕获动作的多模态性。

3.3. 技术演进

机器人模仿学习领域的技术演进呈现出从简单到复杂、从任务特定到通用泛化的趋势：

早期行为克隆 (Early BC)： 最初的 BC 往往使用简单的神经网络或线性模型来学习观测到动作的直接映射。这些模型通常是点式策略 (point-wise policies)，难以处理多模态示范数据，并且易受协变量偏移问题的影响。
引入生成模型解决多模态挑战： 随着对多模态专家行为处理需求的增长，研究者开始将生成模型引入 BC。
- VAEs 被用于建模观测-动作对的联合分布或条件动作分布，其潜在空间可以捕获专家策略的不同模式，如本文中的 ACT。
- 扩散模型 (DMs) 进一步提升了生成质量和对复杂分布的建模能力，被应用于直接生成高质量的动作序列，如本文中的 Diffusion Policy。
- 流匹配 (FM) 作为 DMs 的推广，提供了更高效和灵活的生成方式。
从单步动作到动作分块 (Action Chunking)： 为了解决序列决策中的误差累积问题并更好地模拟人类规划行为的方式，策略开始预测一系列未来动作（动作分块），而不是单个瞬时动作。ACT 和 Diffusion Policy 都采用了这一思想。
结合 Transformer 架构： Transformer 在处理序列数据和多模态信息融合方面的优势，使其成为模仿学习策略的关键组件，如 ACT 和 Diffusion Policy 都利用了 Transformer。
迈向通用机器人策略 (Generalist Robot Policies) 和视觉语言动作 (VLA) 模型：
- 随着大规模语言模型 (Large Language Models, LLMs) 和视觉语言模型 (VLMs) 的兴起，机器人学习开始探索如何将这些强大的预训练模型作为感知和规划的骨干。
- VLA 模型（如 $\pi_0$ 和 SmolVLA）将 VLM 作为视觉和语言理解的核心，并通过专门的动作专家来生成机器人动作，从而实现通过自然语言指令控制机器人执行多任务、跨环境甚至跨实体 (cross-embodiment) 的能力。这一阶段强调大规模数据集、高效架构和开放科学的重要性。

3.4. 差异化分析

特征/方法	行为克隆 (BC)	基于生成模型的 BC (如 ACT, DP)	通用视觉语言动作模型 (VLA, 如 $\pi_0$ , SmolVLA)
核心问题	学习观测到动作的映射	处理多模态专家行为，缓解协变量偏移	实现多任务、跨实体、语言条件化的通用机器人控制
策略类型	点式策略 (point-wise policy)	概率分布策略 (probabilistic policy)，生成动作块	概率分布策略，生成动作块，结合语言理解
处理多模态数据	困难，倾向于平均	有效，通过建模分布来捕获多样性	非常有效，VLM 提供高级语义理解，动作专家生成多模态动作
主要技术	监督学习，神经网络	VAEs (CVAE), Diffusion Models, Flow Matching, Transformer	VLM (主干网络), 动作专家 (Transformer), Flow Matching, 大规模数据集
预测粒度	单个动作	动作块 (Action Chunk)	动作块 (Action Chunk)
奖励函数	不需要	不需要	不需要
探索需求	不需要	不需要	不需要
泛化能力	差，任务特定，对训练数据外状态敏感	优于传统 BC，但仍主要针对特定任务	强，可实现跨任务、跨环境、跨实体泛化，语言条件化
数据需求	中等规模专家示范数据	中等规模专家示范数据	大规模、多样化、多实体、多任务数据集
实时部署挑战	协变量偏移，可能导致性能下降	需考虑生成模型推理效率	复杂的模型架构，推理计算量大，需优化
本文的贡献	基础方法	引入 VAEs, DMs, FMs，提出 ACT, DP 解决多模态和序列预测	提出 VLA 范式，介绍 $\pi_0$ , SmolVLA 推动通用机器人

总结来说：

BC 是模仿学习的基石，但其局限性促使了后续发展。
基于生成模型的 BC（如 ACT 和 Diffusion Policy）解决了传统 BC 在处理多模态数据和序列预测方面的不足，通过建模动作分布来生成更稳健和多样的行为。
通用视觉语言动作模型 (VLA) 代表了模仿学习的最新进展，它利用 LLM/VLM 的强大感知和理解能力，结合动作生成机制，实现了机器人策略向更高级别的通用性和语言可控性的迈进。

4. 方法论

本章节将详细拆解论文中提出的各项技术方案，从基础的行为克隆到先进的通用机器人策略，深入探讨其核心原理、数学公式及具体实现细节。

4.1. 行为克隆 (Behavioral Cloning, BC)

行为克隆（BC）是模仿学习的核心方法，它将机器人控制问题转化为一个监督学习问题。

4.1.1. 数据集定义

正式地，令 $\mathcal{D} = \{ \tau^{(i)} \}_{i=1}^N$ 表示包含 $N$ 条专家轨迹的数据集。每条轨迹 $\tau^{(i)} = \{ (o_t^{(i)}, a_t^{(i)}) \}_{t=0}^{T_i}$ 长度为 $T_i$ 。其中 $o_t \in \mathcal{O}$ 表示观测（例如，图像和本体感知信息）， $a_t \in \mathcal{A}$ 表示专家动作。在模仿学习中， $\mathcal{D}$ 是一个离线收集的无奖励（专家）人类轨迹数据集，而不是环境动力学。同样地，这里的 $\tau^{(i)}$ 表示长度为 $T_i$ 的观测-动作对轨迹，其中不包含任何奖励信息。

4.1.2. BC 目标函数

行为克隆旨在通过学习从观测到动作的映射来生成合成行为。它学习一个确定性映射 $f: \mathcal{O} \mapsto \mathcal{A}$ ，使得 $a_t = f(o_t)$ 。这通过解决以下优化问题实现： $\operatorname* { m i n } _ { f } \mathbb { E } _ { ( o _ { t } , a _ { t } ) \sim p ( \bullet ) } \mathcal { L } \big ( a _ { t } , f \big ( o _ { t } \big ) \big )$ 其中：

$f$ : 学习到的策略（policy），是一个从观测空间 $\mathcal{O}$ 到动作空间 $\mathcal{A}$ 的映射函数。
$\mathbb{E}$ : 期望值 (expectation)。
$(o_t, a_t) \sim p(\bullet)$ : 表示观测-动作对 $(o_t, a_t)$ 遵循专家联合分布 $p(\bullet)$ 。这个专家联合观测-动作分布 $p: \mathcal{O} \times \mathcal{A} \mapsto [0, 1]$ 通常被认为是未知的。
$\mathcal{L}: \mathcal{A} \times \mathcal{A} \mapsto \mathbb{R}$ : 风险函数 (risk function) 或损失函数 (loss function)，用于衡量预测动作 $f(o_t)$ 与专家动作 $a_t$ 之间的差异。

4.1.3. BC 的挑战

尽管 BC 概念上简洁，但它存在一些关键问题：

非独立同分布数据 (Non-i.i.d. Data)： $\mathcal{D}$ 中收集的专家示范是顺序收集的，因此数据并非独立同分布（i.i.d.）。虽然可以通过打乱样本来近似期望风险的蒙特卡洛估计，但这可能导致估计的准确性降低。
协变量偏移 (Covariate Shift) 和误差累积： 点式策略 $f: \mathcal{O} \mapsto \mathcal{A}$ 在解决方程 (18) 时，即使预测误差 $\epsilon$ 很小（ $0 < \| \mu(o_t) - a_t \| \leq \epsilon$ ），也可能迅速将策略推向训练数据中未出现的 (out-of-distribution) 状态，导致误差累积，并最终使策略崩溃。
处理多模态性不足： 现实世界中，为了达成同一目标，可能存在多种同样有效的策略（例如，多种抓取方式，如下图所示）。然而，单峰回归器 (unimodal regressors) 倾向于对这些模式进行平均，导致产生犹豫不决甚至无效的动作。

下图（原文 Figure 3）展示了策略执行与专家示范的 wrist roll 轨迹对比，右侧图像为标注两种抓取模式的机器人手爪特写，体现了 BC 在多模态行为处理上的挑战。

该图像是包含图表和实验装置照片的复合图，左侧图表展示了策略执行与专家示范的wrist roll轨迹对比，右侧图像为标注两种抓取模式的机器人手爪特写。

下图（原文 Figure 4）展示了机器人手部在“拾取积木”和“推动积木”两种操作任务中的概率分布情况。左图对应任务A，右图对应任务B，图中以 $q_6$ 表征动作概率的高低变化，体现了行为克隆模型对不同任务动作预测的区分能力。

$该图像是图表，展示了机器人手部在“拾取积木”和“推动积木”两种操作任务中的概率分布情况。左图对应任务A，右图对应任务B，图中以$q_6$表征动作概率的高低变化，体现了行为克隆模型对不同任务动作预测的区分能力。$ 该图像是图表，展示了机器人手部在“拾取积木”和“推动积木”两种操作任务中的概率分布情况。左图对应任务A，右图对应任务B，图中以 $q_6$ 表征动作概率的高低变化，体现了行为克隆模型对不同任务动作预测的区分能力。

为了解决这些问题，论文提出了采用生成模型来替代点式策略。

4.2. 生成模型 (Generative Models, GMs)

生成模型通过拟合近似未知数据分布的概率分布 $p_\theta(x)$ 来生成新样本，并为观测数据的高密度区域分配高似然值。在 BC 的背景下，未知的数据分布 $p$ 可以表示专家对 (o, a) 对的联合分布。

4.2.1. 变分自编码器 (Variational Auto-Encoders, VAEs)

VAEs 通过引入潜在变量 $z$ 来建模数据分布 p(o,a)。

4.2.1.1. 潜在变量模型

VAEs 假设观测-动作对 (o, a) 受到一个不可观测的潜在变量 $z \in \mathcal{Z}$ 的影响，其联合分布可以表示为： $p ( o , a ) = \int _ { \mathrm { s u p p } ( Z ) } p ( o , a | z ) p ( z ) dz$ 其中：

p(o,a): 观测-动作对的联合概率分布。
$Z$ : 潜在变量空间 (latent variable space)。
$\mathrm{supp}(Z)$ : 潜在变量 $z$ 的支撑集。
$p(o,a|z)$ : 在给定潜在变量 $z$ 下观测-动作对的条件概率 (likelihood)，也称为解码器 (decoder)。
p(z): 潜在变量 $z$ 的先验概率分布 (prior)。
直观上，在机器人应用中，对于观测-动作对 (o, a)， $z$ 可以被解释为人类示范者执行的底层任务的某种高级表示。

下图（原文 Figure 22）展示了基于潜在变量模型的机器人模仿学习框架。其通过学习隐含变量 $z$ 来调节观察动作对 (o, a) 的影响，包含公式 $p(o,a|z)$ 和 $q(z|o,a)$ ，并展示了对应的编码器和解码器结构。

该图像是一个时间轴示意图，展示了从2022年2月到2025年6月一系列机器人模仿学习相关模型和数据集的发布时间，区分了大规模闭源模型与可控规模开源模型。

4.2.1.2. 对数似然的证据下界 (ELBO)

给定包含 $N$ 个 i.i.d. 观测-动作对的数据集 $\mathcal{D}$ ，在参数 $\theta$ 下所有数据点的对数似然（在贝叶斯术语中，证据 $p_\theta(\mathcal{D})$ ）可以写为： $\begin{array} { r l } & { \log p _ { \theta } ( \mathcal { D } ) = \log \displaystyle \sum _ { i = 0 } ^ { N } p _ { \theta } ( ( o , a ) _ { i } ) } \\ & { \qquad = \log \displaystyle \sum _ { i = 0 } ^ { N } \int _ { \mathrm { s u p p } ( Z ) } p _ { \theta } ( ( o , a ) _ { i } | z ) p ( z ) dz } \\ & { \qquad = \log \displaystyle \sum _ { i = 0 } ^ { N } \int _ { \mathrm { s u p p } ( Z ) } \frac { q _ { \theta } ( z | ( o , a ) _ { i } ) } { q _ { \theta } ( z | ( o , a ) _ { i } ) } \cdot p _ { \theta } ( ( o , a ) _ { i } | z ) p ( z ) dz } \\ & { \qquad = \log \displaystyle \sum _ { i = 0 } ^ { N } \mathbb { E } _ { z \sim q _ { \theta } ( \mathfrak { a } | ( o , a ) _ { i } ) } \left[ \frac { p ( z ) } { q _ { \theta } ( z | ( o , a ) _ { i } ) } \cdot p _ { \theta } ( ( o , a ) _ { i } | z ) \right] , } \end{array}$ 其中，在第三步我们使用了 $1 = \frac{q_\theta(z|(o,a)_i)}{q_\theta(z|(o,a)_i)}$ 进行乘法。

$\log p_\theta(\mathcal{D})$ : 数据集 $\mathcal{D}$ 在模型参数 $\theta$ 下的对数似然。
$N$ : 数据集中的样本数量。
(o,a)_i: 第 $i$ 个观测-动作对。
$\int_{\mathrm{supp}(Z)} \dots dz$ : 对潜在变量 $z$ 在其支撑集上的积分。
$q_\theta(z|(o,a)_i)$ : 潜在变量 $z$ 在给定观测-动作对 (o,a)_i 下的后验概率。这个后验分布通常是难以计算的 (intractable)。
$\mathbb{E}_{z \sim q_\theta(\dots)}[\dots]$ : 期望值，其中 $z$ 从 $q_\theta$ 分布中采样。

由于 $p_\theta(\mathcal{D})$ 在神经网络建模时通常难以直接计算，Kingma 和 Welling (2013) 提出了使用变分推断。通过对上述对数似然应用 Jensen 不等式 $\log \mathbb{E}[\bullet] \geq \mathbb{E}[\log(\bullet)]$ ，可以得到其下界，即证据下界 (Evidence LOwer Bound, ELBO)： $\begin{array} { l } { \displaystyle \log p _ { \theta } ( \mathcal D ) \geq \sum _ { i = 0 } ^ { N } \biggl ( \mathbb E _ { z \sim q _ { \theta } ( \bullet | ( o , a ) _ { i } ) } \left[ \log p _ { \theta } ( ( o , a ) _ { i } | z ) \right] + \mathbb E _ { z \sim q _ { \theta } ( \bullet | ( o , a ) _ { i } ) } \left[ \log \biggl ( \frac { p ( z ) } { q _ { \theta } ( z | ( o , a ) _ { i } ) } \biggr ) \right] \biggr ) } \\ { \displaystyle \qquad = \sum _ { i = 0 } ^ { N } \bigl ( \mathbb E _ { z \sim q _ { \theta } ( \bullet | ( o , a ) _ { i } ) } \left[ \log p _ { \theta } ( ( o , a ) _ { i } | z ) \right] - \operatorname* { D } _ { \mathrm { K L } } \left[ q _ { \theta } ( z | ( o , a ) _ { i } ) \| p ( z ) \right] \bigr ) } \end{array}$ 其中，第二行将对数项转化为 Kullback-Leibler (KL) 散度 $\mathrm{D_{KL}}[Q \| P]$ ，衡量概率分布 $Q$ 与 $P$ 之间的差异。

由于真实的后验分布 $q_\theta(z|o,a)$ 通常无法计算，VAEs 使用一个由参数 $\phi$ 建模的近似后验分布 $q_\phi(z|o,a) \approx q_\theta(z|o,a)$ 。这导致了最终可优化的 ELBO 目标函数： $\mathrm { E L B O } _ { \mathcal { D } } ( \theta , \phi ) = \sum _ { i = 0 } ^ { N } \bigl ( \mathbb { E } _ { z \sim q _ { \phi } ( \mathbf { \mathsf { e } } \mid ( o , a ) _ { i } ) } \bigl [ \log p _ { \theta } ( ( o , a ) _ { i } | z ) \bigr ] - \mathrm { D } _ { \mathrm { K L } } \bigl [ q _ { \phi } ( z | ( o , a ) _ { i } ) \| p ( z ) \bigr ] \bigr )$ 其中：

$\mathrm{D_{KL}}[Q \| P]$ : Kullback-Leibler (KL) 散度，衡量概率分布 $Q$ 与 $P$ 之间的差异。
$q_\phi(z|(o,a)_i)$ : 近似后验分布，由参数 $\phi$ 建模（编码器，encoder）。
$\log p_\theta((o,a)_i|z)$ : 对数似然项，由参数 $\theta$ 建模（解码器，decoder）。
p(z): 潜在变量的先验分布，通常设为标准高斯分布 $\mathcal{N}(\mathbf{0}, \mathbf{I})$ 。

4.2.1.3. 损失函数分解

最大化 ELBO 等价于最小化负 ELBO。负 ELBO 可以被解释为重构损失和正则化损失之和： $\begin{array} { r l } & { \underset { \theta , \phi } { \operatorname* { m i n } } - \mathrm { E L B O } _ { ( o , a ) \sim \mathcal { D } } ( \theta , \phi ) = \underset { \theta , \phi } { \operatorname* { m i n } } \mathbf { L } ^ { \mathrm { r e c } } ( \theta ) + \mathbf { L } ^ { \mathrm { r e g } } ( \phi ) , } \\ & { \quad \quad \quad \quad \mathbf { L } ^ { \mathrm { r e c } } ( \theta ) = \mathbb { E } _ { z \sim q _ { \phi } ( \bullet \vert o , a ) } \big [ - \log p _ { \theta } ( o , a \vert z ) \big ] } \\ & { \quad \quad \quad \quad \mathbf { L } ^ { \mathrm { r e g } } ( \phi ) = \mathrm { D } _ { \mathrm { K L } } \big [ q _ { \phi } ( z \vert o , a ) \Vert p ( z ) \big ] . } \end{array}$ 其中：

$\mathbf{L}^{\mathrm{rec}}(\theta)$ : 重构损失 (reconstruction loss)。它鼓励解码器 $p_\theta(o,a|z)$ 从潜在变量 $z$ 中重构出原始的观测-动作对 (o,a)。
$\mathbf{L}^{\mathrm{reg}}(\phi)$ : 正则化损失 (regularization loss)，即 KL 散度项。它鼓励编码器 $q_\phi(z|o,a)$ 生成的潜在变量分布尽可能接近先验分布 p(z)，从而实现信息压缩并规范潜在空间。

在实际中，重构损失 $\mathbf{L}^{\mathrm{rec}}$ 通常通过蒙特卡洛 (MC) 估计来近似计算。如果假设 $p_\theta(o,a|z)$ 是一个具有均值 $\mu_\theta(z)$ 和方差 $\sigma^2$ 的高斯分布，则对数似然可以简化为： $\log p ( o , a | z _ { i } ) = - \frac { 1 } { 2 \sigma ^ { 2 } } \big \| ( o , a ) - \mu _ { \theta } ( z _ { i } ) \big \| _ { 2 } ^ { 2 } - \frac { d } { 2 } \log ( 2 \pi \sigma ^ { 2 } )$ 进而，重构损失 $\mathbf{L}^{\mathrm{rec}}$ 可以近似为均方误差 (Mean Squared Error, MSE)： $\mathbf { L } ^ { \mathrm { r e c } } \approx \frac { 1 } { n } \sum _ { i = 0 } ^ { n } \big \| ( o , a ) - \mu _ { \theta } ( z _ { i } ) \big \| _ { 2 } ^ { 2 }$
$n$ : MC 采样的样本数量。
$\mu_\theta(z_i)$ : 解码器（生成器）根据潜在变量 $z_i$ 预测的观测-动作对的均值。
$\|(o,a) - \mu_\theta(z_i)\|_2^2$ : 衡量重构质量的均方误差。

4.2.2. 扩散模型 (Diffusion Models, DMs)

扩散模型是另一类生成模型，它通过一个马尔可夫链式的潜在变量序列来近似数据分布。

4.2.2.1. 马尔可夫潜在变量模型

DMs 假设生成过程是通过一系列马尔可夫 (Markovian) 交互的潜在变量来分解的，将原始数据点 (o,a) 记为 $z_0$ ： $\begin{array} { c } { { \displaystyle p \big ( \underbrace { o , a } _ { = z _ { 0 } } \big ) = \int _ { \mathrm { s u p p } ( Z _ { 0 } ) } \int _ { \mathrm { s u p p } ( Z _ { 1 } ) } \cdot \cdot \cdot \int _ { \mathrm { s u p p } ( Z _ { T } ) } p \big ( z _ { 0 } , z _ { 1 } , \dots z _ { T } ) d z _ { 0 } \dots d z _ { T } } } \\ { { \displaystyle p \big ( z _ { 0 } , z _ { 1 } , \dots z _ { T } \big ) = p ( z _ { T } ) \prod _ { t = 1 } ^ { T } p ( z _ { t - 1 } | z _ { t } ) , } } \end{array}$ 其中：

$z_0$ : 原始数据点 (observation-action pair)。
$z_1, \dots, z_T$ : 逐级加噪后的潜在变量序列。
$p(z_0, \dots, z_T)$ : 整个潜在变量序列的联合概率。
$p(z_T)$ : 最终时间步 $T$ 的潜在变量的概率，通常设为简单的先验分布（如高斯分布）。
$\prod_{t=1}^T p(z_{t-1}|z_t)$ : 表示逆向生成过程，从高噪声状态逐步恢复低噪声状态的马尔可夫链。

下图（原文 Figure 23）展示了变分时序模型中的概率转移过程及其逆向推断分布，包含公式 $p_\theta$ 和 $q_\theta$ 的条件概率表示，描述了从潜在变量序列到观测数据的生成与推断关系。

$该图像是一个示意图，展示了变分时序模型中的概率转移过程及其逆向推断分布，包含公式$p_\\theta$和$q_\\theta$的条件概率表示，描述了从潜变量序列到观测数据的生成与推断关系。$ 该图像是一个示意图，展示了变分时序模型中的概率转移过程及其逆向推断分布，包含公式 $p_\theta$ 和 $q_\theta$ 的条件概率表示，描述了从潜变量序列到观测数据的生成与推断关系。

4.2.2.2. 对数似然的 ELBO (与 VAEs 类似但更复杂)

DMs 同样通过最大化对数似然的下界（ELBO）来训练。对于任意样本 $z_0$ ，其对数似然可以表示为：（此处原文提供的是一个复杂的积分和 KL 散度项的推导，为了清晰和忠实原文，我们直接给出最终的简化训练目标，因为它更具实践意义。原文中的公式 32-42 是一个长推导块，其核心是导出可优化的 ELBO 形式。）

4.2.2.3. 简化训练目标

DMs 的一个关键创新是引入了一个简化的训练目标，它不再直接优化复杂的 ELBO，而是训练一个噪声预测器 (noise predictor) $\epsilon_\theta$ 来预测在加噪过程中添加的噪声。这个简化的训练目标是： $\mathcal { L } ( \theta ) = \mathbb { E } _ { t , z _ { 0 } , \epsilon } \big [ \| \epsilon - \epsilon _ { \theta } \big ( \sqrt { \bar { \alpha } _ { t } } z _ { 0 } + \epsilon \sqrt { 1 - \bar { \alpha } _ { t } } , t \big ) \| ^ { 2 } \big ] , \quad t \sim \mathcal { U } ( \{ 1 , \dots , T \} ) , \quad z _ { 0 } \sim \mathcal { D } , \quad \epsilon \sim \mathcal { N } ( \mathbf { 0 } , \mathbf { I } ) .$ 其中：

$\mathcal{L}(\theta)$ : 损失函数，用于优化噪声预测器 $\epsilon_\theta$ 的参数 $\theta$ 。
$\mathbb{E}_{t, z_0, \epsilon}[\dots]$ : 对时间步 $t$ 、原始数据 $z_0$ 和噪声 $\epsilon$ 的期望。
- $t \sim \mathcal{U}(\{1, \dots, T\})$ : 时间步 $t$ 从离散均匀分布中采样。
- $z_0 \sim \mathcal{D}$ : 原始数据 $z_0$ 从数据集中采样。
- $\epsilon \sim \mathcal{N}(\mathbf{0}, \mathbf{I})$ : 随机采样的标准高斯噪声。
$\epsilon$ : 真实添加到数据中的噪声。
$\epsilon_\theta(\text{input}, t)$ : 噪声预测器 (noise predictor)，一个神经网络（通常是 U-Net），它接收加噪后的数据（表示为 $\sqrt{\bar{\alpha}_t} z_0 + \epsilon \sqrt{1 - \bar{\alpha}_t}$ ）和时间步 $t$ 作为输入，并预测添加到数据中的噪声。
$\sqrt{\bar{\alpha}_t} z_0 + \epsilon \sqrt{1 - \bar{\alpha}_t}$ : 在时间步 $t$ 时，由原始数据 $z_0$ 经过正向扩散过程加噪得到的样本。 $\bar{\alpha}_t$ 是扩散过程中的调度参数。
$\|\dots\|^2$ : 均方误差 (Mean Squared Error)，衡量预测噪声 $\epsilon_\theta$ 与真实噪声 $\epsilon$ 之间的差异。

这个目标函数的目标是让噪声预测器能够准确地从加噪数据中估计出噪声，从而在反向生成过程中实现去噪。

4.2.2.4. 采样过程 (去噪)

一旦训练好噪声预测器 $\epsilon_\theta$ ，就可以从随机噪声中生成新样本。如果假设 $p_\theta(z_{t-1}|z_t)$ 是高斯分布，则从 $z_t$ 采样 $z_{t-1}$ 的过程可以表示为： $z _ { t - 1 } = \frac { 1 } { \sqrt { \alpha _ { t } } } \Bigg ( z _ { t } - \frac { \beta _ { t } } { \sqrt { 1 - \bar { \alpha } _ { t } } } \epsilon _ { \theta } ( z _ { t } , t ) \Bigg ) + \sigma _ { t } \epsilon , \quad \epsilon \sim \mathcal { N } ( \mathbf { 0 } , \mathbf { I } ) ,$ 其中：

$z_{t-1}$ : 从 $z_t$ 去噪一步后的样本。
$\epsilon_\theta(z_t, t)$ : 噪声预测器预测的噪声。
$\alpha_t, \beta_t, \bar{\alpha}_t$ : 扩散过程中的调度参数。
$\sigma_t$ : 采样过程中的噪声方差。
这个公式表明，通过迭代地从高噪声变量 $z_t$ 中减去由噪声预测器估计的噪声项，可以逐步恢复到原始的低噪声数据 $z_0$ 。

下图（原文 Figure 24）展示了多时间步下机器人观测与动作示例、对应动作分布热图及得分场示意图，展示了行为克隆中状态动作联合分布随时间的变化及得分场向量场特征。

该图像是多时间步t=10,100,500,1000下机器人观测与动作示例、对应动作分布热图及得分场示意图，展示了行为克隆中状态动作联合分布随时间的变化及得分场向量场特征。

下图（原文 Figure 25）展示了观察值 $q_2$ 和动作值 $q_2^h$ 之间的二维概率分布。图中颜色深浅表示概率密度，说明两者存在强相关性，符合行为克隆中映射观测到动作的学习过程。

$该图像是一个图表，展示了观察值$q_2$和动作值$q_2^h$之间的二维概率分布。图中颜色深浅表示概率密度，说明两者存在强相关性，符合行为克隆中映射观测到动作的学习过程。$ 该图像是一个图表，展示了观察值 $q_2$ 和动作值 $q_2^h$ 之间的二维概率分布。图中颜色深浅表示概率密度，说明两者存在强相关性，符合行为克隆中映射观测到动作的学习过程。

4.2.3. 流匹配 (Flow Matching, FM)

流匹配是扩散模型的一种推广，它学习一个连续且确定性的流来转换分布。

4.2.3.1. 连续变换

FM 旨在学习一个确定性的、可微分的流 $\psi: [0, 1] \times \mathcal{Z} \mapsto \mathcal{Z}$ ，通过一个（可能与时间相关的）向量场 $v: [0, 1] \times \mathcal{Z} \mapsto \mathcal{Z}$ ，将样本从一个简单的先验分布 $p_0$ （例如标准高斯分布）传输到一个更复杂、通常未知的目标数据分布 $p_1$ 。流模型可以通过以下常微分方程 (Ordinary Differential Equation, ODE) 完全表征： $\begin{array} { c } { { \displaystyle { \frac { d } { d t } } \psi ( z , t ) = v ( t , \psi ( t , z ) ) , } } \\ { { \psi ( 0 , z ) = z . } } \end{array}$ 其中：

$\psi(z,t)$ : 表示从初始点 $z$ 开始，在时间 $t$ 时的流轨迹。
$v(t, \psi(t,z))$ : 表示在时间 $t$ 和点 $\psi(t,z)$ 处的向量场。
$\psi(0,z)=z$ : 初始条件，表示流从 $z$ 开始。在实践中，流模型学习通过估计一个与真实未知向量场 $u$ 匹配的向量场 $v$ ，从而使诱导流 $\psi$ 能够近似理想轨迹 $\psi^*$ 。

下图（原文 Figure 26）展示了两个二维分布随时间演化的图示，展示了概率密度和概率流场的变化过程。每列对应不同时间 $t$ ，其中概率密度用颜色深浅表示，概率流用白色箭头指示，刻画了分布从初始状态到演变的动态过程。

$该图像是两个二维分布随时间演化的图示，展示了概率密度和概率流场的变化过程。每列对应不同时间$t$，其中概率密度用颜色深浅表示，概率流用白色箭头指示，刻画了分布从初始状态到演变的动态过程。$ 该图像是两个二维分布随时间演化的图示，展示了概率密度和概率流场的变化过程。每列对应不同时间 $t$ ，其中概率密度用颜色深浅表示，概率流用白色箭头指示，刻画了分布从初始状态到演变的动态过程。

4.2.3.2. 与扩散模型的关系

Lipman et al. (2023) 证明，扩散模型可以被视为流匹配的一个特例，其中噪声预测器 $\epsilon_\theta$ 学习的中心向量场 $v$ 对应于： $u ( t , z | z _ { 0 } ) = \frac { \frac { d } { d t } \alpha ( 1 - t ) } { 1 - ( \alpha ( 1 - t ) ) ^ { 2 } } ( \alpha ( 1 - t ) z - z _ { 0 } ) , \quad \alpha ( t ) = e ^ { - \frac { 1 } { 2 } \int _ { 0 } ^ { t } \beta ( s ) d s } , \quad \forall z _ { 0 } \in \mathcal { D } .$

$u(t,z|z_0)$ : 条件向量场，不仅依赖于 $z$ 和时间 $t$ ，还依赖于辅助变量 $z_0$ 。
$\beta(s)$ : 离散时间噪声调度器 $\beta_t$ 的连续形式。

4.2.3.3. 训练目标

在条件流匹配 (Conditional Flow Matching, CFM) 中，通过在两个样本 $z_0 \sim p_0$ （来自先验）和 $z_1 \sim p_1$ （来自数据分布）之间定义一个简单的线性插值路径 $z_t = (1-t)z_0 + tz_1$ ，可以得到目标向量场 $u(t,z_t) = z_1 - z_0$ 。FM 模型可以通过一个简单的回归目标进行训练： $\mathcal { L } ( \theta ) = \mathbb { E } _ { t , z _ { 0 } , z _ { 1 } } \big [ \| v _ { \theta } ( ( 1 - t ) z _ { 0 } + t z _ { 1 } , t ) - ( z _ { 1 } - z _ { 0 } ) \| ^ { 2 } \big ] , \quad t \sim \mathcal { U } ( [ 0 , 1 ] ) ,$ 其中：

$v_\theta(z,t)$ : 学习到的向量场回归器，参数为 $\theta$ 。
$z_0 \sim p_0(\bullet)$ : 从简单先验分布 $p_0$ 中采样的样本。
$z_1 \sim p_1(\bullet)$ : 从目标数据分布 $p_1$ 中采样的样本。
$(1-t)z_0 + tz_1$ : $z_0$ 和 $z_1$ 之间的线性插值，表示时间 $t$ 时的样本。
$z_1 - z_0$ : 目标向量场，表示从 $z_0$ 到 $z_1$ 的方向。
$t \sim \mathcal{U}([0,1])$ : 时间 $t$ 从连续均匀分布中采样。

在推理时，通过从 $z_0 \sim p_0$ 开始，并根据学习到的向量场 $v_\theta(z_t, t)$ 迭代积分 ODE $\frac{dz}{dt} = v_\theta(z_t, t)$ 来生成样本。

4.3. 动作分块与Transformer (Action Chunking with Transformers, ACT)

ACT (Zhao et al., 2023) 提出了一种结合条件变分自编码器 (CVAE) 和 Transformer 架构的模仿学习方法，用于从纯离线示范中学习自主行为。

4.3.1. 核心思想

ACT 的灵感来源于人类在规划一系列动作 ( $a_{t:t+k}$ ) 而非单个动作 ( $a_t$ )。它通过建模动作块 (action chunks) 来处理多模态示范数据和在线序列预测中的误差累积问题。ACT 将 CVAE 用于建模策略分布 $p(a|o)$ ，并使用 Transformer 来处理序列数据。

4.3.2. 条件 VAE (CVAE) 目标函数

ACT 使用条件 VAE (CVAE) 来直接建模策略分布 $p(a|o)$ ，而不是完整的联合分布 p(o,a)。CVAE 的 ELBO 目标函数被修改为： $\mathrm { E L B O } _ { \mathcal { D } } ( \theta , \phi , \omega ) = \sum _ { i = 0 } ^ { N } \bigl ( \mathbb { E } _ { z \sim q _ { \phi } ( \cdot | o _ { i } , a _ { i } ) } \bigl [ \log p _ { \theta } ( a _ { i } | z , o _ { i } ) \bigr ] - \mathrm { D } _ { \mathrm { K L } } \bigl [ q _ { \phi } ( z | o _ { i } , a _ { i } ) \| p _ { \omega } ( z | o _ { i } ) \bigr ] \bigr )$ 其中：

$p_\theta(a_i|z,o_i)$ : 解码器 (decoder)，在给定潜在变量 $z$ 和观测 $o_i$ 的情况下生成动作 $a_i$ 。
$q_\phi(z|o_i,a_i)$ : 编码器 (encoder)，近似后验分布，在给定观测 $o_i$ 和动作 $a_i$ 的情况下推断潜在变量 $z$ 。
$p_\omega(z|o_i)$ : 条件先验 (conditional prior)，由参数 $\omega$ 建模，在给定观测 $o_i$ 的情况下定义潜在变量 $z$ 的先验分布。
与标准 VAE (eq. 26) 相比，这里多了一个参数 $\omega$ 来学习条件先验 $p_\omega(z|o_i)$ ，使得潜在空间能够更好地适应不同的观测条件。 ACT 还被训练为 $\beta$ -CVAE (Higgins et al., 2017)，通过超参数 $\beta \in \mathbb{R}^+$ 来调节 KL 正则化项的权重，从而控制潜在空间的信息压缩程度（ $\beta$ 越高，潜在空间表达能力越低）。

4.3.3. 训练与推理细节

训练：
- 模型学习预测动作块 $a_{t:t+H_a}$ 。
- CVAE 的编码器 $q_\phi(z|o,a)$ 在训练时用于采样潜在变量 $z$ ，但为了效率，它可能只使用本体感知状态 (proprioperceptive states) 来形成 $o$ ，而忽略图像观测。
推理：
- 为了策略评估的确定性，ACT 在测试时直接使用 $z=0$ 作为潜在变量，因为训练中条件先验 $p_\omega(z|o)$ 被设置为标准高斯分布。
- 观测 $o$ （包括本体感知和视觉信息）显式地输入到解码器 $p_\theta(a|z,o)$ 中进行条件化。
- 为了减少开环控制 (open-loop control)，ACT 在每个时间步进行推理，并使用指数移动平均 (EMA) 在重叠的动作块部分进行聚合，以平滑动作。
  
  下图（原文 Figure 28）展示了 ACT 中使用的 CVAE 编码器。输入动作块首先被嵌入并与位置编码聚合，然后输入 Transformer 编码器以聚合输入层级信息并预测风格变量 $z$ 。编码器仅用于训练解码器，在推理时完全被忽略。
  
  该图像是包含图表和实验装置照片的复合图，左侧图表展示了策略执行与专家示范的wrist roll轨迹对比，右侧图像为标注两种抓取模式的机器人手爪特写。

下图（原文 Figure 29）展示了 ACT 中使用的 CVAE 解码器结构，包含完整的编码器-解码器 Transformer 架构。多视角相机图像通过预训练视觉编码器嵌入，并结合位置嵌入后，与来自 CVAE 编码器的状态嵌入和风格变量 $z^*$ 一起输入 Transformer 推理。编码器与解码器共享矩阵 K, V，用于解码固定位置嵌入为动作序列。

$该图像是图表，展示了机器人手部在“拾取积木”和“推动积木”两种操作任务中的概率分布情况。左图对应任务A，右图对应任务B，图中以$q_6$表征动作概率的高低变化，体现了行为克隆模型对不同任务动作预测的区分能力。$ 该图像是图表，展示了机器人手部在“拾取积木”和“推动积木”两种操作任务中的概率分布情况。左图对应任务A，右图对应任务B，图中以 $q_6$ 表征动作概率的高低变化，体现了行为克隆模型对不同任务动作预测的区分能力。

下图（原文 Figure 30）是示意图，展示了结合 Transformer 的动作分块方法。左侧为动作执行对比，展示单步动作与动作分块的区别；中间为模型框架图，包含 CVAE 编码器、Transformer 编码器与解码器的结构及交叉注意力机制；右侧为相关概率分布的公式表达，涉及 $q_{\phi}(z|o,a)$ 、 $p_{\omega}(z|o)$ 及 $p_{\theta}(a|z,o)$ 。

Figure22 | (A) The latent variable model in a robotics application regulates influence between observed `( o , a )` variables and ausevabte bixacte bmode mn va 该图像是示意图，展示了图22中基于潜变量模型的机器人模仿学习框架。其通过学习隐含变量 $z$ 来调节观察动作对 (o, a) 的影响，包含公式 $p(o,a|z)$ 和 $q(z|o,a)$ ，并展示了对应的编码器和解码器结构。

4.3.4. 代码示例：训练与使用 ACT

代码 7: 训练 ACT (链接: https://github.com/fracapuano/robot-learning-tutorial/snippets/ch4/01_training_act.py) 该代码片段展示了 ACT 模型的训练流程。

初始化配置： ACTConfig 定义了输入（观测）和输出（动作）特征，并配置模型。
数据加载： LeRobotDataset 加载数据集，并通过 make_delta_timestamps 处理时间戳，以支持动作分块。
模型与优化器： ACTPolicy 实例化模型，并使用 cfg.get_optimizer_preset().build 构建优化器。
训练循环： 在循环中，数据经过预处理器 preprocessor 处理，然后输入 policy.forward(batch) 计算损失。损失通过 loss.backward() 反向传播，optimizer.step() 更新模型参数，optimizer.zero_grad() 清除梯度。
保存与推送： 训练完成后，模型、预处理器和后处理器被保存到本地目录，并可推送到 Hugging Face Hub。

代码 8: 使用 ACT (链接: https://github.com/fracapuano/robot-learning-tutorial/snippets/ch4/02_using_act.py) 该代码片段展示了 ACT 模型的推理与实际机器人控制流程。
加载模型： ACTPolicy.from_pretrained(model_id) 从预训练模型 ID 加载策略模型。
配置机器人与相机： OpenCVCameraConfig 和 S0100FollowerConfig 配置相机和机器人连接。
连接机器人： robot.connect() 建立与机器人的连接。
控制循环： 在每个时间步：
- robot.get_observation() 获取当前观测。
- build_inference_frame 构建推理帧，并经过 preprocess 处理。
- model.select_action(obs) 使用模型选择动作。
- postprocess 处理模型输出，make_robot_action 转换为机器人可执行的动作格式。
- robot.send_action(action) 将动作发送给机器人执行。

4.4. 扩散策略 (Diffusion Policy, DP)

扩散策略 (Chi et al., 2024) 将扩散模型应用于机器人模仿学习，同样预测一系列未来动作（动作块）。

4.4.1. 核心思想

DP 的核心思想是利用扩散模型强大的生成能力来建模条件动作分布 $p(a|o)$ 。与 ACT 类似，DP 也预测多个动作块，而不是单个动作。DP 之所以选择建模条件分布 $p(a|o)$ 而非完整的联合分布 p(o,a)，部分原因在于观测边缘分布 $p_\theta(o)$ 的难以处理性，以及在测试时扩散过程的计算负担（机器人控制更关注生成动作而非重构观测）。

4.4.2. 条件扩散目标函数

DP 通过条件化观测数据来预测动作块。噪声预测器 $\epsilon_\theta$ (在 eq. 44 中介绍) 被修改为以堆叠的 $H_o$ 个先前观测作为条件，从而得到条件化的简化扩散目标： $\begin{array} { r l } & { \mathcal { L } ( \theta ) = \mathbb { E } _ { t , a _ { t : t + H _ { a } } , \epsilon } \bigl [ | | \epsilon - \epsilon _ { \theta } \bigl ( \sqrt { \bar { \alpha } _ { t } } a _ { t : t + H _ { a } } + \epsilon \sqrt { 1 - \bar { \alpha } _ { t } } , t , o _ { t - H _ { o } : t } \bigr ) | | ^ { 2 } \bigr ] , } \\ & { \quad \quad \quad t \sim \mathcal { U } ( \{ 1 , \dots , T \} ) , \quad a _ { t : t + H _ { a } } , o _ { t - H _ { o } : t } \sim \mathcal { D } , \quad \epsilon \sim \mathcal { N } ( \mathbf { 0 } , \mathbf { I } ) . } \end{array}$ 其中：

$\mathcal{L}(\theta)$ : 损失函数，用于优化噪声预测器 $\epsilon_\theta$ 的参数 $\theta$ 。
$\mathbb{E}_{t, a_{t:t+H_a}, \epsilon}[\dots]$ : 对时间步 $t$ 、动作块 $a_{t:t+H_a}$ 和噪声 $\epsilon$ 的期望。
- $t \sim \mathcal{U}(\{1, \dots, T\})$ : 时间步 $t$ 从离散均匀分布中采样。
- $a_{t:t+H_a}, o_{t-H_o:t} \sim \mathcal{D}$ : 动作块和观测序列从数据集中采样。
- $\epsilon \sim \mathcal{N}(\mathbf{0}, \mathbf{I})$ : 随机采样的标准高斯噪声。
$\epsilon$ : 真实添加到动作块中的噪声。
$\epsilon_\theta(\text{input}, t, o_{t-H_o:t})$ : 噪声预测器，它接收加噪后的动作块、时间步 $t$ 以及一个堆叠的 $H_o$ 个先前观测 $o_{t-H_o:t}$ 作为输入，并预测添加的噪声。
$\sqrt{\bar{\alpha}_t} a_{t:t+H_a} + \epsilon \sqrt{1 - \bar{\alpha}_t}$ : 在时间步 $t$ 时，由原始动作块加噪得到的样本。
$\|\dots\|^2$ : 均方误差。

这个目标函数的核心在于，噪声预测器不仅学习从噪声动作中恢复原始动作，还学习根据历史观测信息来进行这种恢复，从而实现条件动作生成。Chi et al. (2024) 认为，结合了过去观测历史的条件化对于良好的性能和避免犹豫不决至关重要。

4.4.3. 架构与推理

下图（原文 Figure 31）展示了 Diffusion Policy 的架构，如 Chi 等（2024）所述。它使用栈状的 $H_o$ 个前序观测作为外部条件，去噪一组 $H_a$ 个动作。条件注入发生在 U-Net 的每一层，经过 $T$ 步去噪后，获得完整的动作组。

$该图像是一个示意图，展示了变分时序模型中的概率转移过程及其逆向推断分布，包含公式$p_\\theta$和$q_\\theta$的条件概率表示，描述了从潜变量序列到观测数据的生成与推断关系。$ 该图像是一个示意图，展示了变分时序模型中的概率转移过程及其逆向推断分布，包含公式 $p_\theta$ 和 $q_\theta$ 的条件概率表示，描述了从潜变量序列到观测数据的生成与推断关系。

架构： DP 通常使用 U-Net (Ronneberger et al., 2015) 作为噪声预测器 $\epsilon_\theta$ 的骨干网络。图像观测和本体感知信息首先被嵌入到高维空间，然后与动作嵌入一起聚合。观测条件信息在 U-Net 的每一层都被注入。
推理： 在推理时，模型从一个随机噪声的动作块开始，使用训练好的噪声预测器迭代地从动作块中减去预测的噪声，重复 $T$ 次（例如 $T=10$ 步），最终得到一个去噪后的动作块 $a_{t:t+H_a}$ 。

4.4.4. 代码示例：训练与使用 Diffusion Policy

代码 9: 训练 Diffusion Policy (链接: https://github.com/fracapuano/robot-learning-tutorial/blob/main/snippets/ch4/03_training_diffusion.py) 该代码片段展示了 Diffusion Policy 模型的训练流程，与 ACT 的训练流程非常相似。

初始化配置： DiffusionConfig 定义了输入（观测）和输出（动作）特征。
数据加载： LeRobotDataset 加载数据集，make_delta_timestamps 处理时间戳，以支持动作块的预测和观测历史的堆叠。
模型与优化器： DiffusionPolicy 实例化模型，并使用 cfg.get_optimizer_preset().build 构建优化器。
训练循环： 循环过程与 ACT 类似，经过预处理、前向传播、损失计算、反向传播、参数更新和梯度清零。
保存与推送： 训练完成后，模型、预处理器和后处理器被保存并可推送到 Hugging Face Hub。

代码 10: 使用 Diffusion Policy (链接: https://github.com/fracapuano/robot-learning-tutorial/blob/main/snippets/ch4/04_using_diffusion.py) 该代码片段展示了 Diffusion Policy 模型的推理与实际机器人控制流程，与 ACT 的使用流程也非常相似。
加载模型： DiffusionPolicy.from_pretrained(model_id) 从预训练模型 ID 加载策略模型。
配置机器人与相机： 与 ACT 相同。
连接机器人： 与 ACT 相同。
控制循环： 在每个时间步：
- robot.get_observation() 获取当前观测。
- build_inference_frame 构建推理帧，并经过 preprocess 处理。
- model.select_action(obs) 使用模型选择动作。
- postprocess 处理模型输出，make_robot_action 转换为机器人可执行的动作格式。
- robot.send_action(action) 将动作发送给机器人执行。

4.5. 优化推理 (Optimized Inference)

为了在真实世界的机器人硬件上高效部署行为克隆策略，尤其是在使用动作块预测时，优化推理过程至关重要。

4.5.1. 挑战

现代视觉运动策略 (visuomotor policies) 输出的是动作块 $\mathbf{A}_t = (a_t, a_{t+1}, \ldots, a_{t+H_a})$ ，其中包含 $H_a \gg 1$ 个低级命令。

开环控制： 如果机器人执行完整个动作块 $\mathbf{A}_t$ 后才获取新的观测 $o_{t+H_a}$ 并预测下一个动作块，这将导致在 $H_a$ 个时间步内进行开环控制，策略无法对环境变化做出及时响应。
同步推理： 如果每个时间步 $t$ 都获取新观测 $o_t$ 并预测新动作块 $\mathbf{A}_t$ ，然后聚合重叠部分，这虽然能提高响应性，但计算资源密集，尤其是在资源受限的机器人上可能导致延迟。

4.5.2. 异步推理 (Asynchronous Inference)

异步推理的核心思想是将动作块的预测（通常在计算能力更强的服务器上进行）与动作的执行（在机器人客户端上）解耦，以应对推理延迟和计算资源限制。

异步推理控制循环算法 (Algorithm 1):

输入： 预测视野 $T$ （可能指扩散/流匹配的时间步数），动作块大小 $H_a$ ，阈值 $g \in [0, 1]$ 。
初始化： 捕获初始观测 $o_0$ ；将 $o_0$ 发送到策略服务器 (POLICYSERVER)；接收初始动作块 $\mathbf{A}_0 \gets \pi(o_0)$ 。
循环 for $t$ to $H_a$ do：
- $a_t \gets \mathrm{PoPFRONT}(\mathbf{A}_t)$ ：从当前动作队列 $\mathbf{A}_t$ 的前端取出下一个动作 $a_t$ 。
- $\mathrm{EXECUTE}(a_t)$ ：执行动作 $a_t$ 。
- 如果动作队列快耗尽： if\frac{|\mathbf{A}_t|}{H_a} < gthen (队列中的动作数量低于阈值 $g$ $g$ 比例时)。
  - 捕获新的观测 $o_{t+1}$ 。
  - 如果需要处理： if NeedSProcessing(o_{t+1})then (可选的相似性过滤器，或触发直接处理)。
    - async_handle\getsAsyncInfeR(o_{t+1})

：触发新的动作块预测（非阻塞操作），将  $o_{t+1}$  发送给策略服务器。
            *

\bar{\mathbf{A}}{t+1}^* \gets \pi(o{t+1}) $\text{：策略服务器预测新的动作块} $\bar{\mathbf{A}}_{t+1}^*$\text{。} *$ \mathbf{A}_{t+1} \gets f(\mathbf{A}t, \tilde{\mathbf{A}}{t+1})

：新的动作队列通过聚合当前队列  $\mathbf{A}_t$  和服务器返回的新的预测动作块  $\tilde{\mathbf{A}}_{t+1}$ （可能进行重叠聚合）来更新。
        *   `end if`
    *   `end if`
    *   **如果异步推理未完成：** `if NoTCoMPLETED(async_handle) then`
        *

\mathbf{A}_{t+1} \gets \mathbf{A}_t

: 动作队列不更新（因为推理仍在进行中）。
    *   `end if`
4.  `end for`

    其中：
*    $H_a$ : 动作块的大小。
*    $g$ : 动作队列大小的阈值。当剩余动作占总动作块大小的比例低于  $g$  时，触发新的推理请求。
*    $\mathrm{PoPFRONT}(\mathbf{A}_t)$ : 从动作队列前端取出动作。
*    $\mathrm{EXECUTE}(a_t)$ : 执行机器人动作。
*    $\mathrm{AsyncInfeR}(\cdot)$ : 异步地向策略服务器发送观测并请求新的动作块。
*    $f(\cdot, \cdot)$ : 聚合函数，用于合并旧动作块和新预测的动作块，通常处理重叠部分以平滑过渡。
*   **相似性过滤：** `NeedSProcessing` 是一个可选机制，用于避免重复处理近乎相同的观测。如果两个观测在联合空间中的距离低于预设阈值  $d_{\mathrm{lim}}$ ，则认为它们是近乎重复的。

### 4.5.3. 行为分析与延迟
*   **推理延迟  $\ell$ ：** 收到动作块  $\mathbf{A}$  所需的时间，包括客户端到服务器发送观测时间  $t_{C \to S}$ 、策略服务器推理延迟  $\ell_S$ 、服务器到客户端发送  $\mathbf{A}$  时间  $t_{S \to C}$ 。通常近似为  $\mathbb{E}[\ell] \simeq \mathbb{E}[\ell_S]$ 。
*   **控制周期  $\Delta t$ ：** 环境的控制周期（例如 30 fps 对应  $\Delta t = 33 \mathrm{ms}$ ）。
*   **避免队列耗尽：** 为了避免机器人因等待新动作块而空闲，阈值  $g$  必须满足  $\begin{array} { r } { g \ge \frac { \mathbb { E } [ \ell _ { S } ] / \Delta t } { H _ { a } } } \end{array}$ 。这意味着  $g$  越大，客户端在队列中动作较多时就会提前请求新动作块，从而减少空闲时间。

    下图（原文 Figure 33）展示了不同  $g$  值下，运行时动作队列大小随推理时间步长的变化，分为 (A) 无观察过滤和 (B) 有观察过滤两种情况，反映了过滤观察对队列大小的影响。

    ![该图像是一个图表，展示了观察值 $q_2$ 和动作值 $q_2^h$ 之间的二维概率分布。图中颜色深浅表示概率密度，说明两者存在强相关性，符合行为克隆中映射观测到动作的学习过程。](/files/papers/6907680a971e575bdfc172d9/images/8.jpg)
    *该图像是一个图表，展示了观察值 $q_2$ 和动作值 $q_2^h$ 之间的二维概率分布。图中颜色深浅表示概率密度，说明两者存在强相关性，符合行为克隆中映射观测到动作的学习过程。*

*   ** $g=0$  (顺序限制)：** 客户端耗尽整个动作块后才请求新观测。这会导致机器人空闲  $\mathbb{E}[\ell_S]$  秒，重现了完全顺序部署的行为。
*   ** $g \in (0, 1)$  (异步推理)：** 客户端在消耗掉一部分（`1-g` 比例）动作块后即触发新推理。这能在计算资源和响应性之间取得平衡，避免空闲同时又不像  $g=1$  那样频繁计算。
*   ** $g=1$  (同步推理限制)：** 每个时间步都发送观测进行推理。队列几乎总是满的，但计算成本最高。

### 4.5.4. 代码示例：使用异步推理

代码 11: 启动远程服务器 (链接: `https://github.com/fracapuano/robot-learning-tutorial/blob/main/snippets/ch4/05_policy_server.py`)
该代码片段展示了如何启动一个策略服务器 (`PolicyServer`)，它监听来自机器人客户端的请求，并执行策略推理。
1.  **配置服务器：** `PolicyServerConfig` 定义了服务器的主机地址和端口。
2.  **启动服务器：** `serve(config)` 启动策略服务器。

    代码 12: 连接机器人客户端 (链接: `https://github.com/fracapuano/robot-learning-tutorial/blob/main/snippets/ch4/06_robot_client.py`)
该代码片段展示了如何连接机器人客户端并与策略服务器进行异步交互。
1.  **配置相机与机器人：** `OpenCVCameraConfig` 和 `S0100FollowerConfig` 配置机器人硬件。
2.  **配置客户端：** `RobotClientConfig` 定义了机器人配置、策略服务器地址、策略设备、策略类型、预训练模型路径、`chunk_size_threshold` ( $g$ ) 和 `actions_per_chunk`。
3.  **创建与启动客户端：** `RobotClient(client_cfg)` 创建客户端实例，`client.start()` 启动。
4.  **启动动作接收线程：** `threading.Thread(target=client.receive_actions, daemon=True)` 启动一个独立线程来异步接收服务器返回的动作块。
5.  **控制循环：** `client.control_loop(task)` 执行实际的机器人控制。在这个循环中，客户端根据 `chunk_size_threshold` 动态地向服务器请求新的动作块，并执行当前队列中的动作。
6.  **可视化：** `visualize_action_queue_size` (可选) 可用于绘制动作队列大小随时间的变化，以分析异步推理的行为。

## 4.6. 通用机器人策略 (Generalist Robot Policies)
通用机器人策略旨在开发能够跨实体 (embodiment) 和任务操作的机器人策略，利用大规模数据和先进的视觉语言模型。

### 4.6.1. 背景与动机
传统机器人学习方法通常是任务特定和实体特定的，导致数据收集和模型训练成本高昂。受自然语言处理 (NLP) 和计算机视觉 (CV) 领域大模型成功的启发，机器人学界开始寻求开发通用机器人策略，能够通过更少的监督甚至零样本学习来泛化到新场景。

### 4.6.2. 视觉语言动作模型 (Vision-Language-Action, VLA)
VLA 模型将视觉语言模型 (VLM) 作为核心组件，实现对视觉观测和语言指令的理解，并结合动作生成机制来控制机器人。

#### 4.6.2.1. VLM 在 VLA 中的作用
*   **多模态处理：** VLMs 能够同时处理图像和文本输入，提取高级语义特征，从而使机器人能够理解复杂的语言指令并将其与视觉信息关联起来。
*   **世界知识：** 预训练的 VLMs 蕴含了丰富的世界知识（关于物体、属性和关系），无需显式监督即可应用于机器人任务。
*   **泛化能力：** 整合 VLMs 作为 VLA 的感知主干网络，可以提高机器人策略对新场景和未见过任务的泛化能力。

#### 4.6.2.2.  $π0$  架构 (Black et al., 2024)
 $π0$  是一种通用 VLA 模型，它结合了一个大规模 VLM 主干网络和一个专门的动作专家，并使用流匹配进行训练。
*   **统一 Transformer 架构：**  $π0$  采用单个统一的 Transformer 模型，但内部包含两组分离的权重  $\phi, \theta$ 。
*   **VLM 主干网络 ( $f_\phi$ )：** 基于 Gemma 2.6B (Team et al., 2024) 初始化，处理来自多个相机视角的图像帧  $[\{I_t\}_{t=1}^n]$  和语言指令  $[\ell_t]$ 。
*   **动作专家 ( $v_\theta$ )：** 包含 300M 参数的 Transformer 架构，处理机器人本体感知状态  $q_t$  和动作块  $a_{t:t+H_a}$ 。
*   **注意力掩码 (Attention Mask)：**  $π0$  使用块式因果注意力掩码 (blockwise causal attention mask) 来控制不同词元（图像/语言、本体感知、动作）之间的信息流。

{ \begin{array} { r l } { { \mathcal { T } } _ { i } \quad { \mathcal { T } } _ { q } \quad { \mathcal { T } } _ { a } } & { } \ { \quad { \mathcal { T } } _ { i } \left( { \begin{array} { l l l } { 1 } & { 0 } & { 0 } \ { 1 } & { 1 } & { 0 } \ { 1 } & { 1 } & { 1 } } \right) , \quad 1 : { \mathrm { B i d i r e c t i o n a l ~ A t t e n t i o n } } , \ 0 : { \mathrm { M a s k e d ~ A t t e n t i o n } } } \end{array} } $* $\mathcal{T}_i$: \text{图像和语言词元。} * $\mathcal{T}_q$: \text{本体感知词元。} * $\mathcal{T}_a$: \text{动作词元。} * \text{这个掩码确保图像}-\text{语言词元可以互相看到，本体感知词元可以看到图像}-\text{语言词元和自身，而动作词元可以看到所有先前的词元（图像}-\text{语言、本体感知和先前的动作词元）。} * **\text{流匹配损失：}** $π0$ \text{使用流匹配损失函数进行训练，同时更新} VLM \text{主干网络和动作专家参数。}$ \begin{array} { r l } & { \mathcal { L } ( \phi , \theta ) = \mathbb { E } _ { \tau , \epsilon , o _ { t } , a _ { t : t + H _ { a } } } \left[ \left| v _ { \theta } ( \underbrace { \tau a _ { t : t + H _ { a } } + ( 1 - \tau ) \epsilon } _ { \tilde { a } _ { t : t + H _ { a } } } , o _ { t } , \tau ) - ( \epsilon - a _ { t : t + H _ { a } } ) \right| ^ { 2 } \right] , } \ & { ~ \tau \sim \mathrm { Beta } _ { [ 0 ,s ] } ( 1 . 5 , 1 ) , ~ \epsilon \sim \mathcal { N } ( \mathbf { 0 } , \mathbf { I } ) , ~ o _ { t } , a _ { t : t + H _ { a } } \sim \mathcal { D } } \end{array}

*    $v_\theta$ : 动作专家学习到的向量场，参数为  $\theta$ 。
    *    $\phi$ : VLM 主干网络的参数。
    *    $\tau$ : 时间步长，从 Beta 分布  $\mathrm{Beta}_{[0,s]}(1.5,1)$  中采样，而不是均匀分布，这强调了训练中较高的噪声水平。
    *    $\tilde{a}_{t:t+H_a}$ : 噪声化的动作块。
    *    $\epsilon - a_{t:t+H_a}$ : 目标向量场。
*   **数据：**  $π0$  在一个名为 " $\pi$ " 的大型数据集上预训练，该数据集包含 10M+ 轨迹，混合了专有数据和 Open-X、DROID 等开放数据集。
*   **跨实体能力：** 通过在数据集中包含大规模跨实体数据， $π0$  能够控制不同类型的机器人（如移动和静态机械手），通过最大配置大小的动作输出并对不足自由度的机器人进行零填充来实现。

    下图（原文 Figure 37）展示了如 Black 等人（2024）提出的  $\pi_0$  架构。视觉和语言嵌入经过 VLM Backbone 处理，再由动作专家  $p_\theta(a_{t:t+H_a}|o_t)$  生成动作序列。

    ![该图像是示意图，展示了结合变换器（Transformer）的动作分块（Action Chunking）方法。左侧为动作执行对比，展示单步动作与动作分块的区别；中间为模型框架图，包含CVAE编码器、Transformer编码器与解码器的结构及交叉注意力机制；右侧为相关概率分布的公式表达，涉及 $q_{\\phi}(z|o,a)$ 、 $p_{\\omega}(z|o)$ 及 $p_{\\theta}(a|z,o)…](/files/papers/6907680a971e575bdfc172d9/images/13.jpg) *该图像是示意图，展示了结合变换器（Transformer）的动作分块（Action Chunking）方法。左侧为动作执行对比，展示单步动作与动作分块的区别；中间为模型框架图，包含CVAE编码器、Transformer编码器与解码器的结构及交叉注意力机制；右侧为相关概率分布的公式表达，涉及$ q_{\phi}(z|o,a) $、$ p_{\omega}(z|o) $及$ p_{\theta}(a|z,o) $。* 下图（原文 Figure 38）展示了$ \pi_0 $使用的 Beta 分布采样时间步$ \tau $，而非传统的均匀分布，偏向于更早的时间戳，对应更嘈杂的动作块。 ![Figure 31 | The Diffusion Policy archicture, as in Chi et al. (2024). A stack of `H _ { o }` previous observations is used as external conditioning to denoise a group of `H _ { a }` actions. Conditio…](/files/papers/6907680a971e575bdfc172d9/images/14.jpg) *该图像是一个示意图，展示了Diffusion Policy的架构，如Chi等（2024）所述。它使用栈状的$ H_o $个前序观测作为外部条件，去噪一组$ H_a $个动作。条件注入发生在U-Net的每一层，经过$ T $步去噪后，获得完整的动作组。* #### 4.6.2.3. `SmolVLA` 架构 (Shukor et al., 2025) `SmolVLA` 是一个开源研究项目，旨在提供更紧凑、计算高效的 VLA 设计，并利用社区贡献的数据集。 * **MoE 架构：** 同样采用混合专家 (Mixture of Experts, MoE) 架构，结合预训练 VLM 主干网络和专用动作专家。 * **紧凑设计：** 使用 `SmolVLM-2` (Marafoti et al., 2025) 作为 VLM 主干网络（基于 SigLIP 和 SmolLM2），并采用更小的动作专家（约 100M 参数），总参数量约为 450M，远小于$ π0 $的 3.3B 参数。 * **输入：** 多视角 RGB 图像、自然语言指令、投射的本体感知状态词元和噪声化的动作块。 * **注意力机制：** 动作专家交错使用交叉注意力 (CA) 和自注意力 (SA) 层，SA 层处理动作词元，CA 层使用动作词元作为查询 (query)，从 VLM 主干网络投影的视觉和本体感知词元中获取键 (key) 和值 (value)。与$ π0 $不同，`SmolVLA` 不使用块式因果注意力掩码，而是简单的因果掩码。 * **计算优化：** * **视觉词元：** 通过像素混洗 (pixel shuffling) 将视觉词元数量减少到每帧 64 个。 * **VLM 层：** 跳过 VLM 上层，只使用前$ N=L/2 $个解码器层的特征，以减半 VLM 的计算需求。 * **数据：** `SmolVLA` 专门在 450 多个社区数据集中预训练，共计 20k+ 轨迹。它处理社区数据集中可能存在的噪声或缺失指令，并标准化视角。 下图（原文 Figure 39）展示了 SmolVLA 架构，如 Shukor et al. (2025) 所述。SmolVLA 是一个紧凑的 MoE 模型，使用流匹配进行训练。动作专家重复使用 VLM 主干网络输出的语言词元作为查询，从而比$ \pi_0 $(450M 参数 vs.$ \pi_0 $的 3.3B) 节省了 7 倍的内存使用。 ![该图像是一个示意图，展示了机器人模仿学习中一个多模态视觉语言模型（VLM）的结构，包含图像嵌入、语言嵌入、自注意力和交叉注意力模块，以及动作专家模块的详细流程。](/files/papers/6907680a971e575bdfc172d9/images/22.jpg) *该图像是一个示意图，展示了机器人模仿学习中一个多模态视觉语言模型（VLM）的结构，包含图像嵌入、语言嵌入、自注意力和交叉注意力模块，以及动作专家模块的详细流程。* ### 4.6.3. 代码示例：使用$ π0 $和 `SmolVLA` 代码 13: 使用$ π0 $(链接: `https://github.com/fracapuano/robot-learning-tutorial/blob/main/snippets/ch5/01_using_pi0.py`) 该代码片段展示了$ π0 $模型的推理与实际机器人控制流程。 1. **加载模型：** `PI0Policy.from_pretrained(model_id)` 从预训练模型 ID 加载$ π0 $策略模型。 2. **配置机器人与相机：** `camera_config` 定义了三个相机（$ base_0_rgb $,$ left_wrist_0_rgb $,$ right_wrist_0_rgb $），并配置 `S0100FollowerConfig`。 3. **连接机器人：** `robot.connect()`。 4. **控制循环：** 在循环中，获取观测 `obs`，构建推理帧 `obs_frame`（包含任务 `task` 和机器人类型 `robot_type`），进行预处理 `preprocess`。 5. **动作选择与执行：** `model.select_action(obs)` 选择动作，`postprocess` 和 `make_robot_action` 转换为机器人动作，`robot.send_action(action)` 发送执行。 代码 14: 使用 `SmolVLA` (链接: `https://github.com/fracapuano/robot-learning-tutorial/blob/main/snippets/ch5/02_using_smolvla.py`) 该代码片段展示了 `SmolVLA` 模型的推理与实际机器人控制流程，与$ π0 $类似。 1. **加载模型：** `SmolVLAPolicy.from_pretrained(model_id)` 从预训练模型 ID 加载 `SmolVLA` 策略模型。 2. **配置机器人与相机：** `camera_config` 定义了相机，并配置 `S0100FollowerConfig`。 3. **连接机器人：** `robot.connect()`。 4. **控制循环：** 循环过程与$ π0 $类似，获取观测、构建推理帧（包含任务 `task` 和机器人类型 `robot_type`）、进行预处理。 5. **动作选择与执行：** `model.select_action(obs)` 选择动作，`postprocess` 和 `make_robot_action` 转换为机器人动作，`robot.send_action(action)` 发送执行。 # 5. 实验设置 本节将概述论文中涉及的实验设置，包括使用的数据集、评估指标（尽管原文未提供具体公式，但会对其含义进行解释）以及对比基线模型。 ## 5.1. 数据集 论文中提到了多种用于训练和评估机器人模仿学习模型的数据集，这些数据集涵盖了从单一任务到大规模多任务、多实体的不同场景。 ### 5.1.1. 示范数据集的通用特性 * **离线 (Offline)：** 所有数据集都包含预先收集的专家示范轨迹，无需在线交互。 * **无奖励 (Reward-Free)：** 数据集中不包含奖励信息，完全依赖观测-动作对来学习。 * **长度可变 (Variable Length)：** 轨迹长度可能不同，反映了专家可能采用多模态策略来完成同一目标。 * **多模态策略 (Multimodal Strategies)：** 针对同一目标，数据中可能包含多种不同的行为方式，这是生成模型需要解决的核心挑战。 ### 5.1.2. 具体数据集（或相关概念） 1. **`lerobot/svla_so101_pickplace`：** 在 ACT 和 Diffusion Policy 的代码示例中被引用，表明这是一个用于抓取放置任务的基准数据集，可能包含视觉和本体感知信息。 2. **ALOHA (A Low-cost Open-source Hardware for Bimanual Teleoperation)：** ACT (Zhao et al., 2023) 中提到的一个双臂遥操作硬件，其数据可能被用于训练 ACT。它强调低成本和易于组装，旨在提高机器人学习的可及性。 3. **Open-X 数据集 (Open-X dataset)：** 一个大规模、多实体、多任务的开放数据集，由多个机构协作贡献。在 VLAs 的背景下，`OpenVLA` 和$ π0 $等模型都利用了 `Open-X` 数据集，包含 970k+ 轨迹。 4. **分布式机器人交互数据集 (Distributed Robot Interaction Dataset, DROID)：**$ π0 $和 `SmolVLA` 使用的另一个开放数据集，强调在模拟环境中收集的大规模交互数据。 5. **$ π $数据集 (The$ π $dataset)：** 由 Black et al. (2024) 用于训练$ π0 $模型，被宣称是迄今为止用于开发基础机器人模型的最大数据集，包含 10M+ 轨迹。它混合了专有数据和开放数据集（如 `Open-X` 和 `DROID`），其中约 9.1% 的数据是公开可用的。 6. **社区数据集 (Community Datasets)：** `SmolVLA` (Shukor et al., 2025) 专门在 450+ 个社区数据集上进行预训练，总计 20k+ 轨迹。这些数据集通常来自可访问的机器人平台，由个体研究者和实践者贡献，可能包含噪声或缺失指令，需要进行处理（如任务重新标注、视角标准化）。 下图（原文 Figure 34）展示了计算机视觉/自然语言处理领域与机器人领域中两种不同的数据集和模型架构策略：大规模公开数据集配合可扩展架构实现零样本任务泛化，小规模特定任务数据结合小型专用架构实现特定任务模型。 ![该图像是两个二维分布随时间演化的图示，展示了概率密度和概率流场的变化过程。每列对应不同时间$ t $，其中概率密度用颜色深浅表示，概率流用白色箭头指示，刻画了分布从初始状态到演变的动态过程。](/files/papers/6907680a971e575bdfc172d9/images/9.jpg) *该图像是两个二维分布随时间演化的图示，展示了概率密度和概率流场的变化过程。每列对应不同时间$ t $，其中概率密度用颜色深浅表示，概率流用白色箭头指示，刻画了分布从初始状态到演变的动态过程。* 下图（原文 Figure 35）是一个时间轴示意图，展示了从 2022 年 2 月到 2025 年 6 月一系列机器人模仿学习相关模型和数据集的发布时间，区分了大规模闭源模型与可控规模开源模型。 ![该图像是两组热力图组成的图表，分别展示了不同时间点（t=0,10,20,50）下扩散模型（Diffusion）和流匹配模型（Flow Matching）随机变量的分布演变，反映了这两种模型生成过程的动态特征差异。](/files/papers/6907680a971e575bdfc172d9/images/10.jpg) *该图像是两组热力图组成的图表，分别展示了不同时间点（t=0,10,20,50）下扩散模型（Diffusion）和流匹配模型（Flow Matching）随机变量的分布演变，反映了这两种模型生成过程的动态特征差异。* 下图（原文 Figure 36）是由三部分组成的图表，展示了不同机器人学习数据集的轨迹数量（左）、LeRobot 平台轨迹数量随时间的增长趋势（中）、以及不同模型参数数量随时间变化的趋势（右）。 ![Figure 28 The CVAE encoder used in ACT. Input action chunks are frst embeed and agregated with posioal d, b e evn, n ke aggregate input level information, and predict the style variable$ z $. The enc…](/files/papers/6907680a971e575bdfc172d9/images/11.jpg) *该图像是图28中使用的CVAE编码器示意图，展示了输入动作片段经过编码嵌入及位置编码后叠加，输入到Transformer编码器中预测风格变量$ z $，编码器仅在训练时使用，推理时忽略。* ## 5.2. 评估指标 论文中并未提供具体的评估指标数学公式，但根据上下文，机器人模仿学习任务通常关注以下几类指标： 1. **成功率 (Success Rate)：** * **概念定义：** 这是机器人任务中最直接和重要的指标，量化了机器人在多次尝试中成功完成指定任务的百分比。它反映了策略的有效性和鲁棒性。成功完成的定义通常是任务特定的，例如，在抓取任务中，可能定义为成功将物体放置到目标位置。 * **数学公式：** ``` \text{Success Rate} = \frac{\text{Number of successful trials}}{\text{Total number of trials}} \times 100\% ``` * **符号解释：** * `Number of successful trials`: 智能体成功完成任务的试验次数。 * `Total number of trials`: 智能体尝试完成任务的总次数。 2. **轨迹相似性/误差 (Trajectory Similarity/Error)：** * **概念定义：** 衡量机器人执行的轨迹与专家示范轨迹之间的相似度或差异。例如，均方误差 (MSE) 可以用于量化预测动作与专家动作的偏离程度，或者关节角度、末端执行器姿态的误差。 * **数学公式：** （以均方误差为例） ``` \text{MSE} = \frac{1}{T_i} \sum_{t=0}^{T_i} \| a_t - \hat{a}_t \|^2 * **\text{符号解释：}** * $T_i$: \text{轨迹长度。} * $a_t$: \text{专家在时间步} $t$ \text{的动作。} * $\hat{a}_t$: \text{机器人策略在时间步} $t$ \text{预测的动作。} * $\|\cdot\|^2$: \text{欧几里得范数的平方，表示误差的平方。} 3. <strong>\text{平滑性} (Smoothness)\text{：}</strong> * **\text{概念定义：}** \text{衡量机器人动作或轨迹的平滑程度。不平滑的动作可能导致机器人抖动、磨损或能量消耗增加。通常通过计算动作或关节速度、加速度的变化来评估。} * **\text{数学公式：}** \text{（以动作变化率的均方误差为例）} \text{Smoothness Loss} = \frac{1}{T_i-1} \sum_{t=0}^{T_i-1} \| \Delta a_t - \Delta \hat{a}_t \|^2 * **\text{符号解释：}** * $\Delta a_t = a_{t+1} - a_t$: \text{专家动作的变化。} * $\Delta \hat{a}_t = \hat{a}_{t+1} - \hat{a}_t$: \text{机器人策略动作的变化。} 4. <strong>\text{效率}/\text{计算资源} (Efficiency/Computational Resources)\text{：}</strong> * **\text{概念定义：}** \text{评估策略在推理时所需的时间（延迟）、内存使用量和计算复杂度。这对于真实世界部署至关重要。例如，每秒帧数} (FPS) \text{或推理延迟。} * **\text{数学公式：}** \text{（以推理延迟为例）} \text{Inference Latency} = \text{Time}(\text{Input} \to \text{Output}) ``` * **符号解释：** *$ \text{Time}(\text{Input} \to \text{Output}) $: 从模型接收输入到产生输出所需的时间。 ## 5.3. 对比基线 论文中提及或隐式对比了多种基线和相关工作，以突出其方法的优势。 1. **传统行为克隆 (Traditional Behavioral Cloning)：** * 通常指使用简单监督学习目标 (如$ \mathcal{L}_1(a, a') = \|a-a'\|_1 $或$ \mathcal{L}_2 $损失) 训练的点式策略。 * **ACT** 在其消融实验中明确对比了这种简单监督学习方法，特别是在处理人类示范（多模态）数据时，生成模型表现出显著优势。 2. **强化学习 (Reinforcement Learning, RL)：** * 论文多次将模仿学习与 RL 进行对比，强调 RL 在真实世界部署中的高成本、不安全探索和奖励设计困难等局限性，以此作为模仿学习的动机。 3. **行为克隆的变种：** * **DAgger (Dataset Aggregation)：** 一种在线模仿学习方法，通过迭代地收集更多数据并重新训练来缓解协变量偏移。论文指出，如果只有离线数据集且无法收集新数据，DAgger 则不在其讨论范围。 4. **生成模型的通用变体：** * **Denoising Diffusion Probabilistic Models (DDPM) (Ho et al., 2020) 和 Denoising Diffusion Implicit Models (DPM) (Song et al., 2020)：** Diffusion Policy (DP) 提到了它采用了 DPM 中严格确定性去噪范式，从而在推理时减少 10 倍去噪步骤。 5. **其他通用机器人模型：** * **BC-Zero (Janner et al., 2022) 和 Gato (Reed et al., 2022)：** 早期的大规模模仿学习模型，通常基于潜在变量模型或 Transformer。 * **Robotics Transformer (RT-1, RT-2) (Brohan et al., 2023b,a)：** 一系列基于 Transformer 的机器人模型。RT-1 在 130k 人类遥操作轨迹上训练，输出离散动作词元。RT-2 进一步整合了大规模视觉语言模型 (VLM)，将机器人控制视为视觉问答 (Visual Question-Answering, VQA) 任务。 * **OpenVLA (Kim et al., 2024)：** 基于开放数据集训练的 VLA 模型，通常作为开源研究的基线。 * **$ π0 $(Black et al., 2024)：** 在 `SmolVLA` 的研究中，$ π0 $被用作主要的对比基线，特别是在性能、模型大小和内存使用方面进行比较。 * **大型视觉语言模型 (VLMs) 如 PaLI (Chen et al., 2023) 和 PaLM-E (Driess et al., 2023)：**$ π0 $和 `SmolVLA` 等 VLA 模型通常将这些大型 VLM 作为其感知主干网络进行微调或集成。 # 6. 实验结果与分析 论文通过对不同模仿学习方法（BC、ACT、Diffusion Policy）的讨论，以及对通用机器人策略（$ π0 $、`SmolVLA`）的介绍，间接展示了这些方法的实验结果和性能特点。由于原文未提供具体的实验表格和量化数据，本节将根据文中描述进行定性分析。 ## 6.1. 核心结果分析 ### 6.1.1. 行为克隆 (BC) 与生成模型 * **生成模型优于点式策略：** 论文明确指出，当处理多模态示范数据集时，生成模型被证明比点式策略更有效。点式策略倾向于对不同行为模式进行平均，导致决策模糊或不确定。生成模型（如 VAEs、DMs、FMs）通过建模专家行为的完整概率分布，能够生成多样化且高质量的动作序列，从而更好地处理多模态数据。 * **ACT 的发现：** `Zhao et al. (2023)` 在 `ACT` 的工作中发现，在学习脚本化（单模态）示范时，生成模型与简单监督学习方法的性能相当。然而，在学习人类（多模态）示范数据时，生成模型（如 `ACT` 中的 `CVAE`）相比于简单的监督学习目标（如$ \mathcal{L}_1 $损失），能显著提高任务成功率（例如，在某任务中，`CVAE` 的成功率为 44%，而简单监督学习仅为 1%），这凸显了生成模型处理多模态性的优势。`ACT` 采用的动作分块和 `Transformer` 架构也有效缓解了在线序列预测中的误差累积问题。 ### 6.1.2. 扩散策略 (Diffusion Policy, DP) * **数据效率高：**$ Chi et al. (2024) $的研究表明，`Diffusion Policy` 仅用 50-150 个示范（大约 15-60 分钟的遥操作数据）就能进行训练，并在模拟和真实世界任务中展现出强大的性能，包括灵巧的抓取和物体操作任务。 * **对数据集规模的鲁棒性：** `DP` 在不同大小的数据集上均表现出可靠的性能，优于其他基线模型。 * **推理效率优化：** `DP` 通过采用 DPM 的确定性去噪范式，可以在推理时将去噪步骤减少 10 倍，这对于实时机器人控制至关重要。 * **Transformer 骨干网络：** 尽管 `Transformer` 作为噪声预测器 ``` \epsilon_\theta\$ \$ 的骨干网络性能优异，但对超参数的敏感性也较高，可能需要平滑的动作序列进行训练。

### 6.1.3. 优化推理
*   **异步推理的有效性：** `异步推理` 机制通过将动作预测（在策略服务器上）与动作执行（在机器人客户端上）解耦，有效地应对了真实世界机器人部署中的计算延迟和资源限制。
*   ** $g$  参数的权衡：** 阈值参数  $g$  控制着机器人客户端何时请求新的动作块。
    *    $g=0$  (顺序限制) 导致机器人空闲时间，因为必须耗尽当前动作块才请求新的。
    *    $g \in (0,1)$  (异步推理) 通过在队列耗尽前请求新动作块，在计算成本和响应性之间取得平衡，避免了空闲期。
    *    $g=1$  (同步推理限制) 尽管能保持队列几乎满，但计算开销最大。
*   **观测过滤：** 结合相似性过滤可以避免重复处理近乎相同的观测，进一步优化异步推理的效率，减少服务器负载，尤其是在机器人空闲或观测变化不大的情况下。

### 6.1.4. 通用机器人策略 (Generalist Robot Policies)

#### 6.1.4.1.  $π0$  (Black et al., 2024)
*   **大规模训练的强大能力：**  $π0$  在包含 10M+ 轨迹的 " $\pi$ " 数据集（迄今为止最大的机器人数据集）上预训练，证明了大规模数据集能够产生泛化能力更强的基础模型。
*   **跨实体能力：**  $π0$  能够控制具有不同机械臂实体的移动和静态机器人，这得益于其训练数据中包含的跨实体数据。通过输出最大配置尺寸的动作并对自由度较少的机器人进行零填充，实现了这种能力。
*   **应对“失败”状态：** 在高质量数据稀缺的情况下， $π0$  能够从模仿数据中学习如何从“接近失败”的状态中恢复，这对于自主智能体的鲁棒性至关重要。
*   **流匹配的有效性：** 流匹配 (Flow Matching) 被证明在建模复杂多模态分布（如动作和观测数据）方面非常有效，并能通过有限的去噪步骤（如  $π0$  中的 10 步）实现更快的推理。
*   **Beta 分布采样：** 采用 Beta 分布而非均匀分布来采样时间步  $\tau$ ，强调了训练中较高的噪声水平，有助于模型学习数据的均值分布。

#### 6.1.4.2. `SmolVLA` (Shukor et al., 2025)
*   **紧凑高效：** `SmolVLA` 采用紧凑的架构设计（总参数约 450M，而  $π0$  为 3.3B），内存使用量比  $π0$  少 6 倍，推理速度快 40%，使其在资源受限的硬件上更具可行性。
*   **社区驱动：** `SmolVLA` 完全在 450+ 社区数据集中预训练，表明了通过开放数据集和社区贡献开发强大模型的潜力。它还包含了对噪声或缺失指令的处理以及视角标准化。
*   **性能竞争性：** `SmolVLA` 在模拟和真实世界环境中表现出与  $π0$  相当的性能，这证明了无需巨大模型也能实现通用机器人能力。
*   **架构优化：** 通过交错使用交叉注意力 (CA) 和自注意力 (SA) 层，以及减少视觉词元和跳过 VLM 上层等优化，提高了效率和动作平滑性。

## 6.2. 数据呈现 (表格)
本论文的 PDF 内容中未提供具体的实验结果表格。论文通过描述性语言和引用的图像来传达研究发现和模型性能特点。

## 6.3. 消融实验/参数分析

### 6.3.1. ACT (Action Chunking with Transformers)
*   **生成模型 vs. 监督学习：** `ACT` 进行了消融实验，比较了使用生成模型 (CVAE) 与简单的监督学习目标 ( $\mathcal{L}_1$  损失) 的性能。结果表明，在处理人类示范中固有的多模态行为时，生成模型表现出显著优势。
*   **动作分块的影响：** `ACT` 强调了动作分块 (Action Chunking) 对于处理多模态行为和缓解误差累积的重要性。
*   ** $\beta$ -CVAE 参数：** `ACT` 作为  $\beta$ -CVAE 训练，其中超参数  $\beta$  调节 KL 正则化项的权重，从而控制潜在空间的表达能力。不同  $\beta$  值可能导致潜在空间的压缩程度和生成样本多样性的权衡。
*   **推理策略：** `ACT` 的推理过程，包括在每个时间步进行推理并对重叠动作块使用指数移动平均 (EMA) 进行聚合，旨在优化在线部署的性能。

### 6.3.2. Diffusion Policy (DP)
*   **数据集规模的影响：** `DP` 强调了其在少量示范数据（如 50-150 演示）下仍能保持强大性能的特点，并展示了对不同数据集规模的鲁棒性。
*   **噪声预测器架构：** 论文提到 `Transformer` 架构在建模  $\epsilon_\theta$  时表现出色，但也指出其对超参数的敏感性。这表明选择合适的网络架构对 `DP` 性能至关重要。
*   **观测条件化的重要性：** `DP` 强调了在噪声预测器中以过去观测序列进行条件化对于实现良好性能和避免决策不确定性的重要性。

### 6.3.3.  $π0$  (Generalist Robot Policy)
*   **时间步采样分布：**  $π0$  使用修改后的 Beta 分布  $\mathrm{Beta}_{[0,s]}(1.5,1)$  来采样流匹配的时间步  $\tau$ ，而非传统的均匀分布。这种选择强调了训练中较高的噪声水平，有助于模型学习数据分布的均值。
*   **时间步支持范围：** 通过将时间步的支持范围限制在 `[0,s]` ( $s < 1$ )， $π0$  优化了推理时间。这意味着在推理时，通过设置  $\delta = 1-s$ ，可以跳过高于  $s$  的时间步，从而减少去噪/积分步骤。
*   **预训练数据：**  $π0$  在 " $\pi$ " 数据集上预训练，该数据集混合了专有和开放数据。作者通过对比预训练在 " $\pi$ " 数据集上的模型和从头开始训练的  $π0$  基线，证明了大规模、高质量预训练数据的重要性。

### 6.3.4. `SmolVLA` (Generalist Robot Policy)
*   **模型紧凑性：** `SmolVLA` 的设计选择旨在实现更高的计算效率和可访问性。这包括使用 `SmolVLM-2` 作为 VLM 主干网络、更小的动作专家（约 100M 参数），从而显著减少了模型总参数量和内存使用。
*   **词元和层计算优化：**
    *   **视觉词元：** 通过像素混洗 (pixel shuffling) 将每帧视觉词元数量固定为 64 个，提高了运行时效率。
    *   **VLM 层：** 只使用 VLM 前  $N=L/2$  个解码器层的特征，有效地将 VLM 的计算需求减半，实现了性能和速度的权衡。
*   **注意力机制：** `SmolVLA` 动作专家中交错的交叉注意力 (CA) 和自注意力 (SA) 层，以及简单的因果掩码，被证明能产生更平滑的动作块并提高成功率。

    总的来说，这些消融实验和参数分析揭示了不同组件、训练策略和架构选择对模仿学习模型性能、效率和鲁棒性的关键影响。

# 7. 总结与思考

## 7.1. 结论总结
本教程详细探讨了机器人学习领域从传统模型驱动方法向现代数据驱动方法的范式转变。它首先审视了基于动态的传统控制方法的局限性，如脆弱性和难以泛化，这些不足促使了更灵活、数据驱动的替代方案的出现。

文章追溯了技术进展的清晰轨迹：
1.  强化学习 (RL) 的挑战与替代： 尽管 RL 为通过与环境互动学习提供了强大范式，但在实际机器人应用中面临样本效率低下、安全隐患以及奖励设计复杂等挑战。教程指出，像 `HIL-SERL` 这样的现代方法通过引入人类指导和奖励分类器，使真实世界 RL 更具可行性。
2.  **模仿学习的崛起：** 为了克服 RL 的挑战，模仿学习应运而生。教程强调了先进的行为克隆（Behavioral Cloning, BC）技术，特别是基于生成模型的方法。
    *   **生成模型的应用：** 变分自编码器（VAEs）、扩散模型（Diffusion Models, DMs）和流匹配（Flow Matching, FMs）等生成模型被证明能有效处理多模态示范数据集，学习复杂的、多样化的行为。
    *   **具体模型：** `ACT` (Action Chunking with Transformers) 和 `Diffusion Policy` 等模型展示了从人类示范中学习复杂、多模态行为的能力，通过预测动作块来缓解序列预测中的误差累积。
3.  **通用机器人策略的演进：** 随着技术发展，研究重点转向了更通用的机器人策略。
    *   视觉语言动作模型 (VLA)： 利用强大的预训练视觉语言模型（VLMs）作为感知和理解的骨干，结合动作专家和流匹配等生成技术，构建能够通过自然语言指令执行多种任务的通用机器人策略。
    *   **代表性模型：**  $π0$  和 `SmolVLA` 等模型代表了这一领域的重大突破，它们能够跨越不同的任务甚至机器人实体（embodiments）进行泛化。
4.  **开放科学的重要性：** 教程反复强调了开放数据集（如 `Open-X`, `DROID`）和开源软件（如 `LeRobot`）在推动机器人学习发展中的关键作用，认为这种开放贡献模式是实现规模化、民主化进步的核心。

    总而言之，本教程为研究人员和实践者提供了从基本原理到最先进技术（如 VLA 模型）的全面背景和工具，以期促进开源机器人学习领域的进一步探索。

## 7.2. 局限性与未来工作
论文及其讨论揭示了当前机器人模仿学习和通用机器人策略的一些局限性，并暗示了未来的研究方向：

1.  **行为克隆的固有局限性：**
    *   **次优决策：** BC 只能复制示范者（通常是人类）的行为，如果示范者本身做出次优决策，模型也会学习到这些次优行为。
    *   **数据稀缺性：** 对于某些复杂或危险任务，收集高质量的专家示范数据可能成本高昂且耗时，这限制了 BC 在这些场景中的应用。
    *   **近失败状态的学习：** 人类示范数据中很少包含从“近失败”状态恢复的例子，这使得自主智能体难以学习如何从这种状态中恢复，从而影响鲁棒性。

2.  **生成模型的挑战：**
    *   **计算开销：** 扩散模型在推理时可能需要大量的去噪步骤，导致计算成本较高。尽管 DPM 和流匹配通过确定性去噪和连续时间流有所缓解，但仍需进一步优化以满足实时性要求。
    *   **模型复杂性：** 结合 VLM 主干网络和动作专家的 VLA 模型通常参数量巨大（如  $π0$  的 3.3B），对计算资源和部署环境提出了高要求。

3.  **通用机器人策略的挑战：**
    *   **数据可用性与多样性：** 尽管已出现大规模数据集，但构建真正能够覆盖所有任务、所有环境和所有实体的通用数据集仍是一个巨大挑战。目前许多高性能模型仍依赖专有数据集。
    *   **泛化能力限制：** 尽管通用模型表现出跨任务/实体泛化能力，但其泛化到全新、未见过场景的能力仍有限。例如，`Transformer` 网络对超参数的敏感性可能使其在非平滑动作序列上训练更具挑战性。
    *   **可解释性：** 复杂的生成模型和 Transformer 架构可能缺乏可解释性，难以理解模型为何做出特定决策。

4.  **未来研究方向：**
    *   **更高效的生成模型：** 进一步优化流匹配等技术，实现更少的推理步骤和更低的延迟。
    *   **更紧凑、可访问的模型：** 持续开发像 `SmolVLA` 这样的小型化、高效模型，降低机器人学习的硬件门槛。
    *   **高质量、开放数据集的建设：** 促进社区贡献和大规模开放数据集的建设，特别是包含“失败”案例和恢复策略的数据，以提高模型的鲁棒性。
    *   **多模态融合与交互：** 探索更先进的多模态融合技术，使机器人能够更好地理解视觉、触觉、听觉和语言信息，并进行更自然的交互。
    *   **在线适应和持续学习：** 研究如何让模型在部署后继续学习和适应新环境，而不仅仅是依赖离线数据。

## 7.3. 个人启发与批判

### 7.3.1. 个人启发
1.  **生成模型在机器人学习中的潜力巨大：** 论文清晰地展示了生成模型如何从根本上超越传统 BC 的局限性，特别是在处理人类示范固有的多模态性和多样性方面。它们为机器人能够执行更自然、灵活和类似人类的行为打开了大门。
2.  **动作分块与人类规划的对应：** 学习预测动作块而非单点动作，是模仿人类高级规划能力的一种自然且有效的方式。这不仅提高了序列决策的稳定性，也使得模型输出更具语义一致性。
3.  **异步推理是实用化的关键：** 对于真实世界机器人部署，模型性能和实时性是同等重要的。异步推理机制提供了一个优雅的解决方案，它在不牺牲决策质量的情况下，有效应对了计算延迟和资源限制，使得复杂模型能在边缘设备上运行成为可能。
4.  **VLA 模型代表了未来方向：** 将 VLMs 的强大感知和语言理解能力与动作生成机制相结合，是机器人实现通用智能和自然交互的必经之路。通过语言指令控制机器人，极大地提高了机器人的可编程性和灵活性。
5.  **开放科学和社区贡献的价值：** 论文强调了开放数据集和开源模型对于领域发展的重要性。`SmolVLA` 的例子尤其鼓舞人心，它证明了即使是规模较小的模型，在社区贡献的数据和精心设计的架构下，也能达到与大型专有模型竞争的性能，这对于民主化机器人学习研究具有深远意义。

### 7.3.2. 批判
1.  **缺乏量化比较的细节：** 尽管论文描述了各种方法和模型的优势，但在提供的文本中，对于 `ACT`、`Diffusion Policy`、 $π0$  和 `SmolVLA` 的具体量化实验结果（如成功率、精确度、平均误差等）和详细的对比表格较少。这使得读者难以直观地评估不同方法之间的具体性能差距和进步幅度。例如，当提到 `SmolVLA` 与  $π0$  性能相当且更高效时，具体的数字支撑会更有说服力。
2.  “歧管假说”的深度不足： 论文提到了 Permenter and Yuan (2024) 关于扩散模型学习数据歧管（manifold）的“歧管假说”（Manifold Hypothesis），但这只是简单提及，并未深入探讨其对机器人学习的理论或实践意义，例如如何利用这一特性来提高泛化或鲁棒性。
3.  **对 VLA 模型的内部机制仍有简化：** 尽管  $π0$  和 `SmolVLA` 的架构有所描述，但对于 VLM 主干网络与动作专家之间如何精确地进行信息交互、注意力机制的详细工作原理以及不同类型词元（图像、语言、本体感知）的编码方式，仍然可以提供更深入的技术细节，以帮助初学者理解其复杂性。
4.  **对数据质量和偏差的更深入讨论：** 论文提到人类示范数据可能包含次优决策或稀缺的失败恢复案例，以及社区贡献数据集的噪声问题。然而，对于如何系统性地量化和缓解这些数据质量问题，以及数据中的人类偏见如何影响学习到的机器人行为，可以进行更深入的探讨。
5.  **实际部署的挑战未完全覆盖：** 尽管优化推理部分解决了延迟问题，但真实世界机器人部署还面临其他挑战，如传感器噪声、环境不确定性、硬件故障、安全认证等。论文可以更全面地讨论这些方面以及当前方法如何应对这些挑战。

相似论文推荐

基于向量语义检索推荐的相关论文。

暂时没有找到相似论文。