论文状态：已完成

See Once, Then Act: Vision-Language-Action Model with Task Learning from One-Shot Video Demonstrations

发表：2025/12/08

视觉语言动作模型 (30)机器人操作政策学习 (1)单次演示学习 (1)人类视频行为学习 (1)专家示范视频生成 (1)

原文链接 PDF 下载

价格：0.100000

已有 2 人读过

本分析由 AI 生成，可能不完全准确，请以原文为准。

TL;DR 精炼摘要

本文提出ViVLA，一种通用的机器人操控策略学习框架，只需依赖一次专家视频演示即可高效学习新任务。通过联合处理视频和机器视觉，模型提炼专家细腻操控知识，克服动作识别和模型推理的难点。实验结果显示，ViVLA在未见任务中性能显著提升。

摘要

Developing robust and general-purpose manipulation policies represents a fundamental objective in robotics research. While Vision-Language-Action (VLA) models have demonstrated promising capabilities for end-to-end robot control, existing approaches still exhibit limited generalization to tasks beyond their training distributions. In contrast, humans possess remarkable proficiency in acquiring novel skills by simply observing others performing them once. Inspired by this capability, we propose ViVLA, a generalist robotic manipulation policy that achieves efficient task learning from a single expert demonstration video at test time. Our approach jointly processes an expert demonstration video alongside the robot's visual observations to predict both the demonstrated action sequences and subsequent robot actions, effectively distilling fine-grained manipulation knowledge from expert behavior and transferring it seamlessly to the agent. To enhance the performance of ViVLA, we develop a scalable expert-agent pair data generation pipeline capable of synthesizing paired trajectories from easily accessible human videos, further augmented by curated pairs from publicly available datasets. This pipeline produces a total of 892,911 expert-agent samples for training ViVLA. Experimental results demonstrate that our ViVLA is able to acquire novel manipulation skills from only a single expert demonstration video at test time. Our approach achieves over 30% improvement on unseen LIBERO tasks and maintains above 35% gains with cross-embodiment videos. Real-world experiments demonstrate effective learning from human videos, yielding more than 38% improvement on unseen tasks.

思维导图

论文精读

中文精读约 24 分钟读完 · 14,804 字

1. 论文基本信息

1.1. 标题

See Once, Then Act: Vision-Language-Action Model with Task Learning from One-Shot Video Demonstrations

1.2. 作者

Guangyan Chen, Meiling Wang, Qi Shao, Zichen Zhou, Weixin Mao, Te Cui, Minzhao Zhu, Yinan Deng, Luojie Yang, Zhanqi Zhang, Yi Yang, Hua Chen, Yufeng Yue

隶属机构：
- 1 北京理工大学 (Beijing Institute of Technology)
- 2 灵西动力学 (LimX Dynamics)

1.3. 发表期刊/会议

arXiv 预印本（尚未在同行评审期刊/会议正式发表）。arXiv 在机器学习与机器人学社区广泛用于快速传播最新研究进展，但其内容未必经过正式同行评审。

1.4. 发表年份

2025 年（发布时间：UTC 2025-12-08）

1.5. 摘要

论文提出 ViVLA，一种通用机器人操控策略学习框架，目标是在测试时仅通过“一个专家视频演示”实现高效任务学习。方法核心是联合处理专家视频与机器人视觉观测，既预测专家演示中的潜在动作序列（latent actions），也预测随后机器人应执行的动作，从而将专家的精细操控知识蒸馏并迁移至机器人。

为解决四大关键难点：（I）VLM 缺乏细粒度动作识别；（II）视频缺少动作标注且跨载体（人/机器人）动作空间不一致；（III）自回归动作建模产生“捷径学习”与推理延迟；（IV）专家-智能体配对数据稀缺——作者提出：

A3C（Action-centric Cycle Consistency）潜在动作学习：以视觉重建与循环一致性约束，联合在人类视频与机器人数据上训练一个离散潜在动作空间，实现跨载体统一；
并行解码的 VLA 训练：以时空遮挡（temporal-spatial masking）增强视频理解，使用 START 标记触发一次性并行生成动作序列，避免信息泄漏与降低延迟；
大规模专家-智能体配对数据生成：以人类视频驱动，结合 3D 高斯光栅（Gaussian Splatting）生成机器人 4D 场景与演示，此外还将公开数据集按任务语义配对，总计构建 892,911 对样本。

实验表明：在 LIBERO 基准的未见任务上提升超过 30%；跨载体视频学习提升超过 35%；在真实世界人类视频驱动的未见任务中提升超过 38%。

1.6. 原文链接

arXiv: https://arxiv.org/abs/2512.07582
PDF: https://arxiv.org/pdf/2512.07582v1.pdf

2. 整体概括

2.1. 研究背景与动机

背景：视觉-语言-动作模型（Vision-Language-Action, VLA）将视觉与语言语义能力迁移到机器人控制，但对训练分布外任务（unseen tasks）的泛化仍然受限。相较而言，人类可以通过一次目睹他人操作就习得新技能。
核心问题：如何使机器人在测试时仅凭一个专家视频演示，学习并执行此前未见过的操控任务，无需再次训练或微调。
现有挑战：
1. 现有 VLM 更擅长语义理解，缺乏对细粒度操控动作的识别与时序定位能力；
2. 人类视频无动作标签，且人/机器人载体动作空间不对齐；
3. 自回归动作建模易“抄答案”（利用先前真值动作词元），且推理速度慢；
4. 专家-智能体配对数据（尤其人-机器人）稀缺。
创新思路：通过学习“统一的离散潜在动作空间”，将专家视频与机器人观测映射到相同动作词元；以循环一致性和对抗式判别器提高潜在动作的语义与分布有效性；在 VLM 上以时空遮挡与并行解码提升视频理解与动作生成。

2.2. 核心贡献/主要发现

提出 ViVLA：能在测试时从单个专家视频学习并执行新任务，无需额外训练或微调。
提出 A3C 潜在动作学习：通过视觉重建与动作中心的循环一致性，建立跨载体统一的离散潜在动作空间；联合训练于专家视频（人类/他机）与机器人数据。
提出并行解码策略：以 START 标记+查询词元并行生成动作序列，防止信息泄漏与降低延迟；配合时空遮挡提升对部分可见视频的整体理解。
构建高质量专家-智能体配对数据：人类视频驱动的 4D 机器人场景重建与多视角/外观/光照增强；再结合公开数据集按任务语义配对，总计 892,911 样本。
实证结果：在 LIBERO 未见任务提升超过 30%；跨载体视频学习提升超过 35%；真实世界使用人类视频的未见任务提升超过 38%。

3. 预备知识与相关工作

3.1. 基础概念

视觉-语言-动作模型（VLA）：在预训练视觉-语言模型（VLM）基础上，适配机器人控制输出（离散或连续），以图像/视频+文本为条件生成动作。
一次性视觉模仿学习（One-Shot Visual Imitation, OSVI/OSIL）：在测试时接收单个成功演示（可含语言），快速适配新任务并生成动作。
向量量化变分自编码器（VQ-VAE）：将连续隐变量离散化为码本索引，使复杂信号（如动作）可表示为离散词元，便于与语言模型的词元化统一。
3D 高斯光栅（Gaussian Splatting）：一种高效的 3D 场景表示与渲染技术，可基于重建的多高斯体实现真实感 4D 场景合成与多视角渲染。
LoRA（Low-Rank Adaptation）：一种轻量级参数高效微调方法，仅在低秩适配矩阵上训练，保持大模型主干参数近似冻结。
自回归（Autoregressive）与并行解码（Parallel Decoding）：自回归逐词元生成、可读到先前真值，易走捷径、推理慢；并行解码一次生成多个词元，避免信息泄漏并加速。

3.2. 前人工作

RT-2/OpenVLA：将离散化动作词元（如每维 256 桶）并入 VLM 词表，利用大规模机器人数据训练通用政策，但对未见任务泛化有限。
Latent action 系列（LAPA、UniVLA、Moto 等）：通过无标签视频学习离散潜在动作，便于与 VLM 的词元范式统一；但不同载体的潜在动作空间常碎片化、语义不一致。
OSIL/OSVI 方向（Transformers for OSVI、AWDA、OSVI-WM 等）：探索跨视角/跨载体/语言条件的一次性适配，但常需要构造子目标、世界模型或手工对齐。
数据增强（MimicGen、Mirage、VISTA、Rovi-aug、RoboSplat）：以合成/编辑手段扩大数据多样性，缓解真实数据稀缺与分布偏移。

3.3. 技术演进与本文位置

从“用大量机器人数据训练通用 VLA”到“仅靠一次视频演示适配未见任务”：本文通过“统一潜在动作空间 + 并行解码 + 时空遮挡 + 数据生成管线”实现关键跨越。
相较已有 latent action 方法：本文在“语义一致性 + 跨载体统一 + 训练稳定性”上引入循环一致性与对抗式判别器，缓解空间碎片化与错误一致性。

3.4. 差异化分析

统一潜在动作空间：通过 A3C 的跨载体循环一致性与判别器约束，实现语义一致、可迁移的离散动作词元。
并行而非自回归：避免利用先前真值词元的捷径学习，显著加快推理与强化视频理解。
人类视频驱动的数据生成：用 3D 高斯光栅重建 4D 机器人演示，结合多维度增强，系统性解决专家-智能体配对数据匮乏。

4. 方法论

4.1. 方法原理

直觉：若能从专家视频中抽取“语义一致、跨载体统一”的离散潜在动作序列，并让 VLM 在部分可见的视频条件下、一次性并行预测这些动作，则能在测试时仅凭一个演示就生成机器人执行的动作序列。

两阶段：

阶段 I（A3C 潜在动作学习）：以视觉重建和循环一致性建立统一的离散潜在动作空间，联合训练在人类视频与机器人数据上。
阶段 II（ViVLA 训练）：在 Qwen2.5-VL 主干上，输入“时空遮挡后的视频 + 机器人观测 + 语言指令”，并行解码专家潜在动作与机器人动作。

下图（原文 Figure 5）展示了 ViVLA 的整体流程结构与信号流动：

该图像是示意图，展示了ViVLA模型的结构和工作流程。它采用了专家示范视频和机器人视觉观测进行操作，提取潜在动作并通过解码器生成具体动作，从而实现从单一示范视频中学习操控技能的过程。

4.2. 核心方法详解：A3C（动作中心的循环一致性）潜在动作学习

4.2.1. 编码器与量化

作者以 DINOv2 的 ViT 提取图像嵌入，将当前帧与未来帧拼接，再用时空 Transformer 聚合到潜在动作词元，并以 VQ-VAE 离散化为码本索引。

原文公式（编码与量化）： $\begin{array}{rl} & z_{t}^{e} = \mathrm{ST\text{-}Transformer}([f_{t}, \bar{f_{t+H}}, z]), \quad z_{t}^{e} \in \mathbb{R}^{l_{z} \times c_{z}} \\ & z_{t}^{q} = \mathrm{VQ}(z_{t}^{e}), \quad z_{t}^{q} \in \mathbb{R}^{l_{z} \times c_{z}}. \end{array}$

符号解释：

$I_t, I_{t+H}$ ：当前与未来图像帧。
$f_t, \bar{f_{t+H}}$ ：由 DINOv2 提取的图像嵌入， $\bar{\cdot}$ 表示可能的掩码或特定处理（文中为合并表示）。
$z$ ：可学习的潜在动作词元初始嵌入。
$\mathrm{ST\text{-}Transformer}(\cdot)$ ：交替的空间与时间自注意力块构成的时空 Transformer。
$z_t^e$ ：连续潜在动作表示（编码器输出）。
$\mathrm{VQ}(\cdot)$ ：向量量化算子，将连续表示映射到码本的离散索引。
$z_t^q$ ：量化后的离散潜在动作表示。
$l_z$ ：每个潜在动作由多少个词元表示。
$c_z$ ：每个词元的通道维度。
$H$ ：时间窗口步长。

解码生成未来帧（原文公式）： $\begin{array}{r} \begin{array}{rl} & z_{t}^{q} = \mathscr{E}(I_{t}, I_{t+H}), \quad z_{t}^{q} \in \mathbb{R}^{l_{z} \times c_{z}}, \\ & \hat{I}_{t+H} = \mathscr{D}(I_{t}, z_{t}^{q}), \quad \hat{I}_{t+H} \in \mathbb{R}^{w \times h \times c_{o}}. \end{array} \end{array}$

符号解释：

$\mathscr{E}, \mathscr{D}$ ：编码器与解码器函数。
$\hat{I}_{t+H}$ ：重建的未来帧。
$w, h, c_o$ ：图像宽、高、通道数。

4.2.2. 动作中心的循环一致性

目标：让潜在动作在不同载体（人/机器人）与不同场景中保持语义一致。做法：从历史缓冲区抽样潜在动作，将其与任意当前帧组合在解码器中生成新未来帧，再要求编码器从当前帧与生成未来帧中“识别回原动作”。

生成与回归（原文公式）： $\begin{array}{rl} & \hat{I}_{g} = \mathcal{D}(I_{c}, z_{s}^{q}), \quad z_{s}^{q} \sim \mathcal{Z}, \\ & \hat{z}_{s}^{q} = \mathcal{E}(I_{c}, \hat{I}_{g}), \quad \hat{z}_{s}^{q} \in \mathbb{R}^{l_{z} \times c_{z}}. \end{array}$

符号解释：

$I_c$ ：任意采样的当前帧（来自任一载体）。
$z_s^q$ ：从潜在动作缓冲区 $\mathcal{Z}$ 抽样的离散动作。
$\hat{I}_g$ ：将 $I_c$ 与 $z_s^q$ 组合在解码器生成的未来帧。
$\hat{z}_s^q$ ：编码器从 $(I_c, \hat{I}_g)$ 回归得到的动作。

为了端到端传播，作者以未量化前的嵌入 $\hat{z}_s^e$ 与码本向量的距离进行 softmax，使用交叉熵对齐至原来的码本索引（原文损失）： $\mathcal{L}_{C} = - \sum_{k=1}^{K} y_{k} \log \left( \frac{\exp\left(- d(\hat{z}_{s}^{e}, e_{k}) / \tau \right)}{\sum_{j=1}^{K} \exp\left(- d(\hat{z}_{s}^{e}, e_{j}) / \tau \right)} \right).$

符号解释：

$K$ ：码本大小。
$e_k$ ：第 $k$ 个码本向量。
$d(\cdot,\cdot)$ ：距离度量（如欧氏距离）。
$\tau$ ：温度参数。
$y_k$ ：one-hot 目标向量，对应 $z_s^q$ 的码本索引。
$\hat{z}_s^e$ ：未量化的潜在动作嵌入。

跨载体统一：从载体 $E_i$ 抽样的 $z_s^q$ 应用于 $E_j$ 的帧 $I_c$ ，要求编码器回归 $\hat{z}_s^q \approx z_s^q$ ，迫使不同载体共享统一的行动语义。

4.2.3. 局部-全局判别器与对抗损失

问题：若生成的未来帧分布与数据集真实帧不匹配，编码器可能读到“泄漏”的动作信号而产生虚假一致性。解决：引入同时在局部与全局尺度对齐分布的判别器（Spatial Transformer + MLP + Conv2D + Global Pool）。

判别器特征与 logits（原文公式）： $\begin{array}{rl} & \mathcal{F}_{l} = \mathrm{Spatial\text{-}Transformer}(I), \quad \sigma_{l} = \mathrm{MLP}(\mathcal{F}_{l}), \\ & \mathcal{F}_{g} = \mathrm{GlobalPool}(\mathrm{Conv2D}(\mathcal{F}_{l})), \quad \sigma_{g} = \mathrm{MLP}(\mathcal{F}_{g}). \end{array}$

符号解释：

$\mathcal{F}_l$ ：局部 patch 特征（空间 Transformer 输出）。
$\sigma_l$ ：局部 patch 的判别 logits。
$\mathcal{F}_g$ ：经过卷积与全局池化得到的全局特征。
$\sigma_g$ ：全局 logits。

对抗损失（原文公式）： $\begin{array}{rl} & \mathcal{L}_{GAN}^{\Psi} = - \log(\Psi(o)) - (1 - \log(\Psi(\mathcal{D}(o, z)))), \\ & \mathcal{L}_{GAN}^{\mathcal{D}} = 1 - \log(\Psi(\mathcal{D}(o, z))). \end{array}$

符号解释：

$\Psi$ ：判别器。
$o$ ：数据集真实样本（图像）。
$\mathcal{D}(o,z)$ ：解码器生成的样本（以 $o$ 与 $z$ 为条件）。
$\mathcal{L}_{GAN}^{\Psi}$ ：判别器损失，鼓励区分真实/生成。
$\mathcal{L}_{GAN}^{\mathcal{D}}$ ：生成器（解码器）损失，鼓励以假乱真。
注：作者将该损失同时应用于局部与全局层面，以缓解分布不匹配与信息泄漏。

下图（原文 Figure 4）展示了 A3C 的编码-量化-解码与循环一致性的整体结构：

该图像是示意图，展示了ViVLA模型的工作流程。左侧部分展示了输入图像如何通过编码器和解码器进行处理，生成潜在动作缓冲区的数据。右侧则展示了使用DINOv2的编码器和解码器，以及空间-时间变换器的结构，强调了如何从量化潜在动作中获取目标信息。整体流程旨在实现通过单一视频演示进行高效任务学习。

4.3. ViVLA 训练：时空遮挡 + 并行解码

4.3.1. 视觉-语言主干与输入处理

主干采用 Qwen2.5-VL（包含窗口注意力的 ViT、视觉-语言融合 MLP、LLM 组件），初始化为预训练权重。输入由三部分：专家视频（施加时空遮挡）、机器人观测（图像）、语言指令。

时空遮挡（Temporal-Spatial Masking）：

时间维：以固定窗口采样，保留原绝对时间编码，降低冗余但不丢时序位置信息；
空间维：在视觉编码后的 patch 词元上施加随机遮挡，仅将未遮挡词元送入语言模型。

得到三类嵌入： $h_v$ （视频）、 $h_o$ （观测）、 $h_\ell$ （语言）。

4.3.2. 并行解码机制（START 标记 + 查询词元）

为避免自回归训练时读到先验真值动作词元的捷径，作者设计了并行解码：模型通过生成 START 标记来指示一次应并行解码多少个动作词元，然后在同一前向中生成整段动作序列。

原文公式： $\begin{array}{c} s_{t} = \mathbf{LM}(h_{\leq t}), \quad h_{\leq t} = [h_{v}, h_{o}, h_{\ell}, h_{p}] \\ \{ \hat{z}_{t+i} \}_{i=0}^{n-1} = \mathbf{LM}([h_{\leq t}, s_{t}, \mathbb{LACT}^{n}]). \end{array}$

符号解释：

$\mathbf{LM}(\cdot)$ ：语言模型组件。
$h_{\leq t}$ ：到当前步的上下文嵌入（视频、观测、语言与已生成词元 $h_p$ ）。
$s_t$ ：由 LM 生成的 START 标记，形如 START_LACT_n（指示并行生成 $n$ 个 LACT）。
$\mathbb{LACT}^{n}$ ：附加到输入中的 $n$ 个“潜在动作查询词元”（Latent Action Query Tokens）。
$\{ \hat{z}_{t+i} \}$ ：一次性并行生成的潜在动作词元序列。
对于机器人动作，同理引入 START_ACT_n 与 ACT 查询词元。

4.3.3. 训练目标与动作解码器

将专家视频与机器人观测分别编码为潜在动作： $\begin{array}{r} z_{\boldsymbol{v}, t}^{q} = \boldsymbol{\mathcal{E}}(\boldsymbol{v}_{t}, \boldsymbol{v}_{t+H}), \\ z_{o, t}^{q} = \boldsymbol{\mathcal{E}}(\boldsymbol{o}_{t}, \boldsymbol{o}_{t+H}). \end{array}$

将码本大小 $K$ 的潜在动作索引并入 VLM 词表（LACT_1 ... LACT_K），以负对数似然训练潜在动作预测（原文公式）： $\mathcal{L}_{z} = \mathbb{E}_{z}\left[ - \sum_{i=1}^{N_{z}} \log P(\hat{z}_{i}^{q} = z_{i}^{q}) \right],$

符号解释：

$N_z$ ：潜在动作词元总长度。
P(\hat{z}_i^q = z_i^q)：预测词元与真值索引匹配的概率。
$\mathbb{E}_z[\cdot]$ ：对训练样本的期望。

机器人动作解码器：从 LM 最后一层的 ACT 词元嵌入中以注意力聚合，池化为统一嵌入，经 MLP 映射为连续机器人动作（如末端执行器位姿/关节速度等）。整体端到端联合优化潜在动作损失与 L1 动作回归损失。

辅助任务：

时间定位（Temporal Localization）：将机器人观测图像插入专家视频序列，训练模型识别其时间位置，强化图像-视频表征的跨模态对齐。
视频缺失鲁棒性：随机移除专家视频，只以机器人观测+语言指导预测，保证在已见任务上即便无示范也可执行。

后训练（Post-training）：
在目标机器人上进行后训练：动作解码器全参数适配；VLM 主干以 LoRA 微调，兼顾迁移效率与保留语义泛化。

4.4. 视频驱动的专家-智能体数据生成

整个管线如下图（原文 Figure 6），从人类视频出发，估计手/物体姿态，优化末端执行器轨迹，重建 4D 场景并多维度增强，最终构建人-机配对：

该图像是示意图，展示了通过人类视频进行抓取优化和4D场景重建的过程。上方的部分显示了人类演示视频与结果的对比，底部则阐述了如何合成新视角、增强外观以及编辑视觉属性来生成机器人的演示。

4.4.1. 交互定位（Interaction Grounding）

手部：用 HaMeR（Transformer 手部重建）估计形状与姿态，ICP（迭代最近点）与分割点云对齐，得到精确手部轨迹。
物体：以 6D 姿态估计与跟踪（如 FoundationPose）得到物体轨迹。

手到夹爪 6D 位姿转换（原文 Figure 7）：

$Fig. 7: Calculation of the 6D gripper pose from the estimated hand pose. The grasp point is computed as the midpoint between the thumb and index finger tips. The coordinate frame is defined with the $X$ -axis normal to the plane spanned by all tracked points on both digits, the $Y$ -axis pointing from the grasp point to the index finger tip, and the $Z$ -axis obtained through $\\vec { z } = \\vec { x } \\times \\vec { y }$ .$ 该图像是一个手部姿态的示意图，展示了6D夹持器姿态的计算过程。抓取点被定义为拇指与食指尖之间的中点，坐标框架中， $X$ 轴垂直于由两指尖的所有追踪点所构成的平面， $Y$ 轴指向从抓取点到食指尖的方向， $Z$ 轴通过 $oldsymbol{z} = oldsymbol{x} imes oldsymbol{y}$ 计算得出。

要点：抓取点为拇指与食指尖中点；坐标定义为 X 轴垂直于两指尖点集所在平面，Y 轴指向抓取点到食指尖方向，Z 轴由叉乘得到 $\vec{z} = \vec{x} \times \vec{y}$ 。

4.4.2. 视频解析与阶段划分

根据手-物体点云距离阈值 $\epsilon$ 检测接触开始/结束，划分为“抓取阶段”（reach-and-grasp）与“操控阶段”（manipulate and contact）。

原文阈值检测公式： $\begin{array}{rl} & d = \mathrm{dist}(\mathcal{P}), \quad t_{b} = \{ t \mid d^{t-1} > \epsilon \wedge d^{t} < \epsilon \}, \\ & t_{e} = \{ t \mid d^{t-1} < \epsilon \wedge d^{t} > \epsilon \}, \end{array}$

符号解释：

$\mathcal{P}$ ：手与物体的点云集合。
$\mathrm{dist}(\cdot)$ ：两点云间最近距离或平均距离函数。
$t_b, t_e$ ：接触起止时间。

4.4.3. 末端执行器位姿优化

抓取时刻在邻域内采样多个候选 6D 抓取位姿，筛选可行（无碰撞、目标在夹爪抓取区间）且稳定（到物体质心的垂距越小越稳定）。
操控阶段假设末端与物体相对位姿保持不变（常见近似），将物体轨迹与抓取位姿复合得到末端执行器轨迹，随后通过运动规划得到机器人关节轨迹。

4.4.4. 高质量 4D 场景重建与多样性生成

以 3D 高斯体表示机器人与物体（机器人来自 URDF 或重建；物体由网格转换为高斯体），复合轨迹生成与渲染，获得与人类视频一致的 4D 机器人演示。
多维增强：
- 视角：多相机位姿新视角渲染，增加视觉多样性；
- 外观：桌面/背景纹理随机化；
- 光照：高斯体漫反射颜色随机缩放/偏移/噪声。
  
  数据集中采用的物体集合如下图（原文 Figure 8）：
  
  该图像是用于数据生成管道的对象集合，展示了多种日常物品，包括餐具、玩具和零食等，组成了一幅丰富的视觉资源，旨在支撑机器人的学习与操作。

4.4.5. 公开数据集的语义配对

用 Sentence-BERT 嵌入计算任务指令余弦相似度，阈值 0.9 以上构建配对，最终与人类驱动数据合并，共计 892,911 对专家-智能体样本。

5. 实验设置

5.1. 数据集

机器人数据：Open X-Embodiment（OXE）子集，单臂末端执行器控制任务。
人类视频：Ego4D（第一人称视角，多样日常活动）与 EgoDex（大规模灵巧操控）。
人机配对（Human2Robot）：基于上述管线从 7,421 段人类视频生成 89,736 配对样本。
公开数据配对：Fractal、Bridge、Droid、Language Table、BC-Z、FMB 等，按任务语义配对获得 803,175 样本。

总计：892,911 专家-智能体配对样本。

以下是原文 Table I 的结果：

Datasets	Num of Traj.
Fractal [79]	87,212
Bridge [80]	60,064
Droid [81]	49,933
Language Table [82]	442,226
BC-Z [27]	43,264
FMB Dataset [83]	4,592
Ego4D [81]	18,368
EgoDex [84]	97,516
Human2Robot	89,736
Overall	892,911

5.2. 评估指标

任务成功率（Success Rate）
1. 概念定义：衡量执行策略在给定任务上成功完成目标的比例，反映任务达成的稳定性与可靠性。
2. 数学公式： $\mathrm{SuccessRate} = \frac{N_{\mathrm{success}}}{N_{\mathrm{total}}}$
3. 符号解释：
  - $N_{\mathrm{success}}$ ：成功完成任务的试验次数；
  - $N_{\mathrm{total}}$ ：总试验次数（例如 10 次，含随机初始位姿/物体位置）。
相对提升百分比（Relative Improvement）
1. 概念定义：与基线策略相比的提升幅度，体现新方法在相同设置下所带来的性能增益。
2. 数学公式： $\Delta \% = \frac{\mathrm{SR}_{\mathrm{ours}} - \mathrm{SR}_{\mathrm{baseline}}}{\mathrm{SR}_{\mathrm{baseline}}} \times 100\%$
3. 符号解释：
  - $\mathrm{SR}_{\mathrm{ours}}$ ：本文方法的成功率；
  - $\mathrm{SR}_{\mathrm{baseline}}$ ：对比基线的成功率；
  - $\Delta \%$ ：相对提升的百分比。
    
    注：作者在文中以“提升超过 X%”总结未见任务/跨载体/真实世界的改进。

5.3. 对比基线

Diffusion Policy（扩散策略）：将动作分布建模为条件扩散过程，训练稳定、能处理高维多峰动作，但泛化到未见任务有限。
AWDA：通过从演示视频预测“带属性的路径点（Attributed Waypoints）”，再以手工运动原语执行，强调一次性模仿与数据增强。
OpenVLA：基于 Prismatic7B 并在 OXE 数据上预训练，后在 LIBERO 上后训练，代表开源 VLA 线路。
UniVLA：提出任务中心潜在动作（Task-centric Latent Actions），在无动作标签的视频上预训练 VLA，强调跨载体与任务语义。

5.4. 训练细节

A3C 潜在动作学习：
- 编码器：DINOv2 ViT-base 提取视觉嵌入；时空 Transformer 12 层、隐藏维 768；
- VQ 码本：大小 16；
- 解码器与判别器：均为 12 层空间 Transformer、维度 768；
- 潜在动作缓冲区：保留前 4 个批次的潜在动作；
- 优化：AdamW，学习率 $1\times 10^{-4}$ ，权重衰减 $1\times 10^{-2}$ 。
ViVLA 训练：
- 全局 batch size 256（每卡 8）；
- 步数 30,000，学习率 $2\times 10^{-5}$ ；
- 时空遮挡比例各自随机采样于 [0, 0.5]；
- 细粒度动作推理训练：以 0.4 概率仅预测专家视频中的潜在动作序列，不继续预测机器人动作。
后训练（目标机器人）：
- 动作解码器全参数微调；
- VLM 主干以 LoRA 微调。

6. 实验结果与分析

6.1. 未见任务（同载体）学习

设置：在 LIBERO 四个子套件（Spatial/Object/Goal/Long）上，每套 10 个任务，8 个 Seen 训练、2 个 Unseen 测试，训练集汇总所有 Seen 的演示。专家-智能体配对来自同一机器人载体的不同演示。

结果：ViVLA 在所有子套件与 Seen/Unseen 上均显著优于基线，尤其在 Unseen 上提升超过 30%，验证了“看一次就会”的能力。Diffusion Policy 在未见任务几乎为零；OpenVLA/UniVLA 虽有预训练，但未见任务退化明显；AWDA 借助视频演示也被 ViVLA 超越。

6.2. 未见任务（跨机器人）学习

设置：在 LIBERO 上用 UR 机械臂作为专家视频演示、Franka 作为执行智能体，构建跨载体配对并后训练。

结果：在 Seen/Unseen 上均优于基线；在未见任务上仍能通过单视频演示学得新技能并稳定执行。与同载体演示相比，性能仅小幅下降，说明 A3C 潜在动作空间实现了良好的跨载体统一。

6.3. 人类视频驱动的真实世界未见任务

设置：在 Franka 实验平台（如下图原文 Figure 10 所示）评测 12 个任务（6 Seen + 6 Unseen），每任务 10 次随机初始条件，成功由人评估。

Fig. 10: Real-world experiment setup. 该图像是实验设置的示意图，展示了一个机械臂与植物的操作环境。图中标注了侧视图和俯视图，显示了机械臂的工作领域及其与环境的交互方式。

结果定性示例（原文 Figure 9）：

Fig. 9: Example qualitative results for real-world manipulation task. 该图像是表格和示例图的组合，展示了不同方法在LIBERO任务上的表现。表格中列出了多种方法在已知和未知任务的表现指标，并配有相应的操作示例，包含如翻转块、擦拭托盘等操作步骤。

结果定量（原文文本中提供的表格片段，含部分合并单元与缺失项，我们尽可能忠实转录；注意该表在原文存在结构/OCR破损，因此部分单元为空或错位，仅供参考）：

Methods	DP	OpenVLA	UniVLA	AWDA		Ours
Seen	0.64		0.76	0.86	0.74	0.96
Unseen	0.00	0.04		0.10	0.36	0.74
Methods		Flip block	Wipe the tray	Close basket	Place fruit on plate	Stir in tray
Diffusion Policy [87]		0.7	0.6	0.5 0.8	0.8 0.9	0.6
OpenVLA [17]		0.6	0.8			0.7
UniVLA [15]		0.9	0.9			0.8
AWDA [35]		0.8	0.6		0.9 0.8	0.8
Ours		1.0	0.9		1.0	0.9
Methods		Stack block	Place car on basket	Beat the drum	Push the toy	Pour from bowl to plate
Diffusion Policy [87]		0.0	0.0	0.0	0.0	0.0
OpenVLA [17]		0.1	0.1	0.0	0.0	0.0
UniVLA [15]		0.2	0.3	0.0	0.0	0.0
AWDA [35]		0.3	0.4	0.3	0.5	0.3
Ours		0.8	0.8	0.6	0.7	0.8

结论：本文方法在真实世界场景中，既能在 Seen 任务上获得高成功率，验证人机配对数据的质量；也能在 Unseen 任务上显著超越基线，体现从人类视频蒸馏技能并迁移至机器人。

6.4. 鲁棒性分析

环境与场景变化（原文 Figure 12）：

该图像是示意图，展示了不同环境变体对成功率的影响，包括相机设置、照明条件和场景变化。左侧(a)部分列出了四种环境变体，右侧(b)部分呈现了各变体的成功率对比图，显示在不同环境下机器人操作的成功率。

光照变化影响较小；相机视角与场景布置变化影响更显著，但整体仍保持较高鲁棒性。
物体数量与空间分布变化：在“Close basket”、“Stir in tray”（Seen）与“Stack block”、“Beat the drum”、“Push the toy”（Unseen）上，成功率仍较高，说明对物体/布局不一致具有泛化性。

6.5. 消融实验与参数分析

作者在跨机器人未见任务上进行系统消融（“ABLEl ...”片段对应 Table V，按原文数值转录为四个子表）：

(a) 潜在动作预测的作用：

Methods	LIBERO-Spatial		LIBERO-Object		LIBERO-Goal		LIBERO-Long
Methods	Seen	Unseen	Seen	Unseen	Seen	Unseen	Seen	Unseen
W/o prediction	0.91	0.48	0.89	0.55	0.81	0.47	0.76	0.33
Genie	0.93	0.65	0.91	0.62	0.87	0.53	0.82	0.41
A3C	0.95	0.71	0.98	0.73	0.95	0.58	0.90	0.51

(b) 框架组件（判别器、缓冲区）的贡献：

Methods	LIBERO-Spatial		LIBERO-Object		LIBERO-Goal		LIBERO-Long
Methods	Seen	Unseen	Seen	Unseen	Seen	Unseen	Seen	Unseen
W/o discriminator	0.89	0.54	0.91	0.59	0.86	0.45	0.81	0.38
Local discriminator	0.93	0.68	0.96	0.69	0.94	0.55	0.87	0.46
W/o Latent action buffer	0.92	0.66	0.97	0.70	0.91	0.50	0.86	0.46
A3C	0.95	0.71	0.98	0.73	0.95	0.58	0.90	0.51

Methods	LIBERO-Spatial		LIBERO-Object		LIBERO-Goal		LIBERO-Long
Methods	Seen	Unseen	Seen	Unseen	Seen	Unseen	Seen	Unseen
W/o masking	0.94	0.64	0.98	0.67	0.94	0.54	0.91	0.46
Spatial masking	0.95	0.69	0.97	0.72	0.95	0.56	0.90	0.48
Temporal-spatial masking	0.95	0.71	0.98	0.73	0.95	0.58	0.90	0.51

(d) 并行建模 vs 自回归：

Methods	LIBERO-Spatial		LIBERO-Object		LIBERO-Goal		LIBERO-Long
Methods	Seen	Unseen	Seen	Unseen	Seen	Unseen	Seen	Unseen
Auto-regressive	0.92	0.63	0.96	0.67	0.93	0.52	0.87	0.35
Parallel modeling	0.95	0.71	0.98	0.73	0.95	0.58	0.90	0.51

结论：每个组件对最终性能均有重要贡献；并行解码与时空遮挡对未见任务尤为关键；A3C 潜在动作学习显著优于基线的 latent action（如 Genie）。

6.6. 语言与视频的作用（Table VI）

以下是原文 Table VI 的结果：

Methods	Close basket	Stir in tray	Stack block	Beat the drum	Push the toy	Overall
Ours w/o lang	1.0	0.9	0.7	0.6	0.6	0.76
Ours w/o video	0.9	0.9	0.3	0.1	0.0	0.44
Ours	1.0	0.9	0.8	0.6	0.7	0.80

分析：

去语言：整体仅小幅下降，说明模型能从视频中理解任务语义；
去视频：在已见任务仍可依赖语言与已学技能执行，但未见任务显著下降，说明“一次视频演示”是泛化到新任务的关键。

7. 总结与思考

7.1. 结论总结

ViVLA 在测试时仅通过一个专家视频演示即可学会未见任务，无需额外训练；
A3C 建立了语义一致、跨载体统一的离散潜在动作空间，配合局部-全局判别器与循环一致性，有效缓解分布不匹配与信息泄漏；
并行解码与时空遮挡提升视频理解与推理效率，避免自回归的捷径学习；
人类视频驱动的数据生成管线结合 3D 高斯光栅与多维增强，显著扩大了高质量专家-智能体配对数据；
在 LIBERO 未见任务（+30%）、跨载体视频学习（+35%）与真实世界人类视频未见任务（+38%）中取得显著提升。

7.2. 局限性与未来工作

感知局限：静态相机易被遮挡，导致抓取/放置失败；输入中任务相关像素比例偏低。建议引入腕部相机（egocentric 视角）提升交互细节捕获。
恢复能力：当前虽有一定错误恢复，但可通过在数据生成中注入“受控扰动 + 恢复序列”来系统增强。
数据规模：当前人类视频多为人工采集；未来可构建“互联网级”自动管线（过滤、任务识别、质量评估）以扩大语义与环境多样性。

7.3. 个人启发与批判

启发：将“潜在动作词元”作为 VLM 的桥接语言，是让语言-视觉知识落地操控的有效途径；循环一致性与对抗约束结合，是提升跨载体统一与训练稳定性的关键。
可迁移性：该思路可迁移至多模态交互场景（如人形机器人、移动操作），以“看一次”学习复杂长期任务；也可与世界模型结合增强规划与容错。
潜在问题：
- 对抗损失的形式在文中略显非常规（与常见 GAN 记法有差异），但作者强调局部-全局联合；实际训练稳定性需更多开源复现验证；
- 码本大小（K=16）较小，是否限制动作表达能力？尽管并行解码与词元序列可部分弥补，但在更复杂灵巧任务上可能需要更丰富码本或层次化动作。
- 任务语义配对阈值（0.9）较高，可能牺牲覆盖率；如何在语义近似但非严格一致的任务间实现更鲁棒的迁移，值得探索。
  
  下图（原文 Figure 2/1 的概览类图）进一步概述了训练数据与模型流程（示意）：
  
  该图像是示意图，展示了892K专家代理样本的训练数据生成流程。流程中，专家视频和观察输入通过大规模视觉语言模型处理，以提取潜在动作，并使用潜在动作学习（LAT）编码器和解码器进行操控动作的预测与训练。
  
  该图像是一个示意图，展示了ViVLA模型在单次任务学习中的训练和测试过程，包括专家演示视频与机器人的视觉观察的结合，以及883,911个专家-代理样本的生成和性能比较。

附：真实世界定性结果（原文 Figure 9）与鲁棒性场景示例（原文 Figure 11/12）在分析中已引用；它们共同支撑本文结论，即 ViVLA 能在显著环境变化与跨载体条件下保持较高成功率。

相似论文推荐

基于向量语义检索推荐的相关论文。

暂时没有找到相似论文。