AiPaper
论文状态:已完成

UniVLA: Learning to Act Anywhere with Task-centric Latent Actions

发表:2025/05/09
原文链接PDF 下载
价格:0.10
价格:0.10
已有 4 人读过
本分析由 AI 生成,可能不完全准确,请以原文为准。

TL;DR 精炼摘要

UniVLA提出一种学习跨实体视觉-语言-动作(VLA)策略的新框架,旨在解决通用机器人对大量动作标注数据依赖、导致跨环境和实体迁移困难的问题。其核心方法是利用以任务为中心的潜在动作模型,结合语言指令和DINO特征空间,从互联网规模视频中提炼动作表示。实验证明,UniVLA在操作和导航基准及真实机器人部署中均达SOTA,且以远低于OpenVLA的计算和数据成本实现卓越性能,凸显其在可扩展高效机器人策略学习方面的巨大潜力。

摘要

A generalist robot should perform effectively across various environments. However, most existing approaches heavily rely on scaling action-annotated data to enhance their capabilities. Consequently, they are often limited to single physical specification and struggle to learn transferable knowledge across different embodiments and environments. To confront these limitations, we propose UniVLA, a new framework for learning cross-embodiment vision-language-action (VLA) policies. Our key innovation is to derive task-centric action representations from videos with a latent action model. This enables us to exploit extensive data across a wide spectrum of embodiments and perspectives. To mitigate the effect of task-irrelevant dynamics, we incorporate language instructions and establish a latent action model within the DINO feature space. Learned from internet-scale videos, the generalist policy can be deployed to various robots through efficient latent action decoding. We obtain state-of-the-art results across multiple manipulation and navigation benchmarks, as well as real-robot deployments. UniVLA achieves superior performance over OpenVLA with less than 1/20 of pretraining compute and 1/10 of downstream data. Continuous performance improvements are observed as heterogeneous data, even including human videos, are incorporated into the training pipeline. The results underscore UniVLA's potential to facilitate scalable and efficient robot policy learning.

思维导图

论文精读

中文精读

1. 论文基本信息 (Bibliographic Information)

  • 标题 (Title): UniVLA: Learning to Act Anywhere with Task-centric Latent Actions (UniVLA:通过以任务为中心的潜在动作学习在任何地方行动)
  • 作者 (Authors): Qingwen Bu, Yanting Yang, Jisong Cai, Shenyuan Gao, Guanghui Ren, Maoqing Yao, Ping Luo, Hongyang Li.
  • 隶属机构 (Affiliations): The University of Hong Kong (香港大学), OpenDriveLab, AgiBot.
  • 发表期刊/会议 (Journal/Conference): 本文目前发布于 arXiv,是一个预印本 (Preprint) 平台。arXiv 上的论文通常是待同行评审或已发表于顶会/期刊的早期版本,在计算机科学领域具有极高的影响力,是快速传播最新研究成果的重要渠道。
  • 发表年份 (Publication Year): 2025 (根据 arXiv 提交版本推断)
  • 摘要 (Abstract): 一个通用机器人应能在各种环境中有效执行任务。然而,现有方法大多严重依赖于大规模带有动作标注的数据来提升能力,这导致它们通常局限于单一的物理规格,难以在不同的机器人实体 (embodiment) 和环境中迁移知识。为解决这些局限,本文提出了 UniVLA,一个学习跨实体视觉-语言-动作 (VLA) 策略的新框架。其核心创新在于通过一个潜在动作模型 (latent action model) 从视频中推导以任务为中心 (task-centric) 的动作表示。这使得模型能利用来自广泛实体和视角的海量数据。为了减轻任务无关动态 (task-irrelevant dynamics) 的影响,本文引入了语言指令,并在 DINO 特征空间中建立了潜在动作模型。通过在互联网规模的视频上学习,这个通用策略可以通过高效的潜在动作解码部署到各种机器人上。实验结果在多个操作和导航基准测试以及真实机器人部署中均达到了业界领先水平。UniVLA 以不到 OpenVLA 1/20 的预训练计算量和 1/10 的下游数据量,取得了超越后者的性能。随着异构数据(甚至包括人类视频)被整合到训练流程中,性能持续提升。这些结果凸显了 UniVLA 在促进可扩展和高效的机器人策略学习方面的潜力。
  • 原文链接 (Source Link):

2. 整体概括 (Executive Summary)

  • 研究背景与动机 (Background & Motivation - Why):

    • 核心问题: 当前的通用机器人策略模型(如 VLA 模型)严重依赖于带有精确动作标签的机器人演示数据。这种数据采集成本高昂、规模受限,并且由于不同机器人(例如不同的机械臂、移动机器人,甚至人类)的物理形态 (embodiment) 和动作空间 (action space) 千差万别,导致模型学习到的知识很难在不同机器人之间迁移。
    • 重要性与挑战 (Gap): 这一限制阻碍了机器人领域利用互联网上海量的、无动作标签的视频数据(例如人类活动视频、机器人操作视频等)来训练更通用、更强大的机器人大脑。现有方法直接从视频像素中学习动作,往往会混入大量与任务无关的“噪音”,例如背景物体的移动、摄像头的晃动等,这会干扰策略的学习。
    • 创新思路: 本文的切入点是,是否可以设计一种统一的、与具体机器人形态无关的动作表示?作者提出,可以通过一个潜在动作模型,直接从视频的视觉变化中,无监督地学习一种离散的、抽象的“潜在动作”(latent action)。更进一步,通过巧妙地利用语言指令,可以将视觉变化分解为“任务相关的”和“任务无关的”两部分,从而让模型只关注对完成任务有用的动作信息,实现更高效、更鲁棒的学习。
  • 核心贡献/主要发现 (Main Contribution/Findings - What):

    • 提出了 UniVLA 框架: 这是一个全新的、可扩展的通用机器人策略学习框架。其核心是一个三阶段流程:1) 学习潜在动作:从海量视频中无监督地提取出一种离散的、以任务为中心的潜在动作表示;2) 预训练通用策略:训练一个 VLA 模型来预测这些潜在动作,而不是具体的机器人指令;3) 下游任务部署:通过一个轻量级的解码器,将模型预测的潜在动作翻译成特定机器人的可执行指令。
    • 创新的潜在动作解耦方法: 提出了一个两阶段训练方法,利用语言指令作为条件,成功地将视频中的动态变化解耦为“任务相关的”和“任务无关的”两组潜在动作。这使得模型能够过滤掉噪音,专注于学习核心的、可迁移的动作知识,是本文最关键的技术创新点。
    • 卓越的性能和效率: UniVLA 在多个机器人操作和导航基准测试中取得了当前最佳(SOTA)性能,全面超越了之前的标杆模型 OpenVLA。尤其突出的是,UniVLA 的训练效率极高,仅用了 OpenVLA 不到 1/20 的计算资源和 1/10 的下游微调数据,这证明了其方法的高效性和数据利用率。
    • 强大的可扩展性: 实验证明,将更多不同来源的异构数据(包括其他机器人的数据,甚至人类视频)加入预训练,UniVLA 的性能会持续提升,这验证了其作为一种可扩展学习范式的巨大潜力。

3. 预备知识与相关工作 (Prerequisite Knowledge & Related Work)

  • 基础概念 (Foundational Concepts):

    • 视觉-语言-动作模型 (Vision-Language-Action Model, VLA): 这是一类多模态模型,它能同时接收视觉输入(如摄像头图像)、语言输入(如任务指令 "拿起苹果")和动作输入(如机器人的关节角度),并学习预测下一步的动作。它们通常基于强大的 Transformer 架构,旨在构建一个能理解并执行任务的通用机器人“大脑”。
    • 跨实体学习 (Cross-Embodiment Learning): 指的是让一个机器人策略能够应用于多种不同物理形态的机器人。例如,一个为 Franka 机械臂训练的模型,也能在 WidowX 机械臂上工作。这是通用机器人领域的一个核心挑战,因为不同机器人的关节数量、控制方式、相机视角等都不同。
    • 潜在动作 (Latent Action): 这是一种抽象的、低维的动作表示,它不直接对应于机器人的物理指令(如关节角度、末端速度),而是对行为的一种高层编码。本文中的潜在动作是通过模型从视频的视觉变化中自动学习出来的,形式上是一组离散的 token
    • 向量量化变分自编码器 (Vector Quantized Variational Autoencoder, VQ-VAE): 一种生成模型,其核心思想是将连续的潜在表示(由编码器 Encoder 产生)映射到一个离散的码本 (codebook) 中。这可以看作是一种信息压缩和离散化的过程。本文用它来学习离散的潜在动作码本。
    • DINOv2 特征: DINOv2 是一个通过自监督学习预训练的强大视觉模型。它能从图像中提取出具有丰富语义信息和空间结构的特征,尤其擅长识别物体及其部件。本文不直接使用原始像素,而是在 DINOv2 提取的特征空间中进行学习,可以有效滤除光照、纹理等无关细节,更关注场景中的物体和结构。
  • 前人工作 (Previous Works):

    • 依赖动作标签的 VLA 模型:RT-1, Octo, OpenVLA 等,它们通过在大量带有精确动作标签的机器人数据上进行训练,取得了巨大成功。但它们的局限性在于严重依赖这些昂贵的数据,难以利用无标签的视频。
    • 跨实体学习方法:
      • 一些方法尝试手动对齐不同机器人的动作空间(如 Yang et al. [86]),但这很繁琐且不通用。
      • 另一些方法利用流表示 (Flow representations) 或以物体为中心的表示 (object-centric representations) 来解耦动作和机器人形态。例如,ATMSPOT 预测的是像素或物体的运动轨迹,而不是具体的关节指令。这些方法的局限性在于需要大量多样化的数据来覆盖所有可能的状态转换,并且通常需要显式的标注。
    • 潜在动作学习方法:
      • 一些工作如 VQ-BeTQuest 在已有的动作轨迹上学习潜在动作空间,但它们仍然依赖动作标签
      • Genie, LAPA, IGOR 等工作开始探索从无标签视频中学习潜在动作,这与本文方向一致。但它们的核心局限性在于,它们试图对视频中的所有视觉变化进行编码,导致学习到的潜在动作混杂了大量任务无关的动态(如相机抖动、背景移动),从而降低了策略性能。
  • 技术演进 (Technological Evolution): 机器人策略学习的技术路线大致经历了从依赖精确物理状态到利用原始传感器输入,再到结合多模态信息(特别是语言)的演进。近期,随着基础模型的兴起,研究焦点转向如何利用大规模、多样化的数据进行预训练,以构建通用机器人策略。本文正处于这一浪潮的前沿,试图打破对“动作标签”的依赖,转向利用更广泛的、无标签的视频数据。

  • 差异化分析 (Differentiation): 与最相关的LAPA等工作相比,UniVLA的核心区别和创新点在于:

    1. 特征空间不同: UniVLA 不在像素空间进行预测,而是在 DINOv2 特征空间中操作。这利用了预训练视觉模型的强大先验知识,能更好地关注物体的语义和结构信息,而不是无关的视觉细节。
    2. 创新的动作解耦机制: UniVLA 不把所有视觉变化都编码为动作。它通过一个巧妙的两阶段训练过程,并利用语言指令作为引导,将动态变化显式地解耦 (decouple) 为“任务相关的”和“任务无关的”两部分。这使得最终用于策略学习的潜在动作更加纯粹、信息密度更高,从而极大地提升了学习效率和性能。

4. 方法论 (Methodology - Core Technology & Implementation Details)

UniVLA 的实现分为三个核心步骤:1) 任务中心潜在动作学习;2) 通用策略预训练;3) 部署后训练。

  • 方法原理 (Methodology Principles): 其核心思想是构建一个统一的、与机器人形态无关的动作空间,使得策略模型可以从各种来源的视频(机器人、人类)中学习通用的任务规划能力。这个统一的动作空间由一系列离散的“潜在动作 token”构成。为了让这些 token 精准地表达“任务意图”而非环境噪音,模型利用语言指令来引导,将所有动态变化分解,只保留与任务执行相关的部分作为最终的动作表示。

  • 方法步骤与流程 (Steps & Procedures):

    第一步:任务中心潜在动作学习 (Task-centric Latent Action Learning)

    这一步的目标是从视频中学习一个高质量的、离散的潜在动作码本,作为后续策略学习的“伪标签”。这个过程本身是无监督的(不需要动作标签),并分为两个阶段,如下图所示:

    该图像为示意图,展示了UniVLA框架中基于DINO v2特征的两阶段训练流程。左侧为第一阶段,视频帧通过空间-时间转换器编码,潜在动作量化器提取任务无关的潜在动作表示,加入任务指令后进行监督训练。右侧为第二阶段,复制第一阶段编码器权重,潜在动作表示分为任务无关和任务相关部分,用以提升任务聚焦的动作编码,继续监督训练优化模型。图中用不同颜色和符号区分任务相关与无关的潜在动作。 该图像为示意图,展示了UniVLA框架中基于DINO v2特征的两阶段训练流程。左侧为第一阶段,视频帧通过空间-时间转换器编码,潜在动作量化器提取任务无关的潜在动作表示,加入任务指令后进行监督训练。右侧为第二阶段,复制第一阶段编码器权重,潜在动作表示分为任务无关和任务相关部分,用以提升任务聚焦的动作编码,继续监督训练优化模型。图中用不同颜色和符号区分任务相关与无关的潜在动作。

    • 模型结构:

      • 输入: 一对连续的视频帧 {ot,ot+k}\{o_t, o_{t+k}\},以及对应的语言指令 \ell。所有图像帧首先通过一个冻结的 DINOv2 模型转换成 patch 特征 {Ot,Ot+k}\{O_t, O_{t+k}\}
      • 编码器 (Encoder): 一个时空 Transformer T\mathcal{T},接收 OtO_tOt+kO_{t+k},预测两者之间的动态变化,输出为潜在动作向量。
      • 解码器 (Decoder): 一个空间 Transformer F\mathcal{F},接收 OtO_t 和预测的潜在动作,尝试重建出未来的帧特征 O^t+k\hat{O}_{t+k}
      • 量化 (Quantization): 使用 VQ-VAE 的码本将连续的潜在动作向量离散化为最接近的码本条目。
    • 训练流程:

      • 阶段 1: 学习任务无关动态 (Task-irrelevant Dynamics)

        • 编码器接收帧特征 {Ot,Ot+k}\{O_t, O_{t+k}\} 和语言指令嵌入 \ell
        • 解码器接收初始帧特征 OtO_t语言指令嵌入 \ell 和量化后的潜在动作 a~TI\tilde{a}_{TI}
        • 核心直觉: 由于解码器已经得到了高层语义的语言指令(例如“打开抽屉”),为了最小化重建误差,量化后的潜在动作 a~TI\tilde{a}_{TI} 就被迫去编码那些语言指令未包含的、任务无关的低层视觉细节,例如背景变化、光照改变、非主体物体的移动等。
        • 此阶段训练出一个专门编码“任务无关”信息的码本 VQ\mathbf{VQ} 和模型参数。
      • 阶段 2: 学习任务中心动态 (Task-centric Dynamics)

        • 冻结阶段 1 学习到的任务无关码本 VQ\mathbf{VQ} 和模型参数。
        • 引入一个新的、可训练的码本 VQTC\mathbf{VQ}_{TC},用于学习任务中心 (task-centric) 的动作。
        • 编码器现在需要同时预测两组潜在动作:任务无关的 a^TI\hat{a}_{TI} 和任务中心的 a^TC\hat{a}_{TC}
        • 解码器接收 OtO_t 以及量化后的两组动作 {a~TI,a~TC}\{\tilde{a}_{TI}, \tilde{a}_{TC}\} 来重建未来帧。
        • 核心直觉: 由于 a~TI\tilde{a}_{TI} 已经被训练为专门捕捉任务无关的动态,新引入的 a~TC\tilde{a}_{TC} 在重建目标的压力下,将不得不专注于编码与任务执行直接相关的动态,例如机械臂的移动、物体的被操作等。
        • 最终,我们得到了一个高质量的、只编码任务核心动态的码本 VQTC\mathbf{VQ}_{TC}

    第二步:通用策略预训练 (Pretraining of Generalist Policy)

    利用上一步训练好的潜在动作模型,我们可以为任何视频片段 (ot,ot+k)(o_t, o_{t+k}) 生成一个任务中心的潜在动作标签 az,TCa_{z, TC}。然后,我们用这些伪标签来训练一个通用的 VLA 策略。

    该图像为示意图,展示了UniVLA框架中基于自回归Transformer的任务中心潜在动作解码流程。底部输入包括第三视角RGB图像(DINOv2特征)、任务指令(Tokenizer编码)。通过Transformer编码处理后,产出潜在动作令牌序列,再经过动作解码器映射至异构机器人动作空间,实现跨平台动作表示和执行。 该图像为示意图,展示了UniVLA框架中基于自回归Transformer的任务中心潜在动作解码流程。底部输入包括第三视角RGB图像(DINOv2特征)、任务指令(Tokenizer编码)。通过Transformer编码处理后,产出潜在动作令牌序列,再经过动作解码器映射至异构机器人动作空间,实现跨平台动作表示和执行。

    • 模型架构: 基于 Prismatic-7B VLM,它包含 SigLipDINOv2 视觉编码器,以及 LLaMA-2 大语言模型。
    • 词表扩展: 作者没有像 OpenVLA 那样将动作数值映射到现有的词汇上,而是直接在 LLaMA 的词表中增加了 C|C| 个新的特殊 token,例如 ACT_1, ACT_2, ..., ACT_C。每个 token 对应潜在动作码本中的一个条目。
    • 训练目标: 模型 πϕ\pi_{\phi} 接收当前观测 oto_t 和任务指令 ll,以自回归 (auto-regressive) 的方式预测下一个潜在动作 token 序列 az={az,1,az,2,...,az,N}a_z = \{a_{z,1}, a_{z,2}, ..., a_{z,N}\}。其优化目标是最小化负对数似然损失。

    第三步:部署后训练 (Post-training for Deployment)

    预训练好的模型只懂得预测抽象的潜在动作,还需要适配到具体的机器人上。

    • 潜在动作解码器 (Latent Action Decoder):

      • 这是一个轻量级的网络模块(action head),它的任务是将 VLM 输出的潜在动作嵌入 EaE_a 翻译成具体机器人的物理动作(如7自由度机械臂的关节角度)。
      • 为了让解码更精准,解码器还利用了当前的视觉嵌入 EvE_v 作为查询 (query),从潜在动作嵌入中提取与当前场景相关的信息。
      • 由于潜在动作被设计为表示约 1 秒内的动态,它可以很自然地被解码为一段动作序列 (action chunks),提高了控制的平滑度和效率。
    • 利用历史输出学习 (Learn from History Outputs):

      • 为了增强模型的时序推理能力,作者借鉴了 LLM 的思维链 (Chain-of-Thought) 思想。在每一步推理时,将上一步预测出的潜在动作 token 序列也作为输入,拼接到任务指令后面。
      • 这形成了一个反馈循环,让策略能够“回顾”自己之前的决策,从而在执行长序列任务时做出更连贯的规划。
  • 数学公式与关键细节 (Mathematical Formulas & Key Details):

    • 阶段 1 - 潜在动作学习公式: {Encode:a^II=Z([Ot;Ot+k;aTI;]), a~II=VQ(a^II),Decode:O^t+k=F([Ot;a~TI;]), \left\{ \begin{array} { l l } { \operatorname { E n c ode: } } & { \hat { a } _ { I I } = \mathcal { Z } ( [ O _ { t } ; O _ { t + k } ; a _ { T I } ; \ell ] ) , \ \tilde { a } _ { I I } = \mathbf { V Q } ( \hat { a } _ { I I } ) , } \\ { \operatorname { D e c ode: } } & { \hat { O } _ { t + k } = \mathcal { F } ( [ O _ { t } ; \tilde { a } _ { T I } ; \ell ] ) , } \end{array} \right.

      • 符号解释:
        • Ot,Ot+kO_t, O_{t+k}: 当前帧和未来帧的 DINOv2 特征。
        • \ell: 语言指令的 T5 嵌入。
        • [;]: 序列拼接操作。
        • Z\mathcal{Z}: 编码器模型(原文中用 T\mathcal{T})。
        • a^TI\hat{a}_{TI}: 编码器输出的连续的任务无关潜在动作向量。
        • VQ()\mathbf{VQ}(\cdot): 向量量化操作,将连续向量映射到码本。
        • a~TI\tilde{a}_{TI}: 量化后的离散任务无关潜在动作。
        • F\mathcal{F}: 解码器模型。
        • O^t+k\hat{O}_{t+k}: 解码器重建的未来帧特征。
    • 阶段 2 - 潜在动作学习公式: {Encode:{a^TI,a^TC}=T([Ot;Ot+k;aTI;aTC]),a~TI=VQ(a^TI),a~TC=VQTC(a^TC),Decode:O^t+k=F([Ot;a~TI;a~TC]), \left\{ \begin{array} { l l } { \mathrm { E n c ode: } } & { \{ \hat { a } _ { T I } , \hat { a } _ { T C } \} = \mathcal { T } ( [ O _ { t } ; O _ { t + k } ; a _ { T I } ; a _ { T C } ] ) , } \\ & { \tilde { a } _ { T I } = \mathbf { V Q } ( \hat { a } _ { T I } ) , \tilde { a } _ { T C } = \mathbf { V Q } _ { T C } ( \hat { a } _ { T C } ) , } \\ { \mathrm { D e c ode: } } & { \hat { O } _ { t + k } = \mathcal { F } ( [ O _ { t } ; \tilde { a } _ { T I } ; \tilde { a } _ { T C } ] ) , } \end{array} \right.

      • 符号解释:
        • a^TC,a~TC\hat{a}_{TC}, \tilde{a}_{TC}: 新引入的任务中心潜在动作的连续和离散表示。
        • VQTC\mathbf{VQ}_{TC}: 新的任务中心码本。
    • 通用策略预训练损失函数: L=Eot,l,az,<i[i=1Nlog πϕ(a^z,i=az,iot,l,az,<i)] \mathcal { L } = \mathbb { E } _ { o _ { t } , l , a _ { z , < i } } \left[ - \sum _ { i = 1 } ^ { N } \log \ \pi _ { \phi } ( \hat { a } _ { z , i } = a _ { z , i } \mid o _ { t } , l , a _ { z , < i } ) \right]

      • 符号解释:
        • πϕ\pi_{\phi}: 参数为 ϕ\phi 的策略模型。
        • ot,lo_t, l: 当前观测和语言指令。
        • az,<ia_{z, <i}: 在预测第 ii 个动作 token 时,已经生成的前 i-1token
        • az,ia_{z, i}: 真实的第 ii 个动作 token 标签。
        • NN: 动作 token 序列的总长度(本文设为 4)。
        • 公式目的: 该公式是标准的自回归模型的最大似然估计损失,即最大化模型预测出正确动作 token 序列的概率。

5. 实验设置 (Experimental Setup)

  • 数据集 (Datasets):

    • 预训练数据集:
      • 机器人数据: Open X-Embodiment (OpenX) 数据集的一个子集(包含单臂末端控制任务)、GNM 数据集(包含室内外导航任务)。这些数据只用了图像和文本指令,动作标签被丢弃。
      • 人类视频数据: Ego4D 数据集,包含日常人类活动的第一视角视频。这些数据完全没有动作标签。
    • 下游评估数据集 (Benchmarks):
      • 操作任务 (Manipulation):
        • LIBERO: 包含四个任务套件,旨在评估模型的泛化能力,如对新物体 (LIBERO-Object)、新目标 (LIBERO-Goal)、新布局 (LIBERO-Spatial) 和长序列任务 (LIBERO-Long) 的适应性。
        • CALVIN: 一个长序列、语言条件下的机器人操作基准。
        • SimplerEnv: 一个旨在模拟真实世界物理和视觉的仿真环境。
      • 导航任务 (Navigation): Room-to-Room (R2R),在真实照片级的室内场景中,根据语言指令进行导航。
      • 真实世界部署 (Real-world Scenarios): 使用 AgileX Piper 7自由度机械臂,设计了四种真实世界任务,包括工具使用、可变形物体操作和需要语义理解的任务。
  • 评估指标 (Evaluation Metrics):

    • 成功率 (Success Rate):
      1. 概念定义: 这是评估机器人任务完成度的最直接指标。它衡量了在多次尝试中,机器人成功完成指定任务的次数所占的比例。成功与否通常由一个预定义的、任务相关的标准来判断(例如,物体是否被放置在目标区域内)。值为 100% 表示每次尝试都成功。
      2. 数学公式: Success Rate=Number of Successful TrialsTotal Number of Trials×100% \text{Success Rate} = \frac{\text{Number of Successful Trials}}{\text{Total Number of Trials}} \times 100\%
      3. 符号解释:
        • Number of Successful Trials: 成功完成任务的试验次数。
        • Total Number of Trials: 进行的总试验次数。
    • Oracle 成功率 (Oracle Success Rate):
      1. 概念定义: 这是在视觉-语言导航 (VLN) 任务中常用的一个评估指标。它衡量的是代理(agent)在导航过程中,其路径上是否存在一个点与目标点的距离小于成功阈值(例如 3 米)。这个指标比标准的成功率(要求代理在终点停下)更宽松,因为它不惩罚代理“路过”了目标点但没有停下的情况,更能反映策略生成的轨迹质量。
      2. 数学公式: Oracle Success Rate=i=1NI(minpτidist(p,gi)<dsuccess)N \text{Oracle Success Rate} = \frac{\sum_{i=1}^{N} \mathbb{I}(\min_{p \in \tau_i} \text{dist}(p, g_i) < d_{\text{success}})}{N}
      3. 符号解释:
        • NN: 评估的总轨迹数量。
        • τi\tau_i: 第 ii 次试验中代理生成的轨迹(一系列点的集合)。
        • pp: 轨迹 τi\tau_i 上的任意一个点。
        • gig_i: 第 ii 次试验的目标点。
        • dist(p,gi)\text{dist}(p, g_i): 点 pp 和目标点 gig_i 之间的欧氏距离。
        • dsuccessd_{\text{success}}: 成功的距离阈值(例如 3 米)。
        • I()\mathbb{I}(\cdot): 指示函数,当条件为真时取 1,否则取 0。
    • 分步得分 (Step-wise Score):
      1. 概念定义: 这是作者为真实世界实验设计的辅助指标,用于更细致地评估策略的表现,尤其是在任务失败时。它将一个复杂任务分解为多个关键子目标,每完成一个子目标就得一分。这可以区分“完全没动”的失败和“完成了大部分步骤但在最后一步失败”的情况,后者显然是更好的策略。例如,在一个“拿起螺丝刀放入柜子并关门”的任务中,得分系统可能为:拿起螺丝刀(1分),放入柜子(1分),关上柜门(1分),满分3分。
      2. 数学公式: Scorei=j=1KwjI(subgoalj is completed in trial i) \text{Score}_i = \sum_{j=1}^{K} w_j \cdot \mathbb{I}(\text{subgoal}_j \text{ is completed in trial } i)
      3. 符号解释:
        • Scorei\text{Score}_i: 第 ii 次试验的总得分。
        • KK: 任务的子目标总数。
        • wjw_j: 第 jj 个子目标的权重(本文中默认为 1)。
        • I()\mathbb{I}(\cdot): 指示函数,判断子目标是否完成。
  • 对比基线 (Baselines):

    • 通用 VLA 模型: OpenVLA, LAPA, Octo。这些是与 UniVLA 最直接的竞争对手,也是基于大规模数据预训练的通用策略。
    • 其他操作任务模型: Diffusion Policy (基于扩散模型的单任务策略), MDT, MaIL
    • 导航任务模型: Seq2Seq, CMA (早期的经典模型), LLaVA-Nav, NaVid (基于 VLM 的先进导航模型)。

6. 实验结果与分析 (Results & Analysis)

    ![该图像为示意图,展示了UniVLA框架如何通过任务中心的潜在动作空间整合多源视频数据(机器人操作、人类视频、室内外导航),实现跨身体形态的视觉-语言-动作策略学习。右侧柱状图对比了UniVLA与OpenVLA在多个基准任务(如LIBERO、Room2Room、SimplerEnv、CALVIN及真实机器人)上的效果,显示UniVLA显著优于OpenVLA。](/files/papers/68e8e6b0fbdd1739a3853589/images/1.jpg)
    *该图像为示意图,展示了UniVLA框架如何通过任务中心的潜在动作空间整合多源视频数据(机器人操作、人类视频、室内外导航),实现跨身体形态的视觉-语言-动作策略学习。右侧柱状图对比了UniVLA与OpenVLA在多个基准任务(如LIBERO、Room2Room、SimplerEnv、CALVIN及真实机器人)上的效果,显示UniVLA显著优于OpenVLA。*

上图直观展示了 UniVLA 的核心思想和在多个基准测试上的压倒性优势。

  • 核心结果分析 (Core Results Analysis):

    • LIBERO 操作基准 (Table I):

      • 转录表格 I: Results on LIBERO benchmark across four evaluation suites.

        方法 Spatial Object Goal Long Average
        LAPA* 73.8 74.6 58.8 55.4 65.7
        Diffusion Policy 78.3 92.5 68.3 51.1 72.4
        Octo 78.9 85.7 84.6 50.5 75.1
        MDT 78.5 84.7 73.5 64.8 76.1
        OpenVLA 74.3 88.4 79.2 53.7 76.5
        MaIL† 90.1 81.8 78.6 - 83.5
        UniVLA (Human) 91.2 94.2 90.2 79.4 88.7
        UniVLA (Bridge) 95.2 95.4 91.9 87.5 92.5
        UniVLA (Full) 96.5 96.8 95.6 92.0 95.2
      • 分析: UniVLA (Full) 在所有四个 LIBERO 子任务上均取得 SOTA,平均成功率高达 95.2%,显著超过 OpenVLA 的 76.5% 和 LAPA 的 65.7%。更惊人的是,即使只用 Bridge-V2 数据集进行预训练,UniVLA 的性能 (92.5%) 依然超越了使用更大规模 OpenX 数据集预训练的 OpenVLA。甚至只用人类视频预训练的 UniVLA (88.7%) 也比 OpenVLA 强,这强有力地证明了其方法在知识迁移和数据利用上的巨大优势。

    • R2R 导航基准 (Figure 6):

      该图像为柱状图,展示了不同方法在“Oracle Success Rate”指标上的表现。柱状图中,Seq2Seq、CMA、LLaVA-Nav、OpenVLA、NaVid和UniVLA六种方法依次对应不同颜色,UniVLA达到47.1%,仅略低于NaVid的49.1%,显著优于其他几种方法,体现了UniVLA的高效性能。 该图像为柱状图,展示了不同方法在“Oracle Success Rate”指标上的表现。柱状图中,Seq2Seq、CMA、LLaVA-Nav、OpenVLA、NaVid和UniVLA六种方法依次对应不同颜色,UniVLA达到47.1%,仅略低于NaVid的49.1%,显著优于其他几种方法,体现了UniVLA的高效性能。

      • 分析: UniVLA 的 Oracle 成功率达到 47.1%,远超 OpenVLA 的 17.5%。其性能几乎与 NaVid (49.1%) 持平,但 NaVid 需要输入全部历史观测图像,而 UniVLA 只需输入当前观测历史潜在动作,计算效率更高。这表明 UniVLA 的潜在动作表示能有效压缩时序信息。
    • 真实机器人部署 (Figure 5 & Table II):

      这是一张图表,展示了四个机器人操作任务(存放螺丝刀、清洁切菜板、折叠毛巾两次、堆叠汉诺塔)的成功率对比柱状图。不同颜色代表Diffusion Policy、OpenVLA、LAPA和UniVLA四种方法,UniVLA在各任务中均表现最佳。右侧两个小图表显示了各方法的平均成功率和平均得分,UniVLA以81.7%的成功率和2.63的分数显著领先。 这是一张图表,展示了四个机器人操作任务(存放螺丝刀、清洁切菜板、折叠毛巾两次、堆叠汉诺塔)的成功率对比柱状图。不同颜色代表Diffusion Policy、OpenVLA、LAPA和UniVLA四种方法,UniVLA在各任务中均表现最佳。右侧两个小图表显示了各方法的平均成功率和平均得分,UniVLA以81.7%的成功率和2.63的分数显著领先。每个任务下方配有对应操作场景的机器人示意图。

      • 分析: 在真实世界中,UniVLA 的平均成功率达到 81.7%,平均得分 2.63,全面碾压所有基线方法。OpenVLA 因推理延迟导致动作卡顿,表现不佳 (38.3%)。Diffusion Policy 在结构化的“折叠毛巾”任务中表现尚可,但在需要语义理解的“汉诺塔”任务中几乎完全失败 (6.7%)。而 UniVLA 在所有任务中都表现出强大的鲁棒性和泛化能力。

      • 转录表格 II: Generalizability evaluations.

        方法 Lightning Variation Visual Distractor Novel Object Average ↑
        Succ. / Score Succ. / Score Succ. / Score Succ. / Score
        Diffusion Policy 20.0 / 0.60 26.7 / 0.80 26.7 / 0.67 24.4 / 0.69
        OpenVLA 13.3 / 0.93 20.0 / 0.73 26.7 / 1.27 20.0 / 0.98
        LAPA 26.7 / 1.60 6.7 / 0.6 53.3 / 1.87 28.9 / 1.36
        UniVLA (Ours) 66.7 / 2.33 53.3 / 2.40 86.7 / 2.73 68.9 / 2.49
      • 泛化性分析: 在光照变化、视觉干扰、新物体等泛化测试中,UniVLA 的表现依然出色,平均成功率 68.9%,远超其他方法,证明其学习到的策略具有很强的鲁棒性。

  • 消融实验/参数分析 (Ablation Studies / Parameter Analysis):

    • 潜在动作的有效性 (Table III):

      • 转录表格 III: Performance on LIBERO using various latent actions.

        潜在动作 Spatial Object Goal Long Avg.
        Genie [12] 89.8 92.8 77.2 69.6 82.3
        Task-irrelevant 68.0 90.4 67.2 0.2 56.5
        Task-centric 91.2 94.2 90.2 79.4 88.7
      • 分析: 这个实验非常关键。使用作者提出的任务中心 (task-centric) 潜在动作进行训练,性能最佳 (88.7%)。使用朴素的方法(如 Genie,编码所有视觉变化)性能次之 (82.3%)。而如果只用任务无关 (task-irrelevant) 的潜在动作,模型性能急剧下降 (56.5%),在长序列任务上几乎完全失败。这雄辩地证明了作者提出的动作解耦方法的极端重要性和有效性。

    • 数据可扩展性 (Figure 9): 实验结果显示,在 Bridge-V2 数据基础上,继续加入 OpenX 的跨实体数据和 Ego4D 的人类视频数据,UniVLA 在真实世界和导航任务上的性能持续稳定提升。这表明 UniVLA 框架能有效从异构数据中获益,具有良好的可扩展性。

    • 数据效率 (Figure 10):

      该图像为图表,包含两个子图,分别展示了不同方法在LIBERO-Goal和LIBERO-Long任务中,随着训练示范比例增加,成功率的变化趋势。图中绿色曲线(Ours)表现出明显优于其他方法(ATM、OpenVLA及Previous SOTA),在各训练数据量下均取得最高成功率,且成功率随训练示范增加稳定提升,展示了UniVLA方法的优势和泛化能力。 该图像为示意图,展示了UniVLA算法在四种不同任务类型下的机器人操作场景:LIBERO-Spatial(同物体不同布局)、LIBERO-Object(已知布局新物体)、LIBERO-Goal(同物体同布局不同目标)、LIBERO-Long(长时间操控任务)。每种任务配有对应的操作指令和机器人执行动作的连续画面,体现了模型在多样环境和目标下的泛化能力。

      • 分析: UniVLA 的数据效率极高。在 LIBERO-Goal 任务中,仅用 10% 的训练数据,UniVLA 的性能就超过了使用 100% 数据训练的 OpenVLA。这说明通过预训练学习到的通用潜在动作空间极大地减少了对下游任务特定数据的依赖。
    • 历史动作的作用 (Table V):

      • 转录表格 V: Ablations on the use of history action.

        Prompt Input LIBERO (Manip.) Goal LIBERO (Manip.) Long R2R (Navi.)
        Instruction-only 95.0 88.1 30.6
        w/ History Action 95.6 92.0 47.1
      • 分析: 将上一步的潜在动作加入到当前输入中,能显著提升模型在长序列任务 (LIBERO-LongR2R) 上的性能,成功率分别提升了 3.9% 和 16.5%。这证明了这种简单的“思维链”式设计能有效增强模型的时序规划能力。

7. 总结与思考 (Conclusion & Personal Thoughts)

  • 结论总结 (Conclusion Summary): 本文成功地提出了 UniVLA,一个能够在统一的、以任务为中心的潜在动作空间中进行规划的 VLA 模型。通过创新的两阶段动作解耦方法,UniVLA 能够有效利用海量的、无动作标签的异构视频数据(包括人类视频),学习到可迁移的通用机器人技能。实验结果表明,UniVLA 不仅在多个操作和导航基准上刷新了 SOTA 记录,而且在训练效率、数据效率和可扩展性方面表现出巨大优势,为构建下一代通用机器人策略开辟了一条充满希望的道路。

  • 局限性与未来工作 (Limitations & Future Work):

    • 潜在动作的粒度: 当前潜在动作的粒度(时间跨度、抽象层次)和码本大小是固定的,可能不是对所有任务和机器人都最优。未来可以探索自适应调整这些参数的机制。
    • 任务复杂度: 目前主要在单臂操作任务上进行了评估。对于更复杂的双臂或灵巧手任务,可能需要更精细的动作空间建模。
    • 语言指令的依赖: 本文方法受益于细粒度的语言指令来帮助解耦。虽然它对不同粒度的指令都有效,但探索如何更好地利用高层、模糊的指令是一个有价值的方向。
    • 与世界模型的结合: 潜在动作模型的解码器本质上是一个世界模型。未来可以利用它进行模拟推演和规划(例如蒙特卡洛树搜索),或者结合强化学习进行策略优化。
    • 上下文学习 (In-context Learning): 利用训练好的潜在动作模型作为“视频 tokenizer”,将人类演示视频编码为紧凑的潜在动作序列,作为 VLMin-context 示例,有望实现零样本的技能学习。
  • 个人启发与批判 (Personal Insights & Critique):

    • 核心启发: 本文最令人印象深刻的洞见是“解耦”的思想。在复杂的信息中(如视频流),识别并分离出与目标任务相关的核心变量,是实现高效学习的关键。这种思想不仅适用于机器人动作学习,也对其他机器学习领域(如表征学习、因果推断)有重要借鉴意义。
    • 方法的巧妙性: 利用语言指令作为“锚点”来分离任务相关和无关的动态,是一个非常聪明的“借力”设计。它没有引入复杂的监督信号,而是巧妙地利用了数据中已有的模态,将一个困难的无监督问题转化为了一个可解的自监督问题。
    • 潜在问题与改进方向:
      1. DINOv2 的依赖: 该方法严重依赖 DINOv2 特征的质量。虽然 DINOv2 很强大,但这使得整个框架的性能上限受限于这个预训练模型。如果遇到 DINOv2 表现不佳的场景(例如透明物体、特定纹理),UniVLA 的性能可能会下降。未来的工作可以探索端到端地联合训练视觉特征提取器。
      2. 两阶段训练的复杂性: 两阶段训练过程虽然有效,但引入了更多的超参数和训练步骤,可能会增加复现和调优的难度。探索更简洁的单阶段解耦方法可能是一个有价值的方向。
      3. “任务无关”的定义: 文中将所有非主体动作的动态归为“任务无关”,但在某些复杂场景下,环境的动态变化本身可能就是任务的一部分(例如,等待另一个物体移动到位再行动)。当前框架可能难以处理这种需要理解和利用环境动态的任务。

相似论文推荐

基于向量语义检索推荐的相关论文。

暂时没有找到相似论文。