AiPaper
论文状态:已完成

Fine-Tuning Vision-Language-Action Models: Optimizing Speed and Success

发表:2025/02/27
原文链接PDF 下载
价格:0.10
价格:0.10
已有 6 人读过
本分析由 AI 生成,可能不完全准确,请以原文为准。

TL;DR 精炼摘要

本研究针对VLA微调低效问题,提出优化微调(OFT)配方,整合并行解码、动作分块、连续表示及L1回归。OpenVLA-OFT在LIBERO基准上将成功率从76.5%提升至97.1%,速度加快26倍,并在真实机器人上实现高频灵巧控制,显著提升VLA性能与效率。

摘要

Recent vision-language-action models (VLAs) build upon pretrained vision-language models and leverage diverse robot datasets to demonstrate strong task execution, language following ability, and semantic generalization. Despite these successes, VLAs struggle with novel robot setups and require fine-tuning to achieve good performance, yet how to most effectively fine-tune them is unclear given many possible strategies. In this work, we study key VLA adaptation design choices such as different action decoding schemes, action representations, and learning objectives for fine-tuning, using OpenVLA as our representative base model. Our empirical analysis informs an Optimized Fine-Tuning (OFT) recipe that integrates parallel decoding, action chunking, a continuous action representation, and a simple L1 regression-based learning objective to altogether improve inference efficiency, policy performance, and flexibility in the model's input-output specifications. We propose OpenVLA-OFT, an instantiation of this recipe, which sets a new state of the art on the LIBERO simulation benchmark, significantly boosting OpenVLA's average success rate across four task suites from 76.5% to 97.1% while increasing action generation throughput by 26×\times. In real-world evaluations, our fine-tuning recipe enables OpenVLA to successfully execute dexterous, high-frequency control tasks on a bimanual ALOHA robot and outperform other VLAs (π0\pi_0 and RDT-1B) fine-tuned using their default recipes, as well as strong imitation learning policies trained from scratch (Diffusion Policy and ACT) by up to 15% (absolute) in average success rate. We release code for OFT and pretrained model checkpoints at https://openvla-oft.github.io/.

思维导图

论文精读

中文精读

1. 论文基本信息 (Bibliographic Information)

  • 标题 (Title): Fine-Tuning Vision-Language-Action Models: Optimizing Speed and Success (微调视觉-语言-动作模型:优化速度与成功率)
  • 作者 (Authors): Moo Jin Kim, Chelsea Finn, Percy Liang (均来自斯坦福大学)
  • 发表期刊/会议 (Journal/Conference): 本文目前为预印本 (Preprint),发布于 arXiv。arXiv 是一个广泛使用的学术论文预印本平台,允许研究者在同行评审前分享他们的工作。
  • 发表年份 (Publication Year): 2024 (v1 版本提交于 2025 年 2 月,arXiv 编号系统有时会预先分配年份,但内容基于 2024 年的研究)
  • 摘要 (Abstract): 近期的视觉-语言-动作模型 (VLAs) 基于预训练的视觉-语言模型,并利用多样化的机器人数据集展现了强大的任务执行、语言遵循和语义泛化能力。尽管如此,VLAs 在面对新的机器人设置时表现不佳,需要微调才能获得良好性能,但如何最有效地微调尚不明确。本研究以 OpenVLA 为代表模型,探讨了 VLA 适应过程中的关键设计选择,如动作解码方案、动作表示和学习目标。研究提出的优化微调配方 (Optimized Fine-Tuning, OFT) 集成了并行解码、动作分块、连续动作表示和简单的 L1 回归学习目标,全面提升了推理效率、策略性能和模型输入输出的灵活性。基于此配方提出的 OpenVLA-OFTLIBERO 仿真基准上创造了新的 SOTA 记录,将 OpenVLA 的平均成功率从 76.5% 提升至 97.1%,同时动作生成吞吐量提高了 26 倍。在真实世界中,该配方使 OpenVLA 能在双臂 ALOHA 机器人上成功执行灵巧的高频控制任务,其平均成功率比其他 VLA (如 π0π₀RDT-1B) 以及从零训练的模仿学习策略 (如 Diffusion PolicyACT) 高出 15% (绝对值)。
  • 原文链接 (Source Link):

2. 整体概括 (Executive Summary)

  • 研究背景与动机 (Background & Motivation - Why):

    • 核心问题: 视觉-语言-动作模型 (VLAs) 虽然强大,但在应用于新的机器人和任务时,必须进行微调。然而,现有微调方法(通常沿用预训练时的配方)存在两大瓶颈:1) 速度慢,基于自回归 (autoregressive) 的动作生成方式无法满足高频机器人控制(如 25-50 Hz)的需求;2) 性能不可靠,尤其是在复杂的双臂操作任务中,成功率不尽如人意。
    • 研究空白 (Gap): 领域内缺乏一个系统性的研究来确定到底哪种微调策略对于 VLA 是最优的。面对多种可能的设计选择(如解码方式、动作表示、学习目标),从业者没有明确的指导方针来平衡性能、速度和实现复杂度。
    • 切入思路: 本文没有提出一个全新的模型架构,而是回归本源,系统性地、控制变量地研究了微调 VLA 时的几个关键设计决策,旨在找出一套简单、高效且性能卓越的“最佳实践”或“配方”。
  • 核心贡献/主要发现 (Main Contribution/Findings - What):

    • 提出了一个优化的微调配方 (OFT): 这是论文最核心的贡献。该配方包含四个关键组件:
      1. 并行解码 (Parallel Decoding) 与动作分块 (Action Chunking): 极大地提升了推理速度和吞吐量,并改善了长时任务的性能。
      2. 连续动作表示 (Continuous Action Representation): 相比离散化的动作词元,连续动作能提供更高的精度,进一步提升任务成功率。
      3. L1 回归目标 (L1 Regression Objective): 证明了使用简单的 L1 损失函数进行端到端回归,其效果不亚于更复杂的扩散 (diffusion) 模型,同时训练更快、推理更简单。
      4. (可选) FiLM 语言调节: 在需要精确语言理解的复杂场景中,通过 FiLM 模块增强模型对语言指令的遵循能力。
    • SOTA 性能验证:
      • LIBERO 仿真基准上,OpenVLA-OFT 取得了 97.1% 的平均成功率,刷新了 SOTA 记录,同时实现了 26 倍的动作生成速度提升。
      • 在真实世界的 ALOHA 双臂机器人上,OpenVLA-OFT+ 在灵巧操作任务中,其性能显著超越了其他先进的 VLA 模型 (π0π₀, RDT-1B) 和专门的模仿学习算法 (Diffusion Policy, ACT)。
    • 重要洞见: 研究表明,微调的“方法”本身可能比模型的“预训练数据覆盖范围”更重要。即使 OpenVLA 的预训练数据不包含双臂机器人,通过 OFT 配方微调后,其性能依然能超越那些在大量双臂数据上预训练的模型。

3. 预备知识与相关工作 (Prerequisite Knowledge & Related Work)

  • 基础概念 (Foundational Concepts):

    • 视觉-语言模型 (Vision-Language Models, VLMs): 这类模型能够同时理解图像和文本,并建立两者之间的联系。例如,可以根据一张图片回答相关问题或生成图片描述。它们通常基于强大的 Transformer 架构,是 VLA 的基础。
    • 视觉-语言-动作模型 (Vision-Language-Action Models, VLAs): 这是在 VLM 基础上发展而来的机器人策略模型。它不仅能理解视觉和语言,还能将这些理解转化为机器人可以执行的底层动作指令(如关节角度、末端执行器位姿)。OpenVLA 就是一个典型的 VLA。
    • 自回归解码 (Autoregressive Decoding): 一种序列生成方式,类似于语言模型写句子,一次只生成一个词元 (token),并将生成的结果作为下一步的输入。对于机器人动作,这意味着逐个维度生成动作值,例如先生成 x 坐标,再生成 y 坐标,以此类推。这个过程是串行的,因此速度很慢
    • 并行解码 (Parallel Decoding): 与自回归相反,它一次性生成整个序列的所有元素。在本文中,这意味着模型在一个前向传播中同时预测出机器人动作的所有维度,甚至未来多个时间步的动作。这通过修改 Transformer 的注意力机制(从因果注意力变为双向注意力)来实现,速度极快
    • 动作分块 (Action Chunking): 指模型一次性预测并执行未来 K 个时间步的动作序列,而不是每一步都重新规划。这种方法可以减少推理频率,平滑机器人轨迹,并有助于处理长时依赖,通常能提升性能。
    • 模仿学习 (Imitation Learning, IL): 一种机器人学习范式,通过学习专家演示数据来模仿专家的行为。Diffusion PolicyACT 是两种先进的 IL 算法。
    • 扩散模型 (Diffusion Models): 一类强大的生成模型,通过学习从一个纯噪声分布中逐步“去噪”来生成数据(如图像或动作序列)。它能很好地建模复杂的数据分布,但在推理时需要多次迭代去噪,速度相对较慢。
    • 特征级线性调制 (Feature-wise Linear Modulation, FiLM): 一种条件化神经网络的技术。它通过一个外部信息(如语言指令)生成缩放因子 (γ\gamma) 和偏移因子 (β\beta),然后用这两个因子去调整另一个网络(如视觉编码器)的特征图。这相当于告诉视觉网络:“请根据这个指令,重点关注图像中的某些特征”。
  • 前人工作 (Previous Works):

    • 基础 VLA 模型:RT-2OpenVLA,它们通过在 VLM 上微调,展示了 VLA 的巨大潜力,但通常采用的是缓慢的自回归解码方式。
    • VLA 效率提升工作:MiniVLAFAST,它们尝试通过改进动作的“词元化”方案(即将连续动作压缩成更少的离散词元)来加速自回归解码,实现了 2-13 倍的提速。但本文认为自回归本身就是瓶颈,并行解码能带来更大的飞跃。
    • 扩散/流匹配 VLA:π0π₀RDT-1B,这些模型使用扩散 (diffusion) 或流匹配 (flow matching) 等生成方法,能够并行生成动作块,在双臂高频任务上取得了很好的效果。但它们的训练和推理过程相对复杂,且设计多样,尚不清楚是哪个设计元素起到了关键作用。
  • 技术演进 (Technological Evolution): 机器人学习领域经历了从传统控制,到基于少量数据的模仿学习,再到利用大规模、多样化数据进行预训练的演进。VLA 的出现标志着机器人策略开始受益于大型基础模型(如 VLM)的强大先验知识。本文的工作则将焦点进一步细化,从“如何构建 VLA”推进到“如何最高效地适配和部署 VLA”,解决了 VLA 从实验室走向实际应用的关键瓶颈——速度与性能的平衡。

  • 差异化分析 (Differentiation):

    • 与传统 VLA 微调方法相比: 传统方法沿用自回归解码和离散动作,本文的 OFT 配方转向并行解码连续动作回归,实现了质的速度飞跃和性能提升。
    • 与效率优化工作 (如 FAST) 相比: FAST 等工作仍在自回归框架内优化,而 OFT 从根本上抛弃了自回归,实现了数量级更高的加速(26-43 倍)。
    • 与扩散 VLA (如 π0π₀) 相比: OFT 采用的 L1 回归在算法上远比扩散模型或流匹配简单,训练收敛更快,推理也只需一次前向传播,无需多次迭代。实验证明,这种简单的方案在性能上毫不逊色,甚至更优,展现了大道至简的优势。

4. 方法论 (Methodology - Core Technology & Implementation Details)

本研究的核心是对比不同的微调设计选择,并最终组合成 OFT 配方。

该图像是示意图,展示了视觉-语言-动作(VLA)模型中的两种关键解码方案:自回归解码与并行解码(采用双向注意力),以及机器人动作的两种表示形式。左侧比较了自回归和并行解码机制。右侧示例展示了VLA模型如何根据图像输入和语言指令(“机器人应采取什么动作将茄子放入锅中?”),输出离散动作(基于令牌预测)或连续动作(基于L1回归或扩散)。这突出了优化VLA模型推理效率和策略性能的设计选择。 该图像是示意图,展示了视觉-语言-动作(VLA)模型中的两种关键解码方案:自回归解码与并行解码(采用双向注意力),以及机器人动作的两种表示形式。左侧比较了自回归和并行解码机制。右侧示例展示了VLA模型如何根据图像输入和语言指令(“机器人应采取什么动作将茄子放入锅中?”),输出离散动作(基于令牌预测)或连续动作(基于L1回归或扩散)。这突出了优化VLA模型推理效率和策略性能的设计选择。

上图(图像6)直观地展示了本文探讨的两个核心设计维度:

  1. 左侧:动作解码方案 - 对比了串行的 autoregressive decoding 和一次性生成的 parallel decoding
  2. 右侧:动作表示与学习目标 - 对比了将动作离散化为词元的 discrete action (通过下一词元预测学习) 和直接输出浮点数值的 continuous action (通过 L1 回归或扩散模型学习)。
  • 方法原理 (Methodology Principles):

    • 核心思想: 放弃 VLA 模仿语言模型生成文本的范式(自回归、离散词元),转而将其视为一个直接的、并行的回归问题。即,将多模态输入(图像、语言、机器人状态)直接映射到未来一段时间的连续动作序列。这种转变旨在最大化推理速度,同时利用大型模型的容量直接建模复杂的动作分布,避免离散化带来的精度损失。
  • 方法步骤与流程 (Steps & Procedures): OFT 配方主要包含以下几个关键实现:

    1. 并行解码与动作分块的实现:

      • 输入修改: 在训练时,不再将真实的动作词元作为解码器的输入(即 teacher-forcing),而是输入 K 个“空的动作嵌入” (empty action embeddings),这些嵌入仅通过位置编码来区分彼此。K 是动作块的大小。
      • 注意力机制修改: 将 Transformer 解码器中的因果注意力掩码 (causal attention mask) 替换为双向注意力掩码 (bidirectional attention mask)。这使得在预测任何一个时间步的动作时,模型都可以看到所有输入信息以及所有待预测的“空动作嵌入”的位置,从而实现并行计算。
      • 输出: 模型一次性输出 K 个时间步的完整动作序列。
    2. 连续动作表示与 L1 回归的实现:

      • 架构修改: 移除了 VLM 原本用于预测词汇表的输出层,替换为一个简单的多层感知机 (MLP) 作为“动作头” (action head)。
      • 输出: 这个 MLP 动作头将解码器最后一层的隐藏状态直接映射为归一化的连续动作值(例如,在 [-1, 1] 区间内)。
      • 学习目标: 训练的目标是最小化模型预测的连续动作向量与专家演示中的真实动作向量之间的平均 L1 距离 (mean L1 difference)。L1 损失(或称绝对值误差)相比 L2 损失(均方误差)对异常值不那么敏感,在机器人控制中常有良好表现。
    3. (OFT+) 增强语言遵循的实现:

      该图像是OpenVLA-OFT+(ALOHA机器人)的架构示意图与应用实例。它展示了模型如何利用LLM(Llama 2 7B)、多视角视觉(ViT)和本体感知输入,结合任务描述,通过并行解码和动作分块输出连续的机器人动作。下方示例图展示了其在灵巧双臂控制、长周期接触任务和工具使用等场景的强大能力。 该图像是OpenVLA-OFT+(ALOHA机器人)的架构示意图与应用实例。它展示了模型如何利用LLM(Llama 2 7B)、多视角视觉(ViT)和本体感知输入,结合任务描述,通过并行解码和动作分块输出连续的机器人动作。下方示例图展示了其在灵巧双臂控制、长周期接触任务和工具使用等场景的强大能力。

      如上图(图像1)所示,在处理真实 ALOHA 机器人的多视角输入时,为了避免模型因视觉信息中的伪相关性而忽略语言指令,作者引入了 FiLM

      • FiLM 模块: 首先,计算任务描述的语言嵌入的平均值。然后,通过一个线性投影层将该平均嵌入转换为一个缩放向量 γ\gamma 和一个偏移向量 β\beta
      • 特征调制: 这两个向量被用于调制视觉编码器 (ViT) 内部的特征。具体来说,是在 ViT 的每个块的自注意力层之后、前馈网络之前,对所有图像块的特征表示进行仿射变换。
      • 实现细节: 一个关键的实现细节是,γ\gammaβ\beta 的每个元素作用于所有视觉块嵌入的对应隐藏维度上,而不是每个块嵌入独立调制。这种“空间不可知”的调制方式模仿了 FiLM 在卷积网络中的应用,能更有效地将语言指令的全局影响注入到视觉处理流程中。
  • 数学公式与关键细节 (Mathematical Formulas & Key Details): 论文中给出的 FiLM 的核心数学公式如下: FiLM(Fγ,β)=F^=(1+γ)F+β \mathrm { F i L M } ( \mathbf { F } | \gamma , \beta ) = \hat { \mathbf { F } } = ( 1 + \gamma ) \odot \mathbf { F } + \boldsymbol { \beta }

    • 符号解释 (Symbol Explanation):
      • F\mathbf{F}: 视觉编码器中的原始特征表示 (visual features)。
      • γ\gamma: 由语言嵌入生成的缩放向量 (scaling vector)。
      • β\beta: 由语言嵌入生成的偏移向量 (shifting vector)。
      • \odot: 逐元素相乘 (element-wise multiplication)。
      • F^\hat{\mathbf{F}}: 经过语言信息调制后的新特征表示。
    • 公式解释: 这个公式描述了一个仿射变换过程。原始的视觉特征 F\mathbf{F} 首先被语言生成的 γ\gamma 缩放,然后被 β\beta 偏移。作者使用了 (1+γ)(1+\gamma) 而不是 γ\gamma,是为了在训练初始化时,当 γ\gammaβ\beta 接近于零时,变换接近于一个恒等变换 (F^F\hat{\mathbf{F}} \approx \mathbf{F}),这有助于保持预训练权重的稳定性,使训练过程更平滑。

5. 实验设置 (Experimental Setup)

  • 数据集 (Datasets):

    • LIBERO 仿真基准: 一个标准化的机器人操作任务基准。它使用一个 Franka Emika Panda 机械臂,包含丰富的视觉、状态和动作数据。本文使用了它的四个任务套件,每个套件包含 10 个任务和 500 个专家演示,用于评估模型在不同泛化维度上的表现:
      • LIBERO-Spatial: 任务布局发生变化。
      • LIBERO-Object: 操作对象发生变化。
      • LIBERO-Goal: 任务目标发生变化。
      • LIBERO-Long: 长时间序列的复杂任务。
    • ALOHA 真实世界机器人平台: 一个低成本、高灵活性的双臂遥操作平台,运行在 25 Hz 的高控制频率下。本文设计了四个具有挑战性的灵巧双臂操作任务:
      • fold shorts (折叠短裤): 20 个演示。
      • fold shirt (折叠T恤): 30 个演示,长时任务。
      • scoop X into bowl (将X舀入碗中): 45 个演示,需要工具使用和语言理解。
      • put X into pot (将X放入锅中): 300 个演示,需要语言理解。
  • 评估指标 (Evaluation Metrics):

    • 成功率 (Success Rate, SR):
      1. 概念定义: 该指标衡量策略在给定任务中完全成功完成目标的试验次数占总试验次数的百分比。它是评估机器人策略任务执行能力最直接、最重要的指标。在 ALOHA 任务中,由于任务复杂,作者设计了详细的评分细则 (rubric),成功率被泛化为完成度的得分(0-100分)。
      2. 数学公式: Success Rate (SR)=Number of Successful TrialsTotal Number of Trials×100% \text{Success Rate (SR)} = \frac{\text{Number of Successful Trials}}{\text{Total Number of Trials}} \times 100\%
      3. 符号解释: “Successful Trials” 指的是根据预定义标准被判定为成功的试验次数。“Total Number of Trials” 指的是进行的总试验次数。
    • 吞吐量 (Throughput):
      1. 概念定义: 该指标衡量模型在单位时间内(通常是每秒)可以生成多少个单步动作。它直接反映了模型的推理效率,对于需要高频控制的机器人系统至关重要。单位是赫兹 (Hz)。
      2. 数学公式: Throughput (Hz)=Total Actions GeneratedTotal Time Taken (seconds) \text{Throughput (Hz)} = \frac{\text{Total Actions Generated}}{\text{Total Time Taken (seconds)}}
      3. 符号解释: 在动作分块的场景下,“Total Actions Generated” 通常是 (Number of Queries) × (Chunk Size)。“Total Time Taken” 是执行这些查询的总耗时。
    • 延迟 (Latency):
      1. 概念定义: 该指标衡量模型生成一个动作(或一个动作块)所需的平均时间。低延迟对于保证机器人控制的实时响应性至关重要。单位是秒 (sec) 或毫秒 (ms)。
      2. 数学公式: Latency (sec)=Total Time Taken (seconds)Total Number of Queries \text{Latency (sec)} = \frac{\text{Total Time Taken (seconds)}}{\text{Total Number of Queries}}
      3. 符号解释: “Total Time Taken” 是执行所有查询的总耗时。“Total Number of Queries” 是模型被调用的总次数。
  • 对比基线 (Baselines):

    • LIBERO 实验:
      • OpenVLA (fine-tuned): 使用原始自回归配方微调的基线。
      • 从零训练的模型: Diffusion Policy, MDT
      • 其他微调的 VLA/通用策略: Octo, DiT Policy, π0π₀
    • ALOHA 实验:
      • 从零训练的模仿学习模型: ACT, Diffusion Policy
      • 其他微调的先进 VLA: RDT-1B, π0π₀。这些模型在预训练时已经接触过双臂数据,是更强的基线。

6. 实验结果与分析 (Results & Analysis)

  • 核心结果分析 (Core Results Analysis):

    • LIBERO 仿真实验结果:

      • 以下为 Table I 的转录数据:

        Policy Spatial SR (%) Object SR (%) Goal SR (%) Long SR (%) Average SR (%)
        Policy inputs: third-person image, language instruction
        OpenVLA (fine-tuned) [22] 84.7 88.4 79.2 53.7 76.5
        OpenVLA (fine-tuned) + PD&AC 91.3 92.7 90.5 86.5 90.2
        OpenVLA (fine-tuned) + PD&AC, Cont-L1 96.2 98.3 96.2 90.7 95.3
        OpenVLA (fine-tuned) + PD&AC, Cont-Diffusion 96.9 98.1 95.5 91.1 95.4
        Policy inputs: third-person image, wrist image, proprio, language instruction
        π0 (fine-tuned) [3] 96.8 98.8 95.8 85.2 94.2
        OpenVLA-OFT (ours) 97.6 98.4 97.9 94.5 97.1
      • 性能提升显著: 从上表可以看出,仅加入并行解码 (PD) 和动作分块 (AC),OpenVLA 的平均成功率就从 76.5% 跃升至 90.2%。再改为连续动作 (Cont-L1) 后,成功率进一步提升至 95.3%。这证明了 OFT 配方中每个组件的有效性。

      • L1 回归 vs. 扩散: 采用 L1 回归的策略 (95.3%) 和采用 Diffusion 的策略 (95.4%) 性能几乎完全相同,这表明对于 VLA 微调,简单的回归目标足以媲美复杂的生成模型。

      • 达到 SOTA: 最终的 OpenVLA-OFT 模型(使用了 OFT 配方并增加了额外输入),平均成功率达到 97.1%,超越了当时最强的基线 π0π₀ (94.2%),创造了新的 SOTA。

      • 以下为 Table II 的转录数据:

        方法 Throughput (Hz) ↑ Latency (Sec) ↓
        OpenVLA 4.2 0.240
        +PD 15.9 0.063
        +PD&AC 108.8 0.074
        +PD&AC, Cont-L1 (OFT) 109.7 0.073
        +PD&AC, Cont-Diffusion 10.1 0.792
        +OFT + Additional Inputs 71.4 0.112
      • 效率巨大提升: 从上表可见,并行解码 (PD) 使吞吐量提升了近 4 倍。加入动作分块 (AC) 后,吞吐量更是达到了惊人的 109.7 Hz,相比基线的 4.2 Hz 提升了 26 倍,而延迟仅为 73 毫秒。这完全满足了高频控制的要求。相比之下,扩散模型虽然吞吐量也高于基线,但延迟非常高 (0.792 秒),不适合实时应用。

    • ALOHA 真实世界实验结果:

      该图像是一个条形图,展示了OpenVLA-OFT+(我们提出的方法)与ACT、Diffusion Policy、RDT-1B和\(\\pi_0\)等机器策略在多项真实世界任务中的成功率比较。OpenVLA-OFT+在平均成功率(87.8%)上表现最佳,显著优于其他策略。它在“折叠短裤”、“折叠衬衫”和“将X舀入碗中”任务中均达到100%的成功率,并在“将X放入锅中”任务中也取得了最高成功率(51.3%… 该图像是一个条形图,展示了OpenVLA-OFT+(我们提出的方法)与ACT、Diffusion Policy、RDT-1B和π0\pi_0等机器策略在多项真实世界任务中的成功率比较。OpenVLA-OFT+在平均成功率(87.8%)上表现最佳,显著优于其他策略。它在“折叠短裤”、“折叠衬衫”和“将X舀入碗中”任务中均达到100%的成功率,并在“将X放入锅中”任务中也取得了最高成功率(51.3%),证明了其在实际操作中的优越性能。

      • OFT+ 性能最佳: 上图(图像8)显示,OpenVLA-OFT+ 的平均成功率 (87.8%) 在所有对比方法中最高,比次优的 π0π₀ (77.5%) 高出超过 10 个百分点。这尤其令人印象深刻,因为 OpenVLA 预训练时从未见过双臂机器人数据,而 π0π₀RDT-1B 见过。
      • VLA 优于从零训练: 所有微调的 VLA 模型都普遍优于从零训练的 ACTDiffusion Policy,凸显了预训练知识的重要性。
  • 消融实验/参数分析 (Ablation Studies / Parameter Analysis):

    Fig. 5: ALOHA language following results. Success rates in approaching language-specified target objects for language-dependent tasks. Fine-tuned VLAs follow the user's command more frequently than p… 该图像是图5所示的ALOHA语言遵循结果图表,展示了不同机器人策略在语言依赖任务中的成功率。OpenVLA-OFT+ (ours) 在各项任务中表现出最高的语言理解能力,例如在“scoop X into bowl”任务中达到100%成功率,且其平均成功率为89.6%。移除FiLM会显著降低成功率,微调后的VLA模型比从头训练的策略更能有效地遵循用户指令。

    • FiLM 的重要性: 上图(图像9)展示了在 ALOHA 语言依赖任务上的消融研究。红色的 OpenVLA-OFT+ (带 FiLM) 在语言遵循任务上取得了近 90% 的平均成功率。而粉色的 OpenVLA-OFT (no FiLM) (不带 FiLM) 的成功率骤降至 33.3%,这与随机猜测的概率一致。这有力地证明了,在具有复杂视觉输入的场景下,FiLM 对于确保模型正确理解和遵循语言指令是不可或缺的
    • VLA 预训练的价值: 在附录的实验中 (Table XIV),作者比较了在 OpenVLA (已在机器人数据上预训练) 和 Prismatic VLM (未在机器人数据上预训练) 上使用 OFT 进行微调的效果。结果显示,使用 OpenVLA 作为基础模型的性能更高(平均成功率 97.1% vs 91.9%),说明 OpenVLA 的机器人预训练阶段所学习到的表征对于下游任务依然是有益的,即便微调范式发生了巨大变化。

7. 总结与思考 (Conclusion & Personal Thoughts)

  • 结论总结 (Conclusion Summary): 该论文通过系统性的实验,提出并验证了一套名为 OFT 的高效 VLA 微调配方。该配方通过结合并行解码、动作分块、连续动作表示和 L1 回归目标,成功地解决了现有 VLA 微调方法中速度慢和性能不足的核心痛点。OpenVLA-OFT 不仅在仿真基准上刷新了 SOTA 记录,还在真实世界的复杂双臂操作任务中超越了更先进的、拥有更相关预训练数据的模型。这项工作为 VLA 的实际部署提供了一个简单、高效且性能卓越的“标准操作流程”。

  • 局限性与未来工作 (Limitations & Future Work):

    • 多模态演示 (Multimodal Demonstrations): 本文的实验数据集中,每个任务的演示策略相对单一。L1 回归倾向于学习动作分布的“中位数”,可能难以处理一个场景下存在多种同样有效的操作方式(即多模态动作分布)的情况。未来需要研究 OFT 在这类更复杂数据集上的表现。
    • 预训练 vs. 微调: OFT 在微调阶段非常成功,但这些设计(尤其是简单的 L1 回归)是否同样适用于更大规模的预训练阶段,还是说预训练需要更具表达力的模型(如扩散模型),这仍是一个开放问题。
    • 语言遵循的不一致性: 模型在 LIBERO 中表现出良好的语言遵循能力,但在 ALOHA 平台上却严重依赖 FiLM。这种差异的根本原因(是双臂数据缺失,还是多视角输入的干扰)尚不清楚,有待进一步研究。
  • 个人启发与批判 (Personal Insights & Critique):

    • 启发:
      1. “方法论”的重要性: 这篇论文最深刻的启示是,如何“用”模型,有时比模型“是”什么更重要。一个精心设计的、符合任务特性的微调配方,其带来的提升可以超越模型架构或预训练数据的差异。这对于资源有限的研究者或工程师来说是一个非常积极的信号。
      2. 简单即是美 (Simplicity is Beautiful): 在一个倾向于使用越来越复杂模型(如扩散模型)的时代,本文证明了一个简单的 L1 回归目标在与大容量模型结合时,同样能取得顶尖性能,且在效率和实现简易性上优势巨大。这提醒我们应始终对简单而有效的方法保持关注。
      3. 系统性研究的价值: 本文没有追求一个“炫酷”的新模型,而是通过扎实的控制变量实验,回答了一个非常实际且重要的问题。这种严谨的、以解决实际问题为导向的研究风格值得借鉴。
    • 批判/可改进之处:
      1. 任务多样性: 虽然 ALOHA 实验很有说服力,但涉及的任务数量仍然有限(4个)。OFT 配方在更广泛、更多样化的真实世界任务上的泛化能力还有待验证。
      2. 对失败案例的分析不足: 论文主要展示了成功率和成功案例,但对模型在 ALOHA 上的失败案例(例如 RDT-1B 倒空气的例子)的分析可以更深入,这有助于揭示不同方法在闭环控制、反馈利用等方面的深层次差异。

相似论文推荐

基于向量语义检索推荐的相关论文。

暂时没有找到相似论文。