$π_\texttt{RL}$: Online RL Fine-tuning for Flow-based Vision-Language-Action Models
TL;DR 精炼摘要
本文提出了$π_ exttt{RL}$框架,利用在线强化学习技术对基于流的视觉-语言-动作(VLA)模型进行微调,解决了大规模应用中行动日志似然性的挑战。该方法在LIBERO和ManiSkill基准测试中表现优异,显著提高模型性能,证明了其有效性和实用性。
摘要
Vision-Language-Action (VLA) models enable robots to understand and perform complex tasks from multimodal input. Although recent work explores using reinforcement learning (RL) to automate the laborious data collection process in scaling supervised fine-tuning (SFT), applying large-scale RL to flow-based VLAs (e.g., , ) remains challenging due to intractable action log-likelihoods from iterative denoising. We address this challenge with , an open-source framework for training flow-based VLAs in parallel simulation. implements two RL algorithms: (1) {Flow-Noise} models the denoising process as a discrete-time MDP with a learnable noise network for exact log-likelihood computation. (2) {Flow-SDE} integrates denoising with agent-environment interaction, formulating a two-layer MDP that employs ODE-to-SDE conversion for efficient RL exploration. We evaluate on LIBERO and ManiSkill benchmarks. On LIBERO, boosts few-shot SFT models and from 57.6% to 97.6% and from 77.1% to 98.3%, respectively. In ManiSkill, we train in 320 parallel environments, improving from 41.6% to 85.7% and from 40.0% to 84.8% across 4352 pick-and-place tasks, demonstrating scalable multitask RL under heterogeneous simulation. Overall, achieves significant performance gains and stronger generalization over SFT-models, validating the effectiveness of online RL for flow-based VLAs.
思维导图
论文精读
中文精读
1. 论文基本信息
1.1. 标题
: Online RL Fine-tuning for Flow-based Vision-Language-Action Models
标题解析:
-
: 这是作者为他们提出的框架所命的名称。这里的 (Pi) 指代策略 (policy),也特指谷歌 DeepMind 发布的 系列模型(如 , )。
RL是强化学习 (Reinforcement Learning) 的缩写。名称直截了当地表明了该框架是为 系列模型设计的强化学习方法。 -
Online RL Fine-tuning: 指明了技术路线。
Online RL(在线强化学习) 意味着模型通过与环境的实时交互来学习和优化,而不是仅仅依赖于一个固定的离线数据集。Fine-tuning(微调) 表明该方法不是从头开始训练,而是在一个已经经过预训练或监督学习的模型基础上进行优化。 -
Flow-based Vision-Language-Action Models: 定义了该方法作用的对象。
Vision-Language-Action (VLA)模型是一种能够理解视觉和语言输入并据此执行物理动作的机器人模型。Flow-based(基于流的) 则是一种特定的模型架构,它通过一个连续的、类似流动的过程(从噪声到数据)来生成动作,这与传统的单步生成或离散生成的模型不同。综上,标题清晰地概括了论文的核心内容:一个名为 的在线强化学习框架,专门用于微调基于流的视觉-语言-动作模型(如 和 )。
1.2. 作者
Kang Chen, Zhihao Liu, Tonghe Zhang, Zhen Guo, Si Xu, Hao Lin, Hongzhi Zang, Quanlu Zhang, Zhaofei Yu, Guoliang Fan, Tiejun Huang, Yu Wang, Chao Yu。
这些作者来自多个顶尖学术和研究机构,包括清华大学、北京大学、中国科学院自动化研究所、卡内基梅隆大学以及一些科技公司,显示了强大的学术研究背景。
1.3. 发表期刊/会议
这是一篇提交到 arXiv 的预印本论文。arXiv 是一个开放获取的学术论文存档网站,允许研究者在正式的同行评审 (peer review) 之前分享他们的研究成果。这意味着该论文尚未经过正式的学术会议或期刊的评审流程,但其内容已经可以被学术界公开访问和讨论。
1.4. 发表年份
预印本首次提交于2025年10月29日(根据文章元数据)。这可能是一个占位符日期,但表明这是一篇非常前沿的研究。
1.5. 摘要
视觉-语言-动作 (VLA) 模型使机器人能够根据多模态输入来理解和执行复杂任务。尽管近期有研究探索使用强化学习 (RL) 来自动化监督微调 (SFT) 中繁琐的数据收集过程,但将大规模 RL 应用于基于流的 VLA 模型(例如 , )仍然充满挑战,主要原因是其迭代去噪过程导致动作的对数似然 (log-likelihood) 难以计算。
为了解决这一挑战,本文提出了 ,一个用于在并行仿真中训练基于流的 VLA 模型的开源框架。 实现了两种 RL 算法:
-
Flow-Noise: 将去噪过程建模为一个离散时间的马尔可夫决策过程 (MDP),并引入一个可学习的噪声网络来精确计算对数似然。
-
Flow-SDE: 将去噪过程与智能体-环境交互相结合,构建一个双层 MDP,并利用常微分方程 (ODE) 到随机微分方程 (SDE) 的转换来实现高效的 RL 探索。
作者在 LIBERO 和 ManiSkill 两个基准测试上评估了 。在 LIBERO 上, 将少样本 SFT 训练的 和 模型的成功率分别从 57.6% 提升到 97.6%,以及从 77.1% 提升到 98.3%。在 ManiSkill 中,作者在 320 个并行环境中训练 ,将 和 在 4352 个拾取-放置任务上的成功率分别从 41.6% 提升到 85.7%,以及从 40.0% 提升到 84.8%,展示了其在异构仿真下可扩展的多任务 RL 能力。
总而言之, 相比 SFT 模型取得了显著的性能提升和更强的泛化能力,验证了在线 RL 对基于流的 VLA 模型的有效性。
1.6. 原文链接
- 原文链接: https://arxiv.org/abs/2510.25889v1
- PDF 链接: https://arxiv.org/pdf/2510.25889v1.pdf
- 发布状态: 预印本 (Preprint)。
2. 整体概括
2.1. 研究背景与动机
当前,通用的机器人智能体正朝着 视觉-语言-动作 (Vision-Language-Action, VLA) 模型的方向发展。这类模型能够像人一样,通过看(视觉)和听(语言指令)来执行复杂的物理操作(动作)。其标准的训练范式通常分为两步:
-
预训练 (Pre-training): 在海量的互联网图文数据上进行训练,让模型学会通用的视觉和语言理解能力。
-
监督微调 (Supervised Fine-Tuning, SFT): 在高质量的人类专家演示数据集上进行模仿学习,让模型学会如何将理解转化为具体的机器人动作。
然而,这种严重依赖 SFT 的范式存在两大核心痛点:
-
数据成本高昂: 收集大规模、高质量、多样化的专家演示数据既费时又费力,成本极高。
-
泛化能力受限: 模型通过 SFT 学习到的策略容易过拟合 (overfit) 专家数据,当遇到演示数据中未曾出现过的新情况时,表现往往会急剧下降。
为了解决这些问题,学术界开始探索将强化学习 (RL) 引入 VLA 模型的训练流程,形成“预训练 -> SFT -> RL”的三段式范式。RL 允许机器人在虚拟环境中通过试错自主学习,从而摆脱对专家数据的完全依赖,并探索出比专家更优或更鲁棒的策略。
尽管 RL 在 VLA 模型上展现了巨大潜力,但已有的研究主要集中在自回归 (autoregressive) 架构的 VLA 模型上(如 OpenVLA)。这类模型像生成文本一样,一个接一个地生成离散的动作指令。然而,另一类性能强大、尤其擅长处理高频、精细连续动作的 基于流的 (flow-based) VLA 模型(如谷歌的 和 )却迟迟未能与 RL 有效结合。
本文的核心挑战 (Gap) 在于: 基于流的模型生成动作的过程是一个确定性的迭代去噪过程,通常用常微分方程 (ODE) 描述。这个过程存在两个根本性问题,阻碍了标准 RL 算法的应用:
-
缺乏探索性 (Exploration): 确定性的生成过程意味着对于相同的输入,输出永远是相同的动作,模型无法进行试错和探索。
-
对数似然不可计算 (Intractable Log-likelihood): 大多数策略梯度 RL 算法(如 PPO)的更新依赖于计算所执行动作的对数概率 。但在流模型中,这个概率的精确计算非常困难,尤其是在迭代步数较少的情况下。
因此,本文的切入点就是攻克这一技术难题,即如何为基于流的 VLA 模型设计一套有效的在线 RL 框架,使其能够进行探索并计算出有效的策略梯度进行优化。
2.2. 核心贡献/主要发现
本文最主要的贡献是提出了 ,这是首个能够对基于流的 VLA 模型(特指 系列)进行在线强化学习微调的开源框架。为了实现这一目标,论文提出了两种创新的技术方案来解决上述核心挑战:
-
Flow-Noise:
- 核心思想: 将原本确定性的去噪过程注入可学习的随机噪声,并将其整体建模为一个标准的马尔可夫决策过程 (MDP)。
- 解决方案: 通过计算整个去噪序列的联合概率,来替代难以计算的最终动作的概率,从而得到一个精确且可计算的策略梯度。这是一种巧妙的“等效替换”思想。
-
Flow-SDE:
-
核心思想: 将描述去噪过程的常微分方程 (ODE) 转换为等价的随机微分方程 (SDE),从而在数学上自然地引入了随机性以支持探索。
-
解决方案: 构建一个双层 MDP,内层 MDP 负责动作的去噪生成,外层 MDP 负责机器人与环境的交互。这种结构清晰地解耦了两个过程,并允许直接计算每一步去噪动作的概率。
通过这两个方法,论文成功地将强大的策略梯度算法 PPO 应用于 和 模型。其实验得出了以下关键发现:
-
- 性能巨大提升: 无论是在 LIBERO 还是 ManiSkill 基准上, 都能极大地提升仅经过少样本 SFT 的 VLA 模型的性能,甚至超越了使用全量数据进行 SFT 的模型。例如,在 LIBERO-Long 任务上,仅用一条专家轨迹进行 SFT 的 模型,经过 微调后,成功率从 43.9% 飙升至 94.0%。
- 可扩展性: 该框架支持大规模并行训练(在 320 个环境中同时运行),能够高效地处理包含数千个任务组合的复杂多任务学习场景。
- 方法有效性验证: 详尽的消融实验证明了其提出的两种方法以及 critic 设计、超参数选择的有效性,为后续研究提供了宝贵的经验。
3. 预备知识与相关工作
3.1. 基础概念
3.1.1. 视觉-语言-动作 (VLA) 模型
VLA 模型是机器人领域的一个重要范式,旨在创建一个能够接收多模态输入并与物理世界交互的通用智能体。
- 输入: 通常包括 视觉 (Vision) 信息(如来自机器人摄像头的图像)和 语言 (Language) 指令(如人类用户的命令“请把桌子上的苹果递给我”)。有时也包括机器人自身的 本体感知 (proprioception) 状态,如关节角度、末端执行器位置等。
- 处理: 模型内部通常包含一个强大的视觉语言模型 (Vision-Language Model, VLM),负责理解和融合多模态输入,进行高级推理。
- 输出: 模型的输出是动作 (Action),即一系列可以被机器人执行的底层控制指令(如目标关节位置、速度等)。 VLA 模型的目标是弥合高级语义理解与低级物理控制之间的鸿沟。
3.1.2. 基于流的生成模型 (Flow-based Generative Models)
这是一种生成模型,与 GANs 和 VAEs 不同,其核心思想是通过一个可逆的变换将一个简单分布(如标准高斯分布)映射到一个复杂的数据分布(如图像或机器人动作)。在本文中,使用的是一种名为流匹配 (Flow Matching) 的技术。
- 核心直觉: 想象一下,数据点是从一个简单的噪声分布(比如一团随机的点)出发,沿着一个特定的“流场”(由一个神经网络定义的向量场)移动,最终到达目标数据分布的位置(比如一个清晰的动作序列)。
- 训练: 训练的目标就是学习这个向量场 (vector field) 。模型通过一个 条件流匹配 (Conditional Flow Matching, CFM) 损失函数进行优化,确保模型预测的向量场与从噪声到真实数据的“直线”路径相匹配。
- 推理 (生成): 在生成新数据时,模型首先从标准高斯分布中采样一个随机噪声 ,然后通过求解一个常微分方程 (Ordinary Differential Equation, ODE),沿着学习到的向量场 迭代地“去噪”,最终得到目标动作 。这个过程可以表示为:,其中 从 0 变化到 1。
3.1.3. 强化学习 (Reinforcement Learning, RL) 与策略梯度
RL 是一种机器学习范式,其中智能体 (agent) 通过与环境 (environment) 交互来学习如何做出决策以最大化累积奖励。
- 马尔可夫决策过程 (Markov Decision Process, MDP): 这是 RL 问题的标准数学框架,由一个元组 定义,分别代表状态空间、动作空间、转移概率、奖励函数和折扣因子。
- 策略 (Policy) : 智能体的“大脑”,是一个函数(通常是神经网络),根据当前状态 输出一个动作 的概率分布。 是策略网络的参数。
- 目标: 学习一个最优策略 ,使得从初始状态开始的期望累积奖励最大化。
- 策略梯度 (Policy Gradient) 方法: 这是一类直接优化策略参数 的 RL 算法。其核心思想是调整参数,使得能够获得更高奖励的动作的概率被提升,反之则被降低。其梯度的基本形式如下:
- : 目标函数(期望回报)对策略参数的梯度。
- : 在状态 下采取动作 的对数概率。这是本文要解决的关键难点。
- : 优势函数 (Advantage Function),表示在状态 下采取动作 相对于平均水平有多好。 意味着这个动作比预期的要好,应该增加其概率。
3.2. 前人工作
3.2.1. VLA 模型
- 自回归 VLA 模型: 如
Octo和OpenVLA,它们将连续的机器人动作空间离散化 (discretize) 为一个个的词元 (token),然后像语言模型生成文本一样,自回归地生成动作词元序列。这种方法的优点是可以直接利用现有的大语言模型架构,但缺点是可能会损失连续控制的精度。 - 基于流的 VLA 模型: 如本文关注的 和 ,它们采用流匹配技术来生成动作块 (action chunks),即一次性生成一小段连续的动作序列。这种方法能够更好地建模复杂的连续动作分布,从而实现更灵巧的物理行为。
3.2.2. 针对 VLA 模型的在线 RL 微调
SimpleVLA-RL,RL4VLA,RLinf-VLA等工作已经证明,在线 RL 可以有效提升自回归 VLA 模型的性能,特别是在数据稀疏或需要长时程规划的任务中。- 这些工作通常使用 PPO 或 GRPO 等策略梯度算法。然而,它们都依赖于一个前提:模型的动作对数似然 是容易计算的(例如,通过对离散动作的
softmax输出或假设连续动作为高斯分布)。这个前提在基于流的模型上不成立,因此这些方法无法直接迁移。
3.2.3. 针对流模型的 RL 微调
- 在机器人领域之外,已经有一些研究尝试将 RL 与流模型/扩散模型结合。
ReinFlow: 提出通过注入可学习的噪声并将去噪过程建模为 MDP 来计算一个可行的策略梯度。本文的Flow-Noise方法深受此工作的启发。Flow-GRPO: 提出将确定性的 ODE 转换为等价的 SDE 来引入随机性,从而实现探索。本文的Flow-SDE方法的核心思想来源于此。- 其他方法如
FPO,PA-RL,DSRL等也从不同角度探索了这个问题。
3.3. 差异化分析
本文与之前工作的核心区别在于:
- 应用领域不同: 先前的流模型+RL的研究大多集中在非机器人任务(如图像生成)或小规模、单任务的机器人场景。而本文首次将这一技术应用于大规模、多任务、基于 VLA 架构的复杂机器人控制问题上。
- 模型规模与复杂性: 本文处理的是大型 VLA 模型(参数量达 3B 级别),这带来了更大的训练挑战。
- 系统性框架: 本文不仅提出了一种方法,而是提出了一个名为 的系统性框架,并内置了两种不同的技术路径(
Flow-Noise和Flow-SDE),进行了全面的实验对比和消融分析,为社区提供了更完整的解决方案和实践指导。
4. 方法论
本论文的核心技术挑战是让基于流的 VLA 模型能够适用于策略梯度类 RL 算法。关键在于解决两个问题:1) 如何在确定性的动作生成过程中引入随机性以进行探索;2) 如何计算一个可行的动作对数似然 来更新策略。
为此,论文提出了两种并行的方法:Flow-Noise 和 Flow-SDE。
4.1. Flow-Noise 方法详解
Flow-Noise 的核心思想是:在流模型的每个去噪步骤中主动注入可学习的噪声,并将整个去噪过程本身视为一个标准的、单层的马尔可夫决策过程 (MDP)。
4.1.1. 随机性注入 (Stochasticity Injection)
标准的流模型在推理时是确定性的。Flow-Noise 将其改为随机过程。在每个去噪步骤 ,原本的更新规则是 。现在,Flow-Noise 将其建模为一个高斯分布的采样过程:
其中,均值 和方差 定义为:
- 融合讲解:
-
均值 : 这部分与原始的确定性更新完全相同,即沿着模型预测的向量场 ( 是 的简写)前进一小步。这保证了生成过程的大方向是正确的。
-
方差 : 这是创新的关键。方差不再是固定的,而是由一个可学习的噪声网络 动态生成。这个网络以当前的噪声动作 和环境观测 作为输入,输出一个标准差向量。这使得模型可以根据当前情况智能地调整探索的幅度:在需要精确控制时减小噪声,在需要探索时增大噪声。
-
这个噪声网络 会与主策略网络 一同在 RL 训练中进行优化,但在最终部署推理时,会被丢弃,从而恢复到确定性策略以保证执行的稳定性。
下图(原文 Figure 3)直观地展示了噪声注入的过程。
该图像是插图,展示了 框架中的视觉语言模型和动作专家。图中包含了模型的观察、动作生成和噪声注入过程,使用了高斯分布 p(A^{ au + oldsymbol{ ilde{oldsymbol{ heta}}} | A^{ au}) hicksim oldsymbol{N}(oldsymbol{ u_r}, oldsymbol{oldsymbol{ ext{f ext{Σ}}}_r}) 的数学表示,突出在线强化学习的应用。
-
4.1.2. 对数似然估计 (Log-Likelihood Estimation)
有了随机的去噪过程,接下来的问题是如何计算 。Flow-Noise 采用了一种巧妙的替代方案:用整个去噪序列的联合对数似然来替代最终动作的对数似然。
假设整个去噪过程被离散化为 步,时间点为 ,其中 。那么从初始噪声 到最终动作 的完整序列为 。其联合概率可以根据链式法则分解为:
- 融合讲解:
-
: 是初始噪声的概率。通常 是从一个标准高斯分布 中采样的,所以这部分的对数似然很容易计算。
-
: 这是从上一步噪声动作 转移到下一步 的概率。根据上一节的定义,这是一个高斯分布 。因此,给定采样的结果 ,其对数似然也可以被精确计算出来。
由于整个序列的对数似然是 tractable(可计算)的,
Flow-Noise就可以直接将其代入策略梯度公式中,实现对策略的端到端优化。这整个过程被置于一个标准的单层 MDP 框架中。
-
4.2. Flow-SDE 方法详解
Flow-SDE 采用了另一条技术路线。其核心思想是:从数学上将确定性的 ODE 转换为等价的随机微分方程 (SDE),从而自然地引入随机性,并构建一个双层 MDP 来解耦动作生成和环境交互。
4.2.1. 随机性注入 (ODE-to-SDE Conversion)
流模型的确定性生成过程由一个常微分方程 (ODE) 描述: 前人研究(Song et al., 2020)表明,任何一个 ODE 都可以被转换成一个对应的随机微分方程 (SDE),并且 SDE 的解在任意时刻 的边际分布 与 ODE 的解是完全相同的。这个 SDE 的通用形式为:
- 融合讲解:
-
漂移项 (Drift Term): 决定了粒子移动的期望方向。它在原始向量场 的基础上增加了一个修正项,该修正项与分数函数 有关,用于抵消扩散项带来的影响,从而保证边际分布不变。
-
扩散项 (Diffusion Term): 引入了随机性。 是一个维纳过程(即布朗运动), 是一个控制噪声大小的标量函数。
论文利用流匹配理论中的一个关键关系,将难以计算的分数函数替换掉,最终推导出了一个可以直接使用的 SDE 形式。离散化后,每一步的转移也是一个高斯分布 ,其均值和方差为: 这里的噪声调度 是一个固定的、与时间相关的函数,而非像
Flow-Noise中那样是可学习的。
-
4.2.2. 双层 MDP 框架 (Two-layer MDP Formulation)
与 Flow-Noise 将所有东西都打包进一个 MDP 不同,Flow-SDE 设计了一个层次化的 MDP 结构,如下图(原文 Figure 2 右侧)所示:
该图像是成功率随步骤变化的图表,左侧为训练阶段(Train),右侧为评估阶段(Eval)。蓝线表示固定噪声(Fixed Noise),绿色线表示可学习噪声(Learnable Noise)。图中显示在训练和评估过程中两者的成功率变化趋势。
-
内层 MDP (): 负责动作生成。
- 状态: ,包含了当前的环境观测 和去噪过程中的中间动作 。
- 动作: ,即执行一步去噪,得到下一个中间动作。
- 转移: 环境观测 保持不变,只有中间动作从 变为 。
- 奖励: 在内层 MDP 中,奖励始终为 0。
-
外层 MDP (): 负责环境交互。
-
当内层 MDP 完成所有去噪步骤(即 ),生成最终动作 后,这个动作被提交给环境。
-
环境执行动作 ,返回一个非零奖励 和下一个环境观测 。
-
然后,一个新的内层 MDP 启动,从新的初始噪声 开始新一轮的动作生成。
在这种双层结构下,策略梯度中需要的对数似然 变得非常直接,因为它就是内层 MDP 中高斯转移的对数似然,易于计算。
-
4.2.3. 混合 ODE-SDE 采样 (Hybrid ODE-SDE Sampling)
双层 MDP 的一个缺点是,它将单步的环境交互扩展为了 步的 RL 轨迹( 是去噪步数),这会大大增加训练时间和难度。为了解决这个问题,论文采用了一种混合采样策略:
- 在 步的去噪过程中,随机选择一步执行随机的 SDE 转移(用于探索和计算梯度)。
- 其余
K-1步则执行确定性的 ODE 转移。 这种方法在保证了探索性的同时,将有效 MDP 链的长度缩短回了与环境交互步数相同的级别,大大提高了训练效率。
4.3. 策略优化与 Critic 设计
4.3.1. 策略优化算法
无论采用 Flow-Noise 还是 Flow-SDE,最终都得到了一个可计算策略梯度的 MDP。论文使用近端策略优化 (Proximal Policy Optimization, PPO) 算法来更新策略网络。PPO 是一种稳定且高效的策略梯度方法,它通过一个裁剪 (clipping) 机制来限制每次策略更新的幅度,防止训练过程崩溃。其目标函数为:
- : 新旧策略的概率比。
- : 优势函数 的估计值,通常用 广义优势估计 (Generalized Advantage Estimation, GAE) 计算得到。
- : 一个超参数,用于定义裁剪范围。
4.3.2. Critic 设计
PPO 算法需要一个 Critic 网络来估计状态价值函数 ,从而计算优势函数 。由于 和 的模型结构不同,论文设计了两种不同的 Critic 放置策略,如下图(原文 Figure 4)所示:
该图像是一个图表,展示了不同噪声水平下训练与评估的成功率和剪切比例。左侧子图 (a) 显示训练过程中的成功率;中间子图 (b) 显示评估过程中的成功率;右侧子图 (c) 显示剪切比例的变化。各子图中不同颜色曲线代表不同噪声水平的表现。
- 对于 (图 b): 本体感知状态与图像、语言一同输入 VLM。因此,Critic 网络直接连接在 VLM 的输出特征之后,记为 。
- 对于 (图 a): 本体感知状态是输入到动作专家 (action expert) 模块的。因此,Critic 网络连接在动作专家之后,记为 。但动作专家的输入还包括了噪声动作 ,这使得价值估计依赖于 。为了得到一个稳定的价值估计,论文通过在整个去噪轨迹上对价值进行期望平均来近似 :
5. 实验设置
5.1. 数据集
实验在两个主流的机器人操作仿真环境中进行:
- LIBERO:
- 来源与特点: 这是一个基于 CPU 的仿真平台,专为评估机器人在多任务学习和终身学习中的知识迁移能力而设计。
- 任务套件: 包含四个不同维度的任务集合:
Spatial(空间关系)、Object(物体属性)、Goal(目标导向) 和Long(长时程)。每个套件包含 10 个子任务。
- ManiSkill:
- 来源与特点: 这是一个高保真、支持 GPU 并行加速的仿真平台,以其逼真的物理效果和视觉渲染而闻名。
- 任务设置:
- SIMPLER benchmark: 一个标准测试集,包含四个任务(如用勺子舀东西、把茄子放进篮子)。
- MultiTask benchmark: 一个由作者构建的、更大规模的多任务场景。机器人需要从 16 种物体中拾取,并放置到 17 种不同的容器上,场景背景也有 16 种变化,总共构成了 4,352 种任务组合,极大地考验了模型的泛化能力。
5.2. 评估指标
论文使用的核心评估指标是 成功率 (Success Rate)。
- 概念定义 (Conceptual Definition): 该指标衡量了机器人在给定任务中成功完成目标的试验次数占总试验次数的百分比。它是评估机器人策略性能最直观、最重要的指标。一次试验是否“成功”由环境预先定义的成功条件来判断(例如,物体是否被放置在了正确的位置)。
- 数学公式 (Mathematical Formula):
- 符号解释 (Symbol Explanation):
Number of Successful Trials: 成功完成任务的次数。Total Number of Trials: 进行测试的总次数。
5.3. 对比基线
本文的实验主要围绕以下对比展开:
- SFT Baselines (少样本 vs. 全量数据):
- Few-shot SFT: 使用非常有限的专家数据(例如,每个任务只有几条或几十条轨迹)对预训练的 和 进行监督微调。这是 的直接起点和主要对比基线。
- Full-dataset SFT: 使用官方提供的完整专家数据集进行监督微调。这是一个更强的基线,用于衡量 能否用更少的数据达到甚至超越传统 SFT 的性能上限。
- 其他 SOTA VLA 模型: 在 LIBERO 基准上,论文还将 的最终性能与其他先进的 VLA 模型(如
Octo,OpenVLA,OpenVLA-OFT)进行了比较,这些模型都是在全量数据上训练的。 - 内部方法/算法对比:
Flow-Noisevs.Flow-SDEPPOvs.GRPO(另一种策略梯度算法)
6. 实验结果与分析
6.1. 核心结果分析
6.1.1. LIBERO 上的性能表现
在 LIBERO 基准测试中, 展现了强大的性能提升能力。
以下是原文 Table 1 的结果:
| Model | LIBERO | |||||
|---|---|---|---|---|---|---|
| Spatial | Object | Goal | Long | Avg. | Δ Avg. | |
| # Full Dataset SFT | ||||||
| Octo | 78.9 | 85.7 | 84.6 | 51.1 | 75.1 | |
| OpenVLA | 84.7 | 88.4 | 79.2 | 53.7 | 76.5 | |
| πfast | 96.4 | 96.8 | 88.6 | 60.2 | 85.5 | |
| OpenVLA-OFT | 91.6 | 95.3 | 90.6 | 86.5 | 91.0 | |
| π0 | 96.8 | 98.8 | 95.8 | 85.2 | 94.2 | |
| π0.5 | 98.8 | 98.2 | 98.0 | 92.4 | 96.9 | |
| # Few-shot SFT + RL | ||||||
| π0 SFT | 65.3 | 64.4 | 49.8 | 51.2 | 57.6 | |
| + Flow-SDE | 98.4 | 99.4 | 96.2 | 90.2 | 96.1 | +38.5 |
| + Flow-Noise | 99.0 | 99.2 | 98.2 | 93.8 | 97.6 | +40.0 |
| # Few-shot SFT + RL | ||||||
| π0.5 SFT | 84.6 | 95.4 | 84.6 | 43.9 | 77.1 | |
| + Flow-SDE | 99.6 | 100 | 98.8 | 93.0 | 97.9 | +20.8 |
| + Flow-Noise | 99.6 | 100 | 99.6 | 94.0 | 98.3 | +21.2 |
分析:
- 巨大提升: 无论是对于 还是 ,RL 微调都带来了巨大的性能提升。 的平均成功率从 57.6% 提升到 97.6%(+40.0%), 从 77.1% 提升到 98.3%(+21.2%)。
- 超越全量数据 SFT: 经过 微调的少样本模型,其最终性能不仅远超自身的 SFT 基线,甚至超越了使用全量数据进行 SFT 的模型。例如, + Flow-Noise (97.6%) > 全量 SFT (94.2%); + Flow-Noise (98.3%) > 全量 SFT (96.9%)。这充分证明了在线 RL 能够学习到 SFT 数据中不存在的知识,从而达到更高的性能上限。
- 攻克难题: 在最具挑战性的
LIBERO-Long长时程任务上,效果尤为显著。 的少样本 SFT 模型在此任务上成功率仅为 43.9%,而 RL 微调后飙升至 94.0%,解决了 SFT 模型在长时程规划上的短板。 - 方法对比:
Flow-Noise的性能略微优于Flow-SDE。作者认为这可能是因为Flow-Noise的可学习噪声网络提供了更灵活的探索控制。但两者性能差距很小,都证明了方法的有效性。
6.1.2. ManiSkill 上的可扩展性与泛化性
在更为复杂的 ManiSkill 环境中, 同样表现出色。
以下是原文 Table 2 (SIMPLER) 和 Table 3 (MultiTask) 的结果: Table 2: SIMPLER Benchmark
| Model | Carrot | Eggplant | Spoon | Cube | Avg. | |
|---|---|---|---|---|---|---|
| π0 | SFT | 82.7 | 87.5 | 61.7 | 37.1 | 67.2 |
| Flow-Noise | 95.7 | 96.7 | 91.6 | 63.0 | 86.7 | |
| ∆ | +13.0 | +9.2 | +29.9 | +25.9 | +19.5 | |
| π0.5 | SFT | 70.6 | 91.9 | 43.5 | 31.0 | 59.2 |
| RL | 82.0 | 98.2 | 82.8 | 53.3 | 79.1 | |
| ∆ | +11.4 | +6.3 | +39.3 | +22.3 | +19.9 |
Table 3: MultiTask Benchmark
| Model | IND | Visual | Semantic | Action | Avg. | |
|---|---|---|---|---|---|---|
| \multicolumn{4}{c | }{OOD} | |||||
| π0 | SFT | 41.6 | 43.4 | 4.8 | 10.2 | 19.5 |
| Flow-Noise | 85.7 | 72.9 | 6.6 | 17.9 | 32.5 | |
| ∆ | +44.1 | +29.5 | +1.8 | +7.7 | +13.0 | |
| π0.5 | SFT | 40.1 | 38.8 | 16.6 | 22.3 | 25.9 |
| Flow-Noise | 81.1 | 59.0 | 25.4 | 39.1 | 41.2 | |
| ∆ | +41.0 | +20.2 | +8.8 | +16.8 | +15.3 |
分析:
- 多任务学习能力: 在包含 4352 个任务组合的
MultiTask基准上, 的成功率从 41.6% 提升到 85.7%, 从 40.1% 提升到 84.8%(此处原文表格 Flow-Noise 值为 81.1%,摘要中为 84.8%,以表格为准)。这证明了 框架能够支持大规模、复杂的多任务 RL 训练。 - OOD (分布外) 泛化: 实验测试了模型在三种 OOD 场景下的泛化能力:
Visual(新背景纹理)、Semantic(新物体或指令)、Action(新初始姿态或干扰)。- 结果显示,RL 微调在 分布内 (In-Distribution, IND) 任务上提升巨大。
- 在 OOD 任务上,RL 也有一定的提升,但提升幅度有限,尤其是在
Semantic和Action泛化上。 - 作者分析了原因:1) SFT 基线模型本身的 OOD 泛化能力就很差,限制了 RL 的提升上限;2) RL 阶段冻结了 VLM,导致模型无法调整其视觉表示来适应新场景,从而影响了泛化。
6.2. 消融实验/参数分析
论文进行了详尽的消融研究,以验证框架中各个设计选择的有效性。
6.2.1. RL 算法对比 (PPO vs. GRPO)
如下表(原文 Table 4)所示,PPO 在所有任务上都一致地优于 GRPO,无论是在最终性能还是训练稳定性上。这与之前在自回归 VLA 模型上的发现一致。
| Model | LIBERO | ||||||
|---|---|---|---|---|---|---|---|
| Spatial | Object | Goal | Long | Avg. | Δ Avg. | ||
| π0 | SFT | 65.3 | 64.4 | 49.8 | 51.2 | 57.6 | |
| +GRPO | 97.8 | 97.8 | 83.2 | 81.4 | 90.0 | +32.4 | |
| +PPO | 98.4 | 99.4 | 96.2 | 90.2 | 96.0 | +38.4 | |
| π0.5 | SFT | 84.6 | 95.4 | 84.6 | 43.9 | 77.1 | |
| +GRPO | 97.4 | 99.8 | 91.2 | 77.6 | 91.5 | +14.4 | |
| +PPO | 99.6 | 100 | 98.8 | 93.0 | 97.9 | +20.8 | |
6.2.2. Critic 设计
- 位置: 将 Critic 放在 VLM 之后 () 比放在动作专家之后 () 性能略好且训练更稳定。
- 结构: 使用一个 4 层的 MLP 作为 Critic 网络比使用一个 1 层的 MLP 效果更好,能提供更准确的价值估计。
6.2.3. 超参数影响
论文分析了三个关键超参数:噪声水平、去噪步数和动作块大小。
以下是原文 Table 5 的部分结果:
| Models | Stage | Noise Level (0.5) | Denoise Step (4) | Action Chunk (10) |
|---|---|---|---|---|
| SFT | Train | 56.0 | 56.1 | 60.7 |
| Eval | 65.2 | 65.2 | 70.5 | |
| RL | Train | 93.5 | 93.5 | 93.3 |
| Eval | 94.5 | 94.5 | 95.5 |
核心发现: 存在一个普遍的权衡 (trade-off)。
-
噪声水平: 噪声太小,探索不足,RL 提升有限;噪声太大,会破坏 SFT 学到的先验知识,导致初始性能下降。
-
去噪步数: 步数太少,ODE 到 SDE 的离散化误差大;步数太多,虽然更精确,但会增加 RL 的训练难度和计算成本。
-
动作块大小: 块越大(一次执行的动作越多),SFT 初始性能可能越好,但 RL 的信誉分配 (credit assignment) 越困难,阻碍了学习。
结论: 优化的超参数选择需要在保证 RL 探索有效性和维持 SFT 初始性能稳定性之间找到一个平衡点。
7. 总结与思考
7.1. 结论总结
本文成功地解决了将在线强化学习应用于基于流的 VLA 模型这一关键难题。通过提出 框架及其内置的两种创新方法——Flow-Noise 和 Flow-SDE,论文为这类模型提供了一套完整、有效的 RL 微调方案。
- 主要贡献: 首次实现了对 和 等先进流模型的大规模在线 RL 训练,解决了其核心的对数似然计算问题。
- 主要发现: 实验证明, 能够极大地提升少样本 SFT 模型的性能,使其达到甚至超越全量数据 SFT 的水平,尤其在长时程和复杂多任务场景中表现突出。
- 意义: 这项工作为 VLA 模型的“预训练 -> SFT -> RL”三段式训练范式补上了关键的一环,使得更广泛、性能更强的 VLA 架构都能从 RL 中受益,推动了通用机器人智能的发展。
7.2. 局限性与未来工作
论文作者坦诚地指出了当前工作的局限性,并展望了未来的研究方向: *
相似论文推荐
基于向量语义检索推荐的相关论文。