$π_\texttt{RL}$: Online RL Fine-tuning for Flow-based Vision-Language-Action Models
TL;DR 精炼摘要
本文提出了$π_ exttt{RL}$框架,利用在线强化学习技术对基于流的视觉-语言-动作(VLA)模型进行微调,解决了大规模应用中行动日志似然性的挑战。该方法在LIBERO和ManiSkill基准测试中表现优异,显著提高模型性能,证明了其有效性和实用性。
摘要
Vision-Language-Action (VLA) models enable robots to understand and perform complex tasks from multimodal input. Although recent work explores using reinforcement learning (RL) to automate the laborious data collection process in scaling supervised fine-tuning (SFT), applying large-scale RL to flow-based VLAs (e.g., , ) remains challenging due to intractable action log-likelihoods from iterative denoising. We address this challenge with , an open-source framework for training flow-based VLAs in parallel simulation. implements two RL algorithms: (1) {Flow-Noise} models the denoising process as a discrete-time MDP with a learnable noise network for exact log-likelihood computation. (2) {Flow-SDE} integrates denoising with agent-environment interaction, formulating a two-layer MDP that employs ODE-to-SDE conversion for efficient RL exploration. We evaluate on LIBERO and ManiSkill benchmarks. On LIBERO, boosts few-shot SFT models and from 57.6% to 97.6% and from 77.1% to 98.3%, respectively. In ManiSkill, we train in 320 parallel environments, improving from 41.6% to 85.7% and from 40.0% to 84.8% across 4352 pick-and-place tasks, demonstrating scalable multitask RL under heterogeneous simulation. Overall, achieves significant performance gains and stronger generalization over SFT-models, validating the effectiveness of online RL for flow-based VLAs.
思维导图
论文精读
中文精读
1. 论文基本信息
1.1. 标题
: Online RL Fine-tuning for Flow-based Vision-Language-Action Models (:基于流的视觉-语言-动作模型的在线强化学习微调)
1.2. 作者
Kang Chen, Zhihao Liu, Tonghe Zhang, Zhen Guo, Si Xu, Hao Lin, Hongzhi Zang, Quanlu Zhang, Zhaofei Yu, Guoliang Fan, Tiejun Huang, Yu Wang, Chao Yu 主要隶属机构:清华大学、北京大学、中国科学院自动化研究所、卡内基梅隆大学 (CMU)、Infinigence (无限光年)、中关村实验室。
1.3. 发表期刊/会议
发表于 arXiv (预印本),上传时间为 2025 年 10 月 29 日。
1.4. 发表年份
2025 年
1.5. 摘要
视觉-语言-动作 (VLA) 模型使机器人能够理解多模态输入并执行复杂任务。目前的 VLA 训练主要依赖监督微调 (SFT),但这需要昂贵的数据收集过程。强化学习 (RL) 可以自动化这一过程,但将其应用于基于流 (Flow-based) 的 VLA 模型(如 , )面临巨大挑战,主要原因是迭代去噪过程使得动作的对数似然 (Log-likelihood) 难以计算。本文提出了 框架,通过 Flow-Noise 和 Flow-SDE 两种方法解决了这一难题,使得基于流的 VLA 能够使用 PPO 算法进行在线微调,并在 LIBERO 和 ManiSkill 基准测试中取得了显著的性能提升。
1.6. 原文链接
2. 整体概括
2.1. 研究背景与动机
- VLA 的兴起与局限: 视觉-语言-动作模型 (VLA) 结合了视觉语言模型 (VLM) 的推理能力和机器人的控制能力。目前的训练范式通常是预训练加上监督微调 (SFT)。
- SFT 的瓶颈: SFT 依赖大量高质量的人类演示数据,收集成本极高且模型容易过拟合。
- RL 的潜力与挑战: 强化学习 (RL) 可以通过让机器人与环境交互来进一步提升性能。然而,现有的 RL-VLA 研究主要针对自回归模型 (如 OpenVLA),这些模型输出离散的动作词元 (token),容易计算概率。
- 核心痛点 (Gap): 基于流的 VLA 模型(如 )通过连续的流匹配 (Flow Matching) 生成动作,具有更好的灵巧性。但这种生成方式是基于常微分方程 (ODE) 的迭代去噪过程,导致无法直接计算最终动作的对数似然 (Log-likelihood)。而标准的策略梯度 RL 算法(如 PPO)必须依赖对数似然来更新策略。
2.2. 核心贡献/主要发现
-
首个基于流的 VLA-RL 框架: 提出了 ,这是第一个支持对基于流的 VLA 模型(特别是 和 )进行并行在线强化学习微调的开源框架。
-
两大技术方案:
- Flow-Noise: 将去噪过程建模为离散时间的马尔可夫决策过程 (MDP),通过注入可学习的噪声来计算精确的对数似然。
- Flow-SDE: 将确定性的 ODE 去噪转化为随机微分方程 (SDE),构建双层 MDP 并利用混合 ODE-SDE 采样来加速探索。
-
显著的性能提升: 在 LIBERO 基准测试中, 将少样本 SFT 模型的成功率从 57.6% 提升至 97.6%。在 ManiSkill 的 4352 个任务组合中,成功率翻倍。
-
算法优越性: 证明了 PPO 算法在流模型微调中优于 GRPO 等其他策略梯度算法。
3. 预备知识与相关工作
3.1. 基础概念
为了理解本文,初学者需要掌握以下概念:
- 视觉-语言-动作模型 (VLA): 类似于 ChatGPT,但不仅能看图、说话,还能直接输出控制机器人的动作(如机械臂的关节角度或末端位置)。
- 流匹配 (Flow Matching): 一种生成模型技术,类似于扩散模型 (Diffusion Model)。它不是一次性生成结果,而是从纯噪声开始,通过多次迭代(去噪步骤),沿着一个“速度场 (Vector Field)”逐渐演变成有意义的数据(动作)。
- 对数似然 (Log-likelihood): 在强化学习中,我们需要知道“模型在当前状态下选择某个动作的概率是多少”。对数似然 是 PPO 等算法计算梯度的基础。如果模型是确定性的(如 ODE 采样),这个概率密度就是无穷大或无法定义的,导致 RL 无法运行。
- 常微分方程 (ODE) vs. 随机微分方程 (SDE):
- ODE: 确定性的演变路径。给定起点,路径是固定的。
- SDE: 在演变过程中加入随机噪声项,路径具有随机性,这为 RL 提供了必要的“探索 (Exploration)”能力。
3.2. 前人工作与差异化分析
-
自回归 VLA (Autoregressive VLAs): 如 OpenVLA,将动作离散化为 token。
- 局限: 动作不连续,难以执行高频精细操作。
- RL 现状: 之前的 RL 工作主要针对此类模型,因为计算 log-likelihood 很简单(Softmax)。
-
基于流的 VLA (Flow-based VLAs): 如 , 。
- 优势: 生成连续动作块 (Action Chunks),动作更平滑灵巧。
- RL 难点: 迭代去噪过程使得似然估计变得极其复杂 (Intractable)。
-
本文差异: 之前针对流模型的 RL 工作(如 Flow-GRPO, ReinFlow)主要用于图像生成或简单低维控制。本文首次将其扩展到大规模、多模态、复杂的 VLA 机器人控制任务中,并解决了计算效率和梯度估计的难题。
4. 方法论
本章详细解析 框架如何解决对数似然计算难题。
下图(原文 Figure 2)展示了 框架中的两种优化方法概览:
该图像是示意图,展示了针对基于流的视觉-语言-行动(VLA)模型的两种解决方案。左侧部分介绍了Flow-Noise和Flow-SDE两种模型的结构与公式,其中包含了单层和双层马尔可夫决策过程的相关信息。右侧则展示了策略的推行与演员更新的过程,包括状态、动作、环境交互以及政策更新的步骤,体现了在线强化学习的应用。
4.1. 问题定义与 RL 基础
任务被建模为马尔可夫决策过程 (MDP)。目标是最大化累积奖励。策略梯度更新的核心公式如下(原文 Eq. 2):
- 符号解释:
- : 对策略参数 求梯度。
- : 动作的对数似然。这就是本文要解决的核心难点。
- : 优势函数,评估动作的好坏。
4.2. 方法一:Flow-Noise
该方法的核心思想是将连续的去噪过程离散化,并显式地注入可学习的噪声,使其成为一个概率过程。
4.2.1. 原理与步骤
-
噪声注入 (Stochasticity Injection): 不再使用确定性的 ODE 求解,而是在每一步去噪时加入由神经网络预测的噪声。
-
公式推导: 假设去噪过程从 时刻到 时刻,状态转移服从高斯分布(原文 Eq. 4):
- 符号解释:
- : 下一步动作的均值,由当前的动作 加上预测的速度场 乘以步长 得到(这是欧拉积分法的标准步骤)。
- : 方差,由一个可学习的噪声网络 预测。
- 这意味着:。
- 符号解释:
-
对数似然估计: 由于每一步都是高斯分布,我们可以计算整个去噪轨迹的联合概率。原文 Eq. (5) 给出了计算公式:
- 解释: 最终动作的概率被转化为整个去噪路径上每一步转移概率的乘积。取对数后,乘积变为求和。这样我们就得到了一个精确可微的 log-likelihood,可以直接代入 PPO 进行训练。
4.3. 方法二:Flow-SDE
该方法通过数学变换,将确定性的 ODE 转化为等价的随机微分方程 (SDE),并引入双层 MDP 结构。
4.3.1. ODE 转 SDE
作者利用概率流理论,构建了一个 SDE,使其边缘分布与原始 ODE 保持一致。 原文 Eq. (8) 展示了离散化后的 SDE 更新公式:
- 符号解释:
- 方括号内的项 : 漂移项 (Drift Term)。这修正了原来的速度场,以抵消引入噪声带来的分布偏移。
- : 扩散项 (Diffusion Term)。引入了布朗运动噪声 ,用于 RL 的探索。
- : 噪声调度函数,控制噪声的大小。
4.3.2. 双层 MDP 与混合采样
为了提高效率,作者设计了一个双层 MDP:
- 外层 MDP: 机器人与环境交互。
- 内层 MDP: 模型内部的去噪步骤。
- 混合采样 (Hybrid ODE-SDE): 为了加速训练,作者并不在每一步都使用 SDE。相反,随机选择一步进行 SDE 随机跳跃,其余步骤使用确定性的 ODE。这大大减少了计算量的同时保留了随机性。
4.4. 策略优化 (PPO)
使用 PPO 算法进行训练,目标函数如下(原文 Eq. 12): 其中概率比率 根据是一层 MDP (Flow-Noise) 还是双层 MDP (Flow-SDE) 有不同的计算方式(原文 Eq. 13)。
4.4.1. 评论家 (Critic) 设计
为了计算优势函数 ,需要一个价值网络 (Critic)。
-
对于 : Critic 直接接在 VLM 的输出后面(利用多模态特征)。
-
对于 : Critic 需要处理去噪过程中的中间状态,因此采用对整个去噪轨迹的价值进行平均的方式。
下图(原文 Figure 4)展示了两种 Critic 的架构设计:
该图像是示意图,展示了两种不同的批评者架构,分别为示例 和 。左侧(a)展示了使用动作专家的批评者,其中视觉语言模型分析状态 "fold shirt"。右侧(b)展示了使用视觉语言模型(VLM)的批评者,分析状态 "clean room"。图中包括动作、状态及噪声的相互关系,突出两种架构在任务执行中的不同应用。
5. 实验设置
5.1. 环境与数据集
- LIBERO:
- 描述: 一个标准的桌面操作基准测试,包含 Spatial, Object, Goal, Long 四个任务套件。
- SFT 数据: 使用 LIBERO 官方数据集的子集(仅 58 条轨迹用于 少样本训练),模拟数据稀缺场景。
- ManiSkill (基于 SIMPLER):
- 描述: 高保真物理模拟器。
- 多任务设置 (MultiTask): 作者构建了一个包含 4352 个“抓取-放置”任务组合的大规模测试集(16 种物体 x 17 种容器 x 16 个场景)。
- SIMPLER: 用于评估 Sim-to-Real 的潜力,包含 Spoon, Carrot, Eggplant, Cube 四个任务。
5.2. 评估指标
- 成功率 (Success Rate):
- 概念定义: 在评估期间,完成任务的回合数占总尝试回合数的百分比。
- 计算公式:
- 符号解释: 为成功完成任务的次数, 为总测试次数。
5.3. 对比基线
-
全量数据 SFT 模型: Octo, OpenVLA, , , (使用完整数据集训练的模型)。
-
少样本 SFT 模型: 仅使用少量演示数据训练的 和 (作为 RL 的起点)。
-
RL 算法基线: GRPO (一种不需要 Critic 的策略梯度算法,常用于 LLM)。
6. 实验结果与分析
6.1. LIBERO 基准测试结果
在少样本学习上取得了惊人的提升。
以下是原文 Table 1 的结果(经过 HTML 格式化):
| Model | LIBERO (Success Rate %) | |||||
|---|---|---|---|---|---|---|
| Spatial | Object | Goal | Long | Avg. | Δ Avg. | |
| Full Dataset SFT (全量数据基线) | ||||||
| Octo | 78.9 | 85.7 | 84.6 | 51.1 | 75.1 | |
| OpenVLA | 84.7 | 88.4 | 79.2 | 53.7 | 76.5 | |
| π0 | 96.8 | 98.8 | 95.8 | 85.2 | 94.2 | |
| π0.5 | 98.8 | 98.2 | 98.0 | 92.4 | 96.9 | |
| Few-shot SFT + RL (本文方法) | ||||||
| π0 (SFT Only) | 65.3 | 64.4 | 49.8 | 51.2 | 57.6 | |
| SFT + Flow-SDE | 98.4 | 99.4 | 96.2 | 90.2 | 96.1 | +38.5 |
| SFT + Flow-Noise | 99.0 | 99.2 | 98.2 | 93.8 | 97.6 | +40.0 |
| π0.5 Experiments | ||||||
| π0.5 (SFT Only) | 84.6 | 95.4 | 84.6 | 43.9 | 77.1 | |
| SFT + Flow-SDE | 100 | 98.8 | 93.0 | 97.9 | 97.9 | +20.8 |
| SFT + Flow-Noise | 99.6 | 100 | 99.6 | 94.0 | 98.3 | +21.2 |
分析:
- 超越 SFT: 在少样本 (Few-shot) 设置下,RL 微调后的模型(97.6%)不仅远超 SFT 基线(57.6%),甚至超越了使用全量数据训练的 SFT 模型(94.2%)。这证明了 RL 可以通过交互有效弥补数据的不足。
- 长程任务突破: 在最具挑战性的 LIBERO-Long 任务中, 的成功率从 43.9% 飙升至 94.0%,说明 RL 对长序列任务的泛化能力极强。
6.2. ManiSkill 大规模多任务结果
在包含 4352 个任务组合的测试中, 展现了强大的扩展性。
以下是原文 Table 3 的结果:
| Model | IND (分布内) | OOD (分布外泛化测试) | ||||
|---|---|---|---|---|---|---|
| Visual | Semantic | Action | Avg. | |||
| π0 | SFT | 41.6 | 43.4 | 4.8 | 10.2 | 19.5 |
| Flow-Noise | 85.7 | 72.9 | 6.6 | 17.9 | 32.5 | |
| Δ | +44.1 | +29.5 | +1.8 | +7.7 | +13.0 | |
| π0.5 | SFT | 40.1 | 38.8 | 16.6 | 22.3 | 25.9 |
| Flow-Noise | 81.1 | 59.0 | 25.4 | 39.1 | 41.2 | |
| Δ | +41.0 | +20.2 | +8.8 | +16.8 | +15.3 | |
分析:
-
多任务能力: 在分布内 (IND) 任务上,RL 将成功率从 40% 左右提升到了 80% 以上。
-
OOD 泛化: 在视觉 (Visual) 变化上泛化较好,但在语义 (Semantic) 变化上提升有限。这可能是因为在 RL 阶段冻结了 VLM 权重,限制了语义理解能力的适应。
下图(原文 Figure 13)展示了 ManiSkill 任务上的训练曲线:
该图像是包含两个子图的评估结果图,第一个子图展示了模型 和 在测试过程中的成功率变化,第二个子图展示了它们的解释方差随步骤的变化情况。总体上,随着步骤增加,这两个模型的表现均有提升。
6.3. 核心消融实验
6.3.1. PPO vs. GRPO
作者比较了 PPO 和 GRPO 两种算法。 下图(原文 Figure 5)展示了训练曲线对比:
该图像是图表,展示了不同算法(GRPO和PPO)在多个任务(Spatial、Object、Goal和Long)中的成功率随步骤变化的情况。每个子图显示了从0到300步之间的成功率变化趋势,GRPO算法(蓝线)普遍表现较好,尤其在Spatial任务中,其成功率几乎达到1,而PPO算法(粉线)在不同任务中的表现较为稳定但整体低于GRPO。
结论: PPO(粉线)在收敛速度和最终性能上都显著优于 GRPO(蓝线)。这是因为 PPO 利用 Critic 提供了更低方差的优势估计,对于复杂的连续控制任务更有效。
6.3.2. 去噪步数 (Denoise Step)
在 Flow-SDE 中,去噪步数 是一个关键超参数。 下图(原文 Figure 10)展示了 的影响:
结论:
-
: 训练失败,说明一步去噪无法拟合 SDE 分布。
-
增加: 性能提升,但 过大(如 8)会增加计算成本且并没有带来显著的额外收益。 或
4是较好的平衡点。
7. 总结与思考
7.1. 结论总结
本文提出了 ,这是一个里程碑式的工作,成功将在线强化学习引入到了基于流的 VLA 模型中。
- 方法创新: 通过 Flow-Noise 和 Flow-SDE 两种机制,巧妙地解决了流匹配模型无法计算动作对数似然的问题。
- 性能突破: 在极少演示数据的情况下,RL 微调后的模型性能远超 SFT,甚至击败了使用全量数据训练的 SFT 模型。
- 工程贡献: 提供了支持 和 的开源训练框架,支持大规模并行仿真。
7.2. 局限性与未来工作
- 训练与推理的分布差异: 训练时使用随机采样(SDE/Noise),推理时通常使用确定性采样(ODE)。这会导致分布偏移 (Distribution Shift),作者建议通过调整噪声幅度和去噪步数来缓解。
- OOD 泛化有限: 虽然分布内性能提升巨大,但在面对未见过的物体或指令时,RL 的泛化提升不如预期。这可能与冻结 VLM 有关。
- 仿真依赖: 目前所有实验均在仿真环境中进行,尚未在真实机器人上验证 (Sim-to-Real)。
7.3. 个人启发与批判
- 流模型的 RL 范式: 这篇文章为所有生成式策略 (Generative Policies) 的 RL 训练指明了方向。不仅是 VLA,任何使用 Diffusion 或 Flow Matching 做决策的领域(如自动驾驶轨迹生成)都可以借鉴这种 "ODE 转 SDE" 或 "噪声注入" 的思路来计算似然。
- Critic 的重要性: 相比于近期在大语言模型 (LLM) 中流行的 GRPO (无 Critic),本文证明了在连续控制和复杂状态空间下,一个训练良好的 Critic (PPO) 依然是不可或缺的,它能显著降低梯度估计的方差。
- 思考: Flow-SDE 中的混合采样策略非常聪明,它在数学严谨性和计算效率之间找到了平衡。未来如果能结合更高效的流模型加速算法(如一致性模型 Consistency Models),可能会进一步降低 RL 的训练门槛。
相似论文推荐
基于向量语义检索推荐的相关论文。