AiPaper
论文状态:已完成

SimpleVLA-RL: Scaling VLA Training via Reinforcement Learning

发表:2025/09/12
原文链接PDF 下载
价格:0.10
价格:0.10
已有 1 人读过
本分析由 AI 生成,可能不完全准确,请以原文为准。

TL;DR 精炼摘要

本文提出了`SimpleVLA-RL`框架,通过强化学习提升视觉-语言-动作(VLA)模型的训练效率,解决了大规模人类操作数据的稀缺和泛化能力有限的问题。实验表明,该框架在`OpenVLA-OFT`模型上达到了最先进的性能,降低了对标注数据的依赖。

摘要

Vision-Language-Action (VLA) models have recently emerged as a powerful paradigm for robotic manipulation. Despite substantial progress enabled by large-scale pretraining and supervised fine-tuning (SFT), these models face two fundamental challenges: (i) the scarcity and high cost of large-scale human-operated robotic trajectories required for SFT scaling, and (ii) limited generalization to tasks involving distribution shift. Recent breakthroughs in Large Reasoning Models (LRMs) demonstrate that reinforcement learning (RL) can dramatically enhance step-by-step reasoning capabilities, raising a natural question: Can RL similarly improve the long-horizon step-by-step action planning of VLA? In this work, we introduce SimpleVLA-RL, an efficient RL framework tailored for VLA models. Building upon veRL, we introduce VLA-specific trajectory sampling, scalable parallelization, multi-environment rendering, and optimized loss computation. When applied to OpenVLA-OFT, SimpleVLA-RL achieves SoTA performance on LIBERO and even outperforms π0π_0 on RoboTwin 1.0&2.0 with the exploration-enhancing strategies we introduce. SimpleVLA-RL not only reduces dependence on large-scale data and enables robust generalization, but also remarkably surpasses SFT in real-world tasks. Moreover, we identify a novel phenomenon ``pushcut'' during RL training, wherein the policy discovers previously unseen patterns beyond those seen in the previous training process. Github: https://github.com/PRIME-RL/SimpleVLA-RL

思维导图

论文精读

中文精读

1. 论文基本信息

1.1. 标题

SimpleVLA-RL: Scaling VLA Training via Reinforcement Learning

中文可译为:SimpleVLA-RL:通过强化学习扩展视觉-语言-动作模型的训练

论文的核心主题是提出一个名为 SimpleVLA-RL 的框架,利用强化学习 (Reinforcement Learning) 技术来提升和扩展视觉-语言-动作 (Vision-Language-Action, VLA) 模型的训练,旨在解决现有方法对大规模人工标注数据依赖性强和泛化能力有限的问题。

1.2. 作者

Haozhan Li*, Yuxin Zuo*, Jiale Yu*, Yuhao Zhang*, Zhaohui Yang, Kaiyan Zhang, Xuekai Zhu, Yuchen Zhang, Tianxing Chen, Ganqu Cui, Dehui Wang, Dingxiang Luo, Yuchen Fan, Youbang sun, Jia Zeng, Jiangmiao Pang, Shanghang Zhang, Yu Wang, Yao Mu, Bowen Zhou, and Ning Ding†.

星号(*)表示同等贡献,匕首符号(†)表示通讯作者。作者团队来自多个顶尖研究机构,包括清华大学、PRIME-RL 等,是一个大规模的合作研究项目。

1.3. 发表期刊/会议

这是一篇发表在 arXiv 上的预印本论文。arXiv 是一个开放获取的学术论文存档网站,允许研究者在同行评审和正式发表前分享他们的研究成果。这表明该研究代表了该领域的最新进展,但尚未经过正式的同行评审流程。

1.4. 发表年份

论文的发表日期(UTC)为 2025-09-11

1.5. 摘要

视觉-语言-动作 (Vision-Language-Action, VLA) 模型已成为机器人操控领域一个强大的范式。尽管通过大规模预训练和监督微调 (Supervised Fine-Tuning, SFT) 取得了显著进展,但这些模型仍面临两大根本挑战:(i) 用于 SFT 的大规模人类操作机器人轨迹数据稀缺且成本高昂;(ii) 模型在面对分布偏移 (distribution shift) 的任务时泛化能力有限。

近期,大型推理模型 (Large Reasoning Models, LRMs) 的突破表明,强化学习 (Reinforcement Learning, RL) 能够显著增强模型的逐步推理能力。这引出一个自然的问题:RL 是否能同样提升 VLA 模型的长时程、逐步的动作规划能力?

本文中,作者们提出了 SimpleVLA-RL,一个专为 VLA 模型定制的高效 RL 框架。该框架在 veRL 的基础上,引入了针对 VLA 的轨迹采样、可扩展的并行化、多环境渲染和优化的损失计算。

实验结果表明,将 SimpleVLA-RL 应用于 OpenVLA-OFT 模型后,在 LIBERO 基准测试上取得了最先进的性能,并且在引入了作者提出的探索增强策略后,在 RoboTwin 1.0 & 2.0 上甚至超越了基线模型 π0π_0SimpleVLA-RL 不仅减少了对大规模数据的依赖并实现了鲁棒的泛化,还在真实世界任务中显著超越了 SFT。此外,作者在 RL 训练过程中发现了一个新现象 “pushcut”,即策略发现了先前训练过程中未曾见过的新模式。

1.6. 原文链接

2. 整体概括

2.1. 研究背景与动机

2.1.1. 核心问题

论文试图解决的核心问题是当前先进的机器人 VLA 模型在发展和应用中遇到的两大瓶颈:

  1. 数据瓶颈 (Data Bottleneck): VLA 模型的训练,特别是监督微调 (SFT) 阶段,严重依赖于由人类专家操作机器人采集的高质量轨迹数据。这类数据的采集成本极高、耗时耗力,导致其规模和多样性都受到严重限制,从而阻碍了模型能力的进一步扩展。
  2. 泛化瓶颈 (Generalization Bottleneck): 仅仅依赖于有限的、特定场景和任务的 SFT 数据进行训练,导致 VLA 模型在遇到新的、未见过的任务、环境或物体时,性能会急剧下降。这种对训练数据分布的过拟合 (overfitting) 限制了机器人在真实世界中的应用潜力。

2.1.2. 问题的重要性与现有研究空白

在机器人领域,实现通用的人工智能(AGI for Robotics)是终极目标之一。VLA 模型被认为是实现这一目标的重要途径,因为它能够将语言理解、视觉感知和物理动作统一起来。然而,上述的数据和泛化瓶颈是通往这一目标的主要障碍。现有研究大多集中于扩大预训练数据规模或改进模型架构,但 SFT 阶段的根本限制仍未得到有效解决。

2.1.3. 论文的切入点与创新思路

本文的作者受到了近期大型推理模型 (LRMs) 领域的启发。像 DeepSeek-R1 这样的模型证明了,即使只使用简单的结果奖励 (outcome rewards)(例如,答案正确/错误),强化学习也能够极大地提升模型的复杂推理能力。

作者的创新思路是:将这种在纯数字世界中被验证成功的 RL 范式迁移到物理世界的机器人操控任务中。他们提出,RL 可以让机器人在模拟环境中通过试错 (trial-and-error) 来学习,而不仅仅是模仿人类的固定演示。这种方法有望:

  • 缓解数据稀缺: RL 可以在模拟器中产生海量、多样的交互数据,从而减少对昂贵的人类演示数据的依赖。

  • 提升泛化能力: 通过探索,模型可以发现超越人类演示的新策略,从而学习到更鲁棒、更通用的技能。

    然而,将 RL 应用于 VLA 并非易事,因为 VLA 的轨迹生成 (rollout) 过程涉及与环境的持续交互,比语言模型的文本生成更慢、成本更高。因此,本文的核心工作就是构建一个高效且可扩展 (efficient and scalable) 的 RL 框架来克服这些挑战。

2.2. 核心贡献/主要发现

论文的主要贡献可以总结为以下四点:

  1. 提出高效的 VLA 在线 RL 框架 (SimpleVLA-RL): 作者开发了一个端到端的 VLA 在线强化学习框架,实现了高效的并行化和分布式训练与推理,解决了 VLA 与环境交互带来的效率问题。

  2. 取得最先进的性能: 结合了多种探索增强策略后,SimpleVLA-RL 在多个主流机器人操控基准(LIBERORoboTwin 1.0 & 2.0)上取得了当前最先进的性能,显著超越了包括 π0π_0 在内的多个强力基线模型。

  3. 验证了数据高效性和泛化能力: 实验证明,即使在每个任务只有一个演示数据的极端情况下,RL 也能将模型的成功率提升到一个非常高的水平(例如,在 LIBERO-Long 任务中从 17.1% 提升到 91.7%),并显著优于 SFT 在空间、物体和任务上的泛化能力。

  4. 展示了强大的真实世界部署潜力: 论文展示了强大的从模拟到现实 (sim-to-real) 的迁移能力。完全在模拟环境中通过 RL 训练的策略,无需任何真实机器人数据,就能有效部署到真实机器人上并取得性能提升,为扩展真实世界机器人策略提供了一条可行路径。

    此外,论文还发现并命名了一个有趣的涌现行为 (emergent behavior)——“pushcut”,即机器人在 RL 训练中自主学习到了比人类演示更高效的“推”物体的快捷策略,证明了 RL 能够发现超越模仿学习范畴的新颖解决方案。

3. 预备知识与相关工作

3.1. 基础概念

3.1.1. 视觉-语言-动作模型 (Vision-Language-Action Models, VLA)

VLA 模型是一种多模态模型,旨在让机器人能够理解人类的自然语言指令,并结合视觉传感器(如摄像头)观察到的环境信息,来生成并执行一系列物理动作。其工作流程可以概括为:

  • 输入: 视觉信息(如图像)、语言指令(如“请把红色的杯子放到桌子上”)、机器人自身状态(如关节角度)。
  • 处理: 模型内部通常包含一个强大的主干网络 (backbone)(如大型语言模型 LLaMA),用于融合和理解多模态输入。
  • 输出: 一系列控制机器人执行器的动作指令(如机械臂的移动坐标、夹爪的开合程度)。

3.1.2. 监督微调 (Supervised Fine-Tuning, SFT)

SFT 是一种迁移学习技术。它指的是在一个已经在海量数据上进行过预训练 (pre-training) 的基础模型上,使用一个规模相对较小、但质量很高的、针对特定任务的标注数据集进行进一步训练。在 VLA 领域,SFT 的数据集通常是 (状态, 动作) 对的序列,即轨迹 (trajectory),这些轨迹由人类专家远程操作机器人完成任务时记录下来。SFT 的目标是让模型模仿 (imitate) 人类的行为。

3.1.3. 强化学习 (Reinforcement Learning, RL)

RL 是一种机器学习范式,其中一个智能体 (agent)(在本文中是 VLA 模型)通过与一个环境 (environment)(机器人所处的模拟或真实世界)交互来学习。其核心要素包括:

  • 状态 (State, ss): 对环境在某一时刻的描述。
  • 动作 (Action, aa): 智能体可以执行的操作。
  • 奖励 (Reward, rr): 环境在智能体执行一个动作后给予的反馈信号,用于评价该动作的好坏。
  • 策略 (Policy, π\pi): 智能体的“大脑”,是一个函数,根据当前状态决定下一步要执行的动作。RL 的目标就是学习一个最优策略,以最大化长期累积奖励。

3.2. 前人工作

3.2.1. RL 在大型语言模型 (LLM) 中的应用

论文的思路很大程度上借鉴了 RL 在 LLM 领域的成功。在 LLM 中,RL 通常用于提升模型的推理、遵循指令或与人类偏好对齐的能力。

  • RLHF (Reinforcement Learning from Human Feedback): 这是一个主流范式,通过训练一个奖励模型来学习人类的偏好,然后用 RL 算法(如 PPO)优化 LLM 以获得更高的奖励。
  • 基于结果的 RL: 近期如 DeepSeek-R1 的工作表明,即使不使用复杂的奖励模型,仅凭简单的、基于规则的二元奖励(如代码是否通过测试、答案是否正确),RL 也能显著提升模型的逐步推理能力。这启发了本文使用简单的任务成功/失败作为奖励信号。

3.2.2. VLA 模型的 RL 公式化

论文在第 2.2 节中详细对比了 LLM 和 VLA 的 RL 形式化,凸显了将 RL 应用于 VLA 的独有挑战。

  • 状态 (sts_t): VLA 的状态是多模态的,包含视觉观测 (otviso_t^{\mathrm{vis}})、机器人本体感知信息 (otpropo_t^{\mathrm{prop}}) 和语言任务指令 (ltaskl_{\mathrm{task}})。
  • 动作 (ata_t): VLA 的动作是连续的物理控制指令(如 7 维向量代表机械臂末端位姿和夹爪状态),而不是离散的文本词元 (token)
  • 环境: VLA 的环境是物理世界或其模拟器,每次交互都会改变环境状态,并且这个过程是不可逆的。
  • 轨迹生成 (Rollout): 这是最大的区别。LLM 的推演 (rollout) 是自回归地生成一个完整的文本序列。而 VLA 的推演 (rollout) 是一个闭环交互 (closed-loop interaction) 过程:模型生成一小段动作 -> 机器人在环境中执行 -> 环境状态更新 -> 模型接收新状态并生成下一段动作,如此循环往复。这个过程更慢、成本更高。

3.2.3. GRPO 算法 (Group Relative Policy Optimization)

GRPO 是本文使用的核心 RL 算法,它是一种无价值函数 (value-function-free) 的策略优化方法,是对经典算法 PPO 的一种变体。其核心思想是通过组内相对归一化 (group-relative normalization) 来计算优势函数,从而指导策略更新。 PPO (Proximal Policy Optimization) 是 RL 领域最经典和常用的算法之一,其目标函数通常包含一个裁剪 (clipping) 项来限制每次策略更新的幅度,防止训练过程不稳定。其核心思想是: LCLIP(θ)=E^t[min(rt(θ)A^t,clip(rt(θ),1ϵ,1+ϵ)A^t)] L^{CLIP}(\theta) = \hat{\mathbb{E}}_t \left[ \min(r_t(\theta)\hat{A}_t, \text{clip}(r_t(\theta), 1-\epsilon, 1+\epsilon)\hat{A}_t) \right] 其中 rt(θ)=πθ(atst)πθold(atst)r_t(\theta) = \frac{\pi_\theta(a_t|s_t)}{\pi_{\theta_{old}}(a_t|s_t)} 是重要性采样比率,A^t\hat{A}_t 是优势函数估计,ϵ\epsilon 是裁剪参数。

GRPO 继承了 PPO 的裁剪思想,但其优势函数 A^i\hat{A}_i 的计算方式不同。它首先用旧策略 πθold\pi_{\theta_{old}} 对同一个初始状态 s0s_0 采样生成 GG 条不同的轨迹,然后计算每条轨迹的总奖励 RiR_i。优势函数则通过将单条轨迹的奖励与这 GG 条轨迹的平均奖励和标准差进行比较得出。

本文中给出的 GRPO 目标函数如下: JGRPO(θ)=Es0D,{τi}πθold[1Gi=1G1τit=1τimin(ri,t(θ)A^i,clip(ri,t(θ),1ϵ,1+ϵ)A^i)βDKL(πθπref)] J_{\mathrm{GRPO}}(\theta) = \mathbb{E}_{s_0 \sim \mathcal{D}, \{\tau_i\} \sim \pi_{\theta_{old}}} \left[ \frac{1}{G} \sum_{i=1}^G \frac{1}{|\tau_i|} \sum_{t=1}^{|\tau_i|} \min \left( r_{i,t}(\theta) \hat{A}_i, \mathrm{clip}(r_{i,t}(\theta), 1-\epsilon, 1+\epsilon) \hat{A}_i \right) - \beta D_{\mathrm{KL}}(\pi_\theta || \pi_{\mathrm{ref}}) \right] 其中:

  • ri,t(θ)=πθ(ai,tsi,t)πθold(ai,tsi,t)r_{i,t}(\theta) = \frac{\pi_\theta(a_{i,t}|s_{i,t})}{\pi_{\theta_{old}}(a_{i,t}|s_{i,t})}: 重要性采样比率。
  • A^i=Rimean({Ri}i=1G)std({Ri}i=1G)\hat{A}_i = \frac{R_i - \mathrm{mean}(\{R_i\}_{i=1}^G)}{\mathrm{std}(\{R_i\}_{i=1}^G)}: 组内相对归一化的优势函数。它衡量了第 ii 条轨迹的奖励相对于同组其他轨迹的好坏程度。
  • DKL(πθπref)D_{\mathrm{KL}}(\pi_\theta || \pi_{\mathrm{ref}}): KL 散度项,用于正则化,防止新策略 πθ\pi_\theta 偏离参考策略 πref\pi_{\mathrm{ref}} 太远。

3.3. 技术演进

机器人学习的技术路线经历了从传统的编程控制,到基于模仿学习(如行为克隆、SFT),再到结合强化学习的演进。早期 VLA 模型主要依赖 SFT,通过模仿大量人类演示来学习。本文的工作则代表了将 RL 成功范式(特别是简单、可扩展的在线 RL)系统性地引入 VLA 训练的趋势,旨在突破模仿学习的天花板。

3.4. 差异化分析

与之前的 VLA 相关工作相比,本文的核心差异点在于:

  • 训练范式: 强调在线 RL (online RL),而非依赖人类偏好数据的离线 RL (offline RL) 或需要复杂奖励设计的传统 RL。

  • 奖励设计: 采用极简的二元结果奖励 (binary outcome reward),这大大增强了方法的可扩展性和通用性,避免了为每个任务手动设计复杂奖励函数。

  • 系统性分析: 不仅提出了一个框架,还对 RL 在 VLA 中的作用进行了深入、系统的分析,涵盖了数据稀缺、泛化能力、真实世界迁移和失败模式等多个关键维度。

  • 开源与效率: 基于 veRL 框架进行 VLA 适配,并注重并行化和效率,为社区提供了一个可复现、高效的 VLA RL 训练解决方案。

    下图(原文 Figure 2)展示了 SimpleVLA-RL 框架的概览:

    Figure 2 | Overview of SimpleVLA-RL. 该图像是示意图,展示了 SimpleVLA-RL 的工作流程,包括有限的离线轨迹、策略的推理过程以及奖励的计算。通过与环境的交互,状态 sts_t 和动作 ata_t 进行更新,最终获得一系列的轨迹和奖励。

该图描绘了 SimpleVLA-RL 的工作流程。从有限的离线轨迹数据开始,通过 SFT 得到一个初始策略。然后,该策略在模拟环境中进行推演 (rollout),生成多条轨迹。这些轨迹根据任务是否成功被赋予 1 或 0 的奖励。最后,利用这些奖励和轨迹数据,通过 GRPO 算法更新策略模型。

4. 方法论

4.1. 方法原理

SimpleVLA-RL 的核心思想是,在一个经过 SFT 预先训练的 VLA 模型基础上,通过在线强化学习的方式进一步优化。其训练流程遵循一个循环:采样 -> 评估 -> 更新

  1. 采样 (Sampling): 使用当前策略模型,在模拟环境中与任务交互,生成一批(例如 G=8G=8 条)多样化的轨迹。
  2. 评估 (Evaluation): 根据任务是否最终成功,为每条完整的轨迹分配一个简单的二元奖励(1 代表成功,0 代表失败)。
  3. 更新 (Update): 使用 GRPO 算法,根据这些轨迹和奖励,计算损失并更新模型参数,使得能够产生成功轨迹的动作序列的概率增加。

4.2. 核心方法详解 (逐层深入)

4.2.1. 交互式 VLA 轨迹生成 (Interactive VLA Rollout)

这是将 RL 应用于 VLA 的第一步,也是与 LLM 最大的不同之处。为了实现有效的探索,RL 需要策略能够生成多样化的轨迹。

  • 动作生成方式: 作者选择了一种与 RL 算法兼容的动作解码策略。VLA 模型输出的是一系列离散动作词元 (action tokens) 的概率分布。通过对这个分布进行随机采样 (random sampling),就可以生成不同的动作,从而产生多样化的轨迹。这与 LLM 生成不同文本的方式类似。

  • 闭环交互: VLA 的轨迹生成是一个动态的、与环境持续交互的过程。原文的 Listing 1 清晰地展示了这一点:

    def rollout(policy, dataset, number_sample=8, max_steps=None):
        rollout_dataset = []
        for batch in dataset:
            # LLM-style generation (original)
            # batch = batch.repeat(number_sample) 
            # outputs = policy.generate(batch, temperature=1.0)
            # rollout_dataset.append((batch, outputs))
            
            # VLA-style interactive sampling (added)
            # 1. 并行初始化多个环境
            envs = env_process_pool.submit(batch.initialize)
            states = env_process_pool.submit(envs.setup)
            
            for t in range(max_steps):
                # 2. VLA模型根据当前状态生成动作词元的概率分布,并采样
                actions = policy.generate(states, temperature=1.0)
                rollout_dataset.append({f"{e.name}_step_{t}": (s, a) for e, s, a in zip(envs, states, actions)})
                
                # 3. 在环境中执行动作,获取新状态和完成标志
                states, dones = env_process_pool.submit(envs.step, actions)
                
                # 4. 移除已经完成任务的环境
                active = [(e, s) for e, s, d in zip(envs, states, dones) if not d]
                if not active:
                    break
                envs, states = zip(*active)
                
        return rollout_dataset
    

    流程解析:

    1. 针对一个任务,并行启动多个(number_sample 个)独立的模拟环境。

    2. 在每个时间步 tt,VLA 策略接收所有并行环境的当前状态 states,并为每个环境生成一个动作 actions

    3. 这些动作被发送回各自的环境中执行,环境根据物理动力学模拟,返回新的状态 states 和一个表示任务是否完成的标志 dones

    4. 已经完成任务的环境将被移出,循环继续,直到所有任务完成或达到最大步数。

      这个过程实现了高效的并行数据采集,是 VLA 进行大规模 RL 训练的基础。

4.2.2. 结果奖励建模 (Outcome Reward Modeling)

SimpleVLA-RL 采用了一种极其简单的奖励机制,其核心是只关心最终结果,不关心过程

  • 奖励函数: 对于第 ii 条轨迹中的任意一个时间步 tt 的状态-动作对 (si,t,ai,t)(s_{i,t}, a_{i,t}),其奖励 R(ai,tsi,t)R(a_{i,t}|s_{i,t}) 定义如下: R(ai,tsi,t)={1,if is_successful[traji(ai,si)]0,otherwise. R(a_{i,t} | s_{i,t}) = \begin{cases} 1, & \text{if } \mathrm{is\_successful}[\mathrm{traj}_i(a_i, s_i)] \\ 0, & \text{otherwise}. \end{cases} 符号解释:
    • traji(ai,si)\mathrm{traj}_i(a_i, s_i): 表示第 ii 条完整的轨迹。

    • is_successful[]\mathrm{is\_successful}[\cdot]: 这是一个布尔函数,当轨迹成功完成任务时返回 True,否则返回 False

      这个公式意味着,如果一条轨迹最终成功了,那么这条轨迹中的每一个动作都会被赋予奖励 1;如果失败了,则每一个动作的奖励都是 0。这种设计的好处是:

    • 可扩展性: 无需为成百上千种不同的任务手动设计复杂的奖励函数。

    • 通用性: 适用于任何能够明确判断成功/失败的任务。

    • 避免偏见: 不会因为奖励设计不当而引导模型学到错误的次优行为。

4.2.3. 探索增强 (Exploration Enhancements)

为了让 RL 训练更有效率,特别是在任务成功率较低的初期,增强模型的探索能力至关重要。作者引入了三项关键改进:

  1. 动态采样 (Dynamic Sampling):

    • 问题:GRPO 这类无评判员 (critic-free) 的 RL 算法中,如果一个批次中所有采样的轨迹奖励都相同(全成功或全失败),那么计算出的优势函数 A^i\hat{A}_i 将会是 0,导致梯度消失,模型无法更新。
    • 解决方案: 在生成训练批次时,只保留那些同时包含成功和失败轨迹的组。形式化地,一个组必须满足以下条件才会被用于训练: 0<{traji(ai,si)  is_successful[traji(ai,si)]}<G 0 < \left| \{ \mathrm{traj}_i(a_i, s_i) \ | \ \mathrm{is\_successful}[\mathrm{traj}_i(a_i, s_i)] \} \right| < G 其中 GG 是每组的轨迹数量。这确保了组内奖励存在差异,从而产生有意义的梯度。
  2. 提高裁剪上界 (Clipping Higher):

    • 动机: PPOGRPO 的裁剪范围(通常是 [1ε,1+ε][1-ε, 1+ε],如 [0.8, 1.2])会限制对低概率但有效的动作的奖励。这个上界可能会抑制模型探索新的、与当前策略差异较大的行为。
    • 解决方案: 借鉴 DAPO 的思想,作者将裁剪范围修改为非对称的 [0.8, 1.28]。这个更高的上界允许模型更积极地增加那些虽然初始概率低但能带来成功轨迹的动作的概率,从而鼓励探索。
  3. 提高推演温度 (Higher Rollout Temperature):

    • 动机: 在从概率分布中采样动作时,温度 (temperature) 参数控制着采样的随机性。温度越高,采样结果越趋向于均匀分布,即随机性越强,探索性越强;温度越低,采样结果越集中于概率最高的动作,即利用性 (exploitation) 越强。

    • 解决方案: 作者将轨迹生成阶段的采样温度从 1.0 提高到 1.6,使得模型在与环境交互时能产生更多样化、更大胆的动作序列,从而更广泛地探索可能的解决方案空间。

      下图(原文 Figure 3)直观地展示了这三项增强措施带来的性能提升:

      Figure 3 | The effectiveness of three key enhancements: dynamic sampling, higher rollout temperature, and clip higher. 该图像是图表,展示了三项关键增强措施的有效性:动态采样、clip higher 和较高的 rollout 温度。图中呈现了 RL 训练步骤与 LIBERO-Long SR (%) 之间的关系,不同策略的效果通过红色和蓝色曲线进行比较。

图中显示,在 LIBERO-Long 任务上,结合了所有三项增强措施的策略(红色曲线)相比基线(蓝色曲线)取得了显著且持续的成功率提升。

4.2.4. 训练目标 (Training Objective)

结合上述改进,SimpleVLA-RL 的最终训练目标函数是对 GRPO 的修改版: T(θ)=Es0D,{at}iGπθold(st)[1Gi=1G1ait=1aimin(ri,t(θ)A^i,clip(ri,t(θ),1εlow,1+εhigh)A^i)] \mathcal{T}(\theta) = \mathbb{E}_{s_0 \sim \mathcal{D}, \{a_t\}_i^G \sim \pi_{\theta_{old}}(\cdot|s_t)} \left[ \frac{1}{G} \sum_{i=1}^G \frac{1}{|a_i|} \sum_{t=1}^{|a_i|} \min \left( r_{i,t}(\theta) \hat{A}_i, \mathrm{clip}(r_{i,t}(\theta), 1-\varepsilon_{low}, 1+\varepsilon_{high}) \hat{A}_i \right) \right] s.t. 0<{traji(ai,si)  is_successful[traji(ai,si)]}<G \text{s.t. } 0 < \left| \{ \mathrm{traj}_i(a_i, s_i) \ | \ \mathrm{is\_successful}[\mathrm{traj}_i(a_i, s_i)] \} \right| < G 其中, ri,t(θ)=πθ(ai,tsi,t)πθold(ai,tsi,t),A^i=Rimean({Ri}i=1G)std({Ri}i=1G) r_{i,t}(\theta) = \frac{\pi_\theta(a_{i,t}|s_{i,t})}{\pi_{\theta_{old}}(a_{i,t}|s_{i,t})}, \quad \hat{A}_i = \frac{R_i - \mathrm{mean}(\{R_i\}_{i=1}^G)}{\mathrm{std}(\{R_i\}_{i=1}^G)} 与原始 GRPO 的主要区别:

  • 移除了 KL 散度正则化项: 作者去掉了 βDKL(πθπref)- \beta D_{\mathrm{KL}}(\pi_\theta || \pi_{\mathrm{ref}})。这有两个好处:(1) 训练时不再需要一个额外的参考模型,减少了内存消耗,加速了训练;(2) 解除了对策略探索范围的束缚,让模型可以更自由地学习新行为。
  • 非对称裁剪: 裁剪范围中的 εlow\varepsilon_{low}εhigh\varepsilon_{high} 可以设置为不同的值(如 εlow=0.2,εhigh=0.28\varepsilon_{low}=0.2, \varepsilon_{high}=0.28),实现了“Clipping Higher”策略。
  • 动态采样约束: 目标函数明确受限于动态采样条件,确保了训练的稳定性。

5. 实验设置

5.1. 数据集

实验主要在三个广泛使用的机器人操控模拟基准上进行:

  1. LIBERO: 一个专注于终身学习 (lifelong learning) 的基准,包含多种物体、任务和环境。论文使用了其四个任务套件:
    • LIBERO-Spatial: 考验对空间关系的理解。
    • LIBERO-Object: 考验对不同物体的操作。
    • LIBERO-Goal: 考验对不同任务目标的泛化。
    • LIBERO-Long: 包含 10 个长时程任务。
  2. RoboTwin 1.0: 一个用于双臂协同操控 (dual-arm manipulation) 的模拟基准,包含 17 个双臂任务,但场景和物体多样性有限。
  3. RoboTwin 2.0: RoboTwin 1.0 的扩展版,任务数量增加到 50 个,并引入了大量的域随机化 (domain randomization),包括杂乱物体、光照、背景、桌面高度和语言指令的变化,以增强任务多样性和从模拟到现实 (sim-to-real) 的迁移能力。

5.2. 评估指标

论文中使用的核心评估指标是 成功率 (Success Rate, SR)

  1. 概念定义 (Conceptual Definition): 成功率是衡量机器人在给定任务上表现的最直接、最常用的指标。它量化了在多次独立的尝试中,机器人能够完全并正确地完成指定任务的频率。一个高的成功率意味着策略是可靠和有效的。

  2. 数学公式 (Mathematical Formula): SR=Number of Successful TrialsTotal Number of Trials×100% \text{SR} = \frac{\text{Number of Successful Trials}}{\text{Total Number of Trials}} \times 100\%

  3. 符号解释 (Symbol Explanation):

    • Number of Successful Trials: 在所有测试中,机器人成功完成任务的次数。

    • Total Number of Trials: 进行的总测试次数。

      在论文的实验中,成功率通常是在多个(例如 50 或 100 个)预先设定但模型未见过的测试场景上进行评估,并计算平均值,以确保结果的统计鲁棒性。

5.3. 对比基线

本文将 SimpleVLA-RL 应用于 OpenVLA-OFT 模型,并与一系列当前最先进的 (state-of-the-art) VLA 模型进行了比较。这些基线模型主要通过 SFT 进行训练。

  • 基础模型: OpenVLA-OFT,一个高性能、高效率的自回归 VLA 模型,基于 OpenVLALLaMA2-7B 构建。
  • SOTA 基线模型:
    • UniVLA
    • RDT-1B (一个基于扩散的模型)
    • π0π_0 (一个强大的 VLA 流模型)
    • πfastπ_fast
    • Nora
    • Octo
    • DPDP3 (基于扩散策略的模型) 这些基线代表了当前 VLA 领域的不同技术路线和最高水平,使得比较更具说服力。

6. 实验结果与分析

6.1. 核心结果分析

实验核心结论是,SimpleVLA-RL 在所有基准上都显著提升了 VLA 模型的性能,特别是在长时程和复杂任务上。

6.1.1. 在 LIBERO 上的表现

以下是原文 Table 2 的结果,展示了在 LIBERO 基准上的性能对比:

Model LIBERO
Spatial Object Goal Long Avg
Octo 78.9 85.7 84.6 51.1 75.1
OpenVLA 84.7 88.4 79.2 53.7 76.5
Nora 92.2 95.4 89.4 74.6 87.9
π0 + FAST 96.4 96.8 88.6 60.2 85.5
π0 96.8 98.8 95.8 85.2 94.2
UniVLA 96.5 96.8 95.6 92.0 95.2
OpenVLA-OFT 91.6 95.3 90.6 86.5 91.0
w/ ours 99.4 99.1 99.2 98.5 99.1
+7.8 +3.8 +8.6 +12.0 +8.1

分析:

  • SimpleVLA-RL (标记为 w/ ours) 在所有 LIBERO 任务套件上都取得了接近完美的性能,平均成功率从基线 OpenVLA-OFT 的 91.0% 提升到 99.1%。
  • 在最具挑战性的长时程任务 LIBERO-Long 上,提升最为显著,达到了 +12.0%,成功率高达 98.5%,远超 π0π_0 (85.2%) 和 UniVLA (92.0%) 等强力基线。这证明了 RL 在解决需要长期规划的复杂任务上的巨大优势。

6.1.2. 在 RoboTwin 上的表现

以下是原文 Table 3 (RoboTwin 1.0) 和 Table 4 (RoboTwin 2.0) 的结果:

RoboTwin 1.0 (Table 3):

Model RoboTwin1.0 Avg
Hammer Beat Block Handover Blocks Stack Shoe Place
DP 0.0 12.0 7.1 4.3 5.9
DP3 64.7 84.3 24.0 59.3 58.1
OpenVLA-OFT 67.2 61.6 7.1 23.4 39.8
w/ ours 92.6 89.6 40.2 59.3 70.4
+25.4 +28.0 +33.1 +35.9 +30.6

RoboTwin 2.0 (Table 4, 节选平均值): 在 12 个双臂任务中,SimpleVLA-RL 实现了 80% 的相对性能提升,将平均成功率从 38.3% 提升到 68.8%,同样超越了 π0π_0 (49.2%) 和 RDT (33.3%)。

分析:

  • 在更复杂的双臂协同任务上,SimpleVLA-RL 的提升效果更加惊人,平均成功率提升超过 30个百分点。
  • 即使是在需要数百步精确操作的超长时程任务(如“Blocks Rank Rgb”和“Put Bottles Dustbin”)中,RL 依然能带来超过 10% 的绝对性能增益。这再次验证了仅使用最终结果奖励的 RL 范式对于复杂任务的有效性。

6.2. 消融实验/参数分析

论文通过一系列精心设计的实验,深入分析了 SimpleVLA-RL 在解决 VLA 核心挑战方面的作用。

6.2.1. 克服数据稀缺

为了验证 RL 是否能减少对演示数据的依赖,作者设计了“单轨迹 SFT”实验。

以下是原文 Table 5 的结果:

Model LIBERO
Spatial Object Goal Long Avg
One-Trajectory SFT
OpenVLA-OFT 63.6 54.9 59.6 17.3 48.9
w/ ours 98.2 98.7 98.8 91.7 96.9
+34.6 +43.8 +39.2 +74.4 +48.0
Full-Trajectory SFT
OpenVLA-OFT 91.6 95.3 90.6 86.5 91.0
w/ ours 99.4 99.1 99.2 98.5 99.1
+7.8 +3.8 +8.6 +12.0 +8.1

分析:

  • 当 SFT 仅使用一条演示数据时,模型性能很差,尤其在长时程任务上仅有 17.3% 的成功率。
  • 惊人的是,在这个非常弱的基线上应用 RL 后,平均成功率从 48.9% 飙升至 96.9%,甚至超过了使用全部数据进行 SFT 的模型 (91.0%)。LIBERO-Long 上的提升更是高达 +74.4%
  • 这强有力地证明了 RL 能够通过在模拟器中的自我探索和学习,极大地弥补演示数据的不足,是解决数据瓶颈的有效途径。

6.2.2. 泛化能力分析

为了比较 RL 和 SFT 的泛化能力,作者设计了“留一法”实验,即在 9 个任务上训练,在 1 个未见过的任务上测试。

下图(原文 Figure 4)展示了泛化实验的结果:

Figure 4 | Generalization Analysis on LIBERO: Goal Unseen (Top), Object Unseen (Middle), Spatial Unseen (Bottom).

分析:

  • SFT (蓝色曲线): 随着在“已见”任务上的训练加深,SFT 模型在“未见”任务上的性能出现了严重的灾难性遗忘 (catastrophic forgetting) 或性能退化,成功率甚至降到 0。这表明 SFT 倾向于过拟合训练任务的特定模式,泛化能力差。
  • RL (红色曲线): 相反,SimpleVLA-RL 在“已见”任务上性能提升的同时,在“未见”任务上的性能也持续稳定地提升。这表明 RL 能够学习到更通用、可迁移的技能,而不是死记硬背。RL 的探索过程迫使模型理解任务的本质,从而获得更好的泛化能力。

6.2.3. 真实世界实验 (Sim-to-Real)

以下是原文 Table 6 的真实世界实验结果:

Stack Bowls Place Empty Cup Pick Bottle Click Bell Avg
RDT 60.0 4.0 10.0 20.0 23.5
OpenVLA-OFT 38.0 2.0 0.0 30.0 17.5
w/ ours 70.0 10.0 14.0 60.0 38.5
+32.0 +8.0 +14.0 +30.0 +21.0

分析:

  • 不使用任何真实世界数据的情况下,仅通过在模拟器中进行 RL 训练,模型的真实世界平均成功率就从 17.5% 翻倍提升至 38.5%,并超越了基线 RDT
  • 这表明 SimpleVLA-RL 学习到的策略具有很强的鲁棒性,能够有效应对模拟与现实之间的现实差距 (reality gap)。这为通过大规模、低成本的模拟训练来开发高性能的真实世界机器人策略提供了一条极具前景的路径。

6.2.4. “Pushcut” 现象与失败模式分析

  • “Pushcut”: 如下图(原文 Figure 5)所示,在一些任务中,演示数据全部采用“抓取-移动-放置”的策略。但经过 RL 训练后,模型自主发现了更高效的“推动”策略来完成任务。这生动地展示了 RL 的核心优势:能够发现超越人类先验知识的新颖、高效的解决方案。

    该图像是展示简单VLA-RL方法应用于两个任务的示意图。左侧为“移动罐子”任务,右侧为“右侧放置A2B”任务。上半部分展示了监督微调(SFT)下的操作,标记为“Grasp”;下半部分展示了强化学习(RL)下的操作,标记为“Push”。 该图像是展示简单VLA-RL方法应用于两个任务的示意图。左侧为“移动罐子”任务,右侧为“右侧放置A2B”任务。上半部分展示了监督微调(SFT)下的操作,标记为“Grasp”;下半部分展示了强化学习(RL)下的操作,标记为“Push”。

  • 失败模式: 实验(原文 Table 7)表明,SimpleVLA-RL 的成功严重依赖于一个具备基本能力的初始模型。如果 SFT 后的模型在任务上的初始成功率为 0%,那么 RL 训练将完全失败,因为基于结果的奖励机制无法提供任何正向信号来启动学习过程。这揭示了该方法的一个关键前提:RL 是“优等生”,而非“启蒙老师”,它擅长将 60 分提升到 90 分,但无法从 0 分开始。

7. 总结与思考

7.1. 结论总结

本文提出了一个高效、可扩展的在线强化学习框架 SimpleVLA-RL,用于训练视觉-语言-动作(VLA)模型。通过借鉴大型推理模型中被验证成功的简单结果奖励范式,并结合 VLA 特有的交互式轨迹生成和探索增强策略,该框架成功地解决了当前 VLA 模型面临的两大核心挑战:

  1. 数据依赖: SimpleVLA-RL 显著降低了对昂贵的人类演示数据的需求,即使在数据极度稀缺的情况下也能取得优异性能。

  2. 泛化能力: 相较于监督微调(SFT),RL 训练出的策略在未见过的任务、物体和环境中表现出更强的泛化能力。

    该工作不仅在多个标准基准上取得了最先进的性能,还展示了强大的从模拟到现实的迁移能力,并通过“pushcut”现象揭示了 RL 发现超人策略的潜力,为未来开发更自主、适应性更强的通用机器人模型铺平了道路。

7.2. 局限性与未来工作

尽管论文取得了显著成功,但仍存在一些局限性,并指向了未来的研究方向:

  • 对初始策略的依赖: 如失败模式分析所示,该方法要求初始的 SFT 模型必须具备一定的(非零)成功率。如果任务过于复杂以至于无法通过少量演示数据获得一个可用的初始策略,SimpleVLA-RL 将难以启动。未来的工作可以探索如何结合课程学习 (curriculum learning) 或更复杂的探索策略(如内在激励)来解决“冷启动”问题。
  • 奖励稀疏性问题: 虽然简单的二元结果奖励具有通用性,但在极其长时程或多阶段的任务中,成功的信号可能过于稀疏,导致学习效率低下。未来的研究可以探索如何在不牺牲通用性的前提下,引入一些半自动的过程奖励 (process rewards) 或里程碑奖励,以加速学习。
  • 模拟与现实的差距: 尽管实验展示了不错的 sim-to-real 效果,但模拟与现实之间的差距仍然是机器人领域的一大挑战。如何进一步提升策略的鲁棒性,使其能适应更复杂的真实世界动态,是未来需要持续研究的方向。

7.3. 个人启发与批判

这篇论文给我带来了深刻的启发,也引发了一些思考:

  • 范式迁移的力量: 本文最亮眼的地方在于成功地将 LLM 推理领域中“简单 RL 范式”的思想迁移到了机器人操控领域。这表明,不同 AI 子领域之间的思想借鉴和融合是推动创新的强大动力。SimpleVLA-RL 的成功模式——“少量 SFT 提供基础能力 + 海量模拟 RL 实现能力跃升”——可能成为未来具身智能体训练的黄金标准。
  • “探索”的价值: “pushcut”现象生动地说明了,模仿学习的上限是被“老师”的知识所限定的,而强化学习的探索机制则为模型打开了通往未知解决方案空间的大门。这对于实现真正智能和创新的机器人至关重要。
  • 批判性思考:
    • “简单”的代价: 虽然“简单”的二元奖励是该方法的一大优点,但它也可能掩盖了问题。在某些任务中,可能存在多种“成功”状态,但其质量有好有坏(例如,摆放得更整齐 vs 勉强完成)。二元奖励无法区分这些细微差别。
    • 对模拟器的依赖: 整个框架的成功高度依赖于高质量、物理逼真且可大规模并行化的模拟器。对于许多现实世界的复杂交互(如柔性物体、流体),构建这样的模拟器本身就是一个巨大的挑战。该方法的适用范围在一定程度上受限于当前模拟技术的发展水平。
    • 安全与可解释性: RL 驱动的策略可能会发现一些高效但“不合常规”甚至危险的解决方案(例如,为了更快地移动物体而将其猛烈地推向墙壁)。如何确保 RL 策略的安全性和可预测性,将是其在现实世界中广泛应用前必须解决的关键问题。

相似论文推荐

基于向量语义检索推荐的相关论文。

暂时没有找到相似论文。