ReBot: Scaling Robot Learning with Real-to-Sim-to-Real Robotic Video Synthesis
TL;DR 精炼摘要
本文提出了ReBot,一种“真实-模拟-真实”的机器人视频合成方法,旨在解决机器人学习中的数据扩展问题。通过重放真实机器人的运动轨迹到模拟环境中,并结合图像修复技术生成真实背景,ReBot显著提高了视觉-语言-动作模型在仿真与现实中性能,成功率提升17%至21.8%。
摘要
Vision-language-action (VLA) models present a promising paradigm by training policies directly on real robot datasets like Open X-Embodiment. However, the high cost of real-world data collection hinders further data scaling, thereby restricting the generalizability of VLAs. In this paper, we introduce ReBot, a novel real-to-sim-to-real approach for scaling real robot datasets and adapting VLA models to target domains, which is the last-mile deployment challenge in robot manipulation. Specifically, ReBot replays real-world robot trajectories in simulation to diversify manipulated objects (real-to-sim), and integrates the simulated movements with inpainted real-world background to synthesize physically realistic and temporally consistent robot videos (sim-to-real). Our approach has several advantages: 1) it enjoys the benefit of real data to minimize the sim-to-real gap; 2) it leverages the scalability of simulation; and 3) it can generalize a pretrained VLA to a target domain with fully automated data pipelines. Extensive experiments in both simulation and real-world environments show that ReBot significantly enhances the performance and robustness of VLAs. For example, in SimplerEnv with the WidowX robot, ReBot improved the in-domain performance of Octo by 7.2% and OpenVLA by 21.8%, and out-of-domain generalization by 19.9% and 9.4%, respectively. For real-world evaluation with a Franka robot, ReBot increased the success rates of Octo by 17% and OpenVLA by 20%. More information can be found at: https://yuffish.github.io/rebot/
思维导图
论文精读
中文精读
1. 论文基本信息
1.1. 标题
ReBot: Scaling Robot Learning with Real-to-Sim-to-Real Robotic Video Synthesis
(ReBot:通过“真实-模拟-真实”机器人视频合成扩展机器人学习)
1.2. 作者
Yu Fang, Yue Yang, Xinghao Zhu, Ka Zheng, Gedas Bertasius, Danfei Xu。
作者主要来自宾夕法尼亚大学 (University of Pennsylvania) 等知名研究机构,在计算机视觉和机器人学习领域具有深厚背景。
1.3. 发表期刊/会议
该论文目前发布于 arXiv 预印本平台(提交时间为 2025 年 3 月 15 日)。arXiv 是计算机科学和人工智能领域最权威的预印本发布平台,许多顶级会议(如 CVPR, ICRA, CoRL)的论文在正式发表前都会先在此发布。
1.4. 发表年份
2025年
1.5. 摘要
本文介绍了 ReBot,一种创新的“真实-模拟-真实” (Real-to-Sim-to-Real) 方法,旨在解决机器人操纵中的“最后一公里”部署挑战。视觉-语言-动作 (Vision-Language-Action, VLA) 模型虽然强大,但受限于真实世界数据收集的高昂成本。ReBot 通过在模拟环境中重放真实机器人的运动轨迹来增加物体多样性(真实到模拟),并利用图像修复技术将模拟的机器人动作与真实的背景融合,合成物理上真实且时间上连贯的视频(模拟到真实)。实验表明,ReBot 显著提升了 VLA 模型在仿真环境(如 SimplerEnv)和真实世界(Franka 机器人)中的泛化能力和鲁棒性,成功率提升幅度达 17% 至 21.8%。
1.6. 原文链接
2. 整体概括
2.1. 研究背景与动机
当前机器人学习的前沿是 视觉-语言-动作 (Vision-Language-Action, VLA) 模型。这些模型就像机器人的“大脑”,通过观察摄像头画面和阅读文本指令,直接输出电机的控制指令。
- 核心问题: VLA 模型需要海量的数据才能变聪明。虽然像
Open X-Embodiment这样的大型数据集已经存在,但收集真实世界的机器人数据非常昂贵且缓慢(需要真人操作、昂贵的设备)。 - 现有挑战:
- 模拟器数据 (Sim Data): 容易获得,但存在 模拟到真实的差距 (Sim-to-Real Gap),模拟器里的画面太假,动作也与现实不符,导致模型在现实中失效。
- 生成式 AI (Generative AI): 像
ROSIE这样利用 AI 生成图像的方法,往往会出现画面闪烁(时间不连贯)或不符合物理定律的情况(比如物体凭空消失)。
- 创新思路: ReBot 提出了一种“折中方案”:保留真实视频里的背景,保留真实的运动轨迹,但通过模拟器更换被操作的物体。这样既利用了模拟器的灵活性,又保持了现实世界的真实感。
2.2. 核心贡献/主要发现
-
提出 ReBot 框架: 这是首个完全自动化的“真实-模拟-真实”视频合成管线,用于扩展机器人数据集。
-
物理真实性与时间连贯性: 相比于纯生成方法,ReBot 生成的视频符合物理规律(通过物理引擎模拟),且由于背景是真实的,画面非常稳定。
-
显著的性能提升: 在
Octo和OpenVLA两个最先进的模型上,ReBot 显著提高了它们在处理新物体、新指令和新环境时的成功率。 -
跨体现性能 (Cross-embodiment): 证明了即便在 A 机器人(如 Franka)上生成的合成数据,也能帮助 B 机器人(如 WidowX)学习。
3. 预备知识与相关工作
3.1. 基础概念
- 视觉-语言-动作 (Vision-Language-Action, VLA) 模型: 一种端到端模型,输入是图像序列和文本指令,输出是机器人的关节动作。
- 模拟到真实的差距 (Sim-to-Real Gap): 机器人策略在模拟器中表现完美,但在现实中失败的现象。这通常源于光照、纹理、摩擦力等物理属性的差异。
- 数字孪生 (Digital Twin): 在计算机中构建一个与现实世界物体完全对应的虚拟模型。
- 图像修复 (Inpainting): 计算机视觉技术,通过周围像素填充来擦除图像中的特定区域(如擦除视频里的旧物体)。
3.2. 前人工作
- Open X-Embodiment: 目前最大的多机器人数据集协作项目。
- ROSIE: 一种基于扩散模型 (Diffusion Model) 的数据增强方法,它直接在图像上修改物体,但缺点是逐帧生成容易导致视频抖动。
- SimplerEnv: 一个专门用于评估 VLA 模型在模拟环境中真实表现的测试平台。
3.3. 差异化分析
传统的合成数据要么是纯模拟(假背景、假动作),要么是生成式图像修改(真背景、假物理)。ReBot 的核心区别在于:它借用模拟器的“物理引擎”来保证动作和物体的交互是真的,借用现实世界的“视频背景”来保证画面是真的。
4. 方法论
4.1. 方法原理
ReBot 的核心思想是:“把旧动作装进新场景”。它将真实视频拆解为“背景”和“动作轨迹”,然后在模拟器中用这个轨迹去抓取一个新的虚拟物体,最后把虚拟的机器人和物体贴回到真实的背景视频中。
下图(原文 Figure 2)详细展示了 ReBot 的三个核心步骤:
该图像是一个示意图,展示了ReBot方法的三个主要步骤:真实到模拟轨迹重放、真实世界背景修复和模拟到真实视频合成。图中描述了场景解析、动作重放以及合成过程,旨在通过多样化物体操控和生成物理真实的视频以提升机器人学习的效果。
4.2. 核心方法详解 (逐层深入)
4.2.1. 第一步:真实到模拟轨迹重放 (Real-to-Sim Trajectory Replay)
这个步骤的目标是在模拟器中复刻现实世界的动作。
- 场景解析与对齐:
- 首先通过
GroundingDINO(一个能听懂人话的物体检测模型)识别出桌子的位置。 - 利用深度信息计算桌子高度,在模拟器(如
Isaac Sim)中创建一个完全一样的虚拟桌面。 - 将虚拟机器人(数字孪生)放置在与现实一致的坐标系中。
- 首先通过
- 轨迹重放 (Trajectory Replay):
- 读取原始数据集中的动作序列 。
- 通过分析夹持器(Gripper)的状态,确定抓取起始时刻 和放置时刻 。
- 在抓取点放置一个新的虚拟物体(如从
Objaverse数据库中提取的 3D 模型)。 - 让虚拟机器人在模拟器中执行这一串动作,记录下虚拟机器人和物体的视频序列 。
- 验证: 检查虚拟物体是否被成功抓起。如果距离太远没抓到,该数据将被丢弃。
4.2.2. 第二步:真实背景修复 (Real-world Background Inpainting)
为了把模拟的机器人放进来,必须先删掉真实视频里的机器人和旧物体。
- 分割与跟踪: 使用
GroundedSAM2模型对原始视频帧 进行处理。- 通过文字提示“机器人”生成掩码(Mask)。
- 利用第一步估计的坐标,通过点提示(Point Prompt)生成旧物体的掩码 。
- 移除 (Removal): 使用视频修复模型
ProPainter。- 根据掩码 ,从视频中抠掉机器人和物体。
ProPainter会利用前后帧的信息填充被抠掉的区域,得到一个干净、无任务相关物体的纯背景视频序列 。
4.2.3. 第三步:模拟到真实视频合成 (Sim-to-Real Video Synthesis)
最后一步是融合。
- 视频融合: 将模拟视频 中的虚拟机器人和新物体提取出来,覆盖到修复后的背景视频 上。
- 生成新样本: 最终得到一个新的合成轨迹 。
-
: 合成后的图像帧。
-
: 原始的真实动作序列(保持不变,保证了动作的真实性)。
-
: 修改后的新指令(例如从“放胡萝卜”改为“放茄子”)。
-
5. 实验设置
5.1. 数据集
- BridgeData V2: 包含数千个 WidowX 机器人在厨房场景中的操作任务。
- DROID: 一个大规模的、在真实居家环境中收集的机器人操纵数据集。
- Objaverse: 提供 3D 资产(如蔬菜、餐具模型)用于模拟重放。
5.2. 评估指标
- 抓取率 (Grasp Rate):
- 概念定义: 衡量机器人成功闭合夹持器并拿起目标物体的能力,这是完成任务的第一步。
- 数学公式:
- 符号解释: 是成功抓取的次数, 是总实验次数。
- 成功率 (Success Rate):
- 概念定义: 衡量机器人完成整个指令(如将物体放入特定篮子)的能力。
- 数学公式:
- 符号解释: 是完整完成任务的次数。
- VBench 分数: 专门用于评估视频生成质量的指标,包含时间一致性(Temporal Consistency)和图像质量。
5.3. 对比基线
-
Octo / OpenVLA: 原始的最先进 VLA 模型(零样本评测)。
-
ROSIE: 基于扩散模型的语义图像修改方法(目前的代表性方案)。
6. 实验结果与分析
6.1. 视频质量分析
下图(原文 Figure 4)显示了 ReBot 在视频质量上远超 ROSIE,接近真实视频:
该图像是图表,展示了生成视频质量的定量比较。以VBench分数作为评价指标,ReBot的表现优于ROSIE,其视频质量接近原始真实视频,包括成像质量、对象一致性、背景一致性和运动平滑度等方面。
- 时间一致性: ReBot 得分为 93.0%,接近真实视频的 96.1%,而 ROSIE 仅为 65.6%。这说明 ReBot 生成的动作非常丝滑,不会有闪烁。
6.2. 仿真环境评测结果
以下是原文 Table I 在 SimplerEnv 模拟环境下的 WidowX 机器人评估结果。我们可以清晰地看到 ReBot 对模型性能的巨大提升:
| 模型 (Model) | 放勺子在毛巾上 | 放胡萝卜在盘子里 | 叠放方块 | 放茄子在篮子里 | 平均值 (Average) | |||||
|---|---|---|---|---|---|---|---|---|---|---|
| 抓取 | 成功 | 抓取 | 成功 | 抓取 | 成功 | 抓取 | 成功 | 抓取 | 成功 | |
| Octo (原始) | 34.7% | 12.5% | 52.8% | 8.3% | 31.9% | 0.0% | 66.7% | 43.1% | 46.5% | 16.0% |
| Octo + ROSIE | 20.8% | 2.8% | 27.8% | 0.0% | 18.1% | 0.0% | 22.3% | 0.0% | 22.3% | 0.7% |
| Octo + ReBot (本文) | 61.1% | 54.2% | 41.1% | 22.0% | 63.9% | 4.2% | 52.8% | 12.5% | 54.7% | 23.2% |
| OpenVLA (原始) | 4.2% | 0.0% | 33.3% | 0.0% | 12.5% | 0.0% | 8.3% | 4.2% | 14.6% | 1.1% |
| OpenVLA + ReBot (本文) | 58.3% | 20.8% | 45.8% | 12.5% | 66.7% | 4.2% | 66.7% | 54.2% | 59.4% | 22.9% |
- 分析: OpenVLA 在没有微调前几乎无法完成任务(成功率 1.1%),使用 ReBot 微调后成功率飙升至 22.9%。相比之下,ROSIE 甚至让模型变得更笨了,因为生成的图像质量太差误导了模型。
6.3. 真实世界评测结果
在 Franka 机器人上的实验进一步证明了 ReBot 的实用价值。
以下是原文 Table II 的结果:
| 模型 | 放胡萝卜进蓝盘 | 放葡萄进黄盘 | 放芬达进蓝盘 | 放黑块进黄盘 | 平均成功率 | |||||
|---|---|---|---|---|---|---|---|---|---|---|
| 抓取 | 成功 | 抓取 | 成功 | 抓取 | 成功 | 抓取 | 成功 | 抓取 | 成功 | |
| Octo (基线) | 0% | 0% | 30% | 20% | 10% | 0% | 20% | 10% | 15% | 8% |
| Octo + ReBot | 40% | 20% | 40% | 30% | 30% | 20% | 30% | 30% | 35% | 25% |
| OpenVLA (基线) | 30% | 20% | 30% | 20% | 60% | 30% | 40% | 30% | 40% | 25% |
| OpenVLA + ReBot | 40% | 40% | 50% | 40% | 50% | 50% | 60% | 50% | 50% | 45% |
-
分析: 在真实世界中,ReBot 让 OpenVLA 的平均成功率从 25% 提升到了 45%,几乎翻倍。这证明了 ReBot 生成的视频具有极高的实用性,能够直接帮助机器人应对真实场景中的挑战。
7. 总结与思考
7.1. 结论总结
ReBot 提出了一种极具启发性的思路:通过“真实背景+模拟动作+图像修复”三位一体,绕过了单纯模拟器的视觉不真实和纯生成 AI 的物理不真实。 它证明了我们不需要每次都去现场采集数据,只需要“旧瓶装新酒”,就能让机器人学会操作成千上万种新物体。
7.2. 局限性与未来工作
- 任务局限: 目前主要集中在桌面操作(Pick-and-Place)。对于更复杂的任务(如折衣服、切菜),模拟器的建模难度会大幅增加。
- 光影细节: 虽然背景是真实的,但虚拟物体投射到真实桌面上的阴影和反射还不够完美,这可能会影响模型对深度的判断。
- 未来方向: 探索跨体现学习(Cross-embodiment),即如何用 A 机器人的合成视频训练出更通用的机器人模型。
7.3. 个人启发与批判
- 启发: ReBot 展示了“组合拳”的威力。与其追求一个完美的端到端生成模型(如 Sora 处理机器人视频),不如将成熟的机器人学组件(物理引擎)与成熟的视觉组件(SAM2, ProPainter)结合起来,这种模块化的思路在工程上更易落地。
- 批判: 论文中虽然实现了全自动化,但其对“数字孪生”的对齐精度要求很高。如果现实中的摄像头参数稍有偏差,模拟器的重放轨迹就会失效(抓空)。如何提高轨迹重放对环境感知误差的容忍度,是该方法能否大规模普及的关键。
相似论文推荐
基于向量语义检索推荐的相关论文。