REALM: A Real-to-Sim Validated Benchmark for Generalization in Robotic Manipulation
TL;DR 精炼摘要
本文提出了REALM,一个高保真的模拟环境和机器人操作泛化基准,旨在评估视觉-语言-行动模型的泛化能力。REALM结合15种扰动因素、7种操作技能和3500多个物体,经过现实到模拟验证,展现出模拟与现实世界性能的高度相关性。研究表明,尽管取得进展,但泛化和鲁棒性依然是主要挑战。
摘要
Vision-Language-Action (VLA) models empower robots to understand and execute tasks described by natural language instructions. However, a key challenge lies in their ability to generalize beyond the specific environments and conditions they were trained on, which is presently difficult and expensive to evaluate in the real-world. To address this gap, we present REALM, a new simulation environment and benchmark designed to evaluate the generalization capabilities of VLA models, with a specific emphasis on establishing a strong correlation between simulated and real-world performance through high-fidelity visuals and aligned robot control. Our environment offers a suite of 15 perturbation factors, 7 manipulation skills, and more than 3,500 objects. Finally, we establish two task sets that form our benchmark and evaluate the π_{0}, π_{0}-FAST, and GR00T N1.5 VLA models, showing that generalization and robustness remain an open challenge. More broadly, we also show that simulation gives us a valuable proxy for the real-world and allows us to systematically probe for and quantify the weaknesses and failure modes of VLAs. Project page: https://martin-sedlacek.com/realm
思维导图
论文精读
中文精读
1. 论文基本信息
1.1. 标题
REALM: A Real-to-Sim Validated Benchmark for Generalization in Robotic Manipulation (REALM:一个经由“现实到模拟”验证的机器人操作泛化基准测试)
1.2. 作者
- 第一作者: Martin Sedlacek (1,2), Pavlo Yefanov (1,2) (共同一作)
- 其他作者: Georgy Ponimatkin, Jai Bardhan, Simon Pilc, Mederic Fourmy, Evangelos Kazakos, Cees G. M. Snoek, Josef Sivic, Vladimir Petrik
- 隶属机构:
- Czech Institute of Informatics, Robotics and Cybernetics, Czech Technical University in Prague (布拉格捷克理工大学,捷克信息学、机器人与控制论研究所)
- Faculty of Electrical Engineering, Czech Technical University in Prague (布拉格捷克理工大学,电气工程学院)
- University of Amsterdam (阿姆斯特丹大学)
1.3. 发表期刊/会议
- 状态: 预印本 (Preprint),发布于 arXiv。
- 时间: 2025年12月22日 (UTC)。
- 备注: 文中引用格式提及 "ICLR 2026" 和 "2025" 年份的文献,表明这是针对即将到来的顶级会议(如 ICLR 或 CVPR/CoRL)准备的最新研究成果。
1.4. 发表年份
2025年
1.5. 摘要
视觉-语言-动作 (Vision-Language-Action, VLA) 模型赋予了机器人理解自然语言指令并执行相应任务的能力。然而,现有的挑战在于如何评估这些模型在训练环境之外的泛化能力 (Generalization)。在现实世界中进行大规模评估既困难又昂贵。为了填补这一空白,作者提出了 REALM,这是一个新的高保真模拟环境和基准测试工具。REALM 包含 15 种扰动因素、7 种操作技能和超过 3500 个物体。最重要的是,作者通过严格的现实到模拟 (Real-to-Sim) 验证,证明了在 REALM 中的模拟性能与现实世界性能高度相关。基于此基准,作者评估了 、-FAST 和 GR00T N1.5 等最先进模型,发现泛化和鲁棒性仍然是巨大的挑战。
1.6. 原文链接
- arXiv 链接: https://arxiv.org/abs/2512.19562
- PDF 链接: https://arxiv.org/pdf/2512.19562v1.pdf
- 项目主页: https://martin-sedlacek.com/realm
2. 整体概括
2.1. 研究背景与动机
-
核心问题: 随着机器人大模型(如 VLA)的发展,如何准确、低成本地评估机器人的泛化能力(即在没见过的场景、物体或指令下工作的能力)成为了瓶颈。
-
现有挑战:
- 现实评估难: 在真实世界中布置大量不同的场景和物体进行数千次测试(Rollout)极其昂贵且难以复现。
- 模拟评估失真: 现有的模拟基准测试通常缺乏视觉保真度 (High-fidelity visuals) 或 物理控制对齐 (Control alignment)。这意味着机器人在模拟器中看到的图像和感受到的物理反馈与真实世界差异巨大,导致“模拟中表现好,现实中表现差”的现象。
-
创新切入点: 作者没有简单地创建一个新的模拟器,而是着重于验证 (Validation)。他们构建了一个基于真实数据集 (DROID) 的数字孪生环境,并花费大量精力证明:在这个模拟器里的测试结果,可以忠实地反映真实世界的表现。
下图(原文 Figure 1)直观展示了 REALM 的核心理念:通过高保真的视觉渲染和精确的物理模拟,涵盖视觉、语义、行为三个维度的泛化测试。
该图像是示意图,展示了在REALM环境中7种操作技能(如放置、叠加、推动)及15种扰动因素的分类。图中展示了视觉、语义和行为三个类别下的对象特性,强调了真实与模拟验证的重要性。
2.2. 核心贡献/主要发现
- REALM 环境: 提出了一个可复现、高保真的模拟环境,支持 7 种操作技能、15 种系统性扰动(如改变光照、语言指令、物体质量等)和 3500+ 物体。
- 现实-模拟对齐 (Real-to-Sim Validation): 通过对比近 800 对真实世界和模拟世界的机器人操作轨迹,证明了两者在任务进度上具有极强的相关性(Pearson 相关系数高,秩一致性高)。这确立了模拟作为现实评估代理的有效性。
- 大规模基准测试: 评估了 、-FAST 和 GR00T 三个顶尖 VLA 模型。
- 关键发现: 尽管这些模型在大规模数据上训练,它们在面对语义扰动(如复杂的语言指令)和行为泛化(如在新物体上操作)时,性能仍显著下降。
3. 预备知识与相关工作
3.1. 基础概念
为了深入理解本文,初学者需要掌握以下概念:
- VLA (Vision-Language-Action Models): 视觉-语言-动作模型。这是一类深度学习模型,输入是图像(Vision)和自然语言指令(Language),输出是机器人的具体动作(Action,如机械臂的移动坐标)。类似于 ChatGPT,但它不仅说话,还能控制身体。
- Generalization (泛化): 指模型在训练数据之外的场景中表现如何。例如,机器人只学过抓红苹果,如果它能成功抓起没见过的青苹果,就说明它具有泛化能力。
- Sim-to-Real / Real-to-Sim:
- Sim-to-Real: 在模拟器中训练,迁移到现实。
- Real-to-Sim: 本文的重点。利用现实世界的数据来构建或调整模拟环境,使得模拟环境尽可能逼真,主要用于评估已经在真实数据上训练好的模型。
- Digital Cousin (数字表亲): 与“数字孪生 (Digital Twin)”不同,数字孪生要求 1:1 精确复刻(如毫米级的 3D 扫描)。“数字表亲”是指在模拟中创建一个与真实场景在语义和功能上相似,但不一定像素级完全一致的场景(例如,真实场景有一个特定的宜家杯子,模拟场景中用一个相似的 3D 模型杯子代替)。
- System Identification (系统辨识): 在机器人学中,指通过观察机器人的输入(力矩/指令)和输出(运动轨迹),反向推算出系统的物理参数(如摩擦力、质量、阻尼等)的过程。
3.2. 前人工作
- RoboArena & DROID: DROID 是一个大规模的真实世界机器人操作数据集。RoboArena 尝试通过分布式真实机器人站进行评估,但这很难标准化且成本高。
- SIMPLER: 这是一个重要的基准工作(CoRL 2024),它首次尝试验证模拟评估的可靠性。但 SIMPLER 支持的技能少(主要是简单的拾取放置),物体单一,且仅支持单一视角。
- 其他模拟基准 (GemBench, COLOSSEUM): 这些基准提供了多样性,但缺乏严格的“现实-模拟”对齐验证,通常视觉效果较差,导致在真实数据上训练的模型在模拟中表现不佳(即 Visual Gap 视觉差异)。
3.3. 差异化分析
下表(原文 Table I)对比了 REALM 与其他基准测试。REALM 的核心优势在于同时具备高保真视觉 (HV)、对齐的控制 (AC) 以及最大的对象多样性。
表 1: 机器人操作泛化基准的比较 (HV: 高保真视觉, AC: 现实-模拟对齐控制, MV: 多视角)
| Benchmark (基准) | Perturbations (V/S/B) (扰动: 视觉/语义/行为) | HV/AC/MV | Diversity (S/C/O) (多样性: 技能/场景/物体) |
|---|---|---|---|
| GemBench [17] | 2 / 1 / 2 | ❌ / ❌ / ✅ | 7 / 1 / 50+ |
| VLABench [18] | 1 / 7 / 2 | ❌ / ❌ / ✅ | 10 / 20 / 2,000+ |
| COLOSSEUM [19] | 5 / 0 / 2 | ❌ / ❌ / ✅ | 10 / 1 / 20+ |
| SIMPLER [20] | 5 / 0 / 2 | ✅ / ❌ / ❌ | 5 / 3 / 10+ |
| REALM (ours) | 6 / 8 / 7 | ✅ / ✅ / ✅ | 7 / 10 / 3,500+ |
4. 方法论
REALM 的核心目标是构建一个既逼真又可控的实验场。为此,作者从环境构建、扰动设计、度量标准和物理控制对齐四个方面进行了设计。
4.1. 环境构建与任务设计
REALM 基于 NVIDIA 的 Isaac Sim 构建,利用了 DROID 数据集中的场景和任务定义。
-
任务集: 定义了
REALM-base(8 个基础任务,如拾取、堆叠)和REALM-articulated(2 个关节型任务,如开关抽屉)。 -
技能 (Skills): 实现了 7 种核心技能:Pick (拾取), Put (放置), Push (推动), Rotate (旋转), Stack (堆叠), Open (打开), Close (关闭)。
下图(原文 Figure 2)展示了这些任务在模拟环境中的视觉效果。
该图像是示意图,展示了REALM基准测试中的多种任务,包括旋转杯子、取瓶子、将块放入碗中等。这些任务用于评估视觉-语言-动作模型的操作能力和泛化性能。
4.2. 扰动设计 (Perturbations)
为了测试泛化能力,作者设计了 15 种扰动因素,分为三大类:视觉 (Visual)、语义 (Semantic) 和 行为 (Behavioral)。
-
视觉扰动: 改变像素输入,但不改变任务本质(如调整摄像头角度、光照、增加背景杂物)。
-
语义扰动: 改变语言指令,测试模型对语言的理解(如用同义词、描述物体功能而非名称)。
-
行为扰动: 改变物理属性,迫使机器人调整动作策略(如改变物体质量、大小、摩擦力)。
下图(原文 Figure 3)直观展示了这三类扰动。

表 2: REALM 中支持的扰动列表 (注:原文表格使用了分类标题,此处使用 HTML 表格进行准确还原)
| 分类 | 扰动名称 | 描述与实现 |
|---|---|---|
| Default (默认) | Default | 接近训练数据的任务设置。 |
| Visual (视觉) | V-AUG, V-SC | 随机化模糊和对比度。在场景中随机生成新的干扰物。 |
| V-VIEW, V-LIGHT | 外部摄像机姿态的随机偏移。随机化照明颜色和强度。 | |
| Semantic (语义) | S-PROP | 基于属性(如颜色、形状)指代物体。 |
| S-LANG, S-MO, S-AFF, S-INT | 使用相似动词并移除冠词。指代场景中的空间关系。指代人类需求和用例。指代需要互联网级文本知识的世界事实。 | |
| Behavioral (行为) | B-HOBJ | 随机化被操作物体的质量(Mass)。 |
| Visual+Behavioral (视觉+行为) | VB-POSE, VB-MOBJ | 随机化被操作物体的姿态。随机化物体的大小和形状。 |
| Semantic+Behavioral (语义+行为) | SB-NOUN, SB-VRB | 指代场景中另一个已知物体。将测试技能更改为另一个兼容技能。 |
| Visual+Semantic+Behavioral (综合) | VSB-NOBJ | 采样一个新的、未见过的被操作物体。 |
4.3. 核心方法:物理控制对齐 (System Identification)
这是本文技术含量最高的部分。为了让模拟中的机器人动作与现实一致,作者必须解决控制差异 (Control Gap)。
问题: 在模拟器中发送一个“移动到 X”的指令,由于摩擦力、电机惯性等物理参数的差异,模拟机器人的实际轨迹可能与真实机器人不同。
解决方案: 作者重新实现了底层控制器,并优化了 关节摩擦力 () 和 电枢惯量 () 这两个关键物理参数。
步骤 1: 数据收集 收集 条真实世界的机器人轨迹和对应的模拟轨迹。数据集表示为 。
- : 时间步。
- : 轨迹索引。
- : 7自由度机械臂的关节角度向量。
步骤 2: 优化目标 (Loss Function) 作者定义了一个损失函数,用于最小化真实轨迹与模拟轨迹之间的欧几里得距离。公式如下:
- : 损失值,越小表示对齐越好。
- : 待优化的关节摩擦力参数。
- : 待优化的电枢惯量参数。
- : 第 条轨迹在 时刻的真实关节角度。
- : 第 条轨迹在 时刻的模拟关节角度(该值受参数 影响)。
- : L2 范数的平方,即误差的平方和。
步骤 3: 优化算法 由于物理模拟不可导(或者计算梯度极其复杂),无法直接使用梯度下降。作者使用了 CMA-ES (Covariance Matrix Adaptation Evolution Strategy),这是一种基于进化策略的无梯度优化算法,来寻找最优的物理参数。
下图(原文 Figure 4)展示了优化前后的对比。优化后(右侧),模拟轨迹(蓝色)与真实轨迹(黄色)几乎重合。
该图像是示意图,展示了默认模拟控制(左)与我们对齐模拟控制(右)之间的轨迹重放。黄色轨迹代表真实机器人的地面真值,蓝色轨迹则来自模拟。我们的系统识别使得轨迹跟随更加真实。
4.4. 视觉差异验证
除了物理控制,视觉上的一致性也很重要。作者并没有使用复杂的纹理匹配,而是依赖 Isaac Sim 的高保真渲染。 为了验证这一点,作者计算了模型注意力图 (Attention Map) 的余弦相似度。
-
思路:如果模型在看真实图片和看模拟图片时,关注的区域(比如都盯着杯柄)是一样的,说明视觉差异很小。
-
结果:相似度高达 0.85/1.0。
下图(原文 Figure 7)展示了 模型在真实和模拟图像上的注意力热力图,两者高度一致。
该图像是示意图,展示了真实(上)和模拟(下)环境中机器人执行任务时的输入图像及相应的 注意力图。可以观察到模型在真实和模拟场景中主要关注的区域保持一致,展示了相似的注意力分布。
5. 实验设置
5.1. 数据集与任务
-
来源: DROID 数据集。
-
任务集:
- REALM-base: 8 个基础任务(如 Pick apple, Stack cube)。
- REALM-articulated: 2 个涉及关节物体的任务(如 Open drawer)。
-
数字表亲 (Digital Cousins): 对于实验用的真实场景,作者在模拟中构建了对应的数字版本(见下图原文 Figure 5),用于直接对比。
该图像是插图,展示了真实环境(左)和模拟环境(右)下两种任务的比较:旋转标记和将方块放入碗中。这些图像展示了在不同环境中执行相同操作的差异。
5.2. 评估模型
实验评估了三个当前最先进的 VLA 模型:
- : 一种基于流匹配 (Flow Matching) 的 VLA 模型。
- -FAST: 的高效版本,使用更少的动作词元 (Action Tokens)。
- GR00T N1.5: NVIDIA 开发的通用人形机器人基础模型(作者对其进行了微调以适配动作空间)。
5.3. 评估指标
为了更细粒度地衡量模型表现,作者不仅使用了成功率,还引入了分级进度 (Tiered Progression) 和 均方根偏差 (RMSD)。
5.3.1. 分级任务进度 (Tiered Task Progression)
- 概念定义: 二元的“成功/失败”往往掩盖了细节(例如,机器人抓住了物体但没拿起来,这比完全没碰到物体要好)。该指标将任务分解为一系列有序的子阶段,进度值范围为 [0, 1]。
- 计算方法: 如果任务分为 5 个阶段(如 Reach Grasp Lift Move Place),完成前 3 个阶段得分为 0.6。所有阶段权重相等。
表 3: 任务分级标准 (Tiered progression rubric)
| 技能 (Skill) | 任务阶段流程 (Tiered task progression) |
|---|---|
| Pick (拾取) | Reach (到达) Grasp (抓取) Lift (举起) |
| Put (放置) | Reach Grasp Lift Move Close IsInside (放入) |
| Stack (堆叠) | Reach Grasp Lift Move Close IsOnTop (置于顶部) |
| Open/Close (开关) | Reach Touch & Move 50% 75% 95% (开合程度) |
5.3.2. 均方根偏差 (RMSD)
- 概念定义: 用于量化扰动对模型性能的影响程度。它计算了模型在扰动环境下的表现与默认环境下表现的偏差大小。RMSD 越接近 0,说明模型越不受扰动影响(即泛化能力越强)。
- 数学公式:
- 符号解释:
- : 特定的扰动类型(如“光照变化”)。
- : 测试的模型数量 ()。
- : 测试的任务数量 ()。
- : 模型 在任务 且受到扰动 时的平均任务进度。
- : 模型 在任务 且无扰动(默认)时的平均任务进度。
6. 实验结果与分析
6.1. 现实-模拟验证结果 (Real-to-Sim Validation)
这是验证 REALM 基准有效性的关键。作者对比了近 800 次真实执行和模拟执行。
-
结果: 真实世界和模拟世界的任务进度呈现出极高的 Pearson 相关系数 (),且 p-value < 0.001。
-
秩一致性 (MMRV): 具有较低的平均最大秩违反 (Mean Maximum Rank Violation),意味着如果模型 A 在模拟中比模型 B 好,那么在现实中通常也是如此。
下图(原文 Figure 6)展示了这种强相关性。点越接近对角虚线,说明模拟越准确。可以看到,即使在扰动下(右侧子图),相关性依然保持。
该图像是一个图表,展示了REALM的仿真与现实世界任务进展的验证结果。图中左侧的四个分部分分别展示了整体情况、默认情况、物体姿态扰动和相机姿态扰动下的任务进展。每个点表示不同任务的仿真与现实表现,强相关性通过Pearson相关系数统计量与p值(均小于0.001)得以展示,指示REALM作为现实世界性能的有效代理。
6.2. 核心泛化结果分析
作者基于 4000 次模拟推演 (Rollouts) 分析了模型在视觉、语义和行为三个维度的泛化能力。
下图(原文 Figure 8)展示了 和 -FAST 在默认设置(黑色轴)和各种扰动下(彩色轴)的任务进度。注意 -FAST (品红色线) 整体表现优于 (棕色线)。
该图像是图表,展示了在REALM任务中,默认设置(黑色轴)和15种扰动条件下(彩色轴)各项任务的平均进展。结果的数值范围从0.0到0.8,但最大值为1.0。
6.2.1. 扰动影响程度 (RMSD 分析)
下图(原文 Figure 9)按照 RMSD 对扰动进行了排序,展示了哪些因素对模型影响最大。
该图像是图表,展示了不同模型在任务进展中的平均偏差(RMSD),并根据标准化RMSD对扰动因素进行了排名。误差条反映了不同模型和任务间效果的偏差,条形越紧凑表示效果一致,越宽则表明效果差异较大。
- 视觉泛化 (Visual):
- 影响相对较小。模糊和对比度 (V-AUG) 以及光照 (V-LIGHT) 的 RMSD 最低。
- 分析: 这表明使用大规模互联网数据预训练的视觉主干网络 (Visual Backbone) 具有较好的视觉鲁棒性。
- 例外:视角变化 (V-VIEW) 影响较大,说明模型对相机位置仍然敏感。
- 语义泛化 (Semantic):
- 令人惊讶的是,语义扰动对模型影响显著,尤其是对于 。
- S-INT (需要世界知识) 和 S-AFF (人类用途) 导致了巨大的性能下滑。
- 分析: 尽管使用了 VLM,但在机器人数据上进行全量微调 (Full fine-tuning) 可能损害了原有 VLM 的语言推理能力。
- 行为泛化 (Behavioral):
- 这是最难的部分。SB-NOUN (换已知物体) 和 VSB-NOBJ (换未见物体) 导致了最大的 RMSD。
- 分析: 这种物理层面的适应(处理不同形状、大小、抓取点的物体)是目前 VLA 最大的短板。
6.3. 鲁棒性与任务完成率
下图(原文 Figure 10)展示了二元成功率 (Success Rate)。
该图像是一个图表,展示了不同任务的成功率,纵轴为成功率,横轴为任务名称。图中包含三种模型(GR00T N1.5、oldsymbol{ heta_0} 和 oldsymbol{ heta_{0} ext{-FAST}})的二元成功率,使用小提琴图展示其后验分布及观察到的数据。
- -FAST 在 10 个任务中的 9 个都表现最好。
- 整体表现低: 即使是表现最好的模型,在许多任务上的成功率依然不高,且完成任务所需时间较长(约 20-30秒),表明模型在这些“未见过的环境”中非常挣扎。
7. 总结与思考
7.1. 结论总结
- 模拟作为有效代理: 高保真视觉加上对齐的控制 (Aligned Control),使得模拟环境可以高度准确地预测机器人在现实世界的表现。REALM 为大规模评估提供了一种可靠、低成本的方案。
- 泛化仍是难题: 尽管模型使用了互联网级别的预训练数据,它们在面对复杂的语义指令和新物体时,性能依然脆弱。
- 模型对比: -FAST 在大多数指标上优于标准的 和 GR00T,显示了更高效的动作词元化 (Action Tokenization) 的优势。
7.2. 局限性与未来工作
- 模型性能瓶颈: 由于当前模型在某些基础任务上的成功率本身就很低(Base Performance Low),这使得某些扰动测试的效果变得不明显(地板效应)。
- 实施对象单一: 目前主要针对 DROID 平台(Franka Emika Panda 机械臂),未来计划支持更多种类的机器人。
- 微调的副作用: 作者假设全量微调 (Full fine-tuning) 损害了 VLM 的通用语言能力,未来工作可以探索更高效的微调方法(如 LoRA)以保留语言泛化性。
7.3. 个人启发与批判
- 模拟验证的新高度: 这篇论文最让人印象深刻的是它对 Real-to-Sim 验证的严谨态度。它不仅仅是“建一个模拟器”,而是用数据证明“这个模拟器是可信的”。对于任何从事 Sim-to-Real 研究的人来说,这种先验证再实验的方法论非常值得学习。
- 对 VLA 的冷思考: 结果揭示了当前 VLA 模型的脆弱性。我们常认为引入了 LLM/VLM 后,机器人就能自然理解“把那个像苹果的东西拿给我”这类指令,但实验表明,简单的同义词替换或属性描述就能让模型失效。这暗示了目前的“视觉-语言-动作”融合可能还停留在较浅的关联层面,而非深层的推理层面。
- System ID 的价值: 论文再次证明,在机器人学习中,单纯追求视觉逼真是不够的,物理参数的系统辨识(System ID)对于缩小 Sim-to-Real Gap 至关重要。这是很多纯计算机视觉背景的研究者容易忽视的一点。
相似论文推荐
基于向量语义检索推荐的相关论文。