InfiniteWorld: A Unified Scalable Simulation Framework for General Visual-Language Robot Interaction

Xiaodan Liang

论文状态：已完成

InfiniteWorld: A Unified Scalable Simulation Framework for General Visual-Language Robot Interaction

发表：2024/12/08

视觉语言机器人交互 (1)统一可扩展仿真框架 (1)机器人动作学习基准 (1)3D资产构建方法 (1)环境理解与任务规划 (1)

原文链接 PDF 下载

价格：0.10

已有 1 人读过

本分析由 AI 生成，可能不完全准确，请以原文为准。

TL;DR 精炼摘要

本论文提出了InfiniteWorld，一个基于Nvidia Isaac Sim的统一可扩展模拟框架，旨在提高具身智能领域的研究效率。该框架整合了3D资产生成、自动化标注及统一处理方法，并建立四个新基准，旨在全面评估机器人在环境理解和任务执行中的能力。

摘要

Realizing scaling laws in embodied AI has become a focus. However, previous work has been scattered across diverse simulation platforms, with assets and models lacking unified interfaces, which has led to inefficiencies in research. To address this, we introduce InfiniteWorld, a unified and scalable simulator for general vision-language robot interaction built on Nvidia Isaac Sim. InfiniteWorld encompasses a comprehensive set of physics asset construction methods and generalized free robot interaction benchmarks. Specifically, we first built a unified and scalable simulation framework for embodied learning that integrates a series of improvements in generation-driven 3D asset construction, Real2Sim, automated annotation framework, and unified 3D asset processing. This framework provides a unified and scalable platform for robot interaction and learning. In addition, to simulate realistic robot interaction, we build four new general benchmarks, including scene graph collaborative exploration and open-world social mobile manipulation. The former is often overlooked as an important task for robots to explore the environment and build scene knowledge, while the latter simulates robot interaction tasks with different levels of knowledge agents based on the former. They can more comprehensively evaluate the embodied agent's capabilities in environmental understanding, task planning and execution, and intelligent interaction. We hope that this work can provide the community with a systematic asset interface, alleviate the dilemma of the lack of high-quality assets, and provide a more comprehensive evaluation of robot interactions.

思维导图

论文精读

中文精读约 35 分钟读完 · 19,155 字

1. 论文基本信息

1.1. 标题

InfiniteWorld: A Unified Scalable Simulation Framework for General Visual-Language Robot Interaction (InfiniteWorld: 一个用于通用视觉-语言机器人交互的统一可扩展模拟框架)

1.2. 作者

Pengzhen Ren, Min Li, Zhen Luo, Xinshuai Song, Ziwei Chen, Weijia Liufu, Yixuan Yang, Hao Zheng, Rongtao Xu, Zitong Huang, Tongsheng Ding, Luyang Xie, Kaidong Zhang, Changfei Fu, Yang Liu, Liang Lin, Feng Zheng, Xiaodan Liang。作者来自多个机构，包括鹏城实验室 (Peng Cheng Laboratory)、中山大学 (Sun Yat-sen University)、南方科技大学 (Southern University of Science and Technology) 和穆罕默德·本·扎耶德人工智能大学 (MBZUAI)。

1.3. 发表期刊/会议

本论文作为预印本 (preprint) 发布在 arXiv 平台。

1.4. 发表年份

2024年

1.5. 摘要

具身智能 (Embodied AI) 中实现规模化定律 (scaling laws) 已成为研究焦点。然而，以往的工作分散在不同的模拟平台，资产和模型缺乏统一接口，导致研究效率低下。为解决此问题，我们引入了 InfiniteWorld，一个基于英伟达 Isaac Sim 构建的、用于通用视觉-语言机器人交互的统一可扩展模拟器。InfiniteWorld 包含一套全面的物理资产构建方法和广义的自由机器人交互基准。具体来说，我们首先为具身学习构建了一个统一可扩展的模拟框架，该框架整合了一系列在生成驱动 3D 资产构建、Real2Sim、自动化标注框架和统一 3D 资产处理方面的改进。这个框架为机器人交互和学习提供了统一可扩展的平台。此外，为了模拟真实的机器人交互，我们构建了四个新的通用基准，包括场景图协作探索 (Scene Graph Collaborative Exploration) 和开放世界社交移动操作 (Open-World Social Mobile Manipulation)。前者作为一个常常被忽视的重要任务，旨在让机器人探索环境并构建场景知识；后者则基于前者模拟了与不同知识水平智能体进行机器人交互的任务。它们能更全面地评估具身智能体在环境理解、任务规划与执行以及智能交互方面的能力。我们希望这项工作能为社区提供一个系统的资产接口，缓解高质量资产匮乏的困境，并为机器人交互提供更全面的评估。

1.6. 原文链接

预印本链接: https://arxiv.org/abs/2412.05789
PDF 链接: https://arxiv.org/pdf/2412.05789v1.pdf

2. 整体概括

2.1. 研究背景与动机

2.1.1. 论文试图解决的核心问题

当前具身智能 (Embodied AI) 领域在实现“规模化定律”时面临诸多挑战。论文指出，核心问题在于：

模拟平台碎片化与资产不统一： 现有研究工作分散在各式各样的模拟平台，3D 资产和模型缺乏统一的接口，导致研究资源的重复投入和效率低下。
高质量具身资产匮乏： 尽管 AI 生成工具和半自动化方法有所发展，但高质量、多样化的 3D 场景和对象资产的创建仍然劳动密集，且在不同平台间难以复用。这阻碍了大规模机器人数据的收集和具身 AI 模型的训练。
机器人交互真实性不足： 大多数现有具身基准任务主要关注传统的目标定位、导航或操作任务，而对更贴近人类的社交交互（如协作探索、开放世界中的多智能体交互）的模拟存在显著差距。现实世界中的复杂社交场景，如通信受限环境下的独立探索和协作，未得到充分模拟和评估。

2.1.2. 为什么这个问题在当前领域是重要的

在过去几年中，多模态大语言模型 (MLLM) 借助海量互联网数据实现了前所未有的进步，展现了“规模化定律”的巨大潜力。类似地，具身智能也迫切需要大规模、多样化、高质量的数据来推动其发展。然而，与在线丰富的视觉和语言资源相比，机器人数据仍然非常稀疏。虽然可以通过真实世界数据收集（如 Open X-Embodiment）来获取，但其高昂的成本和跨硬件平台的泛化性问题限制了其大规模应用。因此，模拟环境被视为实现具身 AI 规模化定律的一个有前景的替代方案。一个具备以下关键属性的机器人模拟学习平台对于具身 AI 的发展至关重要：

快速精确的物理模拟。
用户友好且高效的界面设计。
高度真实且多样的 3D 资产。
全面的机器人交互任务设计。解决上述问题将极大地加速具身 AI 的研究进展，使其能够像人类一样在开放环境中自由交互和学习。

2.1.3. 这篇论文的切入点或创新思路是什么

本论文的创新点在于构建了一个统一且可扩展的模拟器 InfiniteWorld，旨在从两个主要方面解决上述挑战：

构建统一可扩展的模拟框架： 基于英伟达 Isaac Sim，整合了先进的生成式 3D 资产构建方法（如语言驱动场景生成、可控关节对象生成、单图像到 3D 对象重建）、Real2Sim 流程、智能自动化标注框架 Annot8-3D，以及对现有开源 3D 资产的统一处理。这提供了一个系统的资产接口，缓解了高质量资产的短缺，并实现了场景和对象资产的无限扩展。
设计通用自由机器人交互基准： 引入了两个新颖的基准任务——场景图协作探索 (Scene Graph Collaborative Exploration, SGCE) 和开放世界社交移动操作 (Open-World Social Mobile Manipulation, OWSMM)。这些基准旨在模拟更真实的类人交互，全面评估具身智能体在环境理解、任务规划与执行以及智能交互方面的能力，特别是解决了现有“上帝视角” NPC 不真实的问题。

2.2. 核心贡献/主要发现

论文的主要贡献可以总结为以下三点：

构建了一个统一且可扩展的模拟框架： 该框架整合了改进和最新的具身资产重建方法，包括生成驱动的 3D 资产构建、改进的 Real2Sim 场景重建、自动化标注框架 Annot8-3D，以及统一 3D 资产库。这极大地缓解了具身 AI 社区高质量资产匮乏的困境，并支持场景的无限扩展。
开发了完整的 Web 端智能点云自动标注框架 Annot8-3D： 该框架支持分布式协作、AI 辅助和可选的人机交互 (human-in-the-loop) 功能，为复杂的机器人交互任务提供了强大的支持，提高了标注效率和质量。
设计了系统性的机器人交互基准： 这些基准包括场景图协作探索 (SGCE) 和开放世界社交移动操作 (OWSMM)。它们旨在全面、系统地评估具身智能体在感知 (perception)、规划 (planning)、执行 (execution) 和交互 (interaction) 等方面的能力，尤其关注了社交交互的真实性。

3. 预备知识与相关工作

本节旨在为读者提供理解 InfiniteWorld 模拟框架和其所提出任务所需的基础知识，并将其与现有工作进行对比，突出其创新之处。

3.1. 基础概念

具身智能 (Embodied AI): 具身智能是指一个智能体 (agent) 在物理环境中拥有一个“身体”，能够通过感知（如视觉、听觉）理解环境，并通过行动（如移动、操作）与环境进行交互，并在此过程中学习和适应。其目标是让机器人或虚拟智能体能够在开放、动态的真实世界中像人类一样执行复杂任务。
模拟器 (Simulator): 在机器人和具身 AI 领域，模拟器是一个软件平台，用于创建虚拟环境，其中可以模拟机器人的物理行为、传感器输入和与环境的交互。模拟器的主要优势在于其安全、可重复、低成本，并能生成大规模数据以训练和测试 AI 算法，尤其对于真实世界数据难以获取或成本高昂的场景至关重要。
视觉-语言机器人交互 (Visual-Language Robot Interaction): 指机器人通过理解人类的自然语言指令，结合视觉感知能力来理解环境、规划任务并执行操作的过程。这要求机器人能够将语言指令与视觉信息建立联系，进行推理和决策。
场景图 (Scene Graph): 场景图是一种结构化的环境表示方式，它不仅包含环境中对象的列表，还描述了这些对象之间的关系（如“桌子在椅子旁边”，“杯子在桌子上”）。场景图能够提供比简单对象列表更丰富的语义信息，有助于机器人进行高级推理和任务规划。
物理模拟 (Physics Simulation): 指在虚拟环境中模仿真实世界物理规律（如重力、碰撞、摩擦、惯性等）的过程。精确的物理模拟对于训练具身智能体至关重要，因为它能确保机器人在模拟中学习到的技能在真实世界中具有良好的迁移性 (sim-to-real transfer)。
3D 资产 (3D Assets): 指在 3D 模拟环境中使用的各种三维模型，包括场景模型（如房间、建筑物）、对象模型（如家具、器皿、机器人本体）以及它们的纹理、材质、骨骼动画等属性。高质量、多样化的 3D 资产是构建真实、丰富的模拟环境的基础。
NVIDIA Isaac Sim: 英伟达 Isaac Sim 是一个基于英伟达 Omniverse 平台的机器人模拟应用。它以其高度真实的物理渲染、精确的物理模拟、强大的 USD (Universal Scene Description) 支持和对 ROS (Robot Operating System) 的集成而闻名，常用于机器人开发、测试和 AI 训练。
多模态大语言模型 (Multimodal Large Language Model, MLLM): MLLM 是指能够处理和理解多种模态数据（如文本、图像、音频）的大型语言模型。它们通过在海量多模态数据上进行训练，获得了强大的跨模态理解、推理和生成能力，在具身 AI 领域被用于理解视觉信息和语言指令，并生成决策。
Real2Sim: Real2Sim 是指将真实世界的数据（如 3D 扫描、图像序列）转换为模拟环境中的 3D 模型和场景的过程。其目标是尽可能地在模拟环境中复现真实世界的几何、纹理和物理属性，以提高仿真结果到真实世界的迁移性 (sim-to-real transfer)。
3D Gaussian Splatting (3DGS): 3DGS 是一种新兴的 3D 场景表示和渲染技术，它通过一组可微分的高斯函数来表示 3D 场景，能够实现高质量的实时渲染和快速的神经辐射场训练。在 3D 重建领域，它被用于从多视图图像中重建出高保真度的 3D 场景。

3.2. 前人工作

论文在“Related Work”章节总结了具身 AI 模拟器、模拟器中的交互以及场景和资产处理三个方面的相关工作。

3.2.1. 具身 AI 模拟器 (Embodied AI Simulators)

当前具身 AI 领域已开发出许多模拟器，主要侧重于物理模拟的改进和任务设计的多样性。

物理模拟演进：
- 符号推理阶段： 如 VirtualHome [51] 和 ALFRED [61]，将物理交互抽象为符号推理。
- 3D 扫描场景导航阶段： 如 Habitat [58]，在 3D 扫描场景中进行导航研究，提升环境真实感。
- 真实动作与物理模拟阶段： 如 Habitat 2.0 [64]、ManiSkill [22]、TDW [19]、SoftGym [35]、RFUniverse [18] 和 iGibson [31, 60]，这些模拟器提供了更真实的动作、环境交互和物理模拟，逐渐缩小虚拟与真实环境之间的差距。
任务设计多样性：
- RoboGen [69] 和 MimicGen [40] 利用生成模型和 LLM 生成任务。
- Surfer [56] 和 HandMeThat [67] 研究桌面操作的分层推理任务。
- GRUtopia [68] 和 Habitat 3.0 [52] 研究社交交互。

3.2.2. 模拟器中的交互 (Interaction in Simulator)

社交交互是具身 AI 中最接近人类的交互方式，也是人机交互研究的关键。

人机交互范式：
- Habitat 3.0 [52] 提出了人机交互 (human-in-the-loop) 范式，利用 LLM 模拟真实人类行为，探索人形智能体和机器人智能体在家庭环境中的协作。
- GRUtopia [68] 设计了一个具有全局真实环境信息 NPC (non-player character)，作为人机交互对象，为机器人提供关键交互信息，帮助机器人完成复杂任务，并模拟真实世界的社交交互。
局限性： 论文指出 GRUtopia 的 NPC 设计在一定程度上超越了传统的人机交互范式，但现实世界中并不存在具有“上帝视角”的 NPC，这限制了其模拟真实社交交互的能力。

3.2.3. 场景和资产处理 (Scene and Asset Handling)

模拟平台资产的规模化是当前具身 AI 发展中最关键的问题之一，也是获取大规模机器人数据集的基础。

资产生成技术：
- 真实场景虚拟化： 基于 3D Gaussian Splatting 技术 (PGSR [7, 26]) 实现真实场景的虚拟化。
- 大规模 3D 场景和对象生成： HOLODECK [77] 生成大规模 3D 场景，Triposr [65] 生成 3D 对象。
- 关节对象资产生成： [37] 提出了关节对象的生成方法。
现有问题： 论文指出，这些技术通常缺乏统一有效的接口，无法充分应用，导致资产碎片化。

3.3. 技术演进

具身 AI 领域的技术演进呈现出从简化到真实、从单一到多模态、从被动到主动的趋势：

物理模拟的演进： 从最初抽象的符号推理（如 VirtualHome）发展到基于 3D 扫描数据（如 Habitat），再到目前高度逼真且支持复杂物理交互的模拟器（如 Isaac Sim, Habitat 2.0, iGibson）。这一演进旨在弥合虚拟与现实之间的差距，提高模拟训练的迁移性。
资产生成与管理： 从手动或半自动的 3D 资产创建，发展到利用 AI 生成工具（如 HOLODECK 用于场景，Triposr 用于对象）和 Real2Sim 技术（如 PGSR 用于真实场景重建），极大提高了资产的规模和多样性。然而，不同平台和格式之间的碎片化问题也随之凸显。
任务与交互设计： 早期任务多集中在对象定位、导航等基本能力。随着研究深入，开始关注更复杂的技能（如桌面操作的层次推理），并逐步引入社交交互（如 Habitat 3.0 的人机交互、GRUtopia 的 NPC 交互），试图模拟更贴近人类的开放世界行为。
大模型赋能： MLLM 的兴起为具身 AI 带来了新的范式，通过大规模多模态数据驱动，使得机器人能够更好地理解自然语言指令和视觉信息，从而进行更高级的推理和规划。

3.4. 差异化分析

InfiniteWorld 与上述相关工作相比，其核心区别和创新点体现在：

统一与可扩展性： 现有工作在资产、模型和平台之间存在碎片化问题。InfiniteWorld 的创新之处在于基于 NVIDIA Isaac Sim 构建了一个统一的框架，并提供了统一的资产接口，能够将各种来源（生成式 AI、Real2Sim、现有开源库）的 3D 资产集成并转换为统一的 .usd 格式，从而实现资产的无限扩展和互操作性。这直接解决了社区“缺乏高质量具身资产”的痛点。
资产生成与处理的全面性： InfiniteWorld 不仅仅是简单集成，而是对资产构建方法进行了一系列改进和整合。例如，在 Real2Sim 中引入深度先验约束来提升 3D 重建质量，并开发了 Annot8-3D 这一智能标注框架，支持多阶段、AI 辅助和人机交互，这比单一的生成或重建工具更全面。
更真实的社交交互基准： 针对现有社交交互模拟中“上帝视角” NPC 的不真实性，InfiniteWorld 提出了 SGCE 和 OWSMM 两个新颖的基准。
- SGCE 强调机器人自主探索和协作构建场景知识，这模仿了人类认知环境的自然过程，是更复杂交互的基础。
- OWSMM 则在此基础上，设计了分层交互（有管理员但知识有限）和水平交互（无上帝视角 NPC，智能体间通过对话交换知识）两种模式，更贴近真实世界中知识分布不对称和对等协作的场景，从而能够更全面地评估智能体在感知、规划、执行和交互方面的能力。
对 Isaac Sim 的深度利用： 论文充分利用了 Isaac Sim 在物理模拟和渲染方面的优势，并在此基础上，通过定制化的资产接口和任务设计，弥补了 Isaac Sim 在具身 AI 领域特定资产和任务设计方面的不足。

4. 方法论

InfiniteWorld 的核心在于构建一个统一且可扩展的具身学习模拟框架，其方法论围绕三个主要方面展开：生成驱动的 3D 资产构建、高精度 Real2Sim 场景重建、智能自动化标注框架以及统一的 3D 资产管理。通过这些技术，InfiniteWorld 旨在提供一个无限扩展的、物理真实的、支持复杂交互的模拟环境。

4.1. 生成驱动的 3D 资产构建 (Generate-Driven 3D Asset Construction)

为了解决大规模、多样化和交互式环境的构建成本问题，InfiniteWorld 集成了多种生成驱动的 3D 资产构建方法。

4.1.1. 语言驱动 3D 场景生成

核心思想: 利用自然语言指令作为驱动，结合现有 3D 资产数据库，自动化地生成具有准确语义、良好空间布局和交互性的 3D 环境。
实现方式: 基于 HOLODECK [77] 进行了改进，以适应 Isaac Sim 平台。
场景扩展能力:
- 风格变化: 支持 200 多种不同的场景风格变化，例如自由替换 236 种地板和墙壁纹理。这意味着仅通过风格替换，即可轻松将场景数量扩展 236 倍。
- 对象编辑: 支持对场景中对象资产进行编辑操作，例如相似对象替换、删除、添加、以及纹理替换等。这为大规模自动化场景生成提供了一个统一且高效的接口。
已构建资产: 初步构建了 10K 个室内场景，主要包括家庭环境（模拟真实家庭布局，每个场景生成 1-5 个不同房间以满足不同任务需求）和社交环境（如办公室、餐厅、酒吧、健身房、商店等）。通过场景风格替换，总共可以生成 $2.36 \mathbf{M}$ 个场景。
可视化: 以下是原文 Figure 1 展示的语言驱动自动化场景生成和编辑的一些例子：

该图像是示意图，展示了使用 Isaac Sim 渲染生成场景布局的编辑示例。图中包含了不同的编辑指令，如改变风格、替换物体等，展示了在居住环境中进行物品添加和修改的具体实例。
其他资产补充: 此外，InfiniteWorld 模拟器还集成了 [65] 提出的单图像到 3D 对象资产重建方法，以及 [37] 提出的可控关节生成方法，以进一步丰富资产库，为具身智能体的学习提供大量多样化的交互场景。

4.2. 深度先验约束的 Real2Sim (Depth-Prior-Constrained Real2Sim)

为了将真实世界的场景高效且高保真地导入模拟环境，InfiniteWorld 改进了 Real2Sim 流程，尤其关注了 3D 重建的精度和鲁棒性。

4.2.1. 核心改进

挑战: 3D Gaussian Splatting (3DGS) 及其变体（如 GauStudio [78], SuGaR [23], PGSR [7]）在生成高质量网格方面表现出色，但难以处理光滑表面的反射，这会干扰 Structure-from-Motion (SfM) 阶段的点云初始化。
解决方案: 在 PGSR [7] 的基础上引入了两种正则化损失：
- 深度正则化 (Depth Regularization Loss): 利用预训练的深度估计模型 Depth Pro [4] 为每个 RGB 图像生成在相机坐标系下的深度估计值。
- 法向量正则化 (Normal Vector Regularization Loss): 使用 PGSR 的局部平面假设 (Local Plane Assumption) 计算平面法向量，为单视图损失提供额外的监督信息。
可视化: 以下是原文 Figure 2 展示的在真实办公室场景中，不同方法（GauStudio, SuGaR, PGSR, Ours 和 GT）的重建效果对比：

该图像是一个示意图，展示了不同方法（GauStudio、SuGaR、PGSR、Ours 和 GT）在模拟环境中对屏幕、门、墙、橱柜和桌子的处理效果对比。通过可视化的方式，体现了各方法在视觉表现上的差异。

图 2 表明，改进后的方法在处理某些平面和反射表面时能够生成更精细的网格，例如门、屏幕和玻璃等透明表面。

4.2.2. Real2Sim 流程 (Real2Sim Pipeline)

我们的 Real2Sim 管道涵盖了从摄影数据到准确且视觉一致的模型整个过程，主要步骤如下：

SfM (Structure-from-Motion): 使用 colmap-glomap [50]，该方法估计相机参数并生成稀疏点云，为后续重建提供基础。
NVS (Novel View Synthesis) & Meshing (新视图合成与网格化): 通过改进的 PGSR 实现新视图合成，随后使用 Truncated Signed Distance Function (TSDF) [46] 和 Marching Cubes [39] 算法进行网格提取。
Z 轴对齐 (Z-Axis Alignment): 为确保正确的垂直方向，我们采用 Random Sample Consensus (RANSAC) [14] 算法来检测和对齐主导平面，并旋转整个场景以实现 $Z$ 轴对齐。
去噪 (Denoising): 通过连通性聚类 (connectivity-cluster) 方法，有效过滤噪声，通过设定阈值去除高空间区域的冗余点，从而降低模型复杂度并增强视觉清晰度。
补洞 (Hole-Filling): 使用 PyMeshFix [3] 闭合网格中的小间隙，保持模型的结构连续性和整体完整性。
重着色 (Recoloring): 为恢复补洞过程中丢失的颜色，我们使用 KDTree [16] 将原始图像的颜色映射到网格顶点，确保模型颜色信息的一致性。
简化 (Simplification): 最后，使用 PyMeshLab [44] 减少顶点密度，优化模型大小，在保留基本几何结构的同时最小化复杂性。

后处理效果: 以下是原文 Figure 6 展示的重建结果在有无后处理情况下的对比：

该图像是对比重构结果的示意图，左侧为未经过后处理，右侧为经过后处理的结果。该图展示了后处理方法在修复场景中的孔洞和去除浮动网格的有效性，特别是在柜子、沙发和桌子上方的浮动物体，以及周围的缝隙。

图 6 直观展示了后处理方法在解决场景中孔洞和去除浮动网格方面的有效性，例如柜子、沙发周围的缝隙以及桌子上方的浮动物体。

4.3. Annot8-3D: 自动标注框架 (Annot8-3D: Automatic Annotation Framework)

为了支持复杂的机器人交互任务，并高效生成高质量的标注数据，我们提出了 Annot8-3D，一个 Web 端智能点云自动标注框架。

4.3.1. 框架特点

结合 AI 辅助自动化和人机交互 (human-in-the-loop) 精修，实现高效准确的 3D 点云标注。
支持分布式协作。
支持多种属性标注，包括物理属性（唯一标识符、碰撞特性）、操作相关特征（摩擦系数、可操作性标志、实例分割）、导航中心数据（位置坐标、房间分配、相对于可遍历空间的朝向）、以及可选的语义标签和外观特征。

4.3.2. 多阶段标注流程

以下是原文 Figure 3 展示的 Annot8-3D 的多阶段标注流程图：

Figure 3. The Annot8-3D framework pipeline. 该图像是示意图，展示了Annot8-3D框架的处理流程。包括三个阶段：初步粗略分割、交互式细化和手动微调（可选）。图中左侧为初步分割结果，右侧为经过细化的植物模型。

Annot8-3D 的流程主要包含三个阶段：

初始粗略分割 (Initial Coarse Segmentation): 流程首先使用 Point Transformer V3 [72] 进行自动化粗粒度分割，为点云提供初步的对象建议。
交互式细化 (Interactive Refinement): 系统允许人工审查员通过正向和负向提示 (positive and negative prompts) 检查和细化粗略分割结果。此阶段集成了 SAM2Point [24] 来处理这些提示并生成细化分割，允许迭代精修直到达到满意结果。
手动微调 (Manual Fine-tuning): 对于自动化细化不足的情况，手动微调阶段提供手动分割工具进行精确调整。

功能对比: 以下是原文 Table 6 展示的 Annot8-3D 与现有 3D 标注工具的功能对比：

Tool	3D BAT [83]	SAnE [2]	SUSTech POINT[33]	Label Cloud[57]	ReBound [55]	Xtreme1 [15]	Annot8-3D (Ours)
Year	2019	2020	2020	2021	2023	2023	2024
2D/3D cam.+LiDAR fusion							√
AI-assisted labeling					√	√	√
Label custom attributes	√		√		√	√	√
HD Maps						√
Web-based	√					√	√
3D navigation	√	√	√	√	√	√	√
3D transform controls	√	√	√	√	√	√	√
Side views (top/front/side)	√	√	√	√	√	√	√
Perspective view editing	√	√	√	√	√	√	√
Orthographic view editing					√		√
Object coloring	√	√	√	√	√	√	√
Offline annotation support							√
Multi-stage Annotation							√
Physical Attributes Labeling							√

表 6 详细比较了 Annot8-3D 与其他六种 3D 标注工具的功能。Annot8-3D 具有独特的离线标注支持、多阶段标注流程和物理属性标注功能，同时在 AI 辅助标注和自定义属性标注方面也提供了增强功能。

4.4. 统一 3D 资产 (Unified 3D Asset)

为解决现有 3D 资产碎片化和互操作性差的问题，InfiniteWorld 将多种开源 3D 资产统一到 Isaac Sim 平台。

统一接口: 基于 Isaac Sim 为来自不同模拟平台的资产提供统一接口，将所有资产统一为 .usd (Universal Scene Description) 格式，从而实现不同资产在 Isaac Sim 平台上的统一调用。
转换脚本: 提供从不同数据格式到 Isaac Sim 可用格式的转换脚本，便于物理模拟。
集成的资产类型:
- 3D 场景级资产: 包括 HSSD [28], HM3D [53], Replica [63], 和 Scannet [8]。
- 3D 对象级资产: 包括 3D Front [17], PartNet-mobility [43], Objaverse (Holodeck) [11], 和 ClothesNet [82]。
对象多样性与特殊模拟: 统一的对象资产涵盖水果、饮料、玩偶、电器、家具等广泛类别，以及一些常用的关节对象。此外，在 Isaac Sim 平台上还实现了软体 (soft bodies) 和透明物体 (transparency) 等特殊对象的模拟，这有助于实现更真实的物理模拟，为具身智能体执行复杂操作任务提供支持。

资产统计: 以下是原文 Table 7 和 Table 8 分别展示的对象资产和场景资产的统计信息：以下是原文 Table 7 展示的对象资产统计信息：

Dataset	Num.	Type	Classes	Format	Texture	Interactive
3D-Front [17]	5,172	Indoor furniture	21	.obj	✓	✓
Objaverse [11]	4,042,937	Small objects	940	.pkl	✓
ClothesNet [82]	3,051	Soft clothing objects	11	.obj+.urdf	✓	✓
PartNet-mobility [43]	26,671	Articulated rigid objects	24	.obj+.urdf	✓	✓

以下是原文 Table 8 展示的场景资产统计信息：

Dataset	Num.	Format	Texture	Interactive
HM3D [53]	1,000	.glb	✓
HSSD [28]	120	.glb	✓
Replica [63]	18	.ply	✓	✓
Scannet [8]	1513	.ply	✓

模拟器概览: 以下是原文 Figure 4 概述的 InfiniteWorld 模拟器的主要特征：

该图像是示意图，展示了不同场景以及与机器人交互相关的资产类型，包括室内外生成场景、各种家具、传感器与机器人模型等，强调了针对视觉-语言机器人互动的统一框架。

5. 实验设置

本节将详细阐述 InfiniteWorld 模拟框架的实验设置，包括基准任务、机器人配置、任务生成方法、辅助功能以及评估指标。

5.1. 数据集

任务的生成结合了 GPT-4o [49] 的能力和 HSSD [28] 数据集的场景语义。具体用于填充 InfiniteWorld 模拟器的 3D 资产库的数据集已在 4.4. 统一 3D 资产 中详细介绍，包括：

场景资产: HM3D [53] (1000个场景)、HSSD [28] (120个场景)、Replica [63] (18个场景)、Scannet [8] (1513个场景)。这些数据集提供了多样化的室内环境，例如家庭、办公室等，用于构建具身智能体的操作环境。
对象资产: 3D-Front [17] (5172个室内家具)、Objaverse [11] (超过400万个小对象)、ClothesNet [82] (3051个软体衣物对象)、PartNet-mobility [43] (26671个关节刚体对象)。这些对象资产涵盖了从日常物品到复杂可操作对象的广泛类别，确保了任务的多样性和挑战性。

5.2. 评估指标

本研究针对不同的基准任务采用了特定的评估指标，以全面衡量智能体在导航、操作、探索和交互方面的能力。

用于评估智能体在给定语言指令下导航到目标对象的能力。

SR (Success Rate，成功率):
- 概念定义: 衡量智能体成功完成导航任务的比例。任务成功条件是机器人与目标对象距离小于 2 米，且目标对象在机器人水平视野 60 度范围内。
- 数学公式: $\text{SR} = \frac{\text{Number of Successful Episodes}}{\text{Total Number of Episodes}}$
- 符号解释:
  - Number of Successful Episodes: 智能体成功完成导航任务的回合数。
  - Total Number of Episodes: 进行导航任务的总回合数。
SPL (Success weighted by Path Length，路径长度加权的成功率):
- 概念定义: 衡量导航效率的指标。对于成功的任务，其得分会根据智能体实际行驶路径长度与最短路径长度的比值进行加权。实际路径越接近最短路径，得分越高。
- 数学公式: $\text{SPL} = \frac{1}{N} \sum_{i=1}^N S_i \frac{L_i^*}{\max(L_i, L_i^*)}$
- 符号解释:
  - $N$ : 总任务数。
  - $S_i$ : 第 $i$ 个任务是否成功（成功为 1，失败为 0）。
  - $L_i^*$ : 第 $i$ 个任务的最短路径长度 (Ground Truth)。
  - $L_i$ : 第 $i$ 个任务智能体实际走的路径长度。
NE (Navigation Error，导航误差):
- 概念定义: 衡量导航任务结束时，智能体距离目标对象最终位置的欧几里得距离。值越小表示导航越精确。
- 数学公式: $\text{NE} = \frac{1}{N} \sum_{i=1}^N \text{Distance}(\text{AgentEndPos}_i, \text{TargetPos}_i)$
- 符号解释:
  - $N$ : 总任务数。
  - $\text{Distance}(\text{AgentEndPos}_i, \text{TargetPos}_i)$ : 第 $i$ 个任务结束时智能体位置与目标位置之间的欧几里得距离。

5.2.2. 移动操作指标 (Loco-Manipulation Metrics)

与对象定位导航任务类似，但额外评估智能体是否能操作指定的对象。指标包括 SR、SPL 和 NE，这些指标基于导航和操作的整个过程进行计算。

5.2.3. 场景图协作探索指标 (Scene Graph Collaborative Exploration Metrics)

用于评估智能体在环境探索和场景知识构建方面的效率和准确性。

SER (Semantic Exploration Rate，语义探索率):
- 概念定义: 在设定的最大探索步数内，机器人发现的对象实例数量与场景中实际对象实例总数的比率。
- 数学公式: $\text{SER} = \frac{\text{Number of Discovered Object Instances}}{\text{Total Number of Actual Object Instances}}$
- 符号解释:
  - Number of Discovered Object Instances: 机器人在探索过程中发现并识别出的对象实例数量。
  - Total Number of Actual Object Instances: 场景中实际存在的对象实例总数。
MRMSE (Minimum Root Mean Square Error，最小均方根误差):
- 概念定义: 衡量机器人对对象位置定位效率和准确性的指标。计算机器人定位到的对象中心与实际对象中心之间的最小均方根误差。
- 数学公式: $\text{MRMSE} = \sqrt{\frac{1}{M} \sum_{j=1}^M \min_{k=1}^{K_j} (\text{Distance}(\text{RobotLocatedCenter}_{j,k}, \text{ActualObjectCenter}_j))^2}$
- 符号解释:
  - $M$ : 场景中所有实际对象实例的数量。
  - $K_j$ : 机器人对第 $j$ 个实际对象的所有定位尝试次数。
  - $\text{Distance}(\text{RobotLocatedCenter}_{j,k}, \text{ActualObjectCenter}_j)$ : 第 $j$ 个实际对象中心与机器人第 $k$ 次定位到的中心之间的欧几里得距离。

此任务使用 SR 和 SPL (与 Loco-Manipulation Metrics 相同) 作为主要评估指标。此外，还评估了以下两个指标来衡量大型模型对机器人行动的感知能力：

MPL (Minimum Action Path Length，最小行动路径长度):
- 概念定义: 衡量在成功完成任务的各个回合中，机器人所执行的最短行动序列的长度。它反映了模型在最佳情况下的规划效率。
- 数学公式: $\text{MPL} = \min_{i \in \text{Successful Episodes}} (\text{PathLength}_i)$
- 符号解释:
  - $\text{PathLength}_i$ : 第 $i$ 个成功任务中机器人执行的行动路径长度。
  - $\text{Successful Episodes}$ : 所有成功完成任务的回合集合。
LPL (Longest Action Path Length，最长行动路径长度):
- 概念定义: 衡量在成功完成任务的各个回合中，机器人所执行的最长行动序列的长度。它反映了模型在某些情况下可能出现的低效规划或探索行为。
- 数学公式: $\text{LPL} = \max_{i \in \text{Successful Episodes}} (\text{PathLength}_i)$
- 符号解释:
  - $\text{PathLength}_i$ : 第 $i$ 个成功任务中机器人执行的行动路径长度。
  - $\text{Successful Episodes}$ : 所有成功完成任务的回合集合。

5.3. 对比基线 (Baselines)

为了全面评估 InfiniteWorld 框架下智能体的表现，论文与多种基线模型进行了比较：

LLM-Based Instruction Following (基于 LLM 的指令遵循): 利用大型语言模型 (LLM) 和 prompt engineering 技术，将自然语言指令分解为具身智能体可执行的动作接口，逐步引导智能体完成任务。
VLM Zero-Shot (VLM 零样本): 通过将全局场景信息和当前观测输入到视觉-语言模型 (VLM) 中，并使用 prompt engineering，直接输出智能体应该执行的动作。
Single Semantic Map (单一语义地图): 采用 Goal-Oriented Semantic Exploration [5] 中提出的 2D 语义建图方法，并结合 FBE [74] (Frontier-Based Exploration) 算法作为全局规划器，以及 FMM [59] (Fast Marching Method) 规划算法进行局部规划。
Random (随机): 在机器人的行动空间中随机采样动作进行执行，或者在规划空间中随机采样目标点，并使用规划算法进行求解。
LLM-Based Planning (基于 LLM 的规划): 使用 Co-NavGPT [80]，一个以大型语言模型 (LLM) 作为规划器的多智能体系统。智能体合并后的观测地图被转换为文本描述，然后由 LLM 处理以执行多智能体的目标规划。
LLM-Planner [62]: 一个 few-shot 接地规划模型。与常见的规划模型不同，LLM-Planner 直接使用 LLM 生成计划，而不是对可接受的技能进行排序，减少了对环境的充分先验知识和 LLM 调用次数的需求。LLM-Planner 的再规划 (Re-planning) 能力使其能够根据当前观测动态调整计划，从而生成更明智的计划。
LLM/VLM 评估: 论文还评估了不同 LLM（如 GPT-4o [49], Qwen-turbo, Chat-GLM4-flash）和 VLM（如 GPT-4o [49], Qwen-VL2, GLM-4v）在任务规划和场景感知方面的能力。

5.4. 机器人设置 (Robot Setups)

机器人类型: 所有实验均使用 Stretch 机器人作为执行智能体。
机器人能力: Stretch 机器人配备了全向轮的移动基座和 7 自由度 (DOF) 的机械臂，使其能够有效地执行移动操作任务。

5.5. 仿真辅助功能 (Simulation Assistance)

InfiniteWorld 提供了多种仿真辅助功能，以帮助用户在平台上完成各种定制任务：

占位地图 (Occupy Map):
- 生成: 为每个场景生成一个二维网格地图，用于具身智能体导航。
- 划分: 占位地图将场景沿 $z$ 轴投影到 xy 平面，并划分为“自由”、“障碍”和“未知”三个区域。
- 用途: 智能体可以在“自由”区域移动，会被“障碍”阻挡。基于占位地图，智能体可以规划其在场景内的移动。
路径跟随器 (Path Follower):
- 功能: 提供点到点路径规划功能。
- 算法: 利用基于占位地图的 D* Lite 算法，以最优方式寻找路径并避开障碍物。
- 目标点处理: 当目标点位于“障碍”区域时，路径跟随器会自动识别占位地图上最近的非碰撞点作为替代目标点，确保导航路径的可行性。
- 应用: 具身智能体可以直接利用路径跟随器结合场景语义实现对象定位导航，也可以将其作为模仿学习的监督信号。
物理操作 (Physical Manipulation):
- 控制方式: 提供基于关节的机械臂控制。
- 正向控制: 智能体可以直接提供目标关节角度，实现机械臂的正向运动。
- 逆向控制: 通过逆运动学求解，智能体可以指定末端执行器 (end effector) 的姿态来控制机械臂。
- 交互: 机械臂的末端执行器将根据物理规律与对象进行交互，并返回实时物理反馈。
吸附 (Adhesion):
- 功能: 提供吸附接口。
- 与物理操作的区别: 不同于物理操作，吸附接口不需要末端执行器与对象进行物理交互。
- 工作原理: 当对象在末端执行器一定范围内时，吸附接口可以直接将对象“粘附”到末端执行器上，使其随智能体一起移动，直到吸附解除。这消除了智能体在物理操作中需要考虑抓取姿态和轨迹的复杂性。

5.6. 基准任务设置 (Benchmark Setting)

论文构建了四个新的通用基准，旨在模拟更真实的机器人交互。以下是它们的详细设置：

Benchmark 1: Object Loco-Navigation (对象定位导航):
- 基本任务格式: “Find an

相似论文推荐

基于向量语义检索推荐的相关论文。

暂时没有找到相似论文。

InfiniteWorld: A Unified Scalable Simulation Framework for General Visual-Language Robot Interaction

TL;DR 精炼摘要

摘要

思维导图

论文精读

中文精读约 35 分钟读完 · 19,155 字

1. 论文基本信息

1.1. 标题

1.2. 作者

1.3. 发表期刊/会议

1.4. 发表年份

1.5. 摘要

1.6. 原文链接

2. 整体概括

2.1. 研究背景与动机

2.1.1. 论文试图解决的核心问题

2.1.2. 为什么这个问题在当前领域是重要的

2.1.3. 这篇论文的切入点或创新思路是什么

2.2. 核心贡献/主要发现

3. 预备知识与相关工作

3.1. 基础概念

3.2. 前人工作

3.2.1. 具身 AI 模拟器 (Embodied AI Simulators)

3.2.2. 模拟器中的交互 (Interaction in Simulator)

3.2.3. 场景和资产处理 (Scene and Asset Handling)

3.3. 技术演进

3.4. 差异化分析

4. 方法论

4.1. 生成驱动的 3D 资产构建 (Generate-Driven 3D Asset Construction)

4.1.1. 语言驱动 3D 场景生成

4.2. 深度先验约束的 Real2Sim (Depth-Prior-Constrained Real2Sim)

4.2.1. 核心改进

4.2.2. Real2Sim 流程 (Real2Sim Pipeline)

4.3. Annot8-3D: 自动标注框架 (Annot8-3D: Automatic Annotation Framework)

4.3.1. 框架特点

4.3.2. 多阶段标注流程

4.4. 统一 3D 资产 (Unified 3D Asset)

5. 实验设置

5.1. 数据集

5.2. 评估指标

5.2.1. 对象定位导航指标 (Object Loco-Navigation Metrics)

5.2.2. 移动操作指标 (Loco-Manipulation Metrics)

5.2.3. 场景图协作探索指标 (Scene Graph Collaborative Exploration Metrics)

5.2.4. 开放世界社交移动操作指标 (Open World Social Mobile Manipulation Metrics)

5.3. 对比基线 (Baselines)

5.4. 机器人设置 (Robot Setups)

5.5. 仿真辅助功能 (Simulation Assistance)

5.6. 基准任务设置 (Benchmark Setting)

相似论文推荐