论文状态:已完成

Towards Physically Executable 3D Gaussian for Embodied Navigation

发表:2025/10/24
原文链接PDF 下载
价格:0.100000
价格:0.100000
价格:0.100000
已有 1 人读过
本分析由 AI 生成,可能不完全准确,请以原文为准。

TL;DR 精炼摘要

本文提出了SAGE-3D模型,旨在解决三维高斯泼溅(3DGS)在具身导航(VLN)任务中的局限性。模型通过对象中心的语义标注和物理感知执行结合,实现了物理可执行的语义对齐。发布的InteriorGS数据集包含1K个对象标注的室内场景,SAGE-Bench则是首个基于3DGS的VLN基准,实验显示其基线性能提高了31%。

摘要

3D Gaussian Splatting (3DGS), a 3D representation method with photorealistic real-time rendering capabilities, is regarded as an effective tool for narrowing the sim-to-real gap. However, it lacks fine-grained semantics and physical executability for Visual-Language Navigation (VLN). To address this, we propose SAGE-3D (Semantically and Physically Aligned Gaussian Environments for 3D Navigation), a new paradigm that upgrades 3DGS into an executable, semantically and physically aligned environment. It comprises two components: (1) Object-Centric Semantic Grounding, which adds object-level fine-grained annotations to 3DGS; and (2) Physics-Aware Execution Jointing, which embeds collision objects into 3DGS and constructs rich physical interfaces. We release InteriorGS, containing 1K object-annotated 3DGS indoor scene data, and introduce SAGE-Bench, the first 3DGS-based VLN benchmark with 2M VLN data. Experiments show that 3DGS scene data is more difficult to converge, while exhibiting strong generalizability, improving baseline performance by 31% on the VLN-CE Unseen task. Our data and code are available at: https://sage-3d.github.io.

思维导图

论文精读

中文精读

1. 论文基本信息

1.1. 标题

原文标题 (Title): Towards Physically Executable 3D Gaussian for Embodied Navigation 中文翻译 (Chinese Translation): 面向具身导航的物理可执行三维高斯表示

1.2. 作者

Bingchen Miao1^1, Rong Wei2^2, Zhiqi Ge1^1, Xiaoquan Sun2,3^2,3, Shiqi Gao1^1, Jingzhe Zhu1^1, Renhan Wang2^2, Siliang Tang1^1, Jun Xiao1^1, Rui Tang2^2, Juncheng Li^*

  • 1^1 浙江大学 (Zhejiang University)
  • 2^2 Manycore Tech Inc
  • 3^3 华中科技大学 (Huazhong University of Science and Technology)

1.3. 发表期刊/会议

预印本 (Preprint),发布在 arXiv。

1.4. 发表年份

2025年。

1.5. 摘要

三维高斯泼溅 (3D Gaussian Splatting, 3DGS) 是一种具有真实感实时渲染能力的三维表示方法,被认为是缩小模拟-现实鸿沟 (sim-to-real gap) 的有效工具。然而,它缺乏细粒度语义和物理可执行性,不适用于视觉-语言导航 (Visual-Language Navigation, VLN) 任务。为了解决这个问题,我们提出了 SAGE-3D (Semantically and Physically Aligned Gaussian Environments for 3D Navigation),这是一种将 3DGS 升级为可执行、语义和物理对齐环境的新范式。它包含两个组件:(1) 面向对象的语义基础 (Object-Centric Semantic Grounding),为 3DGS 添加了对象级的细粒度标注;(2) 物理感知执行结合 (Physics-Aware Execution Jointing),将碰撞对象嵌入 3DGS 并构建了丰富的物理接口。我们发布了 InteriorGS,其中包含 1K 个经过对象标注的 3DGS 室内场景数据,并推出了 SAGE-Bench,这是第一个基于 3DGS 的 VLN 基准,包含 2M 的 VLN 数据。实验表明,3DGS 场景数据更难收敛,但表现出强大的泛化能力,在 VLN-CE 未见任务上将基线性能提高了 31%。我们的数据和代码可在 https://sage-3d.github.io 获取。

1.6. 原文链接

2. 整体概括

2.1. 研究背景与动机

核心问题: 视觉-语言导航 (VLN) 是具身人工智能 (Embodied AI) 领域的核心能力,但其训练通常依赖于模拟环境。现有的模拟环境,如基于扫描网格 (scanned mesh) 重建的 Matterport3D 和 HM3D,虽然在一定程度上缩小了模拟-现实鸿沟 (sim-to-real gap),但仍存在局限性。最近兴起的 3D 高斯泼溅 (3D Gaussian Splatting, 3DGS) 技术,以其真实感实时渲染能力,被认为是进一步缩小模拟-现实鸿沟的有效工具。

现有挑战或空白 (Gap):

  1. 3DGS 缺乏细粒度语义 (Lack of fine-grained semantics): 传统的 3DGS 场景仅包含颜色和密度信息,没有实例 ID 或对象属性。这使得它无法支持像“去红色椅子旁边白色书架”这样需要精确对象识别和定位的 VLN 指令。任何尝试从 3DGS 中恢复对象边界都需要复杂且易出错的后处理。
  2. 3DGS 缺乏物理可执行结构 (Lack of physically executable structure): 3DGS 本质上是一种体积渲染技术,难以从中推断出可靠的碰撞几何体。这意味着无法直接进行精确的物理模拟,如碰撞检测,这对于具身导航至关重要。现有的 3DGS 应用大多仅限于高保真渲染,无法用于具身智能体 (embodied agent) 的物理交互。

本文的切入点或创新思路: 本文旨在将 3DGS 从一个纯粹的感知场景表示升级为一个可执行、语义和物理对齐的环境基础。通过为 3DGS 赋予对象级语义标注和物理碰撞体,使其能够支持复杂的 VLN 任务和具身智能体的交互,从而充分发挥 3DGS 在真实感渲染方面的优势,并解决其在语义和物理交互方面的不足。

2.2. 核心贡献/主要发现

本文的主要贡献体现在以下几个方面:

  1. 提出了 SAGE-3D 新范式 (SAGE-3D Paradigm): SAGE-3D (Semantically and Physically Aligned Gaussian Environments for 3D Navigation) 是一种将 3DGS 升级为可执行、语义和物理对齐环境的全新范式,为具身导航和相关任务提供了强大的环境基础。
  2. 构建了 InteriorGS 数据集 (InteriorGS Dataset): 发布了首个大规模、高保真、包含 1K 个家具齐全的室内 3DGS 重建场景的数据集,并进行了密集的物体级语义标注,共包含超过 55.4 万个对象实例,涵盖 755 个类别。
  3. 构建了 SAGE-Bench 基准 (SAGE-Bench Benchmark): 构建了第一个完全基于 3DGS 的 VLN 基准,包含 2M 条新的轨迹-指令对,以及 55.4 万个详细的碰撞体。SAGE-Bench 引入了分层指令生成方案、三轴评估框架和三个新的导航自然连续性指标。
  4. 实现了对象级语义基础 (Object-Level Semantic Grounding): 通过对 3DGS 数据进行手动标注,并引入 2D 语义俯视图,为 3DGS 赋予了细粒度的语义信息,支持指令生成和路径规划。
  5. 实现了物理感知执行结合 (Physics-Aware Execution Jointing): 通过从原始网格场景数据中提取碰撞体,构建了 3DGS-Mesh 混合表示 (3DGS-Mesh Hybrid Representation),在保留 3DGS 渲染质量的同时,提供了准确的物理模拟和丰富的机器人 API 接口。
  6. 提供了重要实验洞察 (Key Experimental Insights):
    • 3DGS 场景数据渲染速度更快 (6.2 ms/帧6.2 \text{ ms/帧}),但模型收敛更慢 (达到 40% 成功率需要 160 迭代),这归因于其更高的真实世界复杂性。
    • 3DGS 场景数据展示出强大的泛化能力,在未见过的 VLN-CE 环境中将基线性能提高了 31% 的 SR (Success Rate)。
    • 引入了 Continuous Success Ratio (CSR)Integrated Collision Penalty (ICP)Path Smoothness (PS) 三个新的连续性指标,能够有效评估导航的自然连续性,弥补了传统指标的不足。

3. 预备知识与相关工作

3.1. 基础概念

3.1.1. 视觉-语言导航 (Visual-Language Navigation, VLN)

VLN 是一种具身智能 (Embodied AI) 任务,其目标是训练一个智能体 (agent) 能够根据自然语言指令,在一个物理环境中导航到目标位置。这需要智能体具备视觉感知、语言理解、路径规划和动作执行的能力,并能处理环境中的不确定性和交互。

3.1.2. 三维高斯泼溅 (3D Gaussian Splatting, 3DGS)

3DGS 是一种近年来兴起的三维场景表示和渲染技术。它通过使用大量具有位置、尺寸、方向和颜色等属性的各向异性三维高斯球体 (anisotropic Gaussian primitives) 来表示场景。每个高斯球体可以被视为一个点云,但具有体积和透明度属性。在渲染时,这些高斯球体被投影到二维图像平面上,并通过一个可微分的渲染过程生成高保真、实时且视角一致的图像。

  • 优势:
    • 真实感渲染 (Photorealistic Rendering): 能够生成高质量、真实的图像。
    • 实时渲染 (Real-time Rendering): 渲染速度快,可以实现高帧率。
    • 视角一致性 (View-consistent Appearance): 在不同视角下都能保持场景外观的稳定性,避免传统纹理拼接导致的裂缝、拉伸或模糊问题。
    • 离散表示 (Discrete Representation): 场景由离散的高斯球体表示,理论上更容易进行对象级标注,不像扫描网格那样将对象融合到连续表面中。

3.1.3. 模拟-现实鸿沟 (Sim-to-Real Gap)

模拟-现实鸿沟 指的是在模拟器 (simulator) 中训练的智能体或机器人模型,在转移到真实世界部署时,性能显著下降的现象。这种差距可能源于模拟环境与真实环境在物理属性、感知数据、传感器噪声、动力学模型等方面的差异。缩小 模拟-现实鸿沟 是具身智能和机器人领域的重要研究方向,通常通过更真实的模拟环境、领域自适应 (domain adaptation) 技术或真实世界数据增强等方法来解决。

3.1.4. 扫描网格 (Scanned Mesh)

扫描网格 是一种传统的三维场景重建方法,通常通过 RGB-D 传感器扫描真实世界环境,然后将采集到的深度图和彩色图重建为三维几何网格 (triangle meshes) 并贴上纹理。

  • 局限性:
    • 噪声和不完整性: RGB-D 扫描通常包含噪声和遮挡,导致重建的网格不够精确或存在孔洞。
    • 对象分离困难: 扫描过程会将对象与其周围环境融合为连续的表面,使得后续分离单个对象以进行语义标注和物理交互变得困难且成本高昂。
    • 纹理问题: 纹理通常从稀疏的 RGB 视角拼接而成,在新的视角下容易出现裂缝、拉伸或模糊,影响真实感。

3.1.5. 部分可观察马尔可夫决策过程 (Partially Observable Markov Decision Process, POMDP)

POMDP 是一种用于建模智能体在不完全了解环境状态下的决策过程的数学框架。它扩展了马尔可夫决策过程 (Markov Decision Process, MDP),引入了部分可观察性。

  • 组成部分:
    • U\mathcal{U}: 指令空间 (Instruction space)。
    • S\mathcal{S}: 连续状态空间 (Continuous state space),智能体的真实状态(位置、方向等)。
    • A\mathcal{A}: 动作空间 (Action space),智能体可以执行的动作。
    • O\mathcal{O}: 多模态观察空间 (Multimodal observation space),智能体通过传感器获得的关于环境的信息(如图像、深度图、语义分割等),这些观察不足以完全确定环境状态。
    • TT: 状态转移函数 (State transition function),描述执行动作后状态如何变化,受物理驱动。
    • ZZ: 观察函数 (Observation function),描述给定状态下产生观察的概率,受渲染函数驱动。
    • MM: 语义层 (Semantic layer),包括实例/类别地图、属性等。
    • Φ\Phi: 物理层 (Physics layer),包括碰撞体、动力学等。

3.1.6. 多模态大语言模型 (Multimodal Large Language Models, MLLMs)

MLLMs 是指能够理解和处理多种模态信息(如文本、图像、音频、视频等)的大型语言模型。它们通过学习跨模态的对齐和表示,能够执行更复杂的任务,例如图像问答、图文生成、视觉指令遵循等。在 VLN 中,MLLMs 可以用来理解自然语言指令,并根据视觉观察做出导航决策。

3.2. 前人工作

本文在 VLN 领域的前人工作基础上进行创新,特别是在场景表示方面。

3.2.1. 基于扫描网格的 VLN 基准

早期的 VLN 研究主要依赖于基于扫描网格重建的场景,例如:

  • Matterport3D (Chang et al., 2017): 一个广泛使用的室内场景数据集,通过 RGB-D 扫描重建。VLN-CE (Krantz et al., 2020)IR2R-CE (Krantz et al., 2022) 等基准都基于 Matterport3D
  • HM3D (Ramakrishnan et al., 2021): 另一个大规模的室内场景数据集,提供了更高质量的 3D 环境。OVON (Yokoyama et al., 2024)GOAT-Bench (Khanna* et al., 2024)LHPR-VLN (Song et al., 2025) 等基准基于 HM3D。 这些基准的共同特点是使用扫描网格作为 3D 表示,其场景几何通常是“估计”而非“地面真值 (ground truth)”,且缺乏因果依赖的指令。

3.2.2. 3DGS 在具身智能中的应用

虽然 3DGS 作为一个强大的渲染工具被提出,但其在具身智能中的应用仍在探索中。

  • 3DGS 与物理模拟器如 MuJoCo/Isaac Sim (Jia et al., 2025; Zhu et al., 2025b) 的结合。

  • 采用双重表示 (dual-representation),即高斯用于渲染,网格用于碰撞检测 (Lou et al., 2025; Wu et al., 2025b)。

  • 通过照明估计增强 3DGS (Phongthawee et al., 2024)

    然而,这些工作未能解决 3DGS 本身在对象级语义和物理可执行性方面的不足,特别是在需要精确语言基础 (language grounding) 的 VLN 任务中。

3.3. 技术演进

VLN 领域在场景表示上的演进路线大致为:

  1. 离散全景图 (Discrete Panoramic Graphs): 最早的 VLN 工作 (Anderson et al., 2018) 基于 Matterport3D 的离散全景图,智能体在预定义的节点之间跳转。这种方式虽然简单,但限制了智能体的自由移动和连续决策。

  2. 扫描网格重建 (Scanned Mesh Reconstructions): 随着 Habitat (Savva et al., 2019) 等模拟器的出现,VLN 任务转向了连续控制 (continuous control) 环境,但仍主要使用 Matterport3DHM3D 等扫描网格作为场景表示。这些网格在纹理和语义上存在局限性,使得 VLN 任务的真实感和语义丰富性不足。

  3. 神经辐射场/3DGS (Neural Radiance Fields/3DGS): 3DGS 代表了最新的场景表示技术,能够提供高保真、实时且视角一致的渲染效果。然而,其原生形式缺乏语义和物理属性,限制了其在具身智能中的直接应用。

    本文的工作 SAGE-3D 正是处于这一演进的关键节点,旨在弥补 3DGS 在语义和物理方面的不足,使其成为下一代具身智能环境的基础。

3.4. 差异化分析

本文 SAGE-3D 与上述相关工作的主要区别和创新点在于:

  • 与现有 VLN 基准的对比 (Table 1):

    • 语义丰富性: 现有的 VLN-CEOVON 等基准主要关注“从 A 到 B”的导航,缺乏“带有因果关系 (Instruction with Causality)”的指令。SAGE-Bench 引入了具有因果依赖、高语义复杂度的指令,更贴近真实世界。
    • 场景几何准确性: 现有基准的场景几何多为“估计”所得,而 SAGE-Bench 使用“地面真值 (Ground Truth)”的场景几何,结合 3DGS-Mesh 混合表示,提供更精确的物理模拟。
    • 3D 表示: SAGE-Bench 是第一个完全基于 3DGS-Mesh 混合表示的 VLN 基准,结合了 3DGS 的真实感渲染和网格的物理准确性。
  • 与传统 3DGS 应用的对比:

    • 语义与物理的集成: 传统的 3DGS 仅用于高保真渲染,缺乏实例 ID、对象属性等细粒度语义,也缺乏可执行的物理结构。SAGE-3D 通过“对象级语义基础”和“物理感知执行结合”这两个核心组件,首次将 3DGS 升级为具有语义和物理属性的具身环境,使其能够支持 VLN 任务中的精确语言基础和物理交互。

    • 数据生成范式: SAGE-3DInteriorGS 数据集不是直接从扫描中生成 3DGS,而是从艺术家创建的网格场景中采样并手动标注,确保了语义的准确性和物理模型的精确性,解决了扫描网格难以分离对象和 3DGS 难以自动获取语义的问题。

      通过这些创新,SAGE-3D 使得 3DGS 能够从一个纯粹的感知表示转变为一个功能完备的具身环境基础,从而有望进一步缩小模拟-现实鸿沟,并支持更复杂、更真实的具身智能研究。

4. 方法论

4.1. 方法原理

SAGE-3D 的核心思想是将 3D 高斯泼溅 (3DGS) 从一个纯粹用于感知(即渲染)的场景表示,升级为一个具备语义理解和物理交互能力的、可执行的环境基础。这通过两个关键组件实现:对象级语义基础 (Object-Level Semantic Grounding)物理感知执行结合 (Physics-Aware Execution Jointing)。前者为 3DGS 赋予细粒度的对象级语义标注,解决了传统 3DGS 缺乏语义的问题;后者则将物理碰撞体与 3DGS 相结合,构建了 3DGS-Mesh 混合表示,从而实现了精确的物理模拟,解决了 3DGS 缺乏物理可执行性的问题。

4.2. 核心方法详解

4.2.1. SAGE-3D 范式 (SAGE-3D Paradigm)

SAGE-3D 范式将一个 3DGS 场景表示 GG ,通过添加语义信息 MM 和物理信息 Φ\Phi ,转化为一个可执行的具身环境 Eexec\mathcal{E}_{\mathrm{exec}}。这一过程形式化表示为: G :+ :M :+ :Φ : :Eexec G \ : + \ : M \ : + \ : \Phi \ : \longrightarrow \ : { \mathcal E } _ { \mathrm { e x e c } } 其中:

  • G={gi}i=1NG = \{ g _ { i } \} _ { i = 1 } ^ { N } 是三维高斯球体 (Gaussian primitive) 的集合,代表了场景的视觉外观。

  • MM 是语义层 (semantic layer),包括实例 ID、对象类别、属性等细粒度信息。

  • Φ\Phi 是物理层 (physics layer),包括碰撞体、动力学参数等。 转化后的环境 Eexec\mathcal{E}_{\mathrm{exec}} 可以被形式化为一个语义和物理增强的部分可观察马尔可夫决策过程 (POMDP): E=(U,S,A,O,T,Z;M,Φ) \mathcal { E } = ( \mathcal { U } , \mathcal { S } , \mathcal { A } , \mathcal { O } , T , Z ; M , \Phi ) 其中:

  • U\mathcal { U } 是指令空间 (instruction space),智能体接收的语言指令。

  • S\mathcal { S } 是连续状态空间 (continuous state space),智能体在环境中的精确位置和姿态。

  • A\mathcal { A } 是动作空间 (action space),智能体可以执行的动作,可以是离散或连续的。

  • O\mathcal { O } 是多模态观察空间 (multimodal observation space),智能体从环境中获得的视觉、深度等信息。

  • TT 是物理驱动的状态转移函数 (physics-driven state transition function),描述智能体执行动作后其状态如何变化。

  • ZZ 是渲染函数 (rendering function),描述智能体在特定状态下观察到的环境图像。

  • MMΦ\Phi 分别代表了增强的语义信息和物理信息,使得环境更具可操作性。

    SAGE-3D 的核心目标是保留 3DGS 的高保真渲染质量,同时引入对象级语义和物理可执行性,使其成为训练和评估具身智能体的可行环境基础。

4.2.2. 对象级语义基础 (Object-Level Semantic Grounding)

传统的 3DGS 仅编码外观信息(如颜色、密度),缺乏实例 ID 或对象属性,这限制了其在需要精确对象级理解的 VLN 指令(如“去红色椅子旁边白色书架”)中的应用。为了解决这一问题,SAGE-3D 提出了以下方法:

4.2.2.1. InteriorGS 数据集

InteriorGS 是一个包含 1000 个高保真室内 3DGS 场景的数据集。这些场景通过以下方式获得并标注:

  • 场景来源: 数据集中的 3DGS 数据是从艺术家创建的网格场景中采样的。这些网格场景本质上是高质量的 3D 模型,而非从真实世界扫描而来,从而保证了几何的精确性。
  • 3DGS 重建: 为了在室内环境中(通常存在大量遮挡)实现可靠的 3DGS 重建,每个场景平均渲染了 3000 个相机视角。这些视角的位置和姿态通过开放源代码的 gsplat (Ye et al., 2025) 管线,结合渲染器提供的姿态信息,用于估计 3DGS 参数。
    • 相机采样策略: 采用了两种互补的相机放置策略来缓解欠采样问题:

      1. 周长感知平面图扫描 ("surround"): 根据房间周长按比例分配全局相机预算。沿每个房间周长均匀间隔放置相机,光轴对准内侧边缘法线。每个放置点实例化三个切向基线(左/中/右)和三个垂直层:外层(较低,距地面 150mm,俯仰 +30°;中等高度,俯仰 0°;较高,距天花板 500mm,俯仰 -30°);内层(高度在对应外层之间插值,上层俯仰 -15°,下层 +15°,中层与外层中层匹配)。
      2. 体积极限采样 (Volume-uniform sampling): 根据房间体积按比例分配全局相机预算,然后通过泊松盘采样 (Poisson-disk sampling) 绘制三维位置以实现空间填充均匀性。在每个采样位置,实例化六个具有标准偏航-俯仰模板的相机,并对其方向施加共享的小随机扰动。
    • 视角选择: 通过上述策略选取的视角会进一步筛选,保留那些与最近网格表面保持适当距离的视角,避免因过近导致 3DGS 欠拟合。图 7 展示了这一过程:绿色标记为保留的相机姿态,红色标记为因过近而被丢弃的姿态。

      Figure 7: Camera pose sampling across four distinct floorplans. Green markers denote the final selected camera poses; red markers indicate poses discarded for being too close to the nearest mesh surface. Red outlines highlight ceilingwall intersection regions, while white outlines indicate floor-wall intersections. 该图像是示意图,展示了在四个不同平面图上进行的相机姿态采样。绿色标记表示最终选择的相机姿态,红色标记表示因过于接近最近的网格表面而被丢弃的姿态。红色轮廓突出显示了天花板与墙壁的交界区域,而白色轮廓则表示地板与墙壁的交界区域。

      Figure 7: Camera pose sampling across four distinct floorplans. Green markers denote the final selected camera poses; red markers indicate poses discarded for being too close to the nearest mesh surface. Red outlines highlight ceilingwall intersection regions, while white outlines indicate floor-wall intersections.

  • 手动标注 (Manual Annotation): 对所有 3DGS 场景进行了双重验证的物体级标注 (object-level annotations),包括物体类别 (object categories)、实例 ID (instance ID) 和边界框 (bounding box) 信息。
  • 规模: 数据集包含超过 55.4 万个对象实例,涵盖 755 个类别,提供了密集、语义一致且多样化的基础。

4.2.2.2. 二维语义俯视图生成 (2D Semantic Top-Down Map Generation)

为了支持指令生成和路径规划,SAGE-3D 设计了一种 2D 语义俯视图生成方法。与传统扫描网格工作流(如 Habitat 中通过场景遍历构建 NavMesh)不同,3DGS 缺乏固有的语义和离散实体。因此,该方法通过将 InteriorGS 中标注的 3D 对象投影到地面平面上来创建 2D 语义俯视图。

  • 投影过程:

    • 首先从 3D 对象的表面采样点。
    • 将这些点投影到地面平面。
    • 对投影点进行 2D 凸包 (convex hull) 操作,以获得对象的 2D 足迹 (footprint)。
    • 对于多视图(如果适用),将多个视图的足迹融合,形成一致的 2D 掩码。
  • 形式化表示: 对象 oko_k 的 2D 掩码 Mk\mathcal{M}_k 的计算公式如下: Mk=Fuse(Hull{Πtop(p)pSurf(ok)}) { \mathcal { M } } _ { k } = \operatorname { F u s e } \left( \operatorname { H u l l } \left\{ \Pi _ { \mathrm { t o p } } ( p ) \mid p \in \operatorname { S u r f } ( o _ { k } ) \right\} \right) 其中:

    • Mk\mathcal { M } _ { k } 是对象 oko_k 的 2D 掩码。
    • Surf(ok)\operatorname { Sur f } ( o _ { k } ) 是对象 oko_k 的采样表面点集合。
    • Πtop\Pi _ { \mathrm { t o p } } 是到地面平面的投影操作。
    • Hull()\mathrm { Hull } ( \cdot ) 表示 2D 凸包操作。
    • Fuse()\mathrm { Fuse } ( \cdot ) 用于将多视图掩码融合为一致的足迹。
  • 其他标注: 门会根据其状态(开/关/半开)进行标记,墙壁则标记为不可穿越区域。

    Figure 2 展示了对象级语义基础的概览:

    Figure 2: Overview of SAGE-3D, which consists of two key components: (1) Object-Level Semantic Grounding, 3DGS data is annotated by expect at the object level, then be transformed into 2D semantic maps for path planning and instruction generation; (2) Physics-Aware Execution Jointing, where scene and object collision bodies are generated via convex hull decomposition, integrated into 3DGS to form a 3DGS-Mesh Hybrid Representation, with extensive physics simulation interfaces. 该图像是示意图,展示了SAGE-3D的两个关键组件:对象级语义基础和物理感知执行连接。对象级语义基础通过对3DGS数据进行对象级标注,实现路径规划和指令生成;物理感知执行连接则通过凸包分解生成场景和对象的碰撞体,将其集成到3DGS中,形成3DGS-网格混合表示,支持丰富的物理模拟接口。

Figure 2: Overview of SAGE-3D, which consists of two key components: (1) Object-Level Semantic Grounding, 3DGS data is annotated by expect at the object level, then be transformed into 2D semantic maps for path planning and instruction generation; (2) Physics-Aware Execution Jointing, where scene and object collision bodies are generated via convex hull decomposition, integrated into 3DGS to form a 3DGS-Mesh Hybrid Representation, with extensive physics simulation interfaces.

4.2.3. 物理感知执行结合 (Physics-Aware Execution Jointing)

单纯拥有语义的 3DGS 仍然无法直接作为 VLN 环境,因为它无法处理物理交互,例如网格穿透 (mesh penetration) 等问题。为了解决这个问题,SAGE-3D 提出了以下方法:

4.2.3.1. 3DGS-Mesh 混合表示 (3DGS-Mesh Hybrid Representation)

SAGE-3D 采用一种 3DGS-Mesh 混合表示,兼顾了高保真渲染和精确物理模拟:

  • 碰撞体提取: 从艺术家创建的原始三角形网格数据开始,使用 CoACD (Wei et al., 2022) 工具对每个对象进行凸分解 (convex decomposition),从而生成每个对象的碰撞体 (collision bodies)。这些碰撞体是精确的几何表示,用于物理模拟。
  • USDA 场景组装: 将碰撞体组装成一个 USDA (Universal Scene Description Archive) 场景。在 USDA 中,这些碰撞体被定义为不可见的刚体形状 (invisible rigid shapes),用于驱动接触和动力学模拟。
  • 3DGS 渲染: 同时,3DGS 文件保持可见,提供真实感的视觉外观。
  • 解耦设计: 这种解耦设计使得 3DGS 可以提供高保真渲染,而基于网格的碰撞体则提供准确的物理模拟。每个对象都被实例化为一个 USD prim,并附加了物理参数 Φk\Phi _ { k } (包括刚体和接触参数)。静态场景中的对象默认设置为静态刚体,而部分精选的对象则配置为可移动或可关节化,以支持更丰富的交互。
  • 优点: 这种混合表示消除了运行时对艺术家网格进行光线追踪的需要,通过 3DGS 保留了高保真渲染,并为物理模拟提供了准确的碰撞几何。

4.2.3.2. 连续环境中的智能体、控制和观察 (Agents, Control, and Observations in a Continuous Environment)

模拟器暴露了丰富的机器人 API 接口,支持多种地面平台(如 Unitree G1 / Go2 / H1 等仿人或四足机器人)和空中机器人(如四旋翼无人机)。

  • 动作接口 (Action Interfaces): 支持离散命令(如转向/前进/停止)和连续控制(地面机器人的速度命令 (v,ω)(v, \omega),无人机的 6 自由度速度/姿态命令)。这些动作都在一个连续的环境中执行,没有全景节点之间的瞬移。

  • 观察 (Observations): 环境提供同步的 RGB 图像、深度图、语义分割图、姿态信息和接触事件。

  • 内置功能: 内置了碰撞检测、卡住/穿透监控和恢复机制。

  • 加速与稳定性: 离线生成的碰撞体被缓存,以加速加载并确保评估的稳定性和可重复性。

    Figure 2 同样展示了物理感知执行结合的概览,包括碰撞体的生成和 3DGS-Mesh 混合表示的构成。

5. 实验设置

5.1. 数据集

5.1.1. InteriorGS

InteriorGS 是本文发布的核心数据集,用于生成 SAGE-Bench 中的 3DGS 场景。

  • 规模: 包含 1000 个高保真、家具齐全的室内 3DGS 场景。
  • 标注: 进行了密集的物体级标注,包括物体类别、实例 ID 和边界框信息。
  • 内容: 涵盖了 752 个住宅室内场景和 248 个公共空间(如音乐厅、游乐园、健身房等)。
  • 对象实例: 包含超过 55.4 万个对象实例,涵盖 755 个类别。

5.1.1.1. InteriorGS 场景示例

Figure 9 展示了 InteriorGS 中的一些室内场景可视化示例:

Figure 9: More Visualization of InteriorGS. 该图像是多个室内场景的可视化,展示了不同房间及其布局,包括厨房、客厅和卧室等。每个场景都呈现了3D环境的细节,强调了标签和物体的分布,为视觉语言导航提供了丰富的参考。

Figure 9: More Visualization of InteriorGS.

5.1.1.2. InteriorGS 数据分布

  • 非家居场景分布 (Figure 10):

    • 244 个非家居场景按功能分为五类:服务 (Services)、办公室 (Office)、零售 (Retail)、娱乐 (Entertainment) 和健身 (Fitness)。

    • 健身场景最少,其他几类场景分布相似。

      Figure 10: Distribution of non-home scenes of InteriorGS. 该图像是图表,展示了InteriorGS数据集中非家居场景的分布情况。图中以不同颜色和扇区代表各类场景,包括办公室、零售、娱乐等,且标注了每类场景的数量。总体展示了多样化的室内场景布局。

    Figure 10: Distribution of non-home scenes of InteriorGS.

  • 资产分布 (Figure 11):

    • 资产分为家具 (Furniture)、照明 (Lighting)、食品与饮料 (Food & Drinks)、日用品 (Daily Items)、装饰品 (Decorations) 和其他 (Others)。

    • “其他”类别中的书籍 (books) 是数量最多的资产,表明数据集包含了丰富的细节。

      Figure 11: Distribution of assets of InteriorGS. 该图像是一个图表,展示了InteriorGS中资产的分布情况。各类资产以不同颜色分组,主要包括书籍、药品盒、家具、装饰品和食品等,且数据表明书籍的数量最多,达到80,096个。

    Figure 11: Distribution of assets of InteriorGS.

5.1.2. SAGE-Bench

SAGE-Bench 是基于 InteriorGS 数据集的第一个 3DGS 驱动的 VLN 基准。

  • 数据量: 包含 2M (200万) 条新的轨迹-指令对。

  • 物理信息: 包含 55.4 万个详细的碰撞体。

  • 指令生成: 采用分层指令生成方案 (Hierarchical Instruction Generation Scheme),结合高层语义目标和低层动作原语。

    • 高层指令 (High-level Instructions): 强调任务语义和以人为中心的意图,分为五类:添加对象 (Add Object)、场景驱动 (Scenario Driven)、相对关系 (Relative Relationship)、基于属性 (Attribute-based) 和基于区域 (Area-based)。
    • 低层指令 (Low-level Instructions): 关注控制和运动学评估,包括基本动作(如前进、转向)和点对点导航。
  • 评估框架: 引入了三轴评估框架,正交地结合了任务类型、指令级别和情景复杂性。

    • 任务类型: VLN (视觉-语言导航) 和 No-goal Navigation (无目标导航)。
    • 指令级别: 高层指令和低层指令。
    • 情景复杂性: 场景复杂性(资产密度,多于 376 个资产为“多”,少于 184 个为“少”)和路径复杂性(路径长度,长于 29.0m 为“长”,短于 8.4m 为“短”)。
  • 测试集: 1148 个测试样本,包括 944 个高层指令和 204 个低层指令,来自 35 个不同场景。

  • 轨迹生成: 使用碰撞体构建 1.2 m1.2 \text{ m} 高度占据图和 2D 语义图,然后运行 A* 算法生成最短路径轨迹,并考虑自由空间距离、窄通道惩罚和区域偏好。

    Figure 3 概括了 SAGE-Bench 的构成:

    Figure 3: Overview of SAGE-Bench. SAGE-Bench includes a hierarchical instruction generation scheme, two major task types, two episode complexity categories, and three newly designed natural continuity metrics for navigation. 该图像是SAGE-Bench的示意图,展示了分层指令生成方案、主要任务类型、两种情节复杂性分类,以及三种新设计的导航自然连续性指标。图中包括高层指令和低层指令的示例,及导航复杂性的评估标准。

Figure 3: Overview of SAGE-Bench. SAGE-Bench includes a hierarchical instruction generation scheme, two major task types, two episode complexity categories, and three newly designed natural continuity metrics for navigation.

5.2. 评估指标

本文针对 VLN 任务和 No-goal Navigation 任务提出了新的评估指标,并沿用了传统指标。

5.2.1. VLN 任务指标

5.2.1.1. 成功率 (Success Rate, SR)

  • 概念定义: 衡量智能体是否成功到达目标位置的二元指标 (0 或 1)。如果智能体最终位置与目标位置的距离在预设阈值内,则任务成功。
  • 数学公式: 论文未直接给出公式,但根据定义,SR 是成功完成任务的轨迹数量占总轨迹数量的比例。 SR=成功轨迹数量总轨迹数量 \mathrm{SR} = \frac{\text{成功轨迹数量}}{\text{总轨迹数量}}
  • 符号解释:
    • 成功轨迹数量:智能体成功导航到目标位置的轨迹数量。
    • 总轨迹数量:所有测试或评估的轨迹数量。

5.2.1.2. 预言成功率 (Oracle Success Rate, OSR)

  • 概念定义: 衡量如果智能体在每一步都能选择导致最终成功的最佳动作,其成功率会是多少。OSR 通常在智能体停在目标点附近时,通过回溯其轨迹,计算其曾距离目标点最近位置的成功率。它反映了智能体的感知能力和对环境的理解,而非其决策过程的完美性。
  • 数学公式: 论文未直接给出公式,通常计算为在整个轨迹中,智能体与目标的最短距离是否小于成功阈值的轨迹比例。 OSR=轨迹中任意点达到目标阈值的轨迹数量总轨迹数量 \mathrm{OSR} = \frac{\text{轨迹中任意点达到目标阈值的轨迹数量}}{\text{总轨迹数量}}
  • 符号解释:
    • 轨迹中任意点达到目标阈值的轨迹数量:在智能体导航过程中,至少有一个时间步其位置与目标位置的距离在预设阈值内的轨迹数量。
    • 总轨迹数量:所有测试或评估的轨迹数量。

5.2.1.3. 路径长度加权成功率 (Success weighted by Path Length, SPL)

  • 概念定义: 综合考虑了导航的成功率和效率。它惩罚那些虽然成功但走了过长路径的智能体。成功的导航路径越短,SPL 越高。
  • 数学公式: 论文未直接给出公式,通常定义为: SPL=1Ni=1NSiLimax(Pi,Li) \mathrm{SPL} = \frac{1}{N} \sum_{i=1}^{N} S_i \frac{L_i}{\max(P_i, L_i)}
  • 符号解释:
    • NN: 总任务数量。
    • SiS_i: 第 ii 个任务是否成功(如果成功为 1,否则为 0)。
    • LiL_i: 第 ii 个任务的最短路径长度(地面真值)。
    • PiP_i: 第 ii 个任务中智能体实际走的路径长度。

5.2.1.4. 碰撞率 (Collision Rate, CR)

  • 概念定义: 衡量智能体在导航过程中发生碰撞的频率。
  • 数学公式: 论文未直接给出公式,通常定义为: CR=发生碰撞的时间步总数总时间步数CR=发生碰撞的轨迹数量总轨迹数量 \mathrm{CR} = \frac{\text{发生碰撞的时间步总数}}{\text{总时间步数}} \quad \text{或} \quad \mathrm{CR} = \frac{\text{发生碰撞的轨迹数量}}{\text{总轨迹数量}} 根据论文中 Table 2 的数值(例如 NaVILA 为 3.28),更倾向于衡量一个时间步内碰撞的发生频率或者是一个比率。由于论文没有明确定义,我们假设它是一个表示碰撞严重程度的数值,可能与持续时间或强度相关。不过,本文特别引入了 ICP 来弥补 CR 的不足,暗示 CR 只是一个粗粒度的指标。

5.2.1.5. 连续成功率 (Continuous Success Ratio, CSR)

  • 概念定义: 衡量智能体在整个导航过程中,有多少时间百分比保持在参考路径周围的允许区域内,同时满足任务条件。与 SR 仅在终点判断成功与否不同,CSR 评估了智能体在整个过程中行为的“目标一致性”。
  • 数学公式: CSR=1Tt=1Ts(t) \mathrm { C S R } = \frac { 1 } { T } \sum _ { t = 1 } ^ { T } s ( t )
  • 符号解释:
    • TT: 轨迹的总长度(时间步数)。
    • s(t): 在时间步 tt 的二元指示函数。如果智能体在时间步 tt 的位置 pos(t)\operatorname{pos}(t) 位于允许的廊道 C\mathcal{C} 内且满足任务条件,则 s(t)=1s(t)=1,否则 s(t)=0s(t)=0
    • pos(t)\operatorname{pos}(t): 智能体在时间步 tt 的位置。
    • C\mathcal{C}: 通过以半径 rtolr_{\mathrm{tol}} 缓冲参考路径来定义的允许廊道。
    • rtolr_{\mathrm{tol}}: 允许廊道的半径容差。

5.2.1.6. 综合碰撞惩罚 (Integrated Collision Penalty, ICP)

  • 概念定义: 衡量轨迹沿线的平均碰撞强度,捕获了碰撞的频率和持续时间。与传统的 CR 无法区分偶尔接触和持续刮擦不同,ICP 积分了碰撞强度序列,提供了更细致的碰撞评估。
  • 数学公式: ICP=1Tt=1Tc(t) \mathrm { I C P } = \frac { 1 } { T } \sum _ { t = 1 } ^ { T } c ( t )
  • 符号解释:
    • TT: 轨迹的总长度(时间步数)。
    • c(t): 在时间步 tt 的碰撞强度序列,取值范围为 [0, 1]c(t) 越高表示碰撞越严重。

5.2.1.7. 路径平滑度 (Path Smoothness, PS)

  • 概念定义: 通过连续航向变化(或曲率)幅度的归一化平滑度分数来评估路径。较高的值表示路径更平滑。平滑的路径减少了急转弯和加速度变化,有利于真实机器人的可行性和稳定规划。
  • 数学公式: PS=11T1t=2Tmin(Δθtπ,1),Δθt=θtθt1 \mathrm { P S } = 1 - \frac { 1 } { T - 1 } \sum _ { t = 2 } ^ { T } \operatorname* { m i n } \left( \frac { \left| \Delta \theta _ { t } \right| } { \pi } , 1 \right) , \quad \Delta \theta _ { t } = \theta _ { t } - \theta _ { t - 1 }
  • 符号解释:
    • TT: 轨迹的总长度(时间步数)。
    • θt\theta _ { t }: 智能体在轨迹时间步 tt 的航向角 (heading angle)。
    • Δθt\Delta \theta _ { t }: 两个连续时间步之间航向角的变化量。
    • min(x,1)\operatorname* { m i n } (x, 1): 取 xx1 中的较小值,用于归一化。Δθtπ\frac { \left| \Delta \theta _ { t } \right| } { \pi } 将航向变化量归一化到 [0, 1] 范围,其中 π\pi 代表 180 度。

5.2.2. 无目标导航 (No-goal Navigation) 任务指标

  • Episode Time (情节时间): 衡量智能体在无目标导航任务中持续的时间。如果发生碰撞,情节会立即终止。最大情节时间设置为 120 秒。
  • Explored Areas (探索区域): 衡量智能体在给定时间内探索的独特区域大小或数量,反映其探索能力。

5.3. 对比基线

实验选择了广泛的模型进行评估,包括:

  1. 闭源多模态大语言模型 (Closed-source MLLMs as Agent):
    • Qwen-VL-MAX (Bai et al., 2023)
    • GPT-4.1 (未提供具体引用,可能指内部版本或特定测试模型)
    • GPT-5 (未提供具体引用,可能指内部版本或特定测试模型)
  2. 开源多模态大语言模型 (Open-source MLLMs as Agent):
    • Qwen2.5-VL-7B (Bai et al., 2023)
    • InternVL-2.5-8B (Zhu et al., 2025a)
    • InternVL-3-8B (Chen et al., 2024)
    • Llama-3.2-11B (未提供具体引用,可能指内部版本或特定测试模型)
  3. 视觉-语言模型 (Vision-Language Model): 选择了近年来广泛使用的 VLN 模型。
    • NaviLLM (Zheng et al., 2024)
    • NavGPT-2 (Zhou et al., 2024)
    • CMA (Krantz et al., 2020)
    • NaVid (Zhang et al., 2024)
    • NaVILA (Cheng et al., 2025)
    • 本文基于 NaVILANaVid 训练了两个定制模型,以评估 SAGE-Bench 数据的有效性:
      • NaVILA-base: NaVILA 的预训练模型 (navila-siglip-lama3-8b-v1.5-pretrain)。
      • NaVILA-SAGE (Ours): 在 SAGE-Bench 数据集上训练的 NaVILA-base 模型。
      • NaVid-base: NaVid 的预训练模型 (navid-7b-full-224)。
      • NaVid-SAGE (Ours): 在 SAGE-Bench 数据集上训练的 NaVid-base 模型。

5.4. 实施细节

  • 训练数据选择:SAGE-Bench 中选取了 50 万对“轨迹-指令”对作为训练数据,确保与测试集无重叠。
  • 训练硬件: 在 8 块 NVIDIA Tesla H20 GPU 上进行训练。
  • 训练参数: 批量大小 (batch size) 为 256,学习率 (learning rate) 为 2×1052 \times 10^{-5}
  • 数据排除: 训练数据中未包含任何 VLN-CE R2RRxR 样本,以确保评估 SAGE-Bench 数据的独立泛化能力。

6. 实验结果与分析

6.1. 核心结果分析

6.1.1. SAGE-Bench 上的整体比较

以下是原文 Table 2 的结果:

Methods VLN (High-level Instruction) Nogoal-Nav
SR ↑ OSR ↑ SPL ↑ CR ↓ CSR ↑ ICP ↓ PS ↑ Episode Time ↑ Explored Areas ↑
Closed-source MLLMs as Agent
Qwen-VL-MAX 0.14 0.25 0.12 0.85 0.21 0.41 0.79 64.74 6.40
GPT-4.1 0.13 0.21 0.12 0.72 0.19 0.35 0.81 67.70 3.00
GPT-5 0.12 0.18 0.11 0.63 0.18 0.24 0.86 64.60 2.16
Open-source MLLMs as Agent
Qwen2.5-VL-7B 0.13 0.14 0.13 0.71 0.21 0.27 0.87 42.19 6.88
InternVL-2.5-8B 0.10 0.13 0.10 0.52 0.14 0.33 0.88 28.82 4.28
InternVL-3-8B 0.12 0.20 0.11 0.64 0.17 0.32 0.82 34.70 6.34
Llama-3.2-11B 0.13 0.18 0.14 0.74 0.16 0.29 0.83 38.45 6.68
Vision-Language Model
NaviLLM 0.05 0.06 0.05 0.21 0.09 0.24 0.90 18.73 5.74
NavGPT-2 0.10 0.12 0.11 0.33 0.14 0.29 0.83 24.51 3.36
CMA 0.13 0.15 0.14 0.54 0.26 0.28 0.86 44.26 3.22
NaVid 0.15 0.17 0.15 1.24 0.29 0.33 0.89 56.13 4.28
NaVILA 0.39 0.47 0.34 3.28 0.48 0.61 0.68 77.82 8.40
NaVid-base 0.10 0.13 0.10 0.33 0.15 0.28 0.84 20.37 3.42
NaVid-SAGE (Ours) 0.36 0.46 0.32 2.12 0.48 0.66 0.54 60.35 5.66
NaVILA-base 0.21 0.26 0.22 3.53 0.33 0.72 0.41 58.26 6.52
NaVILA-SAGE (Ours) 0.46 0.55 0.48 2.67 0.57 0.54 0.74 82.48 8.74

以下是原文 Table 2 的结果。

  • 挑战性: SAGE-Bench 对现有 VLN 模型和 MLLM 提出了显著挑战。除了最新的 SOTA VLN 模型 NaVILA,其他模型的 SR 均不高于 0.15。例如,NaVidVLN-CE R2R Val-Unseen 上达到了 0.37 的 SR 和 0.49 的 OSR,但在 SAGE-Bench 上仅获得 0.15 的 SR 和 0.17 的 OSR。这表明 SAGE-Bench 任务的难度更高。
  • MLLM 能力: MLLM 凭借其多模态理解能力,展现出一定的 VLN 能力。最新的开源和闭源 MLLMSAGE-Bench 上的 VLN SR 介于 0.10 到 0.14 之间,与 CMA(0.13SR)CMA (0.13 SR)NaVid (0.15 SR) 等专用 VLN 模型相当,甚至在 OSR 上表现更好(例如 InternVL-3 的 0.20 OSR 超过 NaVid 的 0.17 OSR)。
  • 传统指标的局限性: 对于 SR 小于 0.20 的弱 VLN 性能模型,其 CRICPPS 指标的比较意义不大,因为它们可能根本无法理解导航指令或环境信息,行为类似于“随机或单一动作预测”(例如持续直线运动)。

6.1.2. 洞察 1: 3DGS 场景数据渲染更快但更难收敛

以下是原文 Table 3 的结果:

Environment Type Avg. Render Time / Frame (ms) ↓ Avg. Memory (MB) ↓ Iters to SR=40% (k) ↓ Time-to-SR=40% (hrs) ↓
Scanned Mesh (MP3D/HM3D) 16.7 850 120 4.8
3DGSMesh Hybrid Representation (Ours) 6.2 220 160 6.2

该洞察比较了传统扫描网格数据和 SAGE-3D3DGS-Mesh 混合表示在渲染速度和模型收敛性方面的差异。

  • 渲染速度: 3DGS 场景数据实现了每帧 6.2 ms6.2 \text{ ms} 的渲染时间,平均内存使用为 220 MB220 \text{ MB},优于扫描网格数据(16.7 ms16.7 \text{ ms}850 MB850 \text{ MB})。这证实了 3DGS 在实时渲染方面的优势。
  • 模型收敛: 然而,在训练过程中,基于 3DGS 的模型需要大约 160k 迭代和 6.2 小时才能达到 40% 的 SR,而基于扫描网格的模型仅需 120k 迭代和 4.8 小时。这表明尽管 3DGS 渲染更快,但由于其更高要求的丰富性和真实感更好地反映了真实世界的复杂性,模型在 3DGS 数据上训练更具挑战性,收敛更慢。

6.1.3. 洞察 2: 3DGS 场景数据表现出强大的泛化能力

以下是原文 Table 4 的结果:

Methods R2R Val-Unseen
SR ↑ OSR ↑ SPL ↑
Seq2Seq 0.25 0.37 0.22
Navid-base 0.22 0.32 0.17
Navid-SAGE (Ours) 0.31 0.42 0.29
CMA 0.32 0.40 0.30
NaVid 0.37 0.49 0.36
NaVILA-base 0.29 0.38 0.27
NaVILA-SAGE (Ours) 0.38 0.51 0.36
NaVILA 0.50 0.58 0.45

为了评估 SAGE-Bench 数据集的有效性,将仅在 SAGE-Bench 数据上训练的 NaVILA-SAGENaVid-SAGE 模型在 VLN-CE 基准的 R2R Val-Unseen 任务上进行了测试。

  • 结果显示,仅在 SAGE-Bench 数据上训练的模型(不包含任何 VLN-CE 数据)相对于其基线模型取得了显著的性能提升。
  • 例如,NaVILA-SAGER2R Val-Unseen 上的 SR 相对提升了 31%(从 0.29 提高到 0.38),OSR 相对提升了 34%(从 0.38 提高到 0.51)。NaVid 模型也观察到了类似的提升。
  • 这表明 SAGE-Bench 数据集由于其丰富的场景和高真实感,与真实世界场景的对齐度更高,使得模型训练后具有强大的泛化能力。

6.1.4. 洞察 3: 新的连续性指标能有效研究导航的自然连续性

  • 在 Table 2 中,本文提出的 CSRICPPS 指标揭示了传统指标无法捕捉的导航自然连续性问题。

  • CSR 通常高于 SR,这表明 CSR 是一种更具包容性和鲁棒性的指标,因为它不要求模型与地面真值轨迹精确匹配。

  • 对于 ICPPS,尽管 NaVILA 取得了相对较高的任务完成度(0.39 SR,0.47 OSR),但其自然运动连续性较差:

    • ICP 为 0.61 表示在导航过程中存在持续的碰撞。
    • PS 为 0.68 反映了模型倾向于大幅、机械的转弯角度,而非平滑自然的运动。
  • Figure 4 的可视化案例研究进一步证实了这一点:

    Figure 4: Visualization case study of navigation natural continuity. The red trajectory is the ground truth, and the blue Trajectory is the trajectory of NaVILA. 该图像是一个示意图,展示了导航过程中的自然连续性案例。红色轨迹代表真实路径,蓝色轨迹则是 NaVILA 的导航路径。图中的三个案例分别显示了不同的导航情况,并标注了相应的指标。

Figure 4: Visualization case study of navigation natural continuity. The red trajectory is the ground truth, and the blue Trajectory is the trajectory of NaVILA.

  • 在案例 1 中,NaVILA 模型(蓝色轨迹)长时间贴着墙壁移动,虽然传统碰撞率 CR 仅为 1,但 ICP 却高达 0.87,这表明存在持续的碰撞,而 CR 无法区分偶然碰撞和持续刮擦。这证明了 ICP 在评估碰撞行为方面的优越性。

6.2. 更多发现

6.2.1. 高层指令 vs. 低层指令

以下是原文 Table 5 的结果:

Methods Instruction Level SAGE-Bench VLN
SR ↑ OSR ↑ SPL ↑ CSR ↑ ICP ↓ PS ↑
GPT-4.1 Low-level 0.22 0.37 0.19 0.27 0.60 0.70
High-level 0.13 0.21 0.12 0.19 0.35 0.81
InternVL-3-8B Low-level 0.20 0.35 0.18 0.26 0.61 0.69
High-level 0.12 0.20 0.11 0.17 0.32 0.82
NaVid Low-level 0.24 0.42 0.21 0.34 0.63 0.64
High-level 0.15 0.17 0.15 0.29 0.33 0.89
NaVILA Low-level 0.56 0.66 0.50 0.58 0.48 0.75
High-level 0.39 0.47 0.34 0.48 0.61 0.68

Table 5 比较了不同模型在 VLN 任务中高层指令和低层指令上的性能。

  • 性能差异: 模型在执行高层指令时的表现明显差于低层指令。即使是 SOTA 模型 NaVILA,在高层指令上的 SR 仅为 0.39,远低于其在低层指令上的 0.56 SR
  • 高层指令的挑战性: 低层指令由指导模型逐步完成任务的基本动作组成,而高层指令具有更自然的语义,更接近现实生活场景,对 VLN 模型提出了更大的挑战。这表明未来 VLN 模型的发展需要更好地处理高层语义理解和推理。

6.2.2. 训练场景数量 vs. 训练样本数量的影响

以下是原文 Table 6 的结果:

Data in # Train SAGE-Bench VLN
#Scenes #Samples SR ↑ OSR ↑ SPL ↑ CSR ↑ ICP ↓ PS ↑
800 240k 0.42 0.47 0.42 0.50 0.61 0.63
800 120k 0.40 0.43 0.40 0.48 0.62 0.62
800 60k 0.36 0.42 0.38 0.46 0.64 0.58
400 120k 0.34 0.39 0.35 0.44 0.67 0.54
400 60k 0.31 0.37 0.33 0.43 0.67 0.52
400 30k 0.28 0.35 0.31 0.43 0.69 0.49
400 15k 0.25 0.31 0.27 0.39 0.70 0.46
200 60k 0.27 0.33 0.29 0.41 0.70 0.47
100 60k 0.23 0.29 0.26 0.38 0.71 0.44
NaVILA-base 0.21 0.26 0.22 0.36 0.72 0.41

Table 6 和 Figure 5 探讨了训练场景数量和训练样本数量对模型性能的影响。

Figure 5: Model performance change curve (number of scenes vs. sample size). 该图像是图表,展示了模型性能变化曲线,其中横轴为样本数量,纵轴为成功率(SR)。红线表示在固定400个场景下变化样本数量,蓝线表示在固定60,000个样本下变化场景数量。整体趋势显示,成功率随样本增加而上升。

Figure 5: Model performance change curve (number of scenes vs. sample size).

  • 场景多样性更重要: 结果表明,在保持样本量不变的情况下,增加训练数据中的场景数量,比单纯增加样本量能带来更大的性能提升。
  • 采样密度影响: 在相同场景数量(800 个)下,逐步增加采样密度(从 60k 到 240k 样本)可以持续提高 VLN 模型在未见验证集上的性能。
  • 结论: 场景数量(多样性)比样本数量(密度)对模型性能的影响更大,这表明环境的多样性对于 VLN 模型的学习更为关键。

6.2.3. 不同评估切片下的结果

Figure 6: Results under Different Evaluation Slice. 该图像是一个图表,展示了不同指令类型、轨迹长度和场景复杂度下成功率的比较。数据表明,NavId 在各项指标上的表现优于 NaVILA,尤其是在指令类型为 AC 时,其成功率达到 0.41,而 NaVILA 仅为 0.16。

Figure 6: Results under Different Evaluation Slice. Figure 6 展示了在本文提出的三轴评估框架下,不同高层指令类型、轨迹长度和场景复杂性对模型性能的影响。

  • 指令类型影响: VLN 模型在处理“相对关系 (Relative Relationship)”和“基于属性 (Attribute-based)”指令类型时表现较差,NaVILANaVid 在这些类型上的 SR 比其他类型低 2% 以上。这可能是因为这些指令需要更精细的空间推理和对象属性识别能力。
  • 复杂性影响: 随着轨迹长度的增加和场景复杂性的提高,模型性能显著下降。这符合预期,因为更长、更复杂的任务自然会增加导航难度。

6.3. 数据呈现 (表格)

本章节已在上述分析中完整地转录了原文的 Table 1, Table 2, Table 3, Table 4, Table 5 和 Table 6。

6.4. 消融实验/参数分析

本文没有明确的“消融实验”章节,但上述“更多发现”中的分析,例如“训练场景数量 vs. 训练样本数量”以及“高层指令 vs. 低层指令”,可以视为对数据特性和模型能力在不同参数配置或数据类型下的准消融分析。它们验证了:

  • 数据多样性的重要性: 更多的场景(即环境多样性)比更多的样本(即数据密度)对 VLN 模型的泛化能力影响更大。
  • 指令复杂性的挑战: 高层语义指令比低层指令对 VLN 模型构成更大的挑战,这突出了模型在高级推理和理解方面的不足。
  • 新指标的有效性: CSRICPPS 等新指标能够更全面、更细致地评估导航行为的自然连续性,揭示了传统指标无法捕捉的问题。

7. 总结与思考

7.1. 结论总结

本文提出了 SAGE-3D 这一新范式,成功地将 3D 高斯泼溅 (3DGS) 从一个纯粹的感知场景表示,升级为一个可执行、语义和物理对齐的具身导航环境基础。

  • 核心组件: 通过对象级语义基础 (Object-Level Semantic Grounding),为 3DGS 赋予了细粒度的对象级标注;通过物理感知执行结合 (Physics-Aware Execution Jointing),将碰撞对象嵌入 3DGS 并构建了丰富的物理接口,形成了 3DGS-Mesh 混合表示。
  • 数据与基准: 发布了大规模、高保真的 InteriorGS 数据集(1K 个带标注的 3DGS 室内场景),并基于此构建了首个 3DGS 驱动的 VLN 基准 SAGE-Bench(包含 2M VLN 数据、分层指令和三轴评估框架)。
  • 关键发现:
    1. 3DGS 数据渲染速度快,但模型收敛更慢,这反映了其更接近真实世界复杂性的特性。
    2. 3DGS 场景数据展现出强大的泛化能力,显著提升了基线模型在未见 VLN-CE 环境中的性能。
    3. 引入的 CSRICPPS 等自然连续性指标,有效弥补了传统 VLN 指标的不足,能够更全面地评估导航行为。
  • 意义: SAGE-3D 提供了一个从高保真数据生成到物理有效评估的连贯流程,为未来更丰富的多步、语义感知导航任务、交互式操作以及更深入的模拟-现实研究奠定了基础。

7.2. 局限性与未来工作

论文在结论部分暗示了其框架的广阔应用前景,也隐含了一些未来的研究方向:

  • 更丰富的交互任务: 论文提到“更丰富的多步和语义感知导航任务,交互式操作”,这表明当前的 SAGE-Bench 可能主要侧重于导航而非复杂的物理交互或操作,未来的工作可以扩展到这些领域。
  • 模拟-现实研究: “更广泛的模拟-现实研究”暗示了 SAGE-3D 作为 sim-to-real 桥梁的潜力,但具体的 sim-to-real 迁移方法和评估仍是未来的研究重点。
  • 物理模型的复杂性: 虽然引入了物理碰撞体,但可能仍有更复杂的物理现象(如软体动力学、流体模拟、更精细的力学交互)可以集成,以进一步提高真实感和交互能力。
  • 自动标注的探索: 论文强调了手动标注 InteriorGS 的精细性,这可能意味着当前仍难以实现完全自动化的对象级语义和物理属性标注,未来可以探索更高效的自动或半自动标注方法。

7.3. 个人启发与批判

  • 启发:

    1. 场景表示的融合: 本文成功地将 3DGS 的视觉真实感与传统网格的物理准确性结合起来,提出了 3DGS-Mesh 混合表示。这提供了一个重要的思路,即未来的具身智能环境不应拘泥于单一表示,而应根据任务需求融合多种 3D 表示的优势。
    2. 数据质量和多样性的重要性: 实验结果清晰地表明,场景的多样性 (#Scenes) 比单纯的样本数量 (#Samples) 对模型泛化能力影响更大。这对于数据集构建者和模型训练者具有重要指导意义,强调了在资源有限时优先扩展环境多样性。
    3. 导航评估的细致化: 引入 CSRICPPS 等新指标,极大地丰富了对导航行为的评估维度。这提醒我们,在追求任务成功率的同时,也应关注行为的“自然性”和“安全性”,这对于真实世界机器人部署至关重要。
    4. MLLM 在具身智能中的潜力: 尽管 MLLMSAGE-Bench 上的表现尚不如 SOTA VLN 模型,但其固有的多模态理解能力使其具有强大的潜力。未来通过在类似 SAGE-Bench 这样的高质量、高语义数据集上进行微调,MLLM 有望成为更通用、更强大的具身智能体。
  • 批判:

    1. 3DGS 训练收敛慢的问题: 论文指出 3DGS 数据集虽然渲染快,但模型收敛更慢。虽然解释为“更高要求和真实感”,但其内在机制(例如 3DGS 的连续性、高频细节或不同的数据分布特性)值得更深入研究,以开发针对 3DGS 数据的优化训练策略。
    2. 标注的成本与可扩展性: InteriorGS 的“手动标注”和“双重验证”确保了数据质量,但其高昂的人力成本和时间成本是显而易见的。这在构建更大规模、更多样化的数据集时将成为瓶颈。未来工作需要探索更高效、自动化的标注方法,例如利用基础模型 (Foundation Models) 进行预标注或弱监督学习。
    3. 物理交互的复杂度: 目前的物理结合主要侧重于碰撞检测和刚体动力学。但真实世界的具身导航和操作涉及更复杂的物理交互,例如抓取、推拉物体导致的场景动态变化、软体变形等。3DGS-Mesh 混合表示在处理这些更复杂的动态交互时,可能需要进一步的扩展。
    4. 模型在复杂指令上的性能瓶颈: 尽管 SAGE-Bench 引入了高层指令,但模型在“相对关系”和“基于属性”指令上的性能显著下降。这表明当前模型在理解复杂空间关系和利用对象细粒度属性进行推理方面仍存在局限,可能需要更先进的视觉-语言推理架构。

相似论文推荐

基于向量语义检索推荐的相关论文。

暂时没有找到相似论文。