AiPaper
论文状态:已完成

SceneSplat: Gaussian Splatting-based Scene Understanding with Vision-Language Pretraining

发表:2025/03/23
原文链接PDF 下载
价格:0.10
价格:0.10
已有 8 人读过
本分析由 AI 生成,可能不完全准确,请以原文为准。

TL;DR 精炼摘要

SceneSplat首次实现基于3D高斯溅射的室内场景理解,提出自监督预训练方法,从7916个室内场景构建的大规模3DGS数据集SceneSplat-7K中学习丰富语义特征,显著提升了开放类别识别性能。

摘要

Recognizing arbitrary or previously unseen categories is essential for comprehensive real-world 3D scene understanding. Currently, all existing methods rely on 2D or textual modalities during training or together at inference. This highlights the clear absence of a model capable of processing 3D data alone for learning semantics end-to-end, along with the necessary data to train such a model. Meanwhile, 3D Gaussian Splatting (3DGS) has emerged as the de facto standard for 3D scene representation across various vision tasks. However, effectively integrating semantic reasoning into 3DGS in a generalizable manner remains an open challenge. To address these limitations, we introduce SceneSplat, to our knowledge the first large-scale 3D indoor scene understanding approach that operates natively on 3DGS. Furthermore, we propose a self-supervised learning scheme that unlocks rich 3D feature learning from unlabeled scenes. To power the proposed methods, we introduce SceneSplat-7K, the first large-scale 3DGS dataset for indoor scenes, comprising 7916 scenes derived from seven established datasets, such as ScanNet and Matterport3D. Generating SceneSplat-7K required computational resources equivalent to 150 GPU days on an L4 GPU, enabling standardized benchmarking for 3DGS-based reasoning for indoor scenes. Our exhaustive experiments on SceneSplat-7K demonstrate the significant benefit of the proposed method over the established baselines.

思维导图

论文精读

中文精读

1. 论文基本信息 (Bibliographic Information)

  • 标题 (Title): SceneSplat: 基于高斯溅射的视觉语言预训练场景理解 (SceneSplat: Gaussian Splatting-based Scene Understanding with Vision-Language Pretraining)
  • 作者 (Authors): Yue Li, Qi Ma, Runyi Yang, Huapeng Li, Mengjiao Ma, Bin Ren, Nikola Popovic, Nicu Sebe, Ender Konukoglu, Theo Gevers, Luc Van Gool, Martin R. Oswald, Danda Pani Paudel。作者团队来自阿姆斯特丹大学、苏黎世联邦理工学院 (ETH Zurich)、INSAIT, 索非亚大学等多个顶尖研究机构,汇集了计算机视觉领域的知名学者。
  • 发表期刊/会议 (Journal/Conference): 本文是一篇预印本 (Preprint),发布于 arXiv。arXiv 是一个开放获取的学术论文发布平台,通常用于在正式同行评审前分享最新的研究成果。
  • 发表年份 (Publication Year): 2024 (根据 arXiv 提交日期推断,原文链接中显示为 2503.18052,通常 arXiv ID 格式为 YYMM.XXXXX,这里可能是笔误或新的编号格式,但内容表明是近期工作)。
  • 摘要 (Abstract): 论文旨在解决真实世界三维 (3D) 场景理解中的一个核心挑战:识别任意或未见过的类别。现有方法在训练或推理时都依赖于二维 (2D) 图像或文本信息,缺乏一个能直接端到端处理 3D 数据进行语义学习的模型,也缺少相应的数据集。与此同时,3D 高斯溅射 (3DGS) 已成为 3D 场景表示的主流技术,但如何在其上实现可泛化的语义推理仍是难题。为解决这些问题,论文提出了 SceneSplat,这是首个直接在 3DGS 上进行大规模室内场景理解的方法。同时,论文提出了一种自监督学习方案,用于从未标注的场景中学习丰富的 3D 特征。为了支持这些方法,论文还构建并发布了 SceneSplat-7K,这是首个大规模的 3DGS 室内场景数据集,包含从 ScanNet、Matterport3D 等七个知名数据集中生成的 7916 个场景。该数据集的构建耗费了巨大的计算资源。实验证明,SceneSplat 及其预训练方法在多个基准测试上显著优于现有基线。
  • 原文链接 (Source Link):

2. 整体概括 (Executive Summary)

  • 研究背景与动机 (Background & Motivation - Why):

    • 核心问题: 当前的 3D 场景理解模型大多局限于识别一个预先定义好的、封闭的类别集合(例如,只能识别“椅子”、“桌子”、“床”等),无法理解任意自然语言描述的、或从未见过的物体(即缺乏开放词汇能力)。
    • 重要性与挑战 (Gap): 实现开放词汇 (Open-Vocabulary) 能力对于机器人在真实多变环境中的应用至关重要。然而,与 2D 领域拥有海量图文配对数据不同,3D 领域极度缺乏带有丰富文本描述的大规模数据集。因此,现有方法都采取了“曲线救国”的策略:在训练或推理时,借助 2D 图像或文本信息来弥补 3D 数据本身语义的不足。例如,将 3D 点云投影回 2D 图像,利用强大的 2D 视觉语言模型 (如 CLIP) 来监督 3D 特征的学习。这种依赖突显了两个核心空白:
      1. 模型空白: 缺少一个能够直接、原生 (natively) 地从 3D 数据(特别是新兴的 3DGS 表示)中端到端学习语义的模型,而无需在推理时依赖 2D 图像。
      2. 数据空白: 缺少一个专门用于训练和评估这种原生 3DGS 模型的大规模数据集
    • 切入点: 论文的切入点是新兴的 3D Gaussian Splatting (3DGS) 技术。3DGS 不仅能高质量地渲染新视角,其本身(每个高斯球的中心、形状、颜色、不透明度等参数)也蕴含了丰富的几何与外观信息。作者认为,可以直接从这些高斯参数中学习高级语义,从而构建一个真正的原生 3D 理解模型。
  • 核心贡献/主要发现 (Main Contribution/Findings - What):

    1. 提出了一个新数据集 SceneSplat-7K: 这是首个大规模 3DGS 室内场景数据集,包含 7916 个高质量的 3DGS 场景。它通过处理 7 个现有的著名室内场景数据集(如 ScanNet, Matterport3D 等)构建而成,为基于 3DGS 的场景理解研究提供了统一的基准和宝贵的训练资源。
    2. 提出了一个新模型 SceneSplat: 这是首个直接在 3DGS 上进行大规模室内场景理解的模型。它设计了一个 3DGS 编码器,能够在一个前向传播中,直接将场景的高斯参数作为输入,输出每个高斯基元的语义特征,实现了真正的端到端 3D 语义推理,推理速度极快。
    3. 提出了两种预训练方案:
      • 视觉语言预训练 (Vision-Language Pretraining): 通过一种巧妙的标签收集流程,将强大的 2D 视觉语言模型的知识“蒸馏”到 3DGS 场景中,为每个高斯基元赋予了与语言对齐的特征向量。这使得 SceneSplat 模型具备了开放词汇的零样本分割能力。

      • 自监督预训练 (Self-Supervised Pretraining): 提出名为 GaussSSL 的方案,通过掩码高斯建模 (Masked Gaussian Modeling) 和自蒸馏 (Self-Distillation) 等技术,让模型可以从未标注的大量 3DGS 场景中学习有用的 3D 特征,提升了模型在下游任务(如语义分割)上的性能。


3. 预备知识与相关工作 (Prerequisite Knowledge & Related Work)

  • 基础概念 (Foundational Concepts):

    • 3D 高斯溅射 (3D Gaussian Splatting, 3DGS): 这是一种新颖的 3D 场景表示和渲染技术。与传统的点云(离散的点)或网格(表面)不同,3DGS 将场景表示为成千上万个微小的、具有三维高斯分布特性的“球体”或“椭球体”。每个高斯基元都包含一组参数:中心位置 (position)、协方差矩阵(决定形状和朝向,通常分解为缩放 scale 和旋转 rotation)、颜色 (color) 和不透明度 (opacity)。通过将这些高斯“溅射”到 2D 图像平面上进行混合渲染,可以极快地生成高质量的新视角图像。相比于 NeRF,3DGS 实现了实时渲染且训练速度更快。
    • 开放词汇场景理解 (Open-Vocabulary Scene Understanding): 指模型不仅能识别训练时见过的几十或几百个固定类别,还能理解和定位任意由自然语言描述的新类别。例如,模型在训练时只见过“椅子”,但测试时需要它在场景中找到“一把符合人体工学的办公椅”。
    • 视觉语言模型 (Vision-Language Models, VLM): 这类模型通过在海量图文对上进行预训练,学会了将图像内容和文本描述映射到同一个高维特征空间。最著名的例子是 CLIP。在这个空间里,相似的图像和文本(比如一张狗的照片和“一只狗”的文字)的特征向量会非常接近。这使得模型具备了零样本识别能力。SigLIPCLIP 的一个改进版本。
    • 自监督学习 (Self-Supervised Learning, SSL): 这是一种不依赖人工标注标签的学习范式。模型通过解决一些自身构造的“代理任务” (pretext task) 来学习数据的内在表示。常见的代理任务有:
      • 生成式方法 (Generative): 如掩码自编码器 (Masked Autoencoder),随机遮盖输入数据的一部分,然后让模型预测被遮盖的内容。本文的 Masked Gaussian Modeling 就属于此类。
      • 对比式方法 (Contrastive): 将一个数据的不同增强版本视为“正样本”,将其他数据视为“负样本”,让模型学习拉近正样本、推开负样本。本文的 DINOiBOT 思想来源于此。
    • SAM (Segment Anything Model): 一个强大的图像分割基础模型,可以根据点、框或文本等提示,对图像中的任何物体进行精确分割。
  • 前人工作 (Previous Works):

    • 基于 2D-3D 知识蒸馏的开放词汇方法:

      • LERFLangSplat 等方法将 3D 场景与语言查询相结合。它们通常需要将 3D 场景中的点投影回多个 2D 训练图像,提取这些图像上对应像素的 CLIP 特征,然后将这些特征“提升”或“融合”到 3D 表示(如 NeRF 或 3DGS)中。
      • OccamLGS 优化了这个过程,能更快地将 2D 特征提升到 3DGS 中。
      • 局限性: 这些方法都严重依赖 2D 图像或 2D 基础模型,无论是在训练阶段(需要反复投影和提取特征),还是在推理阶段(有些方法仍需 2D 输入),这使得它们流程复杂、耗时,且不是一个纯粹的 3D 模型。
    • 3D 表示学习:

      • 早期的 PointNetPoint Transformer 等模型直接处理点云,但大规模带标注的 3D 数据稀缺,限制了它们的泛化能力。
      • 自监督学习被引入 3D 领域,例如针对点云的掩码自编码器,但很少有工作是专门为 3DGS 这种表示设计的。ShapeSplat 提出了针对单个物体的 3DGS 自监督学习,但没有扩展到大规模场景级别。
  • 技术演进 (Technological Evolution):

    1. 3D 场景表示: 从点云/体素 (Voxel) -> 神经辐射场 (NeRF) -> 3D 高斯溅射 (3DGS),表示能力和渲染效率不断提升。
    2. 3D 场景理解: 从封闭集语义分割 (Closed-set Semantic Segmentation) -> 开放词汇语义分割 (Open-Vocabulary Semantic Segmentation),模型的泛化能力和实用性不断增强。
    3. 学习范式: 从完全监督学习 -> 借助 2D 模型的知识蒸馏 -> 本文提出的原生 3D 端到端学习 + 自监督学习。
  • 差异化分析 (Differentiation): SceneSplat 与所有先前工作的核心区别在于其原生性 (nativity)效率

    • 原生性: 它是一个直接以 3DGS 参数为输入的 3D 模型。一旦训练完成,它在推理时不再需要任何 2D 图像或 2D 模型,只需一次前向传播即可为整个 3DGS 场景中的所有高斯基元生成语义特征。

    • 效率: 由于摆脱了耗时的 2D-3D 特征提取和融合过程,其推理速度比现有最快的方法(如 Occam's LGS)快了 445 倍

    • 数据贡献: 提出了首个大规模 3DGS 场景数据集 SceneSplat-7K,填补了该领域的空白。


4. 方法论 (Methodology - Core Technology & Implementation Details)

SceneSplat 的方法论主要围绕两个核心部分展开:视觉语言预训练以实现开放词汇能力,和自监督预训练以利用无标签数据增强模型表示能力。这两个部分都依赖于新构建的 SceneSplat-7K 数据集。

Figure E. Comparison of Scene Query Results Using Our Predictions and GT Language Labels on ScanNet \(^ { + + }\) 上图 (原文图 2) 展示了 SceneSplat 模型的整体框架。左侧是视觉语言预训练,右侧是自监督预训练 (GaussSSL)。

  • 方法原理 (Methodology Principles):

    • 核心思想: 3DGS 的参数(中心、颜色、形状、不透明度)本身就编码了场景的局部几何和外观信息。一个足够强大的神经网络(如 Transformer)应该能够直接从这些低级参数中学习并推断出高级的语义概念。
    • 实现路径:
      1. “造标签”: 既然没有现成的 3DGS-文本对,就利用强大的 2D 视觉语言模型(SAMv2 + SigLIP2)为 3DGS 场景中的每个高斯基元生成“伪”语言特征标签。
      2. “学标签”: 训练一个 3DGS 编码器 (SceneSplat 模型) 来学习从高斯参数到这些伪标签的映射。
      3. “自学习”: 在更广阔的无标签 3DGS 数据上,通过自监督任务(如掩码重建)进一步提升模型的特征提取能力。
  • 方法步骤与流程 (Steps & Procedures):

    A. 数据集构建: SceneSplat-7K (Section 3)

    1. 数据源: 整合了 7 个知名的室内场景数据集,包括 ScanNet, Matterport3D, Hypersim 等。
    2. 数据处理: 对原始的视频帧进行筛选(如去除模糊帧),使用 gsplat 工具对每个场景进行 3DGS 优化。在优化过程中,利用深度信息、不透明度和尺度正则化来保证几何质量。
    3. 质量控制: 优化后,根据 PSNR 等指标筛选出高质量的 3DGS 场景,最终得到 7916 个场景,共计 112.7 亿个高斯基元。

    B. 视觉语言 3DGS 预训练 (Section 4.1 & 4.2)

    1. 3DGS 语言标签收集 (3DGS Language Label Collection): 这是为监督训练准备数据的关键步骤,如算法 1 所示。

      • Step 1: 生成 2D 特征图。 对每个场景的训练视角图像 IjI_j
        • SAMv2 对图像进行物体级分割,得到掩码 MsegM_{seg}
        • 对每个分割出的物体 ss,使用 SigLIP2 提取三种特征:整张图的全局特征 fgf_g、带背景的物体局部特征 flf_l、不带背景的纯物体特征 fmf_m
        • 通过一个动态加权机制 (Dynamic Weighting) 将这三种特征融合成一个更鲁棒的物体特征 fsf_s,并填充到 2D 特征图 FjF_j 中。
      • Step 2: 将 2D 特征提升到 3D。 使用 Occam's LGS 的高效方法,将所有视角的 2D 特征图 {Fj}\{F_j\} 聚合,为场景中的每个 3D 高斯基元 GiG_i 分配一个最终的语言特征 FiF_i
      • 最终产出大量的 (高斯基元, 语言特征) 配对数据 {(Gi,Fi)}i=1N\{(G_i, F_i)\}_{i=1}^N
    2. 模型训练 (Training):

      • SceneSplat 模型 gθg_\theta 的输入是场景的所有高斯基元参数 {Gi}i=1N\{G_i\}_{i=1}^N,输出是预测的语言特征 F^\hat{F}
      • 使用一个包含三种损失函数的加权和进行监督:
        • 余弦相似度损失 (Lcos\mathcal{L}_{\mathrm{cos}}): 最小化预测特征和伪标签特征之间的角度差异,关注方向。
        • L2 损失 (L2\mathcal{L}_{2}): 最小化预测特征和伪标签特征在欧氏空间中的距离,关注数值。
        • 聚合对比损失 (Lcontrast\mathcal{L}_{\mathrm{contrast}}): 为了让模型更好地区分不同类别的物体,该损失在类别层面上进行对比。它将同一类的所有高斯基元的特征进行平均池化,然后通过对比学习拉近同类特征、推开不同类特征。

    C. 自监督预训练 GaussSSL (Section 4.3) 该方案在没有语言标签的 3DGS 场景上进行,包含多个协同工作的目标:

    1. 掩码高斯建模 (Masked Gaussian Modeling, MGM):
      • 随机“遮盖” (mask) 一部分高斯基元的特征。
      • 让模型根据周围可见的高斯基元,预测并“重建”被遮盖的高斯基元的完整参数(中心、颜色、形状等)。
      • 通过重建损失 LMGM\mathcal{L}_{\mathrm{MGM}} 学习场景的内在结构和外观规律。
    2. 自蒸馏表示学习 (Self-Distillation):
      • 采用类似 DINO 的学生-教师 (student-teacher) 架构。教师网络的权重是学生网络权重的指数移动平均 (EMA),因此更稳定。
      • 将一个场景的两个不同增强(或裁剪)版本分别输入学生和教师网络,要求它们的输出特征尽可能一致。这通过 LDINO\mathcal{L}_{\mathrm{DINO}} 损失实现,它包含一个相似度损失 Lsim\mathcal{L}_{\mathrm{sim}} 和一个防止模式坍塌的编码率项 Lcr\mathcal{L}_{\mathrm{cr}}
      • 还引入了类似 iBOT 的思想,让学生网络预测被掩码区域的特征,并与教师网络的对应输出对齐。
    3. 语言-高斯对齐 (Language-Gaussian Alignment, LA): (可选)
      • 对于有语言标签的场景,可以利用这些信息。但原始语言特征维度太高,计算开销大。
      • 因此,先用一个自编码器 (Autoencoder) 将高维语言特征压缩成低维表示。
      • 然后,在自监督学习中增加一个任务:预测被掩码高斯基元对应的低维语言特征。
  • 数学公式与关键细节 (Mathematical Formulas & Key Details):

    • 视觉语言预训练损失函数:
      • 余弦相似度损失 (Lcos\mathcal{L}_{\mathrm{cos}}): Lcos=1ViV(1F^iFiF^iFi) \mathcal { L } _ { \mathrm { c o s } } = \frac { 1 } { | \mathcal { V } | } \sum _ { i \in \mathcal { V } } \left( 1 - \frac { \hat { F } _ { i } \cdot F _ { i } } { \left| \left| \hat { F } _ { i } \right| \right| \cdot \left| \left| F _ { i } \right| \right| } \right)

        • 符号解释:
          • V\mathcal{V}: 拥有语言特征标签的高斯基元的集合。
          • F^i\hat{F}_i: 模型为第 ii 个高斯基元预测的特征向量。
          • FiF_i: 第 ii 个高斯基元的“真值”语言特征向量(从 2D 提升而来)。
          • 公式的目标是最大化预测特征与真值特征的余弦相似度,即使它们的夹角趋近于 0。
      • L2 损失 (L2\mathcal{L}_{2}): L2=1ViVF^iFi2 \mathcal { L } _ { 2 } = \frac { 1 } { | \mathcal { V } | } \sum _ { i \in \mathcal { V } } | | \hat { F } _ { i } - F _ { i } | | ^ { 2 }

        • 符号解释: 符号同上。该公式计算预测特征与真值特征之间的均方误差,旨在使它们在数值上尽可能接近。
      • 聚合对比损失 (Lcontrast\mathcal{L}_{\mathrm{contrast}}): Lcontrast=12CX{A,B}iClogexp(Zi,iX)jCexp(Zi,jX) { \mathcal { L } } _ { \mathrm { c o n t r a s t } } = { \frac { 1 } { 2 | C | } } \sum _ { X \in \{ A , B \} } \sum _ { i \in C } - \log { \frac { \exp ( Z _ { i , i } ^ { X } ) } { \sum _ { j \in C } \exp ( Z _ { i , j } ^ { X } ) } }

        • 符号解释:
          • CC: 场景中包含足够多高斯基元的语义类别集合。

          • ZA=FˉA(FˉB)/τZ^A = \bar{F}^A (\bar{F}^B)^\top / \tauZB=FˉB(FˉA)/τZ^B = \bar{F}^B (\bar{F}^A)^\top / \tau 是相似度矩阵。FˉA\bar{F}^AFˉB\bar{F}^B 是通过对每个类别的预测特征进行池化得到的类别级特征矩阵。

          • Zi,iXZ_{i,i}^X: 矩阵的对角线元素,代表同类(正样本)之间的相似度。

          • Zi,jXZ_{i,j}^X: 非对角线元素,代表不同类(负样本)之间的相似度。

          • τ\tau: 一个可学习的温度参数,控制概率分布的平滑度。

          • 该公式本质是一个多分类的交叉熵损失,其目标是让正样本对的相似度远高于负样本对的相似度。


5. 实验设置 (Experimental Setup)

  • 数据集 (Datasets):

    • 预训练数据集: SceneSplat-7K,包含 7916 个从 ScanNetScanNet++ScanNet++ReplicaHypersim3RScanARKitScenesMatterport3D 转换而来的 3DGS 场景。这是本文方法得以实现的基础。
    • 下游任务评估数据集:
      • 零样本 3D 语义分割: ScanNet200 (200 个类别), Matterport3D (160 个类别), ScanNet++ScanNet++ (100 个类别)。这些数据集类别丰富,非常适合评估开放词汇能力。
      • 有监督 3D 语义分割: ScanNet20 (20 个类别), ScanNet200, ScanNet++ScanNet++。用于评估自监督预训练对标准分割任务的提升效果。
  • 评估指标 (Evaluation Metrics):

    • mIoU (mean Intersection over Union):
      1. 概念定义: mIoU 是语义分割任务中最常用的评估指标。它衡量的是模型预测的分割区域与真实标注区域的重合程度。具体来说,它会计算每个类别的 IoU,然后取所有类别的平均值。IoU 的值域为 [0, 1],越高表示分割效果越好。
      2. 数学公式: IoUclass=TPTP+FP+FN \mathrm{IoU}_{\text{class}} = \frac{\text{TP}}{\text{TP} + \text{FP} + \text{FN}} mIoU=1Nci=1NcIoUi \mathrm{mIoU} = \frac{1}{N_c} \sum_{i=1}^{N_c} \mathrm{IoU}_i
      3. 符号解释:
        • TP (True Positive): 真正例,正确预测为该类的点数。
        • FP (False Positive): 假正例,错误预测为该类的点数。
        • FN (False Negative): 假负例,本属于该类但被预测为其他类的点数。
        • NcN_c: 总类别数。
        • IoUi\mathrm{IoU}_i: 第 ii 个类别的 IoU。
    • f-mIoU (foreground-mean Intersection over Union):
      1. 概念定义: f-mIoUmIoU 的一种变体,它在计算平均值时只考虑前景类别,排除了背景类别(如“墙壁”、“地板”)。这在前景物体多样且重要,而背景类别占据大量像素且容易识别的场景中,更能反映模型对有意义物体的分割能力。
      2. 数学公式: fmIoU=1NfgiForeground ClassesIoUi \mathrm{f-mIoU} = \frac{1}{N_{fg}} \sum_{i \in \text{Foreground Classes}} \mathrm{IoU}_i
      3. 符号解释:
        • NfgN_{fg}: 前景类别的总数。
    • mAcc (mean Accuracy):
      1. 概念定义: mAcc,也称为类别平均精度,衡量的是模型对每个类别分类的正确率的平均值。它计算每个类别内被正确分类的点的比例,然后对所有类别求平均。相比于像素总精度,mAcc 对小物体类别更公平。
      2. 数学公式: Accclass=TPTP+FN \mathrm{Acc}_{\text{class}} = \frac{\text{TP}}{\text{TP} + \text{FN}} mAcc=1Nci=1NcAcci \mathrm{mAcc} = \frac{1}{N_c} \sum_{i=1}^{N_c} \mathrm{Acc}_i
      3. 符号解释: 符号同 mIoU
    • PSNR (Peak Signal-to-Noise Ratio):
      1. 概念定义: PSNR 是衡量图像或视频重建质量的常用指标,单位是分贝 (dB)。它通过计算原始图像与重建图像之间的均方误差 (MSE) 来衡量失真程度。PSNR 值越高,表示重建图像与原始图像越接近,质量越好。
      2. 数学公式: PSNR=20log10(MAXIMSE) \mathrm{PSNR} = 20 \cdot \log_{10} \left( \frac{\mathrm{MAX}_I}{\sqrt{\mathrm{MSE}}} \right)
      3. 符号解释:
        • MAXI\mathrm{MAX}_I: 图像像素值的最大可能值(例如,8位图像为 255)。
        • MSE: 原始图像与重建图像之间的均方误差。
    • SSIM (Structural Similarity Index Measure):
      1. 概念定义: SSIM 是一种衡量两张图像相似度的指标,它比 PSNR 更符合人眼主观感受。SSIM 从亮度、对比度和结构三个方面评估图像的相似性。其值域为 [0, 1],越接近 1 表示两张图像越相似。
      2. 数学公式: (简化形式) SSIM(x,y)=(2μxμy+c1)(2σxy+c2)(μx2+μy2+c1)(σx2+σy2+c2) \mathrm{SSIM}(x, y) = \frac{(2\mu_x\mu_y + c_1)(2\sigma_{xy} + c_2)}{(\mu_x^2 + \mu_y^2 + c_1)(\sigma_x^2 + \sigma_y^2 + c_2)}
      3. 符号解释:
        • μx,μy\mu_x, \mu_y: 图像 x, y 的平均值。
        • σx,σy\sigma_x, \sigma_y: 图像 x, y 的标准差。
        • σxy\sigma_{xy}: 图像 x, y 的协方差。
        • c1,c2c_1, c_2: 避免分母为零的稳定常数。
    • LPIPS (Learned Perceptual Image Patch Similarity):
      1. 概念定义: LPIPS 是一种基于深度学习的图像相似度度量。它通过计算两张图像在预训练的深度网络(如 VGG)中提取的特征图之间的距离来衡量它们的感知相似性。LPIPS 被认为比 PSNRSSIM 更能捕捉人类感知的图像差异。LPIPS 值越低,表示两张图像在感知上越相似。
  • 对比基线 (Baselines):

    • 零样本分割任务: OpenScene, PLA, RegionPLC, OV3D, Mosaic3D。这些都是当前领域内有代表性的开放词汇 3D 理解方法。特别是 Mosaic3D 是一个非常强的同期工作。

    • 有监督分割任务: Point Transformer (PTv1, v2, v3)。这是点云分割领域非常经典且性能优异的模型,作为基线很有说服力。


6. 实验结果与分析 (Results & Analysis)

  • 核心结果分析 (Core Results Analysis):

    • 零样本 3D 语义分割 (Table 2): (以下为原文 Table 2 的转录)

      Method Training Source #Training Scenes ScanNet200 (200) Matterport3D (160) ScanNet++ (100)
      f-mIoU f-mAcc f-mIoU f-mAcc f-mIoU f-mAcc
      OpenScene† [33] SN ×1 6.4 12.2 5.7 10.7 8.8 14.7
      PLA [8] SN 1.8 3.1
      RegionPLC [54] SN 9.2 16.4 6.2 13.3 11.3 20.1
      OV3D [15] SN 8.7
      Mosaic3D [21] SN 13.0 24.5 8.6 17.8 16.2 27.1
      SceneSplat (Ours) SN 18.9 31.7 10.8 18.7 14.7 24.7
      Mosaic3D [21] SN, SN++, ARKitS, MP3D, S3D ×24.3 15.7 28.3 13.1 27.7 18.0 29.0
      SceneSplat (Ours) SN++ ×0.75 11.8 19.2 10.6 18.6 26.8 45.3
      SceneSplat (Ours) SN, SN++, MP3D ×2.92 21.4 38.7 13.8 31.8 28.4 50.0
      • 分析: SceneSplat 表现出色。当仅使用 ScanNet (SN) 数据集训练时,SceneSplatScanNet200 上的 f-mIoU 达到 18.9%,比同期最强工作 Mosaic3D13.0% 高出近 6个百分点,取得了 SOTA (State-of-the-Art) 结果。当使用更多数据集进行训练时(最后一行),SceneSplat 的性能进一步提升,在所有三个基准上都远超 Mosaic3D 的多数据集版本,而且使用的训练场景数量(×2.92)远少于 Mosaic3D(×24.3)。这强有力地证明了 SceneSplat 方法的有效性和效率。

        Figure F. Example Incomplete Scenes in ARKitScenes. 该图像是室内场景的不完整三维重建示意图,展示了ARKitScenes中部分缺失信息的3D视觉效果,体现了场景中的空间结构和部分细节。

      • 定性结果 (图 3): 上图展示了 SceneSplat 不仅分割准确,甚至能“纠错”,正确识别出真实标注 (Ground Truth) 中遗漏的物体(如第一行的桌子),显示了其强大的泛化能力。

        Figure G. Blurry Scenes from 3RScan. 该图像是4张模糊室内场景的照片拼接,展示了3RScan数据集中不同视角下的模糊效果。图像细节较难辨认,体现了模糊对视觉识别的挑战。

      • 文本查询 (图 4): 上图证明了模型学到的特征确实与语言对齐,能够根据文本查询(如 "Robot Arm", "Keyboard")在 3D 场景中精确定位到对应的物体。

    • 自监督预训练 (GaussianSSL) (Table 3 & 4): (以下为原文 Table 4 的转录)

      Method ScanNet20 mIoU mAcc ScanNet200 mIoU mAcc ScanNet++ mIoU mAcc
      PTv3 [51] 76.4 83.5 35.0 44.2 42.6 53.0
      SceneSplat (Ours) 77.2 84.6 35.9 46.1 42.4 53.5
      • 分析: Table 3 的消融实验显示,在不进行预训练 (No-Pre) 的基础上,加入自监督模块 (MGM, +DINO+DINO, +iBOT+iBOT) 能够稳定提升模型在 ScanNet20ScanNet200 上的性能。Table 4 显示,SceneSplat 的最佳自监督预训练模型在标准有监督分割任务上,性能超越了强大的基线 Point Transformer v3,证明了在大规模无标签 3DGS 数据上进行预训练的价值。
  • 消融实验/参数分析 (Ablation Studies / Parameter Analysis):

    • 模型预测 vs. 伪标签 (Table 5): 一个非常有趣的发现是,在 ScanNet++ScanNet++ 数据集上,SceneSplat 模型自己的预测结果(f-mIoU 26.8%)甚至优于用来监督它的伪标签(f-mIoU 22.6%)。这表明模型在大规模数据上进行训练时,有能力“去粗取精”,过滤掉伪标签中的噪声,并学习到更泛化、更准确的语义模式。

    • 输入 3DGS 质量的影响 (图 5):

      该图像是包含六组室内场景的立体视觉图像配对,图中编号分别为(a)至(f),用于展示3D高斯点投影在不同室内环境中的视觉效果,体现了室内3D场景理解的多样性和复杂性。 该图像是包含六组室内场景的立体视觉图像配对,图中编号分别为(a)至(f),用于展示3D高斯点投影在不同室内环境中的视觉效果,体现了室内3D场景理解的多样性和复杂性。

      • 分析: 结果显示,用于训练的 3DGS 场景的重建质量 (PSNR) 与下游零样本分割的性能 (mIoU) 存在明显的正相关PSNR 越高,mIoU 也越高。这强调了 SceneSplat-7K 数据集进行质量控制的重要性,也说明了 “Garbage in, garbage out” 的道理。
    • 3DGS vs. 点云 (Table 6): 实验证明,使用完整的 3DGS 参数(中心、颜色、形状等)作为输入,效果显著优于仅使用点云属性(颜色、法线)。这说明 3DGS 丰富的参数(特别是代表形状和不透明度的参数)为学习语义提供了更多有价值的信息。

    • 对比损失的作用 (Table 7): 实验表明,在训练后期再引入对比损失 (last 75% epochs) 的效果最好。这可能是因为训练初期模型需要先学习基本的特征表示,后期再用对比损失来精细化类别间的区分度,是一种有效的“热启动” (warm-up) 策略。

    • 推理时间 (Table 8): SceneSplat 的推理速度极快,处理一个场景仅需 0.24 分钟,而当前最快的基线 Occam's LGS 需要 107 分钟,速度提升了 445.8 倍。这是 SceneSplat 作为原生 3D 模型最显著的优势之一,极具实际应用价值。


7. 总结与思考 (Conclusion & Personal Thoughts)

  • 结论总结 (Conclusion Summary): 本文成功地解决了原生 3D 开放词汇场景理解领域的两大核心瓶颈:模型和数据。

    1. 贡献了 SceneSplat-7K 数据集,为基于 3DGS 的研究奠定了基础。
    2. 提出了 SceneSplat 模型,实现了首个直接在 3DGS 上进行端到端、高效的开放词汇理解。
    3. 设计了有效的视觉语言预训练和自监督预训练方案,使得模型在零样本和有监督分割任务上均达到 SOTA 水平。 这项工作为未来 3D 场景理解的研究开辟了一个全新的、更有前景的方向:直接在先进的 3D 表示上构建基础模型。
  • 局限性与未来工作 (Limitations & Future Work):

    • 对 3DGS 质量的依赖: 如实验所示,模型的性能与输入 3DGS 场景的质量高度相关。对于低质量或不完整的 3DGS 重建,模型性能会下降。
    • 伪标签的噪声问题: 尽管模型表现出一定的噪声过滤能力,但语言标签的质量上限仍然受制于 2D 视觉语言模型 (SAMv2 + SigLIP2) 的性能和 2D-3D 提升算法的准确性。如论文附录图 B 所示,2D 特征图收集过程中可能存在不一致和错误。
    • 计算资源消耗: 构建 SceneSplat-7K 数据集和预训练 SceneSplat 模型都需要巨大的计算资源,这可能成为后续研究的一个门槛。
  • 个人启发与批判 (Personal Insights & Critique):

    • 启发:
      1. 范式转变的价值: 这篇论文最大的启发在于其敢于挑战现有范式。它没有停留在“如何更好地将 2D 特征搬到 3D”的框架里,而是提出了一个更根本的问题:“我们能否直接从 3D 表示本身学习语义?”这种思路的转变为 3D 视觉领域带来了真正的突破。
      2. 数据驱动的重要性: SceneSplat-7K 的构建工作虽然耗时耗力,但却是整个研究能够成功的基石。它再次印证了在深度学习时代,高质量、大规模的数据集是推动领域发展的核心驱动力。
      3. 方法论的巧妙结合: 论文巧妙地结合了多种现有技术:利用 2D VLM 进行知识蒸馏“造标签”,利用 Transformer 架构的强大表示能力,以及利用自监督学习范式从未标注数据中获益。这种“集大成”式的创新非常值得学习。
    • 批判与思考:
      1. “原生”的纯粹性: 尽管 SceneSplat推理时是纯 3D 的,但其训练过程仍然依赖于 2D 视觉语言模型来生成监督信号。从更长远的角度看,一个终极的 3D 基础模型或许应该能从 3D 数据和自然语言的直接配对中学习,完全摆脱对 2D 模型的依赖。当然,这需要解决更大规模的 3D-文本配对数据的获取问题。
      2. 可解释性问题: Transformer 作为一个“黑盒”模型,直接从 59 维的高斯参数中学习语义,其内部决策过程是难以解释的。模型究竟是关注了颜色、形状、还是与其他高斯基元的空间关系?对模型决策的深入理解将是未来一个有价值的研究方向。
      3. 动态场景的挑战: SceneSplat 目前处理的是静态室内场景。如何将其扩展到动态场景,处理移动的物体和变化的场景结构,将是一个重要且更具挑战性的未来工作。

相似论文推荐

基于向量语义检索推荐的相关论文。

暂时没有找到相似论文。