论文状态：已完成

Look at the Sky: Sky-aware Efficient 3D Gaussian Splatting in the Wild

发表：2025/03/07

天空感知的3D高斯Splatting (1)无约束环境中的场景重建 (1)实时3D重建框架 (1)神经辐射场渲染 (1)伪标签生成与使用 (1)

价格：0.100000

已有 5 人读过

本分析由 AI 生成，可能不完全准确，请以原文为准。

TL;DR 精炼摘要

本文提出了一种天空感知的3D高斯泼溅框架，用于从不受约束的照片集中进行高效的场景重建。通过引入贪婪监督策略和利用预训练的语义分割网络生成伪掩膜，消除了对每张图像瞬态掩膜预测器的依赖。同时，分别估计天空和建筑物的外观嵌入，结合互蒸馏学习策略，显著提升了重建的效率和渲染质量。实验结果表明，该框架在新视图和新外观合成方面表现优越。

摘要

Photos taken in unconstrained tourist environments often present challenges for accurate 3D scene reconstruction due to variable appearances and transient occlusions, which can introduce artifacts in novel view synthesis. Recently, in-the-wild 3D scene reconstruction has been achieved realistic rendering with Neural Radiance Fields (NeRFs). With the advancement of 3D Gaussian Splatting (3DGS), some methods also attempt to reconstruct 3D scenes from unconstrained photo collections and achieve real-time rendering. However, the rapid convergence of 3DGS is misaligned with the slower convergence of neural network-based appearance encoder and transient mask predictor, hindering the reconstruction efficiency. To address this, we propose a novel sky-aware framework for scene reconstruction from unconstrained photo collection using 3DGS. Firstly, we observe that the learnable per-image transient mask predictor in previous work is unnecessary. By introducing a simple yet efficient greedy supervision strategy, we directly utilize the pseudo mask generated by a pre-trained semantic segmentation network as the transient mask, thereby achieving more efficient and higher quality in-the-wild 3D scene reconstruction. Secondly, we find that separately estimating appearance embeddings for the sky and building significantly improves reconstruction efficiency and accuracy. We analyze the underlying reasons and introduce a neural sky module to generate diverse skies from latent sky embeddings extract from unconstrained images. Finally, we propose a mutual distillation learning strategy to constrain sky and building appearance embeddings within the same latent space, further enhancing reconstruction efficiency and quality. Extensive experiments on multiple datasets demonstrate that the proposed framework outperforms existing methods in novel view and appearance synthesis, offering superior rendering quality with faster convergence and rendering speed.

思维导图

论文精读

中文精读约 30 分钟读完 · 18,529 字

1. 论文基本信息

1.1. 标题

Look at the Sky: Sky-aware Efficient 3D Gaussian Splatting in the Wild (仰望天空：野外场景中天空感知的效率三维高斯泼溅)

1.2. 作者

Yuze Wang, Junyi Wang $\textcircled{1}$ , Ruicheng Gao $\textcircled{1}$ , Yansong Qu $\textcircled{1}$ , Wantong Duan, Shuo Yang, Yue Qi $\textcircled{1}$ rendering speed.

1.3. 发表期刊/会议

预印本（arXiv）

1.4. 发表年份

2025年3月7日 (UTC)

1.5. 摘要

在不受约束的旅游环境中拍摄的照片，由于外观多变和瞬态遮挡 (transient occlusions)，常常给精确的三维场景重建带来挑战，可能在新视图合成 (novel view synthesis) 中引入伪影 (artifacts)。最近，野外三维场景重建 (in-the-wild 3D scene reconstruction) 已经通过神经辐射场 (Neural Radiance Fields, NeRFs) 实现了逼真的渲染。随着三维高斯泼溅 (3D Gaussian Splatting, 3DGS) 的发展，一些方法也尝试从不受约束的照片集合中重建三维场景并实现实时渲染。然而，3DGS 的快速收敛 (rapid convergence) 与基于神经网络的外观编码器 (appearance encoder) 和瞬态掩膜预测器 (transient mask predictor) 的较慢收敛速度不匹配，从而阻碍了重建效率。

为了解决这个问题，本文提出了一种新颖的天空感知 (sky-aware)框架，用于使用 3DGS 从不受约束的照片集合中进行场景重建。首先，本文观察到以往工作中可学习的每图像瞬态掩膜预测器是不必要的。通过引入一个简单而有效的贪婪监督策略 (greedy supervision strategy)，本文直接利用预训练的语义分割网络 (semantic segmentation network) 生成的伪掩膜 (pseudo mask)作为瞬态掩膜，从而实现了更高效、更高质量的野外三维场景重建。其次，本文发现分别估计天空和建筑物的外观嵌入 (appearance embeddings)显著提高了重建效率和精度。本文分析了其深层原因，并引入了一个神经天空模块 (neural sky module)，从不受约束图像中提取的潜在天空嵌入 (latent sky embeddings)生成多样化的天空。最后，本文提出了一种互蒸馏学习策略 (mutual distillation learning strategy)，以在相同的潜在空间 (latent space) 中约束天空和建筑物的外观嵌入，进一步提高了重建效率和质量。在多个数据集上的大量实验表明，所提出的框架在新视图合成和新外观合成 (novel appearance synthesis)方面优于现有方法，以更快的收敛速度和渲染速度提供了卓越的渲染质量。

1.6. 原文链接

/files/papers/6919d53c110b75dcc59ae2a4/paper.pdf

2. 整体概括

2.1. 研究背景与动机

核心问题： 从不受约束的（in-the-wild）照片集合中重建三维场景，并实现高质量的新视图合成和新外观合成，是一个长期存在的挑战。这些照片通常在非受控环境下拍摄，包含以下复杂因素：

外观变化 (Variable Appearances): 不同的光照条件、天气、拍摄设备和后期处理效果，导致同一场景在不同照片中呈现出多样的外观。
瞬态遮挡 (Transient Occlusions): 照片中经常出现移动的物体，如行人、车辆，这些物体在三维场景中并非固定存在，被称为瞬态遮挡物 (transient occluders)。如果不对其进行有效处理，它们会在重建模型中引入伪影。

重要性： 高质量的野外三维场景重建在虚拟现实 (Virtual Reality)、增强现实 (Augmented Reality)、城市规划、数字孪生以及文化遗产数字化等领域具有重要应用价值。

现有研究的挑战或空白：

NeRFs的局限性： 尽管神经辐射场 (NeRFs)在新视图合成方面取得了显著进展，但其训练和渲染通常较为缓慢。NeRF-W等扩展方法通过学习每图像的外观嵌入和瞬态掩膜来处理野外场景，但这增加了模型的复杂性。
3DGS的收敛速度不匹配： 三维高斯泼溅 (3DGS)技术通过显式表示场景，极大地加速了新视图合成的训练和渲染过程。然而，当将其应用于野外场景时，通常需要结合神经网络来预测外观嵌入和瞬态掩膜。这些神经网络的训练收敛速度往往比 3DGS 本身慢得多，导致整体重建效率下降，形成训练瓶颈 (training bottleneck)。现有方法试图解决此问题，但仍未彻底解决效率与质量的兼顾。

本文的切入点/创新思路： 本文旨在通过天空感知的方法，优化3DGS在野外场景中的重建效率和质量，特别是解决3DGS与神经网络外观/瞬态预测器之间收敛速度不匹配的问题。核心思路是简化瞬态掩膜的获取过程，并针对天空和建筑物这两种在户外场景中具有显著不同特征的区域，采用差异化的处理策略。

2.2. 核心贡献/主要发现

本文通过其天空感知框架，在野外三维场景重建中实现了显著的效率和质量提升，主要贡献如下：

高效的瞬态掩膜预测： 提出了一种创新的瞬态掩膜预测方法。通过引入一个简单但有效的贪婪监督策略，直接利用预训练的大视觉模型 (Large Vision Models, LVMs)（如 LSeg）生成的伪语义掩膜 (pseudo semantic masks)来识别瞬态遮挡物。这种方法避免了传统方法中对每图像瞬态掩膜预测器进行昂贵训练或微调的需要，显著提高了训练效率，并解决了三维辐射场与二维瞬态掩膜之间的模糊性。
天空感知框架与分离式外观学习： 观察到天空和建筑物的辐射 (radiance)特性差异巨大（天空变化平缓，建筑物变化复杂），提出将天空和建筑物的外观嵌入分开学习。这使得模型能够更有效地捕捉两者的不同变化模式，从而提升重建效率和精度。
新颖的神经天空表示： 引入了一个神经天空模块，能够从输入的不受约束图像中提取潜在天空嵌入，并生成显式天空立方体贴图 (sky cubemaps)。这个模块能够生成多样化且逼真的天空，解决了传统方法中天空建模不足的问题。
互蒸馏学习策略： 提出了一种互蒸馏学习策略，用于约束天空和建筑物的外观嵌入在同一潜在空间中。这一策略允许天空和建筑编码器相互学习、相互指导，特别是在某些图像缺少天空信息时，能够通过建筑外观推断出合理的天空外观，进一步提高了重建效率和质量。
卓越的性能： 在 Photo Tourism (PT) 和 NeRF-OSR 等多个挑战性数据集上，实验结果表明所提出的框架在新视图合成和新外观合成方面均超越了现有最先进 (state-of-the-art, SOTA)的方法，实现了更高的渲染质量、更快的收敛速度和渲染速度。

2.3. 关键结论

每图像瞬态掩膜预测器并非必需： 在 3DGS 的野外场景重建中，通过利用预训练的语义分割网络生成的伪掩膜和贪婪监督策略，可以有效且高效地处理瞬态遮挡，无需额外训练或微调复杂的预测器。
天空和建筑物的差异化处理至关重要： 针对天空和建筑物各自的辐射特性，分别进行外观嵌入学习能够显著提高重建的效率和准确性。
神经天空模块提升天空多样性和真实感： 引入神经天空模块能够从潜在天空嵌入生成多样化的天空立方体贴图，有效解决了野外场景中天空建模的挑战。
互蒸馏学习增强模型鲁棒性： 互蒸馏学习策略通过在同一潜在空间中对天空和建筑物的外观嵌入进行对齐，不仅提升了重建质量和效率，还使得模型在部分天空信息缺失时仍能进行合理推断。

3. 预备知识与相关工作

3.1. 基础概念

3.1.1. 神经辐射场 (Neural Radiance Fields, NeRF)

NeRF 是一种基于神经网络的三维场景表示 (3D scene representation)方法，它将三维空间中的每个点映射到一个颜色和一个体密度值。具体来说，NeRF 使用一个多层感知机 (Multilayer Perceptron, MLP)作为坐标基神经网络 (coordinate-based neural network)，输入三维空间坐标 (x, y, z) 和观测方向 $(\theta, \phi)$ ，输出该点的颜色 (radiance)（RGB值）和体密度 (volume density) $\sigma$ 。通过体渲染 (volume rendering)技术，可以从任意视角合成逼真的新视图。NeRF 能够捕捉复杂的几何细节和视图相关外观 (view-dependent appearance)。

3.1.2. 三维高斯泼溅 (3D Gaussian Splatting, 3DGS)

3DGS 是一种显式的三维场景表示方法，它使用数百万个三维各向异性高斯 (3D anisotropic Gaussians)来表示场景。每个三维高斯由其三维中心位置 $\mu$ 、协方差矩阵 (covariance matrix) $\Sigma$ （定义其形状和方向）、不透明度 (opacity) $\alpha$ 和颜色 (color)（通常通过球谐函数 (Spherical Harmonics, SH)表示）来描述。相较于NeRF的隐式表示，3DGS能够显著加快训练和渲染速度，同时保持甚至超越NeRF的渲染质量。其核心思想是将这些三维高斯投影到二维图像平面，并通过α混合 (α-blending)来渲染图像。

3.1.3. 不受约束的照片集合 (Unconstrained Photo Collections)

指从互联网或用户随手拍摄的照片中收集到的图像，这些图像通常缺乏统一的拍摄条件。它们可能具有：

多变视角 (Varying Viewpoints): 不同的相机位置和角度。
相机设置差异 (Camera Settings Differences): 不同的曝光、白平衡、焦距等。
光照条件变化 (Lighting Conditions Changes): 白天、夜晚、阴天、晴天、日出、日落等不同光照。
瞬态遮挡物 (Transient Occluders): 场景中临时出现的人、车、鸟等非固定物体。
后期处理效果 (Post-processing Effects): 用户可能对照片进行滤镜、调色等处理。处理这些复杂性是野外三维场景重建的主要挑战。

3.1.4. 外观嵌入 (Appearance Embeddings)

外观嵌入是用来编码图像或场景特定外观特征的低维向量。在野外三维场景重建中，由于光照、天气和相机设置等因素导致场景外观在不同图像中存在差异，通过为每张图像学习一个外观嵌入，模型可以在渲染时利用这些嵌入来调整颜色和亮度，从而生成与输入图像外观一致的新视图。

3.1.5. 瞬态掩膜 (Transient Masks)

瞬态掩膜是用于识别图像中瞬态遮挡物的二进制掩膜。这些遮挡物（例如行人、车辆）并非场景的固定部分，如果将其建模为三维场景的一部分，会导致重建出现伪影。瞬态掩膜的作用是在训练过程中将这些区域排除在外，或以特殊方式处理，确保模型只学习场景的静态结构和外观。

3.1.6. 球谐函数 (Spherical Harmonics, SH)

球谐函数是一组定义在球面上的正交基函数，常用于计算机图形学中表示三维物体的方向性辐射 (directional radiance)或光照 (lighting)。在3DGS中，每个高斯的颜色通常不是一个简单的RGB值，而是通过球谐系数 (Spherical Harmonic coefficients)来表示，这使得它能够捕捉视图相关 (view-dependent)的颜色变化，即从不同方向看同一个高斯时，其颜色可能略有不同。

3.1.7. 立方体贴图 (Cubemap)

立方体贴图是一种通过将场景图像投射到六个相互垂直的平面（构成一个立方体的六个面）来表示环境的技术。它通常用于表示天空、环境光照或全景背景。立方体贴图的每个面都存储了从一个中心点向特定方向看的场景视图，可以高效地用于渲染远处的背景，例如天空。

3.1.8. 语义分割 (Semantic Segmentation)

语义分割是计算机视觉中的一项任务，旨在将图像中的每个像素分类到预定义的类别（如“天空”、“建筑物”、“人”、“汽车”等）。它为图像提供了像素级别 (pixel-level)的理解。本文利用预训练的语义分割网络来生成伪掩膜，以区分图像中的天空、建筑物和瞬态遮挡物。

3.2. 前人工作

3.2.1. 三维场景表示 (3D Scene Representation)

传统的三维表示包括网格 (mesh)、点云 (point cloud)和体素模型 (volumetric model)等。NeRF [34]的出现革新了这一领域，它使用坐标基神经网络来表示场景，通过体渲染实现高质量的新视图合成。随后的工作聚焦于加速训练 (Instant-NGP [35])、提高渲染速度 (TensoRF [5]、FastNeRF [14])、场景编辑 (NeRFEditing [70])等。

最近，3DGS [21]以其显式三维各向异性高斯表示，极大地加速了建模和渲染速度，同时提升了重建质量。3DGS已扩展到表面重建 [6]、同步定位与映射 (SLAM) [31]、人工智能生成内容 (AIGC) [28]和场景理解 [17]等领域。

然而，3DGS在处理野外场景中的光照变化和瞬态遮挡时面临挑战，限制了其在复杂真实世界场景中的应用。

3.2.2. 从不受约束照片集合中重建 NeRF (NeRF from Unconstrained Photo Collections)

从互联网照片等不受约束照片集合中重建三维场景是一个经济高效的方法。由于光照、后处理和瞬态遮挡的变化，野外照片带来了显著挑战。

NeRF-W [30]: 首个从不受约束照片集合中重建NeRF的方法。它引入了每图像可学习的外观嵌入和瞬态嵌入 (transient embeddings)，通过生成式潜在优化 (Generative Latent Optimization, GLO)实现新视图合成。
Ha-NeRF [7] 和 CR-NeRF [68]: 在NeRF-W基础上，引入了基于卷积神经网络 (Convolutional Neural Network, CNN)的外观编码器，提高了建模精度并支持风格迁移。CR-NeRF还微调 (fine-tuned)了预训练的分割网络来预测瞬态掩膜。
K-Planes [12] 和 RefinedFields [20]: 采用NeRF中的平面因子分解 (planar factorization)来解决灾难性遗忘 (catastrophic forgetting)问题，提高了渲染质量和训练速度，但增加了存储需求。

3.2.3. 从不受约束照片集合中重建 3DGS (3DGS from Unconstrained Photo Collections)

近期，一些研究开始将3DGS应用于野外户外场景重建：

GS-W [72]: 提出了自适应采样策略来捕捉多特征图 (feature maps)中的动态外观。
SWAG [11]: 预测每三维高斯的图像依赖不透明度和外观变化。
WE-GS [59]: 引入了一个即插即用 (plug-and-play)的轻量级空间注意力模块 (spatial attention module)，同时预测每图像的外观嵌入和瞬态掩膜。
WildGaussians [23]: 使用 DINO [36] 从每张图像中提取特征，并通过可训练的仿射变换 (affine transformation)来预测瞬态遮挡物。
SLS [48]: 同样利用预训练的 DINO 网络提取特征图，用于从随意拍摄的图像或视频中重建场景。
Wild-GS [65]: 提出了分层外观分解 (hierarchical appearance decomposition)和显式局部外观建模 (explicit local appearance modeling)策略。
Splatfacto-W [64]: 提供了 NeRFstudio [53] 中 3DGS 的野外照片集合实现。

尽管这些工作初步探索了野外 3DGS，但现有外观编码器和瞬态掩膜预测器需要较长的训练时间，与 3DGS 的快速收敛不匹配，形成了训练瓶颈。一些方法试图通过时空权衡 (space-for-time)在三维特征表示 (3D feature representation)层面缓解此问题。本文则从分析不受约束图像的特性出发，通过简化瞬态掩膜和天空感知的差异化处理来提升效率和质量。

3.3. 技术演进

三维场景重建领域从最初的几何重建（如网格、点云）发展到基于隐式表示的NeRF，实现了照片级真实感渲染。NeRF的后续工作主要围绕其训练和渲染速度、场景编辑能力以及对野外复杂环境（如光照变化和瞬态遮挡）的处理。NeRF-W及其变体通过外观嵌入和瞬态掩膜的引入，拓展了NeRF在野外场景的适用性。

然而，NeRF的渲染速度依然是瓶颈。3DGS的出现，以其显式高斯表示和高效光栅化 (rasterization)，将实时渲染变为可能。自然地，研究者开始将3DGS应用于野外场景，并沿用了NeRF中处理外观和瞬态遮挡的思路，即引入神经网络来预测外观嵌入和瞬态掩膜。

本文的工作正是在这个技术演进的背景下提出的。它识别出当前野外 3DGS方法中3DGS快速收敛与神经网络预测器慢速收敛的瓶颈，并通过两个核心策略进行改进：

简化瞬态掩膜获取： 利用预训练大视觉模型的强大能力，直接生成高质量伪掩膜，省去额外的训练开销。
天空感知的差异化处理： 基于对户外场景中天空和建筑物不同辐射特性的洞察，采用分离式编码和互蒸馏，以更精细和高效的方式处理复杂外观变化。

3.4. 差异化分析

本文的方法与相关工作中野外 3DGS方法的核心区别和创新点如下：

瞬态掩膜处理：
- 以往方法： 大多数 NeRF 和 3DGS 野外方法（如 NeRF-W [30], CR-NeRF [68], WE-GS [59], WildGaussians [23]）通常通过训练一个神经网络预测器来学习每图像的瞬态掩膜。这需要额外的训练时间，并且容易在三维辐射场和二维瞬态掩膜之间产生模糊性（例如，究竟是瞬态遮挡还是外观变化？）。
- 本文方法： 提出每图像瞬态掩膜预测器是不必要的。通过利用预训练的语义分割网络（如 LSeg）直接生成伪掩膜，并结合贪婪监督策略，本文方法省去了这部分复杂的训练开销，显著提高了重建效率，并解决了三维辐射场与二维瞬态掩膜之间的歧义 (ambiguity)。
天空和建筑物外观建模：
- 以往方法： 大部分野外 NeRF/3DGS方法（如 SWAG [11], WildGaussians [23]）通常使用共享的外观编码器来处理整个场景，或者尝试用三维高斯填充边界框外部来建模天空。这种做法往往导致天空区域出现椭球噪声 (ellipsoidal noise)，且对天空和建筑物的不同辐射特性处理不够精细。
- 本文方法： 基于天空和建筑物具有不同辐射变换特性的观察（天空颜色均匀、变化小；建筑物复杂、变化大），提出天空感知框架。在预处理阶段就将天空分割出来，并使用两个独立的编码器分别提取天空嵌入和建筑物嵌入。此外，引入神经天空模块显式生成天空立方体贴图，而非用高斯来近似表示天空。这种差异化处理提高了效率和准确性。
外观嵌入对齐与指导：
- 以往方法： 尽管一些方法学习了外观嵌入，但它们通常是独立学习的，或者仅仅通过注意力机制等方式进行融合。
- 本文方法： 提出互蒸馏学习策略，强制天空和建筑物的外观嵌入在同一潜在空间中对齐。这种对齐使得天空嵌入可以指导建筑物嵌入的优化，反之亦然。这不仅提升了重建质量，还在某些图像缺少天空时，允许从建筑物外观推断出合理的天空外观，增强了模型的鲁棒性 (robustness)。
整体效率与质量：
- 以往方法： 现有野外 3DGS方法面临3DGS快速收敛与神经网络外观/瞬态预测器慢速收敛的瓶颈。
- 本文方法： 通过简化瞬态掩膜预测和天空感知的差异化处理，本文方法能够更有效地利用 3DGS 的快速收敛优势，实现更快的训练和渲染速度，同时提供更高的渲染质量。

4. 方法论

4.1. 方法原理

本文提出了一种天空感知框架，旨在高效地从不受约束的照片集合中重建三维场景，并实现高质量的新视图合成和新外观合成。核心思想是针对户外场景中天空和建筑物的显著差异，采取差异化处理策略，并简化瞬态遮挡的处理流程，以克服现有3DGS野外方法的效率瓶颈。

其背后理论直觉在于：

利用大视觉模型的先验知识： 现代语义分割模型已经非常强大，可以直接提供高质量的语义掩膜。与其从头训练一个瞬态掩膜预测器，不如直接利用这些先验知识，大大简化训练流程。
场景分解的优势： 天空通常是场景中最远且外观变化相对规则的部分（如晴朗的蓝天、多云、日出日落），而建筑物则具有复杂的几何和材质细节，且受光照影响大。将这两部分分开建模，可以针对其特性采用最适合的表示和学习策略，避免一个模型强行适应两种不同性质的区域。
潜在空间对齐的协同效应： 天空和建筑物虽然特性不同，但在物理上是相互关联的（如天空的光照会影响建筑物的外观）。通过在潜在空间中对齐它们的外观嵌入，可以实现信息共享和相互约束，增强模型的泛化能力 (generalization ability)和鲁棒性。

4.2. 核心方法详解

4.2.1. 问题定义和方法概览

给定一组带姿态的不受约束图像 $I = \left\{ I _ { 1 } , I _ { 2 } , . . . , I _ { K } \right\}$ ，这些图像包含了不同的光照、后处理效果和瞬态遮挡。本文的目标是高效地重建三维场景，并具备快速收敛、实时新视图合成和新外观合成的能力。

本文的方法整体流程 (pipeline)如 Figure 5 (原文 Figure 4) 所示。首先，利用预训练的语义分割模型为每张不受约束图像预测伪掩膜。基于这些伪语义掩膜，分别提取建筑物外观嵌入和天空外观嵌入。为了生成多样化且逼真的天空，本文提出了神经天空模块，通过天空嵌入生成不同的显式天空立方体贴图。对于建筑物，本文提出了野外神经三维高斯表示 (neural in-the-wild 3D Gaussian representation)，根据建筑物嵌入和天空嵌入，通过预测每个三维高斯的残差球谐系数 (residual spherical harmonic coefficients)来生成各种显式标准三维高斯。最后，详细说明了优化和渲染过程。

4.2.2. 不受约束图像的伪掩膜提取 (Pseudo Mask Extraction for Unconstrained Image)

不受约束照片中常包含瞬态遮挡物（如游客、汽车）。传统方法通常使用多层感知机 (MLP)或卷积神经网络 (CNN)预测每图像的瞬态二维掩膜，并在训练中避免优化这些像素。然而，这种训练过程耗时，且容易在三维辐射场和二维瞬态掩膜之间产生歧义（如 Figure 3 (原文 Figure 2) 所示，某些区域的辐射变化可能被误判为瞬态遮挡物，从而延迟三维高斯的优化）。

本文发现，通过引入一个简单的贪婪监督策略，可以利用预训练大视觉模型 (Large Vision Models, LVMs)获得的伪掩膜来实现高效重建，而无需微调任何瞬态掩膜预测器。这意味着每图像瞬态掩膜学习对于3DGS野外场景重建并非必需。

具体地，本文使用 LSeg [24]来生成天空、建筑物和瞬态遮挡物的二维掩膜。其他分割网络（如 Grounded-SAM [45] 和 SEEM [76]）也适用。对于天空和建筑物区域的分割，直接输入相应的文本提示 (text prompts)，即“sky”和“building”，以获取二维伪掩膜： $\widehat { M _ { i } ^ { s } } = L V M S e g ( I _ { i } , p _ { s k y } )$ 其中， $I_i$ 是第 $i$ 张不受约束图像， $p_{sky}$ 是用于分割天空的文本提示，LVMSSeg 代表预训练的LVM分割模型， $\widehat { M _ { i } ^ { s } }$ 是第 $i$ 张图像的天空二维掩膜。

$\widehat { M _ { i } ^ { b } } = L V M S e g ( I _ { i } , p _ { b u i l d i n g } )$ 其中， $p_{building}$ 是用于分割建筑物的文本提示， $\widehat { M _ { i } ^ { b } }$ 是第 $i$ 张图像的建筑物二维掩膜。

剩余区域被视为伪瞬态掩膜： $\widehat { M _ { i } ^ { t } } = \overline { { \widehat { M _ { i } ^ { s } } \cup \widehat { M _ { i } ^ { b } } } }$ 其中， $\overline{\cdot}$ 表示补集 (complement)运算，即图像中既非天空也非建筑物的区域。

有了这些伪掩膜，本文使用两个独立的卷积神经网络 (CNN)编码器 $Enc_{\theta_1}^s$ 和 $Enc_{\theta_2}^b$ 从每张不受约束图像中提取建筑物嵌入和天空嵌入。 $l _ { i } ^ { s } = E n c _ { \theta _ { 1 } } ^ { s } ( I _ { i } \odot \widehat { M _ { i } ^ { s } } )$ 其中， $l_i^s$ 是第 $i$ 张图像的天空外观嵌入， $\odot$ 表示哈达玛积 (Hadamard product)（逐元素相乘），它作为注意力机制 (attention mechanism)，使 CNN 能够专注于天空特征。

$l _ { i } ^ { b } = E n c _ { \theta _ { 2 } } ^ { b } ( I _ { i } \odot \widehat { M _ { i } ^ { b } } )$ 其中， $l_i^b$ 是第 $i$ 张图像的建筑物外观嵌入， $\odot$ 同样作为注意力机制，使 CNN 专注于建筑物特征。

4.2.3. 神经天空 (Neural Sky)

对于每个场景，首先引入一个可学习的 4D 张量 (4D tensor) $T_{sky} \in \mathbb { R } ^ { 6 \times C \times L \times L }$ ，它作为隐式立方体贴图 (implicit cubemap)的特征骨架 (feature backbone)。其中， $L$ 表示每个立方体贴图面 (cubemap face)的宽度和高度， $C$ 表示隐式立方体贴图上每个像素的特征通道数 (number of feature channels)。然后，使用一个 MLP $MLP_\gamma$ 根据隐式立方体贴图对应的特征和天空嵌入来生成每个像素的颜色： $C _ { s k y } ( k , u , \nu ) = M L P _ { \gamma } ( l _ { i } ^ { s } , T _ { s k y } ( k , u , \nu ) )$ 其中， $T_{sky}(k, u, \nu)$ 表示立方体贴图第 $k$ 面在像素 $(u, \nu)$ 处的相应隐式特征。通过这种方法，可以得到显式天空贴图 (explicit sky map) $C_{sky} \in \mathbb { R } ^ { 6 \times 3 \times L \times L }$ 。隐式立方体贴图有效地捕捉了位置相关细节 (location-dependent details)，并缓解了与 MLP 相关的灾难性遗忘问题。

然而，从单个不受约束图像中采样的天空区域是稀疏的，这限制了可优化的特征数量。为了解决这个问题，本文在隐式立方体贴图层面引入全变差损失 (Total Variation loss, TV loss) [46]来平滑特征： $\mathcal { L } _ { T V } = \sum _ { k = 0 } ^ { 5 } \sum _ { u = 0 } ^ { L - 1 } \sum _ { \nu = 0 } ^ { L - 1 } \left. T _ { \mathrm { s k y } } ( k , u + 1 , \nu + 1 ) - T _ { \mathrm { s k y } } ( k , u , \nu ) \right. ^ { 2 }$ TV loss旨在鼓励相邻像素的特征变化平滑，从而减少稀疏采样带来的伪影，使生成的立方体贴图更加自然。

此外，本文引入了一个轻量级 CNN 作为精细天空编码器 (fine sky encoder)，以在天空立方体贴图层面提取精细天空嵌入 (fine sky embeddings)： $l _ { i } ^ { s f } = [ E n c _ { \theta _ { 3 } } ^ { f } ( C _ { s k y } ) ; l _ { i } ^ { s } ]$ 其中，[.;.] 表示拼接 (concatenation)操作。精细天空嵌入 $l_i^{sf}$ 将被传递到野外神经三维高斯中，以调节建筑物的外观。

4.2.4. 野外神经三维高斯 (Neural in-the-wild 3D Gaussian)

本文提出了一种用于建筑物建模的新颖显式-隐式混合表示 (explicit-implicit hybrid representation)，称为野外神经三维高斯。为了适应具有不同外观和光照的不受约束图像，将天空和建筑物的嵌入注入到每个神经三维高斯中。每个野外神经三维高斯具有以下可学习参数：三维平均位置 (3D mean position) $\mu$ 、不透明度 (opacity) $\alpha$ 、旋转 (rotation) $R$ 、缩放因子 (scaling factor) $S$ 、基础颜色 (base color) $C$ （通过球谐系数表示）和不受约束辐射特征 (unconstrained radiance feature) $F$ 。 $F$ 是一个特征向量 (feature vector)，通过对每个三维高斯的三维平均位置应用位置编码 (Positional Encoding, PE)函数 [34]进行初始化。

给定精细天空嵌入 $l_i^{sf}$ 和建筑物嵌入 $l_i^b$ ，本文使用一个 MLP $MLP_\omega$ 来学习每个高斯的每图像转换颜色 (per-image translated color) $C_i'$ ： $C _ { i } ^ { \prime } = M L P _ { \omega } ( C , F , l _ { i } ^ { s f } , l _ { i } ^ { b } ) + C$ 其中， $C$ 是高斯的基础颜色（球谐系数）， $F$ 是不受约束辐射特征， $l_i^{sf}$ 是精细天空嵌入， $l_i^b$ 是建筑物嵌入。这个 MLP 学习如何根据场景的基础颜色、空间位置特征以及当前图像的天空和建筑物外观嵌入来调整高斯的最终颜色。这些每高斯辐射随后被“烘焙”回野外神经三维高斯中，使其可以无缝转换为标准的显式三维高斯表示，然后输入到香草3DGS (Vanilla 3DGS)的光栅化 (rasterization)过程。本文的方法可以无缝集成到任何下游3DGS任务中，包括场景理解或场景编辑。

4.2.5. 优化 (Optimization)

4.2.5.1. 天空处理 (Handling Sky)

本文使用生成的天空显式立方体贴图和建筑物的显式3DGS通过α混合来计算最终的像素颜色： $\tilde { I _ { i } ^ { f } } ( x , d ) = \tilde { I _ { i } } ( x , d ) + ( 1 - O ( x , d ) ) C _ { s k y } ( d )$ 其中， $x$ 是视点位置 (viewpoint position)， $d$ 是方向 (direction)， $\tilde { I _ { i } ^ { f } } ( x , d )$ 是最终渲染的图像。 $\tilde { I _ { i } } ( x , d )$ 是三维高斯渲染的建筑物部分， $C_{sky}(d)$ 是从天空立方体贴图根据方向 $d$ 采样得到的颜色。 $O(x,d)$ 是沿着射线的累积不透明度 (accumulated opacity)，表示建筑物对天空的遮挡程度： $O ( x , d ) = \sum _ { j = 1 } ^ { N } T _ { j } \alpha _ { j }$ 其中 $N$ 是沿着射线采样的三维高斯数量， $T_j = \prod_{k=1}^{j-1} (1 - \alpha_k)$ 是透明度 (transmittance)， $\alpha_j$ 是第 $j$ 个高斯的不透明度。

在训练阶段，本文对射线方向 $d$ 在其单位像素长度内引入随机扰动，以增强抗锯齿 (anti-aliasing)效果。为了抑制神经野外三维高斯在天空区域的出现，本文将该区域的集成不透明度 (integrated opacity)约束为接近零。具体来说，将损失定义为： $\mathcal { L } _ { o } = - O \cdot \log O - \widehat { M } _ { i } ^ { s } \cdot \log ( 1 - O )$ 其中， $O$ 是渲染的不透明度图 (opacity map)。这项损失鼓励在天空区域 ( $\widehat { M } _ { i } ^ { s } = 1$ ) 不透明度 $O$ 趋近于 0，而在非天空区域 (不透明度 $O$ 趋近于 1)。

4.2.5.2. 瞬态遮挡物处理 (Handling Transient Occluders)

以往的工作通常采用基于学习 (learning-based)的方法来处理不受约束图像中的遮挡物。本文则采用一种简单而有效的贪婪掩膜策略 (greedy masking strategy)，无需额外训练。具体来说，如果像素的语义分割结果未将其分类为天空或建筑物，则将其视为瞬态遮挡物。尽管此方法可能因分割不准确而将某些应属于天空或建筑物的区域误判，但不受约束照片集合中的大量图像提供了足够的重建信息。因此，这种贪婪策略在不牺牲精度的情况下提高了效率。具体地，本文使用瞬态伪掩膜遮蔽瞬态遮挡物，并使用结构相似性指数 (Structural Similarity Index, SSIM) [62]损失 $\mathcal { L } _ { S S I M }$ 和 L1 损失 $\mathcal { L } _ { 1 }$ 进行监督： $\begin{array} { r l } & { \mathcal { L } _ { c } = \lambda _ { 1 } \mathcal { L } _ { 1 } \big ( \big ( 1 - \widehat { M _ { i } ^ { t } } \big ) \odot \tilde { I _ { i } ^ { f } } , \big ( 1 - \widehat { M _ { i } ^ { t } } \big ) \odot I _ { i } \big ) } \\ & { \qquad + \lambda _ { 2 } \mathcal { L } _ { S S I M } \big ( \big ( 1 - \widehat { M _ { i } ^ { t } } \big ) \odot \tilde { I _ { i } ^ { f } } , \big ( 1 - \widehat { M _ { i } ^ { t } } \big ) \odot I _ { i } \big ) , } \end{array}$ 其中， $\tilde { I _ { i } ^ { f } }$ 和 $I_i$ 分别是渲染图像和真实图像； $\odot$ 表示哈达玛积； $\lambda_1$ 和 $\lambda_2$ 是超参数 (hyperparameters)。该损失函数仅在非瞬态遮挡区域（即 $(1 - \widehat { M _ { i } ^ { t } })$ 为 1 的区域）计算像素损失，从而避免了瞬态遮挡物对场景重建的影响。

4.2.5.3. 天空和建筑物编码器互蒸馏 (Sky and Building Encoders Mutual Distillation)

本文认为天空和建筑物的外观嵌入可以在相同的潜在空间中有效对齐。这种对齐具有多重优势：首先，天空和建筑物外观之间固有的物理关系，加上天空嵌入相对较小的解空间 (solution space)，有助于指导和约束外观嵌入的学习。其次，对于某些未捕捉到天空的不受约束图像，这种对齐允许仅从建筑物的外观来估计天空立方体贴图。本文引入了一种互蒸馏策略，使天空和建筑物编码器能够相互学习，并在相同的潜在空间中对齐其嵌入。具体来说，通过曼哈顿距离损失 (Manhattan distance loss)来实现这种对齐： $\mathcal { L } _ { m d } = M a n h a t ( l _ { i } ^ { s } , l _ { i } ^ { b } )$ 其中， $Manhat(\cdot, \cdot)$ 是曼哈顿距离 (Manhattan distance)函数，用于衡量两个嵌入向量 $l_i^s$ 和 $l_i^b$ 之间的差异。该损失鼓励天空和建筑物的嵌入在潜在空间中彼此靠近。

4.2.5.4. 训练和渲染 (Training and Rendering)

整个框架是端到端 (end-to-end)优化的，包括野外神经三维高斯的参数、神经天空以及建筑物和天空编码器的参数。最终的损失函数公式为： $\mathcal { L } = \mathcal { L } _ { c } + \lambda _ { 3 } \mathcal { L } _ { o } + \lambda _ { 4 } \mathcal { L } _ { T V } + \lambda _ { 5 } \mathcal { L } _ { m d }$ 其中， $\mathcal { L } _ { c }$ 是颜色重建损失， $\mathcal { L } _ { o }$ 是天空区域不透明度损失， $\mathcal { L } _ { T V }$ 是隐式立方体贴图的全变差损失， $\mathcal { L } _ { m d }$ 是互蒸馏损失。 $\lambda_3, \lambda_4, \lambda_5$ 是用于平衡各个损失函数贡献的超参数。

训练完成后，即可实现实时新视图合成和新外观合成。本文描述了三种类型的新外观合成：

不受约束图像级别： 给定任何不受约束图像，按照训练流程 (pipeline)生成建筑物和天空嵌入，然后用于合成新外观。
隐式嵌入级别： 给定两张不受约束图像，分别生成它们的嵌入，然后通过线性插值 (linear interpolation)创建新的中间嵌入。这些中间嵌入被注入到野外神经三维高斯和神经天空中，从而产生具有平滑过渡的新外观。
显式立方体贴图级别： 利用精细天空编码器从显式立方体贴图中提取精细天空嵌入，并将其整合到建筑物的野外神经三维高斯中。这种方法允许通过编辑显式立方体贴图来直接进行新外观合成。

5. 实验设置

5.1. Implementation Details

本文使用 PyTorch 框架 [38] 实现该方法，并使用 Adam [22] 优化器 (optimizer)进行训练。训练在单个 Nvidia RTX 4090 GPU 上进行 140,000 步。为了与以往工作进行公平比较，所有图像在训练和评估期间都按 2 倍下采样。超参数设置如下： $\lambda_1$ 设置为 0.8， $\lambda_2$ 设置为 0.8， $\lambda_3$ 设置为 0.1， $\lambda_4$ 设置为 0.2， $\lambda_5$ 设置为 0.001。

5.2. Datasets

本文使用两个具有挑战性的数据集来评估所提出的方法：

Photo Tourism (PT) 数据集 [19]:
- 描述: 包含多个著名地标场景，每个场景都收集了用户上传的图像。这些图像在不同的时间、日期、不同相机、曝光水平以及瞬态遮挡物等各种条件下拍摄。
- 规模: 每个场景包含 800 到 1500 张不受约束图像。
- 特点: 数据集的多样性和复杂性使其成为野外三维场景重建的常用基准。
NeRF-OSR 数据集 [47]:
- 描述: 是一个户外场景重打光基准 (outdoor scene relighting benchmark)，包含在不同时间拍摄的多个序列，其中包含瞬态遮挡物，例如街上的行人。
- 规模: 每个场景包含 300 到 400 张图像。
- 特点: 专注于户外场景重打光，同时存在瞬态遮挡，进一步测试了方法在复杂光照和动态场景下的性能。

5.3. 评估指标

本文使用以下标准指标进行评估：

5.3.1. 峰值信噪比 (Peak Signal-to-Noise Ratio, PSNR)

概念定义: PSNR 是一种衡量图像质量的客观标准，通常用于评估压缩或重建图像与原始图像之间的失真程度。它通过比较两幅图像的像素值来量化它们之间的差异。PSNR 值越高，表示重建图像与原始图像越相似，即图像质量越好。
数学公式: $\mathrm{PSNR} = 10 \cdot \log_{10}\left(\frac{MAX_I^2}{\mathrm{MSE}}\right)$
符号解释:
- $MAX_I$ : 图像中可能的最大像素值。例如，对于 8 位灰度图像，其值为 255。
- $\mathrm{MSE}$ : 均方误差 (Mean Squared Error)，计算重建图像与原始图像之间对应像素值的平方差的平均值。 $\mathrm{MSE} = \frac{1}{MN} \sum_{i=0}^{M-1}\sum_{j=0}^{N-1} [I(i,j) - K(i,j)]^2$ 其中， $M$ 和 $N$ 分别是图像的行数和列数，I(i,j) 是原始图像在 (i,j) 处的像素值，K(i,j) 是重建图像在 (i,j) 处的像素值。

5.3.2. 结构相似性指数 (Structural Similarity Index Measure, SSIM)

概念定义: SSIM 是一种感知图像质量评估指标，它考虑了图像的亮度 (luminance)、对比度 (contrast)和结构 (structure)这三个关键特征来衡量两幅图像的相似性。与PSNR不同，SSIM 更符合人类视觉系统对图像质量的感知。SSIM 的值介于 -1 和 1 之间，通常为 0 到 1，值越接近 1 表示两幅图像的结构相似度越高，即质量越好。
数学公式: $\mathrm{SSIM}(x, y) = \frac{(2\mu_x\mu_y + c_1)(2\sigma_{xy} + c_2)}{(\mu_x^2 + \mu_y^2 + c_1)(\sigma_x^2 + \sigma_y^2 + c_2)}$
符号解释:
- $\mu_x, \mu_y$ : 分别是图像 $x$ 和图像 $y$ 的平均像素值。
- $\sigma_x^2, \sigma_y^2$ : 分别是图像 $x$ 和图像 $y$ 的方差。
- $\sigma_{xy}$ : 图像 $x$ 和图像 $y$ 的协方差 (covariance)。
- $c_1 = (K_1L)^2, c_2 = (K_2L)^2$ : 两个常数，用于避免分母为零，其中 $L$ 是像素值的动态范围（例如，对于 8 位图像， $L=255$ ）， $K_1, K_2 \ll 1$ 是小常数（例如 $K_1=0.01, K_2=0.03$ ）。

5.3.3. 感知图像块相似度 (Learned Perceptual Image Patch Similarity, LPIPS)

概念定义: LPIPS 是一种基于深度学习的图像相似度指标，它使用预训练的深度神经网络（如 VGG 或 AlexNet）提取特征来衡量两幅图像之间的感知相似度 (perceptual similarity)。LPIPS 的设计目标是更好地模拟人类对图像差异的感知。LPIPS 值越低，表示两幅图像在感知上越相似，即质量越好。
数学公式: $\mathrm{LPIPS}(x, y) = \sum_l \frac{1}{H_l W_l} \sum_{h,w} \|w_l \odot (\phi_l(x)_{h,w} - \phi_l(y)_{h,w})\|_2^2$
符号解释:
- $\phi_l$ : 表示从预训练网络的第 $l$ 层提取的特征。
- $w_l$ : 是可学习的权重 (weights)，用于对不同层的特征进行加权。
- $H_l, W_l$ : 分别是第 $l$ 层特征图 (feature map)的高度和宽度。
- $\odot$ : 哈达玛积（逐元素相乘）。
- $\|\cdot\|_2^2$ : L2 范数 (L2 norm)的平方，即欧几里得距离 (Euclidean distance)的平方。

5.3.4. GPU 小时数 (GPU hrs.) 和每秒帧数 (Frames Per Second, FPS)

GPU hrs.: 衡量每个场景的平均训练时间，单位是 GPU 小时。表示训练的计算成本，越低越好。
FPS: 衡量渲染速度，单位是每秒帧数。表示实时渲染能力，越高越好。

5.4. 对比基线

本文将自己的方法与以下最先进 (SOTA)方法进行了比较：

基于 NeRF 的方法:
- NeRF-W [30]: 首个处理野外场景的 NeRF 方法，通过学习外观嵌入和瞬态嵌入。
- HA-NeRF [7]: 引入 CNN 外观编码器的 NeRF-W 扩展。
- CR-NeRF [68]: NeRF 变体，微调分割网络预测瞬态掩膜。
- K-Planes [12]: 采用平面因子分解的 NeRF 方法。
- RefinedFields [20]: 针对不受约束场景的辐射场``细化方法。
基于 3DGS 的方法:
- SWAG [11]: 预测图像依赖的不透明度和外观变化。
- Splatfacto-W [64]: 3DGS 在NeRFstudio中的野外实现。
- WE-GS [59]: 引入轻量级空间注意力模块，同时预测外观嵌入和瞬态掩膜。
- GS-W [72]: 提出自适应采样策略的野外 3DGS。
- WildGaussians [23]: 使用 DINO 特征和仿射变换预测瞬态遮挡物。
- 3DGS [21]: 香草 3DGS，作为基准。
  
  这些基线方法代表了野外三维场景重建领域的最先进技术，涵盖了NeRF和3DGS两大主流范式，以及它们在处理野外挑战时的各种策略。

6. 实验结果与分析

6.1. 核心结果分析

6.1.1. Photo Tourism (PT) 数据集上的性能

Table 1 展示了本文方法与最先进方法在 Photo Tourism 数据集上新视图合成的定量结果。

以下是原文 Table 1 的结果：

	GPU hrs.	Bradenburg Gate			Sacre Coeur			Trevi Fountain
	/FPS	PSNR ↑	SSIM↑	LPIPS ↓	PSNR ↑	SSIM↑	LPIPS ↓	PSNR ↑	SSIM↑	LPIPS ↓
NeRF-W [30]	-1<1	24.17	0.890	0.167	19.20	0.807	0.191	18.97	0.698	0.265
HA-NeRF [7]	35.1/<1	24.04	0.877	0.139	20.02	0.801	0.171	20.18	0.690	0.222
CR-NeRF [68]	31.0/<1	26.53	0.900	0.106	22.07	0.823	0.152	21.48	0.711	0.206
K-Planes [12]	0.3/<1	25.49	0.924	-	20.61	0.852	-	22.67	0.856	-
RefinedFields [20]	11.8/<1	26.64	0.886	-	22.26	0.817	-	23.42	0.737	-
SWAG [[11]*	0.8/15	26.33	0.929	0.139	21.16	0.860	0.185	23.10	0.815	0.208
Splatfacto-W [64]†	1.1/40	26.87	0.932	0.124	22.66	0.769	0.224	22.53	0.876	0.158
WE-GS [59]	1.8/181	27.74	0.933	0.128	23.62	0.890	0.148	23.63	0.823	0.153
GS-W [72]	2.0/50	28.48	0.929	0.086	23.15	0.859	0.130	22.97	0.773	0.167
WildGaussians [23]	5.0/29	28.26	0.935	0.083	23.51	0.875	0.124	24.37	0.780	0.137
3DGS [21]	0.4/181	20.72	0.889	0.152	17.57	0.839	0.190	17.04	0.690	0.265
Ours	1.6/217	27.79	0.936	0.081	23.51	0.892	0.111	24.61	0.824	0.130

观察与分析：

整体性能优越： 本文方法（Ours）在Brandenburg Gate、Sacre Coeur 和 Trevi Fountain 这三个场景的 PSNR、SSIM 和 LPIPS 指标上均表现出最先进 (SOTA)的性能，尤其是在 LPIPS（越低越好）上，通常是最低的，这表明其渲染结果在感知质量上更接近真实图像。
渲染速度优势： 本文方法实现了 217 FPS 的渲染速度，显著高于其他 3DGS 野外方法（如 SWAG 的 15 FPS，Splatfacto-W 的 40 FPS，GS-W 的 50 FPS，WildGaussians 的 29 FPS），甚至高于香草 3DGS 的 181 FPS。这得益于其天空感知框架，避免了为复杂天空建模不必要的三维高斯。
训练效率： 本文方法训练时间为 1.6 GPU 小时，与 WE-GS (1.8 GPU 小时) 相当，优于WildGaussians (5.0 GPU 小时)，但略高于 SWAG (0.8 GPU 小时)。这表明在保持高渲染质量和速度的同时，训练效率也具有竞争力。
天空建模改进： WildGaussians 试图通过在边界框 (bounding box)外围填充三维高斯来建模天空，但由于天空和建筑物共享外观编码器，往往导致天空出现显著的椭球噪声。本文方法通过神经天空模块显式建模天空，并分离外观编码，有效避免了这一问题，提供了更准确的天空渲染。

Figure 6 (原文 Figure 5) 视觉结果也印证了定量分析，本文方法在细节捕捉和整体视觉质量上优于其他方法，特别是在天空区域，本文方法通常能生成更自然、无噪声的天空。

6.1.2. NeRF-OSR 数据集上的性能

Table 2 展示了本文方法与最先进方法在 NeRF-OSR 数据集上的结果。

以下是原文 Table 2 的结果：

	europa			lwp			st			stjohann
	PSNR ↑	SSIM ↑	LPIPS ↓	PSNR ↑	SSIM ↑	LPIPS ↓	PSNR ↑	SSIM ↑	LPIPS ↓	PSNR ↑	SSIM ↑	LPIPS
NeRF [34]	17.49	0.551	0.503	11.51	0.468	0.574	17.20	0.514	0.502	14.89	0.432	0.639
NeRF-W [30]	20.00	.699	0.340	19.61	0.16	0.445	0.31	0.607	0.438	21.23	0.67	.426
Hha-NerRF [7]	17.79	0.632	0.421	2003	0.685	0..365	17.30	0538	0.483	17.19	686	0.331
C RRM 25]	221.03	0.721	0294	21.90	0.719	.336	20.68	.630	0.402	22.84	0.793	00.235
SWG 11]	223.91	0.864	0.172	22.07	0.783	0..303	22.29	0.713	0.364	23.74	0.845	0.242
WE-GS [59]*	24.74	0.873	0.157	24.33	0.821	0.197	22.45	0.720	0.341	24.12	0.858	0.202
GS-W [72].	24.70	0.879	0.144	24.	0.817	00.201	23.32	0.740	0..321		0.849	0.221
WildGaussians [23	2397	0.861	0.174	22.12	0.791	0310	27.1 6	0.709	0366	`2f.r {}`	00.827	0.274
GS [21]	20.18	0.782	0.252	11.76	.609	00.414		.629	.406		0.741	0.268
Ours	24.71	0.879	0.141	24.57	0.826	0.189	22.65	0.742	0.320	24.61	0.867	0.193

观察与分析：

SOTA 性能： 本文方法在 NeRF-OSR 数据集上同样实现了最先进的性能，在多个指标上均表现出色。与香草 3DGS 相比，平均 PSNR 提升了 7.7 dB，SSIM 和 LPIPS 也有显著改善。
细节捕捉： 本文方法不仅更准确地重建了天空，还在建筑物的细节捕捉上更精确。这对于户外场景重打光这类需要精细辐射建模的任务至关重要。
野外场景的挑战： NeRF-OSR 数据集包含瞬态遮挡物和不同时间拍摄的序列，对方法的鲁棒性提出了更高要求。本文方法在此类复杂野外场景中仍能保持优异性能，说明其贪婪监督策略和天空感知架构是有效的。

Figure 7 (原文 Figure 6) 同样提供了视觉对比，进一步证明本文方法在处理 NeRF-OSR 数据集时，能够生成更清晰、更逼真的场景，尤其是在光照和细节方面。

6.2. 消融实验与分析

为了验证所提出设计选择的有效性，本文在 PT 数据集的三个场景上进行了消融研究 (ablation studies)。Table 3 呈现了定量结果。

以下是原文 Table 3 的结果：

	PSNR↑	SSIM↑	LPIPS↓
(1) w/o pseudo labels	24.91	0.867	0.114
(2) w/o sky encoder	24.39	0.856	0.117
(3) Neual sky size 16 × 256 × 256	25.21	0.880	0.112
(4) Neual sky size 8 × 512 × 512	25.31	0.884	0.106
(5) w/o sky embeddings	23.81	0.849	0.123
(6) w/o implicit cubemap	23.76	0.843	0.123
(7) w/o LTV	25.09	0.880	0.113
(8) w/o fine sky encoder	25.29	0.885	0.109
(9) w/o mutual distillation	25.17	0.881	0.110
(10) w/o neural feature F	24.96	0.870	0.112
(11) w/o PE. F init.	25.24	0.882	0.109
(12) Complete model	25.30	0.884	0.107

对渲染质量的贡献：

(1) w/o pseudo labels (不使用伪标签): 当不使用伪标签作为瞬态掩膜，而是微调每图像的瞬态掩膜时，PSNR为 24.91，SSIM为 0.867，LPIPS为 0.114。与完整模型 (Complete model)相比，性能下降。这验证了本文观点：每图像瞬态掩膜预测器在相同训练迭代次数下并非必需，利用伪标签可以提高效率和质量。
(2-7) 神经天空模块 (Neural Sky Module)的贡献：
- (2) w/o sky encoder (无天空编码器): 当场景的天空和建筑物都使用野外神经三维高斯重建时，PSNR显著下降到 24.39，SSIM为 0.856，LPIPS为 0.117。这表明神经天空模块对渲染质量的显著提升。
- (3) Neural sky size 16 × 256 × 256 (神经天空特征维度16): 增加神经天空的特征维度 (feature dimension)（从默认的 8 增加到 16）并没有显著提高渲染质量，PSNR为 25.21。
- (4) Neural sky size 8 × 512 × 512 (神经天空分辨率512): 增加神经天空的分辨率（从默认的 256 增加到 512）略微提高了渲染性能，PSNR为 25.31，LPIPS降至 0.106。但同时存储成本也会增加。
- (5) w/o sky embeddings (无天空嵌入): 将神经天空替换为可学习的显式立方体贴图（无天空嵌入注入）时，PSNR显著下降到 23.81。这意味着不同不受约束图像会渲染相同的（无法变化适应的）天空，验证了天空嵌入的重要性。
- (6) w/o implicit cubemap (无隐式立方体贴图): 当仅使用 8 层坐标基MLP和天空嵌入作为输入来生成显式立方体贴图（无隐式立方体贴图）时，性能显著下降到 23.76。生成的天空趋于统一颜色，这归因于神经网络的灾难性遗忘问题，隐式立方体贴图的引入有效缓解了这一问题。
- (7) w/o LTV (无全变差损失): 移除TV 损失后，PSNR下降到 25.09。这强调了TV 损失对平滑生成立方体贴图和增强渲染质量的重要性。Figure 8 (原文 Figure 7) 进一步视觉化了神经天空模块和TV 损失的影响：无神经天空模块时预测的立方体贴图在不同外观下保持不变；无TV 损失时预测的立方体贴图频率过高，影响天空渲染质量。
(8) w/o fine sky encoder (无精细天空编码器): 移除精细天空编码器后，PSNR为 25.29。虽然指标没有显著下降，但精细天空编码器允许从立方体贴图中提取特征并注入到野外神经三维高斯中，为新外观合成和新视图合成提供了更灵活的应用（如Figure 11 (原文 Figure 10) 所示）。
(9) w/o mutual distillation (无互蒸馏): 移除互蒸馏策略后，PSNR下降到 25.17。这表明互蒸馏在对齐天空和建筑物外观嵌入方面发挥了关键作用，有助于提升整体渲染质量。
(10) w/o neural feature F (无神经特征 F): 当直接使用位置作为 MLP_omega 的输入，而不是使用不受约束辐射特征 F来获取转换辐射时，PSNR为 24.96。这表明神经特征 F对于更准确地捕捉辐射变化是重要的。
(11) w/o PE. F init. (无位置编码 F 初始化): 当特征 F不通过位置编码初始化时，PSNR为 25.24。这表明位置编码对特征 F的初始化对性能有积极影响。
(12) Complete model (完整模型): PSNR为 25.30，SSIM为 0.884，LPIPS为 0.107，是所有设置中性能最佳的，验证了本文所有组件协同工作的有效性。

伪语义掩膜质量的消融研究： 为了评估伪语义掩膜质量的影响，本文在瞬态、建筑物和天空掩膜中引入了噪声。Table 4 展示了结果。

以下是原文 Table 4 的结果：

	PSNR↑	SSIM↑	LPIPS↓
Add 5% noise to transient masks	27.77	0.934	0.082
Add 10% noise to transient masks	27.78	0.933	0.084
Add 5% noise to sky and building masks	27.65	0.931	0.089
Add 10% noise to sky and building masks	26.97	0.922	0.101
w/ pseudo masks	27.79	0.936	0.081

观察与分析：

瞬态掩膜的鲁棒性： 对瞬态掩膜添加 5% 或 10% 的噪声对重建精度的影响很小。这是因为本文的贪婪监督策略，将未识别为天空或建筑物的区域都视为瞬态，即便有一些误判，大量图像也能提供足够的静态场景信息进行重建。
天空和建筑物掩膜的敏感性： 对天空和建筑物掩膜添加 5% 的噪声导致 PSNR 略微下降（27.65 vs 27.79），而添加 10% 的噪声则导致 PSNR 显著下降（26.97）。这表明将瞬态掩膜错误地分类为建筑物或天空会显著影响重建精度，因为这些区域被错误地纳入了场景的静态建模中。

6.3. 应用

6.3.1. 从不受约束图像进行新外观合成 (Novel Appearance Synthesis from an Unconstrained Image)

给定一张不受约束图像，本文方法会通过语义伪标签和图像本身生成建筑物和天空嵌入，然后用于生成建筑物的显式标准三维高斯表示和天空的显式立方体贴图。Figure 9 (原文 Figure 8) 展示了所提出方法的外观建模能力。例如，在Brandenburg Gate案例中，即使输入图像中可见部分有限，本文方法也能成功推断出整个建筑物的新外观。此外，在Trevi Fountain的第一个案例中，尽管不受约束图像中没有天空，但本文提出的互蒸馏策略使得天空和建筑物嵌入在相同的潜在空间中对齐。因此，本文方法成功推断出了一个合理的天空立方体贴图。

6.3.2. 从外观嵌入进行新外观合成 (Novel Appearance Synthesis from Appearance Embeddings)

本文方法可以对任意两张不受约束图像之间的隐式外观嵌入进行插值 (interpolate)，从而实现外观的平滑变化。首先计算两张不受约束图像的天空和建筑物嵌入，然后通过线性插值得到中间嵌入。这些中间嵌入被注入到野外神经三维高斯和神经天空中，从而产生具有平滑过渡的新外观。Figure 10 (原文 Figure 9) 展示了四个案例，包括天气、时间和相机参数的变化。值得注意的是，在最后一个案例中，本文方法能够有效地模拟曝光 (exposure)变化。

6.3.3. 从显式立方体贴图进行新外观合成 (Novel Appearance Synthesis from Explicit Cubemap)

利用精细天空编码器从显式立方体贴图中提取精细天空嵌入并将其整合到建筑物的野外神经三维高斯中，本文方法可以通过编辑显式立方体贴图来实现新外观合成。Figure 11 (原文 Figure 10) 展示了直接对天空立方体贴图进行插值的案例。与隐式嵌入空间中的插值（Figure 11 (原文 Figure 10) 第 1 行）相比，直接对天空贴图进行插值（Figure 11 (原文 Figure 10) 第 2 行）产生了另一种自然逼真的结果。最后，Figure 11 (原文 Figure 10) 第 3 行展示了一个特殊案例，其中天空可以被显式编辑以创建各种虚拟场景。

7. 总结与思考

7.1. 结论总结

本文提出了一种高效、天空感知的框架，用于使用三维高斯泼溅 (3DGS)从不受约束的照片集合中重建场景。该框架整合了几个关键组件：

简化瞬态掩膜预测： 发现每图像瞬态掩膜预测器在野外 3DGS重建中并非必需，通过采用贪婪监督策略，利用预训练语义分割网络生成的伪掩膜，有效且高效地处理了瞬态遮挡。
神经天空模块： 引入了一个神经天空模块，能够从单个不受约束图像中生成显式立方体贴图，从而实现多样化、逼真的天空渲染。
互蒸馏学习策略： 提出了一种互蒸馏策略，用于在相同的潜在空间中对齐建筑物和天空的特征，增强了模型鲁棒性和泛化能力，尤其是在天空信息缺失时。

在多个数据集（Photo Tourism和NeRF-OSR）上的大量实验证明，本文方法显著提高了野外场景重建中3DGS的效率和质量，同时提供了对新外观合成和实时新视图合成更强的控制能力。

7.2. 局限性与未来工作

尽管本文方法超越了以往的方法，但仍存在以下局限性：

复杂光照环境的重建： 由于依赖于缺乏严格物理约束的神经外观表示，并且无法分割瞬态物体的阴影，本文方法在准确重建高度复杂的光照环境方面仍有不足。
天空编辑的物理约束： 尽管神经天空模块促进了更可控的场景编辑，但无论是隐式还是显式立方体贴图插值方法，都缺乏物理约束（如太阳位置变化或天气条件），因此实现精确的户外场景重打光仍然是一个开放的挑战。
室内场景的适用性： 所提出的方法未解决室内场景的野外重建问题，这被作者留作未来的工作。

7.3. 个人启发与批判

7.3.1. 个人启发

大视觉模型 (LVMs)的强大赋能： 本文最显著的启发是，不必为每个任务都从头训练一个复杂的神经网络。通过巧妙地利用预训练LVMs的零样本 (zero-shot)或少样本 (few-shot)能力生成高质量的伪标签，可以大大简化下游任务的流程 (pipeline)并提高效率。这种“借力”的策略对于资源有限的研究者或追求高效解决方案的工业应用具有巨大潜力。
领域知识驱动的设计： 天空感知的理念体现了对场景构成（天空和建筑物）的深刻理解。将场景分解为具有不同物理特性和变化模式的组件，并采用差异化建模策略，是提升复杂系统性能的有效途径。这提示我们在设计深度学习模型时，不应盲目追求端到端的通用性，而应更多地融入领域知识 (domain knowledge)来指导模型架构和学习过程。
潜在空间对齐的价值： 互蒸馏学习策略通过在潜在空间中对齐天空和建筑物的嵌入，不仅提升了渲染质量，更重要的是增强了模型在部分信息缺失时的推断能力。这种跨模态或跨组件的潜在空间对齐技术在多任务学习 (multi-task learning)、跨领域适应 (domain adaptation)等领域都有广泛应用前景。
3DGS的潜力： 本文进一步巩固了 3DGS 作为实时神经渲染领域主导力量 (dominant force)的地位。其显式表示和高效光栅化的特性，结合本文的优化，使其在处理复杂野外场景时表现出惊人的效率和质量。

7.3.2. 批判

贪婪监督策略的局限性： 尽管贪婪监督策略在效率上取得了成功，但它依赖于语义分割模型的准确性。如果LVM在某些特定瞬态遮挡物或复杂背景下产生不准确的分割，那么这些错误将直接影响重建结果。例如，在光照变化剧烈或物体形状复杂的瞬态遮挡物区域，LVM可能无法准确识别，导致这些区域被错误地纳入或排除建模。
神经外观表示的物理不一致性： 本文的神经外观表示虽然能生成逼真的结果，但缺乏严格的物理约束。这意味着模型可能学习到一些非物理 (non-physical)的外观变化规律。例如，在新外观合成或重打光任务中，无法保证生成的光照效果符合真实世界的物理规律，这限制了其在需要精确物理模拟的应用中的潜力。
天空模块的扩展性： 尽管神经天空模块提高了天空的质量，但其立方体贴图表示和隐式嵌入的插值方式，对于更复杂的天空动态（如流动的云、复杂的大气散射 (atmospheric scattering)效应）可能仍有局限。目前的插值可能只能在现有外观之间平滑过渡，而无法生成全新的、物理上合理的天气条件或天空类型。
3DGS本身的局限性继承： 3DGS虽然高效，但其高斯表示可能在极端视角下出现伪影，或者在表示具有 sharp 边缘的几何体时不够精确。本文方法虽然优化了野外场景的挑战，但3DGS固有的这些局限性仍然存在。
相机参数变化的建模： Figure 10 (原文 Figure 9) 中提到可以建模曝光变化，但没有详细说明如何处理更复杂的相机参数（如白平衡 (white balance)、色调映射 (tone mapping)）差异，这些在野外照片中也普遍存在。

总而言之，本文在野外 3DGS重建方面迈出了重要一步，通过天空感知和伪掩膜策略显著提升了效率和质量。未来的研究可以探索如何将更严格的物理约束融入神经外观表示，以及如何进一步提升大视觉模型在瞬态遮挡识别上的鲁棒性，以解决更复杂的光照和动态场景问题。

相似论文推荐

基于向量语义检索推荐的相关论文。

暂时没有找到相似论文。

Look at the Sky: Sky-aware Efficient 3D Gaussian Splatting in the Wild

TL;DR 精炼摘要

摘要

思维导图

论文精读

中文精读约 30 分钟读完 · 18,529 字

1. 论文基本信息

1.1. 标题

1.2. 作者

1.3. 发表期刊/会议

1.4. 发表年份

1.5. 摘要

1.6. 原文链接

2. 整体概括

2.1. 研究背景与动机

2.2. 核心贡献/主要发现

2.3. 关键结论

3. 预备知识与相关工作

3.1. 基础概念

3.1.1. 神经辐射场 (Neural Radiance Fields, NeRF)

3.1.2. 三维高斯泼溅 (3D Gaussian Splatting, 3DGS)

3.1.3. 不受约束的照片集合 (Unconstrained Photo Collections)

3.1.4. 外观嵌入 (Appearance Embeddings)

3.1.5. 瞬态掩膜 (Transient Masks)

3.1.6. 球谐函数 (Spherical Harmonics, SH)

3.1.7. 立方体贴图 (Cubemap)

3.1.8. 语义分割 (Semantic Segmentation)

3.2. 前人工作

3.2.1. 三维场景表示 (3D Scene Representation)

3.2.2. 从不受约束照片集合中重建 NeRF (NeRF from Unconstrained Photo Collections)

3.2.3. 从不受约束照片集合中重建 3DGS (3DGS from Unconstrained Photo Collections)

3.3. 技术演进

3.4. 差异化分析

4. 方法论

4.1. 方法原理

4.2. 核心方法详解

4.2.1. 问题定义和方法概览

4.2.2. 不受约束图像的伪掩膜提取 (Pseudo Mask Extraction for Unconstrained Image)

4.2.3. 神经天空 (Neural Sky)

4.2.4. 野外神经三维高斯 (Neural in-the-wild 3D Gaussian)

4.2.5. 优化 (Optimization)

4.2.5.1. 天空处理 (Handling Sky)

4.2.5.2. 瞬态遮挡物处理 (Handling Transient Occluders)

4.2.5.3. 天空和建筑物编码器互蒸馏 (Sky and Building Encoders Mutual Distillation)

4.2.5.4. 训练和渲染 (Training and Rendering)

5. 实验设置

5.1. Implementation Details

5.2. Datasets

5.3. 评估指标

5.3.1. 峰值信噪比 (Peak Signal-to-Noise Ratio, PSNR)

5.3.2. 结构相似性指数 (Structural Similarity Index Measure, SSIM)

5.3.3. 感知图像块相似度 (Learned Perceptual Image Patch Similarity, LPIPS)

5.3.4. GPU 小时数 (GPU hrs.) 和 每秒帧数 (Frames Per Second, FPS)

5.4. 对比基线

6. 实验结果与分析

6.1. 核心结果分析

6.1.1. Photo Tourism (PT) 数据集上的性能

6.1.2. NeRF-OSR 数据集上的性能

6.2. 消融实验与分析

6.3. 应用

6.3.1. 从不受约束图像进行新外观合成 (Novel Appearance Synthesis from an Unconstrained Image)

6.3.2. 从外观嵌入进行新外观合成 (Novel Appearance Synthesis from Appearance Embeddings)

6.3.3. 从显式立方体贴图进行新外观合成 (Novel Appearance Synthesis from Explicit Cubemap)

7. 总结与思考

7.1. 结论总结

7.2. 局限性与未来工作

7.3. 个人启发与批判

7.3.1. 个人启发

7.3.2. 批判

相似论文推荐

5.3.4. GPU 小时数 (GPU hrs.) 和每秒帧数 (Frames Per Second, FPS)