AiPaper
论文状态:已完成

Generative Sparse-View Gaussian Splatting

发表:2025/06/10
原文链接
价格:0.10
已有 1 人读过
本分析由 AI 生成,可能不完全准确,请以原文为准。

TL;DR 精炼摘要

本文提出一种新方法"生成式稀疏视图高斯溅射(GS-GS)",旨在提升在有限观测条件下的3D/4D场景重建质量。该方法利用预训练的图像扩散模型,通过迭代优化增强视图一致性,生成“幻觉”图像并确保语义对应,从而改善渲染效果并超越现有技术。

摘要

National University of Singapore {hanyang.k, xyang}@u.nus.edu, xinchao@nus.edu.sg Abstract Novel view synthesis from limited observations remains a significant challenge due to the lack of information in under-sampled regions, often resulting in noticeable artifacts. We introduce Generative Sparse-view Gaussian Splatting (GS-GS), a general pipeline designed to enhance the rendering quality of 3D/4D Gaussian Splatting (GS) when training views are sparse. Our method generates unseen views using generative models, specifically leveraging pre-trained image diffusion models to iteratively refine view consistency and hallucinate additional images at pseudo views. This approach improves 3D/4D scene reconstruction by explicitly enforcing semantic correspondences during the generation of unseen views, thereby enhancing geometric consistency—unlike purely generative methods that often fail to maintain view consistency. Extensive evaluations on various 3D/4D datasets—including Blender, LLFF, Mip-NeRF360, and Neural 3D Video—demonstrate that our GS-GS outperforms existing state-of-the-art methods in rendering quality without sacrificing efficiency.

思维导图

论文精读

中文精读

1. 论文基本信息

1.1. 标题

Generative Sparse-View Gaussian Splatting (生成式稀疏视图高斯溅射)

1.2. 作者

  • Hanyang Kong, Xingyi Yang, Xinchao Wang
  • 隶属机构: National University of Singapore (新加坡国立大学)

1.3. 发表期刊/会议

  • CVPR 2025 (Conference on Computer Vision and Pattern Recognition)
  • 声誉与影响力: CVPR 是计算机视觉领域的顶级国际会议,被广泛认为是该领域最具影响力的学术会议之一,录用难度极高,代表了前沿的研究水平。

1.4. 发表年份

2025年 (根据论文信息)

1.5. 摘要

从有限的观测(稀疏视图)中合成新视角图像是一个重大挑战,因为在采样不足的区域会因信息缺失而产生明显的渲染瑕疵。本文介绍了一种名为 生成式稀疏视图高斯溅射 (Generative Sparse-view Gaussian Splatting, GS-GS) 的通用流程,旨在提升 3D/4D 高斯溅射 (Gaussian Splatting, GS) 在训练视图稀疏时的渲染质量。该方法利用生成模型,特别是预训练的图像扩散模型,来迭代地优化视图一致性,并在虚拟的“伪视图”位置“幻想”出额外的图像。与那些难以维持视图一致性的纯生成方法不同,GS-GS 通过在生成新视图时显式地强制施加语义对应关系,从而增强了场景的几何一致性。在包括 Blender、LLFF、Mip-NeRF360 和 Neural 3D Video 在内的多个 3D/4D 数据集上的广泛评估表明,GS-GS 在不牺牲效率的前提下,其渲染质量超越了当前最先进的方法。

1.6. 原文链接

2. 整体概括

2.1. 研究背景与动机

  • 核心问题: 3D 高斯溅射 (3D Gaussian Splatting, 3DGS) 是一种先进的实时渲染技术,但在输入图像数量非常少(即“稀疏视图”)的情况下,其性能会急剧下降。由于缺乏足够的信息约束,模型难以准确重建场景的几何结构和外观,导致渲染结果出现严重的瑕疵,如物体漂浮、深度错误和颜色不一致。
  • 问题重要性: 在许多实际应用中,获取密集的、从各个角度拍摄的图像成本高昂或不切实际(例如,无人机拍摄、手持设备随意拍摄)。因此,开发一种能够从稀疏视图中高质量重建 3D 场景的技术具有重要的实用价值。
  • 现有挑战与空白 (Gap):
    1. 正则化方法不足: 传统方法通常在训练过程中引入一些先验知识作为正则化项(如要求表面平滑),但这往往不足以弥补大量缺失的视图信息。
    2. 泛化能力问题: 一些方法依赖于在大型多视图数据集上进行预训练,但当遇到与训练数据风格迥异的场景时,其性能会下降。
    3. 生成方法缺乏一致性: 直接使用生成模型(如扩散模型)来创建 3D 内容的方法,虽然能产生逼真的图像,但往往难以保证生成内容在不同视角下的几何一致性,不适用于精确的场景重建。
  • 创新思路: 本文的切入点非常巧妙:既然稀疏视图导致信息不足,那么是否可以利用强大的生成模型 (Generative Models) 来“凭空创造”出一些缺失的视图,从而将一个困难的稀疏视图问题转化为一个相对容易的密集视图问题?为了解决生成内容的一致性问题,作者提出了一种迭代优化的框架,让 高斯溅射模型扩散模型 相互协作、相互提升,并通过一个几何感知微调 (geometry-aware fine-tuning) 策略来确保生成视图的几何正确性。

2.2. 核心贡献/主要发现

本文最主要的贡献可以总结为以下三点:

  1. 提出 GS-GS 框架: 提出了一种名为 GS-GS 的新颖通用流程,它将预训练的扩散模型集成到 3D/4D 高斯溅射中,通过生成额外的虚拟视图来显著提升稀疏输入下的重建质量。
  2. 强制几何一致性: 设计了一种几何感知扩散微调 (Geometry-aware Diffusion Fine-Tuning) 策略。该策略通过强制不同视图间特征的语义对应关系,确保扩散模型生成的“幻想”视图与真实场景的几何结构精确对齐,有效解决了传统生成方法中的视图不一致问题。
  3. 实现 SOTA 性能: 在多个具有挑战性的 3D 静态和 4D 动态场景数据集上进行了广泛实验,结果表明 GS-GS 在渲染质量上全面超越了现有的最先进方法,并且基本保持了高斯溅射的高效率特性。

3. 预备知识与相关工作

3.1. 基础概念

3.1.1. 3D 高斯溅射 (3D Gaussian Splatting, 3DGS)

3D 高斯溅射 是一种用于表示和渲染 3D 场景的新技术。与传统的使用网格 (mesh) 或体素 (voxel) 的方法不同,它将 3D 场景表示为成千上万个微小的、带有色彩和透明度的 3D 高斯球 (3D Gaussians) 的集合。

  • 核心构成: 每个 3D 高斯球由以下参数定义:
    • 位置 (μ\pmb{\mu}): 在 3D 空间中的中心点。
    • 协方差矩阵 (Σ\pmb{\Sigma}):缩放因子 (s\pmb{s})旋转四元数 (q\pmb{q}) 共同决定,描述了高斯球的形状和朝向(可以被拉伸或压扁成椭球体)。
    • 颜色 (cc): 高斯球的 RGB 颜色。
    • 不透明度 (α\alpha): 高斯球的透明度。
  • 渲染过程: 当需要从某个特定视角生成一张 2D 图像时,3DGS 会执行以下步骤:
    1. 投影: 将场景中所有的 3D 高斯球投影到 2D 图像平面上,形成一系列 2D 高斯椭圆。

    2. 排序: 将这些 2D 高斯椭圆从前到后进行排序。

    3. 溅射 (Splatting)/混合: 像喷墨一样,将这些排好序的 2D 高斯椭圆的颜色和不透明度“溅射”到像素网格上,并按照 α\alpha-blending 的方式进行混合,最终计算出每个像素的颜色值。

      这个过程是完全可微分的,因此可以利用梯度下降法,通过比较渲染图像和真实训练图像的差异来优化所有高斯球的参数。由于其基于光栅化的渲染方式,3DGS 相比 NeRF 等方法渲染速度极快,可以达到实时效果。

3.1.2. 扩散模型 (Diffusion Models)

扩散模型 是一类强大的深度生成模型,尤其在图像生成领域取得了巨大成功,例如 Stable Diffusion。其核心思想源于物理学中的扩散过程。

  • 工作原理:
    1. 前向过程 (Forward Process): 从一张清晰的真实图像开始,在一个预设的步数(如 1000 步)内,逐步地、微量地向图像中添加高斯噪声,直到图像最终变成完全纯粹的随机噪声。这个过程是固定的,不需要学习。
    2. 反向过程 (Reverse Process): 这是模型学习的核心。训练一个深度神经网络(通常是 UNet 架构),让它学会如何“撤销”前向过程中的每一步加噪操作。即,给定一张带有特定程度噪声的图像和当前的时间步,网络需要预测出添加到原始图像上的噪声。
  • 图像生成: 当需要生成一张新图像时,模型从一个纯粹的随机噪声图开始,利用训练好的神经网络,一步一步地进行去噪,最终“雕琢”出一张清晰、逼真的图像。
  • 条件生成: 现代扩散模型,如 Stable Diffusion,是潜扩散模型 (Latent Diffusion Model, LDM),它在更低维度的“潜空间”中执行扩散过程以提高效率。同时,它可以通过引入条件输入(如文本描述、深度图、边缘图等)来控制生成内容。本文中使用的 T2I-Adapter 就是一种轻量级模块,用于将外部的控制信号(如深度图)有效地注入到预训练的扩散模型中。

3.2. 前人工作

  • 新视角合成 (Novel view synthesis):
    • NeRF (Neural Radiance Fields): 使用一个神经网络来表示一个连续的 3D 场景。通过查询空间点 (x, y, z) 和视角方向 (dx,dy,dz)(d_x, d_y, d_z),网络输出该点的颜色和密度。通过体积渲染 (volume rendering) 技术合成图像。NeRF 质量高但速度慢。
    • 3DGS (3D Gaussian Splatting): 即本文的基础模型,如上所述,使用离散的 3D 高斯体表示场景,渲染速度快。
  • 稀疏视图新视角合成 (Sparse-view novel view synthesis):
    • 基于正则化的方法 (Regularization-based):
      • RegNeRFDietNeRF 等方法通过引入额外的损失函数(正则化项)来约束 NeRF 的优化过程,使其在稀疏视图下学到更平滑或更合理的几何形状。
      • DNGaussianFSGS 等方法将类似的思想应用于 3DGS,例如使用从单目深度估计模型中得到的深度图作为监督信号,来正则化高斯球的几何位置。
    • 基于前馈的方法 (Feed-forward models):
      • 这类模型通常在包含大量场景和视图的大规模数据集上进行训练,学习一种通用的从少数几张输入图直接推断新视图的能力。但其泛化性是主要挑战。
  • 利用 2D 扩散先验进行 3D/4D 生成 (Lifting 2D diffusion models for 3D/4D generation):
    • DreamFusion: 一个开创性的工作,它利用一个预训练的文本到图像扩散模型作为“裁判”(通过一种名为 Score Distillation Sampling, SDS 的技术),从纯文本描述中生成 3D 模型。这类方法主要用于内容创作 (generation),而非从图像中进行场景重建 (reconstruction),因此几何精度不高。

3.3. 技术演进

该领域的技术演进路线清晰可见:

  1. 从 NeRF 到 3DGS: 为了解决 NeRF 的渲染速度瓶颈,学术界转向了更高效的显式表示,3DGS 是其中的佼佼者,实现了实时高质量渲染。
  2. 解决稀疏视图问题: 当 3DGS 在稀疏视图下暴露出问题后,研究者们首先尝试了在 NeRF 上被验证有效的正则化策略。
  3. 引入强大的生成先验: 随着扩散模型在 2D 图像生成上展现出惊人的能力,研究者开始思考如何利用这种强大的“想象力”(即先验知识)来弥补稀疏视图中缺失的信息。 本文正处在这一技术脉络的前沿,它不仅引入了扩散模型,更关键的是设计了一套机制来约束这种想象力,使其服务于精确的场景重建,而非天马行空的创作。

3.4. 差异化分析

与相关工作相比,本文的核心区别和创新点在于:

  • 目标不同:DreamFusion 等方法旨在从零创造 3D 内容不同,GS-GS 的目标是精确重建一个已有但观测不充分的 3D 场景。
  • 方法不同:
    • 相较于 DNGaussian 等正则化方法,GS-GS 不仅仅是使用外部模型的预测(如深度图)作为弱监督,而是主动生成全新的、完整的、高质量的视图数据来充实训练集。
    • 相较于其他利用扩散模型的方法,GS-GS 提出了一个双向优化的闭环系统:GS 模型为扩散模型提供场景定制化的训练数据,而优化后的扩散模型反过来为 GS 模型提供高质量的伪视图。
    • 最关键的创新在于几何感知微调,它通过在特征空间中对齐不同视角的图像,直接解决了生成模型的核心痛点——多视图几何一致性,这是之前工作很少关注或未能有效解决的。

4. 方法论

4.1. 方法原理

GS-GS 的核心思想是构建一个 高斯溅射模型 (GS Model)扩散模型 (Diffusion Model) 之间的共生迭代优化循环。

  1. 初始阶段: 仅用稀疏的几张输入图像,训练一个粗糙的 GS 模型。

  2. 迭代循环:

    • GS -> Diffusion: 当前的 GS 模型负责渲染出大量图像,包括在真实相机位置的渲染图和在虚拟“伪视图”位置的渲染图(包含彩色图和深度图)。这些图像构成了用于“个性化”扩散模型的训练数据。
    • Diffusion -> GS: 经过个性化微调后,扩散模型变得更懂当前场景的风格和结构。然后,它利用 GS 模型提供的伪视图深度图作为几何约束,生成一批高质量、逼真的“幻想”图像。
    • GS 优化: 将这些新生成的幻想图像视为真实的训练数据,连同原始的稀疏图像一起,共同优化 GS 模型,使其变得更精细、更准确。
  3. 循环往复: 这个循环不断重复,每一次迭代,GS 模型的质量都会提升,从而能为扩散模型提供更好的训练数据;而扩散模型也会生成更一致、更逼真的伪视图,进一步促进 GS 模型的优化。

    这个过程通过一个创新的几何感知微调策略来保证生成视图的几何正确性,并辅以深度正则化来进一步强化几何细节。

4.2. 核心方法详解 (逐层深入)

4.2.1. 整体框架:交替优化 (Alternating Optimization)

整个方法可以被形式化为一个双层优化问题。我们的最终目标是优化 GS 模型的参数 θ\pmb{\theta},但这个优化依赖于由扩散模型生成的伪视图 I~j\tilde{I}_j。同时,生成这些伪视图的扩散模型参数 Θ\Theta 又需要根据当前场景进行适配。

上层:场景重建 (Scene Reconstruction) 优化 GS 模型的参数 θ\pmb{\theta},其目标是最小化渲染图像与真实图像及生成图像之间的差异。 θ=argminθi=1NLGS(R(Pi;θ),Ii)+j=1N~LGS(R(P~j;θ),I~j) \pmb{\theta}^{*} = \arg\min_{\pmb{\theta}} \sum_{i=1}^{N} \mathcal{L}_{\mathrm{GS}}\big(R(P_i; \pmb{\theta}), I_i\big) + \sum_{j=1}^{\tilde{N}} \mathcal{L}_{\mathrm{GS}}\big(R(\tilde{P}_j; \pmb{\theta}), \tilde{I}_j\big)

  • θ\pmb{\theta}^*: 最终优化的 GS 模型参数。
  • R(Pi;θ)R(P_i; \pmb{\theta}): 使用参数为 θ\pmb{\theta} 的 GS 模型在真实相机位姿 PiP_i 处渲染出的图像。
  • IiI_i: 真实观测到的输入图像。
  • R(P~j;θ)R(\tilde{P}_j; \pmb{\theta}): 在伪视图位姿 P~j\tilde{P}_j 处渲染出的图像。
  • I~j\tilde{I}_j: 由扩散模型在伪视图位姿 P~j\tilde{P}_j 处生成的图像。
  • LGS\mathcal{L}_{\mathrm{GS}}: 场景重建损失,通常包括 L1 损失和 D-SSIM 损失。

下层:模型适配与视图生成 (Model Adaptation & View Generation) 这一层负责提供上层优化所需的伪视图 I~j\tilde{I}_j。它包含两个步骤:

  1. 模型适配 (Model Adaptation): 微调扩散模型的参数 Θ\Theta,使其适应当前场景。 Θ=argminΘi=1NLLDM(Ii,yi;Θ) \Theta^{*} = \arg\min_{\Theta} \sum_{i=1}^{N} L_{\mathrm{LDM}}(I_i, y_i; \Theta)
  2. 视图生成 (View Generation): 使用优化后的扩散模型 ϵΘ\epsilon_{\Theta^*} 生成伪视图。 I~j=sample[ϵΘ(y~j)] \tilde{I}_j = \mathsf{sample}[\epsilon_{\Theta^*}(\tilde{y}_j)] 由于这个双层问题难以直接求解,论文采用了一种交替优化的策略,具体流程在下面的算法中详细描述。

下图(原文 Algorithm 1)清晰地展示了整个联合优化流程: 算法 1:基于扩散先验的 3D/4DGS 联合优化

  1. 输入: 稀疏视图图像 T\mathcal{T} 和位姿 P\mathcal{P},伪视图位姿 P~\tilde{\mathcal{P}},预训练的扩散模型、深度适配器和 LoRA 模块。
  2. 初始化循环:
  3.     用稀疏图像 T\mathcal{T} 和位姿 P\mathcal{P} 训练一个初始的 GS 模型。
  4. 结束初始化循环
  5. 主训练循环:
  6.     使用当前 GS 模型,在真实位姿 P\mathcal{P} 和伪位姿 P~\tilde{\mathcal{P}} 上渲染图像。
  7.     微调 LoRA 循环:
  8.         使用第 6 步渲染出的图像,优化扩散模型的 LoRA 参数。
  9.     结束 LoRA 微调循环
  10.     使用微调后的扩散模型,更新(重新生成)伪视图图像 T~\tilde{\mathcal{T}}
  11.     优化 GS 循环:
  12.         使用真实的图像 T\mathcal{T} 和新生成的伪视图图像 T~\tilde{\mathcal{T}} 来优化 GS 模型。
  13.     结束 GS 优化循环
  14. 结束主训练循环
  15. 输出: 优化好的 3D/4D GS 模型。

4.2.2. 几何感知扩散微调 (Geometry-aware Diffusion Fine-Tuning)

这是确保生成视图一致性的核心模块。单纯地用渲染图微调扩散模型(通过 LoRA)只能让模型学习到场景的外观,但无法保证几何的严格一致性。该模块通过引入一个额外的几何约束损失来解决这个问题。

其直觉是:如果我从一个虚拟视角 P~\tilde{P} 生成了一张图像 I~\tilde{I},然后利用已知的相机参数将这张图“投影”或“变换”到另一个已知的真实视角 PP 上,那么变换后的图像 I~R,T\tilde{I}_{R,T} 应该和在这个真实视角 PP 上的真实图像 II 在内容和结构上非常相似。我们不在像素层面比较它们,而是在扩散模型的深度特征空间中进行比较,因为这些特征包含了更丰富的语义和结构信息。

下图(原文 Figure 2)展示了该模块的工作流程:

该图像是一个示意图,展示了3D/4D Gaussian Splatting模型及其伪视图的更新过程。图中包含的关键元素包括训练视图、伪视图和深度估计模型,结合扩散模型和几何感知特征损失,提升了图像生成的质量与一致性。 该图像是一个示意图,展示了3D/4D Gaussian Splatting模型及其伪视图的更新过程。图中包含的关键元素包括训练视图、伪视图和深度估计模型,结合扩散模型和几何感知特征损失,提升了图像生成的质量与一致性。

  1. 输入: GS 模型在伪视图 P~\tilde{P} 渲染的图像 I~\tilde{I},以及在真实训练视图 PP 的真实图像 II

  2. 视图变换 (Warping): 利用已知的从 P~\tilde{P}PP 的相机变换参数 {R,T}\{R, T\},将图像 I~\tilde{I} 变换到 PP 的视角,得到变换后的图像 I~R,T\tilde{I}_{R,T}

  3. 特征提取:

    • 将真实图像 II 输入到带有待优化 LoRA 模块的扩散模型中,提取其中间的某个特征图 ftrainf_{train}
    • 将变换后的图像 I~R,T\tilde{I}_{R,T} 也输入到同一个模型中,提取对应的特征图 f'_{train}
  4. 损失计算: 理想情况下,由于 III~R,T\tilde{I}_{R,T} 处于同一视角,它们的深度特征 ftrainf_{train}f'_{train} 应该非常接近。因此,在微调 LoRA 模块时,除了标准的扩散模型损失外,还额外增加一个 L1 损失来拉近这两个特征。

    最终,微调 LoRA 模块的总损失函数为: LΘ=LLDM(I,y;Θ)+LLDM(I~R,T,y;Θ)+λgeoftrain,ftrain \mathcal{L}_{\Theta} = \mathcal{L}_{LDM}(I, y; \Theta) + \mathcal{L}_{LDM}(\tilde{I}_{R,T}, y; \Theta) + \lambda_{geo} \| f_{train}, f'_{train} \|

  • LLDM(,y;Θ)\mathcal{L}_{LDM}(\cdot, y; \Theta): 这是扩散模型标准的训练损失,旨在让模型学会去噪。III~R,T\tilde{I}_{R,T} 都被用作训练数据。
  • λgeo\lambda_{geo}: 是一个超参数,用于平衡几何一致性损失的权重。
  • ftrain,ftrain\| f_{train}, f'_{train} \|: 新增的几何感知特征损失,强制模型生成的视图在变换后与真实视图的深层特征保持一致。

4.2.3. 高斯优化的深度正则化 (Depth Regularization for Gaussian Optimization)

尽管伪视图幻想流程能够生成几何感知的图像,但这些图像毕竟不是完美的,直接用于训练 GS 模型可能会引入一些模糊或不一致。为了给 GS 模型提供更强的几何约束,作者额外引入了一个深度正则化项。

这个过程如下:

  1. 对于任意一个视图(无论是真实的还是伪视图),首先使用 GS 模型渲染出其对应的彩色图像 II 和深度图 DGSD_{GS}
  2. 使用一个预训练的、强大的单目深度估计模型(本文使用 DPT)来从渲染出的彩色图像 II 中预测一个深度图 DDPTD_{DPT}
  3. DDPTD_{DPT} 提供了一个关于场景几何结构的合理“先验”。我们的目标是让 GS 模型自身的深度渲染 DGSD_{GS} 与这个先验 DDPTD_{DPT}结构上保持一致。
  4. 由于绝对深度值可能存在尺度和偏移的不确定性,作者首先对两个深度图进行归一化处理: DGSnorm=DGSμDGSσDGS D_{\mathrm{GS}}^{norm} = \frac{D_{\mathrm{GS}} - \mu_{D_{\mathrm{GS}}}}{\sigma_{D_{\mathrm{GS}}}} DDPTnorm=DDPTμDDPTσDDPT D_{\mathrm{DPT}}^{norm} = \frac{D_{\mathrm{DPT}} - \mu_{D_{\mathrm{DPT}}}}{\sigma_{D_{\mathrm{DPT}}}}
    • μ\muσ\sigma 分别是对应深度图的均值和方差。
  5. 不同于以往工作直接计算 L1 或 L2 损失,本文计算两个归一化深度图之间的多尺度结构相似性 (MS-SSIM)。MS-SSIM 能够更好地捕捉图像的结构信息(如边缘、轮廓),对微小的像素值差异不那么敏感。正则化损失项定义为: Lreg=MSSSIM(DDPTnorm,DGSnorm) \mathcal{L}_{\mathrm{reg}} = - \mathbf{MS-SSIM}(D_{\mathrm{DPT}}^{norm}, D_{\mathrm{GS}}^{norm})
    • 通过最小化 Lreg\mathcal{L}_{\mathrm{reg}},相当于最大化 DGSD_{GS}DDPTD_{DPT} 之间的结构相似性。

4.2.4. 最终优化损失

最终,训练 3D/4D GS 模型的总损失函数由标准的光度损失 (photometric loss) 和新增的深度正则化损失组成: LGS(R(;θ))=L1(R(P;θ),T)+L1(R(P~;θ),T~)+λLDSSIM(R(P;θ),T)+λLDSSIM(R(P~;θ),T~)+λregLreg \begin{aligned} \mathcal{L}_{\mathrm{GS}}\big(R(\cdot; \pmb{\theta})\big) = & \mathcal{L}_{1}(R(\mathcal{P}; \pmb{\theta}), \mathcal{T}) + \mathcal{L}_{1}(R(\tilde{\mathcal{P}}; \pmb{\theta}), \tilde{\mathcal{T}}) \\ & + \lambda \mathcal{L}_{\mathrm{D-SSIM}}(R(\mathcal{P}; \pmb{\theta}), \mathcal{T}) + \lambda \mathcal{L}_{\mathrm{D-SSIM}}(R(\tilde{\mathcal{P}}; \pmb{\theta}), \tilde{\mathcal{T}}) \\ & + \lambda_{\mathrm{reg}} \mathcal{L}_{\mathrm{reg}} \end{aligned}

  • L1\mathcal{L}_{1}: 渲染图像与目标图像(真实的或生成的)之间的 L1 像素差损失。
  • LDSSIM\mathcal{L}_{\mathrm{D-SSIM}}: 结构不相似性损失,是 1 - SSIM 的变体。
  • λ\lambdaλreg\lambda_{\mathrm{reg}}: 分别是 D-SSIM 损失和深度正则化损失的权重。
  • 这个损失函数同时作用于真实视图 (P,T\mathcal{P}, \mathcal{T}) 和伪视图 (P~,T~\tilde{\mathcal{P}}, \tilde{\mathcal{T}}) 上。

5. 实验设置

5.1. 数据集

实验在四个广泛使用的基准数据集上进行,覆盖了从合成物体到真实世界复杂场景,以及静态和动态场景。

  • Blender (NeRF Blender Synthetic dataset): 包含8个具有复杂几何和视图相关效果的合成物体场景。实验采用稀疏设置,使用 8 个视图进行训练。
  • LLFF (Local Light Field Fusion): 包含8个真实世界前向场景。遵循标准稀疏设置,从所有图像中均匀采样 3 个视图进行训练。
  • Mip-NeRF360: 包含9个大规模、无边界的真实世界室外场景,相机轨迹是360度环绕式的。训练视图数量设置为 24 个
  • Neural 3D Video: 包含6个由多台相机(18-21台)捕捉的室内动态视频序列。由于没有专门针对稀疏视图动态场景重建的方法,作者创建了一个新的基准设置:从所有可用视图中均匀采样 3 个视图进行训练。

5.2. 评估指标

为了全面评估渲染质量,论文使用了三个标准的图像质量评估指标。

5.2.1. PSNR (Peak Signal-to-Noise Ratio)

  • 概念定义: 峰值信噪比 (PSNR) 是衡量图像质量最常用的指标之一。它通过计算渲染图像与真实图像之间像素级别的均方误差 (MSE) 来衡量重建的保真度。PSNR 的值越高,表示渲染图像与真实图像越接近,失真越小。它对像素级别的精确度非常敏感。
  • 数学公式: PSNR=10log10(MAXI2MSE) \mathrm{PSNR} = 10 \cdot \log_{10}\left(\frac{\mathrm{MAX}_I^2}{\mathrm{MSE}}\right) 其中, MSE=1mni=0m1j=0n1[I(i,j)K(i,j)]2 \mathrm{MSE} = \frac{1}{mn}\sum_{i=0}^{m-1}\sum_{j=0}^{n-1}[I(i,j) - K(i,j)]^2
  • 符号解释:
    • MAXI\mathrm{MAX}_I: 图像像素值的最大可能值(例如,对于 8 位灰度图像,它是 255)。
    • II: 真实图像 (Ground Truth)。
    • KK: 渲染出的图像。
    • m, n: 图像的高度和宽度。
    • I(i,j), K(i,j): 在像素位置 (i,j) 的像素值。

5.2.2. SSIM (Structural Similarity Index)

  • 概念定义: 结构相似性指数 (SSIM) 从人类视觉感知的角度来评估图像质量,它认为人类视觉系统主要关注图像中的结构信息。SSIM 从亮度、对比度和结构三个方面来比较两张图像的相似性。其取值范围在 -1 到 1 之间,值越接近 1,表示两张图像在结构上越相似。
  • 数学公式: SSIM(x,y)=(2μxμy+c1)(2σxy+c2)(μx2+μy2+c1)(σx2+σy2+c2) \mathrm{SSIM}(x, y) = \frac{(2\mu_x\mu_y + c_1)(2\sigma_{xy} + c_2)}{(\mu_x^2 + \mu_y^2 + c_1)(\sigma_x^2 + \sigma_y^2 + c_2)}
  • 符号解释:
    • x, y: 分别代表真实图像和渲染图像中的一个图像块 (patch)。
    • μx,μy\mu_x, \mu_y: 图像块 xxyy 的平均值。
    • σx2,σy2\sigma_x^2, \sigma_y^2: 图像块 xxyy 的方差。
    • σxy\sigma_{xy}: 图像块 xxyy 的协方差。
    • c1,c2c_1, c_2: 用于维持稳定性的两个小常数。

5.2.3. LPIPS (Learned Perceptual Image Patch Similarity)

  • 概念定义: 学习型感知图像块相似度 (LPIPS) 是一种更接近人类感知判断的图像质量评估指标。它通过计算两张图像在深度神经网络(如 AlexNet, VGG)的特征空间中的距离来衡量它们的相似度。如果两张图像在经过深度网络提取特征后,其特征向量非常接近,那么 LPIPS 值就低,说明这两张图像在感知上非常相似。LPIPS 值越低越好。
  • 数学公式: d(x,x0)=l1HlWlh,wwl(y^hwly^0hwl)22 d(x, x_0) = \sum_l \frac{1}{H_l W_l} \sum_{h,w} \| w_l \odot ( \hat{y}_{hw}^l - \hat{y}_{0hw}^l ) \|_2^2
  • 符号解释:
    • d(x,x0)d(x, x_0): 图像 xxx0x_0 之间的 LPIPS 距离。
    • ll: 神经网络的第 ll 层。
    • y^l,y^0l\hat{y}^l, \hat{y}_0^l: 从图像 xxx0x_0 中提取的第 ll 层的特征图。
    • Hl,WlH_l, W_l: 第 ll 层特征图的高度和宽度。
    • wlw_l: 用于缩放不同通道激活值的权重向量。
    • \odot: 逐元素相乘。

5.3. 对比基线

本文将 GS-GS 与多个当前最先进的稀疏视图新视角合成方法进行了比较,涵盖了基于 NeRF 和基于 3DGS 的两大类:

  • 基于 NeRF 的方法: Mip-NeRF, DietNeRF, RegNeRF, FreeNeRF, SparseNeRF

  • 基于 3DGS 的方法: 3DGS (原始方法), DNGaussian, FSGS

  • 动态场景基线: SpacetimeGS (一个先进的 4DGS 方法),在稀疏视图设置下作为基准。

    这些基线具有代表性,因为它们是解决稀疏视图问题的经典或当前性能最好的方法。

6. 实验结果与分析

6.1. 核心结果分析

6.1.1. 静态 3D 场景重建

以下是原文 Table 1 的结果,展示了在三个静态场景数据集上的定量比较:

Method Blender LLFF Mip-NeRF360
PSNR↑ SSIM↑ LPIPS↓ PSNR↑ SSIM↑ LPIPS↓ PSNR↑ SSIM↑ LPIPS↓
Mip-NeRF [1] 20.89 0.830 0.168 16.11 0.401 0.460 19.51 0.517 0.413
3DGS [15] 21.56 0.847 0.130 17.43 0.522 0.321 20.89 0.588 0.401
DietNeRF [14] 22.50 0.823 0.124 14.94 0.370 0.496 20.21 0.482 0.452
RegNeRF [27] 23.86 - - - - - 22.19 - -
FreeNeRF [44] 24.26 0.852 0.105 19.08 0.587 0.336 22.78 0.546 0.398
SparseNeRF [39] 24.04 0.883 0.098 19.63 0.612 0.308 - 0.587 0.377
DNGaussian [18] 24.31 0.876 0.113 19.86 0.328 0.328 22.85 0.600 0.389
FSGS [51] 24.64 0.886 0.088 20.31 0.652 0.288 23.70 0.693 0.293
Ours 28.57 0.923 0.055 24.82 0.737 0.105 25.87 0.745 0.182

分析:

  • 压倒性优势: 从表格中可以清晰地看到,GS-GS (Ours) 在所有三个数据集的所有三个指标上,都显著超越了所有对比基线。

  • Blender 数据集: PSNR 达到了 28.57,比次优的 FSGS (24.64) 高出超过 4 dB,这是一个非常巨大的提升。这表明在合成数据集上,生成高质量伪视图的方法非常有效。

  • LLFF 和 Mip-NeRF360 数据集: 在更具挑战性的真实世界数据上,GS-GS 同样表现出色。在 LLFF 数据集上,PSNR 比 FSGS 提升了约 4.5 dB;在 Mip-NeRF360 上也提升了超过 2 dB。这证明了该方法的鲁棒性和在复杂场景下的有效性。

  • 定性结果: 下图(原文 Figure 4 和 Figure 5的一部分)的视觉对比也印证了定量结果。基线方法如 3DGS 和 DNGaussian 渲染的图像存在明显的几何错误和细节模糊,而 GS-GS 能够恢复出非常精细的细节(如厨房场景中的乐高积木),其结果与真实图像非常接近。

    该图像是一个示意图,展示了在不同数据集(Blender、LLFF 和 Mip-NeRF360)上应用生成稀疏视图高斯溅射(GS-GS)方法的渲染效果。左侧为真实场景与其他方法的对比,右侧为本研究提出的方法。图中呈现了不同视角下的渲染结果,表现出改进的几何一致性和渲染质量。 该图像是一个示意图,展示了在不同数据集(Blender、LLFF 和 Mip-NeRF360)上应用生成稀疏视图高斯溅射(GS-GS)方法的渲染效果。左侧为真实场景与其他方法的对比,右侧为本研究提出的方法。图中呈现了不同视角下的渲染结果,表现出改进的几何一致性和渲染质量。

6.1.2. 动态 4D 场景重建

以下是原文 Table 2 的结果,展示了在 Neural 3D Video 数据集上不同训练视图数量下的性能:

Method 3 Views 6 Views 9 Views
PSNR↑ SSIM↑ LPIPS↓ PSNR↑ SSIM↑ LPIPS↓ PSNR↑ SSIM↑ LPIPS↓
SpacetimeGS [20] 14.98 0.774 0.327 25.15 0.895 0.163 26.72 0.913 0.165
Ours 27.13 0.907 0.135 29.20 0.916 0.117 30.21 0.928 0.082

分析:

  • 通用性强: 该结果证明了 GS-GS 框架的通用性,它不仅适用于静态 3D 场景,也可以无缝地应用于动态 4D 场景(在 SpacetimeGS 的基础上)。

  • 极端稀疏情况下的巨大提升: 在仅有 3 个视图的极端稀疏情况下,基线 SpacetimeGS 几乎完全失效(PSNR 仅 14.98),而 GS-GS 能够达到 27.13 的 PSNR,提升超过 12 dB,效果天差地别。

  • 性能上限更高: 随着视图数量增加,GS-GS 始终能保持比基线方法更高的性能,说明生成伪视图的策略能够持续地提供有效信息。

  • 定性结果: 下图(原文 Figure 5,文本中误标为 Figure 6)的视觉结果非常直观。在 3 视图情况下,SpacetimeGS 的结果充满了噪点和错误的颜色,而 GS-GS 的结果清晰且保真度高。

    该图像是示意图,展示了在不同视图数量下,针对两个场景(“Cook Spanish”和“Cut Roasted Beef”)的视图合成结果。各行分别表示真实图像(GT)和两种方法(SpacetimeGS与我们的GS-GS)生成的合成图像,比较了3、6和9视图情境下的渲染效果。图中呈现了生成图像在视图一致性与细节方面的表现差异。 该图像是示意图,展示了在不同视图数量下,针对两个场景(“Cook Spanish”和“Cut Roasted Beef”)的视图合成结果。各行分别表示真实图像(GT)和两种方法(SpacetimeGS与我们的GS-GS)生成的合成图像,比较了3、6和9视图情境下的渲染效果。图中呈现了生成图像在视图一致性与细节方面的表现差异。

6.2. 消融实验/参数分析

为了验证 GS-GS 中各个组件的有效性,作者进行了一系列消融实验。 以下是原文 Table 3 的消融实验结果:

w/o diffusion hallucination diffusion w/o geometry-aware fine-tuning w/o depth reg. full model
Mip-NeRF360 [2] 20.89 23.23 25.28 25.87
LLFF [22] 17.43 22.71 24.09 24.82

下图(原文 Figure 6,文本中误标为 Figure 7)展示了定性对比:

Figure 6. Ablation studies for the proposed modules. We ablate for each component of our GS-GS.

分析:

  1. w/o diffusion hallucination (无扩散幻想): 这相当于只使用原始的稀疏视图训练 3DGS 模型。结果最差(LLFF 数据集 PSNR 仅 17.43),证明了在稀疏视图下,仅靠原始数据是远远不够的。
  2. diffusion w/o geometry-aware fine-tuning (有扩散幻想但无几何感知微调): 引入了扩散模型生成伪视图,性能大幅提升(LLFF 数据集 PSNR 提升至 22.71)。这证明了生成额外视图这一核心思路的有效性。但是,从定性结果看,图像虽然内容更丰富,但整体较为模糊,细节不清晰。这是因为生成的视图之间缺乏严格的几何一致性。
  3. w/o depth reg. (无深度正则化): 在上一步的基础上,加入了几何感知微调。性能再次大幅提升(LLFF 数据集 PSNR 达到 24.09)。这证明了几何感知微调是整个方法成功的关键,它有效解决了视图一致性问题,使得渲染结果变得清晰和几何准确。
  4. full model (完整模型): 最后,加入深度正则化,性能得到进一步的微小提升(LLFF 数据集 PSNR 达到 24.82)。这表明深度正则化作为一个辅助模块,能够帮助模型优化和恢复更精细的几何细节。

7. 总结与思考

7.1. 结论总结

本文提出了一种名为 GS-GS (Generative Sparse-view Gaussian Splatting) 的通用流程,旨在解决 3D/4D 高斯溅射在稀疏视图输入下的性能瓶颈。该方法巧妙地利用预训练的扩散模型来“幻想”并生成位于新视角的图像,从而有效增加了训练数据。其核心创新在于设计了一个几何感知微调策略,通过强制多视图间的特征一致性,确保了生成内容的几何准确性。大量的实验证明,GS-GS 在多个

相似论文推荐

基于向量语义检索推荐的相关论文。

暂时没有找到相似论文。