AiPaper
论文状态:已完成

GaussianObject: High-Quality 3D Object Reconstruction from Four Views with Gaussian Splatting

发表:2024/02/16
原文链接PDF 下载
价格:0.10
价格:0.10
已有 3 人读过
本分析由 AI 生成,可能不完全准确,请以原文为准。

TL;DR 精炼摘要

本文提出GaussianObject方法,利用高斯泼溅技术结合视觉外壳和漂浮物消除实现仅凭四张图像对三维物体进行高质量重建。通过基于扩散模型的高斯修复补全缺失信息,并设计无COLMAP相机姿态需求的变体,显著超越现有稀疏视角三维重建方法。

摘要

Reconstructing and rendering 3D objects from highly sparse views is of critical importance for promoting applications of 3D vision techniques and improving user experience. However, images from sparse views only contain very limited 3D information, leading to two significant challenges: 1) Difficulty in building multi-view consistency as images for matching are too few; 2) Partially omitted or highly compressed object information as view coverage is insufficient. To tackle these challenges, we propose GaussianObject, a framework to represent and render the 3D object with Gaussian splatting that achieves high rendering quality with only 4 input images. We first introduce techniques of visual hull and floater elimination, which explicitly inject structure priors into the initial optimization process to help build multi-view consistency, yielding a coarse 3D Gaussian representation. Then we construct a Gaussian repair model based on diffusion models to supplement the omitted object information, where Gaussians are further refined. We design a self-generating strategy to obtain image pairs for training the repair model. We further design a COLMAP-free variant, where pre-given accurate camera poses are not required, which achieves competitive quality and facilitates wider applications. GaussianObject is evaluated on several challenging datasets, including MipNeRF360, OmniObject3D, OpenIllumination, and our-collected unposed images, achieving superior performance from only four views and significantly outperforming previous SOTA methods. Our demo is available at https://gaussianobject.github.io/, and the code has been released at https://github.com/GaussianObject/GaussianObject.

思维导图

论文精读

中文精读

1. 论文基本信息

1.1. 标题

GaussianObject: High-Quality 3D Object Reconstruction from Four Views with Gaussian Splatting

1.2. 作者

CHEN YANG, SIKUANG LI, JIEMIN FANG, RUOFAN LIANG, LINGXI XIE, XIAOPENG ZHANG, WEI SHEN, QI TIAN

1.3. 发表期刊/会议

ACM Transactions on Graphics (ACM Trans. Graph.), 43, 6 (December 2024)。 该期刊是计算机图形学领域的顶级刊物,具有极高的声誉和影响力,通常发表高质量、有重要突破性的研究成果。

1.4. 发表年份

2024年

1.5. 摘要

从高度稀疏的视角重建和渲染三维物体对于推动三维视觉技术应用和改善用户体验至关重要。然而,稀疏视角图像只包含非常有限的三维信息,导致两个显著挑战:1) 由于用于匹配的图像过少,难以建立多视角一致性;2) 由于视角覆盖不足,物体信息被部分遗漏或高度压缩。为解决这些挑战,本文提出了 GaussianObject,一个利用高斯泼溅 (Gaussian Splatting) 表示和渲染三维物体的框架,仅用4张输入图像即可实现高质量渲染。研究首先引入了视觉外壳 (visual hull) 和漂浮物消除 (floater elimination) 技术,这些技术在初始优化过程中明确注入结构先验 (structure priors),以帮助建立多视角一致性,生成一个粗糙的三维高斯表示。然后,构建了一个基于扩散模型 (diffusion models) 的高斯修复模型 (Gaussian repair model) 来补充遗漏的物体信息,在此过程中进一步细化高斯。为了训练修复模型,研究设计了一种自生成策略来获取图像对。此外,还设计了一个无需 COLMAP 的变体 (COLMAP-free variant),它不需要预先提供精确的相机位姿 (camera poses),实现了具有竞争力的质量并促进了更广泛的应用。GaussianObject 在多个具有挑战性的数据集上进行了评估,包括 MipNeRF360、OmniObject3D、OpenIllumination 以及本文收集的无位姿图像,仅从四个视角就取得了卓越的性能,并显著优于以前的最先进的 (state-of-the-art) 方法。

1.6. 原文链接

https://arxiv.org/abs/2402.10259

1.7. PDF 链接

https://arxiv.org/pdf/2402.10259v4.pdf 发布状态:预印本 (arXiv),最新版本v4于2024-02-15T18:42:33.000Z发布。

2. 整体概括

2.1. 研究背景与动机

2.1.1. 核心问题与重要性

论文致力于解决的核心问题是:如何从高度稀疏的视角 (highly sparse views),例如仅四张图像,重建出高质量的三维物体 (high-quality 3D objects) 并进行渲染。这个问题在当前三维视觉领域具有重要的实际应用价值和理论研究意义。

  • 应用价值: 高质量的三维重建技术是游戏/电影制作中的三维资产创建、增强现实/虚拟现实 (AR/VR) 产品开发以及其他下游应用的关键基础。
  • 用户体验: 传统的重建方法通常需要数十张甚至更多的多视角图像,这对于普通用户来说操作繁琐,且在某些场景下(如大型物体、受限空间)甚至不切实际。简化数据采集过程,降低用户门槛,是提升三维视觉技术普及度的关键。

2.1.2. 现有研究挑战与空白

当前的最先进的 (state-of-the-art) 三维重建方法在处理高度稀疏视角时面临显著挑战:

  1. 多视角一致性 (Multi-view Consistency) 难以建立: 极少数的输入图像提供了有限的几何约束。这使得三维表示容易过拟合 (overfit) 到输入图像,导致重建出的物体结构破碎,或者在新颖视角合成 (novel view synthesis) 时出现不合理的伪影。
  2. 物体信息遗漏或压缩 (Omitted or Compressed Object Information): 当视角覆盖范围不足时,物体的一些部分可能完全未被观察到,或者从极端视角观察时信息被高度压缩。这些缺失或不完整的细节仅凭稀疏的输入图像很难在三维空间中准确重建。
  3. 对精确相机位姿 (Camera Poses) 的依赖: 大多数方法依赖于像 COLMAP 这样的运动恢复结构 (Structure-from-Motion, SfM) 管道来获取精确的相机内外参。但在稀疏视角下,特征匹配 (feature matching) 往往不足,导致 SfM 结果不准确或完全失败,进一步限制了稀疏视角重建的实际应用。

2.1.3. 论文切入点与创新思路

本文的切入点在于利用三维高斯泼溅 (3D Gaussian Splatting, 3DGS) 这一显式且高效的表示,并针对稀疏视角下的挑战设计了一套全面的解决方案。其创新思路体现在:

  1. 显式结构先验注入: 针对多视角一致性问题,不再仅仅依赖数据驱动的学习,而是通过视觉外壳 (visual hull) 来初始化高斯分布,并结合漂浮物消除 (floater elimination) 来主动剔除不合理的几何结构,从而在初始阶段就注入强大的结构先验。
  2. 扩散模型驱动的信息修复: 针对物体信息遗漏或压缩问题,引入了基于扩散模型 (diffusion models)高斯修复模型 (Gaussian repair model)。该模型能够将受损的渲染图像转化为高保真图像,从而在三维高斯优化过程中补充缺失的细节。
  3. 自生成策略训练修复模型: 考虑到修复模型训练所需的大量图像对在现有数据集中稀缺,设计了留一法训练 (leave-one-out training)添加三维噪声 (adding 3D noises) 的自生成策略,有效地为修复模型提供了丰富的训练数据。
  4. 无需 COLMAP 的实用变体: 为了拓宽应用场景,提出了 CF-GaussianObject (COLMAP-free variant),通过整合像 DUSt3R 这样的稀疏匹配模型 (sparse matching model),摆脱对预先精确相机位姿的依赖,提升了方法的实用性。

2.2. 核心贡献/主要发现

本文的核心贡献 (core contributions)主要发现 (key findings) 总结如下:

  1. 结构先验辅助的稀疏视角三维高斯优化:

    • 提出了利用视觉外壳 (visual hull) 进行初始化的方法,为三维高斯 (3D Gaussians) 提供了粗略但有效的几何骨架,有效应对了稀疏视角下 SfM 点不足的问题。
    • 引入了漂浮物消除 (floater elimination) 技术,通过统计分析识别并移除优化过程中产生的无关高斯点(即漂浮物 (floaters)),增强了重建的几何准确性。
    • 这些结构先验的明确注入,显著帮助模型在高度稀疏输入下(仅4张图像)建立多视角一致性 (multi-view consistency),克服了以往方法容易过拟合和产生破碎结构的问题。
  2. 基于扩散模型的高斯修复模型:

    • 构建了一个创新的高斯修复模型 (Gaussian repair model),该模型基于 ControlNet扩散模型 (diffusion models),能够将粗糙三维高斯 (coarse 3D Gaussians) 渲染出的受损图像修复为高保真图像,从而补充了因稀疏视角而遗漏或压缩的物体信息。
    • 设计了独特的自生成策略 (self-generating strategy)(包括留一法训练 (leave-one-out training)添加三维噪声 (adding 3D noises)),有效地解决了训练修复模型所需图像对的稀缺问题,使得扩散模型能够为三维高斯提供高质量的先验指导。
    • 通过距离感知采样 (distance-aware sampling) 策略,在优化过程中将修复模型生成的图像用于细化三维高斯,显著提升了新颖视角合成 (novel view synthesis) 的渲染质量和细节表现。
  3. 无需 COLMAP 的实用变体 (CF-GaussianObject):

    • 提出了一个实用的 COLMAP-free (CF) 版本,通过整合像 DUSt3R 这样的先进稀疏匹配模型 (advanced sparse matching model) 来估计相机参数,使得方法无需预先提供精确的相机位姿即可工作。
    • CF-GaussianObject 在具有挑战性的数据集上取得了具有竞争力的重建性能,极大地拓宽了 GaussianObject 的实际应用场景,使其能应用于随意拍摄的图像。

主要发现:

  • GaussianObject 在 MipNeRF360、OmniObject3D、OpenIllumination 等多个挑战性数据集上,仅使用四个视角就取得了卓越的性能,显著优于现有的最先进的 (state-of-the-art) 方法,特别是在感知质量指标 (LPIPS) 上有大幅提升。
  • 定性结果显示,本文方法能够重建出更精细的细节和更高的视觉保真度,有效避免了其他方法在稀疏视角下常见的碎片化和模糊问题。
  • 消融实验验证了所提出每个组件(视觉外壳、漂浮物消除、高斯修复模型及其训练策略)的有效性。
  • 即使在视角数量增加时,GaussianObject 仍能保持优势,证明了其设计的鲁棒性和通用性。

3. 预备知识与相关工作

3.1. 基础概念

3.1.1. 三维高斯泼溅 (3D Gaussian Splatting, 3DGS)

概念定义: 3D Gaussian Splatting 是一种新颖的三维场景表示 (3D scene representation)渲染技术 (rendering technique),它将三维场景建模为一系列三维高斯分布的集合。每个三维高斯可以看作是一个具有位置、大小、方向和不透明度的椭球体,同时携带颜色信息。通过在图像平面上对这些高斯进行投影和混合,可以实现新颖视角合成 (novel view synthesis) 的实时渲染。

核心思想:

  • 显式表示:NeRF (Neural Radiance Fields) 等隐式表示不同,3DGS 使用显式的三维高斯作为基本单元,这使得其在优化和渲染时具有更高的效率和可控性。

  • 可微渲染: 3DGS 实现了从三维高斯到二维图像的可微渲染 (differentiable rendering),这意味着可以通过标准的反向传播优化高斯参数,使其与输入图像保持一致。

  • 渲染效率: 借助于基于 CUDA 的高效 rasterization (光栅化) 技术,3DGS 能够实现实时渲染 (real-time rendering),显著快于 NeRF

    高斯参数: 每个三维高斯 GiG_i 由以下几个参数定义:

  • 中心位置 (Center location) μi\mu_i: 三维高斯在世界坐标系中的中心点坐标。

  • 旋转四元数 (Rotation quaternion) qiq_i: 定义高斯的旋转方向。

  • 缩放向量 (Scaling vector) sis_i: 定义高斯在三个主轴方向上的尺度,从而决定其形状(椭球体或球体)。

  • 不透明度 (Opacity) σi\sigma_i: 定义高斯的透明度,影响其在渲染时的可见性。

  • 球面谐波系数 (Spherical Harmonic, SH coefficients) shish_i: 编码了高斯随视角变化的颜色信息,使得高斯能够表现出更丰富的视角依赖性外观 (view-dependent appearance)

    因此,一个场景 G\mathcal{G} 可以表示为所有高斯的集合: G={Gi:μi,qi,si,σi,shi}i=1P\mathcal{G} = \{G_i: \mu_i, q_i, s_i, \sigma_i, sh_i\}_{i=1}^P,其中 PP 是高斯点的总数。

3.1.2. 扩散模型 (Diffusion Models)

概念定义: 扩散模型 (Diffusion Models) 是一类强大的生成模型 (generative models),它们通过模拟一个前向扩散过程 (forward diffusion process) 和一个逆向去噪过程 (reverse denoising process) 来学习数据的分布。

  • 前向扩散过程: 逐步向数据(例如图像)添加高斯噪声,直到数据完全变成随机噪声。这个过程是固定的、预定义的。
  • 逆向去噪过程: 训练一个神经网络 (neural network) 来学习如何逆转前向过程,即从噪声中逐步去除噪声,最终恢复出原始数据。这个去噪过程是可学习的。

核心思想:

  • 通过学习逆转噪声添加过程,模型能够从纯噪声中采样 (sample) 生成全新的、与训练数据分布相似的数据。
  • 扩散模型 在图像生成、图像修复、图像超分辨率等任务中取得了最先进的 (state-of-the-art) 性能。

3.1.3. 潜在扩散模型 (Latent Diffusion Models, LDM)

概念定义: 潜在扩散模型 (Latent Diffusion Models, LDM) 是对传统 扩散模型 的改进,旨在提高训练和推理效率。它们在潜在空间 (latent space) 而非原始像素空间中进行扩散和去噪操作。 核心思想:

  • 变分自编码器 (Variational Autoencoder, VAE): LDM 利用一个预训练的 VAE,其中包含一个编码器 (encoder) E\mathcal{E} 将高维数据(如图像 X0X_0)压缩到低维的潜在表示 (latent representation) Z0Z_0,以及一个解码器 (decoder) D\mathcal{D} 将潜在表示恢复为原始数据。
  • 效率提升: 在低维的潜在空间中进行扩散操作,大大减少了计算量和内存需求,使得模型能够处理更高分辨率的图像生成任务。

3.1.4. ControlNet

概念定义: ControlNet 是一种条件控制 (conditional control) 机制,用于增强 潜在扩散模型生成能力 (generative capability)。它通过引入额外的图像条件 (image conditioning) 输入,允许用户更精细地控制生成图像的结构、姿态、边缘等低级特征,而无需重新训练整个大型扩散模型。 核心思想:

  • ControlNet 在一个预训练的 扩散模型(如 Stable Diffusion)之上构建,通过复制扩散模型的编码器 (encoder) 部分,其中一个副本的权重被冻结以保留原始模型的知识,另一个副本(称为 ControlNet)被训练来学习如何结合额外的条件输入。
  • 条件化 (Conditioning): ControlNet 将额外的条件图像(如边缘图、深度图、姿态图等)作为输入,与文本提示一起指导图像生成过程。
  • 损失函数: 其训练目标是最小化预测噪声与真实噪声之间的差异,同时考虑文本条件 ctexc^\mathrm{tex} 和图像条件 cimgc^\mathrm{img}LCond=EZ0,t,ϵ[ϵθ(αˉtZ0+1αˉtϵ,t,ctex,cimg)ϵ22] \mathcal{L}_{\mathrm{Cond}} = \mathbb{E}_{Z_0, t, \epsilon} [ \| \epsilon_\theta (\sqrt{\bar{\alpha}_t} Z_0 + \sqrt{1-\bar{\alpha}_t} \epsilon, t, c^\mathrm{tex}, c^\mathrm{img}) - \epsilon \|_2^2 ]
    • Z0Z_0: 原始图像的潜在表示。
    • tt: 噪声水平。
    • ϵ\epsilon: 添加的高斯噪声。
    • ϵθ\epsilon_\theta: 扩散模型(带有 ControlNet)预测的噪声。
    • αˉtZ0+1αˉtϵ\sqrt{\bar{\alpha}_t} Z_0 + \sqrt{1-\bar{\alpha}_t} \epsilon: 在噪声水平 tt 时,原始潜在表示 Z0Z_0 经过加噪后的状态。
    • ctexc^\mathrm{tex}: 文本条件。
    • cimgc^\mathrm{img}: 图像条件。
    • αˉ1:T(0,1]T\bar{\alpha}_{1:T} \in (0, 1]^T: 与噪声添加过程相关的递减序列。
  • LoRA (Low-Rank Adaptation): 论文中还提到了 LoRA,这是一种参数高效微调 (Parameter-Efficient Fine-Tuning) 技术。它通过在预训练模型的现有权重旁边注入小的、可训练的低秩矩阵来微调大型模型。这样可以大大减少需要训练的参数数量,从而节省计算资源和存储空间,同时保持高性能。

3.2. 前人工作

论文在“2 RELATED WORK”部分对现有工作进行了详细回顾,主要分为以下几类:

3.2.1. 稀疏视角 NeRFs (Sparse-view NeRFs)

  • 挑战: 原始 NeRF (Vanilla NeRF) 在稀疏设置下性能不佳,容易出现过拟合和几何伪影。
  • 解决方案:
    • 深度/可见性先验: 结合 SfM 导出的可见性或深度信息(如 Deng 等 [2022];Roessle 等 [2022];Somraj 等 [2024, 2023]),或使用真实标注数据 (Ground Truth) 深度图(Xu 等 [2022])。但这些方法通常侧重于紧密对齐的视角,且深度信息获取成本高昂或精度不足(如单目深度估计 [Ranftl 等 2021, 2022])。
    • 语义/高级先验: 利用视觉-语言模型 (vision-language model) 进行新颖视角渲染 (novel view rendering)(Jain 等 [2021]),但语义一致性对于低级重建的指导有限。
    • 图像先验/正则化: 结合深度图像先验 (deep image prior) 和分解 NeRF(Shi 等 [2024b]),或基于信息论 (information theory)(Kim 等 [2022])、连续性 (continuity)(Niemeyer 等 [2022])、对称性 (symmetry)(Seo 等 [2023])和频率正则化 (frequency regularization)(Song 等 [2023a];Yang 等 [2023])的先验。这些方法往往只在特定场景下有效,泛化性受限。
    • 基于 Transformer 的方法: 采用 Vision Transformer (ViT) 架构(Jang 和 Agapito [2024];Jiang 等 [2024];Xu 等 [2024c];Zou 等 [2024])来降低 NeRFsGaussians 构建的要求。

3.2.2. 扩散模型与三维应用 (Diffusion Models and 3D Applications)

  • 文本到三维生成: Dreamfusion(Poole 等 [2023])提出了分数蒸馏采样 (Score Distillation Sampling, SDS),利用二维扩散模型先验从文本提示生成三维物体。后续工作在此基础上进行了改进(Chen 等 [2023];Lin 等 [2023];Metzer 等 [2023];Shi 等 [2024a];Tang 等 [2024b];Wang 等 [2023a,b];Yi 等 [2024])。
  • 单图像三维生成/视图合成: 扩散模型也被用于从单张图像生成三维物体或合成新颖视图(Burgess 等 [2024];Chan 等 [2023];Liu 等 [2023c];Müller 等 [2024];Pan 等 [2024];Zhu 和 Zhuang [2024])。然而,这些方法通常对输入有严格要求,并可能生成饱和度过高的图像。
  • 稀疏重建中的扩散模型: DiffusioNeRF(Wynn 和 Turmukhambetov [2023])、SparseFusion(Zhou 和 Tulsiani [2023])、Deceptive-NeRF(Liu 等 [2023b])、ReconFusion(Wu 等 [2024])和 CAT3D(Gao 等 [2024])将扩散模型与 NeRFs 相结合。

3.2.3. 大型重建模型 (Large Reconstruction Models, LRMs)

  • 概念: LRMs(Hong 等 [2024];Li 等 [2024];Tang 等 [2024a];Wang 等 [2024b];Wei 等 [2024];Weng 等 [2023];Xu 等 [2024a,b];Zhang 等 [2024])是近期在稀疏视角三维重建领域出现的一种趋势。
  • 挑战: 尽管 LRMs 能够快速生成图像,但它们通常需要大量的预训练,对视图分布和物体位置有严格要求,并且难以处理真实世界捕获。

3.2.4. 基于高斯泼溅的稀疏视角重建 (Sparse-view Reconstruction with Gaussian Splatting)

  • 挑战: 尽管 3DGS新颖视角合成 (novel view synthesis) 方面表现出色,但与 NeRF 类似,它在稀疏 360 度视角下也面临挑战。
  • 解决方案: 受少数视角 NeRFs 的启发,出现了一些针对稀疏 360 度重建的 3DGS 方法(Charatan 等 [2024];Chung 等 [2023];Paliwal 等 [2024];Xiong 等 [2023];Zhu 等 [2024])。但这些方法仍然严重依赖 SfM (Structure-from-Motion) 点。FSGS(Zhu 等 [2024])是基于高斯泼溅并结合 SfM 点初始化,但仍需要超过 20 个视图。

3.3. 技术演进

三维重建领域从最初的密集视角(如传统的摄影测量 (photogrammetry) 和早期的 NeRF)发展而来。随着 NeRF 的兴起,研究开始关注隐式表示 (implicit representations) 在复杂场景建模方面的潜力。然而,NeRF 的慢速训练和渲染,以及对大量输入图像的依赖,促使了对其效率和稀疏视角能力的改进。

  • 效率提升: 通过 体素网格 (voxel grids)多分辨率哈希编码 (multi-resolution hash encoding) 等技术,NeRF 的训练和渲染速度得到了显著提升。

  • 稀疏视角 NeRF: 通过引入深度、几何、语义先验或更强的正则化技术,NeRF 在稀疏视角下的性能有所改善。

  • 扩散模型介入: 近年来,扩散模型 (diffusion models) 在二维图像生成领域的巨大成功,使其被引入三维生成和重建任务,通过提供强大的二维图像先验来辅助三维模型学习。

  • 显式表示的复兴: 3D Gaussian Splatting 的出现,以其显式的点云结构和实时的渲染能力,为三维重建提供了一个新的方向,并迅速成为新颖视角合成 (novel view synthesis)最先进的 (state-of-the-art) 方法。

  • 稀疏视角 3DGS: 鉴于 3DGS 的优势,研究自然转向如何使其在稀疏视角下工作。

    本文的 GaussianObject 正是这一技术演进的最新成果,它结合了 3DGS 的高效显式表示、结构先验的明确注入以及扩散模型的强大生成能力,以解决稀疏视角下三维重建的核心挑战,特别是仅从四张图像进行重建。

3.4. 差异化分析

GaussianObject 与相关工作的核心区别和创新点在于:

  1. 对稀疏视角(特别是 4 个视图)的深度优化: 许多现有方法在稀疏视角下表现不佳,或者需要相对较多的稀疏视图(例如 FSGS 仍需 20+ 视图)。GaussianObject 明确针对 4 个高度稀疏的 360 度视角进行优化,并实现了 SOTA 性能。

  2. 显式结构先验的注入:

    • 视觉外壳 (Visual Hull) 初始化:3DGS 及其变体通常依赖 SfM 点进行初始化不同,GaussianObject 利用视觉外壳 (visual hull) 这一明确的几何先验来初始化三维高斯 (3D Gaussians)。在极度稀疏的场景下,SfM 点往往不足甚至缺失,视觉外壳 (visual hull) 则能提供更可靠的初始几何结构。
    • 漂浮物消除 (Floater Elimination): 针对稀疏视角容易产生漂浮物 (floaters) 的问题,GaussianObject 设计了基于统计分布的漂浮物消除 (floater elimination) 机制,主动剔除离群的高斯,这在以往的 3DGS 方法中较少见或未被专门优化。
  3. 扩散模型作为“修复者”而非“生成者”:

    • 高斯修复模型 (Gaussian Repair Model): 大多数将扩散模型与 NeRF/3DGS 结合的方法(如 DreamfusionSparseFusion)倾向于使用扩散模型作为新颖视角合成 (novel view synthesis)生成先验 (generative prior),通过 SDS (Score Distillation Sampling) 等技术直接指导三维表示的优化。这些方法可能导致训练不稳定、性能下降(如本文消融实验中 SDS 表现不佳)。
    • GaussianObject 将扩散模型训练成一个“修复者” (repairer),它接收由粗糙三维高斯渲染的有缺陷图像 (corrupted images),并输出高保真图像 (high-fidelity images)。这种“修复”模式使得扩散模型能够更稳定地为三维高斯提供高质量的二维监督,用于补充遗漏信息,避免了直接生成可能带来的几何不一致问题。
  4. 创新的自生成训练数据策略: 为了训练高斯修复模型 (Gaussian repair model)GaussianObject 提出了留一法训练 (leave-one-out training)添加三维噪声 (adding 3D noises) 的策略,有效地从稀疏的原始数据中生成了大量的训练图像对,这是其他方法通常不具备的。

  5. 实用的 COLMAP-free 变体:

    • 许多最先进的 (state-of-the-art) 稀疏视角重建方法仍然依赖于精确的相机参数,这在真实世界应用中是一个瓶颈。

    • CF-GaussianObject (COLMAP-free variant) 通过集成像 DUSt3R 这样的先进稀疏匹配模型 (advanced sparse matching model) 来估计相机位姿,并进行联合优化和正则化,成功克服了这一限制,极大地提高了方法的实用性和应用范围。

      综上所述,GaussianObject 不仅仅是将现有技术组合,而是针对高度稀疏视角下的独特挑战,在 3DGS 框架内,通过巧妙地引入结构先验、设计专门的扩散模型“修复”机制及其训练数据生成策略,并提供实用的无相机位姿 (COLMAP-free) 版本,实现了全面的创新和显著的性能提升。

4. 方法论

4.1. 方法原理

GaussianObject 的核心思想是利用 3D Gaussian Splatting (3DGS) 的高效显式表示能力,结合结构先验 (structure priors) 来处理稀疏视角下的几何重建挑战,并引入一个基于扩散模型 (diffusion models)高斯修复模型 (Gaussian repair model) 来弥补因视角不足而导致的物体信息缺失或压缩。整个框架通过一个迭代优化的过程,从粗糙的几何体逐步细化出高质量的三维物体表示。

具体来说,方法分为三个主要阶段:

  1. 结构先验下的初始优化: 首先,通过视觉外壳 (visual hull) 提供的几何骨架初始化三维高斯 (3D Gaussians),这比依赖稀疏的 SfM (Structure-from-Motion) 点更加鲁棒。接着,在优化过程中采用漂浮物消除 (floater elimination) 机制,主动移除不合理的高斯点,以增强几何的准确性和多视角一致性 (multi-view consistency)

  2. 高斯修复模型建立: 针对稀疏视角可能导致物体部分缺失或模糊的问题,训练一个基于 ControlNet高斯修复模型 (Gaussian repair model)。这个模型能够将由粗糙三维高斯渲染出的低质量图像修复为高保真图像。为了获得足够的训练数据,设计了留一法训练 (leave-one-out training)添加三维噪声 (adding 3D noises) 的自生成策略。

  3. 距离感知采样下的高斯修复与细化: 在修复模型训练完成后,将其作为一种强大的二维先验,通过距离感知采样 (distance-aware sampling) 策略,指导三维高斯的进一步细化。该策略优先修复与输入视图距离较远的新颖视角渲染,从而有效地将二维修复信息蒸馏到三维高斯中,提升整体渲染质量。

    此外,为了增强实际应用性,本文还提出了一个 COLMAP-free 的变体,通过集成像 DUSt3R 这样的稀疏匹配模型 (sparse matching model),使得 GaussianObject 无需预先提供精确的相机参数也能进行高质量重建。

4.2. 核心方法详解

4.2.1. 预备知识 (Preliminary)

4.2.1.1. 三维高斯泼溅 (3D Gaussian Splatting)

3D Gaussian Splatting [Kerbl et al. 2023] 使用三维高斯来表示三维场景。每个三维高斯由其中心位置 (center location) μ\mu旋转四元数 (rotation quaternion) qq缩放向量 (scaling vector) ss不透明度 (opacity) σ\sigma 以及球面谐波 (spherical harmonic, SH) 系数 sh 组成。因此,一个场景 G\mathcal{G} 被定义为: G={Gi:μi,qi,si,σi,shi}i=1P \mathcal{G} = \{ G_i : \mu_i, q_i, s_i, \sigma_i, sh_i \}_{i=1}^P

  • GiG_i: 第 ii 个三维高斯。
  • μi\mu_i: 第 ii 个高斯在三维空间中的中心坐标。
  • qiq_i: 第 ii 个高斯的旋转,通常用单位四元数表示。
  • sis_i: 第 ii 个高斯在局部坐标系下的三个主轴方向上的缩放尺度。
  • σi\sigma_i: 第 ii 个高斯的不透明度,影响其在渲染时的透明度。
  • shish_i: 第 ii 个高斯的球面谐波系数,用于编码高斯在不同视角下的颜色和光照响应。
  • PP: 场景中三维高斯的总数量。

4.2.1.2. ControlNet

扩散模型 (Diffusion models) 是一类生成模型 (generative models),通过逆转一个向数据分布 q(X0)q(X_0) 添加高斯噪声 ϵ\epsilon 的过程来采样生成数据。它们通过训练一个模型 pθ(Xt1Xt)p_\theta(X_{t-1}|X_t) 来近似 q(Xt1Xt)q(X_{t-1}|X_t),其中 t[0,T]t \in [0, T] 是噪声水平,TT 是总的噪声步数,θ\theta 是可学习的参数。将 X0X_0 替换为其从变分自编码器 (Variational Autoencoder, VAE) [Kingma and Welling 2014] 得到的潜在码 (latent code) Z0Z_0 导致了 潜在扩散模型 (Latent Diffusion Models, LDM) [Rombach et al. 2022] 的发展。

ControlNet [Zhang et al. 2023a] 通过整合一个类似于扩散模型的网络结构,并使用额外的图像条件 (image conditioning) 来增强生成过程。其优化目标是以下损失函数: LCond=EZ0,t,ϵ[ϵθ(αˉtZ0+1αˉtϵ,t,ctex,cimg)ϵ22] \mathcal{L}_{\mathrm{Cond}} = \mathbb{E}_{Z_0, t, \epsilon} [ \| \epsilon_\theta (\sqrt{\bar{\alpha}_t} Z_0 + \sqrt{1-\bar{\alpha}_t} \epsilon, t, c^\mathrm{tex}, c^\mathrm{img}) - \epsilon \|_2^2 ]

  • Z0Z_0: 原始图像的潜在表示。
  • tt: 噪声水平,表示加噪的步数。
  • ϵ\epsilon: 从标准正态分布 N(0,I)N(0, I) 中采样的噪声。
  • ϵθ\epsilon_\theta: 由扩散模型(带有 ControlNet 参数 θ\theta)推断出的噪声。
  • αˉtZ0+1αˉtϵ\sqrt{\bar{\alpha}_t} Z_0 + \sqrt{1-\bar{\alpha}_t} \epsilon: 经过 tt 步噪声化后的潜在表示。
  • ctexc^\mathrm{tex}: 文本条件 (text conditioning),通常是描述图像的语言提示。
  • cimgc^\mathrm{img}: 图像条件 (image conditioning),例如边缘图、深度图或姿态图等辅助图像。
  • αˉ1:T(0,1]T\bar{\alpha}_{1:T} \in (0, 1]^T: 一个与噪声添加过程相关的递减序列。

4.2.2. 整体框架 (Overall Framework)

给定 NN 张参考图像 Xref={xi}i=1NX^{\mathrm{ref}} = \{x_i\}_{i=1}^N,对应的相机内参 Kref={ki}i=1NK^{\mathrm{ref}} = \{k_i\}_{i=1}^N、相机外参 Πref={πi}i=1N\Pi^{\mathrm{ref}} = \{\pi_i\}_{i=1}^N 和物体掩膜 Mref={mi}i=1NM^{\mathrm{ref}} = \{m_i\}_{i=1}^N,目标是获得一个三维表示 G\mathcal{G},能够实现照片级真实感渲染 (photo-realistic rendering)

整个框架(如 图 12 所示)包含以下三个主要阶段:

  1. 结构先验下的初始优化 (Initial Optimization with Structure Priors): 利用视觉外壳 (visual hull) 进行三维高斯初始化,并通过漂浮物消除 (floater elimination) 增强高斯的结构。这一阶段生成一个粗糙的三维高斯表示 Gc\mathcal{G}_c

  2. 高斯修复模型建立 (Gaussian Repair Model Setup): 设计自生成策略,为基于 ControlNet高斯修复模型 (Gaussian repair model) R\mathcal{R} 提供充足的训练数据。

  3. 距离感知采样下的高斯修复 (Gaussian Repair with Distance-Aware Sampling): 利用训练好的修复模型 R\mathcal{R} 来纠正 Gc\mathcal{G}_c 的异常分布,通过距离感知采样 (distance-aware sampling) 策略细化三维高斯,进一步提高渲染质量。

    该图像是论文中的示意图,展示了GaussianObject方法的整体流程,包括(a)结构先验下的优化过程,(b)高斯修复模型的建立,以及(c)基于距离感知采样的修复策略,体现了3D高斯体表示与修复的关键步骤。 该图像是论文中的示意图,展示了GaussianObject方法的整体流程,包括(a)结构先验下的优化过程,(b)高斯修复模型的建立,以及(c)基于距离感知采样的修复策略,体现了3D高斯体表示与修复的关键步骤。

图 12. GaussianObject方法的整体流程图,包括(a)结构先验下的优化过程,(b)高斯修复模型的建立,以及(c)基于距离感知采样的修复策略。

4.2.3. 结构先验下的初始优化 (Initial Optimization with Structure Priors)

稀疏视图,特别是仅有 4 张图像时,为重建提供了非常有限的三维信息。这导致 SfM (Structure-from-Motion) 点通常缺失,且多视角一致性不足容易产生漂浮物 (floaters)。本文提出了两种技术来初步优化三维高斯表示,充分利用有限视图中的结构先验。

4.2.3.1. 视觉外壳初始化 (Initialization with Visual Hull)

为了更好地利用有限参考图像中的物体结构信息,本文使用视图视锥体 (view frustums)物体掩膜 (object masks) 来创建视觉外壳 (visual hull),作为初始化三维高斯的几何骨架。

  • 构建过程:
    1. 掩膜获取: 物体掩膜 MrefM^{\mathrm{ref}} 可以通过 SAM (Segment Anything Model) [Kirillov et al. 2023] 等分割模型 (segmentation models) 轻松获取。
    2. 随机点采样:视觉外壳 (visual hull) 内部使用拒绝采样 (rejection sampling) 随机初始化三维点。具体来说,均匀采样随机三维点,并将其投影到图像平面上。只有那些在所有图像空间掩膜交集内的点才被保留。
    3. 颜色赋值: 点的颜色通过对参考图像投影处进行双线性插值 (bilinearly interpolated) 像素颜色进行平均得到。
  • 转换为三维高斯:
    • 位置 (Position) μ\mu: 将每个三维点的坐标作为高斯的中心位置。

    • 颜色 (Color) sh: 将点颜色转换为球面谐波 (SH) 系数。

    • 尺度 (Scale) ss: 相邻点之间的平均距离形成尺度 ss

    • 旋转 (Rotation) qq: 旋转 qq 默认设置为单位四元数 (unit quaternion)

    • 不透明度 (Opacity) σ\sigma: 不透明度 σ\sigma 初始化为常数值。

      这种初始化策略即使在掩膜可能不准确或视觉外壳 (visual hull) 未能表示凹陷 (concavities) 的情况下,也能通过后续优化产生高质量的重建。

4.2.3.2. 漂浮物消除 (Floater Elimination)

尽管视觉外壳 (visual hull) 建立了物体几何的粗略估计,但由于参考图像覆盖不足,它通常包含不属于物体的区域。这些区域通常表现为漂浮物 (floaters),损害了新颖视角合成 (novel view synthesis) 的质量。

  • 机制: 利用三维高斯之间距离的统计分布来区分主要物体和漂浮物 (floaters)
    1. K-近邻 (K-Nearest Neighbors, KNN) 算法: 对于粗糙三维高斯 (coarse 3D Gaussians) Gc\mathcal{G}_c 中的每个元素,计算到最近的 P\sqrt{P} 个高斯的平均距离。
    2. 建立规范范围: 通过计算这些距离的均值和标准差来建立一个规范范围。
    3. 剔除高斯: 基于统计分析,剔除平均邻居距离超过自适应阈值 (adaptive threshold) τ=mean+λestd\tau = \mathrm{mean} + \lambda_e \mathrm{std} 的高斯。
  • 迭代过程: 这个阈值处理 (thresholding process) 在优化过程中定期重复,其中 λe\lambda_e 线性减小到 0,以逐步细化场景表示。

4.2.3.3. 初始优化 (Initial Optimization)

粗糙三维高斯 (coarse 3D Gaussians) Gc\mathcal{G}_c 的优化结合了颜色、掩膜和单目深度 (monocular depth) 损失。

  1. 颜色损失 (Color Loss): 结合了 3D Gaussian Splatting 中的 L1 损失和 D-SSIM 损失: L1=xxref1,LDSSIM=1SSIM(x,xref) \begin{array}{r} \mathcal{L}_1 = \Vert x - x^{\mathrm{ref}} \Vert_1, \quad \mathcal{L}_{\mathrm{D-SSIM}} = 1 - \mathrm{SSIM}(x, x^{\mathrm{ref}}) \end{array}

    • xx: 渲染图像。
    • xrefx^{\mathrm{ref}}: 对应的参考图像。
    • 1\Vert \cdot \Vert_1: L1 范数,测量像素绝对差。
    • SSIM(,)\mathrm{SSIM}(\cdot, \cdot): 结构相似性指数 (Structural Similarity Index Measure) 函数,用于测量两幅图像的结构相似性。LDSSIM\mathcal{L}_{\mathrm{D-SSIM}} 旨在最大化结构相似性。
  2. 掩膜损失 (Mask Loss): 应用二元交叉熵 (Binary Cross Entropy, BCE) 损失 [Jadon 2020]: Lm=(mreflogm+(1mref)log(1m)) \mathcal{L}_{\mathrm{m}} = - (m^{\mathrm{ref}} \log m + (1 - m^{\mathrm{ref}}) \log (1 - m))

    • mm: 渲染出的物体掩膜。
    • mrefm^{\mathrm{ref}}: 真实标注数据 (Ground Truth) 参考掩膜。
    • 该损失强制渲染出的物体轮廓与输入掩膜一致。
  3. 深度损失 (Depth Loss): 使用平移和尺度不变 (shift and scale invariant) 的深度损失来指导几何学习: Ld=DDpred1 \mathcal{L}_{\mathrm{d}} = \Vert D^* - D_{\mathrm{pred}}^* \Vert_1

    • DD^*: 每一帧渲染的深度图经过归一化后的表示。
    • DpredD_{\mathrm{pred}}^*: 由单目深度估计模型 (monocular depth estimation models) [Bhat et al. 2023] 预测的深度图经过归一化后的表示。
    • 深度值按照以下归一化策略计算 [Ranftl et al. 2020]: D=Dmedian(D)1Mi=1MDmedian(D) D^* = \frac{D - \mathrm{median}(D)}{\frac{1}{M} \sum_{i=1}^M \left| D - \mathrm{median}(D) \right|}
      • DD: 原始深度图。
      • median(D)\mathrm{median}(D): 深度图的中位数。
      • MM: 有效像素的数量。
      • 该归一化方法使得深度损失对绝对尺度和偏移不敏感,更专注于相对几何结构。
  4. 总损失 (Overall Loss): 结合以上组件: Lref=(1λSSIM)L1+λSSIMLDSSIM+λmLm+λdLd \mathcal{L}_{\mathrm{ref}} = (1 - \lambda_{\mathrm{SSIM}}) \mathcal{L}_1 + \lambda_{\mathrm{SSIM}} \mathcal{L}_{\mathrm{D-SSIM}} + \lambda_{\mathrm{m}} \mathcal{L}_{\mathrm{m}} + \lambda_{\mathrm{d}} \mathcal{L}_{\mathrm{d}}

    • λSSIM,λm,λd\lambda_{\mathrm{SSIM}}, \lambda_{\mathrm{m}}, \lambda_{\mathrm{d}}: 控制各项损失权重的超参数。

4.2.4. 高斯修复模型建立 (Gaussian Repair Model Setup)

视觉外壳 (visual hull) 初始化和漂浮物消除 (floater elimination) 显著提升了 3DGS 在稀疏 360 度场景下的新颖视角合成 (novel view synthesis) 性能。然而,粗糙三维高斯 (coarse 3D Gaussians) Gc\mathcal{G}_c 在观测不佳、被遮挡甚至未被观测的区域仍然存在缺陷。

为了解决这些问题,本文引入了一个高斯修复模型 (Gaussian repair model) R\mathcal{R},旨在纠正 Gc\mathcal{G}_c 的异常分布。该模型接收由 Gc\mathcal{G}_c 渲染的受损图像 (corrupted rendered images) x(Gc,πnov)x'(\mathcal{G}_c, \pi^{\mathrm{nov}}) 作为输入,并输出照片级真实感 (photorealistic)高保真 (high-fidelity) 图像 x^\hat{x}。这种图像修复能力可用于细化三维高斯,从而学习更好的结构和外观细节。

训练 R\mathcal{R} 需要充足的数据对,但现有数据集中此类数据稀缺。为此,本文采用两种主要策略生成足够的图像对:

  1. 留一法训练 (Leave-one-out Training):

    • NN 张输入图像中构建 NN 个子集,每个子集包含 N-1 张参考图像和 1 张留出图像 (left-out image) xoutx^{\mathrm{out}}
    • 使用每个子集中的 N-1 张图像训练 NN3DGS 模型,得到 {Gci}i=0N1\{ \mathcal{G}_c^i \}_{i=0}^{N-1}
    • 经过一定迭代次数后,使用留出图像 (left-out image) xoutx^{\mathrm{out}} 继续训练每个高斯模型,得到 {G^ci}i=0N1\{ \hat{\mathcal{G}}_c^i \}_{i=0}^{N-1}
    • 在此过程中,从留出视图 (left-out view) 在不同迭代时渲染的图像被存储起来,与留出图像 (left-out image) xoutx^{\mathrm{out}} 形成图像对,用于训练修复模型。
  2. 添加三维噪声 (Adding 3D Noises):

    • 将三维噪声 ϵs\epsilon_s 添加到高斯属性上。

    • ϵs\epsilon_s 的均值 μΔ\mu_\Delta 和方差 σΔ\sigma_\Delta 是从 {Gci}i=0N1\{ \mathcal{G}_c^i \}_{i=0}^{N-1}{G^ci}i=0N1\{ \hat{\mathcal{G}}_c^i \}_{i=0}^{N-1} 之间的高斯属性差异中导出的。

    • 通过渲染所有参考视图 x(Gc(ϵs),πref)x'(\mathcal{G}_c(\epsilon_s), \pi^{\mathrm{ref}}) 从带有噪声的高斯中生成图像,从而产生大量的图像对 (X,Xref)(X', X^{\mathrm{ref}})

      LoRA (Low-Rank Adaptation) 权重注入并微调预训练的 ControlNet [Zhang et al. 2023b] 作为高斯修复模型 (Gaussian repair model) R\mathcal{R}。训练过程如 图 13 所示。

      Fig. 3. Illustration of Gaussian repair model setup. First, we add Gaussian noise \(\\epsilon\) to a reference image \(x ^ { \\mathrm { r e f } }\) to for a noisy image. Next, this noisy image along with \$… 该图像是论文中关于高斯修复模型结构的示意图。展示了将参考图像xrefx^{ref}加高斯噪声 0得到的噪声图像,与退化图像x^{ }一起输入预训练的ControlNet和带有可学习LoRA层的Stable Diffusion,预测噪声_{}并通过损失函数_{tune}微调LoRA参数。

图 13. 高斯修复模型建立的示意图。首先,对参考图像 xrefx^{\mathrm{ref}} 添加高斯噪声 ϵ\epsilon 形成噪声图像。接下来,这个噪声图像连同 xrefx^{\mathrm{ref}} 对应的退化图像 xx' 被输入到预训练的冻结 ControlNet 和带有可学习 LoRA 层的 Stable Diffusion 中,以预测噪声分布 ϵθ\epsilon_\theta。利用 ϵ\epsilonϵθ\epsilon_\theta 之间的差异来微调 LoRA 层中的参数。

基于式 (1) 的损失函数定义为: Ltune=Exref,t,ϵ,x[(ϵθ(xtref,t,x,ctex)ϵ)22] \begin{array}{r} \mathcal{L}_{\mathrm{tune}} = \mathbb{E}_{{x}^{\mathrm{ref}}, t, \epsilon, x'} \left[ \| (\epsilon_\theta (x_t^{\mathrm{ref}}, t, x', c^\mathrm{tex}) - \epsilon) \|_2^2 \right] \end{array}

  • xrefx^{\mathrm{ref}}: 参考图像。

  • tt: 噪声水平。

  • ϵ\epsilon: 真实噪声。

  • xx': 退化渲染图像。

  • ϵθ()\epsilon_\theta(\dots): 由 ControlNet 预测的噪声。

  • xtrefx_t^{\mathrm{ref}}: xrefx^{\mathrm{ref}} 经过 tt 步噪声化后的状态。

  • ctexc^\mathrm{tex}: 物体特定语言提示 (object-specific language prompt),定义为 "a photo of [V]",遵循 Dreambooth [Ruiz et al. 2023] 的做法。

    具体而言,LoRA 层被注入到文本编码器、图像条件分支和 U-Net 中进行微调。

算法 1:高斯修复模型数据生成算法 (Gaussian Repair Model Data Generation Algorithm) 该算法描述了如何为高斯修复模型 (Gaussian repair model) 生成训练数据,结合了添加三维噪声 (adding 3D noises)留一法训练 (leave-one-out training) 两种策略。

Algorithm 1 Gaussian Repair Model Data Generation Algorithm
Input: Gaussian Repair Model R, Coarse 3DGS Model G_c, Mean
       and Variance (mu_Delta, sigma_Delta) of differences between
       {G_c^i} and {G_hat_c^i} for each attribute a of G_c,
       N Leave-one-out 3DGS Models {G_hat_c^i} for i=0 to N-1
1: P_manual <- 1  // 初始化手动噪声生成的概率
2: for each iteration do
3:     Sample an index i from {0, 1, ..., N-1}
4:     Sample p from U[0, 1] // 从均匀分布中采样一个概率
5:     if p < P_manual then // 如果概率小于P_manual,则添加3D噪声
6:         G_c_noisy <- G_c // 克隆当前粗糙高斯模型
7:         for all attribute a of G_c_noisy except for SH coefficients do
8:             Sample epsilon_s,a from N(mu_Delta, sigma_Delta^2) // 从高斯分布中采样噪声
9:             a <- a + epsilon_s,a // 将噪声添加到高斯属性a上
10:        end for
11:        x' <- render(G_c_noisy, pi_ref_i) // 从带噪声的高斯模型渲染图像
12:        P_manual <- 0.995 * P_manual // 逐渐降低手动噪声生成的概率
13:    else // 否则使用留一法训练的模型渲染图像
14:        x' <- render(G_hat_c^i, pi_i) // 从留一法训练的模型渲染图像
15:    end if
16:    Optimize R with data pair (x', x_i) // 使用生成的图像对 (x', x_i) 优化修复模型R
17: end for
  • RR: 高斯修复模型 (Gaussian Repair Model)
  • GcG_c: 粗糙三维高斯模型 (Coarse 3DGS Model)
  • μΔ,σΔ\mu_\Delta, \sigma_\Delta: 针对每个高斯属性 aa,由不同训练阶段的高斯模型差异得出的均值和方差。
  • {G^ci}i=0N1\{ \hat{\mathcal{G}}_c^i \}_{i=0}^{N-1}: NN留一法训练 (Leave-one-out)3DGS 模型。
  • PmanualP_{\mathrm{manual}}: 手动生成噪声的概率,初始为 1,每次迭代后逐渐衰减。
  • pp: 每次迭代随机采样的概率,用于决定采用哪种数据生成策略。
  • ii: 随机选取的索引,对应于 NN 个参考图像和留一法模型。
  • Gc(ϵs)G_c(\epsilon_s): 添加了三维噪声的高斯模型。
  • xx': 由当前高斯模型(可能带有噪声或来自留一法模型)渲染的图像。
  • πiref\pi^{\mathrm{ref}}_i: 第 ii 个参考视图的相机位姿。
  • xix_i: 对应的第 ii 个参考图像(真实标注数据 (Ground Truth))。

4.2.5. 距离感知采样下的高斯修复 (Gaussian Repair with Distance-Aware Sampling)

在训练完高斯修复模型 (Gaussian repair model) R\mathcal{R} 后,本文将其目标物体先验 (target object priors) 蒸馏到粗糙三维高斯 (coarse 3D Gaussians) Gc\mathcal{G}_c 中,以细化其渲染质量。物体信息在参考视图附近通常是丰富的,这启发了将距离作为识别需要校正视图的准则,从而引入距离感知采样 (distance-aware sampling)

具体而言,本文建立了一条与训练视图对齐的椭圆路径,并聚焦于一个中心点。靠近 Πref\Pi^{\mathrm{ref}} 的弧段(假定 Gc\mathcal{G}_c 在这些区域能渲染高质量图像)形成参考路径 (reference path)。其他弧段(其渲染需要被校正)定义为修复路径 (repair path),如 图 14 所示。

Fig. 4. Illustration of our distance-aware sampling. Blue and red indicate the reference and repair path, respectively. 该图像是论文中的示意图,展示了距离感知采样方法。图中蓝色表示参考路径,红色表示修复路径,围绕中心模型进行采样点示意。

图 14. 距离感知采样的示意图。蓝色表示参考路径 (reference path),红色表示修复路径 (repair path)

在每次迭代中:

  1. 新颖视角采样 (Novel Viewpoint Sampling):修复路径 (repair path) 中随机采样新颖视角 (novel viewpoints) πjΠnov\pi_j \in \Pi^{\mathrm{nov}}

  2. 图像渲染与编码 (Image Rendering and Encoding): 对于每个 πj\pi_j,渲染相应的图像 xj(Gc,πj)x_j(\mathcal{G}_c, \pi_j),并由潜在扩散编码器 (latent diffusion encoder) E\mathcal{E} 编码为潜在表示 E(xj)\mathcal{E}(x_j)。然后将 E(xj)\mathcal{E}(x_j) 传递给 R\mathcal{R} 的图像条件分支。

  3. 噪声扰动 (Noise Perturbation): 同时,克隆一份 E(xj)\mathcal{E}(x_j) 并将其扰动为噪声潜在码 (latent) ztz_tzt=αˉtE(xj)+1αˉtϵ,whereϵN(0,I),t[0,T] z_t = \sqrt{\bar{\alpha}_t} \mathcal{E}(x_j) + \sqrt{1-\bar{\alpha}_t} \epsilon, \quad \mathrm{where} \quad \epsilon \sim N(0, I), t \in [0, T]

    • 这类似于 SDEdit [Meng et al. 2022] 的操作,将渲染的潜在码逐步加噪。
  4. 修复图像生成 (Repaired Image Generation): 通过在 k=50tTk = \lfloor 50 \cdot \frac{t}{T} \rfloor 步上运行 DDIM (Denoising Diffusion Implicit Models) 采样 [Song etal. 2021] 并通过扩散解码器 (decoder) D\mathcal{D},从 R\mathcal{R} 生成一个修复后的样本 x^j\hat{x}_jx^j=D(DDIM(zt,E(xj))) \begin{array}{r} \hat{x}_j = \mathcal{D}(\mathrm{DDIM}(z_t, \mathcal{E}(x_j))) \end{array}

    • E\mathcal{E}D\mathcal{D} 均来自扩散模型 (diffusion model) 使用的 VAE 模型。
  5. 损失函数 (Loss Function): 引导优化过程的损失函数如下: Lrep=Eπj,t[w(t)λ(πj)(xjx^j1+xjx^j2+Lp(xj,x^j))] \begin{array}{r l r} \mathcal{L}_{\mathrm{rep}} = \mathbb{E}_{\pi_j, t} [ w(t) \lambda(\pi_j) \big( \| x_j - \hat{x}_j \|_1 + \| x_j - \hat{x}_j \|_2 + L_p(x_j, \hat{x}_j) \big) ] \end{array}

    • λ(πj)=2mini=1N(πjπi2)dmax\lambda(\pi_j) = \frac{2 \cdot \min_{i=1}^N (\| \pi_j - \pi_i \|_2)}{d_{\mathrm{max}}}

    • LpL_p: 感知相似性度量 (perceptual similarity metric) LPIPS [Zhang et al. 2018]。

    • w(t): 来自 DreamFusion [Poole et al. 2023] 的噪声级别调制权重函数 (noise-level modulated weighting function)

    • λ(πj)\lambda(\pi_j): 基于距离的权重函数 (distance-based weighting function),它根据新颖视角 πj\pi_j 到最近的参考视角 πi\pi_i 的距离进行加权。

    • dmaxd_{\mathrm{max}}: 相邻参考视角之间的最大距离。

      为了确保三维高斯 (3D Gaussians) 与参考图像之间的一致性,在整个高斯修复过程中,持续使用 Lref\mathcal{L}_{\mathrm{ref}} 损失来训练 Gc\mathcal{G}_c

4.2.6. 无需 COLMAP 的 GaussianObject (COLMAP-Free GaussianObject, CF-GaussianObject)

目前的最先进的 (state-of-the-art) 稀疏视角重建方法依赖于通过 SfM (Structure-from-Motion) 管道获取的精确相机参数(包括内参和外参),这限制了它们在日常应用中的可用性。在稀疏视角场景中,特征匹配不足导致精确重建困难且不可靠。

为了克服这一限制,本文将稀疏匹配模型 (sparse matching model) DUSt3R [Wang et al. 2024a] 引入 GaussianObject,以实现无需 COLMAP (COLMAP-free) 的稀疏 360 度重建。

  1. 相机参数和点云估计: 给定参考输入图像 XrefX^{\mathrm{ref}}DUSt3R 估计场景的粗糙点云 (coarse point cloud) P\mathcal{P},以及 XrefX^{\mathrm{ref}} 的相机位姿 Π^ref\hat{\Pi}^{\mathrm{ref}} 和内参 K^ref\hat{K}^{\mathrm{ref}}P,Π^ref,K^ref=DUSt3R(Xref) \mathcal{P}, \hat{\Pi}^{\mathrm{ref}}, \hat{K}^{\mathrm{ref}} = \mathrm{DUSt3R}(X^{\mathrm{ref}})

    • CF-GaussianObject 修改了 DUSt3R 中的内参恢复模块,允许 xiXrefx_i \in X^{\mathrm{ref}} 共享相同的内参 K^\hat{K}
  2. 三维高斯初始化:

    • 背景点通过物体掩膜和预测的相机位姿通过反投影算法 (back-projection algorithm)DUSt3R 的点云 P\mathcal{P} 中移除。
    • 得到的 P\mathcal{P}视觉外壳 (visual hull) 点云稀疏得多,缺少未见表面和物体填充物上的点。因此,本文用视觉外壳 (visual hull) 点云中 10% 的点来增强 P\mathcal{P},以稠密化初始三维高斯 (3D Gaussian) 点。
    • 接着,对 P\mathcal{P} 应用结构先验 (structural priors)视觉外壳 (visual hull) 来初始化三维高斯 (3D Gaussians)
  3. 相机位姿和三维高斯优化:

    • 初始化后,使用 XrefX^{\mathrm{ref}} 和从 P\mathcal{P} 渲染的深度图同时优化 Π^ref\hat{\Pi}^{\mathrm{ref}} 和初始化的三维高斯 (3D Gaussians)
    • 引入正则化损失 (regularization loss) 来约束 Π^ref\hat{\Pi}^{\mathrm{ref}} 的偏差,增强优化的鲁棒性: π^ref=argminπ^refGc(π^ref)xref1+λposeπ^refπ^0ref1 \hat{\pi}^{\mathrm{ref*}} = \underset{\hat{\pi}^{\mathrm{ref}}}{\arg\min} \| \mathcal{G}_c(\hat{\pi}^{\mathrm{ref}}) - x^{\mathrm{ref}} \|_1 + \lambda_{\mathrm{pose}} \| \hat{\pi}^{\mathrm{ref}} - \hat{\pi}_0^{\mathrm{ref}} \|_1
      • π^ref\hat{\pi}^{\mathrm{ref*}}: 估计的优化位姿。

      • π^0ref\hat{\pi}_0^{\mathrm{ref}}: DUSt3R 提供的初始相机位姿。

      • λpose\lambda_{\mathrm{pose}}: 约束精炼位姿不过度偏离初始位姿的权重参数。

        优化后的三维高斯 (3D Gaussians) 和相机参数用于构建高斯修复模型 (Gaussian repair model) 和进行高斯修复过程,与第 3.4 节和第 3.5 节所述相同。

5. 实验设置

5.1. 数据集

为了进行严格的评估,本文在多个数据集上对 GaussianObject 进行了评估,并使用基于 SAM [Kirillov et al. 2023] 的方法 [Cen et al. 2023] 来生成测试视图的一致物体掩膜。虽然这对于基准测试是必要的,但在实际应用中,系统只需四张捕获图像的掩膜,这可以通过任何分割方法 (segmentation method) 轻松获得。

5.1.1. MipNeRF360

  • 来源: 源自 Barron et al. [2021] 提供的数据集。
  • 特点: 包含三个主要物体的场景:bonsai (盆景)、garden (花园) 和 kitchen (厨房)。
  • 预处理: 为了评估性能,图像按照 Wu et al. [2024] 的训练-测试分割,以 4×4 \times 的因子进行下采样。

5.1.2. OmniObject3D

  • 来源: 包含 6k 个真实三维物体的大词汇量 (large-vocabulary) 数据集 [Wu et al. 2023]。
  • 特点: 从 190 个类别中选择了 17 个物体,包括 backpack016back-pack_016, box043box_043, broccoli003broccoli_003, corn007corn_007, dinosaur006dinosaur_006, flowerpot007flower_pot_007, gloves009gloves_009, guitar002guitar_002, hamburger012hamburger_012, picnicbasket009picnic_basket_009, pineapple013pineapple_013, sandwich003sandwich_003, suitcase006suitcase_006, timer010timer_010, toyplane005toy_plane_005, toytruck037toy_truck_037, vase012vase_012
  • 预处理: 手动选择用于训练的相机视图,并使用每第八个视图进行测试。大多数场景原始分辨率为 1080p,gloves009gloves_009timer010timer_010 为 720p。为保持一致性,720p 图像被上采样到 1080p。所有图像均以 2×2 \times 的因子下采样。

5.1.3. OpenIllumination

  • 来源: 一个由 LightStage 捕获的真实世界数据集 [Liu et al. 2023a]。
  • 特点: 使用 ZeroRF [Shi et al. 2024b] 提出的稀疏 OpenIllumination 数据集。ZeroRF 对相机位姿进行了重缩放和居中,以使目标物体与世界中心对齐。
  • 预处理: 在提供的物体掩膜和训练-测试分割下,图像以 4×4 \times 的因子下采样,遵循 Shi et al. [2024b] 的实验设置。

5.1.4. 本文收集的无位姿图像 (Our-collected Unposed Images)

  • 来源: 为了更好地符合日常使用场景,使用 iPhone 13 拍摄了常见物体的四张图像,分别从大致前方、后方、左方和右方拍摄,对相机定位或角度没有严格要求。
  • 预处理: 使用 DUSt3R [Wang et al. 2024a] 预测相机参数(内参和外参)。使用 SAM [Kirillov et al. 2023] 结合 iPhone 的原生分割功能进行图像分割。所有对比方法也使用了这些相机参数和掩膜。

5.2. 评估指标

对论文中出现的每一个评估指标,按照以下三段结构提供完整说明:

5.2.1. LPIPS (Learned Perceptual Image Patch Similarity)

  1. 概念定义: LPIPS 是一种感知图像相似性度量 (perceptual image similarity metric),旨在更好地模拟人类对图像相似性的判断。传统的指标如 PSNRSSIM 往往与人类感知不符,尤其是在图像的细节、风格或高层语义方面。LPIPS 通过利用预训练的深度神经网络 (deep neural network)(如 AlexNet、VGG 等)提取图像的特征表示 (feature representations),然后计算这些特征之间的距离来评估图像相似性。得分越低表示两张图像在感知上越相似。

  2. 数学公式: LPIPS 的计算公式如下: d(x,x0)=l1HlWlh,wwl(ϕl(x)h,wϕl(x0)h,w)2 d(\mathbf{x}, \mathbf{x}_0) = \sum_{l} \frac{1}{H_l W_l} \sum_{h,w} \| \mathbf{w}_l \odot (\phi_l(\mathbf{x})_{h,w} - \phi_l(\mathbf{x}_0)_{h,w}) \|_2

  3. 符号解释:

    • d(x,x0)d(\mathbf{x}, \mathbf{x}_0): 图像 x\mathbf{x}x0\mathbf{x}_0 之间的 LPIPS 距离。
    • x,x0\mathbf{x}, \mathbf{x}_0: 两张待比较的图像。
    • ll: 深度神经网络 (deep neural network) 中的层索引。
    • ϕl()\phi_l(\cdot): 从预训练网络第 ll 层提取的特征图。
    • Hl,WlH_l, W_l: 第 ll 层特征图的高度和宽度。
    • wl\mathbf{w}_l: 可学习的权重向量,用于缩放不同层和不同通道的特征。
    • \odot: 元素级乘法。
    • (ϕl(x)h,wϕl(x0)h,w)(\phi_l(\mathbf{x})_{h,w} - \phi_l(\mathbf{x}_0)_{h,w}): 在第 ll 层特征图中,图像 x\mathbf{x}x0\mathbf{x}_0 在位置 (h,w) 处的特征向量之差。
    • 2\| \cdot \|_2: L2 范数,计算向量的欧几里得距离。

5.2.2. PSNR (Peak Signal-to-Noise Ratio)

  1. 概念定义: PSNR 是一种用于衡量图像或视频重建质量的客观标准。它通过计算均方误差 (Mean Squared Error, MSE) 来量化原始图像与重建图像之间的差异。PSNR 值越高,表示重建图像的失真越小,质量越好。通常以分贝 (decibels, dB) 为单位表示。

  2. 数学公式: PSNR 的计算公式如下: MSE=1mni=0m1j=0n1[I(i,j)K(i,j)]2 \mathrm{MSE} = \frac{1}{mn} \sum_{i=0}^{m-1} \sum_{j=0}^{n-1} [I(i,j) - K(i,j)]^2 PSNR=10log10(MAXI2MSE) \mathrm{PSNR} = 10 \cdot \log_{10} \left( \frac{\mathrm{MAX}_I^2}{\mathrm{MSE}} \right)

  3. 符号解释:

    • MSE\mathrm{MSE}: 均方误差 (Mean Squared Error)
    • m, n: 图像的高度和宽度(像素数量)。
    • I(i,j): 原始图像在像素 (i,j) 处的值。
    • K(i,j): 重建图像在像素 (i,j) 处的值。
    • MAXI\mathrm{MAX}_I: 图像中像素可能的最大值。对于 8 位图像,通常为 255。

5.2.3. SSIM (Structural Similarity Index Measure)

  1. 概念定义: SSIM 是一种用于衡量两幅图像相似度的指标,旨在更好地反映人类视觉系统对图像质量的感知。与 PSNR 仅关注像素差异不同,SSIM 从亮度 (luminance)、对比度 (contrast) 和结构 (structure) 三个方面来评估图像质量。SSIM 值介于 -1 和 1 之间,1 表示两幅图像完全相同,0 表示没有结构相似性。

  2. 数学公式: SSIM 的计算公式如下: SSIM(x,y)=(2μxμy+C1)(2σxy+C2)(μx2+μy2+C1)(σx2+σy2+C2) \mathrm{SSIM}(x, y) = \frac{(2\mu_x\mu_y + C_1)(2\sigma_{xy} + C_2)}{(\mu_x^2 + \mu_y^2 + C_1)(\sigma_x^2 + \sigma_y^2 + C_2)}

  3. 符号解释:

    • x, y: 两幅待比较的图像区域(例如,通过滑动窗口从图像中提取的小块)。
    • μx,μy\mu_x, \mu_y: 图像 xxyy 的平均亮度。
    • σx,σy\sigma_x, \sigma_y: 图像 xxyy 的标准差(衡量对比度)。
    • σxy\sigma_{xy}: 图像 xxyy 的协方差(衡量结构相似性)。
    • C1=(K1L)2,C2=(K2L)2C_1 = (K_1 L)^2, C_2 = (K_2 L)^2: 两个常数,用于避免分母为零,其中 LL 是像素值的动态范围(例如,对于 8 位灰度图像,L=255L=255),K11,K21K_1 \ll 1, K_2 \ll 1 是小常数,通常取 0.01 和 0.03。

5.3. 对比基线

本文将自己的方法 GaussianObject 与以下基线模型 (Baselines) 进行了比较:

  1. Vanilla 3DGS [Kerbl et al. 2023]: 原始的 3D Gaussian Splatting 模型,通常采用随机初始化或基于 SfM 点的初始化。在稀疏视角下,其性能通常会受到显著影响。

  2. DVGO [Sun et al. 2022]: 直接体素网格优化 (Direct Voxel Grid Optimization),一种基于显式体素网格 (voxel grid)NeRF 变体,以其快速收敛和重建能力而闻名。

  3. DietNeRF [Jain et al. 2021]: 一种少数视角 (few-shot) NeRF 方法,通过利用视觉-语言模型 (vision-language model) 的语义一致性来指导新颖视角合成 (novel view synthesis)

  4. RegNeRF [Niemeyer et al. 2022]: 正则化神经辐射场 (Regularizing Neural Radiance Fields),通过在稀疏输入下对 NeRF 进行多种正则化来提升性能。

  5. FreeNeRF [Yang et al. 2023]: 另一种改进少数视角 (few-shot) 神经渲染的方法,引入了自由频率正则化 (free frequency regularization)

  6. SparseNeRF [Guangcong et al. 2023]: 通过蒸馏深度排序 (distilling depth ranking) 来实现少数视角新颖视角合成 (novel view synthesis)NeRF 方法。

  7. ZeroRF [Shi et al. 2024b]: 一种零预训练 (zero pretraining) 的快速稀疏视角 360 度重建方法,结合了深度图像先验 (deep image prior) 和分解 NeRF

  8. FSGS [Zhu et al. 2024]: 少数视角高斯泼溅 (Few-shot Gaussian Splatting),也是基于 3DGS 的稀疏视角重建方法,通常依赖 SfM (Structure-from-Motion) 点进行初始化。本文为 FSGS 额外提供了 SfM 点,以使其能在高度稀疏的 360 度设置下工作。

  9. LGM [Tang et al. 2024a]: 大型多视角高斯模型 (Large Multi-View Gaussian Model),一种 LRM (Large Reconstruction Model) 风格的前馈重建方法 (feed-forward reconstruction method)。本文评估了两种版本:LGM-4 (直接使用四张稀疏捕获作为输入) 和 LGM-1 (使用 MVDream [Shi et al. 2024a] 生成符合 LGM 设置要求的图像)。

  10. TriplaneGaussian (TGS) [Zou et al. 2024]: 另一种 LRM (Large Reconstruction Model) 风格的前馈重建方法 (feed-forward reconstruction method),通常支持单张图像输入。

    这些基线模型 (Baselines) 涵盖了隐式表示 (implicit representations) (NeRF 及其变体)、显式体素 (explicit voxels) (DVGO) 和显式高斯 (explicit Gaussians) (3DGS, FSGS),并包括了最新的大型重建模型 (LRMs)。选择这些基线是为了全面评估 GaussianObject 在不同方法范式下的竞争力和优势。

6. 实验结果与分析

6.1. 核心结果分析

6.1.1. 稀疏 360 度重建性能 (Sparse 360360^\circ Reconstruction Performance)

论文在 MipNeRF360、OmniObject3D 和 OpenIllumination 三个数据集上评估了 GaussianObject新颖视角合成 (novel view synthesis) 性能,并与多种现有方法进行了比较。

MipNeRF360 和 OmniObject3D 数据集上的定量比较 以下是原文 Table 2 的结果:

Method 4-view 6-view 9-view
LPIPS* ↓ PSNR ↑ SSIM ↑ LPIPS* ↓ PSNR ↑ SSIM ↑ LPIPS* ↓ PSNR ↑ SSIM ↑
MipNeRF360 DVGO [Sun et al. 2022] 24.43 14.39 0.7912 26.67 14.30 0.7676 25.66 14.74 0.7842
3DGS [Kerbl et al. 2023] 10.80 20.31 0.8991 8.38 22.12 0.9134 6.42 24.29 0.9331
DietNeRF [Jain et al. 2021] 11.17 18.90 0.8971 6.96 22.03 0.9286 5.85 23.55 0.9424
RegNeRF [Niemeyer et al. 2022] 20.44 13.59 0.8476 20.72 13.41 0.8418 19.70 13.68 0.8517
FreeNeRF [Yang et al. 2023] 16.83 13.71 0.8534 6.84 22.26 0.9332 5.51 27.66 0.9485
SparseNeRF [Guangcong et al. 2023] 17.76 12.83 0.8454 19.74 13.42 0.8316 21.56 14.36 0.8235
ZeroRF [Shi et al. 2024b] 19.88 14.17 0.8188 8.31 24.14 0.9211 5.34 27.78 0.9460
FSGS [Zhu et al. 2024] 9.51 21.07 0.9097 7.69 22.68 0.9264 6.06 25.31 0.9397
GaussianObject (Ours) 4.98 24.81 0.9350 3.63 27.00 0.9512 2.75 28.62 0.9638
CF-GaussianObject (Ours) 8.47 21.39 0.9014 5.71 24.06 0.9269 5.50 24.39 0.9300
OmniObject3D DVGO [Sun et al. 2022] 14.48 17.14 0.8952 12.89 18.32 0.9142 11.49 19.26 0.9302
3DGS [Kerbl et al. 2023] 8.60 17.29 0.9299 7.74 18.29 0.9378 6.50 20.26 0.9483
DietNeRF [Jain et al. 2021] 11.64 18.56 0.9205 10.39 19.07 0.9267 10.32 19.26 0.9258
RegNeRF [Niemeyer et al. 2022] 16.75 15.20 0.9091 14.38 15.80 0.9207 10.17 17.93 0.9420
FreeNeRF [Yang et al. 2023] 8.28 17.78 0.9402 7.32 19.02 0.9464 7.25 20.35 0.9467
SparseNeRF [Guangcong et al. 2023] 17.47 15.22 0.8921 21.71 15.86 0.8935 23.76 17.16 0.8947
ZeroRF [Shi et al. 2024b] 4.44 27.78 0.9615 3.11 31.94 0.9731 3.10 32.93 0.9747
FSGS [Zhu et al. 2024] 6.25 24.71 0.9545 6.05 26.36 0.9582 4.17 29.16 0.9695
GaussianObject (Ours) 2.07 30.89 0.9756 1.55 33.31 0.9821 1.20 35.49 0.9870
CF-GaussianObject (Ours) 2.62 28.51 0.9669 2.03 30.73 0.9738 2.08 31.23 0.9757

注:LPIPS 表示 LPIPS ×102\times 10^2。最优结果以粗体显示。

OpenIllumination 数据集上的定量比较 以下是原文 Table 3 的结果:

Method 4-view 6-view
LPIPS* ↓ PSNR ↑ SSIM ↑ LPIPS* ↓ PSNR ↑ SSIM ↑
DVGO 11.84 21.15 0.8973 8.83 23.79 0.9209
3DGS 30.08 11.50 0.8454 29.65 11.98 0.8277
DietNeRF† 10.66 23.09 0.9361 9.51 24.20 0.9401
RegNeRF† 47.31 11.61 0.6940 30.28 14.08 0.8586
FreeNeRF† 35.81 12.21 0.7969 35.15 11.47 0.8128
SparseNeRF 22.28 13.60 0.8808 26.30 12.80 0.8403
ZeroRF 9.74 24.54 0.9308 7.96 26.51 0.9415
Ours 6.71 24.64 0.9354 5.44 26.54 0.9443

*注:带有 † 的方法指标来自 ZeroRF 论文 [Shi et al. 2024b]。

结果分析:

  • 总体优势: GaussianObject 在所有数据集上始终取得最先进的 (state-of-the-art) 结果,特别是在感知质量指标 (LPIPS) 上。例如,在 MipNeRF360 上,GaussianObject 在 4 视图设置下将 LPIPSFSGS 的 0.0951 显著降低到 0.0498。LPIPS感知质量 (perceptual quality) 的关键指标,这一改进至关重要。

  • 稀疏视图性能: 尽管 GaussianObject 专为极度稀疏的输入视图设计,但它在 4 视图、6 视图和 9 视图设置下均优于其他方法,甚至超越了那些使用更多输入视图的方法。

  • 显式表示的有效性: Vanilla 3DGS 和基于隐式表示 (implicit representation) 的方法在极度稀疏设置下表现不佳,通常将物体重建为碎片化的像素块。这验证了将结构先验与显式表示相结合的有效性。

  • 细节和清晰度: 尽管 ZeroRFOpenIllumination 数据集上显示出有竞争力的 PSNRSSIM,但其渲染图像通常模糊且缺乏细节。相比之下,GaussianObject 能够展示精细的细节重建。这种卓越的感知质量 (perceptual quality) 凸显了高斯修复模型 (Gaussian repair model) 的有效性。

    以下是原文 Figure 5 的结果:

    该图像是论文中多个3D重建方法在不同物体上的渲染对比图,展示了方法包括DVGO、3DGS、DietNeRF、RegNeRF、FreeNeRF、SparseNeRF、ZeroRF、FSGS以及作者提出的GaussianObject及其无相机位姿变体的渲染效果,其中GT为真实视图。 该图像是论文中多个3D重建方法在不同物体上的渲染对比图,展示了方法包括DVGO、3DGS、DietNeRF、RegNeRF、FreeNeRF、SparseNeRF、ZeroRF、FSGS以及作者提出的GaussianObject及其无相机位姿变体的渲染效果,其中GT为真实视图。

图 15. 多种 3D 重建方法在不同物体上的渲染对比图。图中展示了使用 4 视图输入的重建效果。Implicit representationrandom initialized 3DGS 在稀疏设置下表现不佳,通常会将输入图像过拟合。

图 15 展示了不同方法在 4 视图输入下的渲染结果。我们可以看到:

  • DietNeRFFreeNeRF 等基于 NeRF 的方法,在稀疏视图下往往难以捕捉准确的几何和细节,结果显得模糊或有伪影。

  • Vanilla 3DGS 即使在稀疏视图下也会表现出几何破碎和不完整。

  • GaussianObject 能够生成更清晰、更完整且更具细节的重建,这主要得益于其结构先验 (structure priors)高斯修复模型 (Gaussian repair model)

    以下是原文 Figure 6 的结果:

    Fig. 6. Qualitative results on the Openlllumination dataset. Although ZeroRF shows competitive PSNR and SSIM, its renderings often appear blurred. While GaussianObject outperforms in restoring fine d… 该图像是论文中的定性结果插图,展示了OpenIllumination数据集上Ground Truth、ZeroRF和本方法的3D重建效果对比。可以看到本方法在细节还原方面明显优于ZeroRF,后者虽然PSNR和SSIM较高,但渲染图像较模糊。

图 16. OpenIllumination 数据集上的定性结果。尽管 ZeroRF 显示出有竞争力的 PSNRSSIM,但其渲染图像通常显得模糊。相比之下,GaussianObject 在恢复精细细节方面表现出色,获得了显著的感知质量 (perceptual quality) 优势。

图 16 进一步强调了 GaussianObject 在细节恢复方面的优势,即使在 PSNRSSIM 等像素级指标上表现不俗的 ZeroRF,在视觉上仍显模糊,而 GaussianObject 能够捕捉到更精细的纹理和几何细节。

6.1.2. 与大型重建模型 (LRMs) 的比较

以下是原文 Table 4 的结果:

Method LPIPS* ↓ PSNR ↑ SSIM ↑
TGS [Zou et al. 2024] 9.14 18.07 0.9073
LGM-4 [Tang et al. 2024a] 9.20 17.97 0.9071
LGM-1 [Tang et al. 2024a] 9.13 17.46 0.9071
GaussianObject (Ours) 4.99 24.81 0.9350

结果分析:

  • 性能差距: 在 MipNeRF360 数据集上,GaussianObject 显著优于 TGSLGM大型重建模型 (LRMs),尤其是在 LPIPS 上。
  • LRM 限制: LRMs 通常对输入视图有严格要求(例如 LGM 需要物体位于世界坐标原点,相机在特定仰角和方位角)。当使用自然捕获 (in-the-wild captures) 时,这些严格要求极大地阻碍了 LRMs 的稀疏重建性能。
  • GaussianObject 优势: 相反,GaussianObject 不需要大量的预训练,对输入视图没有限制,并且可以重建日常生活中任何复杂的物体。

6.1.3. CF-GaussianObject (COLMAP-Free GaussianObject) 的性能

CF-GaussianObject 在 MipNeRF360 和 OmniObject3D 数据集上进行了评估(定量结果已包含在 Table 2 中)。

结果分析:

  • 实用性提升: CF-GaussianObject 消除了对精确相机参数的需求,显著增强了其实用性。

  • 竞争力: 尽管在性能上存在一定程度的下降,但 CF-GaussianObject 的性能仍与依赖精确相机参数的其他最先进的 (state-of-the-art) 方法相比具有竞争力。

  • 性能下降与视图数量: 性能下降与输入视图数量的增加呈正相关,这主要是由于 DUSt3R 估计的准确性随着视图数量的增加而下降。

  • 定性优势: 在使用 iPhone 13 拍摄的图像上进行的比较实验(如 图 17)证实了 CF-GaussianObject 在随意拍摄图像中的卓越重建能力和视觉质量。

    以下是原文 Figure 7 的结果:

    Fig. 7. Qualitative results on our-collected images captured by an iPhone 13. We equip other SOTAs with camera parameters predicted by DUSt3R for fair comparison. The results demonstrate the superior… 该图像是论文中展示的定量对比图,展示了从四视角图像输入下,不同方法对宇航员模型和耳机模型的3D重建效果。结果表明,作者提出的CF-GaussianObject方法在细节和完整度上明显优于FreeNeRF、ZeroRF和FSGS。

图 17. iPhone 13 拍摄的自收集图像上的定性结果。为了公平比较,我们将其他 SOTA 方法配备了 DUSt3R 预测的相机参数。结果表明,CF-GaussianObject 在随意拍摄的图像中表现出卓越的性能,具有精细的细节和更高的视觉质量。

图 17 展示了 CF-GaussianObject 在真实世界、随意拍摄图像上的强大能力,即使在缺乏精确相机位姿的情况下,也能生成高质量的重建,这对于实际应用具有重要意义。

6.2. 消融实验/参数分析

6.2.1. 关键组件 (Key Components)

以下是原文 Table 5 的结果:

Method LPIPS* ↓ PSNR ↑ SSIM ↑
Ours w/o Visual Hull 12.72 15.95 0.8719
Ours w/o Floater Elimination 4.99 24.73 0.9346
Ours w/o Setup 5.53 24.28 0.9307
Ours w/o Gaussian Repair 5.55 24.37 0.9297
Ours w/o Depth Loss 5.09 24.84 0.9341
Ours w/ SDS [Poole et al. 2023] 6.07 22.42 0.9188
GaussianObject (Ours) 4.98 24.81 0.9350

结果分析:

  • 视觉外壳 (Visual Hull) 的重要性: 移除视觉外壳 (visual hull) 初始化导致性能显著下降(LPIPS 从 4.98 变为 12.72),这表明它为稀疏视图重建提供了关键的几何先验。

  • 漂浮物消除 (Floater Elimination) 的效果: 移除漂浮物消除 (floater elimination) 略微降低了性能(LPIPS 从 4.98 变为 4.99),但影响相对较小,表明其在精细化几何方面的作用。

  • 高斯修复模型 (Gaussian Repair Model) 的贡献:

    • 没有高斯修复模型建立 (Gaussian repair model setup)(LPIPS 5.53)或没有高斯修复过程 (Gaussian repair process)(LPIPS 5.55)都会导致感知质量 (perceptual quality) 显著下降,表明修复模型及其训练策略对提升视觉质量至关重要。
    • 图 18 提供了直观的定性证据,显示没有修复过程或微调会导致明显的伪影和细节缺失。
  • SDS 的不稳定性: 与其在文本到三维或单图像到三维任务中的有效性相反,分数蒸馏采样 (SDS) [Poole et al. 2023] 在本文的设置中导致了不稳定的优化和性能下降(LPIPS 6.07),这再次验证了本文提出的高斯修复模型 (Gaussian repair model) 的有效性。

  • 深度损失 (Depth Loss) 的作用: 移除深度损失 (depth loss) 仅导致轻微的性能下降(LPIPS 5.09),表明其主要作用是增强框架的鲁棒性,而非核心性能提升。

    以下是原文 Figure 9 的结果:

    Fig. 9. Ablation study on different components. "VH" denotes for visual hull and "FE" is floater elimination. The "GT" image is from a test view. 该图像是图9的消融研究图表,展示了不同组件对渲染结果的影响,其中“VH”指视觉外壳,“FE”指漂浮物消除,“GT”为测试视角的真实图像。结果表明,使用视觉外壳和漂浮物消除能提升渲染质量,结合扩散模型修复(SDS)和本文方法效果最佳。

图 18. 不同组件的消融研究。“VH”代表视觉外壳 (visual hull),“FE”代表漂浮物消除 (floater elimination)。“GT”图像来自测试视图。

图 18 定性地展示了各个组件的贡献,例如,没有视觉外壳 (visual hull) 的情况下,重建结果明显更差。

6.2.2. 修复模型结构 (Structure of Repair Model)

以下是原文 Table 6 的结果:

Method LPIPS* ↓ PSNR ↑ SSIM ↑
Zero123-XL [Liu et al. 2023c] 13.97 17.71 0.8921
Dreambooth [Ruiz et al. 2023] 6.58 21.85 0.9093
Depth Condition 7.00 21.87 0.9112
Depth Condition w/ Mask 6.87 21.92 0.9117
GaussianObject (Ours) 5.79 23.55 0.9220

结果分析:

  • 语义修改的局限性: 仅通过 Dreambooth [Raj et al. 2023; Ruiz et al. 2023] 进行语义修改,在三维一致性合成方面表现不佳(LPIPS 6.58)。

  • 单目深度条件化的不足: 结合单目深度 (monocular depth) 条件化 ControlNet(无论是带掩膜还是不带掩膜),虽然有所改进,但仍然存在深度粗糙和伪影问题(LPIPS 7.00 和 6.87)。

  • 单图像重建的结构不一致: Zero123-XL [Deitke et al. 2023; Liu et al. 2023c] 虽然能生成视觉上可接受的图像,但缺乏多视角结构一致性 (multi-view structure consistency)(LPIPS 13.97)。

  • 本文方法的卓越表现: GaussianObject三维一致性 (3D consistency)细节保真度 (detail fidelity) 方面表现出色,定性和定量上均优于其他替代方案。

    以下是原文 Figure 10 的结果:

    Fig. 8. Importance of our Gaussian repair model setup. Without the Gaussian repair process or the finetuning of the ControlNet, the renderings exhibit noticeable artifacts and lack of details, partic… 该图像是论文中用于展示不同高斯修复模型设置的重要性的对比插图,包含三组渲染结果:无修复、无设置微调和作者方法。各组图中用红绿框高亮局部细节,展示修复模型对细节提升的重要作用。

图 19. 定性比较不同高斯修复模型设置方法。“MDepth”表示带掩膜的单目深度估计 (monocular depth estimation) 作为条件的修复模型。

图 19 定性地展示了不同修复模型结构的表现。

6.2.3. 视图数量的影响 (Effect of View Numbers)

以下是原文 Figure 11 的结果:

Fig. 11. Ablation on Training View Number. Experiments are conducted on scene kitchen in the MipNeRF360 dataset. 该图像是图表,展示了MipNeRF360数据集中kitchen场景上不同训练视角数量下的性能消融分析。(a)子图比较了LPIPS指标随视角数变化趋势;(b)子图展示了PSNR指标随视角数的变化。图中对比了3DGS、GaussianObject及3DGS全视角的表现。

图 20. MipNeRF360 数据集上厨房场景训练视图数量的消融分析。(a) LPIPS 指标随视图数量变化趋势;(b) PSNR 指标随视图数量变化趋势。

结果分析:

  • 持续优越性: 图 20 表明,GaussianObject 在不同数量的训练视图下,始终优于 Vanilla 3DGS
  • 可扩展性: 即使在 24 个训练视图下,GaussianObject 也能达到与 3DGS 在所有视图(243 个)上训练的性能相媲美。这证明了 GaussianObject 能够有效地利用更多的输入视图来进一步提升重建质量。

6.2.4. 训练时间比较 (Training Time Comparison)

以下是原文 Table 7 的结果:

Method Time
DietNeRF [Jain et al. 2021] 8h+
RegNeRF [Niemeyer et al. 2022] 48h+
FreeNeRF [Yang et al. 2023] 24h+
SparseNeRF [Guangcong et al. 2023] 24h+
ZeroRF [Shi et al. 2024b] ~35min
ReconFusion [Wu et al. 2024] 8h+
GaussianObject ~30min
CF-GaussianObject (ours) ~33min

结果分析:

  • 效率高: GaussianObject 在 GeForce RTX 3090 GPU 上,对于 4 张 779×520779 \times 520 分辨率的输入图像,仅需约 30 分钟即可完成整个重建过程,远快于大多数 NeRF 及其变体。
  • CF 版本效率: CF-GaussianObject 也仅需约 33 分钟,保持了高效率。
  • 流程分解:
    • 初始优化: 约 1 分钟。
    • 高斯修复模型建立: 约 15 分钟。
    • 高斯修复: 约 14 分钟。
    • CF-GaussianObject 的额外时间主要用于 DUSt3R (约 17 秒) 和粗糙高斯优化 (coarse GS optimization) (约 3 分钟)。

6.2.5. 随机噪声的鲁棒性 (Robustness of Random Noise)

以下是原文 Table 8 的结果:

Performance LPIPS* ↓ PSNR ↑ SSIM ↑
Mean 4.97 24.82 0.9345
Std 0.06 0.169 0.0007

结果分析:

  • 低标准差: 在 10 次独立实验中,GaussianObjectLPIPS (Std 0.06)、PSNR (Std 0.169) 和 SSIM (Std 0.0007) 上表现出非常低的标准差。
  • 有效设计: 这证实了通过微调扩散模型 (diffusion model) 和设计距离感知采样 (distance-aware sampling) 策略,有效缓解了扩散模型 (diffusion model) 中固有的随机性对重建质量的影响,保证了方法的高度鲁棒性。

6.2.6. 视图分布的性能 (Performance with view distribution)

以下是原文 Table 9 的结果:

View Distribution LPIPS* ↓ PSNR ↑ SSIM ↑
110.4°, 112.4°, 65.1°,72.1° 6.8716 22.36 0.9104
87.3°, 91.5°, 99.4°, 81.8° 6.8279 22.63 0.9098
60.4°, 164.2°, 51.1°, 84.3° 7.3637 21.72 0.9039
121.6°, 121.8°, 59.5°, 57.1° 6.9842 22.97 0.9094

结果分析:

  • 鲁棒性: 在 MipNeRF360 数据集(kitchen 场景)上,GaussianObject 在不同视图分布下均能保持稳健的性能。
  • LRM 优势: 这种鲁棒性是许多大型重建模型 (LRMs) 所不具备的,对于实际应用中常见的各种视角拍摄场景至关重要。

6.3. 补充实验结果

6.3.1. 每场景性能 (Per-scene Performance)

论文在附录中提供了 MipNeRF360、OmniObject3D 和 OpenIllumination 的每场景定量指标。

6.3.1.1. MipNeRF360 每场景指标

以下是原文 Table 10 的结果:

Method bonsai garden kitchen
LPIPS ↓ PSNR ↑ SSIM ↑ LPIPS ↓ PSNR ↑ SSIM ↑ LPIPS ↓ PSNR ↑ SSIM ↑
DVGO [Sun et al. 2022] 0.3324 10.45 0.6980 0.0559 21.75 0.9652 0.3447 10.97 0.7104
3DGS [Kerbl et al. 2023] 0.1408 16.42 0.8458 0.0417 26.05 0.9769 0.1414 18.47 0.8746
DietNeRF [Jain et al. 2021] 0.1333 16.30 0.8682 0.0231 28.63 0.9780 0.1787 11.77 0.8453
RegNeRF [Niemeyer et al. 2022] 0.2736 9.99 0.7847 0.0300 20.89 0.9794 0.3094 9.89 0.7788
FreeNeRF [Yang et al. 2023] 0.2172 10.16 0.8052 0.0300 20.89 0.9760 0.2578 10.08 0.7789
SparseNeRF [Guangcong et al. 2023] 0.2148 10.08 0.8037 0.0618 18.36 0.9556 0.2562 10.04 0.7769
ZeroRF [Shi et al. 2024b] 0.2206 10.36 0.7810 0.0434 22.52 0.9596 0.3324 9.62 0.7157
FSGS [Zhu et al. 2024] 0.1258 17.96 0.8707 0.0279 25.84 0.9766 0.1317 19.40 0.8818
GaussianObject 0.0690 21.51 0.9113 0.0121 30.56 0.9833 0.0687 22.36 0.9104

表 10. MipNeRF360 4 视图输入下的每场景指标比较。

以下是原文 Table 11 的结果:

Method LPIPS ↓ bonsai LPIPS ↓ garden kitchen
PSNR ↑ SSIM ↑ PSNR ↑ SSIM ↑ LPIPS ↓ PSNR ↑ SSIM ↑
DVGO [Sun et al. 2022] 0.3658 11.17 0.6938 0.0367 22.09 0.9747 0.3672 10.95 0.6843
3DGS [Kerbl et al. 2023] 0.0932 20.68 0.9004 0.0222 29.46 0.9839 0.0771 22.74 0.9149
DietNeRF [Jain et al. 2021] 0.0706 24.45 0.9263 0.0274 20.89 0.9760 0.0774 25.30 0.9247
RegNeRF [Niemeyer et al. 2022] 0.2875 9.45 0.7706 0.0300 20.89 0.9794 0.2735 10.70 0.8050
FreeNeRF [Yang et al. 2023] 0.0788 23.99 0.9263 0.0164 33.05 0.9859 0.0702 25.96 0.9335
SparseNeRF [Guangcong et al. 2023] 0.2857 9.38 0.7447 0.0298 23.04 0.9776 0.3313 10.67 0.7481
ZeroRF [Shi et al. 2024b] 0.0657 24.72 0.9312 0.0174 32.75 0.9841 0.0770 25.88 0.9227
FSGS [Zhu et al. 2024] 0.0816 22.72 0.9164 0.0198 29.28 0.9815 0.0804 23.91 0.9213
GaussianObject 0.0382 25.65 0.9502 0.0089 33.09 0.9886 0.0353 27.11 0.9526

表 11. MipNeRF360 6 视图输入下的每场景指标比较。

以下是原文 Table 12 的结果:

Method LPIPS ↓ bonsai LPIPS ↓ garden kitchen
PSNR ↑ SSIM ↑ PSNR ↑ SSIM ↑ LPIPS ↓ PSNR ↑ SSIM ↑
DVGO [Sun et al. 2022] 0.3908 10.11 0.6531 0.0416 21.90 0.9728 0.3677 10.88 0.6769
3DGS [Kerbl et al. 2023] 0.1133 18.42 0.8736 0.0330 27.54 0.9809 0.1051 20.40 0.8858
DietNeRF [Jain et al. 2021] 0.0863 22.39 0.9085 0.0274 20.89 0.9760 0.0951 22.80 0.9012
RegNeRF [Niemeyer et al. 2022] 0.2736 9.34 0.7736 0.0300 20.88 0.9794 0.3180 10.00 0.7726
FreeNeRF [Yang et al. 2023] 0.0904 22.09 0.9083 0.0300 20.89 0.9760 0.0847 23.78 0.9153
SparseNeRF [Guangcong et al. 2023] 0.2530 9.45 0.7695 0.0395 20.82 0.9738 0.2997 10.01 0.7516
ZeroRF [Shi et al. 2024b] 0.1038 20.86 0.8992 0.0190 31.77 0.9829 0.1264 19.80 0.8813
FSGS [Zhu et al. 2024] 0.1100 19.69 0.8902 0.0274 25.48 0.9778 0.0932 22.86 0.9112
GaussianObject 0.0499 23.53 0.9313 0.0104 31.97 0.9864 0.0487 25.50 0.9358

表 12. MipNeRF360 9 视图输入下的每场景指标比较。

6.3.1.2. OmniObject3D 每场景指标

以下是原文 Table 13 的结果:

Method backpack_016 box_043 broccoli_003
LPIPS ↓ PSNR ↑ SSIM ↑ LPIPS ↓ PSNR ↑ SSIM ↑ LPIPS ↓ PSNR ↑ SSIM ↑
DVGO 0.2674 11.41 0.7794 0.0814 20.21 0.9455 0.0953 16.14 0.9229
3DGS 0.1542 15.13 0.8505 0.0536 18.57 0.9665 0.0677 15.68 0.9458
DietNeRF 0.2903 11.30 0.8183 0.1866 15.54 0.8867 0.1028 14.65 0.9172
RegNeRF 0.2987 9.56 0.8022 0.1298 16.40 0.9455 0.1109 14.08 0.9239
FreeNeRF 0.1358 11.57 0.8899 0.0775 17.59 0.9516 0.0570 16.36 0.9559
SparseNeRF 0.2570 9.78 0.7985 0.0960 16.52 0.9437 0.1068 14.18 0.9208
ZeroRF 0.0528 25.13 0.9459 0.0211 33.94 0.9827 0.0228 30.32 0.9745
FSGS 0.1257 19.48 0.9089 0.0835 23.70 0.9590 0.0399 23.25 0.9670
GaussianObject 0.0425 25.61 0.9511 0.0140 33.22 0.9833 0.0138 30.59 0.9781
Method corn_007 dinosaur_006 flower_pot_007
LPIPS ↓ PSNR ↑ SSIM ↑ LPIPS ↓ PSNR ↑ SSIM ↑ LPIPS ↓ PSNR ↑ SSIM ↑
DVGO 0.1135 21.81 0.9279 0.1924 16.08 0.8539 0.1281 15.04 0.8951
3DGS 0.0826 18.91 0.9496 0.1124 18.31 0.8952 0.0741 14.79 0.9330
DietNeRF 0.0244 33.80 0.9729 0.1168 16.07 0.9161 0.0482 16.22 0.9539
RegNeRF 0.1869 16.65 0.9200 0.2371 14.60 0.8838 0.1499 13.35 0.9065
FreeNeRF 0.0732 24.35 0.9517 0.1071 16.01 0.9197 0.0962 15.45 0.9259
SparseNeRF 0.1678 16.77 0.9041 0.1781 15.22 0.8881 0.1379 14.20 0.9139
ZeroRF 0.0343 33.68 0.9694 0.0460 26.59 0.9545 0.0235 30.77 0.9759
FSGS 0.0650 26.37 0.9577 0.0969 21.19 0.9266 0.0363 26.88 0.9659
GaussianObject 0.0166 34.44 0.9781 0.0349 27.68 0.9607 0.0156 31.22 0.9795
Method gloves_009 guitar_002 hamburger_012
LPIPS ↓ PSNR ↑ SSIM ↑ LPIPS ↓ PSNR ↑ SSIM ↑ LPIPS ↓ PSNR ↑ SSIM ↑
DVGO 0.2285 12.45 0.8229 0.1178 15.46 0.9102 0.1510 19.00 0.9028
3DGS 0.1303 13.04 0.8945 0.1130 12.74 0.8995 0.0954 16.24 0.9274
DietNeRF 0.1222 14.08 0.9140 0.0917 24.20 0.9342 0.2062 15.46 0.8675
RegNeRF 0.1590 12.90 0.8989 0.1874 12.52 0.8660 0.1654 15.60 0.9154
FreeNeRF 0.1458 13.50 0.8951 0.1004 13.44 0.9206 0.0790 17.33 0.9442
SparseNeRF 0.1440 13.03 0.8912 0.3535 10.53 0.7153 0.1716 15.68 0.8914
ZeroRF 0.1578 14.61 0.8793 0.0785 20.87 0.9373 0.0355 29.33 0.9634
FSGS 0.1427 16.80 0.9140 0.0416 27.92 0.9659 0.0747 22.20 0.9474
GaussianObject 0.0297 26.94 0.9695 0.0141 32.37 0.9816 0.0224 31.46 0.9694

表 13. OmniObject3D 4 视图输入下的每场景指标比较。

以下是原文 Table 14 的结果:

Method picnic_basket_009 pineapple_013 sandwich_003 suitcase_006
LPIPS ↓ PSNR ↑ SSIM ↑ LPIPS ↓ PSNR ↑ SSIM ↑ LPIPS ↓ PSNR ↑ SSIM ↑ LPIPS ↓ PSNR ↑ SSIM ↑
DVGO 0.1540 16.08 0.8887 0.1677 14.39 0.8747 0.0423 25.15 0.9787 0.1865 14.52 0.8697
3DGS 0.0837 19.60 0.9167 0.0573 16.74 0.9484 0.0285 22.44 0.9850 0.1028 15.18 0.9331
DietNeRF 0.1512 15.02 0.8940 0.0933 16.48 0.9336 0.0253 22.52 0.9851 0.0542 26.60 0.9639
RegNeRF 0.1313 14.73 0.9303 0.1431 14.01 0.9005 0.0293 22.52 0.9875 0.2636 12.03 0.8587
FreeNeRF 0.0772 15.82 0.9433 0.0638 16.74 0.9471 0.0293 22.52 0.9850 0.0755 25.66 0.9422
SparseNeRF 0.3376 14.99 0.8717 0.1918 16.01 0.9113 0.0478 20.47 0.9750 0.2487 12.55 0.8384
ZeroRF 0.0391 28.33 0.9648 0.0569 22.81 0.9413 0.0171 30.44 0.9886 0.0520 23.83 0.9611
FSGS 0.0417 25.60 0.9612 0.0608 20.87 0.9447 0.0110 33.34 0.9900 0.0682 23.70 0.9528
GaussianObject 0.0220 31.44 0.9733 0.0208 28.16 0.9676 0.0072 34.34 0.9919 0.0259 28.69 0.9758
Method timer_010 toy_plane_005 toy_truck_037 vase_012
LPIPS ↓ PSNR ↑ SSIM ↑ LPIPS ↓ PSNR ↑ SSIM ↑ LPIPS ↓ PSNR ↑ SSIM ↑ LPIPS ↓ PSNR ↑ SSIM ↑
DVGO 0.1104 18.90 0.9345 0.0929 22.37 0.9423 0.1415 16.34 0.9075 0.1912 16.01 0.8612
3DGS 0.0940 17.41 0.9407 0.0470 22.94 0.9672 0.0567 18.26 0.9583 0.1086 17.96 0.8968
DietNeRF 0.1411 17.30 0.9143 0.0321 24.12 0.9752 0.1059 17.73 0.9382 0.1856 14.41 0.8637
RegNeRF 0.1557 16.79 0.9310 0.0354 24.12 0.9810 0.1531 15.37 0.9240 0.3109 13.18 0.8799
FreeNeRF 0.0616 18.80 0.9664 0.0354 24.12 0.9752 0.0612 18.28 0.9562 0.1309 14.74 0.9130
SparseNeRF 0.1742 17.37 0.9317 0.0655 22.32 0.9603 0.1257 15.55 0.9161 0.1664 13.63 0.8939
ZeroRF 0.0258 32.97 0.9848 0.0228 30.52 0.9827 0.0251 30.68 0.9758 0.0440 27.51 0.9634
FSGS 0.0362 29.15 0.9782 0.0256 29.93 0.9798 0.0517 26.15 0.9588 0.0607 23.53 0.9490
GaussianObject 0.0152 33.43 0.9867 0.0102 34.30 0.9884 0.0137 32.23 0.9820 0.0327 29.10 0.9676

表 14. OmniObject3D 4 视图输入下的每场景指标比较(续)。

以下是原文 Table 15 的结果:

Method backpack_016 box_043 broccoli_003
LPIPS ↓ PSNR ↑ SSIM ↑ LPIPS ↓ PSNR ↑ SSIM ↑ LPIPS ↓ PSNR ↑ SSIM ↑
DVGO 0.2363 12.56 0.8040 0.1028 19.74 0.9412 0.0853 18.16 0.9385
3DGS 0.0901 21.26 0.9122 0.0582 18.16 0.9607 0.0483 16.77 0.9621
DietNeRF 0.2117 11.25 0.8546 0.1111 17.25 0.9325 0.0994 15.03 0.9267
RegNeRF 0.2818 10.08 0.8291 0.1251 15.85 0.9420 0.0483 16.84 0.9663
FreeNeRF 0.2255 12.30 0.8181 0.0530 18.68 0.9656 0.0483 16.84 0.9625
SparseNeRF 0.4828 11.35 0.7691 0.1030 18.16 0.9602 0.0483 16.84 0.9625
ZeroRF 0.0494 27.87 0.9529 0.0195 36.07 0.9843 0.0212 32.54 0.9768
FSGS 0.0815 22.34 0.9308 0.0266 32.41 0.9799 0.1163 20.96 0.9473
GaussianObject 0.0318 27.60 0.9593 0.0121 35.15 0.9868 0.0108 32.78 0.9842
Method corn_007 dinosaur_006 flower_pot_007
LPIPS ↓ PSNR ↑ SSIM ↑ LPIPS ↓ PSNR ↑ SSIM ↑ LPIPS ↓ PSNR ↑ SSIM ↑
DVGO 0.1056 22.43 0.9540 0.1456 17.91 0.8879 0.1348 15.36 0.8890
3DGS 0.0796 19.22 0.9551 0.1030 19.04 0.8968 0.0675 15.43 0.9392
DietNeRF 0.0225 35.23 0.9775 0.1905 14.69 0.8592 0.0482 16.22 0.9539
RegNeRF 0.1444 17.56 0.9413 0.2226 14.38 0.8905 0.1323 13.50 0.9122
FreeNeRF 0.0794 19.44 0.9523 0.0970 16.26 0.9275 0.0525 16.22 0.9539
SparseNeRF 0.0793 19.42 0.9523 0.3566 15.12 0.8636 0.1861 12.72 0.8600
ZeroRF 0.0309 34.98 0.9726 0.0409 29.03 0.9633 0.0263 32.83 0.9791
FSGS 0.0511 29.35 0.9634 0.0503 26.38 0.9577 0.0217 27.17 0.9658
GaussianObject 0.0135 35.77 0.9821 0.0256 29.65 0.9708 0.0107 34.40 0.9866
Method gloves_009 guitar_002 hamburger_012
LPIPS ↓ PSNR ↑ SSIM ↑ LPIPS ↓ PSNR ↑ SSIM ↑ LPIPS ↓ PSNR ↑ SSIM ↑
DVGO 0.1373 15.00 0.9011 0.0803 17.61 0.9368 0.1697 18.75 0.9068
3DGS 0.1284 13.42 0.8967 0.1176 12.50 0.8944 0.0949 16.48 0.9278
DietNeRF 0.1647 13.92 0.8797 0.0401 28.63 0.9650 0.1563 16.14 0.9029
RegNeRF 0.1919 13.12 0.8849 0.1228 14.95 0.9105 0.2122 14.52 0.9015
FreeNeRF 0.0905 14.39 0.9331 0.0272 33.19 0.9767 0.0790 17.33 0.9442
SparseNeRF 0.1672 13.14 0.8744 0.3992 10.46 0.7581 0.5058 13.82 0.8368
ZeroRF 0.0352 30.52 0.9728 0.0669 23.41 0.9423 0.0292 33.60 0.9710
FSGS 0.0930 20.34 0.9333 0.0509 26.17 0.9627 0.0512 27.72 0.9568
GaussianObject 0.0214 30.75 0.9788 0.0116 34.24 0.9861 0.0152 34.29 0.9801

表 15. OmniObject3D 6 视图输入下的每场景指标比较。

以下是原文 Table 16 的结果:

Method picnic_basket_009 pineapple_013 sandwich_003 suitcase_006
LPIPS ↓ PSNR ↑ SSIM ↑ LPIPS ↓ PSNR ↑ SSIM ↑ LPIPS ↓ PSNR ↑ SSIM ↑ LPIPS ↓ PSNR ↑ SSIM ↑
DVGO 0.1371 17.15 0.9021 0.1448 17.23 0.8945 0.0793 25.23 0.9663 0.1489 15.70 0.9050
3DGS 0.0490 26.20 0.9494 0.0682 16.16 0.9388 0.0374 21.32 0.9784 0.1026 15.19 0.9331
DietNeRF 0.1264 15.24 0.9123 0.0564 16.74 0.9472 0.0253 22.52 0.9851 0.0373 29.00 0.9750
RegNeRF 0.0772 15.82 0.9524 0.1467 14.15 0.8969 0.0293 22.52 0.9875 0.1351 15.80 0.9186
FreeNeRF 0.0772 15.82 0.9433 0.0638 16.74 0.9471 0.0293 22.52 0.9850 0.0682 26.99 0.9469
SparseNeRF 0.3520 15.91 0.9024 0.1997 15.63 0.9061 0.0591 20.90 0.9734 0.2311 15.50 0.8714
ZeroRF 0.0337 31.11 0.9698 0.0257 29.64 0.9671 0.0058 38.85 0.9958 0.0513 26.33 0.9676
FSGS 0.0283 31.43 0.9742 0.0299 28.42 0.9697 0.0079 37.49 0.9938 0.1395 18.73 0.9197
GaussianObject 0.0185 33.30 0.9779 0.0146 31.03 0.9797 0.0041 38.29 0.9954 0.0192 30.54 0.9826
Method timer_010 toy_plane_005 toy_truck_037 vase_012
LPIPS ↓ PSNR ↑ SSIM ↑ LPIPS ↓ PSNR ↑ SSIM ↑ LPIPS ↓ PSNR ↑ SSIM ↑ LPIPS ↓ PSNR ↑ SSIM ↑
DVGO 0.1335 19.63 0.9395 0.0919 21.98 0.9451 0.1244 18.42 0.9176 0.1343 18.49 0.9125
3DGS 0.0751 18.15 0.9556 0.0559 22.24 0.9639 0.0583 18.23 0.9581 0.0822 21.16 0.9204
DietNeRF 0.1221 16.94 0.9225 0.0321 24.12 0.9752 0.0988 17.53 0.9335 0.2242 13.73 0.8517
RegNeRF 0.1444 16.39 0.9410 0.0354 24.12 0.9810 0.1553 15.88 0.9187 0.2404 13.07 0.8783
FreeNeRF 0.0616 18.80 0.9664 0.0354 24.12 0.9752 0.0612 18.28 0.9562 0.0952 15.51 0.9354
SparseNeRF 0.1266 17.09 0.9349 0.0569 23.93 0.9688 0.1290 15.97 0.9122 0.2075 13.66 0.8827
ZeroRF 0.0246 34.57 0.9860 0.0128 36.87 0.9896 0.0218 33.79 0.9801 0.0377 31.05 0.9716
FSGS 0.0582 25.42 0.9655 0.0207 31.97 0.9838 0.1065 19.30 0.9370 0.0782 22.55 0.9478
GaussianObject 0.0139 34.73 0.9885 0.0075 36.59 0.9918 0.0080 35.40 0.9885 0.0253 31.69 0.9763

表 16. OmniObject3D 6 视图输入下的每场景指标比较(续)。

以下是原文 Table 17 的结果:

Method backpack_016 box_043 broccoli_003
LPIPS ↓ PSNR ↑ SSIM ↑ LPIPS ↓ PSNR ↑ SSIM ↑ LPIPS ↓ PSNR ↑ SSIM ↑
DVGO 0.2299 12.43 0.8179 0.0664 22.20 0.9677 0.0683 21.03 0.9618
3DGS 0.0519 26.80 0.9494 0.0506 18.65 0.9669 0.0531 16.45 0.9552
DietNeRF 0.1806 11.48 0.8684 0.0481 18.68 0.9656 0.0995 14.19 0.9211
RegNeRF 0.2967 10.46 0.8276 0.1051 17.39 0.9490 0.0483 16.84 0.9663
FreeNeRF 0.2422 12.39 0.8084 0.0530 18.68 0.9656 0.0483 16.84 0.9625
SparseNeRF 0.4932 10.46 0.7481 0.0615 18.59 0.9639 0.2476 13.34 0.8900
ZeroRF 0.0459 30.15 0.9582 0.0184 37.80 0.9857 0.0216 33.42 0.9775
FSGS 0.1250 14.84 0.8963 0.0226 33.72 0.9858 0.0169 33.03 0.9817
GaussianObject 0.0229 31.41 0.9737 0.0089 37.98 0.9910 0.0085 34.91 0.9882
Method corn_007 dinosaur_006 flower_pot_007
LPIPS ↓ PSNR ↑ SSIM ↑ LPIPS ↓ PSNR ↑ SSIM ↑ LPIPS ↓ PSNR ↑ SSIM ↑
DVGO 0.0921 22.05 0.9598 0.0985 19.56 0.9269 0.0987 19.15 0.9319
3DGS 0.0801 19.11 0.9510 0.0620 23.57 0.9377 0.0622 15.65 0.9438
DietNeRF 0.0184 36.58 0.9824 0.2514 14.57 0.8359 0.0482 16.22 0.9539
RegNeRF 0.0870 20.45 0.9546 0.1914 14.51 0.8951 0.0525 16.22 0.9598
FreeNeRF 0.0221 36.42 0.9779 0.0970 16.26 0.9275 0.0525 16.22 0.9539
SparseNeRF 0.2863 18.94 0.9340 0.4706 13.86 0.8191 0.1816 13.70 0.8855
ZeroRF 0.0352 35.69 0.9715 0.0393 30.28 0.9679 0.0199 34.60 0.9816
FSGS 0.0280 34.01 0.9792 0.0533 27.19 0.9593 0.0295 30.55 0.9750
GaussianObject 0.0089 38.33 0.9879 0.0201 31.61 0.9780 0.0087 36.13 0.9896
Method gloves_009 guitar_002 hamburger_012
LPIPS ↓ PSNR ↑ SSIM ↑ LPIPS ↓ PSNR ↑ SSIM ↑ LPIPS ↓ PSNR ↑ SSIM ↑
DVGO 0.0879 17.36 0.9425 0.0481 21.24 0.9614 0.0896 23.11 0.9592
3DGS 0.1239 13.78 0.9039 0.1060 12.90 0.9060 0.0937 16.56 0.9282
DietNeRF 0.1353 13.77 0.8923 0.0318 32.15 0.9730 0.1504 16.01 0.9007
RegNeRF 0.0905 14.39 0.9428 0.0928 16.97 0.9268 0.0790 17.33 0.9567
FreeNeRF 0.1393 13.64 0.8944 0.0236 35.56 0.9818 0.0790 17.33 0.9442
SparseNeRF 0.1584 13.29 0.8768 0.2553 19.14 0.8907 0.4415 15.47 0.8795
ZeroRF 0.0349 31.94 0.9753 0.0768 20.01 0.9370 0.0314 34.14 0.9713
FSGS 0.0817 21.46 0.9422 0.0436 28.66 0.9693 0.0259 33.34 0.9781
GaussianObject 0.0180 32.89 0.9838 0.0100 35.55 0.9888 0.0103 37.09 0.9875

表 17. OmniObject3D 9 视图输入下的每场景指标比较。

以下是原文 Table 18 的结果:

Method picnic_basket_009 pineapple_013 sandwich_003 suitcase_006
LPIPS ↓ PSNR ↑ SSIM ↑ LPIPS ↓ PSNR ↑ SSIM ↑ LPIPS ↓ PSNR ↑ SSIM ↑ LPIPS ↓ PSNR ↑ SSIM ↑
DVGO 0.1501 16.50 0.9012 0.0927 18.63 0.9393 0.0509 25.44 0.9818 0.0965 17.72 0.9430
3DGS 0.0232 32.98 0.9768 0.0573 16.73 0.9483 0.0316 21.91 0.9825 0.1026 15.19 0.9331
DietNeRF 0.1416 13.74 0.8889 0.1247 14.14 0.8914 0.0253 22.52 0.9851 0.0325 30.99 0.9799
RegNeRF 0.1746 13.91 0.8965 0.0638 16.74 0.9534 0.0293 22.52 0.9875 0.0317 32.63 0.9903
FreeNeRF 0.0772 15.82 0.9433 0.0638 16.74 0.9471 0.0293 22.52 0.9850 0.0510 30.81 0.9699
SparseNeRF 0.4269 14.14 0.8208 0.4313 14.55 0.8322 0.0448 22.50 0.9843 0.0438 31.75 0.9803
ZeroRF 0.0320 33.12 0.9735 0.0254 30.79 0.9692 0.0057 39.80 0.9961 0.0463 28.34 0.9722
FSGS 0.0393 28.61 0.9712 0.0186 31.83 0.9807 0.0076 35.88 0.9945 0.0452 29.53 0.9746
GaussianObject 0.0139 35.27 0.9836 0.0109 33.00 0.9858 0.0029 41.15 0.9971 0.0143 32.99 0.9876
Method timer_010 toy_plane_005 toy_truck_037 vase_012
LPIPS ↓ PSNR ↑ SSIM ↑ LPIPS ↓ PSNR ↑ SSIM ↑ LPIPS ↓ PSNR ↑ SSIM ↑ LPIPS ↓ PSNR ↑ SSIM ↑
DVGO 0.1811 17.27 0.9222 0.2574 16.89 0.8464 0.1297 17.93 0.9270 0.1154 18.89 0.9242
3DGS 0.0450 28.44 0.9669 0.0499 22.88 0.9650 0.0557 18.27 0.9584 0.0566 24.65 0.9486
DietNeRF 0.1010 17.56 0.9359 0.0321 24.12 0.9752 0.1074 17.25 0.9337 0.2255 13.52 0.8559
RegNeRF 0.0616 18.80 0.9725 0.0354 24.12 0.9810 0.0612 18.28 0.9647 0.2283 13.26 0.8901
FreeNeRF 0.0616 18.80 0.9664 0.0354 24.12 0.9752 0.0612 18.28 0.9562 0.0952 15.51 0.9354
SparseNeRF 0.1180 17.47 0.9353 0.0354 24.10 0.9752 0.1425 15.93 0.9067 0.2013 14.46 0.8883
ZeroRF 0.0231 35.46 0.9877 0.0124 37.76 0.9902 0.0215 34.09 0.9805 0.0366 32.43 0.9742
FSGS 0.0427 28.50 0.9804 0.0204 32.56 0.9829 0.0686 23.09 0.9565 0.0406 28.96 0.9732
GaussianObject 0.0106 36.87 0.9921 0.0058 38.48 0.9941 0.0072 36.72 0.9905 0.0219 32.94 0.9799

表 18. OmniObject3D 9 视图输入下的每场景指标比较(续)。

6.3.1.3. OpenIllumination 每场景指标

以下是原文 Table 19 的结果:

Method stone pumpkin toy potato
LPIPS ↓ PSNR ↑ SSIM ↑ LPIPS ↓ PSNR ↑ SSIM ↑ LPIPS ↓ PSNR ↑ SSIM ↑ LPIPS ↓ PSNR ↑ SSIM ↑
DVGO 0.0829 21.99 0.8957 0.0945 23.07 0.9370 0.0928 21.69 0.9121 0.1196 21.37 0.9097
3DGS 0.2890 10.93 0.8107 0.2950 11.43 0.8692 0.2898 11.16 0.8213 0.3063 12.03 0.8639
DietNeRF† 0.0850 24.05 0.9210 0.0600 26.54 0.9700 0.0790 24.98 0.9490 0.1030 23.00 0.9490
RegNeRF 0.4830 10.26 0.6020 0.4650 11.74 0.7490 0.4760 10.04 0.6370 0.5050 11.63 0.7190
FreeNeRF† 0.2100 12.91 0.7790 0.3120 11.54 0.8270 0.3510 10.79 0.7860 0.4610 11.70 0.7960
SparseNeRF 0.2600 12.99 0.8315 0.3029 11.44 0.7991 0.1181 13.67 0.9200 0.2821 13.26 0.8798
ZeroRF 0.0720 25.07 0.9180 0.0750 26.07 0.9610 0.0890 23.72 0.9360 0.0960 26.27 0.9460
GaussianObject 0.0542 23.96 0.9204 0.0538 25.89 0.9579 0.0493 24.95 0.9453 0.0690 25.09 0.9424
Method pine shroom cow cake
LPIPS ↓ PSNR ↑ SSIM ↑ LPIPS ↓ PSNR ↑ SSIM ↑ LPIPS ↓ PSNR ↑ SSIM ↑ LPIPS ↓ PSNR ↑ SSIM ↑
DVGO 0.1177 19.04 0.8791 0.1754 18.13 0.8533 0.1854 18.14 0.8523 0.0790 25.74 0.9396
3DGS 0.3038 10.07 0.8095 0.3594 11.03 0.8182 0.3157 11.81 0.8573 0.2475 13.54 0.9133
DietNeRF† 0.0930 20.94 0.9240 0.1660 19.91 0.9110 0.2070 16.30 0.8940 0.0600 28.97 0.9710
RegNeRF† 0.4860 9.37 0.5710 0.5510 10.66 0.6580 0.4600 11.99 0.7480 0.3590 17.21 0.8680
FreeNeRF† 0.2200 10.17 0.7910 0.5540 11.46 0.7510 0.4580 11.18 0.7460 0.2990 17.95 0.8990
SparseNeRF 0.1412 12.28 0.8981 0.2026 13.33 0.8963 0.2170 13.64 0.9003 0.2584 18.21 0.9214
ZeroRF 0.1160 20.68 0.9030 0.1340 23.14 0.9120 0.1390 21.91 0.9050 0.0580 29.44 0.9650
GaussianObject 0.0761 21.68 0.9143 0.0872 24.16 0.9211 0.0970 22.81 0.9208 0.0499 28.58 0.9613

表 19. OpenIllumination 4 视图输入下的每场景指标比较。

以下是原文 Table 20 的结果:

Method LPIPS ↓ stone LPIPS ↓ pumpkin LPIPS ↓ toy LPIPS ↓ potato
PSNR ↑ SSIM ↑ PSNR ↑ SSIM ↑ PSNR ↑ SSIM ↑ PSNR ↑ SSIM ↑
DVGO 0.0621 24.22 0.9132 0.0682 25.82 0.9527 0.0675 24.44 0.9313 0.0931 24.24 0.9279
3DGS 0.3139 10.87 0.7702 0.2547 12.98 0.8823 0.2993 11.10 0.7943 0.3197 11.70 0.8462
DietNeRF† 0.0850 24.87 0.9210 0.0730 24.80 0.9660 0.0860 25.37 0.9440 0.0870 25.63 0.9550
RegNeRF 0.2880 13.80 0.8480 0.3500 13.58 0.8480 0.2370 13.54 0.8840 0.3480 13.92 0.8540
FreeNeRF† 0.2360 11.62 0.7910 0.2930 11.71 0.8640 0.3460 10.65 0.8140 0.3970 11.35 0.8320
SparseNeRF 0.2452 12.91 0.8091 0.1468 14.81 0.9406 0.1181 13.67 0.9200 0.3519 12.36 0.8614
ZeroRF 0.0630 26.30 0.9290 0.0640 27.87 0.9660 0.0620 27.28 0.9500 0.0840 27.26 0.9510
GaussianObject 0.0430 26.07 0.9301 0.0415 28.06 0.9648 0.0402 27.55 0.9535 0.0571 26.56 0.9495
Method pine shroom cow cake
LPIPS ↓ PSNR ↑ SSIM ↑ LPIPS ↓ PSNR ↑ SSIM ↑ LPIPS ↓ PSNR ↑ SSIM ↑ LPIPS ↓ PSNR ↑ SSIM ↑
DVGO 0.0924 20.61 0.8976 0.1327 20.88 0.8891 0.1331 22.00 0.8997 0.0571 28.15 0.9562
3DGS 0.2687 11.73 0.8112 0.3633 11.49 0.7671 0.3246 11.55 0.8329 0.2277 14.38 0.9174
DietNeRF† 0.1190 18.16 0.9020 0.1190 23.71 0.9300 0.1330 21.50 0.9300 0.0590 29.58 0.9730
RegNeRF† 0.3370 11.87 0.8070 0.3290 13.22 0.8630 0.4050 13.07 0.8070 0.1280 19.66 0.9580
FreeNeRF† 0.3280 8.85 0.7530 0.5050 10.12 0.7640 0.4420 11.09 0.7840 0.2650 16.33 0.9000
SparseNeRF 0.3807 6.61 0.5537 0.3551 11.92 0.8290 0.2227 13.64 0.8983 0.2840 16.46 0.9100
ZeroRF 0.0880 22.26 0.9180 0.1060 26.34 0.9280 0.1180 23.74 0.9210 0.0520 31.00 0.9690
GaussianObject 0.0629 23.25 0.9264 0.0712 26.35 0.9307 0.0804 24.43 0.9325 0.0389 30.06 0.9673

表 20. OpenIllumination 6 视图输入下的每场景指标比较。

6.3.2. CF-GaussianObject (COLMAP-Free GaussianObject) 的性能

以下是原文 Figure 14 的结果:

该图像是一张对比图,展示了论文中4视图重建结果的多视角渲染效果。图中左侧和右侧分别显示不同方法对多种复杂物体的3D重建细节,突出高质量与真实感。 该图像是一张对比图,展示了论文中4视图重建结果的多视角渲染效果。图中左侧和右侧分别显示不同方法对多种复杂物体的3D重建细节,突出高质量与真实感。

图 21. 4 视图重建结果的多视角渲染效果。图中左侧和右侧分别显示不同方法对多种复杂物体的 3D 重建细节,突出高质量与真实感。

图 21 展示了 CF-GaussianObject 在随意拍摄图像上的新颖视角合成 (novel view synthesis) 效果,无需精确相机参数即可生成高质量、细节丰富的重建。

6.3.3. 与 DUSt3R 的比较

以下是原文 Figure 16 的结果:

Fig. 16. Qualitative comparisons between DUSt3R and CF-GaussianObject with four input views. 该图像是图16的定性比较图,展示了DUSt3R与CF-GaussianObject在仅用四视图输入下的3D重建效果。图中分别以绿色和红色框突出对象的细节区域,CF-GaussianObject在细节还原和清晰度上明显优于DUSt3R。

图 22. DUSt3R 与 CF-GaussianObject 在 4 视图输入下的定性比较。CF-GaussianObject 在细节还原和清晰度上明显优于 DUSt3R

图 22 展示了 CF-GaussianObject 相比于 DUSt3R 在重建细节和清晰度方面的优势,这得益于 CF-GaussianObject 的整体设计。

6.3.4. 高斯修复过程的影响 (Influence of Gaussian repair process)

以下是原文 Figure 15 的结果:

该图像是示意图,展示了论文中高斯点云模型在修复前后的效果对比。左侧为粗糙的初始高斯模型,右侧为经过高斯修复处理后的模型,蓝色框突出显示了修复明显的区域,体现了修复模型在细节补全和点云密度提升上的优势。 该图像是示意图,展示了论文中高斯点云模型在修复前后的效果对比。左侧为粗糙的初始高斯模型,右侧为经过高斯修复处理后的模型,蓝色框突出显示了修复明显的区域,体现了修复模型在细节补全和点云密度提升上的优势。

图 23. 高斯点云模型在修复前后的效果对比。左侧为粗糙的初始高斯模型,右侧为经过高斯修复处理后的模型。

图 23 直观地展示了高斯修复过程 (Gaussian repair process) 对几何体显著的增强作用,通过修复使粗糙三维高斯 (coarse 3D Gaussians) 变得更加精细和完整。

以下是原文 Figure 20 的结果:

Fig. 20. Qualitative samples of the Gaussian repaired models on several scenes from different views. 该图像是论文中图20的插图,展示了基于高斯修复模型的多场景三维物体不同视角的高质量渲染效果,图中包含四个物体的多视图渲染对比,突出细节和完整性的修复能力。

图 24. 高斯修复模型在多个场景下从不同视角生成的定性样本。

图 24 展示了高斯修复模型 (Gaussian repair model) 生成的高质量、一致性图像样本,证明了其在补充信息和提升细节方面的有效性。

6.3.5. 参考路径与修复路径的性能 (Performance on Reference and Repair Path)

以下是原文 Figure 18 的结果:

该图像是论文中的示意图,展示了基于高斯点渲染的三维重建效果。左侧和右侧分别为两组不同物体的输入视角(Input Views)、参考路径(Reference Path)与修复路径(Repair Path)渲染结果,体现了修复模型对缺失信息的补充和渲染质量提升。 该图像是论文中的示意图,展示了基于高斯点渲染的三维重建效果。左侧和右侧分别为两组不同物体的输入视角(Input Views)、参考路径(Reference Path)与修复路径(Repair Path)渲染结果,体现了修复模型对缺失信息的补充和渲染质量提升。

图 25. GaussianObject 在参考路径和修复路径上的渲染性能。

图 25 显示,GaussianObject参考路径 (reference path)修复路径 (repair path) 上都能提供卓越的视觉质量,这验证了高斯修复过程 (Gaussian repair process) 的有效性。

6.3.6. 训练视图数量的影响 (Performance with Varying Views)

以下是原文 Figure 17 的结果:

Fig. 17. Rendering performance with varying training views. 该图像是一个对比图,展示了使用4视角、6视角和9视角输入下,GaussianObject重建的编织篮子局部细节渲染效果,右下角分别放大细节区域,体现视角数量对重建精细度的影响。

图 26. GaussianObject 在不同训练视图数量下的渲染性能。

图 26 表明,随着训练视图数量的增加,GaussianObject 能够重建出更多的细节,进一步提升了渲染质量,同时保持了其固有的优势。

6.4. 补充定性比较

以下是原文 Figure 19 的结果:

Fig. 19. Qualitative examples on the Openlllumination dataset with four input views. 该图像是论文中图19的定性结果对比图,展示了在OpenIllumination数据集上,八种不同方法基于四视图输入的3D重建效果,其中“Ours”方法表现出更细致和完整的重建质量。

图 27. OpenIllumination 数据集上 4 视图输入下的定性例子。

图 27 提供了 GaussianObject 在 OpenIllumination 数据集上的更多定性结果,进一步验证了其优越的重建质量和细节表现。

7. 总结与思考

7.1. 结论总结

GaussianObject 是一个创新性的框架,旨在解决从极度稀疏的 360 度视角(特别是仅四张图像)进行高质量三维物体重建的挑战。该方法基于 3D Gaussian Splatting (3DGS),并引入了两项核心创新:

  1. 结构先验辅助优化: 通过视觉外壳 (visual hull) 进行初始化,并结合漂浮物消除 (floater elimination),在初始优化阶段就明确注入结构先验,有效解决了稀疏视角下多视角一致性 (multi-view consistency) 难以建立和几何伪影 (geometric artifacts) 的问题。

  2. 基于扩散模型的高斯修复: 提出了一个基于 ControlNet高斯修复模型 (Gaussian repair model),并通过留一法训练 (leave-one-out training)添加三维噪声 (adding 3D noises) 的自生成策略进行训练。该模型能够修复由粗糙三维高斯 (3D Gaussians) 渲染出的受损图像,从而补充因视角不足而遗漏或压缩的物体信息。距离感知采样 (distance-aware sampling) 策略进一步将这些二维修复信息蒸馏到三维高斯中,显著提升了新颖视角合成 (novel view synthesis) 的渲染质量。

    此外,GaussianObject 还提供了一个 COLMAP-free (CF) 变体,通过集成 DUSt3R稀疏匹配模型 (sparse matching model) 来估计相机参数,极大地拓宽了其在真实世界应用中的实用性。

实验结果表明,GaussianObject 在 MipNeRF360、OmniObject3D 和 OpenIllumination 等多个挑战性数据集上,均取得了最先进的 (state-of-the-art) 性能,尤其在感知质量指标 (LPIPS) 上有显著优势。其高效率(约 30 分钟完成重建)和对稀疏视角的强大鲁棒性,使其在推动三维视觉技术普及方面具有巨大潜力。

7.2. 局限性与未来工作

论文作者也指出了 GaussianObject 的一些局限性及未来的研究方向:

  1. 幻觉 (Hallucinations) 现象: 在完全未被观测或观测不足的区域,修复模型 (repair model) 可能会产生幻觉 (hallucinations),即生成不存在的细节(如 图 12 所示,石制花瓶的孔洞被填充)。虽然这是信息本质上不确定区域的普遍问题,但仍需进一步探索。
  2. 视角依赖性外观 (View-dependent Appearance) 的重建挑战: 在只有四个输入图像的高度稀疏数据下,模型难以区分外观是视角依赖 (view-dependent) 的还是物体固有的。这导致模型可能会将视角依赖特征 (view-dependent features)(如反射的白光)“烘焙 (bakes in)”到表面上,从而无法在新颖视角下正确显示视角依赖性外观 (view-dependent appearance),并可能产生一些意想不到的伪影(如 图 13 所示)。
    • 未来方向: 通过使用更多视角依赖数据 (view-dependent data) 微调扩散模型 (diffusion models) 可能是一个有前景的方向。
  3. 与表面重建方法的整合:GaussianObject2DGS [Huang et al. 2024] 和 GOF [Yu et al. 2024] 等表面重建方法 (surface reconstruction methods) 结合是一个有前景的方向。
  4. COLMAP-Free 变体的性能差距: 尽管 CF-GaussianObject 取得了有竞争力的性能,但与使用精确相机参数相比仍存在性能差距。
    • 未来方向: 利用匹配方法 (matching methods) 提供的置信度图 (confidence maps) 来实现更精确的位姿估计。

7.3. 个人启发与批判

7.3.1. 个人启发

  1. 稀疏视角重建的新范式: 本文提供了一个将显式三维表示 (explicit 3D representation) (3DGS) 与强大的二维生成先验 (powerful 2D generative prior) (扩散模型) 结合的优雅解决方案。这种结合方式避免了传统 NeRF 在稀疏视图下的过拟合问题,并通过扩散模型进行“信息补充”,为稀疏视角三维重建开辟了新的思路。
  2. “修复”模式的巧妙应用: 将扩散模型从“生成”转变为“修复”的思路非常巧妙。传统上,扩散模型常被用于从文本或单一图像生成全新的三维内容。而 GaussianObject 认识到,在稀疏重建任务中,三维高斯已经提供了粗略的几何和外观,扩散模型更适合作为“修正者”,通过二维图像修复来反向指导三维几何的细化,这比直接的分数蒸馏采样 (SDS) 更稳定有效。
  3. 自生成训练数据的创新性: 缺乏高质量的训练数据是许多数据驱动方法面临的瓶颈。论文提出的留一法训练 (leave-one-out training)添加三维噪声 (adding 3D noises) 的策略,有效地从有限的稀疏输入中“制造”出大量的训练图像对,极大地增强了修复模型的泛化能力和实用性,这对于其他需要特定训练数据的任务也具有借鉴意义。
  4. 工程实用性与易用性: COLMAP-free (CF) 变体的提出,直接解决了实际应用中的一个主要痛点——精确相机位姿的获取。这使得该技术能够真正应用于日常生活中随意拍摄的图像,极大地降低了用户门槛,有望加速三维重建技术的普及。

7.3.2. 批判

  1. 幻觉 (Hallucinations) 的潜在风险: 虽然修复模型 (repair model) 在补充信息方面表现出色,但其在完全未观测区域生成“幻觉”的特性,可能会在对几何精度要求极高(如工业测量、文物数字化)的场景中带来问题。如何确保修复的细节是“合理”且“符合真实”而非“虚构”的,仍是挑战。

  2. 视角依赖性外观 (View-dependent Appearance) 的局限性: 论文明确指出了在高度稀疏输入下难以捕捉视角依赖性外观 (view-dependent appearance) 的问题。这限制了 GaussianObject 在处理高反射、镜面物体或复杂光照环境下的性能。未来的工作需要探索如何从极少量的视图中解耦视角依赖 (view-dependent)视角无关 (view-independent) 的外观成分。

  3. 模型复杂度与可解释性: 虽然 3DGS 相比 NeRF 更具显式性,但整个 GaussianObject 框架集成了 3DGS视觉外壳 (visual hull)K-近邻 (KNN)单目深度 (monocular depth)扩散模型 (diffusion models) (ControlNet)、LoRADDIMDUSt3R 等多个复杂组件。这种多模块堆叠可能会增加系统整体的复杂性,提高调试和优化的难度,同时降低了模型的可解释性 (interpretability)

  4. 泛化到更复杂场景: 论文主要在物体级别进行了评估。虽然 360 度场景包含了背景,但对于更复杂的室内/室外大规模场景,如何扩展这种稀疏视图下的修复和优化策略,仍需进一步研究。

  5. 计算资源需求: 尽管训练时间已显著优化,但扩散模型 (diffusion models) 的微调和渲染过程仍然需要较高的计算资源,这可能限制了其在边缘设备上的部署。

    总而言之,GaussianObject 是一个在稀疏视角三维物体重建领域具有里程碑意义的工作,它通过巧妙地整合多项先进技术,为解决长期存在的核心挑战提供了强大的解决方案,并为未来的研究指明了方向。

相似论文推荐

基于向量语义检索推荐的相关论文。

暂时没有找到相似论文。