AiPaper
论文状态:已完成

Difix3D+: Improving 3D Reconstructions with Single-Step Diffusion Models

发表:2025/03/04
原文链接PDF 下载
价格:0.10
价格:0.10
已有 3 人读过
本分析由 AI 生成,可能不完全准确,请以原文为准。

TL;DR 精炼摘要

Difix3D+提出基于单步扩散模型的创新流水线,利用训练的单步图像扩散器Difix去除3D重建中新颖视角的伪影,并通过伪训练视图的净化与蒸馏增强3D表示。该方法兼容NeRF和3DGS,实现了平均两倍FID提升及更佳3D一致性。

摘要

Neural Radiance Fields and 3D Gaussian Splatting have revolutionized 3D reconstruction and novel-view synthesis task. However, achieving photorealistic rendering from extreme novel viewpoints remains challenging, as artifacts persist across representations. In this work, we introduce Difix3D+, a novel pipeline designed to enhance 3D reconstruction and novel-view synthesis through single-step diffusion models. At the core of our approach is Difix, a single-step image diffusion model trained to enhance and remove artifacts in rendered novel views caused by underconstrained regions of the 3D representation. Difix serves two critical roles in our pipeline. First, it is used during the reconstruction phase to clean up pseudo-training views that are rendered from the reconstruction and then distilled back into 3D. This greatly enhances underconstrained regions and improves the overall 3D representation quality. More importantly, Difix also acts as a neural enhancer during inference, effectively removing residual artifacts arising from imperfect 3D supervision and the limited capacity of current reconstruction models. Difix3D+ is a general solution, a single model compatible with both NeRF and 3DGS representations, and it achieves an average 2×\times improvement in FID score over baselines while maintaining 3D consistency.

思维导图

论文精读

中文精读

1. 论文基本信息

1.1. 标题

Difix3D+: 通过单步扩散模型改进3D重建 (Difix3D+: Improving 3D Reconstructions with Single-Step Diffusion Models)

1.2. 作者

Jay Zhangjie Wu, Yuxuan Zhang, Haithem Turki, Xuanchi Ren, Jun Ga0, Mike Zheng Shou, Sanja Fidler, Zan Gojcic, Huan Ling

1.3. 隶属机构

NVIDIA, National University of Singapore, University of Toronto, Vector Institute

1.4. 发表年份

2025年 (预印本发表于2025-03-03)

1.5. 摘要

神经辐射场 (Neural Radiance Fields, NeRF) 和3D高斯泼溅 (3D Gaussian Splatting, 3DGS) 彻底改变了3D重建和新视角合成 (novel-view synthesis) 任务。然而,从极端新颖视角实现逼真的渲染仍然具有挑战性,因为伪影 (artifacts) 仍然存在于各种表示中。本文引入了 Difix3D+Difix3D+,这是一个通过单步扩散模型 (single-step diffusion models) 设计的新型流水线,旨在增强3D重建和新视角合成。其核心是 Difix,一个经过训练的单步图像扩散模型,用于增强和去除由3D表示中约束不足区域 (underconstrained regions) 引起的渲染新颖视图中的伪影。Difix 在我们的流水线中扮演两个关键角色:首先,它在重建阶段用于清理从重建渲染的伪训练视图 (pseudo-training views),然后将其蒸馏 (distilled) 回3D表示中。这极大地增强了约束不足区域,并提高了整体3D表示质量。更重要的是,Difix 在推理 (inference) 阶段还充当神经增强器 (neural enhancer),有效去除由不完善的3D监督 (3D supervision) 和当前重建模型有限能力引起的残余伪影 (residual artifacts)。Difix3D+Difix3D+ 是一个通用解决方案,一个兼容 NeRF3DGS 两种表示的单一模型,它在基线上实现了平均2倍的FID分数 (FID score) 改进,同时保持了3D一致性 (3D consistency)。

1.6. 原文链接

https://arxiv.org/abs/2503.01774

1.7. PDF 链接

https://arxiv.org/pdf/2503.01774v1.pdf

2. 整体概括

2.1. 研究背景与动机

神经渲染技术,特别是神经辐射场 (NeRF) 和3D高斯泼溅 (3DGS),在3D重建和新视角合成 (novel-view synthesis) 方面取得了革命性进展。然而,即使在训练视角附近表现出色,这些方法在渲染观察较少区域或极端新颖视角 (extreme novel views) 时,仍然存在几何伪影 (spurious geometry) 和缺失区域 (missing regions) 等问题。这些问题甚至在密集采样的真实世界场景中也普遍存在,这阻碍了它们在现实世界应用中的适用性。

现有 NeRF3DGS 方法的核心局限性在于其通常采用逐场景优化 (per-scene optimization) 框架。这种框架需要精心策划、视角一致的输入数据,并且容易受到形状-辐射度模糊 (shape-radiance ambiguity) 的影响,即3D表示可以完美地重建训练图像,但不一定能准确反映场景的底层几何结构。在缺乏数据先验 (data priors) 的情况下,这些方法在约束不足区域 (underconstrained regions) 幻化 (hallucinate) 出合理几何形状和外观的能力受到根本限制,只能依赖于底层表示的固有平滑性。

与逐场景优化方法不同,大型2D生成模型(例如扩散模型 (diffusion models))通过在互联网规模的数据集上进行训练,有效地学习了真实世界图像的分布。这些模型学到的先验 (priors) 具有良好的泛化能力,适用于多种场景和用例,并在图像修复 (inpainting) 和图像外推 (outpainting) 等任务中展现了效果。然而,如何最好地将这些2D先验提升到3D仍然是一个未解之谜。许多现有方法在每个训练步骤中查询扩散模型,这通常效率低下,尤其是在处理大规模环境或复杂相机轨迹时。

本文旨在解决如何以高效方式利用2D扩散先验来改进大规模场景的3D重建这一挑战。作者基于单步扩散 (single-step diffusion) 的最新进展,其显著加速了文本到图像生成的推理速度,并提出了一种方法,表明这些单步模型在经过少量微调后,可以适应“修复” NeRF/3DGS 渲染中存在的伪影。

2.2. 核心贡献/主要发现

本文提出了 Difix3D+Difix3D+ 这一新型流水线,并在其核心引入了 DiFIx 模型,取得了以下关键贡献:

  1. 高效的2D扩散模型适应性 (Efficient 2D Diffusion Model Adaptation): 作者展示了如何以最小的努力,将2D扩散模型(DiFIx)适应于去除3D神经表示渲染产生的伪影。微调过程仅需数小时,且同一模型能有效处理 NeRF3DGS 两种表示的伪影。
  2. 渐进式3D更新流水线 (Progressive 3D Update Pipeline): 提出了一种渐进式更新流水线,通过将改进后的新颖视图 (novel views) 蒸馏回3D表示,从而逐步完善3D重建。这确保了多视角一致性 (multi-view consistency) 并显著提升了3D表示的质量。与在每个训练步骤查询扩散模型的方法相比,该方法速度提升超过10倍。
  3. 实时后处理能力 (Real-time Post-processing Capability): 展示了单步扩散模型如何实现近乎实时的后处理,进一步提升了新视角合成的质量。
  4. 最先进的性能 (State-of-the-Art Performance): 在多个数据集上对方法进行了评估,结果显示其优于现有方法,平均 PSNR 提高超过1 dB,FID 提高超过2倍,同时保持了良好的3D一致性。

3. 预备知识与相关工作

3.1. 基础概念

3.1.1. 神经辐射场 (Neural Radiance Fields, NeRF)

NeRF 是一种开创性的新视角合成 (novel-view synthesis) 方法,它将场景建模为由一个多层感知机 (Multi-Layer Perceptron, MLP) 权重编码的发射体积 (emissive volume)。这个 MLP 可以查询空间中任何位置,以返回视图依赖的辐射度 cR3c \in \mathbb { R } ^ { 3 } 和体密度 (volume density) σR\sigma \in \mathbb { R }

给定一个起点为 oR3\mathbf { o } \in \mathbb { R } ^ { 3 },方向为 ΔdR3\mathbf { \Delta } d \in \mathbb { R } ^ { 3 } 的光线 r(τ)=o+td\mathbf { r } ( \tau ) = o + t d,可以通过沿光线采样点并通过体渲染 (volume rendering) 累积其辐射度来渲染该光线的颜色 C(p)\mathcal { C } ( \mathbf { p } ),公式如下: C(p)=i=1Nαiciji1(1αi) \mathcal { C } ( \mathbf { p } ) = \sum _ { i = 1 } ^ { N } \alpha _ { i } \mathbf { c } _ { i } \prod _ { j } ^ { i - 1 } ( 1 - \alpha _ { i } ) 其中,αi=(1exp(αiδi))\alpha _ { i } = ( 1 - \exp ( - \alpha _ { i } \delta _ { i } ) ) 是第 ii 个采样点的体素不透明度,NN 表示沿光线的采样点数量,δi\delta _ { i } 是用于积分的步长。

3.1.2. 3D高斯泼溅 (3D Gaussian Splatting, 3DGS)

3DGS 是一种不同于 NeRF 的场景表示方法,它不将场景表示为连续的神经场,而是使用由其位置 μR3\pmb { \mu } \in \mathbb { R } ^ { 3 }、旋转 rR4\mathbf { r } \in \mathbb { R } ^ { 4 }、尺度 sR3\mathbf { s } \in \mathbb { R } ^ { 3 }、不透明度 (opacity) ηR\eta \in \mathbb { R } 和颜色 ci\mathbf { c } _ { i } 参数化的体积粒子(高斯)。

新颖视图可以利用与 NeRF 相同的体渲染公式(等式 (1))从这种表示中渲染出来,其中 αi\alpha _ { i } 的计算方式为: αi=ηiexp[12(pμi)Σi1(pμi)] \alpha _ { i } = \eta _ { i } \exp \left[ - { \frac { 1 } { 2 } } \left( \mathbf { p } - { \pmb \mu } _ { i } \right) ^ { \top } \pmb { \Sigma } _ { i } ^ { - 1 } \left( \mathbf { p } - { \pmb \mu } _ { i } \right) \right] 此处,Σ=RSSTRT\pmb { \Sigma } = \pmb { R } \pmb { S } \pmb { S } ^ { T } \pmb { R } ^ { T },其中 RSO(3)\mathbf { R } \in \mathrm { S O } ( 3 )SR3×3\mathbf { S } \in \mathbb { R } ^ { 3 \times 3 } 分别是旋转 r\mathbf { r } 和尺度 s\pmb { s } 的矩阵表示。对每个像素贡献的高斯数量 NN 通过基于瓦片 (tile-base) 的光栅化 (rasterization) 来确定。

3.1.3. 扩散模型 (Diffusion Models, DMs)

扩散模型 (DMs) 通过迭代去噪 (denoising) 来学习数据分布 pdata(x)p _ { \mathrm { d a t a } } ( \mathbf { x } ),并使用去噪得分匹配 (denoising score matching) 进行训练。具体而言,为了训练一个扩散模型,数据 xpdata\mathbf { x } \sim p _ { \mathrm { d a t a } } 的扩散版本 xτ=ατx+στϵ{ \bf x } _ { \tau } = \alpha _ { \tau } { \bf x } + \sigma _ { \tau } \epsilon 通过逐步添加高斯噪声 ϵN(0,I)\epsilon \sim \mathcal { N } ( 0 , I ) 来生成。去噪器模型 Fθ\mathbf { F } _ { \pmb { \theta } } 的可学习参数 θ\pmb \theta 通过以下去噪得分匹配目标进行优化: Expdata,τpτ,ϵN(0,I)[yFθ(xτ;c,τ)22], \begin{array} { r } { \mathbb { E } _ { \mathbf { x } \sim p _ { \mathrm { d a t a } } , \tau \sim p _ { \tau } , \epsilon \sim { \mathcal N } ( \mathbf { 0 } , I ) } \left[ \lVert \mathbf { y } - \mathbf { F } _ { \theta } ( \mathbf { x } _ { \tau } ; \mathbf { c } , \tau ) \rVert _ { 2 } ^ { 2 } \right] , } \end{array} 其中,c\mathbf { c } 表示可选的条件信息,例如文本提示或图像上下文。根据模型公式,目标向量 y\mathbf { y } 通常设置为添加的噪声 ϵ\epsilon。最后,pτp _ { \tau } 表示扩散时间变量 τ\tau 上的均匀分布。在实践中,可以使用固定的离散化。在这种设置下,pτp _ { \tau } 通常选择为均匀分布,pτU(0,1000)p _ { \tau } \sim \mathcal { U } ( 0 , 1 0 0 0 )。最大扩散时间 τ=1000\tau = 1 0 0 0 通常设置得使输入数据完全转换为高斯噪声。

3.1.4. 单步扩散模型 (Single-Step Diffusion Models)

传统的扩散模型通常需要数百到上千步的迭代去噪过程才能生成高质量图像,导致推理速度较慢。单步扩散模型,如本文使用的 SD-TurboLatent Consistency Models (LCMs),通过特殊的训练策略(如 Adversarial Diffusion DistillationConsistency Distillation)使得模型能够在一个或极少数的去噪步骤内生成高质量图像。这极大地提高了推理效率,使其能够应用于实时后处理等对速度要求较高的任务。

3.2. 前人工作

相关工作主要分为以下几类:

  • 改进3D重建差异 (Improving 3D Reconstruction Discrepancies):

    • 多数3D重建方法假设输入数据完美,但真实世界采集常包含轻微不一致性,导致3D表示出现伪影和模糊。
    • 部分方法通过优化相机姿态 (optimizing camera poses) (如 DBARF, BARF, CAMP) 提高了 NeRF 对噪声输入的鲁棒性。
    • 另一些工作关注解决图像间的照明变化 (lighting variations) (如 NeRF in the Wild, SUDS) 和减轻瞬态遮挡 (transient occlusions) (如 RobustNeRF)。
    • 本文的切入点: 尽管这些方法补偿了训练期间输入数据的不一致性,但并未完全消除它们。这促使本文在渲染时也应用修复器,以进一步提高受这些差异影响区域的质量。
  • 新视角合成的先验 (Priors for Novel View Synthesis):

    • NeRF3DGS 在重建未观察到的场景区域方面存在局限性。
    • 几何先验 (Geometric priors): 通过正则化 (如 RegNeRF, SimpleNeRF) 或预训练模型提供的深度 (depth) (如 Depth-supervised NeRF, Dense Depth Priors) 和法线 (normal) (如 MonoSDF) 监督来引入。这些方法对噪声敏感,难以平衡,且在密集采集数据中仅带来微小改进。
    • 前馈神经网络 (Feedforward neural networks): 通过在多个场景中收集的带姿态的多视角数据进行训练。在渲染时,这些方法聚合来自邻近参考视图的信息以增强先前渲染的视图 (如 NeRFLiX) 或直接预测新颖视图 (如 MVSNeRF, pixelNeRF)。这些确定性方法在参考视图附近表现良好,但在分布本质上是多模态的模糊区域中常产生模糊结果。
  • 新视角合成的生成先验 (Generative Priors for Novel View Synthesis):

    • 生成模型学到的先验 (priors) 越来越多地被用于增强新视角合成。
    • GANeRF 训练逐场景的生成对抗网络 (GAN) 来增强 NeRF 的真实感。
    • 许多其他工作使用扩散模型,它们从互联网规模的数据集学习到强大且泛化的先验。这些扩散模型可以直接通过少量微调生成新颖视图 (如 Cat3D, AnimateDiff),或引导3D表示的优化。在后一种情况下,扩散模型通常作为评分器 (scorer) 在每个优化步骤中被查询 (如 NeRFDiff, DreamFusion, SparseFusion, Reconfusion),这显著减慢了训练速度。
    • 本文的相似点与差异点: Deceptive-NeRF 和同期工作 3DGS-Enhancer 使用扩散先验来增强从3D表示渲染的伪观察 (pseudo-observations),从而扩充训练图像集以微调3D表示。由于这种方法避免了在每个训练步骤中查询扩散模型,因此显著降低了开销。本文工作与它们方向类似,但在两个关键方面有所不同:
      1. 本文引入了渐进式3D更新流水线 (progressive 3D update pipeline),即使在极端新颖视图中也能有效纠正伪影,同时保持长距离一致性。
      2. 本文的模型在优化和渲染时都使用,从而提高了视觉质量。

3.3. 技术演进

3D重建和新视角合成领域经历了从传统的多视图几何方法到基于深度学习的神经渲染方法的转变。早期方法依赖于显式的几何建模和纹理映射,但在处理复杂场景和生成新颖视图时面临挑战。NeRF 的出现,通过隐式地将场景编码为 MLP 的权重,实现了令人惊叹的照片级真实感渲染,但其训练速度慢、对稀疏视图鲁棒性差、且易受伪影影响。3DGS 则通过引入显式的高斯点云表示,大幅提升了渲染速度和质量,但同样面临伪影和在未观察区域泛化能力不足的问题。

为了弥补这些方法的不足,研究人员开始探索引入额外先验信息,包括几何先验(如深度、法线)和生成先验。特别是,2D生成模型(如 GAN 和扩散模型)因其强大的图像生成能力和从海量数据中学习到的丰富视觉先验而受到关注。将这些2D先验“提升”到3D,以指导或增强3D重建成为一个重要的研究方向。

本文的工作正处于这一技术演进的交汇点,它认识到现有2D生成先验与3D表示融合时面临的效率挑战。通过采用单步扩散模型,并设计一种独特的渐进式3D更新和实时后处理流水线,Difix3D+Difix3D+ 有效地将2D扩散先验的力量引入3D重建,弥合了2D生成能力与3D一致性之间的鸿沟,并显著提升了 NeRF/3DGS 在极端视角下的表现。

3.4. 差异化分析

Difix3D+Difix3D+ 与现有工作的主要区别和创新点体现在以下几个方面:

  1. 单步扩散模型的利用 (Utilization of Single-Step Diffusion Models):

    • 现有方法: 许多利用扩散模型增强3D重建的方法,如 DreamFusionNeRFDiff 等,需要在每个训练步骤中查询(或指导)一个多步扩散模型,这导致训练效率极低,耗时且难以扩展到大规模场景。
    • 本文方法: Difix3D+Difix3D+ 的核心 DiFIx 是一个基于 SD-Turbo单步扩散模型。这意味着它可以在一个去噪步骤内完成图像增强,极大地提高了效率。这种效率使得 DiFIx 不仅可以在训练阶段用于生成伪训练视图,还可以在推理阶段作为实时的后处理步骤,这是传统多步扩散模型难以实现的。
  2. 双重作用机制 (Dual Role Mechanism):

    • 现有方法: 大多数方法要么专注于在训练阶段利用生成模型引导3D表示优化,要么在渲染后进行2D图像增强。
    • 本文方法: DiFIx 在流水线中扮演双重角色:
      • 训练阶段的蒸馏 (Distillation during Training): DiFIx 清理 rendered novel views (伪训练视图),然后将这些高质量视图蒸馏回3D表示,从而改善底层3D模型的几何和外观。这种内部循环有助于 3D consistency
      • 推理阶段的实时增强 (Real-time Enhancement during Inference): DiFIx 作为一个神经增强器,对最终渲染结果进行实时后处理,进一步去除残余伪影,提升视觉质量。这种“二次修正”确保了即便3D模型本身存在微小缺陷,最终输出也能达到更高质量。
  3. 渐进式3D更新流水线 (Progressive 3D Update Pipeline):

    • 现有方法: 即使是使用扩散先验增强伪观察的方法 (如 Deceptive-NeRF, 3DGS-Enhancer),也可能面临一次性引入大量新颖视图导致不一致的问题。
    • 本文方法: Difix3D+Difix3D+ 引入了一种渐进式3D更新策略。它逐步微扰相机姿态,渲染并修正新颖视图,然后将其添加到训练集。这种迭代且增量的方式确保了3D表示在扩展其观察范围的同时,能够逐步适应并保持 multi-view consistency。这对于处理极端新颖视图至关重要。
  4. 通用性和广泛兼容性 (Generality and Broad Compatibility):

    • 现有方法: 许多生成先验方法可能专注于特定3D表示 (如只针对 NeRF)。

    • 本文方法: DiFIx3D+DiFIx3D+ 作为一个通用解决方案,可以兼容 NeRF3DGS 两种不同的3D表示,显示了其广泛的适用性。

      通过这些创新点,Difix3D+Difix3D+ 不仅提高了使用2D扩散先验进行3D重建的效率和质量,而且在保持 3D consistency 的同时,有效解决了极端新颖视角下的伪影问题。

4. 方法论

4.1. 方法原理

Difix3D+Difix3D+ 方法的核心思想是利用一个经过微调的单步扩散模型 DiFIx 来修复3D渲染中存在的伪影,并将其整合到3D重建的整个生命周期中:从训练阶段的3D模型优化到推理阶段的实时渲染后处理。这种双重应用确保了3D表示在约束不足区域的质量得到显著提升,并且最终渲染结果具有更高的照片真实感和更少伪影,同时保持了3D一致性。

具体来说,DiFIx 被训练成一个 image-to-image translation 模型,能够将带有伪影的渲染图像转换为干净、高质量的图像。在训练阶段,这些由 DiFIx 修复后的图像被作为“伪训练视图”反向蒸馏回3D表示,从而在模型内部纠正几何和外观上的缺陷。在推理阶段,由于 DiFIx 的单步特性,它可以作为一种低延迟的后处理步骤,对最终渲染出的图像进行实时增强,进一步消除残余伪影。

该方法的直觉是,虽然传统的 NeRF3DGS 模型可能难以在缺乏足够训练数据的区域生成高质量、无伪影的渲染,但一个强大的2D生成模型(如扩散模型)可以利用其从海量真实图像中学到的先验知识来“幻化”出合理的细节和纹理,从而“修复”这些渲染缺陷。通过巧妙地将这个2D修复能力与3D模型训练相结合,并应用于渲染后的实时增强,Difix3D+Difix3D+ 旨在克服传统3D重建方法的固有局限性。

4.2. 核心方法详解

4.2.1. DiFIx: 从预训练扩散模型到3D伪影修复器

给定一个可能包含3D表示伪影的渲染新颖视图 I~\tilde { I } 和一组干净的参考视图 IrefI _ { \mathrm { r e f } },我们的模型旨在生成一个经过精炼的新颖视图预测 I^\hat { I }。我们基于单步扩散模型 SD-Turbo [49] 构建模型,该模型已被证明在 image-to-image translation 任务中高效,并能实现实时后处理。

(1) 参考视图条件化 (Reference View Conditioning)

为了捕捉跨视图依赖性,我们将模型条件化 (condition) 于一组干净的参考视图 IrefI _ { \mathrm { r e f } }。在实践中,我们选择最接近的训练视图作为参考视图。受到视频扩散模型和多视图扩散模型的启发,我们调整了自注意力层 (self-attention layers) 为参考混合层 (reference mixing layer)。

具体步骤如下: 首先,我们将新颖视图 I~\tilde { I } 和参考视图 IrefI _ { \mathrm { r e f } } 沿一个额外的视图维度进行拼接,并使用 VAE 编码器将其编码到潜空间 (latent space) zRV×C×H×W\mathbf { z } \in \mathbb { R } ^ { V \times C \times H \times W }。其中,CC 是潜空间通道数,VV 是输入视图数量(参考视图和目标视图),HHWW 是空间潜维度。 参考混合层通过以下操作进行: zrearrange(z,b  V (hw) b  C (vhw) )zlϕi(z,z)zrearrange(z,b  C (vhw) b  C v (hw) ), \begin{array} { r l } & { \mathbf { z } ^ { \prime } \mathrm { r e a r r a n g e } ( \mathbf { z } , \mathrm { b ~ \subset ~ \mathbb { V } ~ \mathrm { ( h w ) } ~ } \mathrm { b ~ \subset ~ \mathbb { C } ~ \mathrm { (v h w ) } ~ } ) } \\ & { \mathbf { z } ^ { \prime } l _ { \phi } ^ { i } ( \mathbf { z } ^ { \prime } , \mathbf { z } ^ { \prime } ) } \\ & { \mathbf { z } ^ { \prime } \mathrm { r e a r r a n g e } ( \mathbf { z } ^ { \prime } , \mathrm { b ~ \subset ~ \mathbb { C } ~ \mathrm { (v h w ) } ~ } \mathrm { b ~ \subset ~ \mathbb { C } ~ \mathrm { v } ~ \mathrm { (h w ) } ~ } ) , } \end{array} 其中,rearrange 操作符(使用 einops [47] 标记)用于在视图轴和空间轴之间进行维度重塑。einops 的表示 bc(vhw)>bvc(hw)b c (v h w) -> b v c (h w) 意味着将形状为 (batch, channels, views*height*width) 的张量重塑为 (batch, views, channels, height*width)rearrange(z,bv(hw)c>bc(vhw))rearrange(z, b v (h w) c -> b c (v h w)) 这样的操作将视图维度 vv 与空间维度 h w 合并,形成一个新的空间维度 v h w,然后应用自注意力层 lϕil _ { \phi } ^ { i }。这个自注意力层 lϕil _ { \phi } ^ { i } 应用于 vhw 维度,使得模型能够捕获跨视图的依赖关系。之后,再通过 rearrange 操作将维度重塑回原始布局。这种设计允许我们继承原始2D自注意力的所有模块权重。

(2) 微调 (Fine-tuning)

我们以类似于 Pix2pix-Turbo [40] 的方式微调 SD-Turbo [49],使用冻结的 VAE 编码器 (frozen VAE encoder) 和 LoRA 微调的解码器 (LoRA fine-tuned decoder)。与 Image2ImageTurbo 相似,我们训练模型直接将退化渲染图像 I~\tilde { I } 作为输入,而不是随机高斯噪声,但应用较低的噪声水平 τ=200\tau = 200,而不是 SD-Turbo 原始的 τ=1000\tau = 1000

其关键洞察在于:由神经渲染伪影退化的图像 I~\tilde { I } 的分布,类似于原始用于训练扩散模型在特定噪声水平 τ\tau 时的噪声图像 xτ\mathbf { x } _ { \tau } 的分布(参见第3节)。图4展示了不同噪声水平的实验结果, τ=200\tau = 200 在视觉和指标上都取得了最佳效果,既能有效去除伪影,又能保留图像上下文。

该图像是一个示意图,展示了Difix3D+中利用单步扩散模型优化3D重建和新视角合成的整体流程。图中包括输入视角、参考视角及通过VAE编码器、U-Net、参考混合层和VAE解码器模块处理后生成的输出视角,体现了模型的特征转换和增强机制。
该图像是一个示意图,展示了Difix3D+中利用单步扩散模型优化3D重建和新视角合成的整体流程。图中包括输入视角、参考视角及通过VAE编码器、U-Net、参考混合层和VAE解码器模块处理后生成的输出视角,体现了模型的特征转换和增强机制。

图3. DiFIx 模型架构图。该模型基于 SD-Turbo 进行微调,使用冻结的 VAE 编码器和 LoRA 微调的解码器。

该图像是论文中的实验结果对比图,展示了不同3D重建方法在多个场景的渲染效果。各列分别为GT、Nerfbusters、GANeRF、NeRFLiX、Nerfacto和本文方法(Ours),显示本文方法在去除伪影和细节还原方面表现更优。
该图像是论文中的实验结果对比图,展示了不同3D重建方法在多个场景的渲染效果。各列分别为GT、Nerfbusters、GANeRF、NeRFLiX、Nerfacto和本文方法(Ours),显示本文方法在去除伪影和细节还原方面表现更优。

图4. 噪声水平对图像质量的影响。在较高噪声水平(如 τ=600\tau=600)时,模型能有效去除伪影但会改变图像上下文。在较低噪声水平(如 τ=10\tau=10)时,模型仅进行微小调整,保留大部分伪影。 τ=200\tau=200 在去除伪影和保留上下文之间取得了良好的平衡,并获得了最高的指标。

(3) 损失函数 (Losses)

我们使用可用的2D监督来监督我们的扩散模型。我们使用模型输出 I^\hat { I } 和真实图像 II 之间的 L2 差异,以及一个感知 LPIPS 损失,外加一个鼓励更锐利细节的风格损失项。

  • 重建损失 (Reconstruction loss): 定义为模型输出 I^\hat { I } 和真实图像 II 之间的 L2 损失。 LRecon=I^I2. \mathcal { L } _ { \mathrm { { R e c o n } } } = \| \hat { I } - I \| _ { 2 } . 其中,I^\hat{I} 是模型输出的图像,II 是对应的真实标注数据 (Ground Truth) 图像。

  • 感知损失 (Perceptual loss): 基于 VGG-16 特征的 L1 范数 LPIPS [19] 损失,用于增强图像细节。 LLPIPS=1Ll=1Lαlϕl(I^)ϕl(I)1, \mathcal { L } _ { \mathrm { L P I P S } } = \frac { 1 } { L } \sum _ { l = 1 } ^ { L } \alpha _ { l } \left. \phi _ { l } ( \hat { I } ) - \phi _ { l } ( I ) \right. _ { 1 } , 其中,LLVGG-16 网络的层数,αl\alpha_l 是每层的权重,ϕl()\phi_l(\cdot) 表示从 VGG-16 网络的第 ll 层提取的特征图。

  • 风格损失 (Style loss): 基于 VGG-16 特征 [43] 的 Gram 矩阵损失,以获得更锐利的细节。损失定义为 VGG-16 特征自相关 (auto-correlation) 的 L2 范数: LGram=1Ll=1LβlGl(I^)Gl(I)2, \mathcal { L } _ { \mathrm { G r a m } } = \frac { 1 } { L } \sum _ { l = 1 } ^ { L } \beta _ { l } \left\| \boldsymbol { G } _ { l } ( \hat { I } ) - \boldsymbol { G } _ { l } ( I ) \right\| _ { 2 } , 其中,LLVGG-16 网络的层数,βl\beta_l 是每层的权重。Gram 矩阵 G _ { l } ( I ) 在第 ll 层定义为: Gl(I)=ϕl(I)ϕl(I). G _ { l } ( I ) = \phi _ { l } ( I ) ^ { \top } \phi _ { l } ( I ) . Gram 矩阵通过计算特征图的自相关来捕捉图像的纹理和风格信息。

最终用于训练模型的损失函数是上述各项的加权和:L=LRecon+LLPIPS+0.5LGram\mathcal { L } = \mathcal { L } _ { \mathrm { R e c o n } } + \mathcal { L } _ { \mathrm { L P I P S } } + 0 . 5 \mathcal { L } _ { \mathrm { G r a m } }

4.2.2. 数据策展 (Data Curation)

为了用上述损失函数监督模型,我们需要一个大型数据集,其中包含成对的图像,包括新视角合成中典型的伪影图像和对应的“干净”真实标注图像。作者提出了几种数据策展策略来增加训练样本数量:

  • 稀疏重建 (Sparse Reconstruction):

    • 对于 DL3DV 数据集,该数据集的相机轨迹允许采样具有显著偏差的新颖视图。
    • 通过每隔 N 帧训练一个3D表示,并将剩余的真实标注图像与渲染的“新颖”视图配对,生成稀疏重建带来的伪影。
  • 循环重建 (Cycle Reconstruction):

    • 适用于自动驾驶数据集等近乎线性的轨迹。
    • 首先在一个原始路径上训练一个 NeRF
    • 然后,从水平偏移1-6米的轨迹(经验证效果良好)渲染视图。
    • 接着,使用这些渲染视图训练第二个 NeRF 表示。
    • 最后,用第二个 NeRF 为原始相机轨迹(我们有真实标注数据)渲染退化视图。
  • 模型欠拟合 (Model Underfitting):

    • 为了生成比单纯保留视图更显著的伪影。
    • 通过减少训练周期(原始训练计划的25%-75%)来使重建模型欠拟合。
    • 然后,从这个欠拟合的重建中渲染视图,并将其与相应的真实标注数据图像配对。
  • 交叉引用 (Cross Reference):

    • 对于多相机数据集。

    • 仅使用一个相机训练重建模型,并从剩余的保留相机中渲染图像。

    • 通过选择具有相似 ISP (Image Signal Processor) 的相机来确保视觉一致性。

      以下是原文表1,展示了不同数据策展策略在 DL3DV 和内部 RDS 数据集上的应用:

以下是原文 Table 1 的结果:

Sparse ReconstructionCycle ReconstructionCross ReferenceModel Underfitting
DL3DV [23]
Internal RDS

表1. 数据策展。我们策划了一个包含新视角合成中常见伪影的配对数据集。对于 DL3DV 场景 [23],我们采用稀疏重建和模型欠拟合,而对于内部真实驾驶场景 (RDS) 数据,我们利用循环重建、交叉引用和模型欠拟合技术。

4.2.3. DiFIx3D+DiFIx3D+: 带有扩散先验的新视角合成 (NVS with Diffusion Priors)

我们训练的扩散模型 DiFIx 可以直接应用于推理期间增强渲染的新颖视图。然而,由于模型的生成性质,这会导致跨不同姿态/帧的不一致性,尤其是在观察较少和嘈杂的区域,其中模型需要幻化出高频细节甚至更大的区域。为了解决这个问题,我们在训练期间将扩散模型的输出蒸馏回3D表示。这不仅改善了多视角一致性 (multi-view consistency),还提高了渲染新颖视图的感知质量。此外,我们在渲染推理期间应用一个最终的神经增强器 (neural enhancer) 步骤,有效去除残余伪影。

(1) DiFIx3D: 渐进式3D更新 (Progressive 3D Updates)

由于我们的扩散模型对渲染的新颖视图和参考视图的强条件化对于实现多视角一致性和高保真度至关重要。当所需的新颖轨迹距离输入视图太远时,条件信号会变弱,扩散模型被迫幻化更多。因此,我们采用了一种迭代训练方案,类似于 Instruct-NeRF2NeRF [14],它逐步增加了可以(多视角一致地)渲染到新颖视图的3D线索集,从而增加了扩散模型的条件化。

具体来说,给定一组目标视图,我们首先使用参考视图优化3D表示。每经过 1.5k1.5 \mathrm { k } 次迭代,我们稍微扰动真实相机姿态,使其向目标视图靠近,渲染生成的新颖视图,并使用在第4.1节中训练的扩散模型精炼渲染结果。然后将这些精炼图像添加到训练集,再进行 1.5k1.5 \mathrm { k } 次迭代训练。通过逐步扰动相机姿态、精炼新颖视图并更新训练集,这种方法逐渐改善3D一致性,并确保在目标视图处获得高质量、无伪影的渲染。

以下是原文 Algorithm 1 的伪代码,描述了渐进式3D更新过程:

Algorithm 1: Progressive 3D Updates for Novel View Rendering Input: Reference views Vref, Target views Vtarget, 3D
representation R (e.g., NeRF, 3DGS), Diffusion model D (DIFIX), Number of iterations per refinement Niter, Perturbation
step size ∆pose
Output: High-quality, artifact-free renderings at Vtarget
Initialize: Optimize 3D representation R using Vref.
2 while not converged do /* Optimize the 3D
representation */
3 for i = 1 to Niter do 4 Optimize R using the current training set.
/* Generate novel views by
perturbing camera poses */
5 for each v Vtarget do 6 Find the nearest camera pose of v in the
training set.
Perturb the nearest camera pose by ∆pose. 7
8 Render novel view ù using R.
9 Refine ù using diffusion model D.
10 Add refined view ò to the training set.

11 return Refined renderings at VtargetV _ { \mathrm { t a r g e t } } 算法1:用于新颖视图渲染的渐进式3D更新。 输入:参考视图 Vref,目标视图 Vtarget,3D表示 RR(例如 NeRF3DGS),扩散模型 DD (DiFIx),每次精炼的迭代次数 Niter,扰动步长 ΔposeΔpose。 输出:Vtarget 处的高质量、无伪影渲染。 初始化:使用 Vref 优化3D表示 RR。 2 循环直到收敛 /* 优化3D表示 / 3 对于 i = 1 到 Niter: 4 使用当前训练集优化 RR。 / 通过扰动相机姿态生成新颖视图 */ 5 对于 Vtarget 中的每个 vv: 6 在训练集中找到 vv 的最近相机姿态。 7 通过 ΔposeΔpose 扰动最近的相机姿态。 8 使用 RR 渲染新颖视图 I~\tilde { I }. 9 使用扩散模型 DD 精炼 I~\tilde { I }. 10 将精炼视图 I^\hat { I } 添加到训练集。 11 返回 Vtarget 处的精炼渲染。

这种渐进式过程允许我们逐步增加参考视图和目标视图之间的3D线索重叠,最终实现一致、无伪影的渲染。

(2) DiFIx3D+DiFIx3D+: 实时渲染后处理 (With Real time Post Render Processing)

由于我们蒸馏的增强新颖视图存在轻微的多视角不一致性,以及重建方法在表示锐利细节方面的有限能力,某些区域仍然模糊。为了进一步增强新颖视图,我们在渲染时将扩散模型用作最终的后处理步骤,从而在所有感知指标上获得改进,同时保持高度一致性。由于 DiFIx 是一个单步模型,在 NVIDIA A100 GPU 上的额外渲染时间仅为 76ms76 \mathrm { m s },比多步去噪的标准扩散模型快10倍以上。

通过图2中的整体流水线示意图,可以更直观地理解 DiFIx3D+DiFIx3D+ 的工作流程。

该图像是来自 Difix3D+ 论文的示意图,展示了 Difix3D 用于 3D 优化和 Difix3D+ 用于实时后期渲染的流程。图中对比了参考视图、新颖视角与经过 Difix 模型处理后的效果,突出单步扩散模型在提升 3D 重建细节及去除伪影中的作用。
该图像是来自 Difix3D+ 论文的示意图,展示了 Difix3D 用于 3D 优化和 Difix3D+ 用于实时后期渲染的流程。图中对比了参考视图、新颖视角与经过 Difix 模型处理后的效果,突出单步扩散模型在提升 3D 重建细节及去除伪影中的作用。

图2. DiFIx3D+DiFIx3D+ 流水线。DiFIx3D+DiFIx3D+ 模型的整体流水线包括以下阶段:第1步:给定一个预训练的3D表示,渲染出一系列(可能包含伪影的)新颖视图。第2步:DiFIx 模型对这些视图进行增强。第3步:增强后的视图被蒸馏回3D表示,以优化其质量和一致性。最后,在推理时,DiFIx 再次作为后处理器,对最终渲染结果进行实时增强。 图2中蓝色相机代表训练视图,红色相机代表目标视图。橙色相机代表沿渐进式3D更新轨迹的中间新颖视图。

5. 实验设置

5.1. 数据集

  • DL3DV [23] 数据集 (in-the-wild scenes):

    • 用于 DiFIx 训练。从总共140个场景中随机选择80%(112个)场景进行训练。
    • 使用第4.1.1节列出的数据策展策略,生成80,000对噪声-干净图像对,并以1:1的比例模拟 NeRF3DGS 的伪影。
    • 评估协议:在 DL3DV 剩余的28个保留场景和 Nerfbusters [70] 数据集中的12个捕获上进行评估。通过将帧根据相机位置分成两个簇,确保参考视图和目标视图之间有显著偏差,从而生成 DL3DV 的分裂。
  • Nerfbusters [70] 数据集:

    • 包含12个捕获。
    • 评估协议:遵循其推荐协议选择参考视图和目标视图。
  • 内部真实驾驶场景 (RDS) 数据集 (Automotive scenes):

    • 汽车捕捉设备包含三个相机,每个相机之间有40度的重叠。
    • 用于 DiFIx 训练。使用40个场景,并使用第4.1.1节列出的增强策略生成100,000对图像对。
    • 评估协议:在20个场景上评估 DiFIx3D+DiFIx3D+ (使用 Nerfacto 主干网络),这些场景均未用于 DiFIx 训练。使用中心相机训练 NeRF,并将其余两个相机作为新颖视图进行评估。

5.2. 评估指标

我们采用多种评估指标来定量评估模型在新视角合成中的性能。以下是对每个指标的详细说明:

  • 峰值信噪比 (Peak Signal-to-Noise Ratio, PSNR):

    1. 概念定义: PSNR 广泛用于衡量重建图像相对于真实标注数据的质量。它通过比较两幅图像像素值差异的均方误差 (Mean Squared Error, MSE) 来评估图像质量,通常用于衡量图像压缩或重建的保真度。PSNR 值越高表示重建质量越好。
    2. 数学公式: PSNR=10log10(MAX2MSE), \mathrm { P S N R } = 1 0 \cdot \log _ { 10 } \left( \frac { \mathrm { M A X } ^ { 2 } } { \mathrm { M S E } } \right) , 其中,MSE (Mean Squared Error) 的计算公式为: MSE=1H×Wi=1Hj=1W(Ipred(i,j)Igt(i,j))2 \mathrm { M S E } = \frac { 1 } { H \times W } \sum _ { i = 1 } ^ { H } \sum _ { j = 1 } ^ { W } ( I _ { \mathrm { pred } } ( i , j ) - I _ { \mathrm { gt } } ( i , j ) ) ^ { 2 }
    3. 符号解释:
      • MAX: 图像中可能的最大像素值(例如,对于8位图像,MAX 为255)。
      • MSE: 预测图像 IpredI _ { \mathrm { pred } } 与真实标注图像 IgtI _ { \mathrm { gt } } 之间的均方误差。
      • H, W: 图像的高度和宽度。
      • Ipred(i,j)I _ { \mathrm { pred } } ( i , j ): 预测图像在像素 (i, j) 处的值。
      • Igt(i,j)I _ { \mathrm { gt } } ( i , j ): 真实标注图像在像素 (i, j) 处的值。
  • 结构相似性指数 (Structural Similarity Index, SSIM):

    1. 概念定义: SSIM 通过考虑亮度 (luminance)、对比度 (contrast) 和结构 (structure) 三个方面来评估两幅图像之间的感知相似性。它旨在更好地匹配人类视觉系统的感知特性,从而比 PSNR 更好地反映图像质量。SSIM 值越高表示感知相似性越好。
    2. 数学公式: SSIM(Ipred,Igt)=(2μpredμgt+C1)(2σpred,gt+C2)(μpred2+μgt2+C1)(σpred2+σgt2+C2), \mathrm { S S I M } ( I _ { \mathrm { pred } } , I _ { \mathrm { g t } } ) = \frac { ( 2 \mu _ { \mathrm { pred } } \mu _ { \mathrm { g t } } + C _ { 1 } ) ( 2 \sigma _ { \mathrm { pred , g t } } + C _ { 2 } ) } { ( \mu _ { \mathrm { pred } } ^ { 2 } + \mu _ { \mathrm { g t } } ^ { 2 } + C _ { 1 } ) ( \sigma _ { \mathrm { pred } } ^ { 2 } + \sigma _ { \mathrm { g t } } ^ { 2 } + C _ { 2 } ) } ,
    3. 符号解释:
      • μpred\mu _ { \mathrm { pred } }: 预测图像的像素平均值。
      • μgt\mu _ { \mathrm { gt } }: 真实标注图像的像素平均值。
      • σpred2\sigma _ { \mathrm { pred } } ^ { 2 }: 预测图像的方差。
      • σgt2\sigma _ { \mathrm { gt } } ^ { 2 }: 真实标注图像的方差。
      • σpred,gt\sigma _ { \mathrm { pred , g t } }: 预测图像和真实标注图像之间的协方差。
      • C1=(K1L)2C _ { 1 } = ( K _ { 1 } L ) ^ { 2 }C2=(K2L)2C _ { 2 } = ( K _ { 2 } L ) ^ { 2 }: 用于稳定分母的常数,其中 K1=0.01K_1 = 0.01, K2=0.03K_2 = 0.03LL 是像素值的动态范围(例如,对于8位图像为255)。
  • 学习感知图像块相似度 (Learned Perceptual Image Patch Similarity, LPIPS):

    1. 概念定义: LPIPS 评估两幅图像之间的感知相似性,基于从预训练神经网络(如 VGGAlexNet)提取的特征嵌入。它被认为比像素级指标(如 PSNRSSIM)更能反映人类对图像相似度的判断。LPIPS 值越低表示感知相似性越高。
    2. 数学公式: \mathrm { L P I P S } ( I _ { \mathrm { pred } } , I _ _ { \mathrm { g t } } ) = \sum _ { l } \| \phi _ { l } ( I _ { \mathrm { pred } } ) - \phi _ { l } ( I _ { \mathrm { g t } } ) \| _ { 2 } ^ { 2 } ,
    3. 符号解释:
      • IpredI _ { \mathrm { pred } }: 预测图像。
      • IgtI _ { \mathrm { gt } }: 真实标注图像。
      • ϕl\phi _ { l }: 表示从预训练 VGG-16 网络 [52] 的第 ll 层提取的特征图。
      • 22\| \cdot \| _ 2 ^ 2: L2 范数的平方。
      • l\sum _ { l }: 对不同层特征的加权求和。
  • Fréchet 起始距离 (Fréchet Inception Distance, FID):

    1. 概念定义: FID 衡量生成图像和真实图像在预训练 Inception 网络特征空间中的分布相似性。它通常用于评估生成对抗网络 (GAN) 或扩散模型等生成模型的图像质量和多样性。FID 值越低表示生成图像的分布与真实图像的分布越接近,质量越高。
    2. 数学公式: FID=μgenμreal22+Tr(Σgen+Σreal2(ΣgenΣreal)12), \mathrm { F I D } = \Vert \mu _ { \mathrm { g e n } } - \mu _ { \mathrm { r e a l } } \Vert _ { 2 } ^ { 2 } + \mathrm { T r } ( \Sigma _ { \mathrm { g e n } } + \Sigma _ { \mathrm { r e a l } } - 2 ( \Sigma _ { \mathrm { g e n } } \Sigma _ { \mathrm { r e a l } } ) ^ { \frac { 1 } { 2 } } ) ,
    3. 符号解释:
      • μgen\mu _ { \mathrm { gen } }: 生成图像特征的均值向量。
      • μreal\mu _ { \mathrm { real } }: 真实图像特征的均值向量。
      • Σgen\Sigma _ { \mathrm { gen } }: 生成图像特征的协方差矩阵。
      • Σreal\Sigma _ { \mathrm { real } }: 真实图像特征的协方差矩阵。
      • 22\Vert \cdot \Vert _ 2 ^ 2: L2 范数的平方。
      • Tr()\mathrm { Tr } ( \cdot ): 矩阵的迹。
  • 阈值对称对极距离 (Thresholded Symmetric Epipolar Distance, TSED):

    1. 概念定义: TSED [80] 用于量化序列中一致帧对的数量,从而评估多视角一致性 (multi-view consistency)。它通过计算每对帧之间的对极距离,并在给定阈值下判断其是否一致。TSED 值越高表示多视角一致性越好。
    2. 数学公式: 原文未提供具体公式,但其核心思想是计算图像序列中相邻帧之间特征点匹配的对称对极距离,并统计满足一定阈值条件的匹配数量。

5.3. 对比基线

为了全面评估 DiFIx3D+DiFIx3D+ 的性能,作者将其与以下基线模型进行了比较:

  • Nerfacto [58]: NeRF 的一个快速、高质量变体,作为 NeRF 主干网络的基础。

  • 3DGS [20]: 3D高斯泼溅,作为 3DGS 主干网络的基础。

  • Nerfbusters [70]: 一种使用3D扩散模型去除 NeRF 中伪影的方法。它通过3D感知扩散模型来清理重建结果。

  • GANeRF [46]: 训练逐场景的生成对抗网络 (GAN) 以增强场景表示的真实感。

  • NeRFLiX [88]: 在推理时聚合来自附近参考视图的信息,以提高新视角合成质量的方法。

    实验中,3DGS 的相关实验使用了 gsplat 库,而所有其他方法和基线都使用了其官方实现,确保了公平对比。

6. 实验结果与分析

6.1. 核心结果分析

6.1.1. 真实世界场景伪影去除 (In-the-Wild Artifact Removal)

我们首先在真实世界场景上评估 DiFIx3D+DiFIx3D+,并将其与多个基线进行比较,展示其增强 NeRF3DGS 两种流水线的能力。

以下是原文 Table 2 的结果:

Nerfbusters DatasetDL3DV Dataset
MethodPSNR↑SSIM↑LPIPS↓FID↓PSNR↑SSIM↑LPIPS↓FID↓
Nerfbusters [70]17.720.64670.3521116.8317.450.60570.370296.61
GANeRF [46]17.420.61130.3539115.6017.540.60990.342081.44
NeRFLiX [88]17.910.65600.3458113.5917.560.61040.358880.65
Nerfacto [58]17.290.62140.4021134.6517.160.58050.4303112.30
DIFIx3D (Nerfacto)18.080.65330.327763.7717.800.59640.327150.79
DifIx3D+ (Nerfacto)18.320.66230.278949.4417.820.61270.282841.77
3DGS [20]17.660.67800.3265113.8417.180.58770.3835107.23
DifIx3d (3DGS)18.140.68210.283651.3417.800.59830.314250.45
Difix3d+ (3dGS)18.510.68580.263741.7717.990.60150.293240.86

表2. 在 NerfbustersDL3DV 数据集上的定量结果。

分析: 从表2可以看出,DiFIx3D+DiFIx3D+ 在所有指标上都显著优于所有对比方法。

  • 感知质量提升: DiFIx3D+DiFIx3D+ 的两个变体(基于 Nerfacto3DGS)相对于其各自的基线,LPIPS 降低约0.1,FID 降低近3倍。这突出表明 DiFIx3D+DiFIx3D+ 在感知质量和视觉保真度方面取得了显著改进。例如,在 Nerfbusters 数据集上,NerfactoFID 为134.65,而 DiFIx3D+ (Nerfacto) 降至49.44;3DGSFID 为113.84,而 DiFIx3D+(3DGS)DiFIx3D+ (3DGS) 降至41.77。

  • 像素级精度提升: DiFIx3D+DiFIx3D+PSNR(一个对颜色偏移敏感的像素级指标)上也提高了约1dB。这表明 DiFIx3D+DiFIx3D+ 在保持与原始视图高保真度的同时进行了增强。例如,在 Nerfbusters 数据集上,NerfactoPSNR 为17.29,DiFIx3D+ (Nerfacto) 提高到18.32;3DGSPSNR 为17.66,DiFIx3D+(3DGS)DiFIx3D+ (3DGS) 提高到18.51。

  • 多模型兼容性: 结果表明,DiFIx3D+DiFIx3D+ 可以有效地增强 NeRF3DGS 两种不同类型的3D表示,显示了其通用性。

  • 相较于其他扩散增强方法: 即使是与专门为去除 NeRF 伪影设计的 Nerfbusters [70] 相比,DiFIx3D+DiFIx3D+FIDLPIPS 上也有压倒性优势,显示了其 DiFIx 模型和流水线的优越性。

    图5提供了定性示例,展示了 DiFIx3D+DiFIx3D+ 如何比其他方法纠正更多伪影。

    该图像是论文中的实验结果对比图,展示了不同3D重建方法在多个场景的渲染效果。各列分别为GT、Nerfbusters、GANeRF、NeRFLiX、Nerfacto和本文方法(Ours),显示本文方法在去除伪影和细节还原方面表现更优。 该图像是论文中的实验结果对比图,展示了不同3D重建方法在多个场景的渲染效果。各列分别为GT、Nerfbusters、GANeRF、NeRFLiX、Nerfacto和本文方法(Ours),显示本文方法在去除伪影和细节还原方面表现更优。

图5. Nerfbusters [70] 数据集(底部)和 DL3DV 数据集(顶部)上的定性结果。DiFIx3D+DiFIx3D+ 纠正的伪影明显多于其他方法。

6.1.2. 汽车场景增强 (Automotive Scene Enhancement)

我们进一步通过增强汽车场景来评估 DiFIx3D+DiFIx3D+ 的通用性。

以下是原文 Table 3 的结果:

MethodPSNR↑SSIM↑LPIPS↓FID↓
Nerfacto19.950.49300.530091.38
Nerfacto + NeRFLiX20.440.56720.4686116.28
Nerfacto + DIfIx3D21.520.57000.426677.83
Nerfacto + Difix3D+21.750.58290.401673.08

表3. RDS 数据集上的定量结果比较。最佳结果以粗体显示。

分析:

  • 持续的性能提升: 类似于真实世界场景,DiFIx3D+DiFIx3D+RDS 数据集上所有指标上都优于基线。Nerfacto + DiFIx3D+ 取得了最高的 PSNR (21.75)、SSIM (0.5829),最低的 LPIPS (0.4016) 和 FID (73.08)。

  • FID 显著降低: NerfactoFID 为91.38,而 Nerfacto + DiFIx3D+ 降至73.08,再次证明了感知质量的显著提升。

  • NeRFLiX 的局限性: NeRFLiX 尽管提升了 PSNRSSIM,但在 FID 上反而恶化,这可能说明它在聚合信息时,虽然提高了像素级相似度,但未能捕捉到真实图像分布的特征,甚至可能引入了不自然的生成模式。

  • DiFIx3D vs DiFIx3D+DiFIx3D+: DiFIx3D+DiFIx3D+(包含实时后处理)相比 DiFIx3D(仅包含渐进式3D更新)在所有指标上均有进一步提升,证实了实时后处理步骤的有效性。

    图6展示了 DiFIx3D+DiFIx3D+ 如何以一致的方式减少汽车场景中跨视图的伪影。

    Figure 6. Qualitative results on the RDS dataset. DIFIX for RDS was trained on 40 scenes and 100,000 paired data samples. 该图像是论文中对比示意图,展示了NeRFacto与Difix3D+在RDS数据集上的渲染效果。图中Difix3D+显著提升了视角变化下的照片真实感和细节清晰度。

图6. RDS 数据集上的定性结果。用于 RDSDiFIx 在40个场景和100,000对数据样本上进行训练。

6.2. 消融实验/参数分析

6.2.1. 流水线组件 (Pipeline Components)

我们通过增量式应用流水线组件来对方法进行消融研究。我们将 Nerfacto 基线与以下情况进行比较:(a) 直接在渲染视图上运行 DiFIx,不进行3D更新;(b) 通过非增量方式的3D更新蒸馏 DiFIx 输出;(c) 增量式应用3D更新 (DiFIx3D);(d) 将 DiFIx 作为渲染后处理步骤添加 (DiFIx3D+DiFIx3D+)。

以下是原文 Table 4 的结果:

MethodPSNR↑SSIM↑LPIPS↓FID↓
Nerfacto17.290.62140.4021134.65
+ (a) (DIFIX)17.400.62790.299649.87
+ (a) + (b) (DiFIX + single-step 3D update)17.970.65630.342475.94
+ (a) + (b) + (c) (DIFIX3D)18.080.65330.327763.77
+ (a) + (b) + (c) + (d) (D1FIX3D+)18.320.66230.278949.44

表4. DiFIx3D+DiFIx3D+Nerfbusters 数据集上的消融研究。我们比较了 Nerfacto 基线与:(a) 直接在渲染视图上运行 DiFIx 而不进行3D更新,(b) 通过非增量方式的3D更新蒸馏 DiFIx 输出,(c) 增量式应用3D更新 (DiFIx3D),以及 (d) 将 DiFIx 作为渲染后处理步骤添加 (DiFIx3D+DiFIx3D+)。

分析:

  • 直接应用 DiFIx (+ (a)): 相比 Nerfacto 基线,直接在渲染输出上应用 DiFIx 显著改善了 LPIPSFID(从134.65降至49.87),这表明 DiFIx 作为2D增强器非常有效。然而,PSNRSSIM 提升不明显,且原文提到这种方式在观察较少区域表现不佳,并会导致渲染结果的闪烁 (flickering),说明缺乏 3D consistency

  • 单步3D更新 (+ (a) + (b)): 相比仅直接应用 DiFIx,通过非增量方式(即一次性将所有伪视图加入训练集)进行3D更新虽然提升了 PSNRSSIM,但 LPIPSFID 有所恶化(从49.87升至75.94)。这表明一次性引入伪视图可能破坏了模型的学习过程,导致 3D consistency 受损或引入新的伪影。

  • 渐进式3D更新 (DiFIx3D, + (a) + (b) + (c)): 引入渐进式3D更新策略后,FID 显著改善(从75.94降至63.77),LPIPS 也进一步降低,证明了渐进式更新对于保持 3D consistency 和提高质量是至关重要的。

  • 实时后处理 (DiFIx3D+DiFIx3D+, + (a) + (b) + (c) + (d)):DiFIx3D 的基础上,增加实时后处理步骤后,所有指标再次得到提升。PSNR 达到18.32,LPIPS 降至0.2789,FID 降至49.44。这验证了实时后处理能够有效去除残余伪影,进一步增强最终输出的视觉质量。

    图8和图7展示了定性消融结果。图7特别展示了实时渲染后处理的效果,它能有效去除残余伪影,带来更高的 PSNR 和更低的 LPIPS

    Figure 8. Qualitative ablation results of DiFIx3D \(^ +\) : The columns, labeled by method name, correspond to the rows in Tab. 4. 该图像是论文中Figure 8的示意图,展示了DiFIx3D+方法的定性消融结果。图中比较了不同方法对椅子模型细节的恢复效果,突出DiFIx3D+在清除伪影和细节增强上的优势。

图8. DiFIx3D+DiFIx3D+ 的定性消融结果:列标签对应表4中的方法。

Figure 7. Qualitative ablation of real-time post-render processing: DifIx \(^ { 3 \\mathrm { D + } }\) uses an additional neural enhancer step that effectively removes residual artifacts, resulting in h…
该图像是图7的定性消融实验插图,展示了实时后渲染处理对渲染结果的影响。通过Difix3D+的神经增强器步骤,有效去除残余伪影,提升了PSNR并降低了LPIPS,绿色和红色框中的图像为对应区域放大细节。

图7. 实时渲染后处理的定性消融:DiFIx3D+DiFIx3D+ 使用额外的神经增强器步骤,有效去除残余伪影,从而带来更高的 PSNR 和更低的 LPIPS 分数。绿色或红色框中显示的图像对应于主图中绘制的边界框的放大视图。

6.2.2. DiFIx 训练 (DiFIx Training)

我们通过与 pix2pix-Turbo [40] 以及我们方法中省略参考视图条件化和 Gram 损失的变体进行比较,来验证 DiFIx 的训练策略。

以下是原文 Table 5 的结果:

MethodτSD Turbo Pretrain.GramRefLPIPS↓FID↓
pix2pix-Turbo1000√✓0.3810108.86
Difix2000.319061.80
Difix2000.306455.45
Difix2000.299647.87

表5. DiFIx 组件在 Nerfbusters 数据集上的消融研究。降低噪声水平、条件化于参考视图和结合 Gram 损失均可改进我们的模型。

分析:

  • 噪声水平 τ\tau 的影响: 相比 pix2pix-Turbo(使用 τ=1000\tau=1000),仅仅将噪声水平降低到 τ=200\tau=200DiFIx 模型就显著改善了 LPIPSFIDFID 从108.86降至61.80)。这验证了作者在图4中的发现,即 NeRF/3DGS 伪影图像的分布与在较低噪声水平下的扩散模型噪声图像分布更相似。高噪声水平会导致模型生成更多与真实标注数据不符的幻化像素,从而泛化能力变差。

  • Gram 损失的影响:DiFIx (τ=200\tau=200) 的基础上增加 Gram 损失后,LPIPSFID 进一步降低(FID 从61.80降至55.45)。这表明 Gram 损失确实有助于捕捉和生成更锐利、更真实的图像细节和风格。

  • 参考视图条件化的影响: 最终,在包含 Gram 损失的 DiFIx 基础上,再加入参考视图条件化后,LPIPSFID 再次得到提升(FID 从55.45降至47.87)。这证明了利用参考视图信息对于纠正结构不准确性、缓解颜色偏移和保持 3D consistency 是非常有效的。

    图S1提供了这些消融实验的视觉示例,进一步证实了这些设计选择的有效性。

    Figure S1. Visual comparison of DiFIx components. Reducing the noise level \(\\tau\) ((c) vs. (d)), incorporating Gram loss (b) vs. (c)), and conditioning on reference views ((a) vs. (b)) all improve ou… 该图像是图表,展示了Difix模型不同组件对图像质量的影响。通过比较带参考图、缺少参考图、缺少Gram损失以及不同噪声水平au设置下的结果,说明降低噪声水平和添加Gram损失等改进均能提升图像清晰度与细节表现。

图S1. DiFIx 组件的视觉比较。降低噪声水平 τ\tau((c) vs. (d))、结合 Gram 损失((b) vs. (c))以及条件化于参考视图((a) vs. (b))都改进了我们的模型。

6.2.3. 多视角一致性评估 (Evaluation of Multi-View Consistency)

我们使用 Thresholded Symmetric Epipolar Distance (TSED) 指标评估模型的多视角一致性。

以下是原文 Table S1 的结果:

MethodNerfactoNeRFLiXGANeRFDifix3DDifix3D+
TSED (Terror = 2)0.24920.25320.23990.26010.2654
TSED (Terror . = 4)0.53180.52760.51400.54620.5515
TSED (Terror = 8)0.78650.77890.78440.79240.7880

表S1. 在 DL3DV 数据集上的多视角一致性评估。较高的 TSED 分数表示更好的多视角一致性。

分析:

  • DiFIx3DDiFIx3D+DiFIx3D+ 的优势: 在所有 TSED 阈值(Terror=2,4,8Terror = 2, 4, 8)下,DiFIx3DDiFIx3D+DiFIx3D+ 都取得了比 NerfactoNeRFLiXGANeRF 更高的 TSED 分数。这表明 DiFIx3D+DiFIx3D+ 在提升视觉质量的同时,成功地维护甚至改进了多视角一致性。

  • 实时后处理对一致性的影响: 值得注意的是,DiFIx3D+DiFIx3D+Terror=2Terror = 2Terror=4Terror = 4 的情况下,其 TSED 分数略高于 DiFIx3D。这意味着最终的后处理步骤,尽管可能带来轻微的2D生成波动,但在整体上并没有破坏而是略微提升了3D一致性。这归因于 DiFIx 在训练期间的蒸馏以及其对参考视图的条件化。

  • 高阈值下的表现:Terror=8Terror = 8 的较高阈值下,DiFIx3DTSED 为0.7924,略高于 DiFIx3D+DiFIx3D+ 的0.7880。这可能意味着在非常宽松的一致性要求下,后处理步骤的微小生成特性可能会对非常粗略的几何一致性产生极微小的、可忽略的影响,但整体仍远优于基线。

    总体而言,DiFIx3D+DiFIx3D+ 成功地在提高图像质量(如 FIDLPIPS)和保持甚至改进 3D consistency 之间取得了平衡,这证明了其流水线设计的有效性。

6.3. 图像对比示例

Figure 1. We demonstrate DiFIx3D \(^ +\) on both in-the-wild scenes (top) and driving scenes (bottom). Recent Novel-View Syntheis methods struggl NeRF \[37\] and 3DGS \[20\] artifacts.
该图像是论文中的对比示意图,展示了 Difix3D+ 方法(Ours)相较于 Nerfacto 和 3DGS 在3D重建和新视角合成中的效果改进。图中展示了四组不同场景,Difix3D+ 有效减少了伪影和模糊,提升了图像质量和细节表现。

图1. 我们在真实场景(顶部)和驾驶场景(底部)上演示 DiFIx3D+DiFIx3D+。最近的新视角合成方法 NeRF [37] 和 3DGS [20] 仍在伪影方面存在困难。DiFIx3D+DiFIx3D+ 显著减少了伪影,提升了图像质量。

该图像是多组对比示意图,展示了Difix3D+在处理不同3D重建场景下的效果。左侧为含有伪影的“损坏视图”,右侧为经过单步扩散模型增强的“干净视图”,显著提升了重建图像的清晰度和细节保真度。 该图像是多组对比示意图,展示了Difix3D+在处理不同3D重建场景下的效果。左侧为含有伪影的“损坏视图”,右侧为经过单步扩散模型增强的“干净视图”,显著提升了重建图像的清晰度和细节保真度。

图S2. 数据策展示例。左侧列显示了模拟的损坏视图,右侧列显示了对应的干净视图,这些视图用于训练 DiFIx 模型。

图1和图S2直观地展示了 DiFIx3D+DiFIx3D+ 在实际应用中的效果。图1对比了 Nerfacto3DGSDiFIx3D+DiFIx3D+ 在各种场景下的渲染结果,清晰地表明 DiFIx3D+DiFIx3D+ 能够有效减少伪影、模糊,并生成更具照片真实感的图像。图S2则展示了数据策展过程中用于训练 DiFIx 的成对图像,这些损坏视图模拟了 NeRF/3DGS 在极端视角下可能产生的伪影,而干净视图则提供了 DiFIx 学习修复的真实标注。

7. 总结与思考

7.1. 结论总结

本文提出了 DiFIx3D+DiFIx3D+,一个用于增强3D重建和新视角合成的新型流水线。其核心是 DiFIx,一个能够以近乎实时速度在现代 NVIDIA GPU 上运行的单步扩散模型。DiFIx 通过渐进式3D更新方案改进3D表示质量,并在推理时实现实时伪影去除。该解决方案兼容 NeRF3DGS 两种表示,并在 FID 分数上相较于基线取得了平均2倍的改进,同时保持了良好的3D一致性,展示了其在解决伪影和增强照片真实感渲染方面的有效性。DiFIx3D+DiFIx3D+ 的创新性在于其对单步扩散模型的有效利用,使其能够在训练阶段通过蒸馏清理伪训练视图,并在推理阶段作为高效的后处理步骤,从而在效率和质量上均超越现有方法。

7.2. 局限性与未来工作

作者指出了 DiFIx3D+DiFIx3D+ 当前的局限性:

  • 对初始3D重建质量的依赖: 作为3D增强模型,DiFIx3D+DiFIx3D+ 的性能本质上受限于初始3D重建的质量。当3D重建完全失败(例如,几何结构严重缺失或错误)时,DiFIx3D+DiFIx3D+ 目前难以进行有效的增强。

  • 速度优先的妥协: 为了优先考虑速度并实现近乎实时的后处理,DiFIx 是从单步图像扩散模型派生的。这意味着它主要处理2D图像修复,对于更复杂的3D一致性问题,可能还有进一步的提升空间。

    基于这些局限性,作者提出了以下未来研究方向:

  • 整合更强大的扩散模型先验: 通过整合更现代、更强大的扩散模型先验,解决 DiFIx3D+DiFIx3D+ 在3D重建完全失败情况下的增强能力问题。这可能涉及利用更高级的3D感知扩散模型。

  • 扩展到单步视频扩散模型:DiFIx 扩展到单步视频扩散模型,以实现增强的长上下文3D一致性 (long-context 3D consistency)。这将有助于解决序列帧之间可能存在的微小不一致性,进一步提升动态场景或长时间轨迹的渲染质量。

7.3. 个人启发与批判

7.3.1. 个人启发

这篇论文提供了一个非常清晰且实用的思路,来解决当前神经渲染模型 NeRF3DGS 在极端视角下渲染质量不佳的问题。

  1. 2D先验的强大潜力: 论文再次强调了大型2D生成模型(特别是扩散模型)所学到的先验知识在更广阔领域(如3D)的巨大潜力。通过巧妙地将2D图像增强能力与3D模型训练结合,可以有效弥补3D模型在数据稀疏区域的不足。
  2. 效率与质量的平衡: 单步扩散模型的应用是关键。在许多实际应用中,推理速度是至关重要的。DiFIx3D+DiFIx3D+ 展示了如何在保持高效率(近实时后处理)的同时,显著提升视觉质量,这对于未来商业化应用具有重要意义。
  3. 渐进式优化策略: 渐进式3D更新流水线是确保 3D consistency 的一个优雅解决方案。它避免了粗暴地将大量生成数据一次性注入3D模型可能带来的不稳定性,而是通过逐步引导,让3D模型缓慢且稳定地学习到生成先验。这种“软约束”而非“硬替换”的思路值得借鉴。
  4. 模型兼容性: DiFIx3D+DiFIx3D+ 兼容 NeRF3DGS 两种主流3D表示,这表明其方法的通用性和普适性。这意味着其核心思想可能可以推广到其他3D重建或渲染技术。

7.3.2. 批判

尽管 DiFIx3D+DiFIx3D+ 取得了显著进展,但仍有一些潜在问题和可改进之处:

  1. “幻化”的风险: 扩散模型的本质是生成性的,这意味着它可以在没有明确3D信息支持的情况下“幻化”出内容。尽管论文强调 3D consistency,但在极端视角下,如果底层3D模型的信息极度稀疏甚至错误,DiFIx 的修复可能并非基于真实的场景几何,而是基于2D图像的统计先验。这可能导致生成的几何结构与真实世界不符,尤其是在需要进行三维测量或物理交互的应用中,这种幻化可能会成为问题。

  2. 训练数据策展的复杂性: 论文提出了多种数据策展策略来生成“噪声-干净”图像对。这些策略(如循环重建、模型欠拟合)需要对3D重建过程有深入理解,并且可能耗费大量计算资源来生成伪训练数据。这种数据依赖性可能会限制其在某些特定场景或资源有限环境下的应用。

  3. TSED 指标的局限性: TSED 衡量的是对极几何的一致性,虽然重要,但它可能无法完全捕捉所有类型的 3D consistency 问题,例如,在纹理细节或光照一致性方面可能仍有改善空间。

  4. 计算成本与通用性平衡: 尽管单步扩散模型提高了效率,但对于超大规模场景(如城市级)或需要极高帧率的应用,76ms 的后处理时间仍然可能是一个瓶颈。如何在更极端的速度要求下,维持生成质量和 3D consistency 仍是一个挑战。

  5. 对光照、反射和透明度等复杂场景的处理: 论文主要关注几何伪影和纹理细节的修复。对于具有复杂光照、强反射或透明物体(如玻璃)的场景,扩散模型如何在保持物理真实性的前提下进行修复,是一个更深层次的挑战。

    总而言之,DiFIx3D+DiFIx3D+ 为3D重建领域注入了新的活力,展示了2D生成先验在3D中的巨大潜力。其提出的渐进式3D更新和实时后处理方案为未来研究提供了宝贵的经验。未来的工作可以在提升模型对更复杂几何和物理现象的理解、进一步降低训练和推理成本,以及在更广泛的应用场景中验证其鲁棒性等方面进行探索。

相似论文推荐

基于向量语义检索推荐的相关论文。

暂时没有找到相似论文。