ViewCrafter: Taming Video Diffusion Models for High-fidelity Novel View Synthesis

Yonghong Tian

论文状态：已完成

ViewCrafter: Taming Video Diffusion Models for High-fidelity Novel View Synthesis

发表：2024/09/04

视频扩散模型 (7)高保真新视角合成 (1)基于点的表示 (1)相机轨迹规划 (1)3D重建与合成 (1)

原文链接 PDF 下载

价格：0.10

已有 2 人读过

本分析由 AI 生成，可能不完全准确，请以原文为准。

TL;DR 精炼摘要

本研究提出了`ViewCrafter`，一种利用视频扩散模型从单张或稀疏图像合成高保真新视图的方法，突破了传统神经三维重建对密集多视图捕获的依赖。该方法结合粗略的三维线索和精确的相机姿态控制，采用迭代视图合成策略和相机轨迹规划算法，应用于实时渲染和场景级文本到三维生成。实验表明其在合成新视图中的强泛化能力。

摘要

Despite recent advancements in neural 3D reconstruction, the dependence on dense multi-view captures restricts their broader applicability. In this work, we propose \textbf{ViewCrafter}, a novel method for synthesizing high-fidelity novel views of generic scenes from single or sparse images with the prior of video diffusion model. Our method takes advantage of the powerful generation capabilities of video diffusion model and the coarse 3D clues offered by point-based representation to generate high-quality video frames with precise camera pose control. To further enlarge the generation range of novel views, we tailored an iterative view synthesis strategy together with a camera trajectory planning algorithm to progressively extend the 3D clues and the areas covered by the novel views. With ViewCrafter, we can facilitate various applications, such as immersive experiences with real-time rendering by efficiently optimizing a 3D-GS representation using the reconstructed 3D points and the generated novel views, and scene-level text-to-3D generation for more imaginative content creation. Extensive experiments on diverse datasets demonstrate the strong generalization capability and superior performance of our method in synthesizing high-fidelity and consistent novel views.

思维导图

论文精读

中文精读约 46 分钟读完 · 27,228 字

1. 论文基本信息

1.1. 标题

ViewCrafter: Taming Video Diffusion Models for High-fidelity Novel View Synthesis (ViewCrafter：驯服视频扩散模型以实现高保真新视图合成)

1.2. 作者

Wangbo Yu, Jino Xing, Li Yuan, Wenbo Hu, Xiaoyu Li, Zhipeng Huang, Xiangjun Gao, Tien-Tsin Wong, Ying Shan, Yonghong Tian

1.3. 发表期刊/会议

预印本 (Preprint)，发布在 arXiv。arXiv 是一个开放获取的预印本服务器，允许研究者在正式同行评审和发表前分享他们的研究成果。这表明该论文尚未经过正式的学术期刊或会议的同行评审，但已公开发布。

1.4. 发表年份

2024年 (Published at (UTC)：2024-09-03T16:53:19.000Z)

1.5. 摘要

尽管神经三维重建 (neural 3D reconstruction) 最近取得了进展，但其对密集多视图捕获的依赖限制了更广泛的应用。这项工作提出了一种名为 ViewCrafter (视图创客) 的新方法，该方法利用视频扩散模型 (video diffusion model) 的先验知识，从单张或稀疏图像合成通用场景的高保真新视图 (novel view synthesis)。ViewCrafter 利用视频扩散模型强大的生成能力和基于点表示提供的粗略三维线索 (coarse 3D clues)，生成具有精确相机姿态控制的高质量视频帧。为了进一步扩大新视图的生成范围，作者定制了一种迭代视图合成策略 (iterative view synthesis strategy) 和相机轨迹规划算法 (camera trajectory planning algorithm)，以逐步扩展三维线索和新视图覆盖的区域。通过 ViewCrafter，可以促进各种应用，例如通过使用重建的三维点和生成的新视图高效优化 3D-GS (三维高斯泼溅) 表示来实现实时渲染的沉浸式体验，以及用于更具想象力内容创作的场景级文本到三维生成 (text-to-3D generation)。在各种数据集上进行的广泛实验表明，该方法在合成高保真和一致的新视图方面具有强大的泛化能力和卓越的性能。

1.6. 原文链接

https://arxiv.org/abs/2409.02048

1.7. PDF 链接

https://arxiv.org/pdf/2409.02048v1.pdf

2. 整体概括

2.1. 研究背景与动机

当前神经三维重建技术，如 NeRF (神经辐射场) 和 3D-GS (三维高斯泼溅)，虽然取得了显著成功，但它们普遍依赖于密集的、多视角的场景捕获。这种依赖性在实际应用中构成了重大限制，因为在许多场景下，我们只能获得有限的视角数据，甚至是单张图片。

从稀疏或单张图像合成通用场景的新视图是一个极具挑战性的任务，因为它要求模型对三维世界有全面的理解，包括场景的结构 (structures)、外观 (appearance)、语义 (semantics) 和遮挡 (occlusions)。早期的基于回归的方法虽然能够从稀疏或单张图像合成新视图，但通常受限于特定类别（如人脸、室内场景），并且由于其表示能力有限，容易产生伪影 (artifacts)。

近年来，强大的扩散模型 (diffusion models) 使得零样本新视图合成 (zero-shot novel view synthesis) 成为可能。然而，这些方法仍面临挑战：

对象级限制： 许多方法仅限于处理对象级别（如单个物体）的图像，难以泛化到更复杂的通用场景。
相机姿态控制不精确： 扩散模型通常依赖于高层级的姿态提示（如文本嵌入），难以实现对相机姿态的精确控制。这导致生成的视图可能与期望的视角不符。
内容不一致性： 基于深度图扭曲 (depth-based warping) 和扩散模型修复 (diffusion-based inpainting) 的方法在处理遮挡区域时，往往会产生不一致的内容或伪影。

针对上述挑战，本文的切入点在于：如何结合视频扩散模型强大的内容生成能力与三维点云提供的精确三维结构信息，以实现从单张或稀疏图像对通用场景进行高保真、精确相机姿态控制且一致的新视图合成。

2.2. 核心贡献/主要发现

本文提出了 ViewCrafter (视图创客)，一个用于从单张或稀疏图像合成通用场景高保真新视图的创新框架，其核心贡献和主要发现如下：

整合视频扩散模型与点云先验： ViewCrafter 创新性地结合了视频扩散模型强大的生成能力与三维点云提供的粗略三维结构信息。这种结合使得模型能够生成高质量、一致的新视图序列，同时实现对 $6 \mathrm{DoF}$ (六自由度) 相机姿态的精确控制。这是通过训练一个点云条件视频扩散模型实现的，该模型以点云渲染结果作为显式条件。
迭代视图合成与自适应相机轨迹规划： 针对视频扩散模型在生成长视频时面临的内存和计算挑战，以及为了扩展新视图的覆盖范围，论文提出了一个迭代视图合成策略。该策略与一个内容自适应的相机轨迹规划算法 (Next-Best-View, NBV) 相结合，能够逐步扩展重建的点云，并有效揭示场景中的遮挡区域，从而实现更大范围、更完整的新视图合成。
优越的性能和泛化能力： 在 Tanks-and-Temples (坦克与庙宇)、RealEstate10K (房地产10K) 和 CO3D (三维通用物体) 等多样化数据集上的广泛实验表明，ViewCrafter 在零样本新视图合成和稀疏视图 3D-GS (三维高斯泼溅) 重建方面均显著优于现有最先进的基线方法，无论是在图像质量还是姿态准确性指标上都表现出色。这验证了其强大的泛化能力和高保真度。
多应用潜力： ViewCrafter 的能力不仅仅限于新视图合成。它还展示了在以下方面的应用潜力：
- 实时渲染的 3D-GS 优化： 通过利用 ViewCrafter 生成的新视图和构建的点云，可以高效地优化 3D-GS 表示，从而实现沉浸式体验的实时渲染。
- 场景级文本到三维生成： 将 ViewCrafter 与文本到图像扩散模型结合，可以从文本提示生成三维场景，为更具想象力的内容创作提供了新的途径。

3. 预备知识与相关工作

3.1. 基础概念

为了更好地理解 ViewCrafter 的工作原理，需要了解以下核心概念：

新视图合成 (Novel View Synthesis, NVS)：指从一组已知图像（通常是多个视角）或单张图像，生成同一场景在不同相机视角下的新图像的任务。它旨在创建逼真的、三维一致的场景渲染。在 ViewCrafter 中，目标是从单张或稀疏图像合成新视图。
神经三维重建 (Neural 3D Reconstruction)：利用神经网络来学习和表示三维场景的几何和外观信息的方法。
- 神经辐射场 (Neural Radiance Fields, NeRF)：一种隐式的三维场景表示方法。它使用一个多层感知器 (Multi-Layer Perceptron, MLP) 来预测空间中每个点（给定三维坐标和观察方向）的颜色和体积密度。通过渲染这些点的颜色和密度，可以生成任意视角下的高质量图像。
- 三维高斯泼溅 (3D Gaussian Splatting, 3D-GS)：一种显式的三维场景表示方法，将场景表示为大量可微分的三维高斯球。每个高斯球具有位置、协方差（形状）、颜色和不透明度等属性。这种表示方式使得实时渲染高分辨率图像成为可能，并且在优化速度和渲染质量之间取得了很好的平衡。
扩散模型 (Diffusion Models)：一种生成模型，通过学习逐步从噪声中恢复数据来生成高质量的数据样本（如图像、视频）。
- 前向过程 (Forward Process)：从真实数据 ( $\pmb{x}_0$ ) 开始，逐步向数据中添加高斯噪声，直到数据完全变成随机噪声。这个过程是固定的、马尔可夫链式的。
- 逆向过程 (Reverse Process)：学习如何从噪声中逐步去除噪声，最终恢复出原始数据。这是一个由神经网络参数化的过程，通过优化噪声预测器 (noise predictor) 来实现。
- 潜在扩散模型 (Latent Diffusion Models, LDM)：为了提高计算效率，LDM 将扩散过程应用于数据的低维潜在空间 (latent space)，而不是原始像素空间。这通常通过使用一个预训练的 变分自编码器 (Variational AutoEncoder, VAE) (variational autoencoder) 的编码器将高维数据编码到潜在空间，并在潜在空间进行扩散和去噪，最后使用 VAE 的解码器将潜在表示解码回高维数据。
视频扩散模型 (Video Diffusion Models)：将扩散模型扩展到视频生成领域，能够从文本、图像或其他条件生成高质量、时间上连贯的视频序列。
点云 (Point Cloud)：表示三维空间中一组离散的数据点，每个点通常包含三维坐标 (x, y, z) 和颜色信息 (RGB)。点云可以粗略地捕捉场景的三维几何结构。在 ViewCrafter 中，点云作为一种粗略的三维线索，为视频扩散模型提供精确的相机姿态控制依据。
相机姿态 (Camera Pose)：描述相机在三维空间中的位置和方向，通常由六个自由度 (6 DoF) 表示：三个平移分量（位置）和三个旋转分量（方向）。精确的相机姿态控制对于高质量的新视图合成至关重要。
Next-Best-View (NBV) (下一个最佳视角)：在三维重建、机器人视觉等领域，指选择下一个最佳相机视角以最大化信息增益或最小化不确定性的策略。在 ViewCrafter 中，NBV 被用于规划相机轨迹，以有效揭示场景中的遮挡和缺失区域。
Plücker coordinates (普吕克坐标)：一种表示三维空间中直线的数学工具。在一些相关工作中，它被用来编码相机运动信息，作为条件信号输入到视频生成模型中，以实现相机运动控制。
U-Net (U型网络)：一种编码器-解码器结构的神经网络，广泛应用于图像分割和去噪任务。在扩散模型中，它通常用作噪声预测器，预测当前噪声图像中的噪声量。
CLIP image encoder (CLIP图像编码器)：CLIP (Contrastive Language-Image Pre-training) 是一个由 OpenAI 提出的模型，可以学习图像和文本之间的对应关系。其图像编码器能够将图像编码成具有丰富语义信息的特征向量，用于图像理解和跨模态任务。在 ViewCrafter 中，它用于对参考图像进行理解。

3.2. 前人工作

作者将相关工作分为三类：基于回归的新视图合成、基于扩散的新视图合成和条件视频扩散模型。

3.2.1. 基于回归的新视图合成 (Regression-based Novel View Synthesis)

这类方法旨在训练一个前馈模型，从稀疏或单张图像输入生成新视图。

方法概述： 通常使用 CNN (卷积神经网络) 或 Transformer (变换器) 架构来构建输入图像的三维表示。例如，一些工作利用生成的三平面表示 (tri-plane representations) 进行人脸等特定模态的新视图合成 ([24], [25])。LRM (大再生模型) 将此策略扩展到通用物体 ([26])。其他方法则采用多平面表示 ([7], [8], [9]) 或 NeRF 作为三维表示 ([10])。
近期进展： 受 3D-GS 成功的启发，PixelSplat ([27]) 和 MVSplat ([28]) 等方法探索训练基于回归的模型来生成 3D Gaussian (三维高斯) 表示，以实现实时渲染。
结合深度估计与图像修复： 另一些方法 ([3], [4], [5], [6]) 结合单目深度估计 (monocular depth estimation) 和图像修复 (image inpainting) 模块来合成新视图。
局限性：
- 领域特定： 这些方法大多局限于特定类别（如物体、室内场景），难以泛化到更通用的场景。
- 伪影： 由于模型表示能力有限，容易产生伪影。
与 ViewCrafter 的区别： ViewCrafter 能够合成通用场景的高保真新视图，通过结合视频扩散模型的生成能力和点云的结构先验，克服了这些局限。

3.2.2. 基于扩散的新视图合成 (Diffusion-based Novel View Synthesis)

扩散模型在图像生成方面的成功，也使其被应用于新视图合成。

优化型方法： [32], [33], [34] 等优化型方法直接在 text-to-image (T2I) (文本到图像) 扩散模型的监督下训练三维表示。
- 局限性： 需要针对每个场景进行优化，泛化能力差。
泛化型框架： GeNVS ([35]) 提出了一个泛化框架，在大规模多视图数据集上训练 3D feature-conditioned diffusion model (三维特征条件扩散模型)。Zero-1-to-3 ([11]) 训练相机姿态条件扩散模型，实现了从更多样化输入进行新视图合成。
- 局限性： 仍受限于特定类别 ([35], [38]) 或仅能处理带简单背景的玩具级物体。
改进泛化能力： ZeroNVS ([12]) 通过在合成数据和真实数据混合的数据集上训练，改进了 Zero-1-to-3 的泛化能力，实现了通用场景的零样本新视图合成。
- 局限性： 仍然难以合成一致的新视图，且相机姿态控制不精确，因为它将相机姿态条件处理为高层级的文本嵌入 (text embeddings)。
精确姿态控制： Reconfusion ([41]) 提出了 PixelNeRF (像素神经辐射场) 特征条件扩散模型，以实现相对准确的姿态控制。
- 局限性： 无法建模采样视图之间的相关性，导致生成的新视图不一致；需要多张图像作为输入，不能处理单张图像。
深度扭曲与修复： [14], [15], [42] 等方法利用深度图扭曲 (depth-based warping) 合成新视图，并使用预训练的 T2I 扩散模型 ([43]) 进行修复。
- 局限性： 修复区域常出现伪影和不真实的内容。
与 ViewCrafter 的区别： ViewCrafter 通过显式点云先验提供精确的相机控制，并利用视频扩散模型保证生成视图的一致性和高保真度，克服了上述基于扩散方法的缺点。

3.2.3. 条件视频扩散模型 (Conditional Video Diffusion Models)

这类模型致力于在视频生成中增强用户控制。

图像生成中的控制： ControlNet ([44])、T2I-adapter ([45]) 和 GLIGEN ([46]) 是在 T2I 生成中引入条件信号的先驱。
视频生成中的控制： 类似策略也被应用于视频生成，实现了 RGB 图像 ([17], [18], [47])、深度图 ([48], [49])、轨迹 ([50], [51]) 和语义图 ([52]) 等控制。
相机运动控制： 相对较少关注。AnimateDiff ([53]) 和 SVD ([17]) 探索了类条件视频生成，利用 LoRA (低秩适应) 模块创建特定相机运动。MotionCtrl ([13]) 使用相机外参矩阵 (camera extrinsic matrices) 作为条件信号来改进控制。
- 局限性： 这些方法依赖于一维数值，导致在复杂真实世界场景中控制不精确。
利用深度扭曲： MultiDiff ([55]) 利用深度扭曲生成图像，并以此条件化视频扩散模型以提供显式三维先验。
- 局限性： 在类特定数据集上训练，缺乏通用场景的泛化能力。
普吕克坐标： CamCo ([57]) 和 CameraCtrl ([58]) 在视频扩散模型中引入 Plücker coordinates ([59]) 进行相机运动控制。
- 局限性： 由于数值相机参数到视频的复杂映射，这些方法仍无法精确控制相机运动。
与 ViewCrafter 的区别： ViewCrafter 提出利用显式点云表示来实现视频生成中的精确相机控制，从而满足了对一致且准确的新视图合成的需求，解决了上述方法的控制精度问题。

3.3. 技术演进与差异化分析

该领域的技术演进经历了从基于回归的特定类别方法，到基于扩散模型但控制不精确或泛化能力有限的方法，再到试图在视频生成中加入相机控制的发展过程。

基于回归阶段： 早期方法如 NeRF、3D-GS 及其变体，虽然能进行高质量三维重建，但对密集多视图依赖严重，且难以泛化。
扩散模型引入阶段： 扩散模型带来了零样本生成的能力，但 ZeroNVS 等方法在通用场景的精确姿态控制和视图一致性方面存在不足。LucidDreamer 等基于深度修复的方法则易产生伪影。
视频扩散控制阶段： MotionCtrl 等尝试在视频扩散模型中加入相机控制，但多采用高层级嵌入，控制精度有限。CamCo 等尝试 Plücker coordinates，但复杂映射仍是难题。

ViewCrafter 的核心创新点和差异化在于：

显式三维先验与视频扩散的结合： 与依赖高层级嵌入或间接控制信号（如文本、Plücker 坐标）的方法不同，ViewCrafter 将点云渲染结果作为视频扩散模型的显式条件。点云直接提供了粗糙但精确的三维几何信息，从而实现了对相机姿态的高精度控制，并保证了生成视图的三维一致性。
迭代与自适应策略： 针对视频扩散模型生成长序列的挑战，提出的迭代视图合成策略与 Next-Best-View 相机轨迹规划算法，解决了现有方法在扩展视图范围、揭示遮挡区域方面的不足，使得模型能够处理更大范围和更复杂的场景。
通用场景泛化： 通过在混合数据集上训练，并利用视频扩散模型对世界常识的理解，ViewCrafter 能够泛化到通用场景，而不是局限于特定类别或简单物体。

简而言之，ViewCrafter 弥合了视频扩散模型的强大生成能力与精确三维控制之间的鸿沟，为从单张/稀疏图像生成高保真、一致且可控的新视图提供了一个更鲁棒和泛化的解决方案。

4. 方法论

ViewCrafter 的核心在于结合视频扩散模型和点云先验，以实现高保真和精确控制的新视图合成。本节将详细阐述其方法原理、核心组件及其工作流程。

4.1. 方法原理

ViewCrafter 的核心思想是利用视频扩散模型强大的生成能力来补全和细化由稀疏输入图像重建的粗糙点云所渲染出的新视图。由于从单张或稀疏图像重建的点云通常存在缺失区域、遮挡和几何失真，直接渲染这些点云会产生低质量的图像。ViewCrafter 将这些低质量的点云渲染结果作为条件，输入到一个视频扩散模型中，让模型“幻化”出高质量、细节丰富且与点云结构保持一致的新视图。同时，为了解决视频扩散模型生成长视频的限制和扩展视图范围，ViewCrafter 采用了一种迭代视图合成策略，结合内容自适应的相机轨迹规划，逐步扩展点云并生成更大范围的新视图。

4.2. 核心方法详解

4.2.1. 预备知识：视频扩散模型 (Preliminary: Video Diffusion Models)

扩散模型由两个主要部分组成：前向过程 (forward process) $q$ 和 逆向过程 (reverse process) $p_\theta$ 。

前向过程 ( $q$ )： 从干净数据 $\pmb{x}_0 \sim q_0(\pmb{x}_0)$ 开始，逐步向数据中添加噪声，在不同时间步 $t$ 生成噪声状态 $\pmb{x}_t$ 。这个过程可以数学表示为： $\pmb{x}_t = \alpha_t \pmb{x}_0 + \sigma_t \epsilon$ 其中：
- $\pmb{x}_0$ 表示初始的干净数据（例如，视频帧）。
- $\pmb{x}_t$ 表示在时间步 $t$ 时的噪声数据。
- $\epsilon \sim \mathcal{N}(0, I)$ 是一个标准高斯噪声，表示从零均值、单位方差的正态分布中采样的噪声。
- $\alpha_t$ 和 $\sigma_t$ 是超参数，它们控制在时间步 $t$ 添加噪声的程度，并满足约束 $\alpha_t^2 + \sigma_t^2 = 1$ 。随着 $t$ 增加， $\alpha_t$ 减小而 $\sigma_t$ 增大，意味着更多的噪声被添加到数据中。
逆向过程 ( $p_\theta$ )： 专注于从噪声数据中去除噪声，利用一个噪声预测器 (noise predictor) $\epsilon_\theta$ 来估计每个时间步添加的噪声 $\epsilon$ 。噪声预测器 $\epsilon_\theta$ 通过最小化以下目标函数进行优化： $\operatorname*{min}_{\theta} = \mathbb{E}_{t \sim \mathcal{U}(0, 1), \epsilon \sim \mathcal{N}(\mathbf{0}, I)} [ \| \epsilon_\theta (\pmb{x}_t, t) - \epsilon \|_2^2 ]$ 其中：
- $\theta$ 表示模型（通常是一个 U-Net 架构）的参数。
- $\mathbb{E}$ 表示期望值。
- $t \sim \mathcal{U}(0, 1)$ 表示时间步 $t$ 从均匀分布中采样。
- $\epsilon \sim \mathcal{N}(\mathbf{0}, I)$ 表示添加到数据中的噪声是从标准正态分布中采样的。
- $\epsilon_\theta (\pmb{x}_t, t)$ 是噪声预测器，它接收当前噪声数据 $\pmb{x}_t$ 和时间步 $t$ 作为输入，并预测添加到 $\pmb{x}_0$ 上的噪声 $\epsilon$ 。
- $\| \cdot \|_2^2$ 是 L2 范数的平方，表示预测噪声与真实噪声之间的均方误差。通过最小化这个误差，模型学会准确地预测并去除噪声。
  
  在扩散模型中，为了降低计算成本，通常采用潜在扩散模型 (Latent Diffusion Models, LDMs)。在 LDMs 中，视频数据 $\pmb{x} \in \mathbb{R}^{L \times 3 \times H \times W}$ （ $L$ 是帧数，3 是 RGB 通道，H, W 是高和宽）首先被一个预训练的 VAE 编码器 $\mathcal{E}$ 逐帧编码到潜在空间，表示为 $z = \mathcal{E}(\pmb{x})$ ，其中 $z \in \mathbb{R}^{L \times C \times h \times w}$ （ $C$ 是潜在通道数，h, w 是潜在空间的高和宽）。前向和逆向过程都在潜在空间中进行。最终生成的视频通过 VAE 解码器 $\mathcal{D}$ 从潜在表示 $\hat{\pmb{z}}$ 解码得到 $\hat{\pmb{x}} = \mathcal{D}(\hat{\pmb{z}})$ 。

ViewCrafter 的模型基于开源的 Image-to-Video (I2V) 扩散模型 DynamiCrafter ([18])，它能够从单张输入图像创建动态视频，这与从稀疏或单张图像合成新视图的目标自然契合。

4.2.2. 从单张或稀疏图像重建点云 (Point Cloud Reconstruction from Single or Sparse Images)

为了实现新视图合成框架中的精确姿态控制，首先需要从参考图像中建立点云表示。

工具： 论文使用了一个稠密立体模型 DUSt3R ([19]) 来同时重建点云和估计相机参数。
输入与输出： DUSt3R 接收一对 RGB 图像 $\mathbf{I}^0, \mathbf{I}^1 \in \mathbb{R}^{H \times W \times 3}$ 作为输入，并生成对应的点图 (point maps) $\mathbf{O}^{0,0}, \mathbf{O}^{1,0} \in \mathbb{R}^{H \times W \times 3}$ 以及各自的置信度图 (confidence maps) $\mathbf{D}^{0,0}, \mathbf{D}^{1,0} \in \mathbb{R}^{H \times W}$ 。点图的下标 $\mathbf{O}^{0,0}, \mathbf{O}^{1,0}$ 表示它们都在锚视图 (anchor view) $\mathbf{I}^0$ 的相同相机坐标系中表达。
相机内参恢复： 假设主点 (principal point) 居中且像素是正方形，因此只有一个焦距 $f_0^*$ 未知。焦距 $f_0^*$ 可以通过 Weiszfeld 算法 ([61]) 进行少量优化步骤来求解： $f_0^* = \operatorname{arg\,min}_{f_0} \sum_{u=0}^W \sum_{v=0}^H \mathbf{D}_{u,v}^{0,0} \left\| (u', v') - f_0 \frac{(\mathbf{O}_{u,v,0}^{0,0}, \mathbf{O}_{u,v,1}^{0,0})}{\mathbf{O}_{u,v,2}^{0,0}} \right\|$ 其中：
- $f_0^*$ 是待求解的焦距。
- $\mathbf{D}_{u,v}^{0,0}$ 是在像素坐标 (u,v) 处的置信度值。
- (u', v') 是将像素坐标 (u,v) 转换为以图像中心为原点的归一化坐标： $u' = u - \frac{W}{2}$ 且 $v' = v - \frac{H}{2}$ 。
- $\mathbf{O}_{u,v,0}^{0,0}, \mathbf{O}_{u,v,1}^{0,0}, \mathbf{O}_{u,v,2}^{0,0}$ 分别是点图 $\mathbf{O}^{0,0}$ 在像素 (u,v) 处的三维坐标 (X, Y, Z)。这里， $\frac{(\mathbf{O}_{u,v,0}^{0,0}, \mathbf{O}_{u,v,1}^{0,0})}{\mathbf{O}_{u,v,2}^{0,0}}$ 表示将三维点投影到图像平面上的归一化坐标。
- 该公式的目标是找到一个焦距 $f_0$ ，使得通过 $f_0$ 将三维点投影到图像平面上的位置与原始像素坐标 (u', v') 之间的距离最小化，并根据置信度进行加权。
处理不同输入：
- 单个输入图像： 如果只有一张输入图像，会将其复制一份创建配对输入，然后估计点图和相机内参。
- 多于两张输入图像： DUSt3R 也可以通过少量迭代优化执行全局点图对齐。
  
  通过整合点图与对应的 RGB 图像，可以得到彩色点云，它提供了场景的粗略三维信息。然而，由于点云表示能力有限以及极稀疏参考图像提供的三维线索不足，重建的点云可能存在大量缺失区域 (missing regions)、遮挡 (occlusions) 和几何失真 (geometry distortion)，导致渲染结果质量低下。因此，论文提出结合视频扩散模型来解决这些问题，实现高保真新视图合成。

4.2.3. 利用视频扩散模型渲染高保真新视图 (Rendering High-fidelity Novel Views with Video Diffusion Models)

如 Fig. 1 所示，以单张参考图像 $\mathbf{I}^{\mathrm{ref}}$ 为例，ViewCrafter 的流程如下：

点云和相机参数获取： 首先通过稠密立体模型 DUSt3R 获取参考图像的点云、相机内参和相机姿态 $\mathbf{C}^{\mathrm{ref}}$ 。
相机导航与点云渲染： 沿着包含 $\mathbf{C}^{\mathrm{ref}}$ 的相机姿态序列 $\mathbf{C} = \{ \mathbf{C}^0, ..., \mathbf{C}^{L-1} \}$ 导航相机，渲染点云，得到一系列点云渲染结果 $\mathbf{P} = \{ \mathbf{P}^0, ..., \mathbf{P}^{L-1} \}$ 。这些渲染结果虽然准确地表示了视图关系，但由于点云的不完善，存在显著的遮挡、缺失区域和视觉保真度降低的问题。
条件分布学习： 目标是学习一个条件分布 $p(\pmb{x} | \mathbf{I}^{\mathrm{ref}}, \mathbf{P})$ ，该分布能够基于点云渲染结果 $\mathbf{P}$ 和参考图像 $\mathbf{I}^{\mathrm{ref}}$ 生成高质量的新视图 $\pmb{x} = \{ \pmb{x}^0, ..., \pmb{x}^{L-1} \}$ 。
模型架构： 论文通过训练一个点云条件视频扩散模型 (point-conditioned video diffusion model) 来学习这个条件分布，使得新视图合成过程可以自然地建模为该模型的逆向过程： $\pmb{x} \sim \hat{p}_\theta(\pmb{x} \mid \mathbf{I}^{\mathrm{ref}}, \mathbf{P})$ ，其中 $\theta$ 是模型参数。
- 模型的架构继承了 LDM ([60])，主要包括：
  - 一对用于图像压缩的 VAE 编码器 $\mathcal{E}$ 和解码器 $\mathcal{D}$ 。
  - 一个视频去噪 U-Net (video denoising U-Net)，包含空间层和时间层，用于时间感知的噪声估计。
  - 一个 CLIP 图像编码器 ([62])，用于理解参考图像。
- 条件信号整合： 点云渲染结果 $\mathbf{P}$ 作为条件信号，通过 VAE 编码器 $\mathcal{E}$ 编码成潜在图像，然后沿通道维度与噪声拼接 (concatenate) 起来，输入到视频去噪 U-Net 中。
模型训练：
- 数据准备： 创建配对的训练数据，包括点云渲染结果 $\mathbf{P} = \{ \mathbf{P}^0, ..., \mathbf{P}^{L-1} \}$ 和对应的真实参考图像 $\mathbf{I} = \{ \mathbf{I}^0, ..., \mathbf{I}^{L-1} \}$ 。为了帮助模型更好地学习从参考图像中传递细节到点云渲染结果，并灵活处理任意数量的参考图像，点云渲染结果序列中至少包含一个真实图像的对应视图。
- 潜在空间操作： 冻结 VAE 编码器 $\mathcal{E}$ 和解码器 $\mathcal{D}$ 的参数，训练过程在潜在空间进行。训练数据对 $\mathbf{I}$ 和 $\mathbf{\bar{P}}$ 被编码到潜在空间，得到真实潜在表示 $\boldsymbol{z} = \{ \boldsymbol{z}^0, ..., \boldsymbol{z}^{L-1} \}$ 和条件信号 $\hat{\boldsymbol{z}} = \{ \hat{\boldsymbol{z}}^0, ..., \hat{\boldsymbol{z}}^{L-1} \}$ 。
- 优化目标： 视频去噪 U-Net 通过以下扩散损失进行优化： $\operatorname*{min}_{\theta} = \mathbb{E}_{t \sim \mathcal{U}(0, 1), \epsilon \sim \mathcal{N}(\mathbf{0}, I)} [ \| \epsilon_\theta (z_t, t, \hat{z}, \mathbf{I}^{\mathrm{ref}}) - \epsilon \|_2^2 ]$ 其中：
  - $z_t = \alpha_t z_0 + \sigma_t \epsilon$ 是在潜在空间中加入噪声的真实潜在表示。
  - $\epsilon_\theta (z_t, t, \hat{z}, \mathbf{I}^{\mathrm{ref}})$ 是噪声预测器，它接收噪声潜在表示 $z_t$ 、时间步 $t$ 、条件信号 $\hat{z}$ （点云渲染的潜在表示）和参考图像 $\mathbf{I}^{\mathrm{ref}}$ （通过 CLIP 编码器提供）作为输入，并预测噪声 $\epsilon$ 。
  - 通过最小化预测噪声与真实噪声之间的差异，模型学会如何从噪声中恢复出高质量的潜在表示。
推理过程：
- 渲染一系列点云渲染结果 $\mathbf{P} = \{ \mathbf{P}^0, ..., \mathbf{P}^{L-1} \}$ 。
- 将参考视图的渲染结果替换为对应的真实参考图像。
- 将这些图像编码到潜在空间，得到潜在图像 $\hat{\boldsymbol z} = \{ \hat{z}^0, ..., \hat{z}^{L-1} \}$ 。
- 采样噪声 $\epsilon \sim \mathcal{N}(\mathbf{0}, I)$ 。
- 将潜在图像 $\hat{\boldsymbol z}$ 和噪声 $\epsilon$ 沿通道维度拼接，构成噪声潜在表示。
- 参考图像 $\mathbf{I}^{\mathrm{ref}}$ 被送入 CLIP 图像编码器，其输出将通过交叉注意力 (cross-attention) 调制 U-Net 特征，以增强三维理解。
- 训练好的 U-Net 迭代地对噪声潜在表示进行去噪，得到干净的潜在表示。
- 最后，使用 VAE 解码器 $\mathcal{D}$ 将干净的潜在表示解码成高保真新视图 $\pmb{x} = \{ \pmb{x}^0, ..., \pmb{x}^{L-1} \}$ 。
  
  该图像是一个示意图，展示了ViewCrafter的方法框架，包括点云重建、参考图像、点条件视频扩散和新视图生成。该框架通过迭代视图合成和相机轨迹规划，实现从单张或稀疏图像生成高保真新视图的过程。

图 1：ViewCrafter 的框架示意图。它通过点云重建提供粗略三维线索，并将点云渲染结果作为条件输入到视频扩散模型中，同时结合参考图像的特征，生成高保真、精确相机姿态控制的新视图。整个过程通过迭代视图合成和相机轨迹规划来扩展视图范围。

4.2.4. 迭代视图合成与相机轨迹规划 (Iterative View Synthesis and Camera Trajectory Planning)

现有视频扩散模型在生成大量帧的视频时，会面临视频稳定性下降和计算成本增加的挑战。为了扩展新视图的生成范围，ViewCrafter 采用了迭代视图合成策略 (iterative view synthesis strategy)。

迭代策略概述：
1. 从参考图像构建初始点云。
2. 将相机从一个参考视图导航到一个目标相机姿态，以揭示当前点云中的遮挡和缺失区域。
3. 使用 ViewCrafter 生成高保真新视图。
4. 将生成的视图反向投影 (back-project) 到三维空间，以完善点云。
5. 迭代地重复这些步骤：移动相机、生成新视图、更新点云。最终可以获得具有扩展视图范围和更完整点云表示的新视图。
相机轨迹规划： 在迭代视图合成过程中，相机轨迹的设计对合成结果至关重要。传统上使用预定义的相机轨迹（如 [14], [63]) 忽略了不同场景中多样的几何关系，可能导致严重的遮挡。为了有效揭示遮挡并促进更完整的场景生成，论文设计了一个基于下一个最佳视角 (Next-Best-View, NBV) ([64], [65], [66]) 的相机轨迹规划算法，以内容自适应地生成相机轨迹。

算法 1：相机轨迹规划 (Camera Trajectory Planning)

输入:
- 参考图像 $\mathcal{T}_{\mathrm{ref}}$
- 稠密立体模型 $\mathcal{D}(\cdot)$
- 点云条件视频扩散模型 $\mathcal{V}(\cdot)$
- 初始点云 $\mathcal{P}_{\mathrm{ref}}$
- 搜索空间 $s$
- 初始姿态 $\mathcal{C}_{\mathrm{ref}}$
- 最大预测姿态数 $N$
- 候选姿态数 $K$
- 效用函数 $\mathcal{F}(\cdot)$
算法步骤:
1. 初始化：
  - 当前点云 $\mathcal{P}_{\mathrm{curr}} \leftarrow \mathcal{P}_{\mathrm{ref}}$
  - 当前相机姿态 $\mathcal{C}_{\mathrm{curr}} \leftarrow \mathcal{C}_{\mathrm{ref}}$
  - 步数 $step \leftarrow 0$
2. 循环迭代 (while $step \leq N$ )：
  - 候选姿态采样： 从当前姿态 $\mathcal{C}_{\mathrm{curr}}$ 周围的搜索空间 $\mathcal{S}$ 中均匀采样 $K$ 个候选相机姿态 $\mathcal{C}_{\mathrm{can}} = \{ \mathcal{C}_{\mathrm{can}}^1, ..., \mathcal{C}_{\mathrm{can}}^K \}$ 。初始化候选掩码集 $\mathcal{M}_{\mathrm{can}} = \{ \}$ 。
  - 生成候选掩码： 对于 $\mathcal{C}$ $C$ in $\{ \mathcal{C}_{\mathrm{can}}^1, ..., \mathcal{C}_{\mathrm{can}}^K \}$ ${C_{can}^{1}, ..., C_{can}^{K}}$ 中的每一个候选姿态：
    - $\mathcal{M}_{\mathcal{C}} = \mathrm{Render}(\mathcal{P}_{\mathrm{curr}}, \mathcal{C})$ 。这里 Render 函数根据当前点云 $\mathcal{P}_{\mathrm{curr}}$ 和候选姿态 $\mathcal{C}$ 渲染一个掩码。掩码中 1 表示遮挡和缺失区域，0 表示已填充区域。
    - 将 $\mathcal{M}_{\mathcal{C}}$ 添加到 $\mathcal{M}_{\mathrm{can}}$ 中。
  - 效用函数计算与最佳姿态选择： 使用效用函数 $\mathcal{F}(\cdot)$ $F (\cdot)$ 确定下一步的最佳相机姿态 $\mathcal{C}_{\mathrm{nbv}}$ $C_{nbv}$ 。效用函数定义为： $\mathcal{F}(\mathcal{C}) = \left\{ \begin{array}{ll} \displaystyle \frac{\mathrm{sum}(\mathcal{M}_{\mathcal{C}})}{W \times H}, & \frac{\mathrm{sum}(\mathcal{M}_{\mathcal{C}})}{W \times H} < \Theta \\ \displaystyle 1 - \frac{\mathrm{sum}(\mathcal{M}_{\mathcal{C}})}{W \times H}, & \frac{\mathrm{sum}(\mathcal{M}_{\mathcal{C}})}{W \times H} > \Theta \end{array} \right.$ 其中：
    - $\mathcal{C} \in \mathcal{C}_{\mathrm{can}}$ 是一个候选相机姿态。
    - $\mathcal{M}_{\mathcal{C}} \in \mathcal{M}_{\mathrm{can}}$ 是对应于姿态 $\mathcal{C}$ 的渲染掩码。
    - $\mathrm{sum}(\mathcal{M}_{\mathcal{C}}) = \sum_{u=0}^W \sum_{v=0}^H \mathcal{M}_{\mathcal{C}}(u, v)$ 是掩码中 1（遮挡或缺失）的总像素数。
    - $W \times H$ 是图像的总像素数。
    - $\frac{\mathrm{sum}(\mathcal{M}_{\mathcal{C}})}{W \times H}$ 表示遮挡或缺失区域的比例。
    - $\Theta$ 是一个阈值，用于平衡揭示新信息和避免选择包含过多“大洞”的姿态（这可能会超出 ViewCrafter 的生成能力）。
    - 效用函数旨在选择一个能揭示足够遮挡和缺失区域的相机姿态，同时避免那些揭示了过多“大洞”导致生成困难的姿态。
  - 更新：
    - $\mathcal{C}_{\mathrm{nbv}} = \operatorname{arg\,max}_{\mathcal{C} \in \mathcal{C}_{\mathrm{can}}} \mathcal{F}(\mathcal{C})$ （选择效用函数值最大的姿态作为下一个最佳姿态）。
    - 在 $\mathcal{C}_{\mathrm{curr}}$ 和 $\mathcal{C}_{\mathrm{nbv}}$ 之间插值一条相机路径，然后沿该路径应用 ViewCrafter 生成一系列高保真新视图 $\mathcal{T}_{\mathrm{nbv}}$ 。
    - 将生成的视图 $\mathcal{T}_{\mathrm{nbv}}$ 反向投影并对齐到当前点云 $\mathcal{P}_{\mathrm{curr}}$ ，从而更新和扩展点云。
    - 将 $\mathcal{C}_{\mathrm{nbv}}$ 指定为新的 $\mathcal{C}_{\mathrm{curr}}$ 。
    - $step \leftarrow step + 1$ 。
3. 返回: 最终生成的新视图序列。
搜索空间设置： 搜索空间 $\mathcal{S}$ 通常设置为一个前向的四分之一球体 (forward-facing quarter-sphere)，其相机姿态均匀分布。这个球体以点云世界坐标系的原点为中心，半径设置为参考图像中心像素的深度。

4.2.5. 应用 (Applications)

ViewCrafter 不仅限于生成新视图，还可以支持多种高级应用：

高效的 3D-GS 优化 (Efficient 3D-GS Optimization)：
- 挑战： ViewCrafter 通过多步去噪过程生成新视图，速度相对较慢，难以提供实时渲染的沉浸式体验。
- 解决方案： 论文利用 ViewCrafter 的结果来优化 3D-GS 表示，以实现实时渲染。与直接多次运行 ViewCrafter 并优化 3D-GS（可能因初始点云不完整导致不一致）不同，论文利用上述迭代视图合成策略来逐步完善初始点云并合成一致的新视图。
- 优化过程：
  - 使用完善的稠密点云初始化每个三维高斯球的中心。
  - 在 ViewCrafter 合成的新视图的监督下，优化每个三维高斯球的属性（如颜色、不透明度、形状）。
  - 简化 3D-GS 优化过程：取消了稠密化 (densification)、分裂 (splitting) 和不透明度重置 (opacity reset) 等技巧，并将总优化迭代次数减少到 2,000 次，显著快于原始 3D-GS 的训练。
- 优势： 这不仅提供了作为训练数据的一致新视图，还为 3D-GS 提供了强大的几何初始化。
  
  该图像是示意图，展示了 ViewCrafter 方法的工作流程。它通过参考图像生成新的视图，同时结合点云和 3D-GS 优化，最终实现高质量的三维场景合成。

图 2：ViewCrafter 在 3D-GS 优化中的应用。它通过参考图像和点云先验迭代生成新视图，并扩展点云，然后利用这些结果来高效初始化和监督 3D-GS 的训练，最终实现实时渲染。

场景级文本到三维生成 (Scene-level Text-to-3D Generation)：
- 将 ViewCrafter 与创新的 text-to-image (T2I) 扩散模型结合，实现文本到三维生成。
- 流程： 给定一个文本提示，首先使用 T2I 模型生成一张参考图像，然后利用 ViewCrafter 进行新视图合成和三维重建。这为更具想象力的艺术创作提供了可能性。

5. 实验设置

本节将详细介绍 ViewCrafter 的实现细节、用于零样本新视图合成和场景重建的实验设置、评估数据集和指标，以及对比的基线方法。

5.1. 实现细节

训练策略： 采用渐进式训练策略 (progressive training strategy)。
- 第一阶段： 在 $320 \times 512$ 分辨率下训练 ViewCrafter 模型，帧长设置为 25。整个视频去噪 U-Net 训练 50,000 次迭代，学习率为 $5 \times 10^{-5}$ ，小批量大小为 16。
- 第二阶段： 为了适应高分辨率，在 $576 \times 1024$ 分辨率下对视频去噪 U-Net 的空间层（即 2D Conv (二维卷积) 和空间注意力层）进行微调。微调 5,000 次迭代，学习率为 $1 \times 10^{-5}$ ，有效小批量大小为 16。
训练数据集： 模型在 DL3DV ([70]) 和 RealEstate10K ([7]) 混合数据集上进行训练。视频数据被分割成包含 25 帧的视频片段。
条件信号生成：
- 使用 DUSt3R ([19]) 处理视频片段，获取视频片段的相机轨迹和每帧的全局对齐点云。
- 随机选择视频帧的构建点云，并使用 Pytorch3D ([71]) 沿着估计的相机轨迹进行渲染，生成点云渲染结果作为条件信号。
- 总共生成了 632,152 对视频作为训练数据。
推理过程： 采用 DDIM sampler (DDIM采样器) ([30])，并结合 classifier-free guidance (无分类器引导) ([72])。

5.2. 零样本新视图合成对比 (Zero-shot Novel View Synthesis Comparison)

5.2.1. 数据集和评估指标

数据集： 选取了三个不同规模的真实世界数据集作为零样本新视图合成的评估基准：
- CO3D ([39])： 包含以物体为中心的场景，评估了 10 个场景。
- RealEstate10K ([7])： 包含室内场景的视频片段，评估了测试集中的 10 个场景。
- Tanks-and-Temples ([21])： 包含大规模的室外和室内场景，使用了全部 9 个场景。
测试集类型： 从原始捕获视频中提取帧，通过不同的采样率创建两种类型的测试集：
- Easy set (简单集)： 使用小帧采样步长生成，特点是相机运动缓慢，视图范围有限。
- Hard set (困难集)： 使用大采样步长生成，特点是相机运动迅速，视图范围大。
图像质量评估指标：
- 峰值信噪比 (Peak Signal-to-Noise Ratio, PSNR)：衡量图像重建质量的传统指标，值越高表示图像质量越好。 $PSNR = 10 \cdot \log_{10} \left( \frac{MAX_I^2}{MSE} \right)$ 其中：
  - $MAX_I$ 是图像中像素的最大可能值（例如，对于 8 位图像，通常为 255）。
  - MSE (Mean Squared Error, 均方误差) 是原始图像与生成图像之间像素值差的平方的平均值。
- 结构相似性 (Structural Similarity Index, SSIM) ([73])：衡量两幅图像结构相似度的指标，更符合人类视觉感知。值越接近 1 表示相似度越高。 $SSIM(x, y) = \frac{(2\mu_x\mu_y + c_1)(2\sigma_{xy} + c_2)}{(\mu_x^2 + \mu_y^2 + c_1)(\sigma_x^2 + \sigma_y^2 + c_2)}$ 其中：
  - $x$ 和 $y$ 是两幅图像（或图像块）。
  - $\mu_x$ 和 $\mu_y$ 分别是 $x$ 和 $y$ 的平均值。
  - $\sigma_x^2$ 和 $\sigma_y^2$ 分别是 $x$ 和 $y$ 的方差。
  - $\sigma_{xy}$ 是 $x$ 和 $y$ 的协方差。
  - $c_1 = (k_1 L)^2$ 和 $c_2 = (k_2 L)^2$ 是用来维持稳定的常数，其中 $L$ 是像素值的动态范围， $k_1, k_2 \ll 1$ 是小常数。
- 感知距离 (Learned Perceptual Image Patch Similarity, LPIPS) ([74])：利用深度学习特征来评估图像之间的感知相似度，值越低表示感知质量越好。
- Fréchet Inception 距离 (Fréchet Inception Distance, FID) ([75])：评估生成图像分布与真实图像分布之间相似度的指标，特别是对于包含大量缺失和遮挡区域的困难测试集效果显著。值越低表示生成图像的质量和多样性越好。
姿态准确性评估指标： 为了评估生成新视图的姿态准确性，需要估计生成视图的相机姿态并与真实相机姿态进行比较。
- 旋转距离 ( $R_{\mathrm{dist}}$ )：衡量生成视图与真实视图之间旋转差异的指标。 $R_{\mathrm{dist}} = \sum_{i=1}^n \operatorname{arccos} \left( \frac{\mathrm{tr}(\mathbf{R}_{\mathrm{gen}}^i \mathbf{R}_{\mathrm{gt}}^{i\mathrm{T}}) - 1}{2} \right)$ 其中：
  - $n$ 是生成视图序列中的帧数。
  - $\mathbf{R}_{\mathrm{gen}}^i$ 是第 $i$ 帧生成视图的旋转矩阵。
  - $\mathbf{R}_{\mathrm{gt}}^i$ 是第 $i$ 帧真实视图的旋转矩阵。
  - $\mathbf{R}_{\mathrm{gt}}^{i\mathrm{T}}$ 是真实旋转矩阵的转置。
  - $\mathrm{tr}(\cdot)$ 表示矩阵的迹 (trace)。
  - $\operatorname{arccos}(\cdot)$ 返回反余弦值。
  - 该公式计算了两个旋转矩阵之间角度距离的总和，值越低表示旋转越准确。
- 平移距离 ( $T_{\mathrm{dist}}$ )：衡量生成视图与真实视图之间平移差异的指标。 $T_{\mathrm{dist}} = \sum_{i=1}^n \| \mathbf{T}_{\mathrm{gt}}^i - \mathbf{T}_{\mathrm{gen}}^i \|_2$ 其中：
  - $\mathbf{T}_{\mathrm{gt}}^i$ 是第 $i$ 帧真实视图的平移向量。
  - $\mathbf{T}_{\mathrm{gen}}^i$ 是第 $i$ 帧生成视图的平移向量。
  - $\| \cdot \|_2$ 表示 L2 范数（欧几里得距离）。
  - 该公式计算了平移向量之间欧几里得距离的总和，值越低表示平移越准确。
- 姿态估计工具： 由于 COLMAP ([76]) 对不一致的特征敏感，且难以从生成的视图中提取姿态，论文选择使用 DUSt3R ([19]) 进行更鲁棒的姿态估计。为了比较，将估计姿态的相机坐标系转换到相对于第一帧的坐标系，并使用最远帧进行平移尺度归一化。

5.2.2. 对比基线

作为基于扩散的通用新视图合成框架，ViewCrafter 与以下三个基于扩散的基线方法进行比较：

ZeroNVS ([12])： 从 Zero-1-to-3 ([11]) 微调而来，能根据参考图像和相对相机姿态生成新视图。相机姿态被处理为 CLIP ([62]) 文本嵌入，通过交叉注意力注入到扩散 U-Net 中。
MotionCtrl ([13])： 一个相机条件视频扩散模型，从 SVD ([17]) 微调而来。它能根据条件参考图像和相对相机姿态序列生成一致的新视图。相机姿态同样被处理为高层级嵌入，通过交叉注意力注入到视频扩散 U-Net。
LucidDreamer ([14])： 利用基于深度图的扭曲来合成新视图，并使用预训练的扩散模型 ([43]) 进行修复以填补缺失区域。

输入设置： 在零样本新视图合成比较中，所有基线方法和 ViewCrafter 都使用单张参考图像作为输入，因为这些基线方法通常只能执行单视图新视图合成。

5.3. 场景重建对比 (Scene Reconstruction Comparison)

5.3.1. 数据集和评估指标

数据集： 使用 Tanks-and-Temples ([21]) 数据集中的 6 个场景进行评估。
基准： 创建一个具有挑战性的稀疏视图基准 (sparse-view benchmark)，每个场景仅包含 2 张真实训练图像，并使用 12 个视图进行评估。
评估指标： 使用 PSNR (峰值信噪比)、SSIM (结构相似性) ([73]) 和 LPIPS (感知距离) ([74]) 来评估图像质量。

5.3.2. 对比基线

ViewCrafter 与以下三个基于 3D-GS (三维高斯泼溅) 表示的稀疏视图重建方法进行比较：

DNGaussian ([77])： 使用 COLMAP ([76]) 生成的点云进行初始化，并利用图像监督和深度正则化进行稀疏视图重建。
FSGS ([78])： 类似于 DNGaussian，也使用 COLMAP 生成的点云进行初始化。
InstantSplat ([79])： 探索使用 DUSt3R ([19]) 生成的点云进行初始化，能够从稀疏图像高效训练 3D-GS。但它为了效率省略了稠密化过程。

6. 实验结果与分析

本节将详细分析 ViewCrafter 在零样本新视图合成和场景重建方面的实验结果，并进行消融研究以验证关键设计选择。

6.1. 零样本新视图合成对比 (Zero-shot Novel View Synthesis Comparison)

6.1.1. 定性比较 (Qualitative Comparison)

Fig. 3 展示了定性比较结果。最左侧一列是参考图像，最右侧一列是真实新视图。

LucidDreamer ([14])： 结果存在严重的伪影。这主要是因为它使用基于深度图的扭曲来生成新视图，当处理相机内参未知野外图像时，会导致不准确的新视图。此外，它使用现成的修复模型 ([43]) 来细化扭曲结果，这往往会在原始内容和修复内容之间引入不一致。
ZeroNVS ([12])： 生成的新视图质量相对较低，准确性也较差。主要原因是 ZeroNVS 通过文本嵌入将相机姿态条件引入扩散模型，未能提供对新视图生成的精确控制，导致次优结果。
MotionCtrl ([13])： 尽管能生成具有更好保真度的新视图，但在生成精确符合给定相机条件的新视图方面表现不足。这是因为 MotionCtrl 也采用高层级相机嵌入来控制相机姿态，导致新视图合成的准确性较低。
ViewCrafter (ours)： 结果表明，由于结合了显式点云先验和视频扩散模型，ViewCrafter 在姿态控制准确性和生成新视图的整体质量方面都表现出优越性。它能够生成更逼真、细节更丰富且与预期姿态精确对齐的新视图。

该图像是对比图，展示了不同方法（LucidDreamer, ZeroNVS, MotionCtrl, 以及我们的结果）在合成高保真新视图时的效果。每个方法下方的图像代表其生成的结果，最右侧为真实图像作为对比，展示了我们方法在多个场景下的优越性。

图 3：不同方法在零样本新视图合成中的定性比较。最左侧是参考图像，最右侧是真实新视图。结果显示 ViewCrafter 在生成高质量和姿态准确的新视图方面表现出卓越的性能。

6.1.2. 定量比较 (Quantitative Comparison)

Table 1 报告了定量比较结果。由于 ZeroNVS ([12]) 和 LucidDreamer ([14]) 只能处理方形图像，因此在计算定量指标时，ViewCrafter 和 MotionCtrl ([13]) 生成的新视图也被裁剪以与它们对齐。

以下是原文 Table 1 的结果：

Dataset Method	Easy set						Hard set
Dataset Method	LPIPS ↓	PSNR ↑	SSIM ↑	FID ↓	Rdist ↓	Tdist ↓	LPIPS ↓	PSNR ↑	SSIM↑	FID ↓	Rdist ↓	Tdist ↓
Tanks-and-Temples
LucidDreamer [14]	0.413	14.53	0.362	42.32	6.137	5.695	0.558	11.69	0.267	200.8	8.998	9.305
ZeroNVS [12]	0.482	14.71	0.380	74.60	8.810	6.348	0.569	12.05	0.309	131.0	8.860	8.557
MotionCtrl [13]	0.400	15.34	0.427	70.3	7.299	8.039	0.473	13.29	0.384	196.8	9.801	9.112
ViewCrafter (ours)	0.194	21.26	0.655	27.18	0.471	1.009	0.283	18.07	0.563	38.92	1.109	0.910
RealEstate10K
LucidDreamer [14]	0.315	16.35	0.579	56.77	5.821	10.02	0.400	14.13	0.511	71.43	7.990	10.85
ZeroNVS [12]	0.364	16.50	0.577	96.18	6.370	9.817	0.431	14.24	0.535	105.8	8.562	10.31
MotionCtrl [13]	0.341	16.31	0.604	89.90	4.236	9.091	0.386	16.29	0.587	70.02	8.084	9.295
ViewCrafter (ours)	0.145	21.81	0.796	33.09	0.380	2.888	0.178	22.04	0.798	24.89	1.098	2.867
CO3D
LucidDreamer [14]	0.429	15.11	0.451	78.87	12.90	6.665	0.517	12.69	0.374	157.8	16.43	8.301
ZeroNVS [12]	0.467	15.15	0.463	93.84	15.44	8.872	0.524	13.31	0.426	143.2	15.02	10.22
MotionCtrl [13]	0.393	16.87	0.529	69.18	16.87	5.131	0.443	15.46	0.502	112.7	18.81	5.575
ViewCrafter (ours)	0.243	21.38	0.687	24.63	2.175	1.033	0.324	18.96	0.641	36.96	2.849	1.480

分析：

图像质量指标 (LPIPS ↓, PSNR ↑, SSIM ↑, FID ↓)：
- ViewCrafter 在所有数据集（Tanks-and-Temples, RealEstate10K, CO3D）的简单集和困难集上，所有图像质量指标均显著优于所有基线方法。
- LPIPS： ViewCrafter 的 LPIPS 值最低，例如在 Tanks-and-Temples 简单集上为 0.194，远低于基线的 0.4+。这表明 ViewCrafter 生成的图像在感知上与真实图像更相似，具有更好的视觉质量。
- PSNR 和 SSIM： ViewCrafter 的 PSNR 和 SSIM 值最高，例如在 RealEstate10K 简单集上 PSNR 达到 21.81，SSIM 达到 0.796，远超基线。这表明其生成图像与真实图像在像素层面和结构上都更加接近。
- FID： ViewCrafter 的 FID 值最低，例如在 Tanks-and-Temples 简单集上为 27.18，而基线普遍在 40-70 以上，甚至高达 200+。尤其在困难集上，ViewCrafter 的 FID 优势更为明显（如 Tanks-and-Temples 困难集为 38.92 vs 131.0/196.8/200.8）。这表明 ViewCrafter 生成的图像在整体分布上与真实图像更接近，具有更高的真实感和多样性。
姿态准确性指标 (Rdist ↓, Tdist ↓)：
- ViewCrafter 的 Rdist 和 Tdist 值均显著低于所有基线方法。例如，在 Tanks-and-Temples 简单集上，Rdist 为 0.471，Tdist 为 1.009，而基线方法普遍在 5-10 甚至更高。
- 这证明了 ViewCrafter 模型设计（特别是引入显式点云先验）在实现新视图合成中精确姿态控制方面的有效性。
  
  结论： ViewCrafter 在图像质量和姿态准确性两方面都表现出卓越的性能，证明了其在从单张或稀疏图像合成高保真、一致且精确控制的新视图方面的优越能力。

6.2. 场景重建对比 (Scene Reconstruction Comparison)

6.2.1. 定性比较 (Qualitative Comparison)

Fig. 4 展示了稀疏视图场景重建的定性比较结果。最右侧一列是真实新视图。

DNGaussian ([77]) 和 FSGS ([78])： 这些方法的结果在偏离真实训练图像的视角下（新视图）呈现出明显的伪影。这表明它们在处理稀疏视图重建时，难以有效地泛化到大幅度变化的新视角。
InstantSplat ([79])： 尽管它利用 DUSt3R ([19]) 进行点云初始化，能够更好地保留训练图像中的细节，但由于其省略了 3D-GS 的稠密化 (densification) 过程，导致在新视图下出现严重的孔洞 (holes)，未能有效恢复遮挡区域。
ViewCrafter (ours)： 即使只给定 2 张真实训练图像，ViewCrafter 也能生成高保真的新视图。这归因于其利用了视频扩散模型提供的先验知识，能够有效地填补缺失区域并生成视觉上连贯的场景。

该图像是对比结果示意图，展示了不同方法（DNGaussian、FGS、InstantSplat、Ours）与真实图像（Ground Truth）在合成新视图时的表现。各列分别呈现不同算法在生成效果上的差异，突显了我们的方法在高保真度和细节呈现上的优势。

图 4：稀疏视图场景重建的定性比较。从左到右依次为 DNGaussian、FSGS、InstantSplat、ViewCrafter 和真实新视图。ViewCrafter 能够从稀疏的训练图像重建出高质量的新视图。

6.2.2. 定量比较 (Quantitative Comparison)

Table 2 报告了 Tanks-and-Temples 数据集上的场景重建定量比较结果。每个场景使用 2 张真实训练图像，12 个视图用于评估。

以下是原文 Table 2 的结果：

Method	LPIPS ↓	PSNR ↑	SSIM ↑
DNGausian [77]	0.331	15.47	0.541
FSGS [78]	0.364	17.53	0.558
InstantSplat [79]	0.275	18.61	0.614
ViewCrafter (ours)	0.245	21.50	0.692

分析：

图像质量指标 (LPIPS ↓, PSNR ↑, SSIM ↑)：
- ViewCrafter 在所有指标上均持续优于所有对比基线。
- LPIPS： ViewCrafter 的 LPIPS 值为 0.245，是最低的，表明其生成的新视图在感知质量上最佳。
- PSNR： ViewCrafter 的 PSNR 值为 21.50，远高于基线（例如 InstantSplat 为 18.61），显示出更高的像素精度。
- SSIM： ViewCrafter 的 SSIM 值为 0.692，也高于基线，表明其在结构相似性方面表现更优。
  
  结论： 定量结果进一步验证了 ViewCrafter 在从稀疏视图进行场景重建方面的有效性，它能够生成更高质量、更具结构一致性的新视图。

6.3. 消融研究 (Ablation Study)

6.3.1. 关于姿态条件策略的讨论 (Discussion on pose condition strategy)

在 ViewCrafter 中，点云渲染结果被用作视频扩散模型的显式条件，以实现新视图合成中的高精度姿态控制。为了比较这种基于点云的姿态条件策略与基于 Plücker coordinates (普吕克坐标) 的策略（一些同期工作如 [57], [80] 采用），论文训练了一个普吕克坐标条件视频扩散模型 (Plücker model)。

Plücker 模型设置： Plücker coordinates 描述逐像素的运动，对于给定 RGB 帧及其相机姿态，其 Plücker coordinates 与 RGB 帧具有相同的空间大小，并为每个像素位置包含 6 个通道。在训练时，Plücker coordinates 被调整到潜在空间的大小，并沿通道维度与噪声拼接。除了姿态条件策略外，Plücker model 的其余架构和训练细节（分辨率 $320 \times 512$ ）与 ViewCrafter 相同。
比较结果： 以下是原文 Table 3 的结果：

Method LPIPS ↓ PSNR ↑ SSIM ↑ FID ↓ Rdist ↓ Tdist ↓
Plücker model 0.370 17.51 0.546 49.33 2.688 2.570
Ours 0.270 20.25 0.649 38.17 0.552 0.983

Table 3 的定量结果和 Fig. 6 的定性结果表明，ViewCrafter 中采用的基于点云的姿态条件策略在新视图合成中实现了更准确的姿态控制。
Plücker 模型的局限性： 论文观察到 Plücker model 倾向于忽略相机的高频运动。
姿态准确性可视化： Fig. 7 展示了一个例子，比较了真实相机姿态与从 ViewCrafter 和 Plücker model 生成的新视图中估计的姿态之间的对齐程度。结果显示，从 ViewCrafter 生成的新视图中估计的姿态与真实姿态更紧密对齐。这进一步证明了基于点云的姿态条件策略的有效性。

该图像是一个对比示意图，展示了参考图像、Plücker模型、我们的方法与真实图像的合成效果，突出展示了不同算法在合成高保真新视图中的表现差异。

图 6：姿态条件策略的定性比较。从左到右依次为参考图像、Plücker model 生成结果、ViewCrafter 生成结果和真实图像。ViewCrafter 在保持高保真度和姿态准确性方面表现更优。

Fig. 7. Visualization of pose accuracy. We compare the alignment level between the ground truth camera poses and the poses estimated from the generated novel views of ViewCrafter and the Plücker model. 该图像是图表，展示了我们的方法与 Plücker 模型在相机姿态估计上的对比。左侧为我们的估计姿态（青色），右侧为 Plücker 模型的结果，紫色为真实姿态，红色线条表示平移距离。

图 7：姿态准确性的可视化。比较了真实相机姿态与从 ViewCrafter 和 Plücker model 生成的新视图中估计的姿态之间的对齐水平。ViewCrafter 估计的姿态（青色）与真实姿态（紫色）的对齐程度更高，平移距离（红色虚线）更短，表明其姿态控制更精确。

6.3.2. 点云条件的鲁棒性 (Robustness for point cloud condition)

ViewCrafter 利用点云渲染结果作为条件，实现了高度准确的姿态控制。然而，这些渲染结果可能包含伪影和几何失真。Fig. 5 提供了一个例子：

第一行： 展示了作为条件的点云渲染结果。这些结果存在遮挡和缺失区域，并且在前景色边界处存在几何失真。
第二行： 展示了 ViewCrafter 生成的对应新视图。这些视图成功地填补了孔洞，并纠正了不准确的几何形状。

这表明 ViewCrafter 对三维世界建立了全面的理解，使其能够从不完善的条件信息中生成高质量的新视图，并对点云条件表现出鲁棒性 (robustness)。

该图像是对比示意图，展示了使用点云渲染和视频扩散模型（PVDiffusion）生成的结果。左侧为点云渲染的图像，右侧为PVDiffusion生成的图像，展示了不同视角下的高保真效果，显示了该方法在合成新视角图像方面的优势。

图 5：点云条件鲁棒性的可视化。第一行显示了作为条件的点云渲染结果，存在遮挡、缺失和几何失真。第二行显示了 ViewCrafter 生成的对应新视图，成功地填补了孔洞并纠正了几何不准确性。

6.3.3. 训练范式的消融研究 (Ablation on training paradigm)

本研究旨在评估所采用训练范式的有效性。

训练模块选择： 比较了仅训练视频去噪 U-Net 的空间层与同时训练空间层和时间层（ViewCrafter 采用）的新视图合成质量。
- 结果： Table 4 第一行显示，同时训练空间层和时间层 (Ours) 效果优于仅训练空间层。
渐进式训练的重要性： 比较了直接在 $576 \times 1024$ $576 \times 1024$ 分辨率下训练模型与采用渐进式训练策略（ViewCrafter 采用）的效果。
- 结果： Table 4 第二行显示，渐进式训练策略 (Ours) 效果优于直接训练高分辨率模型。
推理帧数的影响： 观察到 ViewCrafter 的推理帧数会影响新视图合成的质量。在相同的视图变化范围内，使用更多帧进行推理可以提高生成帧的时间一致性。为了平衡计算成本和合成质量，训练了两个模型：一个推理 16 帧的基础模型，以及一个推理 25 帧的更强模型 (Ours)。
- 结果： Table 4 第三行显示，推理 25 帧的模型 (Ours) 效果优于推理 16 帧的模型。
  
  以下是原文 Table 4 的结果：
  
  Traing paradigm LPIPS ↓ PSNR ↑ SSIM ↑ FID ↓
  Only train spatial layers 0.301 18.82 0.595 42.30
  Directly train on 576×1024 0.314 18.55 0.582 41.01
  16 frames model 0.289 19.07 0.610 38.43
  Ours 0.280 19.52 0.615 37.77

结论： 上述结果共同展示了 ViewCrafter 所实施的训练范式的有效性，包括同时训练空间和时间层、渐进式训练以及优化推理帧数。

6.3.4. 相机轨迹规划的消融研究 (Ablation on camera trajectory planning)

本研究评估了所提出的相机轨迹规划算法在揭示遮挡和完善点云方面的有效性。Fig. 8 展示了一个例子：

设置： 给定一张参考图像和一个初始点云。搜索空间设置为以初始点云世界坐标系原点为中心的前向四分之一球体，半径设置为参考图像中心像素的深度。首先探索搜索空间的左半部分，相机轨迹规划参数设置为 $N=3$ （最大预测姿态数）、 $K=5$ （候选姿态数）、 $\Theta=0.6$ （效用函数阈值）。预定义的圆形相机轨迹设置为从参考姿态向搜索空间左侧均匀移动 3 次，每次移动 20 度。然后，以相同的参数探索右半部分搜索空间。
结果：
- Fig. 8(a)：使用预定义的圆形相机轨迹重建的点云，其遮挡区域未能有效完善。
- Fig. 8(b)：使用相机轨迹规划算法 (camera trajectory planning algorithm) 重建的点云。重建结果更完整，表明该算法能够有效地揭示场景的遮挡区域，从而提高整体场景重建质量。
  
  该图像是一个示意图，展示了使用不同相机轨迹规划技术生成的点云。上方为参考图像和初始点云，下方则比较了使用预定义相机轨迹与相机轨迹规划算法生成的点云，后者在揭示场景的遮挡区域方面表现更佳。

图 8：相机轨迹规划的消融研究。上方为参考图像和初始点云。下方 (a) 使用预定义圆形相机轨迹重建的点云未能有效完善遮挡区域。下方 (b) 使用 ViewCrafter 的相机轨迹规划算法重建的点云，更有效地揭示了场景的遮挡区域，提升了重建质量。

6.4. 文本到三维生成 (Text-to-3D Generation)

除了合成真实世界图像的新视图，论文还探索了将 ViewCrafter 框架与富有创意的文本到图像 (T2I) 扩散模型结合，用于文本到三维生成 (Text-to-3D generation) 的应用。

流程： 给定一个文本提示 (text prompt)，首先使用 T2I 模型生成对应的参考图像，然后利用 ViewCrafter 进行一致的新视图合成。
结果： Fig. 9 展示了示例结果，包括“身穿橙色装饰的香草巧克力冰淇淋 (An orange-adorned vanilla chocolate ice cream)”。这些示例展示了 ViewCrafter 能够从文本提示生成具有高保真度和一致性的三维场景，为更具想象力的内容创作提供了可能。

该图像是示意图，展示了利用 ViewCrafter 方法生成的一组新视图示例，包括宇航员、动漫风格城堡、盛开的花朵和冰淇淋的多个视角。这些新视图展示了高-fidelity 和一致性，突出了方法在生成过程中的强大能力。

图 9：文本到三维生成的示例。从文本提示生成的参考图像（左上角），通过 ViewCrafter 合成了不同视角下高保真且一致的新视图，例如“身穿橙色装饰的香草巧克力冰淇淋”。

7. 总结与思考

7.1. 结论总结

本文提出了 ViewCrafter (视图创客)，一个新颖的新视图合成框架，它创造性地结合了视频扩散模型和点云先验，以实现高保真和精确的新视图合成。该方法通过以下关键创新克服了现有方法的局限性：

高保真与精确控制： ViewCrafter 利用视频扩散模型的强大生成能力和点云提供的粗略三维几何线索，实现了对 $6 \mathrm{DoF}$ 相机姿态的精确控制，并生成了高质量、一致的新视图序列。
迭代扩展与自适应规划： 针对长视频生成和视图范围扩展的挑战，ViewCrafter 引入了迭代视图合成策略，并结合了内容自适应的 Next-Best-View (NBV) 相机轨迹规划算法，能够逐步完善点云表示并探索更大范围的场景。
卓越性能与广泛应用： 在 Tanks-and-Temples (坦克与庙宇)、RealEstate10K (房地产10K) 和 CO3D (三维通用物体) 等多样化数据集上的实验表明，ViewCrafter 在零样本新视图合成和稀疏视图 3D-GS (三维高斯泼溅) 重建方面均优于现有最先进的方法。此外，它还促进了 3D-GS 的高效优化以实现实时渲染，以及场景级文本到三维生成等应用。

总而言之，ViewCrafter 为从单张或稀疏图像合成通用场景的高保真、一致且可控的新视图提供了一个强大而灵活的解决方案。

7.2. 局限性与未来工作

作者指出了 ViewCrafter 存在的几个局限性：

大视图范围合成挑战： 在给定有限三维线索的情况下（例如，仅从背面图像生成正面图像），合成具有非常大视图范围的新视图可能仍然面临挑战。这意味着在极端视角变化下，模型可能难以维持生成质量和几何一致性。
点云条件精度敏感性： 尽管论文验证了 ViewCrafter 对低质量点云的鲁棒性，但如果条件点云的精度显著不足，模型性能仍可能受影响。在极端不准确的场景中，模型可能难以完全纠正几何失真或填补大规模缺失区域。
计算成本： 作为视频扩散模型，ViewCrafter 在推理过程中需要多步去噪，这导致相对较高的计算成本，限制了其在实时应用中的直接部署，除非与 3D-GS 等实时渲染技术结合。

作者并未明确提出未来的工作方向，但基于这些局限性，未来研究可以探索：

更强大的三维先验融合： 研究如何集成更精细或多模态的三维先验（例如，语义信息、表面法线），以进一步提高大视图范围合成的质量和几何一致性。
点云鲁棒性增强： 开发更先进的机制，使模型对极度不准确或不完整的点云条件具有更强的鲁棒性，例如通过自监督学习或更智能的几何推理模块。
推理效率优化： 探索更快的去噪策略（如单步或少数步采样器），或研究模型蒸馏 (model distillation) 技术，以降低推理计算成本，从而更好地支持实时应用。
动态场景合成： 将当前静态场景的新视图合成能力扩展到动态场景，即从单张或稀疏图像合成包含运动物体或变化的场景新视图序列。

7.3. 个人启发与批判

7.3.1. 个人启发

ViewCrafter 的工作提供了几个重要的启发：

显式三维先验的重要性： 论文证明了在生成模型中引入显式三维几何先验（如点云）对于实现精确姿态控制和三维一致性至关重要。这比仅仅依赖高层级语义条件（如文本嵌入）提供了更强的约束和指导。
多模态融合的强大潜力： 将强大的视频扩散模型（擅长纹理、细节和时间一致性）与点云（擅长结构和姿态）结合，形成了一个互补的系统。这种多模态信息融合是解决复杂生成任务的有效途径。
迭代优化策略的价值： 针对生成模型在处理长序列或大范围任务时的局限性，迭代地“生成-反馈-完善”循环是一个通用的、有效的解决方案。Next-Best-View 策略更是将这种迭代过程智能化，使其能够自适应地探索未知区域。
生成模型在三维领域的赋能： ViewCrafter 不仅本身是一个生成模型，还能作为上游工具，为下游的三维应用（如 3D-GS 优化、文本到三维）提供高质量的训练数据和初始化，极大地降低了这些应用的门槛和数据需求。

7.3.2. 批判与改进

尽管 ViewCrafter 取得了显著成就，但仍有以下几个方面值得批判性思考和改进：

计算效率问题： 多步去噪过程导致推理速度较慢，即使结合 3D-GS 实现了实时渲染，生成用于 3D-GS 优化的数据本身仍需时间。未来可以研究如何将 ViewCrafter 模型的去噪步骤减少到极致（如单步生成），或者利用更轻量级的扩散模型架构。
点云质量的依赖性： 尽管对低质量点云具有一定鲁棒性，但其性能上限仍可能受限于初始点云的质量。对于极度模糊、遮挡严重的输入图像，DUSt3R 等工具可能无法提供足够的粗略三维信息，这时 ViewCrafter 的“幻化”能力可能达到极限。可以探索结合更先进的单目/多目深度估计或三维重建技术，提供更可靠的初始三维先验。
“伪”三维一致性：虽然论文强调了三维一致性，但视频扩散模型本质上是二维图像生成模型，其三维理解来自训练数据和条件。在处理复杂的非刚性形变、透明或反射物体时，其生成的三维一致性可能仍不如纯三维重建方法。未来的工作可以引入更强的三维几何约束或可微分渲染器 (differentiable renderer) 到扩散过程中，以进一步增强三维一致性。
轨迹规划的局限性： 提出的 NBV 轨迹规划算法虽然自适应，但其搜索空间仍是预设的四分之一球体，且效用函数基于简单的像素统计。对于更复杂的场景结构或需要穿越遮挡才能到达的区域，这种规划可能不是最优的。可以探索基于学习的更智能的轨迹规划，或者结合语义信息来指导视角选择。
数据偏见与泛化： 虽然在混合数据集上训练，但视频扩散模型对训练数据的分布敏感。如果目标场景的风格、光照或物体类型与训练数据差异较大，生成质量可能会下降。未来可以探索领域自适应 (domain adaptation) 或更广泛的预训练策略。
可解释性： 扩散模型作为黑箱模型，其内部如何从不完善点云中“幻化”出高质量细节，以及如何纠正几何失真，其可解释性仍有待提高。

相似论文推荐

基于向量语义检索推荐的相关论文。

暂时没有找到相似论文。

Traing paradigm	LPIPS ↓	PSNR ↑	SSIM ↑	FID ↓
Only train spatial layers	0.301	18.82	0.595	42.30
Directly train on 576×1024	0.314	18.55	0.582	41.01
16 frames model	0.289	19.07	0.610	38.43
Ours	0.280	19.52	0.615	37.77