论文状态：已完成

Omnidirectional 3D Scene Reconstruction from Single Image

单图像三维场景重建 (1)扩散模型三维重建 (1)几何一致性优化 (1)三维高斯 Splatting 表示 (1)全景场景重建 (1)

原文链接

价格：0.100000

已有 2 人读过

本分析由 AI 生成，可能不完全准确，请以原文为准。

TL;DR 精炼摘要

该论文提出了一种名为`Omni3D`的全新方法，从单幅图像重建全向三维场景。通过了迭代优化生成的视图和相机姿态，最小化3D重投影误差，提升了几何一致性和可渲染性。实验表明，`Omni3D`在三维重建质量上显著优于现有方法。

摘要

Reconstruction of 3D scenes from a single image is a crucial step towards enabling next-generation AI-powered immersive experiences. However, existing diffusion-based methods often struggle with reconstructing omnidirectional scenes due to geometric distortions and inconsistencies across the generated novel views, hindering accurate 3D recovery. To overcome this challenge, we propose Omni3D, an approach designed to enhance the geometric fidelity of diffusion-generated views for robust omnidirectional reconstruction. Our method leverages priors from pose estimation techniques, such as MASt3R, to iteratively refine both the generated novel views and their estimated camera poses. Specifically, we minimize the 3D reprojection errors between paired views to optimize the generated images, and simultaneously, correct the pose estimation based on the refined views. This synergistic optimization process yields geometrically consistent views and accurate poses, which are then used to build an explicit 3D Gaussian Splatting representation capable of omnidirectional rendering. Experimental results validate the effectiveness of Omni3D, demonstrating significantly advanced 3D reconstruction quality in the omnidirectional space, compared to previous state-of-the-art methods. Project page: https://omni3d-neurips.github.io .

思维导图

论文精读

中文精读约 33 分钟读完 · 19,723 字

1. 论文基本信息

1.1. 标题

Omnidirectional 3D Scene Reconstruction from Single Image (基于单幅图像的全向三维场景重建)

1.2. 作者

Ren Yang, Jiahao Li, Yan Lu (均为微软亚洲研究院)

1.3. 发表期刊/会议

NeurIPS (Conference on Neural Information Processing Systems) - 该会议是机器学习和计算神经科学领域顶级会议之一，具有极高的学术声誉和影响力。

1.4. 发表年份

2024年

1.5. 摘要

该论文提出了一种名为 Omni3D 的方法，用于从单幅图像重建全向三维场景。现有的基于扩散模型 (diffusion-based methods) 的方法在全向场景重建中面临几何失真和新颖视图 (novel views) 之间不一致性等挑战。Omni3D 通过利用姿态估计技术（如 MASt3R）的先验知识，迭代地优化生成的 novel views 及其估计的相机姿态 (camera poses)，从而增强扩散模型生成的视图的几何保真度。具体而言，该方法通过最小化配对视图之间的三维重投影误差 (3D reprojection errors) 来优化生成图像，并同步基于精炼后的视图校正姿态估计。这种协同优化过程能够生成几何一致的视图和准确的姿态，进而用于构建一个能够全向渲染的显式三维高斯泼溅 (3D Gaussian Splatting) 表示。实验结果表明，Omni3D 在全向空间的三维重建质量方面显著优于现有的最先进方法。

1.6. 原文链接

原文链接: /files/papers/69363f49633ff189eed763fa/paper.pdf 发布状态：预印本（arXiv preprint），被 NeurIPS 2024 接受。

2. 整体概括

2.1. 研究背景与动机

论文试图解决的核心问题： 从单幅图像重建三维场景是实现下一代人工智能驱动的沉浸式体验的关键一步。然而，当前基于扩散模型的方法在处理全向三维场景重建时，面临着显著的挑战。主要问题在于，这些方法生成的 novel views 往往存在几何失真和内容不一致性，尤其是在合成远离原始输入视角的视图时。这种不准确性严重阻碍了对完整全向场景进行连贯且精确的三维高斯泼溅 (3D Gaussian Splatting, 3DGS) 表示的恢复。

为什么这个问题在当前领域是重要的： 三维场景重建是计算机视觉领域的基础问题，其进展对于虚拟现实、增强现实、机器人学、自动驾驶等多个领域至关重要。尤其是全向（360度）场景重建，能提供更完整的空间信息，是实现真正沉浸式体验和更高级别AI感知的基石。现有方法在处理单一视角图像到全向三维重建时，由于输入信息有限和视角变化大，容易产生几何错误和视觉不连贯，限制了其在实际应用中的落地。

现有研究存在哪些具体的挑战或空白：

几何歧义和信息有限： 从单幅图像重建三维场景本质上是一个不适定 (ill-posed) 问题，因为单个二维图像丢失了深度信息，存在巨大的几何歧义。
扩散模型局限性： 尽管基于扩散模型的方法在物体级三维重建和场景级 Novel View Synthesis (NVS) 方面取得了进展，但它们在生成全向视图时，容易产生几何失真和跨视图不一致性。这可能是因为扩散模型的随机性 (stochasticity) 和迭代去噪过程 (iterative denoising process) 引入了这些误差。
全向场景的特殊性： 全向图像具有非均匀结构和不同于透视图像的光学特性，标准模型可能难以准确解释其上下文。
传统方法的限制： 传统 NVS 方法，如多平面图像 (Multiplane Images, MPI) 或基于深度图 (depth-based warping) 的方法，难以处理大基线 (large baselines) 和全向重建固有的失真。

这篇论文的切入点或创新思路： Omni3D 的核心创新点在于提出了一种协同的姿态-视图优化 (Pose-View Optimization, PVO) 策略。它没有仅仅依赖于生成模型的输出，而是通过引入强大的几何先验（来自姿态估计技术如 MASt3R），并在迭代过程中同时精炼生成的视图内容和其对应的相机姿态。这种“视图与姿态相互促进”的机制，旨在显式地强制生成视图在几何上保持一致性，从而克服了现有扩散模型在全向重建中的关键弱点。

2.2. 核心贡献/主要发现

论文最主要的贡献：

提出新方法 Omni3D： 显著提高了扩散模型生成的 novel views 的几何和内容一致性，从而实现单幅图像全向三维场景的 Gaussian Splatting 重建。
引入协同姿态-视图优化 (PVO) 过程： 该过程利用姿态估计先验，通过最小化三维重投影误差 (3D reprojection errors) 迭代地精炼生成的视图内容和相机姿态。
实现最先进的性能： 在全向三维场景重建任务中，相较于现有最先进方法，Omni3D 在广泛的视角范围内展示了显著提升的渲染质量。

论文得出了哪些关键的结论或发现：

仅凭扩散模型生成的多视图图像难以保证全向三维重建所需的几何一致性，导致渲染质量不佳。
通过将姿态估计与视图生成进行协同优化，可以有效地纠正几何失真和视图间不一致性。
最小化三维重投影误差是一种有效的方法，用于同时优化视图内容和相机姿态。
迭代地更新视图和姿态直至收敛，能够产生高质量的几何一致性数据，为 3DGS 提供理想输入。
该方法具有良好的通用性，可应用于不同的多视图扩散模型 (Multi-View Diffusion, MVD) 作为其上层优化模块。
通过分阶段渐进式生成和并行优化，Omni3D 在保持高性能的同时，也具有可接受的计算效率。

3. 预备知识与相关工作

3.1. 基础概念

为了理解 Omni3D，需要了解以下几个核心概念：

三维场景重建 (3D Scene Reconstruction)： 从二维图像（通常是多张或一张）中恢复场景的三维几何结构和外观信息的过程。这是计算机视觉中的一个基本且具有挑战性的任务。
全向三维场景 (Omnidirectional 3D Scene)： 指覆盖 360 度视角的完整三维场景，而非仅仅是有限的、面向前方的视角。通常通过全景图像或环绕式多视图图像来表示。
单幅图像三维重建 (Single Image 3D Reconstruction)： 仅从一张二维图像推断三维场景信息。由于深度信息的缺失，这是一个高度不适定 (ill-posed) 的问题，需要强大的先验知识或生成模型来弥补信息不足。
新颖视图合成 (Novel View Synthesis, NVS)： 给定场景的少量视图，合成该场景从任意新视角看去的样子。
扩散模型 (Diffusion Models)： 一类生成模型，通过逐步将噪声添加到数据中，然后学习逆向去噪过程来生成新数据。在图像生成和多视图合成方面展现出强大的能力。
三维高斯泼溅 (3D Gaussian Splatting, 3DGS)： 一种新兴的三维场景表示方法，通过一组带有颜色、不透明度、尺度和方向信息的各向异性高斯函数来表示三维场景。它具有实时渲染速度快、重建质量高的优点，是替代 NeRF (Neural Radiance Fields) 的一种方案。
相机姿态 (Camera Pose)： 描述相机在三维空间中的位置和方向。通常由一个旋转矩阵 $R$ 和一个平移向量 $T$ 组成，共同构成一个 $4 \times 4$ 的齐次变换矩阵。
相机内参 (Camera Intrinsics)： 描述相机内部光学属性的参数，包括焦距 ( $f_x, f_y$ )、主点坐标 ( $c_x, c_y$ ) 和畸变系数等。这些参数用于将三维空间点投影到二维图像平面。
三维重投影误差 (3D Reprojection Error)： 将三维点从一个视图的相机坐标系投影到另一个视图的图像平面上，然后计算投影点与该视图中对应特征点之间的距离。这个误差是衡量两个视图之间几何一致性的重要指标。
Homography 矩阵 (Homography Matrix)： 一个 $3 \times 3$ 的矩阵，用于描述两个平面之间透视变换。在图像处理中，如果两个图像是同一个平面在不同视角下的投影，可以通过 Homography 矩阵进行转换。
PnP (Perspective-n-Point) 问题： 给定一个三维点集及其在二维图像上的投影，求解相机姿态的问题。RANSAC (Random Sample Consensus) 是一种常用的鲁棒估计方法，用于从含有大量噪声或离群点的数据中估计模型参数，常与 PnP 结合使用。

3.2. 前人工作

论文在相关工作部分提及了以下几类方法：

传统视图合成 (Traditional View Synthesis)：
- 多平面图像 (Multiplane Images, MPI) [54, 36, 39, 47, 15, 49]：用多个半透明平面在不同深度表示场景。例如 SinMP1 [26] 和 AdaMP1 [8] 扩展 MPI 进行单图 NVS，有时结合扩散模型。
  - 背景知识： MPI 是一种将三维场景分解为一系列与相机平面平行的二维图像层的方法。每个层都有颜色和不透明度信息。通过混合这些层并进行深度插值，可以合成新视图。
- 基于深度图的扭曲 (Depth-based Warping) [46, 31, 29, 35]：使用估计的深度图将输入视图投影到新视角，然后修复遮挡区域。
  - 背景知识： 这类方法首先从单张图像估计深度图，然后利用深度信息将像素点反向投影到三维空间，再根据新视角将三维点重新投影回新的二维图像平面，从而生成新视图。遮挡区域需要进行图像修复 (inpainting)。
- 局限性： 传统方法难以处理全向重建中存在的大基线和失真，且对深度估计误差敏感，易在物体边界或修复区域产生伪影。
生成式图像到三维重建 (Generative Image-3D Reconstruction)：
- 基于预训练文本到图像 (T2I) 扩散模型 [30, 32, 27]：利用 T2I 扩散模型的语义和结构先验进行三维生成和 NVS。
  - 背景知识： 很多方法将 2D T2I 扩散模型作为得分函数 (score function) 来优化三维表示（如 DreamFusion [25]），或者微调 2D 扩散模型使其能根据相机视点生成新视图（如 Zero-1-to-3 [21]）。
- 潜在视频扩散模型 (Latent Video Diffusion Models, LVDMs) [2]：利用在大规模视频数据集上训练的 LVDMs，隐式学习运动、时间一致性和场景动态，作为三维先验。
  - 背景知识：LVDMs 通过学习视频帧之间的时序关系，可以生成具有一定运动和动态连贯性的图像序列。这对于从单幅图像推断多视图，尤其是动态场景，提供了强大的先验。
- 代表性工作： ZeroNVS [33]、ViewCrafter [51]、LiftImage3D [3] 等。
- 局限性： 扩散模型的内在随机性和去噪过程可能引入几何失真和跨视图不一致性，尤其在视角变化大时。LiftImage3D 试图通过失真感知高斯表示来缓解视图不一致性，但仍限于有限角度的三维重建，而非全向。
姿态估计 (Pose Estimation)：
- 早期工作 [40, 53]：在给定相机内参的情况下估计深度图和相对相机姿态。
- DUSTRM [43] (2024)：从无约束图像集合中执行相机姿态估计，无需先验的相机内参知识，同时也能计算相机内参。
- MASt3R [17]：在 DUSTRM 的基础上，专注于局部特征匹配以提高图像匹配精度。Omni3D 利用 MASt3R 作为强大的姿态估计先验。
  - 背景知识：MASt3R 是一种基于学习的方法，用于从图像对中鲁棒地估计相对相机姿态和稠密三维点云。它通过匹配图像中的特征点，然后利用几何约束来解算相机运动。

3.3. 技术演进与差异化分析

技术演进： 三维重建技术从早期的基于几何基元、多平面图像和深度图扭曲等传统方法，逐渐发展到利用深度学习模型（尤其是扩散模型）进行生成式重建。扩散模型因其强大的生成能力，使得从稀疏输入（如单张图像）合成大量 novel views 成为可能。然而，这些生成模型在保证生成视图的几何一致性方面仍面临挑战，尤其是在处理大视角变化的全向场景时。同时，姿态估计技术也在不断进步，从需要已知内参的传统方法发展到 DUSTRM 和 MASt3R 这样无需先验内参，且能鲁棒估计姿态和点云的端到端学习方法。

差异化分析： Omni3D 与相关工作的核心区别和创新点在于：

显式几何约束与协同优化： 区别于 ZeroNVS、ViewCrafter 等主要依赖扩散模型隐式学习几何先验的方法，Omni3D 显式地引入了强大的姿态估计技术（如 MASt3R）作为几何先验，并通过协同的姿态-视图优化 (PVO) 策略，迭代地精炼生成的视图内容和相机姿态。
解决“几何失真和不一致性”： 现有扩散模型（包括 LiftImage3D）虽然能生成 novel views，但在大视角变化时仍难以避免几何失真和视图间不一致。Omni3D 通过最小化三维重投影误差，直接解决了这一关键问题，强制视图在几何上保持连贯。
全向重建能力：LiftImage3D 虽然也关注三维重建，但其主要限于有限视角（如前向视图）。Omni3D 的多阶段渐进式视图生成和优化策略，使其能够实现完整的全向（360度）场景重建，这是现有方法的一个重要空白。
通用性：Omni3D 的 PVO 模块可以作为一种通用的优化策略，应用于不同的多视图扩散模型之上，提升其几何一致性。这在 Ablation study 中得到了验证，PVO 能提升 LiftImage3D 的性能。

简而言之，Omni3D 的核心创新在于其将生成模型（多视图扩散）和几何模型（姿态估计）的优势结合起来，并通过一种迭代协同优化机制来弥补各自的不足，从而在全向三维重建这一更具挑战性的任务上取得了显著突破。

4. 方法论

Omni3D 的目标是实现从单幅图像进行全向三维场景重建。其核心思想是通过一个多阶段的视图生成过程，并结合一个协同的姿态-视图优化 (Pose-View Optimization, PVO) 模块，来确保生成视图的几何一致性和姿态准确性，最终用于构建 3D Gaussian Splatting (3DGS) 模型。

4.1. 方法原理

Omni3D 的方法原理基于以下直觉：

分阶段生成： 从单幅图像直接生成所有全向视图是极其困难的。因此，采用分阶段、渐进式的方式，从初始图像逐步向外扩展视图覆盖范围，可以降低生成难度。
扩散模型作为生成器： 扩散模型在生成高质量、多样化图像方面表现出色，可作为生成 novel views 的强大工具。
几何一致性是关键： 纯粹的生成模型难以保证生成视图之间的几何一致性，这对于准确的三维重建至关重要。
姿态-视图协同优化： 引入外部的姿态估计先验 (如 MASt3R)，并通过最小化三维重投影误差，同时优化视图内容和相机姿态。这种“鸡生蛋，蛋生鸡”式的迭代优化，能够相互促进，最终收敛到几何一致的视图和准确的姿态。

4.2. 核心方法详解 (逐层深入)

4.2.1. 整体框架 (Overall Framework)

Omni3D 的整体框架 (Overall Framework) 如图所示 (原文 Figure 2-(a))，分为四个主要阶段：

fig 2 该图像是论文的框架示意图，展示了Omni3D的整体工作流程，包括四个阶段：输入图像经过多视图深度（MVD）处理、姿态与视图更新、逐步配对和3D高斯点云渲染。图中还包含了 $L_i = M_1 ullet orm{ ilde{x}_i - x_{0 ightarrow i}}_2^2$ 和 $L_0 = M_0 ullet orm{x_0 - ilde{x}_0}_2^2$ 的公式，描述了3D与2D的优化过程。

图 (a) 展示了 Omni3D 方法的整体框架。Omni3D 通过三个阶段在全向空间生成新颖视图。在每个阶段中，生成的视图都会由姿态-视图优化 (PVO) 模块进行优化，该模块逐步应用成对迭代的 PVO 过程来精炼视图内容和姿态估计。这缓解了生成新颖视图中的几何失真和不一致性，从而为最终阶段使用 3DGS 表示全向三维场景提供了便利。图 (b) 展示了所提出的成对迭代姿态-视图优化 (PVO) 模块。对于每个视图对，此模块首先估计初始相机姿态和内参，然后通过最小化参考视图和生成视图之间的 3D 重投影误差，过拟合一个轻量级网络以进行生成视图的 3D 和 2D 优化。一旦优化损失收敛，相机姿态和相机内参就会更新。这个过程迭代重复，以协同精炼视图及其对应的姿态。

阶段 I (Stage I)：
- 从单个输入图像 ( $\clubsuit$ ) 开始，使用一个多视图扩散 (Multi-View Diffusion, MVD) 模型生成一组初始的 novel views ( $\textcircled{c}$ ).
- 这些视图沿四个主要轨道（左、右、上、下）生成，以大致覆盖相对于输入图像的前半球。
- 随后，将提出的姿态-视图优化 (PVO) 模块应用于这些生成的视图。PVO 模块协同精炼估计的相机姿态并修正生成的视图内容，以减轻初始 MVD 输出中固有的几何失真和不一致性。
- 在此 PVO 过程中，相机内参 ( $K$ ) 也被计算出来 [43]。
阶段 II (Stage II)：
- 本阶段侧重于横向扩展视图覆盖范围。
- 从阶段 I 生成的前半球边缘的关键视图（例如，最左和最右的视图，表示为 $\clubsuit$ ）作为 MVD 模型的新条件输入。
- 此步骤合成额外的 novel views ( $\textcircled{d}$ )，将其扩展到左半球和右半球。
- 这些新生成的视图随后进行 PVO 优化，以确保其几何准确性和一致性。
阶段 III (Stage III)：
- 本阶段处理后半球，以实现完全的全向覆盖。
- 使用最靠后的视图 (16) 作为条件，MVD 模型合成最后一组 novel views (15)，以完成全向场景表示。
- 与前几个阶段一样，这些视图也经过 PVO 模块的精心处理。
- 完成此阶段后，即可获得一组全面、几何一致且姿态准确的全向视图。
阶段 IV (Stage IV)：
- 将所有经过 PVO 优化的视图及其精炼后的相机姿态和内参集合起来，用于重建三维场景。
- 具体而言，使用这些视图训练一个三维高斯泼溅 (3D Gaussian Splatting, 3DGS) 模型。
- 生成的 3DGS 模型能够自由地以全向角度渲染 novel views。

4.2.2. 多视图扩散 (Multi-View Diffusion, MVD)

Omni3D 默认实现遵循 [37]，采用经过 LoRA 微调的 CogVideoX [48] 作为 MVD 模型。
这些模型被配置为每个轨道生成 48 个 novel views，此外还有原始输入视图。
MVD 模型在 DL3DV-10K 数据集 [19] 中精心选择的样本上进行训练，并严格分离训练集和测试集。
值得注意的是，Omni3D 的有效性不依赖于特定的 MVD 模型选择，并且在不同的 MVD 主干网络 (backbones) 上具有泛化能力，这在实验部分 4.3 得到了验证。

4.2.3. 姿态-视图优化 (Pose-View Optimization, PVO)

PVO 模块是 Omni3D 的核心组件，它采用渐进式配对方案系统地处理生成的 novel views 序列，并结合迭代优化过程来协同精炼视图内容及其对应的相机姿态。

4.2.3.1. 渐进式配对 (Progressive Pairing)

渐进式优化过程应用于每个视图生成轨道 (orbit)。
以单个轨道（例如，阶段 I 中的右轨道）为例：
- 设 $x_0$ 为轨道的初始输入视图， $\{\boldsymbol{x}_i\}_{i=1}^{I}$ 表示沿此轨道生成的 $I$ 个 novel views 序列。
- 优化以滑动窗口 (sliding window) 方式进行。
- 初始阶段： $x_0$ 作为参考视图，与前 $N$ 个生成的 novel views $\boldsymbol{x}_i\}_{i=1}^{N}$ 进行配对。
- 对于每个配对 $(x_0, x_i)$ ，其中 $i \in \{1, \dots, N\}$ ，novel view $x_i$ 经过成对迭代 PVO（详见下文 4.2.3.2）。此步骤产生一个优化后的视图 $\hat{x}_i$ 及其对应的精炼姿态 $\hat{p}_i$ 。
- 滑动窗口： 在这最初的 $N$ 个视图优化完成后，第 $N$ 个优化视图 $\hat{x}_N$ （及其姿态 $\hat{p}_N$ ）成为新的参考视图。
- 这个新的参考视图 $\hat{x}_N$ 随后与后续 $N$ 个视图块进行配对，即 $(\hat{x}_N, x_{N+i})$ ，其中 $i \in \{1, \dots, N\}$ 。这些配对再经历相同的 PVO 过程。
- 这种渐进式的滑动窗口优化方案持续进行，直到轨道内的所有 $I$ 个生成视图都被处理和精炼。
权衡考虑：
- 若始终使用全局初始输入视图作为所有配对的参考，会导致视图点差异 (viewpoint disparities) 越来越大，挑战姿态估计的鲁棒性和 PVO 的有效性。
- 若使用紧邻的前一个优化视图 $\hat{x}_{i-1}$ 作为当前视图 $\boldsymbol{x}_i$ 的参考，可能会导致误差沿轨道生成路径累积和传播。
Omni3D 的解决方案： 经验性地将窗口大小 $N$ 设置为 $I / 4$ 。对于默认设置下每个轨道生成 $I=48$ 个视图， $N$ 因此设置为 12。这确保了参考视图与优化窗口内任何目标视图之间的最大角度差保持可控（例如，在默认设置下约为 $22.5^{\circ}$ ），从而促进了稳定的 PVO 过程。

4.2.3.2. 成对迭代 PVO (Pairwise Iterative PVO)

为了简化符号，以配对 $(x_0, x_i)$ 为例介绍成对迭代 PVO 网络。同样的过程也适用于所有其他配对。

框架 (Framework)： 如图 (原文 Figure 2-(b)) 所示，我们针对每个视图配对 $(x_0, x_i)$ 过拟合 (overfit) 一个轻量级网络 $(\theta_i)$ ，以学习一个 Homography 矩阵 $(\mathbf{H})$ 、一个流图 $(\mathbf{F})$ 和一个残差 $(\mathbf{R})$ ，用于对生成视图 $x_i$ 进行 3D 和 2D 优化 ( $\mathcal{O}$ )。优化后的视图 $\hat{x}_i$ 可以表示为： $\hat{x}_{i} = \mathcal{O}(\pmb{x}_{i},\theta_{i}) = \mathcal{W}(\mathcal{T}(\pmb{x}_{i},\mathbf{H}),\mathbf{F}) + \mathbf{R} \quad (1)$ 其中， $\mathcal{T}(\cdot , \mathbf{H})$ 表示 Homography 变换， $\mathcal{W}(\cdot , \mathbf{F})$ 表示 2D 扭曲 (2D warping)。

轻量级网络 $(\theta_i)$ ： 每个网络 $(\theta_i)$ 是针对每个配对 $(x_0, x_i)$ 以在线训练 (online training) 方式过拟合的，其权重不跨配对共享。
参数初始化： 轻量级网络中的参数被零初始化，除了 Homography 矩阵输出层的偏置 (bias)，其初始输出为 $\mathbf{I}_{3\times 3}$ 。因此，精炼视图 $\hat{\boldsymbol{x}}_i$ 被初始化为输入 $x_i$ ，即： $\hat{\pmb{x}}_{i}^{\mathrm{init}} = \pmb{x}_{i},\quad \mathrm{given}\quad \mathbf{H} = \mathbf{I}_{3\times 3},\mathbf{F} = \mathbf{0},\mathrm{~and~}\mathbf{R} = \mathbf{0}. \quad (2)$
姿态和内参估计：
- 利用 MASt3R [17] 网络生成 $x_0$ 和 $\hat{\boldsymbol{x}}_i$ （初始为 $x_i$ ）的点图 (pointmaps)，分别记作 $P_0$ 和 $\hat{P}_i$ 。这些点图表示在某个世界坐标系中。
- 使用 PnP (Perspective-n-Point) [9, 16] 姿态计算方法，结合 RANSAC [6] 方案，估计相机姿态（从相机到世界坐标系），分别记作 $p_0$ 和 $\hat{p}_i$ 。
- 同时，根据估计的姿态也可以获得相机内参 $K$ [43]，包括焦距 $(f_x, f_y)$ 和主点坐标 $(c_x, c_y)$ 。
三维重投影 (3D Reprojection)：
- 给定输入视图 $x_0$ 、其点图 $P_0$ 、目标视图 $\hat{x}_i$ 的姿态 $\hat{p}_i$ 和相机内参 $K$ ，可以将 $x_0$ 重投影到目标视图的三维空间中。
- 首先，将相机姿态 $\hat{p}_i$ 转换为世界到相机矩阵 $\hat{p}_i'$ ： $\hat{p}_i' = \begin{pmatrix} \hat{R}_i' & \hat{T}_i'\\ \mathbf{0}^T & 1 \end{pmatrix} = \hat{p}_i^{-1} = \begin{pmatrix} \hat{R}_i & \hat{T}_i\\ \mathbf{0}^T & 1 \end{pmatrix}^{-1} \quad (3)$
- 然后，将点图 $P_0$ 变换到目标视图的坐标系： ${\boldsymbol{P_0}}' = \hat{R}_i'{\boldsymbol{P_0}} + \hat{T}_i' \quad (4)$
- 将其重投影到目标视图的二维屏幕坐标 $(u_i, v_i)$ ： $\begin{pmatrix}\tilde{u}_i\\ \tilde{v}_i\\ z_i \end{pmatrix} = K P_0' \mathbb{I} = \begin{pmatrix} f_x & 0 & c_x\\ 0 & f_y & c_y\\ 0 & 0 & 1 \end{pmatrix} \begin{pmatrix} X\\ Y\\ Z \end{pmatrix} ,\quad \mathrm{where~}P_0' = \begin{pmatrix} X\\ Y\\ Z \end{pmatrix} \quad (5)$ 其中， $(u_i, v_i) = (\tilde{u}_i / z_i, \tilde{v}_i / z_i)$ 。
- 最后，将 $P_0$ 中每个三维点的 RGB 值 $x_0$ 映射到其在目标视图中的投影位置 $(u_i, v_i)$ ，同时考虑深度 $Z$ 用于可见性判断和重叠点的混合： $\pmb{x}_{0\to i} = \mathrm{Render}((u_i,v_i),\pmb{x}_0,Z) \quad (6)$
- 类似地，从 $\hat{\boldsymbol{x}}_i$ 到 $x_0$ 的三维重投影 $\hat{\boldsymbol{x}}_{i \to 0}$ 也可以用相同的方式计算。
损失函数 (Loss Function)：
- 获得 $\hat{\boldsymbol{x}}_{i \to 0}$ 和 $\boldsymbol{x}_{0 \to i}$ 后，定义损失函数为： $\mathcal{L} = \underbrace{\mathcal{M}_0 \cdot ||\boldsymbol{x}_0 - \hat{\boldsymbol{x}}_{i \to 0}||_2^2}_{\mathcal{L}_0} + \underbrace{\mathcal{M}_i \cdot ||\hat{\boldsymbol{x}}_i - \boldsymbol{x}_{0 \to i}||_2^2}_{\mathcal{L}_i} \quad (7)$ 其中， $M_0$ 和 $M_i$ 用于掩盖因遮挡而产生的黑色像素。这个损失函数被最小化，以在线训练方式过拟合轻量级网络，从而精炼生成的视图。
- 重要说明： 在训练过程中，MASt3R 网络本身保持不变，但其可微分性 (differentiability) 至关重要，因为它允许误差反向传播。

迭代优化 (Iterative Optimization)：

在 PVO 方法中，采用迭代优化方案来联合优化生成的视图并精炼估计的相机姿态。
初始阶段： 优化开始时， $\hat{\boldsymbol{x}}_i^{\mathrm{init}} = \boldsymbol{x}_i$ ，并计算初始姿态估计 $(p_0, \hat{p}_i)$ 和相机内参。
视图优化： 在给定这些参数的情况下，训练轻量级网络 $\theta_i$ 以优化生成的视图 $\hat{\mathbf{x}}_i$ ，通过最小化公式 (7) 定义的损失函数。在此训练阶段，估计的姿态 $(p_0, \hat{p}_i)$ 和相机内参保持不变，仅优化 $\hat{\boldsymbol{x}}_i$ 。
姿态更新： 一旦视图优化收敛，根据精炼后的视图更新姿态 $p_0$ 和 $\hat{\boldsymbol{p}}_i$ ，以及相机内参。
迭代循环： 更新后的姿态和内参用于下一个迭代中进一步优化 $\hat{\boldsymbol{x}}_i$ 。这种先优化视图再更新姿态和内参，再用更新后的姿态和内参优化视图的循环重复进行，直到估计的姿态收敛。
收敛经验： 实验观察到，估计的姿态在三次更新后（除了初始姿态估计）会持续收敛。因此，在 PVO 方法中，迭代次数设置为 3。

4.2.3.3. 并行性 (Parallelism)

利用 3.3.1 节介绍的配对方案，共享相同参考视图的视图配对的 PVO 过程是相互独立的，这允许显著的计算并行性 (parallelism)。
具体而言：
- 在阶段 I，最多可以并行计算 4N 个配对的 PVO。
- 在阶段 II 和 III，最多可以并发优化 3N 和 2N 个配对。
实验设置： 实验中，一台配备 8 块 NVIDIA A100 GPU 的机器允许并行处理 24 个配对的 PVO。
计算效率： 在 $N=12$ 的情况下，可以并行计算两个轨道的 $N$ 个配对。这样，整个框架在所有阶段仅需要 24 次串行 PVO 计算（阶段 I 为 8 次，阶段 II 为 12 次，阶段 III 为 4 次）。这并未显著增加整体计算时间。

4.2.4. 详细网络架构 (Detailed Network Architecture)

fig 5 该图像是示意图，展示了Omni3D方法中的网络结构及处理流程。左侧的输入包括当前视图 $x_i$ 和参照视图 $x_0$ ，它们经过拼接后输入到轻量网络进行处理。图中包括卷积层和密集层，最终输出由同态矩阵 $H$ 、流向图 $F$ 及残差 $R$ 组成。这一过程有助于实现更加准确的三维重建。

图 5 描绘了 PVO 方法中轻量级网络的详细架构。

输入： reference view $x_0$ 和 current view $x_i$ 经过拼接 (Concatenate) 后作为网络的输入。
卷积层： 网络包含一系列卷积层 ("Conv, filter size, filter number")，其中一些层使用步长为 2 ( $\uparrow^2$ ) 进行下采样。激活函数使用 GeLU (Gaussian Error Linear Unit)。
输出分支：
- Homography 分支： 经过卷积层后，连接一个密集层 (Dense Layer)，输出 8 个节点 $O_1 \sim O_8$ 。它们构成 Homography 矩阵 $\mathbf{H}$ ： $\pmb {\mathrm{\pmb{H}}} = \left( \begin{array}{lll}O_1 & O_2 & O_3\\ O_4 & O_5 & O_6\\ O_7 & O_8 & 1 \end{array} \right). \quad (8)$
- Flow Map 分支： 经过卷积层后，输出一个 flow map $\mathbf{F}$ 。
- Residual 分支： 经过卷积层后，输出一个 residual $\mathbf{R}$ 。
参数初始化： 所有卷积层中的参数和密集层中的权重都零初始化。密集层输出 Homography 矩阵的偏置 (bias) 初始化为 $[1,0,0,0,1,0,0,0]^T$ 。
初始精炼视图： 这样初始化确保了精炼视图 $\hat{\boldsymbol{x}}_i$ 在 PVO 开始时被初始化为其原始输入 $\boldsymbol{x}_i$ ： $\hat{\pmb x}_{i}^{\mathrm{init}} = \pmb{x}_{i},\quad \mathrm{given}\quad \mathbf{H} = \mathbf{I}_{3\times 3},\mathbf{F} = \mathbf{0}, \mathrm{and} \mathbf{R} = \mathbf{0} \quad (9)$

5. 实验设置

5.1. 数据集

Omni3D 在三个不同的数据集上进行了定量评估：

Tanks and Temples [13]：一个用于大规模场景重建的基准数据集，包含真实世界场景的复杂三维模型。
- 特点： 包含户外真实场景，通常用于评估大规模三维重建和多视图立体匹配算法。
Mip-NeRF 360 [1]：一个用于无界反走样神经辐射场的基准数据集，包含 360 度场景，通常用于评估神经渲染和 NVS 算法。
- 特点： 包含复杂、无界的 360 度场景，对 NVS 算法的泛化能力和处理远场内容能力提出挑战。
DL3DV [19]：一个大规模的、基于深度学习的三维视觉场景数据集。
- 特点： 包含 10,000 个场景，专门为深度学习方法设计，用于三维重建和 NVS。
- 选择： 从 DL3DV 中随机选择与 MVD 训练样本不重叠的测试场景。在每个测试样本中，随机选择全向空间中的真实视图 (groundtruth views)。
  
  在 Tanks and Temples 和 Mip-NeRF 360 数据集上，Omni3D 在它们的整个测试集上进行评估。

5.2. 评估指标

评估 Omni3D 的三维场景重建性能是通过渲染 3DGS 模型在与真实视图 (groundtruth views) 对应的相机姿态下的视图，并将这些渲染图像与真实图像进行比较。使用了以下三个常用的图像质量评估指标：

PSNR (Peak Signal-to-Noise Ratio，峰值信噪比)
1. 概念定义： PSNR 是一种衡量图像质量的客观指标，通常用于量化压缩或重建图像与原始图像之间的失真程度。PSNR 值越高，表示图像失真越小，重建质量越好。它基于像素间的误差进行计算，对图像中的细微差异敏感。
2. 数学公式： $\mathrm{PSNR} = 10 \cdot \log_{10} \left( \frac{\mathrm{MAX}_I^2}{\mathrm{MSE}} \right)$ 其中，MSE 为均方误差 (Mean Squared Error)： $\mathrm{MSE} = \frac{1}{mn} \sum_{i=0}^{m-1} \sum_{j=0}^{n-1} [I(i,j) - K(i,j)]^2$
3. 符号解释：
  - $\mathrm{PSNR}$ : 峰值信噪比。
  - $\mathrm{MAX}_I$ : 图像中像素的最大可能值。对于 8 位图像，通常是 255。
  - $\mathrm{MSE}$ : 均方误差。
  - m, n: 图像的行数和列数（高度和宽度）。
  - I(i,j): 原始图像在坐标 (i,j) 处的像素值。
  - K(i,j): 经过压缩或重建的图像在坐标 (i,j) 处的像素值。
SSIM (Structural Similarity Index Measure，结构相似性指标) [44]
1. 概念定义： SSIM 是一种感知图像质量评估指标，旨在更好地模拟人眼对图像质量的感知。它从亮度 (luminance)、对比度 (contrast) 和结构 (structure) 三个方面来衡量两幅图像的相似性。SSIM 值越接近 1，表示两幅图像越相似，重建质量越好。
2. 数学公式： $\mathrm{SSIM}(x,y) = [l(x,y)]^{\alpha} \cdot [c(x,y)]^{\beta} \cdot [s(x,y)]^{\gamma}$ 其中： $l(x,y) = \frac{2\mu_x\mu_y + C_1}{\mu_x^2 + \mu_y^2 + C_1}$ $c(x,y) = \frac{2\sigma_x\sigma_y + C_2}{\sigma_x^2 + \sigma_y^2 + C_2}$ $s(x,y) = \frac{\sigma_{xy} + C_3}{\sigma_x\sigma_y + C_3}$ 通常， $\alpha = \beta = \gamma = 1$ ，且 $C_3 = C_2 / 2$ 。
3. 符号解释：
  - $\mathrm{SSIM}(x,y)$ : 图像 $x$ 和 $y$ 之间的结构相似性指标。
  - l(x,y): 亮度比较函数。
  - c(x,y): 对比度比较函数。
  - s(x,y): 结构比较函数。
  - $\mu_x, \mu_y$ : 图像 $x$ 和 $y$ 的平均像素值。
  - $\sigma_x, \sigma_y$ : 图像 $x$ 和 $y$ 的标准差。
  - $\sigma_{xy}$ : 图像 $x$ 和 $y$ 的协方差。
  - $C_1, C_2, C_3$ : 用于避免分母为零的常数，通常设置为 $(K_1 \cdot L)^2$ 和 $(K_2 \cdot L)^2$ ，其中 $L$ 是像素值的动态范围（如 255）， $K_1, K_2$ 是小常数（如 0.01, 0.03）。
  - $\alpha, \beta, \gamma$ : 调整三个分量重要性的参数。
LPIPS (Learned Perceptual Image Patch Similarity，学习型感知图像块相似度) [52]
1. 概念定义： LPIPS 是一种基于深度学习的感知相似度指标，它使用预训练的深度卷积神经网络（如 AlexNet、VGG 等）提取图像特征，然后计算这些特征之间的距离来衡量图像相似性。LPIPS 旨在更好地与人类的感知判断对齐。LPIPS 值越低，表示两幅图像在感知上越相似，重建质量越好。
2. 数学公式： $\mathrm{LPIPS}(x, y) = \sum_l \frac{1}{H_l W_l} \sum_{h,w} \|w_l \odot (\phi_l(x)_{h,w} - \phi_l(y)_{h,w})\|_2^2$
3. 符号解释：
  - $\mathrm{LPIPS}(x, y)$ : 图像 $x$ 和 $y$ 之间的 LPIPS 距离。
  - $l$ : 指示深度学习网络中的层索引。
  - $H_l, W_l$ : 深度学习网络第 $l$ 层输出特征图的高度和宽度。
  - $\phi_l(x)$ : 预训练深度学习网络（如 AlexNet）第 $l$ 层激活输出对图像 $x$ 的特征提取。
  - $w_l$ : 在每个通道上学习到的权重，用于缩放不同层的特征差异。
  - $\odot$ : 元素级乘法。
  - $\|\cdot\|_2^2$ : $L_2$ 范数的平方，表示欧几里得距离。

5.3. 对比基线

Omni3D 与以下几个最先进的开源方法进行了性能比较：

ZeroNVS [33]：一种基于扩散模型的方法，用于从单张图像生成 360 度视图。
ViewCrafter [51]：利用视频扩散模型进行高保真 novel view synthesis。
LiftImage3D [3]：利用视频生成先验，将单张图像提升到 3D Gaussian 表示，缓解了视图不一致性。

5.4. 评估协议 (Evaluation Protocol)

Omni3D 以 3DGS 形式表示重建的三维场景。
坐标对齐： 为了评估，需要将真实场景的 3D 坐标与 MASt3R (我们方法中使用的姿态估计技术) 的坐标对齐。
- 将每个真实视图与 Omni3D 中使用的四个特定参考视图（图 2-(a) 中的 $\textcircled{\infty}$ 和 $\dot{\mathbf{x}}$ ）关联起来。
- 然后使用 MASt3R 估计每个真实视图的姿态。在此姿态估计过程中，保持 Omni3D 的四个选定参考视图的姿态固定不变。
- 通过这种方式，有效地将真实视图的估计姿态与建立的 MASt3R 坐标系统对齐。
渲染与比较： 这种对齐允许在真实视图的姿态下从 3DGS 渲染图像进行评估。
训练/测试分离： 关键在于，在对齐真实视图坐标后，真实视图不用于 3DGS 的训练，而仅用于评估。

6. 实验结果与分析

6.1. 核心结果分析

fig 4 该图像是一个比较图，展示了不同方法在3D场景重建中的效果，包括ZeroNVS、ViewCrafter、LiftImage3D、我们的Omni3D以及Groundtruth。每一列的内容展示了各自方法生成的结果，以可视化的方式比较了几种技术在重建时的表现差异。

图 3 展示了 Omni3D 和对比方法渲染视图的视觉结果。

从视觉结果可以看出：

ZeroNVS 和 ViewCrafter： 存在明显的几何失真和模糊，特别是远处物体和纹理细节。
LiftImage3D： 相比前两者有所改善，但仍可见一些不自然感和几何不精确。

Our Omni3D： 渲染的视图质量显著更高，具有更少的失真和伪影，且几何准确性更接近真实图像 (Groundtruth)。这表明 Omni3D 成功解决了扩散模型在生成 novel views 时的几何一致性问题。

以下是原文 Table 1 的结果：

Methods	Tanks and Temples			Mip-NeRF 360			DL3DV
Methods	PSNR $\uparrow$	SSIM $\uparrow$	LPIPS $\downarrow$	PSNR $\uparrow$	SSIM $\uparrow$	LPIPS $\downarrow$	PSNR $\uparrow$	SSIM $\uparrow$	LPIPS $\downarrow$
ZeroNVS [33]	12.67	0.4647	0.7506	13.40	0.2413	0.8299	11.28	0.4725	0.7074
ViewCrafter [51]	13.91	0.4714	0.5886	14.06	0.2420	0.7649	16.61	0.6185	0.3883
LiftImage3D [3]	14.85	0.4841	0.5781	14.27	0.2491	0.6479	16.21	0.6020	0.4844
Our Omni3D	16.30	0.5308	0.5166	15.89	0.2859	0.6369	17.08	0.6649	0.3348

定量总结： Omni3D 在所有评估数据集和指标上均持续优于所有对比方法。

Tanks and Temples 数据集： Omni3D 的 PSNR 相比最近的 LiftImage3D 显著提升 1.45 dB，相比 ViewCrafter 提升约 2.4 dB。在感知质量指标 SSIM 和 LPIPS 上也明显优于对比方法。
Mip-NeRF 360 数据集： Omni3D 的 PSNR 结果比 LiftImage3D 提升 1.62 dB，并且实现了卓越的感知质量。
DL3DV 数据集：Omni3D 的 PSNR 结果比 LiftImage3D 提升 0.87 dB，并且实现了卓越的感知质量。

这些数值结果与视觉结果一致，有力验证了 Omni3D 的有效性。

用户研究 (User Study)： 论文还进行了一项用户研究，邀请 10 名非专业用户对重建的三维场景进行评分 (0-10分，0为最差，10为完美)。用户通过观看由 Omni3D 和对比方法生成的 3DGS 模型渲染的全向轨迹视频进行评分。

以下是原文 Table 2 的结果：

Methods	Tanks and Temples	Mip-NeRF 360	DL3DV
ZeroNVS [33]	1.0	1.3	0.8
ViewCrafter [51]	4.3	4.7	7.4
LiftImage3D [3]	5.1	4.5	5.8
Our Omni3D	7.6	7.9	8.2

用户研究结果显示，Omni3D 的感知质量表现明显优越，这与定量数值结果一致。

6.2. 消融实验/参数分析

fig 3 该图像是示意图，展示了在进行相机姿态优化（PVO）前后对同一物体（雕像）的视图重建效果对比。左侧为优化前的视图，显示了参考视图 $x_0$ 和视图 $x_i$ 之间的重建错误及其对应的三维重投影。右侧为优化后的视图，体现了经过优化后更为一致和清晰的重建结果，包括重新计算的参考视图 $\hat{x}_0$ 和视图 $\hat{x}_i$ 。整体上，图中展示了优化手段对三维重建质量的显著提升。

图 4 展示了 PVO 方法前 (左) 和后 (右) 三维重投影视图的消融视觉示例。

PVO 前 (左侧)： 重投影图像 $x_{i \to 0}$ 和 $x_{0 \to i}$ 在物体位置上与目标视图存在明显差异。例如，在 $x_0$ 和 $x_{i \to 0}$ 中女性头部与背景的相对位置，以及在 $x_i$ 和 $x_{0 \to i}$ 中男性头部与树的相对位置（红色方框突出显示）。这表明这些视图存在几何不一致性。

PVO 后 (右侧)： 三维重投影视图中的几何误差得到了有效纠正，反映了优化视图 $x_i$ 与参考视图 $x_0$ 之间一致性的提高。这表明 PVO 有效解决了视图间的几何不一致问题。

以下是原文 Table 3 的结果：

	PSNR $\uparrow$	SSIM $\uparrow$	LPIPS $\downarrow$
Omni3D w/o PVO	15.56	0.5198	0.5346
Omni3D	16.30	0.5308	0.5166
LiftImage3D [3]	14.85	0.4841	0.5781
LiftImage3D + PVO	15.28	0.4964	0.5446

PVO 模块的有效性：

Omni3D (w/o PVO) vs. Omni3D： 引入 PVO 后，Omni3D 在 PSNR 上获得了 0.74 dB 的提升，SSIM 和 LPIPS 性能也更好。这量化了 PVO 在提高几何和内容一致性方面的有效性。
LiftImage3D vs. $LiftImage3D + PVO$ ： 将 PVO 应用于 LiftImage3D (其 MVD 使用 MotionCtrl [45])，PSNR 提升了 0.37 dB，SSIM 和 LPIPS 也有所改善。这表明 PVO 具有良好的通用性，可以提升不同 MVD 基线的性能。

6.2.1. 关于渐进式配对中 $N$ 的消融研究

以下是原文 Table 6 的结果：

	PSNR $\uparrow$	SSIM $\uparrow$	LPIPS $\downarrow$
w/o PVO	15.56	0.5198	0.5346
$N=1$	16.24	0.5305	0.5170
$N=12$	16.30	0.5308	0.5166
$N=24$	16.19	0.5281	0.5179
$N=48$	15.98	0.5206	0.5254

在渐进式配对方案中，窗口大小 $N$ 决定了参考视图的更新频率。实验结果表明，设置 $N=12$ 实现了最佳性能。

$N$ 过大 (例如 $N=24$ 或 $N=48$ )： 导致参考视图与目标视图之间的视点差异过大，损害了姿态估计的鲁棒性，降低了 PVO 的效果。
$N$ 过小 (例如 $N=1$ )： 即使用前一个优化视图作为参考，可能导致误差沿生成路径累积和传播。此外， $N=1$ 也显著限制了并行性。
$N=12$ 的合理性： 这种设置在视图差异管理和误差累积之间取得了平衡，同时支持并行计算，从而实现了最佳性能。

6.2.2. 关于 PVO 中姿态更新迭代次数的消融研究

以下是原文 Table 7 的结果：

Iterations	PSNR $\uparrow$	SSIM $\uparrow$	LPIPS $\downarrow$
0 (w/o PVO)	15.56	0.5198	0.5346
1	15.62	0.5207	0.5325
2	15.91	0.5254	0.5296
3	16.30	0.5308	0.5166
4	16.33	0.5311	0.5162

实验结果表明，在初始姿态估计基础上，姿态更新迭代 3 次后性能趋于收敛。

从 0 次迭代（无 PVO）到 3 次迭代，PSNR 显著提升。
从 3 次迭代到 4 次迭代，性能提升微乎其微。
这验证了将迭代次数设置为 3 的合理性。

6.3. 时间消耗 (Time Consumption)

以下是原文 Table 4 的结果：

	MVD	Pose calc.	3DGS	Total
ZeroNVS [33]	-	-	-	133.7 min
ViewCrafter [51]	2.1 min	-	12.8 min	14.9 min
LiftImage3D [3]	3.5 min	1.5 min	67.4 min	72.4 min
Our Omni3D	10.8 min	10.5 min	12.8 min	34.1 min

在 8 块 NVIDIA A100 GPU 上的时间消耗分析：

ZeroNVS 由于其 NeRF 蒸馏 (distillation) 过程非常耗时，总耗时超过 2 小时。
Omni3D 采用了标准的 3DGS，其训练速度远快于 LiftImage3D 中使用的失真感知 3DGS。
得益于 Omni3D 的并行化方案 (Section 3.3.3)，PVO 模块并未显著增加总时间消耗。并行 PVO 耗时 10.5 分钟，甚至少于 3DGS 优化时间。

总耗时： Omni3D 整个框架进行一次全向 3DGS 重建仅需约 34.1 分钟，明显快于 ZeroNVS 和 LiftImage3D。所有对比方法都在相同的硬件上以最大并行度运行。

以下是原文 Table 5 的结果：

	MVD	Pose calc.	3DGS	Total
ZeroNVS [33]	-	-	-	13.7 min
ViewCrafter [51]	4.3 min	-	12.8 min	17.1 min
LiftImage3D [3]	12.0 min	1.5 min	67.4 min	80.9 min
Our Omni3D	21.6 min	83.9 min	12.8 min	118.3 min

在单个 A100 GPU 上的时间消耗分析：

当并行能力受限于单个 A100 GPU 时，Omni3D 的计算时间比 LiftImage3D 多 46.2%。这主要是因为 PVO 的并行优势无法完全发挥，导致姿态计算时间显著增加。
即便如此，Omni3D 仍比 ZeroNVS (CVPR'24) 更快。
优势： 尽管在单 GPU 上耗时增加，Omni3D 能够重建整个全向 3D 空间，而不仅仅是前向视图，并且实现了更好的重建质量。

7. 总结与思考

7.1. 结论总结

本论文介绍了 Omni3D，一个旨在提高扩散模型生成视图几何准确性，以实现鲁棒全向三维高斯泼溅 (3D Gaussian Splatting) 的新型框架。其核心创新在于协同姿态-视图优化 (PVO) 过程。通过利用 MASt3R 等技术提供的几何先验并最小化三维重投影误差，Omni3D 迭代地精炼生成的视图内容及其估计的相机姿态。这一过程产生了一组几何一致且姿态准确的新颖视图，为构建显式 3DGS 提供了高质量的基础。实验结果表明，Omni3D 在单幅图像全向三维场景重建方面实现了最先进的性能，相比现有方法，在广泛的视角范围内显著提升了渲染质量。这项工作为从单幅图像准确高质量地重建复杂全向环境迈出了重要一步。

7.2. 局限性与未来工作

论文指出了当前 3D 重建技术（包括 Omni3D、ViewCrafter 和 LiftImage）的共同局限性以及未来的发展方向：

当前方法的局限性：
- 多阶段过程和间接性： 现有方法大多采用多阶段过程，将 2D novel view synthesis 作为中间步骤，然后才生成 3DGS 重建。这种间接方法引入了计算开销，并可能因 2D 合成阶段引入的潜在错误或不一致性而限制最终 3D 输出的保真度。整体效率和质量受限于 2D 视图合成组件的性能。
未来工作方向：
- 直接 3DGS 生成： 强大的基础模型 (foundation models) 有望实现更直接的范式，即训练模型直接从单个 2D 图像输入生成 3DGS 或其他复杂 3D 格式。这将绕过计算成本高昂的 2D 中间步骤，显著提高 3D 重建质量和真实感，并大幅减少推理时间，使 3D 重建更快、更易于访问。
- 概念驱动的 4D 内容生成： 更进一步，世界基础模型 (world foundation models) 和 AI 智能体 (AI agents) 的发展预示着从简单的、高级别的提示直接生成复杂的 4D (3D over time) 内容。这将代表从数据驱动重建到概念驱动生成的范式转变，AI 将根据抽象指令理解和创建动态 3D 环境和物体。这些雄心勃勃的方向，从直接 3DGS 生成到整体 4D 内容创建，代表了人工智能和计算机图形学未来研究中最重要和令人兴奋的途径，有望释放数字内容创建和空间计算的空前能力。

7.3. 个人启发与批判

个人启发：

协同优化的力量： Omni3D 的 PVO 模块是其成功的关键。它深刻地启发我们，在复杂的多模态生成任务中，将生成模型（MVD）和几何模型（姿态估计）的优势结合起来，并通过迭代的协同优化来弥补各自的弱点，往往能取得比单一模型更优异的效果。这种“视图与姿态相互促进”的思想，在其他需要跨模态一致性的任务中也可能具有广泛的应用前景。
渐进式策略的有效性： 全向重建的挑战性在于视角变化巨大。Omni3D 的多阶段渐进式视图生成策略，从易到难，逐步扩展覆盖范围，有效地分解了复杂问题。这种策略对于处理大规模、高复杂度的生成任务具有通用指导意义。
工程与算法的平衡：Omni3D 在并行性上的设计，使得复杂的迭代优化过程在实际部署中能够保持可接受的效率，这体现了算法设计者在理论效果和实际工程可行性之间的良好平衡。

批判：

对 MASt3R 的依赖：Omni3D 的性能高度依赖于外部姿态估计网络 MASt3R 的准确性和鲁棒性。如果 MASt3R 在某些复杂或低纹理场景下表现不佳，可能会直接影响 PVO 过程的收敛和最终重建质量。这使得模型并非完全端到端，且引入了对外部工具的依赖。
计算成本仍较高： 尽管 Omni3D 在多 GPU 环境下表现出较好的效率，但在单 GPU 环境下其计算时间仍然显著高于 LiftImage3D。这对于资源受限的用户或设备（如移动设备）而言，可能仍然是一个瓶颈。未来工作可能需要进一步优化 PVO 模块的计算效率。
“过拟合”轻量级网络： PVO 模块为每个视图对“过拟合”一个轻量级网络。虽然这保证了对特定视图对的最佳优化，但其泛化能力可能受到限制，并且在处理海量视图时，管理和训练这些独立的小网络可能仍存在一些工程上的挑战。
泛化到真实世界复杂场景：Tanks and Temples 等数据集虽然复杂，但真实世界场景的多样性和不可预测性远超数据集。例如，动态物体、透明/反射表面、极端光照条件等，可能会对 MVD 的视图生成和 MASt3R 的姿态估计带来新的挑战，从而影响 Omni3D 的性能。
未来展望的挑战： 论文提出的未来方向，如直接 3DGS 生成和 4D 内容生成，虽然令人兴奋，但实现这些目标需要解决从 2D 到 3D/4D 表示的巨大鸿沟，尤其是如何从高层语义提示中解耦出精细几何和动态信息，这仍是当前 AI 领域面临的巨大挑战。

相似论文推荐

基于向量语义检索推荐的相关论文。

暂时没有找到相似论文。