论文状态:已完成

LucidFusion: Reconstructing 3D Gaussians with Arbitrary Unposed Images

发表:2024/10/21
原文链接PDF 下载
价格:0.10
价格:0.10
已有 3 人读过
本分析由 AI 生成,可能不完全准确,请以原文为准。

TL;DR 精炼摘要

本文提出了LucidFusion框架,通过引入相对坐标图(RCM)将三维重建重新定义为图像到图像的翻译任务,解决了对相机位姿的依赖问题。RCG作为RCM的扩展,确保了几何与位姿恢复的一致性。该方法支持任意数量未带位姿图像,能快速生成高质量三维重建结果。

摘要

Recent large reconstruction models have made notable progress in generating high-quality 3D objects from single images. However, current reconstruction methods often rely on explicit camera pose estimation or fixed viewpoints, restricting their flexibility and practical applicability. We reformulate 3D reconstruction as image-to-image translation and introduce the Relative Coordinate Map (RCM), which aligns multiple unposed images to a main view without pose estimation. While RCM simplifies the process, its lack of global 3D supervision can yield noisy outputs. To address this, we propose Relative Coordinate Gaussians (RCG) as an extension to RCM, which treats each pixel's coordinates as a Gaussian center and employs differentiable rasterization for consistent geometry and pose recovery. Our LucidFusion framework handles an arbitrary number of unposed inputs, producing robust 3D reconstructions within seconds and paving the way for more flexible, pose-free 3D pipelines.

思维导图

论文精读

中文精读

1. 论文基本信息

1.1. 标题

LucidFusion: Reconstructing 3D Gaussians with Arbitrary Unposed Images (LucidFusion: 使用任意未定姿态图像重建三维高斯)

1.2. 作者

Hao He (何昊)1,2^{1,2*}, Yixun Liang (梁一勋)2^{2*}, Luozhou Wang (王罗舟)1^{1}, Yuanhao Cai (蔡元浩)3^{3}, Xinli Xu (徐昕力)1^{1}, Hao-Xiang Guo (郭浩翔)4^{4}, Xiang Wen (文翔)4^{4}, Yingcong Chen (陈颖聪)1,2^{1,2‡}

  • 1^{1} 香港科技大学(广州) (HKUST(GZ))
  • 2^{2} 香港科技大学 (HKUST)
  • 3^{3} 约翰霍普金斯大学 (Johns Hopkins University)
  • 4^{4} SkyWork AI

1.3. 发表期刊/会议

该论文发布在 arXiv 预印本服务器上。arXiv 是一个开放获取的预印本平台,研究人员在此分享他们的研究成果,通常在正式期刊或会议发表之前。这表明该论文尚未经过同行评审的最终版本,但已公开发布供社区讨论和参考。

1.4. 发表年份

2024年

1.5. 摘要

当前大型三维重建模型在从单张图像生成高质量三维物体方面取得了显著进展。然而,现有重建方法往往依赖于显式 相机姿态 (camera pose) 估计或固定视角,这限制了它们的灵活性和实际应用性。本文将三维重建重新定义为 图像到图像转换 (image-to-image translation) 问题,并引入了 相对坐标图 (Relative Coordinate Map, RCM),它可以在无需姿态估计的情况下将多个未定姿态图像对齐到主视图。虽然 RCM 简化了过程,但其缺乏全局三维监督可能导致噪声输出。为解决此问题,本文提出了 相对坐标高斯 (Relative Coordinate Gaussians, RCG) 作为 RCM 的扩展,它将每个像素的坐标视为 高斯 (Gaussian) 中心,并利用 可微分光栅化 (differentiable rasterization) 来实现几何和姿态的一致性恢复。作者提出的 LucidFusion 框架能够处理任意数量的未定姿态输入,在数秒内生成鲁棒的三维重建结果,为更灵活、无姿态的三维管道铺平了道路。

1.6. 原文链接

2. 整体概括

2.1. 研究背景与动机

  • 论文试图解决的核心问题是什么? 现有的三维重建方法通常需要精确的 相机姿态 (camera pose) 信息或要求输入图像来自固定的视角,这极大地限制了其在实际应用中的灵活性和用户体验。本文旨在解决从任意、未定姿态的稀疏图像输入中,高效、高质量地进行三维物体重建和姿态估计的难题。

  • 为什么这个问题在当前领域是重要的?现有研究存在哪些具体的挑战或空白(Gap)?

    • 三维内容需求的增长: 数字化三维物体在建筑、动画、游戏、虚拟现实和增强现实等领域日益重要,但高质量三维内容的生产依然耗时耗力,需要专业知识。
    • 姿态估计的挑战: 获取准确的输入视图姿态并非易事。传统的 多视角立体匹配 (Multi-View Stereo, MVS) 方法依赖于 运动恢复结构 (Structure-from-Motion, SfM) 工具(如 COLMAP)进行预先姿态估计,或者要求固定视角的输入。这种依赖性限制了重建流程的灵活性。
    • 现有方法的局限:
      • 一些 大型重建模型 (Large Reconstruction Model, LRM) 和基于扩散模型的方法虽然减少了对姿态的依赖,但往往需要固定视角(如正面、背面、左侧、右侧),不适用于任意视角输入。
      • 部分无姿态方法通过网络预测姿态或使用 PnP 解算器 (PnP solver),但通常需要额外的优化过程或对输入图像数量有严格限制。
      • 规范坐标图 (Canonical Coordinate Map, CCM) 等中间表示方法存在“方向”信息的模糊性,导致难以保持不同视图间的一致性。
      • 直接将重建问题建模为 图像到图像转换 (image-to-image translation) 缺乏三维先验监督,容易产生不一致和噪声的输出。
  • 这篇论文的切入点或创新思路是什么? 本文将三维重建问题重新定义为 图像到图像转换,并提出了一种新的中间表示——相对坐标图 (Relative Coordinate Map, RCM),以解决 CCM 的局限性。在此基础上,进一步引入 相对坐标高斯 (Relative Coordinate Gaussians, RCG),将每个像素的坐标视为 三维高斯 (3D Gaussian) 的中心,并通过 可微分光栅化 (differentiable rasterization) 和渲染损失来强制执行全局三维一致性,从而实现无姿态的鲁棒三维重建和姿态恢复。

2.2. 核心贡献/主要发现

  • 提出了新的中间表示 RCM 及其扩展 RCG 作者重新审视了三维重建问题,发现 CCM 在处理多视角输入时存在方向模糊性。为了解决这个问题,引入了 RCM,它将所有视图的坐标转换到选定的“主”视图坐标系下,从而有效缓解了方向模糊性。进一步,将 RCM 扩展为 RCG,将每个像素的坐标视为 高斯 (Gaussian) 的中心,并添加了尺度、旋转和透明度等 高斯 参数。
  • 开发了 LucidFusion 框架: 该框架能够高效地将输入图像映射到 RCG。通过这种方式,它能够将不同视图间的像素级对应关系嵌入到主视图中,从而避免了显式的 姿态估计 (pose estimation) 步骤。LucidFusion 采用两阶段训练策略,首先学习鲁棒的 RCM 映射,然后通过 可微分渲染 (differentiable rendering) 进一步细化 RCG,以确保三维一致性。
  • 实现了高质量、高灵活性的三维重建和姿态估计:
    • 鲁棒的无姿态输入处理: LucidFusion 能够处理任意数量的未定姿态输入图像,在数秒内完成鲁棒的三维重建。
    • 卓越的重建质量: 在稀疏视图设置下,相比现有基线方法,LucidFusionPSNRSSIMLPIPS 等指标上均表现出显著优势。
    • 准确的姿态恢复: 框架能够直接从 RCG 中恢复 相机姿态 (camera poses),并在姿态预测任务中持续优于其他前馈和基于优化的方法。
    • 通用性和兼容性: LucidFusion 可以无缝集成到现有的 单图像到三维 (single-image-to-3D) 管道中,进一步增强其应用范围。

3. 预备知识与相关工作

3.1. 基础概念

为了理解 LucidFusion 论文,我们需要掌握以下几个关键概念:

  • 三维重建 (3D Reconstruction):

    • 概念定义: 三维重建 是指通过二维图像(通常是多张不同视角的图像)来推断和构建场景或物体的三维几何形状、纹理和外观信息的过程。其目标是创建一个能够从任意新视角渲染出真实感图像的三维模型。
    • 在本文中的意义: 传统的 三维重建 严重依赖 相机姿态 (camera pose)。本文旨在通过 图像到图像转换 (image-to-image translation) 的方式,摆脱这种对 相机姿态 的显式依赖。
  • 相机姿态 (Camera Pose):

    • 概念定义: 相机姿态 描述了相机在三维世界坐标系中的位置(平移向量)和方向(旋转矩阵或四元数)。它是将三维世界点投影到二维图像平面的关键参数。
    • 在本文中的挑战: 获取准确的 相机姿态 往往需要复杂的校准过程或 运动恢复结构 (Structure-from-Motion, SfM) 算法,这增加了 三维重建 的复杂性和限制了其灵活性。
  • 图像到图像转换 (Image-to-Image Translation):

    • 概念定义: 图像到图像转换 是一类 计算机视觉 (computer vision) 任务,旨在学习一个映射函数,将输入图像从一个域转换到另一个域,例如从 灰度图 (grayscale image)彩色图 (color image),或者从 边缘图 (edge map)真实图像 (photorealistic image)。通常使用 卷积神经网络 (Convolutional Neural Network, CNN)生成对抗网络 (Generative Adversarial Network, GAN) 实现。
    • 在本文中的应用: LucidFusion三维重建 任务重新定义为 图像到图像转换,即将多张输入图像直接映射到一个中间表示(RCMRCG),从而隐式地学习三维信息。
  • 规范坐标图 (Canonical Coordinate Map, CCM):

    • 概念定义: 规范坐标图 是一种中间表示,它为图像中的每个像素预测其在物体 规范坐标系 (canonical coordinate system) 中的三维坐标。规范坐标系 是一个与物体自身对齐的局部坐标系,通常其原点在物体中心,轴与物体的主轴对齐。
    • 在本文中的局限: 论文指出 CCM 难以回归,因为“方向”信息隐式地嵌入在颜色空间中,并且这种 方向 信息定义不明确,导致在不同视图间难以保持一致性(参见原文 Figure 2)。
  • 相对坐标图 (Relative Coordinate Map, RCM):

    • 概念定义: RCMLucidFusion 提出的 CCM 的改进。它不是将像素坐标转换到全局的 规范坐标系,而是转换到一个选定的“主”相机视图的 相机坐标系 (camera coordinate system) 中。
    • 在本文中的优势: 这种相对转换解决了 CCM 的方向模糊性问题,使得模型更容易学习不同视图间的 2D-3D 对应关系,从而保持三维一致性(参见原文 Figure 2)。
  • 三维高斯 (3D Gaussians) / 三维高斯泼溅 (3D Gaussian Splatting, 3DGS):

    • 概念定义: 三维高斯泼溅 是一种新兴的三维场景表示和渲染技术。它将场景中的物体表示为一系列带有颜色、位置、尺度、旋转和透明度等参数的三维 高斯 分布。通过高效的 可微分光栅化 (differentiable rasterization) 过程,可以快速从任意视角渲染出高质量的图像。
    • 在本文中的作用: LucidFusionRCM 扩展为 相对坐标高斯 (Relative Coordinate Gaussians, RCG),利用 三维高斯 的优势来作为更鲁棒、更具三维一致性的中间表示,并通过 可微分光栅化 进行渲染监督,进一步提升重建质量。
  • 可微分光栅化 (Differentiable Rasterization):

    • 概念定义: 光栅化 是将三维几何体投影到二维屏幕空间并填充像素的过程。可微分光栅化 意味着 光栅化 过程是可导的,允许 梯度 (gradient) 从渲染图像反向传播回三维模型(如 三维高斯 的参数),从而可以通过 基于梯度的优化 (gradient-based optimization) 来优化三维表示以匹配目标图像。
    • 在本文中的应用: LucidFusion 使用 可微分光栅化RCG 渲染图像,并与 真实标注数据 (ground-truth) 图像进行比较,通过渲染损失来监督 RCG 参数的优化,从而确保几何和外观的一致性。
  • 运动恢复结构 (Structure-from-Motion, SfM):

    • 概念定义: SfM 是一种 计算机视觉 技术,用于从一系列二维图像中自动估计三维场景结构和拍摄这些图像的 相机姿态。它通常通过在不同图像中匹配特征点并进行三角测量来实现。COLMAP 是一个广泛使用的 SfM 软件包。
    • 在本文中的对照: SfM 是传统 多视角三维重建 的关键预处理步骤,但其计算成本高,且在稀疏视图或无纹理区域效果不佳。LucidFusion 的目标是绕过 SfM 这种显式的 姿态估计
  • 神经辐射场 (Neural Radiance Fields, NeRF):

    • 概念定义: NeRF 是一种基于 神经网络 (neural network) 的三维场景表示方法,它通过一个 多层感知机 (Multi-Layer Perceptron, MLP) 学习场景中每个点的位置、视角相关的颜色和体密度。NeRF 能够从稀疏的 相机姿态 已知的图像中合成高质量的新视角图像。
    • 在本文中的对照: NeRF 及其变体虽然取得了显著进展,但仍然依赖于已知的 相机姿态,并且通常需要较长的优化时间。
  • 大型重建模型 (Large Reconstruction Model, LRM):

    • 概念定义: LRM 是一种能够从单个输入图像预测一个 神经辐射场 或其他三维表示的 深度学习模型 (deep learning model)。它通常采用 三平面 (triplane) 等结构来编码三维信息,并通过 体渲染 (volume rendering) 进行图像合成。
    • 在本文中的对照: LRM 虽然减少了对多视角输入的依赖,但其变体通常仍需要固定视角的输入或在处理任意视角时性能受限。
  • PnP 解算器 (Perspective-n-Point, PnP Solver):

    • 概念定义: PnP 算法的目标是根据一组已知的 三维点 (3D points) 及其在二维图像上的对应投影点,来计算 相机姿态 (旋转和平移)。当点的数量 n3n \ge 3 时,理论上可以求解。
    • 在本文中的应用: LucidFusion 通过 RCM 能够获得像素的 三维坐标,结合其对应的 二维像素坐标,可以利用 PnP 解算器 来估计 相机姿态,从而实现姿态恢复。

3.2. 前人工作

论文在“相关工作”部分提及了以下几类关键的前人研究,这些工作为 LucidFusion 奠定了基础或提供了对比:

  • 多视角三维重建 (Multi-View 3D Reconstruction):

    • 核心思想: 这类方法通常依赖于 多视角立体匹配 (MVS) 技术,通过三角测量不同视图之间的对应点来重建物体表面。
    • 分类: MVS 方法大致可分为基于 深度图 (depth map) ([1, 2, 21, 28, 30])、基于 体素网格 (voxel grid) ([3, 17, 50]) 和基于 点云 (point cloud) ([4, 8])。
    • 共同限制: 它们都严重依赖于输入的 相机参数 (camera parameters)。这些参数要么在数据采集时提供,要么通过 运动恢复结构 (SfM) 技术(如 COLMAP [29])估计。因此,当输入是稀疏视图且 相机姿态 未知时,这些方法往往失效。
    • LucidFusion 的差异: LucidFusion 利用 RCM 表示,能够从未校准、未定姿态的稀疏输入中进行三维生成,解决了这一限制。
  • 辐射场重建 (Radiance Field Reconstruction):

    • 核心思想:神经辐射场 (NeRF) [25] 为代表,这类方法通过可微分渲染来优化辐射场表示,从而实现高质量的新视角合成。
    • 进展: 取得了 最先进的 (state-of-the-art) 性能 ([3, 9, 39])。
    • 应对稀疏视图: 一些工作通过引入 正则化项 (regularization terms) ([26, 37]) 或利用 几何先验 (geometric priors) ([3, 48]) 来处理稀疏视图。
    • 基于 SDS (Score Distillation Sampling) 的优化:二维扩散模型 (2D diffusion models) 的细节信息提炼到三维表示中 ([22, 27, 41]),但通常需要对每个场景进行长时间优化。
    • 共同限制: 这些方法仍然需要已知 相机姿态 的图像样本。
    • LucidFusion 的差异: LucidFusion 无需已知 相机姿态,并以前馈方式运行,支持 可泛化 (generalizable) 的三维生成,无需大量优化。
  • 无约束重建 (Unconstrained Reconstruction):

    • 大型重建模型 (LRM): LRM [12] 提出了基于 三平面 (triplane) 的方法结合 体渲染 (volume rendering),表明回归模型可以从单视图图像稳健地预测 神经辐射场,从而减少对 相机姿态 的依赖。
    • 扩散模型扩展: 随后的工作 ([19, 31, 32, 34, 47, 51]) 利用 扩散模型 将单视图输入扩展到多视图,进一步绕过了对 相机姿态 的需求。
    • 固定视角限制: 许多这类方法依赖于固定视角(如正面、背面),这限制了其在真实世界场景中的适用性。
    • 无姿态三维重建:
      • 一些方法 ([14, 23]) 通过网络预测 相机姿态
      • PF-LRM [38] 结合 LRM 和一个 可微分 PnP 模块 (differentiable PnP module) 来预测多视图图像的 姿态
      • iFusion [43] 在优化管道中利用 Zero123 [24] 预测来对齐 姿态
      • SpaRP [45] 结合 坐标图 (coordinate-map) 表示和 生成式扩散模型 (generative diffusion model),但仍依赖额外的 PnP 解算器进行细化,且输入视图数量受限(不超过6个)。
      • CRM [42] (Convolutional Reconstruction Model) 是一个单图像到3D纹理网格的卷积重建模型。
    • LucidFusion 的差异: LucidFusion 是一个基于回归的方法,可以处理任意数量的未定姿态输入,提供更高效的渲染管道,同时保持高质量的三维重建效果。其 RCG 本身可以用于直接恢复 相机姿态,而无需额外的 PnP 模块或优化。

3.3. 技术演进

三维重建 领域的技术演进经历了从强依赖 相机姿态 和密集视图,到逐步尝试减少姿态需求和处理稀疏视图,再到利用 深度学习 (deep learning)生成模型 (generative models) 实现更灵活、高效的重建。

  1. 早期 MVS (Multi-View Stereo) 时代:

    • 特点: 依赖于精确的 相机姿态(通过 SfM 或已知参数)和大量重叠的图像。
    • 挑战: 对图像质量和 相机姿态 精度要求高,计算成本大,难以处理无纹理区域和稀疏视图。
    • 代表: COLMAP [29]、MVSNet [49]。
  2. NeRF (Neural Radiance Fields) 及其变体:

    • 特点: 将场景表示为 神经网络,通过 体渲染 (volume rendering) 合成新视角。
    • 进步: 实现了前所未有的真实感渲染效果。
    • 挑战: 仍然需要已知的 相机姿态,训练和渲染速度相对较慢,优化时间长。
    • 代表: NeRF [25]、MVSNeRF [3]。
  3. 单图像到三维与扩散模型集成:

    • 特点: 利用 深度学习模型 从单张图像推断三维形状或 神经辐射场。近年来与 扩散模型 结合,生成多视角一致的图像用于三维重建。
    • 进步: 显著降低了对输入图像数量的要求,甚至无需显式 相机姿态
    • 挑战: 许多方法仍依赖于固定视角输入,或者需要额外的优化步骤来估计 姿态
    • 代表: LRM [12]、Zero123 [24]、iFusion [43]、LGM [34]。
  4. 三维高斯泼溅 (3D Gaussian Splatting) 的崛起:

    • 特点: 作为一种新的三维表示,以离散的 三维高斯 点云表示场景,结合 可微分光栅化,实现了极快的渲染速度和高质量。

    • 进步: 解决了 NeRF 渲染速度慢的问题,成为当前 新视角合成 (novel view synthesis) 领域的热点。

    • 代表: 3D Gaussian Splatting [16]。

      LucidFusion 的工作正是在这一演进脉络中,结合了 图像到图像转换RCM / RCG 中间表示、三维高斯泼溅 和两阶段训练策略,旨在提供一个真正灵活、高效、无姿态依赖的 三维重建 解决方案,特别是在处理任意未定姿态输入方面取得了突破。

3.4. 差异化分析

LucidFusion 方法与现有主要方法的核心区别和创新点体现在以下几个方面:

  • 与传统 MVS (Multi-View Stereo) 方法的对比:

    • MVS: 核心依赖 相机姿态,通常通过 SfM 预先获得。当输入图像稀疏且 姿态 未知时,性能会急剧下降。
    • LucidFusion: RCMRCG 的设计使其能够直接处理未校准、未定姿态的稀疏输入图像,无需显式的 SfM姿态估计 步骤,提供了更高的灵活性。
  • 与基于 NeRF 的方法(如 MVSNeRF)的对比:

    • NeRF: 依赖于已知 相机姿态,并且通常需要较长的 优化 (optimization) 时间来学习场景表示。
    • LucidFusion: 无需已知 相机姿态,并以 前馈 (feed-forward) 方式运行,显著加快了重建速度,适用于对实时性有要求的场景。
  • 与 LRM (Large Reconstruction Model) / 扩散模型方法的对比:

    • LRM/扩散模型: 多数这类方法虽然减少了对 相机姿态 的依赖,但通常需要固定视角(如正面、背面)作为输入,或者在处理任意视角时存在局限性。
    • LucidFusion: 设计之初就为了处理任意数量、任意视角的未定姿态输入,通过 RCM 将所有视图统一到“主视图”的坐标系下,展现了更强的通用性。
  • 与现有无姿态三维重建方法的对比(如 PF-LRMiFusionSpaRP):

    • 现有方法:
      • 一些通过网络预测 姿态,但可能需要额外的 PnP 解算器优化 过程进行细化。
      • iFusion 等方法虽然也处理无姿态输入,但通常需要较长的 优化时间(如 iFusion 需要 5 分钟的优化)。
      • SpaRP 对输入视图数量有限制。
    • LucidFusion:
      • RCG 作为一种直接的三维表示,其中心包含了像素的 三维坐标,这使得 姿态估计 可以直接从 RCG 导出,无需复杂的额外优化。
      • LucidFusion前馈 (feed-forward) 方式一次性完成三维重建和姿态估计,显著提高了效率和实用性。
      • 能够处理任意数量的未定姿态输入,没有数量限制。
  • 规范坐标图 (CCM) 的对比:

    • CCM: 存在“方向”信息的模糊性,难以在不同视图间保持几何一致性(如原文 Figure 2 所示)。
    • LucidFusion 的 RCM: 通过将所有视图坐标对齐到相对的“主视图”坐标系,有效解决了 CCM 的方向模糊性,使模型能够更稳定地学习 2D-3D 对应关系,提高了重建的几何一致性。
  • RCG 的引入:

    • RCM 阶段可能导致噪声输出,因为它缺乏全局三维监督。

    • LucidFusion 的 RCG:RCM 预测的像素坐标视为 三维高斯 的中心,并回归 高斯 的其他参数。通过 可微分光栅化渲染损失 (rendering loss)RCG 引入了强大的三维先验和全局一致性监督,使得重建结果更平滑、更连贯,显著优于仅使用 RCM 的输出(如原文 Figure 4 所示)。

      综上,LucidFusion 的创新点在于巧妙地结合了 RCM 来解决 姿态 难题,并进一步通过 RCG 和两阶段训练克服了 RCM 的局限性,最终提供了一个高效、高质量、灵活且无需显式 姿态估计三维重建 解决方案。

4. 方法论

LucidFusion 是一个 前馈 (feed-forward)三维重建 (3D reconstruction) 模型,能够处理 1 到 NN 张未定姿态的图像,并恢复物体的 姿态 (pose)高斯 (Gaussians) 表示。其核心思想是将 三维重建 重新表述为 图像到图像转换 (image-to-image translation) 问题,并通过引入 相对坐标图 (Relative Coordinate Map, RCM)相对坐标高斯 (Relative Coordinate Gaussians, RCG) 来解决现有方法的局限性。

4.1. 方法原理

LucidFusion 的核心原理基于一个直觉:姿态 (pose) 只是一个中间变量,用于在 2D 图像与 3D 空间之间进行映射。如果能够将 姿态 信息直接嵌入到 回归目标 (regression objective) 中,就可以绕过显式的 姿态估计 (pose estimation) 步骤,从而简化并提高重建流程的灵活性。

  1. 问题重构: 传统的 三维重建 依赖显式 相机姿态 (camera pose)LucidFusion 将其重构为 图像到图像转换,其中模型直接从输入图像预测一个中间表示,该表示隐式编码了 三维几何 (3D geometry)姿态 信息。

  2. RCM 解决方向模糊性: 规范坐标图 (Canonical Coordinate Map, CCM) 试图将像素映射到物体自身的 规范坐标系 (canonical coordinate system)。然而,这种全局 规范坐标 的“方向”信息在颜色空间中定义不明确,导致 CCM 在多视图间难以保持一致性。LucidFusion 提出了 RCM,它不追求全局 规范坐标,而是将所有输入视图的像素坐标转换到一个随机选择的“主”视图的 相机坐标系 (camera coordinate system)。这种“相对”的对齐方式,有效解决了 CCM 的方向模糊性问题,使得模型更容易学习不同视图间的 2D-3D 对应关系,从而保持三维一致性(如原文 Figure 2 所示)。

  3. RCG 引入三维先验与一致性: 仅凭 RCM 进行映射,由于缺乏全局三维监督,往往会导致不一致和有噪声的输出。为了解决这个问题,LucidFusionRCM 扩展为 相对坐标高斯 (RCG)RCGRCM 预测的每个像素的三维坐标视为 三维高斯 (3D Gaussian) 的中心,并进一步预测 高斯 的尺度、旋转和透明度等参数。通过 三维高斯泼溅 (3D Gaussian Splatting) 技术的 可微分光栅化 (differentiable rasterization)LucidFusion 可以从 RCG 渲染图像,并与 真实标注图像 (ground-truth images) 进行比较。这种 渲染损失 (rendering loss) 提供了强大的全局三维监督,强制 RCG 学习一致的几何和外观,从而显著提升了重建的平滑度和连贯性(如原文 Figure 4 所示)。

  4. 两阶段训练策略: 为了解决同时优化 RCM 的像素级对齐和 RCG 的全局三维一致性所带来的训练不稳定性(如原文 Figure 5 所示),LucidFusion 采用了两阶段训练。第一阶段专注于学习从输入图像到 RCM 的鲁棒映射;第二阶段在此基础上扩展 RCMRCG,并引入 可微分渲染 损失来强制三维一致性。这种解耦训练方式有效地稳定了训练过程。

  5. 姿态恢复: 由于 RCG 的中心直接编码了像素的 三维坐标 (3D coordinates),结合其在二维图像上的投影,可以利用标准的 PnP 解算器 (PnP solver)RCG 中直接恢复 相机姿态,从而实现了 三维重建姿态估计 的同步进行。

4.2. 核心方法详解

4.2.1. 预备知识 (Preliminary)

论文将 三维重建 (3D reconstruction) 问题抽象为一个映射任务。对于单张图像,主要目标是提取几何信息以生成物体;对于多张图像,除了映射之外,还需要处理 尺度 (scaling)一致性 (consistency) 问题。传统方法(如 多视角立体匹配 (MVS)大型重建模型 (LRM))通常依赖 姿态估计 (pose estimation),这意味着图像必须预先提供 姿态 或限制在特定视角。

作者指出,多视角重建 的关键挑战在于确保不同视角之间 几何特征 (geometric feature) 估计的一致性,同时保持 尺度包裹 (scale-wrapping) 关系。他们认为 姿态 只是一个中间变量。如果 姿态 信息能够嵌入到 回归目标 (regression objective) 本身中,就可以绕过显式的 姿态估计,从而提高可用性并降低流程复杂性。

规范坐标图 (Canonical Coordinate Map, CCM) [20] 是一种尝试将 姿态 信息直接嵌入到图像像素值中的方法。然而,在从多视角输入回归 CCM 时,模型必须在 世界坐标系 (world-coordinate) 约定下运行,因此需要同时推断 方向 (orientation)几何 (geometry)。这导致了 方向 的模糊性。原文 Figure 2 的试点研究显示,CCM 无法在不同输入视图中保持一致性,例如羊的头部和尾部在 CCM 中未能保持一致的颜色表示,这表明模型未能准确对齐 2D 多视图输入在 3D 空间中的位置。

4.2.2. 相对坐标图 (Relative Coordinate Map, RCM)

为了解决 CCM 的问题,LucidFusion 提出了 相对坐标图 (RCM)RCM 的核心思想是,对于 三维重建 任务,维持输入视图之间的 三维一致性 (3D consistency) 比学习物体的 规范方向 (canonical orientation) 更重要。因此,RCM 将每个视图的坐标转换,使其与一个选定的“主”视图的坐标系对齐。原文 Figure 2 的底部一排展示了 RCM 成功解决了方向模糊性,使其更适合重建任务。

假设我们有一组 NN 张输入图像 {Ii}i=1N\{ \mathbf { I } _ { i } \} _ { i = 1 } ^ { N },其中每张图像 IiRH×W×3\mathbf { I } _ { i } \in \mathbb { R } ^ { H \times W \times 3 }。我们为每张图像定义一个 RCMMiRH×W×3M _ { i } \in \mathbb { R } ^ { H \times W \times 3 },其中 M _ { i } 包含对应于 Ii\mathbf { I } _ { i } 中每个像素的三维坐标。

为了帮助模型从任意视角学习这些坐标,我们将所有 NN 张图像投影到一个随机选择的输入视图的坐标系中。这种随机选择有助于模型的 泛化 (generalization) 能力。

具体来说,对于每个输入视图 ii,我们有一个 相机姿态 (camera pose) PiR4×4P _ { i } \in \mathbb { R } ^ { 4 \times 4 } 和一个 内参矩阵 (intrinsic matrix) KR4×4\pmb { K } \in \mathbb { R } ^ { 4 \times 4 }(均为齐次形式),以及一个 深度图 (depth map) DiRH×WD_i \in \mathbb{R}^{H \times W}

我们随机选择其中一个 姿态 P _ { m a i n } 作为主 相机姿态

主视图的 RCM (Main View's RCM) 定义为: Mmain=PmainPmain1K1Dmain M _ { m a i n } = P _ { m a i n } P _ { m a i n } ^ { - 1 } K ^ { - 1 } * D _ { m a i n } 这个表达式简化后,主视图的 RCM 实际上就是其自身 相机坐标系 (camera coordinate frame) 内的坐标: Mmain=K1Dmain M _ { m a i n } = K ^ { - 1 } * D _ { m a i n }

  • MmainM_{main}:主视图的 相对坐标图 (RCM)
  • K1K^{-1}相机内参矩阵 KK 的逆矩阵。KK 描述了从 相机坐标系像素坐标系 (pixel coordinate system) 的投影,其逆矩阵则将 像素坐标 结合 深度信息 转换回 相机坐标系 中的 三维坐标
  • DmainD_{main}:主视图的 深度图,其中每个像素值表示该像素处物体点到 相机 的距离。
  • PmainP_{main}:主视图的 外部参数矩阵 (extrinsic matrix),描述了 相机坐标系 相对于 世界坐标系 (world coordinate system)旋转 (rotation)平移 (translation)
  • Pmain1P_{main}^{-1}:主视图 外部参数矩阵 的逆矩阵。
  • *:这里表示像素级或元素级的乘法。
  • 解释: 初始表达式中的 PmainPmain1P_{main} P_{main}^{-1} 相互抵消,意味着主视图的 RCM 是在它自己的 相机坐标系 中定义的。它通过将 深度图 的每个像素的 深度 值与 内参矩阵 的逆相乘,将 二维像素坐标深度 信息转换成 三维相机坐标

对于剩余的 N1N - 1 个视图 jj,我们将它们转换到主视图的坐标系中: Mj=PmainPj1K1Dj,j=1,2,3,,N1 M _ { j } = P _ { m a i n } P _ { j } ^ { - 1 } K ^ { - 1 } * D _ { j } , \quad j = 1 , 2 , 3 , \ldots , N - 1

  • MjM_j:视图 jj相对坐标图 (RCM)

  • PmainP_{main}:主视图的 相机姿态 矩阵,将其他视图的 相机坐标 转换到主视图的 相机坐标系 下。

  • Pj1P_j^{-1}:视图 jj相机姿态 矩阵的逆矩阵,将视图 jj世界坐标 转换到视图 jj相机坐标系 下。

  • K1DjK^{-1} * D_j:将视图 jj深度图 转换成视图 jj 自身 相机坐标系 中的 三维坐标

  • 解释: 这个公式首先将视图 jj深度图 转换成视图 jj 自身 相机坐标系 中的 三维坐标,然后通过 PmainPj1P_{main} P_j^{-1} 这个 相对变换矩阵 (relative transformation matrix),将这些 三维坐标 从视图 jj相机坐标系 转换到主视图的 相机坐标系 中。

    RCM 值被限制在 [1,1][-1, 1] 范围内。为了进一步强制跨多个视图的 三维一致性 (3D consistency),作者将所有输入图像沿宽度维度 WW 拼接起来,允许模型使用 自注意力 (self-attention) 来整合多视图信息。

RCM 表示具有以下几个关键优势:

  1. 作为一个 图像基表示 (image-based representation),它能够受益于 预训练基础模型 (pretrained foundation models),从而简化学习过程。
  2. RCM 维护了图像像素与其对应 三维点 (3D points) 之间的一对一映射,有效地将几何表示为 点云 (point cloud)
  3. 由于每个 RCM 明确表示每个像素的 (x, y, z) 位置,我们可以使用标准的 PnP 解算器 (Perspective-n-Point solver) [35] 计算每个视图 MiM_i姿态 ξi\xi_i,从而实现 相对姿态估计 (relative pose estimation)

4.2.3. 相对坐标高斯 (Relative Coordinate Gaussians, RCG)

基于 相对坐标图 (RCM),可以直接训练一个 2D 图像到图像模型 (2D image-to-image model) 进行无约束 三维重建 (3D reconstruction)。然而,论文观察到,简单地执行这种映射通常会导致不一致和有噪声的输出(如原文 Figure 4 所示),这主要是因为缺乏对 三维先验 (3D prior) 的监督,而这对于维持 三维一致性 (3D consistency) 至关重要。

为了解决这个限制,本文将 三维高斯 (3D Gaussians) [33] 与 相对坐标图 结合起来,形成了 相对坐标高斯 (RCG)。具体来说,LucidFusion相对坐标 (relative coordinates) 作为每个 高斯 (Gaussian) 点的中心。除了仅仅回归 三维位置 (3D position)(即 RCM 的输出),还回归了 高斯 的其他参数。

由于 RCG像素对齐 (pixel-aligned) 的,网络输出通道可以从 3 (x,y,z 坐标) 扩展到 14。这些额外的通道编码了:

  • 尺度 (scale)s\pmb { s } (3 个通道)

  • 旋转四元数 (rotation quaternion)rot (4 个通道)

  • 透明度 (opacity)σ\sigma (1 个通道)

  • 颜色 (color)Ii+δic\mathbf{I}_i + \delta_i^c (3个通道,输入图像颜色加上一个学习到的颜色偏移)。

    有了这些 高斯 参数,模型可以从任意视角进行 可微分光栅化 (differentiable rasterization),并由 真实标注图像 (ground-truth images) 进行监督,而不是仅仅通过逐视图的 坐标预测 (coordinate predictions)。这种 全局渲染损失 (global rendering loss) 强制了视图之间的一致性,从而产生了更平滑、更连贯的重建结果(如原文 Figure 4 所示)。

4.2.4. 两阶段训练 (Two Stage Training)

论文观察到,同时优化 相对坐标图 (RCM)渲染目标 (rendering objective) 常常导致训练不稳定。正如原文 Figure 5 所示,网络难以准确地定位物体几何并保持多视图一致性,导致物体出现错位或空洞。这发生是因为模型必须同时推理像素级的对齐和全局 三维一致性 (3D consistency),在训练过程中产生了冲突的目标。

为了克服这个挑战,LucidFusion 采用了 两阶段训练 (two-stage training) 方案。

  • 第一阶段 (Stage 1): 训练网络学习 RCM 表示,并使用基于 稳定扩散模型 (stable diffusion-based prior) [11] 的 先验 (prior)。这使得模型能够学习从输入图像到 RCM 的鲁棒映射。

  • 第二阶段 (Stage 2): 扩展已学习的 RCM相对坐标高斯 (RCG) 表示,并引入 可微分渲染损失 (differentiable rendering loss) 来强制 三维一致性

    通过解耦这些学习阶段,缓解了局部像素对齐和全局几何约束之间的冲突,从而显著稳定了训练过程。

第一阶段:RCM 回归 我们训练一个网络 EE 来学习 RCM 表示。网络 EENNRGB 图像 {Ii}i=1N\{ \mathbf { I } _ { i } \} _ { i = 1 } ^ { N }(其中 IiRH×W×3\mathbf { I } _ { i } \in \mathbb { R } ^ { H \times W \times 3 })映射到它们对应的 RCM M^iRH×W×3\hat { \mathbf { M } } _ { i } \in \mathbb { R } ^ { H \times W \times 3 }。 形式上: M^i=E(Ii) \hat { \bf M } _ { \bf i } = E ( { \bf I } _ { i } )

  • M^i\hat{\mathbf{M}}_i:网络 EE 预测的图像 ii相对坐标图 (RCM)

  • E()E(\cdot):用于预测 RCM 的网络编码器。

  • Ii\mathbf{I}_i:第 ii 张输入 RGB 图像。

    我们从前面 Sec. 4.2.2 中描述的公式(即 Mmain=K1DmainM _ { m a i n } = K ^ { - 1 } * D _ { m a i n }Mj=PmainPj1K1DjM _ { j } = P _ { m a i n } P _ { j } ^ { - 1 } K ^ { - 1 } * D _ { j })获取 真实标注 RCM (ground truth RCM) Mi\mathbf { M } _ { i },并使用 均方误差损失 (Mean Squared Error, MSE loss) 来监督预测的 RCM M^i\hat { \mathbf { M } } _ { i }Lrcm=1Ni=1NLMSE(M^i,Mi) \mathcal { L } _ { r c m } = \frac { 1 } { N } \sum _ { i = 1 } ^ { N } \mathcal { L } _ { M S E } ( \hat { \mathbf { M } } _ { i } , \mathbf { M } _ { i } )

  • Lrcm\mathcal{L}_{rcm}RCM 训练阶段的总损失。

  • NN:输入图像的总数量。

  • LMSE(,)\mathcal{L}_{MSE}(\cdot, \cdot)均方误差损失 函数,计算两个输入之间的平方差的平均值。

  • M^i\hat{\mathbf{M}}_i:网络预测的第 ii 张图像的 RCM

  • Mi\mathbf{M}_i:第 ii 张图像的 真实标注 RCM

  • 解释: 这个损失函数旨在使网络预测的 RCM 尽可能接近 真实标注 RCM,从而让网络学习到从输入图像到 相对坐标 的准确映射。

    第一阶段完成后,网络 EE 作为基础模型,能够可靠地将输入图像转换为 RCM

第二阶段:RCG 优化与渲染损失 接着,我们扩展输出层以引入 RCG,如 Sec. 4.2.3 所述。具体来说,我们从网络 EE 中提取一个中间 特征图 (feature map) fiRL8×W8×lˉ\mathbf { f } _ { i } \in \mathbb { R } ^ { \frac { L } { 8 } \times \frac { W } { 8 } \times \bar { l } },并将其传递给一个解码器 GG 来预测 14 通道的 RCG 参数 Θi\Theta _ { i }Θi=G(fi) \Theta _ { i } = G ( \mathbf { f } _ { i } ) 其中,RCG 参数 Θi\Theta _ { i } 包含: Θi=(M^i,Ii+δic,si,roti,σi) \Theta _ { i } = ( \hat { \mathbf { M } } _ { \mathbf { i } } , \mathbf { I } _ { i } + \delta _ { i } ^ { c } , \mathbf { s } _ { i } , \mathbf { r o t } _ { i } , \pmb { \sigma } _ { i } )

  • Θi\Theta_i:第 ii 张图像的 相对坐标高斯 (RCG) 参数集合。

  • G()G(\cdot):用于预测 RCG 参数的解码器网络。

  • fi\mathbf{f}_i:从第一阶段网络 EE 中提取的中间 特征图

  • M^i\hat{\mathbf{M}}_i三维坐标 (3D coordinates),作为 高斯 的中心(实际上是第一阶段 RCM 的输出)。

  • Ii+δic\mathbf{I}_i + \delta_i^c高斯 的颜色,由输入图像的颜色 Ii\mathbf{I}_i 加上一个学习到的颜色偏移 δic\delta_i^c 组成。

  • si\mathbf{s}_i高斯尺度 (scale) 参数 (3 个通道)。

  • roti\mathbf{rot}_i高斯旋转四元数 (rotation quaternion) (4 个通道)。

  • σi\pmb{\sigma}_i高斯透明度 (opacity) (1 个通道)。

  • 解释: 在第二阶段,模型不仅利用第一阶段学习到的 RCM 坐标,还学习 高斯 的额外参数,从而将 RCM 扩展为更丰富的 RCG 表示。

    我们使用 可微分渲染器 (differentiable renderer) [16] 渲染 NN 个监督视图(即每个输入视图的合成图像 I^i\hat { \bf \cal I } _ { i }),并使用其 真实标注视图 (ground-truth view) Ii\mathbf { I } _ { i } 进行监督。为了强制 视觉保真度 (visual fidelity),我们采用了 MSE 损失、来自 [16] 的 SSIM 损失以及基于 VGGLPIPS 损失的组合作为 RGB 损失: Lrgb=(1λ)LMSE(I^i,Ii) +λLSSIM(I^i,Ii) +LLIPIS(I^i,Ii), \begin{array} { r l } & { \mathcal { L } _ { r g b } = ( 1 - \lambda ) \mathcal { L } _ { M S E } ( \hat { \bf \cal I } _ { i } , { \bf I } _ { i } ) } \\ & { ~ + \lambda \mathcal { L } _ { S S I M } ( \hat { \bf \cal I } _ { i } , { \bf I } _ { i } ) } \\ & { ~ + \mathcal { L } _ { L I P I S } ( \hat { \bf \cal I } _ { i } , { \bf I } _ { i } ) , } \end{array}

  • Lrgb\mathcal{L}_{rgb}RGB 渲染损失。

  • λ\lambda:权重因子,设置为 0.2 (遵循 [16])。

  • LMSE(,)\mathcal{L}_{MSE}(\cdot, \cdot)均方误差损失

  • LSSIM(,)\mathcal{L}_{SSIM}(\cdot, \cdot)结构相似性指数 (Structural Similarity Index Measure) 损失。

  • LLPIPS(,)\mathcal{L}_{LPIPS}(\cdot, \cdot)学习感知图像块相似度 (Learned Perceptual Image Patch Similarity) 损失。

  • I^i\hat{\mathcal{I}}_i:由 RCG 渲染得到的第 ii 个视图的合成图像。

  • Ii\mathbf{I}_i:第 ii 个视图的 真实标注 图像。

  • 解释: RGB 损失结合了像素级的精确度 (MSE)、结构相似性 (SSIM) 和感知相似性 (LPIPS),以确保渲染图像在多个层面与 真实标注 图像匹配。

    为了进一步加速 收敛 (convergence) 并增强物体边界,我们还对 alpha 通道 (alpha channel) 应用 MSE 损失 [34]: Lα=LMSE(I^iα,Iiα). \mathcal { L } _ { \alpha } = \mathcal { L } _ { M S E } ( \hat { \mathbf { I } } _ { i } ^ { \alpha } , \mathbf { I } _ { i } ^ { \alpha } ) .

  • Lα\mathcal{L}_{\alpha}Alpha 通道损失。

  • I^iα\hat{\mathbf{I}}_i^\alpha:由 RCG 渲染得到的第 ii 个视图的 alpha 通道图像(表示透明度或遮罩)。

  • Iiα\mathbf{I}_i^\alpha:第 ii 个视图的 真实标注 alpha 通道图像。

  • 解释: Alpha 损失专注于精确地重建物体的轮廓和透明区域,这对于高质量的 三维重建 至关重要。

    因此,第二阶段的总损失由以下公式给出: L=Lrgb+Lα. \mathcal { L } = \mathcal { L } _ { r g b } + \mathcal { L } _ { \alpha } .

  • L\mathcal{L}:第二阶段的总训练损失。

  • 解释: 总损失是 RGB 渲染损失和 alpha 通道损失的加权和(这里权重为 1:1)。通过最小化这个总损失,模型在第二阶段学习优化 RCG 参数,以生成视觉上更准确、几何上更一致的 三维重建

4.2.5. 姿态估计 (Pose Estimation)

如前所述,由于 RCG 的中心被定义为每个像素的空间坐标 (x, y, z),我们可以通过最小化 三维到二维点 (3D-2D point) 对应关系的 重投影误差 (reprojection error) 来估计 相机姿态 (camera pose)

假设 qi,j\mathbf { q } _ { i , j } 表示 RCM 视图 ii 中像素 jj三维点位置 (3D point location) (x, y, z),而 pi,j\mathbf { p } _ { i , j } 表示 RCM 视图 ii 中像素 jj二维像素位置 (2D pixel location)。我们有: ξi=argminj=1NProj(Riqi,j+ti)pi,j2, \xi _ { i } = a r g m i n \sum _ { j = 1 } ^ { N } | | P r o j ( R _ { i } \cdot \mathbf { q } _ { i , j } + t _ { i } ) - \mathbf { p } _ { i , j } | | ^ { 2 } ,

  • ξi\xi_i:第 ii 个视图的 相机姿态 (camera pose),包含旋转 RiR_i 和平移 tit_i

  • argminξi\underset{\xi_i}{\mathrm{argmin}}:表示找到使得后续表达式最小的 相机姿态 ξi\xi_i

  • j=1N\sum_{j=1}^{N}:对 RCM 视图 ii 中的所有 NN 个像素进行求和。

  • Proj()Proj(\cdot)投影函数 (projection function),将 三维点 投影到 二维图像平面 上。

  • Riqi,j+tiR_i \cdot \mathbf{q}_{i,j} + t_i:将 三维点 qi,j\mathbf{q}_{i,j}物体坐标系 (object coordinate system)(或 相对坐标系 (relative coordinate system))转换到 相机坐标系 (camera coordinate system)。其中 RiR_i旋转矩阵 (rotation matrix)tit_i平移向量 (translation vector)

  • pi,j\mathbf{p}_{i,j}真实标注 的第 ii 个视图中像素 jj二维像素位置

  • 2||\cdot||^2: 欧几里得距离的平方,这里表示 重投影误差

  • 解释: 这个公式的目的是找到最佳的 旋转矩阵 RiR_i平移向量 tit_i,使得将 RCM三维点 qi,j\mathbf{q}_{i,j} 经过 RiR_itit_i 变换后,再通过 投影函数 投影到 二维图像平面 上的位置,与其实际的 二维像素位置 pi,j\mathbf{p}_{i,j} 之间的误差最小。

    作者使用 OpenCV [35] 中的 RANSAC (Random Sample Consensus) 方案来执行 PnP 求解,并过滤掉非信息性的白色背景点,以避免它们影响 姿态预测 (pose prediction)。这使得 LucidFusion 能够同时进行 三维重建姿态估计

5. 实验设置

5.1. 数据集

  • 训练数据集:

    • LucidFusion 模型是在 Objaverse (Objaverse) [6] 数据集的子集上进行训练的。
    • 特点: Objaverse 是一个包含大量 三维对象 (3D objects) 的数据集,但原始数据集中存在许多低质量的模型。作者选择了一个高质量的子集,包含大约 9.8 万个 (98K) 三维对象
    • 数据生成: 对于每个 三维对象,作者生成了总共 90 个 (90 views) 不同仰角的视图。
    • 训练采样: 在训练过程中,会从这 90 张视图中随机采样 NN 张视图作为输入。
    • 图像参数: 渲染图像的分辨率为 512×512512 \times 512 像素,并在均匀照明条件下生成。
  • 评估数据集:

    • 为了评估模型的 跨数据集泛化能力 (cross-dataset generalization ability)LucidFusion 在以下三个数据集上进行了测试:
      • GSO (Google Scanned Objects) [7]
      • ABO (Amazon Berkeley Objects) [5]
      • OmniObject3D(003D)OmniObject3D (003D) [44]
    • 评估采样: 作者随机选择了 200 个 (200 objects) 对象进行评估。对于每个对象,随机渲染 24 个 (24 views) 不同仰角的视图,并从中随机选择 4 个 (4) 视图作为模型的输入,以预测 姿态 (pose)新视角渲染 (novel view rendering) 质量。

5.2. 评估指标

论文使用了多项评估指标来衡量 三维重建 (3D reconstruction)姿态估计 (pose estimation) 任务的性能。

5.2.1. 三维重建评估指标 (3D Reconstruction Evaluation Metrics)

  • PSNR (Peak Signal-to-Noise Ratio, 峰值信噪比):

    1. 概念定义: PSNR 是一种衡量图像重建质量的客观标准。它表示图像信号的最大可能功率与噪声功率之间的比率。通常,PSNR 值越高,表示重建图像与原始图像之间的失真越小,图像质量越好。它是一个基于像素差异的指标。
    2. 数学公式: PSNR=10log10(MAXI2MSE) PSNR = 10 \cdot \log_{10}\left(\frac{MAX_I^2}{MSE}\right) 其中,MSE (Mean Squared Error, 均方误差) 的计算公式为: MSE=1mni=0m1j=0n1[I(i,j)K(i,j)]2 MSE = \frac{1}{mn}\sum_{i=0}^{m-1}\sum_{j=0}^{n-1} [I(i,j) - K(i,j)]^2
    3. 符号解释:
      • MAXIMAX_I: 图像中像素可能的最大值(例如,对于 8 位灰度图像,其值为 255)。
      • MSE: 均方误差,衡量两幅图像像素值差异的平方的平均值。
      • I(i,j): 原始(真实标注)图像在坐标 (i,j) 处的像素值。
      • K(i,j): 噪声(或重建)图像在坐标 (i,j) 处的像素值。
      • m, n: 图像的行数和列数。
  • SSIM (Structural Similarity Index Measure, 结构相似性指数):

    1. 概念定义: SSIM 是一种更符合人类视觉感知系统 (Human Visual System, HVS) 的图像质量评估指标。它从三个关键方面(亮度、对比度和结构)来衡量两幅图像的相似性。SSIM 值介于 -1 和 1 之间,值越接近 1,表示两幅图像越相似,质量越高。
    2. 数学公式: SSIM(x,y)=(2μxμy+c1)(2σxy+c2)(μx2+μy2+c1)(σx2+σy2+c2) SSIM(x,y) = \frac{(2\mu_x\mu_y + c_1)(2\sigma_{xy} + c_2)}{(\mu_x^2 + \mu_y^2 + c_1)(\sigma_x^2 + \sigma_y^2 + c_2)}
    3. 符号解释:
      • xx: 图像 xx 的像素值。
      • yy: 图像 yy 的像素值。
      • μx\mu_x: 图像 xx 的平均亮度。
      • μy\mu_y: 图像 yy 的平均亮度。
      • σx2\sigma_x^2: 图像 xx 的方差(衡量对比度)。
      • σy2\sigma_y^2: 图像 yy 的方差(衡量对比度)。
      • σxy\sigma_{xy}: 图像 xxyy 的协方差(衡量结构相似性)。
      • c1=(K1L)2c_1 = (K_1L)^2, c2=(K2L)2c_2 = (K_2L)^2: 用于稳定除法的小常数,以避免分母为零。LL 是像素值的动态范围(例如,对于 8 位图像, L=255L=255),K1,K2K_1, K_2 是非常小的常数(例如 K1=0.01,K2=0.03K_1=0.01, K_2=0.03)。
  • LPIPS (Learned Perceptual Image Patch Similarity, 学习感知图像块相似度):

    1. 概念定义: LPIPS 是一种基于 深度学习 (deep learning) 的感知图像质量评估指标。它通过使用在图像识别任务上预训练的 卷积神经网络 (Convolutional Neural Network, CNN)(如 VGG、AlexNet)来提取图像的特征,然后在特征空间中计算两幅图像之间距离。LPIPS 值越小,表示两幅图像在感知上越相似,即人类认为它们越接近。它比传统的 PSNRSSIM 更能捕捉人类的感知差异。
    2. 数学公式: d(x,x0)=l1HlWlh,wwl(fl(x)hwfl(x0)hw)22 d(x, x_0) = \sum_l \frac{1}{H_lW_l} \sum_{h,w} \|w_l \odot (f_l(x)_{hw} - f_l(x_0)_{hw})\|_2^2
    3. 符号解释:
      • x,x0x, x_0: 两张待比较的图像(例如,真实标注 图像和生成图像)。
      • ll: 表示预训练 CNN 的不同层(通常是中间层)。
      • fl()f_l(\cdot): 预训练 CNNll 层的特征提取函数。
      • Hl,WlH_l, W_l: 第 ll特征图 (feature map) 的高度和宽度。
      • wlw_l: 每一通道的 缩放因子 (scaling factor),通过在验证集上训练线性层得到。
      • \odot: 元素级乘法。
      • 22\|\cdot\|_2^2: L2 范数 (L2 norm) 的平方,表示特征向量之间的 欧几里得距离 (Euclidean distance)

5.2.2. 姿态估计评估指标 (Pose Estimation Evaluation Metrics)

  • Rot. error (Rotation error, 旋转误差):
    • 概念定义: 衡量预测 相机旋转 (camera rotation)真实标注旋转 (ground truth rotation) 之间差异的误差。通常表示为角度(度)。报告的是 中值误差 (median error),即所有误差值排序后的中间值。值越小越好。
  • T. error (Translation error, 平移误差):
    • 概念定义: 衡量预测 相机平移 (camera translation)真实标注平移 (ground truth translation) 之间差异的误差。通常表示为距离(如米)。报告的是 中值误差。值越小越好。
  • Acc. @15° (Accuracy @15°, 15 度精度):
    • 概念定义:旋转误差 小于或等于 15 度阈值的测试样本所占的百分比。值越高越好。
  • Acc. @30° (Accuracy @30°, 30 度精度):
    • 概念定义:旋转误差 小于或等于 30 度阈值的测试样本所占的百分比。值越高越好。

5.2.3. 消融实验评估指标 (Ablation Study Evaluation Metric)

  • Chamfer Distance (倒角距离):
    1. 概念定义: 倒角距离 是一种衡量两个 点云 (point clouds) 之间相似度的指标。它计算一个 点云 中的每个点到另一个 点云 中最近点的距离的平方和,然后反向计算另一个 点云 中的每个点到第一个 点云 中最近点的距离的平方和,并将这两个和相加。倒角距离 值越小,表示两个 点云 越相似。
    2. 数学公式: DCD(S1,S2)=1S1xS1minyS2xy22+1S2yS2minxS1xy22 D_{CD}(S_1, S_2) = \frac{1}{|S_1|}\sum_{x \in S_1} \min_{y \in S_2} \|x-y\|_2^2 + \frac{1}{|S_2|}\sum_{y \in S_2} \min_{x \in S_1} \|x-y\|_2^2
    3. 符号解释:
      • S1,S2S_1, S_2: 两个待比较的 点云
      • S1,S2|S_1|, |S_2|: 点云 S1S_1S2S_2 中点的数量。
      • xx: 点云 S1S_1 中的一个点。
      • yy: 点云 S2S_2 中的一个点。
      • min\min: 最小值操作,找到最近点。
      • 22\|\cdot\|_2^2: 欧几里得距离的平方,衡量两个点之间的空间距离。

5.3. 对比基线

在实验中,LucidFusion 的性能与以下几种基线模型进行了比较:

  • 重建任务基线 (Reconstruction Baselines):

    • iFusion [43]: 一个近期开源的、基于优化的无姿态重建方法,利用 Zero123 预测进行 姿态对齐 (pose alignment)
    • LGM [34] (Large Multi-view Gaussian Model): 一个 前馈 (feed-forward) 式模型,用于从给定 相机姿态 的多视图图像中生成 三维高斯 (3D Gaussians)
    • InstantMesh [46]: 另一个 前馈 式模型,用于从单图像高效生成 三维网格 (3D mesh),通常也需要 相机姿态
    • CRM [42] (Convolutional Reconstruction Model): 单图像到 三维纹理网格 (3D textured mesh)卷积重建模型
    • Flux [18]: 一个 文本到图像 (Text-to-Image, T2I) 扩散模型 (diffusion model),在单图像到三维设置中用于生成多视图输入。
  • 姿态估计任务基线 (Pose Estimation Baselines):

    • RelPose++ [23]: 一种 前馈 方法,用于从稀疏视图观察中恢复 6D 姿态

    • iFusion [43]: 如上所述,尽管是基于优化,但也被用作姿态估计的基线。

      选择这些基线的原因在于它们代表了当前 三维重建姿态估计 领域的不同主流方法:有的是 无姿态 (pose-free) 且基于优化,有的是 前馈 但需要 姿态,有的是 单图像到三维,从而能够全面评估 LucidFusion 在处理 无姿态稀疏输入 方面的优势。

6. 实验结果与分析

6.1. 核心结果分析

6.1.1. 三维重建结果 (Reconstruction Results)

  • 稀疏视图设置下的重建性能: 论文首先在稀疏视图(4个输入视图)设置下,将 LucidFusioniFusion [43](无姿态)、LGM [34] 和 InstantMesh [46](需提供姿态)进行了比较。对于 LGMInstantMesh,作者提供了 真实标注姿态 (ground truth pose)。评估指标包括 PSNRSSIMLPIPS

    以下是原文 Table 2 的结果: 以下是原文 Table 2 的结果:

    GSO ABO
    PSNR↑ SSIM↑ LPIPS↓ PSNR↑ SSIM↑ LPIPS↓
    iFusion [43] 17.21 0.852 0.180 17.54 0.853 0.180
    LGM [34] 19.61 0.872 0.131 19.89 0.873 0.131
    InstantMesh [46] 20.75 0.894 0.127 20.98 0.901 0.129
    Ours 25.97 0.930 0.070 25.98 0.917 0.088

    分析:

    • Table 2 可以看出,LucidFusionGSOABO 数据集上的 PSNRSSIMLPIPS 指标上都显著优于所有基线方法。例如,在 GSO 数据集上,LucidFusionPSNR 达到 25.97,远高于 InstantMesh20.75LPIPS 仅为 0.070,远低于 InstantMesh0.127,这表明 LucidFusion 能够生成感知质量更高、几何细节更准确的 三维重建 (3D reconstructions)
    • 这证明了 LucidFusion 方法在处理稀疏视图和无姿态输入方面的优越性,即使与提供了 真实标注姿态LGMInstantMesh 相比,LucidFusion 的性能也更强。
  • 定性比较: 下图(原文 Figure 6)展示了在稀疏视图设置下,LucidFusioniFusion [43]、InstantMesh [46] 和 LGM [34] 的定性比较结果。

    Figure 6. Qualitative comparison with iFusion \[43\], InstantMesh \[46\] and LGM \[34\] under sparse view stting. 分析:

    • Figure 6 可以看出,LucidFusion 能够生成更清晰、细节更丰富的 三维模型 (3D models)
    • 对于第一行 ABO 数据集中的物体,LucidFusion 的重建结果在几何和纹理上都更忠实于原物体。
    • 对于第二行“野外捕捉”的图像,即使 LGMInstantMesh 提供了 LucidFusion 预测的 姿态,它们在重建物体时仍然表现出困难,可能是因为它们过度拟合了固定 相机位置 (camera position) 的输入。而 LucidFusion 能够提供更好的几何和视觉质量。这进一步突出了 LucidFusion任意未定姿态输入 方面的鲁棒性。
  • 单图像到三维设置下的重建性能: 为了展示 LucidFusion 的灵活性,论文还评估了其在标准的 单图像到三维 (single-image-to-3D) 范式下的性能。在这种设置中,作者使用 Flux [18] 扩散模型 (diffusion model) 生成多视图。

    以下是原文 Table 3 的结果: 以下是原文 Table 3 的结果:

    GSO ABO
    PSNR↑ SSIM↑ LPIPS↓ PSNR↑ SSIM↑ LPIPS↓
    CRM [42] 16.74 0.858 0.177 19.23 0.871 0.169
    LGM [34] 14.31 0.824 0.186 16.03 0.861 0.181
    InstantMesh [46] 16.84 0.864 0.177 19.73 0.873 0.168
    Ours 16.91 0.862 0.177 19.51 0.873 0.168

    分析:

    • Table 3 可以看出,在 单图像到三维 范式下,LucidFusion 的性能与现有基线方法(CRMInstantMesh)基本持平。例如,LucidFusionGSO 上的 PSNR16.91,与 InstantMesh16.84CRM16.74 非常接近。

    • 这表明 LucidFusion 不仅在处理 无姿态稀疏视图 时表现出色,也能够有效地集成到现有的 单图像到三维 工作流中,展现了其良好的通用性和兼容性。 下图(原文 Figure 7)展示了 LucidFusion 在结合 多视图扩散模型 (multi-view diffusion model) 后的重建效果。

      该图像是示意图,展示了多个未定位视角与不同重建方法生成的3D模型对比。左侧为输入视图,右侧依次为本研究方法(Ours)、CRM、InstantMesh 和 LGM 的重建结果,展示了我们方法在3D重建中的优势。 分析:

    • Figure 7 展示了 LucidFusion 如何利用 多视图扩散模型 的输出,忠实地生成 512x512 高分辨率的结果。这进一步证明了其与现有生成管道的良好兼容性。

  • 模型泛化能力: 下图(原文 Figure 8)展示了 LucidFusion 在不同数据源上的泛化能力。

    该图像是展示了不同视角下的3D重建效果,包括多个动画角色和物体的重构。图像展示了利用相对坐标高斯(RCG)方法,从任意未定姿态输入中生成的视图,强调了算法在处理复杂对象时的有效性和灵活性。 分析:

    • Figure 8 的前三行展示了 LucidFusion文本到图像 (Text-to-Image, T2I) Flux [18] 模型结合,从 T2I 生成的图像中重建 三维物体
    • 后两行展示了从 扫描物体 (scanned object)野外捕捉物体 (in-the-wild captured object) 的图像中进行重建。
    • 结果显示,LucidFusion 能够以 512x512 的分辨率生成高质量结果,即使在面对只有任意数量的稀疏输入视图的真实世界应用中,也展示了其强大的 泛化能力 (generalization ability)

6.1.2. 姿态估计结果 (Pose Estimation Results)

论文将 LucidFusion前馈 (feed-forward) 方法 RelPose++RelPose++ [23] 和近期开源的基于 优化 (optimization) 的方法 iFusion [43] 进行了比较。评估指标包括 旋转中值误差 (median error in rotation)平移中值误差 (median error in translation),以及 15°30° 阈值下的 相对旋转精度 (relative rotation accuracy)

以下是原文 Table 1 的结果: 以下是原文 Table 1 的结果:

Dataset Method Rot. error↓ Acc. @15°↑ Acc. @30° ↑ T.error↓
GSO RelPose++ [23] 101.24 0.014 0.087 1.75
iFusion [43] 107.29 0.011 0.086 1.05
Ours 11.50 0.93 0.99 0.16
ABO RelPose++ [23] 103.23 0.016 0.092 1.74
iFusion [43] 102.68 0.016 0.094 1.13
Ours 19.40 0.77 0.84 0.17
003D RelPose++ [23] 104.23 0.017 0.092 1.78
iFusion [43] 106.95 0.012 0.086 1.18
Ours 12.91 0.85 0.97 0.13

分析:

  • Table 1 可以看出,LucidFusionGSOABO003D 三个数据集上的 姿态预测 (pose prediction) 任务中,持续显著优于 RelPose++RelPose++iFusion
  • LucidFusion旋转误差 (Rot. error)平移误差 (T. error) 大幅降低。例如,在 GSO 上,LucidFusion旋转误差 仅为 11.50,而 RelPose++RelPose++iFusion 都超过 100
  • 同时,LucidFusion@15°@30° 精度 (Accuracy) 显著提高,在 GSO 上分别达到 0.930.99,表明其 姿态估计 结果的准确性非常高。
  • 值得注意的是,iFusion 是一个基于 优化 (optimization) 的方法,每个对象需要约 5 分钟的优化时间,而 LucidFusion 则通过单次 前馈 (feed-forward) 传递即可恢复 姿态物体形状 (object shapes),这展示了 LucidFusion 在实际应用中卓越的效率优势。

6.2. 消融实验/参数分析

6.2.1. RCG 的重要性 (Importance of RCG)

下图(原文 Figure 9)展示了第一阶段(仅 RCM)和第二阶段(引入 RCG渲染监督 (rendering supervision))生成 点云 (point clouds) 的可视化结果,并给出了相应的 倒角距离 (Chamfer Distance)

Figure 9. Point cloud visualization for stage 1 and 2. We also show their chamfer distance. 分析:

  • Figure 9 展示了从 RCG 派生出的 点云。从图中可以看出,与仅通过 RCM 获得的 点云 相比,引入 RCG 后(第二阶段),重建的 点云 更加平滑和连贯。
  • 倒角距离 (Chamfer Distance) 的数值也支持这一观察。第二阶段倒角距离 显著低于 第一阶段,例如,第一行的 CD0.0078 降至 0.0057,这表明 RCG 及其带来的 渲染监督 能够强制 全局三维一致性 (global 3D consistency),从而生成更高质量的几何重建。
  • 这验证了 RCG 作为 RCM 扩展的有效性,它通过引入 三维高斯 (3D Gaussians) 表示和 可微分渲染 (differentiable rendering),解决了 RCM 阶段可能出现的噪声和不一致问题。

6.2.2. 训练方案 (Training Scheme)

下图(原文 Figure 5)比较了单阶段训练和两阶段训练的效果。

Figure 5. Comparison with single and two-stage training. For single stage, the model struggles to predict Gaussian locations. 分析:

  • Figure 5 清晰地表明,如果模型同时优化 RCM渲染目标 (rendering objective)(单阶段训练),会导致 训练不稳定 (training instability)。在这种情况下,模型难以准确地定位物体几何并维持 多视图一致性 (multi-view consistency),从而产生错位和空洞。图中下方左侧的单阶段训练结果显示 高斯位置 (Gaussian locations) 预测不准确。
  • 相比之下,两阶段训练方案解决了这个问题。第一阶段首先通过 RCM 监督学习 像素级对齐 (per-pixel alignment)。在此基础上,第二阶段再扩展到 RCG 并利用 渲染监督 来确保 三维一致性。这种 解耦 (decoupling) 学习策略有效缓解了局部像素对齐和全局几何约束之间的冲突,显著稳定了训练过程,使模型能够生成更准确、更完整的重建结果(图中下方右侧的两阶段训练结果)。

6.2.3. 高斯透明度作为置信度 (Gaussians Opacity as Confidence)

下图(原文 Figure 10)展示了预测的 RCM 和从 RCG 提取的 透明度 (opacity) 作为 置信度图 (confidence map) 的可视化。

Figure 10. Visualization of predicted RCM and opacity extracted from RCG as confidence map. 分析:

  • Figure 10 展示了 RCG 的一个重要特性:高斯透明度 (Gaussians Opacity) 可以作为一种 置信度测量 (confidence measure)
  • 在没有 RCG 细化的情况下,多视图错位 (multi-view misalignment) 可能导致冲突,因为模型直接将图像像素映射到 三维点 (3D points),从而产生 几何模糊性 (geometric ambiguities)
  • 然而,RCG透明度 能够有效地过滤掉输入图像中相互冲突的区域。在冲突或不确定的区域,模型会降低 高斯透明度,而在确定性高的区域则保持较高的 透明度
  • 这使得模型能够更好地融合 多视图信息 (multi-view information),避免了因冲突区域导致的 噪声 (noise)伪影 (artifacts),从而保持了高质量的物体渲染。这进一步强调了 RCG 在实现 鲁棒三维重建 (robust 3D reconstruction) 中的关键作用。

7. 总结与思考

7.1. 结论总结

本文提出了 LucidFusion 框架,这是一个灵活、端到端的 前馈 (feed-forward) 三维重建 (3D reconstruction) 解决方案。其核心创新在于引入了 相对坐标高斯 (Relative Coordinate Gaussians, RCG) 这一新颖表示,旨在实现不同视图之间 几何特征 (geometric features) 的连贯对齐。LucidFusion 的工作流程首先将 RGB 输入图像映射到 相对坐标图 (Relative Coordinate Map, RCM) 表示,然后将其扩展为 RCG,从而能够同时重建物体并恢复 姿态 (pose),所有这些都通过 前馈 方式完成。

该方法成功地缓解了 三维重建 管道对显式 姿态估计 (pose estimation) 的要求,并在多种场景下生成了高质量的输出。LucidFusion 还能无缝集成到传统的 单图像到三维 (single-image-to-3D) 管道中,进一步证明了其作为 三维对象重建 (3D object reconstruction) 多功能工具的潜力。这项工作为未来 三维重建 领域的研究开辟了新途径。

7.2. 局限性与未来工作

论文作者指出了 LucidFusion 存在的几点局限性,并提出了未来可能的研究方向:

  • 仅能渲染位于场景中心的物体,不包含背景: 当前模型只能重建和渲染位于场景中心的 前景物体 (foreground objects),而无法处理背景信息。

    • 未来工作: 作者假设在训练过程中将 背景信息 (background information) 整合到 RCG 表示中可以解决这个问题。这意味着需要 RCG 能够编码和渲染更复杂的场景,而不仅仅是孤立的物体。
  • 模型仅在 Objaverse 数据上进行训练: 当前模型主要在 Objaverse 数据集的子集上进行训练,这可能限制了其在 多样化场景 (diverse scenes)不同物体类别 (different object categories) 上的 泛化能力 (generalization ability)

    • 未来工作: 作者建议未来的工作可以探索在更广泛的数据集上进行训练,以增强 RCG 表示的鲁棒性。这可能包括不同类型的物体、更复杂的纹理、或真实世界中具有挑战性的光照和遮挡条件。

7.3. 个人启发与批判

7.3.1. 个人启发

这篇论文提供了一些非常重要的启发:

  1. 重新定义问题的重要性: LucidFusion三维重建 任务重新定义为 图像到图像转换,这一根本性的转变是其成功的关键。它表明,当传统方法受限于特定假设(如已知 相机姿态)时,重新审视和重新框架化问题可能带来突破性的解决方案。这种思路可以迁移到其他领域,鼓励研究人员跳出传统范式。

  2. 中间表示设计的艺术: RCMRCG 的设计非常巧妙。

    • RCM 解决了 规范坐标图 (CCM)方向模糊性 (orientation ambiguity),通过引入“相对性”的概念,降低了模型的学习难度。这体现了在设计中间表示时,考虑领域内特定问题和限制的精妙。
    • RCGRCM 扩展为 三维高斯 (3D Gaussians),并引入 可微分渲染 (differentiable rendering) 监督,这是一种将 2D 图像特征 (2D image features)3D 几何一致性 (3D geometric consistency) 有机结合的有效方式。它证明了即使在 前馈 (feed-forward) 模型中,强大的 3D 先验 (3D priors)全局监督 (global supervision) 也能显著提升结果质量。
  3. 分阶段训练策略的实用性: 两阶段训练策略解决了 RCM 的像素级对齐和 RCG 的全局 3D 一致性 优化之间的冲突。这种 解耦 (decoupling) 复杂优化目标的策略非常实用,在 深度学习 (deep learning) 模型的训练中,当多个相互冲突的目标同时优化导致不稳定时,分阶段或渐进式训练往往能带来更好的效果。

  4. 无姿态重建的巨大潜力: 能够从任意未定姿态图像进行 三维重建,是 计算机视觉 (computer vision)图形学 (graphics) 领域的一个长期目标。LucidFusion前馈 和高效特性,使其在 增强现实 (Augmented Reality, AR)虚拟现实 (Virtual Reality, VR)机器人 (robotics)三维内容创作 (3D content creation) 等实时或对用户体验要求高的应用中具有巨大潜力。

7.3.2. 批判与改进

尽管 LucidFusion 取得了令人印象深刻的成果,但仍有一些潜在问题或可以改进的地方:

  1. 背景处理的局限性: 论文明确指出了模型目前只能渲染位于场景中心的物体,不包含背景。这在实际应用中是一个重要的限制。大多数真实世界的 三维重建 都需要处理复杂的场景,包括背景、遮挡和多物体交互。

    • 改进方向: 如作者所提,将 背景信息 纳入 RCG 表示是一个方向。这可能涉及到对 RCG 进行扩展,使其能够区分 前景 (foreground)背景 (background) 高斯,或者学习场景的 环境光照 (environmental lighting)。这会增加模型的复杂性,但能极大拓展其应用范围。
  2. 三维高斯泼溅 (3D Gaussian Splatting) 的依赖: LucidFusion 严重依赖 3D Gaussian Splatting 技术。虽然 3DGS 渲染速度快、质量高,但它仍然是一种 点云 (point cloud) 类型的表示,可能在某些应用中不如 网格 (mesh)体素 (voxel) 等结构化表示灵活。例如,对于需要进行物理模拟或 CAD 编辑的应用,网格 结构可能更优。

    • 改进方向: 可以探索从 RCG 派生出其他 三维表示 的可能性,例如通过 可微分体素化 (differentiable voxelization)可微分网格化 (differentiable meshing),以满足不同的下游任务需求。
  3. 计算资源消耗: RCG 将每个像素扩展为 14 个通道的 高斯 参数,这意味着高分辨率图像会产生大量的 三维高斯。虽然 3DGS 渲染高效,但存储和管理如此庞大的 高斯 集合,尤其是在移动设备等资源受限的环境中,仍可能是一个挑战。

    • 改进方向: 可以探索 稀疏化 (sparsification)自适应采样 (adaptive sampling) 策略,只为重要区域生成 高斯,或者在 RCG 中引入 层次结构 (hierarchical structure) 来优化存储和渲染效率。
  4. “主视图”选择的随机性: RCM 依赖于随机选择一个“主视图”来对齐所有其他视图。虽然这有助于 泛化 (generalization),但在极端情况下,如果随机选择的 主视图 质量不佳(例如,过度模糊、遮挡严重),是否会影响整体重建质量?

    • 改进方向: 可以探索更智能的 主视图选择策略 (main view selection strategy),例如基于图像质量、信息量或与其它视图的平均重叠度来选择最佳 主视图,以进一步提高鲁棒性。
  5. 训练数据多样性: 论文指出当前模型仅在 Objaverse 数据集上训练。尽管 Objaverse 规模庞大,但其 三维模型 的风格和类型仍可能存在限制。

    • 改进方向: 在更广泛、更多样化的 真实世界数据集 上进行训练,可以提高模型对不同物体类别、材质、光照和背景复杂度的适应性,使其在实际部署中更加稳健。

      总的来说,LucidFusion无姿态三维重建 领域取得了显著进展,其创新的 RCM/RCG 框架和两阶段训练策略具有很强的启发性。未来的工作可以着重于解决其在背景处理、表示多样性和资源效率方面的局限性,从而将其推向更广泛的实际应用。

相似论文推荐

基于向量语义检索推荐的相关论文。

暂时没有找到相似论文。