LucidFusion: Reconstructing 3D Gaussians with Arbitrary Unposed Images
TL;DR 精炼摘要
本文提出了LucidFusion框架,通过引入相对坐标图(RCM)将三维重建重新定义为图像到图像的翻译任务,解决了对相机位姿的依赖问题。RCG作为RCM的扩展,确保了几何与位姿恢复的一致性。该方法支持任意数量未带位姿图像,能快速生成高质量三维重建结果。
摘要
Recent large reconstruction models have made notable progress in generating high-quality 3D objects from single images. However, current reconstruction methods often rely on explicit camera pose estimation or fixed viewpoints, restricting their flexibility and practical applicability. We reformulate 3D reconstruction as image-to-image translation and introduce the Relative Coordinate Map (RCM), which aligns multiple unposed images to a main view without pose estimation. While RCM simplifies the process, its lack of global 3D supervision can yield noisy outputs. To address this, we propose Relative Coordinate Gaussians (RCG) as an extension to RCM, which treats each pixel's coordinates as a Gaussian center and employs differentiable rasterization for consistent geometry and pose recovery. Our LucidFusion framework handles an arbitrary number of unposed inputs, producing robust 3D reconstructions within seconds and paving the way for more flexible, pose-free 3D pipelines.
思维导图
论文精读
中文精读
1. 论文基本信息
1.1. 标题
LucidFusion: Reconstructing 3D Gaussians with Arbitrary Unposed Images (LucidFusion: 使用任意未定姿态图像重建三维高斯)
1.2. 作者
Hao He (何昊), Yixun Liang (梁一勋), Luozhou Wang (王罗舟), Yuanhao Cai (蔡元浩), Xinli Xu (徐昕力), Hao-Xiang Guo (郭浩翔), Xiang Wen (文翔), Yingcong Chen (陈颖聪)
- 香港科技大学(广州) (HKUST(GZ))
- 香港科技大学 (HKUST)
- 约翰霍普金斯大学 (Johns Hopkins University)
- SkyWork AI
1.3. 发表期刊/会议
该论文发布在 arXiv 预印本服务器上。arXiv 是一个开放获取的预印本平台,研究人员在此分享他们的研究成果,通常在正式期刊或会议发表之前。这表明该论文尚未经过同行评审的最终版本,但已公开发布供社区讨论和参考。
1.4. 发表年份
2024年
1.5. 摘要
当前大型三维重建模型在从单张图像生成高质量三维物体方面取得了显著进展。然而,现有重建方法往往依赖于显式 相机姿态 (camera pose) 估计或固定视角,这限制了它们的灵活性和实际应用性。本文将三维重建重新定义为 图像到图像转换 (image-to-image translation) 问题,并引入了 相对坐标图 (Relative Coordinate Map, RCM),它可以在无需姿态估计的情况下将多个未定姿态图像对齐到主视图。虽然 RCM 简化了过程,但其缺乏全局三维监督可能导致噪声输出。为解决此问题,本文提出了 相对坐标高斯 (Relative Coordinate Gaussians, RCG) 作为 RCM 的扩展,它将每个像素的坐标视为 高斯 (Gaussian) 中心,并利用 可微分光栅化 (differentiable rasterization) 来实现几何和姿态的一致性恢复。作者提出的 LucidFusion 框架能够处理任意数量的未定姿态输入,在数秒内生成鲁棒的三维重建结果,为更灵活、无姿态的三维管道铺平了道路。
1.6. 原文链接
2. 整体概括
2.1. 研究背景与动机
-
论文试图解决的核心问题是什么? 现有的三维重建方法通常需要精确的
相机姿态 (camera pose)信息或要求输入图像来自固定的视角,这极大地限制了其在实际应用中的灵活性和用户体验。本文旨在解决从任意、未定姿态的稀疏图像输入中,高效、高质量地进行三维物体重建和姿态估计的难题。 -
为什么这个问题在当前领域是重要的?现有研究存在哪些具体的挑战或空白(Gap)?
- 三维内容需求的增长: 数字化三维物体在建筑、动画、游戏、虚拟现实和增强现实等领域日益重要,但高质量三维内容的生产依然耗时耗力,需要专业知识。
- 姿态估计的挑战: 获取准确的输入视图姿态并非易事。传统的
多视角立体匹配 (Multi-View Stereo, MVS)方法依赖于运动恢复结构 (Structure-from-Motion, SfM)工具(如COLMAP)进行预先姿态估计,或者要求固定视角的输入。这种依赖性限制了重建流程的灵活性。 - 现有方法的局限:
- 一些
大型重建模型 (Large Reconstruction Model, LRM)和基于扩散模型的方法虽然减少了对姿态的依赖,但往往需要固定视角(如正面、背面、左侧、右侧),不适用于任意视角输入。 - 部分无姿态方法通过网络预测姿态或使用
PnP 解算器 (PnP solver),但通常需要额外的优化过程或对输入图像数量有严格限制。 规范坐标图 (Canonical Coordinate Map, CCM)等中间表示方法存在“方向”信息的模糊性,导致难以保持不同视图间的一致性。- 直接将重建问题建模为
图像到图像转换 (image-to-image translation)缺乏三维先验监督,容易产生不一致和噪声的输出。
- 一些
-
这篇论文的切入点或创新思路是什么? 本文将三维重建问题重新定义为
图像到图像转换,并提出了一种新的中间表示——相对坐标图 (Relative Coordinate Map, RCM),以解决CCM的局限性。在此基础上,进一步引入相对坐标高斯 (Relative Coordinate Gaussians, RCG),将每个像素的坐标视为三维高斯 (3D Gaussian)的中心,并通过可微分光栅化 (differentiable rasterization)和渲染损失来强制执行全局三维一致性,从而实现无姿态的鲁棒三维重建和姿态恢复。
2.2. 核心贡献/主要发现
- 提出了新的中间表示
RCM及其扩展RCG: 作者重新审视了三维重建问题,发现CCM在处理多视角输入时存在方向模糊性。为了解决这个问题,引入了RCM,它将所有视图的坐标转换到选定的“主”视图坐标系下,从而有效缓解了方向模糊性。进一步,将RCM扩展为RCG,将每个像素的坐标视为高斯 (Gaussian)的中心,并添加了尺度、旋转和透明度等高斯参数。 - 开发了
LucidFusion框架: 该框架能够高效地将输入图像映射到RCG。通过这种方式,它能够将不同视图间的像素级对应关系嵌入到主视图中,从而避免了显式的姿态估计 (pose estimation)步骤。LucidFusion采用两阶段训练策略,首先学习鲁棒的RCM映射,然后通过可微分渲染 (differentiable rendering)进一步细化RCG,以确保三维一致性。 - 实现了高质量、高灵活性的三维重建和姿态估计:
- 鲁棒的无姿态输入处理:
LucidFusion能够处理任意数量的未定姿态输入图像,在数秒内完成鲁棒的三维重建。 - 卓越的重建质量: 在稀疏视图设置下,相比现有基线方法,
LucidFusion在PSNR、SSIM和LPIPS等指标上均表现出显著优势。 - 准确的姿态恢复: 框架能够直接从
RCG中恢复相机姿态 (camera poses),并在姿态预测任务中持续优于其他前馈和基于优化的方法。 - 通用性和兼容性:
LucidFusion可以无缝集成到现有的单图像到三维 (single-image-to-3D)管道中,进一步增强其应用范围。
- 鲁棒的无姿态输入处理:
3. 预备知识与相关工作
3.1. 基础概念
为了理解 LucidFusion 论文,我们需要掌握以下几个关键概念:
-
三维重建 (3D Reconstruction):
- 概念定义:
三维重建是指通过二维图像(通常是多张不同视角的图像)来推断和构建场景或物体的三维几何形状、纹理和外观信息的过程。其目标是创建一个能够从任意新视角渲染出真实感图像的三维模型。 - 在本文中的意义: 传统的
三维重建严重依赖相机姿态 (camera pose)。本文旨在通过图像到图像转换 (image-to-image translation)的方式,摆脱这种对相机姿态的显式依赖。
- 概念定义:
-
相机姿态 (Camera Pose):
- 概念定义:
相机姿态描述了相机在三维世界坐标系中的位置(平移向量)和方向(旋转矩阵或四元数)。它是将三维世界点投影到二维图像平面的关键参数。 - 在本文中的挑战: 获取准确的
相机姿态往往需要复杂的校准过程或运动恢复结构 (Structure-from-Motion, SfM)算法,这增加了三维重建的复杂性和限制了其灵活性。
- 概念定义:
-
图像到图像转换 (Image-to-Image Translation):
- 概念定义:
图像到图像转换是一类计算机视觉 (computer vision)任务,旨在学习一个映射函数,将输入图像从一个域转换到另一个域,例如从灰度图 (grayscale image)到彩色图 (color image),或者从边缘图 (edge map)到真实图像 (photorealistic image)。通常使用卷积神经网络 (Convolutional Neural Network, CNN)或生成对抗网络 (Generative Adversarial Network, GAN)实现。 - 在本文中的应用:
LucidFusion将三维重建任务重新定义为图像到图像转换,即将多张输入图像直接映射到一个中间表示(RCM或RCG),从而隐式地学习三维信息。
- 概念定义:
-
规范坐标图 (Canonical Coordinate Map, CCM):
- 概念定义:
规范坐标图是一种中间表示,它为图像中的每个像素预测其在物体规范坐标系 (canonical coordinate system)中的三维坐标。规范坐标系是一个与物体自身对齐的局部坐标系,通常其原点在物体中心,轴与物体的主轴对齐。 - 在本文中的局限: 论文指出
CCM难以回归,因为“方向”信息隐式地嵌入在颜色空间中,并且这种方向信息定义不明确,导致在不同视图间难以保持一致性(参见原文 Figure 2)。
- 概念定义:
-
相对坐标图 (Relative Coordinate Map, RCM):
- 概念定义:
RCM是LucidFusion提出的CCM的改进。它不是将像素坐标转换到全局的规范坐标系,而是转换到一个选定的“主”相机视图的相机坐标系 (camera coordinate system)中。 - 在本文中的优势: 这种相对转换解决了
CCM的方向模糊性问题,使得模型更容易学习不同视图间的2D-3D对应关系,从而保持三维一致性(参见原文 Figure 2)。
- 概念定义:
-
三维高斯 (3D Gaussians) / 三维高斯泼溅 (3D Gaussian Splatting, 3DGS):
- 概念定义:
三维高斯泼溅是一种新兴的三维场景表示和渲染技术。它将场景中的物体表示为一系列带有颜色、位置、尺度、旋转和透明度等参数的三维高斯分布。通过高效的可微分光栅化 (differentiable rasterization)过程,可以快速从任意视角渲染出高质量的图像。 - 在本文中的作用:
LucidFusion将RCM扩展为相对坐标高斯 (Relative Coordinate Gaussians, RCG),利用三维高斯的优势来作为更鲁棒、更具三维一致性的中间表示,并通过可微分光栅化进行渲染监督,进一步提升重建质量。
- 概念定义:
-
可微分光栅化 (Differentiable Rasterization):
- 概念定义:
光栅化是将三维几何体投影到二维屏幕空间并填充像素的过程。可微分光栅化意味着光栅化过程是可导的,允许梯度 (gradient)从渲染图像反向传播回三维模型(如三维高斯的参数),从而可以通过基于梯度的优化 (gradient-based optimization)来优化三维表示以匹配目标图像。 - 在本文中的应用:
LucidFusion使用可微分光栅化从RCG渲染图像,并与真实标注数据 (ground-truth)图像进行比较,通过渲染损失来监督RCG参数的优化,从而确保几何和外观的一致性。
- 概念定义:
-
运动恢复结构 (Structure-from-Motion, SfM):
- 概念定义:
SfM是一种计算机视觉技术,用于从一系列二维图像中自动估计三维场景结构和拍摄这些图像的相机姿态。它通常通过在不同图像中匹配特征点并进行三角测量来实现。COLMAP是一个广泛使用的SfM软件包。 - 在本文中的对照:
SfM是传统多视角三维重建的关键预处理步骤,但其计算成本高,且在稀疏视图或无纹理区域效果不佳。LucidFusion的目标是绕过SfM这种显式的姿态估计。
- 概念定义:
-
神经辐射场 (Neural Radiance Fields, NeRF):
- 概念定义:
NeRF是一种基于神经网络 (neural network)的三维场景表示方法,它通过一个多层感知机 (Multi-Layer Perceptron, MLP)学习场景中每个点的位置、视角相关的颜色和体密度。NeRF能够从稀疏的相机姿态已知的图像中合成高质量的新视角图像。 - 在本文中的对照:
NeRF及其变体虽然取得了显著进展,但仍然依赖于已知的相机姿态,并且通常需要较长的优化时间。
- 概念定义:
-
大型重建模型 (Large Reconstruction Model, LRM):
- 概念定义:
LRM是一种能够从单个输入图像预测一个神经辐射场或其他三维表示的深度学习模型 (deep learning model)。它通常采用三平面 (triplane)等结构来编码三维信息,并通过体渲染 (volume rendering)进行图像合成。 - 在本文中的对照:
LRM虽然减少了对多视角输入的依赖,但其变体通常仍需要固定视角的输入或在处理任意视角时性能受限。
- 概念定义:
-
PnP 解算器 (Perspective-n-Point, PnP Solver):
- 概念定义:
PnP算法的目标是根据一组已知的三维点 (3D points)及其在二维图像上的对应投影点,来计算相机的姿态 (旋转和平移)。当点的数量 时,理论上可以求解。 - 在本文中的应用:
LucidFusion通过RCM能够获得像素的三维坐标,结合其对应的二维像素坐标,可以利用PnP 解算器来估计相机姿态,从而实现姿态恢复。
- 概念定义:
3.2. 前人工作
论文在“相关工作”部分提及了以下几类关键的前人研究,这些工作为 LucidFusion 奠定了基础或提供了对比:
-
多视角三维重建 (Multi-View 3D Reconstruction):
- 核心思想: 这类方法通常依赖于
多视角立体匹配 (MVS)技术,通过三角测量不同视图之间的对应点来重建物体表面。 - 分类:
MVS方法大致可分为基于深度图 (depth map)([1, 2, 21, 28, 30])、基于体素网格 (voxel grid)([3, 17, 50]) 和基于点云 (point cloud)([4, 8])。 - 共同限制: 它们都严重依赖于输入的
相机参数 (camera parameters)。这些参数要么在数据采集时提供,要么通过运动恢复结构 (SfM)技术(如COLMAP[29])估计。因此,当输入是稀疏视图且相机姿态未知时,这些方法往往失效。 - LucidFusion 的差异:
LucidFusion利用RCM表示,能够从未校准、未定姿态的稀疏输入中进行三维生成,解决了这一限制。
- 核心思想: 这类方法通常依赖于
-
辐射场重建 (Radiance Field Reconstruction):
- 核心思想: 以
神经辐射场 (NeRF)[25] 为代表,这类方法通过可微分渲染来优化辐射场表示,从而实现高质量的新视角合成。 - 进展: 取得了
最先进的 (state-of-the-art)性能 ([3, 9, 39])。 - 应对稀疏视图: 一些工作通过引入
正则化项 (regularization terms)([26, 37]) 或利用几何先验 (geometric priors)([3, 48]) 来处理稀疏视图。 - 基于
SDS (Score Distillation Sampling)的优化: 将二维扩散模型 (2D diffusion models)的细节信息提炼到三维表示中 ([22, 27, 41]),但通常需要对每个场景进行长时间优化。 - 共同限制: 这些方法仍然需要已知
相机姿态的图像样本。 - LucidFusion 的差异:
LucidFusion无需已知相机姿态,并以前馈方式运行,支持可泛化 (generalizable)的三维生成,无需大量优化。
- 核心思想: 以
-
无约束重建 (Unconstrained Reconstruction):
- 大型重建模型 (LRM):
LRM[12] 提出了基于三平面 (triplane)的方法结合体渲染 (volume rendering),表明回归模型可以从单视图图像稳健地预测神经辐射场,从而减少对相机姿态的依赖。 - 扩散模型扩展: 随后的工作 ([19, 31, 32, 34, 47, 51]) 利用
扩散模型将单视图输入扩展到多视图,进一步绕过了对相机姿态的需求。 - 固定视角限制: 许多这类方法依赖于固定视角(如正面、背面),这限制了其在真实世界场景中的适用性。
- 无姿态三维重建:
- 一些方法 ([14, 23]) 通过网络预测
相机姿态。 PF-LRM[38] 结合LRM和一个可微分 PnP 模块 (differentiable PnP module)来预测多视图图像的姿态。iFusion[43] 在优化管道中利用Zero123[24] 预测来对齐姿态。SpaRP[45] 结合坐标图 (coordinate-map)表示和生成式扩散模型 (generative diffusion model),但仍依赖额外的PnP解算器进行细化,且输入视图数量受限(不超过6个)。CRM[42] (Convolutional Reconstruction Model) 是一个单图像到3D纹理网格的卷积重建模型。
- 一些方法 ([14, 23]) 通过网络预测
- LucidFusion 的差异:
LucidFusion是一个基于回归的方法,可以处理任意数量的未定姿态输入,提供更高效的渲染管道,同时保持高质量的三维重建效果。其RCG本身可以用于直接恢复相机姿态,而无需额外的PnP模块或优化。
- 大型重建模型 (LRM):
3.3. 技术演进
三维重建 领域的技术演进经历了从强依赖 相机姿态 和密集视图,到逐步尝试减少姿态需求和处理稀疏视图,再到利用 深度学习 (deep learning) 和 生成模型 (generative models) 实现更灵活、高效的重建。
-
早期 MVS (Multi-View Stereo) 时代:
- 特点: 依赖于精确的
相机姿态(通过SfM或已知参数)和大量重叠的图像。 - 挑战: 对图像质量和
相机姿态精度要求高,计算成本大,难以处理无纹理区域和稀疏视图。 - 代表:
COLMAP[29]、MVSNet[49]。
- 特点: 依赖于精确的
-
NeRF (Neural Radiance Fields) 及其变体:
- 特点: 将场景表示为
神经网络,通过体渲染 (volume rendering)合成新视角。 - 进步: 实现了前所未有的真实感渲染效果。
- 挑战: 仍然需要已知的
相机姿态,训练和渲染速度相对较慢,优化时间长。 - 代表:
NeRF[25]、MVSNeRF[3]。
- 特点: 将场景表示为
-
单图像到三维与扩散模型集成:
- 特点: 利用
深度学习模型从单张图像推断三维形状或神经辐射场。近年来与扩散模型结合,生成多视角一致的图像用于三维重建。 - 进步: 显著降低了对输入图像数量的要求,甚至无需显式
相机姿态。 - 挑战: 许多方法仍依赖于固定视角输入,或者需要额外的优化步骤来估计
姿态。 - 代表:
LRM[12]、Zero123[24]、iFusion[43]、LGM[34]。
- 特点: 利用
-
三维高斯泼溅 (3D Gaussian Splatting) 的崛起:
-
特点: 作为一种新的三维表示,以离散的
三维高斯点云表示场景,结合可微分光栅化,实现了极快的渲染速度和高质量。 -
进步: 解决了
NeRF渲染速度慢的问题,成为当前新视角合成 (novel view synthesis)领域的热点。 -
代表:
3D Gaussian Splatting[16]。LucidFusion的工作正是在这一演进脉络中,结合了图像到图像转换、RCM/RCG中间表示、三维高斯泼溅和两阶段训练策略,旨在提供一个真正灵活、高效、无姿态依赖的三维重建解决方案,特别是在处理任意未定姿态输入方面取得了突破。
-
3.4. 差异化分析
LucidFusion 方法与现有主要方法的核心区别和创新点体现在以下几个方面:
-
与传统 MVS (Multi-View Stereo) 方法的对比:
- MVS: 核心依赖
相机姿态,通常通过SfM预先获得。当输入图像稀疏且姿态未知时,性能会急剧下降。 - LucidFusion:
RCM和RCG的设计使其能够直接处理未校准、未定姿态的稀疏输入图像,无需显式的SfM或姿态估计步骤,提供了更高的灵活性。
- MVS: 核心依赖
-
与基于 NeRF 的方法(如
MVSNeRF)的对比:- NeRF: 依赖于已知
相机姿态,并且通常需要较长的优化 (optimization)时间来学习场景表示。 - LucidFusion: 无需已知
相机姿态,并以前馈 (feed-forward)方式运行,显著加快了重建速度,适用于对实时性有要求的场景。
- NeRF: 依赖于已知
-
与 LRM (Large Reconstruction Model) / 扩散模型方法的对比:
- LRM/扩散模型: 多数这类方法虽然减少了对
相机姿态的依赖,但通常需要固定视角(如正面、背面)作为输入,或者在处理任意视角时存在局限性。 - LucidFusion: 设计之初就为了处理任意数量、任意视角的未定姿态输入,通过
RCM将所有视图统一到“主视图”的坐标系下,展现了更强的通用性。
- LRM/扩散模型: 多数这类方法虽然减少了对
-
与现有无姿态三维重建方法的对比(如
PF-LRM、iFusion、SpaRP):- 现有方法:
- 一些通过网络预测
姿态,但可能需要额外的PnP 解算器或优化过程进行细化。 iFusion等方法虽然也处理无姿态输入,但通常需要较长的优化时间(如iFusion需要 5 分钟的优化)。SpaRP对输入视图数量有限制。
- 一些通过网络预测
- LucidFusion:
RCG作为一种直接的三维表示,其中心包含了像素的三维坐标,这使得姿态估计可以直接从RCG导出,无需复杂的额外优化。LucidFusion以前馈 (feed-forward)方式一次性完成三维重建和姿态估计,显著提高了效率和实用性。- 能够处理任意数量的未定姿态输入,没有数量限制。
- 现有方法:
-
与
规范坐标图 (CCM)的对比:- CCM: 存在“方向”信息的模糊性,难以在不同视图间保持几何一致性(如原文 Figure 2 所示)。
- LucidFusion 的 RCM: 通过将所有视图坐标对齐到相对的“主视图”坐标系,有效解决了
CCM的方向模糊性,使模型能够更稳定地学习2D-3D对应关系,提高了重建的几何一致性。
-
RCG 的引入:
-
RCM阶段可能导致噪声输出,因为它缺乏全局三维监督。 -
LucidFusion 的 RCG: 将
RCM预测的像素坐标视为三维高斯的中心,并回归高斯的其他参数。通过可微分光栅化和渲染损失 (rendering loss),RCG引入了强大的三维先验和全局一致性监督,使得重建结果更平滑、更连贯,显著优于仅使用RCM的输出(如原文 Figure 4 所示)。综上,
LucidFusion的创新点在于巧妙地结合了RCM来解决姿态难题,并进一步通过RCG和两阶段训练克服了RCM的局限性,最终提供了一个高效、高质量、灵活且无需显式姿态估计的三维重建解决方案。
-
4. 方法论
LucidFusion 是一个 前馈 (feed-forward) 式 三维重建 (3D reconstruction) 模型,能够处理 1 到 张未定姿态的图像,并恢复物体的 姿态 (pose) 和 高斯 (Gaussians) 表示。其核心思想是将 三维重建 重新表述为 图像到图像转换 (image-to-image translation) 问题,并通过引入 相对坐标图 (Relative Coordinate Map, RCM) 和 相对坐标高斯 (Relative Coordinate Gaussians, RCG) 来解决现有方法的局限性。
4.1. 方法原理
LucidFusion 的核心原理基于一个直觉:姿态 (pose) 只是一个中间变量,用于在 2D 图像与 3D 空间之间进行映射。如果能够将 姿态 信息直接嵌入到 回归目标 (regression objective) 中,就可以绕过显式的 姿态估计 (pose estimation) 步骤,从而简化并提高重建流程的灵活性。
-
问题重构: 传统的
三维重建依赖显式相机姿态 (camera pose)。LucidFusion将其重构为图像到图像转换,其中模型直接从输入图像预测一个中间表示,该表示隐式编码了三维几何 (3D geometry)和姿态信息。 -
RCM 解决方向模糊性:
规范坐标图 (Canonical Coordinate Map, CCM)试图将像素映射到物体自身的规范坐标系 (canonical coordinate system)。然而,这种全局规范坐标的“方向”信息在颜色空间中定义不明确,导致CCM在多视图间难以保持一致性。LucidFusion提出了RCM,它不追求全局规范坐标,而是将所有输入视图的像素坐标转换到一个随机选择的“主”视图的相机坐标系 (camera coordinate system)。这种“相对”的对齐方式,有效解决了CCM的方向模糊性问题,使得模型更容易学习不同视图间的2D-3D对应关系,从而保持三维一致性(如原文 Figure 2 所示)。 -
RCG 引入三维先验与一致性: 仅凭
RCM进行映射,由于缺乏全局三维监督,往往会导致不一致和有噪声的输出。为了解决这个问题,LucidFusion将RCM扩展为相对坐标高斯 (RCG)。RCG将RCM预测的每个像素的三维坐标视为三维高斯 (3D Gaussian)的中心,并进一步预测高斯的尺度、旋转和透明度等参数。通过三维高斯泼溅 (3D Gaussian Splatting)技术的可微分光栅化 (differentiable rasterization),LucidFusion可以从RCG渲染图像,并与真实标注图像 (ground-truth images)进行比较。这种渲染损失 (rendering loss)提供了强大的全局三维监督,强制RCG学习一致的几何和外观,从而显著提升了重建的平滑度和连贯性(如原文 Figure 4 所示)。 -
两阶段训练策略: 为了解决同时优化
RCM的像素级对齐和RCG的全局三维一致性所带来的训练不稳定性(如原文 Figure 5 所示),LucidFusion采用了两阶段训练。第一阶段专注于学习从输入图像到RCM的鲁棒映射;第二阶段在此基础上扩展RCM为RCG,并引入可微分渲染损失来强制三维一致性。这种解耦训练方式有效地稳定了训练过程。 -
姿态恢复: 由于
RCG的中心直接编码了像素的三维坐标 (3D coordinates),结合其在二维图像上的投影,可以利用标准的PnP 解算器 (PnP solver)从RCG中直接恢复相机姿态,从而实现了三维重建和姿态估计的同步进行。
4.2. 核心方法详解
4.2.1. 预备知识 (Preliminary)
论文将 三维重建 (3D reconstruction) 问题抽象为一个映射任务。对于单张图像,主要目标是提取几何信息以生成物体;对于多张图像,除了映射之外,还需要处理 尺度 (scaling) 和 一致性 (consistency) 问题。传统方法(如 多视角立体匹配 (MVS) 或 大型重建模型 (LRM))通常依赖 姿态估计 (pose estimation),这意味着图像必须预先提供 姿态 或限制在特定视角。
作者指出,多视角重建 的关键挑战在于确保不同视角之间 几何特征 (geometric feature) 估计的一致性,同时保持 尺度包裹 (scale-wrapping) 关系。他们认为 姿态 只是一个中间变量。如果 姿态 信息能够嵌入到 回归目标 (regression objective) 本身中,就可以绕过显式的 姿态估计,从而提高可用性并降低流程复杂性。
规范坐标图 (Canonical Coordinate Map, CCM) [20] 是一种尝试将 姿态 信息直接嵌入到图像像素值中的方法。然而,在从多视角输入回归 CCM 时,模型必须在 世界坐标系 (world-coordinate) 约定下运行,因此需要同时推断 方向 (orientation) 和 几何 (geometry)。这导致了 方向 的模糊性。原文 Figure 2 的试点研究显示,CCM 无法在不同输入视图中保持一致性,例如羊的头部和尾部在 CCM 中未能保持一致的颜色表示,这表明模型未能准确对齐 2D 多视图输入在 3D 空间中的位置。
4.2.2. 相对坐标图 (Relative Coordinate Map, RCM)
为了解决 CCM 的问题,LucidFusion 提出了 相对坐标图 (RCM)。RCM 的核心思想是,对于 三维重建 任务,维持输入视图之间的 三维一致性 (3D consistency) 比学习物体的 规范方向 (canonical orientation) 更重要。因此,RCM 将每个视图的坐标转换,使其与一个选定的“主”视图的坐标系对齐。原文 Figure 2 的底部一排展示了 RCM 成功解决了方向模糊性,使其更适合重建任务。
假设我们有一组 张输入图像 ,其中每张图像 。我们为每张图像定义一个 RCM 为 ,其中 M _ { i } 包含对应于 中每个像素的三维坐标。
为了帮助模型从任意视角学习这些坐标,我们将所有 张图像投影到一个随机选择的输入视图的坐标系中。这种随机选择有助于模型的 泛化 (generalization) 能力。
具体来说,对于每个输入视图 ,我们有一个 相机姿态 (camera pose) 和一个 内参矩阵 (intrinsic matrix) (均为齐次形式),以及一个 深度图 (depth map) 。
我们随机选择其中一个 姿态 P _ { m a i n } 作为主 相机姿态。
主视图的 RCM (Main View's RCM) 定义为:
这个表达式简化后,主视图的 RCM 实际上就是其自身 相机坐标系 (camera coordinate frame) 内的坐标:
- :主视图的
相对坐标图 (RCM)。 - :
相机内参矩阵的逆矩阵。 描述了从相机坐标系到像素坐标系 (pixel coordinate system)的投影,其逆矩阵则将像素坐标结合深度信息转换回相机坐标系中的三维坐标。 - :主视图的
深度图,其中每个像素值表示该像素处物体点到相机的距离。 - :主视图的
外部参数矩阵 (extrinsic matrix),描述了相机坐标系相对于世界坐标系 (world coordinate system)的旋转 (rotation)和平移 (translation)。 - :主视图
外部参数矩阵的逆矩阵。 *:这里表示像素级或元素级的乘法。- 解释: 初始表达式中的 相互抵消,意味着主视图的
RCM是在它自己的相机坐标系中定义的。它通过将深度图的每个像素的深度值与内参矩阵的逆相乘,将二维像素坐标和深度信息转换成三维相机坐标。
对于剩余的 个视图 ,我们将它们转换到主视图的坐标系中:
-
:视图 的
相对坐标图 (RCM)。 -
:主视图的
相机姿态矩阵,将其他视图的相机坐标转换到主视图的相机坐标系下。 -
:视图 的
相机姿态矩阵的逆矩阵,将视图 的世界坐标转换到视图 的相机坐标系下。 -
:将视图 的
深度图转换成视图 自身相机坐标系中的三维坐标。 -
解释: 这个公式首先将视图 的
深度图转换成视图 自身相机坐标系中的三维坐标,然后通过 这个相对变换矩阵 (relative transformation matrix),将这些三维坐标从视图 的相机坐标系转换到主视图的相机坐标系中。RCM值被限制在 范围内。为了进一步强制跨多个视图的三维一致性 (3D consistency),作者将所有输入图像沿宽度维度 拼接起来,允许模型使用自注意力 (self-attention)来整合多视图信息。
RCM 表示具有以下几个关键优势:
- 作为一个
图像基表示 (image-based representation),它能够受益于预训练基础模型 (pretrained foundation models),从而简化学习过程。 RCM维护了图像像素与其对应三维点 (3D points)之间的一对一映射,有效地将几何表示为点云 (point cloud)。- 由于每个
RCM明确表示每个像素的(x, y, z)位置,我们可以使用标准的PnP 解算器 (Perspective-n-Point solver)[35] 计算每个视图 的姿态,从而实现相对姿态估计 (relative pose estimation)。
4.2.3. 相对坐标高斯 (Relative Coordinate Gaussians, RCG)
基于 相对坐标图 (RCM),可以直接训练一个 2D 图像到图像模型 (2D image-to-image model) 进行无约束 三维重建 (3D reconstruction)。然而,论文观察到,简单地执行这种映射通常会导致不一致和有噪声的输出(如原文 Figure 4 所示),这主要是因为缺乏对 三维先验 (3D prior) 的监督,而这对于维持 三维一致性 (3D consistency) 至关重要。
为了解决这个限制,本文将 三维高斯 (3D Gaussians) [33] 与 相对坐标图 结合起来,形成了 相对坐标高斯 (RCG)。具体来说,LucidFusion 将 相对坐标 (relative coordinates) 作为每个 高斯 (Gaussian) 点的中心。除了仅仅回归 三维位置 (3D position)(即 RCM 的输出),还回归了 高斯 的其他参数。
由于 RCG 是 像素对齐 (pixel-aligned) 的,网络输出通道可以从 3 (x,y,z 坐标) 扩展到 14。这些额外的通道编码了:
-
尺度 (scale): (3 个通道)
-
旋转四元数 (rotation quaternion):
rot(4 个通道) -
透明度 (opacity): (1 个通道)
-
颜色 (color): (3个通道,输入图像颜色加上一个学习到的颜色偏移)。
有了这些
高斯参数,模型可以从任意视角进行可微分光栅化 (differentiable rasterization),并由真实标注图像 (ground-truth images)进行监督,而不是仅仅通过逐视图的坐标预测 (coordinate predictions)。这种全局渲染损失 (global rendering loss)强制了视图之间的一致性,从而产生了更平滑、更连贯的重建结果(如原文 Figure 4 所示)。
4.2.4. 两阶段训练 (Two Stage Training)
论文观察到,同时优化 相对坐标图 (RCM) 和 渲染目标 (rendering objective) 常常导致训练不稳定。正如原文 Figure 5 所示,网络难以准确地定位物体几何并保持多视图一致性,导致物体出现错位或空洞。这发生是因为模型必须同时推理像素级的对齐和全局 三维一致性 (3D consistency),在训练过程中产生了冲突的目标。
为了克服这个挑战,LucidFusion 采用了 两阶段训练 (two-stage training) 方案。
-
第一阶段 (Stage 1): 训练网络学习
RCM表示,并使用基于稳定扩散模型 (stable diffusion-based prior)[11] 的先验 (prior)。这使得模型能够学习从输入图像到RCM的鲁棒映射。 -
第二阶段 (Stage 2): 扩展已学习的
RCM为相对坐标高斯 (RCG)表示,并引入可微分渲染损失 (differentiable rendering loss)来强制三维一致性。通过解耦这些学习阶段,缓解了局部像素对齐和全局几何约束之间的冲突,从而显著稳定了训练过程。
第一阶段:RCM 回归
我们训练一个网络 来学习 RCM 表示。网络 将 张 RGB 图像 (其中 )映射到它们对应的 RCM 。
形式上:
-
:网络 预测的图像 的
相对坐标图 (RCM)。 -
:用于预测
RCM的网络编码器。 -
:第 张输入
RGB图像。我们从前面 Sec. 4.2.2 中描述的公式(即 和 )获取
真实标注 RCM (ground truth RCM),并使用均方误差损失 (Mean Squared Error, MSE loss)来监督预测的RCM: -
:
RCM训练阶段的总损失。 -
:输入图像的总数量。
-
:
均方误差损失函数,计算两个输入之间的平方差的平均值。 -
:网络预测的第 张图像的
RCM。 -
:第 张图像的
真实标注 RCM。 -
解释: 这个损失函数旨在使网络预测的
RCM尽可能接近真实标注 RCM,从而让网络学习到从输入图像到相对坐标的准确映射。第一阶段完成后,网络 作为基础模型,能够可靠地将输入图像转换为
RCM。
第二阶段:RCG 优化与渲染损失
接着,我们扩展输出层以引入 RCG,如 Sec. 4.2.3 所述。具体来说,我们从网络 中提取一个中间 特征图 (feature map) ,并将其传递给一个解码器 来预测 14 通道的 RCG 参数 :
其中,RCG 参数 包含:
-
:第 张图像的
相对坐标高斯 (RCG)参数集合。 -
:用于预测
RCG参数的解码器网络。 -
:从第一阶段网络 中提取的中间
特征图。 -
:
三维坐标 (3D coordinates),作为高斯的中心(实际上是第一阶段RCM的输出)。 -
:
高斯的颜色,由输入图像的颜色 加上一个学习到的颜色偏移 组成。 -
:
高斯的尺度 (scale)参数 (3 个通道)。 -
:
高斯的旋转四元数 (rotation quaternion)(4 个通道)。 -
:
高斯的透明度 (opacity)(1 个通道)。 -
解释: 在第二阶段,模型不仅利用第一阶段学习到的
RCM坐标,还学习高斯的额外参数,从而将RCM扩展为更丰富的RCG表示。我们使用
可微分渲染器 (differentiable renderer)[16] 渲染 个监督视图(即每个输入视图的合成图像 ),并使用其真实标注视图 (ground-truth view)进行监督。为了强制视觉保真度 (visual fidelity),我们采用了MSE损失、来自 [16] 的SSIM损失以及基于VGG的LPIPS损失的组合作为RGB损失: -
:
RGB渲染损失。 -
:权重因子,设置为
0.2(遵循 [16])。 -
:
均方误差损失。 -
:
结构相似性指数 (Structural Similarity Index Measure)损失。 -
:
学习感知图像块相似度 (Learned Perceptual Image Patch Similarity)损失。 -
:由
RCG渲染得到的第 个视图的合成图像。 -
:第 个视图的
真实标注图像。 -
解释:
RGB损失结合了像素级的精确度 (MSE)、结构相似性 (SSIM) 和感知相似性 (LPIPS),以确保渲染图像在多个层面与真实标注图像匹配。为了进一步加速
收敛 (convergence)并增强物体边界,我们还对alpha 通道 (alpha channel)应用MSE损失 [34]: -
:
Alpha通道损失。 -
:由
RCG渲染得到的第 个视图的alpha通道图像(表示透明度或遮罩)。 -
:第 个视图的
真实标注 alpha通道图像。 -
解释:
Alpha损失专注于精确地重建物体的轮廓和透明区域,这对于高质量的三维重建至关重要。因此,第二阶段的总损失由以下公式给出:
-
:第二阶段的总训练损失。
-
解释: 总损失是
RGB渲染损失和alpha通道损失的加权和(这里权重为 1:1)。通过最小化这个总损失,模型在第二阶段学习优化RCG参数,以生成视觉上更准确、几何上更一致的三维重建。
4.2.5. 姿态估计 (Pose Estimation)
如前所述,由于 RCG 的中心被定义为每个像素的空间坐标 (x, y, z),我们可以通过最小化 三维到二维点 (3D-2D point) 对应关系的 重投影误差 (reprojection error) 来估计 相机姿态 (camera pose)。
假设 表示 RCM 视图 中像素 的 三维点位置 (3D point location) (x, y, z),而 表示 RCM 视图 中像素 的 二维像素位置 (2D pixel location)。我们有:
-
:第 个视图的
相机姿态 (camera pose),包含旋转 和平移 。 -
:表示找到使得后续表达式最小的
相机姿态。 -
:对
RCM视图 中的所有 个像素进行求和。 -
:
投影函数 (projection function),将三维点投影到二维图像平面上。 -
:将
三维点从物体坐标系 (object coordinate system)(或相对坐标系 (relative coordinate system))转换到相机坐标系 (camera coordinate system)。其中 是旋转矩阵 (rotation matrix), 是平移向量 (translation vector)。 -
:
真实标注的第 个视图中像素 的二维像素位置。 -
: 欧几里得距离的平方,这里表示
重投影误差。 -
解释: 这个公式的目的是找到最佳的
旋转矩阵和平移向量,使得将RCM中三维点经过 和 变换后,再通过投影函数投影到二维图像平面上的位置,与其实际的二维像素位置之间的误差最小。作者使用
OpenCV[35] 中的RANSAC (Random Sample Consensus)方案来执行PnP求解,并过滤掉非信息性的白色背景点,以避免它们影响姿态预测 (pose prediction)。这使得LucidFusion能够同时进行三维重建和姿态估计。
5. 实验设置
5.1. 数据集
-
训练数据集:
LucidFusion模型是在Objaverse (Objaverse)[6] 数据集的子集上进行训练的。- 特点:
Objaverse是一个包含大量三维对象 (3D objects)的数据集,但原始数据集中存在许多低质量的模型。作者选择了一个高质量的子集,包含大约9.8 万个 (98K)三维对象。 - 数据生成: 对于每个
三维对象,作者生成了总共90 个 (90 views)不同仰角的视图。 - 训练采样: 在训练过程中,会从这
90张视图中随机采样 张视图作为输入。 - 图像参数: 渲染图像的分辨率为 像素,并在均匀照明条件下生成。
-
评估数据集:
- 为了评估模型的
跨数据集泛化能力 (cross-dataset generalization ability),LucidFusion在以下三个数据集上进行了测试:GSO (Google Scanned Objects)[7]ABO (Amazon Berkeley Objects)[5]- [44]
- 评估采样: 作者随机选择了
200 个 (200 objects)对象进行评估。对于每个对象,随机渲染24 个 (24 views)不同仰角的视图,并从中随机选择4 个 (4)视图作为模型的输入,以预测姿态 (pose)和新视角渲染 (novel view rendering)质量。
- 为了评估模型的
5.2. 评估指标
论文使用了多项评估指标来衡量 三维重建 (3D reconstruction) 和 姿态估计 (pose estimation) 任务的性能。
5.2.1. 三维重建评估指标 (3D Reconstruction Evaluation Metrics)
-
PSNR (Peak Signal-to-Noise Ratio, 峰值信噪比):
- 概念定义:
PSNR是一种衡量图像重建质量的客观标准。它表示图像信号的最大可能功率与噪声功率之间的比率。通常,PSNR值越高,表示重建图像与原始图像之间的失真越小,图像质量越好。它是一个基于像素差异的指标。 - 数学公式:
其中,
MSE(Mean Squared Error, 均方误差) 的计算公式为: - 符号解释:
- : 图像中像素可能的最大值(例如,对于 8 位灰度图像,其值为 255)。
MSE:均方误差,衡量两幅图像像素值差异的平方的平均值。I(i,j): 原始(真实标注)图像在坐标(i,j)处的像素值。K(i,j): 噪声(或重建)图像在坐标(i,j)处的像素值。m, n: 图像的行数和列数。
- 概念定义:
-
SSIM (Structural Similarity Index Measure, 结构相似性指数):
- 概念定义:
SSIM是一种更符合人类视觉感知系统 (Human Visual System, HVS) 的图像质量评估指标。它从三个关键方面(亮度、对比度和结构)来衡量两幅图像的相似性。SSIM值介于 -1 和 1 之间,值越接近 1,表示两幅图像越相似,质量越高。 - 数学公式:
- 符号解释:
- : 图像 的像素值。
- : 图像 的像素值。
- : 图像 的平均亮度。
- : 图像 的平均亮度。
- : 图像 的方差(衡量对比度)。
- : 图像 的方差(衡量对比度)。
- : 图像 和 的协方差(衡量结构相似性)。
- , : 用于稳定除法的小常数,以避免分母为零。 是像素值的动态范围(例如,对于 8 位图像, ), 是非常小的常数(例如 )。
- 概念定义:
-
LPIPS (Learned Perceptual Image Patch Similarity, 学习感知图像块相似度):
- 概念定义:
LPIPS是一种基于深度学习 (deep learning)的感知图像质量评估指标。它通过使用在图像识别任务上预训练的卷积神经网络 (Convolutional Neural Network, CNN)(如 VGG、AlexNet)来提取图像的特征,然后在特征空间中计算两幅图像之间距离。LPIPS值越小,表示两幅图像在感知上越相似,即人类认为它们越接近。它比传统的PSNR和SSIM更能捕捉人类的感知差异。 - 数学公式:
- 符号解释:
- : 两张待比较的图像(例如,
真实标注图像和生成图像)。 - : 表示预训练
CNN的不同层(通常是中间层)。 - : 预训练
CNN第 层的特征提取函数。 - : 第 层
特征图 (feature map)的高度和宽度。 - : 每一通道的
缩放因子 (scaling factor),通过在验证集上训练线性层得到。 - : 元素级乘法。
- :
L2 范数 (L2 norm)的平方,表示特征向量之间的欧几里得距离 (Euclidean distance)。
- : 两张待比较的图像(例如,
- 概念定义:
5.2.2. 姿态估计评估指标 (Pose Estimation Evaluation Metrics)
- Rot. error (Rotation error, 旋转误差):
- 概念定义: 衡量预测
相机旋转 (camera rotation)与真实标注旋转 (ground truth rotation)之间差异的误差。通常表示为角度(度)。报告的是中值误差 (median error),即所有误差值排序后的中间值。值越小越好。
- 概念定义: 衡量预测
- T. error (Translation error, 平移误差):
- 概念定义: 衡量预测
相机平移 (camera translation)与真实标注平移 (ground truth translation)之间差异的误差。通常表示为距离(如米)。报告的是中值误差。值越小越好。
- 概念定义: 衡量预测
- Acc. @15° (Accuracy @15°, 15 度精度):
- 概念定义: 指
旋转误差小于或等于 15 度阈值的测试样本所占的百分比。值越高越好。
- 概念定义: 指
- Acc. @30° (Accuracy @30°, 30 度精度):
- 概念定义: 指
旋转误差小于或等于 30 度阈值的测试样本所占的百分比。值越高越好。
- 概念定义: 指
5.2.3. 消融实验评估指标 (Ablation Study Evaluation Metric)
- Chamfer Distance (倒角距离):
- 概念定义:
倒角距离是一种衡量两个点云 (point clouds)之间相似度的指标。它计算一个点云中的每个点到另一个点云中最近点的距离的平方和,然后反向计算另一个点云中的每个点到第一个点云中最近点的距离的平方和,并将这两个和相加。倒角距离值越小,表示两个点云越相似。 - 数学公式:
- 符号解释:
- : 两个待比较的
点云。 - :
点云和 中点的数量。 - :
点云中的一个点。 - :
点云中的一个点。 - : 最小值操作,找到最近点。
- : 欧几里得距离的平方,衡量两个点之间的空间距离。
- : 两个待比较的
- 概念定义:
5.3. 对比基线
在实验中,LucidFusion 的性能与以下几种基线模型进行了比较:
-
重建任务基线 (Reconstruction Baselines):
- iFusion [43]: 一个近期开源的、基于优化的无姿态重建方法,利用
Zero123预测进行姿态对齐 (pose alignment)。 - LGM [34] (Large Multi-view Gaussian Model): 一个
前馈 (feed-forward)式模型,用于从给定相机姿态的多视图图像中生成三维高斯 (3D Gaussians)。 - InstantMesh [46]: 另一个
前馈式模型,用于从单图像高效生成三维网格 (3D mesh),通常也需要相机姿态。 - CRM [42] (Convolutional Reconstruction Model): 单图像到
三维纹理网格 (3D textured mesh)的卷积重建模型。 - Flux [18]: 一个
文本到图像 (Text-to-Image, T2I)扩散模型 (diffusion model),在单图像到三维设置中用于生成多视图输入。
- iFusion [43]: 一个近期开源的、基于优化的无姿态重建方法,利用
-
姿态估计任务基线 (Pose Estimation Baselines):
-
RelPose++ [23]: 一种
前馈方法,用于从稀疏视图观察中恢复6D 姿态。 -
iFusion [43]: 如上所述,尽管是基于优化,但也被用作姿态估计的基线。
选择这些基线的原因在于它们代表了当前
三维重建和姿态估计领域的不同主流方法:有的是无姿态 (pose-free)且基于优化,有的是前馈但需要姿态,有的是单图像到三维,从而能够全面评估LucidFusion在处理无姿态稀疏输入方面的优势。
-
6. 实验结果与分析
6.1. 核心结果分析
6.1.1. 三维重建结果 (Reconstruction Results)
-
稀疏视图设置下的重建性能: 论文首先在稀疏视图(4个输入视图)设置下,将
LucidFusion与iFusion[43](无姿态)、LGM[34] 和InstantMesh[46](需提供姿态)进行了比较。对于LGM和InstantMesh,作者提供了真实标注姿态 (ground truth pose)。评估指标包括PSNR、SSIM和LPIPS。以下是原文 Table 2 的结果: 以下是原文 Table 2 的结果:
GSO ABO PSNR↑ SSIM↑ LPIPS↓ PSNR↑ SSIM↑ LPIPS↓ iFusion [43] 17.21 0.852 0.180 17.54 0.853 0.180 LGM [34] 19.61 0.872 0.131 19.89 0.873 0.131 InstantMesh [46] 20.75 0.894 0.127 20.98 0.901 0.129 Ours 25.97 0.930 0.070 25.98 0.917 0.088 分析:
- 从
Table 2可以看出,LucidFusion在GSO和ABO数据集上的PSNR、SSIM和LPIPS指标上都显著优于所有基线方法。例如,在GSO数据集上,LucidFusion的PSNR达到25.97,远高于InstantMesh的20.75;LPIPS仅为0.070,远低于InstantMesh的0.127,这表明LucidFusion能够生成感知质量更高、几何细节更准确的三维重建 (3D reconstructions)。 - 这证明了
LucidFusion方法在处理稀疏视图和无姿态输入方面的优越性,即使与提供了真实标注姿态的LGM和InstantMesh相比,LucidFusion的性能也更强。
- 从
-
定性比较: 下图(原文 Figure 6)展示了在稀疏视图设置下,
LucidFusion与iFusion[43]、InstantMesh[46] 和LGM[34] 的定性比较结果。
分析:- 从
Figure 6可以看出,LucidFusion能够生成更清晰、细节更丰富的三维模型 (3D models)。 - 对于第一行
ABO数据集中的物体,LucidFusion的重建结果在几何和纹理上都更忠实于原物体。 - 对于第二行“野外捕捉”的图像,即使
LGM和InstantMesh提供了LucidFusion预测的姿态,它们在重建物体时仍然表现出困难,可能是因为它们过度拟合了固定相机位置 (camera position)的输入。而LucidFusion能够提供更好的几何和视觉质量。这进一步突出了LucidFusion在任意未定姿态输入方面的鲁棒性。
- 从
-
单图像到三维设置下的重建性能: 为了展示
LucidFusion的灵活性,论文还评估了其在标准的单图像到三维 (single-image-to-3D)范式下的性能。在这种设置中,作者使用Flux[18]扩散模型 (diffusion model)生成多视图。以下是原文 Table 3 的结果: 以下是原文 Table 3 的结果:
GSO ABO PSNR↑ SSIM↑ LPIPS↓ PSNR↑ SSIM↑ LPIPS↓ CRM [42] 16.74 0.858 0.177 19.23 0.871 0.169 LGM [34] 14.31 0.824 0.186 16.03 0.861 0.181 InstantMesh [46] 16.84 0.864 0.177 19.73 0.873 0.168 Ours 16.91 0.862 0.177 19.51 0.873 0.168 分析:
-
从
Table 3可以看出,在单图像到三维范式下,LucidFusion的性能与现有基线方法(CRM、InstantMesh)基本持平。例如,LucidFusion在GSO上的PSNR为16.91,与InstantMesh的16.84和CRM的16.74非常接近。 -
这表明
LucidFusion不仅在处理无姿态稀疏视图时表现出色,也能够有效地集成到现有的单图像到三维工作流中,展现了其良好的通用性和兼容性。 下图(原文 Figure 7)展示了LucidFusion在结合多视图扩散模型 (multi-view diffusion model)后的重建效果。
分析: -
Figure 7展示了LucidFusion如何利用多视图扩散模型的输出,忠实地生成512x512高分辨率的结果。这进一步证明了其与现有生成管道的良好兼容性。
-
-
模型泛化能力: 下图(原文 Figure 8)展示了
LucidFusion在不同数据源上的泛化能力。
分析:Figure 8的前三行展示了LucidFusion与文本到图像 (Text-to-Image, T2I)Flux[18] 模型结合,从T2I生成的图像中重建三维物体。- 后两行展示了从
扫描物体 (scanned object)和野外捕捉物体 (in-the-wild captured object)的图像中进行重建。 - 结果显示,
LucidFusion能够以512x512的分辨率生成高质量结果,即使在面对只有任意数量的稀疏输入视图的真实世界应用中,也展示了其强大的泛化能力 (generalization ability)。
6.1.2. 姿态估计结果 (Pose Estimation Results)
论文将 LucidFusion 与 前馈 (feed-forward) 方法 [23] 和近期开源的基于 优化 (optimization) 的方法 iFusion [43] 进行了比较。评估指标包括 旋转中值误差 (median error in rotation)、平移中值误差 (median error in translation),以及 15° 和 30° 阈值下的 相对旋转精度 (relative rotation accuracy)。
以下是原文 Table 1 的结果: 以下是原文 Table 1 的结果:
| Dataset | Method | Rot. error↓ | Acc. @15°↑ | Acc. @30° ↑ | T.error↓ |
| GSO | RelPose++ [23] | 101.24 | 0.014 | 0.087 | 1.75 |
| iFusion [43] | 107.29 | 0.011 | 0.086 | 1.05 | |
| Ours | 11.50 | 0.93 | 0.99 | 0.16 | |
| ABO | RelPose++ [23] | 103.23 | 0.016 | 0.092 | 1.74 |
| iFusion [43] | 102.68 | 0.016 | 0.094 | 1.13 | |
| Ours | 19.40 | 0.77 | 0.84 | 0.17 | |
| 003D | RelPose++ [23] | 104.23 | 0.017 | 0.092 | 1.78 |
| iFusion [43] | 106.95 | 0.012 | 0.086 | 1.18 | |
| Ours | 12.91 | 0.85 | 0.97 | 0.13 |
分析:
- 从
Table 1可以看出,LucidFusion在GSO、ABO和003D三个数据集上的姿态预测 (pose prediction)任务中,持续显著优于 和iFusion。 LucidFusion的旋转误差 (Rot. error)和平移误差 (T. error)大幅降低。例如,在GSO上,LucidFusion的旋转误差仅为11.50,而 和iFusion都超过100。- 同时,
LucidFusion的@15°和@30°精度 (Accuracy)显著提高,在GSO上分别达到0.93和0.99,表明其姿态估计结果的准确性非常高。 - 值得注意的是,
iFusion是一个基于优化 (optimization)的方法,每个对象需要约 5 分钟的优化时间,而LucidFusion则通过单次前馈 (feed-forward)传递即可恢复姿态和物体形状 (object shapes),这展示了LucidFusion在实际应用中卓越的效率优势。
6.2. 消融实验/参数分析
6.2.1. RCG 的重要性 (Importance of RCG)
下图(原文 Figure 9)展示了第一阶段(仅 RCM)和第二阶段(引入 RCG 和 渲染监督 (rendering supervision))生成 点云 (point clouds) 的可视化结果,并给出了相应的 倒角距离 (Chamfer Distance)。
分析:
Figure 9展示了从RCG派生出的点云。从图中可以看出,与仅通过RCM获得的点云相比,引入RCG后(第二阶段),重建的点云更加平滑和连贯。倒角距离 (Chamfer Distance)的数值也支持这一观察。第二阶段的倒角距离显著低于第一阶段,例如,第一行的CD从0.0078降至0.0057,这表明RCG及其带来的渲染监督能够强制全局三维一致性 (global 3D consistency),从而生成更高质量的几何重建。- 这验证了
RCG作为RCM扩展的有效性,它通过引入三维高斯 (3D Gaussians)表示和可微分渲染 (differentiable rendering),解决了RCM阶段可能出现的噪声和不一致问题。
6.2.2. 训练方案 (Training Scheme)
下图(原文 Figure 5)比较了单阶段训练和两阶段训练的效果。
分析:
Figure 5清晰地表明,如果模型同时优化RCM和渲染目标 (rendering objective)(单阶段训练),会导致训练不稳定 (training instability)。在这种情况下,模型难以准确地定位物体几何并维持多视图一致性 (multi-view consistency),从而产生错位和空洞。图中下方左侧的单阶段训练结果显示高斯位置 (Gaussian locations)预测不准确。- 相比之下,两阶段训练方案解决了这个问题。第一阶段首先通过
RCM监督学习像素级对齐 (per-pixel alignment)。在此基础上,第二阶段再扩展到RCG并利用渲染监督来确保三维一致性。这种解耦 (decoupling)学习策略有效缓解了局部像素对齐和全局几何约束之间的冲突,显著稳定了训练过程,使模型能够生成更准确、更完整的重建结果(图中下方右侧的两阶段训练结果)。
6.2.3. 高斯透明度作为置信度 (Gaussians Opacity as Confidence)
下图(原文 Figure 10)展示了预测的 RCM 和从 RCG 提取的 透明度 (opacity) 作为 置信度图 (confidence map) 的可视化。
分析:
Figure 10展示了RCG的一个重要特性:高斯透明度 (Gaussians Opacity)可以作为一种置信度测量 (confidence measure)。- 在没有
RCG细化的情况下,多视图错位 (multi-view misalignment)可能导致冲突,因为模型直接将图像像素映射到三维点 (3D points),从而产生几何模糊性 (geometric ambiguities)。 - 然而,
RCG的透明度能够有效地过滤掉输入图像中相互冲突的区域。在冲突或不确定的区域,模型会降低高斯的透明度,而在确定性高的区域则保持较高的透明度。 - 这使得模型能够更好地融合
多视图信息 (multi-view information),避免了因冲突区域导致的噪声 (noise)和伪影 (artifacts),从而保持了高质量的物体渲染。这进一步强调了RCG在实现鲁棒三维重建 (robust 3D reconstruction)中的关键作用。
7. 总结与思考
7.1. 结论总结
本文提出了 LucidFusion 框架,这是一个灵活、端到端的 前馈 (feed-forward) 三维重建 (3D reconstruction) 解决方案。其核心创新在于引入了 相对坐标高斯 (Relative Coordinate Gaussians, RCG) 这一新颖表示,旨在实现不同视图之间 几何特征 (geometric features) 的连贯对齐。LucidFusion 的工作流程首先将 RGB 输入图像映射到 相对坐标图 (Relative Coordinate Map, RCM) 表示,然后将其扩展为 RCG,从而能够同时重建物体并恢复 姿态 (pose),所有这些都通过 前馈 方式完成。
该方法成功地缓解了 三维重建 管道对显式 姿态估计 (pose estimation) 的要求,并在多种场景下生成了高质量的输出。LucidFusion 还能无缝集成到传统的 单图像到三维 (single-image-to-3D) 管道中,进一步证明了其作为 三维对象重建 (3D object reconstruction) 多功能工具的潜力。这项工作为未来 三维重建 领域的研究开辟了新途径。
7.2. 局限性与未来工作
论文作者指出了 LucidFusion 存在的几点局限性,并提出了未来可能的研究方向:
-
仅能渲染位于场景中心的物体,不包含背景: 当前模型只能重建和渲染位于场景中心的
前景物体 (foreground objects),而无法处理背景信息。- 未来工作: 作者假设在训练过程中将
背景信息 (background information)整合到RCG表示中可以解决这个问题。这意味着需要RCG能够编码和渲染更复杂的场景,而不仅仅是孤立的物体。
- 未来工作: 作者假设在训练过程中将
-
模型仅在
Objaverse数据上进行训练: 当前模型主要在Objaverse数据集的子集上进行训练,这可能限制了其在多样化场景 (diverse scenes)或不同物体类别 (different object categories)上的泛化能力 (generalization ability)。- 未来工作: 作者建议未来的工作可以探索在更广泛的数据集上进行训练,以增强
RCG表示的鲁棒性。这可能包括不同类型的物体、更复杂的纹理、或真实世界中具有挑战性的光照和遮挡条件。
- 未来工作: 作者建议未来的工作可以探索在更广泛的数据集上进行训练,以增强
7.3. 个人启发与批判
7.3.1. 个人启发
这篇论文提供了一些非常重要的启发:
-
重新定义问题的重要性:
LucidFusion将三维重建任务重新定义为图像到图像转换,这一根本性的转变是其成功的关键。它表明,当传统方法受限于特定假设(如已知相机姿态)时,重新审视和重新框架化问题可能带来突破性的解决方案。这种思路可以迁移到其他领域,鼓励研究人员跳出传统范式。 -
中间表示设计的艺术:
RCM和RCG的设计非常巧妙。RCM解决了规范坐标图 (CCM)的方向模糊性 (orientation ambiguity),通过引入“相对性”的概念,降低了模型的学习难度。这体现了在设计中间表示时,考虑领域内特定问题和限制的精妙。RCG将RCM扩展为三维高斯 (3D Gaussians),并引入可微分渲染 (differentiable rendering)监督,这是一种将2D 图像特征 (2D image features)与3D 几何一致性 (3D geometric consistency)有机结合的有效方式。它证明了即使在前馈 (feed-forward)模型中,强大的3D 先验 (3D priors)和全局监督 (global supervision)也能显著提升结果质量。
-
分阶段训练策略的实用性: 两阶段训练策略解决了
RCM的像素级对齐和RCG的全局3D 一致性优化之间的冲突。这种解耦 (decoupling)复杂优化目标的策略非常实用,在深度学习 (deep learning)模型的训练中,当多个相互冲突的目标同时优化导致不稳定时,分阶段或渐进式训练往往能带来更好的效果。 -
无姿态重建的巨大潜力: 能够从任意未定姿态图像进行
三维重建,是计算机视觉 (computer vision)和图形学 (graphics)领域的一个长期目标。LucidFusion的前馈和高效特性,使其在增强现实 (Augmented Reality, AR)、虚拟现实 (Virtual Reality, VR)、机器人 (robotics)和三维内容创作 (3D content creation)等实时或对用户体验要求高的应用中具有巨大潜力。
7.3.2. 批判与改进
尽管 LucidFusion 取得了令人印象深刻的成果,但仍有一些潜在问题或可以改进的地方:
-
背景处理的局限性: 论文明确指出了模型目前只能渲染位于场景中心的物体,不包含背景。这在实际应用中是一个重要的限制。大多数真实世界的
三维重建都需要处理复杂的场景,包括背景、遮挡和多物体交互。- 改进方向: 如作者所提,将
背景信息纳入RCG表示是一个方向。这可能涉及到对RCG进行扩展,使其能够区分前景 (foreground)和背景 (background)高斯,或者学习场景的环境光照 (environmental lighting)。这会增加模型的复杂性,但能极大拓展其应用范围。
- 改进方向: 如作者所提,将
-
对
三维高斯泼溅 (3D Gaussian Splatting)的依赖:LucidFusion严重依赖3D Gaussian Splatting技术。虽然3DGS渲染速度快、质量高,但它仍然是一种点云 (point cloud)类型的表示,可能在某些应用中不如网格 (mesh)或体素 (voxel)等结构化表示灵活。例如,对于需要进行物理模拟或 CAD 编辑的应用,网格结构可能更优。- 改进方向: 可以探索从
RCG派生出其他三维表示的可能性,例如通过可微分体素化 (differentiable voxelization)或可微分网格化 (differentiable meshing),以满足不同的下游任务需求。
- 改进方向: 可以探索从
-
计算资源消耗:
RCG将每个像素扩展为 14 个通道的高斯参数,这意味着高分辨率图像会产生大量的三维高斯。虽然3DGS渲染高效,但存储和管理如此庞大的高斯集合,尤其是在移动设备等资源受限的环境中,仍可能是一个挑战。- 改进方向: 可以探索
稀疏化 (sparsification)或自适应采样 (adaptive sampling)策略,只为重要区域生成高斯,或者在RCG中引入层次结构 (hierarchical structure)来优化存储和渲染效率。
- 改进方向: 可以探索
-
“主视图”选择的随机性:
RCM依赖于随机选择一个“主视图”来对齐所有其他视图。虽然这有助于泛化 (generalization),但在极端情况下,如果随机选择的主视图质量不佳(例如,过度模糊、遮挡严重),是否会影响整体重建质量?- 改进方向: 可以探索更智能的
主视图选择策略 (main view selection strategy),例如基于图像质量、信息量或与其它视图的平均重叠度来选择最佳主视图,以进一步提高鲁棒性。
- 改进方向: 可以探索更智能的
-
训练数据多样性: 论文指出当前模型仅在
Objaverse数据集上训练。尽管Objaverse规模庞大,但其三维模型的风格和类型仍可能存在限制。-
改进方向: 在更广泛、更多样化的
真实世界数据集上进行训练,可以提高模型对不同物体类别、材质、光照和背景复杂度的适应性,使其在实际部署中更加稳健。总的来说,
LucidFusion在无姿态三维重建领域取得了显著进展,其创新的RCM/RCG框架和两阶段训练策略具有很强的启发性。未来的工作可以着重于解决其在背景处理、表示多样性和资源效率方面的局限性,从而将其推向更广泛的实际应用。
-
相似论文推荐
基于向量语义检索推荐的相关论文。