AiPaper
论文状态:已完成

ReconViaGen: Towards Accurate Multi-view 3D Object Reconstruction via Generation

发表:2025/10/27
原文链接PDF 下载
价格:0.10
价格:0.10
已有 5 人读过
本分析由 AI 生成,可能不完全准确,请以原文为准。

TL;DR 精炼摘要

ReconViaGen创新融合扩散3D生成先验与多视图重建,解决了交叉视图特征融合不足和局部细节去噪控制难题,有效生成与输入视图高度一致的完整3D模型,显著提升遮挡和稀疏视角下多视图3D重建的准确性与细节连贯性。

摘要

Existing multi-view 3D object reconstruction methods heavily rely on sufficient overlap between input views, where occlusions and sparse coverage in practice frequently yield severe reconstruction incompleteness. Recent advancements in diffusion-based 3D generative techniques offer the potential to address these limitations by leveraging learned generative priors to hallucinate invisible parts of objects, thereby generating plausible 3D structures. However, the stochastic nature of the inference process limits the accuracy and reliability of generation results, preventing existing reconstruction frameworks from integrating such 3D generative priors. In this work, we comprehensively analyze the reasons why diffusion-based 3D generative methods fail to achieve high consistency, including (a) the insufficiency in constructing and leveraging cross-view connections when extracting multi-view image features as conditions, and (b) the poor controllability of iterative denoising during local detail generation, which easily leads to plausible but inconsistent fine geometric and texture details with inputs. Accordingly, we propose ReconViaGen to innovatively integrate reconstruction priors into the generative framework and devise several strategies that effectively address these issues. Extensive experiments demonstrate that our ReconViaGen can reconstruct complete and accurate 3D models consistent with input views in both global structure and local details.Project page: https://jiahao620.github.io/reconviagen.

思维导图

论文精读

中文精读

1. 论文基本信息

1.1. 标题

ReconViaGen: Towards Accurate Multi-view 3D Object Reconstruction via Generation

1.2. 作者

Jiahao Chang, Chongjie Ye, Yushuang Wu, Yuantao Chen, Yidan Zhang, Zhongjin Luo, Chenghong Li, Yihao Zhi, Xiaoguang Han 等。 他们主要隶属于香港中文大学(深圳)的科学与工程学院以及未来网络智能研究院。

1.3. 发表期刊/会议

arXiv 预印本。

1.4. 发表年份

2025年。根据 Published at (UTC):2025-10-27T13:15:06.000Z

1.5. 摘要

现有的多视图三维对象重建方法严重依赖于输入视图之间足够的重叠,但在实际应用中,遮挡和稀疏覆盖常常导致严重的重建不完整性。近期基于扩散的3D生成技术,通过利用学习到的生成先验来“幻化(hallucinate)”物体不可见的部分,从而生成合理的三维结构,有望解决这些局限性。然而,推断过程的随机性限制了生成结果的准确性和可靠性,阻碍了现有重建框架整合此类3D生成先验。

本研究全面分析了基于扩散的3D生成方法难以实现高一致性的原因,包括: (a) 在提取多视图图像特征作为条件时,构建和利用交叉视图连接的不足; (b) 局部细节生成过程中迭代去噪的可控性差,这很容易导致与输入视图 plausible(合理)但不一致的精细几何和纹理细节。

因此,本文提出了 ReconViaGen,创新性地将重建先验整合到生成框架中,并设计了几种有效解决这些问题的策略。大量的实验表明,ReconViaGen 能够在全局结构和局部细节上重建与输入视图一致的完整且准确的3D模型。

1.6. 原文链接

原文链接: https://arxiv.org/abs/2510.23306 PDF 链接: https://arxiv.org/pdf/2510.23306v1.pdf 状态: arXiv 预印本。

2. 整体概括

2.1. 研究背景与动机

多视图3D对象重建 (Multi-view 3D Object Reconstruction) 是3D计算机视觉领域的一个基础且极具挑战性的任务,在VRAR3D建模等领域有广泛应用。

现有挑战:

  • 依赖充足视觉线索: 现有方法(如 NeRF3D Gaussians)通常依赖于输入视图之间足够的重叠和视觉线索来估计物体的3D结构和外观。
  • 重建不完整性: 在面对弱纹理物体、遮挡或稀疏视角采集时,这些方法会产生带有空洞、伪影或细节模糊的3D模型,导致重建结果不完整 (reconstruction incompleteness)。这是当前多视图3D重建面临的核心问题。
  • 生成模型的一致性问题: 近期基于扩散的3D生成技术展现了通过“幻化(hallucinate)”不可见部分来生成完整3D结构的潜力。然而,扩散推断过程的随机性 (stochastic nature) 导致生成结果的准确性和可靠性不足,特别是在像素级对齐方面表现出与输入图像强烈的局部不一致性 (inconsistency)。这使得将3D生成先验有效整合到现有重建框架中变得困难。

本文的切入点: 本文旨在弥合3D重建(追求准确性和一致性但常不完整)与3D生成(追求完整性但常缺乏一致性)之间的鸿沟。作者分析了扩散生成模型在3D重建任务中表现不佳的两个关键原因:

  1. 交叉视图连接不足: 在提取多视图图像特征作为条件时,未能充分构建和利用交叉视图关联。
  2. 去噪过程控制性差: 在局部细节生成时,迭代去噪过程缺乏精确控制。 针对这些问题,本文提出了一种创新框架,旨在整合重建先验和生成先验,以实现既完整又与输入图像高度一致的3D重建。

2.2. 核心贡献/主要发现

本文的主要贡献和发现可以总结如下:

  1. 提出了新颖的 ReconViaGen 框架: 首次将强大的重建先验深度整合到基于扩散的3D生成框架中,实现了准确且完整的多视图3D对象重建 (multi-view 3D object reconstruction)。其关键设计是通过聚合富含重建先验的图像特征作为多视图感知的扩散条件。
  2. 创新性的多阶段生成范式与机制:
    • 采用了**粗到精 (coarse-to-fine)生成范式**,利用全局几何条件 (Global Geometry Condition, GGC)局部单视图条件 (Local Per-View Condition, PVC)`分别引导准确的粗结构和精细几何与纹理细节的生成。
    • 引入了新颖的**渲染感知速度补偿 (Rendering-aware Velocity Compensation, RVC)机制**,在推理阶段约束局部隐式表示 (local latent representations)的去噪轨迹,以实现像素级的对齐。
  3. 超越现有SOTA性能:Dora-benchOmniObject3D 数据集上进行了大量实验,结果表明 ReconViaGen全局形状准确性 (global shape accuracy)完整性 (completeness)以及局部几何和纹理细节 (local details in geometry and textures)方面均达到了最先进的 (state-of-the-art, SOTA)性能。

3. 预备知识与相关工作

3.1. 基础概念

理解本文需要掌握以下核心技术和概念:

3.1.1. 多视图3D对象重建 (Multi-view 3D Object Reconstruction)

概念定义: 这是一项从多张不同视角的2D图像(通常带有已知的相机参数,或需要同时估计相机参数)中,重建出目标物体3D形状和外观的任务。其目标是生成一个能准确表示物体几何和纹理的3D模型,例如网格 (mesh)、点云 (point cloud)、神经辐射场 (Neural Radiance Fields, NeRF) 或3D高斯溅射 (3D Gaussian Splatting, 3DGS)。

3.1.2. 扩散模型 (Diffusion Model)

概念定义: 扩散模型 (Diffusion Model) 是一类深度生成模型,它通过模拟数据逐渐被高斯噪声污染的过程(前向扩散过程),然后学习如何逆转这个过程(逆向去噪过程)来生成新的数据。在逆向过程中,模型从随机噪声开始,逐步去除噪声,最终生成高质量的样本。 工作原理:

  1. 前向扩散过程: 将数据(如图像)逐步添加高斯噪声,直到数据完全变成纯噪声。这个过程是固定的、马尔可夫链式的,可以通过数学公式精确描述。
  2. 逆向去噪过程: 模型学习如何从任意一个噪声状态预测并减去噪声,从而一步步恢复原始数据。这个过程通常由一个深度神经网络(如U-Net)来参数化。 特点: 扩散模型在图像生成领域展现了极高的质量和多样性,但其迭代去噪的随机性在需要精确对齐的任务中可能导致不一致性。

3.1.3. 生成先验 (Generative Prior)

概念定义: 生成先验 (Generative Prior) 是指从大规模数据中学习到的关于数据分布的隐含知识。在生成模型中,它表示模型通过学习能够生成符合真实世界数据特征的、合理且高质量的输出的能力。例如,一个在大量3D物体上训练的生成模型会“知道”常见的物体形状和纹理模式,即使输入不完整,它也能利用这些“知识”来补全缺失部分。

3.1.4. 重建先验 (Reconstruction Prior)

概念定义: 重建先验 (Reconstruction Prior) 是指从大量重建数据中学习到的关于3D几何、深度和相机姿态之间关系的显式或隐含知识。它通常由专门训练用于3D重建任务的模型提供,能够从多视图输入中估计出准确的几何信息(如深度图、点云)和相机参数。重建先验强调的是对输入视觉信息的忠实还原和几何准确性。

3.1.5. 3D高斯溅射 (3D Gaussian Splatting, 3DGS)

概念定义: 3DGS 是一种新兴的3D表示和渲染技术,它使用一组3D高斯球来表示场景或物体。每个高斯球都有自己的位置、尺度、方向、透明度和颜色信息。与传统的体素或网格表示相比,3DGS 能够实现高质量的渲染,同时在训练和渲染速度上具有优势。在重建任务中,它提供了一种紧凑且可微的3D表示。

3.1.6. LoRA (Low-Rank Adaptation)

概念定义: LoRA 是一种参数高效的微调 (fine-tuning)技术,用于大型预训练模型。它通过在模型原有权重矩阵的旁边插入一对低秩矩阵来训练,而不是直接修改原始权重。这样,在微调时只需要更新这些低秩矩阵的参数,大大减少了可训练参数的数量,从而降低了计算和存储成本,同时也能保持甚至提高模型性能。

3.2. 前人工作

本文在3D生成和3D重建这两个紧密相关的领域中展开,并融合了两者的优势。

3.2.1. 单视图3D生成 (Single-view 3D Generation)

  • 基于2D先验的方法: 这类方法利用预训练的2D扩散模型(如Stable Diffusion)来生成多视图图像,然后通过视图融合 (view fusion) 或优化过程 (optimization pipeline) 获得3D输出。例如 DreamFusion 及其后续工作,它们从2D模型中提取3D知识。
  • 3D原生生成方法: 这类方法直接在3D表示上应用扩散模型,例如点云 (point clouds)、体素网格 (voxel grids)、三平面 (Triplanes) 或3D高斯 (3D Gaussians)。最近的3D潜在扩散模型 (3D latent diffusion) 进一步提高了生成质量。然而,这些方法通常存在生成变化大、与输入图像不一致或对输入视角依赖性强的问题,难以直接用于精确3D对象重建。

3.2.2. 多视图3D重建 (Multi-view 3D Reconstruction)

  • 传统多视图立体匹配 (Multi-view Stereo, MVS): 这类方法通过三角化 (triangulating) 多个校准图像之间的对应关系来重建物体的可见表面。例如 COLMAP
  • 基于学习的MVS方法: 利用深度神经网络提升重建质量和计算效率。
  • 场景特定NeRF方法: 通过捆集调整 (bundle adjustment)联合优化相机参数和辐射场,从密集视图中重建场景。
  • 大型重建模型 (Large Reconstruction Models):
    • DUSt3R 及其后续工作能够从配对或更多视图中联合估计点云和相机姿态,摆脱了对已知相机参数的依赖。但其点云表示容易导致重建结果不完整。
    • 针对对象重建,一些大型模型通过回归更紧凑或结构化的3D表示(如3D高斯、三平面)来生成完整重建,但通常需要固定视角的输入。
    • 后续方法支持无姿态重建 (pose-free reconstructions),但往往会预测平滑和模糊的细节,尤其是在不可见区域。

3.2.3. 3D对象重建中的生成先验 (Generative Priors in 3D Object Reconstruction)

  • 基于2D扩散生成先验: 这类方法主要用于单视图3D重建,通过首先生成合理的多视图图像,然后进行重建。例如 iFusion 利用 Zero123 的预测结果在优化管线中对齐姿态并生成新视图。但视图间的不一致性依然限制了性能。
  • 基于回归的3D生成先验: 这类方法通过回归一个统一的紧凑3D表示(如3D神经体、三平面、3D高斯)来避免2D生成中的不一致问题。然而,扩散生成先验在生成几何和纹理细节方面通常优于回归先验。

3.3. 技术演进

3D重建领域的技术演进经历了从早期的传统几何方法(如MVS)基于深度学习的MVS,再到隐式神经表示(如NeRF)的转变。近年来,大型重建模型的兴起使得从稀疏或无姿态输入中进行重建成为可能。与此同时,3D生成领域也从基于GAN等模型的2D先验方法,发展到直接在3D表示上操作的3D原生扩散模型,极大地提升了生成质量和多样性。

本文的工作处于这一演进的交汇点。它认识到纯重建方法在完整性上的局限性和纯生成方法在一致性上的不足。因此,ReconViaGen 尝试将VGGT(一种在姿态估计和3D几何理解上表现强大的大型重建模型)所提供的重建先验,与TRELLIS(一种SOTA 3D生成模型)所提供的生成先验进行创新性融合。这种融合旨在克服各自的弱点,实现既完整又与输入高度一致的3D重建。

3.4. 差异化分析

ReconViaGen 与现有方法的核心区别和创新点在于:

  • 与纯重建方法的区别: 纯重建方法(如VGGT自身)侧重于从可见信息中提取几何,在遮挡和稀疏区域会产生不完整结果。ReconViaGen 引入扩散生成先验,能够“幻化”不可见部分,生成完整的3D模型。
  • 与纯生成方法的区别: 纯生成方法(如TRELLIS-STRELLIS-M)虽然能生成完整3D,但由于扩散过程的随机性,往往与输入图像存在局部细节上的不一致。ReconViaGen 通过引入VGGT的重建先验作为条件,并设计渲染感知速度补偿 (RVC)机制,极大地提升了生成结果与输入图像的像素级对齐 (pixel-level alignment)和一致性。
  • 与基于回归先验的3D重建方法的区别:LucidFusion等方法使用回归模型来预测紧凑3D表示,虽然也能完成重建,但通常在生成精细几何和纹理细节方面不如扩散模型。ReconViaGen 利用了扩散模型在细节生成方面的优势。
  • 核心创新点: ReconViaGen 的创新在于**将重建先验作为强大的多视图感知条件,并引入精细的去噪过程控制机制 (RVC),从而解决了扩散模型在3D重建中面临的交叉视图连接不足去噪可控性差的问题。这使得它能够同时实现全局结构准确性完整性局部细节一致性`。

4. 方法论

4.1. 方法原理

ReconViaGen 旨在通过创新性地将强大的重建先验 (reconstruction priors)扩散式3D生成先验 (diffusion-based 3D generative priors)相结合,实现多视图3D对象重建的准确性与完整性。其核心思想是利用一个预训练的重建器 (VGGT) 来提供丰富的多视图感知 (multi-view-aware)的几何和纹理信息,作为3D生成器 (TRELLIS) 的条件,以引导其生成过程。同时,针对扩散模型固有的随机性导致与输入图像不一致的问题,本文引入了渲染感知速度补偿 (Rendering-aware Velocity Compensation, RVC)机制,在推理阶段显式地约束生成过程,以确保像素级的对齐。整个框架采用粗到精 (coarse-to-fine)的生成范式,首先生成粗略的结构,再细化至精细的纹理网格。

4.2. 核心方法详解

4.2.1. 预备知识 (Preliminary)

给定一组 NN 张输入图像 I={Ii}i=1NI = \{ I _ { i } \} _ { i = 1 } ^ { N }无姿态多视图重建 (pose-free multi-view reconstruction) 的任务是获取完整的3D对象 OOReconViaGen 框架利用两种强大的先验来实现完整而准确的重建结果:来自 VGGT 的重建先验和来自 TRELLIS 的生成先验。

4.2.1.1. VGGT 的重建先验 (Reconstruction prior of VGGT)

VGGT (Visual Geometry Grounded Transformer)无姿态多视图3D重建 (pose-free multi-view 3D reconstruction)中取得了SOTA结果,提供了一个强大的重建先验。 架构概述:

  1. 特征提取: 多视图图像 II 首先被送入基于DINO (Vision Transformer based on self-supervised learning)ViT (Vision Transformer) Oquab et al. (2024),同时进行词元化 (tokenization) 和特征提取,得到 ϕdino\phi _ { \mathrm { d i n o } }
  2. 3D感知特征: 接着,24个自注意力层 (self-attention layers) 进一步处理 ϕdino\phi _ { \mathrm { d i n o } },将其转换为3D感知特征 {ϕi}i=124\{ \phi _ { i } \} _ { i = 1 } ^ { 24 }。这些层在帧级 (frame-wise)全局 (global)自注意力之间切换,以平衡局部和全局信息,并增强多视图一致性。
  3. 预测头: 最后,四个预测头 (prediction heads) 解码4个层(第4111723层)的输出,即 ϕˉvggt(I)=.{ϕ4,ϕ.11,ϕ17,ϕ24}{ \bar { \phi } _ { \mathrm { v g g t } } ( I ) } \stackrel { . } { = } \{ \phi _ { 4 } , \stackrel { . } { \phi } _ { 11 } , \phi _ { 17 } , \phi _ { 24 } \},用于预测相机参数 (camera parameters)、深度图 (depth map)、点图 (point map) 和跟踪特征 (tracking feature)。

针对对象重建的微调: 为了适应对象重建任务,VGGT 在一个对象重建数据集上进行了微调 (fine-tune)。作者采用了LoRA (Low-Rank Adaptation)技术对 VGGT 聚合器 (aggregator) 进行微调,以保留预训练的3D几何先验。微调的目标是最小化一个多任务损失函数: LVGGT(θ)=Lcamera+Ldepth+Lnmap \mathcal { L } _ { \operatorname { V G G T } } ( \theta ) = \mathcal { L } _ { \operatorname { c a m e r a } } + \mathcal { L } _ { \operatorname { d e p t h } } + \mathcal { L } _ { \operatorname { n m a p } } 符号解释:

  • θ\theta: LoRA 参数,即微调过程中需要更新的低秩矩阵参数。
  • LVGGT(θ)\mathcal { L } _ { \operatorname { V G G T } } ( \theta ): VGGT 的总损失函数,通过优化该损失来更新 LoRA 参数。
  • Lcamera\mathcal { L } _ { \mathrm { { c a m e r a } } }: 相机姿态损失 (camera pose loss),衡量预测相机参数与真实相机参数之间的差异。
  • Ldepth\mathcal { L } _ { \mathrm { d e p t h } }: 深度损失 (depth loss),衡量预测深度图与真实深度图之间的差异。
  • Lnmap\mathcal { L } _ { \mathrm { n m a p } }: 点图损失 (point map loss),衡量预测点图与真实点图之间的差异。 在后续文本中,本文将微调后的 VGGT 简称为 “VGGT”。

4.2.1.2. TRELLIS 的生成先验 (Generation prior of TRELLIS)

TRELLIS Xiang et al. (2024) 是一种SOTA 3D生成模型,提供了强大的生成先验。 Structured LATent (SLAT) 表示: TRELLIS 提出了一种新颖的表示方法,称为 Structured LATent (SLAT)。它结合了稀疏3D网格 (sparse 3D grid) 和从强大的视觉基础模型中提取的密集视觉特征 (dense visual features),这使得 SLAT 能够捕获几何(结构)和纹理(外观)信息,并能解码为多种3D表示。 粗到精两阶段生成管线:

  1. 稀疏结构生成 (SS Flow): 首先生成稀疏结构 (sparse structure, SS),表示为稀疏体素 {pi}iL\{ p _ { i } \} _ { i } ^ { L }
  2. SLAT 生成 (SLAT Flow): 接着为活跃的 SS 体素预测结构化隐变量 SLAT,表示为 X={(pi,xi)}iVX = \{ ( p _ { i } , x _ { i } ) \} _ { i } ^ { V }。 符号解释:
  • p _ { i }: 体素的位置。
  • x _ { i }: 体素对应的隐向量。
  • VV: 体素的数量。 这两个阶段的生成都采用了Rectified Flow Transformers Liuetal.(2022)Liu et al. (2022),并以 DINO 编码的图像特征作为条件。 3D输出解码: SLAT Flow 的结果可以解码为辐射场 (RF)、3D高斯 (3DGS) 或网格 (meshes) 等3D输出,即 O=Dec(x)O = \operatorname { Dec } ( x )条件流匹配 (CFM) 目标: 模型将逆向过程建模为时间相关的向量场 v(x,t)=t(x){ \pmb v } ( x , t ) = \nabla _ { t } ( x ),并通过最小化条件流匹配 (CFM) 目标来训练两个阶段的 transformers vθ{ \pmb v } _ { \theta }LCFM(θ)=Et,x0,ϵvθ(x,t)(ϵx0)22 \mathcal { L } _ { \mathrm { CFM } } ( \theta ) = \mathbb { E } _ { t , x _ { 0 } , \epsilon } \Vert \pmb { v } _ { \theta } ( x , t ) - ( \epsilon - x _ { 0 } ) \Vert _ { 2 } ^ { 2 } 符号解释:
  • θ\theta: transformers 的模型参数。
  • LCFM(θ)\mathcal { L } _ { \mathrm { CFM } } ( \theta ): 条件流匹配损失函数。
  • Et,x0,ϵ\mathbb { E } _ { t , x _ { 0 } , \epsilon }: 对时间 tt、原始数据 x0x_0 和噪声 ϵ\epsilon 的期望。
  • vθ(x,t)\pmb { v } _ { \theta } ( x , t ): 模型预测的在时间 tt 和状态 xx 下的向量场(或速度)。
  • xx: 当前的噪声状态(在扩散过程中)。
  • x0x_0: 原始数据(未加噪声)。
  • ϵ\epsilon: 噪声项。
  • 22\Vert \cdot \Vert _ 2 ^ 2: L2范数的平方,表示预测速度与理想速度之间的差异。 这个损失函数的目标是训练模型,使其预测的向量场能够准确地将当前噪声状态 xx 引导回原始数据 x0x_0

4.2.1.3. 整体概述 (Overview)

ReconViaGen 框架同时进行重建和生成,并以互补的方式利用两种先验。它基于 TRELLIS 来生成完整的3D输出,利用强大的生成先验来合理地“幻化”不可见部分,以弥补重建的局限性。 ReconViaGen 采用粗到精的重建管线:

  1. 第一阶段: 使用预训练的 VGGT 提供全局 (global)局部 (local)层面的重建式多视图条件 (reconstruction-based multi-view conditions)
  2. 第二阶段:全局几何条件局部单视图条件分别输入到 SS FlowSLAT Flow transformers 中,进行多视图感知生成 (multi-view-aware generation)
  3. 最终阶段: 进一步细化从 VGGT 估计的相机姿态(利用生成结果),并在推理阶段引入渲染感知速度补偿 (RVC)机制,以实现与输入视图在细节几何和纹理上的像素级对齐。

4.2.2. 基于重建的条件 (Reconstruction-based Conditioning)

本文将 VGGT 中的重建先验引入,为 TRELLIS 的粗略和详细形状及纹理生成提供强大的多视图感知条件 (multi-view-aware conditions)

4.2.2.1. 全局几何条件 (Global Geometry Condition, GGC)

VGGT 学习了强大的重建先验,能够将显式的3D提升信息编码到多视图图像特征中。因此,本文首先将 VGGT 特征 ϕvggt\phi _ { \mathrm { v g g t } } 聚合成一个全局几何表示 (global geometry representation),作为 SS Flow 的条件,以生成更准确的粗略结构。这里不使用点云等显式重建结果,因为 VGGT 特征包含了更丰富的信息,包括相机姿态、深度、点图和跟踪信息。 通过一个提出的条件网络 (Condition Net)设计(如Figure 2所示),从 ϕvggt\phi _ { \mathrm { v g g t } } 中聚合一个固定长度的词元列表 (token list) T _ { g }。该网络从一个随机初始化的可学习词元列表 TinitT _ { \mathrm { i n i t } } 开始,四个Transformer交叉注意力块 (cross-attention blocks) 逐步将 ϕvggt\phi _ { \mathrm { v g g t } } 的层级特征 (layer-wise features) 与初始词元列表融合,生成 T _ { g }。 其公式表示为: Ti+1=CrossAttn(Q(Ti),K(ϕvggt),V(ϕvggt)),i{0,1,2,3} T ^ { i + 1 } = \mathrm { CrossAttn } \big ( Q ( T ^ { i } ) , K ( \phi _ { \mathrm { v g g t } } ) , V ( \phi _ { \mathrm { v g g t } } ) \big ) , i \in \{ 0 , 1 , 2 , 3 \} 符号解释:

  • Ti+1T ^ { i + 1 }: 第 i+1i+1 步交叉注意力块的输出词元列表。
  • TiT ^ { i }: 第 ii 步交叉注意力块的输入词元列表。
  • T0T ^ { 0 }: 初始化为可学习的 TinitT _ { \mathrm { i n i t } }
  • T3T ^ { 3 }: 最终输出的 全局几何条件 T _ { g }
  • CrossAttn()\mathrm { CrossAttn } (\cdot): 交叉注意力操作。
  • Q(),K(),V()Q(\cdot), K(\cdot), V(\cdot): 分别是用于查询 (query)、键 (key) 和值 (value) 投影的线性层。
  • ϕvggt\phi _ { \mathrm { v g g t } }: VGGT 特征,通过在词元维度上拼接所有视图的特征而得到。 在 SS Flow 的训练阶段,VGGT 层被冻结,条件网络DiT (Diffusion Transformer)一起训练。

4.2.2.2. 局部单视图条件 (Local Per-View Condition, PVC)

单个词元列表条件在细节的几何和纹理生成方面能提供的细粒度信息有限。因此,本文进一步采用条件网络设计来提供局部单视图词元 (local per-view tokens),作为 SLAT Flow 的条件,用于细粒度的几何和纹理细节生成。 为每个视图初始化一个随机词元列表,并将其输入到条件网络中,以生成视图特定的词元列表 Tk,k[1,N]T _ { k } , k \in [ 1 , N ]。 其公式表示为: Tki+1=CrossAttn(Q(Tki),K(ϕkvggt),V(ϕkvggt)),i{0,1,2,3} and k{n}n=1N T _ { k } ^ { i + 1 } = \mathrm { CrossAttn } \big ( Q ( T _ { k } ^ { i } ) , K ( \phi _ { k } ^ { \mathrm { v g g t } } ) , V ( \phi _ { k } ^ { \mathrm { v g g t } } ) \big ) , i \in \{ 0 , 1 , 2 , 3 \} \mathrm { ~ a n d ~ } k \in \{ n \} _ { n = 1 } ^ { N } 符号解释:

  • Tki+1T _ { k } ^ { i + 1 }: 视图 kk 的第 i+1i+1 步交叉注意力块的输出词元列表。
  • TkiT _ { k } ^ { i }: 视图 kk 的第 ii 步交叉注意力块的输入词元列表。
  • ϕkvggt\phi _ { k } ^ { \mathrm { v g g t } }: 第 kk 个视图的 VGGT 特征。 最终,集合 {Tk}k=1N\{ T _ { k } \} _ { k = 1 } ^ { N } 被送入扩散过程。

4.2.3. 粗到精生成 (Coarse-to-Fine Generation)

整个生成过程包含三个阶段:

  1. 通过SS Flow,在全局几何条件 (GGC)下生成粗略结构。
  2. 通过SLAT Flow,在局部单视图条件 (PVC)下生成精细细节。
  3. 在推理阶段,仅进行渲染感知像素对齐细化 (rendering-aware pixel-aligned refinement)

4.2.3.1. 重建条件下的流 (Reconstruction-conditioned Flow)

为了将重建先验整合到生成中,TRELLISSS FlowSLAT Flow 两个阶段分别接受全局几何条件 T _ { g }局部单视图条件 {Tk}k=1N\{ T _ { k } \} _ { k = 1 } ^ { N }

  • SS Flow: 在每个 SS DiT 块中,计算条件 T _ { g }噪声SS隐变量 (noisy SS latent) 之间的交叉注意力 (cross-attention)
  • SLAT Flow:Figure 2 所示,在每个 SLAT DiT 块中,鼓励噪声SLAT和每个视图的条件 T _ { k } 之间进行交叉注意力,并进行加权融合。 其公式表示为: yj+1=k=1NCrossAttn(Q(yj),K(Tk),V(Tk))wk, j{m}m=1M y _ { j + 1 } = \sum _ { k = 1 } ^ { N } \mathrm { CrossAttn } \big ( Q ( y _ { j } ^ { \prime } ) , K ( T _ { k } ) , V ( T _ { k } ) \big ) \cdot w _ { k } , \ j \in \{ m \} _ { m = 1 } ^ { M } 符号解释:
  • yj+1y _ { j + 1 }: 第 j+1j+1SLAT DiT 块的输出。
  • MM: SLAT DiT 块的数量。
  • yjy _ { j } ^ { \prime }: 噪声 SLAT 输入 y _ { j } 经过自注意力层后的输出。
  • T _ { k }: 第 kk 个视图的局部单视图条件
  • wk(0,1)w _ { k } \in ( 0 , 1 ): 融合权重,通过一个 MLP (Multi-Layer Perceptron) 接收交叉注意力结果作为输入计算得到。 完成前两个阶段后,3D生成器可以在全局局部层面生成多视图感知的几何和纹理。

4.2.3.2. 渲染感知速度补偿 (Rendering-aware Velocity Compensation, RVC)

为了进一步增强生成结果与输入视图之间的像素级对齐 (pixel-aligned consistency),本文开发了一种渲染感知速度补偿 (RVC)机制来根据输入约束扩散轨迹。 相机姿态估计: 首先,利用 VGGT 估计相机姿态 (camera pose),使用第二阶段的生成结果。具体实现细节见附录A.1对齐的渲染: 受到 Hi3DGen Yeetal.(2025)Ye et al. (2025) 中使用的显式法线正则化 (explicit normal regularization) 以提高输入-输出一致性的启发,当时间步 t<0.5t < 0.5 时,本文将 SLAT 解码为 O _ { t }(例如,一个带纹理的网格 textured mesh),并进行渲染以实现对齐。 问题与解决方案: SLAT Flow 过程同时初始化并更新大量噪声隐变量,这导致了一个具有挑战性的协作优化问题。为解决此问题,本文提出 RVC 机制来校正预测的 vv(速度),以实现更准确、与输入视图一致的生成。 具体来说,本文从细化后的相机姿态估计 (refined camera pose estimations) CC 渲染 O _ { t } 的图像,并计算渲染图像与输入图像之间的差异,定义为 RVC 损失: LRVC(vt)=LSSIM+LLPIPS+LDreamSim \mathcal { L } _ { \mathrm { RVC } } ( v _ { t } ) = \mathcal { L } _ { \mathrm { SSIM } } + \mathcal { L } _ { \mathrm { LPIPS } } + \mathcal { L } _ { \mathrm { DreamSim } } 符号解释:

  • LRVC(vt)\mathcal { L } _ { \mathrm { RVC } } ( v _ { t } ): 渲染感知速度补偿的总损失,依赖于当前预测的速度 vtv_t

  • LSSIM\mathcal { L } _ { \mathrm { SSIM } }: 结构相似性指数 (SSIM) 损失 Wang et al. (2004),衡量结构相似性。

  • LLPIPS\mathcal { L } _ { \mathrm { LPIPS } }: 感知相似度 (LPIPS) 损失 Zhang et al. (2018),衡量感知相似性。

  • LDreamSim\mathcal { L } _ { \mathrm { DreamSim } }: DreamSim 损失 Fuetal.(2023)Fu et al. (2023),衡量语义相似性。 为了排除不准确姿态估计的影响,如果某些图像的对应损失高于0.8,则丢弃这些损失。 速度校正: 通过最小化 LRVC\mathcal { L } _ { \mathrm { RVC } },本文在每个 SLAT 去噪步骤中迭代地校正预测的速度 vv,引入一个补偿项 Δv\Delta vΔv\Delta v 的推导如下: Δvt=Lx0^x0^vt=tLx0^ \Delta v _ { t } = \frac { \partial \mathcal { L } } { \partial \hat { x _ { 0 } } } \frac { \partial \hat { x _ { 0 } } } { \partial v _ { t } } = - t \frac { \partial \mathcal { L } } { \partial \hat { x _ { 0 } } } 符号解释:

  • L\mathcal { L }: 简化表示 LRVC\mathcal { L } _ { \mathrm { RVC } }

  • x0^\hat { x _ { 0 } }: 在当前时间步 tt 预测的目标 SLAT,通过当前噪声状态 x _ { t } 和预测速度 v _ { t } 计算得到。

  • x0^=xttvt\hat { x _ { 0 } } = x _ { t } - t \cdot v _ { t }: 预测目标 SLAT 的计算公式。

  • Δvt\Delta v _ { t }: 在时间步 tt 需要添加到预测速度 vtv_t 上的补偿项。

    下一步的噪声 SLAT xtprevx _ { t _ { \mathrm { prev } } } 可以更新为: xtprev=xt(ttprev)(v+αΔv) x _ { t _ { \mathrm { prev } } } = x _ { t } - ( t - t _ { \mathrm { prev } } ) ( v + \alpha \cdot \Delta v ) 符号解释:

  • xtprevx _ { t _ { \mathrm { prev } } }: 下一个时间步(或前一个时间步)的噪声 SLAT

  • x _ { t }: 当前时间步的噪声 SLAT

  • tt: 当前时间步。

  • tprevt _ { \mathrm { prev } }: 前一个时间步。

  • vv: 模型预测的原始速度。

  • α\alpha: 预定义的超参数 (hyperparameter),控制补偿的程度。 通过这种方式,输入图像作为强大的显式指导,为每个局部SLAT向量 (local SLAT vector)寻找去噪轨迹,从而获得与所有输入图像在细节上更准确的3D结果。

4.2.4. 附录A.1 细节:相机姿态估计 (Details on Camera Pose Estimation)

为了与输入图像更好地对齐,本文将它们注册到 TRELLIS 生成空间中。

  1. 粗略姿态估计: 首先,从球体上随机采样的30个相机视图渲染图像,将这些渲染图像与输入图像拼接起来,并送入 VGGT 进行姿态估计。由于渲染视图的相机姿态是已知的,因此可以在 TRELLIS 空间中恢复输入图像的粗略相机姿态。尽管 VGGT 提供了鲁棒的姿态预测,但对于构建像素级渲染约束来说,其精度仍不足。
  2. 细化姿态: 为了细化结果,本文使用粗略姿态渲染图像和深度图,然后应用图像匹配 (image matching)方法在渲染图像和输入图像之间建立2D-2D对应关系。利用深度图和渲染视图的相机参数,进一步获取每个输入图像与生成对象之间的2D-3D对应关系。通过聚合多视图对应关系,本文使用 PnP (Perspective-n-Point) 求解器 Lepetit et al. (2009)RANSAC (Random Sample Consensus) Fischler & Bolles (1981) 来求解细化后的相机姿态 CC。 这种基于图像匹配的细化有效纠正了 TRELLIS 生成先验的初始姿态预测,获得了更高的准确性。细化后的姿态使得输入视图能够提供像素级约束,从而支持生成中更精细的细节对齐。

5. 实验设置

5.1. 数据集

  • Objaverse Deitke et al. (2024) 一个大规模的3D对象数据集,提供丰富的形状和纹理多样性。
    • 用途: 用于 VGGT 聚合器和 TRELLIS 稀疏结构 TransformerLoRA 微调。
    • 规模: 包含 390k 3D数据。
    • 渲染设置: 为每个对象网格渲染 150 个视图图像,分辨率为 512×512512 \times 512,在均匀照明条件下。
  • Dora-Bench Chen et al. (2024) 一个基于4个复杂度级别组织的基准测试数据集。
    • 来源: 结合了 ObjaverseABO Collins et al. (2022)GSO Downs et al. (2022) 数据集中的3D数据。
    • 用途: 用于模型评估。
    • 选择样本: 随机抽取 300 个对象。
    • 渲染设置: 遵循 TRELLIS 的相机轨迹渲染 40 个视图,并选择4个均匀间隔的视图(No.0, 9, 19, 29)作为多视图输入,以适应某些基线方法(如 LGM Tang et al. (2025)InstantMesh Xuetal.(2024b)Xu et al. (2024b))的设置。
  • OmniObject3D Wuetal.(2023b)Wu et al. (2023b) 一个包含6,000个高质量纹理网格的大词汇量3D对象数据集。
    • 来源: 扫描自真实世界物体,涵盖 190 个日常类别。
    • 用途: 用于模型评估。
    • 选择样本: 随机抽取 200 个对象,涵盖 20 个类别。
    • 渲染设置: 遵循 Heetal.(2024)He et al. (2024) 的方法,渲染 24 个不同仰角的视图,并随机选择其中4个作为多视图输入进行评估。

5.2. 评估指标

本文采用多种指标来全面评估模型的性能,包括图像重建一致性、几何准确性和形状完整性。

5.2.1. PSNR (Peak Signal-to-Noise Ratio)

  • 概念定义: PSNR (Peak Signal-to-Noise Ratio) 峰值信噪比是衡量图像质量的常用指标,表示信号最大可能功率和影响其表示精度的噪声功率之间的比率。通常用分贝 (dB) 表示,值越高表示图像质量越好,即重建图像与原始图像越接近。
  • 数学公式: PSNR=10log10(MAXI2MSE) \mathrm{PSNR} = 10 \cdot \log_{10} \left( \frac{\mathrm{MAX}_I^2}{\mathrm{MSE}} \right) 其中,MSE (Mean Squared Error) 均方误差定义为: MSE=1MNi=0M1j=0N1[I(i,j)K(i,j)]2 \mathrm{MSE} = \frac{1}{MN} \sum_{i=0}^{M-1} \sum_{j=0}^{N-1} [I(i,j) - K(i,j)]^2
  • 符号解释:
    • MAXI\mathrm{MAX}_I: 图像中像素的最大可能值,例如对于8位灰度图像,为255
    • MSE\mathrm{MSE}: 均方误差,表示原始图像 II 和重建图像 KK 之间像素值的平方差的平均值。
    • M, N: 图像的宽度和高度。
    • I(i,j): 原始图像在像素 (i,j) 处的像素值。
    • K(i,j): 重建图像在像素 (i,j) 处的像素值。

5.2.2. SSIM (Structural Similarity Index Measure)

  • 概念定义: SSIM (Structural Similarity Index Measure) 结构相似性指数旨在量化两张图像之间的结构相似性,它考虑了亮度、对比度和结构三个方面,更符合人类视觉感知系统对图像质量的判断。SSIM 值介于-11之间,越接近1表示两张图像越相似。
  • 数学公式: SSIM(x,y)=(2μxμy+C1)(2σxy+C2)(μx2+μy2+C1)(σx2+σy2+C2) \mathrm{SSIM}(x, y) = \frac{(2\mu_x\mu_y + C_1)(2\sigma_{xy} + C_2)}{(\mu_x^2 + \mu_y^2 + C_1)(\sigma_x^2 + \sigma_y^2 + C_2)}
  • 符号解释:
    • x, y: 分别表示两张待比较图像(或图像块)的像素值。
    • μx,μy\mu_x, \mu_y: 图像 xxyy 的平均像素值。
    • σx,σy\sigma_x, \sigma_y: 图像 xxyy 的标准差。
    • σxy\sigma_{xy}: 图像 xxyy 的协方差。
    • C1=(K1L)2,C2=(K2L)2C_1 = (K_1L)^2, C_2 = (K_2L)^2: 用于稳定除以接近零的小分母的常数。LL 是像素值的动态范围(例如255),K1=0.01,K2=0.03K_1 = 0.01, K_2 = 0.03 是默认值。

5.2.3. LPIPS (Learned Perceptual Image Patch Similarity)

  • 概念定义: LPIPS (Learned Perceptual Image Patch Similarity) 感知相似度是一种基于深度学习的图像感知相似度度量,它使用预训练的深度神经网络(如 AlexNetVGG 等)提取图像特征,然后计算这些特征之间的距离来衡量图像的视觉相似度。LPIPS 值越低表示两张图像在感知上越相似,即视觉质量越好。
  • 数学公式: LPIPS 没有一个简单的数学公式来表示,因为它依赖于预训练神经网络提取的特征。其核心思想是: LPIPS(x,y)=l1HlWlh,wwl(ϕl(x)h,wϕl(y)h,w)22 \mathrm{LPIPS}(x, y) = \sum_l \frac{1}{H_l W_l} \sum_{h,w} \| w_l \odot (\phi_l(x)_{h,w} - \phi_l(y)_{h,w}) \|_2^2
  • 符号解释:
    • x, y: 待比较的两张图像。
    • ϕl()\phi_l(\cdot): 预训练深度神经网络在第 ll 层提取的特征。
    • wlw_l: 在每个通道上学习到的权重。
    • Hl,WlH_l, W_l: 第 ll 层特征图的高度和宽度。
    • \odot: 逐元素乘法 (Hadamard product)。
    • 22\|\cdot\|_2^2: L2范数的平方。

5.2.4. CD (Chamfer Distance)

  • 概念定义: CD (Chamfer Distance) 倒角距离是衡量两个点云或形状之间相似度的指标。它计算一个点云中的每个点到另一个点云中最近点的距离的平方和,然后反过来计算,并将这两个和加起来。CD 值越小表示两个点云越相似。
  • 数学公式: CD(S1,S2)=1S1xS1minyS2xy22+1S2yS2minxS1xy22 \mathrm{CD}(S_1, S_2) = \frac{1}{|S_1|} \sum_{x \in S_1} \min_{y \in S_2} \|x - y\|_2^2 + \frac{1}{|S_2|} \sum_{y \in S_2} \min_{x \in S_1} \|x - y\|_2^2
  • 符号解释:
    • S1,S2S_1, S_2: 两个点云。
    • S1,S2|S_1|, |S_2|: 两个点云中的点数。
    • xS1x \in S_1: 点云 S1S_1 中的一个点。
    • yS2y \in S_2: 点云 S2S_2 中的一个点。
    • minyS2xy22\min_{y \in S_2} \|x - y\|_2^2: 点 xx 到点云 S2S_2 中最近点的欧氏距离的平方。

5.2.5. F-score

  • 概念定义: F-score(也称 F1-score)是信息检索和模式识别领域常用的评估指标,用于衡量分类模型的准确性,它综合了精确率 (Precision) 和召回率 (Recall)。在3D重建中,F-score 通常用于评估重建点云与真实点云的重合度,尤其是在给定一个距离阈值 rr 的情况下。它表示在距离阈值 rr 内,重建点云与真实点云的匹配程度。F-score 值越高,表示重建结果越好。
  • 数学公式: Precision={xS1minyS2xy2r}S1 \text{Precision} = \frac{|\{x \in S_1 \mid \min_{y \in S_2} \|x-y\|_2 \le r \}|}{|S_1|} Recall={yS2minxS1xy2r}S2 \text{Recall} = \frac{|\{y \in S_2 \mid \min_{x \in S_1} \|x-y\|_2 \le r \}|}{|S_2|} F-score=2PrecisionRecallPrecision+Recall \text{F-score} = 2 \cdot \frac{\text{Precision} \cdot \text{Recall}}{\text{Precision} + \text{Recall}}
  • 符号解释:
    • S1S_1: 重建点云。
    • S2S_2: 真实点云 (Ground Truth)。
    • rr: 距离阈值,用于判断点是否匹配。在本文中,F-score 计算时 rr 设置为0.1
    • Precision (精确率): 重建点云中有多少点在真实点云的 rr 距离范围内。
    • Recall (召回率): 真实点云中有多少点在重建点云的 rr 距离范围内。

5.2.6. 相机姿态估计指标 (Camera Pose Estimation Metrics)

  • RRE (Relative Rotation Error):
    • 概念定义: RRE (Relative Rotation Error) 相对旋转误差,用于衡量预测相机姿态与真实相机姿态之间旋转部分的差异,通常以角度(度)表示。
    • 数学公式: 如果 RpredR_{pred} 是预测的旋转矩阵,RgtR_{gt} 是真实的旋转矩阵,那么相对旋转误差可以通过它们的相对旋转的轴角表示来计算。 RRE=180πarccos(trace(Rpred1Rgt)12) \mathrm{RRE} = \frac{180}{\pi} \arccos\left(\frac{\mathrm{trace}(R_{pred}^{-1} R_{gt}) - 1}{2}\right)
    • 符号解释:
      • RpredR_{pred}: 预测的旋转矩阵。
      • RgtR_{gt}: 真实的旋转矩阵。
      • trace()\mathrm{trace}(\cdot): 矩阵的迹(对角线元素之和)。
      • arccos\arccos: 反余弦函数。
  • Acc.@15°, Acc.@30°:
    • 概念定义: 在相机姿态估计中,这些指标表示相对旋转误差 (RRE) 小于15度或30度的预测姿态所占的百分比。值越高表示姿态估计的准确率越高。
    • 数学公式: Acc.@k=Number of poses with RREkTotal number of poses×100% \mathrm{Acc.@}k^\circ = \frac{\text{Number of poses with RRE} \le k^\circ}{\text{Total number of poses}} \times 100\%
    • 符号解释:
      • kk: 角度阈值,如1530
      • RRE: 相对旋转误差。
  • TE (Translation Error):
    • 概念定义: TE (Translation Error) 平移误差,用于衡量预测相机姿态与真实相机姿态之间平移部分的差异,通常表示为相机中心之间的欧氏距离。在处理平移尺度模糊性时,通常会进行归一化。
    • 数学公式: 如果 TpredT_{pred} 是预测的平移向量,TgtT_{gt} 是真实的平移向量。 TE=TpredTgt2 \mathrm{TE} = \|T_{pred} - T_{gt}\|_2 在论文中提到会进行归一化,具体为“compute relative translations between views for both predictions and ground truth and normalize them by their respective mean L2-norm”,这意味着实际计算的是归一化后的相对平移向量之间的L2距离。
    • 符号解释:
      • TpredT_{pred}: 预测的平移向量。
      • TgtT_{gt}: 真实的平移向量。
      • 2\|\cdot\|_2: 向量的L2范数(欧氏距离)。

5.3. 对比基线

本文将自己的方法与广泛的SOTA基线方法进行了比较,主要分为三类:

5.3.1. 3D生成模型

这类模型主要关注从多视图输入生成3D模型,但可能在准确性或一致性上有所欠缺。

  • TRELLIS-S Xiang et al. (2024) TRELLIS 的随机模式,在去噪的每一步随机选择一个输入视图进行条件化。
  • TRELLIS-M Xiang et al. (2024) TRELLIS 的多扩散模式,计算所有输入视图条件下的平均去噪结果。
  • Hunyuan3D-2.0-mv Zhao et al. (2025) 将来自固定视角的输入图像的 DINO 特征拼接作为条件来生成网格。
  • Hunyuan3D-2.5Meshy-5 闭源商业3D生成模型,用于in-the-wild测试。

5.3.2. 已知相机姿态的大型重建模型

这类模型通常在已知相机姿态的条件下进行重建,追求高精度。

  • InstantMesh Xuetal.(2024b)Xu et al. (2024b) 从多个固定视角的图像预测三平面 (Triplane) 以输出网格。
  • LGM Tang et al. (2025) 从多个固定视角的图像预测像素对齐的3D高斯。

5.3.3. 无姿态大型重建模型 (输出为3DGS或点云)

这类模型能够在未知相机姿态的条件下进行重建,但可能在细节或完整性上有所妥协。

  • LucidFusion Heetal.(2024)He et al. (2024) 预测相对坐标图以输出3D高斯。
  • VGGT Wang et al. (2025a)前馈 (feed-forward)方式从多视图输入重建点云。

5.4. 实现细节

  • LoRA 微调:
    • LoRA 秩设置为64LoRA 缩放的 alpha 参数设置为128LoRA 层的dropout 概率设置为0
    • 适配器仅应用于 qkv 映射层和每个注意力层的投影器。
    • 微调 VGGT 聚合器时,从150个渲染视图中随机采样1~4个视图,学习率 1×1041 \times 10^{-4}
  • SS Flow Transformer 微调:
    • 基于 TRELLIS Xiang et al. (2024),结合分类器自由引导 (classifier-free guidance, CFG)drop rate0.3
    • 使用 AdamW 优化器,固定学习率 1×1041 \times 10^{-4}
    • 8NVIDIA A800 GPU80GB 内存)上训练40k步,批处理大小为192
  • 推理设置:
    • SS 生成的 CFG 强度设置为7.5SLAT 生成为3.0
    • 使用3012个采样步长以达到最佳结果。
    • 渲染感知速度补偿中的 α\alpha 设置为0.1

6. 实验结果与分析

6.1. 核心结果分析

6.1.1. 定量结果

以下是原文 Table 1 的结果,展示了 ReconViaGen 与基线方法在 Dora-benchOmniObject3D 数据集上的定量比较:

Method PSNR↑ SSIM↑ LPIPS↓ CD↓ F-score↑ PSNR↑ SSIM↑ LPIPS↓ CD↓ F-score↑
Dora-bench OmniObject3D
TRELLIS-S 16.706 0.882 0.111 0.144 0.843 14.593 0.841 0.134 0.198 0.771
TRELLIS-M 16.706 0.882 0.111 0.144 0.843 14.593 0.841 0.134 0.198 0.771
Hunyuan3D-2.0-mv 18.232 0.883 0.113 0.139 0.838 15.688 0.843 0.139 0.193 0.759
InstantMesh 16.921 0.871 0.113 0.137 0.835 14.733 0.837 0.137 0.191 0.760
LGM 17.113 0.877 0.112 0.135 0.839 15.021 0.839 0.135 0.188 0.765
LucidFusion 18.441 0.890 0.104 0.131 0.849 16.124 0.852 0.129 0.181 0.782
VGGT 18.917 0.895 0.103 0.129 0.855 15.228 0.845 0.132 0.186 0.778
ReconViaGen (Ours) 22.632 0.911 0.090 0.089 0.953 19.103 0.887 0.108 0.132 0.864

分析:Table 1 可以看出,本文提出的 ReconViaGen 方法在所有评估指标上,无论是在 Dora-bench 还是 OmniObject3D 数据集上,都取得了显著优于所有基线模型的性能。

  • 图像重建一致性: PSNRSSIMLPIPS 值衡量了渲染图像与输入图像之间的一致性。ReconViaGenDora-bench 上达到了最高的 PSNR (22.632)SSIM (0.911),以及最低的 LPIPS (0.090)。这表明其重建结果在像素级和感知上都与输入视图高度一致。在 OmniObject3D 上也展现了同样的趋势,远超其他方法。
  • 几何准确性与完整性: CDF-score 衡量了重建3D模型的几何准确性和完整性。ReconViaGenDora-bench 上取得了最低的 CD(0.089)CD (0.089) 和最高的 F-score (0.953),在 OmniObject3D 上也同样表现最佳。这证明了 ReconViaGen 能够生成结构更精确、空洞更少的3D模型。
  • 超越先验模型: 值得注意的是,ReconViaGen 完美整合了 TRELLISVGGT 的先验,其性能甚至超越了这两个构成其基础的模型。这表明了本文提出的全局几何条件 (GGC)局部单视图条件 (PVC) 以及渲染感知速度补偿 (RVC)机制的有效性,它们成功地弥补了纯生成模型和纯重建模型的不足。
  • 优于回归式生成先验: ReconViaGen 相比于 LucidFusion 等整合了回归式生成先验的方法,在 PSNRCDF-score 上有大幅提升,验证了基于扩散的3D生成先验在细节生成方面的优越性。

6.1.2. 定性结果

下图(原文 Figure 3)展示了 ReconViaGen 与多种基线方法在 Dora-benchOmniObject3D 数据集上的3D重建效果对比:

Figure 3: Reconstruction result comparisons between our ReconViaGen and other baseline methods on samples from the Dora-bench and OminiObject3D datasets. Zoom in for better visualization. 该图像是图表,展示了图3中ReconViaGen与多种基线方法在Dora-bench和OminiObject3D数据集上的3D重建效果对比,包括定量指标和多视角3D模型渲染结果,突出展示了ReconViaGen在结构和细节一致性上的优势。

分析:Figure 3 可以直观看出:

  • 完整性: 传统的3D重建方法(如VGGT)往往存在空洞或缺失,而生成式方法(如TRELLIS系列)能够补全缺失部分,但往往与输入图像不一致。ReconViaGen 能够生成完整的3D模型。

  • 准确性与一致性: ReconViaGen 的重建结果在全局形状和局部纹理细节上都与输入视图高度一致。例如,在细节纹理(如物体表面的图案)和精细几何(如物体的边缘和尖角)方面,ReconViaGen 明显优于其他基线,避免了模糊和伪影。

    下图(原文 Figure 4)展示了 ReconViaGenin-the-wild真实场景样本上的重建结果:

    Figure 4: Reconstruction results on in-the-wild samples. Note that commercial 3D generators require input images from orthogonal viewpoints, while ours can accept views from arbitrary camera poses fo… 该图像是图4的示意图,展示了不同方法在真实场景样本上的多视角3D重建效果。左侧为多视角输入,右侧依次为TRELLIS-S、TRELLIS-M、Meshy-5-mv、Hunyuan3D-2.5-mv及本文提出方法的结果,体现了本方法对任意相机视角的鲁棒性和重建细节的准确性。

    分析: Figure 4 表明,即使与Hunyuan3D-2.5-mvMeshy-5-mv 等闭源商业3D生成模型相比,ReconViaGenin-the-wild多视图图像上也展现出强大的鲁棒性。商业模型通常需要来自正交视角的输入图像,而 ReconViaGen 可以接受任意相机姿态的视图,并仍能生成鲁棒的输出,这凸显了其在实际应用中的灵活性和实用价值。

6.2. 消融实验/参数分析

本文通过一系列消融实验来验证 ReconViaGen 中各项创新设计的有效性。

6.2.1. GGCPVCRVC 的有效性

ReconViaGen 框架包含三个新颖的设计:全局几何条件 (GGC)局部单视图条件 (PVC)渲染感知速度补偿 (RVC)。以下是原文 Table 2 的结果,展示了在 Dora-bench 数据集上,从基础的 TRELLIS-M 基线(未包含任何这些设计)开始,逐步添加每个组件的定量消融结果:

GGCPVCRVCPSNR↑SSIM↑LPIPS↓CD↓F-score↑
(a)XXX16.7060.8820.1110.1440.843
(b)××20.4620.8940.1020.0930.941
(c)×21.0450.9050.0930.0930.937
(d)22.6320.9110.0900.0890.953

分析:

  • GGC 的作用:GGC 整合(从 (a) 到 (b))带来了大幅的性能提升,几乎在所有指标上都有显著改善,尤其是在 PSNRCDF-score 上。这验证了 GGC 在提高粗略结构预测准确性方面的强大效果。

  • PVC 的作用:GGC 的基础上进一步整合 PVC(从 (b) 到 (c)),带来了额外的性能提升,尤其是在 PSNRLPIPS 上。这证明了 PVC 在改善局部单视图对齐方面的有效性。

  • RVC 的作用: 最后,即使 RVC 仅在推理阶段使用(从 (c) 到 (d)),它依然带来了额外的增益,显著提升了形状完整性和几何、纹理的细粒度准确性。这表明 RVC 对像素级对齐的有效约束。

    下图(原文 Figure 5)可视化了这些组件的积极效果:

    Figure 5: Qualitative comparisons for different variants of ReconViaGen for ablative study. Zoom in for better visualization in detail. 该图像是图5,展示了ReconViaGen不同变体的定性比较,图中分别展示了输入多视角图像(MV Input)及多种方法恢复的3D模型效果,便于观察各变体在细节和整体结构上的差异。

    分析: Figure 5 的定性比较进一步支持了定量结果:

  • GGC 显著修正了全局形状,使其更接近真实。

  • PVC 引入了与每个视图高度一致的局部几何和纹理细节。

  • RVC 精细地优化了外观,实现了高质量的重建结果。

6.2.2. 输入图像数量的消融研究

以下是原文 Table 5 的结果,展示了 ReconViaGenDora-bench 数据集上,不同输入图像数量下的定量消融结果:

Number of ImagesPSNR↑SSIM↑LPIPS↓CD↓F-score↑
219.5680.8940.0990.1310.867
422.6320.9110.0900.0900.953
622.8230.9120.0890.0840.958
823.0670.9140.0900.0810.961

分析:Table 5 可以看出,随着输入图像数量的增加,重建性能持续提升。然而,当图像数量较大时,边际收益逐渐减少,表明存在饱和效应。这符合直觉,更多视角提供更丰富的信息,但信息冗余也会增加。

下图(原文 Figure 6)可视化了不同输入图像数量下的重建结果:

Figure 6: Qualitative comparisons for different numbers of input images with ReconViaGen. Zoom in for better visualization in detail. 该图像是图6,展示了ReconViaGen在不同数量输入图像下的三维重建结果对比。每组包含多视角输入图像和对应渲染的三维模型,体现了输入视图数目对重建质量的影响。

分析: Figure 6 也直观地展示了随着输入图像数量增加,重建质量(特别是细节和完整性)的提升,并强调了 ReconViaGen 能够处理任意数量和视角的输入图像。

6.2.3. SS Flow 条件形式的消融研究

以下是原文 Table 6 的结果,展示了在 Dora-bench 数据集上,SS Flow 不同条件形式的定量消融结果:

Form of ConditionPSNR↑SSIM↑LPIPS↓CD↓F-score↑
(i)Feature Volume16.2290.8580.1260.1720.814
(ii)Concatenation19.7490.8710.1370.1210.873
(iii)PVC19.8780.8820.1350.1200.870
(iv)GGC20.4620.8940.1020.09320.941

分析:

  • GGC 实现了所有策略中的最佳性能。
  • Feature Volume 表现最差,因为不准确的姿态和点云预测会导致错误的投影,引入噪声。
  • ConcatenationPVC 虽然比 Feature Volume 好,但由于未能有效聚合视图级特征,导致信息冗余且过度依赖 VGGT 输出的准确性。
  • 这验证了 GGC 作为 SS Flow 条件的优越性,它能够有效聚合3D感知信息,提供更准确的粗略结构引导。

6.2.4. SLAT Flow 条件形式的消融研究

以下是原文 Table 7 的结果,展示了在 Dora-bench 数据集上,SLAT Flow 不同条件形式的定量消融结果:

Form of ConditionPSNR↑SSIM↑LPIPS↓CD↓F-score↑
(i)GGC17.7840.8580.1200.09740.939
(ii)PVC22.6320.9110.0900.08950.953

分析: PVCSLAT Flow 中的表现远超 GGC。这归因于 GGC 在信息压缩过程中可能会丢失细粒度细节,从而降低性能。这一观察解释了为什么 SLAT Flow 采用 PVC 而不是 GGC,因为 PVC 能够提供更精细的每视图信息,对于生成局部细节至关重要。

6.2.5. 在生成的多视图图像上进行重建

下图(原文 Figure 7)展示了 ReconViaGenTRELLIS-MTRELLIS-S 在由多视图图像生成器生成的样本上的重建结果:

Figure 7: Reconstruction result comparisons between TRELLIS-M, TRELLIS-S, and our ReconViaGen on samples produced by the multi-view image generator. 该图像是图7,展示了TRELLIS-M、TRELLIS-S与ReconViaGen在多视角图像生成样本上的重建结果对比,包含输入图像、多视角视图及三种方法的法线渲染效果,直观体现了各方法在细节和一致性上的表现差异。

分析: Figure 7 显示,即使面对 Hunyuan3D-1.0 等生成器产生的、可能存在跨视图不一致性的多视图图像,ReconViaGen 依然表现出强大的鲁棒性,能够生成高质量的重建结果。这表明了 ReconViaGen 在处理挑战性输入(如in-the-wild数据或由其他生成模型产生的图像)方面的通用性和稳定性。

6.3. 附录A.2 细节:使用更多输入图像的评估 (Evaluation with More Input Images)

以下是原文 Table 3 的结果,展示了 ReconViaGenObject VGGT + 3DGSDora-bench 数据集上,使用更多输入图像的评估结果:

Method Uniform (PSNR↑/LPIPS↓) Limited View (PSNR↑/LPIPS↓)
6 views 8 views 10 views 6 views 8 views 10 views
Object VGGT + 3DGS 18.476/0.123 19.890/0.109 21.363/0.102 16.498/0.139 16.774/0.135 17.121/0.133
ReconViaGen (Ours) 22.823/0.089 23.067/0.090 23.193/0.087 21.427/0.098 21.782/0.099 21.866/0.103

分析: Table 3 显示,无论是在均匀采样 (Uniform) 还是有限视角 (Limited View) 的场景下,ReconViaGen6/8/106/8/10个输入视图条件下始终优于 Object VGGT + 3DGS。这进一步强调了 ReconViaGen 中生成先验在补全不可见区域中的关键作用,即使在增加重建先验强度(如 Object VGGT + 3DGS)的情况下,生成先验的优势依然显著。

6.4. 附录A.3 细节:相机姿态估计的评估 (Evaluation of Camera Pose Estimation)

以下是原文 Table 4 的结果,展示了在 Dora-bench 数据集上,相机姿态估计的评估结果:

MethodRRE↓Acc.@15° ↑Acc.@30° ↑TE↓
VGGT Wang et al. (2025a)8.57590.6792.000.066
Object VGGT7.25793.4494.110.055
Ours7.92593.8996.110.046

分析:

  • 微调VGGT的改进: 微调后的对象VGGT (finetuned object VGGT)RRETE 上都比原始 VGGT 有明显改进,这表明针对对象重建任务的专门微调是有效的。
  • ReconViaGen的整体优势: ReconViaGenAcc.@15°Acc.@30° 以及 TE 上均表现最佳,尤其在 Acc.@30° 上达到了96.11%TE 降至0.046。这表明 ReconViaGen 能够利用生成先验有效“稠密化 (densifies)”稀疏视图,从而在相机姿态估计上取得更优的整体性能。
  • RRE 略高原因: 尽管如此,ReconViaGenRRE 略高于 Object VGGT,这可能是由于生成的3D模型与真实几何之间存在微小差异造成的。但从整体重建性能来看,这并未影响 ReconViaGen 的最终优势。

7. 总结与思考

7.1. 结论总结

本文提出了 ReconViaGen,一个新颖的粗到精 (coarse-to-fine)框架,有效地将强大的重建先验 (reconstruction priors)基于扩散的3D生成先验 (diffusion-based 3D generative priors)相结合,用于准确且完整的多视图3D对象重建 (multi-view 3D object reconstruction)

文章全面分析了基于扩散的3D生成方法在与输入图像保持高一致性方面遇到的挑战,主要归结为两个原因:

  1. 交叉视图关联建模不足: 在提取多视图图像特征作为条件时,未能充分构建和利用交叉视图连接。

  2. 去噪过程可控性差: 在局部细节生成过程中,迭代去噪过程的随机性导致与输入视图可能出现合理但实际不一致的几何和纹理细节。

    为解决这些问题,ReconViaGen 设计了三项核心策略:

  3. 全局几何条件 (Global Geometry Condition, GGC)VGGT 特征中聚合3D感知信息,作为 SS Flow 的条件,引导粗略结构的生成。

  4. 局部单视图条件 (Local Per-View Condition, PVC)SLAT Flow 提供视图特定的细粒度条件,以生成精细的几何和纹理细节。

  5. 渲染感知速度补偿 (Rendering-aware Velocity Compensation, RVC)机制: 在推理阶段显式地约束局部隐式表示的去噪轨迹,以确保与输入视图的像素级对齐。

    大量的实验证明,ReconViaGenDora-benchOmniObject3D 数据集上均取得了最先进的 (state-of-the-art, SOTA)性能,在全局形状准确性 (global shape accuracy)完整性 (completeness)以及局部几何和纹理细节 (local details in geometry and textures)方面都表现出色。

7.2. 局限性与未来工作

论文指出,未来的工作可以随着3D重建和3D生成技术的发展,将更强大的重建或生成先验整合到 ReconViaGen 框架中,以进一步提升重建质量。这暗示了当前框架虽然有效,但其性能仍可能受限于所采用的 VGGTTRELLIS 模型的固有能力。

7.3. 个人启发与批判

7.3.1. 个人启发

ReconViaGen 提供了一个非常优雅且有效的解决方案,解决了3D重建和3D生成领域长期存在的两大痛点:重建的不完整性生成的不一致性

  1. 先验融合的创新性: 将重建先验(强调准确性和几何一致性)和生成先验(强调完整性和合理性)进行深度融合,并通过精心设计的条件机制(GGCPVC)和控制机制(RVC)来实现各自优势的互补,这种思路对于解决多模态任务具有普遍的启发意义。
  2. “去噪过程可控性差”的洞察: 作者对扩散模型在3D重建中失败原因的分析(特别是去噪过程可控性差)非常深刻。RVC 机制,通过将渲染图像与真实输入进行比较,并反向计算速度补偿项来校正扩散轨迹,是一种巧妙且强大的控制策略,将2D监督有效地引入到3D扩散的隐空间 (latent space)去噪过程中。这对于其他需要精细控制扩散生成结果的任务也具有借鉴意义。
  3. 粗到精的策略: 粗到精的生成范式在许多生成任务中都表现出有效性,它允许模型首先学习全局结构,再逐步细化局部细节,这有助于管理复杂性并提高生成质量。
  4. 鲁棒性:in-the-wild数据和生成的多视图图像上的优异表现,表明其在实际应用中的巨大潜力,能够处理更多样化和更具挑战性的输入场景。

7.3.2. 批判性思考

尽管 ReconViaGen 取得了显著成果,但仍存在一些潜在的问题和可以改进的地方:

  1. 对相机姿态估计的依赖: RVC 机制的有效性高度依赖于精确的相机姿态估计。虽然论文在附录 A.1 中详述了姿态细化过程,但如果初始姿态估计质量非常差(例如在极端稀疏视图或复杂场景下),或细化过程引入误差,则可能反过来影响RVC的准确性,甚至导致生成结果的偏差。Table 4RRE 略高于 Object VGGT 也侧面印证了姿态估计仍有提升空间。

  2. 计算成本: 扩散模型的迭代去噪过程本身就具有较高的计算成本。ReconViaGen 引入了VGGT特征提取、条件网络、渲染以及RVC的迭代校正,这无疑会增加整体的计算开销和推理时间。对于实时应用或大规模重建,其效率可能仍是一个挑战。

  3. 泛化能力: 尽管在 Dora-benchOmniObject3D 上表现优异,但这些数据集主要包含对象。对于更复杂的场景(例如包含多个交互对象、非刚体变形或高度动态的场景),模型的泛化能力是否能保持尚不明确。论文附录中虽然提到了场景重建的方案(分割、单独重建、注册),但这并非 ReconViaGen 的核心能力,且分割和注册本身就是复杂任务。

  4. 超参数敏感性: RVC 中的超参数 α\alpha 控制着补偿的程度,其设置可能对最终结果有较大影响。找到最佳的 α\alpha 值可能需要仔细的调优,并且可能因不同数据集或物体类型而异。

  5. 损失函数设计: RVC 损失结合了SSIMLPIPSDreamSim,这些损失函数旨在捕获不同的图像相似性方面。这种多目标组合在实际应用中需要平衡,不同损失项的权重可能会影响最终结果的偏好(例如,更侧重结构、感知还是语义)。

    总的来说,ReconViaGen3D重建领域的一个重要进展,它为如何有效融合不同模态和范式的先验知识提供了宝贵的经验。未来的研究可以探索更鲁棒的姿态估计方法、更高效的扩散去噪策略,以及针对更复杂场景的泛化能力提升。

相似论文推荐

基于向量语义检索推荐的相关论文。

暂时没有找到相似论文。