AiPaper
论文状态:已完成

Hi3DGen: High-fidelity 3D Geometry Generation from Images via Normal Bridging

发表:2025/03/28
原文链接PDF 下载
价格:0.10
价格:0.10
已有 2 人读过
本分析由 AI 生成,可能不完全准确,请以原文为准。

TL;DR 精炼摘要

针对从2D图像生成高保真3D几何细节难题,Hi3DGen提出基于法线桥接的新框架,结合图像到法线估计、法线正则化潜在扩散学习及高质量3D数据合成,有效弥合域鸿沟,实现精细几何重构,超过现有技术水平。

摘要

With the growing demand for high-fidelity 3D models from 2D images, existing methods still face significant challenges in accurately reproducing fine-grained geometric details due to limitations in domain gaps and inherent ambiguities in RGB images. To address these issues, we propose Hi3DGen, a novel framework for generating high-fidelity 3D geometry from images via normal bridging. Hi3DGen consists of three key components: (1) an image-to-normal estimator that decouples the low-high frequency image pattern with noise injection and dual-stream training to achieve generalizable, stable, and sharp estimation; (2) a normal-to-geometry learning approach that uses normal-regularized latent diffusion learning to enhance 3D geometry generation fidelity; and (3) a 3D data synthesis pipeline that constructs a high-quality dataset to support training. Extensive experiments demonstrate the effectiveness and superiority of our framework in generating rich geometric details, outperforming state-of-the-art methods in terms of fidelity. Our work provides a new direction for high-fidelity 3D geometry generation from images by leveraging normal maps as an intermediate representation.

思维导图

论文精读

中文精读

1. 论文基本信息

1.1. 标题

Hi3DGen: High-fidelity 3D Geometry Generation from Images via Normal Bridging

1.2. 作者

Chongjie Ye, Yushuang Wu, Ziteng Lu, Jiahao Chang, Xiaoyang Guo, Jiaqing Zhou, Hao Zhao, Xiaoguang Han

1.3. 发表期刊/会议

该论文作为预印本 (preprint) 发布在 arXiv 上,发布时间为 2025-03-28T08:39:20.000Z。在计算机视觉和图形学领域,arXiv 是一个重要的论文发布平台,许多前沿研究成果在此首发,为后续的同行评审和会议/期刊发表奠定基础。

1.4. 发表年份

2025年

1.5. 摘要

随着从 2D 图像生成高保真 (high-fidelity) 3D 模型的需求日益增长,现有方法在准确再现精细几何细节方面仍面临重大挑战,这主要是由于领域鸿沟 (domain gaps) 和 RGB 图像固有的歧义 (inherent ambiguities)。为了解决这些问题,本文提出了 Hi3DGen,一个通过法线桥接 (normal bridging) 从图像生成高保真 3D 几何的新颖框架。Hi3DGen 由三个关键组件组成:(1) 一个图像到法线估计器 (image-to-normal estimator),它通过噪声注入 (noise injection) 和双流训练 (dual-stream training) 解耦低频-高频图像模式,以实现可泛化 (generalizable)、稳定 (stable) 和锐利 (sharp) 的估计;(2) 一种法线到几何学习方法 (normal-to-geometry learning),它使用法线正则化的潜在扩散学习 (normal-regularized latent diffusion learning) 来增强 3D 几何生成保真度;以及 (3) 一个 3D 数据合成管道 (3D data synthesis pipeline),它构建了一个高质量的数据集 DetailVerse 以支持训练。广泛的实验证明了该框架在生成丰富几何细节方面的有效性和优越性,在保真度 (fidelity) 方面超越了现有最先进 (state-of-the-art) 方法。这项工作通过利用法线图 (normal maps) 作为中间表示 (intermediate representation),为从图像生成高保真 3D 几何开辟了新方向。

1.6. 原文链接

原文链接: https://arxiv.org/abs/2503.22236 PDF 链接: https://arxiv.org/pdf/2503.22236v2.pdf

2. 整体概括

2.1. 研究背景与动机

论文试图解决的核心问题: 尽管计算机视觉和图形学领域在从 2D 图像生成 3D 模型方面取得了显著进展,但现有方法在准确再现输入图像中存在的精细几何细节方面仍然不足,尤其是在处理真实世界图像时。

为什么这个问题在当前领域是重要的: 忠实地在 3D 生成中再现这些几何细节至关重要,因为它直接影响到模型的真实感 (realism)、精度 (precision) 以及在实际场景中的整体适用性。例如,在 3D 打印、游戏开发、虚拟现实等应用中,对 3D 模型的精细几何细节有很高的要求。

现有研究存在的具体挑战或空白:

  1. 高质量 3D 训练数据稀缺: 缺乏高质量的 3D 训练数据限制了模型学习详细几何特征的能力。现有的 3D 数据集往往规模较小、类别有限,或存在质量问题。

  2. 领域鸿沟 (Domain Gap): 训练图像(通常由合成 3D 网格渲染而来)与真实世界测试图像之间存在显著的领域差异,导致模型在实际应用中性能不佳。

  3. RGB 图像固有的歧义 (Inherent Ambiguities): RGB 图像受到光照 (lighting)、阴影 (shading) 或复杂对象纹理 (complex object textures) 等因素的影响,从其中提取精细几何信息本身就具有挑战性。

    这篇论文的切入点或创新思路: 论文提出利用法线图 (normal maps) 作为中间表示来桥接 2D RGB 图像到 3D 几何的映射。法线图能够编码表面方向信息,相比 RGB 图像提供更清晰的几何线索,从而有助于缓解领域鸿沟并更有效地引导几何学习,尤其是在生成精细细节方面。

2.2. 核心贡献/主要发现

论文最主要的贡献是提出了 Hi3DGen 框架,这是第一个系统地利用法线图作为中间表示来桥接 2D 图像到 3D 几何生成,并有效解决了现有方法在生成精细细节方面局限性的框架。

论文得出了以下关键结论或发现:

  1. 提出了 Hi3DGen 框架: 这是一个新颖的图像到 3D 几何生成框架,通过将生成过程分解为图像到法线估计和法线到几何学习两个阶段,利用法线图作为关键中间表示。
  2. 引入了 NiRNE (Noise-injected Regressive Normal Estimation) 图像到法线估计器: 该估计器通过噪声注入和双流训练,能够实现可泛化、稳定且锐利的法线估计,有效结合了扩散模型和回归方法的优点。
  3. 开发了 NoRLD (Normal-Regularized Latent Diffusion) 法线到几何学习方法: 该方法将法线正则化引入潜在扩散学习,在训练过程中提供显式 3D 几何监督,显著增强了生成保真度。
  4. 构建了 DetailVerse 数据集: 论文设计了一个 3D 数据合成管道,生成了包含复杂几何结构和丰富表面细节的高质量 3D 资产数据集 DetailVerse,解决了现有 3D 数据集细节不足的问题,并支持了 NiRNENoRLD 的训练。
  5. 实验验证了优越性: 大量实验证明 Hi3DGen 在生成丰富精细几何细节方面优于现有最先进方法,并在保真度方面表现出色,用户研究也证实了其生成质量的领先地位。

3. 预备知识与相关工作

3.1. 基础概念

理解本论文需要掌握以下基本技术和概念:

3.1.1. 法线图 (Normal Maps)

概念定义: 法线图是一种纹理贴图,它存储了物体表面每个像素点的法线向量 (normal vectors) 信息。法线向量是垂直于物体表面的单位向量,指示了表面在三维空间中的朝向。 作用: 通过修改表面法线方向,法线图可以在不增加模型实际几何复杂度(即多边形数量)的情况下,模拟出物体表面的凹凸不平、纹理细节和阴影变化,从而使低多边形模型看起来具有高多边形模型的视觉效果。它是一种 2.5D 表示,因为它包含了深度之外的表面方向信息。 在本文中的意义: 法线图作为一种中间表示,比 RGB 图像提供更明确的几何线索,有助于缓解 2D 到 3D 转换中的歧义和领域鸿沟,从而引导模型生成更精细的 3D 几何细节。

3.1.2. 扩散模型 (Diffusion Models)

概念定义: 扩散模型 (Diffusion Models) 是一类深度生成模型 (deep generative models),它们通过一个正向扩散过程 (forward diffusion process) 和一个逆向去噪过程 (reverse denoising process) 来学习数据的分布。正向过程逐步向数据中添加噪声,直到数据变为纯噪声。逆向过程则学习如何从噪声中逐步去除噪声,从而生成新的数据样本。 核心思想: 扩散模型可以看作是一个连续的马尔可夫链 (Markov chain)。在训练时,模型学习如何反转扩散过程,即从任意噪声状态恢复原始数据。在生成时,模型从纯噪声开始,通过学习到的逆向过程逐步去噪,生成新的数据。 在本文中的意义: 扩散模型以其强大的生成能力,尤其是在图像生成方面,能够产生高保真的细节。本文借鉴了扩散模型中噪声注入的机制,并将其引入回归法线估计器中,以提高对高频细节的捕捉能力。同时,Hi3DGen 的 3D 几何生成部分也基于潜在扩散 (latent diffusion)。

3.1.3. 潜在扩散 (Latent Diffusion)

概念定义: 潜在扩散 (Latent Diffusion) 是扩散模型的一种优化形式。传统的扩散模型直接在像素空间 (pixel space) 中进行操作,这对于高分辨率图像来说计算成本非常高。潜在扩散模型引入了一个自编码器 (Auto-Encoder,通常是变分自编码器 VAE),首先将高维图像数据编码 (encode) 到一个低维的潜在空间 (latent space) 中,然后在潜在空间中执行扩散过程。生成时,模型在潜在空间中生成潜在表示,再通过自编码器的解码器 (decoder) 将潜在表示解码 (decode) 回到像素空间,生成最终图像。 优点: 在低维潜在空间进行扩散,显著降低了计算复杂性,提高了效率和可扩展性,同时保持了高保真生成能力。 在本文中的意义: Hi3DGen 的 3D 几何生成部分 (NoRLD) 基于潜在扩散,它将 3D 几何体编码为紧凑的潜在表示,在潜在空间中进行扩散学习,并创新性地引入了法线正则化。

3.1.4. 回归模型 (Regression Models)

概念定义: 回归模型 (Regression Models) 是一类机器学习模型,用于预测一个连续的输出变量 (dependent variable) 基于一个或多个输入变量 (independent variables)。与分类模型预测离散类别不同,回归模型预测的是数值。 在本文中的意义: 传统的法线估计方法多为回归模型,它们直接学习从 RGB 图像到法线图的映射。回归方法通常提供稳定、确定性的预测,但往往在捕捉精细、锐利细节方面表现不足。本文的 NiRNE 旨在结合回归方法的稳定性与扩散方法的锐利度。

3.1.5. 领域鸿沟 (Domain Gap)

概念定义: 领域鸿沟 (Domain Gap) 指的是训练数据 (源领域) 和实际应用数据 (目标领域) 之间存在的差异。这种差异可能体现在数据分布、特征表示、风格、光照条件等方面。当模型在一个领域训练后,在另一个领域表现下降时,就说明存在领域鸿沟。 在本文中的意义: 2D 图像到 3D 模型生成领域存在显著的领域鸿沟,因为训练数据常由合成 3D 模型渲染而来,而实际应用则需要处理复杂的真实世界图像。法线图作为中间表示,以及领域特定训练策略,旨在缓解这一问题。

3.2. 前人工作

论文在 Related Work 部分详细回顾了 3D 生成领域的相关工作,主要集中在 3D 数据集、法线估计和 3D 生成中法线图的应用。

3.2.1. 3D 生成数据集 (Datasets for 3D Generation)

  • 早期数据集: ShapeNet [8]、ABO [11] 等,通常规模较小,类别有限。
  • 通过扫描或多视图摄影扩展: GSO [16]、MVImgNet [72, 81] 等,但数据质量可能不足以直接用于 3D 生成。
  • 聚合在线资源: Objaverse [13]、Objaverse-XL [14] 聚合了大量的 3D 资产。然而,论文指出这些数据集存在质量问题,例如 Objaverse-XL 中大量来自 GitHub [22] 的资产存在许可证问题和质量差异,而 Thingiverse [57] 的资产缺乏纹理。此外,高质量、复杂几何结构和丰富表面细节的资产在 Objaverse-1.0 [13] 中严重稀缺。
  • 本文的创新: Hi3DGen 探索通过合成方式构建高质量、细节丰富的 3D 数据集 (DetailVerse),作为对人类创建资产的重要补充。

3.2.2. 法线估计 (Normal Estimation)

法线估计方法主要分为扩散模型 (diffusion-based) 和回归模型 (regression-based) 两大类。

  • 回归模型 (Regression-based methods):
    • 从早期手工特征 [27, 28] 发展到深度学习技术 [18, 65, 85]。
    • 近期进展包括利用大规模数据 [17]、估计像素级法线概率分布 [2]、采用视觉 Transformer [50]、进行归纳偏置建模 [1]。
    • 特点: 提供确定性预测,稳定性高,但难以生成精细锐利的细节。例如 Lotus [25] 和 GenPercept [77]。
  • 扩散模型 (Diffusion-based methods):
    • 随着强大文本到图像模型 [47, 52, 83] 的发展而兴起。
    • 例如 Geowizard [21] 引入几何切换器处理不同数据分布。
    • 特点: 能够生成更锐利的结果,但由于扩散过程固有的随机性 [19],存在不稳定性(高方差结果)和虚假细节 (spurious details)。尽管有策略如仿射不变集成 [21, 32] 或一步生成 [77] 尝试改进,但仍面临计算强度高和过度平滑等问题。StableNormal [80] 通过粗到细策略降低扩散推理方差以提高稳定性,但稳定性仍不完善。
  • 本文的创新: 本文深入分析了扩散模型产生锐利度的根本原因,提出了一种噪声注入的回归方法 (NiRNE),结合双流训练策略,旨在实现既锐利又稳定的法线估计,并充分利用不同领域训练数据的优势。

3.2.3. 3D 生成中的法线图 (Normal Maps in 3D Generation)

法线图因其提供详细几何线索的优势,在 3D 重建 [5, 6, 55, 64, 68, 75, 76, 82] 中被广泛应用。近期也开始在 3D 生成中被探索。

  • SDS (Score Distillation Sampling) 方法 [48, 63]: 在优化过程中渲染法线图和 RGB 图像以正则化几何 [23, 29, 49]。
  • 多视图扩散 (Multi-view diffusion) 方法 [3, 42, 44, 46, 58, 69, 79]: 生成法线图像以补充 RGB 数据并提高准确性。然而,这些方法通常因多视图不一致性而导致表面细节平滑。
  • 3D 原生扩散 (3D native diffusion) 方法 [15, 40, 78, 87]: 基于特征体 (feature volumes)、Triplane [7]、3D 高斯点云 (3D Gaussians) [33] 等 3D 表示,通过解码法线图到网格并应用法线渲染损失来正则化表面。但这些方法通常面临高分辨率 3D 表示带来的高内存需求限制。
  • 潜在代码扩散 (Latent code diffusion) 方法 [37, 38, 70, 74, 84]: 已达到最先进性能,但在此范式下法线图的应用仍未被充分探索。法线图无法直接在高度抽象的潜在空间中正则化扩散学习。
    • CraftsMan [37] 将法线图细化作为后处理步骤。
    • Trellis [74] 在 VAE 训练期间引入法线渲染损失。
  • 本文的创新: Hi3DGen 独特地强调法线图在桥接图像到 3D 生成中的关键作用,并引入了一种新颖方法 (NoRLD),将法线监督有效地整合到 3D 潜在代码的扩散学习中,解决了现有工作的局限性。

3.3. 差异化分析

Hi3DGen 与上述相关工作的主要区别和创新点体现在以下几个方面:

  1. 法线图作为核心中间表示: 现有方法多直接学习 2D 到 3D 映射或将法线图作为辅助正则化,而 Hi3DGen 首次将法线图确立为连接 2D 图像与 3D 几何生成的核心中间桥梁,将复杂任务分解为图像到法线估计和法线到几何映射两个子任务。
  2. NiRNE 结合扩散与回归的优点: 针对法线估计领域的痛点(扩散方法的锐利但不稳定,回归方法的稳定但缺乏细节),NiRNE 创新性地将扩散模型中的噪声注入机制融入到回归框架中,并通过双流架构和领域特定训练策略,实现了既锐利又稳定的法线估计。
  3. NoRLD 在潜在空间中的法线正则化: 现有的潜在扩散方法在处理精细几何细节时容易丢失信息。NoRLD 创新性地在潜在扩散学习过程中引入在线法线正则化,直接在 3D 几何空间提供监督,从而显著提升了 3D 几何生成的保真度和与输入图像的细节一致性。这克服了法线图难以直接在抽象潜在空间进行正则化的挑战。
  4. 高质量合成数据集 DetailVerse 论文通过精心设计的 3D 数据合成管道,构建了迄今为止最大规模且细节最丰富的合成 3D 数据集 DetailVerse。该数据集不仅为 NiRNENoRLD 的训练提供了高质量数据,也弥补了现有公开 3D 数据集在几何复杂度和表面细节方面的不足。

4. 方法论

本节将详细阐述 Hi3DGen 框架的方法原理和具体实现。Hi3DGen 的核心思想是将从 2D 图像生成 3D 几何的任务分解为两个主要阶段:首先,将 2D RGB 图像转换为 2.5D 法线图;其次,利用生成的法线图引导 3D 几何体的生成。这种“法线桥接”策略旨在克服 RGB 图像固有的歧义和领域鸿沟,从而实现高保真 3D 模型的生成。

4.1. 方法原理

Hi3DGen 框架通过引入法线图作为中间表示,有效地桥接了 2D 图像到 3D 几何的学习过程。这种分解的直觉在于:

  1. 缓解领域鸿沟: 法线图作为一种对光照和纹理变化相对不敏感的几何表示,可以更有效地从真实世界图像中提取几何信息,从而缓解合成训练数据与真实世界图像之间的领域鸿沟。

  2. 提供清晰几何线索: 法线图直接编码了表面方向,提供了比 RGB 图像更明确、更精细的几何细节,这对于引导 3D 几何体的生成至关重要。

  3. 模块化设计: 将任务分解为两个子任务,使得每个模块可以独立优化,并采用最适合其特性的技术。例如,法线估计可以专注于图像的高频细节,而法线到几何生成则可以专注于将这些细节有效地转换为 3D 结构。

    整个框架由三个关键组件构成,如下图(原文 Figure 1)所示:

    该图像是Hi3DGen方法流程的示意图,展示了从输入图像到法线估计、再到法线引导的3D几何生成及高质量数据集构建的全过程,突出双流编码、潜在扩散和法线正则化等关键技术。 该图像是Hi3DGen方法流程的示意图,展示了从输入图像到法线估计、再到法线引导的3D几何生成及高质量数据集构建的全过程,突出双流编码、潜在扩散和法线正则化等关键技术。

  • 图像到法线估计器 (NiRNE): 负责从输入图像中估计出精确、稳定且锐利的法线图。
  • 法线到几何学习方法 (NoRLD): 利用估计出的法线图,通过法线正则化的潜在扩散模型生成高保真 3D 几何。
  • 3D 数据合成管道 (DetailVerse): 用于构建大规模、高质量、细节丰富的 3D 数据集,以支持前两个组件的训练。

4.2. 核心方法详解

4.2.1. 噪声注入回归法线估计 (Noise-Injected Regressive Normal Estimation, NiRNE)

传统的法线估计方法分为扩散模型 (diffusion-based) 和回归模型 (regression-based)。扩散模型能产生更锐利的结果但稳定性差,易出现虚假细节;回归模型稳定但结果平滑,缺乏精细细节。NiRNE 旨在结合两者的优点,通过噪声注入和双流训练实现可泛化、稳定和锐利的法线估计。

4.2.1.1. 噪声注入 (Noise Injection)

为了理解扩散模型为何能产生锐利估计,论文从频率域 (frequency domain) 视角进行了分析,并受此启发将噪声注入机制引入回归方法。

  • 扩散过程的频率域分析: 扩散过程通常用随机微分方程 (stochastic differential equation) 描述为: xt=x0+0tg(s)dwt x _ { t } = x _ { 0 } + \int _ { 0 } ^ { t } g ( s ) d w _ { t } 其中:

    • xtx_t: 在时间 tt 时的状态,是初始状态 x0x_0 经过扩散过程后的结果。

    • x0x_0: 初始状态,即原始数据样本(如图像)。

    • 0tg(s)dwt\int_0^t g(s) dw_t: 累积的噪声项,其中 g(s) 是一个依赖于时间的函数,控制噪声的强度。

    • wtw_t: 维纳过程 (Wiener process),也称为布朗运动 (Brownian motion),代表注入的随机噪声。

    • t[0,T]t \in [0, T]: 扩散过程的时间步。

      对这个过程进行傅里叶变换 (Fourier transformation) 后,可以得到任意频率分量 ω\omega 在时间 tt 的信噪比 (Signal-to-Noise Ratio, SNR): SNR(ω,t)=x^0(ω)20tg(s)2ds \mathrm { S N R } ( \omega , t ) = \frac { | \hat { x } _ { 0 } ( \omega ) | ^ { 2 } } { \int _ { 0 } ^ { t } | g ( s ) | ^ { 2 } d s } 其中:

    • x^0(ω)\hat{x}_0(\omega): 初始状态 x0x_0 的傅里叶变换,表示其在频率 ω\omega 上的分量。

    • x^0(ω)2|\hat{x}_0(\omega)|^2: 初始信号在频率 ω\omega 上的功率谱密度 (power spectral density)。

    • 0tg(s)2ds\int_0^t |g(s)|^2 ds: 噪声功率的累积。

    • ω\omega: 频率分量,高频率对应图像的细节,低频率对应图像的整体结构。

      分析: 由于自然图像通常呈现低通特性 (low-pass characteristics),即高频分量功率衰减较快 ( x^0(ω)2ωα|\hat{x}_0(\omega)|^2 \propto |\omega|^{-\alpha}, 其中 α>0\alpha > 0),这意味着在高频区域的信噪比会随着扩散过程的进行比低频区域更快地下降。这使得模型在训练过程中对 xtx_t 中的高频区域给予更强的监督信号,从而鼓励模型更专注于捕捉和预测锐利细节。

  • 启发与应用: 受此启发,NiRNE 将噪声注入技术集成到回归模型中,以增强其对高频模式的敏感性,使其能够学习生成更锐利的法线图。

4.2.1.2. 双流架构 (Dual-Stream Architecture)

为了同时实现泛化能力和锐利度,NiRNE 提出了一个双流架构,用于解耦图像的低频和高频特征学习。低频特征(例如图像的整体结构 [9, 24])对于模型的泛化能力至关重要 [39],而高频特征则影响预测的锐利度。

  • 结构设计:

    • 干净流 (Clean Stream): 处理未注入噪声的原始图像。这个流旨在鲁棒地捕获图像的低频细节和整体结构信息。
    • 噪声流 (Noisy Stream): 处理注入噪声后的图像。这个流旨在专注于图像的高频细节,利用噪声注入机制增强其对细微纹理和边缘的感知。
  • 融合机制: 两个流的潜在表示 (latent representations) 以 ControlNet [83] 风格的方式拼接 (concatenated) 起来,然后输入到解码器 (decoder) 中进行最终的法线预测。

  • 优势: 这种设计巧妙地结合了噪声注入在捕捉高频信息方面的优势(类似扩散模型)和回归模型在稳定性方面的优势,同时通过两个独立流实现了解耦学习。

    下图(原文 Figure 2)展示了 NiRNE 的噪声注入回归法线估计概念和双流架构:

    Figure 8. User study results. 该图像是图表,展示了论文中图8的用户研究结果,通过两个饼图对比了专业艺术家和业余用户对五种3D生成方法的偏好比例,突出显示了Hi3DGen方法的优势。

上图左侧部分:噪声注入回归法线估计的插图。右侧部分:真实领域数据中高频区域的噪声标签。

4.2.1.3. 领域特定训练 (Domain-Specific Training)

为了进一步鼓励双流架构中的解耦学习,论文设计了一种领域特定训练策略,根据不同训练数据(真实领域数据和合成领域数据)的优势进行优化。

  • 背景问题:
    • 真实领域数据 (Real-domain data): 具有强大的泛化能力,但受限于采集环境和扫描仪精度,其标签(特别是物体边缘处)通常含有噪声(如上图 Figure 2 右侧所示),这会阻碍模型准确学习高频细节。
    • 合成领域数据 (Synthetic-domain data): 由 3D 真实标注 (ground truth) 渲染而来,可以提供精确的高频标签,但与真实图像之间存在领域鸿沟。
  • 训练策略:
    1. 第一阶段: 使用真实领域数据训练网络。此阶段主要目的是让模型学习低频信息,从而获得强大的泛化能力。
    2. 第二阶段: 冻结“干净流”的参数,仅使用合成领域数据微调 (finetune) “噪声流”。这个阶段允许“噪声流”专注于学习高频细节,将其作为“干净流”输出的残差 (residual component)。
  • 优势: 这种策略既充分利用了真实领域数据的泛化能力,又利用了合成领域数据提供精确高频标签的优势,有效地促进了双流模型中低频和高频表示的解耦学习。

4.2.2. 法线正则化潜在扩散 (Normal-Regularized Latent Diffusion, NoRLD)

现有最先进的 2D 到 3D 生成方法通常依赖于 3D 潜在扩散 (3D latent diffusion),它将 3D 几何体表示在一个紧凑的潜在空间 (compact latent space) 中,从而更有效地学习 2D 到 3D 映射 [37, 70, 74, 84]。然而,这些方法容易丢失细节,或者生成细节与输入图像不一致。这除了 RGB 图像本身的歧义外,还在于潜在空间中几何信息(特别是精细细节)为了紧凑性而被高度压缩,导致监督信号不充分。

4.2.2.1. 潜在扩散 (Latent Diffusion)

NoRLD 基于典型的 3D 生成方法中的潜在扩散过程。

  • VAE 编码解码: 一个变分自编码器 (Variational Auto-Encoder, VAE) 用于将任何 3D 几何体 XX 编码 (encode) 为潜在表示 x0x_0,并将其解码 (decode) 回原始几何体 X^\hat{X} d bx0= bE( bX),  bX^= bD( bx0) \ d { \ b { x } } _ { 0 } = \ b { E } ( \ b { X } ) , ~ \hat { \ b { X } } = \ b { D } ( \ b { x } _ { 0 } ) 其中:

    • XX: 原始 3D 几何体。
    • x0x_0: 3D 几何体 XX 在潜在空间中的紧凑表示。
    • X^\hat{X}: 从潜在表示 x0x_0 解码回的 3D 几何体。
    • E()E(\cdot): VAE 的编码器 (encoder),将 3D 几何体映射到潜在空间。
    • D()D(\cdot): VAE 的解码器 (decoder),将潜在表示映射回 3D 几何体空间。
    • 重参数化过程 (reparameterization process) 在此公式中为简化而省略。
  • 图像条件扩散过程: 图像条件扩散过程通过在给定时间步 ttx0x_0 注入噪声来构造 xtx_t,并学习从 xtx_t 恢复 x0x_0

  • 流匹配损失函数 (Flow Matching Loss Function): 常用于解决扩散过程中的连续变换学习,旨在通过建模时间相关的速度场来学习连续变换。其损失函数公式为: LLDM=Et,x0,xt[vθ(xt,t)u(xt,t)2] \mathcal { L } _ { \mathrm { L D M } } = \mathbb { E } _ { t , x _ { 0 } , x _ { t } } \Big [ \big \| \mathbf { v } _ { \theta } ( x _ { t } , t ) - \mathbf { u } ( x _ { t } , t ) \big \| ^ { 2 } \Big ] 其中:

    • LLDM\mathcal{L}_{\mathrm{LDM}}: 潜在扩散模型 (Latent Diffusion Model) 的损失。
    • Et,x0,xt[]\mathbb{E}_{t, x_0, x_t}[\cdot]: 期望操作,对时间 tt、初始潜在样本 x0x_0 和噪声潜在样本 xtx_t 取平均。
    • vθ(xt,t)\mathbf{v}_\theta(x_t, t): 由神经网络(参数为 θ\theta)预测的速度场,它尝试从噪声状态 xtx_t 估计出恢复到 x0x_0 的方向。
    • u(xt,t)=xtlogp(xtx0)\mathbf{u}(x_t, t) = \nabla_{x_t} \log p(x_t | x_0): 真实的瞬时速度场 (true velocity field),表示从 xtx_tx0x_0 的最优路径方向。
    • 2\|\cdot\|^2: L2 范数平方,衡量预测速度场与真实速度场之间的差异。
    • 图像/文本条件 (image/text condition) 隐含地包含在模型输入中。

4.2.2.2. 法线正则化 (Normal Regularization)

为了在 3D 几何空间中提供更精确的监督,特别是对表面细节的监督,NoRLD 提出了一个带有显式法线图正则化项的增强损失函数。

  • 增强损失函数: LNorld=LLDM+λRNormal(x^0) \mathcal { L } _ { \mathrm { { N o r l d } } } = \mathcal { L } _ { \mathrm { { L D M } } } + \lambda \cdot \mathcal { R } _ { \mathrm { { N o r m a l } } } ( \hat { x } _ { 0 } ) 其中:

    • LNorLd\mathcal{L}_{\mathrm{NorLd}}: NoRLD 的总损失函数。
    • LLDM\mathcal{L}_{\mathrm{LDM}}: 上述的潜在扩散模型损失。
    • λ\lambda: 一个权重超参数,用于平衡潜在扩散损失和法线正则化项的重要性。
    • RNormal(x^0)\mathcal{R}_{\mathrm{Normal}}(\hat{x}_0): 提出的法线正则化项。
    • x^0\hat{x}_0: 预测的干净样本 (predicted clean sample),即潜在扩散模型尝试恢复的目标潜在表示。
  • 法线正则化项: RNormal(x^0)=Ev[Rv(D(x^0))Nv2] \mathcal { R } _ { \mathrm { N o r m a l } } ( \hat { x } _ { 0 } ) = \mathbb { E } _ { v } \Big [ \big \| R _ { v } ( D ( \hat { x } _ { 0 } ) ) - N _ { v } \big \| ^ { 2 } \Big ] 其中:

    • Ev[]\mathbb{E}_v[\cdot]: 对不同视角 (viewpoint) vv 取期望。这意味着从多个视角渲染法线图并进行比较。
    • D(x^0)D(\hat{x}_0): 将预测的干净潜在样本 x^0\hat{x}_0 通过 VAE 解码器 D()D(\cdot) 转换回显式 3D 几何体。
    • Rv()R_v(\cdot): 一个渲染函数,从解码后的 3D 几何体中渲染出在视角 vv 下的法线图。
    • NvN_v: 在视角 vv 下对应的真实标注 (ground truth) 法线图。
    • 2\|\cdot\|^2: L2 范数平方,衡量渲染出的法线图与真实法线图之间的差异。
  • 特点: 这种正则化是在扩散训练过程在线进行 (online during the diffusion training process),而不是作为后处理步骤。这意味着法线监督直接参与并指导扩散网络的训练,促使模型学习生成与输入图像细节一致的、包含丰富细节的潜在表示。

    下图(原文 Figure 3)展示了法线正则化潜在扩散的流程:

    Figure 3. An illustration of Normal-Regularized Latent Diffusion. 该图像是论文中图3的示意图,展示了基于法线正则化的潜空间扩散学习流程。包括VAE编码解码3D输入和利用法线图作为条件引导潜空间扩散,以增强3D几何重建的精度。

上图清晰地展示了 VAE 如何编码 3D 输入到潜在空间,以及法线正则化项如何通过从解码的 3D 几何体渲染法线图并与真实标注法线图进行比较来提供监督信号,以指导潜在扩散模型的训练。

4.2.3. DetailVerse 数据集 (DetailVerse Dataset)

高质量 3D 数据对于 NiRNE(提供干净的法线标签)和 NoRLD(用于高保真 3D 生成)的训练至关重要。鉴于现有数据集(如 Objaverse [13, 14])中高质量、复杂几何结构和丰富表面细节的资产稀缺,论文提出了一个 3D 数据合成管道来构建 DetailVerse 数据集。

4.2.3.1. 数据集构建 (Dataset Construction)

DetailVerse 数据集通过一个多阶段的合成与过滤管道构建,流程图如下图(原文 Figure 4)所示:

Figure 4. The procedure of DetailVerse Construction.

步骤 1: 语义文本提示策划 (Semantic Text Prompt Curation)

  • 目的: 生成具有语义多样性和高质量的文本提示,以确保最终几何体的多样性。
  • 来源:DiffusionDB [67] 收集大约 14M 高质量原始提示。
  • 过滤与分类: 使用一个微调过的 LLaMA3-8B 模型 [60] 对提示进行分类,过滤掉复杂场景,仅保留“单一物体”和“多个物体”类别,得到约 1M 候选提示。
  • 规则过滤与标准化: 采用基于规则的方法消除风格修饰词,并使用 LLaMA-3-13B [60] 进行结构标准化,以确保格式一致性。经验发现,近乎等距视角 (near-isometric viewpoints) 和 CGI 渲染美学 (CGI-rendered aesthetics) 的输入图像能显著提高 3D 合成保真度。因此,通过领域特定提示模板强制添加明确的几何线索和结构清晰度(例如,“isometric perspective”、“Unreal Engine 5 Rendering”、“4K”、“MasterPiece”)。
  • 结果: 获得约 1.5M 精心策划和自然的提示。

步骤 2: 高质量图像生成 (High-Quality Image Generation)

  • 目的: 从文本提示生成适合 3D 资产合成的图像,要求高视觉保真度和特定视角/风格。
  • 图像生成器: 集成最先进的 Flux.1-Dev [35] 进行文本到图像生成。
  • 锐度过滤: 根据 Canny 边缘检测 (Canny edge detection) 计算的锐利像素数量,过滤并保留锐度最高的 50% 图像,确保输出细节。每个提示随机选择一个种子生成一张图像。
  • 视角验证: 使用 OrientAnything [66] 模型验证相机视角与规范物体方向的对齐情况。拒绝角度偏差超过 60 度的图像,以防止结构畸变并保持几何保真度。
  • 结果: 保留 1M 高质量图像用于 3D 合成。

步骤 3: 鲁棒图像到 3D 合成 (Robust Image-to-3D Synthesis)

  • 目的: 从准备好的图像中生成高保真 3D 物体。
  • 3D 生成器: 使用最先进的两阶段 3D 生成器 Trellis [74] 进行图像到 3D 合成。

步骤 4: 严格数据清洗 (Rigorous Data Cleaning)

  • 目的: 确保合成网格的质量。
  • 专家评估: 随机抽取 10K 网格,邀请 10 名训练有素的专家进行三盲质量评估 (triple-blind quality assessments),评估标准主要关注表面质量,特别是渲染的法线图是否存在孔洞或噪声伪影。
  • 自动化评估: 基于专家标注,使用 DINOv2 [45] 特征训练一个质量评估网络。具体而言,从每个网格的四个等角渲染法线图 (equiangular rendered normal maps) 中提取特征,并训练一个三层 MLP 分类器进行质量评分。
  • 筛选: 将此训练好的网络应用于评估整个数据集。只有在所有四个视图下都获得正面分类的模型才被选中,用于训练 NoRLD 模型。
  • 结果: 最终保留 700K 高质量物体网格,组成了 DetailVerse 数据集。

4.2.3.2. 数据集统计 (Dataset Statistics)

下表(原文 Table 1)展示了 DetailVerse 与其他 3D 对象数据集的统计比较。

以下是原文 Table 1 的结果:

DatasetObj #Sharp Edge #Source
GSO [16]1K3,071 / 1,529Scanning
Meta [56]8K10,603 / 6,415Scanning
ABO [11]8K2,989 / 1,035Artists
3DFuture [20]16K1,776 / 865Artists
HSSD [34]6K5,752 / 2,111Artists
ObjV-1.0 [13]800K1,520 / 452Mixed
ObjV-XL [14]10.2M1,119 / 355Mixed
DetailVerse700K45,773 / 14,521Synthesis

表中显示,DetailVerse 包含 700K 个物体,并且其平均锐利边缘数 (Sharp Edge #) 远高于其他数据集(45,773),这表明 DetailVerse 中的合成资产具有丰富的表面细节和复杂的几何结构。锐利边缘检测遵循 Dora-Bench [10] 的实现。

5. 实验设置

5.1. 数据集

论文使用了多种数据集来训练和评估 Hi3DGen 框架的不同组件。

5.1.1. 图像到法线估计训练 (Image-to-Normal Training)

  • 真实世界数据集 (Realistic Dataset): Depth-pro [4] 的一个多样化版本。这个数据集用于训练 NiRNE 的泛化能力和低频特征捕获能力。
  • 合成数据集 (Synthetic Data): 20M RGB 到法线对。这些数据通过从 500k 个 DetailVerse 资产中每个资产渲染 40 张图像而创建。这个数据集用于微调 NiRNE 的噪声流,以学习精确的高频细节。

5.1.2. 法线到几何生成训练 (Normal-to-Geometry Training)

  • 人类创建数据集 (Human-Created Dataset): 170K 个从 Objaverse [13] 中筛选出的高质量 3D 资产。这些资产经过清理以确保质量。
  • 合成数据集 (Synthesized Dataset): 700K 个来自 DetailVerse 的 3D 资产。
  • 渲染策略: 遵循 Trellis [74] 的方法,每个资产渲染 40 张图像作为训练对。

5.1.3. 评估数据集 (Evaluation Datasets)

  • 图像到法线估计评估: LUCES-MV [41] 重建数据集,用于验证 NiRNE 在真实场景中的泛化能力。
  • 3D 生成视觉比较和用户研究: 评估图像和 3D 模型样本从 Hyper3D [12] 网站、Hunyuan3D-2.0 [59] 项目页面和 Dora [54] 项目页面收集。

5.2. 评估指标

论文使用了两个关键指标来评估法线估计和 3D 几何生成的质量。

5.2.1. 法线角度误差 (Normal Angle Error, NE)

  1. 概念定义: 法线角度误差 (NE) 衡量的是预测法线向量与真实标注法线向量之间的平均夹角,通常以度 (degrees) 为单位。这个指标用于评估法线估计的整体准确性,反映了模型对物体表面方向的平均预测能力。值越低表示预测越准确。
  2. 数学公式: 对于图像中的每个像素 pp,其预测法线向量为 nppred\mathbf{n}_p^{\text{pred}},真实标注法线向量为 npgt\mathbf{n}_p^{\text{gt}}。NE 的计算方式为: NE=1Mp=1Marccos(npprednpgtnpprednpgt)×180π \mathrm{NE} = \frac{1}{M} \sum_{p=1}^{M} \arccos \left( \frac{\mathbf{n}_p^{\text{pred}} \cdot \mathbf{n}_p^{\text{gt}}}{\|\mathbf{n}_p^{\text{pred}}\| \|\mathbf{n}_p^{\text{gt}}\|} \right) \times \frac{180}{\pi}
  3. 符号解释:
    • MM: 图像中参与计算的像素总数。
    • nppred\mathbf{n}_p^{\text{pred}}: 像素 pp 处预测的法线向量。
    • npgt\mathbf{n}_p^{\text{gt}}: 像素 pp 处真实的法线向量 (ground truth)。
    • \cdot: 向量点积操作。
    • \|\cdot\|: 向量的欧几里得范数(模长)。
    • arccos()\arccos(\cdot): 反余弦函数,用于计算两个向量之间的夹角(以弧度表示)。
    • ×180π\times \frac{180}{\pi}: 将弧度转换为度。

5.2.2. 锐利法线误差 (Sharp Normal Error, SNE)

  1. 概念定义: 锐利法线误差 (SNE) 是一个专门针对几何边缘和细节丰富区域的法线估计准确性指标。它通过聚焦这些对视觉质量和几何精细度至关重要的区域,更严格地评估模型捕捉精细结构和锐利细节的能力。这个指标对于高保真 3D 几何生成尤为重要,因为它直接反映了模型在关键细节上的表现。值越低表示锐利区域的细节捕捉越准确。
  2. 数学公式: SNE 的计算遵循 Dora [10] 的实现,分为三步:
    • 步骤 1: 显著区域检测: 在真实标注法线图上通过 Canny 边缘检测 (Canny edge detection) 等算法检测出显著的几何边缘区域。
    • 步骤 2: 区域膨胀: 对这些检测到的掩膜区域进行膨胀 (dilate) 操作,以确保它们能够完整覆盖边缘特征,避免因边缘过细而遗漏关键信息。
    • 步骤 3: 误差计算: 仅在这些经过膨胀的掩膜区域内计算法线角度误差。其核心计算公式与 NE 相同,但求和范围仅限于这些锐利区域的像素。 SNE=1MsharppSharpRegionsarccos(npprednpgtnpprednpgt)×180π \mathrm{SNE} = \frac{1}{M_{\text{sharp}}} \sum_{p \in \text{SharpRegions}} \arccos \left( \frac{\mathbf{n}_p^{\text{pred}} \cdot \mathbf{n}_p^{\text{gt}}}{\|\mathbf{n}_p^{\text{pred}}\| \|\mathbf{n}_p^{\text{gt}}\|} \right) \times \frac{180}{\pi}
  3. 符号解释:
    • MsharpM_{\text{sharp}}: 锐利区域中参与计算的像素总数。
    • SharpRegions\text{SharpRegions}: 经过边缘检测和膨胀后的锐利区域像素集合。
    • 其他符号定义与 NE 相同。

5.3. 对比基线

为了全面评估 Hi3DGen 的性能,论文将其与多项最先进的基线方法进行了比较。

5.3.1. 图像到法线估计对比 (NiRNE Baselines)

这些方法代表了当前法线估计领域的主要流派。

  • 扩散模型 (Diffusion-based):
    • GeoWizard [21]: 一种利用扩散先验进行 3D 几何估计的方法,包含几何切换器以处理多样数据分布。
    • StableNormal [80]: 通过减少扩散方差来提高法线估计的稳定性和锐利度。
  • 回归模型 (Regression-based):
    • Lotus [25]: 基于扩散的视觉基础模型,用于高质量密集预测。
    • GenPercept [77]: 探索重新利用扩散模型进行通用密集感知任务。

5.3.2. 3D 几何生成对比 (Hi3DGen Baselines)

这些方法是当前 2D 图像到 3D 几何生成领域的领先模型。

  • 开源方法:
    • CraftsMan1.5 [37]: 高保真网格生成方法,结合 3D 原生生成和交互式几何细化。
    • Hunyuan3D-2.0 [86]: 高分辨率 3D 资产生成的大规模扩散模型。
    • Trellis [74]: 结构化 3D 潜在空间,用于可扩展和多功能的 3D 生成。
  • 闭源/半闭源方法:
    • Clay [84]: 用于创建高质量 3D 资产的可控大规模生成模型。
    • Tripo-2.5 [61]: 一个知名的 3D 模型生成平台。
    • Dora [10]: 3D 形状变分自编码器 (variational auto-encoders) 的采样和基准测试方法。由于 Dora 未发布 API,论文通过其项目页面 [54] 上的示例进行对比。

6. 实验结果与分析

本节将详细展示并分析 Hi3DGen 框架在图像到法线估计和 3D 几何生成方面的实验结果,包括定量评估、定性比较以及消融研究。

6.1. 图像到法线估计结果

6.1.1. 定量结果

下表(原文 Table 2)展示了 NiRNE 与其他最先进法线估计方法在 LUCES-MV 数据集上的性能比较。

以下是原文 Table 2 的结果:

MethodNE↓SNE↓
(Diff.) GeoWizard [21]31.38136.642
(Diff.) StableNormal [80]31.26537.045
(Regr.) Lotus [25]53.05152.843
(Regr.) GenPercept [77]28.05035.289
(Regr.) NiRNE (Ours)21.83726.628

表中,“↓”表示值越低越好。Bold 表示最佳结果。 分析:

  • 显著优越性: NiRNENE (法线角度误差) 和 SNE (锐利法线误差) 两项指标上均取得了显著优越的性能,NE 为 21.837,SNE 为 26.628。这表明 NiRNE 不仅在整体法线准确性上表现出色,在捕捉几何细节丰富的锐利区域方面也远超其他方法。
  • 对比回归方法: NiRNE 作为一种回归方法,相比 LotusGenPercept 等其他回归方法,性能提升巨大。这验证了 NiRNE 引入的噪声注入和双流架构有效地解决了传统回归方法缺乏锐利细节的问题。
  • 对比扩散方法: NiRNE 甚至超越了 GeoWizardStableNormal 等扩散方法,这表明它成功结合了扩散方法的锐利度,同时保持了回归方法的稳定性,避免了扩散模型可能引入的虚假细节和不稳定性。

6.1.2. 定性结果

下图(原文 Figure 5)展示了 NiRNE 与其他法线估计方法的定性比较。

Figure 5. Normal estimation results comparison. 该图像是论文中图5,是多种法线估计方法的结果对比示意图。图中展示了不同方法对两种3D模型的法线预测及其误差热力图,突出显示了本文方法在细节和误差控制上的优势。

上图展示了不同方法对两个对象的法线估计结果及其误差图。 分析:

  • 鲁棒性与泛化能力: NiRNE 对人物和物体输入都表现出优异的鲁棒性和强大的泛化能力,能够处理不同类型的输入。

  • 稳定性: 相比扩散方法(如 GeoWizardStableNormal),NiRNE 产生了更稳定的估计,误差图显示其引入的错误细节更少。这验证了其在抑制扩散模型固有不稳定性方面的成功。

  • 锐利度: 与其他回归方法(如 LotusGenPercept)相比,NiRNE 的估计结果明显更锐利,尤其是在几何边缘和细节区域。这证实了其噪声注入机制在增强高频信息捕获方面的有效性。

    补充定性结果: 论文在补充材料中还提供了 NiRNE 与最先进的光度立体法 (Photometric Stereo-based Method) SDM-UniPS [30] 的比较 (图 S12)。

    Figure S12. Qualitative comparison of image-to-normal estimation with SOTA Photometric Stereo-based Method, SDM-UniPS. 该图像是图表,展示了图像到法线估计的定性比较,分别对比了SOTA光度立体法SDM-UniPS在不同参数K下的结果、本方法和真实法线图(GT),并包含误差图以展示角度误差分布。

上图展示了 SDM-UniPS (K=2, K=4) 和 Ours (NiRNE) 对比真实法线图 (GT) 的结果。 分析: NiRNE 在单张图像输入的情况下,能够生成与需要多张光照条件图像的 SDM-UniPS 类似甚至更好的细节,尤其是在一些复杂纹理和几何区域,进一步证明了其卓越的细节捕捉能力。

6.2. 3D 几何生成结果

6.2.1. 定性结果

下图(原文 Figure 9)展示了 Hi3DGen 与其他最先进 3D 生成方法在 Dora 项目页面样本上的定性比较。

Figure 9. Qualitative 3D generation comparison on samples from Dora's project page \[54\]. 该图像是一个对比插图,展示了七种方法对四组不同输入图片生成的3D法线贴图旋转视角的效果。图中展示了输入图片及各方法生成的旋转3D法线,体现了Hi3DGen方法在细节还原和几何形状上的优越性能。

上图展示了多种方法从输入图像生成的 3D 几何模型。 分析:

  • 高保真细节: Hi3DGen 显著优于其他方法,能够生成具有丰富、精细几何细节的高保真 3D 模型,并且这些细节与输入图像高度一致。其他方法通常会丢失这些细节。

  • 鲁棒性: 对于输入图像中细节较少的场景(例如图中的第一个和第三个示例),Hi3DGen 也能生成相对平滑和稳健的结果,显示了其良好的泛化能力。

    更多生成结果: 论文在图 7 中展示了 Hi3DGen 的更多高保真 3D 生成结果。

    Figure 7. High-fidelity 3D results generated by our Hi3DGen. 该图像是论文中展示的图7,为高保真3D模型生成结果。左侧和右侧分别展示了彩色纹理和对应的灰度细节几何形状,中间展示了法线贴图,体现了该方法在生成丰富几何细节上的优越性能。

上图展示了 Hi3DGen 生成的 3D 模型,包括彩色纹理、法线贴图和灰度细节几何形状,突出了其在生成复杂细节方面的能力。

论文还在补充材料中提供了更多 3D 生成结果比较 (图 S14)。

Figure S14. More 3D generation results comparison. 该图像是图 S14,展示了多组来自不同方法的三维几何生成对比结果。左侧为原始输入图像,右侧分别展示了CraftsMan-1.5、Hunyuan3D-2.0、Clay、Tripo-2.5、Trellis、Dora及本文Hi3DGen方法生成的法线图,突出显示了Hi3DGen在细节还原上的优势。

上图展示了 Hi3DGen 与其他 SOTA 方法的更多 3D 生成对比,进一步强调了 Hi3DGen 在细节一致性和几何丰富性方面的优势。

6.2.2. 用户研究

论文进行了一项用户研究,以评估 Hi3DGenHunyuan3D-2.0DoraClayTripo-2.5Trellis 等五种方法的 3D 生成结果。

  • 评估标准: 评估侧重于生成 3D 几何体与输入图像的保真度,包括整体形状和局部细节的一致性。对于输入图像中不可见的部分,评估者需要判断生成结果的合理性和与可见部分的风格一致性。

  • 评估人群:

    • 业余 3D 用户组: 50 名用户评估 100 组随机采样的结果(每组 6 个),从日常应用(如 3D 打印)的角度进行评估。

    • 专业 3D 艺术家组: 10 名专业艺术家评估 20 组随机采样的结果(每组 6 个),从专业使用(如 3D 建模和设计)的角度进行评估。

      下图(原文 Figure 8)展示了用户研究结果。

      Figure 8. User study results. 分析:

  • 显著优势: 用户研究结果表明,Hi3DGen 在两个用户组(业余用户和专业艺术家)中都取得了最高的生成质量评分。这有力地证明了 Hi3DGen 生成的 3D 模型在人类感知上具有卓越的保真度和细节丰富度。

6.3. 消融实验

6.3.1. 法线桥接 (Normal Bridge)

  • 验证法线图的重要性: 通过将基于 Trellis [74] 的直接图像到几何生成器与 Hi3DGen 进行比较,论文发现直接生成器性能较差。即使在直接生成器中使用与 Hi3DGen 相同的法线正则化和训练数据,也可能产生“假细节” (fake details),这强调了法线图作为中间表示桥梁的独特价值,而非仅仅作为正则化项。
  • 法线质量的影响: 实验还验证了不同准确度和锐利度的法线估计(由其他方法产生)会导致最终 3D 生成质量下降。这进一步证明了使用准确且锐利的估计法线作为桥接对于实现高保真 3D 生成的重要性。

6.3.2. DetailVerse 数据集 (DetailVerse Data)

  • 定量影响 (NiRNE): 下表(原文 Table 3)中的前两行显示,当 NiRNE 额外集成 DetailVerse 数据(DV)进行图像-法线训练对后,其 NE 指标提升了 0.4(从 22.209 到 21.837),SNE 指标提升了 1.7(从 28.324 到 26.628)。这表明 DetailVerse 数据集在提升法线估计的准确性和细节锐利度方面起到了关键作用。

  • 定性影响 (NoRLD): 论文在图 10 中展示了 DetailVerse 数据对 NoRLD 生成细节的影响。

    Figure 10. Ablation on the proposed NoRLD. 该图像是论文中的插图,展示了对所提方法NoRLD的消融实验结果。图中对比了不同模块(缺少DV&NoRLD、缺少DV、缺少NoRLD)情况下3D模型的细节和几何纹理,右侧为包含全部模块的完整方法,细节表现最佳。

上图展示了 NoRLD 在有无 DetailVerse 数据训练下的生成结果。 分析: 图 10 清楚地显示,即使不使用 DetailVerse 数据进行训练,采用法线正则化也能显著提高生成保真度(通过放大屋顶细节可见)。然而,结合 DetailVerse 数据能进一步提升生成细节的丰富性和准确性,验证了该数据集对于高保真 3D 几何生成的重要性。

6.3.3. NiRNE 消融实验

下表(原文 Table 3)展示了 NiRNE 各组件的消融实验结果。

以下是原文 Table 3 的结果:

MethodNE↓SNE↓
Ours (full model)21.83726.628
Ours w/o DV22.20928.324
Ours w/o DST23.28829.690
Ours w/o DS21.91829.520
Ours w/o all22.50735.997

表中,“DV”表示 DetailVerse 数据,“NI”表示噪声注入技术,“DS”表示双流架构,“DST”表示领域特定训练策略。所有组件的贡献均通过移除它们对 NE 和 SNE 的影响来评估。 分析:

  • 完整模型 (Ours (full model)): 21.837 NE, 26.628 SNE,表现最佳。

  • 不使用 DetailVerse 数据 (Ours w/o DV): NE 和 SNE 均有所下降(22.209 NE, 28.324 SNE),表明 DetailVerse 数据对法线估计的准确性,尤其是锐利区域的细节捕捉至关重要。

  • 不使用领域特定训练 (Ours w/o DST): NE 和 SNE 下降幅度较大(23.288 NE, 29.690 SNE),说明 DST 在优化双流模型以捕捉不同频率信息方面发挥着关键作用。

  • 不使用双流架构 (Ours w/o DS): NE 略微下降(21.918 NE),但 SNE 大幅下降(29.520 SNE),这表明双流架构对于捕捉高频细节和生成锐利法线至关重要。

  • 不使用所有组件 (Ours w/o all): 性能下降最为显著(22.507 NE, 35.997 SNE),这验证了所有提出的组件(噪声注入、双流架构、领域特定训练和 DetailVerse 数据)共同作用,对于实现高保真法线估计是不可或缺的。

    补充定性结果: 论文在图 S11 中提供了 NiRNE 消融实验的定性结果。

    Figure S11. Ablations on image-to-normal estimation. 该图像是图表,展示了图像到法线估计的消融实验对比。图中包含不同网络配置下的法线图和对应的误差热力图,以反映各模块对模型效果的影响。

上图展示了移除不同组件后对法线估计结果的影响,进一步证实了每个组件对最终性能的积极贡献。

6.3.4. NoRLD 消融实验

论文在图 10 中可视化了不使用所提出的在线法线正则化 (NoRLD) 的差异。

Figure 10. Ablation on the proposed NoRLD. 分析:

  • 图 10 清楚地表明,无论是否使用 DetailVerse 数据进行训练,采用法线正则化 (NoRLD) 都能显著提高生成保真度。例如,观察屋顶细节可以发现,有 NoRLD 的结果在几何纹理上更加丰富和准确。这强调了法线正则化在训练过程中直接引导潜在扩散模型捕捉和再现精细几何细节的有效性,从而确保生成结果与输入图像的高度一致性。

7. 总结与思考

7.1. 结论总结

本文提出了 Hi3DGen,一个用于从 2D 图像生成高保真 3D 几何体的新颖框架。该框架的核心创新在于利用法线图 (normal map) 作为一种 2.5D 中间表示来桥接 2D 图像与 3D 几何之间的鸿沟,从而有效解决了现有方法在捕捉和再现精细几何细节方面的挑战。

Hi3DGen 主要由三个关键组件构成:

  1. 噪声注入回归法线估计器 (NiRNE): 该组件通过结合噪声注入机制、双流架构和领域特定训练策略,实现了对输入图像法线图的鲁棒、稳定且锐利估计,有效融合了扩散模型和回归方法的优点。

  2. 法线正则化潜在扩散 (NoRLD): 该方法在 3D 潜在扩散学习过程中引入了在线法线正则化,直接在 3D 几何空间提供监督,显著增强了生成 3D 几何的保真度,确保了与输入图像的细节一致性。

  3. DetailVerse 3D 数据合成管道: 通过精心设计的合成流程,构建了一个包含 700K 细节丰富的 3D 资产的高质量数据集,弥补了现有数据集在几何复杂性和表面细节方面的不足,为 NiRNENoRLD 的训练提供了坚实基础。

    广泛的实验(包括定量评估、定性比较和用户研究)证明了 Hi3DGen 在生成丰富精细几何细节方面的优越性,显著超越了现有最先进的方法。

7.2. 局限性与未来工作

论文作者指出了 Hi3DGen 的一些局限性并提出了未来的研究方向:

  • 局限性: 尽管 Hi3DGen 能够生成细节丰富的 3D 结果,但由于 3D 潜在扩散学习的生成性质,部分生成结果仍可能与输入图像存在不一致或未对齐的细节。这意味着模型在生成过程中仍可能“创造”出一些并非完全忠实于原始图像的几何特征。
  • 未来工作: 作者希望在未来工作中追求重建级别 (reconstruction-level) 的 3D 生成,即 3D 模型能够像真实重建一样精确地复制输入图像的几何信息,而非仅仅是生成具有相似风格和细节的 3D 模型。

7.3. 个人启发与批判

7.3.1. 个人启发

  1. 中间表示的强大潜力: 本文最核心的启发在于,在复杂的跨模态生成任务(如 2D 到 3D)中,引入一个精心设计的中间表示可以极大地简化问题并提高生成质量。法线图作为 2.5D 表示,比 RGB 图像携带了更直接的几何信息,有效桥接了这两个模态的鸿沟。这种分而治之的策略在其他复杂的生成任务中也值得借鉴。
  2. 融合不同范式的优点: NiRNE 成功地将扩散模型捕捉锐利细节的能力与回归模型提供稳定预测的优势结合起来。这种取长补短的思路,通过深入分析不同模型范式的内在机制(如频率域分析),而不是简单地堆叠模型,为后续的研究提供了宝贵的范例。
  3. 数据合成的重要性: DetailVerse 数据集的构建过程展示了在高质量真实数据稀缺时,如何通过结合 LLM、先进生成器、多阶段过滤和自动化评估来系统性地合成大规模、高保真训练数据。这对于推动需要大量高质量数据的 AIGC (AI-Generated Content) 领域至关重要。
  4. 在线正则化的有效性: NoRLD 中引入的在线法线正则化,直接在潜在扩散训练过程中进行,提供了强烈的几何监督,有效防止了潜在空间中的细节丢失。这比仅作为后处理步骤的正则化更具指导性,为潜在空间模型的细节控制提供了新思路。

7.3.2. 批判与潜在改进

  1. 生成性与重建性的权衡: 论文提及了生成性质可能导致细节不一致的局限性。虽然 Hi3DGen 旨在生成高保真模型,但在追求“重建级别”的目标时,如何在生成自由度与忠实还原之间取得平衡是一个挑战。未来的工作可以探索引入更严格的多视图几何一致性损失,或在后期优化阶段结合显式重建技术(如 NeRFGaussian Splatting)来进一步细化,以减少与输入的细节不一致。
  2. 领域鸿沟的深度探究: 尽管法线桥接有助于缓解领域鸿沟,但 DetailVerse 数据集毕竟是合成数据。合成数据与真实数据之间可能存在新的、更隐蔽的领域鸿沟(例如,合成法线图与真实法线图的统计特性差异)。论文可以进一步分析 DetailVerse 在这方面的特性,并探索如何利用领域自适应 (domain adaptation) 或更复杂的领域特定训练策略来弥补。
  3. 计算成本: Hi3DGen 框架涉及多个复杂组件,包括双流法线估计、潜在扩散模型以及多视图渲染进行正则化。虽然潜在扩散本身比像素空间扩散更高效,但整个流水线的训练和推理计算成本可能仍然较高。未来的工作可以探索更轻量级的模型架构、更高效的采样策略或知识蒸馏 (knowledge distillation) 等技术来提高效率。
  4. 纹理与材质的生成: 论文主要关注几何体的生成,但一个完整的 3D 模型通常还需要高质量的纹理 (texture) 和材质 (material)。Hi3DGen 最终生成的 3D 模型在纹理和材质方面如何与几何细节保持一致,以及如何从 2D 图像中推断出复杂的 PBR (Physically Based Rendering) 材质属性,是值得探索的扩展方向。
  5. 用户交互与控制: 尽管用户研究结果令人鼓舞,但生成过程的可控性(除了输入图像)并未在论文中详细阐述。用户是否能对生成的 3D 模型进行更精细的控制或修改?例如,通过文本提示引导几何形状变化,或在生成过程中进行交互式编辑,这将大大增加其实用性。

相似论文推荐

基于向量语义检索推荐的相关论文。

暂时没有找到相似论文。