AiPaper
论文状态:已完成

Dora: Sampling and Benchmarking for 3D Shape Variational Auto-Encoders

发表:2024/12/24
原文链接PDF 下载
价格:0.10
价格:0.10
已有 2 人读过
本分析由 AI 生成,可能不完全准确,请以原文为准。

TL;DR 精炼摘要

本文提出Dora-VAE,通过锐边采样策略和双重交叉注意力机制增强3D形状变分自编码器的重建质量,有效保留复杂几何细节。同时引入基于锐边密度的Dora-bench基准与锐法线误差指标,实现更精准的形状复杂度评估与重建性能对比。

摘要

Recent 3D content generation pipelines commonly employ Variational Autoencoders (VAEs) to encode shapes into compact latent representations for diffusion-based generation. However, the widely adopted uniform point sampling strategy in Shape VAE training often leads to a significant loss of geometric details, limiting the quality of shape reconstruction and downstream generation tasks. We present Dora-VAE, a novel approach that enhances VAE reconstruction through our proposed sharp edge sampling strategy and a dual cross-attention mechanism. By identifying and prioritizing regions with high geometric complexity during training, our method significantly improves the preservation of fine-grained shape features. Such sampling strategy and the dual attention mechanism enable the VAE to focus on crucial geometric details that are typically missed by uniform sampling approaches. To systematically evaluate VAE reconstruction quality, we additionally propose Dora-bench, a benchmark that quantifies shape complexity through the density of sharp edges, introducing a new metric focused on reconstruction accuracy at these salient geometric features. Extensive experiments on the Dora-bench demonstrate that Dora-VAE achieves comparable reconstruction quality to the state-of-the-art dense XCube-VAE while requiring a latent space at least 8×\times smaller (1,280 vs. > 10,000 codes).

思维导图

论文精读

中文精读

1. 论文基本信息

1.1. 标题

Dora: Sampling and Benchmarking for 3D Shape Variational Auto-Encoders

1.2. 作者

Rui Chen1,2 Jianfeng Zhang2† Yixun Liang1,3 Guan Luo2,4 Weiyu Li1,3 Jiarui Liu1,3 Xiu Li2 Xiaoxiao Long1.3 Jiashi Feng2 Ping Tan1,3 †Corresponding authors

  • 1 The Hong Kong University of Science and Technology (香港科技大学)
  • 2 ByteDance Seed (字节跳动)
  • 3 LightIllusions
  • 4 Tsinghua University (清华大学)

1.3. 发表期刊/会议

该论文为预印本 (Preprint),发布在 arXiv。arXiv 是一个广受欢迎的预印本服务器,允许研究人员在正式同行评审和出版之前分享他们的工作。在相关领域,arXiv 上的工作通常代表了最新的研究进展,但尚未经过正式的同行评审,其内容在发表前可能会有修订。

1.4. 发表年份

2024年 (Published at UTC: 2024-12-23T18:59:06.000Z)

1.5. 摘要

当前的三维内容生成流程通常采用变分自编码器 (Variational Autoencoders, VAEs) 将三维形状编码成紧凑的潜在表示 (latent representations),以供基于扩散模型 (diffusion-based generation) 进行生成。然而,形状 VAE (Shape VAE) 训练中广泛采用的统一采样点策略 (uniform point sampling strategy) 常常导致几何细节的显著丢失,从而限制了形状重建 (shape reconstruction) 和下游生成任务的质量。

本文提出了 Dora-VAE,这是一种通过其提出的锐边采样策略 (sharp edge sampling strategy)双重交叉注意力机制 (dual cross-attention mechanism) 来增强 VAE 重建质量的新方法。通过在训练过程中识别并优先处理具有高几何复杂度的区域,该方法显著改善了精细形状特征的保留。这种采样策略和双重注意力机制使得 VAE 能够专注于通常被统一采样方法忽略的关键几何细节。

为了系统评估 VAE 的重建质量,本文还提出了 Dora-bench,这是一个通过锐边密度来量化形状复杂度的基准测试,引入了一个新的指标 锐法线误差 (Sharp Normal Error, SNE),该指标专注于这些显著几何特征处的重建准确性。在 Dora-bench 上的大量实验表明,Dora-VAE 实现了与最先进的密集 XCube-VAE 相当的重建质量,同时所需的潜在空间 (latent space) 至少小8倍(1,280 对比 > 10,000 个编码)。

1.6. 原文链接

2. 整体概括

2.1. 研究背景与动机

三维内容创建在游戏、电影、增强现实 (AR) 和虚拟现实 (VR) 等多个行业中至关重要。传统的三维建模过程通常需要专业的知识和大量的手动工作,耗时且对非专业用户而言极具挑战性。近年来,人工智能驱动的三维内容生成方法显著发展,提高了三维内容创建的可及性。

问题提出: 现代三维内容生成流水线通常采用两阶段方法:首先使用变分自编码器 (VAEs) 将三维形状编码为紧凑的潜在表示,然后训练潜在扩散模型 (latent diffusion model) 进行生成。这种生成流水线的性能在很大程度上取决于 VAE 忠实编码和重建三维形状的能力。

现有挑战:

  1. 3D VAEs 的采样局限性: 与二维图像 VAE 不同,三维 VAE 通过在网格表面采样点来编码形状。然而,采样的点云往往无法捕获所有必要的形状信息,这会损害三维 VAE 的性能。

  2. 体积方法 (Volume-based methods) 的高潜在代码长度: 例如 XCube-VAE 等体积方法通过处理数百万个体素化 (voxelized) 点实现高保真重建,能捕获精确的形状信息。但其产生巨大的潜在代码(通常超过10,000个标记,即 tokens),这使得扩散模型的训练变得异常复杂和低效。

  3. 向量集方法 (Vector-set methods) 的细节丢失: 例如 3DShape2VecSet 等向量集方法使用 Transformer 架构实现紧凑的潜在表示(数百到数千个标记),从而支持高效的扩散模型训练。然而,由于 Transformer 网络的二次复杂度,这些方法通常只能采样数千个点来表示三维形状,这导致信息丢失和性能下降,尤其是在几何细节丰富的区域。

    核心痛点: 现有的向量集 VAEs 由于其普遍采用的统一采样 (uniform sampling) 策略而导致重建性能受限。当计算资源限制可采样点的总数时,统一采样无法优先处理几何显著区域 (geometrically salient regions),从而导致精细细节的丢失。这种信息丢失从采样阶段就限制了模型学习和保留复杂几何特征的能力。

本文的切入点: 旨在改进基于向量集 VAEs 的重建质量,同时保持其紧凑的表示,通过引入更智能的采样策略来解决统一采样带来的细节丢失问题。

2.2. 核心贡献/主要发现

本文通过提出 Dora-VAE 及其配套的 Dora-bench,为三维形状的变分自编码器领域做出了以下主要贡献:

  1. 提出 Dora-VAE 模型: 引入了一种新颖的三维 VAE 模型 Dora-VAE,它能够在保持紧凑潜在表示 (compact latent representations) 的同时,实现高质量的三维形状重建。

    • 锐边采样 (Sharp Edge Sampling, SES): 首次将重要性采样 (importance sampling) 应用于三维 VAE 学习任务,提出 SES 算法以优先处理几何显著区域,尤其关注具有锐利几何特征的边缘。
    • 双重交叉注意力 (Dual Cross-Attention, DCA) 架构: 在 SES 的基础上,设计了 DCA 架构,以有效地编码这些富含细节的点云(包括均匀采样点和锐边采样点),充分利用了采样策略带来的优势。
  2. 开发 Dora-bench 基准测试: 为了系统、严谨地评估三维 VAE 的重建质量,提出了 Dora-bench。

    • 基于几何复杂度的评估: Dora-bench 根据形状的几何复杂度(通过锐边数量衡量)将测试形状分为四个级别,克服了传统随机选择测试集无法全面评估模型在不同复杂度下性能的局限性。
    • 锐法线误差 (Sharp Normal Error, SNE) 指标: 引入了 SNE 这一新颖指标,专门用于评估模型在精细几何细节(如锐边)处的重建准确性,弥补了传统指标(如倒角距离 Chamfer Distance 和 F-score)在细节评估方面的不足。
  3. 验证卓越性能:

    • 在 Dora-bench 上的大量实验表明,Dora-VAE 在所有复杂度级别上均优于现有方法,尤其在处理复杂形状时表现出更大的优势。
    • Dora-VAE 实现了与最先进的密集体积方法 XCube-VAE 相当的重建质量,但其潜在空间大小至少缩小了8倍(1,280 个编码 vs. > 10,000 个编码),使其更适合下游的扩散模型训练。
    • 将 Dora-VAE 集成到下游三维扩散模型中,显著提升了生成三维形状的质量,特别是在几何细节的保留方面,从而验证了其作为三维生成任务基础的有效性。

3. 预备知识与相关工作

3.1. 基础概念

3.1.1. 变分自编码器 (Variational Autoencoders, VAEs)

变分自编码器 (VAEs) 是一种生成模型,用于学习数据的高维分布并生成新的相似数据点。它由两部分组成:

  • 编码器 (Encoder): 将输入数据(例如三维形状的点云)映射到一个潜在空间 (latent space) 中的概率分布(通常是高斯分布)的参数(均值和方差)。
  • 解码器 (Decoder): 从潜在空间中采样一个潜在向量 (latent vector),然后将其映射回数据空间,以重建原始输入。 VAEs 的目标是学习一个紧凑且有意义的潜在表示,使得解码器能够从这个表示中重建出高质量的原始数据。在三维内容生成中,VAEs 将复杂的三维形状编码为低维的潜在代码,这些代码随后可以被扩散模型用于高效生成。

3.1.2. 扩散模型 (Diffusion Models)

扩散模型 (Diffusion Models) 是一类生成模型,近年来在图像和三维内容生成中取得了显著成功。它们通过模拟一个正向扩散过程(逐步向数据添加噪声,直到数据变为纯噪声),然后学习一个逆向去噪过程(逐步从噪声中恢复数据)来工作。在潜在扩散模型中,扩散过程和去噪过程发生在 VAE 学习到的紧凑潜在空间中,而不是直接在原始数据空间中,这大大提高了训练和采样的效率。

3.1.3. 三维形状表示

三维形状可以有多种表示方式,本文主要涉及以下几种:

  • 点云 (Point Cloud): 由一系列离散的三维点组成,每个点通常包含其空间坐标 (x, y, z),有时也包含颜色、法线等信息。点云是三维扫描设备的直接输出,也是本文中 VAE 编码三维形状的主要输入形式。
  • 网格 (Mesh): 由顶点 (vertices)、边 (edges) 和面 (faces,通常是三角形或四边形) 组成的结构。网格是三维建模中最常见的表示形式,可以精确地描述物体的表面几何。
  • 体素 (Voxel): 三维空间中的像素,是三维栅格数据的一种表示形式。体素化 (voxelization) 将连续的三维形状离散化为三维网格中的小立方体单元。

3.1.4. 采样策略 (Sampling Strategies)

  • 统一采样 (Uniform Sampling): 在三维模型的表面上均匀地选择点。这种策略简单易行,但缺点是它对模型的各个区域一视同仁,可能导致在几何细节丰富(例如,锐边、小孔)的区域采样不足,而在平坦区域过度采样。
  • 重要性采样 (Importance Sampling): 一种旨在根据某种“重要性”准则,在数据分布中选择更有代表性或信息更丰富的点的策略。在三维几何处理中,这意味着在曲率高、细节多或几何变化剧烈的区域进行更密集的采样,以更好地捕捉这些关键特征。本文提出的锐边采样 (Sharp Edge Sampling, SES) 便是重要性采样的一种具体实现。

3.1.5. 注意力机制 (Attention Mechanism)

注意力机制 (Attention Mechanism) 是一种神经网络技术,允许模型在处理序列数据时“关注”输入的不同部分。

  • 交叉注意力 (Cross-Attention): 在 Transformer 架构中,交叉注意力允许一个序列(查询 Query)去查询另一个序列(键 Key 和值 Value)。例如,解码器的输出可以查询编码器的输出,从而在生成过程中利用编码器提取的特征。在本文中,DCA 使用交叉注意力来让稀疏采样点查询密集采样点,以提取特征。
  • 自注意力 (Self-Attention): 允许序列中的每个元素与其他所有元素进行交互,从而捕捉序列内部的依赖关系。在本文中,它用于处理点云特征,生成潜在代码。

3.1.6. 评估指标

  • F-score (F-score): 一种衡量两个点云之间匹配程度的指标,结合了精确率 (precision) 和召回率 (recall)。高 F-score 表示两个点云非常相似。
  • 倒角距离 (Chamfer Distance, CD): 衡量两个点云之间平均距离的指标。CD 越小,表示两个点云越相似。
  • 锐法线误差 (Sharp Normal Error, SNE): 本文提出的新指标,专门用于评估在三维模型几何细节(如锐边)区域的重建质量,通过比较重建模型和真实模型的法线图差异来量化。

3.2. 前人工作

3.2.1. 点云中的重要性采样 (Importance Sampling in Point Clouds)

重要性采样技术在点云处理任务中已被广泛应用。例如,APES [57] 提出了基于注意力的采样方法,用于点云分类和分割。然而,这些方法通常直接在点云上操作,而不是从网格表面采样,这与本文 VAE 任务中需要从网格中精确保留几何信息的场景有所不同。Dora-VAE 的创新在于将重要性采样应用于从网格到 VAE 学习的采样过程

3.2.2. 三维形状 VAEs (3D Shape VAEs)

现有的三维形状 VAEs 主要分为两类:

  • 体积方法 (Volume-based Methods): 如 XCube [45],使用稀疏卷积 (sparse convolution) 来编码体素化 (voxelized) 表面。这些方法能够实现高保真重建,擅长保留几何细节。然而,它们需要非常大的潜在代码(通常超过 10,000 个标记),这给下游扩散模型的训练带来了巨大挑战。
  • 向量集方法 (Vector Set-based Methods): 如 3DShape2VecSet [31, 58, 63, 65, 67],通过 Transformer 架构编码均匀采样的表面点。这些方法产生高度紧凑的潜在空间,非常适合扩散模型。但它们通常难以保留几何细节,尤其是在表面特征复杂的区域。
    • 本文的差异化: Dora-VAE 属于向量集方法,但其通过创新的采样策略和注意力机制,显著提升了细节保留能力,弥补了这类方法在细节重建上的固有缺陷。

3.2.3. 三维内容创建 (3D Content Creation)

当前的三维生成方法大致可分为三类:

  • 基于优化的方法 (Optimization-based methods): 如 DreamFusion [43],利用分数蒸馏采样 (SDS) 优化三维表示。它们可以生成照片级真实感的结果,但生成速度慢、训练不稳定,且难以保持几何一致性。
  • 大型重建模型 (Large reconstruction models, LRM): 如 LRM [22] 及其后续工作,利用大规模稀疏视图重建实现高效三维生成。但它们通常缺乏明确的几何先验,可能导致几何保真度受损和表面细节不一致。
  • 三维原生生成模型 (3D native generative models): 如 3DShape2VecSet [63] 和 CLAY [65],采用两阶段方法:首先训练三维 VAE 将形状编码到潜在空间,然后训练条件潜在扩散模型进行生成。这种方法通过 VAE 内置的几何约束确保更好的几何一致性。
    • 本文与三维原生生成模型的关系: Dora-VAE 旨在提高三维原生生成模型中 VAE 的重建能力。近期工作 [31, 62] 表明,提高 VAE 重建能力可以直接增强下游生成质量,这正是 Dora-VAE 工作的核心动机。

3.3. 差异化分析

Dora-VAE 与现有方法的核心区别和创新点在于:

  1. 采样策略的根本性改进: 大多数现有向量集 VAE 依赖统一采样,导致几何细节丢失。Dora-VAE 首次将重要性采样引入三维 VAE 的学习过程,并提出了锐边采样策略 (SES)。SES 通过识别并优先采样几何复杂度高的区域(锐边),从根本上解决了统一采样在计算约束下无法捕捉精细细节的问题。

  2. 针对异构采样点的编码机制: 为了充分利用 SES 策略生成的分层、异构(均匀点 + 显著点)点云,Dora-VAE 设计了双重交叉注意力 (DCA) 架构。这使得模型能够分别关注和处理均匀区域和显著区域的特征,从而更有效地编码这些细节丰富的点云,这是传统单一注意力机制无法实现的。

  3. 系统化的评估基准和指标: 针对三维 VAE 评估协议的偏颇,Dora-VAE 提出了 Dora-bench,它不依赖随机选择测试集,而是根据几何复杂度对形状进行分类。同时,引入了 锐法线误差 (SNE) 这一新指标,专门评估模型在几何显著特征处的重建准确性。这比传统的 F-score 和倒角距离 (CD) 更能精确衡量细节保留能力。

  4. 性能与效率的平衡: Dora-VAE 在实现与体积方法 XCube-VAE 相媲美甚至超越的重建质量的同时,其所需的潜在代码长度却至少小8倍(1,280 vs. > 10,000),成功地在高保真度紧凑潜在表示之间找到了更优的平衡点。这使其更适合作为下游扩散模型的基础。

4. 方法论

本节将详细阐述 Dora-VAE 的方法论,包括其改进基础模型 3DShape2VecSet、核心的锐边采样策略 (SES)、双重交叉注意力机制 (DCA),以及用于评估的 Dora-bench。

4.1. 方法原理

Dora-VAE 的核心原理是,为了在三维形状重建中有效保留精细几何细节,必须克服传统统一采样策略的局限性。统一采样在有限点数下,无法有效捕捉到具有高几何复杂度的区域(如锐边)。因此,Dora-VAE 提出通过两种机制来解决这个问题:

  1. 智能采样: 不再仅仅依赖统一采样,而是引入锐边采样 (SES) 策略,在统一采样的基础上,额外且优先地从形状的几何显著区域(通过锐边检测)提取更多点。这样确保了关键细节区域得到足够的表示。
  2. 高效编码: 针对这种由均匀点和显著点组成的“细节丰富”的点云,设计双重交叉注意力 (DCA) 机制。DCA 允许模型分别处理和聚合来自不同采样源(均匀区域和锐边区域)的特征,使得 VAE 能够更有效地关注并编码这些对细节至关重要的信息,最终生成紧凑且保真的潜在表示。

4.2. 核心方法详解

4.2.1. 预备知识:3DShape2VecSet

Dora-VAE 是在 3DShape2VecSet [63] 的基础上进行改进的。3DShape2VecSet 是一种基于 Transformer 的三维 VAE,它将均匀采样的表面点编码为紧凑的潜在代码。其流水线包含以下关键步骤:

  1. 表面采样 (Surface Sampling): 给定一个三维表面 SS,首先使用泊松盘采样 (Poisson disk sampling) [61] 在表面上均匀采样 NdN_d 个点,得到一个密集点云 PdP_d。然后,通过最远点采样 (Farthest Point Sampling, FPS) [39] 将 PdP_d 下采样到 NsN_s 个点,得到一个稀疏点云 PsP_sPd={pdiSi=1,...,Nd},Ps=FPS(Pd,Ns) P _ { d } = \{ p _ { d } ^ { i } \in S \mid i = 1 , . . . , N _ { d } \} , P _ { s } = \mathrm { F P S } ( P _ { d } , N _ { s } )

    • SS: 输入的三维表面。
    • pdip _ { d } ^ { i }: 密集点云 PdP_d 中的第 ii 个点。
    • N _ { d }: 密集点云 PdP_d 中的点数。
    • FPS(,Ns)\mathrm { F P S } ( \cdot , N _ { s } ): 最远点采样函数,从输入点云中选取 NsN_s 个点,使得选取的点之间的距离最大化,以保证点云的均匀覆盖。
    • P _ { s }: 稀疏点云,由 NsN_s 个点组成。
  2. 特征编码 (Feature Encoding): 通过稀疏点云 PsP_s 和密集点云 PdP_d 之间的交叉注意力 (Cross-Attention) 计算点云特征 CC,然后通过自注意力 (Self-Attention) 层生成潜在代码 zzC=CrossAttn(Ps,Pd,Pd),z=SelfAttn(C) C = { \mathrm { C r o s s A t t n } } ( P _ { s } , P _ { d } , P _ { d } ) , z = { \mathrm { S e l f A t t n } } ( C )

    • CrossAttn(Q,K,V)\mathrm { C r o s s A t t n } ( Q , K , V ): 交叉注意力函数,其中 PsP_s 作为查询 (Query, QQ),而 PdP_d 同时作为键 (Key, KK) 和值 (Value, VV)。这表示稀疏点云 PsP_s 会从密集点云 PdP_d 中提取相关特征。
    • CC: 通过交叉注意力提取的特征。
    • SelfAttn()\mathrm { S e l f A t t n } ( \cdot ): 自注意力函数,用于进一步处理特征 CC
    • zz: 最终生成的紧凑潜在代码。
  3. 几何解码 (Geometry Decoding): 将潜在代码 zz 通过自注意力层进行解码,并利用随机采样的空间查询点 QspaceR3Q _ { s p a c e } \in \mathbb { R } ^ { 3 } 预测其占据值 (occupancy values) O^\hat{O}O^=CrossAttn(Qspace,SelfAttn(z)) \hat { O } = \mathrm { C r o s s A t t n } ( Q _ { s p a c e } , \mathrm { S e l f A t t n } ( z ) )

    • Q _ { s p a c e }: 在三维空间中随机采样的查询点,用于查询潜在表示 zz 对应的几何信息。

    • SelfAttn(z)\mathrm { S e l f A t t n } ( z ): 潜在代码 zz 经过自注意力层处理后的特征。

    • CrossAttn(Qspace,SelfAttn(z))\mathrm { C r o ssAttn } ( Q _ { s p a c e } , \mathrm { S e l f A t t n } ( z ) ): 交叉注意力函数,其中 Q _ { s p a c e } 作为查询,而处理后的潜在特征作为键和值,从而从潜在代码中解码出空间点的占据信息。

    • O^\hat { O }: 预测的空间占据值,表示给定查询点是否位于三维形状内部。

      虽然 3DShape2VecSet 生成了紧凑的潜在代码,但其统一采样策略限制了对精细几何细节的捕获能力。Dora-VAE 正是为了解决这一局限性而设计。

4.2.2. Dora-VAE 架构总览

以下是 Dora-VAE 的整体架构概览,如图(原文 Figure 2)所示:

Figure 2. Overview of Dora-VAE. (a) We utilize the proposed sharp edge sampling technique to extract both salient and uniform points from the input mesh. These points are then combined with dense poi… 该图像是论文中图2的示意图,展示了Dora-VAE的两个核心部分:(a)通过锐边采样策略从输入网格分别抽样均匀点PuP_u和显著点PaP_a,并与密集点PdP_d结合;(b)双重交叉注意力架构用于编码这些点云,最终重建网格。

图(原文 Figure 2)展示了 Dora-VAE 的整体架构。(a) 利用所提出的锐边采样技术从输入网格中提取均匀点 (uniform points) PuP_u 和显著点 (salient points) PaP_a。这些点随后与密集点 (dense points) PdP_d 结合,从而有效地捕捉显著区域和平滑区域。(b) 为了增强通过锐边采样得到的点云的编码效果,我们设计了一个双重交叉注意力 (dual cross-attention) 架构。

对于每个输入网格,Dora-VAE 使用提出的锐边采样 (SES) 策略,在统一采样点云 PuP_u 的基础上,额外采样更重要的点 PaP_a,两者共同构成密集的点云 Pd=PuPaP_d = P_u \cup P_a。在编码过程中,通过简单而有效的双重交叉注意力 (DCA) 机制,分别计算 PuP_uPaP_a 的注意力,并将结果相加后进行自注意力处理,最终生成潜在代码 zz。Dora-VAE 的训练过程大部分遵循 3DShape2VecSet [63],并由占据场 (occupancy field) 上的损失进行监督。

4.2.3. 锐边采样 (Sharp Edge Sampling, SES)

本文提出了 SES 算法,用于有效地从几何显著区域采样点。为了确保表面覆盖,也同时采样均匀点。最终采样的密集点云 PdP_d 结合了均匀采样点 PuP_u 和从显著区域特定采样的点 PaP_a,即 Pd=PuPaP_d = P_u \cup P_a。SES 方法通过两个步骤计算显著点 PaP_a:检测显著边缘和从这些区域采样点。

4.2.3.1. 显著边缘检测 (Salient Edges Detection)

给定一个三角网格 (triangular mesh),通过分析相邻面之间的二面角 (dihedral angles) 来识别一组显著边缘 Γ\Gamma。二面角计算相邻面法向量之间的角度,直接衡量网格边缘处的表面曲率。对于由相邻面 f1f_1f2f_2 共享的每条边 ee,其二面角 θe\theta_e 计算如下: θe=arccos(nf1nf2nf1nf2) \theta _ { e } = \operatorname { a r c c o s } \left( \frac { \mathbf { n } _ { f _ { 1 } } \cdot \mathbf { n } _ { f _ { 2 } } } { \left\| \mathbf { n } _ { f _ { 1 } } \right\| \left\| \mathbf { n } _ { f _ { 2 } } \right\| } \right)

  • nf1\mathbf { n } _ { f _ { 1 } }: 面 f1f_1 的法向量。

  • nf2\mathbf { n } _ { f _ 2 }: 面 f2f_2 的法向量。

  • \cdot: 向量点积。

  • \left\| \cdot \right\|: 向量的欧几里得范数(长度)。

  • arccos()\operatorname { a r c c o s } ( \cdot ): 反余弦函数,用于计算角度。

    显著边缘集合 Γ\Gamma 包含所有二面角超过预定义阈值 τ\tau 的边。 Γ={eθe>τ} \Gamma = \{ e \mid \theta _ { e } > \tau \}

  • ee: 网格中的一条边。

  • θe\theta _ { e }: 边 ee 对应的二面角。

  • τ\tau: 预定义的二面角阈值,用于判断一条边是否为显著边缘。

  • Γ\Gamma: 显著边缘的集合。 设 NΓ=ΓN _ { \Gamma } = | \Gamma | 表示显著边缘的数量。

4.2.3.2. 显著点采样 (Salient Points Sampling)

对于每条显著边 eΓe \in \Gamma,将其两个顶点 v _ { e , 1 }v _ { e , 2 } 收集到一个显著顶点集合 PΓP _ { \Gamma } 中。 PΓ={ve,1,ve,2eΓ} P _ { \Gamma } = \{ v _ { e , 1 } , v _ { e , 2 } \mid e \in \Gamma \}

  • v _ { e , 1 }v _ { e , 2 }: 显著边 ee 的两个顶点。
  • PΓP _ { \Gamma }: 显著顶点集合,其中连接边缘的重复顶点只包含一次。 设 NV=PΓN _ { V } = | P _ { \Gamma } | 表示 PΓP _ { \Gamma } 中唯一顶点的数量。

给定一个目标显著点数量 NdesiredN _ { \mathrm { d e s i r e d } },根据可用的显著顶点生成显著点集合 P _ { a }Pa={FPS(PΓ,Ndesired),if NdesiredNV,PΓPinterpolated,if 0<NV<Ndesired,,if NV=0. P _ { a } = \left\{ \begin{array} { l l } { \mathrm { F P S } ( P _ { \Gamma } , N _ { \mathrm { d e s i r e d } } ) , } & { \mathrm { i f } \ N _ { \mathrm { d e s i r e d } } \leq N _ { V } , } \\ { P _ { \Gamma } \cup P _ { \mathrm { i n t e r p o l a t e d } } , } & { \mathrm { i f } \ 0 < N _ { V } < N _ { \mathrm { d e s i r e d } } , } \\ { \emptyset , } & { \mathrm { i f } \ N _ { V } = 0 . } \end{array} \right.

  • NdesiredN _ { \mathrm { d e s i r e d } }: 期望得到的显著点数量。
  • P _ { a }: 最终生成的显著点集合。
  • FPS(PΓ,Ndesired)\mathrm { F P S } ( P _ { \Gamma } , N _ { \mathrm { d e s i r e d } } ): 当显著顶点过多 (NdesiredNVN _ { \mathrm { d e s i r e d } } \leq N _ { V }) 时,使用最远点采样从 PΓP _ { \Gamma } 中下采样 NdesiredN _ { \mathrm { d e s i r e d } } 个点。
  • PΓPinterpolatedP _ { \Gamma } \cup P _ { \mathrm { i n t e r p o l a t e d } }: 当显著顶点不足 (0<NV<Ndesired0 < N _ { V } < N _ { \mathrm { d e s i r e d } }) 时,包含 PΓP _ { \Gamma } 中的所有顶点,并补充额外的插值点 PinterpolatedP _ { \mathrm { i n t e r p o l a t e d } }。这些插值点是通过在每条显著边上均匀采样 (NdesiredNV)/NΓ( N _ { \mathrm { d e s i r e d } } - N _ { V } ) / N _ { \Gamma } 个点生成的,以确保对显著特征的全面覆盖。
  • \emptyset: 当未检测到任何显著边 (NV=0N _ { V } = 0) 时,P _ { a } 为空集。

4.2.4. 双重交叉注意力 (Dual Cross Attention, DCA)

为了有效编码由 SES 策略生成的点云 Pd=PuPaP_d = P_u \cup P_a(均匀采样点 PuP_u 和显著采样点 PaP_a),Dora-VAE 设计了一个双重交叉注意力架构。

首先,遵循 3DShape2VecSet [63],将 PuP_uPaP_a 分别使用 FPS 进行下采样: Ps=FPS(Pu,Ns,1)FPS(Pa,Ns,2) P _ { s } = \mathrm { F P S } ( P _ { u } , N _ { s , 1 } ) \cup \mathrm { F P S } ( P _ { a } , N _ { s , 2 } )

  • N _ { s , 1 }: 从均匀采样点 PuP_u 中下采样的点数。

  • N _ { s , 2 }: 从显著采样点 PaP_a 中下采样的点数。

  • P _ { s }: 结合了从 PuP_uPaP_a 下采样而来的稀疏点云。

    然后,分别计算均匀点和显著点的交叉注意力特征: Cu=CrossAttn(Ps,Pu,Pu)Ca=CrossAttn(Ps,Pa,Pa) \begin{array} { c } { { C _ { u } = \mathrm { C r o s s A t t n } ( P _ { s } , P _ { u } , P _ { u } ) } } \\ { { C _ { a } = \mathrm { C r o s s A t t n } ( P _ { s } , P _ { a } , P _ { a } ) } } \end{array}

  • C _ { u }: 稀疏点 PsP_s 从均匀点 PuP_u 中提取的特征。

  • C _ { a }: 稀疏点 PsP_s 从显著点 PaP_a 中提取的特征。 这种双重注意力设计使得模型能够在特征提取阶段分别关注均匀区域和显著区域。

最终的点云特征 CC 结合了两个注意力结果:

C = C _ { u } + C _ { a } .
  • CC: 结合了均匀区域和显著区域特征的最终点云特征。

    遵循 3DShape2VecSet [63],这个特征 CC 随后通过自注意力块预测占据场 (occupancy field) O^\hat{O}。整个模型(参数为 ψ\psi)使用均方误差 (Mean Squared Error, MSE) 损失进行优化。虽然原文给出了损失函数的梯度形式,但其本质是基于 MSE 损失进行优化: ψLMSE(O^,O)=E[2(O^O)O^ψ] \nabla _ { \psi } \mathcal { L } _ { \mathrm { M S E } } ( \hat { O } , O ) = \mathbb { E } \left[ 2 ( \hat { O } - O ) \frac { \partial \hat { O } } { \partial \psi } \right]

  • ψLMSE(O^,O)\nabla _ { \psi } \mathcal { L } _ { \mathrm { M S E } } ( \hat { O } , O ): 均方误差损失 LMSE\mathcal { L } _ { \mathrm { M S E } } 对模型参数 ψ\psi 的梯度。

  • O^\hat { O }: 模型预测的占据值。

  • OO: 地面真实 (Ground Truth) 的占据值。

  • E[]\mathbb { E } [ \cdot ]: 期望值。

  • O^ψ\frac { \partial \hat { O } } { \partial \psi }: 预测占据值 O^\hat{O} 对模型参数 ψ\psi 的偏导数。 实际上,模型优化的目标是最小化 LMSE(O^,O)=E[(O^O)2]\mathcal { L } _ { \mathrm { M S E } } ( \hat { O } , O ) = \mathbb { E } [ (\hat { O } - O)^2 ],上述公式是其梯度。

4.2.5. Dora-Bench (基准测试)

为了更严谨地评估 VAE 的重建质量,本文提出了 Dora-bench,一个基于几何复杂度的基准测试。

4.2.5.1. 基于几何复杂度的评估 (Geometric Complexity-based Evaluation)

Dora-bench 系统地根据几何复杂度对测试形状进行分类,而不是随机选择。形状复杂度使用显著边缘的数量 NΓN _ { \Gamma }(在 4.2.3.1 节中定义)来衡量,并分为四个级别:

  • Level 1 (Less Detail - 细节较少): 0<NΓ50000 < N _ { \Gamma } \leq 5000
  • Level 2 (Moderate Detail - 中等细节): 5000<NΓ100005000 < N _ { \Gamma } \leq 10000
  • Level 3 (Rich Detail - 细节丰富): 10000<NΓ5000010000 < N _ { \Gamma } \leq 50000
  • Level 4 (Very Rich Detail - 细节非常丰富): NΓ>50000N _ { \Gamma } > 50000。 Dora-bench 整合了来自 GSO [18]、ABO [14]、Meta [3] 和 Objaverse [16] 等多个公共数据集的测试形状,以确保几何复杂度的多样性。

以下是 Dora-bench 中形状分布和示例的图示:

Figure 3. Our proposed benchmark include 3D shapes from the ABO \[14\], GSO \[18\], Meta \[3\], and Objaverse \[16\] datasets. (a) The histogram of different datasets across different shape complexities. (b)… 该图像是论文中Figure 3,包含柱状图、饼图和示意图,展示了ABO、GSO、Meta和Objaverse四个数据集在不同细节复杂度等级上的形状数量分布,以及各等级示例的可视化。

图(原文 Figure 3)展示了我们提出的基准测试 Dora-bench,其中包含了来自 ABO [14]、GSO [18]、Meta [3] 和 Objaverse [16] 数据集的三维形状。(a) 不同数据集在不同形状复杂度级别上的直方图。(b) 按形状复杂度划分的总计数饼图。(c) 不同形状复杂度级别下的示例形状。

4.2.5.2. 锐法线误差 (Sharp Normal Error, SNE)

在 Dora-bench 的基础上,本文进一步引入了锐法线误差 (SNE) 来评估显著区域的重建质量。传统的度量标准如倒角距离 (Chamfer Distance) 和 F-score 虽然能捕捉整体形状相似性,但无法专门评估精细几何细节的保留情况。SNE 通过测量重建形状和地面真实 (Ground Truth) 形状在几何显著区域的法线图 (normal map) 差异来解决这一局限性。

SNE 的计算过程如图(原文 Figure 4)所示:

Figure 4. The process of computing sharp normal errors (SNE). We compute MSE loss in the sharp regions of the normal. 该图像是论文中图4的示意图,展示了计算锐角区域法线误差(SNE)的流程。通过Canny边缘检测确定锐边区域,经过膨胀操作后与真实法线(GT normal)和重建法线(normal)相乘,最后计算这两个区域内的均方误差(MSE)。

图(原文 Figure 4)展示了计算锐法线误差 (SNE) 的过程。我们计算法线锐利区域的均方误差 (MSE)。

具体步骤如下:

  1. 法线图渲染: 从多个视角渲染地面真实形状的法线图。
  2. 显著区域识别: 使用 Canny 边缘检测 (Canny edge detection) 识别法线图中的显著区域(对应于形状的锐边)。
  3. 评估掩膜创建: 对识别出的显著区域进行膨胀 (dilation) 操作,以创建评估掩膜 (evaluation masks)。
  4. SNE 计算: 最终的 SNE 指标计算为地面真实法线图和重建法线图在掩膜区域内的均方误差 (Mean Squared Error, MSE)。 SNE=1M(x,y)M(nGT(x,y)nrecon(x,y))2 \mathrm{SNE} = \frac{1}{|M|} \sum_{(x,y) \in M} (\mathbf{n}_{GT}(x,y) - \mathbf{n}_{recon}(x,y))^2
    • MM: 评估掩膜内的像素集合。

    • M|M|: 掩膜内像素的总数量。

    • nGT(x,y)\mathbf{n}_{GT}(x,y): 地面真实法线图在像素 (x,y) 处的法向量。

    • nrecon(x,y)\mathbf{n}_{recon}(x,y): 重建法线图在像素 (x,y) 处的法向量。

    • ()2(\cdot)^2: 法向量之间欧几里得距离的平方。

      这个过程使得评估能够专注于 VAE 在重建过程中如何保留锐利几何特征。

5. 实验设置

5.1. 数据集

  • 训练数据集: 主要在从 Objaverse [16] 筛选出的子集上进行训练,该子集包含大约 400,000 个三维网格。为了确保训练的稳定性,筛选过程移除了低质量的网格,例如存在缺失面或严重自相交 (self-intersections) 的模型。
  • Dora-bench 测试数据集: Dora-bench 是一个综合基准,整合了来自多个公共数据集的数据,包括:
    • GSO [18] (Google Scanned Objects)
    • ABO [14] (Amazon Berkeley Objects)
    • Meta [3] (Digital Twin Catalog)
    • Objaverse [16] 的测试集。 这些数据集被用于构建 Dora-bench 的四个几何复杂度级别 (Level 1 到 Level 4)。每个级别包含大约 800 个样本。由于 ABO、GSO 和 Meta 数据集中高度详细的模型稀缺,Level 4 的样本主要来自 Objaverse 测试集。所有网格都经过了 CLAY [65] 提出的预处理步骤,以确保它们是水密的 (watertight) 三维模型。

5.2. 评估指标

本文采用多种互补的指标来全面评估重建质量。为了进行公平比较,所有形状都归一化到 [1,1][-1, 1] 的范围内。

  1. F-score (F-score)

    • 概念定义: F-score 衡量的是重建点云与地面真实点云之间的几何重叠程度和完整性。它通过计算给定距离阈值 rr 内点对应关系的精确率 (precision) 和召回率 (recall) 来评估重建的准确性。高 F-score 表示重建形状与地面真实形状在几何上非常吻合。
    • 数学公式: F-score(r)=2Precision(r)Recall(r)Precision(r)+Recall(r) \mathrm{F\text{-}score}(r) = \frac{2 \cdot \mathrm{Precision}(r) \cdot \mathrm{Recall}(r)}{\mathrm{Precision}(r) + \mathrm{Recall}(r)} 其中,精确率 Precision(r)\mathrm{Precision}(r) 和召回率 Recall(r)\mathrm{Recall}(r) 定义为: Precision(r)={pPreconmingPGTpg2r}Precon \mathrm{Precision}(r) = \frac{|\{ p \in P_{recon} \mid \min_{g \in P_{GT}} \|p-g\|_2 \le r \}|}{|P_{recon}|} Recall(r)={gPGTminpPreconpg2r}PGT \mathrm{Recall}(r) = \frac{|\{ g \in P_{GT} \mid \min_{p \in P_{recon}} \|p-g\|_2 \le r \}|}{|P_{GT}|}
    • 符号解释:
      • rr: 距离阈值,表示在多大范围内认为点是匹配的。
      • PreconP_{recon}: 重建形状的点云。
      • PGTP_{GT}: 地面真实形状的点云。
      • mingPGTpg2\min_{g \in P_{GT}} \|p-g\|_2: 点 pp 到点云 PGTP_{GT} 中最近点的欧几里得距离。
      • minpPrecongp2\min_{p \in P_{recon}} \|g-p\|_2: 点 gg 到点云 PreconP_{recon} 中最近点的欧几里得距离。
      • |\cdot|: 集合中元素的数量。 本文报告了 F-score (0.01) 和 F-score (0.005) 的结果。
  2. 倒角距离 (Chamfer Distance, CD)

    • 概念定义: 倒角距离是一种广泛使用的指标,用于衡量两个点云之间的相似度。它计算一个点云中的每个点到另一个点云中最近点的平均距离,然后将这两个方向上的平均距离相加。CD 值越小,表示两个点云越相似,重建质量越高。
    • 数学公式: CD(PA,PB)=1PAxPAminyPBxy22+1PByPBminxPAxy22 \mathrm{CD}(P_A, P_B) = \frac{1}{|P_A|} \sum_{x \in P_A} \min_{y \in P_B} \|x-y\|_2^2 + \frac{1}{|P_B|} \sum_{y \in P_B} \min_{x \in P_A} \|x-y\|_2^2
    • 符号解释:
      • PA,PBP_A, P_B: 两个待比较的点云。
      • PA,PB|P_A|, |P_B|: 点云 PAP_APBP_B 中的点数。
      • xPAx \in P_A: 点云 PAP_A 中的一个点。
      • yPBy \in P_B: 点云 PBP_B 中的一个点。
      • minyPBxy22\min_{y \in P_B} \|x-y\|_2^2: 点 xx 到点云 PBP_B 中最近点的欧几里得距离的平方。 本文报告了 CD 乘以 10000 的结果。
  3. 锐法线误差 (Sharp Normal Error, SNE)

    • 概念定义: SNE 是本文提出的新指标,专门用于评估在三维模型几何细节(例如,锐边)区域的重建质量。它通过比较重建模型和地面真实模型在这些显著区域的法线图差异来量化细节保留能力。SNE 值越小,表示模型在保留精细几何细节方面表现越好。
    • 数学公式: SNE=1M(x,y)M(nGT(x,y)nrecon(x,y))2 \mathrm{SNE} = \frac{1}{|M|} \sum_{(x,y) \in M} (\mathbf{n}_{GT}(x,y) - \mathbf{n}_{recon}(x,y))^2
    • 符号解释:
      • MM: 由 Canny 边缘检测和膨胀操作形成的评估掩膜内的像素集合。
      • M|M|: 掩膜内像素的总数量。
      • nGT(x,y)\mathbf{n}_{GT}(x,y): 地面真实法线图在像素 (x,y) 处的法向量。
      • nrecon(x,y)\mathbf{n}_{recon}(x,y): 重建法线图在像素 (x,y) 处的法向量。
      • ()2(\cdot)^2: 法向量之间欧几里得距离的平方,这里表示的是法线向量差的平方范数,即它们在方向上的差异。 本文报告了 SNE 乘以 100 的结果。
  4. 潜在代码长度 (Latent Code Length, LCL)

    • 概念定义: LCL 表示用于编码三维形状的潜在向量的维度或标记 (token) 数量。LCL 越短,潜在表示越紧凑,对下游扩散模型训练越有利。LCL 是衡量模型效率和紧凑性的重要指标。

5.3. 对比基线

本文将 Dora-VAE 与以下最先进的方法进行了比较:

  1. XCube-VAE [45]: 一种基于体素 (volumetric) 的方法,以其高重建质量而闻名,但通常需要非常大的潜在代码长度 (>10,000 个标记)。
  2. XCube-VAE† [45]: 本文作者在与 Dora-VAE 相同的训练数据集上重新微调 (fine-tuned) 的 XCube-VAE 版本,用于更公平的比较。
  3. Craftsman-VAE [31]: 在 Objaverse 数据集上使用较短潜在代码微调的 3DShape2VecSet [63] 版本。
  4. 3DShape2VecSet [63]: 在补充材料中进行了比较,它是一种使用 Transformer 编码均匀采样表面点的向量集方法,但原始版本是在较小的 ShapeNet 数据集上训练的。 本文排除了 Direct3D [58] 和 CLAY [65] 的 VAE 模型,因为在提交时它们的实现代码尚未公开。

5.4. 实现细节

  • 网格预处理: 遵循 CLAY [65] 的方法,对所有网格进行预处理以确保其是水密 (watertight) 的三维模型。
  • 训练数据: 从 Objaverse [16] 中筛选出约 400,000 个三维网格,移除了低质量(如缺失面、严重自相交)的网格以保证训练稳定性。
  • 训练环境: 在 32 块 A100 GPU 上进行训练,批处理大小 (batch size) 为 2048,学习率 (learning rate) 为 5e-5,训练周期为两天。
  • 优化技术: 采用了 Flash-Attention-v2 [15]、FP16 混合精度训练 (mixed-precision training) 和梯度检查点 (gradient checkpointing) [12] 来优化内存使用和训练效率。
  • 锐边采样 (SES) 参数:
    • 总采样点数 Nd=32768N _ { d } = 32768
    • 目标显著点数 Ndesired=16384N _ { \mathrm { d e s i r e d } } = 16384
    • 二面角阈值 τ=30\tau = 30 度。
  • Canny 边缘检测参数: 用于 SNE 计算,低阈值设置为 20,高阈值设置为 200。
  • VAE 架构: 遵循近期成功的设计 [31, 67],编码器包含 8 个自注意力层,解码器包含 16 个自注意力层。
  • 占据场查询点 (QspaceQ _ { \mathrm { s p a c e } }): 遵循 3DShape2VecSet [63],通过结合两种点采样方式构建 QspaceQ _ { \mathrm { s p a c e } }
    • 在网格表面附近随机采样的点。
    • [1,1][-1, 1] 空间范围内均匀采样的点。
  • 多分辨率训练策略: 采用 CLAY [65] 提出的多分辨率训练策略,在训练过程中潜在代码长度 (LCL) NsN_s 在 256 到 1280 之间随机选择。这种方法有助于后续扩散阶段的渐进式训练。
  • KL 散度权重: 设置为 0.001。
  • 扩散模型 (Image-to-3D):
    • 基于 DiT [7, 41] 架构实现了一个条件扩散模型,类似于 Direct3D [58] 和 CLAY [65]。
    • 模型以 DINOv2 [40] 从使用 BlenderProc [17] 渲染的单视图图像中提取的图像特征为条件。
    • 扩散模型包含 0.39 亿 (0.39 billion) 个参数,在 32 块 A100 GPU 上训练三天。

6. 实验结果与分析

6.1. 核心结果分析

本节将通过定性(视觉)和定量(指标)分析来展示 Dora-VAE 在三维形状重建方面的卓越性能。

6.1.1. 定性比较

以下图(原文 Figure 5)展示了 Dora-bench 数据集上不同方法在不同复杂度级别下的视觉重建效果:

该图像是论文中的对比图表,展示了不同3D形状变分自编码器(如Ours、Craftsman、Xcube等)在多个复杂度等级(Level 1-4)上的重建效果。各列对比了地面真实形状(GT)与各方法生成形状的法线贴图,体现了Dora-VAE在细节保留上的优势。 该图像是论文中的对比图表,展示了不同3D形状变分自编码器(如Ours、Craftsman、Xcube等)在多个复杂度等级(Level 1-4)上的重建效果。各列对比了地面真实形状(GT)与各方法生成形状的法线贴图,体现了Dora-VAE在细节保留上的优势。

图(原文 Figure 5)展示了 Dora-bench 数据集上不同方法在不同复杂度级别下的视觉重建效果,突出 Dora-VAE 在细节保留上的优势。

从图(原文 Figure 5)中可以看出:

  • 低复杂度形状 (L1 和 L2): 对于细节较少的形状,所有方法都能达到相似的重建质量。

  • 高复杂度形状 (L3 和 L4): 当形状的几何复杂度提高时,Dora-VAE 的优势变得非常明显。它能够更好地保留精细的几何细节,如锐边和复杂的表面特征。

  • XCube-VAE: 尽管 XCube-VAE 在视觉上与 Dora-VAE 相似,但它需要一个显著大得多的潜在空间(大于 10,000 维 vs. 1,280 维),是 Dora-VAE 的 8 倍以上。Dora-VAE 在保持高重建保真度的同时大幅减少了潜在代码长度,这使其更适合三维扩散模型训练。

  • Craftsman-VAE: 对于复杂形状,Craftsman-VAE 的重建质量出现明显下降,未能捕捉到精细的几何细节。

    此外,补充材料中的图 S8 和 S9 提供了 Level 3 和 Level 4 形状的更多视觉比较,进一步证实了 Dora-VAE 的优越性。

    该图像是论文中的示意图,展示了不同方法(包括Ours、Craftsman、3DShape2VecSet和Xcube)在不同复杂度层级(Level 3、Level 4)上对多种3D模型法线重建的视觉对比效果。 该图像是论文中的示意图,展示了不同方法(包括Ours、Craftsman、3DShape2VecSet和Xcube)在不同复杂度层级(Level 3、Level 4)上对多种3D模型法线重建的视觉对比效果。

图(原文 Figures S8)展示了不同方法(包括Ours、Craftsman、3DShape2VecSet和Xcube)在不同复杂度层级(Level 3、Level 4)上对多种3D模型法线重建的视觉对比效果。

该图像是一个多类别3D网格法线视图的对比示意图,展示了不同方法(包括Ours、Craftsman、3DShape2VecSet和Xcube†)在Level 3和Level 4细节恢复上的表现,突出Dora-VAE在细节保留上的优势。 该图像是一个多类别3D网格法线视图的对比示意图,展示了不同方法(包括Ours、Craftsman、3DShape2VecSet和Xcube†)在Level 3和Level 4细节恢复上的表现,突出Dora-VAE在细节保留上的优势。

图(原文 Figures S9)是一个多类别3D网格法线视图的对比示意图,展示了不同方法(包括Ours、Craftsman、3DShape2VecSet和Xcube†)在Level 3和Level 4细节恢复上的表现,突出Dora-VAE在细节保留上的优势。

6.1.2. 定量比较

以下表格(原文 Table 1)展示了 Dora-bench 数据集上不同方法在不同复杂度级别下的定量结果:

MethodsLCL↑ F-score(0.01) × 100L1 L2 L3L4↑ F-score(0.005) × 100L1 L2 L3↓ CD × 10000L1L2 L3 L4↓SNE × 100L1 L2L3L4
Xcube [45]98.968 98.799 98.615 98.22695.525 93.872 92.322 85.3656.315 6.288 7.935 9.9261.579 1.432 1.430 1.679
Xcube† [45]>1000099.393 99.794 99.824 99.07996.753 95.535 93.422 87.3654.015 4.142 5.740 7.6271.543 1.408 1.259 1.639
Craftsman [31]25698.016 95.874 91.756 81.73987.994 82.549 73.000 57.3794.389 9.129 14.530 33.4411.906 1.873 2.191 3.933
w/o DCAOursw/o SES,DCA128099.964 99.925 99.678 97.89096.561 95.975 91.618 83.1242.236 2.506 4.444 6.432|1.448 1.215 1.205 1.828
1280[99.944 99.814 97.294 96.77995.977 94.623 88.406 79.2402.422 2.983 3.980 6.1961.496 1.313 1.352 2.207
Ours full256128099.507 98.986 96.669 89.577|93.272 90.466 82.386 68.669 3.356 5.202 10.276 24.527 ||93.272 90.466 82.386 68.669 3.356 5.202 10.276 24.527 ||1.555 1.410 1.618 3.0351.433 1.186 1.137 1.579

以下是原文 Table 1 的结果:

Methods LCL ↑ F-score(0.01) × 100 ↑ F-score(0.005) × 100 ↓ CD × 10000 ↓ SNE × 100
L1 L2 L3 L4 L1 L2 L3 L4 L1 L2 L3 L4 L1 L2 L3 L4
Xcube [45] >10000 98.968 98.799 98.615 98.226 95.525 93.872 92.322 85.365 6.315 6.288 7.935 9.926 1.579 1.432 1.430 1.679
Xcube† [45] >10000 99.393 99.794 99.824 99.079 96.753 95.535 93.422 87.365 4.015 4.142 5.740 7.627 1.543 1.408 1.259 1.639
Craftsman [31] 256 98.016 95.874 91.756 81.739 87.994 82.549 73.000 57.379 4.389 9.129 14.530 33.441 1.906 1.873 2.191 3.933
Ours w/o SES, DCA 1280 99.964 99.925 99.678 97.890 96.561 95.975 91.618 83.124 2.236 2.506 4.444 6.432 1.448 1.215 1.205 1.828
Ours w/o DCA 1280 99.944 99.814 97.294 96.779 95.977 94.623 88.406 79.240 2.422 2.983 3.980 6.196 1.496 1.313 1.352 2.207
Ours full 256 99.507 98.986 96.669 89.577 93.272 90.466 82.386 68.669 3.356 5.202 10.276 24.527 1.555 1.410 1.618 3.035
Ours full 1280 99.988 99.955 99.880 99.170 97.038 96.831 93.458 87.473 2.097 2.500 3.945 5.265 1.433 1.186 1.137 1.579

从表格(原文 Table 1)的定量结果可以看出:

  • Dora-VAE 的卓越性能: Dora-VAE 在所有复杂度级别上(特别是 L3 和 L4 等复杂形状)持续优于所有基线方法。
  • 倒角距离 (CD) 优势: 使用 256 个潜在代码时,Dora-VAE (3.356) 在 CD 指标上超越了微调后的 XCube-VAE† (4.015)。当使用 1280 个潜在代码时,Dora-VAE 的 CD 进一步降低到 2.097,相对于 XCube-VAE† 实现了 47.77% 的显著改进。这表明 Dora-VAE 能够以更紧凑的表示实现更精确的整体形状重建。作者将 XCube-VAE 较低的性能部分归因于其使用 NKSR [24] 进行网格提取时引入的量化误差 (quantization errors)。
  • 锐法线误差 (SNE) 优势: Dora-VAE 在 SNE 指标上也表现出色,这直接反映了其在保留几何细节方面的能力。例如,在几何复杂度最高的 L4 形状上,Dora-VAE 实现了 1.579 的 SNE,优于 XCube-VAE† 的 1.639,提升了 3.7%。这一结果与定性观察(图 5)一致,表明 Dora-VAE 的锐边采样策略有效地保留了锐边和复杂表面变化等精细细节。
  • 潜在代码长度 (LCL): Dora-VAE 能够在显著降低 LCL 的情况下(1280 vs. >10000),实现与 XCube-VAE† 相当甚至更好的重建质量,这对于下游扩散模型训练具有重要意义。

6.1.3. 应用:单图像到三维生成 (Single Image to 3D)

为了进一步验证 Dora-VAE 的有效性,将其应用于单图像到三维生成任务。基于 DiT [42] 架构实现了潜在扩散模型,并与在相同数据集上微调的 Craftsman-VAE† 进行比较。XCube-VAE 因其巨大的潜在代码长度 (>10,000 维) 而不适合扩散模型训练,因此未参与此比较。

以下图(原文 Figure 7)展示了基于 Dora-VAE 和 Craftsman-VAE† 训练的扩散模型的生成结果:

Figure 7. The diffusion results of the single image to 3D generation trained on our Dora-VAE and Craftsman†. The 3D geometry generated by the diffusion model trained on our proposed DoraVAE has more… 该图像是图7,展示了基于单张图像进行3D生成的扩散结果对比。图中显示了利用作者所提Dora-VAE和Craftsman†训练的扩散模型生成的3D形状,Dora-VAE生成结果在相同实验条件下具有更多细节和更丰富的几何信息。

图(原文 Figure 7)展示了单图像到三维生成的扩散结果对比。在相同实验环境下,基于本文提出的 Dora-VAE 训练的扩散模型生成的三维几何形状具有更多细节。

从图(原文 Figure 7)中可以看出,Dora-VAE 显著更好地保留了几何细节,验证了其作为三维生成任务基础的有效性。在相同的实验条件(相同架构、相同数据集、32 A100 GPU、3 天训练)下,Dora-VAE 展示了其在生成具有精细几何细节的三维形状方面的优势。

补充材料中的图 S10 和 S11 进一步展示了 Dora-VAE 与 LRM-based 方法 (MeshFormer [36], CRM [55]) 以及商业解决方案 Tripo v2.0 [2] 的单图像到三维生成结果对比。

Figure S10. Qualitative comparison of the Image-to-3D results. 该图像是不同方法在Image-to-3D任务中结果的定性比较图。图中展示了输入图像及Ours、MeshFormer、CRM和Tripo v2.0方法生成的多种3D模型表面法线图,直观体现了各方法在细节和结构重建上的差异。

图(原文 Figure S10)展示了 Image-to-3D 结果的定性比较。

Figure S11. Qualitative comparison of the Image-to-3D results. 该图像是图表,展示了多个输入图片与不同3D重建方法(包括Ours、MeshFormer、CRM、Tripo v2.0)生成的法线贴图结果的对比,体现了所提方法在细节和几何结构上的优势。

图(原文 Figure S11)展示了 Image-to-3D 结果的定性比较。

这些结果表明,Dora-VAE 在几何细节和保真度方面优于 LRM-based 方法,并与领先的商业解决方案 Tripo v2.0 取得了相当的几何质量,而其训练资源(3 天,32 A100 GPU,约 400,000 训练样本)远少于商业解决方案。这强调了 Dora-VAE 在增强几何细节和改进扩散模型性能方面的有效性。

6.2. 消融实验/参数分析

为了评估 Dora-VAE 各个组件的贡献,作者进行了消融实验,比较了完整模型与两个变体在相同训练条件下的性能:

  • Ours w/o SES, DCA (无 SES, DCA): 该变体移除了锐边采样 (SES) 和双重交叉注意力 (DCA),即只使用泊松盘采样 [61] 的统一采样点云,但保持了相同的密集点云数量 NdN_d。这代表了基线 3DShape2VecSet 的行为。

  • Ours w/o DCA (无 DCA): 该变体保留了 SES 采样策略,但移除了双重交叉注意力,即使用了 3DShape2VecSet [63] 中采用的单一交叉注意力机制。

    以下图(原文 Figure 6)展示了消融实验的视觉结果:

    Figure 6. Ablation studies of our method. Given the ground truth of mesh, we employ both our full model and its variations to reconstruct the ground truth mesh, highlighting significant reconstructio… 该图像是图6的插图,展示了作者方法的消融实验结果。图中包含真实网格(GT)与不同模型变体的重建对比,红色框标注了显著的重建差异区域,突出边缘采样(SES)和双重交叉注意力机制(DAC)对细节重现的重要性。

图(原文 Figure 6)展示了本文方法的消融实验结果。给定网格的地面真实 (Ground Truth),我们使用完整模型及其变体来重建地面真实网格,红色框突出了显著的重建差异。

从图(原文 Figure 6)和之前的定量结果表(原文 Table 1)可以看出:

  • 完整模型的优越性: Dora-VAE 的完整模型始终优于这两个变体,这验证了锐边采样 (SES) 和双重交叉注意力 (DCA) 这两个组件的有效性。

  • SES 的重要性: "Ours w/o SES, DCA" 变体性能显著下降,尤其是在细节丰富的区域,这表明 SES 采样策略对于捕捉精细几何细节至关重要。

  • DCA 的重要性: "Ours w/o DCA" 变体虽然优于 "Ours w/o SES, DCA",但仍逊于完整模型。这表明即使有了 SES 提供的细节丰富的点云,双重交叉注意力 (DCA) 机制也对于有效编码和利用这些异构点云至关重要。DCA 能够分别处理均匀区域和显著区域的特征,从而进一步提升了细节的保留。

    这些消融实验有力地证明了 Dora-VAE 中 SES 和 DCA 两个核心组件对于实现高质量三维形状重建都是不可或缺的。

7. 总结与思考

7.1. 结论总结

本文提出了 Dora-VAE,一种新颖的三维变分自编码器,旨在解决现有方法在紧凑潜在表示下几何细节丢失的问题。其核心创新在于:

  1. 锐边采样 (SES):首次将重要性采样引入三维 VAE 学习,通过识别并优先处理具有高几何复杂度的锐边区域,确保精细细节得到充分采样。
  2. 双重交叉注意力 (DCA) 架构:设计了能够同时处理均匀采样点和锐边采样点的双重注意力机制,有效编码这些细节丰富的点云。 为了系统评估三维 VAE 的重建质量,本文还提出了 Dora-bench 基准测试,该基准根据几何复杂度对形状进行分类,并引入了 锐法线误差 (SNE) 这一新指标,专注于评估显著几何特征的重建准确性。

广泛的实验证明,Dora-VAE 在 Dora-bench 上取得了卓越的重建性能,尤其是在处理高复杂度形状时。它在实现与最先进的密集方法 XCube-VAE 相当甚至更优的重建质量的同时,将潜在代码长度显著压缩了至少 8 倍(1,280 vs. > 10,000)。此外,Dora-VAE 在单图像到三维生成任务中的应用也验证了其能够直接提升下游三维扩散模型的生成质量,尤其是在几何细节的保留方面。这表明 Dora-VAE 成功平衡了高保真重建与紧凑潜在表示的需求,为三维内容生成提供了更坚实的基础。

7.2. 局限性与未来工作

作者指出了 Dora-VAE 的主要局限性并展望了未来的研究方向:

7.2.1. 当前局限性

  • 进一步压缩潜在标记的挑战: 尽管 Dora-VAE 在 1,280 个潜在代码标记下实现了最先进的重建质量,但当需要进一步减少潜在标记数量时,保持高质量重建仍然是一个挑战。这与二维领域(如 Deep Compression Autoencoder, DC-AE [8])所实现的惊人压缩率相比,三维压缩仍有进步空间。

7.2.2. 未来工作方向

  • 增强压缩效率: 探索新颖技术,在不牺牲重建质量的前提下,进一步提高三维 VAE 的压缩率。这一研究方向有望弥合二维和三维压缩方法之间的效率差距。
  • 先进的扩散模型: 基于 Dora-VAE 卓越的重建能力,计划开发更强大的图像到三维扩散模型。相信 Dora-VAE 改进的重建质量可以直接提升扩散模型的性能上限,从而在相同的训练条件下实现更高质量的生成结果。

7.3. 个人启发与批判

7.3.1. 个人启发

  1. 采样策略的重要性被低估: 这篇论文给我最大的启发是,在深度学习处理几何数据时,数据输入阶段的采样策略远比我们想象的更重要。传统的统一采样看似公平,但在计算资源受限的情况下,它实际上是一种低效且可能导致关键信息丢失的策略。Dora-VAE 成功证明了通过智能、有针对性的采样(如锐边采样)能够显著提升模型对细节的捕获能力,这对于其他几何处理任务也具有借鉴意义。
  2. 异构数据处理范式: 针对不同重要性区域(均匀区域 vs. 显著区域)采取不同的特征提取策略(双重交叉注意力)是一种非常直观且高效的设计。这表明在处理具有复杂结构和异构信息的数据时,单一的处理流程可能不足,而分而治之、针对性处理的架构能带来性能的飞跃。这种思想可以推广到其他多尺度、多模态或多粒度数据的处理中。
  3. 基准测试的深化: Dora-bench 和 SNE 指标的提出,强调了评估标准的重要性。一个好的评估指标不仅要衡量整体性能,更要能反映特定关注点(如几何细节)的准确性。这提醒我们在进行研究时,不仅要设计新模型,更要思考如何更全面、更准确地衡量其性能,并推动领域内的公平比较。
  4. 工程实践与理论创新的结合: 论文通过 Flash-Attention-v2、混合精度训练和梯度检查点等工程优化,使得在有限资源下训练大型模型成为可能,并在此基础上实现了理论上的创新(SES和DCA)。这体现了先进的工程实践在推动学术研究突破中的关键作用。

7.3.2. 批判与潜在改进

  1. “锐边”定义的局限性: 论文将“显著区域”主要定义为“锐边”,通过二面角阈值来检测。虽然这对于捕捉许多工业和日常对象的重要特征有效,但三维形状的“几何细节”可能远不止锐边。例如,小孔、细长的结构、复杂的曲面纹理(即使没有锐利的折叠)也可能构成重要的细节。当前 SES 策略可能无法很好地捕捉这些非锐边类型的细节。未来的工作可以探索更广义的“几何显著性”定义,例如基于局部曲率、拓扑特征或结合人类感知的显著性度量。
  2. SNE 的视角依赖性: SNE 的计算依赖于从多个固定视角渲染法线图。虽然作者提到使用了 22 个均匀分布的视角,但对于一些高度各向异性 (anisotropic) 或具有复杂内部结构(如果SNE能应用于内部)的形状,固定的视角可能无法捕捉所有方向上的细节偏差。未来可以考虑采用更具鲁棒性或自适应的视角选择策略,或者探索直接在三维几何上计算法线差异的方法,以减少对渲染视角的依赖。
  3. 超参数敏感性: SES 策略中的二面角阈值 τ\tau (3030^\circ) 和目标显著点数量 NdesiredN _ { \mathrm { d e s i r e d } } (16384) 都是经验性参数。这些参数的选择可能对不同类型或尺度的三维模型产生不同影响。虽然在实验中表现良好,但在更广泛的数据集或应用场景下,这些参数的鲁棒性或自适应调整策略值得进一步研究。
  4. 计算资源的平衡: 尽管 Dora-VAE 将潜在代码长度显著缩小,但其训练仍然需要大量计算资源(32 A100 GPU 训练数天)。对于更广泛的研究人员和工业应用而言,进一步优化训练效率和资源需求仍是重要的方向。探索模型剪枝 (pruning)、知识蒸馏 (knowledge distillation) 或更高效的网络架构,以在更低计算成本下保持甚至提升性能,将是很有价值的。
  5. 量化误差的影响: 论文提到 XCube-VAE 的性能受其网格提取过程中的量化误差影响。这提示我们,即使 VAE 生成了高质量的占据场或点云,最终转换为网格的步骤也可能引入新的误差。Dora-VAE 同样需要一个网格提取器,其性能也可能受到此过程的影响。未来可以研究更鲁棒、更精细的网格提取方法,或将 VAE 直接设计为生成网格表示,以避免中间转换带来的潜在损失。

相似论文推荐

基于向量语义检索推荐的相关论文。

暂时没有找到相似论文。