Direct3D-S2: Gigascale 3D Generation Made Easy with Spatial Sparse Attention
TL;DR 精炼摘要
本文提出的Direct3D-S2框架利用空间稀疏注意力机制显著提升了基于稀疏体素的Diffusion Transformer计算效率,实现了高质量千兆级3D形状生成。统一的稀疏体素变分自编码器设计提升了训练效率和稳定性,显著降低了计算资源需求,促进大规模3D生成实用化。
摘要
Generating high-resolution 3D shapes using volumetric representations such as Signed Distance Functions (SDFs) presents substantial computational and memory challenges. We introduce Direct3D-S2, a scalable 3D generation framework based on sparse volumes that achieves superior output quality with dramatically reduced training costs. Our key innovation is the Spatial Sparse Attention (SSA) mechanism, which greatly enhances the efficiency of Diffusion Transformer (DiT) computations on sparse volumetric data. SSA allows the model to effectively process large token sets within sparse volumes, substantially reducing computational overhead and achieving a 3.9x speedup in the forward pass and a 9.6x speedup in the backward pass. Our framework also includes a variational autoencoder (VAE) that maintains a consistent sparse volumetric format across input, latent, and output stages. Compared to previous methods with heterogeneous representations in 3D VAE, this unified design significantly improves training efficiency and stability. Our model is trained on public available datasets, and experiments demonstrate that Direct3D-S2 not only surpasses state-of-the-art methods in generation quality and efficiency, but also enables training at 1024 resolution using only 8 GPUs, a task typically requiring at least 32 GPUs for volumetric representations at 256 resolution, thus making gigascale 3D generation both practical and accessible. Project page: https://www.neural4d.com/research/direct3d-s2.
思维导图
论文精读
中文精读
1. 论文基本信息
1.1. 标题
Direct3D-S2: Gigascale 3D Generation Made Easy with Spatial Sparse Attention (Direct3D-S2:通过空间稀疏注意力机制简化千兆规模3D生成)
1.2. 作者
Shuang Wu, Youtian Lin, Feihu Zhang, Yifei Zeng, Yikang Yang, Yajie Bao, Jiachen Qian, Siyu Zhu, Xun Cao, Philip Torr, Yao Yao。 作者来自南京大学、DreamTech、复旦大学和牛津大学等机构。
1.3. 发表期刊/会议
该论文发布于 arXiv 预印本平台,其发布时间为 2025-05-23T02:58:01.000Z。arXiv 是一个开放获取的预印本服务器,允许研究人员在正式同行评审和发表前分享他们的研究成果。虽然不是同行评审的期刊或会议,但它在学术界具有广泛的影响力,尤其是在快速发展的领域,如人工智能和计算机视觉。
1.4. 发表年份
2025年
1.5. 摘要
生成高分辨率 (high-resolution) 的3D形状,特别是使用像有符号距离函数 (Signed Distance Functions, SDFs) 这样的体素表示 (volumetric representations) 时,面临着巨大的计算和内存挑战。本论文介绍了 Direct3D-S2,这是一个基于稀疏体素 (sparse volumes) 的可扩展3D生成框架,它以显著降低的训练成本实现了卓越的输出质量。其核心创新是空间稀疏注意力 (Spatial Sparse Attention, SSA) 机制,该机制极大地增强了在稀疏体素数据上扩散变换器 (Diffusion Transformer, DiT) 计算的效率。SSA 允许模型有效处理稀疏体素内的大量词元 (token),显著减少了计算开销,实现了前向传播 (forward pass) 3.9倍和反向传播 (backward pass) 9.6倍的加速。该框架还包括一个变分自编码器 (Variational Autoencoder, VAE),它在输入、潜在空间和输出阶段保持一致的稀疏体素格式。与之前使用异构表示的3D VAE方法相比,这种统一设计显著提高了训练效率和稳定性。Direct3D-S2在公开可用数据集上进行训练,实验证明它不仅在生成质量和效率上超越了现有最先进 (state-of-the-art) 的方法,而且能够仅使用8个GPU在 分辨率下进行训练,而这项任务通常需要至少32个GPU才能在 分辨率下进行体素表示的训练,从而使千兆规模 (gigascale) 3D生成既实用又易于实现。
1.6. 原文链接
https://arxiv.org/abs/2505.17412 PDF 链接: https://arxiv.org/pdf/2505.17412v2.pdf
2. 整体概括
2.1. 研究背景与动机
核心问题: 生成高分辨率3D形状(特别是基于体素表示如SDFs)面临巨大的计算和内存挑战。
问题重要性:
- 新兴需求: 直接从文本或图像生成高质量3D模型在虚拟世界、产品原型设计、游戏、虚拟现实、机器人和计算机辅助设计等领域具有巨大的创造潜力。
- 现有挑战:
- 体素表示的局限性: 传统的密集体素表示 (dense volumetric representations) 随着分辨率的增加,计算和内存成本呈立方增长,导致难以扩展到高分辨率。
- 隐式潜在表示方法的瓶颈: 尽管在3D生成中取得进展(如基于神经场的SDFs),但这些方法通常依赖于VAE与非对称 (asymmetric) 的3D表示,导致训练效率低下,常需要数百个GPU。
- 显式潜在表示方法的局限: 显式方法(如三平面 (tri-plane) 或稀疏体素 (sparse voxel))虽可解释性好、训练简单,但也因高内存需求而受限于输出分辨率。在 DiT 中,全注意力 (full attention) 机制的二次方成本使得高分辨率训练在计算上难以承受。例如,现有方法在 分辨率下仅能处理少量有效体素,限制了最终输出质量。
切入点与创新思路: Direct3D-S2旨在通过结合稀疏体素表示和高效注意力机制来解决上述挑战。核心思路是:
- 统一的稀疏体素VAE: 克服传统3D VAE中异构表示带来的效率和稳定性问题。
- 空间稀疏注意力 (SSA): 针对稀疏体素数据设计,大幅提升 DiT 在处理大规模词元时的计算效率,从而实现前所未有的高分辨率3D生成。
2.2. 核心贡献/主要发现
本论文的主要贡献集中于解决高分辨率3D生成中的计算和内存效率问题:
- 提出空间稀疏注意力 (SSA) 机制: 这是核心创新,专为稀疏体素数据设计。它通过可学习的压缩和选择模块,选择性地关注空间上重要的词元,极大地提升了扩散变换器 (Diffusion Transformer, DiT) 在稀疏体素数据上的计算效率。实验证明,SSA 在 分辨率下实现了前向传播 3.9 倍和反向传播 9.6 倍的加速。
- 开发统一的稀疏有符号距离函数变分自编码器 (Sparse SDF VAE, SS-VAE): 该 VAE 在输入、潜在空间和输出阶段都保持一致的稀疏体素格式。这种端到端 (end-to-end) 的设计消除了跨模态转换 (cross-modality translation) 的需求,显著提高了训练效率、稳定性和几何保真度 (geometric fidelity)。
- 实现千兆规模 (gigascale) 3D生成: Direct3D-S2 框架首次使得 分辨率下的高分辨率3D生成成为可能,并且显著降低了硬件需求。具体而言,它仅需8个GPU就能完成 分辨率的训练,而现有最先进的体素表示方法在 分辨率下通常需要至少32个GPU。
- 卓越的生成质量和效率: 实验结果表明,Direct3D-S2 在生成质量和效率方面均超越了现有最先进的图像到3D (image-to-3D) 方法,生成的3D形状具有更高的细节和更好的几何保真度。
3. 预备知识与相关工作
3.1. 基础概念
3.1.1. 有符号距离函数 (Signed Distance Functions, SDFs)
概念定义: 有符号距离函数 (SDF) 是一种用于表示3D形状的函数。对于3D空间中的任意一点 ,SDF 返回该点到形状表面的最短距离。如果点 在形状内部,距离为负值;如果点 在形状外部,距离为正值;如果点 恰好在形状表面上,距离为零。SDF 能够精确地表示复杂形状,并且在几何操作(如布尔运算)和网格提取(如 Marching Cubes 算法)中非常有用。
在本文中的应用: 本文使用 SDF 体素 (SDF volumetric) 作为3D形状的表示形式。然而,直接处理高分辨率的密集 SDF 体素会带来巨大的计算和内存开销。因此,论文采用了“稀疏 SDF 体素”的概念,即只关注那些距离表面较近的“有效”体素,从而减少数据量。
3.1.2. 变分自编码器 (Variational Autoencoder, VAE)
概念定义: 变分自编码器 (VAE) 是一种生成模型,它结合了自编码器 (Autoencoder) 和变分推断 (Variational Inference) 的思想。它学习将输入数据编码成一个潜在空间 (latent space) 中的概率分布(通常是高斯分布),而不是一个单一的潜在向量。解码器 (decoder) 则从这个潜在分布中采样一个潜在向量,并将其解码回原始数据空间。VAE 的主要目标是学习一个能够生成与训练数据相似的新数据的潜在表示。
在本文中的应用: 本文提出了一个“稀疏 SDF VAE (SS-VAE)”,用于将高分辨率的稀疏 SDF 体素编码成更紧凑的稀疏潜在表示,然后再解码回稀疏 SDF 体素。这种统一的稀疏格式有助于提高训练效率和稳定性。
3.1.3. 扩散变换器 (Diffusion Transformer, DiT)
概念定义: 扩散模型 (Diffusion Models) 是一类生成模型,它通过模拟一个逐渐向数据添加噪声的前向扩散过程,然后学习一个逆向去噪过程来生成数据。在训练过程中,模型学习如何从带有噪声的数据中恢复原始数据。扩散变换器 (DiT) 是将扩散模型与 Transformer 架构结合的一种方式,其中 Transformer 作为去噪网络,通常用于处理图像或序列数据。Transformer 的注意力机制使其能够捕捉长距离依赖关系。
在本文中的应用: Direct3D-S2 利用 DiT 作为其3D形状生成的核心模型。DiT 接收 SS-VAE 编码后的潜在表示,并对其进行扩散过程的训练,以实现高分辨率3D形状的生成。
3.1.4. 注意力机制 (Attention Mechanism)
概念定义: 注意力机制是一种神经网络技术,允许模型在处理序列数据时“关注”输入序列的不同部分,并根据其相关性分配不同的权重。在 Transformer 架构中,自注意力 (Self-Attention) 是核心组件,它允许模型计算输入序列中每个元素对其他所有元素的依赖关系。
数学公式 (标准全注意力): 对于给定的查询 (Query) 、键 (Key) 和值 (Value) 向量,标准的全注意力 (full attention) 计算过程如下: 其中:
-
是查询矩阵, 是序列长度, 是键向量的维度。
-
是键矩阵。
-
是值矩阵, 是值向量的维度。
-
称为注意力分数 (attention score),其中 是一个缩放因子,用于防止点积过大。
-
函数将分数转换为概率分布,确保所有权重之和为1。
挑战: 当输入序列长度 很大时(例如高分辨率3D数据中的大量词元),计算 的复杂度是 ,这导致全注意力的计算和内存成本呈二次方增长,成为高分辨率数据处理的瓶颈。
3.1.5. 稀疏注意力 (Sparse Attention)
概念定义: 稀疏注意力是一种旨在降低全注意力计算复杂度的方法。它通过限制每个查询词元 (query token) 只关注输入序列中的一部分键词元 (key token),而不是所有键词元,从而减少计算量。常见的稀疏注意力模式包括滑动窗口 (sliding window)、局部注意力 (local attention) 或基于内容的注意力 (content-based attention)。
在本文中的应用: 本文提出的空间稀疏注意力 (SSA) 机制就是一种针对稀疏体素数据的定制化稀疏注意力。它结合了压缩、选择和窗口机制,以更有效地处理3D稀疏数据。
3.1.6. Triton (GPU Kernel)
概念定义: Triton 是一种用于编写高性能 GPU 内核 (GPU kernel) 的领域特定语言 (Domain-Specific Language, DSL) 和编译器。它允许研究人员和工程师以更高级别的抽象(类似于 Python)来编写 GPU 代码,同时保持接近 CUDA 的性能,从而简化了自定义并行计算的开发。
在本文中的应用: 为了实现 SSA 机制的高效率,作者使用 Triton 编写了自定义的 GPU 内核,以优化其前向和反向传播的计算速度。
3.2. 前人工作
3.2.1. 多视图生成与3D重建 (Multi-view Generation and 3D Reconstruction)
这类方法通常利用2D图像先验模型(如 Stable Diffusion)生成3D形状的多视图图像,然后通过稀疏视图重建模型将这些图像重建为3D形状。
- 代表工作: Instant3D [16], One-2-3-45 [22], Wonder3D [23] 等。
- 挑战: 难以维持多视图一致性,可能产生伪影 (artifacts) 和重建错误。过度依赖基于渲染 (rendering-based) 的监督(如 NeRF [28] 或 DMTet [34]),增加了训练复杂度和计算开销。
3.2.2. 大规模3D潜在扩散模型 (Large Scale 3D Latent Diffusion Model)
受2D图像生成中潜在扩散模型 (Latent Diffusion Models, LDMs) 成功的启发,这些方法将 LDMs 扩展到3D形状生成,主要分为两类:
- 向量集 (vecset) 方法:
- 概念: 将3D形状表示为一系列潜在向量,通过神经 SDFs 或占用场 (occupancy fields) 重建网格。
- 代表工作: 3DShape2Vecset [47], Michelangelo [50], CLAY [49], CraftsMan3D [17]。
- 挑战: 受限于向量集大小,更大的向量集需要更复杂的映射和更长的训练时间。往往依赖非对称的3D表示,效率低下,通常需要大量GPU。
- 体素 (voxel-based) 方法:
- 概念: 使用体素网格作为潜在表示,通常具有更好的可解释性和更简单的训练。
- 代表工作: XCube [32], Trellis [40], Hi3DGen [45]。
- 挑战: 由于GPU内存需求呈立方增长和注意力机制的高计算成本,限制了潜在分辨率。难以扩展到高分辨率,如 。
3.2.3. 高效大规模词元生成 (Efficient Large Tokens Generation)
为了解决大规模词元处理的效率问题,研究人员提出了多种方法:
- 原生稀疏注意力 (Native Sparse Attention, NSA) [46]:
- 概念: 通过引入自适应词元压缩 (adaptive token compression) 来减少注意力计算中涉及的词元数量,同时保持与全注意力相当的性能。NSA 集成了压缩、选择和窗口机制来识别相关词元。
- 应用: 已成功应用于大型语言模型和视频生成,显著降低了注意力成本。
- 局限性(对3D数据): NSA 主要为结构化的1D序列设计,不直接适用于非结构化、稀疏的3D数据。它基于词元索引进行分块,可能导致同一块内的词元在3D空间上不相邻,且不同样本中相同索引的块可能占据不同空间区域,从而导致训练不稳定。
- 线性注意力 (Linear Attention) [13]:
- 概念: 通过使用线性函数近似注意力权重来降低注意力复杂度。
- 应用: 已应用于图像和视频生成。
- 局限性: 缺乏非线性相似性可能导致模型性能显著下降。
3.3. 技术演进
3D内容生成领域的技术演进大致经历了以下阶段:
-
从传统几何建模到基于深度学习的生成: 早期依赖手工建模或复杂的几何算法,效率和多样性受限。深度学习的引入,特别是生成对抗网络 (GANs) 和自编码器 (AEs),开启了数据驱动的3D生成时代。
-
从基于网格/点云到隐式神经表示: 最初的模型直接操作网格或点云数据,但这些表示通常不规则且难以处理。神经辐射场 (NeRF) 等隐式神经表示的兴起,使得3D形状可以用连续函数表示,带来了高保真度。
-
从2D图像先验到原生3D生成: 许多早期方法通过利用强大的2D图像生成模型来间接生成3D(即多视图生成后重建)。但这种方法在3D一致性和质量上仍有挑战。因此,研究重心逐渐转向直接在3D表示上进行生成,即“原生3D生成”。
-
从密集表示到稀疏表示: 随着对高分辨率3D内容需求的增加,密集体素或大规模点云的计算和内存瓶颈日益突出。稀疏表示,如稀疏体素或稀疏点云,成为了解决这一挑战的关键方向。
-
从传统 Transformer 注意力到高效稀疏注意力: Transformer 模型在序列建模中取得了巨大成功,但其核心的注意力机制在处理大规模词元时效率低下。因此,研究人员开始探索各种稀疏注意力机制,以降低计算复杂度,使其适用于高分辨率数据。
本文的工作正处于这一演进的交叉点,它结合了稀疏表示和高效稀疏注意力,推动了原生3D生成向更高分辨率和更低资源需求迈进。
3.4. 差异化分析
Direct3D-S2 与相关工作的主要区别和创新点在于:
-
针对3D稀疏数据的定制化注意力机制:
- 与全注意力的对比: 现有显式潜在方法在扩展到高分辨率时,受限于 DiT 中全注意力机制的二次方成本。Direct3D-S2 通过其空间稀疏注意力 (SSA) 机制,显著降低了这种计算开销,使得 这样的千兆规模生成成为可能。
- 与 NSA 的对比: 虽然借鉴了原生稀疏注意力 (NSA) 的思想,但 NSA 主要针对1D序列设计。Direct3D-S2 创新性地将 NSA 的压缩、选择和窗口概念应用于非结构化、稀疏的3D数据,重新设计了分块策略以保留3D空间连贯性,并修改了核心模块以适应稀疏体素词元的不规则性。
-
统一的稀疏体素 VAE 设计:
- 与隐式方法的对比: 隐式方法(如 vecset-based)通常使用非对称的3D表示(例如,点云输入,1D向量潜在空间,SDF场输出),导致训练效率低下且几何保真度受损。Direct3D-S2 的 SS-VAE 保持了输入、潜在空间和输出阶段的一致稀疏体素格式,消除了跨模态转换的复杂性,显著提高了训练效率和稳定性。
- 与显式方法的对比: 现有显式方法(如 Trellis, XCube)可能需要可微分渲染 (differentiable rendering) 或神经核表面重建 (neural kernel surface reconstruction) 来桥接其潜在空间与可用网格,增加了计算瓶颈。Direct3D-S2 的 SS-VAE 提供了完全端到端 (fully end-to-end) 的稀疏 SDF 重建。
-
资源效率的显著提升:
- Direct3D-S2 能够在仅使用8个GPU的情况下训练 分辨率的模型,而现有最先进的体素表示方法通常需要至少32个GPU才能训练 分辨率的模型。这代表了在计算资源需求方面的巨大突破,使千兆规模3D生成变得更加实用和可访问。
4. 方法论
4.1. 方法原理
Direct3D-S2 的核心思想是通过结合稀疏体素表示和专门设计的空间稀疏注意力 (SSA) 机制,克服高分辨率3D生成中的计算和内存瓶颈。其直觉在于:3D形状通常是稀疏的,大量的体素空间是空的,无需全部处理。因此,通过仅关注“有效”的稀疏体素,并在此基础上设计高效的注意力机制,可以大幅减少计算开销,同时保持或提高生成质量。
整个框架分为两个主要阶段:
-
稀疏 SDF VAE (SS-VAE) 训练: 学习将高分辨率的稀疏 SDF 体素编码为紧凑的稀疏潜在表示,并能将其解码回原始稀疏 SDF 体素。这个阶段确保了3D形状在潜在空间中的高效、精确表示。
-
DiT 训练与空间稀疏注意力 (SSA): 在 SS-VAE 学习到的潜在空间上训练一个扩散变换器 (DiT)。为了解决 DiT 在处理大量稀疏词元时的效率问题,引入了 SSA 机制,它通过智能地选择和压缩词元来加速注意力计算。此外,还引入了稀疏条件机制,以更有效地利用图像条件信息。
整个流程如图2所示,SS-VAE 负责将高分辨率稀疏 SDF 体素编码为稀疏潜在表示 ,然后 SS-DiT 在 上进行训练,并利用 SSA 机制提高效率。
该图像是Direct3D-S2框架的流程示意图,展示了SS-VAE与SS-DiT模块的整体结构与数据流动,包含多分辨率稀疏SDF编码解码和空间稀疏注意力机制,以及最终生成3D网格的过程。
图 2. Direct3D-S2框架的流程示意图,展示了SS-VAE与SS-DiT模块的整体结构与数据流动,包含多分辨率稀疏SDF编码解码和空间稀疏注意力机制,以及最终生成3D网格的过程。
4.2. 核心方法详解
4.2.1. 稀疏 SDF VAE (SS-VAE)
传统的3D VAE 在处理不同类型的3D表示(如点云、网格、隐式场)时,通常会采用非对称的架构,导致效率低下和几何近似。Direct3D-S2 提出了一个完全端到端 (fully end-to-end) 的稀疏 SDF VAE (SS-VAE),它在所有阶段都保持一致的稀疏体素格式,显著提高了训练效率和几何精度。
1. 稀疏体素定义: 给定一个表示为有符号距离函数 (SDF) 体素 的网格 (mesh),其分辨率为 (例如 )。由于直接处理密集的 SDF 体素计算成本过高,SS-VAE 战略性地只关注“有效稀疏体素”,即那些绝对 SDF 值低于某个阈值 的体素。 其中:
- 表示稀疏体素的集合。
- 是第 个体素在3D空间中的位置。
- 是在位置 处的 SDF 值。
- 是一个预设的阈值,用于定义“有效”体素的范围。只有那些距离物体表面足够近(即 )的体素才会被保留下来,参与后续的编码和解码。
2. 对称网络架构: SS-VAE 采用对称的编码器-解码器网络架构(如图2上半部分所示)。
- 编码器 (Encoder): 采用混合架构,结合了稀疏3D卷积网络 (sparse 3D convolution networks) 和 Transformer 网络。
- 首先,通过一系列残差稀疏3D CNN 块 (residual sparse 3D CNN blocks) 交错3D均值池化 (3D mean pooling) 操作,逐步对空间分辨率进行下采样,提取局部几何特征。
- 随后,将稀疏体素作为可变长度的词元 (variable-length tokens) 处理,并利用移位窗口注意力 (shifted window attention) 来捕捉有效体素之间的局部上下文信息。
- 受 Trellis [40] 启发,每个有效体素的特征会根据其3D坐标进行位置编码 (positional encoding),然后送入3D移位窗口注意力层。
- 这种混合设计输出一个分辨率降低的稀疏潜在表示 ,其分辨率为 ,其中 是下采样因子。
- 解码器 (Decoder): 采用与编码器对称的结构,利用注意力层和稀疏3D CNN 块逐步上采样 (upsample) 潜在表示,并重建稀疏 SDF 体素 。
3. 训练损失: 解码器重建的稀疏体素 包含两部分:输入体素 和额外的有效体素 。
-
SDF 值监督: 对所有这些空间位置的 SDF 值进行监督。
-
几何保真度增强: 对位于网格表面锐利边缘附近、表现出高曲率变化的“活跃体素”施加额外的监督。
-
KL 散度正则化: 对潜在表示 施加 KL 散度 (KL-divergence) 正则化,以约束潜在空间中的过度变化。
总的训练目标 公式如下: 其中:
-
表示不同类型的体素集合:
- :与输入体素对应的重建体素。
- :额外生成的有效体素。
- :位于网格锐利边缘附近的体素。
-
是真实 SDF 值。
-
是模型预测的 SDF 值。
-
是针对不同体素集合的均方误差 (Mean Squared Error, MSE) 损失,衡量真实 SDF 值与预测 SDF 值之间的差异。
-
是对应损失项的权重。
-
是 KL 散度正则化项,用于约束潜在空间 的分布接近先验分布(通常为标准正态分布)。
-
是 KL 散度项的权重。
4. 多分辨率训练 (Multi-resolution Training): 为了提高训练效率并使 SS-VAE 能够编码不同分辨率的网格,作者采用了多分辨率训练范式。在每次训练迭代中,从候选分辨率集合 中随机采样一个目标分辨率,然后通过三线性插值 (trilinearly interpolate) 将输入 SDF 体素调整到选定的分辨率,再送入 SS-VAE。
4.2.2. 空间稀疏注意力 (Spatial Sparse Attention, SSA) 与 DiT
SS-VAE 将3D形状编码为稀疏潜在表示 后,DiT 将在此潜在空间上进行训练以生成3D形状。为了解决 DiT 在高分辨率下处理大规模词元( 可达 以上)时全注意力计算效率低下的问题,本文提出了空间稀疏注意力 (SSA) 机制。
1. 全注意力机制的挑战: 标准的注意力机制如下: 其中:
- 是第 个查询词元。
- 是所有键和值词元。
- 是词元总长度。
- 是注意力头的维度。
- 是第 个查询词元的输出。
- 表示查询 对键 的注意力权重。 当 很高时,全注意力操作的计算成本非常高(),导致计算效率低下。
2. SSA 的核心思想: SSA 借鉴了原生稀疏注意力 (NSA) [46] 的思想,但针对3D稀疏数据进行了专门修改。它不是将潜在词元 简单地视为1D序列进行索引分块(这会导致空间不连贯和训练不稳定),而是基于3D坐标对键和值词元进行空间连贯的分块 (spatially coherent blocks)。SSA 包含三个核心模块:稀疏3D压缩 (sparse 3D compression)、空间分块选择 (spatial blockwise selection) 和稀疏3D窗口 (sparse 3D window)。
SSA 的输出 是这三个模块注意力结果的加权和,权重由门控分数 (gating scores) 决定: 其中:
-
是查询词元。
-
是稀疏3D压缩模块选择的键和值词元。
-
是空间分块选择模块选择的键和值词元。
-
是稀疏3D窗口模块选择的键和值词元。
-
是每个模块的门控分数,通过对输入特征应用线性层 (linear layer) 后接 sigmoid 激活函数 (sigmoid activation) 获得。
图3展示了 SSA 的三个模块如何协同工作:
该图像是Direct3D-S2论文中的示意图,展示了空间稀疏注意力机制的三个分支:稀疏3D压缩、空间块选择和稀疏3D窗口,以及它们如何生成压缩注意力、选择注意力和窗口注意力,最终合成为门控输出。
图 3. Direct3D-S2论文中的示意图,展示了空间稀疏注意力机制的三个分支:稀疏3D压缩、空间块选择和稀疏3D窗口,以及它们如何生成压缩注意力、选择注意力和窗口注意力,最终合成为门控输出。
3. 稀疏3D压缩 (Sparse 3D Compression):
- 目的: 提取块级 (block-level) 的输入词元表示,捕捉块级全局信息,同时减少词元数量。
- 过程:
- 根据3D坐标将输入词元划分为空间连贯的块。
- 为每个块内大小为 的词元整合块内位置编码 (intra-block positional encoding)。
- 使用稀疏3D卷积 (sparse 3D convolution) 后接稀疏3D均值池化 (sparse 3D mean pooling) 来压缩整个块。
- 公式:
其中:
- 表示块级键词元。
- 是绝对位置编码 (absolute position encoding)。
- 代表稀疏3D卷积和稀疏3D均值池化操作。 这个模块有效地捕捉了块级全局信息,减少了词元数量,提升了计算效率。
4. 空间分块选择 (Spatial Blockwise Selection):
-
目的: 在保留词元级 (token-level) 细节的同时,避免所有词元都参与计算而导致的低效率。它通过选择最重要的空间块来关注相关区域。
-
过程:
- 利用稀疏3D压缩模块,计算查询 与每个压缩块之间的注意力分数 。
- 选择具有最高分数的 top- 个块中的所有词元。
- 选择块的分辨率 必须大于且能被压缩块分辨率 整除。
- 选择块的关联分数 是从其组成压缩块中聚合而来的。
- 使用分组查询注意力 (Grouped-Query Attention, GQA) [4] 进一步提高计算效率。
-
公式(选择块关联分数): 其中:
- 表示选择块内的压缩块集合。
- 表示组内共享头的数量。
- 表示第 个查询、第 个共享头与第 个压缩块的注意力分数。 选择 top- 个具有最高 分数的选择块,并将其包含的所有词元连接起来形成 和 ,用于计算空间分块选择注意力。
-
Triton 内核实现: 作者使用 Triton [37] 实现空间分块选择注意力内核。面临的挑战是:1) 不同块的词元数量不同;2) 同一块内的词元在 HBM (High-Bandwidth Memory) 中可能不连续。解决方案是:首先根据块索引对输入词元进行排序,然后计算每个块的起始索引 作为内核输入。在内部循环中, 动态控制相应块词元的加载。
算法1 空间分块选择注意力前向传播 (Spatial Blockwise Selection Attention Forward Pass)
Require: , and , number of key/value heads , number of the shared heads , number of the selected blocks , indices of the selected blocks , the number of divided key/value blocks , , block size .
Divide the output into blocks, each of size .
Divide the logsumexp into blocks, each of size .
1: Sort all tokens within , and according to their respective block indices.
2: for to do
3: for to do
4: Initialize , logsumexp , and .
5: Load and from HBM to on-chip SRAM.
6: for to do
7: Load starting token index and ending token index of the block from HBM to on-chip SRAM.
8: for to by do
9: Load and from HBM to on-chip SRAM.
10: Compute .
11: Compute .
12: Compute .
13: .
14: , .
15: end for
16: end for
17: Compute .
18: Write and to HBM as the `(t,h)`-th block of and , respectively.
19: end for
20: end for
21: Return the output and the logsumexp .
算法1的符号解释:
- :查询矩阵。
- :键矩阵。
- :值矩阵。
- :词元总数。
- :键/值头的数量。
- :共享头的数量(GQA 中的组内共享)。
- :每个头的维度。
- :被选择的块的数量。
- :被选择块的索引。
- :键/值块的总数。
- :每个块的起始索引数组。
- :内部循环中每次加载的块大小。
- :注意力机制的输出。
- :LogSumExp 归一化因子。
- :第 个词元、第 个键/值头的查询。
- :第 个词元、第 个键/值头的输出。
- :第 个词元、第 个键/值头的 LogSumExp。
- :第 个词元、第 个键/值头的最大注意力分数(用于数值稳定性)。
- :当前处理块的起始和结束词元索引。
- :从 HBM 加载到 SRAM 的键和值词元块。
- :查询 与键 的注意力分数。
- :最大值、行最大值、行求和操作。
5. 稀疏3D窗口 (Sparse 3D Window):
- 目的: 显式地整合局部特征交互。
- 过程: 借鉴 Trellis [40] 的方法,将包含词元的3D空间划分为 大小的窗口。对于每个词元,通过动态聚合其对应窗口内的活跃词元来构建其上下文计算,形成 和 。然后,只对这个构建的词元子集进行局部自注意力计算。
4.2.3. 稀疏条件机制 (Sparse Conditioning Mechanism)
现有的图像到3D模型通常从条件图像中提取像素级特征(如使用 DINO-v2),然后通过交叉注意力 (cross-attention) 与噪声词元进行条件生成。然而,大多数输入图像的背景区域占据了大部分,这不仅增加了计算开销,还可能影响生成网格与条件图像的对齐。
- 目的: 缓解背景信息带来的计算开销和对齐问题。
- 过程: 选择性地从输入图像中提取和处理稀疏前景词元 (sparse foreground tokens) 用于交叉注意力计算。
- 公式: 给定输入图像 ,稀疏条件词元 的计算如下:
其中:
- 是 DINO-v2 编码器,用于从图像中提取视觉特征。
- 表示基于图像掩码 (mask) 提取前景词元的操作。这意味着只有图像中属于前景的部分才会被处理。
- 是绝对位置编码,为前景词元添加空间位置信息。
- 表示一个线性层,用于将提取的特征映射到所需的维度。 最终,使用这些精简的稀疏条件词元 和噪声词元进行交叉注意力计算。
4.2.4. 整流流 (Rectified Flow)
Direct3D-S2 采用整流流 (rectified flow) 目标 [10, 19] 来训练其生成模型。整流流将前向过程定义为数据分布与标准正态分布之间的线性轨迹。
-
前向过程 (Forward Process) 公式: 其中:
- 是在时间步 时的带噪声样本。
- 是原始数据样本。
- 是噪声向量。
- 是时间步,通常从0到1。 这个公式表示数据点 沿着一条直线轨迹逐渐演变为噪声 。
-
训练目标 (Training Objective) 公式: 模型被训练来预测从噪声样本到数据分布的速度场 (velocity field)。训练损失采用条件流匹配 (conditional flow matching) 的形式: 其中:
- 是条件流匹配损失函数。
- 表示对时间步 、原始数据 和噪声 进行期望。
- 是由神经网络 预测的速度场,它接收时间步 时的噪声样本 、条件信息 和时间 作为输入。
- 是真实的速度场,表示从 到 的方向向量。
- 是L2范数的平方,衡量预测速度场与真实速度场之间的差异。模型的目标是最小化这个损失,使得预测的速度场能够准确地引导去噪过程。
5. 实验设置
5.1. 数据集
本研究的 Direct3D-S2 模型在以下公开可用3D数据集上进行训练:
- Objaverse [9]: 一个大规模的3D对象数据集,包含数百万个带注释的3D模型。
- Objaverse-XL [8]: Objaverse 的扩展版本,包含超过1000万个3D对象,提供了更丰富的多样性和规模。
- ShapeNet [5]: 一个包含大量带有类别标签的3D形状数据集,广泛用于3D计算机视觉任务。
数据处理与筛选:
- 过滤: 由于这些数据集中存在大量低质量网格 (meshes),作者通过严格的过滤过程,筛选出大约452k个高质量3D资产用于训练。
- 几何处理: 遵循之前的工作 [49],首先将原始的非封闭网格 (non-watertight meshes) 转换为封闭网格。
- SDF 体积计算: 计算出作为 SS-VAE 输入和监督的真值 (ground-truth) SDF 体积。
- 图像条件渲染: 为了训练图像条件 DiT (image-conditioned DiT),每个网格渲染了45张 分辨率的 RGB 图像,并使用了随机的相机参数。
- 相机配置空间:
- 仰角 (elevation angles): 到 。
- 方位角 (azimuth angles):。
- 焦距 (focal lengths): 到 。
- 相机配置空间:
评估基准: 为了严格评估 Direct3D-S2 生成网格的几何保真度,作者构建了一个具有挑战性的基准测试集,其图像来源于专业社区,包括 Neural4D [3]、Meshy [2] 和 CivitAI [1]。这些高质量图像被用作条件输入,以评估模型在复杂细节生成方面的能力。
以下是论文中展示的一些定性比较图,可以帮助读者直观理解不同方法生成的模型形态:
该图像是一个图表,展示了论文中图4的不同图像到三维形状重建方法的定性对比。左列为输入图像,中间多列展示了五种方法生成的三维法线图及局部细节放大,最右列为该论文提出方法的结果,细节更丰富且更接近输入形象。
图 4. 定性比较图,展示了其他图像到3D方法与本文方法 Direct3D-S2 的对比。
该图像是一个多行多列的3D模型对比示意图,展示了论文Direct3D-S2中与其他五种3D生成方法(Trellis、Hunyuan-2.0、TripoSG、Hi3DGen)的造型细节差异和重建效果。左侧为原始彩色图像,右侧为不同方法生成的灰色3D模型,体现了Direct3D-S2的细节表现优势。
图 12. Direct3D-S2模型与其他图像到3D方法的定性比较,展示了造型细节差异和重建效果。
该图像是一幅示意图,展示了对比不同模型(Model N、M、R、T及作者方法)在六组二维角色图像到三维模型生成上的效果,突出作者方法在细节还原和形态一致性上的优越性。
图 13. Direct3D-S2模型与其他图像到3D方法的定性比较,突出细节还原和形态一致性。
5.2. 评估指标
本研究主要通过量化生成网格与条件输入图像之间的形状-图像对齐 (shape-image alignment) 来评估 Direct3D-S2 的几何保真度,使用了以下三个多模态模型作为评估指标:
5.2.1. ULIP-2 (Unified Language-Image Pre-training 2) [44]
概念定义: ULIP-2 是一个统一的语言-图像预训练模型,用于3D理解。它通过在文本、图像和3D数据之间学习共享的表示空间,能够衡量3D形状与2D图像或文本描述之间的语义一致性。在图像到3D任务中,它通常用于评估生成的3D模型在视觉上与输入图像的一致性程度。分数越高,表示生成3D模型与输入图像的对齐越好。
数学公式: ULIP-2 的内部工作机制涉及复杂的对比学习和多模态嵌入,其直接的评分公式并非一个简单的数学表达式。通常,评估时会计算输入图像的嵌入向量 和生成3D模型渲染视图或其3D特征的嵌入向量 之间的余弦相似度 (cosine similarity)。 符号解释:
- :输入图像经过 ULIP-2 编码器得到的嵌入向量。
- :生成3D模型(或其多视图渲染图)经过 ULIP-2 编码器得到的嵌入向量。
- :向量点积。
- :向量的L2范数(长度)。
- 分数范围通常在 -1 到 1 之间,1 表示完全一致,-1 表示完全不一致。在实际应用中,通常是计算批次 (batch) 中所有样本的平均相似度。
5.2.2. Uni3D (Unified 3D Representation at Scale) [52]
概念定义: Uni3D 旨在探索统一的3D表示,并学习大规模的3D特征。它与 ULIP-2 类似,也是一个多模态模型,能够将3D形状与2D图像在同一个潜在空间中进行对齐。在图像到3D生成中,Uni3D 评分用于衡量生成3D形状与条件图像之间的跨模态一致性。分数越高,表示生成结果与条件图像在语义和视觉特征上越匹配。
数学公式: 与 ULIP-2 类似,Uni3D 也依赖于其多模态编码器学习的嵌入。评估指标通常是输入图像嵌入 和生成3D模型嵌入 之间的余弦相似度。 符号解释:
- :输入图像经过 Uni3D 编码器得到的嵌入向量。
- :生成3D模型(或其特征)经过 Uni3D 编码器得到的嵌入向量。
- 其他符号含义同 ULIP-2。
5.2.3. OpenShape (Scaling Up 3D Shape Representation Towards Open-World Understanding) [20]
概念定义: OpenShape 是一个致力于扩展3D形状表示以实现开放世界理解的模型。它通过在大规模3D数据集上进行自监督学习,学习到强大的、通用的3D特征表示。在图像到3D任务中,OpenShape 可以用来量化生成3D形状与输入图像之间的语义和几何相似性。高分表明生成的3D模型在视觉和概念上都与输入图像高度相关。
数学公式: OpenShape 也采用基于嵌入相似度的度量方式,通常是计算输入图像嵌入 和生成3D模型嵌入 之间的余弦相似度。 符号解释:
-
:输入图像经过 OpenShape 编码器得到的嵌入向量。
-
:生成3D模型(或其特征)经过 OpenShape 编码器得到的嵌入向量。
-
其他符号含义同 ULIP-2。
总结: 这三个指标都属于跨模态相似度评估,它们通过将图像和3D形状映射到同一个高维潜在空间,然后计算它们在这个空间中的相似度(通常是余弦相似度)来衡量生成结果的质量。所有这些指标都是“越高越好 (↑)”,表示生成的3D模型与输入图像的对齐程度越高。
5.3. 对比基线
本论文将 Direct3D-S2 的性能与以下最先进的图像到3D生成方法进行了比较:
-
Trellis [40]: 一种利用结构化3D潜在空间进行可扩展多功能3D生成的方法。它整合了 分辨率的稀疏体素表示,并采用渲染监督进行 VAE 训练。
-
Hunyuan3D 2.0 [51]: 一种基于扩散模型的,用于生成高分辨率带纹理3D资产的方法。
-
TripoSG [18]: 一种使用大规模整流流模型和混合监督来合成高保真3D形状的方法。
-
Hi3DGen [45]: 一种通过法线桥接 (normal bridging) 从图像生成高保真3D几何形状的方法。
在 VAE 重建质量的对比中,还提到了:
-
XCube [32]: 一种使用稀疏体素层次结构进行大规模3D生成建模的方法。
-
Dora [6]: 一种用于3D形状变分自编码器的采样和基准测试方法。
这些基线方法都代表了当前3D生成领域的重要进展,涵盖了基于隐式潜在表示和显式体素表示的不同技术路线,使得 Direct3D-S2 的对比结果具有较强的说服力。
5.4. 实现细节
5.4.1. VAE (SS-VAE)
- 输入: 活跃体素 (active voxels) 来自 SDF 值小于 的体素。
- 下采样因子: 编码器的下采样因子 设置为8。
- 潜在表示维度: 潜在表示 的通道维度配置为16。
- 损失权重:
- 优化器: AdamW [25] 优化器。
- 学习率: 初始学习率
1e-4。 - 训练策略(多分辨率):
- 初始训练: 使用三个分辨率 的 SDF 体素进行多分辨率训练,为期一天,使用8个 A100 GPU,每个 GPU 的批次大小 (batch size) 为4。
- 微调: 随后,在 分辨率下对 SS-VAE 进行额外一天的微调,学习率为
1e-5,每个 GPU 的批次大小为1。
5.4.2. DiT (SS-DiT)
-
模型架构:
- 包含24层 DiT 块。
- 隐藏维度 (hidden dimension) 为1024。
-
分组查询注意力 (GQA) [4]:
- 组数 (group number) 设置为2。
- 每个组包含16个注意力头。
- 每个头的隐藏维度配置为32。
-
空间稀疏注意力 (SSA) 机制:
- 压缩块 (compression blocks) 的分辨率 。
- 选择块 (selection blocks) 的分辨率 。
- 稀疏3D窗口 (sparse 3D windows) 的大小 。
-
图像特征提取: 使用 DINO-v2 Large [29] 从 分辨率的条件图像中提取特征。
-
训练策略(渐进式训练):
-
采用渐进式训练策略,逐步将分辨率从 提高到 以加速收敛。
-
表1提供了不同分辨率下的平均潜在词元数 (number of tokens, NT)、学习率 (learning rate, LR)、批次大小 (batch size, BS) 和总训练时间 (total training time, TT)。 以下是原文 Table 1 的结果:
Res. NT LR BS TT 2563 ≈2058 1e-4 8× 8 2 days 3843 ≈5510 1e-4 8× 8 2 days 5123 ≈10655 5e-5 8×8 2 days 10243 ≈45904 2e-5 2× 8 1 day
-
-
总训练时间: 模型总共在8个 A100 GPU 上训练了7天。
-
高保真数据筛选: 对于 分辨率的训练,进一步筛选了68k个高保真3D资产。
-
额外 DiT 训练: 类似于 Trellis [40],训练了另一个 DiT 来预测稀疏潜在词元 的索引,这额外花费了7天在8个 A100 GPU 上。
6. 实验结果与分析
6.1. 核心结果分析
6.1.1. 定量与定性比较 (Quantitative and Qualitative Comparisons)
本研究通过与最先进的图像到3D方法进行全面实验,验证了 Direct3D-S2 框架的有效性。
定量结果: 以下是原文 Table 2 的结果:
| Methods | ULIP-2 ↑ | Uni3D ↑ | OpenShape ↑ |
| Trellis [40] | 0.2825 | 0.3755 | 0.1732 |
| Hunyuan3D 2.0 [51] | 0.2535 | 0.3738 | 0.1699 |
| TripoSG [18] | 0.2626 | 0.3870 | 0.1728 |
| Hi3DGen [45] | 0.2725 | 0.3723 | 0.1689 |
| Ours | 0.3111 | 0.3931 | 0.1752 |
从 Table 2 中可以看出,Direct3D-S2 在 ULIP-2、Uni3D 和 OpenShape 这三个评估指标上均优于所有对比方法。这表明 Direct3D-S2 生成的网格与输入图像具有更好的对齐性 (alignment),在语义和视觉特征上更匹配。
定性结果:
- 图4 展示了与其他图像到3D方法的定性比较。尽管其他方法也能生成令人满意的结果,但在捕捉精细结构方面存在困难。例如,图中房屋的栏杆和树木的枝条等细节,Direct3D-S2 生成的模型能够更清晰、更完整地呈现。这归因于其能够生成高分辨率网格,并有效处理复杂细节。
- 图12和图13 提供了更多与开源和闭源方法的定性比较,进一步证实了 Direct3D-S2 在生成高质量、细节丰富的3D模型方面的优势。
6.1.2. 用户研究 (User Study)
作者进行了一项用户研究,邀请40名参与者评估了 Direct3D-S2 和其他图像到3D方法生成的75个未过滤网格。参与者根据“图像一致性 (image consistency)”和“整体几何质量 (overall geometric quality)”两个标准进行评分,分数范围从1(最差)到5(优秀)。
该图像是图表,展示了不同方法在图像一致性和整体质量上的用户评分对比。横轴分别为“Image Consistency”和“Overall Quality”,纵轴为评分值,结果显示’Ours‘方法在两个指标上均表现最佳。
图 5. 用户研究结果图,展示了不同方法在图像一致性和整体质量上的用户评分对比。
如 图5 所示,Direct3D-S2 在这两个评估指标上均表现出统计学上的优越性,进一步证实了其在主观感知质量上的领先地位。
6.1.3. VAE 对比 (Comparison of VAE)
为了验证 SS-VAE 的重建质量,作者在 Objaverse [9] 数据集中选择了一个包含复杂几何结构的验证集。
该图像是多组3D模型重建结果的可视化对比图,包括Trellis、XCube、Dora及本文方法在不同分辨率下的生成效果与真实样本,展示了本文方法在细节和形状一致性上的优越性。
图 6. 3D模型重建结果的可视化对比图,包括 Trellis、XCube、Dora 及本文方法在不同分辨率下的生成效果与真实样本。
图6 显示,在 分辨率下,SS-VAE 实现了卓越的重建精度。在 分辨率下,SS-VAE 在处理复杂几何体方面表现出显著改进。 资源效率: 值得注意的是,SS-VAE 仅需8个 A100 GPU 2天的训练时间,而其他竞争方法通常需要至少32个 GPU 才能达到相似的训练时长。这突出了 SS-VAE 在训练效率方面的巨大优势。
6.2. 消融实验/参数分析
6.2.1. 不同分辨率下的图像到3D生成 (Image-to-3D Generation in Different Resolution)
该图像是论文中图8的插图,展示了Direct3D-S2模型在不同分辨率 256^3, 384^3, 512^3, 1024^3 下的图像到3D生成效果。左侧为输入图像,后续依次为不同分辨率下生成的3D形状。
图 8. Direct3D-S2模型在不同分辨率 下的图像到3D生成效果。
图8 展示了 Direct3D-S2 在四种分辨率下的生成结果。
- 低分辨率 (): 生成的网格几何细节有限,与输入图像的对齐度不足。
- 中分辨率 (): 网格显示出增强的高频几何细节。
- 高分辨率 (): 生成的网格具有更锐利的边缘和与输入图像细节更好的对齐。 这表明提高分辨率能够逐步提升网格质量。
6.2.2. SSA 中各模块的效果 (Effect of Each Module in SSA)
作者在 分辨率下验证了 SSA 中三个模块的效果。
该图像是形状重建效果的示意图,展示了不同特征窗口(win)、比较模块(cmp)与选择模块(slc)对3D模型表面法线的影响。左侧为输入图,右侧依次为不同模块组合下的法线可视化结果,体现了模块组合对细节还原的改善。
图 9. 形状重建效果的示意图,展示了不同特征窗口(win)、比较模块(cmp)与选择模块(slc)对3D模型表面法线的影响。
图9 展示了结果:
- 仅使用稀疏3D窗口模块 (win): 生成的网格具有细节结构,但由于缺乏全局上下文建模,表面存在不规则性。
- 引入稀疏3D压缩模块 (win + cmp): 性能变化不大。这符合预期,因为该模块主要用于获取块的注意力分数,而不是直接改善几何细节。
- 引入空间分块选择模块 (win + cmp + slc): 模型能够关注最重要的全局区域,网格质量显著提高。
- 不使用窗口模块 (cmp + slc): 模型性能没有显著下降,但收敛速度变慢。这表明局部特征交互有助于更稳定的训练和更快的收敛速度。
6.2.3. 不同注意力机制的运行时 (Runtime of Different Attention Mechanisms)
作者为 SSA 实现了自定义 Triton [37] GPU 内核,并将其与 FlashAttention-2 [7](使用 Xformers [15] 实现)在不同词元数量下的前向和反向传播执行时间进行了比较。
该图像是两幅柱状图,展示了Spatial Sparse Attention与Flash Attention 2在不同Token数量下的前向和后向计算时间对比,突出SSA在大规模Token处理上的显著加速性能。
图 7. 空间稀疏注意力(SSA)与 FlashAttention-2 在不同词元数量下的前向和反向计算时间对比。
图7 显示:
- 在词元数量较低时,SSA 与 FlashAttention-2 的速度相当。
- 随着词元数量的增加,SSA 的速度优势变得更加显著。
- 当词元数量达到 时,SSA 的前向传播速度比 FlashAttention-2 快3.9倍,反向传播速度快9.6倍。这充分证明了 SSA 的高效性。
6.2.4. SSA 的有效性 (Effectiveness of SSA)
为了验证 SSA 的鲁棒性,作者在 分辨率下进行了消融研究(由于低分辨率精度不足,高分辨率计算成本过高)。比较了三种配置:
-
全注意力 (Full attention): 采用 Trellis [40] 的潜在打包策略,将 局部区域内的潜在词元进行分组,以减少输入 DiT 块的词元数量。
-
NSA (Native Sparse Attention): 将潜在词元视为1D序列,并使用固定长度的分块,忽略空间连贯性。
-
本文提出的 SSA。
该图像是图表,展示了论文中提出的SSA机制对比全注意力和NSA机制下3D模型法线图的影响,包含两组不同复杂度的模型,体现SSA在细节保留上的优势。
图 10. SSA 机制的消融研究结果图。
图10 结果分析:
- 全注意力变体: 由于强制打包操作破坏了局部几何连续性,生成的网格出现高频表面伪影。
- NSA 实现: 由于分块中的位置模糊性,导致训练不稳定,生成的网格平滑度较差。
- 本文的 SSA: 不仅保留了网格的细节,而且产生了更平滑、更有组织的表面,证明了其有效性。
6.2.5. 稀疏条件机制的效果 (Effect of Sparse Conditioning Mechanism)
作者在 分辨率下进行了稀疏条件机制的消融实验。
该图像是图表,展示了稀疏条件机制消融实验的结果。图中对比了无稀疏条件(w/o sparse conditioning)与有稀疏条件(w/ sparse conditioning)下,3D模型细节的差异,凸显带稀疏条件时生成模型更好地还原了输入的细节特征。
图 11. 稀疏条件机制的消融研究结果图。
图11 结果显示,通过稀疏条件机制排除非前景 (non-foreground) 条件词元后,生成的网格与输入图像的对齐程度显著提高。这表明只关注图像中的前景信息能够有效地引导3D生成,避免不必要的背景干扰。
7. 总结与思考
7.1. 结论总结
本论文提出了 Direct3D-S2,一个用于高分辨率3D形状生成的创新框架。其核心贡献在于:
- 空间稀疏注意力 (SSA) 机制: 显著加速了扩散变换器 (DiT) 的训练和推理速度,尤其是在处理大规模稀疏体素数据时。SSA 针对3D稀疏数据进行了专门设计,通过压缩、选择和窗口模块,实现了前向传播 3.9 倍、反向传播 9.6 倍的加速。
- 完全端到端 (fully end-to-end) 的对称稀疏 SDF VAE (SS-VAE): 保持了输入、潜在空间和输出阶段的一致稀疏体素格式,极大地增强了训练稳定性和效率,并提高了几何保真度。
- 千兆规模3D生成: Direct3D-S2 成功地实现了 分辨率下的高分辨率3D生成,并且显著降低了对硬件资源的需求(仅需8个GPU即可完成,远低于现有方法在 分辨率下所需的32个GPU)。 综合实验结果表明,Direct3D-S2 在生成质量和效率方面均超越了现有最先进的图像到3D方法。
7.2. 局限性与未来工作
论文作者指出了当前方法的局限性:
- SSA 前向传播加速比低于反向传播: 尽管空间稀疏注意力 (SSA) 取得了显著的速度提升,但其前向传播 (forward pass) 的加速比明显低于反向传播 (backward pass)。这主要是由于前向传播中进行 top-k 排序操作引入的计算开销。
- 未来工作: 作者表示将优先优化这些排序操作,以进一步提高 SSA 在前向传播中的效率。
7.3. 个人启发与批判
个人启发:
- 稀疏性是高维数据处理的关键: 这篇论文再次强调了在处理高维度、高分辨率数据(如3D体素)时,利用数据稀疏性是克服计算和内存瓶颈的有效途径。现实世界的3D对象通常只有表面及附近区域包含信息,大部分空间是空的,因此稀疏表示比密集表示更合理、更高效。
- 定制化注意力机制的重要性: 针对特定数据结构(例如3D稀疏体素),设计专门的注意力机制(如 SSA)可以显著超越通用机制(如 FlashAttention-2)。这启发我们在面对新的数据模态或计算挑战时,不应盲目套用现有模型,而应深入挖掘数据特性,进行底层创新。
- 统一表示的优势: SS-VAE 在输入、潜在空间和输出阶段保持一致的稀疏体素格式,消除了异构表示带来的复杂性和低效性。这表明在整个机器学习管道中保持数据表示的一致性,有助于提高模型的训练效率、稳定性和最终性能。
- 工程与算法的结合: SSA 的高性能实现离不开自定义 Triton GPU 内核。这体现了在深度学习领域,底层的工程优化(如定制化内核开发)与上层算法创新(如 SSA 机制设计)同等重要,两者结合才能真正推动技术边界。
批判与可以改进的地方:
-
SSA 的复杂性: 尽管 SSA 带来了显著的性能提升,但其多模块(压缩、选择、窗口)门控机制以及自定义 Triton 内核的实现,增加了模型的整体复杂性。这可能会提高模型的调试难度和对特定硬件/软件环境的依赖性,限制其在更广泛研究社区的快速采纳。未来的工作可以在保持效率的同时,探索更简洁的稀疏注意力设计。
-
top-k 排序开销: 论文明确指出 top-k 排序是导致前向传播加速比不如反向传播的关键。虽然作者承诺未来会优化,但这表明当前实现中仍存在可进一步压榨的效率空间。可以探索使用近似排序算法或更硬件友好的选择机制来降低这部分开销。
-
潜在表示的泛化能力: SS-VAE 编码的潜在表示是否能很好地泛化到训练集之外的极端复杂或新颖的几何结构?稀疏体素表示在捕捉微小细节和拓扑变化方面可能仍有其固有的限制,尤其是在极高分辨率下。
-
训练数据质量的依赖: 论文提到对 Objaverse 和 Objaverse-XL 等数据集进行了严格筛选,以去除低质量网格。这表明模型的性能对高质量训练数据有较强依赖。如何设计更鲁棒的模型,使其在面对更“野外”的、质量不一的数据时仍能保持良好性能,是一个值得探索的方向。
-
缺乏更细致的消融实验: 例如,稀疏条件机制对不同复杂度的图像(如背景复杂程度、前景大小)的影响是否一致?SSA 的各项参数(如 和 top- 块的数量)对生成质量和效率的敏感性如何?这些更细致的消融可以提供更深入的见解。
总而言之,Direct3D-S2 在高分辨率3D生成领域取得了令人瞩目的成就,特别是在计算效率和资源需求方面。其核心创新 SSA 机制为处理大规模3D稀疏数据提供了新的范式,有望推动3D内容创建进入“千兆规模”的新时代。
相似论文推荐
基于向量语义检索推荐的相关论文。