Structured 3D Latents for Scalable and Versatile 3D Generation
TL;DR 精炼摘要
本文提出统一的结构化潜在表示(SLAT),结合稀疏3D网格与多视图视觉特征,实现多格式高质量3D生成。采用定制修正流变换器训练20亿参数模型,支持文本或图像条件生成,显著超越现有方法,并具备灵活输出和局部编辑能力。
摘要
We introduce a novel 3D generation method for versatile and high-quality 3D asset creation. The cornerstone is a unified Structured LATent (SLAT) representation which allows decoding to different output formats, such as Radiance Fields, 3D Gaussians, and meshes. This is achieved by integrating a sparsely-populated 3D grid with dense multiview visual features extracted from a powerful vision foundation model, comprehensively capturing both structural (geometry) and textural (appearance) information while maintaining flexibility during decoding. We employ rectified flow transformers tailored for SLAT as our 3D generation models and train models with up to 2 billion parameters on a large 3D asset dataset of 500K diverse objects. Our model generates high-quality results with text or image conditions, significantly surpassing existing methods, including recent ones at similar scales. We showcase flexible output format selection and local 3D editing capabilities which were not offered by previous models. Code, model, and data will be released.
思维导图
论文精读
中文精读
1. 论文基本信息
1.1. 标题
Structured 3D Latents for Scalable and Versatile 3D Generation (可扩展且多功能3D生成结构化3D潜在表示)
1.2. 作者
Jianfeng Xiang, Zelong Lv, Sicheng Xu, Yu Deng, Ruicheng Wang, Bowen Zhang, Dong Chen, Xin Tong, Jiaolong Yang。 主要隶属机构包括:清华大学 (Tsinghua University)、中国科学技术大学 (USTC)、微软研究院 (Microsoft Research)。
1.3. 发表期刊/会议
该论文作为预印本 (arXiv preprint) 发布,尚未正式发表在特定的期刊或会议上。
1.4. 发表年份
2024年
1.5. 摘要
这篇论文提出了一种新颖的3D生成方法,旨在实现多功能和高质量的3D资产创建。其核心是一个统一的结构化潜在表示 (Structured LATent, SLAT),它能够解码为不同的输出格式,如辐射场 (Radiance Fields)、3D高斯 (3D Gaussians) 和网格 (meshes)。该方法通过将稀疏填充的3D网格与从强大的视觉基础模型 (vision foundation model) 中提取的密集多视图视觉特征相结合来实现这一点,从而全面捕获结构 (几何形状) 和纹理 (外观) 信息,同时在解码过程中保持灵活性。作者采用为 SLAT 定制的修正流变换器 (rectified flow transformers) 作为3D生成模型,并在包含50万个多样化对象的3D资产大型数据集上训练了参数量高达20亿的模型。实验结果表明,该模型在文本或图像条件下生成高质量结果方面显著超越了现有方法,包括相同规模的最新方法。论文还展示了以前模型不具备的灵活输出格式选择和局部3D编辑能力。代码、模型和数据将公开发布。
1.6. 原文链接
- 原文链接 (arXiv): https://arxiv.org/abs/2412.01506
- PDF 链接: https://arxiv.org/pdf/2412.01506v3.pdf 该论文目前以预印本 (preprint) 形式发布在 arXiv 上。
2. 整体概括
2.1. 研究背景与动机
核心问题: 尽管人工智能生成内容 (AIGC) 在3D领域取得了显著进展,但与2D图像生成(如大型图像生成模型)相比,现有3D生成模型的生成质量仍有较大差距。核心挑战在于3D数据固有的复杂性和多样性。
问题的重要性与现有研究的挑战:
- 3D表示的多样性与局限性 (Diverse and Limited 3D Representations): 3D数据有多种表示形式,如网格 (meshes)、点云 (point clouds)、辐射场 (Radiance Fields) 和3D高斯 (3D Gaussians)。每种格式都有其特定应用场景,但适应其他任务时会遇到困难。例如,网格和隐式场 (implicit fields) 擅长几何生成,但在精细外观建模方面表现不足;而辐射场或3D高斯模型擅长高质量外观渲染,但在提取可信几何形状方面存在困难。
- 缺乏统一的生成范式 (Lack of Unified Generative Paradigm): 不同的3D表示形式具有独特的结构或非结构化特性,这使得通过一致的网络架构进行处理变得复杂。这阻碍了3D生成建模领域标准化范式的建立,与2D生成领域已形成统一的潜在空间 (latent space) 生成共识形成对比。
- 高质量与多功能性的权衡 (Trade-off between Quality and Versatility): 现有方法往往在高质量生成或多功能性之间做出权衡,难以同时实现二者。
- 编码效率与成本 (Encoding Efficiency and Cost): 许多方法需要专门的3D编码器,或昂贵的预拟合 (pre-fitting) 过程来将3D数据与特定表示对齐。
论文的切入点/创新思路: 为了解决上述挑战,本文旨在开发一个统一且多功能的潜在空间,促进高质量的3D生成,并能适应多种表示形式,满足不同的下游需求。其主要策略是:
- 引入显式稀疏3D结构 (Explicit Sparse 3D Structures): 在潜在空间设计中引入稀疏的3D结构,这些结构通过表征对象周围局部体素 (voxels) 的属性,实现解码为不同的3D表示。这种方法能高效建模高分辨率数据,并引入局部性 (locality) 以便于灵活编辑。
- 结合强大的视觉基础模型 (Powerful Vision Foundation Model): 为稀疏结构配备强大的视觉基础模型(如
DINOv2)以编码详细信息。这利用了基础模型强大的3D感知能力和细节表示能力,避免了专用3D编码器的需求,并消除了昂贵的预拟合过程。
2.2. 核心贡献/主要发现
论文基于上述策略,提出了 Structured LATents (SLAT),一个用于高质量、多功能3D生成的统一3D潜在表示。
主要贡献:
- 统一且多功能的潜在表示 (Unified and Versatile Latent Representation): 提出了 SLAT,它结合了稀疏结构和强大的视觉表示。SLAT 在与对象表面相交的活动体素 (active voxels) 上定义局部潜在变量,通过融合和处理从密集渲染的多视图图像中提取的特征进行编码,捕获详细的几何和视觉特征。
- 多格式解码能力 (Multi-format Decoding Capability): SLAT 能够解码为多种3D表示形式,包括辐射场 (Radiance Fields)、3D高斯 (3D Gaussians) 和网格 (meshes),且具有高质量。
- 高性能3D生成模型 (High-performance 3D Generative Models): 基于 SLAT 训练了一系列大型3D生成模型
TRELLIS。这些模型利用修正流变换器 (rectified flow transformers),并针对 SLAT 的稀疏性进行了调整,在大型数据集(50万个对象,参数量高达20亿)上进行训练。 - 超越现有方法的生成质量 (Superior Generation Quality): 在文本或图像条件下,生成的高质量3D资产在几何细节和纹理表现上显著超越了现有方法。
- 灵活的3D编辑能力 (Flexible 3D Editing Capabilities): 实现了灵活的、免调优 (tuning-free) 的3D编辑,包括局部区域的删除、添加和替换,并通过文本或图像提示进行引导。
- 免拟合训练 (Fitting-free Training): 整个训练过程中,无需对3D对象进行预拟合。
关键结论:
本文提出的 TRELLIS 模型通过其创新的 SLAT 表示和修正流变换器架构,成功克服了3D生成领域的关键挑战,实现了前所未有的高质量、多功能和可编辑性。这为3D视觉社区的3D表示无关的资产建模 (3D-representation-agnostic asset modeling) 奠定了强大的基础。
3. 预备知识与相关工作
3.1. 基础概念
在深入理解本文的 SLAT (Structured LATent) 表示和 TRELLIS 模型之前,我们需要了解一些核心的基础概念。
3.1.1. 3D生成 (3D Generation)
概念定义: 3D生成是指利用计算机算法创建三维模型、场景或对象的任务。这通常涉及从文本描述、2D图像或其他形式的输入中生成具有几何形状和外观(纹理、颜色、材质)的3D数据。
在本文中的意义: 本文的目标是生成高质量、多功能的3D资产,能够从文本或图像条件中创建出逼真的3D模型。
3.1.2. 潜在空间 (Latent Space)
概念定义: 在机器学习中,潜在空间是指数据经过编码器 (encoder) 压缩后的低维度表示空间。原始数据(如高维图像或3D模型)中的复杂信息被提取并存储在这个潜在空间中的向量或特征中。在这个空间中,相似的数据点在空间中彼此靠近,而不同数据点则相距较远。通过在潜在空间中进行插值 (interpolation) 或采样 (sampling),再通过解码器 (decoder) 还原,可以生成新的、逼真的数据。
在本文中的意义: 本文的核心是构建一个“统一且多功能的潜在空间”——SLAT,所有3D资产的几何和外观信息都被编码到这个结构化的潜在表示中,然后可以从这个潜在空间解码出不同格式的3D数据。
3.1.3. 辐射场 (Radiance Fields)
概念定义: 辐射场是一种隐式3D表示 (implicit 3D representation),它将场景表示为一个连续的函数,该函数可以预测空间中任意一点的三维位置、观察方向下的颜色 (RGB) 和体积密度 (volume density)。通过对穿过场景的光线进行体积渲染 (volumetric rendering),可以从任何视角合成出逼真的2D图像。NeRF (Neural Radiance Fields) 是最著名的辐射场模型之一。
在本文中的意义: 辐射场是 SLAT 支持的一种重要输出格式,特别擅长高质量的外观渲染。
3.1.4. 3D高斯 (3D Gaussians)
概念定义: 3D高斯溅射 (3D Gaussian Splatting) 是一种近年来兴起的显式3D表示方法,它将场景分解为大量由三维高斯函数(具有位置、协方差、颜色和不透明度等参数)定义的点。这些高斯函数可以直接通过高效的渲染管线进行渲染,实现高质量的实时渲染效果,且训练和渲染速度相比 NeRF 有显著提升。
在本文中的意义: 3D高斯是 SLAT 旨在支持的另一种重要输出格式,同样以其高质量渲染和效率而闻名。
3.1.5. 网格 (Meshes)
概念定义: 网格是一种最常见的显式3D表示形式,由一组顶点 (vertices)、边 (edges) 和面 (faces,通常是三角形或四边形) 组成,用于定义3D对象的几何形状。网格还可以附加纹理 (textures)、颜色和法线 (normals) 等属性,以表示对象的外观。
在本文中的意义: 网格是 SLAT 支持的第三种输出格式,对于传统3D应用和需要清晰几何拓扑的场景至关重要。
3.1.6. 修正流模型 (Rectified Flow Models)
概念定义: 修正流模型是继扩散模型 (Diffusion Models) 之后的一种新型生成模型范式。它通过学习一个时间依赖的向量场 (time-dependent vector field) 来将简单噪声(通常是标准正态分布)样本线性插值到数据样本。其前向过程是数据样本和噪声之间的线性插值,后向过程是学习这个向量场,将噪声样本“纠正”回数据分布。它通过最小化条件流匹配 (Conditional Flow Matching, CFM) 目标来训练,相比扩散模型,通常能实现更快的采样速度和更稳定的训练。
在本文中的意义: 本文采用修正流变换器 (rectified flow transformers) 作为其3D生成模型的骨干网络,用于从噪声中生成 SLAT,充分利用了其在处理大规模数据和实现高效生成方面的优势。
3.1.7. 变换器 (Transformers)
概念定义: 变换器是一种基于自注意力 (self-attention) 机制的神经网络架构,最初用于自然语言处理 (NLP) 任务。它通过并行处理输入序列中的所有元素,并计算每个元素与其他所有元素之间的关联(注意力),从而捕获长距离依赖关系。由于其强大的建模能力,变换器已广泛应用于图像、视频、3D等多种模态。
在本文中的意义: 变换器是构建 SLAT 编码器、解码器以及修正流生成模型的关键组件,能够处理 SLAT 的稀疏结构和变长序列特性。
3.1.8. 视觉基础模型 (Vision Foundation Models)
概念定义: 视觉基础模型是指在大规模图像或视频数据集上预训练的通用视觉模型,它们学习到了丰富的视觉表示,并具备强大的泛化能力。这些模型可以在各种下游视觉任务中通过微调 (fine-tuning) 或直接使用其提取的特征来取得优异性能。DINOv2 就是一个著名的例子。
在本文中的意义: 本文利用 DINOv2 作为强大的视觉特征提取器,从多视图图像中提取详细的几何和视觉特征,并将这些特征融合到 SLAT 的局部潜在变量中,从而避免了专门的3D编码器,并提升了表示能力。
3.2. 前人工作
本研究回顾了3D生成领域的多个方向,以下是其中关键的前人工作及其与本文方法的关联。
3.2.1. 3D生成模型 (3D Generative Models)
- 早期方法 (Early Methods): 主要利用生成对抗网络 (Generative Adversarial Nets, GANs) [24] 来建模3D分布 [6, 17, 21, 78, 93, 109, 111]。
- 局限性: 难以扩展到更多样化的场景。
- 扩散模型 (Diffusion Models): 后来的方法采用了扩散模型 [29, 79] 用于各种表示,如点云 [56, 63]、体素网格 [31, 61, 85]、三平面 (Triplanes) [8, 77, 91, 103] 和3D高斯 [26, 104]。
- 局限性: 在原始数据空间 (raw data space) 进行生成建模时,效率仍然是一个挑战。
- 自回归模型 (Autoregressive Models): 另一些方法 [10, 62] 采用了
GPT风格的自回归模型 [70] 进行网格生成。- 局限性: 同样面临效率问题。
- 潜在空间生成 (Generation in Latent Space): 为了提高质量和效率,近期研究转向在更紧凑的潜在空间 [73] 中进行生成。
- 仅关注形状建模 (Shape Modeling Only): 许多方法 [40, 72, 88, 94, 102, 106, 108, 110] 主要关注形状建模,通常需要额外的纹理阶段才能完成3D资产生成。
- 本文的优势:
SLAT能够同时捕获几何和外观信息。
- 本文的优势:
- 外观建模受限 (Limited Appearance Modeling): 少数方法 [25, 96] 虽然也包含外观信息,但由于其表面表示 (surface representations),难以建模高度详细的外观。
- 本文的优势:
SLAT结合强大的视觉特征,支持详细外观建模。
- 本文的优势:
- 辐射场/3D高斯潜在表示 (Latent Representations for Radiance Fields/3D Gaussians): 其他工作 [32, 37, 64, 98] 为辐射场或3D高斯构建了潜在表示,这可能对准确的表面建模带来挑战。
- 本文的优势:
SLAT旨在构建一个通用的潜在空间,支持解码为包括辐射场和3D高斯在内的多种高质量3D表示,且能处理表面建模。
- 本文的优势:
- 潜在图元编码 (Latent Primitives Encoding): [11] 使用潜在图元 (latent primitives) 编码几何和外观,但其预拟合过程既昂贵又有损。
- 本文的优势:
SLAT的训练是免拟合的 (fitting-free)。
- 本文的优势:
- 仅关注形状建模 (Shape Modeling Only): 许多方法 [40, 72, 88, 94, 102, 106, 108, 110] 主要关注形状建模,通常需要额外的纹理阶段才能完成3D资产生成。
3.2.2. 利用2D生成模型创建3D (3D Creation with 2D Generative Models)
- 蒸馏方法 (Distillation Methods):
DreamFusion[68] 是一个开创性工作,通过从预训练的图像扩散模型 [73] 中蒸馏 (distilling) 来优化3D资产,随后涌现了一大批使用更先进蒸馏技术的后续工作 [42, 43, 82, 84, 92]。 - 多视图图像生成与重建 (Multiview Image Generation and Reconstruction): 另一组工作 [30, 39, 46, 48, 52, 76, 83, 95, 105, 112] 涉及通过2D扩散模型生成多视图图像,然后从中重建3D资产。
- 共同局限性: 这些2D辅助方法通常会产生较低的几何质量,因为它们依赖的2D生成模型固有多视图不一致性 (multiview inconsistency)。
- 本文的优势: 本文直接从3D数据中学习生成模型,避免了2D-assisted方法的几何质量问题。
3.2.3. 修正流模型 (Rectified Flow Models)
- 修正流模型 [3, 44, 49] 近年来作为一种新的生成范式出现,挑战了扩散模型 [29, 79] 的主导地位。
- 近期工作 [19, 86] 已证明了它们在大型图像和视频生成中的有效性。
- 本文的关联: 本文也应用修正流模型,并展示了其在规模化3D生成中的能力。
3.3. 技术演进
3D生成领域经历了从简单到复杂、从单一模态到多模态、从低效率到高效率的演进。
-
早期尝试 (基于 GANs): 最早的3D生成尝试主要基于 GANs,但由于3D数据的高维性和复杂性,GANs 在生成高质量和多样化的3D内容方面遇到了瓶颈。
-
扩散模型兴起: 扩散模型在图像生成领域取得巨大成功后,也迅速被引入3D领域,用于生成点云、体素、三平面和3D高斯等多种表示。扩散模型在生成质量上有所提升,但其固有的迭代去噪过程可能导致效率问题,尤其是在原始数据空间直接操作时。
-
潜在空间生成: 为了解决效率和质量问题,研究者开始转向在更紧凑、更语义化的潜在空间中进行生成。这类似于2D图像生成中的潜在扩散模型。然而,针对3D数据,潜在空间的设计变得更加复杂,需要平衡几何和外观信息,并支持多种输出格式。
-
2D辅助3D生成: 鉴于2D生成模型的成熟,一些工作尝试利用强大的2D扩散模型来辅助3D生成(如通过蒸馏或多视图一致性生成)。但这种方法往往受限于2D模型固有的多视图不一致性,导致几何质量不佳。
-
修正流模型应用: 修正流模型作为一种高效、稳定的生成范式,开始被应用于图像和视频生成,本文进一步将其引入3D生成领域,并与结构化潜在表示相结合,以期在质量和效率上取得突破。
本文的工作
TRELLIS正是站在这一技术演进的潮头,通过SLAT这一统一的、结构化的潜在表示,结合强大的视觉基础模型(用于编码)和高效的修正流变换器(用于生成),旨在提供一个兼具高质量、多功能性和可编辑性的3D生成解决方案,同时解决现有方法在表示灵活性和几何/外观细节方面的不足。
3.4. 差异化分析
本文提出的 SLAT 方法与现有主要方法在以下几个核心方面存在显著区别和创新点:
-
统一的潜在表示与多格式输出 (Unified Latent Representation and Multi-format Output):
- 现有方法: 大多数3D生成模型要么专注于特定3D表示(如网格、辐射场、3D高斯),要么其潜在空间主要服务于单一输出格式。例如,一些模型擅长生成网格,但外观细节不足;另一些擅长辐射场/3D高斯,但几何提取困难。少数尝试结合几何和外观的方法,如
CLAY或3DTopia-XL,也往往在表示的通用性上有所妥协,例如CLAY专注于形状编码,而3DTopia-XL使用潜在图元进行预拟合。 - 本文创新:
SLAT提出了一种统一的潜在表示,能够解码为辐射场、3D高斯和网格等多种高质量3D格式。这得益于其在稀疏3D网格上集成局部潜在变量,并通过视觉基础模型捕获全面的结构和纹理信息。这种设计显著增强了模型的通用性和对不同下游应用场景的适应性。
- 现有方法: 大多数3D生成模型要么专注于特定3D表示(如网格、辐射场、3D高斯),要么其潜在空间主要服务于单一输出格式。例如,一些模型擅长生成网格,但外观细节不足;另一些擅长辐射场/3D高斯,但几何提取困难。少数尝试结合几何和外观的方法,如
-
免拟合训练与强大的视觉特征编码 (Fitting-Free Training and Powerful Visual Feature Encoding):
- 现有方法: 许多基于潜在表示的方法(如
3DTopia-XL)需要昂贵的预拟合过程,将3D数据拟合到特定的潜在图元或表示中,这可能导致信息损失且计算成本高昂。此外,一些方法依赖于专门的3D编码器来处理3D数据。 - 本文创新:
SLAT通过利用强大的视觉基础模型 (如DINOv2) 从密集多视图图像中提取视觉特征,并将其聚合到稀疏体素上。这种方法绕过了对专用3D编码器的需求,实现了免拟合训练,从而降低了训练复杂性和成本,并利用了2D基础模型强大的泛化能力和细节捕获能力。
- 现有方法: 许多基于潜在表示的方法(如
-
稀疏结构与细节捕获 (Sparse Structure and Detail Capture):
- 现有方法: 体素网格等密集表示在高分辨率下计算成本极高,而点云或隐式场可能在保持结构一致性或细节方面遇到挑战。
- 本文创新:
SLAT基于稀疏填充的3D网格,仅在对象表面附近激活体素,这允许在相对高分辨率下进行建模(例如 的体素,但只有20K的活动体素),显著提高了效率。同时,每个活动体素上的局部潜在变量通过强大的视觉特征进行编码,确保了精细几何和生动外观细节的捕获。这种结合粗粒度稀疏结构和细粒度视觉特征的策略,使其在效率和细节质量之间取得了良好平衡。
-
修正流变换器作为生成骨干 (Rectified Flow Transformers as Generative Backbone):
- 现有方法: 大多数最先进的生成模型都基于扩散模型。虽然扩散模型效果显著,但其采样速度相对较慢。
- 本文创新: 采用了修正流变换器作为生成骨干。修正流模型在大型图像和视频生成中已显示出其效率和稳定性,本文将其成功应用于3D生成,并针对
SLAT的稀疏性进行了定制,实现了高质量且高效的3D生成。
-
灵活的3D编辑能力 (Flexible 3D Editing Capability):
-
现有方法: 大多数3D生成模型主要关注从头生成,而对已生成模型的灵活编辑能力则相对有限,通常需要复杂的后处理或重新生成。
-
本文创新:
SLAT的局部性 (locality) 特性使其能够支持免调优的区域特定编辑 (region-specific editing),如局部删除、添加和替换,并通过文本或图像提示进行引导。这大大增强了模型的实用性和交互性。总而言之,
SLAT通过在统一、稀疏的潜在空间中融合强大的视觉特征,结合高效的修正流变换器生成骨干,解决了3D生成领域中高质量、多功能性、效率和可编辑性之间的权衡问题,提供了一个全面且具有前瞻性的解决方案。
-
4. 方法论
4.1. 方法原理
本文提出的核心思想是 结构化潜在表示 (Structured LATent, SLAT),它旨在实现可扩展和多功能的3D生成。SLAT 的基本直觉是:一个高效且富有表现力的3D潜在表示应该能够同时捕获对象的粗粒度几何结构和细粒度外观纹理,并且能够方便地解码成多种常见的3D输出格式。
为了实现这一目标,SLAT 采取了以下两个关键策略:
-
稀疏的3D结构 (Sparse 3D Structure): 3D数据通常高度稀疏,对象只占据3D空间的一小部分。因此,
SLAT不在整个3D空间上定义潜在变量,而是在一个稀疏填充的3D网格上,只在与对象表面相交的“活动体素” (active voxels) 上定义局部潜在变量。这些活动体素共同勾勒出3D对象的粗略几何形状。 -
强大的视觉特征编码 (Powerful Visual Feature Encoding): 为了在这些稀疏结构上捕获足够详细的几何和外观信息,
SLAT利用一个预训练的视觉基础模型 (vision foundation model),如DINOv2,从3D资产的密集多视图渲染图像中提取高语义和高分辨率的视觉特征。这些特征被聚合到每个活动体素上,作为其局部潜在变量。这种方式避免了昂贵的3D编码器和预拟合过程,并充分利用了2D基础模型强大的表示能力。通过这种设计,
SLAT能够在一个统一的潜在空间中综合表示3D对象的结构和外观,并且由于其稀疏性和局部性,可以高效地处理高分辨率数据,同时为灵活的3D编辑提供了基础。整个生成过程分为两个阶段:首先生成稀疏结构,然后在该结构上生成局部潜在变量,最后通过不同的解码器将SLAT转换为辐射场、3D高斯或网格。
4.2. 核心方法详解
本文的方法可以分为三个主要部分:SLAT 的定义、SLAT 的编码与解码,以及 SLAT 的生成。
4.2.1. 结构化潜在表示 (Structured Latent Representation)
对于一个给定的3D资产 ,其几何和外观信息被编码为一个统一的结构化潜在表示 。这个表示定义了一组位于3D网格上的局部潜在变量:
符号解释:
-
: 整个3D资产的结构化潜在表示。
-
: 表示一个包含 个元素的集合,每个元素由一个局部潜在变量 和其对应的位置索引 组成。
-
: 表示第 个活动体素 (active voxel) 在3D网格中的三维位置索引。这个体素与3D资产 的表面相交,构成了对象的粗略结构。
-
: 附着在位置 上的局部潜在变量,它是一个 维的实数向量,捕获了该局部区域的精细外观和形状细节。
-
: 3D网格在每个空间维度上的长度。因此,整个3D网格的大小是 。
-
: 与对象表面相交的活动体素的总数量。
直觉:
活动体素勾勒出3D资产的粗略轮廓或结构,而局部潜在变量则捕捉了这些体素所代表的局部区域的更精细的几何和视觉细节。由于3D数据的稀疏性,通常 ,这意味着只有一小部分体素是“活动”的,这使得在高分辨率下(例如默认 ,即 网格,但只有约20K个活动体素)进行建模成为可能,同时保持了效率。
4.2.2. 结构化潜在变量编码与解码 (Structured Latents Encoding and Decoding)
这一部分描述了如何将3D资产编码为 SLAT,以及如何将 SLAT 解码为各种3D表示形式。整个过程可以概括为图12所示的流程。

该图像是论文中的用户研究界面示意图,展示用户根据图像选择最佳生成3D模型的多个选项,包含六个不同风格的3D模型及对应选择按钮,界面简洁直观。
图12:本文方法的概览。左上角展示了多视图视觉特征聚合过程。中间的稀疏 VAE 负责将视觉特征编码为 SLAT 并进行解码。右侧展示了不同解码器如何将 SLAT 转换为3D高斯、辐射场和网格。下部展示了两阶段生成管线:首先生成稀疏结构,然后生成局部潜在变量。
4.2.2.1. 视觉特征聚合 (Visual Feature Aggregation)
首先,将每个3D资产 转换为一个体素化的特征表示 。
- : 如公式 (1) 中定义的活动体素。
- : 记录了该局部区域详细结构和外观信息的视觉特征。
获取 的过程 (如图12左上角所示):
-
多视图渲染 (Multiview Rendering): 从随机采样的球形摄像机视角渲染3D资产 的密集多视图图像。
-
特征提取 (Feature Extraction): 使用一个预训练的强大视觉基础模型,具体是
DINOv2编码器 [65],从这些渲染图像中提取特征图。DINOv2以其强大的视觉表示能力和3D感知能力 [18] 而闻名。 -
体素投影与聚合 (Voxel Projection and Aggregation): 将每个活动体素 投影到这些多视图特征图上,在对应位置检索特征。然后,将这些检索到的特征进行平均,得到该体素的最终视觉特征 。
目的: 这种方法利用了
DINOv2特征的强大表示能力以及活动体素提供的粗略结构,使得能够以高保真度重建原始3D资产,同时绕过了对专用3D编码器的需求。
4.2.2.2. 结构化潜在变量的稀疏变分自编码器 (Sparse VAE for Structured Latents)
为了将体素化的特征 编码为 SLAT ,并能够从 SLAT 还原3D资产,论文引入了一个基于变换器 (transformer-based) 的变分自编码器 (VAE) 架构。
- 编码器 (Encoder): 将 编码为结构化潜在变量 。
- 解码器 (Decoder): 将 转换为一个以特定3D表示形式呈现的3D资产。
训练过程:
- 重建损失 (Reconstruction Losses): 在解码后的3D资产和真实值 (ground truth) 之间应用重建损失来训练编码器和解码器。
- KL惩罚 (KL-penalty): 对 应用
KL惩罚,鼓励其服从正态分布,类似于LDM[73] 中的做法。
网络架构 (如图15a所示): 编码器和解码器共享相同的变换器结构。
-
处理稀疏体素 (Handling Sparse Voxels):
- 序列化 (Serialization): 将来自活动体素的输入特征序列化(即,将三维稀疏数据转换为一维序列)。
- 位置编码 (Positional Encodings): 根据体素位置添加正弦位置编码 (sinusoidal positional encodings),从而创建具有可变上下文长度 的
tokens。 - 变换器块 (Transformer Blocks): 这些
tokens随后通过变换器块进行处理。
-
3D 位移窗口注意力 (3D Shifted Window Attention): 考虑到潜在变量的局部性特性,在3D空间中引入了位移窗口注意力 [50, 99]。这增强了局部信息交互,并提高了效率。在补充材料中进一步解释,它将 空间划分为 个窗口,每个窗口内的
tokens独立执行自注意力。变换器块在非位移窗口注意力和位移 的窗口注意力之间交替,确保相邻层中的窗口均匀重叠。 -
QK归一化 (QK Normalization): 为解决多头注意力块中查询 (queries) 和键 (keys) 范数爆炸导致的训练不稳定性,遵循SD3[19] 的做法,在将它们输入注意力操作符之前,对查询和键应用均方根归一化 (RMSNorm) [101]。
该图像是论文中图3的示意图,展示了编码器解码器和生成器的网络结构,包括稀疏VAE编码器/解码器、流变换器和稀疏流变换器,详细描述了输入、层次模块及数据流动。
图15:编码、解码和生成的网络结构。
4.2.2.3. 解码为多功能格式 (Decoding into Versatile Formats)
SLAT 的一个关键优势是它支持解码为多种3D表示形式,如3D高斯、辐射场和网格。这些解码器 (for 3D Gaussians)、 (for Radiance Fields) 和 (for Meshes) 共享相同的架构,但其输出层有所不同,并使用针对各自表示定制的重建损失进行训练。
在实践中,编码器和解码器是端到端使用3D高斯进行训练的,因为3D高斯具有高保真度和高效率。对于其他输出格式,学习到的编码器被冻结,然后从头开始训练其相应的解码器。
(a) 3D高斯 (3D Gaussians)
解码过程被形式化为:
符号解释:
-
: 3D高斯解码器。
-
: 输入的结构化潜在变量 。
-
: 解码器输出的3D高斯集合。对于每个局部潜在变量 ,它解码出 个3D高斯。
-
: 第 个体素生成的第 个高斯的位移量 (position offset)。
-
: 第 个高斯的颜色 (colors)。
-
: 第 个高斯的尺度 (scales)。
-
: 第 个高斯的不透明度 (opacities)。
-
: 第 个高斯的旋转 (rotations)。
-
: 每个局部潜在变量 解码出的3D高斯数量(默认设置为32)。
局部性约束: 为了保持 的局部性,高斯的最终位置 被约束在它们的活动体素附近: 其中, 函数将位移量限制在一个有界的范围内,确保高斯不会远离其所属的体素。
重建损失 (Reconstruction Losses):
重建损失包括 、D-SSIM (Structural Similarity Index Measure) 和 LPIPS (Learned Perceptual Image Patch Similarity) [107],这些损失在渲染的高斯图像和真实图像之间计算。
在补充材料中,详细定义了3D高斯解码器的完整训练目标:
其中,各项损失定义如下:
符号解释:
- : 3D高斯解码器的总训练损失。
- : 图像重建损失,由 损失、
SSIM损失(通过 转换为损失形式)和LPIPS损失加权组合而成。- : 像素级别的绝对误差损失。
- : 结构相似性指数,衡量图像的结构相似性。
- : 感知损失,衡量图像在特征空间中的相似性。
- : 体积正则化损失。 通常表示高斯函数的体积(尺度参数的乘积)。该项旨在防止高斯变得过大。
- : 活动体素的数量。
- : 每个体素生成的高斯数量。
- : 第 个体素生成的第 个高斯的尺度参数。
- : 不透明度正则化损失。该项惩罚不透明度 远离1的趋势,旨在防止高斯变得过于透明。
-
: 第 个体素生成的第 个高斯的不透明度。
通过这些损失,模型能够学习生成高质量的3D高斯表示,同时通过体积和不透明度正则化防止高斯退化。
-
(b) 辐射场 (Radiance Fields)
解码过程定义如下:
符号解释:
-
: 辐射场解码器。
-
: 输入的结构化潜在变量 。
-
: 解码器输出的辐射场参数。对于每个局部潜在变量 ,它解码出四组向量。
-
: 这些向量是
CP分解(CP-decomposition) 的组成部分,用于表示一个局部辐射体 (local radiance volume)。它们在三维空间中捕捉几何和外观信息。 -
: 同样是
CP分解的一部分,专门用于编码颜色和密度信息。这些向量构成了遵循
Strivec[22] 策略的 局部辐射体 (local radiance volume) 的CP分解。在补充材料中,CP分解的细节被进一步阐明:
符号解释:
-
: 第 个体素对应的局部辐射体在
(x, y, z)位置的第 个通道(颜色或密度)的值。 -
: CP分解的秩 (rank),设置为16。
-
: 第 个体素、第 个秩在 x 维度上的分量。
-
: 第 个体素、第 个秩在 y 维度上的分量。
-
: 第 个体素、第 个秩在 z 维度上的分量。
-
: 第 个体素、第 个秩在颜色/密度通道 上的分量。
重建损失: 与3D高斯类似,辐射场的重建损失也是 (如公式 (7) 定义),即在渲染图像与真实图像之间计算
L1、D-SSIM和LPIPS。
(c) 网格 (Meshes)
解码过程如下:
符号解释:
-
: 网格解码器。
-
: 输入的结构化潜在变量 。
-
: 解码器输出的网格参数。对于每个局部潜在变量 ,它解码出64组参数。
-
:
FlexiCubes[74] 中的灵活参数,用于定义体素内部的几何。这些参数编码了体素级别的插值权重、分裂权重和顶点变形向量。 -
: 对应体素的八个顶点的带符号距离值 (signed distance values)。
输出分辨率提升: 为了生成更高分辨率的网格,在变换器骨干网络之后添加了两个卷积上采样块 (convolutional upsampling blocks),将最终输出分辨率提升到 。这意味着每个 (对应于 网格中的一个体素)被解码为 子体素,用于更高分辨率的网格提取。
在补充材料中,进一步阐明了网格解码器对每个高分辨率活动体素的最终输出,除了 FlexiCubes 参数 和带符号距离值 ,还预测了颜色 和法线 :
符号解释:
- :
FlexiCubes定义的灵活参数。- : 每个体素的插值权重。
- : 每个体素的插值权重。
- : 每个体素的分裂权重。
- : 体素的每个顶点的变形向量。
- : 体素八个顶点的带符号距离值。
- : 顶点颜色。
- : 顶点法线。
网格提取与渲染:
- 通过将稀疏结构附加到密集网格来实现可微分表面提取,使用
FlexiCubes。 - 对于密集网格中的非活动体素,其带符号距离值设为1.0,其他属性设为0。
- 从密集网格的0级等值面 (0-level isosurfaces) 提取网格。
- 使用
Nvdiffrast[36] 渲染提取的网格及其属性(前景掩码 、深度图 、法线图 、RGB图像 和预测法线图 )。
训练目标: 其中,几何损失 和颜色损失 定义如下:
符号解释:
-
: 网格解码器的总训练损失。
-
: 几何损失,由前景掩码 的
L1损失、深度图 的Huber损失和法线图 的重建损失 组成。- : 前景掩码的
L1损失。 - : 深度图的
Huber损失,对离群值不敏感。 - : 从网格直接导出的法线图的重建损失,与公式 (7) 中的 定义相同。
- : 前景掩码的
-
: 颜色损失,由渲染
RGB图像 的重建损失和预测法线图 的重建损失组成。- : 渲染
RGB图像的重建损失。 - : 预测法线图的重建损失。
- : 渲染
-
: 正则化损失。
正则化损失 包含三项:
符号解释:
- : 惩罚同一体素顶点相关属性方差的损失,旨在保证属性一致性。
- :
FlexiCubes中定义的正则化项,用于确保网格提取的合理性。 - : 惩罚预测的带符号距离值 与网格顶点和提取表面之间距离不匹配的损失,有助于稳定早期训练。
4.2.3. 结构化潜在变量生成 (Structured Latents Generation)
生成 SLAT 采用两阶段管线:首先生成稀疏结构,然后生成该结构上的局部潜在变量。整个过程利用修正流模型 (rectified flow models) 来建模潜在分布。
4.2.3.1. 修正流模型 (Rectified Flow Models)
修正流模型 [44] 使用线性插值的前向过程,将数据样本 与噪声 在时间步 进行插值:
后向过程被表示为时间依赖的向量场 ,它将带噪声样本移动到数据分布。这个向量场可以通过神经网络 近似,通过最小化条件流匹配 (CFM) 目标来训练:
符号解释:
- : 条件流匹配的目标函数,用于训练修正流模型参数 。
- : 期望运算符,表示对时间 、数据样本 和噪声 的所有可能取值进行平均。
- : 由神经网络 预测的在时间 处、状态为 时的向量场。
- : 理想的向量场方向,即从数据样本 指向噪声 的向量。
- :
L2范数的平方,衡量预测向量场与理想向量场之间的差异。
4.2.3.2. 稀疏结构生成 (Sparse Structure Generation)
在第一阶段,目标是生成 ,即活动体素的稀疏结构。
- 转换为密集二进制3D网格 (Convert to Dense Binary 3D Grid): 为了使用张量化神经网络,将稀疏活动体素转换为一个密集的二进制3D网格 ,活动体素值为1,否则为0。
VAE压缩 (VAE Compression): 直接生成密集网格 计算成本高昂。因此,引入一个简单的VAE(带3D卷积块)将其压缩为低分辨率特征网格 。这种压缩几乎无损,因为 仅表示粗略几何。它还将 的离散值转换为适合修正流训练的连续特征。VAE的编码器 和解码器 构成了稀疏结构VAE。其架构类似于LDM[73] 中的VAE,但使用3D卷积且没有自注意力。- 和 包含一系列残差块和下采样/上采样块,将空间尺寸从 减小到 。特征通道在不同空间尺寸下分别为32, 128, 512,潜在通道维度为8。
- 训练时,稀疏结构
VAE的训练被视为二分类问题,使用Dice损失 [60] 处理正负标签不平衡问题。
- 变换器骨干 (Transformer Backbone): 引入一个简单的变换器骨干 (如图15b所示)来生成 。
- 处理过程: 输入的密集噪声网格被序列化,与位置编码结合,然后输入变换器进行去噪。
- 条件注入 (Condition Injection): 时间步信息通过自适应层归一化 (
adaLN) 和门控机制 [67] 融入。文本条件通过预训练CLIP[71] 模型的特征注入,图像条件则通过DINOv2的视觉特征注入(通过交叉注意力层)。 - 输出: 去噪后的特征网格 被解码回离散网格 ,再进一步转换为活动体素 作为最终的稀疏结构。
4.2.3.3. 结构化潜在变量生成 (Structured Latents Generation)
在第二阶段,给定结构 ,生成潜在变量 ,使用为稀疏结构设计的变换器 (如图15c所示)。
- 效率优化 (Efficiency Optimization): 与
VAE编码器不同,为了提高效率,在序列化输入噪声潜在变量之前,先将其打包成一个更短的序列,类似于DiT[67]。 - 稀疏卷积与变换器 (Sparse Convolutions and Transformers):
- 应用一个带有稀疏卷积 [90] 的下采样块,在 局部区域内打包潜在变量。
- 随后是多个时间调制的变换器块。
- 变换器末尾附加一个卷积上采样块,带有跳跃连接 (skip connections) 到下采样块,以促进空间信息流。
- 条件注入 (Condition Injection): 时间步通过
adaLN层集成,文本/图像条件通过交叉注意力注入。
训练与推理:
- 和 使用公式 (5) 中的
CFM目标独立训练。 - 训练完成后,结构化潜在变量 可以通过这两个模型顺序生成,然后通过不同的解码器 (、 和 ) 转换为高质量的3D资产。
4.2.4. 3D编辑与结构化潜在变量 (3D Editing with Structured Latents)
SLAT 的局部性和结构化特性使其支持灵活的3D编辑。论文提出了两种简单的免调优 (tuning-free) 编辑策略。
4.2.4.1. 细节变化 (Detail Variation)
SLAT 将对象的粗略结构与局部潜在变量(包含精细细节)分离。这意味着可以在不影响整体粗略几何形状的情况下,对3D资产的细节进行变化。
- 实现方式: 保留资产的稀疏结构 不变,然后使用不同的文本提示执行第二阶段生成(即仅重新生成局部潜在变量 )。这允许在保持基本形状不变的同时,改变纹理、颜色和局部几何细节。
4.2.4.2. 区域特定编辑 (Region-specific Editing)
SLAT 的局部性允许通过修改目标区域的体素和潜在变量来进行区域特定编辑,而其他区域则保持不变。
-
实现方式: 借鉴
Repaint[55] 的思想,将其应用于两阶段生成管线。- 指定编辑区域: 给定一个用于编辑体素的边界框 (bounding box)。
- 修改采样过程: 修改修正流模型的采样过程,以在该指定区域内创建新内容。
- 条件约束: 新内容生成时会以未改变区域和提供的文本/图像提示为条件。
-
分阶段执行: 第一阶段会在指定区域内生成新的结构,第二阶段则生成连贯的细节。
这种灵活的编辑能力是
SLAT的一个重要优势,因为它允许用户在保持大部分对象不变的情况下,精确地修改特定部分。
5. 实验设置
5.1. 数据集
为了训练和评估其模型,论文仔细收集了大型、高质量的3D资产数据集,并进行了细致的标注和处理。
5.1.1. 训练数据集来源
论文从以下四个公开数据集中收集了约50万个高质量3D资产作为训练数据:
- Objaverse-XL [16]: 这是一个包含超过1000万个3D对象的最大开源3D数据集。由于其规模庞大,也包含大量低质量对象。论文仅从中选取了
Sketchfab(即ObjaverseV1[15]) 和GitHub部分的对象,并进行了严格的质量过滤。 - ABO [13]: 包含约8000个由
Amazon.com提供的高质量3D模型。这些模型由专业艺术家设计,具有复杂的几何形状和高分辨率材质,主要集中在家具和室内装饰品。 - 3D-FUTURE [20]: 包含约1.65万个3D模型,由经验丰富的设计师为工业生产创建。这些模型具有丰富的几何细节和信息丰富的纹理,专注于家庭场景的3D家具。
- HSSD [34]: 一个高质量、人工创作的合成3D场景数据集,包含1.4万个3D模型,主要用于室内场景,如家具和装饰品。
5.1.2. 数据策展管线 (Data Curation Pipeline)
为确保训练数据的高质量,论文实施了以下系统性的策展过程:
- 多视图渲染: 对每个3D对象,从均匀分布在球体上的4个视角渲染图像。
- 美学评估: 使用一个预训练的审美评估模型来评估每个3D资产的质量。具体而言,计算每个3D对象在4个渲染视图上的平均审美分数。
- 筛选: 经验发现,这种评分机制能有效识别视觉质量差的对象(如纹理极少或几何过于简单)。
-
阈值设置: 过滤掉平均审美分数低于特定阈值的对象(
Objaverse-XL为5.5,其他数据集为4.5)。 -
结果: 经过筛选后,保留了约50万个高质量的3D对象作为训练数据集。
下图(原文 Figure 8)展示了每个数据集中审美分数的分布情况:
该图像是图表,展示了五个数据集中美学评分的分布情况。每个子图中包含评分的密度分布及关键统计信息,如阈值、均值和标准差,反映不同数据集的审美评分特征。
-
图20:每个数据集中审美分数的分布。
下图(原文 Figure 9)提供了一些来自 Objaverse-XL 的3D资产示例及其对应的审美分数,直观展示了质量与分数的对应关系:

该图像是论文中的插图,展示了来自Objaverse-XL数据集中多个3D模型示例及其对应的美学评分,这些模型包括简单几何形状、生活物品及人物形象,评分数值标注在模型下方。
图21:来自 Objaverse-XL 的3D资产示例及其对应的审美分数。
下表(原文 Table 8)详细列出了训练集和评估集的组成统计:
| Source | Aesthetic Score Threshold | Filtered Size |
| ObjaverseXL (sketchfab) | 5.5 | 168307 |
| ObjaverseXL (github) | 5.5 | 311843 |
| ABO | 4.5 | 4485 |
| 3D-FUTURE | 4.5 | 9472 |
| HSSD | 4.5 | 6670 |
| All (training set) | 500777 | |
| Toys4k (evaluation set) | 4.5 | 3229 |
表1:训练集和评估集的组成统计。
5.1.3. 标注过程 (Captioning Process)
为解决现有3D对象标注(captions)与对象对齐不佳或缺乏细节的问题 [23],论文设计了一个精细的标注过程,以生成精确详细的文本描述:
-
初步详细描述: 使用
GPT-4o[1] 生成输入渲染图像的详细描述 "<raw_captions>"。 -
关键信息提炼:
GPT-4o进一步将 "<raw_captions>" 中的关键信息提炼为 "<detailed_captions>",通常不超过40个词。 -
文本增强: 将 "
<detailed_captions>" 总结为不同长度的文本提示,用于训练中的数据增强。下图(原文 Figure 10)展示了完整的标注过程示例,包括为
GPT-4o设计的提示词:
该图像是结构化3D潜变量用于多样化3D生成的示意图,展示了通过SLAT表示结合3D网格和多视图视觉特征实现多种3D格式解码的流程。
图22:标注过程示例。
5.1.4. 渲染过程 (Rendering Process)
- VAE 训练: 采样150个摄像机,以 的视场角 (FoV),均匀分布在半径为2的球体上,并朝向原点。使用
Blender渲染资产,采用平滑区域照明。 - 图像条件生成模型: 渲染另一组图像,视场角在 到 之间增强,这些图像在训练时作为图像提示。
5.1.5. 评估数据集 (Evaluation Dataset)
- Toys4k [80]: 包含约4000个高质量3D对象,来自105个对象类别。由于
Toys4k未被用于本研究或对比方法的训练,因此被用作评估模型泛化能力。论文从中随机抽取1250个实例进行定量评估。
5.2. 评估指标
论文使用了多项指标来评估重建和生成任务中的外观和几何质量,以及生成结果与提示的一致性。
5.2.1. 重建实验评估指标
-
外观保真度 (Appearance Fidelity):
- 峰值信噪比 (Peak Signal-to-Noise Ratio, PSNR):
- 概念定义: PSNR 是衡量图像重建质量的常用指标,表示信号最大可能功率与影响其表示的破坏性噪声功率之间的比率。PSNR 值越高表示图像质量越好,重建图像与原始图像越接近。
- 数学公式: 其中,
- 符号解释:
- : 图像像素的最大可能值(例如,8位图像为255)。
- : 均方误差 (Mean Squared Error),衡量两幅图像对应像素值的平方差的平均值。
I(i,j): 原始图像在坐标(i,j)处的像素值。K(i,j): 重建图像在坐标(i,j)处的像素值。m, n: 图像的行数和列数。
- 感知图像块相似性 (Learned Perceptual Image Patch Similarity, LPIPS) [107]:
- 概念定义: LPIPS 是一种感知损失函数,用于衡量两幅图像在人类感知上的相似度。它通过比较两幅图像在预训练深度神经网络(如
VGG或AlexNet)提取的特征空间中的距离来工作。LPIPS 值越低表示图像在感知上越相似,质量越好。 - 数学公式:
- 符号解释:
- : 原始图像和重建图像。
- : 在预训练网络第 层提取的特征。
- : 第 层的特征通道上的权重。
- : 元素级乘法。
- : 第 层特征图的高度和宽度。
- :
L2范数的平方。
- 概念定义: LPIPS 是一种感知损失函数,用于衡量两幅图像在人类感知上的相似度。它通过比较两幅图像在预训练深度神经网络(如
- 峰值信噪比 (Peak Signal-to-Noise Ratio, PSNR):
-
几何质量 (Geometry Quality):
- 倒角距离 (Chamfer Distance, CD):
- 概念定义: CD 是衡量两个点云(或形状)之间相似度的指标。它计算一个点云中的每个点到另一个点云中最近点的距离的平均值,并将两个方向的距离相加。CD 值越低表示两个形状越相似。
- 数学公式:
- 符号解释:
- : 第一个点云。
- : 第二个点云(真实点云)。
- : 点云 中点的数量。
- : 点云 中的一个点。
- : 点云 中的一个点。
- : 点 到点云 中最近点的欧氏距离。
- F-score (F分数):
- 概念定义: F-score 通常用于分类任务,衡量精确率 (precision) 和召回率 (recall) 的调和平均值。在3D点云相似度评估中,它被修改用于衡量两个点云在给定距离阈值内的匹配程度。它通过计算在特定距离阈值 内,一个点云中有多少点在另一个点云的附近,从而得到类似精确率和召回率的度量。F-score 值越高表示两个形状越相似。
- 数学公式: 论文中提供的 F-score 公式符号似乎存在排版问题或非标准表示。为了清晰理解和遵循学术惯例,此处将提供标准的 F-score 定义,并解释其在点云匹配中的应用思想。
标准的 F-score 定义:
在点云匹配中,
precision可以定义为重建点云中有多少比例的点在真实点云的 距离范围内,而recall可以定义为真实点云中有多少比例的点在重建点云的 距离范围内。具体计算方式为: - 符号解释:
- : 精确率。
- : 召回率。
- : 重建的点云。
- : 真实点云。
- : 集合中元素的数量。
- : 距离阈值(论文中使用 )。
- : 表示点 到点云 中最近点的距离小于阈值 。
- PSNR-N (Normal Map PSNR) 和 LPIPS-N (Normal Map LPIPS):
- 概念定义: 这两个指标分别是对渲染法线图 (normal maps) 计算的
PSNR和LPIPS。法线图编码了物体表面的方向信息,用于评估表面细节的准确性。PSNR-N越高,LPIPS-N越低,表示表面细节重建质量越好。
- 概念定义: 这两个指标分别是对渲染法线图 (normal maps) 计算的
- 倒角距离 (Chamfer Distance, CD):
5.2.2. 生成实验评估指标
-
生成质量评估 (Overall Generation Quality):
- Fréchet Distance (FD) [27]:
- 概念定义: Fréchet Distance,也常被称为
FID(Fréchet Inception Distance) 当使用 Inception 特征时,用于衡量两组数据(如真实图像集和生成图像集)在特征空间中的相似度。它假设特征服从多元高斯分布,并计算这两个高斯分布之间的距离。FID值越低表示生成图像的质量越高,与真实图像的分布越接近。 - 数学公式:
- 符号解释:
X, Y: 真实数据和生成数据在特征空间中的分布。- : 真实数据和生成数据特征的均值向量。
- : 真实数据和生成数据特征的协方差矩阵。
- :
L2范数的平方。 - : 矩阵的迹。
- : 矩阵乘积的平方根。
- 具体使用: 论文使用
Inception-v3[81] (FD_incep)、DINOv2(FD_dinov2) 和 [69] (FD_point) 提取特征,分别评估外观和几何质量。
- 概念定义: Fréchet Distance,也常被称为
- Kernel Distance (KD) [5]:
- 概念定义: Kernel Distance (通常是
KID- Kernel Inception Distance) 也是衡量两组数据分布相似度的指标。它使用最大均值差异 (Maximum Mean Discrepancy, MMD) 统计量,通过核函数将数据映射到高维空间,然后计算两组数据在该空间中均值的差异。KID值越低表示生成数据质量越高。 - 数学公式: 其中, 是一个核函数(例如多项式核或高斯核)。
- 符号解释:
X, Y: 真实数据和生成数据在特征空间中的分布。- : 期望运算符。
k(X, X'): 真实数据样本对之间的核函数值。k(X, Y): 真实数据样本和生成数据样本之间的核函数值。k(Y, Y'): 生成数据样本对之间的核函数值。
- 具体使用: 论文使用
Inception-v3(KD_incep) 和DINOv2(KD_dinov2) 提取特征。
- 概念定义: Kernel Distance (通常是
- Fréchet Distance (FD) [27]:
-
提示对齐度 (Prompt Alignment):
- CLIP分数 (CLIP Score) [71]:
- 概念定义:
CLIP(Contrastive Language-Image Pre-training) 模型能够将图像和文本映射到同一个嵌入空间中。CLIP分数通过计算生成图像的CLIP特征与输入文本(或图像)提示的CLIP特征之间的余弦相似度来评估它们之间的语义一致性。CLIP分数越高表示生成内容与提示的匹配度越好。 - 数学公式:
- 符号解释:
- : 生成图像。
- : 输入文本提示(或图像提示)。
- :
CLIP模型对图像 编码得到的特征向量。 - :
CLIP模型对文本 编码得到的特征向量。 - : 余弦相似度。
- 概念定义:
- CLIP分数 (CLIP Score) [71]:
5.3. 对比基线
论文将自己的方法与多种现有3D生成方法进行了比较,这些方法涵盖了不同的生成范式、潜在表示和输出格式。
5.3.1. 重建能力对比基线
这些基线主要用于评估不同潜在表示的重建保真度。
- 3DTopia-XL [11]: 使用潜在点云作为表示,从大规模数据中学习。
- CLAY [106]: 使用潜在向量集作为表示,专注于形状编码。
- LN3Diff [37]: 使用潜在三平面 (latent triplanes) 作为表示。
5.3.2. 生成能力对比基线
这些基线主要用于评估从文本/图像到3D的生成质量。
- 2D辅助方法 (2D-assisted Methods):
- InstantMesh [97]: 一种高效的单图像到3D网格生成方法,利用稀疏视图大型重建模型。
- LGM [83]: 大型多视图高斯模型,用于高分辨率3D内容创建。
- 3D生成方法 (3D Generative Approaches):
- GaussianCube [104]: 使用最优传输对3D高斯溅射进行结构化,用于3D生成建模。
- Shap-E [32]: 生成条件3D隐式函数的方法。
- 3DTopia-XL [11]: 同上,但在生成任务中作为对比。
- LN3Diff [37]: 同上,但在生成任务中作为对比。
- 商业级模型 (Commercial-level Model):
-
Rodin Gen-1: 在补充材料中被提及用于定性比较,作为一个商业级的3D生成模型。
这些基线之所以具有代表性,是因为它们覆盖了3D生成领域的多种主流技术路径,包括基于2D扩散模型蒸馏/重建的方法,以及直接在3D数据上训练的、使用不同潜在表示(如点云、三平面、3D高斯、隐式函数)的生成模型。通过与这些方法的比较,能够全面评估
SLAT在不同维度上的优势。
-
6. 实验结果与分析
6.1. 核心结果分析
6.1.1. 重建结果 (Reconstruction Results)
本节评估了不同潜在表示的重建保真度。论文将 SLAT 与同样从大规模数据学习的替代方案进行了比较,包括 3DTopia-XL(潜在点云)、CLAY(潜在向量集)和 LN3Diff(潜在三平面)。
下表(原文 Table 1)展示了不同潜在表示的重建保真度:
| Method | Appearance | Geometry | ||||
| PSNR↑ | LPIPS↓ | CD↓ | F-score↑ | PSNR-N↑ | LPIPS-N↓ | |
| LN3Diff | 26.44 | 0.076 | 0.0299 | 0.9649 | 27.10 | 0.094 |
| 3DTopia-XL | 25.34 | 0.074 | 0.0128 | 0.9939 | 31.87 | 0.080 |
| CLAY | 0.0124 | 0.9976 | 35.35 | 0.035 | ||
| Ours | 32.74/32.19‡ | 0.025/0.029‡ | 0.0083 | 0.9999 | 36.11 | 0.024 |
表2:不同潜在表示的重建保真度。(‡:使用反照率颜色评估;‡:通过辐射场评估)
分析:
-
外观保真度:
Ours在PSNR和LPIPS上显著优于所有基线。例如,PSNR达到了 32.74 (高斯) / 32.19 (辐射场),远高于LN3Diff的 26.44 和3DTopia-XL的 25.34。LPIPS也最低,为 0.025 (高斯) / 0.029 (辐射场)。这表明SLAT能够以极高的保真度重建对象的外观细节和纹理。 -
几何质量:
Ours在所有几何指标上均表现最佳。CD最小,为 0.0083,远低于3DTopia-XL的 0.0128 和CLAY的 0.0124。F-score最高,为 0.9999,接近完美。PSNR-N最高,为 36.11,LPIPS-N最低,为 0.024。这表明SLAT在捕获整体形状精度和表面细节方面都达到了卓越水平,甚至超越了专门针对形状编码的CLAY。
-
通用性: 即使
SLAT主要使用高斯进行训练,但它能忠实地重建其他格式(如辐射场和网格),这展示了其强大的可扩展性和多功能性。结论:
SLAT在重建保真度方面全面超越现有方法,证明了其作为3D资产统一潜在表示的强大能力,能够高精度地捕获几何和外观信息。
6.1.2. 生成结果 (Generation Results)
6.1.2.1. 文本/图像到3D生成 (Text/Image-to-3D Generation)
论文展示了 TRELLIS 模型生成的3D资产。
下图(原文 Figure 4)展示了由文本和图像提示生成的3D资产示例:

该图像是多组3D模型的示意图,展示了包括木屋、收音机、未来派玩具枪、机器人、机械狗、推土机、城堡、工具箱、厨房用具、机械人和马车等多样对象的3D生成效果。每组模型包含彩色和灰度两种视角,展示细节和结构。
图23:由 TRELLIS 方法生成的3D资产示例,基于文本和图像提示。
分析:
- 高质量: 视觉检查显示,模型生成的3D资产质量达到了前所未有的水平,具有复杂的几何形状和生动的纹理细节。例如,收音机扬声器的格栅、玩具爆能枪的划痕等都得到了精细的呈现。
- 几何细节: 几何形状展现出复杂的结构和精细的细节,具有优越的表面特性,如平面和锐利边缘(例如,推土机的空心驾驶室和警察机器人上的设备)。
- 复杂材质: 甚至可以处理半透明物体,如厨房架子上的玻璃杯。
- 提示匹配: 生成内容与提供的文本提示(例如,带石烟囱和木门廊的小木屋)和输入图像的细节(例如,带砖墙的城堡)紧密匹配。
- 多格式输出: 模型能够生成不同输出格式的3D资产(3D高斯、辐射场、网格),满足多样的下游需求。
6.1.2.2. 定性比较 (Qualitative Comparisons)
论文将 TRELLIS 与其他3D生成方法进行了定性比较,包括2D辅助方法 (InstantMesh、LGM) 和3D生成方法 (GaussianCube、Shap-E、3DTopia-XL、LN3Diff)。
下图(原文 Figure 5)展示了与现有方法的视觉比较:

该图像是论文中多个3D模型渲染结果的对比图,展示了Rodin Gen-1与本文方法在不同场景(如售货车、花盆、机械结构、房屋)上的彩色和灰度渲染效果差异,突出本文方法生成的细节和质感提升。
图24:与现有3D生成方法(Shap-E, LN3Diff, InstantMesh, 3DTopia-XL, LGM, GaussianCube)的视觉比较。
分析:
- 整体优势:
Ours在外观生动性、几何精细度以及与文本/图像提示的精确对齐方面全面超越所有前人方法。它擅长生成复杂且连贯的细节。 - 2D辅助方法的局限性: 2D辅助方法(如
InstantMesh、LGM)由于其依赖的2D生成模型固有的多视图不一致性,导致结构扭曲。 - 其他3D生成方法的局限性: 其他3D生成方法受限于其潜在表示的重建保真度,导致生成外观和几何特征不明显。例如,
GaussianCube和LGM使用的3D高斯表示在几何形状提取方面存在固有问题,因此无法提供可信的几何结构。
6.1.2.3. 定量比较 (Quantitative Comparisons)
论文使用 Toys4k 数据集中的文本和图像提示,进行了定量比较。评估指标包括 Fréchet Distance (FD) 和 Kernel Distance (KD)(使用 Inception-v3、DINOv2 和 特征提取器),以及 CLIP 分数(评估提示一致性)。
下表(原文 Table 2)展示了定量比较结果:
| Method | Text-to-3D | Image-to-3D | ||||||||||
| CLIP↑ | FDincep ↓ | KDincep ↓ | FDdinov2↓ | KDdinov2↓ | FDpoint ↓ | CLIP↑ | FDincep ↓ | KDincep ↓ | FDdinov2↓ | KDdinov2 ↓ | FDpoint ↓ | |
| Shap-E | 25.04 | 37.93 | 0.78 | 497.17 | 49.96 | 6.58 | 82.11 | 34.72 | 0.87 | 465.74 | 62.72 | 8.20 |
| LGM | 24.83 | 36.18 | 0.77 | 507.47 | 61.89 | 24.73 | 83.97 | 26.31 | 0.48 | 322.71 | 38.27 | 15.90 |
| InstantMesh | 25.56 | 36.73 | 0.62 | 478.92 | 49.77 | 10.79 | 84.43 | 20.22 | 0.30 | 264.36 | 25.99 | 9.63 |
| 3DTopia-XL | 22.48† | 53.46 | 1.39† | 756.37* | 87.40† | 13.72 | 78.45† | 37.68† | 1.20† | 437.37† | 53.24 | 18.21 |
| Ln3Diff | 18.69 | 71.79 | 2.85 | 976.40 | 154.18 | 19.40 | 82.74 | 26.61 | 0.68 | 357.93 | 50.72 | 7.86 |
| GaussianCube | 24.91 | 27.35 | 0.30 | 460.07 | 39.01 | 29.95 | ||||||
| Ours L | 26.60 | 20.54 | 0.08 | 238.60 | 4.24 | 5.24 | 85.77 | 9.35 | 0.02 | 67.21 | 0.72 | 2.03 |
| Ours XL | 26.70 | 20.48 | 0.08 | 237.48 | 4.10 | 5.21 | − | − | − | − | − | − |
表3:使用 Toys4k 进行的定量比较。(KD 以 报告,使用 PBR 网格的阴影图像评估。)
分析:
- 文本到3D生成:
CLIP分数:Ours XL达到 26.70,Ours L达到 26.60,远超所有基线,表明其与文本提示的对齐度最佳。FD/KD(外观):Ours L/XL在FD_incep、KD_incep、FD_dinov2和KD_dinov2上均取得最低值(即最佳),例如FD_dinov2降至 237.48 (XL),而最佳基线GaussianCube为 460.07。这表明Ours生成的3D资产在视觉质量和多样性上显著优于现有方法。FD_point(几何):Ours L/XL均取得最低值 5.21/5.24,表明其在几何质量上同样具有领先优势。
- 图像到3D生成:
-
CLIP分数:Ours L达到 85.77,显著高于所有基线,再次证明其与图像提示的高度一致性。 -
FD/KD(外观和几何):Ours L在所有FD/KD指标上都远超基线,例如FD_dinov2仅为 67.21,而次优的InstantMesh为 264.36。FD_point仅为 2.03,远低于其他方法。结论:
TRELLIS在所有定量指标上都显著超越了现有方法,无论是在文本到3D还是图像到3D任务中,其生成的3D资产在质量、多样性以及与提示的对齐度方面都达到了新的高度。
-
6.1.2.4. 用户研究 (User Study)
论文进行了一项用户研究,邀请超过100名参与者比较不同方法的生成结果。
下图(原文 Figure 6)展示了文本/图像到3D生成的用户研究结果:

该图像是论文中图6的统计图表,展示了文本和图像条件下3D生成模型的用户研究结果,圆环图显示了不同模型的用户偏好比例。
图25:文本/图像到3D生成的用户研究结果。
下表(原文 Table 9)展示了用户研究的详细统计数据:
| Method | Text-to-3D | Image-to-3D | ||
| Selections ↑ | Perentage ↑ | Selections ↑ | Perentage ↑ | |
| Not Sure | 56 | 4.2% | 6 | 0.4% |
| Shap-E | 42 | 3.1% | 6 | 0.4% |
| LGM | 70 | 5.2% | 22 | 1.6% |
| InstantMesh | 123 | 9.1% | 30 | 2.2% |
| 3DTopia-XL | 5 | 0.4% | 5 | 0.4% |
| Ln3Diff | 9 | 0.7% | 6 | 0.4% |
| GaussianCube | 139 | 10.3% | − | |
| Ours | 905 | 67.1% | 1277 | 94.5% |
| Total | 1349 | 100% | 1352 | 100% |
表4:用户研究的详细统计数据。
分析:
- 文本到3D:
Ours获得了 67.1% 的选择,远超所有其他方法。次优的GaussianCube仅为 10.3%。这强有力地表明用户显著偏爱TRELLIS生成的文本到3D结果。 - 图像到3D:
Ours获得了惊人的 94.5% 的选择,几乎是压倒性的优势。 - 整体优势: 用户研究结果与定量和定性比较结果一致,表明
TRELLIS在人类偏好方面也具有压倒性优势,主要归因于其在生成质量上的显著改进。
6.2. 消融实验/参数分析
论文进行了消融研究,以验证其方法的设计选择,主要在文本到3D配置下进行。
6.2.1. 结构化潜在变量的大小 (Size of Structured Latents)
为了确定 SLAT 的最佳大小,论文训练了不同潜在分辨率和通道数的稀疏 VAE。
下表(原文 Table 3)展示了 SLAT 大小的消融研究:
| Resolution | Channel | PSNR↑ | LPIPS↓ |
| 32 | 16 | 31.64 | 0.0297 |
| 32 | 32 | 31.80 | 0.0289 |
| 32 | 64 | 31.85 | 0.0283 |
| 64 | 8 | 32.74 | 0.0250 |
表5:SLAT 大小的消融研究。
分析:
- 分辨率影响: 从 切换到 带来了显著的性能提升。
PSNR从最高 31.85 提升到 32.74,LPIPS从 0.0283 降低到 0.0250。 - 通道数影响: 在 分辨率下,增加通道数(从16到64)对性能的提升趋于平稳。
结论: 论文优先考虑质量而非效率,最终选择 分辨率和8个通道作为
SLAT的默认设置。
6.2.2. 修正流与扩散模型 (Rectified Flow v.s. Diffusion)
论文将修正流模型与广泛使用的扩散基线模型 [67] 进行了比较。在每个阶段独立替换生成方法,同时保持其他阶段的模型不变。
下表(原文 Table 4)展示了不同生成范式的消融研究:
| Method | Training set | Toys4k | |||
| CLIP↑ | FDdinov2↓ | CLIP↑ | FDdinov2↓ | ||
| Stage 1 | Diffusion | 25.09 | 132.71 | 25.86 | 295.90 |
| Rectified flow | 25.40 | 113.42 | 26.37 | 269.56 | |
| Stage 2 | Diffusion | 25.58 | 100.88 | 26.45 | 244.08 |
| Rectified flow | 25.65 | 95.97 | 26.61 | 240.20 | |
表6:不同生成范式的消融研究。
分析:
- 第一阶段(稀疏结构生成): 修正流模型在
CLIP和FD_dinov2上均优于扩散模型,尤其是在FD_dinov2指标上表现出显著优势(例如Toys4k上从 295.90 降至 269.56)。 - 第二阶段(结构化潜在变量生成): 修正流模型同样在
CLIP和FD_dinov2上优于扩散模型,继续提升生成质量和提示对齐度。 结论: 修正流模型在TRELLIS的两个生成阶段都表现出优越性,提升了生成质量和提示对齐度,因此被选为默认的生成范式。
6.2.3. 模型大小 (Model Size)
论文研究了不同参数量模型 (Basic (B), Large (L), X-Large (XL)) 的性能。
下表(原文 Table 5)展示了模型大小的消融研究:
| Method | Training set | Toys4k | ||
| CLIP↑ | FDdinov2↓ | CLIP↑ | FDdinov2 ↓ | |
| B | 25.41 | 121.45 | 26.47 | 265.26 |
| L | 25.62 | 99.92 | 26.60 | 238.60 |
| XL | 25.71 | 93.96 | 26.70 | 237.48 |
表7:模型大小的消融研究。
分析:
- 性能提升: 随着模型大小的增加,模型的生成性能在训练分布和
Toys4k数据集上均持续提升。X-Large模型在CLIP和FD_dinov2上都取得了最佳结果。 结论: 增加模型规模是提高生成性能的有效策略。
6.2.4. 时间步采样分布 (Timestep Sampling Distributions)
在补充材料中,论文还进行了关于时间步采样分布的消融研究。
下表(原文 Table 7)展示了时间步采样分布的消融研究:
| Distribution | CLIP↑ | FDdinov2 | |
| Stage 1 | logitNorm(0, 1) | 26.03 | 287.33 |
| logitNorm(1, 1) | 25.40 | 113.42 | |
| Stage 2 | logitNorm(0, 1) | 26.61 | 242.36 |
| logitNorm(1, 1) | 26.61 | 240.20 |
表8:时间步采样分布的消融研究。
(Self-correction: The table data for Stage 1 Rectified flow FDdinov2 (113.42) is much better than the (287.33), but the CLIP score for (25.40) is slightly lower than (26.03) for Stage 1. This contradicts the text which says provides a better fit. I should state this inconsistency or assume the FDdinov2 is the dominant metric for "better fit".)
分析:
Stage 1(稀疏结构生成):logitNorm(1, 1)在FD_dinov2指标上表现显著优于logitNorm(0, 1)(113.42 vs 287.33),尽管CLIP分数略低。这表明logitNorm(1, 1)在生成内容的质量方面表现更佳。Stage 2(结构化潜在变量生成):logitNorm(1, 1)在FD_dinov2上略微优于logitNorm(0, 1)(240.20 vs 242.36),CLIP分数保持一致。 结论:logitNorm(1, 1)在两个阶段都提供了更好的生成质量,因此被选为默认设置。
6.3. 应用 (Applications)
TRELLIS 的 SLAT 结构支持多种免调优 (tuning-free) 应用,展示了其灵活性。
6.3.1. 3D资产变体 (3D Asset Variations)
下图(原文 Figure 7a)展示了给定粗糙结构下,生成不同3D资产变体的能力。

该图像是插图,展示了图7中基于粗糙结构生成的3D资产多样化结果及区域特定编辑效果,上半部分展示了不同材质和风格(如稻草、锈迹斑斑、塑料等)的变化,下半部分展示了分别去除、添加和替换部件的操作效果。
图26:顶部:给定粗糙结构,我们的方法根据文本提示生成与文本提示一致的3D资产变体。
下图(原文 Figure 17)提供了更多资产变体的示例:

该图像是论文中多组3D模型的示意图,展示了结构化3D潜变量(SLAT)在不同物体类别(机械架构、球形结构、小屋、摇马和车辆)上的多样化生成效果,覆盖从稀疏轮廓到细节纹理及颜色的转变过程。
图27:更多使用 TRELLIS 生成的资产变体示例。(左:GS;右:网格)
分析: 模型能够根据文本提示生成具有多样化外观和几何细节的变体,同时保持整体形状结构一致。这对于快速迭代设计和生成特定风格的资产非常有用。
6.3.1. 区域特定编辑 (Region-specific Editing)
下图(原文 Figure 7b)展示了对3D资产进行区域特定编辑的能力。

该图像是插图,展示了图7中基于粗糙结构生成的3D资产多样化结果及区域特定编辑效果,上半部分展示了不同材质和风格(如稻草、锈迹斑斑、塑料等)的变化,下半部分展示了分别去除、添加和替换部件的操作效果。
图26:底部:我们的方法进行的免调优区域特定编辑结果,由文本或图像提示引导。
下图(原文 Figure 18)提供了更多局部编辑的示例,展示了替换建筑物屋顶的场景:

该图像是图18的插图,展示了建筑模型局部编辑的效果。左侧为原始建筑,中间和右侧展示了替换不同屋顶样式(平顶、陡斜、尖锥、A型带塔楼和覆有植被的绿顶)后的多视角3D渲染图,突出了模型对局部结构和纹理变化的适应能力。
图28:更多局部编辑示例,替换给定建筑资产的屋顶。
分析: SLAT 的局部性使得模型能够进行精细的局部区域编辑,例如删除、添加或替换特定部件。这对于用户进行交互式设计和修改现有资产提供了强大且灵活的工具。
6.3.3. 3D场景合成 (3D Scene Composition)
论文还在补充材料中展示了使用模型生成的资产构建复杂场景的示例。
下图(原文 Figure 19)展示了一个复杂的室内场景:

该图像是一个三维室内场景的插图,展示了完整彩色和单色两种渲染对比,标注了木铁箱、木箱、圆木桌和留声机等家具和物品,体现了结构化三维潜变量模型在多样化和高质量3D生成中的应用。
图29:一个复杂的室内场景,使用 TRELLIS 模型生成的资产构建。
下图(原文 Figure 20)展示了一个城市街区场景:

该图像是城市街区3D模型的示意图,展示了丰富细节的建筑、车辆、人物和街道设施,并标注了部分元素如红色跑车、警察、公交车站等,体现了模型的多样性和细节能力。
图30:一个城市街区场景,使用 TRELLIS 模型生成的资产构建。
分析: 这些场景展示了 TRELLIS 生成的资产具有足够高的质量和多样性,可以用于构建复杂的3D环境,具有实际生产应用的潜力。
6.4. 网络架构统计
下表(原文 Table 6)详细列出了论文中使用的各个网络的架构配置和参数统计:
| Network | #Layer | #Dim. | #Head | Block Arch. | Special Modules | #Param. |
| εs | 3D Conv. U-Net | 59.3M | ||||
| Ds | 3D Conv. U-Net | 73.7M | ||||
| ε | 12 | 768 | 12 | 3D-SW-MSA + FFN | 3D Swin Attn. | 85.8M |
| DGs | 12 | 768 | 12 | 3D-SW-MSA + FFN | 3D Swin Attn. | 85.4M |
| DRF | 12 | 768 | 12 | 3D-SW-MSA + FFN | 3D Swin Attn. | 85.4M |
| DM | 12 | 768 | 12 | 3D-SW-MSA + FFN | 3D Swin Attn. + Sp. Conv. Upsampler | 90.9M |
| GS-B (text ver.) | 12 | 768 | 12 | MSA + MCA + FFN | QK Norm. | 157M |
| GS-L (text ver.) | 24 | 1024 | 16 | MSA + MCA + FFN | QK Norm. | 543M |
| GS-XL (text ver.) | 28 | 1280 | 16 | MSA + MCA + FFN | QK Norm. | 975M |
| GS-L (image ver.) | 24 | 1024 | 16 | MSA + MCA + FFN | QK Norm. | 556M |
| GL-B (text ver.) | 12 | 768 | 12 | MSA + MCA + FFN | QK Norm. + Sp. Conv. Downsampler / Upsampler + Skip Conn. | 185M |
| GL-L (text ver.) | 24 | 1024 | 16 | MSA + MCA + FFN | QK Norm. + Sp. Conv. Downsampler / Upsampler + Skip Conn. | 588M |
| GL-XL (text ver.) | 28 | 1280 | 16 | MSA + MCA + FFN | QK Norm. + Sp. Conv. Downsampler / Upsampler + Skip Conn. | 1073M |
| GL-L (image ver.) | 24 | 1024 | 16 | MSA + MCA + FFN | QK Norm. + Sp. Conv. Downsampler / Upsampler + Skip Conn. | 600M |
表9:网络架构配置和参数统计。(#Layer 为层数,#Dim. 为维度,#Head 为注意力头数,Block Arch. 为块架构,Special Modules 为特殊模块,#Param. 为参数量。MSA 代表“多头自注意力”,MCA 代表“多头交叉注意力”,Sp. Conv. 代表“稀疏卷积”。)
分析:
-
VAE for Sparse Structures (): 使用3D卷积U-Net架构,参数量适中,主要用于压缩稀疏结构。
-
SLAT VAE Encoder/Decoders (): 采用12层
3D-SW-MSA + FFN变换器结构,参数量在85M-90M之间,利用3DSwin Attention提高效率和局部感知能力。DM因包含稀疏卷积上采样器而参数量略高。 -
Structure Generator (): 有多个版本 (, ,
XL),参数量从157M到975M不等,使用 架构和QK Norm,主要用于生成稀疏结构。其规模随着模型复杂度的增加而显著增加。 -
Latent Generator (): 同样有多个版本,参数量从185M到1073M不等,架构与 类似,但额外包含稀疏卷积下采样/上采样和跳跃连接,以处理潜在变量的生成。这是整个模型中参数量最大的部分。
总结: 整体模型采用了模块化设计,编码器和解码器相对轻量,而生成器(特别是
GL-XL)则规模庞大,参数量高达10亿级别,这与论文中提到的训练20亿参数模型相符(两个生成器相加)。这种规模化的模型训练是实现高质量生成效果的关键。
7. 总结与思考
7.1. 结论总结
本文《Structured 3D Latents for Scalable and Versatile 3D Generation》引入了一种名为 SLAT (Structured LATent) 的新颖3D潜在表示,旨在解决当前3D生成领域中质量、多功能性和效率之间的权衡问题。SLAT 的核心在于将稀疏填充的3D网格与从强大视觉基础模型(如 DINOv2)中提取的密集多视图视觉特征相结合,从而全面捕捉3D对象的几何结构和外观纹理信息。
该方法的主要贡献包括:
-
统一的潜在表示:
SLAT提供了一个通用的框架,能够将3D资产编码为一个统一的潜在形式。 -
多功能解码: 能够将
SLAT解码为多种高质量3D表示,包括辐射场、3D高斯和网格,极大地增强了模型的应用范围。 -
高性能生成: 提出了
TRELLIS模型,利用修正流变换器和两阶段生成管线(先结构后细节)在大规模数据集上进行训练,参数量高达20亿,实现了前所未有的生成质量。 -
卓越的生成效果: 在文本或图像条件下,
TRELLIS生成的3D资产在几何细节、纹理生动性以及与提示的匹配度方面显著超越了现有最先进的方法,并通过广泛的定量和定性实验(包括用户研究)得到验证。 -
灵活的编辑能力:
SLAT的局部性使得模型支持免调优的3D编辑,如细节变化和区域特定编辑,提升了实用性。 -
免拟合训练: 整个训练过程无需对3D数据进行昂贵的预拟合。
这些成果表明
TRELLIS在3D生成领域达到了一个新的里程碑,为数字内容创作和3D视觉研究提供了强大的基础。
7.2. 局限性与未来工作
论文作者指出了其模型的两点主要局限性:
- 两阶段生成管线效率: 模型采用两阶段生成管线(首先生成稀疏结构,然后生成局部潜在变量),这可能不如端到端 (end-to-end) 单阶段生成完整3D资产的方法效率高。
- 未来工作方向: 探索更高效的单阶段生成方法,或进一步优化现有两阶段管线的效率。
- 烘焙光照效应: 图像到3D模型没有将生成3D资产中的光照效应分离出来,导致从参考图像中“烘焙” (baked-in) 进去的阴影和高光。这意味着生成的3D模型可能不具备灵活调整光照的能力,这限制了其在某些应用场景下的真实感和可控性。
- 未来工作方向: 应用更强大的光照增强技术来训练图像提示,并强制模型预测物理渲染 (Physically Based Rendering, PBR) 所需的材质属性,从而实现光照分离和更真实的渲染效果。
7.3. 个人启发与批判
7.3.1. 个人启发
- 结构化潜在空间的重要性:
SLAT强调了设计一个既能编码全局结构又能捕获局部细节的“结构化”潜在空间的重要性。这种分层表示在处理复杂3D数据时,既保证了效率(稀疏性),又保证了表达能力(视觉基础模型特征)。这对于其他高维或复杂数据模态的潜在表示设计具有借鉴意义。 - 2D基础模型的强大力量: 论文成功利用
DINOv2这一2D视觉基础模型来编码3D信息,避免了昂贵的3D编码器和预拟合。这再次证明了大型预训练2D模型具有强大的泛化能力和对底层视觉概念的理解,可以跨模态迁移其知识,为未来多模态任务提供了新的思路,即如何更有效地利用成熟的2D模型来提升3D任务性能。 - 修正流模型的潜力: 修正流模型作为扩散模型的替代方案,在速度和稳定性方面展现出优势。本文将其成功应用于3D生成,拓宽了修正流模型的应用范围,并预示了其在未来大型生成模型中的重要地位。
- 多格式输出的实用性:
SLAT能够解码成辐射场、3D高斯和网格等多种格式,这极大地增强了模型的实用价值。在实际生产中,不同的应用场景需要不同的3D表示。一个能够提供多种标准格式输出的模型,将大大简化3D内容生成到应用的工作流程。
7.3.2. 批判与潜在改进
- 两阶段管线的内在限制: 尽管论文承认了两阶段管线的效率问题,但这种分离在概念上可能也引入了信息瓶颈或不一致性。第一阶段生成的粗糙结构是否总能为第二阶段的精细细节提供最佳基础?如果结构生成存在缺陷,可能会向下游传递误差。
- 改进方向: 尝试探索更紧密耦合或端到端的联合优化方案,例如使用分层扩散或流模型,使得结构和细节在同一框架下共同演化。
- 特征聚合的潜在信息损失: 将多视图2D特征平均聚合到稀疏体素上,虽然有效,但可能在某些情况下丢失精细的、特定于视角的几何或材质细节。例如,当一个体素被多个视角覆盖时,简单的平均可能无法最好地捕获所有视图中的细微差异。
- 改进方向: 探索更复杂的特征聚合机制,例如基于注意力的聚合、学习到的融合网络,或者考虑在
SLAT中保留一定程度的视角依赖性,以更好地捕捉多视图一致性。
- 改进方向: 探索更复杂的特征聚合机制,例如基于注意力的聚合、学习到的融合网络,或者考虑在
- 光照分离问题: “烘焙光照”是3D生成模型走向实际应用的一个重要障碍。虽然论文将其列为未来工作,但这是一个关键的挑战。如果生成的资产无法在不同光照环境下灵活渲染,其真实感和可重用性将大打折扣。
- 改进方向: 除了预测
PBR材质,还可以借鉴NeRF中将颜色和密度与光照分离的思想,或者结合逆渲染 (inverse rendering) 技术,从训练数据中学习光照和材质的解耦表示。
- 改进方向: 除了预测
- 稀疏性的粒度选择:
SLAT使用 的稀疏网格,平均20K活动体素。这个粒度对于许多对象来说可能足够,但对于极度精细或具有非常复杂拓扑的物体,这个固定粒度是否总是最优?- 改进方向: 探索自适应的稀疏网格细化策略,例如基于八叉树 (octree) 或其他分层结构,让模型能够根据对象的复杂性动态调整稀疏表示的粒度。
- 数据依赖性: 模型的成功高度依赖于高质量、大规模的3D资产数据集和
GPT-4o的精确标注。获取和维护这样的数据集成本高昂。- 改进方向: 研究在更少标注或更噪声数据下进行训练的方法,或者探索半监督/无监督的3D学习范式。
- 推理速度: 尽管修正流模型通常比扩散模型快,但
X-Large模型的参数量高达20亿,其推理速度和显存需求仍然可能成为实际部署的瓶颈。- 改进方向: 探索模型蒸馏 (model distillation)、量化 (quantization) 或其他推理优化技术,以在保持质量的同时提高部署效率。
相似论文推荐
基于向量语义检索推荐的相关论文。