AiPaper
论文状态:已完成

CLAY: A Controllable Large-scale Generative Model for Creating High-quality 3D Assets

发表:2024/05/30
原文链接PDF 下载
价格:0.10
价格:0.10
已有 5 人读过
本分析由 AI 生成,可能不完全准确,请以原文为准。

TL;DR 精炼摘要

CLAY提出了一个包含多分辨率变分自编码器和潜在扩散Transformer的大规模3D生成模型,实现从多模态输入和多样的3D形式中提取丰富3D先验,生成连续完整的3D几何和高分辨率PBR纹理。采用渐进训练和超大数据集,支持多样可控的高质量3D资产创作。

摘要

In the realm of digital creativity, our potential to craft intricate 3D worlds from imagination is often hampered by the limitations of existing digital tools, which demand extensive expertise and efforts. To narrow this disparity, we introduce CLAY, a 3D geometry and material generator designed to effortlessly transform human imagination into intricate 3D digital structures. CLAY supports classic text or image inputs as well as 3D-aware controls from diverse primitives (multi-view images, voxels, bounding boxes, point clouds, implicit representations, etc). At its core is a large-scale generative model composed of a multi-resolution Variational Autoencoder (VAE) and a minimalistic latent Diffusion Transformer (DiT), to extract rich 3D priors directly from a diverse range of 3D geometries. Specifically, it adopts neural fields to represent continuous and complete surfaces and uses a geometry generative module with pure transformer blocks in latent space. We present a progressive training scheme to train CLAY on an ultra large 3D model dataset obtained through a carefully designed processing pipeline, resulting in a 3D native geometry generator with 1.5 billion parameters. For appearance generation, CLAY sets out to produce physically-based rendering (PBR) textures by employing a multi-view material diffusion model that can generate 2K resolution textures with diffuse, roughness, and metallic modalities. We demonstrate using CLAY for a range of controllable 3D asset creations, from sketchy conceptual designs to production ready assets with intricate details. Even first time users can easily use CLAY to bring their vivid 3D imaginations to life, unleashing unlimited creativity.

思维导图

论文精读

中文精读

1. 论文基本信息

1.1. 标题

CLAY: 一个可控的大规模生成模型,用于创建高质量3D资产 (CLAY: A Controllable Large-scale Generative Model for Creating High-quality 3D Assets)

1.2. 作者

LONGWEN ZHANG*, ZIYU WANG*, QIXUAN ZHANG†, QIWEI QIU, ANQI PANG, HAORAN JIANG, WEI YANG, LAN XU\mathsf { X U } ^ { \ddag }, JlNGYl YU\mathsf { J l N G Y l \ Y U ^ { \ddag } }。 作者主要来自上海科技大学 (ShanghaiTech University) 和 Deemos Technology Co., Ltd., China。

1.3. 发表期刊/会议

预印本 (Preprint),发布在 arXiv。该论文尚未在正式期刊或会议上发表,但预印本机制允许研究成果在同行评审前快速分享,通常被学术界视为重要的研究交流平台。

1.4. 发表年份

2024年

1.5. 摘要

在数字创意领域,将人类想象力转化为复杂的3D世界常受限于现有数字工具,这些工具通常需要广泛的专业知识和大量精力。为了弥合这一鸿沟,本文介绍了 CLAY,一个3D几何和材质生成器,旨在毫不费力地将人类想象力转化为复杂的3D数字结构。CLAY 支持经典的文本或图像输入,以及来自各种基本图元(多视图图像、体素、包围盒、点云、隐式表示等)的3D感知控制。其核心是一个大规模生成模型,由一个多分辨率变分自编码器 (Variational Autoencoder, VAE) 和一个极简的潜在扩散 Transformer (Diffusion Transformer, DiT) 组成,直接从多样化的3D几何体中提取丰富的3D先验 (3D priors)。具体而言,它采用神经场 (neural fields) 来表示连续完整的表面,并使用一个在潜在空间中纯粹由 Transformer 块 (transformer blocks) 构成的几何生成模块。本文提出了一种渐进式训练方案,在一个通过精心设计的处理管线获得的超大型3D模型数据集上训练 CLAY,最终得到一个拥有15亿参数的原生3D几何生成器。对于外观生成,CLAY 通过采用一个多视图材质扩散模型来生成物理渲染 (Physically-Based Rendering, PBR) 纹理,该模型能够生成2K分辨率的漫反射 (diffuse)、粗糙度 (roughness) 和金属度 (metallic) 模态纹理。本文展示了 CLAY 在一系列可控3D资产创建中的应用,从草图概念设计到具有复杂细节的生产级资产。即使是初次使用的用户也能轻松利用 CLAY 将他们生动的3D想象变为现实,释放无限创意。

1.6. 原文链接

https://arxiv.org/abs/2406.13897

PDF 链接: https://arxiv.org/pdf/2406.13897v1.pdf

发布状态:预印本 (Preprint),发布于 2024-05-30T05:57:36.000Z。

2. 整体概括

2.1. 研究背景与动机

论文试图解决的核心问题: 现有的3D创作工具在将人类的丰富想象力转化为数字3D资产时,存在巨大的鸿沟。这主要是因为传统的3D建模和纹理化流程需要高度的艺术专业知识和大量的体力劳动。尽管2D图像生成领域(例如基于文本的图像生成)已经取得了革命性的进展,但3D生成领域尚未达到同样成熟的水平,尤其是在模型可伸缩性 (model scalability) 和适应性 (adaptation capabilities) 方面。

为什么这个问题在当前领域是重要的: 3D资产在娱乐(电影、游戏)、动画制作、虚拟现实 (VR) 和增强现实 (AR) 等行业中至关重要。一个能够高效、高质量、可控地生成3D资产的工具,将极大地降低创作门槛,加速内容生产,释放无限创意,从而推动整个数字创意产业的发展。

现有研究存在哪些具体的挑战或空白 (Gap):

  1. 数据稀缺与质量问题: 相较于2D图像,高质量的3D数据集规模有限,且存在格式不统一、非封闭网格 (non-watertight meshes)、方向不一致、标注不准确等问题,这限制了大规模3D生成模型的训练。
  2. 几何与外观的纠缠: 3D资产的几何形状和外观(纹理、材质)通常是高度纠缠的,难以独立生成和控制。
  3. 2D转3D的局限性: 许多现有方法依赖于将2D生成模型提升到3D,但2D先验 (2D priors) 难以直接转化为连贯的3D先验,导致生成的几何体缺乏细节、一致性和精确的3D控制。例如,多头雅努斯问题 (multi-head Janus problem) 困扰着许多基于2D图像扩散的模型。
  4. 3D原生方法的规模与细节限制: 尽管3D原生方法 (3D native approaches) 能更好地理解几何特征,但受限于模型规模和训练数据,往往难以生成高细节和多样化的结果,与人工制作的资产存在差距。
  5. 缺乏统一的可控性: 现有的3D生成工具往往只能支持有限的输入模态或控制方式,无法方便地从多样化的原始输入(如文本、图像、点云、体素)进行可控生成。

这篇论文的切入点或创新思路是什么: CLAY 的核心创新在于结合了“预训练-适应 (pretrain-then-adaptation)”范式和3D原生策略,并专注于大规模模型训练和高质量数据处理。它将几何生成与材质生成解耦,并各自采用大规模扩散模型:

  1. 大规模3D原生几何生成: 提出一个15亿参数的3D原生几何生成器,通过多分辨率 VAE 和潜在 DiT,直接从大规模3D数据中学习复杂的几何先验。
  2. 高质量数据管线: 设计了全新的数据处理管线,包括网格重构 (remeshing) 统一几何表示、GPT-4V 辅助进行高质量自动标注。
  3. 物理渲染材质生成: 独立开发一个多视图材质扩散模型,用于生成高分辨率 (2K) 的物理渲染 (PBR) 纹理(漫反射、粗糙度、金属度)。
  4. 多模态可控性: 提供丰富的可控适应性方案,支持从文本、图像到多种3D基本图元 (primitives) 的输入,实现精细化控制。

2.2. 核心贡献/主要发现

CLAY 的主要贡献可以总结如下:

  1. 提出大规模3D原生几何生成模型 CLAY: 首次将3D原生几何生成模型的规模扩展到15亿参数,显著提升了生成3D资产的多样性和质量,超越了以往基于2D生成技术的方法。模型核心是多分辨率 VAE 和极简 DiT,采用神经场表示连续表面。
  2. 创新数据处理管线: 设计了新的数据处理流程,包括几何统一化的网格重构 (geometry remeshing) 协议(确保模型水密性 (watertightness) 并保留几何特征),以及利用 GPT-4V 进行精确自动标注,解决了3D数据集质量和规模的挑战。
  3. 高质量物理渲染 (PBR) 材质生成: 开发了一个多视图材质扩散模型,能够高效生成2K分辨率的漫反射、粗糙度、金属度等 PBR 纹理,直接应用于现有3D资产生产管线,显著提升了生成资产的视觉真实感。
  4. 丰富的多模态可控性: CLAY 作为通用基础模型,支持 LoRA 微调和基于交叉注意力 (cross-attention) 的多种条件控制,包括文本、图像/草图、体素、多视图图像、点云、包围盒以及带扩展框的局部点云,极大地增强了用户将想象力转化为数字创作的灵活性。
  5. 卓越的性能和用户体验: 通过全面的定量评估和用户研究,CLAY 在几何质量、多样性、纹理真实感以及生成速度方面均显著优于现有最先进 (state-of-the-art) 方法,即使是初学者也能轻松使用。

论文得出的关键结论或发现:

  • 大规模3D原生生成模型,配合高质量的数据处理,在3D几何生成方面具有巨大潜力,其结果在多样性和细节上可以超越基于2D模型的方法。
  • 将几何生成和材质生成解耦,并分别使用专门的扩散模型,是实现高质量、生产级3D资产的关键。
  • 渐进式训练方案和适应性潜在空间设计对于训练超大规模3D生成模型至关重要。
  • 多模态条件控制能够显著增强3D生成模型的用户友好性和创作自由度,使其能够从草图概念到生产级资产的整个范围提供支持。

3. 预备知识与相关工作

3.1. 基础概念

理解 CLAY 的工作原理需要一些关于深度学习、3D表示和生成模型的基础知识。

3.1.1. 神经场 (Neural Fields)

概念定义: 神经场是一种使用神经网络来隐式表示连续物理量(如3D形状、光照、纹理等)的方法。与传统的显式表示(如网格、体素)不同,神经场通过一个神经网络将空间坐标映射到对应的物理量。对于3D形状,一个常见的神经场会学习一个函数 F(x,y,z)F(x, y, z) \rightarrow \text{值},其中 可以是表示表面距离的 有符号距离函数 (Signed Distance Function, SDF)、表示空间占用情况的 占用场 (Occupancy Field),或表示颜色/密度的 神经辐射场 (Neural Radiance Field, NeRF)CLAY 中的应用: CLAY 采用神经场来表示连续且完整的表面。具体来说,其 VAE 的解码器输出 占用场 的逻辑值,即对于空间中的任意坐标点 pp,解码器会输出一个值来指示该点是在3D形状内部还是外部。

3.1.2. 变分自编码器 (Variational Autoencoder, VAE)

概念定义: VAE 是一种生成模型,由编码器 (encoder) 和解码器 (decoder) 组成。

  • 编码器:将输入数据(如图像、3D形状)编码成一个概率分布(通常是高斯分布)的潜在表示 (latent representation) 或潜在代码 (latent code)。这个潜在空间 (latent space) 通常具有较小的维度,捕获了输入数据的核心特征。
  • 解码器:从潜在空间中采样一个潜在向量,并将其解码回原始数据空间。 VAE 的目标是学习一个能够重构输入数据的潜在空间,同时确保潜在空间是连续且可插值的,这使得它非常适合生成新数据。 CLAY 中的应用: CLAY 使用一个多分辨率 VAE 来编码和解码3D几何数据。编码器将3D点云 XX 编码成潜在代码 ZZ,解码器则将 ZZ 解码成神经场(占用场),用于重构3D形状。

3.1.3. 扩散模型 (Diffusion Models)

概念定义: 扩散模型是一类生成模型,它通过模拟一个逐渐向数据中添加噪声的正向过程,然后学习一个逆向去噪过程来生成数据。

  • 正向过程 (Forward Process): 逐渐向真实数据 x0x_0 添加高斯噪声,经过 TT 个时间步 (timesteps),最终将数据转化为纯噪声 xTx_T
  • 逆向过程 (Reverse Process): 训练一个神经网络来学习如何从噪声中逐步去除噪声,从而从纯噪声 xTx_T 恢复出真实数据 x0x_0。 扩散模型在生成高质量、多样化数据方面表现出色,尤其是在图像生成领域。 CLAY 中的应用: CLAY 的核心几何生成模块是一个潜在扩散 Transformer (Diffusion Transformer, DiT)。它在 VAE 编码后的潜在空间中进行扩散和去噪,而不是直接在3D几何空间中操作,从而大大提高了效率。

3.1.4. Transformer

概念定义: Transformer 是一种基于自注意力 (self-attention) 机制的神经网络架构,最初为自然语言处理任务设计,但后来被广泛应用于计算机视觉、3D处理等领域。其核心是自注意力 (self-attention) 机制,允许模型在处理序列数据时,动态地加权不同位置的信息。 自注意力机制的计算公式: Attention(Q,K,V)=softmax(QKTdk)V \mathrm{Attention}(Q, K, V) = \mathrm{softmax}\left(\frac{QK^T}{\sqrt{d_k}}\right)V 符号解释:

  • QQ (Query): 查询矩阵,由输入向量乘以一个权重矩阵得到。
  • KK (Key): 键矩阵,由输入向量乘以一个权重矩阵得到。
  • VV (Value): 值矩阵,由输入向量乘以一个权重矩阵得到。
  • dkd_k: 键向量的维度 (dimension of key vectors),用于缩放点积结果,防止梯度过大。
  • softmax\mathrm{softmax}: 归一化指数函数,将注意力权重转换为概率分布。
  • QKTQK^T: 查询和键的点积,表示查询和键之间的相似度。
  • softmax()V\mathrm{softmax}(\dots)V: 将注意力权重应用于值矩阵,得到加权的输出。 CLAY 中的应用: VAE 编码器和解码器以及 DiT 都广泛使用了 Transformer 块,包括自注意力 (self-attention) 和交叉注意力 (cross-attention) 机制,用于处理点云特征和潜在代码。

3.1.5. 物理渲染 (Physically-Based Rendering, PBR)

概念定义: PBR 是一种渲染技术,旨在更准确地模拟光线与物体表面交互的物理过程,从而生成更真实、更具一致性的图像。PBR 材质通常由多个纹理贴图(也称为模态 (modalities))组成,例如:

  • 漫反射 (Diffuse/Albedo): 物体固有的颜色,不包含光照或阴影信息。
  • 粗糙度 (Roughness): 描述表面微观结构的不规则程度,影响光线的散射和反射。粗糙度越高,表面越不光滑,反射越模糊。
  • 金属度 (Metallic): 描述表面是金属还是非金属。金属表面反射光线的能力更强,且自身颜色通常由反射光线决定;非金属表面则会吸收一部分光线,反射另一部分。 CLAY 中的应用: CLAY 专门设计了一个多视图材质扩散模型来生成 PBR 纹理(包括漫反射、粗糙度和金属度),以确保生成的3D资产能够直接用于生产级的真实感渲染。

3.1.6. LoRA (Low-Rank Adaptation)

概念定义: LoRA 是一种参数高效的微调 (parameter-efficient fine-tuning) 技术,用于在大规模预训练模型上进行适应性训练。它通过在模型中注入小的、可训练的低秩矩阵来修改模型的行为,而不是直接更新整个模型的参数。这大大减少了微调所需的计算资源和存储空间,同时保持了良好的性能。 CLAY 中的应用: CLAY 支持 LoRA 方式对 DiT 的注意力层进行微调,以便将模型快速适应到特定风格或数据集上,实现高效的定制化生成。

3.2. 前人工作与技术演进

3D 生成领域的技术演进大致分为两条主线:2D-based(基于2D图像)和 3D-native(3D原生)。

3.2.1. 基于2D图像的3D生成 (Imposing 2D Images as Prior)

这类方法旨在利用2D图像生成领域的巨大进步来辅助3D生成。

  • 核心思想: 通过复杂的优化技术(如 得分蒸馏采样 (Score Distillation Sampling, SDS))或多视图图像生成,将2D先验知识转化为3D结构。
  • 代表性工作:
    • DreamFusion [Poole et al. 2023]:首次引入 SDS,利用2D图像扩散模型和视角提示来优化 NeRF 生成3D形状。
    • Zero-1-to-3 [Liu et al. 2023c]:通过训练一个额外的映射,将视角信息集成到2D图像生成中,以改善多视角一致性。
    • MVDream [Shi et al. 2024] 和 SyncDreamer [Liu et al. 2024a]:专注于直接生成具有视图一致性的多视图图像,然后从中提取3D形状。
    • One-2-3-45 [Liu et al. 2023d]:在3D数据集上训练可泛化的 NeuS 模型,以处理稀疏视图输入。
  • 局限性: 2D图像扩散模型缺乏对3D几何和视角的显式理解,容易导致几何不连贯、细节缺失和 多头雅努斯问题(即所有渲染视图都被认为是正面视图)。

3.2.2. 基于3D几何的3D生成 (Imposing 3D Geometry as Priors / 3D-native Approaches)

这类方法直接从3D数据集训练生成模型,以更好地理解和保留几何特征。

  • 核心思想: 利用3D数据集的几何信息,直接学习3D形状的生成。
  • 代表性工作:
    • 早期方法 (基于3D卷积网络): 3D-R2N2 [Choy et al. 2016]、Point Set Generation Network [Fan et al. 2017] 等,主要使用3D卷积网络处理体素或点云。
    • 点云扩散模型: Point-E [Nichol et al. 2022]:利用纯 Transformer 扩散模型直接在点云上进行去噪,但难以转换为精确的网格。
    • 网格原生生成: Polygen [Nash et al. 2020] 和 MeshGPT [Siddiqui et al. 2024]:通过点和表面序列原生表示网格,生成高质量网格,但受限于小规模高质量数据集。
    • 隐式表示生成:
      • DeepSDF [Park et al. 2019] 和 Mosaic-SDF [Yariv et al. 2024]:利用优化技术为每个几何体创建唯一的 SDF 表示。
      • SDFusion [Cheng et al. 2023] 和 ShapeGPT [Yin et al. 2023]:采用3D VAE 编码和解码 SDF 场,但主要在 ShapeNet 数据集上训练,多样性有限。
      • 3DShape2VecSet [Zhang et al. 2023c]、Shap-E [Jun and Nichol 2023] 和 Michelangelo [Zhao et al. 2023]:使用 Transformer 编码点云为解码网络的参数,代表了更复杂的神经网络架构。
    • 多分辨率体素: XCube [Ren et al. 2024]:将几何体简化为多分辨率体素进行扩散,但在处理复杂提示和广泛下游任务方面面临挑战。
  • 局限性: 尽管能生成更好的几何体,但受限于模型规模和数据集大小,仍无法与人工制作的细节和复杂性匹敌。

3.3. 差异化分析

CLAY 相较于现有工作的核心区别和创新点在于:

  1. 大规模3D原生模型与数据处理:

    • 传统3D原生: 现有3D原生方法模型规模较小,受限于数据集质量和大小,难以生成高细节和多样性。
    • CLAY: 将3D原生几何生成模型的规模提升至前所未有的15亿参数,并结合精心设计的几何统一化(remeshing)和 GPT-4V 自动标注数据管线,克服了3D数据稀缺和质量问题,从而能够从多样化的3D几何体中提取更丰富的3D先验。这使得 CLAY 生成的几何体在多样性和质量上远超现有3D原生方法。
  2. 几何与材质的解耦和独立优化:

    • 基于2D方法: 通常尝试从2D生成中同时推断几何和外观,导致几何细节和一致性不足,且材质生成能力有限。
    • CLAY: 将几何生成和材质生成完全解耦。几何生成由大规模 VAE-DiT 模型负责,材质生成则由专门的多视图 PBR 材质扩散模型负责。这种分而治之的策略使得两者都能达到更高的质量。
  3. 先进的材质生成能力:

    • 现有材质生成: 多数方法只能生成部分材质属性(如漫反射),或缺乏对特定材质属性的监督,导致渲染质量不高。
    • CLAY: 专门设计了多视图材质扩散模型,能高效生成全套 PBR 纹理(漫反射、粗糙度、金属度),且能达到2K高分辨率,直接支持生产级渲染,这是其他方法难以企及的。
  4. 多模态可控性和适应性:

    • 现有方法: 通常只支持有限的输入模态(如文本或单张图像),或控制粒度较粗。
    • CLAY: 支持从文本、图像到多种3D基本图元(体素、包围盒、点云、多视图图像)的丰富多模态控制,并且通过 LoRA 和交叉注意力机制,实现了高度可定制和可控的生成。尤其是在3D模态(如体素、点云)下的空间控制,是其独特优势。
  5. 效率与质量的平衡:

    • 基于 SDS 的方法: 优化时间长,通常需要数小时才能生成一个3D资产。

    • CLAY: 采用大规模预训练和潜在空间扩散,大大缩短了生成时间(约45秒),同时保持了甚至超越了 SDS 方法的质量和几何细节。

      总结来说,CLAY 通过结合大规模模型、创新的数据处理、几何与材质的解耦以及丰富的多模态控制,在3D资产生成领域达到了前所未有的质量、多样性和效率。

4. 方法论

CLAY 的方法论核心在于构建一个可控的大规模生成模型,该模型能够生成高质量的3D几何形状和物理渲染 (PBR) 材质。其主要策略是将几何生成和材质生成解耦,并分别采用大规模扩散模型。

4.1. 3D几何生成模型 (Large-scale 3D Generative Model)

CLAY 的几何生成器是一个拥有15亿参数的大型模型,它在压缩的潜在空间 (compressed latent space) 中学习3D数据的去噪过程。这个设计类似于2D生成模型,显著降低了计算复杂性。其架构基于 3DShape2VecSet,但引入了新的扩展策略。

4.1.1. 表示与模型架构 (Representation and Model Architecture)

CLAY 将3D几何体表示为神经场 (neural field),通过从3D网格表面 MM 采样点云 X\mathbf{X} 来编码。

1. 多分辨率变分自编码器 (Multi-resolution VAE) VAE 负责将输入的3D几何体编码为潜在代码,并将其解码回神经场表示。

编码器 (Encoder): 输入:从3D网格表面 MM 采样的点云 XRN×3\mathbf{X} \in \mathbb{R}^{N \times 3}。 输出:潜在代码 ZRL×64\mathbf{Z} \in \mathbb{R}^{L \times 64},其中 LL 是潜在代码的长度,64 是通道大小。 编码过程采用可学习的嵌入函数和交叉注意力 (cross-attention) 编码模块。

Z=E(X)=CrossAttn(PosEmb(X~),PosEmb(X)) \mathbf{Z} = \mathcal{E}(\mathbf{X}) = \mathrm{CrossAttn}(\mathrm{PosEmb}(\tilde{\mathbf{X}}), \mathrm{PosEmb}(\mathbf{X}))

符号解释:

  • Z\mathbf{Z}: 编码后的潜在代码 (latent code)。

  • E()\mathcal{E}(\cdot): VAE 的编码器函数。

  • X\mathbf{X}: 采样的输入点云,维度为 N×3N \times 3,其中 NN 是点数,3 代表 (x, y, z) 坐标。

  • X~\tilde{\mathbf{X}}: X\mathbf{X} 的下采样版本,通常是原始点云大小的 1/41/4。这有助于在不同分辨率下捕获几何特征,并将潜在代码长度 LL 减少到输入点云大小 NN 的四分之一。

  • PosEmb()\mathrm{PosEmb}(\cdot): 可学习的位置嵌入 (positional embedding) 函数,将点云坐标映射到高维特征空间,同时保留其空间信息。

  • CrossAttn(,)\mathrm{CrossAttn}(\cdot, \cdot): 交叉注意力模块。这里,它将下采样点云的嵌入作为查询 (query),原始点云的嵌入作为键 (key) 和值 (value),以聚合不同分辨率的特征。

    解码器 (Decoder): 解码器由24个自注意力 (self-attention) 层和一个交叉注意力层组成。 输入:潜在代码 Z\mathbf{Z} 和一组查询点 (query points) p\mathbf{p}。 输出:占用场 (occupancy logits),表示空间中每个点在3D形状内部或外部的概率。

D(Z,p)=CrossAttn(PosEmb(p),SelfAttn24(Z)) \mathcal{D}(\mathbf{Z}, \mathbf{p}) = \mathrm{CrossAttn}(\mathrm{PosEmb}(\mathbf{p}), \mathrm{SelfAttn}^{24}(\mathbf{Z}))

符号解释:

  • D(,)\mathcal{D}(\cdot, \cdot): VAE 的解码器函数。

  • Z\mathbf{Z}: 从编码器获得的潜在代码。

  • p\mathbf{p}: 空间中的测试坐标点 (testing coordinate in space)。解码器会针对这些点预测其占用情况。

  • PosEmb(p)\mathrm{PosEmb}(\mathbf{p}): 查询点 p\mathbf{p} 的位置嵌入。

  • SelfAttn24(Z)\mathrm{SelfAttn}^{24}(\mathbf{Z}): 对潜在代码 Z\mathbf{Z} 应用24层自注意力操作,以捕捉潜在代码内部的复杂关系。

  • CrossAttn(,)\mathrm{CrossAttn}(\cdot, \cdot): 交叉注意力模块。这里,它将查询点的位置嵌入作为查询,SelfAttn 处理后的潜在代码作为键和值,从而将潜在形状信息映射到空间中的具体点。

    VAE 配置: VAE 的维度为 512,使用 8 个注意力头 (attention heads),总参数量为 8200万。潜在代码大小配置为 L×64L \times 64,其中 LL 根据输入点云的大小而变化。 多分辨率采样: 为了捕获精细的几何细节,CLAY 采用多分辨率采样策略。在每次迭代中,从 204840968192 中随机选择一个采样大小 NN,然后从输入网格 MM 中采样相应数量的表面点。

2. 渐进式潜在扩散 Transformer (Coarse-to-fine DiT) DiT 负责在 VAE 的潜在空间中进行概率几何生成。

编码过程: 首先,从3D网格中采样 N=4LN = 4L 个表面点,并通过 VAE 编码器 E()\mathcal{E}(\cdot) 将其编码为潜在代码 ZRL×64\mathbf{Z} \in \mathbb{R}^{L \times 64}。 文本提示 (text prompt) 通过 CLIP-ViT-L/14 模型 [Radford et al. 2021] 处理,生成文本特征 c\mathbf{c} 作为条件。 DiT 的作用是预测在时间步 tt 时,潜在代码 Zt\mathbf{Z}_t 中的噪声 ϵ\epsilon

ϵ(Zt,t,c)={CrossAttn(SelfAttn(Zt##t),c)}24 \epsilon ( \mathbf { Z } _ { t } , t , \mathbf { c } ) = \{ \mathcal { C } \mathrm { rossAttn } ( \mathcal { S } \mathrm { elfAttn } ( \mathbf { Z } _ { t } \# \# \mathbf { t } ) , \mathbf { c } ) \} ^ { 24 }

符号解释:

  • ϵ(,,)\epsilon(\cdot, \cdot, \cdot): DiT 模型,旨在预测给定潜在代码、时间步和条件下的噪声。
  • Zt\mathbf{Z}_t: 在时间步 tt 时的带噪声潜在代码。
  • tt: 当前的时间步,表示扩散过程的阶段。
  • c\mathbf{c}: 从文本提示中提取的文本特征,作为生成过程的条件。
  • SelfAttn(Zt##t)\mathcal{S}\mathrm{elfAttn}(\mathbf{Z}_t \# \# \mathbf{t}): 对带噪声潜在代码 Zt\mathbf{Z}_t 和时间步嵌入 t\mathbf{t} 进行拼接 (concatenation, 符号 # # 表示) 后,应用自注意力机制。这使得模型能够理解潜在代码的内部关系以及扩散过程的当前阶段。
  • CrossAttn(,)\mathcal{C}\mathrm{rossAttn}(\cdot, \cdot): 交叉注意力模块。这里,它将自注意力处理后的潜在代码作为查询,文本特征 c\mathbf{c} 作为键和值,从而使几何生成过程受到文本条件的指导。
  • {}24\{ \cdot \}^{24}: 表示这个模块重复了24层。

渐进式训练方案 (Progressive Training Scheme): 为了高效捕获精细几何细节并实现模型的可伸缩性,CLAY 采用渐进式训练方案:

  1. 初始阶段: 从较短的潜在代码长度 L=512L = 512 开始,使用较高的学习率。
  2. 逐步增加: 逐渐将 LL 增加到 1024,然后增加到 2048。每次增加 LL 时,根据经验观察相应降低学习率。 这种方法确保了 DiT 的鲁棒性和训练效率。

4.1.2. 规模扩展方案 (Scaling-up Scheme)

为了实现 CLAY 的大规模扩展,研究人员增强了 VAEDiT 架构,采用了 预归一化 (pre-normalization)GeLU 激活函数 (GeLU activation) 来加速注意力机制的计算。前馈网络 (feed-forward network) 的维度是模型维度 (model dimension) 的四倍。

训练细节:

  • 噪声调度 (Noise Scheduling): 使用具有 1000 个时间步的离散调度器 (discrete scheduler),训练期间采用余弦 beta 调度 (cosine beta schedule)。
  • 训练目标 (Training Objective): 遵循扩散训练的最新实践 [Lin et al. 2024],通过重新调整 betas 实现 零终端信噪比 (zero terminal SNR),并选择 v-prediction 作为训练目标,以促进稳定的推理。
  • 模型规模: 训练了五种不同规模的 DiT 模型,参数从 2.27亿15亿,如 Table 1 所示。最大的 XL 模型在 256NVidia A800 GPU 集群上训练了大约 15 天,采用了渐进式训练。

Table 1. DiT specifications and training hyper parameters.

Model sizenparamsnlayersdmodelnheadsdheadLatent lengthBatch sizeLearning rate
Tiny227M24768126451210241e-4
Small392M2410241664512163841e-5
102481925e-6
Medium600M2412801680512163841e-4
102481925e-5
Large853M241536169651281921e-4
102440961e-5
204820485e-6
XL1.5B2420481612851240961e-4
102420481e-5
204810245e-6

推理过程: 推理时,采用 100 个时间步的去噪过程,并使用线性空间时间步间隔 (linear-space timestep spacing) 来高效生成3D几何体。 模型随后通过 VAE 的几何解码器在 5123512^3 网格分辨率下进行密集采样,精确确定占用值,然后使用 Marching Cubes 算法将其转换为网格。

4.1.3. 数据标准化用于预训练 (Data Standardization for Pretraining)

高质量、大规模的3D数据集对训练大型生成模型至关重要。CLAY 提出了一种新的数据处理管线:

1. 几何统一化 (Geometry Unification)

  • 挑战: 现有3D数据集(如 ShapeNetObjaverse)存在非水密网格 (non-watertight meshes)、不一致的方向和密度等问题。直接使用这些数据预测占用场会遇到困难。
  • CLAY 的解决方案: 提出了一种标准化的几何网格重构 (remeshing) 协议,以确保网格的水密性 (watertightness),同时避免丢弃有用的训练数据。
    • UDF (Unsigned Distance Field) 表示: 采用 UDF 表示,因为它能够无缝转换网格格式并纠正顶点和面密度不一致的问题。

    • 网格重构:Marching Cubes 提取等值面之前,进行基于网格的可见性计算。将网格点标记为“内部”:当它从所有角度都被完全遮挡时。这最大化了正体积 (positive volume),有助于 VAE 的稳定训练。 以下是原文 Figure 4 的结果:

      Fig. 4. Comparison against existing mesh preprocessing methods using cross-sectional analysis. The input is a non-watertight chair with its surface not closed. Red lines correspond to the faces of me… 图 4. 现有网格预处理方法与本方法的剖面分析对比。输入是一个非水密的椅子模型,其表面未封闭。红色线段对应于网格的面,浅灰色表示“外部”,深灰色表示“内部”。我们的方法在忠实保留几何特征的同时最大化了正体积。这种鲁棒性也适用于非水密输入网格,确保一致可靠的结果。

      2. 几何标注 (Geometry Annotation)

  • 挑战: 精确的文本提示对于指导3D生成模型至关重要,但现有3D数据集的标注通常不够详细和准确。
  • CLAY 的解决方案: 开发了独特的提示标签 (prompt tags),并利用 GPT-4V [OpenAI 2023] 来生成详细的标注。这增强了模型解释和生成具有细微细节和多样风格的复杂3D几何体的能力。

4.2. 资产增强 (Asset Enhancement)

为了使生成的数字资产能够直接用于现有的计算机图形 (CG) 管线,CLAY 进一步采用了两阶段方案:后生成几何优化和材质合成。

4.2.1. 网格四边形化与纹理图集 (Mesh Quadrification and Atlasing)

  • 挑战: Marching Cubes 算法生成的初始几何网格通常由数百万个不规则三角形组成,这在编辑和应用中(尤其是导出到网格编辑工具或游戏引擎时)带来了挑战,并且需要复杂的自动 UV 展开 (UV unwrapping) 来进行纹理映射。
  • CLAY 的解决方案: 使用现成的工具 [Blender Online Community 2024; Huang et al. 2018b] 将这些三角形面网格转换为四边形面网格 (quad-faced meshes)。这个过程在保留尖锐边缘和平面等关键几何特征的同时,促进了从粗糙3D模型到精细资产的高效转换,并为后续的 UV 展开和材质合成奠定基础。

4.2.2. 材质合成 (Material Synthesis)

  • 挑战: 现有的 PBR 纹理生成方法通常只关注非常小的材质子集,缺乏对特定材质属性的监督,限制了渲染质量和材质类型多样性。
  • CLAY 的解决方案: 旨在合成广泛的 PBR 材质,包括漫反射 (diffuse)、粗糙度 (roughness) 和金属度 (metallic) 纹理。
    • 数据集:Objaverse [Deitke et al. 2023] 中精心挑选了超过 40,000 个具有高质量 PBR 材质的物体来构建训练数据集。
    • 多视图材质扩散模型 (Multi-view Material Diffusion Model):
      • 修改 MVDream 基于 MVDream [Shi et al. 2024](原本为图像空间生成设计)进行修改,以适应具有额外通道和模态 (modalities) 的纹理属性生成需求。
      • UNet 架构: 借鉴 HyperHuman [Liu et al. 2023b],在 UNet 的最外层卷积层中集成三个分支 (three branches),每个分支带有跳跃连接 (skip connections),允许在不同纹理模态之间并发去噪,并确保视图一致性。
      • 训练过程: 训练过程包括为每个3D对象的正交视图渲染纹理图像,并结合对附加层进行全参数训练和对内部层进行 LoRA 微调,以生成高质量、视图一致的 PBR 材质。
      • 控制与定制: 利用预训练的 ControlNet [Zhang et al. 2023b],将每个目标视图的渲染法线贴图 (normal map) 作为输入,实现对纹理图像的精确生成,并允许通过 IP-Adapter [Ye et al. 2023] 进行基于图像的输入定制。
    • 纹理细节增强:
      • 局部绘制 (Inpainting): 采用 Text2Tex [Chen et al. 2023b] 引入的局部绘制方法增强纹理细节。

      • 超分辨率 (Super-resolution): 整合 Real-ESRGAN [Wang et al. 2021b] 和 MultiDiffusion [Bar-Tal et al. 2023] 等先进超分辨率技术,实现 2K 纹理分辨率,足以满足大多数真实感渲染任务。 以下是原文 Figure 5 的结果:

        该图像是论文中关于CLAY系统架构与资产增强的示意图,展示了从文本到材质扩散的生成流程及三维资产的网格细分和材质合成过程,并通过多视角渲染展示高质量3D模型效果。 图 5. CLAY 系统架构与资产增强管线示意图。从文本输入开始,生成几何模型和物理渲染材质,通过多视角渲染展示高质量3D模型效果。

4.3. 模型适应 (Model Adaptation)

CLAY 在预训练完成后,作为一个通用基础模型,支持多种可控的适应和创建方式。

4.3.1. 条件方案 (Conditioning Scheme)

CLAY 在现有文本提示条件的基础上,并行整合了额外的条件。 核心机制: 利用 预归一化 (pre-normalization) [Xiong et al. 2020] 将注意力结果转换为残差 (residuals),从而允许将额外的条件作为与文本条件并行的残差添加。

ZZ+CrossAttn(Z,c)+i=1nαiCrossAttni(Z,ci) \mathbf{Z} \longleftarrow \mathbf{Z} + \mathrm{CrossAttn}(\mathbf{Z}, \mathbf{c}) + \sum_{i=1}^n \alpha_i \mathrm{CrossAttn}_i(\mathbf{Z}, \mathbf{c}_i)

符号解释:

  • Z\mathbf{Z}: 模型的潜在代码。
  • CrossAttn(Z,c)\mathrm{CrossAttn}(\mathbf{Z}, \mathbf{c}): 原始的文本条件交叉注意力,其中 c\mathbf{c} 是文本特征。
  • i=1nαiCrossAttni(Z,ci)\sum_{i=1}^n \alpha_i \mathrm{CrossAttn}_i(\mathbf{Z}, \mathbf{c}_i): 对 nn 个额外条件进行加权求和。
  • αi\alpha_i: 标量,用于直接调整第 ii 个额外条件的影响力。
  • CrossAttni(,)\mathrm{CrossAttn}_i(\cdot, \cdot): 第 ii 个额外的可训练模块。
  • ci\mathbf{c}_i: 第 ii 个条件(例如图像特征、体素特征等)。

空间控制 (Spatial Control): 对于体素、多视图图像、点云、包围盒和带扩展框的局部点云等空间相关的模态,直接应用交叉注意力无法保证保留空间信息。CLAY 提出了一种学习策略来集成这些3D条件:为空间特征学习额外的位置嵌入 (positional embeddings)。这使得注意力层能够有效区分点坐标及其特征。

CrossAttni(Z,f+PosEmb(p)) \mathrm{CrossAttn}_i(\mathbf{Z}, \mathbf{f} + \mathrm{PosEmb}(\mathbf{p}))

符号解释:

  • Z\mathbf{Z}: 模型的潜在代码。
  • fRM×C\mathbf{f} \in \mathbb{R}^{M \times C}: 特征嵌入,在微调期间学习或从主干网络 (backbone network) 中提取,其中 MM 是长度, CC 是通道数。
  • pRM×3\mathbf{p} \in \mathbb{R}^{M \times 3}: 根据条件类型采样的点坐标。
  • PosEmb(p)\mathrm{PosEmb}(\mathbf{p}): 可学习的位置嵌入,将点坐标映射到高维空间。
  • CrossAttni(,)\mathrm{CrossAttn}_i(\cdot, \cdot): 专门用于处理第 ii 个空间条件的交叉注意力模块。

4.3.2. 实现 (Implementation)

CLAY 实现了多种条件,每个条件都独立训练一个额外的 CrossAttni()\mathrm{CrossAttn}_i(\cdot) 模块,同时固定其他参数。

Table 2. Conditioning module specifications.

ConditioningnparamsMCBackbone
Image/Sketch352M2571536DINOv2-Giant
Voxel260M83512/
Multi-view images358M83768DINOv2-Small
Point cloud252M512512/
Bounding box252M8512/
Partial point cloud252M2048+8512/
  • 图像与草图 (Images and Sketches): 使用预训练的 DINOv2 [Oquab et al. 2024] 模型提取 patch全局特征 (global features)。这些特征通过交叉注意力集成到 CLAY 中。

  • 体素 (Voxel): 为每个3D对象构建 16316^3 体素网格,并下采样到 838^3 特征体 (feature volume)。体素特征 fR83×C\mathbf{f} \in \mathbb{R}^{8^3 \times C} 加上体素中心的位置嵌入 PosEmb(p),然后扁平化并通过交叉注意力集成到 DiT 中。

  • 包围盒 (Bounding Boxes): 包围盒特征 fR8×C\mathbf{f} \in \mathbb{R}^{8 \times C} 加上位置嵌入 PosEmb(p),在条件微调期间学习,以实现精确的空间控制。

  • 稀疏点云 (Sparse Point Cloud): 设置特征嵌入 f=0\mathbf{f} = 0,采样 512 个点作为 p\mathbf{p},并学习相应的位置嵌入 PosEmb(p)

  • 多视图图像 (Multi-view Images): 使用 DINOv2Wonder3D 生成的各种视图图像中提取特征。这些特征被反向投影到3D体 (3D volume),然后下采样并扁平化,通过交叉注意力集成到 DiT 中,类似于体素条件。

  • 带扩展框的局部点云 (Partial Point Cloud with Extension Box): 将输入点云与扩展框的角点 (corner points) 合并,并应用类似于包围盒和稀疏点云条件的方法,用于学习。这有助于重建不完整的几何体。

    以下是原文 Figure 7 的结果:

    该图像是包含网络结构示意图和3D模型渲染效果的插图。左侧展示CLAY模型的多模态条件输入流程及Transformer结构,右侧为基于该模型生成的高质量3D角色及场景渲染示例,体现了文本或多视图输入到细节丰富3D资产的生成过程。 图 7. CLAY 模型的多模态条件输入流程及 Transformer 结构,右侧为基于该模型生成的高质量3D角色及场景渲染示例。

5. 实验设置

CLAY 的实验设置旨在全面评估其在不同模型规模、条件类型和输入模态下的性能。

5.1. 数据集

为了训练 CLAY,研究人员对 ShapeNet [Chang et al. 2015] 和 Objaverse [Deitke et al. 2023] 这两个大规模3D数据集进行了筛选和标准化处理。

  • 数据过滤: 剔除了不适用的数据,如复杂场景和碎片化扫描,最终得到一个包含 527K 个对象的精炼数据集。
  • 标准化处理: 应用了第4.1.3节中描述的网格重构 (remeshing) 协议,以确保几何的水密性 (watertightness)和特征保留。同时,利用 GPT-4V [OpenAI 2023] 对几何体进行精确的自动标注。
  • 高质量子集: 针对 Large-PXL-P 模型,使用了包含 300K 个对象的高质量子集进行训练。
  • 材质合成数据集:Objaverse 中精心挑选了超过 40,000 个具有高质量 PBR 材质的对象,用于训练多视图材质扩散模型。

5.2. 评估指标

论文使用了多种评估指标来量化 CLAY 在文本到3D (Text-to-3D) 和多模态到3D (Multi-modal-to-3D) 生成任务中的性能。

5.2.1. 文本到3D (Text-to-3D) 评估指标

这些指标主要衡量生成3D形状与文本提示之间的对齐程度、生成质量和多样性。

  1. Render-FID (Fréchet Inception Distance for Renderings)

    • 概念定义: FID 是一种衡量生成图像质量和多样性的指标。Render-FID 将这个概念扩展到3D生成,通过渲染生成的3D模型图像,然后计算这些渲染图像与真实图像之间的 FID。较低的 Render-FID 值表示生成的3D模型在视觉上更真实、多样性更高。
    • 数学公式: FID(x,g)=μxμg2+Tr(Σx+Σg2(ΣxΣg)1/2) \mathrm{FID}(x, g) = ||\mu_x - \mu_g||^2 + \mathrm{Tr}(\Sigma_x + \Sigma_g - 2(\Sigma_x \Sigma_g)^{1/2})
    • 符号解释:
      • μx\mu_x: 真实图像在特征空间中的平均特征向量。
      • μg\mu_g: 生成图像在特征空间中的平均特征向量。
      • Σx\Sigma_x: 真实图像在特征空间中的协方差矩阵。
      • Σg\Sigma_g: 生成图像在特征空间中的协方差矩阵。
      • Tr()\mathrm{Tr}(\cdot): 矩阵的迹 (trace)。
    • CLAY 中的应用: 渲染生成的3D模型8个视图的图像,然后计算 FID
  2. Render-KID (Kernel Inception Distance for Renderings)

    • 概念定义: KIDFID 的替代品,同样用于评估生成图像的质量和多样性,但 KIDInception 特征的均值和协方差的估计误差更鲁棒。较低的 Render-KID 值表示更好的生成质量。
    • 数学公式: KID(X,Y)=ExX,yY[k(x,y)]2ExX,yY[k(x,y)]+ExX,yY[k(x,y)] \mathrm{KID}(X, Y) = E_{x \sim X, y \sim Y}[k(x, y)] - 2E_{x \sim X, y \sim Y}[k(x, y)] + E_{x' \sim X, y' \sim Y}[k(x', y')] 或更简单的表述为平方最大均值差异 (Squared Maximum Mean Discrepancy, MMD2^2): KID(X,Y)=MMD2(F,PX,PY) \mathrm{KID}(X, Y) = \mathrm{MMD}^2(\mathcal{F}, P_X, P_Y)
    • 符号解释:
      • X, Y: 分别代表真实数据和生成数据在特征空间中的分布。
      • k(,)k(\cdot, \cdot): 核函数 (kernel function),通常是多项式核 (polynomial kernel)。
      • E[]E[\cdot]: 期望。
    • CLAY 中的应用:Render-FID 类似,通过渲染图像计算。
  3. P-FID (Fréchet Inception Distance for Point Clouds)

    • 概念定义: P-FID 衡量生成点云与真实点云之间的特征距离。通过 PointNet++PointNet++ [Qi et al. 2017] 提取3D特征,然后计算 FID。较低的值表示生成点云的质量和多样性更好。
    • 数学公式:FID 公式相同,但输入是3D点云特征。
    • 符号解释:FID 相同,但 μ,Σ\mu, \Sigma 是在 PointNet++PointNet++ 提取的3D特征空间中计算的。
  4. P-KID (Kernel Inception Distance for Point Clouds)

    • 概念定义: P-KID 衡量生成点云与真实点云之间的特征距离,与 P-FID 类似,但使用 KID
    • 数学公式:KID 公式相同,但输入是3D点云特征。
    • 符号解释:KID 相同,但 X, Y 是在 PointNet++PointNet++ 提取的3D特征空间中计算的。
  5. CLIP (Contrastive Language–Image Pre-training) (I-T) & CLIP (N-T)

    • 概念定义: CLIP [Radford et al. 2021] 是一种预训练模型,能够学习图像和文本之间的语义对齐。
      • CLIP (I-T): 评估渲染图像 (Image) 与文本提示 (Text) 之间的相似度。较高的值表示生成的3D模型外观更符合文本描述。
      • CLIP (N-T): 评估渲染法线贴图 (Normal map) 与文本提示 (Text) 之间的相似度,用于衡量几何形状与文本描述的对齐程度。
    • 数学公式 (相似度通常为余弦相似度): Similarity(EI,ET)=EIETEIET \mathrm{Similarity}(E_I, E_T) = \frac{E_I \cdot E_T}{||E_I|| \cdot ||E_T||}
    • 符号解释:
      • EIE_I: 图像(或法线贴图)通过 CLIP 图像编码器获得的嵌入向量。
      • ETE_T: 文本通过 CLIP 文本编码器获得的嵌入向量。
  6. ULIP-T (Unified Language-Image Pre-training for 3D understanding - Text)

    • 概念定义: ULIP [Xue et al. 2023] 是一种统一的语言-图像预训练模型,用于3D理解。ULIP-T 衡量生成的3D形状与文本提示之间的对齐程度。
    • 数学公式: ULIPT(T,S)=ET,ES \mathrm{ULIP-T}(T, S) = \langle \mathbf{E}_T, \mathbf{E}_S \rangle
    • 符号解释:
      • ET\mathbf{E}_T: 文本 TT 经过 ULIP 文本编码器后的标准化特征向量。
      • ES\mathbf{E}_S: 生成的几何体 SS 经过 ULIP 3D形状编码器后的标准化特征向量。
      • ,\langle \cdot, \cdot \rangle: 向量的内积,表示余弦相似度,因为特征向量是标准化的。

5.2.2. 多模态到3D (Multi-modal-to-3D) 评估指标

这些指标主要衡量条件生成3D形状的准确性,以及与输入条件(如图像、体素)的对齐程度。

  1. CD (Chamfer Distance)

    • 概念定义: Chamfer Distance 是一种衡量两个点集之间相似度的指标。它计算一个点集中每个点到另一个点集最近点的平均距离。在3D生成中,用于比较生成点云与真实点云之间的几何差异。较低的值表示生成形状与真实形状更接近。
    • 数学公式: 对于两个点集 AABBCD(A,B)=xAminyBxy22+yBminxAxy22 \mathrm{CD}(A, B) = \sum_{x \in A} \min_{y \in B} ||x - y||_2^2 + \sum_{y \in B} \min_{x \in A} ||x - y||_2^2
    • 符号解释:
      • A, B: 两个点集。
      • xAx \in A: 点集 AA 中的一个点。
      • yBy \in B: 点集 BB 中的一个点。
      • 22||\cdot||_2^2: 欧几里得距离的平方。
  2. EMD (Earth Mover's Distance)

    • 概念定义: Earth Mover's Distance(也称为 Wasserstein-1 距离)衡量将一个分布的“土”移动到另一个分布所需的最小“工作量”。在3D生成中,它用于衡量两个点集之间的几何差异,更强调整体形状匹配而非局部最近邻。较低的值表示生成形状与真实形状更接近。
    • 数学公式: 对于两个概率分布 PPQQEMD 定义为: EMD(P,Q)=minTΓ(P,Q)i=1mj=1nTijd(pi,qj) \mathrm{EMD}(P, Q) = \min_{T \in \Gamma(P, Q)} \sum_{i=1}^m \sum_{j=1}^n T_{ij} d(p_i, q_j)
    • 符号解释:
      • P, Q: 两个离散概率分布(点集)。
      • Γ(P,Q)\Gamma(P, Q): 所有可能的从 PPQQ 的传输计划 (transportation plans) 集合。
      • TijT_{ij}: 从 PP 中的点 pip_i 移动到 QQ 中的点 qjq_j 的“土”的量。
      • d(pi,qj)d(p_i, q_j): 点 pip_iqjq_j 之间的距离。
  3. Voxel-IoU (Voxel Intersection over Union)

    • 概念定义: Voxel-IoU 衡量生成体素表示与真实体素表示之间的重叠程度。它计算两个体素集合的交集体积除以它们的并集体积。较高的值表示生成体素与真实体素的匹配度更高。
    • 数学公式: IoU(A,B)=Volume(AB)Volume(AB) \mathrm{IoU}(A, B) = \frac{\mathrm{Volume}(A \cap B)}{\mathrm{Volume}(A \cup B)}
    • 符号解释:
      • A, B: 两个体素集合。
      • Volume()\mathrm{Volume}(\cdot): 体素集合的体积(即被占用的体素数量)。
      • \cap: 交集。
      • \cup: 并集。
  4. F-Score (F-measure)

    • 概念定义: F-Score 是精确率 (Precision) 和召回率 (Recall) 的调和平均值,通常用于评估点集匹配的准确性。在3D生成中,它评估生成点云与真实点云之间的几何一致性。较高的值表示更好的匹配。
    • 数学公式: 对于给定的阈值 τ\tau (threshold): Precision=True PositivesTrue Positives+False Positives={pGenmingGTpg2τ}Gen \mathrm{Precision} = \frac{\text{True Positives}}{\text{True Positives} + \text{False Positives}} = \frac{|\{p \in \text{Gen} \mid \min_{g \in \text{GT}} ||p-g||_2 \le \tau \}|}{|\text{Gen}|} Recall=True PositivesTrue Positives+False Negatives={gGTminpGenpg2τ}GT \mathrm{Recall} = \frac{\text{True Positives}}{\text{True Positives} + \text{False Negatives}} = \frac{|\{g \in \text{GT} \mid \min_{p \in \text{Gen}} ||p-g||_2 \le \tau \}|}{|\text{GT}|} FScore=2PrecisionRecallPrecision+Recall \mathrm{F-Score} = 2 \cdot \frac{\mathrm{Precision} \cdot \mathrm{Recall}}{\mathrm{Precision} + \mathrm{Recall}}
    • 符号解释:
      • Gen\text{Gen}: 生成点云。
      • GT\text{GT}: 真实点云。
      • τ\tau: 距离阈值,用于判断点是否“匹配”。
  5. ULIP-I (Unified Language-Image Pre-training for 3D understanding - Image)

    • 概念定义: 衡量生成3D形状与条件图像之间的对齐程度。
    • 数学公式: 类似于 ULIP-T,但使用图像特征: ULIPI(I,S)=EI,ES \mathrm{ULIP-I}(I, S) = \langle \mathbf{E}_I, \mathbf{E}_S \rangle
    • 符号解释:
      • EI\mathbf{E}_I: 图像 II 经过 ULIP 图像编码器后的标准化特征向量。
      • ES\mathbf{E}_S: 生成的几何体 SS 经过 ULIP 3D形状编码器后的标准化特征向量。

5.3. 对比基线

CLAY 将其方法与以下最先进 (state-of-the-art) 的3D生成模型进行了比较:

5.3.1. 文本到3D (Text-to-3D)

  • Shap-E [Jun and Nichol 2023]: 一种基于 Transformer 的扩散模型,可以直接从文本生成3D隐式函数。
  • DreamFusion [Poole et al. 2023]: 基于 得分蒸馏采样 (SDS) 优化 NeRF 以生成3D模型。
  • Magic3D [Lin et al. 2023]: DreamFusion 的改进版本,通过多分辨率哈希编码和更好的优化策略提高了生成质量和速度。
  • MVDream [Shi et al. 2024]: 通过生成多视图图像,然后使用 SDS 优化3D模型。
  • RichDreamer [Qiu et al. 2024]: 一种结合了法线-深度扩散模型,用于在文本到3D生成中增加细节丰富度。

5.3.2. 图像到3D (Image-to-3D)

  • Shap-E [Jun and Nichol 2023]: 也可以从图像输入生成3D。

  • Wonder3D [Long et al. 2024]: 使用跨域扩散从单张图像生成3D模型。

  • DreamCraft3D [Sun et al. 2024]: 一种分层3D生成方法,结合了 Bootstrapped Diffusion Prior

  • One-2-3-45++ [Liu et al. 2024b]: 基于 One-2-3-45 的改进版本,实现了从单张图像快速生成3D网格。

  • Michelangelo [Zhao et al. 2023]: 基于形状-图像-文本对齐的潜在表示条件3D形状生成模型。

    这些基线模型涵盖了不同的3D生成策略(直接点云/隐式函数生成、基于 SDSNeRF 优化、多视图生成),具有代表性,能够全面评估 CLAY 的性能。

6. 实验结果与分析

6.1. 核心结果分析

6.1.1. 模型规模对文本到3D生成的影响

研究人员训练了九个版本的 CLAY,以评估模型规模对性能的影响。

以下是原文 Table 3 的结果: Table 3. Quantitative evaluation of Text-to-3D for models of different sizes.

Model nameLatent lengthrender-FID↓render-KID(×103)↓P-FID↓P-KID(×103)↓CLIP(I-T)↑ULIP-T↑
Tiny-base102412.22413.48612.39054.11870.22420.1321
Small-base102411.29824.20741.93324.13860.23190.1509
Medium-base102413.05965.45611.47142.77080.23110.1511
Large-base10246.57322.36170.86501.63770.23580.1559
XL-base10245.29611.86400.78251.38050.23660.1554
Large-P10245.70801.99970.71481.22020.23600.1565
XL-P10244.01961.27730.63601.07610.23710.1564
Large-P-HD20485.56341.82340.63940.91700.23740.1578
XL-P-HD20484.47791.44860.50720.51800.23720.1569

分析:

  • 模型规模与性能呈正相关:Tiny-baseXL-base,随着模型规模的增大,render-FIDrender-KIDP-FIDP-KID 均呈现下降趋势(越低越好),而 CLIP(I-T)ULIP-T 则呈现上升趋势(越高越好)。这表明更大的模型在文本到3D生成任务中具有更强的能力,能生成更高质量、多样性更好、与文本对齐更准确的3D资产。
  • 高质量数据集的重要性: Large-PXL-P 模型(在高质量子集上训练)通常优于其对应的 Large-baseXL-base 模型。例如,XL-Prender-FID4.0196,低于 XL-base5.2961,显示出高质量数据对模型性能的显著提升作用。
  • 高分辨率潜在空间: Large-P-HDXL-P-HD 模型(使用更长的潜在代码 L=2048L=2048 训练)在某些指标上进一步提升。例如,XL-P-HDP-KID 仅为 0.5180,是所有模型中最低的,这表明更精细的潜在空间能够更好地捕获几何细节。

6.1.2. 多模态条件生成评估

以下是原文 Table 4 的结果: Table 4. Quantitative evaluation of Multi-modal-to-3D for different conditions and their combinations.

ConditionCD(×103)EMD(×102)↓Voxel-IoU↑F-Score↑P-FID↓P-KID(×103)↓ULIP-T↑ULIP-I↑
Image12.409217.61550.45130.40700.99461.98890.13290.2066
MVN0.99245.72830.76970.82180.30380.24200.13930.2220
Voxel0.56768.42540.62730.60492.69635.00080.11860.1837
Image-Bbox5.473314.08110.51220.49091.58843.29940.12750.2028
Image-Voxel0.74918.11740.65140.65412.48666.87670.12620.2017
Text-Image7.719814.54890.49800.46090.79961.44890.14070.2122
Text-MVN0.73015.40340.78420.83580.21840.12330.14240.2240
Text-Bbox5.642114.61700.49210.46592.00744.03550.14170.1838
Text-Voxel0.60907.49810.67370.66891.04271.09030.13970.2036

分析:

  • 多视图法线 (MVN) 条件表现卓越: MVN 条件模型在几何保真度指标(CDEMDVoxel-IoUF-Score)和 P-FIDP-KID 上均表现出色,其 CD 仅为 0.9924F-Score 高达 0.8218,远超其他单一条件(如 ImageVoxel)。这表明多视图法线图能够为模型提供非常精确的几何指导。
  • 单一条件下的高保真度: 即使是单一条件,CLAY 也能生成高保真度的几何体。例如,Voxel 条件在 CD (0.5676) 和 Voxel-IoU (0.6273) 上表现良好,表明 CLAY 能够有效将抽象的体素结构转化为详细的3D形状。
  • 多条件组合提升性能: 结合多种条件通常能进一步提升性能。例如,Text-MVN 结合了文本和多视图法线,在所有几何指标上都达到了最佳性能(如 CD0.7301F-Score0.8358P-FID0.2184)。这表明 CLAY 能够有效融合多源信息,实现更精准的生成。
  • 对齐度: ULIP-TULIP-I 分别衡量与文本和图像输入的对齐度。结合文本的条件(如 Text-ImageText-MVN)在 ULIP-T 上得分更高,而涉及图像的条件(如 ImageMVN)在 ULIP-I 上得分更高,这符合预期。

6.1.3. 几何多样性

以下是原文 Figure 11 的结果:

Fig. 11. Evaluation of the geometry diversity. We present top-3 nearest samples retrieved from the dataset. CLAY generates high-quality geometries that match the description but are distinct from the… 图 11. 几何多样性评估。我们展示了从数据集中检索到的前3个最相关的样本。CLAY 生成了与描述匹配但与数据集中现有样本不同的高质量几何体。

分析:

  • 文本输入下的新颖性: 当使用文本输入时,CLAY 能够生成在数据集中不存在的新颖形状,这表明模型不仅是记忆和重组现有形状,而是真正具备了创造能力。
  • 图像输入下的忠实重构与创新: 对于图像输入,CLAY 能够忠实地重构图像内容,同时引入数据集中不存在的新颖结构组合。例如,图中底部的飞机示例,结合了客机机身、方形进气口和战斗机尾翼,这种设计在训练数据中从未出现过,但 CLAY 仍能准确生成其3D几何体,并与图像高度相似。这展示了 CLAY 在保持输入忠实度的同时进行创造性融合的能力。

6.1.4. MVN 条件的有效性

以下是原文 Figure 12 的结果:

Fig. 12. Geometry generation via single image and multi-view image conditioning with multi-view RGB and normal images generated by Wonder3D. 图 12. 通过单张图像和多视图图像(由 Wonder3D 生成的多视图 RGB 和法线图像)条件进行几何生成。

分析:

  • 单图像条件: 左列展示了使用黑豹头部的单张图像作为条件时,CLAY 生成了一个实心的3D几何体。这表现出 CLAY 在单一输入下的大致形状生成能力。
  • 多视图条件下的精确控制: 右侧图展示了通过 Wonder3D 生成的多视图图像和相应的法线贴图来固化概念,产生了一个具有薄表面的黑豹面具。中间列展示了 CLAY 在这些多视图图像条件(尤其是法线贴图)下的生成结果,它能够忠实而高效地合成出精确的薄表面。这与传统的 NeuS 方法在 Wonder3D 输出上应用(右列)相比,CLAY 的多视图图像条件在指导生成详细3D几何体方面的精度和效率更胜一筹。这强调了多视图法线图作为几何指导的强大作用。

6.1.5. 运行时间

在单块 Nvidia A100 GPU 上,CLAY 的总生成时间约为 45 秒:

  • 形状潜在生成 (shape latent generation):约 4 秒。
  • 潜在解码 (latent decoding):约 1 秒(得益于高效的自适应采样)。
  • 网格处理 (mesh processing):约 8 秒。
  • PBR 生成 (PBR generation):约 32 秒。 这个速度显著快于许多基于 SDS 的优化方法(通常需要数小时)。

6.2. 与最先进 (SOTA) 方法的比较

6.2.1. 定性比较

以下是原文 Figure 13 的结果:

Fig. 13. Comparisons of CLAY vs. state-of-the-art methods on textconditioned generation. From top to bottom: "Mythical creature dragon", Stag deer", "Interstellar warship", "Space rocket", and "Eagle… 图 13. CLAY 与最先进方法在文本条件生成方面的比较。从上到下:“神话生物龙”,“雄鹿”,“星际战舰”,“太空火箭”和“木雕鹰”。

分析:

  • Shap-E: 生成速度快,但几何结构不完整,细节缺失。

  • DreamFusion 和 Magic3D:SDS 优化方法,存在 多头雅努斯问题 (multi-face Janus artifacts),即生成的3D模型在不同视角下可能不一致或出现多个面孔。

  • MVDream 和 RichDreamer: 通过生成多视图图像进行 SDS 优化,生成几何体具有一致性,但表面平滑度不足,且优化时间长。

  • CLAY: 在大约 45 秒内(几何生成5秒,纹理生成40秒)生成高质量3D资产。生成的几何体表面光滑,同时保留了复杂的细节,并且与文本提示的匹配度更高。

    以下是原文 Figure 14 的结果:

    该图像是论文中的示意图,对比展示了CLAY与其他3D生成模型在不同输入下生成多样3D资产(椅子、车辆、龙头、剑)的效果与细节表现。 图 14. CLAY 与其他3D生成模型在不同输入下生成多样3D资产(椅子、车辆、龙头、剑)的效果与细节表现。

    分析:

  • Shap-E: 速度快,但未能准确重建输入图像,导致几何体不完整。

  • Wonder3D: 依赖多视图图像和法线预测,然后进行 NeuS 重建,结果几何体粗糙且不完整,这可能源于多视图输出之间的不一致。

  • One-2-3-45++: 能够高效创建平滑几何体,但缺乏细节,且在复杂对象(如椅子和龙)上未能完全保持对称性。

  • DreamCraft3D: SDS 优化方法,生成高质量输出,但耗时且表面可能不均匀。

  • Michelangelo: 仅生成几何体,渲染时需要手动分配颜色,结果通常是几何质量尚可,但缺乏纹理细节。

  • CLAY: 能够快速生成细节丰富、高质量的几何体,并附带高质量的 PBR 纹理。在图像到3D任务中表现出卓越的忠实度和细节保留能力。

6.2.2. 定量比较

以下是原文 Table 5 的结果: Table 5. Quantitative comparison with state-of-the-art methods.

MethodCLIPCLIPULIP-TULIP-ITime
Text-to-3D(N-T)(I-T)
Shap-E0.17610.20810.1160/~10s
DreamFusion0.15490.17810.0566/~1.5h
Magic3d0.15530.20340.06611~1.5h
MVDream0.17860.22370.13511~1.5h
RichDreamer0.18910.22810.15031~2h
CLAY0.19480.23240.17051~45s
Image-to-3D(N-I)(I-I)
Shap-E0.63150.6971/0.1307~10s
Wonder3D0.64890.722010.1520~4min
DreamCraft3D0.66410.771810.1706~4h
One-2-3-45++0.62710.757410.1743~90s
Michelangelo0.6726110.1899~10s
CLAY0.68480.776910.2140~45s

分析:

  • 文本到3D (Text-to-3D): CLAY 在 CLIP (N-T) (0.1948)、CLIP (I-T) (0.2324) 和 ULIP-T (0.1705) 三项指标上均优于所有基线模型。这意味着 CLAY 生成的3D几何形状和渲染外观与文本提示的对齐度最高。此外,CLAY 的生成时间(约 45 秒)远低于 DreamFusionMagic3DMVDreamRichDreamer(1.5小时到2小时)。
  • 图像到3D (Image-to-3D): CLAY 在 CLIP (N-I) (0.6848)、CLIP (I-I) (0.7769) 和 ULIP-I (0.2140) 三项指标上也全面超越所有基线。这表明 CLAY 在从图像生成3D模型时,无论是几何形状还是渲染外观,都能与输入图像达到最佳对齐。同样,CLAY 的生成速度(约 45 秒)显著快于 Wonder3D(4分钟)、DreamCraft3D(4小时)和 One-2-3-45++(90秒)。

6.2.3. PBR 材质比较

以下是原文 Figure 15 的结果:

Fig. 15. Comparison of rendering results under two distinct lighting conditions. The light probes are displayed at the top-right corner. Our method showcases high-quality rendering with accurate spec… 图 15. 在两种不同光照条件下的渲染结果比较。光照探头显示在右上角。我们的方法展示了高质量的渲染和准确的镜面高光,而 MVDream 缺乏匹配的高光,RichDreamer 则通过将高光建模为固定表面纹理而失去了视图依赖性。

分析:

  • MVDream: 由于没有 PBR 材质,无法完全重现镜面高光 (specular highlights),导致光照效果不真实。
  • RichDreamer: 采用反照率扩散模型 (albedo diffusion model),试图从复杂光照效果中分离反照率。但其高光被建模为在环境光照变化下固定的表面纹理,缺乏视图依赖性,导致高光位置和强度不随视角或光照变化而移动,不真实。
  • CLAY: 忠实地建模 PBR 材质,火箭的金属表面在高光方面表现出与环境光照移动一致的真实感。这验证了将几何生成和纹理生成分离的优势,并强调了 CLAY 在材质真实感方面的卓越能力。

6.2.4. 用户研究

以下是原文 Figure 16 的结果:

该图像是包含四个柱状对比图的图表,展示了不同方法在文本和图像条件下对3D外观和几何生成的性能对比,其中本论文提出的方法在各项指标上均表现优异,尤其是在图像几何生成中表现出91.2%的优势。 图 16. CLAY 与最先进方法的对比用户研究表明,用户在几何和外观生成方面对 CLAY 有强烈偏好。

分析:

  • 文本到3D: 在文本到3D任务中,CLAY 在外观质量上获得了 67.4% 的投票,在几何质量上获得了 78.9% 的投票,均超越了所有竞争对手,包括排名第二的 RichDreamer。值得注意的是,RichDreamer 的优化时间约为 2 小时,而 CLAY 仅为 45 秒。

  • 图像到3D: 在图像到3D任务中,CLAY 在外观质量上获得了 85.4% 的投票,在几何质量上获得了 91.2% 的投票,同样表现出压倒性优势。

    结论: 用户研究结果强有力地支持了 CLAY 在生成几何和外观方面的卓越表现,证明了其在实际应用中能够提供更优质的用户体验和更令人满意的生成结果。

6.3. 示例展示

以下是原文 Figure 8 的结果:

该图像是一个插图,展示了多样化的3D模型样例,涵盖机器人、乐器、武器、交通工具等多种物体,反映了论文CLAY生成高质量3D资产的能力。 图 8. 多样化的3D模型样例,涵盖机器人、乐器、武器、交通工具等多种物体,反映了论文 CLAY 生成高质量3D资产的能力。 分析: 该图展示了 CLAY 生成的3D模型集合,涵盖了从古代工具到未来飞船的广泛物体,以及机器人、乐器、武器、交通工具等多样主题。这些模型具有复杂的细节和纹真的纹理,突出了 CLAY 在生成高质量、多样化3D资产方面的多功能性。

以下是原文 Figure 9 的结果:

该图像是示意图,展示了CLAY模型支持的多种3D资产生成输入方式,包括图像与草图、多视角图像、体素、边界框和稀疏点云。图中以不同3D模型形态直观展现了各输入方式生成的3D结构及其逐步细化过程。 图 9. CLAY 模型支持的多种3D资产生成输入方式,包括图像与草图、多视角图像、体素、边界框和稀疏点云。图中以不同3D模型形态直观展现了各输入方式生成的3D结构及其逐步细化过程。 分析: 该图展示了 CLAY 在不同模态条件下的生成能力。它可以根据图像(真实照片、AI生成概念或手绘草图)生成逼真的几何实体;根据散布的包围盒创建整个城镇或卧室;通过多视图图像可靠地重建3D几何体;从稀疏点云生成细节几何,甚至可用于表面重建。此外,CLAY 还能从相同的体素输入中生成多种形状(例如从粗糙形状生成未来纪念碑或中世纪城堡),展示了其丰富的多样性。最后,它支持从部分可用几何体完成缺失部分,可用于几何补全和编辑(例如改变怪物的身体或将机器人转换为战斗形态)。

以下是原文 Figure 10 的结果:

Fig. 10. Evaluation of the CLAY's ability to alter generated content by incorporating different geometric feature tags in the prompt. We showcase precise controls over the geometry style, in the extr… 图 10. CLAY 模型通过不同几何特征标签调控生成内容的评估。我们展示了对几何风格的精确控制,在极端情况下将消防栓转换为 T 姿态的角色。 分析: 该图展示了 CLAY 在提示词工程 (prompt engineering) 方面的能力。通过在提示词中加入“asymmetric geometry”(非对称几何体),CLAY 成功生成了非对称的桌子和教堂。将提示词从“sharp edges”(尖锐边缘)更改为“smooth edges”(平滑边缘),可以将皮卡丘和狗变成更圆润的形状。对于飞机和坦克等高多边形网格,CLAY 可以生成其低多边形 (low-polygon) 版本。而“complex geometry”(复杂几何体)标签则能促使生成枝形吊灯和沙发等复杂细节。添加“character”(角色)可以将消防栓和邮箱等无生命物体转化为拟人化的形象。这表明训练时应用的特定标注标签能够有效引导模型生成具有所需复杂性和风格的几何体,从而提高了生成形状的质量和特异性。

6.4. 提示词工程 (Prompt Engineering)

除了上述定量和定性结果,论文还通过展示不同提示词对生成结果的影响,进一步验证了 CLAY 的可控性。图10的分析已经涵盖了这部分内容,展示了通过调整提示词(如“非对称几何体”、“尖锐边缘”与“平滑边缘”、“复杂几何体”、“角色”等),CLAY 能够对生成对象的几何风格、细节、对称性乃至概念进行精确的控制和转换。这表明 CLAY 对语义信息的理解非常深入,能够将抽象的语言描述转化为具体的3D几何特征。

7. 总结与思考

7.1. 结论总结

本文介绍了 CLAY,一个大规模、可控的3D生成模型,旨在弥合人类想象力与数字3D创作之间的鸿沟。CLAY 的核心是一个拥有15亿参数的3D原生几何生成器,它结合了多分辨率 VAE 和潜在 DiT,能够直接从多样化的3D几何体中提取丰富的3D先验。为克服3D数据稀缺和质量问题,CLAY 采用了精心设计的几何统一化管线(包括网格重构)和 GPT-4V 辅助的自动标注。在外观生成方面,CLAY 开发了一个多视图材质扩散模型,能够生成2K分辨率的漫反射、粗糙度和金属度 PBR 纹理,使生成的资产可直接用于生产级渲染。

CLAY 作为通用基础模型,通过 LoRA 微调和基于交叉注意力 (cross-attention) 的多种条件控制(包括文本、图像、体素、点云、包围盒、多视图图像等),实现了高度灵活和可控的3D资产创建。全面的定量评估、定性比较和用户研究表明,CLAY 在几何质量、多样性、纹理真实感和生成效率方面均显著优于现有最先进 (state-of-the-art) 方法,极大地降低了3D创作的门槛,使得即使是初学者也能将生动的3D想象变为现实。

7.2. 局限性与未来工作

论文作者指出了 CLAY 存在的以下局限性,并提出了未来的研究方向:

  1. 非端到端流程: CLAY 目前并非完全端到端 (end-to-end) 的模型。几何生成和材质生成是独立的阶段,并且需要额外的步骤,如网格重构 (remeshing) 和 UV 展开 (UV unwrapping)。
    • 未来工作: 探索集成模型架构,将几何和 PBR 材质生成整合起来,并实现自动生成具有一致拓扑 (consistent topology) 的几何体。
  2. 训练数据仍有提升空间: 尽管 CLAY 已在相当大的数据集上训练,但与用于训练 Stable Diffusion 等2D图像数据集相比,3D训练数据的数量和质量仍有改进空间。
    • 未来工作: 随着社区不断扩充更大、更多样化的3D形状数据集及相应的文本描述,CLAY 及类似工作有望在几何生成质量和复杂性上达到新高度。
  3. 复杂组合对象 (composed objects) 的生成挑战: CLAY 在生成由多个对象组成的复杂场景(如“老虎骑摩托车”)时表现出脆弱性,尤其是在仅有文本输入的情况下。这主要归因于缺乏此类组合对象的训练数据和详细的文本描述。
    • 未来工作: 可以通过采用文本到图像到3D (text-to-image-to-3D) 的工作流来缓解这个问题,类似于 Wonder3DOne-2-3-45++ 的方法。
  4. 动态对象生成: 目前 CLAY 主要生成静态3D资产。
    • 未来工作: 探索将 CLAY 扩展到动态对象生成。CLAY 生成结果的质量表明,可能可以对几何体进行语义分割 (semantically partition),从而进一步促进运动和交互,类似于 Singer et al. [2023]Ling et al. [2024] 的工作。

7.3. 个人启发与批判

7.3.1. 个人启发

  1. “数据为王”在3D领域再次显现: CLAY 的成功再次证明了高质量、大规模数据对深度学习模型的重要性。尤其在3D这种复杂的数据模态中,作者通过精心设计的数据处理管线(网格重构、GPT-4V 标注)来克服数据稀缺和质量问题,为后续的大模型训练奠定了基础。这启发我们,在任何新兴领域,数据基础设施的建设和创新与模型架构的创新同等重要。
  2. 解耦策略的有效性: 将复杂的生成任务(如3D资产创建)解耦为几何生成和材质生成两个相对独立的子任务,并分别使用专门优化的大规模模型来解决,是一种非常高效且成功的策略。这允许每个子模块专注于其特定领域的挑战,从而实现整体性能的显著提升。这种“分而治之”的思想在复杂系统设计中具有普适性。
  3. 多模态融合是未来趋势: CLAY 强大的多模态控制能力(文本、图像、体素、点云、包围盒等)极大地提升了模型的实用性和用户体验。它表明,未来的生成模型将不再局限于单一输入模态,而是能够灵活地从多种形式的人类意图中汲取信息,实现更精准、更符合用户需求的生成。
  4. 模型规模与技术进步的良性循环: 论文通过渐进式训练将模型扩展到15亿参数,并取得了显著效果。这表明在适当的架构和数据策略下,增大模型规模依然是提升生成能力的关键路径。同时,Transformer 架构在3D生成领域的强大泛化能力也得到了进一步验证。

7.3.2. 批判与潜在改进

  1. 非端到端流程带来的用户体验和效率挑战: 尽管论文将几何和材质生成解耦,并取得了高质量结果,但非端到端流程意味着用户仍需处理中间步骤,如网格四边形化、UV 展开等。这在一定程度上增加了用户的操作负担,也可能在流程中引入误差。未来的研究需要进一步探索如何真正实现从文本/图像到带 PBR 纹理的优化网格的端到端生成,可能通过联合训练或更复杂的 VAE 结构来编码两者。

  2. “多头雅努斯问题”的深层根源: 论文提到 DreamFusionMagic3D 存在“多头雅努斯问题”,而 CLAY 通过3D原生生成避免了这个问题。然而,这并非意味着完全解决了2D先验在3D中的应用挑战。如果 CLAY 依赖更多2D输入(例如,图像作为主要条件),如何确保3D几何和视图的一致性仍然是需要深入研究的问题。对 CLIPULIP 的依赖也可能引入其自身的偏差。

  3. 复杂组合对象生成能力的瓶颈: 论文明确指出,CLAY 在生成复杂组合对象时仍显脆弱。这不仅仅是数据量的问题,可能也涉及到模型对复杂语义关系和对象间交互的理解能力。当前的 Transformer 结构在处理长文本或复杂指令时可能存在限制。引入更高级的场景图 (scene graph) 或关系推理机制,可能会帮助模型更好地理解和生成由多个物体组成的复杂场景。

  4. 计算资源的需求: 训练15亿参数的模型需要 256A800 GPU 运行 15 天,这对于大多数研究机构和个人来说是巨大的开销。尽管推理速度较快,但模型的开发和迭代成本非常高昂。未来的工作可能需要探索更参数高效的架构或训练方法,以降低大规模3D生成模型的门槛。

  5. 伦理考量: 论文提到了生成虚假或有害内容的可能性。随着3D生成技术日益强大,其伦理影响将愈发显著。除了严格的审查流程和预训练模型带来的风险,如何主动设计模型以避免滥用,并在生成过程中融入透明度 (transparency) 和可解释性 (interpretability) 机制,是整个社区需要共同思考和解决的问题。例如,对生成的3D资产添加数字水印或元数据,以区分真实与生成内容。

    总的来说,CLAY 在3D资产生成领域取得了显著突破,为该领域设定了新的标准。它不仅展示了大规模3D原生模型和精细数据处理的巨大潜力,也为未来的研究指明了明确的方向,尤其是在整合几何与材质、处理复杂场景以及提升效率和可控性方面。

相似论文推荐

基于向量语义检索推荐的相关论文。

暂时没有找到相似论文。