TripoSG: High-Fidelity 3D Shape Synthesis using Large-Scale Rectified Flow Models
TL;DR 精炼摘要
本文提出TripoSG,利用大规模修正流变换器与混合监督训练策略,实现高保真3D网格合成。通过构建包含200万高质量样本的数据管道,显著提升3D形状生成的细节与输入图像对齐度,展现强泛化能力与多样性。
摘要
Recent advancements in diffusion techniques have propelled image and video generation to unprecedented levels of quality, significantly accelerating the deployment and application of generative AI. However, 3D shape generation technology has so far lagged behind, constrained by limitations in 3D data scale, complexity of 3D data processing, and insufficient exploration of advanced techniques in the 3D domain. Current approaches to 3D shape generation face substantial challenges in terms of output quality, generalization capability, and alignment with input conditions. We present TripoSG, a new streamlined shape diffusion paradigm capable of generating high-fidelity 3D meshes with precise correspondence to input images. Specifically, we propose:
- A large-scale rectified flow transformer for 3D shape generation, achieving state-of-the-art fidelity through training on extensive, high-quality data. 2) A hybrid supervised training strategy combining SDF, normal, and eikonal losses for 3D VAE, achieving high-quality 3D reconstruction performance. 3) A data processing pipeline to generate 2 million high-quality 3D samples, highlighting the crucial rules for data quality and quantity in training 3D generative models. Through comprehensive experiments, we have validated the effectiveness of each component in our new framework. The seamless integration of these parts has enabled TripoSG to achieve state-of-the-art performance in 3D shape generation. The resulting 3D shapes exhibit enhanced detail due to high-resolution capabilities and demonstrate exceptional fidelity to input images. Moreover, TripoSG demonstrates improved versatility in generating 3D models from diverse image styles and contents, showcasing strong generalization capabilities. To foster progress and innovation in the field of 3D generation, we will make our model publicly available.
思维导图
论文精读
中文精读
1. 论文基本信息
1.1. 标题
TripoSG: High-Fidelity 3D Shape Synthesis using Large-Scale Rectified Flow Models
1.2. 作者
Yangguang Li, Zi-Xin Zou, Zexiang Liu, Dehu Wang, Yuan Liang, Zhipeng Yu, Xingchao Liu, Yuan-Chen Guo, Ding Liang, Wanli Ouyang, Yan-Pei Cao
1.3. 发表期刊/会议
预印本 (arXiv)
1.4. 发表年份
2025年 (发布于 UTC:2025-02-10T16:07:54.000Z)
1.5. 摘要
图像和视频生成领域由于扩散 (diffusion) 技术的进步取得了前所未有的质量突破,极大地加速了生成式人工智能 (Generative AI) 的部署和应用。然而,三维 (3D) 形状生成技术在数据规模、处理复杂性以及先进技术探索不足方面一直滞后。当前的 3D 形状生成方法在输出质量、泛化能力和与输入条件的对齐方面面临巨大挑战。本文提出了 TripoSG,一种新的流线型形状扩散 (shape diffusion) 范式,能够生成高保真 (high-fidelity) 3D 网格 (meshes),并与输入图像精确对应。具体来说,本文提出:1) 一个用于 3D 形状生成的大规模修正流变换器 (rectified flow transformer),通过在大量高质量数据上进行训练,实现了最先进的 (state-of-the-art, SOTA) 忠实度 (fidelity)。2) 一种结合了符号距离函数 (SDF)、法线 (normal) 和 Eikonal 损失 (eikonal losses) 的混合监督训练策略,用于 3D 变分自编码器 (VAE),实现了高质量的 3D 重建性能。3) 一个数据处理管道 (data processing pipeline),用于生成 200 万个高质量 3D 样本,强调了数据质量和数量在训练 3D 生成模型中的关键作用。通过全面的实验,本文验证了新框架中每个组件的有效性。这些部分的无缝集成使 TripoSG 在 3D 形状生成方面取得了最先进的性能。生成的 3D 形状由于高分辨率能力而展现出增强的细节,并对输入图像表现出卓越的忠实度。此外,TripoSG 展示了从不同图像风格和内容生成 3D 模型时改进的多功能性,显示出强大的泛化能力。为了促进 3D 生成领域的发展和创新,本文将公开模型。
1.6. 原文链接
https://arxiv.org/abs/2502.06608 PDF 链接: https://arxiv.org/pdf/2502.06608v3.pdf 发布状态:预印本 (Preprint)
2. 整体概括
2.1. 研究背景与动机
当前,图像和视频生成技术在扩散 (diffusion) 模型的推动下取得了显著进展,但三维 (3D) 形状生成领域仍面临多重挑战。主要制约因素包括:
-
3D 数据稀缺与复杂性:高质量、大规模的 3D 数据集相对匮乏,且 3D 数据处理本身就比 2D 数据复杂。
-
技术探索不足:3D 领域对先进生成技术的探索,特别是大型流模型 (large-scale flow models) 的应用,不如 2D 领域充分。
-
现有方法局限:
- 基于重建的方法 (reconstruction-based methods):通常依赖于回归 3D 模型,容易在多视角一致性和遮挡区域产生伪影 (artifacts) 和不一致性。
- 基于扩散的方法 (diffusion-based methods):虽然是生成式模型,但多依赖于占用率 (occupancy) 表示,需要额外的后处理来缓解锯齿 (aliasing) 效应,并且缺乏精细的几何细节。此外,标准的扩散架构和采样策略在 3D 模型质量和与输入图像的对齐方面表现不佳。
-
数据依赖性:现有方法严重依赖
Objaverse数据集,且需要大量过滤,导致可用数据规模受限。这些挑战共同导致 3D 形状生成在输出质量、泛化能力和与输入条件精确对齐方面与 2D 领域存在明显差距。本文旨在通过提出 TripoSG,回答“生成高保真 3D 模型并精确对齐输入条件的最优范式是什么?”这一核心问题。
2.2. 核心贡献/主要发现
TripoSG 针对上述挑战,提出了一个新颖的框架,其主要贡献和发现包括:
- 大规模修正流变换器 (Large-scale Rectified Flow Transformer):首次将修正流变换器架构引入 3D 形状生成领域。该模型在训练稳定性、收敛速度和最终生成质量方面表现出卓越性能,特别是在大规模高质量数据上训练后,实现了最先进的忠实度。
- 混合监督 3D 变分自编码器 (Hybrid Supervised 3D VAE):
- 采用符号距离函数 (SDF) 作为 3D 形状表示,相比占用率表示能提供更强的几何细节。
- 提出了一种结合 SDF 损失 (SDF loss)、表面法线损失 (surface normal loss) 和 Eikonal 正则化 (eikonal regularization) 的混合监督训练策略,显著提升了 3D 模型重建性能,生成更锐利、更精确的几何结构,有效连接了潜在空间 (latent space) 和 3D 模型空间。
- 高质量 3D 数据构建系统 (High-Quality 3D Data-Building System):
- 开发了一个复杂的 3D 数据处理管道,能够从
Objaverse和ShapeNet等多样化来源生成 200 万个标准化、高质量的 3D 训练样本 (图像-SDF 对)。 - 强调了数据质量和数量在训练 3D 生成模型中的关键作用,并实验证明不当处理的数据会严重阻碍训练过程。
- 开发了一个复杂的 3D 数据处理管道,能够从
- 模型扩展策略 (Model Scaling-up Strategy):成功将模型参数从 1.5B 扩展到 4B,并将潜在分辨率 (latent resolution) 提升至 4096 词元 (tokens),利用了混合专家 (Mixture-of-Experts, MoE) 架构和分辨率依赖的时间步调整等技术。
- 最先进的性能:通过上述组件的无缝集成,TripoSG 在 3D 形状生成方面实现了最先进的性能,生成的 3D 形状展现出增强的细节、对输入图像的卓越忠实度,并对多样化的图像风格和内容表现出强大的泛化能力。
3. 预备知识与相关工作
3.1. 基础概念
3.1.1. 扩散模型 (Diffusion Models)
扩散模型是一类生成模型,它通过模拟一个逐渐向数据添加噪声的“前向扩散过程”,然后学习一个“逆向去噪过程”来生成新的数据样本。在前向过程中,模型将数据逐渐转化为高斯噪声;在逆向过程中,模型学习如何从噪声中恢复数据。其核心思想是,只要能准确预测噪声,就可以一步步地将噪声转化为有意义的数据。
3.1.2. 修正流 (Rectified Flow)
修正流 (Rectified Flow, RFlow) 是一种连续的生成模型,它旨在学习从简单的噪声分布(如标准高斯分布)到复杂数据分布的直接、线性轨迹。与传统的扩散模型(如 DDPM 或 EDM)可能学习复杂弯曲轨迹不同,修正流通过学习一个向量场 (vector field),使得数据点和噪声点之间存在一条直线路径。这使得训练更加高效和稳定,采样过程也更直接。在本文中,Rectified Flow 被用于将图像条件下的噪声潜在表示 (latent representation) 直接映射到 3D 形状的潜在表示。
3.1.3. 变换器 (Transformer)
变换器 (Transformer) 是一种基于自注意力 (self-attention) 机制的神经网络架构,最初用于自然语言处理 (NLP) 任务,后被广泛应用于计算机视觉等领域。它通过并行处理输入序列中的所有元素,并计算它们之间的相互依赖关系来捕捉长距离依赖性,从而在处理序列数据时表现出色。其核心组件是多头自注意力 (Multi-Head Self-Attention) 和前馈网络 (Feed-Forward Network, FFN)。
3.1.4. 变分自编码器 (Variational AutoEncoder, VAE)
变分自编码器 (VAE) 是一种生成模型,由编码器 (Encoder) 和解码器 (Decoder) 两部分组成。编码器将输入数据(如 3D 形状)压缩成一个潜在空间 (latent space) 中的概率分布(通常是高斯分布的均值和方差),而不是一个单一的潜在向量。解码器则从这个潜在分布中采样一个向量,并将其解码回原始数据空间。VAE 的目标是学习一个能够有效压缩和重建数据的潜在表示,同时确保潜在空间具有良好的连续性和可采样性。在本文中,VAE 用于将 3D 形状编码为紧凑的潜在表示,并从潜在表示中解码出 3D 形状的符号距离函数 (SDF)。
3.1.5. 符号距离函数 (Signed Distance Function, SDF)
符号距离函数 (SDF) 是一种用于表示 3D 形状的隐式几何表示 (implicit geometric representation)。对于 3D 空间中的任意一点 ,SDF 给出该点到形状表面的最短距离,并根据该点是在形状内部还是外部来赋予正负号。通常,形状表面的 SDF 值为零,形状内部为负值,形状外部为正值。SDF 相比于占用率 (occupancy) 栅格或点云 (point cloud) 等表示方法,能够更精确地捕捉精细的几何细节,并避免锯齿 (aliasing) 伪影,因为它是一个连续函数。
3.1.6. 混合专家 (Mixture-of-Experts, MoE)
混合专家 (MoE) 是一种神经网络架构设计,旨在提高模型容量和性能,同时保持计算效率。它通过在模型中集成多个“专家”网络(通常是前馈网络 FFN)来实现。对于每个输入,一个门控网络 (gating network) 会学习性地选择并激活其中的一小部分专家(例如,Top-K 专家)来处理输入。这种稀疏激活 (sparse activation) 使得模型在参数量巨大的情况下,其推理时的计算成本可以远低于相同参数量的密集模型。
3.1.7. CLIP (Contrastive Language–Image Pre-training)
CLIP 是一种由 OpenAI 提出的多模态模型,通过对比学习 (contrastive learning) 在大量图像-文本对上进行训练。它能够将图像和文本编码到同一个联合嵌入空间 (joint embedding space) 中,使得语义相关的图像和文本具有相似的嵌入。在本文中,CLIP-ViT-L/14 被用于提取图像的全局特征 (global image features),作为 3D 生成模型的条件输入。
3.1.8. DINOv2
DINOv2 是 Facebook AI (Meta) 提出的一种自监督视觉特征提取器。它通过无监督学习在大规模图像数据集上进行训练,能够提取高质量、鲁棒的图像特征,这些特征在各种下游视觉任务中表现出色。与 CLIP 不同,DINOv2 专注于学习通用的视觉表示而无需文本监督。在本文中,DINOv2-Large 被用于提取图像的局部特征 (local image features),与 CLIP 的全局特征一起作为 3D 生成模型的条件输入。
3.2. 前人工作
3.2.1. 2D 图像与视频生成模型
- SD3 (Esser et al., 2024), FLUX (blackforestlabs, 2024), Sora (Brooks et al., 2024): 这些模型代表了 2D 图像和视频生成领域的最新进展,它们利用大型视觉数据集和扩散技术,能够从文本或其他条件输入生成高质量、逼真的视觉内容。TripoSG 的动机之一便是将 2D 领域取得的成功复制到 3D 领域。
3.2.2. 3D 生成方法分类
3.2.2.1. 将 2D 先验提升至 3D 建模 (Lifting 2D Prior to 3D Modeling)
这类方法利用强大的 2D 扩散模型作为先验知识来指导 3D 模型的生成。
- DreamFusion (Poole et al., 2023): 开创性工作,通过得分蒸馏采样 (Score Distillation Sampling, SDS) 方法,使用 2D 图像扩散先验迭代优化 3D 表示(如神经辐射场 NeRF),实现文本到 3D 生成。
- 后续改进:包括 3D 表示(如
neural implicit field)、采样策略、几何线索整合以及多视角图像生成一致性 (multi-view image generation consistency) 等方面的改进。例如:ImageDream(Wang & Shi, 2023b),MVDream(Shi et al., 2024)。 - 快速 3D 生成:一些方法通过生成多视角一致的图像,或结合法线/深度信息,直接通过像素级损失优化 3D 模型,从而实现分钟级的 3D 生成 (e.g.,
Wonder3D(Long et al., 2024),ERA3D(Li et al., 2024b))。 - 局限性: 这些方法虽然强大,但通常需要耗时的优化过程(几分钟到几小时),且多视角图像间的不一致性仍可能导致重建质量下降,未观测区域可能模糊。
3.2.2.2. 大规模 3D 重建模型 (Large 3D Reconstruction Modeling)
这类方法旨在通过确定性 (deterministic) 的网络架构(如编码器-解码器)从输入图像中快速重建 3D 几何结构,通常在秒级完成。
- 表示类型: 利用各种 3D 表示,如点云 (point cloud)、体素 (voxel)、网格 (mesh) 或隐式场 (implicit field)。
- LRM (Hong et al., 2023) 及其变体:
Large Reconstruction Model利用Objaverse(-XL)数据集和Transformer架构,极大地推动了基于重建的方法发展。其他变体包括TripoSR(Tochilkin et al., 2024),MeshLRM(Wei et al., 2024),CRM(Wang et al., 2024),InstantMesh(Xu et al., 2024)。 - MeshFormer (Liu et al., 2024a): 结合稀疏
UNet和Transformer层,实现了令人印象深刻的重建质量。 - One-2-3-45 (Liu et al., 2023a): 结合 2D 图像扩散模型和多视角重建模型,实现快速生成。
- 局限性: 尽管速度快,但这些方法本质上是“重建”而非“生成”,其质量上限受限于输入图像所能提供的信息。不同视角输入图像间的不一致性以及未观测区域仍是挑战。
3.2.2.3. 3D 扩散建模 (3D Diffusion Modeling)
直接在 3D 表示上训练扩散模型。
- 早期工作: 在体素 (voxel)、点云 (point cloud)、三平面 (triplane) 或占用率/SDF 栅格 (Occupancy/SDF grid) 等 3D 表示上训练扩散模型 (e.g.,
SDFusion(Hui et al., 2022))。 - 基于 VAE 的方法: 使用 VAE 将原始 3D 表示压缩到紧凑的潜在空间,然后在这个潜在空间上训练扩散模型 (e.g.,
3DShape2VecSet(Zhang et al., 2023),SDFusion(Cheng et al., 2023))。 - 大规模 3D 扩散模型: 近期随着高质量 3D 数据集的出现,一些工作尝试在大量 3D 模型上训练潜在 3D 扩散模型,并展示了令人印象深刻的 3D 生成结果 (e.g.,
Craftsman(Li et al., 2024c),Direct3D(Wu et al., 2024b),CLAY(Zhang et al., 2024b))。 - 局限性: 长期以来,这类方法由于缺乏大规模高质量 3D 数据集而难以与上述两类方法匹敌,多在简单数据集 (如
ShapeNet) 上训练,生成能力和效果有限。即使是近期的大规模模型,在高保真生成和图像对齐方面仍有局限。
3.3. 差异化分析
TripoSG 的创新性体现在以下几个方面,使其与上述相关工作区分开来:
-
修正流变换器架构 (Rectified Flow Transformer):与
DDPM或EDM等传统扩散采样策略不同,TripoSG 首次在 3D 生成中采用修正流。修正流学习线性轨迹,在训练效率和稳定性上具有优势,并借鉴了 2D/视频领域 (如SD3,FLUX) 的成功经验,将其扩展到 3D,通过更大规模的Transformer(4B 参数) 和更高潜在分辨率 (4096 词元) 实现了 SOTA 忠实度。 -
增强型 VAE 监督 (Enhanced VAE Supervision):
- SDF 表示:放弃了
Occupancy,而是使用SDF作为核心 3D 表示,以避免量化误差和锯齿效应,提供更精细的几何细节。 - 混合损失:引入了独特的混合监督策略,结合了 SDF 损失、表面法线损失和 Eikonal 正则化。这使得 VAE 能够捕捉更高阶的几何信息(梯度域),从而在重建薄结构和尖锐细节方面超越了单纯使用 SDF 或占用率的方法。
- SDF 表示:放弃了
-
端到端数据构建系统 (End-to-End Data-Building System):
- 针对
Objaverse等现有 3D 数据集质量参差不齐的问题,TripoSG 提出了一个全面的数据处理管道(数据评分、过滤、修复和增强、场数据生产),从源头上保证了训练数据的高质量和标准化。这解决了现有 3D 扩散模型普遍面临的数据瓶颈,并强调了数据质量与数量的关键作用,而非简单地使用原始大规模数据。
- 针对
-
图像条件注入策略 (Image Conditioning Injection Strategy):
- 不同于
Michelangelo仅使用全局特征或CLAY通过交叉注意力注入图像信息但计算成本高昂且可能受文本条件限制,TripoSG 同时利用CLIP提取的全局图像特征和DINOv2提取的局部图像特征。这些特征通过独立的交叉注意力机制在每个流块中同时注入,实现了更快的训练收敛和更强的细节一致性。
- 不同于
-
可扩展性 (Scalability):通过 VAE 的多分辨率训练和
MoE架构,TripoSG 成功地将模型规模和潜在分辨率提升到前所未有的水平(4B 参数,4096 词元),同时通过MoE维持了推理效率。综上,TripoSG 不仅仅是简单地将 2D 扩散技术应用于 3D,而是在 3D 领域的数据处理、表示选择、模型架构和训练策略上进行了多方面的深度创新和优化,从而实现了性能的显著飞跃。
4. 方法论
本节将详细阐述 TripoSG 框架,该框架包含三个主要部分:基于流的生成架构和采样调度、扩展策略以及 VAE 架构和监督。
4.1. 修正流变换器 (Rectified Flow Transformer)
TripoSG 的 VAE (将在 4.3 节详细描述) 经过大规模数据集的训练,能够将任意 3D 形状编码为多尺度的潜在表示 ,其中 代表潜在词元 (latent tokens) 的数量, 代表每个词元的通道数 (channels)。VAE 还能将这些潜在表示解码回 3D 网格。借鉴 LDM (Rombach et al., 2022) 和 3DShape2VecSet (Zhang et al., 2023) 等模型,TripoSG 在这些潜在表示上进一步训练了一个修正流 (rectified flow) 模型,目标是在图像控制条件下生成高质量、语义一致的 3D 形状。
4.1.1. 图像到 3D 流架构 (Image-to-3D Flow Architecture)
TripoSG 的流架构受到了 DiT (Peebles & Xie, 2023) 和 3DShape2VecSet (Zhang et al., 2023) 的启发,采用标准变换器块 (transformer blocks) 构建骨干网络。
4.1.1.1. 骨干网络与跳跃连接 (Backbone and Skip-Connections)
为了解决简单堆叠变换器块导致的信息融合不足问题,本文借鉴 U-ViT (Bao et al., 2023) 和 UNet 结构,引入了长跳跃残差连接 (long skip residual connections)。这增强了网络捕获全面特征信息的能力,提升了表示容量。
如下图所示 (图像 6,左侧部分),骨干网络分为编码器块 (encoder blocks)、中间块 (middle block) 和解码器块 (decoder blocks)。编码器和解码器具有相同数量的 个块。每个编码器块通过跳跃连接连接到其对应的解码器块。具体地,第 个编码器块的输出连接到第 (N-i) 个解码器块的输出。
流骨干网络由 个变换器块组成,块之间有残差连接。在 TripoSG 中,,隐藏维度 ,每个变换器块有 16 个注意力头 (attention heads)。整个流架构包含约 15 亿参数。
跳跃连接的计算方式如下:
- : 第
(N-i)个解码器块的输出特征。 - : 第
(N-i)个解码器块的操作。 - : 前一个解码器块的输出特征。
- : 第 个编码器块的操作。
- : 前一个编码器块的输出特征。
- : 编码器/解码器块的数量。
- : 块的索引。
4.1.1.2. 时间步和图像条件注入 (Timestep and Image Conditioning Injection)
为了实现可控的 3D 生成,TripoSG 设计了一种方法来注入时间步 (timestep) 和图像条件 (image conditioning)。
-
时间步条件 (Timestep Conditioning): 对于时间步 ,首先使用
diffusers库 (von Platen et al., 2022) 中的Timesteps层进行编码,然后通过一个 MLP 层将其投影到隐藏维度 ,得到一个 的特征。 输入的潜在表示 (维度为 ) 经过 VAE 编码后,通过一个 MLP 投影到隐藏维度 ,产生一个 的特征。 借鉴Michelangelo(Zhao et al., 2024) 和CLAY(Zhang et al., 2024b) 的设计,将时间步特征和潜在表示 的特征进行拼接,得到一个 的特征,然后送入流骨干网络。 -
图像条件 (Image Conditioning): 传统的
Michelangelo方法通过将CLIP提取的全局特征与输入潜在表示 进行拼接来实现图像条件。然而,这种基于拼接的全局特征注入会导致生成 3D 形状时缺乏精细控制。CLAY方法则使用交叉注意力 (cross-attention) 机制注入图像信息,但其训练成本高昂,且图像信息更新可能受限,导致精细一致性不足。此外,从渲染图像生成的标题可能因光照、阴影和纹理引入语义鸿沟。TripoSG 的方法是直接利用
CLIP-ViT-L/14(Radford et al., 2021) 提取全局图像特征 ,并利用DINOv2-Large(Oquab et al., 2023) 提取局部图像特征 。在每个流块中,全局和局部特征通过独立的交叉注意力机制同时注入。然后将这些输出与原始输入结合,传递到下一阶段。这种方法允许模型在每个块中同时关注全局和局部图像信息,加速训练收敛,同时保持生成的 3D 模型与输入图像之间强大的细节一致性。
流架构中每个块的计算过程可以表示为以下公式: 首先,将潜在表示 和时间步 拼接:
-
: 拼接后的特征,是每个块的输入和输出。
-
: 来自 VAE 的潜在表示。
-
: 时间步嵌入。
-
: 拼接操作。
然后,进行自注意力操作:
-
: 自注意力机制。
-
: 归一化操作。
接下来,进行两个独立的交叉注意力操作,分别注入局部和全局图像特征:
-
: 交叉注意力机制。
-
:
DINOv2提取的局部图像特征。 -
:
CLIP提取的全局图像特征。最后,通过前馈网络 (FFN):
-
: 前馈网络。
4.1.2. 基于修正流的生成 (Rectified Flow Based Generation)
TripoSG 训练 3D 生成模型时探索了多种采样策略,最终选择了修正流 (Rectified Flow) 作为最终生成模型的策略。
-
DDPM (Denoising Diffusion Probabilistic Models):
DDPM利用马尔可夫链 (Markov chain) 在高斯噪声空间和数据分布之间建立连接。噪声 逐渐添加到数据 中,将其转换为标准高斯分布。在任何时间步 的数据样本 可以表示为:- : 时间步 的数据样本。
- : 原始数据样本。
- : 标准高斯噪声。
- : 累积衰减系数。
- : 衰减系数。
- : 预定义的噪声调度参数。
从插值角度看,
DDPM建模的是从 到 的相对复杂的弯曲轨迹。
-
EDM (Elaborate Diffusion Models):
EDM重新设计了噪声调度和采样方法,采用连续时间框架以提高DDPM的采样速度和生成质量。在任何时间步 的数据样本 使用原始数据 和噪声 建模如下:- : 时间步 的数据样本。
- : 原始数据样本。
- : 标准高斯噪声。
- : 连续噪声标准差函数,允许更灵活的噪声调度策略(如幂律形式)。
EDM提供了比DDPM更简化的 建模方法,但从插值角度看,它也建模的是从 到 的弯曲轨迹。
-
修正流 (Rectified Flow): 为了探索更简单的线性轨迹建模过程,本文采用了修正流。它学习一个向量场 (vector field) 将噪声分布映射到数据分布。在任何时间步 的数据样本 使用原始数据 和噪声 建模如下:
- : 时间步 的数据样本。
- : 原始数据样本。
- : 标准高斯噪声。
- : 时间步,通常在
[0, 1]之间。 这表示一个更简单的线性轨迹,相较于DDPM和EDM提供了更高效和流线型的方法。修正流的线性采样简化了网络训练,使其更高效和稳定。
-
Logit-Normal 采样 (Logit-Normal Sampling): 借鉴
SD3的logit-normal采样,TripoSG 增加了中间时间步的采样权重,因为在Rectified Flow训练中,对范围 中间 值的预测更具挑战性。采样权重通过以下公式调整:- : 在给定参数 和 下,时间步 的
logit-normal分布概率密度。 - : 偏置位置参数 (biasing location parameter),控制分布的中心。
- : 分布宽度参数 (distribution width parameter)。
- :
logit变换,将[0,1]区间映射到实数轴。
- : 在给定参数 和 下,时间步 的
-
分辨率依赖的时间步调整 (Resolution-Dependent Shifting of Timestep): 众所周知,更高的分辨率需要更多的噪声才能充分扰乱信号。随着分辨率的增加,相同时间步的加噪声潜在表示 (noised latent) 中的不确定性会降低。因此,借鉴
SD3,引入分辨率依赖的时间步调整,以在训练和采样期间调整时间步,保持与原始分辨率相同的不确定性水平。 定义渐进训练第一阶段的分辨率为基准分辨率 ,其时间步表示为 。后续阶段的分辨率为微调分辨率 ,其时间步表示为 。 和 之间的关系通过以下公式表达:- : 微调分辨率下的时间步。
- : 基准分辨率下的时间步。
- : 微调阶段的潜在分辨率(例如,更高分辨率)。
- : 基准阶段的潜在分辨率。
通过结合修正流、
logit-normal采样和分辨率依赖的时间步调整,TripoSG 训练其 3D 流模型。
4.2. 模型和分辨率扩展策略 (Model and Resolution Scale-up Strategy)
为了生成更好的结果,TripoSG 旨在扩展潜在分辨率和模型尺寸,同时最小化训练和推理成本。具体而言,它将潜在分辨率从 2048 词元增加到 4096 词元,并将模型参数从 1.5B 扩展到 4B,通过使用混合专家 (MoE) 架构。
4.2.1. 潜在分辨率扩展 (Latent Resolution Scaling)
VAE 训练中不包含额外的位置编码 (positional encoding),且用于学习潜在表示的查询点数量是从固定表面点集中降采样而来,这使得 VAE 能够泛化到训练集之外的分辨率。增加查询点数量(即潜在分辨率)可以提高建模能力。这种外推能力使得无需重新训练 VAE,可以直接使用在 分辨率上训练的 VAE 在 4096 分辨率下进行编码和解码。通过这种方式直接增加潜在分辨率到 4096,为流模型提供了更精细的几何潜在表示进行训练。
4.2.2. RMSNorm (Root Mean Square Layer Normalization)
为了缓解混合精度训练中可能出现的不稳定训练和潜在损失发散,(Dehghani et al., 2023) 建议在注意力操作之前对查询 (Query, Q) 和键 (Key, K) 进行归一化。遵循此方法,在流架构中更高分辨率的微调期间,TripoSG 在变换器块内对 Q 和 K 应用可学习的 RMSNorm (Zhang & Sennrich, 2019) 进行归一化。
4.2.3. 混合专家 (Mixture-of-Experts, MoE)
直接扩展密集模型会显著增加计算资源需求和推理延迟。TripoSG 选择使用混合专家 (MoE) 架构进行扩展。这种方法不仅通过增加模型参数来提升性能,而且由于网络在推理过程中的稀疏激活,能够保持几乎恒定的资源使用和推理延迟。
如图像 6 (右侧部分) 所示,并借鉴先前工作 (Fei et al., 2024; Riquelme et al., 2021),TripoSG 使用 MoE 方法扩展了变换器块中的前馈网络 (FFN)。
- FFN 替代: 传统的密集网络中只有一个 FFN 模块,而 MoE 使用 个并行的 FFN 专家模型,由门控模块 (gating module) 控制,以扩展模型参数。
- 词元路由: 长度为 的潜在表示 ,其词元 (token-wise) 根据 Top-K 概率由门控模块分配给不同的 FFN 专家,然后重新拼接以恢复原始长度 。
- 共享专家与负载均衡: 借鉴
DiT-MoE(Fei et al., 2024) 的方法,TripoSG 保留了一个共享专家来捕获通用知识,并选择 Top-2 专家激活。此外,使用辅助损失 (auxiliary loss) 来平衡专家路由,减少冗余。 - 专家结构: FFN 专家使用基础模型的 FFN 架构 (带有 GELU 激活的两层 MLP)。
- 初始化:
MoE模型不是从头开始训练,而是从基础模型初始化,其中每个块中多个 FFN 专家的权重继承自基础模型中对应的 FFN 权重。 - 有针对性的应用: 由于浅层 (shallow layers) 关注通用特征,深层 (deeper layers) 捕获更具体的对象细节 (Zeiler & Fergus, 2014),TripoSG 将
MoE应用限制在解码器的最后六层,这些层对深层特征建模至关重要。 在MoE的作用下,公式中的 FFN 操作修改为以下新公式,表示将归一化后的 传递给多个 FFN 专家,然后将它们的输出拼接起来: - : 归一化后的特征输入到 FFN 专家。
- : 归一化操作。
- : 拼接操作。
- : 第 个前馈网络专家。
- : 专家模型的总数量 (在 TripoSG 中使用 8 个专家)。
在 TripoSG 的
MoE扩展中,使用了 8 个专家模型,每个MoE块激活 Top-2 FFN 专家,同时共享一个 FFN。此外,MoE扩展应用于解码器的最后 6 层,将总模型参数从 1.5B 增加到约 4B。
4.3. 3D 变分自编码器 (3D Variational Autoencoder, VAE)
4.3.1. 3D 模型表示 (3D Model Representation)
大多数现有的 3D 形状生成工作 (Li et al., 2024c; Zhang et al., 2024b) 采用占用场 (occupancy field) 或半连续占用 (semi-continuous occupancy) 作为 3D 模型的神经隐式表示 (neural implicit representation)。这些方法对于每个查询位置 ,使用神经网络 预测占用值 (从潜在特征 获得),并通过二元交叉熵 (Binary Cross Entropy, BCE) 损失与真实占用值 进行监督:
-
: 预测的占用值。
-
: 神经网络。
-
: 3D 空间中的查询位置。
-
: 潜在特征。
-
: 真实占用值。
-
: 损失函数。
-
: 在 3D 空间中所有查询位置上的期望。
-
: 二元交叉熵损失。
通过占用表示学习几何作为分类任务,相比于作为回归任务的符号距离函数 (SDF) 更易于训练和收敛。然而,占用表示的几何表示能力有限,而 SDF 提供更精确和详细的几何编码。此外,使用占用表示重建的模型常出现明显的锯齿伪影 (aliasing artifacts),通常需要后处理 (如平滑滤波或超采样) 来解决。如果没有后处理,这些伪影有时还会影响后续的纹理生成。图像 8 展示了基于占用和 SDF 的几何重建和纹理生成结果的对比。
鉴于这些考虑,TripoSG 采用神经 SDF (neural SDF) 作为 3D 模型表示。这种方法建立在一组潜在词元 (latent tokens) 之上,提供了比基于占用的方法更强的几何细节。具体而言,预测每个查询位置的 SDF 值 如下:
- : 预测的 SDF 值。
- : 神经网络。
- : 3D 空间中的查询位置。
- : 潜在特征。 为提高效率,VAE 模型中使用截断符号距离函数 (Truncated Signed Distance Function, TSDF)。
4.3.2. 表面法线引导的几何学习 (Geometry Learning With Surface Normal Guidance)
SDF 表示理论上确保了神经隐式场 (neural implicit field) 梯度域监督的有效性。几何细节与神经隐式场的梯度域相关,这代表了比隐式场值域更高阶的信息。因此,TripoSG 在 VAE 训练期间应用表面法线引导 (surface normal guidance),以捕捉更精细的几何细节,为模型采样提供更好的潜在空间。 除了常用的 SDF 损失外,TripoSG 还包括对精细几何学习的直接监督,使用了真实表面法线 (ground-truth surface normals) 和额外的 Eikonal 正则化 (eikonal regularization)。
VAE 的总损失函数 结合了 SDF 损失、表面法线损失、Eikonal 正则化和 KL-正则化:
-
: VAE 的总损失。
-
: SDF 损失。
-
: 表面法线损失 的权重。
-
: 表面法线损失。
-
: Eikonal 正则化 的权重。
-
: Eikonal 正则化。
-
: KL-正则化 的权重。
-
: 潜在空间中的 KL-正则化损失。
SDF 损失 结合了 L1 损失和 L2 损失,用于衡量预测 SDF 值 与真实 SDF 值 之间的差异:
-
: 预测的 SDF 值。
-
: 真实的 SDF 值。
-
: 绝对值。
-
: L2 范数的平方。
表面法线损失 衡量预测 SDF 梯度方向(表示表面法线)与真实表面法线 之间的一致性:
-
: 预测 SDF 函数 对空间位置 的梯度,其方向表示表面法线。
-
: 梯度的 L2 范数,用于归一化梯度向量。
-
: 归一化后的预测表面法线。
-
: 真实的表面法线。
-
: 两个向量的余弦相似度(点积),表示它们方向的一致性。 使得损失在法线完全对齐时最小。
Eikonal 正则化 强制 SDF 函数的梯度范数接近 1,这是 SDF 的一个重要性质,有助于确保 SDF 场的有效性:
-
: 预测 SDF 函数对空间位置 的梯度。
-
: 一个所有分量都为 1 的向量(与梯度维度相同)。
-
: L2 范数的平方。
与 SDF 损失不同,SDF 损失需要采样表面附近和空间中的随机点,而表面法线损失仅应用于表面点,使其成为监督精细几何学习的更有效方法。
4.3.3. 网络架构 (Network Architecture)
遵循 3DShape2VecSet (Zhang et al., 2023) 的设计,TripoSG 选择潜在向量集 (latent vector set) 作为潜在表示,它将点云编码到潜在空间,然后从中解码几何函数 (即 SDF)。为了更有效地扩展,TripoSG 采用了一种最先进的基于变换器的编码器-解码器架构 (Zhang et al., 2023; 2024b; Zhao et al., 2024)。
具体来说,它使用 3DShape2VecSet 中降采样 (downsampled) 的版本,从完整的表面点集 中子采样 个点 ,并直接将点云本身用作初始潜在查询,而不是可学习的嵌入。然后,通过拼接位置嵌入 (positional embedding) 和表面法线编码的表面点信息通过交叉注意力集成到潜在查询中,从而得到富含几何信息的紧凑潜在词元 。
编码器部分的计算过程如下: 首先,通过交叉注意力层,将全表面点 的位置嵌入与子采样点 的位置嵌入进行融合,生成初始潜在查询 :
-
: 初始潜在查询。
-
: 交叉注意力层。
-
: 位置嵌入函数。
-
: 全表面点集。
-
: 从 中子采样的 个点。
然后,这些初始潜在查询 经过一系列自注意力层和线性层,生成最终的潜在表示 :
-
: 最终的紧凑潜在词元,富含几何信息。
-
: 线性层。
-
: 第 个自注意力层。
-
: 编码器中的自注意力层数量。
获得潜在表示 后,可以解码每个查询位置 的符号距离值。 解码器部分的计算过程如下: 首先,潜在表示 经过一系列自注意力层和线性层,生成用于解码的精炼潜在表示 :
-
: 精炼后的潜在表示。
-
: 解码器中的自注意力层数量。
最后,通过交叉注意力层,将查询位置 的位置嵌入与精炼后的潜在表示 进行融合,生成该查询位置的 SDF 值 :
-
: 预测的 SDF 值。
最终,可以通过在给定分辨率下应用
Marching Cubes(Lorensen & Cline, 1987) 算法提取 3D 模型的网格。
为了实现更快收敛的渐进式流模型训练,TripoSG 遵循 (Zhang et al., 2024b) 采用了多分辨率 VAE,其 词元共享 VAE 权重。这种训练策略,结合 VAE 变换器无位置编码的特性,赋予 VAE 强大的外推能力,使其能够直接推断更高分辨率 (如 4096) 词元的 3D 模型而无需额外微调。与以往工作仅使用少量表面点 (2048 或 8192 点) 作为 VAE 输入不同,TripoSG 为每个 3D 模型使用了更密集的表面点。这是因为 VAE 的目标是捕获尽可能多的 3D 模型几何信息,而非稀疏点云重建,因此提供更多输入点能编码更多几何信息,从而解码出更高质量的几何结构。
4.4. 数据构建系统 (Data-Building System)
TripoSG 在现有开源数据集如 Objaverse(-XL) (Deitke et al., 2023; 2024) 和 ShapeNet (Chang et al., 2015) 上进行训练,这些数据集包含大约 1000 万个 3D 数据。由于大部分数据来源于互联网,质量差异很大,需要大量的预处理才能用于训练。为了克服这些挑战,TripoSG 开发了一个专门的 3D 数据处理系统,用于生产高质量、大规模的模型训练数据集。
如图像 9 所示,该系统包含四个处理阶段 (数据处理 I ~ IV),分别负责数据评分、过滤、修复和增强以及场数据生产。
4.4.1. I: 数据评分 (Data Scoring)
每个 3D 模型都会被评分,只有高分模型才能进入后续处理阶段。
- 人工标注: 随机选择约 10K 个 3D 模型,使用
Blender渲染每个模型的四个不同视角的法线贴图 (normal maps)。10 名专业 3D 建模师手动评估这些多视角法线贴图,评分范围为 1 (最低) 到 5 (最高)。 - 模型训练: 利用这些标注数据,训练一个基于线性回归的评分模型。该模型的输入是
CLIP(Radford et al., 2021) 和DINOv2(Oquab et al., 2023) 特征的拼接。 - 自动评分: 该模型随后用于推断所有 3D 模型的多视角法线贴图的质量分数,以便进行过滤。
4.4.2. II: 数据过滤 (Data Filtering)
评分后,进一步过滤掉具有大型平面基底 (large planar bases)、动画渲染错误 (rendering errors in animations) 以及包含多个对象 (multiple objects) 的模型。
- 大型平面基底: 通过判断不同表面片 (surface patches) 是否可归类为单个平面来过滤,判断依据是它们的质心位置、法向量和由此产生的平面面积。
- 动画渲染错误:
Blender识别动画模型,将其设置为第一帧,并过滤掉在设置后仍显示渲染错误的任何模型。 - 多对象模型: 通过评估最大连通分量 (largest connected component) 在不透明遮罩 (opaque mask) 上的比例,以及最大连通分量和整个遮罩的实心度 (solidity) 大小来过滤。
4.4.3. III: 数据修复和增强 (Data Fixing and Augmentation)
数据过滤后,对角色模型进行方向修复 (orientation fixing),确保它们面向前方。
- 方向修复: 选择围绕 x、y 和 z 轴的 24 种方向,并为每种方向从六个正交视图(前、后、左、右、上、下)渲染图像。将这些六个视图的
DINOv2(Oquab et al., 2023) 特征拼接起来,训练一个方向估计模型,然后用于推断和修复所有角色模型的方向。 - 未纹理模型处理: 对于所有未纹理模型,渲染多视角法线贴图,并使用 (Li et al., 2024a) 生成相应的多视角 RGB 数据,作为训练期间的条件输入。
4.4.4. IV: 场数据生产 (Field Data Production)
尽管 Objaverse(-XL) (Deitke et al., 2023; 2024) 包含大量数据,但即使经过评分、过滤和修复等处理步骤,大多数模型仍不适合直接训练。由于 TripoSG 采用神经隐式场作为 3D 模型表示,因此需要将原始的非水密网格 (non-watertight mesh) 转换为水密网格 (watertight ones),以便计算几何监督(如占用或 SDF)。
- 水密网格生成: 不使用
TSDFusion(Newcombe et al., 2011) 或ManifoldPlus(Huang et al., 2018; 2020) 等常用方法,而是借鉴 (Wang et al., 2022; Zhang et al., 2024b),从原始非水密网格构建一个分辨率为 网格的无符号距离函数 (Unsigned Distance Function, UDF) 场,然后应用Marching Cubes(Lorensen & Cline, 1987) 算法提取等值面 (iso-surface),阈值为 。 - 内部结构移除: 为了更有效地进行几何学习,遵循 (Zhang et al., 2024b),在应用
Marching Cubes之前,将不可见网格的 UDF 值重置,以防止提取内部等值面。然后,通过计算每个网格组件的面积和环境光遮蔽比 (ambient occlusion ratio),移除一些小型和不可见的内部网格组件。 - 点采样: 最后,均匀采样表面点及其法线,并随机采样体积内和表面附近的点,用于监督训练。
5. 实验设置
5.1. 实施细节
实验分为 TripoSG 实验和消融实验两部分。
5.1.1. TripoSG 实验
TripoSG 采用了渐进式 (progressively) 扩展分辨率和模型尺寸的训练策略。
-
第一阶段:训练一个 1.5 亿参数 (1.5B parameter) 模型,使用 200 万 (2M) 数据集,潜在分辨率为 512 词元 (tokens),学习率为 1e-4,训练 70 万步 (700k steps)。
-
第二阶段:切换到潜在分辨率 2048 词元,并继续训练 30 万步 (300k steps),学习率为 5e-5。
-
第三阶段 (扩展阶段):使用混合专家 (MoE) 将模型参数扩展到 40 亿 (4B),并将潜在分辨率增加到 4096 词元。在一个 100 万 (1M) 高质量数据集上恢复训练,学习率为 1e-5,训练 10 万步 (100k steps)。
三个阶段的批次大小 (batch size) 分别设置为每个 GPU 16、10 和 8。整个训练过程在 160 块 A100 GPU 上进行了大约 3 周。
5.1.2. 消融实验 (Ablation Experiments)
消融实验使用较小的数据集 (从 Objaverse 过滤出的 180K 数据) 和一个 9.75 亿参数 (975M parameter) 模型进行训练。
- 非扩展消融实验 (Non-scaling ablation experiments) (如表 1 所示):模型潜在分辨率为 512 词元,学习率为 1e-4,训练约 30 万步 (300k steps)。在 32 块 A100 GPU 上耗时约 3 天。
- 扩展消融实验 (Scaling-up ablation experiments) (如表 2 的第 2-4 行所示):从前一个实验继续训练,潜在分辨率分别为 2048 词元、4096 词元和 4096 词元 (使用 MoE 模型架构)。每个阶段额外训练 10 万步 (100k steps)。学习率分别为 5e-5、1e-5 和 1e-5。这三个扩展实验在 32 块 A100 GPU 上总共耗时约 9 天。
- 所有消融实验的批次大小设置为每个 GPU 16。
5.1.3. 图像预处理 (Image Preprocessing)
训练期间,图像前景 (image foreground) 被调整为固定比例 (90%),并以 0.2 的概率在中心周围旋转 范围内。此设置有助于模型泛化到各种输入图像。推理时,图像首先检测前景,然后按与训练前景相同的比例调整大小,以获得最佳生成效果。
5.1.4. VAE 训练细节 (VAE Training Details)
遵循 Zhao et al., 2024 的设计,VAE 模型采用一个 8 层编码器和 16 层解码器的网络架构。使用更大的解码器来增强从潜在空间解码几何的能力,同时不增加流模型训练阶段 VAE 的推理成本。
- 损失权重:表面法线损失 设置为 10,Eikonal 正则化 设置为 0.1,KL-正则化 设置为 0.001。
- 输入与采样点:对于每个训练数据项,模型输入 20,480 个表面点,并随机采样 8,192 个近表面点、8,192 个体素点和 8,192 个表面点用于监督。
- TripoSG VAE 实验:通过 SDF 监督 (结合表面法线引导和 Eikonal 正则化) 训练 VAE,学习率为 5e-5,每个 GPU 批次大小为 6,训练 250 万步 (2.5M steps)。在 32 块 A100 GPU 上耗时约 12 天。该 VAE 用于扩展流模型的训练。
- VAE 消融实验:在小型数据集 (180K 过滤数据) 上评估 VAE 重建质量。使用 1e-4 的学习率,每个 GPU 批次大小为 8,在 8 块 A100 GPU 上训练 28.6 万步 (286K steps)。
5.2. 数据集、指标和基线 (Dataset, Metrics and Baselines)
5.2.1. 数据集 (Dataset)
- 主要数据集:
Objaverse(-XL)(Deitke et al., 2023; 2024),这是最大的公开 3D 数据集,包含超过 1000 万个来自不同来源的独特 3D 对象。 - 数据预处理:由于
Objaverse(-XL)中的大部分数据不适合直接训练,本文应用了 4.4 节介绍的预处理步骤,包括评分、过滤、方向修复和训练数据复制。经过预处理,获得了 200 万 (2M) 个高质量 3D 对象。 - 地面真实 SDF:从复制的 3D 模型中计算出采样点的地面真实 (ground-truth) SDF。
- 图像条件渲染:为了单图像条件流模型训练,在方向修复后但在数据复制之前,从 3D 模型前方的 8 个随机视点进行渲染,并随机采样相机焦距、仰角 (elevation) 和方位角 (azimuth) 范围内的参数。
- 仰角范围:。
- 方位角范围:。
- 焦距列表:[正交 (orthogonal), , , , 2 个从 中随机选择]。
5.2.2. 评估指标 (Metrics)
5.2.2.1. 流模型生成质量 (Flow Model Generation Quality)
-
Normal-FID (Fréchet Inception Distance):
- 概念定义 (Conceptual Definition):
FID是一种用于评估生成模型输出质量和逼真度的指标,通过比较真实数据和生成数据在特征空间中的分布相似性来量化。通常,它使用预训练的 Inception-v3 模型的中间层激活来提取特征。较低的FID值表示生成样本的质量更高,与真实数据分布更接近。在 3D 生成场景中,本文将其改编为Normal-FID,通过比较法线贴图的特征分布来评估 3D 模型的几何质量。 - 数学公式 (Mathematical Formula):
- 符号解释 (Symbol Explanation):
- : 真实图像(或此上下文中的地面真实法线贴图)特征向量的均值。
- : 生成图像(或生成法线贴图)特征向量的均值。
- : 真实图像特征向量的协方差矩阵。
- : 生成图像特征向量的协方差矩阵。
Tr: 矩阵的迹 (trace)。- : 向量的 L2 范数平方。
- 计算流程:对于 3D 地面真实模型,在相同视点下渲染配对的 RGB 图像 和法线贴图 。将 RGB 图像 作为输入送入 TripoSG 生成 3D 形状,然后从生成的 3D 形状中以与输入图像相同的视点渲染法线贴图 。最后,计算生成的法线贴图 和地面真实法线贴图 之间的
Normal-FID,以评估 TripoSG 的整体性能。
- 概念定义 (Conceptual Definition):
-
GPTEval3D:
- 概念定义 (Conceptual Definition):
GPTEval3D是一种利用大型多模态模型 (Large Multimodal Models, LMMs)(如GPT-4V或Claude3.5)作为评估器的新型指标。它旨在通过 LMM 的理解和推理能力,以更符合人类偏好的方式评估 3D 生成结果,弥补传统量化指标(如FID)在捕捉复杂美学和语义一致性方面的不足。LMM 会根据预设的评估维度(如 3D 合理性、对齐度、细节等)对生成的 3D 模型进行评分。 - 数学公式 (Mathematical Formula):原文未提供具体的数学公式,
GPTEval3D的核心是 LMM 对生成结果的定性评估和评分。其输出通常是多个维度上的分数或排名。 - 符号解释 (Symbol Explanation):无。
- 概念定义 (Conceptual Definition):
5.2.2.2. VAE 重建质量 (VAE Reconstruction Quality)
-
Chamfer Distance (CD):
- 概念定义 (Conceptual Definition):
Chamfer Distance是一种衡量两个点集之间相似度的指标。它计算一个点集中每个点到另一个点集中最近点的距离的平方和,然后将这两个方向的距离和平均。Chamfer Distance越小,表示两个点集越相似,在 3D 重建中通常意味着重建的形状与地面真实形状在几何上更接近。 - 数学公式 (Mathematical Formula):
- 符号解释 (Symbol Explanation):
- : 两个点集(代表 3D 形状的采样点)。
- : 点集 和 中点的数量。
- : 点集 中的一个点。
- : 点集 中的一个点。
- : 点 到点集 中最近点的欧氏距离平方。
- : 点 到点集 中最近点的欧氏距离平方。
- 概念定义 (Conceptual Definition):
-
F-score (F-SCORE) with 0.02 threshold:
- 概念定义 (Conceptual Definition):
F-score是精度 (Precision) 和召回率 (Recall) 的调和平均值,通常用于评估分类任务。在 3D 形态重建中,它被改编为衡量重建网格 (或点云) 与地面真实网格 (或点云) 之间重叠程度的指标。它通过计算在给定距离阈值内,重建点与真实点之间的匹配程度来评估重建的完整性和准确性。0.02 的阈值意味着只有距离在 0.02 单位以内的点才被认为是匹配的。较高的F-score表示更好的重建质量。 - 数学公式 (Mathematical Formula): 其中,
- 符号解释 (Symbol Explanation):
- : 生成的 3D 形状的采样点集。
- : 地面真实 3D 形状的采样点集。
- : 距离阈值,此处为 0.02。
- : 中的一个点。
gt: 中的一个点。- : 欧氏距离。
- : 集合的基数(元素数量)。
- : 表示点 到 中最近点的距离小于等于 。
- : 表示点
gt到 中最近点的距离小于等于 。
- 概念定义 (Conceptual Definition):
-
Normal Consistency (N.C.):
- 概念定义 (Conceptual Definition):
Normal Consistency衡量重建 3D 模型的表面法线与地面真实 3D 模型的表面法线之间的对齐程度。它反映了模型在局部几何细节和表面方向上的准确性。通常通过计算对应点法线向量的余弦相似度的平均值来量化。Normal Consistency越高,表明重建的几何细节越准确。 - 数学公式 (Mathematical Formula):对于生成表面上的点 及其对应地面真实表面上的点 ,假设它们的法线分别为 和 。
Normal Consistency通常计算为这些法线之间余弦相似度的平均值: - 符号解释 (Symbol Explanation):
- : 对应点对的数量。
- : 生成表面上第 个点的法线向量。
- : 地面真实表面上第 个点的法线向量。
- : 向量点积。
- : 绝对值,因为法线方向可能反转。
- 概念定义 (Conceptual Definition):
5.2.3. 对比基线 (Baselines)
TripoSG 将其方法与以下最流行的图像到 3D 生成方法进行了比较:
- 图像到 3D 重建模型:
TripoSR(Tochilkin et al., 2024),CRM(Wang et al., 2024),InstantMesh(Xu et al., 2024),MeshLRM(Wei et al., 2024),MeshFormer(Liu et al., 2024a)。 - 3D 扩散模型:
Craftsman(Li et al., 2024c)。 - 其他 3D 生成方法:
DreamFusion(Poole et al., 2023),Magic3D(Lin et al., 2023),Latent-NeRF(Metzer et al., 2023) 等。 在GPTEval3D评估中,使用了Flux(blackforestlabs, 2024) 生成输入图像。
6. 实验结果与分析
6.1. 定量和定性评估 (Quantitative and Qualitative Evaluation)
6.1.1. 与不同方法的可视化比较 (Comparison With Different Methods In Visualization)
本文将 TripoSG 与当前最流行的图像到 3D 生成方法(包括 Craftsman (Li et al., 2024c)、MeshFormer (Liu et al., 2024a)、TripoSR (Tochilkin et al., 2024)、CRM (Wang et al., 2024)、MeshLRM (Wei et al., 2024) 和 InstantMesh (Xu et al., 2024))进行了比较。值得注意的是,Craftsman 使用了其更先进的 1.5 版本在线演示。
图像 7 展示了这些方法生成的 3D 模型,通过渲染法线贴图来比较它们的几何质量。所有 3D 法线贴图均从相同视点渲染。本文通过对原始图像进行背景移除,并将处理后的图像输入到不同开源模型的 Huggingface 演示进行在线推理和生成。与以往工作通常在简单、标准图像上进行比较不同,本文在复杂且多样化的案例上进行了比较。
以下是评估结果的几个方面:
-
语义一致性 (Semantic Consistency):在第一个和第二个案例中,TripoSG 生成的 3D 模型具有更好的语义一致性,细节更丰富,与语义对齐更精准。
-
细节 (Detail):第三个和第四个案例展示了 TripoSG 捕捉更精细细节的能力,例如服装纹理和配饰,提供了更丰富的视觉保真度。
-
泛化能力 (Generalization):第五个和第六个案例突出了 TripoSG 从漫画风格和卡通风格图像生成高质量 3D 模型的能力,展示了其强大的泛化能力。
-
空间结构生成 (Spatial Structure Generation):第七个和第八个案例表明 TripoSG 在生成复杂空间结构方面表现出色,展示了卓越的空间建模能力。
-
整体性能 (Overall Performance):与最新、最先进的开源方法(包括重建和生成方法)相比,TripoSG 提供了显著更优异的结果,给出了深刻印象,并以大幅优势超越了先前的方法。
该图像是一张对比图,展示了多种方法(包括TripoSR、CRM、InstantMesh等)根据输入图片生成3D法线图的效果,体现了TripoSG在细节和形态还原上的优越性。
以下是原文 Figure 7 的结果,展示了 TripoSG 与其他领先的图像到 3D 生成方法在多样化和复杂案例上的定性比较,重点通过法线贴图展示几何细节。
6.1.2. 与不同方法的指标比较 (Comparison With Different Methods In Metric)
本文利用大型多模态模型 (LMMs) 的发展,采用 GPTEval3D (Wu et al., 2024c) 评估指标,并使用 Claude3.5 (而非 GPT-4Vision) 作为 LMM,以获得更符合人类偏好的评估结果。本文将 TripoSG 与多种 SOTA 方法进行了比较,并使用 Flux (blackforestlabs, 2024) 生成输入图像。
图像 11 展示了雷达图,比较了不同方法在 3D 合理性 (3D plausibility)、文本-资产对齐 (text-asset alignment)、几何细节 (geometry details)、纹理细节 (texture details) 和纹理-几何一致性 (texture-geometry coherency) 五个方面的评估结果。结果表明,TripoSG 在所有方面均优于其他方法。
该图像是论文中图11,展示了TripoSG生成的多样化无纹理3D形状,涵盖动物、家具、机械等多个类别,细节丰富且形态多变,体现了模型在高保真3D合成上的能力。
以下是原文 Figure 8 的雷达图,展示了 TripoSG 与其他方法在 3D 生成评估的五个关键维度上的评分对比,由大型多模态模型 Claude3.5 评估。
6.1.3. TripoSG 的 SOTA 性能 (SOTA Performance of TripoSG)
图像 1、图像 3 和图像 4 展示了 TripoSG 生成的各种图像到 3D 结果。值得注意的是,这些案例中没有重复,并且生成的模型未经过任何后处理(如平滑或移除浮动物体)。带纹理的案例是通过纹理贴图生成,而无纹理的案例则由原始网格渲染。纹理生成过程在 6.2 节中详细介绍。图像 3 和图像 4 中每个案例的第一张图是输入图像,接下来的四张图是从生成的 3D 模型渲染的多视角结果。
从这些结果中可以看出,TripoSG 提供了出色的 3D 模型生成能力。在展示的各种复杂结构、多样风格、创新设计、多对象组合、薄表面和细节丰富的场景中,TripoSG 始终生成令人印象深刻的 3D 模型。实现这种性能水平对现有方法来说极具挑战性。强大的泛化能力突出了大规模数据集的优势,而丰富的细节和解释能力则强调了高潜在分辨率和大型模型尺寸的益处,共同反映了 TripoSG 的最先进性能。
该图像是一个插图,展示了论文中使用的多样化3D模型样本集合,部分为蓝色未上色模型,部分为彩色完成品,涵盖人物、建筑、动物及生活用品等多种类别,体现了生成模型的丰富表达能力。
以下是原文 Figure 1 的示例,展示了 TripoSG 生成的多样化高保真 3D 形状。
该图像是一张模型架构示意图,展示了TripoSG中大规模修正流变换器的结构,包括多层MoE残差注意力块、图像输入的多头交叉注意力模块,以及专家路由和加权机制,体现了模型的复杂信息流和模块间关系。
以下是原文 Figure 11 的示例,展示了 TripoSG 生成的各种无纹理 3D 形状。
该图像是图4,展示了TripoSG基于transformer的VAE架构,上半部分为编码器结构,下半部分为解码器结构。图中包含关键的自注意力机制、交叉注意力机制及表面法线引导的监督训练流程。
以下是原文 Figure 12 的示例,展示了 TripoSG 生成的各种带纹理 3D 形状。
6.2. 纹理生成 (Texture Generation)
得益于 TripoSG 生成的精细、高质量 3D 几何,本文借鉴 Meta 3D TextureGen (Bensadoun et al., 2024),利用渲染的法线贴图作为输入条件,通过现有的成熟多视角生成方法来生成一致的多视角纹理图像。然后,这些多视角纹理图像被投影到几何表面上,以获得详细的纹理贴图。图像 4 展示了 TripoSG 生成的带有纹理贴图的 3D 结果。
6.3. 流模型消融实验 (Ablation for Flow Model)
为了验证提出的流模型改进和扩展策略的有效性,本文进行了特定的消融实验和比较分析。使用从 Objaverse 进一步过滤出的 180K 高质量数据集,按照 5.1 节的训练设置进行消融实验,并使用 5.2.2 节介绍的 Normal-FID 指标评估结果。
对于 Normal-FID 评估,从 180K 数据集中选择 1K 数据样本作为专门的 3D 生成性能验证测试集,其余数据样本用于训练。对于测试集,使用 50mm 相机焦距和 仰角(测试集渲染设置包含在训练集设置内)渲染每个 3D 地面真实模型的前视图 RGB 图像和法线贴图。RGB 图像用于生成 3D 形状,其法线贴图与从生成的 3D 形状渲染的法线贴图进行比较,以计算 Normal-FID。
流模型消融实验包括两部分:流模型改进训练和流模型扩展。
6.3.1. 流模型改进 (Flow Model Improvements)
如表 1 所示,本文使用一个 9.75 亿参数模型,潜在分辨率为 512 词元,在高质量 Objaverse 数据集上每个实验训练 30 万步。对条件 (Condition)、跳跃连接 (Skip-Connection) 和采样调度 (Sampling-Schedule) 的改进进行了比较分析。
以下是原文 Table 1 的结果:
| COnditioN | SKIP-C | SAMPLE-S | Normal-FID ↓ |
| Dinov2 | X | R-FLOW | 10.69 |
| CLIP-Dinov2 | × | R-FLOW | 10.61 |
| ✓ | DDPM | 9.63 | |
| ✓ | EDM | 9.50 | |
| ✓ | R-FLOW | 9.47 |
分析:
- 从表 1 的最后三行可以看出,
R-FLOW(Rectified Flow) 采样相比EDM和DDPM产生了更好的生成结果。结合其训练效率,R-FLOW在 3D 生成任务中显示出明显的优势。 - 比较第 2 行和第 5 行 (
CLIP-Dinov2,R-FLOW, 有无SKIP-C),跳跃连接操作显著影响生成结果,深层和浅层特征的融合改善了流建模。 - 比较前两行 (
Dinov2vsCLIP-Dinov2, 无SKIP-C,R-FLOW),CLIP条件也略微改善了生成结果。 - 从整体量化结果来看,跳跃连接操作在这些消融实验中效果最明显。
6.3.2. 流模型扩展 (Flow Model Scaling Up)
如表 2 的第 2-4 行所示,本文使用一个 9.75 亿参数模型,包含 CLIP-DINOv2 双重条件、跳跃连接操作和 Rectified Flow 采样调度。这些模型在高质量 Objaverse 数据上总共训练了 30 万步,以对潜在分辨率和 MoE 进行比较分析。表 2 的最后一行代表了最大的 TripoSG 模型,它包含了最大的数据量、模型尺寸、分辨率和训练成本。
以下是原文 Table 2 的结果:
| DATAseT | TOKEN NUMBER | MoE | Normal-FID |
| OBJAVERSE | 512 | × | 9.47 |
| 2048 | X | 8.38 | |
| 4096 | × | 8.12 | |
| 4096 | ✓ | 7.94 | |
| TRIPOSG | 4096 | ✓ | 3.36 |
分析:
- 从表 2 的前三行可以看出,随着潜在分辨率的增加,生成结果持续改善,其中从 512 词元到 2048 词元的改进最为显著。
- 比较第 3 行 (4096 词元, 无
MoE) 和第 4 行 (4096 词元, 有MoE),显示了通过MoE增加模型参数带来的性能提升。 - 比较第 4 行 (Objaverse, 4096 词元, 有
MoE) 和第 5 行 (TripoSG, 4096 词元, 有MoE),表明增加高质量数据尺寸带来了显著的性能提升 (Normal-FID 从 7.94 降至 3.36)。 - 当与第 1 行的结果结合时,可以看到增加高质量数据尺寸带来的改进超过了单纯提高分辨率带来的改进。
- 总体而言,大规模数据集、大型模型尺寸和高分辨率共同促成了显著的性能提升,使得 TripoSG 能够实现卓越的 3D 生成结果。
6.4. VAE 消融实验 (Ablation for VAE)
为了评估带有表面法线引导的神经 SDF 隐式表示的有效性,本文对不同的 VAE 模型设置进行了实验,包括神经隐式表示的公式、训练监督和训练数据集。表 3 展示了不同训练设置下 VAE 重建质量的定性结果。
以下是原文 Table 3 的结果:
| Dataset | REPR. | LsN | Leik | ChamfeR ↓ | F-SCORE ↑ | N.C.↑ |
| OBJAVERSE | OCC | × | X | 4.59 | 0.999 | 0.952 |
| SDF | X | × | 4.60 | 0.999 | 0.955 | |
| SDF | ✓ | X | 4.56 | 0.999 | 0.956 | |
| SDF | ✓ | ✓ | 4.57 | 0.999 | 0.957 | |
| TRIPOSG | SDF | ✓ | ✓ | 4.51 | 0.999 | 0.958 |
分析:
-
可以看出,SDF 表示结合表面法线引导 (LsN,
✓) 和 Eikonal 正则化 (Leik,✓) 提高了重建质量和几何细节,与基于占用的结果相比,实现了更低的Chamfer Distance(CD) 和更高的Normal Consistency(N.C.)。 -
随着训练数据量的增加(通过使用 TripoSG 数据集证明),VAE 的重建质量进一步提高,CD 进一步降低,N.C. 进一步提高。
图像 12 提供了它们之间的定性比较。
该图像是图12,展示了TripoSG生成的多样化纹理3D形状视角,包含人物、动物、建筑和物品等多个类别,体现了模型生成高保真细节与丰富样式的能力。
以下是原文 Figure 9 的定性比较,展示了 VAE 消融实验中不同 3D 表示类型和训练监督方式对模型重建质量的影响。
定性结果分析:
- 基于占用率 (OCC) 的重建结果存在锯齿伪影(蓝色框突出显示)、薄结构和浮动物体(红色框突出显示)。
- SDF 表示避免了锯齿伪影,但在实现高质量重建方面仍存在差距,特别是在薄壳结构方面,性能可能恶化。
- 结合表面法线引导 (LsN,
✓) 可以产生更锐利的重建,具有更精细的细节。 - 然而,过分强调表面法线引导在训练期间会引入轻微的锯齿伪影(如图像 12 第一行所示),这可以通过引入 Eikonal 正则化 (Leik,
✓) 来缓解。
6.5. 数据构建系统消融实验 (Ablation for Data-Building System)
为了证明 TripoSG 提出的数据构建系统的有效性,本文对数据质量和数量进行了消融实验。使用最优的 R-Flow 训练设置(表 1 的第一行),将 TripoSG 生成的 180K Objaverse 数据集替换为未经评分、过滤、方向修复、未纹理模型处理或转换后水密模型内部处理的原始 800K Objaverse 数据集。此实验证明了数据质量的影响。类似地,在相同的 R-Flow 设置下,将高质量数据集从 180K Objaverse 扩展到 2M TripoSG 数据集,以评估数据数量的影响。
以下是原文 Table 4 的结果:
| DATASET | SIZE | DATA-BUILDING SySTEM | NORMal-FID↓ |
| OBJAVERSE | 800K | × | 11.61 |
| 180K | ✓ | 9.47 | |
| TRIPOSG | 2M | ✓ | 3.36 |
分析:
- 如表 4 的前两行所示,尽管数据构建系统将 800K
Objaverse数据集减少到 180K,但提高的数据质量导致了更好的生成结果 (Normal-FID从 11.61 降至 9.47)。这表明,在使用真实世界数据进行训练时,质量优于数量。 - 此外,如表 4 的最后两行所示,将高质量数据集从 180K 增加到 2M 使得生成性能显著提升 (
Normal-FID从 9.47 降至 3.36)。这表明在拥有高质量数据时,扩展数据规模对于取得更好的结果至关重要。 - 总体而言,表 4 中的量化结果显示,从 2M 高质量数据中获得的性能提升大于单独提高数据质量所获得的提升。在数据质量提升后,性能随着数据规模的增加而持续改善,在当前训练规模下没有遇到瓶颈。
6.5.1. 流模型消融的可视化 (The Visualization for Flow Model Ablation)
除了量化结果,本文还对核心实验进行了可视化分析,如图像 2 所示。
该图像是论文中方法概述的示意图,展示了(i)数据构建系统和(ii)TripoSG模型两大部分。前者通过处理ShapeNet等原始数据集,生成高质量训练数据,后者则通过多模块网络结构从单张输入图像生成高保真3D形状。
以下是原文 Figure 10 的可视化分析,展示了不同数据量、数据质量和模型分辨率对生成效果的影响。
可视化分析:
- 图像 2 中的第 1、2、4 行分别对应表 4 中的三个实验结果。
- 图像 2 中的第 3 行对应表 2 中第 4 行的结果。
- 数据质量的重要性: 数据质量比原始真实世界数据的大小更重要 (第 1 行 vs. 第 2 行)。原始 800K 数据 (无数据构建系统) 的效果明显差于经过数据构建系统处理的 180K 数据。
- 高质量数据规模的重要性: 增加高质量数据规模带来的改进比分辨率带来的改进更明显 (第 2 行 vs. 第 3 行 vs. 第 4 行)。从 180K 优质数据到 2M 优质数据,生成效果显著提升。
- 综合效应: 增加高质量数据 (2M) 带来的性能提升比仅仅提高数据质量更大。在数据质量提高后,性能随着数据规模的增加而持续改善,在当前训练规模下没有遇到瓶颈。
7. 总结与思考
7.1. 结论总结
本文提出了 TripoSG,一个通过修正流变换器 (rectified-flow-based transformer) 实现的全新图像到 3D 生成模型。为了高效训练模型以生成高保真形状,TripoSG 设计了一个数据构建系统 (data-building system),用于处理原始数据集。实验证明,相比于直接使用原始的真实世界 3D 模型,经过过滤和修复的高质量数据能够被正确地重制为训练数据,并有效提升模型的训练性能。此外,TripoSG 利用带有表面法线引导 (surface normal guidance) 和 Eikonal 正则化 (eikonal regularization) 的 SDF (Signed Distance Function) 表示,以获得更精细的几何细节并避免锯齿伪影 (aliasing artifacts)。
在模型架构方面,TripoSG 引入了一个基于修正流的变换器,结合了混合专家 (Mixture-of-Experts, MoE) 机制和高分辨率策略 (high-resolution strategy) 以实现模型扩展训练。通过全面的实验,TripoSG 证明了其能够生成高保真 3D 形状,并在 3D 形状生成领域达到了新的最先进性能 (state-of-the-art)。
TripoSG 的成功之处在于,它深入探索了 3D 流模型 (3D flow route) 在数据和训练方面的路径,成功实现了具有强大泛化能力、卓越细节和高忠实度的 3D 生成。这有效地复制了图像和视频生成架构在 3D 生成领域的成功,使得 3D 生成领域现在可以在架构和发展阶段上与图像和视频生成对齐,从而借鉴 2D 图像和视频生成领域丰富的架构和训练经验。
7.2. 局限性与未来工作
论文作者指出了 TripoSG 框架的潜在局限性,并提出了未来的研究方向:
- 模型与数据规模扩展:未来可以进一步扩展模型参数和训练数据规模,以期获得更高的生成质量。
- 更精细的条件信息注入:探索更细粒度的条件信息注入方法,以生成更详细的 3D 模型,例如对局部区域或特定属性进行控制。
- 多模态生成任务探索:基于 TripoSG 的基础,可以进一步探索 3D 模型超分辨率、场景生成和风格化等任务。
7.3. 个人启发与批判
7.3.1. 个人启发
- 数据质量至上原则: TripoSG 强调数据质量的重要性,并投入巨大精力构建了一个复杂的数据处理管道,这提醒我们,在很多深度学习任务中,高质量的数据集往往比复杂的模型架构更为关键。尤其是在 3D 这种数据处理难度大的领域,对“脏数据”进行精心清洗、修复和标准化是取得突破性进展的必要前提。
- 跨模态技术迁移: 论文成功地将 2D/视频生成领域中成熟的修正流 (Rectified Flow) 和混合专家 (MoE) 等先进技术迁移并应用于 3D 领域,并取得了显著效果。这表明在不同模态之间,底层的生成范式和可扩展架构可能具有很强的通用性,值得我们关注和探索。
- SDF 表示与几何细节: 采用
SDF结合表面法线和 Eikonal 损失,对于捕捉精细几何细节和避免传统占用率表示的伪影至关重要。这种多重几何监督的思路,对于任何需要高保真 3D 几何的任务都具有借鉴意义。 - 渐进式训练与外推能力: VAE 的多分辨率渐进式训练以及其无位置编码带来的外推能力,是高效利用计算资源、逐步提升模型性能的有效策略。
7.3.2. 批判与潜在问题
- 计算资源门槛高昂: 尽管
MoE旨在提高推理效率,但训练 TripoSG 仍然需要庞大的计算资源(160 块 A100 GPU 运行 3 周)。这使得小型研究团队或个人难以复现和进一步研究,限制了社区的参与和创新速度。 - 纹理生成非模型核心: 论文在摘要中提到了“无缝集成”,但在方法论中,纹理生成是作为一个独立的后处理步骤完成的,依赖于外部的
Meta 3D TextureGen。这表明 TripoSG 自身主要专注于几何形状的生成。一个真正“无缝集成”的高保真几何与纹理的端到端生成模型,仍是其未来可以探索的方向。 - 数据多样性与领域泛化: 尽管构建了 200 万高质量数据,但其主要来源
Objaverse可能仍存在某些类别或风格上的偏差。模型在面对完全新颖、超出训练数据分布的 3D 概念时,其泛化能力仍需进一步验证。 - 精细控制的粒度: 论文提及“与输入图像精确对应”和“改进的多功能性”,但对于更细粒度的控制,例如修改特定物体部件、调整材质属性(而非仅纹理),或者在复杂场景中控制多个物体之间的关系,仍有待深入研究。
- 评估指标的局限性: 虽然引入了
Normal-FID和GPTEval3D,但Normal-FID仍是基于渲染图的评估,与真实 3D 几何的感知质量可能存在差距。而GPTEval3D依赖于大型语言模型的判断,其偏好是否完全等同于人类用户的真实偏好,以及 LMM 本身可能存在的偏差,也需要更深入的探讨和人类用户研究 (user study) 来补充验证。 - 水密性处理的额外开销: 为了进行 SDF 监督,模型需要将非水密网格转换为水密网格。虽然论文描述了这一数据处理流程,但这一步骤本身也引入了额外的计算开销和潜在的几何失真,这在实际应用中需要权衡。
相似论文推荐
基于向量语义检索推荐的相关论文。