论文状态：已完成

Hunyuan3D 2.1: From Images to High-Fidelity 3D Assets with Production-Ready PBR Material

发表：2025/06/18

高质量3D资产生成 (1)基于扩散Transformer的3D形状生成 (1)PBR材质合成 (1)3D生成模型训练流程 (1)游戏与工业设计中的3D内容创作 (1)

价格：0.100000

已有 5 人读过

本分析由 AI 生成，可能不完全准确，请以原文为准。

TL;DR 精炼摘要

Hunyuan3D 2.1提出了一个端到端高保真3D资产生成系统，结合基于扩散变换器的形状生成与生产级PBR纹理合成，实现从单张图像自动生成高质量带纹理的3D网格。该系统公开了完整训练与评估流程，推动3D AIGC应用于游戏、虚拟现实及工业设计。

摘要

3D AI-generated content (AIGC) is a passionate field that has significantly accelerated the creation of 3D models in gaming, film, and design. Despite the development of several groundbreaking models that have revolutionized 3D generation, the field remains largely accessible only to researchers, developers, and designers due to the complexities involved in collecting, processing, and training 3D models. To address these challenges, we introduce Hunyuan3D 2.1 as a case study in this tutorial. This tutorial offers a comprehensive, step-by-step guide on processing 3D data, training a 3D generative model, and evaluating its performance using Hunyuan3D 2.1, an advanced system for producing high-resolution, textured 3D assets. The system comprises two core components: the Hunyuan3D-DiT for shape generation and the Hunyuan3D-Paint for texture synthesis. We will explore the entire workflow, including data preparation, model architecture, training strategies, evaluation metrics, and deployment. By the conclusion of this tutorial, you will have the knowledge to finetune or develop a robust 3D generative model suitable for applications in gaming, virtual reality, and industrial design.

思维导图

论文精读

中文精读约 37 分钟读完 · 22,337 字

1. 论文基本信息

1.1. 标题

Hunyuan3D 2.1: From Images to High-Fidelity 3D Assets with Production-Ready PBR Material (Hunyuan3D 2.1：从图像到生产级PBR材质的高保真3D资产)

1.2. 作者

Tencent Hunyuan (腾讯混元) 在贡献者列表中详细列出了项目赞助者、项目负责人及核心贡献者，涵盖数据、形状生成、纹理合成和基础设施等多个团队。

1.3. 发表期刊/会议

该论文发布于 arXiv 预印本平台，表明其尚未经过同行评审，但已公开发布以供社区审阅和讨论。

1.4. 发表年份

2025年6月18日 (UTC)

1.5. 摘要

3D人工智能生成内容 (AIGC) 领域正在加速游戏、电影和设计中3D模型的创建。尽管出现了革命性的3D生成模型，但由于收集、处理和训练3D模型的复杂性，该领域仍主要限于研究人员、开发人员和设计师。为解决这些挑战，本文以 Hunyuan3D 2.1 为案例研究，提供了一个关于处理3D数据、训练3D生成模型和评估其性能的全面、循序渐进的指南。Hunyuan3D 2.1 是一个用于生成高分辨率、带纹理的3D资产的先进系统，包含两个核心组件：用于形状生成的 Hunyuan3D-DiT 和用于纹理合成的 Hunyuan3D-Paint。本教程将探讨整个工作流程，包括数据准备、模型架构、训练策略、评估指标和部署。教程结束后，读者将掌握微调或开发适用于游戏、虚拟现实和工业设计的强大3D生成模型的知识。

1.6. 原文链接

论文链接: https://arxiv.org/abs/2506.15442
PDF 链接: https://arxiv.org/pdf/2506.15442v1.pdf
发布状态: 预印本 (Preprint)

2. 整体概括

2.1. 研究背景与动机

当前 2D 图像和视频生成领域，尤其是扩散模型 (Diffusion Models) 的突破，已彻底改变了内容创作，但 3D 生成建模领域相对滞后。现有 3D 资产合成方法碎片化，主要集中在潜在表示学习 (Latent Representation Learning)、几何细化 (Geometric Refinement) 和纹理合成 (Texture Synthesis) 等基础技术上的渐进式改进。尽管 CLAY 等模型展示了扩散模型在高质量 3D 生成中的潜力，但 3D 领域仍缺乏像 Stable Diffusion (图像)、LLaMA (语言) 或 HunyuanVideo (视频) 那样强大、可扩展的开源基础模型来推动广泛创新。此外，3D 模型的收集、处理和训练过程复杂，使得该技术主要局限于专业研究人员和开发者。

本文旨在解决这些挑战，通过引入 Hunyuan3D 2.1 来弥合这一差距，使其成为一个全面且易于访问的 3D 资产创建系统。

2.2. 核心贡献/主要发现

Hunyuan3D 2.1 的核心贡献在于提供了一个从单张图像输入生成带纹理网格的综合 3D 资产创建系统，并将其完全开源，以推动 3D AIGC 的普及和创新。主要贡献包括：

全面的 3D 资产创建系统： 提出了 Hunyuan3D 2.1，一个集高保真几何生成和生产级 PBR 材质合成于一体的系统。
模块化架构： 将形状生成和纹理生成解耦为两个核心组件：
- Hunyuan3D-DiT (Shape Generation): 一个结合流匹配扩散架构 (Flow-based Diffusion Architecture) 和高保真网格自动编码器 (Hunyuan3D-ShapeVAE) 的形状生成模型。
  - Hunyuan3D-ShapeVAE 采用网格表面重要性采样 (Mesh Surface Importance Sampling) 来增强锐利边缘，并利用可变令牌长度 (Variational Token Length) 改进几何细节。
  - Hunyuan3D-DiT 基于先进的流匹配模型，具有可扩展性和灵活性。
- Hunyuan3D-Paint (Texture Synthesis): 一个用于 PBR 材质生成的网格条件多视图扩散模型 (Mesh-conditioned Multi-view Diffusion Model)，能够生成高质量、多通道对齐且视图一致的纹理（包括反照率 albedo、金属度 metallic 和粗糙度 roughness 贴图）。
  - Hunyuan3D-Paint 引入了空间对齐多注意力模块 (Spatial-Aligned Multi-Attention Module) 来对齐 albedo 和 MR (Metallic-Roughness) 贴图。
  - 3D 感知旋转位置编码 (3D-aware RoPE) 用于增强跨视图一致性。
  - 采用光照不变训练策略 (Illumination-Invariant Training Strategy) 生成不受光照影响的反照率贴图。
优越的性能： 通过定量指标和定性视觉比较，证明了 Hunyuan3D 2.1 在几何细节保留、纹理-照片一致性和人类偏好方面优于现有领先的商业和开源模型。
开源性与可访问性： 作为首个完全开源的 PBR 纹理 3D 资产生成解决方案，它开放了整个数据处理、训练流程和模型权重，使得先进的 3D AIGC 对更广泛的受众可用，弥合了学术研究和可扩展内容创建之间的鸿沟。

3. 预备知识与相关工作

3.1. 基础概念

3.1.1. 3D 资产 (3D Assets)

指在三维空间中表示的任何对象或模型，常用于游戏、电影、虚拟现实 (Virtual Reality, VR) 和工业设计。一个完整的 3D 资产通常包括几何形状 (Geometry) 和材质/纹理 (Material/Texture)。

3.1.2. PBR 材质 (Physically Based Rendering Material)

PBR 材质是一种基于物理的渲染 (Physically Based Rendering) 技术，它通过模拟光线与物体表面相互作用的物理规律，来创建更真实、更准确的材质表现。与传统的颜色贴图 (Color Texture) 相比，PBR 材质使用多个贴图通道来描述物体表面的属性，如：

反照率贴图 (Albedo Map): 也称为基础颜色 (Base Color)，表示物体表面在没有任何光照和阴影影响下的固有颜色。
金属度贴图 (Metallic Map): 描述物体表面是金属还是非金属，1 表示纯金属，0 表示纯电介质（非金属）。
粗糙度贴图 (Roughness Map): 描述物体表面微观结构的光滑或粗糙程度，影响光的散射方向。低粗糙度表示光滑表面，光线反射集中；高粗糙度表示粗糙表面，光线散射广泛。 PBR 材质的优势在于其在不同光照环境下能保持物理正确性，使得渲染结果更加一致和真实。

3.1.3. 扩散模型 (Diffusion Models)

扩散模型 (Diffusion Models) 是一种生成模型，通过逐步去除噪声来学习数据的分布。它们通过两个过程工作：

前向扩散过程 (Forward Diffusion Process): 逐渐向数据（例如图像或 3D 形状的潜在表示）添加高斯噪声，直到数据完全变成随机噪声。
逆向去噪过程 (Reverse Denoising Process): 训练一个神经网络来学习如何逆转前向过程，即从噪声中逐步恢复出原始数据。这个神经网络通常是一个 U-Net 结构。扩散模型在 2D 图像和视频生成中取得了巨大成功，本文将其应用于 3D 形状和纹理的生成。

3.1.4. 流匹配 (Flow Matching)

流匹配 (Flow Matching) 是一种替代扩散模型的新型生成建模方法。它通过直接训练一个模型来预测将简单分布（如高斯噪声）转换为复杂数据分布的连续流的向量场 (Vector Field)，而不是像传统扩散模型那样预测去噪步骤。流匹配的训练目标是最小化预测向量场和真实数据流向量场之间的差异。这种方法通常能够实现更快的推理速度和更稳定的训练。

3.1.5. 变分自动编码器 (Variational Autoencoder, VAE)

VAE 是一种生成模型，由编码器和解码器组成。

编码器 (Encoder): 将输入数据（如 3D 形状）压缩成一个潜在空间 (Latent Space) 中的概率分布（通常是高斯分布的均值和方差）。
解码器 (Decoder): 从潜在空间中采样一个点，并将其解码回原始数据空间。 VAE 的目标是学习数据的紧凑且连续的潜在表示，使得相似的数据在潜在空间中彼此靠近，且可以在潜在空间中进行插值生成新的数据。

3.1.6. 符号距离函数 (Signed Distance Function, SDF)

SDF 是一种表示 3D 形状的方法。对于 3D 空间中的任意一点，SDF 值表示该点到形状表面的最短距离，并带有符号：

如果点在形状内部，SDF 值为负。
如果点在形状外部，SDF 值为正。
如果点在形状表面，SDF 值为零。 SDF 能够精确地表示复杂几何形状，并且易于进行布尔运算和表面重建（例如通过 Marching Cubes 算法）。

3.1.7. `Marching Cubes` 算法

Marching Cubes 算法是一种计算机图形学算法，用于从 3D 标量场（如 SDF 场）中提取等值面 (Isosurface)，从而生成 3D 网格模型。它通过遍历 3D 空间中的每个“体素”或“立方体”，根据 SDF 值判断立方体顶点在等值面内部还是外部，然后利用预定义的查找表来生成相应的三角形面片，最终拼接成一个光滑的 3D 表面。

3.1.8. `Hammersley` 序列 (Hammersley Sequence)

Hammersley 序列是一种低差异序列 (Low-Discrepancy Sequence)，用于在多维空间中生成均匀分布的伪随机点。与纯随机序列相比，低差异序列的特点是点之间的分布更均匀，避免了随机序列可能出现的局部聚集或稀疏现象。在 3D 图形中，它常用于生成均匀分布的相机位置或采样方向，以确保渲染或数据收集的全面性。

3.2. 前人工作

论文在引言中提及了多个重要的前人工作和相关模型，这些工作为 Hunyuan3D 2.1 的开发奠定了基础或提供了对比：

2D 图像和视频生成： 引用了扩散模型 (Diffusion Models) 的开创性工作，如 Denoising Diffusion Probabilistic Models [1] 和 Latent Diffusion Models [2]。还提到了 Hunyuan-DiT [4] 和 HunyuanVideo [5] 等腾讯混元团队在 2D 和视频领域的贡献。这些工作展示了扩散模型在内容生成方面的强大潜力。
3D 生成建模：
- 潜在表示学习 (Latent Representation Learning): 3DShape2VecSet [7] 和 Dora [33] 提出了将 3D 形状压缩成向量集表示的方法，Hunyuan3D-ShapeVAE 沿用了这一思路。
- 几何细化 (Geometric Refinement): Michelangelo [8] 是一个条件 3D 形状生成模型，其基于形状-图像-文本对齐的潜在表示。Craftsman [24] 专注于高保真网格生成。TripoSG [9] 利用大规模整流流模型 (Rectified Flow Models) 进行高保真 3D 形状合成。Step1X-3D [26] 和 Direct3D-S2 [27] 也是近期开源的 3D 生成模型。这些模型在形状生成方面提供了重要的比较基线。
- 纹理合成 (Texture Synthesis): CLAY [11] 是第一个利用扩散模型进行高质量 3D 生成的框架，为 Hunyuan3D-Paint 的发展提供了灵感。SyncMVD-IPA [13] 和 TexGen [46] 是多视图扩散纹理生成模型。Hunyuan3D2.0 [36] 是 Hunyuan3D 2.1 的前身，同样专注于高分辨率纹理 3D 资产生成。
流匹配模型 (Flow Matching Models): Yaron Lipman 等人的工作 [15] 和 Patrick Esser 等人的工作 [3] 定义了流匹配的理论基础，Hunyuan3D-DiT 采用了这一技术。
BRDF 模型： Disney Principled BRDF [37] 是 Hunyuan3D-Paint 材质生成的基础。

3.3. 技术演进

3D 生成领域的技术演进可以概括为从早期基于显式几何建模（如多边形网格、体素）到隐式表示（如 SDF、神经辐射场 NeRF），再到结合深度学习尤其是生成模型（如 VAE、GAN、扩散模型）的学习和生成过程。

几何表示： 从传统的网格、点云，发展到 SDF、占用网络 (Occupancy Networks) 等隐式表示，这些隐式表示更易于神经网络处理，并能生成更光滑、拓扑正确的形状。
生成范式： 早期基于 GAN 的方法在 3D 生成中面临稳定性和质量问题。VAE 则为 3D 形状学习了更紧凑的潜在表示。近年来，扩散模型在 2D 领域的成功推动了其在 3D 领域的应用，通过逐步去噪生成高保真内容。流匹配作为扩散模型的替代，提供了更快的生成速度。
模块化与端到端： 许多工作尝试端到端生成 3D 资产，但通常在质量和细节上有所妥协。将形状生成和纹理合成解耦的模块化方法，如 Hunyuan3D 2.1 所采用的，被证明能更有效地实现高保真度。
材质表示： 从简单的颜色纹理到基于物理的渲染 (PBR) 材质，使得 3D 资产在不同光照下表现更真实。

3.4. 差异化分析

Hunyuan3D 2.1 与相关工作的主要区别和创新点体现在以下几个方面：

开源性与完整性： 尽管存在许多先进的 3D 生成模型（如 Michelangelo、Craftsman、TripoSG），但大多数要么是闭源商业产品，要么缺乏完整的、可供工业级生产使用的开源解决方案。Hunyuan3D 2.1 是第一个完全开源的、包含数据处理、训练流程和模型权重的 PBR 纹理 3D 资产生成系统，极大地降低了 3D AIGC 的门槛。
模块化与高质量： 论文强调了其形状与纹理生成分离的模块化设计，这被证明比端到端方法更能实现高质量结果。
- 形状生成 (Hunyuan3D-DiT)： 结合了先进的流匹配扩散模型和 Hunyuan3D-ShapeVAE，特别在 ShapeVAE 中采用了网格表面重要性采样和可变令牌长度，以更有效地捕捉锐利边缘和复杂的几何细节。这使其在几何细节保留上优于其他模型。
- 纹理合成 (Hunyuan3D-Paint)： 不仅生成传统颜色纹理，而是生产级的 PBR 材质。其关键创新包括：
  - 空间对齐多注意力模块 (Spatial-Aligned Multi-Attention Module): 确保 albedo 和 MR 贴图之间的物理关系和空间对齐。
  - 3D 感知旋转位置编码 (3D-Aware RoPE): 显著提高了跨视图一致性，有效缓解了纹理缝隙和重影问题。
  - 光照不变训练策略 (Illumination-Invariant Training Strategy): 确保生成的反照率贴图不受光照和阴影影响，更具通用性。
性能优越性： 论文通过定量指标和定性比较，明确展示了 Hunyuan3D 2.1 在几何准确性、纹理-照片一致性和人类偏好方面优于包括 Michelangelo、Craftsman 1.5、TripoSG、Step1X-3D、Direct3D-S2 等在内的领先模型。

4. 方法论

Hunyuan3D 2.1 系统旨在从单个图像输入生成高保真、带 PBR 材质的 3D 资产。其核心思想是将整个生成过程分解为两个主要阶段：形状生成和纹理合成，每个阶段由专门的模型处理。

4.1. 数据处理

数据处理是训练高质量 3D 生成模型的基础。本节描述了为形状生成模型和纹理模型准备训练数据的过程。

4.1.1. 数据集收集

形状生成： 收集了超过 100K 个带纹理和不带纹理的 3D 数据，主要来源于公共数据集（如 ShapeNet [28]、ModelNet40 [29]、Thingi10K [30]）和 Objaverse [31, 32]，以及自定义数据集。
纹理合成： 从 Objaverse-XL [32] 中筛选出超过 70K 个经过人工标注的高质量数据，遵循严格的策展协议。

4.1.2. 形状生成的数据预处理

形状生成的数据预处理旨在将原始 3D 网格转换为适合神经网络训练的标准化表示，如 SDF 值、点云和条件渲染图像。

4.1.2.1. 归一化 (Normalization)

归一化过程确保所有 3D 对象在统一的坐标空间中进行处理，这对于神经网络学习一致的几何模式至关重要。

轴对齐边界框 (Axis-aligned Bounding Box): 首先计算每个 3D 对象的轴对齐边界框。
统一缩放 (Uniform Scaling): 应用统一缩放，将对象放置在以原点为中心的单位立方体 (Unit Cube) 内，同时保留其纵横比。
点云归一化： 对于点云数据，通过减去质心来居中，然后通过距中心的最大欧几里得距离来缩放所有点，确保所有对象在归一化空间中占据大致相同的体积。

4.1.2.2. 水密处理 (Watertight Processing)

由于原始 3D 模型可能存在几何缺陷（如开孔、不连续），水密处理用于生成拓扑封闭的表面。

基于 IGL 库： 使用 IGL (Geometry Processing Library) 库通过从有缺陷的几何体构建符号距离场 (SDF) 来生成水密表面。
** SDF 计算：** 对于覆盖输入网格的均匀 3D 查询网格中的每个查询点 $\mathbf{q} \in Q_g$ $q \in Q_{g}$ ，IGL 计算其 SDF 值。 $\mathbf { S D F } ( \mathbf { q } ) = \underbrace { \mathrm { d i s t a n c e } _ { - } \mathrm { t o } \_ { \mathrm { m e s h } } ( \mathbf { q } , V , F ) } _ { \mathrm { n e a r e s t } \mathrm { s u r f a c e } \mathrm { d i s t a n c e } } \cdot \underbrace { \mathrm { s i g n } ( \omega ( \mathbf { q } ) ) } _ { \mathrm { i n s i d e } / \mathrm { o u t s i d e } \mathrm { s i g n } }$
- $\mathbf{q}$ : 空间中的查询点。
- V, F: 输入 3D 网格的顶点 (Vertices) 和面 (Faces)。
- $\mathrm{distance\_to\_mesh}(\mathbf{q}, V, F)$ : 查询点 $\mathbf{q}$ 到网格 (V, F) 表面最短距离。
- $\omega(\mathbf{q})$ : 广义缠绕数 (Generalized Winding Number)，用于判断点在形状内部 ( $\omega \approx 1$ ) 还是外部 ( $\omega \approx 0$ )。
- $\mathrm{sign}(\omega(\mathbf{q}))$ : 根据缠绕数确定 SDF 的符号。
符号一致性： 通过 IGL 的缠绕数计算强制执行符号一致性，通过阈值 $\omega > 0.5$ 来分类内部点，解决自相交附近的模糊符号问题。
提取水密网格： 使用 Marching Cubes 算法在零等值面 (Zero-level Isosurface) 处提取水密网格 $(V_{\mathrm{iso}}, F_{\mathrm{iso}})$ ，形成无边界不连续的拓扑封闭表面。

4.1.2.3. `SDF` 采样 (SDF Sampling)

为了全面捕捉 3D 形状的细节和整体结构，采用了双重采样策略来获取 SDF 值：

近表面采样： 在形状表面附近随机选择查询点，用于捕捉形状表面的复杂细节和细微变化。
均匀分布采样： 在整个 $[-1, 1]^3$ 空间内均匀分布选择查询点，为模型提供对 3D 形状整体结构和形态的更广泛理解。
计算 SDF 值： 使用 IGL 库计算这些查询点的 SDF 值。

4.1.2.4. 表面采样 (Surface Sampling)

为了同时捕捉均匀覆盖和特征细节，采用混合采样策略来生成点集：

均匀采样 (Uniform Sampling): 约占最终点集的 50%，确保表面覆盖均匀。
特征感知采样 (Feature-Aware Sampling): 剩余 50% 的点策略性地放置在高曲率特征 (High-curvature Features) 附近，基于局部表面导数进行重要性采样 (Importance Sampling)。这种自适应的采样密度在细节复杂的区域增加点浓度，而在简单区域保持稀疏采样，优化了点集的质量和效率。

4.1.2.5. 条件渲染 (Condition Render)

为了训练形状生成，需要从不同视角渲染条件图像：

相机分布： 使用 Hammersley 序列算法在以原点为中心的球体上均匀分布采样 150 个相机位置，并应用随机偏移 $\delta \in [0, 1)^2$ 。
视野和半径： 生成增强数据集，其中视野 FoV $\theta_{\mathrm{aug}} \sim \mathcal{U}(10^\circ, 70^\circ)$ 随机化，相机半径 $r_{\mathrm{aug}} \in [1.51, 9.94]$ 也进行调整，以确保对象在图像中帧的连贯性。

以下是原文 Algorithm 1 的数据预处理流程：

Algorithm 1 3D Data Preprocessing Pipeline

Require: Raw 3D mesh  $X = ( V , F )$  (vertices and faces)   
1: 1. Normalization:   
2:  $V _ { n o r m } \gets N o r m a l i z e ( V )$  EPY   
3:2. Watertight Processing:   
4: Initialize empty SDF grid  $\mathcal { G }$  EP   
5:  $S D F \gets \mathrm { I G L } ( \mathcal { G } , V _ { n o r m } , F )$    
6:  $( V _ { i s o } , F _ { i s o } ) \gets \mathbf { M a r c h i n g C u b e } ( S D F , \mathbf { l e v e l } = 0 )$  EY   
7: 3. SDF Sampling:   
8: `P _ { s u r f a c e }` sample_surface `( V _ { i s o } , F _ { i s o } , N _ { n e a r } )` E  $\triangleright N _ { n e a r } = 2 4 9 ,$  856 total points   
9: `P _ { n e a r }` sample_near_surface `( V _ { i s o } , F _ { i s o } , N _ { u n i f o r m } )`  $\triangleright N _ { u n i f o r m } = 2 4 9 ,$  856 total points   
10: Query points  $P _ { q u e r y } P _ { n e a r } \cup P _ { u n i f o r m }$    
11:  $S D F _ { q u e r y } \gets i g l . s i g n e d \_ d i s t a n c e ( P _ { q u e r y } , V _ { i s o } , F _ { i s o } )$    
12: 4. Surface Sampling:   
13: `P _ { r a n d o m }  ]` RandomSample `( V _ { i s o } , F _ { i s o } , N )` E   
14:  $P _ { s h a r p } \gets \mathrm { S h a r pS a m p l e } ( V _ { i s o } , F _ { i s o } , N )$  D  $N = 1 2 4 9 2 8$  total points   
15: 5. Hammersley Condition Rendering:   
16: Generate Hammersley sequence `H _ { 1 5 0 }` on unit sphere   
17: Apply random offset  $\mathsf { \bar { \delta } } \sim \mathsf { \bar { \mathcal { U } } } ( [ 0 , 1 ) ^ { 2 } )$  to `H _ { 1 5 0 }` M   
18: for each camera position  $\mathbf { c } _ { i } \in H _ { 1 5 0 }$  do   
19: Sample FoV  $\theta _ { i } \sim \mathcal { U } ( 1 0 ^ { \circ } , 7 0 ^ { \circ } )$  EPY   
20: Compute radius  $r _ { i } \sim \mathcal { U } ( \theta _ { m i n } , \theta _ { m a x } )$    
21:  $I m g _ { i } \gets$  render_image  $( X , \mathbf { c } _ { i } , r _ { i } )$  EY   
22:end for   
23: return  $P _ { q u e r y } , S D F _ { q u e r y } , P _ { r a n d o m } , P _ { s h a r p } , \{ I m g _ { i } \} _ { i = 1 } ^ { 1 5 0 }$  EPY

算法步骤解释:

输入 (Require): 原始 3D 网格 $X = (V, F)$ ，包含顶点 $V$ 和面 $F$ 。
1. 归一化 (Normalization):
- $V_{\mathrm{norm}} \gets \mathrm{Normalize}(V)$ : 对顶点 $V$ 进行归一化，使其处于标准坐标空间。
2. 水密处理 (Watertight Processing):
- Initialize empty SDF grid $\mathcal{G}$ : 初始化一个空的 SDF 网格。
- $SDF \gets \mathrm{IGL}(\mathcal{G}, V_{\mathrm{norm}}, F)$ : 使用 IGL 库从归一化的网格生成 SDF 场。
- $(V_{\mathrm{iso}}, F_{\mathrm{iso}}) \gets \mathbf{MarchingCube}(SDF, \mathbf{level} = 0)$ : 通过 Marching Cubes 算法在 SDF 场的零等值面处提取水密网格 $(V_{\mathrm{iso}}, F_{\mathrm{iso}})$ 。
3. SDF 采样 (SDF Sampling):
- $P_{\mathrm{surface}} \gets \mathrm{sample\_surface}(V_{\mathrm{iso}}, F_{\mathrm{iso}}, N_{\mathrm{near}})$ : 从水密网格表面采样 $N_{\mathrm{near}}$ 个点（例如 249,856 点）。
- $P_{\mathrm{near}} \gets \mathrm{sample\_near\_surface}(V_{\mathrm{iso}}, F_{\mathrm{iso}}, N_{\mathrm{uniform}})$ : 在水密网格附近采样 $N_{\mathrm{uniform}}$ 个点（例如 249,856 点）。
- Query points $P_{\mathrm{query}} \gets P_{\mathrm{near}} \cup P_{\mathrm{uniform}}$ : 结合近表面和均匀采样点作为查询点集。
- $SDF_{\mathrm{query}} \gets \mathrm{igl.signed\_distance}(P_{\mathrm{query}}, V_{\mathrm{iso}}, F_{\mathrm{iso}})$ : 计算查询点集 $P_{\mathrm{query}}$ 的 SDF 值。
4. 表面采样 (Surface Sampling):
- $P_{\mathrm{random}} \gets \mathrm{RandomSample}(V_{\mathrm{iso}}, F_{\mathrm{iso}}, N)$ : 从水密网格随机采样 $N$ 个点。
- $P_{\mathrm{sharp}} \gets \mathrm{SharpSample}(V_{\mathrm{iso}}, F_{\mathrm{iso}}, N)$ : 从水密网格的高曲率区域采样 $N$ 个点（例如总点数 $N = 124928$ ）。
5. Hammersley 条件渲染 (Hammersley Condition Rendering):
- Generate Hammersley sequence $H_{150}$ on unit sphere: 在单位球体上生成 150 个 Hammersley 序列点作为相机位置。
- Apply random offset $\bar{\delta} \sim \mathcal{U}([0, 1)^2)$ to $H_{150}$ : 对 Hammersley 序列应用随机偏移。
- 循环渲染： 对于每个相机位置 $\mathbf{c}_i \in H_{150}$ $c_{i} \in H_{150}$ ：
  - Sample FoV $\theta_i \sim \mathcal{U}(10^\circ, 70^\circ)$ : 采样视野角度。
  - Compute radius $r_i \sim \mathcal{U}(\theta_{\mathrm{min}}, \theta_{\mathrm{max}})$ : 计算相机半径。
  - $Img_i \gets \mathrm{render\_image}(X, \mathbf{c}_i, r_i)$ : 渲染图像 $Img_i$ 。
返回 (return): 返回查询点集 $P_{\mathrm{query}}$ 、其 SDF 值 $SDF_{\mathrm{query}}$ 、随机采样点集 $P_{\mathrm{random}}$ 、高曲率采样点集 $P_{\mathrm{sharp}}$ 以及 150 张渲染图像 $\{Img_i\}_{i=1}^{150}$ 。

4.1.3. 纹理合成的数据预处理

纹理合成的数据预处理专注于生成多视图的图像和 PBR 贴图，以便模型学习如何合成真实的材质。

数据集： 主要使用从 Objaverse [31] 和 Objaverse-XL [32] 过滤出的 $70K+$ 人工标注高质量 3D 资产。
多视图渲染： 对于每个 3D 对象，从四个不同的仰角 ( $-20^\circ$ , $0^\circ$ , $20^\circ$ , 以及一个随机角度) 进行渲染。
方位角 (Azimuth) 视图： 在每个仰角下，选择 24 个沿方位角均匀分布的视图。
生成贴图： 为每个视图生成对应的反照率 albedo、金属度 metallic、粗糙度 roughness 贴图。
光照条件： 生成分辨率为 512x512 的 HDR (High Dynamic Range) /点光源 (Point-light) 图像。
参考图像渲染： 概率性地渲染参考图像，包括：
- 随机采样视点 (仰角： $[-30^\circ, 70^\circ]$ )。
- 随机照明：使用点光源 ( $p=0.3$ ) 或 HDR 贴图 ( $p=0.7$ )。

4.2. 训练

4.2.1. Hunyuan3D-Shape (形状生成)

形状生成是 3D 生成的基石，影响 3D 资产的可用性。Hunyuan3D-Shape 借鉴了潜在扩散模型 (Latent Diffusion Models) 在形状生成中的成功经验，采用生成式扩散模型架构，由两个主要组件构成：Hunyuan3D-ShapeVAE 和 Hunyuan3D-DiT。

4.2.1.1. Hunyuan3D-ShapeVAE

Hunyuan3D-ShapeVAE 负责将 3D 资产的形状（由多边形网格表示）压缩到潜在空间 (Latent Space) 中的连续令牌序列，并在推理时将其解码回网格。下图（原文 Figure 2）展示了形状生成的整体流程：

Figure 2: Overall pipeline for shape generation. Given a single image input, combining Hunyuan3DDiT and Hunyuan3D-VAE can generate a high-quality and high-fidelity 3D shape.
该图像是图示了图2所示的整体流程图，展示了如何通过单张图片输入，结合Hunyuan3D-DiT和VAE-Decoder模块生成高质量高保真的3D形状。

图2：形状生成的整体流程。给定单张图像输入，结合 Hunyuan3D-DiT 和 Hunyuan3D-VAE 可以生成高质量、高保真的 3D 形状。

表示： Hunyuan3D-ShapeVAE 利用 3DShape2VecSet [7] 引入的向量集，以及 Dora [11, 33] 项目中使用的变分编码器-解码器 Transformer 进行紧凑的形状表示。
输入： 编码器使用从 3D 形状表面采样的点云（包含 3D 坐标和法向量）作为输入。
输出： 解码器预测 3D 形状的 SDF，该 SDF 可以通过 Marching Cubes 算法转换为三角形网格。

4.2.1.1.1. 编码器 (Encoder)

点云输入： 对于输入网格，首先收集均匀采样的表面点云 $P_u \in \mathbb{R}^{M \times 3}$ 和重要性采样点云 $\breve{P_i} \in \mathbb{R}^{N \times 3}$ 。
查询点生成： 分别对 $P_u$ 和 $P_i$ 应用最远点采样 (FPS, Farthest Point Sampling) 以生成查询点 $Q_u \in \mathbb{R}^{M' \times 3}$ 和 $\mathbf{\bar{\phi}}_{Q_i} \in \mathbb{R}^{N' \times 3}$ 。
拼接与编码： 将这些点拼接成最终点云 $P \in \mathbb{R}^{(M+N) \times 3}$ 和查询集 $Q \in \mathbb{R}^{(M'+N') \times 3}$ 。通过线性投影将 $P$ 和 $Q$ 编码为特征 $X_p \in \mathbb{R}^{(M+N) \times d}$ 和 $X_q \in \bar{\mathbb{R}}^{(M'+N') \times d}$ ，其中 $d$ 是维度。
注意力处理： 这些特征通过交叉注意力 (Cross-Attention) 和自注意力 (Self-Attention) 层处理，以获得隐藏形状表示 $H_s \in \mathbb{R}^{(M'+N') \times d}$ 。
潜在空间映射： 遵循变分自动编码器框架，对 $H_s$ 应用最终线性投影，预测潜在形状嵌入 (Latent Shape Embedding) 的均值 $\mathrm{E}(Z_s) \in \mathbb{R}^{(M'+N') \times d_0}$ 和方差 $\mathrm{Var}(Z_s) \in \mathbb{R}^{(M'+N') \times d_0}$ ，其中 $d_0$ 是潜在维度。

4.2.1.1.2. 解码器 (Decoder)

重建神经场 (Neural Field): 解码器 $\mathcal{D}_s$ 从潜在形状嵌入 $Z_s$ 重建一个 3D 神经场 (3D Neural Field)。
投影与细化： 首先，一个投影层将 $d_0$ 维的潜在嵌入映射到 Transformer 的隐藏维度 $d$ 。随后的自注意力层对这些嵌入进行细化。
点感知器模块 (Point Perceiver Module): 接着，一个点感知器模块查询 3D 网格 $Q_g \in \mathbb{R}^{(H \times W \times D) \times 3}$ ，生成神经场 $\boldsymbol{F_g}^\setminus \in \bar{\mathbb{R}}^{(\boldsymbol{F_n} \times \mathbf{\bar{W}} \times \boldsymbol{D}) \times d}$ 。
生成 SDF： 最终的线性投影将 $F_g$ 转换为 SDF $F_{sdf} \in \mathbb{R}^{(F_o \times W \times D) \times 1}$ 。
推理转换： 在推理阶段，该 SDF 通过 Marching Cubes 转换为三角形网格。

4.2.1.1.3. 训练策略与实现 (Training Strategy & Implementation)

损失函数： 采用两种损失函数监督模型训练：
1. 重建损失 (Reconstruction Loss): 计算预测 SDF $\mathcal{D}_s(x|Z_s)$ 与真实 SDF (x) 之间的均方误差 (MSE) 损失。
2. KL 散度损失 (KL-divergence Loss) $\mathcal{L}_{KL}$ : 使潜在空间紧凑且连续。
总训练损失： $\mathcal { L } _ { r } = \mathbb { E } _ { x \in \mathbb { R } ^ { 3 } } [ \mathrm { M S E } ( \mathcal { D } _ { s } ( x | Z _ { s } ) , \mathrm { S D F } ( x ) ) ] + \gamma \mathcal { L } _ { K L }$
- $\mathcal{L}_r$ : 总训练损失。
- $\mathbb{E}_{x \in \mathbb{R}^3}[\cdot]$ : 对 3D 空间中的点 $x$ 求期望。
- $\mathrm{MSE}(\mathcal{D}_s(x|Z_s), \mathrm{SDF}(x))$ $MSE (D_{s} (x ∣ Z_{s}), SDF (x))$ : 预测 SDF 值 $\mathcal{D}_s(x|Z_s)$ $D_{s} (x ∣ Z_{s})$ 与真实 SDF 值 $\mathrm{SDF}(x)$ $SDF (x)$ 之间的均方误差。
  - $\mathcal{D}_s$ : 解码器，根据潜在形状嵌入 $Z_s$ 重建 SDF。
  - $Z_s$ : 潜在形状嵌入。
- $\gamma$ : KL 散度损失的权重。
- $\mathcal{L}_{KL}$ : KL 散度损失，用于使潜在空间遵循标准高斯分布。
计算效率优化： 采用多分辨率训练策略 (Multi-resolution Training Strategy)，动态调整潜在令牌序列长度，最大序列长度为 3072。

4.2.1.2. Hunyuan3D-DiT

Hunyuan3D-DiT 是一个流匹配扩散模型 (Flow-based Diffusion Model)，旨在根据图像条件生成详细、高分辨率的 3D 形状。

4.2.1.2.1. 条件编码器 (Condition Encoder)

图像编码器： 为了捕捉详细的图像特征，采用大型图像编码器 DINOv2 Giant [34]，输入图像尺寸为 518x518。
预处理： 移除输入图像的背景，将对象调整为标准大小并居中，然后用白色填充背景。

4.2.1.2.2. DiT 块 (DiT Block)

结构： 借鉴 Hunyuan-DiT [4] 和 TripoSG [9]，采用 Transformer 结构。堆叠 21 个 Transformer 层来学习潜在代码。
跳跃连接 (Skip Connection): 在每个 Transformer 层中，利用维度拼接引入潜在代码的跳跃连接。
图像条件引入： 类似于先前的方法 [11, 24]，采用交叉注意力层 (Cross-Attention Layer) 将图像条件投影到潜在代码中。
MOE 层： 使用 MOE (Mixture-of-Experts) 层增强潜在代码的表示学习能力。下图（原文 Figure 3）展示了 DiT 块的概览：

$Figure 3: Overview of DiT block. We adopt the DiT implemented by Hunyuan-DiT \[4\] in our pipeline.$ 该图像是图3的示意图，展示了Hunyuan-DiT中Diffusion Transformer模块的结构流程，包含跳跃编码连接、线性层、归一化、自注意力、交叉注意力和MOE组件的具体数据流。

图3：DiT 块概览。本文的流水线中采用了 Hunyuan-DiT [4] 实现的 DiT。

4.2.1.2.3. 训练与推理 (Training & Inference)

训练： 模型使用流匹配目标函数 [15, 3] 进行训练。流匹配定义了高斯分布和数据分布之间的概率路径，训练模型预测速度场 $u_t = \frac{x_t}{d_t}$ ，该速度场将样本 $x_t$ 移动到数据 $x_1$ 。
路径与速度： 使用带有条件最优传输调度 (Conditional Optimal Transport Schedule) 的仿射路径，如 [35] 中所述，其中 $x_t = (1-t) \times x_0 + t \times x_1$ 和 $u_t = x_1 - x_0$ 。
训练损失： $\mathcal { L } = \mathbb { E } _ { t , x _ { 0 } , x _ { 1 } } [ \| \ u _ { \theta } ( x _ { t } , c , t ) - u _ { t } \ \| _ { 2 } ^ { 2 } ] ,$
- $\mathcal{L}$ : 训练损失函数。
- $\mathbb{E}_{t, x_0, x_1}[\cdot]$ : 对时间 $t$ 、初始数据 $x_0$ 和目标数据 $x_1$ 求期望。
- $t \sim \mathbb{U}(0, 1)$ : 时间步 $t$ 从 0 到 1 均匀采样。
- $x_t = (1-t)x_0 + tx_1$ : 仿射路径上时间 $t$ 处的样本。
- $u_\theta(x_t, c, t)$ : 扩散模型 $u_\theta$ 预测的速度场，基于当前样本 $x_t$ 、条件 $c$ 和时间 $t$ 。
- $u_t = x_1 - x_0$ : 真实的速度场，表示从 $x_0$ 到 $x_1$ 的方向。
- $\|\cdot\|_2^2$ : $L_2$ 范数的平方，即均方误差。
- $c$ : 模型条件（例如图像特征）。
推理： 在推理阶段，随机采样一个起始点，并使用一阶欧拉常微分方程 (ODE) 求解器，结合扩散模型 $u_\theta(x_t, c, t)$ 来计算 $x_1$ 。

4.2.2. Hunyuan3D-Paint (纹理合成)

传统的颜色纹理已不足以满足逼真的 3D 资产生成需求。Hunyuan3D-Paint 引入了一个 PBR 材质纹理合成框架，超越了传统 RGB 纹理贴图。

目标： 遵循 BRDF (Bidirectional Reflectance Distribution Function) 模型，同时输出反照率 (albedo)、粗糙度 (roughness) 和金属度 (metallic) 贴图，从多个视点精确描述生成 3D 资产的表面反射特性，并精确模拟几何微表面的分布，从而实现更真实和细节丰富的渲染效果。
空间信息注入： 引入 3D 感知旋转位置编码 (3D-Aware RoPE) 来注入空间信息，显著提高跨视图一致性并实现无缝纹理。

下图（原文 Figure 4）展示了材质生成的框架概览：

该图像是图4，材质生成框架的示意图，展示了从图像输入经过参考分支和生成分支，利用多种注意力机制与3D感知位置编码得到高质量Albedo及Metallic和Roughness材质图的过程。

图4：材质生成框架概览。

4.2.2.1. 基本架构 (Basic Architecture)

基础： 基于 Hunyuan3D2.0 [36] 的多视图纹理生成架构。
PBR 材质生成： 实现 Disney Principled BRDF [37] 模型来生成高质量 PBR 材质贴图。
特征注入： 保留 ReferenceNet 的参考图像特征注入机制。
条件拼接： 将几何渲染的法线贴图 (Normal Maps) 和 CCM (Canonical Coordinate Map) 与潜在噪声 (Latent Noise) 拼接起来。

4.2.2.2. 空间对齐多注意力模块 (Spatial-Aligned Multi-Attention Module)

压缩与架构： 使用预训练的 VAE 进行多通道材质图像压缩，并实现并行双分支 U-Net 架构 [38] 进行材质生成。
注意力模块： 对于反照率 (albedo) 和金属度-粗糙度 (MR) 贴图，均实现并行的多注意力模块 [39]，包括自注意力 (Self-Attention)、多视图注意力 (Multi-view Attention) 和参考注意力 (Reference Attention)。
空间对齐： 为了模拟 albedo/MR 贴图与参考图像之间的物理关系，并实现 MR 和 albedo 贴图之间的空间对齐，将从 albedo 参考注意力模块计算出的输出直接传播到 MR 分支。

4.2.2.3. `3D` 感知旋转位置编码 (`3D-Aware RoPE`)

问题： 解决由相邻视图局部不一致性引起的纹理缝隙 (Texture Seams) 和重影伪影 (Ghosting Artifacts)。
解决方案： 在多视图注意力块中引入 3D-Aware RoPE [39]，以增强跨视图一致性。
实现： 通过对 3D 坐标体进行降采样 (Downsampling)，构建与 U-Net 层次结构对齐的多分辨率 3D 坐标编码。这些编码与对应的隐藏状态 (Hidden States) 进行加性融合 (Additively Fused)，从而将跨视图交互整合到 3D 空间中，以强制实现多视图一致性。

4.2.2.4. 光照不变训练策略 (Illumination-Invariant Training Strategy)

目标： 生成无光照和阴影的反照率贴图 (Light- and Shadow-free Albedo Map) 和准确的 MR 贴图。
洞察： 即使同一对象在不同光照下渲染结果不同，其内在材质属性应保持一致。
实现： 设计光照不变训练策略 [38]。通过使用两组包含在不同光照条件下渲染的同一对象参考图像的训练样本来计算一致性损失 (Consistency Loss)，从而强制实现此属性。

4.2.2.5. 实验设置 (Experimental Setup)

初始化： 模型从 Stable Diffusion 2.1 的 Zero-SNR 检查点 [40] 进行初始化。
优化器： 使用 AdamW 优化器，学习率为 $5 \times 10^{-5}$ 。
训练协议： 包含 2000 个热身步骤 (Warm-up Steps)。
训练时长： 大约需要 180 个 GPU 天。

5. 实验设置

本节详细介绍 Hunyuan3D 2.1 模型的实验设置，包括使用的数据集、评估指标以及用于比较的基线模型。

5.1. 数据集

5.1.1. 形状生成数据集

来源与规模： 收集了超过 100K 个带纹理和不带纹理的 3D 数据。
具体数据集： 主要来源于：
- ShapeNet [28]: 一个大型 3D 形状数据集，包含各种类别的 CAD 模型。
- ModelNet40 [29]: 包含 40 个类别的 CAD 模型，常用于 3D 形状分类和识别。
- Thingi10K [30]: 一个包含 10,000 个 3D 打印模型的实用数据集。
- Objaverse [31, 32]: 一个包含大量高质量 3D 对象的统一数据集。
特点： 这些数据集涵盖了多样化的 3D 对象，从简单几何体到复杂模型，为训练形状生成模型提供了丰富的几何信息。

5.1.2. 纹理合成数据集

来源与规模： 从 Objaverse [31] 和 Objaverse-XL [32] 中筛选出超过 70K 个高质量、经过人工标注的数据。
特点： 这些数据遵循严格的策展协议，确保了纹理细节的丰富性和质量，对于训练 PBR 材质合成模型至关重要。

5.2. 评估指标

5.2.1. 3D 形状生成评估指标

为了评估 3D 形状生成性能，论文使用了 ULIP [41] 和 Uni3D [42] 模型来衡量生成网格与输入图像之间的相似度。

5.2.1.1. ULIP (Unified Language-Image Pretraining for 3D)

ULIP 是一种统一的语言-图像预训练框架，用于 3D 理解。它学习一种多模态表示，能够将 3D 点云、图像和文本嵌入到同一个潜在空间中。

概念定义： ULIP 旨在量化 3D 形状（点云表示）与文本描述或 2D 图像之间的语义一致性。高 ULIP 分数表明生成的 3D 形状在语义上与给定的文本或图像更匹配。
数学公式： ULIP 分数通常通过计算特征嵌入之间的余弦相似度来获得。 $\mathrm{Similarity}(A, B) = \frac{A \cdot B}{\|A\|_2 \|B\|_2}$
- ULIP-T (ULIP-Text similarity):
  - 概念定义：衡量生成的 3D 形状（点云）与描述该形状的文本之间的语义相似度。
  - 公式： $\mathrm{ULIP-T} = \mathrm{Similarity}(\mathrm{Embed_{ULIP}}(P), \mathrm{Embed_{ULIP}}(T))$
  - 符号解释：
    - $P$ : 从生成的网格采样的点云数据。
    - $T$ : 描述输入图像的文本描述，由 VLM 模型生成。
    - $\mathrm{Embed_{ULIP}}(\cdot)$ : ULIP 模型对输入（点云或文本）进行编码得到的特征嵌入。
    - $\mathrm{Similarity}(\cdot, \cdot)$ : 余弦相似度函数。
- ULIP-I (ULIP-Image similarity):
  - 概念定义：衡量生成的 3D 形状（点云）与输入图像之间的语义相似度。
  - 公式： $\mathrm{ULIP-I} = \mathrm{Similarity}(\mathrm{Embed_{ULIP}}(P), \mathrm{Embed_{ULIP}}(I))$
  - 符号解释：
    - $P$ : 从生成的网格采样的点云数据。
    - $I$ : 输入图像。
    - $\mathrm{Embed_{ULIP}}(\cdot)$ : ULIP 模型对输入（点云或图像）进行编码得到的特征嵌入。
    - $\mathrm{Similarity}(\cdot, \cdot)$ : 余弦相似度函数。
计算方法： 论文中具体做法是，从生成的网格中采样 8,192 个表面点作为点云模态。输入图像的文本描述来自现有 VLM 模型。然后，使用 ULIP 模型计算点云与文本之间 (ULIP-T) 以及点云与图像之间 (ULIP-I) 的相似度。

5.2.1.2. Uni3D (Unified 3D Representation)

Uni3D 旨在探索统一的 3D 表示，同样能够将不同模态（如 3D 形状和图像/文本）映射到共享嵌入空间。

概念定义： Uni3D 旨在量化 3D 形状与文本描述或 2D 图像之间的语义一致性，与 ULIP 类似。
数学公式： Uni3D 分数也通常通过计算特征嵌入之间的余弦相似度来获得。
- Uni3D-T (Uni3D-Text similarity):
  - 概念定义：衡量生成的 3D 形状（点云）与描述该形状的文本之间的语义相似度。
  - 公式： $\mathrm{Uni3D-T} = \mathrm{Similarity}(\mathrm{Embed_{Uni3D}}(P), \mathrm{Embed_{Uni3D}}(T))$
  - 符号解释：
    - $P$ : 从生成的网格采样的点云数据。
    - $T$ : 描述输入图像的文本描述，由 VLM 模型生成。
    - $\mathrm{Embed_{Uni3D}}(\cdot)$ : Uni3D 模型对输入（点云或文本）进行编码得到的特征嵌入。
    - $\mathrm{Similarity}(\cdot, \cdot)$ : 余弦相似度函数。
- Uni3D-I (Uni3D-Image similarity):
  - 概念定义：衡量生成的 3D 形状（点云）与输入图像之间的语义相似度。
  - 公式： $\mathrm{Uni3D-I} = \mathrm{Similarity}(\mathrm{Embed_{Uni3D}}(P), \mathrm{Embed_{Uni3D}}(I))$
  - 符号解释：
    - $P$ : 从生成的网格采样的点云数据。
    - $I$ : 输入图像。
    - $\mathrm{Embed_{Uni3D}}(\cdot)$ : Uni3D 模型对输入（点云或图像）进行编码得到的特征嵌入。
    - $\mathrm{Similarity}(\cdot, \cdot)$ : 余弦相似度函数。
计算方法： 与 ULIP 类似，使用相同的采样点云和文本描述，通过 Uni3D 模型计算相似度。

5.2.2. 纹理合成评估指标

为了量化生成纹理与真实纹理之间的相似度，论文采用了 Fréchet Inception Distance (FID) [43]、CLIP-based FID (CLIPFID) [44] 和 Learned Perceptual Image Patch Similarity (LPIPS) [45] 指标。

5.2.2.1. Fréchet Inception Distance (FID)

概念定义： FID 是一个衡量生成图像质量和多样性的指标，通过比较生成图像分布和真实图像分布在特征空间中的距离来评估。它假设特征空间中的图像服从多元高斯分布。FID 值越低，表示生成图像的质量和多样性越好，与真实图像的分布越接近。
数学公式： $\mathrm{FID} = \|\mu_1 - \mu_2\|_2^2 + \mathrm{Tr}(\Sigma_1 + \Sigma_2 - 2(\Sigma_1 \Sigma_2)^{1/2})$
- 符号解释：
  - $\mu_1, \Sigma_1$ : 真实图像在 Inception 网络某个中间层的特征嵌入的均值和协方差矩阵。
  - $\mu_2, \Sigma_2$ : 生成图像在 Inception 网络相同中间层的特征嵌入的均值和协方差矩阵。
  - $\|\cdot\|_2^2$ : $L_2$ 范数的平方。
  - $\mathrm{Tr}(\cdot)$ : 矩阵的迹 (Trace)。
  - $(\Sigma_1 \Sigma_2)^{1/2}$ : 矩阵 $\Sigma_1 \Sigma_2$ 的平方根。

5.2.2.2. CLIP-based FID (CLIPFID)

概念定义： CLIPFID 是 FID 的一个变体，它不是使用 Inception 网络提取特征，而是使用 CLIP (Contrastive Language–Image Pre-training) 模型提取图像特征。CLIP 模型通过对比学习在大量图像-文本对上进行训练，能够学习到更强的语义和感知特征。CLIPFID 同样是值越低越好。
数学公式： CLIPFID 的计算公式与标准 FID 相同，但特征嵌入 ( $\mu, \Sigma$ $μ, Σ$ ) 是从 CLIP 模型的图像编码器中提取的。 $\mathrm{CLIPFID} = \|\mu_1 - \mu_2\|_2^2 + \mathrm{Tr}(\Sigma_1 + \Sigma_2 - 2(\Sigma_1 \Sigma_2)^{1/2})$
- 符号解释：
  - $\mu_1, \Sigma_1$ : 真实图像通过 CLIP 图像编码器获得的特征嵌入的均值和协方差矩阵。
  - $\mu_2, \Sigma_2$ : 生成图像通过 CLIP 图像编码器获得的特征嵌入的均值和协方差矩阵。
  - 其余符号同 FID。

5.2.2.3. Learned Perceptual Image Patch Similarity (LPIPS)

概念定义： LPIPS 是一种衡量两张图像之间感知相似度的指标。它利用预训练的深度神经网络（如 AlexNet、VGG）提取图像特征，然后计算这些特征之间的距离。LPIPS 旨在更好地匹配人类的感知判断，即人眼认为相似的图像应该有较低的 LPIPS 值。LPIPS 值越低，表示图像越相似。
数学公式： $\mathrm{LPIPS}(x, x_0) = \sum_{l} \frac{1}{H_l W_l} \sum_{h,w} \|w_l \odot (\phi_l(x)_{h,w} - \phi_l(x_0)_{h,w})\|_2^2$
- 符号解释：
  - $x$ : 原始图像（或真实图像）。
  - $x_0$ : 目标图像（或生成图像）。
  - $\phi_l(\cdot)$ : 预训练深度学习网络（如 AlexNet）在第 $l$ 层的特征提取器。
  - $H_l, W_l$ : 第 $l$ 层特征图的高度和宽度。
  - $w_l$ : 在第 $l$ 层的特征通道上学习到的权重向量。
  - $\odot$ : 元素级乘法 (element-wise product)。
  - $\|\cdot\|_2^2$ : $L_2$ 范数的平方。
  - $\sum_{l}$ : 对所有选定的网络层求和。

5.3. 对比基线

5.3.1. 形状生成模型

论文将 Hunyuan3D-DiT 与以下领先模型进行比较：

Michelangelo [8]: 基于形状-图像-文本对齐潜在表示的条件 3D 形状生成模型。
Craftsman 1.5 [24]: 专注于高保真网格生成，包含 3D 原生生成和交互式几何细化。
TripoSG [9]: 使用大规模整流流模型实现高保真 3D 形状合成。
Step1X-3D [26]: 一个针对高保真和可控 3D 资产生成的模型。
Trellis [25]: 针对可扩展和多功能 3D 生成的结构化 3D 潜在模型。
Direct3D-S2 [27]: 利用空间稀疏注意力实现大规模 3D 生成的模型。

5.3.2. 纹理合成模型

论文将 Hunyuan3D-Paint 与以下图像到纹理模型进行比较：

SyncMVD-IPA [13]: 通过同步多视图扩散进行文本引导纹理化。
TexGen [46]: 用于网格纹理的生成扩散模型。
Hunyuan3D2.0 [36]: Hunyuan3D 2.1 的前身，同样专注于高分辨率纹理 3D 资产生成。

5.3.3. 图像到 3D 模型 (端到端)

论文还对 Hunyuan3D 2.1 进行了可视化比较，包括几何形状和 PBR 材质的端到端生成，与以下公开可访问的 3D 生成算法进行对比：

Step1X-3D [26]: (同形状生成基线)
3DTopiaXL [47]: 通过原始扩散实现高品质 3D 资产生成。
Commercial Model 1 和 Model 2: 未公开具体名称的商业 3D 生成模型。

6. 实验结果与分析

本节深入分析了 Hunyuan3D 2.1 在 3D 形状生成、纹理合成以及完整的 3D 资产创建方面的实验结果，并与其他领先模型进行了定量和定性比较。

6.1. 核心结果分析

6.1.1. 3D 形状生成

形状生成是 3D 生成的关键环节，直接决定了后续任务的基础。Hunyuan3D-DiT 在此阶段的表现对最终 3D 资产的质量至关重要。

以下是原文 Table 1 的结果：

Models	ULIP-T (↑)	ULIP-I (↑)	Uni3D-T (↑)	Uni3D-I (↑)
Michelangelo [8]	0.0752	0.1152	0.2133	0.2611
Craftsman 1.5 [24]	0.0745	0.1296	0.2375	0.2987
TripoSG [9]	0.0767	0.1225	0.2506	0.3129
Step1X-3D [26]	0.0735	0.1183	0.2554	0.3195
Trellis [25]	0.0769	0.1267	0.2496	0.3116
Direct3D-S2 [27]	0.0706	0.1134	0.2346	0.2930
Hunyuan3D-DiT	0.0774	0.1395	0.2556	0.3213

表1：形状生成的定量比较。Hunyuan3D-DiT 表现最佳。

定量分析： 如表1所示，Hunyuan3D-DiT 在所有评估指标 (ULIP-T, ULIP-I, Uni3D-T, Uni3D-I) 上均取得了最优性能。
- ULIP-T 和 ULIP-I 衡量 3D 形状与文本和图像的语义相似度。Hunyuan3D-DiT 分别达到了 0.0774 和 0.1395，均高于所有对比基线。
- Uni3D-T 和 Uni3D-I 是另一套相似度指标。Hunyuan3D-DiT 分别达到了 0.2556 和 0.3213，同样领先于其他模型。
- 这表明 Hunyuan3D-DiT 生成的 3D 形状在语义上与输入图像和描述文本具有更高的一致性。
定性分析： 下图（原文 Figure 5）展示了图像到形状生成的定性比较：

该图像是图5，展示了多种方法进行图像到三维形状生成的定性对比。左列为输入图像，右侧展示了Direct3D-S2、Step1X-3D、TripoSG和本文方法生成的3D模型视图，体现了各方法的形状还原能力。

图5：图像到形状生成的定性比较。

*   图5的视觉比较进一步证实了 `Hunyuan3D-DiT` 对图像提示的忠实遵循。它能够忠实捕捉复杂的细节，例如玩具的轮廓、计算器按钮的数量、耙子齿的数量以及战斗机的结构。
*   此外，`Hunyuan3D-DiT` 能够生成水密的网格 (Watertight Meshes)，这对于下游应用（如游戏、模拟）至关重要。

6.1.2. 纹理贴图合成

纹理贴图直接影响带纹理 3D 资产的视觉吸引力。

以下是原文 Table 2 的结果：

Method	CLIP-FID (↓)	CMMD (↓)	CLIP-I (↑)	LPIPS (↓)
SyncMVD-IPA [13]	28.39	2.397	0.8823	0.1423
TexGen [46]	28.24	2.448	0.8818	0.1331
Hunyuan3D-2.0 [36]	26.44	2.318	0.8893	0.1261
Hunyuan3D-Paint	24.78	2.191	0.9207	0.1211

表2：纹理生成的定量比较。Hunyuan3D-Paint 表现最佳。注：CMMD (Chamfer Multi-Modal Distance) 是衡量不同模态数据之间距离的指标，通常越低越好。这里没有在评估指标中详细展开，但根据上下文，其含义与 FID 类似，旨在衡量生成质量。

定量分析： 如表2所示，Hunyuan3D-Paint 在纹理生成方面取得了最佳性能。
- CLIP-FID (越低越好)：Hunyuan3D-Paint 的 24.78 明显低于所有基线，包括其前身 Hunyuan3D-2.0 的 26.44。这表明其生成的纹理与真实纹理在 CLIP 特征空间中的距离更小，感知质量更高。
- CMMD (越低越好)：Hunyuan3D-Paint 的 2.191 同样是最低的，进一步验证了生成纹理与真实纹理的相似性。
- CLIP-I (越高越好)：Hunyuan3D-Paint 的 0.9207 显著高于其他模型，表明其生成的纹理与输入图像的特征一致性更强。
- LPIPS (越低越好)：Hunyuan3D-Paint 的 0.1211 也是最低的，说明其在人类感知层面与真实纹理更为接近。
定性分析： 下图（原文 Figure 6）展示了纹理合成的定性比较：

该图像是图6，展示了纹理合成的定性比较。图中包含多组不同模型和方法生成的3D纹理效果对比，突出展示了使用本论文提出的PBR纹理技术后，模型在细节和质感上的明显提升。

图6：纹理合成的定性比较。

*   图6的视觉比较清晰地展示了 `Hunyuan3D-Paint` 优于所有比较方法。特别是在细节、纹理一致性和逼真度方面，`Hunyuan3D-Paint` 能够生成更精细、更符合物理规律的 `PBR` 材质，减少了视觉伪影。

6.1.3. 完整的 3D 资产创建 (图像到 3D)

本部分评估了从图像到完整 3D 资产（包含几何形状和纹理）的端到端生成质量。

以下是原文 Figure 7 的结果：

Figure 7: The qualitative comparisons for image-to-3D generation.
该图像是图7，展示了多种不同模型对图像生成3D资产的定性比较，包括四类物体（虎、卡通人物、卡车和花盒）的多视角渲染结果，突出了本方法在细节和材质表现上的优势。

图7：图像到 3D 生成的定性比较。

定性分析： 图7展示了 Hunyuan3D 2.1 与 Step1X-3D、3DTopiaXL 以及两个商业模型在图像到 3D 生成方面的比较。
- Hunyuan3D 2.1 生成的模型在几何细节和 PBR 材质的表现上都非常出色。
- 论文指出，Hunyuan3D 2.1 不仅能够生成最高保真度的 PBR 材质贴图，还能有效弥补（或避免）低质量几何结构带来的缺陷，从而实现优于现有方法的端到端性能。
- 例如，在虎的模型中，Hunyuan3D 2.1 能够更好地还原毛发纹理的细节和光照下的质感；在卡通人物、卡车和花盒的示例中，Hunyuan3D 2.1 生成的形状更精确，材质也更逼真、更符合物理规律。

6.2. 消融实验/参数分析

论文中未明确提及消融实验部分。然而，从方法论的介绍中可以看出其组件的重要性：

形状与纹理分离： 论文强调了这种模块化设计（形状与纹理分离）的有效性，表明它可能在设计初期就通过比较整体方案进行了验证。
Hunyuan3D-ShapeVAE 的创新： 网格表面重要性采样和可变令牌长度对捕捉复杂几何细节至关重要。
Hunyuan3D-Paint 的创新： 空间对齐多注意力模块、3D-Aware RoPE 和光照不变训练策略，这些都是为了解决特定问题（如纹理对齐、跨视图一致性、光照影响）而设计的，暗示了它们各自的贡献。

尽管没有详细的消融研究表格，但这些组件的引入是基于对现有挑战的深入理解，并经过内部验证以优化性能。

7. 总结与思考

7.1. 结论总结

Hunyuan3D 2.1 代表了 3D 人工智能生成内容 (AIGC) 领域的一项重大进展，它成功地将高保真几何生成和生产级 PBR 材质合成统一到一个开放源码框架中。该系统通过其双核心架构——用于形状生成的 Hunyuan3D-DiT 和用于纹理合成的 Hunyuan3D-Paint，实现了从单个图像输入快速创建工作室质量 3D 资产的能力。

Hunyuan3D-DiT 结合了先进的流匹配扩散架构和创新的 Hunyuan3D-ShapeVAE，能够生成细节丰富且水密的 3D 形状。Hunyuan3D-Paint 则通过引入空间对齐多注意力模块、3D 感知旋转位置编码和光照不变训练策略，解决了 PBR 材质合成中的关键挑战，确保了多通道对齐、跨视图一致性和光照无关的反照率贴图。

通过与领先的商业和开源模型进行全面的定量和定性评估，Hunyuan3D 2.1 在几何准确性、纹理-照片一致性和用户偏好方面均表现出卓越的性能。最为重要的是，Hunyuan3D 2.1 作为首个完全开源的 PBR 纹理 3D 资产生成解决方案，极大地降低了先进 3D AIGC 的技术门槛，有望彻底改变游戏、虚拟现实和工业设计等领域的工作流程，促进全球范围内的合作与创新。

7.2. 局限性与未来工作

论文中未明确指出自身的局限性或详细的未来工作方向。然而，从其描述和领域挑战中可以推断出一些潜在的局限性和未来的研究方向：

局限性：
- 数据依赖： 尽管使用了 $100K+$ 形状数据和 $70K+$ 高质量纹理数据，但 3D 数据集的收集和标注仍然是一个巨大的挑战。模型的泛化能力可能仍受限于训练数据的多样性和覆盖范围，特别是对于一些罕见或高度复杂的对象类型。
- 计算成本： 训练 180 GPU 天以及使用大型 DINOv2 Giant 编码器表明其训练和潜在推理的计算成本较高，这对于资源有限的个人或小型团队仍可能构成障碍。
- 细节粒度： 尽管声称生成高保真资产，但对于极端精细的几何微结构或超现实的材质磨损细节，可能仍需进一步改进。
- 拓扑复杂性： 尽管能够生成水密网格，但在处理具有复杂拓扑（如多孔、连接复杂部分）的对象时，模型的鲁棒性仍有待验证。
- 可控性： 论文主要关注从单图像生成，对于更精细的用户控制（如特定部件修改、风格迁移、用户引导的纹理绘制）的描述较少，这可能是未来提升用户体验的方向。
- 实时性： 扩散模型和 ODE 求解器的推理速度，即使经过优化，可能仍难以满足某些对实时性要求极高的应用场景。
未来工作：
- 更高效的模型： 探索更轻量级、推理速度更快的模型架构，同时保持或提升生成质量。
- 更强大的数据驱动： 开发更自动化、更智能的 3D 数据收集和标注工具，以进一步扩大和丰富训练数据集。
- 多模态输入与交互： 结合文本、草图、视频等多种输入模态，实现更灵活、更直观的 3D 资产生成，并支持用户交互式编辑。
- 高级材质属性： 探索除了 albedo、metallic、roughness 之外更高级的 PBR 材质属性生成，如法线贴图 (Normal Map)、高光 (Specular)、自发光 (Emissive) 等，以及非 PBR 特效材质。
- 泛化到新领域： 将 Hunyuan3D 2.1 的方法泛化到其他 3D 任务，如角色动画、场景生成等。

7.3. 个人启发与批判

启发：
- 模块化设计的优势： 论文再次验证了在复杂生成任务中，将问题分解为可管理的子任务（如形状和纹理分离）并为每个子任务设计专门优化模块的有效性。这种策略能够更好地控制生成过程，提高各部分的质量，并便于调试和迭代。
- PBR 材质的重要性： 强调了 PBR 材质对于实现生产级、物理真实感 3D 资产的不可或缺性。未来的 3D AIGC 解决方案必须超越简单的颜色纹理。
- 开源生态的推动力： 腾讯混元团队决定完全开源 Hunyuan3D 2.1，这对于 3D AIGC 领域的发展具有里程碑意义。它将极大加速该领域的创新速度，并让更多研究者和开发者参与进来，共同推动技术进步。这与 Stable Diffusion 在 2D 图像生成领域的成功如出一辙。
- 3D-Aware RoPE 的巧妙： 在多视图纹理合成中引入 3D 感知位置编码来解决跨视图一致性问题是一个非常巧妙且有效的技术点，值得在其他多视图任务中借鉴。
批判：
- “黑盒”模型与可解释性：像扩散模型和大型 Transformer 这样的复杂模型，其内部决策过程往往缺乏可解释性。当生成结果不理想时，难以精确诊断问题所在。
- 数据集偏差： 即使是大规模数据集，也可能存在某种形式的偏差（如特定对象类别、风格或几何复杂度的不足）。这可能导致模型在处理“离群”数据时表现不佳。论文中提到的人工策展虽然提高了质量，但也可能引入策展者的主观偏好。
- “生产级”的定义：论文声称“生产级”，但一个真正的生产级 3D 资产往往需要艺术家进行大量的后期修饰和优化。尽管该模型显著提升了生成质量，但自动化到何种程度才能真正替代或大幅减少人工干预，仍需在实际工业生产中进行严格检验。
- 通用性与领域专业性： 虽然模型表现出色，但对于特定行业（如建筑、医疗）或特定风格（如卡通、写实）的资产生成，是否需要进行进一步的领域适应性微调，论文未详细说明。
- 潜在的伦理问题： 随着 AIGC 技术的发展，如何确保生成内容的版权、避免生成有害或误导性内容、以及解决对传统艺术家工作的冲击等伦理和社会问题，是所有 AIGC 研究所需要持续关注的。

相似论文推荐

基于向量语义检索推荐的相关论文。

暂时没有找到相似论文。