Seed3D 1.0: From Images to High-Fidelity Simulation-Ready 3D Assets

Xuanmeng Zhang

论文状态：已完成

Seed3D 1.0: From Images to High-Fidelity Simulation-Ready 3D Assets

发表：2025/10/23

从单图像生成3D资产 (1)物理引擎集成的模拟准备资产 (1)高保真3D场景生成 (1)机器人操作中的可扩展内容创作 (1)Seed3D 1.0基础模型 (1)

原文链接 PDF 下载

价格：0.10

已有 3 人读过

本分析由 AI 生成，可能不完全准确，请以原文为准。

TL;DR 精炼摘要

本文介绍了Seed3D 1.0，一个从单张图像生成高保真、模拟就绪3D资产的基础模型，解决了开发具身AI所需的可扩展训练环境中内容多样性与物理精度的平衡问题。Seed3D 1.0生成的资产具备精确的几何结构和逼真的材质，可直接集成到物理引擎，支持机器人操作与完整场景生成，推进基于物理的世界模拟器的发展。

摘要

Developing embodied AI agents requires scalable training environments that balance content diversity with physics accuracy. World simulators provide such environments but face distinct limitations: video-based methods generate diverse content but lack real-time physics feedback for interactive learning, while physics-based engines provide accurate dynamics but face scalability limitations from costly manual asset creation. We present Seed3D 1.0, a foundation model that generates simulation-ready 3D assets from single images, addressing the scalability challenge while maintaining physics rigor. Unlike existing 3D generation models, our system produces assets with accurate geometry, well-aligned textures, and realistic physically-based materials. These assets can be directly integrated into physics engines with minimal configuration, enabling deployment in robotic manipulation and simulation training. Beyond individual objects, the system scales to complete scene generation through assembling objects into coherent environments. By enabling scalable simulation-ready content creation, Seed3D 1.0 provides a foundation for advancing physics-based world simulators. Seed3D 1.0 is now available on https://console.volcengine.com/ark/region:ark+cn-beijing/experience/vision?modelId=doubao-seed3d-1-0-250928&tab=Gen3D

论文精读

中文精读约 59 分钟读完 · 33,715 字

1. 论文基本信息

1.1. 标题

Seed3D 1.0: From Images to High-Fidelity Simulation-Ready 3D Assets

1.2. 作者

ByteDance Seed

核心贡献者 (Core Contributors): Jiashi Feng, Xiu Li, Jing Lin, Jiahang Liu, Gaohong Liu, Weiqiang Lou, Su Ma, Guang Shi, Qinlong Wang, Jun Wang, Zhongcong Xu, Xuanyu Yi, Zihao Yu, Jianfeng Zhang, Yifan Zhu

其他贡献者 (Contributors): Rui Chen, Jinxin Chi, Zixian Du, Li Han, Lixin Huang, Kaihua Jiang, Yuhan Li, Guan Luo, Shuguang Wang, Qianyi Wu, Fan Yang, Junyang Zhang, Xuanmeng Zhang

1.3. 发表期刊/会议

arXiv 预印本 (arXiv preprint)

1.4. 发表年份

2025年10月22日

1.5. 摘要

开发具身 AI (embodied AI) 智能体需要可扩展的训练环境，这些环境需在内容多样性和物理精度之间取得平衡。世界模拟器 (World simulators) 提供了此类环境，但面临明显的局限性：基于视频的方法生成内容多样但缺乏实时物理反馈以进行交互式学习；而基于物理的引擎提供准确的动力学，但由于手动资产创建成本高昂而面临可扩展性限制。本文提出了 Seed3D 1.0，一个基础模型，能够从单张图像生成模拟就绪 (simulation-ready) 的 3D 资产，从而解决了可扩展性挑战，同时保持了物理严谨性。与现有 3D 生成模型不同，我们的系统生成的资产具有精确的几何结构、良好对齐的纹理和逼真的基于物理的材质 (physically-based materials)。这些资产可以直接集成到物理引擎中 (directly integrated into physics engines)，只需最少的配置，即可部署于机器人操作和模拟训练。除了单个对象，该系统还可以通过将对象组装成连贯的环境来扩展到完整的场景生成。通过实现可扩展的模拟就绪内容创建，Seed3D 1.0 为推进基于物理的世界模拟器提供了基础。Seed3D 1.0 现已在火山引擎 (Volcano Engine) 上可用。

1.6. 原文链接

https://arxiv.org/abs/2510.19944v1 PDF 链接: https://arxiv.org/pdf/2510.19944v1.pdf 发布状态：预印本 (Preprint)

2. 整体概括

2.1. 研究背景与动机

当前，大型多模态模型 (Large multimodal models, LMMs) 正从被动式聊天机器人向能够与工具、API 和软件环境交互的主动智能体 (active agents) 演进。这一进展推动了 AI 的长期目标：构建能够感知、推理并在物理世界中行动的自主机器人 (autonomous robots)。然而，当前的 LMMs 缺乏物理交互所需的核心能力，例如理解 3D 对象结构、空间关系、材料属性和物理动力学。例如，一个家用机器人必须能够准确感知部分遮挡物背后的对象位置、材料属性、施加适当的力，并预测在杂乱空间中的操作后果。

核心挑战在于数据稀缺性 (data scarcity)。互联网数据虽然庞大，但偏向于文本和 2D 表示，无法提供具身系统所需的丰富空间-物理信息 (spatial-physical information)。尽管强化学习在代码领域取得了突破，模型从代码执行环境中学习，但将这种范式扩展到具身 AI 需要高保真模拟环境 (high-fidelity simulation environments)，以提供空间推理和物理操作任务的有意义反馈，而这在很大程度上仍然缺失。

现有世界模拟器 (world simulators) 面临一个根本性的权衡：

基于视频的方法 (Video-based methods)：例如 Cosmos 和 Genie-3，能够生成多样化的内容，但缺乏 3D 一致性和对具身智能体训练至关重要的中间反馈机制。
基于物理的模拟器 (Physics-based simulators)：例如 IsaacGym，提供严格的动力学和明确的物理建模，具有可解释性和安全性，但面临严重的可扩展性限制。手动创建资产成本高昂，需要大量专业知识和时间，从根本上限制了训练环境的多样性和规模。

为了解决这一挑战，一个高效的世界模拟器必须弥合内容可扩展性与模拟保真度之间的鸿沟 (bridge content scalability with simulation fidelity)。它应该能够生成多样化、物理上合理 (physically plausible) 的 3D 内容，同时提供快于实时 (faster-than-real-time) 的物理反馈，以实现交互式智能体训练。

2.2. 核心贡献/主要发现

本文介绍了 Seed3D 1.0，一个用于生成模拟就绪 (simulation-ready) 3D 资产的基础模型，旨在推进上述愿景。Seed3D 1.0 通过生成可有效集成到物理引擎 (physics engines) 中的高质量 3D 资产，解决了内容可扩展性挑战，结合了生成多样性与模拟严谨性。其主要贡献和关键能力包括：

高保真资产生成 (High-Fidelity Asset Generation): Seed3D 1.0 能够生成具有详细几何结构、照片级真实感纹理 (photorealistic textures)（高达 4K 分辨率）和物理合理性 PBR 材质 (physically plausible PBR materials) 的 3D 资产，确保在各种照明条件下具有逼真的光照交互。与现有方法常产生几何伪影或纹理未对齐不同，Seed3D 1.0 确保了高质量、一致的资产，适用于渲染和物理模拟。
物理引擎兼容性 (Physics Engine Compatibility): Seed3D 1.0 生成的资产可以以最少的配置无缝集成到物理引擎中。该系统在模拟驱动的数据生成 (simulation-based data generation) 中展示了实际应用，这些资产为训练机器人操作模型创建了多样化的操作场景。除了数据收集，物理兼容性自然支持交互式强化学习环境 (interactive environments for reinforcement learning)，智能体通过环境反馈获取技能。
可扩展场景组合 (Scalable Scene Composition): 除了单个资产，Seed3D 1.0 采用分解式方法 (factorized approach) 进行场景生成：视觉-语言模型 (vision-language models, VLMs) 理解并规划空间布局，而生成模型根据这些布局创建和放置资产，从而实现了从室内到城市环境的连贯场景组合。

通过实现可扩展的模拟就绪 3D 资产生成和场景级组合，Seed3D 1.0 代表着向实用世界模拟器迈出了重要一步，为具身 AI 领域的发展奠定了基础。

3. 预备知识与相关工作

3.1. 基础概念

具身 AI (Embodied AI): 指的是能够感知环境、进行决策并采取物理行动的智能系统或机器人。它们通常需要在模拟环境或真实世界中学习和互动，以发展类似人类的智能和技能。
世界模拟器 (World Simulators): 旨在模拟物理世界及其交互的软件环境。它们为 AI 智能体提供了一个受控且可重复的训练场，使智能体能够在不损坏真实设备或面临真实世界风险的情况下学习和测试策略。模拟器需要平衡内容多样性（提供足够多的训练场景）和物理精度（准确模拟物理定律）。
物理引擎 (Physics Engines): 专门用于计算和模拟物理世界中物体运动、碰撞、重力、摩擦力等物理现象的软件模块。它们是世界模拟器的核心组成部分，为智能体提供逼真的物理反馈。
3D 资产 (3D Assets): 指在 3D 计算机图形中用于表示物体、角色、场景等的一切数据，包括其几何形状（模型）、表面外观（纹理）、材质属性以及动画等。
物理渲染 (Physically-Based Rendering, PBR): 一种现代渲染技术，旨在更精确地模拟光线与物体表面的交互方式。PBR 材质通常由多个贴图组成，如反照率 (albedo)、金属度 (metallic) 和粗糙度 (roughness)，这些贴图定义了物体表面的光学属性，使得在不同光照条件下都能呈现逼真的外观。
变分自编码器 (Variational Autoencoder, VAE): 一种生成模型，属于深度学习领域。它通过学习将输入数据编码成一个概率分布的潜在空间 (latent space) 表示，并能从该潜在空间解码出新的、与训练数据相似的样本。VAE 的目标是学习数据的紧凑且有意义的潜在表示，同时能够进行高效的重构。
扩散模型 (Diffusion Models): 一类新兴的生成模型，通过逐步向数据添加噪声，然后学习逆向过程（去噪）来生成新的数据样本。它们在图像生成等领域表现出卓越的性能，能够生成高质量和多样化的内容。
Transformer (Transformer): 一种基于自注意力 (self-attention) 机制的神经网络架构，最初用于自然语言处理，后来被广泛应用于计算机视觉等其他领域。其核心思想是通过注意力机制捕捉输入序列中不同部分之间的依赖关系。
截断符号距离函数 (Truncated Signed Distance Function, TSDF): 一种用于表示 3D 几何形状的隐式函数。它将 3D 空间中的每个点映射到其到物体表面最近距离的符号值（内部为负，外部为正），并在一定距离之外进行截断。TSDF 能够表示复杂的拓扑结构，且易于合并和更新。
多模态模型 (Multimodal Models): 能够处理和理解多种类型数据（如图像、文本、音频、3D 形状）的模型。它们旨在学习不同模态之间的关联，从而实现更全面的世界理解。
UV 贴图 (UV Mapping): 3D 模型的一个重要组成部分，它将 3D 模型表面上的点映射到 2D 纹理图像上的坐标。UV 贴图定义了纹理如何包裹在 3D 模型的表面上，是实现模型纹理化的关键技术。
法线贴图 (Normal Maps): 一种纹理贴图，用于存储表面法线方向的扰动信息。通过法线贴图，可以在不增加模型几何复杂度的前提下，模拟出表面上的微小凹凸细节，增强视觉真实感。
坐标图 (Coordinate Maps): 通常指将模型表面上的点映射到某个坐标系（如世界坐标系、局部坐标系或特定纹理坐标系）中的图像。在本文中，canonical coordinate maps (CCMs) 指的是一种标准化的坐标表示，有助于在不同视角下保持几何一致性。
VLM (Vision-Language Model): 视觉-语言模型，可以理解和处理图像和文本两种模态的信息，例如可以根据图像生成描述性文字，或根据文字生成图像。

3.2. 前人工作

论文主要提及了两类现有世界模拟器的局限性，以及一些用于视觉和 3D 生成的基础模型：

基于视频的世界模拟器 (Video-based World Simulators):
- Cosmos [1] 和 Genie-3 [4]: 这类方法能够生成多样化的内容，但其主要缺点是缺乏 3D 一致性和实时物理反馈机制。这意味着它们生成的环境可能在视觉上丰富，但无法提供机器人智能体进行物理交互所需的准确物理动力学信息。
基于物理的模拟器 (Physics-based Simulators):
- IsaacGym [38]: 这类模拟器提供严格的物理动力学建模和明确的物理反馈，这对于具身 AI 的可解释性和安全性至关重要。然而，它们的可扩展性 (scalability) 受到严重限制，因为手动创建高质量的 3D 资产（包括几何、纹理和物理属性）需要大量专业知识和时间，这极大地限制了训练环境的多样性和规模。
现有 3D 生成模型 (Existing 3D Generation Models): 论文指出，当前的 3D 生成方法通常存在一些问题，例如产生几何伪影 (geometric artifacts) 或纹理未对齐 (texture misalignment)，这使得它们不适合直接集成到物理引擎中进行高保真模拟。
视觉和扩散模型 (Vision and Diffusion Models):
- DINOv2 [43] 和 RADIO [45]: 在 Seed3D-DiT 中用于图像条件化模块，它们是强大的视觉特征提取器，DINOv2 提供语义理解，RADIO 通过知识蒸馏增强几何理解以解决单视图深度模糊问题。
- CLIP [44]: 用于 Seed3D-PBR 中的全局控制，提取参考图像的全局特征嵌入。
- FLUX [27]、UniTex [34] 和 ImageDream [56]: 论文在设计其 Transformer 架构和多视图生成策略时，参考了这些扩散模型和多视图生成方法。
PBR 材质合成方法 (PBR Material Synthesis Methods):
- 生成式方法 (Generation-based approaches) [17, 26]: 从参考图像和 3D 几何生成 PBR 贴图。论文指出这类方法由于高质量 PBR 训练数据有限，通常产生的结果不如估计方法逼真。
- 估计式方法 (Estimation-based methods) [33]: 直接从多视图图像中分解出材质成分。Seed3D-PBR 采用了这种范式。

3.3. 技术演进

具身 AI (Embodied AI) 的发展趋势是从最初的被动聊天机器人 (passive chatbots) 演变为能够与工具、API 和软件环境交互的主动智能体 (active agents)。这一转变要求 AI 智能体不仅能理解语言和图像，还能理解物理世界并与之互动。

然而，实现这一目标的关键瓶颈在于数据 (data)。互联网上的数据主要以 2D 文本和图像为主，缺乏具身系统所需的丰富空间-物理信息 (spatial-physical information)。这导致了对高保真、可扩展的模拟环境 (high-fidelity, scalable simulation environments) 的迫切需求，这些环境能够提供精确的物理反馈，以训练智能体的空间推理和物理操作能力。

传统的世界模拟器在内容多样性 (content diversity) 和物理精度 (physics accuracy) 之间存在固有的权衡：

高多样性低物理精度 (High diversity, low physics accuracy): 基于视频的方法可以快速生成大量内容，但缺乏 3D 一致性和物理反馈，无法用于严格的物理模拟。
高物理精度低多样性 (High physics accuracy, low diversity): 基于物理的引擎提供准确的动力学，但其内容创建过程成本高昂且耗时，限制了其在多样性方面的扩展能力。

Seed3D 1.0 的出现正是在这一技术演进背景下，旨在弥合这一鸿沟 (bridge this gap)。它通过提出一个基础模型 (foundation model)，能够从单张图像大规模生成 (scalably generate) 兼具高保真度 (high-fidelity) 和模拟就绪性 (simulation-readiness) 的 3D 资产，从而克服了现有方法的局限性。这使得智能体能够在一个既多样化又物理准确的环境中进行训练，推动了具身 AI 的实用化发展。

3.4. 差异化分析

Seed3D 1.0 与现有 3D 生成模型和世界模拟器的主要区别和创新点在于其结合了生成多样性与模拟严谨性 (combining generative diversity with simulation rigor)，解决了内容可扩展性 (content scalability) 的核心挑战，同时确保了物理引擎的兼容性 (physics engine compatibility)。

针对现有世界模拟器的权衡：
- 基于视频的方法: 它们提供了多样化的内容，但 Seed3D 1.0 的优势在于其生成的 3D 资产具有3D 一致性 (3D consistency) 和物理动力学 (physical dynamics)，这是视频方法所缺乏的。Seed3D 1.0 的资产可以直接用于实时物理反馈的交互式学习。
- 基于物理的模拟器: 它们提供了准确的动力学，但受限于手动资产创建的高昂成本 (costly manual asset creation)。Seed3D 1.0 的核心创新在于它通过从单张图像自动生成高保真、模拟就绪的 3D 资产，极大地提高了资产创建的可扩展性，从而克服了这一内容瓶颈。
针对现有 3D 生成模型：
- 高保真度与质量保证: 许多现有 3D 生成模型可能产生几何伪影 (geometric artifacts) 或纹理未对齐 (texture misalignment)。Seed3D 1.0 的系统设计（包括 Seed3D-DiT 精确几何、Seed3D-MV 一致多视图、Seed3D-PBR 逼真材质和 Seed3D-UV 完整纹理）确保了生成资产具有准确几何 (accurate geometry)、良好对齐纹理 (well-aligned textures) 和逼真 PBR 材质 (realistic PBR materials)，使其能够直接用于物理模拟和渲染。
- 模拟就绪性: 这是一个关键的差异化特征。Seed3D 1.0 生成的资产是可直接集成到物理引擎中 (directly integrable into physics engines) 的，只需最少配置。这意味着它们具有水密性 (watertight) 和流形几何 (manifold geometry)，物理引擎可以自动从中生成碰撞网格，并应用默认材质属性（如摩擦力），实现即时物理模拟。这与许多为纯渲染设计的 3D 生成模型不同。
- 场景级生成: Seed3D 1.0 不仅仅生成单个对象，它还通过分解式方法 (factorized approach) 扩展到完整的场景生成 (complete scene generation)，利用 VLM (Vision-Language Models) 理解布局并组装对象，实现了从室内到城市环境的连贯场景组合。
  
  总之，Seed3D 1.0 的创新之处在于它在一个统一的基础模型框架下，同时解决了 3D 内容的生成多样性、生成质量、物理模拟兼容性和场景级组合能力，从而为具身 AI 提供了前所未有的可扩展的训练环境。

4. 方法论

4.1. 方法原理

Seed3D 1.0 的核心原理是构建一个基础模型 (foundation model)，能够从单个 2D 图像输入，生成高保真 (high-fidelity) 且模拟就绪 (simulation-ready) 的 3D 资产。为了实现这一目标，它采用了模块化 (modular) 和流水线化 (pipelined) 的设计，将复杂的 3D 生成过程分解为几个关键阶段，每个阶段都由专门的深度学习模型处理：

几何生成 (Geometry Generation): 首先，从输入图像生成精确、水密且流形的 3D 几何形状。这确保了生成的对象在物理引擎中能够稳定地进行交互。
多视图纹理合成 (Multi-View Texture Synthesis): 接着，基于生成的几何和输入图像，合成一致的多视图 RGB 图像。这是为后续 PBR 材质分解提供高质量视觉信息的基础。
PBR 材质估计 (PBR Material Estimation): 然后，将多视图 RGB 图像分解为物理渲染 (Physically-Based Rendering, PBR) 所需的材质贴图（如反照率、金属度、粗糙度）。这赋予了资产逼真的光照响应。
UV 纹理补全 (UV Texture Completion): 考虑到多视图渲染可能因遮挡而导致 UV 贴图不完整，通过扩散模型对不完整的 UV 纹理进行补全，确保最终资产的纹理完整性和几何一致性。

整个流水线旨在通过结合生成多样性 (generative diversity) 和物理模拟严谨性 (physics simulation rigor)，解决现有世界模拟器在内容可扩展性和物理保真度之间的权衡问题。通过将这些组件整合到一个系统中，Seed3D 1.0 能够输出可直接用于机器人操作和模拟训练的高质量 3D 资产。

4.2. 核心方法详解

Seed3D 1.0 的推理流水线（Inference pipeline）如图 7 所示，它是一个多阶段的顺序处理过程，将几何、多视图合成、PBR 材质估计和 UV 纹理补全模块串联起来。

该图像是示意图，展示了 Seed3D 1.0 模型从输入图像生成高保真 3D 资产的流程，包括多个处理步骤，如表面提取、几何重建和纹理映射。

图 7：Seed3D 1.0 的推理流水线。给定输入图像，我们的系统通过几何生成（Seed3D-DiT + VAE 解码器）、多视图合成（Seed3D-MV）、PBR 材质估计（Seed3D-PBR）、UV 纹理补全（Seed3D-UV）和最终资产集成这五个顺序阶段来生成纹理 3D 资产。该流水线生成具有水密几何结构和基于物理材质的模拟就绪资产。

4.2.1. 几何生成 (Geometry Generation)

几何生成的目标是创建高保真、模拟就绪的 3D 形状，具有水密（watertight）和流形（manifold）几何结构，以实现可靠的物理模拟，同时保留结构细节。Seed3D 1.0 采用一种结合了变分自编码器 (Variational Autoencoder, VAE) 和整流流扩散变换器 (rectified flow-based diffusion transformers, DiT) 的架构，学习在压缩的潜在空间中对 3D 几何进行去噪。

4.2.1.1. Seed3D-VAE

Seed3D-VAE 旨在学习 3D 几何的紧凑潜在表示，实现复杂网格结构的高效编码和重建，同时保留局部表面细节。它基于 3DShape2VecSet [10, 65] 的设计，将表面点云编码为潜在向量集，并重建连续的几何表示。本文采用截断符号距离函数 (Truncated Signed Distance Function, TSDF) 来表示几何，因为它能有效地捕获精细细节。

架构 (Architecture): Seed3D-VAE 采用双交叉注意力 (cross-attention) 编码器和自注意力 (self-attention) 解码器 [22, 30, 66, 70]。

编码器 (Encoder): 给定输入网格，首先均匀采样点 $P_u$ 并提取显著边缘点 $P_s$ 。这些点通过傅里叶位置编码 (Fourier positional encoding) $\mathrm{PE}(P)$ 进行嵌入，并与表面法线 $n_P$ 拼接。将这些组合后的特征输入到 $L_e$ 层交叉注意力块中，生成潜在词元集 $\mathbf{Z} = \{ \mathbf{z}_m \}_{m=1}^M$ 。 $\mathbf { Z } _ { 0 } = \mathrm { CrossAttn } ( \mathrm { PE } ( P ) , n _ { P } ) , \quad \mathbf { Z } _ { i } = \mathrm { SelfAttn } ( \mathbf { Z } _ { i - 1 } ) , i = 1 , \ldots , L _ { e }$
- $\mathbf{Z}_0$ : 初始潜在词元集，由交叉注意力 CrossAttn 处理位置编码后的点和法线得到。
- $\mathrm{PE}(P)$ : 对点 $P$ （由 $P_u \cup P_s$ 组成）进行傅里叶位置编码。
- $n_P$ : 点 $P$ 的表面法线。
- $\mathrm{CrossAttn}(\cdot, \cdot)$ : 交叉注意力模块。
- $\mathbf{Z}_i$ : 第 $i$ 层自注意力 SelfAttn 块的输出。
- $\mathrm{SelfAttn}(\cdot)$ : 自注意力模块。
- $L_e$ : 编码器中的自注意力层数。
- $M$ : 潜在词元的数量。
- $d$ : 潜在词元的维度。
解码器 (Decoder): 解码器定义了一个连续的 TSDF 场 $f(x | \mathbf{Z}): \mathbb{R}^3 \to \mathbb{R}$ ，以潜在词元集 $\mathbf{Z} \in \mathbb{R}^{M \times d}$ 为条件，将查询点 $x$ 映射到其预测的符号距离值 $\hat{d}(x)$ 。具体地，查询点 $x$ 首先通过傅里叶特征 $\mathrm{PE}(x)$ 进行嵌入，然后通过 $L_k$ 层自注意力层进行精炼，接着通过交叉注意力模块关注潜在描述符 $\{ \mathbf{z}_m \}$ ，最后通过一个多层感知机 (MLP) 头输出。 $\hat { d } ( x ) = \mathrm { MLP } \Big ( \mathrm { CrossAttn } \big ( \mathrm { SelfAttn } ^ { ( j ) } ( \mathrm { PE } ( x ) ) , \mathbf { Z } \big ) \Big ) , \ j = 1 , \ldots , L _ { k }$
- $\hat{d}(x)$ : 查询点 $x$ 的预测符号距离值。
- $\mathrm{MLP}(\cdot)$ : 多层感知机。
- $\mathrm{CrossAttn}(\cdot, \cdot)$ : 交叉注意力模块。
- $\mathrm{SelfAttn}^{(j)}(\mathrm{PE}(x))$ : 经过 $j$ 层自注意力处理后的查询点 $x$ 的傅里叶特征嵌入。
- $\mathrm{PE}(x)$ : 查询点 $x$ 的傅里叶位置编码。
- $\mathbf{Z}$ : 编码器生成的潜在词元集。
- $L_k$ : 解码器中自注意力层的数量。
  
  VAE 训练 (VAE Training): 为了在不同的计算预算下实现泛化并提高鲁棒性，采用多尺度训练策略。在训练过程中，随机采样词元长度 $M \in \{256, 512, \ldots, 4096\}$ 。由于向量集架构的长度无关性（潜在词元是位置编码无关和置换不变的），解码器可以扩展到训练中未见过的词元长度。总体训练目标结合了 TSDF 重建损失 $\mathcal{L}_{\mathrm{recon}}$ 和 KL 散度正则化 $\mathcal{L}_{\mathrm{KL}}$ [25]。 $\mathcal { L } _ { \mathrm { VAE } } = \mathcal { L } _ { \mathrm { recon } } + \lambda _ { \mathrm { KL } } \mathcal { L } _ { \mathrm { KL } }$

$\mathcal{L}_{\mathrm{VAE}}$ : VAE 的总训练损失。
$\mathcal{L}_{\mathrm{recon}}$ : TSDF 重建损失，衡量重建的 TSDF 与真实 TSDF 之间的差异。
$\mathcal{L}_{\mathrm{KL}}$ : KL 散度正则化项，用于使编码器输出的潜在分布接近先验分布（通常是标准正态分布）。
$\lambda_{\mathrm{KL}}$ : KL 项的权重，平衡重建损失和正则化项。

采用一个预热调度 (warm-up schedule)，其中 KL 权重 $\lambda_{\mathrm{KL}}$ 从小值开始，并逐渐增加到其目标值（ $\lambda_{\mathrm{KL}} = 10^{-4}$ ），以确保稳定的收敛。

该图像是Seed3D 1.0几何生成管道的示意图，展示了从输入图像生成高保真3D模型的过程。该框架结合了用于紧凑几何编码和TSDF解码的变分自编码器Seed3D-VAE，以及用于生成形状的双流块和单流块的扩散变换器Seed3D-DiT。

图 2：Seed3D 1.0 几何生成流水线概述。该框架结合了名为 Seed3D-VAE 的变分自编码器（专为紧凑几何编码和 TSDF 解码设计）与名为 Seed3D-DiT 的整流流扩散变换器，以从输入图像生成高保真 3D 形状。

4.2.1.2. Seed3D-DiT

Seed3D-DiT 基于 Seed3D-VAE 学习到的几何感知潜在空间，采用整流流扩散框架 (rectified flow-based diffusion framework)，通过建模从噪声到结构化潜在表示的变换，以图像输入为条件生成 3D 形状。

图像条件化模块 (Image Conditioning Module): 为了捕获丰富的视觉语义进行几何生成，Seed3D-DiT 采用双编码器设计，结合了 DINOv2 [43] 和 RADIO [45]。RADIO 通过从多个视觉基础模型进行知识蒸馏 (knowledge distillation) 来提供增强的几何理解，有助于解决单视图条件化中的深度模糊问题，并提高训练稳定性。输入图像由这两个网络编码，它们的特征表示在通道维度上进行拼接，形成捕获语义和几何属性的全面条件信号。

Transformer 架构 (Transformer Architecture): Seed3D-DiT 使用 Transformer 作为扩散的主干网络，以建模视觉和几何表示之间的跨模态关系。它遵循 FLUX [27] 的混合设计，架构包含双流 (double-stream) 和单流 (single-stream) 处理块。

双流块 (Double-stream blocks): 通过模态特定参数（不同的层归一化、QKV 投影和 MLP）处理形状和图像词元，同时通过对拼接词元进行注意力操作实现跨模态交互 (cross-modal interaction)。
单流块 (Single-stream blocks): 通过额外的 Transformer 层处理精炼后的形状词元，然后通过 Seed3D-VAE 解码器进行最终解码。这种混合方法平衡了跨模态学习和模态特定处理。

扩散调度 (Diffusion Scheduling): 训练采用流匹配 (flow matching) [35] 框架，进行速度场预测（velocity field prediction），其中时间步长从逻辑正态分布 (logit-normal distribution) 中采样。由于较长的潜在序列需要更高的噪声水平才能有效破坏其结构，因此采用长度感知的时间步长偏移 (length-aware timestep shift) [14]，根据序列长度缩放噪声调度。在推理时，使用通过学习的速度场进行的确定性采样，以根据输入图像生成 3D 形状。

4.2.2. 纹理生成 (Texture Generation)

除了 3D 形状生成，高质量的纹理合成对于创建逼真的 3D 资产同样至关重要。Seed3D 1.0 的纹理生成流水线通过三个顺序组件生成物理渲染 (Physically-Based Rendering, PBR) 材质：

4.2.2.1. Seed3D-MV (Multi-View Synthesis)

Seed3D-MV 是一个多视图扩散模型，根据参考图像和 3D 形状引导，从多个视点生成一致的 RGB 图像。

目标 (Objective): 学习多视图一致图像生成的条件分布： $p ( x | g , i , c )$

$x$ : 代表目标多视图图像。
$g$ : 表示从输入网格渲染的空间对齐多视图几何图像 (spatially aligned multi-view geometry images)（即法线贴图和规范坐标图）。
$i$ : 是参考图像。
$c$ : 是可选的文本提示 (text prompt)。

上下文多模态条件化 (In-Context Multi-Modal Conditioning): 遵循 UniTex [34] 和 Flux.1 Kontext [28]，Seed3D-MV 通过沿着序列维度拼接带有噪声的输入词元和来自几何、参考图像和文本模态的干净条件词元来实现多模态条件化。这种设计提供了灵活集成多样控制信号的能力。具体而言，几何和参考图像使用冻结的 VAE 编码为潜在表示，而文本提示通过预训练的语言模型 [2] 处理。在训练期间，随机丢弃条件词元以实现无分类器引导 (classifier-free guidance) [20]。

位置编码 (Positional Encoding): 采用跨模态 RoPE (cross-modal RoPE) 来促进多模态词元之间的交互。为了适应新引入的词元类型，修改了标准 RoPE 方案 [52]，通过有针对性的位置编码调整来处理空间对齐的几何词元和非对齐的参考图像词元。词元序列组织如下：多视图噪声词元、几何图像词元、参考图像词元和文本词元。这种配置优化了跨模态注意力，同时保持了 RoPE 的兼容性。经验表明，为噪声词元和几何词元使用单独的空间位置优于共享空间位置。

时间步长采样 (Timestep Sampling): 多视图生成显著增加了输入序列长度，挑战了模型的学习能力并可能降低输出质量。为了保持高保真生成，Seed3D-MV 采用分辨率感知时间步长采样 (resolution-aware timestep sampling) [14]，其具有移位信噪比 (shift-SNR) 采样分布，可根据噪声词元序列长度在训练和推理期间动态调整。

Figur3Seed3D-MV architecture.Let:System overview howing the multi-modal conditioning pipeline.Riht: In-context multi-modal conditioning mechanism integrating geometry, reference image, and text information. 该图像是示意图，展示了Seed3D 1.0的多模态条件生成架构。左侧展示了输入图像和多视角噪声如何流入MMDiT模块生成多视角图像，右侧展示了图像编码器与MMDiT模块的集成，精确表征几何、参考图像和文本信息。

图 3：Seed3D-MV 架构。左图：系统概述，显示多模态条件化流水线。右图：上下文多模态条件化机制，整合几何、参考图像和文本信息。

4.2.2.2. Seed3D-PBR (PBR Material Estimation)

Seed3D-PBR 是一个扩散模型，将 Seed3D-MV 生成的多视图 RGB 图像分解为用于物理渲染的反照率（albedo）、金属度（metallic）和粗糙度（roughness）贴图。它采用基于 DiT 的架构，具有参数高效的双流设计 (two-stream design)，以提高估计精度，同时处理不同材质属性的独特特性。

模型架构 (Model Architecture): Seed3D-PBR 基于 MMDiT 架构构建，其创新的双流设计增强了不同材质模态（反照率与金属度-粗糙度）之间的对齐，同时确保了跨视点的 3D 一致性。模型将相机姿态嵌入、多视图图像和参考图像作为输入，并同时生成具有跨视图一致性的多视图反照率和金属度-粗糙度（MR）贴图。

条件化机制 (Conditioning Mechanism): 为了充分利用 Seed3D-MV 的多视图信息，设计了双层条件化机制，以保留参考图像的全局外观和局部纹理细节：

全局控制 (Global Control): 使用预训练的 CLIP 视觉编码器 [44] 从参考图像中提取全局特征嵌入。这些嵌入取代了扩散模型中原始的文本嵌入，在整个生成过程中提供高层次的外观引导。
局部控制 (Local Control): 对于像素级控制，采用类似于 ImageDream [56] 的策略。具体地，将参考图像的 VAE 编码潜在特征与噪声潜在特征沿通道维度拼接，作为 DiT 块的额外输入。为了减少计算开销，多视图条件化图像潜在特征直接添加到初始噪声潜在特征中，并且只作为初始引导输入到第一个 DiT 块。

双流网络结构 (Two-Stream Network Structure): 反照率和 MR 在物理属性和视觉特性上表现出显著差异。传统的 DiT 模型难以直接同时处理这两种不同特性的材质。为了解决这个问题，Seed3D-PBR 提出了一种更细粒度且参数高效的分离机制。如图 4 所示，在每个 DiT 块中，为每个模态（反照率和 MR）实例化独立的查询（Q）、键（K）和值（V）张量投影层 (projection layers for Query (Q), Key (K) and Value (V) tensors)。在计算各自的 Q、K、V 张量后，将来自两种模态的潜在向量与全局图像条件化信息拼接起来，并通过一个共享的全注意力模块 (full-attention module) 进行处理。所有其他 DiT 组件，包括前馈网络 (feed-forward networks)，在模态之间共享。为了区分模态，引入了可学习的模态嵌入，并将其添加到位置嵌入中。最后，两个解码器头将处理后的潜在特征映射到反照率和 MR 输出。这种设计有效地捕获了模态特定特征，同时与使用完全独立的网络相比，显著减少了总参数数量。

Figure The overview Sed3D-PBR model. Tohandle albedo and metaliroghness sigle DiT moel, we proa network wtworemattentionblocks.rojecton contains or hecoputatio and V. 该图像是Seed3D-PBR模型的示意图，展示了如何处理输入图像生成多视图图像，并利用多流注意力机制进行重光照。图中展示了输入图像、图像编码、解码阶段及重要的MMDiT模块，适用于生成具有真实感材质的3D资产。

图 4：Seed3D-PBR 模型概述。为了在一个 DiT 模型中处理反照率和金属度-粗糙度，我们提出了一个带有两个 QKV 投影注意力块的网络。

4.2.2.3. Seed3D-UV (UV Inpainting)

Seed3D-MV 和 Seed3D-PBR 生成高质量的多视图反照率和 MR 图像，但将这些图像转换为完整的 UV 纹理贴图存在挑战。由于有限的视图覆盖和自遮挡，直接将多视图观测结果烘焙到 UV 空间会导致纹理贴图不完整，出现缺失区域。为了解决这个问题，提出了 Seed3D-UV，一个坐标条件化扩散模型 (coordinate-conditioned diffusion model)，用于 UV 纹理补全。

从多视图图像进行初始纹理烘焙 (Initial Texture Baking from Multi-view Images): 给定形状生成阶段的 3D 网格和 Seed3D-PBR 的多视图材质图像，首先使用相应的相机投影矩阵将每张图像投影到网格表面。对于每个可见表面点，根据可见性和表面法线对齐确定贡献像素。遵循既定方法 [6, 37]，通过基于视角加权平均（将较高的权重分配给法线对齐更好的视图）来混合来自多个视图的贡献。然后，使用网格预定义的 UV 参数化 [15] 将聚合的表面颜色烘焙到 2D UV 纹理贴图中。每个网格三角形都映射到 UV 空间，其中来自重叠视图的像素级颜色被累积和插值。然而，生成的 UV 贴图通常包含带有孔洞和接缝的不完整区域，特别是在所有视图中被遮挡或仅部分观察到的区域。

坐标条件化 UV 扩散变换器 (Coordinate-Conditioned UV Diffusion Transformer): 为了补全部分 UV 纹理，引入了坐标条件化的 DiT，它在保留观察内容的同时，修补缺失区域。与在像素空间操作的标准图像修补不同，Seed3D-UV 利用 UV 坐标信息来保持与网格几何结构的一致性。具体而言，UV 坐标图作为位置词元进行编码，并与纹理词元一同整合到 DiT 的视觉流中。这种几何条件化引导模型尊重 UV 参数化，生成与网格边界和现有纹理内容正确对齐的补全。模型通过理解观察到的像素及其在 UV 坐标中编码的空间关系，学习在遮挡区域生成合理的纹理。在推理过程中，以从多视图烘焙获得的部分 UV 纹理为条件进行扩散过程，使模型能够填补孔洞并解决不一致性，同时保持与可见区域的连贯性。经验表明，坐标引导条件化产生的纹理在 UV 边界处具有更锐利的过渡，并且与网格几何结构有更好的对齐，优于朴素的修补方法。

最终集成和导出 (Final Integration and Export): Seed3D-UV 生成的完整 UV 纹理被集成到最终资产中，替换了多视图烘焙产生的局部纹理。生成的纹理网格，具有完整的反照率、金属度、粗糙度 UV 贴图，以标准 3D 格式（如 OBJ、GLB）导出，用于下游应用，如渲染、动画或场景创建。

4.2.3. 数据 (Data)

3D 生成模型的性能从根本上取决于训练数据的规模、多样性和质量。与图像和视频等 2D 数据相比，3D 数据处理由于其固有的复杂性和异构性，带来了更大的挑战。为了应对这些挑战，Seed3D 1.0 开发了一个自动化的 3D 数据预处理流水线和可扩展的数据基础设施，将庞大、异构的原始 3D 资产集合转换为高质量、多样化且一致的数据集，以训练鲁棒的 3D 生成模型。

4.2.3.1. 数据预处理 (Data Preprocessing)

为了解决 3D 数据的固有复杂性和异构性，设计了一个全面的多阶段预处理流水线，系统地将原始 3D 资产集合转换为可用于训练的数据集。每个阶段都解决了 3D 数据处理中的特定挑战，确保只有符合标准的高质量资产才包含在最终训练数据集中。

Figure 5 Data preprocessing pipeline of Seed3D 1.0. Our automated pipeline transforms raw 3D assets through fon rendering and mesh remeshing to produce training-ready datasets. 该图像是Seed3D 1.0的数据处理示意图，展示了从异构3D数据源到训练集部署的多阶段数据处理流程。图中包括四视图渲染、纹理检测和SDF采样等步骤，展示了自动化的数据预处理方法。

图 5：Seed3D 1.0 的数据预处理流水线。我们的自动化流水线通过四视图渲染和网格重构，将原始 3D 资产转换为训练就绪的数据集。

多样性导向的数据源 (Diversity-Oriented Data Sourcing): 3D 数据采集策略优先从多样化的公共存储库、许可市场和合成生成平台获取符合道德和法律规范的内容。最大化覆盖关键维度，包括几何复杂性、网格拓扑、对象类别（角色、车辆、家具、建筑等）、艺术风格、材质属性和足够的细节。原始集合在文件格式、坐标系和质量标准方面表现出显著的异构性，通常包含损坏的几何结构，这些问题由流水线处理。
格式标准化和转换 (Format Standardization and Conversion): 原始 3D 资产以各种格式（如 OBJ、FBX、GLTF、PLY 和专有格式）到达。采用自动化转换工具将资产标准化为统一的网格表示，提取几何和材质信息，同时规范化坐标系。所有资产都转换为 GLB 格式，它提供紧凑的二进制编码和广泛的 3D 应用兼容性。
几何数据去重 (Geometric Data Deduplication): 3D 资产集合经常包含重复或近乎重复的网格，这会引入训练偏差并降低数据集多样性。开发了一个基于视觉相似性的去重流水线，使用渲染图像特征和高效的最近邻搜索来识别和删除冗余资产。具体地，从四个规范视角 (canonical viewpoints) 渲染每个资产，生成 RGB 图像和法线贴图。使用预训练的视觉编码器 (vision encoder) [43] 从两种模态中提取紧凑表示，将所有视图的特征拼接以形成最终的网格表示。使用 FAISS [23] 进行高效的大规模相似性搜索，应用基于余弦相似度和 L2 距离的双阈值过滤，以平衡重复删除和合法几何变异的保留。
网格方向规范化 (Mesh Orientation Canonization): 一致的网格方向对于有效的 3D 模型训练至关重要，因为对象姿态的变化会显著影响模型学习。实现自动化方向规范化，以标准化 3D 资产的空间对齐。利用去重阶段的相同四视图渲染，提取视觉特征并将其输入到训练好的方向分类器 (orientation classifier) 中，该分类器预测规范方向。然后应用预测的变换将网格对齐到其规范姿态。这确保了几何相似对象在数据集中保持一致的空间对齐。
基于审美评分和 VLM 评估的质量过滤 (Quality Filtering with Aesthetic Scoring and VLM Assessment): 原始 3D 集合通常包含低质量资产，具有糟糕的几何结构、不真实的比例或视觉伪影。实现了两阶段质量过滤系统，结合自动化审美评估和基于 VLM [3] 的评估，重用先前阶段的四视图渲染。第一阶段使用开源模型 [48] 进行审美评分，评估视觉吸引力，过滤掉低于预定义阈值的资产。第二阶段采用微调的 VLM 进行三个维度的全面评估：(1) 质量分类 (quality classification)（不可用、可用、高质量），(2) 类别识别 (category identification)（人物、车辆、家具等），和 (3) 数据类型检测 (data type detection)（合成、真实世界扫描或场景级数据）。最终过滤只保留具有可接受审美评分和“可用或更高”质量评级的资产，同时排除真实世界扫描和场景级数据。这确保了训练数据集包含适合模型训练的高质量 3D 对象。
多视图图像渲染 (Multi-View Image Rendering): 为了弥合 3D 几何和 2D 条件化之间的差距，使用 Blender [7] 的 Cycles 渲染引擎为每个处理过的网格生成高质量的多视图渲染图像。流水线采用物理渲染 (physically-based rendering)，具有多样化的照明条件、相机视点和材质分配，为模型训练创建全面的视觉表示。
- 几何生成: 从随机采样的视点渲染参考图像，俯仰角在 $[-30^\circ, 70^\circ]$ 之间，在随机照明下进行：点光源以 30% 概率，或 HDR 环境贴图以 70% 概率。
- 多视图生成和 PBR 估计: 从精选库中采样随机 HDRI 环境，并从正交视点渲染归一化 3D 对象。每个资产渲染生成 RGB 图像、法线贴图和相机坐标贴图（CCMs）。对于 PBR 训练，额外渲染反照率和金属度-粗糙度贴图，以及一个完全照明的参考视图以提供外观上下文。
- UV 纹理合成: 使用 xatlas [64] 将 3D 网格展开为 UV 布局，并使用 Blender 的烘焙系统烘焙反照率和 CCMs。
网格重构 (Mesh Remeshing): 为了为 VAE 训练提取有效的 SDF，将任意原始网格转换为水密表示，使用基于 CUDA 的重构流水线。方法通过四个阶段去除内部结构，同时保留外部表面细节：1) 使用快速栅格化内核 [49] 和边界标记进行体素化 (voxelization)，2) 符号距离泛洪填充 (signed distance floodfill) 以分类内部和外部区域，3) 网格提取 (mesh extraction)，使用阈值 $\epsilon$ 以保留薄结构，4) 通过双重行进立方体 (Dual Marching Cubes, DMC) [47] 生成最终网格，并参考原始网格以获取零交叉法线。

4.2.3.2. 数据工程基础设施 (Data Engineering Infrastructure)

为确保整个数据流水线的可扩展性、可追溯性和无缝集成，开发了一个全面的数据工程基础设施，包括三个集成组件：用于元数据索引和 API 访问的集中式数据管理系统，用于资产持久化和交互式策展的统一存储和可视化平台，以及用于高吞吐量执行和容错的分布式处理基础设施。

该图像是一个示意图，展示了Seed3D 1.0的数据平台架构。该架构包含数据剖析、资产预览、数据验证和数据打包等模块，并通过分布式管道和异构弹性计算实现高效的数据处理。

图 6：Seed3D 1.0 的数据平台架构。该架构包含数据剖析、资产预览、数据验证和数据打包等模块，并通过分布式管道和异构弹性计算实现高效的数据处理。

数据管理和索引 (Data Management and Indexing): 所有与 3D 资产相关的元数据（包括来源、文件格式、处理状态和存储路径）都索引在 MongoDB [40] 数据库中。每个资产在整个流水线中通过一致的元数据模式和状态标志进行跟踪，从而实现鲁棒的查询、进度监控和数据集策展。为了简化数据库交互，实现了一个自定义的对象关系映射 (Object-Relational Mapping, ORM) 层，该层公开了一个标准化的 API，用于资产注册、元数据更新和查询。这种抽象是所有内部自动化工具的基础，并将预处理逻辑与后端存储系统解耦。
存储和可视化平台 (Storage and Visualization Platform): 原始文件和中间输出（例如，渲染图像、VLM 注释）存储在可扩展的对象存储系统 (object storage system) 中，资产引用在 MongoDB 中维护并通过 ORM 层在运行时解析。元数据和内容的分离实现了轻量级访问和高吞吐量并行处理。在此存储基础设施之上构建了一个基于网络的数据平台 (web-based data platform)，以支持视觉检查和程序化数据集操作。该平台提供过滤、标记、缩略图浏览和基于 WebGL [24] 的 3D 查看器，允许策展人和工程师交互式地探索资产、检查渲染结果和管理资产类别。对于训练数据准备，将处理后的资产（包括 SDF 样本和 VAE 潜在编码）打包成训练就绪的捆绑包，存储在分布式 HDFS [51] 集群中。集成到网络平台中的专用数据打包模块使用户能够根据资产类别、质量过滤器或处理阶段来策展和导出结构化数据集。
分布式处理 (Distributed Processing): 利用 Ray Data [41] 构建可扩展的异步处理流水线，处理各种 3D 操作，包括基于 VLM 的质量评估、多视图渲染和网格重构。3D 数据处理的一个关键挑战是流水线阶段之间的异构计算需求。例如，图像渲染需要大量的 CPU 资源，而网格重构需要 GPU 加速以进行密集几何计算。为了解决这个问题，部署了一个自定义的 Kubernetes [9] 操作员，为每个处理阶段启动具有适当资源分配的 CPU 和 GPU Pod。为了最大限度地提高大规模成本效率，利用 Ray Data 的弹性 (elasticity) 和容错 (fault tolerance) 来利用集群闲置容量中的可抢占资源 (preemptible resources)。当可抢占实例被更高优先级的负载收回时，系统会自动启动替换 Pod 并无缝重新调度任务。此外，在每个主要处理阶段之后实现了策略性检查点 (strategic checkpointing)，使得流水线可以从中间点重新启动，而不是进行完全重新处理。这种设计确保了尽管基础设施中断，也能高效执行流水线，同时最大限度地减少了计算浪费。

4.2.4. 模型训练 (Model Training)

4.2.4.1. 几何 (Geometry)

Seed3D-DiT 训练采用三阶段渐进策略：预训练 (pre-training, PT)、持续训练 (continued training, CT) 和监督微调 (supervised fine-tuning, SFT)。这种方法能够高效学习，同时逐步提高模型能力和输出质量。

预训练 (PT): 在低分辨率表示（256 个潜在词元）上从头开始训练模型，以建立基础的形状生成能力。此阶段侧重于学习基本的几何表示以及图像条件和 3D 形状之间的跨模态对齐。使用包含多样化对象类别和视角的完整训练数据集，以确保鲁棒的泛化。
持续训练 (CT): 在预训练模型的基础上，逐步增加潜在序列长度到 4096 个词元，从而捕获更精细的几何细节和表面结构。在完整数据集上继续训练，并增强数据增强以在高分辨率下保持泛化性能。
监督微调 (SFT): 在 CT 之后，使用精选的高质量子集对模型进行微调，并降低学习率，以进一步提高生成质量，生成具有增强几何精度和表面细节的 3D 对象。

4.2.4.2. 纹理 (Texture)

所有纹理生成模型（Seed3D-MV、Seed3D-PBR、Seed3D-UV）都采用两阶段方法从头开始训练。

第一阶段: 在完整数据集上进行训练，以学习全面的多视图一致性和材质分解。
第二阶段: 在精选的高质量子集上进行微调，并降低学习率，以提高输出质量，同时保持对多样化纹理和材质的鲁棒泛化。

4.2.5. 训练基础设施 (Training Infrastructure)

大规模扩散模型训练需要高效利用计算资源和鲁棒的故障处理机制。开发了一个全面的训练基础设施，集成了硬件感知优化、内存高效的并行策略和容错机制，以实现稳定、高吞吐量的大规模训练。

内核融合 (Kernel Fusion): 为了最大化 GPU 利用率，将 torch.compile 与自定义 CUDA 内核集成，用于性能关键操作。通过分析，识别出内存密集型操作是主要的瓶颈。将多个连续的逐元素操作融合到统一的内核中，减少了内存访问开销并提高了算术强度。此外，采用优化的库，如 FlashAttention [13] 用于注意力计算，以及 Apex 融合优化器用于权重更新，显著降低了计算成本。这些内核级优化共同减少了 GPU 空闲时间，提高了端到端训练吞吐量。
并行策略 (Parallelism Strategy): 跨多个 GPU 扩展扩散模型训练需要平衡通信开销和内存效率。采用了混合分片数据并行 (Hybrid Sharded Data Parallelism, HSDP) [69]，它结合了节点内的数据并行和跨节点的完全分片数据并行 (Fully Sharded Data Parallelism, FSDP)。这种分层方法实现了内存高效的权重和优化器状态分片，同时最大限度地减少了跨节点通信，从而能够有效地扩展到大型集群配置，并减少了性能下降。
多级激活检查点 (Multi-Level Activation Checkpointing, MLAC): 内存限制是训练大型扩散 Transformer 的根本瓶颈。虽然全梯度检查点 (full gradient checkpointing) [11] 缓解了 GPU 内存压力，但它在反向传播期间引入了大量的重新计算开销。为了解决这种权衡，采用了多级激活检查点 (Multi-Level Activation Checkpointing, MLAC) [60]，它平衡了内存使用和计算开销。MLAC 根据重新计算成本选择性地检查点激活，将高成本张量卸载到 CPU 内存，并进行异步预取以重叠内存传输和计算。与全检查点相比，这种方法在内存节省方面取得了显著成果，同时对性能的影响最小。
训练稳定性与容错 (Training Stability and Fault Tolerance): 大规模分布式训练容易受到硬件故障和通信中断的影响。为了确保鲁棒可靠的训练执行，实现了一个全面的稳定性框架，结合了预测性故障预防和响应性恢复机制。系统在作业启动前执行机器健康检查，以消除故障节点和潜在的拖延者 (stragglers)。在训练期间，集成了飞行记录仪 (flight recorder) 功能，以跟踪 NCCL [42] 通信模式并在发生故障时识别有问题机器。此外，开发了一个集中监控系统，聚合集群中的实时性能指标，包括有效训练时间比 (Effective Training Time Ratio, ETTR)、通信模式和 GPU 利用率。这提供了对集群健康状况的全面可见性，从而能够快速诊断和解决生产训练环境中的瓶颈。

4.2.6. 推理 (Inference)

图 7 展示了完整的 Seed3D 1.0 推理流水线。给定输入图像，系统通过顺序多阶段处理生成纹理 3D 资产：几何生成、多视图合成、PBR 材质估计和 UV 纹理补全。

几何生成 (Geometry Generation): 预处理输入图像并将其输入到 Seed3D-DiT 以在潜在空间中预测 3D 形状。Seed3D-VAE 解码器使用双重行进立方体 (Dual Marching Cubes, DMC) [47] 重建网格，这与训练流水线一致。为了加速表面提取同时保持数值精度，采用基于量化和空间滤波的分层提取策略。具体地，首先使用降低精度算术 (reduced-precision arithmetic) [39]（bfloat16）执行粗略的 SDF 评估，以识别候选零交叉单元。不活动的单元被剪除，而活动的单元则进行全精度 SDF 评估。这在保持网格保真度的同时，显著减少了计算量。对于 DMC 顶点放置所需的梯度估计，利用 VAE 的 SDF 解码器通过自动微分 (auto-differentiation) [5] 获得分析梯度。提取的网格随后进行拓扑重建 (retopology) 和 UV 展开 (UV unwrapping) [15]，用于后续的材质生成。
多视图生成和初始纹理化 (MultiView Generation and Initial Texturing): 使用生成的网格和输入图像，Seed3D-MV 产生多视图一致的 RGB 图像。这些图像被反投影到网格表面并烘焙到 UV 空间中，生成部分 UV 纹理。由于视点有限和遮挡，生成的 UV 贴图包含不完整的区域，需要后续增强。
材质估计 (Material Estimation): Seed3D-PBR 将多视图图像分解为反照率和金属度-粗糙度组件。这些 PBR 贴图使用相同的投影方法烘焙到 UV 空间中，为逼真的渲染提供基于物理的材质属性。
纹理补全 (Texture Completion): 为了补全部分 UV 纹理，将不完整的反照率和 MR UV 贴图输入到 Seed3D-UV 进行修补 (inpainting)。这个基于扩散的模型使用坐标条件化 (coordinate conditioning) 生成空间连贯的纹理，以保持几何一致性。
最终资产集成 (Final Asset Integration): 完成的纹理贴图——反照率、金属度、粗糙度——与网格集成，生成最终的 3D 资产。生成的资产具有水密、流形几何和优化的拓扑结构，适用于渲染、模拟和交互式应用。资产以标准格式（OBJ、GLB）导出，以实现广泛兼容性。

5. 实验设置

5.1. 数据集

论文主要描述了用于训练和评估的数据集构建过程，而非直接引用外部公开数据集。其核心是通过一个全面的多阶段数据预处理流水线，将原始 3D 资产集合转换为训练就绪的数据集。

数据来源 (Data Sourcing): 采集的数据来自多样化的公共存储库、许可市场和合成生成平台，以确保数据集在几何复杂性、网格拓扑、对象类别（如角色、车辆、家具、建筑等）、艺术风格、材质属性和细节方面具有广泛的覆盖度。
训练数据集 (Training Dataset):
- 几何生成 (Geometry Generation): Seed3D-DiT 的预训练和持续训练阶段使用包含多样化对象类别和视角的完整训练数据集 (full training dataset)，以确保鲁棒的泛化。
- 纹理生成 (Texture Generation): Seed3D-MV、Seed3D-PBR 和 Seed3D-UV 的第一阶段在完整数据集 (full dataset) 上进行训练。第二阶段则在精选高质量子集 (curated high-quality subset) 上进行微调。
评估数据集 (Evaluation Dataset):
- 几何生成评估: 在一个包含 1,000 张图像的测试集上进行评估，这些图像涵盖多样化的对象类别（人物、家具、动物等）和艺术风格（逼真、卡通、游戏等）。
- PBR 材质生成评估: 使用 Seed3D-MV 生成的多视图图像作为 Seed3D-PBR 的输入进行公平比较。还报告了使用真实标注多视图图像 (ground-truth multi-view images) 的结果（ $Seed3D 1.0*$ ），以展示在没有多视图生成误差情况下的性能上限。

5.2. 评估指标

论文中对几何生成和纹理生成采用了多种评估指标，并进行了一项用户研究。

5.2.1. 几何生成评估指标

ULIP-T (↑) (ULIP-Text Similarity):
1. 概念定义: ULIP (Unified Language-Image Pretraining) 模型旨在测量生成的 3D 网格与文本描述之间的语义相似性。ULIP-T 分数越高，表示生成的网格与文本描述（通过 VLM 生成的描述）在语义上越匹配。
2. 数学公式: 论文未直接给出 ULIP-T 的具体计算公式。通常，它是通过将 3D 网格的特征嵌入与文本描述的特征嵌入进行余弦相似度计算来获得。如果 $f_M(M)$ 是网格 $M$ 的 ULIP 嵌入， $f_T(T)$ 是文本描述 $T$ 的 ULIP 嵌入，则： $\mathrm{ULIP-T}(M, T) = \frac{f_M(M) \cdot f_T(T)}{\|f_M(M)\| \|f_T(T)\|}$
3. 符号解释:
  - $M$ : 生成的 3D 网格。
  - $T$ : 与网格对应的文本描述。
  - $f_M(M)$ : ULIP 模型从网格 $M$ 中提取的特征嵌入。
  - $f_T(T)$ : ULIP 模型从文本描述 $T$ 中提取的特征嵌入。
  - $\cdot$ : 向量点积。
  - $\|\cdot\|$ : 向量的 L2 范数。
ULIP-I (↑) (ULIP-Image Similarity):
1. 概念定义: ULIP-I 测量生成的 3D 网格与输入图像之间的视觉相似性。分数越高，表示生成的网格在视觉特征上越接近输入图像。
2. 数学公式: 论文未直接给出 ULIP-I 的具体计算公式。类似地，它是通过将 3D 网格的特征嵌入与输入图像的特征嵌入进行余弦相似度计算来获得。如果 $f_M(M)$ 是网格 $M$ 的 ULIP 嵌入， $f_I(I)$ 是输入图像 $I$ 的 ULIP 嵌入，则： $\mathrm{ULIP-I}(M, I) = \frac{f_M(M) \cdot f_I(I)}{\|f_M(M)\| \|f_I(I)\|}$
3. 符号解释:
  - $M$ : 生成的 3D 网格。
  - $I$ : 输入图像。
  - $f_M(M)$ : ULIP 模型从网格 $M$ 中提取的特征嵌入。
  - $f_I(I)$ : ULIP 模型从图像 $I$ 中提取的特征嵌入。
  - $\cdot$ : 向量点积。
  - $\|\cdot\|$ : 向量的 L2 范数。
Uni3D-T (↑) (Uni3D-Text Similarity):
1. 概念定义: Uni3D 模型用于统一 3D 表示，Uni3D-T 测量生成的 3D 网格与文本描述之间的语义相似性，与 ULIP-T 类似，但使用 Uni3D 模型的特征。分数越高，表示匹配度越好。
2. 数学公式: 论文未直接给出 Uni3D-T 的具体计算公式。假设 $g_M(M)$ 是网格 $M$ 的 Uni3D 嵌入， $g_T(T)$ 是文本描述 $T$ 的 Uni3D 嵌入，则： $\mathrm{Uni3D-T}(M, T) = \frac{g_M(M) \cdot g_T(T)}{\|g_M(M)\| \|g_T(T)\|}$
3. 符号解释:
  - $M$ : 生成的 3D 网格。
  - $T$ : 与网格对应的文本描述。
  - $g_M(M)$ : Uni3D 模型从网格 $M$ 中提取的特征嵌入。
  - $g_T(T)$ : Uni3D 模型从文本描述 $T$ 中提取的特征嵌入。
  - $\cdot$ : 向量点积。
  - $\|\cdot\|$ : 向量的 L2 范数。
Uni3D-I (↑) (Uni3D-Image Similarity):
1. 概念定义: Uni3D-I 测量生成的 3D 网格与输入图像之间的视觉相似性，使用 Uni3D 模型的特征。分数越高，表示视觉匹配度越好。
2. 数学公式: 论文未直接给出 Uni3D-I 的具体计算公式。假设 $g_M(M)$ 是网格 $M$ 的 Uni3D 嵌入， $g_I(I)$ 是输入图像 $I$ 的 Uni3D 嵌入，则： $\mathrm{Uni3D-I}(M, I) = \frac{g_M(M) \cdot g_I(I)}{\|g_M(M)\| \|g_I(I)\|}$
3. 符号解释:
  - $M$ : 生成的 3D 网格。
  - $I$ : 输入图像。
  - $g_M(M)$ : Uni3D 模型从网格 $M$ 中提取的特征嵌入。
  - $g_I(I)$ : Uni3D 模型从图像 $I$ 中提取的特征嵌入。
  - $\cdot$ : 向量点积。
  - $\|\cdot\|$ : 向量的 L2 范数。

5.2.2. 纹理生成评估指标

CLIP-FID (↓) (Fréchet Inception Distance based on CLIP):
1. 概念定义: FID 是衡量生成图像质量和多样性的一个流行指标，它通过计算真实图像和生成图像在特征空间中的 Fréchet 距离来评估。CLIP-FID 使用 CLIP 模型的特征空间而不是传统的 Inception 模型的特征空间，因为 CLIP 能更好地捕获感知和语义信息。分数越低，表示生成图像的分布越接近真实图像的分布。
2. 数学公式: 论文未给出 CLIP-FID 的具体公式，但 FID 的通用公式为： $\mathrm{FID}(X, G) = \|\mu_X - \mu_G\|^2 + \mathrm{Tr}(\Sigma_X + \Sigma_G - 2(\Sigma_X \Sigma_G)^{1/2})$ 其中，CLIP-FID 的 $\mu_X, \mu_G, \Sigma_X, \Sigma_G$ 是从 CLIP 特征空间中提取的。
3. 符号解释:
  - $X$ : 真实图像的特征分布。
  - $G$ : 生成图像的特征分布。
  - $\mu_X, \mu_G$ : 真实和生成图像特征的均值向量。
  - $\Sigma_X, \Sigma_G$ : 真实和生成图像特征的协方差矩阵。
  - $\|\cdot\|^2$ : L2 范数的平方。
  - $\mathrm{Tr}(\cdot)$ : 矩阵的迹。
LPIPS (↓) (Learned Perceptual Image Patch Similarity):
1. 概念定义: LPIPS 旨在量化两张图像在人类感知上的相似性。它利用预训练的深度神经网络（如 AlexNet 或 VGG）提取图像特征，然后计算这些特征之间的距离。分数越低，表示两张图像在感知上越相似。
2. 数学公式: 论文未给出 LPIPS 的具体公式。其计算方式通常是： $\mathrm{LPIPS}(\mathbf{x}, \mathbf{x}_0) = \sum_{l} \frac{1}{H_l W_l} \|w_l \odot (\phi_l(\mathbf{x}) - \phi_l(\mathbf{x}_0))\|_2^2$
3. 符号解释:
  - $\mathbf{x}, \mathbf{x}_0$ : 两张待比较的图像。
  - $l$ : 神经网络的层索引。
  - $\phi_l(\cdot)$ : 预训练网络在第 $l$ 层提取的特征。
  - $H_l, W_l$ : 第 $l$ 层特征图的高度和宽度。
  - $w_l$ : 在每个通道上学习到的权重向量。
  - $\odot$ : 逐元素乘积。
  - $\|\cdot\|_2^2$ : L2 范数的平方。
CMMD (↓) (CLIP Maximum-Mean Discrepancy):
1. 概念定义: CMMD 是一种基于 CLIP 特征的最大均值差异 (Maximum-Mean Discrepancy, MMD) 度量，用于量化两个分布之间的差异。它衡量了两个分布在再生核希尔伯特空间 (Reproducing Kernel Hilbert Space, RKHS) 中均值嵌入的距离。CMMD 分数越低，表示生成图像的 CLIP 特征分布与真实图像的 CLIP 特征分布越接近。
2. 数学公式: 论文未给出 CMMD 的具体公式，但 MMD 的通用公式为： $\mathrm{MMD}^2(X, G) = \|\mathbb{E}_{x \sim X}[\phi(x)] - \mathbb{E}_{g \sim G}[\phi(g)]\|_{\mathcal{H}}^2$ 其中，CMMD 中的 $\phi(\cdot)$ 是 CLIP 模型的特征映射。
3. 符号解释:
  - $X$ : 真实图像的特征分布。
  - $G$ : 生成图像的特征分布。
  - $\mathbb{E}[\cdot]$ : 期望操作。
  - $\phi(\cdot)$ : 核函数映射（这里是 CLIP 特征映射）。
  - $\mathcal{H}$ : 再生核希尔伯特空间。
  - $\|\cdot\|_{\mathcal{H}}^2$ : RKHS 中的范数平方。
CLIP-I (↑) (CLIP-Image Similarity):
1. 概念定义: CLIP-I 直接衡量两张图像在 CLIP 特征空间中的相似性。分数越高，表示生成图像与参考图像在 CLIP 模型的感知下越相似。
2. 数学公式: 论文未给出 CLIP-I 的具体计算公式。它通常是两张图像的 CLIP 特征向量之间的余弦相似度。如果 $f_C(I_1)$ 是图像 $I_1$ 的 CLIP 嵌入， $f_C(I_2)$ 是图像 $I_2$ 的 CLIP 嵌入，则： $\mathrm{CLIP-I}(I_1, I_2) = \frac{f_C(I_1) \cdot f_C(I_2)}{\|f_C(I_1)\| \|f_C(I_2)\|}$
3. 符号解释:
  - $I_1, I_2$ : 两张待比较的图像。
  - $f_C(I_1), f_C(I_2)$ : CLIP 模型从图像 $I_1$ 和 $I_2$ 中提取的特征嵌入。
  - $\cdot$ : 向量点积。
  - $\|\cdot\|$ : 向量的 L2 范数。

5.2.3. 用户研究 (User Study) 评估维度

视觉清晰度 (Visual Clarity)
忠实还原 (Faithful Restoration)
几何质量 (Geometry Quality)
透视与结构准确性 (Perspective & Structure Accuracy)
材质与纹理真实感 (Material & Texture Realism)
细节丰富度 (Detail Richness)

5.3. 对比基线

论文将 Seed3D 1.0 与以下最先进 (state-of-the-art) 的开源方法进行了比较：

5.3.1. 几何生成对比基线

TRELLIS [58]: 一种用于可扩展和多功能 3D 生成的结构化 3D 潜在空间模型。
TripoSG [32]: 使用大规模整流流模型进行高保真 3D 形状合成。
Step1X-3D [31]: 旨在实现高保真和可控的纹理 3D 资产生成。
Direct3D-S2 [57]: 一种使用空间稀疏注意力实现十亿级 3D 生成的模型。
Hunyuan3D-2.1 [22]: 腾讯混元大模型团队的 3D 生成模型，从图像到高保真 3D 资产，具有生产就绪的 PBR 材质。

5.3.2. 纹理生成对比基线

MVPainter [50]: 一种通过几何控制进行多视图扩散的准确详细 3D 纹理生成方法。
Hunyuan3D-Paint [70]: 腾讯混元大模型团队的 3D 绘画模型，用于高分辨率纹理 3D 资产生成。
UniTEX [34]: 一种用于 3D 形状的通用高保真生成纹理方法。
MV-Adapter [21]: 一种简化多视图一致图像生成的方法。
Pandora3d [61]: 一个用于高质量 3D 形状和纹理生成的综合框架。
Hunyuan3D 2.1 [22]: 再次作为 PBR 材质生成的基线。

这些基线模型代表了当时 3D 几何和纹理生成领域的领先方法，选择它们进行比较能够全面评估 Seed3D 1.0 在不同方面的性能。

6. 实验结果与分析

6.1. 核心结果分析

6.1.1. 几何生成 (Geometry Generation)

以下是原文 Table 1 的结果：

Models	ULIP-T (↑)	ULIP-I (↑)	Uni3D-T (↑)	Uni3D-I (↑)
TRELLIS [58]	0.0951 ± 0.0608	0.1686 ± 0.0826	0.2786 ± 0.0671	0.3754 ± 0.0713
TripoSG [32]	0.1312 ± 0.0574	0.2460 ± 0.0554	0.2657 ± 0.0652	0.3870 ± 0.0671
Step1X-3D [31]	0.1316 ± 0.0573	0.2441 ± 0.0527	0.2709 ± 0.0625	0.3837 ± 0.0687
Direct3D-S2 [57]	0.1203 ± 0.0555	0.2191 ± 0.0572	0.2571 ± 0.0582	0.3497 ± 0.0697
Hunyuan3D-2.1 [22]	0.1283 ± 0.0580	0.2376 ± 0.0593	0.2575 ± 0.0672	0.3709 ± 0.0769
Seed3D 1.0	0.1319 ± 0.0572	0.2536 ± 0.0432	0.2800 ± 0.0634	0.3999 ± 0.0610

表 1：几何生成定量比较。Seed3D 1.0 在所有指标上均达到了最先进的性能。

定量结果分析: 从 Table 1 可以看出，Seed3D 1.0 在所有四个几何生成指标（ULIP-T、ULIP-I、Uni3D-T、Uni3D-I）上都取得了最高的平均分数。

在 ULIP-I 和 Uni3D-I 指标上，Seed3D 1.0 明显优于所有基线方法，这表明其生成的几何形状与输入图像在视觉和感知上具有卓越的对齐度。
在 ULIP-T 和 Uni3D-T 指标上，Seed3D 1.0 同样表现最佳，这验证了其生成的 3D 形状与 VLM 生成的文本描述之间的高度语义一致性。
值得注意的是，Seed3D 1.0 的模型参数量为 1.5B，却能超越参数量为 3B 的 Hunyuan3D-2.1，这证明了其模型架构和训练方法的有效性。

定性结果分析: 几何生成的性能还可以通过定性结果进一步验证，如图 8 所示。

$Figure 8 Qualitative comparisons of geometry generation. Seed3D 1.0 produces meshes with finer geometric details and better structural accuracy compared to baseline methods. Best viewed at 8 $\\times$ zoom.$ 该图像是图表，展示了Seed3D 1.0与多个基线方法在几何生成上的定性比较。与其他方法相比，Seed3D 1.0生成的网格具有更精细的几何细节和更好的结构准确性。

图 8：几何生成的定性比较。Seed3D 1.0 生成的网格与基线方法相比，具有更精细的几何细节和更好的结构准确性。建议以 8 倍缩放查看。

从 Figure 8 可以看出，Seed3D 1.0 在几何细节保留、结构准确性和整体形状保真度方面，生成了优于基线方法的结果。视觉检查证实，Seed3D 能够捕捉复杂的特征，例如建筑元素的复杂结构、编织篮子的精细纹理，以及自行车等机械物体的精确几何形状。这与定量指标的结果相符，强调了 Seed3D 1.0 在生成高质量 3D 几何方面的卓越能力。

6.1.2. 纹理生成 (Texture Generation)

以下是原文 Table 2 的结果：

Method	CLIP-FID (↓)	CMMD (↓)	CLIP-I (↑)	LPIPS (↓)
MVPainter[50]	31.7290	0.3254	0.8903	0.1420
Hunyuan3D-Paintb [70]	18.8625	0.0825	0.9206	0.1162
UniTEX [34]	18.3285	0.0873	0.9230	0.1078
MV-Adapter[21]	11.6920	0.0312	0.9399	0.1012
Seed3D 1.0	9.9752	0.0231	0.9484	0.0891

表 2：多视图生成定量比较。Seed3D 1.0 在所有指标上均达到了最先进的性能。

定量结果分析（多视图生成）： 从 Table 2 可以看出，Seed3D 1.0 在所有多视图生成指标上均表现出最佳性能。CLIP-FID 和 CMMD 达到最低值，CLIP-I 达到最高值，LPIPS 达到最低值。这表明 Seed3D-MV 能够生成与真实数据分布更接近、感知上更相似且 CLIP 特征一致性更高的多视图图像。特别是其 CLIP-FID 值显著低于其他方法，表明其生成的多视图图像的分布质量很高。

以下是原文 Table 3 的结果：

Method	CLIP-FID (↓)	CMMD (↓)	CLIP-I (↑)	LPIPS (↓)
Pandora3d [61]	37.7028	0.3650	0.8868	0.1229
MVPainter [50]	40.6763	0.4145	0.8724	0.1274
Hunyuan3D-2.1 [22]	36.3484	0.3026	0.8828	0.1318
Seed3D 1.0	31.5984	0.2795	0.9000	0.1153
Seed3D 1.0*	23.3919	0.2191	0.9310	0.0843

表 3：PBR 材质生成定量比较。Seed3D 1.0 实现了最佳性能。 $Seed3D 1.0*$ 使用真实标注多视图图像，展示了当与多视图生成误差分离时的性能上限。

定量结果分析（PBR 材质生成）： 从 Table 3 可以看出，Seed3D-PBR 在 PBR 材质估计方面也展示了最佳性能，所有指标均优于基线方法。 $Seed3D 1.0*$ 的结果（使用真实标注多视图图像作为输入）进一步证明了 Seed3D-PBR 模块本身的强大能力，当输入质量更高时，其性能还有显著提升空间，这代表了与多视图生成误差解耦时的性能上限。

定性结果分析: 图 9 提供了定性比较，展示了 Seed3D 1.0 卓越的纹理和材质质量。

$Figur Qualitative comparison f texture generation.Red boxes highlight mprovements infnegraindeta preservation, text clarity, and material quality. Best viewed at $8 \\times$ zoom.$ 该图像是一个示意图，展示了不同模型生成的3D资产质量对比。红框突出显示了在细节保留、纹理清晰度和材料质量方面的改进，最适合以8 imes放大查看。

图 9：纹理生成的定性比较。红色框突出显示了在精细细节保留、文本清晰度和材质质量方面的改进。建议以 8 倍缩放查看。

从 Figure 9 可以看出，Seed3D 1.0 在保留参考图像中的精细细节和渲染清晰文本元素方面有显著改进。它与参考图像保持高度对齐，尤其是在细节视觉特征方面。例如，在 Figure 9 的最后一行，基线方法往往会丢失细节，而 Seed3D 1.0 能够准确生成面部特征和纺织图案等细节。生成的 PBR 材质展现出逼真的表面特性，包括适当的金属反射和皮肤次表面散射，从而实现了照片级真实的渲染结果。

此外，在蒸汽朋克时钟的例子中（Figure 9 的第三行），当其他方法产生模糊细节时，Seed3D 1.0 对时钟表盘上的数字和机械部件等精细文本元素保持了清晰度。这证明了其在保留高频纹理细节方面的卓越能力，这对于逼真的 3D 生成至关重要。

6.1.3. UV 增强分析 (UV Enhancement Analysis)

该图像是示意图，比较了UV增强前后模型的效果。其中，上方展示的是未进行UV增强的模型，下方为经过UV增强后的模型。可以看到，UV增强显著改善了纹理细节和外观质量。

图 11：UV 增强的消融实验。Seed3D-UV 修补了由自遮挡引起的缺失纹理。

图 11 展示了 Seed3D-UV 的有效性。在没有 UV 增强的情况下，由于自遮挡，从有限视点进行的反投影会导致纹理贴图不完整，出现缺失区域。Seed3D-UV 成功地修补了这些不完整区域，生成了完整且空间连贯的 UV 纹理。这验证了 Seed3D-UV 在解决因视图覆盖不足和遮挡导致的纹理缺失问题上的关键作用。

6.1.4. 用户研究 (User Study)

该图像是一个雷达图，展示了不同3D模型在多个评估指标上的表现，包括几何效果、材质与纹理、细节丰富度等。图中比较了Seed3D-MV、Seed3D-PBR、Rodin 1.5、Hunyuan3D-21、Triplo 2.5和Trellis等模型的特性。

图 10a：用户研究比较了 Seed3D 与基线方法在多个质量维度上的表现。

进行了包含 14 名人类评估者，针对 43 张多样化测试图像的用户研究。评估者在多个维度上比较了 6 种方法：视觉清晰度、忠实还原、几何质量、透视与结构准确性、材质与纹理真实感以及细节丰富度。如图 10a 所示，Seed3D 1.0 在所有维度上都获得了持续更高的评分，尤其在几何和材质质量方面表现出特别强的性能。这进一步证实了 Seed3D 1.0 在生成高质量、逼真 3D 资产方面的优势，并且其优势得到了人类感知的验证。

6.2. 应用 (Application)

Seed3D 1.0 不仅在生成质量上表现出色，其核心目标是生成模拟就绪 (simulation-ready) 的 3D 资产，这使其在具身 AI 领域具有重要的应用价值。

6.2.1. 模拟就绪生成 (Simulation-ready Generation)

$Figure 1Simulation-ready asset generation for robotics. Seed3D 1.0 generates physics-compatible 3D assets from singgs icldilecroicdvi tystor tainer nouholesGenrat as Iulatskty across multiple viewpoints for realistic grasping and manipulation simulations. Best viewed with $8 \\times$ zoom.$ 该图像是模拟准备资产生成的示意图，展示了从输入图像生成3D资产的过程。图中包含多个视角下的模拟操作，展示了机器人在抓取和操控不同物体（如玩具和牛奶盒）时的真实场景。不同视角的比较，有助于理解机器人操作的可行性与灵活性。

图 12：用于机器人技术的模拟就绪资产生成。Seed3D 1.0 从单张图像生成物理兼容的 3D 资产，包括玩具、电子设备和容器，这些资产在多个视点下进行实例化，用于逼真的抓取和操作模拟。建议以 8 倍缩放查看。

图 12 展示了 Seed3D 1.0 生成适用于基于物理的模拟 (physics-based simulation) 的资产的能力。给定一张输入图像，系统生成 3D 资产，这些资产可以集成到 NVIDIA Isaac Sim [38] 中进行机器人操作测试。

资产集成: 为了将资产导入模拟器，系统利用 VLM [3] 估计每个资产的尺寸并将其调整为真实世界尺寸。Isaac Sim 能够自动从水密、流形几何（watertight, manifold geometry）生成碰撞网格 (collision meshes)，并应用默认材质属性（例如摩擦力），从而无需手动调整即可立即进行物理模拟。
机器人操作实验: 进行了包括抓取和多对象交互在内的机器人操作实验。物理引擎提供关于接触力、对象动力学和操作结果的实时反馈。Seed3D 1.0 生成的资产保留了对于逼真接触模拟至关重要的精细几何细节——例如，玩具和电子设备保持了对抓取规划至关重要的准确表面特征。

这些环境结合全面的物理模拟，为具身 AI (embodied AI) 开发提供了三个关键优势：

可扩展的训练数据生成 (scalable generation of training data): 通过多样化的操作场景。
通过物理反馈进行交互式学习 (interactive learning via physics feedback): 关于行动后果。
多样化的多视图、多模态观测数据 (diverse multi-view, multimodal observation data): 实现对视觉-语言-动作 (vision-language-action, VLA) 模型进行全面评估基准。

6.2.2. 场景生成 (Scene Generation)

Figure 12Factorized scene generation. Given prompt images (left), our system employs VLMs to generate bjec l a e eIndve int complete 3D scenes (right). Examples demonstrate coherent scene generation forffice and traditionalurba environments. 该图像是插图，展示了使用 Seed3D 1.0 生成的场景。上方左侧为办公室场景的提示图像，右侧为生成的对象地图和 3D 场景；下方左侧为城市场景的提示图像，右侧呈现生成的对象地图和 3D 场景，展示了完整的场景生成能力。

图 13：分解式场景生成。给定提示图像（左），我们的系统利用 VLM 生成对象布局图（中间），然后使用 Seed3D 生成并实例化单个对象，以构建完整的 3D 场景（右）。示例展示了办公室和传统城市环境的连贯场景生成。

Seed3D 1.0 通过分解式方法 (factorized approach) 扩展到场景级生成 (scene-level generation)。如图 13 所示，给定输入提示图像，系统使用 VLM 识别对象并推断它们的空间关系，生成指定对象比例、位置和方向的布局图 (layout maps)。然后，系统使用 Seed3D 生成并实例化单个对象到预测的布局中，从而实现从室内办公室到城市建筑场景的各种环境中连贯的场景生成。这种方法展示了 Seed3D 1.0 不仅能生成高质量的单个资产，还能将它们有效地组合成复杂的、具有语义的 3D 环境。

7. 总结与思考

7.1. 结论总结

本文介绍了 Seed3D 1.0，一个从单张图像生成模拟就绪 (simulation-ready) 3D 资产的基础模型 (foundation model)。该系统通过四个集成组件——用于几何生成的 Seed3D-DiT、用于多视图合成的 Seed3D-MV、用于材质分解的 Seed3D-PBR 和用于纹理补全的 Seed3D-UV，生成了具有详细几何结构、照片级真实感纹理和物理合理性 PBR 材质的高质量资产。所有这些都由可扩展的数据基础设施和优化的训练系统提供支持。

实验结果表明，Seed3D 1.0 在几何和纹理生成基准测试中均达到了最先进 (state-of-the-art) 的性能。定量评估显示，其 1.5B 参数的几何生成模型优于参数量更大的基线方法，而全面的用户研究验证了其在视觉清晰度、几何准确性和材质真实感方面的生成质量。

Seed3D 1.0 的一个关键优势在于它能够生成物理兼容 (physics-compatible) 的资产，这些资产可以以最少的配置直接集成到模拟环境中。生成的网格保持水密 (watertight) 和流形几何 (manifold geometry)，使得它们无需手动预处理即可立即部署在 Isaac Sim 等物理引擎中。该系统在机器人操作模拟中展示了实际应用，支持可扩展的训练数据生成和对视觉-语言-动作 (VLA) 模型进行全面评估。此外，该方法通过分解式组合 (factorized composition) 扩展到场景级生成 (scene-level generation)，将单个对象组装成连贯的环境。

通过实现模拟就绪 3D 内容的可扩展生成，Seed3D 1.0 推进了基于物理的世界模拟器的发展，为训练能够进行逼真物理交互的具身智能体 (embodied agents) 奠定了基础。

7.2. 局限性与未来工作

论文中没有一个专门的章节明确指出其局限性，但从其描述和所解决的问题来看，可以推断出一些隐含的局限性和未来的研究方向：

隐含局限性 (Implicit Limitations):

单图输入限制: 目前模型是从单张图像生成 3D 资产。对于高度复杂、多视图信息匮乏或存在严重歧义的输入图像，生成质量可能仍会受限。多视图输入或更丰富的上下文信息可能会进一步提高质量。
场景生成方式: 场景生成目前采用分解式方法 (factorized approach)，即先通过 VLM 规划布局，再实例化单个生成的对象。这种方法可能限制了场景的端到端生成 (end-to-end generative) 能力和新兴属性，例如直接生成从未见过的、具有复杂拓扑或相互作用的场景结构。完全生成式的场景模型可能更具挑战性。
实时性要求: 虽然文章强调生成快于实时的物理反馈，但生成单个高保真 3D 资产（包括几何和完整 PBR 纹理）的整个流水线可能仍需要一定的计算时间，这可能限制其在某些对实时生成有严格要求的应用中的即时性。
材料复杂性: 尽管生成了 PBR 材质，但真实世界的材料属性远比反照率、金属度、粗糙度复杂，可能还包括透射、次表面散射、清漆、各向异性等更高级的特性。模型对这些复杂材质的捕捉能力可能有限。
动态对象和变形: 目前的重点是静态 3D 资产的生成。对于需要骨骼动画、变形或流体等复杂动态的场景，现有系统可能无法直接支持。
物理属性的精细控制: 尽管资产是模拟就绪的，但物理引擎通常只应用默认的材质属性。智能体训练可能需要更精细、语义化的物理属性（如密度、弹性、摩擦系数等）的生成和控制，这需要更深层次的物理理解。

未来工作方向 (Future Work): 根据上述局限性，可以推断出以下未来研究方向：

更高级的场景生成: 探索更强的端到端场景生成模型，能够直接生成具有复杂语义和物理交互的整个环境，而不仅仅是组装单个对象。
实时或近实时生成: 优化生成流水线的速度，以支持更快的迭代和更即时的应用，例如在虚拟现实或增强现实环境中的动态内容创建。
高级材质建模: 扩展模型以生成更丰富的 PBR 材质属性，包括透射、次表面散射、各向异性等，以实现更高水平的视觉真实感。
动态 3D 资产生成: 研究如何生成具有动画、变形或物理模拟行为（如柔软物体、液体）的动态 3D 资产。
语义化物理属性生成: 探索从图像中推断或生成更精细的、语义化的物理属性，以实现更真实的物理模拟和更智能的具身 AI 交互。
多模态输入融合: 进一步探索融合多种模态输入（如视频、文本描述、点云等）以提高 3D 生成的鲁棒性和多样性。
长尾对象和概念的生成: 提高模型处理不常见或训练数据中稀缺的长尾对象和概念的能力。

7.3. 个人启发与批判

7.3.1. 个人启发

Seed3D 1.0 为具身 AI (embodied AI) 和世界模拟器 (world simulators) 的发展提供了一个非常重要的基础。它最主要的启发点在于：

解决了核心瓶颈： 长期以来，具身 AI 训练面临数据不足和环境多样性差的困境。手动创建高质量 3D 资产成本高昂，而 Seed3D 1.0 提供了一种从 2D 图像大规模自动生成模拟就绪 3D 资产的解决方案，这极大地降低了创建多样化、物理准确的训练环境的门槛。
模块化流水线设计： 将复杂的 3D 生成任务分解为几何、多视图、PBR 材质和 UV 补全等子任务，并为每个子任务设计专门的扩散模型，这种模块化设计思路非常清晰且高效。它允许每个模块专注于其特定任务，并通过流水线集成实现端到端的复杂功能。
对物理模拟的重视： 论文不仅仅追求视觉真实感，更强调模拟就绪性 (simulation-readiness)，确保生成的资产具有水密性 (watertight) 和流形几何 (manifold geometry)，能够直接与物理引擎交互。这对于机器人操作和具身 AI 的实际应用至关重要，弥补了许多纯粹追求视觉效果的 3D 生成模型的不足。
数据工程的强调： 论文详细描述了其全面的数据预处理和数据工程基础设施，包括数据去重、方向规范化、质量过滤和分布式处理等。这表明在实现高性能 3D 生成模型时，高质量和大规模的数据构建与管理是不可或缺的，这对于其他研究者在类似任务中构建数据集具有重要的参考价值。
应用前景广阔： 除了机器人训练，这种从 2D 图像生成高保真、模拟就绪 3D 资产的能力，在虚拟现实/增强现实 (VR/AR)、游戏开发 (game development)、元宇宙 (metaverse) 内容创作、工业设计 (industrial design) 和电子商务 (e-commerce) 产品展示等领域都具有巨大的潜力。

7.3.2. 批判与潜在改进

尽管 Seed3D 1.0 取得了显著成就，但仍有一些潜在的改进空间和值得批判性思考的地方：

单视图输入的泛化性： 虽然模型从单张图像生成，但现实世界中的物体可能在不同角度下呈现出高度差异的外观（例如，一张侧视图可能无法完全推断出背面复杂的结构）。模型在处理极端遮挡、复杂内部结构或几何歧义较高的对象时，其准确性和细节完整性可能仍面临挑战。未来可以探索如何更好地利用外部知识或用户交互来解决这些歧义。
场景生成的“拼凑感”： 场景生成目前是基于对象识别和布局规划后的“组装”过程。虽然高效，但可能缺乏整体性和创造性。例如，它可能难以生成具有复杂拓扑连接或有机地融合在一起的场景元素，也难以推理并生成对象之间的复杂物理交互（例如，一个物体在场景中压在另一个物体上造成的轻微形变）。未来的研究可以探索更深层次的联合生成 (joint generation) 机制，让场景中的所有元素从一开始就以更连贯的方式共同生成。
PBR 材质的细粒度控制： Seed3D-PBR 生成了反照率、金属度和粗糙度。然而，对于某些材料，如玻璃、液体、毛发、布料或具有复杂次表面散射的物体，仅靠这三个 PBR 贴图可能不足以捕捉其完整的视觉和物理属性。未来的工作可以集成更高级的材质模型和生成技术。
模型参数与推理速度的权衡： 尽管 Seed3D 1.0 在 1.5B 参数下超越了更大的模型，但对于某些对实时性要求极高的应用（例如，动态实时场景生成），其多阶段流水线可能仍然存在计算瓶颈。如何进一步优化模型结构和推理效率，以实现更快的生成速度，是一个持续的挑战。
物理属性的语义化和可控性： 目前，生成的资产被描述为“模拟就绪”，物理引擎会自动应用默认属性。但对于具身 AI 智能体而言，需要更细粒度的物理属性控制（例如，精确的质量、密度、摩擦系数、弹性系数等）。如果模型能从图像中推断或生成这些语义化的物理属性，将极大增强模拟的真实感和智能体训练的有效性。
人类反馈的融合： 用户研究结果令人鼓舞，但模型在何种程度上能够根据人类的模糊指令或偏好进行调整，是未来提升用户体验的关键。引入人类在循环中的反馈机制，可能有助于模型生成更符合人类预期的 3D 内容。

相似论文推荐

基于向量语义检索推荐的相关论文。

暂时没有找到相似论文。