论文状态：已完成

Objaverse-XL: A Universe of 10M+ 3D Objects

发表：2023/07/11

Objaverse-XL 数据集 (1)3D 视觉任务 (1)多视图渲染图像 (1)零样本泛化能力 (1)高质量 3D 数据获取 (1)

原文链接 PDF 下载

价格：0.100000

已有 2 人读过

本分析由 AI 生成，可能不完全准确，请以原文为准。

TL;DR 精炼摘要

论文提出了`Objaverse-XL`数据集，包含超过1000万个三维对象，解决了三维视觉任务中高质量数据稀缺的问题。通过在1亿张多视图渲染图像上训练模型，实现了显著的零样本泛化能力。该数据集的发布将推动三维视觉的创新。

摘要

Natural language processing and 2D vision models have attained remarkable proficiency on many tasks primarily by escalating the scale of training data. However, 3D vision tasks have not seen the same progress, in part due to the challenges of acquiring high-quality 3D data. In this work, we present Objaverse-XL, a dataset of over 10 million 3D objects. Our dataset comprises deduplicated 3D objects from a diverse set of sources, including manually designed objects, photogrammetry scans of landmarks and everyday items, and professional scans of historic and antique artifacts. Representing the largest scale and diversity in the realm of 3D datasets, Objaverse-XL enables significant new possibilities for 3D vision. Our experiments demonstrate the improvements enabled with the scale provided by Objaverse-XL. We show that by training Zero123 on novel view synthesis, utilizing over 100 million multi-view rendered images, we achieve strong zero-shot generalization abilities. We hope that releasing Objaverse-XL will enable further innovations in the field of 3D vision at scale.

思维导图

论文精读

中文精读约 31 分钟读完 · 17,731 字

1. 论文基本信息

1.1. 标题

Objaverse-XL: 一个拥有超过1000万个3D对象的宇宙 (Objaverse-XL: A Universe of 10M+ 3D Objects)

1.2. 作者

Matt Deitke, Ruoshi Liu, Matthew Wallingford, Huong Ngo, Oscar Michel, Aditya Kusupati, Alan Fan, Christian Laforte, Vikram Voleti, Samir Yitzhak Gadre, Eli VanderBilt, Aniruddha Kembhavi, Carl Vondrick, Georgia Gkioxari, Kiana Ehsani, Ludwig Schmidt, Ali Farhadi 等。主要作者来自艾伦人工智能研究所 (Allen Institute for AI) 和华盛顿大学 (University of Washington, Seattle)，部分作者来自哥伦比亚大学 (Columbia University)、Stability AI 和加州理工学院 (California Institute of Technology)，以及 LAION。

1.3. 发表期刊/会议

该论文发布在 arXiv 预印本服务器上，属于计算机视觉领域。arXiv 是一个开放获取的预印本数据库，允许研究者在正式同行评审和发表前分享他们的研究成果，因此论文通常尚未在正式期刊或会议上发表，但已公开。

1.4. 发表年份

2023年。

1.5. 摘要

自然语言处理 (Natural Language Processing, NLP) 和二维视觉 (2D Vision) 模型在许多任务上取得了显著进展，这主要得益于训练数据规模的扩大。然而，三维视觉 (3D Vision) 任务并未取得同样的进步，部分原因是获取高质量三维数据面临挑战。本文提出了 Objaverse-XL，一个包含超过1000万个三维对象的数据集。该数据集包含了来自各种来源的去重三维对象，包括手工设计的对象、地标和日常物品的摄影测量 (photogrammetry) 扫描，以及历史和古董文物的专业扫描。Objaverse-XL 代表了三维数据集在规模和多样性方面的最大突破，为三维视觉带来了重要的新可能性。实验表明，Objaverse-XL 所提供的规模带来了显著的改进。通过在超过1亿张多视图渲染图像上训练 Zero123 模型进行新视图合成 (novel view synthesis)，实现了强大的零样本泛化 (zero-shot generalization) 能力。作者希望发布 Objaverse-XL 将能推动三维视觉领域的大规模创新。

1.6. 原文链接

原文链接: https://arxiv.org/abs/2307.05663v1 PDF 链接: https://arxiv.org/pdf/2307.05663.pdf 发布状态: 预印本 (Preprint)

2. 整体概括

2.1. 研究背景与动机

近年来，人工智能领域取得了显著的突破，尤其是在自然语言处理和二维计算机视觉方面。这些进展的核心驱动力之一是数据规模的爆炸式增长。从 GPT-2 到 LLaMA，语言模型的数据量从百亿 token 跃升至万亿 token；在计算机视觉领域，ImageNet 的百万级图像被 LAION5B 的数十亿图像所超越，催生了 CLIP 等强大的视觉表征模型。这种规模效应表明，更大的模型和更多样化的数据能够带来更强的性能和泛化能力。

然而，三维计算机视觉任务，例如三维对象生成和重建，在数据规模方面却远远落后。现有的三维数据集，如 ShapeNet，通常是小规模、手工制作的，并且依赖于专业的3D设计师使用昂贵的软件创建资产，这使得数据采集和扩展变得极其困难。这种数据稀缺性已成为三维计算机视觉领域中基于学习方法的瓶颈。例如，当前的三维生成技术远不及二维图像生成，并且通常仍然需要利用在大型二维数据集上训练的模型，而非从头开始在三维数据上训练。随着增强现实 (Augmented Reality, AR) 和虚拟现实 (Virtual Reality, VR) 技术的需求和兴趣日益增长，大规模三维数据的缺乏正成为一个日益严峻的问题。

因此，论文的动机在于解决三维视觉领域数据稀缺的根本问题，通过构建一个大规模、多样化的三维对象数据集，以期在三维视觉任务中复制二维和语言领域的数据规模效应。

2.2. 核心贡献/主要发现

该论文的核心贡献在于：

发布 Objaverse-XL 数据集： 提出了迄今为止规模最大、多样性最强的三维对象数据集 Objaverse-XL，包含超过1000万个去重的三维对象。这些对象来源于 GitHub、Thingiverse、Sketchfab、Polycam 和 Smithsonian Institution 等多个网络平台，涵盖了从手工设计到摄影测量扫描的各种类型和质量。这比之前的 Objaverse 1.0 大一个数量级，比 ShapeNet 大两个数量级。
大规模数据对模型性能的显著提升： 实验证明，Objaverse-XL 的规模和多样性能够显著提升现有三维视觉模型的性能和零样本泛化能力。
- 新视图合成 (Novel View Synthesis)： 在 Zero123 模型上进行训练，使用了超过1亿张多视图渲染图像。结果显示，Zero123-XL (使用 Objaverse-XL 训练) 在零样本泛化到具有挑战性的复杂模态（包括人物、卡通、绘画和素描）方面，表现出比使用 Objaverse 1.0 训练的 Zero123 更显著的改进，并且视图控制能力也得到增强。
- PixelNeRF 模型的改进： 证明了 PixelNeRF 模型在 Objaverse-XL 上训练时，即便在200万个对象和2400万张渲染图像的规模下，新视图合成质量仍然持续提升。在下游数据集 DTU 和 ShapeNet 上进行微调时，预训练于 Objaverse-XL 的 PixelNeRF 也展现了更好的性能。
数据集的详细元数据和分析： 提供了关于 Objaverse-XL 对象来源、元数据（包括文件大小、多边形数量、顶点数量、材质数量、动画对象数量等）的详细分析，并进行了 NSFW 内容过滤、人脸检测和摄影测量 (photogrammetry) 孔洞检测，以确保数据集的质量和可用性。
高质量数据微调的有效性： 引入了“对齐微调 (Alignment Finetuning)”策略，通过在 Objaverse-XL 的高质量子集上对模型进行微调，进一步提升了 Zero123-XL 的零样本泛化性能。

3. 预备知识与相关工作

3.1. 基础概念

为了理解 Objaverse-XL 数据集及其应用，以下是一些关键的基础概念：

三维视觉 (3D Vision)： 计算机视觉的一个分支，专注于从二维图像或其他传感器数据中理解、重建和生成三维信息。任务包括三维对象识别、重建、姿态估计、场景理解等。
数据集 (Dataset)： 用于训练和评估机器学习模型的数据集合。在计算机视觉中，数据集通常包含图像、视频、三维模型及其对应的标注信息（如类别标签、边界框、语义分割、文本描述等）。
零样本学习/泛化 (Zero-Shot Learning/Generalization)： 指模型在训练过程中没有见过特定类别的样本，但在推理时能够识别或处理这些新类别的能力。这通常通过学习类别之间的语义关系或通过多模态 (multi-modal) 预训练来实现。
新视图合成 (Novel View Synthesis)： 一项从有限的输入图像生成同一场景或对象的新视角图像的任务。这是三维重建和渲染领域的一个重要应用。
摄影测量 (Photogrammetry)： 一种通过分析从不同角度拍摄的二维照片来测量和重建三维物体或场景的技术。通过匹配不同照片中的特征点，可以计算出物体在三维空间中的几何形状。
CAD 模型 (CAD Model)： 计算机辅助设计 (Computer-Aided Design) 模型，是由专业设计师使用 CAD 软件创建的三维数字模型，通常具有精确的几何和拓扑结构。
多边形网格 (Polygon Mesh)： 最常见的三维对象表示方法之一，通过由顶点 (vertices)、边 (edges) 和面 (faces，通常是三角形或四边形) 组成的集合来定义三维物体的表面。
纹理 (Texture)： 应用于三维模型表面以增加其视觉细节和真实感的二维图像。
扩散模型 (Diffusion Model)： 一种生成模型，通过逐步向数据中添加噪声来学习数据的分布，然后学习逆向去噪过程来生成新的数据样本。在图像生成领域取得了巨大成功。
神经辐射场 (Neural Radiance Fields, NeRF)： 一种用于新视图合成的神经渲染技术。它将场景表示为一个连续的五维函数（三维空间位置 x, y, z 和二维观察方向 $\theta, \phi$ ），输出颜色和体密度，通过优化这个函数来拟合一组输入图像。
CLIP (Contrastive Language-Image Pre-training)： 由 OpenAI 开发的一种多模态模型，通过对比学习在大规模图像-文本对上进行预训练，学习到图像和文本之间对齐的表征。它能够执行零样本图像分类、检索等任务。

3.2. 前人工作

论文在引言和相关工作部分回顾了支撑其研究的关键前人工作，主要集中在以下几个方面：

大规模预训练数据集的重要性：
- 自然语言处理 (NLP)： 引用了 GPT-2 [49]、Chinchilla [25]、LLaMA [57] 等模型，这些模型的成功都得益于从百亿到万亿级别 token 的大规模语料库训练。
- 二维计算机视觉 (2D Computer Vision)： 提到了 ImageNet [15] 作为早期图像识别的黄金标准，以及 LAION5B [55] 等数十亿规模的网络爬取数据集，它们催生了 CLIP [50]、Flamingo [3] 等强大的视觉表征和 Stable Diffusion [54] 等生成模型。SAM [31] 也是最新的一个例子。
三维数据集的演进与局限性：
- ShapeNet [9]： 作为深度学习时代3D建模、表示和预测的基准，提供了大量带纹理的 CAD 模型。然而，它在实践中只使用了约5.1万个模型，且分辨率较低，纹理简单。
- 其他小型高质量数据集： ABO [13]、GSO [17] 和 OmniObjects3D [63] 等数据集提升了 CAD 模型的纹理质量，但规模显著更小，最大只有1.5万个 CAD 模型。
- Objaverse 1.0 [14]： 作为 Objaverse-XL 的前身，是一个包含80万个高质量、多样化纹理、几何和对象类型的三维模型数据集，是当时最大的3D数据集，比 ShapeNet 大15倍。尽管如此，它在规模上仍远小于视觉和语言领域的主流数据集。Objaverse-XL 正是在此基础上将其扩展到一个数量级以上。
三维应用和生成模型：
- 三维重建 (3D Reconstruction)： 提到了从图像重建三维对象的经典问题，包括新表示（如 [12, 59, 38, 39]）、网络架构（如 [22, 64]）和可微分渲染技术（如 [30, 10, 52, 34, 35]）。这些方法大多在 ShapeNet 等小规模数据集上进行实验。
- 三维生成 (3D Generation)：
  - MCC [62]：通过自监督学习获得可泛化的3D重建表征。
  - DreamFusion [48] 和 Magic3D [33]：展示了借助文本到图像模型，可以从语言提示生成3D形状。
  - Point-E [42] 和 Shape-E [28]：利用3D模型训练文本到3D生成。
  - Zero123 [36]：一个图像条件扩散模型，用于生成新对象视图，并在 Objaverse 1.0 上训练。
  - Stable Dreamfusion [56]：将 DreamFusion 中的文本到图像模型替换为 3D-informed Zero123，改进了3D生成效果。
扩展法则 (Scaling Laws)： 引用了 [29, 25] 等研究，表明生成和预测模型都受益于更大的模型和更大的预训练数据集。

3.3. 技术演进

三维数据领域的技术演进可以概括为从小规模手工制作到中等规模众包/爬取再到本文提出的大规模网络爬取与聚合。

早期 (小规模，高精度，特定领域)： 早期3D数据集如 IKEA [32]、EGAD [41] 规模极小，通常针对特定任务或领域，且多为专业 CAD 模型，制作成本高昂。
ShapeNet 时代 (中等规模，分类，标准)： ShapeNet [9] 在数量上实现了突破，达到了5.1万个模型，并提供了语义分类。它成为三维深度学习的基石，但其模型分辨率和纹理质量相对有限。
高质量但小规模数据集： 随后的数据集如 ABO [13]、GSO [17]、OmniObjects3D [63] 在模型质量和纹理真实感上有所提升，但规模仍然受限，未能实现数量级的飞跃。
Objaverse 1.0 时代 (中等规模，高质量，多样化)： Objaverse 1.0 [14] 标志着一个重要的进展，通过从网络平台 (Sketchfab) 收集带有 Creative Commons 许可的3D模型，将数据集规模扩大到80万个，并显著提升了模型的质量和多样性，为新视图合成等任务提供了更好的基础。
Objaverse-XL 时代 (大规模，超多样化，网络级)： Objaverse-XL [14] 进一步推动了这一趋势，通过聚合 GitHub、Thingiverse、Polycam 和 Smithsonian 等更多元化的网络来源，实现了超过1000万个对象的规模，并将数据集的广度和多样性推向了一个新的高度。这使得在三维视觉领域实现类似二维和语言模型中的“规模效应”成为可能。

3.4. 差异化分析

Objaverse-XL 与相关工作的主要区别和创新点体现在以下几个方面：

规模与多样性：
- 核心优势： Objaverse-XL 的最大创新在于其前所未有的规模和极高的多样性。它包含了超过1000万个3D对象，比 Objaverse 1.0 大一个数量级，比 ShapeNet 大两个数量级。这种巨大的规模差异是其与所有现有3D数据集最显著的区别。
- 来源广泛： 数据来源于 GitHub (代码仓库中的3D文件)、Thingiverse (3D打印模型)、Sketchfab (专业3D模型分享平台)、Polycam (3D扫描应用) 和 Smithsonian Institution (历史文物扫描)，确保了数据在类型、风格、质量、制作方式（手工设计、摄影测量、专业扫描）上的极大丰富。相比之下，早期数据集如 ShapeNet 主要依赖 CAD 模型，Objaverse 1.0 主要来源于 Sketchfab，来源相对单一。
数据采集与处理：
- 自动化网络爬取： Objaverse-XL 依赖于大规模的网络爬取和自动化处理流程，有效地从分散在互联网各处的3D数据源中收集数据，这克服了传统手工制作数据集难以扩展的瓶问题。
- 去重机制： 通过文件内容哈希 (file content hash) 进行去重，确保了数据集内对象的唯一性，避免了冗余。
- 元数据丰富： 除了原始来源的元数据，还提取了 Blender 元数据（如多边形数量、顶点数量、动画信息）和 CLIP 特征（用于美学评分、NSFW 过滤、面部检测、孔洞检测等），为数据分析和高质量子集选择提供了基础。
对下游任务的影响：
- 零样本泛化能力： 论文通过在 Objaverse-XL 上训练 Zero123 模型，证明了大规模3D数据能够显著提升模型在复杂、多样化（如卡通、绘画、素描）输入上的零样本新视图合成能力，这是此前模型难以实现的。这与二维和语言领域中大规模预训练模型展现的泛化能力相呼应。
- 持续的性能提升： 实验结果显示，随着数据规模的增加（从数千到千万级别），模型性能（如 LPIPS、PSNR）持续改进，没有出现饱和迹象，这表明 Objaverse-XL 提供了进一步提升模型能力的空间。
高质量数据微调策略： 引入了“对齐微调”的概念，通过在 Objaverse-XL 的高质量子集上进行二次微调，进一步提升了模型与人类偏好的一致性，这借鉴了 InstructGPT 等 LLM 领域的成功经验。

4. 方法论

Objaverse-XL 的方法论主要围绕其数据集的构建、组成、元数据提取和分析展开。它是一个大型的、网络规模的三维对象数据集，由来自互联网上高度多样化的三维数据源组成。

4.1. 数据集组成 (Composition)

Objaverse-XL 汇集了来自多个来源的三维对象，包括 GitHub、Thingiverse、Sketchfab、Polycam 和 Smithsonian Institution。

4.1.1. GitHub 数据

GitHub 是一个流行的在线代码托管平台。作者索引了包含常见三维对象扩展名（如 .obj, .glb, .gltf, .usdz, .usd, .usda, .fbx, .stl, .dae, .ply, .abc, .blend）的3700万个公共文件。这些扩展名是根据 Blender (用于渲染二维图像的软件) 的最佳支持情况选择的。只索引了来自“基础” GitHub 仓库（即非 fork 仓库，除非 fork 仓库的 star 数量超过了原始仓库）的对象。总共有超过50万个仓库提供了这些文件。

在整个 Objaverse-XL 数据集中，对象通过文件内容哈希 (file content hash) 进行去重，这消除了大约2300万个文件。在剩余的文件中，有550万个文件能够成功导入并渲染。未能成功渲染的文件主要有以下原因：

导入兼容性问题： 例如，FBX ASCII 文件不能被 Blender 本地导入。
文件中没有网格 (meshes)： 文件内容不包含实际的三维几何信息。
文件不是有效的三维文件： 例如，一个 .obj 文件可能是一个 $C$ 编译器文件，而不是 Wavefront Object 文件。作者指出，未来通过将三维文件格式转换为统一表示的解决方案，可能会获得数百万个额外独特的3D对象。

4.1.2. Thingiverse 数据

Thingiverse 是一个主要用于分享三维打印对象的平台。作者从该平台索引并下载了大约350万个对象，这些对象绝大多数都遵循 Creative Commons 许可。绝大部分是 .STL 文件，这些文件通常是无纹理的水密网格 (watertight meshes)，为学习形状先验 (shape prior) 提供了有用的数据。在渲染过程中，为了拓宽图像的分布，这些对象的颜色会被随机化。

4.1.3. Sketchfab 数据

Sketchfab 是一个在线平台，用户可以在其中发布和分享各种类别的三维模型。本项目中从 Sketchfab 获取的数据具体来源于 Objaverse 1.0 [14]，这是一个包含80万个遵循 Creative Commons 许可的三维模型的公开数据集。每个模型都以标准化的 GLB 文件格式分发。这些三维模型可以免费使用和修改，涵盖了从真实世界的三维扫描到在三维软件中创建的复杂设计等多种对象类型。

4.1.4. Polycam 数据

Polycam 是一款三维扫描移动应用程序，旨在方便获取和分享三维数据。其显著功能之一是“探索 (explore)”功能，允许用户社区将他们的三维扫描贡献到公共数据库中。在该数据集中，作者特别关注“探索”页面中被标记为可保存的对象子集。这些可保存对象受 Creative Commons Attribution 4.0 International License (CC-BY 4.0) 许可的约束。作者索引了7.2万个被标记为可保存且在 CC-BY 4.0 许可下的对象。经过去重后，获得了7.1万个独特的对象。

4.1.5. Smithsonian 3D Digitization 数据

Smithsonian 3D Digitization 是史密森尼学会 (Smithsonian Institution) 的一个项目，致力于将其庞大的历史和文化文物收藏数字化。该项目提供了2400个模型，所有这些模型都遵循 CC0 许可，这意味着这些作品完全属于公共领域，可以无限制地免费使用。该收藏中的对象主要是真实世界文物的扫描件。每个模型都以标准化的压缩 GLB 格式分发。

下图（原文 Figure 3）展示了来自 Objaverse-XL 不同来源的3D对象示例，包括 GitHub、Thingiverse、Polycam、Smithsonian Institution 和 Sketchfab。

fig 6 该图像是一个展示超过10万个3D对象的图表，显示了来自不同来源的各种物体，如手工设计、摄影测量扫描和专业扫描的历史工艺品等。此图表展示了Objaverse-XL数据集中不同3D对象的多样性和丰富性。

Figure 3: Examples of 3D objects from various sources of Objaverse-XL spanning GitHub, Thingiverse, Polycam, the Smithsonian Institution, and Sketchfab. Objects from Thingiverse do not include color information, so each object's primary color is randomized during rendering.

4.2. 元数据 (Metadata)

每个对象都附带其来源的元数据，作者还从 Blender 和其 CLIP ViT-L/14 特征中提取了额外的元数据。

4.2.1. 来源元数据 (Source Metadata)

从数据来源，通常可以获取对象的受欢迎程度、许可类型和一些文本描述。例如，在 GitHub 上，受欢迎程度由对象仓库的 star 数量表示，文件名则作为对象的文本配对。

4.2.2. Blender 元数据 (Blender Metadata)

对于每个渲染的对象，作者获取了以下元数据：sha256 (文件哈希值)、file-size (文件大小)、polygon-count (多边形数量)、vertex-count (顶点数量)、edge-count (边数量)、material-count (材质数量)、texture-count (纹理数量)、object-count (对象数量)、animation-count (动画数量)、linked-files (链接文件)、scene-dimensions (场景尺寸) 和 missing-textures (缺失纹理)。在渲染过程中，对于缺失纹理的对象，会随机化该纹理的颜色。

动画对象 (Animated Objects)： 从 Blender 元数据中发现，从 Objaverse 1.0 到 Objaverse-XL，动画对象和带有骨架 (armature，用于动画3D模型的数字骨骼) 的对象数量显著增加。具体来说，动画对象从4.1万增加到45.9万，带有骨架的对象从3.4万增加到43.8万。

4.2.3. 模型元数据 (Model Metadata)

对于每个对象，作者通过平均从12个不同随机摄像机位置渲染的对象的 CLIP ViT-L/14 [50] 图像嵌入 (image embedding) 来提取其 CLIP 嵌入。这些 CLIP 嵌入用于预测不同的元数据属性，包括美学评分 (aesthetic scores)、NSFW (Not Safe For Work) 预测、人脸检测 (face detection) 以及检测摄影测量渲染中的孔洞 (holes)。

4.3. 分析 (Analysis)

4.3.1. NSFW 标注 (NSFW Annotations)

尽管 Objaverse-XL 使用的大多数数据源本身具有严格的 NSFW 政策或强大的自过滤机制，但由于其网络规模，作者仍对渲染图像进行了 NSFW 过滤。每个3D对象从12个随机视图渲染，每张渲染图像都通过一个 NSFW 分类器。这个分类器使用 CLIP ViT-L/14 [50] 特征，并在 LAION-5B [55] 中引入的 NSFW 数据集 [20] 上训练。经过仔细分析和人工检查，如果一张渲染图像的 NSFW 分数高于0.9，并且一个3D对象至少有3张渲染图像被认为是 NSFW，则该3D对象被标记为 NSFW。最终，在1000万个对象中，只有815个对象被过滤掉。高阈值和多视图一致性是必要的，因为 LAION-5B 和 Objaverse-XL 之间存在分布偏移，以及某些无害3D对象在特定视点渲染时可能被错误分类为 NSFW。

4.3.2. 人脸检测 (Face Detection)

作者使用 Gadre et al. [20] 训练的检测器分析了 Objaverse-XL 中人脸的存在。与 NSFW 过滤类似，统计了至少有3张图像包含检测到人脸的对象。在1000万个资产中，估计有26.6万个对象包含人脸。然而，与大多数网页规模的数据集不同，Objaverse-XL 中出现的人脸通常来自玩偶、历史雕塑和拟人化动画的扫描，因此这些对象的大多数隐私问题较少。

4.3.3. 摄影测量孔洞检测 (Photogrammetry Hole Detection)

当扫描3D对象时，如果对象的背面或底部未被扫描，从不同视点渲染可能会出现孔洞，导致“不良”渲染图像。例如，相当数量的 Polycam 3D对象缺乏“背面”的信息。在大多数情况下，从背面视点渲染的图像是嘈杂的、低保真度的或包含孔洞的。为了大规模分析“不良渲染”，作者手动标注了1.2K Polycam 渲染图像为“良好”（标签1）或“不良”（标签0）。然后，他们训练了一个“不良渲染”分类器（一个2层 MLP），基于渲染图像的 CLIP ViT-L/14 特征；这个分类器在“渲染分数 (render score)”阈值为0.5时，交叉验证准确率超过90%。总体而言，在7.1万个 Polycam 对象中，每个对象有12个渲染图像，发现38.20%的渲染图像是“不良”的，其中5.8万个对象至少有2个不良渲染。

下图（原文 Figure 4）展示了 Objaverse-XL 的元数据分析，包括 geo-tagged 对象的地理位置分布，不同数据源的贡献比例，GitHub 对象的文件名频率，以及收集到的3D对象的更多统计信息（如多边形、顶点、边计数密度图，以及动画和骨架对象数量的增长）。

fig 7 该图像是一个展示多种3D物体的插图，包含了超过50种多样的物品，如建筑、工具、玩具及生物等，彰显了Objaverse-XL数据集的丰富性与多样性。

Figure 4: Analysis of metadata from Objaverse-XL. Locations of geotagged objects in (a) the United States and (b) around the world. (c) Various sources and their contribution to Objaverse-XL. (d) Frequency of filenames of GitHub objects. (e) Further statistics of collected 3D objects.

图4(c)展示了 Objaverse-XL 的构成：

GitHub： 56.4%
Thingiverse： 35.3%
Sketchfab (Objaverse 1.0)： 8.0%
Polycam： 0.2%
Smithsonian： 0.0%

表格1（原文 Table 1）展示了 Objaverse-XL 与其他常见3D数据集的对象数量对比，进一步突出了其规模优势。

Source # Objects
IKEA [32] 219
GSO [17] 1K
EGAD [41] 2K
OmniObject3D [63] 6K
PhotoShape [46] 5K
ABO [13] 8K
Thingi10K [67] 10K
3d-Future [19] 10K
ShapeNet [9] 51K
Objaverse 1.0 [14] 800K
Objaverse-XL 10.2M

Table 1: Number of 3D models in common datasets. Objaverse-XL is over an or- der of magnitude larger than prior datasets.

5. 实验设置

论文通过两个主要任务来评估 Objaverse-XL 数据集的有效性：新视图合成 (Novel View Synthesis)，分别使用 Zero123-XL 和 PixelNeRF 模型。

5.1. 数据集

Objaverse-XL： 这是论文的核心数据集，包含超过1000万个3D对象。在训练 Zero123-XL 时，这些3D对象被渲染成超过1亿张多视图图像。在训练 PixelNeRF 时，根据实验规模使用了不同数量的对象和渲染图像（例如200万个对象和2400万张渲染图像）。
Objaverse 1.0 [14]： 作为 Zero123 基线模型的训练数据集，包含80万个带标注的3D对象。
Google Scanned Objects (GSO) [17]： 用于定量评估 Zero123-XL 在零样本泛化方面的性能。GSO 是一个高质量的3D扫描家居物品数据集。
DTU [2]： Technical University of Denmark (丹麦技术大学) 数据集，是一个多视图立体匹配数据集，常用于评估新视图合成和3D重建方法。
ShapeNet [9]： 一个包含5.1万个3D CAD 模型的标准数据集，用于评估 PixelNeRF 在下游数据集上的微调性能。

数据集样本示例： 由于 Objaverse-XL 和 Google Scanned Objects 等数据集的性质，直接展示单个“样本”图片可能无法完全体现其多样性。但是，图5（原文 Figure 5）通过展示不同风格（人物、卡通、绘画、素描）的输入图像及其新视图合成结果，间接体现了数据集的广度和模型在处理这些多样化数据上的能力。图3（原文 Figure 3）则直接展示了 Objaverse-XL 中来自不同来源的3D对象示例，包括建筑、工具、玩具、生物等多种类型。

以下是原文 Figure 3 的示例，展示了 Objaverse-XL 中来自 GitHub、Thingiverse、Polycam、Smithsonian Institution 和 Sketchfab 的多样化3D对象：

以下是原文 Figure 5 的示例，展示了 Zero123-XL 在 in-the-wild 图像上的新视图合成能力，其中输入图像的风格多样，包括人物、卡通、绘画和素描：

fig 5 该图像是一个展示不同视角下3D物体的示意图，包含了多种对象，如动漫角色、食物和家具等，展示了输入视图、Zero123-XL生成的结果及对应的摄像机姿态。

Figure 5: Novel view synthesis on in-the-wild images. Comparison between Zero123-XL trained on Objaverse-XL and Zero123 trained on Objaverse. Starting from the input view, the task is to generate an image of the object under a specific camera pose transformation. The camera poses are shown beside each example. Significant improvement can be found by training with more data, especially for categories including people (1st row), anime (2nd row), cartoons (3rd row), fruit (4th row) and sketches (5th row). Additionally, viewpoint control is significantly improved (see 2nd row).

5.2. 评估指标

论文使用了多种评估指标来衡量新视图合成的质量和模型的泛化能力。

峰值信噪比 (Peak Signal-to-Noise Ratio, PSNR)：
1. 概念定义： PSNR 是一种衡量图像质量的客观标准，通常用于量化有损压缩对图像造成的失真，或者比较重建图像与原始图像之间的差异。PSNR 值越高，表示图像失真越小，重建质量越好。它特别适用于评估像素级别的差异。
2. 数学公式： $\mathrm{PSNR} = 10 \cdot \log_{10} \left( \frac{\mathrm{MAX}_I^2}{\mathrm{MSE}} \right)$ 其中，MSE (Mean Squared Error) 的计算公式为： $\mathrm{MSE} = \frac{1}{mn} \sum_{i=0}^{m-1} \sum_{j=0}^{n-1} [I(i,j) - K(i,j)]^2$
3. 符号解释：
  - $\mathrm{MAX}_I$ : 图像中像素的最大可能值。如果像素值表示为8位二进制，则 $\mathrm{MAX}_I = 2^8 - 1 = 255$ 。
  - MSE (Mean Squared Error)：均方误差，衡量原始图像 $I$ 和重建图像 $K$ 之间像素值差异的平方的平均值。
  - m, n: 图像的宽度和高度（像素数量）。
  - I(i,j): 原始图像在坐标 (i,j) 处的像素值。
  - K(i,j): 重建图像在坐标 (i,j) 处的像素值。
结构相似性指数 (Structural Similarity Index, SSIM)：
1. 概念定义： SSIM 是一种感知指标，旨在衡量两幅图像之间的相似性，更符合人类视觉系统的感知。它考虑了图像的亮度 (luminance)、对比度 (contrast) 和结构 (structure) 三个方面。SSIM 值接近1表示两幅图像非常相似，0表示完全不相似。
2. 数学公式： $\mathrm{SSIM}(x, y) = [l(x, y)]^{\alpha} \cdot [c(x, y)]^{\beta} \cdot [s(x, y)]^{\gamma}$ 通常取 $\alpha = \beta = \gamma = 1$ ，则公式简化为： $\mathrm{SSIM}(x, y) = \frac{(2\mu_x\mu_y + C_1)(2\sigma_{xy} + C_2)}{(\mu_x^2 + \mu_y^2 + C_1)(\sigma_x^2 + \sigma_y^2 + C_2)}$
3. 符号解释：
  - x, y: 分别表示原始图像和重建图像的像素值。
  - $\mu_x$ : 图像 $x$ 的平均像素值。
  - $\mu_y$ : 图像 $y$ 的平均像素值。
  - $\sigma_x^2$ : 图像 $x$ 的方差。
  - $\sigma_y^2$ : 图像 $y$ 的方差。
  - $\sigma_{xy}$ : 图像 $x$ 和 $y$ 的协方差。
  - $C_1 = (K_1L)^2$ , $C_2 = (K_2L)^2$ : 为避免分母为零的常数。 $L$ 是像素值的动态范围（例如，对于8位灰度图像， $L=255$ ）。 $K_1 \ll 1$ 和 $K_2 \ll 1$ 是小常数，通常取 $K_1=0.01, K_2=0.03$ 。
感知距离 (Learned Perceptual Image Patch Similarity, LPIPS) [65]：
1. 概念定义： LPIPS 是一种基于深度学习的感知距离指标，旨在更好地反映人类对图像相似性的判断。它通过计算两幅图像在经过预训练深度网络（如 AlexNet 或 VGG）提取的特征空间中的距离来衡量感知差异。LPIPS 值越低，表示两幅图像在感知上越相似。
2. 数学公式： $\mathrm{LPIPS}(x, y) = \sum_l \frac{1}{H_l W_l} \sum_{h,w} \| w_l \odot (\phi_l(x)_{h,w} - \phi_l(y)_{h,w}) \|_2^2$
3. 符号解释：
  - x, y: 原始图像和生成图像。
  - $\phi_l$ : 深度网络中第 $l$ 层的特征提取器。
  - $w_l$ : 第 $l$ 层的可学习权重，通过在人类感知相似性数据集上训练得到。
  - $\odot$ : 逐元素乘法。
  - $H_l, W_l$ : 第 $l$ 层特征图的高度和宽度。
  - $\|\cdot\|_2^2$ : $L_2$ 范数的平方。
弗雷歇初始距离 (Fréchet Inception Distance, FID)：
1. 概念定义： FID 是衡量生成图像质量和多样性的一个指标，常用于评估生成对抗网络 (Generative Adversarial Networks, GANs) 和扩散模型。它计算生成图像的特征分布与真实图像的特征分布之间的 Fréchet 距离。FID 值越低，表示生成图像的质量越高，多样性越好，越接近真实数据分布。
2. 数学公式： $\mathrm{FID}(\mathrm{X}, \mathrm{Y}) = \|\mu_\mathrm{X} - \mu_\mathrm{Y}\|^2 + \mathrm{Tr}(\Sigma_\mathrm{X} + \Sigma_\mathrm{Y} - 2(\Sigma_\mathrm{X}\Sigma_\mathrm{Y})^{1/2})$
3. 符号解释：
  - $\mathrm{X}$ : 真实图像的特征集合。
  - $\mathrm{Y}$ : 生成图像的特征集合。
  - $\mu_\mathrm{X}, \mu_\mathrm{Y}$ : 真实图像和生成图像在 Inception 网络某个中间层（通常是 Inception-v3 的 pool3 层）提取的特征的均值向量。
  - $\Sigma_\mathrm{X}, \Sigma_\mathrm{Y}$ : 真实图像和生成图像特征的协方差矩阵。
  - $\mathrm{Tr}(\cdot)$ : 矩阵的迹 (trace)。

5.3. 对比基线

Zero123 [36]： 这是 Objaverse-XL 训练 Zero123-XL 的核心框架，其基线版本是在 Objaverse 1.0 [14] 数据集上训练的。
PixelNeRF [64]： 这是一个神经辐射场模型，能够从一个或少数图像合成新视图。论文将其在 Objaverse-XL 上训练的版本与在小规模数据集上训练的基线进行了比较。

6. 实验结果与分析

6.1. 核心结果分析

6.1.1. `Zero123-XL` 的新视图合成与零样本泛化

论文的核心发现之一是 Objaverse-XL 显著提升了 Zero123 模型在新视图合成任务上的零样本泛化能力。

零样本泛化 (Zero-shot Generalization)： 图5（原文 Figure 5）通过定性示例展示了 Zero123-XL 相比于在 Objaverse 1.0 上训练的 Zero123 的显著改进。Zero123-XL 在处理复杂和多样化的输入模态（如人物、卡通、绘画和素描）时表现出更好的零样本泛化能力。
- 示例分析： 在图5中，针对人物、动漫角色、卡通、水果和素描等输入图像，Zero123-XL 能够生成与输入视图更一致的新视图。例如，对于一些基线系统难以处理的输入（如卡通或素描），Zero123 可能会将输入图像解释为2D平面并执行简单的同态变换 (homography transformation)，而 Zero123-XL 则能更好地捕捉3D几何并生成更合理的新视图。此外，Zero123-XL 在保持原始风格和几何细节的同时，能够从对象素描中生成新视图，并且视图控制能力也显著提高（参见图5的第二行）。这些定性结果有力地证明了数据集规模对于3D零样本泛化的有效性。
规模带来的改进 (Improvement with Scale)： 图6（原文 Figure 6）定量地展示了新视图合成性能随着数据集规模的增加而持续提升的趋势。
- Zero123 的性能曲线： 右侧图显示，Zero123 模型在 Google Scanned Objects 数据集上评估时，视觉相似性分数（LPIPS）随着训练数据量的增加而持续提高。从几千个对象一直到1000万个对象，性能均未出现饱和迹象。其中，80万数据点对应 Zero123，1000万数据点对应 Zero123-XL，这表明 Objaverse-XL 提供了持续的性能增益。
  
  该图像是一个示意图，展示了输入视图与经过 Zero123-XL 和 Zero123 处理后的结果对比。每一列分别展示了不同物体在不同视角下的渲染效果，体现了 Zero123-XL 在多视图合成中的能力。最底部分别展示了两种物体的最终生成效果，强调了该方法的有效性。

Figure 6: Novel view synthesis at scale. Left: PixelNeRF [64] trained on varying scales of data and evaluated on a held-out subset of Objavverse-XL. Right: Zero123 [36] trained on varying scales of data and evaluated on a zero-shot dataset. Note that the 800K datapoint is Zero123 and the 10M datapoint is Zero123-XL. The synthesis quality consistently improves with scale. LPIPS is scaled-up 10 times for visualization.

6.1.2. `PixelNeRF` 的新视图合成

规模带来的改进： 图6（原文 Figure 6）的左侧图展示了 PixelNeRF 模型在 Objaverse-XL 的一个保留子集上评估时，其新视图合成质量随着训练数据规模的增加而持续提升。即使在200万个对象和2400万张渲染图像的规模下，性能仍在稳步提高。
泛化到下游数据集 (Generalization to Downstream Datasets)： 表3（原文 Table 3）显示了在 Objaverse-XL 上进行预训练的 PixelNeRF 模型在微调到 DTU [2] 和 ShapeNet [9] 等下游数据集时，性能得到了显著提升。

以下是原文 Table 3 的结果：

PixelNeRF DTU [2] ShapeNet [9]
Base 15.32 22.71
w/ Objaverse-XL 17.53 ± .37 24.22 ± .55

Table 3: Comparison (PSNR (†) of PixelNeRF trained from scratch vs. fine-tuned from ObjaverseXL. Performance significantly improves from pretraining on the large-scale corpus.

从表中可以看出，在 Objaverse-XL 上预训练后，PixelNeRF 在 DTU 数据集上的 PSNR 从基线模型的15.32提升到17.53，在 ShapeNet 数据集上从22.71提升到24.22，这表明大规模预训练确实能带来更好的泛化能力和下游任务性能。

6.2. 消融实验/参数分析

6.2.1. 对齐微调 (Alignment Finetuning) 对 `Zero123-XL` 的影响

论文借鉴了 InstructGPT [44] 和 LIMA [66] 的思想，通过在高质量数据子集上进行微调来使模型更好地与人类偏好对齐。

策略： 在 Objaverse-XL 的整个数据集上预训练基础模型后，作者选择了一个包含130万个对象的高质量子集（基于顶点计数、面片计数、源网站受欢迎程度和数据源等启发式代理估计）。然后，以较低的学习率对 Zero123-XL 在这个对齐子集上进行微调。
结果： 表2（原文 Table 2）展示了对齐微调对 Zero123-XL 零样本泛化性能的显著改进。

以下是原文 Table 2 的结果：

Zero123-XL PSNR (↑) SSIM (↑) LPIPS (↓) FID (↓)
Base 18.225 0.877 0.088 0.070
w/ Alignment Finetuning 19.876 0.888 0.075 0.056

Table 2: Effect of high-quality data finetuning on Zero123-XL. When evaluated zero-shot on Google Scanned Objects [17], a model finetuned on a high-quality alignment subset of Objaverse-XL significantly outperforms the base model trained only on Objaverse-XL.

从表中可以看出，经过对齐微调后，Zero123-XL 在 Google Scanned Objects 上的 PSNR 从18.225提升到19.876，SSIM 从0.877提升到0.888，LPIPS 从0.088降低到0.075，FID 从0.070降低到0.056。所有指标都显示出显著的性能提升，这表明高质量数据微调是一种有效的策略，可以进一步提高模型的性能和与人类偏好的一致性。

6.3. 额外 `Zero123-XL` 对比

论文附录B中提供了大量额外的定性比较示例（Figures 7-18），进一步展示了 Zero123-XL 相较于 Zero123 在不同摄像机变换下的生成效果。这些图例共同表明，Zero123-XL 在遵循摄像机变换和生成更合理输出方面，都展现出更好的泛化能力。

以下是原文 Figure 7 的示例：

fig 2 该图像是一个示意图，展示了输入视角与 Zero123 和 Zero123-XL 生成的 3D 对象的对比。每一行分别展示了不同的输入场景，包括交通工具、几何形状、家具、人物以及食物。图中可以清晰地看到生成模型在多视角合成方面的能力。

Figure 7: Additional examples comparing the outputs of Zero123-XL and Zero123 under different camera transformations.

以下是原文 Figure 8 的示例：

fig 1 该图像是一个示意图，展示了输入视图与通过 Zero123-XL 和 Zero123 生成的不同3D对象的对比。左侧为输入视图，右侧分别是 Zero123-XL 和 Zero123 的输出结果，涵盖了各种物体，如服装、动物、家具和人物等。

Figure 8: Continuation of additional examples comparing Zero123-XL and Zero123.

以下是原文 Figure 10 的示例：

fig 4 该图像是一个示意图，展示了从输入视角生成的3D对象与不同模型Zero123-XL和Zero123生成的视角对比。图中包含多个对象如坦克、花瓶、汽车、鼓和椅子，展示了从草图到逼真渲染的变换。

Figure 10: Continuation of additional examples comparing Zero123-XL and Zero123.

7. 总结与思考

7.1. 结论总结

本文介绍了 Objaverse-XL，一个包含1020万个3D资产的庞大数据集。该数据集在规模和样本多样性方面都达到了前所未有的水平，其数据来源广泛，包括手工设计、摄影测量扫描和专业扫描的历史文物等。论文不仅详细记录了 Objaverse-XL 的组成和特性，还通过实验展示了其在下游应用中的巨大潜力。在零样本新视图合成任务上，通过在 Objaverse-XL 上训练 Zero123 和 PixelNeRF 模型，经验性地建立了数据集规模扩展与模型性能持续提升之间的积极趋势，即使在模型架构保持不变的情况下。实验结果表明，Objaverse-XL 显著增强了模型（特别是 Zero123-XL）的零样本泛化能力和视图合成质量，尤其是在处理各种复杂和多样化的输入模态时。作者希望 Objaverse-XL 能为未来3D视觉领域的研究提供坚实的基础。

7.2. 局限性与未来工作

论文作者也指出了 Objaverse-XL 的局限性并提出了未来可能的研究方向：

规模仍有提升空间： 尽管 Objaverse-XL 比其前身 Objaverse 1.0 大一个数量级，但与现代十亿规模的图像-文本数据集相比，它仍然小几个数量级。未来的工作可能会探索如何进一步扩展3D数据集的规模，并使3D内容的捕获和创建变得更加容易。
数据选择优化： 并非 Objaverse-XL 中的所有样本都对训练高性能模型是必要的。未来的工作可以研究如何选择更有效的数据点进行训练。
扩展到判别性任务： 论文主要关注生成性任务（如新视图合成）。未来的工作可以探索 Objaverse-XL 如何能使判别性任务（如3D分割和检测）受益。
隐私和偏见： 数据集中可能包含一些敏感或冒犯性内容（尽管已进行了 NSFW 和人脸检测过滤），以及潜在的地理或文化偏见。需要进一步的分析和处理来减轻这些风险。

7.3. 个人启发与批判

7.3.1. 个人启发

数据规模效应的普适性： 这篇论文再次验证了“数据规模是人工智能突破的关键”这一普遍规律，并将其成功地从2D视觉和NLP领域复制到了3D视觉领域。对于其他数据稀缺的模态（如医学影像、机器人感知数据），这提示我们应投入更多精力去构建大规模、高质量的数据集。
多源数据聚合的价值： Objaverse-XL 的成功在于其整合了 GitHub、Thingiverse、Sketchfab、Polycam 和 Smithsonian 等多样化的数据源。这种策略对于构建任何大规模数据集都具有借鉴意义，即通过聚合现有分散的数据资源，而非从零开始创建。
高质量数据微调的潜力： 借鉴 InstructGPT 和 LIMA 的“对齐微调”思想，在通用大规模数据集上预训练后，再在精选的高质量子集上进行微调，可以显著提升模型性能。这为通用模型在特定任务或偏好上的优化提供了新的范式。
元数据分析的重要性： 论文对数据集的元数据进行了详尽的分析，包括 NSFW 过滤、人脸检测和孔洞检测。这表明在构建大规模数据集时，不仅要注重数量，还要关注数据的质量控制和潜在风险的识别，并提供工具和分析以供用户参考。
推动AR/VR和元宇宙发展： Objaverse-XL 的发布为 AR/VR 和元宇宙相关应用提供了丰富的3D内容基础。它将加速3D内容生成、理解和交互技术的发展，为这些新兴领域的创新提供动力。

7.3.2. 批判

数据质量的非均匀性： 尽管论文强调了多样性，但来自不同来源的数据质量可能差异巨大。例如，GitHub 上的3D模型可能包含大量未完成、损坏或低质量的资产；Thingiverse 上的模型多为无纹理的3D打印模型；Polycam 扫描可能存在孔洞。虽然论文进行了部分过滤和分析（如孔洞检测），但这种内在的质量非均匀性可能会影响模型的学习效率和最终性能，尤其是在没有进行对齐微调的情况下。如何更精细地量化和利用这种质量差异是一个挑战。
许可和合规性复杂性： 数据集聚合了来自不同平台、拥有不同 Creative Commons 许可（甚至 GitHub 仓库中的隐式许可）的3D对象。虽然论文指出用户需遵循原始许可，但大规模使用时，逐一追溯和确保合规性可能非常复杂，尤其是对于商业应用。这可能成为数据集广泛使用的潜在法律风险。
对计算资源的需求： 训练在1000万个3D对象（渲染成1亿张图像）上的模型需要巨大的计算资源。这可能会限制小型研究团队或个人利用该数据集进行大规模模型训练的能力，从而在一定程度上减缓其普及。
未解决的“深层”偏见问题： 尽管进行了 NSFW 和人脸检测，但数据集可能仍然包含更深层次的文化、社会或设计偏见，这可能在生成模型中体现出来，并导致不公平或有问题的输出。对这些潜在偏见的更深入分析和缓解策略将是必要的。
缺乏语义标签： Objaverse-XL 主要提供3D对象和元数据，但缺乏细粒度的语义标签。虽然 CLIP 嵌入可以在一定程度上弥补，但对于需要精确语义理解的判别性任务（如3D对象检测、语义分割），仍需要额外的标注工作。如何利用大规模无标签数据进行自监督学习将是一个重要方向。

相似论文推荐

基于向量语义检索推荐的相关论文。

暂时没有找到相似论文。

Source	# Objects
IKEA [32]	219
GSO [17]	1K
EGAD [41]	2K
OmniObject3D [63]	6K
PhotoShape [46]	5K
ABO [13]	8K
Thingi10K [67]	10K
3d-Future [19]	10K
ShapeNet [9]	51K
Objaverse 1.0 [14]	800K
Objaverse-XL	10.2M

PixelNeRF	DTU [2]	ShapeNet [9]
Base	15.32	22.71
w/ Objaverse-XL	17.53 ± .37	24.22 ± .55

Zero123-XL	PSNR (↑)	SSIM (↑)	LPIPS (↓)	FID (↓)
Base	18.225	0.877	0.088	0.070
w/ Alignment Finetuning	19.876	0.888	0.075	0.056