论文状态：已完成

OmniObject3D: Large-Vocabulary 3D Object Dataset for Realistic Perception, Reconstruction and Generation

发表：2023/01/19

OmniObject3D 数据集 (1)真实场景3D重建 (1)3D对象生成 (1)大规模3D物体分类 (1)多视图合成 (1)

价格：0.100000

已有 1 人读过

本分析由 AI 生成，可能不完全准确，请以原文为准。

TL;DR 精炼摘要

本文提出了OmniObject3D，这是一个大型词汇量的3D物体数据集，包含6000个高质量真实扫描的3D物体，涵盖190个日常类别，并提供丰富的注释，包括纹理网格和多视角图像。该数据集旨在促进真实世界中的3D感知、重建和生成研究，并设定了四个评估任务。

摘要

Recent advances in modeling 3D objects mostly rely on synthetic datasets due to the lack of large-scale realscanned 3D databases. To facilitate the development of 3D perception, reconstruction, and generation in the real world, we propose OmniObject3D, a large vocabulary 3D object dataset with massive high-quality real-scanned 3D objects. OmniObject3D has several appealing properties: 1) Large Vocabulary: It comprises 6,000 scanned objects in 190 daily categories, sharing common classes with popular 2D datasets (e.g., ImageNet and LVIS), benefiting the pursuit of generalizable 3D representations. 2) Rich Annotations: Each 3D object is captured with both 2D and 3D sensors, providing textured meshes, point clouds, multiview rendered images, and multiple real-captured videos. 3) Realistic Scans: The professional scanners support highquality object scans with precise shapes and realistic appearances. With the vast exploration space offered by OmniObject3D, we carefully set up four evaluation tracks: a) robust 3D perception, b) novel-view synthesis, c) neural surface reconstruction, and d) 3D object generation. Extensive studies are performed on these four benchmarks, revealing new observations, challenges, and opportunities for future research in realistic 3D vision.

思维导图

论文精读

中文精读约 60 分钟读完 · 36,002 字

1. 论文基本信息

1.1. 标题

OmniObject3D: 大型词汇量3D物体数据集，用于真实感知、重建和生成 (OmniObject3D: Large-Vocabulary 3D Object Dataset for Realistic Perception, Reconstruction and Generation)。

1.2. 作者

Tong Wu, Jiarui Zhang, Xiao Fu, Yuxin Wang, Jiawei Ren, Liang Pan, Wayne Wu, Lei Yang, Jiaqi Wang, Chen Qian, Dahua Lin, Ziwei Liu。作者来自上海人工智能实验室 (Shanghai Artificial Intelligence Laboratory)、香港中文大学 (The Chinese University of Hong Kong)、商汤研究院 (SenseTime Research)、香港科技大学 (Hong Kong University of Science and Technology) 和南洋理工大学 S Lab (S Lab, Nanyang Technological University)。

1.3. 发表期刊/会议

该论文在 arXiv 预印本平台发表。 arXiv 是一个广泛使用的开放获取预印本库，在计算机视觉和机器学习领域具有重要的影响力，许多前沿研究成果在正式发表前都会在此发布。

1.4. 发表年份

2023年。

1.5. 摘要

当前3D物体建模的进展主要依赖合成数据集，因为缺乏大规模的真实扫描3D数据库。为了促进真实世界中3D感知 (3D perception)、重建 (reconstruction) 和生成 (generation) 的发展，本文提出了 OmniObject3D，一个拥有大量高质量真实扫描3D物体的大词汇量3D物体数据集。 OmniObject3D 具有以下几个吸引人的特性：

大词汇量 (Large Vocabulary)：包含190个日常类别的6,000个扫描物体，与流行的2D数据集（如 ImageNet 和 LVIS）共享常见类别，有利于追求可泛化的3D表示。
丰富注释 (Rich Annotations)：每个3D物体都通过2D和3D传感器捕获，提供了带纹理网格 (textured meshes)、点云 (point clouds)、多视角渲染图像 (multiview rendered images) 和多个真实捕获视频 (real-captured videos)。
真实扫描 (Realistic Scans)：专业的扫描仪支持高品质物体扫描，具有精确的形状和逼真的外观。

基于 OmniObject3D 提供的广阔探索空间，本文精心设置了四个评估轨道： a) 鲁棒3D感知 (robust 3D perception) b) 新视角合成 (novel-view synthesis) c) 神经表面重建 (neural surface reconstruction) d) 3D物体生成 (3D object generation)

本文在这些基准上进行了广泛研究，揭示了新的观察、挑战和未来真实3D视觉研究的机会。

1.6. 原文链接

原文链接: https://arxiv.org/abs/2301.07525
PDF 链接: https://arxiv.org/pdf/2301.07525v2.pdf
发布状态: 预印本 (Preprint)。

2. 整体概括

2.1. 研究背景与动机

当前计算机视觉领域在感知、理解和合成真实3D物体方面取得了快速进展，但大多数技术方法严重依赖于合成数据集 (synthetic datasets)，例如 ShapeNet。合成数据集虽然易于获取且可控，但其与真实世界数据之间存在不可避免的外观和分布差异 (appearance and distribution gaps)。这种“模拟到真实 (sim-to-real)”的差距严重阻碍了这些技术在实际生活中的应用。

尽管近年来有一些工作试图弥补这一空白，例如 CO3D、GSO 和 AKB-48，但它们在数据规模、类别多样性、3D表示质量（例如缺乏纹理网格或精确点云）或语义分布广度方面仍存在局限性，无法支持通用的3D物体研究。因此，社区迫切需要一个大规模、高质量的真实世界3D物体数据集，以推动3D视觉任务和下游应用的发展。

本文的切入点正是填补这一空白，通过构建一个具有大词汇量 (large vocabulary)、丰富注释 (rich annotations) 和高质量真实扫描 (realistic scans) 的数据集，旨在为3D感知、重建和生成等任务提供一个更接近真实世界的训练和评估平台，从而促进这些技术在真实应用中的泛化能力。

2.2. 核心贡献/主要发现

OmniObject3D 数据集是本文的核心贡献，它具有以下几个主要特性和优势：

大规模与大词汇量 (Large-scale and Large Vocabulary)：
- 包含6,000个高品质、带纹理的真实扫描网格，是目前已知最大的真实世界带精确3D网格的3D物体数据集。
- 涵盖190个日常类别，与 ImageNet、LVIS 等流行2D和3D数据集共享大量常见类别，极大地扩展了语义覆盖范围。
丰富注释 (Rich Annotations)：
- 每个3D物体都通过2D和3D传感器捕获，提供多种数据形式：
  - 带纹理的3D网格 (Textured 3D meshes)：由专业扫描仪获得，具有精确的几何细节和逼真的外观。
  - 采样点云 (Sampled point clouds)：从3D网格采样得到。
  - 多视角渲染图像 (Multiview rendered images)：使用 Blender 渲染，带有精确的相机姿态。
  - 真实捕获视频帧 (Real-captured video frames)：使用 iPhone 拍摄，带有前景掩码 (foreground masks) 和 COLMAP 相机姿态。
高质量真实扫描 (Realistic Scans)：
- 采用专业级3D扫描仪（如 Shining 3D 和 Artec Eva），确保了扫描数据的几何精度和纹理真实感。
  
  基于 OmniObject3D，本文设置了四个评估轨道，并进行了广泛的实验，揭示了以下关键发现和挑战：
鲁棒3D感知 (Robust 3D Perception)：
- OmniObject3D 首次提供了一个干净的真实世界点云物体数据集，使得对域外样式 (Out-of-Distribution, OOD styles) 和域外损坏 (OOD corruptions) 的鲁棒性分析成为可能。
- 发现现有模型在干净测试集上的性能与 OOD 样式鲁棒性之间关联不大。
- 某些先进的点云分组方法（如 CurveNet 和 GDANet）对 OOD 损坏和 OOD 样式都表现出更好的鲁棒性。
- OOD 样式与 OOD 损坏相结合是一个更具挑战性的设置，现有的鲁棒点云感知模型仍有待探索。
新视角合成 (Novel View Synthesis, NVS)：
- Plenoxels 在单场景 NVS 中表现最佳，但在处理凹面几何和暗色前景时可能引入伪影。MLP-based 方法在这类困难情况下更鲁棒。
- OmniObject3D 的多样性有助于训练可泛化的 NVS 模型，如 MVSNeRF 和 IBRNet 经过微调后能达到接近场景特定方法的性能，并且泛化方法可以隐式学习几何线索。
神经表面重建 (Neural Surface Reconstruction)：
- 在密集视图设置下，NeuS、VolSDF 和 Voxurf 在处理低纹理、凹面或复杂结构（被归类为“hard”类别）时面临挑战。
- 在稀疏视图设置下，所有方法的重建结果都存在明显伪影，表明这是一个尚未解决的难题。SparseNeuS 在充足数据训练下表现最佳。
- NeuS 在稀疏视图下表现出令人惊讶的强大基线性能，特别是在处理薄结构时，但局部几何歧义仍是问题。MonoSDF 依赖于估计的几何线索，当估计不准确时易失败。
- 泛化型 NeRF 模型（如 pixelNeRF 和 MVSNeRF）提取的表面质量相对较低。
3D物体生成 (3D Object Generation)：
- 在大型词汇量和真实数据集上训练生成模型是一个有前景但极具挑战性的任务。
- 观察到语义分布偏差：生成形状的数量与训练形状的数量呈弱正相关，且高度相关的类别可以进一步分组。
- 发现组内差异性是影响生成分布的关键因素：低差异性组能够主导生成分布。
- 生成质量和多样性之间存在权衡，特定类别（如 Toys）能获得最佳质量，而 Rand-100 等复杂情况则更具挑战性。
- 几何代码和纹理代码之间并非完全解耦，复杂纹理的生成仍是一个难题。
  
  总而言之，OmniObject3D 提供了一个前所未有的资源，用于推动3D视觉领域在真实世界场景中的进步，并揭示了现有技术在复杂真实数据面前的局限性和未来研究方向。

3. 预备知识与相关工作

3.1. 基础概念

为了更好地理解 OmniObject3D 论文，我们需要掌握以下几个核心概念：

3D 感知 (3D Perception)：指计算机系统从3D数据（如点云、网格）中识别、理解和解释物体、场景及其属性的能力。这包括3D物体分类 (3D object classification)、3D物体检测 (3D object detection)、语义分割 (semantic segmentation) 等任务。
3D 重建 (3D Reconstruction)：指从2D图像或视频中，或通过3D扫描设备，恢复或创建物体的3D几何形状和/或纹理信息的过程。这可以是表面重建 (surface reconstruction) 或体积重建 (volumetric reconstruction)。
3D 生成 (3D Generation)：指利用机器学习模型，尤其是生成模型，创建新的、真实的3D物体或场景的过程。这可以是从噪声中生成、从文本描述生成，或从现有数据中学习分布并生成。
点云 (Point Cloud)：是3D空间中一组离散的数据点集合，每个点通常包含 X、Y、Z 坐标，可能还包括颜色（RGB）、强度、法线等信息。点云是表示3D物体或场景的常见形式，常用于3D感知任务。
网格 (Mesh)：一种用顶点 (vertices)、边 (edges) 和面 (faces，通常是三角形或四边形) 来表示3D物体表面的数据结构。带纹理网格 (textured mesh) 意味着网格表面附着了图像纹理，使其外观更逼真。
新视角合成 (Novel View Synthesis, NVS)：指从少量或特定视角图像生成同一场景或物体在任意新视角下的图像的任务。目标是生成光照、几何和纹理都逼真的新图像。
神经辐射场 (Neural Radiance Field, NeRF)：一种利用神经网络表示场景的3D表示方法。它将3D空间中的每个点映射到其颜色和密度，通过体渲染 (volume rendering) 技术，可以从任意视角渲染出逼真的图像。
符号距离函数 (Signed Distance Function, SDF)：一种隐式表示3D形状的方法。对于空间中的任何点，SDF 函数会返回该点到物体表面的最短距离，并根据点在物体内部还是外部给出正负号。SDF 在表面重建中常用于表示光滑、连续的几何形状。
域外数据 (Out-of-Distribution, OOD) 数据：指在训练数据分布之外的数据。在机器学习中，模型对 OOD 数据的鲁棒性 (robustness) 至关重要。在本文中，OOD 样式 (OOD styles) 指合成数据与真实数据之间的差异，OOD 损坏 (OOD corruptions) 指传感器噪声、点缺失等导致的数据质量下降。
Chamfer 距离 (Chamfer Distance, CD)：一种用于衡量两个点集之间相似度的指标。它计算一个点集中每个点到另一个点集中最近点的平均距离，然后将两个方向的距离加起来。常用于评估3D重建和生成中形状的准确性。
- 概念定义: Chamfer 距离用于量化两个点集（或从两个3D形状采样得到的点集）之间的几何差异。它通过计算一个点集中每个点到另一个点集中最近点的平均距离来评估形状的相似性，然后将这两个方向的平均距离相加。值越小，表示两个形状越相似。
- 数学公式: $D_{CD}(S_1, S_2) = \frac{1}{|S_1|} \sum_{x \in S_1} \min_{y \in S_2} \|x - y\|_2^2 + \frac{1}{|S_2|} \sum_{y \in S_2} \min_{x \in S_1} \|y - x\|_2^2$
- 符号解释:
  - $S_1, S_2$ : 两个待比较的点集。
  - $|S_1|, |S_2|$ : 点集 $S_1$ 和 $S_2$ 中点的数量。
  - $x$ : 点集 $S_1$ 中的一个点。
  - $y$ : 点集 $S_2$ 中的一个点。
  - $\min_{y \in S_2} \|x - y\|_2^2$ : 点 $x$ 到点集 $S_2$ 中最近点的欧氏距离平方。
  - $\min_{x \in S_1} \|y - x\|_2^2$ : 点 $y$ 到点集 $S_1$ 中最近点的欧氏距离平方。
PSNR (Peak Signal-to-Noise Ratio)：峰值信噪比，用于衡量图像质量的指标，通常以分贝 (dB) 表示。PSNR 值越高表示图像质量越好，失真越小。
- 概念定义: PSNR 是一个广泛用于衡量图像（或视频）质量的客观指标，特别是用于评估有损压缩或重建图像与原始图像之间的差异。它通过比较两幅图像中像素值的均方误差 (Mean Squared Error, MSE) 与像素可能的最大值来计算。PSNR 值越高，表示重建图像与原始图像越接近，质量越好。
- 数学公式: $\text{PSNR} = 10 \cdot \log_{10} \left( \frac{\text{MAX}_I^2}{\text{MSE}} \right)$ 其中， $\text{MSE} = \frac{1}{mn} \sum_{i=0}^{m-1} \sum_{j=0}^{n-1} [I(i,j) - K(i,j)]^2$
- 符号解释:
  - $\text{MAX}_I$ : 图像中像素可能的最大值。对于8位灰度图像， $\text{MAX}_I = 255$ 。
  - $\text{MSE}$ : 均方误差。
  - m, n: 图像的行数和列数（高度和宽度）。
  - I(i,j): 原始图像在坐标 (i,j) 处的像素值。
  - K(i,j): 噪声图像（或重建图像）在坐标 (i,j) 处的像素值。
SSIM (Structural Similarity Index Measure)：结构相似性指标，用于衡量两幅图像之间相似度的指标。它考虑了亮度、对比度和结构三个方面，值接近1表示两幅图像非常相似。
- 概念定义: SSIM 是一种感知指标，用于评估两幅图像（通常是原始图像和经过处理或重建的图像）之间的相似度。与 PSNR 不同，SSIM 试图模拟人类视觉系统对图像质量的感知，它综合考虑了亮度 (luminance)、对比度 (contrast) 和结构 (structure) 三个方面。SSIM 值范围通常在 -1 到 1 之间，值越高表示两幅图像越相似，其中 1 表示完全相同。
- 数学公式: $\text{SSIM}(x,y) = [l(x,y)]^{\alpha} \cdot [c(x,y)]^{\beta} \cdot [s(x,y)]^{\gamma}$ 通常取 $\alpha = \beta = \gamma = 1$ ，则简化为： $\text{SSIM}(x,y) = \frac{(2\mu_x\mu_y + C_1)(2\sigma_{xy} + C_2)}{(\mu_x^2 + \mu_y^2 + C_1)(\sigma_x^2 + \sigma_y^2 + C_2)}$
- 符号解释:
  - x, y: 两幅待比较的图像块。
  - $\mu_x, \mu_y$ : 图像块 $x$ 和 $y$ 的平均像素值。
  - $\sigma_x, \sigma_y$ : 图像块 $x$ 和 $y$ 的标准差（衡量对比度）。
  - $\sigma_{xy}$ : 图像块 $x$ 和 $y$ 的协方差（衡量结构相似性）。
  - $C_1, C_2$ : 用于避免分母为零或数值不稳定的常数，通常取 $(K_1 L)^2$ 和 $(K_2 L)^2$ ，其中 $L$ 是像素值的动态范围（如8位图像为255）， $K_1 \ll 1, K_2 \ll 1$ 。
LPIPS (Learned Perceptual Image Patch Similarity)：学习型感知图像块相似度，这是一种基于深度学习的图像相似度指标。它使用预训练的深度网络提取图像特征，然后计算特征之间的距离来衡量感知相似度。LPIPS 值越低表示图像越相似，越能被人眼感知为一致。
- 概念定义: LPIPS 是一种通过深度学习模型来衡量两幅图像（通常是生成图像与真实图像）之间感知相似度的指标。它不像 PSNR 或 SSIM 那样依赖像素级差异，而是利用在大量图像上预训练的深度神经网络（如 AlexNet、VGG 等）提取图像的特征表示。LPIPS 认为，如果两幅图像在深度特征空间中的距离很小，那么它们在人类感知上也是相似的。LPIPS 值越小，表示两幅图像在感知上越相似。
- 数学公式: $\text{LPIPS}(x, y) = \sum_l \frac{1}{H_l W_l} \sum_{h,w} \|w_l \odot (\phi_l(x)_{h,w} - \phi_l(y)_{h,w})\|_2^2$
- 符号解释:
  - x, y: 两幅待比较的图像。
  - $\phi_l$ : 预训练深度网络中第 $l$ 层的特征提取器。
  - $w_l$ : 调整第 $l$ 层特征贡献的权重。
  - $H_l, W_l$ : 第 $l$ 层特征图的高度和宽度。
  - $\odot$ : 元素级乘法。
  - $\| \cdot \|_2^2$ : 欧氏距离平方。
FID (Fréchet Inception Distance)：一种衡量生成图像质量的指标，特别用于评估生成对抗网络 (Generative Adversarial Networks, GANs) 生成图像的真实性和多样性。FID 值越低，表示生成图像的质量和多样性越好。
- 概念定义: FID 是一种用于评估生成图像质量和多样性的度量标准，尤其在生成对抗网络 (GANs) 等图像生成模型中广泛使用。它通过比较真实图像和生成图像在 Inception 网络某个中间层特征空间中的分布来计算。FID 假设这些特征分布是高斯分布，并计算两个高斯分布之间的 Fréchet 距离。较低的 FID 值表示生成图像的质量更高、多样性更强，且与真实图像的分布更接近。
- 数学公式: $\text{FID}(X, G) = \|\mu_X - \mu_G\|_2^2 + \text{Tr}(\Sigma_X + \Sigma_G - 2(\Sigma_X \Sigma_G)^{1/2})$
- 符号解释:
  - $X$ : 真实图像在 Inception 特征空间中的特征集合。
  - $G$ : 生成图像在 Inception 特征空间中的特征集合。
  - $\mu_X, \mu_G$ : 分别是真实图像和生成图像特征的均值向量。
  - $\Sigma_X, \Sigma_G$ : 分别是真实图像和生成图像特征的协方差矩阵。
  - $\|\cdot\|_2^2$ : 向量的L2范数平方。
  - $\text{Tr}(\cdot)$ : 矩阵的迹。
SfM (Structure-from-Motion)：一种从一系列2D图像中自动推断3D场景结构和相机姿态 (camera poses) 的计算机视觉技术。COLMAP [77] 是一个常用的 SfM 管道。

3.2. 前人工作

本文在介绍 OmniObject3D 数据集时，对比和引用了多项前人工作，主要集中在3D物体数据集、鲁棒3D感知、新视角合成、神经表面重建和3D物体生成领域。

3.2.1. 3D 物体数据集

合成 CAD 模型数据集：
- ShapeNet [9]: 包含51,300个3D CAD 模型，涵盖55个类别。
- ModelNet40 [96]: 包含12,311个模型，涵盖40个类别。
- 3D-FUTURE [26] 和 ABO [16]: 引入了高质量的 CAD 模型，具有丰富的几何细节和信息丰富的纹理。
- 问题: 这些数据集虽然规模大，但由于是 CAD 模型，与真实世界的物体存在“模拟到真实”的领域鸿沟 (domain gap)。
真实世界小规模/特定数据集：
- DTU [1] 和 BlendedMVS [102]: 照片级真实感数据集，主要用于多视角立体匹配 (multi-view stereo) 基准测试。
- 问题: 规模小，缺乏类别注释，不适合通用3D研究。
真实世界点云数据集：
- ScanObjectNN [87]: 基于扫描室内场景的真实世界点云物体数据集，包含约15,000个彩色点云对象，涵盖15个类别。
- 问题: 点云不完整且嘈杂，场景中通常存在多个物体。

真实世界扫描物体数据集（但有局限性）：

GSO [21] (Google Scanned Objects): 包含1,030个扫描物体，具有精细的几何和纹理，涵盖17个家居用品类别。
AKB-48 [49]: 专注于机器人操作，包含2,037个铰接 (articulated) 物体模型，涵盖48个铰接物体类别。
CO3D v1 [74]: 包含19,000个以物体为中心的视频，但只有20%的视频带有通过 COLMAP [77] 重建的精确点云，且不提供网格或纹理。

问题: GSO 和 AKB-48 的语义范围相对狭窄，CO3D 缺乏高质量的3D网格和纹理。

Dataset	Real Full Mesh	Video	# Objs	# Cats	Rlvis (%)
ShapeNet [9]		✓	51k	55	4.1
ModelNet [96]		✓	12k	40	2.4
3D-Future [26]		✓	16k	34	1.3
ABO [16]		✓	8k	63	3.5
Toys4K [83]		√	4k	105	7.7
CO3D V1 /V2 [74]			19 / 40k	50	4.2
DTU [1]	√	√	124	NA	0
ScanObjectNN [87]	-		15k	15	1.3
GSO [21]	✓ ✓		1k	17	0.9
AKB-48 [49]	✓ V		2k	48	1.8
Ours	√	V	6k	190	10.8

表 1：OmniObject3D 与其他常用 3D 物体数据集的比较。

Rlvis 表示 1.2k LVIS 类别中被覆盖的比例。

3.2.2. 鲁棒3D感知

OOD 损坏研究：
- 早期工作 [13, 45, 71, 92] 研究了对 OOD 损坏（如随机抖动、点缺失）的鲁棒性。
- 近期工作 [75, 85] 提出了标准损坏测试套件，系统地解剖了损坏类型。
- 问题: 这些工作未能考虑 OOD 样式。
模拟到真实 (Sim-to-Real) 域间隙评估：
- 一些工作 [3, 74] 通过在干净合成数据集（如 ModelNet [96]）上训练模型，并在嘈杂的真实世界测试集（如 ScanObjectNN [87]）上进行测试来评估域间隙。
- 问题: 在这种设置下，OOD 样式和 OOD 损坏无法独立分析，因为裁剪出的点云总是带有噪声，难以进行细粒度分析。
本文的贡献: OmniObject3D 作为第一个干净的真实世界点云物体数据集，允许独立测量对 OOD 样式和 OOD 损坏的鲁棒性，首次提供了细粒度评估点云感知鲁棒性的基准。

3.2.3. 神经辐射场 (NeRF) 和神经表面重建 (Neural Surface Reconstruction)

NeRF 及其改进：
- NeRF [60]: 提出使用 MLP (Multi-Layer Perceptron) 表示场景，通过体渲染实现新视角合成。
- 质量和效率改进：大量的后续工作 [5, 6, 59, 89] 提升了 NeRF 的渲染质量，另一些工作 [10, 25, 62, 84] 提高了效率。
- 泛化能力：一些工作 [11, 36, 52, 74, 91, 105] 探索了基于 NeRF 框架的泛化能力，目标是从多个场景的深度图像特征中学习先验知识。
NeRF 与隐式表面表示结合：
- 表面重建：一些方法 [18, 66, 90, 95, 103] 将神经辐射场与隐式表面表示（如 SDF）结合，实现了从多视角图像进行精确且无掩码的表面重建。例如 NeuS [90] 和 VolSDF [103] 利用 SDF-based 体渲染方案重建隐式表面，Voxurf [95] 利用显式体素表示加速。
稀疏视图重建：
- 鉴于密集相机视图通常不可用，近期进展 [54, 106] 探索了从稀疏视图进行表面重建。SparseNeuS [54] 利用跨场景的可泛化先验进行通用表面预测，MonoSDF [106] 则利用预训练网络估计的几何线索辅助重建。
本文的贡献: OmniObject3D 提供了一个大规模、具有逼真照片和精确网格的基准，用于训练和评估新视角合成和表面重建方法。其形状和外观的多样性为追求更通用和鲁棒的方法提供了机会。

3.2.4. 3D 物体生成

早期3D生成方法：
- 基于体素 (Voxel-based)：早期方法 [27, 35, 55, 82, 94] 将2D生成框架扩展到3D体素，但生成高分辨率内容时计算成本高昂。
- 其他3D数据形式：一些方法采用点云 [2, 61, 101, 109] 或八叉树 [39] 来生成粗糙几何体。
- 隐式表示 (Implicit Representations)：OccNet [57] 和 IM-NET [14] 利用隐式表示生成3D网格，但提取高质量表面仍具挑战。
基于 NeRF 的3D感知生成：
- 受 NeRF [60] 启发，大量工作 [7, 8, 31, 34, 64, 67, 78, 79, 100, 110] 探索了3D感知图像合成，而非直接网格生成。
带纹理3D网格生成：
- Textured3DGAN [70] 和 DIBR [12]: 通过变形模板网格来生成带纹理的3D网格，但限制了复杂形状的生成。
- 任意拓扑网格生成：PolyGen [63], SurfGen [56], GET3D [28] (及其后续 GET3D [29]) 可以生成任意拓扑的网格。GET3D 是一种最先进的方法，能够生成具有丰富几何和纹理的多样化网格。
本文的贡献: 本文利用 OmniObject3D 数据集，对 GET3D 等最先进的生成方法进行了评估，推动了在大型词汇量和真实数据集上进行3D物体生成的边界，揭示了挑战和未来机遇。

3.3. 技术演进

3D视觉领域的技术演进可以概括为以下几个阶段：

早期几何建模与CAD设计 (Early Geometric Modeling and CAD Design)：最初的3D数据主要来源于专业的 CAD 软件设计或人工建模。这些模型精确、规整，但与真实世界物体的复杂性和多样性存在巨大差距。ShapeNet [9] 等数据集是这一阶段的代表。
真实世界3D扫描的萌芽 (Emergence of Real-World 3D Scanning)：随着3D扫描技术的发展，人们开始能够获取真实世界物体的3D数据。然而，早期的扫描数据往往规模小、质量不高，或者缺乏纹理和语义信息（如 DTU [1]）。
点云的兴起与3D感知 (Rise of Point Clouds and 3D Perception)：点云作为一种直接从3D传感器获取的数据形式，逐渐成为3D感知任务的核心。ScanObjectNN [87] 等数据集开始关注真实世界点云的感知任务。PointNet [71] 等深度学习模型直接处理点云数据，开启了点云深度学习时代。
隐式表示与新视角合成的突破 (Breakthroughs in Implicit Representations and Novel View Synthesis)：神经辐射场 (NeRF) [60] 的出现极大地推动了新视角合成和场景表示的发展。NeRF 及其后续改进 [5, 6, 25] 能够渲染出高质量、照片级真实感的新视角图像。同时，将隐式表示（如 SDF）与 NeRF 结合 [90, 95]，使得从多视角图像进行高精度表面重建成为可能。
大规模真实数据与泛化能力的需求 (Demand for Large-Scale Real-World Data and Generalization)：尽管 NeRF 等技术取得了巨大成功，但它们通常需要针对每个场景进行优化，泛化能力有限。同时，大多数工作仍依赖合成数据或小规模真实数据集。CO3D [74] 等尝试构建大规模真实数据集，但仍存在数据质量或完整性方面的不足。
3D 生成的探索 (Exploration of 3D Generation)：3D 内容的自动生成一直是研究热点。早期基于体素或点云的生成方法 [2, 35] 受到分辨率和复杂性的限制。随着2D图像生成（如 GANs [28]）的成熟，研究者开始将其思想迁移到3D，并结合 NeRF 或隐式表示，探索生成高质量带纹理3D网格的方法 [29, 70]。

本文的 OmniObject3D 数据集正处于这一技术演进的关键节点，它旨在弥补大规模、高质量、真实世界、带丰富注释的3D物体数据集的空白，从而为“模拟到真实”的泛化问题、新视角合成和表面重建的鲁棒性以及3D生成的真实感和多样性提供坚实的基础。

3.4. 差异化分析

OmniObject3D 与现有方法的差异主要体现在以下几个方面：

数据集的规模和质量：
- 现有问题：大多数现有真实世界3D数据集要么规模小（如 DTU [1]）、类别少（如 GSO [21]、ScanObjectNN [87]），要么数据质量不足（如 CO3D [74] 缺乏精确网格和纹理，且点云嘈杂）。合成数据集（如 ShapeNet [9]）则存在领域鸿沟。
- OmniObject3D 的优势：提供了6,000个高质量、真实扫描的带纹理3D网格，涵盖190个日常类别。这是目前已知规模最大、质量最高的真实世界3D物体数据集之一，能够提供精确的几何细节和逼真的外观。
注释的丰富性：
- 现有问题：许多数据集只提供单一形式的3D数据（如点云或视频），或者注释不完整。
- OmniObject3D 的优势：每个物体都配备了多种注释形式，包括带纹理的3D网格、采样点云、Blender 渲染的多视角图像（带相机姿态）、以及真实捕获视频帧（带前景掩码和 COLMAP 相机姿态）。这种多模态数据对于训练和评估多种3D任务（感知、重建、生成）至关重要。
对鲁棒性研究的支持：
- 现有问题：在鲁棒3D感知方面，现有基准无法独立解耦 OOD 样式和 OOD 损坏的影响。例如，模拟到真实 (sim-to-real) 评估往往同时包含了这两种挑战，难以进行细粒度分析。
- OmniObject3D 的优势：作为第一个干净的真实世界点云物体数据集，它使得研究人员能够独立分析模型对 OOD 样式（通过真实扫描数据）和 OOD 损坏（通过对真实扫描数据添加人工噪声）的鲁棒性，从而提供更深入的理解和更精确的评估。
对通用化模型训练的潜力：
- 现有问题：许多先进的 NeRF 和表面重建方法需要在每个场景上进行单独优化，泛化能力差。现有数据集的类别多样性不足，难以训练出能泛化到新场景或新类别的模型。
- OmniObject3D 的优势：其大词汇量（190个类别）和形状、外观的巨大多样性，为训练能够泛化到未见物体或场景的 NVS 和表面重建模型提供了前所未有的资源。
3D 生成领域的拓展：
- 现有问题：大多数3D生成工作要么局限于合成数据，要么在生成真实感和多样性方面存在挑战，尤其是在大型词汇量方面。
- OmniObject3D 的优势：提供了真实世界、大规模、高多样性的带纹理3D网格，为开发能够生成逼真、多样且符合真实世界分布的3D物体生成模型提供了理想的训练和评估平台，推动了该领域向真实世界应用的边界。
  
  综上所述，OmniObject3D 通过提供一个前所未有的大规模、高质量、多模态真实世界3D物体数据集，极大地提升了3D视觉研究的深度和广度，特别是在鲁棒性、泛化能力和真实感生成方面，填补了现有数据集的显著空白。

4. 方法论

本章节将详细阐述 OmniObject3D 数据集的构建方法，包括数据收集、处理、注释的整个流程。

4.1. 数据采集、处理与注释

OmniObject3D 的构建是一个系统性的过程，旨在获取高质量、多样化且具有丰富注释的真实世界3D物体数据。

为了确保数据集既包含广泛分布的日常物体，又具有高度的多样性，首先定义了一个类别列表 (category list)。这个列表是基于多个流行2D和3D数据集（如 ImageNet [19]、LVIS [33]、ShapeNet [9]、Open Images [47]、COCO [48]、ScanNet [80] 和 ModelNet [96]）的常见类别进行预定义的。

选择原则：主要涵盖了扫描仪应用范围内的多数类别。
动态扩展：在数据收集过程中，如果发现当前列表中缺失的合理新类别，会动态地进行扩充。
最终结果：最终确定了190个广泛分布的类别，这确保了数据集在纹理、几何和语义信息上的丰富性。

4.1.2. 物体收集流程 (Object Collection Pipeline)

确定类别列表后，团队开始收集每个类别中的各种物体，并使用专业的3D扫描仪获取高分辨率的带纹理网格 (textured meshes)。

扫描设备：
- 针对不同尺寸的物体，使用了两种专业的3D扫描仪：Shining 3D 扫描仪和 Artec Eva 3D 扫描仪。
扫描时间：
- 扫描时间因物体特性而异：例如，扫描一个简单的、小的刚性物体（如苹果、玩具）大约需要15分钟。
- 对于非刚性、复杂或大型物体（如床、风筝），可能需要长达一小时才能获得合格的3D扫描。
物体操作：
- 对于大约10%的物体，进行了常见的操作 (manipulations)，例如咬一口、切成碎片等，以符合其自然状态或使用情境。这些操作增加了数据的真实性和多样性。
- 下方图片 (原文 Figure S3 (b)) 展示了这些操作的示例。
姿态对齐 (Pose Alignment)：
- 原始3D扫描数据保留了每个物体的真实世界尺寸，但其姿态 (poses) 未严格对齐。
- 为此，团队为每个类别预定义了一个规范姿态 (canonical pose)，并手动将同一类别内的物体对齐到这个规范姿态。这有助于后续的跨物体比较和学习。
质量检查：
- 对每个扫描件都进行了质量检查，最终在大约83%的合格扫描件被保留在数据集中。

4.1.3. 图像渲染和点云采样 (Image Rendering and Point Cloud Sampling)

为了支持多种研究主题（如点云分析、神经辐射场和3D生成），团队基于收集到的3D模型进行了多视角图像渲染和点云采样。

多视角图像渲染：
- 使用 Blender [17] 渲染了以物体为中心 (object-centric) 的、照片级真实感 (photo-realistic) 的多视角图像。
- 渲染图像的数量为100张，从上半球随机采样视角。
- 图像分辨率为 $800 \times 800$ 像素。
- 同时保存了精确的相机姿态 (camera poses)，这对新视角合成等任务至关重要。
- 为了进一步支持研究，还生成了高分辨率的中间层线索 (mid-level cues)，如深度图 (depth maps) 和法线图 (normal maps)。下方图片 (原文 Figure S2) 展示了 Blender 渲染结果的示例。
点云采样：
- 使用 Open3D 工具箱 [111] 从每个3D模型中均匀采样了多分辨率 (multi-resolution) 点云。
- 每个点云包含 $2^n$ 个点，其中 $n \in \{10, 11, 12, 13, 14\}$ 。这意味着点云密度从 1024 点到 16384 点不等。
数据生成管道：
- 除了数据集中已有的数据，团队还提供了一个数据生成管道 (data generation pipeline)。用户可以根据自己的需求，轻松地生成新的数据，包括自定义相机分布、光照和点采样方法。

4.1.4. 视频捕获与注释 (Video Capturing and Annotation)

在完成每个物体的扫描后，团队使用 iPhone 12 Pro 手机捕获了其视频。

视频捕获过程：
- 物体被放置在校准板 (calibration board) 上或旁边。
- 每个视频覆盖了物体周围 $360^\circ$ 的完整范围。
- 校准板上的方形角可以通过其旁边的二维码识别。
- 团队过滤掉了识别到的角点少于8个的模糊帧 (blurry frames)。
- 均匀采样了200帧。
相机姿态注释：
- 对采样的200帧图像应用了著名的 SfM (Structure-from-Motion) 管道 COLMAP [77]，以注释这些帧的相机姿态。
- 利用校准板在 SfM 坐标空间和真实世界中的尺寸，恢复了 SfM 坐标系的绝对尺度。
- 下方图片 (原文 Figure S3 (c)) 展示了 COLMAP 稀疏重建与扫描网格的质量对比。
前景掩码生成：
- 开发了一个两阶段的抠图管道 (matting pipeline)，基于 U $^2$ Net [73] 和 FBA [24] 抠图模型，为所有视频帧生成了前景掩码 (foreground masks)。
- 详细步骤：
  1. 利用 Rembg 工具对图像帧进行背景移除，从不同类别中选择了3,000个好的结果作为伪分割标签 (pseudo segmentation labels)。
  2. 通过使用这些伪标签进行微调 (fine-tuning)，改进了抠图管道，以提升其在物体上的分割能力。
- 下方图片 (原文 Figure S3 (a)) 展示了分割管道的示例和失败案例。
  
  该图像是图表，展示了分割示例（a）、操作实例（b）和SfM重建（c）。其中，分割示例展示了物体的分割情况，操作实例展示了对物体的不同处理方式，而SfM重建展示了物体的3D扫描效果，并指出了重建中底部缺失的问题。

图 S3. 分割 (a)、操作 (b) 和重建 (c) 示例。在 (c) 中，SfM 从视频帧重建的底部缺失是由于其与桌子的接触。

$Figure S2. Examples of the Blender \[17\] rendered results.$ 该图像是一个示意图，展示了不同物体的RGB、深度和法线图像。在第一列中，显示了不同物体的真实色彩；第二列为相应的深度图，突出物体的形状；第三列展示了法线图，有助于理解物体表面的光照反应。

图 S2. Blender [17] 渲染结果示例。

4.2. 数据统计与分布

OmniObject3D 包含190个类别的6,000个3D模型，呈现出长尾分布 (long-tailed distribution)，平均每个类别约有30个物体。

与现有数据集的兼容性：
- OmniObject3D 与多个著名的2D和3D数据集（如 ImageNet [19]、LVIS [33]、Open Images [47]、COCO [48]、ShapeNet [9] 和 ModelNet [96]）共享许多常见类别。
- 例如，它覆盖了 ImageNet 中85个类别和 LVIS 中130个类别，这使得其在 Table 1 中具有最高的 $R^{lvis}$ 值，表明其与 LVIS 类别的高度兼容性。
多样性：
- 数据集在形状和外观上表现出巨大的多样性。
- 广泛的语义和几何探索空间使得该数据集能够支持广泛的研究目标。
类别分布图：
- 下方图片 (原文 Figure 2) 展示了 OmniObject3D 数据集中每个类别的物体数量分布，以及一些真实扫描的物体示例。可以看出，数据集涵盖了从日常用品到食物等多种多样的物体。
- 下方图片 (原文 Figure S1) 提供了带有每个类别物体数量的完整类别列表。
  
  该图像是一个展示各种3D物体的图表，左侧为每类物体的数量分布，右侧为多个图像的组合，显示了丰富的真实3D扫描对象。通过这个图表，可以直观地观察到OmniObject3D数据集中不同类别物体的多样性和数量。

图 2. OmniObject3D 具有丰富的真实扫描 3D 物体，涵盖广泛的类别，与流行的 2D 和 3D 数据集共享常见类别。

该图像是一个柱状图，展示了不同类别的3D对象数量。图中纵坐标表示类别名称，横坐标表示每个类别对应的对象数量，显示出每个类别在OmniObject3D数据集中对象的分布情况。

图 S1. 完整类别列表及每个类别的物体数量。

总而言之，OmniObject3D 通过精心设计的收集和处理流程，成功构建了一个大规模、高质量、多模态、具有丰富注释和广泛多样性的真实世界3D物体数据集，为3D视觉的各项任务提供了强大的支撑。

5. 实验设置

本部分详细描述了 OmniObject3D 数据集上进行的四项评估任务的实验设置，包括鲁棒3D感知、新视角合成、神经表面重建和3D物体生成。

5.1. 数据集

OmniObject3D 数据集是所有实验的核心，其特点已在方法论中详细描述。这里主要关注实验中如何使用和划分数据集。

OmniObject3D 的特点：
- 规模：6,000个高品质、带纹理的真实扫描网格。
- 类别：190个日常类别。
- 注释：带纹理的3D网格、采样点云、多视角渲染图像、真实捕获视频帧。
- 质量：专业扫描仪支持高精度几何和逼真纹理。
数据样本示例：
- 以下图片 (原文 Figure 1) 展示了 OmniObject3D 数据集中一些具有代表性的3D物体样本，包括了水果、厨具、交通工具等，体现了数据集的丰富多样性。
  
  该图像是一个示意图，展示了OmniObject3D数据集中的多种3D物体以及不同的评价轨道，如感知、novel-view合成、表面重建和生成。图中包含真实扫描的物体，以及纹理网格、点云、渲染图像和真实捕获的视频素材，突出了数据集的多样性和丰富的注释。

图 1. OmniObject3D：一个大规模词汇量 3D 物体数据集，用于真实感知、重建和生成。它包含 6,000 个带纹理网格、点云、多视角渲染图像和真实捕获视频。

5.1.1. 鲁棒3D感知实验数据集

训练集：ModelNet-40 [96] (一个干净的合成数据集)，用于训练点云分类模型。
测试集：
- OmniObject3D (干净)：用于评估模型对 OOD 样式 (OOD styles) 的鲁棒性。这是第一个干净的真实世界点云物体数据集，允许独立分析 OOD 样式。
- OmniObject3D-C (损坏)：通过对 OmniObject3D 应用 [75] 中描述的常见损坏 (common corruptions) 创建。用于评估模型对 OOD 损坏 (OOD corruptions) 的鲁棒性。
- 腐败类型: 参照 ModelNet-C [75]，七种 OOD 损坏类型包括：“Scale”、“Jitter”、“Drop Global/Local”、“Add Global/Local”和“Rotate”。

5.1.2. 新视角合成实验数据集

单场景 NVS：
- 从 OmniObject3D 中选取每个类别中的三个物体进行实验。
- 对于每个物体，将其100张渲染图像中的1/8作为留出测试集 (hold-out test set)。
跨场景 NVS：
- 选取了10个类别作为测试集，这些类别具有最丰富的场景多样性：toy train (玩具火车)、bread (面包)、cake (蛋糕)、toy boat (玩具船)、hot dog (热狗)、wallet (钱包)、pitaya (火龙果)、squash (南瓜)、handbag (手提包)、apple (苹果)。
- 每个类别中，将三个场景作为测试集，其余场景作为训练集。
- 在每个场景中，使用100张渲染视图，从中选择3张视图作为稀疏输入，10张视图作为测试视图。
- 此外，还使用了 iPhone 拍摄的视频数据（SfM-wo-bg, SfM-w-bg）和 Blender 渲染数据进行对比分析。

5.1.3. 神经表面重建实验数据集

密集视图表面重建：
- 从 OmniObject3D 中选择每个类别中的三个物体进行实验，导致总共超过1,500次重建。
- 每个场景使用100张视图进行训练。
- 根据平均 Chamfer 距离将类别划分为“hard”、“medium”和“easy”三个难度级别。
稀疏视图表面重建：
- 在所有实验中都采样了3个视图作为输入。
- 对于 NeuS [90] 和 MonoSDF [106]，使用最远点采样 (Farthest Point Sampling, FPS) 从100个视图中采样3个视图。
- 对于 SparseNeuS [54] 和 MVSNeRF [11]，在随机参考视图周围最近的30个相机姿态中进行 FPS 采样。
- 还尝试了2、5、8个视图的稀疏视图重建，以分析视图数量的影响。

5.1.4. 3D物体生成实验数据集

训练集：
- 选择了四个代表性数据子集进行训练和评估：fruits (水果)、furniture (家具)、toys (玩具) 和 Rand-100 (随机100个类别)。
- 每个子集被随机划分为训练集 (80%) 和测试集 (20%)。
- 对于 Rand-100 子集，联合训练了一个无条件生成模型。
数据准备：
- 通过 Blender [17] 为每个物体渲染了24张内向多视角图像，作为 GET3D [29] 的训练输入。

5.2. 评估指标

5.2.1. 鲁棒3D感知

整体准确率 (Overall Accuracy, OA)：
- 概念定义: OA 是最常用的分类指标之一，表示模型在所有测试样本上正确分类的比例。在鲁棒性评估中， $OA_{Clean}$ 指模型在标准 ModelNet-40 测试集上的准确率， $OA_{style}$ 指模型在 OmniObject3D 干净测试集上对 OOD 样式的鲁棒性。
- 数学公式: $\text{OA} = \frac{\text{Number of Correctly Classified Samples}}{\text{Total Number of Samples}}$
- 符号解释:
  - Number of Correctly Classified Samples: 被模型正确分类的样本数量。
  - Total Number of Samples: 所有参与评估的样本总数。
平均损坏误差 (mean Corruption Error, mCE)：
- 概念定义: mCE 用于衡量模型在各种人工损坏数据上的性能下降程度。它通常将模型在损坏数据上的错误率与某个基线模型（如 DGCNN）在相同损坏数据上的错误率进行比较，然后取所有损坏类型的平均值。较低的 mCE 值表示模型对损坏的鲁棒性越好。
- 数学公式: $\text{mCE} = \frac{1}{N_c} \sum_{i=1}^{N_c} \frac{\text{ErrorRate}(\text{Model}, \text{Corruption}_i)}{\text{ErrorRate}(\text{Baseline}, \text{Corruption}_i)}$
- 符号解释:
  - $N_c$ : 损坏类型的总数量。
  - $\text{ErrorRate}(\text{Model}, \text{Corruption}_i)$ : 待评估模型在第 $i$ 种损坏上的错误率。
  - $\text{ErrorRate}(\text{Baseline}, \text{Corruption}_i)$ : 基线模型（例如 DGCNN）在第 $i$ 种损坏上的错误率。

5.2.2. 新视角合成

PSNR (Peak Signal-to-Noise Ratio)：峰值信噪比。值越高表示图像质量越好。
- 概念定义: PSNR 是一个广泛用于衡量图像（或视频）质量的客观指标，特别是用于评估有损压缩或重建图像与原始图像之间的差异。它通过比较两幅图像中像素值的均方误差 (Mean Squared Error, MSE) 与像素可能的最大值来计算。PSNR 值越高，表示重建图像与原始图像越接近，质量越好。
- 数学公式: $\text{PSNR} = 10 \cdot \log_{10} \left( \frac{\text{MAX}_I^2}{\text{MSE}} \right)$ 其中， $\text{MSE} = \frac{1}{mn} \sum_{i=0}^{m-1} \sum_{j=0}^{n-1} [I(i,j) - K(i,j)]^2$
- 符号解释:
  - $\text{MAX}_I$ : 图像中像素可能的最大值。对于8位灰度图像， $\text{MAX}_I = 255$ 。
  - $\text{MSE}$ : 均方误差。
  - m, n: 图像的行数和列数（高度和宽度）。
  - I(i,j): 原始图像在坐标 (i,j) 处的像素值。
  - K(i,j): 噪声图像（或重建图像）在坐标 (i,j) 处的像素值。
SSIM (Structural Similarity Index Measure)：结构相似性指标。值接近1表示图像相似度高。
- 概念定义: SSIM 是一种感知指标，用于评估两幅图像（通常是原始图像和经过处理或重建的图像）之间的相似度。它试图模拟人类视觉系统对图像质量的感知，它综合考虑了亮度 (luminance)、对比度 (contrast) 和结构 (structure) 三个方面。SSIM 值范围通常在 -1 到 1 之间，值越高表示两幅图像越相似，其中 1 表示完全相同。
- 数学公式: $\text{SSIM}(x,y) = \frac{(2\mu_x\mu_y + C_1)(2\sigma_{xy} + C_2)}{(\mu_x^2 + \mu_y^2 + C_1)(\sigma_x^2 + \sigma_y^2 + C_2)}$
- 符号解释:
  - x, y: 两幅待比较的图像块。
  - $\mu_x, \mu_y$ : 图像块 $x$ 和 $y$ 的平均像素值。
  - $\sigma_x, \sigma_y$ : 图像块 $x$ 和 $y$ 的标准差（衡量对比度）。
  - $\sigma_{xy}$ : 图像块 $x$ 和 $y$ 的协方差（衡量结构相似性）。
  - $C_1, C_2$ : 常数，用于避免分母为零或数值不稳定。
LPIPS (Learned Perceptual Image Patch Similarity)：学习型感知图像块相似度。值越低表示图像越相似。
- 概念定义: LPIPS 是一种通过深度学习模型来衡量两幅图像（通常是生成图像与真实图像）之间感知相似度的指标。它利用在大量图像上预训练的深度神经网络提取图像的特征表示。LPIPS 认为，如果两幅图像在深度特征空间中的距离很小，那么它们在人类感知上也是相似的。LPIPS 值越小，表示两幅图像在感知上越相似。
- 数学公式: $\text{LPIPS}(x, y) = \sum_l \frac{1}{H_l W_l} \sum_{h,w} \|w_l \odot (\phi_l(x)_{h,w} - \phi_l(y)_{h,w})\|_2^2$
- 符号解释:
  - x, y: 两幅待比较的图像。
  - $\phi_l$ : 预训练深度网络中第 $l$ 层的特征提取器。
  - $w_l$ : 调整第 $l$ 层特征贡献的权重。
  - $H_l, W_l$ : 第 $l$ 层特征图的高度和宽度。
  - $\odot$ : 元素级乘法。
  - $\| \cdot \|_2^2$ : 欧氏距离平方。

5.2.3. 神经表面重建

Chamfer 距离 (Chamfer Distance, CD)：衡量重建表面与真实网格之间的几何距离。值越低表示重建越精确。
- 概念定义: Chamfer 距离用于量化两个点集（或从两个3D形状采样得到的点集）之间的几何差异。它通过计算一个点集中每个点到另一个点集中最近点的平均距离来评估形状的相似性，然后将这两个方向的平均距离相加。值越小，表示两个形状越相似。
- 数学公式: $D_{CD}(S_1, S_2) = \frac{1}{|S_1|} \sum_{x \in S_1} \min_{y \in S_2} \|x - y\|_2^2 + \frac{1}{|S_2|} \sum_{y \in S_1} \min_{x \in S_2} \|y - x\|_2^2$
- 符号解释:
  - $S_1, S_2$ : 两个待比较的点集。
  - $|S_1|, |S_2|$ : 点集 $S_1$ 和 $S_2$ 中点的数量。
  - $x$ : 点集 $S_1$ 中的一个点。
  - $y$ : 点集 $S_2$ 中的一个点。
  - $\min_{y \in S_2} \|x - y\|_2^2$ : 点 $x$ 到点集 $S_2$ 中最近点的欧氏距离平方。
  - $\min_{x \in S_1} \|y - x\|_2^2$ : 点 $y$ 到点集 $S_1$ 中最近点的欧氏距离平方。

5.2.4. 3D 物体生成

Chamfer 距离 (CD)：用于计算覆盖率 (Coverage, Cov) 和最小匹配距离 (Minimum Matching Distance, MMD)。
- 覆盖率 (Cov)：衡量生成形状的多样性。它表示真实数据集中有多少比例的形状在生成形状中找到了“近邻”。值越高表示生成形状的多样性越好。
- 最小匹配距离 (MMD)：衡量生成形状的质量。它表示生成形状与真实形状之间的平均最小距离。值越低表示生成形状的质量越高。
FID (Fréchet Inception Distance)：衡量生成纹理的质量。值越低表示生成纹理的真实性和多样性越好。
- 概念定义: FID 是一种用于评估生成图像质量和多样性的度量标准，尤其在生成对抗网络 (GANs) 等图像生成模型中广泛使用。它通过比较真实图像和生成图像在 Inception 网络某个中间层特征空间中的分布来计算。FID 假设这些特征分布是高斯分布，并计算两个高斯分布之间的 Fréchet 距离。较低的 FID 值表示生成图像的质量更高、多样性更强，且与真实图像的分布更接近。
- 数学公式: $\text{FID}(X, G) = \|\mu_X - \mu_G\|_2^2 + \text{Tr}(\Sigma_X + \Sigma_G - 2(\Sigma_X \Sigma_G)^{1/2})$
- 符号解释:
  - $X$ : 真实图像在 Inception 特征空间中的特征集合。
  - $G$ : 生成图像在 Inception 特征空间中的特征集合。
  - $\mu_X, \mu_G$ : 分别是真实图像和生成图像特征的均值向量。
  - $\Sigma_X, \Sigma_G$ : 分别是真实图像和生成图像特征的协方差矩阵。
  - $\|\cdot\|_2^2$ : 向量的L2范数平方。
  - $\text{Tr}(\cdot)$ : 矩阵的迹。
FID $^{\text{ref}}$ (Reference FID)：训练集和测试集之间的 FID 值。用于参考比较，特别是在测试集较小时，FID 可能会有较大方差。

5.3. 对比基线

5.3.1. 鲁棒3D感知

实验将本文方法与十个最先进的点云分类模型进行了比较：

DGCNN [92]
PointNet [71]
PointNet++ [72]
RSCNN [51]
Simple View [30]
GDANet [99]
PAConv [98]
CurveNet [97]
PCT [32]
RPC [75]

5.3.2. 新视角合成

单场景 NVS：
- NeRF [60]
- mip-NeRF [5]
- Plenoxels [25] (基于体素的方法)
跨场景 NVS：
- pixelNeRF [105]
- IBRNet [91]
- MVSNeRF [11]
- pixelNeRF-U [105] (在未对齐坐标系下的 pixelNeRF 变体)

5.3.3. 神经表面重建

密集视图表面重建：
- NeuS [90]
- VolSDF [103]
- Voxurf [95] (基于体素的方法)
稀疏视图表面重建：
- NeuS [90] (使用稀疏视图输入)
- MonoSDF [106] (利用预训练模型估计几何线索)
- SparseNeuS [54] (通用表面预测管道)
- pixelNeRF [105] (从密度场提取几何体)
- MVSNeRF [11] (从密度场提取几何体)

5.3.4. 3D 物体生成

生成模型：GET3D [29] (一种直接生成显式带纹理3D网格的最先进方法)。GET3D 最初在六个类别上进行评估，本文将其扩展到 OmniObject3D 的大规模词汇量和多样化类别。

6. 实验结果与分析

6.1. 鲁棒3D感知

本节通过 OmniObject3D 数据集，对点云分类的鲁棒性进行了细致分析，独立考察了 OOD 样式和 OOD 损坏的影响。模型均在 ModelNet-40 数据集上进行训练。

以下是原文 [Table 2] 的结果：

	mCE† ↓	OA`_{Clean}` ↑	OA`_{style}` ↑	mCE ↓
DGCNN [92]	1.000	0.926	0.448	1.000
PointNet [71]	1.422	0.907	0.466	0.969
PointNet++ [72]	1.072	0.930	0.407	1.066
RSCNN [51]	1.130	0.923	0.393	1.076
Simple View [30]	1.047	0.939	0.476	0.990
GDANet [99]	0.892	0.934	0.497	0.920
PAConv [98]	1.104	0.936	0.403	1.073
CurveNet [97]	0.927	0.938	0.500	0.929
PCT [32]	0.925	0.930	0.459	0.940
RPC [75]	0.863	0.930	0.472	0.936

表 2. OmniObject3D 上不同架构设计的点云感知鲁棒性分析。模型在 ModelNet-40 数据集上训练， $\text{OA}_{\text{Clean}}$ 为其在标准 ModelNet-40 测试集上的整体准确率。 $\text{OA}_{\text{style}}$ 在 OmniObject3D 上评估对 OOD 样式的鲁棒性。mCE 在损坏的 OmniObject3D-C 上评估对 OOD 损坏的鲁棒性。蓝色阴影表示排名。^†: ModelNet-C [75] 上的结果。完整结果见补充材料。

核心观察与分析：

干净测试集性能与 OOD 样式鲁棒性关联不大：
- SimpleView [30] 在 $OA_{Clean}$ （ModelNet-40 干净测试集）上表现最佳 (0.939)，但其 $OA_{style}$ （OmniObject3D 真实数据）却表现平平 (0.476)。
- 这表明模型在合成数据上表现优秀，并不意味着在真实世界数据上也能很好地泛化，突显了 OOD 样式带来的挑战。
先进点云分组方法对 OOD 样式和损坏均鲁棒：
- CurveNet [97] (基于曲线的点云分组) 和 GDANet [99] (基于频率的点云分组) 在 $OA_{style}$ 上分别达到了 0.500 和 0.497，表现出最好的 OOD 样式鲁棒性。
- 这两者在 mCE 上也表现出较好的 OOD 损坏鲁棒性 (0.929 和 0.920)。
- 这一发现扩展了 [75] 中关于这些方法对 OOD 损坏鲁棒性的结论，表明它们在面对真实世界 OOD 样式时也具有优势。
OOD 样式 + OOD 损坏是一个更具挑战性的设置：
- RPC [75] 在 ModelNet-C 上的 mCE† 表现最佳 (0.863)，但在 OmniObject3D-C 上的 mCE 却不如 GDANet 和 CurveNet (0.936)。
- 这表明模型在合成数据的损坏版本上鲁棒，并不代表在真实数据的损坏版本上也能同样鲁棒。当 OOD 样式和 OOD 损坏同时存在时，问题变得更加复杂和困难。
- 图 3 (原文) 形象地展示了这种多维度的鲁棒性分析。
  
  $Figure 3. OmniObject3D provides the first clean real-world point cloud object dataset and allows fine-grained analysis on robustness to OOD styles and OOD corruptions."-C": corrupted by common corruptions described in \[75\]$ 该图像是插图，展示了OmniObject3D数据集的三个不同版本，包括ModelNet、OmniObject3D和OmniObject3D-C。它们分别展示了在OOD样式和OOD损坏下的3D物体表现，说明了数据集在不同条件下的鲁棒性分析。

图 3. OmniObject3D 提供了第一个干净的真实世界点云物体数据集，并允许对 OOD 样式和 OOD 损坏进行细粒度分析。"-C": 被 [75] 中描述的常见损坏所腐蚀。

结论：鲁棒点云感知模型，特别是那些能够有效应对 OOD 样式和 OOD 损坏双重挑战的模型，仍然是一个有待深入研究的领域。OmniObject3D 数据集为全面理解点云感知鲁棒性提供了新的视角和基准。

6.2. 新视角合成

本节研究了新视角合成 (NVS) 任务在 OmniObject3D 数据集上的表现，包括单场景 NVS 和跨场景 NVS 两种设置。

6.2.1. 单场景 NVS

实验选取了每个类别中的三个物体，将1/8的图像作为测试集。

以下是原文 [Table 3] 的结果：

Method	PSNR (↑) / SD	SSIM (↑) / SD	LPIPS (↓) / SD
NeRF [60]	34.01 / 3.46	0.953 / 0.029	0.068 / 0.061
mip-NeRF [5]	39.86 / 4.58	0.974 / 0.013	0.084 / 0.048
Plenoxels [25]	41.04 / 6.84	0.982 / 0.031	0.030 / 0.031

表 3. 单场景新视角合成结果。三个指标及其在训练集上的标准差 (SD)。

核心观察与分析：

Plenoxels 的最佳性能：
- Plenoxels [25] 在 PSNR、SSIM 和 LPIPS 三个指标上均取得了最佳平均性能。
- 在 LPIPS 上，Plenoxels 相较于其他两种方法有显著优势，这表明基于体素 (voxel-based) 的方法在建模高频外观方面表现出色。
Plenoxels 的不稳定性：
- 尽管 Plenoxels 平均表现最佳，但其结果的标准差 (SD) 相对较高（例如 PSNR 为 6.84），表明其在不同场景下的性能波动较大，不如 NeRF 和 mip-NeRF 稳定。
- 原因：作者观察到 Plenoxels 在遇到凹面几何（如碗、椅子）时会引入伪影，并且当前景物体颜色较暗时，密度场建模不准确。
- MLP-based 方法的鲁棒性：NeRF 和 mip-NeRF 等基于 MLP 的方法在处理这些困难情况时相对更鲁棒。
  
  图 S4 (原文) 展示了不同方法在渲染场景中的定性比较，进一步印证了这些观察。
  
  该图像是一个比较图，展示了三种不同方法（NeRF、mip-NeRF、Plenoxtels）在重建3D物体时的效果，与真实数据（Ground truth）进行对比。该对比涵盖了球体和立方体等几何形状的呈现，展示了各方法在细节和真实度上的差异。

图 S4. 单场景 NVS 方法在我们数据集的不同渲染场景中的定性比较。

iPhone 视频与渲染图像的对比 (图 S5, 表 R2): 作者还比较了使用 Blender 渲染数据与 iPhone 视频数据（包含和不包含背景）进行 NVS 的结果。

以下是原文 [Table R2] 的结果：

Method	Data-type	PSNR (↑)
NeRF [60]	SfM-w-bg	22.92
	SfM-wo-bg	24.70
	Blender	28.07
Mip-NeRF [5]	SfM-w-bg	23.29
	SfM-wo-bg	25.62
	Blender	31.25
Plenoxel [25]	SfM-w-bg	14.06
	SfM-wo-bg	19.18
	Blender	28.07

表 R2. 3 种单场景 NVS 方法在不同数据类型上的比较。对于我们所有涉及的方法，可以观察到 Blender 设置表现最佳；SfM-wo-bg 设置由于运动模糊和 SfM 姿态估计的潜在不准确而略差；SfM-w-bg 设置始终获得最低的 PSNR，因为无边界场景中的背景引入了进一步的挑战。

Figure S5. Qualitative comparisons of NVS on the same scenes with different data dypes. 该图像是一个比较不同数据类型的定性比较图，展示了两个案例的预测、真实值和误差图。案例1和案例2分别使用了Blender、SfM-wo-bg和SfM-w-bg技术，显示了模型在不同背景处理及数据输入下的表现。

图 S5. 具有不同数据类型的相同场景的 NVS 定性比较。

对比分析：

Blender 渲染数据表现最佳：所有方法在使用 Blender 渲染数据时都取得了最佳性能，这证实了渲染数据的理想特性（精确的相机姿态、无运动模糊、可控背景等）。
SfM-wo-bg 表现次之：移除背景的 iPhone 视频数据 (SfM-wo-bg) 性能略低于 Blender 数据。这是由于真实捕获视频中的运动模糊和 SfM 姿态估计可能存在不准确性。
SfM-w-bg 表现最差：包含背景的 iPhone 视频数据 (SfM-w-bg) 始终表现最差。无边界场景中的复杂背景为 NVS 引入了额外的挑战。
挑战：这些实验结果表明，从随意捕获的视频中进行鲁棒的新视角合成是一个重要且具有挑战性的研究方向。

6.2.2. 跨场景 NVS

实验在10个类别上对 pixelNeRF [105]、IBRNet [91] 和 MVSNeRF [11] 进行了评估。 $All*$ 表示在所有类别上训练（除10个测试类别），Cat. 表示在每个类别上训练。All*-ft 和 Cat.-ft 表示在预训练后进行微调。

以下是原文 [Table 4] 的结果：

Method	Train	PSNR (↑)	SSIM (↑)	LPIPS (↓)	Ldepth (↓)
MVSNeRF [11]	All*	17.49	0.544	0.442	0.193
	Cat.	17.54	0.542	0.448	0.230
	All*-ft	25.70	0.754	0.251	0.081
	Cat.-ft	25.52	0.750	0.264	0.076
IBRNet [91]	All*	19.39	0.569	0.399	0.423
	Cat.	19.03	0.551	0.415	0.290
	All*-ft	26.89	0.792	0.215	0.081
	Cat.-ft	25.67	0.760	0.238	0.099
pixelNeRF [105]	All*	22.16	0.697	0.331	0.142
	Cat.	20.65	0.628	0.403	0.172

表 4. 10 个类别上的跨场景新视角合成结果。'Cat.' 表示在每个类别上训练，'All*' 表示在除 10 个测试类别外的所有类别上训练。

核心观察与分析：

泛化模型的有效性：
- 在泛化设置下， $MVSNeRF_{All*}$ 的性能与 $MVSNeRF_{Cat.}$ 相当。
- $IBRNet_{All*}$ 甚至在所有视觉指标上都优于相应的 Cat. 版本，尤其是在形状规则的物体（如南瓜和苹果）上。
- 这证实了 OmniObject3D 是一个信息丰富的 (information-rich) 数据集，有利于从深度特征学习强大的可泛化先验知识，从而应用于未见场景。
几何线索的学习：
- MVSNeRF 和 pixelNeRF 的 $All*$ 版本生成的潜在深度 (Ldepth) 优于其 Cat. 版本。
- 这表明可泛化方法（即使仅从外观训练）也能隐式学习到几何线索。
IBRNet 的表现：
- IBRNet 在源上下文稀缺（仅3个视图）的情况下，在几何方面表现更差，因为其视图插值模块更适合密集视图泛化。
- 然而，经过对每个测试场景约10分钟的微调后， $IBRNet_{All*-ft}$ 实现了最佳的新视角合成结果，与场景特定 (scene-specific) 的 NVS 方法在临近视图上相当。
MVSNeRF 的局限性：
- MVSNeRF 在视觉性能上落后于 pixelNeRF，这可能是因为在 $360^\circ$ 范围内广泛分布的10个测试帧（通过 FPS 采样）中，当视角变化较大时，成本体 (cost volume) 会变得不准确。
  
  图 S6 (原文) 提供了跨场景 NVS 方法的定性比较。
  
  该图像是示意图，展示了在不同场景中多种跨场景新视角合成（NVS）方法的定性比较。图中包括真实视图、Ground Truth 以及应用于苹果、黄油卷、红色浆果和玩具车等物体的不同方法的输出。

图 S6. 我们数据集中不同场景的几种跨场景 NVS 方法的定性比较。

未对齐坐标系下的跨场景 NVS (图 S7, 表 R4): 作者还测试了在未对齐坐标系 (pixelNeRF-U) 下的跨场景 NVS 性能。

Train	Metric	toy train	bread	cake	toy boat	hot dog	wallet	pitaya	squash	handbag	apple
All*	PSNR	18.81	19.92	19.86	19.54	19.64	20.31	20.44	20.74	20.79	21.21
		-0.96	-1.62	-0.91	-0.29	-1.29	-4.42	-1.34	-2.74	-0.51	-5.97
	SSIM	0.591	0.625	0.636	0.626	0.627	0.628	0.619	0.631	0.635	0.650
		-0.056	-0.076	-0.054	-0.035	-0.044	-0.038	+0.013	-0.117	-0.061	-0.183
	LPIPS	0.432	0.406	0.405	0.398	0.397	0.401	0.405	0.394	0.397	0.390
		-0.055	-0.075	-0.042	-0.083	-0.058	-0.008	-0.035	-0.111	-0.016	-0.121
Cat.	PSNR	19.36	19.03	18.46	18.45	18.53	19.41	19.51	19.34	19.38	19.58
		-0.55	-1.90	-0.91	-1.75	-1.10	-4.75	-1.29	-0.75	-0.46	-5.38
	SSIM	0.637	0.636	0.626	0.624	0.623	0.625	0.616	0.614	0.618	0.631
		-0.048	-0.066	+0.004	-0.062	-0.022	-0.037	+0.010	-0.053	-0.039	-0.197
	LPIPS	0.392	0.402	0.415	0.400	0.396	0.399	0.403	0.404	0.408	0.404
		-0.060	-0.072	+0.011	-0.125	-0.048	-0.007	-0.036	-0.062	+0.012	-0.155

表 R4. pixelNeRF-U [105] 在 10 个类别上的未对齐跨场景新视角合成结果。

Figure S7. Qualitative comparison of pixelNeRF-U and pixelNeRF. The former shows a more blurry and irregular-shaped appearance. 该图像是插图，展示了真实图像（Ground Truth）与不同方法生成的图像对比，包括 All、All*-Unaligned、Cat 和 Cat-Unaligned 四种情况。通过对比，可以观察到不同生成方法在结构和细节上存在明显差异，部分生成图像较为模糊和不规则。*

图 S7. pixelNeRF-U 和 pixelNeRF 的定性比较。前者显示出更模糊和不规则的形状外观。

对比分析：

性能显著下降：在未对齐坐标系下，PSNR 显著下降（例如 $All*$ 从 22.16 降至 21.20，Cat. 从 20.65 降至 19.58），特别是对于苹果和钱包等物体。几何体也遭受影响，导致更模糊和不规则的形状外观。
原因推测：由于 pixelNeRF 将 xyz 坐标作为网络输入，坐标隐式地存储了类别特定的先验知识（例如，规范空间中特定3D位置可能学习到玩具火车头部或尾部的先验）。因此，坐标系未对齐会破坏这种刚性场景的习得方差。

6.3. 神经表面重建

本节探讨了在 OmniObject3D 数据集上进行神经表面重建的性能，包括密集视图和稀疏视图两种设置。

6.3.1. 密集视图表面重建

实验包含了 NeuS [90]、VolSDF [103] 和 Voxurf [95] 三种代表性方法。

以下是原文 [Table 5] 的结果：

Method	Hard	Medium	Easy	Avg
NeuS [90]	9.26	5.63	3.46	6.09
VolSDF [103]	10.06	4.94	2.86	5.92
Voxurf [95]	9.01	4.98	2.58	5.49
Avg	9.44	5.19	2.97	5.83

表 5. 密集视图表面重建结果。

核心观察与分析：

难度分级：作者根据 Chamfer 距离将物体类别划分为“hard”、“medium”和“easy”三个难度级别。
- “hard”类别通常包括低纹理、凹面或复杂形状（例如碗、花瓶、狗窝、橱柜和榴莲），如图 S8 所示。
- “medium”和“easy”类别通常具有简单的几何形状和合适的纹理。
方法表现：
- Voxurf [95] 整体表现最佳，在所有难度级别上都取得了最低的 Chamfer 距离。这表明其混合表示方法在加速和精细几何重建方面的有效性。
- 所有方法在“easy”类别上表现最好，Chamfer 距离最低，而“hard”类别上 Chamfer 距离最高，验证了难度分级的合理性。
- 不同难度级别之间存在明显的性能差距，这说明 OmniObject3D 丰富的形状和外观多样性为全面评估不同的 NVS 方法提供了机会。
  
  图 5 (原文) 展示了密集视图表面重建的性能分布，平均曲线不平衡，进一步印证了难度分级的有效性。
  
  该图像是图表，展示了不同类别的Chamfer距离（x10³）分布情况。图中显示，从困难（hard）到容易（easy）类别，Chamfer距离逐渐降低，反映出三种方法在不同难度级别下的性能差异。带有阴影区域的曲线表明了结果的变化范围。

图 5. 密集视图表面重建的性能分布。三种方法的平均结果不平衡。彩色区域表示平滑的结果范围。

图 S8 (原文) 提供了不同难度级别下重建的示例。

Figure S8. Examples from different difficulty levels in surface reconstruction. ised by MonoSDF are shown on the right. 该图像是一个对比示例，展示了不同算法在三维物体表面重建中的表现。左侧展示了密集视图和稀疏视图下的重建结果，右侧则显示了一组从不同深度和法线估计得到的效果，突显了方法的多样性和效果。

图 S8. 表面重建中不同难度级别的示例。右侧显示了由 MonoSDF 预测的深度和法线。

6.3.2. 稀疏视图表面重建

实验在稀疏视图（3个视图）设置下进行了评估。

以下是原文 [Table 6] 的结果：

Method	Train		Chamfer Distance × 103 (↓)
			HardMediumEasy Avg
NeuS [90]	Single		29.35 27.62 24.7927.33
MonoSDF [106]	Single		35.14 35.35 32.7634.68
SparseNeuS [54]	1 cat.		34.05 31.32 31.1432.36
	10 cats.All cats.EasyMediumHard			30.75 30.11 28.37
			cats.	26.13 26.08 22.1325.00
			28.39 26.65 23.7626.48
MVSNeRF [11]	All cats.		56.68 48.09 48.7051.16
pixelNeRF [105]	All cats.	63.31 59.91 61.4761.56

表 6. 稀疏视图（3视图）表面重建结果。

核心观察与分析：

普遍存在伪影：所有稀疏视图重建结果都存在明显的伪影，表明这是一个仍未很好解决的挑战性问题。
SparseNeuS 表现最佳：在足够数据训练下，SparseNeuS [54] 表现出最佳的平均定量性能。即使在不同难度级别之间，预划分训练集也没有导致显著差异。
NeuS 的强大基线：
- NeuS [90] 在稀疏视图输入下取得了令人惊讶的良好性能。
- 如图 4 (原文) 中案例3所示，FPS 采样使得 NeuS 能够为薄结构（如叉子）保持连贯的全局形状，但可能在局部几何上存在严重的歧义（如图 4 案例1中的表面不连续）。
MonoSDF 的局限性：
- MonoSDF [106] 通过预训练模型估计的几何线索辅助重建，在某些情况下可以部分克服歧义（如图 4 案例1）。
- 然而，它严重依赖于估计深度和法线的准确性，当估计不准确时容易失败（如图 4 案例2和案例3）。
通用 NeRF 模型的不足：
- 从 pixelNeRF [105] 和 MVSNeRF [11] 等通用化 NeRF 模型中提取的表面质量相对较低。
  
  图 4 (原文) 展示了稀疏视图表面重建的定性结果。
  
  该图像是一个展示神经表面重建结果的插图，左侧为密集视图示例，包括三个案例及其对应的多视图图像，右侧为稀疏视图结果，展示了不同方法（如NeuS、VolSDF等）下的效果。每个案例展示了物体形状和细节的还原情况。

图 4. 密集视图和稀疏视图设置下的神经表面重建结果。

视图数量对稀疏视图重建的影响 (表 R5):

Method	2 views	3 views	5 views	8 views
NeuS [90]	41.06	27.3	12.65	7.96
MonoSDF [106]	45.35	34.68	23.02	18.97

表 R5. 具有一系列视图的稀疏视图表面重建结果。

分析：

NeuS 显著改进：对于 NeuS，随着视图数量从2增加到8，准确率有显著提升。但即使是8个视图的设置 (7.96)，仍与100个视图的密集设置 (6.09) 存在明显差距。
MonoSDF 改进放缓：MonoSDF 的改进在从5个视图增加到8个视图时开始放缓，这可能归因于不准确的深度指导。

视图选择范围对成本体初始化的影响 (图 S10): 在 MVSNeRF 中，由于遮挡，局部成本体特征在视角变化较大时会不一致。作者研究了在 FPS 采样中最近源视图数量对提取网格性能的影响。结果显示几何质量随视图范围呈现波动趋势，最终选择30个最近的相机姿态作为合适的视图选择范围。

Figure S10. Geometric quality with regard to view selection range. 该图像是一个示意图，展示了不同类别之间的相似性，包括 G0 到 G7 的多个组。每个圆圈代表一个物体类别，圆圈的大小表明组内物体的数量，G1 类别的物体具有最高的组内相似性。该图可用于理解物体分类及其相互关系。

图 S10. 几何质量与视图选择范围的关系。

6.4. 3D 物体生成

本节评估了在 OmniObject3D 数据集上使用 GET3D [29] 进行3D物体生成的效果，主要关注语义分布、多样性和质量。

图 7 (原文) 展示了 GET3D 在 OmniObject3D 上生成的各种物体，具有逼真的纹理和连贯的形状，以及精细的几何细节。

该图像是一个包含多种3D物体的示意图，展示了来自OmniObject3D数据集中的不同类别的对象，包括水果、家居用品和交通工具等。图中的物体具有高度真实感，展现了精准的形状和色彩。

图 7. 在各种类别中生成逼真且多样化的物体。右侧的图像显示了由 MonoSDF 预测的深度和法线。

图 8 (原文) 展示了形状插值结果，几何和纹理潜在代码的平滑过渡。

Figure 8. Shape interpolation. We interpolate both geometry and texture latent codes from left to right. 该图像是插图，展示了形状插值的过程，分别展示了从左到右的几何和纹理潜在代码的插值效果。画面上显示了不同的物体形状和纹理变化，反映三维对象的多样性与细节。

图 8. 形状插值。我们从左到右插值几何和纹理潜在代码。

6.4.1. 语义分布

作者通过对随机选择的100个类别联合训练无条件生成模型，然后让人工专家标记生成的1,000个带纹理网格来分析语义分布。

图 6 (原文) 提供了语义分布的详细分析：

该图像是图表，展示了生成形状的类别分布。图(a)显示了生成形状数量与每个类别训练形状数量之间的弱正相关；图(b)可视化了类别之间的Chamfer距离相关矩阵；图(c)展示了通过KMeans聚类后的类别分组；图(d)呈现了组级统计中的训练和生成关系。

图 6. 生成形状的类别分布。(a) 显示了生成形状的数量与每个类别训练形状的数量之间存在弱正相关。(b) 通过其平均形状之间的 Chamfer 距离可视化了不同类别之间的相关矩阵。(c) 可视化了通过 KMeans 聚类成八个组的类别。(d) 在组级统计中呈现了清晰的训练-生成关系。

核心观察与分析：

生成形状的不平衡性：
- 图 6 (a) 显示，每个类别生成的形状数量高度不平衡，与训练形状数量呈弱正相关。
类别相关性与分组：
- 类别并非完全独立。通过计算每个类别的“平均形状”并可视化它们之间的 Chamfer 距离（图 6 (b)），发现类别之间高度相关。
- 使用 KMeans 将类别聚类成八个组（图 6 (c) 和图 S11）。
组级统计的趋势：
- 图 6 (d) 展示了清晰的训练-生成关系：组内生成形状的数量随着训练形状的数量增加，甚至更快。这揭示了生成过程中语义偏差的扩大。
- 组内差异性是关键因素：
  - Group 2 (27个类别中的883个形状) 拥有最大的训练样本数量，但由于其类别之间的高度差异性（例如花生、手提包、蘑菇、热狗），阻碍了它在生成形状中占据主导地位。
  - Group 1 (18个类别中的587个形状) 的组内差异性相对较小（包含许多水果、蔬菜和其他形状相似的类别），这使得它成为生成形状中最受欢迎的组。高组内相似性使得这些类别能够相互增强学习。
    
    图 S11 (原文) 展示了 KMeans 聚类后每个组中的类别。
    
    该图像是图表，展示了不同类别（家具、水果、玩具及随机-100）的数量分布情况。各类别在数据量上表现出显著的差异，尤其是玩具类别的数量较多，突显了数据集中对不同物品分类的偏差。

图 S11. KMeans 聚类后每个组中的类别。Group 1 中的类别彼此高度相似，而 Group 2 中的类别则具有高度的组内差异。

6.4.2. 多样性与质量

实验选择了 fruits、furniture、toys 和 Rand-100 四个代表性子集进行训练和评估。

以下是原文 [Table 7] 的结果：

Split	#Objs	#Cats	Cov (%) ↑	MMD (↓)	FID (↓)	FID $^{ref}$
Furniture	265	17	67.92	4.27	87.39	58.40
Fruits	610	17	46.72	3.32	105.31	87.15
Toys	339	7	55.22	2.78	122.77	41.40
Rand-100	2951	100	61.70	3.89	46.57	8.65

表 7. 不同数据划分下的定量评估。

核心观察与分析：

家具 (Furniture)：质量最低 (MMD 最高，4.27)，因为训练集规模小（265个物体，17个类别），是一个困难的训练源。
水果 (Fruits)：类别数量相同 (17个)，但规模是家具的2.3倍 (610个物体)，并且一些水果结构非常相似。这导致了相对较高的质量 (MMD 3.32) 和较低的多样性 (Cov 46.72%)。
玩具 (Toys)：通过仅在7个类别上训练，实现了最佳质量 (MMD 2.78)。这表明在类别数量较少且结构可能更一致的情况下，生成质量可以很高。
随机100 (Rand-100)：这是最困难的情况，具有最高的物体数量 (2951) 和类别数量 (100)。
- 在质量和多样性之间存在权衡：Cov 最高 (61.70%)，FID 最低 (46.57)。
- FID $^{ref}$ (8.65) 相对较低，表明该子集在训练集和测试集之间的分布差异较小。
FID 的局限性：对于前三个子集，FID 和 FID $^{ref}$ 都较高，这可能是由于测试集较小导致方差较大。

几何与纹理的解耦 (图 S13): 作者还提供了几何潜在代码和纹理潜在代码的解耦插值结果。

Figure S13. Shape Interpolation. In the first row, we keep the latent code of geometry fixed and interpolate the latent code of texture; in the second row, we keep the latent code of texture fixed and interpolate the latent code of geometry. 该图像是一个插图，展示了两组物体的形状插值过程。第一行显示保持几何体的潜在编码不变，插值纹理的潜在编码；第二行则保持纹理的潜在编码不变，插值几何体的潜在编码。

图 S13. 形状插值。第一行，我们保持几何的潜在代码固定并插值纹理的潜在代码；第二行，我们保持纹理的潜在代码固定并插值几何的潜在代码。

分析：

非完全解耦：当几何体变化时，纹理在开始时保持固定，但在几何体发生实质性变化时，纹理也随之大幅变化。这表明几何和纹理两个因素并非完全解耦。
相关性：类别、几何和纹理在数据集中高度相关，导致几何代码有时会影响纹理。
挑战：复杂纹理（如书的封面）通常难以良好生成，这是未来需要探索的另一个挑战。

总结：在大型词汇量和真实数据集上训练和评估生成模型是一个有前景但极具挑战性的任务。OmniObject3D 数据集为进一步研究语义分布偏差、不同组探索难度以及几何和纹理解耦等关键问题提供了宝贵的资源。

7. 总结与思考

7.1. 结论总结

本文介绍了 OmniObject3D，一个大规模词汇量的3D物体数据集，旨在弥补现有数据集在真实感、规模和多样性方面的不足。该数据集包含6,000个来自190个日常类别的高质量真实扫描3D物体，是目前最大的真实世界带纹理网格的3D物体数据集之一。

OmniObject3D 的核心优势在于其丰富的数据形式和高质量的扫描结果：

多模态注释：每个物体都提供了带纹理的3D网格、采样点云、多视角渲染图像以及真实捕获视频帧（带有前景掩码和 COLMAP 相机姿态）。
真实感与精确性：通过专业的3D扫描仪获取，确保了精确的几何形状和逼真的外观。

基于 OmniObject3D，本文精心设置了四个评估轨道：

鲁棒3D感知：揭示了现有模型在 OOD 样式和 OOD 损坏下的脆弱性，并指出先进点云分组方法在鲁棒性方面的优势。
新视角合成 (NVS)：评估了单场景和跨场景 NVS 方法的性能，发现基于体素的方法在细节方面表现出色但可能不稳定，而泛化模型能够从大数据集中学习到几何先验。
神经表面重建：在密集视图和稀疏视图设置下进行了评估，发现“hard”类别（低纹理、凹面、复杂结构）对现有方法构成挑战，且稀疏视图重建仍是一个未解决的难题。
3D物体生成：研究了 GET3D 在大规模真实数据集上的表现，揭示了语义分布偏差、组内差异性对生成的影响，以及几何与纹理解耦的复杂性。

这些广泛的研究不仅验证了 OmniObject3D 作为基准的价值，也为未来真实3D视觉研究指明了新的观察、挑战和机遇。

7.2. 局限性与未来工作

论文作者在摘要中明确指出，这项工作揭示了新的观察、挑战和未来研究机会，这意味着数据集本身的设计和现有的方法仍然存在一些局限性，并为未来的研究提供了方向。

潜在的局限性：

长尾分布：OmniObject3D 呈现长尾分布，即少量类别包含大量物体，而多数类别物体数量较少。这可能导致在物体数量稀少的类别上，模型学习到的表示不够鲁棒或生成能力不足。
专业扫描的成本与耗时：高质量的专业3D扫描过程耗时且成本高昂，这限制了数据集进一步扩展到更大规模。
坐标系对齐：虽然论文提到为每个类别手动对齐到规范姿态，但这种手动过程可能引入误差，并且未对齐坐标系下的性能下降 (pixelNeRF-U 的实验结果) 仍是一个需要解决的问题。
纹理复杂性：在3D物体生成任务中，作者观察到复杂纹理（如书的封面）通常难以良好生成，这表明现有生成模型在处理高频、精细纹理方面的能力仍有提升空间。
稀疏视图重建的挑战：稀疏视图下的表面重建结果普遍存在伪影，表明在极少视图信息下恢复精确3D几何仍是计算机视觉领域的一个重大挑战。
泛化与鲁棒性：虽然数据集有助于研究泛化和鲁棒性，但目前的模型在面对 OOD 样式和 OOD 损坏的结合时，性能仍然不理想，说明仍需开发更强大的模型架构和训练策略。

未来研究方向：

更通用的3D表示学习：开发能够从 OmniObject3D 这样的大规模真实数据集中学习到更具泛化性、能够应对 OOD 样式和损坏的3D表示。
鲁棒的稀疏视图重建：探索新的方法，能够在只有极少数输入视图的情况下，准确、鲁棒地重建物体的3D表面。这可能涉及更强大的几何先验学习或多模态信息融合。
高质量、大规模3D物体生成：提升3D生成模型的真实感、多样性和对复杂纹理的生成能力，使其能够在大词汇量和长尾分布的数据集上表现良好。这可能需要新的生成模型架构或更有效的数据增强策略。
几何与纹理的完全解耦：探索如何更有效地解耦几何和纹理的潜在表示，以便更灵活地控制3D物体的生成和编辑。
处理真实世界视频的挑战：开发能够有效处理真实世界视频中存在的运动模糊、不准确相机姿态和复杂背景等问题的 NVS 和重建方法。
长尾分布下的学习：针对 OmniObject3D 的长尾分布特性，研究如何设计有效的学习策略，以提升模型在稀有类别上的性能。
数据集的扩展与自动化：探索更高效、自动化的3D数据采集和标注方法，以便未来能进一步扩大数据集的规模，覆盖更多类别和更复杂的场景。

7.3. 个人启发与批判

7.3.1. 个人启发

这篇论文提供了一个极为宝贵的资源——OmniObject3D 数据集，它在多个方面都给我带来了深刻的启发：

真实世界数据的重要性：论文再次强调了真实世界数据对于推动AI技术发展的不可替代性。合成数据虽然易得，但与真实世界的鸿沟是真实应用的最大瓶颈。OmniObject3D 直接解决了这一痛点，为3D领域的研究注入了新的活力。
多模态数据的价值：数据集提供多达四种模态的数据（网格、点云、渲染图像、真实视频），这不仅支持了多种3D任务，更鼓励了多模态学习和信息融合的研究。未来，如何有效地利用这些互补信息来构建更强大的3D智能体，将是一个重要方向。
细粒度鲁棒性分析：论文对 OOD 样式和 OOD 损坏的独立分析方法，为点云感知任务的鲁棒性研究树立了新标杆。这种解耦分析让研究者能更精确地定位模型弱点，从而设计更有针对性的改进方案。
推动泛化能力的基石：大词汇量和高多样性的真实数据是训练通用化模型的必要条件。OmniObject3D 为 NVS 和表面重建等任务提供了前所未有的泛化学习平台，有望催生出不依赖场景特定优化的“一次学习，多处应用”的3D模型。
3D AIGC 的新机遇：在2D AIGC（人工智能生成内容）领域如火如荼的背景下，OmniObject3D 为3D AIGC 提供了宝贵的“燃料”。它不仅能推动生成模型在几何和纹理上的真实感，还能促进对语义、风格、操作等更高层次生成能力的探索。未来，我们或许能看到更多从文本或图像生成逼真、可交互3D物体的应用。
评估基准的完备性：论文不仅发布了数据集，还精心设置了四个评估轨道和相应的基线，这为后续研究提供了一个清晰的起点和衡量标准，有助于社区的共同进步。

7.3.2. 批判与潜在改进

尽管 OmniObject3D 具有巨大的价值，但在阅读过程中，我也产生了一些批判性思考和潜在的改进建议：

长尾分布的进一步处理：虽然长尾分布是真实世界数据的常见特性，但对于模型训练而言，稀有类别可能仍然学习不足。未来的工作可以探索：
- 长尾学习策略：如样本重加权 (re-weighting)、数据增广 (data augmentation) 或元学习 (meta-learning) 方法，以提高模型在稀有类别上的性能。
- 半监督/自监督学习：利用数据集中丰富的无标签或弱标签数据（例如，如果视频数据远多于带完整3D网格的物体），来弥补稀有类别的样本不足。
动态物体与复杂场景的局限：数据集主要关注单个静态物体。然而，真实世界场景往往包含多个相互作用的动态物体。OmniObject3D 虽包含物体操作，但对于更复杂的动态交互、场景理解和多物体关系，可能仍需扩展。未来可考虑：
- 扩展到多物体/场景级别：将数据集扩展到包含多物体场景，并捕捉物体间的交互。
- 动态特性捕获：引入更多时间序列数据，如物体变形、运动等，以支持动态3D重建和生成。
扫描精度与遮挡：尽管使用了专业扫描仪，但3D扫描过程中仍可能存在自遮挡、反光或透明物体等导致的重建不完整或不准确。
- 论文中 SfM 重建的底部缺失就是一例。这可能是硬件限制，也可能是算法挑战。未来的数据集可以尝试结合多种扫描技术（例如结构光、激光雷达、摄影测量等）来提高复杂物体的完整性和精度。
伦理与隐私考量：论文提到将规范数据使用以避免潜在负面社会影响，这是非常重要的。未来在数据集发布时，应进一步明确使用协议，并考虑数据中可能存在的版权、隐私等问题，例如如果扫描到品牌商标或个人物品。
更丰富的语义信息：除了类别标签，可以考虑增加更细粒度的语义注释，如部件分割 (part segmentation)、材质属性 (material properties)、功能用途 (functional affordances) 等，这将进一步提升数据集在高级3D理解任务中的价值。
生成模型与解耦问题：几何与纹理的非完全解耦，以及复杂纹理生成困难，是现有生成模型的普遍问题。未来的研究应致力于：
- 更有效的解耦表示：开发新的潜在空间结构或生成器架构，以实现几何、纹理和风格等属性的完全解耦控制。
- 高频细节生成：探索结合显式表示和隐式表示的混合模型，或利用更先进的渲染技术，以生成更精细、更真实的高频纹理细节。
  
  总体而言，OmniObject3D 是3D视觉领域的一个重要里程碑，它为研究者提供了强大的工具，有望在未来几年内极大地推动3D感知、重建和生成技术的进步。

相似论文推荐

基于向量语义检索推荐的相关论文。

暂时没有找到相似论文。

OmniObject3D: Large-Vocabulary 3D Object Dataset for Realistic Perception, Reconstruction and Generation

TL;DR 精炼摘要

摘要

思维导图

论文精读

中文精读约 60 分钟读完 · 36,002 字

1. 论文基本信息

1.1. 标题

1.2. 作者

1.3. 发表期刊/会议

1.4. 发表年份

1.5. 摘要

1.6. 原文链接

2. 整体概括

2.1. 研究背景与动机

2.2. 核心贡献/主要发现

3. 预备知识与相关工作

3.1. 基础概念

3.2. 前人工作

3.2.1. 3D 物体数据集

3.2.2. 鲁棒3D感知

3.2.3. 神经辐射场 (NeRF) 和神经表面重建 (Neural Surface Reconstruction)

3.2.4. 3D 物体生成

3.3. 技术演进

3.4. 差异化分析

4. 方法论

4.1. 数据采集、处理与注释

4.1.1. 类别列表定义 (Category List Definition)

4.1.2. 物体收集流程 (Object Collection Pipeline)

4.1.3. 图像渲染和点云采样 (Image Rendering and Point Cloud Sampling)

4.1.4. 视频捕获与注释 (Video Capturing and Annotation)

4.2. 数据统计与分布

5. 实验设置

5.1. 数据集

5.1.1. 鲁棒3D感知实验数据集

5.1.2. 新视角合成实验数据集

5.1.3. 神经表面重建实验数据集

5.1.4. 3D物体生成实验数据集

5.2. 评估指标

5.2.1. 鲁棒3D感知

5.2.2. 新视角合成

5.2.3. 神经表面重建

5.2.4. 3D 物体生成

5.3. 对比基线

5.3.1. 鲁棒3D感知

5.3.2. 新视角合成

5.3.3. 神经表面重建

5.3.4. 3D 物体生成

6. 实验结果与分析

6.1. 鲁棒3D感知

6.2. 新视角合成

6.2.1. 单场景 NVS

6.2.2. 跨场景 NVS

6.3. 神经表面重建

6.3.1. 密集视图表面重建

6.3.2. 稀疏视图表面重建

6.4. 3D 物体生成

6.4.1. 语义分布

6.4.2. 多样性与质量

7. 总结与思考

7.1. 结论总结

7.2. 局限性与未来工作

7.3. 个人启发与批判

7.3.1. 个人启发

7.3.2. 批判与潜在改进

相似论文推荐