论文状态：已完成

Single-Stage Keypoint-Based Category-Level Object Pose Estimation from an RGB Image

发表：2021/09/14

单阶段关键点物体姿态估计 (1)RGB图像中的类别级物体姿态估计 (1)未知实例的6-DoF姿态估计 (1)基于convGRU的信息传播 (1)Objectron基准测试 (1)

价格：0.100000

已有 2 人读过

本分析由 AI 生成，可能不完全准确，请以原文为准。

TL;DR 精炼摘要

本文提出一种单阶段、基于关键点的类别级六自由度（6-DoF）物体姿态估计方法，通过单个RGB图像输入，实现对未知物体实例的姿态估计。创新之处在于利用卷积门控循环单元（convGRU）在简化任务间有效传播信息，经过广泛实验验证在Objectron基准测试中超越了现有最先进的方法。

摘要

Prior work on 6-DoF object pose estimation has largely focused on instance-level processing, in which a textured CAD model is available for each object being detected. Category-level 6-DoF pose estimation represents an important step toward developing robotic vision systems that operate in unstructured, real-world scenarios. In this work, we propose a single-stage, keypoint-based approach for category-level object pose estimation that operates on unknown object instances within a known category using a single RGB image as input. The proposed network performs 2D object detection, detects 2D keypoints, estimates 6-DoF pose, and regresses relative bounding cuboid dimensions. These quantities are estimated in a sequential fashion, leveraging the recent idea of convGRU for propagating information from easier tasks to those that are more difficult. We favor simplicity in our design choices: generic cuboid vertex coordinates, single-stage network, and monocular RGB input. We conduct extensive experiments on the challenging Objectron benchmark, outperforming state-of-the-art methods on the 3D IoU metric (27.6% higher than the MobilePose single-stage approach and 7.1% higher than the related two-stage approach).

思维导图

论文精读

中文精读约 31 分钟读完 · 19,203 字

1. 论文基本信息

1.1. 标题

单阶段基于关键点的 RGB 图像类别级物体姿态估计 (Single-Stage Keypoint-Based Category-Level Object Pose Estimation from an RGB Image)

1.2. 作者

Yunzhi Lin, Jonathan Tremblay, Stephen Tyree, Patricio A. Vela, Stan Birchfield 所属机构：NVIDIA 和 Georgia Institute of Technology (佐治亚理工学院)

1.3. 发表期刊/会议

论文发布于 arXiv 预印本平台，未明确指出最终发表的期刊或会议。

1.4. 发表年份

2021年

1.5. 摘要

以往的六自由度 (6-DoF) 物体姿态估计研究主要集中在实例级 (instance-level) 处理，即对每个检测到的物体都需提供带纹理的 CAD 模型。类别级 (category-level) 的 6-DoF 姿态估计是开发能够在非结构化真实世界场景中运行的机器人视觉系统的重要一步。本文提出了一种单阶段 (single-stage)、基于关键点 (keypoint-based) 的方法，用于从单个 RGB 图像中对已知类别中的未知物体实例进行类别级姿态估计。所提出的网络依次执行二维物体检测、二维关键点检测、六自由度姿态估计以及相对边界立方体尺寸回归。它利用 convGRU (卷积门控循环单元) 的思想，将信息从较简单的任务传播到较困难的任务，以实现这些量的估计。在设计上，作者偏爱简洁性：采用通用边界立方体顶点坐标、单阶段网络和单目 RGB 输入。论文在具有挑战性的 Objectron 基准测试上进行了广泛实验，在 3D IoU (三维交并比) 指标上超越了现有最先进的方法（比 MobilePose 单阶段方法高出 27.6%，比相关的双阶段方法高出 7.1%）。

1.6. 原文链接

原文链接: https://arxiv.org/abs/2109.06161
PDF 链接: https://arxiv.org/pdf/2109.06161v2.pdf

2. 整体概括

2.1. 研究背景与动机

核心问题: 机器人系统在非结构化真实世界环境中操作时，对物体及其姿态 (pose) 的感知能力至关重要，这即是 6-DoF (六自由度) 物体姿态估计问题。传统的 6-DoF 姿态估计方法大多是实例级 (instance-level) 的，即需要为每个待检测的特定物体实例提供精确的 CAD (计算机辅助设计) 模型。 为什么重要: 实例级方法存在严重的可伸缩性 (scalability) 问题。例如，一个为特定“饼干盒”训练的检测器，可能无法识别纹理不同或尺寸相似但略有变化的同类物体，更会忽略其他类型的“饼干盒”或类似形状的物体。随着场景复杂度的增加，所需实例级检测器的数量会迅速膨胀，这极大地限制了其在真实世界机器人应用中的实用性。 现有挑战或空白:

实例级方法的限制: 需要精确 CAD 模型，难以泛化到未见过的实例，可伸缩性差。
类别级方法的局限:
- 许多方法仍需要 3D CAD 模型进行训练（尽管推理时不需要实例 CAD），或需要复杂的标注（如像素级分割掩码、归一化物体坐标空间 NOCS）。
- 合成数据与真实数据之间存在领域鸿沟 (domain gap)。
- 许多方法依赖深度信息 (RGB-D)，而单目 RGB 方法较少，且可能需要合成 CAD 模型。深度传感器在处理透明或暗表面时存在困难。 本文切入点/创新思路: 本文旨在解决这些挑战，提出一种单目 RGB 输入的类别级 (category-level) 6-DoF 姿态估计方法，该方法无需 CAD 模型进行训练和推理，仅依赖于训练时带有 3D 边界框 (3D bounding box) 标注的大规模真实世界图像数据集 (Objectron)。通过回归相对边界立方体尺寸 (relative bounding cuboid dimensions) 和结合位移-热图的二维关键点表示，并引入 convGRU 进行顺序特征关联 (sequential feature association)，以提高估计精度。

2.2. 核心贡献/主要发现

单阶段、基于关键点的网络架构: 提出了一个用于类别级 6-DoF 姿态估计的单阶段网络，能够从单目 RGB 输入图像中检测未见过的物体实例，并估计其 6-DoF 姿态和相对边界框尺寸。
直接预测相对边界立方体尺寸: 强调了直接预测 3D 边界立方体相对尺寸对于类别级姿态估计的重要性，这避免了单目 RGB 中绝对深度估计的病态问题。
convGRU 顺序特征关联: 引入 convGRU (卷积门控循环单元) 模块，以顺序的方式处理不同难度的输出任务（物体检测 -> 关键点 -> 尺寸），从而将信息从较简单的任务传递到较困难的任务，尤其在困难案例（如长宽比变化大的物体）中显著提升了尺寸估计的准确性。
结合位移和热图的二维关键点表示: 采用了一种融合位移 (displacement) 和热图 (heatmap) 的双重表示来检测二维关键点，以更好地处理类内形状变异性，并在准确性和设计复杂性之间取得平衡。
最先进的性能: 在大规模、真实世界的 Objectron 数据集上取得了最先进的性能，在 3D IoU 指标上显著优于现有方法（比 MobilePose 高 27.6%，比两阶段方法高 7.1%）。
实践验证: 通过机器人实验展示了该方法在真实世界机器人操作中的潜力。

3. 预备知识与相关工作

3.1. 基础概念

6-DoF 物体姿态估计 (6-DoF Object Pose Estimation): 指确定物体在三维空间中的位置 (3D position，x, y, z) 和方向 (orientation，绕三个轴的旋转)，共六个自由度。
实例级姿态估计 (Instance-level Pose Estimation): 针对已知特定物体实例（例如，某型号的“可口可乐罐”）进行姿态估计。通常需要该特定实例的 3D CAD 模型进行训练和/或推理。
类别级姿态估计 (Category-level Pose Estimation): 针对某一类别物体（例如，“所有杯子”或“所有鞋子”）进行姿态估计，即使是训练时未见过的新实例也能处理。这要求模型能泛化到类内形状变化，通常不需要特定实例的 CAD 模型。
PnP 算法 (Perspective-n-Point Algorithm): 一种计算机视觉算法，用于从一组 $n$ 个 3D 点及其对应的 2D 图像投影来计算相机的姿态（或物体的姿态，如果相机已知）。它通过解决 2D-3D 对应关系来确定一个刚体变换（旋转和平移），使 3D 点投影到 2D 图像平面上与观测到的 2D 点对齐。
关键点 (Keypoints): 物体上具有特定语义或几何意义的点，例如 3D 边界立方体的八个顶点在 2D 图像上的投影。
边界立方体 (Bounding Cuboid): 环绕 3D 物体的最小轴对齐或方向对齐的 3D 长方体，用于表示物体在 3D 空间中的尺寸和大致占据范围。
RGB 图像 (RGB Image): 包含红 (Red)、绿 (Green)、蓝 (Blue) 三个颜色通道的彩色图像，是常见的视觉输入。
RGB-D 图像 (RGB-D Image): 除了 RGB 颜色信息外，还包含深度 (Depth) 信息的图像。深度信息提供了像素到相机的距离。
CenterNet: 一种流行的单阶段物体检测网络，将物体检测视为预测物体中心点的热图问题。它通过回归中心点热图、尺寸、偏移量等来检测物体。本文的方法受 CenterNet 启发。
convGRU (Convolutional Gated Recurrent Unit): 门控循环单元 GRU 的卷积版本。GRU 是一种循环神经网络 RNN 单元，用于处理序列数据。convGRU 将全连接层替换为卷积层，使其能够更好地处理空间信息，适用于图像和视频数据，通过维护隐藏状态 (hidden state) 来在序列中传递信息。
3D IoU (3D Intersection over Union): 在 3D 边界框检测中常用的评估指标。它计算预测的 3D 边界框与真实标注 3D 边界框之间交集体积与并集体积之比。比值越高，表示预测越准确。

3.2. 前人工作

实例级物体姿态估计 (Instance-level Object Pose Estimation):
- 模板匹配 (Template Matching): 通过将已知 3D CAD 模型与观测到的 3D 点云、2D 图像或局部描述符进行对齐来估计姿态。例如 [19], [20], [21], [22], [23]。
- 回归 (Regression): 直接回归 6-DoF 姿态 [1]，或者预测 2D 关键点图像坐标以建立 2D-3D 对应关系，然后通过 PnP 算法求解 6-DoF 姿态 [25], [26], [27], [2], [14]。其他方法探索了不同的物体表示方式，如密集坐标图 [1]、关键点 [28] 和对称对应关系 [29]。
- 本文与实例级方法的区别: 本文受关键点回归技术启发，但不要求 3D CAD 模型，因此需要额外估计物体尺寸。
类别级物体姿态估计 (Category-level Object Pose Estimation):
- 基于 NOCS (Normalized Object Coordinate Space): Wang 等人 [6] 提出 NOCS 作为 6-DoF 姿态和尺寸估计的通用参考框架。他们的网络基于 Mask R-CNN [30]，预测 NOCS 映射，并结合深度图进行姿态拟合。但仍需 3D 网格模型在训练时计算 NOCS 映射，依赖合成训练数据集。
- 基于 RGB-D 的方法:
  - Chen 等人 [9] 提出通过学习规范形状空间 (canonical shape space) 进行无对应关系的方法，并分离姿态依赖和姿态无关特征以简化训练。
  - Tian 等人 [8] 通过潜在嵌入 (latent embeddings) 建模从类别形状先验到物体模型的变形，然后通过估计观察点与 NOCS 映射之间的相似变换来恢复 6-DoF 姿态。
- 基于单目 RGB 的方法:
  - Manhardt 等人 [11] 提出回归形状和姿态参数并恢复深度。
  - Chen 等人 [10] 提出了一种神经分析-综合 (neural analysis-by-synthesis) 方法。
  - 这些方法仍需要在训练时使用合成 CAD 模型 (例如 ShapeNet [12])。
  - Hou 等人 [14] (MobilePose) 提出了一种轻量级单阶段模型，通过两个头分别回归质心位置和 3D 边界框关键点。
  - Ahmadyan 等人 [15] (Two-stage) 引入了一种两阶段架构，用于从 RGB 图像回归 3D 边界框关键点。
  - 上述 MobilePose 和 Two-stage 方法直接在 Objectron 真实图像上训练，无需 CAD 模型或合成数据。但它们不考虑物体尺寸，而是通过修改的 EPnP 算法 [31] 固定齐次重心坐标来直接将 2D 预测关键点提升到 3D，这可能导致不稳定的解决方案。

3.3. 技术演进

该领域的技术演进可以概括为：

从实例级到类别级: 最初专注于对特定已知物体实例进行精确姿态估计，但随着机器人应用对泛化性需求的增加，研究转向能够处理同一类别中未见过实例的类别级姿态估计。
从依赖 CAD 模型到无需 CAD 模型: 早期方法高度依赖 3D CAD 模型进行训练和/或推理。为了在真实世界中更具实用性，后续工作致力于摆脱对 CAD 模型的依赖，转而利用大规模标注数据（如 Objectron）。
从 RGB-D 到单目 RGB: 深度信息虽然能提供丰富的 3D 几何线索，但深度传感器的局限性（如透明物体、暗表面）以及部署成本，推动了对更具挑战性但适用性更广的单目 RGB 方法的研究。
从复杂多阶段到简洁单阶段: 为了实现实时性能和端到端训练，研究者倾向于开发更简洁、高效的单阶段网络架构。

3.4. 差异化分析

本文方法与相关工作的主要区别和创新点在于：

与实例级方法的区别: 本文专注于类别级姿态估计，不要求 3D CAD 模型，能够泛化到未见过的物体实例。
与现有类别级 RGB 方法的区别:
- 尺寸预测: 相比于 MobilePose [14] 和两阶段方法 [15] 依赖修改的 EPnP 算法且不直接考虑物体尺寸，本文直接回归相对边界立方体尺寸，并结合标准 PnP 算法，实验证明这能带来更好的性能。
- 网络架构: 采用单阶段网络设计，避免了两阶段方法的复杂性，实现了端到端学习和更快的训练速度。
- 关键点表示: 融合了位移 (displacement) 和热图 (heatmap) 两种 2D 关键点表示，以提高检测准确性并应对类内形状变化。
- 信息流 (convGRU): 引入 convGRU 模块，以顺序方式将信息从较简单的任务（物体检测）传递到较困难的任务（尺寸估计），解决了单目 RGB 输入中隐式推断 3D 结构信息的挑战。
- 训练数据: 仅需 3D 边界框标注，无需复杂的像素级分割或 NOCS 映射，使其能够利用 Objectron 等大规模真实世界数据集。

4. 方法论

4.1. 方法原理

本文提出的方法旨在从单个 RGB 图像中，对已知类别但未见过的物体实例进行类别级 6-DoF 姿态估计。其核心思想是：

关键点回归: 预测 3D 边界立方体八个顶点在 2D 图像上的投影坐标。
尺寸估计: 回归物体的相对 3D 边界立方体尺寸。
PnP 求解姿态: 利用预测的 2D 关键点和估计的 3D 相对尺寸，通过 PnP (Perspective-n-Point) 算法求解物体的 6-DoF 姿态。
单阶段网络: 使用一个单阶段卷积神经网络完成所有这些预测任务，灵感来源于 CenterNet。
顺序信息传递 (convGRU): 为了应对从 2D 输入推断 3D 结构信息的难度，引入 convGRU 模块，按照任务难度递增的顺序（物体检测 -> 关键点 -> 尺寸）依次生成输出，确保较难的任务能利用从较简单任务中获得的隐藏状态信息。

4.2. 核心方法详解

4.2.1. 架构设计 (Architecture Design)

网络输入是分辨率为 $H \times W \times 3$ 的 RGB 图像，经过重新缩放和填充后，使 $W = H = 512$ 。 主干网络 (Backbone Network): 采用 DLA-34 [34] (Deep Layer Aggregation) 结合上采样 (upsampling) 作为主干网络。DLA-34 是一种深度聚合网络，通过分层聚合连接（hierarchical aggregation connections）和可变形卷积层 (deformable convolutional layers [35]) 进行增强。主干网络输出多个中间特征图，空间分辨率从 $H/4 \times W/4$ 到 $H/32 \times W/32$ 不等，最终聚合为一个单一路径的 $H/4 \times W/4 \times 64$ 输出特征图 $\Phi(I)$ 。

输出头 (Output Heads): 网络总共有七个输出头，它们被分为三个组，并以卷积门控循环单元 (convGRU) [18] 模块的输出作为输入。对于每个输出头，都使用一个通道数为 256 的 $3 \times 3$ 卷积层，随后是一个 $1 \times 1$ 卷积层来处理相应 convGRU 模块的输出。输出以密集的热图 (heatmaps) 或回归图 (regression maps) 形式预测，但会稀疏地根据检测到的物体中心进行访问。

以下是原文 Figure 2 的插图，展示了网络的整体架构：

该图像是示意图，展示了基于关键点的类别级物体姿态估计网络的结构及处理流程。该网络从输入的 RGB 图像提取特征，进行物体检测、关键点识别、6-DoF 姿态估计及边界立方体维度回归，并利用 `PnP` 计算最终的姿态及尺寸信息。

物体检测分支 (Object Detection Branch):

物体中心热图 (Object Center Heatmap): 这是网络最主要的输出。热图中的峰值表示检测到的物体 2D 边界框的中心点。
2D 物体中心亚像素偏移量 (2D Object Center Sub-pixel Offset): 为了修正热图输出分辨率导致的离散化误差，网络回归一个局部 2D 物体中心亚像素偏移量图，遵循 CenterNet [16] 的做法。
2D 边界框尺寸 (2D Bounding Box Size): 物体的 2D 边界框的宽度和高度。
Objectron 数据集特点: Objectron 数据集 [15] 不提供 2D 边界框标注。因此，本文将其定义为投影的真实 3D 边界框的极值点 (extreme points) 所包围的最小轴对齐矩形。

关键点检测分支 (Keypoint Detection Branch): 网络使用两种方式预测 3D 边界框顶点投影到图像空间的 2D 坐标：

2D 关键点位移向量 (2D Keypoint Displacement Vectors): 从物体 2D 边界框的中心点回归每个关键点的 x-y 坐标位移向量。
关键点热图 (Keypoint Heatmaps): 输出一组包含 8 个关键点的热图，热图中的峰值表示投影 3D 顶点对应的 2D 坐标。
关键点亚像素偏移量 (Keypoint Sub-pixel Offsets): 为每个顶点输出一个局部 2D 关键点亚像素偏移量，以减小离散化误差。
训练标签生成: 关键点热图的训练标签是通过以真实标注关键点坐标为中心、方差由 2D 边界框大小确定的高斯核生成的。

边界立方体尺寸分支 (Cuboid Dimensions Branch):

相对尺寸回归 (Relative Dimensions Regression): 由于类别级姿态估计假设我们无法访问目标物体实例的 CAD 模型，该分支用于估计 3D 边界立方体的相对尺寸（宽度 $x$ 、高度 $y$ 、长度 $z$ ）。
为何选择相对尺寸: 预测相对值是为了避免单目 RGB 图像中隐式估计绝对深度（这是一个病态问题，因为无法确定是查看一个全尺寸的椅子还是一个玩具椅子）。相对值还允许网络应用于不同相机内参的图像而无需重新训练。
规范化: 由于许多日常物体在地面上通常有一个规范的朝向，本文选择向上 ( $y$ ) 轴作为主轴。真实标注的尺寸标签被表示为 $(x/y, 1, z/y)$ ，网络估计比率 x/y 和 z/y。与 3D 车辆检测方法 [18], [32] 使用指数偏移量不同，本文直接回归每个比率，因为本文中的物体长宽比变化更大。

4.2.2. `convGRU` 特征关联 (convGRU Feature Association)

作者假设网络的不同输出具有不同的学习难度。启发式地将输出分为三个组：

第一组 (最简单): 物体中心热图、物体中心亚像素偏移量、2D 边界框尺寸。
第二组: 关键点 x-y 位移、关键点热图、关键点亚像素偏移量。
第三组 (最困难): 相对边界立方体尺寸。

这种分组策略和顺序输出构造自然地通过在循环神经网络 (recurrent neural network) 中将不同输出组分配给不同的“时间步”来公式化。给定输入图像 $I$ ，第 $i$ 个输出 ( $i = 1, \dots, 7$ ) 表示为： $y _ { i } = \Psi _ { i } \left( G _ { t } \left( \Phi ( I ) , h _ { t - 1 } \right) \right)$ 其中：

$\Phi ( I )$ 表示主干网络输出的特征图 (feature map)。
$G _ { t } ( \cdot )$ 表示在时间步 $t$ 的 GRU (Gated Recurrent Unit) 单元。
$h _ { t - 1 } = G _ { t - 1 } \left( \Phi ( I ) , h _ { t - 2 } \right)$ 表示由前一时间步的 GRU 单元生成的隐藏状态 (hidden state)。
$h _ { 0 } = 0$ 是初始隐藏状态。
$\Psi _ { i }$ 是用于第 $i$ 个输出的全卷积网络。
时间步 $t = 1, 2, 3$ 分别对应于上述的三个输出组。

本文采用单层卷积 GRU 网络，其中 convGRU 中所有卷积层都设置为步长 (stride) 为 1、核大小 (kernel size) 为 3、输出通道数为 64。来自后续时间步的输出将能够访问从前一时间步流动的隐藏状态，从而实现了输出分组和顺序特征关联的思想。

4.2.3. `2D` 关键点输出解码 (2D Keypoint Output Decoding)

网络的输出通过以下方式进行解码和组装：

物体中心检测: 首先，在 2D 物体中心的热图上应用 $3 \times 3$ 最大池化操作，作为非极大值抑制 (non-maximum suppression) 的高效替代方案 [16]。
位移关键点提取: 对于每个检测到的中心点，位移型关键点位置由中心点下方的 2D x-y 位移给出。
热图关键点提取: 接下来，热图型关键点位置是通过在对应热图中寻找高置信度峰值来提取的，这些峰值必须位于 2D 物体边界框的边距内。
亚像素校正: 两种关键点估计（位移型和热图型）都根据各自的亚像素偏移量进行调整。
PnP 求解: 调整后的关键点位置和估计的相对边界立方体尺寸一起作为输入，传递给 PnP 算法的 Levenberg-Marquardt 版本 [36]，最终计算出物体的 6-DoF 姿态。

4.2.4. 损失函数 (Loss Function)

总损失函数 (Overall Loss Function): 总的训练目标是七个损失项的加权组合： $\mathcal { L } _ { \mathrm { all } } \ = \lambda _ { \mathrm { p } _ { c e n } } \mathcal { L } _ { \mathrm { p } _ { c e n } } + \lambda _ { \mathrm { o f f } } \ \mathcal { L } _ { \mathrm { o f f } } \ + \lambda _ { \mathrm { b b o x } } \mathcal { L } _ { \mathrm { b b o x } } + \lambda _ { \mathrm { p } _ { k e y } } \mathcal { L } _ { \mathrm { p } _ { k e y } } + \lambda _ { \mathrm { o f f k e y } } \ \mathcal { L } _ { \mathrm { o f f k e y } } + \lambda _ { \mathrm { d i s } } \mathcal { L } _ { \mathrm { d i s } } \ + \lambda _ { \mathrm { d i m } } \mathcal { L } _ { \mathrm { d i m } }$ 其中， $\lambda_{\mathrm{p}_{cen}} = \lambda_{\mathrm{off}} = \lambda_{\mathrm{p}_{key}} = \lambda_{\mathrm{offkey}} = \lambda_{\mathrm{dis}} = \lambda_{\mathrm{dim}} = 1$ ，且 $\lambda_{\mathrm{bbox}} = 0.1$ 。

焦点损失 (Focal Loss): 对于中心点热图 ( $\mathcal { L } _ { \mathrm { p } _ { c e n } }$ ) 和关键点热图 ( $\mathcal { L } _ { \mathrm { p } _ { k e y } }$ )，本文采用逐点 (point-wise) 的惩罚减少焦点损失 [37]： $\mathcal { L } _ { \mathfrak { p } } = \frac { - 1 } { N } \sum _ { i j } \left\{ \begin{array} { l l } { ( 1 - \hat { Y } _ { i j } ) ^ { \alpha } \log ( \hat { Y } _ { i j } ) } & { \mathrm { i f ~ } Y _ { i j } = 1 } \\ { ( 1 - Y _ { i j } ) ^ { \beta } ( \hat { Y } _ { i j } ) ^ { \alpha } \log ( 1 - \hat { Y } _ { i j } ) } & { \mathrm { o t h e r w i s e ~ } } \end{array} \right.$ 其中：

$\hat { Y } _ { i j }$ 是热图位置 ( i , j ) 处的预测分数。
Y _ { i j } 是由高斯核分配的每个点的真实标注值。
$N$ 是图像中中心点的数量。
$\alpha$ 和 $\beta$ 是焦点损失的超参数，根据 [16] 设置为 $\alpha = 2, \beta = 4$ 。

L1 损失 (L1 Loss):

中心点亚像素偏移损失 ( $\mathcal { L } _ { \mathrm { o f f } }$ ): 使用 L1 损失计算。 $\mathcal { L } _ { \mathrm { o f f } } = \frac { 1 } { N } \sum _ { p } \left\| \hat { O } _ { \tilde { p } } - \left( \frac { p } { R } - \tilde { p } \right) \right\| .$ 其中：
- $\hat { O }$ 表示预测的偏移量。
- $p$ 是真实标注的中心点。
- $R$ 是输出步幅 (output stride)。
- $\tilde { p } = \left\lfloor { \frac { p } { R } } \right\rfloor$ 是 $p$ 在低分辨率下的等效位置。
关键点亚像素偏移损失 ( $\mathcal { L } _ { \mathrm { o f f k e y } }$ ): 以类似方式计算。
2D 边界框尺寸损失 ( $\mathcal { L } _ { \mathrm { b b o x } }$ ): 使用 L1 损失计算。
关键点位移损失 ( $\mathcal { L } _ { \mathrm { d i s } }$ ): 使用 L1 损失计算。
相对边界立方体尺寸损失 ( $\mathcal { L } _ { \mathrm { d i m } }$ ): 使用 L1 损失计算，针对其标签值。

5. 实验设置

5.1. 数据集

名称: Objectron 数据集 [15]
特点: 这是一个新提出的基准，用于单目 RGB 类别级 6-DoF 物体姿态估计。
规模: 包含 15,000 个带标注的视频片段，超过 400 万帧图像。
类别: 物体来自以下九个类别：自行车 (bikes)、书籍 (books)、瓶子 (bottles)、相机 (cameras)、谷物盒 (cereal boxes)、椅子 (chairs)、杯子 (cups)、笔记本电脑 (laptops) 和鞋子 (shoes)。
标注: 每个物体都标注了 3D 边界立方体，其中包含物体相对于相机的三维位置和方向，以及边界立方体的尺寸。
数据采集: 每个视频记录中，相机围绕静止物体移动，从不同角度捕捉物体。
元数据: 包含相机姿态、稀疏点云和表面平面（后者假设物体位于地面上，提供绝对比例因子）。
训练数据处理: 训练时，通过时间下采样将原始视频帧以 15 fps (帧每秒) 提取。
测试数据处理: 测试时，评估了数据集中每个类别的所有测试样本，以便与其他方法进行直接比较。
特殊处理 - 杯子类别:
- 杯子类别包含带把手的杯子 (mugs) 和不带把手的杯子 (cups)。作者手动将它们区分开来，为每种类型训练单独的网络。
- 对于 mug 实例，由于把手方向不一致，存在模糊性。作者手动检查了所有视频，并将一些真实标注的边界框旋转 180 度，以确保方向一致性。
- 本文将发布杯子/马克杯的划分及其代码。
对称物体处理: 对于瓶子、杯子等对称物体，遵循 Wang 等人 [6] 的思想，在训练阶段生成多个真实标注标签 $\{ \mathbf { y } _ { 1 } , \ldots , \mathbf { y } _ { | \boldsymbol { \theta } | } \}$ ，通过绕对称轴旋转 $| \theta | = 12$ 次。对称损失计算为 $\mathcal { L } _ { \mathrm { s y m } } = \operatorname* { m i n } _ { i = 1 , \dots , | \theta | } \mathcal { L } \left( \mathbf { y } _ { i } , \hat { \mathbf { y } } \right)$ ，其中 $\hat { \mathbf { y } }$ 表示预测， $\mathcal { L }$ 是非对称损失。

以下是原文 Figure 1 的插图，展示了 Objectron 数据集的样本图像及其标注示例：

该图像是示意图，展示了利用单个RGB图像进行类别级物体姿态估计的结果。图中标示了多个未知物体实例（如鞋子和杯子）及其对应的6自由度姿态和3D边界框尺寸，通过不同颜色的立方体框住对象位置，实现了物体检测与姿态估计。

5.2. 评估指标

本文遵循 Objectron 数据集 [15] 的评估标准，使用了以下指标：

5.2.1. `3D IoU` 平均精度 (Average Precision at 0.5 3D IoU)

概念定义: 3D IoU (三维交并比) 是衡量预测 3D 边界框与真实标注 3D 边界框重叠程度的指标。IoU 越高表示预测越准确。AP@0.5 3D IoU 表示在 IoU 阈值为 0.5 时计算的平均精度。它评估了 3D 检测和物体尺寸估计的综合性能。
数学公式: 3D IoU 的公式如下： $\mathrm{IoU}_{3D} = \frac{\text{Volume}(\text{Predicted BBox}) \cap \text{Volume}(\text{Ground Truth BBox})}{\text{Volume}(\text{Predicted BBox}) \cup \text{Volume}(\text{Ground Truth BBox})}$ AP (Average Precision) 通常通过计算精度-召回曲线 (Precision-Recall Curve) 下的面积来获得。在给定的 IoU 阈值（此处为 0.5）下，如果一个预测的 3D 边界框的 IoU 大于或等于该阈值，则认为该预测是正样本 (True Positive)。
符号解释:
- $\text{Volume}(\text{Predicted BBox})$ : 预测的 3D 边界框所占据的体积。
- $\text{Volume}(\text{Ground Truth BBox})$ : 真实标注的 3D 边界框所占据的体积。
- $\cap$ : 两个边界框的交集体积。
- $\cup$ : 两个边界框的并集体积。

5.2.2. `2D` 像素投影误差 (Mean Pixel Error of 2D Projection)

概念定义: 该指标计算的是估计姿态和真实标注姿态下 3D 边界框关键点投影到 2D 图像平面上的平均归一化距离。它衡量了 2D 关键点定位的准确性。
数学公式: 假设 $P_{gt,k}$ 是第 $k$ 个真实 3D 边界框顶点的投影，而 $P_{pred,k}$ 是第 $k$ 个估计 3D 边界框顶点的投影。设 $N_k$ 为关键点总数， $D_s$ 为图像对角线长度或其他归一化因子。 $\text{Mean Pixel Error} = \frac{1}{N_k} \sum_{k=1}^{N_k} \frac{\left\|P_{pred,k} - P_{gt,k}\right\|_2}{D_s}$
符号解释:
- $P_{pred,k}$ : 由估计姿态得到的第 $k$ 个 3D 边界框顶点在 2D 图像上的投影坐标。
- $P_{gt,k}$ : 由真实姿态得到的第 $k$ 个 3D 边界框顶点在 2D 图像上的投影坐标。
- $N_k$ : 3D 边界框顶点的数量 (通常为 8)。
- $\left\|\cdot\right\|_2$ : 欧几里得距离 (L2 范数)。
- $D_s$ : 归一化因子，例如图像的对角线长度，用于使误差相对于图像大小。

5.2.3. 方位角 (`azimuth`) 和仰角 (`elevation`) 的平均精度 (Average Precision at 15° azimuth error and 10° elevation error)

概念定义: 这些指标评估了模型在预测物体方向（视角）方面的准确性。AP@15° azimuth error 表示当方位角预测误差小于 15 度时的平均精度。AP@10° elevation error 表示当仰角预测误差小于 10 度时的平均精度。
数学公式: AP 的计算方式与 3D IoU AP 类似，只是正样本的判断标准变为角度误差是否小于指定阈值。 $\text{IsPositive}_{\text{azimuth}} = \begin{cases} 1 & \text{if } |\text{azimuth}_{\text{pred}} - \text{azimuth}_{\text{gt}}| \le 15^\circ \\ 0 & \text{otherwise} \end{cases}$ $\text{IsPositive}_{\text{elevation}} = \begin{cases} 1 & \text{if } |\text{elevation}_{\text{pred}} - \text{elevation}_{\text{gt}}| \le 10^\circ \\ 0 & \text{otherwise} \end{cases}$
符号解释:
- $\text{azimuth}_{\text{pred}}$ : 预测的方位角。
- $\text{azimuth}_{\text{gt}}$ : 真实标注的方位角。
- $\text{elevation}_{\text{pred}}$ : 预测的仰角。
- $\text{elevation}_{\text{gt}}$ : 真实标注的仰角。

5.2.4. 相对维度误差 (Mean Relative Dimension Error)

概念定义: 该指标衡量预测的相对 3D 边界立方体尺寸与真实标注的相对尺寸之间的平均误差。它直接评估了尺寸估计的准确性。
数学公式: $\text{Mean Relative Dimension Error} = \frac { 1 } { n } \sum _ { i = 1 } ^ { n } { \frac { \left| { \hat { y } } _ { i } - y _ { i } \right| } { y _ { i } } }$
符号解释:
- $\hat { y } _ { i }$ : 第 $i$ 个预测的相对尺寸值（例如 x/y 或 z/y）。
- y _ { i }: 第 $i$ 个真实标注的相对尺寸值。
- $n$ : 所有预测的相对尺寸值的总数。

5.2.5. 对称物体处理

对于对称物体类别（例如 $bottle*$ 和 $cup*$ ），评估时遵循 [15] 的做法：将估计的边界框沿对称轴旋转 $N=100$ 次，并根据每次旋转后的结果与真实标注进行评估。最终报告的性能是 3D IoU 最大化或 2D 像素投影误差最小化的实例的结果。尽管杯子类别也包含非对称的马克杯实例，但为了与 [15] 进行公平比较，本文仍将它们视为对称物体进行评估。

5.3. 对比基线

本文将自己的方法与以下两种最先进的方法进行比较，这两种方法也是目前 Objectron 数据集上仅有的公开方法：

单阶段 MobilePose [14]: 一种单阶段轻量级模型，通过两个头分别回归中心点位置和 3D 边界框关键点。它不直接估计物体尺寸，而是通过修改的 EPnP 算法将 2D 关键点提升到 3D。
两阶段网络 [15]: Objectron 数据集作者提出的方法。它采用两阶段架构，用于从 RGB 图像回归 3D 边界框关键点。同样不直接估计物体尺寸。

5.4. 实现细节

训练硬件: 在 4 块 NVIDIA V-100 GPU 上进行训练。
批大小 (Batch Size): 32。
训练周期 (Epochs): 140 个周期。
初始化: 使用在 ImageNet 上预训练的权重进行初始化。
数据增强 (Data Augmentation): 包括随机翻转 (random flip)、缩放 (scaling)、裁剪 (cropping) 和颜色抖动 (color jittering)。
优化器 (Optimizer): Adam 优化器。
学习率 (Learning Rate): 初始学习率为 2.5e-4，并在 90 和 120 个周期时各下降 10 倍。
训练时间: 训练一个类别平均需要 36 小时（每个类别使用 8k 到 32k 张训练图像，具体取决于类别）。
推理速度 (Inference Speed): 在 NVIDIA GTX 1080Ti GPU 上约为 15 fps (帧每秒)。

6. 实验结果与分析

6.1. 核心结果分析

本文提出的方法在 Objectron 基准测试中取得了显著的性能提升，尤其是在 3D IoU 指标上。

以下是原文 Table I 的结果，展示了姿态估计在 Objectron 测试集上的比较：

Stage	Method	Bike	Book	Bottle*	Camera	Cereal_box	Chair	Cup*	Laptop	Shoe	Mean
Average precision at 0.5 3D IoU (↑)
One	MobilePose [14]	0.3109	0.1797	0.5433	0.4483	0.5419	0.6847	0.3665	0.5225	0.4171	0.4461
Two	Two-stage [15]	0.6127	0.5218	0.5744	0.8016	0.6272	0.8505	0.5388	0.6735	0.6606	0.6512
One	Ours	0.6419	0.5565	0.8021	0.7188	0.8211	0.8471	0.7704	0.6766	0.6618	0.7218
Mean pixel error of 2D projection of cuboid vertices (↓)
One	MobilePose [14]	0.1581	0.0840	0.0818	0.0773	0.0454	0.0892	0.2263	0.0736	0.0655	0.1001
Two	Two-stage [15]	0.0828	0.0477	0.0405	0.0449	0.0337	0.0488	0.0541	0.0391	0.0467	0.0487
One	Ours	0.0872	0.0563	0.0400	0.0511	0.0379	0.0594	0.0376	0.0522	0.0463	0.0520
Average precision at 15° azimuth error (↑)
One	MobilePose [14]	0.4376	0.4111	0.4413	0.5293	0.8780	0.6195	0.0893	0.6052	0.3934	0.4894
Two	Two-stage [15]	0.8234	0.7222	0.8003	0.8030	0.9404	0.8840	0.6444	0.8561	0.5860	0.7844
One	Ours	0.8622	0.7323	0.9561	0.8226	0.9361	0.8822	0.8945	0.7966	0.6757	0.8398
Average precision at 10° elevation error (↑)
One	MobilePose [14]	0.7130	0.6289	0.6999	0.5233	0.8030	0.7053	0.6632	0.5413	0.4947	0.6414
Two	Two-stage [15]	0.9390	0.8616	0.8567	0.8437	0.9476	0.9272	0.8365	0.7593	0.7544	0.8584
One	Ours	0.9072	0.8535	0.8881	0.8704	0.9467	0.8999	0.8562	0.6922	0.7900	0.8560

关键发现:

3D IoU 表现突出: 本文方法在 0.5 3D IoU 指标上的平均表现达到 0.7218，显著优于 MobilePose (0.4461) 和两阶段方法 (0.6512)。这表明本文方法在整体 3D 姿态和尺寸估计的准确性上具有明显优势。具体提升为比 MobilePose 高 27.6% (0.7218 - 0.4461)，比两阶段方法高 7.1% (0.7218 - 0.6512)。
2D 像素投影误差: 在 2D 像素投影误差方面，两阶段方法 [15] 表现最佳 (平均 0.0487)，本文方法 (平均 0.0520) 略逊于其，但优于 MobilePose (平均 0.1001)。作者解释说，两阶段方法可能在更高的图像分辨率下运行关键点检测器，从而获得更好的 2D 关键点定位性能，但其缺点是难以端到端训练且无法快速扩展到更多类别。
视角估计 (方位角和仰角): 本文方法在方位角和仰角估计方面也取得了优异的性能。在方位角误差 15 度阈值下的 AP 平均值达到 0.8398，高于 MobilePose (0.4894) 和两阶段方法 (0.7844)。在仰角误差 10 度阈值下的 AP 平均值本文方法 (0.8560) 与两阶段方法 (0.8584) 相当，均显著优于 MobilePose (0.6414)。

优势分析:

直接尺寸回归的有效性: 与不考虑物体尺寸或依赖修改 EPnP 的方法不同，本文直接回归相对边界立方体尺寸，并通过标准 PnP 算法求解姿态，这被证明是解决类别级姿态估计问题的关键，并提供了更稳定的解决方案。
单阶段设计的高效性: 单阶段网络设计避免了多阶段网络的复杂性，实现了端到端训练和更快的推理速度。

以下是原文 Figure 3 的插图，展示了定性结果：

$该图像是插图，展示了物体的6-DoF姿态估计与尺寸预测的对比。上方为真实物体的标定结果，包含9个物体的6-DoF姿态和尺寸，\[实际值\]以数组形式标注，如\[0.55/1.34\]。下方为通过算法预测的结果，每个物体旁边标注了预测值。每个物体用蓝色和绿色立方体表示，展示了相应的3D边界框。图中的物体包括自行车、书籍、瓶子、相机、谷物盒、椅子、杯子、笔记本电脑和鞋子。$ 该图像是插图，展示了物体的6-DoF姿态估计与尺寸预测的对比。上方为真实物体的标定结果，包含9个物体的6-DoF姿态和尺寸，[实际值]以数组形式标注，如[0.55/1.34]。下方为通过算法预测的结果，每个物体旁边标注了预测值。每个物体用蓝色和绿色立方体表示，展示了相应的3D边界框。图中的物体包括自行车、书籍、瓶子、相机、谷物盒、椅子、杯子、笔记本电脑和鞋子。

6.2. 消融实验/参数分析

6.2.1. `2D` 关键点输出解码的不同策略

本文研究了 2D 关键点输出解码的五种不同策略，以应对类内形状差异带来的挑战。

以下是原文 Table II 的结果，展示了 2D 关键点输出解码的不同策略对 0.5 3D IoU 平均精度的影响：

Strategy	w/o add. proc.	Bike	Book	Bottle*	Camera	Cereal_box	Chair	Cup*	Laptop	Shoe	Mean
Displacement	✓	0.6254	0.5263	0.7917	0.7191	0.8115	0.8492	0.7553	0.6737	0.6688	0.7134
Heatmap	✓	0.5788	0.5539	0.7970	0.7035	0.8138	0.8260	0.7626	0.6124	0.6090	0.6951
Distance [16]	X	0.6350	0.5436	0.7837	0.7111	0.8044	0.8460	0.7640	0.6692	0.6529	0.7117
Sampling [38]	X	0.6279	0.5516	0.7873	0.7182	0.8134	0.8466	0.7687	0.6751	0.6641	0.7170
Disp. + Heatmap	✓	0.6419	0.5565	0.8021	0.7188	0.8211	0.8471	0.7704	0.6766	0.6618	0.7218

策略说明:

位移 (Displacement): 仅使用位移向量来确定关键点位置。
热图 (Heatmap): 仅使用关键点热图中的峰值来确定关键点位置。
距离 (Distance) [16]: 类似于 CenterNet 的启发式方法，试图选择更可靠的位移或热图点。
采样 (Sampling) [38]: 拟合高斯混合模型到热图峰值估计和位移预测，然后采样 $N=20$ 个点以获得可能的姿态分布。
位移 + 热图 (Disp. + Heatmap): 本文提出的方法，结合使用位移和热图。

分析:

结合方法的优越性: 实验结果表明，本文提出的位移 + 热图 (Disp. + Heatmap) 组合方法在 3D IoU 平均精度上表现最佳 (0.7218)。它优于单独使用位移 (0.7134) 或热图 (0.6951) 的情况。
效率与准确性的平衡: 组合方法无需额外的后处理步骤（如 Distance 或 Sampling），在平衡准确性和效率方面取得了很好的效果。
不同表示的适用性: 作者通过 Figure 4 解释了两种表示各自的优势：
- 热图 (Heatmap) 在边界框角点可见且与物体对齐时更准确（如图 4 左侧的书籍）。
- 位移 (Displacement) 在边界框角点不能紧密贴合物体表面时表现更好（如图 4 右侧的笔记本电脑顶部）。
  
  以下是原文 Figure 4 的插图，展示了两种不同的关键点表示：
  
  该图像是一个示意图，展示了两种物体（书本和笔记本电脑）的关键点检测结果。左侧显示的是书本的关键点，右侧是笔记本电脑的关键点，它们通过蓝色线段连接，表明关键点之间的关系。

6.2.2. 边界立方体尺寸预测的不同策略

本节实验揭示了准确尺寸预测的重要性，并展示了 convGRU 顺序特征关联模块对于困难案例（例如长宽比变化大的物体）的价值。

以下是原文 Table III 的结果，展示了计算边界立方体尺寸的不同策略：

Method	Mean cuboid dimension error (↓)				Average precision at 0.5 3D IoU (↑)
	Book	Laptop	Others	Mean	Book	Laptop	Others	Mean
	Keypoint lifting [14] (no dim. pred.)				-	0.3999	0.5159	0.6540	0.6104
Estimated dim. (w/o convGRU)	0.8474	0.9124	0.2434	0.3849	0.5401	0.6780	0.7528	0.7164
Estimated dim. (w/ convGRU)	0.7440	0.6799	0.2475	0.3507	0.5565	0.6766	0.7519	0.7218
Ground truth dim. (oracle)	0	0	0	0	0.6955	0.6942	0.7907	0.7694