Single-Stage Keypoint-Based Category-Level Object Pose Estimation from an RGB Image
TL;DR 精炼摘要
本文提出一种单阶段、基于关键点的类别级六自由度(6-DoF)物体姿态估计方法,通过单个RGB图像输入,实现对未知物体实例的姿态估计。创新之处在于利用卷积门控循环单元(convGRU)在简化任务间有效传播信息,经过广泛实验验证在Objectron基准测试中超越了现有最先进的方法。
摘要
Prior work on 6-DoF object pose estimation has largely focused on instance-level processing, in which a textured CAD model is available for each object being detected. Category-level 6-DoF pose estimation represents an important step toward developing robotic vision systems that operate in unstructured, real-world scenarios. In this work, we propose a single-stage, keypoint-based approach for category-level object pose estimation that operates on unknown object instances within a known category using a single RGB image as input. The proposed network performs 2D object detection, detects 2D keypoints, estimates 6-DoF pose, and regresses relative bounding cuboid dimensions. These quantities are estimated in a sequential fashion, leveraging the recent idea of convGRU for propagating information from easier tasks to those that are more difficult. We favor simplicity in our design choices: generic cuboid vertex coordinates, single-stage network, and monocular RGB input. We conduct extensive experiments on the challenging Objectron benchmark, outperforming state-of-the-art methods on the 3D IoU metric (27.6% higher than the MobilePose single-stage approach and 7.1% higher than the related two-stage approach).
思维导图
论文精读
中文精读
1. 论文基本信息
1.1. 标题
单阶段基于关键点的 RGB 图像类别级物体姿态估计 (Single-Stage Keypoint-Based Category-Level Object Pose Estimation from an RGB Image)
1.2. 作者
Yunzhi Lin, Jonathan Tremblay, Stephen Tyree, Patricio A. Vela, Stan Birchfield 所属机构:NVIDIA 和 Georgia Institute of Technology (佐治亚理工学院)
1.3. 发表期刊/会议
论文发布于 arXiv 预印本平台,未明确指出最终发表的期刊或会议。
1.4. 发表年份
2021年
1.5. 摘要
以往的六自由度 (6-DoF) 物体姿态估计研究主要集中在实例级 (instance-level) 处理,即对每个检测到的物体都需提供带纹理的 CAD 模型。类别级 (category-level) 的 6-DoF 姿态估计是开发能够在非结构化真实世界场景中运行的机器人视觉系统的重要一步。本文提出了一种单阶段 (single-stage)、基于关键点 (keypoint-based) 的方法,用于从单个 RGB 图像中对已知类别中的未知物体实例进行类别级姿态估计。所提出的网络依次执行二维物体检测、二维关键点检测、六自由度姿态估计以及相对边界立方体尺寸回归。它利用 convGRU (卷积门控循环单元) 的思想,将信息从较简单的任务传播到较困难的任务,以实现这些量的估计。在设计上,作者偏爱简洁性:采用通用边界立方体顶点坐标、单阶段网络和单目 RGB 输入。论文在具有挑战性的 Objectron 基准测试上进行了广泛实验,在 3D IoU (三维交并比) 指标上超越了现有最先进的方法(比 MobilePose 单阶段方法高出 27.6%,比相关的双阶段方法高出 7.1%)。
1.6. 原文链接
- 原文链接:
https://arxiv.org/abs/2109.06161 - PDF 链接:
https://arxiv.org/pdf/2109.06161v2.pdf
2. 整体概括
2.1. 研究背景与动机
核心问题: 机器人系统在非结构化真实世界环境中操作时,对物体及其姿态 (pose) 的感知能力至关重要,这即是 6-DoF (六自由度) 物体姿态估计问题。传统的 6-DoF 姿态估计方法大多是实例级 (instance-level) 的,即需要为每个待检测的特定物体实例提供精确的 CAD (计算机辅助设计) 模型。
为什么重要: 实例级方法存在严重的可伸缩性 (scalability) 问题。例如,一个为特定“饼干盒”训练的检测器,可能无法识别纹理不同或尺寸相似但略有变化的同类物体,更会忽略其他类型的“饼干盒”或类似形状的物体。随着场景复杂度的增加,所需实例级检测器的数量会迅速膨胀,这极大地限制了其在真实世界机器人应用中的实用性。
现有挑战或空白:
- 实例级方法的限制: 需要精确
CAD模型,难以泛化到未见过的实例,可伸缩性差。 - 类别级方法的局限:
- 许多方法仍需要
3D CAD模型进行训练(尽管推理时不需要实例CAD),或需要复杂的标注(如像素级分割掩码、归一化物体坐标空间NOCS)。 - 合成数据与真实数据之间存在领域鸿沟 (domain gap)。
- 许多方法依赖深度信息 (
RGB-D),而单目RGB方法较少,且可能需要合成CAD模型。深度传感器在处理透明或暗表面时存在困难。 本文切入点/创新思路: 本文旨在解决这些挑战,提出一种单目RGB输入的类别级 (category-level)6-DoF姿态估计方法,该方法无需CAD模型进行训练和推理,仅依赖于训练时带有3D边界框 (3D bounding box) 标注的大规模真实世界图像数据集 (Objectron)。通过回归相对边界立方体尺寸 (relative bounding cuboid dimensions) 和结合位移-热图的二维关键点表示,并引入convGRU进行顺序特征关联 (sequential feature association),以提高估计精度。
- 许多方法仍需要
2.2. 核心贡献/主要发现
- 单阶段、基于关键点的网络架构: 提出了一个用于类别级
6-DoF姿态估计的单阶段网络,能够从单目RGB输入图像中检测未见过的物体实例,并估计其6-DoF姿态和相对边界框尺寸。 - 直接预测相对边界立方体尺寸: 强调了直接预测
3D边界立方体相对尺寸对于类别级姿态估计的重要性,这避免了单目RGB中绝对深度估计的病态问题。 convGRU顺序特征关联: 引入convGRU(卷积门控循环单元) 模块,以顺序的方式处理不同难度的输出任务(物体检测 -> 关键点 -> 尺寸),从而将信息从较简单的任务传递到较困难的任务,尤其在困难案例(如长宽比变化大的物体)中显著提升了尺寸估计的准确性。- 结合位移和热图的二维关键点表示: 采用了一种融合位移 (displacement) 和热图 (heatmap) 的双重表示来检测二维关键点,以更好地处理类内形状变异性,并在准确性和设计复杂性之间取得平衡。
- 最先进的性能: 在大规模、真实世界的
Objectron数据集上取得了最先进的性能,在3D IoU指标上显著优于现有方法(比MobilePose高 27.6%,比两阶段方法高 7.1%)。 - 实践验证: 通过机器人实验展示了该方法在真实世界机器人操作中的潜力。
3. 预备知识与相关工作
3.1. 基础概念
- 6-DoF 物体姿态估计 (6-DoF Object Pose Estimation): 指确定物体在三维空间中的位置 (3D position,x, y, z) 和方向 (orientation,绕三个轴的旋转),共六个自由度。
- 实例级姿态估计 (Instance-level Pose Estimation): 针对已知特定物体实例(例如,某型号的“可口可乐罐”)进行姿态估计。通常需要该特定实例的
3D CAD模型进行训练和/或推理。 - 类别级姿态估计 (Category-level Pose Estimation): 针对某一类别物体(例如,“所有杯子”或“所有鞋子”)进行姿态估计,即使是训练时未见过的新实例也能处理。这要求模型能泛化到类内形状变化,通常不需要特定实例的
CAD模型。 PnP算法 (Perspective-n-Point Algorithm): 一种计算机视觉算法,用于从一组 个3D点及其对应的2D图像投影来计算相机的姿态(或物体的姿态,如果相机已知)。它通过解决2D-3D对应关系来确定一个刚体变换(旋转和平移),使3D点投影到2D图像平面上与观测到的2D点对齐。- 关键点 (Keypoints): 物体上具有特定语义或几何意义的点,例如
3D边界立方体的八个顶点在2D图像上的投影。 - 边界立方体 (Bounding Cuboid): 环绕
3D物体的最小轴对齐或方向对齐的3D长方体,用于表示物体在3D空间中的尺寸和大致占据范围。 RGB图像 (RGB Image): 包含红 (Red)、绿 (Green)、蓝 (Blue) 三个颜色通道的彩色图像,是常见的视觉输入。RGB-D图像 (RGB-D Image): 除了RGB颜色信息外,还包含深度 (Depth) 信息的图像。深度信息提供了像素到相机的距离。CenterNet: 一种流行的单阶段物体检测网络,将物体检测视为预测物体中心点的热图问题。它通过回归中心点热图、尺寸、偏移量等来检测物体。本文的方法受CenterNet启发。convGRU(Convolutional Gated Recurrent Unit): 门控循环单元GRU的卷积版本。GRU是一种循环神经网络RNN单元,用于处理序列数据。convGRU将全连接层替换为卷积层,使其能够更好地处理空间信息,适用于图像和视频数据,通过维护隐藏状态 (hidden state) 来在序列中传递信息。3D IoU(3D Intersection over Union): 在3D边界框检测中常用的评估指标。它计算预测的3D边界框与真实标注3D边界框之间交集体积与并集体积之比。比值越高,表示预测越准确。
3.2. 前人工作
-
实例级物体姿态估计 (Instance-level Object Pose Estimation):
- 模板匹配 (Template Matching): 通过将已知
3D CAD模型与观测到的3D点云、2D图像或局部描述符进行对齐来估计姿态。例如 [19], [20], [21], [22], [23]。 - 回归 (Regression): 直接回归
6-DoF姿态 [1],或者预测2D关键点图像坐标以建立2D-3D对应关系,然后通过PnP算法求解6-DoF姿态 [25], [26], [27], [2], [14]。其他方法探索了不同的物体表示方式,如密集坐标图 [1]、关键点 [28] 和对称对应关系 [29]。 - 本文与实例级方法的区别: 本文受关键点回归技术启发,但不要求
3D CAD模型,因此需要额外估计物体尺寸。
- 模板匹配 (Template Matching): 通过将已知
-
类别级物体姿态估计 (Category-level Object Pose Estimation):
- 基于
NOCS(Normalized Object Coordinate Space): Wang 等人 [6] 提出NOCS作为6-DoF姿态和尺寸估计的通用参考框架。他们的网络基于Mask R-CNN[30],预测NOCS映射,并结合深度图进行姿态拟合。但仍需3D网格模型在训练时计算NOCS映射,依赖合成训练数据集。 - 基于
RGB-D的方法:- Chen 等人 [9] 提出通过学习规范形状空间 (canonical shape space) 进行无对应关系的方法,并分离姿态依赖和姿态无关特征以简化训练。
- Tian 等人 [8] 通过潜在嵌入 (latent embeddings) 建模从类别形状先验到物体模型的变形,然后通过估计观察点与
NOCS映射之间的相似变换来恢复6-DoF姿态。
- 基于单目
RGB的方法:- Manhardt 等人 [11] 提出回归形状和姿态参数并恢复深度。
- Chen 等人 [10] 提出了一种神经分析-综合 (neural analysis-by-synthesis) 方法。
- 这些方法仍需要在训练时使用合成
CAD模型 (例如ShapeNet[12])。 - Hou 等人 [14] (
MobilePose) 提出了一种轻量级单阶段模型,通过两个头分别回归质心位置和3D边界框关键点。 - Ahmadyan 等人 [15] (
Two-stage) 引入了一种两阶段架构,用于从RGB图像回归3D边界框关键点。 - 上述
MobilePose和Two-stage方法直接在Objectron真实图像上训练,无需CAD模型或合成数据。但它们不考虑物体尺寸,而是通过修改的EPnP算法 [31] 固定齐次重心坐标来直接将2D预测关键点提升到3D,这可能导致不稳定的解决方案。
- 基于
3.3. 技术演进
该领域的技术演进可以概括为:
- 从实例级到类别级: 最初专注于对特定已知物体实例进行精确姿态估计,但随着机器人应用对泛化性需求的增加,研究转向能够处理同一类别中未见过实例的类别级姿态估计。
- 从依赖
CAD模型到无需CAD模型: 早期方法高度依赖3D CAD模型进行训练和/或推理。为了在真实世界中更具实用性,后续工作致力于摆脱对CAD模型的依赖,转而利用大规模标注数据(如Objectron)。 - 从
RGB-D到单目RGB: 深度信息虽然能提供丰富的3D几何线索,但深度传感器的局限性(如透明物体、暗表面)以及部署成本,推动了对更具挑战性但适用性更广的单目RGB方法的研究。 - 从复杂多阶段到简洁单阶段: 为了实现实时性能和端到端训练,研究者倾向于开发更简洁、高效的单阶段网络架构。
3.4. 差异化分析
本文方法与相关工作的主要区别和创新点在于:
- 与实例级方法的区别: 本文专注于类别级姿态估计,不要求
3D CAD模型,能够泛化到未见过的物体实例。 - 与现有类别级
RGB方法的区别:- 尺寸预测: 相比于
MobilePose[14] 和两阶段方法 [15] 依赖修改的EPnP算法且不直接考虑物体尺寸,本文直接回归相对边界立方体尺寸,并结合标准PnP算法,实验证明这能带来更好的性能。 - 网络架构: 采用单阶段网络设计,避免了两阶段方法的复杂性,实现了端到端学习和更快的训练速度。
- 关键点表示: 融合了位移 (displacement) 和热图 (heatmap) 两种
2D关键点表示,以提高检测准确性并应对类内形状变化。 - 信息流 (
convGRU): 引入convGRU模块,以顺序方式将信息从较简单的任务(物体检测)传递到较困难的任务(尺寸估计),解决了单目RGB输入中隐式推断3D结构信息的挑战。 - 训练数据: 仅需
3D边界框标注,无需复杂的像素级分割或NOCS映射,使其能够利用Objectron等大规模真实世界数据集。
- 尺寸预测: 相比于
4. 方法论
4.1. 方法原理
本文提出的方法旨在从单个 RGB 图像中,对已知类别但未见过的物体实例进行类别级 6-DoF 姿态估计。其核心思想是:
- 关键点回归: 预测
3D边界立方体八个顶点在2D图像上的投影坐标。 - 尺寸估计: 回归物体的相对
3D边界立方体尺寸。 PnP求解姿态: 利用预测的2D关键点和估计的3D相对尺寸,通过PnP(Perspective-n-Point) 算法求解物体的6-DoF姿态。- 单阶段网络: 使用一个单阶段卷积神经网络完成所有这些预测任务,灵感来源于
CenterNet。 - 顺序信息传递 (
convGRU): 为了应对从2D输入推断3D结构信息的难度,引入convGRU模块,按照任务难度递增的顺序(物体检测 -> 关键点 -> 尺寸)依次生成输出,确保较难的任务能利用从较简单任务中获得的隐藏状态信息。
4.2. 核心方法详解
4.2.1. 架构设计 (Architecture Design)
网络输入是分辨率为 的 RGB 图像,经过重新缩放和填充后,使 。
主干网络 (Backbone Network): 采用 DLA-34 [34] (Deep Layer Aggregation) 结合上采样 (upsampling) 作为主干网络。DLA-34 是一种深度聚合网络,通过分层聚合连接(hierarchical aggregation connections)和可变形卷积层 (deformable convolutional layers [35]) 进行增强。主干网络输出多个中间特征图,空间分辨率从 到 不等,最终聚合为一个单一路径的 输出特征图 。
输出头 (Output Heads): 网络总共有七个输出头,它们被分为三个组,并以卷积门控循环单元 (convGRU) [18] 模块的输出作为输入。对于每个输出头,都使用一个通道数为 256 的 卷积层,随后是一个 卷积层来处理相应 convGRU 模块的输出。输出以密集的热图 (heatmaps) 或回归图 (regression maps) 形式预测,但会稀疏地根据检测到的物体中心进行访问。
以下是原文 Figure 2 的插图,展示了网络的整体架构:

物体检测分支 (Object Detection Branch):
- 物体中心热图 (Object Center Heatmap): 这是网络最主要的输出。热图中的峰值表示检测到的物体
2D边界框的中心点。 2D物体中心亚像素偏移量 (2D Object Center Sub-pixel Offset): 为了修正热图输出分辨率导致的离散化误差,网络回归一个局部2D物体中心亚像素偏移量图,遵循CenterNet[16] 的做法。2D边界框尺寸 (2D Bounding Box Size): 物体的2D边界框的宽度和高度。Objectron数据集特点:Objectron数据集 [15] 不提供2D边界框标注。因此,本文将其定义为投影的真实3D边界框的极值点 (extreme points) 所包围的最小轴对齐矩形。
关键点检测分支 (Keypoint Detection Branch):
网络使用两种方式预测 3D 边界框顶点投影到图像空间的 2D 坐标:
2D关键点位移向量 (2D Keypoint Displacement Vectors): 从物体2D边界框的中心点回归每个关键点的x-y坐标位移向量。- 关键点热图 (Keypoint Heatmaps): 输出一组包含 8 个关键点的热图,热图中的峰值表示投影
3D顶点对应的2D坐标。 - 关键点亚像素偏移量 (Keypoint Sub-pixel Offsets): 为每个顶点输出一个局部
2D关键点亚像素偏移量,以减小离散化误差。 - 训练标签生成: 关键点热图的训练标签是通过以真实标注关键点坐标为中心、方差由
2D边界框大小确定的高斯核生成的。
边界立方体尺寸分支 (Cuboid Dimensions Branch):
- 相对尺寸回归 (Relative Dimensions Regression): 由于类别级姿态估计假设我们无法访问目标物体实例的
CAD模型,该分支用于估计3D边界立方体的相对尺寸(宽度 、高度 、长度 )。 - 为何选择相对尺寸: 预测相对值是为了避免单目
RGB图像中隐式估计绝对深度(这是一个病态问题,因为无法确定是查看一个全尺寸的椅子还是一个玩具椅子)。相对值还允许网络应用于不同相机内参的图像而无需重新训练。 - 规范化: 由于许多日常物体在地面上通常有一个规范的朝向,本文选择向上 () 轴作为主轴。真实标注的尺寸标签被表示为 ,网络估计比率
x/y和z/y。与3D车辆检测方法 [18], [32] 使用指数偏移量不同,本文直接回归每个比率,因为本文中的物体长宽比变化更大。
4.2.2. convGRU 特征关联 (convGRU Feature Association)
作者假设网络的不同输出具有不同的学习难度。启发式地将输出分为三个组:
-
第一组 (最简单): 物体中心热图、物体中心亚像素偏移量、
2D边界框尺寸。 -
第二组: 关键点
x-y位移、关键点热图、关键点亚像素偏移量。 -
第三组 (最困难): 相对边界立方体尺寸。
这种分组策略和顺序输出构造自然地通过在循环神经网络 (recurrent neural network) 中将不同输出组分配给不同的“时间步”来公式化。给定输入图像 ,第 个输出 () 表示为: 其中:
-
表示主干网络输出的特征图 (feature map)。
-
表示在时间步 的
GRU(Gated Recurrent Unit) 单元。 -
表示由前一时间步的
GRU单元生成的隐藏状态 (hidden state)。 -
是初始隐藏状态。
-
是用于第 个输出的全卷积网络。
-
时间步 分别对应于上述的三个输出组。
本文采用单层卷积
GRU网络,其中convGRU中所有卷积层都设置为步长 (stride) 为1、核大小 (kernel size) 为3、输出通道数为64。来自后续时间步的输出将能够访问从前一时间步流动的隐藏状态,从而实现了输出分组和顺序特征关联的思想。
4.2.3. 2D 关键点输出解码 (2D Keypoint Output Decoding)
网络的输出通过以下方式进行解码和组装:
- 物体中心检测: 首先,在
2D物体中心的热图上应用 最大池化操作,作为非极大值抑制 (non-maximum suppression) 的高效替代方案 [16]。 - 位移关键点提取: 对于每个检测到的中心点,位移型关键点位置由中心点下方的
2Dx-y位移给出。 - 热图关键点提取: 接下来,热图型关键点位置是通过在对应热图中寻找高置信度峰值来提取的,这些峰值必须位于
2D物体边界框的边距内。 - 亚像素校正: 两种关键点估计(位移型和热图型)都根据各自的亚像素偏移量进行调整。
PnP求解: 调整后的关键点位置和估计的相对边界立方体尺寸一起作为输入,传递给PnP算法的Levenberg-Marquardt版本 [36],最终计算出物体的6-DoF姿态。
4.2.4. 损失函数 (Loss Function)
总损失函数 (Overall Loss Function): 总的训练目标是七个损失项的加权组合: 其中,,且 。
焦点损失 (Focal Loss): 对于中心点热图 () 和关键点热图 (),本文采用逐点 (point-wise) 的惩罚减少焦点损失 [37]: 其中:
- 是热图位置
( i , j )处的预测分数。 Y _ { i j }是由高斯核分配的每个点的真实标注值。- 是图像中中心点的数量。
- 和 是焦点损失的超参数,根据 [16] 设置为 。
L1 损失 (L1 Loss):
- 中心点亚像素偏移损失 (): 使用
L1损失计算。 其中:- 表示预测的偏移量。
- 是真实标注的中心点。
- 是输出步幅 (output stride)。
- 是 在低分辨率下的等效位置。
- 关键点亚像素偏移损失 (): 以类似方式计算。
2D边界框尺寸损失 (): 使用L1损失计算。- 关键点位移损失 (): 使用
L1损失计算。 - 相对边界立方体尺寸损失 (): 使用
L1损失计算,针对其标签值。
5. 实验设置
5.1. 数据集
-
名称:
Objectron数据集 [15] -
特点: 这是一个新提出的基准,用于单目
RGB类别级6-DoF物体姿态估计。 -
规模: 包含 15,000 个带标注的视频片段,超过 400 万帧图像。
-
类别: 物体来自以下九个类别:自行车 (bikes)、书籍 (books)、瓶子 (bottles)、相机 (cameras)、谷物盒 (cereal boxes)、椅子 (chairs)、杯子 (cups)、笔记本电脑 (laptops) 和鞋子 (shoes)。
-
标注: 每个物体都标注了
3D边界立方体,其中包含物体相对于相机的三维位置和方向,以及边界立方体的尺寸。 -
数据采集: 每个视频记录中,相机围绕静止物体移动,从不同角度捕捉物体。
-
元数据: 包含相机姿态、稀疏点云和表面平面(后者假设物体位于地面上,提供绝对比例因子)。
-
训练数据处理: 训练时,通过时间下采样将原始视频帧以 15
fps(帧每秒) 提取。 -
测试数据处理: 测试时,评估了数据集中每个类别的所有测试样本,以便与其他方法进行直接比较。
-
特殊处理 - 杯子类别:
- 杯子类别包含带把手的杯子 (mugs) 和不带把手的杯子 (cups)。作者手动将它们区分开来,为每种类型训练单独的网络。
- 对于
mug实例,由于把手方向不一致,存在模糊性。作者手动检查了所有视频,并将一些真实标注的边界框旋转 180 度,以确保方向一致性。 - 本文将发布杯子/马克杯的划分及其代码。
-
对称物体处理: 对于瓶子、杯子等对称物体,遵循 Wang 等人 [6] 的思想,在训练阶段生成多个真实标注标签 ,通过绕对称轴旋转 次。对称损失计算为 ,其中 表示预测, 是非对称损失。
以下是原文 Figure 1 的插图,展示了
Objectron数据集的样本图像及其标注示例:
该图像是示意图,展示了利用单个RGB图像进行类别级物体姿态估计的结果。图中标示了多个未知物体实例(如鞋子和杯子)及其对应的6自由度姿态和3D边界框尺寸,通过不同颜色的立方体框住对象位置,实现了物体检测与姿态估计。
5.2. 评估指标
本文遵循 Objectron 数据集 [15] 的评估标准,使用了以下指标:
5.2.1. 3D IoU 平均精度 (Average Precision at 0.5 3D IoU)
- 概念定义:
3D IoU(三维交并比) 是衡量预测3D边界框与真实标注3D边界框重叠程度的指标。IoU越高表示预测越准确。AP@0.5 3D IoU表示在IoU阈值为0.5时计算的平均精度。它评估了3D检测和物体尺寸估计的综合性能。 - 数学公式:
3D IoU的公式如下:AP(Average Precision) 通常通过计算精度-召回曲线 (Precision-Recall Curve) 下的面积来获得。在给定的IoU阈值(此处为0.5)下,如果一个预测的3D边界框的IoU大于或等于该阈值,则认为该预测是正样本 (True Positive)。 - 符号解释:
- : 预测的
3D边界框所占据的体积。 - : 真实标注的
3D边界框所占据的体积。 - : 两个边界框的交集体积。
- : 两个边界框的并集体积。
- : 预测的
5.2.2. 2D 像素投影误差 (Mean Pixel Error of 2D Projection)
- 概念定义: 该指标计算的是估计姿态和真实标注姿态下
3D边界框关键点投影到2D图像平面上的平均归一化距离。它衡量了2D关键点定位的准确性。 - 数学公式: 假设 是第 个真实
3D边界框顶点的投影,而 是第 个估计3D边界框顶点的投影。设 为关键点总数, 为图像对角线长度或其他归一化因子。 - 符号解释:
- : 由估计姿态得到的第 个
3D边界框顶点在2D图像上的投影坐标。 - : 由真实姿态得到的第 个
3D边界框顶点在2D图像上的投影坐标。 - :
3D边界框顶点的数量 (通常为 8)。 - : 欧几里得距离 (L2 范数)。
- : 归一化因子,例如图像的对角线长度,用于使误差相对于图像大小。
- : 由估计姿态得到的第 个
5.2.3. 方位角 (azimuth) 和仰角 (elevation) 的平均精度 (Average Precision at 15° azimuth error and 10° elevation error)
- 概念定义: 这些指标评估了模型在预测物体方向(视角)方面的准确性。
AP@15° azimuth error表示当方位角预测误差小于15度时的平均精度。AP@10° elevation error表示当仰角预测误差小于10度时的平均精度。 - 数学公式:
AP的计算方式与3D IoU AP类似,只是正样本的判断标准变为角度误差是否小于指定阈值。 - 符号解释:
- : 预测的方位角。
- : 真实标注的方位角。
- : 预测的仰角。
- : 真实标注的仰角。
5.2.4. 相对维度误差 (Mean Relative Dimension Error)
- 概念定义: 该指标衡量预测的相对
3D边界立方体尺寸与真实标注的相对尺寸之间的平均误差。它直接评估了尺寸估计的准确性。 - 数学公式:
- 符号解释:
- : 第 个预测的相对尺寸值(例如
x/y或z/y)。 y _ { i }: 第 个真实标注的相对尺寸值。- : 所有预测的相对尺寸值的总数。
- : 第 个预测的相对尺寸值(例如
5.2.5. 对称物体处理
对于对称物体类别(例如 和 ),评估时遵循 [15] 的做法:将估计的边界框沿对称轴旋转 次,并根据每次旋转后的结果与真实标注进行评估。最终报告的性能是 3D IoU 最大化或 2D 像素投影误差最小化的实例的结果。尽管杯子类别也包含非对称的马克杯实例,但为了与 [15] 进行公平比较,本文仍将它们视为对称物体进行评估。
5.3. 对比基线
本文将自己的方法与以下两种最先进的方法进行比较,这两种方法也是目前 Objectron 数据集上仅有的公开方法:
- 单阶段
MobilePose[14]: 一种单阶段轻量级模型,通过两个头分别回归中心点位置和3D边界框关键点。它不直接估计物体尺寸,而是通过修改的EPnP算法将2D关键点提升到3D。 - 两阶段网络 [15]:
Objectron数据集作者提出的方法。它采用两阶段架构,用于从RGB图像回归3D边界框关键点。同样不直接估计物体尺寸。
5.4. 实现细节
- 训练硬件: 在 4 块
NVIDIA V-100 GPU上进行训练。 - 批大小 (Batch Size):
32。 - 训练周期 (Epochs):
140个周期。 - 初始化: 使用在
ImageNet上预训练的权重进行初始化。 - 数据增强 (Data Augmentation): 包括随机翻转 (
random flip)、缩放 (scaling)、裁剪 (cropping) 和颜色抖动 (color jittering)。 - 优化器 (Optimizer):
Adam优化器。 - 学习率 (Learning Rate): 初始学习率为
2.5e-4,并在90和120个周期时各下降10倍。 - 训练时间: 训练一个类别平均需要
36小时(每个类别使用8k到32k张训练图像,具体取决于类别)。 - 推理速度 (Inference Speed): 在
NVIDIA GTX 1080Ti GPU上约为15 fps(帧每秒)。
6. 实验结果与分析
6.1. 核心结果分析
本文提出的方法在 Objectron 基准测试中取得了显著的性能提升,尤其是在 3D IoU 指标上。
以下是原文 Table I 的结果,展示了姿态估计在 Objectron 测试集上的比较:
| Stage | Method | Bike | Book | Bottle* | Camera | Cereal_box | Chair | Cup* | Laptop | Shoe | Mean |
|---|---|---|---|---|---|---|---|---|---|---|---|
| Average precision at 0.5 3D IoU (↑) | |||||||||||
| One | MobilePose [14] | 0.3109 | 0.1797 | 0.5433 | 0.4483 | 0.5419 | 0.6847 | 0.3665 | 0.5225 | 0.4171 | 0.4461 |
| Two | Two-stage [15] | 0.6127 | 0.5218 | 0.5744 | 0.8016 | 0.6272 | 0.8505 | 0.5388 | 0.6735 | 0.6606 | 0.6512 |
| One | Ours | 0.6419 | 0.5565 | 0.8021 | 0.7188 | 0.8211 | 0.8471 | 0.7704 | 0.6766 | 0.6618 | 0.7218 |
| Mean pixel error of 2D projection of cuboid vertices (↓) | |||||||||||
| One | MobilePose [14] | 0.1581 | 0.0840 | 0.0818 | 0.0773 | 0.0454 | 0.0892 | 0.2263 | 0.0736 | 0.0655 | 0.1001 |
| Two | Two-stage [15] | 0.0828 | 0.0477 | 0.0405 | 0.0449 | 0.0337 | 0.0488 | 0.0541 | 0.0391 | 0.0467 | 0.0487 |
| One | Ours | 0.0872 | 0.0563 | 0.0400 | 0.0511 | 0.0379 | 0.0594 | 0.0376 | 0.0522 | 0.0463 | 0.0520 |
| Average precision at 15° azimuth error (↑) | |||||||||||
| One | MobilePose [14] | 0.4376 | 0.4111 | 0.4413 | 0.5293 | 0.8780 | 0.6195 | 0.0893 | 0.6052 | 0.3934 | 0.4894 |
| Two | Two-stage [15] | 0.8234 | 0.7222 | 0.8003 | 0.8030 | 0.9404 | 0.8840 | 0.6444 | 0.8561 | 0.5860 | 0.7844 |
| One | Ours | 0.8622 | 0.7323 | 0.9561 | 0.8226 | 0.9361 | 0.8822 | 0.8945 | 0.7966 | 0.6757 | 0.8398 |
| Average precision at 10° elevation error (↑) | |||||||||||
| One | MobilePose [14] | 0.7130 | 0.6289 | 0.6999 | 0.5233 | 0.8030 | 0.7053 | 0.6632 | 0.5413 | 0.4947 | 0.6414 |
| Two | Two-stage [15] | 0.9390 | 0.8616 | 0.8567 | 0.8437 | 0.9476 | 0.9272 | 0.8365 | 0.7593 | 0.7544 | 0.8584 |
| One | Ours | 0.9072 | 0.8535 | 0.8881 | 0.8704 | 0.9467 | 0.8999 | 0.8562 | 0.6922 | 0.7900 | 0.8560 |
关键发现:
3D IoU表现突出: 本文方法在0.5 3D IoU指标上的平均表现达到0.7218,显著优于MobilePose(0.4461) 和两阶段方法 (0.6512)。这表明本文方法在整体3D姿态和尺寸估计的准确性上具有明显优势。具体提升为比MobilePose高 27.6% (0.7218 - 0.4461),比两阶段方法高 7.1% (0.7218 - 0.6512)。2D像素投影误差: 在2D像素投影误差方面,两阶段方法 [15] 表现最佳 (平均 0.0487),本文方法 (平均 0.0520) 略逊于其,但优于MobilePose(平均 0.1001)。作者解释说,两阶段方法可能在更高的图像分辨率下运行关键点检测器,从而获得更好的2D关键点定位性能,但其缺点是难以端到端训练且无法快速扩展到更多类别。- 视角估计 (方位角和仰角): 本文方法在方位角和仰角估计方面也取得了优异的性能。在方位角误差
15度阈值下的AP平均值达到0.8398,高于MobilePose(0.4894) 和两阶段方法 (0.7844)。在仰角误差10度阈值下的AP平均值本文方法 (0.8560) 与两阶段方法 (0.8584) 相当,均显著优于MobilePose(0.6414)。
优势分析:
-
直接尺寸回归的有效性: 与不考虑物体尺寸或依赖修改
EPnP的方法不同,本文直接回归相对边界立方体尺寸,并通过标准PnP算法求解姿态,这被证明是解决类别级姿态估计问题的关键,并提供了更稳定的解决方案。 -
单阶段设计的高效性: 单阶段网络设计避免了多阶段网络的复杂性,实现了端到端训练和更快的推理速度。
以下是原文 Figure 3 的插图,展示了定性结果:
该图像是插图,展示了物体的6-DoF姿态估计与尺寸预测的对比。上方为真实物体的标定结果,包含9个物体的6-DoF姿态和尺寸,[实际值]以数组形式标注,如[0.55/1.34]。下方为通过算法预测的结果,每个物体旁边标注了预测值。每个物体用蓝色和绿色立方体表示,展示了相应的3D边界框。图中的物体包括自行车、书籍、瓶子、相机、谷物盒、椅子、杯子、笔记本电脑和鞋子。
6.2. 消融实验/参数分析
6.2.1. 2D 关键点输出解码的不同策略
本文研究了 2D 关键点输出解码的五种不同策略,以应对类内形状差异带来的挑战。
以下是原文 Table II 的结果,展示了 2D 关键点输出解码的不同策略对 0.5 3D IoU 平均精度的影响:
| Strategy | w/o add. proc. | Bike | Book | Bottle* | Camera | Cereal_box | Chair | Cup* | Laptop | Shoe | Mean |
|---|---|---|---|---|---|---|---|---|---|---|---|
| Displacement | ✓ | 0.6254 | 0.5263 | 0.7917 | 0.7191 | 0.8115 | 0.8492 | 0.7553 | 0.6737 | 0.6688 | 0.7134 |
| Heatmap | ✓ | 0.5788 | 0.5539 | 0.7970 | 0.7035 | 0.8138 | 0.8260 | 0.7626 | 0.6124 | 0.6090 | 0.6951 |
| Distance [16] | X | 0.6350 | 0.5436 | 0.7837 | 0.7111 | 0.8044 | 0.8460 | 0.7640 | 0.6692 | 0.6529 | 0.7117 |
| Sampling [38] | X | 0.6279 | 0.5516 | 0.7873 | 0.7182 | 0.8134 | 0.8466 | 0.7687 | 0.6751 | 0.6641 | 0.7170 |
| Disp. + Heatmap | ✓ | 0.6419 | 0.5565 | 0.8021 | 0.7188 | 0.8211 | 0.8471 | 0.7704 | 0.6766 | 0.6618 | 0.7218 |
策略说明:
- 位移 (Displacement): 仅使用位移向量来确定关键点位置。
- 热图 (Heatmap): 仅使用关键点热图中的峰值来确定关键点位置。
- 距离 (Distance) [16]: 类似于
CenterNet的启发式方法,试图选择更可靠的位移或热图点。 - 采样 (Sampling) [38]: 拟合高斯混合模型到热图峰值估计和位移预测,然后采样 个点以获得可能的姿态分布。
- 位移 + 热图 (Disp. + Heatmap): 本文提出的方法,结合使用位移和热图。
分析:
- 结合方法的优越性: 实验结果表明,本文提出的位移 + 热图 (Disp. + Heatmap) 组合方法在
3D IoU平均精度上表现最佳 (0.7218)。它优于单独使用位移 (0.7134) 或热图 (0.6951) 的情况。 - 效率与准确性的平衡: 组合方法无需额外的后处理步骤(如
Distance或Sampling),在平衡准确性和效率方面取得了很好的效果。 - 不同表示的适用性: 作者通过 Figure 4 解释了两种表示各自的优势:
-
热图 (Heatmap) 在边界框角点可见且与物体对齐时更准确(如图 4 左侧的书籍)。
-
位移 (Displacement) 在边界框角点不能紧密贴合物体表面时表现更好(如图 4 右侧的笔记本电脑顶部)。
以下是原文 Figure 4 的插图,展示了两种不同的关键点表示:
该图像是一个示意图,展示了两种物体(书本和笔记本电脑)的关键点检测结果。左侧显示的是书本的关键点,右侧是笔记本电脑的关键点,它们通过蓝色线段连接,表明关键点之间的关系。
-
6.2.2. 边界立方体尺寸预测的不同策略
本节实验揭示了准确尺寸预测的重要性,并展示了 convGRU 顺序特征关联模块对于困难案例(例如长宽比变化大的物体)的价值。
以下是原文 Table III 的结果,展示了计算边界立方体尺寸的不同策略:
| Method | Mean cuboid dimension error (↓) | Average precision at 0.5 3D IoU (↑) | ||||||
|---|---|---|---|---|---|---|---|---|
| Book | Laptop | Others | Mean | Book | Laptop | Others | Mean | |
| Keypoint lifting [14] (no dim. pred.) | - | 0.3999 | 0.5159 | 0.6540 | 0.6104 | |||
| Estimated dim. (w/o convGRU) | 0.8474 | 0.9124 | 0.2434 | 0.3849 | 0.5401 | 0.6780 | 0.7528 | 0.7164 |
| Estimated dim. (w/ convGRU) | 0.7440 | 0.6799 | 0.2475 | 0.3507 | 0.5565 | 0.6766 | 0.7519 | 0.7218 |
| Ground truth dim. (oracle) | 0 | 0 | 0 | 0 | 0.6955 | 0.6942 | 0.7907 | 0.7694 |
策略说明:
- 关键点提升 (Keypoint lifting) [14]: 重新实现了
MobilePose[14] 提出的后处理部分,仅使用2D投影边界立方体关键点来恢复最终姿态,不进行尺寸预测。 - 估计尺寸 (无
convGRU) (Estimated dim. (w/o convGRU)): 本文方法,但移除了convGRU层。 - 估计尺寸 (有
convGRU) (Estimated dim. (w/ convGRU)): 本文提出的完整方法。 - 真实标注尺寸 (Oracle) (Ground truth dim. (oracle)): 具有真实
3D长宽比(相对尺寸)的理想情况。
分析:
-
尺寸预测的重要性:
Keypoint lifting方法(不预测尺寸)的3D IoU平均值为0.6104,而本文方法(预测尺寸)的3D IoU平均值为0.7218。这明确表明,直接预测相对尺寸对于类别级姿态估计至关重要。 -
convGRU的价值: 比较“估计尺寸 (无convGRU)”和“估计尺寸 (有convGRU)”:- 在平均
3D IoU上,convGRU带来了轻微提升 (从 0.7164 到 0.7218)。 - 在平均边界立方体尺寸误差上,
convGRU也有所降低 (从 0.3849 到 0.3507)。 - 对于书籍 (Book) 和笔记本电脑 (Laptop) 这两个类别,
convGRU的效果尤为显著。书籍的厚度变化大,笔记本电脑在开合模式下尺寸不同,这些都是长宽比变化较大的“困难案例”。convGRU使得书籍的尺寸误差从 0.8474 降至 0.7440,笔记本电脑从 0.9124 降至 0.6799。这种对困难案例的改进最终贡献了整体3D IoU的提升。
- 在平均
-
Oracle 结果:
Oracle(具有真实标注尺寸) 取得了最佳的3D IoU结果 (0.7694),这进一步证实了准确尺寸信息对姿态估计的重要性。同时,Keypoint lifting[14] 的性能下降,也说明了其简化的EPnP变体可能在没有准确尺寸信息时导致不稳定的2D-3D对应解决方案。以下是原文 Figure 5 的插图,展示了
convGRU特征关联模块带来的改进:
该图像是插图,左侧显示图书表面的关键点表示,蓝色和红色圆圈分别代表通过位移和热图检测到的关键点,右侧为三维配准结果的边界框,展示了6-DoF姿态的估计。目标物的方位和厚度在不同视角下清晰可见。
如图 5 所示,当从特定视角(方位角接近 )观察薄物体(如书籍)时,估计其厚度非常具有挑战性。convGRU 模块(蓝色框)能够更准确地恢复物体的 3D 长宽比,即使在没有 convGRU(红色框)时 2D 关键点看起来也很准确,但其尺寸预测却存在差异,从而导致 3D IoU 大幅提升(有 convGRU 时为 0.5059,无 convGRU 时为 0.3204)。
6.2.3. 机器人实验 (Robot experiment)
为了展示姿态估计器在真实世界应用中的潜力,作者进行了一个机器人操作实验。
- 设置: 将一个相机安装在 Baxter 机器人的左腕上。
- 比例因子获取: 鉴于比例因子估计是一个尚未解决的问题,为了简化实验,手动测量了每个物体的高度。
- 任务: 将一只鞋放在桌子上,另一只鞋放在机器人右侧的夹爪中。机器人被指示将夹爪中的鞋子放置在桌子上的鞋子旁边并与之对齐,利用本文系统估计的位置和方向信息。
- 结果: 机器人在这项任务中表现出相当可靠的行为,在 5 次尝试中,4 次成功地将机器人夹爪中的鞋子与桌子上的鞋子对齐,即使面对以前未见过的鞋子也能成功。
- 与现有工作的比较: 本文的
3D方向边界框为语义3D关键点表示 [43], [44] 提供了一个替代选择。 - 未来工作: 可靠地估计比例因子仍然是一个未解决的问题,这将是未来的研究方向。
6.3. 数据呈现 (表格)
由于前面已经详细展示了 Table I, II, III,此处不再重复。
7. 总结与思考
7.1. 结论总结
本文提出了一种新颖的单阶段、基于关键点的类别级 6-DoF 物体姿态估计方法,该方法仅依赖于单个 RGB 图像作为输入。其核心优势在于:
- 无
CAD模型依赖: 在训练和测试阶段均不需要物体实例的CAD模型,大幅提升了在真实世界场景中的实用性和泛化能力。 - 简洁高效的单阶段架构: 摒弃了复杂的多阶段网络,实现了端到端学习,并能提供较快的推理速度。
- 结合位移和热图的关键点表示: 通过融合两种
2D关键点检测方式,有效处理了类内形状变异性,提升了关键点定位的准确性。 - 直接预测相对边界立方体尺寸: 解决了单目
RGB中绝对深度估计的病态问题,并被实验证明是类别级姿态估计成功的关键因素。 convGRU顺序特征关联: 创新性地利用convGRU将信息从较简单的任务(物体检测)传递到较困难的任务(尺寸估计),尤其在处理长宽比变化大的物体时,显著提高了尺寸预测精度。- 最先进的性能: 在大规模、真实世界的
Objectron数据集上取得了卓越的性能,超越了现有最先进的方法。 - 机器人应用潜力: 通过机器人实验初步验证了其在实际操作中的应用潜力。
7.2. 局限性与未来工作
- 比例因子估计: 论文指出,可靠地估计绝对比例因子 (absolute scale factor) 仍然是一个未解决的问题。在机器人实验中,作者为了简化,手动测量了物体高度。这限制了模型在完全未知环境中的应用。
- 模型复杂度与效率: 尽管本文采用单阶段网络,但文中也提到训练一个类别平均需要 36 小时,且模型可能仍有优化空间以提高推理速度和降低计算成本。
- 对
Objectron数据集的依赖: 尽管Objectron是一个大规模真实世界数据集,但其特定场景和物体类别可能仍无法完全涵盖所有真实世界情况。 - 未来工作方向:
- 结合形状几何嵌入 (shape geometry embeddings) 来进一步提高模型性能和泛化能力。
- 探索更轻量级的主干网络 (lightweight backbone networks),以提高模型的部署效率。
- 利用迭代后细化 (iterative post refinement) 技术来进一步优化姿态估计结果。
7.3. 个人启发与批判
- 单目
RGB的潜力: 这篇论文再次强调了单目RGB图像在3D视觉任务中的巨大潜力。在缺乏深度传感器或CAD模型的情况下,仅凭RGB图像就能进行高精度的类别级6-DoF姿态估计,这对于成本敏感或受环境限制的应用(如透明物体检测)具有重要意义。 - 相对尺寸估计的精妙: 解决单目
3D估计病态深度问题的核心思路——回归相对尺寸而非绝对尺寸,是一个非常实用的设计选择。它绕过了绝对尺度模糊性,使得PnP算法能够有效工作,并增强了模型对不同相机内参的鲁棒性。 convGRU的通用性:convGRU用于信息顺序传递的思路非常巧妙且具有通用性。将多任务学习中的任务难度进行排序,并通过循环结构将简单任务的知识传递给复杂任务,这对于需要逐步推断复杂信息的模型设计具有借鉴意义。- 关键点表示的融合: 结合位移和热图两种关键点表示,利用它们各自的优势来弥补彼此的不足,是深度学习模型设计中常用的“取长补短”策略,也为其他关键点检测任务提供了参考。
- 批判性思考:
- 比例因子问题: 尽管相对尺寸解决了大部分问题,但实际机器人操作往往需要绝对尺寸和深度信息。论文承认比例因子估计是未来的工作,这确实是其当前方法在实际部署中面临的主要限制。如何无缝地整合或学习绝对比例信息是关键。
- 类别分离网络: 论文提到“我们为每个类别使用单独的网络”,并且在“杯子”类别中手动区分了“杯子”和“马克杯”,并为每个训练单独的网络。虽然这简化了类内形状变化问题,但从长远来看,为每个新类别训练一个新网络仍然存在可伸缩性问题。一个能够学习跨类别共享特征或更通用形状先验的模型将更具吸引力。
- 泛化到更复杂几何形状: 边界立方体对许多物体是合理的,但对于形状更复杂的物体(例如非刚性物体、具有复杂部件的物体),边界立方体可能无法提供足够精细的姿态表示。未来工作可以探索如何扩展到更复杂的形状表示。
Objectron数据集特点:Objectron数据集中的物体通常被放置在桌面上,相机围绕其运动。这种“物体中心”的视频拍摄方式可能使得3D姿态估计问题相对简化。在更复杂、杂乱的场景(如厨房台面或工业工作区)中,模型的鲁棒性可能需要进一步验证。
相似论文推荐
基于向量语义检索推荐的相关论文。