论文状态：已完成

$\mathcal{D(R,O)}$ Grasp: A Unified Representation of Robot and Object Interaction for Cross-Embodiment Dexterous Grasping

发表：2024/10/03

交互模型与机器人操作 (1)复杂环境中的灵巧抓取 (1)基于点云的抓取预测 (1)机器人手的适应性与通用性 (1)跨体态灵巧操作框架 (1)

价格：0.100000

已有 3 人读过

本分析由 AI 生成，可能不完全准确，请以原文为准。

TL;DR 精炼摘要

本文提出了一种名为D(R,O) Grasp的新框架，可建模机器人手与物体的交互，实现对多种机器人手和物体几何形状的广泛泛化。该模型通过机器人手部描述和物体点云输入，能有效预测稳定的抓取，实验结果显示在仿真和实际环境中成功率分别达到87.53%和89%，显著提高了抓取多样性和推理速度。

摘要

Dexterous grasping is a fundamental yet challenging skill in robotic manipulation, requiring precise interaction between robotic hands and objects. In this paper, we present $\mathcal{D(R,O)}$ Grasp, a novel framework that models the interaction between the robotic hand in its grasping pose and the object, enabling broad generalization across various robot hands and object geometries. Our model takes the robot hand's description and object point cloud as inputs and efficiently predicts kinematically valid and stable grasps, demonstrating strong adaptability to diverse robot embodiments and object geometries. Extensive experiments conducted in both simulated and real-world environments validate the effectiveness of our approach, with significant improvements in success rate, grasp diversity, and inference speed across multiple robotic hands. Our method achieves an average success rate of 87.53% in simulation in less than one second, tested across three different dexterous robotic hands. In real-world experiments using the LeapHand, the method also demonstrates an average success rate of 89%. $\mathcal{D(R,O)}$ Grasp provides a robust solution for dexterous grasping in complex and varied environments. The code, appendix, and videos are available on our project website at https://nus-lins-lab.github.io/drograspweb/.

思维导图

论文精读

中文精读约 41 分钟读完 · 25,378 字

1. 论文基本信息

1.1. 标题

$\mathcal{D(R,O)}$ Grasp: A Unified Representation of Robot and Object Interaction for Cross-Embodiment Dexterous Grasping (一种统一的机器人与物体交互表示，用于跨实体灵巧抓取)

1.2. 作者

Zhenyu Wei, Zhixuan Xu, Jingxiang Guo, Yiwen Hou, Chongkai Gao, Zhehao Cai, Jiayu Luo, Lin Shao。这些作者主要来自新加坡国立大学 (National University of Singapore, NUS)。

1.3. 发表期刊/会议

预印本 (Preprint)，发布在 arXiv。arXiv 在学术界，特别是计算机科学领域，是研究者发布最新研究成果和进行同行评审前交流的重要平台。

1.4. 发表年份

2024年10月2日 (UTC)。

1.5. 摘要

灵巧抓取 (Dexterous Grasping) 是机器人操作中一个基础但具有挑战性的技能，需要机器人手与物体之间进行精确交互。本文提出了一种新颖的框架 D(R,O) Grasp，它对机器人手在其抓取姿态与物体之间的交互进行建模，从而实现了对各种机器人手和物体几何形状的广泛泛化 (generalization)。该模型以机器人手部的描述和物体点云 (point cloud) 作为输入，能够高效地预测运动学有效且稳定的抓取，展示了对不同机器人实体 (embodiments) 和物体几何形状的强大适应性。在模拟和真实世界环境中进行的广泛实验验证了该方法的有效性，在多个机器人手上显著提高了成功率 (success rate)、抓取多样性 (grasp diversity) 和推理速度 (inference speed)。我们的方法在模拟中，对三种不同的灵巧机器人手进行了测试，平均成功率达到 87.53%，且在不到一秒内完成。在真实世界中使用 LeapHand 的实验中，该方法也展示了 89% 的平均成功率。D(R,O) Grasp 为复杂多变环境中的灵巧抓取提供了鲁棒 (robust) 的解决方案。代码、附录和视频可在项目网站上获取。

1.6. 原文链接

原文链接: https://arxiv.org/abs/2410.01702
PDF 链接: https://arxiv.org/pdf/2410.01702v4.pdf
发布状态: 预印本。

2. 整体概括

2.1. 研究背景与动机

灵巧抓取是机器人技术中执行复杂操作任务的关键第一步。然而，由于灵巧机器人手的高自由度 (Degrees of Freedom, DoF) 以及实现稳定、精确抓取的复杂性，快速获取高质量和多样化的抓取仍然是一个重大挑战。

现有的抓取生成方法主要分为两类：

机器人中心表示 (Robot-centric representations)：例如，通过腕部姿态和关节值直接映射观测到控制命令。这类方法推理速度快，但样本效率 (sample efficiency) 低，且难以泛化 (generalize) 到不同的机器人实体 (embodiments) 或几何设计。
物体中心表示 (Object-centric representations)：例如，通过接触点或接触图捕获物体几何和接触信息。这类方法能够跨形状和机器人泛化，但通常效率较低，因为它们需要额外的优化步骤（如求解逆运动学 (Inverse Kinematics, IK)）才能将物体中心的表示转换为机器人可执行的命令，这个优化过程通常耗时且复杂。

为了克服这两种范式的局限性，本文旨在提出一种统一的表示方法，能够结合两者的优势，实现高效、通用且稳定的灵巧抓取。

2.2. 核心贡献/主要发现

本文提出了 D(R,O) Grasp 框架，其核心贡献和主要发现如下：

引入新颖的交互中心表示 D(R,O)：本文提出了一种名为 D(R,O) 的新颖表示，它是一种交互中心 (interaction-centric) 的表示，捕获了机器人手在抓取姿态下与物体之间的关系。这种表示超越了传统的机器人中心和物体中心范式，促进了在各种机器人手和物体几何形状之间的鲁棒泛化。
提出配置不变预训练 (Configuration-Invariant Pretraining) 方法：为了解决机器人手在不同关节配置（如张开手与抓取手）之间局部几何特征不对齐的问题，本文提出了一种带有对比学习 (contrastive learning) 的配置不变预训练方法。该方法学习了机器人手在不同配置下的内在对齐，有助于生成有效的抓取并实现跨实体特征对齐。
在模拟和真实世界中进行广泛实验验证：通过在模拟环境和真实世界设置中进行大量实验，验证了所提出的表示和框架的有效性。结果显示，该方法在成功率、抓取多样性和计算效率方面均取得了显著提升，并在多种灵巧机器人手上（Barrett, Allegro, ShadowHand, LeapHand）展示了强大的泛化能力。在模拟中，平均成功率达到 87.53% 且在不到一秒内完成抓取生成；在真实世界中，LeapHand 实验的平均成功率也达到了 89%。

3. 预备知识与相关工作

3.1. 基础概念

为了更好地理解本文提出的 D(R,O) Grasp 框架，需要对以下基础概念有所了解：

灵巧抓取 (Dexterous Grasping)：指使用多指（通常为三指或更多）机器人手进行物体抓取的能力。与简单的两指夹持器不同，灵巧抓取可以实现更复杂、更精细的操作，但其自由度 (Degrees of Freedom, DoF) 高，控制难度也更大。
自由度 (Degrees of Freedom, DoF)：指机器人系统或其部件（如关节、连杆）可独立运动的参数数量。例如，一个机器人的腕部可能有 6 个自由度（3个平移和3个旋转），每个手指的关节也有其自身的自由度。
点云 (Point Cloud)：是三维空间中一组离散数据点的集合。每个点通常包含 X、Y、Z 坐标，有时还包括颜色、强度等信息。点云常用于表示物体的几何形状和表面信息，是三维感知系统（如深度相机）的直接输出。
URDF (Unified Robot Description Format)：统一机器人描述格式，是一种基于 XML 的文件格式，用于描述机器人的几何结构、运动学（连杆和关节关系）、动力学属性以及可视化外观。URDF 文件可以帮助机器人软件系统理解和控制机器人。
正向运动学 (Forward Kinematics, FK)：给定机器人所有关节的配置（角度或位移），计算机器人末端执行器或任何连杆在世界坐标系中的位置和姿态的过程。
逆运动学 (Inverse Kinematics, IK)：给定机器人末端执行器（如机器人手腕或指尖）在世界坐标系中的目标位置和姿态，计算出机器人所有关节需要达到的角度或位移的过程。对于高自由度机器人手，IK 往往是一个复杂的、非凸的优化问题。
条件变分自编码器 (Conditional Variational Autoencoder, CVAE)：是变分自编码器 (Variational Autoencoder, VAE) 的一个扩展。VAE 是一种生成模型，用于学习数据的潜在（隐式）表示，并能从潜在空间中采样生成新数据。CVAE 在此基础上引入了条件输入，允许模型根据给定的条件（如物体点云和机器人手点云的特征）生成目标输出（如 D(R,O) 矩阵），并且其潜在变量 (latent variable) 的采样可以用于生成多样化的结果。
对比学习 (Contrastive Learning)：是一种自监督学习方法。其核心思想是学习一个编码器，使得相似的样本（正样本对）在嵌入空间中彼此靠近，而不相似的样本（负样本对）彼此远离。在本文中，用于学习机器人手在不同配置（如张开手和抓取手）下点云特征的内在对齐。
多边定位 (Multilateration)：是一种基于距离测量的定位技术。它通过测量一个未知点到多个已知参考点之间的距离，来确定未知点在空间中的位置。在本文中，用于从预测的距离矩阵 D(R,O) 和物体点云中恢复机器人手的抓取点云。
6D 姿态 (6D Pose)：指物体在三维空间中的完整位置和方向。通常由三维平移向量（X、Y、Z 坐标）和三维旋转矩阵或四元数（表示物体绕 X、Y、Z 轴的旋转）组成。
有符号距离函数 (Signed Distance Function, SDF)：是一个数学函数，它给出空间中任意一点到物体表面最短距离，并根据点位于物体内部或外部赋予正负号。通常，物体内部为负值，外部为正值，表面为零。SDF 广泛用于碰撞检测和形状建模。
刚体配准 (Rigid Body Registration)：指将两个点云（或一组几何数据）进行对齐的过程，其中一个点云通过刚体变换（平移和旋转）来匹配另一个点云。SVD (Singular Value Decomposition，奇异值分解) 是一种常用的数学工具，可以高效地解决刚体配准问题。

3.2. 前人工作

本论文在灵巧抓取领域，尤其是学习型方法方面，构建于前人的工作之上。论文中提到的相关工作可以分为几类：

优化型抓取方法 (Optimization-based Methods)：
- [1]-[5] 是一系列通过优化来寻找可行抓取配置的方法。这些方法通常依赖于完整的物体几何信息，并可能需要显著的计算时间来优化，例如 DFC [2] 就是一个典型的优化方法。它们的特点往往是专注于指尖点接触，但本文提到其存在计算耗时且难以处理完整物体几何的问题。
学习型抓取生成方法 (Learning-based Grasp Generation Methods)：
- 机器人中心表示 (Robot-centric Representations)：
  - [6]-[8] 的方法利用机器人中心的表示，如腕部姿态和关节值，直接将观测映射到控制命令。例如，UniDexGrasp++ [8] 能够实现快速推理。然而，这类方法通常样本效率低，并且由于学习到的映射特定于训练数据，难以泛化到新的机器人设计或几何形状（即跨实体泛化能力差）。
- 物体中心表示 (Object-centric Representations)：
  - [9]-[15] 的方法依赖于物体中心的表示，例如接触点 [9]-[11] 或接触图 [12]-[15]。这些方法能够有效捕捉物体几何和接触信息，从而可以泛化到不同的形状和机器人。UniGrasp [9] 和 GenDexGrasp [12] 是这类方法的代表。然而，它们的缺点是通常需要一个额外的优化步骤（如求解指尖逆运动学或在无穿透和关节限制下拟合预测的接触图），才能将物体中心表示转换为可执行的机器人命令，这个过程通常耗时且复杂 [16]。
学习机器人手特征 (Learning Robotic Hand Features)：
- 为了实现跨实体抓取，模型需要理解机器人手的描述。UniGrasp [9] 通过自动编码器将机器人手转换为点云后学习嵌入空间。AdaGrasp [18] 使用 3D TSDF (Truncated Signed Distance Function) 体积 [24] 来编码机器人手。ManiFM [13] 和 GeoMatch [10] 则通过直接输入点云表示来编码机器人手。这些方法大多依赖于特定的机器人手配置。

3.3. 技术演进

灵巧抓取的技术演进大致经历了从传统的基于物理模型和几何优化的方法，到近年来基于深度学习的数据驱动方法的转变。

早期优化方法：最初，研究主要集中在通过力闭合 (force closure) 等物理准则来优化抓取姿态，依赖于精确的物体 CAD 模型和复杂的数学规划。这些方法通常计算成本高昂，且难以应对不确定性。
向数据驱动转型：随着深度学习的兴起，研究者开始利用大量抓取数据来训练模型，直接学习从视觉输入到抓取输出的映射。这大大提高了抓取生成的效率和对复杂几何的适应性。
表示方法的探索：在数据驱动方法中，关键在于如何有效地表示抓取信息。早期有直接预测机器人关节值或腕部姿态的机器人中心方法，它们速度快但泛化性差。随后出现了预测物体表面接触点、接触区域或接触热图的物体中心方法，这类方法泛化性更强，但通常需要耗时的逆运动学或后处理优化。
跨实体与鲁棒性需求：随着机器人应用场景的多样化，对模型能够泛化到不同机器人手、不同物体和不完整观测（如部分点云）的需求日益增长。这促使研究者探索更通用的特征学习方法，例如学习机器人手的嵌入表示。

本文的工作 D(R,O) Grasp 正是处于这一技术脉络中，旨在解决现有机器人中心和物体中心方法在泛化性、效率和鲁棒性上的不足。

3.4. 差异化分析

D(R,O) Grasp 与相关工作的主要区别和创新点体现在以下几个方面：

统一的交互中心表示 D(R,O)：
- 传统方法：大多采用机器人中心（直接预测关节值）或物体中心（预测接触点/图）的表示。
- 本文创新：D(R,O) 是一种点到点距离矩阵，它直接编码了机器人手在抓取姿态与物体之间的相对距离关系。这种“交互中心”的表示方式巧妙地结合了两者的优势，既包含了机器人手的运动学信息，又捕捉了物体几何特征，从而实现更强的泛化能力。
配置不变预训练 (Configuration-Invariant Pretraining)：
- 传统方法：通常依赖于特定机器人手的配置来学习特征，这限制了模型在不同手部配置（如张开手与抓取手）之间的泛化。
- 本文创新：通过对比学习，使机器人编码器能够学习到手部在不同配置下的内在对齐关系。这意味着模型能够理解即使手部姿态发生显著变化，手部各个部位之间的逻辑对应关系仍然不变，这大大增强了模型的跨实体泛化能力和对不同抓取姿态的适应性。
高效的抓取生成流程：
- 传统物体中心方法：通常需要复杂且耗时的逆运动学 (IK) 或其他优化步骤来将物体中心表示转换为机器人命令。
- 本文创新：从预测的 D(R,O) 矩阵中，通过多边定位 (multilateration) 方法高效地恢复机器人手的抓取点云，然后使用简单的 SVD (Singular Value Decomposition) 进行刚体配准，计算各连杆的 6D 姿态，最后通过一个高效的优化问题求解关节值。整个过程是矩阵化的，可微且速度快，实现了亚秒级的抓取生成。
对多样化和部分观测的鲁棒性：
- 传统方法：生成多样化抓取有时需要复杂的采样策略，对部分物体点云的鲁棒性也较差。
- 本文创新：通过条件变分自编码器 (CVAE) 的潜在变量采样机制，能够自然地生成多样化的抓取。同时，D(R,O) 的相对距离特性使得模型即使面对不完整的物体点云输入（如深度相机产生的局部观测）也能保持良好的性能。
综合性能优势：
- 本文方法在模拟和真实世界实验中，在成功率、抓取多样性和推理速度方面均显著优于现有的优化方法（如 DFC）和学习型方法（如 GenDexGrasp）。

4. 方法论

本文提出的 D(R,O) Grasp 框架旨在生成通用且多样化的灵巧抓取姿态，能够泛化到各种物体和机器人手。其核心思想是建模机器人手在抓取姿态下与物体之间的点到点距离关系。整个方法包括三个主要阶段：配置不变预训练机器人编码器、D(R,O) 矩阵预测，以及从 D(R,O) 矩阵生成抓取配置。

4.1. 方法原理

D(R,O) Grasp 的核心思想是学习一个统一的表示 D(R,O)，它直接编码了机器人手（ $R$ ）在抓取姿态下与物体（ $O$ ）之间的点到点相对距离。这种“交互中心”的表示避免了传统方法中直接预测高维关节值或复杂的物体接触图带来的限制。通过将抓取问题分解为两个更简单的子问题——手部自身关节配置的对齐和腕部姿态的估计——并利用配置不变预训练来解决前者，模型能够更有效地泛化。一旦预测出 D(R,O) 矩阵，就可以利用多边定位 (multilateration) 方法高效地恢复机器人手的抓取点云，进而计算各连杆的 6D 姿态，最终通过一个简单的优化步骤确定关节值。整个过程是可微的，并保证了高效和鲁棒性。

4.2. 核心方法详解

下图（原文 Figure 2）提供了 D(R,O) 框架的概览：

$Fig. 2: Overview of $\\mathcal { D } ( \\mathcal { R } , \\mathcal { O } )$ framework: We first pretrain the robot encoder with the proposed configuration-invariant pretraining method. Then, we predict the $\\mathcal { D } ( \\mathcal { R } , \\mathcal { O } )$ representation between the robot and object point cloud. Finally, we extract joint values from the $\\mathcal { D } ( \\mathcal { R } , \\mathcal { O } )$ representation.$ 该图像是 ext{D(R,O)} 框架的示意图，展示了预训练、预测和执行三个阶段。左侧描述了通过点级对比学习进行预训练的过程，右侧则展示了如何从机器人和对象的描述中预测交互表示 D(R, O)，最终提取关节值以实现高效的抓取。

图 2: D(R,O) 框架概览：我们首先使用提出的配置不变预训练方法预训练机器人编码器。然后，我们预测机器人和物体点云之间的 D(R,O) 表示。最后，我们从 D(R,O) 表示中提取关节值。

4.2.1. 配置不变预训练 (Configuration-Invariant Pretraining)

灵巧抓取需要理解机器人手与物体之间的空间关系，目标是使机器人手以特定配置与物体匹配。然而，由于手部关节运动导致的显著变化，张开手 (open-hand) 配置中一个点的局部几何特征可能与抓取配置 (grasp configuration) 中的不一致。为了解决这个问题，本文将问题分解为两个更简单的组成部分：(1) 自关节运动匹配 (self-articulation matching)，它隐式地确定抓取配置的关节值；(2) 腕部姿态估计 (wrist pose estimation)。

如下图（原文 Figure 3）所示，利用配置不变预训练，本文训练神经网络来理解不同配置之间的自关节运动对齐，从而促进机器人手与物体之间的匹配过程。

Fig. 3: Motivation for configuration-invariant pretraining. 该图像是示意图，展示了有无配置不变预训练对非刚性匹配和刚性匹配的影响。左侧为未进行配置不变预训练的情形，右侧则展示了进行配置不变预训练后更易实现刚性匹配。

图 3: 配置不变预训练的动机。

具体来说，为了在张开手和闭合手配置之间建立对应关系，本文从数据集中随机采样一个成功的抓取 $q_A$ ，并计算对应的规范配置 (canonical configuration) $q_B$ ，使其具有相似的腕部姿态。为了使点云具有相同的点序，本文对每个连杆的表面 $\{ \mathbf{P}_{\ell_i} \}_{i=1}^{N_\ell}$ 均匀采样点，其中 $N_\ell$ 是连杆的数量。定义一个点云正向运动学 (point cloud forward kinematics) 模型 $\mathrm{FK}\left(q, \{ \mathbf{P}_{\ell_i} \}_{i=1}^{N_\ell}\right)$ 将关节配置映射到点云。使用此模型，得到两个点云 $\mathbf{P}^A, \mathbf{P}^B \in \mathbb{R}^{N_\mathcal{R} \times 3}$ ，它们分别代表这两个关节配置。这里， $N_\mathcal{R}$ 是机器人点云中的点数，实践中设置为 512。

这些点云通过编码器网络（在 4.2.2 节中描述）产生点级特征 $\phi^\mathcal{A}, \phi^\mathcal{B} \in \mathbb{R}^{N_\mathcal{R} \times D}$ ，其中 $D = 512$ 是特征维度。模型应用点级对比学习 (point-level contrastive learning)，对正样本对（两个点云中相同索引的点）的嵌入进行对齐，同时分离负样本对，负样本对的权重由它们在 $\mathbf{P}^B$ 中的欧氏距离加权。这个过程确保了机器人手上相同位置的特征在不同关节配置之间保持一致。本文将由此产生的对比损失定义为： $\begin{array}{c} \begin{array} { r l } & { { \mathcal { L } _ { p } } = - \displaystyle \frac { 1 } { N _ { \ell } } \sum _ { i } \log [ \frac { \exp \big ( \phi _ { i } ^ { A } , \phi _ { i } ^ { B } / \tau \big ) } { \sum _ { j } \omega _ { i j } \exp \big ( \phi _ { i } ^ { A } , \phi _ { j } ^ { B } / \tau \big ) } ] , } \\ & { \omega _ { i j } = \{ \frac { \operatorname { t a n h } \big ( \lambda \| p _ { i } ^ { B } - p _ { j } ^ { B } \| _ { 2 } \big ) } { \operatorname* { m a x } \big ( \operatorname { t a n h } \big ( \lambda \| p _ { i } ^ { B } - p _ { j } ^ { B } \| _ { 2 } \big ) \big ) } , \quad \mathrm { i f ~ } i\neq j , } \\ & { \quad \quad \quad \quad \quad \quad \quad \quad \quad \quad \quad \quad \quad \quad \mathrm { i f ~ } i = j } \end{array} , \end{array}$ 其中， $\langle \cdot , \cdot \rangle$ 表示两个向量的余弦相似度 (cosine similarity)， $p _ { i } ^ { B }$ 代表 $\mathbf{P}^B$ 中第 $i$ 个点的位置。对于超参数 (hyperparameters)，实践中设置 $\tau = 0.1$ 和 $\lambda = 10$ 。

4.2.2. $\mathcal{D(R,O)}$ 预测 (Prediction)

给定腕部姿态（可以随机采样或用户指定），得到一个张开手配置 $q_{\mathrm{init}}$ 。机器人点云在 $q_{\mathrm{init}}$ 下为 $\mathbf{P}^\mathcal{R} = \mathrm{FK}\left(q_{\mathrm{init}}, \{ \mathbf{P}_{\ell_i} \}_{i=1}^{N_\ell}\right) \in \mathbb{R}^{\hat{N}_\mathcal{R} \times 3}$ ，物体点云为 $\mathbf{P}^\mathcal{O} \in \mathbb{R}^{N_\mathcal{O} \times 3}$ ，其中点数 $N_\mathcal{O}$ 在实践中也设置为 512。神经网络的目标是预测点到点距离矩阵 $\mathcal{D(R,O)} \in \mathbb{R}^{N_\mathcal{R} \times N_\mathcal{O}}$ ，其中两个点云共享相同的原点。

点云特征提取 (Point Cloud Feature Extraction) 首先，使用两个编码器 $f_{\theta_\mathcal{R}}(\mathbf{P}^\mathcal{R})$ 和 $f_{\theta_\mathcal{O}}(\mathbf{P}^\mathcal{O})$ 提取点云嵌入，这两个编码器共享相同的架构。具体来说，本文使用修改后的 DGCNN [25] 以更好地捕获局部结构并整合全局信息。机器人编码器使用 4.2.1 节中描述的方法预训练的参数进行初始化，并在训练过程中保持冻结。这些编码器从机器人和物体点云中提取点级特征 $\phi^\mathcal{R}$ 和 $\phi^\mathcal{O}$ ： $\begin{array} { r } { \phi ^ { \mathcal { R } } = f _ { \theta _ { \mathcal { R } } } ( \mathbf { P } ^ { \mathcal { R } } ) \in \mathbb { R } ^ { N _ { \mathcal { R } } \times D } , } \\ { \phi ^ { \mathcal { O } } = f _ { \theta _ { \mathcal { O } } } ( \mathbf { P } ^ { \mathcal { O } } ) \in \mathbb { R } ^ { N _ { \mathcal { O } } \times D } . } \end{array}$ 为了建立机器人和物体特征之间的对应关系，本文应用了两个多头交叉注意力 Transformer (multi-head cross-attention transformers) [26]， $g_{\theta_\mathcal{R}}(\phi^\mathcal{R}, \phi^\mathcal{O})$ 和 $g_{\theta_\mathcal{O}}(\phi^\mathcal{O}, \phi^\mathcal{R})$ 。这些 Transformer 整合了两个特征集之间的关系，嵌入了对应信息。这个过程将机器人和物体特征映射到两组相关联的特征 $\psi^\mathcal{R}$ 和 $\psi^\mathcal{O}$ ： $\begin{array} { r } { \psi ^ { \mathcal { R } } = g _ { \theta _ { \mathcal { R } } } ( \phi ^ { \mathcal { R } } , \phi ^ { \mathcal { O } } ) + \phi ^ { \mathcal { R } } \in \mathbb { R } ^ { N _ { \mathcal { R } } \times D } , } \\ { \psi ^ { \mathcal { O } } = g _ { \theta _ { \mathcal { O } } } ( \phi ^ { \mathcal { O } } , \phi ^ { \mathcal { R } } ) + \phi ^ { \mathcal { O } } \in \mathbb { R } ^ { N _ { \mathcal { O } } \times D } . } \end{array}$
基于 CVAE 的 $\mathcal{D(R,O)}$ 预测 (CVAE-based $\mathcal{D(R,O)}$ Prediction) 为了实现跨实体抓取多样性，本文采用条件变分自编码器 (Conditional Variational Autoencoder, CVAE) [27] 网络来捕捉手、物体和抓取配置众多组合中的变异性。CVAE 编码器 $f_{\theta_\mathcal{G}}$ 以抓取姿态下的机器人和物体点云 $\mathbf{P}^\mathcal{G} \in \mathbb{R}^{(N_\mathcal{R} + N_\mathcal{O}) \times 3}$ ，以及学习到的特征 $(\psi^\mathcal{R}, \psi^\mathcal{O})$ 为输入，输入形状为 $(N_\mathcal{R} + N_\mathcal{O}) \times (3 + D)$ 。编码器输出潜在变量 $z \in \mathbb{R}^d$ ，实践中设置为 $d=64$ 。将 $z$ 与提取的特征 $\psi^\mathcal{R}$ 和 $\psi^\mathcal{O}$ 拼接，将特征转换为 $\hat{\psi}_i^\mathcal{R}, \widehat{\psi}_j^\mathcal{O} \in \mathbb{R}^{N_\mathcal{O} \times (D+d)}$ 。

采用与 [28] 相同的核函数 $\mathcal{K}$ ，该函数具有非负性和对称性，用于预测抓取姿态下点对之间的距离 $r_{ij} = \mathcal{K}(\hat{\psi}_i^\mathcal{R}, \hat{\psi}_j^\mathcal{O}) \in \mathbb{R}^+$ ： $\mathcal { K } ( \widehat { \psi } _ { i } ^ { \mathcal { R } } , \widehat { \psi } _ { j } ^ { \mathcal { O } } ) = \sigma \left( \frac { 1 } { 2 } \mathcal { N } _ { \theta } \left( \widehat { \psi } _ { i } ^ { \mathcal { R } } , \widehat { \psi } _ { j } ^ { \mathcal { O } } \right) + \frac { 1 } { 2 } \mathcal { N } _ { \theta } \left( \widehat { \psi } _ { j } ^ { \mathcal { O } } , \widehat { \psi } _ { i } ^ { \mathcal { R } } \right) \right) ,$ 其中 $\sigma$ 表示 softplus 函数， $\mathcal{N}_\theta$ 是一个多层感知机 (MLP)，它接收 $\mathbb{R}^{N_\mathcal{O} \times (2D+2d)}$ 的特征并输出一个正数。通过计算所有 $(\hat{\psi}_i^\mathcal{R}, \hat{\psi}_j^\mathcal{O})$ 对，获得完整的 D(R,O) 表示： $\mathcal { D } ( \mathcal { R } , \mathcal { O } ) = \left[ \begin{array} { c c c } { \mathcal { K } ( \widehat { \psi } _ { 1 } ^ { \mathcal { R } } , \widehat { \psi } _ { 1 } ^ { \mathcal { O } } ) } & { \cdots } & { \mathcal { K } ( \widehat { \psi } _ { 1 } ^ { \mathcal { R } } , \widehat { \psi } _ { N _ { \mathcal { O } } } ^ { \mathcal { O } } ) } \\ { \vdots } & { \ddots } & { \vdots } \\ { \mathcal { K } ( \widehat { \psi } _ { N _ { \mathcal { R } } } ^ { \mathcal { R } } , \widehat { \psi } _ { 1 } ^ { \mathcal { O } } ) } & { \cdots } & { \mathcal { K } ( \widehat { \psi } _ { N _ { \mathcal { R } } } ^ { \mathcal { R } } , \widehat { \psi } _ { N _ { \mathcal { O } } } ^ { \mathcal { O } } ) } \end{array} \right] .$

4.2.3. 从 $\mathcal{D(R,O)}$ 生成抓取配置 (Grasp Configuration Generation from $\mathcal{D(R,O)}$ )

给定预测的 D(R,O) 矩阵，本节讨论如何生成抓取关节值以抓取物体。首先计算机器人抓取点云，然后根据关节云估计每个连杆的 6D 姿态。系统通过匹配每个连杆的 6D 姿态来计算关节值。

机器人抓取姿态点云生成 (Robotic Grasp Pose Point Cloud Generation) 对于给定的点 $p_i^\mathcal{R}$ ，D(R,O) 的第 $i$ 行表示该机器人抓取点到物体点云中所有点的距离。给定物体点云，多边定位 (multilateration) 方法 [17] 定位机器人点云。这种定位技术通过求解基于多个参考点距离的最小二乘优化问题来确定点 $p_i^{\prime\mathcal{R}}$ 的位置： $p _ { i } ^ { \prime \mathcal { R } } = \underset { p _ { i } ^ { \mathcal { R } } } { \arg \operatorname* { m i n } } \sum _ { j = 1 } ^ { N _ { \mathcal { O } } } \left( \| p _ { i } ^ { \mathcal { R } } - p _ { j } ^ { \mathcal { O } } \| _ { 2 } ^ { 2 } - \mathcal { D } ( \mathcal { R } , \mathcal { O } ) _ { i j } ^ { 2 } \right) ^ { 2 } .$ 正如 [29] 所示，这个问题有一个闭式解 (closed-form solution)，并且通过使用 [28] 的实现，可以直接计算 $p_i^{\prime\mathcal{R}}$ 。对 D(R,O) 的每一行重复此过程，即可得到抓取姿态下的完整预测机器人点云 $\mathbf{P}^\mathcal{P}$ 。在 3D 空间中，可以通过测量一个点到其他仅 4 个点的相对距离来确定其位置。本文的 D(R,O) 表示提供了 $N_\mathcal{O} (=512)$ 个相对距离，从而增强了对预测误差的鲁棒性。
连杆 6D 姿态估计 (6D Pose Estimation of Links) 直接从点云中求解逆运动学并获取关节值并非易事。首先计算世界坐标系中每个连杆的 6D 姿态。如 3.2 节所述，存储了每个连杆的点云 $\{ \mathbf{P}_{\ell_i} \}_{i=1}^{N_\ell}$ 。给定预测的抓取点云 $\mathbf{P}^\mathcal{P}$ ，使用刚体配准 (rigid body registration) 技术计算每个连杆的 6D 姿态： $\pmb { \mathcal { T } } ^ { \ast } = ( \mathbf { x } _ { i } ^ { \ast } , \mathbf { R } _ { i } ^ { \ast } ) = \underset { ( \mathbf { x } _ { i } , \mathbf { R } _ { i } ) } { \arg \operatorname* { m i n } } \| \mathbf { P } _ { \ell _ { i } } ^ { \mathcal { P } } - \mathbf { P } _ { \ell _ { i } } ( \mathbf { x } _ { i } , \mathbf { R } _ { i } ) \| ^ { 2 } ,$ 其中 $\mathbf{x}_i$ 和 $\mathbf{R}_i$ 分别表示第 $i$ 个连杆的平移和旋转。这个计算可以通过奇异值分解 (Singular Value Decomposition, SVD) 直接执行。
关节配置优化 (Joint Configuration Optimization) 在预测了每个连杆的 6D 姿态后，目标是优化关节值，以使每个连杆的平移与预测结果对齐。在推理阶段，使用 $q_{\mathrm{init}}$ 进行初始化，并通过使用 CVXPY [30] 对以下优化问题进行迭代细化： $\begin{array} { l } { { \displaystyle \operatorname* { m i n } _ { \delta { \pmb q } } \left( \sum _ { i = 1 } ^ { N _ { \ell } } \left\| { \bf x } _ { i } + \frac { \partial { \bf x } _ { i } ( { \pmb q } ) } { \partial { \pmb q } } \delta { \pmb q } - { \bf x } _ { i } ^ { * } \right\| _ { 2 } \right) } , } \\ { \mathrm { s . t . } ~ { \pmb q } + \delta { \pmb q } \in [ { \pmb q } _ { m i n } , { \pmb q } _ { m a x } ] , ~ | \delta { \pmb q } | \leq \varepsilon _ { q } . } \end{array}$ 在每次迭代中，系统通过最小化目标函数计算增量关节值 $\delta \pmb q$ ，并更新关节值 ${ \pmb q } \leftarrow { \pmb q } + \delta { \pmb q }$ 。这里， $\mathbf{x}_i$ 表示当前连杆平移， $[q_{min}, q_{max}]$ 表示关节限制， $\varepsilon_q = 0.5$ 是最大允许步长。优化过程可以高效地并行化，即使对于 22 个自由度的 ShadowHand，也能在不到一秒内稳定收敛。

4.2.4. 损失函数 (Loss Function)

从 D(R,O) 表示到 6D 姿态 $\mathcal{T}^*$ 的计算（如公式 10 所示）是完全基于矩阵的，确保了损失反向传播的可微性和计算效率。

整个网络的训练目标包括四个部分：D(R,O) 预测、6D 姿态 $\mathcal{T}$ 预测、穿透抑制以及 CVAE 潜在变量的 KL 散度（在 4.2.2 节中描述）： $\begin{array} { r l } & { \mathcal { L } = \lambda _ { \mathcal { D } } \mathcal { L } _ { \mathrm { L1 } } \left( \mathcal { D } ( \mathcal { R } , \mathcal { O } ) , \mathcal { D } ( \mathcal { R } , \mathcal { O } ) ^ { \mathrm { G T } } \right) } \\ & { \quad + \lambda _ { \tau } \frac { 1 } { N _ { \ell } } \underset { i = 1 } { \overset { N _ { \ell } } { \sum } } \mathcal { L } _ { \ell _ { i } } + \lambda _ { \mathcal { P } } \left| \mathcal { L } _ { \mathrm { P } } ( \mathbf { P } ^ { \mathcal { T } } , \mathbf { P } ^ { \mathcal { O } } ) \right| } \\ & { \quad + \lambda _ { K L } \mathcal { D } _ { K L } \left( f _ { \theta _ { \mathcal { G } } } ( \mathbf { P } ^ { \mathcal { G } } , \psi ^ { \mathcal { R } } , \psi ^ { \mathcal { O } } ) \ \| \ \mathcal { N } ( 0 , I ) \right) , } \end{array}$ 其中 $\lambda _ { \mathcal { D } } , \ \lambda _ { \tau } , \ \lambda _ { \mathcal { P } } , \ \lambda _ { K L }$ 是损失权重的超参数。上标 "GT" 指真实标注数据 (Ground Truth) 注释。 $\mathcal{N}(0, I)$ 是一个标准高斯分布， $\mathbf{P}^\mathcal{T}$ 是在 $\mathcal{T}^*$ 下的机器人点云。 $\mathcal{L}_\mathrm{P}$ 计算 $\mathbf{P}^\mathcal{T}$ 到 $\mathbf{P}^\mathcal{O}$ 的有符号距离函数 (SDF) 的负值之和，以惩罚机器人手与物体之间的任何穿透。 $\mathcal{L}_{\ell_i}$ 计算两个 6D 姿态之间的差异： $\mathcal { L } _ { \ell _ { i } } = \| \mathbf { x } _ { i } ^ { * } - \mathbf { x } _ { i } ^ { \mathbf { G T } } \| _ { 2 } + \operatorname { a r c c o s } \left( \frac { \mathrm { t r } ( \mathbf { R } _ { i } ^ { * ^ { \mathrm { T } } } \mathbf { R } _ { i } ^ { \mathbf { G T } } ) - 1 } { 2 } \right) .$ 其中 $\| \mathbf{x}_i^* - \mathbf{x}_i^{\mathbf{GT}} \|_2$ 是平移误差的 L2 范数， $\operatorname{arccos}\left(\frac{\mathrm{tr}(\mathbf{R}_i^{*^\mathrm{T}}\mathbf{R}_i^{\mathbf{GT}}) - 1}{2}\right)$ 是旋转误差（通过旋转矩阵的迹 (trace) 计算）。

5. 实验设置

本节详细介绍了用于评估 D(R,O) Grasp 方法的实验设置，包括评估指标、数据集和对比基线。

5.1. 数据集

本文使用了 CMapDataset [12] 的一个子集（具体过滤过程见附录 D.2）。经过过滤后，保留了 24,764 个有效抓取。实验中使用了数据集中三种不同的机器人手：

Barrett Hand (3指)
Allegro Hand (4指)
ShadowHand (5指) 每个抓取都定义了其关联的物体、机器人和抓取配置。本文沿用了 CMapDataset 相同的数据集划分进行训练和测试。

真实世界实验数据集 (Real-World Experiment Dataset)：对于真实世界的 LeapHand 实验，作者团队独立收集了一个数据集。

物体来源：从 YCB dataset [33] 和 ContactDB [34] 中选择了 78 个日常物体。
抓取生成：使用 DFC-based [2] 的抓取优化方法 [35] 为每个物体生成 1,000 个抓取，共计 78,000 个抓取。
数据集过滤：经过过滤过程后，获得了 24,656 个抓取，涵盖 73 个物体。
训练流程：编码器网络首先在原始数据集上进行预训练，然后整个模型在过滤后的数据集上进行训练。

5.2. 评估指标

为了全面评估 D(R,O) Grasp 的性能，论文采用了以下三个关键指标：

成功率 (Success Rate)
- 概念定义：衡量机器人执行抓取后，物体是否能稳定地被握持，即使受到外部扰动也能保持在原位。这代表了抓取的质量和稳定性。
- 数学公式：论文中没有直接给出成功率的数学公式，而是描述了其评估流程。
  - 在 Isaac Gym 模拟器 [31] 中进行评估。
  - 抓取阶段：首先，使用启发式抓取控制器 (heuristic grasp controller) 计算 $q_{\mathrm{outer}}$ 和 $q_{\mathrm{inner}}$ （分别代表离物体质心较远和较近的配置）。将机器人关节位置设置为 $q_{\mathrm{outer}}$ ，目标位置设为 $q_{\mathrm{inner}}$ ，然后模拟 1 秒（相当于 100 个模拟步），让手闭合并抓取。
  - 扰动阶段：随后，按照 [12] 的方法，沿六个正交方向依次施加扰动力，每个方向持续 1 秒。这些力定义为： $F _ { \pm x y z } = 0 . 5 m / s ^ { 2 } \times m _ { \mathrm { o b j e c t } }$
  - 成功判据：如果物体在所有六个方向力施加后，其最终的合位移 (resultant displacement) 仍保持在 $2 \mathrm{cm}$ 以下，则认为抓取成功。此外，原文提到成功抓取的平均位移小于 2mm，平均旋转小于 $1^\circ$ ，进一步强调了抓取的牢固性。
- 符号解释：
  - $m / s ^ { 2 }$ ：加速度单位，代表 $0.5 \mathrm{m/s}^2$ 的加速度。
  - $m _ { \mathrm { o b j e c t } }$ ：物体的质量。
  - $F _ { \pm x y z }$ ：沿 $\pm X, \pm Y, \pm Z$ 六个方向施加的扰动力。
  - $q_{\mathrm{outer}}$ ：机器人手部关节配置，使得手部位置相对于物体质心较远。
  - $q_{\mathrm{inner}}$ ：机器人手部关节配置，使得手部位置相对于物体质心较近。
  - 位移阈值 $2 \mathrm{cm}$ ：判断抓取成功与否的位移上限。
  - 旋转阈值 $1^\circ$ ：在更精细的评估中，判断抓取成功的旋转角度上限。
多样性 (Diversity)
- 概念定义：衡量模型能够生成不同抓取姿态的范围。一个高多样性的模型可以在给定物体的情况下，提供多种可行的抓取方案，这对于复杂操作任务非常重要。
- 数学公式：论文将抓取多样性量化为所有成功抓取的关节值（包括 6 个浮动腕部自由度）的标准差。假设 $N_{grasps}$ 为成功抓取的数量，每个抓取对应的关节值向量为 $q_k$ （包含腕部 6 个 DoF），则多样性可近似表示为： $\mathrm{Diversity} = \sqrt{\frac{1}{N_{grasps}-1} \sum_{k=1}^{N_{grasps}} (q_k - \bar{q})^2}$
- 符号解释：
  - $N_{grasps}$ ：成功抓取的总数量。
  - $q_k$ ：第 $k$ 个成功抓取的关节值向量（包括机器人手的所有关节角度和腕部的 6 个自由度）。
  - $\bar{q}$ ：所有成功抓取关节值向量的平均值。
效率 (Efficiency)
- 概念定义：衡量从输入到生成最终抓取所需的时间。在实际应用中，快速生成抓取是提高机器人操作效率的关键。
- 数学公式：论文以秒 (sec.) 为单位来衡量计算时间，包括网络推理和后续的优化步骤。

5.3. 对比基线

为了全面评估 D(R,O) Grasp 的性能，本文与以下几种代表性的灵巧抓取方法进行了比较：

DFC [2] (Differentiable Force Closure Estimator)：
- 类型：基于优化的方法。它通过迭代优化来搜索可行的抓取配置，旨在满足力闭合条件。
- 代表性：作为一个纯优化方法，DFC 代表了非学习型抓取生成的一种基准。
- 挑战：其生成抓取的速度非常慢，计算成本高。论文中提到，由于其计算耗时，因此直接使用 CMapDataset 原始数据进行评估，该数据集本身主要由 DFC 方法生成，并经过了过滤，这意味着评估结果可能优于 DFC 的实际性能。
GenDexGrasp [12] (Generalizable Dexterous Grasping)：
- 类型：基于学习的物体中心方法。它预测物体表面的接触热图 (contact heatmaps)，然后通过一个优化过程将这些热图转换为实际的抓取姿态。
- 代表性：代表了当前学习型抓取方法中物体中心表示的一种先进范式，旨在实现通用性。
- 挑战：由于其复杂的优化过程，每个抓取生成所需时间较长。
ManiFM [13] (Mani Foundation Model)：
- 类型：基于学习的物体中心方法。它是一个基础模型，通过接触合成来支持通用机器人操作，包括跨实体抓取。
- 代表性：代表了近年来“基础模型”思想在机器人操作中的应用，并且支持跨实体抓取。
- 挑战：本文指出 ManiFM 主要采用点接触 (point-contact) 方法，与本论文强调的表面接触方法有所不同。由于其缺乏 Barrett 和 ShadowHand 的预训练模型，因此仅能在 Allegro 手上进行评估。虽然其生成的抓取在视觉上吸引人，但点接触固有的不稳定性可能导致模拟中的成功率较低。
  
  这些基线方法涵盖了灵巧抓取领域的不同范式，包括优化方法和两种主要的学习型方法（机器人中心和物体中心），从而能够全面地评估 D(R,O) Grasp 在成功率、多样性和效率方面的优势。

6. 实验结果与分析

本节将详细分析 D(R,O) Grasp 在模拟和真实世界环境中的实验结果，回答论文提出的七个研究问题 (Q1-Q7)。

6.1. 核心结果分析

6.1.1. Q1: 生成抓取的成功率如何？ (How successful are our generated grasps?)

以下是原文 Table II 的结果，展示了与基线的整体比较：

Method	Success Rate (%) ↑				Diversity (rad.) ↑			Efficiency (sec.) ↓
Method	Barrett	Allegro	ShadowHand	Avg.	Barrett	Allegro	ShadowHand	Barrett	Allegro	ShadowHand
DFC [2]	86.30	76.21	58.80	73.77	0.532	0.454	0.435	>1800	>1800	>1800
GenDexGrasp [12]	67.00	51.00	54.20	57.40	0.488	0.389	0.318	14.67	25.10	19.34
ManiFM [13]	-	42.60	-	42.60	-	0.288	-	-	9.07	-
DRO-Grasp (w/o pretrain)	87.20	82.70	46.70	72.20	0.532	0.448	0.429	0.49	0.47	0.98
DRO-Grasp (Ours)	87.30	92.30	83.00	87.53	0.513	0.397	0.441	0.49	0.47	0.98

表 2: 与基线的整体比较。

实验结果表明，D(R,O) Grasp 在成功率方面显著优于所有基线方法。

平均成功率：本文方法 DRO-Grasp (Ours) 在三种机器人手上的平均成功率为 87.53%，远高于 DFC (73.77%)、GenDexGrasp (57.40%) 和 ManiFM (42.60%)。
具体机器人手：在 Allegro Hand 上表现尤为突出，成功率达到 92.30%，在 ShadowHand 上也达到 83.00%，显著超越所有基线。
抓取牢固性：对于成功抓取，物体平均位移保持在 2mm 以下，平均旋转小于 $1^\circ$ ，这强调了生成抓取的牢固性。

下图（原文 Figure 4）可视化了本文方法生成的抓取姿态以及现有方法的典型失败案例：

该图像是一个插图，展示了生成的抓取姿态，与现有方法的典型失败案例进行了对比。左侧展示了多种物体的抓取示例，而右侧则展示了不同算法（DFC、GenDexGrasp和ManiFM）生成的抓取姿态。

图 4: 生成抓取的可视化，与现有方法的典型失败案例进行了对比。

DFC：经常产生不自然的抓取姿态。
GenDexGrasp：在复杂形状物体上表现不佳，常出现显著的穿透问题。
ManiFM：虽然视觉效果好，但其点接触方法缺乏稳定性，导致模拟成功率较低。

6.1.2. Q2: 我们的统一模型在多实体上训练是否优于在单实体上训练的模型？ (Does our unified model train on multi-embodiment outperform models trained on single embodiments?)

以下是原文 Table III 的结果，展示了不同条件下的比较：

Method	Success Rate (%) ↑			Diversity (rad) ↑
Method	Barrett	Allegro	ShadowHand	Barrett	Allegro	ShadowHand
Single	84.80	88.70	75.80	0.505	0.435	0.425
Multi	87.30	92.30	83.00	0.513	0.397	0.441
Partial	84.70	87.60	81.80	0.511	0.401	0.412

表 3: 不同条件下的比较。"Single" 在单个手上训练，"Multi" 在所有手上训练，"Partial" 在部分点云上训练和测试。

从表 3 的前两行可以看出，在多机器人手（"Multi"）上训练比在单个手（"Single"）上训练能够略微提高成功率，例如 Allegro 的成功率从 88.70% 提高到 92.30%，ShadowHand 从 75.80% 提高到 83.00%。这证明了本文方法的跨实体泛化能力。

6.1.3. Q3: 生成抓取的多样性如何？ (How diverse are our generated grasps?)

抓取多样性：表 2 中的多样性指标 (Diversity) 显示，本文方法 (DRO-Grasp (Ours)) 在 Barrett (0.513 rad.) 和 ShadowHand (0.441 rad.) 上的多样性与 DFC 相当，在 Allegro (0.397 rad.) 上略低于 DFC，但总体具有竞争力。
可控性和多模式：抓取多样性包括腕部姿态和手指关节值两个方面。由于训练数据中输入和抓取旋转是对齐的，模型可以隐式学习这种映射。在推理时，模型能够根据指定的手掌方向生成适当的抓取。此外，通过从标准高斯分布 $\mathcal{N}(0, I)$ 中采样潜在变量 $z \in \mathbb{R}^{64}$ ，模型可以生成同一方向上的多个抓取，进一步增强了多样性。

下图（原文 Figure 5）展示了多样化且可控的抓取生成：

该图像是示意图，展示了多样化且可控的抓取生成。箭头表示输入的手掌朝向，箭头和手的颜色相同，代表对应的输入输出配对。

图 5: 多样化且可控的抓取生成。箭头表示输入的手掌朝向。相同颜色箭头和手代表对应的输入-输出配对。图 5 展示了模型对六个不同输入方向的抓取结果，证明了其能够始终生成可行的抓取，体现了方法的可控性。

6.1.4. Q4: 我们的预训练如何学习配置不变表示，以及能否跨不同实体进行转移？ (How well does our pretraining learn configuration-invariant representations, and can this be transferred across different embodiments?)

配置不变表示学习：如 4.2.1 节所述，本文提出的配置不变预训练方法学习了在不同机器人手配置之间的内在对齐。
可视化验证：下图（原文 Figure 6）可视化了学习到的对应关系，其中闭合手姿态中的每个点都根据其与张开手姿态中对应点的最高余弦相似度进行着色。

该图像是一个示意图，展示了不同机器人手（Barrett、Allegro、ShadowHand）及其跨手抓取能力的可视化结果。通过不同颜色和形状的点，表现了手部在抓取过程中与物体的预训练点匹配。

图 6: 预训练点匹配的可视化。

效果分析：
- 同一只手内部，颜色匹配度极高，表明预训练编码器成功捕捉了这种对齐关系。
- 不同机器人手之间也存在强烈的匹配，这突出显示了特征的可转移性 (transferability)。
消融实验验证：表 2 中 DRO-Grasp (w/o pretrain) 的结果显示，移除预训练参数并直接训练机器人编码器会导致所有机器人手的性能下降（平均成功率从 87.53% 降至 72.20%），这证实了预训练模型的有效性。

6.1.5. Q5: 我们的方法在部分物体点云输入下的鲁棒性如何？ (How robust is our approach with partial object point cloud input?)

真实世界挑战：深度相机获取的点云通常带有噪声且不完整。依赖完整物体可见性的物体中心方法在此条件下性能会下降。
D(R,O) 的优势：D(R,O) 的相对距离特征允许本文方法即使从部分观测中也能推断机器人点云，而无需依赖完整的物体可见性。
实验验证：在训练和评估中，通过移除 50% 的物体点云的连续区域来模拟不完整数据。
结果：表 3 中 "Partial" 行显示，即使在部分点云条件下，模型仍能成功预测可行抓取（平均成功率为 81.80%），这表明了在面对不完整输入时的鲁棒性。

下图（原文 Figure 9）展示了部分物体点云抓取示例：

该图像是多组机器人手的抓取示例，展示了部分对象点云的情况。红色点表示观察到的部分，突出显示了机器手与各种物体的交互效果。

图 9: 部分物体点云的抓取示例。红色点表示观察到的部分。

6.1.6. Q6: 我们的方法在真实世界环境中的表现如何？ (How does our method perform in real-world settings?)

实验设置：本文在真实机器人上进行了实验，使用了 uFactory xArm6 机器人，配备 LEAP Hand [32] 和一个 Realsense D435 深度相机。
结果：在 10 个未曾见过的物体上，本文方法实现了 89% 的平均成功率。这展示了 D(R,O) Grasp 在灵巧抓取方面的有效性以及对新物体的泛化能力。

下图（原文 Figure 7）展示了真实世界实验设置：

该图像是一个示意图，展示了用于真实环境实验的机器人手臂及其抓取对象。图中机器人手臂呈现出复杂的姿态，正在稳固地抓握一个盒子，周围背景为黑色幕布，突出实验环境的特征。

图 7: 真实世界实验设置。

下图（原文 Figure 8）展示了真实世界抓取演示：

Fig. 8: Real-world grasp demonstrations 该图像是图示，展示了机器人执行抓取任务的真实场景，包括多个物体（如苹果、袋子、刷子等）的抓取演示。每个图像都清晰地表现了机器人手臂如何与不同物体进行交互，展现了其抓取能力与适应性。

图 8: 真实世界抓取演示。

以下是原文 Table IV 的结果，展示了在未见过物体上的真实世界实验结果：

Apple	Bag	Brush	Cookie Box	Cube
9/10	10/10	9/10	10/10 Tea Box	9/10
Cup 7/10	Dinosaur 9/10	Duck 8/10	8/10	Toilet Cleaner 10/10

表 4: 在未见过物体上的真实世界实验结果。

6.1.7. Q7: 我们的方法能否泛化到新颖的机器人手？ (Can our method generalize to novel robot hands?)

以下是原文 Table V 的结果，展示了对新颖机器人手的泛化结果：

Training Robot	Success Rate (%) ↑
Training Robot	Allegro	Barrett ShadowHand
Allegro	(88.70)	83.60 1.10
Barrett	42.40	(84.80) 6.90
Shadowhand	56.90 83.70	(75.80)

表 5: 对新颖机器人手的泛化结果。

该实验在零样本 (zero-shot) 设置下进行，即模型在一种机器人手上训练，然后在其他机器人手上进行验证，而无需额外的训练。

高自由度到低自由度：从高自由度 (DoF) 的手（例如 ShadowHand）向低自由度的手（例如 Allegro 或 Barrett）转移时，模型能保持一定的性能。例如，在 ShadowHand 上训练的模型在 Allegro 上实现了 56.90% 的成功率。
低自由度到高自由度：相反，从低自由度的手向高自由度的手转移时，泛化能力会大幅下降。例如，在 Allegro 上训练的模型在 ShadowHand 上仅有 1.10% 的成功率。
假设解释：作者推测，高自由度手具有更复杂的配置空间，允许模型学习更广泛的关节运动不变匹配任务，这些任务在较简单的低自由度手任务上仍能表现良好。相反，低自由度手的配置空间相对简单，训练出的模型只能掌握简单的关节运动不变匹配任务，因此难以泛化到高自由度手更复杂的任务。

6.2. 效率分析

从表 2 的结果可以看出，D(R,O) Grasp 在效率方面取得了巨大提升：

亚秒级生成：本文方法能在 1 秒以内生成一个抓取（Barrett 0.49s, Allegro 0.47s, ShadowHand 0.98s）。
显著超越基线：相比之下，DFC 需要超过 1800 秒，GenDexGrasp 需要 14-25 秒，ManiFM 需要 9 秒。这种快速计算能力对于灵巧操作任务至关重要。

6.3. 消融实验/参数分析

配置不变预训练的重要性：
- 表 2 中 DRO-Grasp (w/o pretrain) 的结果（平均成功率 72.20%）与 DRO-Grasp (Ours)（平均成功率 87.53%）的对比，明确证实了配置不变预训练对模型性能的显著提升作用。尤其是在 ShadowHand 上，预训练使成功率从 46.70% 提升到 83.00%。
部分物体点云的鲁棒性：
- 表 3 中 "Partial" 行的结果（平均成功率 81.80%）与 "Multi" 行的结果（平均成功率 87.53%）对比，验证了模型在面对不完整物体点云输入时仍能保持良好的性能，显示了其鲁棒性。

6.4. 其他基线结果细节

GenDexGrasp [12]：
- 作者使用过滤后的抓取数据集重新训练了 GenDexGrasp 模型，并与开源的预训练模型进行了比较。
- 以下是原文 Table VI 的结果，展示了 GenDexGrasp 结果的比较：
  
  Method Success Rate (%) ↑
  
  Allegro Barrett ShadowHand Avg.
  
  pretrain 51.00 63.80 44.50 53.10
  
  train 51.00 67.00 54.20 57.40

Method	Success Rate (%) ↑
pretrain	51.00	63.80	44.50	53.10
train	51.00	67.00	54.20	57.40

表 6: GenDexGrasp 结果比较。结果表明，在作者过滤后的高质量数据集上训练的 GenDexGrasp 模型表现优于其开源的预训练模型，但仍然远低于本文方法的性能。

ManiFM [13]：由于缺少 Barrett 和 ShadowHand 的预训练模型，仅评估了 Allegro 手上的性能。尽管 ManiFM 生成的抓取在视觉上具有吸引力，但其点接触方法在模拟中实现高成功率面临挑战，这可能导致其表 2 中较低的成功率 (42.60%)。
GeoMatch [10]：虽然与本文方法有相似之处（基于关键点匹配的跨实体方法），但由于缺少预训练模型和数据格式细节，未能成功复现其结果，因此未包含在基线比较中。

7. 总结与思考

7.1. 结论总结

本文提出了 D(R,O) Grasp，一个用于灵巧抓取的新颖框架，通过引入 D(R,O) 这一交互中心表示，有效建模了机器人手与物体之间的本质交互。这一表示超越了传统的机器人中心和物体中心范式，实现了对多种机器人手和物体几何形状的鲁棒泛化。通过引入配置不变预训练方法，模型学习了不同手部配置之间的内在对齐，进一步提升了抓取生成的有效性和跨实体特征对齐能力。

在模拟和真实世界环境中的广泛实验验证了 D(R,O) Grasp 的优越性。它在成功率、抓取多样性和计算效率方面均取得了显著提升，并在 Barrett、Allegro、ShadowHand 和 LeapHand 等多种灵巧机器人手上展示了强大的适应性。模型能够在不到一秒的时间内生成高质量的抓取，并在真实世界实验中取得了 89% 的高成功率，即使面对部分物体点云输入也表现出良好的鲁棒性。

7.2. 局限性与未来工作

论文作者在结论中并未明确指出自身的局限性或未来工作方向。然而，基于对论文的深入分析，我们可以推断出一些潜在的局限性并提出未来的研究方向：

潜在局限性：

数据集依赖性：尽管模型实现了跨实体泛化，但其训练仍然依赖于大规模的、高质量的抓取数据集（如 CMapDataset 经过筛选的版本）。对于数据稀缺或难以生成抓取标注的新型机器人手或复杂物体，其性能可能受限。
潜在变量 $z$ 的可解释性：CVAE 的潜在变量 $z$ 能够生成多样化抓取，但其具体如何影响抓取姿态、接触点分布等可能缺乏直观的可解释性。这可能限制了对特定抓取偏好的精细控制。
环境复杂性：当前的实验主要集中在相对静态的桌面抓取场景，物体是独立的。对于更复杂的环境，如杂乱堆叠的物体、动态物体、或者需要与环境进行复杂交互（如开门、拧螺丝）的任务，仅靠抓取姿态生成可能不足。
物体形变或软体抓取：本文方法主要针对刚体物体。对于形变物体（如布料、海绵）或软体抓取，其点云距离建模可能需要额外的考虑和扩展。
实时性与感知延迟：虽然抓取生成速度快，但整个机器人系统（包括感知、运动规划、抓取执行）的端到端实时性，以及感知延迟对抓取准确性的影响，仍是实际部署中需要考虑的因素。
零样本泛化方向限制：从低自由度手到高自由度手的零样本泛化能力较弱（如表 V 所示），这表明模型对复杂关节配置的学习仍有方向性偏好。

未来工作方向：

增强数据效率和少样本学习：探索更有效的数据增强技术，或将领域自适应 (domain adaptation) 和少样本学习 (few-shot learning) 技术集成到框架中，以减少对大规模标注数据的依赖。
可控性和可解释性：深入研究潜在变量 $z$ 的语义含义，开发更直观的接口或机制，允许用户对抓取多样性进行更细粒度的控制，例如指定接触区域、力闭合强度等。
集成主动感知：将 D(R,O) Grasp 与主动感知 (active perception) 策略相结合，使机器人能够自主选择最佳视角来获取更完整的物体点云，从而提高在高度遮挡环境下的抓取鲁棒性。
扩展到复杂操作任务：将 D(R,O) Grasp 作为一个基础抓取模块，集成到更高级的机器人操作任务规划框架中，以支持多步骤、序列化的操作。
软体和形变物体抓取：探索将形变物体建模引入 D(R,O) 表示中，例如通过预测形变场或使用基于物理的仿真来生成软体抓取。
更通用的实体泛化：进一步研究如何提升模型从低自由度手到高自由度手的零样本泛化能力，可能需要更抽象的、与具体结构无关的机器人特征表示。

7.3. 个人启发与批判

个人启发：

交互中心表示的创新性：D(R,O) 这一交互中心表示是一个非常巧妙且强大的创新。它避免了直接预测高维且难以泛化的关节值，也避免了物体中心表示中复杂的后处理优化。通过建模机器人手与物体之间的“距离关系”，它找到了一个更本质、更通用且可微的抓取表示，为跨实体灵巧抓取提供了新的视角。这种从“实体本身”到“实体间关系”的建模思路，值得在其他机器人任务中借鉴。
配置不变预训练的价值：手部关节运动导致的特征不对齐是跨实体机器人任务中的普遍问题。本文通过对比学习提出的配置不变预训练，有效解决了这一挑战，并显著提升了模型性能。这种预训练策略具有很强的普适性，可以推广到其他需要处理机器人形态变化或多态性 (polymorphism) 的任务中。
工程效率与学术深度结合：本文在保证高成功率和抓取多样性的同时，实现了亚秒级的抓取生成速度，这在实际部署中具有巨大优势。它通过矩阵化的多边定位和 SVD 等高效数学工具，巧妙地将复杂的 IK 问题简化为可快速求解的优化问题，体现了将学术深度与工程实用性相结合的能力。
鲁棒性与实用性：对部分点云输入的鲁棒性，以及在真实世界中的优异表现，都使得 D(R,O) Grasp 具有很高的实际应用价值。

批判性思考：

对“交互中心”的进一步挖掘：D(R,O) 确实是交互中心的，但它主要捕获的是几何距离。未来的工作可以考虑如何将更丰富的交互信息（例如力、摩擦、材料特性等物理交互）融入到 D(R,O) 这样的表示中，使其能够更好地预测更稳定的力闭合抓取或适应不同材料的物体。
潜在变量空间的结构化：CVAE 用于生成多样化抓取是有效的方法，但潜在变量 $z$ 通常是低维的、连续的。如何将这个潜在空间进行更有效的结构化，使其不同区域对应不同的抓取策略（例如，是力闭合抓取还是高精度抓取，是拇指对食指抓取还是三指抓取），从而实现更精细的语义控制，是一个值得探索的方向。
数据生成与真实世界差异：论文依赖 DFC 生成大规模抓取数据集。DFC 本身是一个优化方法，其生成的抓取可能存在一些局限性或不完美之处（例如在论文中提到的不自然姿态）。尽管作者进行了过滤，但数据生成过程本身的偏差仍可能影响模型的最终学习效果。未来是否可以探索更少依赖专家数据，甚至完全自监督的抓取学习范式。
误差传播与累积：从 D(R,O) 预测到点云生成，再到 6D 姿态估计，最后到关节值优化，这是一个多阶段的过程。虽然每个阶段都宣称高效且鲁棒，但误差在各阶段的传播和累积效应，以及它们对最终抓取质量的影响，可能需要更深入的分析和误差模型。
泛化能力的边界：尽管实现了跨实体泛化，但模型对全新、拓扑结构迥异的机器人手或物体（例如，非手型抓持器、非常规几何物体）的泛化能力边界在哪里？这需要更系统的理论分析和更具挑战性的泛化测试。

相似论文推荐

基于向量语义检索推荐的相关论文。

暂时没有找到相似论文。