AiPaper
论文状态:已完成

Omnigrasp: Grasping Diverse Objects with Simulated Humanoids

发表:2024/07/16
原文链接PDF 下载
价格:0.10
价格:0.10
已有 2 人读过
本分析由 AI 生成,可能不完全准确,请以原文为准。

TL;DR 精炼摘要

本文提出了一种名为Omnigrasp的方法,用于控制模拟人形机器人抓取和移动多样物体。该方法通过学习一套人形运动表示来增强机器人控制精度,支持1200多种物体沿随机轨迹移动。训练过程中无需配对数据,仅依靠简单的奖励和状态表示,展现出卓越的可扩展性与性能。

摘要

We present a method for controlling a simulated humanoid to grasp an object and move it to follow an object's trajectory. Due to the challenges in controlling a humanoid with dexterous hands, prior methods often use a disembodied hand and only consider vertical lifts or short trajectories. This limited scope hampers their applicability for object manipulation required for animation and simulation. To close this gap, we learn a controller that can pick up a large number (>1200) of objects and carry them to follow randomly generated trajectories. Our key insight is to leverage a humanoid motion representation that provides human-like motor skills and significantly speeds up training. Using only simplistic reward, state, and object representations, our method shows favorable scalability on diverse objects and trajectories. For training, we do not need a dataset of paired full-body motion and object trajectories. At test time, we only require the object mesh and desired trajectories for grasping and transporting. To demonstrate the capabilities of our method, we show state-of-the-art success rates in following object trajectories and generalizing to unseen objects. Code and models will be released.

思维导图

论文精读

中文精读

1. 论文基本信息

1.1. 标题

Omnigrasp: Grasping Diverse Objects with Simulated Humanoids

1.2. 作者

  • Zhengyi Luo (罗振毅)
  • Jinkun Cao (曹进坤)
  • Sammy Christen
  • Alexander Winkler
  • Kris Kitani
  • Weipeng Xu (徐炜鹏)

主要机构:

  • 卡内基梅隆大学 (Carnegie Mellon University)
  • Meta Reality Labs Research
  • 苏黎世联邦理工学院 (ETH Zurich)

1.3. 发表期刊/会议

预印本 (arXiv)

1.4. 发表年份

2024年 (UTC时间:2024-07-16T05:05:02.000Z)

1.5. 摘要

本文提出了一种控制模拟人形机器人 (simulated humanoid) 抓取物体并使其沿预设轨迹移动的方法。由于控制具有灵巧双手 (dexterous hands) 的人形机器人极具挑战性,以往的方法通常使用无身体限制的虚拟手 (disembodied hand),且仅考虑垂直举升 (vertical lifts) 或短距离轨迹。这种有限的范围阻碍了它们在动画和仿真所需物体操纵 (object manipulation) 中的适用性。为了弥补这一差距,作者学习了一个控制器,该控制器能够抓取大量(超过1200个)物体,并使其沿随机生成的轨迹移动。其核心思想是利用一种人形运动表示 (humanoid motion representation),该表示提供了类似人类的运动技能 (human-like motor skills),并显著加快了训练速度。仅使用简单的奖励 (reward)、状态 (state) 和物体表示,该方法在处理多样化物体和轨迹方面表现出良好的可扩展性 (scalability)。在训练过程中,不需要配对的全身体运动 (full-body motion) 和物体轨迹数据集。在测试时,仅需要物体网格 (object mesh) 和期望的抓取与搬运轨迹。为了展示该方法的能力,作者展示了在遵循物体轨迹和泛化到未见物体 (unseen objects) 方面的最先进 (state-of-the-art, SOTA) 成功率。代码和模型将会发布。

1.6. 原文链接

2. 整体概括

2.1. 研究背景与动机

论文试图解决的核心问题: 本文旨在解决如何控制一个配备灵巧双手的模拟人形机器人,使其能够抓取任意物体并沿着预设的、复杂的轨迹进行移动的问题。

为什么这个问题在当前领域是重要的?现有研究存在哪些具体的挑战或空白 (Gap)? 这个问题在动画、虚拟现实/增强现实 (AV/VR) 的人机交互 (human-object interactions) 创建以及未来人形机器人 (humanoid robotics) 的应用中具有广泛前景。然而,当前研究面临多重挑战:

  • 人形机器人控制的复杂性: 具有灵巧双手的两足人形机器人需要同时保持平衡并进行精细的肢体和手指运动,这涉及到高达153个自由度 (Degrees of Freedom, DoF),极大地增加了学习过程的复杂性。
  • 现有方法的局限性:
    • 无身体限制的虚拟手 (Disembodied hand): 许多现有方法为了简化问题,采用“浮动”的、无身体限制的虚拟手进行抓取和操纵,这虽然可以生成物理上合理的抓取,但牺牲了物理真实感 (physical realism),因为手的根部位置和姿态由不可见的力量控制,无法反映真实身体对灵巧操作的限制和影响。
    • 简单轨迹和单一任务: 即使是考虑全身操作的工作,也往往将范围限制在单个物体交互序列、简单的轨迹(如垂直举升)或为每种特定轨迹训练一个独立的策略 (policy)。这种缺乏泛化能力和灵活性的问题,使得它们难以应用于动画和仿真中多样化的物体操纵需求。
    • 运动模仿器的不足: 简单的全身运动模仿器 (full-body motion imitators) 存在平均30毫米的手部跟踪误差,这对于精确的物体抓取来说太大了,可能导致人形机器人错过物体。
    • 手与身体运动先验的复杂性: 现有的一些方法使用分离的身体和手部潜在空间 (latent space) 或对抗学习 (adversarial learning) 来提供运动先验 (motion priors),但这增加了系统复杂性,且通常只能覆盖小规模、精心策划的数据集,难以实现高抓取成功率。

这篇论文的切入点或创新思路是什么? 本文的创新切入点在于利用一个预训练的、通用的灵巧人形运动表示 (universal dexterous motion representation) 作为强化学习 (Reinforcement Learning, RL) 的动作空间 (action space)。通过将复杂的关节驱动空间压缩成一个紧凑高效的潜在空间,它能够提供类人 (human-like) 的运动技能,从而显著加速训练过程,并提高策略的泛化能力。此外,该方法不需要配对的全身运动和物体轨迹数据,而是通过随机生成的轨迹和简化的奖励设计(特别是前抓姿态引导)来实现大规模、多样化物体的抓取和轨迹跟随。

2.2. 核心贡献/主要发现

论文最主要的贡献可以概括为以下三点:

  1. 设计并验证了一种灵巧且通用的类人运动表示 (PULSE-X): 本文设计了一种扩展自PULSE [41] 的 PULSE-X,通过增加关节手指运动,构建了 dexterous AMASS 数据集,并在此数据集上通过蒸馏 (distillation) 训练了一个物理驱动的通用灵巧人形运动表示。这一表示显著提高了样本效率 (sample efficiency),并使得使用简单而有效的状态和奖励设计来学习抓取成为可能。
  2. 无需配对数据学习抓取策略: 论文证明,利用这种运动表示,可以在没有使用任何配对的全身体和物体运动数据的情况下,通过合成 (synthetic) 的抓取姿态 (grasp poses) 和轨迹来学习抓取策略。这大大降低了数据采集的门槛。
  3. 实现高成功率、可泛化的人形控制器: 本文展示了训练一个人形控制器 (humanoid controller) 的可行性,该控制器能够在抓取物体、遵循复杂轨迹、扩展到多样化训练物体,并泛化到未见物体方面取得高成功率,达到最先进 (SOTA) 水平。

3. 预备知识与相关工作

3.1. 基础概念

为了理解 Omnigrasp 提出的方法,读者需要掌握以下几个基础概念:

  • 模拟人形机器人 (Simulated Humanoid): 指在物理仿真器 (physics simulator) 中建模和控制的、具有类似人类身体结构(包括躯干、四肢和灵巧双手)的虚拟角色。它能够执行复杂的运动和与环境互动。本文使用的模拟人形机器人是基于 SMPL-X 模型。
    • SMPL-X: 一个参数化的人体模型,能够表示身体形状、姿态、面部表情和手部姿态。它比 SMPL (只包含身体) 增加了面部和灵巧手部关节,因此具有更多的自由度 (DoF)。本文中的人形机器人有52个关节,其中51个是可驱动的 (actuated),包括21个身体关节和30个手部关节,每个关节有3个自由度。
  • 自由度 (Degrees of Freedom, DoF): 描述一个物体运动所需独立参数的数量。在人形机器人中,DoF 指的是每个关节可以旋转或移动的轴的数量。例如,一个3 DoF 的关节可以绕X、Y、Z轴独立旋转。
  • 强化学习 (Reinforcement Learning, RL): 一种机器学习范式,智能体 (agent) 通过与环境的交互来学习如何做出决策以最大化累积奖励 (cumulative reward)。智能体在每个时间步 (time step) 观察环境状态 (state),执行动作 (action),环境根据动作反馈奖励并转换到新的状态。
  • 马尔可夫决策过程 (Markov Decision Process, MDP): RL 的数学框架,由一个五元组 M=S,A,T,Rˉ,γ\mathcal{M} = \langle S, A, T, \mathcal{\bar{R}}, \gamma \rangle 定义。
    • SS: 状态 (state) 的集合。
    • AA: 动作 (action) 的集合。
    • TT: 转移动态 (transition dynamics),即给定当前状态和动作,环境转移到下一个状态的概率。
    • Rˉ\mathcal{\bar{R}}: 奖励函数 (reward function),根据状态和动作提供奖励信号。
    • γ\gamma: 折扣因子 (discount factor),用于衡量未来奖励的重要性。
  • 策略 (Policy):RL 中,策略 π\pi 定义了智能体在给定状态下选择动作的规则。它是一个从状态到动作(或动作分布)的映射。
  • 近端策略优化 (Proximal Policy Optimization, PPO): 一种流行的 RL 算法,属于策略梯度方法 (policy gradient methods),通过限制每次策略更新的幅度,以避免更新过大导致性能下降,从而在稳定性和效率之间取得平衡。
  • 比例-微分控制器 (Proportional-Derivative, PD controller): 一种常用的反馈控制算法,用于使机器人关节达到目标姿态。它根据当前姿态与目标姿态的误差(比例项)以及误差的变化率(微分项)来计算驱动力或扭矩。
  • 运动表示 (Motion Representation): 描述和编码人类运动数据的方式。一个好的运动表示能够捕获运动的关键特征,并使其易于处理、生成和控制。
  • 潜在空间 (Latent Space): 机器学习模型(特别是生成模型,如变分自编码器 VAE)将高维数据(如关节姿态)压缩到的低维抽象空间。在这个空间中,相似的数据点距离更近,从而实现数据的高效表示和操作。
  • 变分自编码器 (Variational Autoencoder, VAE): 一种生成模型,由编码器 (encoder) 和解码器 (decoder) 组成。编码器将输入数据映射到潜在空间的概率分布(通常是高斯分布),解码器从潜在空间采样一个点并将其映射回数据空间。VAE 的目标是学习数据的有效潜在表示,并能够生成新的、与训练数据相似的样本。
  • 前抓姿态 (Pre-grasp): 在实际抓取动作发生之前,手部接近物体并调整到准备抓取位置和姿态时的状态。准确的前抓姿态对于成功抓取至关重要。本文中,pre-grasp 用作奖励引导。
  • 对象形状潜在编码 (Object Shape Latent Code): 一种通过神经网络将复杂三维物体形状编码成低维向量表示的方法,用于在策略中提供物体形状信息,以适应不同物体的抓取需求。本文使用了 Basis Point Set (BPS) [57] 来计算。
  • 硬性负样本挖掘 (Hard-negative Mining): 在训练过程中,识别模型表现不佳的困难样本(例如,抓取失败的物体),并在后续训练中更频繁地采样这些样本,以迫使模型学习如何处理这些挑战性情况,从而提高泛化能力。

3.2. 前人工作

论文在“Related Works”部分总结了以下几个领域的前人工作,并强调了它们的局限性,从而衬托出 Omnigrasp 的创新性。

3.2.1. 模拟人形机器人控制 (Simulated Humanoid Control)

  • 应用: 动画、全身姿态估计、机器人迁移学习 (sim-to-real transfer)。
  • 方法: 模型基控制 (model-based control)、轨迹优化 (trajectory optimization)、深度强化学习 (deep RL)。RL 因其灵活性和可扩展性而受欢迎。
  • 挑战: 大多数工作不考虑灵巧手指。少数考虑手指的工作(如 [3, 6, 36, 48])仍然面临复杂性。
  • 本文定位: Omnigrasp 致力于解决灵巧人形机器人控制,以执行有意义的任务。

3.2.2. 灵巧操作 (Dexterous Manipulation)

  • 任务: 抓取和放置 (pick-and-place)、举升 (lifting)、物体关节操作 (articulating objects)、遵循预定义物体轨迹。
  • 主流方法: 大部分工作使用无身体限制的虚拟手 (disembodied hand),并通过非物理的虚拟力 (non-physical virtual forces) 控制手部。
    • D-Grasp [16]: 利用 MANO 手部模型合成物理上合理的抓取,并进行6 DoF 目标到达。
    • UniDexGrasp [84] 及其后续 [74]: 使用 Shadow Hand
    • PGDM [17]: 为单个物体轨迹训练抓取策略,并强调 pre-grasp 初始化对抓取成功的重要性。
  • 同时考虑手和身体的工作:
    • PMP [3] 和 PhysHOI [77]: 通常为每个任务或物体训练一个策略。
    • Braun et al. [6]: 与本文设置相似,但依赖于 MoCap 人机交互数据,且只使用一只手。
  • 局限性: 无身体限制的手缺乏物理真实感;有身体的工作通常任务单一、需要 MoCap 数据、或只支持单手。
  • 本文定位: Omnigrasp 训练一个策略来搬运多样化物体,支持双手操作,并在举升和物体轨迹跟随方面达到高成功率。

3.2.3. 运动学抓取合成 (Kinematic Grasp Synthesis)

  • 应用: 机器人和动画中的手部抓取生成。
  • 方法:
    • 从图像或视频重建和预测抓取。
    • 生成静态或序列手部姿态,以给定物体为条件。
    • GrabNet [69]: 在 OakInk [85] 数据集上训练,生成手部姿态作为策略训练的奖励指导。
  • 挑战: 缺乏同步的全身和物体轨迹的 MoCap 数据。生成方法通常需要真实数据初始化或仅预测静态抓取。
  • 本文定位: Omnigrasp 使用 GrabNet 生成的 pre-grasps 作为奖励指导,而不是作为策略输入或初始化。

3.2.4. 人形运动表示 (Humanoid Motion Representation)

  • 重要性:DoF 的人形机器人和 RL 训练的样本效率问题使得结构化动作空间 (structured action space) 至关重要。
    • 运动原语 (motion primitives) [24, 25, 47, 62] 或运动潜在空间 (motion latent space) [55, 73] 可以显著提高样本效率。
  • 前人工作:
    • 部分基于运动先验 (part-based motion priors) [3, 6]: 在特定数据集上训练,适用于单一任务,但难以扩展到更自由形式的运动。
    • PULSE [41]: 提出了一种通用的 (universal) 人形运动表示。
  • 局限性: 现有运动先验难以扩展到复杂、多样化的轨迹。
  • 本文定位: Omnigrasp 扩展了 PULSE [41] 到灵巧人形机器人设置,提出了 PULSE-X,展示了一个48维的全身-手部运动潜在空间可以用于抓取和跟随随机生成轨迹。

3.3. 技术演进

从技术演进的角度看,人形机器人与物体交互的控制经历了以下几个阶段:

  1. 早期运动学驱动: 专注于生成自然、流畅的人体运动,通常基于 MoCap 数据或手动动画。但缺乏物理交互。
  2. 物理仿真引入: 结合物理仿真器,使运动更具真实感。但控制复杂性骤增,特别是对于高 DoF 机器人。
  3. 无身体限制的抓取: 为简化问题,将研究聚焦于手部与物体的局部交互,忽略全身平衡和运动,通过虚拟力控制手部。这在抓取合成上取得进展,但与真实应用存在鸿沟。
  4. 全身操作的尝试: 开始探索全身参与的物体操纵,但往往局限于特定任务、单一物体或预定义的简单轨迹,且高度依赖 MoCap 数据。控制器稳定性、泛化能力和灵巧性仍是瓶颈。
  5. 运动先验的探索: 引入运动原语或潜在空间作为动作空间,以提高 RL 的样本效率和运动自然度。但这些先验通常是任务或数据集特化的,难以通用。
  6. Omnigrasp 的位置: Omnigrasp 站在了全身操作和通用运动先验的交叉点上。它通过构建一个通用的、灵巧的、物理驱动的运动表示 (PULSE-X),克服了传统运动先验的局限性,实现了在多样化物体和复杂轨迹上的泛化能力,并且无需配对的全身-物体交互数据,从而将全身灵巧操作的边界向前推进。

3.4. 差异化分析

Omnigrasp 与相关工作的主要区别和创新点体现在以下几个方面:

特性 传统无身体限制手部方法 [16, 17, 60, 84] 传统全身操作方法 [3, 6, 77] Omnigrasp
身体参与 否 (仅虚拟手) 是 (全身,包括灵巧双手)
手部灵巧性 部分 (通常单手或有限手指运动) 是 (灵巧双手)
物体多样性 部分 (需要为不同物体调整) 有限 (通常针对特定物体或类别) 高 (1200+物体,泛化到未见物体)
轨迹复杂性 简单 (垂直举升或短轨迹) 简单或预录制 (如 MoCap) 高 (随机生成复杂轨迹,包括 MoCap 轨迹)
动作空间 直接关节驱动或局部运动先验 直接关节驱动或任务特定运动先验 通用、灵巧的运动潜在空间 (PULSE-X)
训练数据需求 无身体数据 通常需要配对的全身-物体 MoCap 数据 无需配对的全身体-物体 MoCap 数据
泛化能力 低 (任务或物体特化) 高 (跨物体、跨轨迹泛化)
训练效率 较低 较低 高 (利用运动表示加速训练)
核心挑战 缺乏物理真实感 稳定性、泛化、数据依赖 克服高 DoF 复杂性、实现通用泛化

Omnigrasp 的核心创新在于其分层强化学习 (hierarchical RL) 框架通用运动表示 PULSE-XPULSE-X 将低级运动技能封装在一个紧凑的潜在空间中,使得上层任务策略无需直接处理高维关节空间,从而显著简化了学习过程。这种方法允许策略在没有真实配对数据的情况下,通过简单的状态和奖励设计,学习到在多样化物体和复杂轨迹上的高成功率操作,这是现有方法难以达到的。

4. 方法论

4.1. 方法原理

Omnigrasp 的核心思想是分层强化学习 (hierarchical Reinforcement Learning, HRL),并利用一个预训练的、通用且灵巧的人形运动表示 (PULSE-X) 来作为其低级动作空间 (low-level action space)。这种方法将复杂的人形机器人控制问题分解为两个阶段:

  1. 学习通用的、类人 (human-like) 的低级运动技能: 在第一阶段,通过模仿学习 (imitation learning) 和蒸馏 (distillation) 的方式,学习一个能够生成灵巧双手和全身协调运动的潜在空间 PULSE-X。这个潜在空间将高维的关节驱动指令压缩为低维的运动编码,从而为高级任务策略提供了更高效、更具语义的动作原语。

  2. 在此基础上学习高级任务策略: 在第二阶段,一个高级 RL 策略 OmnigraspPULSE-X 定义的潜在动作空间上进行训练。这个策略不再直接控制每个关节的细微动作,而是输出潜在编码,由 PULSE-X 解码为具体的关节驱动指令。通过结合简单的状态、奖励设计和 pre-grasp 引导,策略学习如何抓取多样化物体并沿着复杂轨迹移动。

    这种分层方法的好处在于:

  • 样本效率 (Sample Efficiency): 潜在动作空间提供了强大的运动先验 (motion prior),使得 RL 探索更有效率,避免了在不自然运动上的浪费。
  • 运动自然度 (Motion Naturalness): PULSE-X 确保生成的运动是类人且物理可行的,避免了直接在关节空间 RL 训练时容易产生的“抖动”或不自然动作。
  • 简化任务学习: 任务策略只需关注如何选择合适的运动模式来完成抓取和轨迹跟随,而无需处理底层物理控制的复杂性。
  • 无需配对数据: 通过随机生成的轨迹和 pre-grasp 作为奖励引导,克服了对昂贵 MoCap 数据的依赖。

4.2. 核心方法详解 (逐层深入)

Omnigrasp 的训练分为两个主要阶段,其架构如下图(原文 Figure 2)所示:

Figure :Omnigrasp is traine in two stages. (a) A universal and dexterous humanoid motion representation is trained via distillation. (b) Pre-grasp guided grasping training using a pretrained motion r… 该图像是一个示意图,展示了Omnigrasp的训练过程分为两个阶段:第一阶段是通过蒸馏训练通用灵巧的人形运动表示(PULSE-X);第二阶段是利用预训练运动表示进行前抓引导抓取训练。图中包含的关键信息包括状态、动作解码器以及物理仿真环境。

Figure :Omnigrasp is traine in two stages. (a) A universal and dexterous humanoid motion representation is trained via distillation. (b) Pre-grasp guided grasping training using a pretrained motion representation.

4.2.1. PULSE-X: 物理驱动的通用灵巧人形运动表示

该阶段的目标是构建一个能够生成灵巧双手全身运动的低维潜在空间。

4.2.1.1. 数据增强 (Data Augmentation)

由于包含手指运动的全身 MoCap 数据集(如 AMASS)非常稀有(AMASS 中91%的序列没有手指运动),作者首先通过数据增强来构建一个 dexterous AMASS 数据集。

  • 方法: 借鉴 BEDLAM [4] 的过程,随机将 AMASS [44] 中的全身运动与 GRAB [70] 和 Re:InterHand [49] 中采样的手部运动进行配对。
  • 目的: 增加数据集的灵巧性,从而使运动模仿器和随后的运动表示能够学习更丰富的、包含手指动作的运动技能。

4.2.1.2. PHC-X: 带有灵巧手指的人形运动模仿 (Humanoid Motion Imitation with Articulated Fingers)

PHC-X 是一个基于 RL 训练的运动模仿器,其设计灵感来源于 PHC [42],并扩展以处理灵巧手指。

  • 手指关节处理: 将手指关节视为与身体其他部分(如脚趾或手腕)类似,这种处理方式足以获得抓取所需的灵巧性。
  • 训练目标状态 (Goal State): 训练 PHC-X 策略 πPHCX\pi_{\mathrm{PHC-X}}RL 目标状态定义为: stgmimic(θ^t+1θ^t,p^t+1pt,v^t+1vt,ω^t+1ωt,θ^t+1,p^t+1) s_t^{\mathrm{g-mimic}} \triangleq \big( \hat{\pmb{\theta}}_{t+1} \ominus \hat{\pmb{\theta}}_{t}, \hat{\pmb{p}}_{t+1} - \pmb{p}_t, \hat{\pmb{v}}_{t+1} - \pmb{v}_t, \hat{\pmb{\omega}}_{t+1} - \pmb{\omega}_t, \hat{\pmb{\theta}}_{t+1}, \hat{\pmb{p}}_{t+1} \big)
    • 符号解释:
      • stgmimics_t^{\mathrm{g-mimic}}: 在时间 tt 用于模仿学习的目标状态。
      • θ^t+1\hat{\pmb{\theta}}_{t+1}: 参考运动 (reference motion) 中在 t+1t+1 时刻的3D关节旋转 (3D joint rotation)。
      • θ^t\hat{\pmb{\theta}}_{t}: 参考运动中在 tt 时刻的3D关节旋转。
      • \ominus: 3D旋转之间的相对旋转操作。
      • p^t+1\hat{\pmb{p}}_{t+1}: 参考运动中在 t+1t+1 时刻的所有关节位置 (joint position)。
      • pt\pmb{p}_t: 模拟人形机器人在 tt 时刻的所有关节位置。
      • v^t+1\hat{\pmb{v}}_{t+1}: 参考运动中在 t+1t+1 时刻的所有关节线性速度 (linear velocity)。
      • vt\pmb{v}_t: 模拟人形机器人在 tt 时刻的所有关节线性速度。
      • ω^t+1\hat{\pmb{\omega}}_{t+1}: 参考运动中在 t+1t+1 时刻的所有关节角速度 (angular velocity)。
      • ωt\pmb{\omega}_t: 模拟人形机器人在 tt 时刻的所有关节角速度。
    • 目的: 这个目标状态包含了参考运动的未来姿态、速度、角速度以及与当前模拟姿态和速度的差异,旨在让 PHC-X 能够精确模仿给定的 dexterous AMASS 运动序列。

4.2.1.3. 通过在线蒸馏学习运动表示 (Learning Motion Representation via Online Distillation)

PHC-X 训练完成后,作者通过在线蒸馏 (online distillation) 的方式将其运动技能压缩到一个潜在表示 PULSE-X 中。这类似于 VAE [32] 的原理。

  • 组成部分:
    • 编码器 (Encoder) EPULSEX\mathcal{E}_{\mathrm{PULSE-X}}: 接收当前的人形机器人状态 stps_t^{\mathrm{p}} 和目标模仿状态 stgmimics_t^{\mathrm{g-mimic}},输出一个潜在编码 ztz_t 的概率分布。
    • 解码器 (Decoder) DPULSEX\mathcal{D}_{\mathrm{PULSE-X}}: 接收当前人形机器人状态 stps_t^{\mathrm{p}} 和潜在编码 ztz_t,输出关节驱动动作 at\mathbf{a}_t
    • 先验 (Prior) PPULSEX\mathcal{P}_{\mathrm{PULSE-X}}: 根据当前人形机器人状态 stps_t^{\mathrm{p}} 定义一个高斯分布,用于指导潜在空间 ztz_t 的分布。它取代了 VAE 中常用的单位高斯分布,增加了潜在空间的表达能力,并通过形成残差动作空间 (residual action space) 来指导下游任务学习。
  • 模型定义: 编码器和先验分布被建模为对角高斯分布 (diagonal Gaussian): EPULSEX(ztstp,stgmimic)=N(ztμte,σte)PPULSEX(ztstp)=N(ztμtp,σtp) \begin{aligned} \mathcal{E}_{\mathrm{PULSE-X}}(z_t | s_t^{\mathrm{p}}, s_t^{\mathrm{g-mimic}}) &= \mathcal{N}(z_t | \mu_t^e, \sigma_t^e) \\ \mathcal{P}_{\mathrm{PULSE-X}}(z_t | s_t^{\mathrm{p}}) &= \mathcal{N}(z_t | \mu_t^p, \sigma_t^p) \end{aligned}
    • 符号解释:
      • ztz_t: 在时间 tt 的潜在编码。
      • stps_t^{\mathrm{p}}: 在时间 tt 的本体感受状态 (proprioception state),包括人形机器人的3D关节旋转 qt\pmb{q}_t、速度 q˙t\dot{\pmb{q}}_t 和手部接触力 ct\mathbf{c}_t
      • stgmimics_t^{\mathrm{g-mimic}}: 用于模仿学习的目标状态,如上文定义。
      • N(μ,σ)\mathcal{N}(\cdot | \mu, \sigma): 均值为 μ\mu、标准差为 σ\sigma 的高斯分布。
      • μte,σte\mu_t^e, \sigma_t^e: 编码器输出的潜在编码 ztz_t 的均值和标准差。
      • μtp,σtp\mu_t^p, \sigma_t^p: 先验分布输出的潜在编码 ztz_t 的均值和标准差。
  • 训练过程: 类似于 DAgger [66] 的在线蒸馏,通过在仿真中运行编码器-解码器,并查询 PHC-X 策略以获取动作标签来训练这些模型。

4.2.2. 前抓引导的物体操纵 (Pre-grasp Guided Object Manipulation)

PULSE-X 的解码器 DPULSEX\mathcal{D}_{\mathrm{PULSE-X}} 和先验 PPULSEX\mathcal{P}_{\mathrm{PULSE-X}} 被预训练并冻结后,Omnigrasp 的高级任务策略开始训练。此时,动作空间变为 PULSE-X 的潜在运动表示 ztz_t

4.2.2.1. 状态 (State)

Omnigrasp 策略的状态输入 stgs_t^{\mathrm{g}} 旨在提供物体信息和期望的物体轨迹。它不包含身体姿态、抓取信息或相位变量,这使得该方法能够泛化到未见物体和参考轨迹。

  • 目标状态定义: stg(p^t+1:t+ϕobjptobj,θ^t+1:t+ϕobjθtobj,v^t+1:t+ϕobjvtobj,ω^t+1:t+ϕobjωtobj,ptobj,θtobj,σobj,ptobjpthand) s_t^{\mathrm{g}} \triangleq \big( \hat{p}_{t+1:t+\phi}^{\mathrm{obj}} - p_t^{\mathrm{obj}}, \hat{\theta}_{t+1:t+\phi}^{\mathrm{obj}} \ominus \theta_t^{\mathrm{obj}}, \hat{v}_{t+1:t+\phi}^{\mathrm{obj}} - v_t^{\mathrm{obj}}, \hat{\omega}_{t+1:t+\phi}^{\mathrm{obj}} - \omega_t^{\mathrm{obj}}, p_t^{\mathrm{obj}}, \theta_t^{\mathrm{obj}}, \sigma^{\mathrm{obj}}, p_t^{\mathrm{obj}} - p_t^{\mathrm{hand}} \big)
    • 符号解释:
      • stgs_t^{\mathrm{g}}: 任务策略在时间 tt 的目标状态。
      • ϕ\phi: 表示未来考虑的帧数 (horizon)。
      • p^t+1:t+ϕobj\hat{p}_{t+1:t+\phi}^{\mathrm{obj}}: 未来 ϕ\phi 帧的参考物体位置轨迹。
      • ptobjp_t^{\mathrm{obj}}: 当前物体位置。
      • θ^t+1:t+ϕobj\hat{\theta}_{t+1:t+\phi}^{\mathrm{obj}}: 未来 ϕ\phi 帧的参考物体旋转轨迹。
      • θtobj\theta_t^{\mathrm{obj}}: 当前物体旋转。
      • v^t+1:t+ϕobj\hat{v}_{t+1:t+\phi}^{\mathrm{obj}}: 未来 ϕ\phi 帧的参考物体线性速度轨迹。
      • vtobjv_t^{\mathrm{obj}}: 当前物体线性速度。
      • ω^t+1:t+ϕobj\hat{\omega}_{t+1:t+\phi}^{\mathrm{obj}}: 未来 ϕ\phi 帧的参考物体角速度轨迹。
      • ωtobj\omega_t^{\mathrm{obj}}: 当前物体角速度。
      • σobjR512\sigma^{\mathrm{obj}} \in \mathbb{R}^{512}: 物体形状的潜在编码 (latent code),通过 Basis Point Set (BPS) [57] 计算。
      • ptobjpthandp_t^{\mathrm{obj}} - p_t^{\mathrm{hand}}: 当前物体位置与每个手关节位置的差异。
    • 标准化: 所有值都相对于人形机器人的朝向 (yaw) 进行归一化。

4.2.2.2. 动作 (Action)

Omnigrasp 策略 πOmnigrasp\pi_{\mathrm{Omnigrasp}} 的动作空间是相对于 PULSE-X 先验均值 μtp\mu_t^p 的残差动作 (residual action)。

  • 动作计算: 策略 πOmnigrasp\pi_{\mathrm{Omnigrasp}} 输出一个潜在编码 ztomnigraspR48z_t^{\mathrm{omnigrasp}} \in \mathbb{R}^{48},然后结合 PULSE-X 的先验均值 μtp\mu_t^p 得到最终的潜在编码,再由 PULSE-X 的解码器 DPULSEX\mathcal{D}_{\mathrm{PULSE-X}} 解码为关节驱动的目标 at\mathbf{a}_tat=DPULSEX(πOmnigrasp(ztomnigraspstp,stg)+μtp) \mathbf{a}_t = \mathcal{D}_{\mathrm{PULSE-X}}\big( \pi_{\mathrm{Omnigrasp}}( \mathbf{z}_t^{\mathrm{omnigrasp}} | \mathbf{s}_t^{\mathrm{p}}, \mathbf{s}_t^{\mathrm{g}} ) + \pmb{\mu}_t^p \big)
    • 符号解释:
      • at\mathbf{a}_t: 在时间 ttPD 控制器目标(关节驱动指令)。
      • DPULSEX\mathcal{D}_{\mathrm{PULSE-X}}: 预训练的 PULSE-X 解码器。
      • πOmnigrasp\pi_{\mathrm{Omnigrasp}}: Omnigrasp 任务策略。
      • ztomnigrasp\mathbf{z}_t^{\mathrm{omnigrasp}}: Omnigrasp 策略输出的残差潜在编码。
      • stp\mathbf{s}_t^{\mathrm{p}}: 本体感受状态。
      • stg\mathbf{s}_t^{\mathrm{g}}: 目标状态。
      • μtp\pmb{\mu}_t^p: 由 PULSE-X 先验 PPULSEX(ztstp)\mathcal{P}_{\mathrm{PULSE-X}}(z_t | \mathbf{s}_t^{\mathrm{p}}) 计算得到的潜在编码均值。
    • 目的: 这种方式允许策略在 PULSE-X 提供的类人运动先验上进行探索,而不是直接在高维、稀疏的关节驱动空间中探索。

4.2.2.3. 奖励 (Reward)

虽然策略输入不包含抓取或参考身体轨迹,但作者利用 pre-grasps (手部在抓取前的姿态)作为奖励引导。

  • 分阶段奖励设计: 奖励函数 rtomnigraspr_t^{\mathrm{omnigrasp}} 根据时间 tt 和手与物体的距离进行分阶段计算: rtomnigrasp={rtapproach,p^pregrasppthand2>0.2 and t<λrtpregrasp,p^pregrasppthand20.2 and t<λrtobj,tλ r_t^{\mathrm{omnigrasp}} = \left\{ \begin{array}{ll} r_t^{\mathrm{approach}}, & \Vert \hat{p}^{\mathrm{pre-grasp}} - p_t^{\mathrm{hand}} \Vert_2 > 0.2 \ \mathrm{and} \ t < \lambda \\ r_t^{\mathrm{pre-grasp}}, & \Vert \hat{p}^{\mathrm{pre-grasp}} - p_t^{\mathrm{hand}} \Vert_2 \le 0.2 \ \mathrm{and} \ t < \lambda \\ r_t^{\mathrm{obj}}, & t \ge \lambda \end{array} \right.
    • 符号解释:
      • q^pregrasp(p^pregrasp,θ^pregrasp)\hat{q}^{\mathrm{pre-grasp}} \triangleq (\hat{p}^{\mathrm{pre-grasp}}, \hat{\theta}^{\mathrm{pre-grasp}}): 参考前抓姿态,包括位置 p^pregrasp\hat{p}^{\mathrm{pre-grasp}} 和旋转 θ^pregrasp\hat{\theta}^{\mathrm{pre-grasp}}
      • pthandp_t^{\mathrm{hand}}: 模拟人形机器人手部在时间 tt 的位置。
      • λ\lambda: 抓取应该发生的时间帧,设置为1.5秒。
    • 奖励组成:
      1. 接近奖励 (Approach Reward) rtapproachr_t^{\mathrm{approach}}: 当手距离 pre-grasp 位置超过0.2米且在抓取时间 λ\lambda 之前时,奖励人形机器人向 pre-grasp 姿态移动。 rtapproach=p^pregrasppthand2p^pregrasppt1hand2 r_t^{\mathrm{approach}} = \lVert \hat{p}^{\mathrm{pre-grasp}} - p_t^{\mathrm{hand}} \rVert_2 - \lVert \hat{p}^{\mathrm{pre-grasp}} - p_{t-1}^{\mathrm{hand}} \rVert_2
        • 目的: 鼓励手部在初始阶段快速靠近 pre-grasp 位置。
      2. 前抓奖励 (Pre-grasp Reward) rtpregraspr_t^{\mathrm{pre-grasp}}: 当手距离 pre-grasp 位置足够近(0.2\le 0.2米)且在抓取时间 λ\lambda 之前时,使用更精确的手部姿态模仿奖励。 rtpregrasp=whpe100p^pregrasppthand2×1{p^pregraspp^tobj20.2}+whre100θ^pregraspθthand2 r_t^{\mathrm{pre-grasp}} = w_{\mathrm{hp}} e^{-100\Vert \hat{p}^{\mathrm{pre-grasp}} - p_t^{\mathrm{hand}} \Vert_2 \times \mathbb{1}\{ \Vert \hat{p}^{\mathrm{pre-grasp}} - \hat{p}_t^{\mathrm{obj}} \Vert_2 \le 0.2 \}} + w_{\mathrm{hr}} e^{-100\Vert \hat{\theta}^{\mathrm{pre-grasp}} - \theta_t^{\mathrm{hand}} \Vert_2}
        • 符号解释:
          • whp,whrw_{\mathrm{hp}}, w_{\mathrm{hr}}: 权重超参数。
          • θthand\theta_t^{\mathrm{hand}}: 模拟人形机器人手部在时间 tt 的旋转。
          • 1{p^pregraspp^tobj20.2}\mathbb{1}\{ \Vert \hat{p}^{\mathrm{pre-grasp}} - \hat{p}_t^{\mathrm{obj}} \Vert_2 \le 0.2 \}: 指示变量,如果 pre-grasp 位置与物体位置相距0.2米以内则为真。
        • 目的: 精确匹配 pre-grasp 的手部位置和旋转,并考虑 pre-grasp 与物体的相对位置。
      3. 物体轨迹跟随奖励 (Object Trajectory Following Reward) rtobjr_t^{\mathrm{obj}}: 在时间 λ\lambda 之后,策略主要关注跟随目标物体轨迹。 rtobj=(wope100p^tobjptobj2+wore100θ^tobjθtobj2+wove5v^tobjvtobj2+woave5ω^tobjωtobj2)1{C}+1{C}wc r_t^{\mathrm{obj}} = (w_{\mathrm{op}} e^{-100\left\Vert \hat{p}_t^{\mathrm{obj}} - p_t^{\mathrm{obj}} \right\Vert_2} + w_{\mathrm{or}} e^{-100\left\Vert \hat{\theta}_t^{\mathrm{obj}} - \theta_t^{\mathrm{obj}} \right\Vert_2} + w_{\mathrm{ov}} e^{-5\left\Vert \hat{v}_t^{\mathrm{obj}} - v_t^{\mathrm{obj}} \right\Vert_2} + w_{\mathrm{oav}} e^{-5\left\Vert \hat{\omega}_t^{\mathrm{obj}} - \omega_t^{\mathrm{obj}} \right\Vert_2}) \cdot \mathbb{1}\{ \mathbb{C} \} + \mathbb{1}\{ \mathbb{C} \} \cdot w_{\mathrm{c}}
        • 符号解释:
          • wop,wor,wov,woav,wcw_{\mathrm{op}}, w_{\mathrm{or}}, w_{\mathrm{ov}}, w_{\mathrm{oav}}, w_{\mathrm{c}}: 权重超参数。
          • 1{C}\mathbb{1}\{ \mathbb{C} \}: 指示变量,如果物体与人形机器人的手部有接触 (contact) 则为真。
        • 目的: 鼓励物体位置、旋转、线速度和角速度与参考轨迹匹配,并额外奖励手部与物体的持续接触。

4.2.2.4. 物体3D轨迹生成器 (Object 3D Trajectory Generator)

由于真实物体轨迹数据有限,作者设计了一个3D物体轨迹生成器 T3D\mathcal{T}^{\mathrm{3D}}

  • 方法: 接受初始物体姿态 q0obj\mathbf{q}_0^{\mathrm{obj}},生成一系列参考轨迹 q^1:Tobj\hat{\mathbf{q}}_{1:T}^{\mathrm{obj}}。在每个时间步,采样一个随机的速度和偏转角,并将其用于生成下一帧的轨迹。
  • 随机性: 速度在 [0, 2] m/s 之间,角度在 [0, 1] 弧度之间,并有0.2的概率进行大幅度转向 (0到 2π2\pi 弧度)。Z方向的平移限制在 [0.1, 2.0] 米之间。
  • 目的: 允许策略在多样化的轨迹上进行训练,而无需依赖真实的轨迹数据。

4.2.2.5. 训练过程 (Training Process)

Omnigrasp 的训练过程如原文 Algorithm 1 所示,是一个基于 PPO 的迭代学习过程。

1 FunctionTrainOmnigrasp(DPULSEX,PPULSEX,πOmnigrasp,Ohat,T3D)Function TrainOmnigrasp(D_PULSE-X, P_PULSE-X, π_Omnigrasp, O_hat, T^3D): 2 Input:PretrainedPULSEXsdecoderDPULSEXandpriorPPULSEX,ObjectmeshdatasetOhat,3DtrajectoryGeneratorT3D;Input: Pretrained PULSE-X's decoder D_PULSE-X and prior P_PULSE-X, Object mesh dataset O_hat, 3D trajectory Generator T^3D; 3 while not converged do 4 M<M <- ∅ // initialize sampling memory; 5 while M is not full do 6 q0obj,pregrasp,stp<randomlysampleinitialobjectmesh,pregraspandinitialhumanoidstate;q_0^obj, pre-grasp, s_t^p <- randomly sample initial object mesh, pre-grasp and initial humanoid state; 7 qhat1:Tobj<T3D(q0obj)q_hat_1:T^obj <- T^3D(q_0^obj) // generate 3D object trajectory; 8 fort=1...Tdofor t = 1 ... T do 9 ztomnigrasp<πOmnigrasp(ztomnigraspstp,stg)z_t^omnigrasp <- π_Omnigrasp(z_t^omnigrasp | s_t^p, s_t^g) // use pretrained latent space as action space; 10 μtp,σtp<PPULSEX(ztstp)μ_t^p, σ_t^p <- P_PULSE-X(z_t | s_t^p) // compute prior latent code; 11 at<DPULSEX(atstp,ztomnigrasp+μtp)a_t <- D_PULSE-X(a_t | s_t^p, z_t^omnigrasp + μ_t^p) // decode action using pretrained decoder; 12 st+1<T(st+1st,at)s_t+1 <- T(s_t+1 | s_t, a_t) // simulation; 13 rt<R(stp,stg)r_t <- R(s_t^p, s_t^g) // compute reward; 14 Add(st,at,st+1,rt)toM;Add (s_t, a_t, s_t+1, r_t) to M; 15 πOmnigrasp<PPOupdateusingexperiencescollectedinM;π_Omnigrasp <- PPO update using experiences collected in M; 16 Ohard<Evaluateandfindhardobjectstotrainon;O_hard <- Evaluate and find hard objects to train on; 17 returnπOmnigrasp;return π_Omnigrasp;

  • 符号解释:

    • DPULSEX,PPULSEX\mathcal{D}_{\mathrm{PULSE-X}}, \mathcal{P}_{\mathrm{PULSE-X}}: 预训练的 PULSE-X 解码器和先验。
    • πOmnigrasp\pi_{\mathrm{Omnigrasp}}: 待训练的 Omnigrasp 策略。
    • O^\hat{O}: 物体网格数据集。
    • T3D\mathcal{T}^{\mathrm{3D}}: 3D轨迹生成器。
    • MM: 经验采样内存。
    • q0obj\mathbf{q}_0^{\mathrm{obj}}: 初始物体姿态。
    • q^pregrasp\hat{\mathbf{q}}^{\mathrm{pre-grasp}}: 参考前抓姿态。
    • stp\mathbf{s}_t^{\mathrm{p}}: 本体感受状态。
    • q^1:Tobj\hat{\mathbf{q}}_{1:T}^{\mathrm{obj}}: 生成的物体轨迹。
    • ztomnigrasp\mathbf{z}_t^{\mathrm{omnigrasp}}: 策略输出的潜在编码。
    • μtp,σtp\pmb{\mu}_t^p, \pmb{\sigma}_t^p: 先验输出的潜在编码均值和标准差。
    • at\mathbf{a}_t: 解码后的关节驱动指令。
    • TT: 仿真环境的转移动态。
    • RR: 奖励函数。
    • O^hard\hat{O}_{\mathrm{hard}}: 通过硬性负样本挖掘 (hard-negative mining) 选出的难处理物体。
  • 训练策略:

    • PPO 更新 (PPO Update): 使用 PPO [67] 算法来最大化累积折扣奖励。
    • 硬性负样本挖掘 (Hard-negative Mining): 为了提高性能和泛化能力,作者采用了一种简单的硬性负样本挖掘策略。策略会定期对物体进行评估,并根据失败的次数(sjs_j 表示物体 jj 的失败举升次数)计算采样概率 P(j)=sjiJsiP(j) = \frac{s_j}{\sum_i^J s_i},以便在训练中更频繁地选择那些难以抓取的物体。
    • 物体和人形机器人初始状态随机化 (Object and Humanoid Initial State Randomization): 为了应对物体姿态和人类初始姿态的多样性,对初始物体姿态进行扰动。人形机器人的初始姿态要么来自 GRAB 数据集,要么是站立的 T 型姿态。
  • 测试时 (Test Time): 只需要物体网格 ptobjp_t^{\mathrm{obj}}、初始物体姿态 q0obj\mathbf{q}_0^{\mathrm{obj}} 和期望的物体轨迹 q^1:Tobj\hat{\mathbf{q}}_{1:T}^{\mathrm{obj}},不需要 pre-grasps 或配对的运动学人类姿态。

5. 实验设置

5.1. 数据集

实验使用了三个数据集来研究大小物体的抓取能力:GRABOakInkOMOMO

  • GRAB (Grasps with Rigid Bodies) [70]:

    • 特点: 包含1.3k个配对的全身运动和物体轨迹序列,涉及50个物体(移除了不可移动的门把手)。
    • 用途: 由于提供了参考身体和物体运动,用于提取初始人类姿态和 pre-grasps
    • 实验划分: 遵循现有工作 [6],构建了跨物体 (cross-object, 训练与测试物体不重叠) 和跨主体 (cross-subject, 训练与测试主体不重叠) 测试集。
    • 评估:GRAB 上评估遵循 MoCap 物体轨迹的能力,使用平均身体形状的人形机器人。
  • OakInk [85]:

    • 特点: 包含1700个多样化的物体,分为32个类别,拥有真实世界扫描和生成的物体网格。
    • 实验划分: 1330个物体用于训练,185个用于验证,185个用于测试。训练-测试划分确保所有类别在训练和测试集中都有物体。
    • 用途: 由于没有配对的 MoCap 抓取数据,使用 GrabNet [69] 生成 pre-grasps
    • 评估: 垂直举升 (30厘米) 和保持 (3秒) 作为定量结果的轨迹。
  • OMOMO (Object Motion Guided Human Motion Synthesis) [34]:

    • 特点: 包含15个大型物体(如台灯、显示器等)及其重建网格。本文选取了其中7个网格更清晰的物体。

    • 用途: 用于展示方法在搬运大型物体方面的能力。

    • 评估: 垂直举升 (30厘米) 和保持 (3秒) 作为定量结果的轨迹。由于物体数量有限,仅在训练中使用的物体上进行测试。

      数据集中的具体样本示例: (原文中没有直接展示数据集中的具体图像样本,但描述了其内容,如 GRAB 包含全身运动和物体轨迹,OakInk 包含真实扫描和生成的物体网格,OMOMO 包含台灯、显示器等大型物体。可以通过 Figure 1, 3, 4 间接感受不同物体类型。)

以下图(原文 Figure 1)展示了 Omnigrasp 抓取不同物体的场景,这些物体来自 GRABOakInk 等数据集:

该图像是一个示意图,展示了模拟人形机器人在不同抓取动作中的表现。图中包含多种颜色的机器人,分别在不同状态下进行物体抓取和移动,体现了该方法的多样性和灵活性。 该图像是一个示意图,展示了模拟人形机器人在不同抓取动作中的表现。图中包含多种颜色的机器人,分别在不同状态下进行物体抓取和移动,体现了该方法的多样性和灵活性。

Fgure :We control a simulated humanoid to grasp diverse objects and follow complex trajectories. (T): picking up and holding objects. (Bottom): green dots - reference trajectory; pink dots - object trajectory.

以下图(原文 Figure 3)展示了 OmnigraspGRABOakInk 数据集上测试未见物体的定性结果,绿色点表示参考轨迹:

Figure 3: Qualitative results. Unseen objects are tested for GRAB and OakInk. Green dots: reference trajectories. Best seen in videos on our supplement site. 该图像是图表,展示了三种不同场景下的仿人形机器人抓取和移动物体的动画效果,包括 GRAB、OakInk 和 OMOMO,图中可见绿色点表示参考轨迹。此图展示了机器人在多样物体上进行抓取动作的能力。

Figure 3: Qualitative results. Unseen objects are tested for GRAB and OakInk. Green dots: reference trajectories. Best seen in videos on our supplement site.

5.2. 评估指标

对论文中出现的每一个评估指标,提供完整说明:

  1. 位置误差 (Position Error, EposE_{\mathrm{pos}})

    • 概念定义: 衡量模拟物体在空间中的位置与参考轨迹中对应位置的平均欧几里得距离。该指标关注物体在空间中的精确位置跟踪能力。
    • 数学公式: Epos=1Tt=1Tptobjp^tobj2 E_{\mathrm{pos}} = \frac{1}{T} \sum_{t=1}^{T} \Vert p_t^{\mathrm{obj}} - \hat{p}_t^{\mathrm{obj}} \Vert_2
    • 符号解释:
      • TT: 轨迹的总时间步数。
      • ptobjp_t^{\mathrm{obj}}: 在时间 tt 模拟物体的三维位置向量。
      • p^tobj\hat{p}_t^{\mathrm{obj}}: 在时间 tt 参考轨迹中物体的三维位置向量 (Ground Truth)。
      • 2\Vert \cdot \Vert_2: 向量的欧几里得范数(L2范数)。
    • 单位: 毫米 (mm)。
  2. 旋转误差 (Rotation Error, ErotE_{\mathrm{rot}})

    • 概念定义: 衡量模拟物体在空间中的旋转姿态与参考轨迹中对应旋转姿态的平均角距离。该指标关注物体姿态的精确跟踪能力。
    • 数学公式: Erot=1Tt=1Tangle(Rtobj,R^tobj) E_{\mathrm{rot}} = \frac{1}{T} \sum_{t=1}^{T} \mathrm{angle}(R_t^{\mathrm{obj}}, \hat{R}_t^{\mathrm{obj}}) 其中,angle(R1,R2)\mathrm{angle}(R_1, R_2) 是两个旋转矩阵 R1R_1R2R_2 之间的角度距离,可以通过 2arccos(trace(R1TR2)12)2 \arccos \left( \frac{\mathrm{trace}(R_1^T R_2) - 1}{2} \right) 计算。
    • 符号解释:
      • TT: 轨迹的总时间步数。
      • RtobjR_t^{\mathrm{obj}}: 在时间 tt 模拟物体的旋转矩阵。
      • R^tobj\hat{R}_t^{\mathrm{obj}}: 在时间 tt 参考轨迹中物体的旋转矩阵 (Ground Truth)。
      • angle(,)\mathrm{angle}(\cdot, \cdot): 计算两个旋转之间的角度差函数。
      • trace()\mathrm{trace}(\cdot): 矩阵的迹。
    • 单位: 弧度 (radian)。
  3. 加速度误差 (Acceleration Error, EaccE_{\mathrm{acc}})

    • 概念定义: 衡量模拟物体在运动过程中的平均加速度与参考轨迹中对应加速度的差异。该指标反映了物体运动平滑性和动力学真实感。
    • 数学公式: Eacc=1T2t=1T2(vt+1objvtobj)(v^t+1objv^tobj)2 E_{\mathrm{acc}} = \frac{1}{T-2} \sum_{t=1}^{T-2} \Vert (v_{t+1}^{\mathrm{obj}} - v_t^{\mathrm{obj}}) - (\hat{v}_{t+1}^{\mathrm{obj}} - \hat{v}_t^{\mathrm{obj}}) \Vert_2
    • 符号解释:
      • TT: 轨迹的总时间步数。
      • vtobjv_t^{\mathrm{obj}}: 在时间 tt 模拟物体的线性速度向量。
      • v^tobj\hat{v}_t^{\mathrm{obj}}: 在时间 tt 参考轨迹中物体的线性速度向量 (Ground Truth)。
      • 2\Vert \cdot \Vert_2: 向量的欧几里得范数(L2范数)。
    • 单位: 毫米/帧2^2 (mm/frame2^2)。
  4. 速度误差 (Velocity Error, EvelE_{\mathrm{vel}})

    • 概念定义: 衡量模拟物体在运动过程中的平均线性速度与参考轨迹中对应线性速度的差异。该指标关注物体运动速度的精确跟踪能力。
    • 数学公式: Evel=1T1t=1T1vtobjv^tobj2 E_{\mathrm{vel}} = \frac{1}{T-1} \sum_{t=1}^{T-1} \Vert v_t^{\mathrm{obj}} - \hat{v}_t^{\mathrm{obj}} \Vert_2
    • 符号解释:
      • TT: 轨迹的总时间步数。
      • vtobjv_t^{\mathrm{obj}}: 在时间 tt 模拟物体的线性速度向量。
      • v^tobj\hat{v}_t^{\mathrm{obj}}: 在时间 tt 参考轨迹中物体的线性速度向量 (Ground Truth)。
      • 2\Vert \cdot \Vert_2: 向量的欧几里得范数(L2范数)。
    • 单位: 毫米/帧 (mm/frame)。
  5. 抓取成功率 (Grasp Success Rate, Succgrasp\mathrm{Succ}_{\mathrm{grasp}})

    • 概念定义: 定义为在物理仿真中,物体在不掉落的情况下,被人形机器人抓持至少0.5秒的轨迹所占的比例。该指标衡量了抓取动作的成功与稳定程度。
  6. 轨迹目标到达率 (Trajectory Targets Reached, TTR)

    • 概念定义: 衡量在成功的抓取轨迹中,物体位置与目标位置距离小于等于12厘米的时间步数占总时间步数的比例。该指标关注在成功抓取后,物体跟随轨迹的精度。仅在成功的轨迹上进行测量。
  7. 轨迹成功率 (Trajectory Success Rate, Succtraj\mathrm{Succ}_{\mathrm{traj}})

    • 概念定义: 衡量整个轨迹跟随任务的成功率。如果物体在任何时刻与参考轨迹的距离超过25厘米,则认为该轨迹跟随不成功。该指标是更严格的整体任务成功率。

5.3. 对比基线

论文将自己的方法与以下基线模型进行了比较:

  • PPO-10B: 这是一个纯粹的 PPO 策略,不使用 PULSE-X 的潜在空间,而是直接在关节驱动空间进行训练。作者花费了大约一个月的时间(约 101010^{10} 个样本)进行训练,以展示没有运动先验的 RL 训练的效率问题。

  • PHC [42]: PHC 是一种全身运动模仿器。在这里,它被用作抓取任务的基线,通过直接向预训练的模仿器提供真实标注数据 (ground-truth) 的运动学身体和手指运动来尝试抓取物体。这旨在评估模仿器本身的精确度对抓取任务的影响。

  • AMP [56]: AMP (Adversarial Motion Priors) 是一种使用对抗运动先验进行物理模拟角色控制的方法。作者使用类似的 statereward 设计(不使用 PULSE-X 潜在空间)来训练 AMP,并设置任务和判别器奖励权重为0.5和0.5,以进行公平比较。

  • Braun et al. [6]: 这是先前在全身模拟人形机器人抓取领域的最先进 (SOTA) 工作之一。它研究了与 Omnigrasp 相似的设置,但依赖于 MoCap 人机交互数据,且只使用一只手。

    这些基线模型具有代表性,因为它们涵盖了不同的人形机器人控制和抓取策略:纯 RL (PPO-10B)、运动模仿 (PHC)、基于运动先验的 RL (AMP),以及专门针对全身抓取但有特定限制的 SOTA 方法 (Braun et al.)。通过与这些基线的比较,Omnigrasp 能够全面展示其在样本效率、运动自然度、抓取成功率和泛化能力方面的优势。

5.4. 实施细节

  • 仿真环境: 使用 Isaac Gym [45] 进行仿真。

  • 仿真频率: 策略运行频率为30 Hz,物理仿真频率为60 Hz。

  • 网络架构:

    • PULSE-XPHC-X: 每个策略都是一个6层多层感知机 (MLP),单元数为 [2048, 1536, 1024, 1024, 512, 512]。PULSE-X 的编码器和解码器是3层 MLP,单元数为 [3096, 2048, 1024]。
    • 抓取任务 (Omnigrasp): 采用基于循环神经网络 (RNN) 的循环策略 (recurrent policy),具体使用一个潜在维度为512的门控循环单元 (GRU) [14],后接一个3层 MLP
  • 训练时间:

    • Omnigrasp: 训练三天,收集约 10910^9 个样本,使用一块 Nvidia A100 GPU。
    • PHC-X: 训练一次并冻结,耗时约1.5周。
    • PULSE-X: 训练一次并冻结,耗时约3天。
  • 物理参数:

    • 物体密度: 1000kg/m31000 \mathrm{kg/m^3}
    • 物体和人形机器人手指的静态和动态摩擦系数设置为0.9。
  • 参考轨迹: 使用 ϕ=20\phi=20 帧的未来帧作为参考轨迹,以15 Hz采样。

    以下表格(原文 Table 7)详细列出了 OmnigraspPHC-XPULSE-X 的超参数:

    Method Batch Size Learning Rate σ\sigma γ\gamma e Wop Wor Wov Woav wc # of samples
    PHC-X 3072 2 × 10−5 0.05 0.99 0.2 ∼ 1010
    PULSE-X 3072 5 × 10−4 48 (Latent size) ∼ 109
    Omnigrasp 3072 5 × 10−4 0.36 0.99 0.2 0.5 0.3 0.05 0.05 0.1 ∼ 109

6. 实验结果与分析

6.1. 核心结果分析

实验结果在 GRABOakInkOMOMO 三个数据集上进行,验证了 Omnigrasp 在抓取成功率、轨迹跟随精度、泛化能力和可扩展性方面的表现。

6.1.1. GRAB 数据集 (50个物体)

为了与 Braun et al. [6] 进行公平比较,Omnigrasp 分别在仅使用 MoCap 物体轨迹和仅使用合成轨迹两种设置下进行训练。

以下是原文 Table 1,展示了在 GRAB 数据集上物体抓取和轨迹跟随的定量结果:

Method Traj | GRAB-Goal-Test (Cross-Object, 140 sequences, 5 unseen objects) GRAB-IMoS-Test (Cross-Subject, 92 sequences, 44 objects)
| Succgrasp Succtraj TTR ↑ Epos Erot Eacc Evel | Succgrasp Succtraj TTR ↑ Epos Erot Eacc Evel
PPO-10B Gen 98.4% 55.9% 97.5% 36.4 0.4 21.0 14.5 96.8% 53.2% 97.9% 35.6 0.5 19.6 13.9
PHC [42] MoCap 3.6% 11.4% 81.1% 66.3 0.8 1.5 3.8 0% 3.3% 97.4% 56.5 0.3 1.4 2.9
AMP [56] Gen 90.4% 46.6% 94.0 % 40.7 0.6 5.3 5.3 95.8 % 49.2% 96.5% 34.9 0.5 6.2 6.0
Braun et al. [6] MoCap 79% 85% - - - - 64% - 65% - - - -
Omnigrasp MoCap 94.6% 84.8% 98.7% 28.0 0.5 4.2 4.3 95.8% 85.4% 99.8% 27.5 0.6 5.0 5.0
Omnigrasp Gen 100% 94.1% 99.6% 30.2 0.93 5.4 4.7 98.9% 90.5% 99.8% 27.9 0.97 6.3 5.4
  • 与现有 SOTA 比较: Omnigrasp 在所有指标上均优于 Braun et al. [6] 和其他基线方法,尤其是在 Succ_traj (轨迹成功率) 上有显著提升。例如,在 GRAB-Goal-Test (跨物体) 上,Braun et al.Succ_grasp 为79%,TTR 为85%,而 Omnigrasp (MoCap) 达到了94.6%和98.7%。
  • PULSE-X 的重要性: PPO-10B (没有 PULSE-X) 的表现明显落后于 Omnigrasp,即使样本数量相似,这表明 PULSE-X 提供的运动先验对于提高学习效率和性能至关重要。
  • 运动模仿器的局限性: PHC (运动模仿器) 即使提供了真实标注运动学姿态,其成功率也极低,表明模仿器本身的误差 (平均30毫米) 对于精确物体抓取来说太大了,且 MoCap 与模拟人形机器人之间的身体形状不匹配也造成了误差。
  • AMP 的表现: AMP 具有较低的轨迹成功率,进一步强调了在动作空间中使用运动先验的重要性。
  • MoCap 轨迹 vs. 生成轨迹: 令人惊讶的是,使用随机生成轨迹训练的 Omnigrasp (Gen)GRAB-Goal-Test 上达到了更高的 Succ_grasp (100%) 和 Succ_traj (94.1%),甚至优于 MoCap 轨迹训练的版本。这表明生成轨迹的多样性可能帮助策略学习更鲁棒的抓取。然而,Omnigrasp (Gen)E_rot 略高,可能是因为生成轨迹在旋转变化方面不如 MoCap 真实。

6.1.2. OakInk 数据集 (1700个物体)

OakInk 数据集上,Omnigrasp 展示了其可扩展性和对未见物体的泛化能力。

以下是原文 Table 3,展示了 OakInk 数据集上的定量结果以及跨数据集测试:

OakInk-Train (1330 objects) OakInk-Test (185 objects)
Training Data Succgrasp Succtraj TTR ↑ Epos Erot Eacc Evel ↓| Succgrasp Succtraj TTR ↑ Epos Erot Eacc Evel
OakInk 93.7% 86.2% 100 % 21.3 0.4 7.7 6.0 94.3% 87.5% 100% 21.2 0.4 7.6 5.9
GGRAB 84.5% 75.% 99..9% 22.4 0.4 6.8 5.7 81.9% 72.1% 99.9% 22.7 0.4 7.1 5.8
GRAB + OakInk 95.6% 92.0% 10 % 21.0 0.6 5.4 4.8 93.5% 89.0% 100% 21.3 0.6 5.4 4.8
  • 大规模物体抓取: Omnigrasp 能够成功抓取 OakInk 训练集中1330个物体中的1272个,并实现高成功率的举升过程。在测试集上也观察到类似结果。
  • 失败物体分析: 失败的物体通常过大或过小,导致人形机器人难以建立稳定的抓取。
  • 跨数据集泛化: 仅在 GRAB 数据集上训练的策略,在 OakInk 训练集和测试集上也能获得相当高的成功率 (Succ_grasp 84.5%/81.9%),成功抓取了超过1000个未训练过的物体,展示了其鲁棒性。
  • 双手操作的重要性:GRABOakInk 组合数据集上训练的策略表现最好,因为 GRAB 包含双手 pre-grasps,使得策略学会了使用双手进行操作,这对于一些大型物体尤为重要(例如,用一只手拿起物体,再用双手搬运)。

6.1.3. OMOMO 数据集 (7个物体)

OMOMO 数据集上,Omnigrasp 展示了其处理大型物体的能力。

以下是原文 Table 2,展示了 OMOMO 数据集上的定量结果:

OMOMO (7 objects)
Succgrasp Succtraj TTR ↑ Epos Erot Eacc Evel
7/7 7/7 100% 22.8 0.2 3.1 3.3
  • 大型物体操纵: 策略成功抓取并搬运了 OMOMO 数据集中的所有7个大型物体,表现出处理大型物体所需的复杂操纵技能。

6.2. 消融实验/参数分析

6.2.1. 核心组件消融 (Ablation on Core Components)

以下是原文 Table 4,展示了 Omnigrasp 训练中不同组件的效果消融:

idx PULSE-X pre-grasp Dex-AMASS Rand-pose Hard-neg GRAB-Goal-Test (Cross-Object, 140 sequences, 5 unseen objects)
Succgrasp Succtraj TTR ↑ Epos Erot Eace Evel
1 97.0% 33.6% 92.8% 43.5 0.5 10.6 8.3
2 × 77.1% 57.9% 97.4% 54.9 1.0 5.5 5.2
3 X 94.4% 77.3% 99.3% 30.5 0.9 4.8 4.4
4 X 92.9% 79.9% 99.2% 31.4 1.1 4.5 4.4
5 × 94.0% 71.6% 98.4% 32.3 1.3 6.2 5.7
6 100% 94.1% 99.6% 30.2 0.9 5.4 4.7
  • PULSE-X (运动潜在表示): 对比第1行(不使用 PULSE-X)和第6行(使用 PULSE-X),在相同的奖励和状态设计下,使用通用运动先验显著提高了成功率。不使用 PULSE-X 会导致不自然的运动。
  • pre-grasp (前抓引导): 对比第2行(不使用 pre-grasp 奖励)和第6行,pre-grasp 奖励对于成功抓取至关重要,缺失会导致抓取成功率 Succ_grasp 从100%下降到77.1%,轨迹成功率 Succ_traj 从94.1%下降到57.9%。
  • Dex-AMASS (灵巧运动数据集): 对比第3行(不使用 Dex-AMASS 训练 PULSE-X)和第6行,不使用包含多样化手部运动的灵巧 AMASS 数据集训练 PULSE-X,会导致策略在抓取特定物体时遇到困难,抓取成功率下降,表明 Dex-AMASS 对于提升灵巧性是必要的。
  • Rand-pose (物体初始姿态随机化): 对比第4行(不进行物体初始姿态随机化)和第6行,随机化对于学习鲁棒的策略至关重要。缺失 Rand-pose 导致 Succ_traj 从94.1%下降到79.9%。
  • Hard-neg (硬性负样本挖掘): 对比第5行(不进行硬性负样本挖掘)和第6行,Hard-neg 对于学习鲁棒和成功的策略非常关键。缺失 Hard-neg 导致 Succ_traj 从94.1%下降到71.6%。

6.2.2. 其他消融 (Additional Ablations)

以下是原文 Table 8,展示了额外的消融实验结果:

idx Object Latent RNN Im-obs GRAB-Goal-Test (Cross-Object, 140 sequences, 5 unseen objects)
Succgrasp Succtraj TTR ↑ Epos Erot Eacc Evel
1 × × 100% 93.2% 99.8% 28.7 1.3 6.1 5.1
2 X X 99.9% 89.6% 99.0% 33.4 1.2 4.5 4.4
3 95.2 77.8% 97.9% 32.2 0.9 3.2 3.9
4 × | 100% 94.1% 99.6% 30.2 0.9 5.4 4.7
  • Object Latent (物体形状潜在编码): 对比第1行(不提供物体形状潜在编码)和第4行,在 GRAB 数据集的跨物体测试中,不提供物体形状潜在编码的策略也能达到相似的性能。这可能是因为对于测试的5个小型物体,人形机器人学会了一种通用的抓取方式,并且在无法用单手抓取时会依赖双手操作,此时物体形状影响较小。然而,在 GRAB 跨主体测试中,不提供物体潜在编码的策略 Succ_traj 较低 (84.2% vs 90.5%),表明物体潜在编码对于更广泛的物体仍然有用。
  • RNN (循环策略): 对比第2行(使用 MLP 策略)和第4行(使用 RNN 策略),RNN 策略在 Succ_traj 上表现更好,表明其对于处理时序依赖的轨迹跟随任务更为有效。
  • Im-obs (提供真实标注全身姿态作为输入): 对比第3行(提供真实标注全身姿态)和第4行,将真实标注全身姿态作为策略输入反而导致性能下降。这表明 Omnigrasp 的设计允许其灵活地在没有真实标注数据的情况下学习和测试新物体,并且过度依赖真实姿态可能抑制了策略自身的泛化能力。这也暗示,如果需要精确模仿人类-物体交互,可能需要像 PhysHOI [77] 那样的接触图 (contact graph)。

6.2.3. 每物体成功率分解 (Per-object Success Rate Breakdown)

以下是原文 Table 9,展示了 GRAB-Goal (跨物体) 分割中每个未见物体的成功率分解:

Object Braun et al. [6] Omnigrasp
Succgrasp Succtraj TTR ↑ Succgrasp Succtraj TTR ↑
Apple 95% - 91% 100% 99.6% 99.9%
Binoculars 54% 83% 100% 90.5% 99.6%
Camera 95% 85% 100% 97.7% 99.7%
Mug 89% - 74% 100% 97.3% 99.8%
Toothpaste 64% - 94% 100% 80.9% 99.0%
  • 对比 Braun et al.: Omnigrasp 在所有物体和指标上均优于 Braun et al. [6]。
  • 最难抓取的物体: 对策略而言,最难抓取的是牙膏 (Toothpaste),其细长表面导致抓取时容易打滑。尽管如此,Omnigrasp 仍然实现了100%的 Succ_grasp 和80.9%的 Succ_traj,远超 Braun et al. 的64% Succ_grasp

6.2.4. 分析:多样化抓取 (Diverse Grasps)

下图(原文 Figure 4)展示了 Omnigrasp 使用的抓取策略多样性:

该图像是一个展示多种物体抓取的插图,展示了不同的手型与抓取方式,包括饮料瓶、玩具、文具等多样化物体。通过这些视觉示例,表现了人形机器人的抓取能力和灵活性。 该图像是一个展示多种物体抓取的插图,展示了不同的手型与抓取方式,包括饮料瓶、玩具、文具等多样化物体。通过这些视觉示例,表现了人形机器人的抓取能力和灵活性。

Fgure (Top rows): raspin differentobjects using both hands.(Bottm) diverse grasps on the samebject.

  • 基于物体形状的抓取: Omnigrasp 能够根据物体形状(如瓶子、杯子、球等)采用不同的抓取策略。
  • 基于轨迹和初始姿态的抓取: 对于同一物体,策略也能发现不同的抓取方式以适应不同的轨迹和初始姿态。
  • 双手操作: 对于大型物体,策略会倾向于使用双手进行抓取和搬运,有时还会采用非预抓式的运输策略 (non-prehensile transport strategy)。这种行为是从 GRAB 数据集中学习到的,该数据集包含双手操作。

6.2.5. 分析:鲁棒性与 Sim-to-real 迁移潜力 (Robustness and Potential for Sim-to-real Transfer)

以下是原文 Table 5,展示了噪音对预训练 Omnigrasp 策略的影响:

Method Noise Scale GRAB-Goal-Test (Cross-Object, 140 sequences, 5 unseen objects) GRAB-IMoS-Test (Cross-Subject, 92 sequences, 44 objects)
Succgrasp Succtraj TTR ↑ Epos Erot Eace Evel Succgrasp ↑ Succtraj TTR ↑ Epos Erot Eace Evel
Omnigrasp 0 100% 94.1% 99.6% 30.2 0.93 5.4 4.7 98.9% 90.5% 99.8% 27.9 0.97 6.3 5.4
Omnigrasp 0.01 100% 91.4% 99.2% 34.8 1.1 15.6 11.5 99.5% 86.2% 99.6% 32.5 1.0 17.9 13.2
  • 对噪声的鲁棒性: 在任务观测 (位置、物体潜在编码等) 和本体感受 (proprioception) 中添加 [0.0, 0.01] 范围的均匀随机噪声后,Omnigrasp 表现出相对较好的鲁棒性,即使它没有在带噪声的环境中进行训练。
  • 性能下降: 性能下降主要体现在加速度和速度指标上,这表明这些指标对噪声更敏感。
  • Sim-to-real 潜力: 作者认为,虽然 Omnigrasp 尚未准备好在真实世界部署,但其系统设计结合 sim-to-real 迁移技术(如领域随机化 (domain randomization)、蒸馏到基于视觉的策略 (vision-based policy))具有巨大的潜力。

6.3. PULSE-X 和 PHC-X 的评估

PULSE-XPHC-X 作为 Omnigrasp 的基础,也进行了独立的评估。

以下是原文 Table 6,展示了在 dexterous AMASS 数据集上的模仿结果:

Dexterous AMASS-Train
Method Succ ↑ Eg-mpjpe Empjpe Eacc Evel
PHC-X 99.9 % 29.4 31.0 4.1 5.1
PULSE-X 99.5 % 42.9 46.4 4.6 6.7
  • PHC-X 性能: PHC-Xdexterous AMASS 数据集上实现了高成功率和低关节误差,表明其能够精确模仿包含手指运动的全身动作。
  • PULSE-X 性能: PULSE-X 在模仿性能上略有下降,这是从 PHC-X 蒸馏到潜在表示的正常现象,类似于 VAE 中的重建误差。但这表明 PULSE-X 仍然保持了足够高的运动质量。
  • 单位: EgmpjpeE_g-mpjpe 是全局平均每关节位置误差 (mm),E_mpjpe 是局部平均每关节位置误差 (mm)。

7. 总结与思考

7.1. 结论总结

本文提出了 Omnigrasp,一种新颖的方法,成功地控制模拟人形机器人抓取超过1200个多样化物体,并使其沿着复杂轨迹进行搬运。该方法的核心贡献在于引入了一个通用且灵巧的物理驱动人形运动表示 (PULSE-X),它显著提高了强化学习的样本效率,并使得策略在仅使用简单奖励和状态设计的情况下,无需配对的全身运动和物体轨迹数据即可学习抓取技能。实验结果表明,Omnigrasp 在抓取成功率和轨迹跟随精度上达到了最先进的水平,并展示了对未见物体的强大泛化能力,尤其是在处理大型物体和多样化抓取策略方面。

7.2. 局限性与未来工作

尽管 Omnigrasp 取得了显著进展,但仍存在以下局限性:

  • 精确手内操纵 (Precise In-hand Manipulation): 虽然6 DoF 的物体姿态作为输入和奖励,但 Omnigrasp 尚未能支持精确的手内操纵,例如手指对物体进行微调或旋转。

  • 轨迹跟随成功率提升空间: 尽管轨迹跟随成功率很高,但仍有提升空间,尤其是在面对物体可能掉落或未能成功抓取的情况。

  • 特定类型抓取: 该方法目前无法实现特定类型的抓取(如捏取、包络抓取等),这可能需要额外的输入,例如期望的接触点或抓取类型。

  • 人类水平灵巧性: 即使在仿真中,实现人类水平的灵巧性仍然是一个挑战。

  • 物体旋转多样性: 随机轨迹生成器在物体旋转多样性方面可能不足,导致策略在这方面表现略差。

    基于这些局限性,作者提出了以下未来研究方向:

  • 提高轨迹跟随的鲁棒性: 进一步提升轨迹跟随的成功率,减少物体掉落或未能抓取的情况。

  • 支持更多物体类别: 扩展方法以支持更广泛的物体类别和更复杂的物体交互。

  • 改进人形运动表示: 探索更先进的运动表示,例如分离手部和身体的运动表示,可能会带来进一步的性能提升。

  • 有效的物体表示: 研究不依赖于规范物体姿态 (canonical object pose) 且能够泛化到基于视觉系统 (vision-based systems) 的物体表示,这将有助于模型在更多真实世界场景中的应用。

7.3. 个人启发与批判

7.3.1. 个人启发

  1. 分层思想的强大: Omnigrasp 的成功再次印证了分层架构在解决复杂控制问题中的强大优势。将低级运动技能封装成高级动作原语,极大地简化了上层任务策略的学习,解决了高 DoF 带来的维度灾难和样本效率问题。这对于其他需要处理复杂、高维动作空间的 RL 任务具有普遍的借鉴意义。
  2. 数据高效性与泛化能力: 无需配对的全身-物体 MoCap 数据,仅通过随机生成的轨迹和 pre-grasp 引导就能实现大规模物体的抓取和泛化,这是非常令人鼓舞的。它降低了数据采集的门槛,使得该技术更容易扩展到新的物体和任务。这种通过合成数据和巧妙奖励设计来弥补真实数据稀缺性的策略,在机器人学习领域具有重要的指导价值。
  3. 运动先验的重要性: PULSE-X 作为一种通用、灵巧的运动表示,其在加速训练和生成自然运动方面的效果是显著的。这表明,在 RL 中结合领域知识(如人类运动学先验)而非纯粹从零开始探索,可以极大地提高效率和结果质量。

7.3.2. 批判

  1. pre-grasp 依赖的局限性: 虽然 pre-grasp 作为奖励引导非常有效,但其生成本身(例如使用 GrabNet)可能是一个独立的挑战,尤其是在面对高度不规则或特定功能性物体时。如果 pre-grasp 的质量不高或无法生成,可能会影响最终策略的性能。未来的工作可能需要探索更少依赖 pre-grasp 或能够自主发现 pre-grasp 的方法。

  2. 缺乏环境感知和交互: 论文提到人形机器人除了物体外没有环境感知。这在更复杂的真实世界场景中是一个显著的局限性。例如,如果物体在桌子的边缘,或者需要避开障碍物,当前的策略可能无法处理。未来工作需要将环境感知和交互纳入考虑,例如通过融合视觉信息或构建环境地图。

  3. Sim-to-real 迁移的挑战: 尽管论文讨论了潜在的 sim-to-real 潜力,并测试了噪声鲁棒性,但实际的 sim-to-real 迁移仍然充满了挑战。物理参数的差异、传感器噪声、视觉识别的准确性等都可能导致仿真中学习到的策略在真实机器人上表现不佳。需要进一步的领域随机化、领域适应或真实世界微调等技术。

  4. 精确手内操纵的缺失: 论文明确指出无法进行精确手内操纵,这限制了许多真实世界任务的应用,例如调整物体姿态、打开瓶盖或使用工具。解决这一问题将需要更精细的手部控制、更复杂的奖励设计以及可能更强的物体交互模型。

  5. 物体表示的泛化性: 论文提到未来的方向是改进不依赖规范物体姿态的物体表示。这对于提升策略对前所未见、形状高度不规则物体的泛化能力至关重要,特别是对于基于视觉输入的系统。

    总的来说,Omnigrasp 为模拟人形机器人的通用灵巧操作提供了一个强大的新范式,其在数据效率、泛化能力和运动自然度方面的创新将对未来的动画、仿真和机器人研究产生深远影响。

相似论文推荐

基于向量语义检索推荐的相关论文。

暂时没有找到相似论文。