论文状态:已完成

ResMimic: From General Motion Tracking to Humanoid Whole-body Loco-Manipulation via Residual Learning

发表:2025/10/07
原文链接PDF 下载
价格:0.100000
价格:0.100000
已有 3 人读过
本分析由 AI 生成,可能不完全准确,请以原文为准。

TL;DR 精炼摘要

本文提出了残差学习框架ResMimic,旨在提升仿人机器人在全身运动操作中的精确度和表达能力。通过在大规模人类运动数据上训练的通用运动跟踪策略作为基础,再结合效率和精确性的残差策略,优化对象交互与运动能力,并在仿真及实际机器人上进行评估,显示出显著的任务成功率和训练效率提升。

摘要

Humanoid whole-body loco-manipulation promises transformative capabilities for daily service and warehouse tasks. While recent advances in general motion tracking (GMT) have enabled humanoids to reproduce diverse human motions, these policies lack the precision and object awareness required for loco-manipulation. To this end, we introduce ResMimic, a two-stage residual learning framework for precise and expressive humanoid control from human motion data. First, a GMT policy, trained on large-scale human-only motion, serves as a task-agnostic base for generating human-like whole-body movements. An efficient but precise residual policy is then learned to refine the GMT outputs to improve locomotion and incorporate object interaction. To further facilitate efficient training, we design (i) a point-cloud-based object tracking reward for smoother optimization, (ii) a contact reward that encourages accurate humanoid body-object interactions, and (iii) a curriculum-based virtual object controller to stabilize early training. We evaluate ResMimic in both simulation and on a real Unitree G1 humanoid. Results show substantial gains in task success, training efficiency, and robustness over strong baselines. Videos are available at https://resmimic.github.io/ .

思维导图

论文精读

中文精读

1. 论文基本信息

1.1. 标题

ResMimic: 从通用运动跟踪到仿人机器人全身运动操作的残差学习 (ResMimic: From General Motion Tracking to Humanoid Whole-body Loco-Manipulation via Residual Learning)

1.2. 作者

Siheng Zhao, Yanjie Ze, Yue Wang, C. Karen Liu, Pieter Abbeel, Guanya Shi, Rocky Duan 等。 隶属机构: Amazon FAR (Frontier AI & Robotics)、USC (南加州大学)、Stanford University (斯坦福大学)、UC Berkeley (加州大学伯克利分校)、CMU (卡内基梅隆大学)。

1.3. 发表期刊/会议

该论文发布在 arXiv 预印本平台。arXiv 是一个开放获取的论文预印本库,在学术界,尤其是在计算机科学和物理学领域,被广泛用于快速分享最新的研究成果。它允许研究人员在同行评审流程完成之前公开其工作,以便及时获得反馈并加速知识传播。

1.4. 发表年份

2025 年 10 月 6 日

1.5. 摘要

仿人机器人 (humanoid robots) 的全身运动操作 (whole-body loco-manipulation) 有望为日常服务和仓储任务带来变革性能力。虽然通用运动跟踪 (General Motion Tracking, GMT) 的最新进展使仿人机器人能够复现多样化的人类运动,但这些策略 (policy) 缺乏运动操作所需的精度和物体感知能力。为此,本文引入了 ResMimic,一个两阶段的残差学习 (residual learning) 框架,用于从人类运动数据中实现精确且富有表现力的仿人机器人控制。首先,一个在大型人类专属运动数据上训练的 GMT 策略作为任务无关 (task-agnostic) 的基础,用于生成类人全身运动。然后,学习一个高效但精确的残差策略来细化 GMT 的输出,以改进运动能力并融入物体交互。为了进一步促进高效训练,本文设计了:(i) 基于点云的物体跟踪奖励 (point-cloud-based object tracking reward) 以实现更平滑的优化,(ii) 接触奖励 (contact reward) 以鼓励精确的仿人机器人身体-物体交互,以及 (iii) 基于课程学习的虚拟物体控制器 (curriculum-based virtual object controller) 以稳定早期训练。本文在仿真和真实的 Unitree G1 仿人机器人上对 ResMimic 进行了评估。结果显示,与强基线相比,ResMimic 在任务成功率、训练效率和鲁棒性方面取得了显著提升。

1.6. 原文链接

  • 论文链接: https://arxiv.org/abs/2510.05070v2
  • PDF 链接: https://arxiv.org/pdf/2510.05070v2.pdf
  • 发布状态: 预印本 (Preprint)

2. 整体概括

2.1. 研究背景与动机

仿人机器人因其灵活性和能够以类似人类的方式协调移动 (locomotion) 和操作 (manipulation) 的能力,在日常服务和工业应用中展现出巨大潜力。然而,实现精确且富有表现力的仿人机器人运动操作 (loco-manipulation) 仍然是一个基本挑战。

核心问题:

  1. 精度与物体感知不足: 尽管近期在通用运动跟踪 (General Motion Tracking, GMT) 方面取得了进展,使仿人机器人能够模仿各种人类运动,但这些策略通常不具备精确的物体感知能力,这对于运动操作至关重要。例如,GMT 策略可能能模仿人类拿起箱子的动作,但无法确保手与箱子精确接触,更无法在箱子意外滑动时进行实时调整。
  2. 体现差距 (Embodiment Gap): 将人类演示 (human demonstrations) 直接重定向 (retargeting) 到仿人机器人时,由于人类与机器人之间物理形态和动力学的差异,常常导致不完美的交互,例如浮动接触 (floating contacts) 或穿透 (penetrations)。这使得从人类数据中直接学习运动操作变得困难。
  3. 现有方法的局限性:
    • 当前的 GMT 策略虽然能重现多样化的类人运动,但对被操作的物体一无所知。
    • 现有的仿人机器人运动操作方法通常依赖于高度任务特定 (task-specific) 的设计,如阶段性控制器 (stage-wise controllers) 或手工设计的数据流程 (handcrafted data pipelines),这限制了其可扩展性 (scalability) 和通用性 (generality)。
    • 在全身控制领域,尚未有一个统一、高效、精确的框架来解决运动操作问题。

研究空白 (Gap): 当前研究缺乏一种能够将大规模通用人类运动跟踪能力与精细的物体交互能力有效结合的框架,尤其是在面对体现差距和数据稀缺问题时。

创新思路: 受基础模型 (foundation models) 中预训练-微调 (pre-train-finetune) 范式的启发,论文提出一个关键见解:虽然通用的 GMT 策略可以捕捉多样化的人类运动,但以物体为中心的运动操作需要任务特定的修正。许多全身运动(如平衡、迈步、伸手)是跨任务共享的,只有精细的物体交互需要适应。这促使了残差学习 (residual learning) 范式的提出,即在一个稳定的运动先验 (motion prior) 基础上,增加轻量级的任务特定调整。

2.2. 核心贡献/主要发现

本文的主要贡献体现在以下四个方面:

  1. 提出了两阶段残差学习框架 ResMimic: 该框架结合了预训练的通用运动跟踪 (GMT) 策略和任务特定修正,从而实现高效、精确的仿人机器人运动操作。这解决了现有 GMT 策略缺乏物体感知能力和现有运动操作方法通用性差的问题。
  2. 设计了用于提高训练效率和 sim-to-real 迁移的关键训练机制:
    • 基于点云的物体跟踪奖励 (Point-cloud-based Object Tracking Reward): 相比传统的基于姿态的奖励,该奖励提供了更平滑的优化景观,有助于策略更快收敛。
    • 接触奖励 (Contact Reward): 明确引导仿人机器人进行准确的身体-物体接触,这对于复杂的全身操作至关重要,并改善了 sim-to-real 迁移。
    • 基于课程学习的虚拟物体控制器 (Curriculum-based Virtual Object Controller): 在早期训练阶段通过虚拟力稳定物体,帮助策略克服运动数据中的不完善之处(如穿透)并避免陷入局部最优。
  3. 进行了广泛的仿真和真实世界评估:
    • 在仿真环境中(特别是从 IsaacGymMuJoCosim-to-sim 迁移)进行了大量实验,并部署到真实的 Unitree G1 仿人机器人上。
    • 结果表明,ResMimic 在人类运动跟踪、物体运动跟踪、任务成功率、训练效率、鲁棒性和泛化能力方面均取得了显著提升,并能处理挑战性的运动操作任务。
  4. 承诺发布资源以加速研究: 将发布 GPU 加速的仿真基础设施、sim-to-sim 评估原型和运动数据,以促进仿人机器人运动操作领域的研究进展。

3. 预备知识与相关工作

本节将为读者铺垫理解 ResMimic 框架所需的基础知识,并梳理其与现有研究的联系与区别。

3.1. 基础概念

  • 仿人机器人 (Humanoid Robots): 机器人的一种,其外形和运动方式模仿人类,通常拥有头部、躯干、手臂和腿部,使其能够利用人类设计的环境和工具。
  • 全身运动操作 (Whole-body Loco-Manipulation): 指仿人机器人协同利用其全身进行移动 (locomotion) 和物体操作 (manipulation) 的能力。这包括在行走、跑步、下蹲等运动中与环境中的物体进行交互。
  • 强化学习 (Reinforcement Learning, RL): 一种机器学习范式,其中一个智能体 (agent) 通过与环境 (environment) 交互来学习如何做出决策。智能体执行动作 (action),接收环境反馈的状态 (state) 和奖励 (reward),目标是最大化长期累积奖励。
  • 马尔可夫决策过程 (Markov Decision Process, MDP): 强化学习的数学框架,由一个五元组定义:M=S,A,T,R,γ\mathcal { M } = \langle \mathcal { S } , \mathcal { A } , \mathcal { T } , \mathcal { R } , \gamma \rangle
    • S\mathcal{S}: 状态空间 (State Space),表示环境所有可能的状态。
    • A\mathcal{A}: 动作空间 (Action Space),表示智能体可以执行的所有动作。
    • T\mathcal{T}: 转移动态 (Transition Dynamics),描述从一个状态采取一个动作后,环境如何转移到下一个状态的概率分布。
    • R\mathcal{R}: 奖励函数 (Reward Function),智能体在每个时间步获得的奖励。
    • γ\gamma: 折扣因子 (Discount Factor),用于平衡短期和长期奖励的权重。
  • 策略 (Policy): 定义了智能体在给定状态下选择动作的方式,通常表示为 π(as)\pi(a|s),即在状态 ss 下采取动作 aa 的概率。
  • 本体感受 (Proprioception): 机器人对自身内部状态的感知,包括关节角度、关节速度、根部姿态、角速度、接触力等。
  • 通用运动跟踪 (General Motion Tracking, GMT): 指训练一个策略,使机器人能够高精度地模仿和跟踪各种人类参考运动,而这些运动可能不涉及与物体的交互。
  • 残差学习 (Residual Learning): 一种学习范式,不是直接学习目标函数,而是学习目标函数与某个基线函数(或基线模型输出)之间的“残差”或“修正量”。在机器人控制中,这通常意味着学习一个小的动作修正量,以叠加到一个预设的或预训练的基线动作上。
  • 运动捕捉 (Motion Capture, MoCap): 通过传感器记录物体或生物体(如人类)在空间中的运动数据,生成精确的3D运动轨迹。
  • 运动重定向 (Motion Retargeting): 将一个角色的运动(例如人类的运动捕捉数据)应用到另一个具有不同骨骼结构和比例的角色(例如仿人机器人)上,使其能够执行类似的动作。
  • PD 控制器 (Proportional-Derivative Controller): 一种广泛使用的反馈控制器。它根据当前误差(比例项 PP)和误差的变化率(微分项 DD)来计算控制输出,从而驱动系统达到目标状态。
  • PPO (Proximal Policy Optimization): 一种流行的强化学习算法,旨在通过小批量更新来稳定策略学习,同时避免策略在单个更新步骤中变化过大,从而提高训练的稳定性。

3.2. 前人工作

3.2.1. 基于学习的仿人机器人控制 (Learning-Based Humanoid Control)

  • 强化学习 (RL) 的挑战: 尽管 RL 能够实现实时全身控制,但通常数据效率低下,且需要大量针对特定任务的奖励设计 [17]。因此,大多数早期工作集中在行走 (locomotion) [18], [19] 或特定任务 (如站起 [20]、保持平衡 [21]),难以实现通用全身控制。
  • 从人类运动中学习: 这是一个有前景的方向 [5]。通过运动重定向 (motion retargeting) 处理人类与机器人之间的体现差距 (embodiment gap),可以实现精确的个体运动跟踪 [22]-[24] 或通用的运动跟踪 GMT [6], [7], [25], [26]。
    • VideoMimic [27]: 在跟踪人类运动的同时重建环境,使其能够执行如坐在椅子上等情境相关 (contextual) 的动作。然而,它仍然局限于与静态环境交互,未能扩展到动态物体交互,这限制了其在现实世界中的实用性。

3.2.2. 仿人机器人运动操作 (Humanoid Loco-Manipulation)

  • 挑战: 运动操作是一个特别具有挑战性的学习问题。
  • 遥操作 (Teleoperation): Teleoperation [6], [28]-[30] 展示了一些有希望的结果,但这些方法缺乏明确的物体感知 (object awareness),且需要人类操作员。
  • 模仿学习 (Imitation Learning):Teleoperation 基础上,一些工作通过收集数据训练自主模仿学习策略 [4], [31]。然而,这些努力通常局限于桌面操作,全身表现力 (whole-body expressiveness) 有限,并且这些任务往往可以通过双臂移动操作器 (dual-arm mobile manipulators) 更有效地完成。
  • 与本文最相关的工作:
    • Dao et al. [10]: 提出了一个模块化的 sim-to-real RL 流水线,用于箱子运动操作。它将任务分解为不同阶段(如行走、拾取箱子),并为每个阶段使用单独的策略。
    • Liu et al. [11]: 引入了一个端到端 (end-to-end) 的学习流水线,使用通过任务特定轨迹优化 (trajectory optimization) 生成的参考运动。
  • 局限性: 这些现有方法通常只涉及有限的全身接触(例如,仅使用手)且表现力不足,并且依赖于高度任务特定的设计。与这些工作不同,ResMimic 利用 GMT 策略作为先验 (prior),从而在一个统一的框架下实现更具表现力的全身运动操作。

3.2.3. 机器人残差学习 (Residual Learning for Robotics)

  • 早期工作: 残差学习 (residual learning) 已在机器人学中广泛应用,用于改进预定义 (predefined) 或已学习 (learned) 的基础模型。早期工作引入残差策略来精细化 (refine) 手工设计的策略 (hand-designed policies) 或模型预测控制器 (model predictive controllers, MPC),实现了更精确和接触丰富 (contact-rich) 的操作 [32], [33]。
  • 扩展应用: 后续方法将残差学习扩展到从演示 (demonstrations) 初始化的策略 [34], [35]。在灵巧手操作 (dexterous hand manipulation) 中,残差策略被用于调整人类手部动作以实现任务导向 (task-oriented) 的控制 [36], [37]。
  • 仿人机器人领域: ASAP [22] 利用残差学习来补偿仿真与现实之间的动力学不匹配 (dynamics mismatch),从而实现敏捷的全身技能。
  • ResMimic 的独特之处: 与上述方向不同,ResMimic 利用预训练的通用运动跟踪 (GMT) 策略作为基础,并学习一个残差策略以实现富有表现力的全身运动操作。这意味着 ResMimic 的残差学习是在一个已能生成通用类人运动的强大基线之上进行的,而不是从零开始或修正简单的控制器。

3.3. 差异化分析

ResMimic 的核心差异化在于其结合了预训练的通用能力和任务特定修正的创新范式:

  • 与纯 GMT 方法的区别: 现有 GMT 方法(如 TWIST [6])虽然能使仿人机器人复制人类运动,但它们通常不感知物体,无法处理物体交互的精确性要求。ResMimic 通过引入残差策略和物体感知模块,弥补了 GMT 在物体交互方面的不足。
  • 与任务特定运动操作方法的区别: 传统的运动操作方法(如 Dao et al. [10], Liu et al. [11])往往需要针对特定任务进行大量设计或优化,通用性差,且全身接触表现力有限。ResMimic 利用 GMT 作为一个强大的、任务无关的先验,使得其在不同运动操作任务中表现出更高的通用性和表现力,并且能够利用全身接触。
  • 与传统残差学习的区别: 传统的残差学习通常是对简单的控制器或从少量演示中学习的策略进行修正。ResMimic 则将残差学习应用于一个在大规模人类运动数据上预训练的、鲁棒的 GMT 策略。这种强大的基线使得残差策略的学习负担更轻,效率更高,能够专注于细粒度的物体交互修正,而非从头学习基础运动技能。

4. 方法论

本文将仿人机器人全身运动操作任务表述为一个目标条件下的强化学习 (goal-conditioned Reinforcement Learning, RL) 问题,其形式为马尔可夫决策过程 (Markov Decision Process, MDP) M=S,A,T,R,γ\mathcal { M } = \langle \mathcal { S } , \mathcal { A } , \mathcal { T } , \mathcal { R } , \gamma \rangle

  • ss: 状态空间 (state space)。

  • A\mathcal{A}: 动作空间 (action space)。

  • T\mathcal{T}: 转移动态 (transition dynamics)。

  • R\mathcal{R}: 奖励函数 (reward function)。

  • γ\gamma: 折扣因子 (discount factor)。

    在时间步 tt,状态 stSs_t \in \mathcal{S} 包含: (i) 机器人本体感受 (robot proprioception) strs_t^r。 (ii) 物体状态 (object state) stos_t^o。 (iii) 运动目标状态 (motion goal state) s^tr\hat{s}_t^r。 (iv) 物体目标状态 (object goal state) s^to\hat{s}_t^o

动作 ata_t 指定目标关节角度 (target joint angles),通过一个 PD 控制器 (PD controller) 在机器人上执行。奖励定义为 rt=R(st,at)r_t = \mathcal{R}(s_t, a_t),训练目标是最大化期望累积折扣奖励:E[t=1Tγt1rt]\mathbb { E } [ \sum _ { t = 1 } ^ { T } \gamma ^ { t - 1 } r _ { t } ]

4.1. 方法原理

ResMimic 的核心思想是利用残差学习 (residual learning) 的优势,将复杂的仿人机器人全身运动操作任务分解为两个阶段:首先学习一个通用的、任务无关的基础运动能力,然后在此基础上学习任务特定的物体交互修正。

其直觉在于,许多基本的全身运动(如平衡、行走、伸手等)是跨任务共享的,可以通过大规模人类运动数据进行学习。而与物体交互相关的精细调整,则需要更精确的感知和修正。通过将这两部分解耦,可以避免为每个新任务从头开始训练,显著提高训练效率和泛化能力。预训练的 GMT 策略提供了一个稳定的运动先验,残差策略则在此基础上进行轻量级学习,以弥合通用运动与特定操作需求之间的差距。

4.2. 核心方法详解

ResMimic 采用两阶段残差学习框架,如下图(原文 Figure 3)所示:

该图像是示意图,展示了 ResMimic 方法的两个阶段:大规模人类动作的重标定以及残差策略训练。在第二阶段中,通过动作捕捉数据和参考人类动作,对人体的运动和物体的交互进行优化。涉及的关键奖励机制包括目标跟踪奖励和接触奖励,公式中的 \(a_t^{res} = a_t^m + riangle a_t^{res}\) 表示残差学习过程。
图:ResMimic框架概览。左侧是人类运动数据经过GMR重定向后得到机器人参考轨迹,以及物体运动轨迹。上方是第一阶段,训练通用运动跟踪(GMT)策略。下方是第二阶段,训练残差策略,结合GMT输出和物体信息,输出最终动作。

4.2.1. 阶段 I: 通用运动跟踪策略 (General Motion Tracking Policy)

这一阶段的目标是训练一个可在真实世界部署的通用运动跟踪策略 πGMT\pi_{\mathrm{GMT}}。它仅以仿人机器人的本体感受 (proprioception) strs_t^r 和人类参考运动 s^tr\hat{s}_t^r 作为输入,输出仿人机器人模仿参考运动的粗略动作 (coarse action) atgmta_t^{\mathrm{gmt}}

  1. 数据集 (Dataset): ResMimic 采用通用运动跟踪 (GMT) 作为基础,因此其核心是人类运动数据。论文利用了多个公开可用的运动捕捉 (MoCap) 数据集,包括 AMASS [8] 和 OMOMO [9],这些数据集总共包含超过 15,000 个片段(约 42 小时)。不适合机器人设置的运动(如爬楼梯)会被过滤掉。 在整理好人类运动数据集后,使用基于运动学 (kinematics-based) 的运动重定向 (motion retargeting) 方法(例如 GMR [39])将人类运动转换为适用于仿人机器人的参考轨迹集合 {S^ir={s^tr}t=1T}i=1D\{\hat{S}_i^r = \{\hat{s}_t^r\}_{t=1}^T\}_{i=1}^D

  2. 训练策略 (Training Strategy): GMT 策略 πGMT\pi_{\mathrm{GMT}} 采用单阶段强化学习 (single-stage RL) 在仿真环境中训练,不使用特权信息 (privileged information)。

    • 本体感受观测 (Proprioceptive Observation) strs_t^r: 包含机器人自身状态信息,定义为 [θt,ωt,qt,q˙t,athist]t10:t[\theta_t, \omega_t, q_t, \dot{q}_t, a_t^{\mathrm{hist}}]_{t-10:t}
      • θt\theta_t: 机器人根部 (root) 的姿态 (orientation)。
      • ωt\omega_t: 机器人根部的角速度 (angular velocity)。
      • qtR29q_t \in \mathbb{R}^{29}: 机器人所有关节的当前位置 (joint position)。
      • q˙t\dot{q}_t: 机器人所有关节的当前速度 (joint velocity)。
      • athista_t^{\mathrm{hist}}: 机器人最近的历史动作 (recent action history)。
      • 下标 t-10:t 表示这些信息涵盖了从当前时间步 tt 到过去 10 个时间步的历史。
    • 参考运动输入 (Reference Motion Input) s^tr\hat{s}_t^r: 包含人类参考运动的信息,定义为 [p^t,θ^t,q^t]t10:t+10[\hat{p}_t, \hat{\theta}_t, \hat{q}_t]_{t-10:t+10}
      • p^t\hat{p}_t: 参考运动中根部的平移 (translation)。
      • θ^t\hat{\theta}_t: 参考运动中根部的姿态。
      • q^t\hat{q}_t: 参考运动中所有关节的位置。
      • 下标 t-10:t+10 表示输入包含过去 10 个时间步和未来 10 个时间步的参考运动信息。引入未来参考运动是为了让策略能够预测并规划即将到来的目标,从而产生更平滑的跟踪效果。
  3. 奖励与域名随机化 (Reward and Domain Randomization): 遵循 TWIST [6] 的方法,运动跟踪奖励 rtmr_t^m 被公式化为三个组成部分的总和:

    • 任务奖励 (task rewards)。
    • 惩罚项 (penalty terms)。
    • 正则化项 (regularization terms)。 为了提高策略的鲁棒性 (robustness) 和泛化能力 (generalizability),以实现 sim-to-real (仿真到真实世界) 迁移,训练过程中还应用了域名随机化 (domain randomization)。

4.2.2. 阶段 II: 残差细化策略 (Residual Refinement Policy)

在预训练好的 GMT 策略 πGMT\pi_{\mathrm{GMT}} 的基础上,引入一个残差策略 πRes\pi_{\mathrm{Res}} 来细化由基础策略预测的粗略动作,从而完成期望的任务。

  1. 参考运动 (Reference Motions): 为了训练残差策略,需要包含人类与物体交互的参考数据。这些数据通过运动捕捉系统同时记录人类运动 {h^t}t=1T\{\hat{h}_t\}_{t=1}^T 和物体运动 {o^t}t=1T\{\hat{o}_t\}_{t=1}^T 来获得。

    • 人类运动 {h^t}t=1T\{\hat{h}_t\}_{t=1}^T 同样使用 GMR [39] 方法重定向到仿人机器人,生成仿人机器人参考轨迹 {s^tr=GMR(h^t)}t=1T\{\hat{s}_t^r = \mathrm{GMR}(\hat{h}_t)\}_{t=1}^T
    • 物体运动 {o^t}t=1T\{\hat{o}_t\}_{t=1}^T 则直接用作参考 s^to\hat{s}_t^o。 这些共同构成了训练残差策略的完整参考轨迹 {(s^tr,s^to)}t=1T\{(\hat{s}_t^r, \hat{s}_t^o)\}_{t=1}^T
  2. 训练策略 (Training Strategy): 残差策略的训练也采用单阶段强化学习 RL,并使用 PPO 算法。

    • 输入: 残差策略 πRes\pi_{\mathrm{Res}} 的输入包括:机器人本体感受 strs_t^r, 物体状态 stos_t^o, 运动目标状态 s^tr\hat{s}_t^r, 和物体目标状态 s^to\hat{s}_t^o

    • 输出: 一个残差动作 ΔatresR29\Delta a_t^{\mathrm{res}} \in \mathbb{R}^{29}

    • 最终动作: 机器人的最终动作 ata_tGMT 策略的输出和残差策略的输出叠加得到:at=atgmt+Δatresa_t = a_t^{\mathrm{gmt}} + \Delta a_t^{\mathrm{res}}

    • 物体状态表示 stos_t^o: 定义为 [pto,θto,vto,ωto][p_t^o, \theta_t^o, v_t^o, \omega_t^o]

      • ptop_t^o: 物体根部 (root) 的平移 (translation)。
      • θto\theta_t^o: 物体根部的姿态 (orientation)。
      • vtov_t^o: 物体根部的线速度 (linear velocity)。
      • ωto\omega_t^o: 物体根部的角速度 (angular velocity)。
    • 参考物体轨迹 s^to\hat{s}_t^o: 定义为 [p^to,θ^to,v^to,ω^to]t10:t+10[\hat{p}_t^o, \hat{\theta}_t^o, \hat{v}_t^o, \hat{\omega}_t^o]_{t-10:t+10},同样包含过去和未来的信息。

    • 网络初始化 (Network Initialization): 在训练开始时,仿人机器人已经能很好地模仿参考人类运动。因此,理想情况下,残差策略应该输出接近零的值,即进行微小的修正。为了实现这一点,PPO 演员网络 (actor) 的最后一层使用 Xavier uniform initialization (一种常用的神经网络权重初始化方法,旨在保持激活函数输入和输出的方差一致) 并带有较小的增益因子 (gain factor),确保初始输出接近零 [40]。

    • 虚拟物体控制器课程 (Virtual Object Force Curriculum): 当参考运动存在噪声、物体较重或存在运动学重定向引入的穿透 (penetration) 时,策略在早期训练阶段可能会失败。为了解决这些问题,本文引入了一个虚拟物体控制器课程 (virtual object controller curriculum),通过将物体驱动到其参考轨迹来稳定训练。 在每个时间步,PD 控制器会施加虚拟的力和扭矩: Ft=kp(p^topto)kdvto \mathcal F _ { t } = k _ { p } ( \hat { p } _ { t } ^ { o } - p _ { t } ^ { o } ) - k _ { d } v _ { t } ^ { o } Tt=kp(θ^toθto)kdωto \mathcal T _ { t } = k _ { p } ( \hat { \theta } _ { t } ^ { o } \ominus \theta _ { t } ^ { o } ) - k _ { d } \omega _ { t } ^ { o }

      • 符号解释:
        • Ft\mathcal F _ { t }: 在时间步 tt 施加到物体上的虚拟控制力向量。
        • Tt\mathcal T _ { t }: 在时间步 tt 施加到物体上的虚拟控制扭矩向量。
        • kpk_p: PD 控制器中的比例增益 (Proportional Gain),用于控制对位置或姿态误差的响应强度。
        • kdk_d: PD 控制器中的微分增益 (Derivative Gain),用于控制对速度或角速度误差的响应强度。
        • p^to\hat{p}_t^o: 在时间步 tt 时,物体参考轨迹中的根部平移向量。
        • ptop_t^o: 在时间步 tt 时,模拟环境中物体的当前根部平移向量。
        • vtov_t^o: 在时间步 tt 时,模拟环境中物体的当前根部线速度向量。
        • θ^to\hat{\theta}_t^o: 在时间步 tt 时,物体参考轨迹中的根部姿态(通常表示为四元数或旋转矩阵)。
        • θto\theta_t^o: 在时间步 tt 时,模拟环境中物体的当前根部姿态。
        • ωto\omega_t^o: 在时间步 tt 时,模拟环境中物体的当前根部角速度向量。
        • \ominus: 表示两个姿态之间的旋转差异运算,通常返回一个表示从 θto\theta_t^o 旋转到 θ^to\hat{\theta}_t^o 的角度或轴角表示。
      • 课程学习机制: 控制器增益 (kp,kd)(k_p, k_d) 会逐渐衰减。这意味着在训练早期,强大的虚拟辅助可以稳定物体,帮助策略渡过初期不稳定的阶段;随着训练的进行,辅助作用减弱,策略被迫自主接管并完成任务。
  3. 奖励与提前终止 (Reward and Early Termination): 将运动跟踪与物体交互解耦带来了一个额外的好处:无需仔细调整运动奖励和物体奖励之间的相对权重。本文直接重用 GMT 训练中的运动奖励 rtmr_t^m 和域名随机化,并引入两个额外的项:物体跟踪奖励 rtor_t^o(鼓励任务完成)和接触跟踪奖励 rtcr_t^c(提供身体-物体接触的明确指导)。

    • 物体跟踪奖励 (Object Tracking Reward) rtor_t^o: 传统方法 [11], [42] 通常通过计算模拟物体与参考物体之间的姿态差异来衡量物体跟踪效果。本文提出了一种具有更平滑奖励景观 (smoother reward landscape) 的替代方法:从物体网格表面采样 NN 个点,并计算当前状态与参考状态之间的点云差异。 rto=exp(λoi=1NP[i]tP^[i]t2) r _ { t } ^ { o } = \exp ( - \lambda _ { o } \sum _ { i = 1 } ^ { N } \| \mathbf { P } [ i ] _ { t } - \hat { \mathbf { P } } [ i ] _ { t } \| _ { 2 } )

      • 符号解释:
        • rtor_t^o: 在时间步 tt 的物体跟踪奖励。
        • exp()\exp(\cdot): 指数函数,用于将累积误差映射到一个介于 (0, 1] 之间的奖励值。误差越小,奖励越接近 1。
        • λo\lambda_o: 一个正的超参数 (hyperparameter),用于调整误差对奖励的敏感度。λo\lambda_o 越大,奖励对误差的惩罚越严格。
        • NN: 从物体网格表面采样的三维点云数量。
        • P[i]tRN×3\mathbf{P}[i]_t \in \mathbb{R}^{N \times 3}: 在时间步 tt 时,模拟环境中物体上第 ii 个采样点的三维坐标向量。
        • P^[i]tRN×3\hat{\mathbf{P}}[i]_t \in \mathbb{R}^{N \times 3}: 在时间步 tt 时,参考轨迹中物体上第 ii 个采样点的三维坐标向量。
        • 2\| \cdot \|_2: 欧几里得范数 (L2 norm),表示两个三维点之间的距离。
        • i=1N\sum_{i=1}^N: 对所有 NN 个采样点之间的欧几里得距离求和,得到总的点云差异。
      • 优势: 这种方法自然地考虑了物体的平移和旋转,无需针对特定任务手动调整权重,从而简化了奖励设计。
    • 接触奖励 (Contact Reward) rtcr_t^c: 为了鼓励在全身操作过程中发生正确的物理交互,同时保持效率,本文将接触位置离散化为有意义的机器人链接 (links),例如躯干 (torso)、髋部 (hip) 和手臂 (arms),脚部 (feet) 被排除在外,因为它们主要与地面接触。预言机接触信息 (Oracle contact information) 从参考的人类-物体交互轨迹中获取。 c^t[i]=1(d^t[i]<σc) \hat { c } _ { t } [ i ] = \mathbf { 1 } ( \lVert \hat { d } _ { t } [ i ] \rVert < \sigma _ { c } )

      • 符号解释:
        • c^t[i]\hat{c}_t[i]: 在时间步 tt 时,链接 ii 是否应该与物体接触的指示函数结果(1表示应该接触,0表示不应该接触)。
        • 1()\mathbf{1}(\cdot): 指示函数 (indicator function),当括号内的条件为真时返回 1,否则返回 0。
        • ii: 机器人特定链接的索引。
        • d^t[i]\lVert \hat { d } _ { t } [ i ] \rVert: 在时间步 tt 时,链接 ii 与物体表面之间的距离。
        • σc\sigma_c: 一个距离阈值,如果链接与物体表面的距离小于此阈值,则认为它们“接触”。 接触跟踪奖励 rtcr_t^c 随后定义为: rtc=ic^t[i]exp(λft[i]) r _ { t } ^ { c } = \sum _ { i } \hat { c } _ { t } [ i ] \cdot \exp \Big ( - \frac { \lambda } { f _ { t } [ i ] } \Big )
      • 符号解释:
        • rtcr_t^c: 在时间步 tt 的接触跟踪奖励。
        • i\sum_i: 对所有被考虑的机器人链接 ii 的接触奖励求和。
        • c^t[i]\hat{c}_t[i]: 同上,表示链接 ii 是否应该接触物体的指示值。这个项确保只有在参考中预期有接触时才计算奖励。
        • exp()\exp(\cdot): 指数函数。
        • λ\lambda: 一个正的超参数,用于调节接触力对奖励的影响强度。
        • ft[i]f_t[i]: 在时间步 tt 时,链接 ii 上感受到的接触力 (contact force)。
      • 奖励机制的直觉: 当链接 ii 应该与物体接触 (c^t[i]=1\hat{c}_t[i]=1) 时,这个奖励项会鼓励该链接产生足够的接触力。如果接触力 ft[i]f_t[i] 很小(接近零),则 λ/ft[i]\lambda / f_t[i] 会变得非常大,导致 exp(λ/ft[i])\exp(-\lambda/f_t[i]) 趋近于零,奖励也趋近于零。随着接触力 ft[i]f_t[i] 增大,奖励值会逐渐增大,趋近于 1。这鼓励机器人不仅要接触物体,还要施加足够的力来维持有效的交互,从而避免浮动接触或无效接触,有助于 sim-to-real 迁移。
    • 提前终止 (Early Termination): 通常用于运动跟踪的提前终止机制 [5] 会在身体部位发生意外的地面接触或与参考运动严重偏离时结束一个回合 (episode),防止策略在无效状态上进行不必要的优化。 对于仿人机器人全身运动操作,本文引入了额外的提前终止条件:

      • 物体网格 (object mesh) 与其参考轨迹的偏差超过阈值:PtP^t2>σo\| \mathbf { P } _ { t } - \hat { \mathbf { P } } _ { t } \| _ { 2 } > \sigma _ { o }(这里我假设原文的 P˙t\dot{\mathbf{P}}_t 在上下文指代的是当前物体点云,与 EoE_o 的定义保持一致,其中 Pt\mathbf{P}_tP^t\hat{\mathbf{P}}_t 分别表示当前和参考物体点云)。
      • 任何所需的身体-物体接触连续丢失超过 10 帧。这些条件确保训练过程只关注有效的交互和成功的任务尝试。

5. 实验设置

本节详细描述了 ResMimic 的实验设置,包括所选任务、评估指标和对比基线,旨在全面评估其有效性和鲁棒性。

5.1. 任务

为了全面测试 ResMimic 在仿人机器人控制和泛化方面的能力,论文设计了四个具有挑战性的全身运动操作任务,这些任务对机器人的协调性和适应性提出了不同要求。人类与物体交互的参考运动通过 OptiTrack 运动捕捉系统收集。

  1. 跪下并提起箱子 (Kneel):
    • 描述: 机器人单膝跪地,然后提起一个箱子。
    • 挑战: 需要富有表现力的大幅度运动,以及对下半身精确的协调控制。
  2. 背负箱子 (Carry):
    • 描述: 机器人将箱子搬运到背部。
    • 挑战: 需要全身的表达能力,同时在负载分布变化时保持平衡。
  3. 下蹲并用手臂和躯干提起箱子 (Squat):
    • 描述: 机器人下蹲,并用手臂和躯干协同提起箱子。
    • 挑战: 强调富含全身接触的操作,要求机器人协调多个身体部位与物体进行物理交互。
  4. 提起椅子 (Chair):
    • 描述: 机器人提起一把椅子。
    • 挑战: 涉及操作一个相对较重且形状不规则的物体,对机器人的抓取策略和平衡能力提出更高要求。

5.2. 评估指标

为了衡量 ResMimic 的性能,实验采用了以下关键指标:

  1. 训练迭代次数 (Training Iterations, Iter.):

    • 概念定义: 衡量模型达到收敛所需的训练步数。迭代次数越少,表示训练效率越高。
    • 数学公式: 该指标通常以整数值报告,没有统一的数学公式,因为它直接统计训练循环的次数。
    • 符号解释: 在报告中,Iter. 通常表示达到稳定性能所需的迭代次数。为了消除硬件差异,它比挂钟时间 (wall-clock time) 更能反映算法效率。收敛的判断标准是奖励值停止显著增加。
  2. 物体跟踪误差 (Object Tracking Error, EoE_o):

    • 概念定义: 量化模拟环境中被操作物体与参考轨迹中物体之间的几何差异。误差越小,表示物体跟踪越精确。
    • 数学公式: Eo=1Tt=1Ti=1NP[i]tP^[i]t2 E _ { o } = \frac { 1 } { T } \sum _ { t = 1 } ^ { T } \sum _ { i = 1 } ^ { N } \| \mathbf { P } [ i ] _ { t } - \hat { \mathbf { P } } [ i ] _ { t } \| _ { 2 }
    • 符号解释:
      • EoE_o: 平均物体跟踪误差。
      • TT: 评估轨迹的总时间步长。
      • NN: 从物体网格表面采样的三维点云数量。
      • P[i]t\mathbf{P}[i]_t: 在时间步 tt 时,模拟环境中物体上第 ii 个采样点的三维坐标向量。
      • P^[i]t\hat{\mathbf{P}}[i]_t: 在时间步 tt 时,参考轨迹中物体上第 ii 个采样点的三维坐标向量。
      • 2\| \cdot \|_2: 欧几里得范数 (L2 norm),表示两个三维点之间的直线距离。
      • t=1Ti=1N\sum_{t=1}^T \sum_{i=1}^N: 对所有时间步和所有采样点的欧几里得距离求和,然后取平均。
  3. 运动跟踪误差 (Motion Tracking Error, EmE_m):

    • 概念定义: 量化仿人机器人身体关键部位(如关节、末端执行器)与参考人类运动中对应关键部位之间的位置差异。误差越小,表示机器人运动越接近参考运动。
    • 数学公式: Em=1Tt=1Tipt[i]p^t[i]2 E _ { m } = \frac { 1 } { T } \sum _ { t = 1 } ^ { T } \sum _ { i } \| p _ { t } [ i ] - \hat { p } _ { t } [ i ] \| _ { 2 }
    • 符号解释:
      • EmE_m: 平均运动跟踪误差。
      • TT: 评估轨迹的总时间步长。
      • ii: 仿人机器人身体第 ii 个关键部位(例如,手腕、肘部、膝盖等)的索引。
      • pt[i]p_t[i]: 在时间步 tt 时,仿人机器人身体第 ii 个关键部位的全局位置。
      • p^t[i]\hat{p}_t[i]: 在时间步 tt 时,参考人类运动中第 ii 个关键部位的全局位置。
      • 2\| \cdot \|_2: 欧几里得范数。
  4. 关节跟踪误差 (Joint Tracking Error, EjE_j):

    • 概念定义: 量化仿人机器人所有关节角度配置与参考运动中关节角度配置之间的差异。误差越小,表示机器人关节运动的精确度越高。
    • 数学公式: Ej=1Tt=1Tqtq^t2 E _ { j } = \frac { 1 } { T } \sum _ { t = 1 } ^ { T } \| q _ { t } - \hat { q } _ { t } \| _ { 2 }
    • 符号解释:
      • EjE_j: 平均关节跟踪误差。
      • TT: 评估轨迹的总时间步长。
      • qtR29q_t \in \mathbb{R}^{29}: 在时间步 tt 时,仿人机器人所有 29 个关节的位置(角度)向量。
      • q^tR29\hat{q}_t \in \mathbb{R}^{29}: 在时间步 tt 时,参考运动中所有 29 个关节的位置向量。
      • 2\| \cdot \|_2: 欧几里得范数。
  5. 任务成功率 (Task Success Rate, SR):

    • 概念定义: 成功完成任务的试验百分比。这是衡量方法整体有效性的高层次指标。
    • 数学公式: 通常以百分比表示,通过统计成功完成的回合数除以总回合数。
    • 符号解释: 一个回合被认为是成功的,如果:
      • 物体跟踪误差 EoE_o 低于预定义阈值。
      • 机器人保持平衡。

5.3. 对比基线

为了全面验证 ResMimic 的有效性和效率,论文将其与以下三种具有代表性的强基线模型进行了比较:

  1. 基础策略 (Base Policy):

    • 描述: 直接部署预训练的通用运动跟踪 (GMT) 策略来跟随人类参考运动。
    • 特点: 不会访问任何物体信息。这代表了现有 GMT 方法的性能上限,但其设计目标并非物体操作。
  2. 从头训练 (Train from Scratch):

    • 描述: 训练一个单阶段的强化学习 (RL) 策略。该策略从零开始,直接学习同时跟踪人类运动和物体轨迹。
    • 特点: 不利用任何预训练的 GMT 策略。为了公平比较,该基线在所有任务中使用了与 ResMimic 相同的奖励项和域名随机化,但未进行任务特定的微调。这代表了不利用预训练模型优势的端到端学习方法。
  3. 基础策略 + 微调 (Base Policy + Fine-tune):

    • 描述: 对预训练的 GMT 基础策略进行微调,使其能够跟踪人类运动和物体轨迹。
    • 特点: 使用与 ResMimic 相同的奖励项。然而,由于 GMT 策略的架构限制,它无法将明确的物体信息作为输入,只能通过物体跟踪奖励间接学习。这代表了在通用基础策略上进行直接微调的尝试,以评估其适应物体交互的能力。

6. 实验结果与分析

本节将详细分析 ResMimic 在仿真和真实世界中的实验结果,并与基线进行比较,以回答论文提出的核心研究问题。所有策略都在 IsaacGym 中训练,以利用其大规模并行计算加速数据收集。为评估泛化能力,sim-to-sim 迁移评估在 MuJoCo 中进行,MuJoCo 被认为是更接近真实世界物理特性的仿真器。

6.1. 核心结果分析

Q1: 通用运动跟踪 (GMT) 策略在不进行任务特定再训练的情况下,能否完成多样化的运动操作任务?

结果: GMT 策略单独无法完成运动操作任务,但提供了强大的初始化。如 Table I 所示,GMT 基础策略的平均任务成功率仅为 10%,而 ResMimic 达到了 92.5%。尽管 GMT 在关节跟踪误差 (Ej) 上可能略低(因为其训练目标就是精确跟踪运动),但在物体跟踪误差 (Eo) 和整体任务完成方面表现不佳,因为它无法访问物体信息。这表明,虽然 GMT 捕捉了关节层面的精确度,但如果没有适应性,它不足以进行操作。

Q2: 从预训练的 GMT 策略初始化是否能提高训练效率和最终性能,优于从头开始训练?

结果: 使用 GMT 作为基础策略显著提高了训练效率和有效性。Table I 显示,Train from Scratch (从头训练) 策略在 MuJoCo 仿真环境中未能解决这些任务,且收敛速度慢得多(平均 4500 迭代)。此外,Figure 5 展示了 Train from Scratch 策略在 IsaacGym 中可能部分成功,但在 sim-to-sim 迁移到 MuJoCo 时完全崩溃。相比之下,ResMimic 保持了强大的性能,且性能下降极小。这证明了将 GMT 作为基础的必要性:其大规模预训练赋予了策略对 sim-to-sim 差距的泛化能力和鲁棒性。

Q3: 在将 GMT 策略适应到运动操作任务时,残差学习是否比微调更有效?

结果: 残差学习优于直接微调。Table I 表明,Finetune (微调) 策略虽然比 Train from Scratch 略有改进,但其性能既不如基础 GMT 策略(在某些任务上),也远远未能达到 ResMimic 的水平。一个关键限制是,微调无法将额外的物体观测作为输入,因为 GMT 策略的架构仅限于人类运动输入。尽管物体跟踪奖励提供了某种形式的监督,但缺乏明确的物体状态输入使得策略难以学习鲁棒的行为,尤其是在随机物体姿态下。此外,微调往往会覆盖 GMT 策略的泛化能力,导致跨任务的不稳定性。Figure 5 也显示,微调策略在 IsaacGymChair-Lift 任务中成功,但在 MuJoCo 中无法迁移,进一步强调了残差学习作为更通用和可扩展适应策略的优越性。

6.2. 数据呈现 (表格)

以下是原文 Table I 的结果:

Method Task SR ↑ Iter. ↓ Eo↓ Em↓ Ej↓
BasePolicy Kneel 0% 0.76 ± 0.01 3.30 ± 0.53 0.28 ± 0.01
Carry 0% 0.29 ± 0.02 2.47 ± 0.26 1.19 ± 0.30
Squat 40% 0.19 ± 0.01 0.93 ± 0.07 0.90 ± 0.08
Chair 0% 1.19 ± 0.48 30.18 ± 33.45 1.20 ± 0.23
Mean 10% 0.61 9.22 0.89
TrainfromScratch Kneel 0% × 0.69 ± 0.00 5.20 ± 0.62 3.41 ± 0.07
Carry 0% 6500 0.70 ± 0.03 5.39 ± 0.38 2.33 ± 0.06
Squat 0% 5000 0.68 ± 0.05 7.56 ± 2.31 4.28 ± 0.70
Chair 0% 2000 0.97 ± 0.08 10.01 ± 1.28 13.36 ± 0.92
Mean 0% 4500 0.76 7.04 5.84
Finetune Kneel 0% × 0.87 ± 0.01 5.92 ± 0.81 3.02 ± 0.18
Carry 30% 4500 0.33 ± 0.01 2.49 ± 0.18 2.39 ± 0.06
Squat 0% 2000 0.47 ± 0.05 5.07 ± 1.06 2.53 ± 0.13
Chair 0% 700 0.15 ± 0.01 0.28 ± 0.05 1.26 ± 0.09
Mean 7.5% 2400 0.46 3.44 2.30
ResMimic(Ours) Kneel 90% 2000 0.14 ± 0.00 0.23 ± 0.06 2.17 ± 0.06
Carry 100% 1000 0.11 ± 0.00 0.08 ± 0.00 1.24 ± 0.03
Squat 80% 1500 0.07 ± 0.01 0.07 ± 0.03 1.18 ± 0.03
Chair 100% 700 0.16 ± 0.01 0.13 ± 0.02 0.55 ± 0.01
Mean 92.5% 1300 0.12 0.13 1.29

Table I 分析总结:

  • 成功率 (SR): ResMimic 在所有任务中都展现出极高的成功率(平均 92.5%),远超其他基线。BasePolicyTrainfromScratch 的成功率几乎为零,Finetune 也仅为 7.5%。这直接证明了 ResMimic 在解决全身运动操作任务方面的有效性。

  • 训练迭代次数 (Iter.): ResMimic 的平均训练迭代次数为 1300,显著低于 TrainfromScratch (4500) 和 Finetune (2400)。这表明 ResMimic 的两阶段残差学习框架,特别是利用预训练 GMT 策略,极大地提高了训练效率。

  • 物体跟踪误差 (Eo): ResMimic 的物体跟踪误差最低(平均 0.12),说明其能够精确地使机器人与物体交互,并使其遵循参考轨迹。其他基线的误差显著更高,尤其 BasePolicy 甚至没有物体感知能力。

  • 运动跟踪误差 (Em): ResMimic 在运动跟踪误差方面也表现出色(平均 0.13),尽管 BasePolicy 的关节跟踪误差 (EjE_j) 较低,但其整体运动跟踪能力却不佳,这再次强调了仅有运动跟踪不足以完成操作任务。

  • 关节跟踪误差 (Ej): ResMimic 的关节跟踪误差(平均 1.29)在完成任务的同时保持了合理的精度。值得注意的是,BasePolicy 在关节误差上最低,但这可能是因为它专注于运动本身,而忽略了物体交互带来的姿态调整需求。TrainfromScratchFinetune 在关节误差上均显著高于 ResMimic,表明它们在全身协调控制方面存在问题。

    下图(原文 Figure 5)比较了 IsaacGymMuJoCo 仿真结果,以评估 sim-to-sim 迁移能力:

    该图像是示意图,展示了ResMimic框架与其他基线方法在IsaacGym环境和MuJoCo环境中的训练过程和效果比较。上半部分为树立物体并行走的过程,底部则是坐在椅子上进行操作的过程,同时配有相应的训练曲线 \(E_0\) 。 图:IsaacGym与MuJoCo仿真环境中不同策略的性能比较。上图展示了在“搬椅子”任务中,ResMimic(绿色)在MuJoCo中表现稳定,而其他基线则失败。下图的曲线量化了训练过程中物体跟踪误差(Eo),显示了ResMimic的训练效率和鲁棒性。

    Figure 5 分析: 该图直观地展示了 ResMimicsim-to-sim 迁移方面的优越性。在 Chair 任务中,Train from Scratch (红色曲线) 和 Finetune (蓝色曲线) 在 IsaacGym 中可能表现出一定的收敛性(曲线下降),但在迁移到 MuJoCo 后,其物体跟踪误差 (Eo) 迅速恶化,表明策略无法适应更真实的物理环境。相比之下,ResMimic (绿色曲线) 在 MuJoCo 中依然能够保持较低的 Eo 值,证明了其在 GMT 基础上的预训练和残差学习范式,能够有效增强策略的泛化性和鲁棒性。

6.3. 真实世界评估 (Real-world Evaluation)

ResMimic 在真实的 Unitree G1 仿人机器人上进行了部署和演示,展示了精确、富有表现力、鲁棒的全身运动操作能力。

下图(原文 Figure 1)展示了 ResMimic 在真实 Unitree G1 仿人机器人上的全身运动操作能力。这些结果主要在盲部署 (blind deployment) 模式下实现(即机器人不直接接收物体状态输入,而是通过模仿人类运动间接感知物体):

该图像是示意图,展示了ResMimic框架下的仿人机器人进行全身运动执行的过程,包含多种任务(标记为(a)至(f)),如抓取箱子、与物体交互和坐下。这些图像体现了机器人的精准控制和对象感知能力。
图:ResMimic在Unitree G1仿人机器人上展示的全身运动操作能力。 (a) 通过全身接触搬运4.5kg重物;(b), (c) 在搬运箱子时的富有表现力运动;(d) 仿人机器人坐下和站起。

真实世界演示亮点:

  • 富有表现力的搬运动作: 机器人可以单膝跪地捡起箱子,或将箱子背负在背上,这突出显示了其富有表现力的全身运动能力。

  • 超越操作的人形机器人-物体交互: 机器人能够坐在椅子上,然后站起来,同时保持平衡并与环境保持接触。

  • 全身接触下的重载搬运: 机器人成功搬运了一个 4.5kg 的箱子,而 Unitree G1 的腕部有效载荷限制约为 2.5kg。这证明了利用全身接触来处理超出单个肢体承受能力的重物的必要性。

  • 泛化到不规则重物: 机器人能够提起并搬运重量分别为 4.5kg5.5kg 的椅子,显示了对新型非箱形几何物体的实例级泛化能力。

    下图(原文 Figure 6)定性比较了 ResMimic 与所有其他基线在真实世界中的表现:

    Fig. 6: Real-world qualitative results comparing ResMimic against all other baselines. 图:真实世界中ResMimic与其他所有基线的定性比较。ResMimic能够精确地与物体交互并执行任务,而其他基线则显示出明显不足。

    Figure 6 分析: 真实世界中的定性比较结果表明,虽然 Base Policy 能够表面上模仿人类运动,但它缺乏物体感知能力,这在演示数据不完善时问题会更加突出。Train from ScratchFinetune 则由于 sim-to-real 差距而完全失败。这再次强调了 ResMimic 在仿真和真实世界中的鲁棒性和有效性。

下图(原文 Figure 4)展示了 ResMimic非盲部署 (non-blind deployment) 模式下的表现(即机器人接收基于 MoCap 的物体状态输入):

该图像是示意图,展示了ResMimic框架中的三种不同动作场景:(a) 幫助搬运货物;(b) 进行复杂的对象交互;(c) 应对扰动的操作。通过这种方式,展示了人形机器人在多种情境下的动态表现与适应能力。
图:ResMimic在Unitree G1上进行基于MoCap的物体状态输入的非盲部署。 (a) 从随机初始姿态操作物体;(b) 连续自主执行运动操作任务;(c) 对外部扰动作出反应。

Figure 4 分析: 在非盲部署设置下,机器人展现了:(i) 从随机初始姿态操纵物体的能力,(ii) 自主连续执行运动操作任务的能力,以及 (iii) 对外部扰动表现出反应行为的能力。这证明了当提供精确的物体状态信息时,ResMimic 能够实现更高级别的自主性和适应性。

6.4. 消融实验 (Ablation Studies)

为了验证 ResMimic 框架中各组件的有效性,论文进行了消融实验。

6.4.1. 虚拟物体控制器 (Virtual Object Controller) 的影响

下图(原文 Figure 7)展示了有无虚拟物体控制器时的表现对比:

Fig. 7: Ablation on virtual object controller.
图:虚拟物体控制器消融实验。上方展示了无控制器时策略的失败,下方展示了有控制器时策略的成功。

分析: 虚拟物体控制器旨在通过应用基于课程学习的虚拟力 (virtual forces) 来引导物体朝向其参考轨迹,从而稳定早期训练阶段。

  • 在图示的例子中,参考运动中存在人类手臂与物体之间的穿透等不完善之处。如果没有虚拟物体控制器,策略在早期训练中可能只专注于运动跟踪以接近物体,导致物体被撞倒。这会产生低的物体奖励和频繁的提前终止,使策略迅速陷入局部最优,即机器人选择后退而不是与物体交互。
  • 相比之下,当引入虚拟力课程时,物体在早期学习阶段保持稳定,使得策略能够克服运动数据中的不完善之处,并最终收敛到精确的操作策略。这表明虚拟物体控制器对于策略能够从有缺陷的运动数据中学习并稳定训练至关重要。

6.4.2. 接触奖励 (Contact Reward) 的影响

下图(原文 Figure 8)展示了有无接触奖励时的表现对比:

Fig. 8: Ablation on contact reward. Here NCR denotes "No Contact Reward", and CR denotes "with Contact Reward". Corresponding curves (bottom) quantify torso contact force.
图:接触奖励消融实验。NCR表示“无接触奖励”,CR表示“有接触奖励”。下方曲线量化了躯干接触力。

分析: 接触奖励旨在明确引导策略利用全身接触策略。

  • 如图所示,提起箱子有两种可能的方式:(1) 仅依靠手腕和手,或 (2) 像人类演示的那样,同时使用躯干和手臂进行接触。
  • 如果没有接触奖励 (NCR),策略倾向于收敛到方式 (1)。这种方式可能在 IsaacGym 中成功,但无法迁移到更真实的 MuJoCo 和真实世界,因为仅依靠手腕和手的接触不足以稳定重物。
  • 有了接触奖励 (CR),仿人机器人则会采用方式 (2),即使用协调的躯干和手臂接触。这种与人类演示的一致性带来了更好的 sim-to-simsim-to-real 迁移效果,验证了接触奖励在鼓励有效全身交互中的重要性。底部的曲线也显示,有了接触奖励,躯干的接触力显著增加,表明机器人确实学会了利用躯干进行支撑。

7. 总结与思考

7.1. 结论总结

本文提出了 ResMimic,一个用于仿人机器人全身运动操作的两阶段残差学习框架。该框架通过首先在大规模人类运动数据上预训练一个通用运动跟踪 (GMT) 策略,然后利用一个任务特定的残差策略对其进行细化,从而实现了精确、富有表现力且鲁棒的机器人控制。

ResMimic 的主要优势在于:

  1. 高效性: 利用 GMT 作为强大的运动先验,显著提高了训练效率,减少了从头学习的负担。

  2. 精确性与表现力: 通过残差策略精确地融入物体交互,弥补了 GMT 在物体感知上的不足,使机器人能够执行类人且富有表现力的全身运动操作。

  3. 鲁棒性与泛化能力: 引入点云物体跟踪奖励、接触奖励和虚拟物体控制器课程,不仅优化了训练过程,还增强了策略在 sim-to-sim 迁移和真实世界部署中的鲁棒性和泛化能力。

    在仿真和真实 Unitree G1 仿人机器人上的广泛实验证明,ResMimic 在任务成功率、运动保真度、训练效率和对未见物体(如椅子)的泛化能力方面均取得了显著提升。这些结果突显了预训练策略在仿人机器人控制领域中变革性的潜力。

7.2. 局限性与未来工作

尽管 ResMimic 取得了显著进展,但论文中未明确提及的潜在局限性及可能的未来工作方向包括:

  • 对高质量参考数据的依赖: ResMimic 依赖于高质量的人类运动捕捉数据和人类-物体交互轨迹作为参考。获取这些数据通常成本高昂且耗时,尤其是在复杂或危险的任务场景中。未来工作可以探索如何减少对这种详尽参考数据的依赖,例如通过少量演示学习 (few-shot learning) 或无监督学习 (unsupervised learning) 方法。
  • 任务泛化范围: 尽管 ResMimic 展现了对不规则物体(如椅子)的实例级泛化能力,但其是否能泛化到完全未见的任务类别或需要复杂推理的场景(例如,需要规划多步操作)仍有待探索。
  • 奖励函数设计: 尽管引入了点云物体跟踪奖励和接触奖励来简化设计,但奖励函数中的超参数(如 λo\lambda_o, λ\lambda, σc\sigma_c)仍需手动调优。这可能限制了方法的自动化程度和在不同场景下的易用性。未来的研究可以探索更自适应或无需手动设计的奖励机制。
  • 仿真器与真实世界差距: 尽管通过域名随机化和 sim-to-sim 迁移到 MuJoCo 来努力缩小 sim-to-real 差距,但现实世界中的非建模动态、传感器噪声和执行器误差仍然是挑战。更强大的 sim-to-real 迁移技术(例如,基于真实世界数据进行领域适应)可能是未来的研究方向。
  • 计算效率: 即使 ResMimic 比从头训练更高效,但强化学习训练本身仍然是计算密集型的。探索更高效的训练算法或利用更大规模的计算资源来加速学习过程将是有益的。

7.3. 个人启发与批判

7.3.1. 个人启发

  • 预训练-微调范式在具身智能中的强大潜力: ResMimic 再次验证了大型模型(如 GMT)在通用数据上预训练,然后通过轻量级机制(如残差学习)进行任务特定适应的强大威力。这为解决机器人学习中数据稀缺和任务多样性问题提供了通用范式。
  • 残差学习作为桥梁的重要性: 巧妙地利用残差学习,将一个通用且稳定的运动先验与精确的物体交互需求结合起来,极大地简化了复杂任务的学习。残差动作是连接“能动”与“能操”的关键。
  • 奖励函数精细化与训练稳定性的重要性: 论文中引入的基于点云的物体跟踪奖励、接触奖励以及虚拟物体控制器课程,展示了精心设计的奖励和训练辅助机制对于提高训练效率、稳定性和最终性能的决定性作用。尤其是虚拟物体控制器,有效解决了早期训练中因不完善参考数据和物体动力学导致的崩溃问题。
  • 全身接触的实用价值: 实验结果明确指出,对于搬运重物和不规则物体,仅靠末端执行器是不够的,必须利用全身(如躯干、手臂)进行协调接触。这对于未来仿人机器人的物理交互能力设计具有重要指导意义。

7.3.2. 批判

  • "预言机"信息的使用: 在接触奖励设计中,作者使用了从参考轨迹中获取的“预言机接触信息” (c^t[i]\hat{c}_t[i])。这假设在训练时,我们精确知道每个时间步机器人应该与物体的哪些部位进行接触。在真实世界应用中,如果机器人需要在没有这种精确预定义接触信息的情况下与新物体交互,这种奖励设计可能需要修改。
  • 接触奖励公式的潜在问题: 接触奖励 rtc=ic^t[i]exp(λft[i])r _ { t } ^ { c } = \sum _ { i } \hat { c } _ { t } [ i ] \cdot \exp \Big ( - \frac { \lambda } { f _ { t } [ i ] } \Big ) 的形式,当 ft[i]f_t[i] 接近零时,奖励趋近于零。这确实鼓励了更大的接触力,但可能会在某些情况下导致机器人过度用力。在实际应用中,过大的接触力可能导致物体损坏或机器人自身的结构压力。一个更鲁棒的设计可能是在一个合理的接触力范围内给予高奖励,并对过高或过低的接触力进行惩罚。此外,如果 ft[i]f_t[i] 严格为零,分母为零会导致数学问题,尽管在仿真中由于物理引擎的浮点数性质,通常不会出现严格的零。
  • GMT 策略的黑盒性质: 尽管 GMT 策略作为基础,但其内部运作和泛化边界在本文中并未深入探讨。对于初学者来说,理解 GMT 策略如何在大规模运动数据上学习这些“任务无关”的运动先验,以及这些先验在多大程度上影响残差策略的学习效率,可能会有更多疑问。
  • 计算资源需求: 尽管 IsaacGym 提供了加速训练,但训练一个在大规模运动数据上预训练的 GMT 策略,再训练一个残差策略,仍然需要相当大的计算资源。这对于没有类似计算基础设施的研究者来说,可能是一个较高的门槛。

相似论文推荐

基于向量语义检索推荐的相关论文。

暂时没有找到相似论文。