论文状态:已完成

Embracing Bulky Objects with Humanoid Robots: Whole-Body Manipulation with Reinforcement Learning

发表:2025/09/17
原文链接PDF 下载
价格:0.100000
价格:0.100000
已有 2 人读过
本分析由 AI 生成,可能不完全准确,请以原文为准。

TL;DR 精炼摘要

本论文提出了一种针对人形机器人的强化学习框架,旨在通过全身操控实现对笨重物体的有效拥抱。这种方法结合了预训练的人类动作先验与神经符号距离场,利用教师-学生架构提炼人类动作数据,生成自然且稳健的全身动作,增强了多接触交互的稳定性和载荷能力。在仿真与真实世界实验的评估中,展示了该方法对不同物体适应性的显著提高。

摘要

Whole-body manipulation (WBM) for humanoid robots presents a promising approach for executing embracing tasks involving bulky objects, where traditional grasping relying on end-effectors only remains limited in such scenarios due to inherent stability and payload constraints. This paper introduces a reinforcement learning framework that integrates a pre-trained human motion prior with a neural signed distance field (NSDF) representation to achieve robust whole-body embracing. Our method leverages a teacher-student architecture to distill large-scale human motion data, generating kinematically natural and physically feasible whole-body motion patterns. This facilitates coordinated control across the arms and torso, enabling stable multi-contact interactions that enhance the robustness in manipulation and also the load capacity. The embedded NSDF further provides accurate and continuous geometric perception, improving contact awareness throughout long-horizon tasks. We thoroughly evaluate the approach through comprehensive simulations and real-world experiments. The results demonstrate improved adaptability to diverse shapes and sizes of objects and also successful sim-to-real transfer. These indicate that the proposed framework offers an effective and practical solution for multi-contact and long-horizon WBM tasks of humanoid robots.

思维导图

论文精读

中文精读

1. 论文基本信息

1.1. 标题

Embracing Bulky Objects with Humanoid Robots: Whole-Body Manipulation with Reinforcement Learning (人形机器人全身操控笨重物体:基于强化学习的全身拥抱操作)

1.2. 作者

Chunxin Zheng, Kai Chen, Zhihai Bi, Yulin Li, Liang Pan, Jinni Zhou, Haoang Li, and Jun Ma, Senior Member, IEEE。

作者团队来自多个机构,论文未明确列出具体隶属机构,但从研究方向和发表渠道来看,通常是机器人学、人工智能或相关工程领域的学术机构或研究实验室。

1.3. 发表期刊/会议

该论文作为预印本(preprint)发布于 arXiv,发布时间为 2025 年 9 月 16 日。虽然尚未经过同行评审正式发表,但 arXiv 平台在学术界具有广泛影响力,是研究人员分享最新研究成果的重要渠道。

1.4. 发表年份

2025年

1.5. 摘要

该论文提出了一种针对人形机器人的强化学习 (Reinforcement Learning, RL) 框架,旨在解决传统仅依靠末端执行器 (end-effector) 抓取在处理笨重物体时存在的稳定性与载荷限制问题,通过实现全身操控 (Whole-Body Manipulation, WBM) 来执行拥抱任务。该框架将预训练的人类动作先验 (human motion prior) 与神经符号距离场 (Neural Signed Distance Field, NSDF) 表示相结合,以实现鲁棒的全身拥抱。作者利用教师-学生架构 (teacher-student architecture) 从大规模人类动作数据中提炼出运动模式,生成运动学上自然且物理上可行的全身动作。这使得手臂和躯干之间能够协调控制,实现稳定的多接触 (multi-contact) 交互,从而增强操作的鲁棒性和载荷能力。嵌入的 NSDF 提供精确且连续的几何感知,提升了长周期任务中的接触感知能力。通过全面的仿真和真实世界实验,该方法被评估,结果表明其对不同形状和大小的物体具有更好的适应性,并成功实现了仿真到现实的迁移 (sim-to-real transfer)。这表明所提出的框架为人形机器人的多接触和长周期 WBM 任务提供了一个有效且实用的解决方案。

1.6. 原文链接

https://arxiv.org/abs/2509.13534

1.7. PDF 链接

https://arxiv.org/pdf/2509.13534v1.pdf

2. 整体概括

2.1. 研究背景与动机

当前,人形机器人 (humanoid robots) 在工业和家庭服务等多样化领域中的应用日益增多,这要求它们能够执行复杂的全身操控 (Whole-Body Manipulation, WBM) 任务。特别是在抓取和搬运笨重物体时,传统上仅依靠末端执行器 (end-effector) 的抓取方式存在固有的稳定性和载荷能力限制。人类在处理这类物体时,通常会利用整个身体,包括手臂和躯干,以拥抱的方式来分散接触力,从而实现稳定搬运。然而,让机器人习得这种类似人类的全身拥抱能力面临多重挑战:

  1. 高级感知系统 (Advanced Perception System): 需要精确感知机器人与物体之间的空间关系,尤其是在多接触场景下。

  2. 有效的人形行为获取方法 (Effective Anthropomorphic Behavior Acquisition): 如何使人形机器人通过全身控制策略获得像人类一样自然和协调的动作。

  3. 高自由度 (High Degrees of Freedom, DoF) 的复杂性: 人形机器人系统本身具有大量的自由度,使得控制和规划异常复杂。

  4. 稳定接触的构建 (Stable Multi-Contact Construction): 在与笨重物体发生多点接触时,精确感知和控制以维持稳定接触极为困难。

  5. 长周期任务 (Long-Horizon Tasks) 的协调与规划: 拥抱和搬运笨重物体是一个包含接近、拥抱和运输等多个阶段的长周期任务,需要持续的协调和规划能力。

    现有 WBM 方法通常依赖简化机器人模型和运动学关系来估计连杆位置,但这种方法无法准确建模或感知连杆表面的精确几何形状,导致在接触丰富的操作任务中出现显著误差,从而可能导致任务失败。此外,虽然强化学习 (Reinforcement Learning, RL) 在人形机器人控制中取得进展,但现有方法在处理复杂、长周期任务时泛化能力有限,且难以保证动作的生物力学合理性(bionicity),或需要额外的奖励设计来引导策略。

2.2. 核心贡献/主要发现

为了克服上述挑战,本文提出了一个创新的强化学习框架,其核心贡献和主要发现包括:

  1. 首个基于强化学习的全身拥抱操控框架 (First RL Framework for Whole-Body Embracing Manipulation): 提出了一种结合手臂和躯干协调控制的 RL 框架,使人形机器人能够主动利用全身来拥抱笨重物体。这是该领域内首次实现这一目标。
  2. 整合人类动作先验 (Integrated Human Motion Prior): 将预训练的人类动作先验引入到拥抱策略训练流程中。通过教师-学生架构从大规模人类动作数据中提炼出运动模式,生成运动学上自然且物理上可行的全身动作,显著加速了多接触和长周期任务的策略训练收敛,并赋予机器人拟人化的操控技能。
  3. 神经符号距离场 (Neural Signed Distance Field, NSDF) 进行精确感知: 构建了人形机器人的 NSDF 表示,实现了对机器人与物体之间交互的精确感知。NSDF 特征被融入到观察空间和奖励函数中,引导上半身与物体保持持续接触,显著增强了操作的鲁棒性。
  4. 多接触互动与载荷能力提升 (Enhanced Multi-Contact Interaction and Payload Capacity): 通过协调手臂和躯干的全身控制,实现了稳定的多接触互动,克服了传统仅末端执行器操作的限制,显著提高了有效载荷能力和操作稳定性。
  5. 全面的实验验证 (Comprehensive Experimental Validation): 通过在 Isaac Sim 中进行的大量模拟实验和在 Unitree H1-2 平台上的真实世界实验,验证了所提出方法的有效性。
    • 模块有效性 (Module Effectiveness): 实验证明 NSDF 模块对于生成多接触点和提高抓取稳定性至关重要;多阶段随机初始化策略显著提高了训练收敛速度和稳定性。
    • 对象属性适应性 (Adaptability to Diverse Object Properties): 策略在 MuJoCo 仿真环境中表现出对不同形状(圆柱体、立方体、球体)、大小和质量的物体的强大泛化能力和鲁棒性,即使是未见过的新物体也能保持高成功率。
    • 仿真到现实迁移 (Successful Sim-to-Real Transfer): 成功地将训练好的策略部署到真实的 Unitree H1-2 人形机器人上,完成了笨重物体的拥抱和运输任务,证明了其在实际应用中的潜力。

3. 预备知识与相关工作

3.1. 基础概念

为了更好地理解本论文,需要掌握以下核心概念:

  • 全身操控 (Whole-Body Manipulation, WBM):

    • 概念定义: WBM 是一种机器人操控策略,它允许机器人利用其身体的多个部分(而不仅仅是末端执行器,如机械手)与环境或物体进行交互。这些身体部分可以包括手臂、躯干、腿部,甚至环境支撑物。其目的是在传统抓取方法受限(例如物体过大、过重或形状复杂)时,通过分散接触力、利用身体平衡和姿态调整来执行更强大、稳定和灵活的操作。
    • 在本文中的意义: 对于笨重物体,WBM 能够让人形机器人以类似人类“拥抱”的方式来搬运,显著提升了稳定性和载荷能力。
  • 强化学习 (Reinforcement Learning, RL):

    • 概念定义: RL 是一种机器学习范式,其中一个“智能体 (agent)”通过与“环境 (environment)”的交互来学习如何做出决策以最大化累积奖励。智能体通过“观察 (observation)”环境的状态,执行“动作 (action)”,然后从环境中接收“奖励 (reward)”或“惩罚 (penalty)”来调整其“策略 (policy)”。策略定义了在给定状态下选择动作的方式。
    • 在本文中的应用: 本文利用 RL 框架训练人形机器人,使其能够学习复杂的全身操控策略,包括接近、拥抱和运输笨重物体。
  • 人形机器人 (Humanoid Robots):

    • 概念定义: 人形机器人是一种设计成与人类身体结构相似的机器人,通常具有躯干、头部、两条手臂和两条腿。这种设计使其能够执行许多人类任务,并在人类环境中更好地操作。
    • 在本文中的挑战: 人形机器人具有高自由度 (High Degrees of Freedom, DoF),控制复杂,且在动态操作中保持平衡是核心挑战。
  • 神经符号距离场 (Neural Signed Distance Field, NSDF):

    • 概念定义:
      • 符号距离场 (Signed Distance Field, SDF): SDF 是一种表示三维物体几何形状的方法。对于空间中的任何一点,SDF 存储该点到物体表面最短距离的带符号值。如果点在物体内部,距离为负;如果点在物体外部,距离为正;如果点在物体表面,距离为零。SDF 能够提供物体内部、外部及其表面信息,这对于碰撞检测和接触感知非常有用。
      • 神经符号距离场 (NSDF): NSDF 是指使用神经网络来隐式表示 SDF。与传统显式存储距离值(例如在体素网格中)不同,NSDF 使用一个神经网络,其输入是空间坐标,输出是该坐标处的 SDF 值。这使得几何表示更加紧凑、连续和可微分,对于优化和学习非常有利。
    • 在本文中的应用: NSDF 用于精确感知机器人自身(上半身连杆)与目标物体之间的几何关系,特别是最短距离,从而在强化学习中提供关键的接触意识信息,指导机器人维持多接触。
  • 人类动作先验 (Human Motion Prior):

    • 概念定义: 动作先验 (motion prior) 是指从大量人类动作数据中学习到的、关于自然和可行动作模式的知识分布。这种先验知识可以用来约束或引导机器人学习过程,使其生成的动作更符合人类的运动学特征,具有生物力学合理性。
    • 在本文中的作用: 通过教师-学生架构,将人类动作数据提炼成机器人的动作先验。这使得机器人能够生成运动学上自然且物理上可行的全身动作,加速了复杂任务的策略训练。
  • 教师-学生架构 (Teacher-Student Architecture) 或知识蒸馏 (Knowledge Distillation):

    • 概念定义: 这是一种机器学习训练范式,其中一个通常较大、更复杂的“教师模型 (teacher model)”(或一个预先训练好的策略)将其知识或行为“蒸馏”给一个通常较小、更简单的“学生模型 (student model)”。学生模型的目标是模仿教师模型的输出,从而学习到教师模型的部分或全部能力,同时可能具有更高的效率或泛化能力。
    • 在本文中的应用: 教师策略通过模仿大规模人类动作数据进行训练,然后学生策略(即动作先验)通过一个 VAE-based 模型学习蒸馏教师策略的复杂动作空间,将其压缩到一个紧凑的潜在表示中,以便下游任务利用。
  • 近端策略优化 (Proximal Policy Optimization, PPO):

    • 概念定义: PPO 是一种流行的强化学习算法,属于策略梯度方法。它通过限制每次策略更新的大小来提高训练的稳定性。PPO 通常在数据效率和算法复杂度之间取得了很好的平衡,使其成为许多复杂 RL 任务(包括机器人控制)的首选算法。
    • 在本文中的应用: PPO 被用于训练教师策略和拥抱任务策略。

3.2. 前人工作与技术演进

本文的“相关工作”部分主要围绕全身操控 (WBM) 和人形机器人控制的强化学习 (RL) 两大方向展开。

3.2.1. 全身操控 (WBM)

  • 传统 WBM (早期模型驱动):
    • 早期工作如 [13] 采用模型基方法在单臂系统上实现全身臂抓取。
    • 后续研究 [5] 在固定底座的人形平台上整合了涉及双臂、物体和躯干的接触模型,以实现全身臂操控。
    • 挑战: 模型基方法在接触丰富场景下计算成本高昂,且难以准确建模和感知连杆表面的精确几何形状,导致误差。
  • 学习基 WBM (近期发展):
    • 研究转向学习基策略以应对模型基方法的挑战。
    • [9] 提出了一个 RL 方法在双臂平台上实现 WBM。
    • [8] 通过在机器人连杆上装备软气动传感器来增强 WBM 中的接触感知,提供更丰富的触觉反馈。
    • [11] 将 RL 与全身触觉传感集成,实现了更柔顺、类人化的 WBM 动作生成,但目前主要限于上半身平台。
  • 本文的差异化: 本文超越了仅限于上半身或固定基座的 WBM,专注于人形机器人通过全身协调(包括手臂和躯干)执行拥抱笨重物体的长周期任务。同时,本文通过 NSDF 提供了精确的几何感知,而不是依赖物理传感器,并在 RL 框架中引入人类动作先验以实现更自然和鲁棒的操控。

3.2.2. 人形机器人控制的强化学习 (RL for Humanoid Robot Control)

  • 任务驱动控制器 (早期 RL):
    • 大量研究致力于开发用于特定行为(如敏捷跑步 [14]、崎岖地形运动 [15])的任务驱动控制器。
    • 挑战: 这些方法在特定任务中表现出色,但往往难以泛化到复杂、长周期场景,且动作的生物力学合理性较差,或需要额外的奖励引导。
  • 行为克隆 (Behavior Cloning, BC) 与人类动作数据集:
    • 新兴趋势是利用基于物理动画的行为克隆 [16], [17],通过大规模人类动作数据集(如 AMASS)训练控制策略。这使得机器人能够模仿自然、类人的动作,同时保持物理可行性。
    • 挑战: 尽管 BC 策略在全身追踪方面表现良好,但通常需要额外的动作生成器 [3], [18] 或策略蒸馏 [19] 来适应特定任务。更重要的是,人类动作数据集中缺乏关键环境信息(如接触力、地形几何、动态交互),限制了其在交互任务中的应用。
  • 通用动作控制器与动作先验:
    • 为了解决泛化问题,一些方法利用预训练的 BC 策略构建全面的动作空间。
    • [20] 提出使用从 BC 策略中提炼出的人类动作先验来创建通用控制器,为任务特定微调提供了基础。
    • [21] 结合文本描述和预训练 BC 策略构建文本-动作映射空间。
    • [22] 通过蒸馏不同的机器人技能策略来构建服务于通用人形机器人控制器的动作空间。
  • 本文的差异化: 本文在此基础上进一步,将人类动作先验与面向特定交互任务(即笨重物体的全身拥抱)的强化学习相结合。通过 VAE-based 蒸馏构建紧凑的动作先验,并将其与 NSDF 提供的精确环境(物体)和自我(机器人)几何感知结合,解决了现有 BC 方法在交互任务中缺乏关键环境信息的局限性。

3.3. 关键公式补充:VAE 基本原理

本文在动作先验蒸馏中使用了 VAE-based (Variational Autoencoder based) 的方法。尽管论文中直接给出了 VAE 的目标函数,但并未详细解释 VAE 的基本原理。为了初学者理解,这里对 VAE 的核心思想进行补充说明。

变分自编码器 (Variational Autoencoder, VAE) 是一种生成模型,它旨在学习数据分布的低维潜在表示 (latent representation)。与传统的自编码器 (Autoencoder, AE) 试图学习一个确定性的编码-解码过程不同,VAE 学习的是数据潜在表示的概率分布。

VAE 的核心组成部分包括:

  1. 编码器 (Encoder): 将输入数据 xx 映射到一个潜在空间 zz 的概率分布(通常是高斯分布)。它不直接输出 zz 值,而是输出 zz 的分布参数,即均值 μ\mu 和方差 σ2\sigma^2q(zx)=N(z;μ(x),Σ(x)) q(z|x) = \mathcal{N}(z; \mu(x), \Sigma(x)) 其中,μ(x)\mu(x)Σ(x)\Sigma(x) 是编码器神经网络的输出,通常 Σ(x)\Sigma(x) 被假设为对角协方差矩阵,即 Σ(x)=diag(σ12,,σk2)\Sigma(x) = \mathrm{diag}(\sigma_1^2, \dots, \sigma_k^2)
  2. 采样 (Sampling): 从编码器输出的分布 q(zx)q(z|x) 中采样一个潜在变量 zz。为了使梯度能够反向传播,通常使用“重参数化技巧 (reparameterization trick)”,即: z=μ(x)+σ(x)ϵ z = \mu(x) + \sigma(x) \odot \epsilon 其中 ϵN(0,I)\epsilon \sim \mathcal{N}(0, I) 是一个标准正态分布的噪声,\odot 表示逐元素乘法。
  3. 解码器 (Decoder): 将采样的潜在变量 zz 映射回数据空间,生成重构数据 x^\hat{x}p(xz)=N(x;μD(z),ΣD(z)) 或其他分布 p(x|z) = \mathcal{N}(x; \mu_D(z), \Sigma_D(z)) \text{ 或其他分布} 其中 μD(z)\mu_D(z)ΣD(z)\Sigma_D(z) 是解码器神经网络的输出。

VAE 的目标函数 (Loss Function): VAE 的训练目标是最大化数据的边际对数似然 (marginal log-likelihood) logp(x)\log p(x)。这个目标函数通常被分解为两部分: LVAE(x)=Eq(zx)[logp(xz)]DKL(q(zx)p(z)) \mathcal{L}_{\text{VAE}}(x) = \mathbb{E}_{q(z|x)}[\log p(x|z)] - D_{KL}(q(z|x) \| p(z))

  • 重构损失 (Reconstruction Loss): Eq(zx)[logp(xz)]\mathbb{E}_{q(z|x)}[\log p(x|z)] 衡量解码器重构数据的准确性。它希望生成的数据 x^\hat{x} 尽可能接近原始输入 xx。对于连续数据,这通常是均方误差 (Mean Squared Error, MSE) 或二元交叉熵 (Binary Cross-Entropy, BCE) 的负值。

  • KL 散度损失 (KL Divergence Loss): DKL(q(zx)p(z))D_{KL}(q(z|x) \| p(z)) 是编码器输出的潜在分布 q(zx)q(z|x) 与预设的先验分布 p(z)(通常是标准正态分布 N(0,I)\mathcal{N}(0, I))之间的 Kullback-Leibler (KL) 散度。它鼓励潜在空间具有良好的结构,使得不同输入数据的潜在表示能够平滑地过渡,并且避免了过拟合。

    在本文中的体现: 本文的“人形动作先验蒸馏”部分,正是利用了 VAE 的思想。编码器 E\mathcal{E} 将机器人状态和目标状态编码为潜在变量 zt\mathbf{z}_t 的分布;解码器 D\mathcal{D} 将潜在变量解码为动作 at\mathbf{a}_t;而可学习的先验网络 R\mathcal{R} 旨在逼近潜在变量的分布,从而在下游任务中提供一个紧凑且具有人体运动特征的动作空间。论文中的 Laction\mathcal{L}_{\mathrm{action}} 对应重构损失,LKL\mathcal{L}_{\mathrm{KL}} 对应 KL 散度损失。

4. 方法论

本文提出一个强化学习框架,用于人形机器人执行笨重物体的全身拥抱任务。整个系统架构如图 2 所示,主要包括三个模块:数据处理、动作先验蒸馏和拥抱策略训练。

4.1. 数据处理 (Data Processing)

数据处理是整个运动学习流程的起点,旨在将原始的人类动作数据转化为机器人可用的、运动学上可行的轨迹。

  1. 原始数据: 学习流程从 AMASS (AMASS mocap dataset) 等运动捕捉 (mocap) 数据集开始,这些数据使用 SMPL human model(一个参数化的人体模型)表示。
  2. 可行性过滤: MaskedMimic [23] 框架对这些输入动作进行处理和过滤,以识别出运动学上可行的轨迹。这会生成一个清理后的“人类动作数据集” Dh\mathcal{D}_h,其中只包含物理上合理的运动模式。
  3. 机器人重定向 (Retargeting): 接着,采用 H20 [24] 的重定向框架将这些动作迁移到目标人形机器人平台。此过程会显式地考虑机器人与人类在身体比例和关节运动范围上的差异。
  4. 机器人动作数据集: 最终得到“机器人动作数据集” Dr\mathcal{D}_r,其中包含了经过验证的轨迹,作为后续教师策略训练的目标。

4.2. 动作先验蒸馏 (Motion Prior Distillation)

此模块的目标是基于机器人动作数据集 Dr\mathcal{D}_r 提炼出动作先验 (motion priors)。这些先验既要保留类人操作的灵巧性,又要确保对人形机器人而言具有物理可行性。本文采用教师-学生学习方案来实现这一目标。

4.2.1. 教师策略 (Teacher Policy)

基于重定向后的机器人动作数据集 Dr\mathcal{D}_r,开发了一个运动追踪 (motion-tracking) 教师策略。这个策略使用 PHC (Perpetual Humanoid Control) 框架 [17],通过 PPO [25] 进行优化。

  • 策略映射: 教师策略将当前机器人状态和参考动作映射到动作。 at=πteacher(stp,stg) \mathbf { a } _ { t } ^ { * } = \pi _ { \mathrm { t e a c h e r } } ( \mathbf { s } _ { t } ^ { p } , \mathbf { s } _ { t } ^ { g } )
    • at\mathbf { a } _ { t } ^ { * } : 由教师策略生成的动作。
    • πteacher\pi _ { \mathrm { t e a c h e r } }: 教师策略函数,实现为多层感知机 (MLP)。
    • stpR90\mathbf { s } _ { t } ^ { p } \in \mathbb { R } ^ { 90 }: 编码了本体感受状态 (proprioceptive state)。它包含以下分量:
      • vtR3\mathbf { v } _ { t } \in \mathbb { R } ^ { 3 }: 根部线性速度 (root linear velocity)。
      • ωtR3\omega _ { t } \in \mathbb { R } ^ { 3 }: 根部角速度 (root angular velocity)。
      • gtR3\mathbf { g } _ { t } \in \mathbb { R } ^ { 3 }: 投影重力向量 (projected gravity vector)。
      • qtR27\mathbf { q } _ { t } \in \mathbb { R } ^ { 27 }: 关节位置 (joint positions)。
      • q˙tR27\dot { \mathbf { q } } _ { t } \in \mathbb { R } ^ { 27 }: 关节速度 (joint velocities)。
      • at1R27\mathbf { a } _ { t - 1 } ^ { * } \in \mathbb { R } ^ { 27 }: 上一时刻的教师策略动作。
    • stgR^2×3×27\mathbf { s } _ { t } ^ { g } \in \mathrm { \hat { \mathbb { R } } } ^ { 2 \times 3 \times 2 7 }: 目标状态 (goal state)。它包含了从 Dr\mathcal{D}_r 中指定的参考动作轨迹,具体通过以下两个部分表示:
      • (p^t+1pt)R3×27( \widehat { \mathbf { p } } _ { t + 1 } - \mathbf { p } _ { t } ) \in \mathbb { R } ^ { 3 \times 27 }: 每个刚体的相对位置偏移量,表示从当前位置 pt\mathbf{p}_t 到下一时刻目标位置 p^t+1\widehat{\mathbf{p}}_{t+1} 的变化。
      • p^t+1R3×27\widehat { \mathbf { p } } _ { t + 1 } \in \mathbb { R } ^ { 3 \times 27 }: 每个刚体的目标配置位置。

4.2.2. 人形动作先验蒸馏 (Humanoid Motion Prior Distillation)

为了实现对人形动作的有效和可迁移控制,作者旨在将教师策略学习到的复杂动作空间蒸馏到一个紧凑的潜在表示中,以自然地诱导出类人行为。这通过一个基于 VAE (Variational Autoencoder) 的蒸馏方法实现,参照了 PULSE [20] 的思想。

  • VAE 框架: 构建了一个变分编码器-解码器 (variational encoder-decoder) 框架来表示人形动作空间。

    • 编码器 (Encoder): E\mathcal{E} 推断潜在运动变量 zt\mathbf{z}_t 的分布。 E(ztstp,stg)=N(ztμte,σte) \mathcal { E } ( \mathbf { z } _ { t } \mid \mathbf { s } _ { t } ^ { p } , \mathbf { s } _ { t } ^ { g } ) = \mathcal { N } ( \mathbf { z } _ { t } \mid \boldsymbol { \mu } _ { t } ^ { e } , \boldsymbol { \sigma } _ { t } ^ { e } )
      • N(μ,σ)\mathcal{N}(\cdot \mid \boldsymbol{\mu}, \boldsymbol{\sigma}): 高斯分布,由均值 μ\boldsymbol{\mu} 和标准差 σ\boldsymbol{\sigma} 定义。
      • zt\mathbf { z } _ { t }: 潜在运动变量。
      • stp\mathbf { s } _ { t } ^ { p }: 当前本体感受状态(同教师策略)。
      • stg\mathbf { s } _ { t } ^ { g }: 目标状态(同教师策略)。
      • μte\boldsymbol { \mu } _ { t } ^ { e }: 编码器输出分布的均值。
      • σte\boldsymbol { \sigma } _ { t } ^ { e }: 编码器输出分布的标准差(或对数方差)。
    • 解码器 (Decoder): D\mathcal{D} 将潜在编码映射回动作空间。 D(atstd,zt)=N(atμtd,σ^td) \mathcal { D } ( \mathbf { a } _ { t } \mid \mathbf { s } _ { t } ^ { d } , \mathbf { z } _ { t } ) = \mathcal { N } ( \mathbf { a } _ { t } \mid \boldsymbol { \mu } _ { t } ^ { d } , \hat { \boldsymbol { \sigma } } _ { t } ^ { d } )
      • at\mathbf { a } _ { t }: 学生策略重构的动作。
      • stdR87\mathbf { s } _ { t } ^ { d } \in \mathbb { R } ^ { 87 }: 解码器输入状态。为了实现仿真到现实的迁移 (sim-to-real transfer),它排除了 stp\mathbf { s } _ { t } ^ { p } 中的根部线性速度 vt\mathbf { v } _ { t } 分量。即 std={ωt,gt,qt,q˙t,at1}\mathbf { s } _ { t } ^ { d } = \{ \omega _ { t } , \mathbf { g } _ { t } , \mathbf { q } _ { t } , \dot { \mathbf { q } } _ { t } , \mathbf { a } _ { t - 1 } \}
      • at1\mathbf { a } _ { t - 1 }: 上一时刻的学生策略动作。
      • μtd\boldsymbol { \mu } _ { t } ^ { d }: 解码器输出动作分布的均值。
      • σ^td\hat { \boldsymbol { \sigma } } _ { t } ^ { d }: 解码器输出动作分布的固定对角协方差的标准差。
    • 可学习先验网络 (Learnable Prior Network): R\mathcal{R} 用于近似编码器产生的潜在编码分布。 R(ztstd)=N(ztμtp,σtp) \mathcal { R } ( \mathbf { z } _ { t } \mid \mathbf { s } _ { t } ^ { d } ) = \mathcal { N } ( \mathbf { z } _ { t } \mid \boldsymbol { \mu } _ { t } ^ { p } , \boldsymbol { \sigma } _ { t } ^ { p } )
      • μtp\boldsymbol { \mu } _ { t } ^ { p }: 先验网络输出的潜在分布均值。
      • σtp\boldsymbol { \sigma } _ { t } ^ { p }: 先验网络输出的潜在分布标准差。
  • 整体训练目标 (Overall Training Objective): 编码器、解码器和先验网络的总训练目标函数为: Lall=Laction+αLregu+βLKL \mathcal { L } _ { \mathrm { a l l } } = \mathcal { L } _ { \mathrm { a c t i o n } } + \alpha \mathcal { L } _ { \mathrm { r e g u } } + \beta \mathcal { L } _ { \mathrm { K L } }

    • Laction=atat22\mathcal { L } _ { \mathrm { a c t i o n } } = \| \mathbf { a } _ { t } ^ { * } - \mathbf { a } _ { t } \| _ { 2 } ^ { 2 }: 动作重构损失 (action reconstruction loss)。它衡量学生策略重构的动作 at\mathbf{a}_t 与教师策略生成的动作 at\mathbf{a}_t^* 之间的 L2 范数(欧几里得距离)的平方,鼓励学生策略模仿教师策略的行为。
    • Lregu=μteμt1e22\mathcal { L } _ { \mathrm { r e g u } } = \| \mu _ { t } ^ { e } - \mu _ { t - 1 } ^ { e } \| _ { 2 } ^ { 2 }: 正则化项 (regularization term)。它通过惩罚连续时刻编码器输出均值 μte\mu _ { t } ^ { e }μt1e\mu _ { t - 1 } ^ { e } 之间的剧烈变化,来强制潜在轨迹的时间一致性,从而鼓励潜在空间的平滑性。
    • LKL\mathcal { L } _ { \mathrm { K L } }: KL 散度项 (KL divergence term)。它使编码器的潜在分布与学习到的先验分布对齐。具体而言,通常是 DKL(E(ztstp,stg)R(ztstd))D_{KL}(\mathcal{E}(\mathbf{z}_t \mid \mathbf{s}_t^p, \mathbf{s}_t^g) \| \mathcal{R}(\mathbf{z}_t \mid \mathbf{s}_t^d)),确保潜在编码具有良好的先验结构。
    • α,β\alpha, \beta: 系数,用于协调平滑项和 KL 正则化项的相对重要性。
  • 低维动作空间: 蒸馏完成后,解码器 D\mathcal{D} 和先验网络 R\mathcal{R} 的参数被冻结,从而定义了一个用于下游任务学习的新的低维动作空间。

4.3. 拥抱策略训练 (Embracing Policy Training)

本节阐述了针对笨重物体全身操控任务(WBM)的任务策略 πtask\pi_{\mathrm{task}} 的训练方法。该任务通常分为三个阶段:接近物体、拥抱物体和运输物体到目标位置。为了解决这个长周期操作任务,作者开发了一个定制的 PPO 算法,其中包含三个关键组件:阶段随机初始化、特定奖励设计和人形动作先验分布。

4.3.1. 观测空间和动作空间 (Observations and Actions)

  • 任务观测 (Task Observation): 在时间步 tt 的任务观测 sttask\mathbf{s}_t^{\mathrm{task}} 是解码器输入 std\mathbf{s}_t^d 和一组任务特定特征 sts\mathbf{s}_t^s 的拼接。 sttask={std,sts} \mathbf { \boldsymbol { s } } _ { t } ^ { \mathrm { t a s k } } = \{ \mathbf { s } _ { t } ^ { d } , \mathbf { s } _ { t } ^ { s } \}

    • std\mathbf { s } _ { t } ^ { d } : 解码器输入,包含机器人本体感受状态的一部分(详见 4.2.2 节)。
    • stsR19\mathbf { s } _ { t } ^ { s } \in \mathbb { R } ^ { 19 }: 任务特定特征,具体定义如下:
      • p^tboxR3\hat { p } _ { t } ^ { \mathrm { b o x } } \in \mathbb { R } ^ { 3 }: 机器人躯干与物体中心之间的距离。
      • θ^tboxR3\hat { \theta } _ { t } ^ { \mathrm { b o x } } \in \mathbb { R } ^ { 3 }: 机器人躯干与物体中心之间的方向角度差。
      • p^ttargetR3\hat { p } _ { t } ^ { \mathrm { t a r g e t } } \in \mathbb { R } ^ { 3 }: 机器人躯干与目标位置之间的距离。
      • θ^ttargetR3\hat { \theta } _ { t } ^ { \mathrm { t a r g e t } } \in \mathbb { R } ^ { 3 }: 机器人躯干与目标位置之间的方向角度差。
      • dtR15\mathbf { d } _ { t } \in \mathbb { R } ^ { 15 }: NSDF 特征。这些特征由一个预训练网络 fθf_\theta 计算,该网络评估选定目标点(本例中为物体中心 pttarget\mathbf{p}_t^{\mathrm{target}})与机器人上半身连杆(被视为网格集合)之间最短距离,如图 3 所示。 dt=fθ(pttarget) \mathbf { d } _ { t } = f _ { \theta } ( \mathbf { p } _ { t } ^ { \mathrm { t a r g e t } } )
  • 动作空间 (Action Space): 任务策略 πtask\pi_{\mathrm{task}} 在潜在空间中操作,根据当前任务状态 sts\mathbf{s}_t^s 生成潜在动作 zts\mathbf{z}_t^szts=πtask(sts) \mathbf { z } _ { t } ^ { s } = \pi _ { \operatorname { t a s k } } ( \mathbf { s } _ { t } ^ { s } ) 然后,这个潜在动作与学习到的动作先验 μtp\mu_t^p 结合,形成一个新的潜在令牌,再由解码器 D\mathcal{D} 解码为最终的机器人动作 ats\mathbf{a}_t^sats=D(zts+μtp) \mathbf { a } _ { t } ^ { s } = \mathcal { D } ( \mathbf { z } _ { t } ^ { s } + \mu _ { t } ^ { p } )

    • zts\mathbf { z } _ { t } ^ { s }: 任务策略输出的潜在动作。
    • πtask\pi_{\mathrm{task}}: 任务策略,是一个神经网络。
    • sts\mathbf { s } _ { t } ^ { s }: 任务特定特征。
    • μtp\mu _ { t } ^ { p }: 由可学习先验网络 R\mathcal{R} 生成的动作先验均值(图 2(c) 中所示)。
    • ats\mathbf { a } _ { t } ^ { s }: 最终的机器人动作。

4.3.2. 奖励设计 (Reward Design)

为了训练人形机器人执行 WBM 任务,作者设计了多种奖励函数。总奖励是这些奖励项的加权和,但在论文中未给出完整的总奖励公式,而是分项阐述。

  • 平滑性奖励 (Smoothness Reward): 此奖励项鼓励策略生成平滑且物理上合理的动作。 rsmooth=rtorque+racc+raction r _ { \mathrm { s m o o t h } } = r _ { \mathrm { t o r q u e } } + r _ { \mathrm { a c c } } + r _ { \mathrm { a c t i o n } }

    • rtorquer _ { \mathrm { t o r q u e } }: 惩罚高关节扭矩 (joint torques)。
    • raccr _ { \mathrm { a c c } }: 惩罚大的执行器加速度 (actuator accelerations)。
    • ractionr _ { \mathrm { a c t i o n } }: 惩罚动作值 (action values) 的快速变化。
    • 权重: 在 Table II 中,Torque 的权重为 -1e-7Joint Acceleration 的权重为 -2.5e-8Action Rate 的权重为 -0.5。这些都是负奖励,意味着减少这些行为会得到更高的总奖励。
  • 物理限制奖励 (Physical Limitation Reward): 此奖励项旨在保护机器人在部署过程中免受损坏,并增强稳定性。 rlimit=rdof+rslippage+rfeet r _ { \mathrm { l i m i t } } = r _ { \mathrm { d o f } } + r _ { \mathrm { slippage } } + r _ { \mathrm { feet } }

    • rdofr _ { \mathrm { d o f } } (Joint Angle Limitation): 鼓励关节保持在其物理限制内,并避免接近关节边界的配置。
      • 具体而言,包含两部分:惩罚关节角度 qq 小于下限 qlowerlimitq_{lowerlimit},以及惩罚关节角度 qq 大于上限 qupperlimitq_{upperlimit}
      • 公式:− min (0, q − qlowerlimit) + max (0, q − qupperlimit)
      • 权重: 在 Table II 中,Joint Angle Limitation 的权重为 -1e-3
    • rslippager _ { \mathrm { slippage } } (Feet Slippage): 增强机器人的稳定性,惩罚脚部滑动。
      • 公式:vfoot(fcontact>1)∑ |vfoot| · (|fcontact| > 1)。其中 vfoot 是脚部速度,fcontact 是接触力。当接触力大于 1 时,脚部速度越大,惩罚越大。
      • 权重: 在 Table II 中,Feet Slippage 的权重为 -0.05
    • rfeetr _ { \mathrm { feet } } (Feet Contact Force): 限制机器人脚部的接触力,防止其在地面上施加过大的力量,使运动更平稳。
      • 公式:[max(0,fcontact)]∑ [max (0, |fcontact | − )]。其中 fcontact 是接触力。

      • 权重: 在 Table II 中,Feet Contact Force 的权重为 -1e-5

        以下是原文 Table II 的内容: TABLE II Design of Reward Terms

Reward TermsDefinitionWeight
Torque∥τ∥-1e-7
Joint Acceleration|l2-2.5e-8
Action Rate∥a1−1 − at k2-0.5
Feet Slippage∑ |vfoot| · (|fcontact| > 1)-0.05
Feet Contact Force∑ [max (0, |fcontact | − )]-1e-5
Joint Angle Limitation∑ − min (0, q − qlowerlimit)
-le-3
+ max (0, q − qupperlimit)
  • 任务奖励 (Task Reward): 总任务奖励由以下各项组成: rtask=rwalk+rcarry+rarm+rNSDF r _ { \mathrm { t a s k } } = r _ { \mathrm { w a l k } } + r _ { \mathrm { c a r r y } } + r _ { \mathrm { a r m } } + r _ { \mathrm { N S D F } } WBM 任务被分解为三个不同阶段:接近物体、拥抱物体和运输物体到目标位置。为了支持阶段特定的奖励分配,定义了几个区域:

    • 拾取区 (pick-up zone): 以物体为中心,半径为 dp=0.35 md_p = 0.35 \mathrm{~m} 的圆形区域,作为接近阶段和操控阶段之间的过渡边界。
    • 初始生成区/目标交付区 (initial spawning area/target delivery region): 一个内半径 di=3.5 md_i = 3.5 \mathrm{~m}、外半径 do=4.0 md_o = 4.0 \mathrm{~m} 的环形区域。在接近阶段,机器人在此区域随机生成;在任务完成时,物体需运送到此区域。
    1. 行走奖励 (Walk Reward): rwalkr_{\mathrm{walk}} 当机器人在拾取区之外(即在接近阶段)时,此奖励鼓励机器人向物体移动。当机器人在拾取区内时,此奖励为固定值 1。 rwalk={1,In pickup zone,exp(σp^tbox2)+exp(σθ^tbox2)+exp(σν^tbody2),Out of pickup zone r _ { \mathrm { w a l k } } = \left\{ \begin{array} { l l } { 1 , \qquad \mathrm { In ~ pick-up ~ zone, } } \\ { \qquad \mathrm { exp } ( - \| \sigma \hat { p } _ { t } ^ { \mathrm { b o x } } \| _ { 2 } ) + \mathrm { exp } ( - \| \sigma \hat { \theta } _ { t } ^ { \mathrm { b o x } } \| _ { 2 } ) + } \\ { \qquad \mathrm { exp } ( - \| \sigma \hat { \nu } _ { t } ^ { \mathrm { b o d y } } \| _ { 2 } ) , \mathrm { Out ~ of ~ pick-up ~ zone } } \end{array} \right.

      • σ\sigma: 一个缩放参数。
      • p^tbox\hat { p } _ { t } ^ { \mathrm { b o x } }: 机器人躯干与物体中心之间的距离。
      • θ^tbox\hat { \theta } _ { t } ^ { \mathrm { b o x } }: 机器人躯干与物体中心之间的方向角度差。
      • ν^tbody\hat { \nu } _ { t } ^ { \mathrm { b o d y } }: 机器人躯干的速度。
      • 此奖励项通过指数衰减函数,鼓励机器人躯干接近物体、朝向物体,并以适当的速度移动。
    2. 搬运奖励 (Carry Reward): rcarryr_{\mathrm{carry}} 当机器人在拾取区内(即在拥抱和运输阶段)时,此奖励鼓励物体向最终目标移动。当机器人不在拾取区时,此奖励为 0。 rcarry={0,Out of pickup zone,exp(σp^ttarget2)+exp(σθ^ttarget2)+exp(σν^tbox2),In pickup zone. r _ { \mathrm { c a r r y } } = \left\{ \begin{array} { l l } { 0 , \qquad \mathrm { Out ~ of ~ pick-up ~ zone } , } \\ { \mathrm { exp } ( - \| \sigma \hat { p } _ { t } ^ { \mathrm { t a r g e t } } \| _ { 2 } ) + \mathrm { exp } ( - \| \sigma \hat { \theta } _ { t } ^ { \mathrm { t a r g e t } } \| _ { 2 } ) + } \\ { \qquad \mathrm { exp } ( - \| \sigma \hat { \nu } _ { t } ^ { \mathrm { b o x } } \| _ { 2 } ) , \quad \mathrm { In ~ pick-up ~ zone } . } \end{array} \right.

      • σ\sigma: 一个缩放参数。
      • p^ttarget\hat { p } _ { t } ^ { \mathrm { t a r g e t } }: 物体与目标位置之间的距离。
      • θ^ttarget\hat { \theta } _ { t } ^ { \mathrm { t a r g e t } }: 物体与目标位置之间的方向角度差。
      • ν^tbox\hat { \nu } _ { t } ^ { \mathrm { b o x } }: 物体的速度。
      • 此奖励项鼓励物体移动到目标位置、朝向目标位置,并以适当的速度运输。
    3. 手臂奖励 (Arm Reward): rarmr_{\mathrm{arm}} 此奖励用于调整手臂位置,鼓励手臂与物体进行接触。 rarm=exp(σ(p^tlh2+p^trh2))+exp(σ(h^tlh2+h^trh2)), \begin{array} { r l } & { r _ { \mathrm { a r m } } = \mathrm { exp } ( - \sigma ( \| \hat { p } _ { t } ^ { \mathrm { l h } } \| _ { 2 } + \| \hat { p } _ { t } ^ { \mathrm { r h } } \| _ { 2 } ) ) + } \\ & { \quad \quad \quad \mathrm { exp } ( - \sigma ( \| \hat { h } _ { t } ^ { \mathrm { l h } } \| _ { 2 } + \| \hat { h } _ { t } ^ { \mathrm { r h } } \| _ { 2 } ) ) , } \end{array}

      • σ\sigma: 一个缩放参数。
      • p^tlh\hat { p } _ { t } ^ { \mathrm { l h } }: 左末端执行器 (left end-effector) 与物体之间的距离。
      • p^trh\hat { p } _ { t } ^ { \mathrm { r h } }: 右末端执行器 (right end-effector) 与物体之间的距离。
      • h^tlh\hat { h } _ { t } ^ { \mathrm { l h } }: 左末端执行器的高度。
      • h^trh\hat { h } _ { t } ^ { \mathrm { r h } }: 右末端执行器的高度。
      • 此奖励项鼓励左右手臂末端执行器靠近物体,并保持适当的高度,以实现拥抱。
    4. NSDF 奖励 (NSDF Reward): rNSDFr_{\mathrm{NSDF}} 虽然论文未给出 rNSDFr_{\mathrm{NSDF}} 的具体公式,但明确指出 NSDF 特征被用于设计奖励函数,以引导上半身与物体保持持续接触,从而显著增强操作的鲁棒性。这表明 rNSDFr_{\mathrm{NSDF}} 旨在根据 NSDF 值奖励机器人与物体之间的稳定和多点接触。

4.3.3. 随机初始化 (Random Initialization)

为了有效解决长周期任务的训练挑战,作者采用了随机初始化策略,将初始场景分为三类,并在每个回合开始时随机选择一种进行初始化。

  1. 第一类场景 (Approaching Phase):

    • 目标物体放置在桌子上。
    • 机器人的位置在初始生成区(环形区域)内随机初始化。
    • 目的: 允许训练主要集中在任务的第一个阶段,即“接近物体”。
  2. 第二类场景 (Object Pickup Phase):

    • 物体仍放置在桌子上。
    • 机器人的初始状态被手动配置,使其上半身关节处于预拥抱姿态 (pre-hugging posture)。
    • 机器人的位置直接初始化在拾取区内。
    • 目的: 优化训练用于“物体拾取/拥抱”阶段。
  3. 第三类场景 (Transporting Phase):

    • 机器人的关节直接初始化在拥抱姿态 (hugging posture)。

    • 物体生成在机器人的手臂中。

    • 目的: 促进训练用于任务的最后阶段,即“运输物体”。

      通过在训练过程中随机选择这三种场景之一,这种策略有助于智能体在所有任务阶段进行平衡学习,从而克服了慢收敛和不稳定奖励进展的限制。

5. 实验设置

5.1. 数据集

本文的实验没有使用一个标准的外部数据集来评估最终任务,而是分阶段利用了不同的数据和环境:

  • 人类动作数据集 (Human Motion Dataset): AMASS mocap dataset 用于训练人类动作先验,通过 MaskedMimic [23] 和 H20 [24] 进行处理和重定向,生成机器人可用的动作数据 Dr\mathcal{D}_r
  • 目标物体:
    • 训练阶段 (Isaac Sim): 使用一个固定尺寸的圆柱体作为训练目标,尺寸为 Φ42 cm×40 cm\Phi 42 \mathrm{~cm} \times 40 \mathrm{~cm}
    • 仿真到仿真迁移评估 (MuJoCo): 使用了多种形状、尺寸和质量的物体来测试策略的泛化能力:
      • 形状: 圆柱体 (Cylinder), 立方体 (Cuboid), 球体 (Sphere)。

      • 尺寸:

        • 圆柱体:Φ42×40 cm\Phi 42 \times 40 \mathrm{~cm} (训练尺寸), Φ50×40 cm\Phi 50 \times 40 \mathrm{~cm} (更大尺寸)。
        • 立方体:42×42×42 cm42 \times 42 \times 42 \mathrm{~cm} (训练相似尺寸), 30×30×30 cm30 \times 30 \times 30 \mathrm{~cm} (更小尺寸)。
        • 球体:Φ42 cm\Phi 42 \mathrm{~cm} (训练相似尺寸), Φ30 cm\Phi 30 \mathrm{~cm} (更小尺寸)。
      • 质量: 1 kg,3 kg,7 kg1 \mathrm{~kg}, 3 \mathrm{~kg}, 7 \mathrm{~kg}

      • 图片示例:

        Fig. 6. Illustration of sim-to-sim experiments in Mujoco. The illustration compares the manipulation performance across three common object primitives: a cylinder, a cuboid, and a sphere. Objects are varied in both shape and weight to evaluate generalization. The red objects match the dimensions used during training, while those in blue represent unseen shapes for generalization testing. The green columns serve as pedestals for initial object placement. 该图像是示意图,展示了在Mujoco中进行的模拟实验。图中包括了三种不同形状的物体:圆柱体、球体和立方体,各自以不同的重量进行操控测试。红色物体为训练中使用的尺寸,蓝色物体则为未见过的形状,绿色柱子作为物体放置的基座。

        图 6 展示了在 MuJoCo 中进行的仿真到仿真实验,比较了圆柱体、立方体和球体三种常见物体原语的操控性能。这些物体在形状和重量上都有所变化,以评估泛化能力。红色物体匹配训练中使用的尺寸,而蓝色物体代表未见过的新形状,用于泛化测试。绿色柱子用作物体初始放置的基座。

    • 真实世界实验 (Unitree H1-2): 使用一个尺寸为 Φ40 cm×60 cm\Phi 40 \mathrm{~cm} \times 60 \mathrm{~cm} 的圆柱体进行测试。

5.2. 评估指标

本文主要使用成功率 (Success Rate) 作为评估指标。

  • 概念定义: 成功率衡量了在一定数量的独立试验中,智能体能够按照任务要求成功完成操作的比例。对于本任务,成功完成的定义为:
    • 物体 (object) 的质心 (center of mass, CoM) 保持在目标位置 0.1 m0.1 \mathrm{~m} 的范围内。
    • 物体在搬运过程中没有掉落。
  • 数学公式: 成功率通常表示为: Success Rate=Number of Successful TrialsTotal Number of Trials×100% \text{Success Rate} = \frac{\text{Number of Successful Trials}}{\text{Total Number of Trials}} \times 100\%
    • 符号解释:
      • Number of Successful Trials\text{Number of Successful Trials}: 智能体在给定任务中成功完成的试验次数。
      • Total Number of Trials\text{Total Number of Trials}: 总共进行的试验次数。

5.3. 对比基线

由于该领域缺乏合适的开源基线方法,本文主要通过消融实验 (ablation studies) 来验证所提出模块的有效性,而不是与现有其他方法进行直接对比。

  • NSDF 模块的有效性: 对比了使用 NSDF 模块和不使用 NSDF 模块(即移除 NSDF 相关的观测和奖励项)的策略性能。
  • 随机初始化策略的有效性: 对比了使用多阶段随机初始化策略和不使用该机制(即从固定初始状态开始每个回合)的策略训练过程中的收敛速度和稳定性。

5.4. 实验环境与硬件

  • 仿真环境:
    • 训练: 使用 Isaac Sim 仿真器构建训练环境,部署了 4096 个并行智能体以实现高效数据收集。
    • 仿真到仿真迁移评估:MuJoCo 仿真环境中进行,以实现标准化和可复现的物理场景测试。
  • 任务设置:
    • 初始时,目标物体放置在距离机器人 4 米的位置。
    • 机器人需要拥抱物体并将其运输到距离物体原始位置 4 米的目标地点。
  • 训练硬件: 在单个工作站上进行所有训练和实验,该工作站配备 NVIDIA RTX 4080 GPU
  • 真实世界机器人平台: Unitree H1-2 平台,配备车载 Intel i7 计算机。
    • 策略推理计算在车载计算机上执行,运行频率为 50 Hz50 \mathrm{~Hz},确保实时控制性能。
    • 机器人和目标物体的全局姿态通过高精度运动捕捉系统 (motion capture system) 进行实时追踪。

6. 实验结果与分析

本节通过仿真和真实世界实验,对所提出的框架进行了评估。实验主要关注 NSDF 模块的有效性、随机初始化策略的影响以及策略对不同物体属性的适应性,并最终展示了仿真到现实的迁移能力。

6.1. 核心结果分析

6.1.1. NSDF 模块的有效性

为了评估 NSDF 模块的影响,作者进行了消融实验,对比了使用 NSDF 和不使用 NSDF 模块的策略性能。

  • 结果对比:

    Fig. 4. Effectiveness of the NSDF module. (a) Results with the NSDF module. (b) Results without the NSDF module. The red circles indicate contact regions. As shown, the model with NSDF generates more contact points during manipulation, significantly enhancing grasping stability and success rate. 该图像是示意图,展示了有无NSDF模块的全身操作效果对比。左侧(a)为使用NSDF模块的情况,右侧(b)为不使用NSDF模块的情况。红色圆圈标示接触区域。使用NSDF模块的模型在操作过程中生成了更多的接触点,显著增强了抓取稳定性和成功率。

    • 图 4(a) 展示了使用 NSDF 模块训练的模型。在物体运输过程中,机器人成功地利用多个上半身关节与物体建立了多点接触。这显著增加了与物体的接触点,从而增强了操控稳定性,特别是在处理笨重物体时。
    • 图 4(b) 展示了没有 NSDF 模块训练的模型。在任务执行过程中,只有躯干部分靠近物体,而手臂未能正确地拥抱物体。这导致策略性能不佳,无法完成运输任务。
  • 结论: NSDF 模块在指导机器人全身动作以维持与目标物体的多点接触方面至关重要。它通过提供精确的几何和语义感知,极大地增强了操控的稳定性,尤其对于笨重物体的抓取任务。

6.1.2. 随机初始化策略的评估

为了评估所提出的多阶段随机初始化策略的有效性,将其与一种基线方法进行了比较,该基线方法在每个回合开始时都从固定的初始状态启动。

  • 结果对比:

    Fig. 5. Comparison of mean rewards in the ablation study on multi-stage random initialization. The red curve represents the policy with the proposed multi-stage random initialization, while the blue curve denotes the baseline without this mechanism. The policy with initialization (red) demonstrates smoother convergence and higher stability throughout training. In contrast, the baseline (blue) exhibits slower reward growth during the initial phase and greater instability. 该图像是图表,展示了在多阶段随机初始化的消融研究中平均奖励的比较。红色曲线表示采用多阶段随机初始化的策略,而蓝色曲线代表未采用该机制的基线策略。红色曲线显示了训练过程中的平稳收敛和更高的稳定性,反观蓝色曲线在初期阶段奖励增长较慢且不稳定。

    • 图 5 显示,红色曲线代表使用所提出的多阶段随机初始化策略的策略,而蓝色曲线代表没有该机制的基线策略。
    • 红色曲线(有随机初始化)在训练过程中表现出显著更快的收敛速度和更高的稳定性。这表明该方法促进了所有任务阶段的平衡学习。
    • 蓝色曲线(无随机初始化)在初期阶段的奖励增长较慢,且在训练过程中表现出更大的不稳定性。
  • 结论: 多阶段随机初始化策略通过增加状态空间探索,有效克服了长周期任务中慢收敛和不稳定奖励进展的限制,提高了训练效率和稳定性。

6.1.3. 对不同物体属性的适应性

为了全面评估策略的鲁棒性和泛化能力,作者在 MuJoCo 仿真环境中进行了仿真到仿真迁移评估。策略在不同尺寸、质量和几何形状的物体上进行了测试,尽管它仅在一个固定尺寸的圆柱体上进行了训练。

  • 评估标准: 每个试验的成功定义为:物体质心在目标位置 0.1 米范围内保持稳定,且没有掉落。每个测试条件下进行 30 次独立试验以计算成功率。

  • 数据呈现 (表格): 以下是原文 Table III 的结果: TABLE III Success Rate of Our WHole-Body ManipuLation PoLicy for OBJECTS WITH DIFFERENT SIZES, MASSES, AND SHAPES IN MUJoCO.

    Object Size [cm³] Mass [kg] Success rate [%] NSDF
    Cylinder Φ42× 40 3 0 w/o
    Cuboid 42 × 42× 42 3 0 w/o
    Sphere Φ42 3 0 w/o
    Cylinder Φ42× 40 1 100 W
    Cylinder Φ42× 40 3 100 W
    Cylinder Φ42× 40 7 93 W
    Cylinder Φ50× 40 3 100 W
    Cuboid 42 × 42× 42 1 100 W
    Cuboid 42 × 42× 42 3 100 W
    Cuboid 42 × 42× 42 7 80 W
    Cuboid 30× 30× 30 3 100 W
    Sphere Φ42 1 100 W
    Sphere Φ42 3 100 W
    Sphere Φ42 7 87 W
    Sphere Φ30 3 100 W
  • 结果分析:

    1. NSDF 的关键作用: 当不使用 NSDF 模块 (w/o NSDF) 时,所有形状(圆柱体、立方体、球体)在标准质量 (3 kg) 条件下成功率均为 0%0 \%。这再次强调了 NSDF 模块在捕捉几何和语义属性以实现稳定操控方面的不可或缺性。
    2. 对不同形状的适应性: 引入 NSDF 模块 (W) 后,策略在所有三种物体类型(圆柱体、立方体、球体)的标准质量 (3 kg) 条件下均达到了 100%100 \% 的成功率,展现了强大的仿真到仿真迁移性能。
    3. 对质量变化的鲁棒性: 策略对质量变化表现出显著的鲁棒性。即使在 7 kg 的较高质量下,圆柱体的成功率为 93%93 \%,球体为 87%87 \%,立方体为 80%80 \%。这表明策略能够有效地调整身体姿态和接触力以应对更重的载荷。立方体在重载下表现略低,可能与其扁平的表面形态有关,这可能使得在多接触拥抱时更难维持稳定的整体接触。
    4. 对尺寸变化的适应性: 物体尺寸的变化,例如更大的 Φ50 cm\Phi 50 \mathrm{~cm} 圆柱体和更小的 Φ30 cm\Phi 30 \mathrm{~cm} 球体,并未降低策略性能,均达到了 100%100 \% 的成功率。这进一步证实了策略在训练分布之外的适应性。
  • 结论: 带有 NSDF 模块的策略在 MuJoCo 中表现出卓越的鲁棒性和泛化能力,能够成功处理不同形状、尺寸和质量的笨重物体,证明了其在多样化场景下的有效性。

6.1.4. 真实世界实验 (Sim-to-Real Transfer)

作者在 Unitree H1-2 机器人平台上部署了训练好的策略,以验证其在真实世界中的性能。

  • 实验设置:

    • 机器人平台:Unitree H1-2。
    • 车载计算:Intel i7 计算机,策略推理运行频率 50 Hz50 \mathrm{~Hz}
    • 感知:高精度运动捕捉系统实时追踪机器人和目标物体的全局姿态。
    • 目标物体:一个尺寸为 Φ40 cm×60 cm\Phi 40 \mathrm{~cm} \times 60 \mathrm{~cm} 的圆柱体。
  • 结果展示:

    Fig. 7. Sim-to-real transfer of whole-body manipulation in H1-2 humanoid robot. The sequence illustrates the sim-to-real transfer of a whole-body manipulation task. From 0 to 2 s, the H1 robot approaches the target object. At 4 s, it positions itself to initiate contact and prepare for lifting. By 6 s, the robot successfully lifts the object and begins locomotion to complete the task. 该图像是一个示意图,展示了H1-2人形机器人在进行全身操作的仿真到现实转移过程。图中显示了从0秒到6秒的操作步骤,包括机器人靠近目标物体、准备接触、举起物体并开始运动的动态过程。

    • 图 7 展示了全身操控任务的仿真到现实迁移序列。
    • 0 s0 \mathrm{~s}2 s2 \mathrm{~s}: H1 机器人开始向目标物体移动,进入接近阶段。
    • 4 s4 \mathrm{~s}: 机器人成功进入拾取区,并调整姿态准备建立接触和抬起物体,进入拥抱阶段。
    • 6 s6 \mathrm{~s}: 机器人成功抬起物体,并开始移动至目标位置,进入运输阶段。
  • 结论: 真实世界实验清楚地展示了机器人成功拥抱笨重物体的能力,并利用了人形机器人的全身(包括手臂和躯干)。这有力地证明了所提出方法在实际应用中的有效性和成功的仿真到现实迁移能力。

7. 总结与思考

7.1. 结论总结

本研究提出了一种创新的强化学习框架,使人形机器人能够有效地执行笨重物体的全身拥抱任务。该框架的核心创新点在于将预训练的人类动作先验 (human motion prior) 与神经符号距离场 (Neural Signed Distance Field, NSDF) 深度融合。通过教师-学生架构,机器人能够学习到运动学上自然且物理上可行的全身动作模式,显著提高了训练效率和动作的拟人化程度。NSDF 提供了精确且连续的几何感知能力,增强了机器人与物体之间多接触交互的鲁棒性,从而提升了操作稳定性和载荷能力。

全面的仿真实验验证了该方法对不同形状、尺寸和质量物体的强大适应性和泛化能力。更重要的是,通过在 Unitree H1-2 真实机器人平台上的实验,成功展示了从仿真到现实的无缝迁移,证明了该框架在实际应用中的有效性和实用性。这项工作为人形机器人实现复杂的多接触和长周期全身操控任务提供了一个有前景的解决方案。

7.2. 局限性与未来工作

论文明确提出了其方法的有效性,但作为一篇预印本,其局限性和潜在的未来工作方向也可以进行推断和扩展:

  • 对环境感知的依赖性:

    • 局限性: 真实世界实验依赖高精度运动捕捉系统来追踪机器人和目标物体的全局姿态。这在受控实验环境中可行,但在非结构化或未知环境中,外部运动捕捉系统可能不可用或不实用。
    • 未来工作: 探索将 NSDF 感知与机器人自身搭载的传感器(如深度相机、激光雷达)相结合,实现更自主、无需外部定位的几何感知。这可能涉及在线 NSDF 重建或结合视觉-触觉融合感知。
  • 任务复杂度和泛化性:

    • 局限性: 目前的任务主要集中在“拥抱和运输”笨重物体,这是一个特定的多接触 WBM 任务。对于更广义的 WBM 任务,如使用工具、推拉物体,或者在拥抱过程中需要动态调整姿态以避免障碍物等,该框架的直接适用性可能需要进一步验证。
    • 未来工作: 扩展框架以支持更广泛的 WBM 任务类型和更复杂的环境交互,例如在有障碍物的空间中搬运物体,或者需要更精细力控制的操作。
  • NSDF 的实时性与计算开销:

    • 局限性: 尽管 NSDF 提供了精确感知,但预训练 NSDF 网络和实时查询的计算开销可能仍然是一个挑战,尤其是在资源受限的机器人平台上。
    • 未来工作: 优化 NSDF 网络的结构和推理效率,或者探索更轻量级的几何感知方法,以确保在更严苛的实时性要求下也能稳定运行。
  • 人类动作先验的局限性:

    • 局限性: 尽管人类动作先验提供了生物学上合理的运动模式,但人类动作数据可能无法完全覆盖机器人可能遇到的所有极端或非标准操作场景。
    • 未来工作: 结合基于物理模拟的动作生成,或通过在线适应 (online adaptation) 机制,使机器人能够超越预设的人类动作先验,学习更具鲁棒性和创造性的动作策略。
  • 长周期任务的鲁棒性:

    • 局限性: 尽管多阶段随机初始化有助于训练,但长周期任务在真实世界中仍然容易受到累计误差、不可预测的动态扰动等因素的影响。
    • 未来工作: 引入更先进的故障恢复机制、自适应控制策略或更强大的状态估计技术,以提高长周期任务在复杂环境中的鲁棒性。

7.3. 个人启发与批判

这篇论文在人形机器人全身操控领域取得了显著进展,尤其是在笨重物体拥抱任务上。

  • 启发:

    1. NSDF 在接触感知中的潜力: 将 NSDF 引入强化学习的观测空间和奖励函数,以提供精细的几何感知和引导多点接触,是一个非常巧妙且有效的策略。这表明在机器人与环境进行复杂物理交互时,精确的、连续的几何表示比传统的离散接触点检测更能提升性能和鲁棒性。这种思想可以推广到其他需要精细接触控制的任务中。
    2. 人类动作先验的有效整合: 教师-学生架构结合人类动作先验,不仅加速了训练,还使得机器人的动作更加自然和“拟人化”。这对于人形机器人来说至关重要,因为它们最终需要在人类环境中与人类协作。这种知识蒸馏范式提供了一种将高维、复杂但有用的离线数据(人类动作)转化为低维、高效且可用于在线 RL 任务的先验知识的通用方法。
    3. 分阶段训练的必要性: 长周期、多阶段任务的训练挑战是强化学习中的一个普遍问题。本文提出的多阶段随机初始化方法,有效地平衡了不同任务阶段的学习,显著提升了收敛速度和稳定性。这对于设计其他复杂多阶段机器人任务的 RL 训练流程具有普适的指导意义。
  • 批判:

    1. 真实世界感知的实用性考量: 尽管仿真到现实的迁移令人印象深刻,但真实世界实验对高精度运动捕捉系统的依赖,在很大程度上简化了机器人自身的感知挑战。对于未来人形机器人在完全自主和未知环境中的部署,如何用板载传感器(如视觉、触觉)替代或增强外部运动捕捉,是一个核心且未完全解决的问题。NSDF 的实时重建和使用,在没有精确先验模型的情况下,仍是一个挑战。

    2. 奖励函数的复杂性与可迁移性: 论文设计了多种精心调优的奖励函数,这在强化学习中是常见的。然而,复杂的奖励工程有时会降低方法对新任务或新环境的泛化能力。虽然 NSDF 和动作先验有助于降低这种依赖,但在更复杂的交互场景下,如何简化奖励设计或采用更通用的奖励机制(例如基于目标图像或语义描述的奖励),将是一个值得探索的方向。

    3. 多接触力的显式控制: 论文通过 NSDF 引导多接触,但并未深入探讨多接触点上的力分布和协同控制。在拥抱笨重物体时,如何智能地分配和调整不同接触点上的力,以防止物体滑动或机器人自身失稳,是一个更深层次的力控问题。尽管策略可能隐式地学习了这一点,但显式的多接触力学模型和控制策略的结合可能会进一步提升性能和安全性。

    4. 对物体属性变化的内在限制: 尽管论文展示了对不同尺寸、质量和形状物体的鲁棒性,但这种泛化仍然在一定范围内。例如,对于极端扁平、极度不规则或具有柔软易变形表面的物体,当前的 NSDF 表示和策略可能需要进一步的改进。

      总的来说,该论文为人形机器人在复杂物理交互任务(如拥抱笨重物体)方面提供了一个强有力的框架,展示了强化学习结合先验知识和精确几何感知在机器人控制中的巨大潜力。

相似论文推荐

基于向量语义检索推荐的相关论文。

暂时没有找到相似论文。