论文状态:已完成

GentleHumanoid: Learning Upper-body Compliance for Contact-rich Human and Object Interaction

发表:2025/11/07
原文链接PDF 下载
价格:0.100000
价格:0.100000
已有 1 人读过
本分析由 AI 生成,可能不完全准确,请以原文为准。

TL;DR 精炼摘要

本文提出了GentleHumanoid框架,旨在实现人形机器人在接触密集环境中的上半身柔顺性。该方法将阻抗控制融入全身运动跟踪策略,构建弹簧模型以适应各种人机交互场景,显著降低接触力并保证任务成功,提升了自然和安全的交互体验。

摘要

Humanoid robots are expected to operate in human-centered environments where safe and natural physical interaction is essential. However, most recent reinforcement learning (RL) policies emphasize rigid tracking and suppress external forces. Existing impedance-augmented approaches are typically restricted to base or end-effector control and focus on resisting extreme forces rather than enabling compliance. We introduce GentleHumanoid, a framework that integrates impedance control into a whole-body motion tracking policy to achieve upper-body compliance. At its core is a unified spring-based formulation that models both resistive contacts (restoring forces when pressing against surfaces) and guiding contacts (pushes or pulls sampled from human motion data). This formulation ensures kinematically consistent forces across the shoulder, elbow, and wrist, while exposing the policy to diverse interaction scenarios. Safety is further supported through task-adjustable force thresholds. We evaluate our approach in both simulation and on the Unitree G1 humanoid across tasks requiring different levels of compliance, including gentle hugging, sit-to-stand assistance, and safe object manipulation. Compared to baselines, our policy consistently reduces peak contact forces while maintaining task success, resulting in smoother and more natural interactions. These results highlight a step toward humanoid robots that can safely and effectively collaborate with humans and handle objects in real-world environments.

思维导图

论文精读

中文精读

1. 论文基本信息

1.1. 标题

GentleHumanoid: Learning Upper-body Compliance for Contact-rich Human and Object Interaction (GentleHumanoid:学习用于接触密集型人机交互和物体交互的上半身柔顺性)

1.2. 作者

Qingzhou Lu, Yao Feng, Baiyu Shi, Michael Piseno, Zhenan Bao, C. Karen Liu (斯坦福大学)

1.3. 发表期刊/会议

arXiv 预印本 (arXiv preprint)

1.4. 发表年份

2025年 (根据发表日期 2025-11-06T18:59:33.000Z 推断)

1.5. 摘要

人形机器人在以人为中心的环境中运行,其中安全和自然的物理交互至关重要。然而,大多数近期强化学习 (RL) 策略强调刚性跟踪并抑制外部力。现有的阻抗增强方法通常仅限于基座或末端执行器控制,并侧重于抵抗极端力而非实现柔顺性。本文引入了 GentleHumanoid 框架,该框架将阻抗控制整合到全身运动跟踪策略中,以实现上半身柔顺性。其核心是一个统一的基于弹簧的公式,该公式模拟了抵抗性接触(当压向表面时产生恢复力)和引导性接触(从人类运动数据中采样的推或拉力)。该公式确保了肩部、肘部和腕部之间运动学一致的力,同时使策略暴露于多样化的交互场景。通过任务可调的力阈值进一步支持安全性。我们在仿真和 Unitree G1 人形机器人上评估了我们的方法,涉及需要不同柔顺性水平的任务,包括温和拥抱、坐到站辅助和安全物体操作。与基线相比,我们的策略在保持任务成功的同时,始终降低了峰值接触力,从而实现了更平滑和自然的交互。这些结果标志着人形机器人在现实世界环境中安全有效地与人类协作并处理物体的进步。

1.6. 原文链接

https://arxiv.org/abs/2511.04679 PDF 链接: https://arxiv.org/pdf/2511.04679v1.pdf 发布状态: 预印本 (Preprint)

2. 整体概括

2.1. 研究背景与动机

人形机器人作为未来社会的重要组成部分,其在人类生活环境中与人类和物体进行安全、自然、物理上的交互能力至关重要。然而,现有主流的强化学习 (RL) 机器人控制策略往往侧重于精确的刚性位置或速度跟踪,并倾向于将外部施加的力视为需要抑制的干扰。这种刚性行为在需要精细物理接触的任务中(如拥抱、辅助站立、操作易碎物品)显得力不从心,甚至可能导致不安全或不自然的交互。

虽然一些研究尝试将阻抗控制或导纳控制(impedance or admittance control)集成到 RL 框架中,以实现力适应行为,但这些方法通常存在局限性:

  1. 范围受限: 大多只应用于机器人基座或末端执行器(如手),无法实现全身或至少是整个上半身运动链的协调柔顺性。

  2. 目标单一: 更多是旨在抵抗极端外力,而非主动促进柔顺且适应性的交互。

  3. 缺乏协调: 在多关节、多连杆同时接触的复杂场景下,如拥抱,需要肩部、肘部、手部等多个部位的力进行协调响应,而现有方法难以有效处理。

  4. 交互多样性不足: 难以适应从“轻柔地顺从”到“坚定地提供支持”等不同柔顺性需求的多样化接触场景。

    本文正是为了解决这些挑战,旨在开发一种能够实现人形机器人全身(特别是上半身)柔顺控制的框架,使其在与人类和物体进行物理交互时,既安全又自然。

2.2. 核心贡献/主要发现

本文提出的 GentleHumanoid 框架取得了以下核心贡献和主要发现:

  1. 提出 GentleHumanoid 框架: 首次将阻抗控制与全身运动跟踪策略相结合,实现了人形机器人上半身的全程柔顺控制。这使得机器人能够在跟踪目标运动的同时,对外部物理交互表现出适应性响应。

  2. 统一的交互力建模: 引入了一种创新的统一基于弹簧的交互力建模方法,涵盖了两种关键接触类型:

    • 抵抗性接触 (resistive contacts): 模拟机器人自身压向表面时产生的恢复力。
    • 引导性接触 (guiding contacts): 模拟外部代理(如人类)对机器人进行推或拉时产生的引导力。
    • 该模型通过从人类运动数据中采样,确保了肩部、肘部、腕部等多个关节的运动学一致性,生成了多样化且协调的交互场景。
  3. 安全感知力阈值机制: 开发了一种任务可调的力阈值机制,该机制在训练过程中限制了交互力在安全范围内。这使得机器人能够根据具体任务需求(如轻柔拥抱或坚定辅助)调整其柔顺性水平,同时始终保障交互安全。

  4. 定制化拥抱评估设置: 设计了一种带有定制压力传感垫的拥抱评估装置,该装置能够可靠地测量分布式接触力,为评估柔顺性提供了量化手段。

  5. 仿真与真实世界验证: 在仿真环境和 Unitree G1 人形机器人上进行了广泛验证,对比了多种基线方法(Vanilla-RLExtreme-RL)。实验结果表明,GentleHumanoid 在拥抱、坐到站辅助和物体操作等任务中,比基线方法表现出更安全、更平滑、更具适应性的性能,显著降低了峰值接触力,同时维持了任务成功率。

  6. 自主形体感知拥抱管线: 结合视觉感知与人类形体估计技术,实现了对不同体型人类的个性化自主拥抱,进一步拓展了柔顺控制的应用潜力。

    这些贡献共同推动了人形机器人在复杂、动态且以人为中心的真实世界环境中进行安全有效协作的能力。

3. 预备知识与相关工作

3.1. 基础概念

为了更好地理解 GentleHumanoid 框架,我们需要回顾以下几个核心概念:

3.1.1. 人形机器人全身控制 (Humanoid Whole Body Control)

全身控制 (Whole Body Control, WBC) 是指同时协调机器人所有关节(包括腿部、躯干和手臂)的运动,以实现复杂任务(如行走、操作、平衡)的技术。人形机器人具有高自由度和类人形态,其 WCB 难度很高,传统方法如模型预测控制 (Model Predictive Control, MPC) 需要精细的模型和调优。近年来,强化学习 (Reinforcement Learning, RL) 为 WCB 带来了新的突破,通过学习策略直接从经验中生成复杂行为。

3.1.2. 阻抗控制 (Impedance Control)

阻抗控制 (Impedance Control) 是一种力控策略,它不直接控制力或位置,而是控制机器人与环境交互时的动态关系,使其表现出期望的机械阻抗(即质量、阻尼和刚度)。当机器人与环境接触时,阻抗控制器会根据实际位置偏差和速度偏差,计算出相应的力矩,使机器人表现得像一个虚拟的弹簧-阻尼系统。

  • 刚度 (Stiffness, KpK_p): 决定了机器人抵抗位置偏差的“硬度”。刚度越大,机器人越倾向于保持原位;刚度越小,机器人越容易被外力推动。
  • 阻尼 (Damping, KdK_d): 决定了机器人对速度偏差的“粘性”。阻尼越大,机器人运动越平稳,对外部扰动的反应越慢;阻尼越小,机器人运动可能更快但更易振荡。
  • 临界阻尼 (Critical Damping): 是一种特殊的阻尼设置,使得系统在没有振荡的情况下最快地回到平衡位置。其数学表达式通常为 Kd=2MKpK_d = 2\sqrt{MK_p},其中 MM 是虚拟质量。

3.1.3. 强化学习 (Reinforcement Learning, RL)

强化学习 (Reinforcement Learning, RL) 是一种机器学习范式,智能体 (agent) 通过与环境的交互学习,以最大化累积奖励。智能体在每个时间步观察环境状态 (state),执行动作 (action),然后环境给出奖励 (reward) 和新的状态。RL 的核心是学习一个策略 (policy),即从状态到动作的映射。

  • 策略 (Policy, π\pi): 定义了在给定状态下,智能体选择何种动作的规则。
  • 奖励函数 (Reward Function): 定义了智能体在环境中表现好坏的信号。设计一个好的奖励函数是 RL 成功的关键。
  • PPO (Proximal Policy Optimization): 是一种广泛使用的强化学习算法,它通过限制策略更新的步长,平衡了训练的稳定性和效率,常用于连续控制任务。

3.1.4. 运动跟踪 (Motion Tracking)

运动跟踪 (Motion Tracking) 是指机器人试图复制或跟随预定义运动序列(通常来自人类运动捕捉数据)的能力。在 RL 中,这通常通过奖励机器人当前姿态和运动与目标运动之间的相似性来实现。

3.1.5. Sim-to-Real Transfer (仿真到现实迁移)

Sim-to-Real Transfer (仿真到现实迁移) 是指在仿真环境中训练机器人控制策略,然后将其部署到真实世界机器人上的过程。由于真实世界实验成本高、耗时且存在安全风险,通常在仿真中进行大部分训练。然而,仿真环境和真实世界之间存在“现实差距” (reality gap),包括物理模型不准确、传感器噪声等。解决这个差距是机器人学习的关键挑战。

  • 教师-学生架构 (Teacher-Student Architecture): 是一种常见的 Sim-to-Real 策略,其中“教师”策略在仿真中拥有特权信息 (privileged information),学习更强的能力;“学生”策略只观察真实世界可用的信息,并尝试模仿教师策略的行为。

3.2. 前人工作

3.2.1. 人形机器人全身控制 (Humanoid Whole Body Control)

  • 传统模型基方法: 如模型预测控制 (MPC) [13, 14],能够产生稳定的行为,但需要大量专家设计和精细调优来平衡可行性与计算成本。
  • 基于学习的方法: 近期通过从人类运动数据中学习,实现了令人印象深刻的全身运动和操作 [5, 3, 4, 6]。也有工作用于全身遥操作 (tele-operation) [2, 7, 8]。
  • 局限性: 这些方法通常忽略了复杂的接触动力学,导致对外部扰动的鲁棒性不足,并在与人类的紧密物理交互中存在安全隐患。

3.2.2. 力适应控制 (Force-adaptive Control)

  • 经典方法: 阻抗控制和导纳控制是调节交互力的经典方法,已被扩展到全身控制框架 [15, 17]。
  • RL 集成方法: 最近的 RL 方法也整合了阻抗或导纳控制,以实现自适应接触行为 [9, 11]。其他方法则尝试隐式学习对外部扰动和极端力的鲁棒性 [12, 18]。
  • 局限性: 这些方法通常侧重于末端执行器 (end-effector) 的交互,而非涉及全身其他部位(如手臂、躯干)的交互。在搬运大型物体或与人类交互时,接触可能发生在多个连杆上,需要全身运动链的协调力分布。

3.2.3. 人机交互 (Human-humanoid Interaction)

  • 早期探索: 涉及人类在环 (human-in-the-loop) 策略和触觉反馈,以实现柔和舒适的接触 [19, 20]。
  • 特定任务辅助: 传统控制方法被应用于辅助人类完成特定任务,如坐到站 (sit-to-stand) 过渡 [21, 22]。
  • 基于视觉的方法: 最近有工作侧重于基于视觉标准,例如设计使人形机器人避免与人类碰撞的策略 [23]。
  • 局限性: 这些方法通常针对单一场景定制,策略泛化能力差,难以跨越不同交互情境(如同时处理拥抱和坐到站辅助)。

3.3. 技术演进

机器人全身控制从早期的模型预测控制等优化方法,发展到如今结合强化学习从大量人类运动数据中学习复杂行为。力适应控制也从经典的阻抗/导纳控制,演变到将其融入强化学习策略,以应对更复杂的接触场景。人机交互领域则从简单的触觉反馈和特定任务辅助,逐渐走向更通用、更安全的物理交互策略。

本文的 GentleHumanoid 正是处于这一技术演进的交汇点。它在强化学习全身运动跟踪的强大能力基础上,巧妙地融入了阻抗控制的思想,并通过创新的交互力建模和安全阈值机制,解决了现有方法在全身柔顺性、多关节协调以及多样化接触场景泛化能力方面的不足。它超越了仅关注末端执行器或单一任务的局限性,旨在实现人形机器人在全身层面与人类和物体进行安全、自然的接触。

3.4. 差异化分析

GentleHumanoid 与相关工作的主要区别和创新点在于:

  1. 全身(上半身)柔顺性: 不同于仅限于基座或末端执行器的阻抗控制方法,GentleHumanoid 专注于整个上半身运动链(肩部、肘部、腕部)的协调柔顺性。
  2. 统一的交互力建模: 提出了一个独特的、基于弹簧的统一模型来模拟抵抗性接触和引导性接触,并通过从人类运动数据中采样,确保了多关节的运动学一致性和交互多样性。这比简单的物理引擎碰撞力更具结构性和协调性。
  3. 安全感知与可调柔顺性: 引入了任务可调的力阈值机制,不仅保障了安全性,还允许根据任务需求(从轻柔到坚定)动态调整柔顺性水平,而不仅仅是抵抗极端力。
  4. 泛化能力: 学习的是一种通用的运动跟踪策略,能够处理多种交互场景(拥抱、辅助、操作),而非为特定任务定制的策略。
  5. Sim-to-Real 实践: 在 Unitree G1 机器人上进行了真实世界验证,并展示了其在复杂物理交互中的实际效果,包括定制化的压力传感器评估。

4. 方法论

本文提出的 GentleHumanoid 框架旨在通过将阻抗控制集成到全身运动跟踪策略中,实现人形机器人上半身的柔顺控制。其核心思想是让机器人的动作同时受到目标运动的驱动力和与环境交互的交互力的影响,并通过强化学习训练一个策略来协调这些力,以实现安全、自然的物理交互。

4.1. 方法原理

GentleHumanoid 的核心原理是为机器人每个上肢连杆(如肩、肘、腕)引入一个虚拟的质量-弹簧-阻尼系统。机器人的运动由两类力决定:

  1. 驱动力 (Driving Force): 来源于目标运动,像一个虚拟的弹簧阻尼器,将连杆拉向其目标位置和速度。

  2. 交互力 (Interaction Force): 来源于与环境(人类或物体)的物理接触,也通过虚拟弹簧模型来模拟。

    强化学习策略负责学习如何协调这些力,将它们转化为低层关节力矩指令,从而实现全身的稳定性和适应性。为了确保安全和多样性,框架还引入了安全力阈值机制和多样化的交互场景模拟。

4.2. 核心方法详解

4.2.1. 问题定义 (Problem Formulation)

我们将人形机器人与环境的物理交互建模为一系列连杆的动力学问题。对于每个连杆 ii,其运动方程遵循牛顿第二定律: Mx¨i=fdrive,i+finteract,i M \ddot { \pmb x } _ { i } = \pmb f _ { \mathrm { d r i v e } , i } + \pmb f _ { \mathrm { i n t e r a c t } , i } 其中:

  • xi\pmb x _ { i }:连杆 ii 的 3D 笛卡尔坐标位置。

  • x¨i\ddot { \pmb x } _ { i }:连杆 ii 的 3D 笛卡尔坐标加速度。

  • MM:虚拟质量,是一个标量,代表每个连杆的虚拟质量(在本文中设定为 0.1 kg0.1 \ \mathrm{kg})。

  • fdrive,i\pmb f _ { \mathrm { d r i v e } , i }:连杆 ii 的驱动力,用于将连杆拉向目标运动。

  • finteract,i\pmb f _ { \mathrm { i n t e r a c t } , i }:连杆 ii 的交互力,由与环境的物理接触产生。

    为了简化表示,后续在不引起混淆的情况下,将省略连杆下标 ii。所有连杆位置 x\pmb x 和速度 x˙\dot{\pmb x} 均表示在机器人的根坐标系中。

4.2.2. 基于阻抗的目标运动驱动力 (Impedance-Based Driving Force from Target Motion)

驱动力 fdrive\pmb f _ { \mathrm { d r i v e } } 模仿了经典的阻抗控制,将每个连杆拉向其目标轨迹。它被建模为一个虚拟的弹簧-阻尼系统: fdrive=Kp(xtarxcur)+Kd(vtarvcur) \pmb { f } _ { \mathrm { d r i v e } } = K _ { p } ( \pmb { x } _ { \mathrm { t a r } } - \pmb { x } _ { \mathrm { c u r } } ) + K _ { d } ( \pmb { v } _ { \mathrm { t a r } } - \pmb { v } _ { \mathrm { c u r } } ) 其中:

  • xcur\pmb { x } _ { \mathrm { c u r } }vcur\pmb { v } _ { \mathrm { c u r } }:连杆当前的 3D 笛卡尔坐标位置和速度。
  • xtar\pmb { x } _ { \mathrm { t a r } }vtar\pmb { v } _ { \mathrm { t a r } }:来自目标运动的相应连杆目标位置和速度。
  • K _ { p }:阻抗刚度 (impedance stiffness) 增益,控制连杆位置跟踪目标的强度。
  • K _ { d }:阻抗阻尼 (impedance damping) 增益,控制对速度偏差的响应。 为了确保系统稳定平滑的行为,阻尼 K _ { d } 设置为临界阻尼值:Kd=2MKpK _ { d } = 2 \sqrt { M K _ { p } }。 尽管上述 x\pmb xv\pmb v 都是 3D 笛卡尔连杆状态,但最终 RL 策略输出的是关节空间动作,由低层关节 PD 控制器跟踪。RL 策略在此过程中学习如何协调这些柔顺力,并将其映射到关节层面的动作,以平衡全身控制的稳定性和适应性。

4.2.3. 交互力建模 (Interaction Force Modeling)

当没有物理交互时,只有驱动力使机器人跟随目标运动。当发生物理接触时,会产生额外的交互力。本文设计了一个统一的交互力模型,以捕捉多连杆耦合和力的多样性。该模型区分两种情况:

  1. 抵抗性接触 (Resistive contact): 当人形机器人自身压向人类或物体时产生的力。

  2. 引导性接触 (Guiding contact): 当外部代理(如人类)推拉人形机器人手臂时施加的力。

    两种情况都使用相同的弹簧公式建模,并引入了“锚点” (anchor) 的概念: finteract=Kspring(xanchorxcur) \pmb { f } _ { \mathrm { i n t e r a c t } } = K _ { \mathrm { s p r i n g } } \big ( \pmb { x } _ { \mathrm { a n c h o r } } - \pmb { x } _ { \mathrm { c u r } } \big ) 其中:

  • KspringK _ { \mathrm { s p r i n g } }:弹簧刚度。
  • xcur\pmb { x } _ { \mathrm { c u r } }:连杆当前位置。
  • xanchor\pmb { x } _ { \mathrm { a n c h o r } }:弹簧锚点位置,其定义取决于接触类型: xanchor={xcur(t0),resistive contact,xsample,guiding contact. \pmb { x } _ { \mathrm { a n c h o r } } = \left\{ \begin{array} { l l } { \pmb { x } _ { \mathrm { c u r } } ( t _ { 0 } ) , } & { \mathrm { r e s i s t i v e ~ c o n t a c t } , } \\ { \pmb { x } _ { \mathrm { s a m p l e } } , } & { \mathrm { g u i d i n g ~ c o n t a c t } . } \end{array} \right.
    • 对于抵抗性接触:xcur(t0)\pmb { x } _ { \mathrm { c u r } } ( t _ { 0 } ) 是连杆在初始接触瞬间的位置。这意味着锚点在接触发生时被固定,产生的力是恢复力,抵抗连杆偏离接触点。

    • 对于引导性接触:xsample\pmb { x } _ { \mathrm { s a m p l e } } 是从数据集姿态中采样的一个连杆位置,代表外部代理将人形机器人引导向新配置。这会产生引导力,将机器人拉向外部定义的姿态。

      这种统一的公式提供了以下优势:

  • 运动学一致性: 姿态样本从真实人类运动数据中提取,确保引导力在运动学上有效,并对应于合理的人类上半身运动(例如,肩部、肘部、腕部之间协调作用)。具体来说,它通过预计算运动数据集的姿态分布,在训练时选择接近当前多连杆位置的姿态,并从中随机采样目标位置作为弹簧锚点来生成引导力。
  • 交互多样性: 为了增加交互多样性,弹簧刚度 KspringK _ { \mathrm { s p r i n g } } 从均匀分布 U(5,250)\mathcal { U } ( 5 , 2 5 0 ) 中采样。同时,主动接触的连杆集合也进行随机选择,包括:40%40\% 没有外部力;15%15\% 双臂(全部 6 个连杆)受力;30%30\% 单臂(左或右,其 3 个连杆)受力;15%15\% 仅单个连杆受力。锚点和选择每 5 秒重新采样一次,并伴随短暂的过渡窗口以确保连续性。这使得策略能够接触到广泛的交互动力学,学习在保持运动链一致性的同时实现鲁棒柔顺性。

4.2.4. 安全感知力阈值 (Safety-Aware Force Thresholding)

在 Equation 2 中,驱动力与跟踪误差成比例增长,可能导致无限制的力,超出安全交互水平。为防止这种情况,本文引入了一种自适应力阈值机制,限制机器人施加的最大允许力。 在训练过程中,系统会采样一个分段常数安全阈值 τsafe\tau _ { \mathrm { s a f e } },范围为 F1τsafeF2F _ { 1 } \leq \tau _ { \mathrm { s a f e } } \leq F _ { 2 }。该阈值每 5 秒重新采样一次,促使策略在不同安全限制下保持鲁棒性。当前阈值也会作为观察值的一部分提供给策略。 当驱动力超过阈值时,应用以下缩放机制: fdrive.limited=min(1.0,τsafefdrive)fdrive \pmb { f } _ { \mathrm { d r i v e \mathrm { .l i m i t e d } } } = \operatorname* { m i n } \left( 1 . 0 , \frac { \tau _ { \mathrm { s a f e } } } { \| \pmb { f } _ { \mathrm { d r i v e } } \| } \right) \cdot \pmb { f } _ { \mathrm { d r i v e } } 其中:

  • fdrive\pmb { f } _ { \mathrm { d r i v e } }:原始驱动力。
  • τsafe\tau _ { \mathrm { s a f e } }:当前采样的安全力阈值。
  • fdrive\| \pmb { f } _ { \mathrm { d r i v e } } \|:驱动力的 L2 范数。 这个阈值直接调节了柔顺性:较低的值(如 F1=5 NF_1 = 5 \ \mathrm{N})产生更柔和、更安全的行为,适用于轻柔交互(如拥抱);而较高的值(如 F2=15 NF_2 = 15 \ \mathrm{N})允许更坚定的支持,适用于坐到站辅助等任务,同时保持在安全范围内。这些阈值是根据 ISO/TS 15066 安全标准和舒适度研究设定的,旨在实现以舒适为导向的交互。

4.2.5. 基于强化学习的控制策略 (RL-based Control Policy)

在时间 tt,人形机器人接收到包含其本体感知信息和目标运动序列 mtar\pmb m_{\mathrm{tar}} 的观测 ot\pmb o_t。策略 π(atot)\pi(\pmb a_t | \pmb o_t)50 Hz50 \ \mathrm{Hz} 的频率输出关节位置目标 at\pmb a_t,由低层 PD 控制器跟踪,使人形机器人跟随目标运动,同时对交互力 finteract\pmb f_{\mathrm{interact}} 表现出柔顺响应。

为了纳入基于阻抗的参考动力学,模型使用半隐式欧拉积分进行仿真,固定时间步长为 0.005 s0.005 \ \mathrm{s}x˙t+1ref=x˙tref+Δtfdrive+finteractM,xt+1ref=xtref+Δtx˙t+1ref. \begin{array} { r l } & { \dot { \pmb { x } } _ { t + 1 } ^ { \mathrm { r e f } } = \dot { \pmb { x } } _ { t } ^ { \mathrm { r e f } } + \Delta t \cdot \frac { { \pmb f } _ { \mathrm { d r i v e } } + { \pmb f } _ { \mathrm { i n t e r a c t } } } { M } , } \\ & { { \pmb x } _ { t + 1 } ^ { \mathrm { r e f } } = { \pmb x } _ { t } ^ { \mathrm { r e f } } + \Delta t \cdot \dot { \pmb x } _ { t + 1 } ^ { \mathrm { r e f } } . } \end{array} 其中:

  • Δt\Delta t:积分步长。
  • xtref\pmb { x } _ { t } ^ { \mathrm { r e f } }x˙tref\dot { \pmb { x } } _ { t } ^ { \mathrm { r e f } }:参考动力学模型中的连杆位置和速度。这与模拟器中的实际机器人连杆位置 xsim\pmb x^{\mathrm{sim}} 有所区别。 目标是引导机器人遵循参考动力学中编码的柔顺行为。在每个时间步,速度和位置根据合驱动力和交互力进行更新,半隐式欧拉积分确保了数值稳定性。这个基于阻抗的参考动力学系统指定了策略需要复现的柔顺行为。

4.2.5.1. 教师-学生架构 (Teacher-Student Architecture)

为了实现仿真到现实的迁移 (sim-to-real transfer),本文采用两阶段的教师-学生训练框架,并使用 PPO 算法进行策略训练。

  • 学生策略 (Student Policy): 只观察真实世界部署时可用的信息: ot=(τsafe,mtar,ω,g,qthist,at3:t1) \pmb { o } _ { t } = \left( \tau _ { \mathrm { s a f e } } , \pmb m _ { \mathrm { t a r } } , \omega , \pmb g , \pmb { q } _ { t } ^ { \mathrm { h i s t } } , \pmb { a } _ { t - 3 : t - 1 } \right) 其中:
    • τsafe\tau _ { \mathrm { s a f e } }:当前的安全力限制,可在部署时由用户更改。
    • mtar\pmb m _ { \mathrm { t a r } }:目标运动信息,包括未来的根姿态和目标关节位置。
    • ω\omega:根部的角速度。
    • g\pmb g:在机器人根坐标系中表示的重力(投影重力)。
    • qthist\pmb q _ { t } ^ { \mathrm { h i s t } }:最近的关节位置历史。
    • at3:t1\pmb { a } _ { t - 3 : t - 1 }:最近的动作历史。
  • 教师策略 (Teacher Policy): 除了学生策略的观察信息外,还接收全面的特权信息 (privileged information): otpriv=(xtref,x˙tref,finteract,finteractsim,ht,τt1,ecum) \boldsymbol { o } _ { t } ^ { \mathrm { priv } } = ( \boldsymbol { x } _ { t } ^ { \mathrm { r e f } } , \dot { \boldsymbol { x } } _ { t } ^ { \mathrm { r e f } } , \pmb f _ { \mathrm { i n t e r a c t } } , \pmb f _ { \mathrm { i n t e r a c t } } ^ { \mathrm { s i m } } , \boldsymbol { h } _ { t } , \boldsymbol { \tau } _ { t - 1 } , \boldsymbol { e } _ { \mathrm { c u m } } ) 其中:
    • xtref\boldsymbol { x } _ { t } ^ { \mathrm { r e f } }x˙tref\dot { \boldsymbol { x } } _ { t } ^ { \mathrm { r e f } }:来自阻抗参考动力学的连杆位置和速度。
    • finteract\pmb f _ { \mathrm { i n t e r a c t } }:由参考动力学预测的交互力。
    • finteractsim\pmb f _ { \mathrm { i n t e r a c t } } ^ { \mathrm { s i m } }:在仿真中测量的实际交互力。
    • ht\boldsymbol { h } _ { t }:髋部高度。
    • τt1\boldsymbol { \tau } _ { t - 1 }:上一时间步的力矩。
    • ecum\boldsymbol { e } _ { \mathrm { c u m } }:累积跟踪误差。 两个策略都输出关节位置目标 atR29\pmb a _ t \in \mathbb { R } ^ { 29 },由低层 PD 控制器跟踪。

4.2.5.2. 运动数据集 (Motion Datasets)

本文使用多样化的人类运动数据训练策略,涵盖人-人交互和人-物体交互数据集。具体包括 AMASS [29]、InterX [30] 和 LAFAN [31] 数据集,通过 GMR [28] 进行重定向 (retargeting)。经过筛选后,共得到约 25 小时采样频率为 50 Hz50 \ \mathrm{Hz} 的数据集。

4.2.5.3. 奖励设计 (Reward Design)

除了运动跟踪和运动稳定性奖励外,GentleHumanoid 还设计了三个柔顺性奖励项:

  1. 参考动力学跟踪 (Reference Dynamics Tracking, rdynr_{\mathrm{dyn}}): 鼓励机器人遵循柔顺的参考动力学,通过最小化仿真中的实际连杆状态 (xtsim,x˙tsim)(\pmb { x } _ { t } ^ { \mathrm { s i m } } , \dot { \pmb { x } } _ { t } ^ { \mathrm { s i m } } ) 与参考状态 (xtref,x˙tref)(\pmb { x } _ { t } ^ { \mathrm { r e f } } , \dot { \pmb { x } } _ { t } ^ { \mathrm { r e f } } ) 之间的差异: rdyn=exp(xtsimxtref2σx)+exp(x˙tsimx˙tref2σv) r _ { \mathrm { d y n } } = \exp \left( - \frac { \lVert \boldsymbol { x } _ { t } ^ { \mathrm { s i m } } - \boldsymbol { x } _ { t } ^ { \mathrm { r e f } } \rVert _ { 2 } } { \sigma _ { x } } \right) + \exp \left( - \frac { \lVert \dot { \boldsymbol { x } } _ { t } ^ { \mathrm { s i m } } - \dot { \boldsymbol { x } } _ { t } ^ { \mathrm { r e f } } \rVert _ { 2 } } { \sigma _ { v } } \right) 其中:

    • 2\lVert \cdot \rVert _ 2:L2 范数。
    • σx\sigma _ xσv\sigma _ v:控制指数核敏感度的参数。
  2. 参考力跟踪 (Reference Force Tracking, rforcer_{\mathrm{force}}): 惩罚参考动力学中的预测交互力 finteract\pmb f _ { \mathrm { i n t e r a c t } } 与仿真环境中测量的实际交互力 finteractsim\pmb f _ { \mathrm { i n t e r a c t } } ^ { \mathrm { s i m } } 之间的差异: rforce=exp(finteractfinteractsim2σf) r _ { \mathrm { f o r c e } } = \exp \left( - \frac { \| \pmb f _ { \mathrm { i n t e r a c t } } - \pmb f _ { \mathrm { i n t e r a c t } } ^ { \mathrm { s i m } } \| _ { 2 } } { \sigma _ { f } } \right) 其中:

    • σf\sigma _ f:控制指数核敏感度的参数。
  3. 不安全力惩罚 (Unsafe Force Penalty, rpenr_{\mathrm{pen}}): 对超过安全裕度 τsafe\tau _ { \mathrm { s a f e } } 的交互力进行惩罚: rpen=I(finteract>τsafe+δtol) r _ { \mathrm { p e n } } = - \mathbb { I } ( \lVert \pmb f _ { \mathrm { i n t e r a c t } } \rVert > \tau _ { \mathrm { s a f e } } + \delta _ { \mathrm { t o l } } ) 其中:

    • I()\mathbb { I } ( \cdot ):指示函数,当条件为真时为 1,否则为 0。

    • δtol\delta _ { \mathrm { t o l } }:容忍裕度,允许在不触发大惩罚的情况下略微超出 τsafe\tau _ { \mathrm { s a f e } }。在本文中设定为 10 N10 \ \mathrm{N}

      总的柔顺性奖励是这些项的加权和: rcompliance=wdynrdyn+wforcerforce+wpenrpen r _ { \mathrm { c o m p l i a n c e } } = w _ { \mathrm { d y n } } r _ { \mathrm { d y n } } + w _ { \mathrm { f o r c e } } r _ { \mathrm { f o r c e } } + w _ { \mathrm { p e n } } r _ { \mathrm { p e n } } 各项奖励的权重如表 I 所示。

以下是原文 Table I 的内容:

RewardWeight
Compliance
Reference Dynamics Tracking2.0
Reference Force Tracking2.0
Unsafe Force Penalty6.0
Motion Tracking
Root Tracking0.5
Joint Tracking1.0
Locomotion Stability
Survival5.0
Feet Air Time10.0
Impact Force4.0
Slip Penalty2.0
Action Rate0.1
Joint Velocity5.0e-4
Joint Limit1.0

表 I: 奖励项及其权重

4.2.6. 外部力施加逻辑 (External Force Application Logic) (附录 A)

外部交互力施加在部分上半身连杆(肩部、腕部、手部)上。每一步仿真包括以下步骤:

  1. 激活和增益调度 (Activation and Gain Scheduling): 确定当前活跃的连杆及其交互弹簧增益 Kspring(t)K_{\mathrm{spring}}(t)。每隔一段时间,从“无力”、“所有连杆”、“仅左臂”、“仅右臂”或“随机部分子集”中选择一种模式来确定哪些连杆是活跃的。增益 Kspring(t)K_{\mathrm{spring}}(t) 和安全阈值 τsafe(t)\tau_{\mathrm{safe}}(t) 都会平滑地变化。

  2. 锚点更新 (Anchor (Interaction Spring Origin) Update): 每个活跃连杆都维护一个在机器人根坐标系中的锚点 o(t)\pmb o(t)

    • 抵抗性接触: 锚点保持在之前设定的位置,模拟在接触点处的抵抗性载荷。
    • 引导性接触: 锚点平滑地移动到新采样的表面点。
  3. 单侧投影 (One-Sided Projection): 交互力只在连杆向锚点方向压缩时产生作用。当连杆移开时,交互力降为零,模拟真实的单边接触。

  4. 在仿真器中应用 (Application in the Simulator): 力在世界坐标系下施加于活跃连杆。为了防止整体扰动过大,对躯干的总力/扭矩进行限制。

    以下是原文 Table II 的内容:

    ParameterSymbolTypical value / range
    Max per-link force capFmaxF_{max}30 N
    Safety threshold (per link)τsafe\tau_{safe} (t)5-15 N (default 10 N)
    Net force limit (about torso)`TF`30 N
    Net torque limit (about torso)`TM`20 N m
    Interaction spring gainKspringK_{spring}(t)5-250

表 II: 外部力施加参数

4.2.7. 参考动力学积分 (Reference Dynamics Integration) (附录 B)

所有参考量都表示在机器人根坐标系中。设 xt,x˙t\pmb x_t, \dot{\pmb x}_t 为当前状态,xttar,x˙ttar\pmb x_t^{\mathrm{tar}}, \dot{\pmb x}_t^{\mathrm{tar}} 为目标状态。本工作中使用的参考动力学为: Mx¨t=fdrive(xttar,x˙ttar,xt,x˙t)+finteract()Dx˙t. M \ddot { \pmb x } _ { t } = \pmb f _ { \mathrm { d r i v e } } ( { \pmb x } _ { t } ^ { \mathrm { t a r } } , \dot { \pmb x } _ { t } ^ { \mathrm { t a r } } , { \pmb x } _ { t } , \dot { \pmb x } _ { t } ) + \pmb f _ { \mathrm { i n t e r a c t } } ( \cdot ) - D \dot { \pmb x } _ { t } . 其中:

  • fdrive\pmb f _ { \mathrm { d r i v e } }finteract\pmb f _ { \mathrm { i n t e r a c t } }:驱动力和交互力,如前文定义。
  • Dx˙tD \dot { \pmb x } _ { t }:额外的阻尼项,用于增加稳定性。 该系统使用显式欧拉 (explicit Euler) 积分,每一步仿真中包含少量固定子步(本文中为四个子步)。在每个子步中,加速度/速度会被裁剪。

以下是原文 Table III 的内容:

ParameterSymbolValue
Virtual massM0.1 kg
Integration dampingD2.0
Tracking stiffnessKpDerived from Kp = τsafe/0.05
Tracking dampingKd2√M Kp
Time step∆tSame as simulation dt = 0.02s
Substeps per simulator stepNsub4
Velocity clipvmaxv_{max}4 m/s
Acceleration clipamaxa_{max}1000 m/s2

表 III: 参考动力学和积分参数

4.2.8. 自主拥抱管线 (Autonomous Hugging Pipeline) (附录 C)

为了实现舒适的个性化拥抱,该方法结合了以下步骤:

  1. 人体形状估计 (Human Body Shape Estimation): 使用 BEDLAM [32] 估计人体形状,并根据从运动捕捉系统获得的人体绝对高度进行缩放。
  2. 目标接触点提取: 从估计的人体网格中提取腰部位置 xx' 作为目标接触点。
  3. 拥抱姿态优化: 优化 G1 机器人默认的上半身运动,使其选定的机器人连杆(如手和肘部)能够到达 SMPL 模型推导出的腰部目标点,同时躯干在水平面上保持正确方向。优化的目标函数如下: minq,r(,k)Swkp(q,r)bk2+ wtΠxy(ptorso(q,r)+δf(ψ))Πxy(bfront)2+ λregqq02. \begin{array} { r l } { \displaystyle \operatorname* { m i n } _ { \mathbf { q } , \mathbf { r } } } & { \displaystyle \sum _ { ( \ell , k ) \in S } w _ { \ell k } \left\| \mathbf { p } _ { \ell } ( \mathbf { q } , \mathbf { r } ) - \mathbf { b } _ { k } \right\| ^ { 2 } } \\ & { \quad + \ w _ { t } \left\| \Pi _ { x y } \big ( \mathbf { p } _ { \mathrm { t o r s o } } ( \mathbf { q } , \mathbf { r } ) + \delta { \mathbf { f } } ( \psi ) \big ) - \Pi _ { x y } \big ( \mathbf { b } _ { \mathrm { f r o n t } } \big ) \right\| ^ { 2 } } \\ & { \quad + \ \lambda _ { \mathrm { r e g } } \left\| \mathbf { q } - \mathbf { q } _ { 0 } \right\| ^ { 2 } . } \end{array} 其中:
    • q\mathbf { q }:上身关节角度。
    • r=(x,y,ψ)\mathbf { r } = ( x , y , \psi ):平面浮动基座 (planar floating base),高度 z=z0z = z_0 固定。
    • p(q,r)\mathbf { p } _ { \ell } ( \mathbf { q } , \mathbf { r } ):连杆 \ell 的正运动学位置。
    • bk\mathbf { b } _ { k }:腰部的目标点集合。
    • SS:连杆-目标点对的集合(例如,手到腰背部,肘部到对侧腰部)。
    • wkw _ { \ell k }w _ { t }:权重,表示其相对重要性。
    • Πxy\Pi _ { x y }:XY 平面投影。
    • ptorso(q,r)\mathbf { p } _ { \mathrm { t o r s o } } ( \mathbf { q } , \mathbf { r } ):躯干的位置。
    • δ5 cm\delta \approx 5 \ \mathrm{cm}:躯干的小前向偏移量。
    • f(ψ)=[cosψ,sinψ,0]\mathbf { f } ( \psi ) = [ \cos \psi , \sin \psi , 0 ] ^ { \top }:机器人头部朝向。
    • bfront\mathbf { b } _ { \mathrm { f r o n t } }:前方目标点。
    • λreg\lambda _ { \mathrm { r e g } }:正则化参数。
    • qq02\| \mathbf { q } - \mathbf { q } _ { 0 } \| ^ { 2 }:正则化项,使解决方案接近中立的上半身姿态 q0\mathbf { q } _ 0
  4. 与运动策略协调: 获取目标姿态和接触位置后,机器人首先通过一个专门训练的运动策略走到人前方 10 cm10 \ \mathrm{cm} 处并对齐。满足条件后,控制权切换到 GentleHumanoid 策略执行拥抱。

4.2.9. 视频到人形机器人 (Video to Humanoid) (附录 D)

该方法还支持将单目 RGB 视频转换为人形机器人运动。使用 PromptHMR [33] 估计人体运动为 SMPL-X 运动序列,然后通过 GMR 重定向到 G1 人形机器人。即使参考运动存在噪声(例如,足部打滑),该方法仍保持鲁棒性和柔顺性,并成功处理了不同大小和可变形性的物体(如枕头、气球、篮子)的交互。

5. 实验设置

5.1. 数据集

本文利用多样化的人类运动数据集来训练其策略,涵盖人-人交互和人-物体交互场景。

  • 来源: AMASS [29]、InterX [30] 和 LAFAN [31] 等公开可用的运动捕捉数据集。
  • 处理: 这些数据集通过 GMR [28] 工具进行重定向 (retargeting),使其适用于 Unitree G1 人形机器人的骨架结构。同时,筛选掉了不符合交互场景的某些高动态运动。
  • 规模与特点: 最终获得大约 25 小时的数据,采样频率为 50 Hz50 \ \mathrm{Hz}。这些数据包含了丰富的人类上半身姿态和动作,用于模拟引导性接触中的锚点采样,确保了运动学上合理且多样化的交互力场景。

5.2. 评估指标

论文主要通过定量和定性两种方式评估 GentleHumanoid 的性能,其核心评估指标围绕“柔顺性”和“安全性”展开。

  1. 峰值接触力 (Peak Contact Force):

    • 概念定义: 指在物理交互过程中,机器人与环境(人类或物体)之间发生的接触瞬间,接触力达到最大值。较低的峰值接触力通常意味着更安全、更柔顺的交互,减少对人类或易碎物体的冲击和潜在伤害。
    • 测量方法: 在仿真中直接从物理引擎获取;在真实世界实验中,使用商用测力计 (Mark-10, M5-10) 或定制的、可变形的腰部压力传感垫(带有 40 个校准电容式触觉元件,每个触元有效接触面积约为 6 mm×6 mm6 \ \mathrm{mm} \times 6 \ \mathrm{mm})测量。通过压力值转换为力值进行评估。
    • 数学公式: 虽然论文没有给出计算峰值接触力的显式公式,但其基本思想是: Fpeak=maxtTfcontact(t) F_{\mathrm{peak}} = \max_{t \in T} \| \pmb f_{\mathrm{contact}}(t) \| 其中,fcontact(t)\pmb f_{\mathrm{contact}}(t) 是在时间 tt 测得的接触力矢量,\| \cdot \| 表示力的范数(通常是 L2 范数),TT 是交互持续时间。
    • 符号解释:
      • FpeakF_{\mathrm{peak}}:峰值接触力。
      • tt:时间步。
      • TT:交互持续的总时间。
      • fcontact(t)\pmb f_{\mathrm{contact}}(t):在时间 tt 机器人与环境之间的接触力矢量。
  2. 力稳定性与一致性 (Force Stability and Consistency):

    • 概念定义: 衡量在外部交互下,机器人所施加或感知的力是否在期望的范围内波动,以及是否能够平稳地响应,避免剧烈振荡或失控。一致性是指在不同姿态下,机器人对相同外部力的响应是否保持相似的柔顺水平。
    • 测量方法: 通过观察力随时间变化的曲线(如 Figure 4 和 Figure 6),以及在不同姿态下维持特定力阈值的能力(如 Figure 5)进行定性和定量分析。
    • 数学公式: 没有显式公式,主要通过时间序列分析和统计学指标(如均值、标准差)来评估力的稳定性和波动性。
  3. 任务成功率 (Task Success Rate):

    • 概念定义: 评估机器人能否在保持柔顺和安全的前提下,有效完成预设任务,例如成功拥抱、辅助坐到站、安全操作易碎物体(不损坏)。
    • 测量方法:
      • 拥抱: 机器人能否稳定地保持拥抱姿态,并且接触力在舒适范围内,不导致人形模型或人类不适。
      • 坐到站辅助: 机器人能否在不施加过大力的前提下,帮助人类完成坐到站的过渡,同时保持自身平衡。
      • 物体操作: 机器人能否成功抓取并移动易碎物体(如气球)而不使其损坏或掉落。
    • 数学公式: 任务成功率通常表示为成功完成任务的次数占总尝试次数的比例。 Task Success Rate=Number of Successful TrialsTotal Number of Trials×100% \text{Task Success Rate} = \frac{\text{Number of Successful Trials}}{\text{Total Number of Trials}} \times 100\%
    • 符号解释:
      • Task Success Rate\text{Task Success Rate}:任务成功率。
      • Number of Successful Trials\text{Number of Successful Trials}:成功完成任务的试验次数。
      • Total Number of Trials\text{Total Number of Trials}:总的试验次数。

5.3. 对比基线

为了全面评估 GentleHumanoid 的性能,论文将其与两种具有代表性的基线模型进行了比较:

  1. Vanilla-RL (香草型强化学习):

    • 描述: 这是一种标准的、基于强化学习的运动跟踪策略。它在训练过程中没有引入任何外部力扰动,因此其目标是尽可能刚性地跟踪预设运动轨迹。
    • 代表性: 它代表了当前大多数侧重于高精度位置或速度跟踪的全身 RL 方法。
    • 预期行为: 面对外部接触时,它会倾向于将外部力视为干扰并试图抑制,导致僵硬的反应和较高的接触力。
  2. Extreme-RL (极端力强化学习):

    • 描述: 这也是一种基于强化学习的运动跟踪策略,但在训练过程中加入了最大 30 N30 \ \mathrm{N} 的末端执行器力扰动。这意味着它被设计成对外部力具有一定的鲁棒性,但这种鲁棒性主要集中在末端执行器。

    • 代表性: 它代表了那些尝试通过在训练中引入外部扰动来提高力适应性的现有方法,但通常仅限于末端执行器或基座控制。

    • 预期行为: 面对末端执行器的外力时可能表现出一定的抵抗能力,但对于全身或多关节的协调柔顺性可能不足,且其抵抗力可能较高。

      这些基线的选择旨在展示 GentleHumanoid 在全身柔顺性、多关节协调以及安全力控制方面的优势,尤其是在面对需要精细和分布式柔顺性的任务时。

6. 实验结果与分析

本文通过仿真和真实世界实验,在拥抱、坐到站辅助和物体操作等任务中,对 GentleHumanoid 进行了全面评估,并与 Vanilla-RLExtreme-RL 两种基线方法进行了比较。

6.1. 核心结果分析

6.1.1. 仿真结果:拥抱任务下的力响应

在仿真中,使用拥抱动作评估柔顺性。通过模拟外部拉力来测试机器人在被拉离拥抱姿态时的响应。

下图(原文 Figure 4)展示了在外部交互下,不同上肢连杆(右手、右肘、右肩)所施加的力随时间变化的曲线。

Fig. 4: Forces applied by different upper-body links under external interaction. Force profiles over time are shown for the right hand (left), right elbow (middle), and right shoulder (right). Compared to baselines (Vanilla-RL and ExtremeRL), GentleHumanoid maintains lower and more stable force levels across all links, showing safer and more compliant responses during contact.
该图像是一个图表,展示了在外部交互作用下,不同上肢连接部位所施加的力量随时间变化的情况。图中右手、右肘和右肩连接的力状态显示,GentleHumanoid 在所有连接部位上维持了更低且更稳定的力水平,表明其在接触时的响应更安全且更具顺应性。 图 4: 外部交互作用下不同上肢连杆施加的力。 右手(左)、右肘(中)和右肩(右)的力曲线随时间显示。与基线(Vanilla-RLExtreme-RL)相比,GentleHumanoid 在所有连杆上保持了更低且更稳定的力水平,表明在接触时响应更安全和柔顺。

分析:

  • GentleHumanoid: 在右手、右肘和右肩这三个关键连杆上,力水平始终保持较低且稳定。在手上,力稳定在约 10 N10 \ \mathrm{N} 左右。在肘部和肩部,力则保持在 710 N7-10 \ \mathrm{N} 附近。这表明 GentleHumanoid 能够平滑地适应外部交互,表现出良好的柔顺性。

  • Vanilla-RL 在所有连杆上都表现出较高的力。在手上,力稳定在 20 N20 \ \mathrm{N} 以上。在肘部和肩部,力迅速饱和在 1520 N15-20 \ \mathrm{N}。这反映了其刚性响应,将外部力视为扰动并试图强行抑制。

  • Extreme-RL 尽管在训练中引入了末端执行器力扰动,但其在手上仍超过 13 N13 \ \mathrm{N},在肘部和肩部也达到 1520 N15-20 \ \mathrm{N}。这表明即使经过一定的力适应训练,其全身的协调柔顺性仍然不如 GentleHumanoid。

    结论: GentleHumanoid 在仿真中一致地保持了较低且更稳定的接触力,显示出更安全、更柔顺的响应,而基线方法则表现出过度刚性或更高的峰值力。

6.1.2. 真实世界实验

在 Unitree G1 人形机器人上进行了三类真实世界实验:

6.1.2.1. 静态姿态下的外部力测试

在机器人基座保持静态的情况下,通过在机器人腕部施加外部力来测试柔顺性。理想情况是手臂能柔和地顺从外力,而不是刚性抵抗。

下图(原文 Figure 5)比较了不同策略下的交互力。

Fig. 5: Comparison of interaction forces across policies. Top: GentleHumanoid with tunable force limits, which maintains safe interaction by keeping contact forces within specified thresholds across different postures. Bottom: baseline methods, Vanilla-RL and Extreme-RL, exhibit less consistent compliance, with higher peak forces or oscillatory responses. Force gauge readings (N) are highlighted for clarity.
该图像是一个示意图,比较了不同策略下的交互力。上部分展示了GentleHumanoid在不同安全力限制下的表现,下部分则是基线方法Vanilla-RL和Extreme-RL的表现。力传感器显示在不同姿势下的接触力,其中GentleHumanoid能有效保持在安全阈值内。 图 5: 不同策略下的交互力比较。 上图:GentleHumanoid 在可调力限制下,通过在不同姿态下将接触力保持在指定阈值内,维持了安全交互。下图:基线方法 Vanilla-RLExtreme-RL 表现出较差的一致柔顺性,具有更高的峰值力或振荡响应。为清晰起见,图中突出显示了测力计读数 (N)。

分析:

  • 基线方法:
    • Extreme-RL 表现得尤为僵硬,需要 51.14 N51.14 \ \mathrm{N} 的峰值力才能移动手臂。
    • Vanilla-RL 也相对刚性,需要 24.59 N24.59 \ \mathrm{N} 的力。
    • 两者都倾向于通过移动躯干来抵抗,导致失去平衡。
  • GentleHumanoid:
    • 响应平滑且一致,移动手臂所需的力远低于基线。

    • 展现出姿态不变的柔顺性 (posture-invariant compliance):无论手臂处于何种配置,相同的外部力都能有效调整手臂位置。

    • 柔顺性水平与用户设定的力限制相匹配。例如,当设置为 10 N10 \ \mathrm{N} 时,机器人在 515 N5-15 \ \mathrm{N} 范围内保持平衡。

    • 这种可预测的响应源于其通过虚拟弹簧-阻尼动力学和安全阈值来调节柔顺性的机制,而非单纯依靠关节力学。

      结论: GentleHumanoid 在静态姿态下表现出更低的峰值力、更好的姿态不变柔顺性和用户可调的柔顺性,使得人机交互更安全、更一致。

6.1.2.2. 拥抱人体模型

评估机器人在两种条件下拥抱人体模型(mannequin)的性能:

  1. 人体模型正确对齐。
  2. 人体模型故意错位,以评估在不完美接触下的安全性。 使用定制的压力传感垫测量接触力。

下图(原文 Figure 6)展示了在对齐和错位情况下拥抱交互的评估结果。

Fig. 6: Evaluation of hugging interactions with and without misalignment. Top: experimental setup with custom pressuresensing pads and real-time pressure visualization. Middle: pressure maps of peak force frames for different controllers under correct hugging alignment (left) and misalignment (right). GentleHumanoid maintains moderate contact pressures, while baselines produce localized high-pressure peaks, especially under Vanilla-RL. Bottom: Force profiles over time, where GentleHumanoid maintains bounded and stable forces, while baselines exhibit increasing or unstable peaks.
该图像是图表,展示了当人形机器人在正确和错误对齐情况下进行拥抱交互时的压力映射及力的变化。上部显示压力传感器的实时可视化,中部为不同控制器在对齐和错位状态下的压力图,底部为力随时间变化的曲线。GentleHumanoid展示出更稳定的压力和力表现。 图 6: 拥抱交互在对齐和错位情况下的评估。 上图:实验设置,包括定制压力传感垫和实时压力可视化。中图:不同控制器在正确拥抱对齐(左)和错位(右)下的峰值力帧压力图。GentleHumanoid 保持中等接触压力,而基线方法产生局部高压峰值,尤其是在 Vanilla-RL 下。下图:力随时间变化的曲线,GentleHumanoid 保持有界和稳定的力,而基线方法表现出增加或不稳定的峰值。

分析:

  • GentleHumanoid: 即使在错位情况下,也能保持有界和稳定的接触力(设定 τsafe\tau_{\mathrm{safe}}10 N10 \ \mathrm{N})。压力图显示分布均匀、适中的压力。力曲线保持平稳,没有剧烈波动或不安全的峰值。
  • 基线方法:
    • Vanilla-RLExtreme-RL 产生了更高、更不可预测的力。

    • 压力图显示在局部区域有高压峰值,尤其是在 Vanilla-RL 下,这可能导致不适甚至损坏。

    • 力曲线显示出增加或不稳定的峰值,表明其在拥抱这类精细接触任务中缺乏足够的柔顺控制。

      结论: GentleHumanoid 在拥抱任务中,无论是否对齐,都能保持较低且稳定的接触压力和力,显著优于基线方法,提供了更安全、更舒适的交互体验。

6.1.2.3. 处理可变形物体

测试机器人处理气球等易碎物体的能力。挑战在于在稳定物体所需力和不使其损坏的力之间找到平衡点。GentleHumanoid 的力阈值设置为 5 N5 \ \mathrm{N}

分析:

  • GentleHumanoid: 成功地握住气球而没有损坏(如 Figure 1(d) 所示)。这表明其能够精确控制接触力,以适应易碎物体的特性。

  • 基线方法: 两种基线方法都施加了过大的压力,最终挤压气球直到 G1 机器人失去平衡并将其掉落。这进一步证明了它们在处理需要精细力控制的柔顺交互任务时的不足。

    结论: GentleHumanoid 在处理易碎物体时表现出卓越的柔顺控制能力,成功完成任务,而基线方法则失败。

6.1.3. 更多应用

  • 运动遥操作 (Locomotion Teleoperation): GentleHumanoid 策略可以与运动遥操作框架集成,允许用户通过操纵杆控制行走并触发预定义动作,如拥抱、坐到站辅助和物体处理。其固有的柔顺性确保了在直接物理接触下的安全交互,在医疗保健和辅助场景中具有巨大潜力。
  • 自主形体感知拥抱管线 (Autonomous, Shape-Aware Hugging Pipeline): 将策略与视觉感知相结合,实现了对不同体型人类的个性化自主拥抱。通过运动捕捉系统获取人类位置和高度,并使用 RGB 摄像头和人类网格估计方法 [32] 重建个性化身体网格,从中提取腰部点作为目标接触点。然后优化机器人拥抱动作,使其手部与这些目标位置对齐。这使得 G1 能够自主适应不同体型的个体,生成稳定舒适的拥抱动作。

6.2. 数据呈现 (表格)

以下是原文 Table I 的内容:

RewardWeight
Compliance
Reference Dynamics Tracking2.0
Reference Force Tracking2.0
Unsafe Force Penalty6.0
Motion Tracking
Root Tracking0.5
Joint Tracking1.0
Locomotion Stability
Survival5.0
Feet Air Time10.0
Impact Force4.0
Slip Penalty2.0
Action Rate0.1
Joint Velocity5.0e-4
Joint Limit1.0

表 I: 奖励项及其权重。 该表格列出了 GentleHumanoid 策略训练中使用的各项奖励及其对应的权重,包括柔顺性奖励、运动跟踪奖励和运动稳定性奖励。

以下是原文 Table II 的内容:

ParameterSymbolTypical value / range
Max per-link force capFmaxF_{max}30 N
Safety threshold (per link)τsafe\tau_{safe} (t)5-15 N (default 10 N)
Net force limit (about torso)`TF`30 N
Net torque limit (about torso)`TM`20 N m
Interaction spring gainKspringK_{spring}(t)5-250

表 II: 外部力施加参数。 该表格详细列出了外部力施加逻辑中使用的各项参数,包括力上限、安全阈值、净力/扭矩限制和交互弹簧增益的典型值或范围。

以下是原文 Table III 的内容:

ParameterSymbolValue
Virtual massM0.1 kg
Integration dampingD2.0
Tracking stiffnessKpDerived from Kp = τsafe/0.05
Tracking dampingKd2√M Kp
Time step∆tSame as simulation dt = 0.02s
Substeps per simulator stepNsub4
Velocity clipvmaxv_{max}4 m/s
Acceleration clipamaxa_{max}1000 m/s2

表 III: 参考动力学和积分参数。 该表格列出了参考动力学模型和积分过程中使用的各项参数及其数值,如虚拟质量、阻尼、刚度、时间步长和裁剪限制。

6.3. 消融实验/参数分析

论文中没有明确的“消融实验”章节,但 Figure 5 中展示的 GentleHumanoid 在不同 τsafe\tau_{\mathrm{safe}}(安全阈值)设置下的表现,可以被视为一种参数分析。

  • 力阈值 τsafe\tau_{\mathrm{safe}} 的影响: 从 Figure 5 的上半部分可以看出,当用户将 GentleHumanoid 的力阈值设定为 10 N10 \ \mathrm{N} 时,机器人能够有效地将接触力维持在该阈值附近(实际范围在 515 N5-15 \ \mathrm{N})。这表明 τsafe\tau_{\mathrm{safe}} 参数能够直接且有效地调整机器人的柔顺性水平。较低的 τsafe\tau_{\mathrm{safe}} 会使机器人行为更“软”,对外部力更顺从;较高的 τsafe\tau_{\mathrm{safe}} 则会使其更“硬”,提供更强的支撑。这种可调性是其实现多样化交互(如轻柔拥抱和坚定辅助)的关键。

    这种参数分析揭示了 GentleHumanoid 框架的一个重要优势:其柔顺性水平是可配置和可预测的。用户或任务可以通过简单地调整 τsafe\tau_{\mathrm{safe}} 参数来获得所需的柔顺性,而无需重新训练模型。这大大提高了模型的实用性和泛化能力。

7. 总结与思考

7.1. 结论总结

本文提出的 GentleHumanoid 框架为人形机器人在复杂、以人为中心的物理环境中实现安全、自然的交互迈出了重要一步。通过将阻抗控制原理深度整合到全身运动跟踪的强化学习策略中,并引入统一的基于弹簧的交互力建模(涵盖抵抗性和引导性接触),GentleHumanoid 成功实现了上半身运动链的协调柔顺性。任务可调的安全力阈值机制进一步保障了交互的安全性,并允许机器人根据具体任务需求(从轻柔拥抱到坚定辅助)调整其柔顺性。在仿真和真实世界 Unitree G1 机器人上的广泛评估表明,GentleHumanoid 在拥抱、坐到站辅助和物体操作等多种任务中,显著降低了峰值接触力,同时保持了任务成功率,展现出比现有基线方法更平滑、更安全、更具适应性的性能。此外,结合视觉感知的自主形体感知拥抱管线,进一步扩展了其应用潜力。

7.2. 局限性与未来工作

论文作者也坦诚地指出了 GentleHumanoid 存在的局限性,并展望了未来的研究方向:

  1. 运动数据多样性: 尽管使用了人类运动数据来确保运动学一致性,但数据集本身限制了力的分布。例如,录制运动中肩部受力变化有限,导致模拟的肩部力相对较小。
    • 未来工作: 纳入更多样化的运动数据集(如舞蹈)可以进一步提高覆盖范围和交互力分布的丰富性。
  2. 交互力建模的复杂性: 目前的交互力建模依赖于模拟的弹簧力,虽然提供了结构化覆盖和运动学一致性,但未能完全捕捉真实人类接触的复杂性,如摩擦效应或人体组织的粘弹性。
    • 未来工作: 探索更复杂的物理模型来模拟真实世界的接触动力学。
  3. Sim-to-Real 误差: 尽管有安全感知策略,但在真实世界实验中仍存在 13 N1-3 \ \mathrm{N} 的力过冲,这归因于仿真到现实的差距。
    • 未来工作: 引入触觉感知 (tactile sensing) 可以实现更精确的力调节,从而进一步减少 Sim-to-Real 误差。
  4. 自主性提升: 目前人类位置和高度的获取依赖于运动捕捉系统。
    • 未来工作: 开发基于视觉的管线来替代运动捕捉系统,以提高自主性和实际应用性,特别是在长周期任务中。
  5. 更丰富的感知与推理:
    • 未来工作: 整合更丰富的感知能力,结合视觉语言模型 (vision language models) 等通用感知和推理系统。
    • 未来工作: 将评估扩展到更长周期的交互,使人形机器人能够动态适应人类伙伴的行为。

7.3. 个人启发与批判

7.3.1. 个人启发

  1. 柔顺性是人机共融的关键: 这篇论文再次强调了柔顺性对于人形机器人在人类环境中安全、自然交互的根本重要性。刚性控制在高性能任务中表现优异,但在需要物理接触的场景中却成了障碍。柔顺性并非仅是“力学上的软”,更是一种“行为上的适应性”。
  2. 建模交互力的重要性: 论文通过统一的弹簧模型来模拟抵抗性和引导性接触,并通过人类运动数据来丰富交互场景,这是非常巧妙和有效的。它超越了简单的碰撞检测,为 RL 策略提供了更具结构性和物理意义的训练信号。这种“结构化随机化”在 RL 训练中对于提高泛化能力至关重要。
  3. 安全阈值设计的普适性: 任务可调的力阈值设计不仅保证了安全性,还为柔顺性提供了可量化的控制手段。这使得机器人能够根据具体情境(例如,对儿童轻柔,对老人提供支撑)调整其“性格”,这在实际应用中具有极高的价值。
  4. 全身协调的价值: 解决上半身多关节的协调柔顺性是一个复杂但关键的问题。论文的方法能够使肩、肘、腕等多个关节协同工作,这对于实现类人行为和复杂交互至关重要。
  5. Sim-to-Real 的持续挑战: 尽管取得了显著进展,但仿真到现实的差距依然存在,特别是在力控制这样对精度要求极高的领域。未来的研究需要更多地关注如何缩小这个差距,例如通过更精确的物理模型、自适应控制或更丰富的传感器融合。

7.3.2. 批判性思考

  1. 交互力模型的泛化性限制: 尽管基于弹簧的模型和人类运动数据提供了多样性,但其本质上仍是对真实物理交互的简化。人类接触的复杂性,如皮肤的变形、粘弹性、摩擦的非线性等,可能难以完全通过简单的弹簧模型模拟。这可能导致在与具有高度复杂触觉特性的物体(如非常柔软或非常粘稠的物体)交互时,策略的柔顺性表现受到限制。

  2. 训练数据偏差: 论文指出人类运动数据集中肩部受力变化有限。如果训练数据无法充分覆盖所有可能的交互模式和力分布,可能会导致策略在遇到未见过或不充分表示的交互场景时表现不佳。例如,如果数据中缺乏极端推拉或非常精细的操作,策略可能难以泛化到这些情况。

  3. 安全性与任务成功的权衡: 力阈值虽然保证了安全性,但在某些情况下,过低的阈值可能限制机器人完成需要一定力量的任务。例如,在辅助体型较大的人站立时,如果阈值过低,机器人可能无法提供足够的支撑力。如何动态平衡安全与任务效率,可能需要更智能的决策机制,而不仅仅是简单的阈值设定。

  4. 自主拥抱管线的鲁棒性: 目前自主拥抱管线仍依赖运动捕捉系统获取人类位置和高度,并使用单目 RGB 图像进行形状估计。这些步骤在现实世界中可能受到光照、遮挡、多人混淆等因素的影响。如何提高整个管线在非受控环境中的鲁棒性,是其走向实用化的关键。

  5. 计算成本与实时性: 强化学习策略、全身控制和复杂的力模型在人形机器人上实现实时控制可能面临计算资源和延迟的挑战。虽然论文提到 50 Hz50 \ \mathrm{Hz} 的控制频率,但在更复杂的交互或更高维度的机器人上,这可能成为一个瓶颈。

  6. 人类心理接受度: 机器人的柔顺性不仅仅是物理层面的,也涉及到人类的心理感知。即使物理上安全,如果机器人的行为(如响应速度、接触感)不自然,人类也可能感到不适。这需要更多的用户研究和主观评估来优化交互体验。

    总而言之,GentleHumanoid 在人形机器人柔顺控制领域取得了显著进步,为未来的研究和应用奠定了坚实基础。但其局限性也指明了该领域未来需要深耕的方向,即在物理模型精细度、数据多样性、环境感知鲁棒性以及人机共情体验等方面继续探索。

相似论文推荐

基于向量语义检索推荐的相关论文。

暂时没有找到相似论文。