论文状态：已完成

Learning Human-Humanoid Coordination for Collaborative Object Carrying

发表：2025/10/16

人类-人形机器人协作 (1)自我感知强化学习 (1)协作搬运任务 (1)动态对象交互 (1)闭环环境训练 (1)

价格：0.100000

已有 1 人读过

本分析由 AI 生成，可能不完全准确，请以原文为准。

TL;DR 精炼摘要

本文提出了一种名为COLA的纯本体感知强化学习方法，旨在实现人类与类人机器人的有效协作，特别是在复杂的协作搬运任务中。通过动态对象交互的闭环训练环境，该方法可以隐式预测物体运动和人类意图，实现负载平衡。实验显示，在保持物体稳定的同时，COLA将人类的工作量减少了24.7%，并在多种物体和地形下验证了其鲁棒性和有效性。

摘要

Human-humanoid collaboration shows significant promise for applications in healthcare, domestic assistance, and manufacturing. While compliant robot-human collaboration has been extensively developed for robotic arms, enabling compliant human-humanoid collaboration remains largely unexplored due to humanoids' complex whole-body dynamics. In this paper, we propose a proprioception-only reinforcement learning approach, COLA, that combines leader and follower behaviors within a single policy. The model is trained in a closed-loop environment with dynamic object interactions to predict object motion patterns and human intentions implicitly, enabling compliant collaboration to maintain load balance through coordinated trajectory planning. We evaluate our approach through comprehensive simulator and real-world experiments on collaborative carrying tasks, demonstrating the effectiveness, generalization, and robustness of our model across various terrains and objects. Simulation experiments demonstrate that our model reduces human effort by 24.7%. compared to baseline approaches while maintaining object stability. Real-world experiments validate robust collaborative carrying across different object types (boxes, desks, stretchers, etc.) and movement patterns (straight-line, turning, slope climbing). Human user studies with 23 participants confirm an average improvement of 27.4% compared to baseline models. Our method enables compliant human-humanoid collaborative carrying without requiring external sensors or complex interaction models, offering a practical solution for real-world deployment.

思维导图

论文精读

中文精读约 32 分钟读完 · 19,126 字

1. 论文基本信息

1.1. 标题

COLA: Learning Human-Humanoid Coordination for Collaborative Object Carrying

1.2. 作者

Yushi Du, Yixuan Li, Baoxiong Jia, Yutang Lin, Pei Zhou, Wei Liang, Yanchao Yang, Siyuan Huang。

隶属于香港大学电气与电子工程系、北京理工大学计算机科学与技术学院、北京大学元培学院等机构。

1.3. 发表期刊/会议

预印本 (Preprint)，发布在 arXiv。arXiv 是一个广泛用于分享物理、数学、计算机科学等领域预印本论文的平台。

1.4. 发表年份

2025年

1.5. 摘要

人类与类人机器人 (humanoid) 的协作在医疗保健、家庭辅助和制造业等领域具有巨大的应用前景。尽管针对机器人手臂的柔顺机器人-人类协作已得到广泛开发，但由于类人机器人复杂全身动态的限制，柔顺的人机协作仍未得到充分探索。本文提出了一种名为 COLA 的纯本体感知 (proprioception-only) 强化学习方法，该方法将领导者 (leader) 和跟随者 (follower) 行为融合在一个策略中。该模型在具有动态物体交互的闭环环境中进行训练，以隐式预测物体运动模式和人类意图，从而通过协调轨迹规划实现柔顺协作，保持载荷平衡。研究通过全面的模拟器和真实世界实验评估了该方法在协作搬运任务中的有效性、泛化性和鲁棒性，涵盖了各种地形和物体。模拟实验表明，与基线方法相比，COLA 在保持物体稳定性的同时，将人类的工作量减少了 24.7%。真实世界实验验证了其在不同类型物体（盒子、桌子、担架等）和运动模式（直线、转弯、爬坡）下的鲁棒协作搬运能力。对 23 名参与者进行的人类用户研究证实，相较于基线模型，平均改进了 27.4%。该方法无需外部传感器或复杂的交互模型，即可实现柔顺的人机协作搬运，为实际部署提供了实用解决方案。

1.6. 原文链接

原文链接: https://arxiv.org/abs/2510.14293 PDF 链接: https://arxiv.org/pdf/2510.14293v1.pdf

2. 整体概括

2.1. 研究背景与动机

核心问题： 尽管类人机器人 (humanoid robot) 在敏捷运动、远程操作和灵巧操作方面取得了显著进展，但在与人类进行有效协作方面仍存在显著限制。特别是，柔顺的人机协作搬运任务，由于类人机器人全身动态的复杂性，是一个尚未充分探索的挑战。

重要性： 随着类人机器人可靠运动和控制能力的增强，实现高效的人机协作对于其在支持人类生活中的核心作用至关重要，例如在医疗保健、家庭辅助和制造业等领域。

现有研究的挑战与空白：

传统人机协作： 许多现有的机器人-人类协作研究主要集中在机器人手臂上，适用于受限的工作空间。
类人机器人协作的局限： 现有的类人机器人协作方法大多依赖基于模型的方法或启发式规则，难以处理复杂的全身协调任务，例如从地面拾取物体或爬坡时搬运物体。
缺乏综合性策略： 现有工作通常只关注环境适应性运动、柔顺行为学习或高层意图预测的某个方面，缺乏一个能将力交互、隐式约束和动态协调统一起来的综合策略。
传感器依赖： 许多方法需要外部传感器或复杂的交互模型来预测人类意图或感知环境。

本文的切入点/创新思路： 本文提出了一种学习型策略 COLA，通过强化学习 (Reinforcement Learning, RL) 建模动态和多功能的交互。该策略旨在使类人机器人能够以柔顺 (compliant) 的方式与人类分担负载，并灵活切换领导者 (leader) 和跟随者 (follower) 角色。其核心在于两个关键洞察：

关节状态与其目标之间的偏差可以作为估计交互力 (interaction forces) 的代理 (proxy)。
被搬运物体的状态隐式编码了协作约束 (collaboration constraints)，例如稳定性和协调性。通过这些洞察，COLA 旨在实现无需外部传感器或复杂交互模型，仅凭本体感知 (proprioception) 输入即可进行柔顺的人机协作搬运。

2.2. 核心贡献/主要发现

提出统一的本体感知残差模型 COLA： 提出了一种仅依靠本体感知 (proprioception) 实现全身协作搬运的统一残差模型，能够实现跨多种运动模式的柔顺、协调和泛化协作。
三步训练框架和闭环训练环境： 开发了一个三步训练框架和一个明确建模类人机器人-物体交互的闭环训练环境。这使得机器人能够隐式学习物体运动并以柔顺协作方式协助人类。
卓越的性能： 在模拟和真实世界环境中都展示了其策略的有效性。与基线方法相比，该方法显著减少了人类的工作量，并实现了更好的轨迹协调。
- 模拟实验： 相比基线方法，在保持物体稳定性的同时，将人类工作量减少了 24.7%。平均线性速度跟踪误差 10.2 cm/s，平均角速度跟踪误差 0.1 rad/s。
- 真实世界实验： 验证了在不同物体类型（盒子、桌子、担架等）和运动模式（直线、转弯、爬坡）下鲁棒的协作搬运能力。
- 人类用户研究： 23 名参与者证实，相较于基线模型，COLA 的协作柔顺性平均提高了 27.4%。
无需外部传感器： 该方法无需外部传感器或复杂的交互模型，为实际部署提供了实用解决方案。

3. 预备知识与相关工作

3.1. 基础概念

类人机器人 (Humanoid Robot)： 具有与人类相似的身体结构（如躯干、头部、两条腿和两条手臂）的机器人。它们被设计成能够在人类环境中执行任务，具有高度的移动性和操作能力。
本体感知 (Proprioception)： 指的是机器人（或生物体）感知自身身体部位的位置、运动和力量的能力。在机器人领域，通常指机器人内部传感器（如关节编码器、IMU）提供的信息，反映机器人自身的关节角度、关节速度、身体姿态、角速度等。本文强调 proprioception-only，意味着机器人仅依靠自身内部状态信息进行决策，不依赖外部视觉、力觉等传感器。
强化学习 (Reinforcement Learning, RL)： 一种机器学习范式，智能体 (agent) 通过与环境的交互学习最优行为策略。智能体在每个时间步观察环境状态 (state)，执行动作 (action)，环境根据动作反馈奖励 (reward) 并转移到新的状态。目标是最大化累积奖励。
策略 (Policy)： 在强化学习中，策略定义了智能体在给定状态下选择动作的规则。它可以是确定性的（给定状态输出一个确定的动作）或随机性的（给定状态输出一个动作的概率分布）。
领导者-跟随者 (Leader-Follower)： 一种协作模式，其中一个实体（领导者）主动规划并执行运动，而另一个实体（跟随者）则适应并跟随领导者的运动。在人机协作中，机器人可能扮演领导者或跟随者的角色。
柔顺控制 (Compliant Control)： 机器人控制的一种方式，使其能够以柔和、顺从的方式与环境或人类进行物理交互，而非刚性地抵抗。这通常涉及到对力和位置的联合控制，或通过阻抗 (impedance) 或导纳 (admittance) 控制来实现。
全身控制 (Whole-Body Control, WBC)： 一种高级机器人控制策略，它同时协调机器人全身所有关节（包括腿部、手臂、躯干等）的运动，以实现复杂的任务目标，如平衡、运动和操作，同时遵守各种物理约束（如关节限制、力矩限制、接触约束）。
残差策略 (Residual Policy)： 一种学习策略，它在现有基础控制器或策略之上学习一个“残差”或“修正”项。基础控制器提供一个初步动作，残差策略学习一个增量动作来优化或调整基础动作，以提高性能或适应新情况。这种方法可以利用现有控制器的鲁棒性，同时通过学习弥补其不足。
行为克隆 (Behavioral Cloning, BC)： 一种模仿学习 (Imitation Learning) 方法，通过监督学习的方式，让智能体模仿专家（教师策略）的行为。它将专家的状态-动作对作为训练数据，训练一个策略网络，使其在给定状态下输出与专家相似的动作。
近端策略优化 (Proximal Policy Optimization, PPO)： 一种流行的强化学习算法，属于策略梯度方法。它通过在每次策略更新时限制策略改变的大小，来提高学习的稳定性和效率。
Isaac Lab： 一个基于 NVIDIA Isaac Gym 的强化学习平台，用于训练和测试机器人控制策略，特别适用于腿式机器人和类人机器人，能够高效地在模拟环境中进行并行训练。
多层感知器 (Multi-Layer Perceptron, MLP)： 一种前馈神经网络，由多个全连接层组成。它能够学习输入和输出之间的非线性关系。
Spherical Linear Interpolation (SLERP)： 球面线性插值，一种在球体表面进行平滑插值的方法，常用于四元数 (quaternion) 的插值，以在三维空间中平滑地过渡方向或姿态。

3.2. 前人工作与技术演进

机器人-人类协作 (Robot-human Collaboration)： 这是一个长期研究领域，从机器人手臂到腿式机器人都有涉猎。
- 机械臂协作： 传统上主要用于辅助人类在受限工作空间内完成任务。
- 类人机器人协作： 随着类人机器人的发展（如敏捷运动、远程操作、灵巧操作），研究开始扩展到开放环境中的协作。然而，当前的类人机器人协作方法仍主要依赖于基于模型的控制方法或启发式规则 [1, 2, 17]。
  - 启发式规则： 例如预定义子任务和基本行走模式 [1, 2]。
  - 意图预测： 通过多模态数据预测人类意图 [15, 16]。H2-COMPACT [3] 提出了一种学习型模型，利用触觉线索预测水平速度命令，但范围有限。
  - 局限性： 这些方法往往忽视类人机器人全身协调能力在协作搬运中的作用 [22]，难以执行复杂的协作任务（如从地面拾取物体或爬坡搬运）。
柔顺全身控制 (Compliant Whole-body Control)：
- 位置控制的局限性： 纯位置控制缺乏与人类交互所需的柔顺性 [9, 25]，因为它不具备力感知能力。
- 力调节的重要性： 力调节对于协作任务至关重要，特别是涉及人类接触的任务 [11]。
- 力/柔顺控制的进展： 近年来研究表明，力感知控制在接触密集型操作任务中非常有效 [4, 30]。这些方法通常显式估计接触力并将其整合到控制策略中，以实现力跟踪和对不同力/位置输入的柔顺响应 [24]。
- 人机协作中的应用空白： 尽管力感知控制在机器人交互中具有显著优势，但其在类人机器人-人类协作中的应用仍未得到充分探索。

3.3. 差异化分析

本文提出的 COLA 方法与现有工作的主要区别和创新点在于：

全身协调能力： 与现有方法多侧重于特定子任务或局部协作（如机器人手臂）不同，COLA 专注于类人机器人的全身协调能力，使其能够处理更复杂的协作搬运场景，例如从地面拾取物体或在坡道上搬运。
学习型残差策略： COLA 采用学习型残差策略，在预训练的全身控制器之上进行学习。这种方法能够通过隐式推断物理交互来调整协作行为，而不是依赖手动设计的显式指令或复杂的模型。这使得机器人能够更灵活地适应动态交互。
本体感知优先 (Proprioception-only)： COLA 的学生策略仅依赖本体感知输入进行实时推理和部署，避免了对外部传感器（如视觉、额外的力传感器）的依赖，这简化了系统复杂性，提高了实际部署的鲁棒性。许多现有方法需要多模态数据或外部传感器进行意图预测。
闭环训练环境： 提出了一个明确建模类人机器人、物体和人类之间动态交互的闭环训练环境。这使得策略能够隐式学习物体的运动模式和人类的意图，从而更好地实现柔顺协作和载荷平衡。
领导者与跟随者角色融合： 在单一策略中结合了领导者和跟随者行为，允许机器人根据情况灵活切换角色，从而实现更高效和自然的协作。
优越的性能和用户体验： 模拟和真实世界实验以及人类用户研究都表明，COLA 在减少人类工作量、保持物体稳定性以及提供柔顺协作体验方面优于现有基线方法。

4. 方法论

本研究提出了一种名为 COLA 的纯本体感知 (proprioception-only) 强化学习方法，旨在实现类人机器人与人类在协作搬运任务中的柔顺协调。该方法的核心是一个三步训练流水线：a. 全身控制器 (Whole-Body Controller, WBC) 训练，b. 用于协作的残差教师策略 (Residual Teacher Policy) 训练，c. 学生策略 (Student Policy) 蒸馏。

4.1. 任务定义

协作搬运任务定义为类人机器人协助人类伙伴运输一个对单人而言因尺寸或重量而具有挑战性的物体。机器人的目标包括：

协调运动： 与人类的速度对齐。
支撑物体重量： 减轻人类的体力负担。
稳定物体姿态： 在运输过程中保持物体的方向稳定。

4.2. 全身控制策略 (Whole-Body Control Policy)

在第一步中，研究在模拟器中训练一个没有任何额外约束的全身控制 (WBC) 策略。这个策略是整个协作框架的基础。

4.2.1. WBC 策略的输入与输出

目标命令 (Goal Command) $\mathcal{G}$ ： 包含两个部分：
- 下半身运动目标命令 $\mathcal{G}_t^{\mathrm{lower}}$ ： 定义了线速度 ( $v_t^{\mathrm{lin}}$ )、角速度 ( $v_t^{\mathrm{ang}}$ ) 和根部高度 ( $h_t^{\mathrm{root}}$ )。
- 上半身末端执行器目标命令 $\mathcal{G}_t^{\mathrm{upper}}$ ： 定义了目标位置 ( $p^{\mathrm{ee}}$ ) 和目标旋转 ( $r^{\mathrm{ee}}$ )。
本体感知观察 $\mathcal{O}_t^{\mathrm{wbc}}$ ： 包含机器人自身的运动和状态信息，历史长度为 $l$ 。
- 关节位置： $q_{t-l:t}^{\mathrm{pos}} \in \mathbb{R}^N$
- 关节速度： $q_{t-l:t}^{\mathrm{vel}} \in \mathbb{R}^N$
- 机器人根部方向： $\omega_{t-l:t}^{\mathrm{root}} \in \mathbb{R}^4$
- 机器人根部坐标系中的重力向量： $g_{t-l:t} \in \mathbb{R}^3$
- 前一个动作： $a_{t-(l+1):t-1}^{\mathrm{prev}} \in \mathbb{R}^n$ 其中 $N=29$ 是 G1 机器人的关节数量（不包括手指）。
动作空间 $A^{\mathrm{wbc}}$ ： 表示 G1 机器人 29 个关节的目标位置。采用 PD 位置控制进行驱动。

WBC 策略的正式定义为： $\mathcal{F}^{\mathrm{wbc}} : \mathcal{G} \times \mathcal{O}^{\mathrm{wbc}} \to \mathcal{A}^{\mathrm{wbc}}, \mathcal{A}^{\mathrm{wbc}} \in \mathbb{R}^N.$ 符号解释：
$\mathcal{F}^{\mathrm{wbc}}$ ：全身控制策略。
$\mathcal{G}$ ：目标命令，包括下半身运动目标和上半身末端执行器目标。
$\mathcal{O}^{\mathrm{wbc}}$ ：机器人本体感知观察。
$\mathcal{A}^{\mathrm{wbc}}$ ：WBC 策略输出的动作，代表目标关节位置。
$\mathbb{R}^N$ ：N维实数向量空间，表示 N 个关节的目标位置。

4.2.2. WBC 训练

WBC 策略的训练奖励函数遵循了先前的研究 [21, 29]。为了提高在负载下的鲁棒性，训练过程中会向类人机器人的末端执行器施加外部力，以增强其对力的适应能力。

4.3. 残差教师策略 (Residual Teacher Policy)

在第二步中，引入一个闭环环境进行策略训练，以明确建模人类、物体和类人机器人之间的动态交互。

4.3.1. 闭环训练环境

如图 3 所示，该环境包含类人机器人、模拟人类搬运者的支撑基体 (supporting base body) 以及待运输的物体。物体通过一个 6-自由度 (6-DoF) 关节连接到支撑基体。

对象放置与抓取： 环境初始化后，物体被放置在机器人的手中，手部关节被固定在一个预定义的抓取姿态。
目标命令和模拟人类运动：
- 随机采样一个目标命令 $\mathcal{G}$ ，其范围在 Table II 中定义。
- 采样一个速度 $v^{\mathrm{applied}}$ 并施加到支撑基体上，该基体模拟人类握持物体的一端。这个速度以两倍于目标命令 $\mathcal{G}$ 的频率更新。
- 对于角速度控制，设定一个目标角速度，并使用 PD 控制器向支撑基体施加扭矩。
- 对于高度控制，随机采样支撑基体的目标高度，并施加 PD 控制的力来调整其高度。
  
  该图像是示意图，展示了我们的闭环训练环境。在左侧，图中显示了载物体的目标速度由绿色箭头表示，而当前速度由红色箭头表示。右侧图示则展示了相应的人形机器人在与物体交互过程中的动态变化。

图 3：闭环训练环境。此图展示了研究在模拟中的闭环训练环境。绿色箭头代表被搬运物体的目标速度，红色箭头表示其当前速度。

4.3.2. 残差教师策略的输入与输出

教师策略在预训练的 WBC 策略之上运行，接收更丰富的输入信息。

教师策略观察 $\mathcal{O}_t^{\mathrm{teacher}}$ ： 包含：
- 机器人本体感知观察 $\mathcal{O}_t^{\mathrm{wbc}}$ 。
- 特权信息 (Privileged Information) $\mathcal{O}_t^{\mathrm{priv}}$ ： 包含被搬运物体的地面真实姿态和速度历史，历史长度为 $l$ $l$ 。具体包括：
  - 线性速度： $\widetilde{v}_{t-l:t}^{\mathrm{lin}}$
  - 角速度： $\widetilde{v}_{t-l:t}^{\mathrm{ang}}$
  - 位置： $\widetilde{p}_{t-l:t}$
  - 旋转： $\widetilde{r}_{t-l:t}$
    
    教师策略 $\mathcal{F}^{\mathrm{teacher}}$ 结合特权信息和机器人本体感知，输出一个残差动作 $\mathcal{A}^{\mathrm{teacher}}$ ，作为对 WBC 策略输出的修正。协作动作 $\mathcal{A}^{\mathrm{collab}}$ 是 WBC 策略输出和残差动作的总和。

$\mathcal{F}^{\mathrm{teacher}} : [\mathcal{O}^{\mathrm{wbc}}, \mathcal{O}^{\mathrm{priv}}] \to \mathcal{A}^{\mathrm{teacher}}, \mathcal{A}^{\mathrm{teacher}} \in \mathbb{R}^N,$ $\mathcal{A}^{\mathrm{collab}} = \mathcal{A}^{\mathrm{wbc}} + \mathcal{A}^{\mathrm{teacher}}.$ 符号解释：

$\mathcal{F}^{\mathrm{teacher}}$ ：残差教师策略。
$\mathcal{O}^{\mathrm{wbc}}$ ：机器人本体感知观察。
$\mathcal{O}^{\mathrm{priv}}$ ：特权信息，包括物体的真实姿态和速度历史。
$\mathcal{A}^{\mathrm{teacher}}$ ：教师策略输出的残差动作。
$\mathcal{A}^{\mathrm{collab}}$ ：最终的协作动作。
$\mathcal{A}^{\mathrm{wbc}}$ ：WBC 策略输出的动作。
$\mathbb{R}^N$ ：N维实数向量空间，表示 N 个关节的残差动作。

4.3.3. 教师策略的奖励函数

教师策略的学习由一个复合奖励函数引导，该函数结合了基础全身控制奖励和任务特定奖励。具体奖励项和权重如 Table I 所示。

Table I: Reward Functions for collaboration policy training.

Term	Expression	Weight
Linear Vel. Tracking	$\phi(v_{\mathrm{lin}}^{\mathrm{applied}})$	1.0
Yaw Vel. Tracking	$v_{\mathrm{ang}}^{\mathrm{goal}}$	1.0
Z-axis Vel. Penalty	$-\kappa_{v\theta b, \mathrm{obj}} \|$	0.05
Height Diff. Penalty	$-\kappa_{h_{\mathrm{obj}}\|l} - k_{\mathrm{hobj}}$	10.0
Force Penalty	$- \|F_{\mathrm{support-obj}}\|$	0.002

*Note: $v_{\mathrm{lin}}^{\mathrm{applied}}$ 是施加的线速度； $v_{\mathrm{ang}}^{\mathrm{goal}}$ 是目标角速度； $h_1^{\mathrm{obj}}, h_2^{\mathrm{obj}}$ 是物体两端的高度； $F_{\mathrm{support-obj}}$ 是支撑体与物体之间的水平力； $\phi(x) = e^{-kx||}$ .

符号解释：

$\phi(v_{\mathrm{lin}}^{\mathrm{applied}})$ ：线性速度跟踪奖励，表示机器人CM（质心）的线速度与施加到支撑体的线速度的匹配程度，函数 $\phi(x) = e^{-kx||}$ 可能是某种指数衰减函数，其中 $k$ 是一个常数。
$v_{\mathrm{ang}}^{\mathrm{goal}}$ ：偏航角速度跟踪奖励，表示机器人偏航角速度与目标角速度的匹配程度。
$-\kappa_{v\theta b, \mathrm{obj}} |$ ：Z轴速度惩罚，惩罚物体在Z轴（垂直方向）上的速度，以保持物体垂直方向的稳定性。 $\kappa$ 是一个权重系数。
$-\kappa_{h_{\mathrm{obj}}|l} - k_{\mathrm{hobj}}$ ：高度差惩罚，惩罚物体两端的高度差异，以保持物体水平稳定。 $\kappa$ 和 $k$ 是权重系数。
$- |F_{\mathrm{support-obj}}|$ ：力惩罚，惩罚支撑体与物体之间的水平力，旨在最小化机器人与物体之间不必要的水平作用力，从而减轻人类负担。

4.4. 知识蒸馏 (Knowledge Distillation)

在蒸馏步骤中，将教师策略（WBC 策略和残差教师策略的总和）的专业知识转移到学生策略 $\mathcal{F}^{\mathrm{student}}$ 中，该学生策略用于真实世界部署。学生策略不访问特权信息，仅依靠本体感知观察 $\mathcal{O}^{\mathrm{wbc}}$ 。

4.4.1. 学生策略的输入与输出

学生策略观察 $\mathcal{O}^{\mathrm{wbc}}$ ： 仅包含机器人本体感知观察。
学生策略动作 $\mathcal{A}^{\mathrm{student}}$ ： 学生策略输出的动作。

$\mathcal{F}^{\mathrm{student}} : \mathcal{O}^{\mathrm{wbc}} \to \mathcal{A}^{\mathrm{student}}, \mathrm{where} \mathcal{A}^{\mathrm{student}} \in \mathbb{R}^N.$ 符号解释：
$\mathcal{F}^{\mathrm{student}}$ ：学生策略。
$\mathcal{O}^{\mathrm{wbc}}$ ：机器人本体感知观察。
$\mathcal{A}^{\mathrm{student}}$ ：学生策略输出的动作。
$\mathbb{R}^N$ ：N维实数向量空间，表示 N 个关节的目标位置。

4.4.2. 蒸馏过程

采用行为克隆 (Behavioral Cloning) 将教师策略蒸馏到学生策略中。通过最小化学生策略输出与教师策略输出之间的均方误差来训练学生策略，使其模仿教师策略的行为。

$\mathcal{L}_{\mathrm{distill}} = \mathbb{E} \left[ \| \mathcal{A}^{\mathrm{student}} - \mathcal{A}^{\mathrm{collab}} \|^2 \right].$ 符号解释：

$\mathcal{L}_{\mathrm{distill}}$ ：蒸馏损失函数。
$\mathbb{E}[\cdot]$ ：期望值。
$\| \cdot \|^2$ ：L2 范数的平方（均方误差）。
$\mathcal{A}^{\mathrm{student}}$ ：学生策略的动作输出。
$\mathcal{A}^{\mathrm{collab}}$ ：教师策略的协作动作输出。

4.4.3. 协作模式 (COLA-F 和 COLA-L)

定义了两种实验设置，基于模型是否在协作过程中观察到目标命令：

COLA-F (Follower)： 所有网络接收零的目标命令输入。这意味着机器人完全作为跟随者，通过感知人类的运动来调整自身行为。
COLA-L (Leader)： 策略被提供一个在 WBC 控制器相同范围内的采样目标命令。这意味着机器人可以扮演领导者角色，主动规划自己的运动，同时与人类协作。

4.5. 实现细节

4.5.1. 训练设置

环境： 在 Isaac Lab 上使用单个 RTX 4090D GPU 进行训练。
算法： 采用 PPO 算法，使用 4096 个并行环境。
网络架构：
- 基础 WBC 策略的演员 (actor) 和评论家 (critic) 网络是三层 MLP，尺寸为 (512, 256, 128)。
- 残差教师和学生策略网络额外使用两个相同维度的 MLP。
训练步数：
- WBC：350k 环境步（约 15k PPO 更新步）。
- 残差教师：250k 环境步（约 10k PPO 更新步）。
- 蒸馏策略：250k 环境步（约 10k PPO 更新步）。
总训练时间： 48 小时。

4.5.2. 观察空间细节

全身控制命令采样： 从预定义范围采样全身控制命令。
末端执行器目标命令： 代表机器人手腕的 6-DoF 目标姿态，通过球面线性插值 (SLERP) 生成。由于任务侧重于协作搬运而非复杂上半身操作，机器人主要进行微调以修改物体姿态和速度。因此，不采样大幅度的上半身运动。末端执行器目标命令在默认抓取姿态附近采样：位置在小立方区域内随机采样，方向在名义抓取方向周围的锥形区域内采样。具体采样范围如 Table II 所示。
控制精度： 全身控制器实现了末端执行器目标位置 5.6 cm 的跟踪误差和目标姿态 $7^\circ$ 的跟踪误差。

物体与支撑体动态： 尽管被搬运物体和支撑体通过 6-DoF 关节连接，但固有的摩擦、阻尼和关节限制确保了支撑体的任何运动都会直接影响物体，从而将支撑体的动力学忠实地传递给被搬运物体。

Table II: Command Sampling Ranges. The sampling range of our command. This table mainly consists of whole-body control commands, collaborative carrying commands.

Term	Range
Base Lin. Vel. X (m/s)	$(-0.8, 1.2)$
Base Lin. Vel. Y (m/s)	$(-0.5, 0.5)$
Base Ang. Vel. (rad/s)	$(-1.2, 1.2)$
Base Height (m)	$(0.45, 0.9)$
End-effector Position (m)	$(0.15)$
End-effector Orientation (rad)	$(\pi/6)$
Support Object Lin. Vel. (m/s)	$(-0.6, 1.0)$
Support Object Ang. Vel. (rad/s)	$(-0.8, 0.8)$
Support Object Height (m)	$(0.5, 0.85)$

*Note: 末端执行器位置 (End-effector Position) 表示目标位置采样立方体的边长；末端执行器方向 (End-effector Orientation) 表示定义方向目标采样范围的锥体半角。

5. 实验设置

5.1. 数据集

实验在模拟环境 (Isaac Lab) 和真实世界环境中进行。模拟环境用于策略训练和性能评估，真实世界环境用于验证模型的泛化能力和鲁棒性。

模拟环境： Isaac Lab，用于训练和评估。
真实世界环境： 针对多种物体和运动模式进行测试。
- 物体类型： 3kg 杆、8kg 盒子、11kg 担架、20kg 推车。
- 运动模式： 直线、转弯、爬坡。
- 环境示例： 斜坡地形。

真实世界实验中的协作场景示例：

该图像是一个示意图，展示了人类与类人机器人协作完成物体搬运的多种场景，包括担架搬运、杆高跟踪、坡道上的箱子搬运和推车操作。这些场景突显了机器人与人类在动态环境中的协作能力。

图 4：此图展示了 COLA 在真实世界中与人类协作搬运物体的情景，例如在斜坡地形上。交互的物体包括 3kg 的杆、8kg 的盒子、11kg 的担架和 20kg 的推车，展示了所提出方法的通用性和泛化能力。

5.2. 评估指标

为了评估所提出方法的性能，研究使用了以下指标：

线性速度跟踪误差 (Linear velocity tracking error, Lin. Vel.)：
- 概念定义： 衡量机器人的平均线速度与人类（或模拟支撑体）线速度在整个实验过程中的匹配程度。值越小表示机器人跟随人类运动越精确。
- 数学公式： 假设在时间步 $t$ 机器人的线速度为 $v_{\mathrm{robot},t}^{\mathrm{lin}}$ ，人类（支撑体）的目标线速度为 $v_{\mathrm{human},t}^{\mathrm{lin}}$ ，总时间步为 $T$ 。 $\text{Lin. Vel. Error} = \frac{1}{T} \sum_{t=1}^{T} \| v_{\mathrm{robot},t}^{\mathrm{lin}} - v_{\mathrm{human},t}^{\mathrm{lin}} \|$
- 符号解释：
  - $T$ : 实验的总时间步数。
  - $v_{\mathrm{robot},t}^{\mathrm{lin}}$ : 在时间步 $t$ 机器人的线速度向量。
  - $v_{\mathrm{human},t}^{\mathrm{lin}}$ : 在时间步 $t$ 人类（支撑体）的目标线速度向量。
  - $\| \cdot \|$ : 向量的欧几里得范数（长度）。
角速度跟踪误差 (Angular velocity tracking error, Ang. Vel.)：
- 概念定义： 衡量机器人的平均角速度与人类（或模拟支撑体）角速度在整个实验过程中的匹配程度。值越小表示机器人跟随人类旋转运动越精确。
- 数学公式： 假设在时间步 $t$ 机器人的角速度为 $\omega_{\mathrm{robot},t}^{\mathrm{ang}}$ ，人类（支撑体）的目标角速度为 $\omega_{\mathrm{human},t}^{\mathrm{ang}}$ ，总时间步为 $T$ 。 $\text{Ang. Vel. Error} = \frac{1}{T} \sum_{t=1}^{T} \| \omega_{\mathrm{robot},t}^{\mathrm{ang}} - \omega_{\mathrm{human},t}^{\mathrm{ang}} \|$
- 符号解释：
  - $T$ : 实验的总时间步数。
  - $\omega_{\mathrm{robot},t}^{\mathrm{ang}}$ : 在时间步 $t$ 机器人的角速度向量。
  - $\omega_{\mathrm{human},t}^{\mathrm{ang}}$ : 在时间步 $t$ 人类（支撑体）的目标角速度向量。
  - $\| \cdot \|$ : 向量的欧几里得范数（长度）。
高度误差 (Height Error, Height Err.)：
- 概念定义： 衡量人类和类人机器人所持物体两端的高度差异，反映高度协调的稳定性。值越小表示物体在垂直方向上越稳定。
- 数学公式： 假设在时间步 $t$ 人类所持物体端点的高度为 $h_{\mathrm{human},t}^{\mathrm{obj}}$ ，机器人所持物体端点的高度为 $h_{\mathrm{robot},t}^{\mathrm{obj}}$ ，总时间步为 $T$ 。 $\text{Height Err.} = \frac{1}{T} \sum_{t=1}^{T} | h_{\mathrm{human},t}^{\mathrm{obj}} - h_{\mathrm{robot},t}^{\mathrm{obj}} |$
- 符号解释：
  - $T$ : 实验的总时间步数。
  - $h_{\mathrm{human},t}^{\mathrm{obj}}$ : 在时间步 $t$ 人类所持物体端点的高度。
  - $h_{\mathrm{robot},t}^{\mathrm{obj}}$ : 在时间步 $t$ 机器人所持物体端点的高度。
  - $| \cdot |$ : 绝对值。
平均外部力 (Average External Force, Avg. E.F.)：
- 概念定义： 衡量人类与物体之间的平均水平交互力，反映人类在沿预期方向移动被搬运物体所需的努力。值越小表示人类所需努力越少。
- 数学公式： 假设在时间步 $t$ 人类与物体之间的水平交互力为 $F_{\mathrm{human-obj},t}^{\mathrm{horiz}}$ ，总时间步为 $T$ 。 $\text{Avg. E.F.} = \frac{1}{T} \sum_{t=1}^{T} \| F_{\mathrm{human-obj},t}^{\mathrm{horiz}} \|$
- 符号解释：
  - $T$ : 实验的总时间步数。
  - $F_{\mathrm{human-obj},t}^{\mathrm{horiz}}$ : 在时间步 $t$ 人类与物体之间的水平交互力向量。
  - $\| \cdot \|$ : 向量的欧几里得范数（长度）。
最小力 (Min. Force)：
- 概念定义： 在真实世界实验中，衡量启动协作运输所需移动机器人的最小力。反映了机器人在开始协作时的柔顺性，力越小表示机器人越容易被推动。
人类用户研究指标：
- 高度跟踪 (Height Tracking)： 参与者对协作过程中物体高度稳定性的评分。
- 平滑度 (Smoothness)： 参与者对协作过程整体流畅性和柔顺性的评分。
- 评分范围： 1 到 5 分。

5.3. 对比基线

研究将 COLA 方法与以下基线模型进行了比较：

Vanilla MLP：
- 描述： 这是一个简单的 MLP 策略，使用 WBC 的权重进行初始化，并与 PPO 算法进行端到端训练。它没有残差组件和特权信息，直接学习从本体感知到动作的映射。
- 代表性： 代表了一种直接学习端到端策略的方法，但可能难以处理复杂的动态交互。
Explicit Goal Estimation：
- 描述： 这种基线方法用预测的目标命令替换了全身控制命令，并移除了教师策略中的残差组件。然后，将由此产生的策略蒸馏到学生策略中。
- 代表性： 旨在测试协作搬运是否可以通过简单地预测高层目标命令来解决，而不是通过隐式学习交互。
Transformer：
- 描述： 用 Transformer 架构替换了学生策略的原始 MLP 架构。
- 代表性： 旨在测试更复杂的、擅长处理序列数据的神经网络架构（如 Transformer）是否能带来性能提升，尤其是在处理时间序列观察时。

6. 实验结果与分析

6.1. 核心结果分析

6.1.1. 模拟实验结果与基线比较

研究通过模拟实验评估了 COLA 模型相对于基线方法的性能，结果如 Table III 所示。

Table III: Metrics for between the robot and the carried object to evaluate the effort required for joint carrying and movement.

Methods	Lin. Vel. (m/s) ↓	Ang. Vel. (rad/s) ↓	Height Err. (m) ↓	Avg. E.F. (N) ↓
Explicit Goal Estimation	0.235	0.335	0.102	19.067
Transformer	0.178	0.310	0.077	19.382
COLA-F-History10	0.121	0.131	0.037	15.435
COLA-F-History50	0.116	0.132	0.036	14.574
COLA-F	0.109	0.118	0.031	14.576
COLA-L-History10	0.118	0.106	0.039	13.924
COLA-L-History50	0.112	0.103	0.036	13.495
COLA-L	0.102	0.098	0.038	12.298

从 Table III 可以观察到：

COLA 表现优异： COLA-L 在所有评估指标（线性速度跟踪误差、角速度跟踪误差、高度误差、平均外部力）上都取得了最佳性能，其平均外部力最低，表明人类所需的努力最少。这验证了 COLA 方法在模拟环境中的有效性和优越性。
基线方法表现：
- Explicit Goal Estimation 表现最差，这表明协作搬运不仅仅是预测全身控制命令的问题，动态交互引入了额外挑战。
- Transformer 性能优于 Explicit Goal Estimation，但不如 COLA。
- Vanilla MLP 虽然在基线模型中表现相对较好（未在表格中直接显示，但文中提及），但在角速度跟踪和高度误差方面仍有不足，说明其难以精确推断复杂交互模式。
协作模式比较 (COLA-F vs. COLA-L)： COLA-L (领导者模式) 持续优于 COLA-F (跟随者模式)。这归因于目标命令为策略学习更主动和精确的协作提供了额外的信息。在存在噪声和干扰的动态交互中，目标命令能提供更丰富的信息线索，从而增强人机协作。

6.1.2. 柔顺性评估 (模拟与真实世界)

研究通过施加外部力来评估模型的柔顺性，结果如图 5 所示。

该图像是图表，展示了协作搬运的有效性定量结果。图中(a)展示了不同外部力作用下机器人的基速变化，(b)显示了机器人的高度随时间步骤的变化，(c)和(d)则分别对真实力量的最小值和高度差进行了比较分析。

图 5：协作搬运有效性的定量结果。(a) 显示了当施加在机器人手掌上的力在 10.0 秒的时间序列内线性增加时，机器人的速度。(b) 显示了当对机器人末端执行器施加外部力时，机器人骨盆高度随时间的变化。实线表示在每只手掌上施加 10N 外部力时模拟中机器人的高度，虚线表示在 20N 力下的高度。(c) 显示了在真实世界中移动机器人所需的最小力。(d) 显示了真实世界实验中人类持握端和类人机器人持握端之间的物体高度差。

速度响应 (图 5a)： 基线模型在外部力作用下几乎保持静止，而 COLA 在力超过 15N 后才开始跟随。15N 以下的力被解释为稳定机器人而非启动移动的信号。这表明 COLA 能够区分稳定和移动的意图。
高度响应 (图 5b)：
- Locomotion 策略： 在施加力下保持几乎恒定的高度。
- Vanilla MLP： 不论受力大小，都会蹲到固定高度，表明它只支撑外部力，但在垂直方向上不积极柔顺。
- COLA： 两种设置都能有效响应施加的力，通过敏捷的全身运动与垂直干扰相符，展示了更好的柔顺性。

6.1.3. 真实世界中的实际价值 (图 5c, 5d 及用户研究)

真实世界实验验证了 COLA 在实际场景中的有效性。

最小力 (图 5c)： COLA 相比基线方法展现出更强的对外部力的柔顺性。
高度差 (图 5d)： COLA 将高度跟踪误差减少了大约四分之三，表明在保持物体姿态稳定方面有显著改进。

Table IV: Human study results evaluated by 23 participants on the performance of Height Tracking and Smoothness.

Methods	Height Tracking ↑	Smoothness ↑
Locomotion	2.96	2.61
Vanilla MLP	3.09	3.09
COLA	3.96	3.96

人类用户研究 (Table IV)： 23 名参与者评估了 COLA 的柔顺性和高度跟踪能力。COLA 在这两个指标上均取得了最高评分（3.96），远高于 Locomotion (2.96, 2.61) 和 Vanilla MLP (3.09, 3.09)。这进一步证实了 COLA 在真实世界场景中能为人类提供更有效和柔顺的协作帮助。

6.2. 消融实验/参数分析

6.2.1. 模型架构选择 (COLA vs. Transformer)

在 Table III 中，可以看到 COLA 优于 Transformer。

性能和效率： 尽管 Transformer 训练步数是 COLA 的两倍，但性能仍不及 COLA。
复杂度与适应性： 研究推测，Transformer 的长时序处理能力可能引入不必要的复杂性。对于协作任务而言，机器人需要迅速响应当前的人类运动，而不是过度依赖早期（可能已过时）的信息。例如，当从静止状态开始移动时，机器人应关注当前物体运动，而不是鼓励其保持静止的早期帧。过时的信息可能导致机器人犹豫，从而影响协作的平滑度。MLP-based 模型能更及时地适应多样的人类运动，这对于协作任务至关重要。

6.2.2. 历史长度 (History Length) 消融

研究还对 COLA 的历史长度进行了消融研究，如 Table III 中的 COLA-F-History10、COLA-F-History50、COLA-F (默认历史长度 25) 以及 COLA-L-History10、COLA-L-History50、COLA-L (默认历史长度 25) 所示。

短历史不足： 较短的历史（例如 10 帧）提供的信息不足以让策略从状态观察中隐式学习与人类运动的协作。
长历史收益递减： 将历史长度增加到 50 帧，性能提升很小。
选择 25 帧： 因此，研究选择了 25 帧作为性能和学习效率之间的平衡点。
结论： 这表明该任务对关节位置的长期变化不高度敏感，与 Transformer 基线的结果一致，进一步支持了 MLP-based 模型在处理当前人类运动方面的及时响应优势。

6.3. 隐式估计交互力 (图 6)

研究观察到类人机器人在运输过程中的行为主要对特定关节施加的力敏感。

Fig. 6: Movement Analysis. When a continuous external force is applied to the robot's torso, it resists to maintain a stable stance. In contrast, when a smaller force is applied to the robot's end-effector, it tends to follow the force.
该图像是示意图，展示了两种不同的协作行为。左侧展示了机器人在接收作用于躯干的外力时的反应，维持稳定姿态；右侧展示了当作用于机器人末端执行器的较小外力时，其跟随该外力的行为。

图 6：运动分析。当对机器人躯干施加连续外部力时，它会抵抗以保持稳定的姿态。相反，当对机器人末端执行器施加较小的力时，它倾向于跟随该力。

手部/手臂受力： 当人类在搬运过程中对机器人的手或手臂施加力时，类人机器人倾向于跟随人类的引导。这表明机器人将这些部位的力解释为移动指令。
躯干/腿部受力： 相反，当力施加到其他关节（如躯干或腿部）时，类人机器人保持稳定，抵抗这些力。这表明机器人将这些部位的力解释为需要保持平衡或稳定姿态。

这些结果表明，COLA 模型能够通过关节状态与其目标之间的偏差有效地学习类人机器人、物体和人类之间的交互动态，从而实现智能的力感知行为。

7. 总结与思考

7.1. 结论总结

本文提出了一种名为 COLA 的统一方法，用于实现人类与类人机器人 (humanoid) 之间的协作。该方法采用了一个三步残差学习框架，使类人机器人能够在领导者 (leader) 和跟随者 (follower) 两种协作模式下运行。通过知识蒸馏，将包含特权物体状态信息的教师策略转化为一个仅依靠本体感知 (proprioception) 输入的学生策略，从而实现了无需外部传感器或复杂交互模型的柔顺且可泛化的全身协调。研究还设计了一个闭环训练环境，明确建模类人机器人-物体交互，使得机器人能够隐式学习人类的运动意图并通过柔顺协作进行适应。模拟和真实世界实验证明了 COLA 在减少人类工作量、保持物体稳定性以及实现精确轨迹协调方面的卓越性能。人类用户研究也进一步证实了其在实际场景中的有效性和柔顺性。

7.2. 局限性与未来工作

感官模态的局限性： 尽管 COLA 实现了纯本体感知下的有效协作，但作者指出，未来的研究可以探索多模态感知（如视觉和触觉传感器），因为它们可以提供更丰富的信息线索，进一步提升人机协作的质量。
自主规划能力的缺失： 目前，COLA 主要通过响应人类的运动和意图来协助人类。未来的研究可以探索如何使类人机器人具备自主规划能力，以更主动地协助人类完成任务，而不仅仅是跟随或响应。
特定任务和环境： 尽管展示了在多种物体和地形下的泛化能力，但该方法可能仍受限于其训练时所考虑的任务类型和环境特性。在更广泛、更复杂的任务和未知环境中，其性能可能需要进一步验证和改进。

7.3. 个人启发与批判

7.3.1. 个人启发

本体感知的重要性与潜力： 本文强调 proprioception-only 方法，这对于实际部署具有巨大价值。减少对外部传感器的依赖可以降低系统成本、简化部署流程，并提高在各种环境（特别是光照不佳或物体遮挡较多的环境）中的鲁棒性。这提示我们，在设计机器人系统时，应充分挖掘机器人自身内部信息（如关节状态、内部力传感器等）的潜力。
残差学习范式的有效性： 在一个已经存在的控制器（WBC）之上学习一个残差策略，这种方法既利用了基础控制器的鲁棒性，又通过学习增量优化来弥补其不足，使得策略能够适应更复杂的交互。这种分层学习的思想在机器人控制领域非常值得借鉴。
隐式学习动态交互： 通过闭环训练环境，让机器人隐式地从物理交互中学习物体动态和人类意图，而非显式地建模这些复杂的因素，这是一种非常高效且通用的方法。这表明，在某些情况下，通过端到端学习从大量交互中提取模式，可能比传统基于模型的复杂推断更有效。
领导者/跟随者模式的统一： 将领导者和跟随者行为融合到一个策略中，并允许灵活切换，这使得机器人能够更加适应人类的自然协作方式。在实际生活中，人与人之间的协作也是动态切换主导权的，机器人能模拟这种灵活性将大大提升用户体验。

7.3.2. 批判性思考

特权信息的依赖性： 教师策略在训练时依赖特权信息 $\mathcal{O}^{\mathrm{priv}}$ （物体的地面真实姿态和速度历史），这在模拟环境中是可行的，但在真实世界中获取这些精确信息非常困难。虽然学生策略通过行为克隆不直接使用特权信息，但其学到的能力是基于特权信息下的最优行为。这可能导致真实世界性能与模拟结果之间存在差距，尤其是在物体动态特别复杂或与模拟环境存在较大差异时。
泛化能力的边界： 尽管论文展示了在不同物体和地形下的泛化能力，但其泛化边界仍有待探索。例如，对于从未见过的新物体形状、重量分布差异很大的物体，或者在极端不平坦、动态变化的环境中，模型的表现如何？这需要更多的系统性实验来验证。
人类意图的隐式学习： 论文提到机器人能隐式学习人类意图。然而，这种“隐式”学习的透明度和可解释性值得探讨。当机器人出现意外行为时，很难追溯是何种“意图”导致了这种行为。在对安全性要求高的协作场景中，这种黑盒性质可能是一个挑战。
用户研究的规模： 23 名参与者的人类用户研究为初期验证提供了有价值的证据，但对于证明模型在广泛人群中的普适性和接受度而言，仍可能需要更大规模、更多样化的用户群体进行测试。
对“力”的定义与感知： 论文中提到“偏移量作为交互力的代理”，但这种代理的准确性和鲁棒性在不同物理交互情境下可能有所不同。更直接的力/扭矩传感器信息是否能进一步提升性能？或者这种纯本体感知下的代理力感知是否足够满足大多数协作场景？这需要在未来进行更细致的分析和对比。

相似论文推荐

基于向量语义检索推荐的相关论文。

暂时没有找到相似论文。