论文状态：已完成

HOMIE: Humanoid Loco-Manipulation with Isomorphic Exoskeleton Cockpit

发表：2025/02/19

类人机器人远程操控系统 (1)同构外骨骼臂控制 (1)多自由度动作感知手套 (1)半自主强化学习身体控制 (1)类人机器人行走与操作任务 (1)

原文链接 PDF 下载

价格：0.100000

已有 3 人读过

本分析由 AI 生成，可能不完全准确，请以原文为准。

TL;DR 精炼摘要

本文提出HOMIE系统，融合同构外骨骼臂控、运动感知手套及强化学习驱动的下半身控制，实现人形机器人的高效全身协调移动与操作。通过数据飞轮机制优化策略，提升任务完成速度和多样性，推动人形机器人遥操作技术进步。

摘要

Generalizable humanoid loco-manipulation poses significant challenges, requiring coordinated whole-body control and precise, contact-rich object manipulation. To address this, this paper introduces HOMIE, a semi-autonomous teleoperation system that combines a reinforcement learning policy for body control mapped to a pedal, an isomorphic exoskeleton arm for arm control, and motion-sensing gloves for hand control, forming a unified cockpit to freely operate humanoids and establish a data flywheel. The policy incorporates novel designs, including an upper-body pose curriculum, a height-tracking reward, and symmetry utilization. These features enable the system to perform walking and squatting to specific heights while seamlessly adapting to arbitrary upper-body poses. The exoskeleton, by eliminating the reliance on inverse dynamics, delivers faster and more precise arm control. The gloves utilize Hall sensors instead of servos, allowing even compact devices to achieve 15 or more degrees of freedom and freely adapt to any model of dexterous hands. Compared to previous teleoperation systems, HOMIE stands out for its exceptional efficiency, completing tasks in half the time; its expanded working range, allowing users to freely reach high and low areas as well as interact with any objects; and its affordability, with a price of just $500. The system is fully open-source, demos and code can be found in our https://homietele.github.io/.

思维导图

论文精读

中文精读约 31 分钟读完 · 16,111 字

1. 论文基本信息

1.1. 标题

HOMIE: Humanoid Loco-Manipulation with Isomorphic Exoskeleton Cockpit (HOMIE：基于同构外骨骼驾驶舱的人形机器人移动操控)

标题解析:

Humanoid Loco-Manipulation: 点明了研究的核心任务——人形机器人的“移动操控”，即结合了移动 (locomotion) 与操作 (manipulation) 的全身协调性任务。
Isomorphic Exoskeleton Cockpit: 揭示了其核心技术方案——一个与机器人结构“同构”(Isomorphic) 的外骨骼，并将其整合在一个“驾驶舱”(Cockpit)式的遥操作界面中。
HOMIE: 论文提出的系统名称，是标题中核心概念的缩写，也带有一种亲切、友好的意味，暗示了其在未来融入人类日常生活的潜力。

1.2. 作者

Qingwei Ben, Feiyu Jia, Jia Zeng, Junting Dong, Dahua Lin, Jiangmiao Pang.

作者均来自 上海人工智能实验室 (Shanghai AI Laboratory)，其中部分作者也来自 香港中文大学多媒体实验室 (Multimedia Laboratory, The Chinese University of Hong Kong)。
这是一个在机器人学、计算机视觉和机器学习领域非常活跃的研究团队，近期在人形机器人领域产出了多项重要工作。

1.3. 发表期刊/会议

发表状态: 预印本 (Preprint)。
收录平台: arXiv。
影响力: arXiv 是全球最著名的科研预印本发布平台，许多前沿的AI和机器人学研究成果会首先在这里发布，以抢占首发权并快速获得学术界的反馈。虽然未经同行评审，但该论文的技术细节和实验结果非常详实，具备很高的参考价值。

1.4. 发表年份

提交时间 (UTC): 2025-02-18T16:33:38.000Z。这应为作者设置的未来发布时间，实际提交版本日期应参考原文链接。根据链接信息，v2版本提交于2025年2月。

1.5. 摘要

通用的人形机器人移动操控技术面临着巨大的挑战，因为它需要协调的全身控制和精确、富含接触的物体操作。为了解决这个问题，本文介绍了一个名为 HOMIE 的半自主遥操作系统。该系统创新性地整合了三大组件，形成一个统一的“驾驶舱”：

身体控制: 一个通过强化学习训练的策略，负责机器人的下半身控制，其指令通过一个脚踏板输入。
手臂控制: 一对与机器人手臂结构同构的外骨骼臂，用于精确的手臂遥操作。
手部控制: 一双运动感知手套，用于灵巧手的高自由度控制。

该系统旨在自由地操作人形机器人，并建立一个数据飞轮 (data flywheel)，即通过遥操作收集高质量数据，再用于训练自主策略。

论文提出的强化学习策略包含多项新颖设计，如上半身姿态课程学习、高度追踪奖励和对称性利用。这些设计使机器人能够在无缝适应任意上身姿态的同时，完成行走和下蹲到指定高度的任务。硬件方面，外骨骼通过避免对逆向动力学 (inverse dynamics) 的依赖，实现了更快、更精确的手臂控制。手套使用霍尔传感器 (Hall sensors) 代替伺服电机，使得紧凑的设备也能达到15个以上的自由度，并能自由适配任何型号的灵巧手。

与以往的遥操作系统相比，HOMIE的优势体现在：

高效率: 完成任务的时间仅为其他系统的一半。
大工作范围: 用户可以自由地触及高处和低处，并与任何物体互动。
低成本: 整套系统价格仅为500美元。

该系统是完全开源的。

1.6. 原文链接

原文链接: https://arxiv.org/abs/2502.13013
PDF 链接: https://arxiv.org/pdf/2502.13013v2.pdf
项目主页: https://homietele.github.io/

2. 整体概括

2.1. 研究背景与动机

当前人形机器人研究领域面临一个核心困境，即“移动”与“操控”能力的分裂。具体来说，存在一种二元对立 (dichotomy)：

强化学习 (RL) 驱动的移动策略： 这类方法训练出的机器人下肢运动能力很强，能适应复杂环境，实现稳健行走。但它们通常缺乏与上层遥操作任务（如精细抓取）实时、精确集成的接口。
专注于上身的遥操作系统： 这类系统（如基于VR或视觉的方案）能够实现精细的上半身和手部操作，但它们往往忽略了移动能力对机器人实际工作空间的影响。一个只能站立操作的机器人，其功能会受到极大限制。

这种分裂导致了一种“双输”局面：机器人要么在移动时牺牲了灵巧操作，要么在操作时牺牲了移动能力和工作范围。

本文的切入点和创新思路正是要打破这种二元对立，实现移动和操控的深度融合。作者认为，未来的发展方向是“双向奔赴”：一方面，基于RL的训练需要集成上半身遥操作接口，且不牺牲机器人的运动能力；另一方面，遥操作系统需要无缝集成下半身移动控制，同时保证姿态捕捉的精确和流畅。

HOMIE系统正是基于这一思路设计的统一解决方案。它通过一个集成的“驾驶舱”，将操作者的上身动作（通过外骨骼和手套）与下身意图（通过脚踏板） 分开但又协同地映射到机器人上，从而让单个操作员就能高效地控制机器人的全身，实现复杂的移动操控任务。

2.2. 核心贡献/主要发现

论文的核心贡献可以概括为以下三点：

首个统一的全身遥操作驾驶舱: 提出并实现了一个新颖的人形机器人遥操作“驾驶舱”，它巧妙地结合了强化学习驱动的移动操控策略与一个同构外骨骼和运动感知手套。这使得单个操作员能够实现对人形机器人全身的直观、高效控制。
首个无需运动先验的移动操控策略: 首次成功实现了无需依赖运动捕捉 (MoCap) 数据作为运动先验 (motion prior) 的人形机器人移动操控策略。该策略不仅能让机器人稳健行走，还能实现动态下蹲等复杂动作，这极大地降低了训练成本和扩展难度。
一个高性价比、高效率的开源硬件系统: 设计并开源了一套总成本仅500美元的硬件系统。该系统通过同构映射 (isomorphic mapping) 实现了比现有系统（特别是基于视觉或VR的系统）更精确、更快速的全身姿态控制，从而显著缩短了任务完成时间。

3. 预备知识与相关工作

3.1. 基础概念

遥操作 (Teleoperation): 指操作员在远离现场的地方，通过主端设备（如手柄、外骨骼）控制从端设备（如机器人）执行任务。高质量的遥操作是收集专家演示数据，进而用于机器人学习的关键技术。
移动操控 (Loco-Manipulation): 指机器人同时进行移动（如行走、下蹲）和操作（如抓取、搬运）的复合型任务。这是人形机器人在真实世界中发挥作用的核心能力。
强化学习 (Reinforcement Learning, RL): 一种机器学习范式，其中智能体 (agent)（机器人）通过与环境的交互来学习。智能体在每个时间步做出一个动作 (action)，环境会反馈一个奖励 (reward) 或惩罚。智能体的目标是学习一个策略 (policy)，以最大化累积奖励。在本文中，RL被用来训练机器人下半身的移动策略。
模仿学习 (Imitation Learning, IL): 一种机器人学习方法，机器人通过模仿人类专家的演示来学习技能。本文中，通过HOMIE系统收集的遥操作数据可以作为专家演示，用于训练自主执行任务的策略。
自由度 (Degrees of Freedom, DoF): 指一个机械系统可以独立运动的变量数量。例如，一个可以在三维空间中自由旋转的关节有3个自由度。DoF越高，通常意味着可操控性越精细。
正向运动学 (Forward Kinematics, FK): 给定机器人各关节的角度，计算其末端执行器（如手）在空间中的位置和姿态。
逆向运动学 (Inverse Kinematics, IK): 给定机器人末端执行器期望的位置和姿态，反向计算出机器人各关节应该达到的角度。这是一个非线性的、可能有多解或无解的复杂问题，计算通常耗时且可能不精确。本文的同构外骨骼设计旨在绕过IK计算。
运动捕捉 (Motion Capture, MoCap): 使用专门的设备（如光学摄像头、惯性传感器）来捕捉和记录人体或物体的运动数据。MoCap数据精度高，但设备昂贵，且数据处理流程复杂。

3.2. 前人工作

论文将相关工作分为两大类：遥操作系统和全身移动操控。

3.2.1. 遥操作系统 (Teleoperation Systems)

现有的遥操作系统主要有以下几类，各有优缺点：

同机器人遥操作 (Identical Robot Teleoperation):
- 方法: 使用一台与被控机器人完全相同的机器人作为主端控制器（如 Mobile-ALOHA）。操作员直接操纵主端机器人，其关节角度被直接复制到从端机器人。
- 优点: 实现了关节匹配 (joint-matching)，精度高，响应速度快。
- 缺点: 成本极高（需要两台机器人），且无法用于控制灵巧手。
视觉/VR设备遥操作 (Vision/VR-based Teleoperation):
- 方法: 使用VR手柄（如 OpenTelevision）或普通摄像头（如 AnyTeleop）捕捉操作员手腕和手部的姿态，然后通过逆向运动学 (IK) 计算机器人关节角度。
- 优点: 成本相对较低，设置灵活。
- 缺点: 严重依赖姿态估计算法的精度和速度，且容易受遮挡 (occlusion) 问题影响。IK计算本身也是一个耗时且可能不精确的环节。
外骨骼遥操作 (Exoskeleton-based Teleoperation):
- 方法: 操作员穿戴外骨骼设备，传感器读取人体关节角度。
- 常见方案 (如 ACE): 通过正向运动学 (FK) 计算外骨骼末端的姿态，再用逆向运动学 (IK) 解算机器人关节，手部姿态依然依赖视觉。这同样受限于IK和视觉姿态估计的瓶颈。
- 同构外骨骼方案 (如 GELLO, AirExo): 如果外骨骼的运动学结构与机器人手臂同构 (isomorphic)，就可以直接进行关节匹配 (joint-matching)，从而避免IK计算。
- 现有同构方案的局限: 此前的同构方案大多只针对带简单夹爪的机械臂，无法控制高自由度的灵巧手。

3.2.2. 全身移动操控 (Whole-body Loco-Manipulation)

在机器人全身控制方面，主要有两条技术路线：

基于模型的优化 (Model-based Optimization):
- 方法: 通过求解最优控制问题 (Optimal Control Problems, OCPs) 来生成运动控制律。
- 缺点: 计算量巨大，难以在复杂场景中进行实时在线处理。
基于强化学习 (Reinforcement Learning, RL):
- 方法: 使用PPO等算法训练一个端到端的控制策略。RL在四足机器人和人形机器人移动方面已取得巨大成功。
- 现有RL方案的局限:
  1. 依赖运动先验: 许多方法（如 HumanPlus）依赖昂贵的MoCap数据进行重定向，作为训练的运动先验。这限制了方法的可扩展性。
  2. 姿态估计不精确: 当需要与操作员交互时，常使用视觉算法估计人体姿态，精度不足以完成精细任务。
  3. 缺乏高度控制: 大多数方法没有将机器人的身体高度作为可控变量，这极大地限制了机器人的垂直工作空间。
  4. 不便的移动指令: 一些方法需要操作员和机器人同步行走来下达指令，这在大规模环境中不切实际。虽然摇杆或踏板是更好的选择，但摇杆会占用手，而踏板则可以解放双手。

3.3. 差异化分析

HOMIE 系统的设计巧妙地汲取了各类方法的优点，并规避了它们的缺点：

对比遥操作系统: HOMIE 采用了同构外骨骼，实现了与 Mobile-ALOHA 类似的关节匹配，保证了高精度和高速度；但它的成本远低于后者，仅需500美元。与 ACE 等非同构外骨骼或 AnyTeleop 等视觉方案相比，它完全绕过了耗时且不精确的IK计算。更重要的是，它通过自研的运动感知手套解决了现有同构方案无法控制灵巧手的问题。

对比全身移动操控策略: HOMIE 的RL策略完全不依赖MoCap数据，降低了训练门槛。它通过脚踏板下达移动指令，解放了操作员的双手。最关键的是，它将身体高度作为一个可控命令，并设计了相应的奖励函数，极大地扩展了机器人的垂直工作空间，使其能够完成高处和低处的取放任务。

下表（改编自原文 Table I）清晰地展示了 HOMIE 与其他代表性系统的对比：

遥操作系统	成本 (\$)	手臂追踪方式	灵巧手追踪	移动操控	全身控制	无需MoCap
Mobile-ALOHA [14]	32k	关节匹配	✗	✓	✗	✓
GELLO [15]	0.6k	关节匹配	✗	✗	✗	✓
ACE [8]	0.6k	视觉重定向	视觉重定向	✗	✗	✓
AnyTeleop [10]	~0.3k	视觉重定向	视觉重定向	✗	✗	✓
HumanPlus [1]	0.05k	视觉重定向	视觉重定向	✓	✗	✗
HOMIE (本文)	0.5k	关节匹配	关节匹配	✓	✓	✓

4. 方法论

4.1. 方法原理

HOMIE 系统的核心思想是“分而治之，协同工作”。它将人形机器人的全身控制分解为三个部分，并为每个部分设计了专门的、高效的控制接口，最终整合成一个直观的驾驶舱。

下半身（移动）: 由一个强大的 RL策略 $π_loco$ 控制。操作员通过脚踏板下达高级指令（如前进速度、转向速度、身体高度），策略负责解算出具体的下肢关节力矩，以实现稳定、鲁棒的行走和下蹲。
上半身（手臂）: 由一对同构外骨骼控制。操作员的手臂运动被外骨骼精确捕捉，关节角度被直接、无延迟地映射到机器人的手臂上，绕过了复杂的IK计算。
手部（灵巧手）: 由一对运动感知手套控制。操作员的手指运动被手套上的传感器捕捉，关节角度同样被直接映射到机器人的灵巧手上，实现精细操作。

这三者共同构成了一个半自主系统：下半身是自主的（由策略控制），上半身是遥操作的。这种设计既利用了RL在平衡和移动方面的优势，又利用了直接映射在精确操作方面的优势。

下图（原文 Figure 2）清晰地展示了 HOMIE 系统的整体架构和信息流。

该图像是论文中展示的示意图，描述了人形机器人全身远程操作系统及其控制策略。左侧展示佩戴运动感应手套和外骨骼的操作者如何通过踏板控制机器人行走与蹲下。右侧为控制策略框架，包含手臂动作策略和躯干运动策略两部分。

图解:

(a) 系统概览: 左侧是操作员在驾驶舱内，穿戴外骨骼和手套，通过脚踏板和第一人称视角 (FPV) 显示器进行遥操作。右侧是机器人在真实世界或仿真环境中执行任务。两者通过Wi-Fi通信。遥操作过程中收集的数据可用于训练自主策略 $π_auto$ 。
(b) 控制流程: 操作员的踏板指令 $C_t$ 和外骨骼/手套指令 $q_{upper}$ 分别输入。 $C_t$ 被送入RL策略 $π_loco$ ，该策略输出下半身的动作。 $q_{upper}$ 则直接设置给机器人的上半身。当自主策略 $π_auto$ 训练完成后，它可以接管操作员，自主生成 $C_t$ 和 $q_{upper}$ ，实现机器人的自主运行。

4.2. 核心方法详解 (逐层深入)

4.2.1. 人形机器人全身控制 (RL 策略 $π_loco$ )

为了让机器人在承受任意上身姿态干扰的同时，还能稳定地行走和下蹲，作者设计了一个包含三个关键技术的RL训练框架。

1. 训练设置

观测空间 (Observation Space): 在 $t$ 时刻，策略的单步观测 $O_t$ 定义为： $O_t = [ C_t, \omega_t, g_t, q_t, \dot{q}_t, a_{t-1} ]$
- $C_t = [ v_{x,t}, \omega_{yaw,t}, h_t ]$ : 操作员的指令，包括期望的前进速度、转向速度和躯干目标高度。
- $\omega_t$ : 机器人躯干的角速度。
- $g_t$ : 重力向量 $[0, 0, -1]$ 在机器人躯干坐标系下的投影，用于感知姿态。
- $q_t$ : 机器人所有关节的角度。
- $\dot{q}_t$ : 机器人所有关节的角速度。
- $a_{t-1}$ : 上一时刻的动作。策略的完整输入是过去6个时间步的观测序列 $O_{t-5:t}$ 。
动作空间 (Action Space): 策略的输出动作 $a_t$ 是机器人下半身各关节的目标角度。
力矩计算: 得到目标角度 $a_t$ 后，通过一个PD控制器计算每个下肢关节 $i$ 需要施加的力矩 $\tau_{t,i}$ ： $\tau _ { t , i } = K p _ { i } \times ( a _ { t , i } - q _ { 0 , t , i } ) - K d _ { i } \times \dot{q} _ { t , i }$
- $a_{t,i}$ : 策略网络输出的关节 $i$ 的目标角度。
- $q_{0,t,i}$ : 关节 $i$ 的默认（或当前）位置。论文此处表述为 default joint positions，但公式形式更像是追踪误差，应为当前关节位置 $q_{t,i}$ 。此处原文 $q_{0,t,i}$ 可能是笔误，应为 $q_{t,i}$ 。但我们忠于原文公式，假定 $q_{0,t,i}$ 为一个基准位置。修正： 仔细阅读公式，它是一个标准的PD控制公式，其中 $a_{t,i}$ 是目标位置，而 $q_{0,t,i}$ 被减去，这通常是当前位置。为忠于原文，此处标注 $q_{0,t,i}$ 为“默认关节位置”，但其物理意义更可能是当前关节位置 $q_{t,i}$ 。再看原文， $q_t,i$ 是当前关节角度， $\dot{q}_{t,i}$ 是当前关节角速度。所以公式应为 $\tau_{t,i} = Kp_i \times (a_{t,i} - q_{t,i}) - Kd_i \times \dot{q}_{t,i}$ 。原文的 $q_{0,t,i}$ 极有可能是 $q_{t,i}$ 的印刷错误。为严谨，此处仍按原文呈现，但指出这一可能问题。
- $\dot{q}_{t,i}$ : 关节 $i$ 的当前角速度。
- $Kp_i, Kd_i$ : 关节 $i$ 的刚度 (proportional gain) 和阻尼 (derivative gain) 系数。

2. 上半身姿态课程学习 (Upper-body Pose Curriculum)

为了让策略适应任意的上半身姿态，作者设计了一种课程学习方法，让训练难度循序渐进。

核心思想: 在训练初期，只给上半身施加小范围的随机姿态；随着策略能力的增强，逐渐增大幅度，直到覆盖整个姿态空间。
实现方式:
1. 引入一个上半身动作比率 (upper action ratio) $\rho_a$ ，范围从 0 到 1。当策略在速度追踪任务上达到一定奖励阈值时， $\rho_a$ 增加0.05。
2. 在每个课程阶段，不是直接在 $[0, \rho_a]$ $[0, ρ_{a}]$ 范围内均匀采样，而是先从一个特殊的概率分布中采样一个临时比率 $\rho_a'$ $ρ_{a}^{'}$ ： $p ( \rho _ { a } ^ { \prime } | \rho _ { a } ) = \frac { 20 ( 1 - \rho _ { a } ) e ^ { - 20 ( 1 - \rho _ { a } ) \rho _ { a } ^ { \prime } } } { 1 - e ^ { - 20 ( 1 - \rho _ { a } ) } } , ~ \rho _ { a } \in [ 0 , 1 )$
  - 公式解释: 这是一个截断的指数分布。当 $\rho_a$ 接近0时，这个分布的概率质量高度集中在0附近，意味着更容易采样到小的 $\rho_a'$ 。随着 $\rho_a$ 趋近于1，该分布逐渐变得接近于在 [0, 1] 上的均匀分布。这种平滑过渡比直接使用 $\mathcal{U}(0, \rho_a)$ 效果更好。
3. 为了从这个分布中采样，作者使用了逆变换采样法 (Inverse Transform Sampling)，推导出实际的采样公式： $a _ { i } = \mathcal { U } ( 0 , - \frac { 1 } { 20 ( 1 - \rho _ { a } ) } \ln \left( 1 - \mathcal { U } ( 0 , 1 ) \left( 1 - e ^ { - 20 ( 1 - \rho _ { a } ) } \right) \right) )$
  - 公式解释: 这里 $a_i$ 实际上就是上一步的 $\rho_a'$ 。通过从一个标准均匀分布 $\mathcal{U}(0,1)$ 采样，再代入此公式，就可以得到一个服从 Eq. (2) 分布的样本。这个样本 $a_i$ 随后被用作随机上半身姿态的范围。

3. 高度追踪奖励 (Height Tracking Reward)

为了让机器人能够下蹲到任意指定高度 $h_t$ ，作者设计了一个与膝关节角度挂钩的新奖励项。

核心思想: 当机器人实际高度 $h_{r,t}$ 与目标高度 $h_t$ 有差距时，直接鼓励膝关节朝正确的方向（弯曲或伸直）运动。
奖励函数: $r _ { k n e e } = - \| ( h _ { r , t } - h _ { t } ) \times ( \frac { q _ { k n e e , t } - q _ { k n e e , m i n } } { q _ { k n e e , m a x } - q _ { k n e e , m i n } } - \frac { 1 } { 2 } ) \|$
- $h_{r,t}$ : 机器人当前实际高度。
- $h_t$ : 目标高度。
- $q_{knee,t}$ : 当前膝关节角度。
- $q_{knee,min}, q_{knee,max}$ : 膝关节角度的最小和最大范围。
- 公式解释:
  - 项 $(h_{r,t} - h_t)$ 表示高度误差。如果为正，说明机器人太高了，需要下蹲。
  - 项 $(\frac{q_{knee,t} - q_{knee,min}}{q_{knee,max} - q_{knee,min}} - \frac{1}{2})$ 将膝关节角度归一化到 $[-0.5, 0.5]$ 范围。当膝关节伸直时，该项为正；弯曲时为负。
  - 当机器人太高（误差为正）时，为了让奖励变大（惩罚变小），需要让第二项变为负，即鼓励膝关节弯曲 ( $q_{knee,t}$ 变小)。
  - 反之，当机器人太低（误差为负）时，鼓励膝关节伸直。
  - 这个设计巧妙地将高度目标与具体的关节动作联系起来，为策略提供了更明确的指导。

4. 对称性利用 (Symmetry Utilization)

为了提升数据效率并确保学到的策略左右对称，作者采用了对称性技巧。

数据增强: 对于从仿真环境中获得的每一个状态转移 (transition) $T_t = (s_t, a_t, r_t, s_{t+1})$ ，都通过镜像操作（沿机器人的x-z平面翻转）生成一个对称的转移 T'_t。例如，左关节的位置、速度和动作会被替换为右关节的，转向速度的符号会取反。原始转移和对称转移都被存入经验池。
对称性损失: 在训练阶段，不仅对数据进行对称增强，还对网络本身施加对称性约束。对于一个从经验池中采样的样本 $T_t$ $T_{t}$ ，它和它的对称版本 T'_t 分别通过网络，得到两组输出：动作 $(a_t, a'_t)$ $(a_{t}, a_{t}^{'})$ 和价值 $(V_t, V'_t)$ $(V_{t}, V_{t}^{'})$ 。然后计算额外的对称性损失： $\begin{array} { r } { \mathcal { L } _ { s y m } ^ { a c t o r } = M S E ( a _ { t } , a _ { t } ^ { \prime } ) , } \\ { } \\ { \mathcal { L } _ { s y m } ^ { c r i t i c } = M S E ( V _ { t } , V _ { t } ^ { \prime } ) . } \end{array}$
- 公式解释: 这两个损失函数强制要求对于一对对称的输入，网络的输出也应该是对称的。这有助于网络学习到更加泛化和鲁棒的对称行为。

4.2.2. 硬件系统设计

HOMIE 的硬件驾驶舱由三部分组成，总成本控制在500美元。

1. 同构外骨骼 (Isomorphic Exoskeleton)

这是实现高精度、高速度手臂控制的关键。

设计: 针对 Unitree G1 和 Fourier GR-1 两种机器人，设计了相应的7自由度 (DoF) 同构外骨骼臂。每个手臂有3个肩关节，1个肘关节，3个腕关节，与机器人手臂的自由度完全对应。
运动学映射: 由于外骨骼与机器人手臂的运动学结构是等效的，可以直接将外骨骼伺服电机的读数 $p_t$ $p_{t}$ 映射为机器人的关节目标角度 $q_t$ $q_{t}$ ，完全无需进行IK计算。映射关系如下： $q _ { t } = \pm k _ { t } ( p _ { t } + \frac { n _ { t } \pi } { 2 } ) + \tau _ { t }$
- $p_t$ : 外骨骼伺服电机的角度读数。
- $k_t$ : 符号系数 ( $\pm 1$ )，用于调整旋转方向。
- $\frac{n_t \pi}{2}$ : 固定的安装偏移量，由于伺服盘的对称性，偏移总是90度的整数倍。
- $\tau_t$ : 额外的补偿角度。在实际使用中，作者设置 $k_t=1$ 和 $\tau_t=0$ ，表明硬件安装已经足够精确，只需校准一个固定的90度倍数偏移即可。

2. 运动感知手套 (Motion-sensing Gloves)

用于实现灵巧手的精细操作。

设计: 基于开源项目 Nepyone，作者设计了一款低成本手套。每个手指配备3组传感器，可捕捉指尖和指节的俯仰运动以及指节的偏航运动，总共提供高达15个自由度。
传感器: 使用霍尔效应传感器 (Hall effect sensors) 和小型钕磁铁。当关节转动时，磁铁随之转动，改变霍-尔传感器感应到的磁场强度，从而换算出关节角度。这种设计相比伺服电机方案更紧凑、成本更低。
通用性: 手套可以从外骨骼上拆卸，并且其15个自由度足以驱动市面上大多数灵巧手，通用性很强。

3. 脚踏板 (Foot Pedal)

用于下达下半身的移动指令，解放操作员的双手。

设计: 类似于汽车的踏板，使用高精度旋转电位器将踩踏深度映射为电信号。
功能: 系统包含三个小踏板，分别控制机器人的前进/后退速度 ( $v_x$ )、转向速度 ( $\omega_{yaw}$ ) 和 身体高度 ( $h_t$ )。此外，还有两个切换按钮，用于切换前进/后退模式和左转/右转模式。

下图（原文 Figure 6）展示了脚踏板的控制逻辑。

该图像是包含两个单元图(a)与(b)的示意图，展示了两种不同的手部外骨骼设备(Unitree G1与Fourier GR-1)及其机械结构细节，(b)部分重点展示了U2D2电路板、对接站、3D打印销及垂直滑动机构的设计。

5. 实验设置

5.1. 数据集

RL 训练: 没有使用传统的静态数据集。训练完全在 Isaac Gym 物理仿真环境中进行。这是一个高效的并行化仿真平台，允许同时运行数千个环境实例，极大地加速了RL的样本收集过程。
模仿学习 (IL) 数据收集: 为了验证HOMIE系统作为数据收集工具的有效性，作者设计了两个真实世界任务，并使用HOMIE收集了专家演示数据。
1. 下蹲拾取 (Squat Pick): 机器人需要下蹲，从低处的沙发上捡起一个番茄。
2. 拾取并放置 (Pick & Place): 机器人需要拾取一个番茄并放置到另一个位置。
- 数据规模: 每个任务收集了50个 episodes（回合）。
- 数据模态: 采集频率为10Hz，数据包括RGB图像、机器人状态（关节角度等 $q_t$ ）、上半身指令 ( $q_{upper}$ ) 和移动指令 ( $C_t$ )。

5.2. 评估指标

5.2.1. RL 策略评估指标

追踪线速度/角速度/高度误差 (Tracking Linear/Angular Velocity/Height Error):
- 概念定义: 该指标衡量机器人在执行任务时，其实际的线速度、角速度或高度与操作员通过踏板下达的期望值之间的差距。误差越小，说明策略的追踪控制能力越强。
- 数学公式: 通常使用均方误差 (Mean Squared Error, MSE) 或平均绝对误差 (Mean Absolute Error, MAE) 来计算。例如，线速度误差可以表示为： $\text{Error}_{v} = \frac{1}{T} \sum_{t=1}^{T} \| v_{\text{actual}, t} - v_{\text{command}, t} \|_2$
- 符号解释:
  - $T$ : 评估总时长。
  - $v_{\text{actual}, t}$ : 机器人_t_时刻的实际速度。
  - $v_{\text{command}, t}$ : _t_时刻的指令速度。
对称性损失 (Symmetry Loss):
- 概念定义: 该指标衡量策略网络对于对称输入的输出是否也对称。损失值越低，说明学到的策略在左右两侧的行为表现越一致，没有出现“瘸腿”等不对称现象。
- 数学公式: 正是方法论中提到的 $\mathcal{L}_{sym}^{actor}$ 和 $\mathcal{L}_{sym}^{critic}$ 。 $\mathcal { L } _ { s y m } = M S E ( \text{output}(s) , \text{output}(\text{flip}(s)) )$
- 符号解释:
  - $\text{output}(s)$ : 网络对输入 $s$ 的输出。
  - $\text{flip}(s)$ : 对输入 $s$ 进行对称翻转后的新输入。
存活时间 (Living Time):
- 概念定义: 在一次评估中，机器人在摔倒或触发其他终止条件之前，能够保持平衡并持续运行的时间。存活时间越长，表明策略的鲁棒性越好。

5.2.2. 模仿学习评估指标

成功率 (Success Rate, SR):
- 概念定义: 在多次重复执行同一任务时，机器人成功完成任务的次数占总尝试次数的比例。这是评估自主策略性能最直接、最核心的指标。
- 数学公式: $SR = \frac{\text{Number of Successful Trials}}{\text{Total Number of Trials}} \times 100\%$
- 符号解释:
  - $\text{Number of Successful Trials}$ : 成功完成任务的次数。
  - $\text{Total Number of Trials}$ : 总的测试次数。

5.3. 对比基线

实验主要分为三部分，每部分的对比基线不同：

RL框架消融实验:
- 目的: 验证作者提出的三项关键技术（姿态课程学习、高度追踪奖励、对称性利用）的有效性。
- 基线: 基线是作者自己方法的变体，通过“控制变量法”移除或替换某项技术。例如：
  - w/o cur: 不使用课程学习，直接在最大难度下训练。
  - rand: 使用一种简化的课程学习。
  - w/o knee: 不使用论文提出的膝关节奖励 $r_{knee}$ 。
  - hei: 简单地增大了基础高度追踪奖励的权重，而不是用 $r_{knee}$ 。
  - $w/ aug$ : 只使用对称数据增强，不使用对称损失。
  - $w/ sym$ : 只使用对称损失，不使用数据增强。
  - none: 两者都不使用。
遥操作硬件效率对比:
- 目的: 证明 HOMIE 硬件系统相比其他遥操作方案的优越性。
- 基线: OpenTelevision，一个代表性的基于 VR 设备的遥操作系统。
模仿学习验证:
- 目的: 证明 HOMIE 收集的数据可以成功用于训练自主策略。
- 基线: 此处没有设置对比基线，实验本身旨在“验证可行性”，即证明成功率大于零。

6. 实验结果与分析

6.1. 核心结果分析

6.1.1. 人形机器人全身控制 (RL 策略)

作者通过一系列消融实验，验证了其RL训练框架中各项设计的有效性。

下图（原文 Figure 7）展示了消融实验的详细结果，每行对应一项技术的消融研究。

该图像是示意图和实物图片，展示了使用霍尔传感器和磁铁实现的手指关节角度测量装置(a)及带有传感手套的机械手(b)，体现了论文中基于霍尔传感器的自由度手部控制技术。

图解分析:

第一行：上半身姿态课程学习 (Upper-body Pose Curriculum):
- 对比 ours (本文方法)、w/o cur (无课程) 和 rand (简化课程)。
- 结果: 在速度和高度的追踪误差上，ours 的收敛速度更快，最终误差也更低。这表明本文设计的平滑课程学习方法 (Eq. 2, 3) 能够让策略更稳定、更有效地学习适应上身姿态扰动。虽然 w/o cur 也能收敛，但最终性能不如 ours，说明从易到难的训练过程是有益的。rand 的效果最差，因为它在训练中途无法采样到高难度的姿态，导致学习不稳定。
第二行：高度追踪奖励 (Height Tracking Reward):
- 对比 ours (使用 $r_{knee}$ )、w/o knee (无膝关节奖励) 和 hei (增大基础高度奖励)。
- 结果: 在最关键的高度误差 (Height Error) 指标上，ours 的收敛速度明显快于其他两者。hei 方法虽然初期下降快，但由于过大的高度奖励影响了其他任务（如平衡、速度追踪）的学习，最终效果不佳，其他误差项也更大。这证明了 $r_{knee}$ 能够为策略提供更具体、更解耦的指导信号，高效地学习下蹲动作而不影响其他能力。
第三行：对称性利用 (Symmetry Utilization):
- 对比 ours (数据增强+对称损失)、 $w/ aug$ (仅数据增强)、 $w/ sym$ (仅对称损失) 和 none (全无)。
- 结果:
  - 从对称性损失 (symmetry loss) 图可以看出，不使用对称损失的 $w/ aug$ 和 none 方法，其损失值非常高，说明学出的策略存在明显的不对称。ours 和 $w/ sym$ 则能有效将该损失控制在低水平。
  - 从其他误差指标的收敛速度看，使用了数据增强的 ours 和 $w/ aug$ 明显快于未使用增强的 $w/ sym$ 和 none。
  - 结论: 数据增强显著提升了训练效率，而对称性损失则保证了策略的对称性，两者结合（即 ours）取得了最好的综合效果。

6.1.2. 跨机器人平台的泛化性

为了证明框架的通用性，作者在另一款形态差异很大的机器人 Fourier GR-1 上进行了训练。

以下是原文 Table II 的结果：

指标	Unitree G1	Fourier GR-1
线速度误差 (m/s)	0.194 (±0.003)	0.273 (±0.003)
角速度误差 (rad/s)	0.451 (±0.006)	0.540 (±0.002)
高度误差 (m)	0.022 (±0.019)	0.038 (±0.003)
对称性损失 (-)	0.019 (±0.017)	0.009 (±0.001)
存活时间 (s)	19.947 (±0.092)	19.960 (±0.035)

结果分析: 尽管 Fourier GR-1 更高更重，但训练出的策略依然表现出很强的鲁棒性（存活时间接近满分20秒），并且在各项追踪任务上都取得了良好的性能。这证明了 HOMIE 的RL框架具有很强的泛化能力，可以轻松迁移到不同的机器人平台。

6.1.3. 遥操作硬件性能

HOMIE 的硬件系统在性能和成本上都表现出色。

以下是原文 Table III 和 Table IV 的结果：

Table III: 硬件系统各组件指标

硬件	成本 (\$)	采集频率	采集精度
外骨骼	430	0.26 kHz (260 Hz)	~0.17° ( $360°/2^{11}$ )
手套	30 (每个)	0.3 kHz (300 Hz)	~0.08° (平均)
脚踏板	20	0.5 kHz (500 Hz)	~0.13° ( $270°/2^{11}$ )

Table IV: 与其他系统对机器人控制的输出频率对比

遥操作系统	所需硬件	手臂 (Hz)	手部 (Hz)
Telekinesis [20]	2x RTX 3080 Ti	16	24
AnyTeleop [10]	RTX 3090	125	111
OpenTeleVision [7]	M2 Chip	60	60
Ours (HOMIE)	无 GPU / SoC	263	293

结果分析:

成本: 整套系统成本约为 $430 + 30*2 + 20 = 510$ 美元，与摘要中宣称的 $500 美元相符，极具性价比。
频率与延迟: HOMIE 的输出频率高达 260-300 Hz，远超基于视觉（需要GPU进行姿态估计）和VR的系统。这是因为关节匹配方案避免了耗时的姿态估计和IK解算，实现了端到端的低延迟控制，从而带来更流畅、更跟手的操作体验。

6.1.4. 真实世界任务与效率

论文通过一系列真实世界任务展示了 HOMIE 系统的强大能力和高效率。

下图（原文 Figure 1）展示了丰富的移动操控任务。

该图像是多幅机器人操控示意图，展示了HOMIE系统中人形机器人在不同任务中的运动与操作姿态，包括走路、蹲下、拿取物品和与人类交互等场景，体现了系统的多自由度和高效控制能力。

图解:

(a) 从低处货架取物，(c) 在不同货架间搬运箱子，(g) 从地面捡起物体：展示了大范围的垂直工作空间和移动-操控的结合。
(b) 双人协作传递苹果：展示了系统的可扩展性。
(d) 推动一个60公斤重的人：展示了策略的鲁棒性和强大的力量输出。
(e) 拉开烤箱门：展示了需要全身协调的复杂任务。
(f) 双手传递物体，(h) 双手搬运重物：展示了双臂协调能力。
(i) 保持平衡：展示了策略在各种上身姿态下的稳定性。

效率对比: 作者对比了 HOMIE 和 VR 方案 OpenTelevision 在四个桌面精细操作任务上的完成时间。

Fig. 3: RL training framework of HOMIE. 该图像是图3，展示了HOMIE系统的强化学习训练框架，包含Isaac Gym中的机器人状态输入，Rollout阶段的多个视角观察，以及PPO算法中的Actor、Critic和Optimizer模块。

结果分析: 在所有四项任务中，HOMIE 的完成时间几乎只有 OpenTelevision 的一半。尤其是在需要精确定位和姿态的任务中（如开烤箱），差距更为明显。这强有力地证明了同构外骨骼在精度和效率上远优于基于视觉/VR的方案，因为后者在某些切向方向的姿态估计上存在天然缺陷。

6.1.5. 用户研究与模仿学习

用户学习曲线 (User Study): 下图（原文 Figure 12）显示，5名没有任何经验的新手用户在经过简短教学后，仅需5次尝试，完成任务的时间就能迅速接近专家的水平。这表明 HOMIE 的“驾驶舱”设计非常直观易学，具有很强的可用性。

该图像是图示，展示了多个机器人在Isaac Gym环境中训练时，持续变化上半身姿态下的行走和下蹲动作。机器人展示了从站立到下蹲以及不同动作的连续转换。
自主策略学习 (Imitation Learning): 作者使用 HOMIE 收集的数据训练了一个端到端的自主策略。

以下是原文 Table V 的结果：

任务下蹲拾取 (Squat Pick) 拾取并放置 (Pick & Place)

成功率 (%) 73.3 80.0

结果分析: 70%-80% 的成功率证明了 HOMIE 收集的数据是高质量且有效的，足以用来训练能够完成复杂全身移动操控任务的自主策略。这成功验证了论文提出的“数据飞轮”概念——通过高效遥操作来驱动自主学习。

下图（原文 Figure 15）展示了自主策略执行任务的场景。

该图像是多组折线图表，展示了不同训练策略下HOMIE系统在线速度误差、角速度误差、高度误差、对称损失和存活时间方面的性能随训练步数变化的趋势。图中对比了多种方法，反映了策略改进对机器人控制效果的影响。

任务	下蹲拾取 (Squat Pick)	拾取并放置 (Pick & Place)
成功率 (%)	73.3	80.0

7. 总结与思考

7.1. 结论总结

本文提出并实现了一个名为 HOMIE 的创新性人形机器人遥操作系统。它通过一个集成的“驾驶舱”——结合了RL驱动的下半身控制（脚踏板输入）、同构外骨骼手臂控制和运动感知手套控制——成功地解决了当前人形机器人领域“移动”与“操控”能力分离的核心痛点。

主要贡献与发现:

统一的全身控制框架: HOMIE 使单个操作员能直观、高效地控制人形机器人完成复杂的移动操控任务，显著提升了机器人的实用性。
无需运动先验的RL策略: 论文提出的包含姿态课程学习、高度追踪奖励和对称性利用的RL框架，能够训练出鲁棒、通用且能动态下蹲的移动策略，且完全摆脱了对昂贵MoCap数据的依赖。
高性价比、高性能的硬件: 开源的500美元硬件系统，凭借同构关节匹配的设计，在控制精度和响应速度上远超主流的视觉/VR方案，将任务效率提升了一倍。
验证数据飞轮: 实验证明，通过HOMIE收集的高质量演示数据可以成功用于训练自主策略，为实现机器人的规模化技能学习提供了一条切实可行的路径。

7.2. 局限性与未来工作

论文作者也坦诚地指出了当前工作的局限性，并展望了未来的研究方向：

地形适应性不足: 当前的策略虽然在平地上非常鲁棒，但仍无法保证在多样化地形（如楼梯、斜坡）上的可靠通行。
手套设计待优化: 15自由度的手套在控制拇指时，其运动学结构与人手不完全匹配，导致某些操作不够直观和流畅。
缺乏力反馈: 当前系统是纯粹的视觉和运动学遥操作，没有力反馈 (force feedback)。这在需要与环境进行精细力交互的任务中（如拧瓶盖、插拔）是一个重要短板。
缺少腰部控制: 尽管RL策略可以适应任意上身姿态，但硬件系统没有提供对机器人腰部关节的直接遥操作，限制了全身协调性的进一步发挥。

7.3. 个人启发与批判

这篇论文给我带来了深刻的启发，我认为它对人形机器人领域的发展具有重要的实践意义。

务实主义的胜利: 相比于追求完全端到端的自主通用大模型，HOMIE 采取了一种更为务实和工程化的“半自主”路线。它将问题分解，让RL去做它最擅长的事（保持动态平衡），让人去做最擅长的事（精细操作规划），并通过巧妙的硬件设计将两者无缝融合。这种“人机协同”的思路在当前技术阶段可能是让人形机器人“先用起来”的最快路径。
“驾驶舱”隐喻的精妙: 将遥操作设计成“驾驶舱”是一个非常精妙的隐喻。它自然地将操作员的手和脚的功能进行了解耦：脚负责移动（像开车一样），手负责操作。这不仅符合人类直觉，易于学习，还解决了手部被占用无法下达移动指令的矛盾。
开源与低成本的价值: 最大的亮点之一是其彻底的开源精神和仅500美元的成本。这极大地降低了全球研究者进入人形机器人遥操作领域的门槛，无疑将催生更多的相关研究和应用，加速整个生态的发展。这与动辄数万美元的商业MoCap设备或机器人系统形成了鲜明对比。
批判性思考:
1. 长期使用的疲劳问题: 尽管外骨骼是无源或轻量化的，但长时间穿戴进行重复性操作，操作员的生理和心理疲劳问题仍值得关注。这可能会影响数据收集的规模和质量。
2. 通用性与“同构”的矛盾: 同构设计是其高性能的关键，但也带来了一个潜在的泛化问题：每当要适配一款新的、运动学结构不同的机器人时，就需要重新设计和制造一套新的同构外骨骼。虽然作者通过可拆卸的手套提升了部分通用性，但手臂部分的定制化需求仍然存在。
3. 力反馈的缺失是硬伤: 正如作者所言，力反馈的缺失使得机器人难以完成需要感知接触力的“触觉”任务。未来的工作若能以低成本的方式集成力反馈（例如通过振动马达模拟接触感），将极大地扩展系统的应用场景。
  
  总而言之，HOMIE 是一项杰出的工程杰作。它没有提出颠覆性的新理论，但通过对现有技术的巧妙整合和创新性的工程设计，为通用人形机器人的应用落地提供了一个看得见、摸得着、用得起的强大工具。它所倡导的“数据飞轮”模式，为解决机器人领域长期面临的“数据饥饿”问题指明了一条充满希望的道路。

相似论文推荐

基于向量语义检索推荐的相关论文。

暂时没有找到相似论文。

HOMIE: Humanoid Loco-Manipulation with Isomorphic Exoskeleton Cockpit

TL;DR 精炼摘要

摘要

思维导图

论文精读

中文精读约 31 分钟读完 · 16,111 字

1. 论文基本信息

1.1. 标题

1.2. 作者

1.3. 发表期刊/会议

1.4. 发表年份

1.5. 摘要

1.6. 原文链接

2. 整体概括

2.1. 研究背景与动机

2.2. 核心贡献/主要发现

3. 预备知识与相关工作

3.1. 基础概念

3.2. 前人工作

3.2.1. 遥操作系统 (Teleoperation Systems)

3.2.2. 全身移动操控 (Whole-body Loco-Manipulation)

3.3. 差异化分析

4. 方法论

4.1. 方法原理

4.2. 核心方法详解 (逐层深入)

4.2.1. 人形机器人全身控制 (RL 策略 πlocoπ_locoπl​oco)

4.2.2. 硬件系统设计

5. 实验设置

5.1. 数据集

5.2. 评估指标

5.2.1. RL 策略评估指标

5.2.2. 模仿学习评估指标

5.3. 对比基线

6. 实验结果与分析

6.1. 核心结果分析

6.1.1. 人形机器人全身控制 (RL 策略)

6.1.2. 跨机器人平台的泛化性

6.1.3. 遥操作硬件性能

6.1.4. 真实世界任务与效率

6.1.5. 用户研究与模仿学习

7. 总结与思考

7.1. 结论总结

7.2. 局限性与未来工作

7.3. 个人启发与批判

相似论文推荐

4.2.1. 人形机器人全身控制 (RL 策略 $π_loco$ )