AiPaper
论文状态:已完成

UMI on Legs: Making Manipulation Policies Mobile with Manipulation-Centric Whole-body Controllers

发表:2024/07/15
原文链接PDF 下载
价格:0.10
价格:0.10
已有 6 人读过
本分析由 AI 生成,可能不完全准确,请以原文为准。

TL;DR 精炼摘要

UMI-on-Legs框架结合手持抓取器数据采集与仿真全身控制器训练,通过任务坐标系末端执行器轨迹接口,实现跨实体零样本部署。该方法在多种动态操控任务中成功率超70%,为四足机器人动态操控技能学习提供可扩展方案。

摘要

We introduce UMI-on-Legs, a new framework that combines real-world and simulation data for quadruped manipulation systems. We scale task-centric data collection in the real world using a hand-held gripper (UMI), providing a cheap way to demonstrate task-relevant manipulation skills without a robot. Simultaneously, we scale robot-centric data in simulation by training whole-body controller for task-tracking without task simulation setups. The interface between these two policies is end-effector trajectories in the task frame, inferred by the manipulation policy and passed to the whole-body controller for tracking. We evaluate UMI-on-Legs on prehensile, non-prehensile, and dynamic manipulation tasks, and report over 70% success rate on all tasks. Lastly, we demonstrate the zero-shot cross-embodiment deployment of a pre-trained manipulation policy checkpoint from prior work, originally intended for a fixed-base robot arm, on our quadruped system. We believe this framework provides a scalable path towards learning expressive manipulation skills on dynamic robot embodiments. Please checkout our website for robot videos, code, and data: https://umi-on-legs.github.io

思维导图

论文精读

中文精读

1. 论文基本信息

1.1. 标题

UMI on Legs: Making Manipulation Policies Mobile with Manipulation-Centric Whole-body Controllers

1.2. 作者

  • Huy Ha (斯坦福大学, 哥伦比亚大学)
  • Yihuai Gao (哥伦比亚大学)
  • Zipeng Fu (哥伦比亚大学)
  • Jie Tan (谷歌 DeepMind)
  • Shuran Song (斯坦福大学, 哥伦比亚大学)

1.3. 发表期刊/会议

该论文发布于 arXiv 预印本平台。文中引用了多个在 Robotics: Science and Systems (RSS) 会议发表的工作,表明其研究方向与机器人学顶级会议相关。

1.4. 发表年份

2024年 (具体发布日期为 2024-07-14)

1.5. 摘要

本文介绍了 UMI-on-Legs 框架,它结合了真实世界和仿真数据,用于四足机器人操控系统。该框架通过使用 手持抓取器 (UMI, Universal Manipulation Interface) 在真实世界中进行任务中心化数据收集,提供了一种无需真实机器人即可演示相关操控技能的低成本方式。同时,通过在仿真中训练 全身控制器 (Whole-Body Controller, WBC) 进行任务追踪,且无需特定任务仿真设置,实现了机器人中心化数据的扩展。这两个策略之间的接口是任务坐标系中的末端执行器轨迹 (end-effector trajectories in the task frame),由操控策略推断并传递给全身控制器进行追踪。UMI-on-Legs 在抓取式、非抓取式和动态操控任务上进行了评估,所有任务的成功率均超过70%。此外,本文还展示了将先前工作中为固定基座机械臂设计的预训练操控策略,零样本 (zero-shot) 跨肢体部署到四足系统上的能力。作者认为该框架为在动态机器人实体上学习富有表现力的操控技能提供了一条可扩展的路径。

1.6. 原文链接

2. 整体概括

2.1. 研究背景与动机

核心问题: 当前机器人学习方法在处理复杂操作任务时,面临着数据收集的瓶颈。具体来说:

  1. 真实世界数据收集的挑战: 机器人遥操作 (teleoperation) 虽然能直接演示任务,但受限于机器人硬件成本、安全问题,且数据往往是机器人特定的,难以泛化。

  2. 仿真数据收集的挑战: 仿真环境虽然安全且可无限重置,但在任务多样性方面存在困难。精确模拟各种物体及其动力学,以及定义所有任务和相关奖励函数,仍然是重大挑战。

  3. 现有移动操作系统的局限: 大多数现有的移动操作系统采用身体速度指令与单步身体坐标系末端执行器目标作为接口,这种方式是肢体特定 (embodiment-specific) 的,需要在数据收集时依赖机器人硬件,且不足以表示复杂、动态的操作轨迹。

    为什么这个问题在当前领域是重要的? 随着机器人技术的发展,移动操作(特别是四足机器人在非结构化环境中的操作)具有巨大的应用潜力。克服数据收集和泛化性问题,对于将机器人从实验室推广到真实世界至关重要。

现有研究存在的具体挑战或空白 (Gap):

  • 缺乏一种能同时利用真实世界丰富任务数据和仿真环境高效控制器训练的统一框架。
  • 现有的接口设计未能有效解耦操作任务与机器人肢体特性,导致数据收集成本高昂且难以泛化。
  • 难以在移动平台上实现复杂、动态的操作技能,尤其是那些需要全身协调的技能。

这篇论文的切入点或创新思路是什么? 本文提出 UMI-on-Legs 框架,旨在解决上述挑战,其核心创新点在于:

  1. 解耦数据收集: 将任务中心化数据收集(使用手持抓取器 UMI)与机器人中心化控制器训练(在仿真中进行)解耦。
  2. 通用接口设计: 采用任务坐标系中的末端执行器轨迹作为高层操作策略和低层全身控制器之间的接口,这种接口既简单直观,又富有表达力,且肢体无关 (embodiment-agnostic)
  3. 强化学习驱动的全身控制: 在大规模并行仿真中训练全身控制器来追踪这些轨迹,避免了复杂的任务仿真设置。
  4. 低成本里程计: 提出基于 iPhone ARKit 的实时、鲁棒的里程计解决方案,便于野外部署。

2.2. 核心贡献/主要发现

本文的主要贡献体现在以下三个方面:

  1. 提出 UMI-on-Legs 框架:

    • 该框架结合了真实世界中通过手持抓取器 (UMI) 收集的任务中心化演示数据,以及在仿真中训练的机器人中心化全身控制器。
    • 它提供了一种可扩展的途径,用于在动态机器人实体上学习富有表现力的操作技能,实现了无需机器人即可收集真实世界数据,并将这些技能迁移到不同移动机器人平台的能力。
  2. 设计操作中心全身控制器 (Manipulation-Centric Whole-Body Controller, WBC) 与末端执行器轨迹接口:

    • 提出使用任务坐标系中的末端执行器轨迹作为高层操作策略和低层全身控制器之间的通用接口。
    • 这个简单而富有表达力的接口,不仅允许零样本 (zero-shot) 跨肢体部署现有的操作策略(例如,将为固定基座机械臂训练的策略部署到四足机器人上),还能表示复杂的动态操作技能(如投掷)。
    • 该接口还支持异步、多频率执行,使得低频率的操作策略和高频率的低层控制器能够协同工作。
  3. 实现实时、可访问的野外部署系统:

    • 开发了一个基于 iPhone ARKit 的实时、鲁棒、可访问的里程计解决方案,解决了移动操作系统中任务空间追踪的常见瓶颈,使得系统能够在野外环境中自主运行。

关键结论或发现:

  • UMI-on-Legs 系统在抓取式 (prehensile)、非抓取式 (non-prehensile) 和动态 (dynamic) 操作任务(如杯子整理、壶铃推动、动态投掷)中表现出色,所有任务的成功率均超过70%。
  • 任务坐标系下的轨迹追踪对于全身控制器的性能至关重要,它能有效补偿基座扰动并实现精确操作。
  • 通过这种接口设计,可以成功地将为固定基座机械臂训练的预训练操作策略,零样本地迁移到四足机器人上,实现了跨肢体泛化。
  • iPhone ARKit 提供的低成本、实时里程计能够有效支持野外移动操作任务,尽管仍存在延迟问题。

3. 预备知识与相关工作

3.1. 基础概念

为了更好地理解本文提出的 UMI-on-Legs 框架,需要对以下基础概念有清晰的认识:

  • 四足机器人 (Quadruped Robot): 具有四条腿的机器人,常用于在复杂地形中移动和执行任务。其特点是移动灵活、越障能力强,但平衡和全身协调控制难度较大。本文使用的是 Unitree Go2 四足机器人。
  • 机械臂 (Robot Arm): 具有多个关节的机械结构,用于抓取、放置、推动等操作任务。本文使用的是 ARX5 机械臂,安装在四足机器人背部。
  • 末端执行器 (End-Effector): 机械臂末端与环境直接交互的工具,如夹爪 (gripper) 或工具头。它是机器人执行操作任务的关键部件。
  • 全身控制 (Whole-Body Control, WBC): 一种高级机器人控制方法,旨在同时协调机器人所有关节(包括腿部和机械臂)的运动,以实现复杂的任务目标,如保持平衡、末端执行器轨迹追踪、力控制等。这比单独控制腿部或手臂更具挑战性,但能实现更灵活、鲁棒的动作。
  • 强化学习 (Reinforcement Learning, RL): 一种机器学习范式,智能体 (agent) 通过与环境 (environment) 交互,根据获得的奖励 (reward) 信号学习如何做出最优决策。它不需要显式编程,而是通过试错来发现最佳策略 (policy)。在机器人控制中,RL 常用于学习复杂的运动技能。
  • 行为克隆 (Behavior Cloning, BC): 一种模仿学习方法,通过监督学习 (supervised learning) 直接从专家演示数据中学习一个映射,将观测映射到动作。它的目标是复制专家的行为,而不是通过奖励信号自行探索。
  • 扩散策略 (Diffusion Policy): 本文采用的一种基于扩散模型 (Diffusion Model) 的行为克隆方法。扩散模型是一种生成模型,最初用于图像生成,通过逐步去除噪声来生成高质量数据。扩散策略将其应用于动作序列的生成,能够从不确定或多模态的演示中学习出鲁棒的动作序列。
  • 模拟到现实迁移 (Sim2Real Transfer): 指在仿真环境中训练得到的机器人控制策略,能够成功部署到真实物理机器人上执行任务。由于仿真和现实之间存在“仿真-现实差距 (sim-to-real gap)”,这通常是一个具有挑战性的问题,需要通过领域随机化 (domain randomization) 或领域适应 (domain adaptation) 等技术来弥合。
  • 里程计 (Odometry): 机器人通过感知自身运动(如轮编码器、惯性测量单元 IMU、视觉传感器等)来连续估计自身位置和姿态的技术。它通常会随着时间积累误差。本文使用了基于 iPhone ARKit 的视觉惯性里程计 (Visual-Inertial Odometry, VIO)。
  • 任务坐标系 (Task-frame) vs. 身体坐标系 (Body-frame):
    • 身体坐标系 (Body-frame): 以机器人本体(通常是基座)为原点建立的坐标系。在这种坐标系下,末端执行器目标位置是相对于机器人基座定义的。当机器人基座移动时,在身体坐标系下固定的目标点在世界坐标系下会随之移动。
    • 任务坐标系 (Task-frame): 通常指世界坐标系或任务相关的固定坐标系。在这种坐标系下,末端执行器目标位置是相对于一个固定点或任务目标定义的。无论机器人基座如何移动,任务坐标系下的目标点保持不变。本文强调在任务坐标系下追踪轨迹的重要性,因为它能更好地补偿机器人基座的扰动,使得操作更稳定和精确。
  • PD 控制器 (Proportional-Derivative Controller): 一种常见的反馈控制器,根据当前误差(P 项)和误差的变化率(D 项)来计算控制输出,常用于机器人的关节位置/速度控制,以跟踪目标值。

3.2. 前人工作

本文在多个研究方向上借鉴和改进了前人工作:

  • 移动抓取系统 (Mobile Pick-and-Place Systems):

    • 一些工作已展示了在仿真中训练的四足抓取机器人(如 [12, 16])可以直接部署到现实世界,通常借助物体检测/分割模型进行视觉域迁移。
    • 对于轮式机器人系统,通过精心设计的抓取原语 (manipulation primitives) [17-21],已展示了更具挑战性的移动操作技能。这些系统利用基础模型 [23-26] 进行感知和规划 [17, 20, 22],或是在线学习 [18, 19]、轨迹优化 [21]。
    • MobileALOHA [27] 提出了一个轮式双臂平台用于演示收集,以缓解手动设计观察和动作空间的繁琐。
    • 差异化: 这些系统通常假设准静态操作和/或重型基座以及低重心,而本文的四足机器人系统面临动态操作的挑战,且身体质量较轻。
  • 基于学习的机器人特定遥操作控制器 (Learning-based Controllers for Robot-specific Teleoperation):

    • 强化学习 (RL) 已成为解决腿足机器人复杂控制问题的主要范式,从学习动态运动技能 [6, 28-30] 到操作技能 [31-33],通常结合大规模并行仿真器 [3, 7]。
    • 为了部署这些控制器,存在大量关于域适应 (domain adaptation) [7-9] 的工作,以适应不同的肢体和环境条件。
    • 针对四足移动操作,前人也探索了训练全身控制器 [8, 10, 11]。
    • DeepWBC [8] 等工作展示了全身控制的能力,但这些系统通常需要人类用户进行操作(遥操作、演示回放),且依赖于机器人特定的命令(如身体速度命令),或在数据收集时需要机器人实体在场,导致实际收集足够数据进行有效操作技能学习的成本很高。
    • He et al. [36] 与本文同期且类似的工作,也结合了行为克隆策略和 RL 控制器与任务坐标系轨迹接口,但他们使用控制器启发式地在仿真中生成机器人特定演示,其方法在可扩展性和可用性/表达性方面受限(演示是机器人/控制器特定的,任务特定的启发式演示生成)。此外,其系统设计受限于外部摄像机和 AprilTag 追踪的系留设置。
    • 差异化: 本文通过引入肢体无关的 UMI 数据收集和任务坐标系轨迹接口,克服了对机器人特定命令和机器人实体在场的需求,提高了数据收集的可扩展性和泛化性。
  • 跨肢体操作 (Cross-embodiment Manipulation):

    • 行为克隆 (Behavior Cloning) 领域在策略架构 [2, 37-41]、传感器放置 [37]、动作空间 [38]、数据质量 [37, 42]、数据量 [43-47] 和数据成本 [1, 27, 38, 48, 49] 方面进行了大量创新,以实现更高性能、更通用和更鲁棒的操作。
    • 主流设计包括使用预训练的视觉编码器 [1, 25, 43]、基于扩散的动作解码过程 [1, 2, 27, 41, 43, 47, 49] 和末端执行器序列预测 [1, 38, 41, 43, 47, 49]。
    • UMI [1] 提出通过手持抓取器收集操作演示,实现了在不使用真实机器人的情况下进行任务教学。
    • Yang et al. 和 Chi et al. 通过仅使用以自我为中心的/腕部安装的视觉观测,展示了零样本跨肢体视觉-运动策略迁移。然而,它们通过预测目标姿态序列,假设低层控制器能够精确追踪这些目标。
    • 差异化: 本文在此基础上,为移动操作系统提供了一个能够处理动态平衡和全身协调的低层控制器(WBC),从而更好地支持高层操作策略预测的轨迹,克服了“假设完美低层控制器”的限制。

3.3. 技术演进

该领域的技术演进大致经历了以下几个阶段:

  1. 固定基座机械臂的精确操作: 早期研究主要关注固定基座机械臂在受控环境中的精确抓取和放置。
  2. 腿足机器人的运动控制: 随着腿足机器人硬件的成熟,研究转向其复杂的运动控制,如动态行走、奔跑和越障,多通过强化学习在仿真中进行训练并迁移到真实世界。
  3. 移动操作的初步探索: 将机械臂安装在移动平台上,结合运动控制和操作控制,但通常限于轮式平台或准静态任务。
  4. 全身控制的兴起: 针对腿足机器人,开始探索全身控制,以协调腿部和手臂实现更复杂、更动态的操作,但仍面临数据收集和泛化性挑战。
  5. 解耦与泛化: 本文的工作正处于这一阶段,旨在通过解耦数据收集、设计通用接口和结合多模态学习,实现操作技能的广泛泛化,特别是从人类演示到多种机器人肢体的迁移。

3.4. 差异化分析

本文的 UMI-on-Legs 方法与相关工作的主要区别和创新点在于:

  • 数据收集范式: 大多数现有工作依赖于机器人特定数据收集或在仿真中设置复杂的任务场景。本文则通过 UMI (Universal Manipulation Interface) 使用手持抓取器在真实世界中收集任务演示,这种方式是肢体无关 (embodiment-agnostic)低成本的,避免了机器人硬件的限制和高昂的收集成本。
  • 策略接口设计:
    • 大多数腿足操作系统使用身体坐标系下的单步末端执行器目标或身体速度指令作为接口 [8, 10-12],这限制了复杂动态操作的表达,并且是机器人特定的。
    • 本文创新性地采用任务坐标系中的末端执行器轨迹作为高层操作策略和低层全身控制器之间的接口。这个接口不仅能提供未来动作的预览信息 (preview information),使 WBC 能够预判并协调全身动作(例如,为投掷任务做准备),还能实现精确且稳定的任务坐标系追踪,补偿基座扰动 (如图4所示)。
  • 全身控制器训练:
    • 本文的 全身控制器 (WBC) 完全在大规模并行仿真 (massively parallelized simulation) 中训练,专注于追踪末端执行器轨迹,而无需设置复杂的任务仿真环境或设计任务奖励。这大大简化了仿真训练过程,提高了可扩展性。
    • 与 He et al. [36] 的工作相比,本文的演示数据是机器人无关的(通过 UMI 收集),而非启发式地在仿真中生成机器人特定演示,因此更具通用性和可扩展性。
  • 实际部署能力: 通过集成基于 iPhone ARKit 的实时里程计,解决了传统四足操作系统依赖外部昂贵传感器(如运动捕捉系统或 AprilTag 追踪 [8, 11, 36])的局限,使得系统能够在野外 (in-the-wild) 环境中实现完全自主的移动操作。
  • 零样本跨肢体泛化: 成功展示了将为固定基座工业机械臂训练的预训练操作策略,零样本 (zero-shot) 部署到四足机器人上的能力,这在传统方法中是极具挑战的。

4. 方法论

本文提出的 UMI-on-Legs 框架结合了高层操作策略和低层全身控制器,旨在实现四足机器人在动态环境中的复杂操作。其核心在于利用任务坐标系中的末端执行器轨迹作为策略间的接口。

4.1. 方法原理

UMI-on-Legs 的核心思想是将复杂的操作任务分解为两个主要部分,并通过一个精心设计的接口将它们连接起来:

  1. 高层操作策略 (Manipulation Policy): 负责根据视觉输入理解任务意图,并规划出末端执行器在任务空间中的未来轨迹。这个策略通过行为克隆 (Behavior Cloning) 从人类演示中学习,并且与机器人肢体无关 (embodiment-agnostic),只关注末端执行器的动作。

  2. 低层全身控制器 (Whole-Body Controller, WBC): 负责接收高层策略提供的末端执行器轨迹,并将其转化为机器人腿部和机械臂的关节运动指令,以精确追踪该轨迹,同时保持机器人的平衡和稳定。这个控制器通过强化学习 (Reinforcement Learning) 在仿真中训练,专门处理机器人自身的动力学和全身协调。

    这两个部分通过任务坐标系中的末端执行器轨迹作为接口进行通信。这种设计具有以下优点:

  • 直观的演示: 人类操作员可以使用手持设备(如 UMI)直接演示末端执行器的轨迹,而无需关心机器人具体的关节运动。
  • 高层意图预览: WBC 能够获得未来轨迹的预览信息,从而提前预判并协调全身运动,例如在高速投掷前进行身体支撑。
  • 精确稳定的任务空间操作: WBC 在任务坐标系中追踪轨迹,能够有效补偿机器人基座的扰动,确保末端执行器在任务空间中的精确性和稳定性。
  • 异步多频率执行: 高层操作策略可以以较低频率(如 1-5Hz)生成轨迹,而低层 WBC 可以以较高频率(如 50Hz)执行控制,以应对传感器和推理延迟的差异。
  • 兼容性与可扩展性: 该接口兼容任何基于轨迹的操作策略,为将现有的“桌面”操作技能迁移到“移动”操作提供了途径。

4.2. 方法步骤与流程

整个系统的部署流程如下:

  1. 任务中心化人类演示 (Task-Centric Human Demonstrations):

    • 在真实世界中,人类操作员使用 UMI (Universal Manipulation Interface),这是一个手持抓取器设备,直接演示任务相关的操作技能。例如,抓取杯子、推动物体、进行投掷等。
    • UMI 记录的是末端执行器在相机帧下的姿态轨迹以及相应的视觉观测。
    • 这一阶段不涉及真实的机器人硬件,降低了数据收集的成本和复杂性。
  2. 高层操作策略训练 (Manipulation Policy Training):

    • 使用收集到的 UMI 演示数据,训练一个基于 扩散策略 (Diffusion Policy) 的高层操作策略。
    • 该策略以腕部安装摄像头 (wrist-mounted camera) 的 RGB 图像作为输入。
    • 策略的输出是相机帧 (camera frame) 下的末端执行器未来姿态序列(即轨迹)。
    • 本文使用 U-Net 架构、DDIM 调度器和预训练的 CLIP 视觉编码器,并使用较长的动作预测范围 (action horizon) (4步) 来为低层控制器提供更多未来信息。
  3. 低层全身控制器训练 (Whole-Body Controller, WBC Training):

    • 大规模并行仿真 (massively parallelized simulation) 环境中,独立训练一个全身控制器。
    • 目标: 该 WBC 学习追踪由高层操作策略提供的任务坐标系 (task-frame) 中的末端执行器轨迹。
    • 训练优势: 这种训练方式不需要设置复杂的任务仿真环境,也无需设计任务相关的奖励(如物体动力学、碰撞检测等),只需关注轨迹追踪本身。这大大简化了仿真训练的难度。
    • WBC 的输入包含机器人关节位置和速度、基座姿态和角速度、上一个动作以及末端执行器轨迹。
    • WBC 的输出是机器人腿部 (12 自由度, DOF) 和机械臂 (6 DOF) 的目标关节位置。
  4. 系统集成与部署 (System Integration and Deployment):

    • 将训练好的操作策略和全身控制器部署到真实的四足机器人 (Unitree Go2)机械臂 (ARX5) 系统上。

    • 实时里程计 (Real-time Odometry): 机器人基座上安装一部 iPhone,利用其 ARKit (Apple's ARKit) 技术提供实时的视觉惯性里程计 (VIO) 数据,用于估计机器人在任务空间中的姿态。这解决了传统系统依赖外部昂贵运动捕捉设备的问题。

    • 异步执行: 操作策略以较低频率 (1-5Hz) 推断末端执行器轨迹,而全身控制器以较高频率 (50Hz) 将轨迹转化为关节指令,PD 控制器负责追踪这些关节指令。

    • 在部署过程中,将操作策略推断出的相机帧轨迹,通过实时的里程计信息转换到任务坐标系,然后传递给 WBC。

      下图(原文 Figure 3)展示了整个方法的概览:

      Fig 3: Method Overview. Our system takes as input RGB images from a GoPro and infers a camera-frame end-effector trajectory using a diffusion policy (a), trained using real-world UMI demonstrations.… 该图像是示意图,展示了论文中图3的方法概览。系统输入GoPro拍摄的RGB图像,通过频率为2Hz的扩散策略推断相机帧末端执行器轨迹(a)。轨迹被转换到任务空间,作为整体运动控制器的接口(b)。控制器通过多层感知机(MLP)以50Hz输出关节动作指令(c)。

4.3. 数学公式与关键细节

4.3.1. 操作策略 (Manipulation Policy)

  • 架构: 遵循 Chi et al. 的默认配置,使用基于 U-Net [50] 架构的扩散策略 (Diffusion Policy) [2]。
  • 调度器 (Scheduler): 采用 DDIM 调度器 [51]。
  • 视觉编码器 (Vision Encoder): 使用预训练的 CLIP 视觉编码器 [25]。
  • 动作预测范围 (Action Horizon): 设定为 4 步,为低层控制器提供更多未来信息。
  • 训练数据: 杯子整理任务直接使用 UMI [1] 的预训练模型。推动和投掷任务则收集数据并从头训练扩散策略。

4.3.2. 全身控制器 (Whole-Body Controller, WBC)

WBC 的训练是本文的核心贡献之一,它通过强化学习在仿真中学习追踪末端执行器轨迹。

观察空间 (Observation Space)

WBC 的观察空间包括:

  • 机器人 18 个关节的位置和速度。
  • 基座的姿态 (orientation) 和角速度 (angular velocity)。
  • 上一个动作 (previous action)。
  • 由操作策略推断的末端执行器轨迹 (end-effector trajectory)
    • 末端执行器姿态用 3D 向量表示位置,6D 旋转表示旋转 [52]。
    • 轨迹采样方式:密集采样当前时间点前后 -60ms 到 60ms 范围内的目标姿态,间隔 20ms,这为控制器提供了当前速度和加速度信息。此外,还包括未来 1000ms 的目标姿态,帮助控制器在必要时准备迈步。

奖励函数 (Rewards)

核心任务奖励旨在最小化末端执行器与目标姿态之间的位置误差和姿态误差。

  • 统一奖励函数: Rpose=exp((ϵposσpos+ϵornσorn)) R_{\mathrm{pose}} = \exp \left(-\left(\frac{\epsilon_{\mathrm{pos}}}{\sigma_{\mathrm{pos}}} + \frac{\epsilon_{\mathrm{orn}}}{\sigma_{\mathrm{orn}}}\right)\right)

    • 符号解释:
      • RposeR_{\mathrm{pose}}: 姿态追踪奖励。
      • ϵpos\epsilon_{\mathrm{pos}}: 末端执行器实际位置与目标位置之间的欧几里得距离误差。
      • ϵorn\epsilon_{\mathrm{orn}}: 末端执行器实际姿态与目标姿态之间的角度误差。
      • σpos\sigma_{\mathrm{pos}}: 位置误差的尺度参数 (scaling parameter)。
      • σorn\sigma_{\mathrm{orn}}: 姿态误差的尺度参数 (scaling parameter)。
    • 设计优点: 这种位置和姿态误差纠缠在一起的奖励形式比分开奖励更能促使策略同时实现高精度。
    • σ\sigma 课程学习 (Curriculum Learning): 在训练过程中,σpos\sigma_{\mathrm{pos}}σorn\sigma_{\mathrm{orn}} 会随着训练的进行而减小。这使得训练初期有更大的探索空间,后期则强制策略实现高精度。
      • σpos\sigma_{\mathrm{pos}} 的设置:当位置误差小于 [100, 1.0, 0.8, 0.5, 0.4, 0.2, 0.1] 时,分别设置为 [2, 0.1, 0.5, 0.1, 0.05, 0.01, 0.005]
      • σorn\sigma_{\mathrm{orn}} 的设置:当姿态误差小于 [100.0, 1.0, 0.8, 0.6, 0.2] 时,分别设置为 [8.0, 4.0, 2.0, 1.0, 0.5]
  • 额外正则化和塑形项 (Regularization and Shaping Terms): 除了核心姿态追踪奖励外,还遵循 [79, 12] 的惯例,引入了多种正则化项来提高控制器的稳定性和安全性(详见附录):

    • 关节限制 (Joint Limit): 惩罚关节超出其运动范围。

    • 关节加速度 (Joint Acceleration): 惩罚过大的关节加速度,使运动更平滑。

    • 关节扭矩 (Joint Torque): 惩罚过大的关节扭矩,降低能耗和电机过热风险。

    • 根部高度 (Root Height): 维持机器人基座在合理的高度范围。

    • 碰撞 (Collision): 惩罚机器人非预期部分与环境的碰撞。

    • 动作速率 (Action Rate): 惩罚动作指令变化过快,减少抖动。

    • 身体-末端执行器对齐 (Body-EE Alignment): 限制机械臂某些关节(如 Yaw 角)保持与身体对齐。

    • 质量均匀分布 (Even Mass Distribution): 惩罚四只脚受力不均,减少电机过热。

    • 脚部位于髋部下方 (Feet Under Hips): 鼓励脚部保持在相应髋关节的下方,提高站立稳定性。

      以下是原文附录中列出的奖励项及其权重:

      Name Weight
      Joint Limit -10
      Joint Acceleration -2.5e-7
      Joint Torque -1e-4
      Root Height Collision -1
      Action Rate -1 -0.01
      Body-EE Alignment -1
      Even Mass Distribution -1
      Feet Under Hips -1
      Pose Reaching 4

策略网络架构 (Policy Network Architecture)

  • 训练一个多层感知机 (MLP) 控制器,将观察映射到腿部 (12 DOF) 和机械臂 (6 DOF) 的目标关节位置。
  • 该控制器的一次前向传播耗时约 0.06ms,在部署时以 50Hz 运行。
  • 目标关节位置由独立的 PD 控制器 (PD controller) 负责追踪。

4.3.3. 系统集成与 Sim2Real 迁移

  • 机器人系统设置:

    • 包含一个 12 DOF 的 Unitree Go2 四足机器人和 6 DOF 的 ARX5 机械臂,均由 Go2 电池供电。
    • ARX5 机械臂定制了 Finray 抓取器和 GoPro 摄像头,以匹配 UMI 抓取器 [1]。
    • 全身控制器运行在 Go2 的 Jetson 计算单元上,而扩散策略的推理则通过互联网连接在单独的桌面 RTX 4090 上运行。
    • iPhone 用于姿态估计,通过以太网连接到 Jetson。
  • Sim2Real 迁移 (Sim2Real Transfer): 为弥合仿真与现实之间的差距,采用了以下技术:

    • 领域随机化 (Domain Randomization):

      • 训练期间对机器人施加随机的推力,以提高鲁棒性。
      • 随机化关节摩擦、阻尼、接触摩擦、身体和手臂质量及其质心。
    • 控制延迟建模: 建模训练期间的控制延迟至关重要。

    • 里程计噪声建模: 为了应对里程计系统的噪声,每隔 20 秒随机传送机器人,以模拟不确定性。

      以下是原文附录中列出的领域随机化超参数:

      Hyperparameters Values
      Init XY Position [-0.1m,0.1m]
      Init Z Orientation [-0.05rad,0.05rad]
      Joint Damping [0.01,0.5]
      Joint Friction [0.0,0.05]
      Geometry Friction [0.1,8.0]
      Mass Randomization [-0.25,0.25]
      Center of Mass Randomization [-0.1m,0.1m]
  • 可访问的实时里程计 (Accessible Real-time Odometry):

    • 使用安装在机器人基座上的 iPhone,利用 Apple ARKit 提供实时姿态估计。
    • 选择后部安装位置,避免增加机械臂重量、防止碰撞,并最大程度减少运动模糊和视觉遮挡。
    • 这种方案相比于传统的运动捕捉系统 [31] 或 AprilTag [8, 11, 36] 追踪,具有自包含、紧凑的特点,且仅使用普及的消费电子设备。

5. 实验设置

本文通过一系列仿真和真实世界实验来验证 UMI-on-Legs 框架的设计决策。

5.1. 数据集

本文在三个主要任务上评估了 UMI-on-Legs 框架:

  1. 动态投掷 (Dynamic Tossing):

    • 任务描述: 机器人需要将预先抓取的球投掷到一个 90cm 外的目标箱中。如果球落在箱子中心 40cm 范围内则视为成功。
    • 数据收集: 收集了 500 次人类演示,用于训练动态投掷的扩散策略。
    • 特点: 该任务需要高动态的全身协调。
  2. 壶铃推动 (Kettlebell Pushing):

    • 任务描述: 机器人需要推动一个 10 磅(约 4.5 公斤)的壶铃,使其滑入目标区域。每次实验中,壶铃距离目标的距离在 [80cm, 120cm] 之间随机变化。
    • 数据收集: 收集了 25 次人类演示,用于训练壶铃推动的扩散策略。
    • 特点: 该任务用于测试控制器处理意外和未见外部动力学的鲁棒性。
  3. 野外杯子整理 (In-the-wild Cup Rearrangement):

    • 任务描述: 将一个意式咖啡杯放置在其托盘上,杯柄指向机器人左侧。杯子和托盘在不同实验中随机放置在 20cm 半径范围内,杯子方向随机。如果杯子直立在托盘上,且杯柄方向在正左方 ±15° 范围内,则任务成功。
    • 数据利用: 直接使用了来自先前工作 UMI [1] 的预训练杯子整理策略模型(包含 1400 次演示)。未为此任务收集额外数据,旨在测试零样本 (zero-shot) 跨肢体部署能力。
    • 特点: 该任务需要高精度 6 自由度 (DOF) 末端执行器运动,且在未知的野外环境中进行,旨在测试跨肢体泛化和精确操作能力。

5.2. 评估指标

本文的评估指标分为仿真和真实世界两类,以全面衡量系统的性能。

5.2.1. 仿真评估指标

在仿真环境中,对 500 个 episode 进行平均,报告以下指标:

  1. 平均位置误差 (Average Position Error, cm↓):

    • 概念定义: 该指标量化了末端执行器的实际位置与其目标位置之间的平均空间距离。它关注机器人操作的精确性,值越小表示末端执行器越能准确抵达目标点。
    • 数学公式: ϵpos=1Tt=1Tptpt2 \epsilon_{\mathrm{pos}} = \frac{1}{T} \sum_{t=1}^{T} \| \mathbf{p}_t - \mathbf{p}^*_t \|_2
    • 符号解释:
      • ϵpos\epsilon_{\mathrm{pos}}: 平均位置误差。
      • TT: episode 中的总时间步数。
      • pt\mathbf{p}_t: 在时间步 tt 时末端执行器的实际 3D 位置向量。
      • pt\mathbf{p}^*_t: 在时间步 tt 时末端执行器的目标 3D 位置向量。
      • 2\| \cdot \|_2: 欧几里得范数,表示两个向量之间的距离。
  2. 平均姿态误差 (Average Orientation Error, deg↓):

    • 概念定义: 该指标量化了末端执行器的实际姿态与其目标姿态之间的平均角度差异。它衡量机器人操作中方向控制的精确性,值越小表示末端执行器越能准确对齐目标方向。
    • 数学公式: ϵorn=1Tt=1Tarccos(Tr(Rt(Rt)T)12)×180π \epsilon_{\mathrm{orn}} = \frac{1}{T} \sum_{t=1}^{T} \arccos \left( \frac{\mathrm{Tr}(\mathbf{R}_t (\mathbf{R}^*_t)^T) - 1}{2} \right) \times \frac{180}{\pi}
    • 符号解释:
      • ϵorn\epsilon_{\mathrm{orn}}: 平均姿态误差(以度为单位)。
      • TT: episode 中的总时间步数。
      • Rt\mathbf{R}_t: 在时间步 tt 时末端执行器的实际旋转矩阵 (rotation matrix)。
      • Rt\mathbf{R}^*_t: 在时间步 tt 时末端执行器的目标旋转矩阵。
      • Tr()\mathrm{Tr}(\cdot): 矩阵的迹 (trace)。
      • arccos()\arccos(\cdot): 反余弦函数,用于计算角度。
      • 180π\frac{180}{\pi}: 将弧度转换为度的转换因子。
  3. 生存率 (Survival, % ↑):

    • 概念定义: 该指标表示在预设的 episode 持续时间内,机器人未发生致命碰撞(即除了脚部或抓手之外的任何机器人部分与环境的非预期接触)并成功运行的 episode 百分比。它关注系统的鲁棒性和安全性。
    • 数学公式: Survival Rate=Number of episodes without terminal collisionTotal number of episodes×100% \text{Survival Rate} = \frac{\text{Number of episodes without terminal collision}}{\text{Total number of episodes}} \times 100\%
    • 符号解释:
      • Number of episodes without terminal collision: 未发生致命碰撞的 episode 数量。
      • Total number of episodes: 总评估 episode 数量。
  4. 电能消耗 (Electrical Power Usage, kW↓):

    • 概念定义: 该指标根据真实硬件的电压、制造商报告的扭矩常数以及仿真中的电机扭矩,计算得到的平均电能消耗。它衡量系统的能源效率,值越低表示系统越节能。
    • 数学公式: 虽然论文没有直接给出具体的计算公式,但通常电机功率 PP 可以通过扭矩 τ\tau 和角速度 ω\omega 计算:P=τωP = \tau \omega。在仿真中,这通常会累加所有电机的瞬时功率。
    • 符号解释:
      • PP: 电机瞬时功率。
      • τ\tau: 电机输出扭矩。
      • ω\omega: 电机输出角速度。

5.2.2. 真实世界评估指标

在真实世界实验中,对 20 个 episode 进行平均,报告以下指标:

  1. 成功率 (Success Rate, % ↑):
    • 概念定义: 该指标表示在预设的评估 episode 数量中,成功完成任务的 episode 所占的百分比。它是衡量系统在实际环境中完成特定任务能力的直接指标。
    • 数学公式: Success Rate=Number of successful episodesTotal number of episodes×100% \text{Success Rate} = \frac{\text{Number of successful episodes}}{\text{Total number of episodes}} \times 100\%
    • 符号解释:
      • Number of successful episodes: 成功完成任务的 episode 数量。
      • Total number of episodes: 总评估 episode 数量。
    • 任务特定成功标准:
      • 投掷任务: 球落在目标箱中心 40cm 范围内。
      • 壶铃推动任务: 壶铃滑入目标区域。
      • 杯子整理任务: 杯子直立在托盘上,且杯柄方向在正左方 ±15° 范围内。

5.3. 对比基线

本文通过消融研究和与其他方法的比较,验证了其设计决策的有效性。

5.3.1. 全身控制器 (WBC) 消融研究 (在仿真中进行)

为了理解本文提出的 WBC 设计(尤其是轨迹观察、任务坐标系追踪和 UMI 轨迹训练)的有效性,进行了以下对比:

  • Ours: 本文提出的完整方法。
  • (-) Preview (-) Task-space: 移除了轨迹观察 (即不提供未来轨迹信息给 WBC) 和任务坐标系追踪 (即在身体坐标系中追踪)。
  • (-) UMI Traj: 移除 UMI 收集的轨迹用于训练,可能意味着使用更简单的轨迹或机器人生成的轨迹。
  • DeepWBC [8]: 这是一个类似的基线方法,其设计类似于 DeepWBC,通过同时移除轨迹观察、任务坐标系追踪和 UMI 轨迹训练来实现。

5.3.2. 里程计系统比较 (在真实世界中进行)

  • iPhone 里程计: 本文提出的基于 iPhone ARKit 的实时里程计系统。
  • OptiTrack 运动捕捉系统: 作为“金标准 (oracle)”里程计系统,用于提供精确的地面真值 (ground truth) 姿态,并与 iPhone 系统进行对比,以评估其性能。

5.3.3. 其他比较

  • 无预览基线 (No-preview baseline): 在真实世界投掷任务中,与没有轨迹预览信息的系统进行比较,以展示预览信息的重要性 (如图5所示)。
  • 预训练策略的零样本部署: 将先前工作 [1] 中为固定基座机械臂训练的杯子整理策略,直接部署到四足机器人上,以验证跨肢体泛化能力。

5.4. 超参数设置

以下是原文附录中提供的各项任务的扩散策略超参数设置:

5.4.1. 动态投掷 (Dynamic Tossing)

Hyperparameters Values
Training Set Trajectory Number 500
Diffusion Policy Visual Observation Horizon 2
Diffusion Policy Proprioception Horizon 4
Diffusion Policy Output Steps 64
Diffusion Policy Execution Steps 40
Diffusion Policy Execution Frequency 12Hz
Trajectory Update Smoothing Time 0.1s

5.4.2. 壶铃推动 (Whole-body Pushing)

Hyperparameters Values
Training Set Trajectory Number 25
Diffusion Policy Visual Observation Horizon 2
Diffusion Policy Proprioception Horizon 2
Diffusion Policy Output Steps 32
Diffusion Policy Execution Steps 10
Diffusion Policy Execution Frequency 10Hz
Trajectory Update Smoothing Time 0.3s

5.4.3. 杯子整理 (UMI Cup Rearrangement)

Hyperparameters Values
Training Set Trajectory Number 1400
Diffusion Policy Visual Observation Horizon 1
Diffusion Policy Proprioception Horizon 2
Diffusion Policy Output Steps 16
Diffusion Policy Execution Steps 8
Diffusion Policy Execution Frequency 5Hz
Trajectory Update Smoothing Time 0.1s

5.4.4. 系统成本

以下是原文附录中提供的系统主要部件的市场价格:

Item Cost(\$)
Unitree Go2 Edu Plus 12,500.00
ARX5 Robot Arm 10,000.00
GoPro Hero9 210.99
GoPro Media Mod 79.99
GoPro Max Lens Mod 68.69
iPhone 15 Pro 999.00
Elgato Capture Card 147.34
Total 24,006.01

这个总成本大约是 [10, 12] 中其他四足操作系统的四分之一。

6. 实验结果与分析

本文通过在仿真和真实世界中的三个核心任务(动态投掷、壶铃推动、杯子整理)评估了 UMI-on-Legs 框架的性能,并进行了详细的消融研究。

6.1. 核心结果分析

6.1.1. 能力验证:全身动态投掷 (Whole-Body Dynamic Tossing)

该实验旨在验证系统捕捉复杂操作技能的能力。投掷任务对机器人来说极具挑战性,因为它需要精确的全身协调、力量传递和动态平衡。

  • 任务描述: 机器人将预先抓取的球投掷到 90cm 远的目标箱中,落在中心 40cm 内视为成功。

  • 结果:

    • 使用 OptiTrack 运动捕捉系统作为里程计:成功率达到 75%
    • 使用 iPhone 里程计:成功率达到 70%
  • 发现: 全身控制器学习到了一种高效的全身投掷策略,包括在投掷过程中利用所有关节的力量、短暂地单脚/双脚站立、并有效利用身体质量惯性来恢复平衡。

  • 接口设计的影响 (Table 1): 通过消融研究,可以看出本文的接口设计至关重要。

    以下是原文 Table 1 的结果:

    Approach Units Pos Err
    cm↓
    Orn Err
    deg↓
    Survival
    % ↑
    Power
    kW↓
    Ours 2.12 3.35 98.4 3.82 3.95
    (-) Preview (-) Task-space 3.02 15.49 4.23 15.55 93.0 0.0 4.74
    (-) UMI Traj 2.48 15.67 97.4 3.69
    DeepWBC [8] 22.2 66.22 0.0 5.92

注意:Table 1 中 "Power kW↓" 这一列的数值在 "Ours" 行有两个,这可能是原文排版错误或表示某种范围,此处转录原文。

  • 分析:
    • 移除任务坐标系追踪或 UMI 轨迹 ((-) Task-space 和 (-) UMI Traj): 显著损害了位置和/或姿态的精度。这表明在任务坐标系中追踪以及使用高质量的 UMI 轨迹进行训练对于实现精确操作至关重要。特别是 (-) Task-space 直接导致生存率为 0%,说明身体坐标系追踪在动态任务中极度不稳定。

    • 移除轨迹预览信息 ((-) Preview): 虽然没有直接作为单独一项列出,但 (-) Preview (-) Task-space 组合的结果(位置误差、姿态误差、电能消耗更高,生存率下降)表明预览信息对控制器预测未来运动、做出更平稳和安全决策的重要性。如图5所示,没有预览的控制器行为混乱。

    • 与 DeepWBC 基线对比: DeepWBC [8] 的性能大幅下降(位置误差 22.2cm,姿态误差 66.22deg,生存率 0%),这突显了本文方法在设计接口和训练策略上的优势。

      下图(原文 Figure 5)展示了动态投掷任务中不同控制器的行为对比:

      Fig 5: Dynamic tossing requires dynamics whole-body coordination. Our controller (top row) discovers a stratey r n aTh ae pr wtptos , u know where the target will go next, thus, dropping the ball. Pl… 该图像是论文中图5的插图,展示了动态投掷任务中四足机器人在操纵和身体协调方面的表现。上排为我们的方法,展示机器人跳跃投掷、收起卷曲及落地动作;下排为无预览方法,表现出动作慌乱。右侧柱状图比较了三种策略的成功率,最高达85%。

图中显示,本文的控制器(上排)能够发现一种有效的投掷策略,涉及复杂的全身协调。而无预览基线(下排)则表现出不稳定的行为。

  • 失败分析: 尽管控制器的表现出色,但投掷失误仍可能发生。通过使用校准后的投掷轨迹(作为“预言家”操作策略)测试控制器,成功率提高了 10%。这表明,投掷失误可能部分归因于 WBC 的不精确,但也可能源于操作策略推断的末端执行器轨迹本身的噪声或不完美。

6.1.2. 鲁棒性验证:末端执行器触达实现鲁棒全身推动 (End-effector Reaching Leads to Robust Whole-body Pushing)

该实验旨在测试控制器处理意外和未见外部扰动(如摩擦、重物)的零样本鲁棒性。

  • 任务描述: 推动一个 10 磅(约 4.5 公斤)的壶铃,使其滑入目标区域。

  • 结果:

    • 使用 OptiTrack 运动捕捉系统:成功率达到 95%
    • 使用 iPhone 里程计:成功率达到 90%
  • 发现:

    • 即使面对如此大的扰动,控制器也能保持平衡并完成任务,而无需在仿真中专门训练力的概念或重量
    • 当 WBC 观察到因重量引起的较大位置追踪误差时,它会改变策略,通过向前倾斜来施加更大的力。这种策略在没有壶铃的情况下会导致机器人跌倒,但在有重物时却能成功。
    • 通过仅发送末端执行器轨迹而不发送基座速度,控制器还能移动腿部以触及远距离目标姿态。
    • 面对 20 磅的壶铃,控制器在 5 个 episode 中仍有 4 个成功。
  • 分析: 这展示了本文控制器强大的鲁棒性和对未见动态的适应能力。它通过全身协调来应对外部力,而不是仅仅依赖机械臂的力量。

    下图(原文 Figure 6)展示了壶铃推动任务中的策略:

    该图像是论文中的复合示意图,展示了四足机器人利用UMI-on-Legs框架完成推(Push)和抓取(Catch)动作的过程,以及机器人膝关节速度随时间变化的曲线和不同物体对比的成功率柱状图。 该图像是论文中的复合示意图,展示了四足机器人利用UMI-on-Legs框架完成推(Push)和抓取(Catch)动作的过程,以及机器人膝关节速度随时间变化的曲线和不同物体对比的成功率柱状图。

图中展示了机器人在推动壶铃时的姿态调整,以及成功的推动和抓取动态。

  • 失败分析: 最常见的失败是壶铃侧翻。虽然可以通过更多的人类演示来学习重新调整壶铃,但机械臂本身无法重新抓取过重的壶铃。此外,在评估过程中,机器人硬件(尤其是关节)经常过热,需要频繁冷却。作者推测,通过在仿真中训练力 [10],可能实现更优雅、更节能的推动行为。

6.1.3. 可扩展性验证:即插即用跨肢体操作策略 (Plug-and-play Cross-Embodiment Manipulation Policies)

该实验旨在验证将现有操作策略零样本 (zero-shot) 部署到新肢体(四足机器人)上的可行性。

  • 任务描述: 野外杯子整理任务,要求将咖啡杯放置在托盘上,杯柄指向特定方向。该任务在未知的环境中进行。

  • 结果:

    • 使用 OptiTrack 运动捕捉系统:成功率达到 85%
    • 使用 iPhone 里程计:成功率达到 80%
  • 发现: 尽管操作策略最初是为固定基座的工业机械臂 (如 UR5e) 设计的,其运动范围比 ARX5 机械臂更大,本文系统在未进行任何额外微调的情况下,仍能实现高成功率的零样本跨肢体部署。

  • 分析: 机器人会动态倾斜和伸展其基座,以增加触及范围和/或平衡机械臂,从而支持操作策略预测的轨迹。这再次突出了全身协调在移动操作中的重要性。

    下图(原文 Figure 7)展示了跨肢体部署杯子整理任务的效果:

    Fig 7: Making Existing Manipulation Policies Mobile. Although intended for fixed-based arms with larger reach to achieve \(80 \\%\) success rates zero-shot on our quadruped system with our learned whole… 该图像是由三部分构成的插图,展示了将现有操控策略应用于四足机器人移动操作的效果。左图为固定基座的机械臂操作场景,中间图为搭载学习全身控制器的四足机器人操作场景,右图为成功率对比柱状图,表明四足机器人以80%的零样本迁移成功率完成任务。

图中显示了为固定基座机械臂设计的策略如何在四足机器人上成功执行,并通过身体倾斜和伸展来辅助操作。

6.2. 数据呈现 (表格)

本节只呈现实验结果表格。其他超参数设置和奖励项等表格已在“4. 方法论”和“5. 实验设置”中呈现。

以下是原文 Table 1,关于投掷任务在仿真中的评估结果:

Approach Units Pos Err
cm↓
Orn Err
deg↓
Survival
% ↑
Power
kW↓
Ours 2.12 3.35 98.4 3.82 3.95
(-) Preview (-) Task-space 3.02 15.49 4.23 15.55 93.0 0.0 4.74
(-) UMI Traj 2.48 15.67 97.4 3.69
DeepWBC [8] 22.2 66.22 0.0 5.92

6.3. 消融实验/参数分析

在 6.1.1 节中已经详细分析了 Table 1 中的消融实验结果。

主要发现总结:

  • 任务坐标系追踪的必要性: (-) Task-space(即在身体坐标系中追踪)导致了严重的性能下降,特别是生存率降至 0%,表明这种方法无法处理动态操作。这强有力地支持了本文在任务坐标系中追踪轨迹的设计。
  • UMI 轨迹的重要性: (-) UMI Traj(移除 UMI 轨迹训练)也导致了姿态误差显著增加,说明 UMI 提供的真实世界、高质量人类演示轨迹对于训练精确的全身控制器至关重要。
  • 轨迹预览的作用: 虽然没有直接的 (-) Preview 单独实验,但 (-) Preview (-) Task-space 的组合结果暗示了预览信息对于控制器能够预判和协调未来动作的重要性。没有预览,控制器难以有效地应对动态任务,导致更高的误差和能耗。
  • 本文方法的综合优势: 本文提出的完整方法 Ours 在所有指标上均表现最佳,尤其是在生存率和误差方面远超基线,证明了其设计理念的有效性。

7. 总结与思考

7.1. 结论总结

本文提出了 UMI-on-Legs 框架,旨在解决在动态机器人实体上学习富有表现力操作技能的数据收集和泛化性挑战。核心思想是结合真实世界的人类演示数据与仿真中训练的全身控制器,并通过任务坐标系中的末端执行器轨迹作为高层操作策略和低层全身控制器之间的通用接口。

主要成就包括:

  • 高效数据收集: 通过使用手持抓取器 UMI,实现了无需真实机器人即可收集任务中心化演示数据,降低了成本和复杂性。

  • 通用且富有表达力的接口: 任务坐标系中的末端执行器轨迹作为接口,不仅直观易于演示,还为全身控制器提供了未来动作的预览信息,实现了精确稳定的任务空间追踪。

  • 鲁棒的全身控制器: 在大规模并行仿真中,通过强化学习训练的全身控制器能够有效追踪轨迹,并在抓取式、非抓取式和动态操作任务中展现出高成功率(均超过 70%)。

  • 零样本跨肢体泛化: 成功将为固定基座机械臂设计的预训练操作策略零样本部署到四足机器人上,验证了框架的泛化能力。

  • 低成本野外部署: 集成基于 iPhone ARKit 的实时里程计,使得系统能够在野外环境中自主运行,降低了对昂贵外部设备的依赖。

    UMI-on-Legs 为将通用的视觉-运动策略和鲁棒的全身控制器结合起来,实现更广泛的机器人平台上的操作技能迁移,迈出了重要一步。

7.2. 局限性与未来工作

作者指出了 UMI-on-Legs 框架的几个局限性,并提出了未来的研究方向:

  1. 抓取器限制: 当前系统仅支持基于抓取器的操作,这是从 UMI [1] 继承的局限。未来可以扩展到支持更普遍的全身操作,例如与全身操作四足机器人相关的工作 [31, 54, 55]。
  2. 肢体特定约束的反馈: 尽管接口是肢体无关的,但将肢体特定的约束(如运动学限制、力矩限制、过热风险等)反馈给高层操作策略是一个重要的未来步骤。
  3. 完整移动操作平台: 当前系统缺乏碰撞避免 [56]、力反馈和基于力控制的能力,这些是构建完整移动操作平台所需的重要功能。
  4. 硬件可靠性: 真实世界部署中观察到关节过热、电池电压变化等问题,影响了系统的可靠性。硬件改进或训练更节能的行为是必要的。
  5. 里程计延迟与精度: iPhone ARKit 的里程计仍存在约 140ms 的延迟,以及在剧烈运动下的漂移问题,这在 Sim2Real 迁移中引入了差距。更精确、低延迟的里程计实现或更强大的补偿机制是未来研究方向。
  6. 抓取精度: 在抓取和投掷阶段,控制器的小幅抖动会导致视觉-运动操作策略的分布漂移,表明仍需收集更多数据以实现鲁棒、全自主的抓取。

7.3. 个人启发与批判

个人启发:

  1. 解耦与接口设计的力量: 本文最核心的启发在于其巧妙的解耦设计。将任务意图的规划(操作策略)与机器人本体的执行(全身控制器)清晰分离,并通过“任务坐标系中的末端执行器轨迹”这一通用接口连接。这种设计极大地提高了数据收集的效率(人类演示无需机器人)和策略的泛化性(高层策略可以跨肢体复用)。对于未来机器人系统设计,这种“通用接口”的理念非常值得借鉴,可以促进不同研究模块的独立发展和集成。
  2. 混合数据范式的高效性: 结合真实世界的人类演示(提供任务丰富性和直观性)与仿真中的强化学习(提供高效、安全的控制器训练),是弥合 Sim2Real Gap 和扩展机器人能力的一种强大范式。它避免了纯真实世界训练的高成本和纯仿真训练的“现实差距”问题。
  3. 低成本硬件的潜力: 使用 iPhone ARKit 作为实时里程计是一个非常实际且有影响力的创新。它展示了通过巧妙地集成消费级硬件和软件,可以显著降低机器人系统的部署成本和复杂性,从而加速机器人技术在更广泛场景中的应用。
  4. 全身协调的重要性: 实验结果(尤其是动态投掷和壶铃推动)反复强调了全身协调在移动操作中的关键作用。机器人不仅仅是机械臂的延伸,整个身体(包括腿部和基座)都必须作为一个整体来参与任务,以实现动态平衡、力量传递和姿态调整。

批判与可以改进的地方:

  1. 硬件可靠性是瓶颈: 论文坦诚地指出了硬件过热、电池电压变化等问题。这表明即使控制策略再先进,物理硬件的限制仍然是真实世界部署的巨大障碍。未来的工作不仅应关注软件算法,还需深入与硬件工程师合作,或者设计出对硬件更“友好”的策略。例如,可以引入更强的能量效率奖励,或者直接在训练中模拟硬件的过热和降级效应。
  2. 里程计延迟与准确性: iPhone ARKit 的 140ms 延迟在高速动态任务中仍然是一个显著的 Sim2Real Gap。虽然论文尝试通过速度积分进行补偿,但效果有限。未来的研究可以探索更先进的融合算法(如卡尔曼滤波)来结合 IMU 和视觉信息,以降低延迟和提高动态场景下的精度,或直接利用低延迟的惯性测量单元 (IMU) 进行更精细的状态估计。
  3. 操作策略与全身控制器的双向反馈: 当前框架中,操作策略向全身控制器传递轨迹是单向的。全身控制器虽然能处理物理约束,但它并不能将其自身的“能力边界”或“困难程度”反馈给高层操作策略。如果高层操作策略能够感知机器人当前肢体的运动学/动力学约束,并生成更“可执行”或更“舒适”的轨迹,可能会进一步提高成功率和效率。这可能涉及在操作策略中嵌入一个轻量级的机器人模型,或者通过强化学习让操作策略与全身控制器进行共同优化。
  4. 抓取精度的挑战: 论文提到在抓取阶段的小幅抖动导致策略的分布漂移,这对于需要高精度的抓取任务(如微小物体、不规则形状)仍是一个挑战。除了增加数据量,可以考虑在控制器中引入基于力/触觉反馈的局部精细调整,或者结合更鲁棒的视觉伺服控制来应对不确定性。
  5. 任务复杂度的扩展: 虽然本文在几个有代表性的任务上取得了成功,但这些任务仍相对集中。如何将该框架扩展到更通用、更开放式的任务(如厨房操作、工具使用等),将是更大的挑战。这可能需要更强大的视觉感知能力、更复杂的行为规划,以及对任务目标的更抽象理解。

相似论文推荐

基于向量语义检索推荐的相关论文。

暂时没有找到相似论文。