ActiveUMI: Robotic Manipulation with Active Perception from Robot-Free Human Demonstrations
TL;DR 精炼摘要
本文提出ActiveUMI框架,结合便携式VR遥操作套件与传感器控制器,实现机器人与人类末端执行器的精确对齐,支持复杂双臂操作。系统利用头戴显示器捕获主动自我中心感知,学习视觉注意力与操控关联,在六项任务中展示了70%成功率及良好泛化能力。
摘要
We present ActiveUMI, a framework for a data collection system that transfers in-the-wild human demonstrations to robots capable of complex bimanual manipulation. ActiveUMI couples a portable VR teleoperation kit with sensorized controllers that mirror the robot's end-effectors, bridging human-robot kinematics via precise pose alignment. To ensure mobility and data quality, we introduce several key techniques, including immersive 3D model rendering, a self-contained wearable computer, and efficient calibration methods. ActiveUMI's defining feature is its capture of active, egocentric perception. By recording an operator's deliberate head movements via a head-mounted display, our system learns the crucial link between visual attention and manipulation. We evaluate ActiveUMI on six challenging bimanual tasks. Policies trained exclusively on ActiveUMI data achieve an average success rate of 70% on in-distribution tasks and demonstrate strong generalization, retaining a 56% success rate when tested on novel objects and in new environments. Our results demonstrate that portable data collection systems, when coupled with learned active perception, provide an effective and scalable pathway toward creating generalizable and highly capable real-world robot policies.
思维导图
论文精读
中文精读
1. 论文基本信息
1.1. 标题
ActiveUMI: Robotic Manipulation with Active Perception from Robot-Free Human Demonstrations
1.2. 作者
Qiyuan Zeng, Chengmeng Li, Jude St. John, Zhongyi Zhou, Junjie Wen, Guorui Feng, Yichen Zhu, Yi Xu
作者单位:
- Qiyuan Zeng, Chengmeng Li, Guorui Feng:上海大学 (Shanghai University)
- Jude St. John:斯坦福大学 (Stanford University)
- Zhongyi Zhou, Junjie Wen, Yichen Zhu, Yi Xu:美的集团 (Midea Group)
1.3. 发表期刊/会议
预印本 (arXiv)。
1.4. 发表年份
2025年。论文发布于 2025-10-02T02:44:21.000Z。
1.5. 摘要
本文提出 ActiveUMI,一个用于数据采集的框架,旨在将真实世界中的人类演示 (in-the-wild human demonstrations) 转换为能够执行复杂双臂操作 (complex bimanual manipulation) 的机器人策略。ActiveUMI 将便携式 VR 远距离操作套件 (VR teleoperation kit) 与传感器化控制器 (sensorized controllers) 相结合,后者精确模拟机器人末端执行器,通过精确的姿态对齐 (precise pose alignment) 弥合了人机运动学鸿沟。为了确保移动性 (mobility) 和数据质量 (data quality),本文引入了几项关键技术,包括沉浸式 3D 模型渲染 (immersive 3D model rendering)、自给自足的可穿戴计算机 (self-contained wearable computer) 和高效的校准方法 (efficient calibration methods)。ActiveUMI 的显著特征在于其主动、自我中心感知 (active, egocentric perception) 的捕获能力。通过记录操作员通过头戴式显示器 (head-mounted display) 进行的有意识的头部运动 (deliberate head movements),该系统学习了视觉注意力 (visual attention) 与操作 (manipulation) 之间的关键联系。本文在六项具有挑战性的双臂任务上评估了 ActiveUMI。仅基于 ActiveUMI 数据训练的策略在域内任务 (in-distribution tasks) 上取得了平均 70% 的成功率,并展示出强大的泛化能力 (generalization),在新物体 (novel objects) 和新环境 (new environments) 中测试时仍能保持 56% 的成功率。研究结果表明,便携式数据采集系统 (portable data collection systems),当与学习到的主动感知 (learned active perception) 相结合时,为创建可泛化 (generalizable) 且高性能 (highly capable) 的真实世界机器人策略提供了一条有效且可扩展的途径。
1.6. 原文链接
https://arxiv.org/abs/2510.01607v1
发布状态: 预印本 (Preprint)。
1.7. PDF 链接
https://arxiv.org/pdf/2510.01607v1.pdf
2. 整体概括
2.1. 研究背景与动机
核心问题: 机器人领域正朝着通用机器人策略 (generalist policies) 发展,但当前的机器人基础模型 (robot foundation models) 受到可用机器人数据规模和对齐方式的限制,远不及网络规模语料库 (web-scale corpora)。核心挑战在于如何在扩展数据采集的同时,保持本体保真度 (embodiment fidelity)。
现有研究的挑战与空白:
- 实验室内部的远距离操作 (in-lab teleoperation):成本高昂,难以大规模扩展。
- 人类视频 (human videos):存在跨本体鸿沟 (cross-embodiment gap),即从人类动作到机器人动作的转换问题。
- 仿真 (simulation):存在虚实鸿沟 (sim-to-real gap),即仿真物理与真实硬件之间的差异。
- 现有传感器化手持接口 (sensorized hand-held interfaces):虽然能捕获动作对齐轨迹 (action-aligned trajectories),但大多数忽略了主动、自我中心感知 (active, egocentric perception)。人类会移动头部来管理遮挡和收集上下文信息,而现有系统主要依赖腕部摄像头 (wrist-mounted cameras)。即使是广视角摄像头,以末端执行器为中心的视图在处理长时序任务 (long-horizon tasks) 和精细操作 (fine manipulation) 时也表现不佳,并且与使用头戴式摄像头(
HMC)的机器人平台不匹配。
论文的切入点或创新思路:
本文旨在弥合上述差距,提出 ActiveUMI,一个带有主动感知 (active perception) 的通用操作接口 (universal manipulation interface),用于真实世界 (in-the-wild) 的机器人策略学习。其核心思路是:
- 紧密对齐机器人本体与自然人类运动 (tightly align the robot's embodiment with natural human movement):通过专门设计的便携式
VR远距离操作套件,将机器人的自定义夹持器直接安装到VR控制器上,实现末端执行器的精确镜像。 - 实现主动感知 (enable active perception):通过将操作员的头部运动映射到带有头戴式摄像头的可移动机械臂上,使学习到的策略能够控制自己的视角,主动寻找信息以解决复杂的、长时序的或视觉遮挡的任务。
2.2. 核心贡献/主要发现
本文的核心贡献和主要发现包括:
-
提出了
ActiveUMI框架: 这是一个便携、自给自足、高移动性的VR远距离操作系统,用于大规模、真实世界的机器人数据采集。它通过精确的姿态对齐,将人类的自然运动无缝迁移到机器人上。 -
引入主动自我中心感知:
ActiveUMI明确记录操作员的头部运动,将其作为策略的额外输入。这使得机器人能够学习并复制人类的视觉注意力模式,从而主动调整其视角,克服遮挡,并获取任务关键信息。 -
展示了卓越的性能和泛化能力:
- 在六项具有挑战性的双臂任务上,仅使用
ActiveUMI数据训练的策略在域内任务 (in-distribution tasks) 上取得了平均70%的成功率。 - 与非主动感知基线(例如,仅使用腕部摄像头或固定头戴摄像头的策略)相比,
ActiveUMI将平均成功率分别提高了44%和38%。 - 在新物体 (novel objects) 和新环境 (new environments) 中进行评估时,学习到的策略仍能保持
56%的平均成功率,显示出从真实世界数据中学习到的强大泛化能力。
- 在六项具有挑战性的双臂任务上,仅使用
-
数据采集效率和准确性:
ActiveUMI相较于传统远距离操作,显著提升了数据采集速度,例如在绳索装箱任务中快2.06倍,在衬衫折叠任务中快1.49倍(相对于直接人类演示的倍数,即更接近人类演示的速度)。- 在相对位姿误差 (Relative Pose Error, RPE) 方面,
ActiveUMI比UMI提高了2.5倍,表明其数据质量更高。
-
高效的数据混合策略: 研究发现,将大规模、低成本的
ActiveUMI数据与少量(例如1%)的真实远距离操作数据混合训练,可以实现95%的最高成功率,这为开发机器人基础模型 (robot foundation models) 提供了一种成本效益高且有效的数据策略。下图(原文 Figure 1)展示了
ActiveUMI系统的插图,展示了便携式VR远距离操作套件下的人类演示、多样且精确的机器人操作动作,以及机器人在各种环境中基于主动感知的任务执行场景。
该图像是论文中展示ActiveUMI系统的插图,展示了便携式VR遥操作套件下的人类演示、多样且精确的机器人操作动作,以及机器人在各种环境中基于主动感知的任务执行场景。
3. 预备知识与相关工作
3.1. 基础概念
- 机器人基础模型 (Robot Foundation Models):指能够处理多种机器人任务、在海量数据上预训练、并具备一定泛化能力的通用机器人控制模型。它们旨在提供一个通用的底层能力,通过少量领域特定数据微调即可适应新任务,类似于大型语言模型 (LLMs) 在自然语言处理领域的地位。
- 视觉-语言-动作模型 (Vision-Language-Action, VLA Models):是机器人基础模型的一种,它能够理解视觉信息 (Vision)、自然语言指令 (Language),并生成相应的机器人动作 (Action)。这类模型是实现通用机器人智能的关键。
- 远距离操作 (Teleoperation):指通过远程设备(如操纵杆、VR 控制器等)直接控制机器人执行任务。操作员的动作被实时映射到机器人的运动上。
- 本体保真度 (Embodiment Fidelity):指在将人类动作或指令映射到机器人时,机器人能够多大程度上精确地复制人类动作的物理特征和动态。高本体保真度意味着机器人运动与人类运动在空间、时间上高度一致。
- 自我中心感知 (Egocentric Perception):指从操作者或机器人自身视角获取的感知信息(例如,头戴式摄像头捕获的画面)。与第三人称感知 (third-person perception)(从外部固定摄像头获取)相对,它更直接地反映了执行任务者的视觉焦点和意图。
- 主动感知 (Active Perception):指智能体(机器人或人类操作员)能够主动控制其传感器(如摄像头)的视角或焦点,以获取任务所需的关键信息,而不是被动地接收固定视角的输入。这包括头部、眼睛或摄像头姿态的调整。
- 六自由度 (Six-Degrees-of-Freedom, 6-DoF):描述一个物体在三维空间中的完整运动能力。包括三个平移自由度 (translational degrees of freedom)(沿
x, y, z轴移动)和三个旋转自由度 (rotational degrees of freedom)(绕x, y, z轴旋转,即滚转、俯仰、偏航)。 - 头戴式显示器 (Head-Mounted Display, HMD):一种佩戴在头部的显示设备,通常用于虚拟现实 (VR) 或增强现实 (AR) 体验,可以提供沉浸式视觉反馈,并常用于追踪头部姿态。
- 同步定位与地图构建 (Simultaneous Localization and Mapping, SLAM):一种技术,允许设备在未知环境中构建地图的同时,实时确定自身在地图中的位置。
Meta Quest 3s等VR头显利用SLAM系统进行室内定位和追踪。 - 相对位姿误差 (Relative Pose Error, RPE):用于衡量两个位姿(姿态和位置)之间相对差异的指标。在本论文中,它用于量化
ActiveUMI记录的轨迹与机器人实际重放轨迹之间的误差。
3.2. 前人工作
本文将相关工作分为几个主要类别,并指出了它们的局限性:
-
机器人基础模型 (Robot Foundation Models) 和 视觉-语言-动作模型 (VLA Models):
- 背景: 近年来机器人领域的研究热点,旨在通过大规模数据训练通用策略。例如
[6, 8, 10, 19, 21, 21, 22, 35, 47, 50]等工作。 - 挑战: 缺乏大规模高质量的机器人数据,导致当前机器人数据规模远小于训练大型语言模型的数据。
- 背景: 近年来机器人领域的研究热点,旨在通过大规模数据训练通用策略。例如
-
解决数据稀缺问题的方法及局限性:
- 用户友好型远距离操作系统 (User-friendly teleoperation systems)
[3, 7, 16, 26, 37, 48]:- 局限性: 成本高昂,难以大规模扩展。
- 大规模仿真数据 (Large-scale simulation data)
[1, 17, 30]:- 局限性: 存在虚实鸿沟 (sim-to-real gap),仿真环境中的表现难以直接迁移到真实世界。
- 人类视频 (Human videos)
[18, 20, 23, 29, 33, 36, 45, 46, 54]:- 局限性: 存在本体鸿沟 (embodiment gap),人类动作与机器人执行能力之间存在差异。
- 用户友好型远距离操作系统 (User-friendly teleoperation systems)
-
“真实世界”数据采集方法 (In-the-wild data collection) - 基于人类演示:
- DexCap
[39]: 使用可穿戴手套捕获精确的腕部和指尖姿态,用于灵巧任务。 - AirExo
[13, 14]: 利用低成本硬件和直接运动学映射进行手臂操作。 - DoGlove
[49]: 低成本、高精度且带有触觉反馈的手套系统,用于远距离操作和操作。 - Dexop
[15]: 被动式手部外骨骼,旨在最大化人类收集丰富感知数据的能力。 - NuEXO
[51]: 便携式外骨骼硬件,用于远距离操作和收集人形机器人数据。 - 通用操作接口 (Universal Manipulation Interface, UMI)
[9]: 本文最相关的工作,引入了简单的手持控制器来大规模收集双臂数据。- DexUMI
[44]: 将UMI概念扩展到灵巧手。 - FastUMI
[28]: 通过在UMI夹持器顶部添加额外摄像头,重新设计系统以实现快速部署。
- DexUMI
- 共同局限性: 这些系统主要依赖腕部摄像头 (wrist-mounted cameras) 进行感知。由于这些摄像头随手臂移动,它们的视角受限于操作需求而非感知目标,导致在处理视觉遮挡、长时序任务和精细操作时存在挑战。
- Vision-in-Action
[43]: 关注设计用于主动感知的远距离操作系统,与本文核心贡献相关。
- DexCap
3.3. 技术演进
机器人数据采集技术经历了从实验室内部高成本、低效率的远距离操作 (teleoperation),到试图利用大规模但存在鸿沟的仿真数据 (simulation data) 和人类视频 (human videos) 的演变。为了克服实验室限制和数据鸿沟,研究转向了真实世界 (in-the-wild) 的数据采集,特别是利用人类演示。早期的方法侧重于精确捕获人类手部或手臂的动作轨迹,如各种外骨骼和手套系统。UMI 及其变体 (DexUMI, FastUMI) 进一步简化了控制器,使其更易于大规模部署。然而,这些方法普遍忽视了人类在执行任务时一个关键且自然的方面:头部和眼睛的主动移动以获取关键视觉信息。
ActiveUMI 正是在这个背景下,认识到当前“真实世界”数据采集系统虽然解决了“动作”的本体保真度问题,但却忽略了“感知”的本体保真度。它将人类主动、自我中心感知 (active, egocentric perception) 的能力引入机器人数据采集,通过记录操作员的头部运动来模拟机器人的视点控制 (viewpoint control)。这代表了从仅关注“做什么”到同时关注“如何看”的技术演进,使得机器人策略能够学习更接近人类智能的感知策略。
3.4. 差异化分析
ActiveUMI 与现有工作,特别是 UMI 及其变体的核心区别和创新点在于:
-
主动感知 (Active Perception) 的引入:
- 现有问题: 大多数
UMI风格的数据采集系统主要依赖腕部摄像头 (wrist-mounted cameras)。这些摄像头的视角与机器人手臂的运动绑定,受限于操作需求,无法主动调整以获取任务关键的感知信息,难以应对视觉遮挡、长时序任务和精细操作。 - ActiveUMI 的创新: 通过记录操作员的头戴式显示器 (HMD) 的
6-DoF姿态,将操作员的头部运动 (head movements)(即视觉注意力 (visual attention))映射到机器人的视点控制 (viewpoint control)。这使得学习到的策略能够主动调整机器人摄像头的视角,克服遮挡,并更有效地完成复杂任务。
- 现有问题: 大多数
-
更强的本体保真度 (Embodiment Fidelity) 和通用性:
ActiveUMI不仅在动作 (action) 上实现了高保真度(通过将机器人夹持器直接安装在VR控制器上),还在感知 (perception) 上实现了高保真度,学习人类在任务执行过程中如何“看”。- 系统设计使其能够适应更广泛的机器人平台,只需将
Meta Quest控制器改装并连接到目标机器人的现有末端执行器上,而非像某些系统那样依赖特定、不可互换的夹持器。
-
便携性和“真实世界”适应性 (Portability and In-the-wild Adaptability):
-
ActiveUMI采用自给自足的可穿戴计算单元 (self-contained wearable computational unit)(背包式计算机),使操作员能够在多样化的真实世界环境中自由移动和采集数据,克服了实验室设置的限制。 -
引入了沉浸式 3D 模型渲染 (immersive 3D model rendering)、原位环境设置 (In-Situ environment setup)、夹持器占位符 (gripper placeholder) 和触觉反馈 (haptic feedback) 等校准技术,确保在不同环境中都能高效、准确地进行数据采集。
简而言之,
ActiveUMI不仅提供了一种高效、高保真度的数据采集方法,更重要的是,它通过将人类的主动视觉注意力 (active visual attention) 纳入学习过程,弥补了现有机器人模仿学习在感知层面的关键缺失,为创建更具泛化性和鲁棒性的机器人策略开辟了新途径。
-
4. 方法论
4.1. 方法原理
ActiveUMI 的核心原理在于通过一个便携式 VR 远距离操作系统 (portable VR teleoperation system),将人类在真实世界中的演示 (in-the-wild human demonstrations) 转化为机器人可学习的策略。其创新点在于不仅精确映射人类的双手动作 (bimanual actions) 到机器人末端执行器,更重要的是,它捕获并利用了人类在执行任务时主动调整头部以获取视觉信息 (active head movements for visual information) 的行为。通过这种方式,ActiveUMI 旨在训练机器人策略,使其能够像人类一样,在执行操作的同时,主动选择和控制其观察视角 (actively select and control its viewpoint),从而有效应对视觉遮挡、复杂场景和长时序任务。
该方法基于两大核心原则:
- 本体紧密对齐 (Tight Embodiment Alignment):系统将人类操作员的自然运动与目标机器人的本体紧密对齐。这通过将机器人的自定义夹持器直接安装到
VR控制器上实现,确保了人手与机器人末端执行器之间的精确运动学映射。 - 主动感知 (Active Perception):系统记录操作员通过
VR头显进行的头部运动,这些运动反映了操作员的视觉注意力 (visual attention)。这些头部姿态数据被整合到训练数据中,使得机器人策略能够学习如何在任务执行过程中动态调整其摄像头视角 (dynamically adjust its camera viewpoint),从而获取关键的感知信息。
4.2. 方法步骤与流程
ActiveUMI 系统主要由硬件架构、主动感知数据捕获和高效校准方法组成。其整体架构和数据流如下图(原文 Figure 2)所示:

1. 数据采集系统架构 (Data Collection System Architecture)
- VR 夹持器控制器 (VR Gripper Controller):
- 基于商用
Meta Quest 3s控制器进行改装,利用其内置的同步 (synchronous)、低延迟 (low-latency)、高精度 (high-precision) 的6-DoF姿态追踪能力。 - 通过头显复杂的由内向外追踪系统 (inside-out tracking system),利用红外
IR LED模式连续三角测量控制器在捕获空间内的6-DoF姿态(位置和方向)。 - 将改装后的控制器刚性安装到目标机器人的末端执行器上,使其姿态直接代表机器人末端执行器的姿态,实现了硬件灵活性。
- 基于商用
- 夹持器驱动 (Gripper Actuation):
- 在控制器上集成微型电机,驱动夹持器的开合运动,实现操作员对机器人抓取的直观控制。
- 设计为非侵入式 (non-invasive):不替换机器人的原始夹持器,而是将一个相同的副本连接到操作员控制器上进行数据采集,确保了对各种现有机器人的广泛适用性。
- 腕部摄像头 (Wrist-Mounted Camera):
- 在每个控制器上附加一个鱼眼摄像头 (fisheye camera),以最大化视野,捕获机器人即时操作环境的全面视觉信息。
- 作为“腕部视图”,为下游策略模型提供丰富的视觉上下文,补充头戴式摄像头的第一人称视角。
- 头戴式显示器 (Head-Mounted Display, HMD):
Meta Quest 3s HMD扮演双重关键角色:- 高精度定位中心 (High-precision localization hub):其鲁棒的
SLAM系统提供稳定的世界坐标系,同时追踪操作员头部和控制器的6-DoF姿态。 - 动态顶部摄像头 (Dynamic, top camera):头显的前置彩色摄像头作为动态顶部摄像头,提供与操作员视线内在耦合的全局视角。
- 高精度定位中心 (High-precision localization hub):其鲁棒的
- 可穿戴设备 (Wearable Device):
- 一个紧凑的可穿戴计算单元 (wearable computational unit)(小型计算机,佩戴在操作员背部),实现了自给自足的操作 (self-contained operation)。
- 解放了操作员,使其能够自由移动,在各种真实世界环境中采集数据。
- 沉浸式数据采集 (Immersive Data Collection):
- 在
VR环境中渲染机器人手臂的3D模型,并精确对齐虚拟手臂与操作员手持控制器(对应机器人夹持器)。 - 为操作员提供直观的实时视觉反馈,便于在数据采集中清晰地可视化机器人运动。
- 在
2. 主动感知用于策略学习 (Active Perception for Policy Learning)
- 数据捕获: 显式记录操作员
HMD的实时6-DoF姿态,作为策略的额外输入。 - 学习机制: 模型学习操作员头部运动(视觉注意力)与其对应手部动作之间的关键关联。
- 策略执行: 在部署阶段,策略预测机器人头部的
6-DoF姿态,使机器人能够主动模仿操作员学习到的注意力模式。 - 动态视点调整: 预测的运动由机器人的低级控制器执行,使机器人能够动态调整其视点,克服遮挡,并显著增强其在复杂任务上的性能。
3. 末端执行器校准 (Calibrating End-Effector)
为了确保高质量的数据对齐和精确性,ActiveUMI 引入了三种校准方法:
- 原位环境设置 (In-Situ environment setup):
- 操作员可以通过按下控制器上的 按钮来重置
6-DoF零点,灵活地在任何环境中启动数据采集。 - 坐标轴在头显中实时渲染,使操作员能够直观地将虚拟参考系与物理工作空间对齐,确保每次数据采集的初始状态一致。
- 操作员可以通过按下控制器上的 按钮来重置
- 夹持器占位符 (Gripper placeholder):
- 设计一个物理占位符(夹具),作为
VR控制器的停靠站 (docking station),可放置在工作空间中的任何位置,以建立一致的起始点。 - 当控制器放置在占位符中时,其相对距离和姿态被固定到预定义状态。
- 在控制器停靠时按下指定按钮,可立即校准虚拟坐标系,使其原点和方向与此已知物理配置对齐。
- 设计一个物理占位符(夹具),作为
- 零点位置触觉反馈 (Haptic feedback for zero-point position):
-
当夹持器移动到零点(基坐标系原点)
3cm范围内时,控制器电机产生高频振动,提供触觉提示。 -
这允许用户无需依赖数字读数即可确认对齐,显著提高校准速度和效率。
下图(原文 Figure 3)是示意图,展示了
ActiveUMI系统的数据采集与模型评估流程。左侧展示了通过VR设备和多视角相机收集的多通道数据,右侧展示了机器人执行任务时的模型输出及其正确与错误的示范对比。
该图像是示意图,展示了ActiveUMI系统的数据采集与模型评估流程。左侧展示了通过VR设备和多视角相机收集的多通道数据,右侧展示了机器人执行任务时的模型输出及其正确与错误的示范对比。
-
下图(原文 Figure 4)展示了沉浸式数据采集,即在 VR 环境中渲染机器人手臂 3D 模型以提供反馈。
该图像是一个示意图,展示了论文中虚拟现实环境下通过头显渲染机器人双臂的操作视角,图中机器人双臂配有坐标轴指示其姿态方向。
4.3. 数学公式与关键细节
在方法论部分,论文没有给出复杂的数学公式,而是侧重于系统设计和技术细节。关键的数学概念是六自由度 (6-DoF) 姿态追踪和相对位姿误差 (RPE),前者在方法原理中已解释,后者将在实验设置的评估指标中给出具体公式。
核心技术细节包括:
- Meta Quest 3s 控制器的应用:利用其成熟的
6-DoF追踪和由内向外SLAM系统,实现高精度和低延迟的姿态捕获。 - 非侵入式夹持器设计:确保系统可以广泛应用于各种现有的机器人平台,而无需对机器人本身进行深度修改。
- 多源感知融合:结合腕部摄像头 (wrist-mounted camera) 的局部详细视图和头戴式显示器 (HMD) 提供的动态自我中心视图,为策略学习提供丰富且多样的感知信息。
- 端到端学习主动感知:通过将操作员的头部姿态作为策略的输入,模型能够学习人类的视觉注意力模式,并在部署时自主控制机器人的视角。这使得机器人不仅仅是执行动作,更是学习如何“看”以及何时“看”。
5. 实验设置
5.1. 数据集
本文没有使用预设的公开数据集,而是通过 ActiveUMI 系统自行采集真实世界中的人类演示数据 (in-the-wild human demonstration data)。这些数据专门用于训练带有主动感知 (active perception) 的机器人策略。
- 数据来源: 由人类操作员使用
ActiveUMI系统在各种真实环境(“真实世界”)中执行多项双臂操作任务时采集。 - 数据特点:
- 高保真度动作数据: 通过
VR控制器精确映射人类双手6-DoF姿态到机器人末端执行器。 - 主动自我中心感知数据: 额外记录操作员
HMD的6-DoF姿态,捕获其视觉注意力。 - 多视角视觉信息: 包括来自腕部鱼眼摄像头 (fisheye wrist-mounted cameras) 的局部视图和来自头戴式显示器 (HMD) 的动态顶部视图(模拟自我中心头部摄像头)。
- 多样性: 旨在通过在不同环境中采集数据,提高策略的泛化能力。
- 高保真度动作数据: 通过
为什么选择这些数据集进行实验?
这些自采集数据是验证 ActiveUMI 核心创新——主动自我中心感知 (active egocentric perception)——有效性的关键。通过直接从人类演示中学习视点控制,可以确保数据与人类的真实意图和行为高度对齐,从而训练出更鲁棒和泛化的机器人策略。同时,在“真实世界”中采集数据,直接应对了机器人学习中存在的虚实鸿沟 (sim-to-real gap) 和本体鸿沟 (embodiment gap) 问题。
5.2. 评估指标
本文主要使用了以下评估指标:
-
成功率 (Success Rate)
-
概念定义 (Conceptual Definition): 成功率是衡量机器人策略在给定任务中,能够达到预设目标状态的尝试次数占总尝试次数的百分比。它直接反映了策略完成任务的能力和可靠性。在本研究中,任务的成功通常意味着机器人正确地执行了一系列操作,达到了任务的最终状态(例如,物品被正确放置、衬衫被折叠好等)。
-
数学公式 (Mathematical Formula):
-
符号解释 (Symbol Explanation):
- : 在实验中,机器人策略成功完成任务的次数。
- : 实验中机器人策略尝试完成任务的总次数。
-
-
相对位姿误差 (Relative Pose Error, RPE)
-
概念定义 (Conceptual Definition): 相对位姿误差用于评估
ActiveUMI系统在数据采集过程中的精确度,特别是记录的夹持器轨迹与机器人在重放这些轨迹时实际移动的物理距离之间的差异。较低的RPE值表示数据采集的精度高,人类演示的动作能够被机器人更忠实地复现。 -
数学公式 (Mathematical Formula): 论文中给出了以下两个公式来计算
RPE: -
符号解释 (Symbol Explanation):
- : 机器人在重放记录的姿态序列时,两个夹持器内侧之间的实际测量距离。
- : 在进行数据采集时,操作员手动测量的两个夹持器之间的标称距离(被视为真值 (ground truth))。
- : 机器人在重放时测得的距离与标称距离之间的绝对误差。
RPE: 相对位姿误差,表示绝对误差占标称距离的百分比。
-
5.3. 对比基线
为了评估 ActiveUMI 中主动感知组件的重要性,论文将其与以下两种主要基线模型进行了比较:
-
固定头戴摄像头 (Fixed Head Camera):
- 配置: 移除了主动感知组件,将头部摄像头固定在静态的俯视位置。
- 自由度: 机器人总自由度为
14-DoF(双臂各6-DoF+ 固定头戴摄像头0-DoF)。 - 代表性: 用于评估一个额外的第三人称视角在没有主动控制能力时,对任务性能的影响。
-
仅腕部摄像头 (Wrist-Camera-Only, UMI Baseline):
-
配置: 完全移除头部摄像头,仅保留两个鱼眼腕部摄像头。
-
自由度: 机器人总自由度为
14-DoF(双臂各6-DoF)。 -
代表性: 模拟了
UMI风格方法的标准配置,即感知主要依赖于随末端执行器移动的摄像头。这些基线具有代表性,因为它们分别代表了当前机器人感知系统中常见的两种配置:静态第三人称视角(固定头戴摄像头)和末端执行器绑定视角(仅腕部摄像头)。通过与这些基线的比较,可以明确
ActiveUMI中主动自我中心感知 (active egocentric perception) 的独特优势。
-
5.4. 实施细节和任务描述
-
硬件平台: 实验在由三台 机器人手臂组成的测试台上进行。
- 其中两台手臂各自配备一个鱼眼腕部摄像头,构成双臂操作系统 (bimanual manipulation system)。
- 第三台手臂提供主动、移动的视点 (active, mobile viewpoint),其摄像头画面来源于人类操作员的
VR头显,以模拟自我中心头部摄像头 (egocentric head camera)。 - 因此,
ActiveUMI的总自由度为20-DoF(双臂各6-DoF+ 头部摄像头6-DoF)。
-
数据采集频率: 所有传感器和机器人数据均以
30 Hz的频率采集。 -
策略学习模型: 使用先进的视觉-语言-动作 (Vision-Language-Action, VLA) 模型 作为基础模型。
-
微调 (Fine-tuning): 在微调阶段,模型使用余弦学习率调度器 (cosine learning rate scheduler) 进行
50k次迭代的微调。 -
实验重复: 除非另有说明,所有实验均进行
10次试验。评估任务: 论文在六项具有挑战性的真实机器人双臂任务上评估了
ActiveUMI,这些任务结合了精确的手物交互 (hand-object interactions) 和长时序操作 (long-horizon manipulation),并且只使用机器人平台可用的自我中心头部摄像头和腕部本体感受信息。
-
积木拆解 (Block disassembly):一项精度任务 (precision task),要求机器人将两个小的、互锁的积木分开,并将其分类放入盒子中。
-
衬衫折叠 (Shirt folding):一项可变形物体操作任务 (deformable object manipulation task),要求准确识别状态以正确折叠衣物。
-
绳索装箱 (Rope boxing):一项长时序任务 (long-horizon task),机器人必须整齐地将长绳引导进盒子中。
-
工具箱清理 (Toolbox cleaning):一项关节物体操作任务 (articulated object manipulation task),要求机器人操作铰链以关闭工具箱盖子。
-
瓶子放置 (Bottle placing):一项旨在测试策略泛化能力 (generalization) 和对物体位置显著随机化鲁棒性 (robustness) 的任务。
-
从袋子中取饮料 (Take Drink from Bag):此任务在表格中出现,但未在文本中详细描述,但从名称看,它也是一项典型的需要精细操作和可能涉及遮挡的任务。
下图(原文 Figure 5)展示了各项任务的示例。
该图像是多组机器人双臂操作的示意图,展示了不同任务如积木分类、折叠衬衫、绳索装箱、工具箱清理及瓶子放置的步骤和动作过程,体现机器人在复杂操作中的灵活性和多样性。
6. 实验结果与分析
6.1. 核心结果分析
6.1.1. 自我中心主动感知的重要性
本节通过比较 ActiveUMI(包含主动感知)、固定头部摄像头 (UMI w/ Fixed Head Camera) 和 仅腕部摄像头 (UMI) 三种配置,来评估主动感知对复杂操作任务性能的影响。
以下是原文 Table 1 的结果:
| Camera View | Tasks (In-Domain) | |||||
| Bottle placing | Rope boxing | Shirt folding | Block disassembly | Take Drink from Bag | Average | |
| UMI | 60% | 20% | 10% | 0% | 40% | 26% |
| UMI w/ Fixed Head Camera | 60% | 40% | 40% | 20% | 50% | 42% |
| ActiveUMI | 90% | 70% | 80% | 30% | 80% | 70% |
分析:
ActiveUMI在所有评估任务上均显著优于其他两种基线配置,平均成功率达到70%。这比固定头部摄像头配置高出28%(),比仅腕部摄像头配置高出44%()。- 在特定任务上,如
PourWater(虽然表格中没有,但摘要中提到),ActiveUMI甚至比固定顶部摄像头高30%,比仅腕部摄像头高60%。 - 假设驱动改进:
- 补偿演示者运动: 在真实世界数据采集中,演示者会移动头部和身体。主动摄像头允许策略补偿这些运动,而不是将其视为观测噪声。
- 主动视点选择: 主动视点选择使策略能够按需获取任务关键信息(例如,验证抓取是否成功),从而提高成功率。
- 固定顶部摄像头 vs. 仅腕部摄像头: 即使是固定的顶部摄像头也比仅腕部摄像头表现更好(平均
42%vs26%),这表明第三人称视角为复杂双臂任务提供了补充信息。
6.1.2. 混合远距离操作数据训练
本节探讨了在策略训练中利用 ActiveUMI 数据的最佳策略,特别是与少量真实远距离操作数据 (teleoperated data) 混合的情况。实验在衬衫折叠 (shirt-folding) 任务上进行,共 20 次试验。
以下是原文 Table 3 的结果:
| Teleoperated Data Ratio | 10% | 1% | 0% |
| Avg. Success Rate | 90% | 95% | 80% |
分析:
- 纯
ActiveUMI数据: 仅使用ActiveUMI数据训练的策略在衬衫折叠任务上取得了80%的成功率。 - 混合数据提升性能: 加入少量远距离操作数据 (teleoperated data) 能够进一步提高性能。
- 加入
10%的远距离操作数据后,成功率提高到90%。 - 令人惊讶的是,加入仅
1%的远距离操作数据反而达到了最高的95%成功率。
- 加入
- 结论: 这表明
ActiveUMI数据具有高样本效率 (highly sample-efficient)。结合少量真实世界远距离操作数据(例如1%)能够显著提升和微调策略的性能,降低了开发机器人基础模型的成本。这一发现与现有研究中“大规模仿真数据与少量真实世界演示混合训练”的结论一致。
6.1.3. ActiveUMI 数据在真实世界数据采集中的泛化能力
本节评估了在新环境 (new environment) 和新物体 (novel objects) 上 ActiveUMI 训练策略的泛化能力。
以下是原文 Table 2 的结果:
| Camera View | Tasks (New Environment) | |||||
| Bottle placing | Rope boxing | Shirt folding | Block disassembly | Take Drink from Bag | Average | |
| UMI | 30% | 0% | 0% | 0% | 0% | 6% |
| UMI w/ Fixed Head Camera | 30% | 10% | 20% | 0% | 20% | 16% |
| ActiveUMI | 70% | 50% | 80% | 30% | 50% | 56% |
分析:
ActiveUMI的泛化能力: 在新环境中,ActiveUMI训练的策略取得了平均56%的成功率,显著保留了其域内性能(70%),证明了其强大的泛化能力。- 基线的泛化能力下降:
固定头部摄像头策略的成功率下降到16%。仅腕部摄像头 (UMI)策略的性能急剧下降至6%。
- 主动感知的重要性: 结果表明,依赖静态或受限视角的策略在环境变化时难以适应。相比之下,
ActiveUMI策略能够主动控制其视点,使其对视觉变化更具韧性。 - 结论:
ActiveUMI采集的“真实世界”数据,由于融入了主动感知,不仅有效,而且能够产生具有良好泛化能力的策略。
6.1.4. 数据采集吞吐量和准确性
本节评估了 ActiveUMI 在数据采集效率和精度方面的表现。
下图(原文 Figure 6)展示了 ActiveUMI 与传统远距离操作及人类徒手演示在效率和误差上的对比。

吞吐量 (Throughput) 分析(图 6(d)):
- 测量方法: 测量了完成绳索装箱和衬衫折叠两项长时序任务所需的时间,对比了
ActiveUMI、通过VR套件对真实机器人进行远距离操作以及直接人类演示三种方法。 - 结果:
- 绳索装箱:
ActiveUMI比直接人类演示慢2.06倍,而传统远距离操作慢3.27倍。 - 衬衫折叠:
ActiveUMI比直接人类演示慢1.49倍,而传统远距离操作慢2.63倍。
- 绳索装箱:
- 结论:
ActiveUMI在效率方面取得了实用平衡,它保留了人类自然运动的大部分效率,并且比传统远距离操作显著更快,从而实现了更高的数据采集吞吐量。
数据采集准确性 (Data Collection Accuracy) 分析(图 6(e)):
- 测量方法: 使用相对位姿误差 (RPE) 来评估
ActiveUMI采集的数据与机器人重放轨迹之间的误差。- 操作员手持
ActiveUMI控制器夹持器,将夹持器置于卷尺两端,手动记录标称距离(从100cm递减到10cm)。 - 实时记录两个夹持器的
6-DoF姿态序列。 - 在回放阶段,将保存的姿态序列在真实机器人上精确复现。
- 使用卷尺测量两个夹持器内侧之间的实际距离(回放距离)。
- 以标称距离为真值 (ground truth),计算回放距离的绝对误差 和相对误差
RPE。
- 操作员手持
- 结果(图 6(e)):
ActiveUMI的RPE比UMI小2.5倍。 - 结论:
ActiveUMI的低误差得益于VR系统的优势,这意味着它提供了更高质量的数据,从而能够训练出更好的策略网络。
6.2. 数据呈现 (表格)
6.2.1. 域内任务成功率对比 (Table 1)
以下是原文 Table 1 的结果:
| Camera View | Tasks (In-Domain) | |||||
| Bottle placing | Rope boxing | Shirt folding | Block disassembly | Take Drink from Bag | Average | |
| UMI | 60% | 20% | 10% | 0% | 40% | 26% |
| UMI w/ Fixed Head Camera | 60% | 40% | 40% | 20% | 50% | 42% |
| ActiveUMI | 90% | 70% | 80% | 30% | 80% | 70% |
6.2.2. 新环境任务成功率对比 (Table 2)
以下是原文 Table 2 的结果:
| Camera View | Tasks (New Environment) | |||||
| Bottle placing | Rope boxing | Shirt folding | Block disassembly | Take Drink from Bag | Average | |
| UMI | 30% | 0% | 0% | 0% | 0% | 6% |
| UMI w/ Fixed Head Camera | 30% | 10% | 20% | 0% | 20% | 16% |
| ActiveUMI | 70% | 50% | 80% | 30% | 50% | 56% |
6.2.3. 数据混合比例实验 (Table 3)
以下是原文 Table 3 的结果:
| Teleoperated Data Ratio | 10% | 1% | 0% |
| Avg. Success Rate | 90% | 95% | 80% |
6.3. 消融实验/参数分析
本文通过比较不同摄像头配置(仅腕部摄像头、固定头部摄像头 和 ActiveUMI)来评估主动感知 (active perception) 组件的有效性,这可以看作是一种消融实验 (ablation study)。结果清楚地表明,主动感知是实现高性能和泛化的关键因素。
此外,混合训练 (mixed training) 部分可以视为对数据混合比例 (data mixing ratio) 这一参数的分析。通过在 ActiveUMI 数据中加入不同比例(0%, 1%, 10%)的远距离操作数据 (teleoperated data),论文找到了最优的混合策略(1% 远距离操作数据),展示了 ActiveUMI 数据的高样本效率。
7. 总结与思考
7.1. 结论总结
本文提出了 ActiveUMI 框架,旨在解决当前机器人数据采集中主动、自我中心感知 (active, egocentric perception) 的缺失问题。ActiveUMI 是一个便携式 VR 远距离操作系统,它不仅通过传感器化控制器 (sensorized controllers) 精确映射人类的双臂操作 (bimanual manipulation),更关键的是,它通过记录操作员的头部运动 (head movements) 来捕获和学习人类的视觉注意力模式 (visual attention patterns)。这使得机器人策略能够在执行任务时主动控制其视角 (actively control its viewpoint),从而克服视觉遮挡,提高复杂、长时序任务的成功率。
实验结果强有力地证明了 ActiveUMI 的有效性:
-
仅使用
ActiveUMI数据训练的策略在多种具有挑战性的域内任务 (in-distribution tasks) 上取得了平均70%的成功率,显著优于缺乏主动感知的基线。 -
在新物体 (novel objects) 和新环境 (new environments) 中,
ActiveUMI策略仍保持56%的高成功率,展现了卓越的泛化能力 (generalization capability)。 -
ActiveUMI提高了数据采集效率,并显著降低了相对位姿误差 (RPE),确保了数据的高质量。 -
研究还发现,将
ActiveUMI数据与少量(例如1%)远距离操作数据 (teleoperated data) 混合训练,可以进一步提升策略性能至95%的成功率,为机器人基础模型 (robot foundation models) 的开发提供了一条成本效益高且有效的数据采集和训练途径。总而言之,
ActiveUMI证明了学习如何“看”与学习如何“做”同等重要,为构建更具泛化性和鲁棒性的真实世界机器人策略开辟了新方向。
7.2. 局限性与未来工作
论文作者在结论中并未明确指出自身的局限性或提出未来工作方向。然而,作为一名研究助理,我们可以根据论文内容推断其潜在的局限性并设想未来的研究方向。
潜在局限性:
- 对
VR硬件的依赖:ActiveUMI严重依赖Meta Quest 3s及其内部追踪系统。虽然这提供了高精度和便携性,但也可能限制了其在某些特定环境(如强干扰光线、无特征环境)下的性能,或对未来硬件升级的兼容性。 - 人类操作员的技能和一致性: 数据采集质量高度依赖于人类操作员的熟练程度和演示的一致性。不同操作员的演示风格和注意力模式可能存在差异,这可能影响训练数据的多样性和最终策略的鲁棒性。
- 泛化能力的边界: 尽管展示了在新物体和新环境中的泛化能力,但这种泛化并非无限。对于与训练数据分布差异极大的任务、物体或环境,策略的性能可能仍会下降。例如,对于需要复杂推理或抽象规划的任务,仅通过模仿学习可能不足。
- 模型复杂性和计算成本:
ActiveUMI数据集包含了6-DoF的头部姿态、双臂6-DoF姿态、腕部摄像头图像和头戴摄像头图像,数据维度较高。训练VLA模型处理这些多模态数据可能需要显著的计算资源和时间。 - 实时部署的挑战: 尽管数据采集是离线的,但将学习到的策略部署到真实机器人上进行实时控制,仍需要高效的推理速度和鲁棒的硬件控制接口。预测
6-DoF头部姿态并将其平滑地映射到机器人手臂的动态控制,可能需要精细的工程实现。 - 缺乏与传统感知算法的对比: 论文主要对比了不同摄像头配置下的模仿学习性能,但并未深入探讨主动感知与传统机器人视觉算法(如目标检测、跟踪、三维重建等)相结合的潜力。
未来研究方向:
- 更广泛的传感器融合: 探索除了视觉和本体感受之外,融合触觉、力觉等更多传感器数据,以提升机器人在精细操作和未知环境中的性能。
- 自适应数据采集: 开发智能系统,能够根据当前策略的性能和不确定性,主动引导人类操作员去采集特定类型或更具挑战性的数据,以更有效地优化策略。
- 多模态主动感知: 除了头部运动,探索眼动追踪、焦点区域选择等更精细的人类视觉注意力机制,并将其融入到机器人主动感知策略中。
- 从被动观察到主动探索: 将
ActiveUMI学习到的主动感知能力与主动探索 (active exploration) 或强化学习 (reinforcement learning) 相结合,使机器人能够在新的、未知的环境中自主学习和适应。 - 任务分解与层次化策略: 对于非常复杂的长时序任务,可以考虑将任务分解为子任务,并为每个子任务学习主动感知策略,或采用层次化策略结构。
- 仿真与真实数据的结合优化: 进一步研究如何将
ActiveUMI采集的真实世界数据与大规模仿真数据更有效地结合,以在保证性能的同时,进一步降低真实数据采集的成本和时间。 - 可解释性和安全性: 随着机器人策略的复杂化,如何理解策略为何做出特定动作和视角选择,并确保其安全可靠,将是重要的研究方向。
7.3. 个人启发与批判
个人启发:
这篇论文提供了一个非常重要的启发:机器人的“看”与“做”同样重要,且二者并非独立,而是紧密耦合的。 过去我们可能更多关注如何让机器人更好地执行动作,但在感知层面,往往假设传感器输入是给定的。ActiveUMI 揭示了人类在操作中主动引导视觉注意力的关键作用,并成功地将其引入到机器人学习中。这种“主动视点控制 (active viewpoint control)”的能力,对于机器人处理真实世界中的复杂性、不确定性和遮挡至关重要。这不仅是技术上的进步,更是对机器人智能模拟人类行为模式的深度理解。
此外,该系统在便携性 (portability) 和数据采集效率 (data collection efficiency) 方面的设计也极具价值。将消费级 VR 设备 (consumer-grade VR equipment) 转化为科研工具,并结合巧妙的校准机制,为大规模、低成本的真实世界机器人数据采集 (in-the-wild robot data collection) 提供了一条可行路径。这对于推动机器人基础模型 (robot foundation models) 的发展,克服当前数据瓶颈具有深远意义。
批判与可以改进的地方:
- “主动”的程度: 论文中实现的主动感知本质上是对人类头部运动的模仿。机器人学中的真正“主动感知”可能意味着机器人根据任务目标和当前环境自主决定在哪里、如何“看”,而不仅仅是复现人类的观察习惯。未来的工作可以探索如何让策略从模仿人类的注意力模式,发展到生成自己的、最优的注意力策略。
- 头部运动的语义分析: 论文将头部
6-DoF姿态直接作为输入。但人类头部运动可能包含更丰富的语义信息,例如搜索目标、确认状态、避开障碍等。是否可以对这些头部运动进行更深层次的语义理解和分类,从而学习到更具解释性和鲁棒性的感知策略? - 特定任务的定制化: 尽管
ActiveUMI强调通用性,但不同的任务可能对主动感知的需求不同。例如,精细操作可能需要微小的头部调整来聚焦细节,而长时序任务可能需要更广泛的扫描和全局理解。未来的研究可以探索如何为特定任务优化主动感知策略,或者让机器人根据任务类型自适应地调整其感知行为。 - 长尾现象的处理: 真实世界数据不可避免地存在长尾现象 (long-tail phenomena),即某些情况出现频率极低。即使有主动感知,对于从未见过或极少见过的异常情况,机器人策略的鲁棒性仍面临挑战。可以考虑结合异常检测 (anomaly detection) 或不确定性估计 (uncertainty estimation) 来处理这些情况。
- 物理交互的细致建模: 论文聚焦于视觉感知和姿态控制,但对于复杂的双臂操作,力觉 (force feedback) 和触觉 (tactile sensing) 在人机交互中也扮演重要角色。目前
ActiveUMI仅通过微型电机驱动夹持器开合,并无直接的力/触觉反馈到操作员。未来可以考虑在控制器中集成更先进的力/触觉传感器,并将其反馈给操作员,从而在数据中捕获更丰富的物理交互信息,进一步提升机器人的操作灵巧性。
相似论文推荐
基于向量语义检索推荐的相关论文。