Universal Manipulation Interface: In-The-Wild Robot Teaching Without In-The-Wild Robots
TL;DR 精炼摘要
通用操作接口(UMI)框架提出创新方案,通过便携式手持夹爪实现无需真实机器人即可进行大规模“野外”人类示教数据采集,解决了高质量机器人技能数据稀缺难题。其关键方法在于精心设计的策略接口,结合推理时延匹配与相对轨迹动作表示,确保学习策略硬件无关,可零样本迁移至多平台机器人。实验证明,UMI使机器人能对动态、双臂、精确和长时程任务进行零样本泛化,显著拓展了机器人操控能力。
摘要
We present Universal Manipulation Interface (UMI) -- a data collection and policy learning framework that allows direct skill transfer from in-the-wild human demonstrations to deployable robot policies. UMI employs hand-held grippers coupled with careful interface design to enable portable, low-cost, and information-rich data collection for challenging bimanual and dynamic manipulation demonstrations. To facilitate deployable policy learning, UMI incorporates a carefully designed policy interface with inference-time latency matching and a relative-trajectory action representation. The resulting learned policies are hardware-agnostic and deployable across multiple robot platforms. Equipped with these features, UMI framework unlocks new robot manipulation capabilities, allowing zero-shot generalizable dynamic, bimanual, precise, and long-horizon behaviors, by only changing the training data for each task. We demonstrate UMI's versatility and efficacy with comprehensive real-world experiments, where policies learned via UMI zero-shot generalize to novel environments and objects when trained on diverse human demonstrations. UMI's hardware and software system is open-sourced at https://umi-gripper.github.io.
思维导图
论文精读
中文精读
1. 论文基本信息 (Bibliographic Information)
- 标题 (Title): Universal Manipulation Interface: In-The-Wild Robot Teaching Without In-The-Wild Robots (通用操作接口:无需在野外部署机器人即可进行野外机器人示教)
- 作者 (Authors): Cheng Chi, Zhenjia Xu, Chuer Pan, Eric Cousineau, Benjamin Burchfiel, Siyuan Feng, Russ Tedrake, Shuran Song
- 隶属机构 (Affiliations): 斯坦福大学 (Stanford University), 哥伦比亚大学 (Columbia University), 丰田研究院 (Toyota Research Insititute, TRI)
- 发表期刊/会议 (Journal/Conference): 本文目前发布在 arXiv 上,属于预印本 (Preprint),尚未在同行评审的期刊或会议上正式发表。
- 发表年份 (Publication Year): 2024
- 摘要 (Abstract): 论文提出了一个名为
Universal Manipulation Interface(UMI) 的框架,旨在实现从“野外”环境中的人类示教到可部署机器人策略的直接技能迁移。该框架使用手持式夹爪,通过精巧的接口设计,实现了便携、低成本且信息丰富的数据采集,尤其擅长捕捉双臂协调和动态操作等高难度示教。为了学习可部署的策略,UMI 设计了周密的策略接口,包括推理时延匹配和相对轨迹动作表示。这些设计使得学习到的策略与具体机器人硬件无关,可以部署在多种机器人平台上。UMI 框架解锁了新的机器人操作能力,仅通过更换训练数据,就能实现对动态、双臂、精确和长时程任务的零样本泛化 (zero-shot generalization)。论文通过全面的真实世界实验验证了 UMI 的通用性和有效性,证明了在多样化人类示教数据上训练的策略能够零样本泛化到新颖的环境和物体上。 - 原文链接 (Source Link):
- ArXiv 链接: https://arxiv.org/abs/2402.10329
- PDF 链接: http://arxiv.org/pdf/2402.10329
- 项目主页: https://umi-gripper.github.io
2. 整体概括 (Executive Summary)
-
研究背景与动机 (Background & Motivation - Why):
- 核心问题: 如何高效、低成本地为机器人采集大规模、多样化且高质量的操作技能示教数据?
- 现有挑战 (Gap): 当前主流方法存在明显缺陷。1) 机器人远程遥操作 (Teleoperation): 虽然能采集到与机器人形态匹配的数据,但设备昂贵、操作难度高,且严重依赖实验室环境,无法轻松扩展到多样的“野外”场景。2) 利用人类视频 (In-the-wild Human Videos): 视频数据量大、场景丰富,但存在巨大的“形态差异” (Embodiment Gap),即人手与机器人夹爪在外观、自由度和物理特性上的巨大不同,导致动作难以直接迁移。
- 创新思路: 论文提出了一种“中间道路”。设计一个专用的手持设备 (UMI 夹爪),它在形态上模拟了机器人末端执行器,从而最小化了形态差异;同时,它又是便携、低成本的,可以像手机一样被带到任何“野外”环境中进行数据采集,实现了“无需在野外部署机器人,即可进行野外示教”的核心理念。
-
核心贡献/主要发现 (Main Contribution/Findings - What):
-
提出了 UMI 框架: 一个集数据采集硬件、软件和策略学习于一体的完整解决方案,旨在 democratize (民主化) 机器人数据采集。
-
精心设计的示教接口 (Demonstration Interface): UMI 手持夹爪通过集成鱼眼镜头、侧面镜子、惯性测量单元 (IMU) 等设计,解决了以往手持设备视觉信息不足、动作追踪不准、无法捕捉动态行为等问题。
-
精心设计的策略接口 (Policy Interface): 提出了推理时延匹配 (Inference-time Latency Matching) 和相对轨迹动作表示 (Relative-trajectory Action Representation),解决了训练(示教)与测试(部署)之间的系统延迟差异和坐标系依赖问题,使策略能够跨不同机器人硬件平台部署。
-
验证了前所未有的机器人能力: 实验证明,通过 UMI 采集的数据训练的策略,能够零样本完成动态(如投掷)、双臂协调(如折叠衣物)、精确(如摆放杯子)和长时程(如洗碗)等复杂任务,并且能泛化到训练中未见过的新环境和新物体。

-
上图(图像2)直观展示了 UMI 框架的核心理念。左侧是人类使用 UMI 夹爪进行示教;中间展示了通过鱼眼镜头在各种“野外”环境中采集到的多样化视觉数据;右侧则展示了学习到的策略在不同机器人(6自由度和7自由度)上执行各种高难度任务的场景。
3. 预备知识与相关工作 (Prerequisite Knowledge & Related Work)
-
基础概念 (Foundational Concepts):
- 模仿学习 (Imitation Learning): 一种机器学习方法,让智能体(如机器人)通过观察和模仿“专家”(如人类)的示教来学习如何执行任务,而不是通过试错法(如强化学习)。
- 行为克隆 (Behavior Cloning, BC): 模仿学习中最直接的一种方法。它将问题看作一个监督学习问题,其中专家的“状态-动作”对 (State-Action pairs) 作为训练数据,模型学习一个从状态到动作的映射。本文策略学习主要基于 BC。
- 远程遥操作 (Teleoperation): 操作员在远处通过控制器(如VR手柄、操纵杆)控制机器人执行任务。这是为 BC 采集高质量数据的一种常用方式。
- 形态差异 (Embodiment Gap): 指示教者(如人)与学习者(如机器人)在物理形态、感知能力和运动方式上的差异。这是从人类视频中学习机器人技能的主要障碍。
- SLAM (Simultaneous Localization and Mapping, 同步定位与建图): 一种算法,允许移动设备(如机器人或手持设备)在未知环境中实时构建地图,并同时确定自身在该地图中的位置。本文用它来精确追踪 UMI 夹爪的 6DoF 姿态。
- 扩散策略 (Diffusion Policy): 一种基于扩散模型 (Diffusion Models) 的行为克隆策略。它将动作序列的生成过程建模为一个从高斯噪声逐渐去噪到专家动作序列的过程,能够很好地学习复杂和多模态的动作分布。
-
前人工作 (Previous Works):
- 基于遥操作的机器人数据采集: 如 ALOHA 系统,通过“木偶”式的设备实现了直观的遥操作。局限性: 必须连接到真实机器人上进行数据采集,限制了采集环境的多样性,成本高昂。
- 基于人类视频的学习: 从 YouTube 等网络视频中学习。局限性: 存在巨大的
形态差异,缺乏精确的动作标签,导致技能迁移非常困难。 - 先前的手持夹爪设备: 如 Grasping in the Wild、Dobb-E 等工作。它们是 UMI 最直接的先行者,证明了手持设备在缩小
形态差异方面的潜力。局限性: 这些设备在动作捕捉上存在问题:1) 依赖Structure-from-Motion (SfM)恢复动作,存在尺度模糊和精度不高的问题;2) 难以捕捉快速、动态的动作;3) 采集的数据主要用于学习简单的抓取或准静态的取放任务,未能展示更复杂技能的迁移。
-
差异化分析 (Differentiation): UMI 相比于之前的同类工作,其核心创新在于系统性地解决了从数据采集到策略部署的全链路关键技术瓶颈:
- 观测信息更丰富: 通过
鱼眼镜头和侧面镜子提供更广的视野和隐式深度信息,解决了视觉上下文不足的问题。 - 动作追踪更精确、更鲁棒: 采用
IMU辅助的视觉 SLAM (ORB-SLAM3),能够精确恢复带真实尺度的 6DoF 姿态,并能处理快速运动和短暂视觉丢失。 - 解决了延迟不匹配问题: 创造性地提出了
推理时延匹配机制,弥合了零延迟的示教数据与存在各种硬件延迟的机器人部署环境之间的鸿沟。 - 实现了硬件无关性: 通过
相对轨迹表示,使策略不依赖于任何全局坐标系,可直接部署在不同机器人和不同环境中。
- 观测信息更丰富: 通过
4. 方法论 (Methodology - Core Technology & Implementation Details)
UMI 的方法论分为两大块:示教接口设计 (硬件) 和策略接口设计 (软件)。
A. 示教接口设计 (Demonstration Interface Design)
UMI 的硬件是一个手持的、3D 打印的平行颚夹爪,上面只安装了一个 GoPro 相机作为唯一的传感器。其设计目标是仅用一个腕载相机就能捕捉到足够丰富的信息。

上图(图像8)展示了 UMI 硬件和观察空间的核心设计。左侧为手持示教装置,中间为机器人看到的鱼眼视图,右侧为部署在机器人上的相同装置。
-
HD1. 腕载相机作为输入 (Wrist-mounted cameras):
- 核心思想: 在示教和部署时,使用完全相同的相机和夹爪配置,并将其固定在手腕/末端执行器上。
- 优点: 1) 最小化观测形态差异,机器人看到的和人示教时看到的高度一致;2) 无需标定,相机与夹爪相对位置固定,系统鲁棒性强;3) 高度便携,无需外部相机;4) 自带数据增强,相机运动天然地改变了背景,使策略更关注任务本身。
-
HD2. 鱼眼镜头提供视觉上下文 (Fisheye Lens):
-
核心思想: 使用 155° 的鱼眼镜头来扩大视野范围。直接将原始的、带有畸变的鱼眼图像作为策略输入。
-
优点: 1) 提供了足够大的视野,即使目标物体不在正前方也能看到;2) 鱼眼畸变天然地保留了中心区域的分辨率,压缩了边缘信息,比校正后的图像更适合学习。

-
上图(图像9)对比了原始鱼眼图像 (a) 和矫正后的图像 (b)。矫正后的图像在边缘处被严重拉伸,而中心重要区域被压缩,不利于学习。
- HD3. 侧面镜子实现隐式立体视觉 (Side mirrors for implicit stereo):
-
核心思想: 在相机视野两侧放置镜子,从镜子中可以看到不同视角的场景,如同增加了两个虚拟相机,从而为单目相机提供了深度线索。
-
实现细节: 将镜子中的图像内容进行数字反射 (digitally reflect) 处理后再输入给策略,这样物体在主视图和镜像视图中的朝向就是一致的,便于视觉编码器学习。

-
上图(图像10)解释了侧镜原理。(a) 展示了镜子如何创建虚拟相机;(b) 展示了实际效果;(c) 展示了数字反射处理,使得杯子把手在三个视图中朝向一致。
-
HD4. IMU 辅助的追踪 (IMU-aware tracking):
- 核心思想: 利用 GoPro 内置的
IMU数据(加速度计和陀螺仪),结合视觉信息,使用视觉-惯性 SLAM算法 (ORB-SLAM3) 来追踪夹爪的 6DoF 姿态。 - 优点: 1) 即使在快速运动导致图像模糊或场景缺乏纹理时,也能保持追踪;2) 能够恢复真实的公制尺度 (metric scale),这对于精确操作和双臂协调至关重要。
- 核心思想: 利用 GoPro 内置的
-
HD5. 连续的夹爪控制 (Continuous gripper control):
- 核心思想: 夹爪的开合宽度是连续可控的,而非简单的二元开/关。通过夹爪上的
AprilTag视觉标记来实时追踪其宽度。 - 优点: 能够执行更精细的操作,例如在投掷任务中精确控制释放物体的时机。
- 核心思想: 夹爪的开合宽度是连续可控的,而非简单的二元开/关。通过夹爪上的
-
HD6. 基于运动学的示教数据过滤 (Kinematic-based data filtering):
- 核心思想: 虽然数据采集过程与机器人无关,但在训练前,可以根据目标部署机器人的运动学模型(如工作空间、关节速度限制)对采集到的示教轨迹进行筛选,剔除机器人无法执行的动作。
B. 策略接口设计 (Policy Interface Design)
策略接口的设计目标是让学习到的策略与具体硬件平台解耦 (agnostic)。
-
PD1. 推理时延匹配 (Inference-time latency matching):
- 问题: 示教数据中,图像、姿态、夹爪宽度等信息是同步且零延迟的。但在机器人上部署时,相机有图像传输延迟,机器人控制器有执行延迟。这种训练与测试的延迟不匹配对于动态任务是致命的。
- 解决方案:
- 观测时延匹配: 分别测量各传感器(相机、机器人本体感知)的延迟。在推理时,以延迟最大的传感器(通常是相机)的时间戳为基准,通过插值来对齐其他传感器数据。
- 动作时延匹配: 测量机器人和夹爪的指令执行延迟。在发送控制指令时,提前发送以补偿该延迟,确保机器人在策略期望的时间点到达期望的位姿。同时,策略预测出的动作序列中,那些因延迟而已“过时”的动作会被丢弃。
-
PD2. 相对末端执行器位姿 (Relative end-effector pose):
- 问题: 如果使用绝对坐标(如相对于机器人基座的坐标),策略将与特定的机器人安装位置和场景绑定,无法泛化。
- 解决方案:
- 相对轨迹作为动作表示 (PD2.1): 策略输出的动作不是绝对位姿,也不是每一步的增量位姿(会累积误差),而是一系列相对于当前时刻末端执行器位姿的未来位姿变换。这种表示对追踪误差和相机位移更鲁棒。
- 相对轨迹作为本体感知 (PD2.2): 输入给策略的历史位姿信息同样是相对轨迹,这使得整个系统无需标定,即使在执行中移动机器人基座,只要目标在工作空间内,任务仍能继续。
- 相对夹爪间本体感知 (PD2.3): 对于双臂任务,将一个夹爪相对于另一个夹爪的位姿作为额外的输入信息。这对于需要紧密协调的双臂任务至关重要。
5. 实验设置 (Experimental Setup)
-
数据集 (Datasets):
- 所有数据均由作者使用 UMI 夹爪自行采集。
- 能力实验数据集:
杯子摆放 (Cup Arrangement): 305 个示教。动态投掷 (Dynamic Tossing): 280 个示教。双臂衣物折叠 (Bimanual Cloth Folding): 250 个示教。洗碗 (Dish Washing): 258 个示教。
- 泛化实验数据集:
野外杯子摆放 (In-the-wild Cup Arrangement): 在 30 个不同地点(家庭、办公室、餐厅等)采集了 1400 个示教,使用了 15 种不同的杯子。
-
评估指标 (Evaluation Metrics):
- 主要指标是任务成功率 (Success Rate)。每个任务的成功标准都在附录中有详细定义,由人类操作员根据预设规则进行判断。例如,
杯子摆放要求杯子被正立放置在碟子上,且杯柄朝向特定角度范围内。
- 主要指标是任务成功率 (Success Rate)。每个任务的成功标准都在附录中有详细定义,由人类操作员根据预设规则进行判断。例如,
-
对比基线 (Baselines):
- 实验主要通过消融研究 (Ablation Studies) 来验证各个设计组件的有效性。对比的基线包括:
无鱼眼镜头: 将图像裁剪成普通相机视野。其他动作空间: 对比绝对动作 (Absolute Action)和增量动作 (Delta Action)。无侧面镜子/未处理的镜子图像。无时延匹配。无夹爪间相对位姿(用于双臂任务)。未使用 CLIP 预训练的视觉编码器。无野外数据训练(用于泛化实验)。
- 实验主要通过消融研究 (Ablation Studies) 来验证各个设计组件的有效性。对比的基线包括:
6. 实验结果与分析 (Results & Analysis)
核心结果分析 (Core Results Analysis)
-
杯子摆放 (精确操作 & 多模态)
- 结果: UMI 取得了 100% (20/20) 的成功率。在另一台 Franka 机器人上部署相同策略也达到了 90% (18/20) 的成功率,展示了跨机器人平台的泛化能力。
- 消融分析:
无鱼眼镜头:成功率降至 55%。表明广阔视野对于定位物体和规划动作至关重要。绝对动作:成功率仅 25%,因微小的标定误差导致动作偏移。增量动作为 80%。这证明了相对轨迹表示的鲁棒性。侧面镜子:经过数字反射处理的镜子图像将成功率从 90%(无镜子)提升到 100%,证明了其提供的隐式深度信息有助于精确操作。
-
动态投掷 (动态操作)
- 结果: UMI 取得了 87.5% 的成功率。
- 消融分析:
无时延匹配:成功率骤降至 57.5%。实验观察到,没有延迟匹配的策略动作明显抖动,释放物体的时机也不准。这强有力地证明了时延匹配对于动态任务是不可或缺的。
-
双臂衣物折叠 (双臂协调)
- 结果: UMI 取得了 70% (14/20) 的成功率。
- 消融分析:
无夹爪间相对位姿:成功率降至 30% (6/20)。没有这个信息,两个手臂的动作经常不同步,导致抓取失败。这证明了明确的臂间相对关系对于紧密协调任务至关重要。
-
洗碗 (长时程 & 复杂感知)
- 结果: UMI 取得了 70% (14/20) 的成功率。
- 消融分析:
-
未使用 CLIP 预训练的 ViT 视觉编码器:使用从零开始训练的ResNet-34,成功率为 0%。这表明对于视觉上复杂、需要理解“清洁度”等语义概念的任务,强大的预训练视觉模型是必需的。
-
上图(图像3)展示了 UMI 策略在洗碗任务中对各种扰动(如移动基座、新物体、光照变化、中途添加污渍)的鲁棒性。
- 野外泛化实验
- 结果: 在两个前所未见的环境中,对训练集内和外的杯子进行测试,综合成功率达到了 71.7%。
- 消融分析:
无野外数据训练:将在实验室单一环境采集的数据训练出的策略,部署到新环境中,成功率为 0%。机器人甚至不会朝杯子移动。
- 结论: 这个结果清晰地表明,要想实现泛化,大规模、多样化的野外数据是关键,仅靠强大的预训练模型和单一环境的数据是远远不够的。
其他分析
-
数据采集效率:

上图(图像4)的 (d) 部分显示,使用 UMI 夹爪采集数据的速度远超传统的遥操作系统(快 3 倍以上),虽然慢于裸手示教,但已经达到了很高的效率。
-
SLAM 追踪精度:

上图(图像5)展示了使用 MoCap 系统进行精度评测的场景。结果表格(图中未完整显示,原文 Table II)表明,单个夹爪的绝对轨迹误差在 6.1mm 和 3.5° 左右,双臂间的相对位姿误差在 10.1mm 和 0.8° 左右,精度足够高,可以支持复杂操作任务。
7. 总结与思考 (Conclusion & Personal Thoughts)
-
结论总结 (Conclusion Summary):
- 本文成功提出了 UMI,一个实用、低成本且可扩展的框架,它通过精心设计的软硬件接口,有效地解决了从野外人类示教到多平台机器人部署的技能迁移问题。
- UMI 框架使得学习和部署之前难以实现的动态、双臂、精确和长时程操作任务成为可能。
- 实验强有力地证明了,在野外采集的多样化数据是实现机器人策略泛化能力的关键。UMI 的便携性和易用性为构建这样的大规模、去中心化数据集铺平了道路。
-
局限性与未来工作 (Limitations & Future Work):
- 依赖数据后处理: 当前方法依赖于在训练前对数据进行运动学过滤,未来可以研究能够直接学习硬件约束的策略。
- 对环境纹理有要求: 基于视觉 SLAM 的追踪在纹理稀疏的环境(如纯白墙壁的房间)中可能会失败。
- 效率仍有提升空间: UMI 夹爪比人手更重更笨拙,采集效率仍低于人类直接操作。未来可以探索更轻便的材料和更符合人体工程学的设计。
-
个人启发与批判 (Personal Insights & Critique):
- 重大启发: UMI 的核心思想——“在不牺牲数据质量的前提下,最大限度地降低数据采集的门槛”——是推动机器人学习走向实用的关键一步。它巧妙地平衡了遥操作(质量高、多样性差)和人类视频(多样性高、质量差)之间的矛盾。“为数据采集设计专用硬件”的思路,而不是纯粹依赖现有设备,是本文成功的关键。
- 系统工程的胜利: UMI 的成功并非源于单一的算法突破,而是对整个机器人学习流程中各个环节(感知、追踪、数据表示、时延补偿)的细致入微的工程优化和系统整合。这提醒我们,在 AI 驱动的机器人领域,优秀的系统设计和对物理世界细节的关注同样重要。
- 潜在问题与展望:
- 虽然论文展示了在 6DoF 和 7DoF 机械臂上的成功,但其能否泛化到形态差异更大的机器人(如灵巧手、移动操作平台)上仍有待验证。
- 当前的数据采集仍需人类亲力亲为。未来,是否可以结合 UMI 的高质量数据与更大规模但质量较低的网络视频数据,进行联合训练,可能会是提升泛化能力的下一个方向。
- UMI 的开源将极大地促进社区的发展,有望催生出一个庞大、多样、去中心化的机器人操作数据集,这可能是其对整个领域最深远的影响。
相似论文推荐
基于向量语义检索推荐的相关论文。