Learning Fine-Grained Bimanual Manipulation with Low-Cost Hardware
TL;DR 精炼摘要
该研究旨在使低成本硬件通过学习实现精细双臂操作,克服了对高精度设备的依赖。作者利用定制遥操作界面和创新ACT算法,结合模仿学习有效应对了演示中的误差累积。实验证明,机器人仅用10分钟演示数据,便能以80-90%成功率完成6项复杂真实任务。
摘要
Fine manipulation tasks, such as threading cable ties or slotting a battery, are notoriously difficult for robots because they require precision, careful coordination of contact forces, and closed-loop visual feedback. Performing these tasks typically requires high-end robots, accurate sensors, or careful calibration, which can be expensive and difficult to set up. Can learning enable low-cost and imprecise hardware to perform these fine manipulation tasks? We present a low-cost system that performs end-to-end imitation learning directly from real demonstrations, collected with a custom teleoperation interface. Imitation learning, however, presents its own challenges, particularly in high-precision domains: errors in the policy can compound over time, and human demonstrations can be non-stationary. To address these challenges, we develop a simple yet novel algorithm, Action Chunking with Transformers (ACT), which learns a generative model over action sequences. ACT allows the robot to learn 6 difficult tasks in the real world, such as opening a translucent condiment cup and slotting a battery with 80-90% success, with only 10 minutes worth of demonstrations. Project website: https://tonyzhaozh.github.io/aloha/
思维导图
论文精读
中文精读
1. 论文基本信息 (Bibliographic Information)
- 标题 (Title): Learning Fine-Grained Bimanual Manipulation with Low-Cost Hardware (使用低成本硬件学习精细双臂操作)
- 作者 (Authors): Tony Z. Zhao (斯坦福大学), Vikash Kumar (Meta), Sergey Levine (加州大学伯克利分校), Chelsea Finn (斯坦福大学)
- 发表期刊/会议 (Journal/Conference): 本文为预印本 (Preprint),发布于 arXiv。arXiv 是一个广泛用于物理学、数学、计算机科学等领域学者分享最新研究成果的平台。
- 发表年份 (Publication Year): 2023
- 摘要 (Abstract): 机器人执行精细操作任务(如穿扎带、装电池)通常需要高精度的机器人、传感器和复杂的校准,成本高昂。本文探讨了能否通过学习让低成本、低精度的硬件完成这些任务。研究者们提出了一个低成本系统,该系统通过一个定制的遥操作界面直接从真实演示中进行端到端的模仿学习。为了解决模仿学习中存在的误差累积和人类演示非平稳性的挑战,他们开发了一种新颖的算法——
Action Chunking with Transformers (ACT),该算法学习一个动作序列的生成模型。实验证明,ACT 使得机器人仅用 10 分钟的演示数据,就能以 80-90% 的成功率学会在真实世界中完成 6 项困难任务,例如打开半透明的酱料杯和装入电池。 - 原文链接 (Source Link):
-
ArXiv 页面: https://arxiv.org/abs/2304.13705
-
PDF 链接: http://arxiv.org/pdf/2304.13705
-
发布状态: 预印本
-
2. 整体概括 (Executive Summary)
-
研究背景与动机 (Background & Motivation - Why):
- 核心问题: 精细双臂操作任务(例如,打开小杯盖、穿魔术贴)对机器人来说极具挑战性,因为它们要求毫米级的精度、对接触力的精细协调以及实时的闭环视觉反馈。
- 重要性与挑战: 传统上,解决这类问题依赖于价格昂贵(数十万美元)的工业级机器人、高精度传感器和复杂的系统校准。这使得相关研究的门槛非常高,难以普及和复现。现有研究存在一个明显的空白(Gap):如何在一个普通研究实验室能够负担得起的成本范围内,实现高难度的精细操作?
- 切入点/创新思路: 本文的思路是,与其依赖昂贵的硬件来保证精度,不如利用机器学习的强大能力,让一个低成本、低精度的系统通过模仿人类的灵巧操作来学习如何完成任务。这模仿了人类自身的行为模式——我们并非依靠工业级的本体感知,而是通过学习和视觉反馈来补偿误差。为此,本文从硬件和软件两个层面同时入手,构建了一个完整的、可复现的解决方案。
-
核心贡献/主要发现 (Main Contribution/Findings - What):
-
贡献一:ALOHA 低成本遥操作系统。 提出了一个名为
ALOHA(A Low-cost Open-source Hardware System for Bimanual Teleoperation) 的硬件平台。该系统总成本低于 2 万美元,使用现成的低成本机械臂和 3D 打印部件构建,易于组装和维修。它能够采集高质量、高频率 (50Hz) 的双臂操作演示数据。 -
贡献二:ACT 模仿学习算法。 提出了一个名为
ACT(Action Chunking with Transformers) 的新颖模仿学习算法。该算法的核心思想是预测一整段(一个 chunk)未来的动作序列,而不是一次只预测一个动作。这种方法有效地缓解了模仿学习中常见的“误差累积”问题,并能更好地处理人类演示中的停顿等非马尔可夫行为。 -
关键发现: 结合
ALOHA和ACT,该系统取得了令人瞩目的成果。仅需约 10 分钟(50 次)的人类演示,机器人就能在 6 个复杂的真实世界任务中达到 80-90% 的高成功率,证明了通过先进的学习算法可以有效弥补低成本硬件的精度不足。
-
3. 预备知识与相关工作 (Prerequisite Knowledge & Related Work)
-
基础概念 (Foundational Concepts):
- 模仿学习 (Imitation Learning - IL): 一种机器学习方法,让智能体(如机器人)通过观察和模仿专家的演示来学习如何执行任务,而不是通过试错(如强化学习)。
- 行为克隆 (Behavioral Cloning - BC): 最简单的模仿学习形式,它将学习过程视为一个监督学习问题:将专家的观测(如摄像头图像)作为输入 (X),将其对应的动作(如电机指令)作为标签 (Y),然后训练一个策略网络来预测在给定观测下的正确动作。
- 误差累积 (Compounding Errors): 行为克隆的一个致命弱点。在执行任务时,策略网络预测的动作不可避免地会存在微小误差。这个误差会导致机器人进入一个新的状态,这个状态可能从未在专家的演示数据中出现过。在新的、陌生的状态下,策略网络更容易犯错,导致更大的偏差,如此恶性循环,最终导致任务失败。
- 遥操作 (Teleoperation): 指人类操作员远程控制机器人执行任务。本文采用
关节空间映射 (joint-space mapping),即操作员控制的“领导者”小机械臂的每个关节角度直接映射到执行任务的“跟随者”大机械臂的对应关节,这种方式比计算复杂的任务空间映射 (task-space mapping)(即映射末端执行器的位置和姿态)延迟更低、更稳定。 - Transformer: 一种最初为自然语言处理设计的深度学习架构,其核心是
自注意力机制 (self-attention mechanism),非常擅长处理和生成序列数据。在本文中,它被用来整合多视图的图像信息并生成连贯的动作序列。 - 条件变分自编码器 (Conditional Variational Autoencoder - CVAE): 一种生成模型。在本文中,它被用来学习人类演示数据中的多样性和不确定性。人类在执行同一任务时,即使在相同的状态下,也可能采取略微不同的动作。CVAE 通过引入一个隐变量 z 来捕捉这种“风格”上的变化,使得模型能够学习到一个更鲁棒、更平滑的策略,而不仅仅是死记硬背一个固定的动作序列。
-
前人工作 (Previous Works):
- 模仿学习领域: 许多工作致力于改进
BC,例如引入历史信息、使用不同损失函数或正则化。但本文关注的核心是如何在一个低成本的精细操作场景下,有效解决误差累积问题。 - 解决误差累积: 经典方法如
DAgger需要在策略执行过程中不断请求专家进行在线纠正,这对于遥操作来说既耗时又不自然。其他离线方法通常局限于低维状态或特定任务(如抓取)。本文的ACT算法从一个全新的角度——通过预测动作序列来缩短任务的有效决策步数——来解决这个问题,且完全兼容高维的像素输入。 - 双臂操作领域: 早期的双臂操作依赖于精确的环境模型和经典控制理论。近年来的工作引入了学习方法,但大多使用极其昂贵的机器人(如达芬奇手术机器人或 ABB YuMi)。本文与 Kim 等人的工作 [32] 最为相似,都采用了关节空间映射的遥操作。但本文的核心区别在于完全使用现成的低成本机器人和 3D 打印部件,不依赖任何定制的传感器或精密加工件,极大地降低了硬件门槛。
- 模仿学习领域: 许多工作致力于改进
-
技术演进 (Technological Evolution): 机器人操作技术正从依赖高成本、高精度硬件的经典控制方法,向着利用数据驱动的学习方法以赋能低成本、通用硬件的方向发展。本文正是这一趋势的典型代表,它展示了先进的模仿学习算法可以成为弥补硬件精度短板的关键。
-
差异化分析 (Differentiation): 与以往的工作相比,本文的核心创新在于其系统性和可及性。它不只是提出了一个新算法,而是提供了一套完整的、端到端的、低成本的、开源的解决方案 (ALOHA + ACT)。这个方案使得之前只有顶级实验室才能进行的研究,现在变得更加普及,极大地推动了该领域的发展。
ACT算法本身的核心区别在于动作分块 (action chunking),这是一种简单而有效的新思路,用于对抗模仿学习中的核心挑战。
4. 方法论 (Methodology - Core Technology & Implementation Details)
本文的方法论主要包含两大部分:ALOHA 硬件遥操作系统和 ACT 模仿学习算法。
ALOHA: 低成本开源硬件系统
ALOHA 的设计遵循五大原则:低成本、多功能、用户友好、易于维修和易于构建。
-
硬件构成:
- 执行臂 (Follower): 两台 ViperX 6自由度 (DoF) 机械臂,单台成本约 5600 美元。
- 控制臂 (Leader): 两台更小的 WidowX 机械臂,用于遥操作。操作员通过反向驱动 (backdriving) 这两台小臂来控制大臂。
- 定制部件: 3D 打印的“透视”夹爪(便于观察操作对象)和“手柄与剪刀”机制(让操作更省力)。
- 视觉系统: 四个罗技 C922x 网络摄像头,提供多视角 RGB 图像(两个固定,两个安装在机械臂手腕上)。
- 控制频率: 系统以 50 Hz 的高频率进行遥操作和数据记录。
-
核心优势: 采用
关节空间映射的遥操作方式,相比任务空间映射具有以下优点:-
避免奇异点问题: 无需复杂的逆运动学 (IK) 计算,控制带宽更高,延迟更低。
-
物理阻尼: 控制臂本身的重量可以帮助操作员稳定动作,过滤掉微小的手部抖动。
ALOHA系统展示了强大的能力,能够完成穿扎带、装内存条,甚至玩乒乓球等高难度任务,其性能可与成本高出 10 倍以上的商业系统相媲美。
-
ACT: 使用 Transformer 进行动作分块
ACT 算法是本文软件层面的核心创新,旨在解决模仿学习中的关键挑战。
-
方法原理 (Methodology Principles):
- 动作分块 (Action Chunking): 核心思想是,策略网络 不再预测单步动作 ,而是预测未来 k 步的动作序列 。即学习一个映射 。
- 直觉: 这种方法将一个长时程任务的决策步数减少了 k 倍,从而显著缓解了误差累积。同时,它能将人类演示中一些暂时的、非马尔可夫的行为(如短暂的停顿)包含在一个“动作块”内进行建模,避免了单步模型对此类行为的困惑。
- 时间集成 (Temporal Ensembling): 为了避免每 k 步才更新一次观测导致的动作卡顿,
ACT在每个时间步都进行一次策略查询,生成一个 k 步的动作序列。这样,对于任意一个时间步 t,都会有多个重叠的动作块对其动作做出预测。最终执行的动作 是对这些预测值的加权平均,权重随预测的新旧程度呈指数衰减。这使得机器人的动作既能快速响应新观测,又保持了高度的平滑性。 - 使用 CVAE 建模人类数据: 为了处理人类演示的随机性和多模态性,
ACT将策略网络训练成一个CVAE。- 训练过程: CVAE 编码器 (Encoder) 将观测和真实的动作序列压缩成一个隐变量 z(代表动作“风格”)。CVAE 解码器 (Decoder),也就是策略本身,学习在给定观测和 z 的条件下,重建出原始的动作序列。
- 测试过程: 编码器被丢弃。在执行任务时,将 z 设为先验分布的均值(即零向量),从而得到一个确定的、平滑的动作序列输出。
- 动作分块 (Action Chunking): 核心思想是,策略网络 不再预测单步动作 ,而是预测未来 k 步的动作序列 。即学习一个映射 。
-
方法步骤与流程 (Steps & Procedures):
-
训练 (Algorithm 1):
- 从演示数据集 中采样一个观测 和对应的未来 k 步动作序列 。
- 使用 CVAE 编码器 从 和本体感知状态 中推断出隐变量 z。
- 使用 CVAE 解码器(策略) 从观测 和 z 中预测动作序列 。
- 通过最小化重建损失和 KL 散度正则化项来更新模型参数 和 。
-
推理 (Algorithm 2):
- 在每个时间步 t,获取当前观测 。
- 将 z 设为 0,用策略 预测未来 k 步的动作序列 。
- 将这个序列中的每个动作添加到对应未来时间步的缓冲区中。
- 从当前时间步 t 的缓冲区中取出所有预测动作,进行时间集成(加权平均),得到最终要执行的动作 。
-
-
数学公式与关键细节 (Mathematical Formulas & Key Details):
- CVAE 目标函数: 整个模型通过优化标准的 VAE 损失函数进行训练:
- 是重建损失,衡量预测动作序列 与真实动作序列 之间的差异。本文使用 L1 损失 (MSE in algorithm is a typo, text says L1 loss)。
- 是 KL 散度正则化项,它约束编码器 推断出的后验分布与一个标准正态分布先验 保持接近。其形式为:。
- 是一个超参数,用于平衡重建质量和正则化强度。
- CVAE 目标函数: 整个模型通过优化标准的 VAE 损失函数进行训练:
-
网络架构:
ACT的编码器和解码器都基于 Transformer 实现。- 图像编码: 4 路 RGB 图像首先通过
ResNet18提取特征,然后展平并加入2D 正弦位置编码以保留空间信息。 - CVAE 解码器 (策略网络):
-
一个 Transformer Encoder 融合来自所有 4 个摄像头的视觉特征、当前的关节位置以及隐变量 z。
-
一个 Transformer Decoder 以固定的位置嵌入作为查询 (Query),并利用 Encoder 的输出作为键 (Key) 和值 (Value),通过交叉注意力机制生成长度为 k 的动作序列。

-
- 图像编码: 4 路 RGB 图像首先通过
5. 实验设置 (Experimental Setup)
-
数据集 (Datasets):
-
实验涵盖了 6 个真实世界任务 和 2 个 MuJoCo 仿真任务。
-
真实世界任务:
Slide Ziploc(拉开密封袋),Slot Battery(装电池),Open Cup(开杯盖),Thread Velcro(穿魔术贴),Prep Tape(准备胶带),Put On Shoe(穿鞋)。这些任务涉及透明、半透明、形变物体,对感知和控制都提出了巨大挑战。 -
仿真任务:
Transfer Cube(传递方块),Bimanual Insertion(双臂插入)。 -
数据采集: 每个任务收集 50-100 次人类演示,总数据量约为 10-20 分钟/任务。对于仿真任务,分别收集了专家脚本数据和人类遥操作数据。

-
-
评估指标 (Evaluation Metrics):
- 主要指标是 任务成功率 (Success Rate, %)。
- 对于每个任务,成功率被分解为几个关键子任务的成功率,以便更详细地分析失败原因。例如,
Slot Battery任务被分解为Grasp(抓取电池),Place(放入插槽),Insert(完全推入)。
-
对比基线 (Baselines):
-
BC-ConvMLP: 一种最常用的简单行为克隆基线,使用卷积网络处理图像,然后与关节位置拼接后输入 MLP 预测单步动作。 -
BeT(Behavior Transformers): 一种基于 Transformer 的模仿学习方法,但它预测离散化的单步动作,且视觉编码器是预训练后冻结的。 -
RT-1(Robotics Transformer 1): 另一种基于 Transformer 的方法,同样预测离散化的单步动作。 -
VINN(Visual Imitation through Nearest Neighbors): 一种非参数方法,通过在演示数据集中寻找与当前观测最相似的视觉特征,并使用 K 最近邻来决定动作。
-
6. 实验结果与分析 (Results & Analysis)
-
核心结果分析 (Core Results Analysis):
- 根据论文中的 Table I 和 Table II,
ACT在所有 8 个任务上的表现都显著优于所有四个基线方法,差距巨大。 - 在两个真实世界任务
Slide Ziploc和Slot Battery中,ACT分别取得了 88% 和 96% 的最终成功率,而其他所有基线方法的成功率均为 0%,它们甚至无法完成任务的第一个子步骤。 - 在更难的
Open Cup,Prep Tape,Put On Shoe等任务中,ACT依然取得了 64% - 92% 的高成功率,而表现最好的基线BeT成功率同样为 0%。 - 分析: 这一结果强有力地证明了
ACT中动作分块策略的有效性。基线方法都采用单步预测,极易受到误差累积的影响,导致在长时程、高精度的任务中迅速偏离正轨。而ACT通过预测动作序列,大大降低了决策频率,从而有效抑制了误差的累积。
- 根据论文中的 Table I 和 Table II,
-
消融实验/参数分析 (Ablation Studies / Parameter Analysis): 论文通过一系列消融实验,验证了
ACT各个设计组件的有效性,结果展示在 Figure 8 (图像 6) 中。
-
(a) 动作分块 (Action Chunking) 的重要性: 实验表明,随着分块大小 k 的增加,
ACT的成功率显著提升,在 时达到峰值。这证明了动作分块是提升性能的关键。更有趣的是,将动作分块应用于基线BC-ConvMLP和VINN后,它们的性能也得到了大幅提升,说明这是一个具有普适性的有效策略。 -
(b) 时间集成 (Temporal Ensembling) 的作用:
时间集成为ACT和BC-ConvMLP等参数化模型带来了约 3-4% 的性能提升,使得动作更加平滑、鲁棒。 -
(c) CVAE 训练的必要性: 当训练数据来自确定性的专家脚本时,使用 CVAE 与否差别不大。但当使用充满噪声和多模态行为的人类演示数据时,移除 CVAE 会导致成功率从 35.3% 骤降至 2%。这证明 CVAE 对于学习真实世界中的复杂人类行为至关重要。
-
(d) 高频控制的必要性 (用户研究): 用户研究表明,将遥操作频率从 50 Hz 降低到 5 Hz,完成精细操作任务的时间会增加 62%。这说明,高频率的闭环控制对于精细操作至关重要,也反过来证明了
ALOHA系统采集高频数据的必要性。
-
7. 总结与思考 (Conclusion & Personal Thoughts)
-
结论总结 (Conclusion Summary): 本文成功地展示了一个低成本(< $20k)、开源的系统,能够通过模仿学习解决以往只有昂贵设备才能完成的精细双臂操作任务。该系统的成功归功于两个核心部分的协同作用:(1) ALOHA 硬件系统,它能够采集高保真、高频率的人类演示数据;(2) ACT 模仿学习算法,它通过
动作分块和CVAE建模,有效克服了模仿学习中的误差累积和人类数据多模态的挑战。 -
局限性与未来工作 (Limitations & Future Work):
- 硬件局限性:
ALOHA系统由于电机扭矩限制,难以完成需要大力气的任务(如拧紧瓶盖)。同时,由于只有平行夹爪,它也无法完成需要多指协调或类似指甲的精细操作(如打开药瓶、揭开胶带)。 - 算法局限性:
ACT在一些感知难度极高的任务上表现不佳,例如拆开糖果包装(包装纸的反光和形变导致难以定位撕开处)和在桌面上打开平放的密封袋(袋子的形变不可预测)。 - 未来方向: 作者认为,利用预训练模型、更多样化的数据和更强大的感知模块是解决这些极端困难任务的有希望的方向。
- 硬件局限性:
-
个人启发与批判 (Personal Insights & Critique):
- 启发:
- 系统性思维的重要性: 本文最大的亮点在于其完整的系统工程思维。它不仅仅是算法创新,更是硬件、数据、算法的完美结合,展示了解决复杂机器人问题需要一个全面的、端到端的视角。
- 让复杂研究“平民化”: 通过开源低成本的
ALOHA系统,本文极大地降低了精细操作研究的门槛,使得更多研究者能够参与进来,这将极大地推动整个社区的发展。 - 简单而深刻的算法思想:
动作分块这个想法非常直观和简单,但却非常有效地解决了模仿学习中的一个核心难题。这启发我们,在复杂的深度学习模型之外,一些结构性的、源于问题本质的巧妙设计可能带来更大的突破。
- 批判与思考:
- 泛化能力问题: 当前系统为每个任务单独训练一个模型,是一种“单任务”学习范式。虽然效果很好,但这离通用机器人操作还有距离。未来的工作需要探索如何将
ACT扩展到多任务学习甚至零样本泛化的场景。 - 数据依赖性: 每个任务仍需 10 分钟的专家演示。虽然相比传统方法已经大幅减少,但若要扩展到成百上千种任务,数据采集依然是一个瓶颈。如何进一步减少对专家数据的依赖(例如,结合少量演示和大量无监督探索)是值得思考的方向。
- 感知仍是瓶颈: 从失败案例中可以看出,尽管
ACT的控制策略很强大,但当面对极端复杂的感知挑战(如透明、反光、大形变物体)时,端到端的策略仍会失效。这表明,更先进的视觉表示学习或将显式的物体状态估计与策略学习相结合,可能是未来的一个重要方向。
- 泛化能力问题: 当前系统为每个任务单独训练一个模型,是一种“单任务”学习范式。虽然效果很好,但这离通用机器人操作还有距离。未来的工作需要探索如何将
- 启发:
相似论文推荐
基于向量语义检索推荐的相关论文。