论文状态:已完成

AnyBimanual: Transferring Unimanual Policy for General Bimanual Manipulation

发表:2024/12/09
原文链接
价格:0.10
已有 1 人读过
本分析由 AI 生成,可能不完全准确,请以原文为准。

TL;DR 精炼摘要

本文提出了一种名为AnyBimanual的方法,旨在通过少量双臂演示数据,将单臂策略迁移为通用双臂操作策略。该方法包含技能管理器和视觉对齐器两个核心模块,成功提升了在RLBench2上12个模拟任务中的成功率17.33%,并在9个真实任务中达到了84.62%的成功率。

摘要

AnyBimanual: Transferring Unimanual Policy for General Bimanual Manipulation Guanxing Lu 1 , 2 ⋆ , Tengbo Yu 1 , 2 ⋆ , Haoyuan Deng 3 , Season Si Chen 1 , 2 , Yansong Tang 1 , 2 † , Ziwei Wang 3 ⋆ Equal contributor † Corresponding author 1 Tsinghua Shenzhen International Graduate School, 2 Tsinghua University 3 School of Electrical and Electronic Engineering, Nanyang Technological University { lgx23@mails.,ytb23@mails.,season.chen@,tang.yansong@ } sz.tsinghua.edu.cn { E230112@e.,ziwei.wang@ } ntu.edu.sg https://anybimanual.github.io/ Abstract General-purpose bimanual manipulation is challeng- ing due to high-dimensional action spaces and expensive data collection. In contrast, unimanual policy has re- cently demonstrated impressive generalizability across a wide range of task…

论文精读

中文精读

1. 论文基本信息

1.1. 标题

AnyBimanual: Transferring Unimanual Policy for General Bimanual Manipulation (AnyBimanual:将单臂策略迁移至通用双臂操作)

1.2. 作者

Guanxing Lu, Tengbo Yu, Haoyuan Deng, Season Si Chen, Yansong Tang, Ziwei Wang

  • 机构: 清华大学深圳国际研究生院 (Tsinghua Shenzhen International Graduate School), 清华大学 (Tsinghua University), 南洋理工大学 (Nanyang Technological University)。

1.3. 发表期刊/会议

ICCV 2025 (International Conference on Computer Vision)

  • 说明: 计算机视觉领域的顶级会议,具有极高的学术声誉和影响力。

1.4. 发表年份

2025 (根据提供的元数据及论文页眉)

1.5. 摘要

通用双臂操作(General-purpose bimanual manipulation)面临两大挑战:极高维度的动作空间和高昂的数据收集成本。相比之下,单臂(Unimanual)策略近年来得益于模型参数和训练数据的扩展,展现出了惊人的泛化能力。本文提出了一种名为 AnyBimanual 的即插即用(plug-and-play)方法,旨在通过少量的双臂演示数据,将预训练的单臂策略迁移为通用的双臂操作策略。该方法包含两个核心模块:

  1. 技能管理器 (Skill Manager): 动态调度从预训练单臂策略中发现的技能表示,将双臂指令分解为技能原语与任务导向补偿的线性组合。
  2. 视觉对齐器 (Visual Aligner): 生成空间软掩膜(soft masks)以缓解单臂与双臂系统之间的观测差异,旨在将每只手臂的视觉输入与单臂模型预训练时的输入对齐。 实验表明,AnyBimanual 在 RLBench2 的 12 个模拟任务上取得了显著优势,成功率比现有方法提高了 17.33%,并在 9 个真实世界任务中达到了 84.62% 的平均成功率。

1.6. 原文链接

https://openaccess.thecvf.com/content/ICCV2025/papers/Lu_AnyBimanual_Transferring_Unimanual_Policy_for_General_Bimanual_Manipulation_ICCV_2025_paper.pdf (发布状态:已发表)

2. 整体概括

2.1. 研究背景与动机

  • 核心问题: 双臂机器人系统在家庭服务、手术和工业组装中潜力巨大,但训练通用的双臂操作策略非常困难。主要难点在于:
    1. 动作空间巨大: 两个机械臂协同工作使得动作维度倍增。
    2. 数据昂贵: 收集高质量的双臂遥操作演示数据需要复杂的设备和高昂的人力成本。
  • 现有局限: 现有的方法要么依赖大语言模型(LLM)进行高层规划(难以处理接触密集的低层动作),要么试图从头训练双臂基础模型(受限于数据稀缺)。一些简化方法(如固定“左手固定、右手操作”的角色分配)则限制了模型的通用性。
  • 创新思路: 既然单臂机器人基础模型(如 RT-1, Octo, PerAct)已经在海量数据上训练得很好,具备了通用的操作知识,为什么不直接将这些单臂知识“迁移”给双臂系统使用呢?

2.2. 核心贡献/主要发现

  1. 通用迁移框架 (AnyBimanual): 提出了一个与模型无关(model-agnostic)的框架,可以将任意预训练的单臂策略转换为双臂策略,且仅需少量双臂演示数据。

  2. 技能管理器 (Skill Manager): 设计了一种机制,能够从单臂策略中无监督地发现技能原语,并根据任务指令动态地为每只手臂调度技能组合。

  3. 视觉对齐器 (Visual Aligner): 解决了单臂模型在双臂场景下“水土不服”的问题,通过学习生成视觉掩膜,让单臂模型看到的画面更像它训练时见过的单臂场景,从而减少分布偏移。

  4. 显著的性能提升: 在模拟环境和真实世界中均大幅超越了当前的 SOTA(最先进)方法。

    下图(原文 Figure 1)直观展示了 AnyBimanual 如何作为中间层,将单臂策略的能力迁移到双臂任务中:

    Figure 1. AnyBimanual enables plug-and-play transferring from pretrained unimanual policies to bimanual manipulation policy, which preserves the generalizability with the proposed skill scheduling framework. 该图像是示意图,展示了AnyBimanual如何将预训练的单手策略迁移到双手操作策略。图中上方展示了单手策略的几个示例,下方则展示了通过AnyBimanual获得的可推广的双手策略。

3. 预备知识与相关工作

3.1. 基础概念

为了理解本文,初学者需要掌握以下核心概念:

  • 双臂操作 (Bimanual Manipulation): 指机器人同时使用两个机械臂协同完成任务。这比单臂操作复杂得多,因为需要考虑两臂之间的协调(同步或异步)以及避免碰撞。
  • 机器人基础模型 (Robotic Foundation Models): 类似于 NLP 领域的 GPT,指在海量机器人数据集(如 Open X-Embodiment)上预训练的大型模型(如 RT-1, RT-2, Octo)。它们通常是单臂模型,具备识别物体和执行基本动作(抓、放、推)的通用能力。
  • 体素 (Voxel): 三维空间中的像素。本文使用的基线模型 PerAct 基于体素网格来理解 3D 场景,而不是仅仅使用 2D 图像。
  • 行为克隆 (Behavior Cloning, BC): 一种模仿学习方法,机器人直接通过监督学习来模仿专家演示中的“状态-动作”对。
  • 稀疏表示 (Sparse Representation): 用尽可能少的基向量(在本文中是“技能原语”)的线性组合来表示一个复杂的信号。这意味着系统倾向于选择几个最相关的技能来描述当前动作,而不是所有技能的混合。

3.2. 前人工作与差异化

  • 基于 LLM/VLM 的方法: 利用 GPT-4 等模型进行高层任务分解。
    • 局限: 缺乏对物理接触和低层运动的精确控制。
  • 从头训练双臂模型: 如 Mobile ALOHA。
    • 局限: 高度依赖昂贵的双臂数据收集,难以扩展。
  • 基于角色的方法: 强制规定一只手固定物体,另一只手操作。
    • 局限: 无法处理需要双手灵活互动的任务(如交接物体)。
  • 本文 (AnyBimanual): 不依赖固定的角色分配,也不需要海量双臂数据。它核心在于挖掘和重用现有的单臂模型知识。

4. 方法论

4.1. 方法原理

AnyBimanual 的核心思想是:双臂任务可以分解为两个并发的单臂子任务。 系统包含两个并行运行的预训练单臂策略模型(分别控制左臂和右臂)。为了让这两个“单臂专家”在双臂场景下协同工作,引入了两个可学习的模块:技能管理器负责告诉每只手“做什么”(语言层面),视觉对齐器负责让每只手“看清楚”(视觉层面)。

下图(原文 Figure 2)展示了整体流程:

该图像是示意图,展示了在通用双手操作中,技能管理器和视觉对齐器的工作流程。图中包括从观察与指令提取技能原语,以及如何结合预训练的单手多模态策略。公式部分展示了技能表示与视觉表示的交互关系,具体为 `oldsymbol{d}_{ ext{left}}` 和 `oldsymbol{d}_{ ext{right}}`。 该图像是示意图,展示了在通用双手操作中,技能管理器和视觉对齐器的工作流程。图中包括从观察与指令提取技能原语,以及如何结合预训练的单手多模态策略。公式部分展示了技能表示与视觉表示的交互关系,具体为 oldsymbol{d}_{ ext{left}}oldsymbol{d}_{ ext{right}}

4.2. 核心方法详解 (逐层深入)

4.2.1. 技能管理器:调度单臂技能原语

问题: 给定一句双臂任务指令(例如“把红块递给右手”),如何将其翻译成左右手各自能理解的单臂指令? 方案: 技能管理器将单臂策略中的隐式知识建模为一组离散的技能原语 (Skill Primitives),并动态组合它们。

  1. 技能集合: 定义一个包含 KK 个技能原语的集合 Z={z1,z2,...,zK}\mathcal{Z} = \{z_1, z_2, ..., z_K\},其中每个 zkz_k 是一个嵌入向量。
  2. 动态调度与重构: 对于每一个时间步 tt,技能管理器预测每只手臂的权重 w^\hat{w} 和补偿项 ϵ\epsilon。单臂的语言嵌入 l^\hat{l} 被表示为技能原语的线性组合加上任务特定的补偿: l^tleft=k=1Kw^k,tleftzk+ϵtleft,l^tright=k=1Kw^k,trightzk+ϵtright \hat { l } _ { t } ^ { \mathrm { l e f t } } = \sum _ { k = 1 } ^ { K } \hat { w } _ { k , t } ^ { \mathrm { l e f t } } z _ { k } + \epsilon _ { t } ^ { \mathrm { l e f t } } , \quad \hat { l } _ { t } ^ { \mathrm { r i g h t } } = \sum _ { k = 1 } ^ { K } \hat { w } _ { k , t } ^ { \mathrm { r i g h t } } z _ { k } + \epsilon _ { t } ^ { \mathrm { r i g h t } }
    • 符号解释:
      • l^tarm\hat { l } _ { t } ^ { \mathrm { arm } }: 重构后的单臂语言嵌入(输入给单臂策略)。
      • w^k,tarm\hat { w } _ { k , t } ^ { \mathrm { arm } }: 第 kk 个技能原语在时间步 tt 的重要性权重。
      • zkz_k: 共享的技能原语向量。
      • ϵtarm\epsilon _ { t } ^ { \mathrm { arm } }: 任务导向的补偿项,用于补充具体任务特有的信息。
  3. 稀疏性约束 (训练目标): 为了让学到的技能具有通用性和可解释性(即每次只激活少数几个核心动作,如“抓取”),作者引入了稀疏正则化损失: Lskill=w^left1+w^right1+λϵ(ϵleft2,1+ϵright2,1) \mathcal { L } _ { \mathrm { s k i l l } } = \lVert \hat { w } ^ { \mathrm { l e f t } } \rVert _ { 1 } + \lVert \hat { w } ^ { \mathrm { r i g h t } } \rVert _ { 1 } + \lambda _ { \epsilon } ( \lVert \epsilon ^ { \mathrm { l e f t } } \rVert _ { 2 , 1 } + \lVert \epsilon ^ { \mathrm { r i g h t } } \rVert _ { 2 , 1 } )
    • 公式解析:
      • 1\lVert \cdot \rVert _ { 1 }: L1 范数,促使权重向量 w^\hat{w} 变得稀疏(大部分元素为0)。

      • 2,1\lVert \cdot \rVert _ { 2 , 1 }: L2,1 范数(群稀疏范数),用于在时间维度上对补偿项进行正则化,防止补偿项这一“捷径”掩盖了技能原语的作用。

        下图(原文 Figure 3)展示了技能共享的概念,即双臂任务(如 Handover)可分解为单臂子任务(Place + Pick):

        Figure 3. Shareable skills across unimanual and bimanual settings. Our key assumption is that bimanual tasks are often originated from the combination of unimanual sub-tasks, which thus can be solved by effectively coordinating unimanual skills synchronously or asynchronously. 该图像是图示,展示了双手交接(左侧)与单手操作的关系。我们认为,双手任务通常由单手子任务的组合而成,因此可以通过有效协调单手技能同步或异步地解决。

4.2.2. 视觉对齐器:对齐单臂视觉表示

问题: 单臂模型预训练时看到的场景通常只有一个机械臂。在双臂场景下,另一只手臂的存在构成了视觉干扰(分布偏移),可能导致单臂模型失效。 方案: 视觉对齐器 qq 生成空间软掩膜(soft masks),将双臂的观测空间“分割”并对齐到单臂的观测分布。

  1. 掩膜生成: 视觉对齐器网络接收当前的体素观测 vtˉ\bar{v_t} 等信息,输出两个软掩膜 v^tleft\hat { v } _ { t } ^ { \mathrm { l e f t } }v^tright\hat { v } _ { t } ^ { \mathrm { r i g h t } }
  2. 视觉增强: 将生成的掩膜应用到原始观测上,并与原始观测拼接,形成最终输入给单臂策略的视觉嵌入: vtleft=(v^tleftvt)vt,vtright=(v^trightvt)vt v _ { t } ^ { \mathrm { l e f t } } = ( \hat { v } _ { t } ^ { \mathrm { l e f t } } \odot v _ { t } ) \oplus v _ { t } , \quad v _ { t } ^ { \mathrm { r i g h t } } = ( \hat { v } _ { t } ^ { \mathrm { r i g h t } } \odot v _ { t } ) \oplus v _ { t }
    • 符号解释:
      • \odot: 逐元素相乘(Element-wise multiplication),利用掩膜过滤掉不相关的视觉信息(例如左手模型忽略右手区域)。
      • \oplus: 拼接操作(Concatenation),保留全局上下文信息。
  3. 互斥性先验 (训练目标): 为了模拟单臂场景,假设双臂通常关注不同的区域。因此,通过最大化两个掩膜之间的 Jensen-Shannon (JS) 散度来强制它们“互斥”: Lvoxel=DKL(v^tleftv^tright)/2DKL(v^trightv^tleft)/2 \mathcal { L } _ { \mathrm { v o x e l } } = - D _ { K L } ( \hat { v } _ { t } ^ { \mathrm { l e f t } } | | \hat { v } _ { t } ^ { \mathrm { r i g h t } } ) / 2 - D _ { K L } ( \hat { v } _ { t } ^ { \mathrm { r i g h t } } | | \hat { v } _ { t } ^ { \mathrm { l e f t } } ) / 2
    • 公式解析:
      • DKLD_{KL}: Kullback-Leibler (KL) 散度,衡量两个分布的差异。
      • 该公式本质上是 JS 散度的负数形式。最大化散度(即最小化负散度)迫使左右手的注意力掩膜尽可能不同,从而实现视觉上的解耦。

4.2.3. 总损失函数

最终的训练目标由行为克隆损失(预测动作)、技能稀疏损失和视觉互斥损失组成: Ltotal=LBC+λskillLskill+λvoxelLvoxel \mathcal { L } _ { \mathrm { t o t a l } } = \mathcal { L } _ { \mathrm { B C } } + \lambda _ { \mathrm { s k i l l } } \mathcal { L } _ { \mathrm { s k i l l } } + \lambda _ { \mathrm { v o x e l } } \mathcal { L } _ { \mathrm { v o x e l } } 其中 LBC\mathcal { L } _ { \mathrm { B C } } 是标准的交叉熵损失,用于监督动作预测(位置、旋转、夹爪状态等)。

5. 实验设置

5.1. 数据集

  • 仿真数据集: RLBench2
    • 这是广泛使用的 RLBench 基准的双臂扩展版。
    • 包含 12 个任务,涵盖不同难度(如 pick laptop, straighten rope, handover)。
    • 每个任务仅使用 20 或 100 条演示数据 进行训练,以测试少样本学习能力。
  • 真实世界数据集:
    • 使用两个 UR5e 机械臂和 Robotiq 2F-85 夹爪。

    • 包含 9 个任务(如叠衣服、倒水、打乒乓球)。

    • 每个任务收集 30 条演示数据。

      下图(原文 Figure 5)展示了真实世界的实验环境和任务:

      Figure 5. Real-World Tasks. The real-world experiments are performed in a tabletop setup with objects randomized in location every episode. AnyBimanual can simultaneously conduct 9 complex real-world bimanual manipulation tasks with one model. Different colors mean different success rates. 该图像是图表,展示了 AnyBimanual 在真实世界中执行的九个复杂的双手操作任务。这些任务在每一集中的桌面设置中随机排列物体,通过不同颜色表示成功率。

5.2. 评估指标

  • 任务成功率 (Task Success Rate):
    • 概念定义: 在测试阶段,智能体成功完成给定语言指令目标的次数占总测试次数的百分比。
    • 计算逻辑: 成功/总尝试次数。每项任务测试 100 次 (Sim) 或 65 次 (Real total)。
    • 约束: 必须在规定的最大步数(如 25 步)内完成。

5.3. 对比基线

论文选取了三种具有代表性的方法作为基线,并尝试将 AnyBimanual 应用于它们之上以验证通用性:

  1. PerAct2: 著名的单臂体素模型 PerAct 的双臂扩展版(当前 SOTA)。
  2. PerAct-LF: 基于“领导者-跟随者(Leader-Follower)”架构的 PerAct 变体。
  3. RVT-LF: 基于多视角图像变换器(Robotic View Transformer)的 RVT 方法的领导者-跟随者变体。

6. 实验结果与分析

6.1. 核心结果分析

在 RLBench2 的 12 个任务上,AnyBimanual 取得了压倒性的优势。

以下是原文 [Table 1] 的结果:

Method (方法) pick laptop straighten rope push box handover Average (平均)
20 100 20 100 20 100 20 100
PerAct2 [30] 4 4 6 8 5 6 22 29 14.67 (Total Avg)
PerAct + AnyBimanual (Ours) 8 17 22 36 31 46 33 44 32.00 (Total Avg)

(注:为了简洁,上表仅选取了部分代表性任务和数据,完整平均值基于所有12个任务)

分析:

  • 大幅提升: 相比于基线 PerAct2,搭载 AnyBimanual 的 PerAct 模型在平均成功率上提升了 17.33% (从 14.67% 提升至 32.00%)。
  • 少样本优势: 在仅有 20 条演示数据的极少样本设置下,AnyBimanual 依然大幅领先,证明了从单臂策略迁移知识的高效性。
  • 长程与协作任务:straighten rope(拉直绳子,需要双臂高度同步)和 push box 等任务上提升尤为明显,说明技能管理器和视觉对齐器有效解决了协调难题。

6.2. 消融实验 (Ablation Study)

为了验证每个组件的贡献,作者进行了消融实验。 以下是原文 [Table 2] 的结果:

Row ID Skill Manager (技能管理器) Visual Aligner (视觉对齐器) Average Success Rate (平均成功率 %)
1 - (Baseline) - (Baseline) 14.67
2 - (Finetuned) - (Finetuned) 16.75
4 25.67 (+8.92%)
3 19.75 (+3.00%)
5 32.00

分析:

  • 技能管理器的重要性: 单独加入技能管理器(Row 4)带来了最大的性能提升(+8.92%),说明将双臂任务分解为单臂技能是核心关键。

  • 视觉对齐器的作用: 单独加入视觉对齐器(Row 3)也能带来提升,尤其是在需要双臂高度同步(Sync)的任务中,减少视觉干扰非常重要。

  • 协同效应: 两者结合(Row 5)达到了最佳效果,证明了语言层面的技能调度和视觉层面的注意力对齐是互补的。

    下图(原文 Figure 4)可视化了该过程:可以看到在不同时间步,技能权重(左侧条形图)发生变化,同时视觉掩膜(右侧点云)将左右臂的关注区域分开了。

    Figure 4. Visualization of AnyBimanual. This figure shows in different key timesteps, how the skill manager dynamically schedules skill weights and how the visual aligner decomposes volumetric observation. We use a logarithmic scale for visualization. 该图像是图表,展示了在不同关键时间点,技能管理器如何动态调节技能权重,以及视觉对齐器如何分解体积观测。图中包含了右臂和左臂的操作,包括 "pick"、"place" 和 "push" 等技能的动态变化。

6.3. 真实世界实验

在 9 个真实任务中,AnyBimanual 达到了 84.62% 的平均成功率。特别是在 Lift Cabinet (抬柜子) 和 Fold Clothes (叠衣服) 等任务上达到了 100% 的成功率。但在 Rotate Toothbrush (旋转牙刷) 任务上成功率较低 (20%),作者认为是由于该任务对旋转精度的要求极高,这也是当前方法的潜在改进点。

7. 总结与思考

7.1. 结论总结

本文提出的 AnyBimanual 框架成功地利用了现有的单臂机器人基础模型来解决复杂的双臂操作问题。通过技能管理器在语言层面调度单臂技能,以及视觉对齐器在视觉层面消除双臂干扰,该方法在极少演示数据的情况下实现了卓越的性能迁移。这为解决机器人学习中“双臂数据稀缺”的难题提供了一条高效的新路径。

7.2. 局限性与未来工作

  • 计算成本: 由于需要同时运行两个单臂基础模型(本身就很大)以及额外的管理模块,推理时的计算开销较大,实时性可能受限。
  • 旋转精度: 实验显示在对旋转精度要求极高的任务上表现不佳,可能需要更强的骨干网络或调整行为克隆中旋转项的权重。
  • 未来方向:
    • 探索更轻量化的单臂模型以降低计算负载。
    • 将此框架扩展到更多样化的形态(如多指灵巧手)。

7.3. 个人启发与批判

  • 启发: 这篇论文体现了“组合式 AI”的强大之处。与其训练一个巨大的端到端双臂模型,不如协调两个已经很强的“单臂专家”。这种模块化迁移学习的思路对于资源受限的机器人研究非常有借鉴意义。
  • 批判: 虽然方法被称为 "Any"Bimanual,但实验主要基于体素模型 (PerAct)。对于基于 2D 图像的模型 (如 RT-1),"视觉对齐器" 的设计可能需要调整(例如从体素掩膜改为 2D 注意力掩膜),这部分的通用性仍需更多验证。此外,互斥性损失(让两手看不同区域)是一个很强的假设,对于某些两手必须紧密操作同一物体的极端情况(如双手搓揉),可能会产生负面影响。

相似论文推荐

基于向量语义检索推荐的相关论文。

暂时没有找到相似论文。