论文状态:已完成

RecoveryChaining: Learning Local Recovery Policies for Robust Manipulation

发表:2024/10/18
原文链接PDF 下载
价格:0.100000
价格:0.100000
已有 3 人读过
本分析由 AI 生成,可能不完全准确,请以原文为准。

TL;DR 精炼摘要

本文提出了一种名为RecoveryChaining的分层强化学习方法,以应对复杂操控任务中的故障恢复问题。通过引入名义控制器选项,在检测到失败时智能体能有效切换恢复策略,实现鲁棒性提升。实验表明,模型成功迁移至真实机器人,显著提高了任务成功率。

摘要

Model-based planners and controllers are commonly used to solve complex manipulation problems as they can efficiently optimize diverse objectives and generalize to long horizon tasks. However, they often fail during deployment due to noisy actuation, partial observability and imperfect models. To enable a robot to recover from such failures, we propose to use hierarchical reinforcement learning to learn a recovery policy. The recovery policy is triggered when a failure is detected based on sensory observations and seeks to take the robot to a state from which it can complete the task using the nominal model-based controllers. Our approach, called RecoveryChaining, uses a hybrid action space, where the model-based controllers are provided as additional \emph{nominal} options which allows the recovery policy to decide how to recover, when to switch to a nominal controller and which controller to switch to even with \emph{sparse rewards}. We evaluate our approach in three multi-step manipulation tasks with sparse rewards, where it learns significantly more robust recovery policies than those learned by baselines. We successfully transfer recovery policies learned in simulation to a physical robot to demonstrate the feasibility of sim-to-real transfer with our method.

思维导图

论文精读

中文精读

1. 论文基本信息

1.1. 标题

RecoveryChaining: Learning Local Recovery Policies for Robust Manipulation(RecoveryChaining:为鲁棒操控学习局部恢复策略

核心主题:面向多步机器人操控任务,提出一种分层强化学习方法,通过在强化学习动作空间中引入名义控制器的“选项”,在线学习能够在检测到失败后将系统带回名义计划可执行状态的恢复策略,实现鲁棒性提升与稀疏奖励下的高效学习。

1.2. 作者

Shivam Vats¹,Devesh K. Jha²,Maxim Likhachev³,Oliver Kroemer³,Diego Romeres²

作者隶属机构在正文未明确列出。根据作者常见归属推测:

  • ² 多与 Mitsubishi Electric Research Laboratories(MERL)相关;
  • ³ 多与 Carnegie Mellon University(卡内基梅隆大学)相关。 上述仅为合理推测,正式机构请以最终版本为准。

1.3. 发表期刊/会议

arXiv 预印本(未注明已被正式会议/期刊接收)。

arXiv 是开放获取的学术预印本平台,其稿件未经同行评审;需结合后续正式发表版本综合判断方法成熟度与影响力。

1.4. 发表年份

2024 年(具体版本时间:2024-10-17,UTC)

1.5. 摘要

问题动机:复杂操控任务常依赖模型驱动的规划与控制,但实际部署中会因噪声执行、部分可观测和模型不完美而失败。
核心方法:提出 RecoveryChaining,在强化学习中使用混合动作空间:既包含基础机器人原子动作,也包含将控制权移交给名义控制器序列的“名义选项”。在探索时,智能体可选择某个名义选项并在仿真中执行其后缀计划,通过蒙特卡罗验证该起点状态是否能最终达到任务目标,用“成功/失败”作为稀疏奖励信号,从而学习何时、如何以及切换到哪个名义控制器进行恢复。另提出 Lazy RecoveryChaining,通过训练高精度二分类器(如 XGBoost)在已知良好状态中跳过昂贵的滚动推演,提升样本效率。
实验结果:在三项含稀疏奖励的多步操控任务(拾取-放置、架子、拥挤架子)中显著优于基线,并成功进行仿真到真实机器人(Assista)迁移,无需现实微调。
结论:混合动作空间与分层强化学习结合可在稀疏奖励下高效学习鲁棒恢复策略,能与名义控制器链式组合,显著提升任务成功率。

1.6. 原文链接

2. 整体概括

2.1. 研究背景与动机

  • 核心问题:模型驱动(model-based)规划与控制在长时序操控任务中常用,但实际部署受制于执行噪声、部分可观测(状态不全)以及模型不准,易触发不可预测失败。需要一种能在失败检测后自动恢复、并重回名义计划的策略。
  • 重要性与挑战:
    • 机器人操控场景复杂多变,失败种类多、时空结构复杂,且观测不完备。
    • 传统恢复手段多为手工启发式(重复、回退、手工纠正),工程代价大且不够鲁棒。
    • 纯强化学习虽可学习复杂技巧,却面临“高采样复杂度”与“奖励稀疏”双重难题。
  • 创新思路:
    • 在强化学习的动作空间中引入“名义选项”(options),允许智能体在探索中主动“切换到名义控制器序列”并进行一次蒙特卡罗推演(rollout),把该推演的任务成败作为稀疏奖励。这既降低有效任务地平线,又让智能体自动“学会名义控制器的可启动条件(preconditions)”。

2.2. 核心贡献/主要发现

  • 方法贡献:
    1. 提出 RecoveryChaining:在强化学习中使用“混合动作空间”,把名义控制器后缀计划封装为终止性“名义选项”,以蒙特卡罗验证生成稳定的二元稀疏奖励。
    2. 提出 Lazy RecoveryChaining:在线训练高精度保守二分类器对名义选项成败进行“懒惰评估”,以减少昂贵推演并维持探索。
  • 技术发现:
    • 智能体可在稀疏奖励下高效学习局部恢复策略,并自动选择最佳名义控制器进行复用。
    • 能从探索中发掘“名义控制器的非常规用法”(如在架子任务中,先深入架子再切换 PLACE 以靠背部纠正姿态)。
  • 实证结论:
    • 三个操控任务中均显著提升成功率:如拾取-放置由 70%→90%,架子由 51%→83%,拥挤架子由 38%→57%。

    • 仿真到真实 Assista 机械臂的恢复策略迁移成功,无需现实微调,在未见物体(芥末瓶、易拉罐)上保持较好泛化。

      下图(原文 Figure 3)直观展现“失败检测→恢复策略→回到名义计划”的整体流程:

      Fig. 3: Representation of a sequence of nominal policies that solve a task specified by a binary function `f _ { g o a l }` . Due to model inaccuracies and stochastic dynamics, the system may deviate from the nominal plan. A failure detector is used to stop the robot before it encounters an irrecoverable failure. However, this state could be outside the preconditions of the nominal policies. Hence, a new recovery policy \(\\pi ^ { r }\) is learned to take the system back on the nominal plan. 该图像是示意图,展示了一系列名义策略及其与任务目标 fgoalf_{goal} 的关系。图中显示,由于模型不准确和随机动态的影响,系统可能偏离名义计划,导致进入一个故障状态。故障检测器在此之前会停止机器人,新的恢复策略 πr\pi^{r} 被学习,以将系统带回名义计划。绿色圆圈表示任务目标,红色圆圈表示故障状态,虚线箭头代表恢复技能,蓝色箭头表示名义技能。

3. 预备知识与相关工作

3.1. 基础概念

3.1.1. 马尔可夫决策过程(MDP)

MDP 是描述序列决策问题的标准框架。原文定义: MDP=(S,A,T,R,γ,μ) \text{MDP} = (S, A, T, R, \gamma, \mu)

  • 符号解释:
    • SS:状态空间。
    • AA:动作空间。
    • TT:状态转移函数(给定当前状态与动作,返回下一状态的分布)。
    • RR:奖励函数。
    • γ\gamma:折扣因子(权衡长短期收益)。
    • μ\mu:初始状态分布。

3.1.2. 混合可观测 MDP(MOMDP)

为刻画部分可观测情况,MOMDP 将状态拆分:

  • 可完全观测变量 xx(如机械臂末端位姿);
  • 部分可观测变量 yy(如被遮挡物体的位姿)。 系统估计值为 s^:=(x,y^)\hat{s} := (x, \hat{y}),实际状态为 (x, y)。在文中,策略基于 (s^,o)(\hat{s}, o) 执行,oOo \in O 为传感观测(如本体传感)。

3.1.3. 选项框架(Options)

选项是“技能”的抽象,包含:

  • 策略 π\pi
  • 启动集(initiation setT\mathcal{T}:能安全、有效启动该技能的状态集合(也称前置条件);
  • 终止条件 β\beta:技能终止的状态条件。 高层策略在选项之间决策,形成分层控制。

3.1.4. 技能链式学习(Skill Chaining)

从目标向前逐步学习选项及其启动集,通过二分类训练估计每个技能的可启动区域,并将“是否在启动集”作为稀疏奖励给前驱技能。传统方法依赖离线数据训练固定的启动集分类器,易产生悲观偏置(不易跳出数据分布)。

3.2. 前人工作与技术演进

  • 恢复学习(Recovery Learning):
    • 基于离线数据学习安全集合/前置条件(如 Recovery RL、LS3),但对数据质量敏感且偏保守。
    • 基于演示学习反应式策略,但易受分布外状态影响,需要昂贵的在线人类数据。
  • 分层强化学习(HRL):
    • 通过高层抽象减少决策地平线,结合结构化动作(如对象中心控制、参数化原子)提升样本效率。
  • 技术脉络:
    • 从“离线预训练前置条件+在线微调”逐步演化到“在线混合动作空间+蒙特卡罗奖励”,以更可靠的奖励信号与更灵活的选项切换实现鲁棒恢复。

3.3. 差异化分析

  • 与“离线前置条件学习”不同:RecoveryChaining不依赖预估启动集,而是由智能体在探索中主动触发名义选项,并以真实的蒙特卡罗达成结果作为奖励,避免离线学习偏差与过度保守。
  • 与“纯 RL”的差异:在稀疏奖励下,纯 RL 需要长时间探索才能偶然达到目标;RecoveryChaining通过名义选项降低有效地平线并提供稳定的二元奖励,显著提升学习效率与鲁棒性。
  • 与传统 skill chaining 的差异:不冻结预条件分类器,相反,鼓励智能体在在线探索中发现名义控制器的非常规用法,提高可复用性与组合性。

4. 方法论

4.1. 方法原理

核心思想:在强化学习动作空间中加入“终止性名义选项”(即从当前状态直接交由名义控制器后缀计划执行到结束),并把该执行结果是否到达任务目标作为稀疏奖励。这样,智能体可以:

  • 学习在什么情况下应执行局部恢复(原子动作);

  • 学习何时切换到名义控制器(以及选择哪一个);

  • 以在线试错的方式“隐式地”逼近名义控制器的启动集,而不依赖离线预估。

    下图(原文 Figure 4)展示了混合动作空间的核心结构:

    Fig. 4: We use a hybrid action space for reinforcement learning. It consists of both primitive robot actions and nominal options that transfer control to a sequence of nominal policies that can take it to the goal if applied successfully. 该图像是插图,展示了一个混合行动空间的示意图,其中包含了从失败状态恢复的过程。左侧是失败状态,右侧是混合行动空间,包含基本机器人动作和转至一系列名义策略的选项。这些名义策略可以带领机器人完成任务,直到达到目标状态 fgoalf_{goal}

4.2. 失败发现与数据准备(Failure Discovery)

  • 失败检测(failure detector):在系统执行过程中监测异常(如末端力过大、物体掉落、滑移),在“不可恢复失败”前停车。文中实验中采用手设计检测器(现实中亦可用学习式检测)。
  • 失败采集:在仿真中多条件运行名义策略,触发失败即记录真实状态 s=(x,y)s=(x,y) 与对应观测。训练阶段可用仿真特权信息;现实中可通过额外传感标注(如 AprilTag)采集部分真实状态。

4.3. 蒙特卡罗前置条件估计与稀疏奖励

问题:名义控制器 πinom\pi_i^{nom} 的真实启动集 Tinom\mathcal{T}_i^{nom} 通常未知。传统做法用离线数据训练估计 T^inom\hat{\mathcal{T}}_i^{nom},但质量受限。

本文观察:可通过执行“名义计划后缀”来蒙特卡罗估计该状态是否在启动集。定义名义计划后缀: oinom:=(πinom,,πknom) o_i^{nom} := (\pi_i^{nom}, \ldots, \pi_k^{nom}) 在查询状态 ss 执行 oinomo_i^{nom},若最终终止于 ss' 且满足目标,则视为该 ss 在启动集。原文给出估计式: Timc(s)=fgoal(s) \mathcal{T}_i^{mc}(s) = f_{goal}(s')

  • 符号解释:
    • oinomo_i^{nom}:从第 ii 个名义控制器开始至末尾的后缀选项。

    • ss:当前查询状态。

    • ss':执行 oinomo_i^{nom} 后的终止状态。

    • fgoal:S{0,1}f_{goal}: S \rightarrow \{0,1\}:二元目标判定函数,1 表示达到目标。

    • Timc(s)\mathcal{T}_i^{mc}(s):用一次蒙特卡罗推演在 ss 上对启动集的二元估计。

      注意:确定性 MDP 一次推演即可;随机域可用多次平均(文中实验使用一次)。

“稻草人方案”(低效):环境每一步都去执行长后缀推演计算奖励,代价高。

4.4. RecoveryChaining MDP 定义(忠于原文)

为让智能体自己决定“何时估计前置条件”,作者把名义后缀计划包装成“终止性选项”加入动作空间,并构建如下 MDP:

  • 状态与吸收态:

    • 原状态空间 SS 上设定两个吸收态:目标态 sgs_g 与失败态 sfs_f
    • 新增“推演后终止吸收态” sds_d(用于名义选项执行后未达目标时的终止)。
  • 奖励与转移:

    • 若系统满足 fgoalf_{goal},则转移到 sgs_g 并给予奖励 1;
    • 若触发失败条件,则转移到 sfs_f,奖励 0;
    • 执行名义选项后若未达目标,则转移到 sds_d,奖励 0;
    • 将名义选项设为“终止性”,保证奖励与当前学习策略无关、保持平稳。
  • 原文形式化定义: (Src,Arc,Trc,rrc,γ,μrc) (S^{rc}, A^{rc}, T^{rc}, r^{rc}, \gamma, \mu^{rc}) 其中:

    • Src=S{sd}S^{rc} = S \cup \{s_d\}
    • Arc=A{o1nom,,oknom}A^{rc} = A \cup \{o_1^{nom}, \ldots, o_k^{nom}\}
    • rrc(sS)=fgoal(s)r^{rc}(s \in S) = f_{goal}(s)rrc(sd)=0r^{rc}(s_d) = 0
    • μrc=Dfail\mu^{rc} = \mathcal{D}_{fail}(从失败集初始化)
  • 符号解释:

    • SrcS^{rc}:扩大后的状态空间(含 sds_d)。

    • ArcA^{rc}:混合动作空间(原子动作 AA 与名义选项集合)。

    • TrcT^{rc}:相应的转移函数(含名义选项触发的长序列执行与吸收态)。

    • rrcr^{rc}:奖励函数,采用目标二元判定。

    • γ\gamma:折扣因子(与原 MDP 一致)。

    • μrc\mu^{rc}:初始分布为失败数据集 Dfail\mathcal{D}_{fail}

      直觉:智能体在“远离启动集”的状态执行 oinomo_i^{nom},几乎总拿不到奖励;试错后会停止在这些状态调用该选项。而当靠近启动集时,执行 oinomo_i^{nom}频繁获得奖励,智能体便“隐式地学到”哪些状态属于可启动区域。

4.5. Lazy RecoveryChaining:保守分类器的懒惰评估

问题:名义选项的长序列推演最耗时。随着策略变好,智能体会在大量“已知好状态”重复评估名义选项,浪费仿真时间。

思路:在线训练高精度保守二分类器 αi\alpha_i 来近似判断“在该状态选择 oinomo_i^{nom} 会成功”。当分类器“有足够高的置信度”时,直接给“正奖励”,不做昂贵推演。

关键设计:

  • 用 XGBoost 训练概率分类器,并选择保证高精度(precision)的阈值(文中要求 0.95\ge 0.95)。

  • 在线、按策略分布持续再训练,确保分布匹配。

  • 为缓解数据偏置与误差累积,即便分类器自信,也以小概率(20%)随机执行真实蒙特卡罗推演进行再校准与数据均衡。

    优势:

  • 大幅减少在“已知好区域”的昂贵推演,提升样本效率。

  • 通过严格的高精度阈值与随机真实推演,控制误差风险。

5. 实验设置

5.1. 数据集(任务与环境)

  • 平台:robosuite 仿真(来源:Zhu 等,2020)。

  • 任务 1:拾取-放置(Pick-Place)

    • 目标:将小面包从源箱拾起并放入目标箱。

    • 观测:46 维(物体位姿、末端位姿等)。

    • 初始:面包每回合位置随机。

    • 名义技能:GoToGRASP(到预抓取位姿)、PICK(抓取)、GoToGOAL(到放置位)、PLACE(放置);基于笛卡尔空间阻抗控制。

    • 失败采集:主要因箱壁碰撞(末端力阈值触发),收集 100 个失败。

    • 示例图(原文 Figure 6):

      Fig. 6: The pick-place task requires the robot to pick a small bread from the source bin and place it in the target bin. The nominal controllers do not account for the sides of the bin because of which the end-effector collides with them when the bread is close to the walls. One such situation is shown in the right figure. 该图像是插图,展示了一个机器人在执行拾取放置任务的场景。图中左侧为机器人臂接近放置目标时的视图,右侧则显示机器人夹具正准备抓取小面包。由于名义控制器未考虑到容器的侧面,导致机器人夹具在靠近墙壁时发生碰撞。

  • 任务 2:架子(Shelf)

    • 目标:从桌上拾起盒子并竖直稳固地放入架子。
    • 状态不确定性:盒子位置观测含高斯噪声(yy 轴 1cm,zz 轴 2cm),并提供“已执行动作数”用于学习开环策略。
    • 尺寸参数:架子、盒子尺寸与架子位置每回合随机。
    • 名义技能:PICKMOVE(到预放置位)、PLACE;基于阻抗控制。
    • 失败:碰撞(与架子/桌子)、碰撞-滑移(低于质心位置碰撞导致手中旋转)。
  • 任务 3:拥挤架子(Cluttered Shelf)

    • 目标:架子上随机放置两个干扰物体,需在放置盒子时避免碰撞和旋转其他物体。

    • 失败检测:除末端力外,使用视觉检测(在仿真中用特权信息;现实可用检测器与位姿估计)。

    • 示例图(原文 Figure 7):

      Fig. 7: (left) Cluttered shelf domain. The robot needs to place a box on a cluttered shelf with two objects. In addition to avoiding collision, successful task completion requires the robot to avoid rotating the objects on the shelf. (right) Failure state. The robot collides and rotates the objects during execution leading to a failure. 该图像是图示,展示了一个机器人在进行物体操作的过程。左侧显示机器人操作搬运木块和蓝色盒子的状态,右侧展示了盒子成功放置后的状态。成功的物体操控需要避免潜在的碰撞和物体的旋转。

5.2. 强化学习训练设定

  • 动作空间:离散原子动作(便于仿真到现实迁移)
    • 平移:在末端坐标系沿 x/y/zx/y/z 方向移动 ±2\pm 2cm;
    • 旋转:绕滚转/俯仰/偏航施加 ±π/2\pm \pi/2
  • 算法:PPO(Proximal Policy Optimization),使用 Stable Baselines3。
  • 训练步数:200K timesteps。
  • 种子:5 个不同随机种子,报告平均。

5.3. 评估指标(完整三段说明)

  • 成功率(Success Rate,%)
    1. 概念定义:衡量在给定任务设置下,策略能否完成目标(达到 fgoal=1f_{goal}=1)的频次占比。
    2. 数学公式: Success Rate=NsuccessNtotal×100% \text{Success Rate} = \frac{N_{\text{success}}}{N_{\text{total}}} \times 100\%
    3. 符号解释:
      • NsuccessN_{\text{success}}:成功完成任务的回合数。
      • NtotalN_{\text{total}}:总评估回合数。
  • 恢复率(Recovery Rate,%)
    1. 概念定义:在明确诱发失败的条件下,恢复策略将系统拉回到可完成任务的状态并最终达成目标的占比。
    2. 数学公式: Recovery Rate=NrecoveredNfail-induced×100% \text{Recovery Rate} = \frac{N_{\text{recovered}}}{N_{\text{fail-induced}}} \times 100\%
    3. 符号解释:
      • NrecoveredN_{\text{recovered}}:在失败诱发场景中成功恢复并完成任务的次数。
      • Nfail-inducedN_{\text{fail-induced}}:总的失败诱发测试次数。

5.4. 对比基线

  • Nominal:仅用名义控制器完成任务。
  • Pretrained Preconditions (PP):先用离线数据学习名义技能的前置条件,再用原子动作的 RL 去达到该前置条件作为奖励。
  • RL for Recovery (RLR):纯 RL,在稀疏奖励下用原子动作直接学习恢复(无名义选项)。
  • RecoveryChaining (RC)Lazy RC:本文方法。

6. 实验结果与分析

6.1. 核心结果分析(跨任务对比)

以下是原文 Table I 的结果(总体成功率,%)。可以看到 Nom+RCNom + RC 在三项任务上均显著优于基线:

Nom Nom + RC Nom + PP Nom + RLR
Pick-place 70 90 76 70
Shelf 51 83 56 52
Cluttered-shelf 38 57 43 41
  • 拾取-放置:RC 将成功率从 70% 提升到 90%。PP 由于预条件学习的保守性与偏差,仅微幅提升至 76%。RLR 在稀疏奖励下基本无法学习有效恢复。

  • 架子:含状态不确定性,RC 从 51% 提升到 83%,显著优于 PP(56%)。这体现“名义选项作为奖励生成器”在不确定场景中的优势。

  • 拥挤架子:任务更复杂,RC 仍有提升(38%→57%),但空间更大,作者指出或需更长训练、更密集奖励或更佳动作空间。

    学习曲线(原文 Figure 5)从更动态角度展示三任务中 RCLazy RC 的收敛过程与样本效率差异:

    该图像是一个示意图,展示了RecoveryChaining方法在三个多步骤操作任务中的恢复率表现。左侧为Pick-place任务,中间为Shelf任务,右侧为Cluttered-shelf任务。图中不同颜色的曲线代表了不同的恢复策略,包括Lazy RecoveryChaining、RecoveryChaining、Pretrained Preconditions和RL for Recovery。 该图像是一个示意图,展示了RecoveryChaining方法在三个多步骤操作任务中的恢复率表现。左侧为Pick-place任务,中间为Shelf任务,右侧为Cluttered-shelf任务。图中不同颜色的曲线代表了不同的恢复策略,包括Lazy RecoveryChaining、RecoveryChaining、Pretrained Preconditions和RL for Recovery。

6.2. 任务内策略行为与案例分析

  • 拾取-放置任务中的恢复:
    • RC 学到两类策略:旋转末端避免碰撞;用两指将物体从墙边推开再抓取。组合使用提升成功率到 90%。
    • 名义控制器未考虑箱壁导致的碰撞(如 Figure 6 所示),RC 补足了这部分局部鲁棒性。
  • 架子任务中的恢复:
    • 在观测噪声下,策略倾向更保守,有时学习相对开环的恢复(依赖“已执行动作计数”)。
    • RC 显著优于 PP,但在“手中明显旋转”的失败下受限(缺少物体朝向观测),提示可加触觉/滑移检测进一步提升。
  • 拥挤架子任务:
    • 引入视觉失败检测避免扰动架上物体。RC 明显优于 PP,但整体更难,需更丰富动作与学习时间。

6.3. 名义选项的探索与选择

智能体会“自动发现并坚持最佳名义控制器”。原文 Figure 8 展示了在拾取-放置任务中,每 120 步一轮的名义选项选择计数:

Fig. 8: A comparison of the number of different nominal options taken by the agent in the pick-place task in every round of exploration consisting of 120 actions. The agent explores all the nominal options initially but quickly identifies and commits to the best nominal controller to recover to. 该图像是一个图表,比较了在每个时间步长中不同名义选项的探索次数。图中显示,代理在初始阶段探索了所有名义选项,但很快确定并专注于最佳名义控制器以进行回收。

  • 初期广泛探索多个名义选项;
  • 很快识别出最适合恢复的目标选项,并集中使用;
  • 体现了“在线、非冻结”的优势:策略通过试错隐式学习各名义控制器的启动集分布。

6.4. 名义控制器的非常规复用

RC 可在探索中发现“不同于名义执行分布”的新用法。原文 Figure 9 的案例:在架子任务中,盒子因低位碰撞产生手中旋转,需要再抓正。RC 学到先深入架子后再切换 PLACE,利用架子背板矫正姿态,提升放置稳定性:

Fig. 9: While trying the nominal controllers from different states during exploration, the agent discovers a novel application of the PLACE controller. (top) The PLACE skill was designed to gently place the box assuming it is upright. (bottom) To fix the slip due to a prior collision, RC learns to move deeper inside the shelf than nominal execution before switching to the PLACE skill. This allows the robot to fix the orientation of the box by pushing against the back of the shelf to ensure stable placement. 该图像是插图,展示了机器人在不同状态下尝试使用名义控制器的过程。通过探索,智能体发现了PLACE控制器的新应用,首先展示了在假设箱子竖立的情况下,轻柔放置箱子的技能,接着为修正因碰撞导致的滑动,RC学习在切换到PLACE技能之前更深入地进入架子内部,从而推动箱子的后侧确保稳定放置。

这类行为在“离线冻结前置条件”的方法中较难出现,因为冷冻的前置条件会导致策略在已知分布内保守行动。

6.5. 仿真到现实迁移(Sim-to-Real)

现实平台:Mitsubishi Electric Assista 机械臂 + WSG-32 并行夹爪 + 手腕力/扭矩传感器。
测试方法:在现实中刻意给出错误的架子位置估计诱发失败,使用力/扭矩传感检测碰撞。

以下是原文 Table II 的结果(恢复率,%):

Recovery Rate (%)
Box 100 (5/5)
Mustard bottle 100 (5/5)
Can 80 (4/5)
  • 结果表明:从盒子训练的恢复策略可泛化到未见物体(芥末瓶、易拉罐),对圆弧面(易拉罐)稍差但仍保持 80% 恢复率。
  • 现实实施细节与仿真一致:通过末端力检测碰撞;体现方法在现实中可落地。

7. 总结与思考

7.1. 结论总结

  • RecoveryChaining 在强化学习中引入“终止性名义选项”的混合动作空间,并用蒙特卡罗后缀推演生成稳定的稀疏奖励,显著提升了在多步操控任务中的恢复学习效率与策略鲁棒性。
  • Lazy RecoveryChaining 用高精度保守分类器在“已知好状态”懒惰评估,进一步减少昂贵推演,提升样本效率。
  • 实验显示:在拾取-放置、架子、拥挤架子三任务中均优于基线方法,并在现实 Assista 机械臂上实现了零现实微调的成功迁移。
  • 策略不仅能“隐式学习名义控制器启动集”,还能“发现非常规复用方式”,体现在线探索与不冻结前置条件的优势。

7.2. 局限性与未来工作

  • 依赖物理仿真:局限于能较好仿真建模的任务,且存在仿真到现实的域间差异挑战。
  • 假设存在可靠的名义启动集:若名义控制器在全域不可靠,恢复策略难以找到可切换的好状态。
  • 部分可观测:在缺少关键观测(如物体朝向/滑移)时,恢复能力受限;可引入触觉、滑移检测、视觉估计等增强感知。
  • 未来方向:
    • 与 POMDP 规划/贝叶斯策略结合,系统性处理部分可观测;
    • 更强的名义控制器学习(如自适应阻抗、接触丰富化)与自动化名义计划生成;
    • 更智能的失败检测与不确定性估计;
    • 扩展到更复杂的多物体与装配类任务;
    • 更丰富动作空间与稠密奖励设计,推动复杂场景的性能。

7.3. 个人启发与批判

  • 启发:
    • 在稀疏奖励与长时序任务中,把“模型驱动的名义控制器”作为“选项”嵌入强化学习动作空间,是一种非常有效的“缩短有效地平线”的设计。
    • 在线、非冻结前置条件的思想有助于在实践中发掘“技能的非常规应用”,增强策略的可组合性与鲁棒性。
  • 可迁移性:
    • 该范式可迁移到导航、抓取后再定位、装配中的微校正等场景,尤其适合存在“可靠子技能但整体不可靠”的系统。
  • 批判与改进建议:
    • 分类器的高精度阈值与随机推演比例在不同任务间可能需精细调参;可考虑不确定性量化方法(如温度标定、保守贝叶斯分类器)。

    • 名义选项“终止性”假设带来奖励平稳性,但也限制了“部分执行后返回”的可能;可探索“半终止选项”,在保证奖励可控的同时提升灵活性。

    • 现实迁移方面,建议系统性采用域随机化、系统辨识与自适应控制,以进一步提升跨域鲁棒性。

      以上分析遵循“面向初学者、深度优先与批判性思考”的原则,完整、忠实地解释了 RecoveryChaining 的方法设计、数学定义、实验设定与结果意义,并结合图表展开了细致解读与反思。

相似论文推荐

基于向量语义检索推荐的相关论文。

暂时没有找到相似论文。