论文状态:已完成

SKILL-IL: Disentangling Skill and Knowledge in Multitask Imitation Learning

发表:2022/05/06
原文链接PDF 下载
价格:0.100000
价格:0.100000
价格:0.100000
已有 2 人读过
本分析由 AI 生成,可能不完全准确,请以原文为准。

TL;DR 精炼摘要

本文提出了一种新颖的SKILL-IL框架,针对多任务模仿学习中技能与知识的解缠。作者假设智能体的潜在记忆可分为“技能”(如操作方式)和“知识”(如环境信息),从而提升训练效率与泛化能力。在模拟环境中,该方法成功率提高30%,并在真实导航任务中验证有效性。

摘要

In this work, we introduce a new perspective for learning transferable content in multi-task imitation learning. Humans are able to transfer skills and knowledge. If we can cycle to work and drive to the store, we can also cycle to the store and drive to work. We take inspiration from this and hypothesize the latent memory of a policy network can be disentangled into two partitions. These contain either the knowledge of the environmental context for the task or the generalizable skill needed to solve the task. This allows improved training efficiency and better generalization over previously unseen combinations of skills in the same environment, and the same task in unseen environments. We used the proposed approach to train a disentangled agent for two different multi-task IL environments. In both cases we out-performed the SOTA by 30% in task success rate. We also demonstrated this for navigation on a real robot.

思维导图

论文精读

中文精读

1. 论文基本信息

1.1. 标题

SKILL-IL: Disentangling Skill and Knowledge in Multitask Imitation Learning (SKILL-IL:多任务模仿学习中技能与知识的解缠)

1.2. 作者

Bian Xihan, Oscar Mendez, Simon Hadfield 作者来自于萨里大学(University of Surrey)视觉、演讲与信号处理中心(CVSSP)。他们在机器人视觉、模仿学习和表征学习领域具有深厚的研究背景。

1.3. 发表会议/期刊

该论文于 2022 年发布在 arXiv 预印本平台,并在后续的相关机器人领域顶级会议(如 ICRA)中展示了其研究思路。

1.4. 发表年份

2022年(提交于 2022-05-06)

1.5. 摘要

本文为多任务模仿学习(Multi-task Imitation Learning)提供了一个新颖的视角。作者受到人类学习行为的启发,认为人类能够独立转移技能(如驾驶)和知识(如路线)。作者假设策略网络的潜在记忆(Latent Memory)可以被解缠(Disentangle)为两个部分:一个是关于任务环境上下文的“知识”,另一个是解决任务所需的通用“技能”。通过这种解缠,智能体在面对未见过的技能组合或新环境时,表现出了更高的训练效率和更强的泛化能力。实验表明,在两个不同的多任务模仿学习环境中,该方法将成功率提高了 30%,并在真实机器人导航中得到了验证。

1.6. 原文链接

2. 整体概括

2.1. 研究背景与动机

在机器学习中,多任务学习 (Multi-task Learning) 的目标是让一个智能体(Agent)在不经过重新训练的情况下执行多种任务,这是迈向通用人工智能(General AI)的关键步骤。然而,在模仿学习 (Imitation Learning) 这种弱监督场景下,数据采集成本极高。我们无法通过穷举所有可能的任务与环境组合来训练模型。

目前的研究面临以下挑战:

  1. 泛化性差: 现有的方法往往将“在环境 A 中执行任务 1”看作一个独立的问题,而无法有效地将其中的“技能”转移到环境 B。

  2. 效率低下: 缺乏对任务本质的分解,导致模型在处理复杂任务序列时,需要海量的演示数据。

    本文的切入点在于:模仿人类的记忆机制。人类拥有程序性记忆 (Procedural Memory),即“技能”(如怎么开车);以及陈述性记忆 (Declarative Memory),即“知识”(如去公司的路线)。这两者是独立且可组合的。

2.2. 核心贡献/主要发现

  1. SKILL 架构: 提出了一种基于 门控变分自编码器 (Gated VAE) 的架构,显式地在潜在空间中解缠技能与知识。

  2. 解缠训练框架: 引入了一种弱监督训练方法,通过对训练样本进行分组(相同环境不同任务 vs 相同任务不同环境),强制模型将信息分配到不同的潜在子域。

  3. 性能提升:Craftworld 和导航实验中,相比最先进的 组合规划向量 (Compositional Plan Vectors, CPV) 方法,成功率提升了 30% 以上,且任务完成速度更快。

  4. 可解释性: 展示了高度可解释的潜在空间,通过解码不同的子域,可以直观观察到模型所学到的环境知识。


3. 预备知识与相关工作

3.1. 基础概念

  • 模仿学习 (Imitation Learning, IL): 智能体通过观察专家的演示(通常是状态-动作对轨迹)来学习如何执行任务,而不是通过奖励信号进行自我探索。
  • 变分自编码器 (Variational Auto-Encoder, VAE): 一种生成模型。它不仅将输入映射为一个固定的向量,而是映射为一个概率分布(均值 μμ 和方差 σσ),从中采样得到潜在变量 zz。其核心公式为: L=Eq(zx)[logp(xz)]DKL(q(zx)p(z)) \mathcal{L} = \mathbb{E}_{q(z|x)}[\log p(x|z)] - D_{KL}(q(z|x) || p(z)) 其中左项是重构损失(让生成的图像像原图),右项是 KL 散度 (KL Divergence),用于约束潜在空间的分布。
  • 解缠表征 (Disentangled Representation): 理想情况下,潜在空间中的每一个维度或子空间代表一个独立的特征。例如,一个子空间只代表物体的颜色,另一个只代表形状。

3.2. 前人工作

  • 组合规划向量 (Compositional Plan Vectors, CPV): 这是本文最直接的竞争基线。CPV 学习一种任务的嵌入,支持向量加减。例如,“任务 A + 任务 B”的向量等于两个子任务向量之和。
  • 门控变分自编码器 (Gated VAE): 由 Vowels 等人提出。它通过对训练数据进行弱监督(已知两张图是否具有相同的属性),利用掩码机制强制模型在特定维度学习特定特征。

3.3. 差异化分析

传统的 CPV 方法将技能和环境信息混合在同一个向量中。当环境发生变化时,整个向量都会失效。SKILL-IL 的创新在于将这个向量切分为两半:一半负责“怎么做”(技能),一半负责“在哪里做”(知识)。这使得模型可以实现 零样本 (Zero-shot) 的迁移:在一个新环境中使用已学到的技能。


4. 方法论

4.1. 方法原理

SKILL-IL 的核心思想是构建一个能够自动将任务信息分流的潜在空间。如下图(原文 Figure 1 & 2)所示,模型包含一个编码器(用于提取特征)、两个分区的潜在子空间、一个解码器(用于重构)和一个策略网络(用于输出动作)。

Fig. 1. The policy encoder provides an embedding consisting of both skill and knowledge, coupled with the disentangled decoder to form a gated VAE architecture which partitions the embedded latent. 图 1:策略编码器提供包含技能和知识的嵌入,结合解缠解码器形成门控 VAE 架构。

4.2. 核心方法详解

4.2.1. 组合式任务嵌入 (Compositional Task Embedding)

为了处理多个子任务,模型首先学习一个组合表示。令 gϕ(Oa:b)g_\phi(O_{a:b}) 为编码器,将从时间 aabb 的观测序列编码为潜在嵌入 u\vec{u}。 由于任务具有加法性质(完成 A 再完成 B 等于完成 A+B),剩余任务的嵌入可以表示为: vtodo=gϕ(O0:Tref)gϕ(O0:t) \vec{v}_{todo} = g_\phi(O_{0:T}^{ref}) - g_\phi(O_{0:t}) 这里 O0:TrefO_{0:T}^{ref} 是专家参考轨迹(总任务),O0:tO_{0:t} 是当前已完成的进度。符号解释:

  • OO: 观测值(通常是图像)。
  • TT: 任务完成的总步数。
  • tt: 当前步数。

4.2.2. 技能与知识的解缠 (Disentanglement)

这是本文的关键。潜在向量 u\vec{u} 被划分为两个子域:u=[us,uk]\vec{u} = [\vec{u}^s, \vec{u}^k],其中 ss 代表 技能 (Skill)kk 代表 知识 (Knowledge)

为了训练这种解缠,作者使用了 门控机制。在训练时,给定一对样本 (O,O^)(O, \hat{O})

  1. 如果它们具有 相同的任务但不同的环境(技能模式 S\mathcal{S}),则只更新技能子域 us\vec{u}^s

  2. 如果它们具有 相同的环境但不同的任务(知识模式 K\mathcal{K}),则只更新知识子域 uk\vec{u}^k

    这种更新是通过梯度屏蔽算子 \lfloor \rfloor 实现的,定义如下: \Vecu={[\Vecus,\Vecuk]if (O,O^)S[\Vecus,uk]if (O,O^)K[\Vecus,uk]if (O,O^)SK \Vec { u } = \left\{ \begin{array} { l l } { \left[ \Vec { u } ^ { s } , \lfloor \Vec { u } ^ { k } \rfloor \right] } & { \text{if } ( O , \hat { O } ) \in \mathcal { S } } \\ { \left[ \lfloor \Vec { u } ^ { s } \rfloor , \vec { u } ^ { k } \right] } & { \text{if } ( O , \hat { O } ) \in \mathcal { K } } \\ { \left[ \Vec { u } ^ { s } , \vec { u } ^ { k } \right] } & { \text{if } ( O , \hat { O } ) \in \mathcal { S } \cap \mathcal { K } } \end{array} \right. 符号解释:

  • \lfloor \cdot \rfloor: 表示在反向传播时屏蔽该部分的梯度,使其不被更新。
  • S,K\mathcal{S}, \mathcal{K}: 分别代表技能训练集和知识训练集。

4.2.3. 损失函数 (Loss Functions)

模型由多个损失函数共同驱动:

  1. 重构损失 (LδL_\delta): 确保潜在变量包含足够的原始信息。 Lδ(O0:Tref,O0:t,O^ref,O^)=lδ(O0:Tref,O^ref)+lδ(O0:t,O^) L_\delta(O_{0:T}^{ref}, O_{0:t}, \hat{O}^{ref}, \hat{O}) = l_\delta(O_{0:T}^{ref}, \hat{O}^{ref}) + l_\delta(O_{0:t}, \hat{O}) 其中 lδl_\delta 是重构图像与原图之间的差异(通常使用 L1 或 L2 距离)。

  2. 策略损失 (La\mathcal{L}_a): 确保学到的表示能指导正确的动作。 La(Ot,ϕ)=log(π(a^tOt,gϕ(O0:Tref)gϕ(O0:t))) \mathcal{L}_a(O_t, \phi) = -\log(\pi(\hat{a}_t | O_t, g_\phi(O_{0:T}^{ref}) - g_\phi(O_{0:t}))) 这里 a^t\hat{a}_t 是专家的动作,模型通过最小化负对数似然来模仿专家。

  3. 正则化损失 (LRL_R):

    • 组合损失 (LCL_C): 确保向量加法的性质成立: LC(O0,Ot,OT)=lm(g(O0:t)+g(Ot:Tref)g(O0:Tref)) L_C(O_0, O_t, O_T) = l_m(g(O_{0:t}) + g(O_{t:T}^{ref}) - g(O_{0:T}^{ref}))
    • 进度损失 (LPL_P): 确保智能体轨迹与专家轨迹在潜在空间中接近: LP=lm(g(O0:T)g(O0:Tref)) \mathcal{L}_P = l_m(g(\mathcal{O}_{0:T}) - g(\mathcal{O}_{0:T}^{ref})) 其中 lml_m 是三元组边缘损失 (Triplet Margin Loss)。
  4. 动态损失权重 (LGL_G): 为了进一步优化解缠效果,作者提出了根据训练模式动态调整权重: LG={αLa+βLδif (O,O^)SϵαLa+Lδif (O,O^)K L_G = \left\{ \begin{array}{ll} \alpha L_a + \beta L_\delta & \text{if } (O, \hat{O}) \in \mathcal{S} \\ \epsilon \alpha L_a + L_\delta & \text{if } (O, \hat{O}) \in \mathcal{K} \end{array} \right. 在技能模式下,强调策略动作预测(α\alpha 权重高);在知识模式下,强调环境重构(β\beta 或 1 权重高)。


5. 实验设置

5.1. 数据集

  1. Craftworld: 一个受 Minecraft 启发的 2D 环境。任务包括“砍树”、“破石”、“做面包”等,可以组合成长序列(如“砍树+建房”)。

  2. Learned Navigation: 2D 导航环境。地图基于真实的 gmapping 算法生成的拓扑图(见图 4)。智能体需要从随机起点到达随机终点。

    Fig. 4. The navigation environment mimics real maps produced by the gmapping \[8\] algorithm. 图 4:导航环境模拟了由 gmapping 算法生成的真实地图。

5.2. 评估指标

  • 任务成功率 (Task Success Rate):
    1. 概念定义: 衡量智能体在规定步数内成功达到目标状态的频率。
    2. 数学公式: SR=NsuccessNtotalSR = \frac{N_{success}}{N_{total}}
    3. 符号解释: NsuccessN_{success} 为成功的次数,NtotalN_{total} 为总测试次数。
  • 平均步数 (Average Episode Length):
    1. 概念定义: 衡量完成任务的效率,步数越短表示路径越优。
    2. 数学公式: Lavg=1Nsuccessi=1NsuccesstiL_{avg} = \frac{1}{N_{success}} \sum_{i=1}^{N_{success}} t_{i}
    3. 符号解释: tit_i 是第 ii 次成功任务所花费的时间步。

5.3. 对比基线

  • CPV-NAIVE: 基础的组合规划向量。

  • CPV-FULL: 带有所有正则化项的 CPV 增强版(之前的 SOTA)。


6. 实验结果与分析

6.1. 核心结果分析

SKILL-IL 在所有任务复杂度下均优于 CPV。特别是在面对 8 到 16 个连续任务的极端情况下,成功率的优势更加明显。

以下是原文 Table III 的完整结果转录:

MODEL 4 SKILLS 8 SKILLS 16 SKILLS 1,1 (Single Task) 2,2 (Sequence) 4,4 (Complex Sequence)
Success Ep. Length Success Ep. Length Success Ep. Length Success Ep. Length Success Ep. Length Success Ep. Length
CPV-NAIVE [7] 52.5% 82.3 29.4% 157.9 17.5% 328.9 57.7% 36.0 0.0% - 0.0% -
CPV-FULL [7] 71.8% 83.3 37.3% 142.8 22.0% 295.8 73.0% 69.3 58.0% 270.2 20.0% 379.8
SKILL 61.3% 63.3 37.5% 132.7 20.0% 277.8 80.0% 53.3 55.0% 103.1 26.3% 198.1

关键发现: 在“4,4”这一最具挑战性的场景下,SKILL 模型不仅成功率比 CPV-FULL 高,而且完成步数(198.1)仅为对方(379.8)的一半左右。这证明了解缠表征让模型学到了更高效的策略。

6.2. 潜在空间可视化

为了验证解缠是否真的发生了,作者尝试仅从特定的潜在子域重构图像(见图 5)。

Fig. 5. The reconstructed image from the knowledge latent recreated the original image almost perfectly, full latent recreated the image without items unrelated to the current task (red hammer and purple house are not related to chop trees), and skill latent fails to generate an image that resembles the ground truth. 图 5:从知识潜在变量生成的图像(左二)几乎完美还原了环境。而技能潜在变量(右一)则无法生成有意义的环境图像。

这强有力地证明了:

  • 知识子域 (Knowledge Latent): 存储了地图布局、障碍物等环境信息。
  • 技能子域 (Skill Latent): 只存储了动作逻辑,剥离了视觉环境细节。

6.3. 消融实验

在 Table I 中,作者验证了各个组件的贡献:

  • SKILL-no Ot: 去掉当前观测分支,性能下降,说明直接感知环境对动作很重要。

  • DL (Dynamic Loss): 引入动态损失权重后,成功率从 89% 提升到了 94%。


7. 总结与思考

7.1. 结论总结

本文成功证明了在多任务模仿学习中,将通用技能环境知识进行显式解缠是可行的且极具价值的。通过基于门控 VAE 的 SKILL 架构,智能体能够更好地在不同任务间共享经验,从而在处理复杂任务序列时表现出显著的优越性。此外,解缠后的潜在空间具有良好的可解释性,为理解深度策略网络的内部逻辑提供了工具。

7.2. 局限性与未来工作

  1. 弱监督依赖: 该方法需要能够对数据进行分组(即知道哪些样本属于“同技能不同环境”)。在完全无监督的野外数据中,这种标注可能难以获取。
  2. 解缠程度: 虽然实验展示了显著的分离,但作者也承认,在复杂的生物神经系统中,技能与知识往往是交织的,完全的解缠可能并非最优,未来可以探索“部分重叠”的表示。

7.3. 个人启发与批判

  • 启发: 这篇论文通过一个非常符合直觉的人类学习类比(开车与路线),解决了一个复杂的技术问题。它提醒我们,在设计模型架构时,引入先验的结构(如潜在空间的分区)往往比单纯增加网络深度更有效。
  • 批判: 实验主要集中在 2D 离散环境和 2D 导航。在 3D 复杂环境或高维连续控制(如机械臂抓取)中,环境知识(如物体的精确位姿)与技能(如抓取动作)的界限可能会变得模糊,SKILL 架构是否依然稳健仍需验证。此外,动态损失权重 α,β\alpha, \beta 的调节可能需要较多的调参工作。

相似论文推荐

基于向量语义检索推荐的相关论文。

暂时没有找到相似论文。