论文状态:已完成

HG-DAgger: Interactive Imitation Learning with Human Experts

发表:2018/10/06
原文链接PDF 下载
价格:0.100000
价格:0.100000
价格:0.100000
已有 2 人读过
本分析由 AI 生成,可能不完全准确,请以原文为准。

TL;DR 精炼摘要

论文提出HG-DAgger方法,以解决模仿学习中人类专家带来的协调与安全问题。该方法允许专家在必要时接管控制,同时利用深度学习评估模型不确定性风险,以预测不同状态下的安全阈值。在自主驾驶任务中,HG-DAgger在样本效率、稳定性和安全性上优于传统DAgger和行为克隆。

摘要

Imitation learning has proven to be useful for many real-world problems, but approaches such as behavioral cloning suffer from data mismatch and compounding error issues. One attempt to address these limitations is the DAgger algorithm, which uses the state distribution induced by the novice to sample corrective actions from the expert. Such sampling schemes, however, require the expert to provide action labels without being fully in control of the system. This can decrease safety and, when using humans as experts, is likely to degrade the quality of the collected labels due to perceived actuator lag. In this work, we propose HG-DAgger, a variant of DAgger that is more suitable for interactive imitation learning from human experts in real-world systems. In addition to training a novice policy, HG-DAgger also learns a safety threshold for a model-uncertainty-based risk metric that can be used to predict the performance of the fully trained novice in different regions of the state space. We evaluate our method on both a simulated and real-world autonomous driving task, and demonstrate improved performance over both DAgger and behavioral cloning.

思维导图

论文精读

中文精读

1. 论文基本信息

1.1. 标题

HG-DAgger: Interactive Imitation Learning with Human Experts (HG-DAgger:基于人类专家的交互式模仿学习)

1.2. 作者

Michael Kelly, Chelsea Sidrane, Katherine Driggs-Campbell, Mykel J. Kochenderfer

  • 机构背景: 斯坦福大学 (Stanford University) 智能系统实验室 (SISL)。Mykel J. Kochenderfer 是航空与机器人控制领域的知名教授,专注于安全关键系统的决策制定。

1.3. 发表时间与出处

  • 发表时间: 2018年10月 (根据元数据)
  • 出处: 论文原文格式符合 IEEE 机器人与自动化国际会议 (ICRA) 或 智能机器人与系统国际会议 (IROS) 等顶级机器人会议的排版风格。文中致谢部分提及了 SAIC (上汽集团) 和 DARPA 的资助。

1.4. 摘要核心

论文针对模仿学习 (Imitation Learning) 在实际应用中的痛点,特别是当人类作为专家时的局限性进行了研究。

  • 问题: 传统的行为克隆 (Behavioral Cloning) 存在误差累积问题;而 DAgger 算法虽然解决了分布偏移,但其随机切换控制权的采样机制会让作为专家的人类感到困惑(感知为执行器滞后),导致安全性下降和标签质量恶化。
  • 方法: 提出了 HG-DAgger (Human-Gated DAgger)。该方法允许人类专家充当“门控 (Gate)”,仅在认为必要时接管控制权并提供演示,其余时间由新手策略控制。
  • 贡献: 除了训练策略外,该方法还利用深度神经网络集成 (Ensemble) 学习了一个基于模型不确定性的安全阈值,用于预测策略在不同状态下的风险。
  • 结果: 在模拟和真实自动驾驶任务中,HG-DAgger 在样本效率、训练稳定性和安全性上均优于 DAgger 和行为克隆。

1.5. 原文链接

2. 整体概括

2.1. 研究背景与动机

  • 核心问题: 模仿学习旨在让机器人通过观察专家演示来学习策略。最简单的方法是行为克隆 (Behavioral Cloning, BC),即监督学习。但 BC 存在严重的协变量偏移 (Covariate Shift) 问题:一旦机器人偏离了专家的轨迹,它就会进入未曾见过的状态,进而犯错,导致误差累积直至失败。
  • 现有挑战: 为了解决 BC 的问题,Ross 等人提出了 DAgger (Dataset Aggregation) 算法。DAgger 在训练过程中让新手策略(机器人)控制系统,从而收集其自身诱导的状态分布数据,并由专家进行标注。
    • 对人类不友好: DAgger 通常使用参数 β\beta 随机决定由专家还是新手执行动作。这种高频、随机的控制权切换会导致人类专家产生“执行器滞后 (Actuator Lag)”的错觉,甚至引发“人机振荡 (Pilot-Induced Oscillations)”,这不仅危险,还会导致人类提供低质量的标签。
  • 创新思路: 作者认为,当专家是人类时,必须给予人类完整的、连续的控制权片段,而不是随机切换。人类应该作为一个“监督者”或“门控器”,仅在系统进入危险区域时介入。

2.2. 核心贡献

  1. HG-DAgger 算法: 提出了一种适合人类专家的交互式模仿学习变体。通过“人类门控”机制,确保专家仅在纠正性干预期间拥有完全控制权,从而收集高质量的恢复行为数据。
  2. 数据驱动的风险阈值学习: 提出了一种利用神经网络集成来估计“怀疑度 (Doubt)”的方法,并利用人类的介入数据自动学习一个安全阈值 τ\tau。这使得机器人能够自我评估当前状态的风险。
  3. 实车验证: 不仅在模拟环境中,还在真实的自动驾驶汽车上验证了算法,证明了其相比基线方法具有更高的安全性、更快的收敛速度和更像人类的驾驶行为。

3. 预备知识与相关工作

3.1. 基础概念

为了理解本文,初学者需要掌握以下概念:

  • 模仿学习 (Imitation Learning, IL): 机器学习的一个分支,目标是从专家提供的演示轨迹中学习策略 π\pi,使得 π(s)πexpert(s)\pi(s) \approx \pi_{expert}(s)
  • 行为克隆 (Behavioral Cloning, BC): IL 的一种最简单形式,将其视为监督学习问题。输入是状态,标签是专家的动作。
    • 局限性: 假设训练数据和测试数据独立同分布 (i.i.d.),但在序列决策问题中,微小的误差会导致状态分布发生偏移,这是 BC 失败的主因。
  • DAgger (Dataset Aggregation): 一种迭代式算法。
    • 流程: 训练策略 πi\pi_i \rightarrow 运行 πi\pi_i 收集新数据 \rightarrow 专家对新数据打标签 \rightarrow 将新数据加入数据集 \rightarrow 训练 πi+1\pi_{i+1}
    • 混合策略: 在收集数据时,DAgger 使用混合策略 πrollout=βπexpert+(1β)πnovice\pi_{rollout} = \beta \pi_{expert} + (1-\beta) \pi_{novice}。随着训练进行,β\beta 逐渐减小。
  • 认知不确定性 (Epistemic Uncertainty): 模型对自己“不知道”的程度。在深度学习中,常用集成 (Ensemble) 方法(训练多个网络并计算方差)来近似这种不确定性。

3.2. 前人工作与差异

  • DAgger 的变体: 之前的工作如 EnsembleDAgger 尝试使用不确定性来决定何时查询专家,但通常由机器主导提问(主动学习),且阈值往往需要手动调整。
  • 人机交互的局限: 现有的 DAgger 类方法忽略了人类操作员的心理和生理限制(如对延迟敏感、需要连续反馈)。
  • 本文差异: HG-DAgger 将控制权的切换逻辑完全交给人类(Human-Gated),而不是由算法的 β\beta 参数或预设的机器置信度决定。这是一种被动学习人类主动干预的结合。

4. 方法论

4.1. 方法原理

HG-DAgger 的核心直觉是:高质量的训练数据来源于人类专家拥有不受干扰的控制权时段。 算法允许新手策略(Novice Policy)控制车辆,直到人类观察到系统进入不安全状态。此时,人类接管控制(介入),将车辆驾驶回安全状态,然后交还控制权。系统仅记录人类接管期间(即恢复轨迹)的数据作为新样本。

下图(原文 Fig. 1)展示了 HG-DAgger 的控制循环:人类观察状态 xx,新手观察观测值 oo,通过门控函数 gg 决定谁的动作 aa 被执行。

Fig. 1: Control loop for HG-DAGGER 该图像是HG-DAGGER的控制循环示意图。图中展示了人类专家策略 H和新手策略 N通过一个门控函数相互作用,计算出的动作aa送往环境。环境接受状态xx并输出观察oo,展示了人机协作的结构。

4.2. 核心方法详解

4.2.1. 门控函数与策略定义

在 HG-DAgger 中,我们定义一个“允许集 (Permitted Set)” P\mathcal{P},包含所有人类专家认为安全的状态。门控函数 g(xt)g(x_t) 由人类直接控制: g(xt)=1[xtP] g(x_t) = \mathbb{1}[x_t \notin \mathcal{P}]

  • 符号解释:
    • xtx_t: tt 时刻的系统完整状态。

    • 1[]\mathbb{1}[\cdot]: 指示函数,当条件满足时为 1,否则为 0。

    • 这意味着:当状态 xtx_t 不在安全允许集 P\mathcal{P} 中时(即危险时),g(xt)=1g(x_t)=1(专家接管)。

      因此,第 ii 次迭代时的推演策略 (Rollout Policy) πi\pi_i 定义为: πi(xt)=g(xt)πH(xt)+(1g(xt))πNi(ot) \pi_i(x_t) = g(x_t)\pi_H(x_t) + (1-g(x_t))\pi_{N_i}(o_t)

  • 符号解释:
    • πH(xt)\pi_H(x_t): 人类专家策略,拥有完整状态信息 xtx_t
    • πNi(ot)\pi_{N_i}(o_t): 第 ii 轮训练出的新手策略,仅能访问观测值 ot=O(xt)o_t = \mathcal{O}(x_t)(例如摄像头图像或雷达数据)。
    • 核心逻辑: 如果人类觉得危险 (g=1g=1),执行人类动作;如果人类觉得安全 (g=0g=0),执行新手动作。

4.2.2. 数据聚合过程

与标准 DAgger 不同,HG-DAgger 并不是在所有时刻都收集数据,也不是随机收集。数据收集仅发生在人类介入期间: Di={(O(xt),πH(xt))g(xt)=1,xtξi} \mathcal{D}_i = \{ (\mathcal{O}(x_t), \pi_H(x_t)) \mid g(x_t)=1, x_t \in \xi_i \}

  • 符号解释:
    • Di\mathcal{D}_i: 第 ii 轮收集的新数据集。
    • ξi\xi_i: 第 ii 轮的完整轨迹。
    • g(xt)=1g(x_t)=1: 仅当专家接管控制时记录数据。
  • 直觉: 这样收集到的数据全是“如何从危险状态恢复到安全状态”的高价值样本,且由于人类拥有完全控制权,这些动作标签没有受到“执行器滞后”错觉的影响。

4.2.3. 风险度量:怀疑度 (Doubt)

为了评估新手策略的可靠性,作者使用了神经网络集成 (Ensemble of Neural Networks)。假设新手策略由一个包含 KK 个神经网络的集合表示。对于输入 oto_t,这些网络输出的协方差矩阵为 CtC_t。 作者定义“怀疑度 (Doubt)” dN(ot)d_N(o_t) 为协方差矩阵对角线元素的 L2 范数: dN(ot)=diag(Ct)2 d_N(o_t) = \|\mathrm{diag}(C_t)\|_2

  • 原理: 如果集成中的不同网络对同一个输入给出了差异很大的预测(方差大),说明模型对该区域不熟悉,风险较高。这是一种对认知不确定性的近似。

4.2.4. 学习安全阈值 τ\tau

仅仅有怀疑度值是不够的,我们需要知道多大的怀疑度意味着“危险”。HG-DAgger 利用人类的介入数据来学习这个阈值 τ\tau。 记录人类开始介入时刻的新手怀疑度,存入日志 T\mathcal{T}。阈值 τ\tau 计算为 T\mathcal{T} 中最后 25% 数据的均值: τ=1len(T)/4i=0.75NN(T[i]) \tau = \frac{1}{\mathrm{len}(\mathcal{T})/4} \sum_{i=\lfloor 0.75 N \rfloor}^{N} (\mathcal{T}[i])

  • 为什么选最后 25%?
    • 在训练初期,新手策略很差,人类会在各种情况下介入(包括简单的弯道),此时的怀疑度数据比较杂乱。
    • 在训练后期,新手策略已经学会了基础操作,人类只会在真正困难或模糊的边缘情况介入。这些时刻对应的怀疑度更能代表系统的“能力边界”。
    • 因此,基于后期介入数据计算的阈值能更准确地划分安全与危险区域。

5. 实验设置

5.1. 实验任务与平台

  • 任务: 自动驾驶中的车道保持与障碍物规避。自车需要在双车道单向道路上行驶,避开静止的障碍车辆。
  • 平台 1:模拟器 (Simulation): 使用自行车模型 (Bicycle Model) 进行动力学仿真。
  • 平台 2:实车 (Test Vehicle): 使用上汽集团 (SAIC) 提供的 MG-GS 车辆。
    • 配置: 车辆在空旷场地上行驶,障碍物是虚拟生成的(通过增强现实方式显示给驾驶员,或仅在算法内部存在),但车辆的动力学是真实的。

    • 操作: 安全驾驶员坐在主驾驶位,实验驾驶员(专家)坐在副驾驶位,通过一套辅助的方向盘和踏板控制车辆(见下图,原文 Fig. 2)。

      该图像是包含两幅图像的插图,左侧展示了一辆装备传感器的自动驾驶汽车在模拟环境中行驶,右侧则是人类驾驶员在实际驾驶车辆中的操控情形。这些图像展示了HG-DAgger方法在自动驾驶任务中的应用。 该图像是包含两幅图像的插图,左侧展示了一辆装备传感器的自动驾驶汽车在模拟环境中行驶,右侧则是人类驾驶员在实际驾驶车辆中的操控情形。这些图像展示了HG-DAgger方法在自动驾驶任务中的应用。

5.2. 数据集与初始化

  • 初始化: 首先使用行为克隆 (BC) 在 10,000 个专家标签上训练一个初始策略。
  • 迭代训练: 之后进行 5 个训练周期 (Epochs)。每个周期收集 2,000 个新的专家标签。
  • 输入特征: 偏离中心距离 yy、航向角 θ\theta、速度 ss、车道边缘距离 (ll,lr)(l_l, l_r)、前方障碍物距离 (dl,dr)(d_l, d_r)

5.3. 评估指标

  1. 碰撞率 (Collision Rate):
    • 定义: 车辆与障碍物发生接触的频率。
    • 单位: 每次/米 (per meter)。
  2. 道路偏离率 (Road Departure Rate):
    • 定义: 车辆重心离开道路边界的频率。
    • 单位: 每次/米 (per meter)。
  3. 巴塔查里亚距离 (Bhattacharyya Distance):
    • 定义: 用于衡量两个概率分布(这里指人类专家的转向角分布和新手策略的转向角分布)之间相似度的指标。值越小表示分布越接近(越像人)。
    • 公式: DB(p,q)=ln(BC(p,q))D_B(p, q) = -\ln(BC(p, q)),其中 BC(p,q)=p(x)q(x)BC(p,q) = \sum \sqrt{p(x)q(x)}

5.4. 对比基线

  1. Behavioral Cloning (BC): 仅使用初始专家数据训练,不进行在线交互。
  2. DAgger: 标准的 DAgger 算法,使用衰减的 β\beta 参数(初始 0.85,每轮衰减 0.85)来随机混合专家和新手动作。

6. 实验结果与分析

6.1. 模拟实验结果

在模拟环境中,作者对比了三种方法随着训练数据量增加的表现。

6.1.1. 学习曲线分析

下图(原文 Fig. 3 和 Fig. 4)展示了道路偏离率和碰撞率随训练样本增加的变化。

  • HG-DAgger (绿色/三角形): 表现出最快且最稳定的下降趋势。最终实现了最低的错误率。

  • DAgger (蓝色/圆形): 在训练后期表现出不稳定性(曲线末端上升)。作者假设这是因为随着 β\beta 减小,新手控制权增加,人类专家感知到的“执行器滞后”加剧,导致提供的标签质量下降。

  • BC (红色/方形): 表现最差,错误率一直维持在较高水平。

    Fig. 2: Test vehicle (L) and expert driver interface (R). Fig. 3: Mean road departure rate per meter over training epochs. Error bars represent standard deviation. 该图像是图表,展示了不同专家标签下,三种算法(行为克隆、DAgger、HG-DAgger)的平均道路偏离率。横轴表示专家标签,纵轴表示平均道路偏离率,误差条代表标准差。

6.1.2. 风险阈值验证

为了验证学习到的阈值 τ\tau 是否有意义,作者将状态空间划分为两个集合:估计允许集 P^\hat{\mathcal{P}}(怀疑度 τ\le \tau)和估计不安全集 P^\hat{\mathcal{P}}'(怀疑度 >τ> \tau)。并在两组集合中分别初始化新手策略进行测试。

以下是原文 Table I 的结果:

Initialization (初始化区域) Collision Rate (碰撞率) Road Departure Rate (偏离率) Departure Duration (偏离持续时间)
P^\hat{\mathcal{P}} (安全区) 0.607 × 10-3 0.607 × 10-3 1.630 s
P^\hat{\mathcal{P}}' (危险区) 7.533 × 10-3 12.092 × 10-3 3.740 s
  • 分析: 当新手在被判定为“安全”的区域初始化时,其碰撞率比在“危险”区域初始化低 12倍,道路偏离率低 20倍。这强有力地证明了 dN(ot)d_N(o_t) 结合阈值 τ\tau 是一个非常有效的风险预测指标。

6.2. 实车实验结果

在真实车辆上,由于安全和成本限制,测试数据量较少,但结果依然显著。

6.2.1. 驾驶性能对比

下图(原文 Fig. 5)展示了实车测试的轨迹。HG-DAgger (最右) 的轨迹平滑且始终保持在车道内,而 DAgger 偏离了道路,BC 则甚至冲出了边界。

Fig. 5: Trajectory plots of on-vehicle test data. 该图像是图表,展示了不同方法在车辆测试数据上的轨迹对比,包括行为克隆、DAgger、HG-DAgger和人类驾驶的结果。每种方法的轨迹表现都是用粉红色线条表示,横轴为距离(米),纵轴为相关指标,通过这张图可以直观地比较各方法的表现差异。

以下是原文 Table II 的定量结果:

Method # Collisions Collision Rate # Road Departures Road Departure Rate Bhattacharyya Metric
Behavioral Cloning 1 0.973 × 10-3 6 5.837 × 10-3 0.1173
DAgger 1 1.020 × 10-3 1 1.020 × 10-3 0.1057
**Human-Gated DAgger** **0** **0.0** **0** **0.0** **0.0834**
  • 核心结果: HG-DAgger 在实车测试中实现了 零碰撞零偏离
  • 拟人度: Bhattacharyya Metric 最低(0.0834),说明 HG-DAgger 学到的转向策略分布最接近人类驾驶员的习惯。

6.2.2. 风险可视化

作者还将学习到的风险图可视化。下图(原文 Fig. 6)展示了在不同阈值下的风险热力图(红色为危险,蓝色为安全)。

  • 中间图(使用学习到的 τ\tau)最准确地描绘了车辆周围和障碍物附近的危险区。

  • 左图(3τ3\tau)过于宽松,漏掉了许多风险。

  • 右图(τ/3\tau/3)过于保守,把安全的空地也标记为危险。

    Fig. 6: Risk maps generated for a policy trained on the test vehicle. The center map was generated using the variance threshold \(\\tau\) learned from human interventions. The purple box represents the ego vehicle, and the white boxes represent other vehicles. Blue is safe and red is unsafe. 该图像是风险图,用于展示在不同阈值下训练的策略的安全性。左、中、右三个图分别显示了 3τ3\tauτ\tau13τ\frac{1}{3}\tau 的风险分布。紫色方框代表自车辆,白色方框表示其他车辆。蓝色区域表示安全,而红色区域则表示不安全。所有图的x轴表示到中线的距离,y轴表示沿道路的距离。

下图(原文 Fig. 7)进一步量化了不同阈值对自由空间/占用空间分类任务的 F1 分数影响。虚线表示学习到的 τ\tau,它恰好位于各项指标的峰值附近,证明了该自动阈值选择方法的有效性。

Fig. 7: Performance on the pixelwise free vs. occupied space classification task as a function of the doubt threshold used. 该图像是图表,展示了在不同怀疑阈值下,像素级自由空间与占用空间分类任务的性能表现。图中显示了微平均 F1 分数、平均 F1 分数、平衡准确率、自由空间 F1 分数以及占用空间 F1 分数的变化情况,虚线表示学习到的怀疑阈值。

7. 总结与思考

7.1. 结论总结

HG-DAgger 成功解决了人机交互式学习中的两个核心矛盾:数据分布的修正需求(需要新手尝试)与人类专家的操作体验需求(需要完整控制)。

  1. 机制创新: 通过将控制权切换逻辑交给人类,避免了随机切换带来的干扰,确保了收集到的“恢复演示”是高质量的。
  2. 安全预测: 提出了一种无需额外标注、仅利用介入信号就能自动校准风险阈值的方法,赋予了系统自我评估能力。
  3. 性能卓越: 在实车实验中展现了优于传统方法的安全性和拟人度。

7.2. 局限性与未来工作

  • 人类负担: 虽然避免了随机切换,但该方法仍要求人类专家时刻保持警惕,监控新手的行为。在长时间任务中,人类可能会疲劳或分心,导致未能及时介入(漏报)或不必要的介入(误报)。
  • 未来方向:
    • 将学到的风险度量用于自动分层控制,即在测试时,如果怀疑度过高,自动切换到一个保守的安全控制器,而不是完全依赖神经网络。
    • 探索更高级的模型不确定性估计方法。

7.3. 个人启发与批判

  • 以人为本的算法设计: 这篇论文给我最大的启发是,在设计涉及人类的算法时,不能仅从数学优化的角度考虑(如 DAgger 的理论证明),必须考虑人类的心理物理特性(如反应时间、控制感)。HG-DAgger 是“Human-in-the-loop”系统设计的典范。
  • 隐式标签的利用: 作者非常巧妙地利用了“人类何时介入”这一行为本身作为一种隐式监督信号 (Implicit Supervision),用来校准风险阈值。这种思路——从交互行为中挖掘额外信息——在现代机器人学习和对齐(Alignment)研究中极具价值。
  • 潜在问题: 这种方法依赖于人类专家是“完美的风险评估者”。如果专家过于激进(在该介入时不介入)或过于保守,学习到的阈值 τ\tau 可能会失效。如何处理专家个体的偏差是一个值得思考的问题。

相似论文推荐

基于向量语义检索推荐的相关论文。

暂时没有找到相似论文。