论文状态:已完成

Advanced Skills through Multiple Adversarial Motion Priors in Reinforcement Learning

发表:2022/03/23
原文链接PDF 下载
价格:0.100000
价格:0.100000
已有 4 人读过
本分析由 AI 生成,可能不完全准确,请以原文为准。

TL;DR 精炼摘要

本研究提出了一种增强型对抗运动先验(Multi-AMP)方法,通过多种可切换运动风格简化了强化学习(RL)中机器人运动控制的奖励函数调优。实验证明,即便结合无运动数据的技能,机器人仍能同时学习多项风格和技能,且表现无显著差异,像是从四足模式切换到人形模式的复杂动作。

摘要

In recent years, reinforcement learning (RL) has shown outstanding performance for locomotion control of highly articulated robotic systems. Such approaches typically involve tedious reward function tuning to achieve the desired motion style. Imitation learning approaches such as adversarial motion priors aim to reduce this problem by encouraging a pre-defined motion style. In this work, we present an approach to augment the concept of adversarial motion prior-based RL to allow for multiple, discretely switchable styles. We show that multiple styles and skills can be learned simultaneously without notable performance differences, even in combination with motion data-free skills. Our approach is validated in several real-world experiments with a wheeled-legged quadruped robot showing skills learned from existing RL controllers and trajectory optimization, such as ducking and walking, and novel skills such as switching between a quadrupedal and humanoid configuration. For the latter skill, the robot is required to stand up, navigate on two wheels, and sit down. Instead of tuning the sit-down motion, we verify that a reverse playback of the stand-up movement helps the robot discover feasible sit-down behaviors and avoids tedious reward function tuning.

思维导图

论文精读

中文精读

1. 论文基本信息

1.1. 标题

Advanced Skills through Multiple Adversarial Motion Priors in Reinforcement Learning (通过强化学习中的多重对抗运动先验实现高级技能)

1.2. 作者

Eric Vollenweider, Marko Bjelonic, Victor Klemm, Nikita Rudin, Joonho Lee 和 Marco Hutter。 所有作者均隶属于瑞士苏黎世联邦理工学院 (ETH Zürich) 机器人系统实验室 (Robotic Systems Lab)。

1.3. 发表期刊/会议

该论文发表于 arXiv 预印本平台,其发布时间为 2022-03-23T09:24:06.000ZarXiv 是一个开放获取的预印本服务器,允许研究者在正式同行评审和发表前分享他们的研究成果。在相关领域,它是一个重要的学术交流平台。

1.4. 发表年份

2022年。

1.5. 摘要

近年来,强化学习 (RL) 在高度关节化机器人系统 (highly articulated robotic systems) 的运动控制 (locomotion control) 方面取得了卓越表现。然而,这类方法通常需要繁琐的奖励函数调优 (reward function tuning) 才能实现期望的运动风格。模仿学习 (imitation learning) 方法,例如对抗运动先验 (adversarial motion priors, AMP),旨在通过鼓励预定义的运动风格来缓解这一问题。本文提出了一种增强 AMP 的方法,以支持多重、可离散切换的运动风格。研究表明,即使结合无运动数据 (motion data-free) 的技能,多个风格和技能也可以同时学习,且性能没有显著差异。该方法通过在轮腿式四足机器人 (wheeled-legged quadruped robot) 上的多项真实世界实验得到验证,展示了从现有 RL 控制器和轨迹优化 (trajectory optimization) 中学习到的技能,如鸭步 (ducking) 和行走 (walking),以及新颖技能,如在四足和人形配置之间切换。对于后一种技能,机器人需要站立、双轮导航并坐下。文章验证了通过逆向播放站立动作有助于机器人发现可行的坐下行为,从而避免了繁琐的奖励函数调优,而不是手动调优坐下动作。

1.6. 原文链接

  • 官方来源/预印本链接: https://arxiv.org/abs/2203.14912v1
  • PDF 链接: https://arxiv.org/pdf/2203.14912v1.pdf

2. 整体概括

2.1. 研究背景与动机

强化学习 (Reinforcement Learning, RL) 在复杂的机器人运动控制领域取得了显著进展,尤其是在处理具有挑战性地形的足式机器人 (legged robots) 方面展现了强大的鲁棒性。然而,这些成功往往伴随着一个核心挑战:设计和调优能够引导机器人学习期望行为的奖励函数 (reward function) 是一个极其繁琐且耗时的过程。尤其当目标是实现特定“风格”的运动时(例如,优雅的行走、特定的姿态转换),传统奖励函数的设计难度倍增。

为了解决这一问题,模仿学习 (Imitation Learning) 方法应运而生。其中,对抗运动先验 (Adversarial Motion Priors, AMP) 是一种有效策略,它通过引入一个判别器 (discriminator) 来学习区分智能体 (agent) 生成的动作和来自专家演示 (expert demonstrations) 的真实运动数据。通过这种方式,AMP 能够鼓励智能体模仿预定义的运动风格,从而减少对显式奖励函数设计的依赖。

然而,AMP 存在局限性:它通常只能处理单一或混合风格的模仿,无法让智能体有意识地在多种离散的运动风格之间进行切换。例如,在一个同时包含行走和鸭步的任务中,AMP 可能会学习到一个融合了两种风格的混合动作,或者在两者之间犹豫不决,无法主动选择执行某一种特定的风格。此外,对于一些没有现成运动数据的技能,AMP 也难以直接应用。

本文的动机正是要克服 AMP 的这些限制,旨在开发一种能够让机器人同时学习并主动切换多种离散运动风格和技能的方法,包括那些没有预设运动数据的技能。最终目标是推动机器人实现更高级、更像自然生物的复杂行为,例如在一个机器人上实现四足行走、站立、双轮导航和坐下等一系列高级且风格迥异的动作。

2.2. 核心贡献/主要发现

本文通过提出 多重对抗运动先验 (Multi-AMP) 算法,在轮腿式四足机器人上实现了多项关键创新和发现:

  1. 提出 Multi-AMP 算法: 首次提出了 Multi-AMP 算法,这是 AMP 的一个泛化版本,它允许智能体同时学习多个独立的运动风格,并能够根据指令在这些风格之间进行离散切换。这解决了传统 AMP 在多风格学习和主动风格选择上的局限。
  2. 多技能同时学习与无数据技能支持: 实验证明,Multi-AMP 能够在一个策略中同时学习多个风格和技能,且在学习性能上与单一任务策略相比没有显著差异。更重要的是,该方法能够有效地整合无运动数据技能 (motion data-free skills),即仅通过任务奖励学习的技能,与基于运动数据的风格模仿技能一起训练。
  3. 通过逆向运动先验实现奖励函数调优的规避: 论文展示了一种新颖的方法,即通过逆向播放现有运动(例如,逆向播放站立动作来学习坐下动作),自动生成运动先验。这种方法成功地帮助机器人发现了可行的坐下行为,从而避免了传统方法中对坐下动作进行繁琐的奖励函数调优,显著提高了效率和安全性。
  4. 在真实轮腿式四足机器人上的验证: Multi-AMP 方法在真实的轮腿式四足机器人上进行了广泛的验证。机器人成功展示了从现有 RL 控制器和轨迹优化中学习到的技能(如鸭步和行走),以及新颖的复杂技能,例如在四足配置和人形配置之间进行转换(包括站立、双轮导航和坐下)。
  5. 首次实现四足-人形转换: 据作者所知,这是首次在真实机器人上展示如此高度动态的四足-人形转换技能,挑战了传统多足机器人的分类方式,并为轮腿机器人开辟了新的应用场景。

3. 预备知识与相关工作

3.1. 基础概念

理解本文所提出的 Multi-AMP 算法,需要先掌握以下几个核心概念:

  • 强化学习 (Reinforcement Learning, RL): RL 是一种机器学习范式,智能体 (agent) 通过与环境 (environment) 交互来学习最优行为策略 (policy)。智能体执行动作 (actions),环境返回状态 (states) 和奖励 (rewards)。智能体的目标是最大化累积奖励。在机器人控制中,RL 策略通常是一个神经网络,将感知到的机器人状态映射到电机指令。
  • 模仿学习 (Imitation Learning): 模仿学习是指智能体通过观察专家(如人类操作员或预先设计的控制器)的行为演示来学习如何执行任务。与 RL 从零开始探索不同,模仿学习利用专家数据来加速学习过程或实现专家级的表现。
  • 对抗生成网络 (Generative Adversarial Networks, GANs): GANs 是一种深度学习模型,由一个生成器 (generator) 和一个判别器 (discriminator) 组成。生成器试图生成看起来像真实数据的新数据,而判别器则试图区分真实数据和生成器生成的数据。两者通过对抗性训练相互提升,直到生成器能够生成判别器无法区分的假数据。AMP 正是借鉴了 GAN 的思想。
  • 运动先验 (Motion Priors): 在机器人运动控制中,运动先验指的是预先存在的、期望的运动模式或风格数据。这些数据可以是人类或动物的运动捕捉数据,也可以是来自其他控制器、轨迹优化算法生成的运动序列。智能体通过模仿这些先验来学习特定的运动风格。
  • 策略 (Policy):RL 中,策略 π\pi 是智能体从状态到动作的映射。它定义了智能体在给定任何状态下应该采取什么动作。通常表示为一个函数 π(as)\pi(a|s),给出在状态 ss 下采取动作 aa 的概率,或者直接输出确定性动作 a = \pi(s)
  • 状态转移 (State Transitions): 指的是智能体在环境中的连续状态变化,通常表示为 (st,st+1)(s_t, s_{t+1}),即在时间步 tt 的状态 sts_t 和在采取动作 ata_t 后到达的下一个状态 st+1s_{t+1}。判别器通常利用这些状态转移信息来判断动作的“真实性”或“风格”。
  • 奖励函数调优 (Reward Function Tuning): 指的是在 RL 中手动设计和调整奖励函数的过程。一个好的奖励函数对于智能体学习期望行为至关重要,但设计一个既能有效引导又不会产生不良副作用的奖励函数往往非常困难且耗时。

3.2. 前人工作

论文在 Related Work 部分回顾了机器人运动控制和模仿学习领域的一些关键进展:

  • 传统控制与轨迹优化:
    • Boston DynamicAtlas 机器人展示了令人印象深刻的舞蹈和后空翻,其基础是人类运动动画师制作的动作。这表明预定义动作的重要性。
    • 结合轨迹优化 (trajectory optimization) 和模型预测控制 (Model Predictive Control, MPC) 的方法,如论文作者之前的研究 [3],可以生成物理上合理的运动。这类方法对于计算机图形学和机器人控制都至关重要,但设计其目标函数通常非常困难。当面对大型和多样化的运动库时,还需要启发式方法来选择合适的运动先验。
  • 数据驱动的模仿学习:
    • 数据驱动策略,例如 AMP [6],旨在自动化模仿目标和运动选择机制。本文特别指出 AMP 已被验证可应用于真实机器人系统,而非仅限于计算机动画。
    • 高斯过程 (Gaussian processes) [7], [8] 可以学习低维运动嵌入空间,从大量运动数据中生成合适的运动。然而,这些方法通常不是目标导向的 (goal conditioned),并且无法利用任务特定的信息。
  • 基于动画技术的方法:
    • 一些动画技术 [9]-[11] 通过模仿/跟踪运动片段来解决问题。这通常通过姿态误差 (pose errors) 来实现,需要运动片段选择和参考运动与策略动作的同步。通过将相位变量 (phase variable) 作为额外的策略输入,可以从数据集中选择正确的帧。然而,这些方法在运动片段数量增加时难以扩展,并且定义适用于各种运动的误差度量也很困难。
  • 替代方法:对抗学习与师生架构:
    • 师生架构 (Student-Teacher architectures) [12]:这种方法训练一个教师策略,该策略拥有特权信息 (privileged information),如完美的高度图、摩擦系数和地面接触力。教师策略更容易学习复杂运动。训练完成后,学生策略 (student policy) 使用非特权观测 (non-privileged observations) 和机器人本体感知历史 (proprioceptive history) 来重现教师策略的输出,从而实现风格迁移。
    • 对抗模仿学习 (Adversarial Imitation Learning) [13], [14]:AMP [15] 是基于判别器的学习策略。它将误差度量、相位和运动片段选择的任务外包给一个判别器,该判别器学习区分策略和运动数据的状态转移。AMP 的优点是不需要选择特定的运动片段作为跟踪目标,因为策略会根据特定任务自动选择应用哪种风格。
  • AMP 的局限性: 论文特别指出了 AMP 存在一些限制:
    • 当提供多个运动先验覆盖相同任务时,策略可能会选择最容易完成的风格,或者找到两种运动片段的混合风格。这意味着无法主动选择特定的风格
    • 任务奖励仍然需要激励策略执行特定动作,否则策略可能在两个状态之间来回振荡。
    • 对于复杂和高度动态的运动,找到不与判别器提供的风格奖励冲突的任务奖励公式并不容易。

3.3. 技术演进

该领域的技术演进可以概括为从手动控制、离线优化到数据驱动的在线学习:

  1. 早期阶段:手动控制与规划。 机器人运动由工程师通过编程或遥控实现,或者通过复杂的运动规划算法生成。
  2. 中期阶段:基于模型的优化。 引入了轨迹优化和模型预测控制 (MPC) 等技术,利用机器人的动力学模型生成物理上可行的动作。这提高了动作的自然性和鲁棒性,但对模型精度和计算能力要求高,且目标函数设计依然困难。
  3. 近期阶段:数据驱动的模仿学习与强化学习。 随着机器学习和深度学习的发展,RL 和模仿学习开始被广泛应用于机器人控制。RL 能够让机器人自主探索和学习复杂行为,而模仿学习则通过专家数据加速学习过程,特别是AMP这样的对抗模仿学习方法,极大地简化了风格学习。
  4. 当前工作:多风格、可切换的模仿学习。 本文的 Multi-AMP 正是这一演进的最新阶段,它在 AMP 的基础上解决了多风格选择和无数据技能整合的难题,使机器人能够学习和执行更加多样化和智能化的行为。

3.4. 差异化分析

本文提出的 Multi-AMP 方法与现有工作相比,核心区别和创新点在于:

  • 与传统轨迹优化/MPC 的区别: Multi-AMP 不依赖于显式设计复杂的目标函数来生成运动,而是通过对抗学习从运动数据中自动提取和应用风格。这避免了为每个新动作重新设计优化目标函数的繁琐工作。
  • 与基于姿态误差的模仿学习的区别: Multi-AMP 不需要手动选择运动片段或同步参考帧,而是将这些任务外包给判别器。它关注的是运动风格的整体特性而非精确的姿态跟踪,这使得它对数据噪声和策略生成动作的微小差异更具鲁棒性。
  • 与 AMP 的核心区别: 这是最主要的差异。传统的 AMP 在面对多个风格时,无法主动选择或区分,可能导致混合风格或在风格间振荡。Multi-AMP 通过在策略输入中加入独热编码的风格选择器 (one-hot-encoded style selector),明确告诉策略当前要模仿哪种风格,从而实现了可离散切换的风格学习
  • 对无运动数据技能的支持: Multi-AMP 允许在同一个框架内训练无运动数据技能 (data-free skills)。对于这类技能,风格奖励被简单地设置为零,策略仅通过任务奖励进行学习,但仍然可以与其他有风格先验的技能同时训练和切换。
  • 创新性的坐下动作学习: 本文引入了通过逆向播放站立动作来自动发现可行坐下行为的策略,有效避免了对坐下动作进行繁琐的奖励函数调优,这是之前研究中未曾强调或系统应用过的。

4. 方法论

4.1. 方法原理

Multi-AMP 的核心思想是扩展对抗运动先验 (AMP) 框架,使其能够同时学习并离散切换多种运动风格。它通过为每个需要模仿的风格配置一个独立的判别器 (discriminator) 来实现这一点。在训练过程中,策略 (policy) 会接收一个独热编码的风格选择器 (one-hot-encoded style selector) 作为输入,这明确指示了当前回合 (rollout) 智能体应该模仿哪种风格。总奖励由两部分组成:一部分是衡量任务完成情况的任务奖励 (task-reward),另一部分是衡量当前动作与所选风格匹配程度的风格奖励 (style-reward)。判别器负责学习区分策略生成的动作和真实运动数据中的风格,而策略则通过最大化总奖励来学习既能完成任务又符合指定风格的动作。对于那些没有现成运动数据的技能,Multi-AMP 也能通过简单地将对应的风格奖励设为零来支持其学习,同时保持风格选择器的存在,确保与其他风格的兼容性。

4.2. 核心方法详解 (逐层深入)

Multi-AMP 算法的目标是训练一个策略 π\pi,使其能够执行多个任务,包括从 nn 个独立运动数据集 Mi,i{0,...,n1}M^i, i \in \{0, ..., n-1\} 中提取的风格,并能够主动在这些风格之间进行切换。与传统的基于跟踪的方法不同,策略不应盲目地遵循特定运动,而应在完成任务的同时提取并应用运动的基本特征。

4.2.1. 奖励分解

AMP 算法类似,Multi-AMP 将总奖励计算分为两部分: rt=rttask+rtstyler_t = r_t^{task} + r_t^{style} 其中:

  • rttaskr_t^{task}任务奖励 (task-reward),描述了“做什么”,例如追踪速度。

  • rtstyler_t^{style}风格奖励 (style-reward),描述了“如何做”,即提取并应用运动先验的风格。

    任务奖励通常有简单的数学描述,但风格奖励的计算则不那么直接。Multi-AMP 的主要理论贡献就是允许切换多个不同的风格奖励。

4.2.2. 判别器设置与训练

Multi-AMP 使用一个对抗性设置,包含 nn 个判别器 Di,i{0,...,n1}D^i, i \in \{0, ..., n-1\}。 对于每一个被训练的风格 ii

  • 一个推演缓冲区 (roll-out buffer) BπiB_\pi^i 收集策略在应用第 ii 个风格时的时间步的状态。

  • 另一个缓冲区 MiM^i 包含该特定风格的运动数据先验。

    每个判别器 DiD^i 的目标是学习区分从 MiM^iBπiB_\pi^i 中采样的连续状态对 (st,st+1)(s_t, s_{t+1}) 构造的描述符。通过避免对源动作的任何依赖,这个流程可以处理来自动作捕捉和角色动画等未知动作源的数据。

判别器 DiD^i 通过解决以下最小二乘问题来学习:

Li=EdMi(s,s)[(Di(ϕ(s),ϕ(s))1)2]=+EdBπi(s,s)[(Di(ϕ(s),ϕ(s))+1)2]=+wgp2EdMi(s,s)[ϕDi(ϕ)ϕ=(ϕ(s),ϕ(s))2], \begin{array} { r l } & { L ^ { i } = \mathbb { E } _ { d ^ { M ^ { i } } ( s , s ^ { \prime } ) } \left[ ( D ^ { i } ( \phi ( s ) , \phi ( s ^ { \prime } ) ) - 1 ) ^ { 2 } \right] } \\ & { \phantom { = } + \mathbb { E } _ { d ^ { B _ { \pi } ^ { i } ( s , s ^ { \prime } ) } } \left[ ( D ^ { i } ( \phi ( s ) , \phi ( s ^ { \prime } ) ) + 1 ) ^ { 2 } \right] } \\ & { \phantom { = } + \frac { w ^ { g p } } { 2 } \mathbb { E } _ { d ^ { M ^ { i } } ( s , s ^ { \prime } ) } \left[ \| \nabla _ { \phi D ^ { i } ( \phi ) } \big \vert _ { \phi = ( \phi ( s ) , \phi ( s ^ { \prime } ) ) } \| ^ { 2 } \right] , } \end{array} 其中:

  • LiL^i: 第 ii 个判别器的损失函数。
  • EdMi(s,s)[]\mathbb{E}_{d^{M^i}(s, s')}[\cdot]: 对从第 ii 个运动数据先验 MiM^i 中采样的连续状态转移 (s, s') 取期望。
  • EdBπi(s,s)[]\mathbb{E}_{d^{B_{\pi}^i}(s, s')}[\cdot]: 对从策略 π\pi 在执行第 ii 个风格时产生的推演缓冲区 BπiB_{\pi}^i 中采样的连续状态转移 (s, s') 取期望。
  • Di(ϕ(s),ϕ(s))D^i(\phi(s), \phi(s')): 第 ii 个判别器对由两个连续状态 ssss' 提取的描述符的输出。
  • ϕ():Rds˙Rdd\phi(\cdot): \mathbb{R}^{\dot{d_s}} \mapsto \mathbb{R}^{d_d}: 一个任意函数,用于从状态中提取风格信息,例如机器人的关节和躯干位置、速度等。其选择决定了从状态转移中提取哪些风格信息。
  • (Di(ϕ(s),ϕ(s))1)2(D^i(\phi(s), \phi(s')) - 1)^2: 判别器期望对真实数据(来自 MiM^i)的输出为 +1+1,因此最小化这个项。
  • (Di(ϕ(s),ϕ(s))+1)2(D^i(\phi(s), \phi(s')) + 1)^2: 判别器期望对策略生成的数据(来自 BπiB_{\pi}^i)的输出为 -1,因此最小化这个项。
  • wgpw^{gp}: 梯度惩罚项的权重。
  • \frac{w^{gp}}{2} \mathbb{E}_{d^{M^i}(s, s')}[\|\nabla_{\phi D^i(\phi)}\big|_{\phi = (\phi(s), \phi(s'))}\|^2]: 梯度惩罚项,它鼓励判别器在真实数据和生成数据之间的插值区域保持平滑的梯度,这有助于稳定 GAN 的训练,类似于 WGAN-GP (Wasserstein GAN with Gradient Penalty)。

4.2.3. 风格奖励 (Style-reward)

在策略的推演过程中,每次只有一个风格是活跃的。在每个时间步 tt 传递给策略的状态 sts_t 包含一个命令 ctc_t,该命令通过一个独热编码的风格选择器 csc_s 进行增强。csc_s 的元素在活跃风格 ii 对应的索引处为 1,其余为 0

当策略 π(atst)\pi(a_t | s_t) 预测动作 ata_t 后,环境返回新状态 st+1s_{t+1} 和任务奖励 rttaskr_t^{task}。最新的状态转移 (st,st+1)(s_t, s_{t+1}) 用于构建风格描述符 d_t = [\phi(s_t), \phi(s_{t+1})] \in \mathbb{R}^{2d_d}。然后,使用当前活跃风格的判别器 DiD^i 计算风格奖励 rtstyleR+r_t^{style} \in \mathbb{R}^+,其公式如下:

rtstyle=log(111+expDi([ϕ(st),ϕ(st+1)])). r _ { t } ^ { s t y l e } = - \log \left( 1 - \frac { 1 } { 1 + \exp ^ { - D ^ { i } \left( \left[ \phi ( s _ { t } ) , \phi ( s _ { t + 1 } ) \right] \right) } } \right) . 其中:

  • rtstyler_t^{style}: 在时间步 tt 策略获得的风格奖励。
  • log()\log(\cdot): 自然对数函数。
  • exp()\exp(\cdot): 指数函数。
  • Di([ϕ(st),ϕ(st+1)])D^i([\phi(s_t), \phi(s_{t+1})]): 第 ii 个判别器对当前状态转移描述符的输出。判别器的输出通常在 (,+)(-\infty, +\infty) 之间。
  • 11+expDi()\frac{1}{1 + \exp^{-D^i(\cdot)}}: 这是一个 sigmoid 函数,将判别器的输出映射到 (0,1)(0,1) 之间,可以解释为判别器认为当前状态转移是真实数据的概率。
  • 111+expDi()1 - \frac{1}{1 + \exp^{-D^i(\cdot)}}: 表示判别器认为当前状态转移是假数据(由策略生成)的概率。
  • 整个公式的目的是,当判别器越认为策略生成的动作是“真实”的(即 Di()D^i(\cdot) 越大,sigmoid 接近 1),则 1sigmoid()1 - \text{sigmoid}(\cdot) 越接近 0,其负对数就越大,从而给予策略更高的风格奖励。这鼓励策略生成判别器无法区分的、符合真实风格的动作。

4.2.4. 任务奖励 (Task-reward)

智能体在命令条件框架下与环境交互。在训练期间,环境根据策略对从命令分布 p(c) 中采样的命令 ctc_t 的完成情况给予奖励。例如,任务可能是实现从均匀分布中采样的期望身体线速度和角速度。任务 ctc_t 作为策略观察的一部分,本质上是告知智能体“要做什么”。任务奖励 rˉttask=R(ct,st,st1)\bar{r}_t^{task} = R(c_t, s_t, s_{t-1}) 取决于策略相对于命令的表现。

4.2.5. Multi-AMP 算法流程

总奖励 rt=rttask+rtstyler_t = r_t^{task} + r_t^{style} 可以用于任何 RL 算法,例如近端策略优化 (PPO) 或软演员-评论家 (SAC)。此外,在当前风格 ii 活跃时,状态 sts_t 被存储在风格的推演缓冲区 BπiB_\pi^i 中,以便在每个训练周期结束时更新判别器。

以下是 Multi-AMP 算法的伪代码流程:

算法:Multi-AMP 训练

输入: M={Mi},M=nM = \{M_i\}, |M| = n (n 个运动数据集)

  1. π\pi \gets 初始化策略
  2. VV \gets 初始化价值函数
  3. [B][\mathcal{B}] \gets 初始化 nn 个风格回放缓冲区
  4. [D][D] \gets 初始化 nn 个判别器
  5. R\mathcal{R} \gets 初始化主回放缓冲区
  6. while 未完成训练 do
  7.  **for** i=1,...,mi = 1, ..., \text{m} (多个推演批次) **do**
    
  8.      τi{(ct,cs,st,at,rtG)t=0T1,sT,g}\tau^i \gets \{(c_t, c_s, s_t, a_t, r_t^G)_{t=0}^{T-1}, s_T, g\} // 用策略 π\pi 进行推演
    
  9.      dd \gets 轨迹 τi\tau^i 的风格索引 (编码在 csc_s 中)
    
  10.     **if** MdM^d 不为空 **then** // 如果当前风格有运动数据先验
    
  11.         **for** t=0,...,T1t = 0, ..., T-1 **do**
    
  12.             `d_t = [\phi(s_t), \phi(s_{t+1})]` // 构建状态转移描述符
    
  13.             rtstyler_t^{style} \gets 根据 **公式 2** 计算风格奖励
    
  14.             记录 rtstyler_t^{style}τi\tau^i
  15.         **end for**
    
  16.         存储 dtd_tBd\mathcal{B}^d 中 // 策略生成的状态转移用于训练判别器
    
  17.     **end if**
    
  18.     存储 τi\tau^iR\mathcal{R} 中 // 完整的轨迹用于训练策略和价值函数
    
  19. **end for**
    
  20. **for** update\_step =1,...,nupdates= 1, ..., \text{nupdates} **do** // 判别器更新循环
    
  21.     **for** d=0,...,n1d = 0, ..., n-1 **do** // 对每个风格的判别器
    
  22.         bMb^\mathcal{M} \getsMdM^d 中采样 KK 个状态转移批次 {sj,sj}j=1K\{s_j, s_j'\}_{j=1}^K
    
  23.         bπb^\pi \getsBd\mathcal{B}^d 中采样 KK 个状态转移批次 {sj,sj}j=1K\{s_j, s_j'\}_{j=1}^K
    
  24.         根据 **公式 1** 更新判别器 DdD^d
    
  25.     **end for**
    
  26. **end for**
    
  27. 更新 VVπ\pi (使用 R\mathcal{R} 的标准 `PPO` 步骤)
    
  28. end while

4.2.6. 无数据技能 (Data-free skills)

如果对于期望的技能没有运动数据,但仍然需要与其他基于运动数据的技能一起训练,Multi-AMP 可以进行轻微调整。在这种情况下,当策略学习无运动数据技能时,rtstyler_t^{style} 被设置为 0。这样,无数据技能仍然被视为一个有效的风格,并存在于独热编码的风格选择器 csc_s 中,但策略 π\pi 不再受风格奖励的引导,仅通过任务奖励进行学习。

5. 实验设置

5.1. 数据集

实验中使用的运动数据主要来源于以下三种类型:

  1. 现有 RL 控制器: 用于四足行走 (four-legged locomotion) 的运动数据,这些数据是从一个已经训练好的 RL 策略中记录下来的。

  2. 轨迹优化 (trajectory optimization): 用于鸭步 (ducking skill) 的运动数据。这些数据是通过一个轨迹优化管道生成的,然后由模型预测控制器 (MPC) 进行部署和跟踪。

  3. 逆向站立动作: 用于坐下 (sit-down skill) 的运动数据。这是通过记录机器人站立动作,然后将该运动数据进行逆向播放得到的。这种创新的方法用于自动发现可行的坐下行为,避免了手动调优奖励函数。

    此外,机器人还学习了一种部分数据解耦 (partly data-decoupled) 的技能,即站立在其后腿上,随后进行双轮导航 (two-legged navigation),然后再坐下。其中,站立和双轮导航是无运动数据的技能(通过任务奖励学习),而坐下技能则由逆向站立的运动数据支持。

5.2. 评估指标

论文主要通过任务奖励 (Task-rewards) 来评估策略的性能,这些奖励旨在衡量策略完成特定任务的情况。此外,对于多风格学习的性能,也会通过比较不同配置下(单一风格、多风格)策略最终达到的奖励值和学习曲线来评估。

以下是论文中 Table ITable II 给出的任务奖励公式及其解释:

5.2.1. Table I 任务奖励

以下是原文 TABLE I 的结果:

All tasksformula |τ∥|2
-0.0001
rq-0.0001
rq}\$-0.0001
4-legged locomotionextarget, xy−xk2/0.25 1.5
rlin vele‖ωtarget, z−ω∥2/0.25
rang vel1.5
Ducking
rducke0.8*|xgoal−x|
Stand-up see Tab. II

所有任务 (All tasks) 的通用惩罚项:

  • rτ=0.0001τ2r_\tau = -0.0001\|\tau\|^2: 惩罚关节扭矩(torque),鼓励机器人以较小的力矩执行动作。
  • rq=0.0001q2r_q = -0.0001\|q\|^2: 惩罚关节位置,鼓励关节在合理范围内。
  • rq˙=0.0001q˙2r_{\dot{q}} = -0.0001\|\dot{q}\|^2: 惩罚关节速度,鼓励关节运动平稳,避免剧烈摆动。
    • 注:原文中最后两项的符号和表示稍有模糊,这里按照典型 RL 奖励设计进行解释,即惩罚远离零或目标值的运动。

四足行走 (4-legged locomotion) 特定的奖励项:

  • rlin vel=evtarget,xyvk2/0.25×1.5r_{lin\ vel} = e^{\|v_{target,xy} - v_k\|^2/0.25} \times 1.5: 奖励机器人基座的线速度 (linear velocity) 跟踪目标速度。
    • vtarget,xyv_{target,xy}: 目标线速度在 xy 平面上的分量。
    • vkv_k: 机器人当前线速度在 xy 平面上的分量。
    • 2\|\cdot\|^2: 向量的 L2 范数平方。
    • exe^x: 自然指数函数。
    • 该项的含义是,当实际线速度越接近目标线速度,奖励越大。
  • rang vel=eωtarget,zω2/0.25×1.5r_{ang\ vel} = e^{\|\omega_{target,z} - \omega\|^2/0.25} \times 1.5: 奖励机器人基座的角速度 (angular velocity) 跟踪目标角速度。
    • ωtarget,z\omega_{target,z}: 目标角速度在 zz 轴上的分量(通常是偏航角速度)。
    • ω\omega: 机器人当前角速度在 zz 轴上的分量。
    • 含义与线速度奖励类似,当实际角速度越接近目标角速度,奖励越大。

鸭步 (Ducking) 特定的奖励项:

  • rduck=e0.8xgoalxr_{duck} = e^{0.8 * |x_{goal}-x|}: 奖励机器人接近目标 xx 轴位置。
    • xgoalx_{goal}: 目标 xx 轴位置(例如,桌子下方)。

    • xx: 机器人当前的 xx 轴位置。

    • 该项的含义是,当机器人越接近目标 xx 轴位置,奖励越大。

      站立 (Stand-up) 任务奖励: 参考 Table II

5.2.2. Table II 站立、坐下、导航奖励

以下是原文 TABLE II 的结果:

symbolsdescription
qrobot H probot R3Robot base-frame rotation Robot base-frame position
qJoint DOF positions (excl. wheels)
qhlHind-Leg DOF position
α∠(robot-x axis, world z axis)
f
SFeet on ground (binary) Standing robots (binary)
stand-upformulaweight
π/2-α
π/22 3
Theightf-2
rfeet-0.003
rwheels∑ q2 ront wheels * (1 − f )
rshoulderkqshoulderk2 exp(−0.1 * |qhl − q0, h∥2)-1 1
rstand poseweight
sit-downπ/2−α
run-standmax( *3, 0) π/2 min(α,π/2)-3
rsit−downπ/22.65
rdof vel\$|α|{} α-0.015
rdof posexp(−0.5 * |q0 − q|2) * π/23
navigationweight
rtrack linz∥2)*s x|2) * 2
rtrack ang2

符号说明 (symbols and description):

  • qrobotHq_{robot}^H: 机器人基座坐标系下的旋转。
  • probotR3p_{robot}^{R3}: 机器人基座坐标系下的位置。
  • qq: 关节自由度 (DOF) 位置 (不包括轮子)。
  • qhlq_{hl}: 后腿的关节自由度位置。
  • α\alpha: 机器人 x 轴与世界 z 轴之间的夹角。
  • ff: (原文未给出具体描述,可能与触地状态或姿态有关)
  • SS: 脚是否触地 (二元变量)。
  • stand_upstand\_up: 机器人是否站立 (二元变量)。

站立 (Stand-up) 奖励项:

  • rα=π/2απ/2r_\alpha = \frac{\pi/2 - \alpha}{\pi/2}: 奖励机器人姿态垂直于地面 (即 α\alpha 接近 π/2\pi/2)。
  • rheightr_{height}: ff (权重 -2)。
    • 注:原文公式不完整,仅给出变量 ff,权重为 -2。根据上下文推测,ff 可能是一个与机器人高度或前腿状态相关的变量,惩罚过高或不适当的前腿姿态。
  • rfeet=0.003r_{feet} = -0.003: 惩罚脚触地(在站立或双轮导航时,可能期望部分脚离地)。
  • rwheels=qfront wheels2(1f)r_{wheels} = \sum q^2_{front\ wheels} * (1 - f): 惩罚前轮的关节位置(当 ff 为 0 时,即前腿离地时)。
    • 注:原文公式中的 ff 含义不清晰,但旨在奖励前轮处于特定位置。
  • rshoulder=kqshoulderexp(0.1qhlq0,h2)r_{shoulder} = k_{q}^{shoulder} \exp(-0.1 * \|q_{hl} - q_{0,h}\|^2): 奖励肩部姿态,并惩罚后腿关节位置偏离目标姿态 q0,hq_{0,h}
  • rstand poser_{stand\ pose}: (原文未给出具体公式和权重) 奖励站立姿态。

坐下 (Sit-down) 奖励项:

  • rrunstand=max(απ/23,0)r_{run-stand} = \max(\frac{\alpha}{\pi/2} - 3, 0): 惩罚机器人处于站立状态。当 α\alpha 较大时 (机器人竖直),此项为正值,表示惩罚。
  • rsitdown=π/2min(α,π/2)π/2×2.65r_{sit-down} = \frac{\pi/2 - \min(\alpha, \pi/2)}{\pi/2} \times 2.65: 奖励机器人坐下姿态 (即 α\alpha 接近 0,机器人水平)。当 α\alpha 越小,此项奖励越大。
  • rdof vel=0.015αα˙r_{dof\ vel} = -0.015 |\alpha| \dot{\alpha}: 惩罚关节速度,可能旨在鼓励平稳的坐下动作。
  • rdof pos=exp(0.5q0q2)×3r_{dof\ pos} = \exp(-0.5 * \|q_0 - q\|^2) \times 3: 奖励关节位置接近目标坐下姿态 q0q_0

导航 (Navigation) 奖励项:

  • rtrack lin=exp(vtarget,z2)sx2)r_{track\ lin} = \exp(-\|v_{target,z}\|^2) * s_{x}\|^2): 奖励线速度跟踪。
    • 注:原文公式不完整,但通常表示惩罚线速度跟踪误差,使其接近目标值。
  • rtrack ang=exp(ωtarget,z2)r_{track\ ang} = \exp(-\|\omega_{target,z}\|^2): 奖励角速度跟踪。
    • 注:原文公式不完整,但通常表示惩罚角速度跟踪误差,使其接近目标值。

5.2.3. 训练环境

Multi-AMP 流水线的训练环境是使用 Isaac Gym 模拟器 (Isaac Gym simulator) [18], [19] 实现的,该模拟器支持大规模并行仿真 (massively parallel simulation)。实验中,4096 个环境被并行生成,以在一个单一的神经网络中同时学习所有三个任务。每个任务的环境数量根据其近似难度进行加权,例如,对于上述描述的任务,权重可能设置为 [1, 1, 5] (站立、鸭步、行走)。

5.2.4. 状态描述符 ϕ(s)\phi(s)

状态转移被一个函数 ϕ(s)\phi(s) 映射,该函数提取以下信息: ϕ(s)=(x˙base,xz,ebase,q,q˙,xee,base)R50\phi ( s ) = ( \dot { x } _ { b a s e } , x _ { z } , e _ { b a s e } , q , \dot { q } , x _ { e e , b a s e } ) \in \mathbb { R } ^ { 50 } 其中:

  • x˙base\dot{x}_{base}: 机器人基座的线速度和角速度。
  • xzx_z: 机器人基座相对于地面的高度。
  • ebasee_{base}: 机器人基座坐标系下的重力方向。
  • qq: 关节位置 (不包括轮子)。
  • q˙\dot{q}: 关节速度 (不包括轮子)。
  • xee,basex_{ee,base}: 轮子相对于机器人基座的位置。 这些信息共同构成了判别器用于区分风格的状态描述符。

5.3. 对比基线

论文将 Multi-AMP 训练的策略与专门为单一任务训练的策略进行了比较。这些单一任务策略作为基线 (baselines),用于评估 Multi-AMP 在同时学习多任务时是否会牺牲性能或引入灾难性遗忘 (catastrophic forgetting)。实验中比较了以下六种训练组合:

  1. 仅站立 (Stand up only)

  2. 仅鸭步 (Duck only)

  3. 仅行走 (Walk only)

  4. 行走与站立 (Walking and standing up)

  5. 行走与鸭步 (Walking and ducking)

  6. 行走、鸭步与站立 (Walking, ducking, and standing up)

    其中,鸭步和行走总是使用运动数据进行训练,而站立(这里指从四足到双足)是无运动数据的技能。通过这些组合,作者旨在展示 Multi-AMP 在多任务环境中的学习能力和性能保持情况。

6. 实验结果与分析

6.1. 核心结果分析

论文通过比较 Multi-AMP 策略与单一任务策略在学习不同技能时的表现,验证了其有效性。

6.1.1. 多任务学习能力

主要发现是,Multi-AMP 能够同时学习多个风格和技能,且最终性能与为单一任务专门训练的策略相当,没有出现显著的性能下降。这表明 Multi-AMP 成功地解决了灾难性遗忘 (catastrophic forgetting) 的问题 [20]-[22],即在学习新任务时遗忘旧任务的能力。

6.1.2. 站立任务的学习性能


Fig. 6. Multi-AMP learning capability of the stand-up task. The horizontal axis denotes the number of epochs, and the vertical axis represents the value of the reward calculations after post-processing for comparability. Furthermore, the maximum stand duration is plotted over the number of epochs. Legend: Blue (one style), yellow (two styles), blue (three styles)
该图像是一个图表,展示了多种风格下的站立任务学习能力。横轴表示训练轮次,纵轴为奖励值及最大站立时长。颜色代表不同风格:蓝色(单一风格)、黄色(两种风格)、绿色(三种风格)。

图 6. Multi-AMP 在站立任务上的学习能力。横轴表示训练周期数,纵轴表示经过后处理以方便比较的奖励计算值。此外,最大站立持续时间也随周期数绘制。图例:蓝色(一种风格),黄色(两种风格),蓝色(三种风格)

图 6 展示了站立技能的学习进展,这是一个需要复杂运动序列才能达成的任务,因此是一个很好的基准。图中比较了仅学习站立(一种风格,蓝色曲线)、学习两个任务(两种风格,黄色曲线)和学习三个任务(三种风格,绿色曲线)的策略。

  • 性能对比: 结果显示,同时学习三个任务的策略(3 styles in Fig. 6)在站立和坐下方面表现得同样出色,这与仅学习单一任务的策略(1 style in Fig. 6)没有性能上的妥协。
  • 收敛速度: 尽管多风格策略(例如3 styles)可能需要更长的训练时间(例如,比单风格策略多约300个周期)才能达到最大奖励,但经过足够长的训练时间后,这些差异会消失。这意味着 Multi-AMP 最终能够达到与专用策略相同的性能水平。
  • 指标分析: r_stand(站立奖励)和 r_stand_track_ang_vel(站立时角速度跟踪奖励)的曲线在所有配置下都趋于高值,并且 max_stand_duration(最大站立持续时间)也达到了相似的水平,进一步证实了 Multi-AMP 的有效性。

6.1.3. 行走和鸭步任务的学习性能

对于行走 (walking) 和鸭步 (ducking) 任务,也观察到了类似的现象。专门为这些任务训练的策略(模型编号2和3)与在 Multi-AMP 中学习这些任务的策略达到了相似的最终性能。此外,所有策略都成功提取了行走和鸭步的风格,使得在实际机器人上观察不到明显的风格差异。

总结: 在本研究特定的环境实现和任务选择下,尽管 Multi-AMP 需要更长的训练时间,但它能够像学习较少任务的专用策略一样出色地完成所有目标。

6.2. 坐下动作训练


Fig. 5. Comparison of the sitting down motions. Top row: If the agent learns to sit down with task rewards only, it falls forward with extended front legs, which causes high impacts and leads to over-torque on the real robot. Marked in blue is the trajectory of the center of gravity of the base. Bottom row: When sitting down with task reward and style reward from the reversed stand-up sequence, the robot squats down to lower its center of gravity before tilting forward, thereby reducing the impact's magnitude. Marked in green is the trajectory of the center of gravity of the base. We note that compared to the previous case the base is lowered in a way that causes less vertical base velocity at the moment of impact.
该图像是图5,展示了坐下动作的比较。上排:仅依靠任务奖励学习时,机器人向前倾倒,前腿伸展,造成较高的冲击力,标记为蓝色的为重心轨迹。下排:在有任务奖励和逆向站立序列风格奖励的情况下,机器人先下蹲以降低重心,从而减小冲击幅度,标记为绿色的为重心轨迹。

图 5. 坐下动作的比较。上排:如果智能体仅通过任务奖励学习坐下,它会向前倾倒,前腿伸展,导致高冲击力并导致真实机器人过载。蓝色标记的是基座重心轨迹。下排:当通过任务奖励和逆向站立序列的风格奖励学习坐下时,机器人会先下蹲以降低重心,然后再向前倾斜,从而减小冲击力。绿色标记的是基座重心轨迹。我们注意到,与前一种情况相比,基座以一种在冲击瞬间产生较小垂直基座速度的方式降低。

坐下动作对于机器人而言是一个挑战。最初,仅通过 Table II 中的任务奖励训练的坐下策略,在真实机器人上产生了高冲击力,尤其是在膝关节处,超出了机器人的安全扭矩阈值。为了解决这个问题并避免繁琐的奖励函数调优,作者采取了一种创新方法:

  • 逆向运动先验 (Reverse Motion Prior): 作者记录了机器人的站立动作,然后将这些运动数据逆向播放,作为坐下技能的运动先验。由于站立动作开始时前末端执行器 (front end-effector) 速度为零,因此逆向风格应该鼓励低冲击的坐下动作。
  • Multi-AMP 应用:Multi-AMP 组合中,一个风格包含用于坐下的逆向运动数据,而第二个风格则接收普通的站立奖励。
  • 结果: 如图5所示,通过结合逆向站立动作的风格奖励,机器人学会了一种更平稳的坐下动作:它会先下蹲以降低重心 (center of gravity),然后再向前倾斜,最终四足着地。这种方式显著减小了冲击力的大小。
  • 奖励与时序: 为了避免任务奖励与坐下运动先验冲突,在接收到坐下命令后,策略会在一段预定义的时间内获得零任务奖励。这段缓冲时间允许机器人按照自己的速度和风格完成坐下动作,之后坐下任务奖励才会激活并引导机器人达到最终的坐下姿态。

6.3. 备注

Multi-AMP 训练过程中,平衡策略和判别器的训练至关重要。作者的观察表明,判别器训练过快或过慢都会影响策略的风格学习。当前实现中判别器和策略更新次数是固定的,这可能不是最优策略。由于该设置与生成对抗网络 (Generative Adversarial Networks, GANs) 非常相似,未来可以借鉴 GANs [23] 领域的更多思想来优化 Multi-AMP

为了弥合仿真到真实世界的鸿沟 (sim-to-real gap) [24],论文采用了以下策略:

  • 执行器模型 (Actuator model): 为腿部关节使用了执行器模型,而速度控制的轮子则不需要。
  • 鲁棒性策略: 实施了多种策略以提高策略的鲁棒性,包括崎岖地形训练 (rough terrain training)(如图1所示)、随机扰动 (random disturbances) 和游戏启发式课程训练 (game inspired curriculum training) [19]。
  • 特定技能的鲁棒性: 高度动态的站立技能尤其容易受到这些鲁棒性措施的影响。作者通过引入定时推动 (timed pushes) 和基于关节速度的轨迹终止 (joint-velocity-based trajectory termination) 来解决这个问题。定时推动在技能的关键阶段以最糟糕的方式推机器人,增加了策略在这些关键阶段经历的扰动次数,使其更加鲁棒。此外,如果任何关节自由度 (DOF) 的关节速度超过执行器限制,则终止轨迹,这促使策略学习保持一定的安全裕度。

7. 总结与思考

7.1. 结论总结

本文成功引入了 Multi-AMP 算法,显著提升了强化学习在机器人运动控制中的能力。该方法实现了多运动先验的模仿目标和选择过程的自动化,无需手动启发式规则。实验部分明确证实了 Multi-AMP 能够在单个策略中同时学习和离散切换多种不同的风格和技能,甚至包括那些没有预设运动数据的技能。

通过在轮腿式四足机器人上的真实世界部署,论文展示了多种技能组合,例如行走、鸭步、后腿站立、双轮导航以及四足坐下。特别值得一提的是,通过逆向播放站立动作来生成坐下动作的运动先验,成功避免了传统方法中繁琐的奖励函数调优。研究还发现,即使同时学习多个风格,其最终性能也能与单一风格学习情况相当。

作者认为,Multi-AMP 及其前身 AMP [15] 是在 RL 中消除风格奖励函数调优的有希望的步骤。此外,据作者所知,这是首次在真实机器人上展示四足-人形转换,这一成就挑战了传统多足机器人的分类,并为轮腿机器人开辟了诸多新的应用可能性,例如开门、抓取包裹等。

7.2. 局限性与未来工作

论文作者指出了当前工作的几个局限性:

  1. 判别器与策略训练的平衡: 训练过程中,平衡判别器和策略的训练速度是一个挑战。过快或过慢的判别器训练都会影响策略的风格学习。目前采用的固定更新次数可能不是最优策略,这提示未来可以借鉴 GAN 训练中的高级技巧(如动态调整学习率、不同优化器等)来改进这一平衡。

  2. 运动先验的生成成本: 尽管 Multi-AMP 减少了奖励函数调优的时间,但生成高质量的运动先验仍需要投入时间。对于某些特定任务,可能没有现成的运动数据可用,这仍是应用 Multi-AMP 的一个潜在瓶颈。

  3. 泛化能力: 论文虽然展示了在特定任务上的成功,但其在更广泛、更多样化任务集上的泛化能力,以及处理更多风格时的扩展性仍有待进一步探索。

    未来研究方向可能包括:

  • 探索更智能的判别器和策略训练平衡机制。
  • 研究如何自动化运动先验的获取或生成过程,减少人工投入。
  • Multi-AMP 应用于更复杂的机器人系统或更广泛的动态任务。
  • 深入研究 Multi-AMP 对不同类型运动风格(例如,需要精细力控制的风格)的学习效果。

7.3. 个人启发与批判

这篇论文提供了一个非常令人兴奋和有影响力的工作,它将 AMP 框架向前推进了一大步,使其在实际机器人应用中更具可行性和灵活性。

个人启发:

  1. 优雅的奖励函数设计替代方案: Multi-AMP 最显著的启发在于,它提供了一种在复杂机器人行为中规避繁琐奖励函数调优的优雅方法。通过将“如何做”的任务(风格)外包给对抗性学习,研究人员可以更专注于“做什么”(任务奖励)。这极大地降低了 RL 在现实世界机器人部署中的工程难度和时间成本。
  2. “逆向播放”的创新思维: 逆向播放站立动作来学习坐下动作的策略,是一个非常巧妙且具有通用性的方法。这种思路可以推广到其他需要学习“反向”或“对称”动作的场景,例如从拿起物品学习放下物品,从攀爬学习下降等,有望在机器人技能发现领域产生更多创新。
  3. 多功能机器人的潜力: 轮腿式机器人能够在四足和人形配置之间切换,并导航、站立和坐下,这展示了机器人设计和控制的巨大潜力。这不仅仅是技术上的突破,也预示着机器人能够执行更广泛、更复杂的人类环境任务,模糊了机器人分类的界限。
  4. 对“灾难性遗忘”的有效应对: 在一个策略中同时学习多个风格而不出现显著性能下降,意味着 Multi-AMP 在处理多任务 RL 中的关键挑战——灾难性遗忘——方面表现出色。这种能力对于开发能够执行多种技能的通用机器人至关重要。

批判:

  1. 运动先验的质量依赖: 尽管 Multi-AMP 减少了奖励调优,但它高度依赖于高质量的运动先验。如果提供的运动数据本身存在缺陷、不自然或不完整,那么策略学习到的风格也可能不尽如人意。如何高效、可靠地获取或生成这些先验数据,仍是一个需要解决的实际问题。

  2. 训练平衡的挑战: 论文提到判别器和策略训练的平衡是一个挑战。虽然 GAN 领域有许多稳定训练的技巧,但将其无缝集成到 RL 框架中并确保其在所有风格任务上的鲁棒性,本身就是一个复杂的研究课题。这可能需要更复杂的自适应训练策略,而非固定的更新次数。

  3. 可解释性与安全性: 对抗性训练出的风格可能不如手动设计的奖励函数那样直观和可解释。在真实机器人上部署时,这种“黑盒”性质可能使得在出现意外行为时难以调试和确保安全性,尤其是在高动态运动中。

  4. 计算资源需求: 4096 个并行环境的训练规模,虽然在 Isaac Gym 这样的高性能模拟器上可行,但对于普通研究者而言,计算资源的巨大需求可能成为一个门槛。如何通过更数据高效或计算高效的方法实现类似效果,也是一个值得探索的方向。

    总而言之,Multi-AMP 为机器人学习高级、多样的运动技能提供了一个强大而灵活的框架,其创新性方法和在真实机器人上的成功验证,无疑将对未来具身智能体的发展产生深远影响。

相似论文推荐

基于向量语义检索推荐的相关论文。

暂时没有找到相似论文。