摘要

We present MoE-Loco, a Mixture of Experts (MoE) framework for multitask locomotion for legged robots. Our method enables a single policy to handle diverse terrains, including bars, pits, stairs, slopes, and baffles, while supporting quadrupedal and bipedal gaits. Using MoE, we mitigate the gradient conflicts that typically arise in multitask reinforcement learning, improving both training efficiency and performance. Our experiments demonstrate that different experts naturally specialize in distinct locomotion behaviors, which can be leveraged for task migration and skill composition. We further validate our approach in both simulation and real-world deployment, showcasing its robustness and adaptability.

1. 论文基本信息

1.1. 标题

MoE-Loco: Mixture of Experts for Multitask Locomotion

1.2. 作者

Runhan Huang*1,2, Shaoting Zhu*1,2, Yilun Du3, Hang Zhao+1,2

其中：

1: 清华大学 (Tsinghua University)
2: 智源人工智能研究院 (Beijing Academy of Artificial Intelligence, BAAI)
3: 麻省理工学院 (Massachusetts Institute of Technology, MIT)
* 表示贡献相等 (equal contribution)
- 表示通讯作者 (corresponding author)

1.3. 发表期刊/会议

arXiv 预印本 (Preprint)。arXiv 是一个开放获取的预印本服务器，允许研究者在正式同行评审和发表前分享他们的研究成果。

1.4. 发表年份

2025

1.5. 摘要

本文提出了 MoE-Loco，一个用于腿足机器人 (legged robots) 多任务运动控制 (multitask locomotion) 的专家混合 (Mixture of Experts, MoE) 框架。该方法使单一策略 (single policy) 能够处理多种复杂地形，包括横杆 (bars)、坑洼 (pits)、楼梯 (stairs)、斜坡 (slopes) 和障碍物 (baffles)，同时支持四足 (quadrupedal) 和双足 (bipedal) 步态。通过采用 MoE，MoE-Loco 有效缓解了多任务强化学习 (multitask reinforcement learning) 中常见的梯度冲突 (gradient conflicts) 问题，从而提高了训练效率和性能。实验结果表明，不同的专家 (experts) 自然地专注于不同的运动行为，这可以进一步应用于任务迁移 (task migration) 和技能组合 (skill composition)。该方法在仿真 (simulation) 和真实世界部署 (real-world deployment) 中均得到了验证，展示了其鲁棒性 (robustness) 和适应性 (adaptability)。

1.6. 原文链接

原文链接: https://arxiv.org/abs/2503.08564
PDF 链接: https://arxiv.org/pdf/2503.08564v2.pdf
发布状态: 预印本 (Preprint)。

2. 整体概括

2.1. 研究背景与动机

腿足机器人 (legged robots) 在现实世界中需要穿越各种复杂地形并执行多样化技能，例如在不平坦的地面上行走、跨越障碍物、上下楼梯等。近年来，强化学习 (Reinforcement Learning, RL) 已成为训练机器人运动策略 (locomotion policies) 的主导范式，并在单任务 (single-task) 场景下取得了显著成功。然而，学习一个能够泛化 (generalize) 到多种任务、地形和运动模式的统一策略 (unified policy) 仍然是一个重大挑战。

现有的多任务强化学习 (Multitask Reinforcement Learning, MTRL) 方法在处理多样化技能训练时，通常会遇到梯度冲突 (gradient conflicts) 问题。当一个简单的神经网络 (neural network) 试图学习多个差异较大的任务时，针对不同任务的梯度更新方向可能相互矛盾，导致训练效率低下，甚至模型性能下降。例如，四足和双足步态的运动机制截然不同，直接用一个策略同时学习这两种模式，梯度冲突会更加严重，甚至可能导致模型发散 (model divergence)。

本文的切入点在于，通过引入专家混合 (Mixture of Experts, MoE) 框架，来模块化 (modularize) 策略网络，从而在处理多任务运动控制时，缓解上述梯度冲突问题，并提高学习效率和性能。

2.2. 核心贡献/主要发现

本文的主要贡献和关键发现总结如下：

单一策略的多样化运动能力 (Diverse Locomotion with Single Policy): 提出并部署了一个单一神经网络策略，使四足机器人能够穿越多种挑战性地形（包括横杆、坑洼、障碍物、楼梯、斜坡）并执行两种截然不同的运动模式（四足和双足步态），实现了复杂、多样化环境下的强大泛化能力。
MoE 架构缓解梯度冲突 (MoE for Gradient Conflict Mitigation): 将专家混合 (Mixture of Experts, MoE) 架构集成到运动策略训练中，有效缓解了多任务强化学习中的梯度冲突问题。MoE 通过将梯度导向专门的专家 (specialized experts)，显著提高了训练效率和整体模型性能。
专家专业化与技能组合 (Expert Specialization and Skill Composition): 对 MoE 进行了定性和定量分析，揭示了不同专家之间自然形成的专业化模式。基于这些洞察，论文探索了 MoE 在任务迁移 (task migration) 和技能组合 (skill composition) 方面的潜力，例如通过调整专家权重来合成新的步态。这突显了 MoE 框架的可解释性 (interpretability) 和模块化 (modularity) 优势。
真实世界验证 (Real-World Validation): 在仿真和真实世界中都对所提出的方法进行了广泛验证，证明了其鲁棒性 (robustness) 和适应性 (adaptability)。

3. 预备知识与相关工作

3.1. 基础概念

为了理解本文提出的 MoE-Loco 框架，需要掌握以下基础概念：

强化学习 (Reinforcement Learning, RL): 强化学习是机器学习的一个分支，旨在让智能体 (agent) 在特定环境中，通过与环境的互动，学习如何做出最优决策以最大化累积奖励 (cumulative reward)。智能体在环境中执行动作 (action)，环境根据动作反馈奖励 (reward) 和新的状态 (state)。智能体的目标是学习一个策略 (policy)，该策略根据当前状态选择动作，以获得最大的长期奖励。
马尔可夫决策过程 (Markov Decision Process, MDP): MDP 是强化学习的数学基础，用于对决策问题进行建模。一个 MDP 由一个五元组 $\langle S, A, T, R, \gamma \rangle$ 定义：
- $S$ : 状态空间 (State Space)，表示环境所有可能的状态。
- $A$ : 动作空间 (Action Space)，表示智能体所有可能采取的动作。
- $T$ : 转移函数 (Transition Function)，表示在给定状态 $s$ 和动作 $a$ 时，转移到下一个状态 $s'$ 的概率 $P(s' | s, a)$ 。
- $R$ : 奖励函数 (Reward Function)，表示在给定状态 $s$ 和动作 $a$ 时，智能体获得的即时奖励 R(s, a)。
- $\gamma$ : 折扣因子 (Discount Factor)， $\gamma \in [0, 1)$ ，用于衡量未来奖励的重要性。智能体的目标是学习一个策略 $\pi(a|s)$ ，使得累积折扣奖励 J(\pi) = \mathbb{E} \left[ \sum_{t=0}^{\infty} \gamma^t R(s_t, a_t) \right] 最大化。
Proximal Policy Optimization (PPO): PPO 是一种流行的强化学习算法，属于策略梯度 (policy gradient) 方法。它通过限制每次策略更新的幅度，以确保训练的稳定性和收敛性。PPO 算法的关键思想是使用一个裁剪函数 (clip function) 来限制新旧策略之间策略比率 (probability ratio) 的变化，从而避免过大的策略更新导致性能下降。这使得 PPO 在实际应用中表现出良好的性能和鲁棒性。
专家混合 (Mixture of Experts, MoE): MoE 是一种神经网络架构，旨在通过将大型问题分解为多个子问题，并为每个子问题分配一个专家 (expert) 模型来提高模型能力。它通常由一个门控网络 (gating network) 和多个专家网络组成。门控网络根据输入决定哪些专家被激活或被赋予更高的权重，然后将这些专家的输出进行加权组合，形成最终输出。MoE 允许模型在不同数据样本上利用不同的专家，从而提高效率、容量和泛化能力。
梯度冲突 (Gradient Conflicts): 在多任务学习 (Multitask Learning, MTL) 中，当不同任务的损失函数共享相同的模型参数时，各自任务的梯度更新方向可能相互矛盾。例如，任务 A 需要参数向一个方向更新，而任务 B 需要参数向相反方向更新。这种冲突可能导致模型在所有任务上的性能都受到影响，或者在某些任务上表现不佳。解决梯度冲突是 MTRL 的一个重要研究方向。
特权状态 (Privileged State) 与本体感受 (Proprioception): 在机器人控制中：
- 本体感受 (Proprioception): 指机器人自身内部传感器提供的感知信息，如关节位置、关节速度、惯性测量单元 (IMU) 数据（角速度、重力向量）等。这些信息是机器人始终可获取的。
- 特权状态 (Privileged State): 指在仿真环境中可获取，但在真实世界中难以直接获取或噪声很大的信息，例如精确的接触力、摩擦系数、环境高度图、以及精确的线性速度等。通常，训练时会利用特权状态以加速学习或提高性能，但在部署时需要学习一个估计器 (estimator) 从本体感受中推断这些信息，以弥合仿真到真实 (sim-to-real) 的差距。
仿真到真实 (Sim-to-Real): 指在仿真环境中训练得到的机器人策略，能够成功地迁移到真实世界中的机器人上并有效执行。这是一个重要的研究领域，因为在仿真中训练成本低、效率高，但仿真与真实世界的差异（即“仿真-真实差距”或 sim-to-real gap）往往会降低策略在真实世界的性能。解决 sim-to-real gap 的常用方法包括领域随机化 (domain randomization)、特权学习 (privileged learning) 等。

3.2. 前人工作

本文在机器人运动控制领域，特别是多任务学习和专家混合架构的应用方面，引用并比较了多项前人工作。

强化学习在机器人运动控制中的应用:
- 单任务成功案例: 许多研究在仿真和真实世界中展示了 RL 学习腿足运动行为的能力，包括穿越复杂地形 [8, 20, 21]、实现高速奔跑 [22, 23]、双足行走 [24, 25]、开门 [1, 4]、崎岖地形导航 [26] 和高速跑酷 [7, 9, 10, 27] 等。这些工作通常专注于特定技能和有限地形，与本文的多任务目标不同。
- 代表性方法: RMA [3] 是一种用于腿足机器人的快速电机适应方法，使用 1D 卷积神经网络 (1D-CNN) 作为异步适应模块，在教师-学生训练框架内工作，但没有使用 MoE 模块。本文在实验中将其作为基线模型进行比较，并指出其在多挑战地形上的性能不足。
多任务学习 (Multitask Learning, MTL) 与多任务强化学习 (Multitask Reinforcement Learning, MTRL):
- MTL 优势与挑战: MTL 旨在训练一个统一网络以执行多个任务 [28-30]，允许任务之间共享知识 [31, 32]。然而，它也面临负梯度冲突的挑战 [33-35]。
- MTRL 算法: 许多算法被开发来提高 MTRL 的有效性 [36-38]，并在机器人领域广泛应用，尽管大部分关注点在操作任务 [16, 35, 39, 40]。
- 运动控制中的 MTRL:
  - ManyQuadrupeds [41] 专注于学习用于不同类型四足机器人的统一策略。
  - MELA [42] (Multi-Expert Learning Architecture) 利用预训练的专家模型构建运动策略，但主要集中在基本技能获取，且预训练过程需要大量的奖励工程 (reward engineering)。
  - MTAC [43] 尝试使用分层 RL (hierarchical RL) 训练跨地形策略，但只能处理一种步态和三种相对简单的地形，且未在真实机器人上部署。
- 与本文差异: 这些 MTRL 工作要么关注不同机器人种类，要么只处理基本技能，或仅限于简单地形和单一步态，且通常存在梯度冲突问题。本文通过 MoE 框架，能够在一个策略中处理更多样化的地形和双足/四足两种截然不同的步态，并解决了梯度冲突。
专家混合 (Mixture of Experts, MoE):
- 概念起源与应用: MoE 概念最初由 Jacobs 等人于 1991 年提出 [13, 44]，近年来在自然语言处理 [47, 48]、计算机视觉 [49, 50] 和多模态学习 [51, 52] 等领域获得了广泛关注和应用。
- 在 RL 和机器人中的应用:
  - DeepMind [14] 探索了使用 MoE 来扩展强化学习。
  - MELA [39] 提出了一个多专家学习架构以从一组代表性专家技能中生成自适应技能，但其主要关注点是简单动作。
  - Celik et al. [16] 探索了课程强化学习 (curriculum reinforcement learning) 与 MoE 结合以获取多样化技能。
- 与本文差异: 尽管 MoE 在 RL 和机器人领域已有应用，但本文是首次将 MoE 架构系统性地应用于处理多任务、多步态、复杂地形的腿足机器人运动控制，并明确通过实验验证了其缓解梯度冲突的能力，以及在技能分解与组合方面的优势。

3.3. 技术演进与差异化分析

技术演进: 腿足机器人运动控制从早期的基于模型控制 (model-based control) 逐步发展到数据驱动的强化学习方法。RL 的引入使得机器人能够学习复杂且自适应的行为，尤其是在仿真中。然而，随着任务复杂性和多样性的增加，单一策略的泛化能力受限，且 MTRL 中的梯度冲突成为瓶颈。专家混合 (MoE) 架构作为一种模块化、可扩展的神经网络设计，在其他 AI 领域取得成功后，自然地被引入到 RL 领域，以期解决复杂多任务学习的挑战。本文的工作正是将 MoE 引入到腿足机器人的多任务运动控制中，以应对同时处理多样化地形和不同步态的挑战。

差异化分析: 本文的 MoE-Loco 方法与相关工作的主要区别和创新点在于：

全面多任务覆盖: 现有工作多专注于特定技能或有限地形，而 MoE-Loco 在一个单一策略中同时涵盖了多种挑战性地形（横杆、坑洼、障碍物、楼梯、斜坡）以及两种根本不同的运动模式（四足和双足步态），实现了更全面的多任务运动控制。
明确解决梯度冲突: 本文明确指出并量化了 MTRL 中梯度冲突的问题，并通过 MoE 架构提供了一个有效的解决方案。实验结果（Table III, IV）直接证明了 MoE 在降低梯度冲突方面的有效性，这是其他 MTRL 方法（如 Ours w/o MoE 或 RMA）所不具备或未能充分解决的。
专家专业化与技能组合的可解释性: MoE-Loco 不仅提高了性能，还提供了对策略内部决策机制的可解释性。通过分析门控网络 (gating network) 的输出，可以观察到不同专家在特定任务上的专业化，并利用这种专业化实现技能的分解和组合（如生成“运球”步态和三足步态），这对于其他“黑箱”式神经网络是难以实现的。
实机部署验证: 本文方法在 Unitree Go2 四足机器人上进行了真实世界零样本迁移 (zero-shot transfer) 部署，验证了其在现实环境中的鲁棒性和泛化能力，这比仅限于仿真的工作更具说服力。

4. 方法论

4.1. 方法原理

MoE-Loco 的核心思想是利用专家混合 (Mixture of Experts, MoE) 架构来解决多任务腿足机器人运动控制中常见的梯度冲突问题，并实现单一策略对多样化地形和多重步态的鲁棒处理。其背后的直觉是：与其让一个单一的、庞大的神经网络去学习所有差异巨大的任务（这会导致参数共享时的梯度冲突），不如设计一个模块化的网络，其中不同的“专家”网络可以专注于学习特定类型或相关联的任务，而一个“门控网络”则负责根据当前的输入（状态和命令）动态地选择和组合这些专家的输出。这样，每个专家可以独立地学习其擅长的行为，门控网络则协调它们，从而减轻了任务间共享参数带来的负担，并允许模型更好地泛化。

本文采用了一个两阶段训练框架，结合了特权学习 (privileged learning) 的思想，以弥合仿真到真实世界的差距：

第一阶段 (Stage 1): Oracle 策略训练。 在仿真环境中，策略可以访问所有可用的观测（包括本体感受、显式特权状态和隐式特权状态）。MoE 模块在此阶段学习如何分配和协调不同的专家来处理多种运动任务。同时，一个估计器 (Estimator) 也在本阶段进行预训练，学习从本体感受和命令中估计特权状态。
第二阶段 (Stage 2): 部署策略训练。 策略只能访问本体感受和命令。此前预训练的估计器被用于提供特权状态的估计值。通过概率退火选择 (Probability Annealing Selection, PAS) 技术，策略逐渐适应估计器可能存在的不准确性，以确保策略在真实世界部署时的鲁棒性。

MoE 架构的引入使得不同的专家可以自然地专注于特定的运动行为，如平衡、爬行或跨越障碍，这不仅提高了训练效率和性能，也为后续的技能分解和组合提供了基础。

4.2. 核心方法详解

4.2.1. 任务定义

本文将多任务运动控制定义为一个马尔可夫决策过程 (Markov Decision Process, MDP)，由五元组 $\langle S _ { \tau } , A _ { \tau } , T _ { \tau } , R _ { \tau } , \gamma _ { \tau } \rangle$ 组成。其中：

$S _ { \tau }$ 表示与特定任务相关的状态空间子集， $S _ { \tau } \subseteq S$ 。这意味着不同的运动地形对应着不同的状态空间，但机器人并不知道完整的状态空间 $S$ 。例如，在斜坡上行走的状态空间与爬楼梯或跨越横杆的状态空间是不同的。
$A _ { \tau }$ 表示动作空间，对于所有任务保持一致，即期望的 12 个关节位置。
$T _ { \tau }$ 表示状态转移函数，它会因步态类型的不同而具有不同的终止条件。
$R _ { \tau }$ 表示奖励函数，它会根据不同的步态而变化，以反映任务特定的目标。
$\gamma _ { \tau }$ 表示折扣因子。

机器人的目标是学习一个策略 $\pi ( a | s )$ ，该策略根据地形和步态选择动作，以最大化所有任务的累积奖励：

$J ( \pi ) = \mathbb { E } \left[ \sum _ { \tau } \sum _ { t = 0 } ^ { \infty } \gamma ^ { t } R _ { \tau } ( s _ { t } , a _ { t } , s _ { t + 1 } ) \right]$

其中：

$J(\pi)$ 是策略 $\pi$ 的期望累积奖励。
$\mathbb{E}$ 表示期望值。
$\tau$ 表示不同的任务。
$t$ 表示时间步。
$\gamma$ 是折扣因子，衡量未来奖励的重要性。
$R _ { \tau } ( s _ { t } , a _ _ { t } , s _ { t + 1 } )$ 是在任务 $\tau$ 中，从状态 $s_t$ 执行动作 $a_t$ 转移到 $s_{t+1}$ 所获得的奖励。

本文专注于盲运动 (blind locomotion)，即仅使用本体感受 (proprioception) 作为输入。

4.2.2. 观测空间 (State Space)

观测空间包含四种类型的信息，它们在训练的不同阶段被使用：

本体感受 (Proprioception) $\pmb p _ { t }$ : 包括来自 IMU (Inertial Measurement Unit) 的投影重力 (projected gravity) 和基础角速度 (base angular velocity)，关节位置 (joint positions)，关节速度 (joint velocities)，以及上一个动作 (last action)。这些是机器人自身可感知的信息。
显式特权状态 (Explicit Privileged State) $\scriptstyle { e _ { t } }$ : 包含基础线性速度 (base linear velocity) 和地面摩擦力 (ground friction)。基础线性速度通常通过 IMU 积分获得，但在真实世界中可能噪声较大；地面摩擦力则难以直接测量。
隐式特权状态 (Implicit Privileged State) i _ { t }: 包括不同机器人连杆的接触力 (contact force)。这些信息通常需要通过编码器 (encoder) 映射到低维潜在表示 (low-dimensional latent representation) 以缓解 sim-to-real gap。
命令 (Command) $\mathbf { c } _ { t }$ : 包含一个速度命令 V = \left( \nu _ { x } , \nu _ { y } , \nu _ { \mathrm { y a w } } \right)（分别代表前进/后退速度、侧向速度和偏航角速度）以及一个独热 (one-hot) 向量 $g$ ，其中 $g=0$ 表示四足步态，而 $g=1$ 表示双足步态。

4.2.3. 动作空间 (Action Space)

动作空间 $\pmb { a } _ { t } \in \mathbb { R } ^ { 12 }$ 由所有 12 个关节的期望关节位置 (desired joint positions) 组成。这些期望位置会通过低级 PD 控制器 (PD controller) 转换成实际的关节力矩。

4.2.4. 奖励设计 (Reward Design)

在多任务学习设置下，机器人根据当前的步态命令 $g$ 接收不同的奖励。

四足运动 $(g=0)$ : 总奖励定义为 $r ^ { \mathrm { q u a d } } = r _ { \mathrm { t r a c k } } ^ { \mathrm { q u a d } } + r _ { \mathrm { r e g } } ^ { \mathrm { q u a d } }$ ，其中 $r _ { \mathrm { t r a c k } } ^ { \mathrm { q u a d } }$ 是跟踪奖励， $r _ { \mathrm { r e g } } ^ { \mathrm { q u a d } }$ 是正则化奖励。
双足运动 $(g=1)$ : 总奖励定义为 $r ^ { \mathrm { b i p } } = r _ { \mathrm { t r a c k } } ^ { \mathrm { b i p } } + r _ { \mathrm { s t a n d } } ^ { \mathrm { b i p } } + r _ { \mathrm { r e g } } ^ { \mathrm { b i p } }$ ，其中 $r _ { \mathrm { t r a c k } } ^ { \mathrm { b i p } }$ 是跟踪奖励， $r _ { \mathrm { s t a n d } } ^ { \mathrm { b i p } }$ 是站立奖励， $r _ { \mathrm { r e g } } ^ { \mathrm { b i p } }$ 是正则化奖励。具体奖励函数在附录 V-A 中详细说明。

4.2.5. 终止条件 (Termination)

终止条件也根据步态模式而异：

四足步态 $(g=0)$ : 当机器人滚动角 (roll angle) $\theta _ { \mathrm { r o l l } } > 1.0$ 弧度或俯仰角 (pitch angle) $\theta _ { \mathrm { p i t c h } } > 1.6$ 弧度时终止。
双足步态 $(g=1)$ : 在 1 秒后，如果除后脚和小腿以外的任何其他连杆接触地面时终止。

4.2.6. 两阶段训练 (Two-Stage Training)

本文遵循 [20] 的两阶段训练框架，并使用 PPO [53] 作为强化学习算法。

4.2.6.1. 第一阶段：Oracle 策略训练 (Training Stage 1: Oracle Policy)

此阶段的目标是训练一个“Oracle 策略”，它可以访问所有可用的观测状态。其流程如下：

观测处理:
- 隐式特权状态 i _ { t } 首先通过一个编码器网络 (Encoder network) 编码成一个潜在表示 (latent representation) $\mathbf { z } _ { t } = \mathrm { Enc } ( i _ { t } )$ 。
- 这个潜在表示 $\mathbf { z } _ { t }$ 与显式特权状态 $\mathbf { e } _ { t }$ 和本体感受 $\pmb { p } _ { t }$ 连接，形成双状态表示 (dual-state representation) $\mathbf { l } _ { t } = \left[ \mathbf { z } _ { t } , \mathbf { e } _ { t } , \pmb { p } _ { t } \right]$ 。
- 下游的 LSTM (Long Short-Term Memory) 模块将当前状态 $\mathbf { l } _ { t }$ 和命令 $\mathbf { c } _ { t }$ 以及历史信息整合，输出一个上下文表示 $\mathbf { h } _ { t } = \mathrm { LSTM } ( [ \mathbf { l } _ { t } , \mathbf { c } _ { t } ] )$ 。
MoE 架构集成: 为了解决多任务强化学习中的梯度冲突问题，MoE 架构被集成到策略网络 (actor network) 和价值网络 (critic network) 中。具体来说，每个 MoE 模块 $f$ 的操作如下：

首先，门控网络 (gating network) $g$ 根据 LSTM 的输出 $\mathbf { h } _ { t }$ 计算每个专家的门控分数 (gating scores)，并通过 softmax 函数归一化： $\hat { \pmb { g } } _ { i } = \mathrm { softmax } \big ( g \big ( { \pmb h } _ { t } \big ) \big ) [ i ]$ 其中：
- $\hat { \pmb { g } } _ { i }$ 是第 $i$ 个专家的归一化门控分数（或权重）。
- $\mathrm { softmax } ( \cdot )$ 是 softmax 函数，用于将原始门控分数转换为概率分布，确保所有专家权重之和为 1。
- $g ( \pmb { h } _ { t } )$ 是门控网络根据上下文表示 $\pmb { h } _ { t }$ 计算出的原始门控分数。
  
  然后，最终的动作 $\pmb { a } _ { t }$ 是所有专家 $f_i$ 的输出的加权和： $\pmb { a } _ { t } = \sum _ { i = 1 } ^ { N } \hat { \pmb { g } } _ { i } \cdot { f } _ { i } \big ( { \pmb h } _ { t } \big )$ 其中：
- $\pmb { a } _ { t }$ 是最终生成的动作。
- $N$ 是专家 (expert) 的总数量。
- $f _ { i } ( \pmb { h } _ { t } )$ 是第 $i$ 个专家网络根据上下文表示 $\pmb { h } _ { t }$ 计算出的输出。
- 策略 MoE 和价值函数 MoE 共享同一个门控网络 $g$ ，以确保策略评估和动作生成之间的一致性。
估计器预训练: 在此阶段，一个估计器模块 (Estimator module) 也进行预训练。它的目标是学习如何从本体感受 $\pmb { p } _ { t }$ 和命令 $\pmb { c } _ { t }$ 重构 (reconstruct) 特权信息 $[ \mathrm { Enc } ( i _ { t } ) , e _ { t } ]$ 。使用 L2 损失 $L _ { \mathrm { recon } }$ 进行优化： $L _ { \mathrm { recon } } = \sum _ { \hat { \mathbf { l } } _ { i } , \mathbf { l } _ { i } \in \mathcal { D } } \left\| \hat { \mathbf { l } } _ { i } - \mathbf { l } _ { i } \right\| ^ { 2 }$ 其中：
- $L_{\mathrm{recon}}$ 是重构损失。
- $\hat { \mathbf { l } } _ { i }$ 是估计器输出的特权信息估计值，即 $\mathrm { Estimator } ( \pmb { p } _ { t } , \pmb { c } _ { t } )$ 。
- $\mathbf { l } _ { i }$ 是真实的特权信息，即 $[ \mathrm { Enc } ( i _ { t } ) , e _ { t } ]$ 。
- $\mathcal{D}$ 是经验回放缓冲区 (rollout buffer)。
- $\| \cdot \|$ 表示向量的 L2 范数。
整体优化目标: 整体优化目标是 PPO 的代理损失 (surrogate loss) $L _ { \mathrm { surro } }$ 和价值损失 (value loss) $L _ { \mathrm { value } }$ ，再加上估计器的重构损失 $L _ { \mathrm { recon } }$ ： $L = L _ { \mathrm { s u r r o } } + L _ { \mathrm { v a l u e } } + L _ { \mathrm { r e c o n } }$ 其中：
- $L_{\mathrm{surro}}$ 是 PPO 算法中用于更新策略的损失。
- $L_{\mathrm{value}}$ 是 PPO 算法中用于更新价值网络的损失。

4.2.6.2. 第二阶段：部署策略训练 (Training Stage 2: Deployment Policy)

此阶段的目标是训练一个可以在真实世界部署的策略，它只能访问本体感受和命令。其流程如下：

参数初始化: 策略、价值网络（包括 MoE 模块）和估计器的权重都从第一阶段训练好的 Oracle 策略中复制过来进行初始化。
观测处理与特权状态估计:
- 策略现在只能访问本体感受 $\pmb { p } _ { t }$ 和命令 $\pmb { c } _ { t }$ 。
- 预训练的估计器用于估计特权状态： $\hat { \mathbf { l } } _ { t } \gets [ \mathrm { Estimator } ( { \bf p } _ { t } , { \bf c } _ { t } ) , { \bf p } _ { t } ]$ 。
- 为了在训练初期仍然利用真实的特权状态来稳定训练，并逐步过渡到完全依赖估计器，本文采用概率退火选择 (Probability Annealing Selection, PAS) 机制 [54]。PAS 允许在真实的特权状态 $\mathbf { l } _ { t } = [ \mathbf { z } _ { t } , \mathbf { e } _ { t } , \pmb { p } _ { t } ]$ 和估计的特权状态 $\hat { \mathbf { l } } _ { t }$ 之间进行概率选择。具体地，一个概率 $P_t$ 随时间 $t$ 退火（通常是指数衰减），决定是使用真实值还是估计值： $\bar { \mathbf { l } } _ { t } = \mathrm { Probability Selection } ( { \bf P } _ { t } , \hat { \bf l } _ { t } , { \bf l } _ { t } )$ 其中 $P_t = \alpha^t$ (其中 $\alpha \in (0, 1)$ 是一个退火率) 决定了使用真实特权状态的概率。随着训练的进行， $P_t$ 逐渐减小，策略越来越依赖估计的特权状态。
- 然后，与第一阶段相同，LSTM 模块整合信息并输出上下文表示： $\mathbf { h } _ { t } \gets \mathrm { LSTM } ( [ \bar { \bf l } _ { t } , { \bf c } _ { t } ] )$ 。
MoE 动作生成: MoE 模块继续按照第一阶段的方式生成动作： $\hat { \bf g } \gets \mathrm { softmax } ( g ( { \bf h } _ { t } ) )$ ${ \bf a } _ { t } \gets \sum _ { i = 1 } ^ { N } \hat { \bf g } _ { i } \cdot f _ { i } ( { \bf h } _ { t } )$
整体优化目标: 与第一阶段相同，整体优化目标是 PPO 损失和估计器的重构损失： $L = L _ { \mathrm { s u r r o } } + L _ { \mathrm { v a l u e } } + L _ { \mathrm { r e c o n } }$

4.2.7. 技能分解与组合 (Skill Decomposition and Composition)

MoE 框架的一个关键优势是它能够自然地将任务分解为不同专家所擅长的技能。通过分析门控网络 $g$ 输出的专家权重 $\hat { \pmb { g } } _ { i }$ ，可以了解每个专家在特定任务中的贡献和专业化。

进一步地，这种分解能力也使得技能组合 (skill composition) 成为可能。通过手动调整或通过另一个神经网络动态调整预训练专家的门控权重，可以合成新的技能和步态，而无需从头开始训练。

形式上，通过修改门控权重实现技能组合： $\pmb { \hat { g } } _ { i } = w [ i ] \cdot \mathrm { softmax } ( g ( \pmb { h } _ { t } ) ) [ i ]$ 其中：

$\pmb { \hat { g } } _ { i }$ 是调整后的第 $i$ 个专家的权重。
w[i] 是一个手动定义或动态调整的权重因子，用于调节第 $i$ 个专家的贡献。
$\mathrm { softmax } ( g ( \pmb { h } _ { t } ) ) [ i ]$ 是原始门控网络为第 $i$ 个专家计算的权重。通过这种方式，可以实现对特定专家的增强或抑制，从而创造出新的混合技能，例如论文中展示的“运球 (dribbling)”步态。

4.2.8. 网络架构细节 (Network Architecture Details)

以下是原文 Table VI 中给出的网络架构细节：

以下是原文 Table VI 的结果：

Network	Type	Dims
Actor RNN	LSTM	[256]
Critic RNN	LSTM	[256]
Estimator Module	LSTM	[256]
Estimator Latent Encoder	MLP	[256, 128]
Implicit Encoder	MLP	[32, 16]
Expert Head	MLP	[256, 128, 128]
Standard Head	MLP	[640, 640, 128]
Gating Network	MLP	[128]

其中：

Actor RNN (策略循环神经网络) 和 Critic RNN (价值循环神经网络) 都使用了 LSTM，输出维度为 256。
Estimator Module (估计器模块) 也是 LSTM，输出维度 256，用于估计特权状态。
Estimator Latent Encoder (估计器潜在编码器) 是一个多层感知机 (MLP)，将输入（可能是原始特权状态）编码为 [256, 128] 维。
Implicit Encoder (隐式编码器) 也是 MLP，将隐式特权状态编码为 [32, 16] 维。
Expert Head (专家头部) 是每个专家网络的主体，为 MLP，维度为 [256, 128, 128]。
Standard Head (标准头部) 是作为基线的标准 MLP 策略的结构，维度为 [640, 640, 128]。
Gating Network (门控网络) 是一个 MLP，输出维度为 [128]，用于计算专家的门控分数。

该图像是示意图，展示了MoE-Loco框架中的信息流和结构。图中包含明确的和隐含的特权状态，提供了关于估计器、感知和长短期记忆（LSTM）处理的信息。特别强调了两个Mixture of Experts（MoE）模块——演员MoE和评论家MoE，以及其输出的加权和，以产生最终的行动决策。整个系统依赖于门控网络来整合不同信息，从而高效处理多任务运动学习。

上图 (原文 Fig. 3) 描绘了 MoE-Loco 的整体流程。它展示了从观测到动作的路径，突出了估计器 (Estimator)、LSTM 模块以及 MoE 模块在 actor (策略网络) 和 critic (价值网络) 中的应用。

5. 实验设置

5.1. 数据集与环境

本文的实验主要在 IsaacGym [17] 仿真环境中进行，并最终在真实世界的 Unitree Go2 四足机器人上进行部署。

仿真环境 (Simulation Environment):

平台: IsaacGym [17]，一个高性能的基于 GPU 的物理仿真平台，能够并发运行多个机器人。
并发机器人数量: 在 NVIDIA RTX 3090 GPU 上同时训练 4096 个机器人。这种大规模并行训练显著加速了数据收集和策略学习过程。

地形设置:

挑战性任务: 9 种挑战性运动任务，包括四足和双足步态。
四足步态任务: 横杆穿越 (bar crossing)、坑洼穿越 (pit crossing)、障碍物爬行 (baffle crawling)、楼梯攀爬 (stair climbing)、斜坡行走 (slope walking)。
双足步态任务: 站立 (standing up)、平地行走 (plane walking)、斜坡行走 (slope walking)、楼梯下降 (stair descending)。

具体地形参数 (Benchmark Tasks): 以下是原文 Table II 的结果：

Obstacle Type	Specification	Gait Mode
Bars	5 bars, height: 0.05m 0.2m	Quadrupedal
Pits	5 pits, width: 0.05m - 0.2m	Quadrupedal
Baffles	5 baffles, height: 0.3m 0.22m	Quadrupedal
Up Stairs	3 sets, step height: 5cm 15cm	Quadrupedal
Down Stairs	3 sets, step height: 5cm 15cm	Quadrupedal
Up Slopes	3 sets, incline: 10° 35°	Quadrupedal
Down Slopes	3 sets, incline: 10° - 35°	Quadrupedal
Plane	10m flat surface	Bipedal
Up Slopes	3 sets, incline: 10° 35°	Bipedal
Down Slopes	3 sets, incline: 10° - 35°	Bipedal
Down Stairs	3 sets, step height: 5cm - 15cm	Bipedal

混合任务基准 (Mixed-task Benchmark): 一个 5 米宽、100 米长的跑道，沿途均匀分布各种障碍物。
单任务评估: 每个任务的跑道长度为 30 米。

地面随机化 (Fractal Noise): 为了防止腿部拖地，并在不平坦地形上实现鲁棒性能，地面上施加了分形噪声 (fractal noise) [7]，最大噪声尺度 $z_{\mathrm{max}} = 0.1$ 。

真实世界部署 (Real-World Deployment):
- 机器人平台: Unitree Go2 四足机器人。
- 板载计算设备: NVIDIA Jetson Orin。
- 控制频率: 仿真和真实世界均为 50 Hz。
- 低级控制: 使用 PD 控制器进行关节执行 ( $K_p = 40.0, K_d = 0.5$ )。

领域随机化 (Domain Randomization): 为了确保策略能够安全地迁移到真实环境，引入了动态随机化 (dynamic randomization)。以下是原文 Table VII 的结果：

Parameters	Range	Unit
Base mass	[1, 3]	kg
Mass position of X axis	[-0.2, 0.2]	m
Mass position of Y axis	[-0.1, 0.1]	m
Mass position of Z axis	[-0.05, 0.05]	m
Friction	[0, 2]	-
Initial joint positions	[0.5, 1.5] × nominal value	rad
Motor strength	[0.9, 1.1] × nominal value	-
Proprioception latency	[0.005, 0.045]	s

此外，为了模拟真实世界的噪声，对输入观测添加了高斯噪声 (Gaussian noise)。以下是原文 Table VIII 的结果：

Observation	Gaussian Noise Amplitude	Unit
Linear velocity	0.05	ms
Angular velocity	0.2
Gravity	0.05	m/s2
Joint position	0.01	rad
Joint velocity	1.5	d

训练流程:
1. 平面预训练: 40,000 次迭代用于两种步态的平面行走。
2. 挑战地形训练: 80,000 次迭代用于挑战性地形任务。
3. PAS 适应: 10,000 次迭代使用概率退火选择 (Probability Annealing Selection, PAS) 使策略适应纯本体感受输入。
- 专家数量 $N_{\mathrm{exp}}$ 设为 6。

5.2. 评估指标

本文使用以下三个指标来评估机器人运动策略的性能：

成功率 (Success Rate) $\uparrow$ :
- 概念定义: 衡量机器人在规定时间内成功完成任务的试验次数比例。高成功率表明策略的鲁棒性和任务完成能力。
- 数学公式: $\text{Success Rate} = \frac{\text{Number of Successful Trials}}{\text{Total Number of Trials}}$
- 符号解释:
  - Number of Successful Trials：成功完成任务的试验次数。
  - Total Number of Trials：总的试验次数。
- 任务成功定义: 在 400 秒内到达目标点 1 米范围内。
- 任务失败定义: 跌落跑道、被卡住或满足第三章 B 节中描述的终止条件。失败试验的通过时间记录为 400 秒。
平均通过时间 (Average Pass Time) $\downarrow$ :
- 概念定义: 衡量机器人在成功完成任务时所需的平均时间。低平均通过时间表明策略的效率和速度。
- 数学公式: $\text{Average Pass Time} = \frac{\sum_{j=1}^{\text{Successful Trials}} T_j + \sum_{k=1}^{\text{Failed Trials}} T_{\text{max}}}{\text{Total Number of Trials}}$
- 符号解释:
  - $T_j$ ：第 $j$ 次成功试验的通过时间。
  - $T_{\text{max}}$ ：失败试验的惩罚时间，此处为 400 秒。
  - Successful Trials：成功完成任务的试验次数。
  - Failed Trials：失败的试验次数。
  - Total Number of Trials：总的试验次数。
平均行进距离 (Average Travel Distance) $\uparrow$ :
- 概念定义: 衡量机器人在评估结束时在跑道上行进的平均距离。高平均行进距离表明策略能够有效且持续地前进。
- 数学公式: $\text{Average Travel Distance} = \frac{\sum_{i=1}^{\text{Total Number of Robots}} D_i}{\text{Total Number of Robots}}$
- 符号解释:
  - $D_i$ ：第 $i$ 个机器人在评估结束时的行进距离。
  - Total Number of Robots：参与评估的机器人总数。
    
    此外，在梯度冲突分析中，使用了以下两个指标：
梯度余弦相似度 (Gradient Cosine Similarity) $\uparrow$ :
- 概念定义: 衡量两个任务的梯度向量之间的相似性。高余弦相似度（接近 1）表示梯度方向一致，低余弦相似度（接近 0 或负数）表示梯度方向不一致甚至相反，意味着存在梯度冲突。
- 数学公式: 对于两个任务 $A$ 和 $B$ 的梯度向量 $\nabla_A$ 和 $\nabla_B$ ，其余弦相似度定义为： $\text{Cosine Similarity}(\nabla_A, \nabla_B) = \frac{\nabla_A \cdot \nabla_B}{\|\nabla_A\| \|\nabla_B\|}$
- 符号解释:
  - $\nabla_A$ ：任务 $A$ 的所有参数的梯度向量。
  - $\nabla_B$ ：任务 $B$ 的所有参数的梯度向量。
  - $\cdot$ ：向量点积。
  - $\|\cdot\|$ ：向量的 L2 范数。
负梯度比率 (Negative Gradient Ratio) $\downarrow$ :
- 概念定义: 衡量两个任务的梯度向量中，有多少比例的梯度分量是方向相反的。高负梯度比率意味着存在显著的梯度冲突。
- 数学公式: 对于两个任务 $A$ 和 $B$ 的梯度向量 $\nabla_A$ 和 $\nabla_B$ ，其负梯度比率定义为： $\text{Negative Gradient Ratio}(\nabla_A, \nabla_B) = \frac{\sum_{k=1}^P \mathbb{I}((\nabla_A)_k (\nabla_B)_k < 0)}{P}$
- 符号解释:
  - $(\nabla_A)_k$ ：任务 $A$ 的第 $k$ 个参数的梯度分量。
  - $(\nabla_B)_k$ ：任务 $B$ 的第 $k$ 个参数的梯度分量。
  - $\mathbb{I}(\cdot)$ ：指示函数，当条件为真时取 1，否则取 0。
  - $P$ ：模型中所有参数的总数量。

5.3. 对比基线

本文将 MoE-Loco 方法与以下两种基线模型进行了比较：

Ours w/o MoE [20]:
- 描述: 该基线模型采用与 MoE-Loco 相同的两阶段训练框架和强化学习算法 (PPO)，但将 MoE 模块替换为一个简单的多层感知机 (MLP) 作为策略的主干网络 (backbone)。
- 特点: 为了进行公平比较，该 MLP 的总参数量与 MoE 策略的总参数量保持一致。
- 代表性: 代表了没有 MoE 模块进行专家分配的标准多任务强化学习方法，可以用于直接验证 MoE 架构的有效性。
RMA [3]:
- 描述: RMA (Rapid Motor Adaptation) 是一种知名的腿足机器人运动控制方法，它在教师-学生训练框架内使用 1D 卷积神经网络 (1D-CNN) 作为异步适应模块。
- 特点: 该方法不使用 MoE 模块，其核心在于通过一个适应模块从历史观测中推断出环境参数，并将其作为策略的输入，从而实现对未知环境的快速适应。
- 代表性: 代表了另一种主流的、不依赖 MoE 的鲁棒运动控制方法。

6. 实验结果与分析

6.1. 核心结果分析

6.1.1. 多任务性能 (Multitask Performance)

本文首先在仿真环境中对 MoE-Loco 进行了多任务性能评估，并与两个基线模型 Ours w/o MoE 和 RMA 进行了比较。

以下是原文 Table I 的结果：

Method	Success Rate ↑
Method	Mix	Bar (q)	Baffle (q)	Stair (q)	Pit (q)	Slope (q)	Walk (b)	Slope (b)	Stair (b)
Ours	0.879	0.886	0.924	0.684	0.902	0.956	0.932	0.961	0.964
Ours w/o MoE	0.571	0.848	0.264	0.568	0.698	0.988	0.826	0.504	0.453
RMA	0.000	0.871	0.058	0.017	0.017	0.437	0.000	0.000	0.000
	Average Pass Time (s) ↓
	Mix	Bar (q)	Baffle (q)	Stair (q)	Pit (q)	Slope (q)	Walk (b)	Slope (b)	Stair (b)
Ours	230.98	102.42	87.84	179.14	91.86	76.75	92.37	86.14	86.44
Ours w/o MoE	315.47	125.46	318.68	214.52	161.38	65.28	156.76	236.67	253.62
RMA	400.00	107.84	385.25	395.34	394.49	272.06	400.00	400.00	400.00
	Average Travel Distance (m) ↑
	Mix	Bar (q)	Baffle (q)	Stair (q)	Pit (q)	Slope (q)	Walk (b)	Slope (b)	Stair (b)
Ours	89.41	28.05	28.02	20.42	27.82	27.62	27.20	27.99	28.04
Ours w/o MoE	57.12	27.59	17.41	22.66	25.59	28.49	22.73	26.21	14.23
RMA	13.40	27.39	11.31	3.92	12.48	21.33	2.00	2.00	2.00

分析 (Table I):

混合任务 (Mix) 性能: MoE-Loco 在混合任务基准测试中表现最佳，成功率为 0.879，远高于 Ours w/o MoE (0.571) 和 RMA (0.000)。其平均通过时间 (230.98s) 和平均行进距离 (89.41m) 也显著优于其他方法。这强有力地证明了 MoE-Loco 能够有效处理多任务场景。
单任务性能:
- MoE-Loco 表现优异: 在绝大多数单任务评估中，MoE-Loco 均超越了基线方法。例如，在 Baffle (q)、Stair (q)、Walk (b)、Slope (b)、Stair (b) 等任务上，MoE-Loco 的成功率、通过时间和行进距离都显著领先。
- 特例 Slope (q): 唯一例外是四足斜坡行走 Slope (q)，Ours w/o MoE 的通过时间更短 (65.28s vs 76.75s)，行进距离更远 (28.49m vs 27.62m)，成功率也更高 (0.988 vs 0.956)。作者将其归因于四足斜坡行走任务的相对简单性，可能标准 MLP 也能很好地处理，而 MoE 在这种简单任务上没有显著优势。
- Ours w/o MoE 的局限性: Ours w/o MoE（即标准 MLP 策略）在面对挑战性多任务地形设置时表现挣扎，尤其是在 Baffle (q)、Slope (b) 和 Stair (b) 等任务上成功率很低，通过时间长，行进距离短。这验证了在多任务 RL 中梯度冲突对性能的负面影响。
- RMA 的性能瓶颈: RMA 在多个任务上（如混合任务、Baffle (q)、Stair (q)、所有双足任务）的成功率接近或为 0，且平均通过时间接近最大值 400 秒，行进距离也很短。这表明其原始实现（MLP 主干和 CNN 编码器）在处理本文设定的多挑战地形和多步态任务时表现不佳。

6.1.2. 真实世界实验 (Real World Experiments)

MoE-Loco 策略被零样本迁移 (zero-shotly) 到真实机器人上进行部署，并进行了混合地形和分离地形的真实世界实验。

Fig. 4: Real world success rate over multiple terrains and gaits.
该图像是一幅图表，展示了在多种地形和步态下的真实成功率。图中使用不同颜色的柱子代表了不同的方法，包括我们的方法（蓝色）、不使用 MoE 的方法（橙色）和 RMA 方法（绿色），以展示它们在处理各种地形（如条形、障碍、楼梯等）时的表现差异。

上图 (原文 Fig. 4) 展示了在多种地形和步态下的真实世界成功率。

分析 (Fig. 4):

MoE-Loco 显著优势: 在所有类型的任务中，MoE-Loco 的真实世界成功率均显著高于 Ours w/o MoE 和 RMA。
混合地形表现: MoE-Loco 在混合地形上的成功率最高，达到 80%，远超 Ours w/o MoE (20%) 和 RMA (0%)。这再次验证了 MoE-Loco 在处理复杂、多样化、连续任务方面的卓越能力。
单任务表现: 在所有单任务中，MoE-Loco 的成功率也保持领先，例如在 Bar (q) 和 Pit (q) 任务上达到 90%，在 Walk (b) 任务上达到 85%。
基线模型在真实世界的挑战: Ours w/o MoE 和 RMA 在真实世界中的性能进一步下降，尤其是在混合地形上表现极差，这凸显了 MoE-Loco 在 sim-to-real 迁移和真实世界鲁棒性方面的优势。

该图像是图表，展示了在多种地形和步态下的真实世界实验，包括不同的四足和双足动作，如穿越横杆、坑洼、台阶、斜坡和站立。每个动作都具有不同的适应性，验证了MoE-Loco框架在复杂环境中的有效性。

上图 (原文 Fig. 5) 展示了在多种地形和步态下的真实世界实验照片。图片展示了 MoE-Loco 在真实世界中成功执行各种四足（横杆、坑洼、障碍物、楼梯、斜坡）和双足（站立、行走、斜坡、楼梯）任务的场景，进一步证明了其在实际应用中的鲁棒性和泛化能力。

6.1.3. 梯度冲突缓解 (Gradient Conflict Alleviation)

为了验证 MoE 是否能够减少梯度冲突，作者进行了梯度冲突实验。实验在预训练 15000 轮后进行，并对 4096 个四足机器人的多任务训练过程进行了 500 轮的梯度平均。

以下是原文 Table III 的结果：

MoE/Standard	Gradient Cosine Similarity ↑
MoE/Standard	Bar (q)	Baffle (q)	Stair (q) Slope Up (b)	Slope down (b)
Bar (q)		0.519/0.474	0.606/0.592	0.278/-0.132	0.091/-0.128
Baffle (q)		-	0.369/0.384	0.062/-0.091	0.061/-0.101
Stair (q)			-	0.046/-0.023	0.052/0.015
Slope up (b)					0.806/0.709
Slope down (b)					-

分析 (Table III - 梯度余弦相似度):

MoE 降低跨步态冲突: MoE 策略在双足 (bipedal) 任务和四足 (quadrupedal) 任务之间显示出显著更高的梯度余弦相似度。例如，Bar (q) 与 Slope Up (b) 的余弦相似度从 Standard 策略的 -0.132 提高到 MoE 策略的 0.278；Bar (q) 与 Slope Down (b) 从 -0.128 提高到 0.091。负值表示梯度方向相反，正值表示方向一致。MoE 显著地将负相似度转变为正相似度，表明它有效缓解了不同步态间的严重梯度冲突。
MoE 降低四足任务内冲突: 即使在需要根本不同技能的四足任务之间（例如 Bar (q) 与 Baffle (q)），MoE 也略微提高了余弦相似度 (0.519 vs 0.474)，表明它在一定程度上缓解了这些任务之间的冲突。

MoE 提升整体梯度一致性: 总体而言，MoE 策略在大多数任务对上都展现了更高的余弦相似度（或将负值转为正值），这表明 MoE 能够使不同任务的梯度方向更加一致，从而减少了训练过程中的相互干扰。

以下是原文 Table IV 的结果：

MoE/Standard	Gradient Negative Entries (%) ↓
MoE/Standard	Bar (q)	Baffle (q)	Stair (q)	Slope Up (b)	Slope down (b)
Bar (q)		35.72/37.33	32.67/32.62	45.50/ 55.12	49.83/50.80
Baffle (q)		-	39.90/38.52	49.86/55.91	49.91/51.68
Stair (q)			-	49.52/50.15	50.04/50.34
Slope up (b)					23.17/30.91
Slope down (b)		-			-

分析 (Table IV - 负梯度比率):

MoE 降低跨步态负梯度比率: MoE 策略在双足和四足任务之间显示出显著降低的负梯度比率。例如，Bar (q) 与 Slope Up (b) 的负梯度比率从 Standard 策略的 55.12% 降低到 MoE 策略的 45.50%；Baffle (q) 与 Slope Up (b) 从 55.91% 降低到 49.86%。这意味着 MoE 减少了参数更新中方向相反的梯度分量的比例。
MoE 降低双足任务内部冲突: Slope Up (b) 与 Slope Down (b) 之间的负梯度比率也从 30.91% 降低到 23.17%，表明 MoE 即使在相似步态但方向相反的任务之间也能有效减少冲突。
MoE 提升训练稳定性: 较低的负梯度比率直接反映了梯度冲突的缓解，这有助于更稳定的训练过程和更好的收敛性。

综合 Table III 和 Table IV 的结果，可以得出结论：MoE 策略通过允许不同专家专注于不同任务，显著缓解了多任务强化学习中的梯度冲突，尤其是在需要不同步态（如四足和双足）的任务之间。

6.1.4. 训练性能 (Training Performance)

作者还评估了 MoE-Loco 在预训练阶段的训练性能，关注平均奖励 (mean reward) 和平均回合长度 (mean episode length)。

Fig. 6: Training curve of our multitask policy in the pretraining stage.
该图像是图表，展示了我们在预训练阶段的多任务策略的训练曲线。左侧图表示每个回合的平均长度，右侧图表示每个回合的平均奖励，粉色线条代表 MoE 方法，绿色线条代表标准方法。

上图 (原文 Fig. 6) 展示了在预训练阶段多任务策略的训练曲线。左图为平均回合长度 (mean episode length)，右图为平均奖励 (mean reward)。

分析 (Fig. 6):

MoE 性能优于标准策略: MoE 策略（粉色曲线）在两个指标上都显著优于具有相似总参数量的标准策略（绿色曲线）。
更快的学习速度: MoE 策略的平均奖励和平均回合长度都更快地达到了更高的水平，表明其学习效率更高，能够更快地找到有效的策略。
更好的最终性能: MoE 策略在训练结束时维持了更高的平均奖励和回合长度，这反映了其更强的探索环境能力和更稳定的运动表现。这些结果表明，通过缓解梯度冲突，MoE 不仅提升了最终性能，还提高了训练效率。

6.1.5. 专家专业化分析 (Expert Specialization Analysis)

为了理解 MoE 框架如何使专家专业化，作者进行了定性和定量分析。

该图像是一个图表，展示了不同专家在多任务步态训练中的平均权重分配，包括行走、障碍和跨越栏杆等任务。每个子图所示的专家编号与相应的平均权重之间的关系反映了各专家在特定任务中的专业化程度。

上图 (原文 Fig. 7) 展示了不同任务中不同专家的平均权重。

分析 (Fig. 7):

门控权重分布差异: 图片清晰地显示，在不同任务中，门控网络为不同专家分配的平均权重分布差异很大。例如，某些专家在 Bar (横杆) 任务中被赋予更高的权重，而在 Baffle (障碍物) 任务中则权重较低。
专家专业化证据: 这种任务相关的权重分布模式是专家专业化 (expert specialization) 的直接证据。它表明 MoE 架构成功地使不同的专家自然地专注于处理特定类型的运动行为或地形。例如，可能有一个专家擅长处理横杆，另一个专家擅长爬行障碍物，等等。

该图像是图表，展示了不同地形和步态下的 gating 网络输出的 t-SNE 结果。图中包含双足（Bip）和四足（Quad）行走、斜坡、台阶、障碍和坑等不同的运动模式，并用不同颜色表示各类动作的聚类情况。

上图 (原文 Fig. 8) 展示了不同地形和步态下门控网络输出的 t-SNE 结果。

分析 (Fig. 8):

步态分离: t-SNE (t-Distributed Stochastic Neighbor Embedding) 结果显示，双足任务 (bipedal tasks) 和四足任务 (quadrupedal tasks) 形成了明显的独立聚类。这说明门控网络能够有效地识别并区分这两种根本不同的运动模式，将它们路由给不同的专家。
四足任务内部聚类:
- Quadrupedal slope walking (四足斜坡行走) 和 Quadrupedal pit crossing (四足坑洼穿越) 任务聚类在一起，这表明它们可能共享相似的步态或需要相似的专家技能。这两种任务的运动模式可能相对平稳，与平面行走相似。
- Bar crossing (横杆穿越)、Baffle crawling (障碍物爬行) 和 Stair climbing (楼梯攀爬) 任务则聚类在更远的位置，彼此之间也相对分散。这表明这些任务需要更独特或更复杂的步态，例如抬腿、平衡或精确的踏步，因此由更专业的专家处理。
验证 MoE 工作原理: t-SNE 可视化进一步验证了 MoE 框架的工作原理：门控网络能够根据任务的内在特征，将输入有效地映射到最合适的专家组合，从而实现专业化。

6.1.6. 技能组合 (Skill Composition)

作者展示了 MoE 框架如何实现技能组合，即通过调整预训练专家的权重来合成新的技能。

Fig. 9: Manually designed new dribbling gait by selecting two experts.
该图像是图示，展示了机器人在使用新设计的运球步态时的三个动作不同阶段，分别为1、2、3。通过选择两个专家，机器人的运动形式灵活多变，展现了其在不同行为上的能力。

上图 (原文 Fig. 9) 展示了通过选择两个专家手动设计的新运球步态。图片展示了机器人在执行运球步态的三个不同阶段，其中机器人能够有效行走并周期性地抬起前腿来“踢球”。

分析 (Fig. 9):

专家识别: 作者发现一个专家专门负责平衡 (balancing)，可以帮助抬高机器人身体但可能限制敏捷性；另一个专家则负责抬起一条前腿以执行跨越任务，使机器人能够进行基本移动。
新技能合成: 通过选择这两个专家，手动将跨越专家 (crossing expert) 的门控权重加倍，并屏蔽 (mask out) 所有其他专家，机器人能够零样本迁移 (zero-shot transfer) 到一种新的“运球”步态。
可解释性优势: 这种技能组合能力突显了 MoE-Loco 的可解释性。不同于黑箱神经网络，MoE 允许研究者识别和操纵每个专家的特定作用，从而在无需额外训练的情况下，通过重新组合现有专家来创造新的运动策略。

6.1.7. 附加实验 (Additional Experiment) - 适应性学习

作者还进行了一个适应性学习 (adaptation learning) 实验，以展示预训练的专家如何被重新组合和适应新任务。

Fig. 10: MoE-Loco can quickly adapt to a three-footed gait by training a new expert. 1) ground plane, 2) slope up, and slope down.
该图像是示意图，展示了 MoE-Loco 系统如何通过训练新的专家快速适应三足行走模式。图中包含三个不同的场景：1) 平地，2) 上坡，3) 下坡，展示了该系统在多种地形上的适应能力。

上图 (原文 Fig. 10) 展示了 MoE-Loco 如何通过训练一个新的专家快速适应三足步态。图片展示了机器人在平地、上坡和下坡三种地形上进行三足行走。

分析 (Fig. 10):

新任务：三足步态: 在这个实验中，机器人被设计成用三条腿行走。
适应性学习过程: 作者引入了一个新初始化的专家，同时冻结 (freeze) 了所有原始专家的参数，只更新门控网络。
高效学习: 结果表明，机器人能够用三条腿在平地和斜坡上行走。新添加的专家只需要学习如何抬起一条腿，而可以利用原始专家已经具备的行走和斜坡能力。
模块化与可重用性: 这个实验进一步证明了 MoE 架构的模块化和专家技能的可重用性。当面对新任务时，不需要从头开始训练整个策略，而是可以通过添加少量新专家并微调门控网络，高效地将现有技能适配到新情境，大大提高了学习效率。

6.2. 训练细节与超参数

PPO 算法的超参数设置如下：

以下是原文 Table IX 的结果：

Hyperparameter	Value
clip min std	0.05
clip param	0.2
gamma	0.99
lam	0.95
desired kl	0.01
entropy coef	0.01
learning rate	0.001
max grad norm	1
num mini batch	4
num steps per env	24

clip min std (最小标准差裁剪): 策略输出分布的最小标准差，用于保持探索性。
clip param (裁剪参数): PPO 裁剪范围的参数，限制新旧策略比率的变化。
gamma (折扣因子): 用于计算累积奖励。
lam (GAE $\lambda$ 参数): 广义优势估计 (Generalized Advantage Estimation, GAE) 中的 $\lambda$ 参数。
desired kl (期望 KL 散度): 策略更新时期望的最大 KL 散度，用于控制策略更新步长。
entropy coef (熵系数): 鼓励策略进行更多探索。
learning rate (学习率): 用于优化器更新网络参数。
max grad norm (最大梯度范数): 梯度裁剪的最大范数，防止梯度爆炸。
num mini batch (mini-batch 数量): 每个 PPO 优化步骤中用于计算梯度的 mini-batch 数量。
num steps per env (每环境步数): 每个环境中每个策略更新步骤收集的步数。

7. 总结与思考

7.1. 结论总结

本文提出了 MoE-Loco，一个创新的专家混合 (Mixture of Experts, MoE) 框架，用于解决腿足机器人多任务运动控制的挑战。该方法通过将 MoE 架构集成到强化学习策略中，使得一个单一策略能够有效处理多种复杂地形（包括横杆、坑洼、障碍物、楼梯和斜坡）和两种截然不同的步态（四足和双足）。

核心贡献在于，MoE-Loco 显著缓解了多任务强化学习中常见的梯度冲突问题，从而提高了训练效率和最终的策略性能。通过对专家行为的分析，研究发现不同的专家自然地专业化于特定的运动行为，这不仅增强了模型的可解释性，还为任务迁移 (task migration) 和技能组合 (skill composition) 提供了强大的能力，例如通过调整专家权重来合成新的步态。在仿真和真实世界的广泛实验验证了 MoE-Loco 的鲁棒性、适应性和在实际部署中的有效性。

7.2. 局限性与未来工作

论文作者指出了未来可能的研究方向：

感官感知整合 (Integration of Sensory Perception): 未来工作将探索将 MoE-Loco 扩展到整合更丰富的感官感知信息，例如摄像头 (camera) 和激光雷达 (Lidar) 数据。这将进一步增强机器人处理更复杂任务和环境的适应性。当前的“盲运动”虽然鲁棒，但在面对需要高级环境理解的任务时仍有局限。

个人补充思考可能的局限性：

专家数量的选择: 本文选择了 6 个专家，但并未深入探讨专家数量对性能和梯度冲突缓解效果的敏感性。最优的专家数量可能取决于任务的多样性和复杂性。这是一个值得进一步研究的超参数。
门控网络的复杂性: 门控网络 $g$ 的设计对 MoE 的性能至关重要。一个简单的 MLP 门控网络是否足以处理所有任务的复杂路由需求？更复杂的门控机制（如 Top-K 路由、基于任务嵌入的路由）是否能带来进一步提升？
计算开销: 尽管 MoE 可以通过稀疏激活来提高效率，但在训练和推理时，尤其是在所有专家都被激活的情况下，其计算开销仍可能高于单一大型模型。在资源受限的机器人上，这可能是一个实际考虑因素。
技能组合的自动化: 论文展示了手动调整专家权重进行技能组合的能力，但如何自动化地学习或发现最佳的专家权重组合以适应未知新任务，是一个更具挑战性的问题。
奖励函数的复杂性: 论文的附录显示了非常详细且复杂的奖励函数设计，这对于强化学习仍然是一个工程挑战。减少对复杂奖励工程的依赖，例如通过模仿学习 (imitation learning) 或无奖励强化学习 (reward-free RL) 来学习行为，可能是未来的方向。

7.3. 个人启发与批判

个人启发:

MoE 解决 MTRL 梯度冲突的有效性: 本文明确展示了 MoE 在多任务强化学习中缓解梯度冲突的强大潜力。对于需要在多个差异化任务上训练单一策略的场景，MoE 提供了一个优雅且有效的架构解决方案，这对于机器人控制、多模态学习等领域都具有重要的借鉴意义。
可解释性与技能重用: MoE 架构带来的专家专业化不仅提高了性能，更重要的是提供了策略内部的可解释性。能够识别和操纵不同专家所代表的技能，为机器人技能的模块化设计、重用和快速适应新任务打开了大门。这种“组合式智能”的概念，有望大大降低开发新机器人行为的成本和复杂性。
两阶段训练与 PAS 的实用性: 结合特权学习的两阶段训练框架，特别是概率退火选择 (Probability Annealing Selection, PAS) 机制，是解决 sim-to-real gap 的实用且有效的方法。它允许策略在训练初期从特权信息中快速学习，然后平稳过渡到仅依赖可观测信息，这对于机器人领域的实际部署至关重要。

批判:

专家数量的敏感性: 论文中提到选择了 6 个专家，但并未深入探讨专家数量对性能和梯度冲突缓解效果的敏感性。最优的专家数量可能取决于任务的多样性和复杂性。这是一个值得进一步研究的超参数。
门控网络过载风险: 尽管门控网络负责路由任务，但如果任务之间存在高度的重叠或细微的差别，简单的门控网络可能难以做出最优的区分。未来可以探索更先进的门控机制，例如考虑任务之间的层次结构或相似性。
Sim-to-Real 差距的量化: 尽管进行了真实世界部署，但论文并未详细量化 sim-to-real gap 具体是如何被弥合的，例如估计器在真实世界中的准确性如何。这对于理解方法在真实环境中的鲁棒性来源至关重要。
长距离泛化能力: 论文中的混合任务跑道长度为 100 米，这对于机器人运动来说已经很长。然而，在更长时间、更复杂的未知环境中，专家组合是否能持续保持其鲁棒性和适应性，仍需进一步验证。
能量消耗分析: 机器人运动，尤其是多任务和复杂步态，会消耗大量能量。MoE 架构（特别是稀疏 MoE）通常被认为可以节省计算资源。然而，论文没有提供关于 MoE 策略与基线相比在能量消耗或计算效率方面的详细分析，这对于真实世界机器人部署是一个重要因素。

总的来说，MoE-Loco 是一项具有前瞻性的工作，它为解决腿足机器人多任务运动控制中的核心挑战提供了一个有前景的解决方案，尤其是在结合了 MoE 架构的可解释性和高效性方面。这项工作为未来在更复杂、更动态的真实世界环境中部署智能机器人铺平了道路。