论文状态：已完成

Constrained Style Learning from Imperfect Demonstrations under Task Optimality

发表：2025/07/13

受限风格学习 (1)不完整演示学习 (1)强化学习的任务最优性 (1)机器人风格模仿 (1)自适应拉格朗日乘子 (1)

价格：0.100000

已有 2 人读过

本分析由 AI 生成，可能不完全准确，请以原文为准。

TL;DR 精炼摘要

本研究提出了一种名为ConsMimic的方法，通过将学习从不完美示范中的风格模仿建模为受约束的马尔可夫决策过程，确保机器人在捕捉风格细微之处的同时保持任务性能的优越性。自适应拉格朗日乘数的引入使得选择性模仿成为可能，实验表明在ANYmal-D上机械能降低了14.5%，实现了敏捷的步态模式。

摘要

Learning from demonstration has proven effective in robotics for acquiring natural behaviors, such as stylistic motions and lifelike agility, particularly when explicitly defining style-oriented reward functions is challenging. Synthesizing stylistic motions for real-world tasks usually requires balancing task performance and imitation quality. Existing methods generally depend on expert demonstrations closely aligned with task objectives. However, practical demonstrations are often incomplete or unrealistic, causing current methods to boost style at the expense of task performance. To address this issue, we propose formulating the problem as a constrained Markov Decision Process (CMDP). Specifically, we optimize a style-imitation objective with constraints to maintain near-optimal task performance. We introduce an adaptively adjustable Lagrangian multiplier to guide the agent to imitate demonstrations selectively, capturing stylistic nuances without compromising task performance. We validate our approach across multiple robotic platforms and tasks, demonstrating both robust task performance and high-fidelity style learning. On ANYmal-D hardware we show a 14.5% drop in mechanical energy and a more agile gait pattern, showcasing real-world benefits.

思维导图

论文精读

中文精读约 36 分钟读完 · 24,353 字

1. 论文基本信息

1.1. 标题

Constrained Style Learning from Imperfect Demonstrations under Task Optimality (在任务最优性下从不完美示范中学习受约束的风格)

1.2. 作者

Kehan Wen (ETH Zurich)
Chenhao Li (ETH AI Center)
Junzhe He (ETH Zurich)
Marco Hutter (ETH Zurich)

1.3. 发表期刊/会议

该论文尚未在特定期刊或会议上发表，目前为预印本 (arXiv)。其发表状态为 $v2$ 版本。

1.4. 发表年份

论文发布于 UTC 时间 2025-07-12T18:35:41.000Z，因此其发表年份是 2025 年。

1.5. 摘要

该研究提出了一种名为 ConsMimic 的方法，用于解决机器人在从示范中学习 (Learning from Demonstration, LfD) 时遇到的挑战，即如何在不完美或不切实际的示范下，既能学习到自然的风格化动作，又能保持任务性能的最优性。现有方法往往为了追求风格而牺牲任务表现。ConsMimic 将此问题建模为受约束的马尔可夫决策过程 (Constrained Markov Decision Process, CMDP)，通过优化风格模仿目标并引入约束来维持接近最优的任务性能。其核心机制是一个自适应调整的拉格朗日乘数 (Lagrangian multiplier)，用于选择性地模仿示范，在捕捉风格细微之处的同时不损害任务性能。该方法在多个机器人平台和任务上得到验证，展示了强大的任务性能和高保真度 (high-fidelity) 的风格学习。在 ANYmal-D 硬件上的实验表明，机械能 (mechanical energy) 降低了 14.5%，并获得了更敏捷的步态模式，证明了其在现实世界中的实际效益。

1.6. 原文链接

https://arxiv.org/abs/2507.09371v2

1.7. PDF 链接

https://arxiv.org/pdf/2507.09371v2.pdf

2. 整体概括

2.1. 研究背景与动机

2.1.1. 核心问题与重要性

机器人领域，尤其是足式机器人 (legged robots) 的控制，通过强化学习 (Reinforcement Learning, RL) 已经取得了显著进展，能够实现鲁棒且自适应的控制，处理真实世界中的不确定性。然而，整合精细的风格化行为，例如敏捷的步态 (agile locomotion) 或富有表现力的动作，仍然具有挑战性。虽然 RL 在优化明确的任务特定目标（如速度跟踪、目标达成）方面表现出色，但为细致、高维的风格化行为设计奖励函数本身就非常困难。

2.1.2. 现有挑战与空白

从示范中学习 (Learning from Demonstration, LfD) 作为一种强大的技术，可以将风格模仿嵌入到机器人行为中。传统的 LfD 技术包括动作片段跟踪 (motion-clip tracking) 和对抗性模仿学习 (adversarial imitation learning)。但这些方法通常依赖于与任务目标高度一致的专家示范。然而，在实际应用中，示范往往是不完整或不切实际的，例如：

不完整性或不真实性: 演示数据可能是在与实际任务环境不同的条件下收集的（例如，人类在平坦地面上收集的动作数据可能不适用于复杂的崎岖地形）。
形态差异: 生物对应物的示范可能与机器人的形态不同。
次优结果: 严格遵循这些不完美的示范，往往会导致任务性能的次优 (suboptimal)。

这突出了一项关键的权衡：风格保真度 (stylistic fidelity) 与任务有效性 (task effectiveness) 之间的冲突。现有方法通常通过手动调整固定权重或设计定制的课程 (curriculum) 来平衡这两者，但这既耗时又无法保证任务性能接近最优。

2.1.3. 本文的切入点与创新思路

受安全强化学习 (safe reinforcement learning) 领域中受约束的马尔可夫决策过程 (Constrained Markov Decision Process, CMDP) 启发，本文提出将该问题表述为一个 CMDP。核心思路是“安全地”从不完美的示范中学习，即在优化风格模仿目标的同时，严格保持任务性能高于用户设定的最优性阈值。

2.2. 核心贡献/主要发现

本文的主要贡献总结如下：

基于 CMDP 的策略优化框架: 提出了一种基于 CMDP 的策略优化框架，该框架包含一个自适应调整的拉格朗日乘数 (Lagrangian multiplier)，明确强制执行任务最优性 (task optimality)，从而能够“安全地”从不完美的示范中融入风格线索。
对称增强风格奖励公式: 提出了一种新颖的对称增强风格奖励公式 (symmetry-augmented style reward formulation)，有效对抗了由于任务与示范不对齐 (task-demo misalignments) 引起的模式崩溃 (mode collapse) 问题。
全面的实证验证: 在多种机器人（Franke 机械臂、ANYmal 四足机器人、GR1 人形机器人）和任务上，通过仿真和 ANYmal-D 硬件平台进行了全面的实证验证，展示了该方法在各种任务和机器人平台上的有效性和泛化能力。实验结果表明，ConsMimic 可以让机器人自动判断何时以及如何利用不完整的示范，有效地保留风格行为，同时不损害整体任务性能。

3. 预备知识与相关工作

3.1. 基础概念

为了理解本文，需要了解以下几个核心概念：

3.1.1. 强化学习 (Reinforcement Learning, RL)

RL 是一种机器学习范式，智能体 (agent) 通过与环境的交互学习最优行为策略。智能体在每个时间步采取行动，接收环境的反馈（奖励和新的状态），并根据这些反馈调整其策略，以最大化长期累积奖励。

3.1.2. 从示范中学习 (Learning from Demonstration, LfD) / 模仿学习 (Imitation Learning, IL)

LfD 是一种通过观察专家示范来学习任务的方法。当奖励函数难以手动设计时，LfD 提供了一种替代方案，它直接从示范中提取行为模式。

动作片段跟踪 (Motion Clip Tracking): 一种 LfD 技术，通过定义一个奖励函数来衡量智能体轨迹与给定参考动作片段的相似程度。奖励越高，表示模仿越接近。
对抗性模仿学习 (Adversarial Imitation Learning, AIL): 一种更先进的 LfD 方法，借鉴了生成对抗网络 (Generative Adversarial Networks, GAN) 的思想。它训练一个判别器 (discriminator) 来区分专家示范和智能体生成的行为，同时训练一个策略来欺骗判别器，使其生成的行为与专家示范无法区分。这种方法能够更好地泛化，处理非结构化或不同步的示范。

3.1.3. 马尔可夫决策过程 (Markov Decision Process, MDP)

MDP 是强化学习的数学框架，用于对顺序决策问题进行建模。一个 MDP 由以下元组定义：

$\mathcal{S}$ : 状态空间 (State Space)，表示环境的所有可能状态。
$\mathcal{A}$ : 动作空间 (Action Space)，表示智能体可以采取的所有可能动作。
$\mathcal{P}(s' | s, a)$ : 状态转移概率 (State Transition Probabilities)，表示在状态 $s$ 采取动作 $a$ 后转移到状态 $s'$ 的概率。
R(s, a, s'): 奖励函数 (Reward Function)，表示在状态 $s$ 采取动作 $a$ 转移到状态 $s'$ 后获得的即时奖励。
$\gamma \in [0, 1)$ : 折扣因子 (Discount Factor)，用于平衡即时奖励和未来奖励的重要性。
$\mu$ : 初始状态分布 (Initial State Distribution)。

智能体的目标是找到一个策略 $\pi(a|s)$ ，以最大化其在长期内获得的期望累积折扣奖励。

3.1.4. 受约束的马尔可夫决策过程 (Constrained Markov Decision Process, CMDP)

CMDP 是 MDP 的扩展，它在最大化主奖励目标的同时，还需要满足一个或多个额外的约束条件。这些约束通常以累积成本函数 (cumulative cost function) 的形式给出，要求其期望值低于某个阈值。在安全强化学习中，CMDP 常用于确保智能体在学习过程中避免不安全行为。

拉格朗日乘数法 (Lagrangian Method): 解决 CMDP 的一种常见方法是将约束问题转化为无约束的优化问题，通过引入拉格朗日乘数来惩罚或奖励违反约束的行为。拉格朗日乘数可以自适应地调整，以平衡主要目标和约束。

3.2. 前人工作与技术演进

3.2.1. 深度强化学习在足式机器人中的应用

鲁棒自适应控制: RL 在足式机器人控制方面取得了巨大成功，通过并行采样 (parallel sampling) 和领域随机化 (domain randomization) 技术，训练出的策略可以从仿真环境零样本迁移到真实世界。这些策略通常侧重于优化任务特定目标，如速度或稳定性。
局限性: 纯粹的任务目标可能导致不自然、不连贯的动作，降低鲁棒性和真实感。

3.2.2. 表达性奖励设计与运动先验

手动设计奖励: 研究人员转向更具表达性的奖励设计，通过塑造奖励来避免不良行为，并引导智能体学习合理的步态模式。这些运动先验 (motion priors) 通常是手工制作的，并与目标任务紧密相关，这限制了它们的泛化能力。

3.2.3. 从示范中学习与对抗性模仿

利用运动捕捉数据: 借鉴人类或动物的运动捕捉数据，研究人员训练策略来模仿这些技能，然后将其组合或重用于下游任务。
对抗性模仿框架: AMP (Adversarial Motion Priors) 及其后续 ASE (Adversarial Skill Embeddings) 等框架在结合运动模仿和任务执行方面非常有效，在四足机器人和人形机器人中实现了平滑、敏捷的行为。这些框架甚至能实现高动态动作，如后空翻。
对抗性目标: 通常利用 Wasserstein GANs 等框架来稳定对抗性训练。

3.3. 差异化分析

本文的工作建立在现有模仿学习成功的基础上，但着重解决了一个关键的未被充分探索的问题：当示范数据不完美、不对齐或与任务要求冲突时，如何有效地利用它们。

现有方法的假设: 之前的模仿学习方法（如 AMP, ASE）隐含地假设示范数据总是有益或至少无害于任务性能。
现实情况: 这种假设在实践中并不成立。高性能策略通常需要泛化到多样化的地形和命令范围，而示范可能有限、不对齐或在截然不同的条件下收集。盲目遵循这些数据可能会对性能产生负面影响，尤其当任务要求与风格线索冲突时。
ConsMimic 的创新: 本文通过采用 CMDP 策略优化框架，并使用自适应调整的拉格朗日乘数来调整模仿权重，允许智能体选择性地从不完美的示范中学习，而不会损害其学习鲁棒任务策略的能力。这为调和风格与任务之间的冲突提供了一个原则性的框架。

4. 方法论

本文提出了 ConsMimic——一个基于 CMDP 的训练流程，用于在任务最优性约束下学习风格感知行为。其核心思想是在优化风格模仿目标的同时，通过约束条件严格维持任务性能接近最优。

4.1. 方法原理

在机器人任务中，同时完成任务和模仿特定风格需要有效平衡这两个目标，但这通常具有挑战性。ConsMimic 将奖励分为两组：

任务奖励 (Task Reward) $R^g$ : 手动设计的、与示范无关的奖励，用于评估任务完成度。
风格奖励 (Style Reward) $R^s$ : 由示范驱动的奖励，用于评估动作的风格化程度。

4.2. 核心方法详解

4.2.1. 受约束的任务最优性风格学习 (Constrained Style Learning under Task Optimality)

该场景被建模为一个扩展的马尔可夫决策过程 (MDP)： $\mathcal{M} = \langle \mathcal{S}, \mathcal{A}, \mathcal{P}, R^g, R^s, \mu, \gamma \rangle$ 。

$\mathcal{S}$ : 状态空间 (State Space)。
$\mathcal{A}$ : 动作空间 (Action Space)。
$\mathcal{P}(s' | s, a)$ : 状态转移概率 (State Transition Probabilities)。
$R^g, R^s: \mathcal{S} \times \mathcal{A} \times \mathcal{S} \to \mathbb{R}$ : 分别输出标量任务奖励和风格奖励的奖励函数。
$\mu$ : 初始状态分布 (Initial State Distribution)。
$\gamma \in [0, 1)$ : 折扣因子 (Discount Factor)。

传统方法的局限性: 通常通过手动加权组合任务奖励和风格奖励作为优化目标。然而，选择合适的权重耗时且无法明确保证任务性能接近最优。

ConsMimic 的 CMDP 表述: 提出一种基于 CMDP 的策略优化框架，其目标是引导智能体在保持强大任务性能的同时，判断何时以及如何从示范数据中提取风格线索。这通过明确纳入任务最优性约束来实现：

$\operatorname*{max}_{\theta} { v^s(\pi_\theta) } \quad { \mathrm{subject~to} } \quad { v^g(\pi) } \geq \alpha { v^{g\star} }$

$v^s(\pi_\theta)$ : 在策略 $\pi_\theta$ 下的预期风格值 (expected style value)，即智能体从风格奖励中获得的累积折扣奖励的期望。
$v^g(\pi_\theta)$ : 在策略 $\pi_\theta$ 下的预期任务值 (expected task value)，即智能体从任务奖励中获得的累积折扣奖励的期望。
$v^{g\star}$ : 可实现的最优任务性能 (optimal achievable task performance)。这是一个标量值，代表理论上或经验上能达到的最佳任务奖励。
$\alpha \in [0, 1]$ : 任务性能可接受的阈值参数 (threshold parameter)，表示相对于最优性能可接受的最低比例。

拉格朗日松弛 (Lagrangian Relaxation): 在实践中，为了将上述 CMDP 转化为常规的 MDP，采用拉格朗日方法进行松弛，得到对偶问题 (dual problem)：

$\operatorname*{min}_{\lambda \ge 0} \operatorname*{max}_{\theta} \mathcal{L}(\theta, \lambda) = v^s(\pi_\theta) + \lambda \left( v^g(\pi_\theta) - \alpha v^{g\star} \right)$

$\lambda$ : 拉格朗日乘数 (Lagrangian multiplier)，是一个非负的标量，用于自适应地平衡任务学习和风格学习。

直观理解 $\lambda$ 的优化: $\operatorname*{min}_{\lambda \geq 0} \lambda \left( v^g(\pi) - \alpha v^{g\star} \right)$

如果任务性能 $v^g(\pi)$ 低于指定阈值 $\alpha v^{g\star}$ ，那么括号内的项为负值。为了最小化目标， $\lambda$ 会增加，从而强调任务目标，让策略更关注提高任务性能。
相反，如果任务性能 $v^g(\pi)$ 达到或超过阈值 $\alpha v^{g\star}$ ，那么括号内的项为正值或零。为了最小化目标， $\lambda$ 会减小（或保持不变），从而允许策略更多地关注风格学习。

结合 PPO 的稳定化: 为了在 Proximal Policy Optimization (PPO) 训练过程中实现经验上的稳定性，本文引入了一个有界乘数 (bounded multiplier)。这通过对标准化优势函数 (normalized advantages) 应用 sigmoid 激活函数来实现：

$A = \sigma ( \lambda ) \tilde { A } ^ { g } + ( 1 - \sigma ( \lambda ) ) \tilde { A } ^ { s }$

$\sigma(\cdot)$ : sigmoid 函数，将 $\lambda$ 映射到 [0, 1] 范围内，确保乘数有界。
$\tilde{A}^g$ : 标准化的任务优势函数 (normalized task advantage)，通过独立评论家网络 (separate critic networks) 和广义优势估计 (Generalized Advantage Estimation, GAE) 计算。
$\tilde{A}^s$ : 标准化的风格优势函数 (normalized style advantage)，同样通过独立评论家网络和 GAE 计算。

这个有界乘数方法确保了训练动态的稳定性，并在整个训练过程中自适应地平衡任务和风格目标之间的权衡。

4.2.2. 任务约束的在线更新 (Online Update of the Task Constraint)

预先指定“神谕”般的最优基线 $v^{g\star}$ 是非常困难的。过分乐观的 $v^{g\star}$ 可能导致约束不可行，而低估则可能导致次优的最终性能。为避免此问题，ConsMimic 采取以下策略：

预热阶段 (Warm-up Phase): 初始阶段将模仿权重设置为零，策略仅优化任务奖励。此时 $v^g(\pi)$ 会收敛到一个值。
初始化 $v^{g\star}$ : 预热阶段收敛的策略的统计平均任务值被用作初始 $v^{g\star}$ 。
单调更新 (Monotonic Update): 在随后的联合训练过程中， $v^{g\star}$ 根据训练过程中观察到的最佳统计任务值 $v^g(\pi)$ 进行单调更新：

$v^{g\star} \leftarrow \operatorname*{max} \left( v^{g\star}, v^g(\pi) \right)$

这种更新机制确保了约束 $v^g(\pi) \geq \alpha v^{g\star}$ 在整个训练过程中始终可行，因为 $v^{g\star}$ 反映了经验上已证明的性能。此外，一旦策略超越了旧的基线，它必须至少保持新最佳任务值的一个比例 $\alpha$ ，这有助于在风格模仿对任务性能产生积极影响时，保留接近最优的任务性能。

4.2.3. 对称增强风格学习 (Symmetric Augmented Style Learning)

对称性在机器人任务中至关重要（例如，人形机器人的平衡步态和协调的肢体运动）。然而，对抗性模仿学习 (adversarial imitation learning) 常常难以捕捉这些对称模式，因为 GAN 训练中常出现模式崩溃 (mode collapse)。当示范数据与任务目标不对齐时，这个问题会变得特别严重，导致判别器 (discriminator) 占据主导地位，降低其反馈的信息量。在 ConsMimic 框架中，这表现为策略反复只生成周期性步态周期的一小部分，而非自然步态模式中常见的完整运动范围。

为了解决这个问题，ConsMimic 将对称性直接注入到奖励中。

机器人特定对称变换算子 (Robot-specific Symmetry Transformation Operators): 定义一组机器人特定的对称变换算子 $L_g$ ，用于增强示范数据和策略生成的数据：

$B_{\mathrm{sym}} = B \cup \bigcup_{g \in G} L_g(B)$

$B$ : 原始的批次 (batch) 数据。
$G$ : 机器人形态特有的对称变换集合。
$L_g(B) = \{ L_g(s, s') ~ | ~ (s, s') \in \mathcal{B} \}$ : 对批次 $B$ 中的每个状态对 (s, s') 应用对称变换 $L_g$ ，生成对称变换后的新批次。

对称增强风格奖励 (Symmetry-Augmented Style Reward): 通过平均判别器在所有镜像转换 (mirrored transitions) 上的输出，计算对称增强的风格奖励：

$r_{\mathrm{sym}}^s (s_t, s_{t+1}) = { \frac { 1 } { | G | + 1 } } \left[ r_{\mathrm{adv}}^s (s_t, s_{t+1}) + \sum_{g \in G} r_{\mathrm{adv}}^s (L_g (s_t, s_{t+1})) \right]$

$r_{\mathrm{adv}}^s (s_t, s_{t+1})$ : 原始的对抗性风格奖励，表示判别器对当前状态转换 $(s_t, s_{t+1})$ 的判断。

这个广义的对称感知公式将对称约束直接嵌入到对抗性训练目标中，有效抵消了由部分、不对称示范引起的偏差。通过明确引导判别器和相关的奖励信号去识别和强制执行对称行为，该方法显著增强了风格泛化的鲁棒性和效率，即使在挑战性的示范条件下也能提高模仿质量。

4.2.4. 风格奖励具体实现 (Specific Style Reward Implementations)

ConsMimic 根据任务类型选择不同的风格奖励机制：

运动片段跟踪奖励 (Motion Clip Tracking Reward) 主要用于结构化设置或需要精确轨迹模仿的任务（例如 Franka 机械臂的操纵任务）。 $r _ { \mathrm { t r a c k } } ^ { s } = \exp \left( - \sum _ { i } w _ { i } ( s _ { i } - \hat { s } _ { i } ) ^ { 2 } \right)$
- $s_i$ : 智能体状态的子组 (subgroup)，如末端执行器姿态。
- $\hat{s}_i$ : 示范状态的对应子组。
- $w_i$ : 加权系数 (weighting coefficients)，用于调整不同状态分量的相对重要性。该奖励通过指数函数将跟踪误差转化为正向奖励，误差越小，奖励越大。
对抗性风格奖励 (Adversarial Style Reward) 主要用于非结构化或需要更好泛化能力的任务（例如足式机器人的运动任务）。这种奖励基于判别器 $D_\phi$ 的输出，该判别器由参数 $\phi$ 参数化，并被训练以区分专家示范和智能体生成的转换。 $r _ { \mathrm { a d v } } ^ { s } ( s _ { t } , s _ { t + 1 } ) = \operatorname* { m a x } \left( 0 , 1 - 0 . 2 5 \left( D _ { \phi } ( \Phi ( s _ { t } ) , \Phi ( s _ { t + 1 } ) ) - 1 \right) ^ { 2 } \right)$
- $s_t, s_{t+1}$ : 智能体在时间步 $t$ 和 $t+1$ 的状态。
- $\Phi$ : 特征选择器 (feature selector)，用于从原始状态中提取判别器关注的特征。
- $D_\phi(\Phi(s_t), \Phi(s_{t+1}))$ : 判别器对智能体生成的状态转换的输出。判别器被训练成对真实示范输出 1，对智能体生成的输出 0。因此，当判别器输出接近 1 时，表示智能体的行为更像示范，奖励更高。
  
  判别器优化: 判别器参数 $\phi$ 通过最小化以下损失函数进行优化： $\begin{array} { r l } { \arg \underset { \phi } { \operatorname* { m i n } } } & { \mathbb { E } _ { ( s , s ^ { \prime } ) \sim d ^ { M } } \left[ \left( D _ { \phi } \big ( \Phi ( s ) , \Phi ( s ^ { \prime } ) \big ) - 1 \right) ^ { 2 } \right] + \mathbb { E } _ { ( s , s ^ { \prime } ) \sim d ^ { \pi } } \left[ \left( D _ { \phi } \big ( \Phi ( s ) , \Phi ( s ^ { \prime } ) \big ) + 1 \right) ^ { 2 } \right] } \\ & { + \frac { w _ { \mathrm { g p } } } { 2 } \mathbb { E } _ { ( s , s ^ { \prime } ) \sim d ^ { M } } \left[ \| \nabla _ { \phi } D _ { \phi } \big ( \phi \big ) \| ^ { 2 } \big | _ { \phi = ( \Phi ( s ) , \Phi ( s ^ { \prime } ) ) } \right] } \end{array}$
- $d^M$ : 示范数据 (demonstration data) 的分布。
- $d^\pi$ : 策略生成数据 (policy-generated data) 的分布。
- 第一项: 判别器对示范数据输出应接近 1。
- 第二项: 判别器对策略生成数据输出应接近 -1（这表明判别器是 WGAN 风格的，其中判别器输出可以为负值，且通常目标是 1 和 -1）。
- 第三项: 梯度惩罚 (gradient penalty)，由 $w_{\mathrm{gp}}$ 加权，用于稳定 GAN 的训练过程。

4.2.5. ConsMimic 训练流程 (Algorithm 1)

Algorithm 1 ConsMimic Training Pipeline

1: Require: Policy $\pi$ , task critic $v^g$ , style critic $v^s$ , discriminator $D_\phi$ , Lagrange multiplier $\lambda$ , demonstrations $\mathcal{D}$ , symmetry mappings $G$ , threshold coefficient $\alpha$ , Learning iterations $N$ , Constraint update intervals $I_c$ 2: Initialize networks and rollout buffer $\boldsymbol{B}$ 3: Set optimal task value $v^{g*}$ as the initial guess $v^g(\pi_{warmup})$ // 初始值来自预热阶段策略的统计平均任务值。 4: for learning iteration $i = 1, 2, \ldots, N$ do 5: for time step $t = 1, 2, \ldots, T$ do 6: Collect transition $(s_t, a_t, s_{t+1}, r_t^g)$ using current policy $\pi$ 7: Compute $r_{\mathrm{sym},t}^s$ using Eq. (11) // 计算对称增强风格奖励。 8: Store $(s_t, a_t, s_{t+1}, r_t^g, r_{\mathrm{sym},t}^s)$ in rollout buffer $\boldsymbol{B}$ 9: end for 10: Compute TD targets for value updates 11: Compute task advantage $A^g$ and style advantage $A^s$ using GAE 12: Compute combined advantage using Eq. (8) ( $\sigma(\lambda)$ is set to 1 during warmup phase) 13: for learning epoch $= 1, 2, \ldots, K$ do 14: Sample mini-batches $b \sim \boldsymbol{B}$ 15: Update policy $\pi$ , task critic $v^g$ , and style critic $v^s$ using PPO 16: Update discriminator $D_\phi$ using symmetry-augmented mini-batch $b_{\mathrm{sym}}$ via Eq. (3) 17: Update Lagrange multiplier $\lambda$ using Eq. (6) 18: if $i \pmod{I_c} = 0$ then 19: Update constraint using Eq. (9) // 更新 $v^{g\star}$ 。 20: end if 21: end for 22: end for

流程解释:

初始化: 初始化策略、评论家网络、判别器和拉格朗日乘数。 $v^{g*}$ 的初始值来自一个任务奖励预热阶段。
数据收集 (行 5-8): 在每个学习迭代中，使用当前策略 $\pi$ 在环境中收集经验数据（状态、动作、下一状态、任务奖励）。同时，根据对称增强的公式 (Eq. 11) 计算风格奖励 $r_{\mathrm{sym}}^s$ ，并将这些转换存储到经验回放缓冲区 $\boldsymbol{B}$ 中。
优势计算 (行 10-12): 计算值函数更新所需的时序差分 (TD) 目标。使用 GAE 分别计算任务优势 $A^g$ 和风格优势 $A^s$ 。然后，通过结合拉格朗日乘数 $\lambda$ 的 sigmoid 激活函数，计算用于策略更新的组合优势函数 $A$ (Eq. 8)。在预热阶段， $\sigma(\lambda)$ 设为 1，此时策略只关注任务奖励。
网络更新 (行 13-17):
- 策略和评论家更新: 从 $\boldsymbol{B}$ 中采样小批量数据，使用 PPO 算法更新策略 $\pi$ 、任务评论家 $v^g$ 和风格评论家 $v^s$ 。
- 判别器更新: 使用对称增强的小批量数据 $b_{\mathrm{sym}}$ 更新判别器 $D_\phi$ (Eq. 3)。
- 拉格朗日乘数更新: 根据 CMDP 的对偶问题 (Eq. 6)，更新拉格朗日乘数 $\lambda$ 。
约束更新 (行 18-20): 以预设的间隔 $I_c$ (例如，每 $I_c$ 个学习迭代)，更新 $v^{g*}$ ，使其保持为目前为止观察到的最佳统计任务值 (Eq. 9)。

5. 实验设置

5.1. 数据集

本文通过多种机器人平台和任务来验证 ConsMimic 方法，其中示范数据与任务条件存在不同程度的不对齐，但仍能提供重要的风格线索。

5.1.1. Franka-Reach 任务

机器人: Franka 机械臂。
任务: 智能体必须高效地到达目标姿态 (goal pose)。
示范数据: 遵循风格化的正弦轨迹 (sinusoidal trajectories)。
不对齐点: 示范轨迹是风格化的，但可能不是到达目标的最优路径。
观察空间 (Observation Space): 包含关节位置 $q$ (7维), 关节速度 $\dot{q}$ (7维), 末端执行器目标位置 $p^*$ (3维), 末端执行器目标方向 $\theta^*$ (4维), 以及策略的先前动作 $a_{t-1}$ (7维)。总计 28 维。
动作空间 (Action Space): 目标关节位置 $q^*$ (7维)。

示范 (Demonstration): 末端执行器姿态 $x_t$ (7维)。

以下是原文 [Table 3] 的结果：

Category	Entry	Symbol	Dimension
Observation	Joint positions	q	7
	Joint velocities	q̇	7
	End-effector position target	p*	3
	End-effector orientation target	θ*	4
	Policy's last actions	a_t-1	7
Action	Target joint positions	q*	7
Demonstration	End-effector poses	x_t	7

5.1.2. Anymal-Forward 和 Anymal-Lateral 任务

机器人: ANYmal-D 四足机器人。
任务: 跟踪前进或侧向速度。
示范数据: 主要由前进小跑 (forward-trotting) 动作组成。
不对齐点: 尤其是在 Anymal-Lateral 任务中，示范是前进运动，而任务是侧向运动，存在显著的风格-任务不对齐。
观察空间 (Observation Space): 包含局部坐标系下的基座线速度 $v_{\mathrm{base}}$ (3维), 基座角速度 $\omega_{\mathrm{base}}$ (3维), 投影重力 $g_{\mathrm{proj}}$ (3维), 速度指令 $V_{\mathrm{cmd}}$ (3维), 关节位置 $q$ (12维), 关节速度 $\dot{q}$ (12维), 以及先前动作 $a_{t-1}$ (12维)。总计 48 维。
动作空间 (Action Space): 目标关节位置 $q^*$ (12维)。

示范 (Demonstration): 局部坐标系下的基座线速度 $v_{\mathrm{base}}$ (3维), 基座角速度 $\omega_{\mathrm{base}}$ (3维), 投影重力 $g_{\mathrm{proj}}$ (3维), 关节位置和速度 $[q, \dot{q}]$ (24维)。总计 33 维。

以下是原文 [Table 5] 的结果：

Category	Entry	Symbol	Dimension
Observation	Base linear velocity (local)	v_base	3
	Base angular velocity (local)	ω_base	3
	Projected gravity	g_proj	3
	Velocity commands	V_cmd	3
	Joint positions	q	12
	Joint velocities	q̇	12
	Previous actions	a_t-1	12
Action	Target joint positions	q*	12
Demonstration	Base linear velocity (local)	v_base	3
	Base angular velocity (local)	ω_base	3
	Projected gravity	g_proj	3
	Joint positions and velocities	[q, q̇]	24

5.1.3. GR1-Flat, GR1-Stair, 和 GR1-Stepstone 任务

机器人: GR1 全身人形机器人。
任务: 在多样化地形上跟踪速度。
示范数据: 在平坦地面上收集的参考运动。
不对齐点: 示范仅限于平坦地面，而任务需要在楼梯和垫脚石等复杂地形上执行。示范提供了人形机器人运动的协调臂腿动作等风格线索。
观察空间 (Observation Space): 包含局部坐标系下的基座线速度 $v_{\mathrm{base}}$ (3维), 基座角速度 $\omega_{\mathrm{base}}$ (3维), 投影重力 $g_{\mathrm{proj}}$ (3维), 速度指令 $U_{\mathrm{cmd}}$ (3维), 关节位置 $q_{\mathrm{rel}}$ (23维), 关节速度 $\dot{q}_{\mathrm{rel}}$ (23维), 先前动作 $a_{t-1}$ (23维), 外感受高度扫描 $h_{\mathrm{scan}}$ (173维), 以及目标关节位置 $q^*$ (23维)。总计 254 维。
动作空间 (Action Space): 腿部、躯干、肩部和肘部的目标关节位置 $q^*$ (23维)。

示范 (Demonstration): 包含基座运动、关节状态和足部位置。具体包括基座线速度 $v_{\mathrm{lin}, \mathrm{base}}$ (3维), 基座角速度 $\omega_{\mathrm{ang}, \mathrm{base}}$ (3维), 关节位置 $q$ (23维), 关节速度 $\dot{q}$ (23维), 局部坐标系下的足部位置 $P_{\mathrm{foot}}$ (12维)。总计 64 维。

以下是原文 [Table 7] 的结果：

Category	Entry	Symbol	Dimension
Observation	Base linear velocity	v_base	3
	Base angular velocity	ω_{ang base}	3
	Projected gravity	g_proj	3
	Velocity commands	U_cmd	3
	Joint positions	Q_rel	23
	Joint velocities	q̇_rel	23
	Previous actions	a_t-1	23
	Height scan	h_scan	173
	Target joint positions	q*	23
Action	Target joint positions	q*	23
Demonstration	Base linear velocity	v_lin,base	3
	Base angular velocity (local)	ω_ang,base	3
	Joint positions	q	23
	Joint velocities	q̇	23
	Foot positions in local frame	P_foot	12

5.1.4. 训练和评估地形 (Appendix C.1)

楼梯 (Stairs): 包含金字塔状的倒置楼梯，阶梯高度范围从 0.05 到 0.27 米，阶梯宽度范围从 0.30 到 0.40 米。
垫脚石 (Stepping Stones): 包含高频垫脚石地形，具有可变宽度和距离。石块高度最高 0.01 米，宽度范围从 0.55 到 1.0 米，距离范围从 0.1 到 0.2 米。

5.2. 评估指标

5.2.1. 模仿分数 (Imitation Score)

模仿分数 用于量化策略生成的轨迹与示范轨迹的相似程度。

概念定义: 模仿分数衡量智能体轨迹与参考示范轨迹的匹配程度。分数越高表示模仿质量越好。它通过动态时间规整 (Dynamic Time Warping, DTW) 距离来计算，并进行归一化，使其处于 [0, 1] 范围。
数学公式: $S _ { \mathrm { i m i t } } = \mathrm { m a x } \{ 0 , 1 - \mathrm { D T W } ( \tau ^ { \pi } , \tau ^ { M } ) / \eta \}$
符号解释:
- $S_{\mathrm{imit}}$ : 模仿分数。
- $\mathrm{DTW}(\tau^\pi, \tau^M)$ : 策略轨迹 $\tau^\pi$ 和示范轨迹 $\tau^M$ 之间的动态时间规整距离。
- $\tau^\pi$ : 策略生成的轨迹。
- $\tau^M$ : 示范轨迹。
- $\eta$ : 任务依赖的归一化常数。例如，对于操纵任务设为 20，对于运动任务设为 100。这个常数用于将 DTW 距离缩放到一个合理的范围，以便 模仿分数 可以在 [0, 1] 之间。

5.2.2. 对称分数 (Symmetry Score)

对称分数 用于评估运动的对称性，特别是在 GR1 机器人任务中。

概念定义: 对称分数衡量策略生成的轨迹与其镜像轨迹的相似程度。分数越高表示运动的对称性越好。它通过 DTW 距离来计算，并进行归一化。
数学公式: $S _ { \mathrm { s y m } } = \operatorname* { m a x } \{ 0 , 1 - \frac { 1 } { | G | } \sum _ { g \in G } \frac { \mathrm { D T W } ( \tau ^ { \pi } , L _ { g } ( \tau ^ { \pi } ) ) } { \eta } \}$
符号解释:
- $S_{\mathrm{sym}}$ : 对称分数。
- $G$ : 预定义的对称变换集合。
- $|G|$ : 对称变换的数量。
- $L_g(\tau^\pi)$ : 对策略轨迹 $\tau^\pi$ 应用对称变换 $g$ 后的轨迹。
- $\mathrm{DTW}(\tau^\pi, L_g(\tau^\pi))$ : 策略轨迹 $\tau^\pi$ 与其对称变换后的轨迹之间的动态时间规整距离。
- $\eta$ : 任务依赖的归一化常数，通常与模仿分数中使用的一致。

5.2.3. 实时评估指标 (Real-World Evaluation Metrics)

在 ANYmal-D 硬件上，还使用了以下指标：

机械功 (Mechanical Work, $W_{\mathrm{mech}}$ ): 机器人所做的机械功，计算为每个 эпизо (episode) 中所有关节扭矩 $\tau$ 和关节角速度 $\dot{\theta}$ 乘积的总和 $\sum \tau \cdot \dot{\theta}$ 。用于评估能量效率。
平均脚离地时间 (Average Foot-Air Time, FAT, $T_{\mathrm{air}}$ ): 每一步中脚离开地面的平均时间。用于评估运动的敏捷性和动态性。

5.2.4. 宽松的 DTW 距离计算 (Algorithm 2)

由于标准 DTW 要求轨迹的起点和终点对齐，这在本文的设置中不切实际，因此采用了一种宽松的 DTW 实现。

Algorithm 2 Relaxed DTW Distance

Require: Two sequences: $\mathbf{seq}_1 \in \mathbb{R}^{n \times d}$ and $\mathbf{seq}_2 \in \mathbb{R}^{m \times d}$ 1: Initialize DTW matrix: $D \in \mathbb{R}^{(n+1) \times (m+1)}$ with $D[0, :] \gets 0, D[:, 0] \gets \infty$ 2: for $i = 1$ to $n$ do 3: for $j = 1$ to $m$ do 4: $c \gets \lVert \mathbf{seq}_1[i] - \mathbf{seq}_2[j] \rVert_2$ 5: $D[i, j] \gets c + \operatorname*{min}\{ D[i-1, j], D[i, j-1], D[i-1, j-1] \}$ 6: end for 7: end for 8: return $\operatorname*{min}_j D[n, j]$ // Relax end-alignment by taking minimal cost across final row

解释:

该算法计算序列 $\mathbf{seq}_1$ 和 $\mathbf{seq}_2$ 之间的 DTW 距离。
$n$ 和 $m$ 分别是两个序列的长度， $d$ 是特征维度。
初始化 DTW 矩阵 $D$ ：第一行除 D[0,0] 外初始化为 0，第一列除 D[0,0] 外初始化为 $\infty$ 。这允许从 $\mathbf{seq}_2$ 的任何点开始匹配 $\mathbf{seq}_1$ 。
$c$ : 当前时间步两序列元素之间的欧氏距离 $\lVert \mathbf{seq}_1[i] - \mathbf{seq}_2[j] \rVert_2$ 。
D[i, j]: 累积成本 (cumulative cost)，通过从左、上或左上角的最小成本加上当前距离 $c$ 计算。
关键的宽松: 在返回结果时，不是直接返回 D[n,m] (标准 DTW 要求终点对齐)，而是返回矩阵 $D$ 的最后一行中的最小值 $\operatorname*{min}_j D[n, j]$ 。这意味着 $\mathbf{seq}_1$ 必须完全被匹配，但 $\mathbf{seq}_2$ 的结束点可以是其内部的任何位置，从而放宽了结束对齐的约束。
对于 Franka 任务，使用末端执行器轨迹进行 DTW 计算，而对于 Anymal 和 GR1 任务，则使用关节位置轨迹。

5.3. 对比基线

为了全面评估 ConsMimic，本文将其与以下基线方法进行了比较：

任务-only 训练 ( $\omega_0^s$ ): 完全忽略风格模仿的基线。其风格奖励权重为 0。这代表了纯粹追求任务性能的上限。
固定权重基线 ( $\omega_{0.5}^s$ , $\omega_{0.2}^s$ ): 风格奖励在总奖励中的贡献分别为 0.5 倍和 0.2 倍的固定加权方法。这些基线代表了在不使用自适应机制的情况下，通过手动调整权重来平衡任务和风格的常见做法。

5.4. 网络架构与训练参数

5.4.1. 网络架构 (Appendix B.2)

策略网络 (Policy network)、值网络 (Value network) 和判别器网络 (Discriminator network) 均由多层感知机 (MLP) 组成。

以下是原文 [Table 9] 的结果：

Task	Policy	Value	Discriminator
Franka	[64, 64]	[64, 64]
Anymal	[512, 256, 128]	[512, 256, 128]	[1024, 512]
GR1	[512, 256, 128]	[512, 256, 128]	[1024, 512]

解释:

Franka 任务的策略和值网络均为两层 MLP，每层 64 个神经元。由于 Franka 任务使用运动片段跟踪而非对抗性学习，因此没有判别器。
Anymal 和 GR1 任务的策略和值网络均为三层 MLP，分别为 512、256、128 个神经元。判别器网络均为两层 MLP，分别为 1024、512 个神经元。

5.4.2. 训练参数 (Appendix B.3)

以下是原文 [Table 10] 的结果：

Parameter	Value	Parameter	Value
Num Steps per Environment	24	Training Iterations	20000
clip range	0.2	entropy coef	0.005
mini batches	4	learning rate	1e-3
discount factor	0.99	α for Franka	0.9
α for Anymal	0.7	α for GR1	0.9

解释:

Num Steps per Environment: 每个环境中每步收集的步数，为 24。
Training Iterations: 总训练迭代次数，为 20000。
clip range: PPO 算法中的裁剪范围，为 0.2。
entropy coef: 熵系数，用于鼓励策略探索，为 0.005。
mini batches: 每次策略更新使用的小批量数量，为 4。
learning rate: 学习率，为 1e-3。
discount factor: 折扣因子 $\gamma$ ，为 0.99。
$α for Franka, Anymal, GR1$ : 各任务的任务最优性阈值 $\alpha$ 分别为 0.9, 0.7, 0.9。

5.5. 奖励函数组成 (Appendix A)

5.5.1. Franka 机械臂的奖励函数

任务奖励包括末端执行器 (End-Effector, EE) 位置和方向跟踪项、动作平滑度和正则化惩罚。风格奖励定义为示范轨迹跟踪损失 (参见 Eq. 1)。

以下是原文 [Table 4] 的结果：

Term	Function	Weight
EE tracking (coarse)	\|\|x − x*\|\|₂	-0.5
EE tracking (fine-grained)	1 − tanh(\|\|x − x*\|\|₂)	1.0
EE orientation tracking	\|\|θ − θ*\|\|_quat	-0.1
Action rate penalty	\|\|a_t − a_t-1\|\|₂	-0.01
Joint velocity penalty	\|\|q̇\|\|₂	-0.01

5.5.2. Anymal 四足机器人的奖励函数

任务奖励包括指令速度跟踪、垂直运动惩罚、关节力矩惩罚、能量消耗惩罚、基座姿态平坦度惩罚、关节限位违规惩罚和非期望接触惩罚。风格奖励通过 Eq. 11 预测。

以下是原文 [Table 6] 的结果：

Term	Function	Weight
Track linear velocity (xy)	k v_xy - v_xy \|\| exp σ	1.0
Track angular velocity (z)	exp \|ω - ω\|² / σ²	0.5
Vertical linear velocity penalty	\|v_zk\|²	-2.0
Angular velocity penalty (xy)	\|\|ω_xy\|²	-0.05
Joint torque penalty	\|\|τ\|\|²	-2.5e-5
Joint acceleration penalty	\|q̇\|²	−2.5e−7
Action rate penalty	\|\|a_t − a_t-1\|²	-0.01
Power consumption	∑T · q̇	−5e−5
Feet air time reward	H_Ktair>0.5	0.125
Undesired contacts (thigh)	Contact	-1.0
Flat orientation penalty	\|\|g_b,xy\|\|²	−5.0
Joint limit violation penalty	∑_i [max(0, q_i − q_max,i, q_min,i − q_i)]	-1.0

5.5.3. GR1 人形机器人的奖励函数

GR1 的奖励函数结合了任务级跟踪、关节级正则化、物理约束和双足机器人特定行为塑造。

以下是原文 [Table 8] 的结果：

Term	Function	Weight
Termination penalty	K_terminate	−200.0
Track linear velocity (xy)	exp(−\|v_xy − v_xy\|²/σ²)	5.0
Track angular velocity (z)	exp(−\|ω_z − ω\|{²/σ²)	3.0
Action rate (arms/legs)	\|\|a_t − a_t-1\|\|²	-0.01
Action rate (2nd order)	\|\|a_t − 2a_t-1 + a_t-2\|\|²	−0.005
Joint torque penalty	\|\|τ\|²	−1e−4
Torque limit violation	\|τ − τ_applied\|	−0.002
Joint deviation penalty	\|\|q − q_ref\|\|²	-0.5
Feet air time reward	K_tair>0.4	1.0
Zero action (ankle roll)	K_\|a\|>α²	−0.5
Joint limit violation	K_{q∈[q_min,q_max]}	-10.0
Power consumption	∑τ · q̇	−5e-6
Base angular velocity (xy)	kω_xy\|²	-0.05
Feet slide penalty	\|\|slip\|\| when in contact	-1.0
No-fly penalty	K_{both feet airborne}	−5.0
Pelvis orientation	\|\|g_pelvis,xy\|	-5.0
Torso orientation	\|\|g_toro,xy\|²	-5.0

6. 实验结果与分析

6.1. 核心结果分析

6.1.1. Q1. 风格学习质量 (Style Learning Quality)

该部分旨在验证 ConsMimic 是否能在确保任务最优性的同时，实现更高的模仿质量。实验对比了 ConsMimic ( $\omega_{\mathrm{adapt}}^s$ )、任务-only 基线 ( $\omega_0^s$ ) 和两个固定权重基线 ( $\omega_{0.5}^s, \omega_{0.2}^s$ )。

以下是原文 [Figure 2] 的结果：

$Figure 2: Visualization Results across Tasks. We report the mean and standard deviation over 5 seeds. The top row shows the tracking reward for each method. ConsMimic achieves task rewards comparable to the task-only baseline $( \\omega _ { 0 } ^ { s } )$ , demonstrating its ability to enforce near-optimal task performance. In contrast, the baseline with an aggressive imitation weight $( \\omega _ { 0 . 5 } ^ { s } )$ struggles to learn how to complete the task. The bottom row presents the imitation scores. ConsMimic consistently outperforms all baselines that are capable of solving the tasks and only trails behind $\\omega _ { 0 . 5 } ^ { s }$ ,which achieves higher imitation at the cost of degraded task performance.$
该图像是图表，展示了不同任务下的跟踪奖励和模仿分数。上方展示了跟踪奖励，其中 ConsMimic 在接近任务-only 基线的同时，保持了优秀的任务性能。下方为模仿分数，对比显示 ConsMimic 的表现持续优于大部分基线，仅在任务性能降低的情况下被某基线超越。

图 2：不同任务下的跟踪奖励和模仿分数的可视化结果。上方显示了每种方法的跟踪奖励。ConsMimic 实现了与任务-only 基线 ( $\omega_0^s$ ) 相当的任务奖励，表明其能够强制执行接近最优的任务性能。相比之下，具有激进模仿权重 ( $\omega_{0.5}^s$ ) 的基线难以学会完成任务。下方显示了模仿分数。ConsMimic 始终优于所有能够解决任务的基线，并且仅落后于以任务性能下降为代价实现更高模仿的 $\omega_{0.5}^s$ 。

分析:

任务性能 (Task Performance):
- 在所有任务中，ConsMimic 的任务奖励都与任务-only 基线 ( $\omega_0^s$ ) 相当，甚至在某些任务上略优。这强有力地证明了其能够在不损害任务完成能力的前提下，保持近最优的任务性能。
- 固定权重基线，特别是激进模仿权重的 $\omega_{0.5}^s$ ，在许多复杂任务（如 Anymal-Lateral, GR1-Stair, GR1-Stepstone）中任务奖励显著下降，甚至无法完成任务。这突显了在任务-风格不对齐时，盲目强调风格对任务性能的负面影响，以及手动调整权重的困难。
模仿质量 (Imitation Quality):
- ConsMimic 在模仿分数上始终优于任务-only 基线和大多数固定权重基线。这表明它能够有效地从示范中提取和学习风格。
- ConsMimic 仅在模仿分数上略低于 $\omega_{0.5}^s$ 基线。但需要注意的是， $\omega_{0.5}^s$ 是以显著牺牲任务性能为代价来实现高模仿的，这在许多实际应用中是不可接受的。ConsMimic 的优势在于它在维持高任务性能的同时，实现了高模仿质量。
具体任务表现:
- Franka-Reach: ConsMimic 实现了高任务奖励 (0.78)，并且模仿质量显著优于任务-only 基线。
- Anymal-Lateral: 这是一个风格-任务不对齐突出的任务。ConsMimic 在任务性能上接近任务-only 基线，但在模仿质量上大大超越了固定权重基线，显示了其在复杂不对齐场景中利用风格线索的能力。
- GR1 任务: 固定权重基线在复杂场景（GR1-Stair 和 GR1-Stepstone）中要么牺牲任务完成能力，要么模仿质量显著下降。ConsMimic 的自适应策略在这些场景下展现出更好的泛化能力，通过动态平衡风格模仿和任务要求，实现了稳定的训练和鲁棒的性能。
  
  综上，ConsMimic 的自适应策略通过动态平衡风格模仿和任务要求，在现实任务-示范不对齐的条件下，始终提供更好的泛化能力，实现稳定的训练和鲁棒的性能。

6.1.2. Q2. 对称增强风格学习 (Symmetry-Augmented Style Learning)

此部分旨在评估对称增强奖励是否能提高运动的对称性。通过计算对称分数 $S_{\mathrm{sym}}$ 来进行量化。

以下是原文 [Table 1] 的结果：

Task	Ours (w/o sym aug)	Ours (w/ sym aug)
GR1-Flat	0.779±0.021	0.814±0.018
GR1-Stair	0.741±0.025	0.811±0.020
GR1-Stepstone	0.642±0.030	0.722±0.022

表 1：对称性分析。对称分数 $S_{\mathrm{sym}}$ 使用 Eq. (13) 计算， $\eta = 100$ ，基于 5 个随机种子。ConsMimic（w/ sym aug）显著提高了对称性。

分析:

从表格数据可以看出，在所有 GR1 运动任务中，引入对称增强奖励 (Ours (w/ sym aug)) 显著提高了对称分数 $S_{\mathrm{sym}}$ 。例如，在 GR1-Flat 任务中，对称分数从 0.779 提高到 0.814；在 GR1-Stepstone 这样更具挑战性的任务中，也从 0.642 提高到 0.722。
这验证了对称增强奖励的有效性，它能够即使从非专家示范中也能学习到对称的策略。
这种方法使得策略能够在各种地形上泛化对称运动模式，同时保持任务最优性。

以下是原文 [Figure 3] 的结果：

$Figure 3: Visualization Results of ConsMimic on GR1. With symmetric augmented style learning, GR1 achieved symmetric and natural motion on both flat ground (in distribution) and stair $\\&$ stone ground (out of distribution).$ 该图像是图表，展示了GR1在不同地面（平坦、楼梯和石阶）上运动的可视化结果。每一行展示了在特定地面条件下，GR1的运动随着时间的变化而产生的对比，体现了运动的自然性和对称性。

图 3：ConsMimic 在 GR1 上的可视化结果。通过对称增强风格学习，GR1 在平坦地面（分布内）和楼梯及石阶地面（分布外）上都实现了对称且自然的运动。

分析:

图 3 展示了 GR1 在不同地形（平坦、楼梯、垫脚石）上的运动姿态。视觉上证实了通过对称增强风格学习，机器人能够生成更自然、更对称的动作，即使在分布外 (out-of-distribution) 的复杂地形上也能保持这种特性。

6.1.3. Q3. $\alpha$ 的有效性 (Effectiveness of $\alpha$ )

该部分旨在评估参数 $\alpha$ 是否能有效控制任务最优性水平。实验在 Franka-Reach 任务中，将 $\alpha$ 分别设置为 1.0, 0.9, 和 0.8 进行。

以下是原文 [Figure 4] 的结果：

$Figure 4: Visualization of $\\alpha$ 's Effect on FrankaReach. Shown are trajectories for $\\alpha = 1 . 0$ (left), $\\alpha = 0 . 9$ (middle), and $\\alpha = 0 . 8$ (right). The red line indicates the optimal task trajectory, the yellow line is the demonstration trajectory, and the green line shows our policy's trajectory.$
该图像是示意图，展示了在 FrakaReach 任务中不同 eta 值对轨迹的影响。左侧 $eta = 1.0$ ，中间 $eta = 0.9$ ，右侧 $eta = 0.8$ 。红线表示最优任务轨迹，黄线为演示轨迹，绿线展示了我们的策略轨迹。

图 4： $\alpha$ 对 Franka-Reach 任务的影响可视化。图示分别为 $\alpha = 1.0$ （左）、 $\alpha = 0.9$ （中）和 $\alpha = 0.8$ （右）的轨迹。红线表示最优任务轨迹，黄线是示范轨迹，绿线显示了我们策略的轨迹。

分析:

$\alpha = 1.0$ (左图): 策略完全忽略了示范的影响，严格执行近乎最优的任务性能。此时，绿色策略轨迹几乎与红色最优任务轨迹重合，但与黄色示范轨迹差异较大。这意味着当任务最优性要求最高时，风格模仿几乎被完全抑制。
$\alpha = 0.9$ (中图): 策略在实现高任务性能的同时，开始融入了核心的风格特征。绿色策略轨迹保持了任务的有效性，并且在形状上比 $\alpha=1.0$ 时更接近黄色示范轨迹。
$\alpha = 0.8$ (右图): 智能体完全同化了示范，但仍然满足所需的任务约束。绿色策略轨迹在形状上与黄色示范轨迹高度相似，同时仍能有效完成任务。

这些结果清楚地表明， $\alpha$ 是一个有效的参数，可以用于调节任务执行和风格模仿之间的平衡。用户可以通过调整 $\alpha$ 来灵活控制模型对任务性能和风格保真度的侧重程度。

6.1.4. Q4. ConsMimic 在真实世界任务中的应用 (ConsMimic on Real-World Tasks)

为了验证 ConsMimic 在实际应用中的潜力，研究人员在 ANYmal-D 四足机器人硬件上部署了在 Anymal-Forward 任务中训练的策略，进行零样本 (zero-shot) 迁移。机器人被命令以 $2 \mathrm{m/s}$ 的速度前进，然后以相同速度返回，完成 8 轮相同距离的运动。

以下是原文 [Figure 5] 的结果：

Figure 5: Visualization of ANYmal-D's Locomotion in the Real World. The top row show motions produced by policy trained by conventional task rewards while the bottom row trained by ConsMimic. ConsMimic enables the robot to achieve a more natural, agile trotting gait pattern.
该图像是ANYmal-D在现实世界中的运动可视化。上排展示了仅使用任务奖励训练的策略产生的动作，下排则是使用ConsMimic训练的结果，后者使机器人实现了更自然的敏捷跑步步态。

图 5：ANYmal-D 在真实世界中的运动可视化。上排显示了通过传统任务奖励训练的策略产生的动作，下排显示了通过 ConsMimic 训练的结果。ConsMimic 使机器人能够实现更自然、敏捷的小跑步态。

分析:

视觉上，与仅用传统任务奖励训练的策略相比，ConsMimic 训练的策略使 ANYmal-D 呈现出更自然、更敏捷的小跑步态。这种风格通常难以仅通过纯 RL 任务奖励来学习。

以下是原文 [Table 2] 的结果：

Metric Task-Only ConsMimic

W_mech (J) 1337 ± 515 1143 ± 450

T_air (s) 0.28 ± 0.02 0.37 ± 0.04

Metric	Task-Only	ConsMimic
W_mech (J)	1337 ± 515	1143 ± 450
T_air (s)	0.28 ± 0.02	0.37 ± 0.04

表 2：运动分析。通过 ConsMimic 训练的策略展示了更低的能耗和更动态的运动。

分析:

机械功 (Mechanical Work, $W_{\mathrm{mech}}$ ): ConsMimic 训练的控制器将机械功从 $1337 \pm 515 \mathrm{J}$ 降低到 $1143 \pm 450 \mathrm{J}$ ，下降了约 14.5%。这表明 ConsMimic 能够学习到更节能的运动模式，提高了能量效率。
平均脚离地时间 (Average Foot-Air Time, $T_{\mathrm{air}}$ ): ConsMimic 将平均脚离地时间从 $0.28 \pm 0.02 \mathrm{s}$ 增加到 $0.37 \pm 0.04 \mathrm{s}$ 。脚离地时间的增加通常意味着更动态、更敏捷的步态，因为机器人能够更快地重新定位其足部。

定量结果证实，ConsMimic 有效地将风格化运动模仿转化为实实在在的真实世界性能提升，例如更低的能耗和更动态的运动。这突显了其在真实世界机器人运动任务中的实用性和鲁棒性。

7. 总结与思考

7.1. 结论总结

本文介绍了 ConsMimic，一个新颖的、基于受约束马尔可夫决策过程 (CMDP) 的风格学习框架。该框架旨在从不完美的示范中学习，同时明确强制执行任务最优性。ConsMimic 的核心创新在于其引入了一个自适应调整的拉格朗日乘数，以自动平衡风格学习和任务学习之间的权衡，并利用对称增强风格奖励公式从运动参考中提取对称模式。通过在多种机器人平台（Franka 机械臂、ANYmal 四足机器人、GR1 人形机器人）上的仿真和真实世界 (ANYmal-D 硬件) 实验，ConsMimic 展示了其在保持高水平任务性能的同时，实现高保真度风格学习的能力。特别是在真实世界部署中，它使得 ANYmal-D 实现了更自然、节能且敏捷的步态。这表明 ConsMimic 是一个在专家示范难以获取或不完美时，用于真实世界机器人风格合成任务的实用且可泛化的方法。

7.2. 局限性与未来工作

论文作者指出了该方法的一个主要局限性：

无法区分示范中的有益与有害特征: 尽管该框架能够应对整体上不完美的示范，但它没有明确区分示范中哪些特定的特征是有益的，哪些是有害的。即使示范整体有缺陷或不对齐，其中可能仍然存在有价值的风格线索值得提取。

基于此局限性，作者提出了未来的研究方向：
选择性地识别和利用有益示范特征: 未来工作应探索能够选择性地识别和利用有益示范特征的技术。这可能包括引入注意力机制 (attention mechanisms) 或特征加权 (feature weighting) 等机制，以增强模仿学习的鲁棒性和适应性。

7.3. 个人启发与批判

7.3.1. 个人启发

CMDP 框架的强大潜力: 将 CMDP 引入模仿学习以解决“风格-任务”权衡问题是一个非常巧妙且强大的思路。它提供了一个原则性的框架来处理不完美示范，这在现实世界应用中是普遍存在的挑战。这种将安全强化学习的理念扩展到模仿学习中的方法值得借鉴。
自适应权重的优势: 自适应的拉格朗日乘数相比手动固定权重具有显著优势，它使得模型能够根据任务性能动态调整对风格的关注，避免了繁琐的超参数调优，并提高了泛化能力。
对称性在具身智能中的重要性: 对称增强奖励的引入，突显了在机器人运动学习中考虑物理和形态对称性的重要性。这不仅可以解决模式崩溃问题，还能引导智能体学习到更自然、更鲁棒的运动模式，即使示范本身并非完全对称。
真实世界价值: 在 ANYmal-D 硬件上的实验结果令人印象深刻，机械能的降低和脚离地时间的增加直接转化为实际的效益，证明了该方法不仅在理论上合理，在实践中也具有显著价值。

7.3.2. 批判与潜在改进

$v^{g\star}$ 的依赖性: 虽然在线更新 $v^{g\star}$ 的机制避免了预设最优值的困难，但它仍然依赖于预热阶段的最佳任务性能。如果预热阶段的策略无法达到一个合理的任务性能，或者环境具有高度随机性导致 $v^g(\pi)$ 波动大， $v^{g\star}$ 的估计可能会影响最终结果的稳定性和上限。可以考虑更复杂的 $v^{g\star}$ 估计策略，例如基于历史最佳表现的滑动平均，或者结合理论上限的软约束。
$\alpha$ 的敏感性: 尽管 $\alpha$ 被证明可以有效控制风格-任务权衡，但其最优值仍然需要手动设定。不同的任务可能需要不同的 $\alpha$ 值，这在一定程度上保留了超参数调优的负担。未来的工作可以探索如何使 $\alpha$ 本身也变得自适应，例如通过元学习 (meta-learning) 或更高级别的优化来动态调整 $\alpha$ 。
“有益/有害”特征的识别: 论文的局限性指出了如何识别示范中有益和有害特征的问题。一个可能的改进方向是引入注意力机制，让模型在模仿时动态地关注示范轨迹中的特定部分或特征。例如，对于崎岖地形任务，模型可能需要更多地关注示范中关于足部接触和平衡的特征，而较少关注与地形无关的身体摆动。
通用对称性的定义: 论文中提到的对称变换算子 $L_g$ 是机器人特定的。对于更通用或形态复杂的机器人，如何自动或半自动地定义这些对称性可能是一个挑战。研究更通用的、可学习的对称性检测和利用机制可能是一个有趣的未来方向。
计算成本: CMDP 框架引入了额外的评论家网络和拉格朗日乘数的优化，以及对称增强的数据处理，这无疑会增加计算负担。在资源受限的真实机器人系统中，如何优化这些计算以确保实时性是一个实际问题。

相似论文推荐

基于向量语义检索推荐的相关论文。

暂时没有找到相似论文。

Constrained Style Learning from Imperfect Demonstrations under Task Optimality

TL;DR 精炼摘要

摘要

思维导图

论文精读

中文精读约 36 分钟读完 · 24,353 字

1. 论文基本信息

1.1. 标题

1.2. 作者

1.3. 发表期刊/会议

1.4. 发表年份

1.5. 摘要

1.6. 原文链接

1.7. PDF 链接

2. 整体概括

2.1. 研究背景与动机

2.1.1. 核心问题与重要性

2.1.2. 现有挑战与空白

2.1.3. 本文的切入点与创新思路

2.2. 核心贡献/主要发现

3. 预备知识与相关工作

3.1. 基础概念

3.1.1. 强化学习 (Reinforcement Learning, RL)

3.1.2. 从示范中学习 (Learning from Demonstration, LfD) / 模仿学习 (Imitation Learning, IL)

3.1.3. 马尔可夫决策过程 (Markov Decision Process, MDP)

3.1.4. 受约束的马尔可夫决策过程 (Constrained Markov Decision Process, CMDP)

3.2. 前人工作与技术演进

3.2.1. 深度强化学习在足式机器人中的应用

3.2.2. 表达性奖励设计与运动先验

3.2.3. 从示范中学习与对抗性模仿

3.3. 差异化分析

4. 方法论

4.1. 方法原理

4.2. 核心方法详解

4.2.1. 受约束的任务最优性风格学习 (Constrained Style Learning under Task Optimality)

4.2.2. 任务约束的在线更新 (Online Update of the Task Constraint)

4.2.3. 对称增强风格学习 (Symmetric Augmented Style Learning)

4.2.4. 风格奖励具体实现 (Specific Style Reward Implementations)

4.2.5. ConsMimic 训练流程 (Algorithm 1)

5. 实验设置

5.1. 数据集

5.1.1. Franka-Reach 任务

5.1.2. Anymal-Forward 和 Anymal-Lateral 任务

5.1.3. GR1-Flat, GR1-Stair, 和 GR1-Stepstone 任务

5.1.4. 训练和评估地形 (Appendix C.1)

5.2. 评估指标

5.2.1. 模仿分数 (Imitation Score)

5.2.2. 对称分数 (Symmetry Score)

5.2.3. 实时评估指标 (Real-World Evaluation Metrics)

5.2.4. 宽松的 DTW 距离计算 (Algorithm 2)

5.3. 对比基线

5.4. 网络架构与训练参数

5.4.1. 网络架构 (Appendix B.2)

5.4.2. 训练参数 (Appendix B.3)

5.5. 奖励函数组成 (Appendix A)

5.5.1. Franka 机械臂的奖励函数

5.5.2. Anymal 四足机器人的奖励函数

5.5.3. GR1 人形机器人的奖励函数

6. 实验结果与分析

6.1. 核心结果分析

6.1.1. Q1. 风格学习质量 (Style Learning Quality)

6.1.2. Q2. 对称增强风格学习 (Symmetry-Augmented Style Learning)

6.1.3. Q3. α\alphaα 的有效性 (Effectiveness of α\alphaα)

6.1.4. Q4. ConsMimic 在真实世界任务中的应用 (ConsMimic on Real-World Tasks)

7. 总结与思考

7.1. 结论总结

7.2. 局限性与未来工作

7.3. 个人启发与批判

7.3.1. 个人启发

7.3.2. 批判与潜在改进

相似论文推荐

6.1.3. Q3. $\alpha$ 的有效性 (Effectiveness of $\alpha$ )