论文状态:已完成

Learning Sim-to-Real Humanoid Locomotion in 15 Minutes

发表:2025/12/02
原文链接PDF 下载
价格:0.100000
价格:0.100000
价格:0.100000
已有 3 人读过
本分析由 AI 生成,可能不完全准确,请以原文为准。

TL;DR 精炼摘要

本文提出了一种基于离策略强化学习算法(FastSAC和FastTD3)的方法,实现人形机器人运动控制的快速训练,仅需15分钟,使用单个RTX 4090 GPU。此方法通过精心设计的选择和极简奖励函数,在数千个并行环境中稳定了训练,成功应对高维复杂性和领域随机化(如随机动力学和崎岖地形)的挑战,并提供了开源实现和视频示例。

摘要

Massively parallel simulation has reduced reinforcement learning (RL) training time for robots from days to minutes. However, achieving fast and reliable sim-to-real RL for humanoid control remains difficult due to the challenges introduced by factors such as high dimensionality and domain randomization. In this work, we introduce a simple and practical recipe based on off-policy RL algorithms, i.e., FastSAC and FastTD3, that enables rapid training of humanoid locomotion policies in just 15 minutes with a single RTX 4090 GPU. Our simple recipe stabilizes off-policy RL algorithms at massive scale with thousands of parallel environments through carefully tuned design choices and minimalist reward functions. We demonstrate rapid end-to-end learning of humanoid locomotion controllers on Unitree G1 and Booster T1 robots under strong domain randomization, e.g., randomized dynamics, rough terrain, and push perturbations, as well as fast training of whole-body human-motion tracking policies. We provide videos and open-source implementation at: https://younggyo.me/fastsac-humanoid.

思维导图

论文精读

中文精读

1. 论文基本信息

1.1. 标题

学习在15分钟内实现模拟到真实 (Sim-to-Real) 的人形机器人运动控制 (Learning Sim-to-Real Humanoid Locomotion in 15 Minutes)。

1.2. 作者

Younggyo Seo*、Carmelo Sferrazza*、Juyue Chen、Guanya Shi、Rocky Duan、Pieter Abbeel。 所有作者均隶属于 亚马逊前沿人工智能与机器人 (Amazon FAR - Frontier AI & Robotics)。

1.3. 发表期刊/会议

该论文作为预印本 (arXiv preprint) 发布。 arXiv 是一个开放获取的预印本服务器,涵盖物理学、数学、计算机科学、量化生物学、量化金融、统计学、电气工程与系统科学以及经济学等领域。在相关领域,尤其是在人工智能和机器人学,arXiv 预印本在正式同行评审发表前被广泛阅读和引用,具有重要的影响力。

1.4. 发表年份

2025年。

1.5. 摘要

大规模并行仿真 (Massively parallel simulation) 已将机器人强化学习 (Reinforcement Learning, RL) 的训练时间从数天缩短至数分钟。然而,由于高维度 (high dimensionality) 和 领域随机化 (domain randomization) 等因素带来的挑战,实现人形机器人控制的快速可靠 模拟到真实 (sim-to-real) 强化学习仍然很困难。在这项工作中,作者引入了一种基于 离策略强化学习 (off-policy RL) 算法(即 FastSACFastTD3)的简单实用方法,能够在短短15分钟内,使用单个 RTX 4090 GPU,快速训练人形机器人的运动控制策略。作者的简单方法通过精心调整的设计选择和极简主义的奖励函数 (minimalist reward functions),在大规模并行仿真(数千个并行环境)下稳定了 离策略强化学习 算法。作者展示了在强 领域随机化 条件下(例如,随机动力学、崎岖地形和推力扰动)对 Unitree G1Booster T1 机器人进行人形机器人运动控制器端到端学习 (end-to-end learning),以及快速训练全身人体运动跟踪策略。论文提供了视频和开源实现。

1.6. 原文链接

论文链接: https://arxiv.org/abs/2512.01996 PDF 链接: https://arxiv.org/pdf/2512.01996v1.pdf

2. 整体概括

2.1. 研究背景与动机

核心问题: 尽管大规模并行仿真技术已经显著缩短了强化学习 (RL) 策略的训练时间,但对于人形机器人这种高维度、复杂系统而言,实现快速且可靠的 模拟到真实 (sim-to-real) 迁移仍然是一个巨大挑战。这主要归因于以下几个因素:

  1. 高维度 (High Dimensionality): 人形机器人具有大量的关节和复杂的动力学,导致其状态空间和动作空间非常大,使得 强化学习 (RL) 探索效率低下。

  2. 领域随机化 (Domain Randomization) 的挑战: 为了实现 模拟到真实 (sim-to-real) 的鲁棒性,通常需要在仿真中引入大量的 领域随机化 (domain randomization),例如随机化机器人动力学参数、地形特性或外部扰动。这虽然有助于策略更好地泛化到真实世界,但同时也极大地增加了 强化学习 (RL) 的探索难度和样本效率 (sample efficiency),使得训练时间再次延长,甚至回到数小时的级别。

  3. 模拟到真实 (Sim-to-Real) 迭代周期昂贵: 机器人 强化学习 (RL) 的开发本质上是迭代的:在仿真中训练策略,部署到硬件上,发现 模拟与真实 (sim-to-real) 之间的不匹配(如未建模的动力学或传感不准确性),然后修正仿真环境,并重新训练整个管线。这种迭代循环需要快速的仿真训练才能变得可行,而当前人形机器人面临的挑战使得这个循环依然昂贵。

    为什么这个问题重要: 快速的 模拟到真实 (sim-to-real) 迭代是机器人 强化学习 (RL) 成功落地的关键。如果每次迭代都需要数小时甚至数天,那么开发周期将变得非常漫长和昂贵,严重阻碍人形机器人 强化学习 (RL) 策略的快速开发和部署。解决这一问题将极大地加速人形机器人领域的研发进程。

论文的切入点/创新思路: 论文的创新点在于提出了一个“简单而实用”的 配方 (recipe),通过 离策略强化学习 (off-policy RL) 算法(FastSACFastTD3)结合 大规模并行仿真 (massively parallel simulation),以及精心调优的设计选择和极简的奖励函数,克服了上述挑战,将人形机器人 模拟到真实 (sim-to-real) 策略的训练时间缩短至15分钟。这表明,离策略强化学习 (off-policy RL) 算法在处理复杂的高维度人形机器人任务时,可以比传统的 在策略强化学习 (on-policy RL) 算法更高效、更稳定。

2.2. 核心贡献/主要发现

  1. 提出高效的 模拟到真实 (Sim-to-Real) 配方 (Recipe): 引入了一种基于 FastSACFastTD3 的简单实用方法,该方法通过精心调整的设计选择和极简主义的奖励函数,使得 离策略强化学习 (off-policy RL) 算法能够在大规模并行仿真中稳定运行。
  2. 实现人形机器人快速训练: 证明了该 配方 (recipe) 能够在短短15分钟内,使用单个 RTX 4090 GPU,训练出鲁棒的人形机器人运动控制策略。这包括对 Unitree G1Booster T1 机器人在强 领域随机化 (domain randomization) 条件下(如随机动力学、崎岖地形、推力扰动)进行运动控制器的 端到端学习 (end-to-end learning)。
  3. 支持全身运动跟踪: 除了基础运动控制,该方法还能快速训练全身人体运动跟踪 策略 (policies),并在 Unitree G1 机器人上成功进行 模拟到真实 (sim-to-real) 部署,完成舞蹈、举箱等复杂动作。
  4. 稳定并改进 FastSAC 针对 FastSAC 算法在人形机器人控制中曾表现出的训练不稳定性,通过细致的超参数 (hyperparameters) 调整和设计选择,显著提高了其性能和稳定性。
  5. 强调极简奖励设计: 展示了通过使用包含最基本项的极简奖励函数,也能在不依赖复杂 奖励塑形 (reward shaping) 的情况下,实现鲁棒且自然的机器人行为。这简化了超参数调优过程,加速了 模拟到真实 (sim-to-real) 迭代。
  6. 开源实施: 提供了 配方 (recipe) 的开源实现,以支持研究社区在此基础上进一步推进 强化学习 (RL) 和人形机器人领域的发展。

3. 预备知识与相关工作

3.1. 基础概念

  • 强化学习 (Reinforcement Learning, RL): 是一种机器学习范式,其中一个 智能体 (agent) 通过与环境的交互来学习如何做出最佳决策以最大化累积奖励。它涉及 状态 (state)、动作 (action)、奖励 (reward) 和 策略 (policy) 等核心概念。

    • 智能体 (Agent): 学习和执行动作的实体。
    • 环境 (Environment): 智能体 (agent) 交互的外部世界,它接收 动作 (action) 并返回新的 状态 (state) 和 奖励 (reward)。
    • 状态 (State): 环境在某个时刻的描述。
    • 动作 (Action): 智能体 (agent) 在给定 状态 (state) 下可以执行的操作。
    • 奖励 (Reward): 环境对 智能体 (agent) 动作 (action) 的反馈信号,指示 动作 (action) 的好坏。
    • 策略 (Policy): 描述了在给定 状态 (state) 下 智能体 (agent) 选择 动作 (action) 的规则。通常表示为 π(as)\pi(a|s)(概率性 策略 (policy))或 a = \pi(s)(确定性 策略 (policy))。
    • Q值函数 (Q-value function): Q(s,a) 表示在 状态 (state) ss 下采取 动作 (action) aa 后,遵循 策略 (policy) 所能获得的预期累积 折扣奖励 (discounted reward)。
  • 模拟到真实 (Sim-to-Real Transfer): 指的是在仿真环境中训练 强化学习 (RL) 策略 (policy),然后将其部署到真实世界机器人硬件上的过程。这种方法可以利用仿真环境快速、安全、低成本地生成大量训练数据,但挑战在于如何弥合仿真与现实之间的差距(模拟与真实差距),确保 策略 (policy) 在真实世界中也能表现良好。

  • 离策略强化学习 (Off-Policy Reinforcement Learning):智能体 (agent) 可以从其当前 策略 (policy) 以外的数据(例如由旧 策略 (policy) 或其他行为 策略 (policy) 生成的数据)中学习的 强化学习 (RL) 方法。这种方法通常具有更高的 样本效率 (sample efficiency),因为它能重复利用经验数据。

    • SAC (Soft Actor-Critic): 一种 离策略强化学习 (off-policy RL) 算法,它通过最大化预期奖励和 (entropy) 的组合来学习。最大化 (entropy) 鼓励 策略 (policy) 进行更多探索,并对 策略 (policy`的随机性进行正则化。
    • TD3 (Twin Delayed DDPG): 另一种 离策略强化学习 (off-policy RL) 算法,旨在通过以下方式解决 DDPG (Deep Deterministic Policy Gradient) 中的 Q值 (Q-value) 过高估计问题:
      1. 使用两个 评论家网络 (critic networks) 并取其较小值来估计 Q值 (Q-value)。
      2. 延迟 策略网络 (policy network) 和目标 网络 (network) 的更新。
      3. 对目标 策略 (policy) 动作 (action) 添加噪声以平滑 Q值 (Q-value) 估计。
  • 在策略强化学习 (On-Policy Reinforcement Learning):智能体 (agent) 只能从其当前正在执行的 策略 (policy) 生成的数据中学习的 强化学习 (RL) 方法。一旦 策略 (policy) 更新,旧数据通常就会被丢弃,因此 样本效率 (sample efficiency) 相对较低。

    • PPO (Proximal Policy Optimization): 一种流行的 在策略强化学习 (on-policy RL) 算法,以其实现简单、训练稳定和良好的性能而闻名。它通过限制 策略 (policy) 在每次更新时的变化量来确保训练稳定性。
  • 领域随机化 (Domain Randomization): 一种 模拟到真实 (sim-to-real) 迁移技术,通过在仿真环境中随机化各种参数(如物理属性、传感器噪声、纹理等),使得 强化学习 (RL) 训练出的 策略 (policy) 对这些变化具有鲁棒性,从而更容易泛化到真实世界。

  • 高维度 (High Dimensionality): 指的是问题中 状态空间 (state space) 或 动作空间 (action space) 的维数非常大。例如,一个具有多个关节的人形机器人,其 状态 (state) 可能包括所有关节的角度、角速度、机器人基座的位置和速度等,动作 (action) 则是控制每个关节的力矩或位置。高维度会指数级地增加 强化学习 (RL) 问题的复杂性。

  • 大规模并行仿真 (Massively Parallel Simulation): 指的是同时运行数千甚至更多个仿真环境,以并行生成大量的 智能体 (agent) 经验数据。这利用了现代 GPU (Graphics Processing Unit) 的并行计算能力,显著加速了 强化学习 (RL) 的数据收集和训练过程,从而缩短了 挂钟时间 (wall-clock time)。

  • 层归一化 (Layer Normalization, LN) (Ba et al., 2016): 是一种归一化技术,与批归一化 (Batch Normalization) 不同,它对单个训练样本的所有特征进行归一化,而不是对一个批次 (batch) 中所有样本的单个特征进行归一化。这使得它在批次大小较小或 循环神经网络 (Recurrent Neural Networks, RNN) 等序列模型中表现更稳定。其计算公式如下: y=xE[x]Var[x]+ϵγ+β y = \frac{x - \mathrm{E}[x]}{\sqrt{\mathrm{Var}[x] + \epsilon}} \cdot \gamma + \beta 其中:

    • xx 是输入特征向量。
    • E[x]\mathrm{E}[x]xx 中所有元素的均值。
    • Var[x]\mathrm{Var}[x]xx 中所有元素的方差。
    • ϵ\epsilon 是一个很小的常数,用于数值稳定性。
    • γ\gammaβ\beta 是可学习的缩放因子和偏移参数,用于恢复网络的表达能力。
  • 折扣因子 (Discount Factor, γ\gamma):强化学习 (RL) 中,用于衡量未来奖励相对于当前奖励的重要性。它的值介于0和1之间。

    • γ\gamma 接近0意味着 智能体 (agent) 更关注即时奖励。
    • γ\gamma 接近1意味着 智能体 (agent) 更关注长期奖励。
  • 分布评论家 (Distributional Critic) (Bellemare et al., 2017): 传统的 强化学习 (RL) 评论家 (critic) 估计的是 Q值 (Q-value) 的期望值,而 分布评论家 (distributional critic) 学习的是 Q值 (Q-value) 的整个分布。这可以提供更丰富的信息,有助于 智能体 (agent) 做出更好的决策。C51分布强化学习 (distributional RL) 的一个早期算法,它将 Q值 (Q-value) 分布离散化为51个 原子 (atoms)。

  • 最大熵学习 (Maximum Entropy Learning):强化学习 (RL) 中,除了最大化累积奖励外,还鼓励 策略 (policy) 最大化其 (entropy)。这意味着 智能体 (agent) 会倾向于选择更随机的 动作 (action),从而促进探索,并可能学习到更鲁棒和多样的行为。SAC 算法就采用了 最大熵学习 (maximum entropy learning)。

  • Adam 优化器 (Kingma & Ba, 2015): 一种自适应学习率的优化算法,结合了 AdaGradRMSProp 的优点,通过计算梯度的一阶矩估计(均值)和二阶矩估计(非中心方差)来自适应地调整每个参数的学习率。

3.2. 前人工作

  1. 大规模并行仿真框架: 早期工作主要依赖于 CPU (Central Processing Unit) 进行并行化 (Heess et al., 2017; Akkaya et al., 2019; Stooke & Abbeel, 2018; Espeholt et al., 2018; Radosavovic et al., 2024)。近年来,GPU (Graphics Processing Unit) 加速的并行仿真环境被提出 (Liang et al., 2018; Makoviychuk et al., 2021; Mittal et al., 2023; Authors, 2024; Zakka et al., 2025),将环境吞吐量提高到数千个,从而推动了机器人控制的许多成功案例 (Rudin et al., 2022; Agarwal et al., 2023; Cheng et al., 2024; Singh et al., 2024; Zhuang et al., 2024; Li et al., 2025; He et al., 2025b,a)。本文的工作正是建立在这一趋势之上,将大规模并行仿真与 离策略强化学习 (off-policy RL) 相结合。

  2. 模拟到真实 (Sim-to-Real) 强化学习 (RL) 算法:

    • PPO (Proximal Policy Optimization): 长期以来一直是 模拟到真实 (sim-to-real) 强化学习 (RL) 的事实标准 (de-facto standard),因其易于扩展到大规模并行环境而受到广泛支持 (Makoviychuk et al., 2021; Mittal et al., 2023; Zakka et al., 2025; Schwarke et al., 2025)。
    • 离策略强化学习 (Off-Policy RL) 的兴起: 最近的研究开始表明 离策略强化学习 (off-policy RL) 方法也能在大规模训练中有效扩展 (Li et al., 2023; Raffin, 2025; Shukla, 2025; Seo et al., 2025)。Seoetal.(2025)Seo et al. (2025) 首次报道了使用 FastTD3TD3 的一个高效变体)训练的人形机器人控制 策略 (policy) 的 模拟到真实 (sim-to-real) 部署,但其结果仅限于控制部分关节的人形机器人。
  3. 人形机器人 奖励设计 (Reward Design): 传统上依赖于复杂的 奖励塑形 (reward shaping),通常涉及20多个项 (Mittal et al., 2023; Lab, 2025)。然而,也有一些近期工作开始尝试使用更简单的奖励函数来产生鲁棒和自然的行为 (Zakka et al., 2025; Liao et al., 2025)。

3.3. 技术演进

该领域的技术演进主要体现在从 CPU (Central Processing Unit) 为主的并行仿真到 GPU (Graphics Processing Unit) 为主的大规模并行仿真,极大地提高了 强化学习 (RL) 的数据吞吐量。在算法层面,传统的 模拟到真实 (sim-to-real) 方法多采用 在策略强化学习 (on-policy RL) 算法如 PPO,因为它易于与并行仿真结合。然而,随着 离策略强化学习 (off-policy RL) 算法(如 SACTD3)在大规模并行环境下的稳定性和效率得到提升,研究人员开始探索其在 模拟到真实 (sim-to-real) 场景中的潜力。本文的工作正是这一演进的最新进展,将 FastSACFastTD3 这样的高效 离策略强化学习 (off-policy RL) 算法推广到全关节人形机器人的复杂控制任务中,并解决了此前 FastSAC 在此背景下存在的训练不稳定性问题。

3.4. 差异化分析

本文的工作与相关工作的核心区别和创新点在于:

  1. 全关节人形机器人控制的 离策略强化学习 (Off-Policy RL) 突破: 尽管 Seoetal.(2025)Seo et al. (2025) 首次实现了 FastTD3 控制人形机器人的 模拟到真实 (sim-to-real) 部署,但其范围仅限于控制部分关节。本文成功将 FastSACFastTD3 扩展到全关节人形机器人的运动控制(包括全身运动跟踪),这在 离策略强化学习 (off-policy RL) 领域是一个显著的进步。
  2. 解决 FastSAC 训练不稳定性: FastSAC 在早期人形机器人控制应用中曾出现训练不稳定的问题。本文通过精心调优的超参数和设计选择(如 层归一化、禁用 CDQ、调整探索和优化超参数)解决了这一问题,使其在复杂任务中变得稳定且高效。
  3. 极简奖励设计理念: 与许多依赖20多个奖励项的复杂 奖励塑形 (reward shaping) 工作不同,本文采用了极简主义的奖励函数(少于10个项),通过精简的奖励设计仍然实现了鲁棒和自然的机器人行为,极大地简化了超参数调优和 模拟到真实 (sim-to-real) 迭代。
  4. 极速 模拟到真实 (Sim-to-Real) 迭代: 结合上述创新点,本文将全功能人形机器人在强 领域随机化 (domain randomization) 下的 模拟到真实 (sim-to-real) 训练时间缩短至15分钟,显著优于传统的 在策略强化学习 (on-policy RL) 算法 PPO,在 挂钟时间 (wall-clock time) 上实现了行业领先的速度。

4. 方法论

本文的核心方法是基于 离策略强化学习 (off-policy RL) 算法 FastSACFastTD3,通过一系列精心调整的设计选择和极简主义的奖励函数,实现在大规模并行仿真下人形机器人控制策略的快速训练和 模拟到真实 (sim-to-real) 部署。

4.1. 方法原理

大规模并行仿真 (Massively parallel simulation) 能够极大地提高 强化学习 (RL) 的数据收集效率,但要充分利用这一优势,需要 强化学习 (RL) 算法本身也具有高 样本效率 (sample efficiency) 和在大规模环境下的稳定性。离策略强化学习 (off-policy RL) 算法,如 SACTD3,由于能够重复利用从环境中收集到的经验数据,因此在 样本效率 (sample efficiency) 上通常优于 在策略强化学习 (on-policy RL) 算法(如 PPO)。

然而,将 离策略强化学习 (off-policy RL) 算法扩展到 高维度 (high-dimensional) 人形机器人控制任务,并在数千个并行环境中稳定训练,面临着特有的挑战,例如:

  1. 策略 (policy) 探索的稳定性。

  2. Q值 (Q-value) 估计的准确性。

  3. 超参数调优的复杂性。

    本文的 配方 (recipe) 正是为了解决这些问题,通过以下核心思想实现快速、鲁棒的训练:

  • 优化 离策略强化学习 (off-policy RL) 算法的稳定性与效率: 引入 FastSACFastTD3 的特定改进,使其能够更好地处理大规模数据和 高维度 (high-dimensional) 控制任务。
  • 简化 奖励设计 (Reward Design): 采用极简主义的奖励函数,减少 奖励塑形 (reward shaping) 的复杂性,从而加速超参数调优并提高 策略 (policy) 的鲁棒性。
  • 领域随机化 (Domain Randomization): 结合各种 领域随机化 (domain randomization) 技术,使训练出的 策略 (policy) 能够有效迁移到真实世界。

4.2. 核心方法详解 (逐层深入)

4.2.1. FastSAC 和 FastTD3:人形机器人控制的离策略强化学习

本文的 配方 (recipe) 基于 FastTD3FastSAC(Seo et al., 2025),这是流行的 离策略强化学习 (off-policy RL) 算法 SAC (Soft Actor-Critic) 和 TD3 的高效变体,专门针对大规模并行仿真进行了优化。离策略算法 (off-policy algorithms) 可以通过有效重用仿真数据来加速训练,而 在策略算法 (on-policy algorithms) 如 PPO 通常在每次 策略 (policy) 更新后丢弃旧数据。

大规模并行仿真下离策略强化学习的扩展: 作者观察到,增加环境数量对挑战性的全身跟踪任务(参见原文 Figure 2f)特别有效。此外,Seoetal.(2025)Seo et al. (2025) 中关于 离策略强化学习 (off-policy RL) 扩展的大部分观察也适用于全身人形机器人控制,例如:

  • 大批次大小 (Large Batch Size): 使用高达 8K 的大批次大小 (batch size) 可以持续提高性能。

  • 更多梯度步 (More Gradient Steps): 通常,每个仿真步 (simulation step) 采取更多的梯度步 (gradient steps) 会导致更快的训练。

  • 仿真速度瓶颈 (Simulation Speed Bottleneck): 在非平坦地形等更具挑战性的设置中训练机器人时,慢速仿真往往成为瓶颈。这使得能够重用先前交互数据的 离策略强化学习 (off-policy RL) 成为快速训练的更具吸引力的选择。

    尽管论文中未给出完整的 FastSAC/FastTD3 算法伪代码,但提供了一个通用的 离策略强化学习 (off-policy RL) 训练循环示例,这与 SACTD3 等算法的结构一致。这个循环描述了 智能体 (agent) 如何与环境交互,收集经验,并使用这些经验来更新 策略 (policy) 和 Q值函数 (Q-value function)。

1:Initializeactorπθ,twocriticsQφ1,Qφ2,entropytemperatureα,replaybufferB2:3:foreachenvironmentstepdo4:Samplea πθ(o)giventhecurrentobservationo,andtakeactiona5:Observenextstateoandrewardr6:Storetransitionτ=(o,a,o,r)inreplaybufferBBτ7:forj=1tonumupdatesdo8:SampleminibatchB=τkk=1BfromB 1: Initialize actor πθ, two critics Qφ1, Qφ2, entropy temperature α, replay buffer B 2: 3: for each environment step do 4: Sample a ~ πθ(o) given the current observation o, and take action a 5: Observe next state o' and reward r' 6: Store transition τ = (o, a, o′, r′) in replay buffer B ← B ∪ {τ } 7: for j = 1 to num_updates do 8: Sample mini-batch B = {τk}k=1 |B| from B 上述伪代码描述了一个典型的 离策略强化学习 (off-policy RL) 训练循环,其步骤和符号解释如下:

  • 第1行: 初始化 策略网络 (actor network) πθ\pi_\theta、两个 Q值网络 (critic networks) Qϕ1Q_{\phi_1}Qϕ2Q_{\phi_2}熵温度 (entropy temperature) α\alpha 以及 回放缓冲区 (replay buffer) BB

    • πθ\pi_\theta: 智能体 (agent) 的 策略 (policy) 网络 (network),由参数 θ\theta 定义,用于从 观测 (observation) oo 生成 动作 (action) aa
    • Qϕ1Q_{\phi_1}, Qϕ2Q_{\phi_2}: 两个 评论家网络 (critic networks),由参数 ϕ1\phi_1ϕ2\phi_2 定义,用于估计 状态-动作对 (state-action pair) 的 Q值 (Q-value)。使用两个 评论家 (critic) 是 TD3SAC 的常见做法,旨在减少 Q值 (Q-value) 的过高估计。
    • α\alpha: 熵温度 (entropy temperature) 参数,用于平衡 SAC奖励 (reward) 最大化和 (entropy) 最大化之间的关系。
    • BB: 回放缓冲区 (replay buffer),用于存储 智能体 (agent) 与环境交互的历史 转换 (transition) τ=(o,a,o,r)\tau = (o, a, o', r')
  • 第3行: 训练循环的外部循环,表示在每个环境步中执行的操作。

  • 第4行: 根据当前 观测 (observation) oo,从 策略 (policy) πθ(o)\pi_\theta(o) 中采样一个 动作 (action) aa,并执行该 动作 (action)。

  • 第5行: 观察环境返回的下一个 状态 (next state) oo'奖励 (reward) rr'

  • 第6行: 将当前 转换 (transition) τ=(o,a,o,r)\tau = (o, a, o', r') 存储到 回放缓冲区 (replay buffer) BB 中。离策略强化学习 (off-policy RL) 能够重复利用这个缓冲区中的数据进行学习。

  • 第7行: 训练循环的内部循环,表示在每个环境步之后执行 num_updates 次模型更新。

  • 第8行:回放缓冲区 (replay buffer) BB 中采样一个大小为 B|B|小批量 (mini-batch) 数据 τk{ \tau_k }. 小批量 (mini-batch) 数据用于 策略网络 (actor network) 和 评论家网络 (critic network) 的梯度更新。

    接下来,论文详细阐述了用于稳定和优化 FastSACFastTD3 的具体技术。

4.2.2. 关节限位感知动作边界 (Joint-limit-aware action bounds)

  • 问题: SACTD3离策略强化学习 (off-policy RL) 算法的一个挑战是为其 Tanh 策略 (policy) 设置合适的 动作边界 (action bounds)。Raffin (2025) 观察到在无边界 动作空间 (unbounded action space) 中训练通常会导致不稳定。
  • 解决方案: 引入一种简单技术,根据机器人使用 PD控制器 (PD controllers) 时的 关节限制 (joint limits) 来设置 动作边界 (action bounds)。具体来说,计算每个关节的 限制 (limit) 与其 默认位置 (default position) 之间的差异,并将其用作每个关节的 动作边界 (action bound)。这种方法有效地减少了为训练 FastSACFastTD3 而调优 动作边界 (action bounds) 的需要。

4.2.3. 观测归一化 (Observation and Layer normalization)

  • Seoetal.(2025)Seo et al. (2025) 类似,作者发现 观测归一化 (observation normalization) 对于训练是有益的。
  • Seoetal.(2025)Seo et al. (2025) 不同,作者发现 层归一化 (Layer Normalization, LN) (Ba et al., 2016) 有助于稳定 高维度 (high-dimensional) 任务中的性能(参见原文 Figure 2c)。这与之前发现 层归一化 (Layer Normalization) 有助于在挑战性基准任务中训练 SAC智能体 (SAC agents) 的观察 (Ball et al., 2023; Nauman et al., 2024) 相符。

4.2.4. 评论家学习超参数 (Critic Learning Hyperparameters)

  • Q值 (Q-value) 估计: 作者发现使用 Q值 (Q-value) 的平均值比使用 裁剪双Q学习 (Clipped Double Q-learning, CDQ) (Fujimoto et al., 2018)(该方法使用最小值)更能改善 FastSACFastTD3 的性能(参见原文 Figure 2a)。这与 Nauman et al. (2024) 的观察一致,后者表明当 CDQ层归一化 (Layer Normalization) 一起使用时是有害的。

    • 裁剪双Q学习 (Clipped Double Q-learning, CDQ): 这是 TD3 算法中的一个关键组成部分,其目的是通过使用两个 Q值函数 (Q-value functions) 的最小值来估计目标 Q值 (Q-value),从而防止 Q值 (Q-value) 的过高估计。TD3 的目标 Q值 (Q-value) yy 通常计算如下: y=r+γmin(Qϕ1(s,a),Qϕ2(s,a)) y = r + \gamma \min(Q_{\phi_1}'(s', a'), Q_{\phi_2}'(s', a')) 其中:
      • rr 是当前 奖励 (reward)。
      • γ\gamma折扣因子 (discount factor)。
      • Qϕ1Q_{\phi_1}'Qϕ2Q_{\phi_2}' 是目标 Q值网络 (target Q-networks)。
      • ss' 是下一个 状态 (next state)。
      • aa' 是由目标 策略网络 (target policy network) 生成的 动作 (action),通常添加了噪声以增加探索。 本文发现简单地使用两个 Q值 (Q-value) 的平均值 Qϕ1(s,a)+Qϕ2(s,a)2\frac{Q_{\phi_1}'(s', a') + Q_{\phi_2}'(s', a')}{2} 效果更好,尤其是在结合 层归一化 (Layer Normalization) 的情况下。
  • 折扣因子 (Discount Factor) γ\gamma 发现较低的 折扣因子 γ=0.97\gamma = 0.97 对于简单的 速度跟踪 (velocity tracking) 任务有益(参见原文 Figure 2d),而 γ=0.99\gamma = 0.99 对于挑战性的 全身跟踪 (whole-body tracking) 任务有益(参见原文 Figure 2e)。

  • 分布评论家 (Distributional Critic): 遵循先前的工作 (Li et al., 2023; Seo et al., 2025),作者使用 分布评论家 (distributional critic),即 C51 (Bellemare et al., 2017)。发现使用 分位数回归 (quantile regression) (Dabney et al., 2018) 的 分布评论家 (distributional critic) 在大批次训练中成本过高。

4.2.5. FastSAC:探索超参数 (Exploration Hyperparameters)

  • Pre-tanh 动作 (Pre-tanh actions) 的 标准差 (Standard Deviation) σ\sigma 广泛使用的 SAC 实现将 pre-tanh 动作 (pre-tanh actions) 的 标准差 (standard deviation) σ\sigma 限制为 e2e^2 (Huang et al., 2022)。然而,作者发现,当与较大的初始 温度 (temperature) α\alpha 值结合时,这有时会导致由于过度探索而引起的不稳定性。因此,作者将最大 σ\sigma 设置为 1.0,并将 α\alpha 初始化为较低值 0.001
  • 最大熵学习 (Maximum Entropy Learning) 的 自适应调整 (Auto-tuning): 发现使用 最大熵学习 (maximum entropy learning) 的 自适应调整 (auto-tuning) 机制 (Haarnoja et al., 2018b) 始终优于使用固定 α\alpha 值。
    • 熵温度 (Entropy Temperature) α\alpha自适应调整 (Auto-tuning):SAC 中,熵温度 α\alpha 控制着 策略 (policy) 随机性的重要性。自适应调整 通常通过梯度下降来更新 α\alpha,目标是使 策略 (policy) 的 (entropy) 接近一个预设的 目标熵 (target entropy) H0H_0损失函数 (loss function) 形式为: L(α)=α(logπ(as)H0) L(\alpha) = \alpha \left( \log \pi(a|s) - H_0 \right) 其中:
      • logπ(as)\log \pi(a|s)策略 (policy) 的 对数概率 (log-probability),通常作为 (entropy) 的代理。
      • H0H_0目标熵 (target entropy),一个超参数,定义了期望的 策略 (policy) 随机性水平。 通过优化此 损失函数 (loss function),智能体 (agent) 可以自动学习适合任务的 探索 (exploration) 强度。
  • 目标熵 (Target Entropy): 对于 运动控制任务 (locomotion tasks),目标熵 (target entropy) 为 0.0 效果最好;对于 全身跟踪任务 (whole-body tracking tasks),则为 Aˉ/2-|\bar{\mathcal{A}}|/2 (其中 Aˉ|\bar{\mathcal{A}}|动作空间 (action space) 的维度)。

4.2.6. FastTD3:探索超参数 (Exploration Hyperparameters)

  • 遵循先前的工作 (Li et al., 2023; Seo et al., 2025),作者使用 混合噪声调度 (mixed noise schedule),即从范围 [σmin,σmax][\sigma_{min}, \sigma_{max}] 中随机采样 高斯噪声 (Gaussian noise) 标准差 (standard deviation)。
  • 发现使用低值,即 (σmin,σmax)=(0.01,0.05)(\sigma_{min}, \sigma_{max}) = (0.01, 0.05),表现最佳。

4.2.7. 优化超参数 (Optimization Hyperparameters)

  • Adam 优化器 (Kingma & Ba, 2015): 使用学习率为 0.0003Adam 优化器来训练 FastSACFastTD3
  • 权重衰减 (Weight Decay): Seoetal.(2025)Seo et al. (2025) 使用的 权重衰减 (weight decay) 0.1 对于 高维度控制任务 (high-dimensional control tasks) 来说正则化 (regularization) 过强,因此作者使用 权重衰减 (weight decay) 0.001
  • Adamβ2\beta_2 参数: 类似于 Zhai et al. (2023) 中使用较低的 Adam β2\beta_2 值可以稳定大批次训练的观察,作者发现使用 β2=0.95\beta_2 = 0.95 相比于 β2=0.99\beta_2 = 0.99 略微提高了稳定性。
    • Adam 优化器: 是一种自适应学习率优化算法。它的更新规则涉及梯度的一阶矩(均值,由 β1\beta_1 控制)和二阶矩(非中心方差,由 β2\beta_2 控制)的指数移动平均。 mt=β1mt1+(1β1)gtvt=β2vt1+(1β2)gt2m^t=mt/(1β1t)v^t=vt/(1β2t)θt+1=θtηv^t+ϵm^t m_t = \beta_1 m_{t-1} + (1 - \beta_1) g_t \\ v_t = \beta_2 v_{t-1} + (1 - \beta_2) g_t^2 \\ \hat{m}_t = m_t / (1 - \beta_1^t) \\ \hat{v}_t = v_t / (1 - \beta_2^t) \\ \theta_{t+1} = \theta_t - \frac{\eta}{\sqrt{\hat{v}_t} + \epsilon} \hat{m}_t 其中:
      • gtg_t 是当前步的梯度。
      • mtm_tvtv_t 分别是梯度的一阶矩和二阶矩的指数移动平均。
      • m^t\hat{m}_tv^t\hat{v}_t 是偏差校正后的估计。
      • β1\beta_1β2\beta_2 是衰减率,通常设置为 0.90.999
      • η\eta 是学习率。
      • θt\theta_t 是模型参数。
      • ϵ\epsilon 是一个很小的常数,防止除以零。 作者将 Adamβ2\beta_2 从默认的 0.999 调整为 0.95,这意味着二阶矩估计的衰减速度变慢,过去梯度的平方信息在更新中占据更小的权重,有助于稳定训练。

4.2.8. 额外技术的说明

作者指出,预计近期 离策略强化学习 (off-policy RL) 的进步 (D'Oro et al., 2023; Schwarzer et al., 2023; Nauman et al., 2024; Lee et al., 2024; Sukhija et al., 2025; Lee et al., 2025; Obando-Ceron et al., 2025) 将有助于进一步提高 FastSACFastTD3 的性能和稳定性。然而,本文旨在尽可能保持 配方 (recipe) 的简单性,并期望研究社区在此基础上进一步推进 最先进水平 (state-of-the-art)。

4.2.9. 简单奖励设计 (Simple Reward Design)

传统上,人形机器人 运动控制 (locomotion) 和 全身控制 (whole-body control) 的 奖励设计 (reward design) 严重依赖于复杂的 奖励塑形 (reward shaping),通常包含20多个项 (Mittal et al., 2023; Lab, 2025),例如运动学量跟踪奖励、详细姿态正则化器、关节配置惩罚、落脚点约束以及严格规定机器人如何移动的 塑形项 (shaping terms)。这种复杂性使得超参数调优变得困难,并常常导致脆弱的 策略优化 (policy optimization)。

受最近依赖更简单奖励函数的工作 (Zakka et al., 2025; Liao et al., 2025) 启发,作者证明了通过实质上更简单的目标(少于10个项)可以实现鲁棒和自然的机器人行为。作者秉持 极简奖励 (minimalist reward) 理念,只有在绝对必要时才添加奖励项,并力求在不同算法和机器人之间使用几乎相同的奖励集。目标不是强制特定的运动风格,而是为鲁棒的 运动控制 (locomotion) 和 全身控制 (whole-body control) 提供足够的结构,同时保留行为的丰富性。更少的奖励项还简化了超参数调优,这对于 模拟到真实 (sim-to-real) 迭代至关重要。

4.2.9.1. 运动控制 (Locomotion) (速度跟踪 (Velocity Tracking)) 奖励

作者使用一套简洁的奖励项,仅涵盖了实现稳定人形步态从仿真 迁移 (transfer) 到真实世界所需的基本组件 (essential components):

  • 线速度和角速度跟踪奖励 (Linear and Angular Velocity Tracking Rewards): 鼓励人形机器人遵循指令的 x-y 速度和 偏航率 (yaw rate)。这是 涌现运动 (emergent locomotion) 的主要驱动力。

  • 简单脚高跟踪项 (Simple Foot-height Tracking Term) (Zakka et al., 2025; Shao et al., 2022): 引导 摆动运动 (swing motion)。

  • 默认姿态惩罚 (Default-pose Penalty): 避免极端的关节配置。

  • 脚部惩罚 (Feet Penalties): 鼓励脚部保持平行的相对方向,防止脚部交叉。

  • 每步存活奖励 (Per-step Alive Reward): 鼓励机器人保持有效、未跌倒的状态。

  • 躯干稳定直立方向惩罚 (Penalties that Keep the Torso Near a Stable Upright Orientation): 保持躯干接近稳定的直立方向。

  • 动作率惩罚 (Penalty on the Action Rate): 平滑控制输出。

  • 终止条件 (Termination Condition): 当躯干或其他非脚部身体部位接触地面时,情节 (episode) 终止。

  • 对称性增强 (Symmetry Augmentation) (Mittal et al., 2024): 用于鼓励对称的行走模式,这也被发现有助于加快收敛。

  • 课程学习 (Curriculum Learning) (Lab, 2025): 所有上述惩罚都遵循一个 课程 (curriculum),随着 情节长度 (episode length) 的增加,其权重在训练过程中逐渐增加,这大大简化了探索。

    作者发现这些项足以在崎岖地形、随机动力学和外部扰动下,无需大量 奖励塑形 (reward shaping) 或其他精心调优的启发式方法,就能产生鲁棒的 运动控制 (locomotion),并且适用于多种机器人(G1T1)和算法(FastSACFastTD3PPO)。

4.2.9.2. 全身跟踪 (Whole-body Tracking) 奖励

对于 全身跟踪 (whole-body tracking),作者遵循 BeyondMimic (Liao et al., 2025) 中引入的奖励结构,该结构本身就遵循 极简主义原则 (minimalist principles)。这些奖励围绕着跟踪目标与轻量级正则化相结合,以及 DeepMimic 风格的 终止条件 (termination conditions) (Peng et et al., 2018a) 构建。作者还发现,以 速度推力 (velocity pushes) 形式引入外部干扰可以进一步增强 模拟到真实 (sim-to-real) 性能的鲁棒性。

5. 实验设置

5.1. 数据集

本文的实验没有使用传统意义上的预定义数据集,而是通过 大规模并行仿真 (massively parallel simulation) 动态生成与 Unitree G1Booster T1 人形机器人交互的经验数据。

  • 运动控制 (Locomotion) 任务:
    • 环境设置: 训练机器人以最大化 奖励 (reward) 总和,使其达到目标 线速度 (linear velocity) 和 角速度 (angular velocity),同时最小化一系列 惩罚项 (penalty terms)。
    • 目标速度采样: 在整个训练过程中,每10秒随机采样一次目标 速度指令 (velocity commands)。在采样目标指令时,以20%的概率随机将目标速度设置为零,以便机器人学习站立而不是持续行走。
    • 地形: 除非另有说明,所有机器人都训练在 平坦 (flat) 和 崎岖地形 (rough terrains) 的混合环境中,这有助于稳定机器人在 模拟到真实 (sim-to-real) 部署中的行走。
    • 领域随机化 (Domain Randomization): 为进一步增强 模拟到真实 (sim-to-real) 部署的鲁棒性,应用了各种 领域随机化 (domain randomization) 技术,包括:
      • 推力扰动 (push perturbations):随机施加推力。
      • 动作延迟 (action delay):模拟真实的控制延迟。
      • PD增益随机化 (PD-gain randomization):随机化 PD控制器 (PD controller) 的增益参数。
      • 质量随机化 (mass randomization):随机化机器人各部分的质量。
      • 摩擦随机化 (friction randomization):随机化环境中的摩擦系数。
      • 质心随机化 (center of mass randomization):仅对 G1 机器人随机化 质心 (center of mass)。
  • 全身跟踪 (Whole-Body Tracking) 任务:
    • 环境设置: 训练 强化学习 (RL) 策略 (policy) 以最大化 奖励 (reward) 总和,遵循 BeyondMimic (Liao et al., 2025) 的奖励结构。
    • 运动片段采样: 在整个训练过程中,为每个 情节 (episode) 随机采样运动片段。
    • 领域随机化 (Domain Randomization):BeyondMimic 尽量减少 领域随机化 (domain randomization) 不同,本文发现使用各种 领域随机化 (domain randomization) 技术能稳定部署时的行为。具体包括:
      • 摩擦 (friction)。
      • 质心 (center of mass)。
      • 关节位置偏差 (joint position bias)。
      • 身体质量 (body mass)。
      • PD增益 (PD gains)。
      • 推力扰动 (push perturbations)。

5.2. 评估指标

本文使用了以下评估指标来衡量 强化学习 (RL) 策略 (policy) 的性能:

  1. 线性速度跟踪奖励 (Linear Velocity Tracking Reward):

    • 概念定义: 线性速度跟踪奖励 (linear velocity tracking reward) 量化了机器人的实际 线速度 (linear velocity) 与目标 线速度 (linear velocity) 之间的匹配程度。它旨在评估机器人实现指定移动速度目标的能力,是 运动控制 (locomotion) 任务中的核心指标,奖励通常在机器人实际速度与目标速度接近时给予,并在两者偏离时施加惩罚。
    • 数学公式: 虽然论文未直接给出 线性速度跟踪奖励 的精确数学公式,但在 强化学习 (RL) 运动控制 (locomotion) 任务中,这类奖励通常被设计为目标速度与实际速度之间误差的负平方,或者负 L2范数 (L2 norm),可能结合一个 高斯核 (Gaussian kernel) 来平滑奖励。一种常见的形式是: Rlin_vel=exp(wlin_velvrobotvtarget22) R_{\text{lin\_vel}} = \exp\left( -w_{\text{lin\_vel}} \cdot \|v_{\text{robot}} - v_{\text{target}}\|_2^2 \right) 或更简单的负误差形式: Rlin_vel=wlin_velvrobotvtarget22 R_{\text{lin\_vel}} = -w_{\text{lin\_vel}} \cdot \|v_{\text{robot}} - v_{\text{target}}\|_2^2
    • 符号解释:
      • Rlin_velR_{\text{lin\_vel}}线性速度跟踪奖励
      • wlin_velw_{\text{lin\_vel}}线性速度跟踪 的权重因子,用于调节奖励的强度。
      • vrobotv_{\text{robot}}:机器人当前实际的 线速度向量
      • vtargetv_{\text{target}}:机器人被指令需要达到的目标 线速度向量
      • 22\|\cdot\|_2^2L2范数 (L2 norm) 的平方,表示两个向量欧氏距离的平方。
  2. 角速度跟踪奖励 (Angular Velocity Tracking Reward):

    • 概念定义: 角速度跟踪奖励 (angular velocity tracking reward) 衡量了机器人的实际 角速度 (angular velocity)(特别是 偏航率 (yaw rate))与目标 角速度 (angular velocity) 的匹配程度。它评估了机器人转动和方向控制的能力,与 线性速度跟踪 奖励共同构成 运动控制 (locomotion) 的核心目标。
    • 数学公式: 类似于 线性速度跟踪奖励,其一般形式可以表示为: Rang_vel=exp(wang_velωrobotωtarget22) R_{\text{ang\_vel}} = \exp\left( -w_{\text{ang\_vel}} \cdot \|\omega_{\text{robot}} - \omega_{\text{target}}\|_2^2 \right) 或: Rang_vel=wang_velωrobotωtarget22 R_{\text{ang\_vel}} = -w_{\text{ang\_vel}} \cdot \|\omega_{\text{robot}} - \omega_{\text{target}}\|_2^2
    • 符号解释:
      • Rang_velR_{\text{ang\_vel}}角速度跟踪奖励
      • wang_velw_{\text{ang\_vel}}角速度跟踪 的权重因子。
      • ωrobot\omega_{\text{robot}}:机器人当前实际的 角速度向量(通常指 偏航角速度 (yaw angular velocity))。
      • ωtarget\omega_{\text{target}}:机器人被指令需要达到的目标 角速度向量
  3. 跟踪奖励总和 (Sum of Tracking Rewards):

    • 概念定义:全身跟踪 (whole-body tracking) 任务中,通常会定义一系列 跟踪奖励 (tracking rewards),以鼓励机器人模仿参考运动。这些奖励可以包括 关节位置跟踪关节速度跟踪末端执行器位置跟踪 等。跟踪奖励总和 就是这些单独 跟踪奖励 的累加值,用于衡量机器人整体模仿人类运动的准确性和流畅性。
    • 数学公式: 跟踪奖励总和 Rtotal_trackingR_{\text{total\_tracking}} 可以表示为各个 跟踪奖励 项的加权和: Rtotal_tracking=iwiRi(robot_state,target_motion) R_{\text{total\_tracking}} = \sum_{i} w_i R_i(\text{robot\_state}, \text{target\_motion}) 其中,RiR_i 可以是针对特定运动学量(如关节角度、末端执行器位置)的 负L2范数 误差奖励: Ri=wposerobot_poseitarget_posei22wvelrobot_velitarget_veli22 R_i = -w_{\text{pose}} \cdot \|\text{robot\_pose}_i - \text{target\_pose}_i\|_2^2 - w_{\text{vel}} \cdot \|\text{robot\_vel}_i - \text{target\_vel}_i\|_2^2
    • 符号解释:
      • Rtotal_trackingR_{\text{total\_tracking}}跟踪奖励 的总和。
      • wiw_i:第 ii跟踪奖励 项的权重。
      • Ri(robot_state,target_motion)R_i(\text{robot\_state}, \text{target\_motion}):第 ii跟踪奖励 项,根据机器人当前 状态 (state) 和目标运动计算。
      • wposew_{\text{pose}}:姿态跟踪的权重。
      • robot_posei\text{robot\_pose}_itarget_posei\text{target\_pose}_i:机器人第 ii 个关节或身体部位的实际和目标姿态。
      • wvelw_{\text{vel}}:速度跟踪的权重。
      • robot_veli\text{robot\_vel}_itarget_veli\text{target\_vel}_i:机器人第 ii 个关节或身体部位的实际和目标速度。
  4. 挂钟时间 (Wall-Clock Time):

    • 概念定义: 挂钟时间 (wall-clock time) 是指从训练开始到训练结束所经过的实际时间长度,而不是 CPU (Central Processing Unit) 或 GPU (Graphics Processing Unit) 计算时间的总和。它是衡量 强化学习 (RL) 训练效率的关键指标,尤其是在 大规模并行仿真 (massively parallel simulation) 环境中,目标是尽可能缩短这个时间以加速研发周期。
    • 数学公式: 无特定数学公式,通常以分钟或小时为单位直接测量。
    • 符号解释: 无。

5.3. 对比基线

本文将自己的 FastSACFastTD3 方法与 PPO (Proximal Policy Optimization) 进行了比较。

  • PPO (Proximal Policy Optimization) (Schulman et al., 2017): 是一种 在策略强化学习 (on-policy RL) 算法,因其实现简单、训练稳定和在机器人控制任务中表现良好而成为 模拟到真实 (sim-to-real) 强化学习 (RL) 的 事实标准 (de-facto standard)。PPO 在大规模并行仿真环境中易于扩展,因此是评估新型高效 强化学习 (RL) 方法性能的具有代表性的强基线。

5.4. 硬件设置

  • 运动控制 (Locomotion) 实验: 使用单个 RTX 4090 GPU
  • 全身跟踪 (Whole-Body Tracking) 实验: 使用 4×L40s4 \times \mathrm { L40s } GPU

6. 实验结果与分析

6.1. 核心结果分析

6.1.1. 运动控制 (速度跟踪) 结果

原文 Figure 3 展示了 FastSACFastTD3Unitree G1Booster T1 人形机器人 运动控制 (locomotion) 任务(速度跟踪 (velocity tracking))上的性能,并与 PPO 进行了比较。实验在强 领域随机化 (domain randomization) 条件下进行,包括 崎岖地形 (rough terrain) 和 Push-Strong 扰动 (perturbations)。

Figure 3: Locomotion (velocity tracking) results. FastSAC and FastTD3 enable fast training of G1 and T1 humanoid locomotion policies with strong domain randomization such as rough terrain or Push-Strong that applies push perturbations to humanoid robots every 1 to 3 seconds (max episode length is 20 seconds). For non-Push-Strong tasks, we apply push perturbations every 5 to 10 seconds. We use a single RTX 4090 GPU for all locomotion experiments.
该图像是图表,展示了G1和T1人形机器人在不同环境下(平面、粗糙地面及施加推力时)使用FastSAC、FastTD3和PPO算法进行速度跟踪的结果。每条曲线代表在每分钟内的线性速度,横坐标为时间(分钟),纵坐标为线性速度跟踪值。

原文 Figure 3运动控制 (速度跟踪) 结果。FastSACFastTD3 实现了 G1T1 人形机器人 运动控制 策略 (locomotion policies) 的快速训练,伴随着强 领域随机化 (domain randomization),如 崎岖地形 (rough terrain) 或每1到3秒对人形机器人施加推力扰动(Push-Strong,最大 情节长度 (episode length) 为20秒)。对于非 Push-Strong 任务,每5到10秒施加推力扰动。所有 运动控制 实验均使用单个 RTX 4090 GPU

分析:

  • 速度和效率优势: 从图表中可以清晰看出,FastSACFastTD3挂钟时间 (wall-clock time) 方面显著优于 PPO。在短短15分钟内,FastSACFastTD3 就能使 G1T1 机器人达到高水平的 线性速度跟踪奖励 (linear velocity tracking reward),而 PPO 在相同时间内表现不佳,甚至在某些情况下未能有效学习。这强有力地支持了论文关于 离策略强化学习 (off-policy RL) 在大规模并行仿真下实现快速训练的核心主张。
  • 鲁棒性: 实验在强 领域随机化 (domain randomization) 条件下进行,包括 崎岖地形 (rough terrain)、持续的 推力扰动 (push perturbations)(如 Push-Strong,每1-3秒一次)、动作延迟 (action delay) 和 质心随机化 (center of mass randomization) 等。FastSACFastTD3 在这些挑战性环境下依然能快速学习并达到高性能,表明它们能够训练出鲁棒的 策略 (policies),有助于 模拟到真实 (sim-to-real) 迁移。PPOPush-Strong 等强扰动下表现挣扎,进一步突显了 FastSACFastTD3 的优势。
  • FastSACFastTD3 的比较: 在一些 运动控制 (locomotion) 设置中,FastSAC 的性能略优于 FastTD3。论文推测这归因于 FastSAC 通过其 最大熵探索机制 (maximum entropy exploration scheme) 实现的更高效探索。

6.1.2. FastSAC 相较于先前配置的改进

原文 Figure 4 展示了本文提出的 FastSAC 配方 (recipe) 相较于之前版本 (Seo et al., 2025 配置) 的性能提升。

Figure 4: Improvement from our FastSAC recipe. While a version of FastSAC was previously considered as a baseline to FastTD3 (Seo et al., 2025) in the context of humanoid control, a straightforward implementation of FastSAC exhibited training instabilities. In this work, we have stabilized and improved FastSAC with a carefully tuned set of hyperparameters and design choices.
该图像是图表,展示了在G1和T1机器人上使用FastSAC和其先前配置在15分钟内的奖励和阶段长度改善情况。左上角和右上角分别显示G1的奖励和阶段长度,左下角和右下角显示T1的奖励和阶段长度。通过优化超参数,FastSAC显著提升了机器人的控制性能。

原文 Figure 4FastSAC 配方 的改进。虽然 FastSAC 的一个版本之前在人形机器人控制背景下被视为 FastTD3 (Seo et al., 2025) 的基线,但 FastSAC 的直接实现表现出训练不稳定性。在这项工作中,我们通过一套精心调优的超参数和设计选择,稳定并改进了 FastSAC

分析:

  • 解决不稳定性: 图表清晰地表明,本文的 FastSAC 配方 显著提高了 G1T1 机器人 运动控制 (locomotion) 任务的 奖励 (reward) 和 情节长度 (episode length),克服了先前版本存在的训练不稳定性。在 G1T1奖励情节长度 曲线中,改进后的 FastSAC 表现出更快的学习速度和更高的最终性能。
  • 关键改进因素: 这种性能提升归因于几个关键的设计选择和超参数调优,包括:
    • 使用 层归一化 (Layer Normalization)。
    • 禁用 裁剪双Q学习 (Clipped Double Q-learning, CDQ)。
    • 精心调优的 探索超参数 (exploration hyperparameters) 和 优化超参数 (optimization hyperparameters)。 这些改进使得 FastSAC 能够在大规模并行仿真下稳定有效地学习 高维度 (high-dimensional) 人形机器人控制 策略 (policies)。

6.1.3. 全身跟踪 (Whole-Body Tracking) 结果

原文 Figure 5 展示了 FastSACFastTD3全身跟踪 (whole-body tracking) 任务中的性能,并与 PPO 进行了比较。

Figure 5: Whole-body tracking results. We show that FastSAC and FastTD3 are competitive or superior to PPO in whole-body motion tracking tasks. See Figure 6 for the sim-to-real deployment of FastSAC policies to real hardware. We use \(4 \\times \\mathrm { L 4 0 s }\) GPUs for all whole-body tracking experiments.
该图像是图表,展示了在不同任务(舞蹈、举箱、推)中,FastSAC、FastTD3 和 PPO 的动作跟踪时间表现。数据表明,FastSAC 和 FastTD3 在大部分情况下优于 PPO,尤其在舞蹈任务中表现最为显著。

原文 Figure 5全身跟踪 结果。我们展示了 FastSACFastTD3全身运动跟踪 (whole-body motion tracking) 任务中与 PPO 相比具有竞争力或更优。Figure 6 展示了 FastSAC 策略 到真实硬件的 模拟到真实 部署。所有 全身跟踪 实验均使用 4×L40s4 \times \mathrm { L40s } GPU

分析:

  • 离策略强化学习 (Off-Policy RL) 的竞争力:舞蹈 (Dance)、举箱 (Box Lifting) 和 (Push) 等 全身跟踪 (whole-body tracking) 任务中,FastSACFastTD3 的性能与 PPO 相当或更优。特别是在 舞蹈 (Dance) 任务中,FastSAC 显著优于 FastTD3PPO,这表明在更长、更复杂的运动序列中,最大熵强化学习 (maximum entropy RL) 提供的更好探索机制具有优势。
  • FastSAC 的优势: FastSAC舞蹈 (Dance) 任务中表现最佳,可能因为它通过 最大熵强化学习 (maximum entropy RL) 实现了更好的探索,这对于学习复杂的、长时间的运动 策略 (policies) 至关重要。
  • 硬件要求: 全身跟踪 (whole-body tracking) 任务使用了 4×L40s4 \times \mathrm { L40s } GPU,这表明这类更复杂的任务可能需要更多的计算资源。

6.1.4. 模拟到真实 (Sim-to-Real) 部署

原文 Figure 6 展示了 FastSAC 训练的 全身跟踪控制器 (whole-body tracking controllers) 在真实 Unitree G1 人形机器人上的 模拟到真实 (sim-to-real) 部署示例。

Figure 6: Whole-body tracking examples. We demonstrate the sim-to-real deployment of wholebody tracking controllers for Unitree G1 trained with FastSAC (Top: Dance, Middle: Box Lifting, Bottom: Push). Videos are available at https: //younggyo .me/fastsac-humanoid.
该图像是一个插图,展示了Unitree G1机器人在全身跟踪控制下的各种动作示例,包括舞蹈、箱子举起和推——展示了快速仿真到真实部署的能力。

原文 Figure 6全身跟踪 示例。我们展示了使用 FastSAC 训练的 Unitree G1 全身跟踪控制器 (whole-body tracking controllers) 的 模拟到真实 (sim-to-real) 部署(上:舞蹈,中:举箱,下:推)。视频可在 https://younggyo.me/fastsac-humanoid 观看。

分析:

  • 实际部署成功: 图像直观地展示了 FastSAC 训练的 策略 (policies) 能够成功地在真实的 Unitree G1 硬件上执行复杂的 全身跟踪 (whole-body tracking) 任务,如 舞蹈 (Dance)、举箱 (Box Lifting) 和 (Push)。这验证了本文 配方 (recipe) 不仅在仿真中表现优异,而且能够学习可部署的、鲁棒的全身体人形机器人控制 策略 (policies)。
  • 长时程运动能力: FastSAC 策略 (policies) 能够完成持续超过2分钟的长时间运动,例如 舞蹈 (Dance) 任务,这对于复杂的人形机器人交互至关重要。

6.2. 消融实验/参数分析

原文 Figure 2 提供了对 FastSAC 关键组件和超参数的分析,以理解其对 Unitree G1 机器人 运动控制 (locomotion) 和 全身跟踪 (whole-body tracking) 任务的影响。

Figure 2: FastSAC: Analyses. We investigate the effect of (a) Clipped double Q-learning, (b) number of update steps, (c) normalization techniques, and (d) discount factor \(\\gamma\) on a Unitree G1 locomotion task with rough terrain. We further investigate the effect of (e) discount factor \(\\gamma\) and (f) number of environments on a G1 whole-body tracking (WBT) task with a dancing motion. We use a single RTX 4090 GPU for locomotion experiments (a-d) and \(4 \\times \\mathrm { L 4 0 s }\) GPUs for whole-body tracking (e-f).
该图像是图表,展示了不同因素对 Unitree G1 机器人运动控制的影响,包括(a)夹闭双 Q 学习的效果,(b)更新步数的影响,(c)归一化技术的效果,及(d)折扣因子 eta 对的影响。图中使用了单块 RTX 4090 GPU 进行实验,数据表明这些因素在快速训练中的重要性。

原文 Figure 2FastSAC:分析。我们调查了 (a) 裁剪双Q学习 (Clipped double Q-learning) 的效果,(b) 更新步数的数量,(c) 归一化技术 (normalization techniques),以及 (d) 折扣因子 γ\gammaUnitree G1 崎岖地形运动控制任务 (locomotion task with rough terrain) 的影响。我们进一步调查了 (e) 折扣因子 γ\gamma 和 (f) 环境数量对 G1 舞蹈运动全身跟踪任务 (whole-body tracking (WBT) task with a dancing motion) 的影响。运动控制 实验 (a-d) 使用单个 RTX 4090 GPU全身跟踪 实验 (e-f) 使用 4×L40s4 \times \mathrm { L40s } GPU

分析:

  • a) 裁剪双Q学习 (Clipped Double Q-learning) 的效果:
    • 2a 显示,使用 Q值 (Q-value) 的平均值 (Mean Q) 相比于 裁剪双Q学习 (CDQ) 能带来更高的 奖励 (reward) 和更稳定的学习曲线。这证实了论文在方法论中提出的观点:CDQ 在与 层归一化 (Layer Normalization) 结合使用时可能有害,且简单平均 Q值 (Q-value) 效果更好。
  • b) 更新步数 (Number of Update Steps) 的影响:
    • 2b 比较了每个环境步执行不同数量的 梯度更新 (gradient updates) (num_updates) 对性能的影响。结果表明,增加 更新步数 (e.g., 64, 128) 通常能加速学习过程并达到更高的 奖励 (reward),这与 离策略强化学习 (off-policy RL) 的 样本效率 (sample efficiency) 相符,即通过对相同的经验数据进行更多 梯度更新 (gradient updates) 可以更快地学习。
  • c) 归一化技术 (Normalization Techniques) 的效果:
    • 2c 探讨了不同 归一化技术 (normalization techniques) 的影响。结果显示,层归一化 (LN) 在性能上显著优于不使用归一化 (No Norm) 和其他形式的归一化,证明了 层归一化 在稳定 高维度 (high-dimensional) 人形机器人任务中的关键作用。
  • d) 折扣因子 γ\gamma运动控制 (Locomotion) 的影响:
    • 2d 展示了 折扣因子 γ\gammaG1 机器人 运动控制 (locomotion) 任务的影响。较低的 γ=0.97\gamma = 0.97 似乎带来了更快的收敛和更高的最终 奖励 (reward),这表明对于这类任务,智能体 (agent) 偏好更关注短期奖励,可能因为 运动控制 任务的 奖励 信号相对即时。
  • e) 折扣因子 γ\gamma全身跟踪 (Whole-Body Tracking) 的影响:
    • 2e 显示了 折扣因子 γ\gammaG1 机器人 全身跟踪 (whole-body tracking) 任务的影响。与 运动控制 (locomotion) 任务不同,较高的 γ=0.99\gamma = 0.99全身跟踪 任务中表现更好。这可能因为 全身跟踪 任务,特别是像 舞蹈 (dancing) 这样长时间的复杂运动,需要 智能体 (agent) 考虑更长远的 奖励 (reward) 规划。
  • f) 环境数量 (Number of Environments) 对 全身跟踪 (Whole-Body Tracking) 的影响:
    • 2f 演示了 并行环境 (parallel environments) 数量对 G1 全身跟踪 (whole-body tracking) 任务的重要性。随着环境数量的增加(从 204816384),学习速度显著加快,策略 (policy) 达到更高 奖励 (reward) 的效率也更高。这突出了 大规模并行仿真 (massively parallel simulation) 在加速 高维度 (high-dimensional) 和复杂 强化学习 (RL) 任务中的关键作用。

      这些分析提供了强有力的证据,支持了论文在方法论中提出的各项设计选择和超参数调整,对于理解 FastSAC 成功的关键因素至关重要。

7. 总结与思考

7.1. 结论总结

本文成功提出了一个简单而实用的 配方 (recipe),通过结合 FastSACFastTD3 这两种可扩展的 离策略强化学习 (off-policy RL) 算法与简化的训练流程,解决了人形机器人 模拟到真实 (sim-to-real) 学习中的关键挑战。主要贡献在于:

  1. 极速训练: 实现了在单个 RTX 4090 GPU 上,在短短15分钟内训练出鲁棒的人形机器人 运动控制策略 (locomotion policies)。

  2. 全身体控制: 首次将 离策略强化学习 (off-policy RL) 算法扩展到全关节人形机器人的 运动控制 (locomotion) 和 全身运动跟踪 (whole-body motion tracking),成功在 Unitree G1Booster T1 机器人上部署。

  3. 算法稳定性和效率: 通过精心调优的设计选择和超参数(如 层归一化、平均 Q值、调整 探索超参数优化超参数),显著稳定并改进了 FastSAC 的性能,使其在大规模并行仿真下高效运行。

  4. 极简奖励设计: 证明了使用极简主义的奖励函数也能在强 领域随机化 (domain randomization) 条件下产生鲁棒自然的机器人行为,极大地简化了 奖励塑形 (reward shaping) 的复杂性。

  5. 开源贡献: 提供了 配方 (recipe) 的开源实现,为未来的研究奠定了基础。

    这些发现共同弥合了 高吞吐量并行仿真 (high-throughput parallel simulation) 潜力与 模拟到真实 (sim-to-real) 人形机器人学习实际需求之间的差距。

7.2. 局限性与未来工作

局限性: 论文中没有明确列出其方法的具体局限性,但从其“简单、极简主义设计”的理念中可以推断出一些潜在的考量:

  1. 特定任务的泛化能力: 虽然该 配方 (recipe) 在 运动控制 (locomotion) 和 全身跟踪 (whole-body tracking) 任务上表现出色,但对于需要更精细、更抽象的技能(例如,与环境进行复杂交互、操纵物体)的任务,这种极简主义的奖励设计和 超参数 (hyperparameter) 设置可能需要进一步的调整或补充。
  2. 超参数 (Hyperparameter) 敏感性: 尽管论文通过分析展示了某些 超参数 (hyperparameter) 的影响,并提供了精心调优的设置,但这些“最佳” 超参数 (hyperparameter) 可能仍然对特定的机器人平台或任务类型敏感。在部署到全新的机器人或任务时,可能仍需要一定程度的重新调优。
  3. 计算资源的需求: 尽管 运动控制 (locomotion) 可以在单个 RTX 4090 上快速训练,但 全身跟踪 (whole-body tracking) 任务仍需要 4×L40s4 \times \mathrm { L40s } GPU。对于资源受限的研究者或场景,这可能仍是一个挑战。
  4. 领域随机化 (Domain Randomization) 的边界: 领域随机化 (domain randomization) 并非万能。它只能覆盖训练时随机化的参数范围。对于仿真中未建模或未随机化的真实世界差异,策略 (policy) 的鲁棒性仍可能受到影响。

未来工作: 作者提出了以下未来研究方向:

  1. 整合最新 离策略强化学习 (Off-Policy RL) 进展:离策略强化学习 (off-policy RL) 领域的最新进展(例如 D'Oro et al., 2023; Schwarzer et al., 2023; Nauman et al., 2024; Lee et al., 2024; Sukhija et al., 2025; Lee et al., 2025; Obando-Ceron et al., 2025)融入到本文的 配方 (recipe) 中,以进一步提升 FastSACFastTD3 的性能和稳定性。
  2. 更广泛的任务类型探索: 进一步研究 FastSACFastTD3 在更复杂和多样化任务类型中性能差异的根本原因。

7.3. 个人启发与批判

个人启发:

  1. 离策略强化学习 (Off-Policy RL) 的巨大潜力: 本文最令人兴奋的发现是 离策略强化学习 (off-policy RL) 在 高维度 (high-dimensional) 机器人控制任务中,通过与 大规模并行仿真 (massively parallel simulation) 结合,能够实现比 在策略强化学习 (on-policy RL) 更快的训练速度和更强的鲁棒性。这扭转了过去 PPO 独占鳌头的局面,为机器人 强化学习 (RL) 领域开辟了新的研究方向。
  2. “极简主义”的强大: 极简主义的奖励函数和 超参数 (hyperparameter) 设计理念非常吸引人。它表明,过度复杂的 奖励塑形 (reward shaping) 并非总是必需的,有时反而会引入不必要的脆弱性。精炼且核心的奖励项,配合鲁棒的算法和 领域随机化 (domain randomization),足以引导复杂行为的 涌现 (emergence)。这对于初学者和实践者来说,降低了 强化学习 (RL) 应用的门槛。
  3. 工程实践的重要性: 论文强调了 超参数 (hyperparameter) 调优和设计选择在稳定 离策略强化学习 (off-policy RL) 算法中的关键作用。这提醒我们,即使算法理论优越,良好的工程实践和对算法细节的深入理解也是成功的必要条件。

批判与潜在改进:

  1. “简单”的代价: 尽管 配方 (recipe) 被描述为“简单”,但其背后的成功可能依赖于大量的实验调优和对 强化学习 (RL) 深刻的直觉。对于不具备相同背景的初学者来说,重现这些结果可能仍具挑战性。开源代码虽有帮助,但缺乏更详细的调优指南(例如,如何系统地搜索最佳 超参数 (hyperparameter))可能会限制其广泛采用。

  2. 领域随机化 (Domain Randomization) 的选择: 论文使用了多种 领域随机化 (domain randomization) 技术,但并未深入分析每种技术对最终 模拟到真实 (sim-to-real) 性能的具体贡献或相对重要性。未来的工作可以进行更详细的 消融研究 (ablation study),以识别最关键的 随机化因子 (randomization factors)。

  3. 能量效率和计算成本: 尽管训练时间缩短到15分钟,但在 全身跟踪 (whole-body tracking) 任务中使用了 4×L40s4 \times \mathrm { L40s } GPU,这仍然是相当昂贵的计算资源。未来的研究可以探索如何在保持性能的同时,进一步优化计算效率和降低硬件需求。

  4. 长远 自主学习 (Autonomous Learning) 的限制: 尽管 全身跟踪 (whole-body tracking) 展现了令人印象深刻的模仿能力,但 策略 (policy) 仍然是在给定参考运动下学习的。对于更高级别的 自主决策 (autonomous decision-making) 和 未曾见过情景 (unseen scenarios) 的泛化, 策略 (policy) 可能需要结合 感知 (perception)、规划 (planning) 或更复杂的 分层强化学习 (hierarchical reinforcement learning) 架构。

    总的来说,这篇论文为人形机器人 强化学习 (RL) 领域带来了令人振奋的进展,展现了 离策略强化学习 (off-policy RL) 在加速 模拟到真实 (sim-to-real) 迭代方面的巨大潜力。

相似论文推荐

基于向量语义检索推荐的相关论文。

暂时没有找到相似论文。