DreamControl: Human-Inspired Whole-Body Humanoid Control for Scene Interaction via Guided Diffusion
TL;DR 精炼摘要
本文提出了DreamControl,一种新的全身人形机器人技能学习方法。该方法结合了受人类运动数据训练的扩散模型和强化学习,能够引导机器人完成复杂任务,如打开抽屉和物体交互,且有效促进仿真到真实世界的迁移。
摘要
We introduce DreamControl, a novel methodology for learning autonomous whole-body humanoid skills. DreamControl leverages the strengths of diffusion models and Reinforcement Learning (RL): our core innovation is the use of a diffusion prior trained on human motion data, which subsequently guides an RL policy in simulation to complete specific tasks of interest (e.g., opening a drawer or picking up an object). We demonstrate that this human motion-informed prior allows RL to discover solutions unattainable by direct RL, and that diffusion models inherently promote natural looking motions, aiding in sim-to-real transfer. We validate DreamControl's effectiveness on a Unitree G1 robot across a diverse set of challenging tasks involving simultaneous lower and upper body control and object interaction. Project website at https://genrobo.github.io/DreamControl/
思维导图
论文精读
中文精读
1. 论文基本信息
1.1. 标题
DreamControl:通过引导扩散实现受人类启发的全身人形机器人场景交互控制 (DreamControl: Human-Inspired Whole-Body Humanoid Control for Scene Interaction via Guided Diffusion)
1.2. 作者
Ovij Kalaria, Sudarshan Harithas, Pushkal Katara, Sangkyung Kwak, Sarthak Bhagat, S. Shankar Sastry, Srinath Sridhar, Sai Vemprala, Ashish Kapoor, Jonathan Huang。 作者来自多个机构,但论文中未明确列出所有作者的详细隶属机构,仅在摘要下方列出部分作者的数字编号,但未提供对应机构的完整列表。根据学术惯例,数字通常指向脚注中的机构列表,但本文此处未提供。
1.3. 发表期刊/会议
arXiv 预印本 (arXiv preprint)。 预印本在相关领域提供了研究成果的快速传播途径,但尚未经过正式的同行评审。本文发布于 2025 年 9 月 17 日,版本为 v3。
1.4. 发表年份
2025年
1.5. 摘要
本文介绍了 DreamControl,一种学习自主全身人形机器人技能的新方法。DreamControl 结合了扩散模型 (diffusion models) 和强化学习 (Reinforcement Learning - RL) 的优势:其核心创新是利用在人类运动数据上训练的扩散先验 (diffusion prior),该先验随后在仿真中引导强化学习策略完成感兴趣的特定任务(例如,打开抽屉或拿起物体)。研究表明,这种受人类运动启发的先验使得强化学习能够发现直接强化学习无法达到的解决方案,并且扩散模型本身促进了自然外观的运动,有助于仿真到真实世界 (sim-to-real) 的迁移。DreamControl 在 Unitree G1 机器人上验证了其有效性,涉及一系列具有挑战性的任务,包括同时的下半身和上半身控制以及物体交互。
1.6. 原文链接
原文链接: https://arxiv.org/abs/2509.14353v3 PDF 链接: https://arxiv.org/pdf/2509.14353v3.pdf 发布状态: 预印本 (v3)
2. 整体概括
2.1. 研究背景与动机
人形机器人控制领域近年来取得了显著进展,尤其在运动 (locomotion) 和运动跟踪 (motion tracking) 方面,例如机器人跳舞和功夫等令人印象深刻的演示。然而,要使人形机器人从单纯的展示转变为通用助理,它们必须能够充分利用其人形形态的移动性和广泛的运动范围与环境进行交互。这包括诸如弯腰捡起物体、蹲下搬运重物、用力打开抽屉或门,以及精确地推动、击打或踢特定目标等任务。
这些任务通常被称为全身操作 (whole-body manipulation) 和运动操作 (loco-manipulation) 任务,对人形机器人领域构成了巨大挑战。现有方法通常通过简化问题来处理人形机器人操作,例如固定下半身、分别训练上半身和下半身、或者仅专注于计算机图形应用。
全身运动操作面临的一个主要挑战是处理多时间尺度 (multiple timescales) 的问题。首先是动态维持稳定和平衡的问题,这需要短时程 (short-horizon) 控制和亚秒级 (sub-second scale) 的鲁棒性,由于高自由度 (high degrees of freedom)、欠驱动 (underactuation) 和高重心,这极具挑战性。其次,机器人需要制定一个长期程 (long-horizon) 的运动规划来抓取远处的物体,这可能跨越数十秒。长期程和高维度的双臂操作 (bimanual manipulation) 导致了一个特别具有挑战性的强化学习探索问题,需要双臂之间的复杂而精确的协调。在这些场景中直接应用强化学习往往会失败,或导致在真实世界中泛化能力差的非自然行为。
因此,现代方法通常依赖于真实世界数据收集和模仿学习 (imitation learning)。其中,扩散策略 (diffusion policies) 在生成长、一致的时间数据方面显示出潜力。然而,全身人形机器人控制的遥操作数据 (teleoperation data) 有限,收集大量遥操作数据既劳动密集又难以扩展,即存在“机器人领域的十万年数据鸿沟” (100,000-year data gap)。
本文旨在解决上述问题,通过结合扩散模型和强化学习的优势,提出了一种新颖的方法。
2.2. 核心贡献/主要发现
DreamControl 提出了一个两阶段的方法,用于学习自主的全身人形机器人技能,其主要贡献和发现包括:
- 创新性的两阶段方法: DreamControl 结合了扩散模型和强化学习。核心在于使用在人类运动数据上训练的扩散先验 (diffusion prior),该先验随后在仿真中引导强化学习策略完成特定任务。
- 克服数据稀缺性: 该方法不依赖昂贵的机器人遥操作数据,而是利用更丰富的人类运动数据来训练扩散先验。由于先验只提供信息引导,策略执行时不需要显式的参考轨迹,实现了完全自主的任务执行。
- 发现难以企及的解决方案: 实验证明,这种受人类运动启发的先验能够使强化学习发现直接强化学习方法无法找到的解决方案,尤其是在需要复杂全身协调的任务中。
- 促进自然运动: 扩散模型固有的特性促使生成的运动看起来更加自然(不那么僵硬或“机器人化”),且通常不包含极端动作,这有助于弥合仿真与真实世界的差距 (sim-to-real gap)。
- 在真实机器人上的有效验证: DreamControl 在 Unitree G1 机器人上成功验证了其有效性,涵盖了一系列具有挑战性的任务,这些任务需要同时进行下半身和上半身控制以及物体交互。
- 可部署性: 该方法支持训练具有或不具有特权信息 (privileged information) 的策略版本,便于在真实机器人上方便部署。
3. 预备知识与相关工作
3.1. 基础概念
- 扩散模型 (Diffusion Models):
- 概念定义: 扩散模型是一种生成模型,通过逐步向数据添加噪声来学习数据的逆过程——去噪。在训练过程中,模型学习从噪声数据中恢复原始数据,从而在推理时通过逆向去噪过程从随机噪声生成新的、真实的数据样本。它们在图像、视频和序列数据生成方面表现出色,因其能够生成高质量、多样化的样本而受到关注。
- 在本文中的应用: 在本文中,扩散模型被用来学习人类运动数据的分布,并根据文本和时空引导生成符合指令的运动轨迹。
- 强化学习 (Reinforcement Learning - RL):
- 概念定义: 强化学习是一种机器学习范式,其中一个智能体 (agent) 通过与环境 (environment) 交互来学习如何做出决策。智能体观察环境的状态 (state),执行动作 (action),并从环境中获得奖励 (reward) 信号。智能体的目标是学习一个策略 (policy),以最大化其在长期内获得的累积奖励。
- 在本文中的应用: RL 被用于训练一个控制策略,使机器人能够在仿真环境中执行任务,同时跟踪由扩散模型生成的参考轨迹。
- 人形机器人控制 (Humanoid Robot Control):
- 概念定义: 指的是设计算法和系统,使人形机器人能够执行各种运动和操作任务。由于人形机器人具有与人类相似的身体结构(例如,双腿、双臂、躯干),这使得它们能够执行复杂的全身运动操作 (loco-manipulation) 任务,但也带来了高自由度、动态平衡维持和欠驱动等挑战。
- 全身操作 (Whole-body Manipulation): 同时协调机器人的腿部、躯干和手臂进行操作任务,例如搬运重物或打开大门。
- 仿真到真实世界迁移 (Sim-to-Real Transfer):
- 概念定义: 指的是在一个高度受控和可重复的仿真环境中训练机器人策略,然后将该策略成功部署到物理真实世界机器人上的过程。由于仿真和真实世界之间存在域鸿沟 (domain gap)(例如,物理参数不匹配、传感器噪声差异、模型不准确),这是一个具有挑战性的问题。成功的 Sim-to-Real 能够显著降低真实世界数据收集和训练的成本和风险。
- 模仿学习 (Imitation Learning - IL):
- 概念定义: 一种从专家演示中学习策略的方法。智能体通过观察专家(例如人类遥操作员)执行任务的轨迹来学习,目标是模仿这些行为,而不是通过试错来发现最佳行为。
- 在本文中的联系: 尽管本文的核心是 RL,但扩散先验的训练是基于人类运动数据,这在某种程度上借鉴了模仿学习的思想,即从人类数据中获取“行为模式”。
- SMPL (Skinned Multi-Person Linear Model):
- 概念定义: 一种流行的参数化人体模型,用于表示和生成人类身体形状和姿态。它通过一组低维参数(例如,姿态参数和形状参数)来生成逼真的人体网格模型,广泛应用于计算机视觉和图形学领域,特别是用于运动捕捉数据的处理和动画生成。
- 在本文中的应用:
OmniControl正是基于SMPL参数化的人类轨迹进行训练的。
3.2. 前人工作
论文将相关工作分为三大类:机器人操作、腿足机器人强化学习控制器以及角色动画和运动模型。
- 机器人操作 (Robot Manipulation):
- 模仿学习方法: 现代深度学习方法常基于模仿学习 [13]-[15]。本文特别关注利用扩散模型 [16], [17] 或相关流匹配 (flow matching) [18] 方法进行策略参数化 [9], [10], [19]-[23]。这些方法旨在复制大型语言模型 (LLMs) 的成功,但机器人数据不如文本数据普遍可用,收集机器人轨迹成本高昂。
- 在线强化学习 (On-policy RL) 方法: 也有在仿真环境中训练的在线 RL 方法,这些方法更具可扩展性 [4], [24],尽管稳健的 Sim-to-Real 迁移仍然具有挑战性。与本文方法最相关的是 Lin et al. [4] 的工作,他们展示了强大的双臂操作技能,但未涉及全身技能。与 [4] 类似,DreamControl 使用在线 RL,但其模型通过人类运动的扩散先验提供信息,显著减少了奖励工程的需求。
- 腿足机器人强化学习控制器 (RL controllers for legged robots):
- 近期进展: 深度强化学习在腿足机器人 RL 控制器中得到显著应用,从四足机器人 [25]-[27] 的稳健运动策略,到双足机器人(包括人形机器人)[28]-[34]。
- 全身运动跟踪和遥操作: 近期工作提出了全身运动跟踪和遥操作方法,使机器人能够跟踪人类遥操作员的运动 [1], [2], [35]-[42],包括处理敏捷和极端运动的进展 (例如
KungFuBot[3] 和ASAP[43])。 - 自主技能执行: 除了跟踪给定的人类运动之外,更大的挑战是实现特定任务的完全自主执行,例如踢腿、坐下、挥舞高尔夫球杆等“技能”[5], [43], [45]-[50]。
HumanPlus[48] 和AMO[5] 展示了全身自主任务执行,但需要遥操作轨迹进行模仿学习 (IL)。R2S2[50] 训练了有限的“原始技能” (primitive skills),主要关注使用 IL 和 RL 组合这些原始技能,而 DreamControl 的重点是训练此类原始技能库的方法。BeyondMimic[49] 也利用了引导扩散和 RL,但其扩散使用方式与 DreamControl 大部分正交。BeyondMimic中的扩散策略引导是“粗粒度”的,而 DreamControl 则是细粒度 (fine-grained),并且不考虑物体交互或长程规划。
- 角色动画和运动模型 (Character Animation and Motion Models):
- 物理仿真中的人类运动模型: 在物理逼真的角色动画设置中,也有类似的关于人形机器人运动建模的文献 [8], [51]-[58]。通过访问特权仿真状态 (privileged simulation states) 并消除 Sim-to-Real 分布差异,首先在简化的合成环境中解决问题已被证明是跨越 Sim-to-Real 鸿沟之前的有用垫脚石。
- 统计运动先验: 本文特别受到人类运动统计先验的影响 [59]-[61],这些先验如今利用了生成式 AI(如扩散模型和自回归变换器)的最新进展 [6], [7], [12], [62], [63]。
- 与本文最相关的工作:
OmniGrasp[8]、CloSd[7] 和TokensHSI[6] 都明确处理物体/场景交互。OmniGrasp利用人类运动先验 (PULSE, [55]),采用瓶颈 VAE (bottleneck VAE) 直接预测动作,但缺点是作为人类轨迹先验,其解释性较差。CloSd通过扩散生成运动计划,并使用 RL 训练的策略在仿真中执行。DreamControl 更进一步,利用更丰富/细粒度的引导,允许处理更多种类的任务,并解决了重要的 Sim-to-Real 问题(例如,消除对运动模型参考轨迹的显式依赖),从而实现了在真实机器人上的部署。
3.3. 差异化分析
DreamControl 与现有工作的核心区别和创新点在于:
- 数据来源的改变: 传统方法多依赖昂贵且稀缺的机器人遥操作数据进行模仿学习或作为 RL 的参考轨迹。DreamControl 则利用更丰富、易于获取的人类运动数据训练扩散先验,显著降低了数据收集成本和复杂性。
- 扩散先验的引导作用: DreamControl 的核心在于将扩散模型训练的人类运动先验用于引导强化学习策略。这个先验提供了自然、合理的长程运动规划,解决了直接 RL 在高维长程任务中探索效率低、易产生非自然行为的问题。
- 细粒度时空引导: 论文强调其扩散先验
OmniControl能够接受细粒度 (fine-grained) 的文本和时空引导(例如,在特定时间点强制特定关节到达特定位置),这使得机器人能够针对环境中的特定对象进行精确交互,这比BeyondMimic[49] 的粗粒度引导更具优势。 - 对 Sim-to-Real 的促进: 通过生成自然、类人 (human-like) 的运动,扩散先验有助于弥合仿真与真实世界的行为差距。此外,DreamControl 的部署版本通过移除对特权仿真信息的依赖,进一步优化了 Sim-to-Real 过程。
- 无需显式参考轨迹: 在策略执行时,DreamControl 的 RL 策略仅通过奖励信号“隐式”地利用参考轨迹信息,而不是像许多运动跟踪方法那样需要显式地跟随参考轨迹,从而实现了完全自主的任务执行。
4. 方法论
4.1. 方法原理
DreamControl 是一种两阶段方法,用于学习自主的全身人形机器人技能。其核心思想是首先利用一个在人类运动数据上预训练的扩散模型,生成符合任务需求的、类人风格的运动参考轨迹。这些参考轨迹随后被用作强化学习 (RL) 策略在仿真环境中进行训练的“引导”,通过奖励信号鼓励策略在完成特定任务的同时,也生成自然且高效的动作。这种“引导”方式使得 RL 能够克服高维度、长时程任务中探索效率低下的问题,并生成比直接 RL 更自然、更适合 Sim-to-Real 迁移的运动。
整个流程可以概括为:
-
阶段一:生成参考轨迹。 使用一个可由文本和时空约束引导的扩散模型(
OmniControl),根据任务描述生成原始的人类运动轨迹。这些轨迹随后被重定向到目标机器人形态(Unitree G1),并进行过滤和细化,以确保其物理可行性和任务适用性。 -
阶段二:基于参考轨迹的强化学习。 在仿真环境中,RL 策略被训练以执行交互任务。策略的奖励函数设计包含两部分:一部分是跟踪参考轨迹的稠密奖励,另一部分是任务完成的稀疏奖励。通过这种方式,策略不仅学会完成任务,而且以类人、自然的方式完成。
以下是 DreamControl 整体流程图(原文 Figure 2)的展示:
图注:DreamControl 框架图。左侧展示了从文本和时空引导(例如,在特定时间点强制腕部位置)生成人类运动轨迹的过程。中间部分展示了将这些轨迹重定向到 Unitree G1 机器人并进行过滤/细化,然后用于指导强化学习策略训练。右侧展示了部署到真实机器人时,感知模块(如 OWLv2和深度相机)如何提供物体位置估计,以实现非特权 (non-privileged) 观测下的真实世界交互。
4.2. 核心方法详解 (逐层深入)
4.2.1. 阶段一:从人类运动先验生成参考轨迹
这一阶段的目标是生成高质量、类人风格的运动轨迹,作为后续强化学习的引导。
4.2.1.1. 利用人类运动数据
- 动机: 避免依赖昂贵且稀缺的人形机器人遥操作数据。人类运动数据(来自运动捕捉或视频)更为丰富,能够学习高质量的先验,并涵盖多种任务。生成的类人运动也有助于 Sim-to-Real 迁移和更自然的人机交互。
- 模型选择: 采用扩散变换器 (diffusion transformer),具体是
OmniControl[12]。扩散变换器在建模人类运动和机器人操作轨迹方面表现成功,并且在大数据集上具有良好的可扩展性,在数据量较少的情况下也能保持良好的性能。
4.2.1.2. OmniControl 的灵活引导
OmniControl能够灵活地通过文本条件 (text condition) 和时空引导 (spatiotemporal guidance) 进行控制。- 文本条件: 例如,
"Pick up the bottle"(拿起瓶子)。 - 时空引导: 规定某个关节或一组关节在特定时间点()到达预设的空间位置 (spatial location)()。这种形式类似于图像或视频的修复 (inpainting)。
- 文本条件: 例如,
- 与环境的连接: 这种时空引导至关重要,因为它允许将生成的轨迹与环境联系起来。例如,可以在 RL 仿真器中将要操作的物体放置在引导中指定的 点附近,从而显著简化 RL 的探索问题。
- 任务特定引导设计: DreamControl 为每个任务专门设计了时空引导。例如,
Pick(拾取)任务涉及为腕部提供空间目标。更多细节在论文附录中提供。
4.2.1.3. 重定向和轨迹过滤
- 重定向 (Post-retargeting):
OmniControl是在SMPL[66] 参数化的人类轨迹上训练的。因此,生成的轨迹需要被重定向 (retarget) 到Unitree G1机器人形态。- 方法: 通过解决一个优化问题(使用
PyRoki[67] 库)来完成。该优化问题最小化以下各项:- 相对关键点位置 (relative keypoint positions)
- 相对角度 (relative angles)
- 尺度因子 (scale factor)(用于调整连杆长度差异)
- 物理合理性增强: 额外的残差项(例如,脚接触成本、自碰撞成本、脚姿态成本)用于提高轨迹的物理合理性。
- 方法: 通过解决一个优化问题(使用
- 轨迹过滤 (Trajectory filtering): 重定向后的轨迹还需要进行后处理。
- 原因: 部分生成的轨迹可能在动态上不可行,或者不适合在第二阶段用于跟踪。
- 方法: 基于启发式规则设计了任务特定的过滤机制。例如,拒绝与场景环境碰撞的轨迹,或拒绝腰部过度弯曲的轨迹。
- 细化 (Trajectory refinements): 为了避免不必要的运动,还会应用任务特定的轨迹细化。例如,在
Pick任务中(只使用右臂),将所有左臂关节设置为默认值。
4.2.1.4. 轨迹表示
经过所有后处理和细化后,得到一组参考轨迹 。这些轨迹使用相同的任务特定文本提示生成,但具有不同的时空“目标” ,表示关节 在时间 应位于位置 。
- 任务目标交互时间 : 定义 为任务特定交互发生的时间(例如,
Pick任务中物体被拾取的时间,Button Press任务中按钮被按下的时间)。这对于合成每个参考轨迹对应的场景至关重要。 - 轨迹帧序列表示: 每条参考轨迹表示为一个目标帧序列 。
\Delta t = 0.05s:时间步长。- :轨迹长度(因此每条轨迹持续 9.8s)。
- 单帧 的内容:
- :根部位置。
- :根部方向(四元数)。
- :关节角度。
- :左右手状态(0 表示张开,1 表示闭合)。这些状态针对每个任务手动标记。
4.2.1.5. 域外任务的处理
- 零样本 (Zero-shot) 应用: 在本文中,
OmniControl主要以“零样本”方式使用,即使用作者发布的原始权重和超参数,在轨迹生成后将其重定向到 G1。由于OmniControl在HumanML3d[68] 上训练,它能够“开箱即用”地处理各种任务。 - 新的、不常见任务: 对于
OmniControl训练分布中未充分表示的某些新任务(例如,拉抽屉),采用了一种处理方法:通过对一个起始姿态(如站立或弯腰拉抽屉)的基准轨迹进行逆运动学 (Inverse Kinematics - IK) 优化。具体细节在附录中描述。
4.2.2. 阶段二:带参考轨迹的强化学习
在获得阶段一生成的参考轨迹后,将交互任务制定为强化学习问题。本节主要描述具有特权信息 (privileged information) 的变体,而真实世界部署的适应性将在实验设置中讨论。
4.2.2.1. 场景合成
- 目的: 为每个阶段一生成的运动学轨迹合成一个合理的场景,以执行交互任务。例如,如果阶段一指定腕部在时间 位于点 ,那么在 RL 训练期间,将要操作的物体放置在点 附近。
- 公式: 给定交互发生的时间 ,物体(拾取对象、按钮等)放置在以下位置:
- 符号解释:
- :在世界坐标系中,机器人特定身体部位连杆(例如,右腕连杆用于右手拾取任务)在时间 的位姿 (pose)。 是平移向量, 是旋转矩阵。
- :物体相对于该机器人身体部位连杆的偏移 (offset),表示物体应放置在该连杆的何处。
- :物体在世界坐标系中的位姿。
- 符号解释:
- 随机化 (Randomization): 随机化 、用于生成轨迹的目标位置(从而随机化 )、以及物体的其他特性(如质量和摩擦),以确保策略的泛化能力。具体的随机化超参数在附录中给出。
4.2.2.2. 动作空间 (Action Space)
- 机器人: 模拟机器人是 27-DoF 的 Unitree G1,配备两只 7-DoF DEX 3-1 手(实际机器人使用 Inspire 手)。
- 手部控制: 手部控制限于离散的开/合配置,每个任务固定(例如,按钮按下任务中伸出右食指)。
- 动作 : ,其中 。
- :表示目标关节角度。
- :分别控制左手和右手。负值表示手张开,正值表示手闭合。
- PD 控制: 目标关节角度转换为扭矩 使用 PD 控制器:
- 符号解释:
- : 在时间 施加的扭矩。
- : 位置增益 (positional gain)。
- : 导数增益 (derivative gain)。
- : 策略输出的目标关节角度。
- : 机器人当前的关节角度。
- : 机器人当前的关节速度。
- 的具体值对每个关节在附录中给出。
- 符号解释:
4.2.2.3. 观测空间 (Observations)
每个任务的观测包括:
- 本体感受信息 (Proprioception):
- 关节角度
- 关节速度
- 根部线性速度
- 根部角速度
- 根部坐标系中投影的重力
- 前一个动作
- 目标轨迹参考 (Target trajectory reference): 在时间 ,目标轨迹参考观测包括 。
- : 预测未来时间步的数量。
\Delta t^{\mathrm{obs}} = 0.1s: 超参数。- 单步参考信息 :
- : 目标关节角度。
- : 目标关节速度。
- : 机器人根部相对于参考根部的相对位置。
- : 机器人上 41 个关键点相对于机器人根部的相对位置。
- : 目标参考的二进制手部状态。
- 与现有工作的对比: 本质上包含与 相同的信息,但被转换到机器人坐标系并添加了冗余信息以方便策略学习。与 [36], [40], [43] 不同,DreamControl 使用 作为输入而不是根部参考速度,以及参考关键点相对于机器人根部的目标参考关键点,而不是目标轨迹的根部。这是因为其他工作不旨在精确跟踪轨迹,而是训练一个可部署的策略来遵循根部的速度命令,因此可能会偏离全局参考轨迹。DreamControl 旨在精确跟踪轨迹以完成交互任务,因此利用特权的仿真全局根部位置来获取相对关键点作为观测。
- 特权任务特定观测 (Privileged task-specific observations): 相关的物体相对位姿、质量、摩擦等。
4.2.2.4. 奖励函数 (Rewards)
奖励函数由三部分组成:
-
跟踪参考轨迹奖励: 鼓励机器人精确遵循生成的参考轨迹。
-
平滑控制和平衡维持奖励: 确保机器人动作自然、稳定。
-
任务特定稀疏奖励: 直接激励机器人完成特定任务。
以下是表 I 中总结的用于参考轨迹跟踪和策略平滑性强制的奖励项:
TABLE I: Reward terms for reference tracking and smooth policy enforcement.
| Reward Term | Interpretation |
| ∥ qrobot qtef | k2 | Penalizes deviation from reference joint angles |
| p,robo2 key | Penalizes deviation from reference keypoints (3D positions in world frame) |
| Penalizes deviation of robot root from reference root position | |
| |θe| | Penalizes deviation in orientation between robot and reference |
| |((aleft) | Penalizes deviation of hand states from reference (σ(x) = 1 |
| ||(at|12 + grobot2 | Penalizes high torques and accelerations |
| || ∆t | Penalizes high action rate changes |
| psto−01, | Penalizes foot sliding while in ground contact |
| nfeet | Penalizes excessive foot-ground contacts (to discourage baby steps) |
| Encourages feet to remain parallel to the ground (discourages heel sliding) |
注:由于表格中的符号无法直接复制,且部分符号在标准 LaTeX 中难以直接识别(如 qtef、p,robo2 key),我将根据上下文推断并解释其含义。但原始表格内容已完整转录。
-
奖励项解释:
- : 惩罚机器人关节角度偏离参考关节角度。
- : 惩罚机器人关键点(世界坐标系中的 3D 位置)偏离参考关键点。
- : 惩罚机器人根部偏离参考根部位置。
- : 惩罚机器人与参考姿态之间的方向偏差。
- : 惩罚手部状态偏离参考值。
- : 惩罚高扭矩和高加速度(通过 PD 控制器的输出扭矩和动作 )。
- : 惩罚高动作变化率,鼓励动作平滑。
- : 惩罚脚部在地面接触时打滑。
- : 惩罚过多的脚部与地面接触(以避免小碎步)。
- : 鼓励脚部保持与地面平行(避免脚跟滑动)。
-
任务特定稀疏奖励 : 用于鼓励高成功率地完成任务,例如
Pick任务中将物体举到一定高度的奖励。这些奖励在附录中详细描述。 -
总奖励公式:
- 符号解释:
- : 在时间 的总奖励。
- : 第 个奖励项的权重。
- : 第 个奖励项的值。
- : 任务特定稀疏奖励的权重。
- : 任务特定稀疏奖励的值。
- 这些权重是任务特定的,具体值在附录中给出。
- 符号解释:
4.2.2.5. 训练
- 环境: 使用
IsaacLab[69](基于IsaacSim仿真)设置环境和训练。 - 算法: 所有策略均使用
PPO[70] (Proximal Policy Optimization) 算法训练。 - 硬件: NVIDIA RTX A6000 (48 GB vRAM)。
- 参数: 每个任务训练 2000 迭代,使用 8192 个并行环境。更多细节在附录中给出。
5. 实验设置
5.1. 数据集
OmniControl训练数据:HumanML3d[68] 数据集。HumanML3d是一个大规模的人类运动数据集,包含各种运动动作的文本描述。选择这个数据集是因为它涵盖了广泛的人类运动,使得OmniControl能够处理多种“开箱即用”的任务。- 实验任务: 在 11 个任务库上进行评估,这些任务旨在测试机器人同时进行下半身和上半身控制以及物体交互的能力:
Pick(拾取)Bimanual Pick(双手拾取)Pick from Ground (Side Grasp)(从地面侧向抓取)Pick from Ground (Top Grasp)(从地面顶部抓取)Press Button(按下按钮)Open Drawer(打开抽屉)Open Door(打开门)Precise Punch(精确出拳)Precise Kick(精确踢腿)Jump(跳跃)Sit(坐下)- 在 Sim2Real 部署时,选择了其中 5 个任务:
Pick (standing),Bimanual Pick,Press Button (standing),Open Drawer,Precise Punch (standing),Squat。
5.2. 评估指标
对论文中出现的每一个评估指标,进行以下说明:
-
成功率 (Success Rate):
- 概念定义: 衡量机器人在给定任务中成功完成的尝试次数占总尝试次数的百分比。它是衡量策略是否有效完成任务的最直接指标。
- 数学公式:
- 符号解释:
Number of Successful Attempts:智能体成功完成任务的次数。Total Number of Attempts:智能体尝试执行任务的总次数。
-
Fréchet Inception Distance (FID):
- 概念定义:
FID是一个用于评估生成模型(特别是图像生成)质量的指标,但也可用于评估生成运动序列的自然度。它通过比较生成样本的特征分布与真实样本的特征分布之间的相似性来工作。在运动生成领域,通常将运动序列映射到某个特征空间(如使用预训练模型提取特征),然后计算这两个特征分布之间的Fréchet 距离。值越低表示生成运动与真实运动的分布越接近,即运动越自然。 - 数学公式:
- 符号解释:
- : 真实数据在特征空间中的均值向量。
- : 真实数据在特征空间中的协方差矩阵。
- : 生成数据在特征空间中的均值向量。
- : 生成数据在特征空间中的协方差矩阵。
- : 向量的 L2 范数平方。
- : 矩阵的迹。
- 概念定义:
-
平均绝对加加速度 (Average Absolute Jerk):
- 概念定义: 加加速度 (jerk) 是位置对时间的三阶导数,即加速度的变化率。在机器人运动控制中,加加速度是衡量运动平滑度的重要指标。高加加速度意味着运动突然、不平滑,可能导致磨损、不稳定或不自然的外观。计算平均绝对加加速度有助于量化整个运动序列的平滑性,值越低表示运动越流畅、越自然。
- 数学公式:
- 符号解释:
- : 轨迹索引。
- : 时间步索引。
- : 关键点索引。
- : 第 个关键点在时间 的全局位置的三阶导数(即加加速度)。
- : 评估的轨迹数量。
- : 轨迹中的时间步数。
- : 机器人上的关键点数量。
-
用户研究 (User Study):
- 概念定义: 通过招募人类参与者来直接评估生成运动的质量和自然度。参与者被要求观看不同方法生成的运动视频,并根据其感知到的“类人度”或自然度进行选择或评分。这是一种主观但直接的人类感知评估方法。
- 在本文中: 40 名参与者观看两种方法(DreamControl 和 )生成的并排视频(顺序随机),并选择哪个看起来更像人类。
5.3. 对比基线
论文将 DreamControl 方法与以下三种基线模型进行了比较:
- (a) TaskOnly:
- 描述: 仅使用任务特定的稀疏奖励来训练强化学习策略。
- 代表性: 这种设置代表了最朴素的强化学习方法,智能体必须完全通过探索来发现任务完成的路径。
- (b) TaskOnly+:
- 描述: 仅使用任务特定的奖励,包括稀疏奖励和受
Omnigrasp[8] 启发而设计的工程化稠密奖励。这些稠密奖励通常用于引导机器人达到任务的关键中间姿态(例如,预抓取姿态)。 - 代表性: 这种设置反映了传统强化学习中通过精心设计的稠密奖励来加速学习和引导行为的常用实践。
- 描述: 仅使用任务特定的奖励,包括稀疏奖励和受
- (c) TrackingOnly:
- 描述: 仅使用跟踪奖励来训练强化学习策略。这意味着策略的目标是尽可能精确地跟踪由扩散模型生成的参考轨迹,但不包含任何显式的任务完成奖励。
- 代表性: 这种设置旨在评估仅依靠人类运动先验的“形状”指导能达到何种程度,以及其在任务完成方面的局限性。
- DreamControl (Ours):
- 描述: 结合了跟踪奖励和任务特定的稀疏奖励。这是本文提出的完整方法,旨在利用扩散先验的自然运动引导,同时确保任务的成功完成。
- 代表性: 作为本文的核心贡献,它结合了前两个基线的优点,并弥补了它们的不足。
6. 实验结果与分析
6.1. 核心结果分析
6.1.1. 模拟结果分析
以下是原文 Table II 中展示的在 1000 个随机环境中的仿真成功率 (%):
TABLE II: Success rates in simulation over 1000 random environments. (a) TaskOnly; (b) ; (c) TrackingOnly. Bold denotes the best results.
| Task / Method | (a) | (b) | (c) | Ours | |
| Pick | 0 | 15.1 | 87.5 | 95.4 | |
| Bimanual Pick | 0 | 31.0 | 100 | 100 | |
| Pick from Ground | (Side Grasp) | 0 | 0 | 99.4 | 100 |
| Pick from Ground | (Top Grasp) | 0 | 0 | 100 | 100 |
| Press Button | 0 | 99.8 | 99.1 | 99.3 | |
| Open Drawer | 0 | 24.5 | 100 | 100 | |
| Open Door | 0 | 15.4 | 100 | 100 | |
| Precise Punch | 0 | 100 | 99.4 | 99.7 | |
| Precise Kick | 0 | 97.6 | 96.1 | 98.6 | |
| Jump | 0 | 0 | 100 | 100 | |
| Sit | 0 | 100 | 100 | 100 |
分析:
- TaskOnly (a) 的局限性: 该基线在所有任务上都取得了 0% 的成功率。这表明仅依靠稀疏奖励(没有任何稠密引导)在复杂、高维的人形机器人全身控制任务中,RL 策略难以通过探索发现有效的动作序列。
- TaskOnly+ (b) 的改进与不足: 通过添加工程化的稠密奖励, 在一些相对简单的任务(如
Press Button和Precise Punch)上实现了成功,甚至在Sit任务上达到了 100%。然而,对于需要复杂全身协调的任务(如Pick、Bimanual Pick、Pick from Ground、Open Drawer、Open Door、Jump),其表现仍然不佳,成功率很低甚至为 0%。这说明即使有稠密奖励,如果奖励工程不够完美或任务探索空间过大,策略仍难以找到最优解。例如,在Jump任务中,策略未能发现真正的跳跃动作。 - TrackingOnly (c) 的优势与盲点: 仅依靠跟踪奖励的
TrackingOnly基线整体表现显著优于TaskOnly和 。它在许多任务上(如Bimanual Pick、Pick from Ground、Open Drawer、Open Door、Jump、Sit)达到了 100% 的成功率。这有力地证明了人类运动扩散先验提供的运动轨迹引导对于解决复杂全身任务至关重要。然而,TrackingOnly在一些需要精细交互的任务(如Pick和Precise Kick)上表现略逊一筹,这可能是因为纯粹的运动跟踪并不能保证完全满足任务的特定细微需求(例如,精确的抓取姿态或力量)。 - DreamControl (Ours) 的卓越表现: DreamControl 结合了跟踪奖励和任务特定稀疏奖励,在 11 个任务中的 9 个任务上取得了最佳结果,并且在所有任务上都表现出稳健的性能。这验证了本文方法的设计理念:人类运动先验提供自然、高效的运动模式,而任务特定稀疏奖励则确保策略精确完成任务目标。这种结合克服了单一奖励形式的局限性,使得 RL 能够发现基线方法无法实现的解决方案。
6.1.2. 人类运动自然度比较分析
以下是原文 Table III 中展示的 DreamControl (Ours) 和 TaskOnly+ 的人类运动自然度比较:
TABLE III: Human-ness comparison of DreamControl (Ours) and TaskOnly+. We report FID and jerk , where lower is better, and the average human preference. Bold denotes the best results.
| Task | Method | FID ↓ | Jerk ↓ | User Study ↑ |
| Pick | TaskOnly+ Ours | 0.240 0.320 | 211.2 147.5 | 15.0% 85.0% |
| Press Button | TaskOnly+ Ours | 1.220 0.375 | 235.7 | 17.25% |
| Precise Punch | TaskOnly+ Ours | 0.417 0.084 | 161.9 229.9 | 82.75% 7.5% |
| Precise Kick | TaskOnly+ | 0.522 | 199.8 360.9 | 92.5% 17.5% |
| Ours | 0.161 | 252.5 | 82.5% | |
| Jump | TaskOnly+ Ours | 1.216 0.208 | 148.5 | 5.0% 95.0% |
| 236.4 | ||||
注:表格中的空白部分表示该任务的 无法完成,因此无法进行比较。部分数据行可能在复制时出现对齐问题,但原始数据已转录。
分析:
-
FID (Fréchet Inception Distance): 除了
Pick任务(DreamControl FID 略高,可能是由于 G1 机器人身材较矮,拾取高度与人类数据集中的“腰部拾取”存在域鸿沟),DreamControl 在其他所有任务上都实现了更低的 FID 值。这表明 DreamControl 生成的运动在特征空间上更接近真实人类运动的分布,具有更高的自然度。 -
Jerk (加加速度): DreamControl 在所有任务上均显著优于 ,产生了更低的平均绝对加加速度值。更低的 Jerk 值表示运动更加平滑、流畅,符合人类运动的特点,而非僵硬或急促的“机器人”动作。
-
用户研究 (User Study): 40 名参与者的用户研究结果压倒性地支持了 DreamControl 的自然度。在所有任务中,绝大多数参与者认为 DreamControl 生成的轨迹更像人类。这为主观的运动质量评估提供了强有力的证据。
-
Jump 任务的可视化对比 (Figure 3):
图注:Jump 任务的轨迹对比。顶部是 基线的结果,底部是 DreamControl 的轨迹。黄色球体表示用于引导轨迹的空间控制点。如图 3 所示,DreamControl(底部)生成的跳跃轨迹明显更自然、更像人类。机器人先弯曲身体,然后向上弹起,形成平滑的跳跃动作。相比之下, 基线(顶部)虽然也能离地,但缺乏弯曲过程,导致动作不自然,且未能成功完成任务(达到足够的高度或姿态)。这直观地展示了扩散先验在引导生成类人运动方面的优势。
6.1.3. Sim2Real 部署
为了展示真实世界的有效性,DreamControl 在 Unitree G1 机器人上部署了选定任务的策略。
- 策略修改: 重新训练时,修改了观测以消除对仿真器特权信息的依赖:
- 移除轨迹参考观测(但奖励中仍保留参考)。
- 移除根部的线性速度。
- 移除特权场景物理信息(如物体质量、摩擦)。
- 添加时间编码 ( 为回合总时长)。
- 奖励: 沿用第二阶段的奖励,包括运动跟踪项,但对根部
(x, y, yaw)的参考轨迹进行转换,以避免评论家 (critic) 使用不可用的特权输入。 - 结果: 最终策略仅依赖于物体/目标的相对位置,可在真实机器人上部署。
- 硬件设置: Unitree G1(27-DoF,腰部锁定模式,仅允许偏航运动),Inspire 灵巧手(每只 6-DoF,二进制开/合模式)。板载 IMU 提供根部姿态、重力方向和角速度。颈部安装的 RealSense D435i 深度相机用于估计物体/目标相对于骨盆的 3D 位置。
- 部署挑战与解决方案:
- 物体位置估计: 使用现成的开放词汇物体检测模型
OWLv2[72] 进行 2D 定位,然后结合深度和物体特定偏移提升到 3D。 - 感知瓶颈: 由于
OWLv2推理延迟,仅在第一帧检测物体并固定估计值。为缓解静态估计误差,在交互任务中(双臂拾取除外)固定下半身,并对根部速度施加惩罚以确保基座静止。论文指出,此限制源于感知瓶颈,而非方法本身。未来的工作可以通过学生-教师蒸馏 (student-teacher distillation) 训练基于视觉的策略来解决。
- 物体位置估计: 使用现成的开放词汇物体检测模型
- 成功部署任务:
Pick (standing)、Bimanual Pick(不同重量的盒子)、Press Button (standing)、Open Drawer(不同位置)、Precise Punch (standing)和Squat(不同深度)。图 1 展示了代表性的可视化效果。
6.2. 数据呈现 (表格)
以下是原文 Table IV 中展示的 Unitree G1 Edu+ 机器人的关节列表:
TABLE IV: Joints of the Unitree G1 grouped by body part.
| Legs | ||
| left_hip_pitch_joint right_hip-pitch_jointleft_hip_roll_joint right_hip_roll_jointleft_hip_yaw_joint right_hip_yaw_jointleft_knee_joint right_knee_jointleft_ankle_pitch_joint right_ankle_pitch_jointleft_ankle_roll_joint right_ankle_roll_joint | ||
| left_hip_roll_joint | roll-join | |
| Waist | ||
| waist_yaw_joint | ||
| (Left |Right Arms | ||
| left_shoulder_pitch_joint right_shoulder-pitch_jointleft_shoulder_roll_joint right_shoulder_roll_jointleft_shoulder_yaw_joint right_shoulder_yaw_jointleft_elbow_joint right_elbow_jointleft_wrist_roll_joint right_wrist_roll_jointleft_wrist_pitch_joint right_wrist_pitch_jointleft_wrist_yaw_joint right_wrist_yaw_joint | ||
| left_shoulder_yaw_jointleft_elbow_joint | ||
| left_wrist_roll_jointleft_wrist_pitch_joint | left_wrist_roll_jointleft_wrist_pitch_joint | |
| (Left | Right) Hands | ||
| left_hand_index_0_joint right_hand_index_0_jointleft_hand_index_1_joint right_hand_index_1_jointleft_hand_middle_0_joint right_hand_middle_0_jointleft_hand_middle_1_joint right_hand_middle_1_jointleft_hand_thumb_0_joint right_hand_thumb_0_jointleft_hand_thumb_1_joint right_hand_thumb_1_jointleft_hand_thumb_2_joint right_hand_thumb_2_joint | ||
以下是原文 Table V 中展示的 Unitree G1 Edu+ 机器人的关键点列表:
TABLE V: Keypoints of the Unitree G1 grouped by body part.
| Legs | |
| left_hip_pitch_link left_hip_roll_link | right_hip_pitch_link right_hip_roll_link |
| left_hip_yaw_link | right_hip_yaw_link |
| left_knee_link | right_knee_link |
| left_ankle_pitch_link | |
| left_ankle_roll_link | right_ankle_pitch_link right_ankle_roll_link |
| Waist & Torso | |
| pelvis | pelvis_contour_link |
| waist_yaw_link | waist_roll_link |
| torso_link logo_link | waist_support_link |
| Head & Sensors | |
| head_link | imu_link |
| d435_link | mid360_link |
| Arms | |
| left_shoulder_pitch_link | right_shoulder_pitch_link |
| left_shoulder_roll_link | right_shoulder_roll_link |
| left_shoulder_yaw_link | right_shoulder_yaw_link |
| left_elbow_link | right_elbow_link |
| left_wrist_roll_link | right_wrist_roll_link |
| left_wrist_pitch_link | right_wrist_pitch_link |
| left_wrist_yaw_link | right_wrist_yaw_link |
| left_rubber_hand | right_rubber_hand |
6.3. 消融实验/参数分析
本文通过与 TaskOnly、 和 TrackingOnly 基线进行比较,间接进行了消融实验。
-
TaskOnly(仅稀疏任务奖励): 成功率为 0%,这表明在没有运动引导的情况下,仅依靠任务完成的稀疏奖励无法在高维空间中学习到有效的全身控制策略。这验证了运动引导的重要性。 -
(稀疏任务奖励 + 工程化稠密奖励): 在简单任务上有所改善,但在复杂任务上仍失败。这表明即使有经验丰富的奖励工程,也难以完全覆盖复杂全身协调所需的所有中间状态和动作模式。这凸显了从数据中学习运动先验的优势。
-
TrackingOnly(仅跟踪奖励): 在许多全身协调任务上取得了很高的成功率。这证明了人类运动先验的强大引导能力,即使没有直接的任务完成奖励,仅仅通过跟踪类人运动,机器人也能在很大程度上完成任务。但在需要精细交互的任务(如Pick)上略显不足,说明纯粹跟踪无法完全替代任务目标。 -
DreamControl (跟踪奖励 + 稀疏任务奖励): 结合了两者的优势,在大多数任务上实现了最佳性能。这验证了其设计选择:扩散先验提供自然的运动模板,而稀疏任务奖励则确保了任务的精确完成。
总体而言,这些比较有效地验证了 DreamControl 方法中运动先验引导和任务特定奖励相结合的有效性。扩散模型在生成自然、平滑运动方面的固有优势,以及人类运动数据作为先验的重要性,都得到了实验结果的有力支持。
7. 总结与思考
7.1. 结论总结
本文提出了 DreamControl,一种新颖的两阶段方法,用于学习人形机器人的自主全身技能。其核心创新在于巧妙地结合了扩散模型和强化学习:首先,利用在人类运动数据上训练的扩散先验生成符合任务要求的、类人风格的运动参考轨迹;然后,在仿真环境中,通过强化学习训练一个策略来跟踪这些参考轨迹并完成特定任务。
DreamControl 的主要贡献和发现包括:
- 克服数据稀缺性: 通过利用丰富的现有人类运动数据,避免了昂贵且难以获取的机器人遥操作数据。
- 增强学习效率与能力: 人类运动先验为强化学习提供了强大的引导,使其能够发现直接强化学习难以企及的解决方案,尤其是在高维度、长时程的全身协调任务中。
- 生成自然流畅的运动: 扩散模型固有的特性促进了自然、类人风格的运动,同时降低了加加速度 (jerk),使得机器人动作更加平滑。
- 成功的 Sim-to-Real 迁移: 自然的运动模式和对非特权观测的适应性调整,使得训练好的策略能够成功部署到 Unitree G1 真实机器人上,完成包括拾取、按按钮、开抽屉等多项挑战性任务。
7.2. 局限性与未来工作
论文作者指出了 DreamControl 的当前局限性,并提出了未来可能的研究方向:
- 技能组合与复杂性限制:
- 当前的实现尚未支持技能组合 (compose skills),即机器人无法将多个基本技能(如拾取和放置)灵活地组合起来完成更复杂的任务。
- 不支持灵巧操作 (dexterous manipulation) 或处理复杂物体几何 (complex object geometries)。目前手部控制简化为离散的开/合状态,对于需要精细手指运动的任务不适用。
- 感知瓶颈:
- 在真实世界部署时,物体检测模型
OWLv2的推理延迟导致物体位置估计是静态的。为了应对这一挑战,在交互任务中(除双臂拾取外)需要固定机器人下半身,并对根部速度进行惩罚。 - 这表明当前方法的泛化能力在动态感知方面受到限制。作者提出,未来的工作可以通过学生-教师蒸馏 (student-teacher distillation) 等方法来训练基于视觉的策略,以取代特权仿真全局根部位置信息,从而实现更强大的视觉驱动控制。
- 在真实世界部署时,物体检测模型
- 轨迹生成质量:
Open Drawer和Open Door任务中,由于HumanML3d数据集中相关轨迹有限,OmniControl生成的初始运动不够理想,需要通过IK-based optimization进行额外优化。这表明扩散先验在面对训练数据稀疏的任务时,仍可能需要额外的工程干预。- 启发式过滤机制(如拒绝与场景碰撞或腰部过度弯曲的轨迹)的存在,也暗示了扩散模型在生成轨迹时可能存在动态可行性和场景约束方面的不足,需要进一步改进模型或增加数据。
7.3. 个人启发与批判
7.3.1. 个人启发
- 扩散模型与强化学习的协同作用: DreamControl 提供了一个优雅的框架,展示了生成模型(扩散模型)在长时程规划和行为塑造方面的强大潜力,以及强化学习在稳健控制和适应复杂环境方面的优势。这种“规划-控制”的两阶段范式,特别是通过奖励信号进行隐式引导,为解决机器人领域中的高维度、长时程决策问题提供了新的思路。
- 利用人类数据桥接机器人鸿沟: 机器人数据采集的“十万年数据鸿沟”是一个长期挑战。DreamControl 有效地利用了更易获取、更丰富的人类运动数据作为先验,为机器人学习提供了高质量、自然的行为模式。这对于加速机器人技能获取、降低部署成本具有重要意义,尤其适用于人形机器人这种形态与人类高度相似的平台。
- 自然运动的重要性: 实验结果清晰地表明,生成自然、平滑的运动(通过低 FID 和低 Jerk 值衡量)不仅能提高人类接受度,而且对 Sim-to-Real 迁移至关重要。减少非自然或极端动作能够有效降低现实世界部署的风险和故障率。
- 模块化设计与未来潜力: 该方法将轨迹生成和策略训练解耦,这种模块化设计使得未来可以独立改进每个组件。例如,可以替换更强大的扩散模型,或者使用更先进的 RL 算法。同时,其数据高效性也为未来扩展到更广泛的任务库和更多样的机器人形态奠定了基础。
7.3.2. 个人批判
- IK 优化与扩散先验的局限性: 论文提到
Open Drawer和Open Door任务需要IK-based optimization来修改扩散模型生成的轨迹。这表明在面对训练数据集中不常见的“域外”任务时,即使是像OmniControl这样的通用扩散模型,其零样本生成能力也可能不足。这提出了一个问题:扩散模型是否需要更针对性的微调或数据增强来处理这些特定任务,或者更强大的扩散模型能直接解决这些问题?这种额外的优化步骤增加了方法的复杂性和工程量。 - 启发式过滤机制: 轨迹生成后的启发式过滤(例如,根据身体碰撞、腰部角度、骨盆高度进行过滤)表明扩散模型有时会生成物理上不可行或不适合任务的轨迹。虽然这提供了一种实用的解决方案,但从根本上说,理想情况是生成模型本身就能产生高质量、物理上合理的轨迹,从而减少对后处理的依赖。这可能需要对扩散模型的训练数据、损失函数或引导机制进行改进。
- Sim2Real 部署的感知依赖与简化: 在 Sim2Real 部署中,为了应对
OWLv2的感知延迟和静态物体估计,采取了固定机器人下半身(除双臂拾取外)的策略。这在一定程度上限制了机器人的全身运动能力,使其无法充分利用其腿部进行动态调整或跟随物体。虽然作者指出这是感知瓶颈而非方法本身,并提出了未来视觉策略的训练,但当前这种妥协是实际部署中的一个显著局限性,使得一些需要动态全身协调的复杂任务(如在行走中拾取或交互)无法完全实现。 - 特权信息的使用: 在仿真训练阶段,策略利用了“特权任务特定观测”,如物体的相对位姿、质量、摩擦等。虽然论文提供了在 Sim2Real 部署时移除这些信息的方案,但训练过程中对这些特权信息的依赖,可能使得策略在非特权设置下的泛化能力受到一定影响,即存在 Sim-to-Real 的“信息鸿沟”。未来的研究可以探索如何从一开始就训练仅依赖非特权观测的策略,或者通过更鲁棒的域随机化 (domain randomization) 来弥合这一差距。
相似论文推荐
基于向量语义检索推荐的相关论文。