论文状态：已完成

Emergent Active Perception and Dexterity of Simulated Humanoids from Visual Reinforcement Learning

发表：2025/05/18

基于大语言模型的动作规划 (27)视觉语言动作模型 (34)机器人动作学习 (18)强化学习训练 (2)仿真人体控制 (1)

原文链接 PDF 下载

价格：0.100000

已有 10 人读过

本分析由 AI 生成，可能不完全准确，请以原文为准。

TL;DR 精炼摘要

本文提出感知灵巧控制（PDC）框架，实现仅凭自我中心视觉训练模拟人形机器人，完成物体搜索、抓取、放置及操作等多任务，无需特权信息。通过强化学习，智能体展现出主动搜索等人类行为，推动视觉驱动的灵巧控制与复杂任务融合。

摘要

Human behavior is fundamentally shaped by visual perception -- our ability to interact with the world depends on actively gathering relevant information and adapting our movements accordingly. Behaviors like searching for objects, reaching, and hand-eye coordination naturally emerge from the structure of our sensory system. Inspired by these principles, we introduce Perceptive Dexterous Control (PDC), a framework for vision-driven dexterous whole-body control with simulated humanoids. PDC operates solely on egocentric vision for task specification, enabling object search, target placement, and skill selection through visual cues, without relying on privileged state information (e.g., 3D object positions and geometries). This perception-as-interface paradigm enables learning a single policy to perform multiple household tasks, including reaching, grasping, placing, and articulated object manipulation. We also show that training from scratch with reinforcement learning can produce emergent behaviors such as active search. These results demonstrate how vision-driven control and complex tasks induce human-like behaviors and can serve as the key ingredients in closing the perception-action loop for animation, robotics, and embodied AI.

思维导图

论文精读

中文精读约 50 分钟读完 · 31,705 字

1. 论文基本信息

1.1. 标题

Emergent Active Perception and Dexterity of Simulated Humanoids from Visual Reinforcement Learning (从视觉强化学习中涌现的模拟人形机器人的主动感知和灵巧操作能力)

1.2. 作者

Zhengyi Luo, Chen Tessler, Toru Lin, Ye Yuan, Tairan He, Wenli Xiao, Yunrong Guo, Gal Chechik, Kris Kitani, Linxi Fan, Yuke Zhu

机构隶属关系:

1 Nvidia
2 Carnegie Mellon University (卡内基梅隆大学)
3 University of California, Berkeley (加州大学伯克利分校)

1.3. 发表期刊/会议

该论文发布于 arXiv 预印本平台，其内容和成果通常会在经过同行评审后，提交至顶级的计算机视觉、机器人或机器学习会议（如 NeurIPS, ICML, ICLR, CVPR, ICCV, RSS, IROS）或期刊。根据作者阵容和研究方向，其研究质量和潜在影响力较高。

1.4. 发表年份

2025年 (根据 Published at (UTC)：2025-05-18T07:33:31.000Z)

1.5. 摘要

人类行为的根本在于视觉感知——我们与世界互动的能力取决于主动收集相关信息并相应调整我们的动作。诸如搜索物体、抓取和手眼协调等行为，都是从我们感觉系统的结构中自然涌现的。受这些原理的启发，本文引入了感知灵巧控制 (Perceptive Dexterous Control, PDC) 框架，用于模拟人形机器人的视觉驱动灵巧全身控制。PDC 仅依赖于自我中心视觉 (egocentric vision) 进行任务指定，通过视觉线索实现物体搜索、目标放置和技能选择，而不依赖于特权状态信息 (privileged state information)（例如，3D 物体位置和几何形状）。这种感知即接口 (perception-as-interface) 的范式使得学习单一策略能够执行多种家庭任务，包括抓取 (reaching)、放置 (grasping)、搬运 (placing) 和关节物体操作 (articulated object manipulation)。研究还表明，从零开始 (from scratch) 使用强化学习 (Reinforcement Learning, RL) 进行训练可以产生主动搜索 (active search) 等涌现行为。这些结果展示了视觉驱动控制和复杂任务如何诱导类人行为，并能作为连接动画、机器人技术和具身人工智能 (embodied AI) 中感知-行动闭环的关键要素。

1.6. 原文链接

https://arxiv.org/abs/2505.12278

1.7. PDF 链接

https://arxiv.org/pdf/2505.12278v1.pdf

2. 整体概括

2.1. 研究背景与动机

核心问题： 论文旨在解决模拟人形机器人如何在仅依靠自我中心视觉感知（即机器人自身的视角）的情况下，执行复杂的全身灵巧操作任务，如物体搬运、放置和与环境中的关节物体（如抽屉）互动。

重要性：

模拟人类行为： 人类与世界的互动本质上由主动感知驱动。让机器人具备类似的感知能力，是实现更自然、更通用的人机交互和机器人自主性的关键。
具身智能 (Embodied AI) 的挑战： 现有的机器人控制方法往往依赖于精确的特权状态信息（如物体的 3D 位置、姿态），这在现实世界中难以获取，且限制了机器人主动感知和探索的能力。将视觉感知直接融入到高自由度 (Degree-of-Freedom, DoF) 人形机器人的全身控制中，是一个计算密集且极具挑战性的问题。
现有研究的局限：
- 依赖特权信息： 大多数人形机器人控制器和动画系统，为了简化问题，会利用仿真环境中提供的精确 3D 物体状态信息，规避了视觉输入固有的噪声和不确定性。这使得机器人无法学习像“视觉搜索”这样的人类行为。
- 低分辨率视觉输入： 由于计算限制，现有工作常使用低分辨率的视觉输入，这限制了其感知细节和灵巧操作的能力。
- 任务特定性： 现有方法常需要为每个任务重新设计输入表示（如任务阶段变量），缺乏通用性和适应性。
- 缺乏主动感知： 在缺乏全局信息的情况下，机器人如何决定“看哪里”以及“如何拿起物体”，是一个开放问题。

切入点/创新思路： 本文提出了 PDC (Perceptive Dexterous Control) 框架，其核心创新在于：

纯视觉驱动： 摒弃对特权状态信息的依赖，仅使用自我中心视觉（RGB、RGB-D 或 Stereo）和本体感知 (proprioception) 进行控制。
感知即接口 (Perception-as-Interface)： 将任务指令直接编码到视觉输入中，例如通过在图像上叠加语义掩码、3D 标记和彩色方块等视觉线索来指定目标物体、放置位置和操作指令（如使用哪只手、何时抓取/释放）。这种方式使得策略无需任务特定的状态变量，更具泛化性。
利用运动先验 (Motion Priors)： 结合从大规模运动捕捉数据中学习到的运动先验 (PULSE-X)，以降低高自由度全身灵巧控制的学习难度，并促进生成类人行为。
复杂环境下的端到端学习： 在多样化的家庭场景（特别是厨房环境）中，通过强化学习从零开始训练，旨在观察和学习主动搜索、全身协调等涌现行为。

2.2. 核心贡献/主要发现

论文的核心贡献和主要发现可以总结如下：

视觉驱动全身灵巧人形机器人控制的可行性： 首次证明了在逼真的家庭环境中，仅依靠视觉输入，可以实现全身灵巧人形机器人的控制，完成物体抓取、搬运、放置和关节物体操作等多任务。这解决了一个涉及复杂感知和高维运动控制的挑战性问题。
提出“感知即接口”任务指定范式： 引入了一种创新的任务指定方法，通过视觉线索（如物体掩码、3D 目标标记、手部指令方块）直接在视觉空间中编码任务，替代了传统的预定义状态变量。这种范式增强了策略的适应性和泛化能力，使其能够通过微调适应新任务而无需修改架构。
涌现的类人行为： 证实了在复杂、多样化的视觉驱动任务和环境中，人形机器人能够从零开始通过强化学习涌现出诸如主动搜索 (active search)（例如，在环境中环顾寻找物体或目标标记）和全身协调 (whole-body coordination) 等类人行为。
视觉模态和奖励设计的影响评估： 通过广泛的实验评估了不同视觉模态（RGB、RGB-D、Stereo）以及奖励设计对行为和任务性能的影响，发现 Stereo 视觉在成功率上优于 RGB 达 9%，暗示了立体视觉对于深度估计和操作的重要性。
泛化能力： PDC 在未见过物体和未见过场景中展现出强大的泛化能力，甚至优于依赖特权信息的 state-space 基线策略，这得益于视觉输入的内在泛化特性。

3. 预备知识与相关工作

3.1. 基础概念

理解本文需要以下基础技术、理论和模型：

强化学习 (Reinforcement Learning, RL)：
- 概念定义： 强化学习是一种机器学习范式，智能体 (agent) 通过与环境 (environment) 交互来学习最优行为策略 (policy)。智能体在每个时间步 (timestep) 接收环境的状态 (state) 或观测 (observation)，然后根据其策略选择一个动作 (action) 执行。环境根据动作转移到新状态，并给予智能体一个奖励 (reward)。智能体的目标是最大化其累积奖励。
- 本文关联： 本文使用 PPO (Proximal Policy Optimization) 算法训练人形机器人的控制策略，使其能够通过试错学习在仿真环境中执行复杂任务。
部分可观察马尔可夫决策过程 (Partially Observed Markov Decision Process, POMDP)：
- 概念定义： POMDP 是 MDP (Markov Decision Process) 的一个扩展，用于描述智能体无法直接观察到环境完整状态的情况。智能体只能接收到环境状态的“部分观测 (partial observation)”，因此需要根据这些观测和历史信息推断出当前状态的信念 (belief)，并基于信念做出决策。
- 本文关联： 人形机器人仅通过自我中心视觉感知环境，无法获取所有物体的精确 3D 位置等特权信息，这天然地构成一个 POMDP 问题。策略必须从有限的视觉观测中推断出必要的信息。
人形机器人控制 (Humanoid Control)：
- 概念定义： 指的是对具有类似人类形态的机器人进行运动规划和执行控制。这类机器人通常具有高自由度（如多个关节，包括身体、手臂、手和腿），需要复杂的协调来维持平衡、移动和执行灵巧操作。
- 本文关联： 本文控制的人形机器人具有 52 个关节，其中 51 个可驱动，包括 30 个手部关节，是典型的高自由度机器人，对控制精度和协调性要求极高。
视觉感知 (Visual Perception)：
- 概念定义： 机器人通过摄像头或其他视觉传感器获取图像或深度信息，并从中提取有用信息以理解环境。
  - 自我中心视觉 (Egocentric Vision)： 从智能体自身视角（如眼睛位置）获取的视觉信息，是智能体与环境直接交互的视角。
  - RGB 图像： 包含红、绿、蓝三个颜色通道的彩色图像。
  - RGB-D 图像： 在 RGB 图像的基础上，增加了一个深度 (Depth) 通道，提供每个像素到摄像头的距离信息。
  - Stereo 视觉 (立体视觉)： 使用两个（或更多）在空间上有所偏移的摄像头，通过视差原理估计场景的深度信息，模仿人类双眼。
- 本文关联： PDC 框架的核心是仅依赖自我中心视觉（RGB、RGB-D 或 Stereo）进行感知和任务指定。
运动捕捉数据 (Motion Capture Data, MoCap)：
- 概念定义： MoCap 是一种记录生物体（通常是人）运动信息的技术，通过在关键点放置标记或使用无标记系统来捕获 3D 运动数据。这些数据包含了丰富的人类运动模式。
- 本文关联： 论文利用 AMASS 和 GRAB 等 MoCap 数据集训练运动先验 (PULSE-X)，以学习生成类人动作的低级控制器。
卷积神经网络 (Convolutional Neural Network, CNN)：
- 概念定义： CNN 是一种专门用于处理具有网格状拓扑数据（如图像）的深度学习模型。它通过卷积层 (convolutional layer) 自动学习图像中的空间特征。
- 本文关联： PDC 的策略架构使用 CNN 来处理原始图像输入，提取高级空间特征。
门控循环单元 (Gated Recurrent Unit, GRU)：
- 概念定义： GRU 是一种循环神经网络 (Recurrent Neural Network, RNN) 的变体，与 LSTM (Long Short-Term Memory) 类似，能够有效地处理序列数据并捕捉长期依赖关系。它通过门控机制（更新门和重置门）来解决传统 RNN 中的梯度消失问题。
- 本文关联： PDC 的策略架构使用 GRU 来提供循环记忆 (recurrent memory)，帮助智能体处理部分可观察任务中的时间依赖性。
近端策略优化 (Proximal Policy Optimization, PPO)：
- 概念定义： PPO 是一种基于策略梯度 (policy gradient) 的强化学习算法，旨在在每次迭代中更新策略时，确保新的策略不会与旧策略偏离太远。它通过裁剪 (clipping) 目标函数来限制策略更新的步长，从而提高训练的稳定性和效率。
- 本文关联： 本文使用 PPO 作为训练 PDC 策略的核心强化学习算法。
条件变分自编码器 (Conditional Variational Autoencoder, cVAE)：
- 概念定义： cVAE 是 VAE (Variational Autoencoder) 的一个扩展，它允许生成模型根据某些条件 (condition) 来生成数据。通过在编码器和解码器中都加入条件信息，cVAE 可以学习到给定条件下的数据潜在表示。
- 本文关联： PULSE-X (作为低级控制器) 使用 cVAE 学习条件化的运动潜在空间，能够根据本体感知信息生成类人动作。

3.2. 前人工作

论文回顾了以下几个主要领域的相关工作：

视觉灵巧操作 (Visual Dexterous Manipulation)：
- 研究焦点： 学习模拟和真实世界中灵巧手部的视觉策略，用于抓取和操作物体。
- 主要方法： 主要分为强化学习 (RL) 和行为克隆 (behavior cloning)。
- 常见范式： 通常先在模拟中使用特权物体信息学习 state-space 策略，然后将其蒸馏 (distill) 到视觉策略中。
- 局限性： 这些方法通常假设固定摄像头和静止桌面，不涉及主动感知。对于移动和灵巧的人形机器人，如何决定看向哪里以及如何拿起物体仍是开放问题。
- 本文区别： PDC 属于 RL 方法，但直接从视觉观测学习，不依赖特权信息，并涉及主动感知和全身控制。
全身运动操作 (Whole Body Loco-Manipulation)：
- 研究焦点： 控制模拟和真实人形机器人进行行走和操作任务，需要协调# 1. 论文基本信息

1.1. 标题

Emergent Active Perception and Dexterity of Simulated Humanoids from Visual Reinforcement Learning (来自视觉强化学习的模拟类人机器人涌现主动感知与灵巧操作能力)

1.2. 作者

Zhengyi Luo, Chen Tessler, Toru Lin, Ye Yuan, Tairan He, Wenli Xiao, Yunrong Guo, Gal Chechik, Kris Kitani, Linxi Fan, Yuke Zhu

隶属机构:

Nvidia (英伟达)
Carnegie Mellon University (卡内基梅隆大学)
University of California, Berkeley (加州大学伯克利分校)

1.3. 发表期刊/会议

该论文以预印本 (preprint) 形式发布于 arXiv。鉴于发布时间（2025年），很可能是一篇即将提交或已被接收的顶级会议或期刊论文。

1.4. 发表年份

2025

1.5. 摘要

人类行为的根本在于视觉感知——我们与世界互动的能力取决于主动收集相关信息并相应调整我们的行动。诸如搜索物体、抓取和手眼协调等行为，自然而然地从我们感觉系统的结构中涌现出来。受这些原则的启发，本文引入了感知灵巧控制 (Perceptive Dexterous Control, PDC)，一个用于模拟类人机器人视觉驱动的灵巧全身控制框架。PDC 完全依赖自我中心视觉 (egocentric vision) 进行任务规范，通过视觉线索实现物体搜索、目标放置和技能选择，而无需依赖特权状态信息 (privileged state information) (例如，3D 物体位置和几何形状)。这种“感知即接口 (perception-as-interface)”范式使得学习一个单一策略 (policy) 能够执行多项家庭任务，包括抓取 (reaching)、拾取 (grasping)、放置 (placing) 和关节物体操作 (articulated object manipulation)。研究还表明，从头开始进行强化学习 (Reinforcement Learning, RL) 训练可以产生涌现行为 (emergent behaviors)，如主动搜索 (active search)。这些结果展示了视觉驱动控制和复杂任务如何诱导类人行为，并能成为弥合动画、机器人技术和具身人工智能 (embodied AI) 中感知-行动循环的关键要素。

1.6. 原文链接

原文链接: https://arxiv.org/abs/2505.12278
PDF 链接: https://arxiv.org/pdf/2505.12278v1.pdf 该论文目前处于预印本状态。

2. 整体概括

2.1. 研究背景与动机

论文试图解决的核心问题是什么？

论文旨在解决如何在模拟类人机器人 (simulated humanoids) 中，仅通过自我中心视觉 (egocentric vision) 实现灵巧的全身控制 (dexterous whole-body control)，以执行复杂的日常任务。核心挑战在于弥合视觉感知与高自由度 (high-degree-of-freedom, DoF) 运动控制之间的差距。

为什么这个问题在当前领域是重要的？现有研究存在哪些具体的挑战或空白（Gap）？

人类行为的启发: 人类与世界的互动天然由视觉感知驱动，并能动态调整动作。让机器人具备这种能力是实现通用具身智能 (general embodied AI) 的关键一步。
现有方法的局限性:
- 依赖特权状态信息 (Privileged State Information): 传统的类人机器人控制器在动画和机器人领域通常依赖精确的 3D 物体姿态、形状等“特权信息”，这规避了处理嘈杂视觉输入的挑战，但限制了主动搜索等类人行为的涌现，因为机器人已经“知道”所有物体位置。
- 计算强度高: 视觉输入是高维的 (例如 $128 \times 128 \times 3$ RGB 图像)，而类人机器人控制本身涉及大量自由度，两者结合导致计算量巨大。
- 部分可观测性 (Partial Observability): 仅依赖自我中心视觉意味着机器人只能看到其视野范围内的信息，环境是部分可观测的，这增加了学习难度。
- 强化学习 (RL) 样本效率低: 高维输入和复杂控制任务会加剧 RL 的样本效率问题。
- 任务规范的挑战: 设计一种能够同时执行多任务的输入表示是困难的。现有方法往往依赖任务特定的状态变量 (例如 phase variables) 或模块化状态机 (modular state machines)，这限制了策略在新任务上的适应性。

这篇论文的切入点或创新思路是什么？

论文通过引入 感知灵巧控制 (PDC) 框架，采用了一种“感知即接口 (perception-as-interface)”的范式。其核心创新在于：

完全视觉驱动 (Vision-driven): 策略仅根据自我中心视觉 (RGB, RGB-D, 或 Stereo) 和本体感受 (proprioception) 进行决策，不依赖任何特权状态信息。
视觉线索的任务规范 (Visual Cues for Task Specification): 任务不再通过抽象的状态变量指定，而是通过直接叠加在视觉输入上的视觉线索 (例如物体掩码 object masks、3D 标记 3D markers、彩色方块 colored squares) 来指导机器人执行任务，这使得策略能够以任务无关 (task-agnostic) 的方式学习多任务。
利用运动先验 (Motion Priors): 结合从大规模运动捕捉 (MoCap) 数据中学习到的运动先验 PULSE-X，有效处理高自由度灵巧控制，并诱导类人行为。
在复杂环境中从头开始训练 (Training from Scratch in Complex Environments): 展示了在具有挑战性的家庭环境中从零开始训练 RL 策略，能够产生如主动搜索等涌现行为。

2.2. 核心贡献/主要发现

论文的主要贡献和发现可以总结如下：

实现了视觉驱动的全身灵巧类人机器人控制: 首次展示了在自然istic家庭环境中，仅凭视觉信息就能实现类人机器人的全身灵巧控制，这是一个兼具感知和复杂运动控制的新颖且具有挑战性的任务。
引入了“感知即接口”的任务规范范式: 提出了一种创新的任务规范方式，通过视觉线索（例如物体选择的视觉掩码、目标放置的3D标记、以及技能选择（例如用哪只手、何时抓取和释放）的2D彩色方块）来指导策略，从而消除了对预定义状态变量的需求，并支持单一策略执行多种任务（如抓取、放置、关节物体操作）。
展示了类人涌现行为: 证明了这种视觉驱动方法能够诱导类人行为，包括在复杂环境中（如厨房）的主动搜索（当目标物体或标记不在视野中时，机器人会主动转动头部或身体进行扫描）和全身协调 (whole-body coordination)。
进行了广泛的视觉模态和奖励设计评估: 对不同视觉模态（RGB、RGB-D、Stereo）和奖励设计对行为和任务性能的影响进行了深入评估，发现 Stereo 视觉在成功率上优于 RGB 达 9%，暗示了立体视觉中深度估计的涌现。

3. 预备知识与相关工作

3.1. 基础概念

在深入理解 PDC 框架之前，需要了解以下几个核心概念：

强化学习 (Reinforcement Learning, RL):
- 概念定义: RL 是一种机器学习范式，其中一个智能体 (agent) 通过与环境 (environment) 互动来学习如何在特定情境下采取行动以最大化累积奖励。智能体在每个时间步观察环境的状态 (state)，选择一个行动 (action)，然后环境会根据行动给出奖励 (reward) 并转移到新的状态。
- 本文应用: PDC 使用 RL 训练类人机器人智能体，通过与模拟环境的互动来学习执行各种操作任务。
部分可观测马尔可夫决策过程 (Partially Observed Markov Decision Process, POMDP):
- 概念定义: POMDP 是 MDP（马尔可夫决策过程）的扩展。在 MDP 中，智能体可以完全观测到环境的当前状态。但在 POMDP 中，智能体只能获得环境状态的部分观测 (partial observation)，这意味着它无法直接知道环境的真实状态。因此，智能体需要根据其历史观测和行动来推断当前状态。
- 本文应用: 论文将任务建模为 POMDP，因为类人机器人仅通过自我中心视觉感知环境，其视野受限，无法获得环境中所有物体的精确 3D 位置等完整信息，这使得环境是部分可观测的。
近端策略优化 (Proximal Policy Optimization, PPO):
- 概念定义: PPO 是一种流行的策略梯度 (policy gradient) 型 RL 算法，属于同策略 (on-policy) 算法。它旨在在每次策略更新时，限制新策略与旧策略之间的差异，以防止过大的更新导致性能崩溃。其核心思想是使用裁剪 (clipping) 函数来限制策略比率 (policy ratio)，从而在保持训练稳定性的同时，允许相对较大的更新步长。
- 本文应用: PDC 框架使用 PPO 算法来训练其控制策略。
卷积神经网络 (Convolutional Neural Network, CNN):
- 概念定义: CNN 是一种深度学习模型，特别适用于处理具有网格状拓扑结构的数据，如图像。它通过卷积层 (convolutional layers)、池化层 (pooling layers) 和全连接层 (fully connected layers) 的组合，自动从图像中学习层次化的特征表示。
- 本文应用: PDC 中的策略架构使用 CNN 来处理原始图像输入，提取高层次的空间特征。
门控循环单元 (Gated Recurrent Unit, GRU):
- 概念定义: GRU 是一种循环神经网络 (Recurrent Neural Network, RNN) 的变体，类似于 LSTM，但结构更简单，参数更少。它通过更新门 (update gate) 和重置门 (reset gate) 来控制信息流，以捕捉序列数据中的长期依赖关系，并缓解传统 RNN 中梯度消失的问题。
- 本文应用: PDC 中的策略架构使用 GRU 来提供循环记忆，使智能体能够处理部分可观测任务中的时间依赖性。
多层感知机 (Multi-Layer Perceptron, MLP):
- 概念定义: MLP 是一种前馈神经网络，由至少一个输入层、一个输出层和一个或多个隐藏层组成。每一层都由多个神经元组成，层与层之间通过加权连接。MLP 能够学习复杂的非线性映射。
- 本文应用: PDC 中的策略架构使用 MLP 来处理 CNN 和 GRU 提取的特征，并输出最终的动作。
运动捕捉 (Motion Capture, MoCap):
- 概念定义: MoCap 是一种记录物体或人物运动的技术，通常使用特殊传感器或光学系统追踪目标上的标记点。生成的 MoCap 数据包含精确的 3D 关节位置和姿态信息，常用于动画、电影和游戏开发，以及机器人运动学习。
- 本文应用: PDC 框架利用从大规模 MoCap 数据集（如 AMASS）中学习到的运动先验 (motion priors) PULSE-X，以生成类人机器人更真实、更灵巧的动作。
变分自编码器 (Variational Autoencoder, VAE):
- 概念定义: VAE 是一种生成模型，属于自编码器 (Autoencoder) 的一种变体。它学习数据的一种潜在空间 (latent space) 表示。VAE 的特殊之处在于，它将编码器输出的潜在表示建模为概率分布（通常是高斯分布），而不是单一的潜在向量。这使得 VAE 能够从潜在空间中采样并生成新的、多样化的数据。
- 本文应用: PULSE-X 是一个条件 VAE (cVAE)，用于学习压缩运动技能到潜在表示中，并能从该潜在表示中解码出类人动作。
本体感受 (Proprioception):
- 概念定义: 本体感受 是生物体感知自身身体部位相对位置、运动和作用力的能力。在机器人领域，这通常指机器人自身关节角度、角速度、线速度以及手部接触等内部状态信息。
- 本文应用: PDC 的策略除了视觉输入外，还接收机器人的本体感受作为观测，以更好地了解自身的身体状态。
语义分割 (Semantic Segmentation):
- 概念定义: 语义分割 是计算机视觉中的一项任务，旨在将图像中的每个像素分类到预定义的类别中，从而将图像划分为具有语义意义的区域。输出通常是一个与输入图像大小相同的掩码 (mask)，其中每个像素的值表示其所属的对象类别。
- 本文应用: PDC 使用 2D 语义分割 来生成目标物体的绿色掩码，作为视觉选择机制，帮助机器人识别需要操作的物体。

3.2. 前人工作

视觉灵巧操作 (Visual Dexterous Manipulation)

该领域的研究旨在使模拟或真实的机器人灵巧手能够基于视觉信息进行操作。

主流方法: 大致分为 RL 和行为克隆 (behavior cloning)。
挑战: 现有 RL 方法常先在仿真中利用特权物体信息训练状态空间策略 (state-space policy)，然后将其蒸馏 (distillation) 为视觉策略。这些方法通常假设摄像头固定在静止桌面上，不涉及主动感知，不适用于移动和灵巧的类人机器人。
PDC 的区别: PDC 属于 RL 方法，但直接从视觉输入学习，不依赖特权信息，旨在解决移动和灵巧类人机器人在复杂环境中“看哪里”和“如何拾取物体”的问题。

全身运动操作 (Whole Body Loco-Manipulation)

控制模拟或真实的类人机器人进行运动操作 (loco-manipulate) 需要精确协调下半身和上半身的运动。

参考运动模仿 (Reference Motion Imitation): 部分工作通过模仿参考人机交互动作进行学习。
生成式方法 (Generative Approaches): 另一些工作直接给定高级目标，让机器人自行学习运动。
相关工作:
- Omnigrasp：研究了一种状态空间策略，用于使用任一只手（主要右手）抓取各种物体。
- HumanVLA：学习一种语言条件下的视觉策略，用于房间布置，但不使用灵巧手，且假设目标物体和位置在初始化时始终可见。
- Catch & Carry：学习一种视觉条件策略用于搬运箱子和接球，但使用 phase variables 和特权信息（物体位置）。
PDC 的区别: PDC 与 Omnigrasp 类似但更进一步，它不使用特权信息，支持灵巧手，并学习多种任务，且能从自我中心视觉中实现主动感知。它不像 Catch & Carry 那样依赖 phase variables 或特权信息。

感知即接口 (Perception-as-Interface)

这一理论认为感知功能是指导有用行动的接口，而不是重建 3D 世界。

思想: 视觉信号可以作为策略的指示器，注入常识或指导行动。在游戏和增强现实 (Augmented Reality, AR) 中，3D 标记和视觉信号常用于指示动作或提供指令。
PDC 的区别: PDC 建立在此思想之上，利用图像的冗余性，使用视觉线索代替状态输入作为 RL 策略的接口，从而实现任务规范。

分层强化学习 (Hierarchical Reinforcement Learning)

选项框架 (options framework)（或称技能 (skills)）为 RL 智能体提供了一个抽象层，将高层规划与低层执行分离。

方法: 通常先训练一个低层条件控制器 (low-level latent-conditioned controller, LLC) 来生成多样化的动作库，然后训练一个高层控制器 (high-level controller, HLC) 来利用 LLC，通过预测潜在变量 (latents) 来重用学习到的技能。
本文应用: PDC 采用这种分层结构，利用 PULSE-X 作为可重用的通用低层控制器，这大大降低了复杂场景中学习的复杂度。

终身学习 (Lifelong Learning)

终身学习旨在让智能体在生命周期内持续获取和迁移知识，以应对不可预测的操作环境。

本文应用: PDC 通过视觉线索编码所有任务，使得策略可以在不改变架构的情况下通过微调 (fine-tuning) 学习新任务。这种能力对于 PDC 逐步掌握简单技能并适应复杂场景至关重要。

3.3. 技术演进与差异化分析

技术演进

该领域的技术演进可以概括为从依赖精确、完整环境信息的状态空间控制，向更接近人类感知方式的视觉驱动控制发展。早期工作通常需要 3D 物体姿态、关节信息等“特权信息”来简化问题。随着深度学习和 RL 的发展，研究开始尝试从原始视觉数据中学习，但大多仍局限于固定相机、简单环境或特定任务。分层 RL 和运动先验的引入，使得对高自由度机器人进行复杂运动控制成为可能。

差异化分析

PDC 与现有工作的主要区别和创新点在于：

完全的自我中心视觉输入: PDC 摆脱了对特权状态信息的依赖，仅使用机器人的自我中心视觉和本体感受进行决策，这使得它能更好地模拟人类的感知-行动循环。
“感知即接口”范式: 区别于使用抽象的状态变量、phase variables 或语言指令来指定任务，PDC 直接通过在视觉输入上叠加视觉线索（如掩码、3D 标记、彩色方块）来直观地传达任务意图。这种方式更加灵活，任务无关，且具备无限扩展性（例如，甚至可以使用浮动文本）。
涌现的类人行为: 由于完全的视觉驱动和复杂任务的设置，PDC 能够学习到如主动搜索（当目标不在视野中时主动扫描环境）和全身协调等非预设的类人行为，这是许多依赖特权信息的系统无法实现的。
多任务和泛化能力: 通过这种“感知即接口”的方法，一个单一策略能够学习并适应多个家庭任务（抓取、放置、操作关节物体），并且在面对未见过的物体和场景时表现出良好的泛化能力。
高效利用运动先验: 结合 PULSE-X 运动先验，PDC 能够有效地处理复杂的人形机器人灵巧控制，生成更自然、更像人类的动作，而无需依赖参考运动模仿。

4. 方法论

本节将详细拆解 感知灵巧控制 (Perceptive Dexterous Control, PDC) 框架的技术方案。

4.1. 方法原理

PDC 的核心思想是训练一个策略 (policy)，使其能够根据当前的视觉 (RGB、RGB-D 或 Stereo) 和本体感受 (proprioception) 观测，输出关节驱动 (joint actuation)。整个学习任务被建模为一个部分可观测马尔可夫决策过程 (Partially Observed Markov Decision Process, POMDP)。

一个 POMDP 可以由元组 $\mathcal { M } = \langle { \mathcal { S } } , { \mathcal { O } } , { \mathcal { A } } , { \mathcal { T } } , { \mathcal { R } } , { \boldsymbol { \gamma } } \rangle$ 定义，其中：

$\mathcal { S }$ : 表示所有可能的状态集合 (states)。在模拟环境中，这是完整的模拟状态。
$\mathcal { O }$ : 表示智能体可以获得的所有可能观测集合 (observations)。
$\mathcal { A }$ : 表示所有可能的行动集合 (actions)，即关节驱动。
$\mathcal { T }$ : 表示状态转移动力学 (transition dynamics)，即当前状态和行动如何决定下一个状态的概率分布。
$\mathcal { R }$ : 表示奖励函数 (reward function)，根据当前状态、行动和下一个状态给出奖励。
$\boldsymbol { \gamma }$ : 表示折扣因子 (discount factor)，用于衡量未来奖励的重要性。

模拟器决定了状态 $\mathbf { \boldsymbol { s } } _ { t } \in \mathcal { S }$ 和转移动力学 $\tau$ 。策略 $\pi _ { \mathrm { P D C } } ( \mathbf { a } _ { t } | \mathbf { o } _ { t } )$ 根据部分观测 $\mathbf { o } _ { t } \in \mathcal { O }$ 计算行动 $\mathbf { a } _ { t } \in \mathcal { A }$ 。这里的观测 $\mathbf { o } _ { t }$ 是完整模拟状态 $\mathbf { \boldsymbol { s } } _ { t }$ 的一个部分表示，并结合了任务指令。策略的目标是优化预期折扣奖励 $\mathbb { E } \left[ \sum _ { t = 1 } ^ { T } \gamma ^ { t - 1 } r _ { t } \right]$ ，并通过近端策略优化 (PPO) 算法进行训练。

4.2. 任务定义

PDC 框架在两种主要场景下进行研究：

桌面场景 (Tabletop Setting):
- 环境: 一个孤立在半空中的桌面，视觉背景不复杂。
- 初始状态: 类人机器人面向桌面，桌上有一个物体，但并不直接“看”着物体。
- 任务: 接近桌面，拾取物体，将其移动到指定的 3D 位置，然后放下。
- 目的: 为视觉灵巧抓取学习提供一个受控的训练环境。
自然厨房环境 (Naturalistic Kitchen Environment):
- 环境: 包含多样化物体、随机摆放和可操作关节柜子的逼真厨房场景。
- 挑战: 具有逼真的背景、干扰物体 (distractor objects) 和可操作的抽屉。
- 任务:
  - 物体运输任务 (Object Transport Task): 物体位置未知，类人机器人必须首先定位目标物体，拾取它，将其运送到指定的 3D 位置，然后释放。
  - 关节柜子任务 (Articulated Cabinets Task): 智能体需要根据指令打开或关闭指定的柜子。

场景生成 (Scene Generation)

为了创建多样化的环境，论文利用 SceneSynthesizer 工具生成了六种不同类型的厨房（例如，走廊式、L 形、带岛台等）。每种类型都生成了 80 种随机配置，包括结构元素（柜子数量和位置）和表面纹理的变化。在每个生成的场景中，预先计算了 20 个有效的类人机器人生成位置和 64 个物体放置位置，确保所有元素之间没有几何交叉或场景穿透。最终创建了 512 个环境用于训练，64 个用于测试。

4.3. 视觉感知接口 (The Visual Perception Interface)

为了实现视觉驱动的任务规范，PDC 采用“感知即接口”的设计理念，通过视觉信号直接向策略传达任务指令，而非传统的相变量 (phase variables) 或模块化状态机 (modular state machines)。这使得策略能够在不改变架构的情况下，通过微调适应新任务。

以下是 PDC 中使用的具体视觉指示器：

4.3.1. 对象选择 (Object Selection)

挑战: 在包含多个物体的厨房场景中，精确指定目标物体是一个难题，尤其是在缺乏精确位置信息的情况下。
解决方案: 采用 2D 语义分割 (2D semantic segmentation) 技术。通过使用分割掩码 (segmentation mask)，在图像空间中直接以鲜明的亮绿色叠加层突出显示目标物体。这种视觉差异化使智能体能够识别正确的物体。
抽屉操作区分: 为了区分物体抓取和抽屉开启任务，抽屉把手被涂成亮红色。

4.3.2. 对象到达目标 (Object Reaching Goals)

挑战: 传统上 3D 目标位置可以指定目标，但对于物体搜索或开柜门等任务可能显得冗余，且缺乏对新场景的适应性。
解决方案: 在智能体的视野中直接渲染一个 3D 箭头来指示期望的目的地。这个接口类似于 3D 游戏或 AR 应用程序中常用的信息标记，为操作任务提供了直观且视觉上接地气的目标。

4.3.3. 手性、抓取和释放时间 (Handedness, Pickup Time, and Release Time)

目的: 训练智能体进行双手控制 (bimanual control)，使其能够根据指令使用左手、右手或双手，并按指令拾取和放置物体。
解决方案: 在视觉视野的左上角和右上角着色以指示应使用哪只手抓取物体。
- 白色方块: 表示手应保持空闲 (idle)。
- 紫色方块: 表示手应准备接触但目前未接触 (should remain idle, but be ready to engage)。
- 蓝色方块: 表示手当前应主动接触 (active contact now)，即正在抓取。
时机控制: 紫色信号指导类人机器人确定使用哪只手伸向物体。抓取和放置物体的时间也是通过视觉线索（colored squares）进行指令的。

下图（原文 Figure 3）展示了 感知即接口 的视觉信号：

该图像是一个示意图，展示了图3中Perceptive Dexterous Control（PDC）如何通过视觉信号指导策略。图中通过绿色遮罩标示兴趣物体，蓝色三维标记指示目标位置，彩色二维方块（顶角）指示使用哪只手及把握或释放时机。 替代文本: Figure 3. Perception-as-Interface: PDC instructs the policy through visual signals. We overlay the object of interest using a green mask, use a 3D blue marker to indicate target location, and use colored 2D squares (top corners) to inform the agent which hand to use and when to grasp and release.

4.4. 学习感知灵巧控制 (Learning Perceptive Dexterous Control)

4.4.1. 观测 (Observation)

策略的观测 $\mathbf { o } _ { t }$ 由两部分组成：本体感受 $\mathbf { o } _ { t } ^ { \mathrm { p } }$ 和相机图像 $\mathbf { I } _ { t }$ 。

本体感受 (Proprioception) $\mathbf { o } _ { t } ^ { \mathrm { p } }$ : 包含关节旋转 $\pmb { \theta } _ { t } \in \mathbb { R } ^ { J \times 3 }$ 、关节位置 $\pmb { p } _ { t } \in \mathbb { R } ^ { J \times 3 }$ 、线速度 $\boldsymbol { v } _ { t } \in \mathbb { R } ^ { J \times 3 }$ 、角速度 $\boldsymbol { \omega } _ { t } \in \mathbb { R } ^ { J \times 3 }$ ，以及手部接触信息 $\mathbf { c } _ { t } \in \mathbb { R } ^ { J _ { H } \times 3 }$ 。其中 $J$ 是所有关节的数量， $J_H$ 是手部关节的数量。
相机图像 (Camera Image) $\mathbf { I } _ { t }$ : 论文评估了不同分辨率和模态的视觉输入：
- RGB: $(128 \times 128 \times 3)$
- RGBD: $(100 \times 100 \times 4)$ (深度通道作为额外通道)
- Stereo: $(2 \times 80 \times 80 \times 3)$ (两个 $80 \times 80 \times 3$ 图像)。
- 较小尺寸的 RGBD 和 Stereo 是由于 GPU 内存限制。

4.4.2. 奖励 (Reward)

为了帮助和引导智能体的行为，PDC 提供了密集奖励 (dense rewards)，因为 RL 智能体在面对稀疏目标时 (例如，只有在物体放置到标记上时才获得奖励) 学习困难。

对于抓取任务，奖励函数 $\mathbf { r } _ { t } ^ { \mathrm { PDC } }$ 分为四个顺序阶段，由用户提供的时间调度器 (time scheduler) 决定智能体应处于接近、抓取还是释放阶段。

抓取任务奖励函数: $\begin{array} { r } { r _ { t } ^ { \mathrm { P D C } } = \left\{ \begin{array} { l l } { r _ { t } ^ { \mathrm { a p p r o a c h } } + r _ { t } ^ { \mathrm { l o o k a t } } , } & { \| \hat { p } ^ { \mathrm { p r e - g r a s p } } - p _ { t } ^ { \mathrm { H } } \| _ { 2 } > 0 . 2 ~ \mathrm { a n d } ~ t < \lambda _ { \mathrm { s t a r t } } } \\ { r _ { t } ^ { \mathrm { p r e - g r a s p } } + r _ { t } ^ { \mathrm { l o o k a t } } , } & { \| \hat { p } ^ { \mathrm { p r e - g r a s p } } - p _ { t } ^ { \mathrm { H } } \| _ { 2 } \leq 0 . 2 ~ \mathrm { a n d } ~ t < \lambda _ { \mathrm { s t a r t } } } \\ { r _ { t } ^ { \mathrm { o b j } } + r _ { t } ^ { \mathrm { l o o k a t } } , } & { \lambda _ { \mathrm { s t a r t } } \leq t < \lambda _ { \mathrm { e n d } } } \\ { ( 1 - \mathbf { 1 } _ { \mathrm { h a s - co n t a c t } } ) , } & { t \geq \lambda _ { \mathrm { e n d } } } \end{array} \right. } \end{array}$ 其中：

$\lambda _ { \mathrm { s t a r t } }$ : 指示抓取应该开始的帧时间。
$\lambda _ { \mathrm { e n d } }$ : 指示抓取应该结束（物体应该释放）的帧时间。
$\mathbf { p } _ { t } ^ { \mathrm { H } }$ : 表示手部的位置。
$\hat { p } ^ { \mathrm { p r e - g r a s p } }$ : 表示预抓取姿态的平移部分。
$\hat { \theta } ^ { \mathrm { p r e - g r a s p } }$ : 表示预抓取姿态的旋转部分。预抓取姿态 (pre-grasp) $\hat { q } ^ { \mathrm { p r e - g r a s p } } = (\hat { p } ^ { \mathrm { p r e - g r a s p } } , \hat { \theta } ^ { \mathrm { p r e - g r a s p } } )$ 是一个预先计算的单手姿态。

四个阶段的具体奖励项分解:

接近阶段 (Approach Phase): 当手距离目标物体较远 ( $\| \hat { p } ^ { \mathrm { p r e - g r a s p } } - p _ { t } ^ { \mathrm { H } } \| _ { 2 } > 0 . 2$ ) 且抓取开始时间未到 ( $t < \lambda _ { \mathrm { s t a r t } }$ ) 时，给予接近奖励 $\mathbf { r } _ { t } ^ { \mathrm { approach } }$ 。
- $\mathbf { r } _ { t } ^ { \mathrm { approach } } = \| \hat { p } ^ { \mathrm { p r e - g r a s p } } - p _ { t - 1 } ^ { \mathrm { H } } \| _ { 2 } - \| \hat { p } ^ { \mathrm { p r e - g r a s p } } - p _ { t } ^ { \mathrm { H } } \| _ { 2 }$ ：鼓励手部靠近预抓取位置。
预抓取阶段 (Pre-grasp Phase): 当手距离目标物体足够近 ( $\| \hat { p } ^ { \mathrm { p r e - g r a s p } } - p _ { t } ^ { \mathrm { H } } \| _ { 2 } \leq 0 . 2$ ) 且抓取开始时间未到 ( $t < \lambda _ { \mathrm { s t a r t } }$ ) 时，给予更精确的预抓取奖励 $\mathbf { r } _ { t } ^ { \mathrm { pre-grasp } }$ 。
- $\mathbf { r } _ { t } ^ { \mathrm { pre-grasp } } = w _ { \mathrm { hp } } e ^ { - 100\| \hat { p } ^ { \mathrm { p r e - g r a s p } } - p _ { t } ^ { \mathrm { H } } \| _ { 2 } \times \mathbf { 1 } \{ \| \hat { p } ^ { \mathrm { p r e - g r a s p } } - \hat { p } _ { t } ^ { \mathrm { obj } } \| _ { 2 } \leq 0 . 2 \} } + w _ { \mathrm { hr } } e ^ { - 100\| \hat { \pmb { \theta } } ^ { \mathrm { p r e - g r a s p } } - \pmb { \theta } _ { t } ^ { \mathrm { hand } } \| _ { 2 } }$ : 鼓励手部位置和旋转与预计算的预抓取姿态匹配。 $\mathbf { 1 } \{ \cdot \}$ 是指示函数，当条件满足时为 1，否则为 0。
物体 3D 位置奖励阶段 (Object 3D Location Reward Phase): 如果物体成功抓取，从抓取开始时间 ( $\lambda _ { \mathrm { s t a r t } }$ ) 到抓取结束时间 ( $\lambda _ { \mathrm { e n d } }$ ) 之间，给予物体目标奖励 $\mathbf { r } _ { t } ^ { \mathrm { obj } }$ 。
- $\mathbf { r } _ { t } ^ { \mathrm { obj } } = e ^ { -5\| \pmb { p } _ { t } ^ { \mathrm { target } } - \pmb { p } _ { t } ^ { \mathrm { obj } } \| _ { 2 } } \times \mathbf { 1 } _ { \mathrm { correct-hand } }$ : 鼓励物体被移动到特定的目标 3D 位置。 $\mathbf { 1 } _ { \mathrm { correct-hand } }$ 是一个指示随机变量，判断是否正确的手接触了物体。
释放阶段 (Release Phase): 抓取结束时间 ( $t \geq \lambda _ { \mathrm { e n d } }$ ) 之后，给予释放奖励 $(1 - \mathbf { 1 } _ { \mathrm { has-contact } })$ 。
- $\mathbf { 1 } _ { \mathrm { has-contact } }$ : 判断是否有任何手与物体接触。鼓励智能体释放物体。

注视奖励 (Look-at Reward): 注视奖励 $\mathbf { r } _ { t } ^ { \mathrm { lookat } }$ 也是时间条件性的。 $r _ { t } ^ { \mathrm { l o o k a t } } = \left\{ \begin{array} { l l } { r _ { t } ^ { \mathrm { l o o kat-object } } , } & { \mathrm { a n d } t < \lambda _ { \mathrm { s t a r t } } } \\ { r _ { t } ^ { \mathrm { l o o kat-marker } } , } & { \mathrm { a n d } t \geq \lambda _ { \mathrm { s t a r t } } } \end{array} \right.$

在抓取开始时间之前，机器人因注视物体而获得奖励。
在抓取开始时间之后，机器人因注视 3D 目标标记而获得奖励。
注视奖励计算公式: $\mathbf { r } _ { \mathrm { lookat } } = \bar { 1 } - \sqrt { 1 - ( { \bf v } _ { \mathrm { gaze } } \cdot { \bf v } _ { \mathrm { eye-target } } ) }$
- $\mathbf { v } _ { \mathrm { gaze } }$ : 机器人的注视向量 (gaze vector)。
- $\mathbf { v } _ { \mathrm { eye-target } }$ : 眼睛到目标（物体或标记）的向量。
- 这个奖励项鼓励策略始终看向目标。当物体不在视野中时，它会促使机器人进行搜索（左右环顾）。

抽屉开启奖励 (Drawer Opening Reward):

对于抽屉开启任务，使用与抓取任务相同的预抓取和接近奖励。
物体 3D 位置奖励 $\mathbf { r } _ { t } ^ { \mathrm { obj } }$ 被替换为抽屉开启奖励 $\mathbf { r } _ { t } ^ { \mathrm { drawer } }$ ，其定义为抽屉打开的角度（由 IsaacLab 定义），并裁剪到 0 和 1 之间。

4.4.3. 早期终止 (Early Termination)

早期终止机制对于塑造智能体行为至关重要，因为它能提供强烈的负面奖励信号。在以下情况会提前终止训练回合：

在抓取开始时间 $\lambda _ { \mathrm { s t a r t } }$ 时，智能体未能接触到物体。
在抓取结束时间 $\lambda _ { \mathrm { e n d } }$ 之后，智能体仍然与物体接触。
如果目标物体与标记的距离超过 0.25 m 持续超过 2 秒。

4.4.4. 策略架构 (Policy Architecture)

PDC 采用了一个简单的 CNN-GRU-MLP 架构，如下图（原文 Figure 4）所示：

该图像是论文中关于感知式灵巧控制（PDC）框架的数据流示意图，展示了基于视觉和本体感受信息的输入，经过CNN和MLP处理，再通过GRU与运动先验相结合生成动作，最后驱动IsaacLab模拟环境中的类人机器人执行任务。

CNN (Convolutional Neural Network): 用于处理原始图像输入，提取高层次的空间特征。考虑到图像条件 RL 策略训练时数据吞吐量大，采用了在 sim-to-real 机器人设置中常用的简单三层 CNN 架构。
- 对于 RGBD 图像，深度通道被视为一个额外的图像通道。
- 对于 Stereo 图像，使用孪生网络 (Siamese network)，用相同的 CNN 处理两幅图像，然后将提取的特征连接起来。
GRU (Gated Recurrent Unit): 提供循环记忆 (recurrent memory)，使智能体能够处理部分可观测任务中的时间依赖性。
MLP (Multi-Layer Perceptron): 将 CNN 和 GRU 的输出进行整合，并生成最终的动作。
预训练视觉编码器: 实验也尝试了使用在分类任务上预训练的冻结 ResNet 和 ViT 等视觉编码器，但它们在 PDC 的设置中表现不佳。

4.4.5. 人形运动表示 (Humanoid Motion Representation)

由于控制具有灵巧手的高维类人机器人非常困难，许多现有工作依赖于参考运动模仿或对单一动作类型进行过拟合。PDC 没有使用任何参考运动，而是利用了最近提出的 PULSE-X 作为可重用的通用低层控制器 (low-level controller)。

PULSE-X: 这是一个条件变分自编码器 (cVAE)，经过训练可以从 AMASS MoCap 数据集中重现运动。在高层上，PULSE-X 学习一个本体感受条件下的潜在空间 (proprioception-conditioned latent space)，该空间可以解码为类人动作 $\mathcal { D } _ { \mathrm { PULSE-X } } ( \mathbf { \boldsymbol { a } } _ { t } | \boldsymbol { z } _ { t } ^ { \mathrm { PDC } } , \mathbf { \boldsymbol { o } } _ { t } ^ { \mathrm { p } } )$ 。
分层 RL (Hierarchical RL): 借助 PULSE-X，PDC 定义其动作空间为关于 PULSE-X 先验的残差动作 (residual action)。策略 $\pi _ { \mathrm { PDC } }$ $π_{PDC}$ 不直接计算关节驱动 $\mathbf { a } _ { t }$ $a_{t}$ ，而是计算一个潜在变量 $\mathbf { z } _ { t } ^ { \mathrm { PDC } }$ ，然后通过 PULSE-X 的解码器生成最终动作。 $\begin{array} { r } { \pmb { a } _ { t } = \pmb { \mathcal { D } } _ { \mathrm { P U L S E - X } } \big ( \pi _ { \mathrm { P D C } } \big ( \boldsymbol { z } _ { t } ^ { \mathrm { P D C } } \big | \boldsymbol { o } _ { t } ^ { \mathrm { p } } , \boldsymbol { I } _ { t } \big ) , \boldsymbol { o } _ { t } ^ { \mathrm { p } } \big ) } \end{array}$ 其中：
- $\pmb { a } _ { t }$ : 最终的关节驱动。
- $\pmb { \mathcal { D } _ { \mathrm { PULSE-X } } ( \cdot ) }$ : PULSE-X 的解码器，将潜在变量和本体感受转换为动作。
- $\pi _ { \mathrm { P D C } } ( \cdot )$ : PDC 的策略，根据本体感受 $\boldsymbol { o } _ { t } ^ { \mathrm { p } }$ 和图像 $\boldsymbol { I } _ { t }$ 计算 PDC 的潜在变量 $\boldsymbol { z } _ { t } ^ { \mathrm { PDC } }$ 。
- $\boldsymbol { z } _ { t } ^ { \mathrm { PDC } }$ : PDC 策略输出的潜在变量，用于指导 PULSE-X 生成动作。
- $\boldsymbol { o } _ { t } ^ { \mathrm { p } }$ : 当前时间步的本体感受观测。
- $\boldsymbol { I } _ { t }$ : 当前时间步的相机图像观测。这种方法利用了 PULSE-X 学习到的高品质运动技能，使得 PDC 能够生成类人动作。

4.4.6. 训练过程 (Training Procedure)

优化: 采用标准的同策略 (on-policy) RL 训练过程 PPO，交替进行样本收集和策略更新。
暖启动 (Warm-start): 为了成功解决厨房场景的挑战，通过使用训练好的桌面策略对厨房场景策略进行暖启动 (warm-start)。
多任务训练: 厨房场景中，一半的环境用于学习抓取任务，另一半用于学习打开抽屉。这种 感知即接口 的范式使得桌面智能体学习到的抓取能力可以复用到厨房场景。

5. 实验设置

5.1. 数据集

训练与测试对象 (GRAB Dataset)

论文使用了 GRAB 数据集的子集。

训练集: 包含 25 种家用物品（例如，碗、锤子、手电筒、鼠标、鸭子、酒杯、剪刀、飞机、订书机、中型圆环、香蕉、小圆柱体、水瓶、手表、邮票、闹钟、耳机、手机、中型圆柱体、长笛、杯子、煎锅、灯泡、牙刷、刀），这些物体在 MoCap 数据中被频繁使用。
测试集: 包含 5 种未见过的物体（苹果、双筒望远镜、相机、马克杯、牙膏），用于评估泛化能力。
预抓取信息: 从 GRAB 数据集提供的 MoCap 记录中获取预抓取 (pre-grasp) 姿态和手部指定信息（例如，如果预抓取使用双手，则该回合将使用双手）。

其他数据集

AMASS 数据集: 用于训练 PULSE-X （人形运动先验），AMASS 是一个大规模的运动捕捉数据集，包含各种人类运动。
Interhand 和 GRAB 数据集: 用于增强 AMASS 数据集的全身运动，增加随机选择的手部运动，以提高策略的灵巧性。
OMOMO 和 Oakink 数据集: 提供了额外的定性结果，用于展示 PDC 在更大、更多样化物体上的能力（详见补充网站）。

数据集中的样本示例

虽然论文中没有直接展示数据集的原始样本图像，但图 2、图 5、图 6、图 7 和图 8 展示了模拟环境中，智能体与这些数据集中的对象进行交互的示例。

图 2 展示了不同厨房布局中，类人机器人在操作物体或抽屉的场景。
图 5 展示了类人机器人用左手、右手或双手抓取不同物体（如水瓶、马克杯）的视角。
图 6 展示了类人机器人搜索、抓取和打开抽屉的序列。
图 7 展示了用双手抓取大物体和在代理相机视角下的情况。
图 8 展示了在复杂环境中拾取物体和打开抽屉的更多例子。

这些图像直观地展示了数据集中物体在模拟环境中的外观以及智能体与之交互的方式。

5.2. 评估指标

桌面场景 (Tabletop Scenario)

在桌面场景中，智能体的目标是拾取物体、跟踪位于桌面 30 厘米处的标记，然后释放物体。

成功率 (Success Rate, Succ $\uparrow$ ):
- 概念定义: 一个回合被认为是成功的，如果类人机器人使用正确的手拾取物体，到达目标位置（距离目标标记小于 25 厘米），然后成功放下物体。动作序列是时间条件性的，通过视觉线索指定。策略有 2 秒钟来拾取物体，2 秒钟来到达目标。
- 数学公式: 论文未直接给出公式，但根据定义，可表示为： $\text{Succ} = \frac{\text{成功回合数}}{\text{总回合数}} \times 100\%$
- 符号解释:
  - $\text{成功回合数}$ : 满足所有成功条件的回合数量。
  - $\text{总回合数}$ : 进行评估的总回合数量。
右手游成功率 ( $\mathrm { Succ } _ { \mathrm { { r i g h t } } }$ $\uparrow$ ): 特定于使用右手完成任务的成功率。
左手游成功率 ( $\mathrm { Succ } _ { \mathrm { l e f t } }$ $\uparrow$ ): 特定于使用左手完成任务的成功率。
双手成功率 ( $\mathrm { Succ } _ { \mathrm { b i } }$ $\uparrow$ ): 特定于使用双手完成任务的成功率。
- 概念定义: 同成功率，但限定了使用的手。
- 数学公式: 同成功率，但分母和分子限定为对应手部的回合数。
- 符号解释: 同成功率。
对象与视觉标记距离 ( $E _ { \mathrm { p o s } }$ $\downarrow$ ):
- 概念定义: 物体被拾取后，物体中心点与视觉标记中心点之间的距离。该指标以毫米 (mm) 为单位报告。
- 数学公式: 论文未直接给出公式，但可根据距离定义： $E _ { \mathrm { p o s } } = \| \mathbf{p}_{\text{object}} - \mathbf{p}_{\text{marker}} \|_2$
- 符号解释:
  - $\mathbf{p}_{\text{object}}$ : 物体的 3D 中心位置。
  - $\mathbf{p}_{\text{marker}}$ : 视觉标记的 3D 中心位置。
  - $\| \cdot \|_2$ : 欧几里得范数（L2 距离）。

厨房场景 (Kitchen Scenes)

在厨房场景中，任务更具挑战性，包括搜索、抓取、移动和操作抽屉。

搜索成功率 ( $\mathtt { S u c c } _ { \mathtt { s e a r c h } }$ $\uparrow$ ):
- 概念定义: 衡量目标物体是否成功进入智能体的视野。
- 数学公式: 论文未直接给出公式，但可表示为： $\text{Succ}_{\text{search}} = \frac{\text{目标物体进入视野的回合数}}{\text{总回合数}} \times 100\%$
- 符号解释:
  - $\text{目标物体进入视野的回合数}$ : 目标物体成功被智能体观察到的回合数量。
  - $\text{总回合数}$ : 进行评估的总回合数量。
抓取成功率 ( $\mathrm { S u c c } _ { \mathrm { g r a s p } }$ $\uparrow$ ):
- 概念定义: 衡量是否正确抓取了目标物体。
- 数学公式: 论文未直接给出公式，但可表示为： $\text{Succ}_{\text{grasp}} = \frac{\text{正确抓取目标物体的回合数}}{\text{总回合数}} \times 100\%$
- 符号解释:
  - $\text{正确抓取目标物体的回合数}$ : 成功抓取由视觉线索指定的物体的回合数量。
  - $\text{总回合数}$ : 进行评估的总回合数量。
轨迹跟随成功率 ( $\mathrm { S u c c } _ { \mathrm { t r a j } }$ $\uparrow$ ):
- 概念定义: 衡量物体是否跟随目标轨迹（距离目标小于 25 厘米），并在任务结束时成功释放。
- 数学公式: 论文未直接给出公式，但可表示为： $\text{Succ}_{\text{traj}} = \frac{\text{成功跟随轨迹并释放的回合数}}{\text{总回合数}} \times 100\%$
- 符号解释:
  - $\text{成功跟随轨迹并释放的回合数}$ : 物体在目标位置附近释放的回合数量。
  - $\text{总回合数}$ : 进行评估的总回合数量。
抽屉开启成功率 ( $\mathrm { S u c c } _ { \mathrm { d r a w e r } }$ $\uparrow$ ):
- 概念定义: 衡量策略开启指定抽屉的能力。
- 数学公式: 论文未直接给出公式，但可表示为： $\text{Succ}_{\text{drawer}} = \frac{\text{成功开启抽屉的回合数}}{\text{总回合数}} \times 100\%$
- 符号解释:
  - $\text{成功开启抽屉的回合数}$ : 抽屉被打开到足够程度的回合数量。
  - $\text{总回合数}$ : 进行评估的总回合数量。

运动模仿任务 (`PULSE-X` 和 `PHC-X`)

在运动模仿任务中，评估 PHC-X 和 PULSE-X 复制参考运动的性能。

成功率 (Succ $\uparrow$ ):
- 概念定义: 衡量模仿参考运动的成功率。
- 数学公式: 同上。
平均每关节位置误差 (Mean per-joint position error, $E _ { \mathrm { g-m p j p e } }$ $\downarrow$ ):
- 概念定义: 模拟类人机器人关节与参考运动关节之间的全局平均位置误差，以毫米 (mm) 为单位。
- 数学公式: 论文未直接给出公式，但通常计算为每个关节位置误差的平均值。 $E _ { \mathrm { g-m p j p e } } = \frac{1}{T \cdot J} \sum_{t=1}^T \sum_{j=1}^J \| \mathbf{p}_{t,j}^{\text{sim}} - \mathbf{p}_{t,j}^{\text{ref}} \|_2$
- 符号解释:
  - $T$ : 时间步总数。
  - $J$ : 关节总数。
  - $\mathbf{p}_{t,j}^{\text{sim}}$ : 模拟机器人在时间 $t$ 时关节 $j$ 的 3D 位置。
  - $\mathbf{p}_{t,j}^{\text{ref}}$ : 参考运动在时间 $t$ 时关节 $j$ 的 3D 位置。
局部关节位置误差 (Local joint position error, $E _ { \mathrm { m p j p e } }$ $\downarrow$ ):
- 概念定义: 模拟类人机器人局部坐标系下关节与参考运动关节之间的平均位置误差，以毫米 (mm) 为单位。
- 数学公式: 论文未直接给出公式，但与全局位置误差类似，只是在局部坐标系下计算。
加速度误差 (Acceleration error, $E _ { \mathrm { a c c } }$ $\downarrow$ ):
- 概念定义: 模拟机器人关节与参考运动关节之间的平均加速度误差，以毫米/帧 $^2$ (mm/frame $^2$ ) 为单位。
- 数学公式: 论文未直接给出公式，通常计算为加速度的欧几里得距离。
速度误差 (Velocity error, $E _ { \mathrm { v e l } }$ $\downarrow$ ):
- 概念定义: 模拟机器人关节与参考运动关节之间的平均速度误差，以毫米/帧 (mm/frame) 为单位。
- 数学公式: 论文未直接给出公式，通常计算为速度的欧几里得距离。

5.3. 对比基线

由于视觉灵巧全身控制的研究较少，论文主要与一个修改过的最先进 (state-of-the-art) 状态空间策略 Omnigrasp 进行比较。

Omnigrasp 基线:
- 原始版本: Omnigrasp 旨在用状态空间策略抓取多样化物体。
- 修改版本: 论文对其进行了扩展，使其支持手部指定 (hand specification) 和放下物体。
- 特性: 该策略始终能观测到物体和目标位置的特权状态信息 (privileged state information)，因此被视为预言机策略 (oracle policy)。
- 训练: 使用与视觉控制器完全相同的奖励函数进行训练，包括注视奖励 (look-at reward)。
- 观察输入 (Appendix C.1 描述): $o _ { t } ^ { \mathrm { { O m n i g r a s p } } } \triangleq ( o _ { t } ^ { \mathrm { { p } } } , p _ { t } ^ { \mathrm { { o b j } } } , \theta _ { t } ^ { \mathrm { { o b j } } } , \sigma ^ { \mathrm { { o b j } } } , \hat { p } _ { t + 1 } ^ { \mathrm { { o b j } } } , h _ { t } ) ,$ 其中：
  - $o _ { t } ^ { \mathrm { { p } } }$ : 本体感受 (proprioception)。
  - $p _ { t } ^ { \mathrm { { o b j } } } \in \mathcal { R } ^ { 3 }$ : 物体平移 (object translation)。
  - $\theta _ { t } ^ { \mathrm { { o b j } } } \in \mathcal { R } ^ { 6 }$ : 物体旋转 (object rotation)。
  - $\sigma ^ { \mathrm { { o b j } } } \in \mathcal { R } ^ { 512 }$ : 物体形状潜在编码 (object shape latent code)，通过 BPS 使用 512 个随机点计算。这些都是特权信息。
  - $\hat { p } _ { t + 1 } ^ { \mathrm { 0 b j } } \in \mathcal { R } ^ { 3 }$ : 指定物体质心应该在的 3D 位置。
  - $h _ { t } \in \mathcal { R } ^ { 512 }$ : 提供关于使用哪只手以及何时抓取和放下的信息。 $\pmb { h } _ { t } \triangleq ( \pmb { h } _ { t } ^ { \mathrm { l e f t } } , \pmb { h } _ { t } ^ { \mathrm { r i g h t } } , \pmb { h } _ { t } ^ { \mathrm { t i m e } } )$ ，其中 $\pmb { h } _ { t } ^ { \mathrm { l e f t } } \in \mathcal { R } ^ { 1 }$ 或 $\pmb { h } _ { t } ^ { \mathrm { r i g h t } } \in \mathcal { R } ^ { 1 }$ 指示使用左手或右手， $\pmb { h } _ { t } ^ { \mathrm { t i m e } } \in \mathbb { R } ^ { 10 }$ 以 0.1 秒的间隔编码未来一秒内是否应该抓取或释放物体。

5.4. 实施细节

模拟环境: 使用 NVIDIA IsaacLab 进行仿真，并采用平铺渲染 (tiled rendering) 技术。
硬件: 为了应对视觉 RL 训练中巨大的数据吞吐量，使用 8 块 Nvidia L40 GPU，每块 GPU 并行模拟 192 个环境。
模拟与控制频率: 仿真以 120 Hz 运行，而控制策略以 30 Hz 运行。
训练时长: 桌面策略训练需要大约 5 天才能收敛。将训练好的桌面策略微调到厨房场景需要额外 5 天。这相当于大约 $5 \times 10^9$ 个样本，大约 4 年的经验。
类人机器人模型: 遵循 SMPL-X 的运动学结构，使用平均身体形状。该类人机器人有 $J=52$ 个关节，其中 51 个是可驱动的。在这些关节中，21 个属于身体，其余 $J_H=30$ 个关节用于两只手。所有关节都是 3 自由度 (DoF) 的球形关节，通过 PD 控制器 驱动，导致动作空间为 $\pmb { a } _ { t } \in \mathbb { R } ^ { 51 \times 3 }$ 。
摄像头设置: 为了模拟人类感知，摄像头安装在类人机器人的头部，大致在眼睛的位置。对于立体视觉 (Stereo)，两个摄像头相距 6 厘米，类似于人类双眼间距。
网络架构 (Appendix C.3):
- CNN: 两层 CNN，每层 32 个通道，生成 128 维的潜在特征空间 $\mathcal { R } ^ { 128 }$ 。
- MLP: 6 层 MLP，单元数为 (2048, 2048, 1024, 1024, 512, 512)，使用 silu 激活函数。
- GRU: 一层 GRU，128 个隐藏单元。
超参数 (Appendix C.3): PDC、PHC-X 和 PULSE-X 的超参数在附录中给出，并且在视觉策略和状态空间策略之间没有显著改变，表明 PPO 在不同任务中的鲁棒性。

6. 实验结果与分析

6.1. 核心结果分析

桌面场景：物体举起 (Tabletop: Object Lifting)

以下是原文 Table 1 的结果：

Method	Vision	GRAB-Train (25 seen objects)			GRAB-Test (5 unseen objects)
Method	Vision	Succ ↑	Epos ↓	Succ_right ↑	Epos ↓	Succ_left ↑	Epos ↓	Succ_bi ↑	Epos ↓	Succ ↑	Epos ↓	Succ_right ↑	Epos ↓	Succ_left ↑	Epos ↓	Succ_bi ↑	Epos ↓
Omnigrasp	×	99.1%	8.9	99.1%	8.9	98.7%	13.0	99.7%	12.5	70.6%	11.2	70.4%	11.2	-	-	100.0%	18.7
PDC-RGB	✓	87.5%	74.4	88.7%	72.6	83.0%	77.4	78.7%	98.3	90.1%	100.5	90.0%	101.0	-	-	100.0%	39.1
PDC-RGBD	✓	86.9%	61.5	88.1%	60.7	80.1%	68.6	83.9%	59.5	85.2%	74.6	85.1%	74.8	-	-	100.0%	41.8
PDC-stereo	✓	96.4%	51.9	96.9%	47.7	92.9%	79.2	87.7%	57.5	91.8%	61.0	85.8%	61.1	-	-	100.0%	41.6

分析:

泛化能力: Oracle 状态空间策略 Omnigrasp 在训练集上成功率很高（99.1%），但在测试集（未见过的物体）上成功率显著下降到 70.6%，这表明其对物体形状的特权信息存在过拟合。相比之下，PDC 系列视觉策略在训练集和测试集上的成功率差异较小（例如 PDC-stereo 训练集 96.4% vs 测试集 91.8%），显示出更好的泛化能力。这强调了视觉信息在处理未见物体时的优势。
视觉模态的影响:
- Stereo 视觉模态 (PDC-stereo) 在所有 PDC 变体中表现最佳，总成功率达到 96.4% (训练集) 和 91.8% (测试集)，甚至优于 RGBD。这暗示了立体视觉中深度估计能力的涌现，对于抓取和目标到达任务非常有益。
- RGBD 表现次之，优于纯 RGB。
手性表现: 由于 GRAB 数据集中大多数参考预抓取姿态使用右手，PDC 在使用右手时表现最好。左手和双手操作的成功率相对较低，反映了数据分布的偏差。
位置误差 ( $E _ { \mathrm { p o s } }$ ): Omnigrasp 具有最低的位置误差，这是因为它拥有特权状态信息，能够精确知道物体和目标位置。PDC-stereo 在视觉策略中位置误差最低，再次证明了其在视觉感知方面的优势。

厨房场景：搜索、抓取、移动和抽屉 (Kitchen Scenes: Search, Grasp, Move, and Drawers)

以下是原文 Table 2 的结果：

Method	GRAB-Train, Scene-Train			GRAB-Test, Scene-Train			GRAB-Test, Scene-Test			Drawer, Scene-Train	Drawer, Scene-Test
Method	Succ_search ↑	Succ_grasp ↑	Succ_traj ↑ Epos ↑	Succ_search ↑	Succ_grasp ↑	Succ_traj ↑ Epos ↑	Succ_search ↑	Succ_grasp ↑	Succ_traj ↑ Epos ↑	Succ_drawer ↑	Succ_drawer ↑
PDC- Stereo	98.1%	85.1%	65.5% 162.2	98.9%	79.1%	52.8% 147.6	95.7%	80.2%	53.6% 154.4	98.8%	63.7%	98.0%	64.0%

分析:

搜索与抓取成功率高: PDC-Stereo 在厨房场景中实现了极高的搜索成功率（训练场景 98.1%，测试场景 95.7%）和良好的抓取成功率（训练场景 85.1%，测试场景 80.2%）。这表明即使物体藏在柜台深处，需要机器人倾斜身体才能触及，策略也能成功定位并抓取。
目标到达成功率较低: 相较于桌面场景，厨房场景的目标到达成功率（Succ_traj）较低（训练场景 65.5%，测试场景 53.6%）。这部分是由于厨房环境中目标位置的随机性更大、更具挑战性（例如，在柜台上方随机移动）。
对未见场景和物体的鲁棒性: PDC 在未见过的物体和厨房场景中表现出良好的鲁棒性，性能下降不显著，这表明其具有较强的泛化能力。
抽屉开启任务: PDC 在寻找和打开抽屉的任务中取得了很高的成功率（98.8% for Drawer, Scene-Train; 98.0% for Drawer, Scene-Test），证明了其在关节物体操作上的有效性。

6.2. 消融实验与分析

以下是原文 Table 3 的结果：

idx	Feature Extractor	Resolution	Input Modality	Lookat Reward	Distillation	PULSE-X	GRAB-Test (5 unseen objects)
idx	Feature Extractor	Resolution	Input Modality	Lookat Reward	Distillation	PULSE-X	Succ_grasp ↑	Epos ↓	Succ_right ↑	Epos ↓	Succ_bi ↑	Epos ↓
1	ViT	128	RGB				61.4%	142.9	61.4%	142.8	60.0%	161.3
2	ResNet	128	RGB		×	×	68.5%	194.7	68.7%	194.0	40.0%	375.7
3	CNN	128	RGB				68.2%	16.2	68.6%	16.3	10.0%	79.0
4	CNN	128	RGB		✓		71.4%	161.1	74.1%	41.6	10.0%	69.8
5	CNN	32	RGB		X		80.7%	116.4	80.6%	115.7	100.0%	189.9
6	CNN	64	RGB		X		80.2%	100.1	80.1%	100.2	90.0%	82.0
7	CNN	128	RGB	×	×		89.6%	85.6	89.5%	85.9	100.0%	48.0
8	CNN	128	RGB				90.1%	100.5	90.0%	101.0	100.0%	39.1

分析:

预训练视觉编码器 (Pretrained Vision Encoders):
- R1 (ViT) 和 R2 (ResNet) 使用在 ImageNet 上预训练的冻结视觉编码器。它们的抓取成功率（61.4% 和 68.5%）远低于从零开始训练的 CNN 编码器（R8 的 90.1%）。
- 结论: 这表明 ImageNet 上的特征不足以弥合感知-行动循环，需要从头训练或微调视觉特征提取器以学习更适合任务的视觉特征。
蒸馏 vs. 从零开始 (Distillation vs From Scratch):
- 对比 R3 (CNN) 和 R8 (CNN, with PULSE-X, look-at reward)：R3 的总抓取成功率较低（68.2%）。R4 额外使用了蒸馏，其抓取成功率略高于 R3 (71.4%)。
- 结论: 蒸馏（将状态策略的知识转移到视觉策略）虽然可以提高一些性能（例如位置误差），但相较于从零开始训练 (R8 的 90.1%)，其成功率明显较低。这表明直接学习视觉驱动的控制更为有效。
人形运动先验 (Humanoid Motion Prior - PULSE-X):
- 对比 R4 (CNN, Distillation, no PULSE-X) 和 R8 (CNN, with PULSE-X)：R8 的抓取成功率 (90.1%) 明显高于 R4 (71.4%)。
- 结论: 使用 PULSE-X 运动先验能够显著提升整体性能，并使学习到的行为更具类人性。这验证了高维灵巧控制中运动先验的重要性。
分辨率 (Resolution):
- 对比 $R5 (CNN, 32x32)$ 、 $R6 (CNN, 64x64)$ 和 $R8 (CNN, 128x128)$ (都使用 RGB)：随着图像分辨率的提高，策略的成功率也随之增加（R5: 80.7% -> R6: 80.2% -> R8: 90.1%）。
- 结论: 更高的视觉分辨率对抓取成功和目标到达任务有益。值得注意的是，PDC-stereo 模型（使用两个 80x80 的摄像头）在计算预算内达到了最高的成功率，这表明立体视觉信息（可能暗示深度估计）的效率和价值。
注视奖励 (Look-at Reward):
- 对比 R7 (CNN, 128x128, no look-at reward) 和 R8 (CNN, 128x128, with look-at reward)：R7 在桌面任务中的抓取成功率 (89.6%) 与 R8 (90.1%) 相当。
- 结论: 对于桌面这样相对简单的任务，即使没有注视奖励，策略也能学得很好。然而，论文指出注视奖励对于塑造厨房场景中的搜索行为至关重要。

6.3. 涌现行为分析 (Analysis: Emergent Behaviors)

涌现搜索行为 (Emergent Search Behavior)

厨房场景: 在厨房场景中，由于任务设置的复杂性，PDC 策略学习到了有趣的涌现行为 (emergent behavior)。
- 主动扫描: 策略会主动左右环顾，甚至 360 度转动身体来扫描房间以寻找目标物体。
- 针对性搜索: 机器人学会了扫描台面，因为它已经了解到厨房物体通常位于这些地方。
- 标记搜索: 当物体被抓取后，目标标记可能不在视野中，此时机器人会主动左右搜索标记。
触发机制: 这种行为源于注视奖励 (look-at reward) 和复杂厨房环境的设置，而在简单的桌面场景中则没有观察到。

对象选择 (Object Selection)

PDC 的掩码即对象选择 (masking-as-object-selection) 设计使其能够精确抓取目标物体，即使场景中存在形状和几何结构相同的其他物体。
在 Table 2 的厨房场景结果中，即使有 6 个物体同时存在，PDC 仍然实现了高搜索和拾取成功率，这表明它能够准确识别正确的物体。

多任务学习 (Multi-Task Learning)

暖启动的重要性: 从零开始训练的策略虽然能学会搜索（搜索成功率 64.3%），但无法成功拾取物体。因此，使用训练好的桌面策略进行暖启动对于厨房场景的多任务学习至关重要。
感知即接口 的优势: 感知即接口 范式使得策略能够持续适应不同场景（桌面到厨房）和不同任务（物体运输和抽屉开启），而无需修改架构。

6.4. 数据呈现

以下是原文 Table 4 的结果：

GRAB-Train (25 Seen Objects)
Object Success Rate	bowl 100%	hammer 98.5%	flashlight 95.8%	mouse 94.6%	duck 90.4%	wineglass 96.7%	scissors 89.1%	airplane 87.8%	stapler 95.5%	torusmedium 100%
Object	banana	cylindersmall	waterbottle	watch	stamp	alarmclock	headphones	phone	cylindermedium	flute
Success Rate	100%	100%	100%	99.0%	100%	95.6%	97.1%	93.2%	98.3%	95.8%
Object	cup	fryingpan	lightbulb	toothbrush	knife
Success Rate	92.6%	98.1%	100%	98.0%	93.0%
GRAB-Test (5 Unseen Objects)
Object		binoculars
	apple		camera	mug	toothpaste
Success Rate	9.4%	65.5%	99.3%	93.3%	95.7%

以下是原文 Table 5 的结果：

GRAB-Train (25 Seen Objects)
Object Success Rate	bowl 50.%	hammer 62.5%	flashlight 72.0%	mouse 74.5%	duck 87.0%	wineglass 77.0%	scissors 65.0%	airplane 60..5%	stapler 70.5%	torusmedium 80.5%
	banana	cylindersmall	waterbottle	watch	stamp	alarmclock	headphones		cylindermedium	flute
Object Success Rate	76.0%	56.0%	60.5%	69.5%	63.5%	58.5%	64.0%	phone 66.5%	80.5%	74.5%
Object		fryingpan	lightbulb	toothbrush	knife
Success Rate	cup 66.0%	4.5%	77.5%	42.0%	39.5%
GRAB-Test (5 Unseen Objects)
Object
	apple	binoculars	camera	mug	toothpaste
Success Rate	63.0%	31.0%	62.0%	53.0%	59.0%

分析:

按物体成功率 (Per-object Success Rate): Table 4 和 Table 5 展示了 PDC-stereo 策略在桌面和厨房场景中针对不同物体的成功率。
- 易抓取物体: 碗 (bowl) 和水瓶 (water bottle) 等规则形状的物体通常更容易抓取。
- 难抓取物体: 形状不规则的物体（如飞机 airplane）或小而薄的物体（如刀 knife）更难操作，成功率较低。例如，厨房场景中煎锅 (fryingpan) 和刀 (knife) 的成功率仅为 4.5% 和 39.5%。
- 测试物体: 双筒望远镜 (binoculars) 作为测试物体，由于其尺寸较大且难以单手抓取，成功率也较低 (65.5% 在桌面，31.0% 在厨房)。

关键发现: 尽管有些物体难度较高，但没有一个物体的成功率为零，这表明 PDC 具有一定的普适操作能力。

以下是原文 Table 6 的结果：

AMASS-Train
Method	Succ ↑	Eg-mppe ↓	Emppe ↓	Eacc ↓	Evel ↓
PHC-X - IsaacGym	99.9 %	29.4	31.0	4.1	5.1
PULSE-X IsaacGym	99.5 %	42.9	46.4	4.6	6.7
PHC-X - IsaacLab	99.9 %	25.4	26.7	4.8	5.2
PULSE-X - IsaacLab	99.6 %	29.1	30.1	4.2	5.1

分析:

PHC-X 和 PULSE-X 的性能: Table 6 展示了 PHC-X 和 PULSE-X 在 AMASS 数据集上的运动模仿结果。
- 高成功率: 两种方法在 IsaacGym 和 IsaacLab 中都达到了极高的成功率（接近 100%），表明它们能够有效地模仿参考运动。
- 误差低: 各项位置、加速度和速度误差都保持在较低水平，证明了运动先验能够生成高质量的类人动作。
- 平台迁移: IsaacLab 的实现与 IsaacGym 达到了可比的性能，验证了运动先验在不同模拟器平台上的有效性。

视觉展示 (Qualitative Results)

以下是原文 Figure 5 和 Figure 6 的示例，展示了 PDC 在各种任务中的视觉表现：

该图像是包含多视角仿人人体控制示意图，展示了不同手部操作的第一人称视角和第三人称视角下的动作执行过程，体现了视觉驱动的主动感知与灵巧操作。 Figure 5: 桌面场景中的物体举起，展示了从第一人称视角（机器人自身的相机视图）和第三人称视角下，智能体如何使用不同手（左手、右手、双手）进行操作。

该图像是两部分组合的插图，展示了图(a)多物体操作过程和图(b)抽屉搜索与开启步骤。左图表现人体模型的手部对多个物体的抓取和释放，右图展示从不可见抽屉把手的起始状态，到主动搜索、接近和打开抽屉的行为场景，体现了基于视觉的主动感知与灵巧控制。 Figure 6: 厨房场景中的多任务执行，包括物体运输和抽屉开启。它定性地展示了机器人如何搜索物体、抓取、移动，以及如何定位抽屉并将其打开。

这些定性结果与补充视频一起，直观地展示了 PDC 框架下涌现出的灵巧操作和搜索行为。

7. 总结与思考

7.1. 结论总结

本文提出了感知灵巧控制 (Perceptive Dexterous Control, PDC) 框架，用于通过视觉强化学习实现模拟类人机器人的灵巧全身控制。其核心创新在于“感知即接口 (perception-as-interface)”范式，通过在自我中心视觉输入上叠加视觉线索（如语义分割掩码、3D 标记、彩色方块）来直观地规范任务，从而避免了对特权状态信息和任务特定变量的依赖。

主要发现包括：

实现视觉驱动的全身灵巧控制: PDC 首次在复杂自然istic家庭环境中展示了仅依赖视觉和本体感受的类人机器人多任务操作能力。
涌现的类人行为: 复杂的任务设置和视觉驱动的控制诱导了如主动搜索（机器人会主动扫描环境以寻找目标物体或标记）和全身协调等类人行为。
泛化能力强: 策略在面对未见过的物体和场景时表现出良好的泛化性，优于依赖特权信息的状态空间基线。
视觉模态的有效性: Stereo 视觉模态在性能上优于 RGBD 和 RGB，表明立体信息对于感知和操作任务的重要性。
运动先验的关键作用: 结合 PULSE-X 运动先验有效地处理了高自由度控制的挑战，并生成了高质量的类人动作。

PDC 的提出及其所展示的视觉驱动控制和涌现行为，为动画、机器人技术和具身人工智能领域弥合感知-行动循环开辟了新的研究方向。

7.2. 局限性与未来工作

论文作者指出了 PDC 框架的以下局限性，并提出了潜在的未来研究方向：

视觉干扰导致的失败: 当智能体伸向靠近墙壁（柜台深处）的物体时，低悬的柜子和蒸汽收集器等可能会干扰其视觉，导致视觉清晰度不足，从而抓取失败。
缺乏重新抓取能力: 如果第一次抓取失败，智能体不会尝试重新抓取，而是将注意力转向跟踪标记，即使它并未抓住物体。
头部抖动问题: 策略有时会出现头部抖动现象，可能需要图像稳定技术 (image-stabilization techniques) 来改善。
奖励设计的进一步优化: 目前的奖励设计可能过于严格。未来的工作可以通过提供额外和更宽松的奖励来克服这些限制，例如鼓励重新抓取，或者使用更先进的视觉分析（而非简单的角度比较）来确保物体始终在视野中。
手部选择的限制: 虽然接口支持手部选择，但需要外部系统预先确定使用哪只手。当选择的手无法拾取物体时（例如，单手拾取大物体），任务会失败。

7.3. 个人启发与批判

个人启发

“感知即接口”的潜力: 这种将任务指令直接编码在视觉输入中的范式非常优雅且具有强大的可扩展性。它提供了一种任务无关的方式来指导机器人，摆脱了对复杂状态表示或自然语言理解的直接依赖，这对于具身智能体的通用性和适应性至关重要。未来甚至可以想象，通过这种方式，人类可以直接通过增强现实或视觉标记来“编程”机器人。
复杂环境诱导涌现行为: 论文证明了在复杂和多样化环境中进行视觉驱动的强化学习训练，能够自然地产生如主动搜索、环境扫描等类人行为，这比显式编程或模仿学习更接近生物智能体的学习方式。这为探索更通用、更智能的机器人行为提供了新思路。
运动先验的有效性: 将高级任务策略与低级运动先验 (PULSE-X) 结合的分层 RL 方法，是处理高自由度机器人控制的有效途径。它使得策略能够专注于高级决策，同时利用预训练的运动技能生成流畅自然的动作，极大地提高了学习效率和动作质量。
立体视觉的价值: Stereo 视觉在所有视觉模态中表现最佳，甚至优于 RGBD，这暗示了智能体能够从双目图像中自主学习深度估计等三维感知能力，而不是仅仅依赖预先提供的深度信息。这种端到端的学习能力在机器人感知中具有重要意义。

批判

计算成本巨大: 训练一个桌面策略需要 5 天，微调到厨房场景再加 5 天，总计约 $5 \times 10^9$ 个样本，相当于 4 年的经验。如此庞大的计算资源需求（8 个 L40 GPU）对研究人员和实际应用都是一个巨大的门槛。如何在保证性能的同时提高样本效率，是未来亟需解决的问题。
视觉指令的人为性: 虽然“感知即接口”很巧妙，但目前使用的绿色掩码、3D 箭头和彩色方块等视觉线索仍然是高度人工设计的。它们不是机器人从自然世界中自主学习的指令。如何将这种接口与更自然的交互方式（如人类的注视、手势或自然语言指令）结合起来，是实现真正通用具身智能的关键挑战。
涌现行为的鲁棒性与可控性: 虽然论文观察到了主动搜索行为，但这些行为的鲁棒性、在极端复杂或全新环境中的泛化能力，以及能否被精确控制（例如，让机器人按照特定模式搜索）仍需进一步验证。
奖励函数的工程量: 论文的奖励函数设计非常精细和复杂，包含了多个阶段和多个权重参数，这在很大程度上仍是奖励工程 (reward engineering) 的结果。减少对这种手动奖励设计的依赖，转向更少、更稀疏、更通用的奖励，是 RL 研究的长期目标。
失败案例的解决: 缺乏重新抓取机制和对视觉干扰的敏感性是实际应用中的严重限制。尽管作者提出了未来工作方向，但这些问题表明当前感知-行动循环的鲁棒性和容错性仍有提升空间。例如，一个更智能的系统应该能够识别抓取失败，并主动尝试纠正。

综上所述，PDC 为视觉驱动的灵巧类人机器人控制领域带来了令人兴奋的进展，特别是在视觉指令和涌现行为方面。然而，其高昂的训练成本和对人工视觉线索的依赖，也提示了未来研究需要关注的重点。

相似论文推荐

基于向量语义检索推荐的相关论文。

暂时没有找到相似论文。

Emergent Active Perception and Dexterity of Simulated Humanoids from Visual Reinforcement Learning

TL;DR 精炼摘要

摘要

思维导图

论文精读

中文精读约 50 分钟读完 · 31,705 字

1. 论文基本信息

1.1. 标题

1.2. 作者

1.3. 发表期刊/会议

1.4. 发表年份

1.5. 摘要

1.6. 原文链接

1.7. PDF 链接

2. 整体概括

2.1. 研究背景与动机

2.2. 核心贡献/主要发现

3. 预备知识与相关工作

3.1. 基础概念

3.2. 前人工作

1.1. 标题

1.2. 作者

1.3. 发表期刊/会议

1.4. 发表年份

1.5. 摘要

1.6. 原文链接

2. 整体概括

2.1. 研究背景与动机

论文试图解决的核心问题是什么？

为什么这个问题在当前领域是重要的？现有研究存在哪些具体的挑战或空白（Gap）？

这篇论文的切入点或创新思路是什么？

2.2. 核心贡献/主要发现

3. 预备知识与相关工作

3.1. 基础概念

3.2. 前人工作

视觉灵巧操作 (Visual Dexterous Manipulation)

全身运动操作 (Whole Body Loco-Manipulation)

感知即接口 (Perception-as-Interface)

分层强化学习 (Hierarchical Reinforcement Learning)

终身学习 (Lifelong Learning)

3.3. 技术演进与差异化分析

技术演进

差异化分析

4. 方法论

4.1. 方法原理

4.2. 任务定义

场景生成 (Scene Generation)

4.3. 视觉感知接口 (The Visual Perception Interface)

4.3.1. 对象选择 (Object Selection)

4.3.2. 对象到达目标 (Object Reaching Goals)

4.3.3. 手性、抓取和释放时间 (Handedness, Pickup Time, and Release Time)

4.4. 学习感知灵巧控制 (Learning Perceptive Dexterous Control)

4.4.1. 观测 (Observation)

4.4.2. 奖励 (Reward)

4.4.3. 早期终止 (Early Termination)

4.4.4. 策略架构 (Policy Architecture)

4.4.5. 人形运动表示 (Humanoid Motion Representation)

4.4.6. 训练过程 (Training Procedure)

5. 实验设置

5.1. 数据集

训练与测试对象 (GRAB Dataset)

其他数据集

数据集中的样本示例

5.2. 评估指标

桌面场景 (Tabletop Scenario)

厨房场景 (Kitchen Scenes)

运动模仿任务 (PULSE-X 和 PHC-X)

5.3. 对比基线

5.4. 实施细节

6. 实验结果与分析

6.1. 核心结果分析

桌面场景：物体举起 (Tabletop: Object Lifting)

厨房场景：搜索、抓取、移动和抽屉 (Kitchen Scenes: Search, Grasp, Move, and Drawers)

6.2. 消融实验与分析

6.3. 涌现行为分析 (Analysis: Emergent Behaviors)

涌现搜索行为 (Emergent Search Behavior)

对象选择 (Object Selection)

多任务学习 (Multi-Task Learning)

6.4. 数据呈现

视觉展示 (Qualitative Results)

运动模仿任务 (`PULSE-X` 和 `PHC-X`)