论文状态：已完成

Real-World Reinforcement Learning of Active Perception Behaviors

发表：2025/12/01

主动感知行为的强化学习 (1)非对称优势加权回归 (1)部分可观性下的机器人学习 (1)高级值函数估计 (1)机器人操作任务评估 (1)

价格：0.100000

已有 2 人读过

本分析由 AI 生成，可能不完全准确，请以原文为准。

TL;DR 精炼摘要

针对机器人在部分可观测性下的主动感知行为挑战，本文提出了一种名为非对称优势加权回归（AAWR）的方法。该方法通过使用“特权”传感器来训练高质量价值函数，从而有效学习主动感知策略。经过评估，AAWR在多种操控任务中表现优越，显著提升了任务性能。

摘要

A robot's instantaneous sensory observations do not always reveal task-relevant state information. Under such partial observability, optimal behavior typically involves explicitly acting to gain the missing information. Today's standard robot learning techniques struggle to produce such active perception behaviors. We propose a simple real-world robot learning recipe to efficiently train active perception policies. Our approach, asymmetric advantage weighted regression (AAWR), exploits access to "privileged" extra sensors at training time. The privileged sensors enable training high-quality privileged value functions that aid in estimating the advantage of the target policy. Bootstrapping from a small number of potentially suboptimal demonstrations and an easy-to-obtain coarse policy initialization, AAWR quickly acquires active perception behaviors and boosts task performance. In evaluations on 8 manipulation tasks on 3 robots spanning varying degrees of partial observability, AAWR synthesizes reliable active perception behaviors that outperform all prior approaches. When initialized with a "generalist" robot policy that struggles with active perception tasks, AAWR efficiently generates information-gathering behaviors that allow it to operate under severe partial observability for manipulation tasks. Website: https://penn-pal-lab.github.io/aawr/

思维导图

论文精读

中文精读约 40 分钟读完 · 25,657 字

1. 论文基本信息

1.1. 标题

真实世界强化学习中的主动感知行为 (Real-World Reinforcement Learning of Active Perception Behaviors)

1.2. 作者

Edward S. Hu*, Jie Wang*, Xingfang Yuan*, Fiona Luo, Muyao Li, Gaspard Lambrechts, Oleh Rybkin, Dinesh Jayaraman *表示同等贡献。

隶属机构:

宾夕法尼亚大学 (University of Pennsylvania)
列日大学 (University of Liège)
加州大学伯克利分校 (UC Berkeley)

1.3. 发表期刊/会议

该论文发布于 arXiv 预印本平台，其发表时间为 2025-12-01T02:05:20.000Z。考虑到其内容和发布时间，很可能目标是顶级机器学习或机器人会议（如 NeurIPS, ICLR, CoRL, ICRA, IROS 等）。NeurIPS 审查清单的存在也支持这一推测。

1.4. 发表年份

2025

1.5. 摘要

机器人的瞬时感知观测 (instantaneous sensory observations) 并不总是能揭示与任务相关的状态信息。在这样的部分可观测性 (partial observability) 下，最优行为通常需要明确地采取行动以获取缺失的信息。当前标准的机器人学习技术难以产生这种主动感知行为 (active perception behaviors)。本文提出了一种简单的真实世界机器人学习方法，能够高效地训练主动感知策略 (active perception policies)。该方法，非对称优势加权回归 (asymmetric advantage weighted regression, AAWR)，利用在训练时访问“特权”额外传感器 (privileged extra sensors) 的能力。这些特权传感器 (privileged sensors) 使得训练高质量的特权价值函数 (privileged value functions) 成为可能，从而有助于估计目标策略的优势 (advantage)。通过少量可能次优的演示 (suboptimal demonstrations) 和易于获得的粗糙策略初始化 (coarse policy initialization) 进行引导，AAWR 能够快速获取主动感知行为并提升任务性能。在对 3 个机器人上 8 个不同部分可观测程度的操控任务进行的评估中，AAWR 合成了可靠的主动感知行为，其性能优于所有现有方法。当使用一个在主动感知任务中表现不佳的“通才”机器人策略 (generalist robot policy) 进行初始化时，AAWR 能够高效生成信息收集行为，使其在严重部分可观测的操控任务中运行。

1.6. 原文链接

原文链接: https://arxiv.org/abs/2512.01188
PDF 链接: https://arxiv.org/pdf/2512.01188v1.pdf

2. 整体概括

2.1. 研究背景与动机

核心问题: 在真实世界机器人操控任务中，机器人往往面临部分可观测性 (partial observability) 的挑战。这意味着仅凭瞬时感官输入，机器人无法获得完成任务所需的全部状态信息。例如，机械臂上的腕部摄像头可能被遮挡，或者目标物体隐藏在杂乱的环境中。在这种情况下，机器人需要主动采取行动来获取缺失的信息，这种行为被称为主动感知 (active perception)。然而，当前主流的机器人学习技术，如模仿学习 (imitation learning) 和强化学习 (reinforcement learning, RL)，在生成高效、鲁棒的主动感知行为方面存在显著困难。

为什么重要: 主动感知对于机器人能够在复杂、非结构化的真实世界环境中自主运行至关重要。例如，在家庭服务机器人、工业拣选机器人等场景中，机器人经常需要搜索、识别和操作隐藏或部分可见的物体。如果机器人无法有效地进行信息收集，其任务成功率将大打折扣。

现有挑战或空白:

模仿学习的局限性: 获取最优主动感知行为的演示 (demonstrations) 非常困难且不自然。例如，强迫人类遥控操作员通过腕部摄像头进行“搜索”操作，往往难以提供高效且通用的演示。
强化学习的样本效率问题: 真实世界强化学习 (real-world RL) 的样本效率低，即使在完全可观测的环境中也如此，更不用说在需要主动感知的复杂部分可观测设置中了。
模拟到真实 (sim-to-real) 迁移的困难: 主动感知任务与传感器的能力密切相关。高质量地模拟真实世界传感器（如 RGB、深度、触觉等）并确保其在真实世界中具有良好的迁移性是一个重大挑战。这意味着在模拟环境中学习的主动感知策略可能难以直接应用于真实机器人。
现有通用策略的不足: 即使是最先进的、在大量遥控数据上训练的“通才”机器人策略 (generalist robot policies)，也常常难以执行简单的搜索任务，因为它们通常假设环境是完全可观测的，并且缺乏处理部分可观测性的记忆和信息收集能力。

切入点或创新思路: 本文的创新点在于提出了一种名为非对称优势加权回归 (AAWR) 的方法。其核心思想是利用在训练阶段可用的“特权”额外传感器 (privileged extra sensors) 来辅助学习。这些特权信息（例如，目标的真实位置、精确的物体分割掩码等）仅在训练时用于指导价值函数 (value functions) 和优势函数 (advantage functions) 的学习，而在部署时，策略 (policy) 仍然只依赖于部分、非特权观测 (unprivileged observations)。这种不对称的训练设置，结合了优势加权回归 (Advantage Weighted Regression, AWR) 的思想，使得机器人能够更有效地学习信息收集行为。

2.2. 核心贡献/主要发现

本文的主要贡献如下：

提出 AAWR 算法: 引入了非对称优势加权回归 (AAWR)，这是一种高效训练真实世界主动感知策略的方法。它利用特权价值函数 (privileged value functions) 来更好地监督策略的学习。
理论依据: 为在部分可观测马尔可夫决策过程 (Partially Observable Markov Decision Processes, POMDPs) 中使用特权优势估计 (privileged advantage estimates) 提供了理论证明，表明最大化 POMDP 中预期策略改进 (expected policy improvement) 会导致 AAWR 目标 (objective)。这证明了 AAWR 目标函数在 POMDPs 中的有效性，而非对称性是必要的。
广泛的实验验证: 在 8 个不同的真实世界和模拟任务中，跨越不同类型的部分可观测性、多种机器人平台和多样化的任务，证明了 AAWR 能够有效地学习各种主动和交互式感知行为。实验结果显示，AAWR 的性能优于所有现有方法。
赋能通用策略: 证明了 AAWR 能够为“通才”机器人策略生成辅助性的信息收集行为，使其能够在严重部分可观测的操控任务中成功运行，弥补了现有通用策略在主动感知方面的不足。

关键结论或发现:

AAWR 在主动感知任务中的样本效率和性能显著优于非特权 AWR 和行为克隆 (Behavior Cloning, BC) 等基线方法，尤其是在需要复杂搜索行为的场景中。
特权信息 (privileged information) 在训练阶段对学习高质量的价值函数和优势估计至关重要，即使策略在部署时不访问这些信息。
AAWR 可以有效地从少量次优演示和粗糙策略初始化中进行引导，并通过在线交互进一步微调，从而在真实世界中高效学习。
AAWR 学习到的主动感知策略能够作为“辅助策略”，帮助现有通用机器人策略克服部分可观测性带来的挑战，从而提高整体任务成功率和效率。

3. 预备知识与相关工作

3.1. 基础概念

为了更好地理解这篇论文，我们需要了解一些强化学习 (Reinforcement Learning, RL) 和部分可观测马尔可夫决策过程 (Partially Observable Markov Decision Processes, POMDPs) 的基本概念。

强化学习 (Reinforcement Learning, RL): 强化学习是一种机器学习范式，其中一个智能体 (agent) 通过与环境的交互来学习如何做出决策，以最大化累积奖励。智能体在每个时间步观察环境的状态 (state)，选择一个行动 (action)，环境根据行动转换到新状态并给出一个奖励 (reward)。智能体的目标是学习一个策略 (policy)，该策略映射状态到行动，以获得最大的长期奖励。
策略 (Policy): 在强化学习中，策略 $\pi$ 定义了智能体在给定状态下选择行动的方式。它可以是确定性的（ $\pi(s) = a$ ）或随机性的（ $\pi(a|s)$ ，给出在状态 $s$ 下选择行动 $a$ 的概率）。本文中，策略 $\pi$ 通常指从智能体状态 (agent state) 到行动分布的映射，即 $\pi: \mathcal{Z} \to \Delta(\mathcal{A})$ 。
价值函数 (Value Function):
- 状态价值函数 (State-Value Function), $V^\pi(s)$ : 表示从状态 $s$ 开始，遵循策略 $\pi$ 所能获得的预期累积奖励。
- 行动价值函数 (Action-Value Function), $Q^\pi(s, a)$ : 表示在状态 $s$ 下采取行动 $a$ ，然后遵循策略 $\pi$ 所能获得的预期累积奖励。
- 在 POMDPs 中，这些价值函数通常依赖于环境状态 (environment state) $s$ 和智能体状态 (agent state) $z$ 。
优势函数 (Advantage Function), $A^\pi(s, a)$ : 衡量在给定状态 $s$ 下采取行动 $a$ 相对于遵循策略 $\pi$ 的平均表现的“优势”。其定义为 $A^\pi(s, a) = Q^\pi(s, a) - V^\pi(s)$ 。优势函数用于评估某个行动比该状态下的平均行动好多少。在本文中，AAWR 的核心就是利用特权信息 (privileged information) 来更准确地估计优势函数。
马尔可夫决策过程 (Markov Decision Process, MDP): 一个 MDP 是一个五元组 $(\mathcal{S}, \mathcal{A}, \mathcal{P}, \mathcal{R}, \gamma)$ ，其中：
- $\mathcal{S}$ : 状态空间 (state space)。
- $\mathcal{A}$ : 行动空间 (action space)。
- $\mathcal{P}(s'|s, a)$ : 状态转移概率，表示在状态 $s$ 采取行动 $a$ 后转移到状态 $s'$ 的概率。
- $\mathcal{R}(s, a, s')$ : 奖励函数，表示从状态 $s$ 采取行动 $a$ 转移到状态 $s'$ 获得的奖励。
- $\gamma \in [0, 1]$ : 折扣因子 (discount factor)，用于衡量未来奖励的重要性。
- MDP 的核心假设是马尔可夫性 (Markov property)：未来状态仅依赖于当前状态和行动，与过去的状态和行动无关。
部分可观测马尔可夫决策过程 (Partially Observable Markov Decision Process, POMDP): POMDP 是 MDP 的推广，适用于智能体无法完全观察环境真实状态的情况。一个 POMDP 是一个七元组 $(\mathcal{S}, \mathcal{A}, \mathcal{O}, \mathcal{T}, \mathcal{R}, \mathcal{E}, \gamma)$ ，其中：
- $\mathcal{S}$ : 真实环境状态空间。
- $\mathcal{A}$ : 行动空间。
- $\mathcal{O}$ : 观测空间 (observation space)。智能体直接接收的是观测 $o \in \mathcal{O}$ ，而不是真实状态 $s \in \mathcal{S}$ 。
- $\mathcal{T}(s'|s, a)$ : 状态转移概率（与 MDP 相同）。
- $\mathcal{R}(r|s, a)$ : 奖励密度函数，表示在状态 $s$ 采取行动 $a$ 获得的奖励。
- $\mathcal{E}(o|s)$ : 观测密度函数 (observation density function)，表示在真实状态 $s$ 下，智能体获得观测 $o$ 的概率。
- $\gamma$ : 折扣因子。
- 在 POMDP 中，智能体的最佳策略通常需要依赖于过去所有的观测和行动历史 (history) $h_t = (o_0, a_0, \ldots, o_t)$ ，因为历史包含了推断真实状态的有用信息。
智能体状态 (Agent State): 在 POMDP 中，由于直接处理完整历史 $h_t$ 空间过大，通常会使用一个“智能体状态” z_t = f(h_t) 来概括历史信息。这个 $z_t$ 可以是一个循环神经网络 (recurrent neural network) 的隐藏状态，或者一个滑动窗口内的观测序列。本文中，策略 $\pi$ 是基于这个智能体状态 $z$ 进行决策的。
特权信息 (Privileged Information): 在机器学习中，特权信息是指在训练阶段可以访问，但在测试或部署阶段不可用的额外信息。这些信息通常更准确、更完整，可以帮助模型在训练时学习到更好的表示或决策边界。本文的核心思想就是利用这种特权信息来改进强化学习。

3.2. 前人工作

本文讨论了与主动感知 (active perception) 和利用特权信息 (privileged information) 相关的多种现有方法：

基于信息论的主动感知:
- 方法: 许多早期主动感知策略通过优化信息论目标 (information-theoretic objectives) 来训练，例如不确定性减少 (uncertainty reduction) 和下一最佳视点选择 (next best viewpoint selection) [17-21]。这些方法常用于任务无关的应用，如目标跟踪 [8, 22]、场景重建 [11, 23, 24]、姿态估计 [12] 或自由空间导航 [20]。
- 局限性:
  1. 任务无关: 它们通常不考虑任务约束，例如在杂乱的操控环境中，许多信息丰富的视点可能因物理限制而难以到达 [17, 19]。
  2. 不关注任务成功率: 这些信息论指标并非直接与任务成功率相关。例如，寻找玩具可能需要检查抽屉或柜子，而信息论指标可能认为架子背面同样“有趣”，即使其与任务无关。
模仿学习 (Imitation Learning, IL) 进行主动感知:
- 方法: 一些研究 [5, 6, 25] 使用模仿学习在真实机器人上训练主动感知策略。
- 局限性: 性能受限于演示者 (demonstrator) 的质量。获取最优的主动感知演示非常困难和不自然（例如，强迫人类遥控操作员通过腕部摄像头进行观察）。
真实世界强化学习 (Real-World RL) 进行主动感知:
- 方法: 真实世界 RL 方法 [26, 27] 可以避免演示的负担。
- 局限性: 通常需要大量的仪器设备（例如，用于构建特定任务的体素地图），这限制了其通用性。
- 样本效率和 Sim-to-Real 问题: 在没有这些假设的情况下，RL 方法往往因样本效率低下而局限于仿真环境 [18, 28, 29]。如前所述，由于传感器模拟的复杂性，Sim-to-Real 迁移对主动感知任务尤其困难。
利用特权信息 (Privileged Information) 的方法:
- 方法: 这种方法通过在训练期间利用额外的“特权信息” [30] 来改进策略训练 [31, 32]。它在解决部分可观测任务 [33, 34] 和 Sim-to-Real 迁移 [35-38] 方面取得了广泛成功。
- 局限性:
  1. Sim-to-Real 困难: 对于主动感知问题，Sim-to-Real 迁移本身就很难。
  2. 数据量要求: 许多不对称 RL 方法 [36, 37] 旨在利用数十亿次的特权模拟器状态转换 [39]，这在真实世界中是不可行的，因为真实世界中只能获得少量可能带有噪声的特权观测。
- 与本文的区别: 本文开发了一种新的“非对称优势加权回归”算法，它能更有效地在真实世界中学习，利用特权额外传感器，但不需要大量的数据。

3.3. 技术演进与差异化分析

技术演进:

从早期的信息论方法，转向基于学习（模仿学习、强化学习）的方法，以实现任务相关的主动感知。
强化学习面临样本效率和 Sim-to-Real 挑战。
引入特权信息来辅助训练，成为解决部分可观测性问题的一个有效途径。
传统特权信息方法可能依赖于大规模仿真数据或特定的模拟器环境。

本文的差异化与创新: 本文提出的 AAWR 算法，在利用特权信息的基础上，解决了真实世界机器人学习中的几个关键挑战：

高效性: 它结合了优势加权回归 (AWR) 的离线-在线 (offline-to-online) 学习范式和特权信息，使得在真实世界中能够高效地从少量（可能次优的）演示中学习。
不对称性理论证明: 提供了理论依据，证明在 POMDP 环境中，为了正确估计策略的优势，不对称地使用特权信息是必要的，而不是简单地将特权信息作为额外的观测输入策略。这与传统的对称式地将特权信息作为额外输入给策略或价值函数不同。
对真实世界的适应性: 专门针对真实世界机器人学习设计，不依赖于大规模模拟器数据，而是利用“特权额外传感器”这一在真实世界中相对容易获取的优势（例如，在训练时连接一个额外的、能够提供目标真实位置或分割信息的传感器，而在部署时移除）。
赋能通用策略: 能够生成辅助性的主动感知策略，以“接力”的方式提升现有通用机器人策略在部分可观测任务中的表现，这是一种实用且有效的问题解决范式。

总而言之，AAWR 在强化学习、主动感知和特权信息利用这三个领域之间找到了一个平衡点，提出了一种理论上合理、实践上高效且适用于真实世界机器人部署的方法。

4. 方法论

本文提出了一种名为非对称优势加权回归 (Asymmetric Advantage Weighted Regression, AAWR) 的方法，旨在高效地训练真实世界中的主动感知策略 (active perception policies)。其核心思想是在训练时利用“特权”额外传感器 (privileged extra sensors) 来辅助价值函数 (value functions) 和优势函数 (advantage functions) 的学习，而部署时策略 (policy) 仅依赖于部分观测。

4.1. 方法原理

机器人通常在部分可观测的环境中操作，其瞬时观测 (instantaneous observations) 并不能完全揭示任务相关的状态信息。在这种情况下，最优行为 (optimal behavior) 需要机器人主动感知 (active perception)，即采取行动来获取缺失的信息。本文将这种问题建模为部分可观测马尔可夫决策过程 (POMDP)。

一个 POMDP 由元组 $(\mathcal{S}, \mathcal{A}, \mathcal{O}, T, R, E, P, \gamma)$ 表示，其中：

$\mathcal{S}$ 是真实环境状态空间 (state space)。
$\mathcal{A}$ 是行动空间 (action space)。
$\mathcal{O}$ 是观测空间 (observation space)。
$T(s_{t+1}|s_t, a_t)$ 是状态转移密度函数 (transition density)。
$R(r_t|s_t, a_t)$ 是奖励密度函数 (reward density)。
$E(o_t|s_t)$ 是观测密度函数 (observation density)，表示在真实状态 $s_t$ 下获得观测 $o_t$ 的概率。
$P(s_0)$ 是初始状态密度函数。
$\gamma$ 是折扣因子 (discount factor)。

在 POMDP 中，智能体 (agent) 接收观测 $o_t$ ，而不是真实状态 $s_t$ 。为了克服部分可观测性，策略通常需要依赖于过去观测和行动的完整历史 $h_t = (o_0, a_0, \ldots, o_t)$ 。然而，完整历史的空间会随时间呈指数增长，这使得直接学习策略变得不切实际。

为了解决这个问题，本文和其他研究通常引入一个“智能体状态” (agent state) z_t = f(h_t)，它是一个循环的函数，例如 z_t = u(f(h_{t-1}), a_{t-1}, o_t)。这样，策略 $\pi$ 就只依赖于这个智能体状态 $z_t$ ，即 $\pi: \mathcal{Z} \to \Delta(\mathcal{A})$ 。

有趣的是，当使用智能体状态和这样的策略时，POMDP 可以被转换成一个等价的 MDP (equivalent MDP)，其状态是 $(s_t, z_t)$ ，而策略 $\pi \in \Pi$ 只依赖于智能体状态 $z_t$ [41-44]。

4.2. 优势加权回归 (AWR) 背景

优势加权回归 (Advantage Weighted Regression, AWR) [13, 14] 是一种用于完全可观测 MDPs 的策略迭代 (policy iteration) 算法。它的策略更新目标 (policy update objective) 被表述为一个行为克隆损失 (behavior cloning loss)，但由转移的估计优势 (estimated advantage) 加权。AWR 能够利用离线/离策略数据以及在线数据。

更正式地，在每次迭代中，AWR 旨在找到一个策略 $\pi: S \to \Delta(\mathcal{A})$ ，以最大化预期的替代改进 (expected surrogate improvement) $\hat{\eta}(\pi) = \mathbb{E}_{s \sim d_\mu(s)} \mathbb{E}_{a \sim \pi(a|s)} A^\mu(s, a) \approx J(\pi) - J(\mu)$ ，其中 $\mu$ 是行为策略 (behavior policy)。这个优化受到 KL 散度约束 $\mathbb{E}_{s \sim d_\mu(s)} [\mathrm{KL}(\pi(\cdot|s) \parallel \mu(\cdot|s)] \le \varepsilon$ 。当通过乘子 $\beta > 0$ 放松 KL 约束时，优化这个软约束目标等价于最大化最终的 AWR 目标：

$\mathcal{L}_{\mathrm{AWR}}(\pi) = \underset{s \sim d_\mu(s)}{\mathbb{E}} \underset{a \sim \mu(a|s)}{\mathbb{E}} \left[ \exp \left( A^\mu(s, a) / \beta \right) \log \pi(a|s) \right]$

其中 $A^\mu(s, a)$ 是优势函数。原始 AWR 算法 [14] 使用基于回报 (return-based) 或 TD( $\lambda$ ) 估计 (TD( $\lambda$ ) estimate) 的优势，通过蒙特卡洛估计 (Monte Carlo estimation) 学习价值函数。后续工作 [15, 16] 使用基于评论家 (critic-based) 的优势估计，通过 TD 学习 (TD learning) 学习 Q 函数 (Q-function)，这通过更好地利用离策略样本 (off-policy samples) 提高了样本效率。本文在此基础上进行构建。

4.3. POMDP 中不对称训练的必要性

4.3.1. 非对称 AWR (AAWR) 目标

本文的目标是训练一个策略 $\pi: \mathcal{Z} \to \Delta(\mathcal{A})$ ，它以智能体状态 $z_t$ （等价于历史 $h_t=(o_1 \ldots o_t)$ ）为条件，以最大化 POMDPs 中的回报，并采用 AWR 类似的目标。本文考虑非对称学习范式 (asymmetric learning paradigm)，其中环境状态 $s$ 在训练期间（离线或在线）可用，但在策略部署期间不可用。

本文引入了非对称 AWR (AAWR) 目标：

$\mathcal{L}_{\mathrm{AAWR}}(\pi) = \underset{(s, z) \sim d_\mu(s, z)}{\mathbb{E}} \underset{a \sim \mu(a|z)}{\mathbb{E}} \left[ \exp \left( A^\mu(s, z, a) / \beta \right) \log \pi(a|z) \right]$

其中 $A^\mu(s, z, a) = Q^\mu(s, z, a) - V^\mu(s, z)$ 是特权优势函数 (privileged advantage function)，其中 $Q^\mu(s, z, a)$ 和 $V^\mu(s, z)$ 是特权评论家 (privileged critic) 和价值函数 (value functions)。这些函数在附录 C 中有正式定义。

Figure 2 直观地展示了这个损失：

Figure 2: Top row: The policy receives the partial observation. Bottom row: Privileged observations or state, available only during training, are given to the critic networks to estimate the advantage. The advantage estimates are used as weights in the loss, providing privileged supervision to the policy. 该图像是示意图，展示了当前的学习策略与特权监督的关系。上方展示了策略接收到的部分观察（ $O_t$ ），下方为仅在训练期间可用的特权观察（ $O_t^+$ ）和对应的动作（ $\alpha_t$ ）。策略通过从特权批评家获取优势估计（ $Q$ 和 $V$ ）来优化，最终通过加权回归损失函数（ $\mathcal{L}_{AAWR}$ ）提供特权监督，以提高策略的性能。

图 2 展示了策略接收部分观测 (Top row)，而特权观测或状态（仅在训练时可用）被提供给评论家网络 (Bottom row) 以估计优势。这些优势估计作为损失中的权重，为策略提供了特权监督。

4.3.2. 对称 AWR (SAWR) 的问题

如果环境状态 $s$ 在训练期间不可用，一个自然的策略是仅仅使用智能体状态 $z$ 来估计优势。本文将这种非特权变体称为对称 AWR (symmetric AWR, SAWR) 目标，它只是将公式 (2) 中的环境状态 $s$ 从所有项中移除。

本文理论上证明了 $\mathcal{L}_{\mathrm{AAWR}}$ 是为 POMDPs 实现 AWR 的正确目标。这是通过将 POMDP 转换为等价的 MDP (equivalent MDP)，其状态为 (s, z)，并在此 MDP 中推导 AWR 目标来实现的。

定理 1 (Asymmetric Advantage Weighted Regression): 对于任何 POMDP 和智能体状态 $f: \mathcal{H} \to \mathcal{Z}$ ，以下约束优化问题，

$\begin{array}{r l} & \underset{\pi \in \Pi}{\operatorname*{max}} ~ \underset{(s, z) \sim d_\mu(s, z)}{\mathbb{E}} ~ \underset{a \sim \pi(a \mid z)}{\mathbb{E}} \left[ A^\mu(s, z, a) \right] \\ & \quad \mathrm{s.t.} \quad \underset{(s, z) \sim d_\mu(s, z)}{\mathbb{E}} \left[ \mathrm{KL}( \pi(\cdot \mid z) \parallel \mu(\cdot \mid z) \right] \leq \varepsilon \end{array}$

其带有拉格朗日乘子 $\beta > 0$ 的拉格朗日松弛 (Lagrangian relaxation) 等价于以下优化问题： $\mathrm{max}_{\pi \in \Pi} \mathcal{L}_{\mathrm{AAWR}}(\pi)$ 。

这个定理证明了 AAWR 目标的有效性。此外，本文在附录 D 中还表明，优化 SAWR 目标无法恢复正确解，因为仅依赖于智能体状态 $z$ 的优势估计器不足以估计等价 MDP（其状态是 (s, z)）的优势。例如在 Figure 1 的搜索任务中，一个能够访问玩具位置的特权优势估计器将更好地估计成功率。

4.3.3. 实现细节

为了实现非对称优势加权回归，本文训练 $V_\theta^\mu$ 价值网络和 $Q_\phi^\mu$ 评论家网络来计算优势，这与 AWR 的扩展 [15, 16] 相似，这些扩展通过训练评论家来更好地利用离策略数据 (off-policy data)，而不是依赖于蒙特卡洛回报 (Monte Carlo returns)。

为了训练这些网络，本文选择使用 IQL (Implicit Q-Learning) [45]，这是一种著名的 Q-学习算法，以其在离线强化学习 (offline RL)、离线到在线强化学习微调 (offline-to-online RL finetuning) [46] 和真实机器人强化学习 [47] 任务中的有效性而闻名。网络使用 IQL 的期望回归目标 (expectile regression objective) 进行训练。

在 POMDPs 中：

在对称设置下，非特权优势估计器 (unprivileged advantage estimator) 将是 $\hat{A}_{QV}^\mu(z_t, a_t) = Q_\phi^\mu(z_t, a_t) - V_\theta^\mu(z_t)$ 。
在非对称设置下，特权优势估计器 (privileged advantage estimator) 将是 $\hat{A}_{QV}^\mu(s_t, z_t, a_t) = Q_\phi^\mu(s_t, z_t, a_t) - V_\theta^\mu(s_t, z_t)$ 。

本文在附录 E 中表明，特权价值函数是 IQL 目标所描述的贝尔曼方程 (Bellman equations) 的不动点 (fixed point)。相反，非特权价值函数不是其对应贝尔曼方程的不动点，这进一步证明了使用 AAWR 而非 SAWR 的合理性。

本文考虑一种非对称学习设置，其中状态 $s_t$ 或来自额外传感器 (additional sensors) 的特权观测 $o_t^p$ 在离线/在线训练期间可用，但在策略部署期间不可用。特权评论家 (privileged critics) 接受观测和状态 $(o_t, s_t)$ ，或者增强观测 $(o_t^+ = (o_t, o_t^p))$ ，而策略只接收 $o_t$ 。

Figure 3 直观地展示了训练和部署阶段的传感器可用性：

Figure 3: Left: The policy is trained using privileged sensors on offine / online data. Right: After training, privileged sensors are no longer available and only the policy is deployed. 该图像是一个包含算法步骤的示意图，展示了如何利用特权传感器进行策略更新。步骤包括使用离线数据和重要性加权损失更新 Q 值和策略，同时在不同训练阶段收集数据并更新策略。

图 3 左侧显示了策略在离线/在线数据上使用特权传感器进行训练。右侧显示训练完成后，特权传感器不再可用，只有策略被部署。

4.3.4. AAWR 离线到在线训练算法 (Algorithm 1 / Algorithm 3)

AAWR 遵循离线到在线强化学习范式 [15, 45, 47-50]，其中策略和价值函数首先使用离线强化学习在离线数据上进行预训练，然后通过在环境中的在线交互进行进一步微调。

以下是 AAWR 离线到在线训练的算法流程：

算法 3 AAWR 离线到在线训练 (AAWR Offline-to-Online)

输入: 策略 $\pi$ ，评论家 Q, V，缓冲区 $\mathcal{D}_{\mathrm{off}}, \mathcal{D}_{\mathrm{on}}$

对于 $i = 1$ 到 $N_{\mathrm{off}}$ 次迭代 (离线阶段): 2. 使用 $\mathcal{D}_{\mathrm{off}}$ 和公式 5 (Q-函数损失) 和公式 6 (V-函数损失) 更新 Q, V。 3. 使用 $\mathcal{D}_{\mathrm{off}}$ 和公式 2 (AAWR 策略损失) 更新 $\pi$ 。
对于 $i = 1$ 到 $N_{\mathrm{on}}$ 次迭代 (在线微调阶段): 3. 使用当前策略 $\pi$ 在环境中收集 $\{(o_t, o_t^+, a_t, r_t, o_{t+1}, o_{t+1}^+)\}_{t=1}^T$ 轨迹。 4. 将收集到的在线转换添加到在线缓冲区 $\mathcal{D}_{\mathrm{on}}$ 。 5. 使用 $\mathcal{D}_{\mathrm{on}}, \mathcal{D}_{\mathrm{off}}$ （以对称采样方式，例如各取 50%）以及公式 5 和公式 6 更新 Q, V。 6. 使用 $\mathcal{D}_{\mathrm{on}}, \mathcal{D}_{\mathrm{off}}$ （以对称采样方式）以及公式 2 更新 $\pi$ 。

算法 2 部署 (Deployment)

输入: 部分观测 $o$ ，策略 $\pi$

对于 $t = 1$ 到 $T$ 次迭代: 2. $o \leftarrow \text{env.step}(\pi(\cdot | o))$ (执行策略根据部分观测输出的行动)

4.3.5. IQL 损失函数细节 (附录 A)

IQL 算法学习一个价值函数 $V_\theta^\mu$ 和一个评论家 $Q_\phi^\mu$ 。特权 Q-函数使用 1 步时序差分 (TD) 误差进行训练：

$\mathcal{L}_Q(\phi) = \underset{(s_t, z_t, r_t, s_{t+1}, z_{t+1}) \sim \mathcal{D}}{\mathbb{E}} \left[ ( r_t + \gamma V_\theta^\mu(s_{t+1}, z_{t+1}) - Q_\phi^\mu(s_t, z_t, a_t) )^2 \right]$

其中 $\mathcal{D}$ 是数据缓冲区。特权价值函数通过不对称 $L_2$ 损失 (期望回归, expectile regression) 训练，以保守地近似最大化 $\max_a \bar{Q}_\phi^\mu(s, \bar{z}, a)$ ：

$\mathcal{L}_V(\theta) = \underset{(s_t, z_t, a_t) \sim \mathcal{D}}{\mathbb{E}} \left[ |\tau - \mathbb{1}_{\{ Q_\phi^\mu(s_t, z_t, a_t) - V_\theta^\mu(s_t, z_t) < 0 \}} | ( Q_\phi^\mu(s_t, z_t, a_t) - V_\theta^\mu(s_t, z_t) )^2 \right]$

其中 $\tau \in (0, 1)$ 是期望值 (expectile)。当 $\tau \to 0$ 时，该损失越来越多地惩罚对 $V$ 的高估。非特权价值函数也类似地进行训练。

符号解释:

$\mathcal{L}_Q(\phi)$ : Q-函数损失函数，用于更新 Q-网络参数 $\phi$ 。
$\phi$ : Q-网络的参数。
$(s_t, z_t, r_t, s_{t+1}, z_{t+1})$ : 从数据缓冲区 $\mathcal{D}$ 中抽取的经验元组，包括当前环境状态 $s_t$ ，智能体状态 $z_t$ ，奖励 $r_t$ ，下一个环境状态 $s_{t+1}$ ，下一个智能体状态 $z_{t+1}$ 。
$\mathbb{E}[\cdot]$ : 期望操作符。
$r_t$ : 在时间 $t$ 获得的奖励。
$\gamma$ : 折扣因子。
$V_\theta^\mu(s_{t+1}, z_{t+1})$ : 目标价值网络 $V_\theta^\mu$ 对下一个状态 $(s_{t+1}, z_{t+1})$ 的估计价值。
$Q_\phi^\mu(s_t, z_t, a_t)$ : 当前 Q-网络 $Q_\phi^\mu$ 对当前状态-行动对 $(s_t, z_t, a_t)$ 的估计 Q 值。
$\mathcal{L}_V(\theta)$ : 价值函数损失函数，用于更新 V-网络参数 $\theta$ 。
$\theta$ : V-网络的参数。
$(s_t, z_t, a_t)$ : 从数据缓冲区 $\mathcal{D}$ 中抽取的经验元组，包括当前环境状态 $s_t$ ，智能体状态 $z_t$ ，行动 $a_t$ 。
$\tau$ : 期望值参数，控制对 $V$ 值高估或低估的惩罚程度。当 $\tau = 0.5$ 时，对应于标准 1 步 TD 更新。
$\mathbb{1}_{\{ \cdot \}}$ : 指示函数 (indicator function)，当括号内的条件为真时取 1，否则取 0。
$Q_\phi^\mu(s_t, z_t, a_t) - V_\theta^\mu(s_t, z_t)$ : 当前 Q 值和当前 V 值之间的差值，用于估计优势。

这些损失函数共同构成了 IQL 的学习机制，用于训练能够估计特权优势函数的评论家和价值网络，进而指导策略更新。

5. 实验设置

本文在 8 个不同的操控任务上评估了 AAWR 的性能，这些任务涵盖了模拟和真实世界的场景，以及不同程度的部分可观测性。

5.1. 任务设置

任务分为两组：

模拟主动感知任务: Camouflage Pick, Fully Obs. Pick, Active Perception Koch。
真实主动/交互感知任务: Blind Pick, Bookshelf-P, Bookshelf-D, Shelf-Cabinet, Complex。

以下是原文 Table 1 详细描述了每个任务的属性：

以下是原文 Table 1 的结果：

Task Platform	Target Obs.	Privileged Obs.	Reward	Demos	Offline Steps	Online Steps	Description
Camouflage Pick Sim. Koch	Side Cam	True Obj. Pos	Sparse	100 suboptimal	20K	80K	Pick up barely visible object
Fully Obs. Pick Sim. xArm	Side Cam	True Obj. Pos	Sparse	100 suboptimal	20K	20K	Pick up fully visible object
AP Koch Sim. Koch	Wrist Cam	True Obj. Pos	Sparse	100 suboptimal	100K	900K	Locate then pick up object
Blind Pick Real Koch	Joints, Init Obj. Pos	Obj. Pos Estimate	Dense	100 suboptimal	20K	1.2K	Pick object from proprioception
Bookshelf-P Real Franka	Wrist Cam, Joints	Bbox, Mask	Dense	~150 suboptimal	100K	0	Look for object & switch to π0
Bookshelf-D Real Franka	Wrist Cam, Joints	Bbox, Mask	Dense	~100 suboptimal	100K	0	Look for object & switch to π0
Shelf-Cabinet Real Franka	Wrist Cam, Joints	Bbox, Mask	Dense	~30 suboptimal	100K	0	Look for object & switch to π0
Complex Real Franka	Wrist Cam, Joints	Bbox, Mask	Dense	~50 expert	100K	0	Look for object & switch to π0

关键任务属性说明:

平台 (Platform): 模拟 (Sim. Koch, Sim. xArm) 或真实 (Real Koch, Real Franka) 机器人。
目标观测 (Target Obs.): 策略在部署时可以访问的观测，例如侧摄像头图像 (Side Cam)、腕部摄像头图像 (Wrist Cam)、关节位置 (Joints)、初始物体位置 (Init Obj. Pos)。
特权观测 (Privileged Obs.): 仅在训练时可用，但部署时不可用的额外信息，例如物体真实位置 (True Obj. Pos)、物体位置估计 (Obj. Pos Estimate)、边界框 (Bbox)、分割掩码 (Mask)。
奖励 (Reward): 稀疏 (Sparse) 或密集 (Dense) 奖励。
演示 (Demos): 用于离线训练的演示数量和质量（次优 suboptimal 或专家 expert）。
离线步数 (Offline Steps)/在线步数 (Online Steps): 训练预算。

5.1.1. $π0$ 交接任务 (Handoff Tasks)

在 Blind Pick, Bookshelf-P, Bookshelf-D, Shelf-Cabinet, Complex 这些任务中，本文使用了通用 VLA 策略 ( $π0$ ) 作为最终抓取阶段的策略。主动感知策略的任务是引导机器人找到目标物体，一旦找到，就将控制权交给 $π0$ 来完成抓取。

部分可观测设置示例:

Blind Pick: 机器人仅通过关节位置和初始物体位置进行操作，完全“盲目”，需要通过本体感觉 (proprioception) 来感知抓取。
Bookshelf-P/D, Shelf-Cabinet, Complex: 机器人使用腕部摄像头，但在杂乱环境中物体可能被遮挡，需要主动搜索。

5.2. 评估指标

本文使用了多种指标来评估主动感知策略的性能。

5.2.1. $π0$ 交接任务的评估指标

在 $π0$ 交接任务中，评估了搜索行为、任务完成率和速度。

搜索得分 (Search %): 衡量策略搜索行为的质量，采用 3 点评分标准，如 Figure 8 所示：

$Figure 8: The Search $\\%$ metric gives points for spotting, approaching, and fixating on the object.$ 该图像是图表，展示了机器人在不同检测状态下的评分情况。图中显示了四个阶段：无检测（评分0）、首次检测（评分33）、进入区域（评分66）及停留与居中（评分100）。此图反映了机器人如何逐步提高主动感知的表现。

图 8 展示了搜索得分的 3 点评分标准：
- 33%: 目标物体出现在腕部摄像头画面中的任意位置。
- 66%: 策略移动直到目标物体进入视点 (viewpoint) 的目标区域。
- 100%: 策略在目标区域内稳定注视 (fixated on) 目标物体 5 个时间步。
完成率 (Completion %): 表示主动感知策略切换后， $π0$ 成功抓取物体的比率。
步数 (Steps): 策略完成任务所需的平均时间步数。未能完成任务（超时 $T_{max}=300$ 步）的Episode计入超时。

此外，本文还计算了归一化指标 (normalized metrics) 来考虑时间效率，方法是将 Search 和 Completion 除以 Steps。然后将所有方法与 Exhaustive 基线进行比较，方法是将时间归一化后的 Search 和 Completion 指标除以 Exhaustive 基线的时间归一化后的 Search 和 Completion。

5.2.2. 其他任务的评估指标

Camouflage Pick, Fully Obs. Pick, Active Perception Koch: 通常使用任务的稀疏奖励函数作为成功率指标（例如，物体在夹持器中且高度超过一定阈值）。
Blind Pick:
- 抓取率 (Grasp %): 机器人成功抓取物体的试次百分比。
- 拾取率 (Pick %): 机器人成功抓取并抬起物体的试次百分比。

5.3. 对比基线

本文将 AAWR 与以下基线进行了比较：

AWR (Advantage Weighted Regression): 对称优势加权回归，不访问特权信息。其实现与 AAWR 相同，只是评论家和价值网络的输入不同。
BC (Behavior Cloning): 标准行为克隆，仅在数据集中成功的轨迹上进行模仿学习。
Distillation [39, 62]: 一种两阶段训练过程。第一阶段训练一个特权教师策略 (privileged teacher policy)，第二阶段将教师策略蒸馏 (distilled) 到一个部分可观测的学生策略 (student policy) 中。
VIB (Variational Information Bottleneck) [52]: 一种变分信息瓶颈方法，它在 RL 回报和访问特权信息的 KL 惩罚之间进行权衡。策略在训练时使用来自特权后验的潜在变量 (latent)，在评估时使用来自非特权先验的潜在变量。
Exhaustive: 一种人工设计的控制器，系统性地遍历场景中所有可能的隐藏位置。它通常速度较慢，但搜索成功率较高。
$π0$ : 一种通用的基础策略 (foundation policy)，用于操控任务。它通常在完全可观测的环境中训练，不擅长搜索任务。
VLM+ $π0$ : 结合视觉语言模型 (Vision-Language Model, VLM) 和 $π0$ 。VLM 负责高级任务规划，生成自然语言指令， $π0$ 执行低级动作。类似于 HiRobot [54] 提出的分层 VLM-VLA 基线。

5.4. 硬件与场景设置

Frankia Panda 机器人 (用于 $π0$ 交接任务): 使用 DROID 机器人设置 [56]，包括 7 自由度 (DoF) Franka Emika Panda 机械臂、Robotiq 2F-85 平行爪夹持器、腕部安装的 ZED Mini RGB-D 摄像头和两个侧面安装的 ZED 2 立体摄像头。
- 图 9: 展示了 Franka Panda 机械臂与腕部和侧面摄像头配置。
  
  该图像是一个示意图，展示了一个机器人手臂在操作两个抽屉式储物柜的场景。左侧是一个黑色储物柜，右侧则有一个装有物品的木箱，背景中可见窗帘和房间的一部分，显示了机器人在进行物体操控任务。
Koch 机器人 (用于 Blind Pick 和 AP Koch): 使用 Kochv1.1 机器人 [61]，一个开源、低成本的 5 自由度机械臂。
- 图 13: 展示了 Koch 机器人与 RGB-D 摄像头配置。
  
  该图像是一个硬件配置示意图，展示了一款带有RGB-D相机的Koch机器人。机器人前面有一个黄色的块，背景中可以看到一些电缆和设备。该示意图展示了机器人在多任务环境中的应用场景。
特权信息获取:
- 对于 Franka 任务：使用 DINO-X [59] API 和 GroundedSAM [60] 模型进行开集物体检测和分割，以获取目标物体的边界框和分割掩码。
- 对于 Koch 机器人 Blind Pick：使用 RealSense D455i RGB-D 摄像头，通过 ArUco 标记进行校准，然后使用颜色分割来过滤点云，以估计物体的 3D 位置。

5.5. 观测空间与行动空间

Frankia Panda 机器人 ( $π0$ 交接任务):
- 部分观测: 腕部 RGB 图像 ( $84 \times 84$ )，过去 6 个时间步的末端执行器位置，占用网格特征 (occupancy grid feature)。
- 特权观测: 目标物体分割掩码和边界框。
- 行动空间: 末端执行器坐标系下的笛卡尔和角速度 $a_t = [v_x, v_y, v_z, \omega_{\mathrm{roll}}, \omega_{\mathrm{pitch}}, \omega_{\mathrm{yaw}}]$ 。使用长度为 5 的动作块 (action chunks)。
Koch 机器人 (Blind Pick):
- 部分观测: 初始物体位置，当前机器人关节位置。
- 特权观测: 每个时间步目标物体的实时笛卡尔位置。
- 行动空间: 相对于机器人基座的笛卡尔位置命令和夹持器关节控制。
Koch 机器人 (AP Koch):
- 部分观测: 堆叠的 (过去 3 帧) 灰度腕部摄像头图像，大小为 $84 \times 84$ 。
- 特权观测: 使用模拟器状态的物体位置。
- 行动空间: 末端执行器坐标系下的笛卡尔速度和夹持器位置。

5.6. 奖励函数设计

Frankia Panda 机器人 ( $π0$ 交接任务): 密集奖励函数，鼓励机器人定位、接近并注视目标物体。
1. 距离奖励 ( $r_{\mathrm{dist}}$ ): $r_{\mathrm{dist}} = 1 - \operatorname{tanh}\bigl( 10 \cdot \frac{D(c, c^*)}{1000} \bigr), \quad D(c, c^*) \in [0, 1000] \mathrm{px}$ 其中 $c, c^*$ 分别是边界框的质心和目标区域的质心， $D$ 是 $L_1$ 距离。
2. 掩码面积奖励 ( $r_{\mathrm{area}}$ ): $r_{\mathrm{area}} = \frac{\mathrm{clip}(\mathrm{mask\_area}, 1000, 50000)}{\mathrm{50000}}$ 与掩码面积成比例，鼓励机器人找到物体突出显示在视野中的视点。
3. 掩码重叠奖励 ( $r_{\mathrm{overlap}}$ ): $r_{\mathrm{overlap}} = \mathbb{1}[mask\_overlap > 0.10]$ 当物体掩码与目标区域（以 $c^*$ 为中心的 $128 \times 128$ 区域， $\mathrm{IoU} > 10\%$ ）重叠时，给予稀疏的二进制奖励。每步奖励组合为: $R_t = 0.5 r_{\mathrm{dist}} + 0.3 r_{\mathrm{area}} + 10 r_{\mathrm{overlap}}$
Koch 机器人 (Blind Pick): 密集奖励函数。
1. 距离惩罚: $r_t = -\|x_t - x^*\|$ ，其中 $x_t$ 是目标物体实时位置， $x$ 是机器人末端执行器位置。
2. 抓取奖励: $r_{\mathrm{grasp}} = k_{\mathrm{grasp}} \mathbb{1}_{\{\mathrm{grasped}_t = \mathrm{True}\}}$ ，当机器人通过本体感觉检测到牢固抓取时。
3. 成功奖励: $r_{\mathrm{success}} = k_{\mathrm{grasp}} \mathbb{1}_{\{z_{ee} - z_{base} > 0.07 \wedge \mathrm{grasped}_t = \mathrm{True}\}}$ ，当机器人抓取并抬起物体到一定高度时。

5.7. 演示数据收集

$π0$ 交接任务: 使用 5-DoF 3Dconnexion SpaceMouse 收集演示。演示的成功率在 50% 左右（次优）。经过过滤后，数据集数量分别为：Bookshelf-P (152), Bookshelf-D (109), Shelf-Cabinet (35), Complex (195 初始次优，或 50 专家)。
Blind Pick: 收集了约 100 个演示 Episode，总计约 3000 次转换，来自一个有噪声的手写脚本，成功率约为 20%。
模拟任务: 使用手写脚本收集 100 个演示，成功率约 30%。

5.8. 训练细节

离线/在线训练: 所有方法都遵循离线预训练，然后在线微调的范式。
- 例如 Blind Pick: 20,000 步离线预训练，然后 1,200 步在线微调。
采样: 在在线微调阶段，从离线缓冲区和在线缓冲区中以等量采样 (symmetric sampling) 方式形成批次 (batch)。
优化器: Adam 优化器。
学习率: 0.0001。
批大小: 256。
优势温度 (Advantage Temperature): 对于 AWR 和 AAWR，使用 10。
网络架构: 使用编码器/头 (encoder/head) 架构。
- RGB 图像通过冻结的 DINO-V2 [58] 编码器 (ViT-S14) 处理，然后使用 PCA 降维到 $256 \times 16$ 维潜在空间。
- 占用网格特征 (occupancy grid feature) 通过卷积编码器处理。
- 所有特征连接后输入 MLP 生成动作。
- 特权评论家网络额外接受分割掩码 (通过小型卷积编码器处理) 作为输入。

5.9. 计算资源

本文在 Acknowledgments 部分提到了使用 DARPA TIAMAT HR0011249042, NSF CAREER 2239301, $ONR N00014-22-1-2677$ , NSF SLES 2331783 资助，并使用了国家人工智能研究资源试点 (NAIRR 240077) 的计算资源。具体 CPU/GPU 类型、内存、单次实验运行时间未在正文中详细说明，但通过 NeurIPS Paper Checklist 回答 Yes 推断会在附录中提供。

6. 实验结果与分析

6.1. 模拟主动感知任务结果

Figure 5 展示了在模拟任务上的评估曲线，阴影区域表示离线预训练阶段。

Figure 5: Evaluation curves for the simulated experiments, over 10 seeds per method. The shaded regions indicate the offline pretraining phase. AAWR outperforms baselines in all simulated tasks. 该图像是图表，展示了针对三个不同任务（Camouflaged Pick、Fully Obs. Pick 和 AP Koch）的评估曲线。横轴为训练步数，纵轴为成功率，AAWR在所有任务中均优于其他基线方法，阴影区域表示离线预训练阶段。

图 5 显示，在所有模拟任务中，AAWR 的表现均优于基线方法。

6.1.1. Camouflage Pick (伪装拣选) 与 Fully Obs. Pick (完全可观测拣选)

在 Camouflage Pick 和 Fully Obs. Pick 这两个模拟主动感知任务中，AAWR 的性能显著优于其非特权对应方法 AWR 和 BC。

Camouflage Pick: AAWR 的表现比 AWR 和 BC 好约 2 倍。
Fully Obs. Pick: AAWR 的表现比 AWR 和 BC 好约 3 倍。

分析:

Camouflage Pick: 该任务中，目标物体（微小弹珠）难以从 RGB 图像中识别。特权观测（真实物体位置）的引入，使得 AAWR 的评论家能够更准确地估计价值和优势，从而更好地指导策略学习。
Fully Obs. Pick: 即使在理论上物体位置总是可以通过视觉清晰推断的完全可观测任务中，AAWR 仍然取得了优势。作者推测这是因为非特权评论家需要从像素中学习提取物体位置，而特权评论家则直接获得这一信息，从而避免了视觉特征提取的复杂性，使价值函数估计更准确。
行为观察: AAWR 显示出更准确的抓取行为，而 AWR 和 BC 经常完全错失目标。即使成功抓取，微小的弹珠也容易滑落，导致所有策略的成功率相对较低。

6.1.2. Active Perception Koch (主动感知 Koch)

本文将 AAWR 与其他利用特权信息的方法进行了比较，包括 Distillation (蒸馏) 和 VIB (变分信息瓶颈)。

$Figure 18: Resulting behaviors on the Koch task. (a) AAWR actively scans the workspace, recenters the cube in view, grasps, and lifts with near $100 \\%$ success at evaluation. (b) Distillation learns a suboptimal "go-to-center" strategy and often closes off-target due to the absence of scanning in the teacher. (c) VIB degrades at evaluation without privileged information; using only a prior latent leads to drift and low success.$ 该图像是图示，展示了在Koch任务中不同策略下机器人的行为。(a) AAWR主动扫描工作区，能够成功抓取和提升方块；(b) Distillation学习了一个亚优化的“去中心”策略，导致目标偏离；(c) VIB在没有特权信息的情况下表现不佳，导致漂移和低成功率。

图 18 展示了 Koch 任务中不同策略的行为：

(a) AAWR: 积极扫描工作空间，将立方体重置到视野中心，然后抓取并提升，评估成功率接近 100%。
(b) Distillation: 学习了一个次优的“径直前往中心”策略，由于教师策略中缺乏扫描行为，经常在目标偏离时夹取。
(c) VIB: 在评估时无法访问特权信息，性能下降；仅使用先验潜在变量导致漂移和低成功率。

分析:

AAWR 的优势: 只有 AAWR 通过扫描工作空间学会了主动感知行为，并在评估时达到了接近 100% 的成功率。它能够主动调整视角，确保目标物体在视野中，然后进行抓取。
Distillation 的局限性: 蒸馏后的学生策略学习了一个次优的“径直前往中心”行为。这是因为它的特权教师策略在训练时拥有目标真实位置，因此没有必要学习扫描行为。当目标物体在工作空间角落、摄像机视野之外时，这种策略就会失败，因为它直接前往目标位置，而不是主动搜索。
VIB 的问题: VIB 在评估时失去了特权信息的访问权，因此表现不佳，即使它在训练时被鼓励最小化使用特权信息。这表明在部署时完全剥离特权信息对需要信息收集的任务是致命的。

6.2. 真实交互感知任务结果

Table 2 展示了在真实世界的 Blind Pick 任务中，离线和在线版本的 AAWR、AWR 和 BC 的表现。

以下是原文 Table 2 的结果：

Method	Grasp %	Pick %
BC	47	41
Off. AWR	65	62
On. AWR	71	55
Off. AAWR (ours)	88	71
On. AAWR (ours)	94	89

分析:

AAWR 的优越性: 无论是离线还是在线版本，AAWR 都优于其非特权对应方法和 BC。On. AAWR 取得了最高的 Grasp % (94%) 和 Pick % (89%)。
离线方法的不足:
- BC 表现最差，动作生硬且不准确。
- 离线 AWR 和离线 AAWR 尽管在接近和抓取行为上有所改善，但离线 AWR 经常错失抓取并频繁释放物体。
- 离线 AAWR 尽管表现更好，但仍表现出次优行为，例如抓取后释放糖果。
在线微调的重要性: 经过在线微调后，离线 AAWR 的次优行为得到显著减少。On. AAWR 展示了最一致和鲁棒的开环拾取行为，能够可靠地将夹持器放置在物体上方进行抓取。即使物体滑落，策略也能尝试在原位置重新抓取。

6.2.2. Handholding Foundation VLA Policies for Real Active Perception tasks (为真实主动感知任务辅助通用 VLA 策略)

本文研究了 AAWR 帮助通用机器人策略 ( $π0$ ) 解决部分可观测任务的能力。 $π0$ 通常在完全可观测情境下训练，不擅长搜索任务。本文的方法是训练一个主动感知辅助策略，当目标物体被检测到后，将控制权交给 $π0$ 进行抓取。

任务设置:

Bookshelf-P/D: 在三层书架中寻找玩具菠萝或鸭子。
Shelf-Cabinet: 增加了带抽屉和隐藏点的柜子，增加了搜索复杂性。
Complex: 增加了地板上的书架，包含完全遮挡的区域。

Table 3 (原文已合并到 Table 4) 和 Table 4 展示了在这些任务上的结果。

以下是原文 Table 4 的结果：

Method	Bookshelf-P			Bookshelf-D			Shelf-Cabinet			Complex
	Search % ↑	π0 % ↑	Steps ↓	Search % ↑	π0 %	Steps ↓	Search % ↑	π0 %	Steps ↓	Search % ↑	π0 % ↑	Steps ↓
AAWR	92.4±5.0	44.4±16.6	36.6±4.7	81.3±6.2	44.4±11.7	26.9±2.0	78.2±7.0	40.0±11.0	46.3±4.5	54.8±8.5	20.0±8.9	121.0±30.1
AWR	79.6±5.6	0.0±0.0	34.0±2.7	62.6±6.5	16.7±8.8	30.2±10.1	52.3±6.1	10.0±6.7	38.0±13.9	13.2±5.0	10.0±6.7	217.0±29.3
BC	29.9±13.5	20.0±12.6	84.0±9.2	47.7±4.0	16.7±8.8	22.5±2.1	28.1±5.5	15.0±8.0	125.0±29.6	46.4±8.5	10.0±6.7	138.0±30.4
π0	11.0±11.0	16.7±15.2	263.3±36.7	66.7±21.1	33.3±19.2	229.7±44.8	10.0±10.0	10.0±9.5	280.0±20.0	29.6±15.3	20.0±12.6	252.5±3.7
Exhaustive	64.2±1.8	44.0±11.7	105.4±9.0	96.0±2.7	22.2±9.8	106.7±8.6	52.8±5.0	45.0±11.1	183.0±15.3	78.2±7.8	30.0±10.2	297.0±30.8
VLM+π0	31.4±10.2	27.8±10.6	322.3±31.9	33.2±17.1	16.7 ±16.7	281.8±18.1	28.2±7.3	15.0±8.0	382.0±12.6	14.8±10.2	10.0±9.5	374.7±25.3

分析:

AAWR 的卓越表现: AAWR 在所有指标上始终优于基线，学习到了合理的主动感知行为来辅助通用策略。它在 Search % 和 $π0 %$ 上表现最佳，并且通常用更少的 Steps 完成任务。这验证了特权信息和离线 RL 相较于监督学习的有效性。
AWR 和 BC 的不足: 非特权 AWR 和 BC 始终表现不如 AAWR。它们通常遵循相对固定的搜索路径，未能有效地扫描货架。即使偶然瞥见目标物体，策略也无法持续注视，从而降低了搜索得分和 $π0$ 成功率。
$π0$ 和 $VLM+π0$ 的搜索能力差: $π0$ 和 $VLM+π0$ 都表现出较差的搜索能力，倾向于进行低效的移动，并且未能有效追踪物体。这凸显了这些通用策略在处理部分可观测性时的固有弱点。
Exhaustive 基线: Exhaustive 策略具有不错的搜索和完成率，但其速度远低于 AAWR。当按时间归一化后，AAWR 在 Search 和 Completion 指标上比 Exhaustive 高出 2-8 倍 (见 Table 5)。
示例行为:
- 在 Bookshelf 任务中，AAWR 首先会放大场景以观察多个货架，然后从下往上扫描，一旦找到目标物体便接近它。
- 在 Shelf-Cabinet 任务中，AAWR 会先搜索右侧书架，然后移动到左侧柜子。AWR 和 BC 则未能彻底搜索整个场景。
- 在 Complex 任务中，AAWR 会搜索底部货架、右侧货架，然后是左侧柜子。
- Figure 6 展示了一个 Shelf-Cabinet 任务中的对比，AAWR 探索并定位了目标，而 AWR 只是短暂瞥见后便漂移开。
  
  该图像是示意图，展示了两种强化学习策略在橱柜架任务中的表现对比。上方为 AAWR（不对称优势加权回归），能够有效探索橱柜的左上角并定位目标物体（红色箭头），而下方的AWR策略仅发现了少量目标后便偏离了轨道。
图 6 展示了在橱柜货架任务中 AAWR（顶部）与 AWR（底部）的示例。AAWR 探索柜子的左上角并定位目标物体（红色箭头），而 AWR 仅短暂发现后就漂移开。

6.2.3. 失败分析 (Figure 12)

Figure 12 进一步分析了 AAWR、AWR 和 BC 策略在所有 4 个 $π0$ 交接任务中的失败情况。

$Figure 12: Failure analysis of AAWR, AWR, and BC policies in all 4 tasks. For each policy, we show the number of times each policy completes the first, second and third stage of the Search $\\%$ rubric. AAWR completes all three stages the most, while AWR and BC fail to consistently approach and fixate on the target object.$ 该图像是图表，展示了AAWR、AWR和BC政策在四个任务中的成功率分析。图中显示了每个政策在完成搜索的不同阶段的成功率，AAWR在所有阶段的表现最佳，而AWR和BC在靠近和专注目标对象方面的成功率较低。

图 12 展示了每种策略在 3 点搜索评分标准中完成各个阶段的次数。AAWR 完成所有三个阶段的次数最多，而 AWR 和 BC 未能持续接近和注视目标物体。

分析: AAWR 在所有任务中完成所有三个阶段（发现、接近、注视）的次数最多，表明其搜索行为最为完整有效。AWR 和 BC 虽然经常能发现物体，但在持续接近和注视目标方面表现不佳，这导致其最终的 $π0$ 成功率较低。

6.2.4. 数据集消融实验 (Complex 任务)

Table 6 展示了在 Complex 任务上，不同质量演示数据对模型性能的影响。

以下是原文 Table 6 的结果：

Method	Search % (↑)	π0 % ()	Steps (↓)	Search % (↑)	π0 % (↑)	Steps (↓)
Method	Complex (Suboptimal Demos)			Complex (Expert Demos)
AAWR	54.8	20.0	121.0	73.2	50.0	43
AWR	13.2	10.0	217.0	33.2	40.0	67
BC	46.4	10.0	138.0	31.5	15.0	77
π0	29.6	20.0	252.5	29.6	20.0	252.5
Exhaustive	78.2	30.0	297.0	78.2	30.0	297.0
VLM+π0	14.8	10.0	374.7	14.8	10.0	374.7

分析:

演示质量的重要性: 所有方法都从规模更小但质量更高的专家演示数据集中受益，性能均有所提升。
AAWR 持续领先: 即使在专家演示数据下，AAWR 仍然优于所有基线。它能够持续接近和注视物体，从而最大化 $π0$ 在交接后的成功率。
基线策略的不足: 相比之下，AWR 和 BC 在接近和注视目标物体方面不如 AAWR。它们经常在目标物体刚进入视野或处于不佳位置时就切换到 $π0$ ，导致抓取失败。

6.2.5. 奖励质量分析 (Table 7)

本文还分析了奖励信号质量和标注噪声对搜索行为的影响。

以下是原文 Table 7 的结果：

Task	Search % (↑)	Completion % (↑)	Mislabel % (Succ./Fail/Total)	Observation
Bookshelf-P	92.4 ± 5.0	44.4 ± 16.6	4.6 / 0 / 2.7	Clean reward
Bookshelf-D	81.3 ± 6.2	44.4 ± 11.7	75 / 56.8 / 68.8	Noisy reward
Shelf-Cabinet	78.2 ± 7.0	40.0 ± 11.0	17.1 / 30.8 / 23.8	Harder scene with longer horizon
Complex: Suboptimal	54.8 ± 8.5	20.0 ± 8.9	13.4 / 11.8 / 12.8	Diverse dirty data.
Complex: Expert	73.2 ± 12.0	50.0 ± 15.8	6.4 / 0 / 6.0	Expert clean data.

分析:

奖励质量与性能: 具有更高质量数据（例如，干净、稀疏奖励且检测误差较少）的任务通常对应着更好的搜索和完成率。
AAWR 对噪声的鲁棒性: 即使在 Bookshelf-D 任务中奖励噪声很高（成功/失败/总计误标签率分别为 75%/56.8%/68.8%），AAWR 仍然能够学习到良好的搜索行为，这表明其对奖励噪声具有一定的鲁棒性。

7. 总结与思考

7.1. 结论总结

本文针对机器人学习中主动感知行为 (active perception behaviors) 的挑战，提出了一种新颖的方法：非对称优势加权回归 (Asymmetric Advantage Weighted Regression, AAWR)。AAWR 的核心在于利用在训练阶段可用的“特权”额外传感器 (privileged extra sensors) 来辅助价值函数 (value functions) 和优势函数 (advantage functions) 的学习，而策略 (policy) 在部署时仅依赖于部分观测。

本文提供了理论证明，表明在部分可观测马尔可夫决策过程 (POMDP) 中，最大化预期策略改进 (expected policy improvement) 会导致 AAWR 目标，从而为不对称训练范式提供了坚实的基础。

通过在 8 个模拟和真实世界操控任务上的广泛实验，AAWR 表现出卓越的性能，能够有效地合成可靠的主动感知行为，显著优于现有方法，包括非特权 AWR、行为克隆 (BC) 和其他利用特权信息的方法（如蒸馏和 VIB）。特别是在为不擅长主动感知任务的“通才”机器人策略 ( $π0$ ) 提供辅助时，AAWR 能够高效生成信息收集行为，使其在严重部分可观测的环境中成功运行。

7.2. 局限性与未来工作

尽管取得了有希望的结果，本文也指出了现有工作的局限性及未来的改进方向：

策略切换的局限性: 当前方法是训练一个单独的主动感知策略，然后将其与通用基础策略 ( $π0$ ) 进行切换。未来可以探索直接使用 AAWR 来微调通用基础策略，使其本身具备主动感知能力，从而实现更无缝的行为。
特权信息的类型: 除了当前使用的物体位置、边界框和分割掩码等特权信息外，还可以考虑其他形式的特权信息，例如基础模型 (foundation model) 的输出。
特征选择: 当前特权信息是预先指定的。未来可以通过表征学习 (representation learning) 显式地从额外的特权信息中选择有用的特征。
任务广度与时间跨度: 鉴于本文克服了现有方法在主动感知任务中的局限性，未来值得探索 AAWR 在具有更长时程 (longer horizons) 的任务中的可扩展性，其中信息收集的挑战会复合增长。
应用领域: AAWR 可以应用于许多其他部分可观测的机器人任务（或其他任务），具有广阔的应用前景。

7.3. 个人启发与批判

启发:

特权信息的巧妙利用: 本文提出的非对称学习范式是一个非常实用的思路。在真实世界机器人训练中，短暂地连接一些高精度传感器（例如，为了获取物体真实位置的外部跟踪系统、手动标注工具等）通常是可行的。将这些训练时才有的“辅助信息”用于指导价值函数的学习，而非策略本身，既利用了信息的优势，又保持了部署时的轻量化和通用性。
解决通用策略的短板: 发现当前“通才”机器人策略在部分可观测任务中的不足，并通过引入辅助主动感知策略进行“接力”，提供了一个非常现实且有效的解决方案。这对于实际部署机器人系统具有重要指导意义。
理论与实践结合: 提供了理论证明来支撑不对称训练的必要性，增强了方法的可信度。同时，在多个真实机器人任务上的广泛验证，也充分展示了其工程实用性。
离线到在线的范式: 结合 IQL 和离线到在线的训练方式，使得方法能够从少量次优演示中启动，并通过在线交互进行改进，降低了数据收集的门槛。

批判与潜在改进:

“特权”的定义与获取成本: 尽管论文强调了“特权传感器”的易获取性，但在实际应用中，如何经济高效地获取这些高精度特权信息仍然是一个工程挑战。例如，如果需要手动标注大量帧的分割掩码，成本可能不低。未来工作可以探索更自动化的特权信息获取方式，或者研究在特权信息本身也存在噪声或不完整时，AAWR 的鲁棒性如何。
策略切换的平滑性: 尽管“交接”机制有效，但在某些任务中，策略之间的硬切换 (hard switch) 可能会引入不平滑的动作或额外的延迟。如果能直接微调基础模型，使其内部集成主动感知能力，可能会更好。
智能体状态的表征能力: 论文中提到智能体状态 $z_t$ 来概括历史信息，但具体实现通常是基于循环神经网络或滑动窗口。这些表征是否足以捕捉所有任务相关的历史信息，特别是在长时程和复杂部分可观测任务中，可能是一个问题。更复杂的记忆机制或信念状态 (belief state) 估计可能需要进一步探索。
奖励函数的工程量: 论文中的密集奖励函数（特别是 $π0$ 交接任务）需要精确的物体检测和分割信息，并涉及多个项的加权。这种奖励函数的设计和调优本身可能就需要大量的工程投入。未来可以研究更自动化的奖励函数设计方法，或者从更稀疏的外部奖励信号中学习。
泛化性限制: 虽然论文在 8 个任务上进行了验证，但任务场景仍然相对受限（例如，主要是抓取和搜索）。AAWR 在更广阔、更开放、更动态的真实世界任务中的泛化能力，以及在不同领域（如导航、装配）的应用，仍需进一步验证。

相似论文推荐

基于向量语义检索推荐的相关论文。

暂时没有找到相似论文。

Real-World Reinforcement Learning of Active Perception Behaviors

TL;DR 精炼摘要

摘要

思维导图

论文精读

中文精读约 40 分钟读完 · 25,657 字

1. 论文基本信息

1.1. 标题

1.2. 作者

1.3. 发表期刊/会议

1.4. 发表年份

1.5. 摘要

1.6. 原文链接

2. 整体概括

2.1. 研究背景与动机

2.2. 核心贡献/主要发现

3. 预备知识与相关工作

3.1. 基础概念

3.2. 前人工作

3.3. 技术演进与差异化分析

4. 方法论

4.1. 方法原理

4.2. 优势加权回归 (AWR) 背景

4.3. POMDP 中不对称训练的必要性

4.3.1. 非对称 AWR (AAWR) 目标

4.3.2. 对称 AWR (SAWR) 的问题

4.3.3. 实现细节

4.3.4. AAWR 离线到在线训练算法 (Algorithm 1 / Algorithm 3)

4.3.5. IQL 损失函数细节 (附录 A)

5. 实验设置

5.1. 任务设置

5.1.1. π0π0π0 交接任务 (Handoff Tasks)

5.2. 评估指标

5.2.1. π0π0π0 交接任务的评估指标

5.2.2. 其他任务的评估指标

5.3. 对比基线

5.4. 硬件与场景设置

5.5. 观测空间与行动空间

5.6. 奖励函数设计

5.7. 演示数据收集

5.8. 训练细节

5.9. 计算资源

6. 实验结果与分析

6.1. 模拟主动感知任务结果

6.1.1. Camouflage Pick (伪装拣选) 与 Fully Obs. Pick (完全可观测拣选)

6.1.2. Active Perception Koch (主动感知 Koch)

6.2. 真实交互感知任务结果

6.2.1. Blind Pick (盲抓取)

6.2.2. Handholding Foundation VLA Policies for Real Active Perception tasks (为真实主动感知任务辅助通用 VLA 策略)

6.2.3. 失败分析 (Figure 12)

6.2.4. 数据集消融实验 (Complex 任务)

6.2.5. 奖励质量分析 (Table 7)

7. 总结与思考

7.1. 结论总结

7.2. 局限性与未来工作

7.3. 个人启发与批判

相似论文推荐

5.1.1. $π0$ 交接任务 (Handoff Tasks)

5.2.1. $π0$ 交接任务的评估指标