论文状态：已完成

Hi Robot: Open-Ended Instruction Following with Hierarchical Vision-Language-Action Models

发表：2025/02/27

视觉语言动作模型 (38)多任务机器人操作 (5)综合指令遵循 (1)复杂指令处理 (1)机器人反馈机制 (1)

价格：0.100000

已有 2 人读过

本分析由 AI 生成，可能不完全准确，请以原文为准。

TL;DR 精炼摘要

研究提出了一种名为`Hi Robot`的系统，利用分层视觉-语言模型，有效处理复杂指令与实时反馈。该系统通过推理确定任务的下一步，并在执行过程中结合情境反馈，提升机器人在开放式环境中的多任务处理能力。实验验证显示其在清理、制作三明治和购物等任务中的应用潜力。

摘要

Generalist robots that can perform a range of different tasks in open-world settings must be able to not only reason about the steps needed to accomplish their goals, but also process complex instructions, prompts, and even feedback during task execution. Intricate instructions (e.g., "Could you make me a vegetarian sandwich?" or "I don't like that one") require not just the ability to physically perform the individual steps, but the ability to situate complex commands and feedback in the physical world. In this work, we describe a system that uses vision-language models in a hierarchical structure, first reasoning over complex prompts and user feedback to deduce the most appropriate next step to fulfill the task, and then performing that step with low-level actions. In contrast to direct instruction following methods that can fulfill simple commands ("pick up the cup"), our system can reason through complex prompts and incorporate situated feedback during task execution ("that's not trash"). We evaluate our system across three robotic platforms, including single-arm, dual-arm, and dual-arm mobile robots, demonstrating its ability to handle tasks such as cleaning messy tables, making sandwiches, and grocery shopping. Videos are available at https://www.pi.website/research/hirobot

思维导图

论文精读

中文精读约 40 分钟读完 · 21,455 字

1. 论文基本信息

1.1. 标题

Hi Robot: Open-Ended Instruction Following with Hierarchical Vision-Language-Action Models

1.2. 作者

Lucy Xiaoyang Shi, Brian Ichter, Michael Equi, Liyiming Ke, Karl Pertsch, Quan Vuong, James Tanner, Anna Walling, Haohuan Wang, Niccolo Fusai, Adrian Li-Bell, Danny Driess, Lachy Groom, Sergey Levine, Chelsea Finn

1.3. 作者机构

大部分作者来自 Physical Intelligence，同时也有部分作者来自加州大学伯克利分校 (UC Berkeley) 和斯坦福大学 (Stanford University)。

1.4. 发表期刊/会议

预印本 (arXiv)。

1.5. 发表年份

2025年2月26日（UTC时间）发布预印本。

1.6. 摘要

该论文描述了一个名为 Hi Robot 的系统，旨在使通用机器人能够在开放世界环境中执行一系列任务。通用机器人不仅需要推理实现目标所需的步骤，还需要处理复杂的指令、提示，甚至在任务执行过程中的反馈。复杂的指令（例如，“你能给我做一个素三明治吗？”或“我不喜欢那个”）不仅要求机器人能够物理地执行单个步骤，还需要将复杂的命令和反馈情境化到物理世界中。

Hi Robot 系统采用视觉-语言模型 (Vision-Language Models, VLM) 的层次化结构：

高层推理：首先对复杂的提示和用户反馈进行推理，以推断出最合适的下一步来完成任务。
低层执行：然后通过低层动作执行该步骤。

与只能执行简单命令（如“拿起杯子”）的直接指令遵循方法不同，Hi Robot 系统能够通过复杂的提示进行推理，并在任务执行过程中整合情境化反馈（例如，“那不是垃圾”）。作者在三种机器人平台（包括单臂、双臂和双臂移动机器人）上评估了该系统，展示了其处理清理凌乱桌子、制作三明治和杂货购物等任务的能力。

1.7. 原文链接

原文链接 (arXiv): https://arxiv.org/abs/2502.19417
PDF 链接: https://arxiv.org/pdf/2502.19417v2.pdf

2. 整体概括

2.1. 研究背景与动机

核心问题：现有机器人系统在处理开放式、以人为中心的环境中，面对复杂、多样的自然语言指令、纠正和反馈时，缺乏足够的灵活性和可操控性。传统的机器人指令遵循方法大多局限于简单的、原子化的指令（例如，“拿起可乐罐”），这对应于认知心理学中“系统1”（System 1）的自动执行行为。然而，现实世界的任务往往涉及更复杂的提示（例如，“你能给我做一个素三明治吗？我不要番茄。另外，如果你有火腿或烤牛肉，能给我朋友单独做一个吗？”），以及任务执行过程中的实时纠正和反馈（例如，“不是那样做的，你得低一点，不然会一直错过”）。这些需要更高级别的推理和决策能力，即“系统2”（System 2）的深思熟虑过程。

重要性：实现这种灵活性对于构建能够适应新环境、实时修改行为并响应多样输入、纠正和反馈的通用机器人至关重要。这不仅能提升指令遵循能力，还能让用户引导机器人完成新任务，并在实时过程中纠正机器人。

现有挑战与空白：

指令复杂性：现有方法难以处理复杂、开放式的自然语言指令，特别是涉及多个子任务、条件约束和否定式表达的指令。
实时反馈：机器人需要能够在任务执行中理解并整合情境化的用户反馈和纠正，而不仅仅是预定义的简单命令。
泛化能力：需要能够将现有技能组合起来解决新任务，并适应未曾见过的场景和对象。
物理灵巧性与语言理解的结合：如何将高级语言理解与低级物理操作的灵巧性有效地结合起来，是当前研究的难点。

论文切入点与创新思路：本文提出了一种层次化的视觉-语言模型 (Vision-Language Model, VLM) 系统，旨在将高级推理（System 2）与低级动作执行（System 1）相结合。其核心思路是：

高层 VLM 负责理解复杂的、开放式的用户指令和实时反馈，并将其分解为机器人能够理解和执行的原子化、低级语言命令。
低层 VLA (Vision-Language-Action) 模型 接收这些低级命令，并将其转化为实际的机器人动作。
为了解决复杂指令数据稀缺的问题，论文提出了一种合成数据生成方案，利用一个大型 VLM 根据机器人观测和原子技能标签来生成多样化的用户提示和机器人回复。

2.2. 核心贡献/主要发现

主要贡献：

提出了 Hi Robot 系统：一个新颖的层次化交互式机器人学习系统，利用 VLM 进行高层推理和低层任务执行。这是 System 1 和 System 2 架构的 VLM 实现。
处理复杂开放式指令和情境化反馈：Hi Robot 能够处理比以往端到端指令遵循系统更复杂的指令，并在任务执行中整合实时反馈，例如根据“那不是垃圾”的反馈调整行为。
新颖的合成数据生成方案：提出了一种利用大型 VLM 从机器人示教数据中生成合成用户提示和机器人回复的方法，极大地扩展了高层策略的训练数据，使其能够泛化到多样化的交互场景。
在多平台上的广泛评估：在单臂、双臂和双臂移动机器人等多种机器人平台上进行了评估，展示了系统在清理桌子、制作三明治和杂货购物等多样化任务中的鲁棒性和通用性。
性能超越现有方法：实验证明，Hi Robot 在指令准确性 (Instruction Accuracy) 和任务进展 (Task Progress) 方面超越了包括基于 GPT-4o 的方法和平面 VLA 策略在内的多种现有方法和消融变体。

关键结论或发现：

层次化结构对处理复杂、长程任务中的开放式指令和实时反馈至关重要，优于直接的“平面”指令遵循策略。
合成数据生成极大地提高了高层策略对多样化、组合性语言指令的理解和泛化能力。
将高层推理与低层执行解耦，并以语言作为接口，使得机器人能够更好地对人类意图和环境观测进行情境化推理。
通过结合 VLM 的强大语义理解能力和 VLA 的物理执行能力，为更直观、可操控的人机共生奠定了基础。

3. 预备知识与相关工作

3.1. 基础概念

为了理解 Hi Robot 系统，读者需要了解以下核心技术和概念：

视觉-语言模型 (Vision-Language Models, VLM)：VLM 是一种能够同时处理视觉（图像、视频）和语言（文本）输入，并生成语言或视觉输出的机器学习模型。它通过在大量图文对数据上进行预训练，学习到图像内容与文本描述之间的语义关联。在本文中，VLM 被用于理解用户指令、解析图像观测，并生成机器人响应或低级命令。例如，给定一张图片和问题“图中有什么？”，VLM 可以回答“图中有一个红色的苹果”。
视觉-语言-行动模型 (Vision-Language-Action Models, VLA)：VLA 模型是 VLM 的一个特例，它不仅能理解图像和语言，还能将其映射到机器人动作空间。通常通过在机器人演示数据上进行微调来学习这种映射，使得机器人能够根据视觉观测和语言指令执行具体的物理操作。例如，给定一张桌上有杯子的图片和指令“拿起杯子”，VLA 模型会输出控制机器人手臂移动并抓取杯子的动作序列。
层次化控制 (Hierarchical Control)：这是一种将复杂任务分解为多个抽象层次的控制架构。通常包括一个高级控制器（负责长程规划、任务分解和高层决策）和一个或多个低级控制器（负责执行具体的、原子化的动作）。这种架构的优点是能够处理任务的复杂性和长程依赖性，同时保持低级执行的响应性和效率。在本文中，Hi Robot 明确采用了这种层次化结构，其中一个 VLM 充当高层策略，另一个 VLA 充当低层策略。
模仿学习 (Imitation Learning)：这是一种通过观察专家（通常是人类）的演示来学习策略的机器学习范式。机器人通过模仿专家在给定观测下所采取的动作来学习如何执行任务。在本文中，机器人演示数据（teleoperated robot demonstrations）用于训练低层 VLA 策略。
Transformer 模型：Transformer 是一种基于自注意力（self-attention）机制的深度学习模型架构，最初为自然语言处理任务设计，但在视觉和多模态领域也取得了巨大成功。其核心思想是允许模型在处理序列数据时，对输入序列的不同部分赋予不同的权重，从而捕捉长距离依赖关系。VLM 和 VLA 模型通常基于 Transformer 架构。
- 自注意力机制 (Self-Attention Mechanism)：这是 Transformer 的核心组成部分，允许模型在处理一个序列的某个元素时，考虑序列中所有其他元素的重要性。其计算公式如下： $\mathrm{Attention}(Q, K, V) = \mathrm{softmax}\left(\frac{QK^T}{\sqrt{d_k}}\right)V$ 其中：
  - $Q$ (Query) 是查询矩阵，代表当前词元的信息。
  - $K$ (Key) 是键矩阵，代表序列中所有其他词元的信息。
  - $V$ (Value) 是值矩阵，代表序列中所有其他词元的实际内容。
  - $d_k$ 是键向量的维度，用于缩放点积，防止梯度过小。
  - $QK^T$ 计算查询和键之间的相似度。
  - $\mathrm{softmax}$ 函数将相似度分数归一化为概率分布。
  - 最终输出是加权和，权重由相似度决定。
自回归解码器模型 (Autoregressive Decoder-Only Transformer)：这是一种 Transformer 变体，只包含解码器部分。它通过一次生成一个词元的方式来生成序列，并且每个生成的词元都依赖于之前生成的所有词元。VLM 通常采用这种结构来生成语言回复或命令。
流匹配 (Flow Matching)：这是一种用于训练生成模型的新技术，特别是用于学习从简单分布到复杂数据分布的连续变换。它通过将数据和噪声之间的路径建模为向量场，然后训练神经网络来预测这个向量场，从而实现高效的样本生成。在本文中， $\pi_0`VLA` 模型使用流匹配来输出连续的动作块 (action chunk)。 ## 3.2. 前人工作本研究与多个机器人和 `VLM` 领域的相关工作紧密关联，主要可分为三类： 1. **直接训练 `VLM` 用于机器人控制**： * 这类方法将 `VLM` 微调为直接输出机器人控制指令，通常基于图像和语言命令。 * **优点**：展现了令人印象深刻的泛化能力和指令遵循能力。 * **局限性**：通常针对相对简单的原子指令（例如，“把杯子放在盘子上”）。 * **代表工作**：`RT-1` (Brohan et al., 2022) 和 `RT-2` (Brohan et al., 2023a) 是早期的重要工作，它们将 `Transformer` 架构应用于机器人控制，并展示了通过大规模模仿学习实现真实世界控制的能力。$ \pi_0VLA (Black et al., 2024) 进一步改进了 VLA 模型，通过流匹配技术生成连续动作。
- 与 Hi Robot 的差异：Hi Robot 旨在处理更复杂的提示和人类交互，而不仅仅是简单的原子命令。Hi Robot 的低层策略就是基于 $\pi_0`VLA`，但在此之上增加了一个高层推理机制。 2. **使用 `VLM/LLM` 进行高层推理并结合预定义机器人技能**： * 这类方法利用大型语言模型 (Large Language Models, LLM) 或 `VLM` 来理解高级指令，并将其分解为更简单的步骤，这些步骤可以由预先定义或学习的低层控制器执行。 * **优点**：可以处理多阶段任务，并结合视觉观察进行情境化推理。 * **局限性**： * 早期的 `LLM` 结合手工设计技能的方法（如 `SayCan`，Brohan et al., 2023b）在整合图像观察方面能力有限。 * 近期使用 `VLM` 输出预定义机器人技能参数的方法（如 Huang et al., 2023）在物理灵巧性或实时人机交互方面仍有限制。 * **代表工作**：`SayCan` (Brohan et al., 2023b) 利用 `LLM` 生成高级规划，并结合低层技能执行。`Voxposer` (Huang et al., 2023) 利用 `VLM` 生成参数化技能。 * **与 `Hi Robot` 的差异**：`Hi Robot` 的独特之处在于，它将 `VLM` 用于高层推理，同时也用于低层控制（即 `VLA`），并且两者之间通过灵活的语言接口连接，而不是依赖于固定的预定义技能，从而实现了更高的物理灵巧性和更细致的提示能力。 3. **支持用户语言交互的机器人系统**： * 这类工作专注于使机器人能够理解并整合用户提供的语言指令和反馈。 * **优点**：提升了机器人系统的可交互性和适应性。 * **代表工作**： * 符号表示方法：如 Matuszek et al., 2013，通过将语言指令和场景反馈映射到符号表示来控制机器人。 * 学习基方法： * `OLAF` (Liu et al., 2023)：使用 `LLM` 修改机器人轨迹。 * `YAY Robot` (Shi et al., 2024)：能够处理情境化实时纠正，但受限于单一提示和人类编写数据中的纠正类型。 * `RACER` (Dai et al., 2024)：利用物理模拟器构建恢复行为。 * **与 `Hi Robot` 的差异**： * 与 `OLAF` 相比，`Hi Robot` 能够整合基于机器人观测的情境化纠正，实时响应，并遵循描述灵巧操作任务的复杂提示。 * 与 `YAY Robot` 相比，`Hi Robot` 利用 `VLM` 和新的数据生成方案，支持更多样化的提示和开放式纠正。 * 与 `RACER` 相比，`Hi Robot` 仅使用真实机器人演示数据，不依赖物理模拟器，并适用于开放式提示。 ## 3.3. 技术演进机器人指令遵循领域的技术演进经历了从早期的符号规划、基于规则的系统，到基于模仿学习和深度学习的端到端控制。随着大型语言模型 (`LLM`) 和视觉-语言模型 (`VLM`) 的兴起，研究重点逐渐转向如何利用这些强大的基础模型赋予机器人更高级的语义理解和推理能力。 * 早期（符号/规则系统）：机器人行为主要通过专家知识或预定义规则进行编码，语言指令被解析为符号表示来执行。这些系统在处理复杂性和泛化性方面受限。 * 中期（模仿学习/端到端控制）：通过大规模机器人示教数据，训练深度神经网络直接从感知输入映射到机器人动作。例如 `RT-1`、`RT-2`。这类方法在执行原子指令方面表现出色，但对于复杂、多阶段、需要高级推理的任务仍显不足。 * 近期（LLM/VLM赋能）：将 `LLM` 或 `VLM` 作为高级“大脑”，用于任务规划、指令理解和反馈处理。这又分为两种路径： 1. **LLM + 预定义技能**：`LLM` 负责生成高层子目标或选择预定义技能。例如 `SayCan`。 2. **VLM + 技能参数化/低级控制**：`VLM` 结合视觉信息，生成技能参数或直接输出动作。例如 `Voxposer`。 * 本文工作 (`Hi Robot`)：处于 `VLM` 赋能的最新前沿。它进一步将 `VLM` 的能力扩展到**层次化结构**中，同时利用 `VLM` 进行高层推理和低层控制，并引入**合成数据**来解决复杂交互数据的稀缺性，从而实现了对**开放式、复杂指令和实时情境化反馈**的更鲁棒处理。这代表了从“原子指令遵循”到“情境化、开放式推理和交互”的关键一步。 ## 3.4. 差异化分析 `Hi Robot` 与现有方法的核心区别和创新点在于： 1. **双层 `VLM` 架构**：不同于单一的端到端 `VLA` 策略，也不同于 `LLM` 与传统低层控制器结合的方法，`Hi Robot` 采用了双 `VLM` 层次化结构。高层 `VLM` 负责理解复杂用户意图并生成原子级语言命令，低层 `VLA` 负责将这些命令转化为物理动作。这种分离使得两个层次可以分别优化，高层专注于推理，低层专注于执行，互不干扰。 2. **情境化反馈处理能力**：现有的大多数 `VLA` 策略难以处理任务执行过程中的实时、情境化反馈（如“那不是垃圾”）。`Hi Robot` 的高层 `VLM` 能够结合当前视觉观测来理解并响应这些反馈，动态调整任务流程。 3. **合成数据驱动**：为了弥补真实世界复杂人机交互数据不足的问题，`Hi Robot` 引入了一种新颖的合成数据生成机制。它利用一个强大的 `VLM` 根据机器人观测和原子技能标签，自动生成多样化的用户提示和机器人回复，这比单纯依赖人工标注或硬编码交互规则更具扩展性。 4. **同时实现物理灵巧性与复杂指令理解**：通过将 `VLM` 用于低层 `VLA` 策略（基于$ \pi_0VLA），Hi Robot 保留了先进 VLA 模型所能提供的物理灵巧性。同时，其高层 VLM 又赋予了系统前所未有的复杂语言指令理解能力。这种结合在现有工作中是独一无二的。

跨平台通用性：在单臂、双臂和移动双臂机器人上的成功部署，展示了其架构的通用性和适应不同物理平台的能力。

4. 方法论

Hi Robot 的核心思想是将机器人的控制策略分解为高层和低层两个推理过程，均基于视觉-语言模型 (VLM)。这种层次化结构旨在让机器人能够理解复杂的开放式指令、用户反馈，并将其转化为具体的物理动作。

4.1. 方法原理

该方法的核心思想是将机器人的决策过程比作人类的“系统1”和“系统2”认知过程：

“系统2” (System 2) - 高层策略：对应于深思熟虑、高层次的推理。它负责解析复杂的、开放式任务提示 ( $\ell_t$ ) 和用户交互（例如反馈），结合当前的环境视觉观测 ( $I_t^1, ..., I_t^n$ )，推断出最合适的下一步行动。这个“下一步行动”被表示为一个更简单、原子化的语言命令 ( $\hat{\ell}_t$ )，同时还可以生成机器人的口头回应 ( $u_t$ )。高层策略运行频率较低，因为它处理的是战略性决策。
“系统1” (System 1) - 低层策略：对应于自动、快速的反应。它接收高层策略生成的原子化语言命令 ( $\hat{\ell}_t$ )，结合当前的视觉观测和机器人本体配置 ( $q_t$ )，直接生成一系列低级物理动作 ( $A_t$ )。低层策略运行频率较高，负责将高级指令快速转化为流畅的机器人运动。

这种层次化推理过程的优势在于：当原始任务提示 ( $\ell_t$ ) 对于低层策略来说过于复杂、不熟悉或涉及与用户的复杂交互时，高层策略能够将其分解为低层策略易于理解和执行的“一口大小”的命令。

下图（原文 Figure 2）展示了层次化 VLA 的系统概览：

Figure 2: Overview of hierarchical VLA. The policy consists of a high-level and a low-level policy. The high-level policy processes open-ended instructions and images from base and wristmounted cameras to generate low-level language commands. The low-level policy uses these commands, images, and robot states to produce actions and optionally verbal responses. 该图像是示意图，展示了层次化视觉语言行动模型的工作流程。该系统通过高层策略处理用户提示及图像，生成低层语言指令；随后，低层策略根据这些指令和机器人状态执行相应的动作，并可作出口头响应。 VLM 描述: 该图像是示意图，展示了层次化视觉语言行动模型的工作流程。该系统通过高层策略处理用户提示及图像，生成低层语言指令；随后，低层策略根据这些指令和机器人状态执行相应的动作，并可作出口头响应。 原始论文描述: Figure 2: Overview of hierarchical VLA. The policy consists of a high-level and a low-level policy. The high-level policy processes open-ended instructions and images from base and wristmounted cameras to generate low-level language commands. The low-level policy uses these commands, images, and robot states to produce actions and optionally verbal responses.

4.2. 核心方法详解 (逐层深入)

4.2.1. 预备知识与问题定义

机器人策略 $p(\mathbf{A}_t | \mathbf{o}_t)$ 通过处理观测输入 $\mathbf{o}_t$ 来控制机器人，并生成一个或多个动作 $\mathbf{A}_t = [\mathbf{a}_t, \mathbf{a}_{t+1}, ..., \mathbf{a}_{t+H-1}]$ ，其中 $\mathbf{A}_t$ 表示包含接下来 $H$ 个动作的动作块。观测 $\mathbf{o}_t$ 包括来自多个摄像头的图像 $\mathbf{I}_t^1, ..., \mathbf{I}_t^n$ 、机器人的配置（即关节和夹持器位置） $\mathbf{q}_t$ ，以及一个语言提示 $\ell_t$ 。因此， $\mathbf{o}_t = [\mathbf{I}_t^1, ..., \mathbf{I}_t^n, \boldsymbol{\ell}_t, \mathbf{q}_t]$ 。

本文基于视觉-语言-行动 (VLA) 模型，该模型利用 VLM 预训练来初始化策略 $p(\mathbf{A}_t | \mathbf{o}_t)$ 。一个标准的 VLM 表示分布 $p(\ell' | \mathbf{I}, \ell)$ ，即给定图像 $\mathbf{I}$ 和提示 $\ell$ 的图像-语言前缀，语言后缀 $\ell'$ （例如，问题的答案）的概率。VLM 通常使用自回归解码器 Transformer 模型来表示，将分布分解为自回归词元概率的乘积 $p(\mathbf{x}_{t+1} | \mathbf{x}_1, ..., \mathbf{x}_t, \mathbf{I})$ 。 VLA 模型通过微调 VLM，使其将动作 $\mathbf{A}_t$ 表示为后缀 $\ell'$ 中的词元，通常通过离散化动作来实现。本文在此基础上采用 $\pi_0`VLA` (Black et al., 2024)，它额外处理多图像和连续状态观测 $\mathbf{q}_t$，并通过流匹配 (flow-matching) 修改 `VLM` 以输出连续动作块分布。 ### 4.2.2. 层次化推理架构 `Hi Robot` 将策略 $p(\mathbf{A}_t | \mathbf{o}_t)$ 分解为高层和低层推理过程。 1. 高层策略 (High-level Policy)： * **功能**：处理开放式任务提示 ($\ell_t$) 和用户反馈，结合图像观测，生成原子化的低层语言命令 ($\hat{\ell}_t$)。它还可以选择生成机器人的口头回应 ($u_t$)。 * **输入**：来自多个摄像头的图像观测 $\mathbf{I}_t^1, ..., \mathbf{I}_t^n$ 和开放式任务提示 $\ell_t$。 * **输出**：中间语言命令 $\hat{\ell}_t$，可能包含机器人口头回应 $u_t$。 * **模型表示**：高层策略 $p^{\mathrm{hi}}(\hat{\ell}_t | \mathbf{I}_t^1, ..., \mathbf{I}_t^n, \ell_t)$ 由一个 `VLM` 表示。该 `VLM` 使用图像和 $\ell_t$ 作为前缀，生成 $\hat{\ell}_t$ 作为后缀。 * **运行频率**：高层策略运行频率较低。在实现中，每秒钟或当收到新的用户语言反馈时，会重新触发高层推理并重新计算 $\hat{\ell}_t$。这种策略在提供用户反馈和纠正时能实现快速响应。 2. 低层策略 (Low-level Policy)： * **功能**：接收高层策略生成的原子化语言命令 ($\hat{\ell}_t$)，并将其转化为实际的机器人动作块 ($A_t$)。 * **输入**：来自多个摄像头的图像观测 $\mathbf{I}_t^1, ..., \mathbf{I}_t^n$、高层策略输出的语言命令 $\hat{\ell}_t$ 和机器人配置 $\mathbf{q}_t$。 * **输出**：机器人动作块 $\mathbf{A}_t$。 * **模型表示**：低层策略 $p^{\mathrm{lo}}(\mathbf{A}_t | \mathbf{I}_t^1, ..., \mathbf{I}_t^n, \hat{\ell}_t, \mathbf{q}_t)$ 也是一个 `VLA` 模型，其观测类型与标准 `VLA` 相同，只是语言命令 $\ell_t$ 被高层策略的输出 $\hat{\ell}_t$ 替换。 * **运行频率**：低层策略以高频率生成动作块。 ### 4.2.3. 整合用户交互用户可以在策略执行的任何点进行干预，提供额外信息、反馈，甚至完全改变任务。 * **干预形式**：文本命令或语音（通过语音转文本系统转录为文本）。 * **触发机制**：当系统收到用户干预时，高层推理会立即被触发，重新计算新的中间语言命令 $\hat{\ell}_t$。 * **机器人回应**：高层策略可以选择在命令 $\hat{\ell}_t$ 中包含口头回应 $u_t$（例如确认或澄清）。如果包含 $u_t$，系统会使用文本转语音系统将 $u_t$ 播放给用户，然后将其从 $\hat{\ell}_t$ 中移除，再将处理后的命令传递给低层策略。 * **上下文感知**：高层策略的响应是情境感知的，因为它不仅观察用户提示 $\ell_t$，还观察当前的图像观测。这使得它能够正确理解并响应“那不是垃圾”之类的反馈，而这是纯语言系统无法做到的。当纠正（例如“别碰它”）完成后，用户可以向机器人发出信号，使其切换回之前的命令并继续任务执行。 ### 4.2.4. 数据收集与训练为了可扩展地训练 `Hi Robot`，采用了人类标注数据和合成生成交互数据相结合的方式。下图（原文 Figure 3）展示了数据收集与生成流程： ![Figure 3: Data collection and generation for training the highlevel policy. We first collect teleoperated robot demonstrations and segment them into short skills (e.g., pick up KitKat). Using this labeled data, we prompt a vision-language model (VLM) to generate synthetic user instructions (e.g., "Can you get me something sweet?") and robot responses. The resulting dataset is used to train the high-level policy, which maps image observations and user commands to verbal responses and skill labels.](/files/papers/695a535bb6faa3ab260b767b/images/3.jpg) *该图像是示意图，描述了高层策略训练的数据收集与生成过程。图中分为四个部分：第一部分展示机器人数据收集，第二部分展示人类注释和合成数据生成，第三部分说明通过视觉语言模型生成用户指令和机器人响应，最后一部分展示高层政策训练如何将图像观察和用户命令映射到机器人反应和技能标签。* **VLM 描述**: 该图像是示意图，描述了高层策略训练的数据收集与生成过程。图中分为四个部分：第一部分展示机器人数据收集，第二部分展示人类注释和合成数据生成，第三部分说明通过视觉语言模型生成用户指令和机器人响应，最后一部分展示高层政策训练如何将图像观察和用户命令映射到机器人反应和技能标签。 **原始论文描述**: Figure 3: Data collection and generation for training the highlevel policy. We first collect teleoperated robot demonstrations and segment them into short skills (e.g., pick up KitKat). Using this labeled data, we prompt a vision-language model (VLM) to generate synthetic user instructions (e.g., "Can you get me something sweet?") and robot responses. The resulting dataset is used to train the high-level policy, which maps image observations and user commands to verbal responses and skill labels. **1. 机器人演示数据收集**： * 通过遥操作 (teleoperation) 收集机器人演示数据 $\mathcal{D}_{demo}$。这些轨迹包含总体目标的粗略语言标注（例如，“制作一个三明治”）。 * 将完整的演示片段分割成短技能 ($\hat{\ell}_t$)，例如“拿起一片生菜”，每个技能通常持续1到3秒。 * 启发式地从原始机器人动作中提取基本运动基元（例如，小幅校正运动，如“将右臂向左移动”）。 * 最终得到数据集 $\mathcal{D}_{labeled}$，其中包含描述机器人技能的元组 $(\hat{\ell}_t, \mathbf{I}_t^1, ..., \mathbf{I}_t^n)$。 **2. 合成数据生成**： * 使用一个大型视觉-语言模型 $p^{\mathrm{gen}}$ 来生成合成的用户提示和插入语 ($\ell_t$)，以及相应的机器人回应 ($u_t$)。 * **生成过程**：给定 $\mathcal{D}_{labeled}$，向 $p^{\mathrm{gen}}$ 提供视觉上下文 ($\mathbf{I}_t^1, ..., \mathbf{I}_t^n$) 和技能标签 ($\hat{\ell}_t$，例如“拿起生菜”)。$p^{\mathrm{gen}}$ 然后会“想象”在真实用户交互中可能导致 $\hat{\ell}_t$ 的合适交互，即生成可能的用户提示 $\ell_t$（例如，“你能给我加点生菜吗？”）以及机器人的口头回应和澄清 $u_t$。 * **高质量合成数据**：为确保合成数据的质量和多样性，在 $p^{\mathrm{gen}}$ 的提示设计中融入了结构化的场景分类和响应分类（遵循 Stephan et al., 2024）。例如，将交互分类为“否定任务”（用户指示机器人不要做什么）、“情境化纠正”（用户根据任务状态调整先前的命令）、“特定约束”（用户指定饮食偏好等）。机器人响应则分类为简单确认、澄清和错误处理。 * **上下文接地**：提示 $\mathcal{P}$ 中包含任务的详细描述（例如，清理桌子、制作三明治、购物），并指示模型将响应情境化到视觉观测和先前上下文中。$ p^{\mathrm{gen}} $能够利用世界知识生成交互，例如根据“我乳糖不耐受”生成“好的，我不会放奶酪”。 * **多步任务一致性**：$ p^{\mathrm{gen}} $会以一个片段中先前的技能标签 $\hat{\ell}_0, ..., \hat{\ell}_{t-1}$ 为条件，生成连贯的用户命令，考虑过去的动作。 * 最终得到更丰富、多样化的合成数据集 $\mathcal{D}_{syn}$，为训练高层策略提供有意义的监督。 **3. 模型训练**： * **高层策略训练**：高层策略 $p^{\mathrm{hi}}(\hat{\ell}_t | \mathbf{I}_t^1, ..., \mathbf{I}_t^n, \ell_t)$ 在 $\mathcal{D}_{syn} \cup \mathcal{D}_{labeled}$ 上使用交叉熵损失 (cross-entropy loss) 进行训练，目标是预测下一个词元。 * **低层策略训练**：低层策略 $p^{\mathrm{lo}}(\mathbf{A}_t | \mathbf{I}_t^1, ..., \mathbf{I}_t^n, \hat{\ell}_t, \mathbf{q}_t)$ 在 $\mathcal{D}_{labeled} \cup \mathcal{D}_{demo}$ 上使用流匹配目标 (flow-matching objective) 进行训练，遵循 Black et al. (2024)。 ### 4.2.5. 模型架构与实现 * 基础 <code>VLM</code>：高层和低层策略都使用 `PaliGemma-3B VLM` (Beyer et al., 2024) 作为基础模型。`PaliGemma` 是一个开源的30亿参数 `VLM`，在性能和计算效率之间取得了良好平衡。 * **低层策略具体实现**：低层策略是$ \pi_0VLA (Black et al., 2024)。它通过微调 PaliGemma-3B 并额外添加一个流匹配“动作专家”来生成连续动作。

高层策略具体实现：高层策略通过微调 PaliGemma-3B 来预测语言命令。
模块化设计：该框架具有模块化特性，允许集成其他语言条件策略。

4.2.6. 系统与机器人概述

1. 感知与语言处理：

语音输入：使用消费级领夹麦克风采集音频。
语音转文本：本地使用 Whisper large-v2 (Radford et al., 2023) 进行转录。
文本转语音：使用 Cartetia API 生成自然、富有表现力的语音输出。

2. 推理硬件与延迟：
硬件：使用1到2块 NVIDIA GeForce RTX 4090 消费级 GPU 进行实时推理。
实时推理延迟：
- 低层策略（每步推理时间）：
  - 图像编码：14 ms
  - 观测处理：32 ms
  - 动作预测 (x10)：27 ms
  - 总计（板载）：73 ms
  - 总计（板外 + WiFi）：86 ms
- 高层策略（单步解码）：
  - RTX 4090：47 ms (prefill) + 13.2 ms (decode)
  - H100：17.3 ms (prefill) + 5.7 ms (decode)
- 这些测量结果证实了在约 10 Hz 控制速率下的实时可行性。结合动作块 (action chunking)，可用于以 50 Hz 的频率控制机器人。
  
  3. 机器人系统细节：
UR5e：
- 配置：6自由度 (DoF) 机械臂，配备平行夹爪。
- 摄像头：腕部摄像头和过肩摄像头。
- 空间：7维配置和动作空间。
双臂 ARX：
- 配置：两台6自由度 ARX 机械臂。
- 摄像头：两个腕部摄像头和一个基座摄像头。
- 空间：14维配置和动作空间，支持灵巧的双臂操作。
移动 ARX：
- 配置：基于 Mobile ALOHA (Fu et al., 2024) 平台，将两台6自由度 ARX 机械臂安装在移动基座上。
- 基座：非完整 (nonholonomic) 基座，引入两个额外的动作维度。
- 空间：14维配置空间和16维动作空间。
- 摄像头：与双臂设置类似，包括两个腕部摄像头和一个基座摄像头，提供导航和操作的视觉反馈。

4.2.7. 模型初始化、优化器与超参数

模型初始化：使用 PaliGemma (Beyer et al., 2024) 作为基础 VLM 主干网络，微调时解冻整个模型。
优化器与超参数：
- 优化器：AdamW (Loshchilov & Hutter, 2017)。
- 参数： $\beta_1 = 0.9$ ， $\beta_2 = 0.95$ ，无权重衰减 (weight decay)。
- 梯度裁剪：梯度范数裁剪至最大幅度1。
- 指数移动平均 (EMA)：网络权重保持 EMA，衰减因子为0.999。
- 学习率：在前1000步进行预热 (warm up)，然后保持恒定在 $1 \times 10^{-5}$ 。
- 批次大小 (Batch size)：512。
训练时长与资源：高层策略训练效率高，约在 $8 \times \mathrm{H100}$ GPU 上耗时2小时。低层策略的训练时间根据数据集大小和目标任务的复杂性而异。

5. 实验设置

本节详细描述了实验中使用的任务、评估指标和对比方法，旨在全面评估 Hi Robot 在复杂物理交互和用户交互场景下的表现。

5.1. 数据集

实验使用了三个复杂的任务领域，这些任务结合了具有挑战性的物理交互和复杂的用户交互，包括多阶段指令、任务中途的实时用户反馈以及描述新颖任务变体的提示。

下图（原文 Figure 4）展示了不同任务中的机器人行为：

该图像是示意图，展示了机器人在不同任务中的执行流程，包括清理桌子、制作三明治和购物。每个任务展示了机器人如何根据用户的语音指令进行反馈和相应的操作，体现了系统的复杂指令处理能力。 VLM 描述: 该图像是示意图，展示了机器人在不同任务中的执行流程，包括清理桌子、制作三明治和购物。每个任务展示了机器人如何根据用户的语音指令进行反馈和相应的操作，体现了系统的复杂指令处理能力。

清理桌子 (Table Bussing)：
- 任务描述：清理桌子，将盘子和餐具放入餐具回收箱，垃圾放入垃圾桶。
- 训练数据：包含完整的清理桌子片段。
- 物理挑战：某些物品（如盘子边缘）需要精细的抓取策略；机器人必须拾取和分离不同物品；有时甚至需要用一个物体操作另一个物体（例如，拿起带有垃圾的盘子，然后倾斜盘子将垃圾倒入垃圾桶）。
- 评估提示示例：
  - “你能只清理垃圾，不清理餐具吗？”
  - “你能只清理餐具，不清理垃圾吗？”
  - “把所有发黄的东西收走。”
- 高层推理要求：要求高层模型理解任务意图和每个物体（例如，识别可重复使用的塑料杯是餐具，纸杯是垃圾），然后修改机器人“默认”的收拾所有物品的行为。这包括理解要做什么，以及什么不应该做（例如，当被要求只收集垃圾时，避免触碰餐具）。
- 情境化反馈示例：
  - “这不是垃圾。”
  - “剩下的别动。”
  - “别碰它。”
- 要求：机器人需要理解这些插话并做出相应反应。
制作三明治 (Sandwich Making)：
- 任务描述：机器人制作三明治，最多使用六种配料和面包。
- 物理挑战：机器人必须操作易变形和脆弱的配料，需要小心抓取并精确放置。
- 训练数据：包含不同类型三明治的示例，带有段落标签（例如，“拿起一片面包”）。
- 评估提示示例：
  - “嗨机器人，你能给我做一个有奶酪、烤牛肉和生菜的三明治吗？”
  - “你能给我做一个素三明治吗？我对泡菜过敏。”
- 实时纠正示例：
  - “就这样了，不要再加了。”
杂货购物 (Grocery Shopping)：
- 任务描述：机器人从杂货架上拾取指定物品组合，放入购物篮，然后将购物篮放在附近的桌子上。
- 机器人平台：需要控制一个双臂移动机械手（参见 Figure 4）。
- 语义挑战：解释涉及可变数量物品的细微语义。
- 评估提示示例：
  - “嗨机器人，你能给我拿些薯片吗？我要为电影之夜做准备。”
  - “你能给我拿点甜的吗？”
  - “你能给我拿点喝的吗？”
  - “嗨机器人，你能给我拿些奇巧巧克力和彩虹糖吗？”
- 插话示例：
  - “我还要一些奇巧巧克力。”

5.2. 评估指标

采用两个互补的指标，由对所运行方法不知情的人类评估员进行测量。每个评估包含每项任务每种方法20次试验。

指令准确性 (Instruction Accuracy, IA)：
- 概念定义：此分数衡量高层策略预测的指令与人类意图的匹配程度，需要对当前环境和提示进行多模态理解。它关注机器人对高级指令的理解，包括视觉情境和语言意图。
- 数学公式： $\mathrm{IA} = \frac{\sum_{i=1}^{N} \mathbb{I}(\text{Prediction}_i \text{ aligns with Human Intent}_i)}{\sum_{i=1}^{N} \text{Total Predictions}_i}$
- 符号解释：
  - $\mathrm{IA}$ ：指令准确性。
  - $N$ ：评估期间的总预测次数。
  - $\mathbb{I}(\cdot)$ ：指示函数，如果括号内的条件为真，则为1，否则为0。
  - $\text{Prediction}_i$ ：高层模型在第 $i$ 次推理中产生的低层语言指令或机器人回应。
  - $\text{Human Intent}_i$ ：人类评估员判断的，与用户命令和当前观测一致的正确意图。
  - $\text{Total Predictions}_i$ ：高层模型在第 $i$ 次推理中产生的预测总数。
- 评估方式：如果高层模型的预测与用户命令和当前观测一致，评估员标记为正确预测；否则为不正确。对于缺乏可解释语言预测的平面基线，评分基于评估员对策略行为意图的解释。
任务进展 (Task Progress, TP)：
- 概念定义：由于所有评估任务都复杂且具有长程性，此指标用于提供任务完成度的细粒度视图。它量化了机器人与预期目标的匹配程度，侧重于物理任务的实际完成情况。
- 数学公式： $\mathrm{TP} = \frac{\text{Number of Objects Successfully Placed/Configured}}{\text{Total Number of Objects for the Goal}}$
- 符号解释：
  - $\mathrm{TP}$ ：任务进展。
  - $\text{Number of Objects Successfully Placed/Configured}$ ：成功放置到正确位置或达到正确配置的物体数量。
  - $\text{Total Number of Objects for the Goal}$ ：完成任务目标所需的总物体数量。
- 评估方式：通过计算成功放置到正确位置或达到正确配置的物体比例来衡量。

5.3. 对比基线

论文将 Hi Robot 的完整方法与多种替代方法进行了比较，这些方法要么采用不同类型的高层策略，要么不使用层次化结构。

专家人类高层 (Expert human high level)：
- 描述：这是一个理想化的基线（oracle baseline）。由一名专家人类代替高层模型，手动输入低层行为的语言命令，这些命令被认为最有可能成功完成任务。
- 目的：用于理解低层策略的性能上限，即在理想的高层命令下，低层策略能达到多好的表现。
GPT-4o 高层模型 (GPT-4o high-level model)：
- 描述：该方法与 Hi Robot 采用相同的高层/低层分解结构，但使用 GPT-4o API 模型作为高层推理，低层策略与 Hi Robot 相同。GPT-4o 是一个比论文中使用的 VLM 大得多模型，但它没有用 Hi Robot 的真实和合成数据集进行微调。
- 目的：类似于 SayCan (Brohan et al., 2023b) 的高级版本，但这里使用的是 VLM 而非 LLM。为了使 GPT-4o 与机器人的能力对齐，通过精心设计的提示 (prompt engineering) 包含了低层策略能够遵循的任务相关指令（通过对人工标注数据集中最常见的技能标签进行排名确定），并要求 GPT-4o 在这些指令中选择。
平面 VLA (Flat VLA)：
- 描述：该比较直接使用与 Hi Robot 中相同的 $\pi_0$ 低层策略，但没有任何高层推理或合成数据。它代表了指令遵循领域的现有最先进方法 (Black et al., 2024)。
- 目的：评估层次化结构和合成数据对处理复杂指令的必要性。
带合成数据的平面 VLA (Flat VLA with synthetic data)：
- 描述：该消融实验单独使用 $\pi_0$ 低层策略，没有高层模型，但在低层策略的训练数据中包含了合成数据，使其仍能处理评估中使用的复杂提示。
- 目的：评估层次化结构带来的益处，独立于合成数据的影响。
不带合成数据的 Hi Robot (Hi Robot without synthetic data)：
- 描述：此消融实验对应于 Hi Robot 方法，但移除了合成训练数据。
- 目的：评估在训练中包含多样化合成生成提示的重要性。这个消融实验可以看作是 YAY Robot (Shi et al., 2024) 的一个高级 VLM 版本，YAY Robot 是一个使用高层模型预测语言命令给低层模型的系统。

6. 实验结果与分析

6.1. 核心结果分析

论文展示了 Hi Robot 系统与 GPT-4o 策略和平面 VLA 方法等关键基线的定量和定性结果。

下图（原文 Figure 5）展示了不同任务中指令准确性和任务进展的量化结果：

该图像是示意图，展示了机器人在不同任务中的执行流程，包括清理桌子、制作三明治和购物。每个任务展示了机器人如何根据用户的语音指令进行反馈和相应的操作，体现了系统的复杂指令处理能力。该图像是一个示意图，展示了机器人在不同任务中的指令准确性和任务进展情况，包括清理桌子、制作三明治和杂货购物。图中比较了平面视觉-语言模型、GPT-4 高级模型和专家人类的表现。相关指标显示了各个任务的执行效果。 VLM 描述: 该图像是一个示意图，展示了机器人在不同任务中的指令准确性和任务进展情况，包括清理桌子、制作三明治和杂货购物。图中比较了平面视觉-语言模型、GPT-4 高级模型和专家人类的表现。相关指标显示了各个任务的执行效果。

以下是原文 Figure 5 的表格数据转录：

Method	Table Bussing		Sandwich Making		Grocery Shopping		Average
Method	IA (%)	TP (%)	IA (%)	TP (%)	IA (%)	TP (%)	IA (%)	TP (%)
Flat VLA	21.3	29.5	25.5	31.0	20.8	26.5	22.5	29.0
GPT-4o High-Level	37.0	40.0	32.0	39.5	35.5	38.0	34.8	39.2
Hi Robot	88.5	86.5	85.0	83.5	84.5	80.0	86.0	83.3
Expert Human High-Level	95.5	97.5	94.0	96.0	96.0	95.5	95.2	96.3

下图（原文 Figure 6）展示了 GPT-4o 与 Hi Robot 的定性对比：

该图像是一个示意图，展示了机器人在不同任务中的指令准确性和任务进展情况，包括清理桌子、制作三明治和杂货购物。图中比较了平面视觉-语言模型、GPT-4 高级模型和专家人类的表现。相关指标显示了各个任务的执行效果。该图像是插图，展示了系统在接收用户指令和图像观察后的低级命令预测流程。左侧列出用户提示和对应的图像观察，右侧则分别展示了其他方法与本研究所提出的“Hi Robot”系统的低级命令输出对比。该系统能够处理复杂请求并给出相应的回应，体现出其在任务执行中的优势。 VLM 描述: 该图像是插图，展示了系统在接收用户指令和图像观察后的低级命令预测流程。左侧列出用户提示和对应的图像观察，右侧则分别展示了其他方法与本研究所提出的“Hi Robot”系统的低级命令输出对比。该系统能够处理复杂请求并给出相应的回应，体现出其在任务执行中的优势。

主要发现总结：

Hi Robot 在开放式指令遵循方面表现出色：
- 在所有任务中，Hi Robot 的指令准确性 (IA) 和任务进展 (TP) 都显著高于 GPT-4o 和平面基线。平均 IA 达到 86.0%，TP 达到 83.3%，远超 Flat VLA (IA 22.5%, TP 29.0%) 和 GPT-4o High-Level (IA 34.8%, TP 39.2%)。
- Hi Robot 能够正确识别、拾取和放置正确的物品，即使被要求只处理特定物品或省略配料（例如，“我对泡菜过敏”）。
- 相比之下，GPT-4o 在物理交互开始后经常失去上下文，发出无意义的命令（例如，“拿起百慕大三角”）或将所有物品标记为“盘子”或“勺子”，这会打断长程规划。
Hi Robot 展示出强大的情境化推理和适应反馈的能力：
- 当用户在任务中途修改请求（例如，“剩下的别动”、“我还要一个奇巧巧克力”）时，Hi Robot 能够相应地更新低层命令。
- GPT-4o 往往无法保持连贯的内部状态，导致在夹持器被占用时还尝试拾取新物体或过早切换任务。而平面基线则根本无法对实时反馈做出反应。
Hi Robot 在多样化任务、机器人和用户约束下均有效：
- 在单臂、双臂和移动双臂平台上，Hi Robot 能够处理不同的物体（从易碎的奶酪片到高瓶子），同时遵守动态约束（例如，“只收拾黄色物品”、“不要加番茄”）。
- 相比之下，平面基线和 GPT-4o 在任务中途提示改变时，经常会恢复到默认行为（例如，拾取所有可见物体，或在三明治中添加几乎所有配料）。
专家人类指导揭示了低层策略的优势，但强调了高层推理的必要性：
- 在人类专家提供高层指令的情况下，低层策略几乎完美执行，这表明失败更多地源于高层推理而非低层执行。Expert Human High-Level 的平均 IA 达到 95.2%，TP 达到 96.3%。
- 然而，单纯依赖人类输入是不可扩展的。Hi Robot 通过其高层 VLM 弥补了这一差距，该 VLM 与用户提示和实时观测对齐。GPT-4o 缺乏物理接地，而平面基线缺乏高层推理，都阻碍了性能。

6.2. 消融实验/参数分析

进行了两项关键消融实验，以单独评估 (1) 合成数据在高层推理中的贡献，以及 (2) 层次化分解与单一“平面”策略的优势。

(A) 合成数据对开放式指令遵循至关重要：

对比：Hi Robot（使用人类标注数据 + 合成数据训练）与不带合成数据的 Hi Robot（仅使用人类标注数据训练）。
结果：下图（原文 Figure 7）展示了合成数据对指令准确性 (IA) 和任务进展 (TP) 的影响。

该图像是一个图表，展示了 Hi Robot 在处理不同任务时的表现，包括桌面清理、三明治制作和购物。图中比较了使用合成数据和不使用合成数据的 Hi Robot 在任务执行中的准确性（IA）和任务进展（TP），右侧显示了两者的平均差距，分别为 46% 和 39%。 VLM 描述: 该图像是一个图表，展示了 Hi Robot 在处理不同任务时的表现，包括桌面清理、三明治制作和购物。图中比较了使用合成数据和不使用合成数据的 Hi Robot 在任务执行中的准确性（IA）和任务进展（TP），右侧显示了两者的平均差距，分别为 46% 和 39%。 原始论文描述: Figure 7: Ablation on synthetic data. Synthetic data is essential for handling open-ended instructions, as the model trained without it struggle with user-driven deviations, failing to integrate clarifications and constraints, whereas Hi Robot adapts seamlessly by leveraging diverse, compositional language prompts. $\mathrm { { I A } } = \mathrm { { In } } .$ struction Accuracy, $\mathrm { T P } =$ Task Progress)

以下是原文 Figure 7 的表格数据转录：

Ablation	Table Bussing		Sandwich Making		Grocery Shopping		Average
Ablation	IA (%)	TP (%)	IA (%)	TP (%)	IA (%)	TP (%)	IA (%)	TP (%)
Hi Robot	88.5	86.5	85.0	83.5	84.5	80.0	86.0	83.3
Hi Robot w/o synthetic data	40.0	45.0	35.5	40.0	45.0	42.5	40.2	42.5

分析：合成交互显著提升了语言灵活性。没有合成数据时，消融模型在处理用户驱动的偏差时会遇到困难，无法整合澄清信息和约束（例如，“这不是垃圾”），或者会包含禁止的物品（例如，泡菜）。而 Hi Robot 由于合成数据中更广泛的组合性语言覆盖，能够平稳地适应这些反馈。平均而言，合成数据使 IA 提高了 46%，TP 提高了 39%。

(B) 层次化结构优于平面策略：
对比：Hi Robot 与带合成数据的平面策略（Flat VLA with synthetic data），两者均在相同的数据上训练，但后者没有独立的高层推理步骤。
结果：下图（原文 Figure 8）展示了层次化结构与平面策略的对比。

$Figure 7: Ablation on synthetic data. Synthetic data is essential for handling open-ended instructions, as the model trained without it struggle with user-driven deviations, failing to integrate clarifications and constraints, whereas Hi Robot adapts seamlessly by leveraging diverse, compositional language prompts. $\\mathrm { { I A } } = \\mathrm { { I n } } .$ struction Accuracy, $\\mathrm { T P } =$ Task Progress)$ 该图像是图表，展示了在不同任务中，层次策略（Hi Robot）与平面策略（Flat VLA）在指令准确率（IA）和任务进度（TP）上的表现。层次策略平均表现优于平面策略，IA和TP之间存在19%和34%的差距。 VLM 描述: 该图像是图表，展示了在不同任务中，层次策略（Hi Robot）与平面策略（Flat VLA）在指令准确率（IA）和任务进度（TP）上的表现。层次策略平均表现优于平面策略，IA和TP之间存在19%和34%的差距。 原始论文描述: Figure 8: Hierarchical policy vs. flat policy. The hierarchical approach outperforms the flat variant trained on the same data, as it effectively integrates user feedback and partial instructions, whereas the flat model struggles with mid-task clarifications and nuanced task variations.( $\mathrm { { I A } = }$ Instruction Accuracy, $\mathrm { T P } = \mathrm { T a s k }$ Progress)

以下是原文 Figure 8 的表格数据转录：

Ablation	Table Bussing		Sandwich Making		Grocery Shopping		Average
Ablation	IA (%)	TP (%)	IA (%)	TP (%)	IA (%)	TP (%)	IA (%)	TP (%)
Hi Robot	88.5	86.5	85.0	83.5	84.5	80.0	86.0	83.3
Flat VLA with synthetic data	72.5	50.0	65.0	45.0	65.0	60.0	67.5	51.7

分析：层次化方法优于在相同数据上训练的平面变体。平面模型经常恢复到清理所有物品，或者无法处理部分指令（例如，“只收拾黄色物品”）。而 Hi Robot 在每个高层步骤都会重新检查提示，并对任务中途的更新做出连贯响应。这表明将高层推理与低层控制分离，对于多步任务的连贯性和适应动态用户输入是有益的。平均而言，层次化结构使 IA 提高了 19%，TP 提高了 34%。

6.3. 失败案例分析

论文指出了观察到的几种失败模式：

高层策略失败：
- 难以处理需要长上下文推理的指令，因为当前系统缺乏长期记忆能力。
低层策略失败：
- 暂时忽略指令：例如，尽管用户表示乳糖不耐受，但当奶酪靠近时机器人仍抓取奶酪（这可能是由于训练数据偏向于处理近距离物体）。
- 错误累积和超出分布 (OOD) 恢复：例如，物体掉落后无法恢复。
  
  这些失败案例暗示了未来研究方向，例如需要更强大的指令遵循模型、长上下文模型、针对边缘案例的对抗性数据生成，以及包含失败恢复和纠正的更多样化数据收集。

7. 总结与思考

7.1. 结论总结

本论文提出了 Hi Robot，一个利用视觉-语言模型 (VLM) 构建的层次化机器人控制系统。该系统通过将高层推理和低层行动执行分离，有效地解决了在开放世界环境中处理复杂、开放式指令和实时用户反馈的挑战。

Hi Robot 的主要贡献在于：

层次化 VLM 架构：将高层推理 (System 2) 和低层行动 (System 1) 都实例化为 VLM，高层 VLM 负责理解复杂用户意图并生成原子级语言命令，低层 VLA 负责将这些命令转化为物理动作。
情境化反馈与复杂指令处理：系统能够基于当前视觉观测，理解并响应如“这不是垃圾”等情境化反馈，并遵循如“做素三明治，不要番茄”等复杂、多约束的指令。
合成数据驱动：通过一个新颖的合成数据生成方案，利用大型 VLM 从机器人示教数据中生成多样化的用户提示和机器人回应，显著扩展了训练数据，提高了高层策略的泛化能力。
在多平台上的验证：在单臂、双臂和双臂移动机器人平台上，通过清理桌子、制作三明治和杂货购物等多样化任务，验证了 Hi Robot 在指令准确性 (IA) 和任务进展 (TP) 方面均优于 GPT-4o 高层模型和平面 VLA 等基线方法。

总而言之，Hi Robot 为实现更具适应性、可操控性和智能化的通用机器人迈出了重要一步，为机器人与人类更直观、更灵活的交互铺平了道路。

7.2. 局限性与未来工作

论文作者也坦诚指出了 Hi Robot 系统存在的局限性，并提出了未来可能的研究方向：

长上下文推理和记忆：当前系统缺乏长期记忆，导致在高层策略中处理需要长上下文推理的指令时存在困难。未来的工作可以探索集成更强大的记忆机制。
模型间的耦合性：高层和低层模型在训练过程中是解耦的，它们彼此之间对其能力并不完全了解，只能通过训练示例间接感知。未来的方向可以是更直接地耦合这两个层，例如允许高层策略更了解低层策略完成每个命令的成功程度。
合成数据生成的提示工程：高层模型的训练依赖于一定程度的提示工程 (prompt engineering) 来生成合成训练示例，以诱导所需行为。这可能需要人工干预来确保生成数据的质量和相关性。
失败案例与 OOD 恢复：低层策略可能暂时忽略指令（例如由于训练偏见而抓取近距离物体），并存在错误累积和超出分布 (OOD) 恢复的问题（例如物体掉落后无法恢复）。未来的工作需要探索更强大的指令遵循模型、长上下文模型、针对边缘案例的对抗性数据生成以及包含失败恢复和纠正的更多样化数据收集。
统一模型与更复杂的处理：未来的工作可以尝试将高层和低层系统合并到一个模型中，并在推理时区分“系统1”和“系统2”的角色。还可以更复杂地交织高层和低层处理，例如自适应系统可以异步地在不同抽象级别处理输入和语言，从而提供更灵活的多级推理过程。

7.3. 个人启发与批判

个人启发： Hi Robot 的层次化架构为解决通用机器人面临的复杂问题提供了一个优雅的范式。它让我重新思考了大型模型在机器人领域的应用方式，不仅仅是作为端到端的控制器，而是作为智能体不同认知层次的“大脑”。将 VLM 用于高层决策和低层执行的双重作用，以及通过合成数据弥补真实世界复杂交互数据稀缺性的方法，都具有很强的启发性。这种思路不仅可以应用于机器人控制，也可能推广到其他需要复杂决策和实时响应的智能系统中，例如智能家居、自动驾驶的决策层等。特别是其强调“情境化反馈”的处理，对于构建真正能够与人类自然互动的机器人至关重要，因为现实世界中的指令和意图往往是模糊和动态变化的。

批判与潜在改进：

合成数据质量与偏差：尽管合成数据有效地扩展了训练集，但其质量和多样性仍受限于生成 VLM 的能力和提示工程的设计。如果生成模型本身存在偏差或无法完全捕捉现实世界的复杂性，合成数据可能会引入新的偏差，导致系统在真实世界的边缘情况中表现不佳。未来的工作可以探索更高级的 few-shot 或 self-correction 机制来改进合成数据的生成，或者引入人类循环 (human-in-the-loop) 机制来对合成数据进行质量过滤。
高层与低层模型的通信效率与鲁棒性：高层策略通过语言命令与低层策略通信，虽然灵活，但也可能存在信息损耗或歧义。当低层策略遇到超出其能力范围的命令时，高层策略如何感知并调整？目前这种感知是缺失的。引入一个“置信度”或“失败预测”机制，让低层策略能够向高层策略报告其执行命令的困难程度，可能会显著提升系统的鲁棒性。
长期记忆与规划：论文提到当前系统缺乏长期记忆是高层策略的局限性之一。对于更宏大、跨越长时间尺度的任务，机器人不仅需要理解当前指令，还需要记住过去的事件、用户的偏好，甚至是它自身的历史错误。集成外部记忆模块或利用更先进的长上下文 VLM 将是关键。
对未见任务的泛化：尽管 Hi Robot 能够处理训练中未见的新任务组合，但其泛化能力在多大程度上依赖于底层技能的覆盖范围仍需进一步探讨。如果遇到全新的物理交互方式或完全陌生的物体，系统是否能通过高级推理进行零样本学习，仍是一个挑战。
可解释性：基于 VLM 的高层和低层策略在决策过程上可能缺乏足够的透明度。虽然高层策略会生成语言命令，但其如何从复杂提示和视觉信息中推理出这些命令，以及低层策略如何将命令转化为动作，仍然是一个“黑箱”。提高可解释性对于调试、信任和安全至关重要。

相似论文推荐

基于向量语义检索推荐的相关论文。

暂时没有找到相似论文。