论文状态：已完成

EMMOE: A Comprehensive Benchmark for Embodied Mobile Manipulation in Open Environments

发表：2025/03/12

机器人移动操作基准 (1)自然语言指令理解 (1)长时序任务执行 (1)大语言模型与机器人系统结合 (1)统一操作评估框架 (1)

价格：0.100000

已有 2 人读过

本分析由 AI 生成，可能不完全准确，请以原文为准。

TL;DR 精炼摘要

本文提出了EMMOE基准，旨在解决自主家用机器人执行复杂日常任务的挑战。EMMOE将高层和低层具身任务整合，并引入三项新评估指标。作者还构建了包含100个多样化任务的EMMOE-100数据集，并设计了HoMiEBoT智能体系统，结合大语言模型和轻量级执行策略，提升了机器人的自然语言理解能力与任务执行效果。

摘要

Developing autonomous home robots controlled by natural language has long been a pursuit of humanity. While advancements in large language models (LLMs) and embodied intelligence make this goal closer, several challenges persist: the lack of a unified benchmark for more complex robot tasks, limited evaluation methods and metrics, data incompatibility between LLMs and mobile manipulation trajectories. To address these issues, we propose Embodied Mobile Manipulation in Open Environments (EMMOE), a benchmark that requires agents to interpret user instructions and execute long-horizon everyday tasks in continuous space. EMMOE seamlessly integrates high-level and low-level embodied tasks into a unified framework, along with three new metrics for more diverse assessment. Additionally, we collect~\dataset, which features in various task attributes, detailed process annotations, re-plans after failures, and two sub-datasets for LLM training. Furthermore, we design~\model, a sophisticated agent system consists of LLM with Direct Preference Optimization (DPO), light weighted navigation and manipulation models, and multiple error detection mechanisms. Finally, we demonstrate~\model's performance and evaluations of different models and policies.

思维导图

论文精读

中文精读约 13 分钟读完 · 7,530 字

1. 论文基本信息

1.1. 标题

EMMOE: A Comprehensive Benchmark for Embodied Mobile Manipulation in Open Environments (EMMOE：开放环境中具身移动操作的综合基准)

1.2. 作者

Dongping Li (浙江大学/UIUC), Tielong Cai, Tianci Tang, Wenhao Chai, Katherine Rose Driggs-Campbell, Gaoang Wang (浙江大学) 等。

1.3. 发表期刊/会议

发表时间 (UTC)：2025-03-11。根据其格式和内容，这是一篇发布在 arXiv 上的预印本论文，且文末附带了 NeurIPS 会议的检查清单 (Checklist)，表明其目标投稿会议为 NeurIPS。

1.4. 摘要

人类长期以来一直追求通过自然语言控制自主家庭机器人。尽管大语言模型 (LLM) 和具身智能的发展拉近了这一目标，但仍存在诸多挑战：缺乏针对复杂机器人任务的统一基准、评估方法和指标有限、LLM 与移动操作轨迹之间的数据不兼容。为了解决这些问题，作者提出了 EMMOE，这是一个要求智能体在连续空间中解释用户指令并执行长程日常任务的基准。EMMOE 将高层和低层具身任务无缝集成到一个统一框架中，并提出了三个新的评估指标。此外，作者收集了 EMMOE-100 数据集，包含各种任务属性、详细的过程标注、失败后的重新规划 (Re-plan) 数据，以及两个用于 LLM 训练的子数据集。最后，作者设计了 HoMIEBoT，这是一个包含直接偏好优化 (DPO) 的 LLM、轻量级导航和操作模型以及多种错误检测机制的复杂智能体系统。

1.5. 原文链接

原文链接: https://arxiv.org/abs/2503.08604
PDF 链接: https://arxiv.org/pdf/2503.08604v2.pdf

2. 整体概括

2.1. 研究背景与动机

核心问题: 开发能够仅通过自然语言指令完成复杂日常任务的自主机器人。
当前挑战:
1. 基准缺失: 传统的任务运动规划 (TAMP) 依赖于离散状态和特定的目标配置，难以应对现实世界的复杂性和模糊指令。现有的具身智能基准通常将高层规划和低层控制隔离，缺乏统一的评估。
2. 评估局限: 现有的评估主要关注最终状态（成功/失败），忽略了过程中的因果依赖和灵活性。仅靠成功率无法全面衡量智能体的能力。
3. 数据不兼容 (Grounding Problem): LLM 需要对话数据，而机器人产生的是轨迹数据。这种格式上的不兼容使得 LLM 难以在物理环境中实现有效的“接地” (Grounding)，即难以根据实时反馈调整行为。

2.2. 核心贡献

提出 EMMOE 基准: 第一个统一的高层与低层具身任务基准，在连续空间中评估长程移动操作任务。
构建 EMMOE-100 数据集: 包含100个复杂的日常任务，具有思维链 (CoT) 输出、多样化任务设计、失败重规划过程，并提供了专门用于监督微调 (SFT) 和直接偏好优化 (DPO) 的子数据集。
提出新评估指标: 引入了 任务进度 (Task Progress, TP)、成功结束率 (Success End Rate, SER) 和 成功重规划率 (Success Re-plan Rate, SRR)，以进行更细粒度的评估。
设计 HoMIEBoT 智能体: 一个集成了高层规划器 (基于 Video-LLaVA) 和低层执行器 (包含多种轻量级模型) 的系统，具备错误检测和自适应能力。

3. 预备知识与相关工作

3.1. 基础概念

具身智能 (Embodied AI): 指拥有物理实体（如机器人）的智能系统，它们通过传感器感知环境，并通过执行动作与环境交互。与仅处理文本的 AI 不同，具身智能必须解决感知与行动的协调问题。
移动操作 (Mobile Manipulation): 指机器人结合了“移动”（导航到底盘位置）和“操作”（使用机械臂抓取或放置物体）的能力。这类任务通常比单纯的导航或抓取更复杂。
任务与运动规划 (TAMP): 解决长程任务的经典方法。分两层：高层任务规划（离散的，如“去厨房”、“拿杯子”）和低层运动规划（连续的，如计算关节角度轨迹）。
监督微调 (SFT) 与直接偏好优化 (DPO):
- SFT (Supervised Fine-Tuning): 使用高质量的“指令-回复”对来微调模型，教模型“怎么做”。
- DPO (Direct Preference Optimization): 一种对齐算法，通过给模型提供“更好”和“更差”的输出对（偏好数据），直接优化模型策略，使其更符合人类期望，而无需训练额外的奖励模型。

3.2. 前人工作与差异

现有基准:
- ALFRED/BEHAVIOR-1K: 侧重于离散动作或主要在模拟器中依赖特定状态，缺乏对连续空间中失败重规划的关注。
- OVMM: 涉及开放词汇的移动操作，但缺乏详细的过程标注和思维链 (CoT) 分析。
技术演进: 从早期的模仿学习 (Imitation Learning) 和强化学习 (RL) 解决短程任务，发展到使用 LLM/VLM 进行高层规划。
本文差异: EMMOE 强调过程评估和交错执行 (Interleaved Execution)。它不仅看结果，还看智能体如何推理、如何检测错误并重新规划。HoMIEBoT 利用 DPO 来对齐 LLM 的规划能力与机器人的实际执行能力。

4. 方法论

4.1. 方法原理

HoMIEBoT 采用分层架构，将长程任务分解为高层规划 (HLP) 和低层执行 (LLE)。

高层 (HLP): 充当“大脑”，负责理解指令、感知环境并生成下一步的子任务。
低层 (LLE): 充当“小脑和四肢”，负责将子任务转化为具体的电机控制信号，并反馈执行结果。两者通过交错执行的方式配合：规划 -> 执行 -> 获取反馈 -> 重新规划。

下图（原文 Figure 2）展示了 HoMIEBoT 的整体架构：

Figure 2: Overview of HomieBot. HomieBot leverages a hierarchical framework to handle longhorizon tasks: High-Level Planning decomposes tasks into manageable actions, Low-Level Execution accomplishes received actions and provides real-time feedback. 该图像是图示，展示了 HomieBot 的层次框架。此框架通过高层规划将任务分解为易于管理的动作，并通过低层执行实现这些动作，同时提供实时反馈。图中展示了 LLM、动作感知及环境交互的过程。相关公式可表示为 $O = \{A, S, m\}$ 。

4.2. 高层规划 (High-Level Planning, HLP)

HLP 模块使用微调后的多模态大模型 (LMM) Video-LLaVA 作为核心规划器。

4.2.1. 多模态指令输入

为了让模型感知环境，输入指令 $I$ 被设计为： $I = \{ o_{1 \sim 4} , s , T , inv , h , f \}$

符号解释:
- $o_{1 \sim 4}$ : 四张第一人称视角的图像（对应前、后、左、右四个方向）。
- $s$ : 系统提示词 (System Prompt)，定义角色和规则。
- $T$ : 用户给定的自然语言任务 (User Task)。
- inv: 当前持有的物品清单 (Inventory)，防止逻辑错误（如手里有东西还要去抓东西）。
- $h$ : 执行历史 (Execution History)，记录之前的所有子任务及其结果。
- $f$ : 上一步的反馈 (Feedback)，如果失败会包含具体的错误信息。

4.2.2. JSON 格式输出

模型 $M$ 根据输入 $I$ 生成结构化的输出 $O$ ： $O = M(I) = \{ A, S, m \}$ 其中子任务 $S$ 定义为： $S = \{ \mathsf{action, target} \}$

符号解释:
- $A$ (Analysis): 思维链 (CoT) 分析，模型在做决定前先进行推理，总结当前状态。
- $S$ (Subtask): 具体的动作指令，包含 action (如 Go to, Pick) 和 target (目标物体或位置)。
- $m$ (Model Choice): 选择调用哪个低层模型来执行该动作（例如，导航用 NoMaD，抓取用 RT-1-X）。
  
  下图（原文 Figure D4）展示了 HLP 的运行流程，从接收图像和反馈到生成分析与决策：
  
  该图像是示意图，展示了HomieBot的运行流程。图中描述了机器人在接收任务和反馈后，生成分析、具体子任务及模型选择的过程。

4.3. 低层执行 (Low-Level Execution, LLE)

LLE 接收 HLP 的指令，调用专门的模型执行。为了兼顾效率和性能，HoMIEBoT 采用了轻量级的专家模型组合，而非单一的端到端大模型。

无背景信息设置 (Without Background Info): 模拟真实场景，智能体只能依靠传感器。
- 操作 (Manipulation):
  - RT-1-X: 用于抓取 (Pick) 和放置 (Place)。
  - Octo: 用于打开 (Open) 和关闭 (Close) 容器。
- 导航 (Navigation):
  - NoMaD: 图像目标导航，适用于去某个位置。
  - PixNav: 像素级导航，适用于寻找特定物体。
有背景信息设置: 使用 M3 模型，假设已知目标的精确位置信息（作为对照组）。

4.3.1. 错误检测机制

系统定义了详细的错误类型并进行实时监控：

逻辑错误 (Logical): 如手满时尝试抓取。
距离错误 (Distance): 离目标太远或太近。
格式错误 (Format): 输出不在允许列表中。
执行错误 (Execution): 低层模型执行失败。这些错误会被转化为自然语言反馈 $f$ 传回给 HLP，触发重新规划。

4.4. 数据增强 (SFT 与 DPO)

为了训练 HLP 模型，作者构建了两种数据集：

SFT 数据增强: 将机器人的轨迹数据转换为对话格式。利用 GPT-4o 重写任务描述和分析过程，增加多样性。
DPO 数据增强: 构造 {Prompt, Chosen, Rejected} 三元组来优化模型偏好。
- 来源:
  - 自然失败: 失败的尝试 $O_i$ 作为 Rejected，重规划后成功的 $O_{i+1}$ 作为 Chosen。
  - 人工构造:
    - 顺序变换 (Order Change): 打乱正确的执行顺序作为负样本。
    - 动作/模型变换 (Action/Model Change): 将正确的动作名或模型名替换为错误的或不规范的名称作为负样本。
- 目的: 强化模型对逻辑顺序、动作规范和模型选择的理解，特别是抑制模型过早输出 End (结束) 指令。

5. 实验设置

5.1. 数据集

EMMOE-100: 在 Habitat-Lab 模拟器中收集的100个长程任务，使用 Fetch 机器人。
任务属性: 短程任务、长程任务（>10步）、开放式任务（多种解法）、逻辑任务（描述模糊）、人类风格任务。
数据特点: 每个子任务都包含第一人称图像、详细推理过程、以及失败重规划的数据。

下图（原文 Figure 1）展示了数据集中的一个任务示例，强调了推理和顺序的重要性：

该图像是图示示例，展示了在EMMOE-100中的任务执行过程。图中代理人需要先前往冰箱并打开，然后在厨房拿取香蕉。这一过程强调了推理及交错执行的必要性，只有完成所需步骤才能成功。

5.2. 评估指标

作者提出了三个新指标来补充传统的成功率。

5.2.1. 任务进度 (Task Progress, TP)

衡量任务完成了多少比例，关注过程的正确性。 $TP = \operatorname* { max } _ { k _ { i } \in K _ { T } } \left( \frac { \mathrm { len } ( k _ { i } ^ { \mathrm { check } } ) } { \mathrm { len } ( k _ { i } ) } \right)$

符号解释:
- $K_T$ : 任务 $T$ 的所有可能的关键路径集合（完成任务的正确步骤序列）。
- $k_i$ : 第 $i$ 条关键路径。
- $k_i^{\mathrm{check}}$ : 实际轨迹中与 $k_i$ 顺序匹配成功的子任务集合。
- $\mathrm{len}(\cdot)$ : 集合的长度。
- 含义: 计算实际轨迹覆盖了关键路径的百分比，取最大值。仅当 $TP=100\%$ 时任务才算成功。

5.2.2. 成功结束率 (Success End Rate, SER)

衡量智能体是否能自主、正确地判断任务何时完成。 $SER = { \frac { \ \operatorname { len } ( S ) } { \sum _ { t \in M } \operatorname { count } _ { t } ( \operatorname { end } ) } }$

符号解释:
- $S$ : 成功的轨迹集合（即 $TP=100\%$ 的轨迹）。
- $M$ : 所有轨迹的集合。
- $\operatorname{count}_t(\operatorname{end})$ : 如果轨迹 $t$ 以 End 动作结束则为1，否则为0。
- 含义: 在所有智能体自己决定“结束”的次数中，真正成功的比例是多少。防止智能体在未完成时提前退出或死循环。

5.2.3. 成功重规划率 (Success Re-plan Rate, SRR)

衡量智能体从失败中恢复并适应环境的能力。 $SRR = \frac { \sum _ { t \in S } \mathrm { count } _ { t } ( \mathrm { replan } ) } { \sum _ { t \in M } \mathrm { count } _ { t } ( \mathrm { replan } ) }$

符号解释:
- $\mathrm{count}_t(\mathrm{replan})$ : 轨迹 $t$ 中发生的重规划次数（即失败后尝试新动作）。
- 含义: 成功轨迹中的重规划次数占总重规划次数的比例。反映了重规划的有效性。

5.2.4. PLWSR (Path Length Weighted Success Rate)

路径长度加权成功率，衡量成功轨迹与专家轨迹在长度上的接近程度（传统指标）。

5.3. 对比基线

高层规划器: GPT-4o, Gemini-1.5-Pro, OpenAI o1 (推理模型), Qwen2-VL-7B, MiniCPM-V 2.6。
低层执行器: 统一使用 HoMIEBoT 中的 LLE 模块。

6. 实验结果与分析

6.1. 核心结果分析

实验结果表明，经过 DPO 训练的 HoMIEBoT 在大多数指标上优于基线模型。

以下是原文 [Table 2] 的结果，展示了不同模型在 EMMOE-100 任务上的表现：

MODEL	SR (成功率)	PLWSR	TP (任务进度)	SRR (重规划率)	SER (成功结束率)
QWEN2-VL-7B	1.00	0.50	16.55	0.59	25.00
MINICPM-V 2.6	0.67	0.57	14.45	0.06	40.00
GPT-4o	13.33	10.51	29.79	3.57	49.38
GEMINI-1.5-PRO	17.33	14.79	38.03	3.39	55.91
o1 (推理模型)	28.67	24.11	44.52	13.80	38.57
HOMIEBOT-7B (SFT)	27.67	20.88	50.27	9.23	53.90
HOMIEBOT-7B (SFT+DPO)	30.30	24.66	51.39	8.72	60.81

HoMIEBoT (SFT+DPO) 取得了最高的 SR (30.30%) 和 TP (51.39%)，证明了针对性训练（特别是 DPO）对于对齐具身任务格式和逻辑的重要性。
OpenAI o1 表现出极强的重规划能力 (SRR 13.80%)，这得益于其强大的推理能力，能利用反馈有效地修正错误。但它容易“放弃”，即在多次尝试后判定任务不可行而提前终止，导致 SER 较低。
开源 LMM (Qwen2, MiniCPM) 在没有微调的情况下表现极差，说明通用多模态模型难以直接处理复杂的具身规划任务。

6.2. SFT 与 DPO 的对比分析

作者进一步分析了 SFT 和 DPO 在训练集和测试集上的差异。

以下是原文 [Table 3] 的结果：

MODEL	TRAIN SPLIT (训练集)					TEST SPLIT (测试集)
MODEL	SR	PLWSR	TP	SRR	SER	SR	PLWSR	TP	SRR	SER
HoMIEBoT (SFT)	28.52	21.49	50.16	9.59	53.85	20.00	15.36	51.19	6.55	54.55
HoMIEBoT (SFT+DPO)	31.84	25.82	52.29	9.69	60.71	16.67	14.36	43.39	3.08	62.50

过拟合与泛化: DPO 版本在训练集上全面领先，但在测试集上，除了 SER 以外，其他指标（特别是 SRR）均有所下降。这表明 DPO 虽然能极好地对齐已知任务的偏好，但可能在一定程度上牺牲了对未见任务的泛化能力（重规划能力下降）。
SER 的稳健性: DPO 在测试集上的 SER 依然最高，说明 DPO 中专门构建的负样本（抑制过早输出 End）有效地教会了模型审慎判断结束时机。

6.3. 错误分析

作者对不同模型在成功和失败轨迹中的错误类型进行了统计。

下图（原文 Figure 3）展示了详细的错误分布：

该图像是图表，展示了不同模型在成功和失败轨迹中的错误统计。左侧和右侧分别展示了每种错误类型的比例，并显示每个模型的执行失败比例。由于成功轨迹数量较少，Qwen2-VL和MiniCPM-V 2.6的结果未列于左侧图中。完整的统计数据在附录H.2中可查阅。

物理接地失败 (Physical Grounding, F2): 在失败的轨迹中，最主要的错误是 F2（模型输出不存在或无法识别的物体）。这表明“幻觉”和无法将语言对应到物理实体是目前 LMM 的最大障碍。HoMIEBoT 通过训练显著减少了此类错误。
空间感知 (D1): 在成功的轨迹中，D1 错误（距离太远）很常见。这说明即便初次判断距离失误，模型也能通过反馈（“离得太远”）执行 Go to 动作来修正，最终完成任务。

7. 总结与思考

7.1. 结论总结

本文提出了 EMMOE，一个针对开放环境具身移动操作的综合基准。其核心贡献在于：

全流程评估: 填补了高层规划与低层控制之间的评估空白，不再只看结果，而是通过 TP、SRR 等指标评估过程质量。
数据与模型对齐: 通过构建 EMMOE-100 数据集和 DPO 训练流程，有效地解决了 LLM 对话数据与机器人轨迹数据不兼容的问题，提升了模型的物理接地能力。
系统设计: HoMIEBoT 展示了一个可行的高低层协作框架，证明了轻量级模型组合在处理复杂任务时的潜力。

7.2. 局限性与未来工作

模拟器限制: 实验受限于 Habitat 模拟器的动作空间和物体种类，可能无法完全反映真实世界的物理复杂性。
标准化输出的代价: 强制 LMM 输出标准化的 JSON 格式虽然便于解析，但可能牺牲了自然语言的表达精度和部分语义信息。
推理成本: 系统涉及多次模型推理，时间成本较高。
泛化性: DPO 训练显示出一定的过拟合迹象，如何在保持对齐的同时提升泛化能力是未来的研究方向。

7.3. 个人启发与批判

DPO 在具身智能中的应用: 本文展示了 DPO 不仅可以用于让 LLM 说话更好听，还可以用于让 LLM 规划更符合物理约束（例如：不要在未完成时说结束，不要输出不存在的物体）。这种利用“负样本”来约束具身行为的思路非常有价值。
过程指标的重要性: 传统的成功率 (SR) 对于长程任务（Long-horizon tasks）过于严苛且信息量低（全有或全无）。本文提出的 Task Progress (TP) 是一个非常实用的指标，它认可了“部分成功”的价值，对于调试和改进机器人系统具有重要指导意义。
思考: 尽管 o1 模型没有经过特定训练，但其推理能力带来的高重规划率 (SRR) 令人印象深刻。这暗示了未来具身智能的一个方向可能是：强推理模型 (通用大脑) + 轻量级微调 (格式对齐) + 专用小模型 (执行)。

相似论文推荐

基于向量语义检索推荐的相关论文。

暂时没有找到相似论文。