ThinkBot: Embodied Instruction Following with Thought Chain Reasoning

Yansong Tang

论文状态：已完成

ThinkBot: Embodied Instruction Following with Thought Chain Reasoning

发表：2023/12/12

基于大语言模型的指令补全 (1)思维链推理 (1)人机协作环境中的动作规划 (1)复杂目标完成 (1)对象定位与互动 (1)

原文链接 PDF 下载

价格：0.10

已有 2 人读过

本分析由 AI 生成，可能不完全准确，请以原文为准。

TL;DR 精炼摘要

本文提出了ThinkBot，一个针对具身指令跟随任务的系统，通过引入思维链推理，克服了现有方法中人类指令稀疏和不连贯的问题。该系统利用大语言模型补全缺失的动作描述，并结合多模态Transformer实现物体精确定位，从而在ALFRED基准测试中显著提升了成功率和执行效率。

摘要

Embodied Instruction Following (EIF) requires agents to complete human instruction by interacting objects in complicated surrounding environments. Conventional methods directly consider the sparse human instruction to generate action plans for agents, which usually fail to achieve human goals because of the instruction incoherence in action descriptions. On the contrary, we propose ThinkBot that reasons the thought chain in human instruction to recover the missing action descriptions, so that the agent can successfully complete human goals by following the coherent instruction. Specifically, we first design an instruction completer based on large language models to recover the missing actions with interacted objects between consecutive human instruction, where the perceived surrounding environments and the completed sub-goals are considered for instruction completion. Based on the partially observed scene semantic maps, we present an object localizer to infer the position of interacted objects for agents to achieve complex human goals. Extensive experiments in the simulated environment show that our ThinkBot outperforms the state-of-the-art EIF methods by a sizable margin in both success rate and execution efficiency.

论文精读

中文精读约 12 分钟读完 · 7,821 字

1. 论文基本信息

1.1. 标题

ThinkBot: Embodied Instruction Following with Thought Chain Reasoning
（ThinkBot：基于思维链推理的具身指令跟随）

1.2. 作者

Guanxing Lu (清华大学深圳国际研究生院), Ziwei Wang (卡内基梅隆大学), Changliu Liu (卡内基梅隆大学), Jiwen Lu (清华大学自动化系), Yansong Tang (清华大学深圳国际研究生院)

1.3. 发表期刊/会议

发表于 CVPR 2024 (虽然原文只给出了 arXiv 时间 2023-12-12，但根据引用格式和内容质量，这是投递给顶级计算机视觉会议的论文，实际已被 CVPR 2024 接收)。

1.4. 发表年份

2023年 (arXiv 预印本), 2024年 (正式发表)

1.5. 摘要

本文针对 具身指令跟随 (Embodied Instruction Following, EIF) 任务提出了 ThinkBot。现有的 EIF 方法通常直接根据稀疏的人类指令生成行动计划，但由于指令中常缺失具体的中间动作描述（例如“拿杯子”隐含了“去冰箱”、“打开冰箱”等步骤），导致任务失败。ThinkBot 通过引入 思维链 (Chain of Thought, CoT) 推理，利用大语言模型 (LLM) 恢复指令中缺失的动作和交互对象，并设计了一个基于 多模态 Transformer 的物体定位器来精确定位交互对象。在 ALFRED 基准测试中，ThinkBot 在成功率和执行效率上均显著优于现有最先进方法 (SOTA)。

1.6. 原文链接

arXiv 链接: https://arxiv.org/abs/2312.07062
PDF 链接: https://arxiv.org/pdf/2312.07062v2.pdf
状态: 已发布

2. 整体概括

2.1. 研究背景与动机

核心问题: 在 具身指令跟随 (EIF) 任务中，机器人需要根据人类的自然语言指令在复杂环境中完成家务任务。
现有挑战: 人类的指令通常是 稀疏 (Sparse) 且 不连贯 (Incoherent) 的。例如，用户说“准备一个勺子，拿一个杯子”，但在现实中，杯子可能在冰箱里。机器人如果直接执行“拿杯子”，会因为找不到杯子（未打开冰箱）而失败。现有的方法（无论是端到端还是模块化方法）往往直接将这些稀疏指令映射为动作，忽略了这种“逻辑跳跃”。
创新思路: 受大语言模型 (LLM) 中 思维链 (Chain of Thought) 推理能力的启发，作者认为智能体应该像人类一样“思考”，先推理出为了完成指令所需的中间步骤（如“去冰箱”、“打开冰箱”），补全指令的连贯性，然后再执行。

下图（原文 Figure 1）展示了 ThinkBot 与传统方法（Prompter）的对比。Prompter 直接执行导致卡死，而 ThinkBot 通过推理补全了“Go to fridge, open fridge”等步骤。

$Figure 1. Comparison between conventional EIF methods (Prompter \[11\]) and our ThinkBot. Existing methods directly leverage sparse human instruction to generate action sequence, which usually get stuck due to the incoherence of instruction. Our ThinkBot recovers missing action descriptions by reasoning the thought chain in sparse human instruction, and can successfully complete challenging tasks.$ 该图像是一个示意图，展示了ThinkBot与传统提示方法（Prompter）的对比。下方显示了在完成任务时，Prompter由于指令不连贯而无法成功完成，而ThinkBot通过推理思维链，补充了缺失的动作描述，从而顺利完成取冷饮的操作。

2.2. 核心贡献/主要发现

ThinkBot 代理: 提出了一个利用思维链推理来解决指令不连贯问题的 EIF 智能体框架。
指令补全器 (Instruction Completer): 基于 LLM 设计了一个模块，能够结合环境感知信息，预测稀疏指令中缺失的动作和交互对象。
多模态物体定位器 (Multimodal Object Localizer): 提出了一个基于 Transformer 的定位模型，结合 物体相关性图 (Object Correlation Graph)，利用恢复出的指令在语义地图上精确定位物体。
SOTA 性能: 在 ALFRED 基准测试中，ThinkBot 在“未见场景 (Unseen)”下的成功率和路径加权成功率均大幅超越了当前最先进的方法。

3. 预备知识与相关工作

3.1. 基础概念

具身指令跟随 (Embodied Instruction Following, EIF): 这是一个结合计算机视觉和自然语言处理的任务，要求机器人（智能体）在 3D 模拟环境中，理解人类的语言指令（如“把冷苹果放在桌子上”），通过移动和操作物体来完成任务。
思维链 (Chain of Thought, CoT): 最初用于提升大语言模型在数学或逻辑问题上的表现，指的是在给出最终答案前，先生成一系列中间推理步骤。本文将其迁移到机器人规划中，用于补全缺失的操作步骤。
语义地图 (Semantic Map): 机器人对环境的一种理解形式。它不仅包含空间的几何信息（哪里有障碍物），还包含语义信息（这里是“桌子”，那里是“冰箱”）。
大语言模型 (LLM): 如 GPT-3.5/4，拥有强大的常识推理能力。在本文中，它充当机器人的“大脑”，负责高层规划。

3.2. 前人工作与差异

端到端方法 (End-to-End): 如 E.T. [29]，直接将图像和文本输入神经网络输出动作。缺点是需要大量数据，且在未见过的场景中泛化能力差。
模块化方法 (Modular): 如 HLSM, Prompter [11]。将任务分解为“高层规划”和“低层控制”。ThinkBot 属于此类。
差异化分析:
- Prompter [11]: 利用 LLM 预测物体出现的概率（例如，通过常识判断苹果可能在冰箱里），但它没有显式地生成“打开冰箱”这样的动作序列，仍然依赖稀疏指令。
- ThinkBot (本文): 不仅预测物体，还利用 LLM 显式地推理出完整的动作序列（思维链），将“拿杯子”拆解为“去冰箱 -> 打开冰箱 -> 拿杯子”，从根本上解决了指令不连贯的问题。

4. 方法论

4.1. 方法原理

ThinkBot 的核心思想是 "三思而后行"。它不直接执行人类的原始指令，而是先通过一个 指令补全器 将其“翻译”为详细的、包含缺失步骤的完整指令序列，然后通过 物体定位器 在地图上找到目标，最后执行动作。

下图（原文 Figure 2）展示了整体流程：

该图像是一个示意图，展示了ThinkBot系统如何通过人类指令进行物体定位和指令补全。图中包含任务、观察场景和当前帧，逻辑链推理和目标生成的步骤，突出展示物体定位器的角色以及完成指令的各个子步骤。

4.2. 核心方法详解 (逐层深入)

4.2.1. 指令补全器 (Instruction Completer)

这是 ThinkBot 的“大脑”。它利用 LLM 的常识推理能力来补全缺失的步骤。

输入:
- 系统消息 (System Message): 定义机器人的角色、基本动作（如 Move, Pick, Open）和输出格式。
- 代理消息 (Agent Message): 包含当前的人类指令（如“拿一个杯子”）、已完成的任务历史、以及机器人当前观察到的环境物体（为了减少幻觉，只提供当前房间可能出现的物体）。
处理: LLM 接收这些信息，进行思维链推理。
输出:
- 思维链 (Thought Chain): 解释为什么要执行某些额外步骤。
- 恢复的子目标 (Recovered Sub-goals): 具体的动作和交互对象（例如：Action: Open, Object: Fridge）。
  
  下图（原文 Figure 3）展示了这一过程的输入输出示例：
  
  该图像是一个示意图，展示了ThinkBot在遵循人类指令时的思维链和恢复的子目标。图中左侧为系统消息，如角色解释和响应格式；右侧为代理消息，展示人类指令与观察到的对象的关联。在响应部分，通过思维链，当前指令为“拿一个杯子”，恢复的子目标包括“去冰箱”和“打开冰箱”。

4.2.2. 多模态物体定位器 (Multimodal Object Localizer)

这是 ThinkBot 的“眼睛”。虽然 LLM 告诉机器人要“打开冰箱”，但机器人需要知道冰箱在地图的具体哪个位置。

该模块的架构如下图（原文 Figure 4）所示：

Figure 4. The overall pipeline of the multimodal object localizer, which uses recovered instruction and observed semantic map to predict object positions for interaction. The object correlation graph is also learned to strengthen the map features.

步骤 1: 特征提取 (Encoding)

指令编码: 使用预训练的 BERT 模型提取恢复出的指令（如 "Fridge"）的特征，记为 $\mathbf{X}_s$ 。
地图编码与增强: 使用 CNN 提取当前观测到的语义地图特征 $\mathbf{X}_t^{\prime}$ $X_{t}^{'}$ 。为了利用物体间的共现关系（例如，看到炉灶可能意味着锅在附近），作者构建了一个 物体相关性图 (Object Correlation Graph)。
- 图的边权重 $\mathbf{E}_t$ 是通过学习得到的： $\mathbf { E } _ { t } = f ( \mathbf { X } _ { t } ^ { \prime } \mathbf { W } _ { e } )$ 其中 $f(\cdot)$ 是激活函数， $\mathbf{W}_e$ 是可学习参数。
- 利用图卷积更新地图特征，注入先验知识： ${ \mathbf { X } } _ { t } = { \mathbf { X } } _ { t } ^ { \prime } + { \mathbf { E } } _ { t } { \mathbf { X } } _ { t } ^ { \prime } { \mathbf { W } } _ { a }$ 其中 $\mathbf{X}_t$ 是增强后的地图特征，包含了物体间的相关性信息。

步骤 2: 跨模态对齐 (Map-Instruction Alignment) 为了找出地图上哪一部分对应指令中的物体，作者使用了注意力机制 (Attention Mechanism)。

Query, Key, Value 生成: 作者使用指令特征 $\mathbf{X}_s$ 生成 Query（查询向量），使用地图特征 $\mathbf{X}_t$ 生成 Key（键向量）和 Value（值向量）。 (注：原文文本描述与公式符号略有出入，此处以数学公式的逻辑为准，即用指令去查询地图) $\mathbf { Q } _ { s } = \mathbf { X } _ { s } \mathbf { W } _ { q } , \quad \mathbf { K } _ { t } = \mathbf { X } _ { t } \mathbf { W } _ { k } , \quad \mathbf { V } _ { t } = \mathbf { X } _ { t } \mathbf { W } _ { v }$ 这里 $\mathbf{Q}_s$ 代表指令的语义意图， $\mathbf{K}_t$ 代表地图中各位置的语义特征。
注意力计算: 通过计算 Query 和 Key 的相似度，得到地图上每个位置与指令的相关性，并加权求和： $\mathbf { H } _ { t } ^ { s } = \operatorname { S o f t m a x } \left( \frac { \mathbf { Q } _ { s } \mathbf { K } _ { t } ^ { T } } { \sqrt { d } } \right) \mathbf { V } _ { t }$ $\mathbf{H}_t^s$ 即为融合了语言指令信息的地图特征表示。

步骤 3: 解码与预测 (Decoding)

解码器利用 $\mathbf{H}_t^s$ 生成一个概率热力图 (Heatmap)，图上像素值最高的地方即为预测的物体位置。
训练: 使用二元交叉熵损失函数 (Binary Cross-Entropy Loss)，监督信号来自专家演示中的真实物体位置。

5. 实验设置

5.1. 数据集

ALFRED 基准: 基于 AI2-THOR 模拟器的 EIF 数据集。
规模: 包含 25,743 个“轨迹-指令”对，涵盖 7 种任务类型（如“Pick & Place”, "Stack & Place"）。
划分: 包含 Train, Test Seen (训练中见过的场景), Test Unseen (全新场景), Valid Seen, Valid Unseen。
特点: 任务涉及长序列推理，指令通常只给出高层目标，极具挑战性。

5.2. 评估指标

对以下指标进行评估：

成功率 (Success Rate, SR):
- 概念定义: 智能体成功完成全部任务目标的比率。
- 公式: $SR = \frac{1}{N} \sum_{i=1}^{N} \mathbb{I}(\text{task}_i \text{ completed})$ ，其中 $\mathbb{I}$ 为指示函数。
目标条件成功率 (Goal-Condition Success Rate, GC):
- 概念定义: 任务中所有子目标完成的平均比例（即使任务未完全成功，完成部分步骤也有分）。
路径长度加权成功率 (Path-Length-Weighted SR, PLWSR):
- 概念定义: 考虑执行效率的成功率。如果智能体绕了远路才成功，得分会降低。
- 公式: $PLWSR = SR \times \frac{L_{expert}}{\max(L_{expert}, L_{agent})}$
- 符号解释: $L_{expert}$ 是专家演示的最优路径长度， $L_{agent}$ 是智能体实际走的长度。

5.3. 对比基线

端到端方法: Seq2seq, MOCA, E.T. (Episodic Transformer).
模块化方法: Prompter (强基线), CPEM, FILM.
Prompter+: 作者构建的一个增强版 Prompter，加入更好的视觉感知模块，作为一个极具竞争力的基线。

6. 实验结果与分析

6.1. 核心结果分析

下表（原文 Table 1）展示了在 ALFRED Test Seen 和 Test Unseen 上的对比结果。

核心发现:

全面领先: ThinkBot 在所有指标上均超越了 SOTA 方法。
泛化能力强: 在 Test Unseen（未见场景）上，ThinkBot 的 SR 达到 57.82%，比之前的最佳方法 CPEM (49.84%) 高出近 8%。这证明了通过 LLM 进行思维链推理能显著提高对新环境的适应能力。

效率提升: PLWSR 的提升表明，补全缺失指令后，智能体不再需要盲目搜索，行动路径更加高效。

以下是原文 Table 1 的结果：

Method	Test Seen				Test Unseen
Method	PLWGC	GC	PLWSR	SR	PLWGC	GC	PLWSR	SR
Seq2seq	6.27	9.42	2.02	3.98	4.26	7.03	0.08	3.9
MOCA	22.05	28.29	15.10	22.05	9.99	14.28	2.72	5.30
E.T.	34.93	45.44	27.78	38.42	11.46	18.56	4.10	8.57
LWIT	23.10	40.53	43.10	30.92	16.34	20.91	5.60	9.42
HITUT	17.41	29.97	11.10	21.27	11.51	20.31	5.86	13.87
ABP	4.92	51.13	3.88	44.55	2.22	24.76	1.08	15.43
LLM-Planner		26.77		18.20		23.37	-	16.42
FILM	15.59	39.55	11.27	28.83	15.13	38.52	11.32	27.80
LGS-RPA	28.97	48.66	21.28	40.05	22.76	45.24	22.76	35.41
Prompter	30.72	63.43	25.81	53.23	26.22	58.76	20.76	45.72
CPEM	27.49	59.40	22.61	50.62	27.00	61.10	22.61	49.84
Prompter+	36.35	70.20	31.12	60.86	30.09	65.71	26.22	55.46
ThinkBot (Ours)	37.01	71.64	32.02	62.69	30.73	67.75	26.93	57.82

6.2. 消融实验

作者在 Table 2 中验证了各个组件的有效性，特别是针对 Hard Valid Unseen（物体藏在容器里的高难度情况）进行了分析。

w/o Instruction Completer: 去掉指令补全器，直接执行稀疏指令。结果在 Hard 场景下 SR 降为 0。这直接证明了对于隐藏物体，必须先推理出“打开容器”这一步。
w/o Object Localizer: 去掉物体定位器，使用 Prompter 的搜索策略。性能显著下降，说明精确定位对任务成功至关重要。

w/o Object Correlation Graph: 去掉物体相关性图。SR 下降，说明“利用看到的东西推测看不到的东西”（如看到炉子推测锅的位置）是有效的。

以下是原文 Table 2 的结果：

Method	Valid Unseen				Hard Valid Unseen
Method	PLWGC	GC	PLWSR	SR	PLWGC	GC	PLWSR	SR
Random	26.18	67.64	23.80	59.68	0.32	5.41	0	0
Prompter+	29.36	72.00	26.82	64.43	0.48	5.41	0	0
Groundtruth Location	39.71	72.75	37.01	67.97	0.79	5.41	0	0
w/o Instruction Completer	29.09	72.38	26.43	64.92	0.48	5.41	0	0
w/o Object Localizer	30.24	74.37	27.87	66.99	9.29	22.41	8.11	16.22
w/o Object Correlation Graph	30.41	73.89	28.14	67.36	11.31	29.46	9.74	21.62
ThinkBot (Ours)	31.11	75.30	28.73	67.72	11.95	30.86	10.26	22.97

6.3. 可视化分析

下图（原文 Figure 6）展示了物体定位器的效果。即使在物体被部分遮挡或存在多个相似实例的情况下，ThinkBot 也能准确预测出物体的位置（红点与绿点重合）。

Figure 6. The visualization of the predicted and groundtruth positions of interacted objects, where the partially observed semantic maps are also depicted. 该图像是图表，展示了与 interacted objects 相关的部分观察到的语义图和预测与真实位置的对比。上方为指示 "从柜台后面拾取番茄" 的任务，展示了语义图、预测与真实位置；下方则为另一组类似展示。

7. 总结与思考

7.1. 结论总结

本文通过引入 ThinkBot，成功解决了具身指令跟随任务中“指令稀疏性”和“不连贯性”这一关键痛点。其核心贡献在于将大语言模型的 思维链 (CoT) 推理能力与 多模态感知 紧密结合：LLM 负责“脑补”缺失的逻辑步骤，多模态定位器负责在物理空间中将这些步骤落地。实验证明，这种“推理+感知”的双轮驱动模式在复杂、未见过的环境中具有极强的鲁棒性。

7.2. 局限性与未来工作

LLM 幻觉: 虽然作者通过限制候选物体列表来缓解，但 LLM 仍可能生成不存在的物体或错误的步骤。
空间推理能力有限: 虽然引入了定位器，但 LLM 本身对 3D 空间的理解仍然较弱，目前的结合方式（LLM 输出文本 -> 定位器找位置）是松耦合的。
未来方向: 可以探索更紧密的“视觉-语言”融合模型，让 LLM 直接理解 3D 空间信息，或者在真实机器人上验证该方法的有效性（Sim-to-Real）。

7.3. 个人启发与批判

启发: 这篇论文是 "LLM as Planner" (大模型作为规划器) 范式的优秀实践。它不仅是简单的 Prompting，而是通过“补全缺失指令”这一巧妙的切入点，将高层语义规划与底层视觉导航连接起来。
批判: 物体定位部分虽然引入了图卷积，但本质上还是依赖于传统的语义地图构建。如果环境发生剧烈动态变化，或者语义分割模型失效，整个系统可能会崩溃。此外，系统的推理速度（依赖 GPT-3.5 API）可能是实时应用的一个瓶颈。

相似论文推荐

基于向量语义检索推荐的相关论文。

暂时没有找到相似论文。