Beyond the Destination: A Novel Benchmark for Exploration-Aware Embodied
  Question Answering

Liang Lin

论文状态：已完成

Beyond the Destination: A Novel Benchmark for Exploration-Aware Embodied Question Answering

发表：2025/03/14

具备探索意识的实体问答基准 (1)EXPRESS-Bench 数据集 (1)Fine-EQA 混合探索模型 (1)探索一致性评估指标 (1)实体智能中的多步推理 (1)

原文链接 PDF 下载

价格：0.10

已有 2 人读过

本分析由 AI 生成，可能不完全准确，请以原文为准。

TL;DR 精炼摘要

本文提出EXPRESS-Bench具身问答基准，包含777条探索轨迹与2044问答对，系统评估智能体探索和推理能力。结合边界与目标导航的Fine-EQA模型提升任务相关区域探索效率，同时引入探索-答案一致性指标保障评估忠实性。

摘要

Embodied Question Answering (EQA) is a challenging task in embodied intelligence that requires agents to dynamically explore 3D environments, actively gather visual information, and perform multi-step reasoning to answer questions. However, current EQA approaches suffer from critical limitations in exploration efficiency, dataset design, and evaluation metrics. Moreover, existing datasets often introduce biases or prior knowledge, leading to disembodied reasoning, while frontier-based exploration strategies struggle in cluttered environments and fail to ensure fine-grained exploration of task-relevant areas. To address these challenges, we construct the EXPloration-awaRe Embodied queStion anSwering Benchmark (EXPRESS-Bench), the largest dataset designed specifically to evaluate both exploration and reasoning capabilities. EXPRESS-Bench consists of 777 exploration trajectories and 2,044 question-trajectory pairs. To improve exploration efficiency, we propose Fine-EQA, a hybrid exploration model that integrates frontier-based and goal-oriented navigation to guide agents toward task-relevant regions more effectively. Additionally, we introduce a novel evaluation metric, Exploration-Answer Consistency (EAC), which ensures faithful assessment by measuring the alignment between answer grounding and exploration reliability. Extensive experimental comparisons with state-of-the-art EQA models demonstrate the effectiveness of our EXPRESS-Bench in advancing embodied exploration and question reasoning.

思维导图

论文精读

中文精读约 25 分钟读完 · 13,853 字

论文基本信息 (Bibliographic Information)

标题 (Title): Beyond the Destination: A Novel Benchmark for Exploration-Aware Embodied Question Answering (超越终点：一个面向探索感知的具身问答新基准)
作者 (Authors): Kaixuan Jiang, Yang Liu, Weixing Chen, Jingzhou Luo, Ziliang Chen, Ling Pan, Guanbin Li, Liang Lin。
隶属机构 (Affiliations): 作者主要来自中山大学 (Sun Yat-sen University)、鹏城实验室 (Peng Cheng Laboratory) 和香港科技大学 (Hong Kong University of Science and Technology)。
发表期刊/会议 (Journal/Conference): 本文为预印本 (Preprint)，发布于 arXiv。论文中提到将在2025年的CVPR会议上发表部分成果，但当前版本仍是预印本状态。
发表年份 (Publication Year): 2025 (根据 arXiv 提交信息和论文内容推断)
摘要 (Abstract): 具身问答 (EQA) 是一项要求智能体在三维环境中动态探索、主动收集视觉信息并进行多步推理来回答问题的挑战性任务。然而，当前的EQA方法在探索效率、数据集设计和评估指标方面存在严重局限。现有数据集常常引入偏见或先验知识，导致“非具身”的推理；而基于边界的探索策略在杂乱环境中表现不佳，无法保证对任务相关区域的精细探索。为应对这些挑战，本文构建了EXPRESS-Bench，一个专门用于评估探索和推理能力的大规模数据集，包含777条探索轨迹和2044个问题-轨迹对。为了提升探索效率，本文提出了Fine-EQA，一个集成了基于边界和目标导向导航的混合探索模型，以更有效地引导智能体前往任务相关区域。此外，本文引入了一种新的评估指标——探索-答案一致性 (EAC)，通过衡量答案依据与探索可靠性之间的一致性来确保评估的忠实性。与当前最先进的EQA模型的广泛实验对比，证明了EXPRESS-Bench在推动具身探索和问题推理方面的有效性。
原文链接 (Source Link):
- 原文链接: https://arxiv.org/abs/2503.11117v3
- PDF 链接: https://arxiv.org/pdf/2503.11117v3.pdf
- 发布状态: 预印本 (Preprint)

整体概括 (Executive Summary)

研究背景与动机 (Background & Motivation - Why):
- 核心问题: 当前的具身问答 (Embodied Question Answering, EQA) 研究面临三大核心挑战：
  1. 数据集缺陷: 现有数据集或基于模板生成，问题简单且缺乏多样性；或包含偏见，允许模型不进行实际探索，仅凭先验知识（如问题中直接给出“客厅”等位置信息）就能“猜”出答案，这种现象被称为不忠实的问答 (unfaithful question answering)。
  2. 探索策略低效: 主流的基于边界的探索 (frontier-based exploration) 策略在开阔空间尚可，但在狭窄、杂乱的室内环境中效率低下，且无法对与问题高度相关的区域进行精细化、有目的的探索。
  3. 评估指标片面: 现有的评估指标大多只关注答案与标准答案的文本相似度，无法判断模型给出的答案是否真正基于其在环境中的探索和观察，也无法衡量探索过程本身的效率和质量。这导致模型可能产生看似合理但毫无根据的“幻觉”答案。
- 切入点: 论文认为，一个好的EQA任务不仅要评估“答案对不对”，更要评估“答案是不是通过有效探索得来的”。因此，本文的创新思路是从数据集、探索模型、评估指标三个方面进行系统性革新，构建一个更强调“探索感知”的EQA研究范式。
核心贡献/主要发现 (Main Contribution/Findings - What):
- 新数据集 EXPRESS-Bench: 提出了一个大规模、高质量的EQA基准数据集。该数据集通过精心设计，旨在消除常见的数据偏见，确保问题必须通过主动探索 (active exploration) 才能解答。它是目前同类数据集中规模最大的之一，专注于评估探索与推理能力。
- 新模型 Fine-EQA: 提出了一种名为 Fine-EQA 的新型混合探索模型。该模型创造性地结合了两种探索策略：全局范围的基于边界的探索 (FBE) 和针对特定区域的目标导向探索 (GOE)。这使得智能体既能高效地探索未知环境，又能对与问题相关的关键区域（如“浴室”、“厨房”）进行深入细致的观察。
- 新评估指标 EAC: 引入了一个名为探索-答案一致性 (Exploration-Answer Consistency, EAC) 的新评估指标。该指标不仅评估答案的正确性，还评估答案是否能被智能体在探索过程中实际观察到的景象所支持。这能有效惩罚那些“凭空捏造”答案的模型，从而更忠实地反映模型的综合能力。

本部分旨在为初学者铺垫理解论文所需的前置知识，扫清阅读障碍。

基础概念 (Foundational Concepts)

具身智能 (Embodied Intelligence): 指的是一种人工智能范式，强调智能体 (agent) 需要拥有一个“身体”（如机器人、虚拟角色），并通过与物理或虚拟环境的实时交互来学习和完成任务。它不仅需要像传统AI那样处理信息，还需要具备感知、行动和决策的能力。
具身问答 (Embodied Question Answering, EQA): 这是具身智能领域的一项核心任务。具体来说，一个智能体被放置在一个3D环境中（比如一个虚拟的房子里），并被问到一个关于这个环境的问题（例如，“微波炉是什么颜色的？”）。为了回答问题，智能体必须自主地在环境中导航（移动、转向），找到相关的物体或场景，并根据其第一人称视角 (first-person view) 的观察来给出答案。
视觉语言模型 (Vision-Language Models, VLMs): 是一种能够同时理解图像和文本的多模态模型。例如，你可以给它一张图片和一个问题，它能生成对这个问题的回答。近年来强大的VLM（如GPT-4o）是实现EQA任务中场景理解和问答推理的关键技术。
基于边界的探索 (Frontier-Based Exploration, FBE): 一种经典的机器人自主探索算法。智能体维护一个地图，将环境划分为“已知区域”、“未知区域”和“障碍物”。“边界” (frontier) 指的是“已知区域”和“未知区域”的交界处。FBE策略的核心思想是：总是驱使智能体朝离它最近的边界移动，从而不断扩大已知区域的范围，直到整个环境被探索完毕。这种方法在开阔环境下很有效，但在有多个房间和狭窄走廊的复杂室内环境中，可能会导致智能体在不同房间之间来回奔波，效率低下。
目标导向探索 (Goal-Oriented Exploration, GOE): 与FBE漫无目的地扩大地图不同，GOE是一种更有目的性的探索。它首先通过分析任务指令（在EQA中就是分析问题），识别出哪些区域或物体是与任务最相关的（例如，问题是“厨房里有几个苹果？”，那么“厨房”就是目标区域）。然后，智能体会有针对性地导航到这些高优先级区域进行探索。

前人工作 (Previous Works)

论文在引言和相关工作部分回顾了EQA领域的发展，主要可以分为数据集和模型两个方面。

EQA 数据集的发展:
- 早期工作 (模板化生成): 如 EQA-v1、MP3D-EQA 等，它们大多使用预设的模板来自动生成问题和答案（例如，“[房间]里的[物体]是什么颜色？”）。这种方法的优点是生成速度快，但缺点是问题形式单一、缺乏多样性，很容易被模型“学到套路”而不是真正进行推理。
- 近期工作 (大模型辅助生成): 随着大语言模型 (LLM) 和视觉语言模型 (VLM) 的兴起，研究者开始利用它们来生成更自然、更多样化的问题，如 HM-EQA、S-EQA。
- 开放式问答: OpenEQA 是一个重要的里程碑，它通过人工设计，引入了开放式问题，不再局限于简单的“是/否”或选择题。这大大提升了任务的难度和真实性。
用于具身智能的大模型:
- 大模型（如GPT系列）强大的推理和规划能力被广泛应用于具身任务中，例如帮助智能体理解指令、规划子任务、或者为探索方向打分。
- 在EQA中，一些工作使用VLM来识别场景中的物体或生成语义地图。例如 Explore-EQA [31] 就利用VLM为边界点赋予语义权重，引导探索。

技术演进 (Technological Evolution)

EQA领域的技术演进脉络清晰可见：

从简单到复杂: 任务从简单的导航+问答，演变为需要更复杂推理、记忆和交互的场景。
从模板到自然语言: 数据集构建从僵硬的模板生成，过渡到利用大模型生成更符合人类交流习惯的、开放式的问题。
从纯探索到语义探索: 探索策略从纯粹基于几何的 FBE，发展到结合场景语义信息（如识别房间功能、物体类别）的更智能的探索方法。

差异化分析 (Differentiation)

与前人工作相比，本文的核心创新和差异化体现在以下几点：

数据集层面 (EXPRESS-Bench vs. OpenEQA 等):

规模更大: EXPRESS-Bench 包含777条轨迹和2044个问答对，在支持主动探索的数据集中规模领先。
更强调“探索必要性”: 通过精心过滤数据，确保问题不能靠先验知识猜测，必须通过实际探索才能回答，并保证答案的唯一性。例如，如果场景中有多个卧室，问题会被设计成指向离起点最近的那个，避免歧义。

提供完整轨迹真值: 不仅提供问答对，还记录了智能体从起点到目标点的最优动作序列，这为评估探索效率提供了坚实基础。

以下是论文中 Table 1 的转录，直观展示了 EXPRESS-Bench 与其他EQA基准的对比：

	Simulator	Dataset	Real Scenes	Exploration Track	Track Numbers	Target Point	Question Creation	Open Vocab
EQA-v1 [7]	House3D	SUNCG	✗	✓		✓	Rule-Based	✗
MP3D-EQA [37]	MINOS	MP3D	✓	✓		✓	Rule-Based	×
MT-EQA [43]	House3D	SUNCG	✗	✓		>xx×x*x	Rule-Based	✗
IQA [11]	AI2THOR		✗	✗			Rule-Based	✗
VideoNavQA [4]	House3D	SUNCG	✗	✗			Rule-Based
K-EQA [35]	AI2Thor		✗	✗			Rule-Based	× ×
HM-EQA [31]	Habitat	HM3D	✓	×			VLMs	✗
S-EQA [8]	VirtualHome		✗	✗			LLMs	✗
NoisyEQA [39]				✗			VLMs
CityEQA [45]	EmbodiedCity		✗	✗		✓	Manual	✓ ✓
OpenEQA [29]	Habitat	ScanNet/HM3D	√		152	✗	Manual	√
EXPRESS-Bench (Ours)	Habitat	HM3D			777		VLMs

模型层面 (Fine-EQA vs. FBE):
- Fine-EQA 不是单一策略，而是 FBE 和 GOE 的动态混合。它在大范围探索时使用 FBE 快速扩展认知，一旦识别出与任务相关的关键区域（如“卧室”），就切换到 GOE 模式，对该区域进行精细化探索。这种灵活切换的策略兼顾了探索广度和深度。
评估层面 (EAC vs. 传统指标):
- 传统指标（如答案准确率）只关心最终答案。而 EAC 首次将探索过程和答案质量绑定。它引入了一个“接地性” (grounding) 评分，如果模型给出的正确答案无法被其探索路径中的任何观察所证实，那么这个答案的分数就会被打折扣。这能有效识别并惩罚模型的“幻觉”行为。

方法论 (Methodology - Core Technology & Implementation Details)

本部分详细拆解论文提出的三大核心贡献：EXPRESS-Bench 数据集构建流程、EAC 评估指标，以及 Fine-EQA 模型框架。

`EXPRESS-Bench` 数据集构建

EXPRESS-Bench 的构建流程精心设计，旨在生成高质量、无偏见且强调探索的EQA任务。整个流程分为三个阶段，如下图所示：

$Figure 8. Comparison of the metrics proposed by OpenEQA and ours. The EAC metric combines $\\sigma$ and $\\delta$ to jointly assess both the assessment of the model's performance.$ 该图像是包含四个室内场景问答示例的图表，通过OpenEQA得分与EAC评估指标对比，EAC结合了正确性和探索一致性，其中 $EAC=OpenEQA * \delta$ 计算体现了指标的联合评估作用。

阶段一: 轨迹生成 (Trajectory Generation)
1. 环境与模拟器: 在 HM3D 数据集提供的逼真3D室内场景中，使用 Habitat 模拟器进行操作。HM3D 包含了1000个真实世界建筑的大规模3D重建模型。
2. 采样起止点: 在场景的同一楼层内，随机采样一个起始位置和一个目标位置。
3. 生成真值路径: 计算从起点到终点的最短测地线距离 (geodesic distance) 和实现该路径所需的最优原子动作序列（move forward, turn left, turn right）。这个序列将作为评估智能体探索效率的“标准答案” (ground truth)。
4. 记录沿途信息: 在模拟智能体沿最优路径移动的每一步，都记录下其坐标、朝向和第一人称视角的RGB图像。最后，将这些图像合成为一个完整的轨迹视频。
阶段二: 问答对生成 (Question-Answer Pair Generation)
1. 核心思想: 问题的答案应当蕴含在智能体探索终点（即目标位置）的视野中。
2. 利用VLM生成: 将目标位置的视觉观察（即最后一张RGB图像）输入给一个强大的多模态大模型 GPT-4o-mini。
3. 提供示例与引导: 通过精心设计的提示 (Prompt)，并提供一些高质量的问答示例，引导 GPT-4o-mini 从人类视角出发，生成与当前场景相关的、自然的、开放式的问题和答案。开放式回答可以有效避免模型通过猜测或常识来作弊。
阶段三: 数据过滤 (Data Filtering) 这是一个至关重要的人工筛选环节，旨在保证数据集的质量和唯一性。
1. 相关性检查: 确保生成的问题和答案都与场景紧密相关。
2. 唯一性保证: 这是为了解决3D环境中可能存在的歧义问题。例如，一个房子里可能有两个卧室。如果问题是“卧室的床是什么颜色？”，答案就可能不唯一。过滤规则如下：
  - 如果目标区域（如卧室）在场景中是唯一的，则保留该数据。
  - 如果场景中存在多个同类型的区域，则只保留那些“目标区域是所有同类区域中离起点最近的”数据。这样，智能体只要遵循最高效的探索路径，就能唯一确定目标。
3. 细节增强: 必要时，人工为问题补充上下文，如物体的具体位置、属性或关系，以进一步消除歧义。
4. 多重审核: 数据由多名标注员审查，并由一位主管进行最终校验，确保整体一致性和高质量。
  
  最终，EXPRESS-Bench 包含了777条轨迹和2,044个问答对，涵盖了状态、知识、位置、属性、计数、存在和物体七大类问题。
  
  $Figure 9. Performance of models in the $C ^ { * }$ metric across different question types.$ 该图像是图表，展示了不同模型在多种问题类型上的 $C^{*}$ 指标性能比较，覆盖位置、状态、属性、存在等类别，且包含人类表现作为基线。

`EAC`: 探索-答案一致性指标 (Exploration-Answer Consistency Metric)

为解决传统评估指标无法衡量答案“忠实性”的问题，论文提出了 EAC 指标。其核心思想是，一个好的回答不仅要正确，还必须是有据可查的。

$Figure 10. Performance of exploration-aware agents in the $C$ metric across different question types.$ 该图像是一个雷达图，展示了不同探索感知智能体在多种问题类型上的 $C$ 指标表现。线条表示不同模型，包括 RE、GOE、FBE、Fine-EQA 及其变体，反映了各模型在所有类别及细分任务上的性能差异。

EAC 的计算分为两步：

计算单个回答的分数: 每个回答的分数由两部分相乘得到：正确性分数 $\sigma_i$ 和 接地性分数 $\delta_i$ 。
- 正确性分数 ( $\sigma_i$ ): $\sigma _ { i } = \varphi ( Q _ { i } , A _ { i } ^ { * } , A _ { i } , I _ { i } )$
  - 符号解释:
    - $Q_i$ : 第 $i$ 个问题。
    - $A_i^*$ : 第 $i$ 个问题的标准答案。
    - $A_i$ : 模型生成的回答。
    - $I_i$ : 智能体探索结束时观察到的图像。
    - $\varphi(\cdot)$ : 一个调用VLM（如GPT-4）进行打分的函数。VLM会综合以上四个信息，给出一个1到5的分数，分数越高表示模型回答 $A_i$ 与标准答案 $A_i^*$ 越接近、越准确。将图像 $I_i$ 也纳入考量，是为了让VLM在评判时能容忍与标准答案文本不同但符合图像事实的合理回答。
- 接地性分数 ( $\delta_i$ ): $\delta _ { i } = \psi ( Q _ { i } , A _ { i } , I _ { i } )$
  - 符号解释:
    - $\psi(\cdot)$ : 同样是调用VLM进行打分的函数，但目的不同。它评估的是模型的回答 $A_i$ 是否能被其观察到的图像 $I_i$ 所支持。
    - $\delta_i$ $δ_{i}$ 的取值有三种：
      - 1 (完全接地): 智能体的观察 $I_i$ 与问题 $Q_i$ 相关，且其回答 $A_i$ 准确描述了 $I_i$ 中的内容。
      - 0.5 (部分接地): 智能体的观察 $I_i$ 相关，但其回答 $A_i$ 对图像内容的描述是错误的。
      - 0 (不接地/幻觉): 智能体的观察 $I_i$ 与问题无关，模型完全是在“编造”答案，即使答案碰巧和标准答案一样，也算作幻觉。
计算最终的综合指标:
- 总体正确性 (Overall Correctness, $C$ ): $C = \frac { 1 } { N } \sum _ { i = 1 } ^ { N } \frac { \sigma _ { i } \times \delta _ { i } } { 5 } \times 1 0 0 \%$
  - 符号解释:
    - $N$ : 问题总数。
    - 这个公式计算了所有问题得分（正确性与接地性相乘后归一化）的平均值。 $\delta_i$ 的引入是关键，它会惩罚那些“不接地”的回答。
- 路径效率 (Path Efficiency, $E_{path}$ ): $E _ { p a t h } = \frac { 1 } { N } \sum _ { i = 1 } ^ { N } \frac { \sigma _ { i } \times \delta _ { i } } { 5 } \times \frac { l _ { i } } { max ( p _ { i } , l _ { i } ) } \times 1 0 0 \%$
  - 符号解释:
    - $l_i$ : 完成第 $i$ 个任务所需的最短路径（真值路径）长度。
    - $p_i$ : 智能体实际走过的路径长度。
    - 该指标类似于导航任务中的 Success weighted by Path Length (SPL)。它不仅考虑了回答的质量（ $\sigma_i \times \delta_i$ ），还考虑了探索的效率。如果智能体绕了远路（ $p_i > l_i$ ），那么即使回答正确，其效率分也会降低。

`Fine-EQA` 模型框架

Fine-EQA 是一个灵活的两阶段EQA框架，旨在通过智能地结合两种探索策略来提升效率和效果。

该图像是一个示意图，展示了四种不同探索策略（随机探索、基于边界的探索、目标导向探索和Fine-EQA）在室内环境中回答问题的路径和视觉观测对比，体现了Fine-EQA在路径规划和任务相关区域探索上的优势。

方法原理 (Methodology Principles): Fine-EQA 的核心思想是分而治之。它不采用单一的探索策略，而是根据当前任务进展，在广度优先的全局探索和深度优先的局部探索之间动态切换。
- 全局探索使用 FBE，目标是快速了解整个环境的概貌。
- 局部探索使用 GOE，目标是在识别出与任务相关的关键区域后，进行精细化的、有针对性的观察。
方法步骤与流程 (Steps & Procedures):
1. 环境表征: 智能体使用一个3D体素地图 $M_3$ 来记录环境的三维结构，并将其投影到一个2D平面地图 $M_2$ 上用于导航和规划。
2. 探索阶段: 智能体在 FBE 和 GOE 两种模式间切换。
  - 初始阶段: 通常以 FBE 开始，探索未知环境。
  - 切换到 GOE: 在探索过程中，VLM会持续分析当前视野，识别场景所属的功能区域（如“厨房”、“卧室”）。一旦识别出的区域与LLM分析问题后得到的高优先级区域匹配，智能体就切换到 GOE 模式。
  - GOE 内部探索: 在GOE模式下，智能体只在当前高优先级区域内进行探索，直到达到预设的探索步数上限或VLM判断信息足够。
  - 切换回 FBE: 如果当前区域探索完毕，或需要寻找通往另一个高优先级区域的路径，智能体可以切换回 FBE 模式。
3. 问答阶段: 在探索的每一步，VLM都会判断当前收集到的信息是否足以回答问题。一旦VLM给出“是”的信号，探索就终止，智能体进入问答阶段，基于最后一次的观察生成答案。
数学公式与关键细节 (Mathematical Formulas & Key Details):
- Frontier-Based Exploration (FBE) 的改进: 传统的 FBE 只考虑几何边界。Fine-EQA 对其进行了改进，引入了语义价值。它构建了一个全局语义地图 $M_{sem}$ 。在选择下一个探索边界点时，不仅考虑距离和未知区域大小，还考虑该方向的语义重要性。每个候选边界点 $f_i$ 的权重 $w_i$ 由以下公式决定： $w _ { i } = \omega ( v _ { s e m } ^ { i } , r _ { e } ^ { i } , r _ { o } ^ { i } , d i s ( f _ { i } , p _ { c u r } ) )$
  - 符号解释:
    - $v_{sem}^i$ : 边界点附近的语义价值，由VLM评估得出，表示该方向对任务的重要性。
    - $r_e^i$ : 该方向的未探索率。
    - $r_o^i$ : 该方向的未被占据率（即可通行程度）。
    - $dis(f_i, p_{cur})$ : 边界点与智能体当前位置的距离。
    - $\omega(\cdot)$ : 一个综合函数，它倾向于选择语义价值高、未探索区域多且距离适中的边界点。
- Goal-Oriented Exploration (GOE) 的实现: GOE 的核心是功能区域语义地图 $M_{reg}$ 和 掩码语义地图 $M_{masked}$ 。
  1. 构建功能区域地图 $M_{reg}$ : VLM在探索中识别出“厨房”、“卧室”等功能区域，并在地图 $M_{reg}$ 的相应位置标记上该区域的ID。
  2. 任务区域优先级排序: LLM分析问题文本（例如 "What's on the kitchen counter?"），确定“厨房”是最高优先级的区域。
  3. 应用掩码: 当切换到GOE模式探索“厨房”时，模型会生成一个掩码语义地图 $M_{masked}$ $M_{ma s k e d}$ ： $M _ { m a s k e d } = \phi ( M _ { s e m } , M _ { r e g } , r )$
    - 符号解释:
      - $M_{sem}$ : 全局语义地图。
      - $M_{reg}$ : 功能区域语义地图。
      - $r$ : 当前最高优先级的区域（如“厨房”）。
      - $\phi(\cdot)$ : 掩码操作。它只保留 $M_{sem}$ 中属于区域 $r$ 的部分，其他区域的语义价值全部置零。
  4. 选择目标点: 在 GOE 模式下，智能体选择 $M_{masked}$ 中语义价值最高的点作为下一个探索目标。这确保了探索被严格限制在任务最相关的区域内。

实验设置 (Experimental Setup)

数据集 (Datasets):
- 主数据集 EXPRESS-Bench: 这是本文提出的新数据集，基于 HM3D 场景库和 Habitat 模拟器构建。包含777条轨迹和2,044个问答对，覆盖7种问题类型。数据集的特点是强制要求主动探索，并保证了答案的唯一性。
  - 数据示例: 如下图所示，EXPRESS-Bench 提供了多样化的问题类型和对应的场景。例如，一个关于位置的问题：“I forgot where I leave my mug in the dining room. Do you see it?” (我忘了我把杯子放餐厅哪了，你看到了吗？)，需要智能体导航到餐厅并找到杯子。
    
    该图像是论文中展示EXPRESS-Bench中不同问题类型示例的示意图，包含位置、计数、知识、存在性、属性、物体和状态七类问题，每类配有对应的问答文本和环境连续视角。
- 其他数据集:
  - OpenEQA (A-EQA 子集): 用于验证 Fine-EQA 模型的泛化能力。A-EQA 是 OpenEQA 中专门评估主动探索和问答能力的部分。
  - HM-EQA: 一个多项选择题形式的EQA数据集，用于进一步对比 Fine-EQA 和之前的SOTA模型 Explore-EQA。
评估指标 (Evaluation Metrics): 论文使用了多个指标来全面评估模型性能。
- $C$ (Overall Correctness):
  1. 概念定义: 综合正确性，是本文提出的核心指标之一。它同时衡量答案的正确性和接地性，旨在提供一个更忠实的模型能力评估。
  2. 数学公式: $C = \frac { 1 } { N } \sum _ { i = 1 } ^ { N } \frac { \sigma _ { i } \times \delta _ { i } } { 5 } \times 1 0 0 \%$
  3. 符号解释:
    - $N$ : 问题总数。
    - $\sigma_i$ : 由VLM评定的答案正确性分数 (1-5分)。
    - $\delta_i$ : 由VLM评定的答案接地性分数 (0, 0.5, 1)。
- $C^*$ (Correctness without Grounding):
  1. 概念定义: 不考虑接地性的正确性。它等同于将所有回答的接地性分数 $\delta_i$ 强行设为1，只评估答案本身的准确度。这个指标用于与那些无法进行探索的模型（如纯LLM）进行公平比较。
  2. 数学公式: $C ^ { * } = \frac { 1 } { N } \sum _ { i = 1 } ^ { N } \frac { \sigma _ { i } } { 5 } \times 1 0 0 \%$
  3. 符号解释:
    - $N$ : 问题总数。
    - $\sigma_i$ : 答案正确性分数 (1-5分)。
- $E_{path}$ (Path Efficiency):
  1. 概念定义: 路径效率。这是一个综合了回答质量和导航效率的指标。它奖励那些用更短路径完成任务并给出高质量回答的智能体。
  2. 数学公式: $E _ { p a t h } = \frac { 1 } { N } \sum _ { i = 1 } ^ { N } \frac { \sigma _ { i } \times \delta _ { i } } { 5 } \times \frac { l _ { i } } { max ( p _ { i } , l _ { i } ) } \times 1 0 0 \%$
  3. 符号解释:
    - $l_i$ : 完成任务的最优路径长度。
    - $p_i$ : 智能体实际行走的路径长度。
- $d_T$ (Distance to Target):
  1. 概念定义: 探索终点与目标点的测地线距离。虽然EQA不强制要求精确到达目标点，但这个指标可以间接反映探索策略是否能有效地将智能体引导至任务相关区域。通常，距离越近，观察到的信息越有价值。
  2. 数学公式: $d _ { T } = \frac { 1 } { N } \sum _ { i = 1 } ^ { N } d i s _ { g } ( P _ { E } ^ { i } , P _ { T } ^ { i } )$
  3. 符号解释:
    - $P_E^i$ : 智能体探索结束时的位置。
    - $P_T^i$ : 问题的目标位置。
    - $dis_g(\cdot, \cdot)$ : 计算两点间的测地线距离。
对比基线 (Baselines): 论文设置了丰富的基线模型，从不具备探索能力的模型到具备不同探索策略的模型，进行了全面对比。
- Blind LLMs: 只输入问题，不给任何图像信息，完全依赖模型自身的知识库进行回答。代表模型有 DeepSeek-V3, GPT-4, LLaMA-3-8b。
- Socratic Models: 模拟一种被动观察的场景。模型无法主动探索，而是被动接收根据真值路径采样的一系列图像帧的文字描述，然后基于这些描述回答问题。
- Multi-Frame VLMs: 类似于 Socratic Models，但输入的是图像帧本身，而不是文字描述。
- Exploring Agents (探索智能体): 这是对比的重点，包含了具备主动探索能力的不同模型。
  - RE (Random Exploration): 随机探索。
  - FBE (Frontier-Based Exploration): 纯粹的基于边界的探索。
  - GOE (Goal-Oriented Exploration): 纯粹的目标导向探索。
  - Fine-EQA (Ours): 本文提出的混合探索模型。
- Human Performance: 人类参与者在给定真值轨迹视频后回答问题，作为性能的上限参考。

实验结果与分析 (Results & Analysis)

核心结果分析 (Core Results Analysis)

Table 2 是论文的核心实验结果，以下为该表的完整转录和分析。

Table 2: 在 EXPRESS-Bench 上的性能对比

	C↑	C*↑	Epath↑	dT↓
Human Agent	-	83.99	-	-
Blind LLMs
DeepSeek-V3		59.15
GPT4		58.96
LLaMA-3-8b		57.25
Socratic Models
DeepSeek-V3 w/ GPT-4o-mini		62.60
GPT4 w/ GPT-4o-mini		62.56
LLaMA-3-8b w/ GPT-4o-mini		59.95
DeepSeek-V3 w/LLaVA-v1.5-7b		60.63
GPT4 w/ LLaVA-v1.5-7b		59.53
LLaMA-3-8b w/LLaVA-v1.5-7b		58.59
Multi-Frame VLMs
GPT-4o-mini		58.37
LLaVA-v1.5-7b		57.66		-
Exploring Agents
RE	36.95	62.75	12.06	7.26
FBE	38.60	60.24	14.55	6.64
GOE	38.54	63.34	12.74	6.46
Fine-EQA (Ours)	40.55	63.95	16.22	6.43

分析:

$C$ vs. $C*$ 的巨大差异揭示了“幻觉”问题:
- 以 RE (随机探索) 为例，它的 $C*$ (不考虑接地的正确性) 得分高达 62.75，甚至超过了许多 Socratic Models。这给人一种它性能不错的错觉。
- 然而，它的 $C$ (考虑接地的正确性) 得分骤降至 36.95。这说明 RE 很多时候是“猜”对的答案，其回答并没有在探索中找到的视觉证据支持。这有力地证明了新指标 EAC（即 $C$ 指标）的必要性，它能有效戳穿模型的“幻觉”表现。
主动探索优于被动观察:
- Fine-EQA 在所有指标上均达到了最佳性能。它的 $C*$ 得分 (63.95) 超过了所有非探索模型（Blind LLMs, Socratic Models, Multi-Frame VLMs），说明主动去寻找信息比被动接收信息更有效。
Fine-EQA 策略的优越性:
- Fine-EQA 在所有四个指标上全面超越了单一策略的 RE, FBE, 和 GOE。
- $C$ (40.55) 和 E_path (16.22) 最高: 说明 Fine-EQA 不仅能找到最准确且有据可查的答案，而且完成任务的路径效率也最高。
- $d_T$ (6.43) 最低: 说明 Fine-EQA 能够最精准地导航到与任务相关的目标位置，这为其采集高质量视觉信息提供了保障。
- 这证明了结合全局探索（FBE）和局部精细探索（GOE）的混合策略是成功的。
与人类表现的差距:
- 尽管 Fine-EQA 是所有模型中最好的，但其 $C*$ 得分 (63.95) 与人类的 83.99 相比仍有巨大差距。这表明 EXPRESS-Bench 提出的任务具有相当的挑战性，当前的EQA模型在复杂的探索和推理任务中仍有很大的提升空间。

在其他数据集上的表现:

在 OpenEQA 数据集上 (Table 3)，Fine-EQA 在正确率 $C'$ 和效率 $E'$ 上均超越了原论文的最佳模型 GPT-4V，尤其是在效率 $E'$ 上提升巨大 (29.16 vs. 7.5)，再次验证了其探索策略的高效性。
在 HM-EQA 数据集上 (Table 4)，Fine-EQA 在准确率和路径长度上同样显著优于 Explore-EQA 模型。

以下是 Table 3 和 Table 4 的转录：

Table 3: 在 OpenEQA 的 A-EQA 子集上的性能对比

	C′↑	E′↑
OpenEQA w/ GPT-4V	41.8±3.2*	7.5±0.6*
Fine-EQA	43.27	29.16

Table 4: 在 HM-EQA 上的性能对比

	Accuracy(%)↑	Path Length(m)↓
Explore-EQA	50.4	93.687
Fine-EQA	56.0	54.267

探索策略有效性可视化

Figure 6 (论文中) 直观地展示了不同探索策略的差异。

该图像是一个示意图，展示了论文中案例路径的空间布局及沿路径关键视角图像与对应的探索权重分布，反映了代理在环境中探索的动态过程及权重变化。

RE 的轨迹杂乱无章，效率低下。
FBE 和 GOE 有所改善，但仍有不足（例如，FBE 可能在无关区域耗费太多时间，GOE 可能找不到去往目标区域的最佳路径）。
Fine-EQA 的路径则清晰而高效：它从走廊出发，迅速识别出问题相关的“浴室”区域，然后直接导航过去进行精细探索，最终成功回答问题。

消融实验/参数分析 (Ablation Studies / Parameter Analysis)

作者通过消融实验验证了 Fine-EQA 各组件的有效性。

Table 5: 模型模块的消融研究

	C↑	C*↑	Epath↑	dT↓
Fine-EQA w/o FBE	38.54	63.34	12.74	6.46
Fine-EQA w/o GOE	39.63	60.74	14.64	6.54
Fine-EQA	40.55	63.95	16.22	6.43