论文状态:已完成

Thinking in 360°: Humanoid Visual Search in the Wild

发表:2025/11/25
原文链接PDF 下载
价格:0.100000
价格:0.100000
已有 3 人读过
本分析由 AI 生成,可能不完全准确,请以原文为准。

TL;DR 精炼摘要

人类在360°环境中结合头部与眼睛运动高效进行视觉搜索。本文提出类人视觉搜索(HVS)方法,使智能体在沉浸式360°全景图像中主动旋转头部寻找目标。构建的新基准H* Bench验证了视觉空间推理能力的重要性,实验显示顶级模型成功率较低,但后训练技术显著提高了开源模型的表现,挑战仍存。

摘要

Humans rely on the synergistic control of head (cephalomotor) and eye (oculomotor) to efficiently search for visual information in 360°. However, prior approaches to visual search are limited to a static image, neglecting the physical embodiment and its interaction with the 3D world. How can we develop embodied visual search agents as efficient as humans while bypassing the constraints imposed by real-world hardware? To this end, we propose humanoid visual search where a humanoid agent actively rotates its head to search for objects or paths in an immersive world represented by a 360° panoramic image. To study visual search in visually-crowded real-world scenarios, we build H* Bench, a new benchmark that moves beyond household scenes to challenging in-the-wild scenes that necessitate advanced visual-spatial reasoning capabilities, such as transportation hubs, large-scale retail spaces, urban streets, and public institutions. Our experiments first reveal that even top-tier proprietary models falter, achieving only ~30% success in object and path search. We then use post-training techniques to enhance the open-source Qwen2.5-VL, increasing its success rate by over threefold for both object search (14.83% to 47.38%) and path search (6.44% to 24.94%). Notably, the lower ceiling of path search reveals its inherent difficulty, which we attribute to the demand for sophisticated spatial commonsense. Our results not only show a promising path forward but also quantify the immense challenge that remains in building MLLM agents that can be seamlessly integrated into everyday human life.

思维导图

论文精读

中文精读

1. 论文基本信息

1.1. 标题

Thinking in 360°: Humanoid Visual Search in the Wild (360° 思维:野外环境中类人视觉搜索)

1.2. 作者

Heyang Yu, Yinan Han, Xiangyu Zhang, Baiqiao Yin, Bowen Chang, Xiangyu Han, Xinhao Liu, Jing Zhang, Marco Pavone, Chen Feng, Saining Xie, Yiming Li。 作者分别来自纽约大学 (NYU)、英伟达 (NVIDIA)、达姆施塔特工业大学 (TU Darmstadt)、加州大学伯克利分校 (UC Berkeley) 和斯坦福大学 (Stanford University)。

1.3. 发表期刊/会议

预印本(arXiv),尚未正式发表于期刊或会议。

1.4. 发表年份

2025年。

1.5. 摘要

人类通过协同控制头部(cephalomotor)和眼睛(oculomotor)来高效地在 360° 范围内搜索视觉信息。然而,以往的视觉搜索方法通常局限于静态图像,忽略了物理具身(physical embodiment)及其与 3D 世界的交互。本文旨在解决如何开发出像人类一样高效的具身视觉搜索智能体,同时绕过真实世界硬件的限制。为此,作者提出了类人视觉搜索(Humanoid Visual Search, HVS):一个类人智能体在由 360° 全景图像表示的沉浸式世界中主动旋转头部来搜索物体或路径。为了研究视觉拥挤的真实世界场景中的视觉搜索,作者构建了 H* Bench,这是一个超越家庭场景、涵盖交通枢纽、大型零售空间、城市街道和公共机构等复杂“野外”(in-the-wild)场景的新基准,这些场景需要高级的视觉空间推理能力。实验首先揭示,即使是顶级的专有模型也表现不佳,在物体和路径搜索中的成功率仅为约 30%。随后,作者使用后训练(post-training)技术增强了开源模型 Qwen2.5-VL,使其在物体搜索(从 14.83% 提升至 47.38%)和路径搜索(从 6.44% 提升至 24.94%)方面的成功率提高了三倍以上。值得注意的是,路径搜索较低的上限揭示了其固有的难度,作者将其归因于对复杂空间常识(spatial commonsense)的需求。研究结果不仅展示了前进的希望,也量化了在构建能够无缝融入人类日常生活的多模态大语言模型(Multimodal Large Language Model, MLLM)智能体方面所面临的巨大挑战。

1.6. 原文链接

https://arxiv.org/abs/2511.20351v1 PDF 链接: https://arxiv.org/pdf/2511.20351v1.pdf 发布状态:arXiv 预印本。

2. 整体概括

2.1. 研究背景与动机

人类的视觉系统非常高效,能够在 360° 范围内通过快速的眼跳(saccades)和有意识的头部重定向来搜索视觉信息,例如在拥挤的地铁站寻找出口。这种协同控制头部(cephalomotor)和眼睛(oculomotor)的能力,使得人类能够最小化感知冗余和计算成本。

然而,当前最先进的基于多模态大语言模型(MLLM)的视觉搜索方法存在两个根本性不足:

  1. 非交互性 (Non-interactive): 现有模型通常处理单个、静态、低分辨率的 2D 图像。后续操作(如裁剪、缩放)也仅限于此固定画布内,无法改变视角获取初始视野之外的信息。这导致模型无法像人类一样主动探索环境。

  2. 非具身性 (Disembodied): 模型缺乏物理具身(physical embodiment),无法将视觉推理与物理世界中的动作相结合。搜索任务也通常不是由具身任务(如操作或导航)驱动,从而将其简化为抽象的感知练习,而非真实世界的、目标导向的行为。

    因此,开发一个能够主动在视觉拥挤场景中搜索信息的具身视觉智能体,尽管在类人机器人、辅助技术和增强现实等领域具有巨大潜力,但仍未得到充分探索。现有的具身 AI 平台也常受限于感知真实性不足或局限于家庭场景,无法代表需要高级视觉空间推理能力的丰富、密集和杂乱的“野外”环境。

2.2. 核心贡献/主要发现

本文旨在弥合上述差距,并提出了以下核心贡献和主要发现:

  • 引入类人视觉搜索 (Humanoid Visual Search, HVS): 提出了一种新颖的任务,使类人智能体能够通过主动头部旋转在 360° 沉浸式环境中进行类人主动空间推理。这使得智能体能够进行闭环的感知-行动循环,并支持两种核心具身任务:
    • 类人物体搜索 (Humanoid Object Search, HOS): 定位并注视目标物体,作为操作的前提。
    • 类人路径搜索 (Humanoid Path Search, HPS): 识别通往目的地的可导航路径并对齐身体方向,作为移动的前提。
  • 提出可扩展框架 H* Bench 构建了一个新的系统基准,利用真实世界的 360° 全景图像作为轻量级模拟器,创建了一个无需硬件的平台来研究具身推理。该基准包含来自复杂“野外”环境(如交通枢纽、大型零售空间、公共机构和城市街道)的密集标注全景场景,超越了以往研究中常见的家庭场景。
  • 深入评估 MLLM 并量化挑战: 对 MLLM 在 H* Bench 上的性能进行了彻底评估。
    • 发现即使是顶级的专有模型(如 GPT-4o 和 Gemini 2.5 Pro)在 H* Bench 上的成功率也仅为约 30%,表明现有 MLLM 缺乏所需的空间常识和主动 3D 规划能力。

    • 通过后训练(post-training),特别是监督微调(SFT)和强化学习(RL),显著提升了开源 MLLM(Qwen2.5-VL-3B)的性能。HVS-3B 在 HOS 上成功率从 14.83% 提升至 47.38%,在 HPS 上从 6.44% 提升至 24.94%。

    • 揭示路径搜索(HPS)的固有难度更高,其成功率上限较低,这主要归因于对复杂空间常识(spatial commonsense)的强烈需求。

    • 发现后训练对不同任务和难度级别的影响不均。SFT 提供了主要性能提升,而 RL 在某些复杂路径搜索场景中甚至可能导致性能下降,这可能与奖励函数设计和“奖励欺骗”(reward hacking)有关。

    • 通过消融实验验证了主动视觉搜索优于被动搜索,并证明了模型在学习 3D 具身搜索的同时,并未显著损害其 2D 视觉搜索能力,为统一模型提供了前景。

      这些发现不仅为具身视觉搜索提供了一个有希望的方向,也量化了在将 MLLM 智能体无缝集成到人类日常生活中所面临的巨大挑战。

3. 预备知识与相关工作

3.1. 基础概念

为了更好地理解本文,以下是一些核心概念的解释:

  • 多模态大语言模型 (Multimodal Large Language Model, MLLM): MLLM 是一种能够理解和处理多种模态信息(如文本、图像、音频等)的大型神经网络模型。它们通过在海量多模态数据上进行预训练,学习不同模态之间的关联和复杂的推理能力。在本文中,MLLM 主要用于处理视觉输入和语言指令,并生成动作序列。
  • 具身智能体 (Embodied Agent): 指的是拥有物理身体(或在模拟环境中拥有类似物理交互能力)的智能体。与仅在抽象数据上进行推理的智能体不同,具身智能体能够通过感知、行动与环境进行直接交互,从而执行更复杂的真实世界任务。本文的类人智能体即是一种具身智能体。
  • 360° 全景图像 (360° Panoramic Image): 这种图像能够捕捉一个场景的完整 360 度水平视野和通常是完整的垂直视野,提供了一个沉浸式的环境表示。智能体可以从中“截取”不同方向的窄视场(narrow field-of-view, FoV)透视图像作为当前观察。
  • 头眼协同 (Cephalomotor-Oculomotor Control): 人类在视觉搜索时,会协同控制头部(cephalomotor)和眼睛(oculomotor)的运动。头部进行大范围的探索性转动,以改变整体视野;眼睛则在当前头部视野内进行精细的、快速的眼跳(saccades)以聚焦细节。本文的类人视觉搜索旨在模拟这种协同机制。
  • 视觉搜索 (Visual Search): 指在视觉环境中寻找特定目标物体或信息的过程。这通常涉及自下而上(bottom-up)的视觉显著性(saliency)和自上而下(top-down)的上下文指导。
  • 具身视觉搜索 (Embodied Visual Search): 将视觉搜索任务与具身智能体在 3D 世界中的物理行动相结合,智能体需要主动探索环境以找到目标。
  • 监督微调 (Supervised Fine-Tuning, SFT): 是一种常见的机器学习技术,先在大规模通用数据集上预训练一个模型,然后在一个较小的、针对特定任务的标注数据集上进一步训练该模型,以使其适应特定任务。SFT 阶段通常使用交叉熵损失等监督学习目标。
  • 强化学习 (Reinforcement Learning, RL): 智能体通过与环境交互学习如何做出一系列决策以最大化累积奖励。在本文中,RL 用于进一步优化 MLLM 的策略,使其能够更好地执行多步具身搜索任务。
  • 链式思考 (Chain of Thought, CoT): 是一种提示(prompting)技术,要求大语言模型在给出最终答案之前,先展示其一步一步的推理过程。这有助于提高模型在复杂推理任务上的性能,并使其决策更具可解释性。

3.2. 前人工作

本文将自身工作置于视觉搜索、视觉导航、多模态 LLM 及具身推理的交叉领域,并与以下关键前人工作进行了比较:

  • 视觉搜索 (Visual Search):

    • 早期方法: 主要依赖自下而上(bottom-up)的视觉显著性(visual saliency)和自上而下(top-down)的上下文指导。但这些方法通常因上下文理解的局限性而难以泛化。
    • MLLM 驱动的方法: 近期,以 VV* [58] 为代表的工作利用 MLLM 丰富的世界知识来增强泛化能力。然而,这些工作主要关注静态 2D 图像中的搜索,忽略了视觉搜索在 3D 世界中的主动和具身性质。
    • 神经科学研究: 神经科学研究表明,人类视觉搜索是眼睛和头部协同的嵌套系统,头部优先探索未见区域,眼睛则通过更精细的眼跳利用已见内容。本文旨在构建一个具有类人眼头协调能力的视觉搜索模型。
  • 视觉导航 (Visual Navigation):

    • 目标是开发能在环境中移动以到达指定目标的智能体。其核心在于尽可能快地完成整个轨迹。
    • 挑战: 这需要 3D 模拟器或真实硬件,而真实模拟器难以构建,真实世界实验难以扩展和复现。因此,以往工作多限于家庭场景,而“野外”挑战未被充分探索。
    • 本文的洞察: 人类推理在导航中是间歇性的,仅在关键决策点被调用。本文通过关注这些关键点,直接从“野外”360° 全景图像构建闭环搜索环境,绕过 3D 模拟或物理硬件的需求,实现具身视觉搜索的可扩展框架。
  • 多模态 LLMs (Multimodal LLMs):

    • MLLM 通过理解和推理多种模态信息,是实现通用人工智能(AGI)的有希望途径。
    • 里程碑工作: Flamingo [1]、BLIP [33, 34]、LLaVA [35] 等早期工作专注于有效对齐预训练视觉编码器和 LLM 的特征空间。
    • 最新进展: GPT-4o [41] 和 Gemini 2.5 [46] 等通过扩大模型容量和引入新训练策略,在多模态任务上树立了新标杆。
    • 关键技术: 强化学习(RL)的后训练(post-training)是重要技术,用于将模型输出与人类偏好对齐,增强指令遵循能力,并减少幻觉和偏见。RL 还能激励复杂任务中的推理能力。本文将 MLLM 植根于物理世界,评估和改进其在主动具身视觉搜索中的性能。
  • 带工具的 MLLMs (Multimodal LLMs with Tools):

    • 类比人类使用外部工具,LLM 智能体也通过工具包(如网页浏览、代码执行)解决长序列任务。
    • MLLM 中的工具使用: 这一方法已扩展到多模态设置,MLLM 在每个推理步骤生成符号工具调用(如 OCRmarkingcroppingzoom in)来克服语义接地和视觉感知的局限。
    • 本文的创新: 这些工具操作通常仍在非具身 2D 画布上进行。本文将工具的使用与物理世界的动作耦合:主动头部旋转被调用以持续构建视觉链式思考(visual chain of thought)。这弥合了被动视觉推理和主动具身推理之间的关键差距。
  • 用于具身推理的 MLLMs (Multimodal LLMs for Embodied Reasoning):

    • LLM 虽从互联网数据中学习了丰富的世界知识,但由于符号语言表示与具身感知之间存在巨大鸿沟,它们难以将这些知识接地到物理世界。
    • 现有工作: Cosmos-Reason1 [3] 使 MLLM 能通过视频输入感知物理世界并进行推理,生成更具物理接地性的响应;Gemini Robotics-ER [52] 扩展了 Gemini 的多模态推理能力以增强时空理解。
    • 本文的空白: 尽管如此,具有交错多模态推理的主动视觉搜索仍未被探索。

3.3. 技术演进

该领域的技术演进可以概括为从静态、非具身、2D 感知动态、具身、3D 交互的转变:

  1. 早期视觉搜索: 基于传统的计算机视觉技术,如显著性检测、特征匹配等,主要在静态图片上进行,缺乏对环境的交互能力。
  2. MLLM 的引入: MLLM 凭借其强大的世界知识和泛化能力,显著提升了 2D 静态视觉搜索的性能。VV* 等模型通过在固定画布上进行“计算操作”(如局部放大)来模拟有限的“主动感知”。
  3. 具身 AI 平台的出现: 为了让智能体在 3D 世界中交互,HabitatProcTHORCARLA 等模拟器被开发出来,但它们往往受限于感知真实性或场景多样性,且需要复杂的 3D 数据和计算资源。
  4. MLLM 与具身推理的结合: 近期研究开始尝试将 MLLM 的推理能力与具身智能体的感知-行动循环相结合,以实现更通用、更强大的具身智能。这包括将 MLLM 作为规划器、策略生成器或工具调用器。
  5. 本文的定位: 本文正处于这一演进的尖端,通过以下方式推动了具身视觉搜索:
    • “轻量级模拟器”: 创新性地利用 360° 全景图像作为轻量级模拟器,绕过传统 3D 模拟器的复杂性,大大提高了研究的可扩展性。
    • “野外”场景: 将具身视觉搜索带入更具挑战性的“野外”真实世界场景,而非仅仅局限于简单的家庭环境,更真实地反映了人类日常生活的复杂性。
    • “类人”交互: 明确提出模拟人类头部和眼睛的协同控制,实现主动、多轮的视觉探索,而非简单的静态分析。

3.4. 差异化分析

本文的方法与相关工作的主要区别和创新点如下:

  • 主动性与具身性 (Activeness & Embodiment):

    • 差异: 现有 MLLM 驱动的视觉搜索(如 VV*)主要在静态 2D 图像上进行“计算操作”(如裁剪、缩放),本质上是被动的、非具身的。本文的 HVS 提出了一种主动具身的视觉搜索范式,智能体通过物理世界的动作(头部旋转)来改变其视觉输入,从而实现闭环的感知-行动循环。
    • 创新: 首次在 MLLM 框架下,将视觉推理与物理动作(头部旋转)紧密耦合,模拟人类的头眼协调,使其能够主动探索 3D 环境。
  • 环境复杂性与真实性 (Environmental Complexity & Realism):

    • 差异: 大多数具身 AI 平台和数据集(如 HabitatProcTHOR)通常局限于家庭场景感知真实性有限的模拟环境
    • 创新: 引入 H* Bench,这是一个基于真实世界 360° 全景图像构建的基准,专注于视觉拥挤、结构复杂的“野外”场景,如交通枢纽、大型零售空间等。这为 MLLM 提出了更高层次的视觉空间推理挑战。
  • 硬件约束与可扩展性 (Hardware Constraints & Scalability):

    • 差异: 传统的具身 AI 研究往往需要昂贵的 3D 模拟器或真实机器人硬件,这限制了研究的规模和可复现性。
    • 创新: 采用 360° 全景图像作为轻量级模拟器,提供了一个无需真实硬件的平台来研究具身推理。这大大降低了研究门槛,提高了实验的可扩展性和可复现性。
  • 任务定义 (Task Definition):

    • 差异: 传统视觉搜索通常是抽象的感知任务。
    • 创新: HVS 将搜索任务与具身目标相结合,明确定义了两种核心任务:HOS(定位物体作为操作前提)和 HPS(识别路径作为移动前提),使其更贴近真实世界的具身行为。
  • 推理能力 (Reasoning Capability):

    • 差异: 现有 MLLM 擅长基于语言的被动世界描述,但在物理世界中的具身交互和空间常识方面表现不足。

    • 创新: 揭示了 MLLM 在高级物理、空间和社交常识方面的根本性瓶颈,尤其是在路径搜索任务中,这为未来的具身 AI 研究指明了方向。

      总结来说,本文通过提出一种创新的任务范式、构建一个更具挑战性和真实性的数据集,并采用一种可扩展且无需硬件的方法,将 MLLM 的具身视觉搜索能力从静态 2D、家庭场景推向了动态 3D、“野外”复杂环境,同时深入分析了当前 MLLM 在高级具身推理方面的局限性。

4. 方法论

4.1. 方法原理

本文的核心思想是构建一个能够进行类人视觉搜索(Humanoid Visual Search, HVS)的智能体。这种智能体通过主动旋转头部来探索 360° 环境,从而模拟人类在搜索视觉信息时协同控制头部和眼睛的方式。与以往局限于静态 2D 图像或依赖复杂 3D 模拟器的方法不同,HVS 利用 360° 全景图像作为轻量级模拟器,实现了闭环的感知-行动循环,使智能体能够在一个沉浸式世界中进行具身推理。

智能体从一个狭窄视场(FoV)的透视视图开始,通过推理决定下一步的头部旋转方向,从而改变其视觉输入。这种交互式、具身化的搜索过程由两种核心任务驱动:类人物体搜索(Humanoid Object Search, HOS),旨在定位并注视目标物体;以及类人路径搜索(Humanoid Path Search, HPS),旨在识别可导航路径并对齐身体方向。

为了赋予 MLLM 这种能力,本文采用了一种两阶段的后训练(post-training)策略:首先通过监督微调(SFT)教授模型基本的任务导向推理和工具使用能力,然后通过多轮强化学习(RL)进一步优化其策略,以鼓励长序列推理和泛化能力。

4.2. 核心方法详解 (逐层深入)

4.2.1. 问题制定 (Problem Formulation)

HVS 的目标是模拟人类在复杂环境中寻找目标时的行为。 目标 (Objective): 给定一个语言指令 xx 和视觉观察 oϕ,γo_{\phi, \gamma},智能体的目标是识别出最佳的观察方向 (ϕ,γ)(\phi^*, \gamma^*),从而最大化任务成功的概率 P(rsoϕ,γ,x)P(r_s \mid o_{\phi, \gamma}, x)。其中,oϕ,γo_{\phi, \gamma} 代表从 360° 全景图像中以方位角 ϕ\phi 和极角 γ\gamma 采样得到的狭窄视场透视图像。 rsr_s 是任务成功奖励。

其数学表示为: (ϕ,γ)=argmaxϕ,γP(rsoϕ,γ,x) (\phi^*, \gamma^*) = \arg \max_{\phi, \gamma} P(r_s \mid o_{\phi, \gamma}, x)

  • ϕ\phi^*:最佳方位角(azimuth),表示水平旋转角度。
  • γ\gamma^*:最佳极角(polar angle),表示垂直俯仰角度。
  • P(rsoϕ,γ,x)P(r_s \mid o_{\phi, \gamma}, x):在给定当前观察 oϕ,γo_{\phi, \gamma} 和语言指令 xx 的条件下,任务成功 rsr_s 的概率。

类人物体搜索 (Humanoid Object Search, HOS): HOS 任务要求智能体在未知的 3D 环境中主动搜索目标,其目标是找到一个最终的视角方向 (ϕ,γ)(\phi^*, \gamma^*),使得目标物体位于透视视图的中央凹区域(central foveal region)。

类人路径搜索 (Humanoid Path Search, HPS): HPS 任务要求智能体在移动之前,作为高层规划步骤,搜索一条可导航的路径到达目标位置。其目标是识别一个最终的视角方向 ϕ\phi^*,该方向与路径对齐。在这里,仅评估方位角 ϕ\phi^*,因为环境可以很好地近似为平面地面几何。

4.2.2. MLLM 与类人视觉搜索 (Humanoid Visual Search with MLLMs)

本文将类人视觉搜索构建为一个多模态推理任务,通过将 MLLM 的工具使用与头部旋转相结合来实现。智能体的策略 πθ\pi_{\boldsymbol{\theta}} 定义如下: πθ(yt,atot,x,Ht) \pi_{\boldsymbol{\theta}}(y_t, a_t \mid o_t, x, \mathcal{H}_t)

  • πθ\pi_{\boldsymbol{\theta}}:智能体的策略,由参数 θ\boldsymbol{\theta} 定义。

  • yty_t:在时间步 tt 生成的文本链式思考(textual chain of thought)。

  • ata_t:在时间步 tt 执行的动作。

  • ot=oϕt,γto_t = o_{\phi_t, \gamma_t}:当前时间步 tt 的视觉观察,即从 360° 全景图中以当前头部方向 (ϕt,γt)(\phi_t, \gamma_t) 采样得到的透视图像。

  • xx:语言指令(language instruction)。

  • Ht={(oi,yi,ai)}i=1t1\mathcal{H}_t = \{ (o_i, y_i, a_i) \}_{i=1}^{t-1}:截至当前时间步 tt 的历史状态,包括过去的观察、链式思考和动作序列。

    动作空间 (Action Space): 智能体的动作空间包含两种基本操作:

  1. 旋转 (Rotate) atrot=(Δϕ,Δγ)a_t^{rot} = (\Delta \phi, \Delta \gamma): 调整视角方向。
    • Δϕ\Delta \phi:方位角变化。正值表示向右旋转,负值表示向左旋转。方位角是循环的。
    • Δγ\Delta \gamma:极角变化。正值表示向上看,负值表示向下看。
    • 通过执行 rotate 动作,智能体的当前头部方向更新为 ϕt+1=ϕt+Δϕ\phi_{t+1} = \phi_t + \Delta \phiγt+1=γt+Δγ\gamma_{t+1} = \gamma_t + \Delta \gamma,从而获取新的视觉观察。
  2. 提交 (Submit) atsuba_t^{sub}: 提交当前的视角方向作为最终估计值 (ϕ^,γ^)(\hat{\phi}, \hat{\gamma}),并终止当前回合。

4.2.3. MLLM 后训练 (MLLM Post-Training)

由于 MLLM 在训练时基于静态、非具身的互联网数据,它们通常缺乏进行类人视觉搜索所需的空间常识和主动 3D 规划能力。因此,本文设计了一个两阶段的后训练流程,如下图(原文 Figure 2)所示,以将 MLLM 转换为有效的视觉搜索智能体。

该图像是一个示意图,展示了在一个360°全景环境中实现多轮强化学习的两个阶段。左侧为专家轨迹标注的阶段,涉及多模态大语言模型的预训练。右侧则展示了任务执行过程,包括如何识别目标并获取新视角,涉及到的公式包括 \(H_t = \[o_t, a_t, o_{t-1}, y_t\]\)。
图:多轮强化学习框架

第一阶段:监督微调 (Supervised Fine-Tuning, SFT)

  • 目的: 在专门整理的多轮数据集上进行 SFT,以灌输基本的任务导向推理和工具使用能力。这使得模型能够从多模态输入生成结构化的动作规划,建立强大的行为先验。
  • SFT 目标函数: 最小化数据集 DSFT\mathcal{D}^{SFT} 上负对数似然(negative log-likelihood),即交叉熵损失。 minθ E(x,HT)DSFT[i=0T1logπθ(yi,aioi,x,Hi)] \min_{\theta} \ \mathbb{E}_{(x, \mathcal{H}_T) \sim \mathcal{D}^{SFT}} \left[ - \sum_{i = 0}^{T-1} \log \pi_{\theta}(y_i, a_i \mid o_i, x, \mathcal{H}_i) \right]
    • θ\theta:模型参数。
    • DSFT\mathcal{D}^{SFT}:包含任务输入 xx 和标注轨迹 HT={(oi,yi,ai)}i=0T1\mathcal{H}_T = \{ (o_i, y_i, a_i) \}_{i=0}^{T-1} 的数据集。
    • πθ(yi,aioi,x,Hi)\pi_{\theta}(y_i, a_i \mid o_i, x, \mathcal{H}_i):在给定观察 oio_i、语言指令 xx 和历史 Hi\mathcal{H}_i 的条件下,生成链式思考 yiy_i 和动作 aia_i 的策略概率。

第二阶段:多轮强化学习 (Multi-Turn Reinforcement Learning, RL)

  • 目的: 使用 Group Relative Policy Optimization (GRPO) [48] 算法进一步精炼策略。此 RL 阶段对于开发超越模仿学习基线的鲁棒、可泛化搜索策略至关重要,尤其是在鼓励长序列推理方面。

  • GRPO 目标函数: 对于每个任务,我们采样 GG 次并获得输出 {ω1,ω2,,ωG}\{\omega_1, \omega_2, \ldots, \omega_G\},其中 ωi\omega_i 包含输出序列中所有的 token {y0,a0,y1,a1,,yT1,aT1}\{y_0, a_0, y_1, a_1, \dotsc, y_{T-1}, a_{T-1}\}。然后计算 GRPO advantage 来更新参数。 IGRPO(θ)=E[(so,x,y)DRL,{ωi}i=1Gπθold(Ωso,x)]1Gi=1G1ωit=1ωi{min[πθ(ωi,tso,x,ωi,<t)πθold(ωi,tso,x,ωi,<t)A^i,t,clip(πθ(ωi,tso,x,ωi,<t)πθold(ωi,tso,x,ωi,<t),1ϵ,1+ϵ)A^i,t]βKL(πθπref)}, \begin{array}{ll} \mathcal{I}_{\mathrm{GRPO}}(\theta) = \mathbb{E}[(s_o, x, y) \sim \mathcal{D}^{RL}, \{\omega_i\}_{i=1}^G \sim \pi_{\theta_{\mathrm{old}}}(\Omega | s_o, x)] \\ \displaystyle \frac{1}{G} \sum_{i=1}^G \frac{1}{|\omega_i|} \sum_{t=1}^{|\omega_i|} \\ \Big \{ \min \left[ \frac{\pi_{\theta}(\omega_{i,t} | s_o, x, \omega_{i,<t})}{\pi_{\theta_{\mathrm{old}}}(\omega_{i,t} | s_o, x, \omega_{i,<t})} \hat{A}_{i,t}, \mathrm{clip} \left( \frac{\pi_{\theta}(\omega_{i,t} | s_o, x, \omega_{i,<t})}{\pi_{\theta_{\mathrm{old}}}(\omega_{i,t} | s_o, x, \omega_{i,<t})} \right. \right. \\ \left. , 1 - \epsilon, 1 + \epsilon \right) \hat{A}_{i,t} \Big ] - \beta \mathbb{KL}(\pi_{\theta} || \pi_{\mathrm{ref}}) \Big \} , \end{array}

    • DRL\mathcal{D}^{RL}:用于 RL 训练的数据集。
    • sos_o:初始观察状态。
    • xx:语言指令。
    • yy:输出序列。
    • {ωi}i=1G\{\omega_i\}_{i=1}^G:对于一个任务采样 GG 次得到的轨迹集合。
    • πθold\pi_{\theta_{\mathrm{old}}}:旧策略(old policy)的参数。
    • ωi,t\omega_{i,t}:第 ii 条轨迹中时间步 tttoken
    • ωi,<t\omega_{i,<t}:第 ii 条轨迹中时间步 tt 之前的所有 token
    • A^i,t\hat{A}_{i,t}:相对优势(relative advantage),表示该 token 在轨迹中的相对价值。
    • clip(,1ϵ,1+ϵ)\mathrm{clip}(\cdot, 1-\epsilon, 1+\epsilon):裁剪函数,将策略比率限制在 [1ϵ,1+ϵ][1-\epsilon, 1+\epsilon] 范围内,以稳定训练。
    • βKL(πθπref)\beta \mathbb{KL}(\pi_{\theta} || \pi_{\mathrm{ref}}):KL 散度惩罚项,用于限制新策略 πθ\pi_{\theta} 与参考策略 πref\pi_{\mathrm{ref}} 之间的偏差,防止策略过度偏离。参考策略通常是 SFT 阶段训练的模型。
  • 相对优势 (Relative Advantage) A^i,t\hat{A}_{i,t} 的计算:

    • A^i,t\hat{A}_{i,t} 表示的是相对于该批次中所有轨迹奖励的平均值和标准差,某个特定轨迹 ii 的奖励 rir_i 的标准化偏差。 A^i,t=rimean(r)std(r) \hat{A}_{i,t} = \frac{r_i - \mathrm{mean}(r)}{\mathrm{std}(r)}
    • rir_i:第 ii 条轨迹的总奖励。
    • mean(r)\mathrm{mean}(r):该批次中所有轨迹奖励的平均值。
    • std(r)\mathrm{std}(r):该批次中所有轨迹奖励的标准差。
  • 奖励塑形 (Reward Shaping): 本文使用基于规则的奖励函数来计算轨迹的奖励,包括正确性奖励(correctness reward)和格式奖励(format reward)。 r=rcorr+rformr = r_{corr} + r_{form} 其中:

    • 正确性奖励 rcorrr_{\mathrm{corr}} rcorr={0.5,if the submitted answer satisfies thecompletion condition,0,otherwise, r_{\mathrm{corr}} = \left\{ \begin{array}{ll} 0.5, & \mathrm{if ~ the ~ submitted ~ answer ~ satisfies ~ the} \\ \quad & \mathrm{completion ~ condition}, \\ 0, & \mathrm{otherwise}, \end{array} \right. 如果提交的答案满足完成条件(例如,目标物体被成功注视,或路径方向被正确识别),则获得 0.5 的奖励,否则为 0。

    • 格式奖励 rformr_{\mathrm{form}} rform={0.5,if the response is in<think><\/think><answer><\/answer> format,0,otherwise. r_{\mathrm{form}} = \left\{ \begin{array}{ll} 0.5, & \mathrm{if ~ the ~ response ~ is ~ in <think><\/think>} \\ \quad & \quad \mathrm{<answer><\/answer> ~ format}, \\ 0, & \mathrm{otherwise}. \end{array} \right. 如果模型的响应符合 <think>...</think><answer>...</answer><think>...</think><answer>...</answer> 的指定格式,则获得 0.5 的奖励,否则为 0。

    • 路径搜索(HPS)的距离目标奖励 (Distance-to-goal Reward for HPS): 对于 HPS 任务,额外增加一个距离目标奖励。这个奖励根据最终提交的方向与目标边界框的距离来计算。 rdist=πd(ϕT,ϕ)+πd(γT,γ)2π r_{dist} = \frac{\pi - d(\phi_T, \phi^*) + \pi - d(\gamma_T, \gamma^*)}{2\pi}

      • ϕT,γT\phi_T, \gamma_T:轨迹结束时智能体提交的最终方向。

      • ϕ,γ\phi^*, \gamma^*:目标方向。

      • d(α,α)d(\alpha, \alpha^*):方向 α\alpha 到目标方向 α\alpha^* 的距离,考虑了边界框的容忍度。

      • 2π2\pi:归一化因子。

      • 到边界框的距离 d(α,α)d(\alpha, \alpha^*) 计算: d(α,α)=α(ατα)+α(α+τα) d(\alpha, \alpha^*) = |\alpha - (\alpha^* - \tau_{\alpha})| + |\alpha - (\alpha^* + \tau_{\alpha})|

        • α\alpha:当前角度(可以是 ϕT\phi_TγT\gamma_T)。
        • α\alpha^*:目标角度(可以是 ϕ\phi^*γ\gamma^*)。
        • τα\tau_{\alpha}:该角度维度上的容忍度。 这个函数的设计使得当方向落在边界框内时,距离值保持一个最小常数,当方向偏离边界框时,距离值会增加。

4.2.4. 训练和推理提示 (Training and Inference Prompts)

本文在附录中提供了训练和推理时使用的自然语言提示(prompts),如下图(原文 Figure II)所示。这些提示引导模型生成链式思考和动作,并处理环境反馈。

该图像是一个示意图,展示了 humanoid 视觉搜索中指示词与运动方向的对齐。图中左侧为 360° 全景图,右侧展示运动方向及指示词方向的变化,通过文本说明其相互关系。这一示意图有助于理解如何在实际场景中引导 humanoid 代理进行有效的视觉搜索。 图:训练和推理提示

5. 实验设置

5.1. 数据集

本文引入了 H* Bench,一个用于系统评估类人视觉搜索的基准。

  • 数据集概述:

    • 包含约 3,000 个标注任务实例,这些任务实例来源于多样化的高分辨率全景视频(最高可达 7680×38407680 \times 3840)。

    • 通过为每个任务实例初始化四种不同的起始方向,总共获得了 12,000 个搜索回合(search episodes)。

    • 数据来源包括作者自行收集的全球大都市(纽约、巴黎、阿姆斯特丹、法兰克福)影像,以及开放平台(YouTube 和 360+X 数据集 [11])。

    • H* Bench 具有广泛的地理覆盖范围(涵盖 12 个国家的 13 个城市,如下图原文 Figure I 所示)和显著的场景多样性(包括 6 大类场景和 18 种细粒度场景类型),如交通枢纽(机场、地铁站)、大型零售空间(超市、购物中心)和公共机构(图书馆、博物馆)、城市街道。

    • HOS 任务的目标物体类型也具有多样性。

    • 这种广度确保了对类人智能体在复杂真实世界环境中视觉搜索能力的严格全面评估。

      Figure I. \(H ^ { \\ast }\) Bench aggregates panoramic videos from diverse global locations, featuring visually cluttered environments 该图像是H Bench的示意图,展示了来自不同全球位置的全景视频,包含了各种视觉复杂的环境。每个位置上都有指引,展示了在这些场景中可能的活动,例如在超市购物、购买车票等,突显了在真实环境中进行视觉搜索的挑战。* 图:H Bench 全球地理分布*

  • 任务标注 (Task Annotation):

    • 每个全景场景都在一个透视视图界面中进行标注,该界面从全景图中渲染出狭窄视场(FOV)的图像,并已知其视角 (ϕ,γ)(\phi, \gamma)
    • 标注者可以自由旋转虚拟相机来检查场景,识别合适的具身搜索任务,编写自然语言指令,并通过绘制紧密边界框来标记目标,以指定其最佳方向。
    • 边界框随后被反向投影到全景图上,其中心确定了最佳目标方向 (ϕ,γ)(\phi^*, \gamma^*)
    • 对于 HPS 任务,只保留方位角 (ϕ)(\phi^*),因为环境可以很好地近似为平面地面几何。
  • 冷启动数据整理 (Cold-Start Data Curation):

    • 为了构建高质量的多轮轨迹用于 SFT,作者选择了一部分标注任务实例,并利用一个强大的 MLLM(GPT-4o [41])通过提示(prompting)来增强这些实例,加入结构化的链式思考(Chain-of-Thought, CoT)理由。
    • 在每个标注步骤中,给定任务指令、当前观察和人类提供的最佳动作(旋转角度或提交),GPT-4o 被提示生成一个简洁的、基于观察的理由,解释为什么该动作在当前上下文中是合适的。
    • 作者采用了人机协作协议,由标注者审查并完善生成的理由,以消除幻觉,确保其基于可见场景证据,并强制保持风格一致性。
    • 最终数据集包含 2,000 条多轮轨迹,包括视觉观察、经过验证的 CoT 理由和动作,这些数据用于 SFT 阶段的启动训练。总共有六名标注者投入了 250 小时进行具身问题标注和 CoT 完善。
  • 难度分类 (Difficulty Taxonomy):

    • HOS 任务难度: 根据目标物体在初始视角中的可见性定义任务难度。

      • 计算可见性比率 dd,即物体在初始视角中可见区域与物体完整区域的比例。

      • 可见性越高,感知线索越强,探索负担越小;可见性越低,越需要视觉探索。

      • HOS 样本分为:简单 (Easy)中等 (Medium)困难 (Hard) 三个级别(如下图原文 Figure 3 Bottom Right 所示;附录 Figure III 提供了可视化示例)。

      • HOS 任务可视化示例(原文 Figure III):

        Figure III. Visualizations of HOS task instances. 图:HOS 任务实例可视化

    • HPS 任务难度: 难度取决于场景是否包含文本线索以及视觉或文本线索是否与实际路径方向一致。这两个因素共同定义了四个难度级别(如下图原文 Figure 3 Bottom Right 所示;附录 Figure IV-VII 提供了可视化示例)。

      • HPS 任务难度分类及示例(原文 Figure IV-VII):

        该图像是插图,展示了一个360°全景图和一个示意机器人在城市环境中的视角。图中强调了提示(Cue)和运动(Motion)的方向,并用文本说明了相关指示。该图像展示了在视觉搜索任务中如何有效地结合提示与运动方向的信息。 图:HPS 简单级别任务实例可视化

        该图像是示意图,展示了在地铁场景中,指示方向(Cue)与运动方向(Motion)的对齐关系。图中包含一个 humanoid 代理的标识,结合全景图像的文本指令,展示如何在视觉空间中进行有效的搜索和导航。 图:HPS 中等级别任务实例可视化

        Figure VI. Visualizations of hard-level HPS task instances. 图:HPS 困难级别任务实例可视化

        Figure VII. Visualizations of extreme-level HPS task instances. 图:HPS 极端级别任务实例可视化

  • 训练-测试划分 (Train-Test Split):

    • 总共标注了约 3,000 个任务实例。
    • 这些实例被分为三个互斥的子集:基准测试集、SFT 训练集和 RL 训练集。
    • H* Bench (基准测试集): 预留了 1,000 个实例(600 个 HOS 和 400 个 HPS),生成 4,000 个评估回合。
    • SFT 训练集: 从剩余数据中随机抽取 250 个 HOS 实例和 250 个 HPS 实例。
    • RL 训练集: 所有剩余实例专门用于 RL 训练。

5.2. 评估指标

一个回合(trial)被评估为成功,如果智能体提交的最终视角方向 (ϕ^,γ^)(\hat{\phi}, \hat{\gamma}) 落入以目标方向 (ϕ,γ)(\phi^*, \gamma^*) 为中心的边界框容忍区域内。

  • 容忍区域 (Tolerance Region): [ϕτϕ,ϕ+τϕ]×[γτγ,γ+τγ] [\phi^* - \tau_{\phi}, \phi^* + \tau_{\phi}] \times [\gamma^* - \tau_{\gamma}, \gamma^* + \tau_{\gamma}]

  • 容忍度参数 (Tolerance Parameters):

    • τϕ=max(wϕ2,τϕ,min)\tau_{\phi} = \max\left(\frac{w_{\phi}}{2}, \tau_{\phi, \text{min}}\right)
    • τγ=max(wγ2,τγ,min)\tau_{\gamma} = \max\left(\frac{w_{\gamma}}{2}, \tau_{\gamma, \text{min}}\right)
    • wϕw_{\phi}wγw_{\gamma} 分别是目标边界框的角宽度和角高度。τϕ,min\tau_{\phi, \text{min}}τγ,min\tau_{\gamma, \text{min}} 是最小容忍度。
  • 具体任务的容忍度设定:

    • HOS 任务: 评估 (ϕ^,γ^)(\hat{\phi}, \hat{\gamma})。容忍度设定为 τϕ=30,τγ=20\tau_{\phi} = 30^\circ, \tau_{\gamma} = 20^\circ,以模拟人类的注视(human foveation)精度。
    • HPS 任务: 仅评估 (ϕ^)(\hat{\phi})。容忍度设定为 τϕ=10\tau_{\phi} = 10^\circ,以反映对精确运动方向的要求。
  • 报告指标: 报告按任务和难度级别划分的成功率(success rate,百分比)。

5.3. 对比基线

论文将自己的方法与多种开源和专有模型进行了比较,以全面评估其性能。

  • 开源多图像模型 (Open-Weight Multi Image Models):
    • InternVL3.5-4B [13]
    • InternVL3.5-8B [13]
    • Qwen2.5-VL-3B-Instruct [61]
    • Qwen2.5-VL-7B-Instruct [61]
    • Gemma-3-4B-it [19]
    • Gemma-3-12B-it [19]
    • Kimi-VL-A3B-Instruct [53]
  • 专有模型 (Proprietary Models):
    • GPT-4o [41]
    • Gemini2.5-Pro [46]
  • 后训练模型 (Fine-Tuned Models (Ours)):
    • HVS-3B (仅 SFT 训练的模型)
    • HVS-3B (SFT 结合 RL 训练的模型)

5.4. 实现细节

  • 训练设置:
    • 模型在混合的物体和路径搜索数据集上进行微调。
    • SFT 训练环境使用 LLaMAFactory [69] 实现。
    • RL 训练基于开源框架 VAGEN [57] 构建。
    • 对 Qwen2.5-VL-3B-Instruct 进行全参数 SFT,训练 3 个 epoch,得到模型 HVS-3B (w/ SFT only)。
    • RL 阶段训练 70 步,得到模型 HVS-3B。
    • SFT 学习率为 1e-5。
    • RL 阶段使用 GRPO 算法,批处理大小为 32,actor 学习率为 1×1071 \times 10^{-7},KL 惩罚系数 β=0.01\beta = 0.01
    • Rollout 在 H* Bench 提示下进行,温度为 0.7,最多 8 条轨迹,动态回合限制(5 或 10 轮)。
    • 两个阶段都使用 1280×7201280 \times 720 的输入分辨率,并在 8 块 NVIDIA H100 GPU 上运行。
  • 基准设置:
    • 最大推理回合数设置为 10,因为在此限制前,累积成功率已经收敛。
    • 每一步,模型处理最多五张透视图像,并使用最近的五个对话回合作为上下文。
    • 图像分辨率为 1920×10801920 \times 1080,采样温度为 0。
    • 由于计算限制,每个回合最多 10 步,未完成的回合计为失败。

6. 实验结果与分析

6.1. 核心结果分析

6.1.1. 探测 MLLM 的具身视觉搜索能力 (Probing Embodied Visual Search in MLLMs)

下表(原文 Table 1)展示了开源模型、专有模型以及微调模型在 H* Bench 上的定量结果。

以下是原文 Table 1 的结果:

Method Humanoid Object Search Humanoid Path Search
Overall Easy Medium Hard Overall Easy Medium Hard Extreme
Open-Weight Multi Image Models
InternVL3.5-4B [13] 3.08 7.32 2.84 1.49 4.81 6.00 5.70 4.67 0.46
InternVL3.5-8B [13] 6.38 9.76 9.10 4.79 7.25 10.00 7.68 5.14 4.17
Qwen2.5-VL-3B-Instruct [61] 14.83 27.97 13.07 10.01 6.44 7.00 8.77 4.91 3.24
Qwen2.5-VL-7B-Instruct [61] 11.38 23.42 9.10 7.02 6.31 9.00 5.92 5.84 1.85
Gemma-3-4B-it [19] 17.13 32.85 26.14 10.13 14.44 17.20 14.47 14.72 7.41
Gemma-3-12B-it [19] 10.21 24.72 17.33 3.88 14.50 16.80 14.25 14.49 9.72
Kimi-VL-A3B-Instruct [53] 4.92 12.85 0.57 2.36 4.32 8.79 3.32 2.21 4.17
Proprietary Models
GPT-4o [41] 19.75 18.17 17.35 20.92 23.69 26.80 22.59 26.17 13.89
Gemini2.5-Pro [46] 31.96 33.58 23.78 32.13 33.00 41.60 29.39 35.75 15.28
Fine-Tuned Models (Ours)
HVS-3B (w/ SFT only) 40.83 53.82 23.86 37.73 23.00 28.00 23.03 21.26 14.81
HVS-3B 47.38 60.49 24.43 44.87 24.94 34.80 20.18 25.00 12.04

主要发现:

  • 开源与专有模型的巨大性能差距: 专有模型(GPT-4o 和 Gemini2.5-Pro)的性能显著优于开源模型。Gemini2.5-Pro 在 HOS (31.96%) 和 HPS (33.00%) 方面表现最佳。
  • 模型大小与性能的关系不确定: 在开源模型中,Gemma-3 系列表现最佳。然而,更大的模型尺寸并不总是带来更好的性能。对于 Gemma-3 和 Qwen2.5-VL 系列,较小的 4B/3B 模型在 HOS 任务中超越了其更大的 12B/7B 对应模型,而在 HPS 中表现相当。这表明在具身视觉搜索任务中,模型规模并非唯一决定因素。

6.1.2. 误差分析 (Error Analysis)

本文对 MLLM 在 H* Bench 上遇到的常见误差类型进行了分类和分析,并总结了以下关键点(如下图原文 Figure 5 Right 所示):

该图像是示意图,展示了人类指导与机器学习模型(MLLM)之间在寻找目标位置时的互动实例。左侧描述了MLLM在识别航空公司标志方面的缺乏,而右侧则展示了其在选择去机场的路径时缺乏社会空间常识的挑战。 该图像是示意图,展示了人类指导与机器学习模型(MLLM)之间在寻找目标位置时的互动实例。左侧描述了MLLM在识别航空公司标志方面的缺乏,而右侧则展示了其在选择去机场的路径时缺乏社会空间常识的挑战。 图:Gemma3-4B-it 在 H Bench 上的结果细分*

  • HOS 任务中的误差来源:
    1. 有限的视觉接地能力 (Limited Visual Grounding Capabilities): 智能体在杂乱环境中未能可靠地识别目标,例如无法在密集货架中找到特定商品。
    2. 感知-行动鸿沟 (Perception-Action Gap): 智能体能够检测到目标,但无法执行精细的注视(foveation)动作,使其精确居中在视野中。
  • HPS 任务中的误差来源:
    1. 视觉-行动不匹配 (Vision-Action Mismatch): 模型感知到视觉线索(如指示牌),但未能将其正确转换为物理行动,例如指示牌指向右侧,模型却向左转。

    2. 缺乏物理常识 (Lack of Physical Commonsense): 动作违反 3D 约束,例如试图穿过墙壁、从高处跳下,或未能识别楼梯或电梯是改变楼层的必要手段。

    3. 缺乏社会空间常识 (Lack of Socio-Spatial Commonsense): 模型未能理解建筑环境中隐含的规则和规范,例如忽略人行横道、试图穿过限制区域(如员工专用通道、警察警戒线)、或未能理解楼梯的功能。

      关键启示: MLLM 能够为被动世界描述形成语言接地的空间模型,但对于具身世界交互,它们尚未形成物理接地的模型。

6.1.3. 后训练的作用与局限性 (On the Role and Limits of Post-Training)

  • SFT 和 RL 的有效性:

    • 本文的后训练框架对基线模型带来了显著改进。如 Table 1 所示:
      • SFT 的主要贡献: SFT 阶段贡献了大部分性能提升。在 HOS 任务中,仅 SFT 就将整体分数从 14.83% 提高到 40.83%(提升 26.00%);在 HPS 任务中,性能从 6.44% 提高到 23.00%(提升 16.56%)。这表明 SFT 建立了基本的任务能力。
      • RL 的额外但适度收益: 随后的 RL 阶段提供了额外的但更适度的收益:HOS 提升 6.55%,HPS 提升 1.94%。这说明 RL 作为进一步优化的精炼步骤。
    • 后训练提升的关键能力: 精准控制旋转角度、使用大角度转动探索新区域,以及根据方向指示牌采取行动的能力。
    • RL 的负面影响: 如果没有 SFT 作为基础,直接应用 RL 会降低模型的指令遵循能力。
  • 任务依赖的效能 (Task-Dependent Efficacy):

    • 后训练的益处因任务复杂度而异。
    • 对于相对简单的 HOS 任务,本文的模型 HVS-3B (47.38%) 甚至超越了最先进的专有模型 Gemini2.5-Pro (31.96%)。
    • 然而,对于更复杂的 HPS 任务,HVS-3B 的绝对分数 (24.94%) 仍低于 Gemini2.5-Pro (33.00%)。这种差距表明后训练在增强更高阶空间推理能力方面存在局限性。
  • RL 在复杂任务上的负面影响 (Negative Impact of RL on Complex Tasks):

    • 在 HPS 任务中,RL 甚至降低了中等难度(从 23.03% 降至 20.18%)和极端难度(从 14.81% 降至 12.04%)的性能。

    • 这些场景的特点是视觉线索与最佳路径之间存在不一致。

    • 假设: 这种性能下降可能源于“奖励欺骗”(reward hacking),即模型学习利用奖励信号,而非真正提高推理能力。这凸显了设计在所有难度级别上都能与真实任务目标一致的奖励函数的挑战。

      关键启示: 后训练可以显著提升物体搜索的视觉接地和探索能力,但难以赋予路径搜索所需的物理、空间和社会常识,因为这些常识通常是隐含的、情境化的和程序性的。

  • 任务内优势 (In-Task Superiority with an Exception):

    • 通常情况下,对特定任务进行训练会带来最佳性能。
    • 然而,一个例外是:在物体搜索上训练的模型在简单的 HPS 分割上达到了 37.8%,超过了基线 (7.0%) 和专门的 HPS 模型 (33.8%)。
    • 假设: 简单的 HPS 任务可以简化为简单的物体搜索,其中清晰的视觉线索定义了路径,从而使得 HOS 训练中获得的强大物体识别技能能够有效迁移。
  • 跨任务泛化 (Cross-Task Generalization):

    • 观察到清晰的双向协同作用:在物体搜索上训练可以使路径搜索性能从 6.4% 提升到 20.7%,而在路径搜索上训练可以使物体搜索性能从 14.8% 提升到 29.5%。
    • 原因: 学习路径搜索所获得的技能(如主动探索和路径推理)对物体搜索有直接的性能优势;反之,在物体搜索中磨练的视觉接地能力也对路径搜索有益。
  • 混合数据训练 (Mixed-Data Training):

    • 在混合的物体和路径搜索数据集上进行训练能够获得最佳的整体性能。
    • 挑战: 性能提升分布不均,某些分割上的改进可能会降低其他分割上的性能。平衡这种权衡对于开发通用型类人智能体至关重要。

6.1.5. 消融研究 (Ablation Study)

  • 奖励塑形 (Reward Shaping):

    • 本文对路径搜索的三种奖励类型进行了消融实验:1) 格式 + 正确性,2) 格式 + 正确性 + 到目标的距离,3) 格式 + 到目标的距离。

    • 结果: 如原文 Table 2 所示,所有变体仅在简单难度级别上有所改进,而通常会降低更难级别上的性能。

    • 结论: 这强调了路径搜索的难度以及对更先进学习算法的需求。

      以下是原文 Table 2 的结果:

      Humanoid Path Search
      Method Overall Easy Medium Hard Extreme
      GRPO on HPS
      sft (baseline) 23.44 26.00 24.56 24.77 12.50
      form+corr 22.38 33.80 17.32 21.73 7.87
      form+corr+dist 21.37 34.40 15.13 20.09 6.94
      form+dist 21.31 29.80 17.54 20.56 11.11
  • 训练 Rollout 和上下文长度 (Training Rollout and Context Length):

    • 结果: 如原文 Figure 6 所示,经过短 GRPO rollout 训练的模型通过测试时扩展(test-time scaling)可以获得令人满意的性能,并与经过更长 rollout(10 轮)训练的模型性能相当,同时收敛更快。这确保了训练效率而不牺牲最终性能。

    • 结论: 在 HVS 任务中,2 轮的短上下文长度就足够了。

      Figure 6. Left: Cumulative success rate by step before and after RL (t indicates maximum turn limit in RL training). Right: Impact of test-time context length on success rate. 图:RL 前后累积成功率及测试时上下文长度影响

  • 主动 vs. 被动 (Active vs. Passive):

    • 本文比较了主动视觉搜索(智能体通过透视视图旋转来收集信息)与被动分析(直接分析完整的全景图)。
    • 主动范式优势:
      1. 模仿高效的、类人的搜索策略。
      2. 避免全景图扭曲与 MLLM 训练先验之间的冲突。
    • 结果: 经验结果证实了主动范式的优越性。使用 Gemma-3-4B-it 进行实验,发现被动方法会降低性能(如原文 Figure 7 Left 所示)。
    • 结论: 这种对主动空间智能的强调与活跃视觉(active vision)研究的日益增长趋势一致。
  • 具身 vs. 非具身基准 (Embodied vs. Disembodied Bench):

    • 结果: 如原文 Figure 7 Right 所示,Mini-o3 [29] 和 Chain-of-Focus [67] 等 2D 方法在非具身 V* Bench 上取得了近乎饱和的性能(分别为 88.2% 和 88.0%),这表明在静态 2D 图像内的视觉搜索对 MLLM 而言已不再具有挑战性。

    • 巨大性能下降: 然而,这些模型在本文的具身 H* Bench 上的性能急剧下降,成功率分别降至 2.5% 和 11.6%。

    • 结论: 这种鲜明对比表明,从被动互联网数据中学习的能力无法直接迁移到 3D 中的具身主动交互。实际上,HVS-3B 模型在 H* Bench 上也仅取得了 38.4% 的成功率,凸显了 HVS 仍然是一个开放的研究问题。值得注意的是,本文的模型在 V* Bench 上仍保持了令人满意的 65.5% 成功率。

    • 关键启示: 本文的模型在学习 3D 具身搜索的同时,并没有过多地损害其 2D 视觉搜索能力,这表明了一条通向能够在物理和数字领域无缝操作的统一模型的有前景的道路。

      Figure 7. Left: Comparison of active and passive visual search. Right: Comparison of different visual search paradigms. 图:主动与被动视觉搜索比较,以及不同视觉搜索范式比较

6.2. 数据呈现 (表格)

本节已在 6.1.1. 探测 MLLM 的具身视觉搜索能力6.1.5. 消融研究 中完整转录了原文 Table 1 和 Table 2。

6.3. 消融实验/参数分析

本节已在 6.1.5. 消融研究 中详细分析了奖励塑形、训练 Rollout 和上下文长度、主动 vs. 被动,以及具身 vs. 非具身基准的消融实验。

7. 总结与思考

7.1. 结论总结

本文深入研究了 MLLM 驱动的类人具身视觉搜索任务,特别是在复杂的“野外”环境中。通过引入 H* Bench 这个新颖且具有挑战性的基准,论文揭示了当前最先进的 MLLM 在处理需要高级物理、空间和社会常识的具身任务时所面临的巨大挑战。

主要发现包括:

  • 新任务与新基准: 提出了类人视觉搜索(HVS)任务,并构建了基于 360° 全景图像的 H* Bench,为具身 AI 研究提供了一个可扩展、无需硬件的平台。
  • MLLM 性能局限性: 即使是顶级的专有 MLLM,在 HVS 任务上的成功率也仅为约 30%,表明它们在具身推理方面存在显著差距。
  • 后训练的有效性与局限: 监督微调(SFT)能够显著提升 MLLM 的视觉接地和探索能力,而强化学习(RL)则提供进一步但更适度的收益。然而,对于更复杂的任务,特别是路径搜索,RL 甚至可能导致性能下降,这凸显了设计稳健奖励函数的难度以及 MLLM 在更高阶常识推理方面的瓶颈。
  • 任务难度差异: 路径搜索任务由于对复杂空间常识的更高要求,其固有难度高于物体搜索。
  • 主动探索的优势: 主动视觉搜索范式优于被动分析,因为它更接近人类的搜索策略并避免了全景图像扭曲带来的问题。
  • 统一模型的潜力: 本文训练的模型在学习 3D 具身搜索能力的同时,并未牺牲其 2D 视觉搜索能力,为未来开发能够同时在物理和数字领域操作的统一智能体奠定了基础。

7.2. 局限性与未来工作

论文作者指出了以下局限性并提出了未来研究方向:

  • 高级推理瓶颈: 尽管后训练能有效提升低级感知-运动能力(如视觉接地和探索),但在需要物理、空间和社会常识等更高阶推理方面,MLLM 仍存在根本性瓶颈。这些常识通常是隐含的、情境化的和程序性的,难以通过当前方法有效灌输。
  • 奖励函数设计挑战: 强化学习在简单任务上能够提升性能,但在复杂场景中可能导致“奖励欺骗”并降低性能。这表明需要设计更鲁棒的奖励函数,使其在所有难度级别上都能与真实任务目标保持一致。
  • 更高效的视觉 Tokenizer 视觉处理效率的提升对具身智能体至关重要。
  • 行动导向的空间世界知识: 需要开发新的预训练方法,以更好地灌输行动导向的空间世界知识。
  • 平衡任务难度: 未来工作应关注如何平衡模型在不同任务难度之间的性能,避免在提升某些能力时损害其他能力。
  • 具身搜索数据规模: 扩大具身搜索数据的收集规模对于充分释放“野外”环境中的视觉空间推理能力至关重要。

7.3. 个人启发与批判

  • 个人启发:

    • 具身智能的突破口: 本文提出使用 360° 全景图像作为“轻量级模拟器”来研究具身 AI,是一个非常巧妙且实用的方法。它有效降低了研究门槛,使得更多团队能够参与到具身 AI 的研究中,而无需昂贵的 3D 模拟器或真实机器人。这对于加速具身 AI 领域的发展具有重要意义。
    • 人类感知的模仿: 模拟人类头眼协同控制的视觉搜索策略,是对生物智能的一种深刻借鉴。这提醒我们,在设计 AI 系统时,除了纯粹的数据驱动和大规模模型,从生物学和认知科学中汲取灵感,对实现更高效、更智能的行为至关重要。
    • MLLM 的真实世界挑战: 论文清晰地量化了 MLLM 在从“语言接地”到“物理接地”转变过程中的巨大鸿沟。这不仅揭示了当前 MLLM 的局限性,也为未来研究指明了方向:真正将语言理解与物理世界常识相结合,是实现通用智能的关键。
    • 任务复杂度分层: HOS 和 HPS 的不同难度设定和表现差异,提供了一个有价值的分析框架,帮助我们理解不同具身任务对 AI 模型的认知要求。路径搜索对空间和社交常识的强烈需求,是值得深入探索的复杂智能行为。
  • 批判与潜在改进:

    • 奖励函数设计的瓶颈: 强化学习在复杂任务中表现下降甚至出现“奖励欺骗”是一个经典的 RL 问题。这表明简单的奖励塑形可能不足以引导模型学习高级的具身常识。未来的工作可以探索更复杂的奖励机制,例如模仿学习与 RL 的结合,或基于人类偏好反馈的 RL(RLHF),以及利用专家示教的策略引导。

    • “轻量级模拟器”的局限: 尽管 360° 全景图大大降低了复杂度,但它仍然是 2D 图像的集合,缺乏真实的 3D 物理交互(如碰撞检测、物体重力、可操纵性)。智能体无法“真正”与环境互动,例如拿起物体或推开障碍。这限制了其在更复杂具身操作任务中的应用。未来的工作可以探索将这种轻量级方法与稀疏 3D 场景表示或神经辐射场(NeRF)等技术结合,以增加物理真实感。

    • 对社交常识的量化与学习: 论文指出 MLLM 缺乏社交空间常识是路径搜索的难点之一,但如何有效地量化、收集和教授这种常识仍是巨大挑战。这可能需要更丰富的具身交互数据,其中包含人类在复杂社交场景中的决策与推理过程。

    • 模型可解释性: 虽然引入了链式思考,但 MLLM 在复杂场景中仍然出现物理和社交常识错误。深入分析其链式思考的内在缺陷,以理解为何它们在特定情境下失效,可以帮助设计更具鲁棒性的推理机制。

    • 泛化到未见环境: 尽管 H* Bench 提供了多样化的“野外”场景,但模型能否真正泛化到全新的、分布外(out-of-distribution)的具身环境,仍然是一个悬而未决的问题。这可能需要更强的世界模型构建能力和迁移学习策略。

      总而言之,这篇论文为具身 AI 领域开辟了一条充满前景的道路,通过巧妙地结合 MLLM 和新颖的基准,揭示了当前技术的真实能力与未来发展的巨大空间。

相似论文推荐

基于向量语义检索推荐的相关论文。

暂时没有找到相似论文。