论文状态：已完成

Thinking in Space: How Multimodal Large Language Models See, Remember, and Recall Spaces

发表：2024/12/19

多模态大语言模型 (25)视觉空间智能基准 (1)空间认知推理 (1)视频问答系统 (3)认知地图生成 (1)

原文链接 PDF 下载

价格：0.100000

已有 9 人读过

本分析由 AI 生成，可能不完全准确，请以原文为准。

TL;DR 精炼摘要

本文提出基于视频的视觉-空间智能基准VSI-Bench，评估多模态大语言模型在空间感知、记忆和推理的能力。结果显示，模型具备初步空间意识和局部世界模型，但空间推理仍是瓶颈。生成认知地图显著提升空间距离理解，传统语言推理方法效果有限。

摘要

Humans possess the visual-spatial intelligence to remember spaces from sequential visual observations. However, can Multimodal Large Language Models (MLLMs) trained on million-scale video datasets also ``think in space'' from videos? We present a novel video-based visual-spatial intelligence benchmark (VSI-Bench) of over 5,000 question-answer pairs, and find that MLLMs exhibit competitive - though subhuman - visual-spatial intelligence. We probe models to express how they think in space both linguistically and visually and find that while spatial reasoning capabilities remain the primary bottleneck for MLLMs to reach higher benchmark performance, local world models and spatial awareness do emerge within these models. Notably, prevailing linguistic reasoning techniques (e.g., chain-of-thought, self-consistency, tree-of-thoughts) fail to improve performance, whereas explicitly generating cognitive maps during question-answering enhances MLLMs' spatial distance ability.

思维导图

论文精读

中文精读约 34 分钟读完 · 24,295 字

1. 论文基本信息

1.1. 标题

Thinking in Space: How Multimodal Large Language Models See, Remember, and Recall Spaces (在空间中思考：多模态大语言模型如何感知、记忆和回忆空间)

1.2. 作者

Jihan Yang, Shusheng Yang, Anjali W. Gupta, Rilyn Han, Li Fei-Fei, Saining Xie。作者来自纽约大学 (New York University)、耶鲁大学 (Yale University) 和斯坦福大学 (Stanford University)。

1.3. 发表期刊/会议

该论文目前作为预印本 (preprint) 发布在 arXiv 上。其研究内容涉及多模态大语言模型 (Multimodal Large Language Models, MLLMs) 的视觉-空间智能 (visual-spatial intelligence)，这是一个当前人工智能领域的热门研究方向，常发表在 NeurIPS、CVPR、ICLR 等顶级会议。

1.4. 发表年份

2024年12月18日

1.5. 摘要

人类具备从连续视觉观察中记忆空间的视觉-空间智能 (visual-spatial intelligence)。然而，在百万级视频数据集上训练的多模态大语言模型 (Multimodal Large Language Models, MLLMs) 是否也能从视频中“在空间中思考”？本文提出了一个新颖的基于视频的视觉-空间智能基准 (video-based visual-spatial intelligence benchmark, VSI-Bench)，包含超过5,000个问答对 (question-answer pairs)。研究发现，MLLMs 表现出有竞争力但低于人类水平的视觉-空间智能。通过语言和视觉两种方式探究模型如何在空间中思考，我们发现，虽然空间推理能力仍是 MLLMs 达到更高基准性能的主要瓶颈，但这些模型中确实出现了局部世界模型 (local world models) 和空间感知 (spatial awareness)。值得注意的是，现有的语言推理技术（如思维链 (chain-of-thought)、自洽性 (self-consistency)、思维树 (tree-of-thoughts)）未能提高性能，而问答过程中明确生成认知地图 (cognitive maps) 则增强了 MLLMs 的空间距离能力。

1.6. 原文链接

https://arxiv.org/abs/2412.14171v2

1.7. PDF 链接

https://arxiv.org/pdf/2412.14171v2.pdf

1.8. 发布状态

预印本 (arXiv preprint)

2. 整体概括

2.1. 研究背景与动机

核心问题： 多模态大语言模型 (MLLMs) 能否像人类一样，从视频中学习并“在空间中思考”(think in space)？ 重要性： 尽管大语言模型 (Large Language Models, LLMs) 在语言智能方面取得了显著进展，但视觉-空间智能 (visual-spatial intelligence) 仍未得到充分探索。这项能力对于机器人学 (robotics)、自动驾驶 (autonomous driving) 和增强现实/虚拟现实 (AR/VR) 等具身智能 (embodied agents) 领域至关重要。人类能够通过连续的视觉观察，在心理上重建空间，回忆物体的位置和大小，并进行距离估计。研究 MLLMs 在这方面的能力，有助于推动它们在现实世界中的应用。 研究空白： 现有的 MLLMs 基准测试通常侧重于内容级理解 (content-level understanding) 或2D图像理解，缺乏针对 3D 空间理解和推理的严格评估，尤其是从连续的视频流中进行。

2.2. 核心贡献/主要发现

本文的主要贡献和关键结论可以总结如下：

提出 VSI-Bench 基准： 引入了一个新颖的、基于视频的视觉-空间智能基准 (VSI-Bench)，包含超过 5,000 个问答对，来源于 288 个真实的室内场景视频，涵盖配置 (configurational)、测量估计 (measurement estimation) 和时空 (spatiotemporal) 三大类共八项任务。这个基准填补了现有评估在 3D 空间推理方面的空白。
评估 MLLMs 视觉-空间智能： 首次对多种开源和闭源 MLLMs 在 VSI-Bench 上进行全面评估，发现这些模型展现出一定的视觉-空间智能，尽管与人类性能相比仍有显著差距。
识别空间推理为主要瓶颈： 通过对模型自我解释 (self-explanations) 的分析，发现 MLLMs 在 VSI-Bench 上的主要性能瓶颈是空间推理能力 (spatial reasoning)，而非视觉感知 (visual perception)、语言智能 (linguistic intelligence) 或时间处理 (temporal processing) 能力。
发现局部世界模型： 通过探究模型生成的认知地图 (cognitive maps)，发现 MLLMs 倾向于构建强大的局部空间感知 (local spatial awareness)，但难以形成统一的全局空间模型 (unified global model)，其地图距离准确性随距离增加而显著下降。
揭示语言推理技术的局限性： 令人惊讶的是，现有的语言推理技术（如思维链 (chain-of-thought)、自洽性 (self-consistency)、思维树 (tree-of-thoughts)）在 VSI-Bench 上未能提升 MLLMs 的性能，甚至在某些任务中导致性能下降，这表明单纯提升语言能力不足以解决空间推理问题。
认知地图对距离推理的增强作用： 实验证明，在问答过程中明确生成并利用认知地图，可以显著提高 MLLMs 在空间距离推理 (spatial distance reasoning) 任务上的准确性。这提示了通过构建心理空间世界模型 (mental spatial world model) 来解决视觉-空间推理任务的潜力。

3. 预备知识与相关工作

3.1. 基础概念

视觉-空间智能 (Visual-Spatial Intelligence, VSI)：指感知和心理操作空间关系的能力。它不仅仅是视觉输入，还包括对 3D 世界的理解和交互。
- 关系推理 (Relational Reasoning)：识别物体之间通过距离和方向形成的关系的能力。例如，理解“键盘在显示器前面”或“椅子离桌子比离沙发近”。它还包括利用视觉空间常识（如已知物体大小）来估计其他物体大小的能力。
- 自我中心视角与他者中心视角转换 (Egocentric-Allocentric Transformation)：在以自我为中心的视角（例如，视频中相机看到的画面）和以环境为中心的视角（例如，房间的平面图）之间进行切换的能力。人类在观察空间时，会将自我中心的感知转化为他者中心的心理地图，从而能够从不同视点进行透视，这对于相对方向或路线规划等任务至关重要。这依赖于视觉空间工作记忆 (visuospatial working memory)，即保持和操作空间信息的能力。
多模态大语言模型 (Multimodal Large Language Models, MLLMs)：整合了语言和视觉模态的大型语言模型。它们能够理解和生成文本、图像和视频等多种类型的数据，并执行跨模态的推理任务。
认知地图 (Cognitive Maps)：心理学和神经科学中的一个概念，指生物体（包括人类）在头脑中构建的关于环境布局的内部表征。它允许个体记忆环境中的物体及其位置，并能进行导航和路径规划。
思维链 (Chain-of-Thought, CoT)：一种提示工程 (prompt engineering) 技术，通过要求大型语言模型 (LLM) 逐步展示其推理过程来提高其在复杂任务上的表现。模型会生成一系列中间推理步骤，最终得出答案，而不是直接给出答案。
自洽性 (Self-Consistency)：一种推理技术，通过从 LLM 中生成多个不同的思维链推理路径，然后选择其中最常见（或最一致）的答案作为最终输出，以提高答案的可靠性。
思维树 (Tree-of-Thoughts, ToT)：思维链的一种扩展，允许 LLM 在推理过程中探索多个不同的思考路径，形成一个树状结构。模型可以评估不同的思考节点，并选择最有希望的分支继续探索，从而解决更复杂的任务。

3.2. 前人工作

本文将自身工作置于以下两个相关研究领域中：

具备视觉-空间感知能力的 MLLMs (MLLMs with Visual-Spatial Awareness)：
- LLMs 的发展 (LLM Development)：LLMs 在语言和推理能力上取得了巨大飞跃。
- 视觉编码器 (Vision Encoders)：现代视觉编码器提供了强大的特征提取能力。
- 视觉 MLLMs 的崛起 (Rise of Visual MLLMs)：结合 LLMs 和视觉编码器，视觉 MLLMs 展现出前所未有的视觉理解能力，为构建世界模型 (world models) 和具身智能 (embodied agents) 提供了有前景的方向。
- 现有挑战 (Existing Challenges)：将 MLLMs 接地到现实世界中对模型的视觉-空间智能提出了重大挑战，促使了近期一些相关工作的出现。
- 与本文的差异化分析 (Differentiation from this work)：以往的研究主要通过 2D 图像或纯语言来理解空间信息。本文则使用真实世界视频来评估模型的视觉-空间智能，这更贴近人类对世界的理解和具身智能的应用场景。
对 MLLMs 的视频基准测试 (Benchmarking MLLMs on Video)：
- 静止图像 MLLMs 进展 (Progress in Still-Image MLLMs)：MLLMs 在静止图像的感知、推理和多学科任务中表现出色。
- 视频理解能力评估 (Evaluating Video Understanding)：越来越多的人关注评估 MLLMs 的视频理解能力。例如：
  - Video-MME：全面评估 MLLMs 在视频分析中的识别和感知等任务。
  - EgoSchema 和 OpenEQA：使用自我中心视频 (egocentric videos) 评估 MLLMs 的理解能力。
- 与本文的差异化分析 (Differentiation from this work)：尽管这些工作很重要，但大多数先前的研究侧重于内容级理解 (content-level understanding)，这主要是在 2D 图像理解基础上的时间扩展，缺乏 3D 空间考量。本文超越了这些基准，专注于空间智能 (spatial intelligence)，并要求核心空间能力，如视觉工作记忆 (visual working memory) 和隐式场景重建 (implicit scene reconstruction)。

3.3. 技术演进

该领域的技术演进可以概括为从专注于单一模态智能（如语言智能）向多模态智能（语言与视觉结合）发展，并从静态、2D 数据理解向动态、3D 空间理解演变：

语言智能的崛起 (LLMs)：最初，大型语言模型 (LLMs) 通过处理海量文本数据，在语言理解、生成和推理方面取得了突破。这奠定了通用智能的基础。
多模态融合 (MLLMs)：为了更好地理解现实世界，研究者开始将语言模型与视觉编码器结合，形成了多模态大语言模型 (MLLMs)。这些模型能够处理图像和文本的联合信息，并在图像描述、视觉问答等任务中展现出强大能力。
从图像到视频 (Video MLLMs)：随着模型能力的提升，MLLMs 的输入从静态图像扩展到动态视频。早期的视频 MLLMs 主要关注视频内容级理解，例如识别视频中的物体、动作、事件序列等，可以看作是 2D 图像理解在时间维度上的扩展。
迈向 3D 空间理解 (Towards 3D Spatial Understanding)：然而，现实世界是 3D 的。仅仅理解视频内容不足以支持具身智能在真实世界中的有效交互。这催生了对 MLLMs 3D 空间理解能力的需求，包括对物体之间距离、方向、尺寸以及空间布局的感知和推理。
本文的定位 (This Paper's Position)：本文的工作正处于这一演进的尖端。通过引入 VSI-Bench，一个基于真实世界视频的基准，专注于评估 MLLMs 的视觉-空间智能，特别是 3D 空间推理能力，如理解和记忆空间、进行自我中心与他者中心视角转换等，从而推动 MLLMs 向更全面的具身智能发展。

3.4. 差异化分析

本文的方法与相关工作的主要区别和创新点在于：

数据模态和真实性 (Data Modality and Realism)：
- 本文： 使用来自真实室内场景的真实视频数据作为输入。视频数据捕捉了连续的时间信息，更能模拟人类观察世界的方式，并支持更丰富的空间理解和推理。
- 相关工作： 许多现有工作主要依赖于 2D 图像或纯文本进行空间信息理解，或者即使使用视频，也主要集中在内容级理解 (content-level understanding) 上，而非 3D 空间推理。
评估侧重点 (Evaluation Focus)：
- 本文： 核心关注 MLLMs 的视觉-空间智能 (visual-spatial intelligence)，特别是对 3D 空间配置、测量和时空关系的理解、记忆和回忆。这要求模型具备视觉工作记忆 (visual working memory) 和隐式场景重建 (implicit scene reconstruction) 等核心空间能力。
- 相关工作： 大多数视频理解基准侧重于内容级理解（如识别、动作分类），是 2D 图像理解的时间扩展，缺乏对 3D 空间推理的深入考量。少量关注空间信息的项目可能局限于 2D 图像或语言描述中的空间关系。
基准任务设计 (Benchmark Task Design)：
- 本文： VSI-Bench 包含了八种具体的视觉-空间任务，涵盖了配置（物体计数、相对距离、相对方向、路线规划）、测量估计（物体尺寸、房间大小、绝对距离）和时空（出现顺序）。这些任务是为直接评估 MLLMs 的空间推理和记忆能力而设计的。
- 相关工作： 现有基准通常包含通用视频问答任务，这些任务可能间接涉及空间信息，但不是专门为评估复杂的 3D 空间推理而设计。
探究模型内部机制 (Probing Internal Mechanisms)：
- 本文： 不仅评估性能，还通过自我解释 (self-explanations) 和生成认知地图 (cognitive maps) 来探究 MLLMs 如何在空间中“思考”。这提供了对模型内部世界模型和空间感知能力的洞察。
- 相关工作： 较少有工作如此深入地结合语言和视觉方式来探究 MLLMs 的空间认知过程。
对语言推理技术的发现 (Findings on Linguistic Reasoning Techniques)：
- 本文： 发现主流的语言推理技术（如思维链 (CoT)）在视觉-空间任务上无效甚至有害。这挑战了 CoT 在所有复杂推理任务中普遍有效的假设，并强调了视觉-空间推理的独特性。
- 相关工作： 普遍认为 CoT 等技术能够提升 LLMs 和 MLLMs 的推理能力。
  
  简而言之，本文通过构建一个专注 3D 空间理解的真实视频基准，并结合创新的探究方法，为 MLLMs 的视觉-空间智能评估和理解开辟了新路径，并揭示了该领域特有的挑战和机遇。

4. 方法论

4.1. 方法原理

本文的核心方法论在于：首先，构建一个专门用于评估多模态大语言模型 (MLLMs) 视觉-空间智能 (visual-spatial intelligence) 的新基准数据集 VSI-Bench。其次，在该基准上对现有 MLLMs 进行全面评估，以量化它们的性能。最后，通过语言自我解释和视觉认知地图生成两种方式，深入探究 MLLMs 在空间中“思考”的内部机制和瓶颈，并尝试通过这些探究来改进模型性能。

4.2. 核心方法详解

4.2.1. VSI-Bench 基准构建

VSI-Bench 的构建流程旨在高效地生成高质量的问答对 (QA pairs)，主要包括数据收集与统一、问答对生成以及人工循环质量审核三个阶段。

4.2.1.1. 数据收集与统一

数据集来源： 收集了来自公共室内 3D 场景重建数据集的视频，包括 ScanNet [19]、 $ScanNet++$ $S c an N e t + +$ [97] 和 ARKitScenes [5]。
- ARKitScenes：150 个样本。
- $ScanNet++$ ：50 个样本。
- ScanNet：88 个样本。
- 总计 288 个真实室内场景视频。
视频处理与标准化：
- ScanNet 的单帧图像被转换为 24 FPS (Frames Per Second) 的连续视频。
- $ScanNet++$ 和 ARKitScenes 的视频被下采样到 30 FPS。
- 所有视频分辨率统一为 $640 \times 480$ 像素。
- ARKitScenes 中方向多样的视频被标准化，以保持一致的向上方向。
元信息统一： 由于不同数据集的标注结构不同，本文将它们统一为标准化的元信息格式，包括：
- 数据集名称 (dataset)
- 视频路径 (video path)
- 房间大小 (room size)：通过 Alpha shape 算法基于场景点云计算。
- 房间中心 (room center)：计算为场景点云最小边界框的几何中心。
- 物体计数 (object counts)：记录每个类别的实例数量。
- 物体边界框 (object bounding boxes)：将不同标注格式统一为 Open3D 的 OrientedBoundingBox 格式。
类别管理： 筛选了三个源数据集中的类别子集，排除了稀有类别和极小物体的类别，以减少感知挑战。同时，进行了类别重新映射 (category remapping)，确保词汇一致性和直观理解，并在人工审核过程中迭代优化。

4.2.1.2. 问答对生成

问答对主要通过元信息和问题模板自动生成，只有路线规划 (route plan) 任务是人工标注的。

问答对属性： 每个问答对包含：问题 ID (question ID)、源数据集 (source dataset)、任务类型 (task type)、视频路径 (video path)、问题 (question)、多选题选项 (multiple-choice options) 及字母答案 (letter answer)、以及口头或数值真值 (verbal or numerical ground truth)。
任务类型： VSI-Bench 包含八项任务，分为三类：
- 配置任务 (Configurational Tasks)： 物体计数 (object count)、相对距离 (relative distance)、相对方向 (relative direction)、路线规划 (route plan)。
- 测量估计任务 (Measurement Estimation Tasks)： 物体尺寸 (object size)、房间大小 (room size)、绝对距离 (absolute distance)。
- 时空任务 (Spatiotemporal Tasks)： 出现顺序 (appearance order)。
数值型答案 (NA) 和多选题型答案 (MCA)：
- MCA 任务（如相对距离、相对方向、出现顺序）通过准确率 ( $\mathcal{ACC}$ ) 评估。
- NA 任务（如物体尺寸、房间大小、绝对距离）通过平均相对准确率 (Mean Relative Accuracy, $\mathcal{MRA}$ ) 评估。
问答生成细则：
- 物体计数： 不包含数量为1的物体。
- 相对距离： 主要类别仅使用唯一实例物体；多个实例物体允许作为选项。若有多个实例，则取到主要物体最短的绝对距离。若四个选项的距离在一定阈值内（房间大于 $40 \text{ sq m}$ 为 $30 \text{ cm}$ ，否则为 $15 \text{ cm}$ ），则问题视为模糊。
- 相对方向： 为确保方向明确，若违反物体间距离的上下限或与角度边界的接近阈值，则问题视为模糊。
- 出现顺序： 首次出现定义为物体像素数量超过设定阈值的时间戳。时间戳过于接近的被视为模糊。
- 物体尺寸： 真值取唯一物体边界框的最长维度。
- 房间大小： 如前所述，通过 Alpha shape 算法计算。
- 绝对距离： 首先在两个物体的边界框内均匀采样点，距离取成对点之间的最小欧几里得距离。
- 路线规划： 人工构建路线，起始点和终点为任意两个独特的物体，路线描述为 2 到 5 个动作。动作包括“Go forward until [unique object]”和“Turn [left / right / back]”。问题中“turn”方向被替换为“[please fill in]”。

问题模板： 下表是原文中列出的问答模板。

以下是原文 Table 4 的结果：

Task	Question Template
Object Counting	How many {category}(s) are in this room?
Relative Distance	Measuring from the closest point of each object, which of these objects ({choice a}, {choice b},{choice c}, {choice d}) is the closest to the {category}?
Relative Direction	To create a comprehensive test of relative direction, three difficulty levels were created:Easy: If I am standing by the {positioning object} and facing the {orienting object}, is the{querying object} to the left or the right of the {orienting object}?•Medium: If I am standing by the {positioning object} and facing the {orienting object}, is the{querying object} to my left, right, or back? An object is to my back if I would have to turn atleast 135 degrees in order to face it.•Hard: If I am standing by the {positioning object} and facing the {orienting object}, is the{querying object} to my front-left, front-right, back-left, or back-right? Directions refer to thequadrants of a Cartesian plane (assuming I am at the origin and facing the positive y-axis).
Appearance Order	What will be the first-time appearance order of the following categories in the video: {choice a},{choice b}, {choice c}, {choice d}?
Object Size	What is the length of the longest dimension (length, width, or height) of the {category}, measuredin centimeters?
Absolute Distance	Measuring from the closest point of each object, what is the direct distance between the {object1}and the {object 2}(in meters)?
Room Size	What is the size of this room (in square meters)? If multiple rooms are shown, estimate the sizeof the combined space.
Route Plan	You are a robot beginning at {the bed facing the tv}. You want to navigate to {the toilet}. You willperform the following actions (Note: for each [please fll in], choose either 'turn back,' 'turnleft,' or 'turn right.'): {1. Go forward until the TV 2. [please fill in] 3. Go forward until theshower 4. [please fll in] 5. Go forward until the toilet.} You have reached the final destination.

4.2.1.3. 人工循环质量审核 (Human-in-the-loop Quality Review)

双阶段审核： 在数据收集和问答对生成两个阶段进行。
- 数据收集阶段： 人工筛选移除 3D 网格重建不完整或与可见视频内容不匹配的场景。手动验证元信息的正确性，尤其是物体计数。
- 问答对生成阶段： 为人工审核定制网页界面。审核人员在不知道正确答案的情况下回答基准问题，并标记模糊或错误的问答对。
迭代修正： 当发现错误时，追溯错误来源，移除问题数据样本，或调整元信息、问题模板、问答生成规则。此过程迭代多次以确保高质量。

4.2.2. 通过语言探究 MLLMs 如何在空间中思考

为了理解模型成功或失败的原因，本文通过语言方式探究 MLLMs 的内部推理过程。

4.2.2.1. 自我解释 (Self-Explanations)

方法： 选取性能最佳的 MLLM Gemini-1.5 Pro。对 163 个错误答案样本，在模型给出预测答案后，额外提示模型：“Please explain your answer step by step.” (请一步一步解释你的答案)。
目的： 提取模型生成其答案的内部推理链 (reasoning chains)。这与思维链 (CoT) 不同，CoT 是先生成推理再给出答案。

4.2.2.2. 错误分析 (Error Analysis)

方法： 对 VSI-Bench (tiny) 上 Gemini-1.5 Pro 的错误进行人工审查，分类为四种类型：
1. Visual perception error (视觉感知错误)：由未识别的物体或物体类别错误分类引起。
2. Linguistic intelligence error (语言智能错误)：由逻辑、数学推理或语言理解缺陷引起。
3. Relational reasoning error (关系推理错误)：涉及空间关系推理（距离、方向、大小）的错误。
4. Egocentric-allocentric transformation error (自我中心与他者中心视角转换错误)：由错误的他者中心空间布局或不正确的视角转换引起。
分配： 如果一个错误预测归因于多个原因，则按比例分配（每个适用类别分配 $1/n$ ）。

4.2.2.3. 思维链方法 (CoT Methods) 的局限性

本文探讨了三种主流的语言提示技术对 MLLMs 视觉-空间能力的影响：

零样本思维链 (Zero-Shot Chain-of-Thought, CoT)：
- 方法： 在每个问题后添加短语“Let's think step by step.” (让我们一步一步地思考)。
- 参数： 温度 (temperature) 设为 0，top-p 设为 1，top-k 设为 1。
- 答案提取： 模型生成推理后，通过额外的对话轮次提示模型明确提取答案，以减少模糊匹配错误。
带 CoT 的自洽性 (Self-Consistency w/ CoT)：
- 方法： 在零样本 CoT 的基础上，通过将温度设为 0.7，top-p 设为 1，top-k 设为 40 来鼓励多样化推理。
- 生成： 对每个问题执行 5 次独立运行。
- 最终答案： 采取多数共识 (majority consensus) 作为最终预测。
思维树 (Tree-of-Thoughts, ToT)：
- 方法： 将问题解决过程分为两步：计划生成 (plan generation) 和答案预测 (answer prediction)。温度、top-p 和 top-k 参数与自洽性设置一致。
- 计划生成： 模型生成 3 个不同的计划。然后，模型基于视频、问题和生成的计划，选择最有前景的计划。这个投票过程重复 3 次，选出多数选定的计划。
- 答案预测： 基于视频和选定的计划，模型预测答案。同样生成 3 个独立预测，并通过 3 次投票确定最自信的答案，多数票决定最终预测。

4.2.3. 通过视觉探究 MLLMs 如何在空间中思考

为了理解 MLLMs 如何记忆空间，本文通过视觉方式探究其内部表征。

4.2.3.1. 认知地图生成 (Cognitive Maps Generation)

方法： 提示 Gemini-1.5 Pro 根据视频输入预测物体中心位置在一个 $10 \times 10$ 的网格内。

提示词 (Prompt)：

# Cognitive Map Prompt

[Task]

This video captures an indoor scene. Your objective is to identify specific objects within the video, understand the spatial arrangement of the scene, and estimate the center point of each object, assuming the entire scene is represented by a 10x10 grid.

[Rule]

1. We provide the categories to care about in this scene: {categories_of_interest}. Focus ONLY on these categories.

2. Estimate the center location of each instance within the provided categories, assuming the entire scene is represented by a 10x10 grid.

3. If a category contains multiple instances, include all of them.

4. Each object's estimated location should accurately reflect its real position in the scene, preserving the relative spatial relationships among all objects.

   [Output]

Present the estimated center locations for each object as a list within a dictionary. STRICTLY follow this JSON format: {"category name": [(x_1, y_1), ..,.}

类别： 对于分析，categories_of_interest 包含所有潜在类别。对于基准任务（如相对距离），限制为问题中明确提及的类别。

4.2.3.2. 距离局部性计算 (Distance Locality Calculation)

定量评估： 评估认知地图中所有物体对之间的欧几里得距离。
距离定义： 如果一个类别包含多个物体，类别间距离定义为相应类别中任意两个物体之间的最短距离。
正确性标准： MLLM 预测的两个类别之间的距离，如果与真值认知地图中的距离偏差不超过一个网格单位，则认为是正确的。
分析： 将地图距离分为八个不同的区间 (bins)，计算每个区间的平均准确率，以分析距离的局部性。

4.2.3.3. 通过认知地图改进距离推理 (Better Distance Reasoning via Cognitive Maps)

方法： 提示 Gemini-1.5 Pro 首先根据给定视频和问题生成认知地图，然后使用预测的地图回答问题。
目的： 测试局部距离感知是否能转化为改进的距离回忆和推理能力。
对比： 比较不使用认知地图、使用 MLLM 生成的认知地图和使用真值认知地图时的性能。

5. 实验设置

5.1. 数据集

VSI-Bench： 本文提出的核心基准数据集。
- 来源： 整合了 ScanNet [19]、 $ScanNet++$ [97] 和 ARKitScenes [5] 这三个公共室内 3D 场景重建数据集的验证集。
- 规模： 包含 288 个真实室内场景视频，超过 5,000 个问答对。
- 特点： 视频捕捉了连续的时间信息，场景多样（住宅、办公室、实验室、工厂），覆盖多个地理区域。数据集提供了精确的物体级标注，用于问答生成。
VSI-Bench (tiny)： VSI-Bench 的一个子集。
- 规模： 400 个问题（每个任务 50 个问题）。
- 用途： 主要用于人类水平评估，并作为模型错误分析的样本集。

5.2. 评估指标

本文根据真值答案是口头 (verbal) 还是数值 (numerical)，将任务分为两类，并使用不同的评估指标：

多选题型答案 (Multiple-Choice Answer, MCA) 任务：
- 指标： 准确率 (Accuracy, $\mathcal{ACC}$ )。
- 概念定义： 准确率衡量模型预测结果与真实标签完全匹配的比例。对于多选题任务，即模型选择的选项与正确选项完全一致的次数占总问题数的百分比。这是一种直接反映模型正确分类或选择能力的基础指标。
- 数学公式： $\mathcal{ACC} = \frac{\text{Number of Correct Predictions}}{\text{Total Number of Predictions}}$
- 符号解释：
  - $\text{Number of Correct Predictions}$ ：模型给出正确答案的数量。
  - $\text{Total Number of Predictions}$ ：模型给出答案的总数量。
数值型答案 (Numerical Answer, NA) 任务：
- 指标： 平均相对准确率 (Mean Relative Accuracy, $\mathcal{MRA}$ )。
- 概念定义： 当模型预测的是连续数值时，仅仅依靠精确匹配的准确率无法体现预测与真值之间的接近程度。平均相对准确率通过计算预测值与真值之间的相对误差，并在一系列置信度阈值下进行平均，从而更鲁棒地衡量数值预测的质量。它关注的是预测值偏离真值的相对程度，而不是绝对大小。
- 数学公式： $\mathcal { M R A } = \frac { 1 } { 1 0 } \sum _ { \theta \in \mathcal { C } } \mathbb { 1 } \left( \frac { | \hat { y } - y | } { y } < 1 - \theta \right) .$
- 符号解释：
  - $\hat{y}$ ：模型的预测值 (model's prediction)。
  - $y$ ：真值 (ground truth)。
  - $\theta$ ：置信度阈值 (confidence threshold)。
  - $\mathcal{C}$ ：置信度阈值集合，通常取 $\{0.5, 0.55, \hdots, 0.95\}$ ，共 10 个值。
  - $\mathbb{1}(\cdot)$ ：指示函数 (indicator function)。如果括号内的条件为真，则函数值为 1；否则为 0。
  - $\frac{| \hat{y} - y |}{y}$ ：相对误差率 (relative error rate)。
  - $1 - \theta$ ：相对误差率的允许上限。例如，当 $\theta = 0.95$ 时， $1 - \theta = 0.05$ ，表示相对误差必须小于 5% 才算正确。

5.3. 对比基线

本文对多种模型进行了综合评估，包括专有模型 (proprietary models) 和开源模型 (open-source models)，以及人类表现和随机基线。

人类水平性能 (Human Level Performance)：
- 在 VSI-Bench (tiny) 子集上进行评估，人类评估者拥有无限时间，可以多次查看视频。
机会水平基线 (Chance Level Baselines)：
- 随机机会水平 (Chance Level (Random))： 对于 MCA 任务，随机选择答案的准确率（对于 NA 任务不适用）。
- 频率机会水平 (Chance Level (Frequency))： 总是选择每个任务中最频繁出现的答案，以识别由于答案分布长尾或多选题分布不平衡而可能导致的性能提升。
基准模型 (Benchmark Models)： 评估了 15 个支持视频的 MLLMs，涵盖了不同参数规模和训练方法。
- 专有模型 (Proprietary Models)：
  - Gemini-1.5 (Flash 和 Pro 版本) [78]
  - GPT-4o [34]
- 开源模型 (Open-source Models)：
  - InternVL2 (2B, 8B, 40B 版本) [14]
  - ViLA (1.5-8B, 1.5-40B 版本) [45]
  - LongViLA (8B 版本) [91]
  - LongVA (7B 版本) [101]
  - LLaVA-OneVision (0.5B, 7B, 72B 版本) [40]
  - LLaVA-Video (7B, 72B 版本) [104]
Socratic LLMs (苏格拉底式 LLMs)：
- 实现了一个 GPT-4o 的苏格拉底变体，使用 LLaVA-Video-72B 作为字幕生成器 (captioner)，GPT-4o 作为回答 LLM。

5.4. 泛化评估设置 (General Evaluation Setup)

评估框架： 主要使用 LMMs-Eva1 项目 [100] 进行评估。
复现性： 所有模型均采用贪婪解码 (greedy decoding) 策略，即 temperature 设为 0，top-p 和 top-k 均设为 1。
模型输入格式： [Video Frames] [Pre-prompt] [Question] [Post-prompt]。其中 Question 包含问题和所有可用选项。

提示词细节 (Prompt Details)： 以下是原文 Table 10 的结果：

	Models	QA. Type	Prompt
Pre-Prompt	-	-	These are frames of a video.
Post-Prompt	Open-source ModelsProprietary Models	NAMCANAMCA	Please answer the question using a single word or phrase.Answer with the option's letter from the given choices directly.Do not respond with anything other than a single number!Answer with the option's letter from the given choices directly.

帧采样策略 (Number of Frames Setup)：

开源模型和 GPT-4o API：从整个视频中等间隔手动采样固定数量的帧。
Gemini API：根据其指令，上传并向模型提供整个视频。

采样帧数： 以下是原文 Table 9 的结果：

Methods	# of Frames
Proprietary Models (API)
GPT-40 Gemini-1.5 Flash	16
Gemini-1.5 Pro
Open-source Models
InternVL2-2B
InternVL2-8B	32
InternVL2-40B	32
LongVILA-8B	32
VILA-1.5-8B	32
	32
VILA-1.5-40B	32
LongVA-7B	32
LLaVA-Video-7B	32
LLaVA-Video-72B	32
LLaVA-OneVision-0.5B	32
LLaVA-OneVision-7B	32
LLaVA-OneVision-72B	32

5.5. 人类评估设置 (Human Evaluation Setup)

数据集： 在 VSI-Bench (tiny) 子集上进行。
时间限制： 人类评估者被允许无限时间，尽其所能回答问题。
视频审查： 评估者同时收到问题和相应的视频，可以多次查看视频以收集全面信息。这模拟了 MLLMs 在响应生成过程中可以多次分析视频的情况，并且 MLLMs 旨在超越典型人类水平。

5.6. 输入序列和重复分析 (Input Sequencing and Repetition Analysis)

输入序列： 探讨视频和问题呈现顺序对模型性能的影响。
- Video first (视频优先)：[Video] [Question]。
- Question first (问题优先)：[Question] [Video]。
- 在 VSI-Bench (tiny) 上使用 Gemini-1.5 Pro 进行实验。
视频重复： 探讨多次呈现视频是否会提高模型性能。
- [Video] [Context] [Video] 格式，其中系统提示明确告知模型输入视频的冗余性。
- 在 VSI-Bench (tiny) 上使用 Gemini-1.5 Pro 进行实验。

6. 实验结果与分析

6.1. 核心结果分析

6.1.1. 整体模型性能

以下是原文 Table 1 的结果：

			noqt	'! s	z!s !q0	Je Sooe	Rr CT.	P	Rrd ran	Mpe
Methods	Rank Avg.			Numerical Answer			Multiple-Choice Answer
Baseline
Chance Level (Random)	-	-	-	-	-	-	25.0	36.1	28.3	25.0
Chance Level (Frequency)	-	34.0	62.1	32.0	29.9	33.1	25.1	47.9	28.4	25.2
VSI-Bench (tiny) Perf.
Human Level	-	79.2	94.3	47.0	60.4	45.9	94.7	95.8	95.8	100.0
Gemini-1.5 Flash	-	45.7	50.8	33.6	56.5	45.2	48.0	39.8	32.7	59.2
Gemini-1.5 Pro	-	48.8	49.6	28.8	58.6	49.4	46.0	48.1	42.0	68.0
Gemini-2.0 Flash	-	45.4	52.4	30.6	66.7	31.8	56.0	46.3	24.5	55.1
Proprietary Models (API)	3
GPT-40		34.0	46.2	5.3	43.8	38.2	37.0	41.3	31.5	28.5
Gemini-1.5 Flash	2 1	42.1	49.8	30.8	53.5	54.4	37.7	41.0	31.5	37.8
Gemini-1.5 Pro		45.4	56.2	30.9	64.1	43.6	51.3	46.3	36.0	34.6
Open-source Models
InternVL2-2B	11	26.5	25.7	24.0	20.0	29.2	32.1	44.1	30.4	6.3
InternVL2-8B	3	37.5	31.3	29.0	48.9	44.2	38.0	33.4	28.9	46.4
InternVL2-40B	4 12	37.0	41.3	26.2	48.2	27.5	47.6	32.7	27.8	44.7
LongVILA-8B	9	21.6	29.1	9.1	16.7	0.0	29.6	30.7	32.5	25.5
VILA-1.5-8B	7	28.9	17.4	21.8	50.3	18.8	32.1	34.8	31.0	24.8
VILA-1.5-40B LongVA-7B	8	31.2 29.2	22.4	24.8	48.7	22.7	40.5	25.7	31.5	32.9
LLaVA-Video-7B	5	35.6	38.0	16.6	38.9	22.2	33.1	43.3	25.4	15.7
	1	40.9	48.5	14.0	47.8	24.2	43.5	42.4	34.0	30.6
LLaVA-Video-72B	10		48.9	22.8	57.4	35.3	42.4	36.7	35.0	48.6
LLaVA-OneVision-0.5B	6	28.0	46.1	28.4	15.4	28.3	28.9	36.9	34.5	5.8
LLaVA-OneVision-7B		32.4	47.7	20.2	47.4	12.3	42.5	35.2	29.4	24.4
LLaVA-OneVision-72B	2	40.2	43.5	23.9	57.6	37.5	42.5	39.9	32.5	44.6

主要观察结果：

人类水平： 人类评估者在 VSI-Bench 上取得了 79% 的平均准确率，比表现最好的模型高出 33%。在配置 (configurational) 和时空 (spatiotemporal) 任务上，人类表现极高 (94% 到 100%)，表明人类对这些任务的直观性。然而，在需要精确估计绝对距离或尺寸的三个测量任务上，人类与最佳 MLLM 之间的性能差距要小得多，这可能暗示 MLLMs 在需要量化估计的任务上具有相对优势。
专有 MLLMs： 领先的专有模型 Gemini-1.5 Pro 取得了有竞争力的结果，平均准确率为 48.8%。它显著超越了机会水平基线，并在绝对距离 (absolute distance) 和房间大小 (room size) 估计等任务上接近人类水平。这在 MLLMs 仅通过 2D 数字数据（如互联网视频）训练，而人类拥有多年理解物理世界的经验的背景下，显得尤为突出。
开源 MLLMs： LLaVA-Video-72B 和 LLaVA-OneVision-72B 等顶级开源模型表现出与闭源模型高度竞争的性能，仅落后 Gemini-1.5 Pro 约 4% 到 5%。然而，大多数开源模型 (12个中的7个) 表现低于机会水平基线，这表明它们在视觉-空间智能方面存在显著局限性。

6.1.2. 错误分析：空间推理是主要瓶颈

通过对 Gemini-1.5 Pro 在 VSI-Bench (tiny) 上错误的分析，并将其归类为视觉感知错误、语言智能错误、关系推理错误和自我中心与他者中心视角转换错误，本文发现：从 Figure 7 的结果可以看出，约 71% 的错误归因于空间推理能力（关系推理错误和自我中心与他者中心视角转换错误），这表明空间推理是 MLLM 在 VSI-Bench 上性能的主要瓶颈。

该图像是一个示意图，展示了视频帧中多个家具对象（如壁炉、电视、咖啡桌）的标注框及其对应的空间位置信息，体现了论文中多模态大语言模型对空间物体识别和定位的能力。

Figure 7. Human-conducted analysis of errors by type. Over $70 \%$ of errors stem from faulty spatial reasoning capabilities.

6.1.3. 思维链 (CoT) 方法在视觉-空间任务中的局限性

从 Figure 8 的结果可以看出，三种主流的语言推理技术 (Chain-of-Thought (CoT)、Self-Consistency、Tree-of-Thoughts) 在 VSI-Bench 上平均未能提升性能，反而导致性能下降。

Zero-Shot CoT 和 ToT 使平均性能下降约 4%。
Self-Consistency 略好，但仍比无提示基线低 1.1%。
在 appearance order 和 absolute distance 任务上，性能的单方面提升可以归因于这些任务中较高的语言智能错误比例（参见图 7）。
然而，在 room size 和 object size 任务上，性能却出现了 8% 到 21% 的大幅下降。
这与 Zero-Shot CoT 在通用视频理解基准 VideoMME 上取得 1.6% 提升形成对比（参见 Table 2）。

以下是原文 Table 2 的结果：

Case Performance
Gemini-1.5 Pro (w/o CoT) 77.2
Gemini-1.5 Pro (w/ CoT) 79.8

这些结果表明，VSI-Bench 不能仅仅通过改进语言能力来解决，语言提示技术虽然在语言推理和一般视觉任务中有效，但在空间推理中却是有害的。

Figure 18. Tree-of-Thought Examples.
该图像是论文中Tree-of-Thought示例的图表，展示了多模态大语言模型在空间推理中的思考路径和决策树结构，反映模型如何逐步展开空间认知过程。

Figure 8. Relative improvements of CoT, self-consistency and Tree-of-Thought compared to the baseline. All three prevailing prompting techniques fail on average on our benchmark, and, in some cases, task performance becomes much worse after applying them. This implies that VS I-Bench cannot be solved by solely improving linguistic capabilities.

6.1.4. 认知地图：局部世界模型而非统一全局模型

通过提示 MLLM 生成认知地图并量化评估这些地图，本文发现：从 Figure 10 的结果可以看出，MLLM 在其认知地图中相邻物体（距离在 [1.0, 2.1] 区间内）的定位准确率高达 64%，表现出强大的局部空间感知能力。然而，随着物体间距离的增加，准确率显著下降，对于距离超过 8.9 个网格单位的物体，准确率降至 0%。

Figure 2. A taxonomy of visual-spatial intelligence capabilities. illuminate this direction.
该图像是论文中图2的示意图，展示了视觉空间智能能力的分类体系，包括视觉感知、空间推理、时间处理和语言智能四大类及其子能力，反映了多模态大语言模型中视觉空间智能的构成。

Figure 10. Locality of the MLLM's predicted cognitive maps. The MLLM's map-distance accuracy decreases dramatically with increasing object distance.

这表明 MLLM 在记忆空间时，是从给定视频中形成了一系列局部世界模型 (local world models)，而不是一个统一的全局模型 (unified global model)。这个发现与从离散视频帧形成全局空间表征的挑战相符。

6.1.5. 认知地图增强距离推理能力

以下是原文 Table 3 的结果：

Case Rel. Dist Acc.		Cog. Map Src.		Size	Rel. Dist Acc.
w/o Cog. map	46.0	MLLM		10 × 10	56.0
w/ Cog. map	56.0	MLLM		20 × 20	54.0
w/ Cog. map (GT)	66.0	GT		10 × 10	66.0
	GT		20 × 20	78.0

通过让 Gemini-1.5 Pro 首先生成认知地图，然后使用该地图回答问题，本文发现：

使用模型生成的认知地图可以将 MLLM 在相对距离任务上的准确率提高 10% (从 46.0% 提升到 56.0%)。
使用真值 (Ground Truth, GT) 认知地图可以带来更大的性能提升，比基线高出 20% 到 32% (从 46.0% 提升到 66.0% 或 78.0%)。
这强调了构建准确的心理地图对空间推理的重要性，并指出认知地图是解决视觉-空间推理任务的一个有价值的预文本任务 (pretext task) 或有前景的解决方案。
此外，10x10 的网格尺寸在模型生成认知地图时表现优于 20x20。

6.1.6. 更多模型上的认知地图局部性与距离推理

以下是原文 Table 5 的结果：

Distance	[1.0, 2.1] (2.1, 3.3] (3.3, 4.4] (4.4, 5.5] (5.5, 6.6] (6.6, 7.8] (7.8, 8.9] (8.9, 10.0]
Gemini-1.5 Pro	0.64	0.48	0.35	0.35	0.28	0.12	0.06	0.00
LLaVA-Video-72B	0.59	0.45	0.42	0.30	0.15	0.23	0.16	0.00
LLaVA-Video-7B	0.50	0.43	0.34	0.29	0.19	0.18	0.14	0.00

Table 5 进一步验证了认知地图的局部性发现，即 LLaVA-Video-72B 和 LLaVA-Video-7B 也表现出显著的局部准确性强于全局准确性。

以下是原文 Table 6 的结果：

Models	LLaVA-Video-72B	LLaVA-Video-7B
w/o. Cog. Map	36.0	40.0
w/. Cog. Map	42.0	32.0

Table 6 显示，LLaVA-Video-72B 通过使用认知地图在相对距离任务上取得了 8% 的性能提升 (从 36.0% 提升到 42.0%)。而 LLaVA-Video-7B 的性能反而下降，这可能归因于其模型容量有限，导致认知地图预测的次优性。

6.1.7. 盲评估与视觉信号的重要性

从 Figure 12 的结果可以看出，视觉信号对于 VSI-Bench 至关重要。

该图像是一个示意图，展示了VSI-Bench基于视频的数据集构建流程，包括数据收集、统一元信息、问答对生成及人工质量审核，最终形成经过筛选的视频问答对。

Figure 12. Performance comparisons between Vision Enabled (w/ video), Vision Disabled (w/o video) and Chance Level (Freq.). EnabledDisabled indicates the gap between Vision Enabled and Vision Disabled, and DisabledChance betokens the gap between Vision Disabled and Chance Level (Freq.). Tasks are sorted by Enable—Disable for better understanding.

Vision Enabled (开启视觉) 相较于 Vision Disabled (关闭视觉) 的持续改进，以及 Vision Disabled 相较于 Chance Level (Frequency) 的普遍下降，都表明视频对于基准测试是必不可少且有益的。
在 absolute distance estimation、route plan 和 relative direction 任务上，无论是否开启视觉，MLLMs 都难以超越机会水平，这突显了这些任务的难度。

在 object size 任务上，Vision Disabled 模型已经显著优于机会水平，这可能是由于在语言模型训练中学到的常识知识。

以下是原文 Table 13 的结果：

Methods	Avg.	nonq0	! s.	az!s 90	J wood	.	H d	Rrd nan	Moe r
Methods	Avg.	Numerical Answer						Multiple-Choice Answer
Proprietary Models (API)
GPT-40 Gemini-1.5 Flash	14.5 19.9	0.1	5.2	36.7	0.0	10.8	23.2	26.9	13.1
	32.3	25.0	30.3	52.5	0.0	0.0	21.2	29.9	0.2
Gemini-1.5 Pro		30.6	11.5	51.5	33.1	33.8	44.6	33.5	20.2
Open-source Models
InternVL2-2B	17.8 27.6	5.4	23.7	9.2	0.0	26.9	41.2	27.9	7.9
InternVL2-8B		31.9	26.8	38.3	0.7	27.1	39.2	33.0	23.6
InternVL2-40B	24.4	5.4	29.1	39.2	0.7	30.3	37.7	27.9	24.7
LongVILA-8B	20.2	47.4	12.6	8.7	0.6	24.3	27.0	27.4	13.9
VILA-1.5-8B	21.5	7.4	7.6	45.7	0.0	25.4	39.1	29.4	17.6
VILA-1.5-40B	25.5 21.9	5.3	27.6	46.5	0.7	30.2	37.1	31.5	25.0
LongVA-7B		5.1	18.1	27.4	26.1	23.4	39.8	26.9	8.7
LLaVA-Video-7B	25.2	14.8	14.6	32.5	26.1	26.8	45.0	33.0	8.5
LLaVA-Video-72B	29.1 28.6	19.0	25.4	46.3	26.1	29.0	38.8	33.0	15.5
LLaVA-OneVision-0.5B		38.4	30.1	32.0	24.3	22.0	41.8	34.5	5.4
LLaVA-OneVision-7B	25.3	13.8	8.5	45.5	26.1	28.6	41.2	27.9	11.1
LLaVA-OneVision-72B	28.9	8.2	23.8	54.1	26.1	30.4	38.1	33.0	17.1

Table 13 提供了所有 MLLMs 的完整盲评估结果。通常，同一模型家族中较大的变体在盲评估中表现更好。盲评估还揭示了 LLM 在不同任务中的偏见，例如 LongVILA-8B 在物体计数任务中取得了 47.5% 的准确率，这得益于其经常预测“2”作为答案的偏见。

6.1.8. 苏格拉底式 LLMs (Socratic LLMs) 与帧字幕

以下是原文 Table 7 的结果：

GPT-40	Standard	Socratic	Blind
Avg.	34.0	29.3	14.5

Table 7 显示，采用 LLaVA-Video-72B 作为字幕生成器，GPT-4o 作为回答 LLM 的苏格拉底变体，其性能比标准 GPT-4o 低 4.7%。这表明简单的帧字幕方法可能不足以捕获进行复杂空间推理所需的所有信息。

6.1.9. 输入序列和重复分析

以下是原文 Table 8 的结果：

Order	Avg.	# Times	Avg.
Video first	48.8	1	48.8
Question first	46.3	2	50.9
(a) Input Sequence		(b) Video Repetition Time

Table 8 的消融实验结果表明：

输入序列： 从 question-first (问题优先) 切换到 video-first (视频优先) 导致 Gemini-1.5 Pro 的整体性能下降 2.5%。这与人类在视觉问题解决中，先了解问题有助于引导注意力到相关视觉线索的现象相反。
视频重复： 通过输入两次相同的视频（[Video] [Context] [Video] 格式），Gemini-1.5 Pro 获得了 2.1% 的显著性能提升。这令人惊讶，因为自回归 MLLMs 理论上应该能够在答案生成过程中多次回顾视频，即使视频只呈现一次。这暗示了即使是强大的 MLLM，其视频问答的推理过程也可能并非最优。

6.2. 数据呈现 (表格)

6.2.1. VSI-Bench (tiny) 评估结果

以下是原文 Table 12 的结果：

		non qt	Numerical Answer	az!s q0	Je Sood	! E.	H	Rod nan	Mape
Methods Proprietary Models (API)	Avg.					Multiple-Choice Answer
GPT-40	35.6			47.2	40.4
Gemini-1.5 Flash	45.7	36.2 50.8	4.6 33.6	56.5	45.2	40.0 48.0	46.2 39.8	32.0 32.7	38.0 59.2
Gemini-1.5 Pro	48.8	49.6		58.6	49.4	46.0	48.1	42.0
Gemini-2.0 Flash	45.4	52.4	28.8 30.6	66.7	31.8	56.0	46.3	24.5	68.0 55.1
Open-source Models
InternVL2-2B	25.5	30.6	20.4	26.0	29.6	28.0	39.2	28.0	2.0
InternVL2-8B	32.9	26.4	25.4	43.8	41.6	30.0	32.2	20.0	44.0
InternVL2-40B	37.6	40.8	23.8	48.0	26.0	46.0	30.1	42.0	44.0
LongVILA-8B	19.1	23.4	10.8	11.4	0.0	20.0	33.1	28.0	26.0
VILA-1.5-8B	31.4	12.2	23.4	51.4	18.6	36.0	41.5	42.0	26.0
VILA-1.5-40B	32.3	14.6	21.0	48.0	20.6	42.0	22.0	40.0	50.0
LongVA-7B	31.8	41.2	17.4	39.6	25.4	30.0	52.8	34.0	14.0
LLaVA-Video-7B	35.7	49.0	12.8	48.6	21.4	40.0	43.5	34.0	36.0
LLaVA-Video-72B	39.3	41.4	26.6	55.6	31.6	36.0	25.6	42.0	56.0
LLaVA-OneVision-0.5B	27.7	44.0	23.0	18.8	28.4	30.0	33.4	36.0	8.0
LLaVA-OneVision-7B	33.8	48.2	22.0	44.4	14.0	44.0	31.9	34.0	32.0
LLaVA-OneVision-72B	41.6	38.0	31.6	54.4	35.2	44.0	39.7	32.0	58.0

Table 12 提供了 VSI-Bench (tiny) 上所有模型的完整评估结果。模型排名和平均准确率与 Table 1 中的整体结果保持一致，这表明基于 VSI-Bench (tiny) 进行的人类评估和错误分析结果是可靠的。

6.2.2. 视觉开启与视觉禁用模型性能对比

以下是原文 Table 14 的结果：

Methods	Avg.	on q0	A	s q0	Jo Sooe	R S.	HPd	Rrd nan	Mee
Methods	Avg.	Numerical Answer				Multiple-Choice Answer			Mee
Proprietary Models (API)
GPT-40	19.5	46.1	0.1	7.1	38.2	26.2	18.0	4.6	15.4
Gemini-1.5 Flash	22.2	24.9	0.5	1.0	54.4	37.7	19.9	1.5	37.7
Gemini-1.5 Pro	13.0	25.5	19.5	12.6	10.6	17.5	1.7	2.5	14.4
Open-source Models
InternVL2-2B	8.7	20.3	0.3	10.8	29.2	5.2	2.9	2.5	-1.6
InternVL2-8B	9.9	-0.6	2.2	10.6	43.5	10.9	-5.8	-4.1	22.8
InternVL2-40B	12.6	35.9	-2.9	9.0	26.8	17.3	-5.0	9.9	20.0
LongVILA-8B	1.4	-18.2	-3.5	7.9	-0.6	5.3	3.7	5.1	11.5
VILA-1.5-8B	7.3	10.0	14.2	4.6	18.8	6.7	-4.4	1.5	7.2
VILA-1.5-40B	5.7	17.1	-2.8	2.2	22.0	10.4	-11.4	0.0	7.9
LongVA-7B	7.2	32.9	-1.5	11.5	-3.9	9.7	3.5	-1.5	7.1
LLaVA-Video-7B	10.5	33.8	-0.6	15.2	-1.9	16.7	-2.7	1.0	22.1
LLaVA-Video-72B	11.7 -0.5	29.9	-2.6	11.1	9.2	13.3	-2.0	2.0	33.0
LLaVA-OneVision-0.5B		7.8	-1.7	-16.6	4.0	6.9	-5.0	0.0	0.3
LLaVA-OneVision-7B	7.0	33.9	11.7	1.9	-13.9	13.9	-6.0	1.5	13.3
LLaVA-OneVision-72B	11.4	35.4	0.1	3.5	11.4	12.1	1.8	-0.5	27.4

Table 14 呈现了 MLLMs 通过使用视觉信号回答 VSI-Bench 问题的性能提升。几乎所有 MLLMs 都从视觉信号中获得了改进，尤其是在 object count (物体计数)、room size (房间大小)、relative distance (相对距离) 和 appearance order (出现顺序) 等任务中表现出显著提升。这再次强调了视觉信息对于这些空间和时空推理任务的重要性。

6.3. 消融实验/参数分析

6.3.1. 采样帧数对性能的影响

从 Figure 11 的结果可以看出，不同数量的采样帧对模型性能的影响甚微。

该图像是一个多模态大语言模型视频空间视觉智能能力测试示意图，展示了模型在不同空间感知任务中的问答示例及三维空间摄像轨迹。图中通过视频帧和3D布局视觉化说明了对象计数、相对距离、外观顺序等多维空间推理问题。

Figure 11. Analysis of different # sampled frames. 图 11 展示了 InternVL2 系列、LLaVA-Video-7B 和 GPT-4o 在不同采样帧数下的性能。结果表明，采样帧数的变化对 MLLMs 的性能影响不大，这表明帧采样策略不是 MLLMs 在 VSI-Bench 上性能的主要瓶颈。

7. 总结与思考

7.1. 结论总结

本文通过引入 VSI-Bench 这一新颖的视频基准，对多模态大语言模型 (MLLMs) 的视觉-空间智能 (visual-spatial intelligence) 进行了深入评估和剖析。研究发现，尽管 MLLMs 展现出有竞争力的性能，但与人类相比仍有显著差距。核心分析揭示，空间推理能力是 MLLMs 性能的主要瓶颈，而模型的自我解释也印证了这一点。有趣的是，主流的语言推理技术（如思维链 (CoT)、自洽性 (self-consistency)、思维树 (tree-of-thoughts)）并未能提升模型在视觉-空间任务上的表现，反而有时有害。然而，通过明确生成认知地图 (cognitive maps)，能够有效增强 MLLMs 的空间距离推理能力，同时也揭示了 MLLMs 倾向于构建局部而非统一的全局世界模型。这些发现为未来 MLLMs 在具身智能领域的优化和发展指明了方向。

7.2. 局限性与未来工作

作者指出了以下局限性和未来研究方向：

任务特异性微调 (Task-specific fine-tuning)：针对视觉-空间任务进行专门的微调，以提升模型性能。
自监督学习目标 (Self-supervised learning objectives)：开发新的自监督学习目标，以更好地训练模型的空间推理能力。
视觉-空间定制提示技术 (Visuospatial-tailored prompting techniques)：设计专门针对视觉-空间任务的提示工程方法，可能与当前基于语言的提示技术有所不同。

7.3. 个人启发与批判

7.3.1. 个人启发

明确研究方向的价值： VSI-Bench 的提出非常及时且重要，它填补了 MLLMs 在 3D 空间理解评估方面的空白。这表明在当前 LLM 和 MLLM 蓬勃发展的背景下，明确定义和量化特定智能（如视觉-空间智能）的基准是推动领域发展的关键。
“思考方式”的探究：通过自我解释和认知地图来探究模型的内部“思考方式”是一个非常巧妙和有洞察力的方法。它不仅仅关注模型“能做什么”，更关注“如何做到”，这对于理解模型的潜力和局限性至关重要。
语言智能与空间智能的差异： 思维链等语言推理技术在视觉-空间任务中的失效，有力地说明了语言智能和空间智能是两种不同且可能相对独立的智能形式。不能简单地认为提升语言能力就能解决所有复杂推理问题。这促使我们重新思考 MLLMs 的架构和训练目标，是否需要引入更专业的空间处理模块或训练范式。
局部世界模型的启示： MLLMs 形成局部世界模型的发现，对于具身智能的路径规划和环境交互具有重要意义。如何在局部模型的基础上构建出更一致、更鲁棒的全局空间表征，是未来值得探索的方向。
认知地图的潜力： 认知地图在提高空间距离推理能力方面的有效性，提供了一个具体的、可操作的改进方向。这提示我们，显式地让模型生成和利用内部表征（如认知地图）可能是一种强大的策略，可以增强其在特定模态推理任务中的性能。

7.3.2. 批判

“低于人类水平”的差距巨大：尽管 MLLMs 表现出竞争力，但与人类 79% 的平均准确率相比，最佳模型 48.8% 的性能差距仍高达 30% 以上。这表明 MLLMs 在实现真正的视觉-空间智能方面仍有很长的路要走。这种差距可能不仅仅是模型大小或数据量的问题，更深层次地涉及到对 3D 物理世界的根本理解。
认知地图的粗糙度： 论文中使用的认知地图是 10x10 的网格，这相对粗糙。虽然它能够揭示局部性问题，但在精细的空间推理任务中，这种分辨率可能不足以支撑复杂的交互。未来需要探索更高分辨率、更丰富语义的认知地图表征。
场景泛化性： VSI-Bench 主要基于室内场景视频构建。虽然室内场景是具身智能的重要应用领域，但户外、动态或更复杂的非结构化环境中的视觉-空间智能可能面临更多挑战。模型的泛化能力仍需在更多样化的数据上进行验证。
侧重回顾性理解： 本文主要评估模型从视频中回顾性地理解和记忆空间的能力。然而，对于具身智能而言，更重要的是前瞻性的、交互式的空间推理，例如在未知环境中进行探索、导航和操作。未来的基准可能需要更多地融入主动决策和交互的元素。
对“视觉-空间智能”的进一步探讨： 尽管论文提供了视觉-空间智能的分类，但人类的视觉-空间智能还包括心理旋转、物体操作、空间想象等更深层次的能力。目前基准测试的任务，例如“路线规划”只是其中的一个方面，未完全涵盖人类视觉-空间智能的广度。对这些更复杂认知能力的评估，将是未来研究的挑战。

相似论文推荐

基于向量语义检索推荐的相关论文。

暂时没有找到相似论文。

Case	Performance
Gemini-1.5 Pro (w/o CoT)	77.2
Gemini-1.5 Pro (w/ CoT)	79.8