Visual Thoughts: A Unified Perspective of Understanding Multimodal Chain-of-Thought
TL;DR 精炼摘要
本文探讨了多模态思维链(MCoT)在大型视觉-语言模型(LVLMs)中的机制,发现视觉思想在各MCoT格式中增强了性能和可解释性。定义了四种视觉思想表达形式,分析显示不同形式的清晰度与简洁性导致MCoT性能的显著差异。这为MCoT未来研究提供了新思路。
摘要
Large Vision-Language Models (LVLMs) have achieved significant success in multimodal tasks, with multimodal chain-of-thought (MCoT) further enhancing performance and interpretability. Recent MCoT methods fall into two categories: (i) Textual-MCoT (T-MCoT), which takes multimodal input and produces textual output; and (ii) Interleaved-MCoT (I-MCoT), which generates interleaved image-text outputs. Despite advances in both approaches, the mechanisms driving these improvements are not fully understood. To fill this gap, we first reveal that MCoT boosts LVLMs by incorporating visual thoughts, which convey image information to the reasoning process regardless of the MCoT format, depending only on clarity and conciseness of expression. Furthermore, to explore visual thoughts systematically, we define four distinct forms of visual thought expressions and analyze them comprehensively. Our findings demonstrate that these forms differ in clarity and conciseness, yielding varying levels of MCoT improvement. Additionally, we explore the internal nature of visual thoughts, finding that visual thoughts serve as intermediaries between the input image and reasoning to deeper transformer layers, enabling more advanced visual information transmission. We hope that the visual thoughts can inspire further breakthroughs for future MCoT research.
思维导图
论文精读
中文精读
1. 论文基本信息
1.1. 标题
视觉思想:理解多模态思维链的统一视角 (Visual Thoughts: A Unified Perspective of Understanding Multimodal Chain-of-Thought)
1.2. 作者
Zihui Cheng, Qiguang Chen, Xiao Xu, Jiaqi Wang, Weiyun Wang, Hao Fei, Yidong Wang, Alex Jinpeng Wang, Zhi Chen, Wanxiang Che, Libo Qin 多位作者来自不同机构,包括:中南大学计算机科学与工程学院 (School of Computer Science and Engineering, Central South University),哈尔滨工业大学社会计算与智能机器人研究中心 (Resr Centr r SoclComputig nd Inteciv Roboti, Harb Instie Tecnl),贵州大学文本智能计算教育部工程研究中心 (Tex Cpti noiv ntelige Miny utn ar n Guizhou University),香港中文大学 (Chinese University of Hong Kong),上海人工智能实验室 (Shanghai AI Laboratory),新加坡国立大学 (National University of Singapore),北京大学 (Peking University),字节跳动种子 (中国) (ByteDance Seed (China))。
1.3. 发表期刊/会议
该论文尚未正式发表,目前是预印本 (preprint),已提交至 arXiv。根据提供的 Published at (UTC) 信息,发布时间为 2025-05-21T13:29:58.000Z。NeurIPS 论文清单显示它正在接受审阅。
1.4. 发表年份
2025年。
1.5. 摘要
大型视觉-语言模型 (LVLMs) 在多模态任务中取得了显著成功,而多模态思维链 (MCoT) 进一步提升了其性能和可解释性。最近的 MCoT 方法分为两类:(i) 文本-MCoT (T-MCoT),它接收多模态输入并产生文本输出;(ii) 交错-MCoT (I-MCoT),它生成交错的图像-文本输出。尽管这两种方法都有进展,但驱动这些改进的机制尚未被完全理解。为了填补这一空白,本文首先揭示 MCoT 通过整合视觉思想 (visual thoughts) 来增强 LVLMs,这些视觉思想无论 MCoT 格式如何,都将图像信息传递给推理过程,其效果仅取决于表达的清晰度和简洁性。此外,为了系统地探索视觉思想,本文定义了四种不同形式的视觉思想表达,并对其进行了全面分析。研究结果表明,这些形式在清晰度和简洁性上有所不同,从而产生了不同程度的 MCoT 改进。此外,本文还探讨了视觉思想的内在性质,发现视觉思想充当输入图像和深度 Transformer 层推理之间的中间体,从而实现了更高级的视觉信息传输。本文希望视觉思想能为未来的 MCoT 研究带来进一步的突破。
1.6. 原文链接
原文链接: https://arxiv.org/abs/2505.15510 PDF 链接: https://arxiv.org/pdf/2505.15510v2.pdf
2. 整体概括
2.1. 研究背景与动机
近年来,大型视觉-语言模型 (LVLMs) 在处理各种多模态任务方面取得了显著进展。受思维链 (Chain-of-Thought, CoT) 推理在纯语言模型中成功启发,研究人员将其扩展到了多模态领域,提出了多模态思维链 (Multimodal Chain-of-Thought, MCoT)。MCoT 允许 LVLMs 在多模态背景下逐步生成推理路径,从而增强了它们的推理能力,促进了更复杂的与多模态输入的交互。
当前 MCoT 技术主要分为两大范式:
-
文本-MCoT (Textual-MCoT, T-MCoT):这种方法遵循传统的 CoT 框架,从多模态输入生成纯文本的推理过程(即“理由”或“中间步骤”)。例如,一些方法要求 LVLMs 在给出答案前解释和描述视觉元素,而另一些则通过整合图像中提取的 JSON 格式场景图来增强推理。
-
交错-MCoT (Interleaved-MCoT, I-MCoT):这是一种较新的方法,它生成交错的图像-文本推理过程。这种方法可以利用外部工具(如代码解释器或专门的视觉模型)来修改图像进行推理,或者使用图像生成模型创建新图像以增强推理过程。
然而,这两大范式之间的争论尚未解决。一些研究者认为 I-MCoT 的交错式推理更能反映人类认知多模态输入的方式,可能比 T-MCoT 更有优势;而另一些研究则表明在数学背景下,纯文本推理可能表现更好。这种分歧凸显了对不同 MCoT 方法背后机制理解的根本性缺失。此外,现有文献缺乏一个统一的框架来解释 MCoT 的有效性、识别最佳 MCoT 范式,或在不同任务中得出可推广的见解。
基于此,本文旨在解决的核心问题是:是否存在一个统一的解释,说明为什么不同的 MCoT 范式以独特的方式增强了 LVLMs? 解决这个问题的动机是为了更好地理解 MCoT 的工作原理,为未来的研究提供理论基础和实用指导。
2.2. 核心贡献/主要发现
本文通过引入和系统分析“视觉思想”这一概念,为理解多模态思维链 (MCoT) 的有效性提供了一个统一的视角。其主要贡献和发现包括:
-
提出“视觉思想”概念并揭示其核心作用 (Visual Thoughts as a Unified Mechanism):
- 本文首次提出并深入探讨了“视觉思想”这一概念,将其定义为中间的、逻辑驱动的跨模态表示,它们促进和加速多模态推理。
- 视觉思想通过缓存提炼出的视觉信息,弥合了原始像素和语言推理之间的鸿沟,实现了快速、上下文感知的访问,而无需重新处理整个图像。
- 核心发现: MCoT 统一地通过整合视觉思想来提升 LVLMs 的性能,这些视觉思想无论 MCoT 格式如何,都将图像信息传递给推理过程,其效果仅取决于表达的清晰度和简洁性。
-
系统分类并分析四种视觉思想表达形式 (Categorization and Analysis of Four Visual Thought Forms):
- 本文定义并全面分析了四种主要的视觉思想表达策略:自然语言 (N-LANG)、结构化语言 (S-LANG)、编辑图像 (E-IMG) 和生成图像 (G-IMG)。
- 核心发现: 这些形式在清晰度和简洁性上有所不同,从而导致 MCoT 改进程度各异。例如,T-MCoT 在粗粒度感知任务中表现更优,而 I-MCoT 在需要细粒度视觉操作的任务中更高效。
-
深入探索视觉思想的内部性质和机制 (Internal Nature and Mechanisms of Visual Thoughts):
-
通过分析 LVLMs 内部的注意力机制和信息流,本文发现视觉思想充当了输入图像与深度 Transformer 层推理之间的关键中间体。
-
核心发现: 视觉思想不仅携带视觉信息,而且能够将视觉信息更深入地传输到模型深层,从而支持更复杂的认知处理和推理。原始图像的注意力在深层模型中迅速衰减,而视觉思想的注意力则能持续保持。
-
核心发现: 视觉思想本质上是一个提炼后的视觉信息缓存,而非原始图像的忠实复制品,其有效性与视觉逻辑表达的清晰度和简洁度呈强正相关。外部工具引入的噪声会负面影响推理性能。
这些发现为 MCoT 研究提供了新的理论基础和实践指导,鼓励研究人员根据任务特点选择或设计更有效的视觉思想表达形式。
-
3. 预备知识与相关工作
3.1. 基础概念
3.1.1. 大型视觉-语言模型 (Large Vision-Language Models, LVLMs)
大型视觉-语言模型 (Large Vision-Language Models, LVLMs) 是一类能够处理和理解多种模态数据(通常是图像和文本)的深度学习模型。它们结合了大型语言模型 (LLMs) 的强大文本理解和生成能力,以及计算机视觉模型的图像处理能力。LVLMs 可以执行如图像问答 (Visual Question Answering, VQA)、图像描述 (Image Captioning)、视觉推理 (Visual Reasoning) 等任务,通过多模态数据的对齐和融合,实现对世界的更全面认知。
3.1.2. 思维链 (Chain-of-Thought, CoT)
思维链 (Chain-of-Thought, CoT) 是一种在大型语言模型 (LLMs) 中使用的提示工程技术。它通过引导模型生成一系列中间推理步骤(即“思维链”或“理由”)来解决复杂问题,而不是直接给出最终答案。这些中间步骤使模型的推理过程更具可解释性,并能显著提升在复杂推理任务(如数学、常识推理)上的性能。例如,当被问及一个数学问题时,CoT 提示会要求模型“一步一步地思考”,从而揭示其解题过程。
3.1.3. 多模态思维链 (Multimodal Chain-of-Thought, MCoT)
多模态思维链 (Multimodal Chain-of-Thought, MCoT) 是 CoT 概念在多模态领域的扩展。它允许 LVLMs 在处理图像、文本等多种输入时,生成包含多模态信息的逐步推理过程。这个过程可以是纯文本的,也可以是文本和图像交错的。MCoT 的目标是增强 LVLMs 的推理能力和可解释性,使其能够更好地理解和交互复杂的真实世界场景。
3.1.4. 注意力机制 (Attention Mechanism)
注意力机制 (Attention Mechanism) 是一种深度学习技术,它允许模型在处理序列数据(如文本、图像特征)时,动态地“聚焦”于输入中最相关的部分。在 Transformer 架构中,自注意力 (Self-Attention) 机制尤其关键,它使得模型能够计算输入序列中每个元素与其他所有元素之间的关联强度,从而捕获长距离依赖关系。注意力权重表示了输入不同部分对当前输出的贡献程度。 自注意力 (Self-Attention) 的计算公式如下: 其中:
- (Query) 是查询矩阵,通常由输入序列经过线性变换得到。
- (Key) 是键矩阵,与 类似,也是由输入序列经过线性变换得到。
- (Value) 是值矩阵,同样由输入序列经过线性变换得到。
- 计算 中每个查询向量与 中所有键向量的点积,表示查询与键之间的相似度。
- 是缩放因子,其中 是键向量的维度。用于防止点积过大,导致 softmax 函数梯度过小。
- 函数将相似度分数转换为概率分布,确保所有注意力权重之和为 1。
- 矩阵与这些注意力权重相乘,得到加权后的值向量,即注意力机制的输出。这个输出是输入序列中相关信息的加权和。
3.1.5. 信息流分析 (Information Flow Analysis)
在深度学习模型中,信息流分析 (Information Flow Analysis) 旨在理解数据是如何在模型的不同层和组件之间传递和处理的。这通常通过分析梯度、注意力权重或通过扰动模型输入或内部状态来观察输出变化来实现。了解信息流有助于揭示模型的决策机制和其对不同输入特征的依赖性。
3.2. 前人工作
论文提及的 MCoT 相关工作主要集中在两种范式:
-
文本-MCoT (Textual-MCoT, T-MCoT):
- 传统 CoT 框架的应用:这类方法从多模态输入生成纯文本的推理过程。例如,一些工作要求 LVLMs 在给出答案前描述视觉元素或整合 JSON 格式的场景图 [55, 51, 30, 31]。
- 增强交互与推理:有研究通过步骤解耦来改善多模态交互 [55, 49],或引入多跳推理来捕捉更复杂的关系 [46, 4]。
- 扩展应用:T-MCoT 也被扩展到常识推理任务的评估中 [6]。
-
交错-MCoT (Interleaved-MCoT, I-MCoT):
- 图像-文本交错输出:与 T-MCoT 的纯文本输出不同,I-MCoT 旨在生成图像和文本交错的推理过程 [27, 28]。
- 利用外部工具:这类方法常利用外部视觉专家模型来标注输入图像 [15, 56, 37]。例如,
Visual Sketchpad[15] 和03-mini[33] 都是 I-MCoT 的代表。 - 图像生成辅助推理:一些方法使用图像生成模型来创建新图像,以增强推理过程 [27, 19]。
- 新型基准:为了评估 LVLMs 的 I-MCoT 推理能力,还提出了需要多模态输出的基准 [7]。
- 无需外部工具的 I-MCoT:也有研究探索直接从原始输入中提取图像块 [11],或通过微调 LVLMs 实现多模态生成能力来完成 I-MCoT 推理 [19]。
3.3. 技术演进
MCoT 的发展历程大致可以看作是 CoT 从纯文本领域向多模态领域的自然扩展和深化。最初的 CoT 主要关注如何让 LLMs 通过中间步骤解决复杂的语言任务。随着 LVLMs 的兴起,研究者们发现将 CoT 应用于多模态场景可以进一步提升模型的性能和可解释性。
早期,T-MCoT 范式直接将 CoT 的文本输出思想移植到多模态输入上,即从图像和文本输入中生成纯文本的推理过程。这种方式相对简单,但可能限制了视觉信息的充分利用和表达。
为了克服 T-MCoT 的局限性,I-MCoT 范式应运而生。I-MCoT 认识到视觉信息本身也可以是推理过程的一部分,因此允许推理步骤中包含图像(如编辑后的图像、生成的图像)。这使得推理过程更接近人类对多模态信息的认知和处理方式。I-MCoT 的实现通常依赖于外部视觉工具或图像生成模型,这增加了系统的复杂性。
本文的工作处于 MCoT 技术演进的关键节点,它不再仅仅关注 MCoT 的形式(T-MCoT vs. I-MCoT),而是尝试从更底层的机制——“视觉思想”——来统一解释 MCoT 的有效性,并分析不同形式的视觉思想如何影响推理。这标志着 MCoT 研究从“如何做”向“为什么有效”的深入探索。
3.4. 差异化分析
本文的方法与相关工作的主要区别和创新点在于:
-
统一视角:大多数现有工作关注于开发和优化特定的 T-MCoT 或 I-MCoT 方法,而本文首次提出了“视觉思想”这一统一概念,旨在从机制层面解释 MCoT 的有效性,无论其具体形式如何。这提供了一个更高层次的理论框架。
-
机制解释:本文不仅展示 MCoT 有效,更深入探讨了其为什么有效。通过将视觉思想类比为“视觉缓存”,并分析其在模型内部的注意力分布和信息流,本文揭示了视觉信息如何被提炼、存储和传递到模型深层,从而促进推理。
-
系统化分类与评估:本文系统地定义并评估了四种不同形式的视觉思想(N-LANG, S-LANG, E-IMG, G-IMG),详细分析了它们在清晰度、简洁性以及适用场景上的差异。这为 MCoT 的设计和应用提供了具体的指导。
-
强调视觉信息的传递效率:本文发现视觉思想的有效性与视觉逻辑表达的清晰度和简洁度密切相关,并且能够比原始图像更有效地将视觉信息传输到深度 Transformer 层。这是对 MCoT 改进机制的一个重要发现。
总而言之,本文并非提出一个新的 MCoT 模型,而是对现有 MCoT 方法背后的核心机制进行了理论化、统一化和深入的实证分析,填补了该领域的一个重要空白。
4. 方法论
本文的核心是引入并系统分析视觉思想 (Visual Thoughts) 这一概念,以统一解释多模态思维链 (MCoT) 的有效性。视觉思想被视为中间的、逻辑驱动的跨模态表示,它们能够有效地将图像信息传递给推理过程,并像计算机系统的缓存一样,提高推理效率。
4.1. 方法原理
本文认为 MCoT 的主要益处在于整合了视觉思想。这些视觉思想是中间推理步骤,显式地传达视觉信息,使 LVLMs 能够进行更深层次的视觉推理。
视觉思想的直觉 (Intuition of Visual Thoughts): 如图(原文 Figure 2)所示,LVLMs 将原始图像视为外部存储,模型在每个推理步骤都需要迭代地重新处理整个视觉输入,这限制了推理的深度。相反,视觉思想只提取指令相关的区域(例如,左边的苹果和右边的苹果),并将其作为缓存存储。随后的推理步骤查询这个缓存,而不是完整的图像,从而减少了计算开销,并实现了更深层次、多步骤的 MCoT。

该图像是示意图,比较了没有视觉思维和具有视觉思维的多模态推理过程。左侧展示了没有视觉思维时的信息流动,右侧则展示了通过视觉思维作为内部缓存来处理图像的信息流动,增强推理能力。
Figure 2: Comparison of multimodal reasoning from a computer-system perspective: (a) visual thoughts as an internal visual cache versus (b) direct access to raw images as external storage.
左侧的图 (a) 展示了带有视觉思想的多模态推理过程。原始图像经过处理,提取出关键的视觉思想 (Visual Thoughts, VT),这些 VT 充当内部视觉缓存 (internal visual cache)。随后的推理直接从这个缓存中快速访问提炼出的视觉信息。右侧的图 (b) 则展示了没有视觉思想的情况,模型需要直接从原始图像(外部存储)中检索信息,这通常效率较低且耗费资源。
4.2. 核心方法详解 (逐层深入)
4.2.1. 视觉思想的定义 (Definition of Visual Thoughts)
形式上,一个视觉思想 是一个推理步骤,它从视觉输入 和所有先前的步骤 中传递信息。这些步骤由任务问题 和请求 MCoT 表达形式 的显式指令 驱动。然后,模型生成下一个推理步骤 如下:
其中:
-
表示第 个推理步骤。
-
是所有先前的推理步骤集合 。
-
是视觉输入。
-
是任务问题。
-
是请求 MCoT 表达形式 的显式指令。
-
表示根据指令 从视觉输入 和先前的推理步骤 中推导出的视觉思想。
-
表示后续的衍生推理步骤 (derivative reasoning steps) [58],这些步骤从 中获取视觉信息。
-
表示生成视觉思想的概率。
-
表示生成衍生推理步骤的概率。
-
表示推理步骤 伴随着从 到 的推理信息流。
这个公式描述了一个条件选择过程:如果生成视觉思想的概率 大于或等于某个阈值 ,则模型生成一个视觉思想 ;否则,模型生成一个衍生推理步骤 ,该步骤基于已有的视觉思想进行推理。
4.2.2. 视觉思想的类别 (Categories of Visual Thoughts)
视觉思想可以根据 MCoT 变体以不同的模态表达:
- 在生成文本推理过程的 T-MCoT 中,视觉思想表现为文本表达 (Textual Expressions)。
- 在生成跨模态推理过程的 I-MCoT 中,视觉思想表现为视觉表达 (Visual Expressions)。
4.2.2.1. 文本多模态思维链 (Textual Multimodal Chain-of-Thought, T-MCoT)
在 T-MCoT 中,模型生成作为文本词元的视觉思想。如图(原文 Figure 1 (a))所示,传统的 T-MCoT 从多模态输入生成纯文本输出,将视觉思想表示为 。

该图像是一个示意图,展示了文本多模态链思维(T-MCoT)与交错多模态链思维(I-MCoT)之间的比较。T-MCoT只通过文本提供推理,而I-MCoT则结合了图像和文本的推理,展示视觉思维的产生过程。通过函数表达,图示说明了如何推导出断点的数量,每种方法得出结果均为两个断点。
Figure 1: Comparison between (a) Textual MCoT (T-MCoT) with purely textual rationale, and (b) Interleaved MCoT (I-MCoT) with the image-text interleaved rationale. VT: visual thoughts.
左侧的图 (a) 展示了文本 MCoT (T-MCoT),它从图像和文本输入生成纯文本理由。整个推理过程由一系列文本步骤组成,例如识别断点、列出函数、计算断点,最终得出答案。VT 标记在文本推理步骤旁,表示这些是视觉思想的文本形式。右侧的图 (b) 展示了交错 MCoT (I-MCoT),它生成图像和文本交错的理由。推理步骤中不仅有文本描述,还可能包含修改后的图像,例如通过工具标记出的断点位置。
形式上,视觉思想可以表达为:
其中 表示从文本词元生成理由 的概率。
图(原文 Figure 3 (a))展示了文本表达的视觉思想示例。

该图像是图示图,展示了视觉思想在文本表达(a)和视觉表达(b)中的应用。其中,文本表达包含N-LANG和S-LANG,而视觉表达包括E-IMG和G-IMG,信息流动的不同形式体现了视觉思想的多样性。
Figure 3: Visual Thoughts in textual expression (a) and visual expression (b). Specifically, the textual expression includes N-LANG and S-LANG, while the visual expression includes E-IMG and G-IMG.
图 (a) 展示了两种文本表达的视觉思想:自然语言 (N-LANG) 描述了图像中的内容和问题,例如“图中有一个蝴蝶和一只蜜蜂,蝴蝶在左边,蜜蜂在右边。左边有2个苹果,右边有3个苹果。”;结构化语言 (S-LANG) 则以 JSON 格式表示场景图,包含对象、属性和关系,例如“Objects: [{'name': 'butterfly', 'location': 'left'}, {'name': 'bee', 'location': 'right'}, {'name': 'apple', 'count': 2, 'location': 'left'}, {'name': 'apple', 'count': 3, 'location': 'right'}]”。
-
表达形式 1: 自然语言 (N-LANG) 自然语言 (N-LANG) 通过自然语言表达促进有效的视觉信息传输,例如根据问题描述图像,通过更丰富的视觉描述增强 LVLMs 中的视觉-语言对齐。其推理过程可以形式化定义为:
其中 是自然语言形式的视觉思想, 是指导 N-LANG 生成的指令。 实现方式: 通过提示 LVLMs 生成图像描述 (captions) 作为推理的先导步骤。
-
表达形式 2: 结构化语言 (S-LANG) 结构化语言 (S-LANG) 已在数学推理任务中表现出优于传统 MCoT 推理的性能,通过有效地将结构化语言整合到推理流程中。其形式化表达为:
其中 是结构化语言形式的视觉思想, 是指导 S-LANG 生成的指令。 实现方式: 通过提示 LVLMs 从输入查询中生成场景图 (scene graph),然后将其用于推理。场景图通常以 JSON 格式表示,包含对象、属性和它们之间的关系。
4.2.2.2. 交错多模态思维链 (Interleaved Multimodal Chain-of-Thought, I-MCoT)
本文通过视觉表达引入 MCoT,表明图像词元是视觉思想不可或缺的一部分。如图(原文 Figure 1 (b))所示,I-MCoT 框架通过将图像编辑和生成整合到推理过程中,扩展了传统的 T-MCoT,从而使视觉思想能够通过图像传达。这可以数学表示为:
其中 表示模型包含基于图像的推理步骤的概率, 是图像形式的视觉思想, 是指导生成图像形式视觉思想的指令。
图(原文 Figure 3 (b))展示了视觉表达的视觉思想示例。
图 (b) 展示了两种视觉表达的视觉思想:编辑图像 (E-IMG) 示例中,通过视觉工具对原始图像进行了修改,例如高亮显示或分割出关键对象,以辅助推理;生成图像 (G-IMG) 示例中,根据推理需求生成了一张新的图像,例如展示了推理过程中特定逻辑状态或场景。
-
表达形式 3: 编辑图像 (E-IMG) 编辑图像 (E-IMG) 处理原始图像并执行各种视觉操作,如视觉定位 (grounding) [23]、深度估计 (depth estimation) [48] 和图像分割 (segmentation) [35]。通过传达图像词元,E-IMG 增强了 LVLMs 解释视觉数据的能力,从而提高了推理能力。其形式化定义为:
其中 是编辑图像形式的视觉思想, 是指导 E-IMG 生成的指令。 实现方式: 为 LVLMs 提供使用视觉工具(如 Grounding DINO [24], Semantic-SAM [20], DepthAnything [48])编辑的图像,使模型能够将编辑结果纳入后续推理。
-
表达形式 4: 生成图像 (G-IMG) 生成图像 (G-IMG) 要求提示生成模型根据 LVLMs 的发展生成逻辑相关的图像。其定义为:
其中 是生成图像形式的视觉思想, 是指导 G-IMG 生成的指令。 实现方式: 使用 DALL-E 3 [1] 等图像生成工具,根据输入查询生成新图像,然后将其作为补充输入来辅助推理。
4.2.3. 内部原理分析方法 (Internal Rationale Analysis Methods)
本文通过两种主要方法分析视觉思想的内部机制:
-
视觉注意力分析 (Visual Attention Analysis): 通过分析 LVLMs 在推理过程中对原始图像和视觉思想的注意力分布,来探究视觉信息如何被传递和聚焦。 具体地,注意力权重的提取过程表示为: 其中:
- 是模型最后一层(
last)的输出词元对第 个目标词元在第 层中的平均注意力权重。 - 是在第 层第 个注意力头中,最后一个词元对第 个词元的注意力权重。
- 是注意力头的数量。 通过这种方式,可以观察到注意力如何从原始图像转移到视觉思想,以及视觉思想如何在模型深层维持视觉信息。
- 是模型最后一层(
-
视觉信息流分析 (Visual Information Flow Analysis): 通过扰动模型的内部信息流和计算显著性分数来理解视觉思想对 MCoT 的影响。
- 注意力阻断分析 (Attention Blocking Analysis):
通过在选定的 Transformer 层中,手动将特定词元之间的注意力掩码设置为
inf[40, 50],从而阻断信息流。观察阻断前后模型预测的变化,以量化特定信息流的重要性。 - 基于显著性的信息流分析 (Saliency-Based Information Flow Analysis):
计算显著性分数 [36] 来评估不同信息流对答案预测的相对重要性 [40, 50]。计算过程利用了泰勒展开 [29] 对注意力矩阵的每个元素进行:
其中:
- 表示损失函数。
- 表示输入。
A _ { h , l }是第 层第 个注意力头的注意力矩阵值。I _ { l }是第 层的显著性矩阵,通过对所有注意力头进行平均得到。I _ { l } ( i , j )表示从第 个词元到第 个词元的信息流的重要性。 这种分析可以揭示视觉思想与推理过程之间的信息流强度,以及它如何与图像直接到推理过程的信息流进行比较。
- 注意力阻断分析 (Attention Blocking Analysis):
通过在选定的 Transformer 层中,手动将特定词元之间的注意力掩码设置为
4.3. 提示设计 (Prompt Design)
本文的实验采用了两阶段框架进行视觉思想的评估:
-
第一阶段:视觉思想生成 (Visual Thought Generation):模型被提示生成相应的视觉思想(如自然语言描述、场景图、编辑图像的指令序列、生成图像的提示)。
-
第二阶段:视觉思想推理 (Visual Thought Reasoning):生成的视觉思想与原始问题结合,作为额外上下文来指导模型推导推理路径和最终答案。
以下是针对不同视觉思想类别(包括
w/o VT作为基线)的详细提示设计:
4.3.1. w/o VT 的提示设计 (Prompt Design for w/o VT)
在 w/o VT(无视觉思想)设置中,模型直接根据给定问题生成推理路径和最终答案,不依赖任何中间视觉表示。为了确保将视觉推理的影响降到最低,显式指示模型在推理过程中避免引用或整合任何视觉描述。
其中 是问题, 是选项。
4.3.2. N-LANG 的提示设计 (Prompt Design for N-LANG)
N-LANG 通过自然语言表达促进视觉信息传输,例如根据问题描述图像,从而通过更丰富的视觉描述增强 LVLMs 中的视觉-语言对齐。
-
阶段 1: 视觉思想生成 (Visual Thought Generation) 模型提取有意义的信息并将其转换为自然语言,为视觉思想奠定基础,并实现下游推理。
Question: <Q> ### Choices: <C> Please generate a comprehensive caption for the given image based on the provided query, ensuring it accurately reflects the content and context of the image and the query. Caption:
-
阶段 2: 视觉思想推理 (Visual Thought Reasoning) 模型基于先前生成的视觉思想进行跨模态推理。
Based on the question and the caption that is related to the question and generated by yourself, let's think step by step, but try to avoid adding visual descriptions during the process! End your thinking process with the most appropriate answer in the format "ANSWER: (x)" followed by the choice. ### Question: <Q> ### Choices: <C> ### Caption: <N-LANG> Your Response: 其中 是第一阶段生成的自然语言描述。
4.3.3. S-LANG 的提示设计 (Prompt Design for S-LANG)
S-LANG 通过有效地将结构化语言整合到推理流程中,促进了视觉信息的有效传输。
-
阶段 1: 视觉思想生成 (Visual Thought Generation) 模型需要仔细分析视觉内容,并以结构化的方式解释它,以促进后续推理过程。
### Question: <Q> ### Choices: <C> For the provided image and its associated question, generate a scene graph in JSON format that includes the following: 1. Objects that are relevant to answering the question. 2. Object attributes that are relevant to answering the question. 3. Object relationships that are relevant to answering the question.
-
阶段 2: 视觉思想推理 (Visual Thought Reasoning) 模型根据上一阶段生成的视觉思想执行高级跨模态推理。
Based on the question and the scene graph that is related to the question and generated by yourself, let's think step by step, but try to avoid adding visual descriptions during the process! End your thinking process with the most appropriate answer in the format "ANSWER: (x)" followed by the choice. ### Question: <Q> ### Choices: <C> ## Scene Graph: <S-LANG> Your Response: 其中 是第一阶段生成的 JSON 格式场景图。
4.3.4. E-IMG 的提示设计 (Prompt Design for E-IMG)
E-IMG 通过视觉工具处理原始图像,执行如视觉定位、深度估计和图像分割等任务。通过编码图像词元,它增强了 LVLMs 解释视觉信息的能力,从而提高了推理性能。
-
阶段 1: 视觉思想生成 (Visual Thought Generation) E-IMG 利用视觉工具(如 GroundingDINO [24]、Semantic-SAM [20]、DepthAnything [48])根据动作序列编辑图像。这些处理后的图像作为扩展输入,促进后续推理阶段视觉思想的形成。
### Question: <Q> ## Choices: <C> Givhea utssplehi eeou the question, design a series of image processing steps to extract pointing visual features based on the available actions. The available actions are: 1. segment_and_mark(): 2. detection(objects): • • You are encouraged to use as few steps as possible to achieve the goal. # # # Action Series:其中 和 是问题和选项。
-
阶段 2: 视觉思想推理 (Visual Thought Reasoning) 模型在此阶段根据早期形成的视觉思想表示进行跨模态推理任务。
Based on the question and the additional annotated image (all images except the first one) that is related to the question and created according to Image Processing Series generated by yourself, let's think step by step, but try to avoid adding visual descriptions during the process! End your thinking process with the most appropriate answer in the format "ANSWER: (x)" followed by the choice. ### Question: <Q> ### Choices: <C> <Extra Image Input> Your Response: 其中 是根据第一阶段的动作序列生成的编辑图像。
4.3.5. G-IMG 的提示设计 (Prompt Design for G-IMG)
G-IMG 旨在提示生成模型生成支持逻辑推理的图像,利用 LVLMs 的最新进展。
-
阶段 1: 视觉思想生成 (Visual Thought Generation) G-IMG 利用视觉模型 DALL·E 3 [1] 根据定制的图像生成提示生成图像。这些图像体现了模型的视觉思想,并被用作后续推理阶段的额外输入。
You are an expert in writing prompts for text-to-image generation. Now, based on the following image and the corresponding textual query, please write a precise and detailed prompt to generate an image that is highly relevant to the query. This image will be provided to you later as an auxiliary tool to help answer the query. Therefore, the generated image should be as clear, detailed, and closely aligned with the query as possible, helping you extract the necessary information from the image to answer or resolve the query accurately. When writing the prompt, please consider factors such as the composition, color, style, and details of the image to ensure its practicality and effectiveness. ### Question: <Q> ### Choices: <C> ### Prompt Generated:
-
阶段 2: 视觉思想推理 (Visual Thought Reasoning) 在此阶段,模型根据先前建立的视觉思想表示执行跨模态推理任务。
Based on the question and the additional synthesized image (the second one) that is related to the question, let's think step by step, but try to avoid adding visual descriptions during the process! End your thinking process with the most appropriate answer in the format "ANSWER: (x)" followed by the choice. ## Question: <Q> ### Choices: <C> <Extra Image Input> Your Response: 其中 是根据第一阶段生成的提示由 DALL·E 3 生成的新图像。
5. 实验设置
5.1. 数据集
实验使用了来自数学和常识两大类别的基准数据集。
5.1.1. 数学任务数据集
- IsoBench [10]: 涉及国际象棋 (chess)、数学 (math)、图 (graph) 等任务。该数据集用于评估模型在需要空间想象的纯文本问题中,视觉思想传递视觉信息的有效性。
5.1.2. 常识任务数据集
- MMVP [39]: 用于评估 LVLMs 的视觉定位 (visual grounding) 和物体检测 (object detection) 能力。
- V*Bench [47]: 包含位置 (position) 和属性 (attributes) 等任务,用于评估细粒度识别能力。
- M3CoT [4]: 专注于多领域、多步骤、多模态思维链的常识推理任务,涉及物理 (physical)、社交 (social)、时间 (temporal) 等方面。
- CoMT [7]: 专门评估 LVLMs 的思维链推理能力,尤其是在视觉删除 (deletion)、选择 (selection) 和更新 (update) 等复杂多模态操作上。
5.2. 评估指标
5.2.1. 准确率 (Accuracy)
概念定义 (Conceptual Definition): 准确率是衡量模型在分类或预测任务中性能最直观的指标之一。它表示模型正确预测的样本数量占总样本数量的比例。在多模态问答和推理任务中,高准确率意味着模型能够更好地理解输入并给出正确的答案。
数学公式 (Mathematical Formula):
符号解释 (Symbol Explanation):
- : 模型对所有测试样本中正确预测的数量。
- : 所有测试样本的总数量。
5.2.2. 人工评估指标 (Human Evaluation Metrics)
在 Section 4.3 中,本文进行了一项人工评估,以衡量视觉思想的简洁性 (conciseness) 和效率 (efficiency)。为此,定义了三个评估指标,每个指标用于捕捉视觉推理质量的一个特定方面:
-
图像相关性 (Image Relevance)
- 概念定义: 衡量视觉思想与输入图像的语义内容和上下文的对齐程度。高相关性意味着视觉思想输出准确反映了图像中描绘的对象、关系或场景,确保生成内容忠实于源材料。
- 评分标准:
- 低 (Low): 视觉思想错误地描述或不准确地表示图像内容。
- 中 (Medium): 视觉思想准确捕捉图像的主要内容。
- 高 (High): 视觉思想不仅准确表示图像,而且提供了全面的描述。
-
表达清晰度 (Expression Clarity)
- 概念定义: 衡量视觉思想在响应输入查询时传达预期推理或逻辑的清晰程度。高分表示视觉元素(如空间布局、符号或视觉线索)易于理解且无歧义,使评估者能轻松掌握其底层原理。
- 评分标准:
- 低 (Low): 视觉思想未能传达任何与查询相关的视觉逻辑。
- 中 (Medium): 视觉思想部分捕捉了与查询相关的视觉逻辑。
- 高 (High): 视觉思想完全且清晰地表达了与查询相关的视觉逻辑。
-
简洁表达 (Concise Expression)
- 概念定义: 评估视觉思想在传达信息方面的效率和简洁性。有效的视觉思想应避免不必要的视觉复杂性,同时保留必要内容,从而增强可解释性并减少评估者的认知负荷。
- 评分标准:
-
低 (Low): 视觉思想冗长、重复或难以理解。
-
中 (Medium): 视觉思想以普遍清晰的方式传达其视觉内容和逻辑。
-
高 (High): 视觉思想清晰、简洁且易于理解地呈现视觉内容和逻辑。
这些指标均采用 3 分序数尺度评分:1(低)、2(中)、3(高)。
-
5.2.3. 其他评估指标
- Spearman's correlation coefficient () 和 Pearson's correlation coefficient (): 用于衡量人工评估得分与模型准确率之间的相关性强度和方向。
- P-value (): 用于确定观察到的相关性是否具有统计显著性。
- MLLM evaluation 和 CLIPScore: 用于评估由外部工具(如 Grounding DINO 和 Stable Diffusion)生成的视觉思想(编辑图像和生成图像)的噪声水平。
5.3. 对比基线
本文将自己的方法(即各种视觉思想表达形式)与以下基线进行了比较:
w/o VT(Without Visual Thoughts): 不添加额外视觉思想的提示,模型直接从原始查询进行推理。N-LANG(Natural Language): 使用自然语言描述作为视觉思想。S-LANG(Structured Language): 使用结构化语言(如场景图)作为视觉思想。E-IMG(Edited Image): 使用编辑后的图像作为视觉思想。G-IMG(Generative Image): 使用生成的图像作为视觉思想。Direct(Direct Prompting): 指 GPT-4o 直接生成响应,不进行任何 MCoT 结构。在验证视觉思想有效性时与w/o VT进行比较。w/o CoT(Without Chain-of-Thought): 没有进行任何思维链推理的基线,模型直接给出答案。此基线用于更深入地理解视觉思想的作用。Caption Only(仅描述): 仅使用图像描述作为模型输入,不包含 MCoT 结构。用于与视觉思想的“缓存”功能进行对比。
5.4. 模型设置
实验使用了四种大型视觉-语言模型:
-
LLaVA-1.5 [21]: 开源模型,使用了 7B (32 层) 和 13B (40 层) 版本进行内部机制分析。
-
Qwen2-VL [42]: 开源模型,使用了 3B (36 层) 和 7B (28 层) 版本进行内部机制分析。
-
GPT-4o-mini [32]: OpenAI 的闭源模型。
-
GPT-4o [32]: OpenAI 的闭源模型。
对于 GPT 系列模型,将温度 (temperature) 参数调整在
[0, 2]之间;对于开源模型,也将温度参数调整在[0, 2]之间。所有开源模型均在 2 块 A6000 48G GPU 上完成推理。
6. 实验结果与分析
6.1. 核心结果分析
6.1.1. 视觉思想的有效性验证
本文通过对比三种条件来验证视觉思想的有效性:
-
“图像形式视觉思想 (Image-form visual thoughts)”: 原始的 I-MCoT,包含交错的图像和文本推理。
-
“无视觉思想 (w/o visual thoughts)”: 视觉思想缓存被清除,强制模型重新分析输入图像。
-
“文本形式视觉思想 (Text-form visual thoughts)”: 缓存被恢复为 I-MCoT 图像的文本描述。
该图像是一个示意图,展示了视觉思想的效果验证工作流程及不同形式对准确性的影响。左侧部分说明了如何使用图像形式和文本形式的视觉思想进行推理,而右侧部分则展示了不同任务中的准确性对比,包括查询和描述要求的任务。通过图表,展示了视觉思想对模型表现的显著提升。
Figure 4: Effectiveness Verification for Visual Thoughts. More details are in Appendix B.
图(原文 Figure 4 (b))的结果显示,省略视觉思想会导致准确率下降(甚至比仅从查询推理更差),而包含视觉思想则能持续提高推理性能。这强调了视觉思想在传递视觉信息和提高模型准确率方面的关键作用。此外,图像形式的视觉思想始终优于文本形式的视觉思想,尤其是在复杂场景中(CoMT-Selection 上提高了 47.83%),这表明图像模态在传达视觉信息方面具有内在优势,能够更有效地促进类似缓存的视觉逻辑传播。
为了进一步确认 w/o VT 的性能下降并非单纯来自上下文扰动,本文将 GPT-4o 的直接提示 (Direct) 与明确指示其避免生成任何视觉内容的 w/o VT 提示进行了比较。

该图像是图表,展示了在 GPT-4o 上使用视觉思维提示与不使用视觉思维提示的直接结果。各组的性能百分比分别为:直接提示为 13.0,42.0,84.0,31.0,不使用视觉思维提示则为 12.0,32.0,31.0。
Figure 11: Results of Direct and w/o Visual Thought prompting on GPT-4o.
如图(原文 Figure 11)所示,w/o VT 提示的结果显示,当模型完全省略视觉信息时,即使周围上下文完整,性能也会显著下降。这进一步证明了视觉信息(通过视觉思想传递)对于 MCoT 的重要性。
本文还在需要空间想象的纯文本问题中探索了视觉思想的有效性。

该图像是图表,展示了在 Qwen2-VL 上对视觉思维有效性的验证,包括不同任务的准确率。图(a)比较了引入视觉思维与不引入视觉思维的结果,图(b)则显示了视觉思维与仅依赖描述的模型在不同图像描述难易程度下的对比,包含公式 。
Figure 12: Effectiveness Verification for Visual Thoughts on pure text problem.
如图(原文 Figure 12 (a))所示,与第 3 节的结论一致,缺乏视觉思想会导致准确率显著下降(甚至比仅依赖查询更差),这凸显了视觉思想在传输视觉信息和提升模型性能方面的关键功能。此外,如图(原文 Figure 12 (b))所示,在简单场景中,描述直截了当,性能提升适中(7.24%)。在中等复杂度的场景中,提升达到 19.54%。而在简明描述难以奏效的高度复杂图像中,视觉思想带来了超过 50% 的效率提升。这些发现表明,视觉思想的有效性随图像复杂性而变化,并为传输详细视觉信息提供了更优的通道。
6.1.2. 不同类别视觉思想的性能
以下是原文 Table 1 的结果,展示了不同视觉思想形式在多种 LVLM 和数据集上的性能表现:
| Model | MMVP | V*Bench | M3CoT | CoMT | AVG. | |||||
|---|---|---|---|---|---|---|---|---|---|---|
| position | attributes | physical | social | temporal | deletion | selection | update | |||
| LLaVA-1.5-7B [21] | ||||||||||
| w/o VT | 45.00 | 43.42 | 29.57 | 44.44 | 59.50 | 26.83 | 21.00 | 16.00 | 23.50 | 34.36 |
| N-LANG | 52.33 | 52.63 | 34.78 | 46.67 | 60.33 | 32.52 | 21.50 | 17.50 | 29.00 | 38.58 |
| S-LANG | 51.33 | 52.63 | 35.65 | 51.11 | 61.57 | 31.71 | 22.00 | 20.50 | 29.00 | 39.50 |
| E-IMG | 49.33 | 50.00 | 36.52 | 48.89 | 64.05 | 34.15 | 25.50 | 23.00 | 29.50 | 40.10 |
| G-IMG | 49.67 | 48.68 | 34.78 | 55.56 | 63.22 | 39.02 | 29.50 | 25.00 | 35.00 | 42.27 |
| Qwen2-VL-7B [42] | ||||||||||
| w/o VT | 70.00 | 55.26 | 68.70 | 80.00 | 75.21 | 74.80 | 26.00 | 18.00 | 37.00 | 56.11 |
| N-LANG | 71.33 | 61.84 | 73.04 | 83.33 | 79.75 | 81.30 | 28.00 | 19.57 | 40.50 | 59.85 |
| S-LANG | 71.00 | 68.42 | 70.43 | 85.56 | 78.10 | 79.67 | 28.50 | 20.00 | 42.00 | 60.41 |
| E-IMG | 71.00 | 65.79 | 72.17 | 85.56 | 80.99 | 67.48 | 28.50 | 23.50 | 45.50 | 60.05 |
| G-IMG | 65.00 | 59.21 | 51.30 | 84.44 | 80.17 | 82.93 | 29.50 | 25.50 | 44.50 | 58.06 |
| GPT-4o-mini [32] | ||||||||||
| w/o VT | 72.67 | 44.74 | 36.52 | 78.89 | 70.12 | 80.49 | 10.00 | 19.50 | 24.00 | 48.55 |
| N-LANG | 75.33 | 52.17 | 52.63 | 84.44 | 79.34 | 81.30 | 27.50 | 20.00 | 27.00 | 55.66 |
| S-LANG | 74.33 | 52.63 | 61.84 | 84.44 | 74.65 | 81.30 | 26.00 | 20.00 | 33.00 | 57.73 |
| E-IMG | 73.58 | 50.00 | 70.18 | 84.44 | 76.86 | 83.74 | 29.00 | 21.50 | 33.00 | 58.33 |
| G-IMG | 72.67 | 53.04 | 86.67 | 78.93 | 87.80 | 30.00 | 20.00 | 40.50 | 56.55 | |
| GPT-4o [32] | ||||||||||
| w/o VT | 74.33 | 53.95 | 54.78 | 88.89 | 76.86 | 79.67 | 26.50 | 19.50 | 37.00 | 56.83 |
| N-LANG | 85.33 | 57.89 | 63.48 | 88.89 | 78.93 | 83.74 | 33.50 | 25.50 | 37.50 | 61.64 |
| S-LANG | 84.33 | 63.16 | 64.35 | 90.00 | 78.51 | 82.93 | 29.50 | 18.00 | 42.00 | 61.42 |
| E-IMG | 83.00 | 59.21 | 65.22 | 90.00 | 78.10 | 86.18 | 34.00 | 28.50 | 50.00 | 63.80 |
| G-IMG | 78.00 | 59.21 | 59.13 | 92.22 | 78.93 | 86.18 | 33.50 | 28.50 | 46.50 | 62.46 |
Table 1: Main results on various LVLMs. The bold content indicates the best performance within each LVLM. VT refers to prompting LVLMs without additional visual thoughts.
分析要点:
-
普遍提升:与不使用视觉思想 (
w/o VT) 的基线相比,四种视觉思想策略(N-LANG, S-LANG, E-IMG, G-IMG)几乎在所有 LVLM 和任务上都实现了性能提升,这强有力地证明了视觉思想在增强 MCoT 性能方面的有效性。 -
任务复杂度与提升幅度:如图(原文 Figure 5)所示,视觉思想在 CoMT 基准测试中带来了最显著的性能提升。CoMT 主要关注复杂的视觉操作,如视觉删除、选择和更新,而非简单的感知任务。这表明视觉思想在处理复杂场景时,能显著增强 LVLMs 的推理能力。

该图像是图表,显示了各任务的性能提升比例。图中不同颜色的柱形表示不同模型的贡献,包括 MMVP、VBench、M3CoT 和 CoMT,分别对应于不同的性能提升份额,且总和为 100%。*Figure 5: The proportion of performance improvement rate across tasks. 图(原文 Figure 5)显示了各项任务的性能提升比例。其中 CoMT 任务占总提升的比例最高,其次是 M3CoT、V*Bench 和 MMVP。这与论文的发现一致,即视觉思想在复杂视觉操作任务中表现出更强的增强效果。
-
T-MCoT 与 I-MCoT 的适用性:
- T-MCoT (N-LANG, S-LANG):在粗粒度感知任务(如 MMVP, V*Bench-position)中表现出卓越的推理性能。例如,LLaVA-1.5-7B 在 MMVP 上 N-LANG 达到 52.33%,S-LANG 达到 51.33%,均高于
w/o VT的 45.00%。 - I-MCoT (E-IMG, G-IMG):在需要细粒度视觉操作(如 V*Bench-attributes)和要求视觉操作的任务(如 M3CoT, CoMT)中能够实现更高效的信息传输。例如,GPT-4o 在 V*Bench-attributes 上 E-IMG 达到 65.22%,G-IMG 达到 59.13%,均高于
w/o VT的 54.78%。在 CoMT-update 上,GPT-4o 的 E-IMG 达到 50.00%,G-IMG 达到 46.50%,显著高于w/o VT的 37.00%。
- T-MCoT (N-LANG, S-LANG):在粗粒度感知任务(如 MMVP, V*Bench-position)中表现出卓越的推理性能。例如,LLaVA-1.5-7B 在 MMVP 上 N-LANG 达到 52.33%,S-LANG 达到 51.33%,均高于
-
结论:应根据任务特点选择不同类别的 MCoT,以实现最佳性能。
6.1.3. 视觉思想的推理成本
以下是原文 Table 2 的结果,展示了不同视觉思想的推理成本:
| # Text Token | # Image Token | |
| N-LANG | 139.02 | - |
| S-LANG | 364.37 | - |
| E-IMG | 91.65 | 1,112.51 |
| G-IMG | 89.18 | 393.00 |
Table 2: Reasoning costs of different Visual Thoughts across all LVLMs and datasets. #X: the average number of X.
分析要点:
- 文本表达成本:N-LANG 和 S-LANG 的平均文本词元数量略高,特别是 S-LANG,因为它需要生成详细的结构化片段。
- 视觉表达成本:E-IMG 和 G-IMG 由于包含更多图像,导致平均图像词元数量显著增加(E-IMG 为 1112.51,G-IMG 为 393.00)。这大大增加了 LVLMs 的推理负担,无论是时间还是费用方面,表明视觉表达的推理成本高于文本表达,这极大地限制了推理效率。
6.1.4. w/o CoT 的额外结果
以下是原文 Table 3 的结果,展示了 GPT-4o 在有/无视觉思想和无 CoT 情况下的性能:
| Model | MMVP | V*Bench | M3C0T | CoMT | AVG. | |||||
|---|---|---|---|---|---|---|---|---|---|---|
| position | attributes | physical | social | temporal | deletion | selection | update | |||
| w/o VT | 74.33 | 53.95 | 54.78 | 88.89 | 76.86 | 79.67 | 26.50 | 19.50 | 37.00 | 56.83 |
| N-LANG | 85.33 | 57.89 | 63.48 | 88.89 | 78.93 | 83.74 | 33.50 | 25.50 | 37.50 | 61.64 |
| S-LANG | 84.33 | 63.16 | 64.35 | 90.00 | 78.51 | 82.93 | 29.50 | 18.00 | 42.00 | 61.42 |
| E-IMG | 83.00 | 59.21 | 65.22 | 90.00 | 78.10 | 86.18 | 34.00 | 28.50 | 50.00 | 63.80 |
| G-IMG | 78.00 | 59.21 | 59.13 | 92.22 | 78.93 | 86.18 | 33.50 | 28.50 | 46.50 | 62.46 |
| w/o CoT | 77.67 | 57.89 | 63.48 | 87.78 | 76.03 | 58.54 | 32.50 | 21.50 | 41.50 | 57.43 |
Table 3: Results of w/o CoT on GPT-40.
分析要点:
- CoT 的重要性:对于需要更多推理步骤的基准,如涉及大量多步骤推理的 M3CoT,
w/o CoT变体的性能显著下降。例如,M3CoT-temporal 任务中,w/o CoT仅为 58.54%,而w/o VT(包含 CoT)为 79.67%。这表明思维链推理本身对于复杂任务至关重要。 - 视觉思想与 CoT 的协同作用:虽然
w/o CoT表现不佳,但加入视觉思想(N-LANG, S-LANG, E-IMG, G-IMG)后,模型性能普遍优于w/o VT,这说明视觉思想在 CoT 框架内发挥了额外的增强作用。
6.1.5. 不同视觉思想的工作场景
- N-LANG (自然语言):在粗粒度、感知导向的推理任务中表现出色。当需要对整个场景进行快速概览时,N-LANG 利用自然语言将视觉输入转化为高层语义线索,有效地提取宏观特征。例如,在 MMVP 基准测试中,N-LANG 在识别显著对象方面表现最佳,首先识别出“一只蝴蝶”等元素,从而指导后续分析并取得粗粒度感知任务的最佳结果。
- S-LANG (结构化语言):擅长对对象关系进行推理。S-LANG 将输入图像转换为详细的场景图,从而能够精确地建模空间和语义关系。例如,在 V*Bench-position 基准测试中,S-LANG 不仅识别出“苹果”和“头发”等实体,还能准确推断它们的相对位置,这是其在关系推理任务中表现领先的基础。
- E-IMG (编辑图像):在详细图像分析中取得了显著成果。E-IMG 模拟人类编辑工作流,通过细化视觉内容来辅助细粒度特征检测。例如,在 V*Bench-attributes 中,它能够放大和标注感兴趣的区域,从而提高属性预测的准确性。这种对细节的关注使得它在所有模型中取得了最高的平均性能。
- G-IMG (生成图像):非常适合通过迭代图像生成进行多步骤推理。G-IMG 动态生成图像以细化和测试推理假设,从而实现自适应的视觉思维。例如,在需要多轮交互的 M3CoT 中,它将逻辑步骤与新的视觉信息整合,以加深对复杂概念的理解。这种灵活的生成流水线在长期、多轮推理场景中表现卓越。
6.1.6. 影响视觉思想有效性的核心因素

该图像是图表,展示了准确性与视觉思维质量之间的相关性分析。图中包含三个子图,分别表示输入图像的相关性、视觉思维表达的清晰度及简洁性与准确度之间的关系。每个子图中标注了Spearman相关系数、Pearson相关系数以及值,进一步探讨了这些因素对准确度的影响。
Figure 6: Analysis of the correlation between accuracy and visual thought quality. : Spearman's correlation coefficient; Pearson's correlation coefficient; :p-value of related assumptions.
图(原文 Figure 6)展示了准确率与视觉思想质量之间的相关性分析。
-
并非原始图像的忠实复制品:如图(原文 Figure 6 (a))所示,视觉思想的保真度 (fidelity)(即与原始图像内容的准确保留程度)与模型准确率之间的 Spearman's () 和 Pearson's () 相关系数均低于 0.15 (),表明两者之间没有显著关系。这说明视觉思想更像一个浓缩的视觉信息缓存,而非原始图像的直接替代品。
-
清晰度是关键:如图(原文 Figure 6 (b))所示,视觉逻辑表达的清晰度 (clarity) 与模型准确率之间存在强烈的正相关(Spearman's 和 Pearson's 均超过 0.8,)。这表明视觉逻辑表达越清晰,模型利用视觉思想缓存中的信息进行推理就越有效。
-
简洁性增强有效性:如图(原文 Figure 6 (c))所示,视觉逻辑表达的简洁性 (conciseness) 也与推理准确率强相关。这表明视觉思想的有效性不仅取决于清晰度,还通过底层视觉逻辑的紧凑性得到增强,即去除冗余或无关元素能够实现更快、更准确的检索。
该图像是图表,展示了 E-IMG 和 G-IMG 在不同参数下的性能比率。左侧图(a)展示了在不同 Box 阈值和文本阈值下的准确性和噪声水平变化;右侧图(b)展示了在指导尺度不同情况下的表现。可以看到,准确性随参数变化而变化。
Figure 7: Factors Correleation of I-MCoT.
图(原文 Figure 7)展示了 I-MCoT 的相关性因素。
- 外部噪声的影响:在 I-MCoT 中,视觉思想(即编辑图像和生成图像)通常由外部工具生成,因此外部工具引入的噪声是否会影响 MCoT 的推理过程值得研究。本文使用 Grounding DINO 和 Stable Diffusion v1.5 分别生成编辑图像和生成图像,并通过调整参数来控制视觉思想的质量和噪声水平(使用 MLLM 评估和 CLIPScore 指标)。如图(原文 Figure 7)所示,E-IMG 和 G-IMG 都显示出准确率与噪声水平之间存在明显的负相关。当注入的噪声过多时,模型的推理性能甚至会低于原生推理 (Direct) 的表现。这表明管理视觉思想中的外部噪声对于维持有效推理至关重要。
6.2. 内部原理分析
6.2.1. 视觉注意力分析

该图像是图表,展示了视觉思想与原始图像在多模态链式思维中的注意力分布。上方部分显示了没有视觉输入时的注意力评分,下方部分则为视觉思想的注意力评分,两者在模型层数上比较。该图表分析了不同层级对视觉思想的关注程度,揭示了视觉思想在推理过程中的重要性。
Figure 8: Attention distribution of Visual Thought and Image in MCoT.
图(原文 Figure 8)展示了 MCoT 中视觉思想和图像的注意力分布。
- 注意力转移:如图(原文 Figure 8 (a))所示,在没有视觉思想的推理过程 (No-VIS) 中,模型对图像表现出高度关注。然而,在包含视觉思想的推理过程中,模型对原始输入图像的注意力在所有视觉思想表达形式中都显著下降。模型将注意力从原始输入图像转移到各种视觉思想上,这种重分配支持了整个逻辑框架中的视觉信息流。
- 视觉信息更深层传递:更值得注意的是,在模型更深层(约 12 层之后),没有视觉思想时,对原始图像的注意力急剧减少,几乎为零。相反,当包含视觉思想时,对所有表达形式的注意力都显著增加,甚至在 12 层之后仍保持与早期层相似的水平。这表明视觉思想在将视觉信息传递到模型更深层方面发挥着关键作用,从而促进了增强的跨模态交互和更复杂的逻辑推理。
- 模型架构的影响:如图(原文 Figure 8 (b))所示,模型架构对视觉思想传输的影响大于参数规模。无论是 LLaVA 还是 Qwen 模型,在大多数层中,对视觉思想的注意力都超过了对原始图像的注意力,特别是在后 50% 的层中。这表明视觉思想能够比图像本身更有效、更深入地传递视觉信息。注意力分数差异的结果显示,LLaVA (7B 和 13B) 和 Qwen (7B 和 3B) 都随着模型层数的加深,注意力增益增加。这揭示了视觉思想的影响更多地取决于模型架构(例如层数),而非参数规模。此外,LLaVA 在 N-LANG 和 S-LANG 设置下对视觉思想的注意力相对较低,这可能是由于其自生成的语言能力较弱,导致描述和场景图过于简化,未能准确传达视觉信息。
6.2.2. 视觉信息流分析

该图像是图表,展示了在 LLaVA 模型中信息流的扰动分析。通过对比去除视觉思想的影响前后,不同层次的变换器层在确定函数的断点编号时,展示了视觉思想在信息传递中的关键作用。相关公式为
Figure 9: The Disturbation Analysis of Information Flow within LLaVA model.
图(原文 Figure 9)展示了 LLaVA 模型中信息流的扰动分析。
-
视觉思想作为缓存:输入问题从视觉思想缓存中查询视觉信息。如图(原文 Figure 9)所示,在没有视觉思想 (
No-VIS) 的情况下,模型错误地选择了选项 A,而整合视觉思想则使其能够正确选择 C。此外,如果在第一层之前截断查询到视觉思想缓存的信息流,将显著阻止模型选择正确答案,而扰动图像的信息流则对推理没有影响。这些发现表明,从视觉思想缓存中查询视觉信息是增强模型预测的关键机制。 -
视觉信息进一步传递:从视觉思想缓存中检索到的视觉信息将进一步传递到跨越边界和更深层模型的先进推理过程。
该图像是图表,展示了在MCoT中视觉思维和图像的信息流分布。图中包含不同层次索引下的比例值,分别对应于多模态理解过程中的推理。信息流展示了独特的层次结构及其对推理的影响。
Figure 10: Information flow distribution of Visual Thought and Image in MCoT within LLaVA-1.5- 7B and Qwen2-VL-2B.
图(原文 Figure 10)展示了 LLaVA-1.5-7B 和 Qwen2-VL-2B 中视觉思想和图像的信息流分布。
- 视觉思想的关键中介作用:本文发现,从视觉思想到推理阶段的信息流显著强于从图像直接到推理的信息流。这强调了视觉思想在调解和组织视觉数据、优化其以用于推理方面的关键作用。通过这种方式,视觉思想使模型能够更有效地利用视觉信息,从而产生更准确和连贯的文本输出。
- 原始图像的信息流向视觉思想:如图(原文 Figure 10)所示,原始图像的大部分输入信息并非直接进入推理过程,而是在衍生步骤中首先传递给视觉思想,然后由视觉思想进入推理阶段。这表明几乎所有来自图像的信号都通过视觉思想,然后再到达更深层的推理。这种两阶段过程(原始像素 视觉思想 更深层推理)强调了视觉思想作为关键桥梁的作用,使 LVLMs 能够生成更好的 MCoT。
6.3. 未来工作展望 (Future Work)
以下是原文 Table 4 的结果,展示了 GPT-4o 上 Diverse-VT 的性能:
| Model | MMVP | V*Bench | M3C0T | CoMT | AVG. | |||||
|---|---|---|---|---|---|---|---|---|---|---|
| position | attributes | physical | social | temporal | deletion | selection | update | |||
| w/o VT | 74.33 | 53.95 | 54.78 | 88.89 | 76.86 | 79.67 | 26.50 | 19.50 | 37.00 | 56.83 |
| N-LANG (Maj@4) | 85.00 | 57.89 | 63.48 | 88.89 | 78.93 | 83.74 | 33.50 | 25.50 | 37.50 | 61.60 |
| S-LANG(Maj@4) | 83.67 | 63.16 | 64.35 | 90.00 | 78.51 | 82.93 | 29.50 | 18.00 | 42.00 | 61.35 |
| E-IMG (Maj@4) | 82.33 | 59.21 | 65.22 | 92.22 | 78.10 | 86.18 | 33.50 | 28.00 | 49.00 | 63.75 |
| G-IMG(Maj@4) | 78.00 | 59.21 | 63.48 | 92.22 | 78.93 | 86.18 | 33.50 | 28.50 | 46.50 | 62.95 |
| Diverse-VT | 85.00 | 63.16 | 65.22 | 92.22 | 78.93 | 86.18 | 34.00 | 28.50 | 50.00 | 64.80 |
Table 4: Results of Diverse-VT on GPT-4o.
分析要点:
基于对视觉思想的实证分析,探索进一步提高 MCoT 性能的方法是一个有前景的未来研究方向。受自洽性 (self-consistency) 启发,本文设计了一种新颖的视觉思想引导策略 (visual-thought-guided strategy),该策略整合了多样化的视觉思想推理路径,称之为 Diverse-VT。在 GPT-4o 上的实验结果如 Table 4 所示,Diverse-VT 取得了最佳性能(平均准确率 64.80%),这表明整合多个视觉思想以增强 MCoT 中的视觉信息传输,从而提高推理性能是可行的。
6.4. 伦理考量 (Ethical Considerations)
本文在 Section 4.3 中涉及了人类标注者对视觉思想质量的评估。
- 质量检查 (Quality Check):项目开始时进行了入门面试任务,参与者为每种视觉思想表达回答了 10 个示例问题。为确保参与度并使他们熟悉任务,每位参与者获得了 20 美元的报酬。
- 数据集标注 (Dataset Annotation):后续数据标注阶段,雇用了两名博士生和两名研究生,他们都精通中文和英文(CET-6 水平),并展示出强大的数学能力。这些学生每小时获得 15 美元的报酬,这高于当地平均工资。
7. 总结与思考
7.1. 结论总结
本文提出了视觉思想 (visual thoughts) 的概念,并将其定义为 MCoT 提升 LVLMs 性能和可解释性的统一机制。研究表明,视觉思想作为中间的、逻辑驱动的跨模态表示,能够有效地将视觉信息从输入图像传递到推理过程和深度 Transformer 层。其有效性主要取决于表达的清晰度和简洁性。
本文系统地定义并评估了四种视觉思想表达策略:自然语言 (N-LANG)、结构化语言 (S-LANG)、编辑图像 (E-IMG) 和生成图像 (G-IMG)。实验结果表明,所有这些形式都能增强 MCoT 性能,但它们在清晰度、简洁性和适用场景上存在差异。T-MCoT 形式(N-LANG, S-LANG)在粗粒度感知任务上表现更优,而 I-MCoT 形式(E-IMG, G-IMG)在需要细粒度视觉操作和复杂视觉推理的任务上更为高效,尽管其推理成本也更高。
此外,本文深入探究了视觉思想的内在机制,发现视觉思想充当了输入图像与深度 Transformer 层推理之间的关键中介。通过注意力分析,揭示了模型注意力从原始图像转移到视觉思想,并且视觉思想能够将视觉信息更深入地传输到模型深层。信息流分析进一步证实,视觉思想作为“视觉缓存”,是连接原始图像和深度推理的关键桥梁,且其有效性与视觉逻辑表达的清晰度和简洁度高度相关,同时受到外部噪声的影响。
7.2. 局限性与未来工作
-
局限性 (Limitations):
- 为了便于变量控制和简化分析,本文排除了多轮视觉思想交互,这应在未来的复杂场景中进行探索。
- 由于 Any-to-Any LVLM 推理过程中生成 I-MCoT 的难度,这通常会导致逻辑质量不佳,本文转而使用 DALL-E 3 来调用 G-IMG。这意味着 G-IMG 的生成并非完全由 LVLM 自身完成,可能存在外部工具带来的偏差。
-
未来工作 (Future Work):
- 基于对视觉思想的实证分析,探索进一步提高 MCoT 性能的方法是一个有前景的方向。例如,本文初步探索了受自洽性 (self-consistency) 启发的
Diverse-VT策略,通过整合多样化的视觉思想推理路径来增强性能,并取得了最佳结果。这表明集成多种视觉思想以增强 MCoT 中的视觉信息传输,从而提高推理性能是可行的。 - 未来的研究可以深入探索更复杂的视觉思想交互模式和生成方式。
- 进一步优化视觉思想的清晰度、简洁性,并有效管理外部工具引入的噪声,是提升 MCoT 效率和性能的关键。
- 基于对视觉思想的实证分析,探索进一步提高 MCoT 性能的方法是一个有前景的方向。例如,本文初步探索了受自洽性 (self-consistency) 启发的
7.3. 个人启发与批判
-
个人启发 (Personal Insights):
- 统一理论的重要性:本文通过提出“视觉思想”这一统一概念,成功地将看似不同的 T-MCoT 和 I-MCoT 范式纳入一个共同的解释框架下。这为理解多模态模型内部的推理机制提供了更深层次的视角,也为未来多模态推理框架的设计提供了理论指导。这种从现象到本质的抽象能力是学术研究的典范。
- “视觉缓存”的类比:将视觉思想比作“视觉缓存”的直觉非常清晰和有力。它解释了为什么 MCoT 能够提高推理效率和深度,避免了对原始图像的重复、低效处理。这种将计算机系统概念引入认知机制的类比,有助于我们更好地理解 AI 模型的运行原理。
- 清晰度和简洁度的核心作用:研究发现视觉思想的有效性与其清晰度和简洁度强相关,这对于提示工程和视觉思想生成策略的设计具有直接指导意义。这意味着在设计 MCoT 时,不应盲目追求复杂的视觉信息,而应注重其“可读性”和“可消化性”。
- 信息流动的深层分析:通过注意力分布和信息流分析,本文揭示了视觉思想并非简单地将信息传递给模型表面,而是能够将其“渗透”到模型的深层,从而支持更高级的认知处理。这对于理解 LVLMs 的内部工作原理,特别是如何整合跨模态信息,提供了宝贵的洞察。
-
批判与可改进之处 (Critique and Areas for Improvement):
- “视觉思想”的通用性与可衡量性:虽然本文提出了视觉思想的概念,但其“逻辑驱动的跨模态表示”的定义在具体操作层面仍有一定抽象性。如何更普适、更量化地衡量和提取不同任务、不同场景下的“最佳视觉思想”,仍是一个挑战。目前的四种形式是手工定义的,未来可能需要更自动化的发现机制。
- 多轮交互的限制:论文明确指出了未探索多轮视觉思想交互的局限性。在现实世界的复杂推理任务中,往往需要迭代地生成和修正视觉思想。例如,一个复杂的视觉问题可能需要先生成一个粗略的视觉思想,然后基于此进一步生成更细粒度的视觉思想。这种迭代和交互模式的缺乏,限制了当前研究在真实复杂场景下的泛化能力。
- 外部工具依赖的可靠性:I-MCoT 形式(E-IMG, G-IMG)依赖于外部视觉工具(如 Grounding DINO, DALL-E 3)。这些工具自身的性能、偏见和噪声会直接影响视觉思想的质量和 MCoT 的最终表现,如实验中所示,外部噪声会导致性能下降。如何在保持灵活性和能力的同时,降低对外部工具不可控因素的依赖,是一个实际挑战。未来可能需要更紧密地集成视觉感知和生成能力到 LVLMs 自身,减少对外部“黑盒”工具的调用。
- 推理成本的权衡:视觉表达的视觉思想虽然在某些复杂任务上表现更优,但其推理成本显著高于文本表达。在实际应用中,性能提升是否能抵消增加的计算成本,是一个需要仔细权衡的问题。对于资源受限或需要低延迟的场景,文本形式的视觉思想可能仍然是更实用的选择。
- “Any-to-Any LVLM”的挑战:论文提到在 Any-to-Any LVLM 中生成 I-MCoT 存在逻辑质量问题。这表明当前 LVLMs 在自主生成高质量、逻辑连贯的交错图像-文本内容方面仍有待提高。未来的研究需要专注于提升 LVLMs 在多模态生成方面的内生能力,而非仅仅依赖外部工具。
相似论文推荐
基于向量语义检索推荐的相关论文。