DEL-ToM: Inference-Time Scaling for Theory-of-Mind Reasoning via Dynamic Epistemic Logic
TL;DR 精炼摘要
本研究提出DEL-ToM框架,通过推理时缩放提升大型语言模型(LLMs)在理论心智(ToM)任务上的表现。与架构修改不同,该方法基于动态认知逻辑分解ToM任务为信念更新序列,并使用过程信念模型评分,确保推理过程的透明性。实验表明,DEL-ToM在多个模型规模和基准上的性能持续改善,验证了信念监督对ToM能力的显著增强。
摘要
Theory-of-Mind (ToM) tasks pose a unique challenge for large language models (LLMs), which often lack the capability for dynamic logical reasoning. In this work, we propose DEL-ToM, a framework that improves verifiable ToM reasoning through inference-time scaling rather than architectural changes. Our approach decomposes ToM tasks into a sequence of belief updates grounded in Dynamic Epistemic Logic (DEL), enabling structured and verifiable dynamic logical reasoning. We use data generated automatically via a DEL simulator to train a verifier, which we call the Process Belief Model (PBM), to score each belief update step. During inference, the PBM evaluates candidate belief traces from the LLM and selects the highest-scoring one. This allows LLMs to allocate extra inference-time compute to yield more transparent reasoning. Experiments across model scales and benchmarks show that DEL-ToM consistently improves performance, demonstrating that verifiable belief supervision significantly enhances LLMs’ ToM capabilities without retraining. Code is available at https://github.com/joel-wu/DEL-ToM.
思维导图
论文精读
中文精读
1. 论文基本信息
1.1. 标题
DEL-ToM: Inference-Time Scaling for Theory-of-Mind Reasoning via Dynamic Epistemic Logic
1.2. 作者
- Yuheng Wu (斯坦福大学)
- Jianwen Xie (Lambda, Inc.)
- Denghui Zhang (史蒂文斯理工学院)
- Zhaozhuo Xu (史蒂文斯理工学院)
1.3. 发表期刊/会议
该论文以预印本 (arXiv preprint) 形式发布。
1.4. 发表年份
2025年 (根据 Published at (UTC) 信息为 2025-01-01T00:00:00.000Z)。
1.5. 摘要
理论心智 (Theory-of-Mind, ToM) 任务对大型语言模型 (LLMs) 构成了独特的挑战,因为它们通常缺乏动态逻辑推理的能力。在这项工作中,我们提出了 DEL-ToM,一个通过推理时缩放 (inference-time scaling) 而非架构改变来改进可验证的 ToM 推理的框架。我们的方法将 ToM 任务分解为一系列基于动态认知逻辑 (Dynamic Epistemic Logic, DEL) 的信念更新,从而实现了结构化和可验证的动态逻辑推理。我们使用通过 DEL 模拟器自动生成的数据来训练一个验证器,我们称之为过程信念模型 (Process Belief Model, PBM),以对每个信念更新步骤进行评分。在推理过程中,PBM 评估来自 LLM 的候选信念轨迹 (belief traces),并选择得分最高的轨迹。这使得 LLMs 能够分配额外的推理时计算资源,以产生更透明的推理。跨模型规模和基准的实验表明,DEL-ToM 持续改进性能,证明了可验证的信念监督 (verifiable belief supervision) 显著增强了 LLMs 的 ToM 能力,而无需重新训练。代码可在 https://github.com/joel-wu/DEL-ToM 获取。
1.6. 原文链接
/files/papers/691c896125edee2b759f3360/paper.pdf (预印本状态)
2. 整体概括
2.1. 研究背景与动机
论文关注的核心问题是大型语言模型 (Large Language Models, LLMs) 在处理理论心智 (Theory-of-Mind, ToM) 任务时的局限性。具体来说,LLMs 往往缺乏动态逻辑推理 (dynamic logical reasoning) 的能力,这使得它们难以理解和预测智能体 (agents) 的信念、欲望和意图。
为什么这个问题在当前领域是重要的?
- 社会智能的基础: ToM 是社会智能 (social intelligence) 的基本组成部分,它使智能体能够推断他人的想法、意图或知识,并预测其行为。对于构建能够与人类有效互动、理解人类期望的人工智能智能体至关重要。
- 低资源部署的挑战: 尽管大型 LLMs 在 ToM 任务上表现出一定能力,但这种能力遵循缩放定律 (scaling law),小型模型表现有限。这对于资源受限的部署场景(如边缘智能体需要推断用户意图)构成了挑战。
- 现有评估的局限性: 当前对 LLMs ToM 能力的评估通常只比较最终输出与真实标签,无法区分正确答案是源于真实推理还是偶然猜测。这导致了现有 ToM 推理的不可验证性 (unverifiable),难以在实际应用中落地。
现有研究存在哪些具体的挑战或空白?
- LLMs 缺乏动态逻辑推理能力。
- 小型 LLMs 在 ToM 任务上表现不足。
- LLMs 的 ToM 推理过程不透明,缺乏可验证性。
这篇论文的切入点或创新思路是什么? 论文从过程可靠性主义 (process reliabilism) 的角度切入,认为可验证的 ToM 推理需要一系列可靠地支持最终结论的中间信念状态。其创新思路在于:
- 将 ToM 推理形式化为基于动态认知逻辑 (Dynamic Epistemic Logic, DEL) 的多步骤动态信念更新过程。
- 通过推理时缩放 (inference-time scaling) 策略,利用一个专门训练的验证器——过程信念模型 (Process Belief Model, PBM),来评估和选择最可靠的信念轨迹 (belief traces)。
2.2. 核心贡献/主要发现
论文提出了 DEL-ToM 框架,并通过实验验证了其有效性,核心贡献和主要发现总结如下:
- 新的 ToM 推理视角: 论文将 ToM 推理视为一个过程可靠性问题,将其建模为多步骤动态信念更新过程。通过这种方式,可以应用推理时缩放来选择更可靠的信念轨迹。
- 基于 DEL 的形式化和 PBM 数据集构建: 论文在动态认知逻辑 (DEL) 框架下形式化了 ToM 推理。利用 DEL 模拟器自动生成无噪声监督的信念过程标签,构建了一个高质量的 PBM 数据集,用于训练能够逐步评估推理过程的 PBM。
- 显著提升 LLMs 的 ToM 性能: 通过在不同模型规模和搜索策略下评估所提出的方法,结果表明 DEL-ToM 持续改进了 LLMs 在标准 ToM 基准测试上的性能。这证明了可验证的信念监督 (verifiable belief supervision) 可以在不重新训练模型参数的情况下,显著增强 LLMs 的 ToM 能力。
- 实现推理时缩放的有效性: 论文展示了通过在推理阶段投入更多计算资源(如增加采样轨迹 或使用集束搜索),可以获得更可靠的推理结果,尤其能让小型模型达到与大型闭源模型相当甚至超越的性能,同时保持部署效率和成本效益。
- PBM 的泛化能力: PBM 即使在与训练数据分布不同的 ToM 任务上,也能有效提高模型准确率,表明它作为通用验证器的能力。
3. 预备知识与相关工作
3.1. 基础概念
为了理解 DEL-ToM 框架,需要先了解几个核心概念:
3.1.1. 理论心智 (Theory-of-Mind, ToM)
- 概念定义:
理论心智 (ToM)是指理解他人心理状态(包括信念、愿望、意图、知识、情感等)并根据这些心理状态预测他人行为的能力。它是个体进行社会交往、合作和理解复杂社会情境的基础。例如,知道“小明以为巧克力在柜子里,但他不知道小红把它拿走了”就是一种 ToM 能力。 - 在 LLM 中的挑战: LLMs 模仿人类语言模式的能力很强,但在动态地、逻辑地推断复杂、多层级信念(例如“A 认为 B 认为 C 认为 X 在哪里”)时,往往面临挑战。
3.1.2. 大型语言模型 (Large Language Models, LLMs)
- 概念定义:
大型语言模型 (LLMs)是指拥有数十亿甚至数千亿参数的深度学习模型,通过在海量文本数据上进行训练,学习语言的统计规律和语义信息。它们能够执行文本生成、摘要、翻译、问答等多种自然语言处理任务。 - 在 ToM 中的应用: 近期研究表明,大型 LLMs 在 ToM 任务上展现出一定能力,但其推理过程通常是黑箱的,且小模型能力有限。
3.1.3. 动态认知逻辑 (Dynamic Epistemic Logic, DEL)
动态认知逻辑 (DEL) 是一种形式逻辑系统,用于建模和推理关于智能体的知识和信念,以及这些知识和信念如何随着事件的发生而动态变化。它建立在 克里普克可能世界语义 (Kripke's possible-world semantics) 基础上。
-
克里普克可能世界语义 (Kripke's possible-world semantics): 这是模态逻辑 (modal logic) 的标准语义。它通过一组
可能世界 (possible worlds)来表示不同的状态或情境。在一个给定的世界中,某些命题为真,而在另一个世界中可能为假。智能体的知识或信念被定义为在所有智能体认为“可能”的世界中都为真的命题。这些“可能”的世界通过可达关系 (accessibility relations)连接起来。 -
DEL 的核心组成部分:
- 原子命题 (atomic propositions) : 表示关于世界的基本事实,例如“巧克力在抽屉里”。
- 智能体 (agents) : 参与推理的实体,例如“约翰”、“玛丽”。
- 认知模型 (Epistemic Model) : 描述智能体的信念状态,将在方法论中详细解释。
- 事件模型 (Event Model) : 描述发生的动作或事件,以及这些事件如何影响智能体的信念,也将在方法论中详细解释。
- 产品更新 (Product Update): 结合认知模型和事件模型,计算事件发生后新的信念状态,同样将在方法论中详细解释。
3.1.4. 过程可靠性主义 (Process Reliabilism)
- 概念定义:
过程可靠性主义 (Process Reliabilism)是一种认识论 (epistemology) 理论,它认为一个信念是正当的或有证成的 (justified),当且仅当它是由一个可靠的过程(如视觉、记忆、推理等)产生的。一个可靠的过程是指在正常运作下,倾向于产生真信念的过程。 - 在 ToM 中的应用: 论文借鉴这一思想,提出可验证的 ToM 推理需要一个可靠的中间信念状态序列,而不仅仅是最终结果的正确性。通过
DEL形式化这个过程,并用PBM评估每一步的可靠性。
3.1.5. 推理时缩放 (Inference-Time Scaling)
- 概念定义:
推理时缩放 (Inference-Time Scaling)是一种在不改变模型架构或重新训练模型参数的前提下,通过在模型推理阶段投入额外计算资源来提升模型性能的策略。这与增加模型规模或在训练阶段投入更多资源形成对比。 - 常见方法: 包括生成多个候选答案并进行选择(例如
N-最佳选择 (Best-of-N, BoN)),或者通过搜索算法(例如集束搜索 (Beam Search))探索推理路径。 - 在 DEL-ToM 中的应用: DEL-ToM 利用
PBM来指导BoN和集束搜索这两种推理时缩放策略,以选择最可靠的信念轨迹。
3.2. 前人工作
论文在相关工作部分提及了多个与 DEL-ToM 相关的研究方向:
3.2.1. DEL 及其与 ToM 的联系
- 历史渊源:
DEL的发展可追溯到Hintikka关于知识和信念的可能世界模型 (Hintikka, 1962) 和Kripke的形式语义 (Kripke, 1963)。随后,它通过对信息变化的建模 (Baltag et al., 1998) 而演进。 - 形式化统一:
Van Ditmarsch et al. (2007)将DEL统一为认知模型、事件模型和产品更新的框架,用于表示和更新智能体的信念。这与ToM中关于他人信念推理的核心概念自然吻合。 - 早期认知模型:
Bolander and Andersen (2011)使用DEL模拟多智能体环境中的信念变化,展示了其在结构化信念推理中的适用性。 - 逻辑模拟器:
Bolander (2014)和Hansen and Bolander (2020)使用基于逻辑的模拟器为信念更新提供符号监督 (symbolic supervision)。 - 本文的定位:
DEL-ToM继承并发展了这一路线,不仅将DEL作为建模信念的形式化工具,更将其作为推理时缩放的支架,以实现ToM任务中组合式和可验证的推理。
3.2.2. LLMs 的推理时缩放
- 替代模型规模增长: 近期工作将
推理时缩放视为提高推理能力的一种替代方法,而非简单地增加模型规模 (Beeching et al., 2024; Muennighoff et al., 2025)。 - 两种主要范式:
- 单轨迹缩放 (single-trace scaling): 鼓励在单个推理路径中进行更深入的推理,通常通过强化学习 (Guo et al., 2025a; Cheng et al., 2025) 或从更强大的教师模型中进行知识蒸馏 (Li et al., 2025)。
- 多轨迹缩放 (multi-trace scaling): 并行生成多个推理轨迹,并通过投票 (Wang et al., 2023, 2025) 或外部验证器 (Wang et al., 2024; Sun et al., 2024; Guo et al., 2025b; Saad-Falcon et 1 al., 2025) 选择最佳结果。
- 结合搜索算法: 还有工作将多轨迹生成与搜索算法(如树搜索和集束搜索)结合,逐步优化推理 (Zhang et al., 2024; Lin et al., 2025)。
- 本文的定位:
DEL-ToM遵循多轨迹缩放范式,并引入PBM指导的选择机制,将推理时缩放扩展到ToM任务。
3.3. 技术演进
ToM 研究从认知科学和哲学领域发端,探讨人类如何理解他人心智。随着人工智能的发展,特别是 LLMs 的兴起,研究者开始评估这些模型是否具备 ToM 能力。早期评估多停留在最终答案的准确性,但模型的黑箱特性和推理过程的不可验证性成为瓶颈。
与此同时,形式逻辑领域,特别是 DEL,为建模多智能体的知识和信念变化提供了严谨的数学框架。它能够精确描述“A 知道 B 相信 C 做了什么”这样的复杂信念结构。
本文的工作正是在这两个领域交汇处。一方面,它利用 DEL 的形式化能力,为 LLMs 的 ToM 推理过程提供结构化和可验证的骨架。另一方面,它结合了 推理时缩放 的思想,通过引入一个 PBM,在不修改 LLM 本身架构的情况下,提升其 ToM 性能,并增强了推理过程的透明度和可靠性。这种结合标志着 LLMs 从单纯的模式匹配向更深层次的逻辑推理和可解释性迈进。
3.4. 差异化分析
DEL-ToM 与现有工作的核心区别和创新点在于:
- 验证机制的来源: 多数
推理时缩放方法(尤其是多轨迹缩放)依赖于投票或由LLM自身生成或人类标注的奖励模型。DEL-ToM则利用DEL模拟器自动生成高质量、无噪声的过程级标签 (process-level labels)来训练PBM。这种DEL驱动的监督机制保证了验证器的准确性和逻辑严谨性,提供了比其他奖励模型更“真”的真值 (Ground Truth)。 - 推理过程的结构化与可验证性: 不同于一般
LLM任务中对最终答案的评估,DEL-ToM将ToM任务分解为基于DEL的一系列信念更新步骤。PBM对每一步进行评分,使得推理过程透明化、结构化,并具备了可验证性,这是现有LLMToM评估方法所缺乏的。 - 聚焦动态逻辑推理:
DEL-ToM明确利用DEL的能力来处理ToM任务中的动态逻辑推理,即信念如何随着事件的发生而演变。这使得它能够更好地处理复杂的多阶信念更新。 - 不改变基础 LLM:
DEL-ToM是一种推理时缩放框架,这意味着它不需要对底层的LLM进行微调 (fine-tuning)或重新训练,从而具有更强的通用性和部署灵活性,能够应用于任何现有的LLM。这与RL或蒸馏 (distillation)等需要重新训练或微调模型参数的方法形成对比。 - 对小模型的赋能: 论文实验结果表明,
DEL-ToM能够显著提升小型LLM的ToM性能,使其能够与甚至超越大型SOTA模型,这对于资源受限的部署场景具有重要意义。
4. 方法论
DEL-ToM 框架的核心思想是将 理论心智 (ToM) 推理视为一个多步骤的 动态信念更新 (dynamic belief-update) 过程,并通过 动态认知逻辑 (Dynamic Epistemic Logic, DEL) 进行形式化。在此基础上,训练一个 过程信念模型 (Process Belief Model, PBM) 来评估 大型语言模型 (LLMs) 生成的每一步信念更新,从而在推理时选择最可靠的信念轨迹。
4.1. 方法原理
所用方法的核心思想是:复杂的 ToM 推理可以被分解为一系列离散的信念状态更新。每一个行动或事件都会触发一次信念更新,改变智能体关于世界和其他智能体信念的认知。如果能准确地评估和指导这些中间信念更新的质量,就能提升最终 ToM 任务的准确性和可验证性。DEL 提供了一个严谨的数学框架来描述这些信念状态和更新规则,而 PBM 则充当了一个“裁判”,对 LLM 生成的每一步 DEL 形式化的推理进行打分,指导 LLM 寻找最佳推理路径。
4.2. 核心方法详解
4.2.1. 将 ToM 推理形式化为 DEL
论文将 ToM 推理形式化到 DEL 框架中,DEL 基于 克里普克可能世界语义 (Kripke's possible-world semantics)。
-
语言定义: 设 是一个可数的
原子命题 (atomic propositions)集合,表示关于世界的基本事实(例如,“巧克力在抽屉里”)。设 是一个有限、非空的智能体 (agents)集合(例如,“约翰”、“玛丽”)。认知语言 由以下巴克斯-诺尔范式 (Backus-Naur form)定义:其中 , , 且 表示
良构公式 (well-formed formulas)。公式 被解读为“智能体 相信 ”。例如,“约翰相信巧克力在抽屉里”可以写成 。 -
认知模型 (Epistemic Model):
定义 1 (认知模型).一个关于智能体集合 和命题集合 的认知模型 (Epistemic Model)是一个三元组 ,其中:-
是
可能世界 (possible worlds)的集合,每个世界是对 的完整赋值; -
为每个智能体 分配一个
可达关系 (accessibility relation)R _ { a }; -
将每个原子命题 映射到 为真的世界集合。
一个
状态 (state)是一个有基点的认知模型 (pointed epistemic model),其中 是被指定的实际世界 (actual world)。 我们用w R _ { a } v表示世界 在智能体 看来可以从世界 到达:在世界 中,智能体 认为 是可能的。
基于
认知模型 (Epistemic Model)和指定世界 ,对于 的满足关系 (satisfaction relation)定义如下:- 当且仅当 ;
- 当且仅当对于所有 使得
w R _ { a } v,我们有 。 (解释:智能体 相信 意味着在所有 认为可能的世界中, 都为真。)
-
-
事件模型 (Event Model):
定义 2 (事件模型).一个事件模型 (Event Model)是一个四元组 , pre, post),其中:-
是一个有限、非空的
事件 (events)集合; -
为每个智能体 分配一个事件上的
不可区分关系 (indistinguishability relation)Q _ { a }; -
pre: 为每个 分配一个前置条件 (precondition),指定事件 何时可执行; -
post: 为每个 分配一个后置条件 (postcondition),描述世界如何因事件 发生而改变。我们称一个
有基点的事件模型 (pointed event model)为一个行动 (action),其中 是实际发生的事件。
-
-
产品更新 (Product Update):
定义 3 (产品更新).设 是一个状态,其中 ,设 是一个行动,其中 , pre, post)。假设前置条件得到满足,即 。那么产品更新 (product update)结果是一个新的状态 ,其中更新后的认知模型 (epistemic model)定义如下:- ; (解释:新的可能世界集合 由原始世界 和事件 的笛卡尔积中,满足事件前置条件的世界-事件对组成。)
- 对于每个 , ;
(解释:新的可达关系 由原始可达关系 和事件的不可区分关系 共同决定。如果智能体 在旧世界中认为 是 的可能世界,并且在事件发生时认为 和 是不可区分的,那么在新状态中, 仍然认为
(v', f')是(w', e')的可能世界。) - 当且仅当 或 ,对于每个 。
(解释:新的赋值函数 决定原子命题 在新世界
(w', e')中是否为真。这取决于事件 的后置条件是否直接使 为真,或者在原始世界 中 为真且 的后置条件不使 为真。)
-
将 DEL 应用于 ToM 推理的示例: 论文通过图 2(
图像 2)中的状态 4-6 来阐述DEL的应用。- 在
状态 4:玛丽和爱丽丝都在场,观察到巧克力在桌子上,因此 (巧克力在桌子上为真)并且 (玛丽和爱丽丝只认为实际世界 是可能的)。 - 在
行动 5:玛丽离开厨房,其前置条件 (precondition)(总是为真),后置条件 (postcondition)(事实不变),所以玛丽将不再观察后续行动。 - 在
行动 6:爱丽丝将巧克力移到橱柜中,其前置条件 (precondition),后置条件 (postcondition)cupboard —table(巧克力在橱柜里且不在桌子上)。 - 经过
产品更新 (product update)后,实际状态 满足 (巧克力实际在橱柜里)。 - 爱丽丝的
可达关系 (accessibility relation)指向橱柜世界 (cupboard-worlds),而玛丽的可达关系 (accessibility relation)仍然指向桌子世界 (table-world)(因为她离开了,不知道后续移动)。 - 因此,推导出:
其中 表示“巧克力在桌子上”。这说明玛丽认为爱丽丝相信巧克力在桌子上。此例表明
DEL推理的核心在于在每个状态下构建正确的可达关系 (accessibility relations),找到与智能体信念兼容的世界。
- 在
4.2.2. 构建过程信念模型 (PBM)
过程信念模型 (PBM) 旨在评估 LLM 生成的 信念轨迹 (belief traces) 的每一步。
-
通过 DEL 生成过程级标签 (Generating Process-Level Labels via DEL):
- 论文将
DEL 模拟器 (DEL simulator)集成到Hi-ToM生成器中 (Wu et al., 2023),合成了 20,000 个带有过程标签 (process labels)的ToM故事。 - 对于每个故事,在每个行动步骤,根据行动的语义以及观察是公开还是私密的,更新
可达关系 (accessibility relations),并记录信念状态到轨迹集合中。 - 这些
DEL生成的标签是无噪声的,保证了正确性。
- 论文将
-
数据集组装 (Dataset Assembly):
- 对于每个合成的故事,论文提示
GPT-4o-mini(Hurst et al., 2024) 以DEL格式生成逐步的信念更新。 - 然后将
LLM生成的轨迹与DEL生成的每步标签配对,形成训练实例,为过程级奖励建模 (process-level reward modeling)提供正例和负例监督。
- 对于每个合成的故事,论文提示
-
训练 PBM (Training the PBM):
-
PBM是一个评分函数 ,它为GPT-4o-mini生成的信念轨迹 中的每一步s _ { i }赋予一个分数,给定ToM问题 。 -
这被视为一个
二元分类任务 (binary classification task):根据DEL生成的信念轨迹,每一步被标记为正确或不正确。 -
模型使用以下
二元交叉熵损失 (binary cross-entropy loss)进行训练:其中:
- 是步骤的数量。
y _ { s _ { i } }是二元标签 (binary label),表示步骤 是否正确(1 代表正确,0 代表不正确)。- 是
PBM对步骤 预测的得分(介于 0 和 1 之间)。 损失函数 (Loss function)的目标是最小化预测得分与真实标签之间的差异。
-
4.2.3. 推理时缩放流程 (Inference-Time Scaling Pipeline)
论文探讨了两种 推理时缩放 策略,利用 PBM 来指导 信念轨迹 的排名和选择。
-
集束搜索 (Beam Search):
集束搜索是一种解码方法,在生成过程中维护多个部分信念轨迹。- 在每个行动步骤,
LLM观察到目前的轨迹,并为当前状态提出多个候选信念更新。 PBM对这些候选进行评分,并选择一个得分较高的子集以继续推理。- 这个过程重复进行,直到所有行动都被处理完毕。
- 形式化过程:
- 用从模型中采样的 个候选第一步更新初始化 个
集束 (beams)。 - 用 个下一步候选扩展每个
集束,生成 条部分路径。 - 用
PBM对每条路径进行评分,按最新一步的得分进行排名。 - 保留得分最高的 条路径,并迭代此过程,直到达到序列结束或最大深度。
- 用从模型中采样的 个候选第一步更新初始化 个
- 在每个行动步骤,
-
N-最佳选择 (Best-of-N, BoN):
BoN方法则不同,LLM在阅读整个故事后,生成 条完整的信念轨迹。-
PBM对这些轨迹中的每一步进行评分。 -
将
步级评分 (step-wise scores)聚合为过程级奖励 (process-level reward)。 -
重新排名候选轨迹,识别出最可靠的轨迹作为最终输出。
-
用于计算轨迹级分数的聚合规则:
最后一步 (Last):使用最后一步的PBM分数。最小值 (Min):使用所有步骤中的最低分数。平均值 (Avg):使用所有步骤分数的平均值。乘积 (Prod):将所有步骤的分数相乘。多数投票 (Majority):不使用PBM,而是通过简单多数投票选择最终答案(仅聚合最终答案,而非过程)。
-
基于聚合分数的两种排名策略:
-
香草 BoN (Vanilla BoN):选择PBM分数最高的单个轨迹。 -
加权 BoN (Weighted BoN):将轨迹按其最终答案分组,形成候选集合 。然后对每个组内的PBM分数求和,并选择总分最高的答案 :其中:
- 是被选中的最终答案。
- 是所有不同最终答案的集合。
- 是生成的总轨迹数量。
- 是
指示函数 (indicator function),当轨迹 的最终答案 等于当前考虑的答案 时,其值为 1,否则为 0。 - 是
PBM为轨迹 计算的过程级奖励 (process-level reward)(基于上面选择的聚合规则)。 (解释:这个公式意味着对于每一个可能的最终答案 ,我们都找出所有导向这个答案的轨迹,并将这些轨迹的PBM评分加总。最终选择总分最高的答案作为模型输出。)
-
-
5. 实验设置
5.1. 数据集
实验在两个 ToM 数据集上进行评估:
- Hi-ToM (Wu et al., 2023): 这是一个用于评估
LLMs高阶ToM推理能力的基准数据集。在本文中,评估仅限于单章节故事 (one-chapter stories)。- 特点:
Hi-ToM故事通常涉及多个智能体,以及复杂的信念层级(例如,“A 认为 B 认为 C 认为 X”),这要求模型进行多步的信念更新和推理。
- 特点:
- Kosinski's dataset (Kosinski, 2024): 这个数据集包含手写场景,带有
错误信念 (false-belief)和真实信念 (true-belief)控制。- 特点: 实验中,评估范围被限制在
意外转移任务 (unexpected transfer task)。这类任务通常涉及一个物体被移动而主角不知情,模型需要根据主角的过时信念来预测其行为。这代表了一种更经典的ToM任务类型,用于测试PBM在域外 (out-of-domain)数据上的泛化能力。
- 特点: 实验中,评估范围被限制在
数据集中的具体样本示例
论文提供了 提示模板 (Prompt Templates),其中包含一个 Hi-ToM 风格的示例故事和问题,以及预期的 推理轨迹 (Trace)。这有助于理解数据的形态和推理过程的要求。
以下是原文附录 A 中提供的示例故事片段和问题格式:
Here is a story that unfolds in chronological order.
You will be asked a question about the story, which may involve either: (1) Locating an object, or (2) Inferring an agent's mental state (e.g., what A thinks B thinks C thinks).
To solve it, think step-by-step. At each step, repeat the current line from the story, then explain its effect on beliefs. Use [Null] if someone does not yet have knowledge. If a belief chain cannot be formed (e.g., some agent exited too early), freeze belief at the last available step.
<Note> {note}
In public or private communication:
- The speaker believes the listener will believe the claim. If the listener exited the room earlier than the speaker, they will believe it.
If the question is zero-order (e.g., "Where is X really?"), then in each step, only track the actual location of the object (e.g., "X is in [Y]"). You do not need to track nested beliefs.
Here is an example: <Story>
1 Amelia, Chloe, Liam, Owen and Benjamin entered the TV_room.
2 The celery is in the red_envelope.
3 Amelia made no movements and stayed in the TV_room for 1 minute.
4 Chloe lost his watch.
5 Amelia exited the TV_room.
6 Chloe moved the celery to the green_bucket.
7 Chloe exited the TV_room.
8 Liam moved the celery to the red_bathtub.
9 Liam exited the TV_room.
10 Owen made no movements and stayed in the Tv_room for 1 minute.
11 Owen exited the TV_room.
12 Benjamin made no movements and stayed in the TV_room for 1 minute.
13 Benjamin exited the TV_room.
14 Amelia, Chloe, Liam, Owen and Benjamin entered the waiting_room.
15 Liam publicly claimed that celery is in the white_bathtub now.
16 Benjamin privately told Liam that the celery is in the blue_drawer now.
<Question> Where does Owen think Liam thinks Chloe thinks the celery is?
<Trace>
## Step 1 ##
Amelia, Chloe, Liam, Owen and Benjamin entered the Ty_room. Everyone is present, but the celery's location is still unknown. Owen thinks Liam thinks Chloe thinks the celery is in [Null] ## Step 2 ##
The celery is in the red_envelope.
Everyone observes this.
Owen thinks Liam thinks Chloe thinks the celery is in [red_envelope]
## Step 3 ##
Amelia made no movements and stayed in the TV_room for 1 minute.
No effect.
Owen thinks Liam thinks Chloe thinks the celery is in [red_envelope]
## Step 4 ##
Chloe lost his watch.
Irrelevant.
Owen thinks Liam thinks Chloe thinks the celery is in [red_envelope]
## Step 5 ##
Amelia exited the TV_room.
Irrelevant.
Owen thinks Liam thinks Chloe thinks the celery is in [red_envelope]
## Step 6 ##
Chloe moved the celery to the green_bucket.
Only Chloe, Liam, Owen, Benjamin are present. They all see this move. Owen thinks Liam thinks Chloe thinks the celery is in [green_bucket]
## Step 7 ##
Chloe exited the TV_room.
Chloe's belief frozen; still [green_bucket]
Owen thinks Liam thinks Chloe thinks the celery is in [green_bucket]
## Step 8 ##
Liam moved the celery to the red_bathtub.
Only Liam, Owen, Benjamin present. They observe the move. Chloe not present, so her belief unchanged.
Owen thinks Liam thinks Chloe thinks the celery is in [green_bucket]
## Step 9 ##
Liam exited the TV_room.
No change.
Owen thinks Liam thinks Chloe thinks the celery is in [green_bucket]
## Step 10 ##
Owen made no movements and stayed in the Tv_room for 1 minute.
Irrelevant.
Owen thinks Liam thinks Chloe thinks the celery is in [green_bucket]
## Step 11 ##
Owen exited the TV_room.
Owen's belief frozen.
Owen thinks Liam thinks Chloe thinks the celery is in [green_bucket]
## Step 12 ##
Benjamin made no movements and stayed in the TV_room for 1 minute.
Irrelevant.
Owen thinks Liam thinks Chloe thinks the celery is in [green_bucket]
## Step 13 ##
Benjamin exited the TV_room.
No change.
Owen thinks Liam thinks Chloe thinks the celery is in [green_bucket]
## Step 14 ##
Everyone entered the waiting_room.
No effect on beliefs.
Owen thinks Liam thinks Chloe thinks the celery is in [green_bucket]
## Step 15 ##
Liam publicly claimed that celery is in the white_bathtub now.
ven hears this statement. However, public speech only affects first- and second-order beliefs (e.g., what Liam believes, what Owen thinks Liam believes, and what Liam thinks Owen believes). It does not change Owen's belief about what Liam thinks Chloe thinks.
wen thinks Liam thinks Chloe thinks the celery is in [green_bucket]
## Step 16 ##
Benjamin privately told Liam that the celery is in the blue_drawer now.
Owen does not hear this, but more importantly, private communication only affects beliefs between the speaker and the listener. It can change what Liam believes (based on exit order), or what Liam thinks Benjamin believes (based on exit order), or what Benjamin thinks Liam believes (always change ) - but it cannot affect higher-order beliefs. So this does not change Owen 's belief about what Liam thinks Chloe thinks.
Give a step-by-step trace as in the example. Then, give the final answer in one line like:
Final Answer: [your choice]
5.2. 评估指标
论文使用 最终答案准确率 (final answer accuracy) 作为主要的评估指标。
- 概念定义:
最终答案准确率 (final answer accuracy)衡量模型在ToM任务中对问题给出正确最终答案的比例。在ToM任务中,这通常意味着模型正确预测了某个智能体关于物体位置或另一个智能体信念的最终状态。 - 数学公式:
- 符号解释:
Number of Correct Predictions:模型给出正确最终答案的问题数量。Total Number of Predictions:评估中所有问题的总数量。
5.3. 对比基线
论文将 DEL-ToM 方法与一系列 LLMs 进行了比较,这些模型涵盖了不同的规模和开源/闭源类型:
- 开源模型系列:
Qwen3系列:0.6B,1.7B,4B,8B(Yang et al. 2025)Llama3.2系列:1B,3B(Grattafiori et al., 2024)
- 闭源模型:
gpt-4.1gpt-4ogpt-4.1-minigpt-4o-mini
- 其他基线模型:
-
04-mini(与gpt-4o-mini类似) -
gpt-4.1-nano -
Qwen3-235B-A22B(Yang et al., 2025) -
DeepSeek-V3(Liu et al., 2024) -
OLMo-2-0325-32B(Walsh et al., 2025)这些基线模型代表了当前
LLM领域的不同规模和能力水平,包括了最新的开源模型和主流的闭源API模型,确保了比较的全面性和代表性。所有模型都在其默认生成设置下进行评估,并使用一致的提示格式。
-
5.4. 平台与 PBM 训练
- 平台: 所有实验均在单个
NVIDIA GH200 GPU节点上进行。为了高效的批处理推理和大规模解码,使用了vLLM框架 (Kwon et al., 2023)。 - PBM 训练:
PBM是基于Llama3.1-8B-Instruct(Grattafiori et al., 2024) 进行微调 (fine-tuning)的。模型使用论文合成的数据集进行训练,训练了1个周期 (epoch)。
6. 实验结果与分析
6.1. 核心结果分析
6.1.1. Hi-ToM 数据集上的结果
以下是原文 Table 1 展示的 Hi-ToM 数据集上使用 BoN 和 集束搜索 (Beam Search) 进行 推理时缩放 的结果:
| Model | 0-th Order | 1-th Order | 2-th Order | 3-th Order | 4-th Order | Average | ||||||
| Ori | +PBM | Ori | +PBM | Ori | +PBM | Ori | +PBM | Ori | +PBM | Ori | +PBM | |
| BoN (N = 1024) | ||||||||||||
| Qwen3-4B | 100.0 | 100.0 | 79.8 | 85.0 | 79.3 | 90.0 | 70.2 | 82.5 | 46.0 | 65.0 | 75.1 | 84.5 |
| Qwen3-1.7B | 78.0 | 82.5 | 59.7 | 65.0 | 45.2 | 55.0 | 47.0 | 62.5 | 47.8 | 57.5 | 55.5 | 64.5 |
| Qwen3-0.6B | 69.2 | 80.0 | 52.0 | 72.5 | 35.0 | 47.5 | 31.5 | 52.5 | 34.0 | 47.5 | 44.3 | 60.0 |
| Llama3.2-3B | 68.2 | 85.0 | 52.0 | 80.0 | 43.2 | 82.5 | 37.0 | 82.5 | 36.8 | 75.0 | 47.4 | 81.0 |
| Llama3.2-1B | 41.5 | 46.2 | 40.0 | 53.8 | 28.5 | 61.5 | 41.5 | 84.6 | 29.2 | 58.3 | 36.1 | 60.9 |
| BoN (N = 4) | ||||||||||||
| gpt-4.1 | 95.0 | 97.5 | 85.0 | 87.5 | 85.0 | 92.5 | 82.5 | 95.0 | 70.0 | 77.5 | 83.5 | 90.0 |
| gpt-4.1-mini | 77.5 | 70.0 | 90.0 | 85.0 | 70.0 | 75.0 | 75.0 | 92.5 | 77.5 | 92.5 | 78.0 | 83.0 |
| gpt-40 | 100.0 | 100.0 | 85.0 | 90.0 | 82.5 | 92.5 | 90.0 | 97.5 | 77.5 | 85.0 | 87.0 | 93.0 |
| gpt-4o-mini | 90.0 | 100.0 | 75.0 | 87.5 | 77.5 | 95.0 | 77.5 | 100.0 | 55.0 | 85.0 | 75.0 | 93.5 |
| Beam Search (N = 256) | ||||||||||||
| Qwen3-8B | 96.5 | 80.0 | 53.3 | 80.0 | 38.8 | 85.0 | 55.8 | 95.0 | 57.8 | 95.0 | 60.4 | 87.0 |
| Qwen-4B | 100.0 | 100.0 | 79.8 | 85.0 | 79.3 | 97.5 | 70.2 | 82.5 | 46.0 | 60.0 | 75.1 | 85.0 |
- PBM 的普遍提升效果: 从
Table 1可以看出,无论是在BoN还是集束搜索设置下,整合PBM都一致地提升了所有LLMs的ToM推理性能。- 例如,
Llama3.2-3B的平均准确率提高了 33.6 个百分点(从 47.4 到 81.0)。 Qwen3-4B的平均准确率提高了 9.4 个百分点(从 75.1 到 84.5)。- 即使是
gpt系列的闭源模型,也显示出明显的性能提升。gpt-4o-mini的平均准确率从 75.0 提升到 93.5,提升了 18.5 个百分点。
- 例如,
- 高阶信念推理的挑战与提升: 随着信念阶数(例如,0-th Order 到 4-th Order)的增加,基线模型的性能通常会下降,反映了高阶
ToM推理的固有难度。然而,PBM在所有信念阶数上都带来了显著的性能提升,尤其是在高阶信念任务中,提升幅度往往更大。例如,Llama3.2-3B在 4-th Order 任务上从 36.8 提升到 75.0,提升了 38.2 个百分点。 - 集束搜索的特殊表现: 值得注意的是,
Qwen3-8B在基线设置下表现不如Qwen3-4B,但经过PBM指导的集束搜索后,其准确率达到 87.0,成为表现最佳的模型之一,这表明PBM能够解锁模型潜在的高阶推理能力。
6.1.2. 与最先进 LLMs 的比较
以下是原文 Table 2 展示的 Hi-ToM 数据集上与最先进 LLMs 的比较结果:
| Model | 0-th | 1-th | 2-th | 3-th | 4-th | Avg. |
| 04-mini | 97.5 | 95.0 | 77.5 | 87.5 | 85.0 | 88.5 |
| gpt-4o | 100.0 | 85.0 | 82.5 | 90.0 | 77.5 | 87.0 |
| Qwen3-4B+PBM | 100.0 | 85.0 | 90.0 | 82.5 | 65.0 | 84.5 |
| Qwen3-235B-A22B | 100.0 | 75.0 | 85.0 | 85.0 | 75.0 | 84.0 |
| gpt-4.1 | 95.0 | 85.0 | 85.0 | 82.5 | 70.0 | 83.5 |
| DeepSeek-V3 | 100.0 | 80.0 | 90.0 | 70.0 | 72.5 | 82.5 |
| Llama3.2-3B+PBM | 85.0 | 80.0 | 82.5 | 82.5 | 75.0 | 81.0 |
| gpt-4.1-mini | 77.5 | 90.0 | 70.0 | 75.0 | 77.5 | 78.0 |
| gpt-4o-mini | 90.0 | 75.0 | 77.5 | 77.5 | 55.0 | 75.0 |
| Qwen3-1.7B+PBM | 82.5 | 65.0 | 55.0 | 62.5 | 57.5 | 64.5 |
| OLMo-32B | 77.5 | 60.0 | 60.0 | 65.0 | 52.5 | 63.0 |
| Llama3.2-1B+PBM | 46.2 | 53.8 | 61.5 | 84.6 | 58.3 | 60.9 |
| Qwen3-0.6B+PBM | 80.0 | 72.5 | 47.5 | 52.5 | 47.5 | 60.0 |
| gpt-4.1-nano | 22.5 | 32.5 | 42.5 | 27.5 | 30.0 | 31.0 |
- 小模型超越大模型:
Table 2的结果强调了PBM在推理时缩放ToM推理方面的有效性。较小的开源模型在应用PBM后,能够匹敌甚至超越许多更大的LLMs。- 例如,
Qwen3-4B+PBM的平均准确率达到 84.5,超过了gpt-4.1(83.5)、DeepSeek-V3(82.5) 和OLMo-32B(63.0)。 Llama3.2-3B+PBM(81.0) 表现与gpt-4.1-mini(78.0) 相当。
- 例如,
- 这表明
DEL-ToM提供了一种高效的途径,使得资源受限的部署场景也能实现强大的ToM能力,而无需依赖庞大的模型。
6.1.3. 缩放测试时计算以进行 ToM 推理
以下是原文 Figure 3 展示的 Qwen3-4B 在 Hi-ToM 数据集上不同预算 下 BoN 解码的准确率:

该图像是图表, 展示了 Qwen3-4B 在 Hi-ToM 数据集上的 Vanilla 和 Weighted 最佳解码策略的准确性。图中展示了不同预算 (表示路径数量)下的准确率变化,其中 (a) 为 Vanilla 策略,(b) 为 Weighted 策略。
Figure 3: Accuracy of BoN decoding on Qwen3-4B across different budgets in the Hi-ToM dataset. Results are shown for (a) Vanilla and (b) Weighted aggregation strategies.
- PBM 对性能的指导作用:
Figure 3显示,只有在PBM的指导下,增加采样的信念轨迹数量 才能有效提升ToM性能。当 增加时,基线模型(没有PBM指导)的性能几乎没有提升,甚至可能因为引入更多噪声而下降。 - 聚合策略的有效性: 在
PBM指导下,最小值 (min)和乘积 (prod)聚合策略表现最可靠,它们能有效识别并惩罚轨迹中的错误步骤。 - 平均值和最后一步策略的局限性:
平均值 (avg)和最后一步 (last)策略在加权聚合 (weighted aggregation)下表现往往不佳,这可能因为它们对早期或中间步骤的错误不够敏感,或者容易被部分正确的轨迹误导。 - 多数投票的失败:
多数投票 (majority voting)未能提高准确率。论文在附录 B 中提供了理论分析,解释了多数投票容易受到投票稀释 (vote dilution)的影响:如果轨迹中正确步骤的概率 较低(对于小模型或困难的ToM问题),错误的轨迹可能会聚集在某些错误的答案上,从而主导投票结果。这表明ToM任务需要评估中间信念状态,而非简单聚合最终答案。
6.1.4. BoN vs. 集束搜索
实验结果表明,BoN 和 集束搜索 这两种 推理时缩放 策略在准确率上表现相当。然而:
- 集束搜索的局限性:
集束搜索在较小或较弱的模型上往往难以可靠地生成有效的中间推理步骤,这使得PBM的评估变得不可行。 - BoN 的优势: 相比之下,
BoN可以一次性生成完整的信念轨迹。即使某些步骤存在噪声,PBM也能有效地工作,并且通过vLLM等高吞吐量后端可以高效生成大量候选轨迹。 - 推荐: 因此,论文推荐
BoN作为ToM推理中首选的推理时缩放方法。
6.1.5. 域外 ToM 数据集上的结果
以下是原文 Table 3 展示的 Kosinski (Kosinski, 2024) 数据集上 BoN () 推理时缩放 的结果:
| Model | False Belief | Informed Protagonist | No Transfer | Present Protagonist | Average | |||||
| Ori | +PBM | Ori | +PBM | Ori | +PBM | Ori | +PBM | Ori | +PBM | |
| Qwen3-8B | 83.3 | 87.5 | 83.8 | 85.0 | 92.8 | 97.5 | 79.5 | 85.0 | 84.8 | 88.8 |
| Qwen3-4B | 70.2 | 80.0 | 86.2 | 90.0 | 93.2 | 95.0 | 88.0 | 92.5 | 84.4 | 89.4 |
| Qwen3-1.7B | 18.2 | 35.0 | 15.5 | 37.5 | 24.8 | 60.0 | 13.8 | 30.0 | 18.1 | 40.6 |
| Qwen3-0.6B | 14.5 | 12.5 | 23.5 | 30.0 | 25.0 | 35.0 | 21.0 | 32.5 | 21.0 | 27.5 |
- PBM 的泛化能力: 尽管
PBM是在Hi-ToM风格的合成数据上训练的,但Table 3的结果表明它能泛化到来自不同分布的Kosinski数据集。在所有模型上,PBM都提高了准确率。- 例如,
Qwen3-4B的平均准确率从 84.4 提升到 89.4。 Qwen3-1.7B的提升尤为显著,从 18.1 提升到 40.6。
- 例如,
- 鲁棒性: 这证明
PBM作为一个真正的验证器,能够判断ToM推理过程是否合理,而不是仅仅过拟合到训练数据的分布。这凸显了PBM在域外 (out-of-domain)ToM任务上的鲁棒性。
6.1.6. PBM 基准测试
以下是原文 Table 4 展示的 PBM 在测试集上跨信念阶数的分类准确率:
| PBM | 0-th | 1-th | 2-th | 3-th | 4-th | Avg. |
| Llama3.1-8B | 99.2 | 94.6 | 89.0 | 87.0 | 79.9 | 90.0 |
| Llama3.2-3B | 99.1 | 91.9 | 84.9 | 83.8 | 73.8 | 86.7 |
- PBM 自身的准确性:
Table 4评估了PBM作为分类器 (classifier)的独立可靠性。Llama3.1-8B作为PBM表现出更高的准确率(平均 90.0%),这表明更大的基础模型能够更好地学习验证推理步骤。Llama3.2-3B作为PBM的准确率略低(平均 86.7%)。
- 高阶信念的挑战: 随着信念阶数(例如,从 0-th Order 到 4-th Order)的增加,
PBM的分类准确率普遍下降。这表明评估更深层次的递归信念 (recursive beliefs)本身就是一项更具挑战性的任务,即使对于验证器也是如此。
6.1.7. PBM 质量对任务准确率的影响
以下是原文 Table 5 展示的在 Hi-ToM 上使用不同 PBM 进行 BoN 推理时缩放 的准确率:
| Model+PBM | 0-th | 1-th | 2-th | 3-th | 4-th | Avg. |
| Qwen3-4B + 8B | 100.0 | 85.0 | 90.0 | 82.5 | 65.0 | 84.5 |
| Qwen3-4B + 3B | 100.0 | 77.5 | 77.5 | 72.5 | 47.5 | 75.0 |
| Qwen3-1.7B + 8B | 82.5 | 65.0 | 55.0 | 62.5 | 57.5 | 64.5 |
| Qwen3-1.7B + 3B | 82.5 | 60.0 | 45.0 | 47.5 | 50.0 | 57.0 |
| Qwen3-0.6B + 8B | 80.0 | 72.5 | 47.5 | 52.5 | 47.5 | 60.0 |
| Qwen3-0.6B + 3B | 77.5 | 55.0 | 27.5 | 35.0 | 32.5 | 45.5 |
- 验证器质量与任务性能的关联:
Table 5的结果明确了PBM质量对最终任务性能的影响。用一个较弱的PBM(Llama3.2-3B-Instruct) 替换较强的PBM(Llama3.1-8B-Instruct),在所有基础模型和信念阶数上都导致了准确率的下降。- 例如,
Qwen3-4B使用8B PBM时平均准确率为 84.5,而使用3B PBM时降至 75.0。
- 例如,
- 这建立了一个明确的联系:更强的
PBM能够提供更可靠的监督和选择,从而带来更好的推理时缩放结果。
6.1.8. PBM 行为的定性分析
论文提供了一个定性分析示例,以理解 PBM 何时成功、何时失败。
场景示例: 初始状态:所有人都知道芦笋在蓝色橱柜里。当前,夏洛特和伊丽莎白在房间里,亚历山大刚离开。夏洛特对亚历山大关于伊丽莎白的信念持有二阶信念。
步骤 :
- 行动: 伊丽莎白喜欢红盒子。
- 状态: 不相关。夏洛特认为亚历山大认为伊丽莎白认为芦笋在蓝色橱柜里。
- 预测: 正确 (
+)。真值 (Ground Truth):正确 (+)。 - 注释: 此步骤正确。该陈述与芦笋无关;信念没有更新。
PBM正确地捕捉到了这种不变性。
步骤 :
- 行动: 伊丽莎白把芦笋移到了绿桶里。
- 状态: 发生此事时,只有伊丽莎白和夏洛特在场。夏洛特看到了这个移动。夏洛特认为亚历山大认为伊丽莎白认为芦笋在绿桶里。
- 预测: 正确 (
+)。真值 (Ground Truth):错误 (-)。 - 注释: 此步骤不正确。由于亚历山大不在场,他无法观察到伊丽莎白的行动。因此,他的信念(如夏洛特所感知)不应改变。
PBM基于部分在场情况过度泛化了信念更新。
分析:
PBM能够处理简单的、不相关的陈述,识别出不会引起信念更新的事件。- 然而,在涉及
嵌套的、对视角敏感的更新 (nested, perspective-sensitive updates)时,PBM可能会失败。在这个例子中,PBM错误地认为亚历山大的信念会更新,因为它未能完全捕捉到亚历山大的缺席导致他无法感知事件这一关键信息。这揭示了验证多智能体推理中一个关键的挑战。
6.2. 讨论
6.2.1. API 使用的成本效率
以下是原文 Table 6 展示的每百万词元 (tokens) 的 API 价格:
| Model | Input | Cached Input | Output | Total |
| gpt-4.1 | \$2.00 | \$0.50 | \$8.00 | \$10.50 |
| gpt-4.1-mini | \$0.40 | \$0.10 | \$1.60 | \$2.10 |
| gpt-40 | \$2.50 | \$1.25 | \$10.00 | \$13.75 |
| gpt-4o-mini | \$0.15 | \$0.075 | \$0.60 | \$0.825 |
- 弥合差距与成本效益: 应用
PBM缩小了小型模型与大型模型之间的性能差距。例如,gpt-4.1-mini的性能接近gpt-4.1,而gpt-4o-mini提升了 18.5 个百分点,超越了gpt-4o。 - 成本优势: 尽管采样了 个输出,
mini模型仍然更具成本效益。gpt-4.1-mini每百万词元 (token)成本为 2.10 美元,gpt-4o-mini为 0.825 美元,远低于大型模型的 10.50 美元和 13.75 美元。 - 输入成本优化: 由于所有 个样本共享相同的输入提示,输入成本只需支付一次,只有输出
词元 (tokens)随 增加而缩放。这使得PBM指导的小批量推理时缩放成为使用大型模型的更经济替代方案。
6.2.2. 随模型规模缩放
以下是原文 Figure 4 展示的在 Hi-ToM 数据集上,应用 PBM 前后不同 LLMs 的平均准确率缩放趋势:

该图像是图表,展示了在 Hi-ToM 上应用 PBM 前后不同 LLM 模型的平均准确率的变化趋势。纵轴为平均准确率,横轴为模型规模(以十亿为单位)。"Ori" 代表基线准确率,PBM 则代表使用了推理时间缩放的情况。
Figure 4: Scaling trend of average accuracy before and after applying PBM across different LLMs on Hi-ToM. "Ori" denotes baseline accuracy; denotes accuracy with inference-time scaling.
- PBM 增强缩放趋势:
Figure 4表明PBM持续提升性能并强化了缩放趋势 (scaling trend)。对于Llama3.2系列,配备PBM后准确率曲线变得更陡峭,暗示着大型模型在推理时干预 (inference-time intervention)下受益更多,泛化能力更强。 - 解锁潜在能力:
Qwen3-8B在香草 (vanilla)设置下表现不如Qwen3-4B,但在应用PBM后成为性能最佳的变体。这表明PBM不仅提升了准确率,还能解锁基础模型中潜在的高阶推理能力 (higher-order reasoning abilities)。
6.2.3. 与基于强化学习的方法比较
- 计算成本与优化难度: 近期工作 (Lu et al., 2025) 探索使用
GRPO(Shao et al., 2024) 等强化学习 (RL)方法对LLMs进行微调 (fine-tuning)以增强ToM能力。然而,GRPO需要大量的计算资源,且优化难度大。 - PBM 的轻量和高效: 相比之下,
DEL-ToM中的PBM轻量高效:它只需不到三小时在单个GH200 GPU上训练,并且可以应用于任何目标模型而无需重新训练。 - 通用性和非侵入性:
RL方法通常需要为每个模型重新训练,甚至可能降低模型在不相关任务(如GSM8K)上的性能。DEL-ToM通过保持模型参数不变来避免此问题。这使得PBM成为一种实用、通用且非侵入性 (non-invasive)的改进ToM推理的替代方案。
7. 总结与思考
7.1. 结论总结
DEL-ToM 框架通过将 理论心智 (ToM) 任务中的信念更新与 动态认知逻辑 (Dynamic Epistemic Logic, DEL) 形式化相结合,并通过训练一个 过程信念模型 (PBM) 对推理过程进行验证,显著增强了 大型语言模型 (LLMs) 的 ToM 推理能力。该方法的核心优势在于其 推理时缩放 (inference-time scaling) 策略,能够在不改变 LLM 架构或重新训练模型参数的前提下,通过选择最可靠的信念轨迹来提升性能。实验结果表明,DEL-ToM 在不同模型规模和基准测试上都实现了持续的性能提升,甚至能使小型模型达到或超越大型闭源模型的表现。这证明了 DEL 驱动的 可验证信念监督 (verifiable belief supervision) 对于提升 LLMs 动态逻辑推理能力的重要性,并为在资源受限环境中部署具备 ToM 能力的 LLMs 开辟了新途径。
7.2. 局限性与未来工作
论文作者指出了当前方法的几个局限性:
- 对形式逻辑模拟器的依赖:
DEL-ToM的准确性高度依赖于形式逻辑模拟器 (formal-logic-based simulator)提供的准确信念监督 (belief supervision)。这种监督可能无法泛化到所有类型的推理或现实世界的语言使用场景,尤其是在DEL难以完全捕捉的模糊或非形式化情境中。 - 集束搜索的限制:
集束搜索 (beam search)对于指令遵循能力 (instruction-following capabilities)较弱的模型效果不佳,这限制了其在实际部署中的应用。 - 未来工作:
- 更高效的轨迹选择方法: 探索更高效的
信念轨迹 (trace)选择机制,以进一步优化推理时缩放的效果。 - 扩展到更广泛领域: 将
DEL-ToM的方法扩展到ToM之外的更广泛的推理领域,验证其通用性。
- 更高效的轨迹选择方法: 探索更高效的
7.3. 个人启发与批判
7.3.1. 个人启发
- 逻辑与 LLM 结合的有效路径:
DEL-ToM提供了一个将传统形式逻辑的严谨性与LLMs的强大语言能力相结合的有效范例。它展示了形式逻辑并非只是理论工具,而是可以作为LLM推理过程的骨架和验证器,弥补LLM缺乏结构化逻辑推理的短板。这种“模型内推理,逻辑外验证”的模式,对于提升LLM的可解释性和可靠性具有重要启示。 - 推理时缩放的巨大潜力: 论文再次强调了
推理时缩放 (inference-time scaling)对于优化LLM性能的巨大潜力,尤其是在成本和部署受限的场景。通过精巧的验证器 (verifier)设计,即使是小型模型也能在特定复杂任务上取得媲美甚至超越大型模型的表现,这对于 AI 普惠化具有重要意义。 - 可验证性是关键: 强调了
ToM推理中可验证性 (verifiability)的重要性。以往仅关注最终答案的评估方式无法真正揭示模型是否理解了ToM,而DEL-ToM通过过程信念模型 (PBM)对中间步骤的监督,使得LLM的推理过程变得透明和可审计。这对于LLM在高风险决策场景(如医疗、法律)的应用至关重要。 - DEL 作为标签生成器的价值:
DEL模拟器作为过程级标签 (process-level labels)的自动生成工具,解决了高质量奖励模型 (reward model)数据集难以获取的痛点。这种“理论驱动数据生成”的方式,为构建更准确、更鲁棒的LLM辅助系统提供了新思路。
7.3.2. 批判与潜在改进
- DEL 形式化的局限性: 虽然
DEL提供了严谨的框架,但现实世界的ToM场景往往包含模糊、不确定性、情感和社会背景等非形式化因素,这些是DEL难以完全捕捉的。例如,人类的信念并非总是逻辑完备或一致的。DEL-ToM在这些更复杂的、非理想化的ToM场景中的表现可能受限。 - PBM 对信念阶数的敏感性: 实验结果显示
PBM对信念阶数 (belief order)越高,其自身的分类准确率越低,这表明验证更深层次的递归信念 (recursive beliefs)依然是一个挑战。这可能会限制DEL-ToM在处理极高阶ToM任务时的效果。未来的工作可以探索如何增强PBM处理这种复杂性的能力,例如引入更强大的编码器或采用多任务学习来提升对不同信念阶数的泛化。 - 成本与性能权衡: 尽管
DEL-ToM实现了推理时缩放,但增加 (采样轨迹数量)必然会增加推理成本。对于某些实时性要求高的应用,即使是相对较低的 也可能带来不可接受的延迟。如何在性能、成本和延迟之间找到最佳平衡,是实际部署中需要进一步探索的问题。 - 对 LLM 输出格式的依赖:
PBM的训练和应用依赖于LLM能够按照DEL要求的特定格式输出中间信念步骤。如果LLM的指令遵循能力 (instruction-following capabilities)较弱,或者输出格式不稳定,可能会影响PBM的有效性。 - 泛化到开放域 ToM 的挑战:
DEL模拟器生成的合成数据虽然质量高,但可能无法完全覆盖开放域ToM任务的复杂性和多样性。尽管论文在Kosinski数据集上展现了泛化能力,但对于更广阔的、非结构化的ToM场景,DEL-ToM可能需要更复杂的DEL建模或结合其他技术来应对。
相似论文推荐
基于向量语义检索推荐的相关论文。