Learning from Synthetic Data Improves Multi-hop Reasoning

we find that synthetic data teaches LLMs to

论文状态：已完成

Learning from Synthetic Data Improves Multi-hop Reasoning

发表：2025/10/08

大语言模型推理能力增强 (32)大语言模型强化学习训练 (54)多跳推理任务 (1)合成数据增强 (1)

原文链接 PDF 下载

价格：0.10

已有 12 人读过

本分析由 AI 生成，可能不完全准确，请以原文为准。

TL;DR 精炼摘要

本文提出利用纯合成数据进行强化学习微调，以提升大语言模型多跳推理能力。实验证明，即使合成数据包含虚构知识，模型在真实问答基准上的表现依然显著提升，揭示合成数据促进了推理中知识组合这一通用技能的学习。

摘要

000 001 002 003 004 005 006 007 008 009 010 011 012 013 014 015 016 017 018 019 020 021 022 023 024 025 026 027 028 029 030 031 032 033 034 035 036 037 038 039 040 041 042 043 044 045 046 047 048 049 050 051 052 053 L EARNING FROM S YNTHETIC D ATA I MPROVES M ULTI - HOP R EASONING Anonymous authors Paper under double-blind review A BSTRACT Reinforcement Learning (RL) has been shown to significantly boost reasoning capabilities of large language models (LLMs) in math, coding, and multi-hop reasoning tasks. However, RL fine-tuning requires abundant high-quality verifi- able data, often obtained through human-annotated datasets and LLM-as-verifier loops. Both of these data types have considerable limitations: human-annotated datasets are small and expensive to curate, while LLM verifiers have high scoring latency and are costly to operate. In this work, we investigate the use of synthetic datasets in RL fine-tuning for multi-hop reasoning tasks. We discover that LLMs fine-tuned on synthetic data perform significantly better on popular real-world question-answering benchmarks, even though the synthetic data only contain fic- tional knowledge. On stratifying model performa

思维导图

论文精读

中文精读约 37 分钟读完 · 23,177 字

1. 论文基本信息

1.1. 标题

从合成数据中学习能提升多跳推理能力 (Learning from Synthetic Data Improves Multi-hop Reasoning)

1.2. 作者

匿名作者 (Anonymous authors)

1.3. 发表期刊/会议

论文目前处于双盲评审阶段 (Paper under double-blind review)，发布在 OpenReview 平台。

1.4. 发表年份

2025年10月8日 (UTC)

1.5. 摘要

本文研究了强化学习 (Reinforcement Learning, RL) 微调大语言模型 (Large Language Models, LLMs) 在数学、编码和多跳推理任务中的能力提升。传统的RL微调需要大量高质量的可验证数据，通常通过人工标注数据集或LLM作为验证器 (LLM-as-verifier) 的循环获取。这两种数据来源都有显著局限性：人工标注数据集规模小且成本高昂，而LLM验证器则评分延迟高且运行成本大。

本研究探讨了在多跳推理任务中，RL微调使用合成数据集 (synthetic datasets) 的可能性。研究发现，即使合成数据仅包含虚构知识，用其微调的LLMs在流行的真实世界问答基准测试 (question-answering benchmarks) 上表现也显著提升。通过按问题难度分层分析模型性能，作者发现合成数据教会LLMs组合知识 (compose knowledge)，这被认为是基础且可泛化的推理技能。这项工作强调了合成推理数据集在提升LLM推理能力方面的实用性。

1.6. 原文链接

OpenReview链接: https://openreview.net/forum?id=38nYZ5QBui
PDF链接: https://openreview.net/pdf?id=38nYZ5QBui
发布状态: 该论文于2025年10月08日发布在 OpenReview 平台，目前处于双盲评审阶段。

2. 整体概括

2.1. 研究背景与动机

核心问题： 大语言模型 (LLMs) 在数学、编码和多跳推理等复杂任务中，通过强化学习 (RL) 进行微调 (fine-tuning) 可以显著提升推理能力。然而，这种微调方法对数据质量和数量有极高要求，而现有高质量可验证训练数据面临严重挑战。

现有挑战或空白：

数据稀缺与成本高昂： 高质量的人工标注数据集规模小，且获取成本极其昂贵，特别是对于需要可靠真值 (ground-truth) 标签的推理任务。
LLM验证器的局限性： 尽管可以使用LLM作为验证器来生成数据，但其评分延迟高，运行成本大。
数据泄露与记忆： 随着LLMs在互联网规模数据上进行训练，它们容易出现数据泄露 (data leakage) 和记忆化 (memorization) 现象，导致推理能力的提升不可靠。
数据可用性不足： 互联网规模的文本数据日益饱和，高质量的人类编写文本的增长速度已经跟不上LLM训练的需求，使得用于推理训练的可用数据变得稀缺。
可验证系统的局限： 尽管在数学和编码等领域可以利用可验证的奖励信号进行强化学习 (RLVR)，但在更通用的问题设置中，建立可验证系统仍然具有挑战，导致这些领域的探索相对不足。

本文的切入点/创新思路： 面对上述挑战，本文的核心切入点是探索使用合成数据集 (synthetic datasets) 来进行RL微调，以提升LLMs的多跳推理能力。其创新之处在于：

脱离真实世界知识的训练： 质疑模型是否能在仅包含虚构知识的合成数据上，学习到可泛化 (generalizable) 的推理能力。
聚焦知识组合： 特别关注知识组合 (knowledge composition) 这种基本能力，即在多个推理步骤中整合信息以进行多跳推理。
验证跨领域迁移： 评估从合成数据中获得的推理能力能否有效地迁移到真实世界的自然语言问答场景，即使训练和评估领域之间没有事实重叠。

2.2. 核心贡献/主要发现

本文的主要贡献和关键发现包括：

合成数据作为可扩展且经济高效的推理训练数据源： 提出了使用合成多跳数据集作为可扩展、经济高效的推理训练数据源。这些数据集能提供无限且可验证的训练信号，证明了多跳推理能力可以有效地从合成数据中学习，即便训练和评估领域之间没有事实重叠。
实证证明合成推理训练的泛化能力： 提供了实证证据，表明通过合成数据进行的推理训练能够泛化到真实世界场景，在不同模型家族和规模的LLMs上都实现了性能提升，证实了合成数据在增强推理能力方面的实用性。例如，Qwen3-0.6B 模型在 PhantomWiki 上训练后，在 HotpotQA、2WikiMultihopQA 和 MuSiQue 上的 F1 分数分别相对基线模型提升了 62%、63% 和 132%。
深入研究推理能力随难度层次的迁移： 研究了推理能力在合成任务和真实世界任务中跨问题难度层次的迁移。结果表明，在具有不同推理复杂度的合成任务上取得的改进，能够转化为在更具挑战性的真实世界任务上的增强性能，这证明了多跳推理能力的可迁移性 (transferability)。

总而言之，本文的关键见解是，即使训练和评估领域之间没有事实重叠，从合成数据中培养的推理能力——特别是组合和链接逻辑推理的能力——也可以泛化到真实世界的多跳推理场景。

3. 预备知识与相关工作

3.1. 基础概念

为了理解本文，需要了解以下几个基础概念：

3.1.1. 大语言模型 (Large Language Models, LLMs)

概念定义： 大语言模型 (LLMs) 是一种基于深度学习的人工智能模型，通过在海量文本数据上进行训练，学习语言的统计规律、语法、语义和世界知识。它们通常采用 Transformer 架构，并能够执行文本生成、摘要、翻译、问答等多种自然语言处理任务。
初学者友好解释： 想象一个能够阅读和理解互联网上所有文本的超级大脑。这个大脑学会了如何组织文字、理解它们的含义，甚至能创造出全新的、有逻辑的文本。这就是 LLM。它们通过预测句子中的下一个词来学习，从而掌握了复杂的语言模式。

3.1.2. 强化学习 (Reinforcement Learning, RL)

概念定义： 强化学习 (RL) 是一种机器学习范式，智能体 (agent) 通过与环境的交互，学习如何采取行动以最大化累积奖励 (cumulative reward)。它不依赖于监督信号，而是通过试错来学习。
初学者友好解释： 就像训练一只小狗。当小狗做出我们希望的动作（比如坐下）时，我们会给它奖励（比如零食）。小狗会根据这些奖励信号，逐渐学会哪些行为是“好”的，哪些是“不好”的，从而优化自己的行为。在 LLMs 中，RL 用于调整模型，使其生成更符合特定目标的文本。

3.1.3. 微调 (Fine-tuning)

概念定义： 微调 (Fine-tuning) 是指在预训练模型 (pre-trained model) 的基础上，使用特定任务的数据集进一步训练模型，使其适应特定任务或领域。
初学者友好解释： LLMs 在大量通用数据上进行了“预训练”，这让它们拥有了广泛的语言能力。但如果我们想让它在某个特定任务（比如撰写新闻稿或解决数学题）上表现得更好，就需要用专门的数据对它进行“微调”，就像给一个多才多艺的学生进行专业课程的辅导，让他精通某个特定领域。

3.1.4. 多跳推理 (Multi-hop Reasoning)

概念定义： 多跳推理 (Multi-hop Reasoning) 是指模型需要整合来自多个独立信息片段或执行多个推理步骤才能得出最终答案的推理过程。
初学者友好解释： 想象一下你被问了一个问题，而这个问题的答案不能直接从一句话中找到。你需要先从 A 处找到一条线索，然后用这条线索去 B 处寻找另一条线索，最后将 A 和 B 的信息组合起来才能得出答案。这种需要“跳跃”多个信息点才能解决问题的过程，就是多跳推理。

3.1.5. 合成数据 (Synthetic Data)

概念定义： 合成数据 (Synthetic Data) 是指由计算机程序或模型生成的数据，而不是从真实世界中直接收集的数据。
初学者友好解释： 与真实世界数据相对，合成数据就像是计算机“编造”出来的数据。它不是真实发生的，但可以模拟真实数据的特征，用于训练模型，尤其是在真实数据难以获取、成本高昂或涉及隐私时。

3.1.6. 知识组合 (Knowledge Composition)

概念定义： 知识组合 (Knowledge Composition) 是指将不同的知识片段或推理步骤的结果整合起来，形成一个更复杂、更全面的理解或答案的能力。
初学者友好解释： 就像拼图一样。你手上有很多零散的知识碎片，知识组合 的能力就是将这些碎片有逻辑地连接起来，最终形成一幅完整的图像或解决一个复杂的问题。这在多跳推理中至关重要。

3.2. 前人工作

本文引用了大量前人工作，主要围绕以下几个方面：

3.2.1. LLM推理能力的提升

RL在LLMs中的应用： 强化学习 (RL) 已被证明能显著提升 LLMs 的推理能力，尤其是在数学、编码和多跳推理任务中。例如，Bai et al. (2022) 提出的 Constitutional AI，以及 Shao et al. (2024)、Lambert et al. (2025) 等在不同任务中的应用。
多步或多跳解决方案： 这些推理任务通常需要执行多步或多跳的解决方案轨迹，例如数学和编码中的中间子问题，或自然语言问答中的推演步骤序列。
基准测试： 多跳结构 (multi-hop structure) 的基准测试（如 Mirzadeh et al., 2025; MAA; Yang et al., 2018; Trivedi et al., 2022）被广泛用于评估 LLM 推理能力的提升。这些数据集也被用于 微调 (fine-tuning) LLMs，以提升其推理能力。

3.2.2. LLM训练与微调方法

监督微调 (SFT)： 最简单的方法是使用 下一词元预测 (next-token prediction) 目标直接在数据集上进行 监督微调 (SFT) (Lambert et al., 2025)。
指令微调 (Instruction Fine-tuning) 和思维链 (Chain-of-Thought, CoT) 建模： 通过添加有益的指令或鼓励更详细的思考过程来改进 SFT，例如 Chung et al. (2024) 的 指令微调 和 Xiang et al. (2025) 的 思维链 (CoT) 建模。
基于人类反馈的强化学习 (RLHF)： 是一种更复杂的、基于 RL 的框架，利用人类偏好来微调模型 (Christiano et al., 2017; Ouyang et al., 2022)。其算法包括基于策略梯度的 PPO (Proximal Policy Optimization) (Schulman et al., 2017) 及其变体或简化版，如 GRPO (Group Relative Policy Optimization) (Shao et al., 2024) 和 DPO (Direct Preference Optimization) (Rafailov et al., 2023)。
带可验证奖励的强化学习 (RLVR)： 将 RLHF 中的奖励模型替换为程序验证函数 (procedural verification function)，特别适用于具有客观真值 (ground-truth) 答案的任务（如数学问题）(Lambert et al., 2025)。这已被用于 DeepSeekMath (Shao et al., 2024), DeepSeek-R1 (Guo et al., 2025a) 和 Phi-4-reasoning (Abdin et al., 2025) 等模型。

3.2.3. 合成数据在LLM中的应用

生成式扩展： 利用合成数据进行 LLM 预训练和微调，通过生成式追踪 (generated traces) 扩展现有数据 (Trinh et al., 2024; Ruan et al., 2025)，或训练更强模型生成的合成问题 (Abdin et al., 2025)。
程序化生成： 大多数合成推理基准测试都是程序化生成的，尤其是在数学 (Mirzadeh et al., 2025; Zhou et al., 2025)、逻辑谜题 (Xie et al., 2024; Shojaee et al., 2025) 和某些形式的自然语言问答 (Gong et al., 2025; Guo et al., 2025b) 领域。
LLM辅助生成： 其他基准测试利用 LLMs 创建额外示例和推理轨迹，以扩充现有数据集 (Yang et al., 2025; Goldie et al., 2025)。
未充分探索的问题： 尽管合成数据有潜力，但其有效性和对真实世界推理技能的适用性仍然是一个未充分探索的问题 (Yu et al., 2024; Mizrahi et al., 2025)，这正是本文研究的重点。

3.3. 技术演进

LLM推理能力的发展经历了从基于简单模式匹配到复杂多步推理的演进。

早期模型： 依赖于大量的真实世界文本数据进行预训练，主要解决事实性问答和文本生成等任务。
指令微调与CoT： 引入 指令微调 (instruction fine-tuning) 和 思维链 (Chain-of-Thought, CoT) 提示方法，使模型能够生成中间推理步骤，从而在一定程度上提升了复杂推理任务的表现。
RLHF和RLVR： 引入 强化学习 (RL)，特别是 基于人类反馈的强化学习 (RLHF) 和 带可验证奖励的强化学习 (RLVR)，使得模型能够根据奖励信号（无论是人类偏好还是程序化验证）自我修正和优化其推理过程，显著提升了在数学和编码等有明确真值领域的性能。
合成数据的兴起： 随着真实数据获取成本和数据泄露问题的加剧，利用 合成数据 (synthetic data) 训练模型成为一个新的趋势。早期合成数据主要用于扩充现有数据集或在特定领域（如数学）生成可验证的问题。

本文的工作正处于这一演进的后期阶段，它进一步探索了 合成数据 的潜力，不再局限于其作为真实数据补充，而是作为独立训练数据源，验证其能否在无事实重叠的情况下，教授 LLMs 通用的推理技能，尤其是 知识组合 能力，并使其泛化到真实世界任务。

3.4. 差异化分析

本文的方法与相关工作中的主要方法的核心区别和创新点在于：

强调通用推理技能的迁移性 (Transferability of General Reasoning Skills)：
- 相关工作： 之前的 RLVR 应用主要集中在数学和编码等领域，这些领域的验证机制相对明确。虽然也使用了合成数据，但更多是为了提供可验证的奖励信号，其核心关注点在于模型能否解决特定领域的问题。部分工作也利用合成数据扩充现有数据集，或通过更强的模型生成问题，但它们并未深入探究在训练数据完全虚构且与真实世界无事实重叠的情况下，模型是否能学习到普适性的推理能力。
- 本文创新： 本文明确提出并验证了一个核心问题：“模型能否在不依赖真实世界知识的情况下，仅仅从合成数据中培养出通用推理能力？”特别是聚焦于 知识组合 (knowledge composition) 这种基本技能。通过使用虚构的合成数据集（如 PhantomWiki），排除了模型记忆真实世界知识的可能性，从而孤立地证明了推理能力的迁移性。
验证从虚构知识到真实世界任务的泛化 (Generalization from Fictional to Real-world Tasks)：
- 相关工作： 许多合成数据研究关注的是生成数据本身，或在生成领域内的性能提升。虽然会提到“泛化”，但往往是在同类型任务或数据扩充的语境下。
- 本文创新： 本文的实验设计特意选择了在训练和评估领域之间没有事实重叠的合成数据。PhantomWiki 包含完全虚构的人物和关系，而评估则在 HotpotQA、2WikiMultihopQA、MuSiQue 等真实世界的问答基准上进行。这种设计强有力地证明了模型学习到的 知识组合 技能是领域无关的，可以直接应用于处理真实世界中的新信息。
通过难度分层分析推理演进 (Difficulty-Stratified Analysis of Reasoning Evolution)：
- 相关工作： 许多研究会报告在不同难度级别上的整体性能，但很少有研究系统地分析在训练过程中，模型如何逐步提升对不同难度级别问题的处理能力，以及这种提升如何映射到真实世界任务。
- 本文创新： 本文通过分层分析模型在不同难度级别问题上的性能（例如，PhantomWiki 中的跳数，GSM- $\infty$ 中的算术操作数），观察到随着训练的进行，模型在所有难度级别上的表现均有提升。并且，这种在合成任务中处理复杂问题的能力提升，直接转化为了在真实世界中处理更复杂问答任务的能力，进一步印证了 知识组合 技能的可迁移性。
  
  简而言之，本文的关键区别在于，它不仅利用合成数据进行训练，更重要的是，它系统地证明了在没有事实知识共享的情况下，从虚构合成数据中学习到的通用推理（特别是知识组合）技能可以成功地迁移到真实的、知识密集的推理任务中。

4. 方法论

4.1. 方法原理

本研究的核心思想是探究 大语言模型 (LLMs) 能否通过 强化学习 (RL) 微调，从完全虚构的 合成数据 (synthetic data) 中学习到通用的 多跳推理 (multi-hop reasoning) 能力，并将这种能力有效地迁移到真实的问答任务中。其基本原理是：

剥离事实知识，聚焦推理结构： 设计的合成数据集（如 PhantomWiki）不包含任何真实世界的事实知识，而是专注于构建具有复杂逻辑结构和多步推理需求的问题。这使得模型在训练过程中无法通过记忆事实来作弊，只能专注于学习推理的底层机制和知识组合的能力。
可验证的奖励信号： 合成数据可以程序化地生成，因此能够提供精确且可扩展的奖励信号（例如，数学题的正确答案或关系推理的F1分数）。这使得 带可验证奖励的强化学习 (RLVR) 范式能够高效地应用于微调过程。
通过RL优化推理轨迹： 使用 GRPO (Group Relative Policy Optimization) 等RL算法，模型能够通过生成并评估多条推理路径（Chain-of-Thought, CoT），并根据奖励信号进行策略更新，从而学习到更优的推理策略和知识组合方式。
跨领域泛化评估： 在训练完成后，将微调后的模型在多个真实世界的 多跳问答基准测试 上进行评估。如果性能显著提升，则证明从虚构合成数据中学习到的推理能力具有良好的 泛化性 (generalizability) 和 可迁移性 (transferability)。

4.2. 核心方法详解

为了实现上述研究目标，本文采用了以下核心方法和技术：

4.2.1. LLM选择与微调设置

研究选取了不同规模的 LLMs 进行 RL微调，包括：

Qwen3-0.6B
Qwen3-1.7B (Qwen Team, 2025)
Qwen2.5-1.5B-Instruct (Qwen Team, 2024)
Phi-4-mini-reasoning (Abdin et al., 2025)

每种模型都在选定的合成训练数据集上进行一个 epoch 的随机打乱训练。训练过程使用了4个 NVIDIA H100 GPU。

4.2.2. 合成训练数据集

为了提供可扩展的验证和不同难度的问题，本文选择了以下合成数据集进行微调：

4.2.2.1. GSM- $\infty$ (Zhou et al., 2025)

概念定义： GSM-∞ 是 小学数学文字问题 (grade school math word problems) 基准 GSM8K (Cobbe et al., 2021) 的泛化和可无限扩展版本。
生成方式：
1. 构建随机计算图 (random computation graph) 来表示真值解的轨迹。
2. 可选地，用干扰事实 (distractor facts) 增强计算图。
3. 通过自然语言模板将其转换为文字问题，模板可选择预定义的主题。
实验配置：
- 难度设置： 使用“中等 (medium)”难度级别。
- 算术操作数： 算术操作数 (number of arithmetic operations) 范围设置为 2 到 20。
- 上下文长度： 上下文长度 (context length) 设置为零，确保每个问题仅包含解决问题所必需的信息，从而简化解决方案轨迹中“跳跃 (hops)”的识别。
- 样本数量： 为19个难度级别中的每个级别生成约600个问题。
- 主题分布： 一半问题来自“动物园 (zoo)”主题，四分之一来自“师生 (teacher-school)”主题，其余来自“电影 (movie)”主题。
- 模式： 问题在“正向 (forward)”模式（加法/乘法）和“反向 (reverse)”模式（减法/除法）之间平均分配。
最终数据集规模： 总计约 12.5K 样本，其中 10K 用于训练，其余用于验证。
目的： 该数据集代表一类常见的 基于数学的合成推理基准测试。由于算术技能的混淆作用，它允许研究者调查 基于数学的推理 对 知识密集型真实世界任务 的泛化能力。

4.2.2.2. PhantomWiki (Gong et al., 2025)

概念定义： PhantomWiki 能够按需生成自然语言文档语料库和问答对的合成数据集，旨在评估 LLMs 的 多步 (multi-step) 和 多分支 (multi-branch) 推理以及检索能力。
生成方式：
1. 每个 PhantomWiki 数据集代表一个随机生成的虚构个体宇宙 (randomly universe of fictional individuals)。
2. 这些个体的个人属性 (personal attributes) 和人际关系 (inter-personal relations) 在一组类似维基百科的文档中描述。
3. 然后，使用 上下文无关文法 (context-free grammar) 和 逻辑编程 (logic programming) 算法生成多跳推理问题，例如“Who is the nephew of the friend of the person who likes birdwatching?”（“喜欢观鸟的人的朋友的侄子是谁？”）。
与 GSM- $\infty$ 的区别： PhantomWiki 的问题可能有多个答案，且需要更大程度的 检索 (retrieval) 和 知识组合 技能，即从多个文档中查找和处理相关信息。
实验配置：
- 关系设置： 配置数据集仅包含“简单 (easy)”关系，如直系亲属和朋友，使“跳跃”在概念上简单。
- 问题类型过滤： 过滤掉“多少 (How many...)”形式的聚合问题，将数据集限制为纯粹的 多跳问题 (multi-hop questions)，如“谁是...的 <关系>？”和“...的 <属性> 是什么？”。
- 难度定义： 这种设置确保回答难度为 $d$ 的问题需要遍历宇宙中恰好 $d$ 个个体的文档。
- 生成规模： 使用100个随机种子生成34个包含25个个体的宇宙。
- 文法递归深度： 将 上下文无关文法 的递归深度设置为 20，以生成不同难度的问题。
- 真值答案： 使用 PhantomWiki 的逻辑程序获取每个问题的真值答案列表。
最终数据集规模： 每个宇宙生成330个问题，问题难度（跳数）范围从1到9。选择31个宇宙用于 10K 训练问答样本，并保留3个宇宙（约 1K 样本）用于验证。

4.2.3. RL微调算法：GRPO (Group Relative Policy Optimization)

概念定义： GRPO (Group Relative Policy Optimization) (Shao et al., 2024) 是 近端策略优化 (PPO) (Schulman et al., 2017) 的一个变体，主要用于 强化学习 (RL) 微调。
核心思想： GRPO 通过将原始 PPO 算法中基于值模型 (value model-based) 的优势估计 (advantage estimation) 替换为基于每个提示 (prompt) 的一组在线完成 (online completions) 的优势估计，从而有效降低了内存和计算需求。
客观函数： 给定从问题集 P(Q) 中采样的 问题 (question) $q$ ，GRPO 从旧 LLM $\pi$ （参数为 $\theta_{\text{old}}$ ）中采样一组 $G$ 个 输出完成 (output completions) $\left\{o_{1}, \ldots o_{G}\right\}$ ，并为每个完成分配一个标量 奖励值 (reward value) $\left\{R_{1}, \ldots, R_{G}\right\}$ 。算法通过对奖励进行标准化来估计每个完成的 优势 (advantage) $\widehat{A}_{i}$ 。最终的优化目标如下：

$\mathcal{J}_{\mathrm{GRPO}}(\theta)=\mathbb{E}_{[q \sim P(Q),\left\{o_{i}\right\}_{i=1}^{G} \sim \pi_{\theta_{\mathrm{old}}}(O \mid q)]} \left[\frac{1}{G} \sum_{i=1}^{G} \frac{1}{\left|o_{i}\right|} \sum_{t=1}^{\left|o_{i}\right|}\left\{\min \left[r_{i, t} \hat{A}_{i, t}, \operatorname{clip}\left(r_{i, t}, 1-\varepsilon, 1+\varepsilon\right) \hat{A}_{i, t}\right]-\beta \mathbb{D}_{\mathrm{KL}}\left[\pi_{\theta} \| \pi_{\mathrm{ref}}\right]\right\}\right]$

其中，优势估计 (advantage estimation) 为： $\widehat{A}_{i,t}=\frac{R_{i}-\operatorname{mean}\left(R_{1}, \ldots, R_{G}\right)}{\operatorname{stdev}\left(R_{1}, \ldots, R_{G}\right)}$
- 符号解释：
  - $\mathcal{J}_{\mathrm{GRPO}}(\theta)$ : GRPO 的优化目标函数，旨在更新模型参数 $\theta$ 。
  - $\mathbb{E}_{[\ldots]}$ : 对 问题 $q$ 和从旧策略 $\pi_{\theta_{\text{old}}}$ 生成的 完成 $o_i$ 的期望。
  - $q$ : 从 问题集 P(Q) 中采样的一个 问题。
  - $O$ : 输出完成 的集合。
  - $\{o_i\}_{i=1}^{G}$ : 从 旧LLM $\pi_{\theta_{\text{old}}}$ 生成的一组 $G$ 个 输出完成。
  - $\pi_{\theta_{\text{old}}}(O \mid q)$ : 旧策略，即具有参数 $\theta_{\text{old}}$ 的 LLM 在给定 问题 $q$ 下生成 完成 $O$ 的概率。
  - $G$ : 每个 问题 采样的 输出完成 的数量。
  - $|o_i|$ : 输出完成 $o_i$ 的长度（词元 (token) 数量）。
  - $t$ : 输出完成 $o_i$ 中的 词元 索引。
  - $r_{i,t}$ : 输出完成 $o_i$ 在 词元 $t$ 处的 相对权重，表示新策略与旧策略在该 词元 上的概率比。其计算公式为 $r_{i, t}=\frac{\pi_{\theta}\left(o_{i, t} \mid q, o_{i,<t}\right)}{\pi_{\theta_{\text{old}}}\left(o_{i, t} \mid q, o_{i,<t}\right)}$ 。
  - $\pi_{\theta}\left(o_{i, t} \mid q, o_{i,<t}\right)$ : 新策略，即当前正在优化的 LLM 具有参数 $\theta$ ，在给定 问题 $q$ 和 前置词元 (previous tokens) $o_{i,<t}$ 的情况下，生成 词元 $o_{i,t}$ 的概率。
  - $\pi_{\theta_{\text{old}}}\left(o_{i, t} \mid q, o_{i,<t}\right)$ : 旧策略，即具有参数 $\theta_{\text{old}}$ 的 LLM 在给定 问题 $q$ 和 前置词元 $o_{i,<t}$ 的情况下，生成 词元 $o_{i,t}$ 的概率。
  - $\widehat{A}_{i,t}$ : 完成 $o_i$ 在 词元 $t$ 处的 优势估计。它通过将 奖励 $R_i$ 减去同组 完成 的平均 奖励，再除以标准差来标准化。
  - $R_i$ : 输出完成 $o_i$ 的 标量奖励值。
  - $\operatorname{mean}\left(R_{1}, \ldots, R_{G}\right)$ : 同组 $G$ 个 完成 的 奖励 的平均值。
  - $\operatorname{stdev}\left(R_{1}, \ldots, R_{G}\right)$ : 同组 $G$ 个 完成 的 奖励 的标准差。
  - $\operatorname{clip}(\cdot, 1-\varepsilon, 1+\varepsilon)$ : 截断 (clip) 函数，将 相对权重 $r_{i,t}$ 限制在 $[1-\varepsilon, 1+\varepsilon]$ 范围内，以防止策略更新过大。
  - $\varepsilon$ : 截断 (clipping) 的 超参数 (hyperparameter)，控制 策略更新 的最大幅度。
  - $\beta$ : KL散度 (KL divergence) 惩罚项的 超参数，控制新策略与参考策略之间的差异。
  - $\mathbb{D}_{\mathrm{KL}}\left[\pi_{\theta} \| \pi_{\mathrm{ref}}\right]$ : 新策略 $\pi_{\theta}$ 与 参考策略 (reference policy) $\pi_{\mathrm{ref}}$ 之间的 KL散度，用于惩罚策略的剧烈变化。
  - $\pi_{\mathrm{ref}}$ : 参考策略，通常是模型的初始化状态。
实验实现： 实验中使用了 Hugging Face TRL 库中的 GRPOTrainer 实现。
- KL散度惩罚 超参数 $\beta$ 设置为 0。
- vLLM (Kwon et al., 2023) 协同模式和 FlashAttention-2 (Dao, 2024) 用于优化内存和计算效率。
- 具体的超参数配置如 Listing 1 所示，其中包括 per_device_train_batch_size、num_generations、max_completion_length 等。

4.2.4. 提示 (Prompt) 和奖励 (Reward) 设计

为了训练 LLMs 进行 情境推理 (in-context reasoning) 和 检索 (retrieval)，本文设计了特定的 提示 (prompt) 结构：

提示构成：
1. 证据 (Evidence)： 对于 GSM-∞ 问题，这是 问题陈述 (problem statement)；对于 PhantomWiki 问题，提供随机生成的宇宙中所有25个个体的文档。
2. 指令 (Instruction)： 指导 LLM 将最终答案输出在 $<answer> ... </answer>$ 标签内，这是 DeepSeek-R1 (Guo et2025a) 和 Qwen3 家族 (Qwen Team, 2025) 等 LLM 的标准输出格式。
3. CoT示例 (Chain-of-Thought Examples)： 为了进一步规范答案输出格式，添加 CoT示例。
  - GSM-∞：使用3个自动生成的真值 CoT 解决方案。
  - PhantomWiki：使用11个由 Gong et al. (2025) 最初整理的 CoT 示例。
4. 问题 (Question)： 最后向 LLM 提出问题。完整的 提示 包含在附录 C 中。
奖励模型 (Reward Model)：
- 通过正则表达式解析生成文本中最后一个 $<answer> ... </answer>$ 标签内的内容，并与真值答案进行比较。
- GSM-∞ 奖励： 对正确的数值答案给予 二元奖励 (binary reward)（1表示正确，0表示错误）。
- PhantomWiki 奖励： 由于 PhantomWiki 问题可以有多个答案，对模型生成的答案使用 F1分数 (F1 score) 进行奖励，分数介于 0 和 1 之间。

4.2.5. 实验配置概览

Listing 1 展示了 GRPOTrainer 的 超参数 (hyperparameter) 值。

# Training parameters
per_device_train_batch_size: 8
gradient_accumulation_steps: 1
num_generations: 16
# vLLM settings
use_vllm: true
vllm_mode: "colocate"
vllm_gpu_memory_utilization: 0.20
# Generation parameters
max_completion_length: 4096
temperature: 1.0
top_p: 1.0
top_k: null
min_p: null
repetition_penalty: 1.0
# GRPO algorithm parameters
beta: 0.0
epsilon: 0.2
importance_sampling_level: "token"
scale_rewards: true
loss_type: bnpo
mask_truncated_completions: false

训练参数：
- per_device_train_batch_size: 8：每个设备（GPU）的训练批量大小为 8。
- gradient_accumulation_steps: 1：梯度累积步数为 1，表示每一步都更新梯度。
- num_generations: 16：每次迭代中，为每个提示生成 16 个完成样本。
vLLM 设置：
- use_vllm: true：启用 vLLM 加速。
- vllm_mode: "colocate"：vLLM 使用协同模式。
- vllm_gpu_memory_utilization: 0.20：vLLM GPU 内存利用率为 20%。
生成参数：
- max_completion_length: 4096：生成完成的最大长度。
- temperature: 1.0：采样温度，控制生成文本的随机性。
- $top_p: 1.0$ ：Top-p 采样参数。
- $top_k: null$ ：Top-k 采样参数。
- $min_p: null$ ：最小 P 采样参数。
- repetition_penalty: 1.0：重复惩罚因子。
GRPO 算法参数：
- beta: 0.0：KL散度 惩罚项系数设置为 0，表示没有 KL散度 约束。
- epsilon: 0.2：PPO 风格的 截断 (clipping) 参数 $\varepsilon$ 。
- importance_sampling_level: "token"：重要性采样在 词元 (token) 级别进行。
- scale_rewards: true：对奖励进行缩放。
- loss_type: bnpo：损失函数类型为 BNPO (可能是 Baseline Normalized Policy Optimization 的缩写或变体)。
- mask_truncated_completions: false：不掩盖截断的完成。
  
  此外，为了适应不同数据集的 提示长度 (prompt length)，max_prompt_length 参数也进行了调整：PhantomWiki (6000), GSM-∞ (2048), HotpotQA (6000), 2WikiMultihopQA (6000), MuSiQue (8000)。

5. 实验设置

5.1. 数据集

本研究使用了两类数据集：用于 RL微调 的合成训练数据集和用于评估模型 多跳推理 能力的真实世界问答数据集。

5.1.1. 合成训练数据集

本文的合成训练数据集包括 GSM-∞ 和 PhantomWiki。这些数据集的详细描述已在 4.2.2. 合成训练数据集 章节中给出。它们旨在提供可扩展的验证和不同难度的问题，且不包含真实世界的事实知识。

5.1.2. 评估数据集

所有模型都在以下3个 情境问答 (in-context question answering) 数据集上进行评估，这些数据集用于衡量 多跳推理 能力。为了评估，研究从各自的测试集中随机抽取了500个样本。

5.1.2.1. HotpotQA (Yang et al., 2018)

来源与规模： 包含超过100,000个问答对，通常需要从两个维基百科段落中获取信息。
特点： 每个问题都遵循一致的两跳推理结构，使其成为一个 2跳问答数据集。
样本示例： 问题：“Which two diseases are caused by the same type of pathogen as the disease that causes tuberculosis?” （“哪两种疾病是由与导致肺结核的疾病相同类型的病原体引起的？”）回答需要先找到肺结核的病原体，然后找到由该病原体引起的所有疾病。

5.1.2.2. 2WikiMultihopQA (Ho et al., 2020)

来源与规模： 一个较新的 2跳数据集，包含超过190,000个两跳问题，分为四类：合成 (compositional)、推理 (inference)、比较 (comparison) 和桥接比较 (bridge-comparison)。
特点： 问题基于 Wikidata 的知识图谱，每个问题都遵循实体之间特定的两跳路径。
样本示例： 问题：“Who was the director of the movie that won the Cannes Film Festival award for Best Actress and was also written by Billy Wilder?” （“哪位电影导演执导的电影曾获得戛纳电影节最佳女主角奖，并且也是由比利·怀尔德编剧的？”）回答需要先找到比利·怀尔德编剧的电影，再从中找出获得戛纳电影节最佳女主角奖的电影，最后找到该电影的导演。

5.1.2.3. MuSiQue (Trivedi et al., 2022)

来源与规模： 旨在评估 组合推理 (compositional reasoning)，包含通过桥接单跳问题创建的 2-4跳问题。
特点： 问题需要整合来自多个独立段落的信息。研究使用了 MuSiQue-Answerable 分割数据集，以确保所有问题都可以使用给定上下文的一个子集来回答。
样本示例： 问题：“Who produced the song that was written by the same person who wrote "I Will Always Love You" and was performed by Whitney Houston?” （“制作了由与写了《我将永远爱你》的同一个人创作的、并由惠特尼·休斯顿演唱的歌曲的制作人是谁？”）回答需要先找到《我将永远爱你》的作者，然后找到由同一个人创作且惠特尼·休斯顿演唱的歌曲，最后找到这首歌的制作人。

5.2. 评估指标

本文主要使用 F1分数 (F1 score) 作为评估 多跳问答 (multi-hop question answering) 性能的指标，对于 GSM-∞ 的奖励则使用 二元奖励 (binary reward)（即精确匹配）。

5.2.1. F1 分数 (F1 Score)

概念定义： F1分数 (F1 Score) 是统计学中衡量分类模型准确性的一个指标，常用于评估信息检索、自然语言处理和机器学习任务中的性能。它结合了 查准率 (Precision) 和 查全率 (Recall)，是两者的调和平均值。F1分数越高，表示模型的性能越好，尤其是在正负样本不平衡的情况下，F1分数比单纯的准确率更能反映模型的真实性能。在问答任务中，它通常用于衡量模型生成答案与真实答案之间的重叠程度。
数学公式： $F1 = 2 \times \frac{\text{Precision} \times \text{Recall}}{\text{Precision} + \text{Recall}}$ 其中， $\text{Precision} = \frac{\text{True Positives}}{\text{True Positives} + \text{False Positives}}$ $\text{Recall} = \frac{\text{True Positives}}{\text{True Positives} + \text{False Negatives}}$
符号解释：
- F1: F1分数。
- $\text{Precision}$ : 查准率 或 精确率，表示在所有模型预测为正例的样本中，真实为正例的比例。在问答中，表示模型给出的答案词语中，有多少是正确的。
- $\text{Recall}$ : 查全率 或 召回率，表示在所有真实为正例的样本中，模型预测为正例的比例。在问答中，表示真实答案中的词语有多少被模型召回。
- $\text{True Positives (TP)}$ : 真阳性，模型正确预测为正例的数量。在问答中，表示模型生成答案中与真值答案重叠的正确词元数。
- $\text{False Positives (FP)}$ : 假阳性，模型错误预测为正例的数量。在问答中，表示模型生成答案中不属于真值答案的词元数。
- $\text{False Negatives (FN)}$ : 假阴性，模型错误预测为负例的数量。在问答中，表示真值答案中模型未能生成或召回的词元数。

5.2.2. 准确率 (Accuracy) / 二元奖励 (Binary Reward)

概念定义： 对于 GSM-∞ 等具有唯一正确数值答案的任务，通常使用 准确率 (Accuracy) 或 精确匹配 (Exact Match) 作为评估指标。它表示模型给出完全正确答案的比例。在本文中，这被用作 GSM-∞ 的 二元奖励：如果模型生成的数值答案与真值完全一致，则奖励为1；否则为0。
数学公式： $\text{Accuracy} = \frac{\text{Number of Correct Predictions}}{\text{Total Number of Predictions}}$
符号解释：
- $\text{Accuracy}$ : 准确率 或 精确匹配率。
- $\text{Number of Correct Predictions}$ : 模型给出正确答案的问题数量。
- $\text{Total Number of Predictions}$ : 总共评估的问题数量。

5.3. 对比基线

本文的实验设计中，主要通过以下方式进行对比：

基线模型 (Base Models)：
- 在 RL微调 之前，各个原始 LLM（如 Qwen3-0.6B, Qwen3-1.7B, Qwen2.5-1.5B-Instruct, Phi-4-mini-reasoning）的性能被用作基线。这展示了 RL微调 对推理能力的提升效果。
不同合成训练数据集：
- 比较 PhantomWiki 和 GSM-∞ 两种合成数据集对真实世界 多跳问答任务 性能提升的差异。这有助于理解不同类型合成数据（自然语言关系推理 vs. 数学文字问题）在泛化能力上的特点。
格式奖励消融 (Format Reward Ablation)：
- 进行了一项 消融研究 (ablation study)，对比了仅针对正确输出格式进行训练的模型（format）与基线模型（base）的性能。这旨在分离 LLM 学习正确格式的能力和学习 知识组合 的能力。
不同模型家族和规模：
- 在 Qwen 系列模型和 Phi 系列模型上进行实验，并涵盖了 0.6B 到 4B 参数范围。这验证了 合成数据训练 方法在不同模型架构和规模上的普适性。
中间检查点 (Intermediate Checkpoints)：
- 通过评估训练过程中的 中间检查点，观察性能随训练步数或训练样本数量的变化趋势，从而分析 推理能力 的演化过程，并验证模型是否过拟合。
  
  这些对比基线和实验设计共同验证了 合成数据 在提升 LLM 多跳推理 能力方面的有效性、泛化性和机制。

6. 实验结果与分析

6.1. 核心结果分析

6.1.1. 性能从合成数据到真实世界的迁移 (Performance Transfer from Synthetic to Real-world Datasets)

研究发现，在 PhantomWiki 和 GSM-∞ 合成数据集上进行 RL微调 训练后，LLMs 在所有真实世界评估数据集（HotpotQA, 2WikiMultihopQA, MuSiQue）上的性能都得到了提升。

关键发现：

普遍提升： 这种性能迁移在不同的 LLM 模型家族和规模中（Qwen 和 Phi 系列，1-4B 参数范围）都保持一致。
PhantomWiki 表现更优： PhantomWiki 数据集在 多跳推理 任务上的迁移效果优于 GSM-∞。这表明针对自然语言关系推理设计的合成数据，更能有效地提升通用自然语言问答能力。
甚至强化模型也能提升： 即使是已经过内部合成数据训练的 Phi-4-mini-reasoning LLM (Abdin et al., 2025)，其 多跳推理 性能也通过 RL微调 得到了进一步提升。
具体提升示例： Qwen3-0.6B 模型在 PhantomWiki 上训练后，在 HotpotQA 上的 F1 分数提升了 62%，在 2WikiMultihopQA 上提升了 63%，在 MuSiQue 上提升了 132%（相对于基线模型）。
无过拟合迹象： 扩展合成训练数据并没有导致过拟合，这表明了 泛化 (generalization) 的鲁棒性。

下图（原文 Figure 2）展示了使用 PhantomWiki 和 GSM-∞ 进行 GRPO微调 后，LLMs 在真实世界 多跳推理 数据集上的 F1分数 表现。

该图像是一个柱状图，展示了不同模型在HotpotQA、2Wiki和MuSiQue三个数据集上的F1分数表现。图中比较了基线（base）、GSM-∞和PhantomWiki三种训练数据源对Qwen和Phi系列模型性能的提升效果。 Figure 2: F1 score on real-world multi-hop reasoning datasets of LLMs finetuned with GRPO on synthetic datasets PhantomWiki and GSM- $\infty$ . We observe that fine-tuning on synthetic reasoning data consistently transfers to HotpotQA, 2WikiMultihopQA, and MuSiQue. Concretely, training Qwen3-0.6B model on PhantomWiki improves F1 scores relative to the base model by $62 \%$ on HotpotQA, $63 \%$ on 2WikiMultihopQA, and $132 \%$ on MuSiQue. The performance transfer trends are consistent across model families and sizes (Qwen and Phi LLMs in 1-4B parameter range). We fine-tune each base model with 2 random training seeds, and evaluate final checkpoints of both experiment runs. With this we calculate the standard error, shown as error bars.

6.1.2. 格式奖励训练的消融研究 (Ablation Study on Training with Binary Format Reward)

为了区分模型正确回答的能力和正确格式化答案的能力，研究进行了一项 消融研究。所有 LLMs 都进行了一个3000步的训练，奖励信号仅针对 $<answer>...</answer>$ 标签内的正确输出格式：1表示格式正确，0表示格式错误。

以下是原文 Table 1 的结果：

		HotpotQA	2WikiMultihopQA	MuSiQue
Qwen3-0.6B	base	0.36 ± 0.02	0.37 ± 0.02	0.14 ± 0.01
Qwen3-0.6B	format	0.38 ± 0.02	0.34 ± 0.02	0.13 ± 0.01
Qwen3-1.7B	base	0.59 ± 0.02	0.64 ± 0.02	0.34 ± 0.02
Qwen3-1.7B	format	0.64 ± 0.02	0.67 ± 0.02	0.35 ± 0.02
Phi-4-mini-reasoning	base	0.48 ± 0.02	0.66 ± 0.02	0.27 ± 0.02
Phi-4-mini-reasoning	format	0.47 ± 0.02	0.48 ± 0.02	0.26 ± 0.02
Qwen2.5-1.5B-Instruct	base	0.02 ± 0.01	0.14 ± 0.02	0.04 ± 0.01
Qwen2.5-1.5B-Instruct	format	0.43 ± 0.02	0.30 ± 0.02	0.20 ± 0.02

Table 1: Ablation study on training with binary format reward. F1 scores of Qwen3 LLMs and Phi-4-mini-reasoning do not improve when trained with binary reward for correct output format within . . (it even hurts in some instances). Qwen2.5-1.5B-Instruct improves remarkably with format reward training. We report standard error on the evaluation datasets.

消融研究的两个重要结论：

RL微调可以教授答案格式化： 对于 Qwen2.5-1.5B-Instruct LLM，RL微调 显著提升了答案格式化能力。这可能是因为模型学会了“奖励黑客 (reward hacking)”以获取最高的奖励（1分）。因此，Qwen2.5-1.5B-Instruct 模型在 Figure 2 中从合成到真实世界的性能迁移包含了输出格式和正确性两方面的改进。
RL微调在不依赖格式化的情况下教授知识组合： 更重要的是，对于 Qwen3 系列和 Phi-4-mini-reasoning LLMs，它们在初始化时就能正确格式化输出，格式奖励训练并没有带来显著性能提升，甚至在某些情况下有所下降。这表明 RL微调 在合成数据集上可以通过教授知识组合来提升多跳推理能力。由于 PhantomWiki 和 GSM-∞ 数据集是纯虚构的，且问题需要链接逻辑推理，因此真实世界基准性能的所有改进都可以归因于 知识组合 能力的提升。这证明 LLMs 仅凭合成数据就能培养 知识组合 能力，并将其应用到真实世界场景中。

6.1.3. 推理能力在训练过程中的演变 (Reasoning Evolves during Training)

为了理解模型如何学习，研究评估了训练过程中每10%训练步数保存的 中间检查点 (intermediate training checkpoints)。由于模型在数据集上只训练了一个 epoch，这意味着每个训练样本只被模型看到一次。此外，PhantomWiki 和 GSM-∞ 中的 10K 训练样本是从一组随机生成的宇宙中生成的，这些宇宙在事实知识上没有重叠。因此，评估 中间检查点 等同于研究 合成数据规模 (synthetic data scaling) 对 RL微调 中 多跳推理 的影响。

关键发现：

持续改进，无过拟合： 在图 3 中，Qwen3 LLMs 随着训练步数（或等效地，更多的训练样本）的增加，在真实世界的 多跳推理基准 上持续改进。这表明模型没有对合成训练数据集 过拟合 (overfit)。学习在 PhantomWiki 和 GSM-∞ 的虚构世界中组合知识持续带来真实世界的收益。
模型差异： Phi-4-mini-reasoning 也显示出类似的趋势（图 6），但 Qwen2.5-1.5B-Instruct 没有显示出这种改进。这表明不同的 LLMs 对 RL微调 的可塑性 (malleability) 不同。例如，Qwen3-0.6B 起始表现较差，但呈现陡峭的上升趋势，而 Qwen3-1.7B 改进较慢。
推理能力随难度提升： 图 5 展示了 中间检查点 的性能分解，作为问题难度和算术操作数（分别针对 PhantomWiki 和 GSM-∞）的函数。结果显著：Qwen3 LLMs 随着训练的进行，学会了正确回答所有难度级别的问题。Phi-4-mini-reasoning 也观察到类似趋势（图 7），而 Qwen2.5-1.5B-Instruct 则迅速饱和。由于 PhantomWiki 和 GSM-∞ 验证集中的宇宙与训练集完全不重叠，因此在所有难度级别的验证问题上的改进意味着在所有级别上 知识组合 能力的同时提升。
中间答案的生成： 图 4 进一步说明了 LLMs 在真实世界 MuSiQue 数据集中学习 知识组合。MuSiQue 数据集中的每个问题都附带了真值 中间答案 (intermediate answers) 列表。评估 PhantomWiki 训练 检查点 的生成结果发现，LLMs 学会了生成包含越来越多 中间答案 的推理轨迹。

下图（原文 Figure 3）展示了 LLMs 在 合成数据集 上进行 GRPO微调 时，中间训练检查点 在真实世界 多跳推理数据集 上的 F1分数。

该图像是三个折线图，展示了在HotpotQA、2Wiki和MuSiQue数据集上，使用不同训练数据（PhantomWiki和GSM-∞）及模型规模（Qwen3-1.7B和Qwen3-0.6B）下，训练步数与F1得分的关系。 Figure 3: F1 scores on real-world multi-hop reasoning datasets of intermediate training checkpoints, when LLMs are finetuned with GRPO on synthetic datasets. We evaluate intermediate checkpoints from every $10 \%$ of the full training steps on all evaluation datasets, and show mean $\pm$ standard error with the solid line and shaded region. Performance on all evaluation datasets continues to improve with training steps, especially with PhantomWiki training.

下图（原文 Figure 4）展示了 PhantomWiki 训练 检查点 在 MuSiQue 上的 推理演变 (Reasoning evolution)。

该图像是两个折线图，展示了不同训练步数下Qwen3-0.6B和Qwen3-1.7B模型在不同中间答案数量条件下，问题中信息比例（Fraction present）的变化，颜色深浅表示训练步数，横轴为Nth intermediate answer，纵轴为Fraction present。 Figure 4: Reasoning evolution plots on MuSiQue of PhantomWiki training checkpoints. We evaluate training checkpoints on MuSiQue questions, and plot the fraction of model's generated text that contain the ground-truth $\mathrm{n}^{\text {th }}$ intermediate answer. With continued training on synthetic data, the LLM reasoning traces include a higher proportion of correct intermediate answers.

下图（原文 Figure 5）展示了 F1分数 与 问题难度 相关的 推理演变 图，针对 中间训练检查点。

该图像是一个包含四个子图的图表，展示了不同模型（Qwen3-0.6B与Qwen3-1.7B）在不同训练步数下，基于PhantomWiki和GSM-∞数据集对多跳推理任务的表现。横坐标分别为问题难度和算术操作数，纵坐标为F1值或准确率，曲线色深表示训练步数。 Figure 5: Reasoning evolution plots of F1 vs question difficulty of intermediate training checkpoints. We evaluate intermediate training checkpoints of Qwen3-0.6B and Qwen3-1.7B trained on PhantomWiki and GSM- $\infty$ on corresponding validation datasets, and plot the performance as a function of ground-truth question difficulty. On the left are models trained and evaluated on PhantomWiki, stratified by question difficulty that corresponds to necessary number of hops in the PhantomWiki-generated universe. On the right are those on GSM- $\infty$ , where the reasoning complexity corresponds to number of arithmetic operations required to answer the math word problem. With continued training and fresh synthetic training samples (lines becoming darker), performance improves on validation questions across all difficulty levels.

6.1.4. 额外结果：其他模型的推理演变

图 6 和图 7 提供了 Phi-4-mini-reasoning 和 Qwen2.5-1.5B-Instruct 在类似实验设置下的结果。

下图（原文 Figure 6）展示了 LLMs 在 合成数据集 上进行 GRPO微调 时，中间训练检查点 在真实世界 多跳推理数据集 上的 F1分数。

该图像是论文中的图表，展示了在HotpotQA、2Wiki和MuSiQue三种任务中，不同训练数据集下训练步数与F1性能的关系，比较了PhantomWiki和GSM-∞数据集上两种方法的性能变化。 Figure 6: F1 scores on real-world multi-hop reasoning datasets of intermediate training checkpoints, when LLMs are finetuned with GRPO on synthetic datasets. We evaluate intermediate checkpoints from every $10 \%$ of the full training steps on all evaluation datasets, and show mean $\pm$ standard error with the solid line and shaded region. Performance on all evaluation datasets generally improves with training steps for Phi-4-mini-reasoning, but saturates for Qwen2.5-1.5B-Instruct.

下图（原文 Figure 7）展示了 F1分数 与 问题难度 相关的 推理演变 图，针对 中间训练检查点。

该图像是包含四个子图的图表，展示了基于不同训练步骤下模型在Qwen2.5-1.5B-Instruct和Phi-4-Mini-Reasoning数据集上的性能变化。横轴分别为问题难度和算术操作次数，纵轴为F1分数和准确率。颜色表示不同的训练步骤，图中“base”代表基线模型。 Figure 7: Reasoning evolution plots of F1 vs question difficulty of intermediate training checkpoints. We evaluate intermediate training checkpoints of Qwen2.5-1.5B-Instruct and Phi-4-minireasoning trained on PhantomWiki and GSM- $\infty$ on corresponding validation datasets, and plot the performance as a function of ground-truth question difficulty. On the left are models trained and evaluated on PhantomWiki, decomposed on question difficulty that corresponds to necessary number of hops in the PhantomWiki-generated universe. On the right are those on GSM- $\infty$ , where the reasoning complexity corresponds to number of arithmetic operations required to answer the math word problem. With continued training and fresh synthetic training samples (lines becoming darker), performance improves on validation questions across all difficulty levels. Qwen2.5-1.5BInstruct saturates quickly on GSM- $\infty$ -the reason why the final checkpoint in dark blue hides the intermediate checkpoint lines in the right plot.

综合洞察： 这些发现共同揭示了一个关键的见解：知识组合 能力是 多跳推理任务 中一种基础且可泛化的技能，可以在合成和真实世界数据集之间进行迁移。

6.2. 数据呈现 (表格)

本研究在 6.1.2. 格式奖励训练的消融研究 (Ablation Study on Training with Binary Format Reward) 部分已呈现了表格 Table 1，此处不再重复。

6.3. 消融实验/参数分析

本文主要进行了以下消融实验和分析：

6.3.1. 格式奖励消融实验

目的： 验证 LLM 学习 输出格式 (output format) 的能力是否与学习 知识组合 (knowledge composition) 的能力正交。
方法： 模型在3000个训练步中仅根据 $<answer>...</answer>$ 标签内的正确输出格式获得 二元奖励。
结果 (Table 1)：
- Qwen3 系列模型和 Phi-4-mini-reasoning 在格式奖励训练后，F1 分数没有显著提升，甚至在某些情况下略有下降。这表明这些模型在初始化时已经能够很好地处理输出格式。
- Qwen2.5-1.5B-Instruct 模型在格式奖励训练后，F1 分数显著提升。这表明该模型在 RL微调 过程中学会了如何正确格式化答案（“奖励黑客”）。
分析： 这一实验有力地支持了研究结论：对于那些已能正确格式化答案的模型，合成数据 训练带来的性能提升确实源于 知识组合 能力的增强，而非单纯的格式学习。

6.3.2. 训练步数对性能的影响（隐式参数分析）

目的： 观察模型性能随训练量（训练步数/样本数量）的变化，以验证 合成数据训练 的稳定性和避免 过拟合。
方法： 评估了训练过程中每 10% 训练步数保存的 中间检查点 在真实世界评估数据集上的表现。由于每个训练样本只被模型看到一次，这相当于分析了 合成数据规模 的影响。
结果 (Figure 3, Figure 6)：
- Qwen3 LLMs 随着训练步数的增加，在真实世界基准上的性能持续提升，显示出良好的 可扩展性 (scalability) 和 泛化能力，没有 过拟合 的迹象。
- Phi-4-mini-reasoning 也表现出类似的趋势。
- Qwen2.5-1.5B-Instruct 则较快达到性能饱和点。
分析： 结果表明，合成数据训练 能够提供持续有效的学习信号，推动模型不断提升 推理能力。不同模型对 RL微调 的响应速度和最终饱和点存在差异，这可能与模型自身的架构、初始化或预训练的“质量”有关。

6.3.3. 问题难度对性能的影响（隐式参数分析）

目的： 分析模型在不同难度级别问题上的学习和表现，以证明其 知识组合 能力在不同复杂程度下的有效性。
方法： 分别在 PhantomWiki 和 GSM-∞ 的验证集上，按 问题难度（PhantomWiki 中的跳数，GSM-∞ 中的算术操作数）对 中间检查点 的性能进行了分层评估。
结果 (Figure 5, Figure 7)：
- Qwen3 LLMs 随着训练的进行，在所有难度级别的问题上都取得了显著的性能提升。
- Phi-4-mini-reasoning 也呈现出类似的趋势。
- Qwen2.5-1.5B-Instruct 在 GSM-∞ 上很快饱和。
分析： 这一结果强调了 合成数据 能够教会 LLMs 学习并泛化 知识组合 这种基本能力，无论问题的复杂程度如何。在难度不一的虚构世界中学习到的推理模式，能够有效地迁移到解决真实世界中同样具有不同复杂程度的问题上。

总而言之，这些消融实验和参数分析共同证明了 合成数据 RL微调 的有效性，并深入揭示了 LLMs 如何学习 知识组合 这种通用推理技能，以及这种技能如何从虚构领域迁移到真实世界。

7. 总结与思考

7.1. 结论总结

本文深入探讨了 合成数据集 (synthetic datasets) 在提升 大语言模型 (LLMs) 多跳推理 (multi-hop reasoning) 能力方面的潜力。研究发现，通过使用 强化学习 (RL) 微调 (fine-tuning) LLMs，即使仅在包含虚构知识的合成数据上进行训练，模型也能在流行的真实世界问答基准测试上取得显著性能提升。

核心结论包括：

合成数据的有效性与经济性： 合成多跳数据集 被证明是一种可扩展、经济高效的推理训练数据来源，能够提供无限且可验证的训练信号。
推理能力的跨领域迁移： 实验结果强有力地证明，LLMs 能够从虚构的合成数据中学习到 知识组合 (knowledge composition) 这一基础且可泛化的推理技能，并将该技能成功迁移到与训练领域无事实重叠的真实世界任务中。
推理演进与泛化： 模型的推理能力在训练过程中持续演进，并在所有难度级别上同步提升，这表明模型学习到的是通用的推理机制，而非简单的记忆。

这些发现为在数据可用性受限或成本高昂的背景下，开发具有强大推理能力的 LLMs 提供了新的途径。

7.2. 局限性与未来工作

论文作者指出了以下局限性并提出了未来工作方向：

推理迁移的程度 (Extent of Reasoning Transferability)：
- 局限性： 尽管研究表明推理能力可以从虚构世界迁移到真实世界，但这种迁移的程度仍是一个开放问题。真实世界推理任务同时包含事实知识和 知识组合，而 合成数据集 仅关注后者。虽然记忆化在反事实情境中可能损害性能 (Wu et al., 2025a)，但模型可以同时学习记忆和泛化 (Xie et al., 2024)。
- 未来工作： 需要进一步研究 知识组合 与 知识密集型真实世界数据集 中事实知识之间的相互作用。
合成数据作为训练信号的更广泛应用 (Broader Utility of Synthetic Data as Training Signals)：
- 局限性： 本工作主要关注通过 多跳推理 进行 知识组合。
- 未来工作： 其他推理能力（如 因果推理 (causal reasoning)、反事实推理 (counterfactual inference) 或 类比思维 (analogical thinking)）是否也表现出类似的迁移模式，需要进一步探索 (Stojanovski et al., 2025)。此外，理解合成数据到真实世界迁移的边界条件，并将其扩展到 多跳推理 之外 (Zhao et al., 2023; Wu et al., 2025b; Wang et al., 2024) 也是重要的开放问题。

7.3. 个人启发与批判

7.3.1. 个人启发

这篇论文提供了非常深刻的启发，尤其是在当前 LLMs 发展遇到数据瓶颈和成本挑战的背景下：

数据生成范式的转变： 过去我们总认为高质量的训练数据必须来源于真实世界，而合成数据更多是作为辅助。本文证明了完全虚构的合成数据也能作为核心训练数据，去教授底层、通用的认知技能，这极大地拓宽了数据生成的思路。这意味着数据专家可以从“收集和清洗真实数据”转向“设计可生成复杂推理模式的数据生成器”。
推理本质的再思考： 论文暗示了“推理能力”可能比我们想象的更抽象、更独立于具体的事实知识。如果一个模型能在“不存在的世界”里学会推理，那么这种推理能力可能更接近于人类学习逻辑和组合信息的方式，而不是简单的模式匹配或事实记忆。这对于理解智能的本质和构建更通用的人工智能有重要意义。
成本效益与可扩展性： 合成数据 的无限可生成性和可验证性，为 LLM 的持续训练和提升提供了几乎无限制的低成本资源。这对于中小企业和研究机构开发高性能 LLM 具有巨大的潜在价值，能够有效降低对昂贵高质量人工标注数据的依赖。
教育领域的潜在应用： 这种通过虚构世界学习通用技能的模式，或许也能启发教育领域。例如，通过设计抽象的、具有明确逻辑规则的“游戏”或“沙盒环境”，来训练人类或AI在现实世界中所需的通用解决问题能力。

7.3.2. 批判

尽管论文提出了令人兴奋的发现，但也存在一些可以深入批判和改进的地方：

“虚构知识”的局限性：论文强调了 合成数据 的“虚构知识”特性，以排除记忆化。然而，即使是虚构的 PhantomWiki，其关系结构（如“朋友的朋友的侄子”）也遵循了人类社会中的基本关系逻辑。这种“虚构”可能并未完全脱离人类的认知框架。如果合成数据中的逻辑结构过于简单或与真实世界逻辑差异过大，其泛化能力是否依然保持？这需要更严谨地定义和区分“虚构的事实”和“虚构的逻辑”。
知识组合的定义与度量： 论文将 知识组合 定义为一种基础且可泛化的推理技能。但 知识组合 本身是一个广义概念。在 多跳推理 语境下，它主要体现在信息链式连接。这种能力是否能泛化到更复杂的 知识组合 形式（例如，需要多源信息整合、冲突解决、或归纳演绎的推理）？论文中对 知识组合 的度量主要通过 F1分数 和 中间答案 比例，这可能无法完全捕捉其复杂性。
模型可塑性的深入分析： 论文提到不同 LLMs 对 RL微调 的可塑性不同（例如 Qwen3-0.6B 提升明显，Qwen2.5-1.5B-Instruct 饱和快）。这背后的原因是什么？是模型架构差异、预训练数据特性、还是初始化质量？对这一点的深入分析将有助于指导未来的模型选择和 RL微调 策略。
超参数敏感性： 强化学习 通常对 超参数 高度敏感。论文中提供了一组 GRPO 的 超参数，但并未详细探讨这些参数（例如 epsilon，beta 设置为0的影响，num_generations 等）对性能迁移和推理演进的敏感性。一个更全面的 超参数 研究将增强研究的鲁棒性。
负面影响的探讨： 尽管论文强调了 合成数据 的积极作用，但并未深入探讨其潜在的负面影响，例如 合成数据 是否可能引入新的偏差 (bias)、限制模型的创造力、或在某些边缘情况下导致模型产生“幻觉 (hallucination)”？
推理效率： 论文主要关注推理的准确性，但未提及推理效率。多跳推理 通常涉及多个步骤，这会增加计算成本和延迟。合成数据 训练是否也能提升推理效率，或在准确性提升的同时维持合理的效率，值得进一步研究。

总体而言，这篇论文为 LLM 多跳推理 的训练开辟了令人兴奋的新方向，其核心贡献在于证明了 合成数据 在培养通用、可迁移的推理技能方面的强大潜力。未来的研究可以在这些基础上，进一步完善 合成数据 的设计、深化对推理本质的理解，并探索其在更广泛场景中的应用。

相似论文推荐

基于向量语义检索推荐的相关论文。

暂时没有找到相似论文。

Learning from Synthetic Data Improves Multi-hop Reasoning

TL;DR 精炼摘要

摘要

思维导图

论文精读

中文精读约 37 分钟读完 · 23,177 字

1. 论文基本信息

1.1. 标题

1.2. 作者

1.3. 发表期刊/会议

1.4. 发表年份

1.5. 摘要

1.6. 原文链接

2. 整体概括

2.1. 研究背景与动机

2.2. 核心贡献/主要发现

3. 预备知识与相关工作

3.1. 基础概念

3.1.1. 大语言模型 (Large Language Models, LLMs)

3.1.2. 强化学习 (Reinforcement Learning, RL)

3.1.3. 微调 (Fine-tuning)

3.1.4. 多跳推理 (Multi-hop Reasoning)

3.1.5. 合成数据 (Synthetic Data)

3.1.6. 知识组合 (Knowledge Composition)

3.2. 前人工作

3.2.1. LLM推理能力的提升

3.2.2. LLM训练与微调方法

3.2.3. 合成数据在LLM中的应用

3.3. 技术演进

3.4. 差异化分析

4. 方法论

4.1. 方法原理

4.2. 核心方法详解

4.2.1. LLM选择与微调设置

4.2.2. 合成训练数据集

4.2.2.1. GSM-∞\infty∞ (Zhou et al., 2025)

4.2.2.2. PhantomWiki (Gong et al., 2025)

4.2.3. RL微调算法：GRPO (Group Relative Policy Optimization)

4.2.4. 提示 (Prompt) 和奖励 (Reward) 设计

4.2.5. 实验配置概览

5. 实验设置

5.1. 数据集

5.1.1. 合成训练数据集

5.1.2. 评估数据集

5.1.2.1. HotpotQA (Yang et al., 2018)

5.1.2.2. 2WikiMultihopQA (Ho et al., 2020)

5.1.2.3. MuSiQue (Trivedi et al., 2022)

5.2. 评估指标

5.2.1. F1 分数 (F1 Score)

5.2.2. 准确率 (Accuracy) / 二元奖励 (Binary Reward)

5.3. 对比基线

6. 实验结果与分析

6.1. 核心结果分析

6.1.1. 性能从合成数据到真实世界的迁移 (Performance Transfer from Synthetic to Real-world Datasets)

6.1.2. 格式奖励训练的消融研究 (Ablation Study on Training with Binary Format Reward)

6.1.3. 推理能力在训练过程中的演变 (Reasoning Evolves during Training)

6.1.4. 额外结果：其他模型的推理演变

6.2. 数据呈现 (表格)

6.3. 消融实验/参数分析

6.3.1. 格式奖励消融实验

6.3.2. 训练步数对性能的影响（隐式参数分析）

6.3.3. 问题难度对性能的影响（隐式参数分析）

7. 总结与思考

7.1. 结论总结

7.2. 局限性与未来工作

7.3. 个人启发与批判

7.3.1. 个人启发

7.3.2. 批判

相似论文推荐

4.2.2.1. GSM- $\infty$ (Zhou et al., 2025)