论文状态：已完成

On the Interplay of Pre-Training, Mid-Training, and RL on Reasoning Language Models

发表：2025/12/09

长上下文建模 (14)大语言模型推理能力增强 (37)强化学习数学推理 (14)序列策略优化 (39)大语言模型强化学习训练 (66)

价格：0.100000

已有 4 人读过

本分析由 AI 生成，可能不完全准确，请以原文为准。

TL;DR 精炼摘要

本文研究强化学习（RL）是否真正扩展了语言模型的推理能力，提出一个透明的合成推理框架，分析预训练、中期训练和RL的因果贡献。主要发现包括：RL仅在模型能力边缘时有效提升能力，且仅需1%的预训练种子数据即可实现跨场景迁移，而中期训练显著优于纯RL，并有效降低奖励作弊。

摘要

Recent reinforcement learning (RL) techniques have yielded impressive reasoning improvements in language models, yet it remains unclear whether post-training truly extends a model's reasoning ability beyond what it acquires during pre-training. A central challenge is the lack of control in modern training pipelines: large-scale pre-training corpora are opaque, mid-training is often underexamined, and RL objectives interact with unknown prior knowledge in complex ways. To resolve this ambiguity, we develop a fully controlled experimental framework that isolates the causal contributions of pre-training, mid-training, and RL-based post-training. Our approach employs synthetic reasoning tasks with explicit atomic operations, parseable step-by-step reasoning traces, and systematic manipulation of training distributions. We evaluate models along two axes: extrapolative generalization to more complex compositions and contextual generalization across surface contexts. Using this framework, we reconcile competing views on RL's effectiveness. We show that: 1) RL produces true capability gains (pass@128) only when pre-training leaves sufficient headroom and when RL data target the model's edge of competence, tasks at the boundary that are difficult but not yet out of reach. 2) Contextual generalization requires minimal yet sufficient pre-training exposure, after which RL can reliably transfer. 3) Mid-training significantly enhances performance under fixed compute compared with RL only, demonstrating its central but underexplored role in training pipelines. 4) Process-level rewards reduce reward hacking and improve reasoning fidelity. Together, these results clarify the interplay between pre-training, mid-training, and RL, offering a foundation for understanding and improving reasoning LM training strategies.

思维导图

论文精读

中文精读约 9 分钟读完 · 5,283 字

1. 论文基本信息

1.1. 标题

On the Interplay of Pre-Training, Mid-Training, and RL on Reasoning Language Models
（预训练、中期训练与强化学习在推理语言模型中的相互作用研究）

1.2. 作者

Charlie Zhang, Graham Neubig, Xiang Yue
作者均来自卡内基梅隆大学（Carnegie Mellon University, CMU）语言技术研究所（LTI）。Graham Neubig 是 NLP 领域的知名学者。

1.3. 发表期刊/会议

该论文目前发布于 arXiv 预印本平台。

1.4. 发表年份

2025年（发布时间为 2025-12-08）。

1.5. 摘要

尽管强化学习（Reinforcement Learning, RL）在提升语言模型推理能力方面取得了显著成效，但目前尚不清楚后训练（Post-training）是否真的扩展了模型在预训练阶段之外的推理能力。本文开发了一个完全可控的实验框架，通过合成推理任务隔离了预训练、中期训练（Mid-training）和基于 RL 的后训练的因果贡献。研究发现：1) RL 仅在预训练留有足够空间且数据针对模型“能力边界”时才产生真正的能力提升；2) 上下文泛化仅需极少的预训练曝光即可通过 RL 实现迁移；3) 中期训练在固定计算预算下显著优于纯 RL；4) 过程级奖励（Process-level rewards）能有效减少奖励作弊。

1.6. 原文链接

arXiv: https://arxiv.org/abs/2512.07783v1
PDF: https://arxiv.org/pdf/2512.07783v1

2. 整体概括

2.1. 研究背景与动机

当前大语言模型（LLM）的训练流程通常分为预训练、微调和强化学习。最近如 OpenAI o1 和 DeepSeek-R1 等模型证明了强化学习（RL）在复杂推理中的巨大潜力。然而，学术界对“RL 究竟是挖掘了模型潜能，还是创造了新能力”存在激烈争论：

争议点 1： 有研究认为 RL 只是将预训练中已有的知识“唤醒”或“概率对齐”（即挖掘潜能）。
争议点 2： 另一派观点认为 RL 能够通过推演（rollout）和自我探索发现新的推理路径（即创造能力）。

核心挑战： 现代模型的预训练语料是“黑盒”，我们无法确定模型在 RL 之前到底学会了什么。

2.2. 核心贡献/主要发现

本文通过构建一个完全透明的合成推理数据集（GSM-Infinite），首次量化分析了三个阶段的相互作用：

能力边界效应： 只有当 RL 任务处于模型的“能力边缘”（即 pass@1 较低但 pass@128 仍有希望时），模型才会有真正的推理广度提升。
种子效应： 在预训练中仅需加入 $1\%$ 的特定领域种子数据，RL 就能在后训练中将其放大，实现强大的跨场景迁移。
中期训练（Mid-training）的重要性： 介于预训练和 RL 之间的结构化监督微调（SFT）阶段，对于提升模型在 RL 阶段的效率至关重要，且在相同算力下效果优于单纯增加 RL 时间。
过程监督： 引入过程验证（Process Verification）奖励比单纯看结果（Outcome Reward）能更有效地防止模型通过“歪门邪道”凑出正确答案。

3. 预备知识与相关工作

3.1. 基础概念

词元 (token): 文本处理的最小单位。
采样通过率 (pass@k): 评价模型推理能力的常用指标。指对同一个问题生成 $k$ $k$ 个答案，只要其中有一个正确，则认为该问题通过。
- pass@1: 衡量模型“随手一答”的准确率。
- pass@128: 衡量模型在多次尝试下“理论上能解决”问题的上限。
推演 (rollout): 指模型在强化学习过程中，根据当前策略生成一段完整的推理过程和答案的行为。
有向无环图 (DAG): 模型推理步骤的底层逻辑结构。每一个节点代表一个变量，每一条边代表计算逻辑。

3.2. 前人工作

强化学习 (RL): 经典的 PPO 算法或本文采用的 GRPO (Group Relative Policy Optimization)。GRPO 是 DeepSeek 提出的改进版，通过组内相对评估省去了复杂的价值函数（Value Function）网络，大大节省显存。
训练流水线:
- 预训练 (Pre-training): 大规模无监督学习。
- 中期训练 (Mid-training): 在特定高质量、结构化数据上的持续训练。
- 后训练 (Post-training): 包含指令微调（SFT）和强化学习（RL）。

3.3. 差异化分析

本文与以往研究（如 DeepSeek-R1 报告）最大的不同在于可控性。以往研究使用互联网数据，难以界定知识来源。本文使用合成数据，精确控制模型在预训练时见过哪些公式、见过多少次，从而实现了“因果推断”。

4. 方法论

4.1. 方法原理

作者构建了一个名为 GSM-Infinite 的框架。其核心思想是将数学题的推理过程表示为一个 有向无环图 (Directed Acyclic Graph, DAG)。

4.2. 核心方法详解 (逐层深入)

4.2.1. 推理图形式化 (Graph-Level Formalism)

每一个推理实例都被定义为一个 DAG，记作 $\mathcal{G} = (\mathcal{V}, \mathcal{E})$ 。

$\mathcal{V}$ 是节点集合，每个节点 $v_i$ 代表一个变量（如“苹果的数量”）。
$\mathcal{E}$ 是有向边的集合，边 $(v_j \to v_i)$ 表示变量 $v_i$ 的计算依赖于 $v_j$ 。

每个非叶子节点的计算遵循基本算术运算： $v_i = f_i \left( \{ v_j \}_{j \in pa(i)} \right), \quad f_i \in \{ +, -, \times, \div \}$ 其中 pa(i) 是节点 $i$ 的父节点集合。

推理复杂度控制： 作者通过统计图中边的数量来量化问题的复杂度，定义为 操作计数 (Operation Count): $op(\mathcal{G}) = |\mathcal{E}|$ op 越大，推理链条越深。论文中将 $op=2-10$ 定义为分布内（ID）， $op > 10$ 为分布外（OOD）。

4.2.2. 上下文渲染 (Contextual Rendering)

有了逻辑图后，通过渲染函数 $\Phi$ 将其转化为自然语言问题： $\Phi : (\mathcal{G}, \tau) \mapsto x$ 这里 $\tau$ 是模板 (Template)。例如，同一个计算逻辑（1+1=2）可以渲染为“动物园里的狮子”背景，也可以渲染为“学校里的老师”背景。这用于测试模型的上下文泛化能力。

下图（原文 Figure 2）展示了数据生成逻辑和评估流程：

$Figure 2: Overview of the data generation framework, task setup, and process-verified evaluation. The figure depicts the dependency graph $\\mathcal { G }$ and contextual templates $\\tau$ , the task setup for extrapolative and contextual generalization, and the process-verified evaluation framework that checks for correctness of reasoning steps.$ 该图像是图表，展示了数据生成框架、任务设置和过程验证评估的概述。图中包含依赖图 $\mathcal{G}$ 、上下文模板 $\tau$ ，以及用于外推和上下文泛化的任务设置与评估框架。

4.2.3. 过程验证评估 (Process-Verified Evaluation)

模型生成的答案不仅看最终数值 $\hat{a}$ 是否等于真值 $a^*$ ，还要看推理过程。模型生成的推理轨迹会被解析为预测图 $\hat{\mathcal{G}}$ 。作者定义了节点级正确性指示函数 $s$ ： $s(v; \hat{\mathcal{G}}, \mathcal{G}) = \begin{cases} 1, & \text{若 } v \in \hat{\mathcal{V}}, pa_{\hat{\mathcal{G}}}(v) = pa_{\mathcal{G}}(v), \text{且值相等} \\ 0, & \text{否则} \end{cases}$ 全过程准确率 (ProcessAcc): $ProcessAcc(\hat{\mathcal{G}}; \mathcal{G}) = \frac{1}{|\mathcal{V}|} \sum_{v \in \mathcal{V}} s(v; \hat{\mathcal{G}}, \mathcal{G})$ 只有当 $ProcessAcc = 1$ 且最终答案正确时，该样本才算通过。

4.2.4. 强化学习奖励函数 (Reward Function)

为了平衡答案正确性和推理忠实度，作者设计了混合奖励： $R = \alpha R_{out} + (1 - \alpha) R_{pv}$

$R_{out}$ : 结果奖励（1或0）。
$R_{pv}$ : 过程验证奖励（即上述 ProcessAcc）。
$\alpha$ : 调节权重。实验发现，即使没有显式的过程奖励，单纯的结果奖励也会隐式地提升推理质量，但加入过程奖励效果更好。

5. 实验设置

5.1. 数据集

预训练语料： 100 亿 (10B) 个词元。主要包含 $op=2-10$ 的简单推理题。
中期/后训练语料： 精心挑选的 $op=11-14$ （处于能力边界）或 $op=15-20$ （极难）的问题。
上下文环境： 三个主要场景：动物园（A）、学校（B）、电影节（C）。

5.2. 评估指标

采样通过率 (pass@k):
- 公式： $pass@k = 1 - \frac{\binom{n-c}{k}}{\binom{n}{k}}$ （通常用更简单的期望公式估算）。其中 $n$ 是总采样数， $c$ 是正确采样数。
负对数似然 (NLL): 用于衡量预测序列的概率分布改进。

5.3. 对比基线

Base Model: 100M 参数的 Qwen2.5 架构模型。
不同 RL 策略： 包括在不同难度数据（ID vs OOD-edge vs OOD-hard）上进行 RL。
训练混合比： 比较“纯中期微调”、“纯 RL”以及不同比例的“中期微调 + RL”。

6. 实验结果与分析

6.1. 核心结果 1：RL 什么时候有效？

作者发现，当 RL 作用于模型已经掌握得很好的 ID 任务时，pass@128 几乎没有提升。

结论： RL 只有作用在能力边界 (Edge of Competence) 时，才能显著提升模型的推理上限。

从 Figure 3 可以看出，在 $op=11-14$ 这种模型“似会非会”的任务上，RL 的提升最为明显。

$Figure 3: pass $\\mathtt { \\Omega } \\mathtt { \\Omega } \\mathtt { k }$ performance on three tasks: ID $\\mathsf { \\Pi } _ { \\mathrm { o p } = 2 - 1 0 }$ ), O0D-edge $\\scriptstyle \\mathtt { o p } = 1 1 - 1 4$ ), OOD-hard $\\ C { \\mathrm { p } } = ( 1 5 -$ 20. RL is applied to four different data regimes (colors). RL on ID tasks never improves beyond the base model at $\\mathtt { p a s s } \\ @ 1 2 8$ . RL consistently improves $\\mathtt { p a s s } \\ @ 1 2 8$ on harder tasks when applied beyond the base model's capacity.$ 该图像是图表，展示了在不同任务下，RL应用于不同数据状态时的性能表现，包括ID任务（op=2-10）、OOD-mid任务（op=11-14）和OOD-hard任务（op=15-20）。性能以p a s s@k为横坐标，展示了RL在难度递增的任务中如何超越基础模型的表现，特别是在RL数据针对模型能力边界时。

6.2. 核心结果 2：上下文泛化需要多少预训练数据？

作者测试了如果预训练里只有 $0.1\%$ 或 $1\%$ 的特定场景数据，RL 能否学会？

发现： 只要有 $1\%$ 的基础原子操作数据作为“种子”，RL 就能在后训练中成功将其扩展到极复杂的推理链条中（ $op=20$ ）。

Figure 4 显示了这一趋势：

$Figure 4: $\\mathtt { p a s s } \\rVert \\mathtt { d } 1 2 8$ performance on context $B$ after post-trained with a $50 \\%$ context $A + 5 0 \\%$ context $B$ mixture. Different lines represent levels of pre-training exposure to long-tailed context $B$ atomic $\\mathrm { \\tt O p } { = } 2$ examples. RL incentivizes contextual generalization when the model has minimal exposure $( \\geq 1 \\% )$ to context $B$ in pre-training.$ 该图像是图表，展示了在不同预训练数据混合下，模型在上下文 B 上的 exttt{pass@128} 性能。图表中的不同线条表示模型在长尾上下文 B 的不同预训练曝光水平，RL 在模型对上下文 B 有最低暴露时激励了上下文泛化。

6.3. 核心结果 3：中期训练 vs RL 算力分配

作者提出了一个算力等效公式，将 RL 的推演成本转化为等效的训练词元量： $T_{RL} \approx \frac{5}{3} N \cdot r \cdot L_{total}$ 其中 $N$ 是样本数， $r$ 是推演倍率（组大小）， $L_{total}$ 是序列总长度。

以下是原文 Table: Experimental configurations 的计算分配情况：

总预算 (B tokens)	纯中期训练步数	纯 RL 训练		80% 中期 / 20% RL		20% 中期 / 80% RL
总预算 (B tokens)	纯中期训练步数	步数	样本数 (k)	中期步数	RL 步数	中期步数	RL 步数
1.05	2,000	50	51.2	1,600	10	400	40
4.20	8,000	200	204.8	6,400	40	1,600	160
20.00	38,147	954	976.6	30,517	191	7,629	763

分析：

Light-RL (20% RL): 在解决稍微超出分布的任务（OOD-edge）时表现最好，稳定性高。
Heavy-RL (80% RL): 在攻克极难任务（OOD-hard）时表现最好，因为 RL 的探索能力更强。

6.4. 消融实验：过程验证奖励的作用

Figure 7 展示了不同奖励权重的对比。

结论： 即使只给结果奖励（ $R_{out}$ ），模型也会因为 RL 的自我对齐效应而减少逻辑错误。但显式加入过程奖励（ $R_{pv}$ ）能让模型更少地“跳步”或“瞎编推理步骤”，显著提高了推理的忠实度。

7. 总结与思考

7.1. 结论总结

本文通过严谨的受控实验揭示了推理模型训练的三个“潜规则”：

别浪费 RL 在简单题上： RL 的真正价值在于攻克模型处于“混沌状态”的中等难题。
预训练决定下限： 预训练中必须包含所有必要知识的“原子碎片”（即使密度仅 $1\%$ ），否则 RL 无法凭空创造能力。
中期微调是脚手架： 在进入 RL 之前，通过高质量 SFT 建立逻辑框架，能极大提升 RL 的算力效率。

7.2. 局限性与未来工作

规模局限： 实验是在 100M 参数模型上完成的。虽然趋势可能一致，但在 70B 或更大型模型上，模型可能展现出更强的自我修正能力。
任务单一： 合成数学任务虽然逻辑清晰，但缺乏真实世界自然语言推理的模糊性和多义性。

7.3. 个人启发与批判

启发： 这篇论文为“数据配方”提供了科学指导。对于资源有限的开发者，与其全量数据 RL，不如先用 pass@k 筛选出模型“差点就能做对”的题目进行强化。
批判： 论文中提到的“RL 创造新能力”其实还是建立在预训练已有的原子操作之上。某种程度上，这依然支持了“RL 是高效的组合器而非上帝”的观点。真正的“通用人工智能（AGI）”是否需要完全脱离预训练种子的创造力，仍是一个悬而未决的问题。

相似论文推荐

基于向量语义检索推荐的相关论文。

暂时没有找到相似论文。