论文状态：已完成

EvoLM: In Search of Lost Language Model Training Dynamics

发表：2025/06/19

大语言模型训练动态 (1)监督微调与强化学习 (1)持续预训练的重要性 (1)降维与泛化能力分析 (1)大规模语言模型实验套件 (1)

价格：0.100000

已有 3 人读过

本分析由 AI 生成，可能不完全准确，请以原文为准。

TL;DR 精炼摘要

本文提出了EvoLM模型套件，以系统性地分析语言模型的训练动态，涵盖预训练、继续预训练、监督微调和强化学习四个阶段。研究发现过度的预训练和后训练会导致收益递减，继续预训练在连接各阶段中起关键作用。此外，作者提供了模型及数据集，促进开放研究与可复现性。

摘要

Modern language model (LM) training has been divided into multiple stages, making it difficult for downstream developers to evaluate the impact of design choices made at each stage. We present EvoLM, a model suite that enables systematic and transparent analysis of LMs' training dynamics across pre-training, continued pre-training, supervised fine-tuning, and reinforcement learning. We train over 100 LMs with 1B and 4B parameters from scratch, and evaluate both upstream (language modeling) and downstream (problem-solving) capabilities, including considerations of both in-domain and out-of-domain generalization. Key insights highlight the diminishing returns from excessive pre-training and post-training, the importance and practices of mitigating forgetting during domain-specific continued pre-training, the crucial role of continued pre-training in bridging pre-training and post-training phases, and various intricate trade-offs when configuring supervised fine-tuning and reinforcement learning. To facilitate open research and reproducibility, we release all pre-trained and post-trained models, training datasets for all stages, and our entire training and evaluation pipeline.

思维导图

论文精读

中文精读约 30 分钟读完 · 15,733 字

1. 论文基本信息

1.1. 标题

EvoLM: In Search of Lost Language Model Training Dynamics

中文直译为“EvoLM：探寻失落的语言模型训练动态”。标题生动地表明了论文的核心主题：系统性地、端到端地研究和揭示现代语言模型（LM）在复杂的多阶段训练过程中的演化规律和内在动态，这些动态在以往的研究中往往是分散、不透明或被忽略的（“失落的”）。

1.2. 作者

Zhenting Qi, Fan Nie, Alexandre Alahi, James Zou, Himabindu Lakkaraju, Yilun Du, Eric Xing, Sham Kakade, Hanlin Zhang.

作者分别来自哈佛大学 (Harvard)、斯坦福大学 (Stanford)、洛桑联邦理工学院 (EPFL) 和卡内基梅隆大学 (CMU)。这些都是计算机科学和人工智能领域的顶尖学术机构，拥有强大的研究实力。作者团队汇集了机器学习、深度学习和自然语言处理领域的资深专家和青年学者，为这项大规模的实证研究提供了坚实的背景支持。

1.3. 发表期刊/会议

该论文目前作为预印本 (Preprint) 发布在 arXiv 上。

arXiv 是一个开放获取的学术论文预印本服务器，允许研究者在同行评审之前分享他们的研究成果。在机器学习和人工智能等快速发展的领域，arXiv 是传播最新研究的最主要和最快捷的渠道。
需要注意的是，作为预印本，该论文尚未经过正式的同行评审流程。

1.4. 发表年份

2025年（根据论文信息）。

1.5. 摘要

现代语言模型的训练被划分为多个阶段（预训练、继续预训练、监督微调、强化学习），这使得下游开发者难以评估每个阶段设计选择所带来的影响。为了解决这一问题，本文提出了 EvoLM，一个模型套件，旨在对语言模型从预训练到强化学习的整个生命周期中的训练动态进行系统性和透明化的分析。研究团队从头开始训练了超过100个参数量为10亿（1B）和40亿（4B）的语言模型，并对它们的上游能力（语言建模）和下游能力（解决问题）进行了评估，同时考虑了领域内（in-domain）和领域外（out-of-domain）的泛化能力。研究的关键洞见包括：

过度的预训练和后训练会带来收益递减。
在领域特定的继续预训练中，缓解“遗忘”现象至关重要，并提出了相应的实践方法。
继续预训练在连接预训练和后训练阶段中扮演着关键的桥梁角色。
在配置监督微调和强化学习时存在各种复杂的权衡。为了促进开放研究和可复现性，作者发布了所有预训练和后训练的模型、所有阶段的训练数据集以及完整的训练和评估流程。

1.6. 原文链接

原文链接: https://arxiv.org/abs/2506.16029v2
PDF 链接: https://arxiv.org/pdf/2506.16029v2

2. 整体概括

2.1. 研究背景与动机

当前，构建一个强大的语言模型（如 ChatGPT、Llama 等）不再是单一的训练过程，而是一个复杂的多阶段流水线，通常包括：

预训练 (Pre-training): 在海量无标签文本数据上学习通用的语言知识和世界知识。
继续预训练 (Continued Pre-training, CPT): 在特定领域（如数学、医学）的数据上进一步训练，以注入领域知识。
监督微调 (Supervised Fine-Tuning, SFT): 在高质量的“指令-回答”对上进行训练，使模型学会遵循指令。
强化学习 (Reinforcement Learning, RL): 通过奖励模型进行对齐，使模型的输出更符合人类偏好（如更有用、更无害）。

然而，这个过程存在一个巨大的挑战或空白 (Gap)：透明度和系统性的缺失。

不透明性: 许多最先进的模型（尤其是闭源模型）的训练细节（如数据配比、超参数）都是不公开的。即使是开源模型，研究者通常也只能拿到最终的“基础模型”，而无法得知其完整的“成长经历”。
缺乏系统性: 已有的研究往往只关注某个单一阶段，或者使用现成的模型进行后训练分析。这引入了许多混淆变量 (confounding factors)，例如，我们无法确定一个模型在SFT后表现不佳，是因为SFT方法本身的问题，还是因为它所依赖的基础模型预训练得不够好。此外，一些研究依赖于训练过程中的中间检查点 (intermediate checkpoints)，但这些检查点并未完成完整的学习率衰减，其性能可能并非最优，导致比较不公平。

本文的切入点正是为了解决这一问题。作者们决定扮演“上帝”的角色，从零开始、端到端地构建一个完整的、透明的语言模型开发流水线。通过严格控制每个阶段的变量（如数据量、训练轮数、模型大小等），他们得以系统地研究不同设计选择如何“塑造”模型的最终能力。这就像是在一个受控的实验室里观察和记录一个生物从出生到成年的完整发育过程，而不是仅仅研究成年个体。

2.2. 核心贡献/主要发现

本文的核心贡献可以概括为“一个模型套件、一个开源管道和十二条关键洞见”。

EvoLM 模型套件: 论文最大的贡献是构建并开源了 100+个从头训练的语言模型（1B 和 4B）。这些模型覆盖了不同训练阶段的各种配置组合，为社区提供了一个宝贵的、用于研究训练动态的“活体样本库”。
开源与可复现性: 作者开源了完整的训练和评估代码，以及所有阶段使用的训练数据。这极大地降低了其他研究者复现和扩展这项工作的门槛，促进了领域的开放和透明。
系统性的实证结论: 通过大量的受控实验，论文提炼出了12条关于语言模型训练动态的关键发现（原文中的 "Takeaway"），为模型开发者提供了宝贵的实践指导：
- 关于预训练:
  - Takeaway 1: 过度的通用预训练（在本文中是超过模型参数量80-160倍的词元）会遭遇收益递减 (diminishing returns)，甚至可能损害下游任务性能。
  - Takeaway 2: 在预训练预算有限时，小模型可能胜过大模型；但当预训练数据充足后，大模型的优势才能显现。
- 关于继续预训练 (CPT):
  - Takeaway 3: 领域CPT会导致对通用知识的灾难性遗忘 (catastrophic forgetting)，但混合一小部分（如5%）通用数据进行“重放”可以有效缓解此问题。
  - Takeaway 4: 充足的领域CPT是SFT和RL成功的基础；没有CPT，SFT效果不佳，RL甚至可能起反作用。
  - Takeaway 5 & 6: 随着CPT数据增加，模型在领域内和领域外的性能都会提升，并且RL带来的增益也更大。
- 关于监督微调 (SFT):
  - Takeaway 7: 过度的SFT（过多训练轮数或数据）虽然能提升领域内性能，但可能损害领域外泛化能力。
  - Takeaway 8: 过度的SFT会限制后续RL阶段的改进空间。
- 关于强化学习 (RL):
  - Takeaway 9: RL同样存在收益递减。
  - Takeaway 10: RL更多的是增强模型对其已有知识的信心（提高生成正确答案的概率），而不是教会它新的推理能力。
  - Takeaway 11: 在数据预算有限时，SFT和RL的数据分配存在权衡：更多数据给SFT有利于领域内性能，更多数据给RL有利于领域外泛化。
- 关于评估:
  - Takeaway 12: 奖励模型（ORM）的分数是比验证集困惑度（PPL）更可靠的、预测下游任务性能的指标。

3. 预备知识与相关工作

3.1. 基础概念

为了理解本文，我们需要熟悉语言模型训练的几个核心阶段和概念：

语言模型 (Language Model, LM): 一种能够计算给定文本序列概率的模型。在现代应用中，通常指基于 Transformer 架构的生成式模型，它们通过预测下一个词元来生成文本。
预训练 (Pre-training): 这是模型训练的第一步，也是计算量最大的一步。模型在海量的、未经人工标注的文本数据（如整个互联网的文本）上进行训练。目标是让模型学习通用的语言规则、事实知识和初步的推理能力。这个过程就像让一个孩子大量阅读书籍，建立对世界的基本认知。
继续预训练 (Continued Pre-training, CPT): 在通用预训练之后，为了让模型在特定领域（如编程、医学、数学）表现更好，会使用该领域的专门数据继续进行预训练。这就像一个通科医生去进修，成为心脏病专家。
灾难性遗忘 (Catastrophic Forgetting): 这是神经网络在学习新知识时，容易忘记旧知识的一种现象。在CPT中，当模型专注于学习数学知识时，它可能会忘记一些通用的对话或常识能力。本文中提到的“重放”策略（在学习新知识时，偶尔复习一下旧知识）是缓解该问题的常用方法。
监督微调 (Supervised Fine-Tuning, SFT): 这个阶段使用一个规模小得多但质量很高的“指令-回答”数据集来训练模型。目标是教会模型如何理解并遵循人类的指令，以一种有用和对话的方式进行回答，即所谓的“对齐”。
强化学习 (Reinforcement Learning, RL): 这是对齐的进一步步骤，通常被称为基于人类反馈的强化学习 (Reinforcement Learning from Human Feedback, RLHF)。
1. 训练奖励模型 (Reward Model, RM/ORM): 首先，让模型对同一个问题生成多个不同的回答，然后由人类标注员对这些回答进行排序（哪个更好）。利用这些排序数据，可以训练一个“奖励模型”，它能像人类一样为任何一个回答打分，分数高低代表质量好坏。
2. PPO 优化: 然后，将预训练好的语言模型作为策略 (policy)，让它生成回答。奖励模型则充当环境 (environment)，为生成的回答打分。通过近端策略优化 (Proximal Policy Optimization, PPO) 等RL算法，不断调整语言模型的参数，使其生成的回答能在奖励模型那里获得更高的分数。这个过程旨在让模型的输出更符合人类的偏好。
Chinchilla 缩放法则 (Chinchilla Scaling Law): 由 DeepMind 提出的一个重要理论，指出为了达到最优的计算效率，模型的参数量和训练数据的词元数量之间存在一个大致固定的比例关系（大约是每参数20个词元）。本文以此作为参照，研究了“过度训练”（远超这个比例）的效果。

3.2. 前人工作

本文建立在大量先前研究的基础之上，并旨在解决它们留下的问题。

缩放法则研究 (Scaling Laws):
- Kaplan et al. (2020) 和 Hoffman et al. (2022, Chinchilla) 的工作奠定了缩放法则的基础，揭示了模型性能与模型大小、数据量和计算量之间的可预测关系。
- 然而，这些研究主要关注预训练阶段的损失（loss），而本文则将目光投向了这些缩放法则如何影响最终的、经过多阶段后训练的下游任务性能。
训练动态研究 (Training Dynamics):
- Xia et al. (2022) 和 Springer et al. (2025) 等研究了模型在训练过程中的行为。例如，Springer et al. 指出，过度的预训练会使模型在微调时变得更“脆弱”，更容易遗忘。
- 本文通过更严格的受控实验，系统性地验证和扩展了这些发现，并将其置于一个完整的端到端框架中进行考察。
后训练研究 (Post-training):
- Chu et al. (2025) 比较了SFT和RL，发现SFT倾向于“记忆”训练样本，而RL则能更好地“泛化”。
- Yue et al. (2025) 提出，RL可能并不会真正提升模型的根本推理能力，而主要是增强其生成已有正确答案的信心。
- 这些研究通常依赖于现成的 (off-the-shelf) 基础模型，无法控制预训练阶段的变量。本文的核心优势在于，它将预训练和后训练联系起来，研究它们之间的相互作用 (interaction)。

3.3. 技术演进

语言模型的训练范式经历了从简单到复杂的演变：

早期 (GPT-1/2): 主要以大规模预训练为主，然后在特定下游任务上进行微调。
中期 (InstructGPT/ChatGPT): 引入了SFT和RLHF的后训练流程，实现了模型与人类指令和偏好的“对齐”，极大地提升了模型的可用性，开启了大语言模型应用的浪潮。
当前: 随着模型能力的增强和应用领域的细分，CPT阶段变得越来越重要，成为向模型注入专业知识的关键步骤。

本文正是在当前这种预训练 -> CPT -> SFT -> RL 的多阶段复杂范式下，对其内部的“黑箱”进行系统性探索。

3.4. 差异化分析

与之前的工作相比，本文最大的差异化和创新点在于其研究范式 (research paradigm)：

端到端控制 (End-to-End Control): 不同于只研究某个阶段或使用固定基础模型的研究，本文控制了从零开始的整个生命周期。这使得研究结论的因果关系更清晰、更可靠。
系统性与规模 (Systematicity and Scale): 论文不是孤立地测试一两个点，而是通过训练超过100个模型，形成了一个庞大的实验网格，覆盖了各个阶段不同参数配置的组合，从而能够发现系统性的趋势和权衡。
完全透明与开放 (Full Transparency and Openness): 作者不仅分享了结论，还分享了产生这些结论的所有工具——模型、数据、代码。这从根本上改变了该领域的研究模式，从依赖少数机构发布的“黑箱”模型，转向了一个更加开放、可验证和可复现的社区驱动模式。

4. 方法论

4.1. 方法原理

本文的方法论核心并非提出一种新的算法，而是一种科学的实验设计思想。其原理是建立一个可控的、可复现的、端到端的语言模型训练与评估流水线，通过系统性地改变流水线中各个阶段的关键变量，来观察和量化这些改变对模型最终能力的影响。

其直觉（intuition）非常朴素：要想知道菜谱里盐的多少对味道的影响，最好的办法就是亲手做几道菜，除了盐的用量不同，其他所有配料和步骤都完全一样。本文就是用这种“控制变量法”来研究语言模型的“烹饪”过程。

4.2. 核心方法详解 (逐层深入)

整个 EvoLM 的流程可以分为训练和评估两个部分。

4.2.1. 训练流水线 (Training Pipeline)

作者们基于开源工具（如 lit-gpt, LLaMAFactory）和开源数据构建了包含四个顺序阶段的训练流水线。所有模型都基于 LLaMA-2 架构，参数规模为10亿（1B）和40亿（4B）。

第一阶段：预训练 (Pre-training)
- 数据: 仅使用 FineWeb-Edu 数据集，这是一个高质量的教育和学术文本语料库。
- 变量: 控制训练词元 (token) 的数量。作者们以 Chinchilla 缩放法则（每参数约20词元）为基准，探索了从“计算最优”到“轻度过训练”（ $\leq 16 \times$ Chinchilla）再到“过度过训练”（ $> 16 \times$ Chinchilla）的广泛范围。具体来说，模型训练的词元数从几十亿（Billion Tokens, BT）到3200亿不等。
- 目标: 研究预训练数据量对模型基础能力以及后续阶段表现的深远影响。
第二阶段：继续预训练 (Continued Pre-training, CPT)
- 数据: 在领域相关的 FineMath 数据集上进行，这是一个数学文本语料库。
- 变量:
  1. CPT 词元数: 从20亿到420亿不等。
  2. 重放策略 (Replay Strategy): 为了缓解灾难性遗忘 (catastrophic forgetting)，在训练时混合了一定比例的通用预训练数据（FineWeb-Edu）。例如，一个配置可能是用 80亿 FineWeb 词元和 420亿 FineMath 词元进行混合训练。
- 目标: 探究领域知识注入的有效性、遗忘问题及其缓解方法。
第三阶段：监督微调 (Supervised Fine-Tuning, SFT)
- 数据: 使用了多个数学问答数据集（MetaMathQA, OpenMathInstruct-2, NuminaMath）的混合。作者还使用了一种名为“模型正确性一致性”的方法来过滤掉低质量数据。
- 变量:
  1. 训练样本数: 从5万到40万不等。
  2. 训练轮数 (Epochs): 从1轮到32轮不等。
- 目标: 研究SFT阶段的计算量（通过样本数或轮数体现）如何影响模型的领域内能力和领域外泛化能力。
第四阶段：强化学习 (Reinforcement Learning, RL)
- 算法: 使用近端策略优化 (Proximal Policy Optimization, PPO)。
- 奖励: 使用一个简单的二元可验证奖励 (binary verifiable reward)，即如果模型最终答案正确，则奖励为1，否则为0。
- 数据: 使用与SFT同源但无交集的数据。
- 变量:
  1. 训练样本数: 从5万到40万不等。
  2. 训练轮数 (Epochs): 从1轮到32轮不等。
- 目标: 探究RL对模型性能的提升效果，以及其与SFT阶段的相互作用。

4.2.2. 模型命名法

为了清晰地指代每一个经过特定流程训练出的模型，作者设计了一种紧凑的命名法。理解这个命名法是读懂其实验的关键。例如，1B-160BT-8+42BT-100Kep1-100Kep16 表示：

1B: 模型参数量为 10亿。
160BT: 在 FineWeb-Edu 上预训练了 1600亿 词元。
$8+42BT$ : 进行了继续预训练，混合了 80亿 通用数据和 420亿 领域数据。
100Kep1: 在 10万 个样本上进行了SFT，训练了 1 轮。
100Kep16: 在 10万 个样本上进行了RL，训练了 16 轮。

所有实验都使用完成了完整学习率调度 (complete learning rate scheduling) 的最终模型检查点进行评估，这确保了比较的公平性。

5. 实验设置

5.1. 数据集

本文实验横跨了训练和评估两大环节，使用了多个不同类型和领域的数据集。

5.1.1. 训练数据集

预训练: FineWeb-Edu [38]。一个从网络上筛选出的高质量教育和学术文本的大规模数据集，总词元数约1.3万亿。
继续预训练 (CPT): FineMath [2]。一个包含约500亿词元的数学文本、问题和解法的数据集，用于增强模型的数学知识。
后训练 (SFT/RL):
- MetaMathQA [63], OpenMathInstruct2 [55], NuminaMath [31]。这些是包含数学问题及详细解题步骤的指令微调数据集。本文使用 Qwen2.5-7B-Math-Instruct 模型为这些数据集中的问题生成回答，作为SFT和RL的训练数据。

5.1.2. 评估数据集

上游填空任务 (Upstream Cloze Tasks): 这类任务通过预测下一个词元来评估模型的基础语言建模能力，采用0-shot准确率。
- HellaSwag [65]: 常识推理，选择最合理的句子结尾。
- Winogrande [44]: 代词消歧，判断代词指向哪个名词。
- PIQA [6]: 物理常识推理。
- OBQA [36]: 开放域问答，需要一定的背景知识。
- ARC-Easy/Challenge [11]: 科学问答，分为简单和挑战两个级别。
下游生成任务 (Downstream Generative Tasks): 这类任务评估模型在对话式场景下解决复杂问题的能力，采用0-shot方式生成完整解法。
- 领域内 (In-Domain, ID) - 数学推理:
  - GSM8K-Platinum [57]: 一个经过人工清洗、修正了标签噪声的GSM8K测试集版本，包含小学水平的数学应用题。
  - MATH [20]: 一个更具挑战性的数学竞赛题数据集。
- 领域外 (Out-of-Domain, OOD) - 通用推理:
  - CRUXEval [19]: 代码推理，预测给定Python函数的输出。
  - BGQA [28]: 逻辑推理，处理含有矛盾信息的游戏规则。
  - TabMWP [35]: 表格推理，基于表格数据进行数学计算。
  - StrategyQA [18]: 常识推理，需要多步、隐含的推理策略。

数据样本示例 (来自附录):

GSM8K-Platinum:

Human: While on vacation in Bali, Thea bought a hat from a craftsman worth 70. If she gave the craftsman four20 bills, how much change did she get? Assistant: [模型需要生成解题步骤和最终答案]
CRUXEval:

Human: You are given the following function:

def f(array): new_array = array.copy() new_array = reversed(new_array) return [x * x for x in new_array]

... With the given function and input [1, 2, 1], what would be the output? Assistant: [模型需要输出函数的执行结果 [1, 4, 1]]

5.2. 评估指标

论文使用了多种指标来从不同维度评估模型的性能。

Pass@k (Accuracy):
1. 概念定义: Pass@k 用于评估模型在 k 次尝试中至少有一次成功的概率。它衡量的是模型生成正确答案的潜力。对于一个给定的问题，模型被要求生成 k 个独立的答案（通常通过设置较高的 temperature 来增加随机性）。只要这 k 个答案中至少有一个是正确的，该问题就被视为已解决。
2. 数学公式: $\text{Pass@k} = \mathbb{E}_{\text{problem}}\left[1 - \prod_{i=1}^{k} (1 - c_i)\right]$ 其中， $c_i$ 是一个伯努利随机变量，如果第 $i$ 次生成的答案是正确的，则 $c_i=1$ ，否则为0。在实际计算中，通常通过生成大量问题-答案对并计算成功率来估计期望值。一个更实用的估计公式是： $\text{Pass@k} \approx 1 - \frac{\mathbb{E}[\text{number of incorrect samples}]}{\mathbb{E}[\text{number of total samples}]} = 1 - (1 - \text{Pass@1})^k$
3. 符号解释:
  - $k$ : 生成答案的总次数。
  - $c_i$ : 第 $i$ 次尝试是否正确的指示变量。
  - $\mathbb{E}$ : 数学期望。
- 本文中使用了 Pass@1（即贪心解码， $temperature=0$ ）和 Pass@16。
Maj@k (Accuracy):
1. 概念定义: Maj@k 指的是在 k 个生成的答案中，通过多数投票 (Majority Vote) 选出的最终答案是否正确。它衡量的是模型在多次采样中生成结果的一致性和鲁棒性。
2. 数学公式: 没有一个简单的封闭式数学公式，其计算过程是一个算法：
  1. 为单个问题生成 $k$ 个答案。
  2. 从每个答案中提取最终结果（例如，数值或选项）。
  3. 统计所有结果的出现频率。
  4. 选择出现频率最高的结果作为最终答案。
  5. 判断该最终答案是否与标准答案一致。
3. 符号解释:
  - $k$ : 生成答案的总次数。
- 本文中使用了 Maj@16。
RM@k (Accuracy):
1. 概念定义: RM@k 指的是在 k 个生成的答案中，由一个奖励模型 (Reward Model, RM) 挑选出的分数最高的那个答案是否正确。它衡量的是一个外部、更强大的评判模型（奖励模型）是否能从一堆候选答案中识别出最优解。
2. 数学公式: 同样是一个算法过程：
  1. 为单个问题生成 $k$ 个答案。
  2. 使用奖励模型为这 $k$ 个答案分别打分。
  3. 选择分数最高的答案。
  4. 判断该答案是否与标准答案一致。
3. 符号解释:
  - $k$ : 生成答案的总次数。
- 本文中使用了 RM@16。
Correct Ratio:
1. 概念定义: 在那些至少包含一个正确解的16个回答组中，计算正确解的数量占总数（16）的比例。这个指标衡量的是，当模型有能力解决问题时，它能多大概率地输出正确答案，反映了模型的置信度或稳定性。
2. 数学公式: $\text{Correct Ratio} = \mathbb{E}_{P \in S} \left[ \frac{\sum_{i=1}^{16} \mathbb{I}(\text{ans}_i \text{ is correct})}{16} \right]$
3. 符号解释:
  - $S$ : 所有至少有一个正确答案的问题集合。
  - $P$ : 集合 $S$ 中的一个问题。
  - $\text{ans}_i$ : 为问题 $P$ 生成的第 $i$ 个答案。
  - $\mathbb{I}(\cdot)$ : 指示函数，当条件为真时为1，否则为0。
ORM Score:
1. 概念定义: 使用一个外部的结果奖励模型 (Outcome Reward Model, ORM) 对模型生成的解决方案进行打分。这个分数是一个标量，代表了解决方案的质量。本文使用的 ORM 是 Skywork-Reward-Llama-3.1-8B-v0.2。该分数被用作评估模型生成质量的一个无监督代理指标。
2. 数学公式: $\text{Score} = f_{\text{ORM}}(\text{problem}, \text{response})$
3. 符号解释:
  - $f_{\text{ORM}}$ : 奖励模型函数。
  - problem: 输入的问题。
  - response: 模型生成的回答。

5.3. 对比基线

本文的实验设计主要是内部比较，即在 EvoLM 套件内部，比较不同训练配置的模型。例如，比较 1B-80BT-... 和 1B-160BT-... 来观察预训练数据量的影响。

此外，在附录的 Table 4 中，作者将他们预训练的基础模型与一些知名的外部开源模型进行了比较，以证明他们自己训练的基础模型具有竞争力。这些外部基线包括：

OPT [69]
Pythia [5]
TinyLlama [68]
Llama [56]
Qwen [3]

6. 实验结果与分析

本章节将详细解读论文的核心实验结果，并结合图表进行分析。

6.1. 核心结果分析

论文通过一系列受控实验，系统地揭示了语言模型在生命周期中各个阶段的训练动态。

6.1.1. 预训练规模的影响 (Scaling Pre-training)

发现：过度的预训练会带来收益递减，甚至可能损害性能。

上游任务表现 (Figure 2):
- 如下图所示，对于0.5B, 1B, 4B三种尺寸的模型，随着预训练词元数量的增加，它们在上游任务（如 HellaSwag）的平均准确率持续提升。
- 然而，这种提升并非线性的。在大约 800亿 (80BT) 到 1600亿 (160BT) 词元之后，性能曲线开始变得平缓，即投入更多的计算资源带来的性能收益越来越小。这验证了收益递减 (diminishing returns) 的现象。
  
  该图像是一个图表，展示了不同规模模型（0.5B、1B、4B）在不同预训练令牌数量下的上游任务性能（平均准确率）。随着预训练令牌数量的增加，模型的平均准确率逐渐提高。
下游任务表现 (Figure 3):
- 将这些预训练模型进行后续的 CPT, SFT 和 RL 后，在下游的数学推理任务上观察到了更显著的趋势。
- 如下图所示，无论是只经过 SFT 的模型还是 SFT+RL 的模型，其在领域内（ID）和领域外（OOD）的性能都在预训练达到 800亿 (80BT) 词元时达到一个峰值或平台期。
- 继续增加预训练数据到 160BT 甚至 320BT，性能几乎没有提升，甚至在 OOD 任务上（如 Maj@16 准确率）出现了下降。
- 结论 (Takeaway 1): 这表明，对于特定规模的模型（如1B），无限制地增加通用预训练数据并不能保证下游专业任务性能的持续提升。当预训练达到一定程度后，模型可能已经学到了足够的通用知识，再多的数据可能只会强化某些偏见或导致与下游任务不匹配的过拟合。
  
  $Figure 3: Downstream task performance vs. number of pretraining tokens on models: - SFT: 1B-{20BT, 40BT, 80BT, 160BT, 320BT}-8+42BT-100Kep1 - $\\mathbf { S F T + R L }$ : 1B-{20BT, 40BT, 80BT, 160BT, 320BT}-8+42BT-100Kep1-100Kep8.$
  
  发现：在计算预算有限时，小模型+多数据 vs. 大模型+少数据，前者可能更优。

模型大小与数据的权衡 (Table 1):

下表比较了在相同预训练计算量（1B-320BT vs. 4B-80BT）和相同预训练词元数（如 1B-160BT vs. 4B-160BT）下，模型大小的影响。
相同计算量: 1B模型在320BT词元上训练，其性能全面优于4B模型在80BT词元上的训练结果。这说明在计算预算固定的情况下，将资源分配给更多的数据（对于小模型）比分配给更大的模型更有效。
相同词元数: 当词元数较少时（80BT），1B模型甚至略微领先4B模型。但当词元数增加到160BT（进入性能饱和区）时，4B模型的潜力被“解锁”，性能大幅超越1B模型。
结论 (Takeaway 2): 选择模型大小和数据量需要权衡。预算不足时，用小模型跑更多数据是明智之选。只有当数据量足够“喂饱”大模型时，其规模优势才能转化为性能优势。

以下是原文 Table 1 的结果：

Base Model	ID Acc. (SFT / SFT+RL)			OOD Acc. (SFT / SFT+RL)
Base Model	Greedy	Maj@16	Pass@16	Greedy	Maj@16	Pass@16
Same Pretraining Compute
1B-320BT-8+42BT	14.1 / 20.1	16.1 / 25.0	36.0 / 49.0	25.3 / 28.3	24.8 / 29.9	54.4 / 62.6
4B-80BT-8+42BT	11.3 / 15.7	13.2 / 20.0	34.2 / 43.0	24.8 / 28.2	23.4 / 29.6	52.2 / 60.2
Same Pretraining Tokens
1B-80BT-8+42BT	12.1 / 18.0	14.1/21.4	35.1 / 45.4	25.4 / 27.5	24.6 /31.0	55.7 / 65.3
4B-80BT-8+42BT	11.3 / 15.7	13.2 / 20.0	34.2 / 43.0	24.8 / 28.2	23.4 / 29.6	52.2 / 60.2
1B-160BT-8+42BT	12.8 / 17.5	14.2 / 22.5	34.5 / 45.1	23.8 / 28.2	25.6 /31.6	55.3 / 64.9
4B-160BT-8+42BT	22.0 / 27.8	26.4 / 34.8	47.6 /58.4	27.9 / 29.6	26.0 / 33.2	57.3 / 66.2

6.1.2. 继续预训练 (CPT) 的影响

发现：CPT至关重要，但需警惕灾难性遗忘。适度的“重放”策略是关键。

缓解遗忘 (Figure 4, Table 2):
- Figure 4 显示，如果只用领域数据（FineMath）进行CPT（橙色虚线），模型的上游通用能力（Avg. ACC.）会急剧下降，这就是灾难性遗忘 (catastrophic forgetting)。
- 而混合了一小部分通用数据（FineWeb）进行“重放”（replay）后（蓝色实线），模型的通用能力得到了很好的保持。
- Table 2 进一步显示，并非重放数据越多越好。与纯领域数据CPT（19.27%）相比，混合8BT通用数据（约占CPT总数据16%）的版本在下游任务上表现最好（21.01%），而混合过多（16BT）或过少（1.6BT）效果都不理想。
- 结论 (Takeaway 3): CPT时混合少量（本文实验中约5-15%）的通用数据进行重放，是平衡领域知识学习和通用能力保持的最优策略。
  
  以下是原文 Table 2 的结果：
CPT Config Acc.

No CPT 6.04

FineMath 50BT 19.27

FineWeb 1.6BT + FineMath 48.4BT 16.21

FineWeb 8BT + FineMath 42BT 21.01

FineWeb 16BT + FineMath 34BT 15.22
CPT作为桥梁 (Figure 5):
- 该图显示了CPT数据量对下游性能的影响。最左侧的点（0 CPT tokens）代表没有经过CPT、直接从预训练到SFT/RL的模型。
- 可以看到，随着CPT数据量增加，SFT和SFT+RL模型的性能都稳步提升，并在32BT-42BT左右达到饱和。
- 一个特别有趣的现象是，在没有CPT的情况下，RL甚至会损害性能（SFT+RL的Maj@16等指标低于纯SFT）。这说明CPT为模型打下了坚实的领域知识基础，使得SFT和RL能够在此基础上发挥作用。
- 结论 (Takeaway 4, 5, 6): CPT是连接通用预训练和下游任务微调的关键桥梁。没有它，后训练效果大打折扣。充足的CPT不仅能提升领域内性能，还能泛化到领域外任务，并放大RL带来的收益。
  
  $Figure 5: Downstream task performance vs. continued pre-training tokens on models: - SFT: 1B-160BT-100Kep1, 1B-160BT $\\cdot 8 +$ {2BT, .., 42BT}-100Kep1 -SFT+RL: 1B-160BT-100Kep1-100Kep8, 1B-160BT $^ { 8 + }$ {2BT, ., 42BT}-100Kep1-100Kep8.$ 该图像是图表，展示了在不同继续预训练（CPT）token数量下，模型在多个下游任务上的表现，包括贪婪策略、Maj@16、RM@16等。横轴为CPT token数量（B），纵轴为任务性能值。图中比较了SFT和SFT+RL两种训练策略的表现差异。

CPT Config	Acc.
No CPT	6.04
FineMath 50BT	19.27
FineWeb 1.6BT + FineMath 48.4BT	16.21
FineWeb 8BT + FineMath 42BT	21.01
FineWeb 16BT + FineMath 34BT	15.22

6.1.3. SFT 和 RL 规模的影响

发现：过度的SFT/RL会损害泛化能力，且RL主要增强信心而非能力。

SFT规模 (Figure 6 & 7):
- 增加训练轮数 (Figure 6): 随着SFT轮数增加，ID（领域内）性能持续提升并饱和，这是模型在“背题”；而OOD（领域外）性能在2-4轮后开始下降，说明过度拟合 (overfitting) 损害了泛化能力。同时，过度的SFT也压缩了后续RL的提升空间。
- 增加数据量 (Figure 7): 类似地，增加SFT样本量能持续提升ID性能，但OOD性能则波动不定，甚至下降。
- 结论 (Takeaway 7, 8): SFT并非越多越好。通常2-4个epoch是比较合适的选择。过度SFT会牺牲泛化能力，并限制RL的潜力。
  
  $Figure 6: Downstream task performance vs. number of SFT epochs for models: - SFT: 1B-160BT-8+42BT-100Kep{1,2,4,8,16,32} - $\\mathbf { S F T + R L }$ : 1B-160BT-8+42BT-100Kep{1,2,4,8,16,32}-100Kep8.$ 该图像是图表，展示了不同训练阶段下的下游任务性能与监督微调（SFT）轮次的关系。图中包含五个子图，分别展示了不同模型在 ID 和 OOD 数据集上的表现，其中 SFT 和 $SFT + RL$ 曲线对比突出。
  
  $Figure 7: Downstream task performance vs. number of SFT examples for models: - SFT: 1B-160BT-8+42BT-{50K, 100K, 150K, ., 400K}ep1 - $\\mathbf { S F T + R L }$ : 1B-160BT-8+42BT-{50K, 100K, 150K, .., 400K}ep1-100Kep8.$ 该图像是一个图表，展示了不同模型在下游任务性能与SFT示例数量之间的关系。包括的性能指标涉及ID和OOD的任务，如Greedy、Maj@16、RM@16等。图中同时展示了SFT和SFT+RL的结果，反映了随着示例数量增加性能的变化。
RL规模 (Figure 8):
- 增加训练轮数/数据量: 如下图（合并了Figure 8a和8b的结论），增加RL的训练轮数或数据量，Greedy、Maj@16和RM@16准确率都在提升后饱和。
- 一个关键的矛盾: Pass@16（潜力）在RL训练早期就达到顶峰然后下降，而Correct Ratio（在能做对的题目里，做对的比例）却持续上升。
- 结论 (Takeaway 9, 10): 这有力地证明了，RL的主要作用是“提纯”和“增强信心”。它让模型在已经会做的题目上，更有把握地、更高概率地生成正确答案（Correct Ratio上升），但并没能让它学会解决新的、原本不会的题目（Pass@16下降）。
  
  该图像是一个图表，展示了在不同强化学习（RL）训练轮次下的准确率、ORM和正确率（Correct Ratio）的变化情况，分为ID和OOD两种情况。数据源自模型训练动态的评估，以便分析不同设计选择的影响。

6.1.4. SFT 与 RL 的数据分配

发现：在数据预算固定的情况下，SFT和RL的数据分配存在明确的权衡。

数据分配权衡 (Figure 9):
- 实验固定后训练总数据量为10万，然后测试不同的SFT/RL分配比例（如1万SFT/9万RL，3万SFT/7万RL等）。
- 结果非常清晰：ID性能（绿色）由SFT数据量驱动，分配给SFT的数据越多，ID性能越好。OOD性能（蓝色）由RL数据量驱动，分配给RL的数据越多，OOD性能越好。
- 结论 (Takeaway 11): 这是一个非常实用的指导。如果你的目标是最大化特定领域内的表现，应优先保证SFT的数据量；如果更看重模型的通用泛化能力，则应加大RL的投入。
  
  该图像是图表，展示了在不同 SFT/RL 数据分配下，1B 和 4B 模型在降重测试（ID）和超参数测试（OOD）中的表现。横轴表示数据分配量（K 示例），纵轴显示模型性能。这些数据旨在分析后训练阶段的配置效果。

6.1.5. 评估方法的思考

发现：ORM分数是比困惑度更可靠的下游性能预测指标。

中间检查点的不可靠性 (Table 3): 实验证明，从一个长训练程中途截取的检查点，其性能远不如一个独立完成相应训练量的模型。这警示研究者不能想当然地使用中间检查点来代表小型模型。
ORM分数的预测能力 (Figure 10):
- 如下图所示，将所有后训练模型的ORM分数与其在各个下游任务上的准确率进行比较，发现了强烈的正相关关系（相关系数在0.62到0.84之间）。
- 与之形成鲜明对比的是，在附录的 Figure 14 中，验证集困惑度 (PPL) 与下游任务准确率几乎没有任何相关性。
- 结论 (Takeaway 12): 在后训练阶段，传统的PPL指标已经失效。而一个好的（即使是中等大小的，如8B）奖励模型，其打分可以作为评估模型生成质量和预测最终性能的可靠代理指标。这在缺乏标注测试数据时尤其有用。
  
  该图像是图表，展示了不同任务下准确率与ORM评分之间的相关性。每个子图代表一个数据集，每个点对应一个模型变体，虚线表示线性趋势，标题中报告了Pearson相关系数。

6.2. 消融实验/参数分析

本文的整个结构可以看作是一系列大规模的消融实验和参数分析。每一组实验（如改变预训练token数、改变SFT轮数、改变CPT重放比例等）都旨在隔离并验证一个特定设计选择的影响，从而分析其在整个模型生命周期中的作用。这些分析构成了论文的核心贡献，已在上一节详细阐述。

7. 总结与思考

7.1. 结论总结

本论文通过构建EvoLM这一包含超过100个模型的透明套件，对语言模型从预训练到强化学习的整个生命周期进行了前所未有的系统性研究。主要结论和贡献如下：

揭示了训练阶段的收益递减与权衡：
- 过度的预训练和后训练（SFT/RL）都会遭遇性能瓶颈，甚至损害泛化能力。
- 在计算资源受限时，模型大小和数据量之间存在明确的权衡关系。
强调了CPT的关键作用：
- CPT是连接通用知识和专业能力的关键桥梁，对后训练效果至关重要。
- 通过“数据重放”策略可以有效缓解CPT带来的灾难性遗忘。
深化了对SFT和RL的理解：
- SFT和RL的数据分配决定了模型在领域内性能和领域外泛化之间的取舍。
- RL的主要作用是增强模型对已有知识的“信心”，而非教授新能力。
提供了新的评估范式：
- 证明了在后训练阶段，ORM分数是比传统困惑度（PPL）更可靠的下游性能预测指标。
对社区的重大贡献：
- 开源了所有模型、数据和代码，极大地推动了该领域的透明化、可复现和开放研究。

7.2. 局限性与未来工作

作者在论文中坦诚地指出了当前研究的局限性，并展望了未来的研究方向：

模型规模的局限： 本研究主要集中在1B和4B参数量的模型上。这些观察到的趋势是否能推广到更大规模的模型（如70B、数百B甚至万亿级别）尚不确定。未来需要验证这些“后训练缩放法则”在更大模型上的表现。
任务领域的局限： 研究的后训练目标集中在数学推理上。对于其他类型的任务，如安全对齐、遵循复杂指令、工具调用、代码生成或创意写作，其训练动态可能会有很大不同。
RL方法的局限： 实验仅使用了PPO算法和简单的二元可验证奖励。探索其他RL算法（如DPO）或更复杂的奖励机制（如基于人类偏好排序的奖励模型）可能会揭示更丰富的动态。

7.3. 个人启发与批判

这篇论文给我带来了深刻的启发，同时也引发了一些批判性思考。

启发：

科学精神的回归： 在当前AI领域充满“炼金术”和“黑箱”的背景下，这篇论文堪称一股清流。它采用严谨的控制变量法，通过大规模、系统性的实验来探求因果关系，充分体现了科学研究的精神。这提醒我们，即使在工程性很强的领域，扎实的实证科学方法论依然是推动认知边界的核心力量。
开放研究的价值： 本文最大的贡献可能不是那12条结论，而是其开创性的开放研究范式。通过开源模型、数据和代码，作者将“渔”而非“鱼”交给了整个社区。这使得任何研究者都可以站在他们的肩膀上，进行更深入、更细致的探索，从而加速整个领域的知识积累。
实践指导意义： 论文提炼的12条“Takeaway”对于任何从事语言模型开发的工程师或研究者来说，都是极其宝贵的实践指南。它将许多过去模糊的、经验性的“直觉”转化为了有数据支撑的、清晰的结论，有助于在实际工作中做出更明智的资源分配和技术选型决策。

批判与思考：

“缩放”的普适性问题：论文的发现基于最高4B的模型，这在今天已经属于“小模型”的范畴。随着模型规模的指数级增长，许多规律可能会发生“相变”。例如，小模型上RL不教新知识的结论，在千亿参数模型上是否依然成立？大模型可能因为其更强的泛化和记忆能力，在RL阶段表现出不同的学习动态。因此，将这些结论直接外推到更大模型上需要非常谨慎。
ORM评估的“循环论证”隐忧： 论文发现8B的ORM可以很好地评估1B模型的性能。这固然是一个有用的发现，但它也揭示了一个潜在的困境：评估一个模型的好坏，似乎需要一个更强大的模型。那么，评估那个更强大的模型又需要什么呢？这指向了一个关于评估标准和“真值”来源的根本性问题。我们是否最终会陷入“用一个更大的黑箱去理解一个小黑箱”的循环中？
任务定义的局限性： 论文聚焦于以数学推理为代表的、有明确正确答案的任务。但语言模型的大部分应用场景（如对话、写作、总结）并没有唯一的“正确答案”，而是更关乎主观的质量、风格和创造性。在这些任务上，SFT和RL的动态、收益递减的拐点、以及泛化能力的定义都会变得更加复杂和模糊，这是本文未曾触及的广阔领域。

相似论文推荐

基于向量语义检索推荐的相关论文。

暂时没有找到相似论文。