AiPaper
论文状态:已完成

Understanding R1-Zero-Like Training: A Critical Perspective

发表:2025/03/27
原文链接PDF 下载
价格:0.10
价格:0.10
已有 3 人读过
本分析由 AI 生成,可能不完全准确,请以原文为准。

TL;DR 精炼摘要

本文批判性审视了类R1-Zero强化学习训练范式,通过深入分析基础模型和RL算法的相互作用。研究发现,基础模型预训练阶段已展现出推理能力及潜在偏见;同时揭示组相对策略优化(GRPO)算法存在优化偏差,导致模型输出冗长。为解决此问题,论文提出了无偏优化方法`Dr. GRPO`,有效提升令牌效率并保持推理性能。基于这些洞见,作者设计了一个极简R1-Zero训练方案,使7B模型在AIME 2024测试中取得43.3%的准确率,创造了新的技术水平。

摘要

DeepSeek-R1-Zero has shown that reinforcement learning (RL) at scale can directly enhance the reasoning capabilities of LLMs without supervised fine-tuning. In this work, we critically examine R1-Zero-like training by analyzing its two core components: base models and RL. We investigate a wide range of base models, including DeepSeek-V3-Base, to understand how pretraining characteristics influence RL performance. Our analysis reveals that DeepSeek-V3-Base already exhibit ''Aha moment'', while Qwen2.5 base models demonstrate strong reasoning capabilities even without prompt templates, suggesting potential pretraining biases. Additionally, we identify an optimization bias in Group Relative Policy Optimization (GRPO), which artificially increases response length (especially for incorrect outputs) during training. To address this, we introduce Dr. GRPO, an unbiased optimization method that improves token efficiency while maintaining reasoning performance. Leveraging these insights, we present a minimalist R1-Zero recipe that achieves 43.3% accuracy on AIME 2024 with a 7B base model, establishing a new state-of-the-art. Our code is available at https://github.com/sail-sg/understand-r1-zero.

思维导图

论文精读

中文精读

1. 论文基本信息 (Bibliographic Information)

  • 标题 (Title): Understanding R1-Zero-Like Training: A Critical Perspective (理解类 R1-Zero 训练:一个批判性视角)
  • 作者 (Authors): Zichen Liu, Changyu Chen, Wenjun Li, Penghui Qi, Tianyu Pang, Chao Du, Wee Sun Lee, Min Lin.
  • 隶属机构 (Affiliations): Sea AI Lab, National University of Singapore (新加坡国立大学), Singapore Management University (新加坡管理大学).
  • 发表期刊/会议 (Journal/Conference): 本文为预印本 (Preprint),发布于 arXiv。arXiv 是一个广泛用于物理学、数学、计算机科学等领域的开放获取电子预印本平台,是快速传播最新研究成果的重要渠道。
  • 发表年份 (Publication Year): 2025 (根据论文引用格式推断,首次提交于 2025 年 3 月)
  • 摘要 (Abstract): DeepSeek-R1-Zero 模型证明了大规模强化学习 (RL) 能够直接增强大语言模型 (LLM) 的推理能力,而无需监督微调 (SFT)。本研究从批判性角度审视了类 R1-Zero 训练,分析了其两个核心组成部分:基础模型和强化学习。研究者们考察了包括 DeepSeek-V3-Base 在内的多种基础模型,以理解预训练特性如何影响 RL 性能。分析发现,DeepSeek-V3-Base 本身就已表现出“灵光一现时刻 (Aha moment)”,而 Qwen2.5 基础模型在没有提示模板的情况下也展现出强大的推理能力,这暗示了其可能存在预训练偏见。此外,研究识别出组相对策略优化 (GRPO) 算法中存在一种优化偏见,该偏见会在训练中人为地增加模型回答的长度(尤其是在错误输出上)。为了解决此问题,论文提出了 Dr. GRPO,一种无偏的优化方法,它在保持推理性能的同时提高了令牌效率。基于这些洞见,论文提出了一个极简的 R1-Zero 训练方案,使用一个 7B 基础模型在 AIME 2024 测试上达到了 43.3% 的准确率,创造了新的技术水平。
  • 原文链接 (Source Link):

2. 整体概括 (Executive Summary)

  • 研究背景与动机 (Background & Motivation - Why):

    • 核心问题: DeepSeek 团队提出的 R1-Zero 训练范式——直接在基础模型上应用强化学习 (RL) 来提升推理能力,跳过了传统的监督微调 (SFT) 步骤——引发了广泛关注。然而,社区对这一“黑箱”过程的理解尚不深入,其成功背后的关键因素和潜在问题仍不明确。
    • 重要性与空白: 随着大量开源社区尝试复现 R1-Zero,大家发现结果参差不齐,且普遍观察到一个现象:模型在训练中回答越来越长。这究竟是模型真正学会了复杂推理(如自我反思),还是另有他因?现有工作缺乏对 R1-Zero 训练的两个基本要素——基础模型的预训练特性和强化学习算法本身——的批判性审视。这就是本文要填补的空白。
    • 切入点/创新思路: 本文的思路是“解构”与“修正”。它将 R1-Zero 训练拆解为“模型”和“算法”两个维度进行深入剖析,旨在揭示现象背后的真相,而不是简单地复现结果。
  • 核心贡献/主要发现 (Main Contribution/Findings - What):

    • 揭示基础模型的预训练偏见:
      1. 发现被广泛用于复现的 Qwen2.5 系列模型,在不使用任何提示模板的情况下表现最好,暗示其在预训练阶段可能已经接触过“问题-答案”对格式的数据,类似于经过了轻度的 SFT。
      2. 证实了所谓的“灵光一现时刻 (Aha moment)”或自我反思行为,在包括 DeepSeek-V3-Base 在内的多种基础模型中已经存在,并非纯粹由 RL 训练“涌现”出来的。
    • 识别并修正强化学习算法的偏见:
      1. 首次指出 GRPO 算法存在一种优化偏见,该偏见会不成比例地惩罚较短的错误回答,从而激励模型在犯错时生成更长的内容。这解释了训练过程中回答长度不必要增长的现象。
      2. 提出了 Dr. GRPO (GRPO Done Right),一个简单的修正版算法,通过移除两个归一化项来消除偏见。实验证明,Dr. GRPO 在保持推理性能的同时,显著提高了令牌效率(即用更短的回答解决问题)。
    • 提出极简且高效的训练方案:
      1. 基于以上发现,论文提出了一个极简的 R1-Zero 训练流程(在 Qwen2.5-Math-7B 上使用 Dr. GRPO),仅用 8 个 A100 GPU 训练 27 小时,就在 AIME 2024 竞赛基准上取得了 43.3% 的准确率,达到了该尺寸模型的最优水平。

3. 预备知识与相关工作 (Prerequisite Knowledge & Related Work)

  • 基础概念 (Foundational Concepts):

    • 大语言模型 (Large Language Model, LLM): 指的是参数量巨大、在海量文本数据上训练的深度学习模型,如 GPT 系列。它们可以理解和生成类似人类的文本。
    • 基础模型 (Base Model): 指仅完成了预训练(在通用文本上学习语言规律)而未经过任何特定任务微调的 LLM。它的主要能力是“文本补全”。
    • 监督微调 (Supervised Fine-Tuning, SFT): 在预训练后,使用高质量的“指令-回答”对数据对模型进行训练,使其学会遵循指令并以对话或问答形式进行响应。这是将基础模型变为聊天模型的关键步骤。
    • 强化学习 (Reinforcement Learning, RL): 一种机器学习范式,其中智能体 (Agent) 通过与环境 (Environment) 交互并接收奖励 (Reward) 或惩罚来学习最优策略 (Policy)。在 LLM 中,模型是智能体,生成文本是行为,而奖励通常来自一个评估回答质量的系统(如奖励模型或验证器)。
    • R1-Zero 训练范式: 由 DeepSeek 提出,它跳过 SFT 步骤,直接在基础模型上应用 RL,通过奖励正确推理来提升模型的特定能力(如数学)。
    • 灵光一现时刻 (Aha Moment): 指模型在推理过程中表现出类似人类的自我纠正、反思或顿悟的行为,例如生成“哦,我明白了”、“等一下,我再检查一遍”等词语。
    • 组相对策略优化 (Group Relative Policy Optimization, GRPO): 一种 PPO 算法的变体。它通过对一个问题采样一组(Group)回答,并根据这组回答的平均奖励来计算每个回答的优势 (Advantage),从而指导策略更新。
  • 前人工作 (Previous Works):

    • DeepSeek-R1-Zero (Guo et al., 2025): 本文分析的核心对象。它开创了直接在基础模型上应用 RL 的范式,并展示了惊人的推理能力提升和“灵光一现时刻”的涌现。
    • 开源复现工作 (Pan et al., 2025; Zeng et al., 2025; Hu et al., 2025): 许多研究者尝试复现 R1-Zero 的成功,大多基于 Qwen2.5 系列模型。这些工作虽然也取得了进展,但本文指出它们可能忽略了 Qwen2.5 模型的预训练偏见。
  • 技术演进 (Technological Evolution):

    • 传统的 LLM 对齐流程是:预训练 → SFT → RLHF (基于人类偏好的强化学习)。
    • R1-Zero 提出的新流程是:预训练 → RL (基于规则验证器的强化学习)。
    • 本文的工作则是在 R1-Zero 的基础上,提倡一种更具批判性和效率的 RL 训练方法,即 预训练 → 修正后的 RL (Dr. GRPO),并强调要审慎选择和理解基础模型。
  • 差异化分析 (Differentiation):

    • DeepSeek-R1-Zero 相比,本文不是一个简单的成果展示,而是一个批判性的分析和解构。它揭示了原方法成功的背后可能存在的“捷径”(预训练偏见)和“假象”(算法偏见导致的长度增加)。
    • 与其他的开源复现工作相比,本文没有止步于复现现象,而是深入探究了现象背后的原因,并提出了具体的、有理论依据的改进方案 (Dr. GRPO)。

4. 方法论 (Methodology - Core Technology & Implementation Details)

本文的核心方法论在于对 GRPO 算法的偏见分析和 Dr. GRPO 的提出。

  • 方法原理 (Methodology Principles):

    • GRPO 的目标是最大化奖励,但其目标函数的设计引入了两个意料之外的偏见。
    • 偏见 1: 回答级别的长度偏见 (Response-level length bias):
      • GRPO 的损失函数在计算每个回答的梯度时,会除以该回答的长度 oi| \mathbf{o}_i |
      • 直觉解释: 这相当于给每个 token 的梯度赋予了权重 1/oi1/| \mathbf{o}_i |。当一个回答是正确的(优势为正),模型会倾向于更新更短的正确回答,因为它们的梯度权重更大。反之,当一个回答是错误的(优势为负),模型会更少地惩罚更长的错误回答,因为它们的梯度权重更小。长期下来,模型就学会了“犯错时多说点废话以减轻惩罚”。
    • 偏见 2: 问题级别的难度偏见 (Question-level difficulty bias):
      • GRPO 在计算优势时,会用中心化的奖励除以单个问题下所有回答奖励的标准差 std(R)
      • 直觉解释: 对于那些奖励标准差很小的问题(例如,所有回答都正确或都错误的问题,即“太简单”或“太难”的问题),分母 std(R) 会很小,导致计算出的优势值很大,从而在优化中获得更大的权重。这使得模型过度关注那些极端难度的问题,而不是在整个数据集上进行均衡学习。
  • 方法步骤与流程 (Steps & Procedures):

    • 本文提出的 Dr. GRPO 修正方法极其简单:直接移除上述两个偏见项
    • 具体来说,在 GRPO 的目标函数中,去掉对回答长度 oi| \mathbf{o}_i | 的归一化和对奖励标准差 std(R) 的归一化。
    • 这一修正使得 Dr. GRPO 的目标函数回归到一个更标准的 PPO 形式,其优势估计等价于使用蒙特卡洛回报 (Monte Carlo return) 并减去一个无偏基线 (unbiased baseline),即组内平均回报。
  • 数学公式与关键细节 (Mathematical Formulas & Key Details):

    • 标准的 PPO 代理目标函数(不含 KL 散度惩罚)为: LPPO(πθ)=EqpQ,oπθold(q)[t=1omin(πθ(otq,o<t)πθold(otq,o<t)A^t,clip()A^t)] \mathcal{L}_{PPO}(\pi_{\theta}) = \mathbb{E}_{\mathbf{q} \sim p_{\mathcal{Q}}, \mathbf{o} \sim \pi_{\theta_{old}}(\cdot|\mathbf{q}) } \left[ \sum_{t=1}^{|\mathbf{o}|} \min \left( \frac{\pi_{\theta}(o_t|\mathbf{q}, \mathbf{o}_{<t})}{\pi_{\theta_{old}}(o_t|\mathbf{q}, \mathbf{o}_{<t})} \hat{A}_t, \text{clip}(\dots) \hat{A}_t \right) \right]

      • 其中 πθ\pi_{\theta} 是当前策略,πθold\pi_{\theta_{old}} 是旧策略,A^t\hat{A}_t 是在时间步 tt 的优势估计。这个公式的核心是计算每个 token 的带权重的概率比率,权重就是优势 A^t\hat{A}_t
    • GRPO 的优势估计 A^i,t\hat{A}_{i,t} 定义为: A^i,t=R(q,oi)mean({R(q,o1),,R(q,oG)})std({R(q,o1),,R(q,oG)}) \hat{A}_{i,t} = \frac{R(\mathbf{q}, \mathbf{o}_i) - \text{mean}(\{R(\mathbf{q}, \mathbf{o}_1), \dots, R(\mathbf{q}, \mathbf{o}_G)\})}{\text{std}(\{R(\mathbf{q}, \mathbf{o}_1), \dots, R(\mathbf{q}, \mathbf{o}_G)\})}

      • R(q,oi)R(\mathbf{q}, \mathbf{o}_i) 是第 ii 个回答的总奖励。
      • mean()\text{mean}(\dots) 是组内所有回答的平均奖励。
      • std()\text{std}(\dots) 是组内所有回答奖励的标准差,这是难度偏见的来源。
      • 此外,GRPO 的整体损失函数还除以了回答长度 oi| \mathbf{o}_i |,这是长度偏见的来源。
    • Dr. GRPO 使用的无偏优势估计 A~i,t\tilde{A}_{i,t} 为: A~i,t=R(q,oi)mean({R(q,o1),,R(q,oG)}) \tilde{A}_{i,t} = R(\mathbf{q}, \mathbf{o}_i) - \text{mean}(\{R(\mathbf{q}, \mathbf{o}_1), \dots, R(\mathbf{q}, \mathbf{o}_G)\})

      • 这个公式非常简洁,就是用当前回答的奖励减去组内平均奖励。它移除了 std 项,并且在最终的目标函数中不再除以回答长度,从而同时消除了两种偏见。

5. 实验设置 (Experimental Setup)

  • 数据集 (Datasets):

    • 训练数据集:
      • MATH (Hendrycks et al., 2021): 包含 12k 个高中数学竞赛问题,难度较高。
      • GSM8K: 包含 8k 个小学数学应用题,相对简单。
      • ASDiv: 包含 2k 个基础代数问题,难度最低。
      • ORZ: 一个包含 57k 个问题的混合数据集,覆盖范围广。
    • 评估数据集:
      • AIME 2024, AMC: 高难度数学竞赛题。
      • MATH500: MATH 测试集的一个子集。
      • Minerva Math: 谷歌提出的一个数学推理基准。
      • OlympiadBench: 奥林匹克级别的科学问题基准。
    • 选择理由: 这些数据集覆盖了从易到难的各种数学推理任务,能够全面评估模型的推理能力和泛化性。
  • 评估指标 (Evaluation Metrics):

    • 准确率 (Accuracy): 模型最终答案的正确率,是衡量推理能力的核心指标。
    • Pass@8: 在 8 次采样中,至少有一次回答正确的概率。用于衡量基础模型的探索能力,即能否在多次尝试中找到正确答案的潜力。
    • 回答长度 (Response Length): 用于分析算法偏见和令牌效率的关键指标。
  • 对比基线 (Baselines):

    • 算法对比: GRPODr. GRPO 的主要对比基线。
    • 模型对比: 论文提出的 Oat-Zero 模型与多个同规模的开源 R1-Zero 复现模型进行比较,如 SimpleRL-Zero-7BPRIME-Zero-7BOpenReasoner-Zero-7B

6. 实验结果与分析 (Results & Analysis)

  • 核心结果分析 (Core Results Analysis):

    1. 基础模型分析 (图 7):

      该图像为三部分图表,分别展示了不同模型在问答能力、探索能力和自我反思能力上的表现。左图为问答准确率对比,显示带模板(蓝色)普遍优于不带模板(灰色);中图描… 该图像为三部分图表,分别展示了不同模型在问答能力、探索能力和自我反思能力上的表现。左图为问答准确率对比,显示带模板(蓝色)普遍优于不带模板(灰色);中图描绘随着温度变化不同模型的通过率,Qwen2.5系列在高温下表现优异;右图显示各模型在不同温度下提出的问题数目,自我反思能力随温度升高呈上升趋势,Qwen2.5-Math-1.5B增长最明显。

      • 问答能力 (左图): 对于 LlamaDeepSeek 模型,使用提示模板能显著提高其问答格式的输出比例。然而,所有 Qwen2.5 模型在不使用模板时问答率即为 100%,这强烈暗示了其预训练数据可能包含问答对,使其天然具备了对话能力。
      • 探索能力 (中图): Qwen2.5 系列模型的 Pass@8 表现最好,甚至超过了更大的 DeepSeek-V3-Base。这解释了为什么开源社区倾向于使用 Qwen 模型进行 R1-Zero 复现,因为它们有更好的“底子”,更容易通过 RL 找到正确的解。
      • 自我反思 (右图): 几乎所有基础模型,包括 DeepSeek-V3-Base,在 RL 训练前就已经表现出一定程度的自我反思行为(生成相关关键词)。这表明“灵光一现时刻”并非完全由 RL 创造,而是 RL 强化了模型固有的能力。
    2. Dr. GRPO vs. GRPO (图 8):

      该图像为多子图折线图,比较了Dr. GRPO与GRPO在训练过程中及评估中的表现差异。子图1显示两者奖励值随策略迭代步数均提升且接近;子图2表明GRPO输… 该图像为多子图折线图,比较了Dr. GRPO与GRPO在训练过程中及评估中的表现差异。子图1显示两者奖励值随策略迭代步数均提升且接近;子图2表明GRPO输出长度随训练增长显著增加,Dr. GRPO相对稳定;子图3和子图4分别展示正确和错误输出长度变化,错误输出中GRPO长度显著高于Dr. GRPO;子图5显示两者平均基准分数变化趋势相似,性能表现接近。整体反映Dr. GRPO在保持性能的同时优化了输出效率。

      • 奖励与性能 (图 1 & 5): Dr. GRPOGRPO 在训练奖励和最终的基准测试分数上表现相当,说明 Dr. GRPO 在修正偏见的同时没有牺牲性能。
      • 回答长度 (图 2, 3, 4): 这是最关键的对比。GRPO 训练的模型,其回答长度(尤其是错误回答的长度,见图 4)随着训练持续增长,即使奖励已经饱和。而 Dr. GRPO 训练的模型,其回答长度则保持在一个稳定且合理的范围内。这有力地证明了 GRPO 的长度偏见确实存在,而 Dr. GRPO 成功地修正了它,实现了更高的令牌效率
    3. 模板与训练数据的影响 (图 9):

      该图像为三组折线图,分别展示在不同模板(R1 Template、Qwen-Math Template、No Template)下,四种训练数据集(ORZ-… 该图像为三组折线图,分别展示在不同模板(R1 Template、Qwen-Math Template、No Template)下,四种训练数据集(ORZ-57K、MATH-12K、GSM-8K、ASDiv-2K)随策略迭代步数变化的准确率(Accuracy %)。图中显示,使用R1模板和Qwen-Math模板时,准确率随迭代提升明显,且MATH-12K和ORZ-57K表现较优;无模板时准确率提升较缓,且各数据集表现更接近。整体暗示模板与训练数据集对模型推理性能的影响。

      • 当使用与 Qwen 模型不匹配R1 Template 时(左图),RL 的性能严重依赖于训练数据的覆盖范围和质量,数据越好(如 MATH-12K),性能越高。
      • 当使用匹配Qwen-Math Template不使用模板时(中图和右图),模型本身的能力已经被很好地激发,此时 RL 的作用更像是“引导”而非“灌输知识”。有趣的是,此时使用更简单的 GSM-8K 数据集训练,也能在困难的测试集上取得很好的泛化表现。
    4. 在弱基础模型上的实验 (图 10):

      该图像为双子图表,展示了不同基础模型和算法在策略迭代步骤下的准确率及输出长度变化。左图显示,Llama3.2-3B在NuminaQA任务上准确率最高,Fi… 该图像为双子图表,展示了不同基础模型和算法在策略迭代步骤下的准确率及输出长度变化。左图显示,Llama3.2-3B在NuminaQA任务上准确率最高,FineMath次之,基础版最低。右图比较Dr. GRPO与GRPO算法,Dr. GRPO准确率稳步提升且输出长度保持稳定,而GRPO输出长度增加但准确率停滞或下降,反映出Dr. GRPO具有更好的优化效果和token效率。

      • 领域预训练的重要性 (左图): 直接在原始的 Llama-3.2-3B 上进行 RL,效果很差。但经过数学领域的数据进行持续预训练后 (FineMathNuminaQA),RL 的性能上限被显著提高。这说明对于一个领域能力较弱的模型,先进行领域知识的预训练,再进行 RL 调优是成功的关键。
      • GRPO 偏见的再验证 (右图):Llama 模型上,GRPO 再次表现出奖励和长度“双增长”的现象,而 Dr. GRPO 则在长度稳定的情况下实现了性能提升,再次印证了 Dr. GRPO 的有效性。
  • 消融实验/参数分析 (Ablation Studies / Parameter Analysis):

    • 在附录 C 中,作者对 GRPO 的两个偏见项(长度归一化和标准差归一化)进行了消融实验。
    • 结果显示,移除任何一个偏见项都能比原始的 GRPO 获得更好的性能和更稳定的训练动态。其中,长度归一化项对回答长度的影响最大,这与理论分析一致。这进一步验证了 Dr. GRPO 同时移除两个偏见项的合理性。

7. 总结与思考 (Conclusion & Personal Thoughts)

  • 结论总结 (Conclusion Summary):

    • 本文对 R1-Zero 训练范式进行了一次深刻的“祛魅”。它揭示了当前流行的复现工作可能依赖于基础模型(如 Qwen2.5)的预训练偏见,并且其观察到的“涌现”能力(如长链推理)可能部分源于强化学习算法 (GRPO) 的优化偏见
    • 通过提出无偏的 Dr. GRPO 算法,论文展示了在不牺牲性能的前提下,可以实现更高效(更短的回答)的推理。
    • 最终,论文提供了一个极简、高效且开源的 R1-Zero 训练方案,为社区提供了宝贵的实践指导,并证明了即便在资源有限的情况下,也能达到顶尖的推理性能。
  • 局限性与未来工作 (Limitations & Future Work):

    • 作者指出的未来工作: 论文本身没有明确的“局限性”章节,但其研究启发了未来的方向。例如,如何设计更优的、无偏的 RL 算法来激发 LLM 的推理潜力;如何系统性地评估和消除基础模型的预训练偏见;以及将这些发现应用到数学之外的其他推理领域。
    • 潜在的局限性:
      1. 分析主要集中在 QwenLlama 两个模型家族,结论是否能泛化到所有 LLM 架构尚待验证。
      2. 实验主要聚焦于数学推理领域,Dr. GRPO 在代码生成、逻辑推理等其他任务上的效果需要进一步探索。
  • 个人启发与批判 (Personal Insights & Critique):

    • 启发: 这篇论文最宝贵的价值在于其批判性思维和科学精神。它没有盲目跟风,而是对一个热门技术现象进行了冷静的、第一性原理的分析,这种“回归基础”的研究态度在当前略显浮躁的 AI 领域尤为可贵。它提醒我们,在惊叹于模型“涌现”出的神奇能力时,也应审视我们的工具(算法)和材料(数据/模型)是否存在被忽略的特性。
    • 批判: Dr. GRPO 的设计非常巧妙且有效,但它本质上是让 GRPO 回归到了一个更简单、更经典的形式。这引出一个有趣的问题:为什么最初的 GRPO 要引入这些复杂的(但有偏的)归一化项?或许在某些特定场景下(例如奖励模型噪声很大),这些归一化项能起到稳定训练的作用,但这在本文的实验中并未体现。另外,论文证实了自我反思与推理准确性在推理阶段不强相关(图 15),但它可能在训练的探索阶段起到了关键作用,这一点值得更深入的研究。总的来说,这是一篇极具洞见和实践价值的优秀论文。

相似论文推荐

基于向量语义检索推荐的相关论文。

暂时没有找到相似论文。