论文状态：已完成

Does Reinforcement Learning Really Incentivize Reasoning Capacity in LLMs Beyond the Base Model?

发表：2025/04/19

大语言模型推理能力增强 (36)数学推理基准测试 (6)强化学习验证奖励 (1)编程任务推理能力 (1)RL算法对比分析 (1)

价格：0.100000

已有 1 人读过

本分析由 AI 生成，可能不完全准确，请以原文为准。

TL;DR 精炼摘要

本研究探讨了强化学习与可验证奖励(RLVR)在提升大型语言模型(LLMs)推理能力中的有效性。尽管RLVR在数学和编程任务中展现了良好表现，研究发现当前的训练设置未能激发新的推理模式，基础模型在更大k值下表现更佳，强调了改进RL方法的必要性。

摘要

Reinforcement Learning with Verifiable Rewards (RLVR) has recently demonstrated notable success in enhancing the reasoning performance of large language models (LLMs), particularly on mathematics and programming tasks. Similar to how traditional RL helps agents explore and learn new strategies, RLVR is believed to enable LLMs to continuously self-improve, thus acquiring novel reasoning abilities beyond those of the corresponding base models. In this study we critically examine the current state of RLVR by systematically probing the reasoning capability boundaries of RLVR-trained LLMs across various model families, RL algorithms, and math, coding, and visual reasoning benchmarks, using pass@k at large k values as the evaluation metric. Surprisingly, we find that the current training setup does not elicit fundamentally new reasoning patterns. While RLVR-trained models outperform their base models at small k (e.g., k = 1), the base models achieve a higher pass@k score when k is large. Coverage and perplexity analyses show that the observed reasoning abilities originate from and are bounded by the base model. Treating the base model as an upper bound, our quantitative analysis shows that six popular RLVR algorithms perform similarly and remain far from optimal in leveraging the potential of the base model. By contrast, we find that distillation can introduce new reasoning patterns from the teacher and genuinely expand the model's reasoning capabilities. Overall, our findings suggest that current RLVR methods have not yet realized the potential of RL to elicit truly novel reasoning abilities in LLMs. This highlights the need for improved RL paradigms, such as continual scaling and multi-turn agent-environment interaction, to unlock this potential.

思维导图

论文精读

中文精读约 42 分钟读完 · 23,519 字

1. 论文基本信息

1.1. 标题

Does Reinforcement Learning Really Incentivize Reasoning Capacity in LLMs Beyond the Base Model? (强化学习是否真的能激励 LLM 超越基础模型的推理能力？)

1.2. 作者

Yang Yue*, Zhiqi Chen*, Rui Lu, Andrew Zhao, Zhaokai Wang, Yang Yue, Shiji Song, and Gao Huang * 等同贡献，† 项目负责人通讯作者：Gao Huang

所属机构：清华大学 LeapLab (1) 上海交通大学 (2)

1.3. 发表期刊/会议

本文为预印本 (arXiv preprint)，尚未正式发表。

1.4. 发表年份

2025年。

1.5. 摘要

本文探讨了强化学习与可验证奖励 (Reinforcement Learning with Verifiable Rewards, RLVR) 在增强大型语言模型 (Large Language Models, LLMs) 推理性能方面的效果。尽管 RLVR 被普遍认为能使 LLMs 持续自我改进并获得超越基础模型的新推理能力，但本研究通过系统性地探究 RLVR 训练后的 LLMs 在不同模型家族、RL 算法以及数学、编码和视觉推理基准上的推理能力边界，得出了令人惊讶的发现。研究发现，当前的训练设置并未激发根本性的新推理模式。虽然 RLVR 训练的模型在小 $k$ 值 (例如 pass@1) 时表现优于其基础模型，但当 $k$ 值较大时，基础模型却能获得更高的 pass@k 分数。覆盖率和困惑度分析显示，RLVR 模型观察到的推理能力源于并受限于基础模型。将基础模型视为性能上限，定量分析表明，六种流行的 RLVR 算法表现相似，且在充分利用基础模型的潜力方面仍远未达到最优。相比之下，蒸馏 (distillation) 方法能够从教师模型中引入新的推理模式，真正扩展模型的推理能力。总体而言，研究结果表明当前的 RLVR 方法尚未实现强化学习激发 LLMs 真正新颖推理能力的潜力。这强调了需要改进 RL 范式，例如通过有效的探索机制、更精细的过程信号和多轮智能体 (agent) 与环境交互来释放这一潜力。

1.6. 原文链接

原文链接: https://arxiv.org/abs/2504.13837 PDF 链接: https://arxiv.org/pdf/2504.13837v5.pdf 发布状态：预印本。

2. 整体概括

2.1. 研究背景与动机

2.1.1. 论文试图解决的核心问题是什么？

论文的核心问题是：强化学习与可验证奖励 (RLVR) 是否真的能够让大型语言模型 (LLMs) 获得超越其基础模型 (base model) 的、全新且新颖的推理能力？

2.1.2. 为什么这个问题在当前领域是重要的？现有研究存在哪些具体的挑战或空白 (Gap)？

RLVR 的成功与期望: 近年来，像 OpenAI-o1、DeepSeek-R1 和 Kimi-1.5 等推理型 LLMs 在数学和编程等复杂逻辑任务上取得了显著进展，其核心驱动力之一被认为是大规模的 RLVR。人们普遍相信，就像传统强化学习 (RL) 在游戏（如 Atari、Go）中帮助智能体 (agent) 探索并学习新策略一样，RLVR 也能够使 LLMs 持续自我改进，从而获取超越其基础模型的新颖推理能力，甚至被视为通往持续自我演化 LLMs 的有前景路径。
现有研究的空白/挑战: 尽管 RLVR 在经验上取得了成功，但其深层机制和有效性仍未得到充分检验。这种普遍的信念缺乏系统性、严谨的实证支撑。现有研究往往侧重于报告 RLVR 带来的性能提升，但很少深入探究这种提升是否真的来源于模型获取了“新”的推理能力，还是仅仅更有效地利用了基础模型已有的能力。

2.1.3. 这篇论文的切入点或创新思路是什么？

批判性审视: 本文采取批判性视角，系统性地探究 RLVR 训练的 LLMs 的推理能力边界。
全面评估框架: 通过跨越多种模型家族、RL 算法和不同领域（数学、代码生成、视觉推理）的基准测试进行广泛实验。
大 $k$ 值 pass@k 评估: 创新性地强调使用大 $k$ 值下的 pass@k 指标，以更全面、更鲁棒地评估模型的潜在推理能力边界，而非仅仅关注平均性能 (pass@1)。
深层机制分析: 除了性能指标，还引入了准确率分布分析、可解决问题覆盖率分析和困惑度分析，以从不同维度揭示 RLVR 的内在机制，并与蒸馏 (distillation) 方法进行对比，以区分不同训练范式对推理能力的影响。

2.2. 核心贡献/主要发现

2.2.1. 论文最主要的贡献是什么？

论文最主要的贡献是**通过严谨的实验和深入的分析，批判性地揭示了当前 RLVR 方法在激发 LLMs 真正新颖推理能力方面的局限性。**它挑战了领域内普遍存在的“RLVR 能够让 LLM 获取超越基础模型的新推理模式”的信念。具体来说，主要贡献体现在：

提出并验证了 RLVR 训练并未拓展 LLM 的推理能力边界，反而可能使其覆盖范围变窄。
深入分析了 RLVR 提升性能的机制，指出其主要作用是提高对基础模型已存在推理路径的采样效率，而非创造新路径。
量化了当前 RLVR 算法的采样效率差距，表明它们在利用基础模型潜力方面仍远未达到最优。
对比性地展示了蒸馏方法能够引入新推理模式，从而为 LLM 能力拓展提供了另一种视角。
为未来 RL for LLM 的研究指明了方向，强调了探索机制、过程奖励和智能体 (agent) 交互的重要性。

2.2.2. 论文得出了哪些关键的结论或发现？这些发现解决了什么具体问题？

论文得出了以下关键结论或发现：

RLVR 训练的模型在小 $k$ 值 (pass@1) 表现优于基础模型，但在大 $k$ 值时，基础模型却能获得更高的 pass@k 分数。
- 这解决了“RLVR 是否真的能拓展推理能力”的问题，答案是：在当前设置下，不能。RLVR 更多地是提高了模型在单次尝试中给出正确答案的概率（即采样效率），而不是扩大模型能解决的问题范围。
RLVR 模型的推理能力源于并受限于基础模型。
- 通过准确率分布、可解决问题覆盖率和困惑度分析，论文发现 RLVR 模型生成的推理路径大多已包含在基础模型的采样分布中。这解决了“RLVR 的性能提升来源于何处”的问题，答案是：来源于对基础模型已有知识的更高效利用，而非新的知识或推理模式创造。
当前六种流行的 RLVR 算法性能相似，且在充分利用基础模型潜力方面仍远未达到最优。
- 通过定义“采样效率差距 ( $\Delta_{SE}$ )”指标，论文量化了 RLVR 算法的普遍局限性。这解决了“不同 RLVR 算法的实际效果差异有多大”的问题，答案是：差异不大，且普遍效率不高。
蒸馏方法能够从教师模型中引入新的推理模式，真正扩展模型的推理能力。
- 这提供了一个对比案例，解决了“如何才能真正扩展 LLM 的推理能力”的问题，答案是：蒸馏是一个有效的途径，它能够“注入”新的先验知识和推理模式。

3. 预备知识与相关工作

3.1. 基础概念

3.1.1. 大型语言模型 (Large Language Models, LLMs)

LLMs 是指参数量巨大（通常从数十亿到万亿级别）的深度学习模型，它们通过在海量的文本数据上进行预训练 (pre-training) 来学习语言的统计规律、语法、语义以及世界知识。这些模型能够执行多种自然语言处理任务，如文本生成、问答、摘要、翻译和推理。它们的特点是具有强大的泛化能力和涌现能力 (emergent abilities)。

3.1.2. 强化学习 (Reinforcement Learning, RL)

强化学习是一种机器学习范式，其核心思想是让一个智能体 (agent) 在一个环境 (environment) 中通过试错 (trial-and-error) 的方式学习如何行动以最大化长期累积奖励 (reward)。智能体根据环境的状态 (state) 做出行动 (action)，环境会根据行动给出奖励和新的状态。智能体的目标是学习一个策略 (policy)，即一个从状态到行动的映射，以指导其在未来如何做出最优决策。

3.1.3. 强化学习与可验证奖励 (Reinforcement Learning with Verifiable Rewards, RLVR)

RLVR 是强化学习在大型语言模型领域的一种应用，其特殊之处在于奖励信号 (reward signal) 是由一个可自动验证的外部机制生成的，而不是由人类反馈或复杂的奖励模型提供。对于 LLMs 的推理任务，例如数学问题或编程问题，这个验证器可以简单地检查模型生成的最终答案是否正确（例如，数学题的数值答案是否匹配真值，代码是否通过所有单元测试）。这种二元（0 或 1）且可自动获取的奖励使得 RL 训练可以在大规模数据上进行，而无需昂贵的人工标注。

3.1.4. 基础模型 (Base Model)

基础模型通常指的是经过大规模无监督预训练 (unsupervised pre-training)，但尚未针对特定下游任务进行微调 (fine-tuning) 或强化学习优化的原始 LLM。它包含了通过预训练学习到的丰富的语言知识和模式，是进一步微调和优化的起点。

3.1.5. 链式思考 (Chain-of-Thought, CoT)

链式思考 (CoT) 是一种提示工程 (prompt engineering) 技术，旨在鼓励 LLMs 在给出最终答案之前，生成一系列中间的推理步骤或思考过程。这模仿了人类解决复杂问题时一步步推导的过程。通过这种方式，LLMs 能够更好地处理多步骤推理任务，提高解决问题的准确性和可解释性。例如，在解决数学问题时，模型会展示计算过程而非直接给出结果。

3.1.6. Pass@k 评估指标 (Pass@k Metric)

pass@k 是一个用于评估生成模型（特别是代码生成和复杂推理任务）性能的指标。

概念定义 (Conceptual Definition): pass@k 衡量的是模型在给定 $k$ 次独立尝试机会的情况下，至少生成一个正确解决方案的概率。它关注的是模型的“潜在能力”或“推理能力边界”，即模型是否具备解决某个问题的能力，即使它在第一次尝试时可能失败了。这个指标能够更全面地反映模型在多次机会下发现正确路径的能力，而不是仅仅依赖于单次生成（如 pass@1，即通常的准确率）。
数学公式 (Mathematical Formula): 对于评估数据集 $\mathcal{D}$ 中的每个问题 $x_i$ ，生成 $n$ 个样本（其中 $n \geq k$ ），并计算其中正确样本的数量 $c_i$ 。数据集上 pass@k 的无偏估计量为： $\operatorname { pass@ } k : = \mathbb { E } _ { x _ { i } \sim \mathcal { D } } \left[ 1 - \frac { \binom { n - c _ { i } } { k } } { \binom { n } { k } } \right]$
符号解释 (Symbol Explanation):
- pass@k: 在给定 $k$ 次采样机会下，模型解决问题的平均比例。
- $\mathbb{E}_{x_i \sim \mathcal{D}}[\cdot]$ : 对数据集 $\mathcal{D}$ 中所有问题 $x_i$ 取期望。
- $n$ : 为每个问题生成的总样本数。在本文实验中，通常设置为 128, 256 或 1024，是 pass@k 曲线中最大的 $k$ 值。
- $c_i$ : 对于问题 $x_i$ ，在 $n$ 个样本中正确答案的数量。
- $k$ : 评估 pass@k 的采样次数。
- $\binom{N}{K}$ : 组合数，表示从 $N$ 个元素中选择 $K$ 个元素的不同组合的数量，计算公式为 $\frac{N!}{K!(N-K)!}$ 。
- $1 - \frac{\binom{n-c_i}{k}}{\binom{n}{k}}$ : 对于问题 $x_i$ ，在 $n$ 个样本中有 $c_i$ 个正确答案的情况下，从这 $n$ 个样本中随机选择 $k$ 个样本，至少有一个是正确的概率。

3.1.7. 困惑度 (Perplexity, PPL)

困惑度是衡量语言模型性能的一个重要指标。

概念定义 (Conceptual Definition): 困惑度量化了语言模型对一个给定文本序列的预测不确定性。一个较低的困惑度值意味着模型对该序列的建模效果更好，预测下一个词元的准确性更高，或者说模型更“不困惑”于这个序列。在本文中，困惑度被用于判断一个模型（如基础模型）对另一个模型（如 RLVR 模型）生成的响应序列的“熟悉程度”，即该序列是否已在自身分布内。
数学公式 (Mathematical Formula): $\operatorname { PPL } _ { m } ( \mathbf { Y } \mid x ) = \exp \left( - { \frac { 1 } { T } } \sum _ { t = 1 } ^ { T } \log P ( y _ { t } \mid x , y _ { 1 } , \ldots , y _ { t - 1 } ) \right)$
符号解释 (Symbol Explanation):
- $PPL_m(\mathbf{Y} \mid x)$ : 模型 $m$ 在给定输入 $x$ 的情况下，生成序列 $\mathbf{Y}$ 的困惑度。
- $\mathbf{Y} = (y_1, \ldots, y_T)$ : 长度为 $T$ 的输出词元序列。
- $x$ : 输入提示 (prompt)。
- $T$ : 输出序列的长度。
- $\log P(y_t \mid x, y_1, \ldots, y_{t-1})$ : 在给定输入 $x$ 和前面已生成词元 $y_1, \ldots, y_{t-1}$ 的条件下，模型生成词元 $y_t$ 的对数概率。
- $\exp(\cdot)$ : 指数函数，用于将平均负对数似然转换回困惑度。

3.1.8. 蒸馏 (Distillation)

蒸馏是一种模型训练技术，通常用于将一个大型、高性能的“教师模型 (teacher model)”的知识迁移到一个小型、高效的“学生模型 (student model)”中。在推理能力方面，蒸馏可以使学生模型学习教师模型复杂的推理过程和模式，从而使学生模型获得超越其自身基础能力的新推理能力，而不是简单地模仿最终输出。在 LLM 领域，这通常涉及使用教师模型生成的长链式思考 (CoT) 轨迹作为训练数据来微调学生模型。

3.2. 前人工作

3.2.1. 推理型 LLMs 的发展

OpenAI-o1 (Jaech et al., 2024): OpenAI 的第一个大规模应用 RL 进行推理的模型，发布时达到了最先进 (state-of-the-art) 的结果。
DeepSeek-R1 (Guo et al., 2025): 首个能匹敌甚至超越 $o1$ 性能的开源模型，其一大创新是提出了 zero 设置，即直接在基础 LLM 上进行 RL，跳过中间的监督微调 (SFT)。
Kimi-1.5 (Team et al., 2025): 另一个通过 RL 扩展 LLM 能力的代表。

3.2.2. 强化学习在 LLM 领域的应用

后训练阶段 (Post-training): 自 LLMs 出现以来，后训练阶段（在预训练之后）被证明对增强其解决问题和推理能力至关重要 (Ouyang et al., 2022)。这个阶段通常包括：
- 监督微调 (Supervised Fine-Tuning, SFT): 使用人类标注或蒸馏数据 (Wang et al., 2023)。
- 自我改进迭代 (Self-improvement iteration): 模型通过迭代生成、评估和改进自身的响应来提高性能 (Zelikman et al., 2022; Gulcehre et al., 2023)。
- 强化学习 (Reinforcement Learning): (Ouyang et al., 2022) 最初通过奖励模型或响应偏好 (Rafailov et al., 2023) 来进行奖励建模。
RLVR 的兴起: 近期，RLVR 因其在数学和编程等领域提高 LLMs 推理能力的显著效果而受到广泛关注 (Lambert et al., 2024; Shao et al., 2024)。
开源 RLVR 努力: DeepSeek-R1 启发了众多开源项目来复制或扩展其方法并改进 RL 算法 (Zeng et al., 2025; Liu et al., 2025b; Yu et al., 2025; Liu & Zhang, 2025; Zhao et al., 2025a; Wang et al., 2025)。
多模态领域的 RL: RL 也被应用于多模态领域，推动了多模态推理的进步 (Chen et al., 2025a; Shen et al., 2025; Zheng et al., 2025)。

3.2.3. 对 RLVR 的分析

一些研究已经开始审视 RLVR 的内部机制：

反思行为的来源: Liu et al., 2025a; Zhao et al., 2025b; Shah et al., 2025 等研究指出，RLVR 模型中观察到的反思行为可能源自基础模型，而非 RL 训练本身。
pass@k 性能下降: Dang et al., 2025 观察到 RLVR 训练后 pass@k 性能下降，但其分析范围有限（例如，仅在 Qwen-2.5-0.5B 和 GSM8K 上）。
相似趋势的观察: Deepseek-Math (Shao et al., 2024) 也观察到了类似的趋势，但其研究仅限于一个指令微调模型和两个数学基准。

3.3. 技术演进

从传统 RL 到 RLVR: 传统 RL 成功应用于 Atari、Go 等确定性、低维动作空间环境。随着 LLMs 的发展，RL 被引入自然语言处理，但面临高维、离散动作空间挑战。RLVR 的出现，通过自动可验证奖励，简化了奖励获取，使得在大规模 LLMs 上应用 RL 成为可能。
从 SFT 到 Zero-RL: LLM 训练的早期阶段，监督微调 (SFT) 是主流，通过人类标注数据或蒸馏数据提升模型性能。DeepSeek-R1 引入的 zero 设置，直接在基础模型上进行 RL 训练，旨在更纯粹地探究 RL 的作用，减少 SFT 带来的混淆。
从 pass@1 到 pass@k: 早期 LLM 评估通常侧重于 pass@1（即单次尝试的准确率）。本文强调 pass@k，特别是大 $k$ 值，以更全面地评估模型“潜在”的推理能力边界，反映了评估方法的演进和对模型深层能力理解的深化。
RL 算法的演进: 从最初的 REINFORCE 到 PPO 及其变体，如 GRPO、RLOO 等，RL 算法在追求稳定性和效率的同时，也在探索如何更好地处理 LLM 的复杂性。

3.4. 差异化分析

本文的工作与相关工作的主要区别和创新点在于：

系统性和普适性： 与现有对 RLVR 的局部观察不同（如 Dang et al., 2025 仅在特定小模型和数据集上观察到 pass@k 下降；Shao et al., 2024 仅限于指令微调模型和少数数学基准），本文进行了系统且严谨的广泛实验。它涵盖了多种模型家族、模型大小、RL 算法以及数学、代码生成和视觉推理等多个领域，从而得出了更具普适性的结论。
核心问题与深层机制的探究： 本文的核心问题是“RLVR 是否真的激励新推理能力超越基础模型”，并不仅仅满足于观察现象，而是通过准确率分布、可解决问题覆盖率和困惑度分析，深入剖析了 RLVR 提升性能的内在机制，明确指出 RLVR 的推理能力源于并受限于基础模型，主要作用是提高采样效率。
与蒸馏的明确对比： 本文首次将 RLVR 与蒸馏方法进行对比，明确展示了蒸馏能够引入新的推理模式并真正扩展模型的推理能力边界，而 RLVR 则不然。这为理解不同的训练范式对 LLM 能力的影响提供了新的视角。
量化采样效率差距： 提出了“采样效率差距 ( $\Delta_{SE}$ )”指标，量化了当前 RLVR 算法在充分利用基础模型潜力方面的不足，为未来算法改进提供了具体目标。
对 RL 本质局限的探讨： 论文深入探讨了传统 RL 在 LLM 巨大动作空间下探索效率低下的根本原因，并提出了“高层次抽象探索”、“过程奖励”和“智能体式 RL”等前瞻性解决方案，为未来研究指明了方向。

4. 方法论

4.1. 方法原理

本文的方法原理是：通过对强化学习与可验证奖励 (RLVR) 训练前后的大型语言模型 (LLMs) 进行系统性、多维度、特别是基于大 $k$ 值 pass@k 的性能比较和深层机制分析，来判断 RLVR 是否真的能赋予 LLMs 超越其基础模型 (base model) 的新推理能力。

其核心直觉在于：如果 RLVR 能够让 LLM 获得“新”的推理能力，那么经过 RLVR 训练的模型应该能够解决基础模型无法解决的问题，或者至少在解决问题的广度上（即 pass@k 曲线的覆盖范围）超越基础模型。如果 RLVR 仅仅是让模型更频繁地采样到基础模型已经知道的正确路径，那么在足够多的采样机会下，基础模型最终应该能够追平甚至超越 RLVR 模型。

为了验证这一直觉，本文采取了以下关键方法：

使用 pass@k 作为核心评估指标： 不同于传统的 pass@1 (即平均准确率)，pass@k 尤其是在大 $k$ 值下，能够更好地衡量模型在多次尝试后解决问题的“潜在能力”或“推理能力边界”。如果模型在 $k$ 次尝试中有一次成功，就认为它具备解决该问题的潜力。
进行广泛的对比实验： 在多个模型家族、多种 RL 算法以及不同类型的推理任务（数学、代码生成、视觉推理）上，比较基础模型和 RLVR 模型的 pass@k 曲线。
深层机制分析：
- 准确率分布： 观察 RLVR 训练如何改变模型在不同难度问题上的准确率分布，以判断其是否解决了新的问题。
- 可解决问题覆盖率： 对比基础模型和 RLVR 模型能解决的问题集合，判断 RLVR 是否扩大了可解决问题的范围。
- 困惑度分析： 计算基础模型对 RLVR 模型生成响应的困惑度，以确定 RLVR 模型生成的推理路径是否已存在于基础模型的输出分布中。
引入采样效率差距 ( $\Delta_{SE}$ )： 量化不同 RL 算法在将基础模型的潜在能力转化为实际性能方面的效率。
与蒸馏方法进行对比： 观察蒸馏这一知识迁移方法是否能真正引入新的推理模式，以作为 RLVR 的参照。

4.2. 核心方法详解

4.2.1. 强化学习与可验证奖励 (RLVR) 机制

RLVR 训练的目的是通过强化学习过程，优化大型语言模型 $\pi_\theta$ 的参数 $\theta$ ，使其在给定提示 $x$ 时，能够生成一个词元序列 $\mathbf{y} = (y_1, \ldots, y_T)$ ，该序列能够通过一个外部验证器 $\mathcal{V}$ 的检查并获得奖励。

可验证奖励 (Verifiable Rewards): 验证器 $\mathcal{V}$ 是一个确定性函数，它根据输入 $x$ 和模型输出 $\mathbf{y}$ 返回一个二元奖励 $r \in \{0, 1\}$ 。 $r = \mathcal { V } ( x , \mathbf { y } ) \in \{ 0 , 1 \}$ 其中， $r=1$ 表示模型生成的最终答案完全正确，否则 $r=0$ 。除了正确性奖励，有时还会添加格式奖励，以鼓励模型生成结构化的推理过程。
RL 目标函数: 强化学习的目标是学习一个策略 $\pi_\theta$ ，以最大化在提示分布 $\mathcal{D}$ 上获得的期望奖励： $\mathcal { \bar { J } } ( \theta ) = \mathbb { E } _ { x \sim \mathcal { D } } \left[ \mathbb { E } _ { \mathbf { y } \sim \pi _ { \theta } ( \cdot | x ) } [ r ] \right]$ 这里， $\mathbb { E } _ { x \sim \mathcal { D } }$ 表示对提示 $x$ 在分布 $\mathcal{D}$ 上的期望， $\mathbb { E } _ { \mathbf { y } \sim \pi _ { \theta } ( \cdot | x ) }$ 表示对模型 $\pi_\theta$ 在给定 $x$ 下生成的响应 $\mathbf{y}$ 的期望。
RLVR 算法 (以 PPO 为例): 本文使用的 RLVR 算法主要是策略梯度 (Policy Gradient) 类方法，例如近端策略优化 (Proximal Policy Optimization, PPO)。PPO (Schulman et al., 2017) 通过以下截断替代目标 (clipped surrogate objective) 来优化策略，以最大化期望奖励并保持训练稳定性： $\mathcal { L } _ { \mathrm { CLIP } } = \mathbb { E } _ { t } \left[ \operatorname* { min } ( r _ { t } ( \theta ) A _ { t } , \ \mathrm { clip } ( r _ { t } ( \theta ) , 1 - \epsilon , 1 + \epsilon ) A _ { t } ) \right]$ 其中：
- $\mathbb{E}_t[\cdot]$ 表示对时间步 $t$ 和采样轨迹的期望。
- $r_t(\theta) = \frac{\pi_\theta(y_t | x, \mathbf{y}_{<t})}{\pi_{\theta_{\mathrm{old}}}(y_t | x, \mathbf{y}_{<t})}$ 是新策略 $\pi_\theta$ 与旧策略 $\pi_{\theta_{\mathrm{old}}}$ 在生成当前词元 $y_t$ 上的概率比率。 $\mathbf{y}_{<t}$ 表示在生成 $y_t$ 之前已经生成的词元序列。
- $A_t$ 是在时间步 $t$ 的优势函数 (advantage function)，它衡量了在当前状态下采取某个行动相对于平均行动的“好坏”。在 PPO 中，通常通过一个价值网络 $V_\phi$ 来估计 $A_t$ 。
- $\mathrm{clip}(r_t(\theta), 1-\epsilon, 1+\epsilon)$ 是一个截断函数，它将概率比 $r_t(\theta)$ 限制在一个小区间 $[1-\epsilon, 1+\epsilon]$ 内（ $\epsilon$ 是一个超参数，通常为 0.1 或 0.2）。这样做是为了防止策略更新过大，导致训练不稳定。
- $\min(\cdot, \cdot)$ 函数确保策略更新不会偏离原始策略太远，以避免破坏模型的现有能力。
  
  除了 PPO，本文还评估了其他 critic-free 的 PPO 变体或其他策略梯度算法：
- GRPO (Grouped Reward Policy Optimization): (Shao et al., 2024) 估计优势函数 $A_i$ 时，使用同一问题的一组响应的归一化奖励： $A _ { i } = [ r _ { i } - \mathrm { mean } ( \mathbf { r } ) ] / \mathrm { s t d } ( \mathbf { r } )$ 其中 $\mathbf{r} = \{r_1, \ldots, r_G\}$ 是对同一个问题采样的 $G$ 个响应的奖励集合。
- RLOO (Reinforcement Learning with Leave-One-Out baseline): (Ahmadian et al., 2024) 优势函数 $A_i$ 定义为： $A _ { i } = r _ { i } - \frac { 1 } { | \mathcal { B } | - 1 } \sum _ { j \neq i , j \in \mathcal { B } } r _ { j }$ 其中 $\mathcal{B}$ 是一个批次中的样本集合，该方法使用批次中其他样本的平均奖励作为基线。
零监督强化学习 (Zero RL Training): 为了更纯粹地研究 RLVR 的影响，本文在数学任务中采用了 zero-RL 设置，即直接在预训练的基础模型上进行 RL 训练，而不进行任何监督微调 (SFT)。对于代码生成和视觉推理任务，如果开源实践通常从指令微调模型开始，本文也遵循这一惯例，将指令微调模型视为新的“基础模型”进行对比。

4.2.2. Pass@k 指标的低方差估计

为了准确且鲁棒地评估模型的推理能力边界，本文采用 pass@k 指标，并使用 Chen et al., 2021 提出的低方差无偏估计方法。

评估流程:
1. 对于评估数据集 $\mathcal{D}$ 中的每个问题 $x_i$ ，模型生成 $n$ 个独立的输出样本 $\mathbf{y}_1, \ldots, \mathbf{y}_n$ 。
2. 使用验证器 $\mathcal{V}$ 对这 $n$ 个样本进行验证，得到每个样本的奖励 $r_j \in \{0, 1\}$ 。
3. 统计 $n$ 个样本中正确答案的数量 $c_i = \sum_{j=1}^n r_j$ 。
4. 对于给定的 $k$ 值，计算问题 $x_i$ 的 pass@k 贡献。
5. 对所有问题 $x_i \sim \mathcal{D}$ 求期望，得到整个数据集的 pass@k 值。
无偏估计公式: 数据集上 pass@k 的无偏估计量为： $\operatorname { pass@ } k : = \mathbb { E } _ { x _ { i } \sim \mathcal { D } } \left[ 1 - \frac { \binom { n - c _ { i } } { k } } { \binom { n } { k } } \right]$ 其中：
- $n$ : 为每个问题生成的总样本数。在本文实验中，为了覆盖大 $k$ 值，通常设置 $n$ 为 128, 256 或 1024，即 pass@k 曲线中最大的 $k$ 值。
- $c_i$ : 对于问题 $x_i$ ，在 $n$ 个样本中正确答案的数量。
- $k$ : 待评估的采样次数，即我们想计算的 pass@k 中的 $k$ 。
- $\binom{N}{K}$ : 组合数，计算从 $N$ 个元素中选择 $K$ 个元素的数量。
- $\frac{\binom{n-c_i}{k}}{\binom{n}{k}}$ : 表示从 $n$ 个样本中随机选择 $k$ 个样本，全部都是错误的概率（因为分子是从 $n-c_i$ 个错误样本中选择 $k$ 个）。
- $1 - \frac{\binom{n-c_i}{k}}{\binom{n}{k}}$ : 因此，这个表达式表示从 $n$ 个样本中随机选择 $k$ 个样本，至少有一个是正确的概率。
  
  通过这种方式，即使实际采样只生成了 $n$ 个样本，也可以低方差地估计所有 $k \le n$ 的 pass@k 值。

4.2.3. 困惑度分析 (Perplexity Analysis)

本文利用困惑度来分析 RLVR 模型生成的推理路径是否已存在于基础模型的输出分布中。

分析方法:
1. 选择一个问题 $x$ 。
2. 让 RLVR 模型生成一组响应 $\mathbf{Y}_{\mathrm{RL}}$ 。
3. 让基础模型生成一组响应 $\mathbf{Y}_{\mathrm{Base}}$ 。
4. 使用基础模型 $m_{\mathrm{Base}}$ 来计算其对 $\mathbf{Y}_{\mathrm{RL}}$ 中每个响应的困惑度 $PPL_{m_{\mathrm{Base}}}(\mathbf{Y}_{\mathrm{RL}} | x)$ 。
5. 同时，也计算基础模型对 $\mathbf{Y}_{\mathrm{Base}}$ 中每个响应的困惑度 $PPL_{m_{\mathrm{Base}}}(\mathbf{Y}_{\mathrm{Base}} | x)$ 。
6. 比较这两个困惑度分布。
预期结果与解释: 如果 RLVR 模型生成的响应的困惑度分布（在基础模型下计算）与基础模型自身生成响应的困惑度分布的较低部分（即基础模型更倾向于生成的响应）紧密匹配，那么就说明 RLVR 模型倾向于生成基础模型本身就“熟悉”或容易生成的响应。这支持了 RLVR 只是在基础模型的先验分布中“锐化”了某些路径，而非在其先验之外进行拓展的论点。

4.2.4. 采样效率差距 (Sampling Efficiency Gap, $\Delta_{SE}$ )

为了量化不同 RL 算法在提升采样效率方面的能力，本文引入了采样效率差距 ( $\Delta_{SE}$ )。

定义: $\Delta _ { \mathrm { S E } } = \text{基础模型 pass@k (k=256)} - \text{RL 模型的 pass@1}$ 其中：
- \text{基础模型 pass@k (k=256)}: 将 $k=256$ 作为基础模型的潜在性能上限的代理。这表示基础模型在有足够多次尝试机会时能解决的问题比例。
- $\text{RL 模型的 pass@1}$ : RL 训练模型在单次尝试（即通常的准确率）下解决问题的比例。
目的: 这个指标旨在衡量 RL 算法将基础模型的“潜在能力”（由基础模型的 pass@256 衡量）转化为“实际高效性能”（由 RL 模型的 pass@1 衡量）的效率。
解读: 较低的 $\Delta_{SE}$ 值意味着 RL 算法更有效地将基础模型的潜在知识转化为高概率的正确输出，即采样效率更高，更接近最优。如果 $\Delta_{SE}$ 很大，则表明 RL 算法未能充分利用基础模型的潜力。

4.2.5. 蒸馏方法 (Distillation)

作为与 RLVR 的对比，本文还分析了蒸馏方法。蒸馏在此语境下指的是通过一个更强大的“教师模型 (teacher model)”生成高质量的链式思考 (CoT) 轨迹作为训练数据，然后用这些数据来微调一个较小的“学生模型 (student model)”。

原理: 蒸馏的目标是让学生模型不仅学习教师模型的最终答案，还学习其推理过程。通过这种方式，学生模型可以从教师模型那里“继承”新的推理模式，从而扩展其自身的推理能力边界。这与 RLVR 的机制形成对比，RLVR 专注于提高自身（通常是基于自身能力的）正确答案采样频率。
实验设置: 本文以 DeepSeek-R1-Distill-Qwen-7B (将 DeepSeek-R1 蒸馏到 Qwen2.5-Math-7B) 为例，将其 pass@k 曲线与基础模型和 RLVR 模型进行比较。

5. 实验设置

5.1. 数据集

本文在数学、代码生成和视觉推理三个不同领域进行了广泛的实验，以确保结论的普适性。

5.1.1. 数学推理任务

模型与训练:
- LLaMA-3.1-8B (Grattafiori et al., 2024)
- Qwen2.5-7B/14B/32B-Base (Yang et al., 2024)
- Qwen2.5-Math-7B
- RLVR 模型：SimpleRLZoo (Zeng et al., 2025) (使用 GRPO 在 GSM8K 和 MATH 训练集上训练，仅使用正确性奖励), Oat-Zero-7B (Liu et al., 2025b), DAPO-32B (Yu et al., 2025)。
评估基准:
- GSM8K (Cobbe et al., 2021): 小学数学应用题。
- MATH500 (Hendrycks et al., 2021): 500 道不同难度和主题的数学问题。
- Minerva (Lewkowycz et al., 2022): 复杂数学推理基准。
- Olympiad (He et al., 2024): 奥林匹克级别数学问题。
- AIME24 (American Invitational Mathematics Examination): 2024 年美国数学邀请赛题目。
- AMC23 (American Mathematics Competitions): 2023 年美国数学竞赛题目。

5.1.2. 代码生成任务

模型与训练:
- Qwen2.5-7B-Instruct (Yang et al., 2025b)
- RLVR 模型：CodeR1-Zero-Qwen2.5-7B (Liu & Zhang, 2025) (在 12K LeetCode 和 TACO 样本上训练)，DeepCoder-14B (Luo et al., 2025) (基于 DeepSeek-R1-Distill-Qwen-14B)。
评估基准:
- LiveCodeBench v5 (Jain et al., 2025): 包含 279 个从 2024 年 8 月到 2025 年 1 月的问题。
- HumanEval+ (Liu et al., 2023): 编程能力基准。
- MBPP+ (Liu et al., 2023): 编程能力基准。

5.1.3. 视觉推理任务

模型与训练:
- Qwen2.5-VL-7B (Bai et al., 2025)
- RLVR 模型：使用 EasyR1 框架 (Zheng et al., 2025) 在 Geometry3K (Lu et al., 2021) 上训练。
评估基准:
- MathVista-TestMini (Lu et al., 2024): 过滤掉选择题后的视觉数学推理。
- MathVision-TestMini (Wang et al., 2024): 过滤掉选择题后的视觉数学推理。

5.1.4. 深度分析专用数据集

Omni-MATH-Rule (Gao et al., 2025): Omni-MATH 的一个子集，包含可验证问题。
- 训练集：2,000 个样本。
- 域内测试集：821 个样本。
MATH500: 作为域外泛化基准。

5.2. 评估指标

5.2.1. Pass@k

概念定义 (Conceptual Definition): pass@k 评估模型在 $k$ 次独立采样中至少生成一个正确解决方案的概率。它反映了模型解决问题的潜在能力，即其“推理能力边界”或“覆盖范围”。如果一个模型在多次尝试后能够解决某个问题，即使它在第一次尝试时失败了，也表明该模型具有解决该问题的内在潜力。
数学公式 (Mathematical Formula): 对于评估数据集 $\mathcal{D}$ 中的每个问题 $x_i$ ，生成 $n$ 个样本（其中 $n \geq k$ ），并计算其中正确样本的数量 $c_i$ 。数据集上 pass@k 的无偏估计量为： $\operatorname { pass@ } k : = \mathbb { E } _ { x _ { i } \sim \mathcal { D } } \left[ 1 - \frac { \binom { n - c _ { i } } { k } } { \binom { n } { k } } \right]$
符号解释 (Symbol Explanation):
- pass@k: 在给定 $k$ 次采样机会下，模型解决问题的平均比例。
- $\mathbb{E}_{x_i \sim \mathcal{D}}[\cdot]$ : 对数据集 $\mathcal{D}$ 中所有问题 $x_i$ 取期望。
- $n$ : 为每个问题生成的总样本数。在本文实验中，通常设置为 128, 256 或 1024，是 pass@k 曲线中最大的 $k$ 值。
- $c_i$ : 对于问题 $x_i$ ，在 $n$ 个样本中正确答案的数量。
- $k$ : 评估 pass@k 的采样次数。
- $\binom{N}{K}$ : 组合数，表示从 $N$ 个元素中选择 $K$ 个元素的不同组合的数量，计算公式为 $\frac{N!}{K!(N-K)!}$ 。
- $1 - \frac{\binom{n-c_i}{k}}{\binom{n}{k}}$ : 对于问题 $x_i$ ，在 $n$ 个样本中有 $c_i$ 个正确答案的情况下，从这 $n$ 个样本中随机选择 $k$ 个样本，至少有一个是正确的概率。

5.2.2. 困惑度 (Perplexity, PPL)

概念定义 (Conceptual Definition): 困惑度量化了语言模型对一个给定文本序列的预测不确定性。一个较低的困惑度值意味着模型对该序列的建模效果更好，预测下一个词元的准确性更高，或者说模型更“不困惑”于这个序列。在本文中，困惑度被用于分析 RLVR 模型生成的响应是否在基础模型的输出分布内。
数学公式 (Mathematical Formula): $\operatorname { PPL } _ { m } ( \mathbf { Y } \mid x ) = \exp \left( - { \frac { 1 } { T } } \sum _ { t = 1 } ^ { T } \log P ( y _ { t } \mid x , y _ { 1 } , \ldots , y _ { t - 1 } ) \right)$
符号解释 (Symbol Explanation):
- $PPL_m(\mathbf{Y} \mid x)$ : 模型 $m$ 在给定输入 $x$ 的情况下，生成序列 $\mathbf{Y}$ 的困惑度。
- $\mathbf{Y} = (y_1, \ldots, y_T)$ : 长度为 $T$ 的输出词元序列。
- $x$ : 输入提示 (prompt)。
- $T$ : 输出序列的长度。
- $\log P(y_t \mid x, y_1, \ldots, y_{t-1})$ : 在给定输入 $x$ 和前面已生成词元 $y_1, \ldots, y_{t-1}$ 的条件下，模型生成词元 $y_t$ 的对数概率。
- $\exp(\cdot)$ : 指数函数。

5.2.3. 采样效率差距 (Sampling Efficiency Gap, $\Delta_{SE}$ )

概念定义 (Conceptual Definition): $\Delta_{SE}$ 是为了量化 RL 算法在提升采样效率方面的表现。它衡量了 RL 模型在单次尝试 (pass@1) 中解决问题的能力与基础模型在大量尝试 (pass@k，取 $k=256$ 作为上限) 下解决问题的能力之间的差距。差距越小，说明 RL 算法越能有效地将基础模型的潜在能力转化为实际性能。
数学公式 (Mathematical Formula): $\Delta _ { \mathrm { S E } } = \text{基础模型 pass@k (k=256)} - \text{RL 模型的 pass@1}$
符号解释 (Symbol Explanation):
- $\Delta_{SE}$ : 采样效率差距。
- \text{基础模型 pass@k (k=256)}: 基础模型在 $k=256$ 次采样下的 pass@k 分数，用作基础模型潜在性能的近似上限。
- $\text{RL 模型的 pass@1}$ : RL 训练模型在单次采样下的 pass@k 分数（即其平均准确率）。

5.3. 对比基线

基础模型 (Base Model): 各种 LLM 家族的原始预训练模型，如 Qwen2.5-7B/14B/32B-Base, LLaMA-3.1-8B。
指令微调模型 (Instruct Model): 如 Qwen2.5-Math-7B-Instruct，Qwen2.5-7B-Instruct-1M。
多种 RLVR 算法训练的模型:
- GRPO (Shao et al., 2024)
- PPO (Schulman et al., 2017)
- Reinforce++ (Hu, 2025)
- RLOO (Ahmadian et al., 2024)
- ReMax (Li et al., 2024)
- DAPO (Yu et al., 2025)
蒸馏模型 (Distilled Model): DeepSeek-R1-Distill-Qwen-7B，用于与 RLVR 进行直接对比。
Mistral-Medium-3 (Rastogi et al., 2025): 作为 Magastral-Medium (纯 RL 模型) 的基础模型，用于模型规模缩放分析。

5.4. 实验协议 (Evaluation Protocol)

采样参数:
- 生成温度 (temperature): 0.6
- top-p 值: 0.95
- 最大生成词元数: 16,384
提示 (Prompt) 策略:
- 为确保公平比较，基础模型不使用 few-shot 示例，以消除 in-context examples 可能引入的推理混淆效应。
- 基础模型和 RLVR 模型在评估时使用相同的 zero-shot 提示，这些提示与 RLVR 训练时使用的相同，或者使用基准提供的默认提示。
- 尽管基础模型在没有 few-shot 指导下可能生成未格式化或无意义的响应，但研究发现，通过足够的采样，它们仍能生成正确格式的输出并成功解决复杂问题。具体的 Prompt 模板在附录 D 中提供。
CoT 有效性验证:
- 对于数学问题，为解决“猜测”正确答案的风险，本文手动检查了 GSM8K 和 AIME24 数据集中最具挑战性（平均准确率低于 5% 但高于 0%）的问题的 CoT。
- 结果显示，对于这些问题，基础模型和 RLVR 模型生成的 CoT 大多是有效的推理路径，从而确认了 pass@k 确实反映了模型生成有效推理路径的能力，而非仅仅是幸运的猜测。

6. 实验结果与分析

6.1. 核心结果分析

6.1.1. RLVR 对推理能力边界的影响：窄化而非拓展

核心发现: RLVR 训练的模型虽然在小 $k$ 值 (如 pass@1) 时表现优于基础模型，但在大 $k$ 值时，基础模型却能持续超越 RLVR 模型。这意味着 RLVR 提高了正确样本的采样效率，但却缩小了模型可解决问题的总体覆盖范围。

数学推理任务: 以下是原文 Figure 2 的结果，展示了多个数学基准上基础模型与 RLVR 训练模型的 pass@k 曲线。

$Figure 2: Pass `@ k` curves of base models and their RLVR-trained counterparts across multiple mathematical benchmarks. When $k$ is small, RL-trained models outperform their base versions. However, as $k$ increases to the tens or hundreds, base modls consistently catch u and surpass RL-trai models. Mor result n GM8K and AMC23 can b fond at Figure 10.$ 该图像是多个数学基准测试中基模型与RLVR训练模型的Pass @ k 曲线图。图中显示，当 $k$ 较小时，RL训练模型的表现优于基模型；但随着 $k$ 增加到数十或数百，基模型一致超越RL训练模型。 分析: 从 Figure 2 中可以看出，对于所有数学基准（GSM8K, MATH500, Minerva, Olympiad），当 $k=1$ 时（即平均准确率），RLVR 训练的模型（红色曲线）性能高于基础模型（蓝色曲线）。这与 RLVR 改善性能的普遍认知一致，表明 RLVR 使模型更有可能采样到正确的响应。然而，随着 $k$ 值增加，例如 $k$ 达到数十或数百时，基础模型的 pass@k 曲线变得更陡峭，并最终超越了 RLVR 模型。这意味着基础模型在给定足够多的尝试机会时，能够解决更广泛的问题集。例如，在 Minerva 基准上，对于 32B 模型，当 $k=128$ 时，基础模型比 RLVR 训练的模型高出约 9%，表明基础模型可以解决验证集中多出约 9% 的问题。

原文 Figure 10 提供了更多 GSM8K 和 AMC23 的结果，进一步支持这一发现。

该图像是图表，展示了不同模型在 AMC23 和 GSM8K 基准上的 pass@k 覆盖率。图中包含 Qwen-2.5-7B、Qwen-2.5-14B、Qwen-2.5-32B 和 LLaMA-3.1-8B 的比较。可以观察到 RL 模型与基础模型在小样本 k 下的性能差异，以及大样本 k 时的表现趋向。 分析: Figure 10 再次确认了这一趋势，在 GSM8K 和 AMC23 上，RL 模型在小 $k$ 值时表现领先，但在大 $k$ 值时，基础模型则展现出更强的潜在解决能力。

原文 Figure 11 展示了 Oat-Zero-7B 和 DAPO-32B 在 AIME24 上的结果。

该图像是一个比较图表，展示了在AIME24上，Qwen-2.5-Math-7B和Oat-Zero的表现，以及Qwen-2.5-Base-32B与DAPO-32B的比较。横轴为样本数量k，纵轴为通过率pass@k，显示不同模型的覆盖率变化。 分析: 即使是强劲的 RLVR 模型如 Oat-Zero 和 DAPO，在小 $k$ 值时表现非常出色（甚至比基础模型高出近 30%），但最终也会被基础模型超越，进一步证实了 RLVR 倾向于缩小模型总体覆盖范围的结论。
代码生成任务: 以下是原文 Figure 4 (左) 和 Figure 3 的结果。

该图像是图表，展示了不同模型在多个基准任务（如 HumanEval+、MBPP+、MathVista、MathVision）上的 pass@k 曲线。曲线显示了随着样本数量 $k$ 的增加，各模型的覆盖率变化情况，其中 Qwen 和 Coder-R1 模型在不同任务中表现出差异性。整体趋势表明，模型性能在 $k$ 增大时表现各异。

该图像是一个图表，展示了在 LiveCodeBench 上不同样本数量(k)下，两个模型的覆盖率和通过率(pass@k)。图中分别由深色三角形表示的为 DeepSeek-R1-Distill-Qwen-14B (Base) 模型和由浅色三角形表示的 Deepcoder-14B-Preview (RL) 模型。随着样本数量的增加，RL模型的表现虽有所提升，但仍然低于Base模型。 分析: 从 Figure 4 (左) 和 Figure 3 可以看出，代码生成任务（HumanEval+, MBPP+, LiveCodeBench）也呈现出与数学任务高度一致的趋势。由于代码任务中“猜测”正确答案几乎不可能，pass@k 更能可靠地衡量模型的推理边界。RLVR 模型在小 $k$ 值时表现更好，但在大 $k$ 值时仍被基础模型超越。
视觉推理任务: 以下是原文 Figure 4 (右) 的结果。

该图像是图表，展示了不同模型在多个基准任务（如 HumanEval+、MBPP+、MathVista、MathVision）上的 pass@k 曲线。曲线显示了随着样本数量 $k$ 的增加，各模型的覆盖率变化情况，其中 Qwen 和 Coder-R1 模型在不同任务中表现出差异性。整体趋势表明，模型性能在 $k$ 增大时表现各异。 分析: Figure 4 (右) 展示了视觉推理任务（MathVista, MathVision）的结果，同样支持上述发现。RLVR 在视觉推理中也未能拓展模型解决问题的范围。
CoT 有效性验证: 为了排除数学任务中“猜测”对 pass@k 评估的干扰，本文手动检查了 GSM8K 和 AIME24 数据集中最难问题（平均准确率低于 5%）的 CoT。结果显示，对于这些问题，基础模型和 RLVR 模型生成的 CoT 绝大多数是有效的推理路径。这表明 pass@k 确实反映了模型生成有效推理路径的能力。

6.1.2. 推理路径已存在于基础模型中

核心发现: RLVR 模型所利用的推理路径在很大程度上已经存在于其基础模型的采样分布中。

准确率分布分析: 以下是原文 Figure 5 的结果，展示了 Qwen2.5-7B 在 Minerva 上的准确率直方图。

该图像是图表，展示了 Qwen2.5-7B 在 Minerva 上的准确率直方图。图中以频率和百分比显示了基线模型（Base）与强化学习模型（RL）在不同准确率区间（Accuracy Interval）的表现。 分析: Figure 5 显示，RLVR 训练后，高准确率（接近 1.0）的频率增加，低准确率（如 0.1, 0.2）的频率减少。然而，在准确率 0 处，RLVR 模型（红色）的频率反而更高，这意味着 RLVR 导致更多的不可解决问题。这解释了 RLVR 在平均分数 (pass@1) 上的提升并非源于解决新问题，而是通过提高对基础模型已可解决问题的采样效率。原文 Figure 14 提供了更多模型的准确率直方图，也支持这一结论。

该图像是一个准确率分布的直方图，展示了不同模型在 RLVR 训练之前和之后的表现。图中比较了多个模型（如 Qwen-2.5-7B、Qwen-2.5-14B、Qwen-2.5-32B 和 LLama-3.1-8B）在不同准确率区间的分布。红色和绿色条形分别表示训练前和训练后的准确率分布。
可解决问题覆盖率分析: 以下是原文 Table 2 的结果，展示了 AIME24 和 MATH500 上可解决问题的分类。

以下是原文 Table 2 的结果：

Base SimpleRLZoo AIME24 MATH500
✓ ✓ 63.3% 92.4%
✓ × 13.3% 3.6%
X ✓ 0.0% 1.0%
X X 23.3% 3.0%

分析: Table 2 显示，RLVR 模型解决的问题集合几乎是基础模型解决问题集合的子集。在 AIME24 和 MATH500 上，基础模型能解决但 RLVR 模型失败的问题比例 (✓ / ×) 分别为 13.3% 和 3.6%，而 RLVR 模型能解决但基础模型失败的问题比例 (X / ✓) 仅为 0.0% 和 1.0%。即使是这罕见的 1.0% 情况，当基础模型采样 1024 次时，也能解决所有这些问题。这有力地支持了 RLVR 很少解决基础模型无法解决的问题，反而会降低覆盖范围的结论。原文 Table 5 和 Table 6 也提供了 AIME24 和 LiveCodeBench 上可解决问题索引的详细列表，进一步印证了 RLVR 解决的问题通常是基础模型已能解决的问题。
困惑度分析: 以下是原文 Figure 6 的结果，展示了响应的困惑度分布。

$Figure 6: Perplexity distribution of responses. The conditioning problem $x$ is omitted in the figure.$ 该图像是箱形图，展示了不同模型的困惑度分布。左侧图展示了基线模型和经过强化学习（RL）训练模型的困惑度比较，右侧图展示了更高的困惑度值。每个箱体的范围表示数据的四分位数，标记点表示异常值。 分析: Figure 6 显示，RLVR 模型生成的响应 ( $\mathbf{Y}_{RL}$ ) 在基础模型下的困惑度分布（ $\mathrm{PPL}_{Base}(\mathbf{Y}_{RL}|x)$ ）与基础模型自身生成响应 ( $\mathbf{Y}_{Base}$ ) 的困惑度分布（ $\mathrm{PPL}_{Base}(\mathbf{Y}_{Base}|x)$ ）的较低部分紧密匹配。这意味着 RLVR 模型倾向于生成基础模型本身就容易生成（即困惑度低）的响应。换句话说，RLVR 主要是在基础模型的先验分布中“锐化”了某些路径，而不是在先验之外进行拓展。原文 Figure 15 进一步表明，随着 RL 训练的进行， $\mathrm{PPL}_{Base}(\mathbf{Y}_{RL}|x)$ 逐渐降低，再次确认 RLVR 只是在基础模型的先验内调整分布。

该图像是一个图表，展示了训练过程中困惑度（Perplexity Score）演变的趋势。随着训练进展，从初始的Base（1.244）到最终的Final（1.159），困惑度逐渐降低，反映出模型性能的提升。

6.1.3. 蒸馏拓展推理边界，RLVR 仅优化采样效率

核心发现: 蒸馏方法能够从更强的教师模型中引入新的推理模式，真正扩展模型的推理能力边界，而 RLVR 则不然，它仅在基础模型的容量范围内提高采样效率。

以下是原文 Figure 7 的结果，比较了基础模型、指令微调模型、RLVR 模型和蒸馏模型。

Figure 7: pass `@ k` of base, Instruct, RLVR, and distilled models. 该图像是一个图表，展示了不同模型在 Minerva 数据集上的 pass @ k 评分随样本数量 k 的变化。不同颜色的线条分别代表 Base、RL、Instruct 和 Distill 模型，展示了它们的推理能力在不同 k 值下的表现。整体来看，RLVR 和 Instruct 模型在较小的 k 值下表现出更高的评分，但在更大的 k 值时，Base 模型的评分更优。 分析: Figure 7 清楚地表明，蒸馏模型（DeepSeek-R1-Distill-Qwen-7B，绿色曲线）的 pass@k 曲线始终显著高于基础模型（Qwen2.5-Math-7B，蓝色曲线）。这与 RLVR 模型的表现形成鲜明对比，RLVR 模型（Qwen2.5-Math-7B-Oat-Zero，红色曲线）最终被基础模型超越。这说明蒸馏能够从更强的教师模型中引入新的推理模式，从而真正扩展学生模型的推理能力边界，而 RLVR 仅在基础模型的容量范围内提高采样效率。指令微调模型 (Qwen2.5-Math-7B-Instruct，棕色曲线) 表现介于基础模型和蒸馏模型之间，但其曲线与基础模型有类似的交叉趋势。

6.1.4. 不同 RL 算法性能相似且远未最优

核心发现: 不同 RL 算法在提升采样效率方面的表现差异不大，且与基础模型的潜在能力（视为上限）之间存在显著差距，远未达到最优水平。

以下是原文 Figure 8 (上) 和 Table 3 的结果，展示了不同 RL 算法的性能。

Figure 8: (Top) Different RL algorithms. (Bottom) Different RL training steps. The detailed valuer for each point at pas `@ 1` and pass `@ 2 5 6` are provided in Table 3 and Table 4. 该图像是一个图表，展示了不同 RL 算法在 Omni-MATH 和 MATH500 数据集上，随着样本数量 k 的增加，模型的 ΔSE 值变化情况。各组的 ΔSE 分别为 0.359、0.410、0.206、0.247、0.408 和 0.199。

以下是原文 Table 3 的结果：

Model	Omni-MATH-Train pass@1 pass@256		Omni-MATH-Test pass@1 pass@256		MATH500 pass@1 pass@256
Qwen2.5-7B	9.9	67.2	10.2	69.1	34.5	96.2
GRPO	26.1	66.3	25.1	68.3	74.4	97.2
PPO	27.2	65.8	26.8	69.2	75.2	97.2
ReMax	24.4	65.5	23.8	67.5	73.5	96.6
RLOO	28.6	66.4	28.1	69.2	75.0	97.4
Reinforce++	28.2	67.7	28.0	69.7	75.4	96.8
DAPO	31.4	66.1	26.5	67.0	75.6	96.4

分析: Table 3 和 Figure 8 (上) 显示，PPO, GRPO, Reinforce++, RLOO, ReMax, DAPO 这六种流行 RL 算法在 pass@1 和 pass@256 上的表现差异不大。它们的采样效率差距 ( $\Delta_{SE}$ ) 变化微小，且始终保持在 40 个百分点以上。例如，在 Omni-MATH-Test 上，RL 模型的 pass@1 最多约为 28.6 (RLOO)，而基础模型的 pass@256 为 69.1，差距仍在 40 左右。这表明当前 RLVR 方法在提升采样效率方面仍远未达到最优水平。DAPO 尽管在 pass@1 略高，但其计算成本更高，且在 pass@256 上性能下降。RLOO 和 Reinforce++ 在效率和效果之间取得了较好的平衡。ReMax 表现较差，可能与其优势基线选择有关。

6.1.5. RL 训练步数与渐进效应

核心发现: 随着 RL 训练的进行，pass@1 持续提升，但 pass@k (大 $k$ 值) 却逐渐下降，表明模型推理能力边界在训练过程中反而缩小。

以下是原文 Figure 8 (下) 和 Table 4 的结果，展示了 RL 训练步数对性能的影响。

以下是原文 Table 4 的结果：

Model	Omni-MATH-Train pass@1	pass@256	Omni-MATH-Test pass@1 pass@256		MATH500 pass@1 pass@256
Qwen2.5-7B	9.9	67.2	10.2	69.1	34.5
GRPO-step150	26.1	66.3	25.1	68.3 74.4	96.2 97.2
GRPO-step300	33.6	65.3	27.1	66.6 76.3	96.0
GRPO-step450	42.5	64.3	28.3	63.9	95.4

分析: Figure 8 (下) 和 Table 4 显示，随着 RL 训练的进行，训练集上的 pass@1 持续提升（从 GRPO-step150 的 26.1 到 GRPO-step450 的 42.5），这表明模型在单次尝试中找到正确答案的能力增强。然而，pass@256 却逐渐下降（例如，Omni-MATH-Test 从 68.3 降到 63.9）。这表明 RLVR 训练越深入，模型在单次尝试中找到正确答案的能力越强，但其整体推理能力边界却反而缩小。这进一步印证了 RLVR 专注于提高采样效率而非拓展新能力。

6.1.6. KL 散度损失和 Rollout 数量的影响

核心发现: KL 损失会过度限制模型探索，导致推理边界缩小；增加 rollout 数量能略微提升高 $k$ 值下的性能，但仍未能改变 RLVR 的基本局限性。

以下是原文 Figure 16 的结果，展示了 KL 散度损失和 Rollout 数量的消融研究。

$Figure 16: Ablation Study on KL Loss and Rollout Number $n$ . For increasing $n$ from 8 to 32, we keep the prompt batch size unchanged, which results in increased computation per training step. Due to resource constraints, we train for only 220 steps under this setting, leading to lower pass `@ 1` as the model has not yet converged. Nevertheless, the model with $n = 3 2$ achieves a higher pass $\\ @ 1 2 8$ , highlighting the positive effect of larger rollout numbers in improving pass `@ k` at higher values of $k$ .$ 分析:

KL 损失: 带有 KL 项的 GRPO 模型（KL=0.001）在 pass@1 上与不带 KL 项的 GRPO 相似，但在 pass@128 上表现明显更差。这表明 KL 正则项会过度限制模型的探索，使其策略更接近旧策略，从而进一步压缩其推理能力边界。
Rollout 数量 $n$ : 增加 rollout 数量从 8 到 32 略微改善了 pass@k 曲线，尤其是在更高的 $k$ 值处（pass@128 略有提升）。尽管如此，RLVR 训练的模型仍然最终被基础模型超越。这暗示增加探索样本可能有助于提升潜在能力，但仍未能从根本上改变 RLVR 的局限性。

6.1.7. 熵效应分析

核心发现: 输出熵的降低是导致 RLVR 推理边界缩小的因素之一，但并非唯一原因。

以下是原文 Figure 18 的结果，比较了匹配输出熵的基础模型和 RLVR 模型。

$Figure 18: Comparison of Base and RLVR Models with Matched Output Entropy. We evaluate the base model (Qwen2.5-7B) on each dataset using temperature $T = 0 . 6$ and report its output entropy $E _ { \\mathrm { b a s e } }$ in the title of each figure. Tn RLVRRLZ approximately matches $E _ { \\mathrm { b a s e } }$ . For example, on AMC23, we set $T = 0 . 9$ to achieve $E _ { \\mathrm { { R L } } } = 0 . 4 7$ . We also include RLVR results at $T = 0 . 6$ as an additional baseline, which has lower entropy—e.g., 0.22 on AMC23 and 0.33 on MATH500.$ 该图像是图表，展示了不同模型在多个数据集上的 pass@k 评分和输出熵的比较。图中包含了基线模型和 RLVR 模型在不同样本数量 $k$ 下的表现，具体数据集包括 AIME24、AMC23、GSM8K、MATH500、Minerva 和 Olympiad。每个子图中均标注了基线模型的输出熵 $E_{base}$ 。 分析: 随着 RL 训练的进行，模型的输出熵 (entropy) 通常会降低 (Yu et al., 2025)，导致生成多样性减少。 Figure 18 比较了将 RLVR 模型的生成温度 (temperature) 调整到与基础模型输出熵匹配时的 pass@k 表现。尽管在这种情况下，RLVR 模型在较高的温度下略微提升了 pass@k 性能，但它仍然在所有 pass@k 值上逊于基础模型。这表明输出熵降低确实是导致推理边界缩小的一个因素，但并非唯一原因。

6.1.8. 模型规模缩放的影响

核心发现: 本文的结论在更大型、更先进的近前沿推理模型中也同样适用，表明 RLVR 在拓展推理能力方面的普遍局限性。

以下是原文 Figure 9 的结果，展示了 Magistral-Medium 模型的 pass@k 曲线。

Figure 9: pass `@ k` curves of Magistral-Medium. 该图像是图表，展示了不同样本数量（k）下Mistral-Medium-3（基础）和Magistral-Medium（RLVR）在AIME24和AIME25中的覆盖率（pass@ $k$ ）曲线。图中可以看出，尽管RLVR模型在小k值时表现更好，但在大k值时基础模型的表现更优。 分析: Figure 9 显示，即使是 Mistral-Medium 的纯 RL 训练版本 Magistral-Medium，在 AIME24 和 AIME25 上也表现出相同的趋势：RLVR 模型在小 $k$ 值时有显著提升，但在大 $k$ 值时性能差距迅速缩小甚至反超。这表明本文的结论在更大型、更先进的近前沿推理模型中也同样适用。这凸显了 RLVR 在拓展推理能力方面的普遍局限性。

6.2. 训练动态分析

核心发现: 训练过程中，奖励通常上升，响应长度和生成熵会发生变化。生成熵的下降可能导致推理边界的缩小。

以下是原文 Figure 19 的结果，展示了训练奖励、响应长度和生成熵在训练过程中的曲线。

Figure 19: The curves of training reward, response length, and generation entropy during training, corresponding to experiments in Section 4. 该图像是一个包含三个子图的图表，展示了演员奖励、响应长度和生成熵在训练过程中的变化趋势，横轴为训练步数。各条曲线分别代表不同的强化学习算法，如GRPO、PPO和Reinforce++，显示了它们在训练中的表现差异。 分析: Figure 19 展示了 RL 训练过程中的动态变化。随着训练步数的增加，训练奖励通常会上升，表明模型在学习如何生成高奖励的响应。响应长度和生成熵的变化则反映了模型在生成多样性和简洁性方面的权衡。生成熵的下降（如 Section 4.5 所述）可能导致推理边界的缩小，因为模型变得更加确定，生成较少多样性的响应，从而可能错过一些潜在的正确路径。

6.3. CoT 案例分析

核心发现: 基础模型即使在没有 few-shot 提示的情况下，也能够生成长且具有反思性的 CoT，从而解决复杂的数学问题。这进一步支持了基础模型本身已经具备强大的推理能力，而 RLVR 更多是利用这些已有能力的观点。

原文 Figure 20 和 Figure 21 展示了 Qwen2.5-Base-7B 在 AIME24 问题上的正确 CoT 响应示例。

以下是原文 Figure 20 的结果：

# Question

# (AIME24 Question No.16)

# Qwen-2.5-7B Answer

# Response Length: 1058

clubs, garden spades, and candy hearts as D, G, S, and C, respectively. We are given the folowing inoratn:   
 $- \mathrm { ~ D ~ } = 1 9 5$    
 $\mathbf { - \Delta G } = 3 6 7$    
 $\mathbf { S } = 5 6 2$    
-  $C = 9 0 0$  (since every resident owns a bag of candy hearts)   
  Wr   ahi n a.

et's denote the number of residents who own all four of these things as X. We need to find X

exclusion:

 $\mathrm { T o t a l } = D + G + S + C -$   $- 2 \times$   $- 3 \times$  (

Since there are 900 residents in total, we can write the equation as:

 $9 0 0 = 1 9 5 + 3 6 7 + 5 6 2 + 9 0 0 - 4 3 7 - 2 \times 2 3 4 - 3 \times X$ 

Now we need to solve for  $\mathrm { X }$ 

 $\begin{array} { c } { { 9 0 0 = 1 9 5 + 3 6 7 + 5 6 2 + 9 0 0 - 4 3 7 - 4 6 8 - 3 \times X } } \\ { { 9 0 0 = 1 7 1 7 - 9 0 5 - 3 \times X } } \\ { { 9 0 0 = 8 1 2 - 3 \times X } } \\ { { 3 \times X = 8 1 2 - 9 0 0 } } \\ { { 3 \times X = - 8 8 } } \\ { { X = - \frac { 8 8 } { 3 } } } \end{array}$ 

# S aihlaslath

Numbe t  a  $\mathrm { t h i n g } = ( D + G + S + C ) -$   $- 2 \times$  (number  residents who own exactly three things)  $- 3 \times$  (number of residents who own all four things)

Let's denote the number of residents who own exactly one thing as  $\mathrm { Y }$ 

 ${ \begin{array} { l } { Y = ( 1 9 5 + 3 6 7 + 5 6 2 + 9 0 0 ) - 4 3 7 - 2 \times 2 3 4 - 3 \times X } \\ { Y = 1 9 2 4 - 9 0 5 - 3 \times X } \\ { Y = 1 0 1 9 - 3 \times X } \end{array} }$ 

Since every resident owns at least one thing, we can write the equation:

 $9 0 0 = Y + 4 3 7 + 2 \times 2 3 4 + 3 \times X$ 

Now we need to solve for  $\mathrm { X }$ 

 $\begin{array} { l } { 9 0 0 = ( 1 0 1 9 - 3 \times X ) + 4 3 7 + 4 6 8 + 3 \times X } \\ { 9 0 0 = 1 0 1 9 + 4 3 7 + 4 6 8 } \\ { 9 0 0 = 1 9 2 4 } \end{array}$ 

# his equation is not true, which means there is stil n error in our calculations. Let's try a different appr

n usethe fct that the totalnumbr residents who own t leastne thi is 00.W can wrie the equaon:

 $9 0 0 =$  (number residents ho on exactly one thig)  $^ +$  (numbe eidents ho n exactl tohigs)  $^ +$  (numberients whow exat re)  $^ +$  (number of reidents who own all four things)

Let's denote the number of residents who own exactly one thing as Y:

 $\begin{array} { l } { 9 0 0 = Y + 4 3 7 + 2 \times 2 3 4 + X } \\ { 9 0 0 = Y + 8 0 5 + X } \end{array}$ 

who own each item minus the residents who own at least two items:

 $9 0 0 = ( 1 9 5 + 3 6 7 + 5 6 2 + 9 0 0 ) \cdot$  (number of residents who own exactly two things)

 $- 2 \times$  (t  $- 3 \times$ 

 $\begin{array} { l } { 9 0 0 = 1 9 2 4 - 4 3 7 - 2 \times 2 3 4 - 3 \times X } \\ { 9 0 0 = 1 9 2 4 - 8 0 5 - 3 \times X } \\ { 9 0 0 = 1 1 1 9 - 3 \times X } \end{array}$ 

Now we can solve for X:

 $\begin{array} { c } { { 3 \times X = 1 1 1 9 - 9 0 0 } } \\ { { 3 \times X = 2 1 9 } } \\ { { X = 7 3 } } \end{array}$ 

So, the number of residents of Aimeville who own all four of these things is [73

Figure 20: Qwen2.5-Base-7B Correct Response - Case 1.

**分析:** Figure 20 展示了 Qwen2.5-Base-7B 模型在 AIME24 的一个问题（问题 16）上的响应。尽管这是一个复杂的问题，模型仍然能够生成一个详细的、多步骤的链式思考 (`CoT`) 过程。值得注意的是，模型在推理过程中识别并纠正了自己最初的错误（例如，“This equation is not true, which means there is still an error in our calculations. Let's try a different approach.”），展现了反思能力。最终，模型成功得出了正确答案 73。这有力地证明了即使是基础模型，在没有经过 RLVR 训练的情况下，也能够通过其内在的语言和推理能力，生成有效的、高质量的推理过程来解决高难度问题。

# 7. 总结与思考

## 7.1. 结论总结
本文通过系统性地研究和批判性分析，挑战了强化学习与可验证奖励 (RLVR) 能够使大型语言模型 (LLMs) 获取超越其基础模型的新颖推理能力的普遍观点。核心结论是：
1.  **RLVR 训练未能激发根本性的新推理模式。** 尽管 RLVR 模型在单次尝试（`pass@1`）表现优异，但在需要多次尝试的潜在能力评估（大  $k$  值 `pass@k`）中，基础模型往往表现更好，甚至超越 RLVR 模型。这表明 RLVR 更多是优化了已有推理路径的采样效率，而非拓宽了可解决问题的范围。
2.  **RLVR 的推理能力源于并受限于基础模型。** 准确率分布、可解决问题覆盖率和困惑度分析一致表明，RLVR 模型生成的推理路径大多已包含在基础模型的输出分布中，RLVR 只是在基础模型的先验知识内部进行“锐化”和“聚焦”。
3.  **当前 RLVR 算法性能相似且远未最优。** 六种流行的 RLVR 算法在提升采样效率方面的表现差异微小，且与基础模型的潜在能力上限相比，仍存在显著的采样效率差距。
4.  **蒸馏方法能真正扩展推理能力。** 对比实验显示，蒸馏方法能够从更强的教师模型中引入新的推理模式，从而真正有效地扩展学生模型的推理能力边界，这与 RLVR 的局限性形成鲜明对比。

    综上所述，当前 RLVR 方法尚未充分发挥强化学习在 LLMs 中激发真正新颖推理能力的潜力。

## 7.2. 局限性与未来工作
### 7.2.1. 论文作者指出的局限性
*   **模型可访问性限制：** 研究受到许多强大且专有模型（如某些最新的闭源 LLM 和其训练流程）不可公开访问的限制。例如，`Deepseek-R1-Zero` 的高计算成本和 `Qwen3-235B` 的多阶段训练使其难以隔离 RLVR 的单一影响。这可能导致研究未能完全覆盖领域内所有最先进的模型。
*   **领域快速发展：** LLM 的强化学习领域发展迅速，新的技术和范式不断涌现。本文的结论是基于当前已有的 RLVR 方法，未来出现的改进技术可能会缓解或解决本文指出的部分局限性。因此，本文的结论应在考虑到这些时间性和技术发展背景的限制下进行理解。

### 7.2.2. 未来工作方向
作者提出了以下几个关键的未来研究方向，旨在克服当前 RLVR 的局限性并释放其潜力：
*   **高层次抽象中的高效探索策略：** 针对 LLM 巨大的动作空间和低效的词元级探索问题，需要开发在高层次抽象（例如程序级抽象）中进行探索的机制，如 `AlphaEvolve`。这将有助于发现超越现有先验的全新推理模式和知识结构。
*   **通过课程学习进行数据扩展：** 建议采用课程学习 (curriculum learning) 范式，从简单子问题开始训练，逐步提高模型的采样效率和元技能。通过精心设计的大规模数据-RL 迭代管道，确保元技能的充分覆盖以及简单与困难问题之间的适当关系，从而在更具挑战性的任务中获得有意义的奖励。
*   **过程奖励与细粒度归因：** 引入除了最终二元结果奖励之外的**中间信号 (intermediate signals)** 或**过程奖励 (process reward)** 来指导推理轨迹。这将显著提高探索效率，并将模型引导至更有前景的解决方案路径，解决稀疏奖励问题。
*   **智能体式强化学习 (Agentic RL)：** 当前 RLVR 仅限于单轮响应，而高级推理（如 IMO 级别）通常需要迭代式反馈、工具使用和与环境的多轮交互。未来的研究应探索多轮**智能体式 RL (Agentic RL)** 范式，使其能够主动收集新信息、进行实验，从而生成新经验并从中学习。

## 7.3. 个人启发与批判
### 7.3.1. 个人启发
*   **LLM 推理能力的深层来源：** 这篇论文促使我们深入思考 LLM 的推理能力究竟从何而来。它强烈暗示，LLM 的大部分推理能力可能已经在预训练阶段被编码在其参数中（即“基础模型先验”），而 RLVR 更多是扮演了一个“精炼器”或“聚焦器”的角色，帮助模型更高效地调动和利用这些既有能力，而非创造全新的思维模式。
*   **评估指标的重要性：** 论文强调了 `pass@k`，尤其是在大  $k$  值下的评估对于理解模型潜在能力边界的重要性。这提醒我们在评估 LLM 时，不应仅仅满足于 `pass@1` 这样的平均性能指标，而应探索更全面的评估方式，以揭示模型更深层次的知识和鲁棒性。
*   **蒸馏的被低估价值：** 蒸馏被证实能够有效引入新推理模式，这为 LLM 能力的拓展提供了一个有力的替代或补充途径。在实际应用中，蒸馏可以作为一种高效的知识迁移机制，将专家模型（教师）的复杂推理策略注入到更小的模型（学生）中，从而可能比纯粹的 RLVR 更直接地实现能力提升。
*   **RL 探索机制的瓶颈：** 论文揭示了当前 RL 方法在 LLM 巨大且离散的动作空间中探索效率低下的根本性挑战。这表明，要实现 LLM 真正的“自我进化”，可能需要跳出现有的 RL 框架，开发全新的、更具智能化的探索机制，例如在更高层次的语义或逻辑空间中进行探索。
*   **对 AGI 路径的思考：** 论文提出的未来工作方向，如“高层次抽象探索”、“过程奖励”和“智能体式 RL”，与当前 AGI 领域中关于“具身智能 (embodied AI)”、“世界模型 (world models)”和“多模态交互”的讨论高度契合。这表明 LLM 的下一步发展可能不仅仅是模型的规模扩展，更是其与环境交互方式和学习机制的根本性变革。

### 7.3.2. 潜在的问题、未经验证的假设或可以改进的地方
*   **“新推理模式”的定义与检测：** 论文虽然通过 `pass@k`、覆盖率和困惑度分析有力地证明了 RLVR 未能解决基础模型无法解决的新问题，但“推理模式”本身是一个相对抽象的概念。是否存在一些微小但重要的推理模式创新，这些创新并未体现在“能否解决新问题”或“困惑度分布”中，而是体现在推理的效率、鲁棒性或泛化性上？如何更细粒度地定义和检测这些“新推理模式”，仍是开放性问题。
*   **基础模型“上限”的设定：** 将基础模型在大  $k$  值下的 `pass@k` 视为“上限”，这种设定本身就隐含了一个假设：基础模型在无限次尝试下能达到的能力，就是其全部潜在能力。然而，是否有可能存在某些推理，即使基础模型在海量采样下也无法触及，而 RLVR 在某种特殊配置或长期训练下反而能够实现？这个“上限”的边界可能需要更深入的理论分析或更极限的实验来验证。
*   **奖励函数的稀疏性：** 本文的 RLVR 设置主要依赖二元的可验证奖励（0 或 1）。这种稀疏奖励可能本身就限制了 RL 算法的探索能力。如果奖励信号能够提供更丰富、更细粒度的反馈（例如，部分正确、推理步骤的质量分等），是否能引导模型发现新的推理路径？这与作者提出的“过程奖励”方向一致，但也暗示了当前 RLVR 奖励设计本身的局限性。
*   **超参数敏感性：** 强化学习训练通常对超参数（学习率、探索参数、KL 散度权重等）高度敏感。论文虽然进行了一些消融实验，但 RLVR 算法的“瓶颈”是否可能与当前实验中使用的特定超参数设置有关？是否存在一套特定的超参数，能让 RLVR 展现出不同的行为？这可能需要更广泛的超参数搜索和灵敏度分析。
*   **预训练数据的影响：** 论文的结论强烈依赖于基础模型的预训练先验。如果预训练数据本身就包含了足够丰富的推理模式，那么 RLVR 的作用就确实更偏向于“精炼”。但如果预训练数据在某些推理方面存在显著空白，RLVR 是否仍有机会通过探索来填补这些空白，从而真正创造“新”能力？这需要针对性地设计实验，例如在预训练数据中故意移除某些推理模式，然后观察 RLVR 的表现。
*   **长期持续学习能力：** 本文主要关注 RLVR 对初始推理能力的影响，但传统 RL 的一个关键优势是其在动态环境中进行持续学习和自我演进的能力。RLVR 是否能在更长期的、动态变化的训练过程中，通过持续交互和反馈，逐渐累积和发现新能力？这需要更长时间跨度和更动态的实验设置来验证，而非仅仅比较训练前后的静态性能。

相似论文推荐

基于向量语义检索推荐的相关论文。

暂时没有找到相似论文。

Base	SimpleRLZoo	AIME24	MATH500
✓	✓	63.3%	92.4%
✓	×	13.3%	3.6%
X	✓	0.0%	1.0%
X	X	23.3%	3.0%