Random Policy Valuation is Enough for LLM Reasoning with Verifiable Rewards
TL;DR 精炼摘要
本文提出ROVER算法,基于数学推理中RLVR问题的特殊MDP结构,证明最优动作可由固定随机策略估值恢复,绕过复杂策略迭代。ROVER简洁高效,保持多样性,显著提升LLM数学推理质量与多样性。
摘要
000 001 002 003 004 005 006 007 008 009 010 011 012 013 014 015 016 017 018 019 020 021 022 023 024 025 026 027 028 029 030 031 032 033 034 035 036 037 038 039 040 041 042 043 044 045 046 047 048 049 050 051 052 053 Under review as a conference paper at ICLR 2026 R ANDOM P OLICY V ALUATION IS E NOUGH FOR LLM R EASONING WITH V ERIFIABLE R EWARDS Anonymous authors Paper under double-blind review A BSTRACT RL with Verifiable Rewards (RLVR) has emerged as a promising paradigm for improving the reasoning abilities of large language models (LLMs). Current methods rely primarily on policy optimization frameworks like PPO and GRPO, which follow generalized policy iteration that alternates between evaluating the current policy’s value and improving the policy based on evaluation. While ef- fective, they often suffer from training instability and diversity collapse, requiring complex heuristic tricks and careful tuning. We observe that standard RLVR in math reasoning can be formalized as a specialized finite-horizon Markov Deci- sion Process with deterministic state transitions, tree-structured dynamics, and binary terminal rewards. Though large in scale, the underlying s
思维导图
论文精读
中文精读
1. 论文基本信息
1.1. 标题
随机策略估值足以实现大语言模型可验证奖励推理 (Random Policy Valuation is Enough for LLM Reasoning with Verifiable Rewards)
1.2. 作者
匿名作者 (Anonymous authors)
1.3. 发表期刊/会议
该论文目前处于双盲评审阶段 (Paper under double-blind review),发布于开放评审平台 (OpenReview),这通常意味着它已被提交给顶级的机器学习会议,如 ICLR 或 NeurIPS,等待同行评审结果。
1.4. 发表年份
论文发布时间为 2025-10-08T00:00:00.000Z。
1.5. 摘要
可验证奖励强化学习 (RL with Verifiable Rewards, RLVR) 已成为提升大型语言模型 (LLMs) 推理能力的一种有前景的范式。当前方法主要依赖于策略优化框架,如近端策略优化 (Proximal Policy Optimization, PPO) 和群组相对策略优化 (Group-Relative Policy Optimization, GRPO),它们遵循广义策略迭代 (Generalized Policy Iteration) 范式,在评估当前策略价值和基于评估改进策略之间交替进行。尽管这些方法有效,但它们常面临训练不稳定和多样性崩溃 (diversity collapse) 的问题,需要复杂的启发式技巧和精细调整。本文观察到,数学推理中的标准 RLVR 可以被形式化为一个特殊的有限时域马尔可夫决策过程 (Markov Decision Process, MDP),该过程具有确定性状态转移、树状结构动态和二元终端奖励。尽管规模庞大,但其底层结构比 PPO 等通用 RL 算法所开发的通用控制设置更为简单,这表明现有方法中的一些复杂技术可能会被简化甚至省略。基于这一洞察,本文提出了一个令人惊讶的结果:最优动作可以从一个固定的均匀随机策略 (uniformly random policy) 的 Q 函数中恢复出来,从而绕过了广义策略迭代循环及其相关的启发式方法。本文引入了用于多样化推理的随机策略估值 (Random Policy Valuation for Diverse Reasoning, ROVER) 算法,将这一原理转化为一种实用且可扩展的 LLM 数学推理算法。ROVER 是一种极简但高效的 RL 方法,它从这些均匀策略 Q 值上的 softmax 分布中采样动作。ROVER 在整个训练过程中保持多样性,允许持续探索多个有效路径。在多个基础模型和标准数学推理基准上,ROVER 在质量 (pass@1 提升 +8.2,pass@256 提升 +16.8) 和多样性 (提升 +20.5%) 方面均表现出卓越性能,尽管其与强大的现有复杂方法相比进行了激进的简化。
1.6. 原文链接
2. 整体概括
2.1. 研究背景与动机
2.1.1. 论文试图解决的核心问题
论文旨在解决当前使用强化学习 (RL) 改进大型语言模型 (LLMs) 推理能力时面临的核心挑战:现有 RL 算法(如 PPO 和 GRPO)在处理可验证奖励强化学习 (RLVR) 任务时,常导致训练不稳定和策略多样性崩溃 (entropy collapse),从而限制了 LLMs 在复杂推理任务中的表现,并需要大量复杂的启发式技巧和精细的超参数调整。
2.1.2. 为什么这个问题在当前领域是重要的?现有研究存在哪些具体的挑战或空白?
- 重要性: RLVR 作为一种后训练范式,在提升 LLM 推理能力方面展现出巨大潜力,特别是在数学推理等需要可验证答案的领域。提升 LLM 的推理能力对于构建更强大、更通用的人工智能系统至关重要。
- 现有挑战与空白:
- 算法不匹配: 当前主流的 PPO 及其变体是为通用强化学习环境(如计算机游戏、机器人控制)设计的,这些环境通常具有随机动态、连续状态空间或复杂的图状状态转移(允许循环)。然而,LLM 的数学推理任务可以被形式化为一种更为特殊、简化但规模庞大的马尔可夫决策过程 (MDP):有限时域、确定性状态转移、树状结构和二元终端奖励。这种结构不匹配导致了通用算法的低效和问题。
- 训练不稳定与多样性崩溃: 通用 RL 算法在 LLM 推理任务中经常遭遇训练过程的不稳定性和策略多样性(或称熵)的崩溃。策略迭代的奖励最大化本质使得策略在评估-改进循环中不断演变,评估目标变得非平稳,导致探索空间变窄,模型倾向于找到单一解法并陷入局部最优,从而影响了 pass@k (即在 k 次尝试中找到正确答案的概率) 性能和泛化能力。
- 复杂性与调优难度: 为缓解上述问题,现有方法不得不引入如裁剪 (clipping)、KL 正则化 (KL regularization)、数据选择等复杂的启发式技巧,这不仅增加了实现复杂度,也需要耗时且依赖经验的超参数调优。
2.1.3. 这篇论文的切入点或创新思路是什么?
论文的创新思路在于从任务本身的内在结构出发,而非盲目应用通用算法。它深入分析了 LLM 数学推理任务的特定 MDP 结构(确定性、树状、二元终端奖励),并提出:
- 结构简化: 这种特殊结构比通用 RL 任务更简单,暗示了现有方法中的复杂技术可能是不必要甚至有害的。
- 随机策略估值: 基于理论分析,发现即使是一个固定的均匀随机策略的 Q 函数,也足以推导出最优动作。这颠覆了传统 RL 领域认为均匀策略 Q 值无指导意义的观点。
- 绕过 GPI: 通过利用这一发现,可以完全绕过传统的广义策略迭代 (GPI) 循环,从而避免其带来的非平稳性、训练不稳定和多样性崩溃问题。
- 平衡质量与多样性: 结合对 Q 函数的理解,通过在均匀策略 Q 值上应用 softmax 采样,在保持高性能的同时,有效促进了策略多样性,使得模型能够探索多条推理路径。
2.2. 核心贡献/主要发现
2.2.1. 论文最主要的贡献
- 理论突破: 首次证明了在 LLM 数学推理特有的确定性、树状结构、二元终端奖励 MDP 中,通过评估一个固定的均匀随机策略的 Q 函数,可以直接恢复最优动作。这一发现从根本上简化了该领域强化学习的复杂性。
- 提出 ROVER 算法: 基于上述理论洞察,提出了一种名为 ROVER (Random Policy Valuation for Diverse Reasoning) 的极简主义 (minimalist) 强化学习算法。该算法无需复杂的策略迭代循环,没有 PPO/GRPO 中常见的启发式技巧,但对 LLM 推理任务具有很高的实用性和可扩展性。
- 卓越性能与多样性: 尽管 ROVER 算法极其简化,但通过在多个基础模型和标准数学推理基准(如 AIME24, AIME25, HMMT25)上的广泛实验,它在推理质量 (pass@1 提升 +8.2,pass@256 提升 +16.8) 和多样性 (提升 +20.5%) 方面均显著优于现有最先进的复杂方法。
2.2.2. 论文得出了哪些关键的结论或发现?
- 简化理论的有效性: 对于特定结构的 MDP(如 LLM 数学推理),复杂的通用 RL 算法可能不是最优选择,通过利用问题本身的结构特性,可以实现极大的算法简化同时保持甚至超越最优性能。
- 均匀策略 Q 值的深刻内涵: 在这种特定语境下,均匀策略的 Q 值并非无意义,它们捕捉了成功路径的概率,为策略指导提供了关键信息。
- 多样性与质量的协同: 通过对均匀策略 Q 值进行 softmax 采样,ROVER 能够有效地平衡推理的质量和多样性,避免了传统 RL 算法中常见的熵崩溃问题,使得模型能够持续探索并找到多种有效解法。
- 泛化能力与新颖性: ROVER 在未见过的泛化任务 (O.O.D tasks) 上表现出色,并且能够发现基线模型无法找到的新颖推理策略,这表明其有助于扩展 LLM 的推理边界。
- 训练稳定性: 通过避免策略迭代的非平稳目标和采用相对 Q 值参数化,ROVER 实现了更稳定的训练过程。
3. 预备知识与相关工作
3.1. 基础概念
3.1.1. 强化学习 (Reinforcement Learning, RL)
强化学习是一种机器学习范式,旨在通过让一个智能体 (agent) 在一个环境 (environment) 中采取行动,以最大化累积奖励 (reward)。智能体根据其当前状态 (state) 采取动作 (action),环境会根据动作给出新的状态和奖励。
3.1.2. 马尔可夫决策过程 (Markov Decision Process, MDP)
MDP 是一种用于对强化学习问题进行数学建模的框架。它由以下元组定义:
- : 状态空间 (State Space),所有可能状态的集合。
- : 动作空间 (Action Space),智能体可以采取的所有可能动作的集合。在 LLM 语境下,这通常是词汇表 (vocabulary)。
- : 奖励函数 (Reward Function),定义了在给定状态 采取动作 后获得的即时奖励。在本文中,是二元终端奖励 (binary terminal rewards),即只有最终结果正确才给奖励 ,否则为 0。
- : 状态转移函数 (Transition Function),定义了在给定状态 采取动作 后,环境转移到下一个状态 的概率或确定性结果。本文特指确定性转移 (deterministic transitions)。
- : 折扣因子 (Discount Factor),一个介于 0 和 1 之间的值,用于衡量未来奖励的重要性。本文中 ,表示未来奖励与当前奖励同等重要。
- : 初始状态分布 (Initial State Distribution),定义了智能体开始时的状态分布。在本文中,这是一个提示 (prompt)。
3.1.3. 策略 (Policy, )
策略 (policy) 是智能体的行为函数,定义了在给定状态 下采取动作 的概率。目标是学习一个最优策略 ,使其能够最大化期望的累积奖励。
3.1.4. Q 函数 (Q-function)
Q 函数 (Q-function) 定义了在状态 采取动作 后,并从那时起遵循策略 所能获得的期望累积奖励。它是评估一个策略优劣的关键指标。
3.1.5. 泛化策略迭代 (Generalized Policy Iteration, GPI)
泛化策略迭代 (Generalized Policy Iteration, GPI) 是一种统一的视角,用于描述许多强化学习算法(包括 PPO)如何工作。它包含两个交替进行的过程:
- 策略评估 (Policy Evaluation): 估计当前策略的好坏,通常通过计算其价值函数或 Q 函数。
- 策略改进 (Policy Improvement): 根据评估结果更新策略,使其倾向于选择更好的动作。 GPI 方法通过不断迭代这两个过程,直到策略收敛到最优策略。
3.1.6. 大语言模型 (Large Language Models, LLMs)
大语言模型 (Large Language Models, LLMs) 是指具有庞大参数量的深度学习模型,通常基于 Transformer 架构,通过在海量文本数据上进行预训练,学习语言的统计规律和知识,从而能够执行文本生成、问答、翻译等多种自然语言处理任务。在推理任务中,LLMs 通常通过自回归生成 (autoregressive generation) 序列,即一次生成一个词元 (token)。
3.1.7. 可验证奖励 (Verifiable Rewards)
可验证奖励 (Verifiable Rewards) 是指在强化学习任务中,奖励信号可以通过一个客观的、外部的验证器来确定。例如,在数学推理任务中,一个答案的正确性可以通过数学验证工具(如 Wolfram Alpha 或一个自动求解器)来检查,从而提供二元(正确/错误)奖励。
3.2. 前人工作
3.2.1. 可验证奖励强化学习 (RL with Verifiable Rewards, RLVR)
RLVR 范式已成为 LLM 后训练以增强推理能力的关键方法。它将 LLM 的文本生成过程建模为一个 MDP,并利用外部验证器提供的奖励信号来指导模型学习。
3.2.2. 近端策略优化 (Proximal Policy Optimization, PPO)
近端策略优化 (Proximal Policy Optimization, PPO) (Schulman et al., 2017) 是一种广泛使用的强化学习算法,属于策略梯度方法,旨在通过小批量更新来稳定训练,避免策略更新过大导致性能崩溃。PPO 通过一个裁剪 (clipping) 机制来限制新策略与旧策略之间的差异,确保训练的稳定性。其目标函数通常包含一个 KL 散度 (KL-divergence) 正则项,用于惩罚策略与参考策略之间过大的偏差。PPO 因其在各种标准深度强化学习基准(如 Atari 游戏、机器人控制)上的成功而闻名。
3.2.3. 群组相对策略优化 (Group-Relative Policy Optimization, GRPO)
群组相对策略优化 (Group-Relative Policy Optimization, GRPO) (Shao et al., 2024) 是 PPO 的一个专门变体,旨在解决 LLM 推理中的奖励稀疏和高方差问题。它通过在每个提示 (prompt) 生成多个响应,并在这些响应组内进行奖励均值化和标准化,来计算优势函数 (advantage function),从而降低方差并提高训练效率。
3.2.4. PPO 的启发式技巧及其问题
为了缓解 PPO 在 LLM 训练中遇到的训练不稳定 (training instability) 和策略熵崩溃 (entropy collapse) 问题(即策略趋向于选择少量动作,失去多样性),研究者们引入了多种启发式技巧:
-
裁剪 (Clipping): 限制重要性采样比 (importance sampling ratio) 的范围,防止策略更新过大。
-
KL 正则化 (KL Regularization): 在损失函数中添加一个 KL 散度惩罚项,鼓励新策略与参考策略保持接近,以防止灾难性遗忘和维持探索。
-
数据选择 (Data Selection): 策略性地选择训练数据,以优化学习过程。
然而,这些技巧增加了实现复杂性,并需要精细、任务特定的调优 (careful, case-specific tuning)。
3.2.5. 均匀策略在 RL 中的地位
在经典的强化学习文献中,均匀随机策略 (uniformly random policy) 通常被认为是不足以进行最优控制 (insufficient for optimal control) 的。它的 Q 函数估值 通过平均所有动作的未来价值来计算,不区分好坏动作,因此被认为无法提供有效的策略指导。尽管近期有一些实证研究 (Laidlaw et al., 2023; He et al., 2025b) 在特定离散环境中观察到均匀策略价值的潜在效用,但缺乏充分的理论解释。
3.3. 技术演进
RL 与 LLM 结合的技术演进大致经历了从通用 RL 算法到更特化、更注重稳定性和效率的阶段。 最初,研究者们尝试将 PPO 等为通用控制设计的算法直接应用于 LLM 的后训练。然而,LLM 的高维离散动作空间、长序列生成特性、稀疏的终端奖励以及其内在的自回归结构,使得这些通用算法在训练稳定性、收敛速度和策略多样性方面遇到了挑战。 为了克服这些挑战,后续研究提出了 PPO 的各种变体,如 GRPO,通过群组采样、奖励标准化等技术来适应 LLM 的特性。同时,也有工作尝试引入各种正则化项(如 KL 散度)、裁剪机制、更精细的优势函数估计、或者数据增强技术,以期在保持性能的同时,缓解训练不稳定和策略熵崩溃。 本文的工作代表了这一技术演进中的一个重要转向:不再是修补通用算法以适应特定任务,而是深入分析任务本身的特殊结构(即 LLM 数学推理中的确定性、树状 MDP),并从第一性原理出发,设计一个更简洁、更匹配任务特性的 RL 算法。这是一种“由简入深再返璞归真”的思路,旨在发现最本质、最有效的解决方案。
3.4. 差异化分析
| 特征 | PPO/GRPO | ROVER (本文方法) |
|---|---|---|
| MDP 结构假设 | 通用 MDP,包括随机动态、循环图状状态空间、连续/离散动作和状态空间 | 特殊化的 MDP:有限时域、确定性状态转移、树状结构状态空间、二元终端奖励 (针对 LLM 数学推理) |
| 核心机制 | 广义策略迭代 (GPI):交替进行策略评估和策略改进,寻求最优策略 | 随机策略估值:评估一个固定的均匀随机策略的 Q 函数,然后基于其 Q 值进行动作选择 |
| 训练稳定性 | 容易出现非平稳目标、训练不稳定、熵崩溃,需要复杂启发式技巧 (裁剪、KL 正则化) 来缓解 | 评估固定策略,无非平稳目标,理论上更稳定;通过相对 Q 函数参数化进一步增强稳定性 |
| 策略多样性 | 倾向于奖励最大化,易导致多样性崩溃 (diversity collapse),策略空间变窄 | 主动维护多样性:通过对均匀策略 Q 值进行 softmax 采样,鼓励探索多个有效推理路径,显著提升多样性 |
| 实现复杂性 | 算法复杂,需要精细调优和多种启发式技巧 | 极简主义 (minimalist):理论基础简单,实现更直接,无需许多复杂技巧 |
| 性能 | 在 LLM 推理中取得成功,但受限于稳定性和多样性问题 | 在数学推理任务中,在质量和多样性方面均超越现有复杂基线,并展现出更好的泛化能力和探索新颖策略的能力 |
| Q 函数作用 | Q 函数用于策略评估,然后通过策略改进步骤(如 PPO 的裁剪目标)来优化策略 | 均匀策略的 Q 函数直接捕捉了成功路径的概率,并直接用于动作选择,无需迭代改进 |
| 价值网络 | 通常需要一个独立的价值网络 (value network) 来估计价值函数或优势函数 | 无需独立的价值网络,Q 函数直接通过 LLM 的参数化(即 )来表示,从而简化了模型架构和训练 |
ROVER 的核心差异在于,它并非试图“修补”通用 RL 算法以适应 LLM 推理,而是从底层任务结构出发,提出了一种截然不同的、更简洁有效的 RL 方法。
4. 方法论
4.1. 方法原理
本文提出的 ROVER 算法的核心原理在于利用 LLM 数学推理任务的特定 MDP 结构来简化强化学习过程。该任务被形式化为一个有限时域 (finite-horizon) 的马尔可夫决策过程 (MDP),具有以下关键特性:
-
确定性状态转移 (Deterministic State Transitions):给定当前状态 和采取的动作 ,下一个状态 是唯一确定的。
-
树状结构状态空间 (Tree-structured State Space):从初始提示 (prompt) 开始,每个动作都会产生一个新的分支,每个部分序列都只有一个父状态,且不会形成循环。
-
二元终端奖励 (Binary Terminal Rewards):只有当生成的推理序列最终导致正确答案时才获得一个正奖励 (例如 1),否则奖励为 0。没有中间奖励。
传统观点认为,在一般的 MDP 中,一个均匀随机策略 (uniformly random policy)(即智能体在任何状态下都以等概率选择所有可用动作)的 Q 函数不足以指导最优控制,因为它会平均所有动作的价值,无法区分最优路径。然而,本文发现,对于上述具有确定性、树状结构和二元终端奖励的特殊 MDP,情况并非如此。
核心洞察是:在这种特殊的树状 MDP 中,如果一个动作的 Q 函数值 大于 0,则意味着从当前状态 采取动作 后,沿着某个路径最终能够达到一个获得正奖励的终端状态。反之,如果 ,则表明从 (s, a) 开始的任何路径都无法导向成功。因此,即使是均匀随机策略的 Q 函数,也能有效地识别出“死胡同”和“有希望的路径”。
基于此,ROVER 提出:
- 最优性 (Optimality):在上述特殊 MDP 中,仅仅通过评估一个固定的均匀随机策略的 Q 函数,然后贪婪地选择具有最高 Q 值的动作,就能找到最优策略。这绕过了传统强化学习中复杂的策略迭代循环。
- 多样性 (Diversity):为了避免贪婪选择导致的模式崩溃 (mode collapse)(即模型只找到一种最优解),ROVER 进一步提出,将均匀策略的 Q 值转换为一个 softmax 分布,并从中采样动作。这样,Q 值较高的动作(即有更高成功概率的路径)被赋予更高的采样概率,同时保留了探索次优但仍然有效或不同路径的可能性,从而平衡了质量和多样性。
4.2. 核心方法详解
4.2.1. 随机策略估值框架
我们从最简单的策略开始,即均匀随机策略 (uniform random policy) ,其中 表示可用动作的集合。对应于 的 Q 值可以通过广义贝尔曼更新 (generalized Bellman update) 进行估计,并使用均值运算符 (mean operator)。由于我们考虑的是确定性转移 (deterministic transitions) 且折扣因子 的情况,贝尔曼更新可以简化为:
其中 r(s,a) 是在状态 采取动作 获得的即时奖励, 是从 (s,a) 转移到的下一个状态。
在传统的强化学习文献中,这种均值运算符被认为不足以用于通用 MDP 的最优控制,因为它平均了所有动作的价值,缺乏对最优动作的偏好,从而提供很少的指导。然而,对于 LLM 数学推理任务所诱导的有限时域 (finite-horizon)、确定性 (deterministic)、树状结构 (tree-structured) MDPs 且具有二元终端奖励 (binary terminal rewards) 的特定上下文,本文证明了即使是这种简单的均匀策略的 Q 函数也具有深刻的意义。
定理 1 考虑一个有限时域的幕式 (episodic) MDP,具有确定性转移、树状状态空间和二元终端奖励 ,其中 ( 表示正确解决方案,0 表示其他)。令 为均匀策略, 为其对应的 Q 函数。定义相对于 的贪婪策略为 ,则 是最优策略。
证明
由于底层图是一个树状结构,从 状态开始,在策略 下会产生一个唯一的链 。根据定义,对于任何状态-动作对 (s, a),如果 (s, a) 下方的子树不包含一个正确的终端状态,则 ;反之,如果其子树包含一个正确的终端状态,则 。因此,在 处我们选择 ,下一个状态 必然位于一条能够到达正确终端状态的路径上。我们持续进行直到 ,并且 也会选择最优动作 (因为 )。
定理 1 揭示了一个令人惊讶的结果:对于 LLM 数学推理的特定 MDP 结构,最优控制问题比之前认识到的要简单得多。这意味着:
-
尽管 LLM 数学推理任务看起来复杂,但其底层决策结构实际上比普遍认为的更易处理。
-
均值运算符虽然通常不足以进行最优控制,但在这种特定上下文中,与贪婪动作选择策略结合时却出人意料地强大。
的直观解释是:它等于在状态 采取动作 后,然后以均匀随机方式行动直到终止,我们获得正确结果的概率。如下图所示 (原文 Figure 4),当 时,表明从
(s,a)无法导向正确解。Q 值越高则表示方向越有希望。
该图像是示意图,展示了有限视界马尔可夫决策过程的树状结构,节点之间通过确定性状态转移连接,不同终端节点标记为正确(绿色)或错误(红色),突出随机策略估值。
图:ROVER(贪婪模式)的直观解释。
教学示例 (A Didactic Example) 为了实证验证从均匀随机策略的 Q 函数导出的贪婪策略的最优性,本文设计了一个表格型环境,如下图 (原文 Figure 5(a)) 所示。该环境是一个确定性、树状结构的 MDP,捕获了 LLM 数学推理任务的基本属性。
该图像是论文中的示意图,展示了(a)一个示例MDP结构,(b)(c)(d)三种方法的Q值热力图,以及(e)捕获模式的覆盖情况,突出ROVER方法保持多样性的优势。
图:(a) 表格型 MDP 的示意图。(b)-(d) 学习到的 Q 值图的比较。根据 Q 值,标准 Q 学习(带 -贪婪探索)收敛到模式 ACD。ROVER(贪婪模式)为最优动作分配最高的 Q 值,但由于其贪婪行为,仍收敛到单一模式 BDC。ROVER 能够为所有最优动作分配同等高的 Q 值。(e) Q 学习和 ROVER(贪婪模式)尽管都是最优的,但都收敛到单一模式,而 ROVER 成功覆盖了所有 4 种最优模式。
从初始空状态开始,策略通过将动作 附加到当前状态序列来执行一个动作。这是一个幕式设置,具有二元终端奖励:4 个特定的终端状态 (ACD, BDC, CAB, DBA) 产生奖励 1,其他为 0。从上图 (原文 Figure 5(c)) 可以看出,通过对随机策略的 Q 函数进行贪婪选择的简单机制也学习生成了具有最高奖励的序列,实现了与 Q 学习(带有 -贪婪探索)相同的最优行为。
4.2.2. 超越贪婪选择:平衡质量与多样性
尽管理论分析表明,在均匀策略的 Q 值上进行贪婪选择足以实现最优性,但这种确定性方法通常会导致模式崩溃 (mode collapse) 并牺牲多样性 (diversity) (如上图 原文 Figure 5(e))。对于 LLM 数学推理任务,一个给定提示可能引出多个可行的、正确的解决方案,因此多样性对于鲁棒的问题解决至关重要,它也能提高 pass@k 性能和对新问题的泛化能力。
本文的分析揭示了一个关键洞察: 刻画了动作 之后成功延续的概率,其中较高的 Q 值表示具有更密集成功路径的动作分支。为了提高策略生成的多样性,本文基于这一洞察,从确定性选择转向随机动作选择,即将 转换为一个软采样器,即: 其中 是一个温度参数 (temperature parameter)。这种策略选择与估计成功概率成比例的动作,能够探索多个推理路径以提高多样性,而不是只承诺于单一路径。此外,它与现代 LLM 解码策略 (LLM decoding strategies) 一致,易于集成到现有训练框架中。
定理 2
考虑相同的 MDP 。令 表示在均匀随机策略 下从状态-动作对 (s, a) 的 Q 函数。令 为状态 处 Q 值为零的动作数量,A(s) 为状态 处可用动作的数量。令 表示存在最优和次优动作的关键状态集合,即 。给定温度 的 softmax 策略 ,且 是从 通过策略 到达 的概率,则诱导策略 的价值函数满足以下下界:
证明 我们从初始状态 使用策略 采样轨迹 (trajectories)。对于任何导致奖励为 0 的不正确轨迹 (即未能达到具有正奖励 的正确终端状态),沿着 必然存在至少一个关键状态。对于每个 ,令 表示 上的最后一个关键状态。 轨迹 的概率可以分解为: 其中 表示轨迹序列中状态 的索引。 令 表示所有不正确轨迹的集合,则有: 对于任何关键状态 ,令 表示以 为最后一个关键状态的不正确轨迹集合。由于底层 MDP 具有树状结构,集合 构成了 的一个划分。因此,有: 由于状态 是 中任何轨迹上的最后一个关键状态,因此有: 其中 是策略 在状态 选择 Q 值为零的动作的概率。
根据 softmax 策略的定义,我们有: 结合上述公式,我们得到: 根据定义, 的价值函数与正确轨迹的概率相关: 代入 的上界,我们得到: 对于任何关键状态 ,根据定义,。当 时,公式右侧收敛到 ,即最优值。
定理 2 表明温度参数 在多样性和质量之间进行权衡。随着 增加,策略采样更多样化的动作,同时仍然偏爱高价值路径。当 趋近于零时,softmax 策略与最优策略之间的性能差距消失,这表明本文促进多样性的方法仍能保持性能保证。
佐证 (Justification) 在教学示例中 (上图 原文 Figure 5(d) 和 5(e)),实证结果表明,它实现了有效的权衡。虽然贪婪方法(Q 学习和 ROVER (贪婪模式))都实现了最优奖励但崩溃到单一解决方案模式,但 ROVER (设置 ) 成功识别了所有四种最优模式,同时保持 100% 的成功率。
4.2.3. 实用实现
为了将理论洞察转化为 LLM 推理的实用且可扩展算法,ROVER 引入了以下技术来近似、稳定训练过程并提高样本效率:
算法 1:用于多样化推理的随机策略估值 (ROVER)
Algorithm 1: Random Policy Valuation for Diverse Reasoning (ROVER)
Input: pre-trained LLM , epochs M, prompt dataset , group size , lr , temperature
for epoch do
Set ; Sample a batch of prompts via
for each prompt do
Rollout responses and compute rewards:
for each prompt-response pair in batch do
for each state do
Compute Q-value
Obtain the vocabulary set.
sg: stop gradient.
by an AdamW optimizer
Q 值参数化 (Q Parameterization) ROVER 不引入独立的价值网络来估计 Q 函数,而是直接通过 LLM 的内在参数 来表示 Q 函数。根据定理 2,策略 和 Q 值本质上是关联的,即 。然而,这种直接公式在实践中不稳定,因为学习目标会随着策略变化而漂移,Q 值更新容易发散。 为缓解这种不稳定性,ROVER 引入了一个相对 Q 函数 (relative Q-function),它衡量相对于固定基线(即用于采样数据的行为策略 )的改进: 其中 是每个 epoch 用于采样数据的行为策略,它作为一个稳定的锚点,减少了波动。这种参数化将初始 Q 值集中在零附近,并确保模型学习的是相对于先前策略的变化,而不是绝对值。
低方差奖励 (Low-Variance Reward) 为了为学习均匀策略 Q 值创建稳定且密集的奖励信号,ROVER 为每个提示采样 个响应,以减少估计方差并丰富对价值景观的近似。受 Naik et al. (2024) 的启发,ROVER 从原始奖励中减去 个响应的经验平均奖励,以获得均值中心化奖励 (mean-centered rewards): 其中 反映了给定提示 的响应 的正确性。这与 GRPO 估计优势函数的方式有关,但没有标准差归一化项。此外,为了确保高效的信用分配,特别是对于长推理链,ROVER 将这个均值中心化奖励 广播 (broadcast) 到生成中的每个词元。
梯度分析 (Gradient Analysis) ROVER 的损失函数旨在最小化预测 Q 值与目标 Q 值之间的差异,其中目标 Q 值由均值中心化奖励和后继状态的 Q 值的期望组成。 命题 1 假设只有 具有参数(即 LLM 策略 依赖于 )。定义重要性采样比 ,其中 是行为策略。记 为我们的均值中心化奖励。则 ROVER 目标的梯度具有以下形式,类似于策略梯度: 证明 ROVER 的损失函数为: 令 则梯度为: 鉴于 的梯度被停止(见算法 1),并且 不涉及梯度反向传播,结合上述公式,我们得到: 这表明 ROVER 的梯度与典型的策略优化方法(如 GRPO)的梯度都包含 项,并且在重要性采样比 时(即策略更新较小时),ROVER 的梯度项 与 GRPO 的优势函数 有近似关系。
Q' 项的消融研究 (Ablation on the term )
贝尔曼更新中用于 Q 值更新的目标由两部分组成:中心化奖励 ,以及在均匀策略下后继状态的期望 Q 值 。论文对后继 Q 值项的贡献进行了消融研究,通过改变其系数 。结果显示,该项至关重要:如果移除它 (),会导致熵和响应长度的崩溃(下图 原文 Figure 13(c) 和 13(d)),进而导致 pass@k 性能急剧下降。反之,如果 Q 项过于主导 (),会削弱奖励信号的作用,同样降低性能。然而,在广泛的范围 ( 从 0.2 到 1.0) 内,ROVER 对该项的精确缩放不敏感,性能保持稳定。默认设置为 。
该图像是图表,展示了不同系数β下ROVER算法在数学推理任务中模型性能的变化。(a)(b)中分别绘制了Pass@1和Pass@64的准确率,表现出β=1时效果最好;(c)(d)中显示不同β值对应的熵变化和响应长度。
图:(a) 和 (b):ROVER 中系数 对 pass@1 和 pass@64 的影响,报告了 AIME24、AIME25 和 HMMT25 的平均性能。X 轴为对数刻度。(c) 和 (d):训练过程中熵和响应长度曲线。所有实验均在 Qwen3-4B-Base 上进行,LLM 解码温度为 1.0,并训练 300 步。
该图像是三张曲线图,展示了ROVER算法在不同β值及Qwen3-4B-Base基线在AIME 2024、AIME 2025和HMMT 2025数学推理基准上的pass@k性能表现,横轴为k,纵轴为pass@k值。
图:ROVER 中不同系数 值下的 pass@k 性能。所有实验均在 Qwen3-4B-Base 上进行,并训练 300 步。
5. 实验设置
5.1. 数据集
本文在两种可验证任务上评估了 ROVER 方法:倒计时任务 (Countdown tasks) 和数学竞赛任务 (Math competitions)。
5.1.1. 倒计时任务 (Countdown Tasks)
- 数据集: TinyZero (Pan et al., 2025) 数据集,包含 1,024 个测试问题。
- 特点: 给定一组数字和一个目标值,LLM 必须使用四种基本算术运算 找到正确的数字序列以达到目标。该任务具有多个有效答案,因此非常适合分析推理行为和多样性。由于搜索空间相对受限,对小规模 LLM 而言是有效的测试平台。
- 样本示例:
一个 LLM 需要找到给定数字和基本算术运算的正确组合以达到目标数字。nums: [19, 36, 55, 7] target: 65 answer: 55 + 36 - 7 - 19
5.1.2. 数学竞赛任务 (Math Tasks)
- 数据集: 开源 DeepScaler (Luo et al., 2025) 数据集,包含 40k 个可验证的数学问题。
- 特点: 这些任务通常具有单一、明确的答案,且需要复杂的推理能力。
- 基准测试集:
- AIME24 (MAA, 2024), AIME25 (MAA, 2025): 美国邀请数学考试,竞争级别的数学问题。
- HMMT25 (Balunović et al., 2025): 哈佛-麻省理工数学竞赛,通常难度更高。
- OlympiadBench (He et al., 2024): 包含奥林匹克级别的多语言多模态科学问题。
- AMC23 (AI-MO, 2024): 美国数学竞赛,另一系列竞争性数学问题。
- MATH500 (Hendrycks et al., 2021): 一个大型数学问题数据集,涵盖不同难度和领域。
- GPQA-diamond (Rein et al., 2024): 一个具有挑战性的领域外 (Out-of-Distribution, O.O.D) 基准,包含 198 个研究生级别的生物学、物理学和化学问题,与数学任务不直接相关,用于评估模型的泛化能力。
5.1.3. 数据集选择理由
选择这些数据集是为了全面评估 ROVER 在不同推理难度、答案类型(多解 vs. 单解)以及泛化能力方面的表现。倒计时任务提供了一个受限的、多解的沙盒环境来深入分析多样性;数学竞赛任务代表了 LLM 推理的复杂前沿,具有高难度和明确的正确性标准;GPQA-diamond 则用于测试模型在训练数据分布之外的泛化能力。
5.2. 评估指标
对论文中出现的每一个评估指标,我们都将提供其概念定义、数学公式和符号解释。
5.2.1. Pass@1
- 概念定义 (Conceptual Definition):
Pass@1衡量模型在第一次尝试中解决问题的准确性。它直接反映了模型生成正确解决方案的效率和质量。 - 数学公式 (Mathematical Formula):
- 符号解释 (Symbol Explanation):
- : 在第一次尝试中解决问题的比率。
- : 模型在仅生成一个答案时,能够给出正确答案的问题总数。
- : 评估集中所有问题的总数。
5.2.2. Pass@k
- 概念定义 (Conceptual Definition):
Pass@k衡量模型在** 次尝试中至少找到一个正确答案的概率**。它反映了模型生成正确推理路径的广度和多样性,即如果模型能生成多样化的解决方案,那么在多次尝试中找到正确解的概率就更高。 - 数学公式 (Mathematical Formula): 论文引用了 Chen et al., 2021 的无偏估计器。给定一个问题,模型生成 个独立的样本(例如,通过不同的随机种子或采样温度)。如果其中有 个样本是正确的,那么从这 个样本中随机选择 个样本,其中至少有一个正确的概率为:
- 符号解释 (Symbol Explanation):
- : 在 次尝试中至少找到一个正确答案的概率。
- : 为每个问题生成的独立样本总数。
- : 在 个样本中,正确解决方案的数量。
- : 尝试的次数。
- : 组合数,表示从 个项目中选择 个的不同方式的数量,计算公式为 。
5.2.3. Maj@k
- 概念定义 (Conceptual Definition):
Maj@k(Majority@k) 衡量的是在生成 个响应后,如果多数响应一致且正确,则认为该问题被解决。它常用于评估 LLM 在测试时扩展性 (test-time scalability) 和鲁棒性。 - 数学公式 (Mathematical Formula): 论文中未直接给出
Maj@k的数学公式,但其概念定义暗示了以下计算方式: 对于每个问题,生成 个响应。统计这 个响应中,某个特定(且正确)的答案出现的次数。如果某个正确答案出现的次数超过 (即多数),则认为该问题通过Maj@k。 - 符号解释 (Symbol Explanation):
- : 在 次尝试中,通过多数投票机制解决问题的比率。
- : 尝试的次数。
- : 在生成 个响应后,如果其中至少有 个响应给出的是同一个正确答案,则计为一个解决的问题。
5.2.4. 策略数量 (Number of Distinct Strategies)
- 概念定义 (Conceptual Definition):
策略数量衡量模型在解决问题时所使用的不同推理方法的数量。它通过将模型生成的解决方案按照其内在的解题策略进行分类来量化多样性。该指标由 NoveltyBench (Zhang et al., 2025c) 提出,并使用 LLM 判别器 (LLM judger) 进行策略等价性判断。 - 数学公式 (Mathematical Formula): 该指标没有单一的封闭数学公式,而是通过以下步骤计算:
- 为每个问题生成多条(例如 32 条)正确响应。
- 使用一个强大的 LLM 判别器(如 Claude-3.5-Sonnet)来判断任意两条响应是否使用了不同的策略。
- 根据判别结果,将所有响应聚类成不同的策略类别。
策略数量即为最终聚类得到的策略类别总数。
- 符号解释 (Symbol Explanation):
- : 对于一个问题,模型能够产生的本质上不同的解题思路或方法的总数。
5.2.5. 效用 (Utility)
- 概念定义 (Conceptual Definition):
效用结合了多样性和质量,用于评估模型。它引入了一个用户耐心模型,假设用户有概率 会请求额外的生成。该指标奖励新颖的正确响应,同时应用几何衰减来解释用户对多代生成的注意力递减。能够生成多种具有不同策略的正确响应的模型将获得更高的效用分数。同样由 NoveltyBench (Zhang et al., 2025c) 提出。 - 数学公式 (Mathematical Formula): 论文中未直接给出
Utility的数学公式,但其概念定义描述了其计算逻辑。一般来说,它可能涉及以下元素: 这只是一个示例性的公式,实际计算可能更复杂,涉及对不同策略的正确解的排序和权重。 - 符号解释 (Symbol Explanation):
- : 衡量结合了质量和多样性的综合得分。
- : 生成的正确解决方案的数量。
- : 用户请求额外生成的概率。
- : 指示函数,如果条件为真则为 1,否则为 0。
- : 第 个解决方案是否使用了之前未见的新策略。
- : 第 个解决方案是否正确。
5.2.6. 余弦距离 (Cosine Distance)
- 概念定义 (Conceptual Definition):
余弦距离衡量生成响应的嵌入向量之间的语义多样性。较高的距离表示生成响应之间具有更大的语义差异,即它们在语义上更不相似。 - 数学公式 (Mathematical Formula): 给定一组生成的响应 ,令 表示从 Qwen3-8B-Embedding (Zhang et al., 2025b) 获得的响应 的 L2 归一化嵌入向量。响应 和 之间的成对余弦相似度为: 平均成对余弦相似度为: 最终,余弦距离定义为:
- 符号解释 (Symbol Explanation):
- : 衡量生成响应之间语义差异的指标。
- : 生成的响应总数。
- : 响应 的 L2 归一化嵌入向量。
- : 响应 和 之间的余弦相似度。
- : 平均成对余弦相似度。
5.3. 对比基线
本文将 ROVER 与以下基线模型进行了比较:
-
基础模型 (Base Model): 未经 RL 训练的原始预训练 LLM,如 Qwen3-8B-Base 和 Qwen3-4B-Base。这用于建立未经任何 RL 优化的基线性能。
-
GRPO (Group-Relative Policy Optimization) (Shao et al., 2024): 一种标准的 RLVR 算法,采用词元级别 (token-level) 的均值聚合损失,是 LLM 强化学习中的一个基础基线。
-
DAPO (Diversity-Aware Policy Optimization) (Yu et al., 2025): 扩展了 GRPO,引入了多种技术来增强 LLM 训练效率,包括
clip-higher(一种裁剪策略)、动态采样和过长奖励整形 (overlong reward shaping)。 -
REINFORCE++ (Hu et al., 2025a): 不同于 GRPO,它通过全局优势归一化 (global advantage normalization)(跨批次内不同提示的响应),实现了一种无偏的方法,显著提高了训练稳定性。本文实现了 REINFORCE++ 的基线版本。
-
DeepScaler-1.5B (Luo et al., 2025): 一个在相同数据集上训练的现有最先进模型,用于与 DeepSeek-R1-Distill-Qwen-1.5B 上的 ROVER 进行比较。
-
ProRLv2-Qwen-1.5B (Liu et al., 2025a): 另一个在 LLM 推理中性能卓越的现有模型,用于与 DeepSeek-R1-Distill-Qwen-1.5B 上的 ROVER 进行比较。
这些基线具有代表性,因为它们涵盖了当前 LLM RLVR 领域中主流的策略优化算法及其先进变体,能够全面评估 ROVER 的性能提升和设计优势。
5.4. 训练与评估细节
5.4.1. 训练设置
-
基础模型: Qwen3-8B-Base、Qwen3-4B-Base 和 DeepSeek-R1-Distill-Qwen-1.5B。
-
统一设置: 为了公平比较,ROVER 和所有基线均使用相同的学习率、批大小和训练步数。
-
训练步数: ROVER 和基线均固定训练 600 步。
-
采样规模: 每个训练步涉及 个样本来计算梯度。
-
计算资源:
- Qwen3-8B-Base 实验约需要 1,280 GPU 小时。
- Qwen3-4B-Base 实验约需要 832 GPU 小时。
- DeepSeek-R1-Distill-Qwen-1.5B 实验:训练 1k 步,响应长度 8k;再将响应长度扩展到 16k 额外训练 1k 步。约在 8 个 H200 GPU 上进行 5 天。
-
奖励验证: 奖励通过开源验证工具
math_verify(Kydliček & Face, 2025) 进行二元(正确/错误)分配。 -
基线实现: 所有基线均严格遵循官方
veRL框架 (Sheng et al., 2024) 的实现规范。以下是默认的 RL 训练超参数 (原文 Table 4):
超参数 (Hyper-parameter) 值 (Value) 温度 (Temperature) 0.6 响应长度 (Response length) 每个提示的响应数 (Responses per prompt) 8 训练批大小 (Train batch size) 128 小批次大小 (Mini batch size) 32 PPO_epoch 1 学习率 (Learning rate)
5.4.2. 评估设置
-
平均 Pass@1 计算:
- 对于 AIME24, AIME25, HMMT25 和 AMC23,为每个问题采样 256 次独立运行,以减少小规模基准带来的方差。
- 对于较大的 OlympiadBench, MATH500 和 GPQA-diamond,采样 10 次独立运行。
-
评估超参数:
以下是默认的评估超参数 (原文 Table 5):
超参数 (Hyper-parameter) 值 (Value) 温度 (Temperature) 0.6 响应长度 (Response length) top_p 0.95 -
多样性评估:
- 使用
Claude-3.5-Sonnet作为 LLM 判别器来判断生成响应之间的策略等价性,从而量化策略数量和效用。判别器提示模板见原文 Figure 25。 - 使用 Qwen3-8B-Embedding (Zhang et al., 2025b) 计算响应嵌入并评估余弦距离。
- 使用
6. 实验结果与分析
6.1. 核心结果分析
6.1.1. 倒计时任务上的表现
该图像是图表,展示了ROVER算法与多种GRPO变体在MATH Q64测试集上的平均测试得分随训练步数变化的对比曲线,显示ROVER在性能上明显优于其他方法。
图:(a) Qwen2.5-3B 在 TinyZero 数据集上不同方法的测试得分。(b) 训练过程中不同方法的策略熵。(c) 不同方法在质量与多样性上的权衡。
-
测试得分 (Test Score) (原文 Figure 6(a)): ROVER 在 400 训练步后超越所有基线,并最终达到最高的性能上限。相比之下,KL 系数为 0.01 的 GRPO 表现明显更差,表明过度正则化会损害性能。
-
策略熵 (Entropy) (原文 Figure 6(b)): ROVER 的策略熵在训练过程中平稳下降,但显著高于基线方法。这表明 ROVER 保持了持续的探索能力,是其高性能的主要驱动因素。GRPO(无 KL)出现崩溃,而 GRPO(带 Clip_higher)则波动剧烈。
-
多样性与质量 (Diversity & Quality) (原文 Figure 6(c)): ROVER 在质量和多样性指标上均实现最佳表现,能够找到更多样化的解决方案。
该图像是论文中关于不同算法在训练过程中熵值变化的折线图,展示了ROVER方法在保持较低熵值和训练稳定性上的优势,对比了多种基线方法的表现。
图:ROVER 成功找到 17 个多样化的解决方案方程,而平均每 1024 个问题中只有 3 个不同的独特正确解决方案方程。此图展示了 ROVER 在 TinyZero 数据集上,针对一个具体问题,能够发现并生成多达 17 种不同(正确)的解法。
上图 (原文 Figure 7) 进一步可视化了 ROVER 在倒计时任务中的解决方案多样性,表明它能发现显著更多的正确且独特的解决方案。
温度参数 的消融研究 (Ablation on temperature )
该图像是图表,展示了ROVER算法在不同温度参数t下的训练熵和Avg@64测试分数随训练步骤变化的趋势。左图显示熵随着训练步数下降,右图显示测试分数提高,曲线对应不同t值,体现温度对性能和多样性的影响。
图:不同 值下的性能。(a) 熵。(b) 测试得分。
与 LLM 采样实践一致,ROVER 在所有实验中将 softmax 采样的温度 设为 1,且未进行任务特定调优。
- 的作用: 平衡了探索-利用的权衡。 鼓励贪婪、确定性行为,而较高的值促进多样化采样。
- 实验结果 (原文 Figure 8):
- 实现了稳健且理想的性能。
- 较高的温度 () 导致探索不足和收敛较慢。
- 较低的温度 () 触发过早利用,导致策略熵加速崩溃和探索空间受限,甚至导致训练不稳定(测试得分波动剧烈)。 这强调了平衡温度对于有效探索的重要性。
6.1.2. 数学任务上的表现
Pass@1 结果
以下是原文 Table 1 的结果:
| Pass@1 | Mathematical | O.O.D | Avg. | |||||
|---|---|---|---|---|---|---|---|---|
| AIME 2024 |
AIME 2025 |
HMMT 2025 |
Olympiad Bench |
AMC 2023 |
MATH 500 |
GPQA diamond |
||
| Qwen3-4B-Base | ||||||||
| Base Model | 8.8 | 4.9 | 0.8 | 27.3 | 35.2 | 55.6 | 9.7 | 20.3 |
| GRPO | 16.4 | 9.4 | 2.4 | 43.6 | 57.0 | 79.9 | 38.7 | 35.3 |
| DAPO | 17.1 | 10.9 | 0.7 | 41.7 | 56.6 | 78.4 | 38.5 | 34.8 |
| REINFORCE++ | 14.8 | 7.8 | 2.8 | 42.3 | 57.9 | 76.8 | 31.8 | 33.5 |
| ROVER (Ours) | 17.6 +8.8 | 12.6 +7.7 | 3.1 +2.3 | 45.4 +18.1 | 57.1 +21.9 | 80.5 +24.9 | 39.5 +29.8 | 36.5 +16.2 |
| Qwen3-8B-Base | ||||||||
| Base Model | 11.5 | 8.8 | 0.8 | 34.7 | 48.1 | 68.8 | 29.1 | 28.8 |
| GRPO | 16.8 | 15.1 | 4.8 | 48.6 | 66.9 | 81.9 | 43.8 | 39.7 |
| DAPO | 20.8 | 15.2 | 3.6 | 49.0 | 67.9 | 84.3 | 46.6 | 41.1 |
| REINFORCE++ | 19.4 | 16.7 | 7.1 | 47.6 | 63.5 | 83.6 | 46.3 | 40.6 |
| ROVER (Ours) | 30.6 +19.1 | 22.7 +13.9 | 14.6 +13.8 | 56.4 +21.7 | 74.8 +26.7 | 89.6 +20.8 | 50.2 +21.1 | 48.4 +19.6 |
ROVER 在所有模型规模上,平均 pass@1 均持续优于所有 RL 基线。
- 对于 Qwen3-8B-Base 模型,ROVER 在所有基准上的平均
pass@1较最强基线提升 +7.3。 - 在 AIME24、AIME25 和 HMMT25 子集上的平均
pass@1提升 +8.2。 - 在挑战性更高的任务上,ROVER 的优势更为显著:在 AIME24 上相对提升 +47.1%,AIME25 上相对提升 +35.9%。
- 在 HMMT25 上,ROVER 的性能几乎是 REINFORCE++(最强基线)的两倍。
Pass@k 结果
该图像是一张折线图,展示了不同方法在math reasoning任务中,随着采样数量k变化时的pass@k性能对比。ROVER方法表现最佳,pass@k值显著高于其他方法。图中k在横轴,pass@k在纵轴。
图:Qwen3-8B-Base 上 ROVER 和基线的 pass@k 结果。
该图像是一个折线图,展示了不同算法在数学推理任务中随k值变化的pass@k性能表现,ROVER明显优于其他方法,曲线明显更高。
图:Qwen3-8B-Base 上 ROVER 和基线的 pass@k 结果。
该图像是论文中关于ROVER与其他方法在多样性指标上表现的折线图。图中横轴为k,纵轴为多样性(不同策略数量),显示ROVER在所有k值下均显著优于DAPO、REINFORCE++、GRPO和Qwen3-8B-Base。
图:Qwen3-8B-Base 上 ROVER 和基线的 pass@k 结果。
- 持续且显著的性能提升: 与基线模型在
pass@k性能上很快饱和甚至下降不同 (如 DAPO 在 AIME25 上 后表现更差),ROVER 展现出持续且显著的性能增益,并始终超越所有基线和基础模型。 - 多样性驱动: ROVER 在 AIME24、AIME25 和 HMMT25 上平均
pass@256比最佳基线高 +16.8。 - 挑战性任务表现: 在最具挑战性的 HMMT25 任务上,ROVER 的
pass@k分数持续加速,而所有基线均已饱和。这归因于 ROVER 在训练过程中保持了相对更高的策略熵(见原文 Figure 20),从而促进了不同的推理策略探索和多样性。
O.O.D 任务上的泛化能力 原文 Table 1 的结果显示,ROVER 在 GPQA-diamond(一个与数学无关的挑战性 O.O.D 任务)上取得了最佳性能,证明了其在训练分布之外更强的泛化能力。
DeepSeek-R1-Distill-Qwen-1.5B 上的结果
以下是原文 Table 3 的结果:
| Models | Pass@1 | Pass@64 | ||||||
|---|---|---|---|---|---|---|---|---|
| AIME24 | AIME25 | AMC23 | MATH | AIME24 | AIME25 | AMC23 | MATH | |
| DeepSeek-R1-Distill-Qwen-1.5B (Guo et al., 2025) | 29.3 | 24.3 | 62.5 | 82.9 | 79.8 | 58.3 | 92.9 | 97.3 |
| DeepScaleR-1.5B (Luo et al., 2025) | 41.6 | 30.8 | 73.4 | 87.7 | 78.5 | 62.9 | 95.0 | 96.8 |
| ProRLv2-Qwen-1.5B (Liu et al., 2025a) | 52.6 | 35.2 | 81.5 | 90.6 | 79.2 | 59.7 | 94.3 | 96.1 |
| ROVER (Ours) | 42.2 | 31.2 | 74.3 | 88.3 | 80.6 | 64.4 | 95.2 | 97.1 |
在 DeepSeek-R1-Distill-Qwen-1.5B 模型上,ROVER 也在 pass@1 和 pass@64 方面取得了最佳性能,相比于在相同数据集上训练的 DeepScaler。值得注意的是,尽管 ROVER 使用的数据集比 ProRLv2 小 3 倍以上(40k vs. 136k)且训练时间更短(960 GPU 小时 vs. 16k GPU 小时),但 ROVER 在 pass@64 上仍能超越 ProRLv2,这归因于其更好的推理多样性。
6.2. 数据呈现
6.2.1. Pass@1 结果 (原文 Table 1)
请参阅上文 "6.1.2. 数学任务上的表现" 中的表格。
6.2.2. DeepSeek-R1-Distill-Qwen-1.5B 结果 (原文 Table 3)
请参阅上文 "6.1.2. 数学任务上的表现" 中的表格。
6.2.3. RL 训练默认超参数 (原文 Table 4)
请参阅上文 "5.4.1. 训练设置" 中的表格。
6.2.4. 评估默认超参数 (原文 Table 5)
请参阅上文 "5.4.2. 评估设置" 中的表格。
6.2.5. Forking Token 类别 (原文 Table 6)
以下是原文 Table 6 的结果:
| 类别 (Category) | 词元 (Tokens) |
|---|---|
| mathematical_setup | suppose, assume, given, define |
| contrasts_shifts | wait, however, unless |
| progression_addition | thus, also |
6.3. 消融实验/参数分析
6.3.1. Q' 项系数 的影响
请参阅上文 "4.2.3. 实用实现" 中 "Q' 项的消融研究" 部分的分析和图表。
该消融实验表明,贝尔曼目标中的 Q' 项(即后继状态的期望 Q 值)对于 ROVER 的性能至关重要。移除该项 () 会导致策略熵和响应长度崩溃,严重损害 pass@k 性能。而过大的 值(如 )也会因削弱奖励信号而降低性能。ROVER 对 值在 0.2 到 1.0 之间不敏感,显示了其在该参数范围内的鲁棒性,默认设置为 。
6.3.2. 温度参数 的影响
该图像是论文中的图表,展示了ROVER算法在不同参数ρ值下的数学推理性能和熵值变化。左图(a)显示不同k值对应的pass@k,其中ROVER(ρ=1.0)表现最佳;右图(b)显示训练过程中熵随步数的变化,参数ρ越大,熵值越高。
图:温度 的影响。所有实验均在 Qwen3-4B-Base 上进行,并训练 300 步。(a):pass@k 结果(报告 AIME24、AIME25、HMMT25 的平均性能)。(b):训练过程中熵曲线。
与倒计时任务的发现一致,训练温度 作为探索-利用的权衡参数。
- 大 (): 导致更随机的行为和训练过程中恒定的熵,影响性能(原文 Figure 19)。模型探索过度,未能有效利用已发现的知识。
- 小 (): 导致贪婪和确定性策略,这会损害多样性(例如,降低
pass@k)以换取更高的pass@1性能。过早利用导致策略熵加速崩溃,探索空间受限。 - 最佳 (): 实现了平衡的探索和利用,带来了稳健的性能。
6.4. 多样性分析
6.4.1. ROVER 具有最高的多样性
该图像是论文中关于不同方法在数学推理任务中质量(Pass@1)表现的散点图,展示ROVER方法在质量和多样性指标上的优越性,横轴为质量(Pass@1),图中无公式。
图:质量-多样性权衡。
上图 (原文 Figure 10) 展示了在解码温度 0.6 下的质量-多样性权衡。
- ROVER 相较于 GRPO,在多样性方面有 +6.8% 的相对提升。
- 相较于所有三个基线的平均值,多样性有 +20.5% 的相对提升。
- 传统 RL 方法难以仅仅通过增加推理时的采样温度来提高多样性,而 ROVER 则持续改善质量和多样性的帕累托前沿。
6.4.2. 质量-多样性权衡随解码温度变化
该图像是3个散点图组成的图表,展示了不同方法在多个阈值t=0.3、0.9、1.2下的质量(Pass@1)与多样性(不同策略数量)对比,ROVER在所有条件下均表现出最高的质量和多样性。
图:不同解码温度下的质量-多样性权衡 (AIME24)。
上图 (原文 Figure 22) 补充展示了在不同解码温度 下的质量-多样性权衡,ROVER 持续在所有解码温度下表现出更高的质量和多样性。
6.4.3. 多样性指标的全面比较
该图像是包含三个雷达图的图表,展示了不同方法(ROVER、DAPO、REINFORCE++、GRPO)在三个不同参数 (0.3、0.9、1.2)下的策略多样性、效用和余弦距离表现。
图:不同解码温度下多个多样性指标的比较 (AIME24)。
上图 (原文 Figure 23) 展示了在不同解码温度下,ROVER 在 策略数量 (Number of Distinct Strategies)、效用 (Utility) 和 余弦距离 (Cosine Distance) 这三个多样性指标上的表现。ROVER 在所有解码温度下始终表现出更高的多样性,进一步证实了其在维持和促进生成多样性方面的卓越能力。
6.5. 行为分析
6.5.1. ROVER 在测试时具有最佳的可扩展性
该图像是两个折线图,比较了ROVER与DAPO、REINFORCE++、GRPO和Qwen3-8B-Base在不同k值下的表现,左图展示质量指标,右图展示多样性指标。ROVER在所有k值下均领先,显著优于其他方法。
图:Qwen3-8B-Base 上 ROVER 和基线的 Maj@k 性能。
上图 (原文 Figure 11) 展示了 Maj@k 性能,其中 Maj@k 通过对 个响应进行多数投票来评估。
- ROVER 的
Maj@k性能稳健地扩展,始终优于基础模型,甚至在最具挑战性的 HMMT25 任务上也是如此。 - 这种优越的可扩展性源于 ROVER 能够保持对有效推理路径的多样化分布。
- 基线方法则受到模式崩溃 (mode collapse) 的影响,导致它们自信地收敛到相似的错误解决方案,从而无法从额外的样本中获得性能提升。
6.5.2. 增强的反射行为
该图像是一个示意图,展示了Alice和Bob对令牌堆游戏的推理过程。右上角用颜色条表示ROVER与GRPO在token概率预测上的差异,颜色由红到蓝分别代表ROVER概率更高和GRPO概率更高。
图:ROVER 和 GRPO 之间的词元概率差异(用热力图可视化)。ROVER 对与推理对比或转换相关的词元(例如 'wait' 和 'however')表现出显著更高的概率。
上图 (原文 Figure 16) 可视化了 ROVER 和 GRPO 之间词元概率的差异。ROVER 训练的模型生成的分叉词元 (forking tokens)(如 'wait', 'however', 'unless', 'suppose', 'assume', 'thus', 'also',见原文 Table 6)比例显著更高,特别是那些与重新思考 (rethinking) 和自我修正 (self-correction) 相关的词元。这表明 ROVER 鼓励模型主动反思、验证并在不同的推理策略之间切换,而不是固守单一路径。
6.5.3. 发现新颖的推理策略
该图像是论文中关于ROVER与Qwen3-8B-Base与GRPO数学推理策略对比的示意图,展示了解题步骤和基于“stars and bars”组合数学公式的解法。
图:Qwen3-8B-Base、GRPO 和 ROVER 发现策略的示意图。共享相同颜色的响应代表策略相同的方法。Qwen3-8B-Base 和 GRPO 发现了两种不同的策略 1 和 2,而 ROVER 不仅发现了相同的两种策略,还发现了两种额外的策略 3 和 4。例如,除了发现“星与棒定理”(策略 1),ROVER 还发现了一个基于容斥原理(策略 3)的解决方案,这展示了 ROVER 推动推理边界的能力。
上图 (原文 Figure 15) 展示了一个 AIME24 问题案例,ROVER 在其中发现了两种基线模型(基础模型和 GRPO 训练的模型)未发现的新颖策略。这进一步证明了 ROVER 扩展推理边界的潜力。
6.6. 训练动态
6.6.1. 熵曲线
该图像是论文中比较ROVER与其他方法(DAPO、REINFORCE++、GRPO)在不同训练步骤下策略熵的变化趋势的图表,图(a)(b)显示ROVER保持较高的策略熵,体现其多样性优势。
图:ROVER 和基线的熵训练曲线。(a) 和 (b) 分别是 Qwen3-8B-Base 和 Qwen3-4B-Base 的结果。ROVER 的熵保持在相对较高的水平,甚至在训练后期也能稳定增加,表明探索空间扩大。相比之下,基线的熵不可避免地下降到较低水平。
上图 (原文 Figure 20) 显示,ROVER 在训练过程中能够维持相对较高的策略熵,甚至在后期训练阶段还能稳定增加。这与基线模型(其熵不可避免地下降到较低水平)形成鲜明对比,表明 ROVER 有效地扩大并维持了探索空间,从而促进了多样性。
6.6.2. 和 的绝对尺度
该图像是包含六个子图的图表,展示了训练过程中不同指标随步骤(Step)变化的曲线及其置信区间。上排分别为 的批次最小值、均值和最大值变化趋势,下排则为 的批次最小值、均值和最大值变化趋势,反映了算法训练中奖励和Q值的分布动态特征。
图:ROVER 训练过程中 和 的绝对尺度(在 Qwen-8B-Base 上训练)。
上图 (原文 Figure 21) 展示了训练批次内均值中心化奖励 和后继 Q 值项 的最小值、均值和最大值。这提供了 ROVER 训练过程中奖励和 Q 值分布动态的洞察。
7. 总结与思考
7.1. 结论总结
本文提出了 ROVER (Random Policy Valuation for Diverse Reasoning) 算法,这是一种用于可验证奖励强化学习 (RLVR) 的极简主义方法,旨在提升大型语言模型 (LLMs) 的推理能力。ROVER 的核心创新在于,它充分利用了 LLM 数学推理任务的特定马尔可夫决策过程 (MDP) 结构——即有限时域、确定性转移、树状结构和二元终端奖励。通过理论证明,ROVER 发现,对于这类特殊的 MDP,一个固定的均匀随机策略的 Q 函数足以恢复最优动作,从而彻底绕过了传统广义策略迭代 (GPI) 循环的复杂性和其带来的训练不稳定、多样性崩溃等问题。
ROVER 将均匀策略的 Q 值转换为 softmax 分布进行动作采样,巧妙地平衡了推理质量和策略多样性。实验结果表明,尽管 ROVER 在算法上进行了激进的简化,但它在多个基础模型和标准数学推理基准上均表现出卓越的性能,在 pass@1 和 pass@256 等质量指标上取得了显著提升,并在多样性指标上远超现有复杂方法。此外,ROVER 还展示了强大的泛化能力,能够发现基线模型无法触及的新颖推理策略,并保持更高的策略熵和测试时可扩展性。
7.2. 局限性与未来工作
7.2.1. 局限性
- MDP 结构限制: ROVER 的理论基础严格依赖于确定性、树状结构和二元终端奖励的 MDP。虽然自回归 LLM 生成与这些特性天然契合,但并非所有扩展的 RLVR 应用都完全符合(例如,涉及工具调用或中间反馈的任务可能具有更复杂的动态或奖励结构)。
- 实用实现中的近似: 将理论原则扩展到大型动作空间和长时域的实际 LLM 推理任务时,不可避免地引入了近似。尽管实证成功表明了这些近似的鲁棒性,但理论保证与实际应用之间的差距仍需进一步弥合。
- 计算资源限制: 目前的实验受限于计算资源,仅在最大 8B 参数的模型上进行了数学推理任务的评估。ROVER 在更大规模模型上的表现及其可能遇到的新挑战尚待探索。
7.2.2. 未来工作
- 扩展适用范围: 将 ROVER 的核心思想和简化方法扩展到 MDP 结构不完全符合当前假设的 RLVR 任务,例如具有随机转移、循环状态空间或中间奖励的任务。这可能需要对核心理论进行扩展或引入新的近似技术。
- 弥合理论与实践的差距: 深入研究实用实现中引入的近似对理论保证的影响,并探索更严格地保持理论性质的实现方法,以进一步提高算法的鲁棒性。
- 更大规模模型的验证: 在更大规模的 LLM 上验证 ROVER 的性能和效率,探索其在更复杂、更广泛的推理场景中的潜力。
- 与其他 RLVR 技术结合: 探索 ROVER 是否可以与现有的一些 RLVR 技术(如更先进的奖励建模、数据增强策略)相结合,以实现协同效应。
- 探索新颖的策略发现机制: 进一步挖掘 ROVER 在发现新颖推理策略方面的能力,并研究如何系统性地利用这种能力来推动 LLM 的认知边界。
7.3. 个人启发与批判
7.3.1. 个人启发
这篇论文最大的启发在于其“大道至简”的哲学。在 LLM 领域普遍追求复杂模型和算法的背景下,ROVER 提供了一个强有力的证据:深入理解问题本身的结构,可以带来颠覆性的简化和更优的性能。它挑战了我们对于“复杂问题需要复杂解决方案”的固有认知。具体而言:
-
问题结构的重要性: 强调了在设计算法时,对问题底层结构的深刻分析远比盲目应用通用工具更为重要。LLM 推理任务的特定 MDP 结构(确定性、树状、二元奖励)是其成功的关键。
-
均匀策略的重新认识: 纠正了强化学习领域对均匀策略 Q 值价值的普遍低估。它证明了在特定条件下,即使是最“朴素”的策略也能提供足以实现最优控制的信息。
-
多样性的核心价值: 明确指出并成功解决了传统 RL 算法在 LLM 推理中常遇到的多样性崩溃问题。通过将 Q 值转换为 softmax 分布采样,ROVER 证明了多样性并非性能的牺牲品,而是提升
pass@k性能、泛化能力和探索新颖解法的关键。 -
训练的稳定性: 避免 GPI 的非平稳目标,采用相对 Q 值参数化,这些实践对于 LLM 训练的稳定性具有重要指导意义。
ROVER 的方法论和成功,为未来 LLM 强化学习的研究开辟了新的思路,鼓励研究者们回归基础,从第一性原理出发思考问题,而不是仅仅在现有复杂框架上修修补补。
7.3.2. 批判
尽管 ROVER 取得了显著的成就,但也存在一些值得批判和深思的地方:
-
MDP 结构假设的普适性: 论文的核心理论依赖于非常具体的 MDP 结构(确定性、树状、二元终端奖励)。在实际的 LLM 应用中,并非所有推理任务都完全符合这些严格的假设。例如:
- 非确定性: 带有外部工具调用或 API 交互的任务可能会引入非确定性结果。
- 非树状结构: 某些推理过程可能涉及回溯或循环依赖,形成图状结构而非严格的树状结构。
- 非二元奖励/中间奖励: 复杂的规划任务可能需要精细的中间奖励来引导模型。 ROVER 在这些更通用场景下的有效性需要进一步验证。
-
“随机策略”的定义: 论文中“随机策略”是指固定的均匀随机策略。在实际 LLM 生成中,由于词汇表巨大,真正的“均匀随机”采样可能会导致大量无意义的文本,这与 LLM 本身的语言先验(priors)相悖。ROVER 的实用实现通过相对 Q 函数参数化,实际上是利用了 LLM 自身的先验知识。这种“理论上的随机”与“实践中的近似”之间的关系,值得更深入的理论探讨。
-
可扩展性到更大模型: 论文的实验在最大 8B 模型上进行。随着模型规模的增长,LLM 可能会展现出新的 emergent capabilities 和行为模式。ROVER 的简化方法在 70B 甚至更大模型上的效果如何,是否会遇到新的挑战,仍是一个开放问题。
-
奖励函数的敏感性: 均值中心化奖励在多样本情况下可以降低方差,但其对稀疏奖励的敏感性、以及如何在更复杂的奖励场景下保持有效性,也是值得关注的问题。
-
过度简化与信息损失: 虽然简化带来了收益,但在某些情况下,PPO 等复杂算法中包含的某些机制(如 KL 正则化对灾难性遗忘的抑制)可能仍然是必要的。ROVER 如何在没有这些显式机制的情况下避免潜在问题,或者其隐式地通过何种方式处理了这些问题,值得进一步分析。
总而言之,ROVER 为 LLM 强化学习带来了耳目一新的视角,强调了对问题本质结构的理解所能带来的巨大潜力。它促使我们反思,在追求通用性时,是否过度复杂化了特定问题的解决方案。
相似论文推荐
基于向量语义检索推荐的相关论文。