RLPIR: Reinforcement Learning with Prefix and Intrinsic Reward

P REFIX

论文状态：已完成

RLPIR: Reinforcement Learning with Prefix and Intrinsic Reward

发表：2025/10/08

大语言模型推理能力增强 (32)序列策略优化 (38)大语言模型强化学习训练 (54)无训练加速方法 (18)

原文链接 PDF 下载

价格：0.10

已有 1 人读过

本分析由 AI 生成，可能不完全准确，请以原文为准。

TL;DR 精炼摘要

RLPIR提出一种无需验证器的强化学习框架，通过前缀推演和组内一致性奖励减少训练时长和推理序列长度。在数学与通用基准测试中，达到与依赖真实标注RLVR相当的效果，训练效率提升近7倍，显著优化大型语言模型推理性能。

摘要

000 001 002 003 004 005 006 007 008 009 010 011 012 013 014 015 016 017 018 019 020 021 022 023 024 025 026 027 028 029 030 031 032 033 034 035 036 037 038 039 040 041 042 043 044 045 046 047 048 049 050 051 052 053 Under review as a conference paper at ICLR 2026 RLPIR: R EINFORCEMENT L EARNING WITH P REFIX AND I NTRINSIC R EWARD Anonymous authors Paper under double-blind review A BSTRACT Reinforcement Learning with Verifiable Rewards (RLVR) for large language mod- els faces two critical limitations: (i) reliance on verifiable rewards restricts ap- plicability to domains with accessible ground truth answers; (ii) training de- mands long rollouts (e.g., 16K tokens for complex math problems). We pro- pose R einforcement L earning with P refix and I ntrinsic R eward ( RLPIR ), a verifier-free reinforcement learning framework that learns from intrinsic rewards while reducing compute. RLPIR includes (1) a prefix rollout paradigm that avoids long rollouts by optimizing only the first L tokens, and (2) an intra-group consistency reward that eliminates reliance on verifiable rewards by measuring consistency among multiple sampled outputs. Across mathe

思维导图

论文精读

中文精读约 32 分钟读完 · 21,095 字

1. 论文基本信息

1.1. 标题

RLPIR: Reinforcement Learning with Prefix and Intrinsic Reward (RLPIR：基于前缀和内在奖励的强化学习)

1.2. 作者

匿名作者 (Anonymous authors)

1.3. 发表期刊/会议

论文处于双盲评审阶段 (Paper under double-blind review)。通常这意味着它已被提交给某个顶级会议或期刊，等待同行评审。由于是匿名提交，无法判断其具体声誉和影响力，但双盲评审是学术界确保公平性的常见实践。

1.4. 发表年份

2025年10月08日

1.5. 摘要

大型语言模型 (LLMs) 中使用可验证奖励的强化学习 (RLVR) 面临两个主要限制：(i) 对可验证奖励的依赖性，这将其应用范围限制在具有可获取真实标注数据 (Ground Truth) 的领域；(ii) 训练需要长时间的推演 (rollout)，例如，对于复杂的数学问题，可能需要16K个词元 (token)。本文提出了 RLPIR (Reinforcement Learning with Prefix and Intrinsic Reward)，这是一个无需验证器 (verifier-free) 的强化学习框架，它通过内在奖励 (intrinsic reward) 进行学习，同时减少了计算量。RLPIR 包含 (1) 一种前缀推演 (prefix rollout) 范式，通过仅优化前 $L$ 个词元来避免长时间推演；(2) 一种组内一致性奖励 (intra-group consistency reward)，通过测量多个采样输出之间的一致性来消除对可验证奖励的依赖。在数学和通用基准测试中，RLPIR 在不依赖真实标注数据的情况下，达到了与 RLVR 相当的性能，同时训练时间大幅减少了 6.96 倍。此外，RLPIR 将推理序列长度缩短了 45%，显著提高了大型语言模型的推理效率。

1.6. 原文链接

OpenReview 链接: https://openreview.net/forum?id=3jrWUqoItt
PDF 链接: https://openreview.net/pdf?id=3jrWUqoItt
发布状态: 目前为预印本 (preprint)，处于双盲评审阶段。

2. 整体概括

2.1. 研究背景与动机

论文试图解决的核心问题： 大型语言模型 (LLMs) 在复杂推理任务（如数学推理和代码生成）中表现出的强大能力，很大程度上得益于可验证奖励强化学习 (Reinforcement Learning with Verifiable Rewards, RLVR)。然而，RLVR 面临着一个“不可能三角”的实际挑战：

验证器依赖 (Verifier dependence): RLVR 框架（如 GRPO）严重依赖领域特定的外部验证器来提供精确的奖励信号。这意味着它只能应用于具有可获取真实标注数据 (Ground Truth) 的领域（例如，数学问题有明确的正确答案，代码有可执行的测试用例）。对于答案自由形式且模糊的通用领域推理，这种方法则无能为力。
高训练成本 (High training cost): 训练 RLVR 模型需要生成非常长的推演序列（例如，复杂的数学问题可能需要约 16K 词元）。这导致巨大的计算开销，限制了其实际部署。
推理效率低下 (Inference inefficiency): 经过 RLVR 训练的模型在推理时往往会生成逐渐变长的响应，从而降低了推理效率。

为什么这个问题在当前领域是重要的： LLMs 的推理能力是其核心价值之一，但上述限制使得 RLVR 无法广泛应用于通用推理领域，且其高昂的训练和推理成本阻碍了其实用性和可扩展性。解决这些问题将使 LLMs 的强化学习训练更具普适性、经济性和效率。

这篇论文的切入点或创新思路： 论文提出，解决方案的开头（例如，前 512 个词元）通常包含决定剩余推理轨迹和最终正确解决方案的重要决策。基于此洞察，RLPIR 的核心思路是：

仅优化前缀 (Prefix optimization): 专注于优化推理过程中的短前缀，捕捉关键决策点，从而提高效率。
内在奖励 (Intrinsic reward): 在缺乏真实标注数据的情况下，通过测量多个采样输出之间的一致性来构建一种内在的奖励信号，摆脱对外部验证器的依赖。

2.2. 核心贡献/主要发现

论文最主要的贡献：

提出了 RLPIR 框架： 一种新颖的强化学习范式，无需真实标注数据即可训练大型语言模型。
前缀推演训练策略 (Prefix rollout training strategy)： 显著降低了训练成本，相较于标准 RLVR 基线，训练时间减少了 6.96 倍。
引入了组内一致性奖励 (Intra-group consistency reward)： 这种内在奖励消除了对外部验证器的需求，在数学领域达到了与 RLVR 相当的性能，并在通用领域表现出强大的泛化能力。
实现了高效推理 (Efficient inference)： 在推理时将推理序列长度减少了 45%。

论文得出了哪些关键的结论或发现：

RLPIR 在无需真实标注数据的情况下，在数学基准测试上达到了与依赖验证器的 RLVR 方法（如 GRPO）相当的性能。
在通用领域基准测试上，RLPIR 表现出比基础模型和 RLVR 更强的鲁棒性，说明其在缺乏领域特定验证器时具有更强的跨任务迁移能力。
通过仅优化短前缀，RLPIR 大幅降低了训练成本（约 6.96 倍的速度提升）。
RLPIR 显著减少了推理序列长度（平均减少 45%），提高了 LLMs 的推理效率。
消融实验表明，512 词元的前缀长度在准确性和推理效率之间取得了最佳平衡。
引入非对称优势 (Asymmetric Advantages) 机制对于防止奖励作弊 (reward hacking) 和保持输出多样性至关重要。
训练数据的难度对 RLPIR 的性能有影响，中等难度的数据集效果最好，且推理效率随着难度增加而提高。

3. 预备知识与相关工作

3.1. 基础概念

3.1.1. 强化学习 (Reinforcement Learning, RL)

强化学习 (RL) 是一种机器学习范式，其目标是训练一个智能体 (agent) 在特定环境 (environment) 中通过执行动作 (action) 来最大化累积奖励 (reward)。智能体通过与环境的交互，学习一个从状态到动作的策略 (policy)。

策略 ( $\pi$ ): 定义了在给定状态下选择动作的概率分布。
奖励 ( $r$ ): 环境对智能体动作的反馈信号，可以是正向（鼓励）或负向（惩罚）。
状态 (state): 环境的当前状况。
动作 (action): 智能体在给定状态下可以执行的操作。

3.1.2. 大型语言模型 (Large Language Models, LLMs)

大型语言模型 (LLMs) 是具有数亿甚至数千亿参数的深度学习模型，通常基于 Transformer 架构。它们通过在海量文本数据上进行预训练 (pre-training) 来学习语言的统计规律，然后可以通过微调 (fine-tuning) 来适应特定任务。在推理任务中，LLMs 通过生成一系列词元来构成推理轨迹或解决方案。

3.1.3. 策略梯度 (Policy Gradient)

策略梯度 (Policy Gradient) 是一类强化学习算法，通过直接优化策略函数来学习最优策略。它通过计算策略相对于期望奖励的梯度来更新策略参数。一个常见的策略梯度目标是最大化期望奖励： $J(\theta) = \mathbb{E}_{\tau \sim \pi_\theta} [R(\tau)]$ 其中 $J(\theta)$ 是策略 $\pi_\theta$ 的目标函数， $R(\tau)$ 是轨迹 $\tau$ 的总奖励。

3.1.4. KL 散度 (Kullback-Leibler Divergence, $\mathbb{D}_{\mathrm{KL}}$ )

KL 散度是衡量两个概率分布之间差异的指标。在强化学习中，它常用于策略正则化 (policy regularization)，以防止策略在训练过程中偏离参考策略太远，从而保持训练的稳定性或继承预训练模型的某些特性。对于两个离散概率分布 $P$ 和 $Q$ ，KL 散度定义为： $\mathbb{D}_{\mathrm{KL}}(P \| Q) = \sum_i P(i) \log \frac{P(i)}{Q(i)}$ 在本文中，KL 散度用于衡量当前策略 $\pi_\theta$ 与参考策略 $\pi_{\text{ref}}$ 之间的差异。

3.1.5. 余弦相似度 (Cosine Similarity)

余弦相似度是一种衡量两个非零向量之间方向一致性的度量。其值介于 -1 和 1 之间，1 表示方向完全相同，-1 表示方向完全相反，0 表示相互正交（不相关）。对于两个向量 $\mathbf{A}$ 和 $\mathbf{B}$ ，余弦相似度定义为： $\text{similarity} = \cos(\theta) = \frac{\mathbf{A} \cdot \mathbf{B}}{\|\mathbf{A}\| \|\mathbf{B}\|}$ 在本文中，余弦相似度用于衡量不同推理前缀的语义相似性 (semantic similarity)，以构建内在奖励。

3.1.6. 句子嵌入 (Sentence Embeddings)

句子嵌入是将一个句子（或文本片段）映射到一个固定维度的向量空间中的表示形式。这些向量通常捕捉了句子的语义信息，使得语义相似的句子在向量空间中距离较近。本文使用 all-MiniLM-L6-v2 作为一个句子编码器 (sentence encoder) 来生成句子嵌入。

3.2. 前人工作

3.2.1. 大型语言模型推理中的强化学习 (Reinforcement Learning for Reasoning in LLMs)

RLVR (Reinforcement Learning with Verifiable Rewards): 通过外部验证器提供精确奖励信号，如代码执行结果或数学正确性。例如 DeepSeek-R1 (DeepSeek-AI et al., 2025) 和 GRPO (Hu et al., 2025)。这些方法在复杂问题解决方面取得了突破，但受限于验证器依赖和高计算成本。
改进 RL 训练的方法：
- LUFFY (Yan et al., 2025): 引入离策略指导 (off-policy guidance) 和正则化重要性采样 (regularized importance sampling)，平衡模仿学习和探索，优于纯在策略 RLVR。
- 词元监督价值模型 (Token-supervised value models, Lee et al., 2025): 在每个词元级别估计正确性概率，实现细粒度信用分配 (credit assignment)，减少搜索树中的剪枝错误。

3.2.2. 超越可验证奖励 (Beyond Verifiable Rewards)

生成式奖励模型 (Generative reward models, Ma et al., 2025) 和自奖励机制 (self-reward mechanisms, Zhou et al., 2024): 使用辅助模型或策略一致性来评估推理质量，以缓解 RLVR 对真实标注数据的依赖。
策略似然奖励 (Policy-likelihood rewards, Yu et al., 2025): 将 RLVR 扩展到没有可验证答案的设置，但受限于只能处理短输出。
熵最小化策略 (Entropy minimization strategies, Agarwal et al., 2025): 鼓励确定性推理，但可能抑制多样性。
内部一致性信号 (Internal consistency signals): Xie et al. (2024) 通过解码中间层预测并权衡自洽的推理路径来提高思维链 (chain-of-thought) 推理的校准。本文的组内一致性奖励 (intra-group consistency reward) 泛化了这一思想，通过群体级别的语义相似性提供可微分的内在奖励。

3.2.3. 高效强化学习训练范式 (Efficient Reinforcement Learning Training Paradigms)

TTRL (Zuo et al., 2025) 和 Absolute Zero (Zhao et al., 2025): 探索测试时精炼 (test-time refinement) 和自博弈 (self-play)，但通常是任务特定的。
受控解码方法 (Controlled decoding approaches): 例如前缀评分器 (prefix scorers, Mudgal et al., 2024)，通过奖励-KL 权衡来偏向生成，以降低推理时间成本。
基于前缀的训练 (Prefix-based training): 在监督学习设置中有所研究 (Ji et al., 2025)，但在强化学习中的应用仍未充分探索。RLPIR 通过使用前缀推演 (prefix rollouts) 解决了这一空白，将训练限制在关键决策点，显著减少了计算量。

3.3. 技术演进

LLMs 的强化学习最初依赖于精确的、可验证的奖励信号，这在数学和代码等领域取得了显著成功。然而，这种“监督式强化学习”模式的局限性在于其对外部验证器的强依赖，这限制了其在更广泛、更开放的通用推理场景中的应用。同时，长时间的推演也带来了巨大的计算负担。为了突破这些瓶限，研究方向逐渐转向探索内在奖励和训练效率。内在奖励试图从模型自身的生成或其群体行为中提取反馈信号，从而摆脱对外部真实标注数据的依赖。而训练效率的提升则关注如何通过优化训练过程（例如，利用前缀信息、改进采样策略等）来降低计算成本。RLPIR 正是这两种趋势的结合，它在强化学习中引入了前缀优化和基于语义一致性的内在奖励，试图在不牺牲性能的前提下，实现无验证器、低成本和高效率的训练。

3.4. 差异化分析

RLPIR 与现有方法的主要区别和创新点在于：

与 RLVR 的区别：
- 奖励来源： RLVR 依赖外部验证器和真实标注数据提供奖励，RLPIR 则通过组内一致性奖励生成内在奖励，无需外部验证器和真实标注数据。
- 训练成本： RLVR 使用全程推演 (full-length rollouts)，成本高昂 (如 16K 词元)，RLPIR 采用前缀推演 (prefix rollouts)，仅优化前 $L$ 个词元 (如 512 词元)，显著降低了计算成本。
- 推理效率： RLVR 倾向于生成更长的响应，RLPIR 训练出的模型能生成更短、更高效的推理序列。
与现有无验证器方法的区别：
- 奖励机制： 其他无验证器方法可能使用生成式奖励模型、自奖励机制或策略似然奖励，但本文的组内一致性奖励基于语义相似性，通过群体采样的一致性来衡量质量，并引入非对称优势 (Asymmetric Advantages) 来防止奖励作弊。
- 适用性： 某些无验证器方法可能仍对评估或奖励构建有隐性真实标注数据依赖，或仅限于短输出。RLPIR 明确为无真实标注数据设置设计，并能处理复杂推理任务。
与高效 RL 训练方法的区别：
- 方法整合： 虽然有基于前缀的监督训练或受控解码方法，但 RLPIR 是首个将前缀推演与内在奖励相结合的强化学习框架，以解决“不可能三角”问题。

4. 方法论

4.1. 方法原理

RLPIR 的核心思想是，在大型语言模型进行推理时，解决方案的初期阶段（即前缀）往往包含了决定最终结果的关键决策。因此，通过仅优化这个短前缀，可以在大幅降低计算成本的同时，有效学习到高质量的推理策略。为了在没有外部真实标注数据验证器的情况下实现这一点，RLPIR 引入了一种组内一致性奖励 (intra-group consistency reward)。这种奖励通过衡量同一提示下，模型生成的多个前缀输出之间的语义相似性来评估其质量。高度一致的前缀被认为是更有可能导致正确推理轨迹的。此外，为了防止模型通过生成过于相似甚至重复的输出而进行“奖励作弊 (reward hacking)”，RLPIR 还采用了非对称优势 (Asymmetric Advantages) 机制，只惩罚低一致性的输出，而不对高一致性输出给予额外奖励，从而鼓励多样性并保持策略的稳健性。

4.2. 核心方法详解

4.2.1. 问题形式化 (Problem Formulation)

给定一个从数据集 $\mathcal{D}$ 中抽取的输入提示 $q$ ，策略模型 $\pi_{\theta}$ 生成一个部分轨迹（前缀） $\tau=(t_1, \ldots, t_L)$ ，该轨迹由完整推理链的前 $L$ 个词元组成。RLPIR 的目标是最大化期望内在奖励 $r(q, \tau)$ ，同时使用 KL 散度惩罚来限制策略漂移，以防止模型偏离参考策略 $\pi_{\text{ref}}$ 太远。其优化目标函数表示为： $\max _{\theta} \mathbb{E}_{q \sim \mathcal{D}, \tau \sim \pi_{\theta}(\cdot \mid q)}\left[r(q, \tau)-\beta \mathbb{D}_{\mathrm{KL}}\left(\pi_{\theta} \| \pi_{\mathrm{ref}}\right)\right]$ 其中：

$\theta$ : 当前策略模型 $\pi_{\theta}$ 的参数。
$q$ : 从数据集 $\mathcal{D}$ 中采样的输入提示。
$\tau$ : 由当前策略 $\pi_{\theta}$ 在给定 $q$ 的条件下生成的推理前缀，包含前 $L$ 个词元。
$r(q, \tau)$ : 对给定提示 $q$ 生成的前缀 $\tau$ 的内在奖励，其计算方法将在后面“组内一致性奖励”部分详述。
$\beta$ : 一个正的超参数，控制 KL 散度正则化项的强度。
$\mathbb{D}_{\mathrm{KL}}(\pi_{\theta} \| \pi_{\mathrm{ref}})$ : 当前策略 $\pi_{\theta}$ 与冻结的参考策略 $\pi_{\mathrm{ref}}$ 之间的 KL 散度，用于限制策略更新的步长，防止不稳定训练和策略过度偏离。

这个目标函数是强化学习中常见的 KL 正则化策略优化形式，其核心创新在于如何定义和计算内在奖励 $r(q, \tau)$ 。

4.2.2. 前缀推演 (Prefix Rollout)

传统的 RLVR 方法在训练时需要对完整的推理轨迹进行推演，这导致了高昂的计算成本，例如数学问题可能需要生成长达约 16K 词元的序列。RLPIR 受早期研究（Section 4.1）的启发，该研究表明解决方案的前缀（例如，前 512 个词元）通常包含决定推理轨迹和正确解决方案的关键决策。因此，RLPIR 采用了前缀推演范式：

训练阶段： 奖励和策略梯度仅在长度为 $L$ (例如，512 词元) 的初始前缀上计算和优化。这种方式显著减少了每次推演的计算量。
评估阶段： 模型可以自由生成超出 $L$ 词元的完整输出，以完成推理任务。这意味着前缀优化策略在训练阶段有效，但模型在实际应用中仍能生成完整解决方案。

通过这种方式，RLPIR 能够将训练成本大幅降低，同时仍能学习到有效的推理策略，因为关键的决策信息已在前缀中被捕捉。

4.2.3. 组内一致性奖励 (Intra-Group Consistency Reward)

为了在没有外部验证器的情况下评估前缀的质量，RLPIR 引入了组内一致性奖励。这种奖励机制将语义相似性作为奖励信号。具体流程如下：

多样本生成： 对于每一个给定的提示 $q$ ，从当前策略 $\pi_{\theta}$ 中独立采样 $G$ 个推演（前缀） $\{\tau_g\}_{g=1}^{G}$ 。每个推演的长度被限制在 $L$ 个词元。
嵌入表示： 使用一个预训练的句子编码器（例如 all-MiniLM-L6-v2）将每个采样的前缀 $\tau_g$ 编码成一个固定维度的向量 $e_g$ 。 $e_{g}=\operatorname{embedding}\left(\tau_{g}\right) \in \mathbb{R}^{d}$ 其中 $d$ 是嵌入向量的维度。
计算组中心： 计算这 $G$ 个嵌入向量的平均值，得到组中心 $\bar{e}$ 。 $\bar{e}=\frac{1}{G} \sum_{g} e_{g}$
计算一致性奖励： 对于每个前缀 $\tau_g$ ，其内在奖励 $r_g$ 被定义为该前缀的嵌入向量 $e_g$ 与组中心 $\bar{e}$ 之间的余弦相似度。 $r_{g}=\cos \left(e_{g}, \bar{e}\right)$ 这个奖励 $r_g$ 量化了每个前缀与其所在组其他前缀的语义一致性。假设在没有真实标注数据的情况下，一个好的推理前缀应该与同组中大多数其他好的前缀在语义上是一致的。

4.2.4. 非对称优势 (Asymmetric Advantages)

组内一致性奖励虽然有效，但存在一个潜在问题：模型可能学会通过生成高度相似甚至重复的输出，从而人为地提高一致性奖励，导致奖励作弊 (reward hacking) 和模式崩溃 (mode collapse)，即模型丧失生成多样化和有意义内容的能力。为了解决这个问题，RLPIR 引入了非对称优势机制：

标准化奖励： 首先，对组内所有前缀的原始一致性奖励 $\{r_1, \ldots, r_G\}$ 进行标准化，得到标准化后的优势 $\tilde{A}_g$ 。 $\tilde{A}_{g}=\frac{r_{g}-\operatorname{mean}\left(\left\{r_{1}, \ldots, r_{G}\right\}\right)}{\operatorname{std}\left(\left\{r_{1}, \ldots, r_{G}\right\}\right)}$ 其中 $\operatorname{mean}(\cdot)$ 和 $\operatorname{std}(\cdot)$ 分别表示组内奖励的均值和标准差。
非对称裁剪： 接着，对标准化优势进行非对称裁剪，得到最终用于策略优化的优势 $A_g$ $A_{g}$ 。 $A_{g}=\min \left(0, \tilde{A}_{g}\right)$ 这个裁剪操作的含义是：
- 如果一个前缀的标准化奖励 $\tilde{A}_g$ 小于 0（即该前缀的一致性低于组平均水平），那么它会得到一个负的优势值 $A_g = \tilde{A}_g$ 。这意味着模型会因生成低一致性的输出而受到惩罚。
- 如果一个前缀的标准化奖励 $\tilde{A}_g$ 大于或等于 0（即该前缀的一致性高于或等于组平均水平），那么它的优势值被设置为 $A_g = 0$ 。这意味着模型不会因为生成高一致性的输出而获得额外的奖励。
  
  通过这种方式，非对称优势机制只惩罚那些不一致的（差的）样本，而不额外奖励那些已经足够一致的（好的）样本。这有效地阻止了模型过度追求一致性而牺牲多样性，从而防止了奖励作弊和模式崩溃，同时保留了有用的多样性。

4.2.5. GRPO 优化器 (GRPO Optimizer)

RLPIR 采用 GRPO (Group Relative Policy Optimization) 作为其策略优化算法。GRPO 是一种基于策略梯度的方法，旨在通过组内标准化奖励来提高训练稳定性。在 RLPIR 中，GRPO 的目标函数（忽略裁剪项）可以表示为： $\mathcal{J}_{\mathrm{GRPO}}(\theta)=\mathbb{E}_{\left\{\tau_{g}\right\}_{g=1}^{G} \sim \pi_{\theta_{\mathrm{ref}}}(\cdot \mid q)} \frac{1}{G} \sum_{g=1}^{G}\left(\frac{\pi_{\theta}\left(\tau_{g} \mid q\right)}{\pi_{\theta_{\mathrm{ref}}}\left(\tau_{g} \mid q\right)} A_{g}-\beta \mathbb{D}_{\mathrm{KL}}\left(\pi_{\theta} \| \pi_{\mathrm{ref}}\right)\right)$ 其中：

$\pi_{\theta}(\tau_g \mid q)$ 和 $\pi_{\theta_{\mathrm{ref}}}(\tau_g \mid q)$ : 分别是当前策略和参考策略下生成前缀 $\tau_g$ 的概率。
$A_g$ : 由上述非对称优势计算得到。
$\mathbb{D}_{\mathrm{KL}}\left(\pi_{\theta} \| \pi_{\mathrm{ref}}\right)$ : 策略之间的 KL 散度，定义为： $\mathbb{D}_{\mathrm{KL}}\left(\pi_{\theta} \| \pi_{\mathrm{ref}}\right)=\frac{\pi_{\mathrm{ref}}\left(\tau_{g} \mid q\right)}{\pi_{\theta}\left(\tau_{g} \mid q\right)}-\log \frac{\pi_{\mathrm{ref}}\left(\tau_{g} \mid q\right)}{\pi_{\theta}\left(\tau_{g} \mid q\right)}-1$ 这个 KL 散度项通常用于 PPO 或 GRPO 算法中，作为策略比率的惩罚项，以限制策略更新的幅度。

通过将 RLPIR 的内在奖励和非对称优势集成到 GRPO 框架中，模型能够在不依赖外部验证器的情况下，通过优化短前缀来学习高效且高质量的推理策略。

5. 实验设置

5.1. 数据集

实验主要使用了两个公开的数学语料库来构建训练集：

OpenR1-Math-220k: https://huggingface.co/datasets/open-r1/OpenR1-Math-220k
Big-MathRL-Verified: https://huggingface.co/datasets/SynthLabsAI/Big-Math-RL-Verified

数据划分策略 (Difficulty-Based Data Categorization): 为了构建一个具有挑战性但又可学习的数据集，论文采用了一种四阶段难度划分策略。对于每个问题，使用三个不同能力的模型进行推理并记录其正确性：

DeepSeek R1 1.5B
DeepSeek R1 7B
QWQ 32B

根据这些模型的解决情况，问题被划分为四个难度等级：
Level 1 (Easiest): 被 1.5B 模型正确解决的问题。
Level 2: 未被 1.5B 模型解决，但被 7B 模型解决的问题。
Level 3: 未被 1.5B 和 7B 模型解决，但被 32B 模型解决的问题。
Level 4 (Hardest): 未被所有三个模型解决的问题。

这个过程过滤掉了过于简单或完全无法解决的问题，从而获得了一个信息量丰富的数据集。除非另有说明，所有实验均在 Level 3 数据上进行训练。

以下是原文 Table 9 的数据分布：

Level	# Problems	Proportion (%)
1 (easiest)	154,817	46.15
2	80,486	23.99
3	25,309	7.55
4 (hardest)	74,825	22.31
Total	335,437	100.00

数据集中的具体样本示例 (数学推理提示模板): 虽然原文没有直接展示完整的训练样本，但提供了用于数学推理的提示模板，它展示了问题的输入形式：

Solve the following math problem. Make sure to put the answer (and only answer) inside \boxed().
(problem_statement)

Listing 3: Mathematical Reasoning Prompt Template

5.2. 评估指标

论文使用了以下评估指标：

5.2.1. 准确率 (Accuracy, Acc)

概念定义: 准确率是衡量模型在分类或推理任务中正确预测或解决问题比例的指标。在推理任务中，它通常指模型给出的最终答案与真实标注数据 (Ground Truth) 或预期正确答案相符的比例。 数学公式: $\text{Accuracy} = \frac{\text{Number of Correct Predictions}}{\text{Total Number of Predictions}}$ 符号解释:

$\text{Number of Correct Predictions}$ : 模型给出正确答案的问题数量。
$\text{Total Number of Predictions}$ : 所有评估问题的总数。

5.2.2. 墙钟训练时间 (Wall-Clock Training Time)

概念定义: 墙钟训练时间是指完成整个训练过程所需的实际时间，从训练开始到结束的物理时间。它直接反映了训练过程的计算效率和成本。

5.2.3. 推理序列长度 (Reasoning Sequence Length)

概念定义: 推理序列长度衡量模型在生成解决方案时输出的平均词元 (token) 数量。它反映了模型的推理效率 (reasoning efficiency)：更短的序列通常意味着更快的推理速度和更低的计算资源消耗。

5.2.4. 基准测试特定指标

论文在数学和通用基准测试上进行了评估，这些基准测试通常以各自的准确率或分数作为主要指标。

数学基准测试: AIME 24, AIME 25, Olympiad, Minerva。这些通常评估模型解决复杂数学问题的能力，指标是正确率。
通用基准测试: MMLU-Pro (Wang et al., 2024), GPQA (Rein et al., 2023), SuperGPQA。这些评估模型在广泛知识领域和多任务理解上的能力，指标通常是选择题的正确率。

5.3. 对比基线

论文将 RLPIR 的性能与以下基线进行了比较：

基础模型 (Base models):
- Llama (Meta AI, 2024): Llama3.1-8B-Inst
- Qwen2.5 (Yang et al., 2024): Qwen2.5-7B-Inst, Qwen2.5-14B-Inst
- Qwen3 系列 (Team, 2025a): Qwen3-4B-Inst, Qwen3-8B-Inst, Qwen3-14B-Inst 这些是未经任何额外强化学习训练的预训练模型，用于展示 RLPIR 在不同骨干模型上的改进效果。
可验证奖励强化学习 (RLVR):
- GRPO (Group Relative Policy Optimization) with full-length rollouts ( $\text{GRPO}_{16K}$ ): 这是主要的验证器依赖基线。GRPO 使用程序化验证来提供奖励，并且为了达到高性能，它需要对长达约 16K 词元的完整轨迹进行优化。这代表了性能的近似上限，尽管其成本非常高昂。RLVR 使用与 RLPIR 相同的训练数据。

5.4. 训练设置

RL 框架: 使用 Nemo-RL (nem, 2025) 实现 RLPIR。
采样策略: 对于每个问题，生成 $G=16$ 个候选解决方案组。
推演长度: 每个推演（前缀）限制为 $L=512$ 词元。
内在奖励计算: 使用 all-MiniLM-L6-v2 句子编码器嵌入每个 512 词元的前缀，然后计算组内一致性奖励。
策略优化器: 使用 GRPO (Shao et al., 2024b)。
批量大小 (Batch size): 每步处理 32 个问题。
KL 散度惩罚: 固定 $\beta=0.001$ 。
优化器: AdamW。
学习率 (Learning rate): $1 \times 10^{-6}$ 。

硬件: 8 块 NVIDIA A100 GPU。

以下是原文 Table 10 的 GRPO 训练配置：

Parameter	Value
num_prompts_per_step	32
num_generations_per_prompt	16
max_rollout_turns	1
normalize_rewards	True
use_leave_one_out_baseline	false
reference_policy_kl_penalty	0.001
ratio_clip_min	0.2
ratio_clip_max	0.2

以下是原文 Table 12 的训练超参数：

Parameter	Value
Learning Rate	$1.0 \mathrm{e}-6$
Weight Decay	0.01
Batch Size	512
Max Sequence Length	512
Precision	bfloat16
Temperature	1.0
Top-p	1.0

5.5. 评估采样策略

为了进行稳健评估，采用了多轮采样 (Multi-shot Evaluation) 策略，并根据数据集特性设置不同的重复次数。以下是原文 Table 11 的评估采样配置：

Dataset	Repetitions	Sampling Strategy
MMLU-Pro	2	Temperature $=0.6, \mathrm{TOP} \_P=0.95$
GPQA	1	Temperature $=0.6, \mathrm{TOP} \_P=0.95$
SuperGPQA	1	Temperature $=0.6, \mathrm{TOP} \_P=0.95$
AIME24	10	Temperature $=0.6, \mathrm{TOP} \_P=0.95$
AIME25	10	Temperature $=0.6, \mathrm{TOP} \_P=0.95$
Olympiad	4	Temperature $=0.6, \mathrm{TOP} \_P=0.95$
Minerva	4	Temperature $=0.6, \mathrm{TOP} \_P=0.95$

答案提取与验证： 针对不同类型的问题，实现了复杂的答案提取机制：

数学表达式匹配 (Mathematical Expression Matching): 使用正则表达式 $r"(?i) \\boxed\s*{([^\n]+)}"$ 从文本中提取用 $\boxed{}$ 包裹的数学答案，并进行归一化。
多项选择题答案提取 (Multiple Choice Answer Extraction): 使用正则表达式 $r"(?i)Answer[ \t]*:[ \t]*\$ ?([A-D])`?"提取格式如Answer: A` 的多项选择题答案。
等价性检查 (Equivalence Checking): 对于某些问题，使用一个专门的 LLM 来检查两个数学表达式（即模型提取的答案与真实标注数据）是否等价。这个 LLM 被提示判断两个表达式是否“等价”，并且只进行“微不足道的简化”。

评估流程： 原文 Algorithm 2 展示了评估流程，其核心步骤是：加载数据集，打乱顺序，初始化采样器（模型），然后对每个示例进行：生成响应、从响应中提取答案、基于真实标注数据计算得分、存储结果。

6. 实验结果与分析

6.1. 核心结果分析

6.1.1. 训练有效性和泛化能力

RLPIR 在数学和通用领域基准测试上的表现令人印象深刻。

以下是原文 Table 3 的主要结果：

| Model | General | | | Math | | | Avg | | :--: | :--: | :--: | :--: | :--: | :--: | :--: | :--: | :--: | | MMLU-Pro $\uparrow$ | GPQA $\uparrow$ | SuperGPQA $\uparrow$ | AIME 24 $\uparrow$ | AIME 25 $\uparrow$ | Olympiad $\uparrow$ | Minerva $\uparrow$ | General $\uparrow$ | Math $\uparrow$ | Llama Models | | | | | | | | | | Llama3.1-8B-Inst | 46.9 | 30.2 | 22.2 | 3.0 | 0.0 | 13.0 | 10.2 | 33.1 | 6.6 | +RLPIR(ours) | 47.0 | 31.8 | 21.0 | 4.3 | 0.0 | 15.3 | 12.6 | 33.2 | 8.1 | Qwen2.5 Models | | | | | | | | | | Qwen2.5-7B-Inst | 56.6 | 33.8 | 29.0 | 11.6 | 8.5 | 34.2 | 26.1 | 39.8 | 20.1 | +RLPIR(ours) | 58.5 | 35.5 | 31.6 | 16.2 | 14.7 | 38.3 | 31.1 | 41.9 | 25.1 | Qwen2.5-14B-Inst | 62.7 | 41.4 | 35.0 | 11.3 | 11.0 | 37.3 | 29.7 | 46.4 | 22.3 | +RLPIR(ours) | 65.5 | 42.9 | 38.3 | 16.2 | 15.4 | 42.4 | 34.0 | 48.9 | 27.0 | Qwen3 Models | | | | | | | | | | Qwen3-4B-Inst | 63.7 | 53.0 | 42.4 | 72.6 | 64.3 | 61.4 | 33.4 | 53.0 | 57.9 | +RLVR | 59.5 | 50.4 | 33.8 | 80.9 | 70.7 | 66.5 | 43.2 | 47.9 | 65.3 | +RLPIR(ours) | 65.1 | 53.9 | 42.0 | 77.3 | 69.8 | 65.7 | 38.6 | 53.7 | 62.9 | Qwen3-8B-Inst | 67.7 | 61.1 | 48.5 | 73.0 | 66.0 | 63.5 | 35.6 | 59.1 | 59.5 | +RLVR | 65.8 | 61.7 | 40.6 | 80.1 | 73.3 | 68.5 | 40.8 | 56.0 | 65.7 | +RLPIR(ours) | 69.7 | 62.2 | 46.2 | 78.8 | 72.2 | 69.3 | 40.0 | 59.3 | 65.1 | Qwen3-14B-Inst | 72.4 | 65.1 | 52.5 | 80.0 | 70.3 | 63.4 | 37.1 | 63.3 | 62.7 | +RLVR | 71.5 | 61.0 | 50.3 | 86.6 | 78.7 | 66.1 | 40.2 | 60.9 | 67.9 | +RLPIR(ours) | 75.1 | 66.4 | 53.0 | 86.2 | 76.9 | 67.9 | 41.9 | 64.8 | 68.2

主要观察：

数学性能与 RLVR 持平： RLPIR 在没有外部验证器和真实标注数据的情况下，在数学基准测试（如 AIME 24, AIME 25, Olympiad）上取得了与依赖验证器的 RLVR (GRPO) 相当的性能。例如，在 Qwen3-14B 模型上，RLPIR (86.2% on AIME 24) 与 RLVR (86.6%) 表现非常接近。这表明组内一致性奖励足以捕捉高质量的推理信号。
通用领域泛化能力更强： 在通用领域基准测试（如 MMLU-Pro, GPQA）上，RLPIR 表现出比基础模型和 RLVR 更强的鲁棒性和更高的性能。例如，Qwen3-14B 的 MMLU-Pro 成绩，RLPIR (75.1%) 优于基础模型 (72.4%) 和 RLVR (71.5%)。这可能是因为 RLPIR 的无验证器设计使其能够避免对狭窄、任务特定奖励信号的过拟合，从而在多样化和开放式领域中实现更好的迁移。
跨模型系列的一致提升： 无论是在 Llama、Qwen2.5 还是 Qwen3 系列模型上，RLPIR 都持续地提升了性能，验证了其方法的广泛适用性。

6.1.2. 计算效率 (Compute Efficiency)

RLPIR 在计算效率方面取得了显著突破。

速度提升： 在 Qwen3-8B 模型上进行 1000 步优化，RLVR (GRPO_{16K}) 需要 177.5 小时，而 RLPIR 仅需 25.5 小时。这意味着 RLPIR 实现了 $6.96 \times$ 的速度提升，训练时间减少了 85.6%。
原因： 这种显著的效率提升直接来源于 RLPIR 的前缀推演范式。RLPIR 仅在 512 词元的前缀上进行训练，而 RLVR 需要处理约 16K 词元的完整轨迹。

6.1.3. 推理效率 (Reasoning Efficiency)

RLPIR 不仅提高了训练效率，还显著提升了推理效率。

以下是原文 Table 5 的推理效率结果：

Setting	Qwen3-4B (tokens)	Qwen3-8B (tokens)	Qwen3-14B (tokens)
Base	14229	14539	15280
+RLVR $\left(\mathrm{GRPO}_{16 \mathrm{~K}}\right)$	15846	16483	17294
+RLPIR (ours, $L=512$ )	$\mathbf{11772}$	$\mathbf{9564}$	$\mathbf{9474}$
$\Delta$ vs Base	$-17.3 \%$	$-34.2 \%$	$-38.0 \%$
$\Delta$ vs RLVR	$-25.7 \%$	$-42.0 \%$	$-45.2 \%$

主要观察：

显著的长度缩减： RLPIR 显著减少了模型在 AIME24 基准测试上生成响应的平均长度。与基础模型相比，RLPIR 将序列长度减少了 17.3% 到 38.0%。与 RLVR 相比，RLPIR 将序列长度减少了 25.7% 到 45.2%。
RLVR 增加长度： 有趣的是，RLVR 训练往往会增加响应长度，这可能是由于其旨在寻求完整、详细的解决方案。
效率提升的原因： RLPIR 训练在短前缀上进行，鼓励模型更早地在推理轨迹中做出关键决策并“收敛”到高一致性的路径，从而避免了冗余的或漫无目的的生成。文章在 Section I.1 提供了一个具体的案例研究，Qwen3-8B 模型在 RLPIR 训练后将一个解决方案从 2802 词元缩短到 1299 词元（53.6% 的缩减），同时给出相同的正确答案。

6.2. 消融实验与参数分析

6.2.1. 前缀长度 $L$ 的影响 (Effect of Prefix Length)

此项消融实验探讨了训练时使用的前缀长度 $L$ 对最终准确率和推理效率的影响。

以下是原文 Table 6 的结果：

Prefix Len (tokens)	Acc $\uparrow$	$\Delta$ Acc	Len $\downarrow$ (tokens)	$\Delta$ Len(%)
Qwen3-8B	73.0	-	14539	-
256	76.3	+3.3	9866	$-32.2 \%$
512	$\mathbf{78.8}$	$\mathbf{+5.8}$	11797	$-18.9 \%$
1024	77.0	+4.0	14601	$+0.4 \%$

主要发现：

$L=512$ 表现最佳： 512 词元的前缀长度在准确率上达到了最佳表现（78.8%），相对于基础模型有显著提升（+5.8%）。同时，它仍然实现了显著的长度缩减（-18.9%）。
过短前缀的权衡： 256 词元的前缀虽然能进一步压缩响应长度（-32.2%），但在准确率上略有下降（76.3%）。这表明当观察到的早期推理信息过少时，奖励信号的信息量会降低。
过长前缀的限制： 1024 词元的前缀未能进一步提高准确率，甚至导致平均长度回升到接近基础模型的水平（+0.4%）。这支持了论文的论点，即关键决策点主要集中在前缀中，过长的前缀会引入不必要的计算负担而不带来额外收益。

6.2.2. 非对称优势 (Asymmetric Advantages) 的影响

此项消融实验旨在理解非对称优势机制（公式 8）在防止奖励作弊和维持多样性方面的作用。

以下是原文 Table 7 的结果：

Setting	Acc $\uparrow$	Len $\downarrow$ (tokens)
RLPIR (with Asymmetric Advantages)	$\mathbf{7 8 . 8}$	$\mathbf{9 5 6 4}$
RLPIR (w/o Asymmetric Advantages)	42.3	6500

主要发现：

防止模式崩溃： 移除非对称裁剪会导致严重的性能下降：准确率暴跌至 42.3%，输出长度变得极短（平均约 6.5K 词元）。这与模式崩溃 (mode collapse) 现象一致，即策略通过发出退化的、高度重复的续写来夸大相似性。
保持多样性： 带有非对称优势的 RLPIR 保持了更高的准确率和更短的输出，表明裁剪信号有效地规范了策略，使其避免了崩溃，同时保留了合理的输出多样性。

原文还提供了无非对称优势时模式崩溃的示例，模型会重复冗余的思考过程：

Response:
\<think>
Okay, let's see. Let me try to break down the information given
\hookrightarrow step by step. Let me try to break down the information given
\hookrightarrow step by step. Let me try to break down the information given
\hookrightarrow step by step. Let me try to break down the information given
\hookrightarrow step by step. Let me try to break down the information given
\hookrightarrow step by step. Let me try to break down the information given
\hookrightarrow step by step. Let me try to break down the information given
\hookrightarrow step by step. Let me try to break down the information given
\hookrightarrow step by step. Let me try to break down the information given
\hookrightarrow step by step. Let me try to break down the information given
\hookrightarrow step by step. Let me try to break down the information given
\hookrightarrow step by step. Let me try to break down the information given
\hookrightarrow step by step. Let me try to break down the information given
\hookrightarrow step by step. [.. (repeat reasoning content omitted for
\hookrightarrow \text { brevity) ...]

6.2.3. 训练数据难度 (Training-Data Difficulty) 的影响

此项研究考察了训练数据难度（Section 6.2 和 Section 5.1 中描述的 Level 1-4）对准确率和推理效率的影响。

以下是原文 Table 8 的结果：

Training Data	Acc $\uparrow$	Len $\downarrow$ (tokens)
Qwen3-8B	73.0	14539
Level 1 (easiest)	75.2	12015
Level 2	77.0	11502
Level 3	$\mathbf{78.8}$	10255
Level 4 (hardest)	78.1	$\mathbf{9800}$
Random Subset	77.9	11890

主要发现：

准确率在中等难度达到峰值： 所有难度级别都提升了基础模型的准确率。其中，Level 3 (硬但可解) 的数据取得了最佳分数（78.8%），而 Level 4 的准确率略有下降。
- 原因假设： 内在一致性信号受益于足够具有挑战性以引发多样化前缀，但又不过于困难以至于组内推演变得普遍嘈杂的问题。过于简单（Level 1）的问题提供有限的梯度信号，因为大多数前缀已经一致；过于困难（Level 4）的问题增加了方差，降低了组一致性奖励的可靠性。
推理效率随难度增加而改善： 平均解决方案长度随着难度增加而单调递减，Level 4 实现了最大的压缩。
- 原因假设： 较难的问题导致采样前缀之间的分歧更大，这会产生更大的非对称惩罚（公式 8）来抑制偏离轨迹。在 RLPIR 下，策略因此学会更早地致力于高一致性路径，剪除冗长拖沓的续写，从而产生更短的最终推理链。
对训练数据难度的鲁棒性： 即使使用随机抽样的全数据集子集进行训练，也能获得与按难度分层子集相当的收益（77.9%），表明 RLPIR 对训练数据的难度分布具有鲁棒性。

6.2.4. 嵌入方法 (Embedding Method) 的影响

此项消融实验评估了用于计算组内一致性奖励的嵌入模型对 RLPIR 性能的敏感性。

以下是原文 Table 13 的结果：

Embedding Method	Acc $\uparrow$	Len(tokens)
all-MiniLM-L6-v2	$\mathbf{78 . 8}$	11797
Qwen3-Embedding-0.6B	78.6	$\mathbf{11239}$
TF-IDF	78.1	12016

主要发现：

性能稳定： RLPIR 的性能对嵌入方法的选择表现出显著的鲁棒性。无论是使用 all-MiniLM-L6-v2、Qwen3-Embedding-0.6B 还是 TF-IDF，准确率都在 78.1% 到 78.8% 之间，变化很小。
Qwen3-Embedding-0.6B 略优于长度： Qwen3-Embedding-0.6B 在保持高准确率的同时，实现了略微更短的输出长度。
这表明 RLPIR 的核心机制（前缀优化和组内一致性奖励）是稳健的，不严格依赖于特定的语义嵌入模型。

6.3. 训练动态讨论

6.3.1. 推理长度缩减的案例分析 (Reasoning Length Reduction Case Study)

为了具体说明效率提升，论文提供了一个 Qwen3-8B 模型解决 AIME24 问题前后的案例。

在 RLPIR 训练之前，模型生成了 2802 词元的解决方案。经过 RLPIR 训练（使用 512 词元前缀预算）后，同一个问题仅用 1299 词元就得以解决——缩减了 53.6%，并且最终答案相同。这个案例研究与 Section 7.3 中报告的总体趋势一致，表明优化早期前缀鼓励模型更早地“致力于”高一致性轨迹，并剪除冗长拖沓的续写。

以下是原文提供的 Qwen3-8B 模型在训练前后以及 GRPO 训练后的解决方案示例（为简洁，省略了部分推理内容 [... (reasoning omitted for brevity) ...]）：

Qwen3-8B's answer before training: 2802 tokens

The question is: ## Task 2\n\nAs the special train stops, a freight
\hookrightarrow train passes by. Peter counts the cars: Right after the
\hookrightarrow locomotive, 5 closed cars pass. Then follow 4 times as many
\hookrightarrow open cars. At the end, 6 tank cars pass.\n\nHow many cars does
\hookrightarrow the freight train have?
Response:

Okay, let me try to figure out how many cars are in the freight
\hookrightarrow train. So, Peter is counting the cars as the freight train
\hookrightarrow passes by. Let me break down the information step by step.
[... (reasoning omitted for brevity) ...]

The freight train's composition is described in a sequence by Peter
\hookrightarrow as it passes by. He counts the cars in the following order:
- **After the locomotive**, 5 **closed cars** pass.
- Then, **4 times as many open cars** follow the closed cars.
- Finally, 6 **tank cars** conclude the train.
  To determine the total number of **cars**, we first calculate the
\hookrightarrow number of each type:
- Closed cars: 5
- Open cars: 4 \times 5 = 20
- Tank cars: 6
  Adding these together gives:
\ $5 + 20 + 6 = 31 \$ 
The problem specifies that Peter counts the **cars**, and since the
\hookrightarrow locomotive is mentioned as a separate entity ("right after the
\hookrightarrow locomotive"), it is **not** included in the count of cars.
---
**Final Answer:**
\ $\boxed{31} \$

Qwen3-8B's answer after RLPIR training: 1299 tokens


Okay, let's see. So the problem is about Peter counting the cars of
\hookrightarrow a freight train as it passes by. The question is asking how
\hookrightarrow many cars the freight train has in total. Let me break down the
\hookrightarrow information given step by step.
[... (reasoning omitted for brevity) ...]

To determine the total number of cars in the freight train, we
\hookrightarrow analyze the sequence as described:
1. **After the locomotive**, there are **5 closed cars**.
2. **Then**, there are **4 times as many open cars** as closed
   \hookrightarrow cars. Since there are 5 closed cars, this means:
     $4 \times 5 = 20$  open cars.
3. **At the end**, there are **6 tank cars**.
   Adding these together gives the total number of cars:
\ $5 \text{ (closed)} + 20 \text{ (open)} + 6 \text{ (tank)} = 31 \$ 
Thus, the freight train has:
\ $\boxed{31} \$

Qwen3-8B's answer after GRPO training: 3271 tokens

The question is: ## Task 2\n\nAs the special train stops, a freight
     $\rightarrow$  train passes by. Peter counts the cars: Right after the
     $\rightarrow$  locomotive, 5 closed cars pass. Then follow 4 times as many
     $\rightarrow$  open cars. At the end, 6 tank cars pass. \n\nHow many cars does
     $\rightarrow$  the freight train have?
Response:

Okay, let's see. So the problem is about Peter counting the cars of
 $\rightarrow$  a freight train as it passes by. The question is asking how
 $\rightarrow$  many cars the freight train has in total. Let me try to break
 $\rightarrow$  down the information given
step by step.
[... (reasoning omitted for brevity) ...]
.
To determine how many **cars** the freight train has, we need to
 $\rightarrow$  carefully analyze the sequence of events described:
-.-
### Step-by-Step Breakdown
1. **After the locomotive**, Peter observes **5 closed cars**.
    - These are the first set of cars.
    - So, we count **5** cars.
2. **Then follow 4 times as many open cars**.
    - This means the number of open cars is **4 times** the number
       $\rightarrow$  of closed cars.
    - Since there are 5 closed cars, the number of open cars is:
      \$\$
        4 \times  $5=20$ 
        \$\$
    - So, we add **20** more cars.
3. **At the end**, **6 tank cars** pass by.
    - This is the final set of cars.
    - Add **6** more cars.
      -.-
### Total Number of Cars
Now, summing up all the cars (excluding the locomotive, as the
 $\rightarrow$  problem refers to "cars" and the locomotive is a separate
 $\rightarrow$  unit) :
\$\$
5 \text  $\{$  (closed cars) \} + 20 \text  $\{$  (open cars) \} + 6 \text  $\{$  (tank
 $\rightarrow$  cars)  $\}=31$ 
\$\$
- 
\#\#\# Final Answer
\$\$
\boxed\{31\}
\$\$

6.3.2. 相似度提升 (Similarity Improvement)

为了验证 RLPIR 确实有效地增加了组内语义一致性，论文在训练过程中跟踪了采样前缀之间的平均两两余弦相似度。

下图（原文 Figure 4）展示了训练过程中奖励相似度（train/rewards_sim）的变化趋势。

该图像是一个折线图，展示了训练过程中奖励相似度（train/rewards_sim）随训练步数的变化趋势，奖励相似度整体呈上升趋势并逐渐趋于稳定。

图 4: 平均两两余弦相似度在训练过程中采样推理前缀之间。清晰的上升趋势表明 RLPIR 增强了组内语义一致性，并鼓励生成更连贯和自洽的推理轨迹。

下图（原文 Figure 5）展示了验证集上奖励相似度（validation/rewards_sim）的变化趋势。

该图像是一个折线图，展示了验证集上奖励相似度（validation/rewards_sim）随着训练步骤（Step）的变化趋势。曲线起伏反映了训练过程中奖励相似度的动态变化。

图 5: AIME24 基准测试上平均两两余弦相似度的趋势。持续的增长表明模型随着训练的进行，逐渐学会生成语义更接近、更连贯的推理前缀。

主要发现：

训练过程中，前缀之间的平均两两余弦相似度呈现稳步上升趋势。这证实了组内一致性奖励提供了强大的学习信号，并成功引导模型生成语义对齐且相互一致的推理前缀。

7. 总结与思考

7.1. 结论总结

本文提出了 RLPIR (Reinforcement Learning with Prefix and Intrinsic Reward)，一个创新性的强化学习范式，旨在突破传统可验证奖励强化学习 (RLVR) 的局限。RLPIR 成功地实现了“不可能三角”：

无监督训练： 通过引入组内一致性奖励，RLPIR 摆脱了对外部验证器和真实标注数据的依赖，实现了无监督的训练。
低成本训练： 采用前缀推演范式，仅优化推理轨迹的前 $L$ 个词元，与标准 RLVR 方法相比，训练时间大幅减少了 6.96 倍。
高效推理： 经过 RLPIR 训练的模型能够生成显著更短的推理序列，将推理长度减少了 45%。

实验结果表明，在数学和通用基准测试上，RLPIR 在无需真实标注数据的情况下，达到了与 RLVR 相当的性能。同时，RLPIR 在通用领域表现出更强的泛化能力。其核心创新——前缀推演和组内一致性奖励（辅以非对称优势）——共同促成了这些显著的改进。

7.2. 局限性与未来工作

作者指出了 RLPIR 的几个局限性：

固定前缀长度 $L$ ： 尽管经验性地验证了 $L=512$ 的有效性，但当前框架不包含自适应选择 $L$ 的机制。未来工作可以探索如何根据任务或上下文动态调整前缀长度，以进一步提高鲁棒性。
超参数敏感性： 和许多强化学习方法一样，RLPIR 的性能对超参数（如 KL 权重、前缀长度和学习率）可能比较敏感。
资源限制： 实验主要集中在代表性的领域和模型规模，更广泛的验证（例如在其他领域或更大的模型上）是未来的重要方向。

7.3. 个人启发与批判

7.3.1. 个人启发

“不可能三角”的突破： RLPIR 成功地解决了 RLVR 面临的根本性挑战，即真实标注数据依赖、高成本和低效率。这为 LLM 强化学习的普适性和实用化开辟了新途径。它证明了在缺乏外部真实标注数据时，内在的一致性信号可以作为有效的奖励来源。
前缀优化的力量： 仅优化推理过程的关键前缀，而非冗长的完整轨迹，是一个非常直观且高效的思路。它基于“重要决策在早期”的假设，并成功地将其转化为可量化的性能提升。这对于资源受限的训练环境以及追求低延迟推理的应用具有重大意义。
内在奖励设计的巧妙： 组内一致性奖励结合非对称优势，在没有真实标注数据的情况下提供了一个强大的自监督信号，并有效避免了模式崩溃。这种设计理念可以启发其他领域中缺乏明确奖励信号的强化学习应用。
效率与性能的平衡： RLPIR 不仅降低了训练成本和推理长度，还在性能上与强基线持平甚至超越，这表明效率的提升不一定要以牺牲准确性为代价。

7.3.2. 批判与潜在改进

通用一致性奖励的泛化性考量： 尽管论文在数学和通用基准上取得了成功，但“语义一致性”是否总是与“正确性”或“高质量”高度相关？在某些开放性问题或需要创新性思维的领域，过度强调一致性可能反而抑制多样化和创新的解决方案。例如，在创意写作任务中，如果所有生成都趋于一致，则可能失去独创性。未来的工作可以探索如何平衡一致性与多样性。
嵌入模型的选择： 论文虽然指出 RLPIR 对嵌入方法鲁棒，但嵌入模型的质量（例如 all-MiniLM-L6-v2）仍然是内在奖励信号质量的关键。如果嵌入模型本身存在偏差或无法捕捉特定任务的细微语义，可能会影响 RLPIR 的性能。未来可以研究动态或自适应地学习嵌入，或者使用更强大的领域特定嵌入器。
非对称优势的阈值： $\min(0, \tilde{A}_g)$ 这种硬裁剪（将所有正优势置为 0）虽然有效防止了奖励作弊，但可能也丢弃了一些有用的正向学习信号。或许可以探索更平滑的非对称函数，或者动态调整阈值，以在防止作弊和鼓励高质量生成之间找到更优的平衡。
前缀长度 $L$ 的自适应机制： 作者也提到了这是未来的工作方向。手动设定 $L=512$ 是一个经验选择，但不同的任务、不同的复杂度可能需要不同的最佳前缀长度。开发一种能够智能地确定或学习最佳 $L$ 的机制，将进一步提升 RLPIR 的鲁棒性和适用性。例如，可以引入一个价值函数来预测在当前前缀长度下继续生成是否能够带来额外的信息增益，从而动态地决定截断点。
与其他 RL 技术的结合： RLPIR 基于 GRPO，未来可以探索将其与更先进的 RL 算法（如 PPO 的变体、SAC 等）或更复杂的信用分配机制相结合，以进一步提升性能和稳定性。
可解释性： 尽管 RLPIR 实现了效率和性能，但其内在奖励机制可能不如真实标注数据奖励直观。理解为什么某些前缀被认为是“高一致性”的，以及这种一致性如何转化为最终的正确性，可能会对模型改进提供更多洞察。

相似论文推荐

基于向量语义检索推荐的相关论文。

暂时没有找到相似论文。

RLPIR: Reinforcement Learning with Prefix and Intrinsic Reward

TL;DR 精炼摘要

摘要

思维导图

论文精读

中文精读约 32 分钟读完 · 21,095 字

1. 论文基本信息

1.1. 标题

1.2. 作者

1.3. 发表期刊/会议

1.4. 发表年份

1.5. 摘要

1.6. 原文链接

2. 整体概括

2.1. 研究背景与动机

2.2. 核心贡献/主要发现

3. 预备知识与相关工作

3.1. 基础概念

3.1.1. 强化学习 (Reinforcement Learning, RL)

3.1.2. 大型语言模型 (Large Language Models, LLMs)

3.1.3. 策略梯度 (Policy Gradient)

3.1.4. KL 散度 (Kullback-Leibler Divergence, DKL\mathbb{D}_{\mathrm{KL}}DKL​)

3.1.5. 余弦相似度 (Cosine Similarity)

3.1.6. 句子嵌入 (Sentence Embeddings)

3.2. 前人工作

3.2.1. 大型语言模型推理中的强化学习 (Reinforcement Learning for Reasoning in LLMs)

3.2.2. 超越可验证奖励 (Beyond Verifiable Rewards)

3.2.3. 高效强化学习训练范式 (Efficient Reinforcement Learning Training Paradigms)

3.3. 技术演进

3.4. 差异化分析

4. 方法论

4.1. 方法原理

4.2. 核心方法详解

4.2.1. 问题形式化 (Problem Formulation)

4.2.2. 前缀推演 (Prefix Rollout)

4.2.3. 组内一致性奖励 (Intra-Group Consistency Reward)

4.2.4. 非对称优势 (Asymmetric Advantages)

4.2.5. GRPO 优化器 (GRPO Optimizer)

5. 实验设置

5.1. 数据集

5.2. 评估指标

5.2.1. 准确率 (Accuracy, Acc)

5.2.2. 墙钟训练时间 (Wall-Clock Training Time)

5.2.3. 推理序列长度 (Reasoning Sequence Length)

5.2.4. 基准测试特定指标

5.3. 对比基线

5.4. 训练设置

5.5. 评估采样策略

6. 实验结果与分析

6.1. 核心结果分析

6.1.1. 训练有效性和泛化能力

6.1.2. 计算效率 (Compute Efficiency)

6.1.3. 推理效率 (Reasoning Efficiency)

6.2. 消融实验与参数分析

6.2.1. 前缀长度 LLL 的影响 (Effect of Prefix Length)

6.2.2. 非对称优势 (Asymmetric Advantages) 的影响

6.2.3. 训练数据难度 (Training-Data Difficulty) 的影响

6.2.4. 嵌入方法 (Embedding Method) 的影响

6.3. 训练动态讨论

6.3.1. 推理长度缩减的案例分析 (Reasoning Length Reduction Case Study)

6.3.2. 相似度提升 (Similarity Improvement)

7. 总结与思考

7.1. 结论总结

7.2. 局限性与未来工作

7.3. 个人启发与批判

7.3.1. 个人启发

7.3.2. 批判与潜在改进

相似论文推荐

3.1.4. KL 散度 (Kullback-Leibler Divergence, $\mathbb{D}_{\mathrm{KL}}$ )

6.2.1. 前缀长度 $L$ 的影响 (Effect of Prefix Length)