AiPaper
论文状态:已完成

QuestA: Expanding Reasoning Capacity in LLMs via Question Augmentation

发表:2025/07/17
原文链接PDF 下载
价格:0.10
价格:0.10
已有 6 人读过
本分析由 AI 生成,可能不完全准确,请以原文为准。

TL;DR 精炼摘要

论文提出了QuestA方法,旨在解决强化学习(RL)在提升大语言模型(LLM)处理超越其基础能力范围的复杂推理问题时的局限。该方法通过“问题增强”策略,在RL训练中引入部分解题思路作为辅助信息,有效降低问题难度并提供更丰富的学习信号。实验结果表明,QuestA显著提升了LLM在数学推理任务上的表现(pass@1和pass@k),尤其在标准RL难以取得进展的难题上效果显著,从而使得模型在强大开源基座上持续改进,并在多个数学基准测试中取得了新的SOTA成果。

摘要

Reinforcement learning (RL) has emerged as a central paradigm for training large language models (LLMs) in reasoning tasks. Yet recent studies question RL's ability to incentivize reasoning capacity beyond the base model. This raises a key challenge: how can RL be adapted to solve harder reasoning problems more effectively? To address this challenge, we propose a simple yet effective strategy via Question Augmentation: introduce partial solutions during training to reduce problem difficulty and provide more informative learning signals. Our method, QuestA, when applied during RL training on math reasoning tasks, not only improves pass@1 but also pass@k-particularly on problems where standard RL struggles to make progress. This enables continual improvement over strong open-source models such as DeepScaleR and OpenMath Nemotron, further enhancing their reasoning capabilities. We achieve new state-of-the-art results on math benchmarks using 1.5B-parameter models: 72.50% (+10.73%) on AIME24, 62.29% (+12.79%) on AIME25, and 41.67% (+10.11%) on HMMT25. Code, data and model are available at https://github.com/foreverlasting1202/QuestA.

思维导图

论文精读

中文精读

1. 论文基本信息 (Bibliographic Information)

  • 标题 (Title): QuestA: 通过问题增强扩展大语言模型的推理能力 (QuestA: Expanding Reasoning Capacity in LLMs via Question Augmentation)
  • 作者 (Authors): Jiazheng Li, Hongzhou Lin, Hong Lu, Kaiyue Wen, Zaiwen Yang, Jiaxuan Gao, Yi Wu, Jingzhao Zhang.
  • 隶属机构 (Affiliations): 清华大学 (Tsinghua University), 上海期智研究院 (Shanghai Qi Zhi Institute), 亚马逊 (Amazon), 斯坦福大学 (Stanford University).
  • 发表期刊/会议 (Journal/Conference): 本文目前发布在预印本网站 arXiv 上,属于计算机科学 > 计算与语言 (cs.CL) 领域。arXiv 是学术界用于快速分享最新研究成果的平台,通常论文会先发布于此,再投递至顶级会议或期刊。
  • 发表年份 (Publication Year): 2025 (根据论文引用格式推断,实际提交于 2024 年 7 月)。
  • 摘要 (Abstract): 强化学习 (RL) 已成为训练大语言模型 (LLMs) 进行推理任务的核心范式。然而,近期研究质疑 RL 在提升模型超越其基础推理能力方面的有效性。这引出了一个关键挑战:如何调整 RL 以更有效地解决更难的推理问题?为应对此挑战,我们提出了一种简单而有效的策略——问题增强 (Question Augmentation):在训练过程中引入部分解题思路,以降低问题难度并提供信息更丰富的学习信号。我们的方法名为 QuestA,在数学推理任务的 RL 训练中应用时,不仅提升了 pass@1(单次尝试通过率),也提升了 pass@k(k次尝试通过率),尤其是在标准 RL 难以取得进展的问题上。这使得模型能够在 DeepScaleROpenMath Nemotron 等强大的开源模型基础上持续改进,进一步增强其推理能力。我们使用 1.5B 参数模型在多个数学基准测试上取得了新的 SOTA 结果。
  • 原文链接 (Source Link):

2. 整体概括 (Executive Summary)

  • 研究背景与动机 (Background & Motivation - Why):

    • 核心问题: 当前使用强化学习 (RL) 训练大语言模型 (LLM) 进行复杂推理(如数学解题)时面临一个瓶颈:RL 似乎很难真正扩展模型固有的推理能力,而更多是利用其已有的知识。
    • 具体挑战 (Gap):
      1. 训练于简单问题: 当用 RL 在模型已经能解决的“简单”问题上训练时,模型会过度自信,导致其思维多样性下降(即“熵坍塌”),虽然单次成功率 (pass@1) 可能提升,但多次尝试的成功率 (pass@k) 会下降,损害了模型的探索和泛化能力。
      2. 训练于困难问题: 当直接用 RL 在模型无法解决的“困难”问题上训练时,由于模型几乎无法自行生成任何正确答案,导致奖励信号极其稀疏 (sparse rewards),学习过程非常缓慢甚至停滞。
    • 创新思路: 本文的切入点非常巧妙,它提出了一种数据增强的策略来解决这个两难困境。核心思想是:在训练时,通过给困难问题主动添加“提示”(即部分解题步骤),人为地降低问题难度。这就像给学生做难题时提供一些思路,帮助他们入门。这种方法被称为 QuestA (Question Augmentation)。
  • 核心贡献/主要发现 (Main Contribution/Findings - What):

    • 提出了 QuestA 方法: 一种简单、有效且与具体 RL 算法解耦的数据增强框架。它通过在困难问题的提示 (prompt) 中注入部分标准答案作为“提示”,为 RL 训练提供了更密集的奖励信号,从而显著提升了训练效率和效果。
    • 验证了困难问题的重要性: 实验明确指出,为了扩展模型的推理边界,必须在“困难”问题上进行训练。QuestA 正是使得在困难问题上进行有效训练成为可能。
    • 实现了 SOTA 性能: 在 1.5B 参数规模的模型上,QuestA 取得了当前最先进 (State-of-the-Art) 的数学推理性能,在 AIME24AIME25HMMT25 等高难度数学竞赛基准上取得了显著提升,其性能甚至超过了一些参数量大 20 倍以上的模型。
    • 解决了 pass@k 下降问题: 与标准 RL 训练常导致的 pass@k 在 k 值增大时下降的现象相反,QuestA 能够同时提升 pass@1pass@k,表明该方法在提升准确率的同时,也保护了模型生成解题思路的多样性。

3. 预备知识与相关工作 (Prerequisite Knowledge & Related Work)

  • 基础概念 (Foundational Concepts):

    • 强化学习 (Reinforcement Learning, RL): 一种机器学习范式。模型(或称代理 Agent)通过与环境互动来学习。它会尝试执行某些动作 (Action),并从环境中获得奖励 (Reward) 或惩罚。RL 的目标是学习一个策略 (Policy),以最大化长期累积奖励。在 LLM 推理中,LLM 是代理,问题是环境,生成的解题步骤是动作,答案是否正确决定了奖励。
    • RLVR (Reinforcement Learning with Verifiable Rewards): 带有可验证奖励的强化学习。这是一种特别适用于推理任务的 RL 形式,因为推理任务(如数学、编程)的答案通常有明确的对错标准(例如,最终答案是否等于标准答案)。这使得奖励信号客观、可靠且易于大规模自动化获取,避免了依赖人类反馈的高昂成本。
    • pass@k: 一个评估代码生成或问题解决能力的常用指标。它衡量的是:对同一个问题,模型独立生成 k 个不同答案,其中至少有一个是正确的概率pass@1 就是指生成一次就正确的概率。pass@k 不仅衡量准确性,也间接反映了模型生成正确答案的多样性。如果模型只会一种解法,那么 pass@k 的增长会很慢;如果它能从多个不同路径得到正确答案,pass@k 会增长得更快。
    • 熵坍塌 (Entropy Collapse): 在 RL 训练中,如果模型过度拟合于少数几个高奖励的输出序列,它就会丧失探索其他可能性的能力,其输出的概率分布会变得非常尖锐(熵值降低)。这会导致模型思维僵化,在面对新问题或需要创造性解法时表现不佳。
  • 前人工作 (Previous Works):

    • 对 RL 效果的质疑: 论文引用了 Yue et al. (2025) 和 Liu et al. (2025) 的研究,他们发现尽管 RL 能提升 pass@1,但往往以牺牲 pass@k 为代价,这表明 RL 可能只是在“利用”模型已有的能力,而非“扩展”新能力。
    • 对熵坍塌的解释: Cui et al. (2025) 等研究将 pass@k 下降归因于熵坍塌,即模型在 RL 训练中变得过于“自信”,失去了探索多样化解题路径的能力。
    • 主流 RL 算法: 论文中提到了 GRPODAPO 等先进的 RL 算法,它们是当前用于训练 LLM 推理的主流方法。QuestA 的一个优点是它可以与这些算法无缝集成。
  • 差异化分析 (Differentiation):

    • 修改 RL 算法设计复杂奖励函数的工作不同,QuestA 是一种数据驱动 (data-centric) 的方法。它不改变 RL 算法本身,而是从输入端入手,通过增强训练数据来简化学习任务。这种方法更加简单、模块化,并且易于实现。
    • 与传统的课程学习 (Curriculum Learning)(即从易到难安排任务)相比,QuestA 在 RL 框架内实现了一种动态的、细粒度的课程。它不是简单地切换问题,而是在同一个困难问题上,通过调整“提示”的多少来动态控制难度,这是一种更平滑的难度过渡。

4. 方法论 (Methodology - Core Technology & Implementation Details)

QuestA 的核心是一种通过在问题中添加部分答案来增强训练数据的框架。

  • 方法原理 (Methodology Principles):

    • 核心思想: 将一个复杂的多步推理问题分解。如果模型无法独立完成从第 1 步到第 N 步的整个过程,那么就给它前 p 步的答案作为“提示”,让它学习从第 p+1 步到第 N 步。
    • 直觉 (Intuition): 这种“脚手架”式 (scaffolding) 的学习方式,使得模型在面对一个原本完全无法解决的问题时,能够获得一个有效的起点。这不仅能让模型学到后续的解题步骤,还能通过成功的解题获得正向的奖励信号,从而让 RL 训练得以正向循环。
  • 方法步骤与流程 (Steps & Procedures):

    1. 筛选困难问题: 从大规模数据集(如 OpenR1-Math-220K)中,使用一个辅助模型筛选出那些它几乎无法解决的“困难”问题(例如,成功率为 0 或 1/8)。本文筛选出了 26K 个问题。

    2. 问题增强 (Question Augmentation): 对每一个困难问题,找到其对应的标准答案(通常包含解题思路和最终答案)。取该答案的前 p%(按 token 数量计算)作为“提示”,并将其附加到原始问题的末尾。

      • 如下图所示,原始问题下方被添加了一个“Hint: Partial Solution”部分。

        该图像是示意图,展示了QuestA方法的整体流程。图中包括“原始问题”和“部分解答”(Question Augmentation)两部分输入,经过强化学习训练后,模型的推理能力得到提升,最终实现更高的答题准确率。此图直观体现了部分解答在训练中的辅助作用,有助于提升大模型解决数学推理题的效果。 该图像为柱状图,展示了不同模型在五个数学推理基准测试(AIME24、AIME25、HMMT FEB 25、Olympiad Bench、BRUMO25)上的准确率(Accuracy Avg@32,百分比)。图中对比了Qwen3-1.7B、Nemotron-1.5B、QuestA-Nemotron-1.5B以及DeepSeek-R1-Distill-32B四个模型的表现,结果显示采用QuestA方法的Nemotron-1.5B在各测试集准确率均显著高于其他模型,提升幅度明显。

    3. 与 RL 流程集成: 将这些被增强过的问题作为 RL 训练的输入数据。RL 算法(如 GRPO)和奖励函数保持不变。模型的目标是基于问题和提示,生成剩余的正确解题步骤。

    4. 课程学习策略 (Curriculum Learning): 为了让模型最终能够独立解决问题(即在没有提示的情况下),QuestA 采用了一种由易到难的课程策略:

      • 阶段一: 使用较多的提示(例如 p=50%)进行训练,直到模型性能饱和。
      • 阶段二: 减少提示量(例如 p=25%),在上一阶段训练好的模型基础上继续训练。
      • 这个过程可以持续,直到最终在没有提示 (p=0%) 的情况下训练,但实验发现从 25% 到 0% 的提升不明显。
  • 数学公式与关键细节 (Mathematical Formulas & Key Details):

    • 论文在第 4 节从理论上解释了为什么 QuestA 有效。
    • 解集 (Solution Set): S(q)={τVR(q,τ)=1} S(q) = \{ \tau \in \mathcal{V}^* \mid \mathrm{R}(q, \tau) = 1 \}
      • qq: 一个问题。
      • τ\tau: 一个可能的解题路径(一个 token 序列)。
      • V\mathcal{V}^*: 所有可能的 token 序列集合。
      • R(q,τ)\mathrm{R}(q, \tau): 奖励函数,如果 τ\tauqq 的正确解,则为 1,否则为 0。
      • S(q)S(q): 问题 qq 的所有正确解的集合。
    • 模型能力集 (Model Capacity Set): C(q,δp)=argminSV{S τSPμ(q,τ)1δp} C(q, \delta_p) = \arg\min_{S \subseteq \mathcal{V}^*} \left\{ |S| \ \bigg| \sum_{\tau \in S} P_\mu(q, \tau) \geq 1 - \delta_p \right\}
      • Pμ(q,τ)P_\mu(q, \tau): 模型 μ\mu 在给定问题 qq 时生成解 τ\tau 的概率。
      • δp\delta_p: 一个很小的概率阈值。
      • C(q,δp)C(q, \delta_p): 模型最有可能生成的解的集合,这些解的总概率至少为 1δp1 - \delta_p
    • 核心理论 (Theorem 4.4): 如果一个问题的解集 S(q)S(q) 和模型的能力集 C(q,δp)C(q, \delta_p) 没有交集,即 C(q,δp)S(q)=C(q, \delta_p) \cap S(q) = \emptyset,那么 RL 算法将很难(或需要极大的采样量)采样到任何一个正确解,从而无法获得正奖励,导致训练停滞。
    • QuestA 的作用 (Theorem 4.6): QuestA 通过提供提示 hqh_q,将一个低概率事件(生成完整正确解)分解为两个或多个更高概率的事件(例如,生成提示,然后在给定提示的情况下生成剩余部分)。这使得 S(q)S(q)C(q,δp)C(q, \delta_p) 更有可能产生交集,从而大大降低了 RL 训练所需的样本复杂度,提高了学习效率。

5. 实验设置 (Experimental Setup)

  • 数据集 (Datasets):
    • 训练数据: OpenR1-Math-220K。首先用 DeepSeek-R1-Distill-1.5B 筛选出 26K 个最难的问题作为训练集。
    • 评估基准 (Evaluation Benchmarks): 使用了一系列高难度的数学竞赛数据集,包括 AIME24, AIME25, HMMT FEB 25, Olympiad Bench, BRUMO25。这些数据集被认为是衡量 LLM 推理能力上限的黄金标准。
  • 评估指标 (Evaluation Metrics):
    • 主要指标是 pass@1,在 32 个采样结果上进行平均。
    • 同时分析了 pass@k 曲线,以评估模型输出的多样性。
    • pass@k 使用了 unbiased estimator 进行计算,公式为: pass@k:=ExiD[1(ncik)(nk)] \mathrm{pass}@k := \mathbb{E}_{x_i \sim \mathcal{D}} \left[ 1 - \frac{\binom{n - c_i}{k}}{\binom{n}{k}} \right]
      • nn: 每个问题生成的总样本数。
      • cic_i: 其中正确的样本数。
      • 这个公式比简单的 1(1ci/n)k1 - (1 - c_i/n)^k 偏差更小。
  • 对比基线 (Baselines):
    • 基础模型: Nemotron-1.5BDeepScaleR-1.5B(在应用 QuestA 之前)。
    • 同规模模型: Qwen3-1.7B
    • 更大规模模型: DeepSeek-R1-Distill-32BQwen3-8B,用于展示 QuestA 能够让小模型达到甚至超越大模型的性能。
    • 受控实验:
      • Easy-Nemotron-1.5B: 只在“简单”问题上进行标准 RL 训练。
      • Hard-Nemotron-1.5B: 只在“困难”问题上进行标准 RL 训练。

6. 实验结果与分析 (Results & Analysis)

  • 核心结果分析 (Core Results Analysis):

    • 性能大幅提升: 从下方的图表(对应原文 Table 1)可以看出,QuestA-Nemotron-1.5B 在所有五个数学基准上都显著优于其基线 Nemotron-1.5B,平均提升超过 10%。

    • 超越更大模型: QuestA-Nemotron-1.5B (1.5B 参数) 的性能全面超越了 DeepSeek-R1-Distill-32B (32B 参数),展示了该方法极高的效率。

      该图像为柱状图,展示了不同模型在五个数学推理基准测试(AIME24、AIME25、HMMT FEB 25、Olympiad Bench、BRUMO25)上的准确率(Accuracy Avg@32,百分比)。图中对比了Qwen3-1.7B、Nemotron-1.5B、QuestA-Nemotron-1.5B以及DeepSeek-R1-Distill-32B四个模型的表现,结果显示采用QuestA方法的Nemotron-1.5B在各测试集准确率均显著高于其他模型,提升幅度明显。 该图像为图表,展示了不同模型在AIME25和HMMT 2025两项测试中,基于样本数量(对数刻度)下的Pass@k准确率表现。图中包括Nemotron-1.5B、QuestA-Nemotron-1.5B、Easy-Nemotron-1.5B和Hard-Nemotron-1.5B四条曲线。结果显示,QuestA-Nemotron-1.5B在两个测试集上均优于其他版本,表明QuestA方法提升了大规模模型的推理准确率。

  • pass@k 分析 (Analysis of pass@k):

    • 下图(对应原文 Figure 2)是本文最重要的发现之一。
      • 蓝色曲线 (基线): Nemotron-1.5B 的原始性能。

      • 红色曲线 (Easy RL): 在简单问题上训练后,pass@1 略有提升,但随着 k 增大,曲线很快掉到基线以下,证实了“熵坍塌”现象。

      • 绿色曲线 (Hard RL): 在困难问题上训练,pass@k 整体提升,但学习效率低。

      • 橙色曲线 (QuestA): 使用 QuestA 训练后,整个 pass@k 曲线都位于其他曲线之上,表明它既提升了单次成功率,又保持了甚至增强了解题路径的多样性。

        该图像为图表,展示了不同模型在四个数学推理基准(AIME24、AIME25、HMMT Feb 2025、BRUMO 2025)上的Pass@k准确率随样本数量(对数刻度)变化的趋势。图中曲线比较了Nemotron-1.5B、QuestA-Nemotron-1.5B(含无hint版本)、Easy-Nemotron-1.5B和Hard-Nemotron-1.5B的表现,结果显示QuestA增强模型普遍优于基线Nemotron,尤其在样本量增加时优势更明显,体现了QuestA方法在提升大模型数学推理能力上的有效性。 该图像为图表,展示了不同模型在四个数学推理基准(AIME24、AIME25、HMMT Feb 2025、BRUMO 2025)上的Pass@k准确率随样本数量(对数刻度)变化的趋势。图中曲线比较了Nemotron-1.5B、QuestA-Nemotron-1.5B(含无hint版本)、Easy-Nemotron-1.5B和Hard-Nemotron-1.5B的表现,结果显示QuestA增强模型普遍优于基线Nemotron,尤其在样本量增加时优势更明显,体现了QuestA方法在提升大模型数学推理能力上的有效性。

  • 消融实验/参数分析 (Ablation Studies / Parameter Analysis):

    • 课程学习的重要性 (Table 3): 实验证明,采用 50% 提示 -> 25% 提示的两阶段课程学习策略,比一直使用 50% 提示进行训练效果更好。这说明逐步减少辅助、让模型趋向独立思考是至关重要的。

    • 提示的必要性 (Table 5): 即使在筛选出的困难问题上进行训练(不加提示),模型性能也有所提升,但这远不如添加了提示的 QuestA 方法。并且,QuestA 达到同等性能所需的训练步数更少,效率更高。

    • 模型泛化性 (Table 6): QuestA 同样能有效提升 DeepScaleR-1.5B 模型,证明该方法不依赖于特定的模型架构。

    • 训练动态 (Training Dynamics): 如下图(对应原文 Figure 5)所示,在 QuestA 训练过程中,模型的平均奖励和生成长度稳步提升,同时平均熵保持稳定,没有出现崩溃,这从根本上解释了为什么 pass@k 表现优异。

      该图像由三幅折线图组成,展示了QuestA-Nemotron-1.5B模型在无提示条件下,随着训练步骤增加,平均奖励、平均长度和平均熵的变化趋势。左图显示平均奖励随训练提升稳定上升,中图呈现平均长度从约12000上升至18000,右图则显示平均熵在训练初期波动后逐渐下降,整体说明模型训练过程中性能和生成文本特征的演变。 该图像为两个折线图,展示了Hard-Nemotron-1.5B与QuestA-Nemotron-1.5B两种模型在AIME25和HMMT 2025数学测试上的Pass@1准确率随训练步数变化的趋势。结果表明,QuestA-Nemotron-1.5B模型在训练过程中准确率提升更快且整体表现更优。

7. 总结与思考 (Conclusion & Personal Thoughts)

  • 结论总结 (Conclusion Summary):

    • 本文提出了 QuestA,一个轻量级、与算法无关的数据增强框架,通过在 RL 训练中为困难问题添加部分解题思路作为“提示”,有效解决了 RL 在复杂推理任务中学习效率低和能力扩展难的问题。
    • QuestA 不仅显著提升了模型在多个高难度数学基准上的性能,达到了新的 SOTA 水平,而且成功避免了标准 RL 训练中常见的“熵坍塌”问题,同时提升了 pass@1pass@k
    • 该研究为如何有效利用 RL 扩展 LLM 的推理边界提供了一个简单、实用且高效的新范式。
  • 局限性与未来工作 (Limitations & Future Work):

    • 依赖标准答案: QuestA 的有效性依赖于高质量的标准答案来生成提示。对于那些没有现成答案或答案难以获取的领域,该方法的应用可能会受限。
    • 提示生成策略: 目前的提示是简单地截取答案的前 p%。未来可以探索更智能的提示生成策略,例如只提供关键步骤或最难想到的那一步。
    • 领域扩展: 作者提出,QuestA 的思想可以推广到其他需要复杂推理的领域,如竞技编程 (competitive coding)软件工程 (software engineering)智能体任务 (agentic tasks),设计适用于这些领域的特定问题增强流程将是重要的未来方向。
  • 个人启发与批判 (Personal Insights & Critique):

    • 大道至简: QuestA 的成功体现了“大道至简”的哲学。它没有去修改复杂的 RL 算法,而是回归到学习任务本身,通过巧妙地调整数据来降低学习难度。这种数据驱动的思路在机器学习领域具有普遍的指导意义。
    • 教育学隐喻: 这个方法与人类教育过程高度相似。一个好的老师不会直接给出难题的答案,而是通过提供恰到好处的提示来引导学生独立思考,QuestA 的课程学习策略正是这一理念的体现。
    • 潜在问题: 课程学习的超参数(如切换提示比例的时间点、提示的比例 p)可能需要针对不同任务和模型进行仔细调整,这可能会引入一些调参成本。此外,如何确保模型学到的是通用的推理能力,而不是对“提示格式”的依赖,也是一个值得深入研究的问题。不过,实验结果(在无提示的测试集上表现优异)已经初步证明了其泛化能力。

相似论文推荐

基于向量语义检索推荐的相关论文。

暂时没有找到相似论文。