AiPaper
论文状态:已完成

Risk-Sensitive RL for Alleviating Exploration Dilemmas in Large Language Models

发表:2025/09/29
原文链接PDF 下载
价格:0.10
价格:0.10
已有 3 人读过
本分析由 AI 生成,可能不完全准确,请以原文为准。

TL;DR 精炼摘要

针对大语言模型推理任务中,标准强化学习微调因初始策略集中而导致的“探索困境”(即提升单解准确率pass@1却损害多解性能pass@k),本文提出了一个风险敏感强化学习框架。该框架引入“风险寻求”目标(插值于平均与最大奖励之间),并催生RS-GRPO算法,通过放大对困难问题的学习来驱动模型进行更深度的探索。实验证实,该方法在六个数学基准和五个大语言模型上,能显著提升pass@k性能,同时保持或增强pass@1准确率,且实现简便。

摘要

Reinforcement Learning with Verifiable Rewards (RLVR) has proven effective for enhancing Large Language Models (LLMs) on complex reasoning tasks. However, existing methods suffer from an exploration dilemma: the sharply peaked initial policies of pre-trained LLMs confine standard RL algorithms to a narrow set of solutions, boosting single-solution accuracy (pass@1) but suppressing solution diversity and multi-solution performance (pass@k). As a result, RLVR often distills existing capabilities rather than discovering new reasoning strategies. To overcome this, we introduce a Risk-Sensitive Reinforcement Learning framework. Our approach employs a risk-seeking objective that interpolates between mean and maximum rewards, leading to a novel algorithm, Risk-Sensitive GRPO (RS-GRPO), which drives deeper exploration by amplifying learning from challenging prompts. Remarkably, RS-GRPO is simple to implement, requiring only minor code modifications. On six mathematical reasoning benchmarks and with five different LLMs, RS-GRPO consistently improves pass@k performance while maintaining or enhancing pass@1 accuracy.

思维导图

论文精读

中文精读

1. 论文基本信息 (Bibliographic Information)

  • 标题 (Title): Risk-Sensitive RL for Alleviating Exploration Dilemmas in Large Language Models (风险敏感强化学习用于缓解大语言模型中的探索困境)
  • 作者 (Authors): Yuhua Jiang, Jiawei Huang, Yufeng Yuan, Xin Mao, Yu Yue, Qianchuan Zhao, Lin Yan
  • 隶属机构 (Affiliations): 清华大学 (Tsinghua University), 苏黎世联邦理工学院 (ETH Zurich), 字节跳动 Seed 团队 (ByteDance Seed)
  • 发表期刊/会议 (Journal/Conference): 本文目前为预印本 (Preprint),发布于 arXiv
  • 发表年份 (Publication Year): 2025 (根据论文信息,日期为 2025 年 9 月 30 日,这可能是一个占位符日期)
  • 摘要 (Abstract): 论文指出,尽管带可验证奖励的强化学习 (RLVR) 能有效提升大语言模型 (LLM) 在复杂推理任务上的性能,但现有方法存在“探索困境”:预训练 LLM 的初始策略分布过于“尖锐”,导致标准强化学习算法局限于狭窄的解空间,虽然提升了单解准确率 (pass@1),却抑制了解决方案的多样性,损害了多解性能 (pass@k)。为解决此问题,论文提出了一个风险敏感强化学习框架,其核心是一个在“平均奖励”和“最大奖励”之间插值的“风险寻求”(risk-seeking) 目标。该框架催生了一种新算法——风险敏感 GRPO (RS-GRPO),通过放大对困难问题的学习来驱动更深度的探索。该算法实现简单,仅需少量代码修改。在六个数学推理基准和五个不同 LLM 上的实验表明,RS-GRPO 能在保持或提升 pass@1 的同时,持续改善 pass@k 性能。
  • 原文链接 (Source Link):

2. 整体概括 (Executive Summary)

  • 研究背景与动机 (Background & Motivation - Why):

    • 核心问题: 在使用强化学习微调大语言模型(特别是用于推理任务)时,存在一个普遍的“探索困境” (exploration dilemma)。
    • 问题的重要性与挑战: 预训练好的 LLM 并非一张白纸,其初始策略已经非常集中(sharply peaked),倾向于生成某些特定类型的答案。标准的强化学习方法(如 GRPO)往往会沿着这个初始策略的“山峰”继续向上优化,虽然能让最可能的答案变得更正确(提升 pass@1),但代价是牺牲了答案的多样性,导致模型发现新解题思路的能力下降,甚至损害了 pass@k 性能。这使得强化学习更像是在“提纯”模型已有的能力,而非“发现”新的能力。
    • 论文的切入点: 作者认为问题根源在于标准强化学习优化的是平均奖励,这天然地偏爱高概率的解。论文的创新思路是,将优化目标从风险中性 (risk-neutral) 的“平均奖励”转变为风险寻求 (risk-seeking) 的目标,即更关注那些能带来最高奖励的解,即使它们当前出现的概率很低。
  • 核心贡献/主要发现 (Main Contribution/Findings - What):

    • 提出新框架与算法: 提出了一个风险敏感强化学习 (Risk-Sensitive RL) 框架来解决 LLM 的探索困境,并将其具体实现为一个简单而强大的算法——风险敏感 GRPO (RS-GRPO)

    • 理论与实证分析: 从理论(简单的多臂老虎机问题)和实证两方面证明,当初始策略距离最优解较远且分布尖锐时,标准强化学习会陷入局部最优,而风险敏感方法能够成功“逃离”并找到全局最优解。

    • 优越的性能权衡: 在六个数学推理基准和五个 LLM 上的大量实验表明,RS-GRPO 显著提升了 pass@k 性能,同时保持甚至提升了 pass@1 准确率,实现了比现有 pass@k 优化方法更优的性能权衡。


3. 预备知识与相关工作 (Prerequisite Knowledge & Related Work)

  • 基础概念 (Foundational Concepts):

    • 强化学习 (Reinforcement Learning, RL): 一种机器学习范式。其中,一个智能体 (agent),在本文中是 LLM,通过与环境 (environment),即用户输入的提示 (prompt),交互来学习。智能体采取行动 (action),即生成一个回复 (response),并从环境中获得一个奖励 (reward) 信号,以评估该行动的好坏。智能体的目标是学习一个策略 (policy) π\pi,以最大化累积奖励。
    • 带可验证奖励的强化学习 (Reinforcement Learning with Verifiable Rewards, RLVR): RL 在 LLM 中的一种特定应用场景。主要用于那些可以被程序自动、准确判断对错的任务,例如数学题的最终答案是否正确。这避免了依赖昂贵且不稳定的人类反馈 (RLHF) 或奖励模型。
    • pass@k 评估指标: 用于衡量代码生成或问题求解任务性能的指标。它评估的是:从模型生成的 NN 个候选答案中,随机抽取 kk 个,其中至少有一个是正确的概率。pass@1 表示生成单个答案的正确率,而 pass@k (k>1k>1) 则能衡量模型生成多样化正确解的能力。pass@k 值越高,说明模型的探索能力和解题路径的多样性越好。
    • GRPO (Generalized Reward Policy Optimization): 一种常用于 LLM 微调的策略梯度 (Policy Gradient) 算法。
  • 前人工作 (Previous Works):

    • 传统 RL 探索 vs. LLM 探索: 传统 RL(如游戏)通常从随机策略开始,探索是核心。而 LLM 从一个已经非常强大的预训练策略开始,探索的挑战在于如何摆脱初始策略的“引力”。
    • pass@k 优化方法: 已有一些工作尝试直接优化 pass@k。论文在 Table 1 和附录B中将自身方法与这些工作进行了比较,如 Mahdavi et al. [39], Chen et al. [9] 等。
  • 差异化分析 (Differentiation):

    • 与传统 pass@k 优化方法的区别:
      1. 适用性更广: 很多 pass@k 方法仅适用于二元奖励(对或错),而 RS-GRPO 的框架天然支持连续奖励

      2. 梯度信号更密集 (Denser Signal): 许多 pass@k 方法在问题准确率超过某个阈值后,梯度信号会消失,这可能阻碍 pass@1 的进一步提升。而 RS-GRPO 即使在准确率很高的问题上也能提供非零的梯度,从而更好地平衡 pass@1pass@k 的性能。


4. 方法论 (Methodology - Core Technology & Implementation Details)

  • 方法原理 (Methodology Principles):

    • 核心思想: 放弃优化平均奖励,转而优化一个能够平滑地从“平均奖励”过渡到“最大奖励”的目标。这通过引入风险敏感 (Risk-Sensitive) 的概念和指数效用函数 (exponential utility function) 来实现。
    • 直觉: 当我们追求最大奖励时,算法会给予那些罕见但奖励极高的解决方案(即新的、正确的解题思路)巨大的学习权重,从而激励模型去探索这些未知的、有潜力的区域。
  • 方法步骤与流程 (Steps & Procedures):

    1. 标准 RL 目标: 首先,标准 RL 的目标是最大化期望奖励 J(πθ)J(\pi_{\theta})J(πθ)=ExD,yπθ(x)[r(x,y)] J(\pi_{\theta}) = \mathbb{E}_{x \sim \mathcal{D}, y \sim \pi_{\theta}(\cdot|x)}[r(x, y)]
    2. 风险敏感目标: 论文引入了风险敏感目标 JRS(πθ)J_{RS}(\pi_{\theta}) (Eq. 5),其定义为: IRS(πθ)=ExD[1βlogEyπθ(x)[eβr(y)]] \mathcal { I } _ { \mathrm { RS } } ( \pi _ { \theta } ) = \mathbb { E } _ { x \sim \mathcal { D } } \left[ \frac { 1 } { \beta } \log \mathbb { E } _ { y \sim \pi _ { \theta } ( \cdot | x ) } \Big [ e ^ { \beta r ( y ) } \Big ] \right]
      • 这里的超参数 β\beta 控制着风险敏感的程度:
        • β0\beta \to 0 时,该目标退化为标准 RL 的平均奖励目标(风险中性)。
        • β+\beta \to +\infty 时,该目标近似于最大化奖励 maxyr(y)\max_y r(y)(风险寻求)。
        • β\beta \to -\infty 时,该目标近似于最小化奖励 minyr(y)\min_y r(y)(风险规避)。
      • 为了促进探索,本文采用风险寻求策略,即 β>0\beta > 0
    3. 风险敏感策略梯度: 通过对新目标求导,得到了新的策略梯度(Theorem 1),其形式与标准策略梯度类似,但使用了新的风险敏感优势函数 (Risk-Sensitive Advantage Function) Aβπθ(y)A_{\beta}^{\pi_{\theta}}(y)
  • 数学公式与关键细节 (Mathematical Formulas & Key Details):

    • 标准策略梯度估计: θJ(πθ)=1Ni=1NA^πθ(yi)θlogπθ(yix),A^πθ(yi)=r(yi)1Nj=1Nr(yj) \nabla_{\theta}\mathcal{J}(\pi_{\theta}) = \frac{1}{N} \sum_{i=1}^N \hat{A}^{\pi_{\theta}}(y_i) \nabla_{\theta} \log \pi_{\theta}(y_i|x), \quad \hat{A}^{\pi_{\theta}}(y_i) = r(y_i) - \frac{1}{N} \sum_{j=1}^N r(y_j)

      • A^πθ(yi)\hat{A}^{\pi_{\theta}}(y_i) 是对样本 yiy_i 的优势估计,衡量其奖励 r(yi)r(y_i) 相对于当前策略下平均奖励的好坏。
    • 风险敏感优势函数 (RS-GRPO 的核心): A^βπθ(yi)=1β(eβr(yi)1Nj=1Neβr(yj)1) \hat { A } _ { \beta } ^ { \pi _ { \theta } } ( y _ { i } ) = \frac { 1 } { \beta } \left( \frac { e ^ { \beta r ( y _ { i } ) } } { \frac { 1 } { N } \sum _ { j = 1 } ^ { N } e ^ { \beta r ( y _ { j } ) } } - 1 \right)

      • 这个公式是 RS-GRPO 算法的精髓。它重新计算了每个样本的优势值。eβr(yi)e^{\beta r(y_i)} 项会指数级地放大高奖励样本的权重。分母是一个归一化项。
      • 实现简单: 只需在现有 GRPO 代码中,用这个新的优势函数公式替换掉原来的即可。
    • 优势函数分析 (图 2):

      该图像为图表,展示了不同风险参数β在连续奖励设置(a)和二元奖励设置(b)下优势(Advantage)随奖励或提示准确率变化的趋势。图中曲线颜色区分四种β… 该图像为图表,展示了不同风险参数β在连续奖励设置(a)和二元奖励设置(b)下优势(Advantage)随奖励或提示准确率变化的趋势。图中曲线颜色区分四种β值(0、2、4、8),显示较大β值会提升对难题的学习权重,从而影响探索策略。在连续奖励图(a)中,优势随奖励线性上升;在二元奖励图(b)中,正负优势和累积优势随提示准确率变化呈不同曲线形态,体现了风险敏感强化学习对探索行为的不同调节效果。

      • 连续奖励 (左图):β=0\beta=0 时,优势与奖励呈线性关系。随着 β\beta 增大,优势函数曲线变得越来越像一个阶跃函数,极大地放大了高奖励样本的优势值,同时抑制了低奖励样本。
      • 二元奖励 (右图): 在数学题等场景下,奖励通常是 0 或 1。图中横轴是 Prompt Accuracy(对于一个问题,生成 N 个答案中正确答案的比例)。
        • Positive 图显示,对于正确的答案(奖励为1),β\beta 越大,在低准确率(即难题)上的优势值就越大。

        • Negative 图显示,对于错误的答案(奖励为0),β\beta 越大,在高准确率(即易题)上的惩罚就越小。

        • Cumulative 图(总优势绝对值之和)表明,β=0\beta=0 (标准RL) 最关注准确率 50% 左右的问题,而增大 β\beta 会将优化的重心转移到准确率更低、更困难的问题上,这正是驱动模型探索新解法的关键。


5. 实验设置 (Experimental Setup)

  • 数据集 (Datasets):
    • 训练数据集: math12k, dapo17k, deepmath103k,均为数学推理相关的数据集。
    • 评估数据集: MATH500, AIME24, AIME25, HMMT-Feb24, HMMT-Feb25, CMIMC25,均为高难度的数学竞赛或基准测试。选择这些数据集是为了在具挑战性的推理任务上验证方法的有效性。
  • 评估指标 (Evaluation Metrics):
    • pass@k: 主要评估指标,用于衡量模型生成多样化正确解的能力和探索性能。实验中考察了从 k=1 到 k=1024 的完整曲线。
    • pass@1: 用于确保在提升多样性的同时,模型的单次生成准确率没有下降。
  • 对比基线 (Baselines):
    • Base Models: 未经 RL 微调的预训练模型,作为性能的下限参考。

    • GRPO: 标准的策略梯度方法,相当于 RS-GRPO 中设置 β=0\beta=0 的情况,是本文最核心的对比基线。

    • 其他 pass@k 优化方法: Walder and Karkhanis [57], Mahdavi et al. [39], Chen et al. [9] 等,均为该领域的代表性工作。


6. 实验结果与分析 (Results & Analysis)

  • 核心结果分析 (Core Results Analysis):

    • 理论验证:多臂老虎机实验 (图 3)

      这是两部分组成的图表。左图展示动作索引对应的奖励分布(灰色柱状图)和初始策略分布(蓝色曲线),显示奖励分布多峰且初始策略集中在较低奖励区域。右图为不同β值… 这是两部分组成的图表。左图展示动作索引对应的奖励分布(灰色柱状图)和初始策略分布(蓝色曲线),显示奖励分布多峰且初始策略集中在较低奖励区域。右图为不同β值下奖励随训练步数变化曲线,β越大,策略收敛更快且最终奖励更高,体现了风险敏感RL在提升探索和奖励优化中的效果。

      • 这是一个简化的实验,模拟了 LLM 微调的困境。奖励景观中有一个次优的“山峰”(奖励0.6)和一个全局最优的“山峰”(奖励1.0)。初始策略被设置在次优解附近(蓝色曲线)。
      • 结果: 标准 RL (β=0\beta=0) 很快收敛到 0.6 并陷入局部最优。而风险寻求的策略 (β4\beta \ge 4) 成功“跳出”了局部最优,找到了全局最优解 1.0。这直观地证明了 RS-GRPO 克服初始策略偏见的能力。
    • pass@k 性能对比 (图 4)

      该图像为多个折线图组成的图表,展示了Base、GRPO和RS-GRPO三种算法在六个数学推理基准(AIME24、AIME25、HMMT_Feb24、HMM… 该图像为多个折线图组成的图表,展示了Base、GRPO和RS-GRPO三种算法在六个数学推理基准(AIME24、AIME25、HMMT_Feb24、HMMT_Feb25、CMIMC25、MATH500)上的Pass@k性能对比。横轴为k值,纵轴为Pass@k的准确率百分比。图中红色线(RS-GRPO)多数情况下优于其他两种,显示该方法在多解性能提升上具有显著优势。

      • 在所有五个模型和六个基准上,RS-GRPO (红线) 的 pass@k 性能全面且显著地优于 GRPO (绿线) 和基础模型 (橙线)。
      • 一个关键现象是,在 k 值很大时(如 k>256),GRPO 的性能甚至会低于基础模型,这印证了标准 RL 会“扼杀”多样性的观点。而 RS-GRPO 在所有 k 值上都超越了基础模型,证明它真正扩展了模型的解空间。
    • 主结果汇总 (Table 2)

      • Table 2 的数据量化了 pass@1pass@32 的性能。结果显示,RS-GRPO 在几乎所有模型和数据集上都显著提升了 pass@32 (平均提升约 4%),同时 pass@1 的性能与 GRPO 持平甚至更高(在三个模型上平均提升约 2%)。这证明了 RS-GRPO 实现了更优的性能权衡。
  • 消融实验/参数分析 (Ablation Studies / Parameter Analysis):

    • β\beta 参数的影响 (图 5)

      该图像为图表,展示了不同参数β(0、2、4、8)下算法在训练步骤中的表现变化。图表分上下两行,每行四个子图,分别为累计解决率(Cumulative Sol… 该图像为图表,展示了不同参数β(0、2、4、8)下算法在训练步骤中的表现变化。图表分上下两行,每行四个子图,分别为累计解决率(Cumulative Solve Rate)、训练奖励(Training Rewards)、测试通过率@1(Testing Pass@1 %)和测试通过率@32(Testing Pass@32 %)。结果显示随着β增加,累计解决率和测试通过率整体提升,尤其是在较大训练步数时,β=8表现最优,体现了风险敏感强化学习方法对提升模型多样性和性能的积极作用。

      • 随着 β\beta 的增大,训练集上的累积解题率 (Cumulative Solve Rate) 和测试集上的 pass@32 性能都得到提升。
      • pass@1 的性能则呈现出一种权衡:过大的 β\beta 可能会轻微损害 pass@1。实验表明,β=2\beta=2 是一个很好的折中点,既能大幅提升 pass@k,也能稳定或提升 pass@1
    • 与其他 pass@k 方法的比较 (图 6)

      该图像为图表,展示了不同算法在多个步骤(Steps)下的测试通过率(Pass@1和Pass@32, %)。四条曲线分别代表Chen等人、Mahdavi等人… 该图像为图表,展示了不同算法在多个步骤(Steps)下的测试通过率(Pass@1和Pass@32, %)。四条曲线分别代表Chen等人、Mahdavi等人、Walder & Karkhanis以及本文提出的风险敏感(Risk-Sensitive)方法。从曲线趋势看,风险敏感算法在测试通过率上整体优于或接近其他方法,尤其在Pass@32指标上表现更为突出,说明其在探索多解策略上效果更佳。

      • 与其他基线相比,RS-GRPOpass@32 上表现相当或更好,但在 pass@1 上 consistently 表现最佳。这再次验证了其“更密集的优势信号”带来的好处。
      • 特别地,Walder & Karkhanis 的方法表现不佳,作者分析是因为其优势估计恒为正,缺乏负向惩罚信号,导致策略快速“坍塌”。
    • 性能提升来源分析 (图 7)

      该图像由两个部分组成,左侧为柱状图,比较了GRPO和RS-GRPO在独特答案比例上的表现,RS-GRPO明显更高。右侧为热力图,展示了两者在不同问题准确率… 该图像由两个部分组成,左侧为柱状图,比较了GRPO和RS-GRPO在独特答案比例上的表现,RS-GRPO明显更高。右侧为热力图,展示了两者在不同问题准确率区间的联合分布,颜色深浅表示比例大小,数值显示具体比例,表明RS-GRPO在较高准确率区间的比例优势。整体体现RS-GRPO在提升多样性和准确率上的改进效果。

      • 左图 (多样性): RS-GRPO 生成的“独立答案”比例显著高于 GRPO,说明其解题路径更多样。

      • 右图 (热力图): 该图展示了从 GRPORS-GRPO,问题准确率的变化。最关键的一项是左下角的 0.08,它表示有 8% 的被 GRPO 完全无法解决的问题(准确率为0),在 RS-GRPO 训练后变得可以解决(准确率在 (0, 0.4] 区间)。这是 pass@k 提升的主要来源。


7. 总结与思考 (Conclusion & Personal Thoughts)

  • 结论总结 (Conclusion Summary):

    • 本文成功识别并解决了 LLM 强化学习中的“探索困境”问题,即标准 RL 方法会因预训练模型的尖锐初始策略而陷入局部最优,损害解的多样性。
    • 论文提出了一种基于风险敏感理论的强化学习框架,并实例化为 RS-GRPO 算法。该算法通过一个风险寻求的目标函数,将学习重心转移到更困难的问题上,从而有效促进了探索。
    • RS-GRPO 实现简单,效果显著,在多个数学推理任务上实现了 pass@kpass@1 的双重提升,为解决复杂推理问题提供了新的有效途径。
  • 局限性与未来工作 (Limitations & Future Work):

    • 论文在附录 A 中坦诚地指出了一个局限性:实验中使用的风险参数 β\beta 是一个固定的超参数。作者尝试了多种动态调整 β\beta 的策略(如退火、自适应等),但效果均不如一个精心选择的固定值。如何设计一个最优的动态策略来更好地平衡探索与利用,仍然是一个有待解决的开放问题。
  • 个人启发与批判 (Personal Insights & Critique):

    • 启发性:
      1. 优雅且根本的解决方案: 本文没有采用复杂的模块或技巧,而是从优化目标这个根本问题入手,将决策理论中的“风险寻求”概念引入 RL,为解决探索问题提供了非常深刻且优雅的视角。
      2. 实用价值高: RS-GRPO 作为一个“即插即用”的模块,实现成本极低,但效果提升显著,这使得它在工业界和学术界都具有很高的应用潜力。
      3. 问题定义清晰: 论文对“探索困境”的定义和分析非常到位,通过 pass@1pass@k 的此消彼长现象,清晰地揭示了现有方法的痛点。
    • 批判性思考:
      1. 理论到实践的泛化性: 论文的理论分析是在一个简化的多臂老虎机环境中进行的。虽然这为理解算法行为提供了很好的直觉,但 LLM 的动作空间是极其高维和复杂的,理论上的保证能否完全推广到 LLM 场景仍需更深入的探讨。
      2. 任务领域的局限: 实验完全集中在奖励信号清晰、可验证的数学推理任务上。RS-GRPO 框架虽然理论上支持连续奖励,但它在需要奖励模型、奖励信号更模糊的任务(如文本摘要、创意写作、对话系统)上的表现如何,仍是一个未知数。在这些领域,放大学习信号可能会加剧奖励模型被“攻击”(reward hacking)的风险。
      3. 超参数依赖: 尽管 β=2\beta=2 在实验中表现良好,但 β\beta 的选择仍然是一个需要凭经验调整的超参数。对于不同的模型、任务和数据集,最优的 β\beta 值可能不同,这给实际应用带来了一定的调参成本。

相似论文推荐

基于向量语义检索推荐的相关论文。

暂时没有找到相似论文。