Risk-Sensitive RL for Alleviating Exploration Dilemmas in Large Language Models
TL;DR 精炼摘要
针对大语言模型推理任务中,标准强化学习微调因初始策略集中而导致的“探索困境”(即提升单解准确率pass@1却损害多解性能pass@k),本文提出了一个风险敏感强化学习框架。该框架引入“风险寻求”目标(插值于平均与最大奖励之间),并催生RS-GRPO算法,通过放大对困难问题的学习来驱动模型进行更深度的探索。实验证实,该方法在六个数学基准和五个大语言模型上,能显著提升pass@k性能,同时保持或增强pass@1准确率,且实现简便。
摘要
Reinforcement Learning with Verifiable Rewards (RLVR) has proven effective for enhancing Large Language Models (LLMs) on complex reasoning tasks. However, existing methods suffer from an exploration dilemma: the sharply peaked initial policies of pre-trained LLMs confine standard RL algorithms to a narrow set of solutions, boosting single-solution accuracy (pass@1) but suppressing solution diversity and multi-solution performance (pass@k). As a result, RLVR often distills existing capabilities rather than discovering new reasoning strategies. To overcome this, we introduce a Risk-Sensitive Reinforcement Learning framework. Our approach employs a risk-seeking objective that interpolates between mean and maximum rewards, leading to a novel algorithm, Risk-Sensitive GRPO (RS-GRPO), which drives deeper exploration by amplifying learning from challenging prompts. Remarkably, RS-GRPO is simple to implement, requiring only minor code modifications. On six mathematical reasoning benchmarks and with five different LLMs, RS-GRPO consistently improves pass@k performance while maintaining or enhancing pass@1 accuracy.
思维导图
论文精读
中文精读
1. 论文基本信息 (Bibliographic Information)
- 标题 (Title): Risk-Sensitive RL for Alleviating Exploration Dilemmas in Large Language Models (风险敏感强化学习用于缓解大语言模型中的探索困境)
- 作者 (Authors): Yuhua Jiang, Jiawei Huang, Yufeng Yuan, Xin Mao, Yu Yue, Qianchuan Zhao, Lin Yan
- 隶属机构 (Affiliations): 清华大学 (Tsinghua University), 苏黎世联邦理工学院 (ETH Zurich), 字节跳动 Seed 团队 (ByteDance Seed)
- 发表期刊/会议 (Journal/Conference): 本文目前为预印本 (Preprint),发布于
arXiv。 - 发表年份 (Publication Year): 2025 (根据论文信息,日期为 2025 年 9 月 30 日,这可能是一个占位符日期)
- 摘要 (Abstract): 论文指出,尽管带可验证奖励的强化学习 (RLVR) 能有效提升大语言模型 (LLM) 在复杂推理任务上的性能,但现有方法存在“探索困境”:预训练 LLM 的初始策略分布过于“尖锐”,导致标准强化学习算法局限于狭窄的解空间,虽然提升了单解准确率 (
pass@1),却抑制了解决方案的多样性,损害了多解性能 (pass@k)。为解决此问题,论文提出了一个风险敏感强化学习框架,其核心是一个在“平均奖励”和“最大奖励”之间插值的“风险寻求”(risk-seeking) 目标。该框架催生了一种新算法——风险敏感 GRPO (RS-GRPO),通过放大对困难问题的学习来驱动更深度的探索。该算法实现简单,仅需少量代码修改。在六个数学推理基准和五个不同 LLM 上的实验表明,RS-GRPO 能在保持或提升pass@1的同时,持续改善pass@k性能。 - 原文链接 (Source Link):
2. 整体概括 (Executive Summary)
-
研究背景与动机 (Background & Motivation - Why):
- 核心问题: 在使用强化学习微调大语言模型(特别是用于推理任务)时,存在一个普遍的“探索困境” (
exploration dilemma)。 - 问题的重要性与挑战: 预训练好的 LLM 并非一张白纸,其初始策略已经非常集中(
sharply peaked),倾向于生成某些特定类型的答案。标准的强化学习方法(如GRPO)往往会沿着这个初始策略的“山峰”继续向上优化,虽然能让最可能的答案变得更正确(提升pass@1),但代价是牺牲了答案的多样性,导致模型发现新解题思路的能力下降,甚至损害了pass@k性能。这使得强化学习更像是在“提纯”模型已有的能力,而非“发现”新的能力。 - 论文的切入点: 作者认为问题根源在于标准强化学习优化的是平均奖励,这天然地偏爱高概率的解。论文的创新思路是,将优化目标从风险中性 (risk-neutral) 的“平均奖励”转变为风险寻求 (risk-seeking) 的目标,即更关注那些能带来最高奖励的解,即使它们当前出现的概率很低。
- 核心问题: 在使用强化学习微调大语言模型(特别是用于推理任务)时,存在一个普遍的“探索困境” (
-
核心贡献/主要发现 (Main Contribution/Findings - What):
-
提出新框架与算法: 提出了一个风险敏感强化学习 (Risk-Sensitive RL) 框架来解决 LLM 的探索困境,并将其具体实现为一个简单而强大的算法——风险敏感 GRPO (RS-GRPO)。
-
理论与实证分析: 从理论(简单的多臂老虎机问题)和实证两方面证明,当初始策略距离最优解较远且分布尖锐时,标准强化学习会陷入局部最优,而风险敏感方法能够成功“逃离”并找到全局最优解。
-
优越的性能权衡: 在六个数学推理基准和五个 LLM 上的大量实验表明,RS-GRPO 显著提升了
pass@k性能,同时保持甚至提升了pass@1准确率,实现了比现有pass@k优化方法更优的性能权衡。
-
3. 预备知识与相关工作 (Prerequisite Knowledge & Related Work)
-
基础概念 (Foundational Concepts):
- 强化学习 (Reinforcement Learning, RL): 一种机器学习范式。其中,一个智能体 (agent),在本文中是 LLM,通过与环境 (environment),即用户输入的提示 (
prompt),交互来学习。智能体采取行动 (action),即生成一个回复 (response),并从环境中获得一个奖励 (reward) 信号,以评估该行动的好坏。智能体的目标是学习一个策略 (policy) ,以最大化累积奖励。 - 带可验证奖励的强化学习 (Reinforcement Learning with Verifiable Rewards, RLVR): RL 在 LLM 中的一种特定应用场景。主要用于那些可以被程序自动、准确判断对错的任务,例如数学题的最终答案是否正确。这避免了依赖昂贵且不稳定的人类反馈 (RLHF) 或奖励模型。
pass@k评估指标: 用于衡量代码生成或问题求解任务性能的指标。它评估的是:从模型生成的 个候选答案中,随机抽取 个,其中至少有一个是正确的概率。pass@1表示生成单个答案的正确率,而pass@k() 则能衡量模型生成多样化正确解的能力。pass@k值越高,说明模型的探索能力和解题路径的多样性越好。- GRPO (Generalized Reward Policy Optimization): 一种常用于 LLM 微调的策略梯度 (Policy Gradient) 算法。
- 强化学习 (Reinforcement Learning, RL): 一种机器学习范式。其中,一个智能体 (agent),在本文中是 LLM,通过与环境 (environment),即用户输入的提示 (
-
前人工作 (Previous Works):
- 传统 RL 探索 vs. LLM 探索: 传统 RL(如游戏)通常从随机策略开始,探索是核心。而 LLM 从一个已经非常强大的预训练策略开始,探索的挑战在于如何摆脱初始策略的“引力”。
pass@k优化方法: 已有一些工作尝试直接优化pass@k。论文在Table 1和附录B中将自身方法与这些工作进行了比较,如 Mahdavi et al. [39], Chen et al. [9] 等。
-
差异化分析 (Differentiation):
- 与传统
pass@k优化方法的区别:-
适用性更广: 很多
pass@k方法仅适用于二元奖励(对或错),而RS-GRPO的框架天然支持连续奖励。 -
梯度信号更密集 (
Denser Signal): 许多pass@k方法在问题准确率超过某个阈值后,梯度信号会消失,这可能阻碍pass@1的进一步提升。而RS-GRPO即使在准确率很高的问题上也能提供非零的梯度,从而更好地平衡pass@1和pass@k的性能。
-
- 与传统
4. 方法论 (Methodology - Core Technology & Implementation Details)
-
方法原理 (Methodology Principles):
- 核心思想: 放弃优化平均奖励,转而优化一个能够平滑地从“平均奖励”过渡到“最大奖励”的目标。这通过引入风险敏感 (Risk-Sensitive) 的概念和指数效用函数 (exponential utility function) 来实现。
- 直觉: 当我们追求最大奖励时,算法会给予那些罕见但奖励极高的解决方案(即新的、正确的解题思路)巨大的学习权重,从而激励模型去探索这些未知的、有潜力的区域。
-
方法步骤与流程 (Steps & Procedures):
- 标准 RL 目标: 首先,标准 RL 的目标是最大化期望奖励 :
- 风险敏感目标: 论文引入了风险敏感目标 (Eq. 5),其定义为:
- 这里的超参数 控制着风险敏感的程度:
- 当 时,该目标退化为标准 RL 的平均奖励目标(风险中性)。
- 当 时,该目标近似于最大化奖励 (风险寻求)。
- 当 时,该目标近似于最小化奖励 (风险规避)。
- 为了促进探索,本文采用风险寻求策略,即 。
- 这里的超参数 控制着风险敏感的程度:
- 风险敏感策略梯度: 通过对新目标求导,得到了新的策略梯度(Theorem 1),其形式与标准策略梯度类似,但使用了新的风险敏感优势函数 (Risk-Sensitive Advantage Function) 。
-
数学公式与关键细节 (Mathematical Formulas & Key Details):
-
标准策略梯度估计:
- 是对样本 的优势估计,衡量其奖励 相对于当前策略下平均奖励的好坏。
-
风险敏感优势函数 (RS-GRPO 的核心):
- 这个公式是
RS-GRPO算法的精髓。它重新计算了每个样本的优势值。 项会指数级地放大高奖励样本的权重。分母是一个归一化项。 - 实现简单: 只需在现有
GRPO代码中,用这个新的优势函数公式替换掉原来的即可。
- 这个公式是
-
优势函数分析 (图 2):
该图像为图表,展示了不同风险参数β在连续奖励设置(a)和二元奖励设置(b)下优势(Advantage)随奖励或提示准确率变化的趋势。图中曲线颜色区分四种β值(0、2、4、8),显示较大β值会提升对难题的学习权重,从而影响探索策略。在连续奖励图(a)中,优势随奖励线性上升;在二元奖励图(b)中,正负优势和累积优势随提示准确率变化呈不同曲线形态,体现了风险敏感强化学习对探索行为的不同调节效果。- 连续奖励 (左图): 当 时,优势与奖励呈线性关系。随着 增大,优势函数曲线变得越来越像一个阶跃函数,极大地放大了高奖励样本的优势值,同时抑制了低奖励样本。
- 二元奖励 (右图): 在数学题等场景下,奖励通常是 0 或 1。图中横轴是
Prompt Accuracy(对于一个问题,生成 N 个答案中正确答案的比例)。-
Positive图显示,对于正确的答案(奖励为1), 越大,在低准确率(即难题)上的优势值就越大。 -
Negative图显示,对于错误的答案(奖励为0), 越大,在高准确率(即易题)上的惩罚就越小。 -
Cumulative图(总优势绝对值之和)表明, (标准RL) 最关注准确率 50% 左右的问题,而增大 会将优化的重心转移到准确率更低、更困难的问题上,这正是驱动模型探索新解法的关键。
-
-
5. 实验设置 (Experimental Setup)
- 数据集 (Datasets):
- 训练数据集:
math12k,dapo17k,deepmath103k,均为数学推理相关的数据集。 - 评估数据集:
MATH500,AIME24,AIME25,HMMT-Feb24,HMMT-Feb25,CMIMC25,均为高难度的数学竞赛或基准测试。选择这些数据集是为了在具挑战性的推理任务上验证方法的有效性。
- 训练数据集:
- 评估指标 (Evaluation Metrics):
pass@k: 主要评估指标,用于衡量模型生成多样化正确解的能力和探索性能。实验中考察了从 k=1 到 k=1024 的完整曲线。pass@1: 用于确保在提升多样性的同时,模型的单次生成准确率没有下降。
- 对比基线 (Baselines):
-
Base Models: 未经 RL 微调的预训练模型,作为性能的下限参考。
-
GRPO: 标准的策略梯度方法,相当于
RS-GRPO中设置 的情况,是本文最核心的对比基线。 -
其他
pass@k优化方法: Walder and Karkhanis [57], Mahdavi et al. [39], Chen et al. [9] 等,均为该领域的代表性工作。
-
6. 实验结果与分析 (Results & Analysis)
-
核心结果分析 (Core Results Analysis):
-
理论验证:多臂老虎机实验 (图 3)
这是两部分组成的图表。左图展示动作索引对应的奖励分布(灰色柱状图)和初始策略分布(蓝色曲线),显示奖励分布多峰且初始策略集中在较低奖励区域。右图为不同β值下奖励随训练步数变化曲线,β越大,策略收敛更快且最终奖励更高,体现了风险敏感RL在提升探索和奖励优化中的效果。- 这是一个简化的实验,模拟了 LLM 微调的困境。奖励景观中有一个次优的“山峰”(奖励0.6)和一个全局最优的“山峰”(奖励1.0)。初始策略被设置在次优解附近(蓝色曲线)。
- 结果: 标准 RL () 很快收敛到 0.6 并陷入局部最优。而风险寻求的策略 () 成功“跳出”了局部最优,找到了全局最优解 1.0。这直观地证明了
RS-GRPO克服初始策略偏见的能力。
-
pass@k性能对比 (图 4)
该图像为多个折线图组成的图表,展示了Base、GRPO和RS-GRPO三种算法在六个数学推理基准(AIME24、AIME25、HMMT_Feb24、HMMT_Feb25、CMIMC25、MATH500)上的Pass@k性能对比。横轴为k值,纵轴为Pass@k的准确率百分比。图中红色线(RS-GRPO)多数情况下优于其他两种,显示该方法在多解性能提升上具有显著优势。- 在所有五个模型和六个基准上,
RS-GRPO(红线) 的pass@k性能全面且显著地优于GRPO(绿线) 和基础模型 (橙线)。 - 一个关键现象是,在 k 值很大时(如 k>256),
GRPO的性能甚至会低于基础模型,这印证了标准 RL 会“扼杀”多样性的观点。而RS-GRPO在所有 k 值上都超越了基础模型,证明它真正扩展了模型的解空间。
- 在所有五个模型和六个基准上,
-
主结果汇总 (Table 2)
Table 2的数据量化了pass@1和pass@32的性能。结果显示,RS-GRPO在几乎所有模型和数据集上都显著提升了pass@32(平均提升约 4%),同时pass@1的性能与GRPO持平甚至更高(在三个模型上平均提升约 2%)。这证明了RS-GRPO实现了更优的性能权衡。
-
-
消融实验/参数分析 (Ablation Studies / Parameter Analysis):
-
参数的影响 (图 5)
该图像为图表,展示了不同参数β(0、2、4、8)下算法在训练步骤中的表现变化。图表分上下两行,每行四个子图,分别为累计解决率(Cumulative Solve Rate)、训练奖励(Training Rewards)、测试通过率@1(Testing Pass@1 %)和测试通过率@32(Testing Pass@32 %)。结果显示随着β增加,累计解决率和测试通过率整体提升,尤其是在较大训练步数时,β=8表现最优,体现了风险敏感强化学习方法对提升模型多样性和性能的积极作用。- 随着 的增大,训练集上的累积解题率 (
Cumulative Solve Rate) 和测试集上的pass@32性能都得到提升。 pass@1的性能则呈现出一种权衡:过大的 可能会轻微损害pass@1。实验表明, 是一个很好的折中点,既能大幅提升pass@k,也能稳定或提升pass@1。
- 随着 的增大,训练集上的累积解题率 (
-
与其他
pass@k方法的比较 (图 6)
该图像为图表,展示了不同算法在多个步骤(Steps)下的测试通过率(Pass@1和Pass@32, %)。四条曲线分别代表Chen等人、Mahdavi等人、Walder & Karkhanis以及本文提出的风险敏感(Risk-Sensitive)方法。从曲线趋势看,风险敏感算法在测试通过率上整体优于或接近其他方法,尤其在Pass@32指标上表现更为突出,说明其在探索多解策略上效果更佳。- 与其他基线相比,
RS-GRPO在pass@32上表现相当或更好,但在pass@1上 consistently 表现最佳。这再次验证了其“更密集的优势信号”带来的好处。 - 特别地,
Walder & Karkhanis的方法表现不佳,作者分析是因为其优势估计恒为正,缺乏负向惩罚信号,导致策略快速“坍塌”。
- 与其他基线相比,
-
性能提升来源分析 (图 7)
该图像由两个部分组成,左侧为柱状图,比较了GRPO和RS-GRPO在独特答案比例上的表现,RS-GRPO明显更高。右侧为热力图,展示了两者在不同问题准确率区间的联合分布,颜色深浅表示比例大小,数值显示具体比例,表明RS-GRPO在较高准确率区间的比例优势。整体体现RS-GRPO在提升多样性和准确率上的改进效果。-
左图 (多样性):
RS-GRPO生成的“独立答案”比例显著高于GRPO,说明其解题路径更多样。 -
右图 (热力图): 该图展示了从
GRPO到RS-GRPO,问题准确率的变化。最关键的一项是左下角的0.08,它表示有 8% 的被GRPO完全无法解决的问题(准确率为0),在RS-GRPO训练后变得可以解决(准确率在 (0, 0.4] 区间)。这是pass@k提升的主要来源。
-
-
7. 总结与思考 (Conclusion & Personal Thoughts)
-
结论总结 (Conclusion Summary):
- 本文成功识别并解决了 LLM 强化学习中的“探索困境”问题,即标准 RL 方法会因预训练模型的尖锐初始策略而陷入局部最优,损害解的多样性。
- 论文提出了一种基于风险敏感理论的强化学习框架,并实例化为
RS-GRPO算法。该算法通过一个风险寻求的目标函数,将学习重心转移到更困难的问题上,从而有效促进了探索。 RS-GRPO实现简单,效果显著,在多个数学推理任务上实现了pass@k和pass@1的双重提升,为解决复杂推理问题提供了新的有效途径。
-
局限性与未来工作 (Limitations & Future Work):
- 论文在附录 A 中坦诚地指出了一个局限性:实验中使用的风险参数 是一个固定的超参数。作者尝试了多种动态调整 的策略(如退火、自适应等),但效果均不如一个精心选择的固定值。如何设计一个最优的动态策略来更好地平衡探索与利用,仍然是一个有待解决的开放问题。
-
个人启发与批判 (Personal Insights & Critique):
- 启发性:
- 优雅且根本的解决方案: 本文没有采用复杂的模块或技巧,而是从优化目标这个根本问题入手,将决策理论中的“风险寻求”概念引入 RL,为解决探索问题提供了非常深刻且优雅的视角。
- 实用价值高:
RS-GRPO作为一个“即插即用”的模块,实现成本极低,但效果提升显著,这使得它在工业界和学术界都具有很高的应用潜力。 - 问题定义清晰: 论文对“探索困境”的定义和分析非常到位,通过
pass@1和pass@k的此消彼长现象,清晰地揭示了现有方法的痛点。
- 批判性思考:
- 理论到实践的泛化性: 论文的理论分析是在一个简化的多臂老虎机环境中进行的。虽然这为理解算法行为提供了很好的直觉,但 LLM 的动作空间是极其高维和复杂的,理论上的保证能否完全推广到 LLM 场景仍需更深入的探讨。
- 任务领域的局限: 实验完全集中在奖励信号清晰、可验证的数学推理任务上。
RS-GRPO框架虽然理论上支持连续奖励,但它在需要奖励模型、奖励信号更模糊的任务(如文本摘要、创意写作、对话系统)上的表现如何,仍是一个未知数。在这些领域,放大学习信号可能会加剧奖励模型被“攻击”(reward hacking)的风险。 - 超参数依赖: 尽管 在实验中表现良好,但 的选择仍然是一个需要凭经验调整的超参数。对于不同的模型、任务和数据集,最优的 值可能不同,这给实际应用带来了一定的调参成本。
- 启发性:
相似论文推荐
基于向量语义检索推荐的相关论文。