论文状态：已完成

Risk-Sensitive RL for Alleviating Exploration Dilemmas in Large Language Models

发表：2025/09/29

数学推理基准测试 (8)序列策略优化 (40)大语言模型强化学习训练 (67)风险敏感强化学习 (1)

价格：0.100000

已有 8 人读过

本分析由 AI 生成，可能不完全准确，请以原文为准。

TL;DR 精炼摘要

针对大语言模型推理任务中，标准强化学习微调因初始策略集中而导致的“探索困境”（即提升单解准确率pass@1却损害多解性能pass@k），本文提出了一个风险敏感强化学习框架。该框架引入“风险寻求”目标（插值于平均与最大奖励之间），并催生RS-GRPO算法，通过放大对困难问题的学习来驱动模型进行更深度的探索。实验证实，该方法在六个数学基准和五个大语言模型上，能显著提升pass@k性能，同时保持或增强pass@1准确率，且实现简便。

摘要

Reinforcement Learning with Verifiable Rewards (RLVR) has proven effective for enhancing Large Language Models (LLMs) on complex reasoning tasks. However, existing methods suffer from an exploration dilemma: the sharply peaked initial policies of pre-trained LLMs confine standard RL algorithms to a narrow set of solutions, boosting single-solution accuracy (pass@1) but suppressing solution diversity and multi-solution performance (pass@k). As a result, RLVR often distills existing capabilities rather than discovering new reasoning strategies. To overcome this, we introduce a Risk-Sensitive Reinforcement Learning framework. Our approach employs a risk-seeking objective that interpolates between mean and maximum rewards, leading to a novel algorithm, Risk-Sensitive GRPO (RS-GRPO), which drives deeper exploration by amplifying learning from challenging prompts. Remarkably, RS-GRPO is simple to implement, requiring only minor code modifications. On six mathematical reasoning benchmarks and with five different LLMs, RS-GRPO consistently improves pass@k performance while maintaining or enhancing pass@1 accuracy.

思维导图

论文精读

中文精读约 15 分钟读完 · 7,766 字

1. 论文基本信息 (Bibliographic Information)

标题 (Title): Risk-Sensitive RL for Alleviating Exploration Dilemmas in Large Language Models (风险敏感强化学习用于缓解大语言模型中的探索困境)
作者 (Authors): Yuhua Jiang, Jiawei Huang, Yufeng Yuan, Xin Mao, Yu Yue, Qianchuan Zhao, Lin Yan
隶属机构 (Affiliations): 清华大学 (Tsinghua University), 苏黎世联邦理工学院 (ETH Zurich), 字节跳动 Seed 团队 (ByteDance Seed)
发表期刊/会议 (Journal/Conference): 本文目前为预印本 (Preprint)，发布于 arXiv。
发表年份 (Publication Year): 2025 (根据论文信息，日期为 2025 年 9 月 30 日，这可能是一个占位符日期)
摘要 (Abstract): 论文指出，尽管带可验证奖励的强化学习 (RLVR) 能有效提升大语言模型 (LLM) 在复杂推理任务上的性能，但现有方法存在“探索困境”：预训练 LLM 的初始策略分布过于“尖锐”，导致标准强化学习算法局限于狭窄的解空间，虽然提升了单解准确率 (pass@1)，却抑制了解决方案的多样性，损害了多解性能 (pass@k)。为解决此问题，论文提出了一个风险敏感强化学习框架，其核心是一个在“平均奖励”和“最大奖励”之间插值的“风险寻求”(risk-seeking) 目标。该框架催生了一种新算法——风险敏感 GRPO (RS-GRPO)，通过放大对困难问题的学习来驱动更深度的探索。该算法实现简单，仅需少量代码修改。在六个数学推理基准和五个不同 LLM 上的实验表明，RS-GRPO 能在保持或提升 pass@1 的同时，持续改善 pass@k 性能。
原文链接 (Source Link):
- ArXiv: https://arxiv.org/abs/2509.24261
- PDF: http://arxiv.org/pdf/2509.24261v1

2. 整体概括 (Executive Summary)

研究背景与动机 (Background & Motivation - Why):
- 核心问题： 在使用强化学习微调大语言模型（特别是用于推理任务）时，存在一个普遍的“探索困境” (exploration dilemma)。
- 问题的重要性与挑战： 预训练好的 LLM 并非一张白纸，其初始策略已经非常集中（sharply peaked），倾向于生成某些特定类型的答案。标准的强化学习方法（如 GRPO）往往会沿着这个初始策略的“山峰”继续向上优化，虽然能让最可能的答案变得更正确（提升 pass@1），但代价是牺牲了答案的多样性，导致模型发现新解题思路的能力下降，甚至损害了 pass@k 性能。这使得强化学习更像是在“提纯”模型已有的能力，而非“发现”新的能力。
- 论文的切入点： 作者认为问题根源在于标准强化学习优化的是平均奖励，这天然地偏爱高概率的解。论文的创新思路是，将优化目标从风险中性 (risk-neutral) 的“平均奖励”转变为风险寻求 (risk-seeking) 的目标，即更关注那些能带来最高奖励的解，即使它们当前出现的概率很低。
核心贡献/主要发现 (Main Contribution/Findings - What):
- 提出新框架与算法： 提出了一个风险敏感强化学习 (Risk-Sensitive RL) 框架来解决 LLM 的探索困境，并将其具体实现为一个简单而强大的算法——风险敏感 GRPO (RS-GRPO)。
- 理论与实证分析： 从理论（简单的多臂老虎机问题）和实证两方面证明，当初始策略距离最优解较远且分布尖锐时，标准强化学习会陷入局部最优，而风险敏感方法能够成功“逃离”并找到全局最优解。
- 优越的性能权衡： 在六个数学推理基准和五个 LLM 上的大量实验表明，RS-GRPO 显著提升了 pass@k 性能，同时保持甚至提升了 pass@1 准确率，实现了比现有 pass@k 优化方法更优的性能权衡。

基础概念 (Foundational Concepts):
- 强化学习 (Reinforcement Learning, RL): 一种机器学习范式。其中，一个智能体 (agent)，在本文中是 LLM，通过与环境 (environment)，即用户输入的提示 (prompt)，交互来学习。智能体采取行动 (action)，即生成一个回复 (response)，并从环境中获得一个奖励 (reward) 信号，以评估该行动的好坏。智能体的目标是学习一个策略 (policy) $\pi$ ，以最大化累积奖励。
- 带可验证奖励的强化学习 (Reinforcement Learning with Verifiable Rewards, RLVR): RL 在 LLM 中的一种特定应用场景。主要用于那些可以被程序自动、准确判断对错的任务，例如数学题的最终答案是否正确。这避免了依赖昂贵且不稳定的人类反馈 (RLHF) 或奖励模型。
- pass@k 评估指标: 用于衡量代码生成或问题求解任务性能的指标。它评估的是：从模型生成的 $N$ 个候选答案中，随机抽取 $k$ 个，其中至少有一个是正确的概率。pass@1 表示生成单个答案的正确率，而 pass@k ( $k>1$ ) 则能衡量模型生成多样化正确解的能力。pass@k 值越高，说明模型的探索能力和解题路径的多样性越好。
- GRPO (Generalized Reward Policy Optimization): 一种常用于 LLM 微调的策略梯度 (Policy Gradient) 算法。
前人工作 (Previous Works):
- 传统 RL 探索 vs. LLM 探索: 传统 RL（如游戏）通常从随机策略开始，探索是核心。而 LLM 从一个已经非常强大的预训练策略开始，探索的挑战在于如何摆脱初始策略的“引力”。
- pass@k 优化方法: 已有一些工作尝试直接优化 pass@k。论文在 Table 1 和附录B中将自身方法与这些工作进行了比较，如 Mahdavi et al. [39], Chen et al. [9] 等。
差异化分析 (Differentiation):
- 与传统 pass@k 优化方法的区别：
  1. 适用性更广： 很多 pass@k 方法仅适用于二元奖励（对或错），而 RS-GRPO 的框架天然支持连续奖励。
  2. 梯度信号更密集 (Denser Signal)： 许多 pass@k 方法在问题准确率超过某个阈值后，梯度信号会消失，这可能阻碍 pass@1 的进一步提升。而 RS-GRPO 即使在准确率很高的问题上也能提供非零的梯度，从而更好地平衡 pass@1 和 pass@k 的性能。

4. 方法论 (Methodology - Core Technology & Implementation Details)

方法原理 (Methodology Principles):
- 核心思想： 放弃优化平均奖励，转而优化一个能够平滑地从“平均奖励”过渡到“最大奖励”的目标。这通过引入风险敏感 (Risk-Sensitive) 的概念和指数效用函数 (exponential utility function) 来实现。
- 直觉： 当我们追求最大奖励时，算法会给予那些罕见但奖励极高的解决方案（即新的、正确的解题思路）巨大的学习权重，从而激励模型去探索这些未知的、有潜力的区域。
方法步骤与流程 (Steps & Procedures):
1. 标准 RL 目标： 首先，标准 RL 的目标是最大化期望奖励 $J(\pi_{\theta})$ ： $J(\pi_{\theta}) = \mathbb{E}_{x \sim \mathcal{D}, y \sim \pi_{\theta}(\cdot|x)}[r(x, y)]$
2. 风险敏感目标： 论文引入了风险敏感目标 $J_{RS}(\pi_{\theta})$ $J_{RS} (π_{θ})$ (Eq. 5)，其定义为： $\mathcal { I } _ { \mathrm { RS } } ( \pi _ { \theta } ) = \mathbb { E } _ { x \sim \mathcal { D } } \left[ \frac { 1 } { \beta } \log \mathbb { E } _ { y \sim \pi _ { \theta } ( \cdot | x ) } \Big [ e ^ { \beta r ( y ) } \Big ] \right]$
  - 这里的超参数 $\beta$ $β$ 控制着风险敏感的程度：
    - 当 $\beta \to 0$ 时，该目标退化为标准 RL 的平均奖励目标（风险中性）。
    - 当 $\beta \to +\infty$ 时，该目标近似于最大化奖励 $\max_y r(y)$ （风险寻求）。
    - 当 $\beta \to -\infty$ 时，该目标近似于最小化奖励 $\min_y r(y)$ （风险规避）。
  - 为了促进探索，本文采用风险寻求策略，即 $\beta > 0$ 。
3. 风险敏感策略梯度： 通过对新目标求导，得到了新的策略梯度（Theorem 1），其形式与标准策略梯度类似，但使用了新的风险敏感优势函数 (Risk-Sensitive Advantage Function) $A_{\beta}^{\pi_{\theta}}(y)$ 。
数学公式与关键细节 (Mathematical Formulas & Key Details):
- 标准策略梯度估计： $\nabla_{\theta}\mathcal{J}(\pi_{\theta}) = \frac{1}{N} \sum_{i=1}^N \hat{A}^{\pi_{\theta}}(y_i) \nabla_{\theta} \log \pi_{\theta}(y_i|x), \quad \hat{A}^{\pi_{\theta}}(y_i) = r(y_i) - \frac{1}{N} \sum_{j=1}^N r(y_j)$
  - $\hat{A}^{\pi_{\theta}}(y_i)$ 是对样本 $y_i$ 的优势估计，衡量其奖励 $r(y_i)$ 相对于当前策略下平均奖励的好坏。
- 风险敏感优势函数 (RS-GRPO 的核心): $\hat { A } _ { \beta } ^ { \pi _ { \theta } } ( y _ { i } ) = \frac { 1 } { \beta } \left( \frac { e ^ { \beta r ( y _ { i } ) } } { \frac { 1 } { N } \sum _ { j = 1 } ^ { N } e ^ { \beta r ( y _ { j } ) } } - 1 \right)$
  - 这个公式是 RS-GRPO 算法的精髓。它重新计算了每个样本的优势值。 $e^{\beta r(y_i)}$ 项会指数级地放大高奖励样本的权重。分母是一个归一化项。
  - 实现简单： 只需在现有 GRPO 代码中，用这个新的优势函数公式替换掉原来的即可。
- 优势函数分析 (图 2):
  
  该图像为图表，展示了不同风险参数β在连续奖励设置(a)和二元奖励设置(b)下优势（Advantage）随奖励或提示准确率变化的趋势。图中曲线颜色区分四种β值（0、2、4、8），显示较大β值会提升对难题的学习权重，从而影响探索策略。在连续奖励图(a)中，优势随奖励线性上升；在二元奖励图(b)中，正负优势和累积优势随提示准确率变化呈不同曲线形态，体现了风险敏感强化学习对探索行为的不同调节效果。
  - 连续奖励 (左图): 当 $\beta=0$ 时，优势与奖励呈线性关系。随着 $\beta$ 增大，优势函数曲线变得越来越像一个阶跃函数，极大地放大了高奖励样本的优势值，同时抑制了低奖励样本。
  - 二元奖励 (右图): 在数学题等场景下，奖励通常是 0 或 1。图中横轴是 Prompt Accuracy（对于一个问题，生成 N 个答案中正确答案的比例）。
    - Positive 图显示，对于正确的答案（奖励为1）， $\beta$ 越大，在低准确率（即难题）上的优势值就越大。
    - Negative 图显示，对于错误的答案（奖励为0）， $\beta$ 越大，在高准确率（即易题）上的惩罚就越小。
    - Cumulative 图（总优势绝对值之和）表明， $\beta=0$ (标准RL) 最关注准确率 50% 左右的问题，而增大 $\beta$ 会将优化的重心转移到准确率更低、更困难的问题上，这正是驱动模型探索新解法的关键。

5. 实验设置 (Experimental Setup)

数据集 (Datasets):
- 训练数据集: math12k, dapo17k, deepmath103k，均为数学推理相关的数据集。
- 评估数据集: MATH500, AIME24, AIME25, HMMT-Feb24, HMMT-Feb25, CMIMC25，均为高难度的数学竞赛或基准测试。选择这些数据集是为了在具挑战性的推理任务上验证方法的有效性。
评估指标 (Evaluation Metrics):
- pass@k: 主要评估指标，用于衡量模型生成多样化正确解的能力和探索性能。实验中考察了从 k=1 到 k=1024 的完整曲线。
- pass@1: 用于确保在提升多样性的同时，模型的单次生成准确率没有下降。
对比基线 (Baselines):
- Base Models: 未经 RL 微调的预训练模型，作为性能的下限参考。
- GRPO: 标准的策略梯度方法，相当于 RS-GRPO 中设置 $\beta=0$ 的情况，是本文最核心的对比基线。
- 其他 pass@k 优化方法: Walder and Karkhanis [57], Mahdavi et al. [39], Chen et al. [9] 等，均为该领域的代表性工作。

6. 实验结果与分析 (Results & Analysis)

核心结果分析 (Core Results Analysis):
- 理论验证：多臂老虎机实验 (图 3)
  
  这是两部分组成的图表。左图展示动作索引对应的奖励分布（灰色柱状图）和初始策略分布（蓝色曲线），显示奖励分布多峰且初始策略集中在较低奖励区域。右图为不同β值下奖励随训练步数变化曲线，β越大，策略收敛更快且最终奖励更高，体现了风险敏感RL在提升探索和奖励优化中的效果。
  - 这是一个简化的实验，模拟了 LLM 微调的困境。奖励景观中有一个次优的“山峰”（奖励0.6）和一个全局最优的“山峰”（奖励1.0）。初始策略被设置在次优解附近（蓝色曲线）。
  - 结果： 标准 RL ( $\beta=0$ ) 很快收敛到 0.6 并陷入局部最优。而风险寻求的策略 ( $\beta \ge 4$ ) 成功“跳出”了局部最优，找到了全局最优解 1.0。这直观地证明了 RS-GRPO 克服初始策略偏见的能力。
- pass@k 性能对比 (图 4)
  
  该图像为多个折线图组成的图表，展示了Base、GRPO和RS-GRPO三种算法在六个数学推理基准（AIME24、AIME25、HMMT_Feb24、HMMT_Feb25、CMIMC25、MATH500）上的Pass@k性能对比。横轴为k值，纵轴为Pass@k的准确率百分比。图中红色线（RS-GRPO）多数情况下优于其他两种，显示该方法在多解性能提升上具有显著优势。
  - 在所有五个模型和六个基准上，RS-GRPO (红线) 的 pass@k 性能全面且显著地优于 GRPO (绿线) 和基础模型 (橙线)。
  - 一个关键现象是，在 k 值很大时（如 k>256），GRPO 的性能甚至会低于基础模型，这印证了标准 RL 会“扼杀”多样性的观点。而 RS-GRPO 在所有 k 值上都超越了基础模型，证明它真正扩展了模型的解空间。
- 主结果汇总 (Table 2)
  - Table 2 的数据量化了 pass@1 和 pass@32 的性能。结果显示，RS-GRPO 在几乎所有模型和数据集上都显著提升了 pass@32 (平均提升约 4%)，同时 pass@1 的性能与 GRPO 持平甚至更高（在三个模型上平均提升约 2%）。这证明了 RS-GRPO 实现了更优的性能权衡。
消融实验/参数分析 (Ablation Studies / Parameter Analysis):
- $\beta$ 参数的影响 (图 5)
  
  该图像为图表，展示了不同参数β（0、2、4、8）下算法在训练步骤中的表现变化。图表分上下两行，每行四个子图，分别为累计解决率（Cumulative Solve Rate）、训练奖励（Training Rewards）、测试通过率@1（Testing Pass@1 %）和测试通过率@32（Testing Pass@32 %）。结果显示随着β增加，累计解决率和测试通过率整体提升，尤其是在较大训练步数时，β=8表现最优，体现了风险敏感强化学习方法对提升模型多样性和性能的积极作用。
  - 随着 $\beta$ 的增大，训练集上的累积解题率 (Cumulative Solve Rate) 和测试集上的 pass@32 性能都得到提升。
  - pass@1 的性能则呈现出一种权衡：过大的 $\beta$ 可能会轻微损害 pass@1。实验表明， $\beta=2$ 是一个很好的折中点，既能大幅提升 pass@k，也能稳定或提升 pass@1。
- 与其他 pass@k 方法的比较 (图 6)
  
  该图像为图表，展示了不同算法在多个步骤（Steps）下的测试通过率（Pass@1和Pass@32, %）。四条曲线分别代表Chen等人、Mahdavi等人、Walder & Karkhanis以及本文提出的风险敏感（Risk-Sensitive）方法。从曲线趋势看，风险敏感算法在测试通过率上整体优于或接近其他方法，尤其在Pass@32指标上表现更为突出，说明其在探索多解策略上效果更佳。
  - 与其他基线相比，RS-GRPO 在 pass@32 上表现相当或更好，但在 pass@1 上 consistently 表现最佳。这再次验证了其“更密集的优势信号”带来的好处。
  - 特别地，Walder & Karkhanis 的方法表现不佳，作者分析是因为其优势估计恒为正，缺乏负向惩罚信号，导致策略快速“坍塌”。
- 性能提升来源分析 (图 7)
  
  该图像由两个部分组成，左侧为柱状图，比较了GRPO和RS-GRPO在独特答案比例上的表现，RS-GRPO明显更高。右侧为热力图，展示了两者在不同问题准确率区间的联合分布，颜色深浅表示比例大小，数值显示具体比例，表明RS-GRPO在较高准确率区间的比例优势。整体体现RS-GRPO在提升多样性和准确率上的改进效果。
  - 左图 (多样性): RS-GRPO 生成的“独立答案”比例显著高于 GRPO，说明其解题路径更多样。
  - 右图 (热力图): 该图展示了从 GRPO 到 RS-GRPO，问题准确率的变化。最关键的一项是左下角的 0.08，它表示有 8% 的被 GRPO 完全无法解决的问题（准确率为0），在 RS-GRPO 训练后变得可以解决（准确率在 (0, 0.4] 区间）。这是 pass@k 提升的主要来源。

7. 总结与思考 (Conclusion & Personal Thoughts)

结论总结 (Conclusion Summary):
- 本文成功识别并解决了 LLM 强化学习中的“探索困境”问题，即标准 RL 方法会因预训练模型的尖锐初始策略而陷入局部最优，损害解的多样性。
- 论文提出了一种基于风险敏感理论的强化学习框架，并实例化为 RS-GRPO 算法。该算法通过一个风险寻求的目标函数，将学习重心转移到更困难的问题上，从而有效促进了探索。
- RS-GRPO 实现简单，效果显著，在多个数学推理任务上实现了 pass@k 和 pass@1 的双重提升，为解决复杂推理问题提供了新的有效途径。
局限性与未来工作 (Limitations & Future Work):
- 论文在附录 A 中坦诚地指出了一个局限性：实验中使用的风险参数 $\beta$ 是一个固定的超参数。作者尝试了多种动态调整 $\beta$ 的策略（如退火、自适应等），但效果均不如一个精心选择的固定值。如何设计一个最优的动态策略来更好地平衡探索与利用，仍然是一个有待解决的开放问题。
个人启发与批判 (Personal Insights & Critique):
- 启发性:
  1. 优雅且根本的解决方案： 本文没有采用复杂的模块或技巧，而是从优化目标这个根本问题入手，将决策理论中的“风险寻求”概念引入 RL，为解决探索问题提供了非常深刻且优雅的视角。
  2. 实用价值高： RS-GRPO 作为一个“即插即用”的模块，实现成本极低，但效果提升显著，这使得它在工业界和学术界都具有很高的应用潜力。
  3. 问题定义清晰： 论文对“探索困境”的定义和分析非常到位，通过 pass@1 和 pass@k 的此消彼长现象，清晰地揭示了现有方法的痛点。
- 批判性思考:
  1. 理论到实践的泛化性： 论文的理论分析是在一个简化的多臂老虎机环境中进行的。虽然这为理解算法行为提供了很好的直觉，但 LLM 的动作空间是极其高维和复杂的，理论上的保证能否完全推广到 LLM 场景仍需更深入的探讨。
  2. 任务领域的局限： 实验完全集中在奖励信号清晰、可验证的数学推理任务上。RS-GRPO 框架虽然理论上支持连续奖励，但它在需要奖励模型、奖励信号更模糊的任务（如文本摘要、创意写作、对话系统）上的表现如何，仍是一个未知数。在这些领域，放大学习信号可能会加剧奖励模型被“攻击”(reward hacking)的风险。
  3. 超参数依赖： 尽管 $\beta=2$ 在实验中表现良好，但 $\beta$ 的选择仍然是一个需要凭经验调整的超参数。对于不同的模型、任务和数据集，最优的 $\beta$ 值可能不同，这给实际应用带来了一定的调参成本。

相似论文推荐

基于向量语义检索推荐的相关论文。

暂时没有找到相似论文。