BAPO: Stabilizing Off-Policy Reinforcement Learning for LLMs via Balanced Policy Optimization with Adaptive Clipping
TL;DR 精炼摘要
本文介绍了一种新方法BAPO,通过自适应裁剪的平衡策略优化,旨在稳定大语言模型的离策略强化学习。研究揭示了优化不平衡和固定裁剪机制导致的效率下降问题,并提出动态调整裁剪界限的策略,有效改善样本使用效率和训练稳定性。
摘要
Reinforcement learning (RL) has recently become the core paradigm for aligning and strengthening large language models (LLMs). Yet, applying RL in off-policy settings--where stale data from past policies are used for training--improves sample efficiency, but remains challenging: policy entropy declines sharply, optimization often becomes unstable and may even collapse. Through theoretical and empirical analysis, we identify two key insights: (i) an imbalance in optimization, where negative-advantage samples dominate the policy gradient, suppressing useful behaviors and risking gradient explosions; and (ii) the derived Entropy-Clip Rule, which reveals that the fixed clipping mechanism in PPO-like objectives systematically blocks entropy-increasing updates, thereby driving the policy toward over-exploitation at the expense of exploration. Building on these insights, we propose BAlanced Policy Optimization with Adaptive Clipping (BAPO), a simple yet effective method that dynamically adjusts clipping bounds to adaptively re-balance positive and negative contributions, preserve entropy, and stabilize RL optimization. Across diverse off-policy scenarios--including sample replay and partial rollout--BAPO achieves fast, stable, and data-efficient training. On AIME 2024 and AIME 2025 benchmarks, our 7B BAPO model surpasses open-source counterparts such as SkyWork-OR1-7B, while our 32B BAPO model not only achieves state-of-the-art results among models of the same scale but also outperforms leading proprietary systems like o3-mini and Gemini-2.5-Flash-Thinking.
思维导图
论文精读
中文精读
1. 论文基本信息
1.1. 标题
BAPO: Stabilizing Off-Policy Reinforcement Learning for LLMs via Balanced Policy Optimization with Adaptive Clipping (BAPO:通过带自适应截断的平衡策略优化来稳定大语言模型的异策略强化学习)
1.2. 作者
Zhiheng Xi, Xin Guo, Yang Nan, Enyu Zhou, Junrui Shen, Wenxiang Chen, Jiaqi Liu, Jixuan Huang, Zhihao Zhang, Honglin Guo, Xun Deng, Zhikai Lei, Miao Zheng, Guoteng Wang, Shuo Zhang, Peng Sun, Rui Zheng, Hang Yan, Tao Gui, Qi Zhang, Xuanjing Huang
- 机构: 复旦大学 (Fudan University), 上海其及智峰科技有限公司 (Shanghai Qiji Zhifeng Co., Ltd.), 上海人工智能实验室 (Shanghai Innovation Institute)
1.3. 发表期刊/会议
- 发表状态: ArXiv 预印本
- 发布时间: 2025年10月21日 (UTC)
1.4. 摘要
强化学习 (RL) 已成为对齐和增强大语言模型 (LLMs) 的核心范式。虽然在 异策略 (off-policy) 设置下(即使用过去策略产生的陈旧数据进行训练)应用 RL 能提高样本效率,但这仍然充满挑战:策略熵 (policy entropy) 急剧下降,优化过程往往变得不稳定甚至崩溃。通过理论和实证分析,作者得出了两个关键见解:(i) 优化中的不平衡现象,即负优势 (negative-advantage) 样本主导了策略梯度,抑制了有用的行为并引发梯度爆炸;(ii) 推导出 熵-截断法则 (Entropy-Clip Rule),揭示了 PPO 类目标中的固定截断机制系统性地阻断了增加熵的更新,从而驱使策略以牺牲探索为代价过度利用 (over-exploitation)。基于这些见解,作者提出了 带自适应截断的平衡策略优化 (BAPO)。这是一种简单而有效的方法,通过动态调整截断边界来自适应地重新平衡正负样本的贡献,保持熵并稳定 RL 优化。
1.5. 原文链接
- ArXiv 页面: https://arxiv.org/abs/2510.18927v1
- PDF 下载: https://arxiv.org/pdf/2510.18927v1
2. 整体概括
2.1. 研究背景与动机
-
核心问题: 在大语言模型 (LLM) 的强化学习 (RL) 训练中,为了提高数据利用率和适应现代 AI 基础设施(如 partial rollout),研究者希望采用 异策略 (Off-policy) 学习,即利用旧策略生成的数据(称为陈旧数据,stale data)来更新当前策略。
-
面临挑战: 现有的 RL 算法(如 PPO)在处理陈旧数据时表现极不稳定。随着数据“陈旧度 (staleness)”的增加,模型会出现 策略熵 (Entropy) 迅速坍塌、梯度爆炸 甚至 训练崩溃 的现象。这限制了模型在长视界 (long-horizon) 任务中的探索能力。
-
现有空白: 尽管已有工作尝试解决此问题(如调整超参数),但缺乏对异策略训练不稳定性的深层理论解释,且现有方法(如简单的 Clip-Higher)无法动态平衡正负样本的贡献。
下图(原文 Figure 2)展示了随着数据陈旧度(Staleness)增加,训练变得极不稳定,熵(Entropy)急剧下降,甚至导致训练崩溃:
该图像是图表,展示了不同数据陈旧性对模型训练的影响,包括训练奖励、熵、剪切比例和梯度范数。随着陈旧性的增加,模型面临优化不稳定、熵下降以及训练过程的突然崩溃。
2.2. 核心贡献
- 理论洞察 (Theoretical Insights):
- 优化不平衡: 发现负优势样本在数量和梯度贡献上都占据主导地位,导致模型过度受到惩罚信号的影响。
- 熵-截断法则 (Entropy-Clip Rule): 理论推导证明,PPO 的固定截断机制(Clipping)会系统性地过滤掉那些本可以增加熵的“低概率正样本”,导致模型探索能力丧失。
- 算法创新 (Algorithmic Innovation):
- 提出了 BAPO (BAlanced Policy Optimization) 算法。该算法引入了自适应截断机制,动态调整截断的上下界 (),以强制保证正样本对策略梯度的贡献比例,从而维持训练稳定性和策略熵。
- SOTA 性能:
- 在 7B 和 32B 参数规模的模型上,BAPO 在 AIME 2024 和 AIME 2025 数学推理基准测试中均取得了超越开源模型(如 Qwen3-32B)甚至逼近闭源模型(如 o3-mini)的成绩。
3. 预备知识与相关工作
3.1. 基础概念
为了理解本文,初学者需要掌握以下强化学习与 LLM 结合的关键概念:
-
强化学习 (RL) 对齐 LLM:
- 给定输入提示词 ,LLM 作为策略 生成回复 。
- 根据奖励模型或规则
R(x, y)给予评分。 - 目标是最大化期望奖励:。
-
同策略 (On-policy) vs. 异策略 (Off-policy):
- 同策略: 训练用的数据是由当前正在优化的策略生成的。数据必须“新鲜”,用完即弃,样本效率低。
- 异策略: 训练用的数据是由过去的策略(行为策略 )生成的。这允许数据重用(Experience Replay)或在分布式系统中容忍模型版本延迟(Staleness)。
-
重要性采样 (Importance Sampling, IS):
- 由于训练数据分布(旧策略)与当前策略分布不同,计算梯度时需要引入权重 来修正:
- 表示当前策略比旧策略更倾向于生成该词元。
-
PPO (Proximal Policy Optimization):
- 目前主流的 RL 算法。为了防止策略更新步子过大导致崩溃,PPO 使用 截断 (Clipping) 机制限制 的范围(通常在 之间,如
[0.8, 1.2])。 - 优势函数 (Advantage, ): 衡量当前动作比平均情况好多少。 为正样本(应鼓励), 为负样本(应抑制)。
- 目前主流的 RL 算法。为了防止策略更新步子过大导致崩溃,PPO 使用 截断 (Clipping) 机制限制 的范围(通常在 之间,如
-
策略熵 (Policy Entropy):
- 衡量策略随机性的指标。熵越高,策略越倾向于探索不同的可能性;熵越低,策略越确定(过度利用)。在训练初期保持较高的熵对于发现复杂解法至关重要。
3.2. 技术演进与前人工作
- GRPO (Group Relative Policy Optimization): DeepSeek 提出的方法,不使用额外的价值网络 (Critic),而是通过一组输出的相对奖励来计算优势。它是本文的基础优化框架。
- 异策略的挑战: Prior work (如 Arnal et al., 2025) 指出异策略训练容易不稳定。
- DAPO: 之前的工作尝试通过简单的 "Clip-Higher"(提高截断上限)来引入更多正样本,但这是一种静态调整。
- 本文差异: BAPO 不仅仅是静态调整,而是根据当前的梯度贡献动态计算最优的截断边界,从根本上解决正负样本贡献失衡的问题。
4. 方法论
4.1. 核心动因分析 (Motivation)
4.1.1. 优化不平衡现象
作者首先分析了 PPO 目标函数中正负样本的贡献。PPO 的梯度可以拆解为两部分: 实验数据(原文 Figure 4)显示,负优势样本 (Negative Advantage) 在数量和对 Loss 的贡献上都占据绝对主导。这会导致模型过度受到惩罚,变得不敢探索,甚至引发梯度爆炸。
下图(原文 Figure 4)清晰地展示了这种不平衡:
该图像是两个图表,左侧展示了训练过程中正负样本对策略梯度损失的贡献和各自的比例,右侧展示了重要性取样权重与不同优势状态下的概率关系。图表反映了优化过程中样本的表现及其对模型训练的影响。
4.1.2. 熵-截断法则 (Entropy-Clip Rule)
这是本文最重要的理论贡献。作者推导了策略熵变化 与 PPO 更新公式的关系:
其中 是一个指示函数,表示该词元是否未被截断:
直觉解释:
-
熵的变化取决于那些未被截断的样本。
-
低概率正样本 (Low-probability Positive):即模型原本认为概率很低,但实际效果很好(优势 )的词元。这类样本的重要性权重 通常很大(因为分母旧概率小)。
-
PPO 的问题:标准的对称截断(如
[0.8, 1.2])会将这些 很大的低概率正样本直接截断()。 -
后果:公式表明,丢失这些样本会导致熵无法增加,模型只能不断强化已有的高概率词元(Over-exploitation),导致熵坍塌。
下图(原文 Figure 10 左侧)展示了权重、概率与熵的关系,佐证了低概率词元往往对应高熵贡献:
该图像是一个三部分的图表,展示了权重、概率和熵之间的关系。左侧的3D图展示了权重、概率和熵的共变关系,中间图则显示权重与概率的关系,右侧图描述了概率与熵的关系及其80百分位线。这些数据反映了在强化学习中的重要性采样权重的动态变化。
4.2. BAPO 方法详解
为了解决上述问题,BAPO 的核心思想是动态调整截断边界,打破对称性,强制让正样本在梯度中占据足够的比例。
4.2.1. 算法目标
在每一步更新中,BAPO 寻找一对动态的截断边界 (替代标准的 ),使得正样本对 Loss 的贡献占比不低于某个阈值 。
BAPO 试图满足以下不等式:
符号解释:
- 分子:正样本()贡献的 Loss 绝对值。注意正样本只受上界 影响。
- 分母:所有样本贡献的总 Loss 绝对值。
- :预设的目标正样本贡献比例(例如 0.4)。
4.2.2. 自适应调整流程 (Algorithm 1)
作者设计了一个简单的迭代过程来寻找满足上述条件的 和 。
-
初始化: 设定初始边界范围 和 。初始化 。
-
采样与计算: 采集一批数据,计算优势 和重要性权重 。
-
动态调整循环:
- 计算当前边界下的正样本贡献比例 。
- While (正样本贡献不足) 且 边界未达极限:
- 扩展上界: 如果 未达最大值,增加 。这会纳入更多高权重(通常是低概率)的正样本,增加分子。
- 收缩下界 (或调整): 否则,增加 (注意:这里的逻辑是调整下界以过滤更多负样本,从而减小分母中的负向部分,间接提升比例)。
-
策略更新: 使用最终确定的 计算 PPO Loss 并更新模型参数 。
下图(原文 Figure 3 右侧)直观展示了 BAPO 如何通过非对称截断(拉高上界、调整下界)来找回被 PPO 丢弃的正样本(三角形点),并过滤掉过多的负样本(圆形点):
该图像是图示,展示了提出的BAPO方法。在左侧,该图描述了基线方法GRPO的优化过程,使用对称的固定裁剪边界,导致高概率正样本被强化,同时过多惩罚低概率负样本,进而出现锐利分布和熵崩溃。在右侧,BAPO动态调整裁剪边界 和 ,排除了过于负面的样本,保持平滑分布并保留了熵平衡。
4.2.3. 动态边界的可视化
下图(原文 Figure 8)展示了训练过程中 (红线)和 (蓝线)的变化。可以看到上界波动较大,说明算法在积极地适应不同阶段的数据分布。
该图像是一个示意图,展示了不同步骤下的剪切边界变化。红线表示高边界(Clip-High-Bound),蓝线表示低边界(Clip-Low-Bound),随着步数增加,高边界的波动较大,而低边界基本保持不变。
5. 实验设置
5.1. 数据集
- 训练数据: SkyWork-OR1-RL-Data (He et al., 2025)。这是一个高质量的开源 RL 数据集,包含复杂的数学推理问题。
- 评测基准:
- AIME 2024: 美国数学邀请赛 2024 年试题。
- AIME 2025: 最新发布的 2025 年试题,更能反映模型的当前能力上限。
- MATH: 经典的数学竞赛数据集(部分实验使用)。
5.2. 评估指标
- 准确率 (Accuracy/Pass@1): 其中 是测试题数量, 是指示函数,当模型生成的答案 经解析后与标准答案一致时为 1。
- 策略熵 (Entropy): 衡量策略分布的随机性,反映探索能力。
- 梯度范数 (Gradient Norm): 衡量训练稳定性的指标。
5.3. 基础模型与对比基线
- 基础模型 (Backbones):
- DeepSeek-R1-Distill-Qwen-7B
- DeepSeek-R1-Distill-Qwen-32B
- OctoThinker-Llama3.2-3B-Long-Zero
- BP-Math-7B/32B (作者基于 Qwen2.5-Math 微调的模型)
- 对比基线:
- SFT: 监督微调模型。
- GRPO: 标准的 Group Relative Policy Optimization。
- 开源 SOTA: Qwen3-32B, SkyWork-OR1, DeepSeek-R1-Distill 等。
- 闭源模型: OpenAI o3-mini, Gemini-2.5-Flash-Thinking。
6. 实验结果与分析
6.1. 核心结果分析
主要的实验结果表明,BAPO 显著提升了模型在数学推理任务上的性能,尤其是在大参数模型上。
主要发现:
-
超越基线: 相比 GRPO,BAPO 在所有设置下都有显著提升。
-
SOTA 表现: 32B 的 BAPO 模型在 AIME 2024 上达到 87.1%,击败了同等规模的 Qwen3-32B (81.4%) 和 SkyWork-OR1-32B (82.2%),甚至超过了闭源的 o3-mini-medium (79.6%)。
以下是原文 Table 1 的完整转录:
Table 1: 主评估结果 (Main Evaluation Results)
| Model | Model Size | AIME 2024 | AIME 2025 | Average |
|---|---|---|---|---|
| ≥ 100B Models and Proprietary Models | ||||
| Qwen3-235B-A22B | 235B | 85.7 | 81.5 | 83.6 |
| DeepSeek-R1 | 671B | 79.8 | 70.0 | 74.9 |
| DeepSeek-R1-0528 | 671B | 91.4 | 87.5 | 89.5 |
| o1-medium | - | 83.3 | 79.0 | 81.2 |
| o3-mini-medium | - | 79.6 | 76.7 | 78.2 |
| o3-mini-high | - | 87.3 | 86.5 | 86.9 |
| Gemini-2.0-Flash-Thinking | - | 73.3 | 53.5 | 63.4 |
| Gemini-2.5-Flash-Thinking-0520 | - | 82.3 | 72.0 | 77.2 |
| 10B - 100B Scale Models | ||||
| Qwen3-30B-A3B | 30B | - | 61.3 | - |
| R1-Distill-Qwen-32B | 32B | 72.6 | 54.9 | 63.8 |
| QwQ-32B | 32B | 79.5 | 65.3 | 72.4 |
| Qwen3-32B | 32B | 81.4 | 72.9 | 77.2 |
| SkyWork-OR1-32B | 32B | 82.2 | 73.3 | 77.8 |
| BP-Math-32BSFT | 32B | 84.4 | 78.1 | 81.3 |
| BP-Math-32BGRPO | 32B | 84.6 | 78.8 | 81.7 |
| BP-Math-32BBAPO (Ours) | 32B | 87.1 | 80.0 | 83.5 |
| ≤ 10B Models | ||||
| R1-Distill-Qwen-7B | 7B | 54.2 | 38.4 | 46.3 |
| Light-R1-7B-DS | 7B | 59.1 | 44.2 | 51.7 |
| AReaL-boba-RL-7B | 7B | 61.9 | 48.3 | 55.1 |
| AceReason-Nemotron-7B | 7B | 69.0 | 53.6 | 61.3 |
| SkyWork-OR1-7B | 7B | 70.2 | 54.6 | 62.4 |
| BP-Math-7BSFT | 7B | 66.9 | 59.0 | 62.9 |
| BP-Math-7BGRPO | 7B | 69.2 | 59.2 | 64.2 |
| BP-Math-7BBAPO (Ours) | 7B | 70.8 | 62.5 | 66.7 |
下图(原文 Figure 1)可视化了上述结果,直观展示了 BAPO(红色柱)相对于其他模型的优势:
该图像是一个柱状图,展示了BAlanced Policy Optimization with Adaptive Clipping (BAPO) 在AIME 2024和AIME 2025基准测试中的准确率表现。左侧为7B模型的结果,右侧为32B模型的结果。BAPO模型的表现优于其他开源模型,尤其是在32B模型中,达到了80.0%的准确率。
6.2. 训练动态与稳定性分析
-
训练曲线: 相比基线,BAPO 的 Reward 增长更快且更稳定。
-
熵的保持: 如下面的 Figure 9 所示,BAPO(红线)在训练过程中成功维持了较高的熵,避免了过早收敛(Collapse),而基线方法(灰线)的熵迅速下降。
-
正样本贡献: BAPO 成功将正样本对 Loss 的贡献比例提升并稳定在目标值附近。
该图像是图表,展示了 BAPO 的训练动态,包括训练奖励、熵、正损失贡献和梯度范数,表明 BAPO 在优化过程中的表现优于基线方法。
6.3. 对数据陈旧度 (Staleness) 的鲁棒性
作者测试了在不同程度的数据滞后(Staleness)下模型的表现。Staleness=4 意味着使用 4 个版本之前的策略生成的数据。
-
结果显示(见下图),随着滞后增加,GRPO(灰色)和 Clip-Higher(浅蓝)性能下降明显,而 BAPO(红色) 表现非常稳健,甚至在 Staleness=4 时依然保持高性能。
该图像是一个条形图,展示了不同数据时效性下的模型准确率(百分比)。结果显示,使用 BAPO 方法的模型在 AIME 2024 和 AIME 2025 基准测试中表现优异,尤其在 Staleness 4 的情况下相较于基础模型和其他剪切技术展示了优越的性能。
6.4. Partial Rollout 设置下的表现
Partial Rollout(部分推演)是一种提高训练效率的技术,会导致同一条轨迹中混合不同策略的数据,增加了 Off-policy 的程度。
-
实验(见下图 Figure 12)表明,在 Partial Rollout 设置下,BAPO 依然能保持稳定的 Reward 增长和熵水平,证明了其适应现代 RL 基础设施的能力。
该图像是一个训练动态图表,展示了在不同预算下 BAPO 方法与基线方法的训练奖励和熵的变化。从图中可以看出,BAPO 方法在预算为4000时的训练奖励相对较高,并且熵的变化趋势稳定。
7. 总结与思考
7.1. 结论总结
这篇论文针对大语言模型在异策略(Off-policy)强化学习中遇到的不稳定和熵坍塌问题,给出了深刻的理论解释和有效的解决方案。
- 理论上,揭示了“熵-截断法则”,指出 PPO 的固定截断是导致探索能力丧失的罪魁祸首,因为它错误地过滤了那些能提供高信息的低概率正样本。
- 方法上,提出了 BAPO,通过动态调整截断边界,强制平衡正负样本的梯度贡献。
- 结果上,在 AIME 等高难度数学基准上取得了 SOTA 性能,并展现了极强的训练稳定性。
7.2. 局限性与未来工作
- 超参数引入: 虽然 BAPO 减少了手动调节截断边界的需求,但它引入了新的超参数,如目标贡献比例 、边界调整步长 。尽管作者声称这些参数不需要精细调节,但在不同任务上的通用性仍需验证。
- 计算开销: 动态计算边界需要在每个训练步进行迭代搜索(虽然是简单的循环),可能会带来微小的额外计算开销。
7.3. 个人启发与批判
- 重新审视 PPO 的假设: 这篇论文非常有启发性的一点是挑战了 PPO 中“神圣不可侵犯”的 截断机制。传统观点认为截断是为了安全,但本文指出过度截断反而扼杀了模型的潜能(特别是那些看似“意外”但正确的低概率探索)。
- 数据利用的视角: 很多 RL 改进工作关注于 Reward 设计,而本文关注于样本筛选机制。这种“基于梯度的动态数据清洗”思路非常值得借鉴,也许可以推广到其他领域(如 DPO 的加权机制)。
- 工程与理论的结合: BAPO 的设计非常贴合实际工程需求(如处理 Staleness 和 Partial Rollout),这对于在大规模分布式集群上训练 LLM 极具实用价值。
相似论文推荐
基于向量语义检索推荐的相关论文。