论文状态：已完成

ASPO: Asymmetric Importance Sampling Policy Optimization

发表：2025/10/07

序列策略优化 (40)大语言模型强化学习训练 (67)

原文链接 PDF 下载

价格：0.100000

已有 7 人读过

AI 审稿

查看结构化的 AI 审稿意见

paper.reviews.ctaSubtitle

已完成：2

查看审稿结果

本分析由 AI 生成，可能不完全准确，请以原文为准。

TL;DR 精炼摘要

本文揭示大语言模型强化学习（OSRL）范式中，正优势词元的重要性采样（IS）比率错配，导致正负词元权重不平衡，进而抑制低概率词元更新并过度放大高概率词元。为解决此问题，研究提出ASPO（非对称重要性采样策略优化），核心方法是翻转正优势词元的IS比率，使其更新方向与负优势词元一致，并辅以软性双重裁剪机制稳定更新。实验证明，ASPO显著缓解过早收敛，有效提升训练稳定性和最终性能，优于GRPO等强基线。

摘要

Recent Large Language Model (LLM) post-training methods rely on token-level clipping mechanisms during Reinforcement Learning (RL). However, we identify a fundamental flaw in this Outcome-Supervised RL (OSRL) paradigm: the Importance Sampling (IS) ratios of positive-advantage tokens are mismatched, leading to unbalanced token weighting for positive and negative tokens. This mismatch suppresses the update of low-probability tokens while over-amplifying already high-probability ones. To address this, we propose Asymmetric Importance Sampling Policy Optimization (ASPO), which uses a simple yet effective strategy that flips the IS ratios of positive-advantage tokens, aligning their update direction with the learning dynamics of negative ones. AIS further incorporates a soft dual-clipping mechanism to stabilize extreme updates while maintaining gradient flow. Comprehensive experiments on coding and mathematical reasoning benchmarks demonstrate that ASPO significantly mitigates premature convergence, improves training stability, and enhances final performance over strong GRPO-based baselines. Our analysis provides new insights into the role of token-level weighting in OSRL and highlights the critical importance of correcting IS in LLM RL. The code and models of ASPO are available at https://github.com/wizard-III/Archer2.0.

思维导图

论文精读

中文精读约 16 分钟读完 · 8,612 字

1. 论文基本信息 (Bibliographic Information)

标题 (Title): ASPO: Asymmetric Importance Sampling Policy Optimization (ASPO：非对称重要性采样策略优化)
作者 (Authors): Jiakang Wang, Runze Liu, Lei Lin, Wenping Hu, Xiu Li, Fuzheng Zhang, Guorui Zhou, Kun Gai.
隶属机构 (Affiliations): 作者主要来自快手科技 (Kuaishou Technology) 和清华大学 (Tsinghua University)。
发表期刊/会议 (Journal/Conference): 本文目前以预印本 (Preprint) 形式发布在 arXiv 上，尚未在同行评审的期刊或会议上正式发表。
发表年份 (Publication Year): 2025 (根据 arXiv ID 2510.06062 推断，这是一个未来日期，表明论文是近期提交的)。
摘要 (Abstract): 近期的大语言模型 (LLM) 后训练方法在强化学习 (RL) 过程中依赖于词元级别 (token-level) 的裁剪机制。然而，本文发现在这种结果监督强化学习 (OSRL) 范式中存在一个根本性缺陷：对于具有正优势 (positive-advantage) 的词元，其重要性采样 (IS) 比率是错配的，导致正负词元的权重不平衡。这种错配抑制了低概率词元的更新，同时过度放大了已是高概率的词元。为解决此问题，本文提出了非对称重要性采样策略优化 (ASPO)，它采用一种简单而有效的策略：翻转正优势词元的 IS 比率，使其更新方向与负优势词元的学习动态保持一致。ASPO 还集成了一个软性双重裁剪机制来稳定极端更新，同时保持梯度流。在编码和数学推理基准上的全面实验表明，与强大的基于 GRPO 的基线相比，ASPO 显著缓解了过早收敛，提高了训练稳定性，并增强了最终性能。
原文链接 (Source Link):
- ArXiv 链接: https://arxiv.org/abs/2510.06062
- PDF 链接: http://arxiv.org/pdf/2510.06062v1
- 发布状态: 预印本 (Preprint)。

2. 整体概括 (Executive Summary)

研究背景与动机 (Background & Motivation - Why):
- 核心问题: 在当前用于大语言模型（如编码、数学推理）的强化学习训练中，广泛采用的 GRPO (Group Relative Policy Optimization) 算法及其变体存在一个隐藏的缺陷。这些方法在更新模型参数时，对“好”的词元（即对最终正确答案有贡献的词元）和“坏”的词元（导致错误答案的词元）的权重分配不合理。
- 重要性与挑战: 具体来说，这些方法使用的重要性采样 (Importance Sampling, IS) 机制，本意是修正数据分布的差异，但在实践中却像一个“贫富差距放大器”。对于模型已经很有把握生成的“好”词元，它会给予更大的更新权重；而对于模型不确定、概率较低的“好”词元，反而给予很小的权重。这种机制导致模型“偏科”严重，只在已经擅长的地方反复练习，而忽略了真正需要学习的知识点。这会引发熵坍塌 (entropy collapse)（即模型变得过于自信，丧失探索性）、过早收敛到局部最优解以及性能下降等问题。
- 切入点: 本文的作者敏锐地意识到，IS 比率在 OSRL 范式下的作用已经从“分布校正器”转变为“词元级训练权重”。他们从这个新视角出发，重新审视了 PPO-Clip 机制中权重分配的合理性，并发现了正优势词元和负优势词元之间的“非对称”权重错配问题。
核心贡献/主要发现 (Main Contribution/Findings - What):
- 揭示根本缺陷: 首次明确指出并验证了 GRPO 类算法中存在的正优势词元 IS 比率错配问题，并阐明了其如何导致训练不稳定和性能瓶颈。
- 提出新算法 ASPO: 提出了一种名为 ASPO (Asymmetric Importance Sampling Policy Optimization) 的新算法。其核心思想非常简单而巧妙：
  1. 权重翻转 (Weight Flipping): 对“好”的词元（正优势），将其 IS 比率取倒数。这样一来，模型当前概率越低的“好”词元，获得的更新权重反而越大，从而鼓励模型学习那些“知识盲区”。
  2. 软性双重裁剪 (Soft Dual-Clipping): 结合一种改进的裁剪机制，既能防止极端权重值破坏训练稳定性，又不会完全丢弃这些词元的梯度信息，保证了学习的持续进行。
- 验证显著效果: 通过在多个数学推理和代码生成任务上的实验证明，ASPO 相比于强大的基线模型（如 DAPO），能够：
  - 缓解熵坍塌，保持模型的探索能力。
  - 提升训练稳定性，学习过程更平滑。
  - 获得更高的最终性能，有效避免了过早收それに。

基础概念 (Foundational Concepts):
- 强化学习 (Reinforcement Learning, RL): 一种机器学习范式，智能体 (agent) 通过与环境交互，根据收到的奖励 (reward) 或惩罚 (penalty) 来学习最优策略 (policy)。在 LLM 中，模型就是智能体，生成的文本是行为，而答案是否正确就是奖励信号。
- 结果监督强化学习 (Outcome-Supervised RL, OSRL): RL 在 LLM 中的一种特定应用。模型生成一个完整的答案（例如一段代码或解题步骤）后，系统只根据最终结果（“对”或“错”）给予一个总的奖励。这个奖励会不加区分地分配给生成答案过程中的每一个词元。
- 重要性采样 (Importance Sampling, IS): 在 RL 中，为了提高数据利用效率，我们通常会用旧策略产生的数据来训练当前策略，这称为离策略 (off-policy) 学习。但由于新旧策略的概率分布不同，直接使用会导致偏差。IS 通过一个比率 $r_t = \frac{\pi_{\theta}(o_t)}{\pi_{\theta_{old}}(o_t)}$ 来修正这种偏差，其中 $\pi_{\theta}$ 是当前策略的概率， $\pi_{\theta_{old}}$ 是旧策略的概率。
- 优势函数 (Advantage Function, $\hat{A}$ ): 在 RL 中，优势值衡量在某个状态下，采取某个动作比平均水平好多少。在 OSRL 中，一个答案中的所有词元共享同一个优势值，这个值通常由该答案的奖励与一批答案的平均奖励之差计算得出。正优势意味着这个答案比平均要好，负优势则相反。
- 近端策略优化 (Proximal Policy Optimization, PPO): 一种主流的 RL 算法，通过一个“裁剪 (clipping)”机制来限制每次策略更新的幅度，防止模型更新过快导致训练崩溃，从而保证了训练的稳定性。GRPO 正是基于 PPO 的思想。
前人工作 (Previous Works):
- GRPO (Group Relative Policy Optimization): 这是 OSRL 领域的一个里程碑式工作。它通过对一组（Group）生成结果的奖励进行归一化来计算优势值，并沿用了 PPO 的词元级裁剪机制。它是本文方法所要改进的基础。
- CISPO: 指出了 PPO 的“硬裁剪”会直接丢弃部分词元的梯度，导致信息损失。它提出了一种“软裁剪”，即只裁剪 IS 比率的值，但保留其梯度，让这些词元依然能参与更新。ASPO 借鉴了这一思想用于其双重裁剪机制。
- GSPO: 认为 OSRL 的奖励是序列级别的，因此 IS 比率也应该是序列级别的，而不是词元级别的。这与本文从词元级权重分配角度出发的思路不同。
技术演进 (Technological Evolution): 技术脉络可以看作：
1. 通用的 PPO 算法为 RL 提供了稳定训练的框架。
2. GRPO 将 PPO 成功应用于 LLM 的 OSRL 任务，成为事实上的标准。
3. CISPO, GSPO 等工作开始对 GRPO 的裁剪和 IS 机制进行微调和改进，但没有触及其核心的权重分配问题。
4. 本文的 ASPO 则深入一层，重新定义了 IS 在 OSRL 中的角色，并从根本上修正了其权重分配机制。
差异化分析 (Differentiation): 与之前工作的核心区别在于：
- 视角不同: 之前的工作仍将 IS 视为分布校正项，在其框架内进行修补。而 ASPO 认为 IS 在 OSRL 中本质上是训练权重，因此其设计的合理性应从“如何有效分配学习权重”的角度来评判。
- 解决方案不同: ASPO 的核心创新是“翻转”正优势词元的权重，这是一个非对称的、颠覆性的操作，直接针对权重错配的根源。而其他方法只是在调整裁剪的边界或方式。

4. 方法论 (Methodology - Core Technology & Implementation Details)

本部分详细拆解 ASPO 的技术原理，从发现问题到提出解决方案。

方法原理 (Methodology Principles):
- 核心思想: 理想的训练权重分配机制应该是“奖优罚劣”且“扶弱抑强”。也就是说，对于“好”的词元，模型掌握得越不牢固（概率越低），就应该给予越大的学习权重来“扶持”它；对于已经掌握得很好的（概率很高），就应该减小权重，防止“过度自信”。
- 发现的问题：PPO-Clip 的权重错配: 作者通过可视化分析（如下图所示）发现，PPO-Clip 的机制恰恰与理想情况相反。
  
  上图（引用自论文图 3）直观地展示了 IS 比率（即训练权重）如何根据旧策略概率 (Old Probability) 和当前策略概率 (Current Probability) 变化。
  - **图 (c) 负优势 (Advantages < 0): 对于“坏”的词元，权重分配是合理的。当前概率越低（图左上角），权重越大，惩罚力度也越大，符合预期。
  - 图 (b) 正优势 (Advantages > 0): 对于“好”的词元，权重分配是错配的。当前概率越高（图左上角区域 C），权重反而越大；当前概率越低（图右下角区域 B），权重反而越小。这导致模型在已经学得很好的地方“马太效应”式地加强，而在薄弱环节却得不到有效学习。

方法步骤与流程 (Steps & Procedures): ASPO 通过以下三个步骤来修正这个问题：
1. 步骤 1: 词元掩码 (Token Masking):
  
  这一步沿用 PPO 的标准做法。对于那些更新方向已经“足够好”的词元，直接将其梯度屏蔽掉，不参与此次更新。这是一种“硬裁剪”，目的是防止过度更新。
  
  具体来说，对于负优势词元，如果其 IS 比率已经小于某个下限（如 $1-\varepsilon$ ），就屏蔽它；对于正优势词元，如果其 IS 比率已经大于某个上限（如 $1+\varepsilon$ ），也屏蔽它。
2. 步骤 2: 权重翻转 (Weight Flipping):
  - 这是 ASPO 的核心创新。**
  - 对于负优势词元 ( $\hat{A}_t^i < 0$ )，其 IS 权重 $\hat{r}_t^i$ 保持不变，即 $\hat{r}_t^i = r_t^i$ 。
  - 对于正优势词元 ( $\hat{A}_t^i > 0$ )，将其 IS 权重翻转为原始比率的倒数。
3. 步骤 3: 双重裁剪 (Dual Clipping):
  - 在翻转正优势词元的权重后，可能会出现新的问题：当一个词元的当前概率 $\pi_{\theta}$ 极低时，其倒数权重会变得极大，导致更新不稳定。
  - 因此，ASPO 引入了双重裁剪机制。对于那些因为权重翻转而可能导致数值爆炸的词元，设置一个额外的裁剪边界。
  - 重要的是，这里的裁剪是“软裁剪”（借鉴自 CISPO），即只限制权重的值，但保留梯度。这样做的逻辑是：这些词元是模型真正需要学习的“短板”，我们希望它们参与训练，只是要限制一下它们的“音量”，防止“用力过猛”。
数学公式与关键细节 (Mathematical Formulas & Key Details):
- GRPO 的梯度: $\nabla_{\theta} \mathcal{J}(\theta) = \mathbb{E}[\dots][\frac{\pi_{\theta}(o_t^i | \dots)}{\pi_{\theta_{old}}(o_t^i | \dots)} \nabla_{\theta} \log \pi_{\theta}(o_t^i | \dots) \hat{A}_t^i]$
  - $\nabla_{\theta} \mathcal{J}(\theta)$ : 目标函数对模型参数 $\theta$ 的梯度，即模型更新的方向。
  - $\frac{\pi_{\theta}(\dots)}{\pi_{\theta_{old}}(\dots)}$ : 即 IS 比率 $r_t^i(\theta)$ 。梯度的大小与当前词元的概率 $\pi_{\theta}$ 成正比。
- ASPO 的权重翻转公式 (针对正优势词元): $\hat{r}_t^i = \frac{\pi_{\theta_{old}}(o_t^i | \dots) \pi_{\theta}(o_t^i | \dots)}{\text{sg}(\pi_{\theta}^2(o_t^i | \dots))}$
  - 此公式在梯度计算时等效于 $\frac{\pi_{\theta_{old}}(\dots)}{\pi_{\theta}(\dots)}$ ，即原始 IS 比率的倒数 $1/r_t^i$ 。
  - $\text{sg}(\cdot)$ : 停止梯度 (stop gradient) 操作，确保分母在反向传播中被视为常数，从而简化梯度计算。
- ASPO 的梯度 (针对正优势词元): $\nabla_{\theta} \mathcal{J}(\theta) = \mathbb{E}[\dots][\frac{\pi_{\theta_{old}}(o_t^i | \dots)}{\pi_{\theta}(o_t^i | \dots)} \nabla_{\theta} \log \pi_{\theta}(o_t^i | \dots) \hat{A}_t^i]$
  - 与 GRPO 的梯度相比，权重项从 $r_t^i = \frac{\pi_{\theta}}{\pi_{\theta_{old}}}$ 变为了 $\frac{1}{r_t^i} = \frac{\pi_{\theta_{old}}}{\pi_{\theta}}$ 。
  - 这意味着，梯度的大小与当前词元的概率 $\pi_{\theta}$ 成反比。这正是 ASPO 设计的初衷：概率越低的词元，获得越大的更新动力。

5. 实验设置 (Experimental Setup)

数据集 (Datasets):
- 数学推理: 使用了 AIME24, AIME25, AMC23, MATH-500, Minerva, OlympiadBench 等多个高难度数学竞赛和基准数据集。
- 代码生成: 使用了 LiveCodeBench (v5 和 v6)，这是一个持续更新的、能有效评估模型真实编程能力的基准。
- 选择原因: 这些数据集都是评估 LLM 复杂推理和代码生成能力的标准和权威基准，能有效验证算法在挑战性任务上的性能。
评估指标 (Evaluation Metrics):
- pass@K: 生成 K 个答案，只要其中至少有一个是正确的，就算通过。这个指标衡量模型的“解决问题”的潜力或上限。
- avg@K: 生成 K 个答案，计算其中正确答案的平均比例。这个指标衡量模型的“平均表现”或稳定性。
- 定义: 这两个指标是代码生成和数学推理任务中广泛使用的标准评估方法，能够全面地从不同角度衡量模型的性能。
对比基线 (Baselines):
- Base Model: 未经 RL 调优的原始模型。
- DAPO: 一个基于 GRPO 的强大开源 OSRL 系统，是本文最主要的对比对象。
- DeepScaleR-1.5B, DeepCoder-1.5B, FastCuRL-1.5B-V3, Nemotron-1.5B: 均为在相关任务上表现出色的、具有代表性的同期先进模型，使得比较更具说服力。

6. 实验结果与分析 (Results & Analysis)

核心结果分析 (Core Results Analysis):
- 定量结果: 论文中的表格（Table 1 和 Table 2）展示了 ASPO 在所有数学和编码基准上的表现。结果显示，ASPO-Math-1.5B 和 ASPO-Code-1.5B 的平均分均超过了包括 DAPO 在内的所有基线模型，证明了其方法的普适性和有效性。
  - 引用论文中的 Table 1 和 Table 2 的图像链接：/files/papers/68e644dca21f3b32c28a633c/images/table1.jpg, /files/papers/68e644dca21f3b32c28a633c/images/table2.jpg (注意：系统未提供表格图像，此处为占位符。根据规则，我将说明此情况。)
  - 说明： 系统未提供 Table 1 和 Table 2 的图像。根据论文文本，ASPO 在数学任务上平均提升了 12.5%，在编码任务上平均提升了 17.0%，并且在所有基准的平均表现上都优于其他方法。
- 训练动态分析: 这是支撑本文核心论点的关键证据，主要体现在以下图表中。
  
  该图像为六个折线图组成的图表，展示了GRPO及其去除重要性采样（IS）机制的变体在不同训练步数下的表现差异。图中指标包括LiveCodeBench V5得分、熵、Logits、重复率、裁剪比例和KL散度。总体来看，GRPO在训练稳定性和KL散度方面表现略高，但去除IS的版本在重复率和裁剪比例上更低，说明IS机制影响模型训练动态。
  - 图 1 分析: 该图比较了标准 GRPO 和移除 IS 的 GRPO。可以发现，移除 IS 后（橙线），性能 ((a)) 没有明显下降，但训练过程更稳定（如 (d) 重复率和 (e) 裁剪比例更低且平滑）。这初步证明了 IS 在 OSRL 中主要扮演“权重”角色，而非“分布校正”，且其原始设计可能带来不稳定性。
    
    该图像为多个折线图组成的图表，展示了两种方法（DAPO与DAPO w/Pos Response-Level IS Mean）在训练过程中不同指标的变化趋势。包括(a) LCB v5 Avg@8随训练步数增加而提升，(b) LCB v5 Pass@8在训练中表现差异，(c) 熵值随训练平稳降低，(d) 重复率，(e) 剪辑比率，(f) KL损失均随着训练增加，两方法在后四项指标上DAPO表现波动较大，DAPO w/Pos Response-Level IS Mean更为稳定。整体体现了后者在训练稳定性和性能上的改进。
  - 图 4 分析: 该图比较了 DAPO（蓝线）和一个“半成品”改进版（橙线），该版本仅将正优势词元的 IS 权重替换为序列平均值。即便只是这样一个简单的改动，也带来了显著的稳定性提升：熵下降变缓 (c)，重复率 (d)、裁剪比例 (e)、KL 损失 (f) 的增长都变得更加平缓。这有力地证明了问题根源确实在于正优势词元的权重错配。
    
    这是一组实验结果的图表，展示了三种方法（DAPO、DAPO带正向响应级别IS均值、ASPO）在训练过程中的性能对比。包括：(a) LCB v5 Avg@8随训练步数增加而上升，ASPO表现最好；(b) LCB v5 Pass@8曲线，ASPO提升明显；(c) Entropy随训练减少，ASPO保持较高熵值，说明训练更稳定；(d) Repetition重复率，ASPO重复较低且增幅平缓；(e) Clip Ratio裁剪比率，ASPO保持最低并稳定；(f) KL Loss，ASPO曲线最低且平稳，整体显示ASPO在训练稳定性和性能上优于其他方法。
  - 图 5 分析: 这是最重要的对比图，展示了 DAPO（蓝线）、“半成品”版（橙线）和最终的 ASPO（绿线）的对比。
    - 性能 (a, b): ASPO 的性能曲线在训练后期持续稳定提升，并最终显著超越其他两者，证明其有更高的性能上限。
    - 熵 (c): ASPO 的熵下降最慢，并稳定在一个较高的水平。这表明模型保持了多样性和探索性，是健康收敛的关键标志，有效避免了过早陷入局部最优。
    - 稳定性 (d, e, f): ASPO 的重复率、裁剪比例和 KL 损失全程保持在最低水平且最为平滑，展示了其卓越的训练稳定性。
消融实验/参数分析 (Ablation Studies / Parameter Analysis):
- 本文的实验设计本身就是一系列精彩的消融研究。从“GRPO vs. GRPO w/o IS”（图 1），到“DAPO vs. DAPO with response-level IS”（图 4），再到最终的 ASPO（图 5），这一系列对比清晰地隔离并验证了每个核心论点：IS 的作用是权重、权重错配是问题根源、翻转权重是有效解法。这一系列实验逻辑链条清晰，论证扎实。

7. 总结与思考 (Conclusion & Personal Thoughts)

结论总结 (Conclusion Summary):
- 本文深入剖析了 GRPO 类 OSRL 算法在 LLM 训练中的一个根本性缺陷：正优势词元的重要性采样比率错配，该问题会导致模型过分关注已掌握的知识，从而引发训练不稳定和过早收敛。
- 为了解决这一问题，论文提出了 ASPO 算法，其核心是通过非对称地翻转正优势词元的 IS 比率，并结合软性双重裁剪机制，来重新平衡词元级的训练权重。
- 实验结果有力地证明，ASPO 能够显著提升训练的稳定性，缓解熵坍塌，并最终在多个高难度的数学和编码任务上取得超越当前先进基线的性能。
局限性与未来工作 (Limitations & Future Work):
- 模型规模: 作者坦诚，所有实验均在 1.5B 参数规模的模型上进行。该方法在更大规模（如 7B, 70B）模型上的有效性有待进一步验证。
- 算法适用范围: 结论主要针对基于 GRPO 的 OSRL 算法。对于其他类型的 RL 算法，例如那些具有更精细词元级或步骤级奖励的过程监督 (process-supervised) 方法，IS 的作用和本文结论的适用性仍需进一步研究。
个人启发与批判 (Personal Insights & Critique):
- 启发:
  1. 回归第一性原理: 这篇论文最大的亮点在于，它没有满足于在现有框架上做微小的修补，而是回归到 IS 在 OSRL 场景下的“第一性原理”进行思考，即它的实际作用是什么？这种批判性思维是发现根本性问题的关键。
  2. 简单即是美: ASPO 的核心思想——“翻转权重”——非常简单、直观且易于实现，但效果却非常显著。这体现了对问题本质深刻理解后才能达到的化繁为简的境界。
  3. 可视化的力量: 论文通过清晰的可视化图表（如图 3），将抽象的权重分配问题直观地呈现出来，极大地增强了论点的说服力。
- 批判与思考:
  1. 超参数敏感性: ASPO 仍然依赖于裁剪范围 $\varepsilon_{low}$ 和 $\varepsilon_{high}$ 等超参数。该方法对这些超参数的敏感度如何，以及是否存在更动态、自适应的权重调整策略，是值得进一步探讨的问题。
  2. 对奖励信号的依赖: ASPO 修正了给定奖励信号后的“权重分配”问题，但没有解决 OSRL 固有的“奖励分配”问题（即所有词元共享一个奖励）。虽然这不是本文的重点，但如果能结合更精细的奖励模型，ASPO 的潜力可能会被进一步激发。
  3. 泛化性: 该方法的核心是修正正优势样本的权重。在其他机器学习领域，凡是存在类似“对正样本过拟合”问题的场景，ASPO 的非对称加权思想或许都具有借鉴意义。

相似论文推荐

基于向量语义检索推荐的相关论文。

暂时没有找到相似论文。