AiPaper
论文状态:已完成

DAPO: An Open-Source LLM Reinforcement Learning System at Scale

发表:2025/03/18
原文链接PDF 下载
价格:0.10
价格:0.10
已有 4 人读过
本分析由 AI 生成,可能不完全准确,请以原文为准。

TL;DR 精炼摘要

为解决大语言模型(LLM)强化学习(RL)训练细节不公开所致的复现难题,本文提出DAPO(解耦裁剪与动态采样策略优化)算法,并开源大规模RL系统。该系统以Qwen2.5-32B为基础,整合DAPO算法及四项关键技术,并提供基于`verl`框架的训练代码与精心处理的数据集,极大增强了研究的可复现性。实验结果显示,该系统在AIME 2024数学竞赛基准上取得50分佳绩,成功赋能LLM卓越的复杂推理能力。

摘要

Inference scaling empowers LLMs with unprecedented reasoning ability, with reinforcement learning as the core technique to elicit complex reasoning. However, key technical details of state-of-the-art reasoning LLMs are concealed (such as in OpenAI o1 blog and DeepSeek R1 technical report), thus the community still struggles to reproduce their RL training results. We propose the D\textbf{D}ecoupled Clip and D\textbf{D}ynamic sA\textbf{A}mpling P\textbf{P}olicy O\textbf{O}ptimization (DAPO\textbf{DAPO}) algorithm, and fully open-source a state-of-the-art large-scale RL system that achieves 50 points on AIME 2024 using Qwen2.5-32B base model. Unlike previous works that withhold training details, we introduce four key techniques of our algorithm that make large-scale LLM RL a success. In addition, we open-source our training code, which is built on the verl framework, along with a carefully curated and processed dataset. These components of our open-source system enhance reproducibility and support future research in large-scale LLM RL.

思维导图

论文精读

中文精读

1. 论文基本信息 (Bibliographic Information)

  • 标题 (Title): DAPO: An Open-Source LLM Reinforcement Learning System at Scale (DAPO: 一个大规模、开源的大语言模型强化学习系统)
  • 作者 (Authors): Qiying Yu, Zheng Zhang, Ruofei Zhu, Yufeng Yuan, Xiaochen Zuo, Yu Yue, Weinan Dong, Tiantian Fan, Gaohong Liu, Juncai Liu, 等 (来自字节跳动、清华大学、香港大学等多个机构的研究人员)。
  • 发表期刊/会议 (Journal/Conference): 本文目前发布于 arXiv,是一个预印本 (Preprint),尚未在经同行评审的期刊或会议上正式发表。arXiv 是一个开放获取的学术论文存档网站,允许研究者在正式发表前分享他们的研究成果。
  • 发表年份 (Publication Year): 2025 (根据论文元信息)。
  • 摘要 (Abstract): 摘要指出,推理时扩展 (Inference scaling) 赋予了大语言模型 (LLM) 前所未有的推理能力,而强化学习 (RL) 是激发这种复杂推理能力的核心技术。然而,当前最先进的推理模型(如 OpenAI 的 o1 和 DeepSeek 的 R1)隐藏了关键技术细节,导致社区难以复现其 RL 训练结果。为此,作者提出了 DAPO (Decoupled Clip and Dynamic sAmpling Policy Optimization, 解耦裁剪与动态采样策略优化) 算法,并完全开源了一个最先进的大规模 RL 系统。该系统使用 Qwen2.5-32B 基础模型,在 AIME 2024 数学竞赛基准上取得了 50 分的成绩。与以往的工作不同,本文详细介绍了使其成功的四项关键技术,并开源了基于 verl 框架的训练代码和精心处理的数据集,以增强可复现性并支持未来的研究。
  • 原文链接 (Source Link):

2. 整体概括 (Executive Summary)

  • 研究背景与动机 (Background & Motivation - Why):

    • 核心问题: 尽管强化学习 (RL) 在提升大语言模型 (LLM) 复杂推理能力方面展现出巨大潜力(例如,通过长思维链 CoT 进行自我验证和迭代优化),但业界领先的模型(如 OpenAI 的 o1 和 DeepSeek 的 R1)并未公开其 RL 训练的关键算法和工程细节。
    • 重要性与挑战 (Gap): 这种技术保密导致了严重的可复现性危机。社区在尝试复现类似结果时,普遍遇到了熵崩溃 (entropy collapse)、奖励噪声 (reward noise) 和训练不稳定等重大障碍。例如,作者在使用朴素的 GRPO 算法训练 Qwen2.5-32B 模型时,在 AIME 测试上仅能达到 30 分,远低于 DeepSeek 公布的 47 分,这表明现有公开的算法缺少了成功的“秘方”。
    • 切入点: 本文的切入点是完全开放和透明。作者不仅要实现最先进的性能,更重要的是要揭示并解决大规模 LLM 强化学习中的具体技术挑战,通过开源算法、代码和数据,为整个社区提供一个可复现、可依赖的工业级 RL 解决方案。
  • 核心贡献/主要发现 (Main Contribution/Findings - What):

    • 提出 DAPO 算法: 这是一个专为大规模长思维链 (long-CoT) 场景设计的 RL 算法,其核心是四项关键技术创新:

      1. Clip-Higher: 通过解耦 PPO 的裁剪范围,有效避免策略熵崩溃,保持模型探索能力。
      2. Dynamic Sampling: 过滤掉无效的训练样本(即优势为零的样本),显著提升训练效率和稳定性。
      3. Token-Level Policy Gradient Loss: 采用 token 级别的损失计算方式,解决了样本级别损失在长序列场景下的权重失衡问题。
      4. Overlong Reward Shaping: 通过精细化的奖励设计,减少因截断过长样本而引入的奖励噪声。
    • 开源 SOTA 系统: 发布了一个完整的、开源的大规模 RL 系统,包括:

      • 训练代码: 基于 verl 框架,易于使用和扩展。
      • 数据集: 一个精心策划和处理的数学问题数据集 DAPO-Math-17K,其答案被转化为整数以提供清晰的奖励信号。
    • 取得卓越性能: 使用 Qwen2.5-32B 基础模型,通过 DAPO 训练后,在 AIME 2024 测试中取得了 50 分的成绩,超过了之前由 DeepSeek-R1-Zero-Qwen-32B 创造的 47 分的记录,并且只用了 50% 的训练步数


3. 预备知识与相关工作 (Prerequisite Knowledge & Related Work)

  • 基础概念 (Foundational Concepts):

    • 强化学习 (Reinforcement Learning, RL): 一种机器学习范式,其中智能体 (agent) 通过与环境 (environment) 交互来学习。智能体在特定状态 (state) 下采取动作 (action),并从环境中获得奖励 (reward)。其目标是学习一个策略 (policy),以最大化累积奖励。在 LLM 中,模型是智能体,生成的文本是动作,任务是否成功(如答案是否正确)决定了奖励。
    • 近端策略优化 (Proximal Policy Optimization, PPO): 一种流行的 RL 算法。为了避免策略更新过快导致训练不稳定,PPO 引入了一个“裁剪”(clipping)机制。它通过限制新旧策略的概率比值 (importance sampling ratio) 在一个可信赖的区间 [1-ε, 1+ε] 内,来保证每次更新的步子不会太大,从而提高了训练的稳定性和样本效率。
    • 组相对策略优化 (Group Relative Policy Optimization, GRPO): PPO 的一种变体,特别适用于没有显式价值函数 (value function) 的场景。它通过对一个问题 (prompt) 生成一组(Group)多个回答,然后根据这一组回答的奖励(如正确与否)的相对好坏来估计每个回答的优势 (advantage),即用组内的均值和标准差对奖励进行归一化。这避免了训练一个独立的价值网络。
    • 思维链 (Chain-of-Thought, CoT): 指引导 LLM 在回答问题前,先生成一步步的推理过程。长思维链 (long-CoT) 使得模型可以进行更复杂的、多步骤的推理、验证和修正,这对于解决数学和编程等难题至关重要。
    • 策略熵 (Policy Entropy): 在 LLM 中,策略熵衡量了模型在生成下一个 token 时的不确定性或多样性。高熵意味着模型倾向于探索更多可能性(生成更多样的文本),而低熵则意味着模型趋于确定性(生成固定的、高概率的文本)。熵崩溃 (Entropy Collapse) 指的是在训练过程中熵过快下降,导致模型失去探索能力,陷入局部最优,生成内容单一。
  • 前人工作 (Previous Works):

    • OpenAI o1DeepSeek R1: 这两个是当前推理能力最强的 LLM 的代表。它们都强调了 RL 在激发模型深度推理能力中的核心作用。然而,它们的技术报告非常简略,隐藏了关键的算法细节,是本文试图解决“黑盒”问题的主要动机。
    • GRPO: 本文的算法是基于 GRPO 的思想进行改进的,尤其是在优势估计方面。但本文发现,朴素的 GRPO 在大规模长 CoT 场景下存在诸多问题。
  • 差异化分析 (Differentiation):

    • 透明度 vs. 保密: 与 o1 和 R1 的保密策略完全相反,DAPO 强调完全开源,旨在推动社区共同进步。

    • 问题导向的实用技术 vs. 理论框架: DAPO 的核心不是提出一个全新的理论框架,而是针对大规模 RL 训练中遇到的具体工程难题(熵崩溃、梯度消失、奖励噪声等)提出了四项行之有效的解决方案。这些技术是经过大量实验验证的“最佳实践”,具有很强的实用价值。


4. 方法论 (Methodology - Core Technology & Implementation Details)

DAPO 算法的核心目标函数如下所示,它在 GRPO 的基础上融入了多项改进: IDAPO(θ)=E(q,a)D,{σi}i=1Gπθold(q)[1i=1Gσii=1Gt=1imin(ri,t(θ)A^i,t, exp(ri,t(θ),1εlow,1+εhigh)A^i,t)]s.t. 0<{oiisequivalent(a,oi)}<G, \begin{array} { r l } { \mathcal { I } _ { \mathrm { D A P O } } ( \theta ) = } & { \mathbb { E } _ { ( q , a ) \sim \mathcal { D } , \{ \sigma _ { i } \} _ { i = 1 } ^ { G } \sim \pi _ { \theta _ { \mathrm { o l d } } } ( \cdot | q ) } } \\ & { \left[ \frac { 1 } { \sum _ { i = 1 } ^ { G } | \sigma _ { i } | } \displaystyle \sum _ { i = 1 } ^ { G } \sum _ { t = 1 } ^ { \infty _ { i } } \operatorname* { m i n } \left( r _ { i , t } ( \theta ) \hat { A } _ { i , t } , \ \exp \Bigl ( r _ { i , t } ( \theta ) , 1 - \varepsilon _ { \mathrm { l o w } } , 1 + \varepsilon _ { \mathrm { h i g h } } \Bigr ) \hat { A } _ { i , t } \right) \right] } \\ { \mathrm { s . t . } \ } & { 0 < \left| \{ o _ { i } \mid \mathsf { i } \mathsf { s } _ { - } \mathsf { e q u i v a l e n t } ( a , o _ { i } ) \} \right| < G , } \end{array} 其中:

  • q, a 分别是问题和答案。

  • {oi}i=1G\{o_i\}_{i=1}^G 是对问题 qq 采样的 GG 个输出。

  • ri,t(θ)=πθ(oi,tq,oi,<t)πθold(oi,tq,oi,<t)r_{i,t}(\theta) = \frac{\pi_\theta(o_{i,t} | q, o_{i,<t})}{\pi_{\theta_{\text{old}}}(o_{i,t} | q, o_{i,<t})} 是新旧策略在第 tt 个 token 上的概率比。

  • A^i,t\hat{A}_{i,t} 是优势估计,这里采用 GRPO 的方式计算,即对整个序列的奖励 RiR_i 在组内进行归一化。

  • 公式中的 exp 应该是 clip 的笔误,它表示裁剪操作。

  • εlow\varepsilon_{\text{low}}εhigh\varepsilon_{\text{high}} 是解耦的裁剪边界。

  • 约束条件 0<{}<G0 < |\{\dots\}| < G 体现了动态采样的思想。

  • 分母 i=1Goi\sum_{i=1}^G |o_i| 体现了 token 级别的损失计算。

    下面详细拆解 DAPO 的四项关键技术:

  • 1. 提高天花板 (Raise the Ceiling): Clip-Higher

    • 问题: 在标准 PPO/GRPO 中,当一个动作的优势 A^i,t>0\hat{A}_{i,t} > 0 时(即希望提高该动作的概率),概率比 ri,t(θ)r_{i,t}(\theta) 被裁剪在 1+ε1+\varepsilon 以内。这对低概率的“探索性” token 非常不利。例如,一个概率为 0.01 的 token,其概率最多只能被提升到 0.01×(1+0.2)=0.0120.01 \times (1+0.2) = 0.012,增幅微乎其微。而一个概率为 0.9 的 token 则没有这个限制。这导致模型倾向于强化已有的高概率 token,从而引发熵崩溃

    • 解决方案: 将对称的裁剪范围 ε 解耦为下界 εlow\varepsilon_{\text{low}} 和上界 εhigh\varepsilon_{\text{high}}。通过显著增大 εhigh\varepsilon_{\text{high}}(例如设为 0.28,而 εlow\varepsilon_{\text{low}} 保持 0.2),为低概率 token 的概率提升留出更多空间,从而鼓励模型探索。

    • 效果: 如下图所示,使用 Clip-Higher 策略后,模型的生成熵(右图)能够维持在较高水平,避免了快速崩溃至零,同时在 AIME 任务上的准确率(左图)也得到了显著提升。

      图2:使用Clip-Higher策略前后,模型在AIME上的准确率和生成熵对比。 该图像为两张折线图。左图(a)展示在AIME任务中,带Clip-Higher策略(紫色线)相比不带Clip-Higher(浅蓝色线)在训练步数增加时准确率(AIME avg@32)更高且提升更明显。右图(b)展示生成熵,带Clip-Higher时熵值保持在较高水平且波动,而不带Clip-Higher时熵值迅速降低并趋近于零,表明带Clip-Higher有助于维持模型多样性和探索能力。

  • 2. 多多益善 (The More the Merrier): Dynamic Sampling

    • 问题:GRPO 中,如果对一个问题采样的所有回答奖励都相同(例如全部正确或全部错误),那么归一化后的优势 A^i,t\hat{A}_{i,t} 将恒为零。这意味着这个样本对策略更新没有任何贡献(梯度为零)。随着模型训练得越来越好,全对的样本比例会不断增加(如下图右侧所示),导致有效训练数据不断减少,梯度方差增大,训练效率低下。

    • 解决方案: 在收集训练数据时,动态地过滤掉那些“零优势”的样本组。具体来说,系统会持续采样,直到收集到足够数量的“有效”样本组(即组内既有正确答案也有错误答案)来构成一个批次 (batch)。

    • 效果: 保证了每个批次中的所有样本都能产生有效的梯度信号,从而加速模型收敛并提升训练稳定性。如下图所示,采用动态采样后,模型能更快地达到更高的性能。

      图3:左图显示上界裁剪概率的动态,右图显示训练过程中100%准确率样本比例的增加。 该图像为图表,包含两个折线图。左图展示了训练过程中“平均上界截断概率”随步数变化的趋势,曲线在初期有较大波动,随后趋于稳定且略有波动;右图显示了训练过程中“准确率为100%的样本比例”随步数增加的变化,曲线呈上升趋势,表明随着训练进展,高准确率样本比例逐渐增加。

      图6:使用动态采样前后,模型在AIME上的训练进程对比。 该图像为图表,展示了在不同训练步数(Step)下,采用动态采样(Dynamic Sampling)与不采用动态采样两种策略在AIME指标(AIME avg@32)上的表现。曲线显示采用动态采样策略的模型性能提升更快,且在约2000步时达到峰值,随后略有波动;而未采用动态采样的模型性能上升较慢且波动较小,峰值出现于约6000步后但低于动态采样的最高性能。图中用虚线标记了各自的峰值阶段。

  • 3. 再平衡 (Rebalancing Act): Token-Level Policy Gradient Loss

    • 问题: 原始 GRPO 采用样本级别 (sample-level) 的损失计算,即先计算每个样本内所有 token 损失的平均值,再对所有样本的损失求平均。这导致每个样本(无论长短)对总损失的贡献权重相同。在长 CoT 场景下,这会带来两个问题:1) 长而优质的推理链中的每个 token 权重被稀释,模型难以学习到其中的关键模式;2) 长而劣质的回答(如胡言乱语、重复)中的有害模式无法被有效惩罚,导致模型生成长度和熵的“不健康”增长。

    • 解决方案: 将损失计算方式改为 token 级别 (token-level)。即直接对一个批次中所有 token 的损失求平均,而不是先在样本内部平均。这样,一个 token 的贡献不再受其所在序列长度的影响。

    • 效果: 如下图所示,采用 token 级别损失后,模型的生成熵平均响应长度的增长变得更加平稳和健康,避免了剧烈波动,从而提升了训练的稳定性。

      图4:使用token级别损失前后,模型生成熵和平均响应长度的对比。 该图像为两幅折线图组成的图表,比较了有无token级别损失(w/ token-level loss,w/o token-level loss)情况下,训练步数(Step)与生成熵(Generation Entropy)及平均响应长度(Mean Response Length)的关系。左图显示无token级别损失时,生成熵随步数大幅上升,而有token级别损失时生成熵相对平稳且较低。右图显示无token级别损失时平均响应长度先迅速增加后逐渐下降,有token级别损失时平均响应长度稳定增长并较长。整体表明token级别损失有助于控制生成熵并增强响应的长度稳定性。

  • 4. 捉迷藏 (Hide and Seek): Overlong Reward Shaping

    • 问题: 当模型生成的回答超过最大长度限制而被截断时,如何设定其奖励是一个难题。如果简单地给予一个负奖励(惩罚),可能会产生奖励噪声。因为一个推理过程可能本身是正确的,只是因为太长而被惩罚,这会误导模型。

    • 解决方案:

      1. 超长过滤 (Overlong Filtering): 一种简单的策略是直接屏蔽掉被截断样本的损失,不让它们参与梯度更新。实验证明这能显著稳定训练。
      2. 软性超长惩罚 (Soft Overlong Punishment): 一种更精细的奖励设计。设定一个惩罚区间(例如,最大长度为 16384,惩罚区间为 4096),当回答长度进入这个区间后,奖励会随着长度的增加而线性减少,直到超过最大长度时变为 -1。
    • 效果: 如下图所示,通过对超长样本进行特殊处理(图中为 overlong filtering),可以有效稳定训练过程,避免熵的剧烈波动(右图),并最终提升模型性能(左图)。

      图5:使用超长过滤策略前后,模型在AIME上的性能和生成熵对比。 该图像为双子图表,左图展示了在AIME任务中有无超长过滤(overlong filtering)条件下模型性能随训练步骤(Step)变化的曲线,纵轴为AIME avg@32指标;右图显示了同样条件下演员模型生成熵(Generation Entropy)随训练步骤变化的曲线,显示无超长过滤时生成熵在约3500步后显著上升,而有过滤时较为平稳。整体反映超长过滤对模型训练稳定性和性能的影响。

  • 数据集转换 (Dataset Transformation):

    • 为了得到清晰、无歧义的奖励信号(正确为 1,错误为 -1),作者创建了 DAPO-Math-17K 数据集。他们将原始数学问题(答案可能是分数、根式等复杂形式)通过 LLM 自动改写,使得新问题的答案是一个唯一的整数。例如,如果原答案是 112611 - 2\sqrt{6},问题会被改写为“求 k+m+nk+m+n 的值”,其中答案形式为 kmnk - m\sqrt{n},使得最终答案是 11+2+6=1911+2+6=19


5. 实验设置 (Experimental Setup)

  • 数据集 (Datasets):
    • 训练集: DAPO-Math-17K,包含 17000 个经过转换的数学问题,答案均为整数。
    • 评估集: AIME 2024,美国数学邀请赛,是一个高难度的数学竞赛基准,用于评估模型的复杂推理能力。
  • 评估指标 (Evaluation Metrics):
    • AIME 2024 avg@32: 对 AIME 测试集中的每个问题,模型独立生成 32 个回答,计算这 32 次尝试的平均准确率。这是一种更稳健的评估方式,可以减少单次生成结果的随机性。
  • 对比基线 (Baselines):
    • Naive GRPO: 未经任何改进的 GRPO 算法,作为内部比较的起点。

    • DeepSeek-R1-Zero-Qwen-32B: 这是当时在 Qwen-32B 基础模型上使用 R1 方法训练达到的最先进水平(47 分),是本文挑战的外部 SOTA 基线。


6. 实验结果与分析 (Results & Analysis)

  • 核心结果分析 (Core Results Analysis):

    • 超越 SOTA: DAPOQwen2.5-32B 基础模型上训练后,在 AIME 2024 上取得了 50 分avg@32 成绩,显著优于 DeepSeek-R1 的 47 分。

    • 更高效率: DAPO 达到甚至超过 DeepSeek-R1 的性能水平时,仅使用了约 5000 个训练步数,而 DeepSeek-R1 则需要约 10000 步。这证明了 DAPO 算法的高效率。

      图1:DAPO在AIME 2024上的性能曲线,显示其以更少的训练步数超越了DeepSeek-R1。 该图像是图表,展示了DAPO算法在AIME 2024任务上随着训练步数增加的准确率变化。图中用不同符号分别表示DAPO的平均准确率(紫色圆点)、通过率(浅蓝色倒三角)和一致率(浅蓝色三角),横轴为训练步数,纵轴为准确率百分比。图中以虚线标明DeepSeek-R1-Zero-Qwen-32B的50%准确率基准,DAPO在约5600步时达到该水平。

  • 消融实验/参数分析 (Ablation Studies / Parameter Analysis):

    • 作者通过逐步添加 DAPO 的各项技术,清晰地展示了每个组件的贡献。以下是 Table 1 的结果摘要:
      • Naive GRPO (基线): 30 分
        • Overlong Filtering: 36 分 (+6)
        • Clip-Higher: 38 分 (+2)
        • Soft Overlong Punishment: 41 分 (+3)
        • Token-level Loss: 42 分 (+1)
        • Dynamic Sampling (最终的 DAPO): 50 分 (+8)
    • 分析:
      • 所有四项技术都带来了正向收益,证明了它们的有效性。
      • Dynamic SamplingOverlong Filtering 带来的性能提升最为显著,分别贡献了 8 分和 6 分,说明解决梯度消失和奖励噪声问题是成功的关键。
      • Clip-HigherSoft Overlong Punishment 也稳定地提升了性能。
      • Token-level Loss 虽然分数提升最小,但论文指出它对训练稳定性和生成长度的健康增长至关重要。
  • 训练动态分析 (Training Dynamics Analysis):

    • 论文强调了在复杂 RL 系统中监控中间指标的重要性。下图展示了训练过程中的几个关键指标变化:

      • (a) 平均响应长度: 持续增长,为模型进行复杂推理提供了空间。
      • (b) 奖励得分: 快速上升并稳定在高位,表明模型很好地拟合了训练数据。
      • (c) 生成熵: 先下降后回升,在 Clip-Higher 策略的作用下维持在健康水平,保证了探索。
      • (d) 平均概率: 先上升后下降,反映了策略的动态调整。
    • 这些曲线共同描绘了 RL 训练的动态过程,是诊断问题和调优系统的重要依据。

      图7:DAPO训练过程中的关键指标动态变化,包括响应长度、奖励、熵和概率。 该图像为四个折线图组成的图表,展示了训练过程中不同指标随训练步数的变化趋势:(a)平均响应长度随训练步数逐渐增加;(b)奖励得分迅速提升后趋于稳定在较高水平;(c)生成熵先下降后回升;(d)平均概率先增后减。整体反映了RL训练过程中模型生成能力和反馈信号的动态变化。


7. 总结与思考 (Conclusion & Personal Thoughts)

  • 结论总结 (Conclusion Summary):

    • 本文成功地解决了大规模 LLM 强化学习中的可复现性难题,提出了 DAPO 算法,并通过四项关键技术(Clip-Higher, Dynamic Sampling, Token-Level Loss, Overlong Reward Shaping)有效解决了熵崩溃、训练效率低下、长序列学习不佳和奖励噪声等核心痛点。
    • 通过完全开源其 SOTA 系统(算法、代码、数据集),DAPO 为社区提供了一个强大且透明的工具,极大地推动了该领域的发展,使研究者和开发者能够站在巨人的肩膀上进行创新。
  • 局限性与未来工作 (Limitations & Future Work):

    • 领域局限性: 实验主要集中在数学推理领域 (AIME)。该方法在其他需要复杂推理的任务(如编程、科学问答、法律分析等)上的泛化能力有待进一步验证。
    • emergent behavior 的探索: 论文观察到了模型在 RL 训练中自发学习出反思和回溯等高级推理行为(如 Table 2 所示)。对这种“能力涌现”的机制进行深入解释和利用,是未来一个非常有价值的研究方向。
    • 超参数敏感性:εhigh\varepsilon_{\text{high}} 这样的新超参数可能需要针对不同模型和任务进行仔细调整,其通用性和鲁棒性需要更多研究。
  • 个人启发与批判 (Personal Insights & Critique):

    • 工程智慧的胜利: DAPO 的成功充分说明,在实现 AGI 的道路上,除了宏大的理论创新,精妙的工程实践和对细节的极致追求同样至关重要。这四项技术都不是颠覆性的理论,但它们组合在一起,解决了实实在在的、阻碍领域发展的瓶颈问题。
    • 开放是第一生产力: 本文最大的贡献或许不是 50 分的成绩,而是其彻底的开放精神。它用实际行动回应了社区对头部机构技术保密的担忧,为建立一个更健康、协作的研究生态树立了典范。
    • 批判性思考: 消融实验的结果是累加的,但各项技术之间可能存在复杂的相互作用。例如,如果没有 Clip-Higher 维持探索,Dynamic Sampling 的效果可能会打折扣。未来的研究可以更深入地分析这些技术之间的协同或拮抗效应。此外,数据集的整数化转换虽然简化了奖励,但也可能限制了模型处理更通用、更复杂答案形式的能力。

相似论文推荐

基于向量语义检索推荐的相关论文。

暂时没有找到相似论文。