论文状态：已完成

DAPO: An Open-Source LLM Reinforcement Learning System at Scale

发表：2025/03/18

基于大语言模型的动作规划 (27)开源大语言模型优化 (2)序列策略优化 (40)大语言模型强化学习训练 (67)

价格：0.100000

已有 10 人读过

本分析由 AI 生成，可能不完全准确，请以原文为准。

TL;DR 精炼摘要

为解决大语言模型(LLM)强化学习(RL)训练细节不公开所致的复现难题，本文提出DAPO（解耦裁剪与动态采样策略优化）算法，并开源大规模RL系统。该系统以Qwen2.5-32B为基础，整合DAPO算法及四项关键技术，并提供基于`verl`框架的训练代码与精心处理的数据集，极大增强了研究的可复现性。实验结果显示，该系统在AIME 2024数学竞赛基准上取得50分佳绩，成功赋能LLM卓越的复杂推理能力。

摘要

Inference scaling empowers LLMs with unprecedented reasoning ability, with reinforcement learning as the core technique to elicit complex reasoning. However, key technical details of state-of-the-art reasoning LLMs are concealed (such as in OpenAI o1 blog and DeepSeek R1 technical report), thus the community still struggles to reproduce their RL training results. We propose the $\textbf{D}$ ecoupled Clip and $\textbf{D}$ ynamic s $\textbf{A}$ mpling $\textbf{P}$ olicy $\textbf{O}$ ptimization ( $\textbf{DAPO}$ ) algorithm, and fully open-source a state-of-the-art large-scale RL system that achieves 50 points on AIME 2024 using Qwen2.5-32B base model. Unlike previous works that withhold training details, we introduce four key techniques of our algorithm that make large-scale LLM RL a success. In addition, we open-source our training code, which is built on the verl framework, along with a carefully curated and processed dataset. These components of our open-source system enhance reproducibility and support future research in large-scale LLM RL.

思维导图

论文精读

中文精读约 16 分钟读完 · 8,365 字

1. 论文基本信息 (Bibliographic Information)

标题 (Title): DAPO: An Open-Source LLM Reinforcement Learning System at Scale (DAPO: 一个大规模、开源的大语言模型强化学习系统)
作者 (Authors): Qiying Yu, Zheng Zhang, Ruofei Zhu, Yufeng Yuan, Xiaochen Zuo, Yu Yue, Weinan Dong, Tiantian Fan, Gaohong Liu, Juncai Liu, 等 (来自字节跳动、清华大学、香港大学等多个机构的研究人员)。
发表期刊/会议 (Journal/Conference): 本文目前发布于 arXiv，是一个预印本 (Preprint)，尚未在经同行评审的期刊或会议上正式发表。arXiv 是一个开放获取的学术论文存档网站，允许研究者在正式发表前分享他们的研究成果。
发表年份 (Publication Year): 2025 (根据论文元信息)。
摘要 (Abstract): 摘要指出，推理时扩展 (Inference scaling) 赋予了大语言模型 (LLM) 前所未有的推理能力，而强化学习 (RL) 是激发这种复杂推理能力的核心技术。然而，当前最先进的推理模型（如 OpenAI 的 o1 和 DeepSeek 的 R1）隐藏了关键技术细节，导致社区难以复现其 RL 训练结果。为此，作者提出了 DAPO (Decoupled Clip and Dynamic sAmpling Policy Optimization, 解耦裁剪与动态采样策略优化) 算法，并完全开源了一个最先进的大规模 RL 系统。该系统使用 Qwen2.5-32B 基础模型，在 AIME 2024 数学竞赛基准上取得了 50 分的成绩。与以往的工作不同，本文详细介绍了使其成功的四项关键技术，并开源了基于 verl 框架的训练代码和精心处理的数据集，以增强可复现性并支持未来的研究。
原文链接 (Source Link):
- ArXiv 链接: https://arxiv.org/abs/2503.14476
- PDF 链接: https://arxiv.org/pdf/2503.14476.pdf
- 发布状态: 预印本 (Preprint)。

2. 整体概括 (Executive Summary)

研究背景与动机 (Background & Motivation - Why):
- 核心问题: 尽管强化学习 (RL) 在提升大语言模型 (LLM) 复杂推理能力方面展现出巨大潜力（例如，通过长思维链 CoT 进行自我验证和迭代优化），但业界领先的模型（如 OpenAI 的 o1 和 DeepSeek 的 R1）并未公开其 RL 训练的关键算法和工程细节。
- 重要性与挑战 (Gap): 这种技术保密导致了严重的可复现性危机。社区在尝试复现类似结果时，普遍遇到了熵崩溃 (entropy collapse)、奖励噪声 (reward noise) 和训练不稳定等重大障碍。例如，作者在使用朴素的 GRPO 算法训练 Qwen2.5-32B 模型时，在 AIME 测试上仅能达到 30 分，远低于 DeepSeek 公布的 47 分，这表明现有公开的算法缺少了成功的“秘方”。
- 切入点: 本文的切入点是完全开放和透明。作者不仅要实现最先进的性能，更重要的是要揭示并解决大规模 LLM 强化学习中的具体技术挑战，通过开源算法、代码和数据，为整个社区提供一个可复现、可依赖的工业级 RL 解决方案。
核心贡献/主要发现 (Main Contribution/Findings - What):
- 提出 DAPO 算法: 这是一个专为大规模长思维链 (long-CoT) 场景设计的 RL 算法，其核心是四项关键技术创新：
  1. Clip-Higher: 通过解耦 PPO 的裁剪范围，有效避免策略熵崩溃，保持模型探索能力。
  2. Dynamic Sampling: 过滤掉无效的训练样本（即优势为零的样本），显著提升训练效率和稳定性。
  3. Token-Level Policy Gradient Loss: 采用 token 级别的损失计算方式，解决了样本级别损失在长序列场景下的权重失衡问题。
  4. Overlong Reward Shaping: 通过精细化的奖励设计，减少因截断过长样本而引入的奖励噪声。
- 开源 SOTA 系统: 发布了一个完整的、开源的大规模 RL 系统，包括：
  - 训练代码: 基于 verl 框架，易于使用和扩展。
  - 数据集: 一个精心策划和处理的数学问题数据集 DAPO-Math-17K，其答案被转化为整数以提供清晰的奖励信号。
- 取得卓越性能: 使用 Qwen2.5-32B 基础模型，通过 DAPO 训练后，在 AIME 2024 测试中取得了 50 分的成绩，超过了之前由 DeepSeek-R1-Zero-Qwen-32B 创造的 47 分的记录，并且只用了 50% 的训练步数。

基础概念 (Foundational Concepts):
- 强化学习 (Reinforcement Learning, RL): 一种机器学习范式，其中智能体 (agent) 通过与环境 (environment) 交互来学习。智能体在特定状态 (state) 下采取动作 (action)，并从环境中获得奖励 (reward)。其目标是学习一个策略 (policy)，以最大化累积奖励。在 LLM 中，模型是智能体，生成的文本是动作，任务是否成功（如答案是否正确）决定了奖励。
- 近端策略优化 (Proximal Policy Optimization, PPO): 一种流行的 RL 算法。为了避免策略更新过快导致训练不稳定，PPO 引入了一个“裁剪”（clipping）机制。它通过限制新旧策略的概率比值 (importance sampling ratio) 在一个可信赖的区间 [1-ε, 1+ε] 内，来保证每次更新的步子不会太大，从而提高了训练的稳定性和样本效率。
- 组相对策略优化 (Group Relative Policy Optimization, GRPO): PPO 的一种变体，特别适用于没有显式价值函数 (value function) 的场景。它通过对一个问题 (prompt) 生成一组（Group）多个回答，然后根据这一组回答的奖励（如正确与否）的相对好坏来估计每个回答的优势 (advantage)，即用组内的均值和标准差对奖励进行归一化。这避免了训练一个独立的价值网络。
- 思维链 (Chain-of-Thought, CoT): 指引导 LLM 在回答问题前，先生成一步步的推理过程。长思维链 (long-CoT) 使得模型可以进行更复杂的、多步骤的推理、验证和修正，这对于解决数学和编程等难题至关重要。
- 策略熵 (Policy Entropy): 在 LLM 中，策略熵衡量了模型在生成下一个 token 时的不确定性或多样性。高熵意味着模型倾向于探索更多可能性（生成更多样的文本），而低熵则意味着模型趋于确定性（生成固定的、高概率的文本）。熵崩溃 (Entropy Collapse) 指的是在训练过程中熵过快下降，导致模型失去探索能力，陷入局部最优，生成内容单一。
前人工作 (Previous Works):
- OpenAI o1 和 DeepSeek R1: 这两个是当前推理能力最强的 LLM 的代表。它们都强调了 RL 在激发模型深度推理能力中的核心作用。然而，它们的技术报告非常简略，隐藏了关键的算法细节，是本文试图解决“黑盒”问题的主要动机。
- GRPO: 本文的算法是基于 GRPO 的思想进行改进的，尤其是在优势估计方面。但本文发现，朴素的 GRPO 在大规模长 CoT 场景下存在诸多问题。
差异化分析 (Differentiation):
- 透明度 vs. 保密: 与 o1 和 R1 的保密策略完全相反，DAPO 强调完全开源，旨在推动社区共同进步。
- 问题导向的实用技术 vs. 理论框架: DAPO 的核心不是提出一个全新的理论框架，而是针对大规模 RL 训练中遇到的具体工程难题（熵崩溃、梯度消失、奖励噪声等）提出了四项行之有效的解决方案。这些技术是经过大量实验验证的“最佳实践”，具有很强的实用价值。

4. 方法论 (Methodology - Core Technology & Implementation Details)

DAPO 算法的核心目标函数如下所示，它在 GRPO 的基础上融入了多项改进： $\begin{array} { r l } { \mathcal { I } _ { \mathrm { D A P O } } ( \theta ) = } & { \mathbb { E } _ { ( q , a ) \sim \mathcal { D } , \{ \sigma _ { i } \} _ { i = 1 } ^ { G } \sim \pi _ { \theta _ { \mathrm { o l d } } } ( \cdot | q ) } } \\ & { \left[ \frac { 1 } { \sum _ { i = 1 } ^ { G } | \sigma _ { i } | } \displaystyle \sum _ { i = 1 } ^ { G } \sum _ { t = 1 } ^ { \infty _ { i } } \operatorname* { m i n } \left( r _ { i , t } ( \theta ) \hat { A } _ { i , t } , \ \exp \Bigl ( r _ { i , t } ( \theta ) , 1 - \varepsilon _ { \mathrm { l o w } } , 1 + \varepsilon _ { \mathrm { h i g h } } \Bigr ) \hat { A } _ { i , t } \right) \right] } \\ { \mathrm { s . t . } \ } & { 0 < \left| \{ o _ { i } \mid \mathsf { i } \mathsf { s } _ { - } \mathsf { e q u i v a l e n t } ( a , o _ { i } ) \} \right| < G , } \end{array}$ 其中：

q, a 分别是问题和答案。
$\{o_i\}_{i=1}^G$ 是对问题 $q$ 采样的 $G$ 个输出。
$r_{i,t}(\theta) = \frac{\pi_\theta(o_{i,t} | q, o_{i,<t})}{\pi_{\theta_{\text{old}}}(o_{i,t} | q, o_{i,<t})}$ 是新旧策略在第 $t$ 个 token 上的概率比。
$\hat{A}_{i,t}$ 是优势估计，这里采用 GRPO 的方式计算，即对整个序列的奖励 $R_i$ 在组内进行归一化。
公式中的 exp 应该是 clip 的笔误，它表示裁剪操作。
$\varepsilon_{\text{low}}$ 和 $\varepsilon_{\text{high}}$ 是解耦的裁剪边界。
约束条件 $0 < |\{\dots\}| < G$ 体现了动态采样的思想。
分母 $\sum_{i=1}^G |o_i|$ 体现了 token 级别的损失计算。

下面详细拆解 DAPO 的四项关键技术：
1. 提高天花板 (Raise the Ceiling): Clip-Higher
- 问题: 在标准 PPO/GRPO 中，当一个动作的优势 $\hat{A}_{i,t} > 0$ 时（即希望提高该动作的概率），概率比 $r_{i,t}(\theta)$ 被裁剪在 $1+\varepsilon$ 以内。这对低概率的“探索性” token 非常不利。例如，一个概率为 0.01 的 token，其概率最多只能被提升到 $0.01 \times (1+0.2) = 0.012$ ，增幅微乎其微。而一个概率为 0.9 的 token 则没有这个限制。这导致模型倾向于强化已有的高概率 token，从而引发熵崩溃。
- 解决方案: 将对称的裁剪范围 ε 解耦为下界 $\varepsilon_{\text{low}}$ 和上界 $\varepsilon_{\text{high}}$ 。通过显著增大 $\varepsilon_{\text{high}}$ （例如设为 0.28，而 $\varepsilon_{\text{low}}$ 保持 0.2），为低概率 token 的概率提升留出更多空间，从而鼓励模型探索。
- 效果: 如下图所示，使用 Clip-Higher 策略后，模型的生成熵（右图）能够维持在较高水平，避免了快速崩溃至零，同时在 AIME 任务上的准确率（左图）也得到了显著提升。
  
  该图像为两张折线图。左图（a）展示在AIME任务中，带Clip-Higher策略（紫色线）相比不带Clip-Higher（浅蓝色线）在训练步数增加时准确率（AIME avg@32）更高且提升更明显。右图（b）展示生成熵，带Clip-Higher时熵值保持在较高水平且波动，而不带Clip-Higher时熵值迅速降低并趋近于零，表明带Clip-Higher有助于维持模型多样性和探索能力。
2. 多多益善 (The More the Merrier): Dynamic Sampling
- 问题: 在 GRPO 中，如果对一个问题采样的所有回答奖励都相同（例如全部正确或全部错误），那么归一化后的优势 $\hat{A}_{i,t}$ 将恒为零。这意味着这个样本对策略更新没有任何贡献（梯度为零）。随着模型训练得越来越好，全对的样本比例会不断增加（如下图右侧所示），导致有效训练数据不断减少，梯度方差增大，训练效率低下。
- 解决方案: 在收集训练数据时，动态地过滤掉那些“零优势”的样本组。具体来说，系统会持续采样，直到收集到足够数量的“有效”样本组（即组内既有正确答案也有错误答案）来构成一个批次 (batch)。
- 效果: 保证了每个批次中的所有样本都能产生有效的梯度信号，从而加速模型收敛并提升训练稳定性。如下图所示，采用动态采样后，模型能更快地达到更高的性能。
  
  该图像为图表，包含两个折线图。左图展示了训练过程中“平均上界截断概率”随步数变化的趋势，曲线在初期有较大波动，随后趋于稳定且略有波动；右图显示了训练过程中“准确率为100%的样本比例”随步数增加的变化，曲线呈上升趋势，表明随着训练进展，高准确率样本比例逐渐增加。
  
  该图像为图表，展示了在不同训练步数（Step）下，采用动态采样（Dynamic Sampling）与不采用动态采样两种策略在AIME指标（AIME avg@32）上的表现。曲线显示采用动态采样策略的模型性能提升更快，且在约2000步时达到峰值，随后略有波动；而未采用动态采样的模型性能上升较慢且波动较小，峰值出现于约6000步后但低于动态采样的最高性能。图中用虚线标记了各自的峰值阶段。
3. 再平衡 (Rebalancing Act): Token-Level Policy Gradient Loss
- 问题: 原始 GRPO 采用样本级别 (sample-level) 的损失计算，即先计算每个样本内所有 token 损失的平均值，再对所有样本的损失求平均。这导致每个样本（无论长短）对总损失的贡献权重相同。在长 CoT 场景下，这会带来两个问题：1) 长而优质的推理链中的每个 token 权重被稀释，模型难以学习到其中的关键模式；2) 长而劣质的回答（如胡言乱语、重复）中的有害模式无法被有效惩罚，导致模型生成长度和熵的“不健康”增长。
- 解决方案: 将损失计算方式改为 token 级别 (token-level)。即直接对一个批次中所有 token 的损失求平均，而不是先在样本内部平均。这样，一个 token 的贡献不再受其所在序列长度的影响。
- 效果: 如下图所示，采用 token 级别损失后，模型的生成熵和平均响应长度的增长变得更加平稳和健康，避免了剧烈波动，从而提升了训练的稳定性。
  
  该图像为两幅折线图组成的图表，比较了有无token级别损失（w/ token-level loss，w/o token-level loss）情况下，训练步数（Step）与生成熵（Generation Entropy）及平均响应长度（Mean Response Length）的关系。左图显示无token级别损失时，生成熵随步数大幅上升，而有token级别损失时生成熵相对平稳且较低。右图显示无token级别损失时平均响应长度先迅速增加后逐渐下降，有token级别损失时平均响应长度稳定增长并较长。整体表明token级别损失有助于控制生成熵并增强响应的长度稳定性。
4. 捉迷藏 (Hide and Seek): Overlong Reward Shaping
- 问题: 当模型生成的回答超过最大长度限制而被截断时，如何设定其奖励是一个难题。如果简单地给予一个负奖励（惩罚），可能会产生奖励噪声。因为一个推理过程可能本身是正确的，只是因为太长而被惩罚，这会误导模型。
- 解决方案:
  1. 超长过滤 (Overlong Filtering): 一种简单的策略是直接屏蔽掉被截断样本的损失，不让它们参与梯度更新。实验证明这能显著稳定训练。
  2. 软性超长惩罚 (Soft Overlong Punishment): 一种更精细的奖励设计。设定一个惩罚区间（例如，最大长度为 16384，惩罚区间为 4096），当回答长度进入这个区间后，奖励会随着长度的增加而线性减少，直到超过最大长度时变为 -1。
- 效果: 如下图所示，通过对超长样本进行特殊处理（图中为 overlong filtering），可以有效稳定训练过程，避免熵的剧烈波动（右图），并最终提升模型性能（左图）。
  
  该图像为双子图表，左图展示了在AIME任务中有无超长过滤（overlong filtering）条件下模型性能随训练步骤（Step）变化的曲线，纵轴为AIME avg@32指标；右图显示了同样条件下演员模型生成熵（Generation Entropy）随训练步骤变化的曲线，显示无超长过滤时生成熵在约3500步后显著上升，而有过滤时较为平稳。整体反映超长过滤对模型训练稳定性和性能的影响。
数据集转换 (Dataset Transformation):
- 为了得到清晰、无歧义的奖励信号（正确为 1，错误为 -1），作者创建了 DAPO-Math-17K 数据集。他们将原始数学问题（答案可能是分数、根式等复杂形式）通过 LLM 自动改写，使得新问题的答案是一个唯一的整数。例如，如果原答案是 $11 - 2\sqrt{6}$ ，问题会被改写为“求 $k+m+n$ 的值”，其中答案形式为 $k - m\sqrt{n}$ ，使得最终答案是 $11+2+6=19$ 。

5. 实验设置 (Experimental Setup)

数据集 (Datasets):
- 训练集: DAPO-Math-17K，包含 17000 个经过转换的数学问题，答案均为整数。
- 评估集: AIME 2024，美国数学邀请赛，是一个高难度的数学竞赛基准，用于评估模型的复杂推理能力。
评估指标 (Evaluation Metrics):
- AIME 2024 avg@32: 对 AIME 测试集中的每个问题，模型独立生成 32 个回答，计算这 32 次尝试的平均准确率。这是一种更稳健的评估方式，可以减少单次生成结果的随机性。
对比基线 (Baselines):
- Naive GRPO: 未经任何改进的 GRPO 算法，作为内部比较的起点。
- DeepSeek-R1-Zero-Qwen-32B: 这是当时在 Qwen-32B 基础模型上使用 R1 方法训练达到的最先进水平（47 分），是本文挑战的外部 SOTA 基线。

6. 实验结果与分析 (Results & Analysis)

核心结果分析 (Core Results Analysis):
- 超越 SOTA: DAPO 在 Qwen2.5-32B 基础模型上训练后，在 AIME 2024 上取得了 50 分的 avg@32 成绩，显著优于 DeepSeek-R1 的 47 分。
- 更高效率: DAPO 达到甚至超过 DeepSeek-R1 的性能水平时，仅使用了约 5000 个训练步数，而 DeepSeek-R1 则需要约 10000 步。这证明了 DAPO 算法的高效率。
  
  该图像是图表，展示了DAPO算法在AIME 2024任务上随着训练步数增加的准确率变化。图中用不同符号分别表示DAPO的平均准确率（紫色圆点）、通过率（浅蓝色倒三角）和一致率（浅蓝色三角），横轴为训练步数，纵轴为准确率百分比。图中以虚线标明DeepSeek-R1-Zero-Qwen-32B的50%准确率基准，DAPO在约5600步时达到该水平。
消融实验/参数分析 (Ablation Studies / Parameter Analysis):
- 作者通过逐步添加 DAPO 的各项技术，清晰地展示了每个组件的贡献。以下是 Table 1 的结果摘要：
  - Naive GRPO (基线): 30 分
  - - Overlong Filtering: 36 分 (+6)
  - - Clip-Higher: 38 分 (+2)
  - - Soft Overlong Punishment: 41 分 (+3)
  - - Token-level Loss: 42 分 (+1)
  - - Dynamic Sampling (最终的 DAPO): 50 分 (+8)
- 分析:
  - 所有四项技术都带来了正向收益，证明了它们的有效性。
  - Dynamic Sampling 和 Overlong Filtering 带来的性能提升最为显著，分别贡献了 8 分和 6 分，说明解决梯度消失和奖励噪声问题是成功的关键。
  - Clip-Higher 和 Soft Overlong Punishment 也稳定地提升了性能。
  - Token-level Loss 虽然分数提升最小，但论文指出它对训练稳定性和生成长度的健康增长至关重要。
训练动态分析 (Training Dynamics Analysis):
- 论文强调了在复杂 RL 系统中监控中间指标的重要性。下图展示了训练过程中的几个关键指标变化：
  - (a) 平均响应长度: 持续增长，为模型进行复杂推理提供了空间。
  - (b) 奖励得分: 快速上升并稳定在高位，表明模型很好地拟合了训练数据。
  - (c) 生成熵: 先下降后回升，在 Clip-Higher 策略的作用下维持在健康水平，保证了探索。
  - (d) 平均概率: 先上升后下降，反映了策略的动态调整。
- 这些曲线共同描绘了 RL 训练的动态过程，是诊断问题和调优系统的重要依据。
  
  该图像为四个折线图组成的图表，展示了训练过程中不同指标随训练步数的变化趋势：(a)平均响应长度随训练步数逐渐增加；(b)奖励得分迅速提升后趋于稳定在较高水平；(c)生成熵先下降后回升；(d)平均概率先增后减。整体反映了RL训练过程中模型生成能力和反馈信号的动态变化。

7. 总结与思考 (Conclusion & Personal Thoughts)

结论总结 (Conclusion Summary):
- 本文成功地解决了大规模 LLM 强化学习中的可复现性难题，提出了 DAPO 算法，并通过四项关键技术（Clip-Higher, Dynamic Sampling, Token-Level Loss, Overlong Reward Shaping）有效解决了熵崩溃、训练效率低下、长序列学习不佳和奖励噪声等核心痛点。
- 通过完全开源其 SOTA 系统（算法、代码、数据集），DAPO 为社区提供了一个强大且透明的工具，极大地推动了该领域的发展，使研究者和开发者能够站在巨人的肩膀上进行创新。
局限性与未来工作 (Limitations & Future Work):
- 领域局限性: 实验主要集中在数学推理领域 (AIME)。该方法在其他需要复杂推理的任务（如编程、科学问答、法律分析等）上的泛化能力有待进一步验证。
- emergent behavior 的探索: 论文观察到了模型在 RL 训练中自发学习出反思和回溯等高级推理行为（如 Table 2 所示）。对这种“能力涌现”的机制进行深入解释和利用，是未来一个非常有价值的研究方向。
- 超参数敏感性: 像 $\varepsilon_{\text{high}}$ 这样的新超参数可能需要针对不同模型和任务进行仔细调整，其通用性和鲁棒性需要更多研究。
个人启发与批判 (Personal Insights & Critique):
- 工程智慧的胜利: DAPO 的成功充分说明，在实现 AGI 的道路上，除了宏大的理论创新，精妙的工程实践和对细节的极致追求同样至关重要。这四项技术都不是颠覆性的理论，但它们组合在一起，解决了实实在在的、阻碍领域发展的瓶颈问题。
- 开放是第一生产力: 本文最大的贡献或许不是 50 分的成绩，而是其彻底的开放精神。它用实际行动回应了社区对头部机构技术保密的担忧，为建立一个更健康、协作的研究生态树立了典范。
- 批判性思考: 消融实验的结果是累加的，但各项技术之间可能存在复杂的相互作用。例如，如果没有 Clip-Higher 维持探索，Dynamic Sampling 的效果可能会打折扣。未来的研究可以更深入地分析这些技术之间的协同或拮抗效应。此外，数据集的整数化转换虽然简化了奖励，但也可能限制了模型处理更通用、更复杂答案形式的能力。

相似论文推荐

基于向量语义检索推荐的相关论文。

暂时没有找到相似论文。