AiPaper
论文状态:已完成

FlowRL: Matching Reward Distributions for LLM Reasoning

发表:2025/09/19
原文链接PDF 下载
价格:0.10
价格:0.10
已有 0 人读过
本分析由 AI 生成,可能不完全准确,请以原文为准。

TL;DR 精炼摘要

本文提出了一种新方法FlowRL,通过流平衡匹配完整的奖励分布,以替代传统的奖励最大化策略。与传统方法不同,FlowRL促进多样化探索和更具泛化性的推理轨迹。在数学和代码推理任务的实验中,FlowRL分别比GRPO和PPO提高了10%和5.1%的性能,显示了奖励分布匹配在LLM强化学习中的关键作用。

摘要

We propose FlowRL: matching the full reward distribution via flow balancing instead of maximizing rewards in large language model (LLM) reinforcement learning (RL). Recent advanced reasoning models adopt reward-maximizing methods (\eg, PPO and GRPO), which tend to over-optimize dominant reward signals while neglecting less frequent but valid reasoning paths, thus reducing diversity. In contrast, we transform scalar rewards into a normalized target distribution using a learnable partition function, and then minimize the reverse KL divergence between the policy and the target distribution. We implement this idea as a flow-balanced optimization method that promotes diverse exploration and generalizable reasoning trajectories. We conduct experiments on math and code reasoning tasks: FlowRL achieves a significant average improvement of 10.0%10.0\% over GRPO and 5.1%5.1\% over PPO on math benchmarks, and performs consistently better on code reasoning tasks. These results highlight reward distribution-matching as a key step toward efficient exploration and diverse reasoning in LLM reinforcement learning.

思维导图

论文精读

中文精读

1. 论文基本信息

1.1. 标题

FlowRL: Matching Reward Distributions for LLM Reasoning

中文解读: 论文的核心主题是提出一种名为 FlowRL 的新方法,用于提升大语言模型 (LLM) 的推理能力。其关键思想是匹配奖励分布,而非传统强化学习方法中单纯地最大化奖励

1.2. 作者

Xuekai Zhu, Daixuan Cheng, Dinghuai Zhang, Hengli Li, Kaiyan Zhang, Che Jiang, Youbang Sun, Ermo Hua, Yuxin Zuo, Xiingtai Lv, C Cui, Ning Ding, Jianfeng Gao, Xiaodong Liu, Bowen Zhou, Hongyuan Mei, Zhouhan Lin.

作者团队来自多个知名学术机构和研究中心,包括中国人民大学 (Renmin University of China)、斯坦福大学 (Stanford University)、丰田计算技术研究所 (Toyota Technological Institute at Chicago) 等,表明这是一项由多个研究团队合作完成的高质量工作。

1.3. 发表期刊/会议

该论文目前作为预印本 (preprint) 发布在 arXiv 上。arXiv 是一个开放获取的学术论文存档网站,通常用于在正式同行评审和发表前分享最新的研究成果。根据其提交时间(2025年9月),这篇论文很可能是为 NeurIPS、ICLR、ICML 等顶级人工智能会议准备的。

1.4. 发表年份

2025年 (根据 arXiv 上的元数据)。

1.5. 摘要

论文提出了一种名为 FlowRL 的新方法,旨在改进用于大语言模型 (LLM) 推理的强化学习 (RL)。现有先进的推理模型通常采用奖励最大化方法(如 PPOGRPO),但这会导致模型过度优化那些最常见的、高分的推理路径,而忽略其他同样有效但不那么频繁的路径,从而降低了生成方案的多样性。

与此相反,FlowRL 的核心思想是匹配完整的奖励分布。它通过一个可学习的配分函数 (partition function) 将标量奖励值转换为一个标准化的目标概率分布。然后,模型的目标不再是最大化奖励,而是最小化自身策略产生的分布与这个目标奖励分布之间的反向 KL 散度 (reverse KL divergence)。作者将此思想实现为一种流平衡 (flow-balanced) 的优化方法,旨在促进模型进行多样化的探索,并学习到更具泛化能力的推理轨迹。

实验在数学和代码推理任务上进行。结果显示,在数学基准测试中,FlowRL 的平均性能比 GRPO 提高了 10.0%,比 PPO 提高了 5.1%。在代码推理任务上,FlowRL 也表现出了一致的优越性。这些结果表明,奖励分布匹配是实现 LLM 强化学习中高效探索和多样化推理的关键一步。

1.6. 原文链接

2. 整体概括

2.1. 研究背景与动机

2.1.1. 核心问题

当前使用强化学习 (RL) 训练大语言模型 (LLM) 进行复杂推理(如数学解题、代码生成)时,普遍采用奖励最大化 (reward-maximizing) 的目标。即,如果一个推理路径能得到高分(奖励),模型就会被训练得更倾向于生成这条路径。

2.1.2. 现有挑战 (Gap)

这种奖励最大化的范式存在一个根本性缺陷:模式坍塌 (mode collapse)

  • 定义: 在一个复杂的推理问题中,通常存在多条不同的、但都正确的解题路径(即多个“模式”)。奖励最大化算法会倾向于发现并“过度拟合”到其中最显眼、最容易学习的一条或几条路径上(即主导模式),而忽略了其他同样有效但可能更罕见或更复杂的解法。
  • 后果:
    1. 多样性降低: 模型生成的解决方案变得千篇一律,缺乏创造性。

    2. 泛化能力减弱: 当面对新的、与训练中主导模式略有不同的问题时,模型可能会因为没有学到足够多样的解题策略而表现不佳。

      如下图(原文 Figure 1)所示,像 GRPO 这样的奖励最大化方法会把所有概率都集中在奖励最高的那个“山峰”上,导致 KL 散度很高,而忽略了其他“山丘”。

      Figure 1 | Top: Comparison between distribution-matching and reward-maximizing approaches. FlowRL (left) learns to match the full reward distribution, maintaining diversity across multiple modes with low KL divergence. In contrast, reward-maximizing methods like GRPO (right) concentrate on a single high-reward peak, leading to mode collapse and higher KL divergence. Bottom: Performance comparison. FlowRL consistently outperforms GRPO across math and code domains. 该图像是图表,展示了FlowRL与传统奖励最大化方法(GRPO)的对比。上部分为奖励分布的匹配与最大化方法的KL散度比较,FlowRL的KL为0.11,而GRPO的KL为8.68,显示出FlowRL在多模态上保持了更高的多样性。下部分为两种方法在数学和代码评分上的表现,FlowRL的得分优于GRPO。

2.1.3. 创新思路

FlowRL 提出了一种全新的思路:从“追求最高分”转变为“学习整个分数分布”

  • 核心思想: 不再强迫模型只走最高分的路,而是让模型学习到所有高分路径的分布情况。也就是说,如果一条路径的分数是 80,另一条是 100,模型应该以一定的比例(而非 100%)去探索这两条路,这个比例与它们的分数相关。
  • 实现方式: 将奖励分数转化为一个目标概率分布,然后训练 LLM 的策略去匹配 (match) 这个目标分布。这从根本上鼓励了模型探索多种可能性,避免了模式坍塌。

2.2. 核心贡献/主要发现

论文的主要贡献可以总结为以下三点:

  1. 提出 FlowRL 算法: 首次将奖励分布匹配的思想系统性地引入 LLM 推理的强化学习中。通过流平衡 (flow balance) 的视角,将优化目标从最大化奖励转变为最小化策略与目标奖励分布的 KL 散度,从而根本上解决了现有 RL 方法的模式坍塌问题。
  2. 针对长思维链推理的实用化改进: 为了让 FlowRL 能够稳定地训练具有超长文本序列(如长达 8k 词元的思维链)的 LLM,论文提出了两个关键的技术改进:
    • 长度归一化 (Length Normalization): 解决了长序列导致的梯度爆炸问题。
    • 重要性采样 (Importance Sampling): 解决了训练数据与当前策略不匹配的问题,提高了数据利用效率。
  3. 强大的实验验证: 在多个具有挑战性的数学和代码推理基准上,FlowRL 显著优于当前主流的 RL 算法(如 PPOGRPO)。此外,通过多样性分析和案例研究,论文有力地证明了 FlowRL 确实能够生成更多样化、更具创造性的解决方案。

3. 预备知识与相关工作

3.1. 基础概念

3.1.1. 大语言模型的强化学习 (Reinforcement Learning for LLMs)

在 LLM 推理任务中,强化学习框架的元素如下:

  • 智能体 (Agent): 大语言模型本身。

  • 状态 (State): 到目前为止已经生成的文本序列(问题 + 已生成的部分答案)。

  • 动作 (Action): 生成下一个词元 (token)

  • 策略 (Policy), πθ\pi_{\theta}: LLM 的参数化模型 θ\theta,它根据当前状态决定生成下一个词元的概率分布。

  • 轨迹 (Trajectory), y\mathbf{y}: 从开始到结束生成的完整文本序列(例如,一个完整的解题步骤)。

  • 奖励 (Reward), rr: 在生成完整轨迹后,根据其质量给出的一个标量分数。例如,在数学题中,如果最终答案正确,奖励为 1,否则为 0。

    RL 的目标就是调整模型参数 θ\theta,使得生成的轨迹能够获得尽可能高的期望奖励。

3.1.2. PPO (Proximal Policy Optimization)

PPO (近端策略优化) 是一种非常流行和稳定的强化学习算法。它的核心思想是在更新策略时,限制新策略与旧策略的差异不能过大。这通过一个裁剪 (clipping) 机制实现,防止了训练过程中的剧烈波动,使得训练更加稳定高效。PPO 通常还需要一个额外的网络,称为评论家 (critic),来估计每个状态的价值,以减少梯度的方差。

3.1.3. GRPO (Group Reward Policy Optimization)

GRPO (分组奖励策略优化)PPO 的一种简化变体。它省去了 PPO 中复杂的评论家网络。它的做法是:对于同一个问题,让模型生成一组(例如 G=8 个)不同的答案。然后,将这一组答案的奖励进行归一化(减去均值,除以标准差),得到优势 (advantage)。这种方法虽然简化了模型结构,但通常需要更多的推理轨迹 (rollout) 来保证估计的准确性。

3.1.4. GFlowNets (Generative Flow Networks)

GFlowNets (生成流网络) 是理解 FlowRL 的关键。它是一种用于从复杂离散空间中采样对象的生成模型框架。

  • 核心思想: 将生成过程想象成一个概率“流”。如下图(原文 Figure 2)所示,一个固定的初始流量 ZZ 从起始状态 s0s_0 “注入”,然后根据策略 πθ\pi_{\theta} 在不同的状态之间流动,最终在终点状态 sns_n 流出。GFlowNets 的核心原则是流平衡 (flow balance)流入任何一个状态的总流量必须等于流出该状态的总流量

  • 与奖励的联系: GFlowNets 的巧妙之处在于,它将每个终点状态的流出量设定为与该状态的奖励 r(sn)r(s_n) 成正比。通过在整个状态空间中强制实现流平衡,GFlowNets 最终学习到的策略 πθ\pi_{\theta} 会以正比于其奖励的概率来采样不同的终点对象。

  • 优势: 这种机制天然地鼓励多样性。它不是只寻找奖励最高的那个终点,而是学习整个奖励“地形图”,从而能够采样出所有高奖励的、多样化的对象。

    Figure 2 | GFlowNets \[Bengio et al., 2023a\], a flow-balance perspective on reinforcement learning. The initial flow \(Z _ { \\phi } ( s _ { 0 } )\) injects probability mass into the environment, which is transported through intermediate states by the policy \(\\pi _ { \\theta }\) and accumulated at terminal states in proportion to the scalar rewards. 该图像是示意图,展示了GFlowNets在强化学习中的流平衡视角。图中展示了初始流Zϕ(s0)Z_{\phi}(s_0)注入概率质量到环境,并通过策略πθ\pi_{\theta}在中间状态间传输,最终以与标量奖励成比例的方式在终态累积。状态{s0,s1,s2,,s10}\{s_0, s_1, s_2, \ldots, s_{10}\}及其对应的流向显示了在强化学习中的流动路径和奖励积累过程。

3.1.5. KL 散度 (Kullback-Leibler Divergence)

KL 散度是衡量两个概率分布 PPQQ 之间差异的指标,记为 DKL(PQ)D_{KL}(P \| Q)。它是不对称的。

  • 前向 KL 散度 (DKL(PQ)D_{KL}(P \| Q)):P(x)>0P(x) > 0Q(x)0Q(x) \to 0 时,该项会趋向无穷大。这意味着优化前向 KL 会使得 QQ 覆盖所有 PP 的模式(即 QQPP 不为零的地方也不能为零)。
  • 反向 KL 散度 (DKL(QP)D_{KL}(Q \| P)):Q(x)>0Q(x) > 0P(x)0P(x) \to 0 时,该项会趋向无穷大。这意味着优化反向 KL 会迫使 QQPP 为零的地方也必须为零。如果 PP 是一个多峰分布,最小化反向 KL 会使得 QQ 倾向于匹配 PP 的其中一个或多个峰值,而不是试图覆盖所有区域。FlowRL 使用反向 KL,其中 QQ 是模型策略 πθ\pi_{\theta}PP 是目标奖励分布。

3.2. 前人工作

  • 奖励最大化 RL 算法:
    • REINFORCE: 最基础的策略梯度算法,简单但方差大,训练不稳定。
    • PPO: 引入裁剪和评论家网络,成为 LLM 微调的主流稳定算法。
    • GRPO: 简化 PPO,放弃评论家网络,通过分组归一化奖励来稳定训练。
    • 本文指出,这些方法共享同一个根本缺陷:目标是最大化奖励,导致模式坍塌
  • 提升多样性的方法:
    • 熵正则化 (Entropy Regularization): 在奖励目标上增加一项策略的熵,鼓励策略的输出更不确定,从而提升多样性。但论文认为,在长达 8k 词元的思维链推理中,这种正则化信号很难有效影响学习过程。
    • 数据增强/筛选: 近期一些工作发现,使用更多样化或高熵的训练数据可以提升模型性能。这是一种间接提升多样性的方法。
  • GFlowNets 在生成模型中的应用: GFlowNets 已被成功应用于分子发现、组合优化等领域,最近也开始用于对齐图像生成模型和微调语言模型。FlowRL 正是受其启发,并将其核心的流平衡思想与 RL 策略优化深度结合。

3.3. 技术演进

LLM 推理的 RL 方法演进路线如下:

  1. 基础策略梯度 (REINFORCE): 证明了 RL 的可行性,但不够稳定。
  2. 稳定策略梯度 (PPO): 成为工业界和学术界的主流方法,通过稳定化技术解决了训练难题。
  3. 简化稳定策略梯度 (GRPO): 试图在保持稳定性的同时降低 PPO 的实现复杂度。
  4. 范式转变 (FlowRL): 本文的工作。它不再沿着“如何更稳定地最大化奖励”的思路演进,而是从根本上改变了优化目标,从奖励最大化转向奖励分布匹配,开启了一个新的技术方向。

3.4. 差异化分析

FlowRL 与之前工作的核心区别在于优化目标

  • PPO/GRPO 等: 目标是 maxθE[r(y)]\max_{\theta} \mathbb{E}[r(\mathbf{y})],即最大化期望奖励。这是一种优化 (optimization) 问题,其解是找到奖励最高的点。

  • FlowRL: 目标是 minθDKL(πθpr)\min_{\theta} D_{KL}(\pi_{\theta} \| p_r),其中 prp_r 是目标奖励分布。这是一种生成建模 (generative modeling) 问题,其解是让策略 πθ\pi_{\theta} 学会复现整个奖励分布。

    这种根本性的差异使得 FlowRL 天然地具备了模式覆盖 (mode coverage) 的能力,从而在探索多样化推理路径方面具有本质优势。

4. 方法论

4.1. 方法原理

FlowRL 的核心思想是将传统的强化学习“奖励最大化”问题,重新构建为一个“概率分布匹配”问题。其背后的直觉是:一个优秀的推理模型不应该只会一种解法,而应该掌握所有有效的解法,并且它选择某种解法的概率应该与该解法的“好坏”(即奖励)成正比。

这个过程分为三个关键步骤:

  1. 定义目标: 首先,将离散的奖励分数 r(x,y)r(\mathbf{x}, \mathbf{y}) 转换成一个连续的目标概率分布。
  2. 建立桥梁: 证明了最小化模型策略与该目标分布的 KL 散度,等价于一个来自 GFlowNets 的、更易于优化的轨迹平衡损失 (trajectory balance loss)
  3. 解决实践挑战: 针对 LLM 长序列推理的特点,引入长度归一化和重要性采样,使理论模型能够稳定、高效地训练。

4.2. 核心方法详解 (逐层深入)

4.2.1. 步骤一:从奖励最大化到分布匹配

传统 RL 方法试图最大化奖励。FlowRL 另辟蹊径,目标是让策略 πθ(yx)\pi_{\theta}(\mathbf{y} \mid \mathbf{x}) 去匹配一个理想的目标分布。这个目标分布应该满足“奖励越高的轨迹 y\mathbf{y},被采样的概率也越高”的特性。

能量 기반 모델 (Energy-Based Models) 的启发,可以定义一个非归一化的概率,即 exp(βr(x,y))\exp(\beta r(\mathbf{x}, \mathbf{y})),其中 β\beta 是一个控制分布锐利度的超参数。为了将其转换为一个合法的概率分布(即所有可能轨迹的概率之和为 1),需要除以一个归一化常数,即配分函数 (partition function) Z(x)=yYexp(βr(x,y))Z(\mathbf{x}) = \sum_{\mathbf{y}' \in \mathcal{Y}} \exp(\beta r(\mathbf{x}, \mathbf{y}'))

然而,对于 LLM 来说,遍历所有可能的轨迹 y\mathbf{y}' 来计算 Z(x)Z(\mathbf{x}) 是不可能的。因此,论文引入了一个可学习的配分函数 Zϕ(x)Z_{\phi}(\mathbf{x}),用一个神经网络来近似这个值。

至此,FlowRL 的优化目标被形式化为最小化策略 πθ\pi_{\theta} 与目标奖励分布之间的反向 KL 散度

minθDKL(πθ(yx)exp(βr(x,y))Zϕ(x))πθ(yx)exp(βr(x,y)), \min_{\theta} \mathcal{D}_{\mathrm{KL}}(\pi_{\theta}(\mathbf{y} \mid \mathbf{x}) \| \frac{\exp(\beta r(\mathbf{x}, \mathbf{y}))}{Z_{\phi}(\mathbf{x})}) \quad \Rightarrow \quad \pi_{\theta}(\mathbf{y} \mid \mathbf{x}) \propto \exp(\beta r(\mathbf{x}, \mathbf{y})),

  • 符号解释:
    • πθ(yx)\pi_{\theta}(\mathbf{y} \mid \mathbf{x}): 模型策略,即给定问题 x\mathbf{x} 生成答案 y\mathbf{y} 的概率。

    • r(x,y)r(\mathbf{x}, \mathbf{y}): 奖励函数,评估答案 y\mathbf{y} 的质量。

    • β\beta: 反温度系数,控制奖励对概率分布形状的影响。β\beta 越大,分布越尖锐,越集中于高奖励区域。

    • Zϕ(x)Z_{\phi}(\mathbf{x}): 由参数为 ϕ\phi 的神经网络(本文中是一个 MLP)近似的配分函数。

    • DKL()\mathcal{D}_{\mathrm{KL}}(\cdot \| \cdot): KL 散度。

      这个公式的含义是:调整模型参数 θ\theta,使得模型生成答案的概率分布,尽可能地接近由奖励函数定义的那个理想分布。

4.2.2. 步骤二:KL 最小化与轨迹平衡的等价性

直接优化上述 KL 散度目标在实践中很困难。论文引用了一个关键的理论结果(Proposition 1),即在期望梯度上,最小化该 KL 散度等价于最小化 GFlowNets 中的轨迹平衡损失

minθDKL(πθ(yx)exp(βr(x,y))Zϕ(x))minθ(logZϕ(x)+logπθ(yx)βr(x,y))2 \min_{\theta} \mathcal{D}_{\mathrm{KL}}(\pi_{\theta}(\mathbf{y} \mid \mathbf{x}) \| \frac{\exp(\beta r(\mathbf{x}, \mathbf{y}))}{Z_{\phi}(\mathbf{x})}) \quad \Longleftrightarrow \quad \min_{\theta} (\log Z_{\phi}(\mathbf{x}) + \log \pi_{\theta}(\mathbf{y} \mid \mathbf{x}) - \beta r(\mathbf{x}, \mathbf{y}))^2

  • 符号解释:
    • logZϕ(x)\log Z_{\phi}(\mathbf{x}): 学习到的配分函数的对数,代表了从初始状态流出的总“流量”。

    • logπθ(yx)\log \pi_{\theta}(\mathbf{y} \mid \mathbf{x}): 模型生成完整轨迹 y\mathbf{y} 的对数概率,代表了沿途的“流动路径”概率。

    • βr(x,y)\beta r(\mathbf{x}, \mathbf{y}): 奖励项,代表了终点状态的“流出量”。

      这个平方损失函数的形式非常直观:它试图让“流入” (logZϕ(x)\log Z_{\phi}(\mathbf{x})) + “路径” (logπθ(yx)\log \pi_{\theta}(\mathbf{y} \mid \mathbf{x})) = “流出” (βr(x,y)\beta r(\mathbf{x}, \mathbf{y}))。这就是轨迹平衡的含义。这个形式稳定且易于优化,避免了直接计算 KL 散度。

4.2.3. 步骤三:针对 LLM 推理的实用化改进

直接将上述损失应用于 LLM 的长思维链 (CoT) 推理会遇到两个严重问题:

问题 1: 长轨迹导致的梯度爆炸

  • 原因: logπθ(yx)\log \pi_{\theta}(\mathbf{y} \mid \mathbf{x}) 是对数概率的连加,即 t=1ylogπθ(yty<t,x)\sum_{t=1}^{|\mathbf{y}|} \log \pi_{\theta}(y_t | y_{<t}, \mathbf{x})。对于长达 8k 词元的序列,这个值会变得非常大(绝对值),导致其梯度也相应地非常大,使得训练不稳定。
  • 解决方案: 长度归一化 (Length Normalization)。将序列级别的对数概率项除以序列长度 y|\mathbf{y}|,将其变为平均对数概率。

问题 2: 采样不匹配 (Sampling Mismatch)

  • 原因: 上述损失函数假设用于计算梯度的轨迹 y\mathbf{y} 是从当前最新的策略 πθ\pi_{\theta} 中采样的(即 on-policy)。但为了提高训练效率,RL 框架通常会重用由旧策略 πθold\pi_{\theta_{old}} 生成的数据(即 off-policy)。
  • 解决方案: 重要性采样 (Importance Sampling)。使用一个权重 w=πθ(yx)πθold(yx)w = \frac{\pi_{\theta}(\mathbf{y} \mid \mathbf{x})}{\pi_{\theta_{old}}(\mathbf{y} \mid \mathbf{x})} 来修正损失,以弥补新旧策略之间的分布差异。

4.2.4. 最终的 FlowRL 目标函数

结合所有改进,最终的 FlowRL 损失函数如下。首先,为了防止模型偏离预训练知识太远,将一个参考模型 (reference model) πref\pi_{ref}(通常是固定的预训练模型)引入奖励定义中,修改后的目标正比于 exp(βr(x,y))πref(yx)\exp(\beta r(\mathbf{x}, \mathbf{y})) \cdot \pi_{ref}(\mathbf{y} \mid \mathbf{x})。这导致轨迹平衡损失变为: minθ(logZϕ(x)+logπθ(yx)βr^i(x,y)logπref(yx))2 \min_{\theta} \left( \log Z_{\phi}(\mathbf{x}) + \log \pi_{\theta}(\mathbf{y} \mid \mathbf{x}) - \beta \hat{r}_{i}(\mathbf{x}, \mathbf{y}) - \log \pi_{\mathrm{ref}}(\mathbf{y} \mid \mathbf{x}) \right)^2 其中奖励 r^i\hat{r}_i 经过了分组归一化。

最后,整合长度归一化重要性采样(带有 PPO 风格的裁剪和梯度分离 detach 以增加稳定性),得到最终的 FlowRL 目标函数:

LFlowRL=w(logZϕ(x)+1ylogπθ(yx)βr^(x,y)1ylogπref(yx))2 \mathcal{L}_{\mathrm{FlowRL}} = w \cdot \Bigg( \log Z_{\phi}(\mathbf{x}) + \frac{1}{|\mathbf{y}|} \log \pi_{\theta}(\mathbf{y} \mid \mathbf{x}) - \beta \hat{r}(\mathbf{x}, \mathbf{y}) - \frac{1}{|\mathbf{y}|} \log \pi_{\mathrm{ref}}(\mathbf{y} \mid \mathbf{x}) \Bigg)^2

其中,重要性采样权重 ww 和归一化奖励 r^\hat{r} 的定义为:

w=clip(πθ(yx)πold(yx),1ϵ,1+ϵ)detach,r^i=rimean(r)std(r). w = \mathrm{clip}\left( \frac{\pi_{\theta}(\mathbf{y} \mid \mathbf{x})}{\pi_{\mathrm{old}}(\mathbf{y} \mid \mathbf{x})}, 1-\epsilon, 1+\epsilon \right)^{\mathrm{detach}}, \quad \hat{r}_i = \frac{r_i - \mathrm{mean}(\mathbf{r})}{\mathrm{std}(\mathbf{r})}.

  • 符号解释:
    • ww: 经过裁剪和梯度分离的重要性采样权重,用于修正 off-policy 带来的偏差。

    • 1y\frac{1}{|\mathbf{y}|}: 长度归一化因子,应用于策略和参考模型的对数概率上。

    • r^(x,y)\hat{r}(\mathbf{x}, \mathbf{y}): 经过分组归一化的奖励。

    • πref\pi_{\mathrm{ref}}: 固定的参考模型,作为正则项。

    • πold\pi_{\mathrm{old}}: 用于生成当前批次数据的旧策略。

    • ϵ\epsilon: PPO 中的裁剪范围超参数。

      这个最终的目标函数就是 FlowRL 算法的核心,它同时更新策略模型 πθ\pi_{\theta} 和配分函数模型 ZϕZ_{\phi}

5. 实验设置

5.1. 数据集

实验在数学推理代码生成两大领域进行。

  • 数学领域:
    • 训练集: 使用 DAPO [Yu et al., 2025b] 收集的训练数据。
    • 评估集:
      • AIME 2024/2025: 美国数学邀请赛,难度非常高。
      • AMC 2023: 美国数学竞赛,难度较高。
      • MATH-500: 一个包含代数、几何、数论等多个主题的高中竞赛级别数学问题集。
      • Minerva: Google 开发的数学推理数据集。
      • Olympiad: 奥林匹克级别的数学竞赛题,代表了最高难度。
  • 代码领域:
    • 训练集: 遵循 DeepCoder [Luo et al., 2025] 的设置,使用其训练集。
    • 评估集:
      • LiveCodeBench: 一个持续更新的、包含真实编程竞赛问题的基准。

      • CodeForces: 一个流行的编程竞赛平台,问题难度和复杂性都很高。

      • HumanEval+HumanEval+: HumanEval 的增强版,用于评估代码合成能力。

        选择这些数据集是因为它们具有很高的挑战性,并且需要模型具备强大的、多样的推理能力,能够有效验证 FlowRL 在复杂问题上的性能。

5.2. 评估指标

  • Avg@16:

    1. 概念定义 (Conceptual Definition): 这个指标衡量的是,对于每个问题,模型生成 16 个不同的答案(即进行 16 次推演 (rollout)),然后计算这 16 个答案的平均准确率。在很多场景下,它等价于 Pass@k 的思想,即只要 16 次尝试中有一次成功,就算通过。它旨在评估模型在多次尝试下解决问题的能力,这在实际应用中(如使用多数投票或选择最佳答案)非常重要。
    2. 数学公式 (Mathematical Formula): 对于一个包含 NN 个问题的数据集,Avg@k 的计算方式为: Avg@k=1Ni=1NI(j=1kcorrect(yij)) \mathrm{Avg}@k = \frac{1}{N} \sum_{i=1}^{N} \mathbb{I}\left(\bigvee_{j=1}^{k} \mathrm{correct}(y_{ij})\right)
    3. 符号解释:
      • NN: 数据集中的问题总数。
      • kk: 每次评估生成的答案数量(本文中为 16)。
      • yijy_{ij}: 为第 ii 个问题生成的第 jj 个答案。
      • correct()\mathrm{correct}(\cdot): 一个布尔函数,判断答案是否正确。
      • \bigvee: 逻辑或操作,表示只要有一个答案正确,整个表达式就为真。
      • I()\mathbb{I}(\cdot): 指示函数,当内部表达式为真时取值为 1,否则为 0。
  • Rating and Percentile (for CodeForces):

    • 概念定义 (Conceptual Definition): CodeForces 平台使用类似 Elo 的评分系统来评估参赛者的水平。Rating 是一个数值分数,分数越高代表能力越强。Percentile 则表示该分数超过了百分之多少的参赛者。这两个指标能更直观地反映模型在编程竞赛社区中的真实水平。

5.3. 对比基线

论文将 FlowRL 与三种代表性的奖励最大化 RL 基线进行了比较:

  • REINFORCE++ (R++): 基础策略梯度算法的一个增强版本。

  • PPO: 当前 LLM 强化学习中最流行、最稳定的方法之一。

  • GRPO: PPO 的一种简化变体,去掉了评论家网络。

    选择这些基线是为了全面覆盖从基础到先进的奖励最大化算法,从而有力地证明 FlowRL 在范式上的优越性。所有基线和 FlowRL 都使用相同的主干网络 (backbone)、学习率和训练步数,以确保公平比较。

6. 实验结果与分析

6.1. 核心结果分析

实验结果清晰地表明,FlowRL 在数学和代码推理任务上均优于所有基线方法。

6.1.1. 数学推理结果

以下是原文 Table 1 的结果,展示了在六个数学基准上的 Avg@16 准确率:

Models AIME24 AIME25 AMC23 MATH500 Minerva Olympiad - | Avg
Qwen2.5-32B-Base, Max Response Len = 8K tokens
Backbone 4.58 2.08 28.59 52.48 26.99 21.37 22.68
R++ 14.79+10.21 9.17+7.08 52.65+24.06 44.35-8.13 17.37-9.62 24.52+3.15 27.14
PPO 26.87+22.29 20.41+18.33 76.40+47.81 69.17+16.69 28.79+1.80 37.90+16.53 43.25
GRPO 23.12+18.54 14.58+12.50 76.87+48.28 61.60+9.12 18.95-8.04 34.94+13.57 38.34
FlowRL 23.95+19.37 21.87+19.79 73.75+45.16 80.75+28.27 38.21+11.22 51.83+30.46 48.39
Qwen2.5-7B-Base, Max Response Len = 8K tokens
Backbone 4.38 2.08 30.78 54.47 22.38 24.03 23.02
R++ 11.04+6.66 5.41+3.33 66.71+35.93 54.25-0.22 24.37+1.99 27.33+3.30 31.52
PPO 9.38+5.00 7.29+5.21 63.43+32.65 57.98+3.51 26.53+4.15 27.25+3.22 31.98
GRPO 13.54+9.16 9.79+7.71 64.53+33.75 57.05+2.58 23.06+0.68 26.88+2.85 32.48
FlowRL 15.41+11.03 10.83+8.75 54.53+23.75 66.96+12.49 31.41+9.03 34.61+10.58 35.63

分析:

  • 一致的领先优势: 无论是在 7B 还是 32B 模型规模上,FlowRL 的平均分都最高。在 32B 模型上,FlowRL (48.39%) 相比最强的基线 PPO (43.25%) 取得了 5.1% 的显著相对提升,相比 GRPO (38.34%) 提升了 10.0%
  • 在难题上表现突出: FlowRLMATH-500Olympiad 等极具挑战性的数据集上取得了最大的性能增益。这表明其学习到的多样化推理策略在解决复杂问题时尤其有效。

6.1.2. 代码生成结果

以下是原文 Table 2 的结果,展示了在三个代码基准上的表现:

Models LiveCodeBench CodeForces HumanEval+
Avg@16 Pass@16 Rating Percentile Avg@16
DeepSeek-R1-Distill-Qwen-7B, Max Response Len = 8K tokens
Backbone 30.68 49.46 886.68 19.4% 80.90
R++ 30.46-0.22 52.68+3.22 1208.03+321.35 56.8%+37.4% 76.61-4.29
PPO 35.10+4.42 54.48+5.02 1403.07+516.39 73.7%+54.3% 82.32+1.42
GRPO 32.75+2.07 52.32+2.86 1313.82+427.14 67.1%+47.7% 80.13-0.77
FlowRL 37.43+6.75 56.27+6.81 1549.47+662.79 83.3%+63.9% 83.28+2.38

分析:

  • 全面超越: FlowRL 在所有三个代码基准的所有指标上都取得了最佳成绩。尤其是在 CodeForces 竞赛平台上,其 Rating (1549.47) 和 Percentile (83.3%) 远超其他方法,达到了有竞争力的程序员水平。
  • 泛化能力强: 实验结果表明 FlowRL 的优势不仅限于数学领域,其促进多样化探索的机制同样适用于需要创造性和逻辑严谨性的代码生成任务。

6.2. 消融实验/参数分析

6.2.1. 消融实验

作者进行了消融实验来验证 FlowRL 中关键组件的有效性,特别是重要性采样 (Importance Sampling, IS)

以下是原文 Table 3 的结果:

Method AIME 2024 AIME 2025 AMC 2023 MATH-500 Minerva Olympiad Avg
FlowRL 15.41 10.83 54.53 66.96 31.41 34.61 35.63
w/o IS 6.25 7.91 41.40 56.97 22.19 25.52 26.71
Zhang et al. [2025a] 10.41 6.66 53.75 66.50 30.97 33.72 33.67

分析:

  • 重要性采样的关键作用: 移除重要性采样 (w/o IS) 后,FlowRL 的平均性能从 35.63% 急剧下降到 26.71%。这证明了在 off-policy 训练设置中,修正新旧策略之间的分布差异至关重要。
  • 方法对比:Zhang et al. [2025a] 提出的将 GFlowNetsPPO 损失简单相加的方法相比,FlowRL 将重要性采样作为轨迹级别的权重,这种更紧密的集成方式效果更好。

6.2.2. 参数分析

作者对超参数 β\beta 进行了分析,该参数控制奖励分布的锐利度。下图(原文 Figure 3)展示了不同 β\beta 值下的平均性能。

Figure 3 | Ablation study on the \(\\beta\) in FlowRL. \(\\beta = 1 5\) (highlighted in blue) achieves the best performance.

分析:

  • 结果显示,当 β=15\beta=15 时,模型性能达到最佳。β\beta 太小(如 5)可能导致奖励信号不足,模型探索过于随机;β\beta 太大(如 30)则可能使分布过于尖锐,削弱了分布匹配带来的多样性优势,使其行为趋近于奖励最大化。这表明选择一个合适的 β\beta 对于平衡探索和利用非常重要。

6.3. 附加分析

6.3.1. 多样性分析

为了直接验证 FlowRL 是否真的能生成更多样的解决方案,作者使用 GPT4O-mini 来评估不同方法在 AIME 问题上生成的答案的多样性。

下图(原文 Figure 4)展示了多样性得分的对比:

Figure 4 | GPT-judged diversity scores on rollouts of AIME 24/25 problems. FlowRL generates more diverse solutions than \(\\mathrm { R } + +\) , GRPO, and PPO.

分析:

  • FlowRL 的多样性得分(2.28)显著高于所有基线方法,几乎是表现最好的基线 PPO(1.31)的两倍。
  • 这为论文的核心假设提供了强有力的直接证据:FlowRL分布匹配目标确实有效地促进了模式覆盖,使得模型能够探索和生成更多种类、更高质量的解题路径,而不是陷入单一的、重复的模式。

6.3.2. 案例研究

论文通过一个 AIME 数学题的具体案例,生动地展示了 GRPOFlowRL 在行为上的差异。

以下是原文 Table 4 的内容摘要:

Content (boxed = actions; "×k" = repeated; "." = omitted)
Question Let B be the set of rectangular boxes with surface area 54 and volume 23. Let r be the radius of the smallest sphere that can contain each box in B. If r² = p/q with gcd(p, q) = 1, find p + q.
GRPO ...denote a, b,c...2(ab+bc+ca)= 54,abc =23...
  ...AM-GM×3: AM-GM (1) ..AM-GM (2)
  ...identity loop ×2: loop(1) ….
  ...a = b = c (contradiction) ...back to (a+b+c)² ... no factorization .."
  </td>
</tr>
<tr>
  <td><b>FlowRL</b></td>
  <td>...let a, b,c with 2(ab+bc+ca)= 54,abc =23...
  ...a=b -> a³ - 27a + 46 = 0
  ...rational root a = 2
  ...factor (a − 2)(a² + 2a − 23)
  ...branch a = -1 + 2√6
  ...back-sub c = 23/a²... Answer 721
  </td>
</tr>

分析:

  • GRPO 的行为: 表现出典型的模式坍塌。它反复尝试使用常见的均值不等式 (AM-GM),但这条路走不通。它陷入了重复的尝试和错误的循环中,最终得出矛盾结论 (a=b=ca=b=c) 并失败。这表明它过度依赖于一个常见但不适用于此题的“主导模式”。
  • FlowRL 的行为: 展示了更灵活和多样化的策略。它做出了一个关键的、创造性的决策:假设对称性 (a=ba=b)。这个决策将问题简化为一个可解的三次方程,并最终通过因式分解和求解找到了正确答案。这表明 FlowRL 没有被单一的思路束缚,而是成功探索到了一条更优的、非显而易见的解题路径。

7. 总结与思考

7.1. 结论总结

本论文成功地提出并验证了一种名为 FlowRL 的新型强化学习框架,用于提升 LLM 的推理能力。其核心贡献在于将学习目标从传统的奖励最大化转变为奖励分布匹配

  • 通过引入一个可学习的配分函数并将标量奖励转换为目标概率分布,FlowRL 训练模型去最小化与该分布的反向 KL 散度。
  • 理论上,这等价于 GFlowNets 中的轨迹平衡目标,该目标天然地促进了对多样化、高奖励推理路径的探索,从而有效缓解了传统 RL 方法中的模式坍塌问题。
  • 实践中,通过引入长度归一化重要性采样FlowRL 克服了在长思维链推理任务中训练不稳定的挑战。
  • 在数学和代码推理基准上的大量实验表明,FlowRL 全面优于 PPOGRPO 等主流方法,并且多样性分析和案例研究也证实了其在生成多样化解决方案方面的显著优势。

7.2. 局限性与未来工作

尽管论文取得了显著成功,但仍存在一些潜在的局限性和值得探索的未来方向:

  • 配分函数 ZϕZ_{\phi} 的表达能力: 论文中使用了一个简单的 3 层 MLP 来近似配分函数。对于更复杂的问题空间,这个 MLP 的表达能力是否足够,以及如何设计更强大的 ZϕZ_{\phi} 网络,是一个值得研究的问题。
  • 超参数 β\beta 的敏感性: 实验表明 β\beta 的选择对性能有较大影响。如何自适应地调整 β\beta 或者降低算法对该超参数的敏感性,可能是未来的一个改进方向。
  • 计算开销: FlowRL 引入了额外的配分函数网络 ZϕZ_{\phi},这会带来一定的计算和内存开销。虽然 MLP 的开销相对较小,但在资源极其受限的场景下仍需考虑。
  • 更广泛的应用: FlowRL 的思想可以被推广到其他 LLM 应用领域,例如故事生成、对话系统等,在这些领域中,生成内容的多样性和创造性同样至关重要。

7.3. 个人启发与批判

  • 启发:

    1. “最优解” vs “解的分布”: 这篇论文给我最大的启发是,在许多复杂问题中,追求单一的“最优解”可能不是最佳策略。学习整个“优秀解的分布”可能带来更强的泛化能力和鲁棒性。这个思想不仅适用于 LLM 推理,也可能适用于机器人控制、药物设计等其他 AI 领域。
    2. 不同领域的思想融合: FlowRL 巧妙地将能量 기반 모델、GFlowNets 和传统强化学习的思想融合在一起,为解决 LLM 对齐问题提供了一个全新的、更具原则性的视角。这体现了跨领域知识融合的强大威力。
    3. 理论与实践的结合: 论文不仅提出了一个漂亮的理论框架(KL 散度最小化与轨迹平衡的等价性),还通过长度归一化和重要性采样等工程技巧解决了实际应用中的痛点,是理论指导实践、实践完善理论的典范。
  • 批判性思考:

    1. **奖励函数

相似论文推荐

基于向量语义检索推荐的相关论文。

暂时没有找到相似论文。