论文状态：已完成

LLaDA 1.5: Variance-Reduced Preference Optimization for Large Language Diffusion Models

发表：2025/05/26

大语言模型强化学习训练 (67)Masked Diffusion Models (1)方差减少优化 (1)LLaDA模型 (1)

原文链接 PDF 下载

价格：0.100000

已有 6 人读过

本分析由 AI 生成，可能不完全准确，请以原文为准。

TL;DR 精炼摘要

LLaDA 1.5提出了方差降低偏好优化（VRPO）方法，通过理论分析ELBO估计器方差并引入无偏方差降低策略如最优蒙特卡洛预算分配和对偶采样，显著提升了掩码扩散模型的人类偏好对齐效果，在数学、代码和对齐基准上均超越前代模型。

摘要

While Masked Diffusion Models (MDMs), such as LLaDA, present a promising paradigm for language modeling, there has been relatively little effort in aligning these models with human preferences via reinforcement learning. The challenge primarily arises from the high variance in Evidence Lower Bound (ELBO)-based likelihood estimates required for preference optimization. To address this issue, we propose Variance-Reduced Preference Optimization (VRPO), a framework that formally analyzes the variance of ELBO estimators and derives bounds on both the bias and variance of preference optimization gradients. Building on this theoretical foundation, we introduce unbiased variance reduction strategies, including optimal Monte Carlo budget allocation and antithetic sampling, that significantly improve the performance of MDM alignment. We demonstrate the effectiveness of VRPO by applying it to LLaDA, and the resulting model, LLaDA 1.5, outperforms its SFT-only predecessor consistently and significantly across mathematical (GSM8K +4.7), code (HumanEval +3.0, MBPP +1.8), and alignment benchmarks (IFEval +4.0, Arena-Hard +4.3). Furthermore, LLaDA 1.5 demonstrates a highly competitive mathematical performance compared to strong language MDMs and ARMs. Project page: https://ml-gsai.github.io/LLaDA-1.5-Demo/.

思维导图

论文精读

中文精读约 42 分钟读完 · 28,849 字

1. 论文基本信息

1.1. 标题

LLaDA 1.5: Variance-Reduced Preference Optimization for Large Language Diffusion Models

1.2. 作者

论文作者包括：Fengqi Zhu, Rongzhen Wang, Shen Nie, Xiaolu Zhang, Chunwei Wu, Jun Hu, Jun Zhou, Jianfei Chen, Yankai Lin, Ji-Rong Wen, Chongxuan Li。

作者隶属于多个机构：

中国人民大学高瓴人工智能学院 (Gaoling School of AI, Renmin University of China)
北京市大型模型与智能治理研究重点实验室 (Beijing Key Laboratory of Research on Large Models and Intelligent Governance)
教育部新一代智能搜索与推荐工程研究中心 (Engineering Research Center of Next-Generation Intelligent Search and Recommendation, MOE)
清华大学 (Tsinghua University)
蚂蚁集团 (Ant Group)

1.3. 发表期刊/会议

该论文作为预印本 (preprint) 发表在 arXiv 上。虽然其在相关领域的具体声誉和影响力需等待正式发表后评估，但 arXiv 是学术界快速分享最新研究成果的重要平台，特别是对于大型语言模型和扩散模型这类快速发展的领域。

1.4. 发表年份

2025年 (版本2发布于2025年5月25日)。

1.5. 摘要

尽管掩码扩散模型 (Masked Diffusion Models, MDMs)，如 LLaDA，为语言建模提供了一个有前景的新范式，但通过强化学习 (Reinforcement Learning, RL) 将这些模型与人类偏好对齐 (aligning) 的努力相对较少。这一挑战主要源于偏好优化 (preference optimization) 所需的基于证据下界 (Evidence Lower Bound, ELBO) 的似然估计 (likelihood estimates) 存在高方差 (high variance)。为了解决这个问题，我们提出了方差降低偏好优化 (Variance-Reduced Preference Optimization, VRPO)，这是一个形式化分析 ELBO 估计器方差，并推导出偏好优化梯度 (preference optimization gradients) 的偏差 (bias) 和方差界限的框架。在此理论基础上，我们引入了无偏方差降低策略 (unbiased variance reduction strategies)，包括最优蒙特卡洛预算分配 (optimal Monte Carlo budget allocation) 和对偶采样 (antithetic sampling)，这些策略显著改善了 MDM 对齐的性能。我们通过将 VRPO 应用于 LLaDA 展示了其有效性，由此产生的模型 LLaDA 1.5 在数学 (GSM8K +4.7)、代码 (HumanEval +3.0, MBPP +1.8) 和对齐基准 (IFEval +4.0, Arena-Hard +4.3) 上一致且显著地优于其仅经监督微调 (Supervised Fine-Tuning, SFT) 的前身。此外，LLaDA 1.5 在数学性能上与强大的语言 MDMs 和自回归模型 (Autoregressive Models, ARMs) 具有高度竞争力。

1.6. 原文链接

原文链接: https://arxiv.org/abs/2505.19223
PDF 链接: https://arxiv.org/pdf/2505.19223v2.pdf
发布状态: 预印本 (Preprint)

2. 整体概括

2.1. 研究背景与动机

2.1.1. 论文试图解决的核心问题

论文旨在解决掩码扩散模型 (Masked Diffusion Models, MDMs) 在进行人类偏好对齐 (human preference alignment) 时所面临的关键挑战：基于证据下界 (ELBO) 的对数似然 (log-likelihood) 估计器存在高方差 (high variance) 问题。这种高方差会严重影响偏好优化 (preference optimization) 过程的稳定性和效率。

2.1.2. 为什么这个问题在当前领域是重要的？现有研究存在哪些具体的挑战或空白 (Gap)？

MDMs 的崛起与对齐的重要性: 近年来，MDMs 在语言建模领域取得了显著进展，在某些任务上甚至能与自回归模型 (ARMs) 媲美或超越。然而，大型语言模型 (LLMs) 的最终落地应用，不仅需要强大的生成能力，更需要能够与人类价值观、指令和偏好对齐，以确保其有益性、无害性和实用性。传统的强化学习从人类反馈 (RLHF) 范式已成功应用于 ARMs 的对齐，但 MDMs 的对齐研究仍处于早期阶段。
MDMs 对齐的特殊挑战: MDMs 的对数似然是难以精确计算的，通常需要通过 ELBO 进行近似。这个 ELBO 本身是一个期望值，在实践中需要通过蒙特卡洛 (Monte Carlo) 采样来估计。这种“双重蒙特卡洛”估计 (doubly Monte Carlo estimation) 会引入额外的随机性，导致对数似然估计的高方差。当将这种高方差的似然估计用于偏好优化（例如在直接偏好优化 DPO 中）时，会使得损失函数和其梯度也具有高方差，从而导致训练不稳定、收敛缓慢甚至失败。
现有研究的空白: 大多数现有的 MDM 对齐方法倾向于将已有的对齐框架（如 DPO、PPO 等）直接适配到 MDMs 上，通过引入各种似然近似方法。然而，这些工作普遍缺乏对所引入的似然估计器方差的系统性理论分析，也未提出针对性的方差降低策略。此外，它们大多侧重于特定任务（如推理和代码生成），而对通用对齐任务的探索不足。

2.1.3. 这篇论文的切入点或创新思路是什么？

论文的创新思路在于：

系统化理论分析: 首次对基于 ELBO 的对数似然估计器在 DPO 框架下引入的偏差和方差进行了形式化分析，并证明了这些误差都受分数估计器 (preference score estimator) 方差的控制。
提出针对性方差降低策略: 基于理论分析，提出了一套无偏 (unbiased) 的方差降低策略，包括：
- 增加蒙特卡洛采样预算。
- 最优分配采样预算，即在时间步 (timesteps) 维度进行更多采样，而在每个时间步内只采样一个掩码数据。
- 采用对偶采样 (antithetic sampling)，在模型策略和参考策略的 ELBO 估计之间共享随机性，以利用它们之间的正相关性来进一步降低方差。
大规模实证验证: 将所提出的 VRPO 框架应用于一个领先的 8B 规模语言 MDM LLaDA，并在广泛的通用任务（数学、代码、对齐）上进行了全面的实证验证，而非局限于特定任务。

2.2. 核心贡献/主要发现

论文的主要贡献和发现包括：

理论框架 VRPO: 提出了 VRPO 框架，形式化分析了 ELBO 估计器方差如何影响 DPO 损失和梯度的偏差与方差，并提供了这些误差的数学界限（定理1和定理4）。这一理论洞察为 MDM 对齐中的方差问题提供了根本性解释。
无偏方差降低策略: 基于理论发现，设计并引入了三种无偏方差降低策略：增加采样预算、最优预算分配（即更多时间步采样，每个时间步一个掩码样本）、以及对偶采样。这些策略被理论证明可以有效降低分数估计器的方差（命题1和命题2），且不会引入偏差（命题4）。
LLaDA 1.5 的优越性能: 将 VRPO 应用于 LLaDA 模型，生成了 LLaDA 1.5。该模型在多个通用基准测试上取得了显著提升：
- 数学能力: GSM8K 准确率提升 4.7%，Math 提升 0.4%，GPQA 提升 3.6%。在数学任务上表现出高度竞争力，甚至在某些指标上达到最高水平（见 Figure 1）。
- 代码生成: HumanEval 提升 3.0%，MBPP 提升 1.8%。
- 对齐任务: IFEval 提升 4.0%，Arena-Hard 提升 4.3%，AlignBench 提升 0.5%，MTBench 提升 0.1%。这些结果有力地证明了 VRPO 在大规模 MDM 对齐中的有效性。
优化稳定性提升: 消融实验和损失曲线分析（Figure 5）表明，VRPO 策略显著降低了训练损失的变异性，使得优化过程更平滑、更稳定，并加速了收敛。
泛化能力与指导意义: 所提出的方差降低技术和分析不仅限于 DPO，也可推广到其他基于 ELBO 或需要比较两个相关 ELBO 的 MDM 对齐算法（如 PPO、GRPO），为未来 MDM 对齐研究提供了通用指导。

3. 预备知识与相关工作

3.1. 基础概念

3.1.1. 掩码扩散模型 (Masked Diffusion Models, MDMs)

概念定义: 掩码扩散模型 (Masked Diffusion Models, MDMs) 是一类生成模型，它通过模拟一个前向过程来逐步向数据（例如文本序列）中添加噪声（这里表现为 掩码 token），直到数据完全被噪声（完全掩码）淹没。然后，模型学习一个逆向过程，通过逐步 去噪 或 去掩码 来从噪声中恢复原始数据。与传统的扩散模型不同，MDMs 通常在离散空间中操作，用特殊的 [MASK] 标记替换原始 token。

工作原理:

前向过程 (Forward Process): 从原始输入 $y$ 开始，在前向过程的每一步，一部分 token 会被随机地替换为 [MASK] token。随着时间 $t$ （通常从0到1）的增加，掩码 的概率逐渐升高，最终在 $t=1$ 时所有 token 都被 掩码。这可以用一个条件分布 $q(y_t | t, y, x)$ 来描述，其中 $y_t$ 是在时间 $t$ 掩码后的序列， $y$ 是原始序列， $x$ 是可选的上下文/提示。
逆向过程 (Reverse Process): 模型学习一个 去掩码 网络（通常是一个 Transformer 编码器），给定一个部分 掩码 的序列 $y_t$ 和时间 $t$ ，它预测被 掩码 位置的原始 token。通过迭代地执行这个 去掩码 过程，模型可以从一个完全 掩码 的序列生成一个完整的、有意义的序列。

与自回归模型 (ARMs) 的区别:

自回归模型 (Autoregressive Models, ARMs) (如 GPT 系列，LLaMA 系列) 逐个 token 地生成序列，每个 token 的生成都依赖于它之前生成的所有 token。这种方式天生就适用于 左到右 的文本生成，但并行化受限。
MDMs 则可以并行地预测所有 掩码 位置的 token，这在理论上具有更高的并行效率。它通过对整个序列进行 去噪 来生成，而不是严格的序列化生成。

3.1.2. 证据下界 (Evidence Lower Bound, ELBO)

概念定义: 证据下界 (Evidence Lower Bound, ELBO) 是变分推断 (Variational Inference) 中的一个核心概念，用于近似难以直接计算的对数边缘似然 (log marginal likelihood) $\log p(y)$ 。由于直接优化 $\log p(y)$ 通常是棘手的，我们转而优化它的一个下界，即 ELBO。ELBO 可以看作是数据与模型之间 重构误差 (reconstruction error) 和 正则化项 (regularization term) 的平衡。在 MDMs 中，ELBO 被用来近似模型生成一个序列的对数似然 $\log \pi(y|x)$ ，其中 $\pi$ 是模型分布。

数学形式: 在 MDMs 中，ELBO 通常表示为： $\mathcal { B } _ { \pi } ( y | x ) \triangleq \mathbb { E } _ { t \sim \mathcal { U } [ 0 , 1 ] } \mathbb { E } _ { y _ { t } \sim q ( y _ { t } | t , y , x ) } \left[ \ell _ { \pi } ( y _ { t } , t , y | x ) \right] \le \log \pi ( y | x )$ 其中：

$\mathcal{B}_\pi(y|x)$ 是模型 $\pi$ 生成响应 $y$ 给定提示 $x$ 的 ELBO。
$\mathbb{E}_{t \sim \mathcal{U}[0,1]}$ 表示对 时间步 $t$ 在均匀分布 $\mathcal{U}[0,1]$ 上的期望。
$\mathbb{E}_{y_t \sim q(y_t | t, y, x)}$ 表示对 掩码数据 $y_t$ 在前向扩散过程 $q(y_t | t, y, x)$ 上的期望。
$\ell_\pi(y_t, t, y|x)$ 是 每一步的掩码预测损失 (per-step mask prediction loss)，它衡量了模型在给定部分掩码序列 $y_t$ 和时间 $t$ 的情况下，预测原始序列 $y$ 的准确性。

蒙特卡洛估计: 由于 ELBO 包含双重期望，直接计算是不可行的。实践中，它通过 双重蒙特卡洛方法 (doubly Monte Carlo method) 进行近似，即对时间步 $t$ 和给定时间步下的掩码数据 $y_t$ 都进行采样。

3.1.3. 偏好优化 (Preference Optimization)

概念定义: 偏好优化 (Preference Optimization) 是一类机器学习技术，旨在训练生成模型使其输出更符合人类的 偏好 (preferences)。在大型语言模型 (LLMs) 的背景下，这意味着模型生成的文本不仅要流畅、语法正确，还要与人类的指令意图、价值观、风格偏好保持一致，并且避免生成有害、偏见或不真实的内容。

目标: 核心目标是根据人类对模型输出的 排序 或 比较 数据（例如，人类选择 $y_w$ 优于 $y_l$ ），来调整模型参数，使得模型更有可能生成被人类偏好的输出。

3.1.4. 直接偏好优化 (Direct Preference Optimization, DPO)

概念定义: 直接偏好优化 (Direct Preference Optimization, DPO) 是一种简化且高效的 强化学习从人类反馈 (Reinforcement Learning from Human Feedback, RLHF) 的替代方法。传统的 RLHF 通常包括两个阶段：首先训练一个独立的 奖励模型 (reward model) 来量化人类偏好，然后使用 近端策略优化 (Proximal Policy Optimization, PPO) 等强化学习算法来优化生成模型以最大化这个奖励。DPO 的创新之处在于，它通过一个数学推导，将 奖励模型 和 强化学习 步骤结合成一个 单一的损失函数，从而 直接 优化生成模型，无需显式训练 奖励模型。

核心思想: DPO 损失函数直接利用人类偏好数据（例如，对于同一提示 $x$ ，人类更偏好响应 $y_w$ 而非 $y_l$ ）来调整模型的对数似然。它通过比较 当前模型 $\pi_\theta$ 和一个 固定参考模型 $\pi_{\mathrm{ref}}$ 在 $y_w$ 和 $y_l$ 上的对数似然比，来激励模型增加被偏好响应的相对概率。

DPO 损失函数: 核心是最小化以下损失： $\ell _ { \mathrm { DPO } } ( x , y _ { w } , y _ { l } ; \theta ) \triangleq - \log \sigma \left( \beta \log \frac { \pi _ { \theta } ( y _ { w } \mid x ) } { \pi _ { \mathrm { ref } } ( y _ { w } \mid x ) } - \beta \log \frac { \pi _ { \theta } ( y _ { l } \mid x ) } { \pi _ { \mathrm { ref } } ( y _ { l } \mid x ) } \right)$ 其中：

$x$ 是提示 (prompt)。
$y_w$ 是人类偏好的响应 (preferred response)。
$y_l$ 是人类不偏好的响应 (less preferred response)。
$\pi_\theta(y|x)$ 是当前模型的对数似然。
$\pi_{\mathrm{ref}}(y|x)$ 是参考模型的对数似然，通常是一个经过 监督微调 (SFT) 且参数固定的模型。
$\beta$ 是一个超参数，控制 KL 散度 (KL divergence) 正则化的强度。
$\sigma(\cdot)$ 是 Sigmoid 函数。

3.1.5. 蒙特卡洛方法 (Monte Carlo Method)

概念定义: 蒙特卡洛方法 (Monte Carlo method) 是一大类使用随机采样来估计数值结果的计算算法。它特别适用于解决那些难以用确定性算法解决的数学问题，例如计算复杂的积分、期望值或模拟随机过程。

工作原理: 基本思想是，如果一个量可以通过某个随机变量的期望值来表示，那么可以通过从该随机变量的分布中抽取大量样本，然后计算这些样本的平均值来近似这个期望值。样本数量越多，近似结果通常越准确。

在本文中的应用: 在 MDMs 中，ELBO 的计算涉及对时间步 $t$ 和掩码数据 $y_t$ 的期望。由于这些期望难以解析计算，因此使用 蒙特卡洛采样 来近似它们。

3.1.6. 方差 (Variance)

概念定义: 在概率论和统计学中，方差 (Variance) 是衡量随机变量或一组数据离散程度的指标。它表示随机变量的取值与期望值（均值）之间的 平均平方差。方差越大，数据点离均值越远，数据的波动性或不确定性就越大。

公式: 对于一个随机变量 $X$ ，其方差 $\mathbb{V}[X]$ 定义为： $\mathbb{V}[X] = \mathbb{E}[(X - \mathbb{E}[X])^2] = \mathbb{E}[X^2] - (\mathbb{E}[X])^2$ 其中 $\mathbb{E}[X]$ 是 $X$ 的期望值。

在本文中的意义: 高方差的似然估计会导致偏好优化过程中损失函数和梯度的不稳定性，使得模型训练难以收敛或收敛到次优解。

3.1.7. 偏差 (Bias)

概念定义: 在统计学中，偏差 (Bias) 是指一个估计量的 期望值 (expected value) 与它所估计的 真实参数值 (true parameter value) 之间的差异。如果一个估计量的期望值等于真实参数值，则称该估计量是 无偏的 (unbiased)；否则，它是 有偏的 (biased)。

公式: 对于一个参数 $\theta$ 的估计量 $\hat{\theta}$ ，其偏差 $\mathrm{Bias}(\hat{\theta})$ 定义为： $\mathrm{Bias}(\hat{\theta}) = \mathbb{E}[\hat{\theta}] - \theta$ 在本文中的意义: 即使 ELBO 估计器本身是无偏的，但由于 DPO 损失函数中包含非线性操作（如 Sigmoid 函数和 Log 函数），这些非线性变换会导致最终损失函数或其梯度的估计变得有偏。减少底层估计器的方差可以间接减少这种由非线性变换引入的偏差。

3.2. 现有对齐方法

传统的 强化学习从人类反馈 (RLHF) 范式通常包括两个阶段：

3.2.1. 奖励建模 (Reward Modeling)

原理: 在第一阶段，通过收集人类对模型生成响应的偏好数据，训练一个 奖励模型 (reward model) $r_\phi$ 。这个模型的目标是学习一个函数，能够为任何给定的提示 $x$ 和响应 $y$ 对分配一个标量分数，分数越高表示响应越受人类偏好。

训练目标: 奖励模型 $r_\phi$ 通常通过最小化以下损失函数来训练： $\mathcal { L } _ { \mathrm { Reward } } ( \phi ) \triangleq - \mathbb { E } _ { ( x , y _ { w } , y _ { l } ) \sim \mathcal { D } } \left[ \log \sigma \left( r _ { \phi } ( x , y _ { w } ) - r _ { \phi } ( x , y _ { l } ) \right) \right]$ 其中：

$\mathcal{D}$ 是一个包含人类偏好比较的静态数据集，每个样本包括一个提示 $x$ 、一个被偏好的响应 $y_w$ 和一个不被偏好的响应 $y_l$ 。
$r_\phi(x, y)$ 是 奖励模型 $r_\phi$ 对给定提示 $x$ 和响应 $y$ 的评分。
$\sigma(\cdot)$ 是 Sigmoid 函数。
这个损失函数鼓励 奖励模型 为被偏好的响应 $y_w$ 分配比不被偏好的响应 $y_l$ 更高的分数。

3.2.2. 强化学习 (Reinforcement Learning, RL)

原理: 在第二阶段，语言模型策略 (language model policy) $\pi_\theta(y|x)$ （即生成响应 $y$ 给定提示 $x$ 的概率分布）被视为一个 智能体 (agent)，其目标是最大化 奖励模型 $r_\phi$ 提供的奖励。为了防止模型在优化奖励时偏离其原始行为（如 SFT 阶段学到的通用能力），通常会引入 KL 散度 (KL divergence) 正则化项，使其不要与一个 固定参考策略 $\pi_{\mathrm{ref}}$ 偏离太远。

优化目标: $\operatorname* { m a x } _ { \pi _ { \theta } } \mathbb { E } _ { x \sim \mathcal { D } , \ y \sim \pi _ { \theta } ( \cdot \vert x ) } \left[ r _ { \phi } ( x , y ) \right] - \beta \mathbb { D } _ { \mathrm { KL } } \left( \pi _ { \theta } ( \cdot \vert x ) \Vert \pi _ { \mathrm { ref } } ( \cdot \vert x ) \right)$ 其中：

$\pi_\theta(y|x)$ 是当前要优化的语言模型策略。
$r_\phi(x, y)$ 是预训练好的 奖励模型。
$\pi_{\mathrm{ref}}(y|x)$ 是一个固定的 参考策略 (reference policy)，通常是一个经过 监督微调 (SFT) 的模型。
$\beta$ 是一个系数，控制 KL 散度 正则化的强度，防止策略过度偏离。
$\mathbb{D}_{\mathrm{KL}}(\cdot \Vert \cdot)$ 是 KL 散度，衡量两个概率分布之间的差异。

3.2.3. 直接偏好优化 (Direct Preference Optimization, DPO)

如上文 3.1.4 节所述，DPO 通过一个单一的、理论上推导出的损失函数，直接在偏好数据上优化语言模型，避免了显式 奖励模型 训练和复杂的 强化学习 过程。其损失函数为： $\ell _ { \mathrm { DPO } } ( x , y _ { w } , y _ { l } ; \theta ) \triangleq - \log \sigma \left( \beta \log \frac { \pi _ { \theta } ( y _ { w } \mid x ) } { \pi _ { \mathrm { ref } } ( y _ { w } \mid x ) } - \beta \log \frac { \pi _ { \theta } ( y _ { l } \mid x ) } { \pi _ { \mathrm { ref } } ( y _ { l } \mid x ) } \right)$ 这使得 DPO 在实践中更简单、更稳定，并且在经验上表现良好。

3.3. 掩码扩散模型 (MDMs) 中的似然估计

MDMs 的核心挑战之一是其 对数似然 $\log \pi(y|x)$ 并不像 自回归模型 (ARMs) 那样可以直接通过模型的前向传递来计算。相反，它通常需要通过其 证据下界 (ELBO) 来近似。

3.3.1. ELBO 近似对数似然

ELBO 的定义如 3.1.2 节所示： $\mathcal { B } _ { \pi } ( y | x ) \triangleq \mathbb { E } _ { t \sim \mathcal { U } [ 0 , 1 ] } \mathbb { E } _ { y _ { t } \sim q ( y _ { t } | t , y , x ) } \left[ \ell _ { \pi } ( y _ { t } , t , y | x ) \right] \le \log \pi ( y | x )$ 其中 $\ell_\pi$ 是 每一步的掩码预测损失。论文在附录 A 中详细阐述了 $\ell_\pi$ 的具体形式，指出有两种常见且等价的近似形式：

基于时间步 $t$ 连续均匀采样的公式 (Eq. (12)): $\ell _ { \boldsymbol \pi } ( y _ { t } , t , y | x ) \triangleq \left[ \frac { 1 } { t } \sum _ { i = 1 } ^ { L } \mathbf 1 [ y _ { t } ^ { i } = \mathbf M ] \log p _ { \boldsymbol \theta } ( y ^ { i } | y _ { t } , x ) \right]$
基于 掩码 token 数量 $l$ 离散均匀采样的公式 (Eq. (14)): $\ell _ { \boldsymbol { \pi } } ^ { \prime } ( y _ { l } , l , y | x ) \triangleq \left[ \frac { L } { l } \sum _ { i = 1 } ^ { L } \mathbf { 1 } [ y _ { l } ^ { i } = \mathbf { M } ] \log p _ { \theta } ( y ^ { i } | y _ { l } , x ) \right]$ 其中 $l$ 是从 $\{1, 2, \ldots, L\}$ 中均匀采样的 掩码 token 数量， $y_l$ 是 掩码 $l$ 个 token 后的序列。论文指出，虽然两者期望上等价，但在实践中，公式 (14) 通常具有更低的方差，因为它确定性地 掩码 $l$ 个 token，而不是依赖于 掩码 概率 $t$ 的随机性。因此，本文实践中采用公式 (14) 作为对数似然估计器。

3.3.2. 双重蒙特卡洛估计

ELBO 的计算涉及两个嵌套的期望：对外层 时间步 或 掩码 token 数量的期望，以及对内层 掩码数据 $y_t$ （或 $y_l$ ）的期望。在实践中，这两个期望都必须通过 蒙特卡洛采样 来近似。具体而言，从均匀分布 $\mathcal{U}[0,1]$ 中采样 $n_t$ 个 时间步 $t^{(j)}$ ，并对每个 时间步 $t^{(j)}$ ，从前向过程 $q(y_t | t^{(j)}, y)$ 中采样 $n_{y_t}$ 个 掩码数据 $y_t^{(k)}$ 。最终的 ELBO 估计器 $\widehat{\mathcal{B}}_\pi(y)$ 为： $\widehat { B } _ { \pi } ( y ) \triangleq \frac { 1 } { n _ { t } } \sum _ { j = 1 } ^ { n _ { t } } \frac { 1 } { n _ { y _ { t } } } \sum _ { k = 1 } ^ { n _ { y _ { t } } } \ell _ { \pi } ( y _ { t ^ { ( j ) } } ^ { ( k ) } , t ^ { ( j ) } , y )$ 其中 $n = n_t \times n_{y_t}$ 是总的 掩码数据 样本数。这种 双重蒙特卡洛 估计虽然是 无偏的，但其方差会随着 $n$ 的减小而增大，成为 DPO 优化过程中的主要挑战。

3.3.3. LLaDA (Large Language Diffusion Models)

LLaDA 是本文所采用的基座模型，它是一个 80 亿参数 (8B-parameter) 的 掩码扩散模型 (Masked Diffusion Model)，专门用于语言生成。

预训练: 在 2.3 万亿 token 的数据集上进行预训练。
监督微调 (SFT): 在 450 万对 SFT 数据上进行微调。
能力: 具有与同等规模的 自回归模型 (如 LLaMA 3) 相媲美的可扩展性、上下文学习和指令遵循能力。

3.4. 技术演进与差异化分析

3.4.1. 技术演进

扩散模型起源: 扩散模型最初由 Sohl-Dickstein 等人 (2015) 提出，并在图像生成领域取得了巨大成功 (如 DDPM、GLIDE)。它们通过在前向过程逐步添加高斯噪声，再通过逆向过程学习去噪来生成数据。
离散扩散模型: 针对文本等离散数据，扩散模型被扩展到离散状态空间 (如 Denoising Diffusion Probabilistic Models for discrete data)，使用 掩码 或 类别噪声 代替高斯噪声。
掩码扩散模型 (MDMs) 用于语言: MDMs 进一步简化，将 掩码 作为主要噪声形式。 $Lou et al. (2023)$ 、Sahoo et al. (2024) 等工作提出了高效训练 MDMs 的简化目标，使其在语言建模中达到与 ARMs 相当甚至更优的性能。
MDMs 的扩展和应用: 后续工作探索了 MDMs 的可扩展性 (Nie et al., 2024)，包括从头开始训练 (Nie et al., 2025) 或从预训练 ARMs 进行适配 (Gong et al., 2024)，展现了在各种下游任务中的竞争力。
对齐技术: 随着 LLMs 的发展，对齐 成为关键技术，RLHF 范式 (PPO、DPO 等) 被广泛应用于 ARMs。

3.4.2. 差异化分析

与现有 MDM 对齐工作的对比:
- Zekri and Boullé (2025): 提出了一种通用的策略梯度方法，利用离散扩散模型逆向过程的 去噪 分布。
- Borso et al. (2025): 将离散扩散视为连续时间 马尔可夫链，并引入 DPO 变体，但在小规模二元序列生成上验证。
- Zhao et al. (2025); Yang et al. (2025); Tang et al. (2025): 将每个 token 步骤视为一个 动作，开发基于 GRPO 的方法来增强推理能力。
- Huang et al. (2025): 提出 GRPO 变体，将中间扩散步骤视为 RL 轨迹，专注于推理和代码生成。
- Gong et al. (2025): 提出基于 GRPO 的代码生成算法，引入 耦合采样 方差降低技术，可与 VRPO 互补。
本文工作的核心差异点:
1. 理论分析深度: 相比于大多数直接适配现有框架的工作，本文对 ELBO 估计器在 DPO 中引入的偏差和方差进行了系统且形式化的理论分析，明确指出了这些误差受 分数估计器 方差的控制。
2. 通用性与任务范围: 本文的方法是基于 DPO 框架和 ELBO 对数似然近似，这使其成为 扩散模型 的一个自然选择。并且，VRPO 旨在解决 ELBO 估计器的普遍性方差问题，因此其提出的方差降低策略具有更强的通用性，并在一系列 通用对齐任务（包括数学、代码和各种对齐基准）上进行了大规模验证，而非仅限于特定任务（如推理或代码）。
3. 无偏性与实用性: VRPO 提出的方差降低策略（最优预算分配、对偶采样）不仅有理论保证（无偏且降低方差），而且在实际实现中成本较低，易于集成。
  
  总之，本文通过对 MDMs 对齐中 ELBO 估计方差问题的深入理论剖析，提出了通用且实用的方差降低框架 VRPO，并在大规模模型和多样化任务上进行了全面验证，为 MDM 的 RLHF 奠定了坚实基础。

4. 方法论

本文研究如何使用 DPO 框架来对齐 MDMs。由于 MDMs 的精确 对数似然 是难以计算的，因此使用 ELBO 估计器进行近似。作者证明了由此产生的损失函数及其梯度的偏差和方差主要由一个 分数估计器 (score estimator) 的方差（该估计器是四个 ELBO 的线性组合）决定。基于此，提出了 方差降低偏好优化 (Variance-Reduced Preference Optimization, VRPO)，整合了多种无偏方差降低技术以实现更好的对齐。

4.1. 方法原理

4.1.1. 核心思想

当我们将 DPO 框架应用于 掩码扩散模型 (MDMs) 时，需要用 ELBO 估计来替代 DPO 损失函数中所需的精确 对数似然。这个 ELBO 估计本身是通过 双重蒙特卡洛采样 获得的，这会引入额外的 随机性 (randomness)。这种 随机性 导致最终的 DPO 损失及其梯度的估计具有高 方差 (variance)，并且由于损失函数中的非线性操作（如 log sigmoid），还会引入 偏差 (bias)。

VRPO 的核心思想是，通过 形式化分析，我们发现这些 偏差 和 方差 都主要由一个称为 分数估计器 的 方差 所控制。因此，如果能有效地降低 分数估计器 的 方差，就能同时缓解 DPO 损失和梯度的 偏差 与 方差 问题，从而使 MDMs 的对齐训练更稳定、更有效。

4.1.2. 理论基础与直觉

非线性变换的偏差和方差: 即使一个随机变量 $X$ 是其期望 $\mathbb{E}[X]$ 的无偏估计，但经过非线性函数 $f(\cdot)$ 变换后， f(X) 通常不再是 $f(\mathbb{E}[X])$ 的无偏估计。更糟糕的是，其方差也会增加。在 DPO 中，ELBO 估计器是 对数似然 的无偏估计，但 DPO 损失函数中的 $\log \sigma(\cdot)$ 是一个非线性函数，这使得最终的损失函数估计变得有偏且方差大。Figure 2(a) 直观地展示了这一点：log sigmoid 函数的非线性特性导致了 $\mathbb{E}[\log \sigma(X)]$ 和 $\log \sigma(\mathbb{E}[X])$ 之间的差距，即 偏差。
方差作为控制者: 论文的理论分析（Theorem 1）表明，这个 偏差 和 方差 的大小与作为输入的 分数估计器 的 方差 直接相关。Figure 2(b) 进一步验证了，当输入 $X$ 的 方差 减小时，log sigmoid 变换后的 偏差 和 方差 都会单调减少。这提供了一个关键的直觉：降低 分数估计器 的 方差 是解决问题的根本途径。
VRPO 的策略: 基于上述直觉，VRPO 提出了一系列有理论支持的方差降低技术，例如增加采样数量、优化采样分配、以及利用 对偶采样 技术，所有这些都旨在直接减少 分数估计器 的 方差，从而间接优化 DPO 损失和梯度的统计特性。

4.2. 核心方法详解

4.2.1. DPO 中 ELBO 的替代

原始 DPO 损失 (如 3.1.4 节所示) 依赖于精确的 对数似然 $\log \pi_\theta(y|x)$ ，这在 MDMs 中是不可求的。因此，论文将 对数似然 替换为其 证据下界 (ELBO) 的估计。

首先，DPO 损失函数中的核心项是模型与参考模型之间的对数似然比之差。我们将精确的 对数似然 $\log \pi(y|x)$ 替换为其 ELBO $\mathcal{B}_\pi(y|x)$ ，得到 ELBO-based DPO 损失： $\ell _ { \mathrm { DPO-E } } ( y _ { w } , y _ { l } ; \theta ) \triangleq - \log \sigma \left( \beta \left( \mathcal { B } _ { \pi _ { \theta } } ( y _ { w } ) - \mathcal { B } _ { \pi _ { \mathrm { ref } } } ( y _ { w } ) \right) - \beta \left( \mathcal { B } _ { \pi _ { \theta } } ( y _ { l } ) - \mathcal { B } _ { \pi _ { \mathrm { ref } } } ( y _ { l } ) \right) \right)$ 其中：

$y_w, y_l$ 分别是偏好和不偏好的响应。
$\mathcal{B}_{\pi_\theta}(y)$ 是当前模型 $\pi_\theta$ 生成 $y$ 的 ELBO。
$\mathcal{B}_{\pi_{\mathrm{ref}}}(y)$ 是 参考策略 $\pi_{\mathrm{ref}}$ 生成 $y$ 的 ELBO。
红框中的部分被称为 ELBO-based preference score，记作 $s_\theta(y_w, y_l)$ 。

在实践中，每个 ELBO 项 $\mathcal{B}_\pi(y)$ 都需要通过 双重蒙特卡洛采样 进行估计，得到 $\widehat{\mathcal{B}}_\pi(y)$ (如 3.3.2 节所示)。因此，实际用于优化的损失函数是其 估计形式： $\widehat { \ell } _ { \mathrm { DPO-E } } ( y _ { w } , y _ { l } ; \theta ) \triangleq - \log \sigma \left( \beta \left( \widehat { \mathcal { B } } _ { \pi _ { \theta } } ( y _ { w } ) - \widehat { \mathcal { B } } _ { \pi _ { \mathrm { ref } } } ( y _ { w } ) \right) - \beta \left( \widehat { \mathcal { B } } _ { \pi _ { \theta } } ( y _ { l } ) - \widehat { \mathcal { B } } _ { \pi _ { \mathrm { ref } } } ( y _ { l } ) \right) \right)$ 其中：
红框中的部分被称为 估计的分数 (estimated score)，记作 $\hat{s}_\theta(y_w, y_l)$ 。
$S_{\hat{s}|y_w, y_l}$ 表示此估计中涉及的随机采样过程。

挑战: 即使 $\hat{s}_\theta(y_w, y_l)$ 是 $s_\theta(y_w, y_l)$ 的 无偏估计 (如附录 B.2.1 节命题3所证明)，但由于 $\log \sigma(\cdot)$ 的 非线性 特性， $\widehat{\ell}_{\mathrm{DPO-E}}$ 并不是 $\ell_{\mathrm{DPO-E}}$ 的 无偏估计，并且会引入额外的 方差。Figure 2(a) 直观地展示了这种 非线性变换 导致的 偏差。

4.2.2. 方差对损失偏差和方差的影响 (Theorem 1)

论文通过形式化分析，建立了 估计损失 $\widehat{\ell}_{\mathrm{DPO-E}}$ 的 偏差 和 方差 与 分数估计器 $\hat{s}_\theta$ 的 方差 之间的关系。

定理 1: 给定一对偏好数据 $y_w, y_l$ ，在 分数估计 过程中 随机采样 所导致的 $\widehat { \ell } _ { \mathrm { DPO-E } } ( y _ { w } , y _ { l } ; \theta )$ 的 偏差 和 方差 可以被界定为： $\begin{array} { r l } { \mathbb { E } _ { S _ { \delta | y _ { w } , y _ { l } } } \bigg [ \bigg | \ell _ { \mathrm { DPO-E } } ( y _ { w } , y _ { l } ; \theta ) - \widehat { \ell } _ { \mathrm { DPO-E } } ( y _ { w } , y _ { l } ; \theta ) \bigg | \bigg ] \leq \sqrt { \mathbb { V } _ { S _ { \delta | y _ { w } , y _ { l } } } \big [ \hat { s } _ { \theta } ( y _ { w } , y _ { l } ) \big ] } , } & { \quad \quad \quad \quad \quad \quad \quad \quad \quad \quad \quad \quad \quad \quad \quad \quad \quad \quad \quad (9) } \\ { \mathbb { V } _ { S _ { \delta | y _ { w } , y _ { l } } } \bigg [ \widehat { \ell } _ { \mathrm { DPO-E } } ( y _ { w } , y _ { l } ; \theta ) \bigg ] \leq 4 \mathbb { E } _ { y _ { w } , y _ { l } } \bigg [ \mathbb { V } _ { S _ { \delta | y _ { w } , y _ { l } } } \big [ \hat { s } _ { \theta } ( y _ { w } , y _ { l } ) \big ] \bigg ] . } & { \quad \quad \quad \quad \quad \quad \quad \quad \quad \quad \quad \quad \quad \quad \quad \quad \quad \quad \quad (10) } \end{array}$ 符号解释:

$\mathbb{E}_{S_{\delta|y_w, y_l}}[\cdot]$ 表示对 分数估计 中的 随机采样 $S_{\delta|y_w, y_l}$ 的期望。
$|\ell_{\mathrm{DPO-E}} - \widehat{\ell}_{\mathrm{DPO-E}}|$ 是 真实损失 和 估计损失 之间 绝对偏差 的期望。
$\mathbb{V}_{S_{\delta|y_w, y_l}}[\widehat{\ell}_{\mathrm{DPO-E}}]$ 是 估计损失 的 方差。
$\mathbb{V}_{S_{\delta|y_w, y_l}}[\hat{s}_\theta(y_w, y_l)]$ 是 分数估计器 $\hat{s}_\theta$ 的 方差。

核心洞察: 定理 1 表明，估计损失 的 偏差 和 方差 都与其 分数估计器 的 方差 成正相关。这意味着，通过降低 分数估计器 的 方差，我们可以同时有效地减少 损失 的 偏差 和 方差。 Figure 2(b) 的玩具示例通过实证曲线进一步支持了这一理论发现，显示 log sigmoid 变换后的 偏差 和 方差 均随输入 方差 的增加而单调增加。

4.2.3. VRPO 的方差降低策略

基于上述理论洞察，VRPO 提出了一套系统的方差降低策略，其目标是直接减少 分数估计器 $\hat{s}_\theta(y_w, y_l)$ 的 方差。VRPO 的流程如图 3 所示。

下图（原文 Figure 3）展示了 VRPO 的工作原理：

Figure 3: Illustration of VRPO. We compare VRPO (right) with VRPO without optimal allocation and antithetic sampling (left). VRPO allocates the sampling budget across timesteps to sample only one mas… 该图像是图3的示意图，比较了未使用最优分配和对偶采样的VRPO（左）与使用该策略的VRPO（右）。右侧VRPO在时间步间分配采样预算，仅采样一个掩码数据，并在成对的ELBO之间共享蒙特卡洛样本，以计算损失。

Figure 3: Illustration of VRPO. We compare VRPO (right) with VRPO without optimal allocation and antithetic sampling (left). VRPO allocates the sampling budget across timesteps to sample only one masked data per timestep (indicated by red arrows) and shares Monte Carlo samples between paired ELBOs (highlighted with the red annotations above the blocks).

VRPO 包含以下三个主要技术：

增加采样预算 (Sampling budget): 策略: 增加用于估计每个 ELBO 的总蒙特卡洛样本数 $n = n_t \times n_{y_t}$ 。 原理: 根据 蒙特卡洛 估计的基本性质，增加样本数量是降低估计器方差的直接方法。 理论支持 (命题 1(i)): ELBO 估计器 $\widehat{\mathcal{B}}_\pi(y)$ 的方差 $\mathbb{V}\widehat{\mathcal{B}}_\pi(y)$ 与总样本数 $n$ 的倒数成正比，即 $\mathbb{V}\widehat{\mathcal{B}}_\pi(y) = \Theta(\frac{1}{n})$ 。
最优分配采样预算 (Optimal allocation): 策略: 在固定总预算 $n$ 的情况下，将所有采样预算分配给 时间步 采样，即设置 $n_t = n$ 和 $n_{y_t} = 1$ （每个 时间步 只采样一个 掩码数据）。 原理: ELBO 的 双重蒙特卡洛 估计包含两个来源的方差：时间步 间的方差和 每个时间步内掩码数据 的方差。论文的附录 B.1.5 (引理 5) 详细分析了 ELBO 估计器 $\widehat{\mathcal{B}}_\pi(y)$ 的方差为： $\mathbb { V } \widehat { \mathcal { B } } _ { \pi } ( y ) = \frac { 1 } { n _ { t } } \underbrace { \mathbb { V } _ { t } \mathbb { E } _ { y _ { t } \mid t , y } \ell _ { \pi } ( y _ { t } , t , y ) } _ { \triangleq V _ { t } } + \frac { 1 } { n _ { t } n _ { y _ { t } } } \underbrace { \mathbb { E } _ { t } \mathbb { V } _ { y _ { t } \mid t , y } \ell _ { \pi } ( y _ { t } , t , y ) } _ { \triangleq V _ { y _ { t } } }$ 符号解释:
- $V_t$ 是 时间步 间引入的方差成分。
- $V_{y_t}$ 是 每个时间步内掩码数据 引入的方差成分。
- $n_t$ 是 时间步 的采样数量。
- $n_{y_t}$ 是 每个时间步内掩码数据 的采样数量。通过将 $n = n_t \times n_{y_t}$ 代入，可以发现将更多的预算分配给 $n_t$ （即增加 $n_t$ 并减少 $n_{y_t}$ ）可以更有效地降低总方差。 理论支持 (命题 1(ii)): 在给定总预算 $n$ 的情况下，当 $n_t = n, n_{y_t} = 1$ 时， $\mathbb{V}\widehat{\mathcal{B}}_\pi(y)$ 最小化。直观来说，时间步 之间的变异性通常大于 每个时间步内掩码数据 的变异性，因此在 时间步 上进行更广泛的采样更重要。
对偶采样 (Antithetic sampling): 策略: 在计算 ELBO-based preference score $\hat{s}_\theta(y_w, y_l)$ 时，当前策略 $\pi_\theta$ 的 ELBO 估计 $\widehat{\mathcal{B}}_{\pi_\theta}(y)$ 和 参考策略 $\pi_{\mathrm{ref}}$ 的 ELBO 估计 $\widehat{\mathcal{B}}_{\pi_{\mathrm{ref}}}(y)$ 之间 共享 相同的蒙特卡洛样本（包括 时间步 采样 $S_t$ 和 掩码数据 采样 $S_{y_t|y}$ ）。 原理: 分数估计器 $\hat{s}_\theta(y_w, y_l)$ 的方差可以分解为： $\mathbb { V } \hat { s } _ { \theta } ( y _ { w } , y _ { l } ) = \beta ^ { 2 } \displaystyle \sum _ { y \in \{ y _ { w } , y _ { l } \} } \Big [ \mathbb { V } \widehat { B } _ { \pi _ { \theta } } ( y ) + \mathbb { V } \widehat { B } _ { \pi _ { \mathrm { ref } } } ( y ) - 2 \mathrm { Corr } \Big ( \widehat { B } _ { \pi _ { \theta } } ( y ) , \widehat { B } _ { \pi _ { \mathrm { ref } } } ( y ) \Big ) \sqrt { \mathbb { V } \widehat { B } _ { \pi _ { \theta } } ( y ) \mathbb { V } \widehat { B } _ { \pi _ { \mathrm { ref } } } ( y ) } \Big ] . \quad (11)$ 符号解释:
- $\mathrm{Corr}(\cdot, \cdot)$ 表示两个随机变量之间的 相关系数。当 当前策略 $\pi_\theta$ 和 参考策略 $\pi_{\mathrm{ref}}$ 足够接近时，它们的 ELBO 估计 $\widehat{\mathcal{B}}_{\pi_\theta}(y)$ 和 $\widehat{\mathcal{B}}_{\pi_{\mathrm{ref}}}(y)$ 之间会存在 正相关。对偶采样 通过强制共享随机性，可以显著增强这种 正相关性 (即 $\mathrm{Corr}(\cdot, \cdot) > 0$ )。从公式 (11) 可以看出，当 相关系数 为正时，方差项会被减去，从而降低 分数估计器 的总方差。这是一种“免费午餐”式的方差降低，因为它不增加额外的计算成本。 理论支持 (命题 2): 当 蒙特卡洛样本（ $S_t$ 和 $\{S_{y_t(j)|y}\}$ ）在 $\widehat{\mathcal{B}}_{\pi_\theta}(y)$ 和 $\widehat{\mathcal{B}}_{\pi_{\mathrm{ref}}}(y)$ 之间 共享 且它们呈 正相关 时，共享 蒙特卡洛样本 会比使用独立样本产生更低的 $\mathbb{V}\hat{s}_\theta(y_w, y_l)$ 。

计算成本:

增加采样预算 (策略 1) 会直接增加 FLOPs，例如，如果 $n=8$ ，则计算量增加 8 倍。
最优分配 (策略 2) 只是重新分配现有样本，不增加额外计算成本。
对偶采样 (策略 3) 通过重用样本，也不增加额外计算成本。

4.2.4. VRPO 的无偏性 (Proposition 4)

命题 4 (VRPO 的无偏性): 在 VRPO 中采用的方差降低技术下，分数估计器 $\hat{s}_\theta(y_w, y_l)$ 仍然是 真实分数 $s_\theta(y_w, y_l)$ 的 无偏估计。 证明概述: 采样预算 和 最优分配 策略不会改变 ELBO 估计的 无偏性，因此也不会改变 分数估计器 的 无偏性。对偶采样 仅是共享随机数，根据 期望的线性性质，它也不会引入 偏差。

4.2.5. 梯度分析 (Theorem 4 & Proposition 5)

论文还对 估计梯度 的 偏差 和 方差 进行了类似分析，并证明 VRPO 的技术同样能有效降低这些误差。

假设 1 (每步掩码预测损失梯度的有界性): 每步掩码预测损失 $\ell_{\pi_\theta}(y_t, t, y)$ (公式 (4)) 的梯度 $\nabla_\theta \ell_{\pi_\theta}$ 是有界的，即存在一个常数 $0 \le C < \infty$ ，使得其 L2 范数 $\|\nabla_\theta \ell_{\pi_\theta}\|_2 \le C$ 。这是一个在实践中合理的假设。

推论 1 (偏好分数估计器梯度的有界性): 在假设 1 下，偏好分数估计器 $\hat{s}_\theta(y_w, y_l)$ 的梯度 $\nabla_\theta \hat{s}_\theta$ 也是有界的，即存在一个常数 $0 \le \tilde{C} < \infty$ ，使得 $\|\nabla_\theta \hat{s}_\theta\|_2 \le \tilde{C}$ 。

定理 4: 在假设 1 成立的情况下，估计梯度 $\nabla_\theta \widehat{\ell}_{\mathrm{DPO-E}}$ 的 偏差 和 方差 可以被界定为： $\begin{array} { r l } { \mathbb { E } _ { S _ { \delta | y w , y _ { l } } } [ \| \nabla _ { \theta } \ell _ { \mathrm { DPO-E } } ( y _ { w } , y _ { l } ; \theta ) - \nabla _ { \theta } \widehat { \ell } _ { \mathrm { DPO-E } } ( y _ { w } , y _ { l } ; \theta ) \| _ { 2 } ] } & { } \\ { \leq \frac { \tilde { C } } { 4 } \sqrt { \mathbb { V } _ { S _ { \delta | y _ { w } , y _ { l } } } \hat { s } _ { \theta } ( y _ { w } , y _ { l } ) } + \sqrt { \mathrm { t r } \mathbb { V } _ { S _ { \delta | y _ { w } , y _ { l } } } \nabla _ { \theta } \hat { s } _ { \theta } ( y _ { w } , y _ { l } ) } , } & { \quad \quad \quad \quad \quad \quad \quad (22) } \end{array}$ 和 $\mathrm { t r } \Psi _ { S _ { \vert y _ { w } , y _ { l } } } \left[ \nabla _ { \theta } \widehat { \ell } _ { \mathrm { DPO-E } } ( y _ { w } , y _ { l } ; \theta ) \right] \leq \frac { \tilde { C } ^ { 2 } } { 8 } \Psi _ { S _ { \vert y _ { w } , y _ { l } } } \hat { s } _ { \theta } ( y _ { w } , y _ { l } ) + \mathrm { t r } \Psi _ { S _ { \vert y _ { w } , y _ { l } } } \nabla _ { \theta } \hat { s } _ { \theta } ( y _ { w } , y _ { l } ) . \quad (23)$ 符号解释:

$\mathrm{tr}[\cdot]$ 表示矩阵的 迹 (trace)，在这里用于表示协方差矩阵的迹，即所有对角线元素的和，可以看作是 总方差。
$\mathbb{V}_{S_{\delta|y_w, y_l}}[\nabla_\theta \hat{s}_\theta(y_w, y_l)]$ 是 分数估计器梯度 的 方差。

核心洞察: 定理 4 表明，梯度 的 偏差 和 方差 也与 分数估计器 $\hat{s}_\theta$ 的 方差 以及 分数估计器梯度 $\nabla_\theta \hat{s}_\theta$ 的 方差 相关。因此，降低这些底层方差对于稳定 梯度估计 至关重要。

命题 5: 对于 $\mathbb{V}\nabla_\theta \widehat{\mathcal{B}}_\pi(y)$ ，增加采样预算 和 最优分配 策略同样能有效降低其方差。 证明概述: ELBO 估计器的梯度 $\nabla_\theta \widehat{\mathcal{B}}_\pi(y)$ 具有与 $\widehat{\mathcal{B}}_\pi(y)$ 类似的结构，只是 每步损失 $\ell_\pi$ 被其 梯度 $\nabla_\theta \ell_\pi$ 替代。因此，针对 ELBO 方差的分析 (命题 1) 同样适用于 ELBO 梯度 的方差。

4.3. 扩展到其他对齐方法

VRPO 提出的方差降低技术和理论分析具有通用性，不限于 DPO 框架，可以自然地扩展到其他涉及 ELBO 估计或两个相关 ELBO 相减的 MDMs 对齐算法。

例如：

PPO (Proximal Policy Optimization) 和 GRPO (Generalized Reinforcement Policy Optimization): 这些方法通过优化带有 优势函数 (advantage function) 的 策略梯度 目标来调整模型。策略梯度 目标中通常包含 对数似然 项 $\log \pi(y|x)$ 或 似然比 项 $\frac{\pi_1(y|x)}{\pi_2(y|x)}$ 。在 MDMs 中，这些 似然 项也需要用 ELBO 估计来近似。VRPO 的方差降低技术（增加采样预算、最优分配、对偶采样）可以直接应用于这些 ELBO 或 ELBO 比率 的估计，以降低其方差，从而提高 PPO 和 GRPO 的训练稳定性。
简化分析: 相比于 DPO，PPO 和 GRPO 的目标函数外部通常不包含像 $\log \sigma(\cdot)$ 这样的 非线性 函数。这意味着，在这些算法中，ELBO 估计的 无偏性 更直接地保持，引入的额外 偏差 问题更小，因此 VRPO 的分析甚至可以更简单。

这表明 VRPO 为 MDMs 的 RLHF 范式提供了一个通用的、基于理论洞察的方差管理解决方案。

5. 实验设置

本节详细介绍将 VRPO 应用于 LLaDA 的实验设置，包括数据、评估指标、基线模型、训练和推理配置。

5.1. 数据集

来源与规模: 使用了 350K 对偏好数据对 LLaDA 8B Instruct (Nie et al., 2025) 进行训练。这些数据是蚂蚁集团内部大规模收集的，涵盖多种场景。
处理流程: 数据经过严格的处理步骤，以确保高质量和多样性：
1. 过滤: 过滤掉低质量样本。
2. 去重: 通过 相似度匹配 (similarity matching) 移除重复样本。
3. 排序: 使用 奖励模型 (reward model) 对数据进行排序，以选择高质量的偏好对。
4. 替换: 用来自先进 LLMs 的输出替换部分响应，以进一步提升数据质量。
数据构成: 最终的高质量、多样化数据集涵盖了广泛的主题：
- 创意写作 (Creative Writing): 约 35%
- 知识问答 (Knowledge Q&A): 约 18%
- NLP 任务 (NLP tasks): 约 16%
- 数学任务 (Mathematics tasks): 约 14%
- 推荐任务 (Recommendation tasks): 约 7%
- 代码生成 (Code Generation): 约 5%
- 推理任务 (Reasoning tasks): 约 3%
- 其余为安全及其他任务。

5.2. 评估指标

论文使用了广泛的基准测试来评估模型性能，涵盖数学与科学、代码生成和对齐任务。

5.2.1. 数学与科学

GSM8K (Cobbe et al., 2021): 这是一个小学数学文字问题数据集，用于评估模型解决数学推理问题的能力。
- 概念定义: GSM8K 关注模型理解自然语言描述的数学问题，并进行多步推理以得出正确数值答案的能力。
- 评估指标: 准确率 (Accuracy)。
- 数学公式: $\mathrm{Accuracy} = \frac{\text{Number of correctly solved problems}}{\text{Total number of problems}}$
- 符号解释:
  - Number of correctly solved problems: 模型给出正确答案的问题数量。
  - Total number of problems: 数据集中所有问题的数量。
Math (Hendrycks et al., 2021): 这是一个更高级的数学问题数据集，涵盖代数、几何、数论、概率等领域，通常需要更复杂的推理步骤。
- 概念定义: Math 数据集评估模型在大学预科及大学级别数学问题上的解决能力，通常需要符号推理和精确计算。
- 评估指标: 准确率 (Accuracy)。
- 数学公式: 与 GSM8K 相同。
- 符号解释: 与 GSM8K 相同。
GPQA (Rein et al., 2023): 这是一个研究生级别的 Google-proof 问答基准，旨在测试模型在需要深层知识和推理的开放域问答中的表现。
- 概念定义: GPQA 包含极具挑战性的问题，这些问题无法通过简单的网络搜索直接找到答案，需要模型进行深层次的知识整合、推理和批判性思维。
- 评估指标: 准确率 (Accuracy)。
- 数学公式: 与 GSM8K 相同。
- 符号解释: 与 GSM8K 相同。

5.2.2. 代码生成

HumanEval (Chen et al., 2021): 这是一个代码生成数据集，包含手写的 Python 编程问题，每个问题都附带单元测试，用于评估模型生成可执行代码的能力。
- 概念定义: HumanEval 测试模型从自然语言描述生成功能性代码的能力，并通过运行单元测试来验证代码的正确性。
- 评估指标: Pass@k (通常是 Pass@1)。Pass@k 衡量的是在 $k$ 次尝试中至少生成一个正确解决方案的概率。
- 数学公式: $\mathrm{Pass}@k = \mathbb{E}_{\text{problems}} \left[ 1 - \prod_{j=1}^{\text{num\_solutions}/k} \frac{\binom{\text{num\_solutions} - \text{num\_correct}}{k}}{\binom{\text{num\_solutions}}{k}} \right]$
- 符号解释:
  - $\mathbb{E}_{\text{problems}}[\cdot]$ : 对所有问题的期望。
  - $\text{num\_solutions}$ : 为一个问题生成的总解决方案数量。
  - $\text{num\_correct}$ : 在 $\text{num\_solutions}$ 中通过所有单元测试的正确解决方案数量。
  - $\binom{n}{k}$ : 组合数，表示从 $n$ 个项目中选择 $k$ 个的方案数。
MBPP (Mostly Basic Python Problems, Austin et al., 2021b): 另一个代码生成数据集，包含更基础的 Python 编程问题。
- 概念定义: MBPP 旨在评估模型在解决相对简单的 Python 编程任务方面的能力，这些任务通常包含一个函数签名、一个文档字符串和几个测试用例。
- 评估指标: Pass@k (通常是 Pass@1)。
- 数学公式: 与 HumanEval 相同。
- 符号解释: 与 HumanEval 相同。

5.2.3. 对齐任务

IFEval (Instruction-Following Evaluation, Zhou et al., 2023): 评估模型遵循复杂、多约束指令的能力。
- 概念定义: IFEval 衡量模型在面对包含多种类型（如格式、内容、风格）约束的指令时，能否准确、完整地遵循所有指令。
- 评估指标: 指令遵循的准确率 (Instruction-Following Accuracy)。
- 数学公式: $\mathrm{Accuracy} = \frac{\text{Number of responses that follow all instructions}}{\text{Total number of instructions}}$
- 符号解释:
  - Number of responses that follow all instructions: 模型输出完全遵循所有给定指令的响应数量。
  - Total number of instructions: 总指令数量（或评测点数量）。
Arena-Hard (Li et al., 2024): 这是一个高质量的基准，通过 LLM-as-a-judge 的方式评估模型在更具挑战性的场景（如多轮对话、复杂指令）下的表现。
- 概念定义: Arena-Hard 侧重于评估 LLM 在对抗性或复杂场景下的性能，这些场景可能涉及歧义、多约束或需要高级推理。评判由另一个 LLM 完成。
- 评估指标: 胜率 (Win Rate) 或 Elo 评分 (Elo Score)。论文中直接报告一个数值，通常代表胜率或相对排名。
AlignBench (Liu et al., 2023): 专注于评估 LLMs 的中文对齐能力。
- 概念定义: AlignBench 包含一系列中文任务，旨在评估 LLM 在理解和生成符合中文语境和文化偏好的内容方面的对齐程度。
- 评估指标: LLM-as-a-judge 评分。
MTBench (Zheng et al., 2023): 一个多轮对话基准，同样使用 LLM-as-a-judge 来评估模型的对话质量和实用性。
- 概念定义: MTBench 评估 LLM 在多轮对话中保持连贯性、一致性和响应质量的能力，涉及各种复杂的对话场景。
- 评估指标: LLM-as-a-judge 评分。

5.3. 对比基线

论文主要将 LLaDA 1.5 与以下基线模型进行比较：

LLaDA 8B Instruct: 这是 LLaDA 1.5 的前身，一个仅经过 监督微调 (SFT-only) 的 LLaDA 模型。它代表了在 VRPO 之前的模型性能水平。
LLaDA DPO (Naive DPO): 这是 LLaDA 应用 DPO 框架但未完全采用 VRPO 中所有方差降低技术 ( $n_t=1, n_{y_t}=1$ , 且没有 对偶采样) 的版本。它用于展示 VRPO 中方差降低策略的有效性。
其他强大的语言 MDMs 和 ARMs: 在数学性能对比中（Figure 1 右图），LLaDA 1.5 还与 Nie et al., 2025、Ye et al., 2025、Zhao et al., 2025 等其他 MDMs 以及 Dubey et al., 2024 (LLaMA 3)、Bi et al., 2024 等 ARMs 进行了比较，以评估其在整个领域中的竞争力。

5.4. 训练细节

基座模型: LLaDA 8B Instruct (Nie et al., 2025)。
训练数据: 350K 偏好数据对，训练一个 epoch。
训练参数:
- 批量大小 (Batch size): 64。
- 优化器 (Optimizer): AdamW。
- 权重衰减 (Weight decay): 0.01。
- AdamW 参数: $\beta_1 = 0.9, \beta_2 = 0.95$ 。
- 学习率调度器 (Learning rate schedule): 采用 15 步 warmup (热身) 到最大学习率 $5 \times 10^{-7}$ ，随后是 余弦衰减 (cosine decay)。
损失函数:
- DPO 损失 (DPO Loss) 的 $\beta$ 参数设置为 0.2。
- 为了提高训练稳定性，DPO 损失还与一个权重为 0.05 的 MDMs SFT 损失 (Supervised Fine-Tuning loss) 结合使用。
参考策略: $\pi_{\mathrm{ref}}$ 初始化为 LLaDA Instruct 模型。
VRPO 配置 (默认):
- 采样预算 (Sampling budget): $n=8$ 。
- 时间步采样数 (Number of timesteps): $n_t = 8$ 。
- 每个时间步掩码样本数 (Number of masked samples per timestep): $n_{y_t} = 1$ 。
- 对偶采样 (Antithetic sampling): 启用。
计算成本: 默认 VRPO 配置（8 个蒙特卡洛样本）的训练成本约为 405 H100 GPU 小时。论文指出，相对于预训练成本，这一开销是可以接受的（小于 0.5%）。
超参数搜索: 由于硬件资源限制，未进行超参数搜索。

5.5. 推理细节

MDMs 类似于 ARMs (如 Holtzman et al., 2019; Brown, 2020)，也受益于多种采样策略来提高生成质量。论文采用并优化了以下几种采样方法：

5.5.1. 采样策略

扩散采样 (Diffusion Sampling): 遵循标准的 MDM 逆向过程，逐步 去掩码 生成序列。
扩散半自回归采样 (Diffusion Semi-Autoregressive Sampling):
- 原理: 为了生成长度为 $L$ 的序列，该方法将生成过程分成 $\frac{L}{B}$ 个 块 (blocks)，其中 $B$ 是 块长度。在每个 块 内，使用原始的 MDM 逆向过程生成 token，然后这些 块 之间以 自回归 (autoregressively) 方式生成。这种混合策略旨在结合 MDM 的并行性和 ARMs 的序列连贯性。
低置信度重掩码 (Low-Confidence Remasking):
- 原理: 在生成过程中，该方法会重新 掩码 那些 置信度 (confidence) 最低的预测 token。然后，模型会再次尝试预测这些 重掩码 的 token。这有助于纠正低质量的预测，提高生成质量。

5.5.2. `[EOS]` Token 处理

问题: 原始 LLaDA SFT 模型在 监督微调 (SFT) 阶段由于 [EOS] token 的填充 (padding)，倾向于生成过多的 [EOS] token，导致输出不完整或被截断。
解决方案: 借鉴这一观察，论文将 [EOS] token 的 置信度分数 设置为零。
效果: 这一调整显著改善了 LLaDA 的性能。例如，在 HumanEval 上，即使推理配置相同，将 [EOS] token 置信度设为零能将分数从 47.6 提高到 49.4。因此，所有评估都采用了此设置。

5.5.3. 优化与公平性

最佳策略选择: 为了确保公平比较，LLaDA 和 LLaDA 1.5 在评估时都采用了对其各自性能最佳的 采样策略。
超参数调优:
- 答案长度 (Answer length): 在 {64, 128, 256, 512, 1024} 中进行调优。
- 半自回归块长度 (Block length for semi-autoregressive sampling): 在 {8, 16, 32, 64, 128} 中进行调优。

具体配置: 下表（原文 Table 6）详细列出了 LLaDA 和 LLaDA 1.5 在各基准测试中获得最佳性能的推理配置。以下是原文 Table 6 的结果：

	Block length	Answer length	Block length	Answer length
	LLaDA 8B Instruct		LLaDA 1.5 8B
GSM8K	8	256	16	256
Math	64	512	128	1024
GPQA	64	64	16	256
HumanEval	512	512	32	512
MBPP	256	256	32	512
IFEval	512	512	32	512
Arena-Hard	128	1024	128	1024
AlignBench	32	512	32	512
MTBench	32	512	16	256

LLM-as-a-judge: 对于 MTBench、AlignBench 和 Arena-Hard 基准测试结果，是通过 OpenAI 提供的 gpt-4-32k API 进行 LLM-as-a-judge 评分获得的。

5.6. 模型架构

LLaDA 的架构细节如下表（原文 Table 3）所示：以下是原文 Table 3 的结果：

	LLaDA
Layers	32
Model dimension	4096
Attention heads	32
Vocabulary size	126,464
FFN dimension	12,288
Key/Value heads	32
Total parameters	8.02 B
Non-embedding parameters	6.98 B

LLaDA 采用 Transformer Encoder 架构，参数量为 8B。它遵循 LLaMA (Dubey et al., 2024) 的设计，使用 RMSNorm (Zhang and Sennrich, 2019) 进行归一化，RoPE (Rotary Position Embedding, Su et al., 2024) 进行位置编码，并使用 SwiGLU (Shazeer, 2020) 作为激活函数。

6. 实验结果与分析

6.1. 核心结果分析

6.1.1. LLaDA 1.5 综合性能提升

下表（原文 Table 1）展示了 LLaDA 1.5、LLaDA 8B Instruct 和 LLaDA DPO (naive DPO) 在各项基准测试中的性能对比。以下是原文 Table 1 的结果：

	LLaDA 8B Instruct	LLaDA DPO	LLaDA 1.5 8B
Post-training	SFT	SFT + naive DPO	SFT + VRPO (Ours)
Mathematics & Science
GSM8K	78.6	80.7 (+2.1)	83.3 (+4.7)
Math	42.2	41.6 (-0.6)	42.6 (+0.4)
GPQA	33.3	34.3 (+1.0)	36.9 (+3.6)
Code
HumanEval	49.4	48.2 (-1.2)	52.4 (+3.0)
MBPP	41.0	41.4 (+0.4)	42.8 (+1.8)
Alignment Tasks
IFEval	62.2	62.0 (-0.2)	66.2 (+4.0)
Arena-Hard	10.0	11.9 (+1.9)	14.3 (+4.3)
AlignBench	5.4	5.8 (+0.4)	5.9 (+0.5)
MTbench	7.2	7.1 (-0.1)	7.3 (+0.1)

分析:

LLaDA 1.5 (VRPO) 的优势: LLaDA 1.5 在所有列出的基准测试中，性能一致且显著地优于其 SFT-only 前身 (LLaDA 8B Instruct)。这表明 VRPO 能够有效地将 MDM 与人类偏好对齐，提升其通用能力。
与 Naive DPO 的对比: LLaDA 1.5 也明显优于 LLaDA DPO (naive DPO)。这直接验证了 VRPO 所引入的方差降低技术（包括最优分配和对偶采样）的有效性，即这些技术对于提升 DPO 在 MDM 上的性能至关重要。例如，在 GSM8K 上，LLaDA DPO 仅提升 2.1%，而 LLaDA 1.5 提升 4.7%。在 HumanEval 上，LLaDA DPO 甚至下降了 1.2%，而 LLaDA 1.5 提升了 3.0%。这凸显了 朴素 DPO 在 MDM 上可能面临的优化不稳定问题。
具体任务表现:
- 数学与科学: 在 GSM8K 和 GPQA 上有显著提升（+4.7% 和 +3.6%），表明 VRPO 有助于模型在复杂推理任务中表现更好。
- 代码生成: HumanEval (+3.0%) 和 MBPP (+1.8%) 的提升显示 VRPO 增强了 MDM 的代码生成能力。
- 对齐任务: IFEval (+4.0%) 和 Arena-Hard (+4.3%) 的大幅提升直接证明了 VRPO 在遵循指令和处理复杂对齐场景方面的有效性。

6.1.2. LLaDA 1.5 在数学性能上的竞争力

下图（原文 Figure 1）展示了 LLaDA 1.5 与其他强大语言 MDMs 和 ARMs 在数学任务上的对比：

Figure 1: Benchmark results. The left panel shows that LLaDA 1.5 improves LLaDA consistently and significantly on various benchmarks. The right panel demonstrates that LLaDA 1.5 has a highly competit… 该图像是图表，展示了论文中图1的Benchmark结果。左侧雷达图显示LLaDA 1.5在多个基准测试中较LLaDA SFT有一致且显著提升；右侧柱状图对比了多语言模型在数学任务（GSM8K和Math）上的性能，LLaDA 1.5表现优异。

分析:

LLaDA 1.5 在 GSM8K （四样本设置）和 Math （零样本设置）上都取得了最高分，超越了其他 MDMs (如 LLaDA 8B Instruct, Dream 7B, Diffusion-LLaMA-8B) 以及强大的 ARMs (如 LLaMA 3 8B, DeepSeek-Math 7B, Qwen2.5-7B)。
这表明 VRPO 不仅提升了 LLaDA 的通用对齐能力，还在其数学推理等专业领域实现了顶尖性能，使其成为该领域中极具竞争力的模型。

6.1.3. 采样策略的消融研究

下表（原文 Table 4）展示了在不同采样策略下 LLaDA 8B Instruct 和 LLaDA 1.5 8B 的性能对比。以下是原文 Table 4 的结果：

	LLaDA 8B Instruct	LLaDA 1.5 8B
GSM8K
Diffusion Sampling	53.2	55.7
Low-Confidence Remasking	69.4	70.3
Semi-Autoregressive Sampling	78.6	83.3
HumanEval
Diffusion Sampling	12.2	17.1
Low-Confidence Remasking	49.4	47.0
Semi-Autoregressive Sampling	47.6	52.4
IFEval
Diffusion Sampling	55.2	59.4
Low-Confidence Remasking	62.2	60.1
Semi-Autoregressive Sampling	61.7	66.2

分析:

LLaDA 1.5 在大多数采样策略下都持续优于 LLaDA 8B Instruct，这表明 VRPO 的改进是稳健的，不依赖于特定的推理采样方式。
在 GSM8K 和 IFEval 上，半自回归采样 表现最好，而在 HumanEval 上，半自回归采样 也取得了最好的结果。这与 Table 1 中报告的最佳结果相符，进一步验证了推理设置的重要性。
值得注意的是，在 HumanEval 上，低置信度重掩码 策略对 LLaDA 1.5 略有负面影响（从 49.4 降至 47.0）。这可能说明不同的采样策略有其适用性，需要根据具体任务进行选择。

6.1.4. 训练随机性的影响

下表（原文 Table 5）展示了在不同随机种子下 LLaDA 1.5 三次独立运行的均值、标准差和 95% 置信区间 (Confidence Interval)。以下是原文 Table 5 的结果：

Task	LLaDA	LLaDA 1.5
GSM8K	78.6	82.9 ± 0.6 (95% CI: [81.4, 84.3])
Math	42.2	43.0 ± 0.3 (95% CI: [42.2, 43.8])
GPQA	33.3	35.7 ± 1.0 (95% CI: [33.1, 38.3])
HumanEval	49.4	52.0 ± 0.7 (95% CI: [50.3, 53.7])
MBPP	41.0	42.3 ± 0.8 (95% CI: [40.4, 44.1])
IFEval	62.2	65.1 ± 0.9 (95% CI: [62.8, 67.4])

分析:

LLaDA 1.5 在所有基准测试中均持续优于 LLaDA，且具有较小的标准差，表明 VRPO 能够带来稳定的性能提升，不受 训练随机性 的显著影响。
对于大多数任务，LLaDA 1.5 的 95% 置信区间 完全高于 LLaDA 的平均分，进一步证实了 VRPO 改进的可靠性。

6.2. 消融实验/参数分析

下表（原文 Table 2）展示了 VRPO 各方差降低策略的消融实验结果，包括 估计器方差 和 基准测试性能。以下是原文 Table 2 的结果：

	Base	Budget		Allocation		Antithetic
# Timesteps nt	4	1	8	1	22	4
# Masked samples nyt	1	1	1	4		1
Antithetic sampling	✓	✓	✓	✓	✓	X
Variances
Var of score estimator	2.2	44.0	1.0	7.3	4.7	2183.7
Var of loss	3.1× 10-3	8.7×10-2	2.6× 10−3	3.2 × 10−2	7.3× 10-3	62.0
Var of gradient	2.5	13.0	1.6	4.7	2.5	10.6
Mathematics & Science
GSM8K	82.8	80.1	83.3	81.4	82.3	82.0
Math	42.3	41.7	42.6	41.9	42.4	42.4
GPQA	36.4	34.3	36.9	34.9	36.4	35.9
Code
HumanEval	51.2	50.6	52.4	48.2	48.8	47.0
MBPP	42.8	40.6	42.8	40.8	41.0	41.2
Alignment Tasks
IFEval	66.1	63.9	66.2	64.8	66.2	65.8
Arena-Hard	13.9	13.5	14.3	13.8	13.4	15.6
AlignBench	5.9	5.6	5.9	5.8	5.9	5.9
MTbench	7.4	7.0	7.3	7.0	7.2	7.2

分析要点:

分数估计器方差效应:
- 理论验证: 表格清晰地展示了 分数估计器 $\mathbb{V}[\hat{s}_\theta]$ 的方差越小，损失 和 梯度 的方差也越小，并且任务性能普遍越好。这与 定理 1 的理论洞察完全吻合，即控制 分数估计器 的方差是降低整个优化过程误差的关键。
- 例如，Antithetic sampling 禁用时，分数估计器方差 飙升至 2183.7，伴随 损失方差 62.0 和 梯度方差 10.6 的剧增，导致 HumanEval 性能从 51.2 降至 47.0。
增加采样预算 (Sampling Budget) 的效果:
- 配置对比: 比较 Budget 列中的 $n_t=1, n_{y_t}=1$ (总样本 $n=1$ ) 和 $n_t=8, n_{y_t}=1$ (总样本 $n=8$ )。
- 结果: 当总样本数 $n$ 从 1 增加到 8 时，分数估计器方差 从 44.0 大幅下降到 1.0。相应地，GSM8K 准确率从 80.1 提升到 83.3。
- 验证: 这验证了 命题 1(i) 的结论，即增加总采样预算 $n$ 可以显著降低 ELBO 估计器的方差，从而提升性能。
最优分配 (Optimal Allocation) 的效果 (固定预算下):
- 配置对比: 比较 Base 配置 ( $n_t=4, n_{y_t}=1$ , 总样本 $n=4$ ) 与 Allocation 列中的 $n_t=1, n_{y_t}=4$ (总样本 $n=4$ )。两者总预算相同，但分配策略不同。
- 结果: Base 配置 ( $n_t=4, n_{y_t}=1$ ) 的 分数估计器方差 为 2.2，HumanEval 为 51.2。而 Allocation 配置 ( $n_t=1, n_{y_t}=4$ ) 的 分数估计器方差 为 7.3，HumanEval 仅为 48.2。
- 验证: 这支持了 命题 1(ii) 的分析，即在固定总预算下，将采样预算更多地分配给 时间步 ( $n_t$ 更大， $n_{y_t}$ 更小) 通常能带来更低的方差和更好的性能。
对偶采样 (Antithetic Sampling) 的效果:
- 配置对比: 比较 Base 配置 (启用 对偶采样) 与 Antithetic 列中的禁用 对偶采样 配置 ( $n_t=4, n_{y_t}=1$ , 禁用 对偶采样)。
- 结果: 禁用 对偶采样 导致 分数估计器方差 从 2.2 飙升至 2183.7，损失方差 从 $3.1 \times 10^{-3}$ 剧增至 62.0，梯度方差 从 2.5 增至 10.6。这剧烈的方差增加对 HumanEval 性能产生了负面影响（从 51.2 降至 47.0）。
- 验证: 这强烈支持了 命题 2 的结论，即 对偶采样 通过利用 ELBO 估计间的正相关性，能显著降低方差。
- 性能权衡: 论文指出，尽管 对偶采样 能大幅降低方差，但其对下游基准性能的提升不总是显著。作者推测这可能涉及 优化 和 泛化 之间的权衡：方差降低虽然改善了 优化 过程，但禁用 对偶采样 引入的更多随机性，可能反而让模型接触到更多样的数据模式，在某些 泛化 场景下可能带来意外的好处。

6.2.1. 训练损失曲线

下图（原文 Figure 5）展示了不同方差降低策略下的训练损失曲线，进一步可视化了 VRPO 的效果。

$Figure 5: Loss curves under different variance reduction strategies. Top: w/ antithetic sampling; bottom: w/o antithetic sampling. The curve labeled "w/o antithetic sampling, $n _ { t } = 1$ , \$n _ {…$ 该图像是论文中图5的图表，展示了不同方差减少策略下的损失曲线。上半部分为使用对偶采样（antithetic sampling）时的曲线，下半部分为未使用对偶采样时的曲线。曲线通过调整时间步数 $n_{t}$ 和蒙版样本数 $n_{y_{t}}$ 进行变化，所有曲线均采用指数移动平均平滑，系数为0.3。

Figure 5: Loss curves under different variance reduction strategies. Top: w/ antithetic sampling; bottom: w/o antithetic sampling. The curve labeled "w/o antithetic sampling, $n _ { t } = 1$ , $n _ { y _ { t } } = 1 ^ { , , }$ corresponds to the training loss of the naive DPO baseline reported in Table 1, all other curves come from the ablation study in Table 2, obtained by varying the number of timesteps n _ { t } , the number of masked samples n _ { y _ { t } } , and whether antithetic sampling is applied. We present two panels because the loss magnitudes differ substantially across settings. For visual clarity, all curves are smoothed with an exponential moving average with coefficient 0.3.

分析:

平滑性和稳定性: 启用 方差降低策略 (特别是 对偶采样) 的损失曲线（上半部分）明显比禁用时的曲线（下半部分）更平滑，波动性更小。这表明 VRPO 有效地稳定了 MDM 的优化动态。
收敛速度和最终损失: 具有 方差降低 的配置通常表现出更快的损失下降速度和更低的最终损失值，这与 梯度方差 降低带来的更稳定、高效的优化过程相一致。
与 Naive DPO 的关系: w/o antithetic sampling, $n_t=1, n_{y_t}=1$ 的曲线（下半部分）对应于 Naive DPO 的训练损失，其波动性最大，损失也最高，再次印证了 VRPO 的必要性。

6.3. 数据呈现 (表格)

本节已在 6.1 和 6.2 小节中按内容逻辑插入了原文提供的所有表格。

7. 总结与思考

7.1. 结论总结

本文深入分析了 掩码扩散模型 (MDMs) 在使用 直接偏好优化 (DPO) 进行对齐时，由于 ELBO (证据下界) 似然估计器的高 方差 和 偏差 所面临的挑战。研究人员提出了一种名为 方差降低偏好优化 (VRPO) 的系统框架，通过严谨的理论分析揭示了 ELBO 估计器的 方差 是影响 DPO 损失和梯度 偏差 与 方差 的关键因素。

在此理论洞察的指导下，VRPO 整合了多项无偏方差降低策略，包括：

增加蒙特卡洛采样预算：直接提升估计精度。
最优采样预算分配：将更多采样资源集中于 时间步 维度，而非 每个时间步内的掩码样本。
对偶采样：通过在 模型策略 和 参考策略 的 ELBO 估计之间共享随机数，利用它们之间的 正相关性 显著降低方差。

实证结果表明，将 VRPO 应用于 LLaDA 模型所得到的 LLaDA 1.5 在多种通用任务（包括数学、代码生成和通用对齐基准）上，相比其仅 监督微调 (SFT) 的前身以及 朴素 DPO 方法，均实现了显著且一致的性能提升。LLaDA 1.5 在数学能力方面甚至展现出与顶尖 自回归模型 (ARMs) 相当的竞争力。消融实验也进一步证实了 VRPO 各组件在降低 方差 和稳定 优化 过程中的关键作用。

本文不仅为 MDMs 的 RLHF 提供了一个理论坚实、实践有效的解决方案，也为未来 扩散模型 在语言领域的进一步发展奠定了基础。

7.2. 局限性与未来工作

7.2.1. 论文作者指出的局限性与未来工作

泛化性能的复杂性: 论文在 对偶采样 的消融实验中观察到，尽管 对偶采样 能显著降低方差，但其对某些下游任务的 基准性能 提升并不总是显著。作者推测这是因为 基准性能 取决于 优化 和 泛化 两个复杂因素。VRPO 旨在改善 优化，但 泛化 受到更多复杂因素的影响。作者假设禁用 对偶采样 可能使模型接触到更广泛的数据模式，从而可能对某些 下游任务 有益。这暗示了在 优化稳定性 和 泛化能力 之间可能存在权衡，需要更深入的研究。
未来工作的基础: 论文明确表示，这项工作为进一步增强 MDMs 性能奠定了基础，鼓励后续研究在此基础上继续发展。
伦理方面的考量: 在 Ethics Statement 中，作者指出尽管 VRPO 旨在提升 MDMs 的有益性，但模型仍存在生成 歧视性、偏见 或 有害内容 的风险。作者表示他们已通过 数据策展 和 过滤 措施来缓解这些风险，并将持续评估和改进安全保障。

7.2.2. 个人启发与批判

个人启发:

方差控制的普适价值: 本文最核心的启发在于，即使在复杂的深度学习优化任务中，对 估计器方差 的严谨理论分析和系统性控制仍是解决实际问题（如训练不稳定、收敛慢）的有效途径。这提醒我们，在面对看似黑箱的神经网络训练时，回归基础统计学原理能够提供强大的指导。
非线性变换的隐性挑战: 即使底层估计是无偏的，非线性变换也可能引入 偏差 和 方差。这一洞察在设计包含 Sigmoid、Softmax 等非线性激活函数的损失函数时尤为重要，提示我们不仅要关注输入分布，也要关注变换后的统计特性。
成本效益的方差降低策略: 最优分配 和 对偶采样 作为不增加额外计算成本的方差降低技术，具有极高的实用价值。它们提醒研究者，并非所有性能提升都必须以线性增加计算资源为代价，精巧的算法设计同样关键。
DPO 在新范式中的潜力: DPO 作为一种简洁高效的 RLHF 方法，其在 MDMs 上的成功应用，证明了其强大的适应性和泛化能力，未来有望在更多新型生成模型中发挥作用。
数学能力的重要性: LLaDA 1.5 在数学基准上取得的优异成绩，再次凸显了模型在复杂逻辑推理和精确计算方面的能力是衡量 LLM 实用性的重要指标。

批判与改进建议:

泛化与优化权衡的深入探讨: 论文提及 对偶采样 虽降方差但对下游任务提升不总显著的现象。这正是值得深挖之处。未来的工作可以设计实验来系统性地探索 优化稳定性 和 模型泛化能力 之间的精确关系，例如，通过引入 噪声注入 或 正则化 技术来模拟 对偶采样 禁用时的数据多样性，并量化其对 泛化 的影响。
数据收集与偏见的潜在影响: 论文提及偏好数据是内部收集、过滤并用 LLM 输出替换部分响应。这种 数据策展 过程虽然旨在提高数据质量，但也可能无意中引入或放大某些 偏见，或者过度拟合特定 LLM 的生成风格。未来的工作可以公开数据集构建的更详细过程，或探索 数据增强 和 去偏 技术。
计算开销的可扩展性: 默认采样预算 $n=8$ 导致计算量增加 8 倍。虽然论文认为这在 8B 模型上可接受，但对于更大的 MDMs (如千亿参数级别) 或更长的序列，8 倍的计算量可能成为瓶颈。未来可以研究更先进的 方差降低 方法（如 控制变量、重要性采样）以在更小的 $n$ 下实现类似效果，或者探索近似的 无偏估计。
更复杂扩散模型上的应用: 本文主要关注 掩码扩散模型。一些离散扩散模型可能涉及更复杂的 噪声调度 或 状态空间。VRPO 的理论是否能直接扩展到这些更复杂的模型，或者需要额外的适应和修改，是值得探索的方向。
伦理安全保障的量化研究: 尽管论文提到了伦理考量和数据过滤，但缺乏对 安全性 改进的量化评估。未来工作可以结合 红队测试 (red teaming) 和专门的 安全基准 来量化 VRPO 对 MDMs 安全对齐 的具体贡献。

相似论文推荐

基于向量语义检索推荐的相关论文。

暂时没有找到相似论文。

LLaDA 1.5: Variance-Reduced Preference Optimization for Large Language Diffusion Models

TL;DR 精炼摘要

摘要

思维导图

论文精读

中文精读约 42 分钟读完 · 28,849 字

1. 论文基本信息

1.1. 标题

1.2. 作者

1.3. 发表期刊/会议

1.4. 发表年份

1.5. 摘要

1.6. 原文链接

2. 整体概括

2.1. 研究背景与动机

2.1.1. 论文试图解决的核心问题

2.1.2. 为什么这个问题在当前领域是重要的？现有研究存在哪些具体的挑战或空白 (Gap)？

2.1.3. 这篇论文的切入点或创新思路是什么？

2.2. 核心贡献/主要发现

3. 预备知识与相关工作

3.1. 基础概念

3.1.1. 掩码扩散模型 (Masked Diffusion Models, MDMs)

3.1.2. 证据下界 (Evidence Lower Bound, ELBO)

3.1.3. 偏好优化 (Preference Optimization)

3.1.4. 直接偏好优化 (Direct Preference Optimization, DPO)

3.1.5. 蒙特卡洛方法 (Monte Carlo Method)

3.1.6. 方差 (Variance)

3.1.7. 偏差 (Bias)

3.2. 现有对齐方法

3.2.1. 奖励建模 (Reward Modeling)

3.2.2. 强化学习 (Reinforcement Learning, RL)

3.2.3. 直接偏好优化 (Direct Preference Optimization, DPO)

3.3. 掩码扩散模型 (MDMs) 中的似然估计

3.3.1. ELBO 近似对数似然

3.3.2. 双重蒙特卡洛估计

3.3.3. LLaDA (Large Language Diffusion Models)

3.4. 技术演进与差异化分析

3.4.1. 技术演进

3.4.2. 差异化分析

4. 方法论

4.1. 方法原理

4.1.1. 核心思想

4.1.2. 理论基础与直觉

4.2. 核心方法详解

4.2.1. DPO 中 ELBO 的替代

4.2.2. 方差对损失偏差和方差的影响 (Theorem 1)

4.2.3. VRPO 的方差降低策略

4.2.4. VRPO 的无偏性 (Proposition 4)

4.2.5. 梯度分析 (Theorem 4 & Proposition 5)

4.3. 扩展到其他对齐方法

5. 实验设置

5.1. 数据集

5.2. 评估指标

5.2.1. 数学与科学

5.2.2. 代码生成

5.2.3. 对齐任务

5.3. 对比基线

5.4. 训练细节

5.5. 推理细节

5.5.1. 采样策略

5.5.2. [EOS] Token 处理

5.5.3. 优化与公平性

5.6. 模型架构

6. 实验结果与分析

6.1. 核心结果分析

6.1.1. LLaDA 1.5 综合性能提升

6.1.2. LLaDA 1.5 在数学性能上的竞争力

6.1.3. 采样策略的消融研究

6.1.4. 训练随机性的影响

6.2. 消融实验/参数分析

6.2.1. 训练损失曲线

6.3. 数据呈现 (表格)

7. 总结与思考

7.1. 结论总结

7.2. 局限性与未来工作

7.2.1. 论文作者指出的局限性与未来工作

7.2.2. 个人启发与批判

相似论文推荐

5.5.2. `[EOS]` Token 处理