论文状态:已完成

Rethinking Bradley-Terry Models in Preference-Based Reward Modeling: Foundations, Theory, and Alternatives

发表:2024/11/08
原文链接PDF 下载
价格:0.100000
价格:0.100000
已有 2 人读过
本分析由 AI 生成,可能不完全准确,请以原文为准。

TL;DR 精炼摘要

本文重新审视了Bradley-Terry模型在偏好奖励建模中的应用,建立了基于深度神经网络的收敛速度理论基础,尽管理论上可靠,但在下游优化中并非必要,提出替代的上界算法,并通过12000个实验验证了不同奖励建模方法的有效性。

摘要

The Bradley-Terry (BT) model is a common and successful practice in reward modeling for Large Language Model (LLM) alignment. However, it remains unclear why this model -- originally developed for multi-player stochastic game matching -- can be adopted to convert pairwise response comparisons to reward values and make predictions. Especially given the fact that only a limited number of prompt-response pairs are sparsely compared with others. In this paper, we first revisit the foundations of using BT models in reward modeling, and establish the convergence rate of BT reward models based on deep neural networks using embeddings, providing a theoretical foundation for their use. Despite theoretically sound, we argue that the BT model is not a necessary choice from the perspective of downstream optimization. This is because a reward model only needs to preserve the correct ranking predictions through a monotonic transformation of the true reward. We highlight the critical concept of order consistency in reward modeling and demonstrate that the BT model possesses this property. Consequently, we propose a simple and straightforward upper-bound algorithm, compatible with off-the-shelf binary classifiers, as an alternative order-consistent reward modeling objective. To offer practical insights, we empirically evaluate the performance of these different reward modeling approaches across more than 12,000 experimental setups, using 66 base LLMs, 22 datasets, and diverse annotation designs that vary in quantity, quality, and pairing choices in preference annotations.

思维导图

论文精读

中文精读

1. 论文基本信息

1.1. 标题

重新思考偏好奖励建模中的 Bradley-Terry 模型:基础、理论与替代方案 (Rethinking Bradley-Terry Models in Preference-Based Reward Modeling: Foundations, Theory, and Alternatives)

1.2. 作者

  • Hao Sun (University of Cambridge, Cambridge, UK)
  • Yunyi Shen (Massachusetts Institute of Technology, Cambridge, MA, USA)
  • Jean-Francois Ton (ByteDance Research, London, UK)

1.3. 发表期刊/会议

该论文发布于 arXiv 预印本平台。

1.4. 发表年份

2024年11月7日 (UTC)

1.5. 摘要

Bradley-Terry (BT) 模型在大语言模型 (Large Language Model, LLM) 对齐的奖励建模 (Reward Modeling) 中是一种常用且成功的方法。然而,该模型为何能从最初用于多玩家随机游戏匹配的背景,被应用于将成对响应比较转换为奖励值并进行预测,其原因尚不明确,特别是在只有有限数量的提示-响应对被稀疏比较的情况下。

本文首先重新审视了在奖励建模中使用 BT 模型的基础,并建立了基于深度神经网络 (Deep Neural Networks) 使用嵌入 (Embeddings) 的 BT 奖励模型的收敛速度,为其使用提供了理论基础。尽管理论上是可靠的,但作者认为从下游优化 (Downstream Optimization) 的角度来看,BT 模型并非是必要的选择。这是因为奖励模型只需要通过真实奖励的单调变换 (Monotonic Transformation) 来保留正确的排名预测。作者强调了奖励建模中序贯一致性 (Order Consistency) 的关键概念,并证明 BT 模型具有此属性。因此,作者提出了一种简单直接的上界算法 (Upper-bound Algorithm),它与现成的二分类器 (Binary Classifiers) 兼容,作为一种替代的序贯一致性奖励建模目标。为了提供实际见解,作者在超过12,000种实验设置下,使用 6 个基础 LLM2 个数据集和多样化的标注设计(在偏好标注的数量、质量和配对选择上有所不同),对这些不同的奖励建模方法进行了实证评估。

1.6. 原文链接

2. 整体概括

2.1. 研究背景与动机

大语言模型 (Large Language Models, LLMs) 的对齐 (Alignment) 对于其在各种应用中的安全有效部署至关重要。当前关于强化学习从人类反馈中学习 (Reinforcement Learning from Human Feedback, RLHF) 的研究主要集中于利用人类或通用 LLM 提供的偏好标注 (Preference-based Annotations)。在 RLHF 中,主要有两种方法:直接策略优化 (Direct Policy Optimization) 和构建奖励模型 (Reward Model, RM) 来指导 LLM 优化。

在这些策略中,Bradley-Terry (BT) 模型 被广泛用于将成对比较 (Pairwise Comparisons) 转换为分数,并在大规模对齐系统中取得了成功。然而,该模型最初是为多玩家随机游戏匹配而开发的,其在 LLM 奖励建模中的理论基础,特别是在处理有限数量的提示-响应对的稀疏比较 (Sparse Comparisons) 情况时,仍未得到充分探索。此外,BT 模型在此背景下使用的必要性以及偏好标注 (Preference Annotation) 中首选的数据格式也尚不明确。

本文旨在通过对 LLM 对齐中奖励建模的深入思考,解决以下关键问题:

  • 问题1: 当玩家数量大于比较次数时(LLM 对齐中常见情况),使用 BT 模型是否具有理论依据?哪些因素促成了其经验成功?
  • 问题2: 除了 BT 模型之外,奖励建模还有哪些替代方法?
  • 问题3: BT 模型的传统应用假设随机成对比较(例如,玩家之间的随机游戏匹配)。跨提示比较 (Cross-Prompt Comparisons) 是否能带来更有效的奖励建模?

2.2. 核心贡献/主要发现

本文的主要贡献可以总结如下:

  1. 正式分析 (Formal Analysis): 提供了 BT 模型在 LLM 对齐中应用的全面分析,将其传统用途与该背景下的独特挑战进行了对比。分析了其基本原理,并为 BT 模型应用于 LLM 奖励建模提供了彻底的理论依据。
  2. 理论成果 (Theoretical Results): 首次引入了基于神经网络的 BT 回归 (BT Regression) 在偏好奖励建模中的渐近理论 (Asymptotic Theory)。本研究建立了 LLM 对齐背景下 BT 模型奖励估计的首次风险界限 (Risk Bound)。
  3. 实践方法 (Practical Methods): 提出序贯一致性 (Order Consistency) 作为奖励建模的核心目标,并展示了这一原则如何推导出 BT 模型和一种替代的基于分类的方法 (Classification-based Approach)。这种替代方法比 BT 模型提供了更大的灵活性,拓宽了其适用性。
  4. 实证评估 (Empirical Evaluation): 进行了广泛的实验,涵盖 6 个基础 LLM2 个数据集、3 种响应采样方法、6 种标注噪声水平、3 种奖励模型实现、4 种标注可用性场景和 5 种随机种子,总计超过 12,000 次运行。这些实验证明了基于分类的奖励模型的统计效率,并将其与 BT 模型在不同设置下进行了比较。

3. 预备知识与相关工作

3.1. 基础概念

为了深入理解本文,初学者需要掌握以下核心概念:

  • 大语言模型 (Large Language Models, LLMs): 指的是具有数亿到数万亿参数的深度学习模型,它们在大量文本数据上进行训练,能够理解、生成和处理人类语言。LLM 在各种自然语言处理任务中表现出色,但其行为对齐 (Alignment) 人类价值观和意图是一个重要挑战。

  • 强化学习从人类反馈中学习 (Reinforcement Learning from Human Feedback, RLHF): 是一种 LLM 对齐技术,它通过收集人类对模型响应的偏好反馈,训练一个奖励模型,然后使用该奖励模型作为奖励函数来进一步微调 LLM 的策略 (Policy)。其核心思想是将人类的模糊偏好转化为可量化的奖励信号,从而引导 LLM 生成更符合人类期望的输出。

  • 奖励模型 (Reward Model, RM):RLHF 中,RM 是一个经过训练的机器学习模型,它接收 LLM 生成的响应(通常是提示-响应对),并输出一个连续的标量分数,代表该响应的“质量”或“偏好度”。这个分数随后被用作强化学习算法的奖励信号,以优化 LLM 的行为。

  • Bradley-Terry (BT) 模型:

    • 概念定义: BT 模型是一种用于从成对比较数据中估计对象相对“能力”或“效用”的概率模型。它假设在两个选项的比较中,一个选项被选择的概率与该选项的潜在效用值成比例。
    • 原始应用: 最初由 BradleyTerry 于1952年提出,用于对体育团队或其他竞赛参与者的相对实力进行排名。例如,如果 AA 队和 BB 队比赛,BT 模型可以估计 AA 队获胜的概率。
    • 核心公式: 对于选项 iijj,选项 ii 被选择的概率 P(ij)P(i \succ j) 通常表示为: P(ij)=u(i)u(i)+u(j)=exp(r(i))exp(r(i))+exp(r(j))=softmax(r(i),r(j)) P(i \succ j) = \frac{u(i)}{u(i) + u(j)} = \frac{\exp(r(i))}{\exp(r(i)) + \exp(r(j))} = \operatorname{softmax}(r(i), r(j)) 其中,u(i)u(j) 分别是选项 iijj 的效用 (Utility) 值,r(i)=log(u(i))r(i) = \log(u(i))r(j)=log(u(j))r(j) = \log(u(j)) 是它们的对数效用 (Log Utility) 或奖励分数。
  • Luce-Shephard 选择规则 (Luce-Shephard Choice Rule): 这是一个心理学和经济学中的选择模型,它描述了当个体从一组选项中进行选择时,每个选项被选中的概率与其效用值成正比。BT 模型是 Luce-Shephard 选择规则在二元选择(成对比较)场景下的具体实现。

  • 交叉熵损失 (Cross-Entropy Loss):

    • 概念定义: 在分类任务中,交叉熵损失是一种常用的损失函数,用于衡量模型预测的概率分布与真实标签分布之间的差异。它鼓励模型对正确类别给出高概率预测,对错误类别给出低概率预测。
    • 数学公式: 对于二分类问题,给定真实标签 y{0,1}y \in \{0, 1\} 和模型预测的概率 p[0,1]p \in [0, 1]LCE(y,p)=(ylog(p)+(1y)log(1p)) \mathcal{L}_{\mathrm{CE}}(y, p) = - (y \log(p) + (1-y) \log(1-p)) 对于多分类问题,给定真实概率分布 Y=[y1,,yK]Y = [y_1, \dots, y_K] 和预测概率分布 P=[p1,,pK]P = [p_1, \dots, p_K]LCE(Y,P)=k=1Kyklog(pk) \mathcal{L}_{\mathrm{CE}}(Y, P) = - \sum_{k=1}^K y_k \log(p_k)
    • 符号解释:
      • yy: 真实标签 (二分类) 或真实概率分布 (多分类)。
      • pp: 模型预测为正类的概率 (二分类) 或模型预测的概率分布 (多分类)。
      • KK: 类别总数。
      • yky_k: 真实标签中第 kk 个类别的指示变量 (为 1 如果是真实类别,否则为 0) 或真实概率。
      • pkp_k: 模型预测第 kk 个类别的概率。
  • 多层感知机 (Multilayer Perceptrons, MLPs): 一种前馈神经网络,由至少三层节点组成:输入层、一个或多个隐藏层和输出层。每个节点(神经元)接收来自前一层节点的输入,通过加权求和和激活函数处理后,将输出传递给下一层。MLP 能够学习复杂的非线性关系。

  • 词元嵌入 (Embeddings): 将离散的符号(如单词、词元 token、提示-响应对)映射到连续的、低维的向量空间中的表示。这些向量能够捕获原始符号的语义信息和上下文关系,使得机器学习模型可以处理文本数据。

  • 单调变换 (Monotonic Transformation): 指的是一种函数变换,它保留了原始变量的序关系。如果 ff 是一个严格单调递增函数,那么如果 a>ba > b,则 f(a)>f(b)f(a) > f(b)。在奖励建模中,如果学到的奖励函数是真实奖励函数的单调变换,那么它仍然可以用于正确的排名和优化,因为相对顺序没有改变。

  • 截断 KL 散度风险 (Truncated KL Risk): KL 散度(Kullback-Leibler divergence)是衡量两个概率分布之间差异的一种非对称度量。当预测概率接近零时,KL 散度可能变得无限大,导致数值不稳定或理论分析困难。截断 KL 风险通过限制 log 项的最大值 BB 来避免这种发散问题,从而在理论分析中提供更稳健的收敛界限。

  • ReLU 激活函数 (ReLU Activation Function): Rectified Linear Unit 的缩写,一种常用的神经网络激活函数,定义为 f(x)=max(0,x)f(x) = \max(0, x)。它在 x>0x > 0 时输出 xx,在 x0x \leq 0 时输出 0。因其计算效率高且能缓解梯度消失问题而广泛使用。

  • 霍尔德光滑函数 (Hölder Smooth Function): 一类满足特定光滑性条件的函数。一个函数 ff 属于 β\beta-Hölder 空间,意味着其直到 β\lfloor \beta \rfloor 阶的导数都存在且是连续的,并且最高阶导数满足 Hölder 条件(即其变化率被一个幂函数界定)。这类函数在非参数统计和逼近理论中常用,因为它们允许量化函数的光滑程度。

  • Best-of-N (BoN) 采样: 一种 LLM 评估和改进技术。它涉及从 LLM 为给定提示生成 NN 个不同的响应,然后使用奖励模型或人类评估器从中选择得分最高的响应作为最终输出。这种方法通常能够提高输出质量,因为即使基础 LLM 的平均性能一般,通过选择最优的响应也能获得更好的结果。

  • Sigmoid 函数 (Sigmoid Function):

    • 概念定义: 一种常用的激活函数,将任意实数值映射到 (0,1)(0, 1) 区间内的概率值。
    • 数学公式: σ(x)=11+ex \sigma(x) = \frac{1}{1 + e^{-x}}
    • 符号解释:
      • xx: 输入值。
      • ee: 自然对数的底数。
      • σ(x)\sigma(x): 输出值,介于 01 之间。
  • 高斯分布 (Gaussian Distribution): 也称为正态分布,是一种常见的连续概率分布。其概率密度函数呈钟形曲线,由均值 μ\mu 和方差 σ2\sigma^2 两个参数决定。

  • Gumbel 分布 (Gumbel Distribution): 一种极值分布,常用于建模最大值或最小值。其累积分布函数的差分(例如,两个独立同分布 Gumbel 变量之差)的 CDF 形式与 Sigmoid 函数相关,这使得它与 BT 模型有理论上的联系。

  • Thurstonian 模型:BT 模型的替代方案,它也处理成对比较数据,但假设潜在效用值服从高斯分布,从而导致比较概率由高斯累积分布函数 (CDF) 来描述,而不是 Sigmoid 函数。

3.2. 前人工作

本文在回顾 BT 模型在 RLHF 中的应用时,提到了以下关键的前人工作:

  • RLHF 的开创性工作 (Christiano et al., 2017; Stiennon et al., 2020; Ouyang et al., 2022; Rafailov et al., 2023): 这些工作是 RLHF 领域的奠基石,它们将 BT 模型或其变体应用于从人类偏好中学习奖励函数,以指导 LLM 的对齐。这些研究成功地利用 BT 模型提高了 LLM 在各种任务中的质量,尤其是在难以进行直接评估的场景。

  • 挑战 BT 模型实用性的工作 (Azar et al., 2023; Munos et al., 2023; Tang et al., 2024; Zhao et al., 2023):

    • Munos et al. (2023) 指出 BT 模型无法捕获非传递性偏好 (Non-transitive Preferences),并且最大化相应的 Elo 分数可能与优化偏好的目标不同。
    • Azar et al. (2023) 提出,在直接偏好优化 (Direct Preference Optimization, DPO) 方法中,使用 BT 模型化可能导致在采样偏好是确定性时出现过拟合问题。
    • 这些工作侧重于 BT 模型与数据兼容性(如传递性、硬决策边界的存在)方面的局限性,并讨论了 BT 模型可能失败的反例。
  • BT 模型参数估计与预测的研究:

    • Bradley and Terry (1952) 本身以及 Ford Jr (1957) 奠定了 BT 模型的可识别性 (Identifiability) 和渐近理论。
    • Simons and Yao (1999) 研究了当玩家数量和比赛次数都趋于无穷时 BT 模型的渐近性质。
    • Hanetal.(2020)Han et al. (2020) 在比较稀疏 (sparse comparisons) 的情况下研究了 BT 模型,并提出了一个只需要 O(Nlog3(N))O(N \log^3(N)) 次比较的一致性过程。
    • Springall (1973)De Soete and Winsberg (1993) 探索了利用特征或协变量来预测能力分数,前者假设能力是协变量的线性组合,后者使用了样条函数 (Spline Functions)。
    • Bockenholt (1988)BT 模型视为一种特殊的逻辑回归问题。
    • Chen and Pouzo (2012) 为包括逻辑回归在内的更广泛的非参数模型类别开发了理论。
    • 深度学习方面的研究,如 Schmidt-Hieber (2020)Bos and Schmidt-Hieber (2022),研究了使用深度神经网络进行非参数回归和非参数逻辑回归的渐近理论。然而,这些理论不能直接应用于 BT 模型,因为 BT 需要一个单一的奖励模型来处理所有提示-响应对,并且概率不是任意的,而是通过将两对输入传递给同一网络得到的 softmax 输出。
  • 非成对数据和跨提示比较的 RLHF 研究:

    • Liu et al. (2022); Sun and van der Schaar (2024); Ethayarajh et al. (2024) 探索了从非成对数据中进行对齐。例如,KTO (Ethayarajh et al., 2024) 植根于展望理论 (Prospect Theory),认为人类对损失和收益赋予不同价值。
    • Yinetal.(2024)Yin et al. (2024) 提出的 RPO 引入了跨相同和相似问题的响应比较,以反映人类学习的复杂性。RPO 的实践支持了本文关于进行跨提示比较的见解。但 RPO 和本文的动机与实现不同:RPO 关注策略重加权 (strategic re-weighting) 并直接对齐,而本文则从“为什么不”的角度(缺乏理论限制)研究跨提示标注的效率和优化方式,并构建明确的奖励模型。
  • 奖励模型中的表示学习 (Representation Learning in Reward Modeling):

    • Yang et al. (2024a) 强调生成任务可以规范学习到的嵌入 (Embeddings) 并提高奖励建模性能。
    • Zhang et al. (2024) 的生成验证器 (Generative Verifiers) 通过下一词元预测 (Next-token Prediction) 来构建奖励预测,以最大化利用 LLM 作为词元生成器的能力来改进评估能力。
    • 本文认为其对奖励模型的研究与这些表示学习和生成验证器的工作是正交的,未来可以结合。

3.3. 技术演进

BT 模型最初在 1950 年代被提出,用于解决竞技场景中的排名问题,如体育比赛中的团队能力评估。其核心思想是通过成对比较的胜负结果来推断参与者的潜在实力(效用值)。最初的 BT 模型主要关注参数估计,即为每个“玩家”分配一个固定的能力分数。

随着时间推移,研究人员认识到在许多实际应用中,玩家数量可能非常大,或者需要预测新玩家的能力。这促使 BT 模型向回归设置 (Regression Settings) 发展,即通过玩家的特征(covariates)来预测其能力分数。Springall (1973) 假设效用值是协变量的线性组合,将问题转化为逻辑回归。De Soete and Winsberg (1993) 进一步引入了更复杂的非线性模型,如样条函数。

LLM 时代,BT 模型被引入 RLHF 框架,用于将人类对 LLM 响应的偏好转换为奖励信号。在这里,LLM 生成的每个提示-响应对可以被视为一个“玩家”,而人类的偏好则被视为“比赛结果”。然而,LLM 对齐场景带来了新的挑战:

  1. 稀疏比较 (Sparse Comparisons): 每个提示-响应对通常只被比较几次,远低于传统 BT 模型所需的理论下限。

  2. 预测需求 (Prediction Need): 奖励模型不仅需要评估已比较的响应,更需要预测未见过的新响应的奖励分数,以指导 LLM 优化。

    为了应对这些挑战,现代 LLM 对齐中的 BT 奖励建模通常采用神经网络 (Neural Networks),特别是多层感知机 (MLPs),将提示-响应对的嵌入 (Embeddings) 映射到奖励分数。这种方法可以被视为非参数逻辑回归 (Nonparametric Logistic Regression) 的一种形式。本文的工作正是基于这一演进路径,首次为这种基于神经网络的 BT 回归在 LLM 奖励建模中的应用提供了严格的渐近理论 (Asymptotic Theory) 基础,证明了其在足够数据下的收敛性。

此外,本文还探讨了 BT 模型的必要性问题。既然奖励模型最终目标是排序而非精确概率,那么是否可以有更灵活、更简单的替代方案?这引出了序贯一致性 (Order Consistency) 的概念和基于分类的奖励建模方法,它们放松了 BT 模型的一些严格假设,但仍能有效实现排序目标。

最后,针对标注数据获取方式,传统 BT 模型常假设随机成对比较。本文通过理论分析和实证实验,质疑了将比较局限于同一提示下响应的必要性,并提出了跨提示比较 (Cross-Prompt Comparisons) 作为一种提高标注质量和效率的潜在方法,进一步推动了奖励建模实践的演进。

3.4. 差异化分析

本文的工作与现有研究相比,具有以下几个核心区别和创新点:

  1. 理论基础的深入探索与建立:

    • 现有挑战: 尽管 BT 模型在 RLHF 中广泛成功,但其在 LLM 对齐场景下,特别是稀疏比较和预测新响应的需求背景下的理论合理性一直未被充分探讨。此前的挑战主要集中于数据属性(如传递性)或过拟合问题。
    • 本文创新: 本文首次为基于深度神经网络 (MLPs) 和嵌入 (embeddings) 的 BT 回归模型在 LLM 奖励建模中建立了渐近理论,并推导了其奖励估计的风险界限。这为 BT 模型在 LLM 对齐中的应用提供了坚实的理论正当性,填补了现有文献的空白,即回答了“BT 模型在何种假设下是正确的”这一核心问题。
  2. 提出序贯一致性作为核心目标及替代方法:

    • 现有范式: BT 模型通常追求精确的比较概率估计,这导致其需要特定的模型结构(如反对称性)和损失函数(如交叉熵)。
    • 本文创新: 作者指出,对于下游 LLM 优化而言,奖励模型只需要保留正确的排序 (ranking) 预测,而非精确的概率。基于此,提出了序贯一致性 (Order Consistency) 这一核心目标,并证明 BT 模型本身就具备此属性。更重要的是,本文基于此原则提出了一种简单、直接的基于分类的奖励建模方法。这种方法不仅更灵活,兼容现成的二分类器,而且在实证中表现出与 BT 模型相当甚至更优的性能,为奖励建模提供了更具普适性的替代方案。
  3. 重新审视偏好标注过程,强调跨提示比较的价值:

    • 现有实践: RLHF 中的偏好标注通常局限于同一提示下不同响应的比较(same-prompt comparisons)。

    • 本文创新: 本文从理论和实证两方面探讨了跨提示比较 (Cross-Prompt Comparisons) 在提高奖励建模效率和质量方面的优势。理论分析表明,跨提示比较能增加潜在的奖励差异,从而提高标注质量。实证结果也强有力地支持了这一点,尤其是在单个提示下的响应多样性不足时,跨提示标注能显著改善性能。这为未来 RLHF 数据集的收集和标注设计提供了新的指导原则,打破了传统上对同一提示下比较的限制。

      总结来说,本文不仅仅是对现有 BT 模型应用的验证,更是对其基础理论的深化、对其核心目标的反思以及对其数据收集策略的创新,为 LLM 对齐领域的奖励建模带来了理论和实践上的双重突破。

4. 方法论

4.1. 方法原理

本文的方法论围绕重新思考 Bradley-Terry (BT) 模型在 LLM 奖励建模中的应用展开,主要包括三个方面:理论基础的建立、替代目标的提出以及偏好标注过程的改进。

4.1.1. 理解 BT 模型在偏好标注中的应用

传统的 BT 模型用于竞技场排名,目标是估计每个“玩家”(如 LLM)的单一性能分数。但在 LLM 奖励建模中,每个提示-响应对被视为一个需要评分的“项”,且需要预测未见过的对的奖励。这需要将 BT 模型扩展到回归设置。

作者首先明确了将 BT 模型应用于人类偏好标注的底层假设。假设人类标注的随机性来源于标注者对效用评估的偏差 bb

  • 假设 1 (存在确定性预言机效用值 - Existence of Deterministic Oracle Utility Values): 对于任何给定提示 xx 和响应 yy,存在一个确定的(对数)效用值 rx,yr_{x,y}。这意味着每个响应本身有一个内在的质量分数。

  • 假设 2 (确定性比较 - Deterministic Comparisons): 对于一个标注者 AA,其标注结果是确定性的,取决于其对两个响应 y1y_1y2y_2 的偏差评估的效用值比较: 1(y1y2x,A)=1(rx,y1+b(x,y1,A)>rx,y2+b(x,y2,A)) \mathbb{1}(y_1 \succ y_2 | x, A) = \mathbb{1}(r_{x,y_1} + b(x,y_1,A) > r_{x,y_2} + b(x,y_2,A)) 其中,1()\mathbb{1}(\cdot) 是指示函数,当括号内条件为真时为1,否则为0。b(x,y,A) 是标注者 AA 对响应 (x,y) 的评估偏差。

  • 假设 3 (逻辑差分假设 - Logistic Difference Assumption): 标注者偏差的差值 b(x,y1,A)b(x,y2,A)b(x,y_1,A) - b(x,y_2,A) 独立同分布地从标准逻辑分布中采样,对于所有 x, y 成立。其累积分布函数 (CDF) 为: P(b(x,y1,A)b(x,y2,A)tA)=11+et P(b(x,y_1,A) - b(x,y_2,A) \leq t | A) = \frac{1}{1 + e^{-t}} 备注 1 (差值的传递性): 尽管独立逻辑分布之和并非逻辑分布,但这个假设可以通过假设所有标注者偏差 b(x,y,A) 独立地服从具有相同尺度参数的 Gumbel 分布来实现,从而保证传递性。

在这些假设下,作者推导出 BT 类型的模型:

  • 命题 2 (在逻辑差分假设下建模标注 - Modeling Annotations under Logistic Difference Assumption): P(y1y2x)=P(rx,y1rx,y2>b(x,y1,A)b(x,y2,A))=11+e(rx,y1rx,y2) P(y_1 \succ y_2 | x) = P \left( r_{x,y_1} - r_{x,y_2} > b(x,y_1,A) - b(x,y_2,A) \right) = \frac{1}{1 + e^{-(r_{x,y_1} - r_{x,y_2})}} 这个公式显示了选项 y1y_1 优于 y2y_2 的概率,它只取决于它们的效用差值,并通过 Sigmoid 函数进行映射。

作者还对比了另一种常见的假设:

  • 假设 4 (高斯差分假设 - Gaussian Difference Assumption): 标注者偏差的差值 b(x,y1,A)b(x,y2,A)b(x,y_1,A) - b(x,y_2,A) 从标准高斯分布 N(0,1)\mathcal{N}(0, 1) 中采样。

  • 命题 3 (在高斯差分假设下建模标注 - Modeling Annotations under Gaussian Difference Assumption): P(y1y2x)=P(rx,y1rx,y2>b(x,y1,A)b(x,y2,A))=Φ(rx,y1rx,y2) P(y_1 \succ y_2 | x) = P \left( r_{x,y_1} - r_{x,y_2} > b(x,y_1,A) - b(x,y_2,A) \right) = \Phi(r_{x,y_1} - r_{x,y_2}) 其中 Φ\Phi 是标准高斯分布的 CDF。这种模型被称为 Thurstonian 模型。

备注 4 (游戏中的性能假设): 进一步解释了这些模型与游戏性能的联系。BT 模型对应 Gumbel 分布的性能,而 Thurstonian 模型对应 Gaussian 分布的性能。两者都可以通过吸收方差项到效用值中简化。

4.1.2. BT 回归:BT 模型如何处理稀疏比较

由于 LLM 对齐中比较稀疏且需要预测新响应,传统的 BT 模型不足。因此,需要 BT 回归变体,它利用特征(如提示-响应对的嵌入 (Embeddings))来预测奖励分数。一个常见的做法是使用多层感知机 (MLPs) 将嵌入映射到分数。

4.1.3. 基于 MLP 的 BT 回归渐近理论

作者提供了 MLP 基础的 BT 回归模型在奖励建模中的渐近理论,证明了其收敛性。

  • 数据集形式: Dpref={(xi,y1,i,y2,i,hi)}i[n]\mathcal{D}_{\mathrm{pref}} = \{ (x_i, y_{1,i}, y_{2,i}, h_i) \}_{i \in [n]},其中 (xi,y1,i)(x_i, y_{1,i})(xi,y2,i)(x_i, y_{2,i}) 是提示-响应对,hih_i 是人类偏好标注(1 表示 y1,iy_{1,i} 优于 y2,iy_{2,i}-1 反之)。
  • 嵌入函数: 假设存在一个已知的嵌入函数 Ψ(,):X×Y[0,1]d\Psi( \cdot , \cdot ) : \mathcal{X} \times \mathcal{Y} \mapsto [0, 1]^d,将提示-响应对映射到 dd 维嵌入空间。
  • 真实奖励函数: 假设存在一个未知的奖励函数 r:RdRr: \mathbb{R}^d \mapsto \mathbb{R},使得真实奖励可以表示为 r(Ψ(x,y))r(\Psi(x,y))
  • 奖励模型: 我们的奖励模型表示为 r^θ\hat{r}_\theta,参数化为 θ\theta
  • 预测概率: 两个奖励 r^(Ψ(x1,y1))\hat{r}(\Psi(x_1, y_1))r^(Ψ(x2,y2))\hat{r}(\Psi(x_2, y_2))softmax 输出即为偏好概率。
  • 损失函数: 训练奖励模型等同于训练一个分类器,使用交叉熵损失 L~CE(p)\widetilde{\mathcal{L}}_{\mathrm{CE}}(\pmb{p})L~CE(p)=1ni=1n(h(i))log(p(i)) \widetilde{\mathcal{L}}_{\mathrm{CE}}(\pmb{p}) = - \frac{1}{n} \sum_{i=1}^n (\pmb{h}^{(i)})^\top \log(\pmb{p}^{(i)}) 其中,h(i)\pmb{h}^{(i)} 是偏好标签(如果 y1,iy_{1,i} 优选为 (1,0)(1,0),否则为 (0,1)(0,1)),p^(i)\hat{\pmb{p}}^{(i)} 是模型预测的概率分布。

为了衡量模型的性能,作者引入了截断 KL 风险 (Truncated KL risk)

  • 定义 5 (截断 KL 风险): 概率估计器 p^\hat{\pmb{p}} 的 B-截断 KL 风险为: RB(p0,p^)=E[p0min(B,logp0p^)] R_B(\pmb{p}_0, \hat{\pmb{p}}) = \mathbb{E} \left[ \pmb{p}_0^\top \min\left(B, \log \frac{\pmb{p}_0}{\hat{\pmb{p}}}\right) \right] 其中 BB 是一个截断常数,p0\pmb{p}_0 是真实偏好概率。

  • 假设 6 (MLP 奖励模型): 假设 MLP 网络参数具有范数限制和稀疏性,激活函数为 ReLU

  • 定义 13 (小值界): 假设真实的偏好概率 pkp_k 不会太接近 0 或 1,即 P(pk(Ψ1,Ψ2)t)Ctα\mathbb{P}(p_k(\Psi_1, \Psi_2) \leq t) \leq C t^\alpha

  • 定义 14 (Hölder 光滑函数): 真实奖励函数满足 β\beta-Hölder 光滑性。

    在这些假设下,作者得出了非正式的截断 KL 风险界限

  • 定理 6 (截断 KL 风险界限, 非正式): 假设真实效用函数诱导的偏好概率满足光滑性 (β\beta) 和正则性 (α\alpha) 假设,嵌入维度为 dd。令 p^\hat{p} 为满足正则性假设的 MLP 族的估计器,深度为 LL。定义 ϕn:=2(1+α)β+(3+α)d(1+α)β+dn(1+α)β(1+α)β+d\phi_n := 2^{\frac{(1+\alpha)\beta + (3+\alpha)d}{(1+\alpha)\beta + d}} n^{-\frac{(1+\alpha)\beta}{(1+\alpha)\beta + d}}。对于足够大的 nn,存在常数 C', C'',使得当 Δn(p^,p0)CBϕnLlog2(n)\Delta_n(\hat{p}, p_0) \leq C'' B \phi_n L \log^2(n) 时, RB(p0,p^)CBϕnLlog2(n)0 R_B(\pmb{p}_0, \hat{\pmb{p}}) \leq C' B \phi_n L \log^2(n) \to 0 其中 Δn(p0,p^)\Delta_n(\pmb{p}_0, \hat{\pmb{p}}) 是拟合 NN 与全局最小值的差异。这个定理表明,在足够数量的标注比较下,BT 奖励模型的估计收敛到真实的奖励值(误差项趋于零)。

  • 推论 7 (连接概率与奖励): 进一步,作者通过 Hellinger 距离和均值定理,将概率估计的收敛性与奖励函数差值的收敛性联系起来: p0(Ψ1,Ψ2)p^(Ψ1,Ψ2)p0+p^ϕnLlog(n)0 \left| p_0(\Psi_1, \Psi_2) - \hat{p}(\Psi_1, \Psi_2) \right| \lesssim \left| \sqrt{p_0} + \sqrt{\hat{p}} \right| \sqrt{\phi_n L} \log(n) \to 0 r(Ψ1)r(Ψ2)(r^(Ψ1)r^(Ψ2))p0+p^p~(1p~)ϕnLlog(n)0 \left| r(\Psi_1) - r(\Psi_2) - (\hat{r}(\Psi_1) - \hat{r}(\Psi_2)) \right| \lesssim \frac{\left| \sqrt{p_0} + \sqrt{\hat{p}} \right|}{\tilde{p}(1-\tilde{p})} \sqrt{\phi_n L} \log(n) \to 0 其中 p~\tilde{p} 是介于 p0p_0p^\hat{p} 之间的概率。这表明比较应该发生在奖励相对接近的对之间,以避免 logit 函数的发散行为。

4.1.4. 重新思考奖励建模目标:序贯一致性

作者提出,奖励模型的核心目标是为 LLM 输出提供可靠的排序信号,而不是精确的比较概率。因此,学习到的奖励函数 r^\hat{r} 只需要是真实奖励函数 rr单调变换即可。

  • 序贯一致性条件: 对于任何两个不同的提示-响应对 (x1,y1)(x_1, y_1)(x2,y2)(x_2, y_2),要求 (r^(x1,y1)r^(x2,y2))(r(x1,y1)r(x2,y2))>0(\hat{r}(x_1, y_1) - \hat{r}(x_2, y_2)) (r(x_1, y_1) - r(x_2, y_2)) > 0

    为了处理标注噪声,引入了不完美偏好标注假设

  • 假设 5 (近似真实分数的不完美偏好标注 - Imperfect Preference Annotation in Approximating True Scores): 标注者正确标注的概率 ξ(Δr)\xi(\Delta r) 是真实效用差值 Δr\Delta r 的单调递增函数。 P(h(x1,x2,y1,y2)(r(x1,y1)r(x2,y2))>0Δr)=ξ(Δr) \mathbb{P}\left(h(x_1, x_2, y_1, y_2) (r(x_1, y_1) - r(x_2, y_2)) > 0 \bigg| \Delta r \right) = \xi(\Delta r) 其中 ξ()\xi(\cdot) 是一个从 [0.5, 1] 的单调递增函数。

  • 定义 8 (序贯一致性 - Order Consistency): 奖励模型 H^\hat{H} 的损失定义为它与标注结果一致的概率: Loc(r^)=Ex1,x2,y1,y2,hI[h=H^] \mathcal{L}_{\mathrm{oc}}(\hat{r}) = \mathbb{E}_{x_1, x_2, y_1, y_2, h} \mathbb{I}[h = \hat{H}]

  • 命题 9 (群体层面序贯一致性的下界 - Lower bound on population level order consistency): 作者证明,最小化上述可观测损失能够高概率地实现与真实奖励函数的序贯一致性。 Ex1,x2,y1,y2[1(H^[r(x1,y1)r(x2,y2)]0)Δr](1ϵ)ξ2(Δr)+ϵ(1ξ(Δr))2 \mathbb{E}_{x_1, x_2, y_1, y_2} \left[ \mathbb{1}\left(\hat{H} \cdot \left[r(x_1, y_1) - r(x_2, y_2)\right] \geq 0\right) \bigg| \Delta r \right] \geq (1-\epsilon) \cdot \xi^2(\Delta r) + \epsilon \cdot (1-\xi(\Delta r))^2 进一步,在 ξ(Δr)\xi(\Delta r) 满足一定条件时,可以得到更强的下界。

4.1.5. BT 模型作为序贯一致性的一种选择

BT 模型通过其损失函数和结构,强制执行序贯一致性。它使用二元交叉熵损失训练,其模型结构 σ(r^BT(x1,y1)r^BT(x2,y2))\sigma(\hat{r}_{\mathrm{BT}}(x_1, y_1) - \hat{r}_{\mathrm{BT}}(x_2, y_2)) 确保翻转比较顺序会翻转预测。 LBT=E[1h=1logσ(r^BT(x1,y1)r^BT(x2,y2))+1h=1log(1σ(r^BT(x1,y1)r^BT(x2,y2)))] \mathcal{L}_{\mathrm{BT}} = \mathbb{E} \left[ \mathbb{1}_{h=1} \log \sigma(\hat{r}_{\mathrm{BT}}(x_1, y_1) - \hat{r}_{\mathrm{BT}}(x_2, y_2)) + \mathbb{1}_{h=-1} \log (1 - \sigma(\hat{r}_{\mathrm{BT}}(x_1, y_1) - \hat{r}_{\mathrm{BT}}(x_2, y_2))) \right]

4.1.6. 放宽反对称约束:基于分类的方法

BT 模型的差分奖励结构天然地强制了反对称性 (Anti-Symmetry)。作者提出,可以放宽这一约束,使用简单的分类器。

  • 思想: 训练一个模型 H^clf\hat{H}_{\mathrm{clf}} 来分别预测每个提示-响应对的偏好(例如,第一个响应是否被偏好,h=H^clf(x1,y1)h=\hat{H}_{\mathrm{clf}}(x_1, y_1),第二个响应是否不被偏好,h=H^clf(x2,y2)-h=\hat{H}_{\mathrm{clf}}(x_2, y_2))。
  • 上界损失: 序贯一致性的联合界限可以表示为: LocLclf:=E(h=H^clf(x1,y1))+E(h=H^clf(x2,y2)) \mathcal{L}_{\mathrm{oc}} \leq \mathcal{L}_{\mathrm{clf}} := \mathbb{E}(h = \hat{H}_{\mathrm{clf}}(x_1, y_1)) + \mathbb{E}(-h = \hat{H}_{\mathrm{clf}}(x_2, y_2)) 这相当于将每个提示-响应对独立地作为分类任务进行训练。然后,分类器的 logit 输出可以作为奖励模型的代理。
  • 命题 24 (分类奖励 - Classification reward): 证明了分类模型预测的 logit(即 si:=logitP(i wins)s_i := \mathrm{logit} P(i \text{ wins}))是 BT 奖励 rir_i 的下界,即 siriCs_i \geq r_i - C。这表明基于分类的模型能够学习到与 BT 模型奖励值相关的分数。

4.1.7. 重新思考偏好标注过程:跨提示比较

作者理论分析了跨提示比较 (Cross-Prompt Comparisons) 的优势。

  • 标注质量 (Annotation Quality): 标注质量 ξ(Δr)\xi(\Delta r) 取决于标注者的能力 β\beta 和响应效用差值 Δr\Delta r。当响应效用差异越大时,标注者越容易正确区分。
  • 示例 1 (高斯分数下的标注质量): 当响应的效用值服从高斯分布 r(x,y)N(μx,σx2)r(x,y) \sim \mathcal{N}(\mu_x, \sigma_x^2) 时,可以计算出成对标注的平均标注质量 Qpair(x)=Ey1,y2x[σ(βr(x,y1)r(x,y2))]\mathcal{Q}_{\mathrm{pair}}(x) = \mathbb{E}_{y_1, y_2|x} [\sigma(\beta |r(x,y_1) - r(x,y_2)|)]
  • 命题 10 (跨提示比较增加效用多样性 - Cross-Prompt Comparisons Increase Utility Diversity): 证明了在期望意义上,跨提示比较的奖励差异大于同一提示下响应的奖励差异。 ExEy1,y2x[rx,y1rx,y2]Ex1,x2Ey1x1,y2x2[rx1,y1rx2,y2] \mathbb{E}_x \mathbb{E}_{y_1, y_2|x} \left[ |r_{x,y_1} - r_{x,y_2}| \right] \leq \mathbb{E}_{x_1, x_2} \mathbb{E}_{y_1|x_1, y_2|x_2} \left[ |r_{x_1, y_1} - r_{x_2, y_2}| \right] 这意味着跨提示比较可以提高数据质量。
  • 定理 11 (跨提示标注提高标注质量 - Cross-Prompt Annotation Improves Annotation Quality): 推广到更一般的条件(响应效用值来自单峰且对称的位置-尺度族分布),证明了跨提示标注可以提高标注质量。 Ex[Qpair(x)]Ex1,x2[Qcrossprompt(x1,x2)] \mathbb{E}_x [\mathcal{Q}_{\mathrm{pair}}(x)] \le \mathbb{E}_{x_1, x_2} [\mathcal{Q}_{\mathrm{cross-prompt}}(x_1, x_2)]

4.2. 核心方法详解 (逐层深入)

4.2.1. BT 模型及其在偏好标注中的理论基础

如方法原理所述,BT 模型在偏好标注中的应用依赖于对标注过程的几个关键假设。 首先,我们假设对于任何给定的提示 xx 和响应 yy,都存在一个确定的、内在的质量分数,即效用值 (Utility Value) u(x,y),或者其对数形式的奖励值 (Reward Value) r(x,y)=logu(x,y)r(x,y) = \log u(x,y)。这构成了假设 1 (存在确定性预言机效用值)

接下来,当一个人类标注者 AA 比较两个响应 y1y_1y2y_2 (给定提示 xx)时,他们的选择不是基于完美的真实奖励,而是基于他们对这些响应的有偏评估 (Biased Evaluation)。每个标注者 AA 对响应 (x,y) 的评估会有一个偏差 b(x,y,A)。因此,标注者 AA 认为 y1y_1 优于 y2y_2 的条件是: 1(y1y2x,A)=1(rx,y1+b(x,y1,A)>rx,y2+b(x,y2,A)) \mathbb{1}(y_1 \succ y_2 | x, A) = \mathbb{1}(r_{x,y_1} + b(x,y_1,A) > r_{x,y_2} + b(x,y_2,A)) 这是假设 2 (确定性比较) 的形式化。这里,rx,y1r_{x,y_1}rx,y2r_{x,y_2} 是真实的、确定性的奖励值,而 b(x,y1,A)b(x,y_1,A)b(x,y2,A)b(x,y_2,A) 是标注者 AA 引入的随机偏差。

标注结果的随机性来源于这些偏差。BT 模型的核心在于对这些偏差差值分布的假设。假设 3 (逻辑差分假设) 提出,偏差的差值 b(x,y1,A)b(x,y2,A)b(x,y_1,A) - b(x,y_2,A) 服从标准逻辑分布 (Standard Logistic Distribution)。标准逻辑分布的累积分布函数 (CDF) 为: Flogistic(t)=11+et F_{\text{logistic}}(t) = \frac{1}{1 + e^{-t}} 在此假设下,我们可以推导出 y1y_1 优于 y2y_2 的概率 P(y1y2x)P(y_1 \succ y_2 | x)。这个概率是当 rx,y1rx,y2r_{x,y_1} - r_{x,y_2} 大于偏差差值时的概率: P(y1y2x)=P(rx,y1rx,y2>b(x,y1,A)b(x,y2,A)) P(y_1 \succ y_2 | x) = P \left( r_{x,y_1} - r_{x,y_2} > b(x,y_1,A) - b(x,y_2,A) \right) Δr=rx,y1rx,y2\Delta r = r_{x,y_1} - r_{x,y_2}\Delta b = b(x,y_1,A) - b(x,y_2,A)。我们要求 Δr>Δb\Delta r > \Delta b,即 Δb<Δr\Delta b < \Delta r。因此,这个概率就是 Δb\Delta bCDFΔr\Delta r 处的值: P(y1y2x)=Flogistic(Δr)=11+e(rx,y1rx,y2) P(y_1 \succ y_2 | x) = F_{\text{logistic}}(\Delta r) = \frac{1}{1 + e^{-(r_{x,y_1} - r_{x,y_2})}} 这就是命题 2 所述的 BT 类型的模型。

作为对比,如果假设 4 (高斯差分假设) 成立,即偏差差值 b(x,y1,A)b(x,y2,A)b(x,y_1,A) - b(x,y_2,A) 服从标准高斯分布 (Standard Gaussian Distribution) N(0,1)\mathcal{N}(0, 1),其 CDFΦ()\Phi(\cdot)。那么,y1y_1 优于 y2y_2 的概率将变为: P(y1y2x)=Φ(rx,y1rx,y2) P(y_1 \succ y_2 | x) = \Phi(r_{x,y_1} - r_{x,y_2}) 这就是命题 3 所述的 Thurstonian 模型

备注 4 进一步解释了 BT 模型和 Thurstonian 模型可以通过不同的潜在性能分布来导出。BT 模型对应着玩家性能服从 Gumbel 分布,其胜率函数形式为 σ()\sigma(\cdot)tanh()\tanh(\cdot)。而 Thurstonian 模型对应着玩家性能服从 Gaussian 分布,其胜率函数形式为 erf()\mathrm{erf}(\cdot)Φ()\Phi(\cdot)BT 模型之所以被广泛采用,通常是因为其在经验拟合和数学处理上的便利性。

4.2.2. 基于 MLP 的 BT 回归渐近理论

LLM 奖励建模中,我们面对的是大量提示-响应对,且每个对只被稀疏比较。为了解决这个问题,我们将每个提示-响应对 (x,y) 映射到一个 dd 维的嵌入 (Embedding) 向量 Ψ(x,y)\Psi(x,y)。然后,我们学习一个函数 rr 来将这些嵌入映射到奖励分数 r(Ψ(x,y))r(\Psi(x,y))。这个函数 rr 通常由多层感知机 (MLP) 实现。

假设我们有 nn 个偏好标注样本,数据集为 Dpref={(xi,y1,i,y2,i,hi)}i[n]\mathcal{D}_{\mathrm{pref}} = \{ (x_i, y_{1,i}, y_{2,i}, h_i) \}_{i \in [n]}。 我们的目标是训练一个奖励模型 r^θ\hat{r}_\theta,它接收嵌入 Ψ(x,y)\Psi(x,y) 并输出一个标量奖励。对于一个比较对 (Ψ1,Ψ2)(\Psi_1, \Psi_2),模型预测 y1y_1 优于 y2y_2 的概率为: p^(Ψ1,Ψ2)=σ(r^(Ψ1)r^(Ψ2))=11+e(r^(Ψ1)r^(Ψ2)) \hat{p}(\Psi_1, \Psi_2) = \sigma(\hat{r}(\Psi_1) - \hat{r}(\Psi_2)) = \frac{1}{1 + e^{-(\hat{r}(\Psi_1) - \hat{r}(\Psi_2))}} 这可以看作是两个奖励值的 softmax 输出:softmax(r^(Ψ1),r^(Ψ2))\operatorname{softmax}(\hat{r}(\Psi_1), \hat{r}(\Psi_2))。 训练过程通过最小化交叉熵损失 (Cross-Entropy Loss) 实现: L~CE(p)=1ni=1n(h(i))log(p(i)) \widetilde{\mathcal{L}}_{\mathrm{CE}}(\pmb{p}) = - \frac{1}{n} \sum_{i=1}^n (\pmb{h}^{(i)})^\top \log(\pmb{p}^{(i)}) 其中,h(i)\pmb{h}^{(i)} 是真实的偏好标签(例如,如果 y1,iy_{1,i} 被偏好,则为 (1,0)(1,0)),p(i)\pmb{p}^{(i)} 是模型预测的概率向量 (p^(Ψ1(i),Ψ2(i)),1p^(Ψ1(i),Ψ2(i)))(\hat{p}(\Psi_{1}^{(i)}, \Psi_{2}^{(i)}), 1 - \hat{p}(\Psi_{1}^{(i)}, \Psi_{2}^{(i)}))

为了理论分析,作者引入了以下概念和假设:

  • 截断 KL 风险 (Truncated KL Risk): 如前所述,KL 散度在概率接近边界时可能发散。为解决此问题,定义 5 引入了 BB-截断 KL 风险 RB(p0,p^)R_B(\pmb{p}_0, \hat{\pmb{p}})

  • MLP 奖励模型假设 (Assumption 6): 假设 MLP 网络属于一个具有深度 LL、宽度向量 m\pmb{m} 和稀疏度 ss 的函数族 F(L,m,s)\mathcal{F}(L,m,s)。该族中的网络参数具有范数限制和稀疏性,且使用 ReLU 激活函数 ψv(x)=max(xv,0)\psi_v(\pmb{x}) = \max(\pmb{x} - \pmb{v}, 0)

  • 小值界 (Small Value Bound, SVB): 定义 13 规定,真实偏好概率 pk(Ψ1,Ψ2)p_k(\Psi_1, \Psi_2) 不会太接近 0 或 1,即 P(pk(Ψ1,Ψ2)t)Ctα\mathbb{P}(p_k(\Psi_1, \Psi_2) \leq t) \leq C t^\alpha,这防止了 logit 函数在极端概率处发散。

  • Hölder 光滑函数 (Hölder Smooth Function): 定义 14 描述了一类函数的光滑程度。假设 7 则进一步假定真实的奖励函数属于 β\beta-Hölder 函数类,并且其诱导的偏好概率满足 α\alpha-SVB

    在这些假设下,定理 6 (截断 KL 风险界限,非正式) 建立了 MLP 奖励模型在截断 KL 风险下的收敛速度。该定理表明,在足够大的训练样本量 nn 下,模型估计的偏好概率 p^\hat{p} 将收敛到真实偏好概率 p0p_0。具体的收敛速度由 ϕn\phi_n、网络深度 LLlog(n)\log(n) 决定: RB(p0,p^)CBϕnLlog2(n)0 R_B(\pmb{p}_0, \hat{\pmb{p}}) \leq C' B \phi_n L \log^2(n) \to 0 其中,ϕn=2(1+α)β+(3+α)d(1+α)β+dn(1+α)β(1+α)β+d\phi_n = 2^{\frac{(1+\alpha)\beta + (3+\alpha)d}{(1+\alpha)\beta + d}} n^{-\frac{(1+\alpha)\beta}{(1+\alpha)\beta + d}}

推论 7 (连接概率与奖励) 进一步表明,偏好概率的收敛可以推广到奖励函数差值的收敛。通过 Hellinger 距离引理 (Lemma 21) 和均值定理 (Mean Value Theorem),我们可以得到: r(Ψ1)r(Ψ2)(r^(Ψ1)r^(Ψ2))p0+p^p~(1p~)ϕnLlog(n) \left| r(\Psi_1) - r(\Psi_2) - (\hat{r}(\Psi_1) - \hat{r}(\Psi_2)) \right| \lesssim \frac{\left| \sqrt{p_0} + \sqrt{\hat{p}} \right|}{\tilde{p}(1-\tilde{p})} \sqrt{\phi_n L} \log(n) 这个推论的关键在于,MLP 训练的 BT 模型不仅能够准确预测偏好概率,还能在奖励差值上近似真实奖励差值。其中,p~\tilde{p} 是介于 p0p_0p^\hat{p} 之间的某个概率。需要注意的是,当 p~\tilde{p} 接近 0 或 1 时,分母 p~(1p~)\tilde{p}(1-\tilde{p}) 趋于 0,导致界限可能发散。这暗示了比较应该主要发生在奖励分数相对接近的响应对之间,以避免这种数值不稳定性。

4.2.3. 统一的序贯一致性目标

作者提出,LLM 对齐的奖励模型最终用于优化 LLM 的输出,这通常涉及到根据奖励分数对响应进行排序,然后选择最佳响应。因此,奖励函数 r^\hat{r} 只需要与真实奖励函数 rr 保持序关系一致 (Order-consistent) 即可,即使它们的值不完全相同,只要存在一个严格单调递增函数 hh 使得 r^()=h(r())\hat{r}(\cdot) = h(r(\cdot))

然而,在实际中,我们无法直接观测到真实的奖励 rr 或其精确排序。我们只能获得人类标注者给出的嘈杂的偏好标注 (Noisy Preference Annotations)。为了连接嘈杂标注和真实排序,作者提出了假设 5 (近似真实分数的不完美偏好标注)

  • 假设标注者正确判断偏好的概率 ξ(Δr)\xi(\Delta r) 是真实效用差值 \Delta r = |r(x_1, y_1) - r(x_2, y_2)| 的一个单调递增函数,且取值范围在 [0.5, 1] 之间。这意味着当两个响应的真实质量差异越大时,标注者越容易给出正确的判断。
  • 数学公式: P(h(x1,x2,y1,y2)(r(x1,y1)r(x2,y2))>0Δr)=ξ(Δr) \mathbb{P}\left(h(x_1, x_2, y_1, y_2) (r(x_1, y_1) - r(x_2, y_2)) > 0 \bigg| \Delta r \right) = \xi(\Delta r) 这里,h(x1,x2,y1,y2)h(x_1, x_2, y_1, y_2) 表示标注者给出的偏好(例如,如果 y1y_1 优于 y2y_2 则为 1,反之为 -1)。当 hh 与真实奖励差值的符号一致时,表示标注正确。

基于此,作者定义了序贯一致性 (Order Consistency) 损失:

  • 定义 8: Loc(r^)=Ex1,x2,y1,y2,hI[h=H^] \mathcal{L}_{\mathrm{oc}}(\hat{r}) = \mathbb{E}_{x_1, x_2, y_1, y_2, h} \mathbb{I}[h = \hat{H}] 该损失衡量的是学习到的序模型 H^\hat{H} 与实际标注 hh 一致的概率。这里的 H^\hat{H} 是一个二元预测器,判断哪个响应更优。

命题 9 (群体层面序贯一致性的下界) 证明了最小化可观测的 Loc\mathcal{L}_{\mathrm{oc}} 能够高概率地确保学习到的模型 H^\hat{H} 与真实的预言机效用 (Oracle Utility) 之间也保持序贯一致性。

  • 如果学习模型 H^\hat{H} 在标注数据上的错误率小于 δϵ\delta \epsilon,即 Ex1,x2,y1,y2,h1[h=H^]1δϵ\mathbb{E}_{x_1, x_2, y_1, y_2, h} \mathbb{1}[h = \hat{H}] \geq 1 - \delta \epsilon,那么在至少 1δ1-\delta 的概率下,对于任意给定的 Δr\Delta rH^\hat{H} 与预言机效用的序贯一致性具有如下的下界: Ex1,x2,y1,y2[1(H^[r(x1,y1)r(x2,y2)]0)Δr](1ϵ)ξ2(Δr)+ϵ(1ξ(Δr))2 \mathbb{E}_{x_1, x_2, y_1, y_2} \left[ \mathbb{1}\left(\hat{H} \cdot \left[r(x_1, y_1) - r(x_2, y_2)\right] \geq 0\right) \bigg| \Delta r \right] \geq (1-\epsilon) \cdot \xi^2(\Delta r) + \epsilon \cdot (1-\xi(\Delta r))^2 该公式表明,模型与真实排序的一致性下界与标注质量函数 ξ(Δr)\xi(\Delta r) 和模型在标注上的准确性(由 ϵ\epsilon 控制)有关。当 ξ(Δr)\xi(\Delta r) 较高(高质量标注)且 ϵ\epsilon 较小(模型在标注上准确)时,一致性下界会更高。
  • 进一步,在 ξ(Δr)\xi(\Delta r) 满足一定条件(例如 ξ(Δr)ϵ2+13ϵ+ϵ\xi(\Delta r) \ge \sqrt{\epsilon^2 + 1 - 3\epsilon} + \epsilon)时,可以得到更强的下界: Ex1,x2,y1,y2(x)[1(H^[r(x1,y1)r(x2,y2)]>0)]14ϵκδ \mathbb{E}_{x_1, x_2, y_1, y_2 \sim \ell(x)} \left[ \mathbb{1}\left(\hat{H} \cdot \left[r(x_1, y_1) - r(x_2, y_2)\right] > 0\right) \right] \geq 1 - 4\epsilon - \kappa - \delta 这强调了,即使在嘈杂的标注下,如果模型能够很好地拟合标注数据,它也能在很大程度上保持与真实奖励的排序一致性。

4.2.4. 基于分类的奖励模型作为替代

BT 模型通过其 σ(r^(Ψ1)r^(Ψ2))\sigma(\hat{r}(\Psi_1) - \hat{r}(\Psi_2)) 结构隐式地强制了反对称性,即如果 y1y_1 优于 y2y_2,那么 y2y_2 不优于 y1y_1。作者提出,这种显式的反对称约束可能不是必需的。我们可以通过训练一个普通的二分类器来学习序贯一致性,而无需显式地强制反对称性。

  • 分类方法的核心思想: 我们可以训练一个分类器 H^clf\hat{H}_{\mathrm{clf}},它接收一个提示-响应对 (x,y) 并预测它是否是“好”的响应(例如,在一个比较对中被偏好)。对于一个给定的比较 (x1,y1)(x_1, y_1)(x2,y2)(x_2, y_2),如果标注 h=1h=1(表示 y1y_1 优于 y2y_2),我们可以将 (x1,y1)(x_1, y_1) 视为“正例”而将 (x2,y2)(x_2, y_2) 视为“负例”。

  • 损失函数: 我们可以定义一个上界损失 Lclf\mathcal{L}_{\mathrm{clf}} 来训练这个分类器: Lclf:=E(h=H^clf(x1,y1))+E(h=H^clf(x2,y2)) \mathcal{L}_{\mathrm{clf}} := \mathbb{E}(h = \hat{H}_{\mathrm{clf}}(x_1, y_1)) + \mathbb{E}(-h = \hat{H}_{\mathrm{clf}}(x_2, y_2)) 这里的 E(h=H^clf(x1,y1))\mathbb{E}(h = \hat{H}_{\mathrm{clf}}(x_1, y_1)) 衡量的是分类器对第一个响应的偏好预测是否与真实标注 hh 一致,而 E(h=H^clf(x2,y2))\mathbb{E}(-h = \hat{H}_{\mathrm{clf}}(x_2, y_2)) 衡量的是分类器对第二个响应的非偏好预测是否与 -h 一致。最小化这个损失函数,即最大化分类准确率,可以作为实现序贯一致性的代理目标。

  • 与 BT 模型的联系 (命题 24): 作者通过 Jensen 不等式证明,基于分类的奖励模型所预测的 logit 值(可以作为奖励的代理),是 BT 模型真实奖励的下界。

    • 命题 24 (分类奖励): 假设数据确实来自 BT 模型(方程1),并且分数 si:=logitP(i wins)s_i := \mathrm{logit} P(i \text{ wins})BT 奖励 rir_i 相关,那么对于一个不依赖于 ii 的常数 CC,有: siriCs_i \geq r_i - C
    • 证明思路: 通过对 ii 竞争的 jj 进行条件化,并应用 Jensen 不等式,可以得到: P(i wins)=Ej[P(ijj)]=Ej[uiui+uj]uiui+E[uj] \mathbb{P}(i \text{ wins}) = \mathbb{E}_j [\mathbb{P}(i \succ j | j)] = \mathbb{E}_j \left[ \frac{u_i}{u_i + u_j} \right] \geq \frac{u_i}{u_i + \mathbb{E}[u_j]} 对两边取 logit 并代入 u_i = \exp(r_i),最终可以得到 sirilogE[exp(rj)]s_i \ge r_i - \log \mathbb{E}[\exp(r_j)]。其中 logE[exp(rj)]\log \mathbb{E}[\exp(r_j)] 是一个常数 CC,从而证明了 siriCs_i \geq r_i - C。 这个命题表明,分类模型学到的 logit 值可以看作是 BT 奖励的下界,因此它们在排序上是相关的,可以作为奖励的有效代理。

4.2.5. 重新思考偏好标注过程:跨提示比较

传统上,RLHF 中的偏好标注通常局限于比较同一提示 (same-prompt)LLM 生成的两个响应。作者质疑了这种做法的必要性,并理论分析了跨提示比较 (cross-prompt comparisons) 的潜在优势。

  • 标注质量与奖励差异: 标注的质量(即标注者正确判断的概率 ξ(Δr)\xi(\Delta r))与两个响应的真实奖励差值 Δr\Delta r 呈正相关。当 Δr\Delta r 越大,ξ(Δr)\xi(\Delta r) 越高,标注越可靠。

  • 示例 1 (高斯分数下的标注质量): 假设 LLM 对给定提示 xx 生成的响应 yy 的奖励 r(x,y) 服从高斯分布 N(μx,σx2)\mathcal{N}(\mu_x, \sigma_x^2)。那么,对于同一提示下的两个响应 y1,y2y_1, y_2,它们的奖励差值 r(x,y1)r(x,y2)r(x,y_1) - r(x,y_2) 将服从 N(0,2σx2)\mathcal{N}(0, 2\sigma_x^2)。此时的平均标注质量 Qpair(x)\mathcal{Q}_{\mathrm{pair}}(x) 可以计算为: Qpair(x)=Ey1,y2x[σ(βr(x,y1)r(x,y2))] \mathcal{Q}_{\mathrm{pair}}(x) = \mathbb{E}_{y_1, y_2 | x} \left[ \sigma(\beta |r(x,y_1) - r(x,y_2)|) \right] 其中,β\beta 是标注者能力的参数。通过变量变换可以推导出 \tau_x = \sigma(\beta |r(x,y_1) - r(x,y_2)|) 的概率密度函数 (PDF)。这个示例表明,标注质量与生成响应的效用多样性(由 σx2\sigma_x^2 控制)和标注者能力(由 β\beta 控制)紧密相关。

  • 命题 10 (跨提示比较增加效用多样性): 证明了跨提示比较在期望上能够增加响应对之间的奖励差异。

    • 数学公式: ExEy1,y2x[rx,y1rx,y2]Ex1,x2Ey1x1,y2x2[rx1,y1rx2,y2] \mathbb{E}_x \mathbb{E}_{y_1, y_2|x} \left[ |r_{x,y_1} - r_{x,y_2}| \right] \leq \mathbb{E}_{x_1, x_2} \mathbb{E}_{y_1|x_1, y_2|x_2} \left[ |r_{x_1, y_1} - r_{x_2, y_2}| \right]
    • 证明思路: 当两个响应来自同一提示时,它们的平均奖励差值通常较小(因为它们都尝试回答同一个问题,质量分布可能集中)。而当两个响应来自不同的提示时,它们的奖励分布中心和方差都可能不同,导致它们之间的奖励差值在期望上更大。这个命题直观地说明了跨提示比较能够提供更多“容易区分”的比较对,从而提高标注质量。
  • 定理 11 (跨提示标注提高标注质量): 将上述结论推广到更一般的响应效用分布。

    • 假设: 响应的效用值服从一个位置-尺度族 (Location-Scale Family) 的分布,其概率密度函数 gx(x)=f((xμx)/σx)g_x(x) = f((x-\mu_x)/\sigma_x),其中 ff 是一个单峰且关于 0 对称的密度函数。
    • 假设: 标注质量函数 ξ:R+[1/2,1]\xi: \mathbb{R}_+ \to [1/2, 1] 是一阶可微、单调递增且凹的函数。
    • 数学公式: Ex[Qpair(x)]Ex1,x2[Qcrossprompt(x1,x2)] \mathbb{E}_x [\mathcal{Q}_{\mathrm{pair}}(x)] \le \mathbb{E}_{x_1, x_2} [\mathcal{Q}_{\mathrm{cross-prompt}}(x_1, x_2)]
    • 证明思路: 这个定理是基于 引理 26、引理 27 和引理 28
      • 引理 26 表明,对于单峰对称分布的随机变量 zz,期望 E(ξ(z+μ))\mathbb{E}(\xi(|z+\mu|))μ\mu 的增函数。这意味着将分布的中心移动(即引入 μ\mu),会增加 |\cdot| 的期望值,进而增加 ξ()\xi(|\cdot|) 的期望值(因为 ξ\xi 是单调递增的)。
      • 引理 27 利用 ξ\xi 的凹性,证明了在同分布假设下,比较两个独立采样的变量与比较两个来自相同分布的变量的期望值的关系。
      • 引理 28 将上述结果推广到期望取自不同提示的情况。 综合这些引理,定理 11 确立了跨提示标注能够普遍提高标注质量,因为它们能够产生更大的奖励差异,从而使得标注者更容易做出准确判断。

5. 实验设置

5.1. 数据集

实验使用了两个广泛研究的 Anthropic 数据集:

  • Anthropic-Harmless (Bai et al., 2022a): 包含 41876 个训练提示和 2273 个测试提示。
  • Anthropic-Helpful (Bai et al., 2022a): 包含 42846 个训练提示和 2292 个测试提示。 选择这些数据集是因为它们在奖励建模领域得到了广泛研究,并且有开源的黄金奖励模型 (Golden Reward Models) 可用 (Yang et al., 2024b; Dong et al., 2023, 2024)。

数据集样本示例 (非原文提供,但为理解数据形态而补充):

  • Prompt (提示): "请写一首关于秋天的诗。"
  • Response 1 (响应 1): "秋叶飘零舞,金风送爽来。丰收之歌唱,大地换新装。"
  • Response 2 (响应 2): "萧瑟秋风起,落叶满地黄。寒意渐浓时,思念入心房。"
  • Preference (偏好): 人类标注者(或黄金奖励模型)可能会选择 Response 1 优于 Response 2,因为它更积极或更具诗意。

5.2. 评估指标

论文主要通过 Best-of-N (BoN) 采样 来评估学习到的奖励模型的有效性,并报告相对于基础模型 (Base Models) 的黄金奖励值改进 (Golden Reward Value Improvement)

  • Best-of-N (BoN) 采样:

    1. 概念定义: BoN 采样是一种 LLM 评估和输出优化技术。对于给定的提示,LLM 会生成 NN 个不同的候选响应。然后,一个奖励模型(或人类评估)对这 NN 个响应进行评分,并选择其中得分最高的响应作为最终输出。
    2. 目的: 在本文中,BoN 采样用于评估训练好的奖励模型能否有效区分高质量响应。通过选择 NN 个响应中奖励模型打分最高的响应,然后用一个独立的“黄金奖励模型”来评估这个选出的响应的实际质量。
    3. 计算过程:
      • 对于每个测试提示,使用 LLM 生成 N=500N=500 个响应。
      • 用训练好的奖励模型对这 NN 个响应进行评分。
      • 选择得分最高的响应。
      • 用一个独立的、预训练好的“黄金奖励模型”来评估这个被选出的响应的真实奖励分数。
      • 这个分数与基础模型(未经过奖励模型选择)的平均奖励分数进行比较,得到“黄金奖励值改进”。
    4. 符号解释:
      • NN: 生成的候选响应数量,本文设置为 500
      • Golden Reward Model: 一个预训练好的、被认为是提供高置信度真实奖励分数的模型。
      • Golden Reward Value Improvement: 通过 BoN 采样选择的响应的黄金奖励值与原始基础模型生成的响应的平均黄金奖励值之间的相对性能提升。这实际上衡量了奖励模型指导 LLM 找到更好响应的能力。
  • 评估选择的理由:

    1. 性能: 经验研究表明,BoN 在性能上优于 PPO (Proximal Policy Optimization) 等策略梯度优化方法。
    2. 稳定性与工程开销降低: BoN 不需要超参数调优,比 PPO 更稳定,能产生更一致和可解释的结果。
    3. 计算效率与可复现性: BoN 在测试时对 NN 次生成结果的重用性使其计算效率更高。对于 12,000 种实验设置,使用 PPO 需要为每个设置进行独立的 LLM 微调,计算成本极高。

5.3. 对比基线

论文将自己提出的基于分类的奖励模型与广泛使用的 BT 模型以及不同的实现方式进行了比较。此外,所有结果都与原始的基础 LLM (Base LLMs) 的表现进行了比较,以量化奖励模型带来的改进。

  • Bradley-Terry (BT) 模型实现:

    • BT-MLP: 传统的 BT 模型实现,要求孪生结构 (Siamese structure),即两个输入共享相同的 MLP 权重来计算奖励,然后取差值进行 Sigmoid 转换。这种实现方式是 BT 模型的标准做法。
  • 基于分类的奖励模型实现 (Alternatives):

    • CLF-MLP: 基于分类的奖励模型,后端使用多层感知机 (MLP) 作为分类器。为了公平比较,其 MLP 配置与 BT-MLP 相同,旨在隔离方法本身带来的收益。
    • CLF-LGB: 基于分类的奖励模型,后端使用 LightGBM (Ke et al., 2017) 作为分类器。LightGBM 是一种高效的梯度提升决策树 (Gradient Boosting Decision Tree) 算法,在机器学习应用中取得了广泛成功,并且在基于嵌入的奖励建模中也有成功应用。这种实现展示了分类方法可以利用现成的、高性能的机器学习算法的灵活性。
  • 基础 LLM (Base LLMs):

    • Gemma2b: 谷歌开发的 20 亿参数量的开源 LLM
    • Gemma7b: 谷歌开发的 70 亿参数量的开源 LLM
    • LLaMA3-8b: Meta 发布的 80 亿参数量的开源 LLM
    • SFT-ed 版本 (-SFT): 对上述三个基础模型进行了有监督微调 (Supervised Fine-Tuning, SFT) 的版本。SFT 使用 GPT4 生成的演示数据集进行,旨在提高模型遵循指令的能力,是 RLHF 的常见前置步骤。

5.4. 其他设置

  • 响应生成: 对于每个训练提示,LLM 生成 10 个响应作为训练候选;对于每个测试提示,生成 500 个响应用于 BoN 采样评估。
  • 嵌入创建 (Embeddings Creation): 使用 Gemma2b 模型生成所有提示-响应对的嵌入,作为奖励模型的输入特征。
  • 模拟偏好标注 (Simulated Preference Annotation):
    • 使用开源黄金奖励模型 (Open-source Golden Reward Models) 作为标注者,以模拟人类标注过程并保持可复现性。
    • 引入标注噪声 (Annotation Noise),遵循心理学中的认知瓶颈模型 (Cognitive Bottleneck Models)。即,当两个响应的真实奖励分数接近时,标注者误判的可能性更高。
    • 具体实现:标注者正确标注的概率为 ξ(Δr)=σ(βΔr)\xi(\Delta r) = \sigma(\beta \Delta r),其中 σ\sigmaSigmoid 函数,Δr\Delta r 是真实奖励差值的绝对值,β\beta 是控制标注质量的参数。
    • 标注质量参数 β\beta: 在实验中,β\beta 的范围从 0.510.0,对应着 5%5\%38%38\% 的标注错误率,这与真实人类标注的错误率相符。默认设置为 β=1\beta=1
    • 标注数量: 实验了 5000, 10000, 20000, 40000 条标注数量。
  • 跨提示比较设置 (Cross-Prompt Comparison Setups):
    • 标准设置: 标注者比较来自同一提示 (same-prompt) 的两个响应。
    • 跨提示设置 (X-Prompt): 标注者随机选择两个不同的提示-响应对进行比较和标注。
    • 合成比较设置 (Synthetic Comparison Setups): 为了进一步探索跨提示比较的价值,引入了两种合成设置:
      • 相似比较 (Similar Comparison): 选择来自同一提示的两个中间排名的响应进行比较,模拟响应质量相似、缺乏多样性的情况。
      • 多样化比较 (Diversified Comparison): 选择来自同一提示的最高排名和最低排名的响应进行比较,模拟响应质量差异大、多样性高的情况。
  • 随机种子 (Random Seeds): 为了确保结果的稳健性,所有实验均运行 5 次不同的随机种子,并报告结果的平均值和误差条。
  • 超参数 (Hyper-Parameters): 为了最大化隔离方法本身带来的收益,所有实验都使用相同的默认超参数设置,例如 LightGBM 使用 { 'objective': 'binary', 'metric': 'binary_logloss' } 的默认参数,MLP 也使用统一配置。

6. 实验结果与分析

6.1. 核心结果分析

本节通过实证结果验证了本文的洞察和方法论贡献,主要回答了三个问题:序贯一致性框架下不同学习目标的有效性、标注质量和数量对性能的影响、以及跨提示比较在奖励建模中的作用。

6.1.1. 比较 Bradley-Terry 模型和分类目标

下图(原文 Figure 1)展示了 BT 模型和基于分类的奖励模型(CLF-MLPCLF-LGB)在不同基础 LLM 和两个数据集 (HarmlessHelpful) 上的性能比较。Y 轴表示 BoN 采样下,相对于基础模型的黄金奖励值改进

Figure 1: Comparison between BT and Classification reward models. In general, the classification reward models achieve better performance than the BT reward models, with the added fexibility of using off-the-shelf classifiers beyond MLPs. Error bars are given by 5 runs with different seeds. 该图像是一个比较图表,展示了不同基础模型在两个任务(Harmless 和 Helpful)下的 Golden Reward Value Improvement。X 轴表示基础模型,Y 轴表示奖励值改进,BT-MLP、CLF-MLP 和 CLF-LGB 作为分类方法的表现被比较,结果显示 CLF 方法在多种设置下优于 BT 方法。

Figure 1: Comparison between BT and Classification reward models. In general, the classification reward models achieve better performance than the BT reward models, with the added fexibility of using off-the-shelf classifiers beyond MLPs. Error bars are given by 5 runs with different seeds.

分析与总结:

  • Figure 1 可以看出,在大多数情况下,基于分类的奖励模型(CLF-MLPCLF-LGB)的性能优于 BT 奖励模型(BT-MLP
  • CLF-LGB 模型通常表现最佳,这表明基于分类的方法不仅在概念上更灵活,可以利用 LightGBM 等现成的、高性能的机器学习算法,而且在实践中也能取得更好的效果。
  • 这些结果支持了本文的论点,即 BT 模型的精确概率建模并非 LLM 对齐奖励建模的必要条件,序贯一致性足以指导优化,并且可以通过更灵活的分类方法实现。

6.1.2. 标注质量和数量对性能的影响

本部分探讨了不同奖励模型在不同标注质量和数量条件下的性能。

6.1.2.1. 改变标注质量

下图(原文 Figure 2)展示了在不同标注错误率(通过 β\beta 参数控制,β\beta 越小错误率越高)下,各种奖励模型的性能。训练数据量固定为 40000 条标注。

该图像是一个比较不同奖励模型在不同注释错误率下的表现的图表。图表展示了五个实验设置的结果,包括 Gemma2b、Gemma2b-SFT、Gemma7b、LLama3-8以及 LLama3-8b-SFT,Y轴表示金标准奖励值,X轴表示注释错误率。 该图像是一个比较不同奖励模型在不同注释错误率下的表现的图表。图表展示了五个实验设置的结果,包括 Gemma2b、Gemma2b-SFT、Gemma7b、LLama3-8以及 LLama3-8b-SFT,Y轴表示金标准奖励值,X轴表示注释错误率。

Figure 2: Comparing different reward models under varying annotation error rates. The figure displays five experimental setups, including Gemma2b, Gemma2b-SFT, Gemma7b, LLama3-8, and LLama3-8b-SFT, with the Y-axis representing the golden standard reward value and the X-axis representing the annotation error rate.

分析与总结:

  • 标注质量高时 (β\beta 值大,错误率低): 当标注质量非常高(例如错误率低于 10%10\%,对应 β=5.0\beta=5.0β=10.0\beta=10.0)时,BT 模型有时能够超越分类模型,尤其是在某些特定的基础模型上。这可能与 BT 模型在数据高度可靠时,能够更准确地估计潜在概率分布的优势有关。
  • 标注质量差时 (β\beta 值小,错误率高): 随着标注错误率的增加,分类模型表现出更强的鲁棒性,性能下降幅度小于 BT 模型。这意味着在实际人类标注(通常包含一定噪声)场景中,分类模型可能是一个更可靠的选择。
  • 整体趋势: 随着 β\beta 值的增加(标注质量提高),所有模型的性能都普遍提升。

6.1.2.2. 改变标注数量

下图(原文 Figure 3)展示了在固定标注质量(β=1\beta=1)下,随着训练标注数量的增加(从 500040000),各种奖励模型的性能。

Figure 3: Changing the annotation quantity. Dataset: Harmless, Helpful. 该图像是一个图表,展示了不同训练注释数量对各个模型(包括 Gemma2b 和 LLaMA3-8b)的奖励值的影响。图中比较了 BT-MLP、CLF-MLP 和 CLF-GLB 三种方法,X轴表示训练注释数量,Y轴表示黄金奖励值,展示了不同方法在不同条件下的效果。

Figure 3: Changing the annotation quantity. Dataset: Harmless, Helpful.

分析与总结:

  • 分类模型优势: 在不同标注数量下,分类模型始终优于 BT 模型。它们不仅在相同标注数量下提供更好的性能,而且随着标注数量的增加,性能提升也更加稳定和显著。
  • 数据量与性能: 增加标注数量通常会带来更好的奖励模型性能,这符合机器学习的普遍规律。分类模型能够更有效地从增加的数据中学习。
  • 结合: 结合标注质量和数量的实验结果,分类模型在更广泛的实际应用场景(中等质量和不同数量的标注)中可能更具优势和实用性。

6.1.3. LLM 对齐与跨提示偏好标注

本部分探讨了跨提示比较 (cross-prompt comparisons) 相对于同提示比较 (same-prompt comparisons) 对奖励模型性能的影响。主要实验设置是 β=1\beta=140000 条标注。

6.1.3.1. 跨提示比较与同提示比较

下图(原文 Figure 4)展示了在两种数据集 (HarmlessHelpful) 和六个基础 LLM 上,同提示比较和跨提示比较的标注结果。阴影区域的柱状图表示跨提示比较的结果。

Figure 4: Results comparing cross-prompt comparison based annotations. Preference annotations on cross-prompt comparisons outperform same-prompt comparisons. 该图像是一个图表,展示了在无害和有帮助的随机比较中,不同基础模型的金色奖励值改进情况。通过比较 BT-MLP、CLF-MLP 等模型,在 Gemma2b-SFT 和 LLaMA3-8b 等基础模型上,展示了不同注释方式的效果。

Figure 4: Results comparing cross-prompt comparison based annotations. Preference annotations on cross-prompt comparisons outperform same-prompt comparisons.

分析与总结:

  • 跨提示比较的显著优势: Figure 4 的结果明确显示,基于跨提示比较的偏好标注显著优于基于同提示比较的标注。在所有基础模型和数据集上,跨提示标注都带来了更高的黄金奖励值改进。
  • 理论与实践一致: 这一实证结果与本文的理论分析(命题 10定理 11)一致,即跨提示比较能够增加响应对之间的效用差异,从而提高标注质量和奖励模型的学习效果。

6.1.3.2. 进一步探究:多样性与跨提示比较

为了深入理解跨提示比较的优势来源,作者引入了两个合成设置:

  • 相似比较 (Similar Comparison): 模拟单个提示下响应质量相似、缺乏多样性的场景。

  • 多样化比较 (Diversified Comparison): 模拟单个提示下响应质量差异大、多样性高的场景。

    下图(原文 Figure 5)展示了在这两种合成设置下,同提示比较和跨提示比较的性能。

    Figure 5: Results comparing cross-prompt comparison-based annotations on synthetically generated similar or diversified comparison pairs. Cross-prompt comparison significantly improves the performance of reward modeling with same-prompt response pairs lacking diversity. Error bars are from 5 runs with different seeds. 该图像是图表,展示了在相似和多样化比较下,BT-MLP 和 CLF-MLP 不同模型的黄金奖励值改善情况。结果表明,跨提示比较显著提高了在缺乏多样性的相同提示响应对中的奖励建模表现。误差条是基于 5 次不同种子的实验结果。

Figure 5: Results comparing cross-prompt comparison-based annotations on synthetically generated similar or diversified comparison pairs. Cross-prompt comparison significantly improves the performance of reward modeling with same-prompt response pairs lacking diversity. Error bars are from 5 runs with different seeds.

分析与总结:

  • 缺乏多样性场景下的重要性:相似比较设置中,传统的同提示比较方法通常无法生成有信息量的奖励模型,导致黄金奖励值改进很小甚至为负。然而,跨提示标注在这种情况下显著提升了性能。这表明当 LLM 生成的响应缺乏多样性时,跨提示比较是至关重要的。
  • 多样性高场景下的影响:多样化比较设置中,同提示比较已经能够取得较好的性能。此时,跨提示标注的额外增益虽然不如相似比较中那么显著,但也没有表现出明显的负面影响。
  • 稳定性: 综合两个合成设置以及 Figure 4 的结果,跨提示比较的优势体现在其普遍性和稳定性,它在不同响应多样性条件下都能提供可靠的性能提升。

6.1.3.3. 奖励差异与性能改进的关联

下图(原文 Figure 6)展示了成对标注中平均绝对分数差异 (averaged absolute difference in scores)跨提示标注带来的性能改进 (improvements achieved by using cross-prompt annotations) 之间的相关性。

Figure 6: Comparing the averaged absolute difference in scores in pairwise annotations (x-axis) and improvements achieved by using cross-prompt annotations (y-axis). The two variables are highly correlated. 该图像是一个散点图,展示了在‘无害’和‘有帮助’两种情境下,平均绝对奖励差异(x轴)与黄金奖励值改善(y轴)之间的关系。不同模型的相关性通过不同颜色的点和线进行区分,表明它们的表现差异。

Figure 6: Comparing the averaged absolute difference in scores in pairwise annotations (x-axis) and improvements achieved by using cross-prompt annotations (y-axis). The two variables are highly correlated.

分析与总结:

  • 强相关性: Figure 6 的散点图和线性拟合结果显示,成对标注中平均绝对分数差异与跨提示标注带来的性能改进之间存在高度相关性
  • 实际意义: 这进一步支持了本文的理论论点:当响应对之间的奖励差异越大(即越容易区分),标注质量越高,奖励模型学习的效果越好。
  • 实践洞察: 在实践中,当随机选择单个提示的两个响应进行标注时,这些响应对往往质量相似(即奖励差异小)。在这种情况下,跨提示标注提供了一种有效的方法来克服这种同提示响应多样性不足的挑战,从而提高奖励建模的性能

6.1.4. 补充实验结果

附录 EEFF 提供了更详尽的实验结果,包括在不同标注质量和数量下的跨提示比较,以及在 HelpsteerUltraFeedback 数据集上的额外验证。

  • 图 7-18 (Appendix E): 详细展示了在 HarmlessHelpful 数据集上,随着标注质量 (β\beta) 和数量的变化,BT 和分类模型的性能表现。这些图进一步强化了分类模型在大多数条件下的优越性和鲁棒性。
  • 图 16-20 (Appendix F):HelpsteerUltraFeedback 数据集上的结果与主要实验结论一致:
    • 图 16: 分类奖励模型(CLF-MLP, CLF-LGB)普遍优于 BT 奖励模型(BT-MLP)。
    • 图 17, 18: 分类模型在不同标注质量和数量下表现出更强的鲁棒性。
    • 图 19: 跨提示比较标注优于同提示比较标注。
    • 图 20: 跨提示比较在同提示响应对缺乏多样性时显著提高了奖励建模性能。

6.2. 数据呈现 (表格)

本论文主要通过图表展示实验结果,正文中没有提供需要转录的表格。因此,本节仅提及图表分析。

7. 总结与思考

7.1. 结论总结

本文对 Bradley-Terry (BT) 模型在偏好奖励建模 (Preference-Based Reward Modeling) 中的应用进行了全面而深入的重新思考,并取得了多项理论和实证上的重要发现:

  1. BT 模型的理论正当性: 论文首先回顾了 BT 模型在 LLM 奖励建模中的基础假设,并首次建立了基于深度神经网络 (Deep Neural Networks) 和嵌入 (Embeddings) 的 BT 奖励模型的渐近理论 (Asymptotic Theory)。这为 BT 模型在该上下文中的有效性提供了坚实的理论依据,证明了在有足够标注数据的情况下,模型能够收敛到真实的奖励函数。

  2. 序贯一致性的核心作用与替代方案: 论文强调了序贯一致性 (Order Consistency) 是奖励建模的真正核心目标,即奖励模型只需正确保留响应的相对排名,而无需精确估计其比较概率。在此基础上,论文证明 BT 模型本身具备序贯一致性。更重要的是,作者提出了一种基于分类 (Classification-based) 的奖励建模方法作为 BT 模型的灵活替代。实验结果表明,这种分类方法不仅在性能上通常优于 BT 模型,而且更具灵活性,能够兼容现成的机器学习分类器(如 LightGBM),并在不同标注质量和数量下表现出更强的鲁棒性。

  3. 跨提示比较的显著优势: 论文理论分析并实证验证了跨提示比较 (Cross-Prompt Comparisons) 在偏好标注中的优越性。理论上,跨提示比较能够增加比较对之间期望的奖励差异,从而提高标注质量。实验结果有力地支持了这一观点,尤其是在单个提示下响应多样性不足(即响应质量相似)的场景中,跨提示标注能够显著提升奖励模型的性能。这为 RLHF 数据的收集和标注策略提供了新的、更有效的方向。

    综上所述,本文不仅深化了对 BT 模型在 LLM 奖励建模中原理的理解,更提出了在理论和实践层面均有优势的替代方法和数据收集策略,对 LLM 对齐领域具有重要的指导意义。

7.2. 局限性与未来工作

论文本身并未设置专门的“局限性”章节,但从其研究的侧重点和讨论中可以推断出一些潜在的局限性和未来的研究方向。

潜在局限性:

  1. 理论分析的理想化假设: 尽管论文建立了基于 MLPBT 回归的渐近理论,但这些理论通常依赖于某些理想化假设,例如真实奖励函数的光滑性(Hölder smooth)、概率的“小值界”(small value bound)以及网络参数的范数限制和稀疏性。在实际应用中,这些假设可能无法完全满足,特别是在数据分布复杂或网络结构非常庞大时。
  2. 嵌入质量的依赖性: 论文假设存在一个“已知且良好的嵌入函数 Ψ(,)\Psi(\cdot,\cdot)”。奖励模型性能很大程度上依赖于这些嵌入的质量。如果嵌入无法很好地捕获提示-响应对的语义和质量信息,奖励模型的性能将受到限制。论文中将嵌入学习与奖励建模任务分离,这有助于隔离收益来源,但也意味着它没有解决如何优化嵌入本身的问题。
  3. 标注噪声模型的简化: 尽管论文引入了认知瓶颈模型来模拟标注噪声,并使用 Sigmoid 函数 σ(βΔr)\sigma(\beta \Delta r) 来量化标注质量,但这仍然是对复杂人类认知过程的简化。真实的人类偏好可能涉及更复杂的非线性、非传递性或上下文依赖的噪声模式,这些可能未被当前模型完全捕获。
  4. 下游优化方法的兼容性: 论文主要通过 Best-of-N (BoN) 采样来评估奖励模型,因为它稳定且高效。然而,RLHF 实践中也广泛使用 PPO 等策略梯度方法进行 LLM 微调。虽然 BoN 已经显示出优异性能,但分类奖励模型和跨提示标注方法在 PPO 等更复杂的下游优化框架中的表现和兼容性仍需进一步探究。
  5. 跨提示比较的实际实施成本: 尽管理论和实验都显示了跨提示比较的优势,但在实际的大规模标注工作中,将来自不同提示的响应进行配对可能比仅比较同一提示下的响应更具操作复杂性,例如可能需要更复杂的标注界面或更长的标注时间(因为标注者需要切换上下文)。

未来工作:

  1. 嵌入学习与奖励建模的结合: 探索如何将奖励模型学习与嵌入学习任务结合起来。例如,利用生成式奖励模型 (Generative Reward Models) 或其他表示学习技术来优化嵌入,从而进一步提高奖励建模的性能。
  2. 结合 LLM 的生成能力: 结合 LLM 作为词元生成器的能力,与不同的序贯一致性目标结合,以改进评估能力和奖励预测。例如,利用 LLM 的内在知识来生成更具信息量的比较或进行自我评估。
  3. 更复杂的偏好建模: 探索超越 BTThurstonian 模型的更复杂偏好建模方法,以捕获非传递性偏好、多属性偏好或上下文敏感偏好。
  4. 鲁棒性研究: 进一步研究奖励模型在极端标注噪声、对抗性攻击或分布外数据上的鲁棒性。
  5. 跨提示比较的优化策略: 深入研究跨提示比较的最佳策略,例如如何智能地选择要进行比较的跨提示响应对,以最大化信息增益并最小化标注成本。这可能涉及基于奖励差异预测、嵌入空间距离或其他启发式方法来构建比较对。
  6. 下游优化验证: 在更广泛的 RLHF 框架(如 PPODPO 等)中,验证分类奖励模型和跨提示标注的有效性,并探讨它们对最终 LLM 性能和对齐效果的影响。

7.3. 个人启发与批判

个人启发:

  1. 目标清晰化是关键: 本文最深刻的启发在于对奖励模型目标函数的重新审视。长期以来,我们可能习惯性地接受 BT 模型及其精确概率建模的目标,却忽略了 RLHF 下游优化真正的需求只是可靠的排序。这种“目标清晰化”的思想,即识别核心任务的最低必要条件,可以指导我们开发更简单、更灵活、更高效的算法。它提醒我们,在复杂系统中,不必总是追求“完美建模”,而应聚焦于“足够好地解决实际问题”。
  2. 简单即有效: 基于分类的奖励模型作为 BT 的替代方案,其思想非常直观和简单,却在实证中表现出优异性能。这再次印证了在机器学习领域“简单模型在特定场景下可以超越复杂模型”的原则。它为资源受限或需要快速迭代的团队提供了更具吸引力的选择,因为它可以利用现成的、经过优化的分类器。
  3. 数据收集策略的创新潜力: 跨提示比较的发现尤其具有实践意义。它挑战了我们对“偏好数据应该如何收集”的传统认知。通过增加比较对象的内在差异性,可以提高标注效率和数据质量,这对于减少昂贵的人工标注成本具有巨大潜力。这启发我们,数据并非固定不变,而是可以通过巧妙的设计来优化其信息价值。在构建偏好数据集时,我们应跳出同提示比较的思维定式,积极探索更多样化的数据配对策略。
  4. 理论指导实践的典范: 本文从理论(渐近理论、序贯一致性下界)出发,推导出实践(分类模型、跨提示比较)上的创新,并最终通过大规模实证验证了这些创新。这提供了一个理论研究如何有效指导和改进实际工程实践的典范。

批判性思考:

  1. “足够好”的界限在哪里? 论文论证了“序贯一致性”足以进行优化,但对于实际 LLM 对齐而言,“足够好”的排序是否真的等同于“足够好”的 RLHF 效果?例如,奖励模型的校准性 (Calibration)(即预测概率与真实概率的匹配程度)虽然可能不是直接的排序目标,但它在 RL 探索-利用平衡 (Exploration-Exploitation Trade-off) 中可能扮演更微妙的角色。一个校准性差但排序准确的奖励模型,在指导 PPO 等算法进行探索时,可能会导致不佳的策略更新。未来的工作可能需要更深入地探讨在复杂 RL 训练过程中,哪些奖励模型特性是“必要”的,哪些是“次要”的。

  2. 分类奖励模型的泛化性与鲁棒性: 尽管 CLF-LGB 表现出色,但其非神经网络特性在处理高度复杂的、非结构化的 LLM 嵌入(特别是当嵌入维度非常高时)时,其理论上的泛化能力和对微小扰动的鲁棒性是否能与 MLP 媲美?LGBM 擅长捕捉特征之间的非线性关系,但在处理原始的、高维的、语义复杂的嵌入时,其信息提取能力可能不如深度 MLP。未来的研究可以探索混合架构,或者对 CLF-LGB 在不同嵌入质量下的表现进行更细致的分析。

  3. 跨提示比较的负面效应探讨: 尽管论文强调了跨提示比较的优势,但其潜在的负面效应是否被充分探索?例如:

    • 上下文切换成本: 标注者在比较来自不同提示的响应时,可能需要更频繁地切换思维上下文,这可能增加认知负荷,导致标注效率下降或疲劳,尽管标注质量可能提高。
    • 歧义性增加: 如果跨提示的响应在语义上完全不相关,标注者可能会觉得比较没有意义或难以判断,导致随机标注的比例增加。论文中并未深入探讨这种“无意义比较”的阈值。
    • 模型训练的复杂性: 跨提示比较虽然为训练提供了更多多样性,但如果数据分布过于发散,是否会增加模型训练的难度,要求更强的模型容量或更长的训练时间?
  4. 现实世界标注流程的适配性: 论文的实验是基于模拟标注进行的。在真实的、大规模的人工标注场景中,如何无缝地将跨提示比较整合到现有的标注工具和工作流中,以确保其效率和可操作性,仍然是一个工程挑战。需要考虑标注任务的设计、界面优化和标注者的培训。

    总的来说,本文为 LLM 对齐中的奖励建模带来了新的视角和有效的工具,并为未来的研究开辟了广阔的道路。

相似论文推荐

基于向量语义检索推荐的相关论文。

暂时没有找到相似论文。