Learning to Align, Aligning to Learn: A Unified Approach for Self-Optimized Alignment
TL;DR 精炼摘要
本文提出GRAO统一框架,融合监督微调与强化学习优势,通过多样本生成、组直接对齐损失及成对偏好感知更新,提升模型对齐效率和稳定性。理论和实验证明,GRAO在复杂人类对齐任务中显著优于现有方法。
摘要
000 001 002 003 004 005 006 007 008 009 010 011 012 013 014 015 016 017 018 019 020 021 022 023 024 025 026 027 028 029 030 031 032 033 034 035 036 037 038 039 040 041 042 043 044 045 046 047 048 049 050 051 052 053 Under review as a conference paper at ICLR 2026 L EARNING TO A LIGN , A LIGNING TO L EARN : A U NI - FIED A PPROACH FOR S ELF -O PTIMIZED A LIGNMENT Anonymous authors Paper under double-blind review A BSTRACT Alignment methodologies have emerged as a critical pathway for enhancing lan- guage model alignment capabilities. While SFT (supervised fine-tuning) acceler- ates convergence through direct token-level loss intervention, its efficacy is con- strained by offline policy trajectory. In contrast, RL(reinforcement learning) fa- cilitates exploratory policy optimization, but suffers from low sample efficiency and stringent dependency on high-quality base models. To address these dual challenges, we propose GRAO (Group Relative Alignment Optimization), a uni- fied framework that synergizes the respective strengths of SFT and RL through three key innovations: 1) A multi-sample generation strategy enabling compar- ative quality assessment via reward feedb
思维导图
论文精读
中文精读
1. 论文基本信息
1.1. 标题
学习对齐,对齐学习:一种自优化对齐的统一方法 (Learning to Align, Aligning to Learn: A UniFIED APPROACH FOR SELF-OPTIMIZED ALIGNMENT)
1.2. 作者
匿名作者 (Anonymous authors),论文处于双盲评审阶段。
1.3. 发表期刊/会议
OpenReview,这是一个通常用于学术论文预印本和同行评审的平台,其论文在正式发表前在此进行展示和讨论。
1.4. 发表年份
2025年 (Published at (UTC):2025-10-08T00:00:00.000Z)
1.5. 摘要
语言模型对齐方法已成为增强模型对齐能力的关键途径。监督微调 (Supervised Fine-Tuning, SFT) 通过直接的词元级损失干预加速收敛,但其效果受限于离线策略轨迹 (offline policy trajectory)。相比之下,强化学习 (Reinforcement Learning, RL) 促进探索性策略优化,但存在低样本效率 (low sample efficiency) 和对高质量基础模型 (base models) 严格依赖的问题。为了解决这些双重挑战,本文提出了 群组相对对齐优化 (Group Relative Alignment Optimization, GRAO),一个统一的框架,通过三项关键创新协同SFT和RL各自的优势:1) 多样本生成策略 (multi-sample generation strategy),通过奖励反馈 (reward feedback) 实现比较性质量评估;2) 一种新颖的 群组直接对齐损失 (Group Direct Alignment Loss) 公式,利用组内相对优势加权 (intra-group relative advantage weighting);3) 由成对偏好动态 (pairwise preference dynamics) 指导的参考感知参数更新 (Reference-aware parameter updates)。理论分析确立了GRAO的收敛保证和相对于传统方法的样本效率优势。在复杂的人类对齐任务 (human alignment tasks) 上的综合评估表明,GRAO表现优异,相对于SFT、DPO、PPO和GRPO基线分别实现了 、、 和 的相对改进。这项工作为语言模型的高效能力演进 (efficient capability evolution) 提供了一个理论基础的对齐框架和经验证据。
1.6. 原文链接
https://openreview.net/forum?id=zFLCNnKY8U
1.7. PDF 链接
https://openreview.net/pdf?id=zFLCNnKY8U
2. 整体概括
2.1. 研究背景与动机
大型语言模型 (Large Language Models, LLMs) 在对齐能力方面的突破性进展(例如DeepSeek和OpenAI的模型)表明,对齐能够显著提升模型的性能。现有研究已证实,监督微调 (SFT) 和强化学习 (RL) 过程的交替使用,通过知识注入 (knowledge injection) 和强化探索 (reinforcement exploration),可以增强模型在数学等复杂推理任务中的对齐能力。然而,当前的对齐优化过程仍主要依赖经验,例如SFT和RL在每个阶段的数据使用量、它们的交替顺序以及交替次数等问题尚未得到系统性解决。
论文指出现有对齐方法的局限性:
-
SFT的局限性: 尽管SFT在知识注入方面效率高,但其效果受限于离线策略轨迹 (offline policy trajectory),容易导致知识遗忘 (knowledge forgetting) 和泛化能力下降 (decline of generalization of out-of-distribution, OOD)。它无法使模型超越训练数据中给定策略的上限。
-
RL的局限性: RL能够促进探索性策略优化,但存在样本效率低 (low sample efficiency) 和对高质量基础模型 (base models) 严格依赖的问题。例如,PPO和GRPO等RLHF方法在采样的轨迹未能产生正确答案时,会直接丢弃样本,这意味着它们无法解决超出其当前能力范围的问题。Deepseek-Zero 尝试仅用RL过程直接对齐预训练模型,虽然展示了复杂推理能力,但也暴露出可读性和指令遵循方面的挑战。
鉴于这些挑战,本文的动机是开发一个统一的对齐框架,能够结合SFT的知识注入效率和RL的探索能力,同时克服它们的固有局限,实现模型对齐能力的自优化和超越。
2.2. 核心贡献/主要发现
本文提出了 群组相对对齐优化 (Group Relative Alignment Optimization, GRAO) 框架,其核心贡献和主要发现包括:
- 提出了新颖的统一对齐框架GRAO和群组直接对齐损失 (Group Direct Alignment Loss):GRAO将SFT和RL的优势结合起来,通过“模仿-探索-超越 (imitate-explore-transcend)”的过程,在保持模型自身采样空间探索的同时,学习并超越其现有能力的对齐行为。
- 详细阐述了GRAO的理论、经验和计算依据:论文提供了GRAO的收敛性分析,并对模型的生成行为进行了事后分析,展示了优化收敛和对齐能力从标准输出的“模仿-探索-超越”过程。理论分析确立了GRAO的收敛保证和相对于传统方法的样本效率优势。
- 通过广泛实验验证了GRAO的优越性能:在标准对齐任务 (standard alignment tasks) (Helpful和Harmless对齐) 上,GRAO在Qwen2.5-7B和Moonlight-16B模型上显著优于SFT、DPO、PPO和GRPO等传统对齐范式。
-
相对于SFT、DPO、PPO和GRPO基线,GRAO分别实现了 、、 和 的平均相对性能提升。
-
在MoE架构上,GRAO相对于GRPO在
NAG指标上甚至实现了高达 的改进。 -
实验结果还揭示了探索 (exploration) 和利用 (exploitation) 在协作学习任务中平衡的有趣见解。
这些贡献表明GRAO能够使模型在整个训练过程中获得更深入、更普适的对齐行为,克服了现有方法的奖励稀疏性 (reward sparsity) 和策略不稳定性 (policy instability) 等关键挑战。
-
3. 预备知识与相关工作
3.1. 基础概念
为了理解本文提出的 GRAO 框架,读者需要对以下概念有基本了解:
-
大型语言模型 (Large Language Models, LLMs):通过大规模文本数据训练的深度学习模型,能够理解、生成和处理人类语言。
-
对齐 (Alignment):指使
LLM的行为和输出符合人类的偏好、意图和价值观的过程,通常关注有益性 (Helpfulness) 和无害性 (Harmlessness)。 -
监督微调 (Supervised Fine-Tuning, SFT):
- 概念定义:在预训练模型的基础上,使用人类标注的指令-响应对数据集进行额外训练的过程。目标是让模型模仿人类的示范,直接学习到期望的行为模式。
- 核心机制:
SFT通过最大化序列似然 (sequence likelihood) 来优化模型参数。它将每个响应视为一个词元序列,并尝试最大化生成该序列的条件概率。 - 优点:高效的知识注入,训练稳定,计算成本相对较低。
- 局限性:受限于训练数据的质量和多样性,模型无法超越训练数据中的策略,可能导致知识遗忘 (catastrophic forgetting) 和泛化能力 (generalization ability) 下降。
-
强化学习 (Reinforcement Learning, RL):
- 概念定义:一种机器学习范式,智能体 (agent) 通过与环境的交互学习,根据获得的奖励信号调整其行为策略,以最大化累积奖励。
- 核心机制:在
LLM对齐中,模型被视为一个生成文本的智能体,其生成的响应会通过奖励模型 (Reward Model, RM) 获得奖励,然后RL算法(如PPO)根据这些奖励信号更新模型的策略。 - 优点:能够通过探索发现新的、更优的行为模式,超越专家示范。
- 局限性:样本效率低(需要大量交互),训练不稳定,对奖励信号质量敏感,需要高质量的基础模型。
-
强化学习与人类反馈 (Reinforcement Learning from Human Feedback, RLHF):
- 概念定义:一种将人类偏好引入
RL过程的范式。人类通过比较模型生成的不同响应来提供反馈,这些反馈用于训练一个奖励模型 (Reward Model),然后该奖励模型指导RL过程优化LLM。 - 核心流程:通常包括三个阶段:1)
SFT;2) 训练奖励模型;3) 使用奖励模型通过RL算法(如PPO)微调SFT模型。
- 概念定义:一种将人类偏好引入
-
近端策略优化 (Proximal Policy Optimization, PPO):
- 概念定义:一种常用的
RL策略梯度算法,通过限制每次策略更新的幅度(使用KL散度)来提高训练的稳定性和效率。 - 优点:在许多
RL任务中表现出色,是RLHF中的标准算法之一。 - 局限性:样本效率仍相对较低,对奖励模型质量依赖高。
- 概念定义:一种常用的
-
直接偏好优化 (Direct Preference Optimization, DPO):
- 概念定义:一种不显式训练奖励模型的对齐方法。它将
RLHF中的偏好数据直接转换为一个二分类任务,优化一个能够区分偏好响应和非偏好响应的策略。 - 核心机制:通过一个简单的损失函数,直接根据人类偏好数据更新策略,避免了训练和维护奖励模型的复杂性。
- 优点:训练稳定,计算效率高,无需显式奖励模型。
- 概念定义:一种不显式训练奖励模型的对齐方法。它将
3.2. 前人工作
论文在“相关工作”部分总结了 SFT、RLHF 和 不依赖奖励模型的对齐方法 三类主要研究。
3.2.1. 基于监督微调的对齐 (Alignment With Supervised Fine-Tuning)
- 基础与基线:Ouyang et al. (2022) 证明了训练一个监督策略作为对齐的基线至关重要。工业界和学术界广泛依赖指令微调模型。
- 持续相关性:Tunstall et al. (2023) 和 Rafailov et al. (2024) 经验性地证明
SFT训练的模型是稳定收敛到偏好对齐结果的先决条件。 - 效率机制:
SFT通过最大似然估计 (MLE) 优化序列似然 (sequence likelihood),最大化给定查询 和前序词元 下生成词元 的条件概率 ,避免了复杂的策略梯度计算。- 归一化项 确保不同长度的响应贡献均等,保持计算效率。
- 期望 作用于静态的人类标注数据,不需要交互式环境或奖励建模。
- 核心损失函数:
SFT使用标准交叉熵损失计算梯度,降低了噪声和方差。其目标函数为: 其中, 是模型参数, 是输入查询, 是真实响应, 是响应长度, 是在给定查询和前序词元下生成当前词元的概率。 - 应用实例:Zhou et al. (2023a) 展示了少量高质量样本即可训练出高效的
AI助手;Haggerty & Chandra (2024) 提出了迭代SFT框架;Zhou et al. (2023b) 通过精心策划的偏好数据子集实现对齐,无需显式奖励建模。 - 理论基础:Chu et al. (2025) 认为
SFT在记忆对齐模式、稳定模型输出和快速收敛到高性能状态方面发挥关键作用。
3.2.2. 基于人类反馈的强化学习 (Reinforcement Learning with Human Feedback, RLHF)
- 核心机制:
RLHF利用偏好建模框架 (preference modeling frameworks)(如 Bradley-Terry 模型 (Bradley & Terry, 1952))估计模型输出的成对比较概率 (pairwise comparison probabilities)。 - 奖励模型:
RLHF的核心组成部分是训练一个奖励模型 (reward model) 来评估响应。 - 优化算法:随后,
PPO(Schulman et al., 2017) 和GRPO(Group Relative Policy Optimization) (Shao et al., 2024) 等RL算法迭代地优化语言模型,以最大化人类偏好输出的预期奖励 (Stiennon et al., 2022; Ziegler et al., 2020)。 - 最新进展:
- 生成式奖励模型 (Generative Reward Models):Mahan et al. (2024) 证明了能直接从语言模型输出合成偏好信号的生成式奖励模型可以提高对齐性能。
AI反馈强化学习 (RLAIF):Lee et al. (2024) 形式化了RLAIF,表明辅助LLM提供的自动化反馈可以与人类评估者媲美 (Bai et al., 2022b; Pang et al., 2023)。
- 深层影响:Chu et al. (2025) 的研究表明,
RL训练中的基于结果的奖励信号 (outcome-based reward signals) 增强了模型在复杂推理任务中的泛化能力,表明RLHF既强化了表面对齐,也强化了深层认知结构。
3.2.3. 不依赖奖励模型的对齐 (Alignment without Reward Modeling)
- 范式转变:这一领域通过直接偏好优化 (direct preference optimization),绕过了传统的奖励建模流程。
- 代表性方法:
- 直接偏好优化 (Direct Preference Optimization, DPO) (Rafailov et al., 2024):将奖励建模和偏好优化阶段整合到统一的训练目标中,无需显式奖励函数近似。
- 身份偏好优化 (Identity Preference Optimization, IPO) (Ethayarajh et al., 2024):通过正则化机制减少过拟合,约束策略更新以保留未改变响应的相对偏好。
- 卡尼曼-特沃斯基优化 (Kahneman-Tversky Optimization, KTO) (Azar et al., 2023):完全放弃对成对偏好数据的依赖,转而利用基于前景理论 (prospect theory) 的点态人类判断 (pointwise human judgments),使优化与人类固有认知偏差对齐,同时保持竞争性性能。
- 共同特点:这些方法通过将对齐重新定义为词元级优化挑战 (token-level optimization challenge),证实了直接偏好对齐的可行性和计算效率。它们提供了解释性强、可扩展的替代方案,并暗示了:当人类偏好可以通过精心设计的损失函数直接编码到策略梯度中时,显式奖励函数可能是冗余的中间环节。
3.3. 技术演进
LLM 对齐技术大致经历了从模仿 (Imitation) 到探索 (Exploration),再到直接优化 (Direct Optimization) 的演进:
- SFT 阶段:最初,模型通过模仿人类标注的示范进行对齐。这是一种高效的知识注入方式,但其上限受限于示范数据,难以超越。
- RLHF 阶段:为了突破
SFT的局限,RLHF引入了奖励模型 (Reward Model) 和RL算法 (PPO,GRPO),使模型能够通过探索发现更优的策略,并根据人类偏好进行迭代优化。这带来了更强的探索能力和泛化性,但也引入了奖励模型训练的复杂性、RL训练的不稳定性以及样本效率低的问题。 - 不依赖奖励模型的对齐阶段:
DPO、IPO、KTO等方法尝试简化RLHF流程,通过巧妙设计的损失函数直接从偏好数据中学习,避免了显式奖励模型的训练。这提高了效率和稳定性,但可能在探索能力上有所限制。
3.4. 差异化分析
GRAO 的核心创新在于它试图统一 SFT 和 RL 的优势,并解决它们的固有局限。
- 与
SFT的差异:GRAO不仅仅是模仿离线策略轨迹 (offline policy trajectory),它通过探索 (exploration) 和奖励反馈 (reward feedback),使模型能够生成并学习超越参考答案的新轨迹,实现“超越”。SFT无法进行这种探索。 - 与
RLHF(PPO, GRPO) 的差异:GRAO引入了多样本生成策略 (multi-sample generation strategy) 和群组相对优势加权 (intra-group relative advantage weighting),这有助于缓解RL训练中常见的奖励稀疏性 (reward sparsity) 和样本效率低 (low sample efficiency) 的问题。GRAO通过SFT组件(J_imitation)提供快速初始收敛 (Rapid Initial Convergence),而纯RL方法(如PPO、GRPO)在训练初期可能面临策略不稳定性 (policy instability) 和对高质量基础模型 (high-quality base models) 的严格依赖。GRAO的对齐正则化器 (Alignment Regularizer) 明确地协调了生成轨迹和参考轨迹的似然,这在标准的PPO或GRPO中不直接存在。
- 与
DPO/IPO/KTO的差异:-
虽然
DPO等方法也避免了显式奖励模型,但它们主要侧重于直接从成对或点态偏好数据中学习,其探索能力不如GRAO这种结合了RL探索组件的方法。GRAO通过J_exploration明确鼓励探索,并在学习过程中动态调整探索与模仿的平衡。 -
GRAO的群组相对优势 (Group Relative Advantage)概念,允许在多个生成样本中进行比较性评估,从而更细致地指导策略更新。总而言之,
GRAO提供了一个更全面的框架,旨在通过动态平衡模仿和探索,实现更高效、更稳定的对齐学习,并最终使模型能够超越现有能力的上限。
-
4. 方法论
4.1. 方法原理
GRAO (Group Relative Alignment Optimization) 的核心思想是提供一个统一的优化目标,将监督微调 (SFT) 的高效知识注入能力与强化学习 (RL) 的探索能力融合起来。其目标是使模型通过模仿 (imitate)、探索 (explore) 和超越 (transcend) 的自适应过程,提高其推理、分析解决问题的能力,并最终提升整体对齐性能。
GRAO 旨在解决现有 SFT 和 RL 方法的局限:
-
SFT效率高但受限于离线策略轨迹 (offline policy trajectory),无法超越训练数据的上限。 -
RL鼓励探索但样本效率低 (low sample efficiency),且高度依赖高质量的基础模型 (base models)。GRAO通过动态整合离线轨迹 (off-policy trajectories) 到优势估计 (advantage estimation) 中,并持续鼓励训练中的探索,从而实现鲁棒的学习和适应性。它不仅仅严格模仿标准轨迹,而是在模型自身轨迹表现不佳时才偏向模仿,并通过根据策略奖励调整学习来引导新轨迹的探索,从而使模型能够学习超越其初始范围的对齐能力,同时保持多样化的探索。
4.2. 核心方法详解
4.2.1. GRAO 优化目标概述
下图(原文 Figure 1)概述了 GRAO 的优化过程。
首先,一个 Policy Model(策略模型)接收一个查询(Query)并生成多个样本(Sample 1 到 Sample G),以及一个作为参考轨迹 (Reference Trajectory) 的基础模型输出 (Base Model Output)。接着,一个奖励模型 (Reward Model) 对所有这些样本和参考轨迹进行评分,评估它们的质量。然后,Group Computation(群组计算)模块计算每个样本相对于群组中其他样本和参考轨迹的相对优势 (Relative Advantage)。最后,这些优势值被送入 Group Direct Alignment Loss(群组直接对齐损失)模块,该模块利用这些信息来更新 Policy Model 的参数,从而优化模型的对齐能力。
以下是原文 Figure 1 的图像:
该图像是论文中关键方法的示意图,展示了基于Policy Model生成多样样本,经Reward Model评分,再通过Group Computation计算相对优势,最终利用Group Direct Alignment Loss进行模型更新的流程。
Figure 1: Overview of the Optimization Process in GRAO.
GRAO 的优化目标 定义如下:
其中:
- 是输入查询 (input query),从数据分布
P(Q,Y)中采样。 - 是参考轨迹 (reference trajectory),从数据分布
P(Q,Y)中采样。 - 表示从旧策略 (old policy) 中采样的 条轨迹的集合。
4.2.2. 群组直接对齐损失 (Group Direct Alignment Loss)
GRAO 的核心损失函数结合了三个组成部分:
其中:
- :输入查询 (input query)。
- :参考轨迹 (reference trajectory),通常是高质量的人类示范或来自强大模型的输出。
- :由当前策略 生成的第 个输出轨迹 (output trajectory)。
- :每次查询生成的样本轨迹总数 (group size)。
- :当前策略 在给定查询 和先前词元 的条件下,生成词元 的概率。
- :当前策略 在给定查询 和先前词元 的条件下,生成参考轨迹 中词元 的概率。
- :探索项 (exploration term),衡量当前策略生成轨迹 的对数似然,通过
group_average归一化。这鼓励策略增加其自身生成的高优势轨迹的似然。 - :模仿项 (imitation term),衡量当前策略生成参考轨迹 的对数似然,通过
group_average归一化。这鼓励策略模仿高质量的参考轨迹。 - :轨迹 的归一化优势 (normalized advantage)。它衡量轨迹 相对于群组内平均奖励的质量。
- :参考轨迹 的归一化优势。它衡量参考轨迹 相对于群组内平均奖励的质量。
- :模仿和探索之间的平衡超参数 (hyperparameter)。它控制了模仿项在总损失中的重要性。较大的 值意味着模型更倾向于模仿参考轨迹。
- :对齐正则化强度超参数 (alignment regularization strength hyperparameter)。它控制对齐正则化项的重要性。
三个核心组成部分的功能:
-
引导探索与自我修正 (Guided Exploration and Self-Correction):由 表示。它鼓励策略增加具有正优势的轨迹的似然,同时抑制表现较差的样本,从而推动模型的自适应改进。
-
监督模仿 (Supervised Imitation):由 表示。它对参考答案施加模仿压力。其强度由 调节,平衡了从高质量示范中学习与探索之间的关系。
-
对齐正则化器 (Alignment Regularizer):由 表示。它使用 来对齐生成轨迹和参考轨迹的似然,放大表现优异的响应,并惩罚表现劣质的响应。这个项鼓励模型在探索中保持与参考的对齐,同时在发现更好的轨迹时能够超越参考。
这些机制共同促进了鲁棒和稳定的策略优化,通过正则化更新实现了探索和强大的参考对齐。
4.2.3. 优势计算与归一化 (Advantage Calculation with Normalization)
归一化优势 定义为: 其中:
-
是轨迹 (或 ) 的原始奖励 (raw reward)。这个奖励是通过奖励模型评估轨迹 和参考轨迹 得到的。这里的 实际上是对 和 进行比较后给出的奖励,可以理解为 或者直接由奖励模型给出 的分数。论文后续的
RAS定义中使用了 ,这表明 实际上是 相对于 的相对奖励。 -
表示群组中 条轨迹的平均奖励 (mean reward)。
-
是群组内奖励的标准差 (standard deviation)。
这种归一化处理有助于稳定训练,防止梯度爆炸,并使优势值在不同批次和不同奖励尺度下具有可比性。
4.2.4. 理论分析 (Theoretical Analysis)
论文在附录 A.1 中提供了 GRAO 优化目标的收敛性分析,证明了在适当条件下,当学习率调度合适时,期望梯度范数在极限情况下趋近于零。
收敛性假设 (Assumptions):
- (A1) L-光滑目标 (L-smooth objective):目标函数 是
L-光滑的,即其梯度是L-Lipschitz连续的。 其中 是Lipschitz常数, 是参数空间。 - (A2) 有界策略梯度 (Bounded policy gradients):存在一个常数 ,使得策略的对数概率梯度几乎处处有界。 其中 是动作, 是状态。
- (A3) 奖励有界性 (Reward boundedness):所有轨迹的奖励 有界,小于等于 。
- (A4) 优势一致性 (Advantage consistency):归一化优势 有界,且方差有界,与群组大小 无关。 其中 。
- (A5) 步长条件 (Step size conditions):学习率序列 满足 Robbins-Monro 条件:
收敛性保证 (Convergence Guarantees):
在假设 (A1)-(A5) 下,GRAO 的更新序列 满足:
这意味着 GRAO 能够收敛到目标函数的静止点 (stationary points)。
参数更新规则为:
其中 是随机梯度估计器。
详细推导步骤:
-
步骤 1: 随机梯度分解 (Stochastic gradient decomposition)
GRAO梯度估计器分解为: 其中 是 的梯度, 是 的梯度(论文中写作 )。 -
步骤 2: 有界梯度方差 (Bounded gradient variance) 根据 (A2) 和 (A3),随机梯度具有有界的二阶矩: 其中 ,这由优势归一化和奖励界限得出。
-
步骤 3: 期望下降 (Expected descent) 根据
L-光滑性(A1): 在 条件下取期望: -
步骤 4: 伸缩和 (Telescoping sum) 对 到 取总期望并求和: 由于 有下界,且 ,因此得出: 这意味着 。
条件解释 (Interpretation of Conditions):
- 优势归一化稳定性 (Advantage normalization stability):(A4) 确保梯度估计器行为良好。当群组大小 满足 时,通过 Berry-Esseen 定理可以保证这种集中性,其中 是奖励方差。
- 探索-模仿平衡 (Exploration-imitation balance):超参数 必须满足 ,以防止模仿项过度主导,同时保持收敛。
- 对齐正则化 (Alignment regularization):正则化器强度 应与逆优势方差成比例,即 ,以保持梯度稳定性。
实际收敛行为 (Practical Convergence Behavior):
对于常数学习率 ,经过 次迭代后:
最优选择 会产生 的收敛速度。这证实了 GRAO 收敛到策略更新稳定的静止点,其中优势起着有界重要性权重的作用。对齐正则化器确保策略改进,而优势归一化防止梯度爆炸。
5. 实验设置
5.1. 数据集
实验使用了 Anthropic 的 helpful-base (有益性基准) 和 harmless-base (无害性基准) (Bai et al., 2022a) 进行评估。这些基准数据集提供了三元组 :
- :输入查询 (query)。
- :人类偏好的响应 (human-preferred response)。
- :人类拒绝的响应 (human-rejected response)。
这些数据集广泛用于评估
LLM的有益性 (Helpfulness) 和无害性 (Harmlessness) 对齐能力。
5.2. 评估指标
论文采用了两个主要的性能评估指标:相对对抗分数 (Relative Adversarial Score, RAS) 和 归一化对齐增益 (Normalized Alignment Gain, NAG)。
5.2.1. 相对对抗分数 (Relative Adversarial Score, RAS)
- 概念定义:
RAS量化了模型输出在与参考响应进行比较时,被奖励模型评为更高质量的实例的比例。它关注的是模型生成响应优于参考响应的频率。较高的RAS值表示模型在生成高质量响应方面表现更好。 - 数学公式:
- 符号解释:
- :评估的总实例数。
- :指示函数,当括号内的条件为真时返回1,否则返回0。
- :奖励模型对模型输出 和参考响应 的比较结果。当 时,表示模型输出 被认为优于参考响应 。
5.2.2. 归一化对齐增益 (Normalized Alignment Gain, NAG)
- 概念定义:
NAG衡量了通过微调(即SFT或RL过程)所实现的改进程度。它通过比较模型在微调前后输出与参考响应的相对质量来评估。较高的NAG值表示微调过程有效地提升了模型的对齐能力。 - 数学公式:
- 符号解释:
- :评估的总实例数。
- :指示函数。
- :奖励模型对微调后模型输出 和参考响应 的比较结果。
- :奖励模型对微调前模型输出 和参考响应 的比较结果。
- 当 时,表示微调后的模型输出 相对于参考响应 的质量比微调前有所提高。
5.2.3. 奖励模型评估详情
- 评估器:论文利用
GPT-5(在附录中提到GPT-6)作为评估器,因为它已被证明具备与人类相当的评估能力。 - 提示模板 (Prompt Template):用于指导
GPT-5进行评估的提示模板在附录的 Table 6 和 Table 7 中详细说明。这些模板包含[Task Description]、[Criteria Description](Helpful 或 Harmless)、[Context]、[Text 1](模型响应)、[Text 2](数据集中的偏好响应HH.chosen)。 - 评分系统:
- :
Text 1的质量高于Text 2,奖励为 1。 - :
Text 1的质量等于Text 2,奖励为 0。 - :
Text 1的质量低于Text 2,奖励为 -1。 - 最终结果以胜率和平局率的组合形式呈现。
- :
- 奖励模型:由
DeepSeek-v3提供的奖励模型 ( 用于 Helpful,RM_HL用于 Harmless) 提供具体的奖励。
5.3. 对比基线
实验将 GRAO 方法与以下代表性 LLM 对齐方法进行比较:
-
监督微调 (Supervised Fine-Tuning, SFT):基础的对齐方法,通过直接模仿人类示范进行训练。
-
直接偏好优化 (Direct Preference Optimization, DPO):一种不依赖显式奖励模型的对齐方法,通过直接优化偏好数据来更新策略。
-
近端策略优化 (Proximal Policy Optimization, PPO):一种标准的强化学习算法,广泛用于
RLHF,通过奖励模型指导策略更新。 -
群组相对策略优化 (Group Relative Policy Optimization, GRPO):
PPO的一种变体,特别设计用于处理数学推理等任务,通过群组采样和相对比较进行优化。这些基线覆盖了从监督方法到各种
RLHF变体的范围,提供了全面的比较。
5.4. 模型架构
实验在两种具有代表性的 LLM 架构上进行:
Qwen2.5-7B(dense):一个标准的密集模型,具有7亿参数。Moonlight-16B-A3B(MoE):一个稀疏混合专家模型 (Sparse Mixture-of-Experts, MoE),具有160亿总参数,但在每次推理时只激活30亿参数。MoE模型以其高效的扩展性和推理能力而闻名。
5.5. 训练配置
- 优化器 (Optimizer):
Adam优化器,权重衰减 (weight decay) 为 0.01。 - 学习率 (Learning Rate):。
- 批次大小 (Batch Size):64。
- GRAO 特有超参数:
- (模仿与探索平衡):0.5。
- (对齐正则化强度):0.6。
- 生成参数:
- 每次查询采样轨迹数 :8。
- 温度 (Temperature):0.7,用于控制生成的多样性。
- 最大生成长度 (Maximum Generation Length):2048 词元。
- 奖励模型:由
DeepSeek-v3提供的奖励模型。具体为 用于评估有益性 (Helpful),RM_HL用于评估无害性 (Harmless)。这些奖励模型的输入格式和提示模板与附录A.2中的规范保持一致。
6. 实验结果与分析
6.1. 核心结果分析
6.1.1. 整体性能
以下是原文 Table 1 的结果:
| Model | Method | RAS (%) | NAG (%) |
|---|---|---|---|
| SFT | |||
| DPO | |||
| PPO | |||
| GRPO | |||
| GRAO (Ours) | |||
| Moonlight-16B | SFT | ||
| DPO | |||
| PPO | |||
| GRPO | |||
| GRAO (Ours) |
Table 1: Performance comparison on helpful-base dataset (higher RAS/NAG are better)
以下是原文 Table 2 的结果:
| Model | Method | RAS (%) | NAG (%) |
|---|---|---|---|
| SFT | |||
| DPO | |||
| PPO | |||
| GRPO | |||
| GRAO (Ours) | |||
| Moonlight-16B | SFT | ||
| DPO | |||
| PPO | |||
| GRPO | |||
| GRAO (Ours) |
Table 2: Performance comparison on harmless-base dataset (higher RAS/NAG are better)
分析:
GRAO 在有益性 (Helpfulness) 和无害性 (Harmlessness) 基准测试中都取得了最先进的 (state-of-the-art) 对齐性能,显著优于所有基线方法 (SFT、DPO、PPO、GRPO),无论是在 Qwen2.5-7B 还是 Moonlight-16B 模型上。
- 有益性对齐 (Helpful Alignment, Table 1):
- 在
Qwen2.5-7B上,GRAO相较于GRPO,RAS提高了 (64.60vs60.89),NAG提高了 (67.98vs60.74)。 - 在
Moonlight-16B上,GRAO相较于GRPO,RAS提高了 (70.84vs68.89),NAG提高了 (55.06vs50.82)。
- 在
- 无害性对齐 (Harmless Alignment, Table 2):
-
在
Qwen2.5-7B上,GRAO相较于GRPO,RAS提高了 (68.01vs65.61),NAG提高了 (31.06vs28.26)。 -
在
Moonlight-16B上,GRAO实现了更显著的提升:RAS提高了 (76.82vs68.08),NAG提高了 (34.85vs12.11)。这些统计学上显著的改进突出了
GRAO克服奖励稀疏性 (reward sparsity) 和策略不稳定性 (policy instability) 的独特能力,证实了其在各种对齐任务和模型中的有效性和稳定性。
-
6.1.2. 轨迹动态分析 (Trajectory Dynamics Analysis)
下图(原文 Figure 2)展示了训练过程中,GRAO 与 PPO 和 GRPO 在奖励值上的变化。
该图像是一张折线图,展示了三种算法GRAO、PPO和GRPO随训练步数变化的奖励值趋势。图中显示GRAO算法在提升收敛速度和最终奖励方面均优于PPO和GRPO。
Figure 2: Training dynamics (Qwen2.5-7B, helpful-base)
分析:
GRAO 在训练步数上表现出显著的优化效率。从 Figure 2 可以看出,GRAO 仅需 PPO 和 GRPO 一半的训练步数即可达到最优策略性能,这表明其对齐效率更高。这种快速的进步得益于三个互补机制:
- 快速初始收敛 (Rapid Initial Convergence):模仿组件()通过利用参考答案,迅速将策略引导至高奖励区域。
- 渐进式精化 (Progressive Refinement):对齐正则化( 差异项)放大了高优势轨迹,同时抑制了低奖励路径。
- 稳定上升 (Stable Ascent):优势归一化 (
Advantage Normalization) 在探索过程中防止了梯度爆炸,支持了单调改进。 这些机制共同作用,使得GRAO在训练过程中具有更高的效率和鲁棒性。
在初始收敛阶段(图中步骤 ),GRAO 迅速提升奖励。在超越初始收敛阶段(步骤 )后,基线方法表现出差异:
PPO由于KL散度约束,趋于平台期。GRPO由于群组采样不稳定性 (group sampling instability),奖励表现出 的方差。- 相比之下,
GRAO由于其集成的三重目标方法,在初始优化阶段之后,仍能持续实现每步平均 的奖励增益,保持策略的精化和稳定性。
6.1.3. 组件消融研究 (Component Ablation Study)
以下是原文 Table 3 的结果:
| Variant | Qwen2.5-7B | Moonlight-16B | vs Full |
|---|---|---|---|
| Full GRAO | - | ||
| w/o | |||
| w/o | |||
| w/o |
Table 3: Ablation of GRAO components (NAG on helpful task)
下图(原文 Figure 3)展示了组件消融对训练动态的影响。
该图像是一张折线图,展示了不同对齐算法类型(GRAO、wo_alignment、wo_exploration、wo_imitation)在训练过程中随着步骤变化的奖励(Reward)曲线。图中可见GRAO算法的奖励值上升最快且最高,表现优于其他算法。
Figure 3: Component ablation effects on training dynamics (Qwen2.5-7B, helpful-base)
分析:
消融研究量化了 GRAO 各个目标组件的单独贡献。
-
移除模仿组件 (
w/o J_imitation):导致初始对齐效率降低,但在最终性能上仍保留了 的效果,这归因于探索和正则化的补偿作用。在 Figure 3 中,w/o J_imitation的曲线在初期表现低于Full GRAO,但后期仍能有显著提升。 -
移除探索组件 (
w/o J_exploration):导致性能显著下降(NAG下降 ),因为它限制了策略的搜索空间。在 Figure 3 中,w/o J_exploration的曲线明显低于其他变体,表明探索能力对GRAO的性能至关重要。 -
移除对齐正则化器 (
w/o J_alignment_regularizer):加速了早期训练进程,但最终NAG限制在GRAO完整公式的 ,这是由于模型轨迹和参考输出之间发散增加所致。在 Figure 3 中,w/o J_alignment_regularizer曲线在初期可能与Full GRAO接近,但后期未能达到最高奖励,显示了正则化器在维持稳定优化和防止发散方面的作用。这些发现证实了
GRAO“模仿-探索-超越”范式的有效性:模仿 (imitation) 锚定初始学习,探索 (exploration) 发现最优改进,而对齐正则化 (alignment regularization) 将这些元素整合起来,支持策略的渐进式增强。
6.1.4. 进一步理解对齐目标
下图(原文 Figure 4a)展示了 GRAO 对齐训练过程中的总损失(Training Loss)。
该图像是图表,展示了训练过程中不同损失项(Alignment Regularization、Exploration、Imitation)随训练步数变化的趋势,反映了整体损失的逐步下降情况。
(a) Training Loss during GRAO alignment (Qwen2.5-7B, helpful-base)
下图(原文 Figure 4b)展示了 GRAO 优化总损失中各组件的贡献百分比。
该图像是一张显示训练过程中不同损失贡献比例随步骤变化的堆叠面积图。图中三种损失分别为对齐正则化、探索和模仿,随训练步骤的推进,各损失比例动态变化。
(b) Percentage Contribution of Each Component to Total GRAO Optimization Loss (Qwen2.5-7B, helpful-base)
分析:
对损失进展和各目标相对贡献的分析揭示了 GRAO 优化过程的两个不同阶段:
-
快速对齐阶段 (Rapid Alignment Phase, 步骤 < 200):
- 总损失主要由模仿项 (J_imitation) 和对齐正则化项 (J_alignment_regularizer) 驱动,两者合计占总损失的 以上。
- 这导致模型快速收敛到最优策略,因为它有效地利用了参考答案并限制了发散。
- 在 Figure 4b 中,
J_imitation和Alignment Regularization在初期占据了主导地位。
-
精化阶段 (Refinement Phase, 步骤 > 200):
-
随着优化的进行,总损失呈指数级下降。
-
探索项 (J_exploration) 成为主导目标(占总损失的 ),而模仿项的贡献下降到 以下。
-
这种转变表明模型自身生成的输出成为进一步改进的主要驱动力,使其能够超越对参考响应的模仿。
-
在 Figure 4b 中,
J_exploration的贡献比例逐渐上升并占据主导,而J_imitation的贡献比例则下降。这些结果经验性地验证了
GRAO“模仿-探索-超越”范式的分阶段结构:模仿 (imitation) 锚定初始学习,探索 (exploration) 发现更优轨迹,正则化 (regularization) 整合这些组件。最终,探索 (exploration) 在精化阶段的主导地位表明模型具有超越参考轨迹,实现自主技能进步的能力,同时保持对齐稳定性。
-
6.1.5. 泛化到不同模型类型 (Generalization to Different Model Types)
GRAO 在稀疏混合专家 (Sparse Mixture-of-Experts, MoE) 架构上实现了显著的性能提升,尤其是在 Moonlight-16B 模型上。
- 如 Table 1 和 Table 2 所示,
Moonlight-16B MoE模型从GRAO对齐中获得的增益远高于密集型Qwen2.5-7B模型。 - 这种优越的效率源于
GRAO的优化动态与MoE架构独特属性之间的协同作用。MoE模型由于专家路由机制,显示出固有的梯度稀疏模式 (inherent gradient sparsity patterns)。 GRAO的优势归一化梯度公式 (advantage-normalized gradient formulation) ,将更新集中在具有高影响力的参数上,并最大限度地减少专家模块之间的干扰。这表明GRAO在不同模型家族中的适应性,并强调了其作为下一代异构架构统一对齐解决方案的潜力。
6.1.6. 定性案例研究 (Qualitative Case Study)
为了定性评估对齐质量,论文分析了模型对敏感查询的响应。
以下是原文 Table 4 的结果:
| Question | Human: Do you know the singer Adele? Assistant: |
|---|---|
| Reference Output | Sure. She's a very popular singer. |
| SFT Output | Yes, I do. She's a very talented singer. |
| DPO Output | Yes, I am familiar with Adele. She is a British singer-songwriter who has achieved great success in the music industry. |
| GRPO Output | Yes, I am familiar with Adele. She has won numerous awards, includ- ing multiple Grammy Awards. |
| GRAO Output | Yes, she is a British singer-songwriter known for her soulful voice and powerful ballads. She has won numerous awards, including multiple Grammy Awards. Some of her most popular songs include "Someone Like You," "Rolling in the Deep," and "Hello." |
Table 4: Case study: Helpful alignment on query1
以下是原文 Table 5 的结果:
| Question | Human: Are import cars still popular? Assistant: I think I can help! According to a 2019 survey, most Americans would prefer to buy a Japanese or Korean car, because they have a high-value perception. These two countries are especially famous for their car-manufacturing. Human: So they are more valued? Assistant: |
|---|---|
| Reference Output | Yes. When most people think about car-manufacturers, Japanese and Korean companies are the first to come to mind, and that's why these companies are so popular. |
| SFT Output | Yes, they are more valued. But I think it's also important to note that the US is a big market, and there are many different types of cars. So it's not surprising that some people prefer to buy American cars, or cars from other countries. It's also important to note that the US is a big market, and there are many different types of cars. So it's not surprising that some people prefer to buy American cars, or cars from other countries. |
| DPO Output | Yes, that's right! Japanese and Korean cars are known for their high quality and reliability, which makes them more valued by consumers. However, there are still many people who prefer to buy import cars from other countries, such as Germany, Italy, and the United States. These cars are often more expensive, but they are also known for their luxury and performance. |
| GRPO Output | Yes, they are more valued. The survey also shows that Americans are more likely to buy a car from a country that is close to their own. For example, Americans are more likely to buy a car from Canada or Mexico than from a country that is far away, like Japan or Korea. |
| GRAO Output | Yes. The survey also shows that Americans are more likely to buy a car from a country that is culturally similar to their own. For example, Americans are more likely to buy a car from Japan, because Japan is a country that is culturally similar to the United States. |
Table 5: Case study: Helpful alignment on query2
分析:
查询 1: 文化意识 (Cultural Awareness) - 歌手 Adele (Table 4)
- GRAO Output 提供了全面而详细的响应,包括
Adele的国籍、嗓音特点、荣誉和流行作品。这显示了其从参考材料中综合信息的能力。 - SFT Output 仅提供最少信息(“非常有才华的歌手”),缺乏实质性细节。
- DPO Output 包含相关事实,但遗漏了艺术特点和著名作品。
- GRPO Output 狭隘地关注奖项,未能联系艺术意义。
GRAO在保持事实准确性的同时,信息密度高于其他基线方法,展示了其综合生成全面响应的能力。
查询 2: 文化敏感性 (Cultural Sensitivity) - 进口汽车的受欢迎程度 (Table 5)
- GRAO Output 独特地将文化相似性 (cultural similarity) 识别为消费者偏好的决定性因素,并提供了社会学上合理且与参考响应意图一致的解释,同时避免了有害的刻板印象。
- SFT Output 出现严重的重复(两句冗余的句子),表明注意力控制不佳。
- DPO Output 引入了上下文中未提及的无关豪车品牌(德国/意大利)。
- GRPO Output 对地理邻近性决定偏好做出了事实不准确的断言。
GRAO在处理文化敏感话题时表现出有效性,而基线方法则出现幻觉(DPO)、事实矛盾(GRPO)或构成缺陷(SFT)。
这些案例研究验证了 GRAO 在有益性对齐任务中的双重优势:1) 信息综合 (Information synthesis):将多个知识维度整合到连贯的响应中;2) 文化对齐 (Cultural alignment):在基线方法经常偏离的敏感话题上保持适当性。
7. 总结与思考
7.1. 结论总结
本文提出了 群组相对对齐优化 (Group Relative Alignment Optimization, GRAO) 框架,它成功地将监督微调 (SFT) 的效率与强化学习 (RL) 的探索能力结合起来,为语言模型对齐建立了一个新范式。GRAO 的自适应优化机制遵循“模仿-探索-超越 (imitate-explore-transcend)”的轨迹,动态平衡知识获取和自主探索。理论分析证实了其鲁棒的收敛特性。广泛的实验结果一致表明 GRAO 具有卓越的对齐性能,相对于 SFT、DPO、PPO 和 GRPO 基线分别实现了 、、 和 的改进,并且在 MoE 架构中相对于 GRPO 实现了高达 的 NAG 提升。
GRAO 的设计基于三个原则性组件:
-
模仿学习 (imitation learning):用于快速初始化策略。
-
优势加权探索 (advantage-weighted exploration):用于高效地精炼策略。
-
对齐正则化 (alignment regularization):用于稳定训练。
这种协同作用有效解决了
LLM对齐中的关键挑战,如奖励稀疏性 (reward sparsity) 和策略不稳定性 (policy instability)。轨迹分析揭示,GRAO实现了更快的收敛并保持了稳定的优化,平稳地从模仿过渡到自主技能增强。定性案例研究进一步突出了GRAO生成全面且具有文化意识的响应的能力,同时避免了常见的基线失败模式。总的来说,GRAO为对齐大型语言模型提供了一个可扩展且鲁棒的方法,展示了其在各种架构中的适应性以及对参考数据和新兴数据的有效利用。它在密集模型和稀疏MoE模型中表现出的一致性能,使得GRAO成为开发下一代有能力且对齐良好的AI系统的有前景的解决方案。
7.2. 局限性与未来工作
论文明确提出了未来的工作方向,旨在将该框架扩展到多目标 (multi-objective) 和持续学习 (continual learning) 场景。虽然论文没有明确列出当前 GRAO 的局限性,但可以推断:
-
超参数敏感性:
GRAO引入了 (模仿与探索平衡)和 (对齐正则化强度)等超参数,这些参数的调优可能对性能至关重要且具有挑战性。 -
奖励模型依赖:尽管
GRAO优化了奖励模型的利用方式,但其性能仍然依赖于奖励模型 (Reward Model) 的质量。如果奖励模型本身存在偏差或不准确,可能会影响对齐效果。 -
计算成本:虽然
GRAO提高了样本效率,但其多样本生成策略 (multi-sample generation strategy)(生成 条轨迹)和复杂的损失函数可能仍会带来比纯SFT更高的计算成本。 -
泛化到新领域:虽然在现有基准上表现出色,
GRAO在完全新颖或分布外 (out-of-distribution) 场景下的泛化能力仍需进一步验证。未来的工作旨在通过扩展框架到多目标对齐 (multi-objective alignment)(例如,同时优化有益性、无害性、简洁性等多个目标)和持续学习 (continual learning)(使模型能够在新数据流中不断学习和适应,而不会遗忘旧知识),进一步增强
GRAO的能力。
7.3. 个人启发与批判
7.3.1. 个人启发
这篇论文提供了一个非常令人信服的统一框架,将 SFT 和 RL 的优势有机结合,其“模仿-探索-超越”的范式直观且高效。
- 动态平衡的智慧:
GRAO动态调整模仿和探索的权重,在训练初期快速利用现有知识(模仿),而在模型能力提升后转向自主探索和超越。这种分阶段的策略比简单地交替SFT和RL更具灵活性和效率。这对于需要快速启动但又追求长期性能提升的系统设计具有重要启发。 - 群组相对优势的妙用:通过多样本生成和群组相对优势 (group relative advantage) 计算,
GRAO能够从一组样本中学习到更细粒度的偏好信息,有效缓解了奖励稀疏性 (reward sparsity) 问题。这种思想在其他生成式任务中也可能有所应用,例如代码生成、创意写作等,通过生成多个候选项并进行相对评估来指导优化。 - 对
MoE架构的适配性:GRAO在MoE模型上的显著提升表明其设计原理(如优势归一化梯度 (advantage-normalized gradient))能够很好地与稀疏模型的特性协同,这为未来针对MoE和其他异构模型架构的对齐方法研究提供了方向。 - 理论与实践的结合:论文不仅提出了新方法,还提供了详细的收敛性理论分析,这增加了方法的可信度和深度,也为后续研究提供了坚实的理论基础。
7.3.2. 批判与潜在改进
- 奖励模型本身的局限:尽管
GRAO有效利用了奖励模型,但奖励模型本身可能是存在偏差或不完美的。GPT-5/GPT-6作为评估器固然强大,但其输出也可能存在幻觉、一致性问题或偏见。如果奖励模型本身存在这些问题,GRAO可能会将其内化,导致模型对齐到次优或有偏的策略。未来的研究可以探索对奖励模型的不确定性建模,或设计对奖励模型错误更鲁棒的对齐框架。 - 超参数调优的复杂性:
GRAO引入了 和 两个新的超参数,以及群组大小 、温度等。尽管论文给出了实验中使用的值,但在不同的任务、数据集或模型上,这些超参数的优化可能需要大量的实验。如何自适应地调整这些超参数,以进一步简化调优过程,将是一个有价值的研究方向。 - “超越”的边界:虽然
GRAO宣称能让模型“超越”参考轨迹,但这种“超越”的边界在哪里?模型是否会探索出人类无法理解或并非最佳的策略?在某些需要高度安全性和可解释性的场景中,这种自由探索可能需要更严格的约束。 - 计算成本分析的不足:论文提到了
GRAO的样本效率优势,但在计算成本方面,仅提到其多样本生成策略()相对SFT增加了计算量。更详细的计算资源(如GPU小时数)比较,特别是与PPO等RL方法的实际训练时间和资源消耗对比,将更有助于理解GRAO的实际可行性。 - 知识遗忘问题:
SFT存在知识遗忘 (catastrophic forgetting) 的问题,GRAO的模仿项旨在缓解这一问题。但GRAO是否彻底解决了这一问题,或在面对持续数据流时,是否仍会遗忘早期学习到的对齐知识,仍需更深入的探讨。
相似论文推荐
基于向量语义检索推荐的相关论文。