RL's Razor: Why Online Reinforcement Learning Forgets Less
TL;DR 精炼摘要
本文提出“RL的剃刀”原理,解释了在线强化学习微调基础模型时遗忘较少的机制。研究通过比较强化学习(RL)与监督微调(SFT),发现尽管两者在新任务性能相似,但RL能显著更好地保留原有知识。核心发现是,遗忘程度与微调后模型和基础模型在新任务上的KL散度密切相关。理论分析和LLM/机器人模型实验表明,在线策略RL隐式偏好选择KL散度最小的解,从而避免了SFT可能导致的基础模型分布大幅偏移,有效解决了灾难性遗忘问题。
摘要
Comparison of fine-tuning models with reinforcement learning (RL) and supervised fine-tuning (SFT) reveals that, despite similar performance at a new task, RL preserves prior knowledge and capabilities significantly better. We find that the degree of forgetting is determined by the distributional shift, measured as the KL-divergence between the fine-tuned and base policy evaluated on the new task. Our analysis reveals that on-policy RL is implicitly biased towards KL-minimal solutions among the many that solve the new task, whereas SFT can converge to distributions arbitrarily far from the base model. We validate these findings through experiments with large language models and robotic foundation models and further provide theoretical justification for why on-policy RL updates lead to a smaller KL change. We term this principle : among all ways to solve a new task, RL prefers those closest in KL to the original model.
思维导图
论文精读
中文精读
1. 论文基本信息 (Bibliographic Information)
- 标题 (Title): RL's Razor: Why Online Reinforcement Learning Forgets Less (RL 的剃刀:为什么在线强化学习遗忘得更少)
- 作者 (Authors): Idan Shenfeld, Jyothish Pari, Pulkit Agrawal。他们均隶属于麻省理工学院 (MIT) 的 Improbable AI Lab。
- 发表期刊/会议 (Journal/Conference): 这是一篇提交到 arXiv 的预印本论文,尚未在同行评审的会议或期刊上正式发表。arXiv 是一个广泛用于快速分享最新研究成果的平台,在人工智能领域具有极高的影响力。
- 发表年份 (Publication Year): 2025 (根据 arXiv ID 中的年份占位符,实际提交日期可能更早)。
- 摘要 (Abstract): 论文通过比较强化学习 (RL) 和监督微调 (SFT) 两种模型微调方法,发现尽管在新任务上性能相似,但 RL 能显著更好地保留原有的知识和能力。研究发现,遗忘的程度由微调后模型与基础模型在新任务上的分布差异决定,该差异通过 KL 散度 (KL-divergence) 来衡量。分析表明,在线策略 (on-policy) RL 算法在众多能解决新任务的方案中,会隐式地偏好于 KL 散度最小的解,而 SFT 则可能收敛到与基础模型分布差异巨大的解。这一发现通过在大型语言模型和机器人基础模型上的实验得到验证,并提供了理论依据。作者将此原则命名为
RL's Razor(RL 的剃刀):在所有解决新任务的方法中,RL 偏爱那些在 KL 散度上与原始模型最接近的方法。 - 原文链接 (Source Link):
- ArXiv 链接: https://arxiv.org/abs/2509.04259v1
- PDF 链接: https://arxiv.org/pdf/2509.04259
- 发布状态: 预印本 (Preprint)
2. 整体概括 (Executive Summary)
-
研究背景与动机 (Background & Motivation - Why):
- 核心问题: 基础模型 (Foundation Models) 在通过微调学习新技能时,普遍存在灾难性遗忘 (Catastrophic Forgetting) 的问题,即模型会丧失之前已经掌握的能力。这阻碍了 AI 模型成为能够持续学习和自我改进的“终身智能体”(long-lived agents)。
- 重要性与挑战: 当前的解决方案大多是治标不治本的启发式方法,例如限制模型参数的更新幅度,但并未揭示遗忘发生的根本原因。此外,人们观察到使用强化学习 (RL) 微调比监督微调 (SFT) 遗忘更少,但其背后的机制尚不明确。
- 切入点: 论文没有提出一种新的算法,而是从一个全新的视角探究遗忘的根源。作者假设,遗忘的程度并非由模型参数或内部表征的变化直接决定,而是由模型输出分布的变化决定的。具体来说,他们提出用微调后模型与基础模型在新任务数据上的 KL 散度来预测遗忘程度。
-
核心贡献/主要发现 (Main Contribution/Findings - What):
- 发现一:RL 比 SFT 遗忘更少。 实验证明,即使在新任务上达到相同的性能水平,通过 RL 微调的模型在先前任务上的性能保持得远比 SFT 好。
- 发现二:提出“经验性遗忘定律” (Empirical Forgetting Law)。 论文发现了一个简单而强大的规律:灾难性遗忘的程度可以被微调后模型与基础模型在新任务上的 KL 散度准确预测。KL 散度越大,遗忘越严重。这个定律的实用之处在于,它可以在微调过程中直接测量和优化,而无需访问旧任务的数据。
- 发现三:提出
RL's Razor原则并解释原因。 论文揭示了 RL 遗忘更少的根本原因:其在线策略 (on-policy) 的训练方式天然地偏好于寻找与原始模型分布最接近 (即 KL 散度最小) 的解决方案。这就像奥卡姆剃刀原理一样,在众多能够解决问题的有效方案中,RL 选择了“最简单”(分布变化最小) 的那一个。相比之下,SFT 会被强制拉向一个固定的、可能与原始模型分布差异巨大的目标分布,从而导致更严重的遗忘。
3. 预备知识与相关工作 (Prerequisite Knowledge & Related Work)
-
基础概念 (Foundational Concepts):
- 基础模型 (Foundation Models): 指在海量、多样化数据上预训练的大规模模型,如 GPT-4、Llama 等。它们具备广泛的通用知识和一定的零样本 (zero-shot) 推理能力,可以作为各种下游任务的起点。
- 监督微调 (Supervised Fine-Tuning, SFT): 一种常见的模型适配技术,使用一组高质量的“输入-输出”对 (例如“问题-标准答案”) 来训练模型,使其行为更符合特定任务的要求。SFT 的目标是最小化模型输出与标准答案之间的差异,通常使用交叉熵损失 (cross-entropy loss)。
- 强化学习 (Reinforcement Learning, RL): 一种通过与环境交互来学习的范式。模型 (或称智能体) 会根据其行为获得奖励 (reward) 或惩罚,并调整其策略以最大化累积奖励。在语言模型微调中,通常指基于人类反馈的强化学习 (RLHF),其中奖励信号来自于评估模型输出质量的奖励模型或人类。
- 灾难性遗忘 (Catastrophic Forgetting): 神经网络在学习新任务时,其在新任务数据上的权重更新会干扰或覆盖掉为旧任务学习到的知识,导致在旧任务上的性能急剧下降。
- KL 散度 (Kullback-Leibler Divergence): 一种衡量两个概率分布之间差异的非对称指标。 表示用分布 Q 来近似分布 P 时所损失的信息量。在本论文中,它被用来衡量微调后的模型策略 相对于基础模型策略 的偏离程度。
- 在线策略 (On-policy) vs. 离线策略 (Offline):
- 在线策略 (On-policy): 在 RL 中,指用于生成训练数据的策略与正在学习和优化的策略是同一个。例如,模型自己生成一个回答,然后根据这个回答的好坏来更新自己。
- 离线策略 (Offline): 指用于生成训练数据的策略与正在学习的策略不同。SFT 就是典型的离线方法,因为训练数据 (标准答案) 是由外部源 (如人类标注员) 提供的,与模型当前的策略无关。
-
前人工作 (Previous Works):
- 遗忘缓解方法: 之前的研究主要通过以下方式缓解遗忘:1) 正则化权重更新,如
EWC算法,惩罚对旧任务重要的参数发生大的改变;2) 保留特征表示,确保新旧任务的内部特征激活相似;3) 重放旧数据或正则化输出分布,使得模型在旧任务上的输出不发生改变。这些方法是有效的启发式方法,但没有解释遗忘的根本原因。 - SFT vs. RL 对比: 之前的对比主要集中在新任务的性能和泛化能力上,普遍认为 RL 能够获得比 SFT 更强的泛化能力。然而,很少有工作系统地研究它们在灾难性遗忘方面的差异。
- 并发工作: 论文提到一篇并发工作 (Lai et al., 2025) 也发现 RL 遗忘更少,但将其归因于 RL 能从“负面样本”中学习,而本文则认为在线策略 (on-policy) 的性质才是关键,并通过实验证明了这一点。
- 遗忘缓解方法: 之前的研究主要通过以下方式缓解遗忘:1) 正则化权重更新,如
-
差异化分析 (Differentiation): 本文的核心创新在于,它没有停留在“哪个方法更好”的层面,而是提出了一个统一的、可预测的理论框架来解释遗忘现象。它将遗忘的根源从复杂的模型内部变化(权重、特征)简化为单一、可测量的外部指标——在新任务上的 KL 散度,并从算法的内在机制(在线策略 vs. 离线策略)上解释了不同方法表现差异的原因。
4. 方法论 (Methodology - Core Technology & Implementation Details)
本文的方法论并非提出新算法,而是通过一系列精心设计的对比实验和理论分析来验证其核心假设。
-
方法原理 (Methodology Principles):
- 核心思想: 遗忘的根本原因在于微调过程中模型输出分布的剧烈变化。在线策略 RL 通过从自身当前分布中采样来探索解决方案,这种方式使得策略的更新是渐进式的,倾向于寻找离初始分布最近的“最优解”,从而天然地限制了 KL 散度。而 SFT 则是将模型强行拉向一个固定的、可能相距甚远的目标分布,导致分布变化剧烈,从而引发严重遗忘。
-
方法步骤与流程 (Steps & Procedures):
-
对比 RL 与 SFT 的遗忘程度:
-
在多个任务上(LLM 的数学、问答、工具使用和机器人的抓取),使用 RL 和 SFT 分别微调同一个基础模型。
-
通过扫描超参数,获得一系列不同性能的模型,并绘制“新任务性能 vs. 旧任务性能”的帕累托前沿 (Pareto Frontier) 曲线,以公平地比较两种方法在学习与遗忘之间的权衡。
该图像由两部分图表组成。左侧是一个示意图,展示基线策略(Base Policy)到新任务成功(90%)的路径,红色(RL)路径相较蓝色(SFT)路径KL散度较小,且保持了更高的先前任务性能。右侧为折线图,横轴为新任务表现,纵轴为先前任务表现,RL(红线)在提升新任务表现的同时先前任务表现下降较少,SFT(蓝线)则先前任务表现显著下降,体现RL相较SFT遗忘更少。
图像 1 解读: 该图是论文核心思想的高度概括。左图形象地展示了从基础策略 (Base Policy) 出发,为达到新任务 90% 成功率,RL (红线) 走了一条更“近”的路,即 KL 散度更小,同时保持了较高的旧任务性能。SFT (蓝线) 则走了一条“远”路,KL 散度大,导致旧任务性能大幅下降。右图的真实数据曲线验证了这一点:RL 的曲线(红色虚线)更平缓,而 SFT 的曲线(蓝色虚线)则急剧下降。
-
-
验证 KL 散度是遗忘的预测器:
- 在一个可控的
ParityMNIST玩具实验中,系统地比较不同微调方法 (RL, SFT, Oracle SFT) 的表现。 - 将所有实验点的“遗忘程度”与“KL 散度”进行关联性分析,验证它们是否遵循一个统一的函数关系。
- 设计一个 “神谕 SFT” (Oracle SFT),即人工构造一个既能 100% 完成任务、又与基础模型 KL 散度最小的 SFT 标注分布。如果 KL 假说成立,用这个分布进行 SFT 应该比 RL 遗忘得更少。
- 在一个可控的
-
探究 RL 遗忘更少的原因:
- 设计了四种算法进行对比,以分离“在线策略”和“使用负样本”这两个变量的影响。这四种算法分别是:
GRPO: 在线策略,使用负样本 (标准的 RL)。1-0 Reinforce: 在线策略,不使用负样本 (只对正确的输出进行 SFT)。SFT: 离线策略,不使用负样本。SimPO: 离线策略,使用负样本。
- 通过对比它们的帕累托前沿和 KL 散度变化,判断哪个因素是决定性因素。
- 设计了四种算法进行对比,以分离“在线策略”和“使用负样本”这两个变量的影响。这四种算法分别是:
-
-
数学公式与关键细节 (Mathematical Formulas & Key Details):
-
SFT 损失函数: SFT 的目标是最小化模型分布 与监督数据分布 之间的交叉熵。
- : 输入 (如问题)。
- : 输出 (如答案)。
- : 模型在输入 下生成输出 的概率。
- : 监督数据的分布 (即“标准答案”的分布)。
- : 输入数据的分布。
-
RL (策略梯度) 损失函数: RL 的目标是最大化期望奖励,其更新梯度与以下损失函数相关:
- 关键区别在于, 是从模型自身的分布 中采样得到的 (on-policy),而不是来自外部的 。
- : 优势函数 (Advantage function),表示在状态 下采取动作 比平均水平好多少。可以简单理解为对奖励的归一化。
-
理论证明 (Appendix A): 论文从信息几何的角度给出了理论解释。其核心思想是,策略梯度更新过程可以被分解为两个交替进行的“投影”步骤 (见下图):
-
I-Projection (信息投影): 将当前策略 投影到所有能完美解决任务的“最优策略集” 上,找到其中与 的 KL 散度最小的那个策略 。这步对应于根据奖励对模型采样进行“拒绝采样”或重加权。
-
M-Projection (矩投影): 将上一步得到的目标策略 投影回模型能表示的“可行策略集” 中,找到与 最接近的新策略 。这步对应于用策略梯度更新模型参数。 这个交替最小化的过程最终会收敛到在可行策略集 与最优策略集 的交集中,与初始策略 的 KL 散度最小的那个解 。
该图像是示意图,展示了策略空间中的策略分布及其优化路径。左侧用蓝色和绿色区域分别表示可行策略集合与最优策略集合,多个点代表不同策略,箭头表示策略从初始策略 π₀ 向最优策略 P 的迭代更新过程。右侧以直方图形式展示在不同训练步骤(1、2、…、n)中策略分布的变化,突出了策略逐渐趋近最优区域的过程。整体说明了RL算法如何在策略空间中收敛并保持接近原策略。*
图像 7 解读: 该图展示了理论证明的核心思想。初始策略 通过一系列交替投影,最终收敛到最优策略集 和可行策略集 的交集中的一个点。由于每一步都倾向于寻找 KL 散度最小的投影,最终的解也天然地离 很近。
-
-
5. 实验设置 (Experimental Setup)
-
数据集 (Datasets):
- LLM 任务:
- 数学推理:
Open-Reasoner-Zero数据集,模型为Qwen 2.5 3B-Instruct。 - 科学问答:
SciKnowEval数据集,模型为Qwen 2.5 3B-Instruct。 - 工具使用:
ToolAlpaca数据集,模型为Qwen 2.5 3B-Instruct。
- 数学推理:
- 机器人任务:
- 抓取和放置:
SimplerEnv仿真环境,模型为OpenVLA 7B。
- 抓取和放置:
- 遗忘评估基准:
- LLM:
Hellaswag,TruthfulQA,MMLU,IFEval,Winogrande,HumanEval等多个标准 benchmark。 - 机器人:
SimplerEnv中其他的操作任务(如开/关抽屉)。
- LLM:
- 可控玩具实验:
ParityMNIST: 基于MNIST手写数字数据集改造的任务,要求模型判断数字是奇数还是偶数。多个正确答案(例如对于偶数“2”,输出“0”、“4”、“6”、“8”都算对)的设计使得存在多个最优解,这对于研究 KL 散度至关重要。FashionMNIST: 用于衡量在ParityMNIST上微调后,模型对先前知识的遗忘程度。
- LLM 任务:
-
评估指标 (Evaluation Metrics):
- 新任务性能: 在新任务的测试集上的准确率 (Accuracy) 或成功率 (Success Rate)。
- 旧任务性能 (遗忘程度): 在一系列不相关的旧任务 benchmark 上的平均得分。得分下降越多,表示遗忘越严重。
- KL 散度: 前向 KL 散度 (Forward KL),计算公式为 ,其中 是新任务的数据分布, 是基础模型, 是微调后的模型。
-
对比基线 (Baselines):
- 主要基线是 SFT 和 RL (GRPO 算法)。
- 在探究原因的实验中,还包括了 1-0 Reinforce 和 SimPO。
- 在玩具实验中,还包括了 Oracle SFT (KL 散度最小化的 SFT)。
6. 实验结果与分析 (Results & Analysis)
-
核心结果分析 (Core Results Analysis):
-
RL 显著优于 SFT:
该图像由三部分组成,属于示意图和散点图组合。左侧的示意图展示四种训练方法的分类:按训练样本分为仅正样本和正负样本,按训练方式分为离线和在线;对应方法分别是SFT、1-0 Reinforce、GRPO和SIMPO。右侧两个散点图分别展示不同方法在新任务准确率与KL散度(左图)、以及新任务准确率与之前任务平均得分(右图)之间的关系。图中点颜色对应四种方法,展示了RL方法在保持旧任务表现时KL值更小。
图像 4 解读: 这组图展示了在四个不同任务上的帕累托前沿。结果惊人地一致:RL (红色虚线) 几乎是一条水平线,意味着在大幅提升新任务性能的同时,几乎没有牺牲旧任务的性能。而 SFT (蓝色点线) 则呈现出一条陡峭的下降曲线,学习新知识的代价是严重遗忘旧知识。 -
KL 散度是遗忘的根本原因:
该图像是示意图,展示了策略空间中的策略分布及其优化路径。左侧用蓝色和绿色区域分别表示可行策略集合与最优策略集合,多个点代表不同策略,箭头表示策略从初始策略 π₀ 向最优策略 P 的迭代更新过程。右侧以直方图形式展示在不同训练步骤(1、2、…、n)中策略分布的变化,突出了策略逐渐趋近最优区域的过程。整体说明了RL算法如何在策略空间中收敛并保持接近原策略。*
图像 5 解读: 这是论文中最有说服力的证据之一。- 中图: 将所有方法(不同 SFT 分布、RL)的遗忘程度(y 轴)与 KL 散度(x 轴)绘制在一起,发现所有点都完美地拟合在一条二次曲线上 ()。这表明,无论你用什么算法,只要最终模型的 KL 散度确定了,其遗忘程度也就确定了。
- 左图: “神谕 SFT” (SFT on optimal dist.) 的表现甚至超越了 RL,因为它被显式地引导到了 KL 最小的解。这证明了 RL 的优势并非来自其算法本身,而是来自其隐式的 KL 最小化偏好。
- 右图: RL 可以在非常小的 KL 变化范围内就达到很高的任务准确率,而 SFT 需要更大的 KL 变化。
-
在线策略 (On-policy) 是关键:
该图像为三个连续的散点图,展示了不同模型在新任务准确率(横轴)和之前任务平均得分(纵轴)上的表现。从左到右依次为“所有模型”、“帕累托前沿上的模型”和“最终图”,后者通过一条拟合曲线连接帕累托前沿点,展现两指标间的权衡关系,体现了模型在学习新任务时对旧任务性能的保持情况。
图像 6 解读: 该图清晰地揭示了原因。在右侧的两个图中,GRPO(在线, 有负样本) 和1-0 REINFORCE(在线, 无负样本) 的表现非常相似,都保持了较低的 KL 散度和较少的遗忘。同样,SFT(离线, 无负样本) 和SIMPO(离线, 有负样本) 的表现也类似,KL 散度大且遗忘严重。这表明决定性因素是“在线” vs “离线”,而不是“有无负样本”。
-
-
消融实验/参数分析 (Ablation Studies / Parameter Analysis):
-
替代假说检验 (Section 6 & Table 1): 论文系统地检验了其他可能解释遗忘的变量,包括:
- 权重变化 (, Fisher-weighted 等)
- 表征变化 (激活值变化)
- 更新的稀疏性或秩
- 其他分布距离 (逆向 KL, TV 距离等)
结果显示,这些变量与遗忘的关联性都远不如前向 KL 散度 (Forward KL)。例如,在
ParityMNIST实验中,前向 KL 的 达到了 0.96,而权重变化的 仅在 0.34-0.58 之间。
-
模型规模的影响:
该图像为散点图,展示了不同学习率(lr=1e-4, 2e-4, 4e-4)下,训练过程中KL散度变化(横轴)与梯度相似度(纵轴)的关系,左图为Parity MNIST任务,右图为Fashion MNIST任务。图中不同颜色点和对应拟合线反映了KL变化较小与梯度相似度较高的趋势,支持论文中RL更新偏向KL最小解的结论。
图像 10 解读: 实验表明,虽然模型规模从 3B 增加到 14B 后,模型的初始性能和抗遗忘能力有所提升(整体曲线上移),但 SFT 微调中“学习-遗忘”的权衡模式本身并未改变。为了在新任务上达到高精度,即使是 14B 的模型也需要付出遗忘的代价。 -
表征变化分析 (CKA):
该图像为二维散点图,横轴表示MNIST准确率,纵轴表示Fashion MNIST准确率。散点用蓝色圆点表示SFT学生模型的表现,红色星形标记表示RL教师模型的表现。图中显示SFT模型的准确率在两个任务间存在权衡,而RL模型在MNIST精度较高的同时,Fashion MNIST准确率保持相对较好,体现了RL相比SFT在保留先前知识上的优势。
图像 9 解读: 使用中心化核对齐 (Centered Kernel Alignment, CKA) 来衡量模型内部表征的相似性。结果显示,RL 微调后的模型与基础模型的表征相似度 (CKA > 0.9) 保持得非常好,而 SFT 则导致了剧烈的表征漂移 (CKA 降至约 0.55)。这从另一个角度印证了 RL 的更新更加“保守”。
-
7. 总结与思考 (Conclusion & Personal Thoughts)
-
结论总结 (Conclusion Summary):
- 论文的核心结论是,灾难性遗忘的程度由微调后模型与基础模型在新任务上的 KL 散度决定。
- 强化学习 (RL) 之所以遗忘更少,是因为其在线策略 (on-policy) 的训练机制天然地偏好于寻找 KL 散度最小的解决方案,这一原则被作者命名为
RL's Razor。 - 这一发现为理解和解决灾难性遗忘问题提供了一个简洁、强大且可操作的理论框架,指出未来的持续学习算法设计应明确地以最小化与基础模型的 KL 散度为目标。
-
局限性与未来工作 (Limitations & Future Work):
- 机制解释不完整: 论文解释了 KL 散度是遗忘的预测器,但没有从根本上解释为什么新任务上的 KL 散度增大会破坏旧任务的能力。这背后的微观机制(如表征干扰、能力容量限制)仍有待探索。
- 规模和领域的泛化性: 实验主要在中等规模的语言模型上进行,其结论在更大规模(如千亿参数)的模型和更多样的生成任务上是否依然成立,还需要进一步验证。
- 未研究离线策略 RL: 论文主要关注在线策略 RL,但很多流行的 RL 算法是离线策略的 (off-policy)。这些算法在遗忘问题上的表现如何,是一个值得研究的方向。
-
个人启发与批判 (Personal Insights & Critique):
- 启发: 这篇论文的思路非常优雅,它将一个看似复杂、混乱的问题(灾难性遗忘)提炼成一个简单而深刻的原则 (
RL's Razor)。这种化繁为简的洞察力是顶尖研究的标志。它告诉我们,有时候问题的答案不在于设计更复杂的算法,而在于找到正确的衡量尺度和理解问题的正确角度。 - 实践意义:
RL's Razor原则具有很强的实践指导意义。它启发我们可以设计出新的、更高效的算法,比如将 SFT 与显式的 KL 正则化相结合,从而在享受 SFT 训练效率的同时,获得类似 RL 的抗遗忘能力。这可能成为未来基础模型持续学习和个性化微调的主流方向。 - 批判性思考: 论文的结论在很大程度上依赖于“存在多个最优解”的任务设定。对于那些只有一个或极少数最优解的“窄”任务,RL 和 SFT 的差异可能不会那么显著,因为所有方法都必须收敛到相似的分布。此外,KL 散度的计算在大型模型中(尤其是对于连续动作空间)可能是困难和耗时的,如何高效地估计和优化它,将是应用这一原则的关键挑战。
- 启发: 这篇论文的思路非常优雅,它将一个看似复杂、混乱的问题(灾难性遗忘)提炼成一个简单而深刻的原则 (
相似论文推荐
基于向量语义检索推荐的相关论文。