论文状态:已完成

RELATION EDITING FOR LARGE LANGUAGE MODELS

原文链接
价格:0.100000
已有 3 人读过
本分析由 AI 生成,可能不完全准确,请以原文为准。

TL;DR 精炼摘要

本研究提出了关系编辑的任务,聚焦于修改大型语言模型中的关系,并构建了专门的数据集ReEditBench进行基准测试。研究显示,现有的方法难以消除旧信息,保留率高达98.20%。为解决这一问题,提出了一种新颖的遗忘与编辑框架,并引入自步学习策略,显著提高了编辑性能,尤其是在关系编辑任务上。

摘要

Knowledge editing is a critical technique for the routine updating and maintenance of LLMs. Existing research predominantly assumes changes only to the object within subject-relation-object triples, with minimal exploration into techniques for editing the relation. We term this task Relation Editing (distinct from the established “Object Editing” paradigm). We first construct a dedicated relation editing dataset and benchmark existing algorithms, revealing a critical flaw: even with successful edits, prominent methods suffer from the persistent retention of outdated information, with rates reaching as high as 98.20%. Editing failures stem primarily from two sources: the persistent retention of outdated relationships and the presence of challenging editing samples. To address the first issue, we propose a novel relation editing framework called Forgetting-and-Editing (FE). We theoretically show that existing forgetting methods (i.e., model unlearning) are unsuitable for this purpose and, to this end, introduce a new target assignment strategy within our framework. To mitigate the second challenge, we introduce a self-paced learning strategy, instantiated in a new algorithm named self-paced AlphaEdit (SPaEdit). We conduct extensive experiments on our compiled relation-editing dataset and established object-editing benchmarks. Results demonstrate that our proposed relation editing strategy achieves satisfactory performance on the relation editing task. In addition, SPaEdit outperforms existing SOTA methods on object-editing benchmarks. Our research also suggests further study is warranted in relation editing, particularly on forgetting existing relations.

思维导图

论文精读

中文精读

1. 论文基本信息

1.1. 标题

关系编辑大型语言模型 (RELATION EDITING FOR LARGE LANGUAGE MODELS)

1.2. 作者

匿名作者 (Anonymous authors)

1.3. 发表期刊/会议

本论文目前处于双盲评审阶段 (Paper under double-blind review)。通常此类论文会提交至顶会或知名期刊,例如文中引用的AlphaEdit发表于 The Thirteenth International Conference on Learning Representations, ICLR, 2025

1.4. 发表年份

2025年(根据文中引用AlphaEdit的发表年份推断)。

1.5. 摘要

知识编辑是大型语言模型 (LLMs) 日常更新和维护的关键技术。现有研究主要假设只修改主语-关系-宾语三元组 (subject-relation-object triples) 中的宾语 (object),而对编辑关系 (relation) 的技术探索甚少。我们将这项任务称为关系编辑 (Relation Editing),以区别于已有的“宾语编辑” (Object Editing) 范式。

我们首先构建了一个专门的关系编辑数据集 ReEditBench,并对现有算法进行了基准测试。结果揭示了一个关键缺陷:即使编辑成功,现有主流方法也存在旧信息持续保留的问题,保留率高达 98.20%。编辑失败主要源于两个方面:旧关系信息的持续保留和具有挑战性的编辑样本的存在。

为了解决第一个问题,我们提出了一种新颖的关系编辑框架,名为遗忘与编辑 (Forgetting-and-Editing, FE)。我们从理论上证明了现有遗忘方法(即模型反学习 (model unlearning))不适用于此目的,并为此在我们的框架中引入了一种新的目标赋值策略。为了缓解第二个挑战,我们引入了一种自步学习 (self-paced learning) 策略,并在一种新算法 self-paced AlphaEdit (SPaEdit) 中实现。

我们在编译的关系编辑数据集和已建立的宾语编辑基准上进行了广泛实验。结果表明,我们提出的关系编辑策略在关系编辑任务上取得了令人满意的性能。此外,SPaEdit 在宾语编辑基准上优于现有最先进 (SOTA) 方法。我们的研究还表明,关系编辑,特别是遗忘现有关系方面,值得进一步深入研究。

1.6. 原文链接

/files/papers/6951e7e69c764da3f20e3720/paper.pdf

2. 整体概括

2.1. 研究背景与动机

2.1.1. 研究背景

大型语言模型 (LLMs) 在各种自然语言处理任务中展现出强大的能力,但其知识是静态的,难以适应现实世界中不断变化的知识。为了解决这一问题,知识编辑 (Knowledge Editing) 技术应运而生,它允许在不进行昂贵的全模型再训练 (full retraining) 的情况下,精确修改 LLMs 内部存储的事实关联。

2.1.2. 现有挑战与研究空白

目前绝大多数知识编辑研究都集中在 宾语编辑 (Object Editing) 上,即修改三元组 (s, r, o) 中的宾语 oo。然而,在实际应用中,关系 rr 的改变同样常见且重要。例如,将“Zinedine Zidane is a player for Real Madrid”改为“Zinedine Zidane is a coach of Real Madrid”,这就是一个典型的关系更新,其中主体 ss 和宾语 oo 保持不变,而关系 rr 发生了变化。现有方法对这类 关系编辑 (Relation Editing) 任务的探索非常有限。

本文通过初步实验发现,直接将现有宾语编辑方法应用于关系编辑时,面临两大关键挑战:

  1. 旧知识的顽固保留: 即使模型成功学习了新的关系,它仍然会强烈地回忆起旧的关系。例如,在某些情况下,旧知识的保留率高达 98.20%,这意味着模型并没有真正“忘记”旧信息,而是新旧知识并存,导致冲突和不可靠的输出。
  2. 处理困难编辑样本的效能不足: 现有方法在处理那些初始误差较大、对模型当前知识体系挑战性更高的编辑样本时,性能会显著下降。

2.1.3. 论文的切入点与创新思路

本文旨在弥补 Relation Editing 这一研究空白,并解决现有方法在处理此类任务时面临的上述挑战。论文的核心思路是:

  1. 形式化定义 Relation Editing 任务,并构建专门的数据集。
  2. 针对旧知识保留问题,提出一个 遗忘与编辑 (Forgetting-and-Editing, FE) 框架。该框架的核心是在学习新知识的同时,主动“反学习”旧知识,确保知识的真正更新而非简单叠加。
  3. 针对 困难编辑样本问题,引入 自步学习 (Self-Paced Learning) 策略,并将其整合到一种名为 self-paced AlphaEdit (SPaEdit) 的新算法中。该策略允许模型从“容易”的编辑任务开始学习,逐步过渡到“困难”的任务,从而提高整体编辑成功率。

2.2. 核心贡献/主要发现

  1. 形式化 Relation Editing 任务并构建基准数据集: 首次系统地定义了 Relation Editing 任务,并构建了高质量的 ReEditBench 数据集,为该领域的研究提供了基础。
  2. 揭示现有方法在关系编辑中的关键缺陷: 实验证明,现有 Object Editing 方法在应用于 Relation Editing 时,即使能学习新知识,也会以高达 98.20% 的比率保留旧知识,导致严重的知识冲突。
  3. 提出 Forgetting-and-Editing (FE) 框架和新颖的遗忘策略: 理论分析表明现有模型反学习 (model unlearning) 策略不适用于关系遗忘。为此,FE 框架引入了一种基于目标平滑 (target smoothing) 的新目标赋值策略,有效解决了旧关系信息的保留问题,显著提高了编辑成功率并降低了旧知识保留率。
  4. 提出 self-paced AlphaEdit (SPaEdit) 算法:self-paced learning 策略引入知识编辑领域,通过“由易到难”的课程学习方式,有效处理了具有挑战性的编辑样本,进一步提升了编辑性能。
  5. 实验验证:
    • FE 策略显著提升了现有 Object Editing 方法在 ReEditBench 上的性能,平均 Success 指标提升 10.07%,最高提升 34.49%,并显著降低了 Retention
    • SPaEditReEditBench 上与 FE 策略结合使用时表现最佳,并在传统的 Object Editing 基准 (ZsRE 和 CounterFact) 上超越了包括 AlphaEdit 在内的现有最先进 (SOTA) 方法。
    • 一系列消融实验和敏感性分析进一步验证了 FE 策略和 SPaEdit 方法的优越性和鲁棒性。

3. 预备知识与相关工作

3.1. 基础概念

3.1.1. 大型语言模型 (Large Language Models, LLMs)

LLMs 是指参数量庞大、通常基于 Transformer 架构的深度学习模型,它们通过在海量文本数据上进行自监督学习,掌握了强大的语言理解和生成能力。然而,这些模型一旦训练完成,其内部存储的知识便是静态的,无法自主更新。

3.1.2. 知识编辑 (Knowledge Editing)

知识编辑是一项旨在精确修改 LLMs 内部存储的事实关联的技术,而无需进行耗费资源的全模型再训练。其核心目标是高效、准确地更新或纠正模型知识库中的特定事实,同时最小化对模型其他知识和通用能力的负面影响。

3.1.3. 主语-关系-宾语三元组 (Subject-Relation-Object, (s, r, o) triples)

知识编辑任务通常以三元组的形式来表示事实知识,其中:

  • ss 代表主语 (subject),是事实的主体。
  • rr 代表关系 (relation),描述主语和宾语之间的联系。
  • oo 代表宾语 (object),是事实的客体。 例如,事实“Zinedine Zidane is a player for Real Madrid”可以表示为三元组 (Zinedine Zidane, is a player for, Real Madrid)。

3.1.4. 宾语编辑 (Object Editing) 与 关系编辑 (Relation Editing)

  • 宾语编辑:这是当前知识编辑研究的主流范式,目标是修改三元组 (s, r, o) 中的宾语 oo,使其变为一个新的宾语 oo^*,即 (s,r,o)(s,r,o)(s, r, o) \to (s, r, o^*)。例如,将 (Barack Obama, born in, Honolulu) 改为 (Barack Obama, born in, Kenya)。
  • 关系编辑:本文提出的新范式,目标是修改三元组 (s, r, o) 中的关系 rr,使其变为一个新的关系 rr^*,而主语 ss 和宾语 oo 保持不变,即 (s,r,o)(s,r,o)(s, r, o) \to (s, r^*, o)。例如,将 (Zinedine Zidane, is a player for, Real Madrid) 改为 (Zinedine Zidane, is a coach of, Real Madrid)。

3.1.5. 定位-然后-编辑范式 (Locate-then-edit paradigm)

这是一种主流的知识编辑策略。它首先识别 LLM 中存储特定事实的关键参数(例如,Transformer 的前馈网络 (FFN) 中的特定层或神经元),然后对这些参数进行有针对性的修改,以注入新知识或修正旧知识。这种方法旨在实现局部修改,同时尽量不影响模型其他部分的性能。

3.1.6. 模型反学习 (Model Unlearning)

模型反学习的目标是从已训练的模型中可靠地移除特定(通常是敏感或过时)的知识,使其表现得像从未学习过这些知识一样。这与知识编辑中的“遗忘”需求密切相关,因为在更新知识时,需要确保旧的、冲突的知识被有效移除。

3.1.7. 课程学习 (Curriculum Learning, CL) 与 自步学习 (Self-Paced Learning, SPL)

  • 课程学习:一种训练策略,其灵感来源于人类学习过程,即从相对简单或容易的样本开始学习,然后逐步引入更复杂或更困难的样本。这种“由易到难”的顺序有助于模型更稳定、高效地学习。
  • 自步学习课程学习的一种自动化形式。它不需要预先手动定义学习顺序或难度,而是通过一个优化目标,让模型在训练过程中根据自身的学习状态和样本的内在难度,自适应地选择和权重化样本。通常,一个“步长参数” (pace parameter) 会逐渐放松对样本难度的限制,从而逐步纳入更多挑战性样本。

3.2. 前人工作

3.2.1. 基于参数的知识编辑 (Parameter-Based Knowledge Editing)

这部分方法主要通过修改 LLM 的内部参数来编辑知识。

  • 元学习 (Meta-learning) 方法:例如 KE (Cao et al., 2021) 和 MEND (Mitchell et al., 2022),它们学习一个更新规则或元网络,以生成针对特定事实的参数更新。
  • 定位-然后-编辑 (Locate-then-edit) 方法:这类方法首先识别与特定事实相关的模型权重,然后应用一个闭式解 (closed-form update) 来修改这些权重。
    • ROME (Meng etal., 2022):首次提出了在 GPT 模型中定位并编辑事实关联的方法,通过对 FFN 层进行秩-1 (rank-one) 更新。
    • MEMIT (Meng et al., 2023):将 ROME 扩展到大规模编辑,通过同时识别多层并应用秩-1更新来批量编辑事实。
    • AlphaEdit (Fang et al., 2025):引入了一种新颖的零空间约束 (null-space constrained) 方法,理论上保证了知识保留的同时实现精确编辑,通过将更新投影到知识保留的零空间中。
    • 其他:LoFiT (Yin et al., 2024) 和 FiNE (Pan et al., 2025) 提高了编辑的粒度到神经元或注意力头。RECT (Gu et al., 2024)、NSE (Jiang et al., 2024)、PRUNE (Ma et al., 2025) 也是此范畴内的方法。
  • 非侵入式方法:例如 MELO (Yu et al., 2024) 采用外部记忆或基于提示 (prompt-based) 的适应。

3.2.2. 时间适应与反学习 (Temporal Adaptation and Unlearning)

这部分方法关注知识随时间的变化和敏感知识的移除。

  • 模型反学习:旨在可靠地从 LLMs 中移除过时或隐私知识。
    • 基于梯度的方法:如遗忘损失 (Yao et al., 2024)、正交投影更新 (Hoang et al., 2024) 和 Fisher 加权掩码 (Cha et al., 2024)。
    • 以记忆为中心的方法:如 GRACE (Hartvigsen et al., 2023)、T-Patcher (Huang et al., 2023) 和 KV scrubbing (Wang et al., 2024a)。
    • 本文的发现: 现有反学习方法通常为被遗忘数据设定固定目标(如“我不知道”或随机答案),但这在基于线性回归的编辑方法中可能引入系统性偏差。

3.2.3. 课程学习与自步学习 (Curriculum and Self-Paced Learning)

课程学习原则(由易到难排序样本)自 Bengio et al., 2009 提出后被广泛应用。自步学习 (Kumar et al., 2010) 通过正则化权重自动化了样本选择。这些概念已扩展到深度学习,并应用于 LLM 的指令微调 (instruction-tuning) 和持续学习 (continual learning) (Ke et al., 2022; Liu et al., 2024b; Ge et al., 2025)。

  • 本文的创新: 尽管这些原则应用广泛,但尚未系统性地应用于知识编辑。本文通过引入一个定制的自步学习框架,弥补了这一空白,并在处理困难编辑任务时实现了显著改进。

3.3. 技术演进

知识编辑领域从最初的全局微调方法 (如 Fine-Tuning) 演进到更精确的局部修改方法 (如 ROME, MEMIT),再到理论上更严谨的零空间约束方法 (如 AlphaEdit),旨在实现高效、精确且无副作用的知识更新。然而,这些工作大多停留在 Object Editing 层面,忽略了 Relation Editing 的实际需求。

在模型遗忘方面,研究从简单的删除数据再训练到设计复杂的梯度投影和记忆隔离机制,但普遍存在如何设定“遗忘目标”的问题,特别是对于基于线性回归的编辑方法,不恰当的遗忘目标可能引入系统性偏差。

同时,课程学习自步学习在机器学习领域已证明其有效性,但在知识编辑中,样本难度的概念(即一个事实有多难被修改)尚未被充分利用。

3.4. 差异化分析

本文的核心创新点和差异化体现在以下几个方面:

  1. 任务聚焦: 首次系统地将 Relation Editing 作为一个独立且重要的任务提出并深入研究,弥补了现有研究的空白。
  2. 遗忘机制: 揭示了现有模型反学习策略在知识编辑中引入系统性偏差的理论缺陷,并提出了一种新颖的目标平滑 (Target Smoothing) 策略,该策略通过插值方式设定遗忘目标,实现了更有效、更稳定的旧知识遗忘。
  3. 难度感知学习: 首次将 自步学习 (Self-Paced Learning) 引入知识编辑任务,通过构建“由易到难”的课程,解决了现有方法在处理高难度编辑样本时性能下降的问题,从而提高了编辑的鲁棒性和成功率。
  4. 整合与优化: 将提出的遗忘策略和自步学习算法整合到一个名为 Forgetting-and-Editing (FE) 的框架中,并通过 SPaEdit 算法实现,实现了对关系编辑任务的全面优化。

4. 方法论

本文的方法论旨在解决 Relation Editing 任务中的两大挑战:旧关系信息的持续保留和处理困难编辑样本的效能不足。为此,论文提出了 Forgetting-and-Editing (FE) 框架以及 self-paced AlphaEdit (SPaEdit) 算法。

4.1. 方法原理

核心原理是“先遗忘,后编辑”,并辅以“由易到难”的自步学习策略。

  1. 遗忘旧知识: 针对旧关系持续保留的问题,FE 框架通过引入一个新颖的目标平滑策略,为待遗忘的旧关系三元组 (s, r, o) 生成一个“中性”的目标宾语表示 v(o^)\pmb{v}(\hat{o}),使得模型在学习新关系的同时,主动将旧关系的预测结果导向这个中性状态,从而有效“擦除”旧知识。

  2. 编辑新知识: 与遗忘过程并行,模型学习将新的关系三元组 (s,r,o)(s, r^*, o) 与正确的宾语 oo 关联起来。

  3. 自步学习处理难度: 针对困难编辑样本,SPaEdit 算法借鉴 self-paced learning 的思想,根据样本的难度动态调整学习顺序。模型首先处理“容易”的编辑任务,逐步学习并巩固新知识,然后再逐渐引入“困难”的编辑任务,通过迭代优化提高整体编辑成功率。

    整个框架(原文 Figure 3)将遗忘旧知识和学习新知识这两个目标结合到单一的优化步骤中,并通过自步学习来优化编辑过程。

    Figure 3: Overview of our proposed framework for relation editing, combining a novel forgetting-and-editing (FE) strategy with a Self-paced AlphaEdit (SPaEdit) algorithm. 该图像是一个示意图,展示了我们提出的关系编辑框架,结合了遗忘与编辑(FE)策略和自适应AlphaEdit(SPaEdit)算法。图中展示了编辑和遗忘数据的选择过程,以及更新新对象向量的公式 v(ô) = v(o) + eta[v(IDK) - v(o)]

Figure 3: Overview of our proposed framework for relation editing, combining a novel forgetting-and-editing (FE) strategy with a Self-paced AlphaEdit (SPaEdit) algorithm.

4.2. 核心方法详解

4.2.1. 理论调查:现有遗忘策略的局限性

Knowledge Editing 中,许多方法将编辑任务建模为线性回归问题。例如,给定一个训练集 D={(xi,yi)}i=1N\mathbb{D} = \{(\boldsymbol{x}_i, \boldsymbol{y}_i)\}_{i=1}^N,目标是找到最优权重 w\pmb{w}^* 来最小化均方误差 (MSE)。 为了遗忘数据,传统 LLM unlearning 方法通常将要遗忘的数据 Db\mathbb{D}_b 的预测目标设定为“我不知道” (IDK) 或一个随机响应。本文从理论上分析了这两种策略在基于线性回归的编辑方法(如 AlphaEditMEMIT)中的不适用性。

假设训练集 D\mathbb{D} 分为正常数据 Dg\mathbb{D}_g 和遗忘数据 Db\mathbb{D}_b。通过最小化 MSE,可以得到最优权重 w\pmb{w}^* 的闭式解: w=(XX)1(Xgyg+Xbyb) \pmb { w } ^ { * } = ( \mathbf { X } ^ { \top } \mathbf { X } ) ^ { - 1 } ( \mathbf { X } _ { g } ^ { \top } \pmb { y } _ { g } + \mathbf { X } _ { b } ^ { \top } \pmb { y } _ { b } ) 其中:

  • XRN×d\mathbf{X} \in \mathbb{R}^{N \times d} 是特征矩阵,包含所有样本的特征向量 xi\boldsymbol{x}_i

  • yRN\boldsymbol{y} \in \mathbb{R}^{N} 是标签向量,包含所有样本的目标值 yi\boldsymbol{y}_i

  • Xg\mathbf{X}_gyg\pmb{y}_g 分别是正常数据的特征矩阵和标签向量。

  • Xb\mathbf{X}_byb\pmb{y}_b 分别是遗忘数据的特征矩阵和标签向量。

  • w\pmb{w}^* 是通过最小化均方误差 (MSE) 得到的模型最优权重向量。

  • (XX)1(\mathbf{X}^\top \mathbf{X})^{-1}XX\mathbf{X}^\top \mathbf{X} 的逆矩阵,通常在最小二乘法中用于求解线性回归的权重。

  • Xgyg\mathbf{X}_g^\top \pmb{y}_g 代表来自正常数据的信号。

  • Xbyb\mathbf{X}_b^\top \pmb{y}_b 代表来自遗忘数据的信号。

    wg\pmb{w}_g^* 是仅使用正常数据 Dg\mathbb{D}_g 训练得到的解。

案例 1:遗忘目标设定为常数 y^\hat{y} (模拟 IDK) 在这种情况下,所有遗忘数据的标签 yb\pmb{y}_b 都被设为同一个常数 y^\hat{y}。经过数学推导, Eqn. 2 变为: wconst=(XX)1(Xgyg+y^N2u)=wg+y^N2(XX)1u \pmb { w } _ { \mathrm { c o n s t } } ^ { * } = ( \mathbf { X } ^ { \top } \mathbf { X } ) ^ { - 1 } ( \mathbf { X } _ { g } ^ { \top } \mathbf { y } _ { g } + \frac { \hat { y } N } { 2 } \pmb { u } ) = \pmb { w } _ { g } ^ { * } + \frac { \hat { y } N } { 2 } ( \mathbf { X } ^ { \top } \mathbf { X } ) ^ { - 1 } \pmb { u } 其中:

  • wconst\pmb{w}_{\mathrm{const}}^* 是当遗忘目标为常数时得到的模型权重。
  • wg\pmb{w}_g^* 是仅用正常数据训练得到的模型权重。
  • y^\hat{y} 是用于遗忘数据的常数目标值。
  • NN 是总样本数。
  • u=1DbiDbxi\pmb{u} = \frac{1}{|\mathbb{D}_b|} \sum_{i \in \mathbb{D}_b} \pmb{x}_i 是遗忘数据特征向量的均值。 这个公式表明,将遗忘目标设为常数会引入一个系统性偏差 y^N2(XX)1u\frac{\hat{y}N}{2}(\mathbf{X}^\top \mathbf{X})^{-1}\pmb{u},将解 wconst\pmb{w}_{\mathrm{const}}^* 推向 y^\hat{y} 的方向。这不仅影响遗忘样本,还会扭曲正常知识,导致对所有输入的预测都偏向 y^\hat{y}

案例 2:遗忘目标设定为随机值 在这种情况下,遗忘数据的标签 yb\pmb{y}_b 被设为随机值。期望解为: E[wrand]=(XX)1(Xgyg+E[Xbyb])=wg+(XX)1(0.5DbE[x]) \mathbb { E } [ { \pmb w } _ { \mathrm { r a n d } } ^ { * } ] = ( \mathbf { X } ^ { \top } \mathbf { X } ) ^ { - 1 } ( \mathbf { X } _ { g } ^ { \top } { \pmb y } _ { g } + \mathbb { E } [ \mathbf { X } _ { b } ^ { \top } { \pmb y } _ { b } ] ) = { \pmb w } _ { g } ^ { * } + ( \mathbf { X } ^ { \top } \mathbf { X } ) ^ { - 1 } ( 0 . 5 | \mathbb { D } _ { b } | \mathbb { E } [ \mathbf { x } ] ) 其中:

  • E[wrand]\mathbb{E}[\pmb{w}_{\mathrm{rand}}^*] 是当遗忘目标为随机值时得到的模型权重的期望。
  • Db|\mathbb{D}_b| 是遗忘数据的数量。
  • E[x]\mathbb{E}[\mathbf{x}] 是所有样本特征向量的期望。 类似地,随机噪声也会在期望上引入一个系统性偏差 (XX)1(0.5DbE[x])( \mathbf{X}^\top \mathbf{X} )^{-1} ( 0.5 |\mathbb{D}_b| \mathbb{E}[\mathbf{x}] ),使预测值偏向 0.5(LLMs 的平均响应),同样扭曲了模型的正常知识。

结论是,这两种标准遗忘策略都会导致正常知识被系统性扭曲。

4.2.2. 通过目标平滑进行知识遗忘 (Knowledge Forgetting via Target Smoothing)

由于传统遗忘策略的局限性,本文提出一种新的目标赋值策略来遗忘旧关系。关键在于为待遗忘的三元组 (s, r, o) 确定一个合适的宾语表示 o^\hat{o}。这个 o^\hat{o} 既不能在所有样本中保持不变,也不能是随机赋值的。同时,考虑到 (s, r)(s,r)(s, r^*) 的向量表示高度相似(如原文 Figure 2 所示),新的 v(o^)\pmb{v}(\hat{o}) 与原始 v(o)\pmb{v}(o) 之间的差异不应过大,否则会使优化问题变得更难解决。

Figure 2: Similarity heatmap between original and new relation keys. 该图像是相似度热图,展示了原始知识(O)与新知识(N)之间的相似性。图中各单元格的颜色代表了不同的余弦相似度值,数值范围从0.2到1.0,表明信息间的关联程度。

Figure 2: Similarity heatmap between original and new relation keys.

基于以上考虑,本文直接通过插值方式生成 o^\hat{o} 的向量表示: v(o^)=v(o)+γ[v(IDK)v(o)],γ(0,1) \pmb { v } ( \hat { o } ) = \pmb { v } ( o ) + \gamma [ \pmb { v } ( \mathrm { IDK } ) - \pmb { v } ( o ) ] , \gamma \in ( 0 , 1 ) 其中:

  • v(o^)\pmb{v}(\hat{o}) 是待遗忘宾语 o^\hat{o} 的目标向量表示。

  • v(o)\pmb{v}(o) 是原始宾语 oo 的向量表示。

  • v(IDK)\pmb{v}(\mathrm{IDK}) 是“我不知道” (I Don't Know) 这一特殊 token 的向量表示,代表一种中性状态。

  • γ(0,1)\gamma \in (0, 1) 是插值因子,一个超参数,控制遗忘的强度。γ\gamma 越大,v(o^)\pmb{v}(\hat{o}) 越接近 v(IDK)\pmb{v}(\mathrm{IDK}),遗忘强度越大。

    这个赋值策略通过以下方式满足了三个标准:

  1. 非恒定赋值 (nonconstant assignment): v(o^)\pmb{v}(\hat{o}) 会根据原始宾语 v(o)\pmb{v}(o) 的不同而变化,而非所有遗忘样本都指向同一个固定值。

  2. 非随机赋值 (nonrandom assignment): v(o^)\pmb{v}(\hat{o}) 是一个确定的插值结果,而非随机噪声。

  3. 目标向量接近性 (target vector proximity): 通过 γ\gamma 控制,v(o^)\pmb{v}(\hat{o}) 可以保持与 v(o)\pmb{v}(o) 相对接近,避免过大的优化难度。

    理论分析(Appendix B.1)表明,相比固定常数目标或随机响应,该方法能抑制系统性偏差,提高编辑成功率,减少旧知识保留,同时对正常知识的扰动更小,优化过程更稳定。

4.2.3. 提出的遗忘与编辑策略 (The Proposed Forgetting-and-Editing Strategy, FE)

基于目标平滑,本文提出了 Forgetting-and-Editing (FE) 策略。这是一个综合框架,将旧关系的“反学习”与新知识的“注入”整合到一个统一的优化步骤中。

对于给定的一批 NN 个关系编辑样本,其中第 ii 个样本涉及将关系从 (si,ri,oi)(s_i, r_i, o_i) 更改为 (si,ri,oi)(s_i, r_i^*, o_i)FE 策略的程序分两个阶段进行,并结合为单个优化步骤:

阶段 1:构建遗忘对 (Constructing the Forgetting Pairs) 首先,使用 Eqn. 5 计算插值目标 v(o^i)\pmb{v}(\hat{o}_i)。然后,形成遗忘对 (ki,v(o^i))(k_i, \pmb{v}(\hat{o}_i)),其中 kik_i 是对应于原始主语-关系 (si,ri)(s_i, r_i) 的键向量。这对指示模型将旧关系的表示向中性状态转移,从而有效地抑制旧知识的激活。

阶段 2:构建编辑对 (Constructing the Editing Pairs) 同时,构建标准编辑对 (ki,v(oi))(k_i', \pmb{v}(o_i)),其中 ki\pmb{k}_i' 是新主语-关系 (si,ri)(s_i, r_i^*) 的键向量,v(oi)\pmb{v}(o_i) 是宾语的目标值。这对确保模型准确捕获新的关系关联。

联合优化 (Joint Optimization) 最后,遗忘对和编辑对被连接起来,形成当前批次的完整训练集: Dtotal=i=1N{(ki,v(o^i)),(ki,v(oi))} \mathcal { D } _ { \mathrm { t o t a l } } = \bigcup _ { i = 1 } ^ { N } \{ ( k _ { i } , v ( \hat { o } _ { i } ) ) , ( k _ { i } ^ { \prime } , v ( o _ { i } ) ) \} 这个组合数据集 Dtotal\mathcal{D}_{\mathrm{total}} 随后被输入到基础编辑器(例如 AlphaEdit 或本文提出的 SPaEdit)。通过联合优化这两个目标,算法更新权重以同时反学习旧关系并获取新关系,从而解决关系编辑中固有的冲突。

4.2.4. 通过自步学习改进 (Improvement via Self-Paced Learning, SPaEdit)

实验分析表明,一些知识编辑任务比其他任务更具挑战性。这促使本文将 self-paced learning (SPL) 的“由易到难”课程策略整合到知识编辑过程中,并将其与 SOTA 方法 AlphaEdit (Fang et al., 2025) 结合,提出 Self-paced AlphaEdit (SPaEdit)。

首先回顾 AlphaEdit 的原始目标函数,它旨在寻找一个最优的扰动 Δ\pmb{\Delta}argminΔ(W+ΔP)K1V1F2+αΔPF2+βΔPKpF2 \underset { \Delta } { \arg \operatorname* { m i n } } \left\| ( \mathbf { W } + \Delta \mathbf { P } ) \mathbf { K } _ { 1 } - \mathbf { V } _ { 1 } \right\| _ { F } ^ { 2 } + \alpha \big \| \Delta \mathbf { P } \big \| _ { F } ^ { 2 } + \beta \left\| \Delta \mathbf { P } \mathbf { K } _ { p } \right\| _ { F } ^ { 2 } 其中:

  • Δ\pmb{\Delta} 是要应用于模型权重矩阵 W\mathbf{W} 的扰动。

  • P\mathbf{P} 是一个投影矩阵,确保更新限制在知识保留的零空间内,理论上保证不干扰先前存储的知识。P\mathbf{P} 满足 P=P\mathbf{P} = \mathbf{P}^\topP2=P\mathbf{P}^2 = \mathbf{P}

  • K1\mathbf{K}_1V1\mathbf{V}_1 是要编辑的事实的键和值矩阵。

  • Kp\mathbf{K}_p 是需要明确保留的知识的键矩阵,用于确保编辑不会影响这些知识。

  • α\alphaβ\beta 是正则化系数。

    • α\alphaαΔPF2\alpha \|\Delta \mathbf{P}\|_F^2 约束更新的整体幅度,防止对模型参数造成过大扰动。
    • β\betaβΔPKpF2\beta \|\Delta \mathbf{P} \mathbf{K}_p\|_F^2 惩罚对先前编辑知识的干扰。
  • F2\|\cdot\|_F^2 表示 Frobenius 范数的平方。

    原始目标函数对所有实例使用统一的权重,忽略了样本难度。为了引入自步学习,本文将编辑任务重构为 SPL 问题,引入二元选择器 zi{0,1}z_i \in \{0, 1\} 来构建自适应课程,得到以下目标函数: minΔ,zI(Δ,z;λ)=i=1nzii(Δ)+αΔPF2+βΔPKpF2λi=1nzi \operatorname* { m i n } _ { \boldsymbol { \Delta } , \boldsymbol { z } } \mathcal { I } ( \boldsymbol { \Delta } , \boldsymbol { z } ; \boldsymbol { \lambda } ) = \sum _ { i = 1 } ^ { n } z _ { i } \ell _ { i } ( \boldsymbol { \Delta } ) + \alpha \| \boldsymbol { \Delta } \mathbf { P } \| _ { F } ^ { 2 } + \beta \| \boldsymbol { \Delta } \mathbf { P } \mathbf { K } _ { p } \| _ { F } ^ { 2 } - \boldsymbol { \lambda } \sum _ { i = 1 } ^ { n } z _ { i } 其中:

  • nn 是编辑样本的总数。

  • zi{0,1}z_i \in \{0, 1\} 是二元选择器,如果第 ii 个样本被包含在编辑过程中,则 zi=1z_i=1;否则 zi=0z_i=0

  • i(Δ)\ell_i(\Delta) 是第 ii 个样本的平方误差损失:i(Δ)=(W+ΔP)kivi22=ΔPkiri22\ell _ { i } ( \Delta ) = \| ( \mathbf { W } + \Delta \mathbf { P } ) k _ { i } - v _ { i } \| _ { 2 } ^ { 2 } = \| \Delta \mathbf { P } k _ { i } - r _ { i } \| _ { 2 } ^ { 2 }

    • kik_iviv_i 是第 ii 个编辑样本的键向量和值向量。
    • ri=viWki\pmb{r}_i = \pmb{v}_i - \mathbf{W}k_i 是第 ii 个样本的残差,表示模型当前预测与目标值之间的误差。
  • λ>0\lambda > 0 是步长参数 (pace parameter),控制课程的难度。该项 λi=1nzi\lambda \sum_{i=1}^n z_i 鼓励选择更多的样本,但选择的样本需要平衡其损失。

    该优化问题通过 Δ\pmb{\Delta}z\pmb{z} 之间的交替最小化来解决:

1. 固定 z\pmb{z} 优化 Δ\pmb{\Delta}z\pmb{z} 固定时,问题简化为对“容易”样本子集的正则化最小二乘目标。令 Z=diag(z)\mathbf{Z} = \mathrm{diag}(z) 为对角矩阵(其中 ziz_i 为对角线元素)。目标函数可以写为: minΔ(ΔPK1(V1WK1))Z1/2F2+αΔPF2+βΔPKpF2 \operatorname* { m i n } _ { \Delta } \left\| \left( \Delta \mathbf { P } \mathbf { K } _ { 1 } - \left( \mathbf { V } _ { 1 } - \mathbf { W } \mathbf { K } _ { 1 } \right) \right) \mathbf { Z } ^ { 1 / 2 } \right\| _ { F } ^ { 2 } + \alpha \| \Delta \mathbf { P } \| _ { F } ^ { 2 } + \beta \left\| \Delta \mathbf { P } \mathbf { K } _ { p } \right\| _ { F } ^ { 2 } 其中 Z1/2\mathbf{Z}^{1/2} 等于 Z\mathbf{Z} 因为其元素是0或1。 这是一个凸问题,其闭式解为: ΔSPaEdit=(RZK1P)(K1ZK1P+βKpKpP+αI)1 \pmb { \Delta } _ { \mathrm { S P a E d i t } } = ( \mathbf { R Z K } _ { 1 } ^ { \top } \mathbf { P } ) ( \mathbf { K } _ { 1 } \mathbf { Z K } _ { 1 } ^ { \top } \mathbf { P } + \beta \mathbf { K } _ { p } \mathbf { K } _ { p } ^ { \top } \mathbf { P } + \alpha \mathbf { I } ) ^ { - 1 } 其中:

  • ΔSPaEdit=ΔP\pmb{\Delta}_{\mathrm{SPaEdit}} = \pmb{\Delta}\mathbf{P} 是最终的投影更新。
  • R=V1WK1\mathbf{R} = \mathbf{V}_1 - \mathbf{W}\mathbf{K}_1 是残差矩阵,代表编辑需要纠正的初始误差。
  • K1\mathbf{K}_1 是要编辑的事实的键矩阵。
  • Z\mathbf{Z} 是对角选择矩阵,其对角线元素 ziz_i 为 0 或 1,表示样本是否被选中。
  • P\mathbf{P} 是零空间投影矩阵。
  • Kp\mathbf{K}_p 是需要保留的知识的键矩阵。
  • α\alphaβ\beta 是正则化系数。
  • I\mathbf{I} 是单位矩阵。 这个闭式解确保了计算的效率,并且通过引入 Z\mathbf{Z} 矩阵,使得只有被选中的“容易”样本参与到当前的参数更新中。

2. 固定 Δ\pmb{\Delta} 优化 z\pmb{z}Δ\pmb{\Delta} 固定时,为下一次迭代确定每个样本的最优选择 ziz_i^*。这一步通过调整难度阈值 λ\lambda 来实现由易到难的课程,逐步纳入更具挑战性的样本: zi(λ)={1,ifi(Δ)<λ0,otherwise z _ { i } ^ { * } ( \lambda ) = \left\{ \begin{array} { l l } { 1 , } & { \mathrm { i f } \ell _ { i } ( \Delta ) < \lambda } \\ { 0 , } & { \mathrm { o t h e r w i s e } } \end{array} \right. 这意味着只有当第 ii 个样本的当前损失 i(Δ)\ell_i(\Delta) 小于步长参数 λ\lambda 时,该样本才会被选中 (zi=1z_i^*=1) 参与下一轮优化。

这个两步过程迭代进行,其中 λ\lambda 会随时间逐渐增加,以纳入更多困难样本。迭代结束后,得到一系列模型权重 W(t)\mathbf{W}^{(t)}。通过验证集进行模型选择,当验证损失趋于平稳时停止迭代过程。整个算法被称为 SPaEdit

4.2.5. Algorithm 1: SPaEdit

Algorithm 1: SPaEdit
Input: K_1 ∈ ℝ^(d×n), V_1 ∈ ℝ^(d×n), W ∈ ℝ^(d×d), P ∈ ℝ^(d×d), K_p ∈ ℝ^(d×m), α, β, µ, λ0, T
Output: sequence of edited matrices {W(t)}

1: Initialize W(0) = W
2: Initialize λ = λ0
3: Initialize Z = I (all samples are initially considered "easy")
4: For t = 1 to T do
5:   // Step 1: Optimize Δ with fixed Z (easy samples)
6:   R = V_1 - W(t-1)K_1
7:   Δ_SPaEdit = (R Z K_1^T P) (K_1 Z K_1^T P + β K_p K_p^T P + α I)^-1
8:   W(t) = W(t-1) + Δ_SPaEdit P
9:   // Step 2: Optimize Z with fixed Δ (select samples based on difficulty)
10:  For i = 1 to n do
11:     Calculate loss for current sample: ℓ_i(Δ_SPaEdit) = ||(W(t-1) + Δ_SPaEdit P) k_i - v_i||_2^2
12:     If ℓ_i(Δ_SPaEdit) < λ then
13:        z_i = 1
14:     Else
15:        z_i = 0
16:    End If
17:  End For
18:  Update Z = diag(z)
19:  // Update pace parameter λ (gradually increase difficulty)
20:  λ = µ * λ
21:  // Optional: Early stopping based on validation loss
22:  If validation loss plateaus for 3 consecutive iterations then
23:     Break
24: End If
25:Return {W(t)}T=1

其中:

  • K1K_1, V1V_1: 待编辑知识的键和值矩阵。
  • WW: 原始模型权重矩阵。
  • PP: 零空间投影矩阵。
  • KpK_p: 需保留知识的键矩阵。
  • αα, ββ: 正则化系数。
  • µ: 步长增长因子 (Pace Growth Factor)。
  • λ0λ0: 初始步长参数 (Initial Pace Parameter)。
  • TT: 最大迭代次数 (Max Iterations)。 算法流程显示,SPaEdit 在结构上与 AlphaEdit 相似,主要额外引入了对角矩阵 Z\mathbf{Z} 来动态控制样本的优化顺序,从而实现自步学习。

5. 实验设置

5.1. 数据集

5.1.1. ReEditBench (关系编辑数据集)

  • 来源与规模: 本文首次构建的专门用于 Relation Editing 任务的数据集,包含 7,918 个高质量编辑实例。数据来源于 ZsRE (Levy et al., 2017) 和 Wikidata (Vrandei & Krötzsch, 2014)。
  • 构建流程(四阶段):
    1. 知识收集:ZsREWikidata 收集高质量的 subject-relation-object 三元组 (s, r, o)

    2. LLM 关系生成: 使用 DeepSeekV3 (Liu et al., 2024a) 作为生成器 LLM,根据两种模式自动将原始事实重构为关系编辑任务:

      • 新关系 (New Relation): 直接修改核心关系。例如,将 (Parag Agrawal, CEO of, Twitter) 改为 (Parag Agrawal, CTO of, Twitter)。
      • 条件关系 (Conditional Relation): 为原始关系添加新的上下文或时间约束。例如,将 (Joe Biden, President of, USA) 改为 (Joe Biden, 46th President of, USA)。
    3. 自动化过滤流程:

      • 基于脚本的过滤: 检查结构完整性(如空字段、格式错误)。
      • 基于 LLM 的验证: 使用独立的验证器 LLM (DeepseekR1 (Guo et al., 2025)) 评估事实和语义的合理性,过滤掉逻辑矛盾、事实幻觉或语义不连贯的实例。
    4. 人工验证: 随机抽取 30% 的样本进行人工验证,确认 98.5% 的实例有效,证实了生成管道的高质量。

      以下是原文 Figure 6 展示的数据集构建过程:

      Figure 6: The construction process of our dataset. 该图像是一个示意图,展示了关系编辑数据集构建的四个步骤:知识收集、关系生成、数据过滤和人工验证。每个步骤包括具体的操作和工具,以确保数据质量和准确性。

Figure 6: The construction process of our dataset.

5.1.2. ZsRE (Zero-shot Relation Extraction)

  • 来源与特点: 一个经典的知识密集型基准数据集 (Levy et al., 2017),主要用于零样本关系抽取任务,也被广泛用于评估知识编辑。它包含大量标准的事实回忆提示,覆盖广泛的通用知识。

  • 样本示例: 原文 Figure 13 展示了 ZsRE 数据集的一些例子,通常包含subjectsrc(原始问题)、pred(预测答案)、rephrase(问题重述)等字段。

    Figure 13: Some examples of the ZsRE dataset 该图像是一个示例数据集的展示,展示了ZsRE数据集中的一些实例。这些实例包括了与特定主题相关的问题、预测答案和重述形式,使其适用于关系编辑研究。

Figure 13: Some examples of the ZsRE dataset

5.1.3. CounterFact

  • 来源与特点: 另一个常用的对象编辑基准数据集 (Meng et al., 2022),以其反直觉的事实编辑任务而闻名,对模型更新的精确性提出了更高的要求。它通常包含不常见或反常识的事实,旨在作为对模型预存偏见的压力测试。
  • 样本示例: 原文 Figure 14 展示了 CounterFact 数据集的一些例子,通常包含subjecttarget_new(新目标)、relationlocality_prompt(局部性提示)等字段。
{
"relation_id": "P527",
"target_new": "pitcher",
"subject": "Frank Zupo",
"relation": "member of sports team",
"locality_prompt": "Chicago Cubs is a baseball team, and so is",
"locality_ground_truth": "New York Yankees"
},
{
"relation_id": "P27",
"target_new": "Belgium",
"subject": "Charles Vanel",
"relation": "country of citizenship",
"locality_prompt": "Marcel Pagnol is French, as is",
"locality_ground_truth": "French"
},
{
"relation_id": "P170",
"target_new": "Nenjil Or Aalayam",
"subject": "Teen Kanya",
"relation": "director",
"locality_prompt": "Pather Panchali, that was developed in",
"locality_ground_truth": "India"
}

Figure 14: Some examples of the CounterFact dataset (Note: The provided image content for Figure 14 is not a complete, valid JSON structure and some parts seem truncated or misformatted. I've re-formatted it based on common CounterFact samples and the provided text fragments to make it readable.)

5.1.4. 验证集构建与使用

SPaEdit 算法是迭代的,需要验证集来选择最优模型检查点。验证集通过从完整训练数据集中随机抽取 20% 的编辑实例构建。每个验证实例包括:

  • 原始键值对 (korg,vorg)(k_{\mathrm{org}}, v_{\mathrm{org}})

  • 新键值对 (knew,vorg)(k_{\mathrm{new}}, v_{\mathrm{org}})

  • 复述键 krek_{\mathrm{re}} (新键的语义重述,用于测试泛化能力)

  • 遗忘目标 vforget\pmb{v}_{\mathrm{forget}} (通过 Eqn. 5 定义:vforget=vorg+γ(vIDKvorg)\pmb{v}_{\mathrm{forget}} = \pmb{v}_{\mathrm{org}} + \gamma (\pmb{v}_{\mathrm{IDK}} - \pmb{v}_{\mathrm{org}}))

    在每次迭代中,计算一个加权总验证损失 Lval(t)\mathcal{L}_{\mathrm{val}}(t),它是遗忘损失 (Lforget\mathcal{L}_{\mathrm{forget}})、有效性损失 (Lefficacy\mathcal{L}_{\mathrm{efficacy}}) 和泛化损失 (Lgen\mathcal{L}_{\mathrm{gen}}) 的加权和: Lval(t)=wforgetLforget(t)+wefficacyLefficacy(t)+wgenLgen(t) \mathcal { L } _ { \mathrm { val } } ( t ) = w _ { \mathrm { forget } } \cdot \mathcal { L } _ { \mathrm { forget } } ( t ) + w _ { \mathrm { efficacy } } \cdot \mathcal { L } _ { \mathrm { efficacy } } ( t ) + w _ { \mathrm { gen } } \cdot \mathcal { L } _ { \mathrm { gen } } ( t ) 其中:

  • Lforget(t)=E(korg,vforget)[Wtkorgvforget22]\mathcal { L } _ { \mathrm { forget } } ( t ) = \mathbb { E } _ { (k _ { \mathrm { org } } , v _ { \mathrm { forget } } ) } \left[ \left| \left| \mathbf { W } _ { t } k _ { \mathrm { org } } - v _ { \mathrm { forget } } \right| \right| _ { 2 } ^ { 2 } \right]:遗忘旧事实的损失。

  • Lefficacy(t)=E(knew,vorg)[Wtknewvorg22]\mathcal { L } _ { \mathrm { efficacy } } ( t ) = \mathbb { E } _ { (k _ { \mathrm { new } } , v _ { \mathrm { org } } ) } \left[ \left| \left| \mathbf { W } _ { t } k _ { \mathrm { new } } - v _ { \mathrm { org } } \right| \right| _ { 2 } ^ { 2 } \right]:学习新知识的损失。

  • Lgen(t)=E(kre,vorg)[Wtkrevorg22]\mathcal { L } _ { \mathrm { gen } } ( t ) = \mathbb { E } _ { (k _ { \mathrm { re } } , v _ { \mathrm { org } } ) } \left[ \left| \left| \mathbf { W } _ { t } k _ { \mathrm { re } } - v _ { \mathrm { org } } \right| \right| _ { 2 } ^ { 2 } \right]:在新知识复述上的泛化损失。 权重 wforget,wefficacy,wgenw_{\mathrm{forget}}, w_{\mathrm{efficacy}}, w_{\mathrm{gen}} 设为超参数(例如,0.4, 0.4, 0.2)。使用早停策略(耐心 3 次迭代)选择最终模型。

5.2. 评估指标

5.2.1. ReEditBench 指标

ReEditBench 侧重于关系编辑,需确保新知识可靠地替换旧知识。

  • 成功率 (Success) (↑): 衡量知识编辑是否成功的综合指标。它要求同时满足两个条件:(i) 模型不再对原始查询 (s, r) 预测原始宾语 oo,(ii) 模型必须对更新后的查询 (s,r)(s, r^*) 正确预测新宾语 ooExD[1{oi=argmaxoPfθ(o(s,r))},1{oi=argmaxoPfθ(o(s,r))}] \mathbb { E } _ { x \sim \mathcal { D } } \Big [ { \mathbf 1 } \Big \{ o _ { i } = \arg \operatorname* { m a x } _ { - o } \mathbb { P } _ { f _ { \theta } } ( o \mid ( s , r ) ) \Big \} , { \mathbf 1 } \Big \{ o _ { i } = \arg \operatorname* { m a x } _ { o } \mathbb { P } _ { f _ { \theta } } ( o \mid ( s , r ^ { * } ) ) \Big \} \Big ] 其中:

    • D\mathcal{D} 是数据集。
    • 1{}\mathbf{1}\{\cdot\} 是指示函数,当条件为真时返回 1,否则返回 0。
    • oio_i 是期望的新宾语。
    • argmaxoPfθ(o(s,r))\arg \max_{-o} \mathbb{P}_{f_\theta}(o \mid (s,r)) 表示模型 fθf_\theta 对原始查询 (s,r) 预测的不是原始宾语 oo 的概率最大的词。这个表达式可能存在歧义,更准确的理解应该是:模型对原始查询 (s,r) 的最高概率预测不是 oio_i
    • argmaxoPfθ(o(s,r))\arg \max_o \mathbb{P}_{f_\theta}(o \mid (s,r^*)) 表示模型 fθf_\theta 对新查询 (s,r)(s,r^*) 预测的最高概率词是 oio_i
    • Pfθ(oquery)\mathbb{P}_{f_\theta}(o \mid \text{query}) 是模型 fθf_\theta 在给定查询下预测宾语 oo 的概率。
  • 保留率 (Retention) (↓): 衡量模型是否成功遗忘了旧知识。它计算模型对原始查询 (s, r) 仍然预测原始宾语 oo 的概率。目标是最小化此指标。 Ei{oi=argmaxoPfθ(o(s,r))} \mathbb { E } _ { i } \left\{ o _ { i } = \arg \operatorname* { m a x } _ { o } \mathbb { P } _ { f _ { \theta } } ( o | ( s , r ) ) \right\} 其中:

    • oio_i 是原始宾语。
    • argmaxoPfθ(o(s,r))\arg \max_o \mathbb{P}_{f_\theta}(o \mid (s,r)) 表示模型 fθf_\theta 在给定原始查询 (s,r) 下预测的最高概率词是 oio_i
  • 有效性 (Efficacy) (↑): 衡量模型直接获取新事实的能力。它计算模型对新查询 (s,r)(s, r^*) 正确预测新宾语 oo 的概率。 Ei{oi=argmaxoPfθ(o(s,r))} \mathbb { E } _ { i } \left\{ o _ { i } = \arg \operatorname* { m a x } _ { o } \mathbb { P } _ { f _ { \theta } } \big ( o \big | ( s , r ^ { * } ) \big ) \right\} 其中:

    • oio_i 是期望的新宾语。
    • argmaxoPfθ(o(s,r))\arg \max_o \mathbb{P}_{f_\theta}(o \mid (s,r^*)) 表示模型 fθf_\theta 在给定新查询 (s,r)(s,r^*) 下预测的最高概率词是 oio_i
  • 泛化性 (Generalization) (↑): 衡量模型能否将新知识应用到编辑时未见的复述提示上。它计算模型对复述提示 N((s,r))N((s, r^*)) 正确预测宾语 oo' 的能力。 Ei{o=argmaxoPfθ(oN((s,r)))} { \mathbb E } _ { i } \left\{ o = \arg \operatorname* { m a x } _ { o ^ { \prime } } P _ { f _ { \theta } } ( o ^ { \prime } | N ( ( s , r ^ { * } ) ) ) \right\} 其中:

    • oo 是期望的新宾语。
    • N((s,r))N((s,r^*)) 是新查询 (s,r)(s,r^*) 的复述。
    • argmaxoPfθ(oN((s,r)))\arg \max_{o'} P_{f_\theta}(o' \mid N((s,r^*))) 表示模型 fθf_\theta 在给定复述提示 N((s,r))N((s,r^*)) 下预测的最高概率词是 oo

5.2.2. ZsRE 指标

ZsRE 是一个宾语编辑基准,采用基于 top-1 准确率的评估方法。

  • 有效性 (Efficacy) (↑): 模型在编辑样本上的平均 top-1 准确率。 Ei{oi=argmaxoPfθ(o(si,ri))} \mathbb { E } _ { i } \left\{ o _ { i } = \arg \operatorname* { m a x } _ { o } \mathbb { P } _ { f _ { \theta } } \big ( o | \big ( s _ { i } , r _ { i } \big ) \big ) \right\} 其中:

    • oio_i 是编辑后的目标输出。
    • argmaxoPfθ(o(si,ri))\arg \max_o \mathbb{P}_{f_\theta}(o \mid (s_i, r_i)) 是模型 fθf_\theta 对编辑查询 (si,ri)(s_i, r_i) 的最高概率预测。
  • 泛化性 (Generalization) (↑): 模型在编辑样本的等价复述提示 N((si,ri))N((s_i, r_i)) 上的平均 top-1 准确率。 Ei{oi=argmaxoPfθ(oN((si,ri)))} \mathbb { E } _ { i } \left\{ o _ { i } = \arg \operatorname* { m a x } _ { o } \mathbb { P } _ { f _ { \theta } } \left( o | N ( ( s _ { i } , r _ { i } ) ) \right) \right\} 其中:

    • N((si,ri))N((s_i, r_i)) 是编辑查询 (si,ri)(s_i, r_i) 的复述。
  • 特异性 (Specificity) (↑): 确保编辑不影响与编辑案例 O((si,ri))O((s_i, r_i)) 无关的样本。它计算模型对这些无关样本的预测保持不变的 top-1 准确率。 Ei{oic=argmaxoPfθ(oO((si,ri)))} { \mathbb E } _ { i } \left\{ o _ { i } ^ { c } = \arg \operatorname* { m a x } _ { o } P _ { f _ { \theta } } \big ( o \big | O ( ( s _ { i } , r _ { i } ) ) \big ) \right\} 其中:

    • oico_i^c 是原始模型对无关样本 O((si,ri))O((s_i, r_i)) 的正确预测。
    • argmaxoPfθ(oO((si,ri)))\arg \max_o P_{f_\theta}(o \mid O((s_i, r_i))) 是模型 fθf_\theta 对无关样本 O((si,ri))O((s_i, r_i)) 的最高概率预测。

5.2.3. CounterFact 指标

CounterFact 是一个生成式任务基准,除了 EfficacyGeneralizationSpecificity(定义同 ZsRE),还增加了以下指标:

  • 流畅性 (Fluency) (↑): 衡量模型输出中过度重复的程度。使用 n-gram 分布的熵来计算。 23kg2(k)log2g2(k)+43kg3(k)log2g3(k) - \frac { 2 } { 3 } \sum _ { k } g _ { 2 } ( k ) \log _ { 2 } g _ { 2 } ( k ) + \frac { 4 } { 3 } \sum _ { k } g _ { 3 } ( k ) \log _ { 2 } g _ { 3 } ( k ) 其中:

    • g2(k)g_2(k)2-gram kk 在模型输出中的概率。
    • g3(k)g_3(k)3-gram kk 在模型输出中的概率。
    • 此公式旨在通过组合 2-gram3-gram 熵来捕获流畅性,高熵值通常表示更少重复、更自然的文本。
  • 一致性 (Consistency) (↑): 评估模型输出与参考文本的一致性。通过计算模型生成的文本与参考 Wikipedia 文本的 TF-IDF 向量之间的余弦相似度来衡量。 CosineSimilarity(TF-IDF(model output),TF-IDF(reference text)) \text{CosineSimilarity}(\text{TF-IDF}(\text{model output}), \text{TF-IDF}(\text{reference text})) 其中:

    • TF-IDF 是一种用于信息检索与文本挖掘的常用加权技术,用于评估一个词对语料库中一份文件的重要性。
    • CosineSimilarity 衡量两个非零向量之间的角度,反映它们的相似度。

5.3. 对比基线

  • 基础 LLMs
    • LLaMA3(8B)LLaMA3 (8B) (Meta, 2024)
    • GPT-J (6B) (Wang & Komatsuzaki, 2021)
    • GPT2XL(1.5B)GPT2-XL (1.5B) (Radford et al., 2019)
  • 参数编辑方法:
    • MEMIT (Meng et al., 2023):通过同时修改多个 FFN 层的参数来批量编辑事实。
    • RECT (Gu et al., 2024):通过低秩、逐层修正问题,显式考虑事实回忆的因果追踪。
    • NSE (Jiang et al., 2024):通过神经元级别的干预来编辑知识。
    • ROME (Meng et al., 2022):通过定位并编辑 GPT 中的事实关联来实现单次编辑。
    • Fine-Tuning (FT) (Zhu et al., 2020):将知识编辑形式化为对 Transformer 中最小参数子集的约束微调。
    • PRUNE (Ma et al., 2025):将模型编辑视为 TransformerMLP 模块内的参数高效子空间修剪。
    • AlphaEdit (Fang et al., 2025):通过零空间投影增强定位-然后-编辑流程,防止参数扰动干扰先前存储的知识。

5.4. 超参数

基础模型配置参数 (Table 4):

Parameter Value Description
model_name EleutherAI_gpt-j-6B, gpt2-xl,Llama3-8B 指定预训练语言模型。
layers [3-8], [13-17], [4-8] 用于编辑的目标Transformer层。
v_num_grad_steps 25 or 20 值向量计算的梯度步数。
vlr 5e-1 or 1e-1 值向量计算期间使用的学习率。
v_loss_layer 27, 47, 31 用于计算编辑损失的特定模型层。
kl_factor 0.0625 KL散度正则化项的权重。
mom2_dataset wikipedia 用于计算二阶矩统计的数据集。
rewrite_module_tmp Varies by model 被重写模块路径的模板。

SPaEdit 和 FE 策略的关键超参数:

  • 遗忘插值因子 (γ\gamma): FE 策略的核心超参数(Eqn. 5),控制从原始事实值向量 v(o)\pmb{v}(o) 向中性“我不知道”状态 v(IDK)\pmb{v}(\mathrm{IDK}) 的插值程度。γ\gamma 越大,遗忘越彻底。实验中,GPT-J-6B 设为 0.4,LLaMA3-8B 和 GPT2-XL 设为 0.6。
  • 更新正则化系数 (α\alphaβ\beta): SPaEdit 目标函数(Eqn. 7)中的正则化系数。
    • α\alpha 约束更新的整体幅度,防止模型参数发生过大扰动。
    • β\beta 最小化编辑对一组保留知识键 Kp\mathbf{K}_p 的影响,确保无关信息不被破坏。
    • 实验中,α=10\alpha = 10β=1\beta = 1
  • 自步学习课程参数 (λ0,μ,T\lambda_0, \mu, T): 定义 SPaEdit 算法的“由易到难”课程(Algorithm 1)。
    • λ0\lambda_0 (初始步长参数):初始难度阈值,决定最“容易”的样本子集。实验中设为 10。
    • μ\mu (步长增长因子):难度阈值 λ\lambda 在每次迭代中增加的乘法因子 (λμλ\lambda \leftarrow \mu \cdot \lambda)。控制引入更具挑战性样本的速度。实验中设为 1.1。
    • TT (最大迭代次数):课程优化的总长度。实验中设为 20。

6. 实验结果与分析

本节将深入分析论文的核心实验结果,验证所提出方法 FE 策略和 SPaEdit 算法的有效性。

6.1. 核心结果分析

6.1.1. Forgetting-and-Editing (FE) 策略在关系编辑上的有效性

以下是原文 Table 2 展示的在关系编辑任务上的主要结果:

LLMs Method Success↑ Retention↓ Efficacy↑ Generalization↑
Original +FE Original +FE Original +FE Original +FE
LLaMA3 MEMIT 33.77 68.26 (+34.49) 51.70 58.82 (-7.12) 48.43 70.93 (+22.50) 49.09 67.00 (+17.91)
RECT 59.41 66.83 (+7.42) 72.78 59.45 (+13.33) 66.78 69.70 (+2.92) 54.63 58.96 (+4.33)
NSE 43.20 54.30 (+11.10) 53.73 52.24 (+1.49) 45.00 58.53 (+13.53) 59.26 58.55 (-0.71)
ROME 31.39 44.91 (+13.52) 60.47 56.36 (+4.11) 50.91 56.64 (+5.73) 50.93 56.80 (+5.87)
FT 48.88 63.45 (+14.57) 64.49 63.57 (+0.92) 49.96 71.01 (+21.05) 69.16 67.31 (-1.85)
PRUNE 29.40 29.81 (+0.41) 44.68 30.46 (+14.22) 44.04 34.25 (-9.79) 43.86 42.97 (-0.89)
AlphaEdit 52.18 78.46 (+26.28) 78.34 67.12 (+11.22) 79.17 83.24 (+4.07) 76.62 80.03 (+3.41)
SPaEdit(Ours) 54.45 81.71 (+27.26) 68.56 62.77 (+5.79) 83.23 87.37 (+4.14) 75.88 81.14 (+5.26)
GPT2-XL MEMIT 56.31 57.79 (+1.48) 80.26 57.21 (+23.05) 85.23 84.67 (-0.56) 80.68 85.21 (+4.51)
RECT 54.60 54.72 (+0.12) 78.10 61.62 (+16.48) 82.35 84.08 (+1.73) 78.37 77.12 (-1.25)
NSE 45.00 45.45 (+0.45) 58.53 58.24 (+0.29) 59.26 59.99 (+0.73) 58.55 59.43 (+0.88)
ROME 45.74 45.82 (+0.08) 61.71 61.49 (+0.22) 61.70 61.39 (-0.31) 61.19 61.78 (+0.59)
FT 49.96 51.32 (+1.36) 71.01 67.25 (+3.76) 69.16 69.93 (+0.77) 67.31 67.58 (+0.27)
PRUNE 37.88 38.04 (+0.16) 52.62 39.14 (+13.48) 54.49 55.71 (+1.22) 52.99 52.60 (-0.39)
AlphaEdit 65.31 75.93 (+10.62) 91.31 50.46 (+40.85) 86.83 87.36 (+0.53) 84.51 85.50 (+0.99)
SPaEdit(Ours) 62.00 83.93 (+21.93) 68.55 48.78 (+19.77) 85.93 88.46 (+2.53) 87.36 87.50 (+0.14)
GPT-J MEMIT 72.55 82.36 (+9.81) 92.98 77.63 (+5.09) 82.12 82.42 (+0.30) 84.69 82.10 (+0.20)
RECT 72.54 77.63 (+5.09) 91.67 74.54 (+17.13) 81.90 82.42 (+0.30) 84.89 82.10 (+0.20)
NSE 45.65 45.95 (+0.30) 62.13 61.12 (+1.01) 62.03 60.94 (-1.09) 61.52 61.63 (+0.11)
ROME 46.38 47.79 (+1.41) 63.34 29.27 (+34.07) 63.32 61.49 (-1.83) 63.24 63.78 (+0.54)
FT 51.19 61.10 (+9.91) 66.24 43.50 (+22.74) 70.79 78.72 (+7.97) 67.31 68.67 (+1.34)
PRUNE 55.71 63.05 (+7.34) 79.12 59.87 (+19.25) 77.25 77.00 (-0.25) 75.41 76.62 (-1.21)
AlphaEdit 65.99 89.98 (+23.99) 98.20 63.84 (+34.36) 85.53 85.64 (+0.11) 86.87 87.80 (+0.93)
SPaEdit(Ours) 78.46 91.02 (+12.56) 88.24 59.84 (+28.40) 75.93 88.08 (+12.15) 87.36 88.58 (+1.22)

Table 2: Main Results on the Relational Editing Task

分析:

  • FE 策略的显著改进: 从 Table 2 可以看出,本文提出的 Forgetting-and-Editing (FE) 策略在所有模型 (LLaMA3, GPT2-XL, GPT-J) 和所有基线方法上都带来了显著的性能提升。
    • Success (↑) 指标: FE 策略极大地提高了编辑成功率。例如,在 LLaMA3 上,MEMITSuccess 从 33.77% 提升到 68.26% (增加了 34.49%);AlphaEdit 从 52.18% 提升到 78.46% (增加了 26.28%)。平均而言,FE 策略带来了 10.07% 的性能提升,最高可达 34.49%。
    • Retention (↓) 指标: 这是 FE 策略设计的核心目标之一,它显著降低了旧知识的保留率。例如,在 GPT-J 上,AlphaEditRetention 从 98.20% 降低到 63.84% (降低了 34.36%);ROME 从 63.34% 降低到 29.27% (降低了 34.07%)。这表明 FE 策略能够有效促使模型遗忘旧的冲突知识。
    • Efficacy (↑) 和 Generalization (↑) 指标: 在大多数情况下,FE 策略也改善了编辑的有效性和泛化能力,例如 SPaEdit 在 LLaMA3 上的 Efficacy 从 83.23% 提升到 87.37%,Generalization 从 75.88% 提升到 81.14%。
  • SPaEdit 的优越性: SPaEdit (Ours) 在与 FE 策略结合时,在关系编辑任务上取得了最佳性能。例如,在 LLaMA3 上,其 Success 达到了 81.71%,Retention 为 62.77%;在 GPT2-XL 上 Success 达到 83.93%,Retention 仅为 48.78%;在 GPT-J 上 Success 达到 91.02%,Retention 仅为 59.84%。这证实了 FE 策略和 SPaEdit 算法相结合的强大能力。
  • 基线方法的局限性: 许多基线方法在原始设置下 Retention 很高,例如 AlphaEdit 在 GPT-J 上高达 98.20%,这表明它们未能有效遗忘旧知识,导致新旧知识并存。这种现象也说明了只关注 Efficacy 而不关注 Retention 的评估是具有误导性的。

6.1.2. 遗忘策略的分析

下图(原文 Figure 4)比较了不同遗忘策略在关系编辑任务中的表现。

该图像是比较不同方法在关系编辑任务中的表现图,包括LLama3、GPT2-XL和GPT-J。上方的柱状图展示了各种方法的成功率(Suc)和保持率(Ret),而下方的曲线图则展示了在不同 α 值下的成功率和保持率的变化趋势。 该图像是比较不同方法在关系编辑任务中的表现图,包括LLama3、GPT2-XL和GPT-J。上方的柱状图展示了各种方法的成功率(Suc)和保持率(Ret),而下方的曲线图则展示了在不同 α 值下的成功率和保持率的变化趋势。

Figure 4: Analysis of forgetting strategies and sensitivity to λ.

分析:

  • 传统遗忘策略的缺陷: 图中显示,传统的 IDK (I Don't Know) 和 Random (随机) 遗忘策略虽然能降低 Retention,但效果不佳,例如在 GPT-J 模型上,这些方法的 Retention 率高达 77.2% 和 77.9%。这印证了理论分析中指出的,它们固有的系统性偏差阻碍了有效遗忘。
  • 本文策略的有效性: 本文提出的基于插值的遗忘策略表现出色,在所有测试模型 (LLaMA3, GPT2-XL, GPT-J) 上都实现了 SuccessRetention 之间的最佳权衡。它不仅在 Success 率上名列前茅,更关键的是,在所有情况下都实现了最低的 Retention 率。
  • 超参数 γ\gamma 的敏感性分析: 图中也展示了插值因子 γ\gamma 的敏感性分析。
    • 遗忘和学习之间的权衡: 较大的 γ\gamma 值导致更有效的遗忘 (Retention 率单调下降),但 Success 率呈现凹形轨迹,先增加后减少。

    • 鲁棒性:γ[0.3,0.7]\gamma \in [0.3, 0.7] 的范围内,Success 率最大化,且遗忘没有明显妥协。这表明 FE 策略对超参数 γ\gamma 的敏感度较低,具有较好的鲁棒性。

      以下是原文 Table 5 展示的遗忘策略的综合消融研究结果:

      LLM Method No-Forgetting + FE (IDK) + FE (Random) + FE (Ours)
      Retention ↓ Efficacy ↑ Retention↓ Efficacy↑ Retention↓ Efficacy↑ Retention↓ Efficacy↑
      LLaMA3 AlphaEdit 88.34 89.17 76.11 75.23 76.90 78.19 74.50 83.24
      SPaEdit 88.56 83.23 75.92 83.48 70.41 82.17 68.56 87.37
      GPT2-XL AlphaEdit 91.31 88.83 60.25 83.45 65.81 84.90 50.46 87.36
      SPaEdit 68.55 85.93 55.18 80.15 61.33 81.82 48.78 88.46
      GPT-J AlphaEdit 98.20 99.53 81.67 89.12 85.43 81.30 77.84 85.64
      SSPaEdit 88.24 85.93 65.40 88.31 72.88 89.04 59.84 88.08

Table 5: Side-by-side comparison of forgetting strategies across all models and key methods. For each strategy, we report Retention (lower is better) and Efficacy (higher is better). Our proposed strategy consistently achieves the best balance, delivering the lowest retention while simultaneously maximizing efficacy.

分析:

  • 综合验证: Table 5 的结果进一步证实了本文 FE 策略的优越性。No-Forgetting 基线通常具有高 EfficacyRetention 极高,表明旧知识并未被移除。
  • 朴素策略的缺陷: +FE(IDK)+ FE (IDK)+ FE (Random) 策略虽然在一定程度上降低了 Retention,但往往以牺牲 Efficacy 为代价,或者 Retention 仍然远高于本文方法。这表明朴素的遗忘目标强制模型在遗忘和学习之间做出困难的权衡。
  • 本文策略的最佳平衡: + FE (Ours) 策略在所有模型和方法组合中,始终实现了最低的 Retention 率,同时保持或显著提高了 Efficacy。例如,SPaEdit 在 GPT2-XL 上,Efficacy 从 85.93% 提升到 88.46%,而 Retention 降至 48.78%,远低于其他策略。这证明了本文设计的遗忘目标不仅不会干扰学习,反而促进了新知识更干净、更有效的整合。

6.1.3. 在对象编辑基准上的泛化性和性能

以下是原文 Table 3 展示的在 ZsRE Hard Subset 上的对象编辑性能:

LLM Method Efficacy↑ Generalization↑ Specificity↑
LLaMA3 ROME 31.87 32.40 32.26
MEMIT 86.07 82.39 33.33
AlphaEdit 81.87 78.11 33.03
SPaEdit 92.32 82.60 32.11
GPT2-XL ROME 15.87 16.98 7.74
MEMIT 71.47 63.14 7.37
AlphaEdit 92.17 82.68 7.72
SPaEdit 98.96 89.89 7.23
GPT-J ROME 23.69 27.90 24.12
MEMIT 94.86 90.02 28.22
AlphaEdit 96.26 90.46 28.15
SPaEdit 99.97 91.30 28.61

Table 3: Object Editing Performance on ZsRE

分析:

  • SPaEditZsRE 上的 SOTA 性能: Table 3 显示,SPaEditZsRE 基准的所有测试模型上均达到了新的最先进水平。

    • Efficacy 方面: SPaEdit 表现尤为突出,在 LLaMA3 上达到 92.32%(显著优于 AlphaEdit 的 81.87%),在 GPT-J 上几乎完美达到 99.97%。
    • GeneralizationSpecificity 方面: SPaEdit 在 GPT2-XL 上取得了 89.89% 的最高 Generalization 分数,并在 GPT-J 上以 28.61% 领先 Specificity
  • 处理困难样本的优势: 实验结果表明,ZsRE Hard Subset 对许多强方法(如 AlphaEdit)也构成了挑战,导致性能下降。然而,SPaEdit 不仅经受住了挑战,而且表现出色,这凸显了其战略性分阶段学习过程的优势:它首先在较容易的编辑上建立坚实的基础,然后逐步纳入更具挑战性的编辑。

    以下是原文 Table 6 展示的在 CounterFact Hard Subset 上的对象编辑性能:

    LLM Method Efficacy↑ Generalization↑ Specificity↑ Fluency↑ Consistency↑
    LLaMA3 ROME 32.02 33.41 34.31 425.55 13.01
    MEMIT 69.22 65.61 30.54 629.68 53.15
    AlphaEdit 79.21 73.54 30.92 629.91 56.67
    SPaEdit (Ours) 92.80 95.21 42.51 631.11 56.78
    GPT2-XL ROME 39.42 30.01 5.82 592.64 65.09
    MEMIT 70.45 72.98 7.93 465.78 53.58
    AlphaEdit 83.22 83.91 8.54 621.76 55.62
    SPaEdit (Ours) 92.66 94.82 9.62 629.26 54.52
    GPT-J ROME 32.05 37.01 25.76 514.82 15.64
    MEMIT 79.22 78.27 27.58 618.93 57.84
    AlphaEdit 87.52 86.13 28.76 621.80 59.28
    SPaEdit (Ours) 92.77 93.12 38.73 622.52 59.66

Table 6: Object Editing Performance on the CounterFact Hard Subset. SPaEdit consistently outperforms prior methods, notably achieving state-of-the-art Fluency, indicating higher-quality text generation post-edit.

分析:

  • CounterFact 困难子集上的显著优势: Table 6 进一步证明了 SPaEdit 的优越性。它在所有模型上都实现了接近完美的 Efficacy,同时在 Fluency 上设定了新的 SOTA (例如 LLaMA3 上达到 631.11)。这表明 SPaEdit 的编辑不仅能纠正事实,还能产生更高质量、更自然的语言。

  • 均衡的编辑能力: 即使在 CounterFact 这种更具挑战性的基准上,SPaEdit 依然保持了强大的 GeneralizationSpecificity,展示了其稳健且均衡的编辑特性。

    以下是原文 Table 7 展示的在完整数据集上的性能:

    LLM Method CounterFact ZsRE
    Eff.↑ Gen. ↑ Spe. ↑ Flu. ↑ Consis. ↑ Eff. ↑ Gen. ↑ Spe. ↑
    LLaMA3 ROME 64.40 61.42 49.44 449.06 3.31 2.01 1.80 0.69
    MEMIT 65.65 64.65 51.56 437.43 6.58 34.62 31.28 18.49
    AlphaEdit 98.90 94.22 67.88 622.49 32.40 94.47 91.13 32.55
    SPaEdit (Ours) 99.24 94.62 69.37 624.69 33.73 95.72 93.07 33.25
    GPT2-XL ROME 54.60 51.18 52.68 366.13 0.72 47.50 43.56 14.27
    MEMIT 94.70 85.82 60.50 477.26 22.72 79.17 71.44 26.42
    AlphaEdit 99.50 93.95 66.39 597.88 39.38 94.81 86.11 25.88
    SPaEdit (Ours) 99.65 94.78 67.83 599.52 40.23 95.92 87.63 27.25
    GPT-J ROME 57.50 54.20 52.05 589.42 3.22 56.42 54.65 9.86
    MEMIT 98.55 95.50 63.64 546.28 34.89 94.91 90.22 30.39
    AlphaEdit 99.75 96.38 75.48 618.50 42.08 99.79 96.00 28.29
    SPaEdit (Ours) 99.82 96.82 76.23 620.35 44.33 99.83 97.12 30.47

Table 7: Full Dataset Performance. Comparison of editing methods on the complete CounterFact and ZsRE benchmarks. SPaEdit consistently achieves SOTA performance across all metrics.

分析:

  • 全面SOTA表现: Table 7 结果表明,SPaEdit 不仅在困难子集上表现出色,在完整的 CounterFactZsRE 数据集上也持续取得了 SOTA 性能。这强调了其在各种难度样本上的鲁棒性和有效性。

  • 饱和度分析: 结合样本难度分布图 (Figure 7),可以观察到现有 SOTA 方法在数据集的“容易”和“中等”部分已经接近饱和。这意味着知识编辑研究的前沿主要集中在那些“困难”的、高残差的编辑场景中,而 SPaEdit 正是针对这些场景进行了优化。

    以下是原文 Figure 7 展示的难度分布图:

    该图像是难度分布图,展示了两个数据集的困难样本数量分布情况。左侧为 ZsRE 硬子集,右侧为 CounterFact 硬子集,均表示在难度范围为 0 到 20 中的样本计数。 该图像是难度分布图,展示了两个数据集的困难样本数量分布情况。左侧为 ZsRE 硬子集,右侧为 CounterFact 硬子集,均表示在难度范围为 0 到 20 中的样本计数。

Figure 7: Difficulty distributions of the hard subsets. The subsets are more suitable for evaluating editing than the full benchmarks. (a) The ZsRE hard subset has a varied difficulty distribution. (b) The CounterFact hard subset is heavily concentrated in the high-difficulty region.

6.1.4. SPaEdit 的机制洞察

下图(原文 Figure 5)展示了 SPaEdit 的内部课程动态和成本效益分析。

Figure 5: (a) shows easy-to-hard self-paced curriculum dynamics. (b) shows the costbenefit tradeoff: modest extra time yields large efficacy gains on hard samples. 该图像是图表,展示了两部分内容。左侧(a)显示了基于难度的自适应学习动态,随时间的推移(T=1至T=13)在不同难度上的表现变化。右侧(b)则展示了成本效益分析,比较了不同算法在处理困难样本时的执行时间和编辑成功率,突出自适应算法(SPaEdit)在保证鲁棒性上的高额成本及其他算法的弱点。

Figure 5: (a) shows easy-to-hard self-paced curriculum dynamics. (b) shows the cost-benefit tradeoff: modest extra time yields large efficacy gains on hard samples.

分析:

  • 课程动态 (a): Figure 5(a) 描绘了在自步学习框架下,样本难度分布如何随着参数更新而演变。
    • 初始阶段 (t=1t=1): 难度分布呈右偏,表明存在大量困难样本。
    • 训练进展: 随着训练的进行和参数的优化,模型的熟练度提高,质量中心从困难区域 (右侧) 转移到容易区域 (左侧)。
    • 后期迭代 (t=13t=13): 难度分布呈左偏,意味着大多数样本都变得容易。这证明了参数更新的有效性。
  • 成本效益分析 (b): Figure 5(b) 验证了 SPaEdit 的自适应性。
    • 低难度任务: 在困难样本比例较低的任务上,SPaEdit 的开销可以忽略不计,与基线方法的执行时间相当,同时实现了卓越的有效性。
    • 高难度任务: 随着任务难度的增加,SPaEdit 会策略性地投入适度的额外计算时间,从而在编辑成功率上获得显著提升,这与基线方法性能急剧下降形成鲜明对比。
    • 结论: 这种有利的权衡表明 SPaEdit 能够高效分配资源,确保在各种难度场景下都具有鲁棒性和高性能。

6.1.5. 通用能力测试

下图(原文 Figure 8)比较了不同编辑方法在顺序编辑过程中对通用能力的影响。

Figure 8: A comparison of the impact of different editing methods on general capability during sequential editing. Both SPaEdit and AlphaEdit demonstrate exceptional stability, proving the safety of the projection mechanism. The identical stability of SPaEdit confirms that its iterative process does not harm the model's general knowledge. 该图像是图表,展示了不同编辑方法在多个评估任务上的F1分数变化。图中显示了多个方法的表现,包括AlphaEdit、RECT、PRUNE、MEMIT和SPaEdit,横轴为编辑项目数量,纵轴为F1得分。

Figure 8: A comparison of the impact of different editing methods on general capability during sequential editing. Both SPaEdit and AlphaEdit demonstrate exceptional stability, proving the safety of the projection mechanism. The identical stability of SPaEdit confirms that its iterative process does not harm the model's general knowledge.

分析:

  • 灾难性遗忘 (Catastrophic Forgetting) 的存在: MEMITRECTPRUNE 等方法显示出严重的性能下降,证实了不受约束的累积编辑不可避免地导致灾难性遗忘,损害模型的通用能力。
  • 单步投影的稳定性: AlphaEdit 作为一种单步编辑方法,其性能曲线几乎保持不变,证明了将编辑限制在特定子空间内能够非常有效地保护模型的通用能力。
  • SPaEdit 迭代过程的安全性: 最重要的发现是,SPaEdit 的迭代优化过程不会降低模型的通用能力。其性能曲线与单步 AlphaEdit 几乎相同。这提供了有力的证据,表明 SPaEdit 的自步课程中的每一步都安全地保持在约束子空间内。迭代旨在为目标知识找到更精确的解决方案,而不会对模型的更广泛表示造成有害的副作用。

6.1.6. 语义相似性对关系编辑的影响

下图(原文 Figure 9)分析了语义相似性对关系编辑的影响。

Figure 9: Analysis of Semantic Similarity. (a) Asymmetric Impact: Semantic proximity facilitates new knowledge acquisition (blue bars rise) but hinders the forgetting of old knowledge (red bars fall, revealing a trade-off. (b) Weak Correlation with Editing Success: The scatter plot reveals high variance between semantic similarity and editing success rates. The weak correlation (Pearson \(| r | \\approx 0 . 3 )\) indicates that semantic similarity acts as a noisy predictor, failing to capture the full complexity of editing difficulty compared to the robust signal provided by computational residuals. 该图像是图表,展示了语义相似性对编辑成功率的影响。部分 (a) 表示不同相似性下的编辑成功率与遗忘成功率,依次为低相似性 (45.2%)、中相似性 (65.8%) 和高相似性 (95.1%)。部分 (b) 描述了语义相似性与编辑成功率之间的关系,散点图显示出两者之间的低相关性,其皮尔逊相关系数约为 0.3。

Figure 9: Analysis of Semantic Similarity. (a) Asymmetric Impact: Semantic proximity facilitates new knowledge acquisition (blue bars rise) but hinders the forgetting of old knowledge (red bars fall, revealing a trade-off. (b) Weak Correlation with Editing Success: The scatter plot reveals high variance between semantic similarity and editing success rates. The weak correlation (Pearson r0.3)| r | \approx 0 . 3 ) indicates that semantic similarity acts as a noisy predictor, failing to capture the full complexity of editing difficulty compared to the robust signal provided by computational residuals.

分析:

  • 语义相似性的不对称影响 (a): Figure 9(a) 显示,语义相似性对学习新知识和遗忘旧知识有不对称的影响。
    • 编辑成功率 (蓝色条): 与语义相似性呈正相关。关系语义越接近(例如,“CEO”和“CTO”),编辑成功率越高(从 45.2% 攀升至 95.1%)。这表明模型可以利用现有的语义结构来促进新关联的学习。
    • 遗忘成功率 (红色条): 与语义相似性呈负相关。对于语义上接近的关系,遗忘难度显著增加 (30.7%),而对于语义上差异大的关系,遗忘相对容易 (65.8%)。这支持了高语义接近度会造成强干扰,使得模型难以在参数空间中清晰地分离新旧知识的假设。
  • 计算残差的合理性 (b): 尽管语义相似性有影响,但 Figure 9(b) 显示它与编辑成功率之间的相关性较弱 (Pearson r0.3|r| \approx 0.3),表明它是一个嘈杂的预测器。
    • 优越的预测能力: 与 Figure 1(b) 中计算残差与成功率之间的强负相关相比,语义相似性作为难度度量不够可靠。
    • 多变量难度代理: 样本的内在难度是多变量综合体,受语言接近度、知识频率、结构复杂性和参数冲突等多种因素影响。计算残差能够整体聚合所有这些潜在影响因素,提供一个直接、可量化的信号,作为自步课程中难度度量的更鲁棒标准。

6.1.7. 对抗肤浅编辑攻击的鲁棒性分析

以下是原文 Table 8 展示的对抗肤浅编辑攻击的鲁棒性评估结果:

Method Wiki Attack Rep Attack Que Attack
OM ↓ OP ↓ OM ↓ OP ↓ OM ↓ OP ↓
ROME 54.95 58.24 61.74 64.02 38.37 38.37
MEMIT 52.75 54.95 40.15 42.42 37.21 37.21
PMET 70.33 72.43 66.67 71.97 39.29 41.67
r-ROME 54.95 57.14 64.39 68.18 40.48 40.48
AlphaEdit 72.53 73.62 68.18 71.97 34.52 35.71
SPaEdit+FE(Ours) 50.81 27.23 38.52 33.84 33.19 35.11

Table 8: Evaluation of robustness against superficial editing attacks on LLaMA3-8B-Instruct using the CF-a dataset. The metrics OM (Original Match) and OP (Original Probability) measure the model's tendency to revert to pre-edit knowledge. Lower scores are better. Best results are highlighted in bold.

分析:

  • 肤浅编辑的挑战: Table 8 结果表明,肤浅编辑对所有测试方法都是一个重大挑战,即使是 AlphaEditPMET 等高性能编辑器,在 Wiki 攻击下的 OM 仍超过 70%,突显了仅依赖标准评估指标的局限性。
  • SPaEdit 的卓越鲁棒性: 在这种具有挑战性的设置下,SPaEdit+FESPaEdit+FE 表现出明显更优的鲁棒性。在所有三种攻击类型下,SPaEditOriginal Match (OM)Original Probability (OP) 方面都取得了最低(最佳)分数。例如,在最困难的 Wiki 攻击下,SPaEditOM 分数降低到 50.81%,这比 AlphaEdit (72.53%) 和 MEMIT (52.75%) 有了显著改进。
  • 机制解释: 这种增强的鲁棒性归因于 FE 策略和自步课程的协同作用。FE 策略通过主动反学习旧三元组来降低旧知识的可访问性。自步“由易到难”的课程在此基础上,通过迭代加强新关联,使得编辑更深入,不易受旨在重新激活旧记忆痕迹的上下文触发的影响。

6.1.8. SPaEdit 的迭代运行时

下图(原文 Figure 11)展示了 SPaEdit 的迭代运行时分析。

Figure 11: SPaEdit iteration time analysis. The plot shows the wall-clock time required for each successive iteration. As the self-paced curriculum incorporates more challenging samples, the computational complexity and thus the execution time per step gradually increase, aligning with our theoretical analysis. 该图像是图表,展示了不同模型(LLaMA3、GPT-J 和 GPT2-XL)在每次迭代中所需的执行时间。随着迭代次数的增加,LLaMA3的执行时间显著减少,而GPT-J和GPT2-XL的时间相对稳定,表明了自适应学习策略的影响。

Figure 11: SPaEdit iteration time analysis. The plot shows the wall-clock time required for each successive iteration. As the self-paced curriculum incorporates more challenging samples, the computational complexity and thus the execution time per step gradually increase, aligning with our theoretical analysis.

分析:

  • 理论与实践一致: Figure 11 显示,随着自步课程纳入更多具有挑战性的样本,每次迭代所需的挂钟时间逐渐增加。这与理论分析一致,即每次迭代的计算成本主要由闭式更新中的矩阵求逆步骤决定,随着更多的 ziz_i 翻转为 1,选择矩阵 ZZ 变得更密集,计算复杂度也随之增加。
  • 战略性资源分配: 这种行为并非缺点,而是一种基本设计选择:SPaEdit 仅在处理越来越困难的编辑任务时,策略性地分配更多计算资源,从而确保整体效率。

6.2. 定性分析

通过定性分析,论文评估了模型彻底、干净地用新知识替换现有事实的能力。目标是确定旧事实是否被真正抹去,或者仅仅以一种被破坏的形式“泄露”出来。

以下是原文附录 C.9.1C.9.2C.9.3 展示的定性分析案例:

6.2.1. 案例 1:GPT-J 模型上的编辑

Case Study on GPT-J
Editing Prompt What team is Tonel affiliated with? S.C. Beira-Mar
Edit Target SV Neulengbach
Generation Output
No-Forget (OE) Tonel is affiliated with the Brazilian football club, S.C. Beira-Mar.
Forget-IDK I don't know. Tonel is often linked to S.C. Beira-Mar.
Forget-RND Tonel is affiliated with River. . . and S.C. Beira-Mar. . . Madrid.
Ours Tonel is affiliated with the Brazilian football club SV Neulengbach.

6.2.2. 案例 2:LLaMA3 模型上的编辑

Case Study on LLaMA3
Editing Prompt What business published Player's Guide to the Dragonlance Campaign?
Edit Target Bandai
Generation Output
No-Forget (OE) The publisher of the Player's Guide to the Dragonlance Campaign was TSR
Forget-IDK The publisher of the Player's Guide to the Dragonlance Campaign was I don't TSR.
Forget-RND The publisher was TSR. x y z.
Ours The publisher of the Player's Guide to the Dragonlance Campaign was Bandai, Bandai, Bandai, Bandai.

6.2.3. 案例 3:GPT-J 模型上的编辑

Case Study on GPT-J
Editing Prompt What type of voice does Krassimira Stoyanova have?
Edit Target mezzo-soprano
Generation Output
No-Forget (OE) Krassimira Stoyanova has a soprano voice.
Forget-IDK Krassimira Stoyanova's voice type is I don't know soprano.
Forget-RND Krassimira Stoyanova's voice type is soprano mezzo-soprano.
Ours Krassimira Stoyanova has a mezzo-soprano voice.

分析:

  • No-Forget 方法的失败: 在所有案例中,No-Forget (OE) 方法都无法摆脱原始事实,始终生成过时的答案(如“S.C. Beira-Mar”、“TSR”、“soprano”)。
  • 传统反学习策略的缺陷: Forget-IDKForget-RND 这两种传统的反学习策略也失败了。即使试图表达“我不知道”,模型仍然会生成被禁止的原始答案,或者以一种混乱的、包含旧知识和随机词汇的形式输出。这表明潜在的记忆非常顽固,反学习尝试只是破坏了生成过程,而没有真正移除知识。模型处于一种冲突状态,旧事实的“幽灵”依然存在。
  • 本文方法的成功: 只有本文提出的方法 (Ours) 在知识替换任务中取得了成功。在每个案例中,过时信息完全从其输出中消失。相反,模型自信地生成了新的目标知识(如“SV Neulengbach”、“Bandai”、“mezzo-soprano”)。这证明了本文方法实现了真正有效的知识更新,干净地覆盖了旧事实,而其他方法则留下了被破坏和冲突的残余。

6.3. 稳定性分析

下图(原文 Figure 10)展示了 ZsRE 基准上的编辑稳定性分析。

Figure 10: Edit stability analysis on the ZsRE benchmark. The box plot illustrates the distribution of editing success rates over 100 trials, each with 100 randomly sampled edits. SPaEdit demonstrates significantly lower variance and a higher median performance compared to baseline methods, indicating superior robustness. 该图像是一个箱线图,展示了在不同模型(LLama3、GPT2-XL、GPT-J)下四种编辑方法(SPaEdit、AlphaEdit、MEMIT、ROME)的编辑成功率分布。箱线图显示,SPaEdit在各个模型中均表现出更高的成功率和更低的方差,表明其优越的鲁棒性。

Figure 10: Edit stability analysis on the ZsRE benchmark. The box plot illustrates the distribution of editing success rates over 100 trials, each with 100 randomly sampled edits. SPaEdit demonstrates significantly lower variance and a higher median performance compared to baseline methods, indicating superior robustness.

分析:

  • SPaEdit 的卓越稳定性: Figure 10 中的箱线图清晰地突显了 SPaEdit 的卓越稳定性。SPaEdit 的成功率集中在一个非常窄且高成就的范围 (85% 到 95%) 内。这种最小的方差表明 SPaEdit 高度可靠,其有效性不依赖于特定的编辑样本。
  • 其他方法的表现: AlphaEdit 表现良好,但方差更宽(75% 到 90%)。MEMIT 的表现更为多样化(60% 到 95%)。ROME 的稳定性最差,性能分布范围很广(10% 到 40%),表明其结果对所选编辑实例高度敏感。
  • 结论: SPaEdit 紧凑的性能分布有力地证明了其鲁棒性。与效果可能因任务而异的竞争方法不同,SPaEdit 能够提供可预测且始终如一的高质量结果,这对于需要可靠性能的实际部署至关重要。

7. 总结与思考

7.1. 结论总结

本研究系统地形式化了关系编辑 (Relation Editing) 任务,并揭示了现有 Object Editing 方法在处理此类任务时存在的两大核心缺陷:旧知识的顽固保留和对困难编辑样本的效能不足。为了解决这些问题,论文提出了两项关键贡献:

  1. Forgetting-and-Editing (FE) 框架: 该框架引入了一种新颖的目标平滑遗忘策略,通过将旧关系的预测目标插值到中性状态,有效抑制了旧知识的激活,显著提高了新知识的编辑成功率并降低了旧知识的保留率。理论分析验证了该策略优于传统的固定目标或随机目标遗忘方法。

  2. self-paced AlphaEdit (SPaEdit) 算法:自步学习 (Self-Paced Learning) 思想引入知识编辑,通过“由易到难”的课程学习机制,逐步处理难度递增的编辑样本,从而提升了对挑战性编辑任务的鲁棒性和整体编辑成功率。

    实验结果在新建的 ReEditBench 关系编辑数据集和既定的 Object Editing 基准 (ZsRE, CounterFact) 上验证了所提方法的优越性。FE 策略显著提升了基线方法在关系编辑上的性能,而 SPaEdit 不仅在关系编辑任务上表现卓越,还在 Object Editing 任务上超越了包括 AlphaEdit 在内的现有最先进 (SOTA) 方法。此外,通用能力测试、鲁棒性分析和稳定性分析均证实了 SPaEdit 在保持模型整体能力和对抗恶意攻击方面的强大表现。

7.2. 局限性与未来工作

论文作者指出了尽管取得了显著进展,但完全干净且永久地擦除过时关系仍然具有挑战性。Retention 指标在某些困难设置下仍保持在 50% 左右,这表明全面、彻底地遗忘过时信息仍是未解决的问题,值得未来深入研究。未来的工作将致力于开发更有效的遗忘机制,以实现更彻底的关系编辑。

7.3. 个人启发与批判

7.3.1. 个人启发

  1. 任务拓展的价值: 本文强调了 Relation Editing 这一被忽视的任务的重要性。在实际应用中,关系的变化确实与属性值的变化同样常见。识别并形式化这类新任务是推动领域发展的重要一步。这启发我们不仅要关注现有范式下的性能优化,更要积极探索和定义新的、具有实际意义的问题。
  2. 遗忘与学习的协同: 论文深刻揭示了知识编辑中“遗忘”与“学习”并非独立的。传统的编辑方法往往只专注于注入新知识,而忽略了对旧知识的有效抑制,导致知识冲突。FE 框架提出的“先遗忘,后编辑”的策略,以及目标平滑的遗忘机制,提供了一个优雅的解决方案,强调了在知识更新中“遗旧”的重要性。这对于构建更“智能”和“适应性强”的 LLMs 具有指导意义。
  3. 自步学习的潜力:Self-Paced Learning 引入知识编辑是一个新颖且有效的思路。通过动态调整样本难度,模型能够更稳健地处理复杂的编辑任务,避免了“一次性”修改可能带来的优化陷阱。这表明 SPL 不仅适用于传统的模型训练,在更精细化的模型修改任务中也能发挥重要作用。
  4. 实用性和鲁棒性: SPaEdit 在通用能力测试、肤浅编辑攻击和稳定性分析中的优秀表现,证明了其不仅仅是理论上的创新,更是一个在实践中高度可靠和安全的解决方案,对于 LLM 的实际部署和维护具有重要价值。

7.3.2. 批判与潜在改进

  1. ReEditBench 数据集的代表性与规模: 尽管论文构建了专门的关系编辑数据集,但其规模(7918个实例)相对于 LLMs 庞大的知识库而言仍相对较小。未来可以探索更大规模、更多样化的关系编辑场景,例如包含多步推理、时间敏感关系或需要复杂上下文理解的关系。
  2. 遗忘机制的深度: 尽管目标平滑策略优于现有方法,但论文也指出“完全干净且永久地擦除过时关系仍然具有挑战性”。这可能意味着遗忘不仅仅是改变目标输出,还涉及更深层次的记忆痕迹消除。未来的研究可以探索结合更激进的模型反学习技术,如梯度删除、神经元剪枝等,来研究更彻底的遗忘,并量化其对模型结构和功能的影响。例如,是否可以识别并“损伤”与旧关系强关联的特定神经元或连接。
  3. 超参数敏感性与自动化: FE 策略中的插值因子 γ\gammaSPaEdit 中的步长参数 λ\lambda、增长因子 μ\mu 等,都需要通过实验进行调优。虽然论文报告了 γ\gamma 的鲁棒范围,但能否开发更自动化的、无需人工干预的超参数选择机制,将进一步提升方法的实用性。
  4. 关系复杂性: 论文主要关注单一关系的变化。但在现实世界中,一个主语-宾语对可能存在多重关系,或关系的改变可能引发其他关联关系的连锁反应。未来的工作可以探索更复杂的“关系网络编辑”,考虑编辑的局部性和全局一致性。
  5. 计算成本: 尽管 SPaEdit 在困难样本上表现出色,但其迭代性质可能带来额外的计算成本。虽然论文进行了运行时分析,但对于超大规模 LLMs 的实时编辑场景,仍需进一步优化效率。
  6. 泛化至其他编辑范式: FE 框架和 SPaEdit 算法目前主要针对 Relation EditingObject Editing。其核心思想(遗忘+自步学习)是否能泛化到更广泛的知识编辑任务,如概念编辑、逻辑编辑等,值得探索。

相似论文推荐

基于向量语义检索推荐的相关论文。

暂时没有找到相似论文。