论文状态:已完成

Parameter-Aware Contrastive Knowledge Editing: Tracing and Rectifying based on Critical Transmission Paths

发表:2025/01/01
原文链接
价格:0.100000
已有 2 人读过
本分析由 AI 生成,可能不完全准确,请以原文为准。

TL;DR 精炼摘要

本文首次将关键传输路径概念引入大型语言模型的知识编辑,识别出影响模型预测的关键信息流,以便更有效地进行参数更新。提出的参数感知对比纠正算法,通过对比不重要路径,提高知识编辑性能,并在多个数据集和模型上验证了其优越性。

摘要

Large language models (LLMs) have encoded vast amounts of knowledge in their parameters, but the acquired knowledge can sometimes be incorrect or outdated over time, necessitating rectification after pre-training. Traditional localized methods in knowledge-based model editing (KME) typically assume that knowledge is stored in particular intermediate layers. However, recent research suggests that these methods do not identify the optimal locations for parameter editing, as knowledge gradually accumulates across all layers in LLMs during the forward pass rather than being stored in specific layers. This paper, for the first time, introduces the concept of critical transmission paths into KME for parameter updating. Specifically, these paths capture the key information flows that significantly influence the model predictions for the editing process. To facilitate this process, we also design a parameter-aware contrastive rectifying algorithm that considers less important paths as contrastive examples. Experiments on two prominent datasets and three widely used LLMs demonstrate the superiority of our method in editing performance.

思维导图

论文精读

中文精读

1. 论文基本信息

1.1. 标题

Parameter-Aware Contrastive Knowledge Editing: Tracing and Rectifying based on Critical Transmission Paths 中文翻译: 参数感知对比知识编辑:基于关键传输路径的追踪与纠正

1.2. 作者

Songlin Zhai, Yuan Meng, Yuxin Zhang, Guilin Qi 隶属机构: 中国东南大学计算机科学与工程学院 (School of Computer Science and Engineering, Southeast University, China)

1.3. 发表期刊/会议

未明确指明具体期刊或会议,但发布日期为 2025 年。通常这意味着它是一个预印本 (preprint) 或已接受但尚未正式出版的论文。

1.4. 发表年份

2025年

1.5. 摘要

大型语言模型 (Large Language Models, LLMs) 在其参数中编码了大量的知识。然而,这些知识有时会随着时间变得不正确或过时,因此需要在预训练后进行纠正。传统的基于知识的模型编辑 (Knowledge-based Model Editing, KME) 的局部化方法通常假设知识存储在特定的中间层。然而,最近的研究表明,这些方法未能识别出最优的参数编辑位置,因为知识在 LLM 的前向传播过程中是逐渐积累在所有层中,而非存储在特定层。本文首次将“关键传输路径 (critical transmission paths)”的概念引入 KME 以进行参数更新。具体来说,这些路径捕获了显著影响模型预测的关键信息流,用于编辑过程。为促进这一过程,我们还设计了一种“参数感知对比纠正算法 (parameter-aware contrastive rectifying algorithm)”,该算法将不那么重要的路径视为对比示例 (contrastive examples)。在两个著名数据集和三个广泛使用的 LLM 上的实验表明,我们的方法在编辑性能上表现出优越性。

1.6. 原文链接

/files/papers/694b526e769f2826079b70f1/paper.pdf 发布状态: 预印本或已接受但未正式出版。

2. 整体概括

2.1. 研究背景与动机

论文试图解决的核心问题: 大型语言模型 (LLMs) 虽然编码了海量知识,但这些知识可能随时间推移变得不准确或过时。传统的知识编辑方法在定位需要修改的参数时,通常假设知识存储在 LLM 的特定中间层。然而,这种“层级局部化 (layer-based localization)”的假设已被证明并不准确,因为知识的积累和信息流是贯穿所有模型层的。这种不准确的定位导致编辑效果不佳,甚至可能对模型中其他不相关的知识造成负面影响。

为什么这个问题在当前领域是重要的: LLMs 已成为自然语言处理 (Natural Language Processing, NLP) 的基石,其知识的准确性和时效性对于其在各种应用中的可靠性至关重要。传统的模型更新方式(如微调 (fine-tuning))成本高昂,且存在灾难性遗忘 (catastrophic forgetting) 和过拟合 (overfitting) 的问题。知识编辑 (KME) 作为一种成本效益高的后处理修改方法,旨在精确地更新模型知识。因此,提高 KME 的准确性和效率,特别是在知识定位和修改策略上,对于 LLMs 的持续维护和可靠性具有重大意义。

现有研究存在的具体挑战或空白 (Gap):

  • 知识定位问题: 传统方法通过因果追踪 (causal tracing) 等手段定位知识,但这些方法倾向于在早期隐藏层找到最大的因果效应,忽略了所有层的信息积累过程,导致定位不准确。
  • 编辑效果次优: 不准确的知识定位导致编辑效果不理想,可能无法有效纠正目标知识,同时可能损害其他无关知识的完整性。
  • 缺乏对信息流的全面考虑: 现有方法未能充分利用 LLM 中信息从输入到输出的渐进式积累特性。

这篇论文的切入点或创新思路: 本文首次将“关键传输路径 (critical transmission paths)”引入知识编辑 (KME)。这一概念认为,知识的积累是一个跨所有层的信息流过程,而不是局限于特定层。通过识别这些关键路径,可以更精确地定位与特定知识相关的参数。在此基础上,论文进一步提出了一种“参数感知对比纠正算法 (parameter-aware contrastive rectifying algorithm)”,通过同时考虑关键路径(正例)和不那么重要的路径(负例)来进行优化,从而在纠正目标知识的同时,最大限度地保护其他无关知识。

2.2. 核心贡献/主要发现

  • 引入关键传输路径: 首次将 critical transmission paths 引入知识编辑 (KME) 领域,用于参数选择,有效解决了传统“层级局部化 (layer-based localization)”方法的局限性。这些路径捕获了跨所有层影响模型预测的关键信息流。
  • 提出参数打包策略: 为了降低在神经元级别路径选择的时间复杂度,受 FFN 作为键值记忆 (key-value memories) 的启发,提出了一种参数打包策略 (parameter packing strategy),将 FFN 的权重矩阵按列和行打包成向量,显著减少了搜索空间。
  • 设计参数感知对比纠正算法: 提出了一种 parameter-aware contrastive rectification algorithm,该算法在编辑过程中将关键路径视为正例,将不重要的路径视为负例,通过对比损失 (contrastive loss) 来优化参数,旨在提高编辑的有效性 (Efficacy) 和泛化性 (Generality),同时保持局部性 (Locality)。
  • 实验验证优越性:ZsRECounterFact 两个著名数据集上,以及 GPT-J (6B)Llama2(7B)Llama2 (7B)Llama3(8B)Llama3 (8B) 三个广泛使用的 LLM 上进行了大量实验。结果表明,本方法在编辑性能(特别是连续编辑 (consecutive editing) 场景下)和效率方面均显著优于现有基线方法。

3. 预备知识与相关工作

3.1. 基础概念

  • 大型语言模型 (Large Language Models, LLMs): 指参数量巨大、在海量文本数据上进行预训练的深度学习模型,能够理解、生成人类语言,并编码了丰富的世界知识。它们通常采用 Transformer 架构。
  • 知识编辑 (Knowledge-based Model Editing, KME): 指在不进行完整模型再训练或微调的情况下,对预训练 LLM 内部的特定知识进行局部修改或更新的技术。目标是精确地纠正错误或过时的知识,同时最大限度地保留模型中其他不相关的知识和能力。
  • 前馈网络 (Feed-Forward Network, FFN):Transformer 架构中的一个关键组件,位于每个 Transformer 块的自注意力 (self-attention) 机制之后。它由两个线性变换和一个激活函数(通常是 ReLU)组成。FFN 负责对每个位置的表示进行独立的非线性转换,被认为在 LLM 中扮演着存储和检索事实知识的关键角色。 数学表示: FFN(l)(x)=ReLU(xW1(l))W2(l) \mathrm{FFN}^{(l)}(\pmb{x}) = \mathrm{ReLU}(\pmb{x}^{\top} \pmb{W}_1^{(l)}) \pmb{W}_2^{(l)} 符号解释:
    • FFN(l)()\mathrm{FFN}^{(l)}(\cdot): 第 ll 层的前馈网络。
    • x\pmb{x}: 输入表示 (input representation)。
    • W1(l)\pmb{W}_1^{(l)}: 第 ll 层的第一个权重矩阵。
    • W2(l)\pmb{W}_2^{(l)}: 第 ll 层的第二个权重矩阵。
    • ReLU()\mathrm{ReLU}(\cdot): 激活函数,通常是 ReLU (Rectified Linear Unit)。
    • x\pmb{x}^{\top}: x\pmb{x} 的转置。
  • 传输路径 (Transmission Paths): 在本文中,transmission path 被定义为 LLM 中信息从输入到输出过程中,跨越所有层的一系列特定模型参数和连接。它描述了信息在模型中逐步累积和转换的过程。本文主要关注 FFN 中的信息积累,因此一个 transmission path 是一组在所有 FFN 层中的参数。
  • 因果追踪 (Causal Tracing): 一种通过对模型内部的中间激活值进行干预 (intervention) 来识别模型中哪些部分对特定预测产生因果影响的方法。在 KME 中,它被用于定位与特定知识相关的神经元或层。
  • 交叉熵损失 (Cross-Entropy Loss, L\mathcal{L}): 在分类任务中常用的损失函数,用于衡量模型预测的概率分布与真实标签的概率分布之间的差异。其目标是使模型预测的正确类别概率最大化,不正确类别概率最小化。在知识编辑中,它被用来衡量模型输出与期望目标之间的差距。 数学表示 (单样本分类): L(y,y^)=c=1Cyclog(y^c) \mathcal{L}(y, \hat{y}) = -\sum_{c=1}^{C} y_c \log(\hat{y}_c) 符号解释:
    • yy: 真实标签的独热编码 (one-hot encoding) 向量,其中 yc=1y_c=1 表示真实类别是 cc,否则为 0
    • y^\hat{y}: 模型预测的概率分布向量,其中 y^c\hat{y}_c 是模型预测类别为 cc 的概率。
    • CC: 类别总数。

3.2. 前人工作

  • 传统局部化修改方法 (Localized Modification):ROME (Meng et al., 2022) 和 MEMIT (Meng et al., 2023) 为代表,这些方法是早期 KME 领域的开创性工作。它们假设与特定知识相关的参数局部化在 LLM 的某些中间层,并通过因果追踪等技术识别这些层,然后对这些局部化的参数进行修改。
  • FFN 作为键值记忆 (Key-Value Memories) 的观点: Geva et al. (2021) 的研究指出,FFN 的两个权重矩阵可以被视为键 (key) 和值 (value) 记忆,这为理解 FFN 如何存储和检索知识提供了新的视角。本文的参数打包策略正是受到了这一观点的启发。
  • 对局部化假设的挑战: Hase et al. (2023) 的研究指出,因果追踪的局部化结果与最优的干预位置并不总是统计相关。他们还发现,因果效应在早期隐藏层(例如 GPT-J 的 4-6 层)平均最大,但忽略了其他层(如 16-20 层)的参数,这表明知识并非完全局部化在少数几层,而是更分散地存在。这一发现是本文放弃“层级局部化”假设、转而探索“传输路径”的关键动机。
  • 其他 KME 方法分类: 论文 Related Work 部分将 KME 方法分为“参数保留 (parameter-preserved)”和“参数修改 (parameter-modified)”两类。
    • 参数保留 (Preserving Parameters): 通常涉及外部记忆 (external memories) (Wang et al., 2024a)、上下文学习 (in-context learning) 或改变 LLM 的表示空间。例如 SERAC (Mitchell et al., 2022b) 使用外部记忆存储编辑;其他方法通过添加额外参数(如适配器 (adaptors))、修改词嵌入 (word embeddings) 或在表示空间中编辑。
    • 参数修改 (Modifying Parameters): 包括微调 (fine-tuning) (Ni et al., 2024)、超网络 (hyper-network) (Cao et al., 2021; Mitchell et al., 2022a) 以及本文关注的局部化方法。局部化方法如 ROME (Meng et al., 2022) 和 MEMIT (Meng et al., 2023) 通过因果干预修改 FFN 权重。

3.3. 技术演进

KME 领域的技术演进经历了从“全局微调 (global fine-tuning)”到“局部化编辑 (localized editing)”的转变。最初,更新模型知识通常意味着对整个模型进行微调,但这带来了高计算成本、灾难性遗忘和过拟合等问题。为了解决这些问题,研究者开始探索更精确、更局部化的编辑方法。

早期的局部化方法如 ROMEMEMIT,是基于一个核心假设:与特定事实知识相关的参数集中存储在模型中的少数几个中间层(特别是 FFN 层)。这些方法利用因果追踪等技术来定位这些“知识神经元 (knowledge neurons)”,然后仅对这些选定的局部参数进行修改。这种方式显著降低了计算成本,并能更好地保护其他无关知识。

然而,随着对 LLM 内部机制理解的深入,Hase et al. (2023) 等研究开始挑战这种严格的“层级局部化”假设,指出知识的积累和信息流实际上是贯穿所有层的。简单地关注少数几层可能导致编辑效果不佳,尤其是在处理更复杂或分布式知识时。

本文的工作正是在这一背景下提出的,它代表了 KME 技术向更精细、更全局视角的演进:

  • 从“层级局部化”到“跨层传输路径”: 放弃了知识仅存储在特定层的假设,转而关注信息在所有层中流动的 critical transmission paths。这更符合 LLM 实际的信息处理机制。

  • 从“静态定位”到“动态路径识别”: 通过扰动理论 (perturbation theory) 动态评估每条路径对编辑任务的影响,从而识别出最关键的路径。

  • 引入“对比学习 (contrastive learning)”范式: 不仅关注如何修改正确的部分,还考虑如何避免修改不重要的部分,通过对比损失来平衡编辑的有效性和局部性,是方法论上的一大创新。

    这种演进使得 KME 能够更准确地反映 LLM 知识的分布式和纠缠性质,从而实现更有效、更鲁棒的知识更新。

3.4. 差异化分析

本文的方法与相关工作中的主要方法相比,核心区别和创新点在于以下几个方面:

  1. 知识定位的范式转变:

    • 传统方法 (如 ROME, MEMIT): 假设知识存储在 LLM 的特定中间层,采用“层级局部化”的策略,通过因果追踪等方法识别并修改这些层的参数。
    • 本文方法: 首次引入“关键传输路径 (critical transmission paths)”的概念。它认为知识并非局部化在少数几层,而是在模型的前向传播过程中,信息流通过贯穿所有层的特定参数序列逐步积累。因此,本文的目标是识别这些跨层的信息传输路径,而不是孤立的层或神经元。
  2. 参数选择粒度与策略:

    • 传统方法: 通常在神经元级别或层级别进行选择和修改。
    • 本文方法: 引入了“参数打包策略 (parameter packing strategy)”,将 FFN 的权重矩阵打包成 keyvalue 向量,使得路径的粒度介于神经元和整个层之间,同时大大降低了搜索空间复杂度,从 O[L×(D×M)2]\mathcal{O}[L \times (D \times M)^2] 降低到 O(L×M2)\mathcal{O}(L \times M^2)
  3. 纠正算法的创新:

    • 传统方法: 通常采用直接梯度更新或低秩分解等方式对定位到的参数进行修改。
    • 本文方法: 提出“参数感知对比纠正算法 (parameter-aware contrastive rectifying algorithm)”。该算法不仅优化对关键路径(正例)的修改以实现目标编辑,还引入了对不重要路径(负例)的对比损失。通过惩罚不重要路径的修改导致原始行为的改变,它旨在更有效地防止对无关知识的损害,从而同时优化编辑的有效性、局部性和泛化性。
  4. 对连续编辑 (Consecutive Editing) 场景的鲁棒性:

    • 传统方法: 在批处理编辑 (batch editing) 中表现尚可,但在连续编辑(即多次编辑不回滚参数)场景下性能显著下降,甚至出现灾难性遗忘。

    • 本文方法: 在连续编辑场景下表现出显著的优越性,这得益于其更精确的路径定位和对比纠正机制,能够更好地维护模型的整体知识一致性。

      总之,本文的核心创新在于从“静态层级局部化”转向“动态跨层信息流路径”的知识定位,并通过引入对比学习机制来优化参数修改,从而在更深层次上理解和解决 KME 中知识的分布式和纠缠性质。

4. 方法论

4.1. 方法原理

本文的核心思想是:LLMs 中的知识不是孤立地存储在特定层,而是通过一系列跨越所有层的“关键传输路径 (critical transmission paths)”逐步积累和传递的。为了精确地编辑知识,我们应该识别并修改这些关键路径上的参数,而不是仅仅关注某些中间层。此外,为了确保编辑的有效性和局部性,引入了一种“参数感知对比纠正算法”,通过将关键路径视为正例,不重要的路径视为负例,以对比的方式优化参数更新。

4.2. 核心方法详解

4.2.1. 符号定义 (Notations)

本文沿袭了以往知识编辑 (KME) 工作的定义,旨在将 LLM 中编码的原始知识三元组 (s, r, o) 修改为目标知识三元组 (s,r,o)(s, r, o^*)

  • ss: 主语 (subject),例如“Lionel Messi”。
  • rr: 二元关系 (binary relation),例如“play_for”。
  • oo: 旧对象 (old object),例如“PSG”。
  • oo^*: 期望的新对象 (expected object),例如“Inter Miami CF”。
  • εi=(s,r,oo)\varepsilon_i = (s, r, o \to o^*): 表示一个特定的编辑请求。
  • E\mathcal{E}: 待编辑知识的集合。
  • xix_i: 对应于 (s, r) 的输入提示 (input prompt) 的自然语言表达,例如“Which club does Lionel Messi play for now?”。
  • Xεi\mathcal{X}_{\varepsilon_i} (或简写为 Xi\mathcal{X}_i): xix_i 的其他等效释义 (paraphrases) 集合,用于评估编辑的泛化性 (Generality)。
  • yiy_i: 模型对输入 xix_i 的原始文本输出,对应于旧对象 oo
  • yiy_i^*: 模型期望的文本输出,对应于目标对象 oo^*
  • fΘf_{\Theta}: 原始模型,其中 Θ\Theta 表示原始模型参数。
  • Θ=Θ+ΔΘ\Theta^* = \Theta + \Delta\Theta^*: 更新后的模型参数,其中 ΔΘ\Delta\Theta^* 是参数更新矩阵。\Delta\Theta^*$ \text{应该是稀疏的,表明只有一小部分参数被修改。}$ ### 4.2.2. \text{任务定义} (Task Definition) \text{知识编辑的目标是通过精确更新} LLM \text{中的一小部分参数来整合新知识,同时不负面影响与编辑集无关的其他已编码知识。形式上,编辑目标可以表示为:} f_{\Theta^}(x) = \left{ \begin{array}{ll} y_i^, & \varepsilon_i \in \mathcal{E}, x \in {x_i, \mathcal{X}i} \ y_i, & \varepsilon_i \notin \mathcal{E}, x \in {x_i, \mathcal{X}i} \end{array} \right. **符号解释:** * $f_{\Theta^*}(x)$: 经过编辑后的模型 $f$ 对于输入 $x$ 的预测输出。 * $y_i^*$: 当输入 $x$ 属于待编辑知识 $\varepsilon_i \in \mathcal{E}$ 或其释义 $\mathcal{X}_i$ 时,期望的模型输出(即目标对象 $o^*$)。 * $y_i$: 当输入 $x$ 不属于待编辑知识 $\varepsilon_i \notin \mathcal{E}$ 或其释义 $\mathcal{X}_i$ 时,模型应保持的原始输出。 * $\Theta^*$: 编辑后的模型参数。 ### 4.2.3. 前馈网络 (Feed-Forward Network, FFN) `FFN` 是 LLM 的关键模块,它通常由两个线性变换和一个激活函数(例如 `ReLU`)组成,捕捉输入表示中的复杂非线性关系。它位于自注意力 (self-attention) 模块之后。 \mathrm{FFN}^{(l)}(\pmb{x}) = \mathrm{ReLU}(\pmb{x}^{\top} \pmb{W}1^{(l)}) \pmb{W}2^{(l)} **符号解释:** * $\mathrm{FFN}^{(l)}(\cdot)$: 第 $l$ 层的前馈网络。 * $\pmb{x}$: 输入表示 (input representation)。 * $\pmb{W}_1^{(l)}$: 第 $l$ 层的第一个权重矩阵。 * $\pmb{W}_2^{(l)}$: 第 $l$ 层的第二个权重矩阵。 * $\mathrm{ReLU}(\cdot)$: 激活函数。 * $D$: 模型的隐藏维度 (hidden dimension)。 * $M$: `FFN` 层的中间维度 (FFN layer dimension)。 * \pmb{W}1^{(l)} \in \mathbb{R}^{D \times M}: 第 $l$ 层第一个权重矩阵的维度。 * \pmb{W}2^{(l)} \in \mathbb{R}^{M \times D}: 第 $l$ 层第二个权重矩阵的维度。 例如,在 $Llama3 (8B)$ 中,$D = 4096$, $M = 14336$。 ### 4.2.4. 传输路径 (Transmission Paths) `Transmission path` 描述了信息从输入到输出的积累过程,由 LLM 中跨所有层的特定参数序列和连接组成。本文也主要关注 `FFN` 中的信息积累。因此,每个传输路径可以表示为一组在所有 `FFN` 层中的参数: \tau = { (\Theta_1^{(l)}, \Theta_2^{(l)}) \mid 1 \leq l \leq L } **符号解释:** * $\tau$: 一个特定的传输路径。 * $\mathcal{T}$: 给定 LLM 中所有传输路径的集合。 * $\Theta_1^{(l)}$ 和 $\Theta_2^{(l)}$: 路径 $\tau$ 在第 $l$ 层的节点,它们是 $\pmb{W}_1^{(l)}$ 和 $\pmb{W}_2^{(l)}$ 参数的一部分。 * $L$: 模型中的总层数。 ### 4.2.5. 参数打包策略 (Parameter Packing Strategy) 在定义了传输路径后,知识编辑的关键在于识别并修改这些路径上的参数。然而,如果以神经元级别来选择路径节点 ($\Theta_1^{(l)}$ 和 $\Theta_2^{(l)}$),其时间复杂度将是惊人的 $\mathcal{O}[L \times (D \times M)^2]$。并且,在神经元级别的梯度更新可能损害模型的鲁棒性。为解决这些问题,本文提出了一种参数打包策略。 <strong>受启发于 `FFN` 的键值记忆观点 (Geva et al., 2021):</strong> `FFN` 层可以被重新表述为: \mathrm{FFN}^{(l)}(\pmb{x}) = g(\pmb{x}^{\top} \underbrace{\pmb{K}^{(l)}}{W_1^{(l)}}) \underbrace{\pmb{V}^{(l)}}{W_2^{(l)}} = \sum{j=1}^{M} \underbrace{g(\pmb{x}^{\top} \pmb{k}j^{(l)})}{\alpha_j^{(l)}} \pmb{v}j^{(l)} **符号解释:** * $g$: 激活函数。 * $\pmb{K}^{(l)}$ 和 $\pmb{V}^{(l)}$: 分别是 $\pmb{W}_1^{(l)}$ 和 $\pmb{W}_2^{(l)}$ 的增强版本,类似于注意力机制中的键 (key) 和值 (value) 矩阵。 * $\pmb{k}_j^{(l)}$: $\pmb{K}^{(l)}$ 的第 $j$ 列权重向量 (大小为 $D \times 1$)。 * $\pmb{v}_j^{(l)}$: $\pmb{V}^{(l)}$ 的第 $j$ 行权重向量 (大小为 $1 \times D$)。 * $\alpha_j^{(l)}$: 权重系数,通过输入 $\pmb{x}$ 与键向量 $\pmb{k}_j^{(l)}$ 的点积经过激活函数 $g$ 计算得到。 **打包策略:** 公式 4 表明,第 $l$ 层 `FFN` 的输出表示可以视为值向量 $\pmb{v}_j^{(l)}$ 的加权和。这促使我们将 `FFN` 中第一个权重矩阵的参数按列 (column-wise) 打包,第二个权重矩阵的参数按行 (row-wise) 打包。 **打包后的传输路径定义:** 这一打包策略允许传输路径重新表述为: \tau = { (\boldsymbol{k}i^{(l)}, \boldsymbol{v}j^{(l)}) | 1 \le l \le L, 1 \le i, j \le M } **符号解释:** * $\boldsymbol{k}_i^{(l)}$: 第 $l$ 层 `FFN` 第一个权重矩阵的第 $i$ 列向量。 * $\boldsymbol{v}_j^{(l)}$: 第 $l$ 层 `FFN` 第二个权重矩阵的第 $j$ 行向量。 * 通过这种打包策略,时间复杂度从 $\mathcal{O}[L \times (D \times M)^2]$ 大幅降低到 $\mathcal{O}(L \times M^2)$。 以下是传输路径和打包策略的示意图: ![Figure 2: Illustration of transmission paths and the packing strategy. Before applying the packing strategy, each path is composed of each weight in FFNs across all layers, e.g., $( \\theta _ { 1 , 2 } ^ { 1 } , \\theta _ { 3 , 9 } ^ { 2 } ) ^ { ( 1 ) } \\ : \\ : \\ : ( \\theta _ { 8 , 5 } ^ { 1 } , \\theta _ { 9 , 1 } ^ { 2 } ) ^ { ( 2 ) } \\ : $ $\\begin{array} { c c l } { \\dots } & { \\to } & { ( \\theta _ { 7 , 5 } ^ { 1 } , \\theta _ { 3 , 4 } ^ { 2 } ) ^ { ( L ) } } \\end{array}$ After applying the sy, each path becomes a sequence of weight vectors, e.g., $( \\bar { \\pmb { \\theta } } _ { 2 } ^ { 1 } , \\pmb { \\theta } _ { 9 } ^ { 2 } ) ^ { ( 1 ) } . . . ( \\pmb { \\theta } _ { i } ^ { 1 } , \\pmb { \\theta } _ { j } ^ { 2 } ) ^ { ( l ) } . . . ( \\bar { \\pmb { \\theta } } _ { 1 3 } ^ { 1 } , \\pmb { \\theta } _ { 7 } ^ { 2 } ) ^ { ( L ) }$ , where $( \\pmb { \\theta } _ { i } ^ { 1 } , \\pmb { \\theta } _ { j } ^ { 2 } ) ^ { ( l ) }$ (i.e., $\\pmb { k } _ { i } ^ { ( l ) }$ and ${ \\pmb v } _ { j } ^ { ( l ) }$ ) are the $i$ th column and the $j$ th row $W _ { 1 } ^ { ( l ) }$ and $W _ { 2 } ^ { ( l ) }$ , respectively.](/files/papers/694b526e769f2826079b70f1/images/2.jpg) *该图像是示意图,展示了输入表示、权重矩阵和输出预测之间的关系。图中标出了两个权重矩阵 $W_1^{(1)}$ 和 $W_2^{(1)}$,illustrating the flow of data through different layers。在数据传输过程中,输入表示通过第一层的权重矩阵进行处理,产生隐藏特征,并最终通过第二层的权重矩阵得到输出预测。各部分的维度标注为1至5,分别对应不同的数据形状。* 图 2 展示了传输路径和打包策略。在应用打包策略之前,每条路径由 `FFN` 各层中的每个权重组成。应用打包策略后,每条路径变为一系列权重向量。例如,$( \bar { \pmb { \theta } } _ { 2 } ^ { 1 } , \pmb { \theta } _ { 9 } ^ { 2 } ) ^ { ( 1 ) } . . . ( \pmb { \theta } _ { i } ^ { 1 } , \pmb { \theta } _ { j } ^ { 2 } ) ^ { ( l ) } . . . ( \bar { \pmb { \theta } } _ { 1 3 } ^ { 1 } , \pmb { \theta } _ { 7 } ^ { 2 } ) ^ { ( L ) }$,其中 $( \pmb { \theta } _ { i } ^ { 1 } , \pmb { \theta } _ { j } ^ { 2 } ) ^ { ( l ) }$ (即 $\pmb { k } _ { i } ^ { ( l ) }$ 和 ${ \pmb v } _ { j } ^ { ( l ) }$ ) 分别是 $W _ { 1 } ^ { ( l ) }$ 的第 $i$ 列和 $W _ { 2 } ^ { ( l ) }$ 的第 $j$ 行。 ### 4.2.6. 追踪关键传输路径 (Tracing Critical Transmission Paths) 在定义了传输路径之后,下一步是确定“在哪里进行编辑”。具体来说,需要识别那些影响模型预测从“旧答案”转向“期望答案”的关键信息传输路径。 <strong>路径影响分数 (Impact Score of Transmission Paths) 的计算:</strong> 为了估计每条传输路径的重要性,本文采用了一种基于扰动 (perturbation-based) 的方法。核心思想是:路径的重要性可以通过在路径参数中引入微小噪声后,模型在获得期望预测方面的输出干扰程度来衡量。基于扰动理论 (perturbation theory),路径的影响分数 $\phi(\tau | \varepsilon_i)$ 定义为: \begin{array}{l} \displaystyle \phi(\tau | \varepsilon_i) = \operatorname*{lim}{\epsilon\tau \to 0} \frac{\mathcal{L}(y_i^* | \Theta + \epsilon\tau, x_i) - \mathcal{L}(y_i^* | \Theta, x_i)}{\epsilon\tau} \ \displaystyle \approx \sum{\theta \in \tau} \frac{\partial \mathcal{L}}{\partial \theta} \end{array} **\text{符号解释}:** * $\phi(\tau | \varepsilon_i)$: \text{传输路径} $\tau$ \text{对于编辑请求} $\varepsilon_i$ \text{的影响分数。} * $\mathcal{L}(\cdot)$: \text{交叉熵损失函数,衡量模型预测与期望输出之间的差异。} * $\epsilon_\tau$: \text{引入到传输路径} $\tau$ \text{的打包参数中的噪声。} * $\Theta$: \text{原始模型参数。} * $\Theta + \epsilon_\tau$: \text{引入噪声后的模型参数。} * $\theta$: \text{路径} $\tau$ \text{中的单个参数。} * $\frac{\partial \mathcal{L}}{\partial \theta}$: \text{损失函数} $\mathcal{L}$ \text{对参数} $\theta$ \text{的梯度。} \text{这个近似表示,影响分数可以通过对路径中所有参数的损失梯度求和来估算。} **\text{识别关键路径} $\mathcal{T}^+$:** \text{在计算出所有传输路径的影响分数后,选择分数最高的路径作为关键传输路径} (critical transmission paths) $\mathcal{T}^+ (\varepsilon_i)$\text{。} \mathcal{T}^+ (\varepsilon_i) = { \tau \vert 1 \leq r(\phi(\tau \vert \varepsilon_i)) \leq N } **\text{符号解释}:** * $r(\cdot)$: \text{返回给定路径分数在所有路径分数列表中的排名位置(降序排列)。} * $N$: \text{关键传输路径的数量,是一个超参数。} ### 4.2.7. \text{参数感知对比编辑} (Parameter-Aware Contrastive Editing) \text{在确定了关键路径} $\mathcal{T}^+$ \text{之后,本文进一步提出了一种参数感知对比纠正算法。该算法不仅将关键路径视为正例(需要更新的参数),还会选择一个分数最低的不重要传输路径作为负例} $\tau^-$\text{。} **\text{设计动机}:** * **\text{正例}:** \text{更新关键路径上的参数,以使模型预测转向期望的输出。} * **\text{负例}:** \text{引入一个不重要的路径作为负例,并通过对比损失来惩罚对负例路径的修改导致模型原始行为的改变。这有助于模型学习}“\text{不应该修改哪些参数}”\text{,从而增强编辑的局部性} (Locality)\text{,避免对其他不相关知识的意外修改。} <strong>\text{参数感知对比损失} (Parameter-Aware Contrastive Loss) \text{的公式}:</strong> \mathcal{I}(\varepsilon_i) = \mathcal{L}(f{\Theta^}(x_i), y_i^) + \lambda \mathcal{L}(f_{\Theta'}(x_i), y_i) **符号解释:** * $\mathcal{I}(\varepsilon_i)$: 与编辑请求 $\varepsilon_i$ 相关的总损失。 * $\mathcal{L}(\cdot, \cdot)$: 交叉熵损失函数。 * $f_{\Theta^*}(x_i)$: 在正例路径 $\mathcal{T}^+$ 上的参数 $\Theta^*$ 优化后,模型对 $x_i$ 的预测。 * $y_i^*$: 期望的目标输出。这一项确保了编辑的有效性。 * $f_{\Theta'}(x_i)$: 在负例路径 $\tau^-$ 上的参数 $\Theta'$ 优化后,模型对 $x_i$ 的预测。 * $y_i$: $x_i$ 的原始模型输出。这一项确保了对不重要路径的修改不会大幅改变模型原始行为,从而维护局部性。 * $\lambda$: 一个标量,用于平衡与负例路径相关的损失项的权重。 **优化目标:** * 最小化第一项 $\mathcal{L}(f_{\Theta^*}(x_i), y_i^*)$,促使模型输出期望的 $y_i^*$,实现编辑目标。 * 最小化第二项 $\mathcal{L}(f_{\Theta'}(x_i), y_i)$,促使模型在修改不重要路径的参数后,其预测仍尽可能接近原始输出 $y_i$,从而避免对无关知识的干扰。 这种对比损失机制使得模型在更新参数时,能够更“参数感知”地进行修改,即不仅知道“如何编辑”,也知道“如何不破坏”。 # 5. 实验设置 ## 5.1. 数据集 * **ZsRE (Zero-shot Relation Extraction):** (Levy et al., 2017) * **来源:** 一个问答数据集,最初设计用于零样本关系抽取任务。 * **特点:** 包含大量事实性知识,适合评估模型对实体关系事实的理解和编辑能力。 * **用途:** 用于评估模型在修改既有事实知识时的性能。 * **CounterFact:** (Meng et al., 2022) * **来源:** 一个专门设计用于向模型中插入反事实知识 (counterfactual knowledge) 的数据集。 * **特点:** 包含一些与模型预训练知识相悖的新事实,需要模型学会接受并存储这些新的、与过去不一致的信息。 * **用途:** 主要用于评估模型插入新知识的能力,以及在面对矛盾信息时进行更新的能力。 **数据集中的具体样本示例:** (来自论文摘要和引言) * **ZsRE 示例:** 如果模型在 2023 年之前训练,对于提示 "Which club does Lionel Messi play for?",可能会回答 "PSG"。编辑后,期望回答 "Inter Miami CF"。 * **CounterFact 示例:** (论文未直接给出具体样本,但其性质是插入反事实知识,例如将“艾弗尔铁塔在巴黎”改为“艾弗尔铁塔在罗马”,模型需要学会新的事实) **为什么选择这些数据集进行实验:** 这两个数据集是 KME 领域广泛采用的基准数据集,它们分别代表了对模型中“现有知识的修正”和“新知识的插入”两种核心编辑场景,能够全面验证 KME 方法的有效性和鲁棒性。 <strong>大型语言模型 (LLMs):</strong> 实验中使用了三个主流的自回归 LLMs: * **GPT-J (6B):** 60 亿参数模型 (Wang and Komatsuzaki, 2021)。 * **Llama2 (7B):** 70 亿参数模型 (Touvron et al., 2023)。 * **Llama3 (8B):** 80 亿参数模型 (Llama Team, 2024)。 这些模型代表了不同规模和架构的 LLM,确保了实验结果的普适性。 ## 5.2. 评估指标 本文采用三个基本指标来评估知识编辑的性能:有效性 (Efficacy)、局部性 (Locality) 和泛化性 (Generality)。 ### 5.2.1. 有效性 (Efficacy) * **概念定义:** `Efficacy` 衡量模型在知识编辑后,对于目标编辑请求,能否成功地从旧知识纠正为新知识。它关注的是编辑本身是否成功地实现了预期目标。 * **数学公式:** \text{Efficacy} = \frac{\sum_{i=1}^{|\mathcal{E}|} \mathbb{I}(f_{\Theta^}(x_i) = y_i^) }{|\mathcal{E}|} \times 100% * **符号解释:** * $\mathbb{I}(\cdot)$: 指示函数 (indicator function),当括号内的条件为真时,返回 1,否则返回 0。 * $f_{\Theta^*}(x_i)$: 经过编辑后的模型 $f_{\Theta^*}$ 对输入 $x_i$ 的预测输出。 * $y_i^*$: 期望的目标输出(即新知识)。 * $|\mathcal{E}|$: 待编辑知识请求的总数量。 * 该指标表示编辑成功率。 ### 5.2.2. 局部性 (Locality) * **概念定义:** `Locality` 衡量知识编辑对模型中与编辑请求无关的其他知识的负面影响程度。一个好的知识编辑方法应该只修改目标知识,而不会“忘记”或改变其他不相关的知识。 * **数学公式:** \text{Locality} = \frac{\sum_{j \notin \mathcal{E}} \mathbb{I}(f_{\Theta^}(x_j) = y_j) }{|\mathcal{U}|} \times 100% * **符号解释:** * $\mathbb{I}(\cdot)$: 指示函数。 * $f_{\Theta^*}(x_j)$: 经过编辑后的模型 $f_{\Theta^*}$ 对不相关输入 $x_j$ 的预测输出。 * $y_j$: 不相关输入 $x_j$ 的原始模型输出。 * $|\mathcal{U}|$: 不相关知识请求的总数量。 * 该指标表示未受影响的不相关知识的保留率。 ### 5.2.3. 泛化性 (Generality) * **概念定义:** `Generality` 衡量知识编辑是否能泛化到与编辑请求语义相关但形式上不同的输入上(例如,对同一个问题的不同表达方式)。它评估模型在编辑后能否在更广泛的语境中应用新知识。 * **数学公式:** \text{Generality} = \frac{\sum_{i=1}^{|\mathcal{E}|} \sum_{x \in \mathcal{X}i} \mathbb{I}(f{\Theta^}(x) = y_i^) }{ \sum_{i=1}^{|\mathcal{E}|} |\mathcal{X}_i| } \times 100% * **符号解释:** * $\mathbb{I}(\cdot)$: 指示函数。 * $f_{\Theta^*}(x)$: 经过编辑后的模型 $f_{\Theta^*}$ 对相关释义 $x \in \mathcal{X}_i$ 的预测输出。 * $y_i^*$: 期望的目标输出(新知识)。 * $\mathcal{X}_i$: 与编辑请求 $\varepsilon_i$ 相关的等效释义集合。 * 该指标表示新知识在相关释义上的泛化成功率。 ### 5.2.4. 得分 (Score) `Score` 是 `Efficacy`、`Locality` 和 `Generality` 三个指标的平均值。 \text{Score} = \frac{\text{Efficacy} + \text{Locality} + \text{Generality}}{3} ## 5.3. 对比基线 为了评估所提出方法的有效性,本文将其与九种强基线方法进行比较。在表 1 和表 2 中,实际列出了以下基线方法: * **Full-C (Zhu et al., 2021):** 一个通用的 Transformer 模型修改方法。 * **ROME (Meng et al., 2022):** 基于因果干预定位和编辑 `FFN` 权重的局部化编辑方法。 * **MEMIT (Meng et al., 2023):** `ROME` 的改进版,旨在实现更高效的大规模记忆编辑。 * **PRUNE (Ma et al., 2025):** 一种基于扰动限制的序列模型编辑方法。 * **RECT (Gu et al., 2024):** 强调通过正则化防止模型编辑损害 LLM 通用能力的编辑方法。 * **AlphaEdit (Fang et al., 2025):** 一种空空间约束的知识编辑方法。 * **KN (Dai et al., 2022):** 知识神经元,通过识别并修改 `Transformer` 中的关键神经元来编辑知识。 * **PMET (Li et al., 2024b):** 精确模型编辑方法,聚焦于 `Transformer` 中的精确参数修改。 * **LoRA (Xu et al., 2024):** 一种低秩适应 (Low-Rank Adaptation) 方法,通常用于高效微调,也可用于知识更新。 * **EMMET (Gupta et al., 2024b):** 统一的模型编辑框架。 * **R-ROME (Gupta et al., 2024a):** `ROME` 的改进版,旨在解决序列模型编辑中的模型崩溃问题。 这些基线涵盖了不同类型的知识编辑策略,包括局部化方法、微调方法和基于新架构的方法,具有较强的代表性。 ## 5.4. 实验设置细节 * **编辑模式:** * <strong>批处理编辑 (Batch Editing):</strong> 同时处理多个编辑请求。在每次编辑操作中,模型会接收一批待编辑的知识,并一次性进行参数更新。这是一种相对简单的场景,因为它不考虑多次编辑之间的相互影响。 * <strong>连续编辑 (Consecutive Editing):</strong> 更具挑战性的场景,所有编辑请求都是按顺序逐个进行的,并且在每次编辑之后不回滚参数。这意味着后续的编辑必须在先前编辑的基础上进行,可能会受到累积效应的影响。评估是在所有知识更新完成后进行的。 * **实验环境:** 所有实验都在配备 NVIDIA A100-SXM4-40GB GPU 和 Intel Xeon Gold 5215 @ 2.50GHz CPU 的机器上进行。 * **基线实现:** 基线方法使用广泛采用的 `EasyEdit` 工具包实现,并根据推荐设置配置超参数。 # 6. 实验结果与分析 ## 6.1. 核心结果分析 ### 6.1.1. 批处理编辑 (Batch Editing) 性能比较 以下是原文 Table 1 的结果: <div class="table-wrapper"><table> <thead> <tr> <td rowspan="2">Editor</td> <td colspan="4">ZsRE</td> <td colspan="4">CounterFact</td> </tr> <tr> <td>Efficacy</td> <td>Locality</td> <td>Generality</td> <td>Score</td> <td>Efficacy</td> <td>Locality</td> <td>Generality</td> <td>Score</td> </tr> </thead> <tbody> <tr> <td colspan="9">GPT-J (6B)</td> </tr> <tr> <td>Original Model</td> <td>26.32</td> <td>/</td> <td>25.79</td> <td>26.06</td> <td>16.22</td> <td>/</td> <td>18.56</td> <td>17.39</td> </tr> <tr> <td>Full-C (Zhu et al., 2021)</td> <td>72.37</td> <td>19.66</td> <td>68.91</td> <td>53.65</td> <td>92.15</td> <td>43.35</td> <td>72.38</td> <td>69.29</td> </tr> <tr> <td>ROME (Meng et al., 2022)</td> <td>56.42</td> <td>9.86</td> <td>54.65</td> <td>40.31</td> <td>57.50</td> <td>52.05</td> <td>54.20</td> <td>54.58</td> </tr> <tr> <td>MEMIT (Meng et al., 2023)</td> <td>94.91</td> <td>30.39</td> <td>90.22</td> <td>71.84</td> <td>98.55</td> <td>63.64</td> <td>95.50</td> <td>85.90</td> </tr> <tr> <td>PRUNE (Ma et al., 2025)</td> <td>0.15</td> <td>0.00</td> <td>0.15</td> <td>0.10</td> <td>86.15</td> <td>53.87</td> <td>86.85</td> <td>75.62</td> </tr> <tr> <td>RECT (Gu et al., 2024)</td> <td>96.38</td> <td>27.79</td> <td>91.21</td> <td>71.79</td> <td>98.80</td> <td>72.22</td> <td>86.58</td> <td>85.87</td> </tr> <tr> <td>AlphaEdit (Fang et al., 2025)</td> <td>99.79</td> <td>28.29</td> <td>96.00</td> <td>74.69</td> <td>99.75</td> <td>75.48</td> <td>96.38</td> <td>90.54</td> </tr> <tr> <td>Ours</td> <td>100</td> <td>93.22</td> <td>63.75</td> <td>85.66</td> <td>100</td> <td>17.00</td> <td>12.00</td> <td>43.00</td> </tr> <tr> <td colspan="9">Llama3 (8B)</td> </tr> <tr> <td>Original Model</td> <td>36.99</td> <td>/</td> <td>36.34</td> <td>36.67</td> <td>7.85</td> <td>/</td> <td>10.58</td> <td>9.22</td> </tr> <tr> <td>Full-C (Zhu et al., 2021)</td> <td>30.48</td> <td>15.49</td> <td>30.22</td> <td>25.40</td> <td>83.33</td> <td>46.63</td> <td>67.79</td> <td>65.92</td> </tr> <tr> <td>ROME (Meng et al., 2022)</td> <td>2.01</td> <td>0.69</td> <td>1.80</td> <td>1.50</td> <td>64.40</td> <td>49.44</td> <td>61.42</td> <td>58.42</td> </tr> <tr> <td>MEMIT (Meng et al., 2023)</td> <td>34.62</td> <td>18.49</td> <td>31.28</td> <td>28.13</td> <td>65.65</td> <td>51.56</td> <td>64.65</td> <td>60.62</td> </tr> <tr> <td>PRUNE (Ma et al., 2025)</td> <td>24.77</td> <td>20.69</td> <td>23.87</td> <td>23.11</td> <td>68.25</td> <td>49.82</td> <td>64.75</td> <td>60.94</td> </tr> <tr> <td>RECT (Gu et al., 2024)</td> <td>86.05</td> <td>31.67</td> <td>80.54</td> <td>66.09</td> <td>66.05</td> <td>61.41</td> <td>63.62</td> <td>63.69</td> </tr> <tr> <td>AlphaEdit (Fang et al., 2025)</td> <td>94.47</td> <td>32.55</td> <td>91.13</td> <td>72.72</td> <td>98.90</td> <td>67.88</td> <td>94.22</td> <td>87.00</td> </tr> <tr> <td>Ours</td> <td>98.21</td> <td>85.36</td> <td>77.04</td> <td>86.87</td> <td>100</td> <td>16.00</td> <td>23.00</td> <td>46.33</td> </tr> </tbody> </table></div> 表 1 展示了在 `GPT-J (6B)` 和 $Llama3 (8B)$ 模型上进行批处理编辑 (batch editing) 的性能比较。 * **整体趋势:** 大多数方法在批处理编辑下表现出令人满意的性能。 * <strong>本文方法 (Ours):</strong> * 在 `ZsRE` 数据集上,`Ours` 在 `Efficacy` 和 `Locality` 方面表现出色,尤其是 `Locality` 指标显著高于所有基线方法 (例如 `GPT-J` 上为 93.22%,`Llama3` 上为 85.36%)。这表明我们的方法在成功编辑知识的同时,能更好地保护其他无关知识。`Generality` 相对较低 (63.75% 和 77.04%)。`Score` 排名靠前。 * 在 `CounterFact` 数据集上,`Ours` 实现了 100% 的 `Efficacy`,但 `Locality` 和 `Generality` 较低 (17.00%/12.00% for `GPT-J`, 16.00%/23.00% for `Llama3`)。这表明尽管能够成功插入新知识,但在泛化到相关问法和保护其他知识方面仍有待提高。 * **基线方法:** * `AlphaEdit`、`MEMIT` 和 `RECT` 在 `Efficacy` 和 `Generality` 上通常表现较好,尤其在 `CounterFact` 上获得了很高的 `Score`。然而,它们的 `Locality` 普遍低于我们的方法在 `ZsRE` 上的表现。 * `PRUNE` 在 `GPT-J` 的 `ZsRE` 上表现异常差,但在 `CounterFact` 上表现尚可。 * 原始模型 (Original Model) 的各项指标通常较低,这符合预期,因为它没有经过任何编辑。 ### 6.1.2. 连续编辑 (Consecutive Editing) 性能比较 以下是原文 Table 2 的结果: <div class="table-wrapper"><table> <thead> <tr> <td rowspan="2">Editor</td> <td colspan="4">ZsRE</td> <td colspan="4">CounterFact</td> </tr> <tr> <td>Efficacy</td> <td>Locality</td> <td>Generality</td> <td>Score</td> <td>Efficacy</td> <td>Locality</td> <td>Generality</td> <td>Score</td> </tr> </thead> <tbody> <tr> <td colspan="9">GPT-J (6B)</td> </tr> <tr> <td>Original Model</td> <td>21.65</td> <td>/</td> <td>21.10</td> <td>21.37</td> <td>0.30</td> <td>/</td> <td>0.23</td> <td>0.27</td> </tr> <tr> <td>Full-C (Zhu et al., 2021)</td> <td>11.04</td> <td>1.59</td> <td>8.41</td> <td>7.01</td> <td>21.33</td> <td>1.27</td> <td>7.97</td> <td>10.19</td> </tr> <tr> <td>ROME (Meng et al., 2022)</td> <td>31.87</td> <td>18.29</td> <td>28.10</td> <td>26.09</td> <td>0.13</td> <td>0.03</td> <td>0.20</td> <td>0.12</td> </tr> <tr> <td>KN (Dai et al., 2022)</td> <td>0.00</td> <td>0.01</td> <td>0.00</td> <td>0.003</td> <td>0.01</td> <td>0.00</td> <td>0.007</td> <td>0.006</td> </tr> <tr> <td>MEMIT (Meng et al., 2023)</td> <td>0.00</td> <td>0.00</td> <td>0.00</td> <td>0.00</td> <td>0.00</td> <td>0.00</td> <td>0.00</td> <td>0.00</td> </tr> <tr> <td>PMET (Li et al., 2024b)</td> <td>0.02</td> <td>0.03</td> <td>0.02</td> <td>0.02</td> <td>0.00</td> <td>0.00</td> <td>0.00</td> <td>0.00</td> </tr> <tr> <td>AlphaEdit (Fang et al., 2025)</td> <td>0.00</td> <td>0.01</td> <td>0.00</td> <td>0.00</td> <td>0.00</td> <td>0.00</td> <td>0.00</td> <td>0.00</td> </tr> <tr> <td>LoRA (Xu et al., 2024)</td> <td>1.11</td> <td>0.01</td> <td>1.15</td> <td>0.76</td> <td>0.97</td> <td>0.13</td> <td>0.67</td> <td>0.59</td> </tr> <tr> <td>EMMET (Gupta et al., 2024b)</td> <td>55.21</td> <td>37.47</td> <td>51.67</td> <td>48.12</td> <td>70.20</td> <td>33.03</td> <td>41.17</td> <td>48.13</td> </tr> <tr> <td>R-ROME (Gupta et al., 2024a)</td> <td>54.74</td> <td>13.33</td> <td>51.76</td> <td>39.96</td> <td>69.27</td> <td>41.87</td> <td>37.40</td> <td>49.51</td> </tr> <tr> <td>Ours</td> <td>88.74</td> <td>51.28</td> <td>49.50</td> <td>63.17</td> <td>90.70</td> <td>1.83</td> <td>5.33</td> <td>32.62</td> </tr> <tr> <td colspan="9">Llama2 (7B)</td> </tr> <tr> <td>Original Model</td> <td>34.73</td> <td>/</td> <td>34.59</td> <td>34.66</td> <td>15.19</td> <td>/</td> <td>11.55</td> <td>13.37</td> </tr> <tr> <td>Full-C (Zhu et al., 2021)</td> <td>7.88</td> <td>0.55</td> <td>6.73</td> <td>5.05</td> <td>2.24</td> <td>2.31</td> <td>0.05</td> <td>1.53</td> </tr> <tr> <td>ROME (Meng et al., 2022)</td> <td>9.16</td> <td>1.12</td> <td>8.29</td> <td>6.19</td> <td>36.96</td> <td>3.24</td> <td>18.77</td> <td>19.66</td> </tr> <tr> <td>MEMIT (Meng et al., 2023)</td> <td>0.00</td> <td>0.03</td> <td>0.00</td> <td>0.01</td> <td>0.00</td> <td>6.43</td> <td>0.00</td> <td>2.14</td> </tr> <tr> <td>KN (Dai et al., 2022)</td> <td>1.02</td> <td>0.03</td> <td>0.09</td> <td>0.38</td> <td>0.37</td> <td>0.02</td> <td>0.29</td> <td>0.23</td> </tr> <tr> <td>PMET (Li et al., 2024b)</td> <td>3.68</td> <td>1.83</td> <td>3.68</td> <td>3.06</td> <td>0.23</td> <td>0.47</td> <td>0.17</td> <td>0.29</td> </tr> <tr> <td>AlphaEdit (Fang et al., 2025)</td> <td>2.83</td> <td>0.97</td> <td>2.81</td> <td>2.20</td> <td>0.00</td> <td>4.41</td> <td>0.00</td> <td>1.47</td> </tr> <tr> <td>LoRA (Xu et al., 2024)</td> <td>0.00</td> <td>0.00</td> <td>0.00</td> <td>0.00</td> <td>0.00</td> <td>0.00</td> <td>0.00</td> <td>0.00</td> </tr> <tr> <td>EMMET (Gupta et al., 2024b)</td> <td>25.01</td> <td>2.87</td> <td>22.43</td> <td>16.77</td> <td>38.67</td> <td>5.83</td> <td>28.35</td> <td>24.28</td> </tr> <tr> <td>R-ROME (Gupta et al., 2024a)</td> <td>21.21</td> <td>1.52</td> <td>17.78</td> <td>13.50</td> <td>41.06</td> <td>5.66</td> <td>25.92</td> <td>24.21</td> </tr> <tr> <td>Ours</td> <td>84.09</td> <td>75.77</td> <td>66.20</td> <td>75.35</td> <td>71.46</td> <td>20.62</td> <td>20.96</td> <td>37.68</td> </tr> <tr> <td colspan="9">Llama3 (8B)</td> </tr> <tr> <td>Original Model</td> <td>26.27</td> <td>/</td> <td>25.98</td> <td>26.13</td> <td>0.87</td> <td>/</td> <td>0.75</td> <td>0.81</td> </tr> <tr> <td>Full-C (Zhu et al., 2021)</td> <td>7.69</td> <td>0.69</td> <td>6.66</td> <td>5.01</td> <td>5.75</td> <td>0.13</td> <td>0.47</td> <td>2.12</td> </tr> <tr> <td>ROME (Meng et al., 2022)</td> <td>3.39</td> <td>0.15</td> <td>2.80</td> <td>2.11</td> <td>25.07</td> <td>0.97</td> <td>13.23</td> <td>13.09</td> </tr> <tr> <td>MEMIT (Meng et al., 2023)</td> <td>0.00</td> <td>3.96</td> <td>0.00</td> <td>1.32</td> <td>0.00</td> <td>7.22</td> <td>0.00</td> <td>2.41</td> </tr> <tr> <td>KN (Dai et al., 2022)</td> <td>0.03</td> <td>0.01</td> <td>0.01</td> <td>0.02</td> <td>0.11</td> <td>0.02</td> <td>0.05</td> <td>0.06</td> </tr> <tr> <td>PMET (Li et al., 2024b)</td> <td>0.00</td> <td>0.00</td> <td>0.00</td> <td>0.00</td> <td>0.00</td> <td>0.00</td> <td>0.00</td> <td>0.00</td> </tr> <tr> <td>AlphaEdit (Fang et al., 2025)</td> <td>0.01</td> <td>0.003</td> <td>0.00</td> <td>0.004</td> <td>0.33</td> <td>0.07</td> <td>0.17</td> <td>0.19</td> </tr> <tr> <td>LoRA (Xu et al., 2024)</td> <td>11.45</td> <td>5.35</td> <td>11.16</td> <td>9.32</td> <td>0.77</td> <td>0.17</td> <td>1.17</td> <td>0.70</td> </tr> <tr> <td>EMMET (Gupta et al., 2024b)</td> <td>5.17</td> <td>0.43</td> <td>4.86</td> <td>3.49</td> <td>54.50</td> <td>1.28</td> <td>38.82</td> <td>31.53</td> </tr> <tr> <td>R-ROME (Gupta et al., 2024a)</td> <td>2.71</td> <td>0.35</td> <td>2.43</td> <td>1.83</td> <td>48.92</td> <td>1.47</td> <td>36.62</td> <td>29.00</td> </tr> <tr> <td>Ours</td> <td>94.03</td> <td>59.01</td> <td>67.35</td> <td>73.46</td> <td>93.53</td> <td>1.93</td> <td>7.11</td> <td>34.19</td> </tr> </tbody> </table></div> 表 2 展示了在 `GPT-J (6B)`、$Llama2 (7B)$ 和 $Llama3 (8B)$ 模型上进行连续编辑 (consecutive editing) 的性能比较。 * **整体趋势:** 相比于批处理编辑,大多数方法的性能在连续编辑场景下显著下降,许多模型的 `Efficacy`、`Locality` 和 `Generality` 甚至降至接近零。这突显了连续编辑的挑战性,因为它要求模型在多次修改后仍然保持知识一致性和稳定性。 * <strong>本文方法 (Ours) 的表现:</strong> * 在 `ZsRE` 数据集上,`Ours` 显著优于所有基线方法,尤其在 `Efficacy` 和 `Locality` 上保持了高水平 (例如 `Llama2` 上 `Efficacy` 达到 84.09%,`Locality` 达到 75.77%,`Score` 达到 75.35%)。这强有力地证明了我们的方法在面对复杂、连续的知识更新场景时的鲁棒性和有效性。 * 在 `CounterFact` 数据集上,`Ours` 依然表现出最高的 `Efficacy` (例如 `GPT-J` 上为 90.70%,`Llama3` 上为 93.53%)。然而,和批处理编辑时一样,`Locality` 和 `Generality` 仍然较低。作者在论文中解释说,这可能是由于 `CounterFact` 主要涉及插入新事实知识,而这些新知识的内部信息路径在模型中尚未完全建立,直接修改可能意外干扰已学知识。 * **基线方法:** * `EMMET` 和 `R-ROME` 在连续编辑中表现相对较好,但与 `Ours` 相比仍有差距。 * 许多其他方法,如 `MEMIT`, `KN`, `PMET`, `AlphaEdit`, `LoRA` 在连续编辑场景下几乎完全失效,指标接近零,表明它们无法有效处理多次迭代的知识更新。 **总结核心发现:** * 我们的方法在 `ZsRE` 数据集上的连续编辑性能(特别是 `Efficacy` 和 `Locality`)显著优于所有基线,证明了 `critical transmission paths` 和 `contrastive rectification` 在处理累积编辑时的优越性。 * 在 `CounterFact` 数据集上,我们的方法在 `Efficacy` 方面表现出色,但 `Locality` 和 `Generality` 依然是挑战,这指出了信息路径编辑在插入全新、未建立知识时的固有挑战。 * 连续编辑对现有 KME 方法提出了巨大挑战,大多数方法在此场景下表现不佳,凸显了本文方法的重要性。 ### 6.1.3. 编辑时间 (Editing Time) 比较 以下是原文 Figure 3 的结果: ![Figure 3: Comparison of average time per editing among all methods on two datasets.](/files/papers/694b526e769f2826079b70f1/images/3.jpg) *该图像是图表,展示了在两个数据集(ZsRE 和 CounterFact)上,各种方法的平均编辑时间(单位:秒)。图中显示了不同语言模型(如 GPT-J、Llama2 和 Llama3)下,多个编辑方法(如 FT-C、ROME、MEMIT 等)所耗费的时间。数据明确表明了不同方法在不同模型上的性能差异,突出了所提方法(标记为“我们的”)的编辑效率。* 图 3 展示了所有方法在两个数据集上的平均每次编辑时间。 * **效率对比:** * 我们的方法在所有模型上都表现出强大的效率。在 `ZsRE` 数据集上,`GPT-J`、$Llama2 (7B)$ 和 $Llama3 (8B)$ 的平均每次编辑时间分别为 2.8 秒、2.0 秒和 3.1 秒。 * `FT-C` 的编辑时间略长,在 `ZsRE` 上分别为 3.06 秒、2.91 秒和 3.63 秒。 * `MEMIT`、`AlphaEdit` 和 `PMET` 等方法相比其他基于定位的方法,编辑时间显著更长。 * `KN` 的编辑时间最长,效率最低。 * **结论:** 我们的方法在保持高性能的同时,也具有很高的编辑效率,这对于大规模 LLM 的实际应用至关重要。 ### 6.1.4. 关键传输路径分析 (Analysis of Critical Transmission Path) 以下是原文 Figure 4 的结果: ![Figure : Importance of each noden ${ \\mathcal { T } } ^ { + }$ across al Llama3 (8B) layers on ZsRE (Top) CoUNTERFACT (Bottom)](/files/papers/694b526e769f2826079b70f1/images/4.jpg) *该图像是图表,展示了在 ZsRE 和 CoUNTERFACT 数据集上,各层中节点的重要性。图的上部包含 (a) 和 (b) 小图,分别表示 $k_i^{(l)}$ 和 $v_i^{(l)}$ 节点在 ZsRE 上的重要性;下部包含 (c) 和 (d) 小图,分别表示 $k_i^{(l)}$ 和 $v_i^{(l)}$ 节点在 CoUNTERFACT 上的重要性。每个小图的横轴为节点编号,纵轴为重要性值,箱线图显示了各节点的重要性分布情况。* 图 4 展示了在 `ZsRE` (上图) 和 `CounterFact` (下图) 数据集上,$Llama3 (8B)$ 各层中关键传输路径 $\mathcal{T}^+$ 中每个节点的重要性分布。左侧面板显示了键节点 $\boldsymbol{k}_i^{(l)}$ 的重要性,右侧面板显示了值节点 $\boldsymbol{v}_j^{(l)}$ 的重要性。 * **关键洞察:** 1. **模型内部信息流的稳定性:** 同一模型在不同数据集上表现出一致的重要性分布趋势,表明模型内部信息流具有稳定性,也支持了我们方法识别 `critical transmission paths` 的鲁棒性。 2. **所有隐藏层均有贡献:** 知识编辑不是仅由特定层贡献,而是所有隐藏层都参与其中。这揭示了以往仅关注特定层的 KME 方法的局限性。有效编辑应考虑整个网络,而不是只关注中间层。 3. **不同层的影响不均:** 虽然所有层都发挥作用,但中间层(例如 $Llama3 (8B)$ 的 4-18 层)中的节点影响更强。这些层在模型更新时应给予更高的优先级。 4. **中间层节点重要性差异大:** 尽管中间层影响显著,但这些层内节点的个体重要性差异也很大。一些节点可能与不相关知识高度纠缠,不适合直接编辑,错误地修改可能导致意外的模型行为改变。这进一步突显了我们方法在识别重要节点方面的有效性。 5. **早期层和后期层的行为差异:** 早期层(1-4 层)比后期层(28-32 层)贡献更大。后期层的重要性分数相对稳定,表明这些层中的节点行为更趋于一致,对编辑的影响程度也更稳定。 ### 6.1.5. 对比纠正 (Contrastive Rectification) 的效果 通过在公式 7 中设置 $\lambda = 0$,可以观察到没有对比纠正时的编辑性能。 * **结果:** 对比纠正 (即 $\lambda > 0$) 显著提高了模型的 `Efficacy` 约 4%,同时保持了 `Generality` 和 `Locality` 的稳定性。这表明引入对比纠正机制使得模型能更有效地聚焦于相关知识,提高编辑准确性,而不会损害其泛化能力或知识局部性。 * **负例路径数量 $|\tau^-|$ 的影响:** |\tau^-|是一个超参数,代表对比优化中使用的负传输路径数量。如果 是一个超参数,代表对比优化中使用的负传输路径数量。如果 |\tau^-|设置过高,会导致EfficacyGenerality显著下降。这是因为模型可能过度强调对比损失,过多关注“不该做什么”,从而损害成功应用编辑和泛化到相关上下文的能力。实验表明,设置 设置过高,会导致 `Efficacy` 和 `Generality` 显著下降。这是因为模型可能过度强调对比损失,过多关注“不该做什么”,从而损害成功应用编辑和泛化到相关上下文的能力。实验表明,设置 |\mathcal{T}^-|=1\text{可以达到最优性能。} ### 6.1.6. \text{关键路径数量} $|\mathcal{T}^+|$ \text{的分析} \text{以下是原文} Figure 5 \text{的结果:} ![Figure 5: Analysis of $\\lvert \\mathcal { T } ^ { + } \\rvert$ for Llama3 (8B).](/files/papers/694b526e769f2826079b70f1/images/5.jpg) *\text{该图像是图表,展示了在} ZsRE \text{数据集上} $| au^+|$ \text{的分析结果。图中包括三种不同的指标:有效性(}Efficacy\text{)、局部性(}Locality\text{)和一般性(}Generality\text{),纵轴为数值百分比,横轴显示了不同的样本数量。}* \text{图} 5 (\text{左侧列}) \text{展示了改变关键路径数量}|\mathcal{T}^+| 对 $Llama3 (8B)$ 在 `ZsRE` 数据集上三个评估指标的影响。 * **趋势:** * 随着 |\mathcal{T}^+|的增加,EfficacyGenerality略有上升。这是因为更多相关信息路径被修改,模型能更好地整合新信息。然而,当 的增加,`Efficacy` 和 `Generality` 略有上升。这是因为更多相关信息路径被修改,模型能更好地整合新信息。 * 然而,当 |\mathcal{T}^+| 超过某个阈值(例如 $Llama3 (8B)$ 在 `3K ZsRE` 上为 15)时,`Locality` 急剧下降。这归因于将不相关的路径引入优化过程,它们可能作为噪声并对模型的原始知识产生负面影响。 * **特殊情况:** * |\mathcal{T}^+|=0对应于原始模型。 对应于原始模型。 * |\mathcal{T}^+|=对应于对所有FFN参数进行微调。结论:为了在性能提升和稳定性之间取得平衡,实验中将 对应于对所有 `FFN` 参数进行微调。 * **结论:** 为了在性能提升和稳定性之间取得平衡,实验中将 |\mathcal{T}^+| 设置为 15。 ### 6.1.7. 平衡参数 $\lambda$ 的分析 以下是原文 Figure 6 的结果: ![Figure 6: Analysis of $\\lambda$ for Llama2 (7B).](/files/papers/694b526e769f2826079b70f1/images/6.jpg) *该图像是一个柱状图,展示了在 COUNTERFACT 数据集上不同 `eta` 值下的效果分析,包括效能(Efficacy)、局部性(Locality)和普适性(Generality)的对比情况。图中可见,随着 `eta` 值的变化,各项指标呈现出不同的趋势。* 图 6 (右侧列) 可视化了改变平衡参数 $\lambda$ 对 $Llama2 (7B)$ 在 `CounterFact` 数据集上模型性能的影响。 * **趋势:** 随着 $\lambda$ 的增加,模型的整体性能通常会下降。这可能是由于模型过分强调对比损失,导致对期望预测的过拟合 (overfitting)。这种效应在 `Efficacy` 的评估中尤为明显。 * **局部性:** 尽管整体性能下降,但 `Locality` 指标在 $\lambda$ 较大时表现出较低的波动,这表明对比优化有助于保护不相关知识。 * **结论:** 综合考虑,将 $\lambda$ 设置为 0.1 作为最优值,以在对比损失和整体性能之间取得平衡。 ## 6.2. 数据呈现 (表格) 本章节在 `6.1.1. 批处理编辑 (Batch Editing) 性能比较` 和 `6.1.2. 连续编辑 (Consecutive Editing) 性能比较` 小节中已分别完整转录了原文的 Table 1 和 Table 2。 ## 6.3. 消融实验/参数分析 论文通过分析 |\mathcal{T}^+|\text{和} $\lambda$ \text{的影响,实际上进行了参数分析,以验证这些关键超参数的选择对模型性能的影响。} * <strong>|\mathcal{T}^+| (关键路径数量) 的分析:</strong> 揭示了选择适量关键路径的重要性。过少可能无法充分编辑,过多则可能损害局部性。这验证了精细选择路径的关键性。 * <strong>$\lambda$ (对比损失权重) 的分析:</strong> 证明了 `contrastive loss` 在提升 `Efficacy` 和维护 `Locality` 方面的作用。选择合适的 $\lambda$ 值可以在编辑效果和不相关知识保护之间找到最佳平衡。 这些分析间接起到了消融实验的作用,验证了 `critical transmission paths` 和 `contrastive loss` 这两个核心组件对最终性能的贡献。 # 7. 总结与思考 ## 7.1. 结论总结 本文首次将“关键传输路径 (critical transmission paths)”的概念引入到大型语言模型 (LLMs) 的知识编辑 (KME) 领域,解决了传统“层级局部化 (layer-based localization)”方法在知识定位上的局限性。通过创新的参数打包策略和基于扰动的路径重要性估计方法,本文能够识别出跨所有层、显著影响模型预测的关键信息流路径。在此基础上,提出了一种“参数感知对比纠正算法 (parameter-aware contrastive rectifying algorithm)”,该算法不仅关注对关键路径(正例)的修改以实现编辑目标,还通过引入对不重要路径(负例)的对比损失来最大程度地保护模型中其他无关知识。 通过在 `GPT-J (6B)`、$Llama2 (7B)$ 和 $Llama3 (8B)$ 三个主流 LLM 以及 `ZsRE` 和 `CounterFact` 两个标准 KME 数据集上的广泛实验,本文的方法在编辑性能(尤其是在更具挑战性的连续编辑 (consecutive editing) 场景下)和编辑效率方面均显著优于现有基线方法。这证明了基于 `critical transmission paths` 的知识定位和 `parameter-aware contrastive rectification` 策略的优越性,为 LLMs 的知识更新提供了一条更精确、更鲁棒的途径。 ## 7.2. 局限性与未来工作 论文作者指出了当前方法的几个局限性并展望了未来的研究方向: * **层级贡献的均匀性假设:** 当前方法假设在已识别的关键传输路径中,所有层对编辑过程的贡献是均等的。然而,图 4 的分析表明,不同层(尤其是中间层)的影响程度是不同的。 * **未来工作:** 正在研究更细粒度的、层感知的优化策略,通过自适应加权来强调那些更具影响力的层,以进一步提升性能。 * **关键传输路径的固定大小:** 目前在编辑阶段使用固定大小的 `critical transmission path`。这种静态配置可能不适用于所有类型的编辑或任务需求。 * **未来工作:** 动态调整路径中节点的数量,根据每个编辑请求的具体特性进行适应性调整,以提高模型的适应性和鲁棒性。 ## 7.3. 个人启发与批判 ### 7.3.1. 个人启发 * **对知识存储的新理解:** 论文提出的 `critical transmission paths` 概念是对 LLM 中知识存储和信息流机制的深刻洞察。它突破了传统局部化方法对“知识神经元”或“特定层”的简单假设,更贴近 LLM 知识分布式、纠缠的本质。这种跨层信息流的视角,对于理解 LLM 的内部工作原理具有重要的理论价值,并为未来的可解释性研究提供了新方向。 * **对比学习在 KME 中的应用:** `parameter-aware contrastive rectifying algorithm` 是一个非常优雅的解决方案。它不仅指导模型学习“如何做对”,还通过负例指导模型学习“如何不做错”,从而在编辑成功率和对无关知识的保护之间取得了更好的平衡。这种思想可以推广到其他需要精确局部修改且避免副作用的机器学习任务中。 * **连续编辑的价值:** 论文强调并出色地解决了 `consecutive editing` 这一更贴近实际应用场景的挑战。多数基线方法在该场景下表现惨淡,凸显了本文方法在实际 LLM 维护中的巨大潜力。在 LLM 持续进化的过程中,频繁且连续的知识更新是常态,本文的工作为构建更健壮、可长期维护的 LLM 提供了重要基础。 * **效率与性能的平衡:** 方法在保持高性能的同时,也实现了良好的编辑效率,这对于处理大规模 LLM 及其海量知识而言是至关重要的。 ### 7.3.2. 个人批判 * **`CounterFact` 上 `Locality` 和 `Generality` 的表现:** 尽管论文在 `ZsRE` 上表现卓越,但在 `CounterFact` 数据集上的 `Locality` 和 `Generality` 仍然较低,尤其是在连续编辑场景下。论文解释为“新知识的内部信息路径尚未完全建立”,但这本身就是 `CounterFact` 这种“插入新知识”任务的固有挑战。如果 `critical transmission paths` 机制难以有效处理全新知识的插入而容易干扰现有知识,这可能意味着该方法在面对模型知识结构发生根本性变化(而非修正现有结构)的场景时存在固有局限性。未来可能需要更深层次的机制来处理这种“创造性”的知识编辑,而不仅仅是“纠正性”的。 * **超参数选择的敏感性:** 论文中提到 |\mathcal{T}^+|\text{和} $\lambda$ \text{是关键超参数,并且它们的最佳值可能因模型和数据集而异。例如,}|\mathcal{T}^+|$$ 超过某个阈值就会导致 Locality 急剧下降。这表明在实际应用中,这些超参数的调优可能非常关键且耗时,需要一套鲁棒的自动选择或自适应机制。
  • 计算成本考量: 尽管参数打包策略降低了复杂度,但 perturbation-based 的路径重要性计算(梯度求和)对于每次编辑仍然需要进行前向和反向传播,这在面对非常庞大的模型和海量编辑请求时,其计算成本仍需进一步评估和优化。
  • 道德考虑的深度: 论文在 Ethical Considerations 部分提到了 KME 可能被滥用以注入偏见、有害或误导性信息。这是一个非常重要的点,但论文仅做了概念性阐述。未来工作应更深入地探讨如何设计技术层面的保障和验证流程,以确保 KME 的使用符合伦理规范,例如,如何防止恶意行为者利用 critical transmission paths 精准植入有害信息,以及如何检测和抵御此类攻击。

相似论文推荐

基于向量语义检索推荐的相关论文。

暂时没有找到相似论文。