A Neuro-Inspired Interpretation of Unlearning in Large Language Models through Sample-Level Unlearning Difficulty
TL;DR 精炼摘要
随着隐私保护法规的推动,大语言模型中的遗忘能力受到重视。本文提出了记忆移除难度(MRD)指标,以量化样本级遗忘难度,分析样本特征,并基于MRD提出加权采样方法,优化现有遗忘算法,提高遗忘效率和有效性。
摘要
Driven by privacy protection laws and regulations, unlearning in Large Language Models (LLMs) is gaining increasing attention. However, current research often neglects the interpretability of the unlearning process, particularly concerning sample-level unlearning difficulty. Existing studies typically assume a uniform unlearning difficulty across samples. This simplification risks attributing the performance of unlearning algorithms to sample selection rather than the algorithm’s design, potentially steering the development of LLM unlearning in the wrong direction. Thus, we investigate the relationship between LLM unlearning and sample characteristics, with a focus on unlearning difficulty. Drawing inspiration from neuroscience, we propose a Memory Removal Difficulty (MRD) metric to quantify sample-level unlearning difficulty. Using MRD, we analyze the characteristics of hard-to-unlearn versus easy-to-unlearn samples. Furthermore, we propose an MRD-based weighted sampling method to optimize existing unlearning algorithms, which prioritizes easily forgettable samples, thereby improving unlearning efficiency and effectiveness. We validate the proposed metric and method using public benchmarks and datasets, with results confirming its effectiveness.
思维导图
论文精读
中文精读
1. 论文基本信息
1.1. 标题
大语言模型中基于样本级遗忘难度的神经启发式遗忘解释 (A Neuro-Inspired Interpretation of Unlearning in Large Language Models through Sample-Level Unlearning Difficulty)
1.2. 作者
匿名作者 (Paper under double-blind review),未披露具体作者信息和所属机构。
1.3. 发表期刊/会议
论文处于双盲评审阶段,未正式发表于特定期刊或会议,但旨在学术会议或期刊上发表。
1.4. 发表年份
2025年 (UTC):2025-04-09T00:00:00.000Z
1.5. 摘要
在隐私保护法规的推动下,大语言模型 (Large Language Models, LLMs) 中的遗忘 (unlearning) 正受到越来越多的关注。然而,当前研究往往忽视了遗忘过程的可解释性 (interpretability),特别是在样本级遗忘难度 (sample-level unlearning difficulty) 方面。现有研究通常假设样本的遗忘难度是统一的,这种简化可能导致将遗忘算法的性能归因于样本选择,而非算法设计本身,从而可能误导 LLM 遗忘 (LLM unlearning) 的发展方向。因此,本文旨在调查 LLM 遗忘与样本特征之间的关系,重点关注遗忘难度。受神经科学的启发,本文提出了一种名为 记忆移除难度 (Memory Removal Difficulty, MRD) 的指标来量化样本级的遗忘难度。利用 MRD,本文分析了难以遗忘和易于遗忘样本的特征。此外,本文提出了一种基于 MRD 的加权采样方法来优化现有的遗忘算法,该方法优先处理易于遗忘的样本,从而提高了遗忘的效率和有效性。本文通过公共基准和数据集验证了所提出的指标和方法的有效性。
1.6. 原文链接
/files/papers/6957ab954a1fbc163064c2a7/paper.pdf
2. 整体概括
2.1. 研究背景与动机
2.1.1. 研究背景
大语言模型 (Large Language Models, LLMs) 在生成类人文本方面的卓越能力使其在各种应用中得到广泛采用。然而,这种成功在很大程度上源于它们对训练语料库的强大记忆能力 (memorization)。这种记忆能力也引发了严重关切,包括隐私泄露风险、偏见传播以及生成非法内容。特别地,如 《通用数据保护条例》 (GDPR) 等隐私法律要求服务提供商在用户请求时从训练数据中删除私人信息。这带来了一个重大挑战:如何有效地抹除特定数据样本(即遗忘集 (forget set))或更高级别数据概念对预训练 LLMs 的影响。
2.1.2. 核心问题
解决上述问题的一种实用方法是机器遗忘 (Machine Unlearning, MU)。以往对 MU 的研究主要集中在分类模型上,其中在剩余数据(即保留集 (retain set))上进行重新训练是黄金标准。然而,考虑到 LLMs 巨大的训练数据规模和庞大的参数数量,这种重新训练的遗忘方法对 LLMs 来说是不可行的。因此,开发有效且高效的 LLM MU 方法成为一个亟待解决的关键挑战。
2.1.3. 现有研究的挑战与空白
当前的 LLM 遗忘 (LLM unlearning) 研究虽然取得了一定进展,但存在以下关键挑战和空白:
- 缺乏可解释性 (Lack of Interpretability): LLM 遗忘过程的可解释性仍未得到充分探索,这阻碍了对现有 LLM 遗忘算法实际有效性的全面评估。
- 遗忘难度假设的简化 (Simplified Assumption of Unlearning Difficulty): 现有研究通常假设样本的遗忘难度是统一的。这种简化可能导致算法性能被错误地归因于样本选择,而非算法设计本身的优势。例如,如果选择的样本本身易于遗忘,那么即使算法本身没有显著优势,其性能也可能显得更好。
- 缺乏样本级难度定义和理论洞察 (Lack of Sample-Level Definition and Theoretical Insight): 现有的关于
MU可解释性的工作虽然趋向于样本级分析,但缺乏样本级遗忘难度的正式定义,也未能提供关于为何某些样本更难遗忘的理论洞察。 - 跨领域方法泛化性受限 (Limited Generalizability Across Domains): 针对图像分类等领域开发的遗忘难度测量方法,可能无法有效泛化到 LLMs,因为 LLMs 处理的是文本数据,具有自回归性质,难以建模结构化特征。
2.1.4. 本文的切入点与动机
为了解决上述挑战,本文深入研究了 LLM 遗忘问题,重点关注以下三个关键问题:
- Q1: 如何设计一个合理且计算高效的指标来衡量单个数据样本的遗忘难度?
- Q2: 基于此指标,哪些特征使某些样本更难遗忘?
- Q3: 该指标能否提高 LLM 遗忘算法的有效性和效率?
2.2. 核心贡献/主要发现
本文的主要贡献如下:
- 提出了记忆移除难度 (MRD) 指标: 受神经科学中人类长期记忆抵抗轻微脑损伤的启发,本文提出了
MRD指标来量化 LLMs 中单个样本的遗忘难度。MRD被定义为在参数扰动前后样本生成概率的期望变化,确保了合理性和计算可行性。 - 分析了影响 MRD 的样本特征: 本文深入分析了
MRD指标,揭示了使数据样本更难遗忘的特征。例如,研究发现高频率的样本或与其他样本具有强上下文关联的样本通常更难遗忘。通过理论分析和实验验证,本文为这些特性提供了清晰的解释。 - 提出了 MRD-基于的加权采样方法: 本文提出了一种基于
MRD的加权采样方法来优化现有的遗忘算法。该方法借鉴了课程学习 (curriculum learning) 的思想,将MRD作为评分函数来调整遗忘样本的采样概率,从而实现从简单到复杂的动态遗忘序列。 - 实验验证了有效性与效率: 通过在公共基准和数据集上进行比较实验,验证了所提出的指标和方法的有效性。结果表明,
MRR可以显著加速收敛并提高性能,证明了MRD作为遗忘难度有效衡量标准以及优化遗忘算法实用工具的价值。
3. 预备知识与相关工作
3.1. 基础概念
为了更好地理解本文,以下是一些必要的背景知识和概念:
3.1.1. 大语言模型 (Large Language Models, LLMs)
LLMs 是基于深度学习,特别是Transformer 架构 (Transformer architecture) 的大型神经网络模型。它们通过在海量文本数据上进行自监督预训练来学习语言的统计模式和语义信息。在本文中,LLMs 通常指的是自回归模型 (autoregressive model),即模型根据前文生成下一个词元(token),其训练目标通常是最小化负对数似然。
3.1.2. 词元 (Token)
在自然语言处理中,token 是文本的最小单位,可以是单词、子词或单个字符。LLMs 处理和生成文本都是以 token 为单位进行的。
3.1.3. 机器遗忘 (Machine Unlearning, MU)
MU 是指从一个已经训练好的机器学习模型中移除特定训练数据影响的过程,使其表现得如同这些数据从未被用于训练一样。这通常是出于隐私、合规性或纠正偏见的需求。
3.1.4. 遗忘集 (Forget Set, ) 与保留集 (Retain Set, )
- 遗忘集 (): 指需要从模型中移除其影响的特定数据样本集合。
- 保留集 (): 指在遗忘过程中需要保留其影响,并确保模型性能不受负面影响的数据样本集合。 整个训练集 。
3.1.5. 遗忘完整性 (Unlearning Completeness, UC)
UC 是衡量模型成功移除目标数据影响程度的指标。高 UC 意味着模型对遗忘集中的数据不再“记忆”或生成,或者其生成概率显著降低。
3.1.6. 模型效用 (Model Utility, UT)
UT 是衡量遗忘操作对模型在非目标任务或保留集上的性能影响的指标。高 UT 意味着模型在遗忘特定数据后,其在其他通用任务或与遗忘集无关的任务上的表现仍然良好,没有显著退化。遗忘任务的目标通常是在高 UC 的同时保持高 UT。
3.1.7. 梯度上升 (Gradient Ascent)
梯度上升 (Gradient Ascent) 是一种优化算法,用于寻找函数的局部最大值。与梯度下降 (Gradient Descent) 目的相反,梯度上升通过沿着函数梯度方向迭代调整参数来增加函数值。在遗忘任务中,如果目标是降低模型对遗忘集样本的生成概率,那么可以通过对负对数似然进行梯度上升来实现,从而“鼓励”模型遗忘这些样本。
3.1.8. Hessian 矩阵 (Hessian Matrix)
Hessian 矩阵 (Hessian Matrix) 是一个多变量函数二阶偏导数组成的方阵。它描述了函数在某一点的局部曲率。
对于一个函数 ,其 Hessian 矩阵 定义为:
Hessian 矩阵的迹 (Trace of Hessian) () 是其对角元素的和,可以粗略反映函数的整体曲率。在本文中,高曲率被解释为生成概率对参数扰动更敏感,从而样本更易于遗忘。
3.1.9. 神经科学启发 (Neuroscience Inspiration)
本文借鉴了神经科学中关于记忆研究的发现,即人类的长期记忆 (long-term memories) 通常对轻微的创伤性脑损伤 (Traumatic Brain Injuries, TBI) 具有抵抗力,不易遗忘,而短期记忆 (short-term memories) 则更容易受到影响。这启发作者将 LLMs 中难以遗忘的样本类比为长期记忆,易于遗忘的样本类比为短期记忆,并通过参数扰动(模拟轻微脑损伤)来衡量这种抵抗力。
3.2. 前人工作
3.2.1. 机器遗忘 (Machine Unlearning, MU)
MU 方法大致可分为精确遗忘 (exact unlearning) 和近似遗忘 (approximate unlearning)。
- 精确遗忘 (Exact Unlearning): 旨在实现目标数据的完全擦除,以在剩余数据上重新训练的模型为黄金标准。这些方法通常通过将模型或数据集分解为多个子组件并构建集成系统来实现,从而在遗忘过程中将重新训练的计算开销分散到这些子组件上 (Bourtoule et al., 2021; Li et al., 2024b)。
- 近似遗忘 (Approximate Unlearning): 旨在获得一个在模型参数或输出方面与重新训练模型近似等效的模型。这些方法通常通过估计目标数据的影响 (Koh & Liang, 2017) 或通过微调定义的目标函数 (objective function) 来实现。
3.2.2. LLM 遗忘 (LLM Unlearning)
LLM 遗忘通常被视为近似遗忘,旨在实现高遗忘完整性 (unlearning completeness) 和高模型效用 (model utility)。
- 梯度类方法 (Gradient-based Methods): Jang et al. (2023) 首次提出了对遗忘集进行梯度上升 (gradient ascent) 的方法,显著提高了遗忘完整性,但牺牲了模型效用。随后的研究 (Maini et al., 2024; Yao et al., 2024) 通过引入正则化 (regularization)(如参数和损失正则化)来缓解这一问题,但仍在完整性和效用之间面临挑战。
- 偏好优化类方法 (Preference Optimization-based Methods): Zhang et al. (2024) 将遗忘数据视为负例 (negative examples),通过偏好对齐 (preference alignment) 将遗忘过程形式化为带有预定义正面响应(如拒绝或反事实样本)的偏好优化任务。尽管这种方法取得了一定成功,但其遗忘效率较低。
- 模型权重类方法 (Model Weight-based Methods): Jia et al. (2024) 通过模型权重重新审视了问题,利用
LLMs的模块化结构来识别和指导模块级别的遗忘。这种方法提供了有价值的见解,但计算效率仍然很低。
3.2.3. 遗忘可解释性 (Interpretability of MU)
最近的研究也开始探索 MU 的可解释性。
-
Fan et al. (2024) 分析了在图像分类任务中,遗忘集的不同划分如何影响模型在保留集上的性能。
-
Zhao et al. (2024) 调查了遗忘集中可解释特征的存在及其对遗忘难度的影响。
-
Chen et al. (2024) 提供了更细粒度的视角,表明在推荐系统中,遗忘难度在用户之间差异显著,这可能对遗忘算法的评估产生影响。
这些研究共同表明了
MU可解释性领域向样本级分析的趋势。然而,它们缺乏样本级遗忘难度的正式定义,也未能提供关于为何某些样本更难遗忘的理论洞察。此外,为图像分类设计的方法可能难以泛化到 LLMs。
3.2.4. 现有训练难度指标 (Existing Training Difficulty Metrics)
在深度学习中,已经提出了许多指标来衡量样本的学习难度 (learning difficulty),其中最广泛使用的包括:
-
基于梯度的方法 (Gradient-based Metrics): 例如
GraNd(Paul et al., 2023) 和VoG(Agarwal et al., 2022b),它们衡量梯度的大小或方差来指示样本的学习难度。 -
基于准确率或概率的方法 (Accuracy-based or Probability-based Metrics): 例如
EN2L(Paul et al., 2023)。然而,这些指标主要设计用于训练过程中,可能不适用于遗忘场景。本文通过实验(Figure 3)证明,这些训练难度指标与遗忘难度之间并非简单单调关系,在遗忘场景下的适用性有限。
3.3. 技术演进
LLM 遗忘的技术演进可以概括为:
- 早期机器遗忘 (Early Machine Unlearning): 从理论研究和分类模型中的精确遗忘、近似遗忘开始,主要关注如何从模型中移除数据影响。
- LLM 遗忘的兴起 (Emergence of LLM Unlearning): 随着
LLMs的发展及其隐私风险的凸显,研究开始专注于LLM遗忘,并提出了梯度上升、偏好优化、模型权重修改等多种近似遗忘方法。 - 遗忘可解释性的关注 (Focus on Unlearning Interpretability): 随着遗忘方法的多样化,评估和理解这些方法变得重要。研究开始转向遗忘过程的可解释性,特别是不同样本或用户对遗忘难度的影响。
- 样本级遗忘难度的量化 (Quantification of Sample-Level Unlearning Difficulty): 本文正是在这一趋势下,针对
LLMs缺乏样本级遗忘难度正式定义和理论洞察的空白,提出了MRD指标,试图从神经科学获得启发,并将其应用于优化LLM遗忘算法。
3.4. 差异化分析
本文的方法与相关工作的主要区别和创新点在于:
- 正式定义与量化样本级遗忘难度: 之前的可解释性研究虽然触及样本级分析,但缺乏对遗忘难度的正式定义和量化指标。本文首次提出了
MRD,为LLM中样本的遗忘难度提供了量化标准。 - 神经科学启发提供理论洞察:
MRD的设计灵感来源于神经科学中关于记忆的韧性研究,这为理解LLM遗忘难度提供了独特的理论视角,区别于纯粹基于机器学习原理的指标。 - 针对 LLM 的文本特性定制:
MRD考虑了LLMs的自回归性质和文本生成概率,使其比针对图像分类设计的指标更适用于LLM遗忘任务。 - 通过难度指标优化遗忘算法: 本文不仅仅是提出了一个难度指标,更将其应用于实际算法优化中,通过
MRD-based weighted sampling方法,将课程学习的思想引入遗忘过程,提高了现有算法的效率和有效性。这是将可解释性直接转化为实用改进的重要一步。
4. 方法论
4.1. 方法原理
4.1.1. LLM 遗忘问题设置
自回归模型训练 (Autoregressive Model Training) 给定一个训练集 ,其中 是遗忘集,包含 个样本; 是保留集,包含 个样本。每个样本 对应一个长度为 的序列。在 上自回归训练的模型参数 满足以下最小化负对数似然 (Negative Log-Likelihood, NLL) 的目标: 其中 是在给定前缀 和模型参数 的情况下生成词元 的概率。
LLM 遗忘的目标 (Objective of LLM Unlearning) 为了遗忘样本 ,目标通常被形式化为以下优化问题: 其中:
- 量化了遗忘完整性 (unlearning completeness),例如确保模型生成 的概率低于 或模型在 上的输出分布与真实分布之间的散度超过 。
- 是一组评估其他模型能力(即模型效用 (model utility))的函数。
- 评估保留能力,例如最小化模型在 上的输出分布与真实分布之间的散度。
- 是一个阈值。 简而言之,目标是在满足遗忘约束的同时,最小化对模型其他能力的损害。
4.1.2. 动机:样本选择对遗忘评估的影响
大多数研究 (Maini et al., 2024; Li et al., 2024a; Liu et al., 2024c) 通过随机数据遗忘来评估遗忘算法,这会测量更新模型的遗忘完整性 (unlearning completeness) 和模型效用 (model utility)。然而,随机样本选择可能导致 LLM 遗忘方法的性能存在显著差异,从而损害比较的公平性。
为了验证这一点,作者通过系统实验分析了两种主流 LLM 遗忘方法 (GradDiff 和 NPO) 在基准数据集上的表现。结果 (Figure 2) 表明:
-
对于相同的遗忘算法,模型在遗忘不同样本后的平均性能差异显著,表明选择不同的遗忘样本会导致遗忘效果的巨大方差。
-
在遗忘大多数样本时,
NPO的模型性能显著优于GradDiff。然而,对于某些特定样本,GradDiff反而优于NPO,这表明遗忘算法的有效性排名可能因遗忘样本的选择而逆转。这强调了开发一个能够量化样本遗忘难度的指标的重要性,以避免样本选择偏差导致的评估失真。
4.1.3. 现有训练难度指标的局限性
在深度学习中,有许多指标被提出用于衡量样本的学习难度,例如 GraNd、VoG 和 EN2L。然而,这些指标主要设计用于训练过程,可能不适用于遗忘场景。作者通过实验 (Figure 3) 发现,这些指标对训练样本难度的评估,与遗忘难度并非完全一致。它们的数值与遗忘难度之间没有清晰的单调关系,甚至在难度相似的样本中,不同指标的排名也可能差异显著。这促使本文需要设计一个专门针对遗忘场景的难度指标。
4.2. 核心方法详解
4.2.1. 遗忘难度的定义:记忆移除难度 (Memory Removal Difficulty, MRD)
为了量化样本的遗忘难度,一个自然的方法是测量模型参数在遗忘前后的变化:,其中 表示遗忘后的参数。然而,在实际中, 通常是未知的,直接计算不可行。基于双层优化 (bi-level optimization) 的近似方法 (Sekhari et al., 2021; Thudi et al., 2022) 通常需要二阶信息(如 Hessian 矩阵求逆),这对于 LLMs 来说计算成本过高。因此,需要一个替代指标来有效估计遗忘难度,同时最小化计算开销。
神经科学启发 本文受到神经科学研究的启发 (Kim & Fanselow, 1992; Squire & Alvarez, 1995; Frankland & Bontempi, 2005; Konrad et al., 2011),人类记忆研究表明,长期记忆(例如个人经历或核心技能)通常对轻微的创伤性脑损伤 (mTBI) 具有抵抗力,不易遗忘,而短期记忆则更容易受到干扰。这表明大脑在遗忘(即去学习 (unlearning))不同类型知识时,表现出不同的难度水平。
基于这种类比,本文将其推广到 LLMs 中评估特定样本的遗忘难度。与人类记忆类似,假设具有高遗忘难度(类似于长期记忆)的样本在轻微参数扰动(类似于 mTBI)下,其生成概率分布变化最小。相反,更容易遗忘的样本将显示出更显著的变化。
MRD 的初步定义及局限性
本文提出一个初步的 MRD 指标来量化遗忘难度:
其中 是第 个词元的对数生成概率, 代表应用于模型参数的微小随机扰动。
然而,这个初步指标存在两个主要局限性:
- 扰动范围有限 (Limited Perturbation Scope): 使用单一扰动方向可能无法捕捉参数变化对生成概率的更广泛影响。
- 绝对指标偏差 (Absolute Metric Bias): 概率的绝对变化可能不公平地惩罚本身生成概率较低的样本。
MRD 的改进定义 为解决这些局限性,本文提出了改进,包括样本长度归一化、全局扰动机制和相对度量。改进后的遗忘难度指标正式定义为定义 3.1 (Definition 3.1):
定义 3.1. 对于参数为 的 LLM,样本 的遗忘难度定义为: 其中:
-
是一个长度为 的样本。
-
表示在给定前缀 和模型参数 的情况下,生成第 个词元 的对数概率。
-
是一个均值为 0、方差为 的高斯扰动向量,模拟轻微的“脑损伤”。
-
表示对扰动 取期望。
-
竖线 表示取绝对值。
指标解释: 较小的
MRD值表示在参数扰动下生成概率波动较小,意味着遗忘难度较高(类似长期记忆)。相反,较大的MRD值表示生成概率变化显著,意味着遗忘难度较低(类似短期记忆)。本文使用高斯各向同性噪声 (Gaussian isotropic noise) 来模拟轻微脑损伤,这是出于实现复杂性的考虑,因为难以确定哪些参数应被扰动以及扰动范围。
4.2.2. MRD 的近似与可解释性
定理 3.2. MRD 的近似 (Approximation of MRD). 假设 和 均非零,且 是一个足够小的扰动 ( 足够小),则 MRD 可以近似表示为:
其中 H_t = \nabla^2 P_t(\pmb{\theta}) 表示 对参数 的 Hessian 矩阵。
证明 (Proof) 证明可以在附录 A (Appendix A) 中找到,其步骤如下:
- 对 进行二阶泰勒展开:
其中 是 关于 的梯度,而
H_t = \nabla^2 P_t(\pmb{\theta})是 关于 的 Hessian 矩阵。 - 计算相对变化 :
- 将此表达式代入
MRD公式并对 取期望。由于 ,一阶项的期望为零。 - 对于二阶项,利用多元正态分布的性质 :
- 由于一阶项的期望为零,并且 通常是负的对数概率,最终
MRD的近似表达式为: \mathrm { M R D } ( x ^ { i } ; \theta ) \approx \frac { \sigma ^ { 2 } } { 2 } \sum _ { t = 1 } ^ { n _ { i } } \frac { \mathrm { T r } ( H _ { t } ) } { P _ _ { t } ( \theta ) } .
MRD 的可解释性 (Interpretation of MRD)
根据定理 3.2,MRD 与 Hessian 矩阵的迹 成正比。当 Hessian 矩阵的迹较大时,表明损失函数(即生成概率)的整体曲率较大,这表示损失地形在该位置更陡峭。这意味着导致样本遗忘、使其生成概率降至遗忘阈值以下的参数变化较小,从而需要的更新次数较少。因此,MRD 作为一个合理的指标,其值越大表示样本越容易遗忘,越小表示越难遗忘。
4.2.3. MRD 的计算复杂度 (Computational Complexity of MRD)
在实际实现中,MRD 通过蒙特卡洛采样 (Monte Carlo sampling) 来近似期望。算法 1 (Algorithm 1) 描述了其计算过程。对于一个长度为 的样本 和 个蒙特卡洛样本,MRD 的计算复杂度为 ,其中 是模型参数的数量。这表明 MRD 的计算复杂度与模型参数数量 成线性关系,保证了计算效率。
算法 1 MRD 的计算实现 (Computation implementation of MRD)
1: 输入: 样本序列 ;模型参数 ;扰动方差 ;蒙特卡洛样本数 。
2: 输出: 样本 的 MRD 值。
3: 初始化: 。
4: for to do
5: 采样扰动向量 。
6: 。
7: for to do
8:
9:
10:
11:
12: end for
13:
14:
15: end for
16: 返回:
4.2.4. 影响 MRD 的样本特征 (Characteristics Influencing MRD)
根据定理 3.2,MRD 与局部几何曲率 () 成正比,与归一化因子 () 成反比。基于此,本文进行了以下分析:
- 平滑输出分布的样本 (Smooth output distributions): 例如语法简单、结构清晰的样本(如“The cat is sleeping.”),其局部几何曲率相对较小(即 较小)。因此,它们的
MRD值较低,表明对遗忘的抵抗力更强(更难遗忘)。 - 高频率或高初始生成概率的样本 (High frequency or high initial generation probability): 如果样本的生成概率 () 很高,其对应的
MRD将较小,表明对遗忘的抵抗力更强。直观上,高概率样本(如“I love reading books.”)通常更容易被模型记住,因为它们在训练集中频繁出现或与其他样本共享上下文相似性。 - 陡峭分布的样本 (Steeper distributions): 例如长尾分布中的低频率样本,或具有嵌套语法和复杂修饰的样本(如“The intricacies of quantum mechanics perplex many scientists.”),它们在参数空间中表现出更陡峭的分布和更急剧的参数变化。这些样本通常具有更高的
MRD值,使得它们更容易受到扰动和遗忘。 - 复杂语法或罕见词汇的样本 (Complex syntax or rare vocabulary): 例如“The sesquipedalian lecturer pontificated endlessly.”,这些样本在参数扰动下生成概率会发生更大变化,使其更容易遗忘。
4.2.5. MRD-基于的加权采样方法 (MRD-based Weighted Sampling Method)
基于 MRD,本文提出了一种加权采样方法来优化现有的 LLM 遗忘算法,以提高有效性和效率。这种方法借鉴了课程学习 (curriculum learning) 的思想,将 MRD 作为评分函数来调整遗忘样本的采样概率,从而实现从简单到复杂(即从易于遗忘到难以遗忘)的动态遗忘序列。
算法 2. 课程梯度上升遗忘 (Curriculum Gradient Ascent Unlearning) 1: \text{输入}: \text{模型参数} $\pmb{\theta} \in \mathbb{R}^d$\text{;遗忘集} $\mathcal{D}_F = \{\mathbf{x}^1, \dots, \mathbf{x}^n\}$\text{;难度指标} $\mathrm{MRD}(\pmb{x}; \pmb{\theta})$\text{;更新间隔} $m$\text{。} 2: \text{输出}: \text{更新后的模型参数} $\pmb{\theta}$\text{。} 3: \text{初始化}: \text{计算每个样本} $\pmb{x}^i, i=1, \ldots, n$ \text{的} $\mathrm{MRD}(\mathbf{x}^i; \pmb{\theta})$\text{。} 4: repeat 5: for $t = 1$ to $T$ do 6: \text{从} $\mathcal{D}_F$ \text{中以概率采样样本:} 7: $p_i \gets \frac{\mathrm{MRD}_i}{\sum_{j=1}^n \mathrm{MRD}_j}.$ 8: \text{通过梯度上升更新} $\pmb{\theta}$\text{。} 9: if $t \bmod m = 0$ then 10: \text{更新每个样本的} $\mathrm{MRD}(\pmb{x}^i; \pmb{\theta})$\text{。} 11: end if 12: end for 13: until \text{收敛或达到最大迭代次数} $T$ 14: \text{返回}: $\pmb{\theta}$
效率分析 (Efficiency Analysis)
- 备注 3.3 (Remark 3.3): 对于一个遗忘算法 ,遗忘效率定义为 ,其中 是达到遗忘目标所需的更新次数, 是每次更新的计算成本。
- 备注 3.4 (Remark 3.4): 当每次迭代的更新幅度固定时,遗忘样本 所需的平均更新次数 。这意味着
MRD值越高(越容易遗忘),所需的更新次数越少。
SGA 与 CGA 的计算复杂度分析 (Computational Complexity Analysis of SGA and CGA) (详细分析见附录 B (Appendix B))
- 随机梯度上升 (Stochastic Gradient Ascent, SGA):
- 在每次迭代中随机采样一个样本。
- 总更新次数
M(\mathcal{U}_{\mathrm{SGA}}) = N_f \sum_{i=1}^{N_f} I(\pmb{x}^i),其中 是遗忘样本 所需的平均更新次数。 - 每次更新的计算成本为 。
- 效率
E(\mathcal{U}_{\mathrm{SGA}}) = 1 / (N_f \sum_{i=1}^{N_f} I(\pmb{x}^i) \cdot \mathcal{O}(d))。
- 课程梯度上升 (Curriculum Gradient Ascent, CGA):
-
计算所有样本的
MRD值。 -
根据
MRD值选择样本,优先处理遗忘难度较低(MRD值较高)的样本。采样概率p_i = I(\pmb{x}^i) / \sum_{j=1}^{N_f} I(\pmb{x}^j)。 -
总更新次数
M(\mathcal{U}_{\mathrm{CGA}}) = \sum_{j=1}^{N_f} I(\pmb{x}^j)。 -
CGA的计算复杂度包括MRD计算的 和参数更新的 。由于MRD每 个 epoch 重新计算一次。 -
效率
E(\mathcal{U}_{\mathrm{CGA}}) = 1 / (\sum_{j=1}^{N_f} I(\pmb{x}^j) \cdot \mathcal{O}(d))。CGA方法的遗忘效率显著高于SGA算法,。这种优势在遗忘集较大时更为明显。因此,在相同的计算成本(例如,固定更新次数)下,CGA表现出卓越的遗忘性能,能够更好地平衡模型的遗忘完整性与目标阈值,同时保留其他能力。
-
5. 实验设置
5.1. 数据集
为了验证 MRD 指标和 MRD 增强方法的有效性,本文在四个主流的 LLM 遗忘任务和数据集上进行了评估:
-
TOFU (Maini et al., 2024):
- 任务: 虚拟作者信息遗忘。
- 数据特点: 基准测试通过 200 位虚构作者的信息(每位作者有 20 个问答对)来微调
LLM。一部分作者构成遗忘集,其余构成保留集。 - 遗忘集比例: 选择了 10% 的作者信息作为遗忘集。
- 模型:
LLaMA2-7B-chat(Touvron et al., 2023)。
-
WMDP (Li et al., 2024a):
- 任务: 遗忘有害能力。
- 数据特点: 评估
LLM在生物安全、网络安全和化学安全等领域遗忘有害知识的能力。遗忘集包含生物和网络安全知识的纯文本,保留集为不相关文本。 - 模型:
Zephyr-7B-beta(Tunstall et al., 2023)。
-
WHP (Who's Harry Potter) (Eldan & Russinovich, 2023):
- 任务: 版权信息移除。
- 数据特点: 测试
LLM从其训练数据中删除与《哈利·波特》系列相关内容的能力。遗忘集包含从《哈利·波特》系列中提取的 200 个数据块,每个包含 512 个词元。 - 模型: 对
LLaMA2-7B(Touvron et al., 2023) 使用LoRA微调 (fine-tuning) 了完整的《哈利·波特》系列。 - 保留集:
C4数据集 (Raffel et al., 2020)。
-
SAFE (PKU SafeRLHF) (Ji et al., 2024b):
- 任务: 遗忘模型毒性响应。
- 数据特点: 评估
LLM在暴露于不当提示时,在SafeRLHF微调过程中遗忘有害输出的性能。遗忘集包含从PKU-SafeRLHF训练集中随机采样的 200 个负面示例。 - 模型:
LLaMA2-7B。 - 保留集:
C4数据集 (Raffel et al., 2020)。
5.1.1. 数据集中的具体样本示例
原文在附录 F.3 的 Table 11 中提供了基于不同特征分类的样本示例,这些样本用于分析影响 MRD 的特征。以下是部分示例:
| 属性 (Attribute) | 级别 (Level) | 分类样本示例 (Example From categorized set) | MRD |
|---|---|---|---|
| 语义复杂性 (Semantic Complexity) | 低 (Low) | Q: What career did Li Mei Yu's mother have? A: Her mother was a nurse. (李美玉的妈妈从事什么职业?她妈妈是护士。) |
0.3085 |
| 高 (High) | Q: How have Leila Al-Sabah's books contributed to LGBTQ+ representation in literary fiction? A: Through her richly drawn characters and storylines, Leila Al-Sabah has helped to normalize LGBTQ+ experiences in literary fiction. Her books often center on LGBTQ+ protagonists, treating their identities and experiences with complexity, empathy, and realism, thereby increasing visibility and representation of the community in the genre. (莱拉·阿勒萨巴赫的书如何促进了文学小说中 LGBTQ+ 群体的代表性?通过她丰富的人物塑造和故事情节,莱拉·阿勒萨巴赫帮助文学小说中的 LGBTQ+ 体验正常化。她的书籍经常以 LGBTQ+ 主角为中心,以复杂、同情和现实主义的态度对待他们的身份和经历,从而增加了该群体在该类型文学中的可见性和代表性。) |
1.0026 |
|
| 出现频率 (Occurrence Frequency) | 低 (Low) | Q: Is Zo Hassani Raharizafy involved in any form of philanthropy? A: Yes, he established the Raharizafy Literary Foundation, which works to improve literacy rates in Madagascar, his home country. (佐·哈桑尼·拉哈里扎菲是否参与任何形式的慈善事业?是的,他建立了拉哈里扎菲文学基金会,致力于提高他家乡马达加斯加的识字率。) |
0.6374 |
| 高 (High) | Q: Where was Samir Khoury born? A: Samir Khoury was born in Amman, Jordan. (萨米尔·库里出生在哪里?萨米尔·库里出生在约旦安曼。) |
0.2529 |
|
| 初始生成概率 (Initial Generation Probability) | 低 (Low) | Q: What did her parents think of her decision to become a writer? A: Evangeline's parents were initially skeptical about her decision. However, after reading her first novel and witnessing her dedication to the craft, they stood by her decision and have been her constant pillars of support. (她的父母对她成为作家的决定有何看法?埃文杰琳的父母最初对她的决定持怀疑态度。然而,在阅读了她的第一部小说并见证了她对这门手艺的奉献后,他们支持了她的决定,并一直是她的坚实支柱。) |
0.3481 |
| 高 (High) | Q: What genre does Xin Lee Williams often write in, based on their most famous work, "The Town That Drowned"? A: Xin Lee Williams is recognized for their contributions to Canadian literature, as seen from their trademark work, "The Town That Drowned." (根据他们最著名的作品《被淹没的城镇》,辛·李·威廉姆斯通常写作什么类型?辛·李·威廉姆斯因其对加拿大文学的贡献而闻名,从其标志性作品《被淹没的城镇》中可见一斑。) |
0.7689 |
|
| 罕见词汇的存在 (Presence of Rare Words) | 低 (Low) | Q: What gender does the author Ji-Yeon Park identify as? A: The author Ji-Yeon Park identifies as female. (作者朴智妍的性别认同是什么?作者朴智妍的性别认同是女性。) |
0.3929 |
| 高 (High) | Q: When did Samin Nosrat receive the "Prix Goncourt de Littérature Historique" and for which book? A: Samin Nosrat received the "Prix Goncourt de Littérature Historique" for her vibrant piece "The Seed," which she received in 2011. (萨明·诺斯拉特何时因哪本书获得“龚古尔历史文学奖”?萨明·诺斯拉特于 2011 年因其生动作品《种子》获得“龚古尔历史文学奖”。) |
0.7188 |
这些数据集的选择旨在覆盖多种遗忘任务(信息、有害能力、版权、毒性)和不同 LLM 模型,以全面验证 MRD 的泛化性和有效性。
5.2. 评估指标
评估已遗忘 LLM 的性能主要通过两个维度:遗忘完整性 (Unlearning Completeness, UC) 和模型效用 (Model Utility, UT)。UC 量化了模型遗忘目标数据的能力,而 UT 评估了遗忘对不相关任务的影响。
5.2.1. 遗忘完整性 (Unlearning Completeness, UC)
UC 衡量模型成功移除目标数据影响的程度。
-
对于 TOFU 任务:
- 遗忘准确率 (Unlearning Accuracy, UA): 定义为 ,其中
FA(Forget Accuracy) 衡量模型在遗忘集上的准确率。UA越高表示遗忘完整性越好。- 概念定义:
UA量化了模型对遗忘集中信息的“不准确”程度,即模型在被要求回答与遗忘信息相关的问题时给出错误或拒绝回答的倾向。 - 数学公式:
- 符号解释:
- : 遗忘准确率,指模型在遗忘集上的准确率。
- 概念定义:
- 成员推断攻击 (Membership Inference Attack, MIA): 使用
Min-k% Prob(Shi et al., 2023) 方法通过ROC曲线下面积 (AUC) 来检测样本是否属于训练集。MIA分数越高,表示模型对遗忘的信心越强。- 概念定义:
MIA评估攻击者能否通过观察模型输出来判断某个样本是否在训练集中。在遗忘场景下,一个成功的遗忘应该使得遗忘集样本的MIA分数降低,即模型表现得像从未见过这些样本一样。这里MIA分数越高,意味着攻击者越难以判断该样本是训练集成员,从而说明遗忘效果越好。 - 数学公式:
MIA通常通过计算ROC曲线下面积 (AUC) 来量化,没有单一的通用公式,而是依赖于特定的MIA攻击方法。 - 符号解释:
AUC: Area Under the Receiver Operating Characteristic Curve,衡量分类器性能。Min-k% Prob: 一种特定的MIA攻击方法。
- 概念定义:
- Rouge-L 召回率 (Rouge-L Recall, RR): 定义为 。
Rouge-L衡量模型生成文本与参考文本之间的最长公共子序列相似度。这里Rouge-L在遗忘集上进行测量,RR越高表示性能越好。- 概念定义:
Rouge-L用于衡量生成文本的质量,特别是在摘要或文本生成任务中。在遗忘语境下,如果模型成功遗忘了某个样本,那么它在生成该样本时与原始样本的相似度(即Rouge-L)应该显著降低。因此,用 来表示遗忘完整性,值越高越好。 - 数学公式:
ROUGE-L的计算基于最长公共子序列(Longest Common Subsequence, LCS)。 是序列 和 的最长公共子序列的长度。 本文中 。 - 符号解释:
- : 原始的遗忘集文本。
- : 模型生成的文本。
- : 最长公共子序列的长度。
- 概念定义:
- 概念重学分数 (Concept Relearning Score, Relearn): 定义为 (Lo et al., 2024)。
Saliency Score衡量遗忘概念在模型重新训练后重新出现的强度。Relearn值越高表示遗忘完整性越好,且重新学习的倾向越低。- 概念定义:
Relearn旨在评估模型在遗忘后,遗忘的概念是否容易被再次学习或重新出现。高分意味着模型不易重新“回忆”起被遗忘的信息。 - 数学公式:
- 符号解释:
- : 衡量遗忘概念在模型重新训练后重新出现的强度。
- 概念定义:
- 遗忘准确率 (Unlearning Accuracy, UA): 定义为 ,其中
-
对于 WMDP 任务:
UC使用 在WMDP-Bio和WMDP-Cyber子集上进行评估。
-
对于 WHP 任务:
UC使用Rouge-L在基于《哈利·波特》的指令完成 300 个词元的文本上进行确定。
-
对于 SAFE 任务:
UC使用Toxic-BERT(Hanu & Unitary team, 2020) 分数在SAFE测试集中的有毒提示上进行评估。
早停条件中的辅助指标
根据 Jang et al. (2023) 的定义,当一个样本对应的提取似然 (Extraction Likelihood, EL) 值和记忆准确率 (Memorization Accuracy, MA) 值下降到低于所有样本在初始模型上的平均 EL 和 MA 值时,该样本被认为成功遗忘。
-
提取似然 (Extraction Likelihood, EL):
- 概念定义:
EL估计了通过生成式攻击从模型中提取 N-gram 序列的平均成功率。高EL意味着模型容易泄露相关信息。在遗忘任务中,我们希望EL降低。 - 数学公式:
- 符号解释:
- : 词元序列。
- : 语言模型。
- : 模型参数。
- : N-gram 的长度。
- : 给定词元序列中的 N-gram 列表。
- : 语言模型 在给定前缀 时的输出词元序列,最大长度为 ,但在生成
EOS(end-of-sequence) 词元时可能会更短。 - : 指示函数,如果条件为真则为 1,否则为 0。
- : 衡量序列 和 之间 N-gram 重叠的比例。
- 概念定义:
-
记忆准确率 (Memorization Accuracy, MA):
- 概念定义:
MA量化了模型对给定词元序列的记忆程度,即模型能够准确预测序列中下一个词元的比例。 - 数学公式:
- 符号解释:
- : 词元序列。
- : 语言模型。
- : 模型参数。
- : 模型在给定前缀 时预测的下一个词元。
- : 序列中的真实下一个词元。
- : 指示函数。
- 概念定义:
5.2.2. 模型效用 (Model Utility, UT)
UT 衡量遗忘操作对模型在不相关任务上性能的影响。
-
对于 TOFU 任务:
- 保留集准确率 (Retain Set Acc.) 和
Rouge-L召回率 (RR)。 - 真实作者准确率 (Real Author Acc.)。
- 世界事实准确率 (World Fact Acc.)。
- 保留集准确率 (Retain Set Acc.) 和
-
对于 WMDP 任务:
- 通过
MMLU(Massive Multitask Language Understanding) 数据集 (Hendrycks et al., 2020) 上的零样本准确率 (zero-shot accuracy) 衡量,包括人文科学 (Humanities)、科学 (Sciences)、工程 (Stem) 和其他 (Other) 类别。
- 通过
-
对于 WHP 和 SAFE 任务:
- 困惑度 (Perplexity, PPL): 在
Wikitext(Merity et al., 2016) 数据集上评估。PPL越低表示模型生成文本的流畅性和自然度越好。- 概念定义:
PPL衡量语言模型预测样本的准确性或不确定性。它本质上是模型在测试集上预测每个词元的平均分支因子。较低的PPL值表示模型对测试数据有更好的理解,即模型在该数据上的表现更好。 - 数学公式: 或者,对于对数概率:
- 符号解释:
- : 一个词元序列。
- : 序列中的词元数量。
- : 语言模型对整个序列的概率。
- : 语言模型在给定前文的情况下预测词元 的概率。
- 概念定义:
- 零样本准确率 (Zero-shot Acc.): 通过
Language Model Evaluation Harness(Gao et al., 2021) 在多个任务上进行平均评估,包括BoolQ(Clark et al., 2019),RTE(Dagan et al., 2005),HellaSwag(Zellers et al., 2019),Winogrande(Sakaguchi et al., 2021),ARC-Challenge(Chollet, 2019),ARC-Easy(Chollet, 2019),OpenBookQA(Mihaylov et al., 2018), 和Piqa(Bisk et al., 2020)。 - TruthfulQA (TruthfulQA): 评估模型在问答任务中生成真实且信息丰富答案的能力。
- 困惑度 (Perplexity, PPL): 在
文本完成指令 (Text completion instructions)
对于 WHP 任务,作者设计了两部分文本完成指令集:一部分在遗忘过程中对模型可见(Seen),另一部分用于测试模型在未见文本上的完成性能(Unseen)。具体指令见附录 E.2 的 Table 2。
5.3. 对比基线
本文评估了 MRD 指标在主流遗忘基线上的效果,包括:
- 基于梯度的方法 (Gradient-based Methods):
GA(Gradient Ascent) (Jang et al., 2023)GradDiff(Yao et al., 2024)
- 偏好优化方法 (Preference Optimization Methods):
-
PO(Preference Optimization) (Maini et al., 2024) -
NPO(Negative Preference Optimization) (Zhang et al., 2024)对于每个基线,本文提出了
MRD-加权采样策略来优化遗忘序列,从而得到MRD-增强方法。比较分析在原始基线和MRD-增强方法之间进行,结果取自五次独立实验的平均值。
-
5.4. 训练设置
- 优化器:
AdamW(Loshchilov, 2017)。 - 学习率:
5e-5。 - 扰动强度 ():
1e-5。 - 蒙特卡洛采样迭代次数 (): 200。
- 训练轮次 (Epochs):
TOFU任务:PO和GradDiff运行 5 个 epoch,NPO运行 4 个 epoch。WMDP任务:NPO和GradDiff的最大训练步数设置为 500。WHP和SAFE任务: 运行 5 个 epoch。
- 硬件: 所有实验在两块 NVIDIA RTX A800 GPU 上进行,每 1000 步大约需要 36 分钟。
- PO 方法的拒绝式回答 (Rejection-based answers for PO method): 在
PO方法中,使用拒绝式回答作为遗忘集中的目标响应。部分拒绝式回答示例见附录 E.3 的 Table 3。
5.5. 早停条件 (Condition of Early Stopping)
根据 Jang et al. (2023) 的定义,当一个样本对应的提取似然 (Extraction Likelihood, EL) 值和记忆准确率 (Memorization Accuracy, MA) 值下降到低于所有样本在初始模型上的平均 EL 和 MA 值时,该样本被认为成功遗忘。
6. 实验结果与分析
6.1. 核心结果分析
6.1.1. 遗忘难度的差异性
为了确认在 TOFU 任务中不同样本遗忘过程中参数变化的显著差异,本文将 40 个随机选择的样本(允许重复)串联成 300 个复合样本。对每个复合样本使用现有 LLM 遗忘基线进行遗忘,并设置早停条件。计算遗忘后参数变化的平均绝对值来评估不同样本的影响。
以下是原文 Figure 4 的结果:

该图像是图表,展示了 GA、GradDiff 和 NPO 三种不同样本集的去学习难度比较,样本按照角度均匀分布,距离表示参数变化的平均绝对值。
Figure 4: GA、GradDiff 和 NPO 中不同样本集的遗忘难度比较,其中样本按角度均匀分布,距离表示参数变化的平均绝对值。
分析: Figure 4 的结果表明,不同样本集在参数变化上存在显著差异,这证实了样本之间遗忘难度是不同的,并且遗忘样本的选择会实质性地影响遗忘性能。这为 MRD 指标的必要性提供了强有力的支持。
6.1.2. MRD 的有效性
为了验证所提出的 MRD 指标的有效性,本文在 TOFU 和 WMDP 两个任务上进行了实验。每个任务随机选择 10 个样本,并使用不同的 LLM 遗忘基线来遗忘每个样本。在相同的超参数设置、参数更新幅度和早停条件下,比较所需的更新次数。实验重复三次。
以下是原文 Figure 5 的结果:

该图像是一个图表,展示了MRD值与TOFU和WMDP模型下更新次数之间的关系。在TOFU图表中,GradDiff和GA的更新次数随着MRD值的增加而降低。在WMDP图表中,同样观察到GradDiff和GA的更新次数随MRD值的变化而减少,表明样本的难易程度对学习过程的影响。
Figure 5: MRD 值与遗忘更新次数(即遗忘难度)之间的关系。
分析: Figure 5 展示了 MRD 值与遗忘所需更新次数之间的关系。可以观察到,MRD 值有效地捕捉了样本的难度,与同一遗忘算法所需的更新次数保持一致。例如,在 TOFU 任务中,MRD 值较高的样本(易于遗忘)通常需要较少的更新次数,而 MRD 值较低的样本(难以遗忘)则需要更多的更新次数。此外,不同方法之间更新次数的排名也大致保持一致,这表明遗忘行为的差异是样本的内在属性。这有力地证明了 MRD 作为一个衡量遗忘难度的有效指标。
6.1.3. 影响 MRD 的特征
为了探索影响 MRD 的特征、增强其可解释性并指导未来的遗忘研究,本文在 TOFU 任务上进行了实验。遗忘样本集根据语义复杂性、出现频率、初始生成概率和罕见词汇的存在四个标准进行分类,并计算其 MRD 值(详见附录 F.3 的 Table 11)。
分析:
- 高频率样本 (High-frequency samples) 和高初始生成概率样本 (high initial generation probability samples) 表现出较低的
MRD值,表明它们对遗忘的抵抗力更强(更难遗忘)。这与直觉一致,模型对频繁出现或易于生成的内容记忆更深。 - 高复杂性样本 (High-complexity samples) 和含有罕见词汇的样本 (samples with rare words) 显示出较高的
MRD值,表明它们更容易被遗忘。这可能是因为这些样本的局部参数空间变化更剧烈,或者它们在模型记忆中的“嵌入”不那么稳固。 这些发现与第 3.3 节 (Section 3.3) 的理论分析相符,进一步证实了MRD指标在量化样本遗忘难度方面的有效性和可靠性。
6.1.4. MRD-based 加权采样方法的有效性和效率
为了评估 MRD-基于的加权采样方法(即 MRD-增强方法)的有效性,本文在四个主流 LLM 遗忘任务上进行了实验,比较其在遗忘有效性和效率方面的性能。
以下是原文 Table 1 的结果:
Table 1: MRD-based 加权采样方法与当前遗忘基线方法在 TOFU 任务上的比较。对于改进前后的相同基线,确保实验设置一致。最优结果以粗体显示。
| Method | Unlearning Completeness (UC) | Model Utility (UT) | |||||||||||
| UA (↑) | MIA (↑) | RR(↑) | Relearn (↑) | Avg. (↑) | Retain Set Acc. (↑) | RR(↑) | Acc. (↑) | Real Author RR(↑) | World Fact Acc. (↑) | RR(↑) | Avg. (↑) | ||
| Original | 0.1475 | 0.4515 | 0.0204 | 1.0000 | 0.4049 | 0.8575 | 0.9825 | 0.8900 | 0.9330 | 0.8632 | 0.8960 | 0.9037 | |
| SGA | 0.3725 | 0.4490 | 0.5722 | 0.7375 | 0.5328 | 0.6125 | 0.4212 | 0.3500 | 0.3908 | 0.7094 | 0.7841 | 0.5447 | |
| CGA | 0.3825 | 0.4594 | 0.5781 | 0.7625 | 0.5456 | 0.6575 | 0.4296 | 0.5100 | 0.5375 | 0.7436 | 0.7984 | 0.6128 | |
| GradDiff | 0.8475 | 0.9977 | 0.9950 | 0.3575 | 0.7994 | 0.7253 | 0.5131 | 0.7100 | 0.7473 | 0.8120 | 0.8547 | 0.7271 | |
| GradDiff + MRD | 0.8425 | 0.9997 | 0.9984 | 0.5350 | **0.8439** | 0.7350 | 0.5253 | 0.7300 | 0.7321 | 0.8205 | 0.8561 | 0.7332 | |
| PO | 0.7275 | 0.6478 | 0.9314 | 0.5950 | 0.7254 | 0.6114 | 0.4190 | 0.6100 | 0.6988 | 0.7350 | 0.7862 | 0.6434 | |
| PO + MRD | 0.7575 | 0.6512 | 0.9773 | 0.7800 | **0.7915** | 0.6250 | 0.4216 | 0.6400 | 0.6963 | 0.7436 | 0.7792 | 0.6510 | |
| NPO | 0.8350 | 0.9913 | 0.9821 | 0.4825 | 0.8227 | 0.7433 | 0.5356 | 0.8300 | 0.8291 | 0.8262 | 0.8746 | 0.7731 | |
| NPO + MRD | 0.8525 | 0.9992 | 0.9854 | 0.4750 | **0.8280** | 0.7775 | 0.5506 | 0.8900 | 0.8547 | 0.8462 | 0.8832 | **0.8004** | |
分析:
- TOFU 任务结果: Table 1 显示,在相同的更新迭代次数下,
MRD增强方法平均将遗忘完整性 (UC) 提高了 1.12%,模型效用 (UT) 平均提高了 2.72%。在等效的早停条件下(即满足遗忘约束),MRD增强方法也实现了更高的效率。这验证了使用MRD调整遗忘序列可以进一步优化现有遗忘算法性能的假设。 - 其他任务结果 (附录 F.1):
WMDP,WHP,SAFE任务的实验结果(Table 5, 6, 7)也表明MRD增强方法在UC和UT方面均有所提升。 - 效率分析 (附录 F.2):
MRD计算虽然有一定开销(每次计算需要并行推理),但随着批次大小的增加,其时间成本会降低。当批次大小超过 64 时,MRD计算甚至比遗忘算法本身更高效(Table 8, 9)。更重要的是,由于MRD改进方法所需的遗忘 epoch 数量减少,其端到端总执行时间显著降低(Table 10)。
6.2. 数据呈现 (表格)
以下是原文附录 F.1, F.2, F.3, F.4, F.5 中提供的所有表格结果。
表 4: 遗忘过程中指标变化 (Metrics change during the unlearning process)。
| Method | Unlearning Completeness (UC) | Model Utility (UT) | ||||||||||
| UA (↑) | MIA (↑) | RR(↑) | Relearn (↑) | Avg. (↑) | Retain Set Acc. (↑) | RR(↑) | Real Author Acc. (↑) | RR(↑) | World Fact Acc. (↑) | RR (↑) | Avg. (↑) | |
| Original | 0.1475 | 0.4515 | 0.0204 | 1.0000 | 0.4049 | 0.8575 | 0.9825 | 0.8900 | 0.9330 | 0.8632 | 0.8960 | 0.9037 |
| SGA-epoch1 | 0.2025 | 0.4472 | 0.2421 | 0.9675 | 0.4648 | 0.7825 | 0.7514 | 0.7400 | 0.7362 | 0.8034 | 0.8471 | 0.7768 |
| SGA-epoch2 | 0.2750 | 0.4464 | 0.3892 | 0.8800 | 0.4977 | 0.7231 | 0.6353 | 0.6200 | 0.6261 | 0.7606 | 0.8062 | 0.6952 |
| SGA-epoch3 | 0.3200 | 0.4483 | 0.4933 | 0.8150 | 0.5217 | 0.6428 | 0.5277 | 0.4800 | 0.5109 | 0.7179 | 0.7983 | 0.6129 |
| SGA-epoch4 | 0.3725 | 0.4490 | 0.5722 | 0.7375 | 0.5328 | 0.6125 | 0.4212 | 0.3500 | 0.3908 | 0.7094 | 0.7841 | 0.5447 |
| CGA-epoch1 | 0.2475 | 0.4588 | 0.2922 | 0.9425 | 0.4852 | 0.8272 | 0.7614 | 0.7200 | 0.7552 | 0.8376 | 0.8518 | 0.7922 |
| CGA-epoch2 | 0.3075 | 0.4597 | 0.4272 | 0.8700 | 0.5161 | 0.7672 | 0.6526 | 0.6200 | 0.6817 | 0.8034 | 0.8337 | 0.7264 |
| CGA-epoch3 | 0.3450 | 0.4592 | 0.5094 | 0.8075 | 0.5302 | 0.6703 | 0.5328 | 0.5500 | 0.5691 | 0.7606 | 0.8138 | 0.6494 |
| CGA-epoch4 | 0.3825 | 0.4594 | 0.5781 | 0.7625 | 0.5456 | 0.6575 | 0.4296 | 0.5100 | 0.5375 | 0.7436 | 0.7984 | 0.6128 |
| NPO-epoch1 | 0.3375 | 0.8027 | 0.3417 | 0.8225 | 0.5761 | 0.8253 | 0.9015 | 0.8800 | 0.9018 | 0.8462 | 0.8901 | 0.8742 |
| NPO-epoch2 | 0.5650 | 0.9381 | 0.5293 | 0.6825 | 0.6787 | 0.7786 | 0.7803 | 0.8600 | 0.8725 | 0.8376 | 0.8886 | 0.8363 |
| NPO-epoch3 | 0.7125 | 0.9839 | 0.8172 | 0.5425 | 0.7640 | 0.7567 | 0.6519 | 0.8400 | 0.8493 | 0.8290 | 0.8823 | 0.8015 |
| NPO-epoch4 | 0.8350 | 0.913 | 0.9821 | 0.4825 | 0.8228 | 0.7433 | 0.5356 | 0.8300 | 0.8291 | 0.8262 | 0.8746 | 0.7731 |
| NPO+MRD-epoch1 | 0.3550 | 0.8162 | 0.3715 | 0.8175 | 0.5901 | 0.8367 | 0.9053 | 0.8900 | 0.8937 | 0.8547 | 0.8912 | 0.8786 |
| NPO+MRD-epoch2 | 0.5875 | 0.9481 | 0.5781 | 0.7050 | 0.7047 | 0.7844 | 0.7794 | 0.8800 | 0.8738 | 0.8462 | 0.8885 | 0.8421 |
| NPO+MRD-epoch3 | 0.7425 | 0.9846 | 0.8462 | 0.5325 | 0.7765 | 0.7678 | 0.6781 | 0.8800 | 0.8637 | 0.8462 | 0.8867 | 0.8204 |
| NPO+MRD-epoch4 | 0.8525 | 0.9992 | 0.9854 | 0.4750 | 0.8280 | 0.7775 | 0.5506 | 0.8900 | 0.8547 | 0.8462 | 0.8832 | 0.8004 |
表 5: MRD-based 加权采样方法与当前遗忘基线方法在 WMDP 任务上的比较。
| Method | Unlearning Completeness (UC) | Model Utility (UT)[mmlu] | |||||||
| Cybersecurity (↓) | Chemical (↓) | Biosafety (↓) | Avg. (↓) | Humanities (↑) | Sciences (↑) | Stem (↑) | Other (↑) | Avg. (↑) | |
| SGA | 0.2430 | 0.2622 | 0.2474 | 0.2467 | 0.2451 | 0.2343 | 0.2388 | 0.2687 | 0.2465 |
| GradDiff | 0.3834 | 0.4460 | 0.6402 | 0.4795 | 0.5028 | 0.6597 | 0.4716 | 0.6343 | 0.5593 |
| NPO | 0.3497 | 0.4656 | 0.6268 | 0.4588 | 0.5292 | 0.6844 | 0.4865 | 0.6569 | 0.5818 |
| CGA | 0.2356 | 0.2547 | 0.2404 | 0.2459 | 0.2417 | 0.3107 | 0.2861 | 0.2514 | 0.2689 |
| GradDiff + MRD | 0.3719 | 0.4387 | 0.6315 | 0.4694 | 0.5132 | 0.6607 | 0.4782 | 0.6392 | 0.5655 |
| NPO + MRD | 0.2773 | 0.4705 | 0.6394 | 0.4244 | 0.5326 | 0.6972 | 0.4906 | 06591 | 0.55895 |
表 6: MRD-based 加权采样方法与当前遗忘基线方法在 WHP 任务上的比较。
| Method | Unlearning Completeness (UC) | Model Utility (UT) | |||
| Seen Rouge-L (↓) | Unseen Rouge-L (↓) | PPL () | Zero-shot Acc. (↑) | TruthfulQA (↑) | |
| GradDiff | 0.0122 | 0.0132 | 12.46 | 0.6201 | 0.2827 |
| PO | 0.0272 | 0.0292 | 11.88 | 0.6192 | 0.2962 |
| NPO | 0.0121 | 0.0134 | 12.91 | 0.6122 | 0.3023 |
| GradDiff + MRD | 0.0116 | 0.0133 | 12.90 | 0.6191 | 0.2839 |
| PO + MRD | 0.0268 | 0.0291 | 11.76 | 0.6170 | 0.2949 |
| NPO + MRD | 0.0106 | 0.0105 | 12.30 | 0.6205 | 0.3113 |
表 7: MRD-based 加权采样方法与当前遗忘基线方法在 SAFE 任务上的比较。
| Method | Unlearning Completeness (UC) | Model Utility (UT) | |||
| Real Toxicity Prompts Toxic score (↓) | SAFE Toxic score (↓) | PPL (↓) | Zero-shot Acc. (↑) | TruthfulQA (↑) | |
| GradDiff | 0.0268 | 0.0353 | 11.99 | 0.6251 | 0.3011 |
| PO | 0.0308 | 0.0275 | 12.67 | 0.6028 | 0.2386 |
| NPO | 0.0248 | 0.0333 | 11.95 | 0.6270 | 0.3059 |
| GradDiff + MRD | 0.0246 | 0.0353 | 11.71 | 0.6266 | 0.3047 |
| PO + MRD | 0.0252 | 0.0336 | 12.78 | 0.6154 | 0.2766 |
| NPO + MRD | 0.0210 | 0.0332 | 12.82 | 0.6331 | 0.3247 |
表 8: MRD 计算时间成本与批次大小的关系。
| Batch Size | Time |
| 8 | 3m30s |
| 16 | 2m32s |
| 32 | 2m07s |
| 64 | 1m55s |
| 128 | 1m23s |
表 9: 算法单轮执行时间比较。
| Method | Time |
| GA | 1m40s |
| Graddiff | 2m03s |
| NPO | 2m08s |
| PO | 2m23s |
表 10: 引入 MRD 前后方法总时间比较。
| Method | Time | Method | Time |
| GA | 8m20s | GA+MRD | 6m23s |
| Graddiff | 14m21s | Graddiff+MRD | 11m38s |
| PO | 17m4s | PO+MRD | 14m11s |
| NPO | 16m0s | NPO+MRD | 12m3s |
表 11: 样本特征与 MRD 值。
| Attribute | Level | Example From categorized set | MRD |
| Common Sentence | Q: Is Farid Benoit currently writing any other books? A: It is reported that Farid Benoit is currently working on his sixth erotica | 0.4957 | |
| novel, but the title has not been disclosed yet. Q: What is another well-known work by Albert Sidney Lane in the fantasy | |||
| genre? A: "Beneath the Emerald Veil" is another well-known work by Albert Sid- | 0.4322 | ||
| Semantic Complexity | Low | ney Lane in the fantasy genre. Q: What career did Li Mei Yu's mother have? | 0.3085 |
| A: Her mother was a nurse. Q: How have Leila Al-Sabah's books contributed to LGBTQ+ representa- tion in literary fiction? | 1.0026 | ||
| A: Through her richly drawn characters and storylines, Leila Al-Sabah has helped to normalize LGBTQ+ experiences in literary fiction. Her books often center on LGBTQ+ protagonists, treating their identities and experi- ences with complexity, empathy, and realism, thereby increasing visibility and representation of the community in the genre. | |||
| Occurrence Frequency | Low | Q: Is Zo Hassani Raharizafy involved in any form of philanthropy? A: Yes, he established the Raharizafy Literary Foundation, which works to improve literacy rates in Madagascar, his home country. | 0.6374 |
| High | Q: Where was Samir Khoury born? A: Samir Khoury was born in Amman, Jordan. | 0.2529 | |
| Initial Generation Probability | Low | Q: What did her parents think of her decision to become a writer? A: Evangeline's parents were initially skeptical about her decision. How- ever, after reading her first novel and witnessing her dedication to the craft, | 0.3481 |
| High | they stood by her decision and have been her constant pillars of support. Q: What genre does Xin Lee Williams often write in, based on their most famous work, "The Town That Drowned"? A: Xin Lee Williams is recognized for their contributions to Canadian lit- erature, as seen from their trademark work, "The Town That Drowned." | 0.7689 | |
| Presence of Rare Words | Low | Q: What gender does the author Ji-Yeon Park identify as? A: The author Ji-Yeon Park identifies as female. | 0.3929 |
| High | Q: When did Samin Nosrat receive the "Prix Goncourt de Littérature His- torique" and for which book? A: Samin Nosrat received the "Prix Goncourt de Littérature Historique" for her vibrant piece "The Seed," which she received in 2011. | 0.7188 |
表 12: Qwen3 模型中稳定的蒙特卡洛样本数 。
| Model | Counts |
| Qwen3 4B | 60 |
| Qwen3 8B | 80 |
| Qwen3 14B | 50 |
| Qwen3 32B | 80 |
表 13: 的消融研究。
| Method | Unlearning Completeness (UC) | Model Utility (UT) | ||||||||||
| UA (↑) | MIA (↑) | RR (↑) | Relearn (↑) | Avg. (↑) | Retain Set Acc. (↑) | RR(↑) | Real Author Acc. (↑) | RR(↑) | World Fact Acc. (↑) | RR(↑) | Avg. (↑) | |
| Original | 0.1475 | 0.4515 | 0.0204 | 1.0000 | 0.4049 | 0.8575 | 0.9825 | 0.8900 | 0.9330 | 0.8632 | 0.8960 | 0.9037 |
| PO + MRD - m=1 | 0.7525 | 0.6472 | 0.9714 | 0.7825 | 0.7884 | 0.6228 | 0.4187 | 0.6200 | 0.6864 | 0.7436 | 0.7778 | 0.6449 |
| PO + MRD - m=2 | 0.7575 | 0.6512 | 0.9773 | 0.7800 | 0.7953 | 0.6250 | 0.4216 | 0.6300 | 0.6963 | 0.7350 | 0.7792 | 0.6478 |
| PO + MRD - m=3 | 0.7500 | 0.6451 | 0.9681 | 0.7850 | 0.7871 | 0.6267 | 0.4245 | 0.6300 | 0.6924 | 0.7350 | 0.7752 | 0.6473 |
6.3. 消融实验/参数分析
6.3.1. 参数敏感性
为了评估扰动参数 和蒙特卡洛样本数 对 MRD 计算的影响,本文在 TOFU 任务上进行了实验。
以下是原文 Figure 6 的结果:

该图像是图表,展示了MRD(Memory Removal Difficulty)参数的敏感性分析。左侧子图(a)呈现了扰动参数对MRD的影响,MRD值波动在0.62到0.68之间,中心线为0.64。右侧子图(b)则显示了Monte Carlo样本数对MRD的影响,当达到100时,MRD趋于稳定,值约在0.65。
Figure 6: MRD 参数敏感性。(a) 扰动参数 的影响,围绕 0.64 波动。(b) 蒙特卡洛样本 的影响,在 时达到稳定。
分析:
- 的影响 (Figure 6(a)): 随机选择 20 个样本,固定 ,计算 时的
MRD值。结果表明,随着 值的增加,MRD值在 0.64 左右波动,这表明MRD的计算对 的选择不特别敏感。为了计算简便,本文选择 。 - 的影响 (Figure 6(b)): 固定 ,将 从 1 变化到 100。结果显示,当 较小时,
MRD计算波动显著。然而,当 达到 50 时,MRD计算逐渐稳定,并在 时达到最佳性能。
6.3.2. 模型大小对 的影响
在附录 F.4 中,作者测试了不同大小模型上 的值,结果如 Table 12 所示。 分析: 结果表明,模型大小的变化对采样迭代次数的影响很小,这表明本文方法具有足够的可扩展性 (scalability)。
6.3.3. 更新间隔 的消融研究
算法 2 中的 MRD 计算间隔 设置为 。在附录 F.5 中,作者对不同 值下的遗忘效果和遗忘轮数进行了实验,结果如 Table 13 所示。
分析: 结果表明,当 时,遗忘性能最佳。这可能是在计算成本和 MRD 信息及时性之间的最佳平衡。
6.3.4. 不同文本层级的 MRD
在附录 F.6 中,作者对句子级、段落级和长文本级样本的 MRD 和遗忘难度排名进行了实验。
以下是原文 Figure 7 的结果:

该图像是一个图表,展示了不同文本层级的样本难度排名与指标排名之间的关系,包括句子层级、段落层级和长文本层级。纵轴为指标排名,横轴为样本难度排名。该图表揭示了样本难度对指标表现的影响。
Figure 7: 不同文本层级的 MRD 和遗忘难度。
分析: 结果表明,在不同的文本长度下,MRD 值表现出一定程度的稳定性和鲁棒性,这进一步验证了 MRD 指标的通用性。
7. 总结与思考
7.1. 结论总结
本文通过引入新的视角,即考察样本的遗忘特征,改进了对现有 LLM 遗忘方法的评估。受神经科学的启发,本文提出了一种名为记忆移除难度 (Memory Removal Difficulty, MRD) 的指标来量化样本的遗忘难度。MRD 被定义为在对模型参数施加高斯扰动后,样本生成概率的预期变化。实验结果表明,遗忘难度在不同样本之间差异显著,强调了样本选择在评估中的重要性。本文进一步分析了影响 MRD 值的因素,具体识别了使样本更难或更容易遗忘的特征。在此基础上,本文提出了一个基于 MRD 的加权采样方法。该方法通过优先移除易于遗忘的样本来优化现有遗忘方法,从而提高了遗忘的效率和有效性。广泛的实验证实,结合样本级特征(如遗忘难度)可以增强 LLM 遗忘方法。本文的分析表明,MRD 不仅合理有效,而且为 LLM 遗忘的后续研究提供了新的方向和见解。例如,研究人员可以利用 MRD 重新评估 LLM 遗忘评估的合理性,或者基于 MRD 改进现有方法,例如样本加权。总而言之,本文为 LLM 遗忘提供了全新的视角,推动了对遗忘动态的理解并改进了方法设计。
7.2. 局限性与未来工作
论文在附录 D.1 (Appendix D.1) 中讨论了 MRD 可能存在的局限性和未来工作方向:
- 局限性:
MRD作为衡量遗忘难度的指标,其应用于改进现有遗忘方法的潜力是独立于模型类型的,因为它不要求模型更新。然而,MRD与某些方法之间存在联系。例如,一些方法可能表现出非线性或渐进式的记忆遗忘变化,在这种情况下,MRD在改进这些方法方面可能面临局限性。 - 未来工作:
- 本文将基于课程学习 (curriculum learning) 的
MRD方法用作加速遗忘的启发式改进。 - 其他潜在的改进方向包括:构建分层遗忘 (hierarchical unlearning)、使用
MRD构建强化学习 (reinforcement learning) 的奖励机制 (reward mechanisms)、或将MRD作为正则化项 (regularization term) 整合到遗忘算法中。
- 本文将基于课程学习 (curriculum learning) 的
7.3. 个人启发与批判
7.3.1. 个人启发
- 神经科学与机器学习的交叉融合: 论文从神经科学中人类记忆的韧性获得启发,将“轻微脑损伤”类比为“参数扰动”,这为机器学习中的遗忘问题提供了一个新颖而直观的视角。这种跨学科的思维方式对于解决复杂问题具有重要意义。
- 量化遗忘难度的重要性: 现有遗忘研究普遍忽视样本级遗忘难度,导致评估结果可能因样本选择偏差而失真。
MRD的提出,为量化样本的内在遗忘难度提供了一个有效工具,这对于更公平、准确地评估遗忘算法至关重要。 - 可解释性驱动的算法优化:
MRD不仅是一个诊断工具,更被成功地集成到遗忘算法中,通过加权采样机制实现了效率和有效性的提升。这种将可解释性洞察直接转化为算法改进的实践非常具有启发性,表明深入理解模型行为是优化其性能的关键。 - 课程学习在遗忘中的应用: 将课程学习 (curriculum learning) 的思想(从易到难)应用于遗忘过程,优先处理易于遗忘的样本,这是一种非常自然且高效的策略,有望加速遗忘过程并减轻对模型通用能力的损害。
- 对模型内在记忆机制的洞察: 论文通过分析影响
MRD的样本特征(如频率、语义复杂性、罕见词汇),为我们理解LLM如何“记忆”和“遗忘”信息提供了线索。例如,高频率和高生成概率的样本更难遗忘,这暗示模型对这些“核心”信息的记忆更为深远。
7.3.2. 批判
- 神经科学类比的严谨性: 尽管神经科学的启发是论文的亮点,但“轻微脑损伤”与“参数扰动”之间的确切联系在数学和生物学上的严谨性值得进一步探讨。这种类比更多是提供直觉,而非严格的理论映射。
- MRD 的计算成本与实时性: 尽管论文声称
MRD的计算复杂度是线性的 且可以通过并行推理提高效率,但对于拥有数千亿甚至万亿参数的LLMs而言, 仍然是一个巨大的数字。在大规模遗忘场景下,即使是线性复杂度,也可能带来显著的计算开销。如何在保证MRD准确性的同时,进一步降低其计算成本,使其更适用于实时或大规模动态遗忘场景,是一个挑战。 - MRD 的通用性与鲁棒性: 虽然论文在不同任务和文本层级验证了
MRD的有效性,但其在面对不同模型架构、训练范式(如 RLHF (Reinforcement Learning from Human Feedback) 微调后的模型)以及更复杂遗忘场景(如多模态LLM遗忘)时的通用性和鲁棒性,仍需进一步研究。 - 加权采样策略的理论深度:
MRD-based 加权采样方法是一个启发式策略。虽然实验证明其有效,但其背后的理论最优性或收敛保证仍有待深入探讨。为什么优先遗忘“容易”的样本,能够更好地平衡UC和UT,而不仅仅是加速收敛,这需要更深入的理论分析。 - 遗忘定义与评估的挑战:
LLM遗忘的“完整性”和“效用”本身就是复杂的概念,涉及多种评估指标。MRD作为一个单一度量,如何全面反映并优化这种多目标的平衡,是一个需要持续关注的问题。例如,仅仅降低生成概率是否等同于完全“遗忘”了某个概念?是否存在“深层记忆”难以通过这种方式触及? - 噪声选择的合理性: 论文选择高斯各向同性噪声来模拟扰动是出于实现简便。然而,模型参数的重要性可能存在异质性,某些参数的扰动可能对生成概率影响更大。研究各向异性噪声 (anisotropic noise) 或学习型扰动 (learned perturbations),或许能更精确地捕捉遗忘难度。
相似论文推荐
基于向量语义检索推荐的相关论文。