论文状态:已完成

UniEdit: A Unified Knowledge Editing Benchmark for Large Language Models

发表:2025/05/18
原文链接PDF 下载
价格:0.100000
价格:0.100000
价格:0.100000
已有 3 人读过
本分析由 AI 生成,可能不完全准确,请以原文为准。

TL;DR 精炼摘要

本文提出了UniEdit,一个针对大型语言模型的统一知识编辑基准,旨在通过开放域知识增强模型的编辑性能。研究设计了邻域多跳链采样算法,实现从25个领域选择实例,确保编辑覆盖全面且评估多样,实验结果揭示了不同模型的优缺点,促进了未来研究的深入。

摘要

Model editing aims to enhance the accuracy and reliability of large language models (LLMs) by efficiently adjusting their internal parameters. Currently, most LLM editing datasets are confined to narrow knowledge domains and cover a limited range of editing evaluation. They often overlook the broad scope of editing demands and the diversity of ripple effects resulting from edits. In this context, we introduce UniEdit, a unified benchmark for LLM editing grounded in open-domain knowledge. First, we construct editing samples by selecting entities from 25 common domains across five major categories, utilizing the extensive triple knowledge available in open-domain knowledge graphs to ensure comprehensive coverage of the knowledge domains. To address the issues of generality and locality in editing, we design an Neighborhood Multi-hop Chain Sampling (NMCS) algorithm to sample subgraphs based on a given knowledge piece to entail comprehensive ripple effects to evaluate. Finally, we employ proprietary LLMs to convert the sampled knowledge subgraphs into natural language text, guaranteeing grammatical accuracy and syntactical diversity. Extensive statistical analysis confirms the scale, comprehensiveness, and diversity of our UniEdit benchmark. We conduct comprehensive experiments across multiple LLMs and editors, analyzing their performance to highlight strengths and weaknesses in editing across open knowledge domains and various evaluation criteria, thereby offering valuable insights for future research endeavors.

思维导图

论文精读

中文精读

1. 论文基本信息

1.1. 标题

UniEdit: 大型语言模型的统一知识编辑基准 (UniEdit: A Unified Knowledge Editing Benchmark for Large Language Models)

1.2. 作者

Qizhou Chen, Dakan Wang, Taolin Zhang, Zaoming Yan, Chengsong Vou, Chengyu Wang, Xiaofeng He 等

1.3. 作者机构

主要来自华东师范大学 (East China Normal University)、阿里巴巴集团 (Alibaba Group)、Exacity Inc. 和合肥工业大学 (Hefei University of Technology)。

1.4. 发表期刊/会议

该论文以预印本 (Preprint) 形式发表在 arXiv 平台。arXiv 是一个开放获取的预印本服务器,允许研究人员在正式同行评审和发表之前分享他们的研究成果。

1.5. 发表年份

2025年。

1.6. 摘要

模型编辑 (Model editing) 旨在通过高效调整大型语言模型 (Large Language Models, LLMs) 的内部参数,来提升其准确性和可靠性。当前大多数 LLM 编辑数据集仅限于狭窄的知识领域,且评估范围有限,往往忽视了广泛的编辑需求以及编辑所产生的多样化涟漪效应 (ripple effects)。针对这一背景,本文引入了 UniEdit,一个基于开放域知识 (open-domain knowledge) 的统一 LLM 编辑基准。

首先,UniEdit 通过从五大类别、25 个常见领域中选择实体来构建编辑样本,并利用开放域知识图谱 (Knowledge Graphs) 中丰富的实体三元组知识,确保了对知识领域的全面覆盖。为了解决编辑中的通用性 (generality) 和局部性 (locality) 问题,本文设计了一种邻域多跳链采样 (Neighborhood Multi-hop Chain Sampling, NMCS) 算法,该算法能够基于给定的知识片段采样子图,以评估全面的涟漪效应。最后,研究人员利用专有 LLMs 将采样的知识子图转换为自然语言文本,以确保语法准确性和句法多样性。

广泛的统计分析证实了 UniEdit 基准的规模、全面性和多样性。本文对多个 LLMs 和编辑器 (editors) 进行了全面的实验,分析了它们在开放知识域和各种评估标准下的编辑性能,从而揭示了其优缺点,为未来的研究工作提供了宝贵的见解。

1.7. 原文链接

原文链接: https://arxiv.org/abs/2505.12345v3 PDF 链接: https://arxiv.org/pdf/2505.12345v3.pdf

2. 整体概括

2.1. 研究背景与动机

大型语言模型 (LLMs) 在自然语言处理领域取得了革命性进展,并广泛应用于医学、金融和教育等多个行业。然而,随着应用场景的扩展和环境的不断变化,LLMs 往往难以提供足够准确和实时的信息,这在高风险和高需求行业中可能产生重大影响。传统的模型重新训练 (retraining) 成本高昂,且可能导致灾难性遗忘 (catastrophic forgetting)。因此,模型编辑 (model editing) 技术应运而生,旨在高效、精确地更新模型内部知识,同时避免这些弊端。

当前,现有的 LLM 知识编辑基准 (benchmarks) 存在以下几个主要局限性:

  1. 知识域狭窄 (Narrow knowledge domains): 大多数数据集仅限于少数知识图谱中的三元组或少量关系,导致评估结果可能无法推广到多样化的知识领域。

  2. 评估范围有限 (Limited range of editing evaluation): 现有基准通常只关注编辑本身及其释义版本,而忽视了编辑可能引发的间接相关查询的涟漪效应 (ripple effects)。

  3. 缺乏集成性 (Lack of integration): 各基准独立构建数据,基于其提出的评估标准,缺乏一个能整合所有标准的数据集,无法评估各种组合情况和潜在的新挑战(例如,一个通用性样本可能同时包含多跳推理、关系反转和主体别名)。

    鉴于这些挑战,本文旨在构建一个全面、开放域、大规模且多样化的 LLM 知识编辑基准,以更好地评估和提升 LLM 编辑器的编辑能力和泛化鲁棒性 (generalization robustness)。

2.2. 核心贡献/主要发现

本文提出了 UniEdit,一个用于大型语言模型知识编辑的统一基准,主要贡献包括:

  1. 构建开放域知识编辑基准: 提供了将 Wikidata(最大的开源、持续更新的开放域知识图谱)转换为知识编辑数据集的完整流程和工具包,实现了对 25 个常见领域知识的全面覆盖。
  2. 引入 NMCS 算法: 设计了邻域多跳链采样 (NMCS) 算法,统一并扩展了各种评估标准,能够模拟编辑所带来的多样化涟漪效应,从而实现了更具多样性和通用性的编辑评估。NMCS 能够生成包含多跳推理、关系反转、相同实体识别等多种复杂组合的样本。
  3. 全面实验与深入分析: 在 UniEdit 上对多个大型语言模型和编辑方法进行了广泛的编辑实验。实验结果和相应的分析为现有 LLM 编辑器的性能和局限性提供了宝贵的见解,包括:
    • 编辑方法,尤其是遵循定位-然后-编辑 (Locate-then-Edit, L&E) 范式的方法,在处理复杂通用性 (generality) 方面存在显著局限。
    • 编辑性能在不同知识域之间存在差异,凸显了低资源知识编辑的重要性。
    • 样本复杂度的提高会增加通用性的难度,但可能反而简化局部性 (locality) 评估。
    • 训练数据的规模和领域覆盖范围会影响依赖编辑训练 (edit training) 的编辑方法的性能。

3. 预备知识与相关工作

3.1. 基础概念

3.1.1. 大型语言模型 (Large Language Models, LLMs)

LLMs 是指参数量庞大(通常达到数十亿甚至数万亿)的深度学习模型,它们通过在海量文本数据上进行预训练 (pre-training),学习语言的统计模式、语法、语义和世界知识。这些模型在各种自然语言处理 (Natural Language Processing, NLP) 任务中表现出色,如文本生成、问答、翻译和摘要等。本文中,LLMs 被视为一个函数 fllm:QOf_{\mathrm{llm}}: \mathcal{Q} \mapsto \mathcal{O},将输入查询 qq 映射到输出 o=fllm(q)o = f_{\mathrm{llm}}(q)

3.1.2. 模型编辑/知识编辑 (Model Editing / Knowledge Editing)

模型编辑是指在不进行完全重新训练的情况下,对预训练模型(尤其是 LLMs)内部的知识或行为进行高效、精确地修改。这种技术旨在修正模型中的错误信息、更新过时知识,或注入新知识,同时尽量避免对模型其他原有能力造成负面影响(如灾难性遗忘)。

3.1.3. 知识图谱 (Knowledge Graphs, KGs) 与三元组 (Triples)

知识图谱是一种结构化的知识表示方法,它以图的形式存储实体 (entities) 及其之间的关系。一个基本的知识单元是三元组 (triple),通常表示为 (s, r, o),其中:

  • ss头实体 (head entity),也称为主体 (subject)
  • rr关系 (relation),描述头实体和尾实体之间的联系。
  • oo尾实体 (tail entity),也称为客体 (object)。 例如,一个三元组可以是(“爱因斯坦”, “出生在”, “德国”)。

本文主要使用 Wikidata,它是目前最大的开源协同知识库,包含了大量的实体和属性,以及它们之间的三元组关系。

3.1.4. 模型编辑评估指标:可靠性、通用性与局部性 (Reliability, Generality, Locality)

本文遵循现有研究,将模型编辑的性能评估为三个核心指标:

  • 可靠性 (Reliability):要求编辑后的模型 fllmf'_{\mathrm{llm}} 能够准确地回忆起其自身被编辑的知识。即对于编辑请求 εi=(qεi,oεi)\varepsilon_i = (q_{\varepsilon_i}, o_{\varepsilon_i}),模型应该输出 fllm(qεi)=oεif'_{\mathrm{llm}}(q_{\varepsilon_i}) = o_{\varepsilon_i}

  • 通用性 (Generality):要求编辑后的模型 fllmf'_{\mathrm{llm}} 能够调整对与编辑样本相关的查询的响应。即对于相关邻域 G(E)\mathcal{G}(\mathcal{E}) 中的查询 (qg,og)(q_g, o_g),模型应该输出 fllm(qg)=ogf'_{\mathrm{llm}}(q_g) = o_g。这意味着模型不仅要记住修改后的事实本身,还要理解其语义并应用于其不同表述形式或关联推理中。

  • 局部性 (Locality):要求编辑后的模型 fllmf'_{\mathrm{llm}} 在与先前编辑知识无关的查询上,保持与原始模型 fllmf_{\mathrm{llm}} 的一致性。即对于与编辑无关的样本分布 L(E)\mathcal{L}(\mathcal{E}) 中的查询 qlq_l,模型应该输出 fllm(ql)=fllm(ql)f'_{\mathrm{llm}}(q_l) = f_{\mathrm{llm}}(q_l)。这防止了编辑操作对模型其他知识造成不必要的干扰或“副作用”。

    一个优秀的编辑器应该能够根据编辑的语义,使 LLM 适应不同程度的通用性和局部性。

3.2. 前人工作与技术演进

知识编辑领域的技术演进大致可以分为两个主要方向:

3.2.1. 知识编辑方法 (Knowledge Editing Methods)

  • 定位-然后-编辑 (Locate-then-Edit, L&E) 方法: 这类方法通过因果追踪 (causal tracing) 或注意力层模式 (attention layer patterns) 识别模型中与特定知识相关的参数(通常是特定层的权重),然后直接修改这些参数以实现知识更新。
    • ROME [16] (Rank-One Model Editing): 通过因果追踪识别对编辑敏感的层,并对其权重矩阵进行低秩更新 (rank-one update)。
    • MEMIT [17] 和 WILKE [18]: 在 ROME 的基础上,将修改分布式地应用于多个层,以增强效果。
    • PMET [19]: 利用注意力层的知识提取模式来实现精确更新。
    • AlphaEdit [33]: 通过零空间投影 (zero-space projection) 策略将 L&E 扩展到终身编辑 (lifelong editing),旨在提高局部性。
    • UnKE [28] 和 AnyEdit [34]: 探索 L&E 方法在非结构化知识编辑中的应用。
  • 基于外部模块 (External Module-based) 的策略: 这类方法不直接修改原始模型参数,而是引入额外的模块(如超网络、记忆库、适配器或提示)来处理编辑后的知识。
    • KE [35]: 训练一个基于 LSTM 的超网络 (hyper-network) 来预测参数更新。
    • MEND [36]: 通过利用编辑知识的一阶梯度来增强编辑信号。
    • SERAC [37]: 训练一个反事实模型 (counterfactual model) 和一个范围分类器 (scope classifier) 来识别相关查询,并将其路由到反事实模型生成修改后的响应。
    • T-Patcher [38]: 为编辑过的知识整合额外的神经元。
    • GRACE [39]: 基于编辑距离阈值重新映射与编辑相关的表示。
    • RECIPE [40]: 通过提示学习 (prompt learning) 创建连续前缀以实现动态编辑。
    • LEMOE [41]: 使用专家混合 (Mixture of Experts) 和专家路由 (expert routing) 实现终身编辑。
  • 其他早期努力:
    • ENN [42]: 通过元学习 (meta-learning) 探索模型编辑。
    • [43]: 明确引入了大型 Transformer 模型的知识编辑,并探索了部分参数调优。
    • [15]: 提出了“知识神经元 (knowledge neurons)”的概念,为 L&E 范式提供了实践动机。
    • IKE [44]: 利用上下文学习 (in-context learning) 使 LLM 能够遵循编辑指令。

3.2.2. 知识编辑基准 (Knowledge Editing Benchmarks)

  • 早期工作:
    • ZSRE [20]: 利用 WikiReading 生成 QA 编辑数据。
    • CounterFact [16]: 构建反事实数据以增加难度。这些基准主要评估 LLMs 是否能回忆编辑知识及其释义版本,但忽视了涟漪效应。
  • 关注涟漪效应的基准:
    • MQuAKE [21] 和 BAKE [24]: 探索多跳推理 (multi-hop) 和关系反转 (relational reversal) 问题。
    • RippleEdit [23]: 进一步细化了多跳定义,并识别了 1-N 遗忘 (1-N forgetfulness)、实体别名 (entity aliasing) 和关系特异性 (relation specificity) 等问题。
    • ReCoE [25]: 调查实体推理,检查 LLM 应用编辑知识的能力。
    • EVOKE [22]: 评估 L&E 方法的过拟合问题。
  • 特定领域/问题基准:
    • CliKT [30]: 专注于生物医学长尾知识。
    • HalluEditBench [31]: 专注于 LLM 内部的幻觉 (hallucinations)。
    • WikiBigEdit [32]: 专注于最近更新的 Wikidata 知识。
    • AKEW [27]、UnKEBench [28] 和 AnyEdit [34]: 针对非结构化文本编辑。

3.3. 差异化分析

现有基准的主要局限在于其狭窄的知识域、片面的评估标准和通常较小的规模。这些限制阻碍了编辑器的未来发展,特别是那些需要编辑训练的方法。

UniEdit 通过以下方式克服了这些局限:

  • 开放域知识: 使用 Wikidata 构建,覆盖 25 个多样化领域,解决了知识域狭窄的问题。

  • 统一且全面的评估: 引入 NMCS 算法,统一并扩展了现有基准中的所有结构相关评估标准(如多跳、关系反转、相同实体识别、1-N 遗忘)以及潜在的组合模式,从而实现了更全面、更具挑战性的通用性和局部性评估。

  • 大规模数据: 提供了 311K 个编辑条目,每个条目包含编辑样本、通用性样本和局部性样本,解决了数据集规模过小的问题,这对于依赖编辑训练的方法尤为重要。

  • 自然语言生成: 利用 LLM 将结构化知识子图转换为语法准确、句法多样的自然语言文本,提高了数据集的实用性。

    因此,UniEdit 是首个旨在全面模拟现实世界中遇到的各种知识编辑挑战的开放域知识编辑基准。

4. 方法论

UniEdit 的数据构建过程旨在创建一个统一的知识编辑基准,它基于开放域知识,并通过 NMCS 算法解决通用性和局部性评估的挑战,最终利用 LLM 生成自然语言文本。整个数据构建流程如原文 Figure 2 所示。

Figure 2: Data construction pipeline of UnIEDIT. Steps 13 include data preprocessing, domainspecific entity retrieval, and sampling of relevant triples based on the domain entity. In Step 4, generality and locality QA chains are sampled using NMCS algorithm. In Step 5, the final data is generated based on the sampled QA chains, where F and B indicate the forward and backward directions, respectively—referring to the prompt generation direction with respect to the triple.
该图像是一个示意图,展示了UniEdit数据构建的流程。图中包括数据准备与清理、领域实体检索、编辑三元组采样、一般性和局部子图采样及最终数据生成等步骤。特别是步骤4中的多跳QA链采样方法(NMCS),用于确保编辑的广度和连续性。

图:UniEdit 的数据构建流程。步骤 1-3 包括数据预处理、领域特定实体检索,以及基于领域实体的相关三元组采样。在步骤 4 中,使用 NMCS 算法采样通用性和局部性 QA 链。在步骤 5 中,基于采样的 QA 链生成最终数据,其中 F 和 B 分别表示前向和后向方向——指相对于三元组的提示生成方向。

4.1. 数据构建过程详解

4.1.1. 步骤 1:数据准备与清理 (Data Preparation and Cleaning)

  • 原始数据来源: Wikidata 的 latest-all.json 完整导出文件,包含 113.7M 实体 (entities) 和 12,300 属性 (properties,即知识图谱中的关系)。每个实体都有 ID、标签 (label)、数据类型(仅限属性)、描述 (description)、别名 (aliases) 和声明 (claims)。claims 字段列出了实体作为头实体的所有三元组(属性及其对应的值,即尾实体)。
  • 实体过滤:
    • 过滤掉没有英文标签的实体。
    • 删除描述中包含低效关键词(如“point of time”)的实体,将实体总数减少到 29.9M。
  • 属性过滤:
    • 通过数据类型过滤和人工验证,移除非语言学和低编辑价值的属性(例如,指向图片、ID 和 URL 的属性)。
    • 最终保留了 2.4K 个属性,这些属性分为七种类型:wikibase-item (指向实体)、string (字符串)、quantity (数量)、time (时间)、math (数学表达式)、globe-coordinate (地理坐标) 和 monolingual text (单语文本)。
  • 数据索引: 将清理后的实体导入搜索引擎(Elasticsearch [46]),以便后续的检索和采样。

4.1.2. 步骤 2:领域实体检索 (Entity Retrieval with Domains)

  • 目的: 对实体进行领域分类,确保知识采样在各个领域之间保持平衡,以促进知识的开放性和多样性。
  • 领域划分: 划分为五大领域:自然科学 (Natural Sciences)、人文学科 (Humanities)、社会科学 (Social Sciences)、应用科学 (Applied Sciences) 和交叉学科 (Interdisciplinary Studies),共涵盖 25 个具体领域(如原文 Figure 3a 所示)。
  • 关键词生成: 使用 GPT-4 [47] 生成领域特定的关键词。
  • 实体检索: 基于实体标签和描述,利用 Elasticsearch 检索相关实体。
  • 过滤噪声: 为提高相关性,进一步应用精确字符串匹配 (exact string matching) 过滤由搜索引擎分词 (tokenization) 引起的噪声结果(例如,“black hole”可能只匹配到“black”)。

4.1.3. 步骤 3:编辑三元组采样 (Edit Triples Sampling)

  • 目的: 从庞大的领域实体集中采样出用于构建编辑三元组的头实体,并进一步生成编辑三元组。
  • 头实体采样 (Sequential Weighted Sampling):
    • 由于领域实体集 E={ei}E = \{e_i\} 规模巨大,不可能为所有实体构建编辑三元组。
    • 采用序列加权采样方法 (sequential weighted sampling approach),动态调整采样权重,以降低语义相似项目在后期被采样的可能性,从而确保多样性。
    • σ(X,P)\sigma(X, P) 表示根据概率分布 PP 从集合 XX 中返回一个元素 xix_i 的采样函数。
    • 初始化头实体集 S=S = \emptyset。采样过程逐步进行,S=S{σ(E,PE)}S \overset{\cdot}{=} S \cup \{\sigma(E, P_E)\}
    • 每个实体 eie_i 在分布 PE={pei}P_E = \{p_{e_i}\} 中的概率 peip_{e_i} 由以下公式给出: pei=wijwj s.t. wi={0,if eiS,fiw(ei)/γψ(ei,S),else. p_{e_i} = \frac{w_i}{\sum_j w_j} \mathrm{ ~ s.t. ~ } w_i = \left\{ \begin{array}{ll} 0, & \mathrm{if ~} e_i \in S, \\ f_{\mathrm{iw}}(e_i) / \gamma^{\psi(e_i, S)}, & \mathrm{else.} \end{array} \right.
      • 初始采样权重 fiw(ei)f_{\mathrm{iw}}(e_i) 基于实体 eie_i 的领域相关性定义为 fiw(ei)=fes(ei)fem(ei)f_{\mathrm{iw}}(e_i) = f_{\mathrm{es}}(e_i) f_{\mathrm{em}}(e_i)
        • fes(ei)f_{\mathrm{es}}(e_i):ElasticSearch 检索分数。
        • fem(ei)f_{\mathrm{em}}(e_i):领域关键词在 eie_i 描述中精确匹配的次数。这种组合启发式平衡了部分匹配和精确匹配。
      • 衰减因子 (decay factor) γψ(ei,S)\gamma^{\psi(e_i, S)} 用于根据 eie_i 与已采样项目 SS 的平均相似度来降低其采样概率。
        • γ\gamma:衰减基数 (decay base),设置为 1.05。
        • ψ(ei,S)=sSsin(ei,s)\psi(e_i, S) = \sum_{s \in S} \underset{\ldots}{\sin}(e_i, s):表示 eie_iSS 中已采样实体 ss 的相似度之和。
        • 相似度 sin(ei,s)\sin(e_i, s) 的计算公式为: sin(ei,s)=ueifdw(ei)usfdw(s)I(uei=us)fdw(ei)δ(us) s.t. δ(u)={δin, if uU,δout, else.  \sin(e_i, s) = \sum_{u_{e_i} \in f_{\mathrm{dw}}(e_i)} \sum_{u_s \in f_{\mathrm{dw}}(s)} \frac{\mathbb{I}(u_{e_i} = u_s)}{\|f_{\mathrm{dw}}(e_i)\|} \delta(u_s) \mathrm{ ~ s.t. ~ } \delta(u) = \left\{ \begin{array}{ll} \delta_{\mathrm{in}}, & \mathrm{ ~ if ~} u \in U, \\ \delta_{\mathrm{out}}, & \mathrm{ ~ else. ~ } \end{array} \right.
          • I\mathbb{I}:指示函数 (indicator function)。
          • fdw(e)f_{\mathrm{dw}}(e):从实体 ee 描述中提取的词段集合 (set of word segments)。
          • δ(u)\delta(u):基于领域关键词集 UU 的衰减权重。
          • 为减轻采样衰减对领域相关性的影响,对 UU 中的词分配较低的衰减权重 δin\delta_{\mathrm{in}} (0.2),而对其他词分配 δout\delta_{\mathrm{out}} (1)。
          • 直观上,如果 eie_i 描述中的词段被 SS 中实体覆盖得越多,其采样优先级就越低。
    • 采样数量: 每个领域共采样 30,000 个头实体。
  • 编辑三元组生成:
    • 给定一个采样的头实体 sεs_\varepsilon,编辑三元组 tε=σ(ftwh(sε),U)t_\varepsilon = \sigma(f_{\mathrm{twh}}(s_\varepsilon), \mathcal{U}) 被生成。
    • ftwh(sε)f_{\mathrm{twh}}(s_\varepsilon):表示所有以 sεs_\varepsilon 为头实体的三元组,通过遍历 sεs_\varepsilonclaims 字段中的属性及其对应值获得。
    • U\mathcal{U}:表示均匀分布 (uniform distribution)。
    • 如果函数返回空集(因为一些属性在初始清理步骤中被过滤掉了),则会重新采样。

4.1.4. 步骤 4:通用性与局部性子图采样 (Generality and Locality Subgraphs Sampling)

  • 目的: 在获得编辑三元组后,为通用性 (generality) 和局部性 (locality) 评估采样子图。为简化起见,本文将子图类别限制为简单链。

  • 通用性与局部性的区别: 关键在于其结构是否包含完整的编辑三元组 tε=(sε,rε,oε)t_\varepsilon = (s_\varepsilon, r_\varepsilon, o_\varepsilon)

    • 通用性: 采样从 tεt_\varepsilon 开始。
    • 局部性: 有四种可能的起始点:头实体 sεs_\varepsilon、关系 rεr_\varepsilon、尾实体 oεo_\varepsilon(仅当 oεE~o_\varepsilon \in \tilde{E} 时),以及一个随机实体 e~=σ(E~,U)\tilde{e} = \sigma(\tilde{E}, \mathcal{U})。其中 E~\tilde{E} 表示过滤后的完整实体集。
  • 局部性初始三元组 tlt_l 生成: tl={σ(ftwr(x),U),ifx=rε,σ(ftw(x),U),else. s.t. x=σ({sε,oε,rε,e~},U) , ftw=σ({ftwh,ftwt},U) t_l = \left\{ \begin{array}{ll} \sigma(f_{\mathrm{twr}}(x), \mathcal{U}), & \mathrm{if } x = r_\varepsilon, \\ \sigma(f_{\mathrm{tw}^*}(x), \mathcal{U}), & \mathrm{else}. \end{array} \right. \ \mathrm{s.t.} \ x = \sigma(\{s_\varepsilon, o_\varepsilon, r_\varepsilon, \tilde{e}\}, \mathcal{U}) \ , \ f_{\mathrm{tw}^*}=\sigma(\{f_{\mathrm{twh}}, f_{\mathrm{twt}}\}, \mathcal{U})

    • ftwr(x)f_{\mathrm{twr}}(x):检索所有以 xx 作为关系的三元组。
    • ftwt(x)f_{\mathrm{twt}}(x):检索所有以 xx 作为尾实体(客体)的三元组。
    • 这些三元组通过搜索引擎检索 E~\tilde{E} 中包含 xx ID 的所有实体的 claims 字段获得。
    • 如果生成的 tl=tεt_l = t_\varepsilon,则会重新采样,确保局部性样本与编辑三元组不同。
  • 邻域多跳链采样 (Neighborhood Multi-hop Chain Sampling, NMCS) 算法 1:

    • 对通用性和局部性样本统一应用 NMCS 算法来获取包含初始三元组的多跳推理链。

    • 通用性样本: Tg=NMCS(tε,,3,4,E~)\mathcal{T}_g = \mathtt{NMCS}(t_\varepsilon, \varnothing, 3, 4, \tilde{E})

    • 局部性样本: Tl=NMCS(tl,{tε},3,4,E~)\mathcal{T}_l = \mathtt{NMCS}(t_l, \{t_\varepsilon\}, 3, 4, \tilde{E})

    • 算法中,hhmm 分别代表链的最大长度和尝试扩展的次数。

    • ftwrt(r, o) 表示所有关系为 rr 且尾实体为 oo 的三元组集合。ftwhr(s, r) 表示所有头实体为 ss 且关系为 rr 的三元组集合。

      以下是 NMCS 算法的详细步骤:

    算法 1 邻域多跳链采样 (Neighborhood Multi-hop Chain Sampling, NMCS)

    输入: 初始三元组 t0=(s0,r0,o0)t_0 = (s_0, r_0, o_0),排除三元组集合 TexcludeT_{\mathrm{exclude}},最大链长度 hh,每次扩展尝试次数 mm,完整实体集 E~\tilde{E} 输出: 多跳链集合 T\mathcal{T}

    1: 初始化子图三元组集合 T={t0}T = \{t_0\} 2: 初始化已添加节点集合 Eadd={s0}E_{\mathrm{add}} = \{s_0\} 3: 如果 o0E~o_0 \in \tilde{E} Eadd=Eadd{o0}E_{\mathrm{add}} = E_{\mathrm{add}} \cup \{o_0\} 4: 初始化末端节点集合 Eend=clone(Eadd)E_{\mathrm{end}} = \mathrm{clone}(E_{\mathrm{add}}) 5: # 扩展 t0t_0 的两侧以采样一个邻近三元组链 6: len(T)<h\mathtt{len}(T) < h len(Eend)>0\mathtt{len}(E_{\mathrm{end}}) > 0 7: 从 EendE_{\mathrm{end}} 中均匀采样一个实体 e = \sigma(E_{\mathrm{end}}, \mathcal{U}) 8: 对于 i=1i = 1 mm 执行 9: 随机选择一个方向函数 ftw=σ({ftwh,ftwt},U)f_{\mathrm{tw}^*} = \sigma(\{f_{\mathrm{twh}}, f_{\mathrm{twt}}\}, \mathcal{U}) (即随机选择从 ee 作为头实体或尾实体进行扩展) 10: 从 ftw(e)f_{\mathrm{tw}^*}(e) 中均匀采样一个三元组 t=σ(ftw(e),U)t = \sigma(f_{\mathrm{tw}^*}(e), \mathcal{U}) 11: 如果 t=t = \emptyset tTt \in T 继续 (尝试下一个 ii) 12: 解析三元组 tt(s, r, o) 13: 如果 {s,o}Eadd={e}\{s, o\} \cap E_{\mathrm{add}} = \{e\} 14: 跳出 (break) (避免形成循环,完成采样) 15: 从 EendE_{\mathrm{end}} 中移除 ee 16: 如果 t=t = \varnothing 继续 (尝试下一个 ii) 17: T=T{t}T = T \cup \{t\} 18: # 更新已添加节点和末端节点 19: 如果 ftw=ftwtf_{\mathrm{tw}^*} = f_{\mathrm{twt}} (从 ee 作为尾实体扩展,则新的头实体 ss 是新节点) 20: Eadd=Eadd{s}E_{\mathrm{add}} = E_{\mathrm{add}} \cup \{s\}, Eend=Eend{s}E_{\mathrm{end}} = E_{\mathrm{end}} \cup \{s\} 21: 否则 (从 ee 作为头实体扩展,则新的尾实体 oo 是新节点) 22: Eadd=Eadd{o}E_{\mathrm{add}} = E_{\mathrm{add}} \cup \{o\} 23: 如果 oE~o \in \tilde{E} Eend=Eend{o}E_{\mathrm{end}} = E_{\mathrm{end}} \cup \{o\} 24: # 将实体映射到三元组 25: M=defaultdict(list)M = \mathrm{defaultdict}(\mathrm{list}) (存储每个实体关联的三元组列表) 26: 对于 tt TT 中执行 27: 解析三元组 tt(s, r, o) 28: M[s].append(t)M[s].\mathrm{append}(t), M[o].append(t)M[o].\mathrm{append}(t) 29: # 随机选择一个实体 ee 并从两侧扩展,以构建有效的多跳 QA 链 30: 对于 ee shuffle(list(Eadd))\mathrm{shuffle}(\mathtt{list}(E_{\mathrm{add}})) 中执行 31: τ=[[t]\tau = [[t] 对于 tt M[e] 中执行 (初始化以 ee 为中心的一跳链) 32: 对于 CC τ\tau 中执行 (遍历每条链,尝试扩展) 33: ece=ee_{\mathrm{ce}} = e # 当前用于扩展链的末端节点 34: True 35: 解析链 CC 的最后一个三元组为 (s, r, o) 36: ece=se_{\mathrm{ce}} = s 如果 seces \neq e_{\mathrm{ce}} 否则 oo (找到当前链的另一个末端节点) 37: 如果 len(M[ece])=1\mathtt{len}(M[e_{\mathrm{ce}}]) = 1 38: 跳出 (break) # 末端节点,无法进一步扩展 39: t1,t2=M[ece]t_1, t_2 = M[e_{\mathrm{ce}}] (获取与 ecee_{\mathrm{ce}} 关联的两个三元组) 40: t=t1t = t_1 如果 t1C[1]t_1 \neq C[-1] 否则 t2t_2 (选择与当前链的最后一个三元组不同的那个) 41: 如果 ece=se_{\mathrm{ce}} = s ftwrt(r,o)>1\|f_{\mathrm{twrt}}(r, o)\| > 1 42: 跳出 (break) # 避免多值跳跃 (multi-valued hop) 43: 否则如果 ece=oe_{\mathrm{ce}} = o ftwhr(s,r)>1\|f_{\mathrm{twhr}}(s, r)\| > 1 44: 跳出 (break) # 避免多值跳跃 45: C.append(t)C.\mathrm{append}(t) (将新三元组添加到链中) 46: 如果 any([t0inCforCinT])\mathrm{any}([t_0 \mathrm{ in } C \mathrm{ for } C \mathrm{ in } \boldsymbol{\mathcal{T}}]) 47: 跳出 (break) # 确保 t0t_0τ\tau 中 48: # 反转每条链中三元组的顺序 49: T=[C.reverse()forCinτ]\mathcal{T} = [C.\mathrm{reverse}() \mathrm{ for } C \mathrm{ in } \tau] 50: 返回 T\mathcal{T}

    算法解释: NMCS 算法分为两部分。

    • 第一部分 (Lines 1-23): 围绕初始三元组 t0t_0 采样三元组,构建一个子图链。它通过迭代地从当前链的末端节点 EendE_{\mathrm{end}} 中随机选择一个实体 ee,然后随机选择一个方向(ee 作为头实体或尾实体),尝试采样一个新的三元组 tt。为了避免循环,如果新采样的三元组会连接回已添加的节点 EaddE_{\mathrm{add}} 中的除 ee 以外的节点,则停止扩展。同时,维护 EaddE_{\mathrm{add}}EendE_{\mathrm{end}} 集合,记录已加入的节点和可以继续扩展的末端节点。
    • 第二部分 (Lines 24-47): 在已构建的子图链的基础上,选择一个节点作为预测目标 (cloze target),并从该节点向两侧(或单侧,如果它是链的端点)扩展,形成多跳 QA 链。
      • 首先,它构建一个映射 MM,记录每个实体关联的所有三元组。
      • 然后,随机选择一个已添加的实体 ee 作为中心,并初始化以 ee 为中心的一跳链。
      • 接着,对于每条链 CC,它会从当前链的末端节点 ecee_{\mathrm{ce}} 尝试扩展。关键在于防止中间跳跃到非客体节点时出现多值情况(即一个实体-关系对可以有多个不同的尾实体),从而保持多跳提示的清晰性(Lines 41-44)。例如,如果 ecee_{\mathrm{ce}} 是头实体 ss,并且存在多个 (s, r, o') 的三元组,那么就避免这种扩展,以确保推理路径的唯一性。
    • 统一评估标准: 通过上述过程,NMCS 统一整合了原文 Table 1 中提到的所有结构相关标准以及潜在组合,包括多跳 (MH)、关系反转 (RR)、相同实体识别 (SER) 和 1-N 遗忘 (1-NF)。

4.1.5. 步骤 5:最终数据生成 (Final Data Generation)

  • 转换工具: 使用 Deepseek-V3 [48] 大型语言模型将采样的结构化编辑数据、通用性数据和局部性数据转换为自然语言文本,形成最终的数据集。
  • 生成流程: 对于每个多跳样本,首先生成每个三元组的单跳句子,然后将它们合并。
  • 数据质量保证:
    • 进行自动化检查,确认每个生成的提示 (prompt) 包含主体 (subject) 并正确指向客体 (object)。
    • 进行人工评估,进一步保证数据质量。

4.2. 数据集统计 (Dataset Statistics)

UniEdit 包含 311K 个条目,每个条目包含一个编辑样本、一个通用性样本和一个局部性样本。

Figure 3: Data count statistics of UnIEDIT across: (a) domains, (b) multi-hop counts and query chain structures (G., L., S., and D. represent generality, locality, single, and double, respectively), and (d, e) the top 15 combinations of recognized evaluation criteria. (c) displays the frequency statistics of nouns in entity descriptions.
该图像是图表,展示了UniEdit数据统计,包括各领域的数据分布(a)、结构统计(b)、描述中的名词统计(c)以及一般性和局部性标准的数据统计(d,e)。

图:UniEdit 的数据统计,包括:(a) 领域分布,(b) 多跳计数和查询链结构(G.、L.、S. 和 D. 分别代表通用性、局部性、单链和双链),以及 (d, e) 识别出的评估标准的 TOP 15 组合。(c) 显示了实体描述中名词的频率统计。

  • 领域覆盖: 原文 Figure 3a 所示,涵盖 25 个不同领域,确保了广泛的知识覆盖。
  • 结构多样性: 原文 Figure 3b 详细展示了多跳计数和查询链结构,包括单链和双链,以及通用性和局部性样本的分布。
  • 名词频率分布: 原文 Figure 3c 报告了原始 Wikidata 和 UniEdit 中实体描述的名词频率分布,显示出明显的长尾模式。UniEdit/原始频率的归一化比率表明,数据构建过程有效地减少了长尾效应,实现了更平衡的分布。
  • 评估标准组合: 原文 Figure 3d 和 3e 展示了识别出的评估标准的 TOP 15 组合,突显了数据集在评估复杂组合场景方面的能力。

4.3. 编辑评估标准详解 (Appendix A)

本节详细介绍 UniEdit 中识别的通用性 (Generality) 和局部性 (Locality) 的细粒度评估标准。

4.3.1. 通用性标准 (Criteria for Generality)

通用性标准评估编辑后的模型在多大程度上能够将已编辑知识泛化到相关但非完全相同的查询中。

  • 释义 (Rephrase, Rep):
    • 概念定义: 最直接的通用性标准,评估模型能否识别并响应对已编辑知识的语义等价但句法结构不同的查询。
    • 数学公式: fllm(fnl(sε,rε))=oεf'_{\mathrm{llm}}(f'_{\mathrm{nl}}(s_\varepsilon, r_\varepsilon)) = o_\varepsilonfllm(fnl(oε,rε))=sεf'_{\mathrm{llm}}(f'_{\mathrm{nl}}(o_\varepsilon, r_\varepsilon)) = s_\varepsilon,其中 fnlf'_{\mathrm{nl}} 是与 fnlf_{\mathrm{nl}} 句法结构不同的自然语言生成函数。
    • 符号解释:
      • fllmf'_{\mathrm{llm}}:编辑后的 LLM。
      • fnlf'_{\mathrm{nl}}:生成不同句法结构自然语言前缀的函数。
      • sεs_\varepsilon:编辑请求中的头实体。
      • rεr_\varepsilon:编辑请求中的关系。
      • oεo_\varepsilon:编辑请求中的尾实体。
  • 多跳 (Multi-Hop, MH):
    • 概念定义: 评估模型能否基于一系列相连的编辑知识(形成一个推理链)进行多步推理,从而推断出最终的实体。
    • 数学公式: 给定编辑集合 E={(fnl(sε0,rε0),oε0)}{(fnl(oεi1,rεi),oεi)}i=1τ\mathcal{E} = \{(f_{\mathrm{nl}}(s_{\varepsilon_0}, r_{\varepsilon_0}), o_{\varepsilon_0})\} \cup \{(f_{\mathrm{nl}}(o_{\varepsilon_{i-1}}, r_{\varepsilon_i}), o_{\varepsilon_i})\}_{i=1}^\tau,评估 fllm(fnl(sε0,rε0,rε1,))=oετf'_{\mathrm{llm}}(f'_{\mathrm{nl}}(s_{\varepsilon_0}, r_{\varepsilon_0}, r_{\varepsilon_1}, \dots)) = o_{\varepsilon_\tau}
    • 符号解释:
      • sε0s_{\varepsilon_0}:推理链的起始头实体。
      • rεir_{\varepsilon_i}:推理链中的第 ii 个关系。
      • oετo_{\varepsilon_\tau}:推理链的最终尾实体。
      • fnl()f'_{\mathrm{nl}}(\dots):生成多跳查询的自然语言函数。
  • 关系反转 (Relation Reversal, RR):
    • 概念定义: 评估模型能否根据已编辑知识的尾实体和反向关系来推断出头实体。
    • 数学公式: 给定编辑 E={(fnl(sε,rε),oε)}\mathcal{E} = \{(f_{\mathrm{nl}}(s_\varepsilon, r_\varepsilon), o_\varepsilon)\},评估 fllm(fnl(oε,rε))=sεf'_{\mathrm{llm}}(f_{\mathrm{nl}}(o_\varepsilon, r'_\varepsilon)) = s_\varepsilon,其中 rεr'_\varepsilonrεr_\varepsilon 的逆关系。
    • 符号解释:
      • rεr'_\varepsilon:关系 rεr_\varepsilon 的逆关系。
  • 相同实体识别 (Same Entity Recognition, SER):
    • 概念定义: 评估模型能否正确判断两个不同的查询(可能涉及不同的关系或头实体)指向的是同一个实体。通常表现为判断题。
    • 数学公式: 给定 E={(fnl(sε1,rε1),oε1),(fnl(sε2,rε2),oε1)}\mathcal{E} = \{(f_{\mathrm{nl}}(s_{\varepsilon_1}, r_{\varepsilon_1}), o_{\varepsilon_1}), (f_{\mathrm{nl}}(s_{\varepsilon_2}, r_{\varepsilon_2}), o_{\varepsilon_1})\},评估 fllmf'_{\mathrm{llm}} 能否正确判断 fnl(oε1,rε1)f_{\mathrm{nl}}(o_{\varepsilon_1}, r_{\varepsilon_1})fnl(oε2,rε2)f_{\mathrm{nl}}(o_{\varepsilon_2}, r_{\varepsilon_2}) 指的是同一个实体。
    • 符号解释:
      • sε1,rε1,sε2,rε2s_{\varepsilon_1}, r_{\varepsilon_1}, s_{\varepsilon_2}, r_{\varepsilon_2}:与同一个尾实体 oε1o_{\varepsilon_1} 相关的不同头实体和关系。
      • 该标准通常通过将两个提示合并为一个判断问题来评估。
  • 主体别名 (Subject Alias, SA):
    • 概念定义: 评估模型能否识别已编辑知识的头实体别名,并为该别名提供正确的响应。
    • 数学公式: 给定 E={(fnl(sε,rε),oε)}\mathcal{E} = \{(f_{\mathrm{nl}}(s_\varepsilon, r_\varepsilon), o_\varepsilon)\},评估 fllm(fnl(sε,rε))=oεf'_{\mathrm{llm}}(f_{\mathrm{nl}}(s'_\varepsilon, r_\varepsilon)) = o_\varepsilon,其中 sεs'_\varepsilonsεs_\varepsilon 的别名。
    • 符号解释:
      • sεs'_\varepsilon:头实体 sεs_\varepsilon 的别名。
  • 客体别名 (Object Alias, OA):
    • 概念定义: 评估模型能否在给定已编辑知识的头实体和关系后,预测出尾实体的别名。
    • 数学公式: 给定 E={(fnl(sε,rε),oε)}\mathcal{E} = \{(f_{\mathrm{nl}}(s_\varepsilon, r_\varepsilon), o_\varepsilon)\},评估 fllm(fnl(sε,rε))=oεf'_{\mathrm{llm}}(f_{\mathrm{nl}}(s_\varepsilon, r_\varepsilon)) = o'_\varepsilon,其中 oεo'_\varepsilonoεo_\varepsilon 的别名。
    • 符号解释:
      • oεo'_\varepsilon:尾实体 oεo_\varepsilon 的别名。
    • 在评估时,通常检查模型预测的词元序列中是否包含相应的别名词元序列。

4.3.2. 局部性标准 (Criteria for Locality)

局部性标准评估编辑后的模型在与编辑知识无关的查询上保持其原始行为的能力。局部性的挑战主要来源于其与编辑三元组 tε=(sε,rε,oε)t_\varepsilon = (s_\varepsilon, r_\varepsilon, o_\varepsilon) 的重叠程度。

  • 完全无关 (Completely unrelated, W/O):
    • 概念定义: 期望编辑后的模型对与编辑三元组 tεt_\varepsilon 完全无关的查询保持原始响应。
    • 数学公式: fllm(fnl(s,r))=fllm(fnl(s,r))f'_{\mathrm{llm}}(f_{\mathrm{nl}}(s, r)) = f_{\mathrm{llm}}(f_{\mathrm{nl}}(s, r)),其中 {s}{sε,oε}=\{s\} \cap \{s_\varepsilon, o_\varepsilon\} = \varnothingrrεr \neq r_\varepsilon
    • 符号解释:
      • s, r:与编辑三元组无关的头实体和关系。
      • \varnothing:空集。
      • 此情况对应于无交叉 (non-crossed) 情况。
  • 主体特异性 (Subject Specificity, SS):
    • 概念定义: 期望编辑后的模型对与编辑三元组共享头实体 sεs_\varepsilon 但关系 rr 不同的查询保持原始响应。
    • 数学公式: fllm(fnl(sε,r))=fllm(fnl(sε,r))f'_{\mathrm{llm}}(f_{\mathrm{nl}}(s_\varepsilon, r)) = f_{\mathrm{llm}}(f_{\mathrm{nl}}(s_\varepsilon, r)),其中 rrεr \neq r_\varepsilon
    • 符号解释:
      • 此情况对应于主体交叉 (subject-crossed) 情况。
  • 关系特异性 (Relation Specificity, RS):
    • 概念定义: 期望编辑后的模型对与编辑三元组共享关系 rεr_\varepsilon 但头实体 ss 和尾实体 oo 都不同的查询保持原始响应。
    • 数学公式: fllm(fnl(s,rε))=fllm(fnl(s,rε))f'_{\mathrm{llm}}(f_{\mathrm{nl}}(s, r_\varepsilon)) = f_{\mathrm{llm}}(f_{\mathrm{nl}}(s, r_\varepsilon)),其中 {s}{sε,oε}=\{s\} \cap \{s_\varepsilon, o_\varepsilon\} = \varnothing
    • 符号解释:
      • 此情况对应于关系交叉 (relation-crossed) 情况。
  • 客体特异性 (Object Specificity, OS):
    • 概念定义: 期望编辑后的模型对与编辑三元组共享尾实体 oεo_\varepsilon 但关系 rr 不同的查询保持原始响应。
    • 数学公式: fllm(fnl(oε,r))=fllm(fnl(oε,r))f'_{\mathrm{llm}}(f_{\mathrm{nl}}(o_\varepsilon, r)) = f_{\mathrm{llm}}(f_{\mathrm{nl}}(o_\varepsilon, r)),其中 rrεr \neq r_\varepsilon
    • 符号解释:
      • 此情况对应于客体交叉 (object-crossed) 情况。
  • 1-N 遗忘 (1-N Forgotten, 1-NF):
    • 概念定义: 对于一个一对多 (one-to-many) 关系 rεr_\varepsilon,该标准期望编辑后的模型在被编辑特定尾实体 oεo_\varepsilon 后,仍然能回忆起该头实体 sεs_\varepsilon 和关系 rεr_\varepsilon 所对应的其他所有非 oεo_\varepsilon 的尾实体。

    • 数学公式: fllm(fnloε(sε,rε))=fllm(fnloε(sε,rε))f'_{\mathrm{llm}}(f_{\mathrm{nl}\setminus o_\varepsilon}(s_\varepsilon, r_\varepsilon)) = f_{\mathrm{llm}}(f_{\mathrm{nl}\setminus o_\varepsilon}(s_\varepsilon, r_\varepsilon)),其中 fnloε(sε,rε)f_{\mathrm{nl}\setminus o_\varepsilon}(s_\varepsilon, r_\varepsilon) 提示 LLM 回忆除 oεo_\varepsilon 之外的客体。

    • 符号解释:

      • 此情况对应于主体-关系交叉 (subject-relation-crossed) 情况。
    • 此外,由于主体和客体的对称性,NMCS 也相应引入了客体-关系交叉 (object-relation-crossed) 情况,其公式为 fllm(fnlsε(oε,rε))=fllm(fnlsε(oε,rε))f'_{\mathrm{llm}}(f_{\mathrm{nl}\setminus s_\varepsilon}(o_\varepsilon, r'_\varepsilon)) = f_{\mathrm{llm}}(f_{\mathrm{nl}\setminus s_\varepsilon}(o_\varepsilon, r'_\varepsilon)),其中 rεr'_\varepsilonrεr_\varepsilon 的逆关系,也遵循一对多映射。

      上述定义仅涵盖了单个标准。基于 NMCS 和别名的随机选择,这些标准可以形成各种组合,从而构成更具挑战性和全面性的编辑评估。

以下是原文 Table 3 和 Table 4 中展示的 UniEdit 实例,以帮助理解通用性和局部性标准。

以下是原文 Table 3 的结果:

DomainsEdit SamplesCriteria InstancesStructures
ComputerScienceThe port of the Firefox web browserto the AmigaOS 4 platform, known asTimberwolf, was first created in →2010 ADRepThe inception of Timberwolfoccurred in 2010 AD.SE 0ε
ChemistryThe meteorite known as Alkali wasdiscovered in → Nevada (NV, Nevada,United States).MHThe minimum temperature everrecorded in the location whereAlkali was discovered is −50degree Fahrenheit.eA
AgronomyThe subspecies of plant Saturejahorvatii subsp. macrophylla has thebasionym → Satureja parnassica var.macrophylla.RRThe taxon that has the basionymSatureja parnassica var. macrop-hylla isSatureja horvatii subsp. macrophylla.
PoliticalScienceThe book "Rechtsstaat statt Revolution,Verrechtlichung statt Demokratie?",discussing German and Spanish theoryof law and political history, was editedby → Frieder Otto Wolf.SERIs the editor of "Rechtsstaat stattRevolution, Verrechtlichung st-att Demokratie?" the same asthe editor of "Die Tätigkeit derPhilosophen"? Yes.Sε OεCeB
CivilEngineeringGeotechnical engineering (also knownas geotechnics) is a specialized branchof → construction engineering.SAGeotechnics is a subclass ofconstruction engineering.Se Oε
ArtThe musical composition Die Weihn-achtsgeschichte was composed by →Hugo Distler (August Hugo Distler).OAThe composer of Die Weihnac-htsgeschichte is August HugoDistler.OE
MedicineThe genetic variant VHL I180V (c.538A>G) (also known as I180V (c.538A>G or C.538A>G) is located on →human chromosome 3 (chr3, Homosapiens chromosome 3).MH,RR,SAThe genetic variant located onthe same chromosome as MIR1263 is C.538A>G.0εec

以下是原文 Table 4 的结果:

DomainsEdit SamplesCriteria InstancesStructures
MathematicsA graded Lie algebra, which is a Liealgebra equipped with a grading compatiblewith the Lie bracket, is defined by theg = Z giformula → [-,-]: gi gj → gi+j.ZW/OThe width of the artwork depictingthe marriage of the archduke Maximilian of Austria and the duchessMary of Burgundy, created in 1635,is 175 centimeters.eD CE
HistoryDou Rong, a high minister during the earlydecades of the Later Han period, was giventhe posthumous name →(Dai).SSThe sibling of Dou Rong is DouYou.SerFeF
LiteratureThe poetry collection Erlösungen, whichcontains autobiographical references byRichard Dehmel, is dedicated toFriedrich Nietzsche.RSToyagasaki-jinja is dedicated toToyotama-hime.CeGrEeH
GeoscienceThe Neodani Fault in Japan was causedby → 1891 Nbi earthquake (Nobi earth-quake).OSThe coordinate location of the1891 Nbi earthquake is Earth:latitude 35.60, longitude 136.30.0ε e1
BiologyThe cell type known as transitional B cell(also referred to as Transitional B cell)was discovered by → David Allman (res-earcher, ORCID 0000-0003-2732-2686).1-NFThe cell type discovered or inventedby Michael P Cancro is transitionalB cell.Sε e
AstronomyThe diameter of the Helen Sawyer HoggTelescope (also known as HSHT or CAS-LEO:HSHT) is → 0.61 metre.MH,SSThe asteroid discovered at the astr-onomical complex that includesHelen Sawyer Hogg Telescope is2189 Zaragoza.eK eLS8

5. 实验设置

本节详细介绍 UniEdit 基准测试中的实验设置,包括 LLM 主干网络、基线编辑器、评估指标以及实验环境。

5.1. 数据集

实验主要基于本文提出的 UniEdit 基准

  • 规模: UniEdit 包含 311K 个条目,每个条目都包含一个编辑样本 (editing sample)、一个通用性样本 (generality sample) 和一个局部性样本 (locality sample)。总计 933,426 个 QA 样本。

  • 领域覆盖: 数据集涵盖了来自五大类别的 25 个常见领域,确保了广泛的知识覆盖。

  • 数据类型多样性: 数据集中包含了实体 (Entity)、关系 (Relation)、字符串 (String)、数量 (Quantity)、时间 (Time)、数学表达式 (Math)、地理坐标 (Coord.) 和单语文本 (MNLT) 等多种数据类型的尾实体。

    以下是原文 Table 6 的结果:

    Types Data Entity Relation String Quantity Time Math Coord. MNLT
    Edit 311,142 363,014 1,770 13,434 29,211 26,669 2,377 4,940 167
    Generality 311,142 440,772 1,864 15,220 35,889 33,416 2,637 7,810 192
    Locality 311,142 394,889 1,784 16,126 31,417 31,427 1,730 19,506 128
    Union 933,426 703,282 1,934 44,780 96,517 91,512 6,744 32,256 487

5.2. LLM 主干网络 (LLM Backbones)

为了评估不同规模和架构的 LLMs,实验选择了以下三种主干网络:

  • GPT2-XL (1.5B):一个 15 亿参数的 Transformer 模型,代表较小的 LLM。
  • GPT-J (6B):一个 60 亿参数的 Transformer 模型,参数量适中。
  • LLaMa-3.1 (8B):一个 80 亿参数的 Transformer 模型,代表当前主流的开源 LLM。

5.3. 对比基线 (Editors)

实验评估了多种类型的知识编辑器,包括修改模型参数的方法、使用外部模块的方法,以及基于上下文学习的方法。

5.3.1. 直接编辑 (Direct Editing) 方法

这些方法直接修改模型内部参数。

  • 微调 (Fine-Tuning, FT):通过对 LLM 的一个中间层进行微调,直到达到最大迭代次数。这是一种直接修改模型参数的通用方法。
  • ROME [16] (Rank-One Model Editing):利用归因分析 (attribution analysis) 定位模型中最具影响力的层,然后对其权重矩阵执行秩一更新 (rank-one update) 来注入新知识。
  • AlphaEdit [33]:在 ROME 的基础上改进,通过将更新投影到保留知识的零空间 (null space) 中,以增强局部性 (locality) 并减少对现有知识的干扰。
  • T-Patcher [38]:通过在其最终层的 FFN (Feed-Forward Network) 中集成和训练额外的神经元来修改 LLM。
  • GRACE [39]:引入基于检索的适配器 (retrieval-based adaptors),专为持续编辑设计,利用字典式结构为需要修改的表示构建新的映射。

5.3.2. 利用编辑先验 (Editing Priors) 的方法

这些方法利用外部信息或训练数据来指导编辑。

  • SERAC [37] (SERvice for Adaptive Contexts):在内存中维护编辑样本,并使用一个范围分类器 (scope classifier) 来识别相关输入。这些相关输入将被路由到一个反事实模型 (counterfactual model) 来生成修改后的响应。实验中,使用 multi-qa-mpnet-base-dot-v1 [54] 作为分类器,OPT-125 [55] 作为反事实模型。

  • IKE [44] (In-Context Editing):利用训练样本作为上下文信息,使 LLM 通过上下文学习 (in-context learning) 来根据编辑要求调整相关输入。实验中,通过从 UniEdit 训练集中随机采样多个示例构建上下文,直到达到 LLM 的上下文限制,并为测试输入保留空间。

    以下是原文 Table 8 的结果:

    Editors Backbones Iterations Optimizers Learning Rate Modified Layer
    FT GPT2-XL 25 AdamW 5e-4 21
    GPT-J 25 AdamW 5e-4 21
    LlaMa-3.1 25 AdamW 5e-4 21
    ROME [16] GPT2-XL 20 Adam 5e-1 17
    GPT-J 20 Adam 5e-1 5
    LlaMa-3.1 25 Adam 5e-1 5
    T-Patcher [38] GPT2-XL 75 Adam 1e-2 47
    GPT-J 75 Adam 1e-2 27
    LlaMa-3.1 75 Adam 1e-2 31
    GRACE [39] GPT2-XL 100 Adam 1 35
    GPT-J 100 Adam 1 25
    LlaMa-3.1 100 Adam 1 27
    AlphaEdit [33] GPT2-XL 20 Adam 5e-1 13, 14, 15, 16, 17
    GPT-J 25 Adam 5e-1 3, 4, 5, 6, 7, 8
    LlaMa-3.1 25 Adam 1e-1 4, 5, 6, 7, 8

5.4. 评估指标 (Evaluation Metrics)

在模型编辑中,通常关注以下三个核心指标:可靠性 (Reliability)、通用性 (Generality) 和局部性 (Locality)。

  • 可靠性 (Reliability)
    • 概念定义: 衡量编辑后的模型能否准确地回忆起其自身被编辑的知识。如果模型能输出正确的编辑内容,则认为可靠性高。
    • 数学公式: 通常计算为正确回答编辑请求的比例。 Reliability=1Ei=1EI(fllm(qεi)=oεi) \mathrm{Reliability} = \frac{1}{|\mathcal{E}|} \sum_{i=1}^{|\mathcal{E}|} \mathbb{I}(f'_{\mathrm{llm}}(q_{\varepsilon_i}) = o_{\varepsilon_i})
    • 符号解释:
      • E|\mathcal{E}|:编辑请求的总数量。
      • I()\mathbb{I}(\cdot):指示函数,如果条件为真则为 1,否则为 0。
      • fllm(qεi)f'_{\mathrm{llm}}(q_{\varepsilon_i}):编辑后的 LLM 对第 ii 个编辑查询 qεiq_{\varepsilon_i} 的输出。
      • oεio_{\varepsilon_i}:第 ii 个编辑查询的正确答案。
  • 通用性 (Generality)
    • 概念定义: 衡量编辑后的模型能否将已编辑知识泛化到与编辑样本语义相关但形式不同(如释义、多跳推理、别名等)的查询。
    • 数学公式: 通常计算为正确回答通用性查询的比例。 Generality=1G(E)(qg,og)G(E)I(fllm(qg)=og) \mathrm{Generality} = \frac{1}{|\mathcal{G}(\mathcal{E})|} \sum_{(q_g, o_g) \in \mathcal{G}(\mathcal{E})} \mathbb{I}(f'_{\mathrm{llm}}(q_g) = o_g)
    • 符号解释:
      • G(E)|\mathcal{G}(\mathcal{E})|:通用性查询的总数量。
      • G(E)\mathcal{G}(\mathcal{E}):与编辑集合 E\mathcal{E} 相关的通用性查询集合。
      • fllm(qg)f'_{\mathrm{llm}}(q_g):编辑后的 LLM 对通用性查询 qgq_g 的输出。
      • ogo_g:通用性查询 qgq_g 的正确答案。
  • 局部性 (Locality)
    • 概念定义: 衡量编辑后的模型在与编辑知识无关的查询上,保持其原始模型行为一致性的能力,以避免引入不期望的副作用。
    • 数学公式: 通常计算为编辑后的模型与原始模型在无关查询上保持一致的比例。 Locality=1L(E)(ql,ol)L(E)I(fllm(ql)=fllm(ql)) \mathrm{Locality} = \frac{1}{|\mathcal{L}(\mathcal{E})|} \sum_{(q_l, o_l) \in \mathcal{L}(\mathcal{E})} \mathbb{I}(f'_{\mathrm{llm}}(q_l) = f_{\mathrm{llm}}(q_l))
    • 符号解释:
      • L(E)|\mathcal{L}(\mathcal{E})|:局部性查询的总数量。
      • L(E)\mathcal{L}(\mathcal{E}):与编辑集合 E\mathcal{E} 无关的局部性查询集合。
      • fllm(ql)f'_{\mathrm{llm}}(q_l):编辑后的 LLM 对局部性查询 qlq_l 的输出。
      • fllm(ql)f_{\mathrm{llm}}(q_l):原始 LLM 对局部性查询 qlq_l 的输出。
  • 具体计算方式:
    • 对于尾实体预测,如果模型在 top-5 预测中包含正确的对象词元 (token),则认为预测正确。
    • 对于判断型查询(如相同实体识别),则基于 top-1 预测进行评估。
    • 对于多跳查询,会首先检查 LLM 是否已知非编辑的跳步。如果未知,则临时将单跳样本编辑到模型中,以弥合多跳查询的鸿沟。

5.5. 实验环境 (Environment)

所有实验均在一个高性能计算平台进行,该平台配备:

  • CPU: 双路 Intel Xeon Gold 5320 CPU (52 核)。
  • GPU: 两块 NVIDIA A800 GPU。
  • 操作系统: Ubuntu 20.04.6 LTS。
  • Python 环境: 版本 3.11.9。

6. 实验结果与分析

6.1. 核心结果分析

6.1.1. 整体性能 (Overall Performance)

以下是原文 Table 2 的结果:

Editors GPT2-XL (1.5B) GPT-J (6B) LlaMa-3.1 (8B)
Rel. Gen. Loc. Average Rel. Gen. Loc. Average Rel. Gen. Loc. Average
W/O 29.69 28.04 100.0 52.58±0.05 35.34 33.04 100.0 56.13±0.03 43.68 51.81 100.0 65.16±0.02
FT 100.0 49.46 89.72 79.73±0.07 100.0 57.25 91.26 82.84±0.24 100.0 69.00 93.54 87.51±0.17
IKE [44] 99.93 76.46 83.35 86.58±0.12 99.80 79.05 84.31 87.72±0.20 93.54 89.52 80.79 87.95±0.30
ROME [16] 92.02 35.84 96.76 74.87±0.17 98.98 45.33 96.41 80.24±0.05 75.81 51.38 95.12 74.10±0.13
SERAC [37] 99.46 78.79 88.06 88.77±0.10 99.16 81.32 86.59 89.02±0.17 98.96 83.66 84.25 88.96±0.08
T-Patcher [38] 82.28 45.40 97.27 74.98±0.21 91.24 48.16 93.23 77.54±0.33 73.03 49.83 83.27 68.71±0.20
GRACE [39] 99.68 28.00 99.99 75.89±0.03 99.99 33.16 99.97 77.71±0.05 99.92 51.89 99.97 83.93±0.11
AlphaEdit [33] 92.26 37.20 95.90 75.12±0.30 99.77 43.91 97.60 80.43±0.31 84.09 55.10 98.72 79.30±0.24
  • 预编辑 LLMs 表现不佳: 由于领域知识通常遵循长尾分布,未经编辑的 LLMs (W/O) 在可靠性和通用性方面表现较差,但局部性为 100%(因为模型未被修改,所有无关查询都保持原始响应)。
  • 可靠性普遍较高: 大多数编辑器能有效引导 LLMs 整合预期编辑,从而实现高可靠性。尤其微调 (FT) 在所有三个主干网络上均达到 100% 的可靠性,但可能存在过拟合问题。
  • 通用性是主要挑战: 编辑器普遍难以应对 UniEdit 中更具挑战性的通用性评估。
    • L&E 方法的局限: ROME 和 AlphaEdit 等基于 L&E 的方法,尽管在其论文中报告在简单释义 (rephrases) 上表现良好,但在 UniEdit 的复杂通用性评估中表现欠佳。T-Patcher 和 GRACE 也面临类似问题。这些方法直接通过编辑语句进行反向传播 (backpropagation),但往往忽视 LLM 在更广泛语境中应用注入知识的能力。
    • IKE 和 SERAC 表现最佳: IKE 和 SERAC 在通用性方面表现最好,这得益于它们通过上下文学习 (in-context learning) 和编辑训练 (edit training) 学习到的先验知识。然而,过度依赖先验知识可能导致局部性分数相对较低。
    • GRACE 的局部性优势: GRACE 通过其基于词元 (token-based) 的线性距离检索机制,避免了不相关样本的干扰,从而实现了高局部性。然而,其对表示空间中线性语义结构的强假设严重限制了其泛化编辑的能力。

6.1.2. 跨领域性能 (Performance Across Domains)

Figure 4: Editing performance on UnIEDIT across domains, with each metric representing the average result across three post-edit backbones. The color bands (top to bottom) indicate reliability (green), generality (blue), and locality (red), with ranges normalized across domains (rows). 该图像是一个表格,展示了不同编辑方法在 UniEdit 基准测试中的编辑性能,涵盖多个领域。各项指标的数值代表三个后编辑架构的平均结果,色带表示可靠性(绿色)、一般性(蓝色)和局部性(红色),且数值已在各领域中标准化。

图:UniEdit 在不同领域上的编辑性能,每个指标代表三个后编辑主干网络的平均结果。色带(从上到下)表示可靠性(绿色)、通用性(蓝色)和局部性(红色),其范围在各个领域(行)中已标准化。

  • 可靠性在领域间变化不大: 编辑器在可靠性方面的表现跨领域变化不大,相对稳定。
  • 通用性表现存在领域偏差: 所有编辑器在通用性上都表现出相对一致的分布:在自然科学 (Natural Sciences) 和人文学科 (Humanities) 领域得分较高,而在社会科学 (Social Sciences) 和应用科学 (Applied Sciences) 领域得分较低。这可能源于 LLMs 预训练语料库的分布偏差,使得模型在表示充分的领域中泛化已整合知识的能力更强。
  • 局部性表现不一致: 不同编辑器在不同领域上的局部性表现分布不尽一致。然而,所有编辑器在人文学科领域都取得了相对较高的分数。这可能归因于模型在预训练期间接触了更多的文学内容,从而获得了更高的鲁棒性。
  • 重要启示: 这些观察结果强调了开放域知识编辑的重要性,特别是对于在现有预训练语料库中代表性不足或资源匮乏的领域,应在未来研究中优先关注。

6.1.3. 跨评估标准性能 (Performance Across Evaluation Criteria)

Figure 5: Editing performance across combinations of generality and locality evaluation criteria. The left half of each radar chart shows the evaluation results for a single criterion, while the symmetrical right half reflects the results after combining it with others. 该图像是图表,展示了不同模型在一般性和局部性评估标准上的编辑性能。图中左半部分的雷达图显示单一标准的评估结果,右半部分则反映了与其他标准结合后的结果。

图:通用性和局部性评估标准组合下的编辑性能。每个雷达图的左半部分显示单一标准的评估结果,而对称的右半部分则反映了与其它标准组合后的结果。

  • 通用性:复杂性增加,性能下降
    • 大多数编辑器在更复杂的评估(例如,释义 Rep 与 Rep、客体别名 OA 和主体别名 SA 的组合,或 SA 与关系反转 RR、多跳 MH、OA 和 SA 的组合)上得分较低。
    • 这表明编辑信息是自然语言句子的一部分,当它覆盖多个评估标准时,结构越复杂,已编辑知识就越难被识别和应用。
    • IKE 的例外: IKE 在 OA 和 RR、MH、OA 组合上的表现存在例外。这可能归因于 UniEdit 中组合的频率高于单独的 OA(见 Figure 3d),导致上下文学习的示例中存在采样偏差。
  • 局部性:复杂性可能不导致性能下降,甚至改善
    • 与通用性不同,在局部性评估中加入多跳 MH 并未导致性能下降。在某些情况下,性能甚至有所提高,例如主体特异性 SS 与 SS 和 MH 组合的结果。
    • 这可能是因为复杂的句子减少了局部性输入与已编辑知识之间重叠组件的可能性,从而防止了对模型原始响应的干扰。
    • OS 和 RS 组合的例外: 客体特异性 OS 和关系特异性 RS 的组合是一个例外,它与编辑样本产生了双重重叠,使评估比单独的 OS 更具挑战性。
    • 总结: 总体而言,复杂性的增加对通用性的挑战远大于局部性。

6.1.4. 编辑训练的领域泛化能力 (Domain Generalization of Edit Training)

Figure 6: Editing performance of SERAC trained on five domains from different sectors in UnIEDIT, using GPT2-XL as the backbone. The color bands (top to bottom) represent reliability (green), generality (blue), and locality (red), with ranges normalized across domains (columns). 该图像是一个表格,展示了SERAC在UnIEDIT中五个不同领域的编辑性能。表格中以颜色带表示可靠性(绿色)、一般性(蓝色)和局部性(红色),以便于不同领域的性能比较。

图:SERAC 在 UniEdit 中五个不同领域的训练编辑性能,使用 GPT2-XL 作为主干网络。色带(从上到下)表示可靠性(绿色)、通用性(蓝色)和局部性(红色),其范围在各个领域(列)中已标准化。

  • 领域内训练效果显著: 图中前五列清楚显示,在特定领域进行训练会使得模型在该对应领域上的性能更好。
  • 相似领域间的泛化: 在可靠性和通用性方面,可以观察到相似或重叠的训练和测试领域往往会产生更好的结果,例如在化学 (Chemistry) 领域训练后在生物学 (Biology) 领域的表现,或在数据科学 (Data Science) 领域训练后在计算机科学 (Computer Science) 领域的表现。
  • 局部性领域间差异小: 对于局部性,由于这些样本与每个领域的相关性有限(通常只涉及一小部分领域特定元素),不同训练领域之间的结果差异最小。
  • 训练数据规模的重要性: 与 Figure 4 相比,SERAC 的编辑性能(特别是通用性方面)显著下降。这一分析表明,训练数据的规模和广度显著影响基于编辑训练的编辑方法的有效性。

6.1.5. 顺序编辑 (Sequential Editing)

Figure 10: Sequential editing performance of different editors on UnIEDIT across three backbones IKE is omitted as it does not support sequential edits. 该图像是图表,展示了不同编辑器在 UniEdit 基准测试中对三种语言模型的顺序编辑性能。图表包括 GPT2-XL、GPT-1 和 LLaMa 3.1 的准确率随编辑次数变化的趋势,横轴为顺序编辑次数,纵轴为准确率,同时包含 W/O 情况下的表现。

图:不同编辑器在 UniEdit 上对三个主干网络的顺序编辑性能。IKE 因不支持顺序编辑而被省略。

  • 性能随编辑次数增加而下降: 大多数编辑器在不同主干网络上的性能下降趋势是一致的。随着编辑次数的增加,编辑性能普遍下降,其中 ROME 的下降最为严重。
  • AlphaEdit 增强鲁棒性: AlphaEdit 通过零空间投影 (null-space projection) 显著提高了 ROME 式方法对编辑数量的鲁棒性。
  • 检索机制方法的鲁棒性: GRACE 和 SERAC 等整合了检索机制的方法,在顺序编辑中表现出最高的鲁棒性。值得注意的是,GRACE 的性能即使在大量编辑后也几乎保持不变。然而,其强大的线性语义假设严重限制了其检索相关样本的能力,导致通用性得分几乎与未经编辑的模型相同。
  • SERAC 的优势: 相比之下,SERAC 受益于编辑训练,这有助于检索语义相关的知识,从而带来强大的通用性和鲁棒性。这凸显了构建有效编辑训练数据集对于增强知识编辑的重要性。

6.1.6. 顺序编辑后的通用性能 (General Performance after Sequential Editing)

以下是原文 Table 9 的结果:

Editor CSQA MMLU ANLI SQUAD-2 Average
W/OFTROMESERACT-PatcherGRACEAlphaEdit 70.52 61.27 34.60 35.24 50.41
55.12 53.73 33.73 12.69 38.82
20.88 22.33 33.07 0.01 19.07
70.31 60.70 34.08 34.69 49.95
19.25 25.73 32.20 2.17 19.84
70.23 61.05 34.12 34.81 50.05
69.15 60.48 33.81 33.51 49.24
  • L&E 方法的通用性能退化: ROME 和 T-Patcher 等 L&E 类型方法,由于累积的权重更新导致参数范数增长和模型稳定性受损,在 1000 次编辑后,在 CSQA、ANLI、MMLU 和 SQuAD-2 等通用基准上的性能显著下降。AlphaEdit 通过零空间投影缓解了这一问题。
  • 外部模块方法的优势: 基于外部模块的方法通常表现更好,特别是带有检索机制的方法(SERAC、GRACE),因为它们可以绕过与已编辑知识语义距离较远的输入。
  • FT 的表现: 尽管早期对灾难性遗忘存在担忧,但微调 (FT) 在顺序编辑中比某些 L&E 方法更好地保持了通用性能。
  • 通用性能与局部性的正相关性: 通过与 Figure 10 的比较,可以观察到通用性能退化与局部性退化之间存在正相关性。这归因于通用评估样本通常独立于已编辑样本,因此可以被视为一种局部性评估。

6.1.7. 实例分析 (Instance Analysis)

对 GPT2-XL 在 UniEdit 中代表性案例的输出进行了分析(Table 10, 11, 12)。

  • 预编辑模型: GPT2-XL 在编辑前未能给出正确答案。
  • 编辑后可靠性与局部性: 大多数编辑器在编辑后能够高度可靠地遵循编辑指令,并保持输出与原始模型在局部性样本上的一致性。但 IKE 表现出相对较差的局部性,其输出中包含了部分上下文学习指令。
  • 通用性显著差异: 编辑器之间最显著的差异在于通用性。
    • 在多跳 (MH) 通用性评估中(Table 10 和 Table 11),尽管额外的中间跳步也被编辑到模型中,但只有 IKE 能够正确预测最终答案。这突显了编辑器在整合和利用多个相关编辑方面的共同弱点。

    • 在非 MH 通用性评估中(Table 12),大多数编辑器(SERAC 除外)仍然未能泛化反向关系事实:生成的前几个词元与原始模型 (W/O) 相同。SERAC 在生成正确答案后,开始产生重复或无意义的词元。这表明 SERAC 的反事实模型的有效性在很大程度上决定了其对编辑相关输入响应的质量。

      以下是原文 Table 10 的结果:

      Instance(Astronomy) Edit (Reliability) Generality (MH, OA) Locality (OS)
      The planetary nebula NAME PNJo 1 is located in the constellation→ Cepheus (Cep, Cephei) The constellation of NAME PN Jo 1 shares a border with Cygnus The area of Cepheus is 589 square degree
      W/O of Pisces. It is a planetary nebula,a star-forming region … the constellation of NU 1.\n\nTheconstellation of NAME PN. .. a large, flat plain, with a fewhills and a few small hills .…
      FT Cepheus (Cep, Cephei) in the constellation Cep, Cephei (Cep … the constellation of VENUS (VEN) and the constellation of C . the most important for the study of the evolution of the …
      IKE Cepheus (Cep, Cephei)|n\n<NewFacts>:In\nThe planet Neptune .. Cygnus\n\n<New Facts>:In\nTheplanet of the same name is .. approximately 1,000,000 km2\n\n<Query Answer>:In|nThe area of C.
      ROME Cepheus (Cep, Cephei) and is located in the constellation C … a bright star KIC 8462852 (KIC 8462852) with a magnitude of .… a large, flat plain, with a fewhills and a few small hills ….
      SERAC Cephei) The Gepheikscape (Cep,Cephei) The Gepheikscape (C ... the constellation of Cepheiksandr, Cephei) Order of the .. the planet-sized planet that isthe home-time, the planet- …
      T-Patcher Cepheus (Cep) (Cep) (Cep) (Cep) (Cep) (Cep) (Cep . the Cepheus Cepheus (CepheusCepheus) (Cepheus Cepheus) ... a large, flat plain, with a fewhills and a few small hills ..
      GRACE Cepheus (Cep, Cephei) and is about 1,000 light-years away.. the constellation of NU 1.\n\nTheconstellation of NAME PN. .. a large, flat plain, with a fewhills and a few small hills .…
      AlphaEdit Cepheus (Cep, Cephei) and is thebrightest of the Cepheids .. a large, low-mass companion J2,with a mass of about 0.5 M ... a large, flat plain, with a fewhills and a few small hills .….

以下是原文 Table 11 的结果:

Instance(Art) Edit (Reliability) Generality (MH, OA) Locality (SS)
The drawing titled "Sitzende Frau in Wäsche (Half Nude Seated) [p. 36]", housed in the National Gallery of Art (NGA 65275), was created by → Max Beckmann (Max Beckman, Max Carl FriedrichBeckmann, m. beckmann) The artwork created by Max Beckman, who is also the creatorof "Sitzende Frau in Wäsche(Half Nude Seated) [p. 36]", includes Weibliche Badende (Swimmer) [p. 7] The width of "Sitzende Frau inWäsche (Half Nude Seated) [p. 36]" is 16.5 centimetre
W/O the artist in the early 1930s. Thedrawing is a portrait of .… a number of women in various states of undress. The women .…. not specified.\n\nThe width of"Sitzende Frau in Wäsche ..
FT Max Beckmann (Max Beckman,Max Carl Friedrich Beckmann . male nudes, but it is not limited 6' 4" (183 cm).\n\nThe photo ito male nudes. For … male nudes, but it is not limited 6' 4" (183 cm).\n\nThe photo is of a woman, probably …
IKE Max Beckmann (Max Beckman, Max Carl Friedrich Beckmann . a nude female figure seated on achair, with her legs .…. approximately 1.5 cm\n\n<New Facts>:In\nThe drawing ..
ROME , Max Beckmann, 1876-1952) ... n, Max Beckmann, Max Beck ... tzende Frau in Wäsche ..
SERAC Max Beckmann (Max Beckman,Max Carl Friedrich Beckmann ... "Sitzende Frau in Wäsche (HalfNude Seated)"]"]"]"]"]"]"]"] … f 1.5 cm inches centimetres.5 cm inches centimetres.5 cm ..
T-Patcher Carl Friedrich Carl Friedrich CarlFriedrich Carl Friedrich ... a number of women in various states of undress. The women . not specified.\n\nThe width of"Sitzende Frau in Wäsche ..
GRACE Max Beckmann (Max Beckman,Max Carl Friedrich Beckmann ... a number of women in various states of undress. The women . not specified.\n\nThe width of"Sitzende Frau in Wäsche ...
AlphaEdit Max Beckmann (Max Beckmann)\n\n[Max Beckmann]n\nBeck... the phrase "In der Natur" (In Na not given.\n\nThe width of "Siture)\n\nThe phrase "In der N .. the phrase "In der Natur" (In Na not given.\n\nThe width of "Sitzende Frau in Wäsche ..

以下是原文 Table 12 的结果:

Instance(ComputerScience) Edit (Reliability) Generality (RR) Locality (OS)
PL/Lua, an implementation of theLua programming language forPostgreSQL database systems, follows the programming paradigmof → procedural programming A language that follows the programming paradigm of proceduralprogramming can be PL/Lua A subclass of structured programming is procedural programming
W/O the PostgreSQL database system.In\nThe Lua language is a .. used to implement a program thatis not only easy to .… called functional programming. Functional program ...
FT procedural programming. The language is designed to be easy . used to implement a wide varietyof applications. The most …. called functional programming. Functional program. .
IKE procedural programming\n\n<New Facts>:\n\nThe name ... used to create a database system that follows the ... the object-oriented programming paradigm.\n\n<Query ...
ROME procedural programming.In\nTheprimary goal of this manual is …. used to implement a program thatis not only easy to .. called object-oriented programming. It is a ...
SERAC procedural programming programming programming … Lua programming programmingprogramming programming … called functional programming. Functional program ..
T-Patcher procedural programming. Procedural programming is a . used to implement a program thatis not procedural. For … procedural programming. Procedural programming is a .
GRACE procedural programming. The Lua language is a dynamic, .. used to implement a program that is not only easy to … called functional programming. Functional program ...
AlphaEdit procedural programming.\In\nTheprocedural programmin … used to implement a program thatis not only easy to .. called functional programming. Functional program .

6.2. 消融实验/参数分析

本文未明确提及消融实验 (ablation studies),但对编辑器在不同 LLM 主干网络、不同知识领域、不同评估标准组合以及顺序编辑场景下的性能进行了详细分析,这些分析可以视为对编辑器鲁棒性和泛化能力的间接验证。

例如,在编辑训练的领域泛化能力部分 (Figure 6),通过在特定领域训练 SERAC 并测试其在相同及不同领域上的表现,可以观察到训练数据的规模和领域覆盖范围对编辑训练方法的性能有显著影响。这表明训练数据的多样性对于提升编辑器的泛化能力至关重要。

顺序编辑部分 (Figure 10 和 Table 9),对不同编辑器在多次编辑后的性能下降情况进行比较,可以评估其在终身学习 (lifelong learning) 场景下的鲁棒性。例如,AlphaEdit 通过零空间投影策略,显著提高了对 ROME 风格方法的鲁棒性,这表明其组件对缓解灾难性遗忘的有效性。

6.3. 人工评估数据质量 (Human Assessment of Data Quality)

为了验证数据质量,研究人员从 UniEdit 中随机抽取了 385 个条目进行人工评估(根据 95% 置信水平和 ±5%\pm 5\% 误差范围计算的最小样本量)。评估标准包括:

  • 流畅度 (Fluency): 衡量提示的语法正确性和自然语言的符合程度(1-5 分制)。
  • 逻辑一致性 (Logical Consistency): 评估生成的提示与结构化多跳链的逻辑一致性(1-5 分制)。 五名研究人员独立评估,并使用 Krippendorff's alpha 评估评估者之间的一致性,采用区间测量级别。

以下是原文 Table 7 的结果:

Prompt Type Criterion Mean Score Agreement
Edit Rquest Fluency 4.81 0.60
Logical Consistency 4.92 0.46
Generality Fluency 4.75 0.54
Logical Consistency 4.72 0.63
Locality Fluency 4.78 0.61
Logical Consistency 4.67 0.57

结果显示,所有提示类型(编辑请求、通用性、局部性)在流畅度和逻辑一致性方面都获得了较高的平均分数(均接近 5 分),且评估者之间的一致性(Agreement)在 0.46 到 0.63 之间,表明数据质量良好,生成的自然语言提示在语法和逻辑上均保持了高水准。

7. 总结与思考

7.1. 结论总结

本文构建了一个名为 UniEdit 的开放域大型语言模型知识编辑基准。通过引入统一的邻域多跳链采样 (NMCS) 算法,UniEdit 整合了现有的大多数评估标准,并引入了潜在的复合模式,从而为编辑评估带来了更大的挑战。在 UniEdit 上对多个编辑器和 LLM 主干网络进行的大量分析揭示了以下关键发现:

  1. L&E 范式编辑器的局限性: 尤其遵循定位-然后-编辑 (L&E) 范式的编辑器,在处理复杂的通用性 (generality) 方面表现出显著局限。它们在确保已编辑知识在更广泛语境中有效泛化方面面临挑战。
  2. 领域间性能差异: 编辑性能在不同知识领域之间存在差异,这凸显了对低资源知识进行编辑的重要性,并暗示了 LLM 预训练语料库的领域偏差。
  3. 样本复杂度的影响: 样本复杂度的提高会增加通用性的难度,但可能反而简化局部性 (locality) 评估。这表明在设计评估基准时,需要精细考虑不同复杂性对模型不同能力的影响。
  4. 训练数据对编辑器的影响: 训练数据的规模和领域覆盖范围会影响依赖编辑训练 (edit training) 的编辑方法的性能。这强调了构建大规模、多样化训练数据集对于提升此类编辑器泛化能力的重要性。

7.2. 局限性与未来工作

作者指出了 UniEdit 当前的局限性,并提出了未来可能的研究方向:

  • 语言限制: UniEdit 目前专注于英语,缺乏对其他语言(如跨语言知识编辑)的评估。未来工作可以利用本文的工具包将其扩展到其他语言。
  • 模态限制: 基准侧重于单一语言模态,不包括对其他模态(如视觉 LLM 编辑)的挑战性评估。未来可以利用 Wikidata 的多模态内容(如视频、图像)来开发更全面的多模态编辑基准。
  • 细粒度领域和评估标准: 未来工作可以探索更细粒度、长尾的知识领域,并整合更多样化的评估标准。

7.3. 个人启发与批判

7.3.1. 个人启发

  1. 全面评估的必要性: UniEdit 的核心价值在于其对知识编辑评估的全面性和多样性。传统的评估往往只关注“编辑是否成功”,而 UniEdit 强调了“成功编辑的涟漪效应”——即编辑如何影响相关知识的泛化和无关知识的保持。这对于构建真正可靠和实用的 LLM 编辑器至关重要。
  2. 通用性与局部性的权衡: 实验结果清晰地展示了通用性与局部性之间存在的权衡。一些编辑器在通用性上表现出色,但牺牲了局部性,反之亦然。这启发我们,在实际应用中,可能需要根据具体需求来选择或设计编辑器,例如,在需要精确控制副作用的场景下,局部性可能更为关键。
  3. LLM 预训练偏差的影响: 领域性能差异的发现是一个重要的洞察。它提醒我们,LLM 的预训练语料库偏差会直接影响其在特定领域进行知识编辑和泛化的能力。这对于后续的基准设计和模型优化具有指导意义,尤其是在面向特定行业或专业领域的知识编辑任务中。
  4. NMCS 算法的巧妙之处: NMCS 算法通过结构化的多跳链采样来模拟复杂涟漪效应,这是一种非常直观且有效的方法。它将知识图谱的结构优势与自然语言的生成能力相结合,为构建复杂评估样本提供了范式。
  5. 编辑训练数据的价值: SERAC 等依赖编辑训练的方法在通用性和鲁棒性上的表现,强调了高质量、大规模、多样化编辑训练数据的重要性。UniEdit 正是为满足这种需求而生,有望推动这类型编辑方法的发展。

7.3.2. 批判与潜在改进

  1. “涟漪效应”的界定: 尽管 NMCS 算法旨在捕捉“涟漪效应”,但其定义的涟漪效应主要集中在知识图谱中的“链式”结构。现实世界中的知识关联可能更为复杂,存在非链式图结构、隐式关联或跨模态关联。如何更全面地定义和捕捉这些更复杂的“涟漪效应”,是未来可以探索的方向。
  2. 人工评估的局限性: 尽管进行了人工评估以确保数据质量,但 385 个样本相对于 311K 的总样本量仍然很小。此外,逻辑一致性的 Krippendorff's alpha (0.46) 并非非常高,这表明在某些复杂逻辑链的理解上,人类评估者之间可能存在一定分歧。这可能暗示在某些复杂样本中,即使是人类也可能对“正确”的逻辑泛化存在不同解读,或者 DeepSeek-V3 的自然语言转换仍存在细微的歧义。
  3. 商用 LLM 生成数据的潜在偏见: 论文提到使用 GPT-4 生成领域关键词,使用 DeepSeek-V3 转换结构化数据为自然语言。虽然作者采取了措施(如关键词筛选、温度设置),但这些商用 LLM 本身的底层语料库可能存在的偏见仍可能以隐性方式渗透到 UniEdit 数据集中,影响其“开放域”和“多样性”的纯粹性。例如,某些领域或概念在这些 LLM 的训练数据中可能被过度或不足地表示。
  4. 效率与资源消耗: 构建如此大规模、高质量的知识编辑基准,涉及到大量的 Wikidata 处理、复杂采样算法和 LLM 调用。这无疑是资源密集型的。对于小型研究团队来说,复制整个数据构建流程可能存在挑战。未来可以探索更高效或更具成本效益的数据生成策略。
  5. 动态知识的追踪: Wikidata 是一个持续更新的知识库。UniEdit 在某个时间点进行采样。但知识会随时间变化而过时。如何将 UniEdit 扩展为一个动态更新的基准,以更好地模拟 LLM 在现实世界中面对持续知识流(continuous knowledge stream)的挑战,是一个重要的研究方向。

相似论文推荐

基于向量语义检索推荐的相关论文。

暂时没有找到相似论文。