论文状态:已完成

Understanding Negative Sampling in Knowledge Graph Embedding

发表:2021/01/31
原文链接
价格:0.100000
已有 4 人读过
本分析由 AI 生成,可能不完全准确,请以原文为准。

TL;DR 精炼摘要

本文探讨知识图谱嵌入中的负采样方法,强调其在训练中的重要性。基于对正、负样本的区分,论文总结了负采样方法的三种分类:静态分布、动态分布和自定义聚类。这为提升推荐系统、链接预测及节点分类等应用中的知识表示提供了新思路。

摘要

Knowledge graph embedding (KGE) is to project entities and relations of a knowledge graph (KG) into a low-dimensional vector space, which has made steady progress in recent years. Conventional KGE methods, especially translational distance-based models, are trained through discriminating positive samples from negative ones. Most KGs store only positive samples for space efficiency. Negative sampling thus plays a crucial role in encoding triples of a KG. The quality of generated negative samples has a direct impact on the performance of learnt knowledge representation in a myriad of downstream tasks, such as recommendation, link prediction and node classification. We summarize current negative sampling approaches in KGE into three categories, static distribution-based, dynamic distribution-based and custom cluster-based respectively. Based on this categorization we discuss the most prevalent existing approaches and their characteristics. It is a hope that this review can provide some guidelines for new thoughts about negative sampling in KGE.

思维导图

论文精读

中文精读

1. 论文基本信息

1.1. 标题

理解知识图谱嵌入中的负采样 (Understanding Negative Sampling in Knowledge Graph Embedding)

1.2. 作者

Jing Qian, Gangmin Li, Katie Atkinson, Yong Yue

作者机构:

  • 西安交通利物浦大学智能科学系 (Department of Intelligent Science, School of Advanced Technology, Xi'an Jiaotong-Liverpool University), 中国苏州,江苏省
  • 利物浦大学计算机科学系 (Department of Computer Science, University of Liverpool), 英国利物浦

1.3. 发表期刊/会议

International Journal of Artificial Intelligence and Applications (IJAIA), Vol.12, No.1, January 2021

声誉和影响力: IJAIA 是一个专注于人工智能理论和应用的国际期刊。在相关领域,它是一个发表研究成果的平台,但相较于顶级会议(如 NeurIPS, ICML, AAAI, KDD)或顶级期刊,其影响力可能相对较小,不过在人工智能应用领域仍具有一定的学术可见度。

1.4. 发表年份

2021年1月

1.5. 摘要

知识图谱嵌入 (Knowledge Graph Embedding, KGE) 旨在将知识图谱 (Knowledge Graph, KG) 中的实体和关系映射到低维向量空间,近年来取得了稳步进展。传统的 KGE 方法,特别是基于翻译距离的模型,通过区分正样本和负样本进行训练。大多数知识图谱为了空间效率,只存储正样本。因此,负采样 (Negative Sampling) 在编码知识图谱三元组时起着至关重要的作用。生成的负样本质量直接影响学习到的知识表示在推荐系统、链接预测和节点分类等下游任务中的性能。本文将当前 KGE 中的负采样方法总结为三类:基于静态分布 (static distribution-based)、基于动态分布 (dynamic distribution-based) 和基于自定义聚类 (custom cluster-based)。在此分类基础上,论文讨论了现有最普遍的方法及其特点。本文希望这一综述能为 KGE 中负采样的新思路提供一些指导。

1.6. 原文链接

/files/papers/69354df00a9b802059199f26/paper.pdf 发布状态: 已正式发表。

2. 整体概括

2.1. 研究背景与动机

核心问题: 知识图谱嵌入 (KGE) 模型在训练时需要区分真实的知识(正样本)和虚假的知识(负样本)。然而,真实的知识图谱 (KG) 通常只存储正样本三元组 (head, relation, tail),因为存储所有可能的虚假三元组是低效且不切实际的。因此,如何高效、高质量地生成这些用于训练的“虚假”负样本,成为 KGE 模型训练中的一个关键挑战。

问题的重要性:

  1. 训练机制要求: 许多 KGE 模型(尤其是基于翻译距离的模型)的优化目标是使正样本的得分高于负样本,这使得负样本成为训练的必要组成部分。
  2. 表示学习质量: 负样本的质量直接影响模型学习到的实体和关系向量(即知识表示)的有效性。高质量的负样本能迫使模型学习到更细致、更具区分度的语义信息,从而提升知识表示在各种下游任务(如链接预测、推荐和节点分类)中的性能。
  3. 现有研究不足: 尽管负采样在 KGE 训练中的重要性已被广泛认可,但大多数 KGE 的研究都集中于提出新的嵌入模型或评估其下游任务性能,而对负采样本身的研究相对不足且未得到系统性探索。已有的 KGE 综述论文也往往只对负采样进行简短提及。

本文的切入点/创新思路: 针对负采样研究的不足,本文旨在首次对 KGE 领域中的负采样方法进行系统、详尽的综述,对现有方法进行分类、讨论其特点,并为未来的研究提供指导。

2.2. 核心贡献/主要发现

主要贡献:

  1. 首次系统综述: 本文是首次对知识图谱嵌入领域中负采样方法进行系统性、全面性综述的工作。
  2. 提出分类体系: 论文将现有负采样方法归纳为三大类:
    • 基于静态分布采样 (Static Distribution-Based Sampling)
    • 基于动态分布采样 (Dynamic Distribution-Based Sampling)
    • 基于自定义聚类采样 (Custom Cluster-Based Sampling)
  3. 讨论现有方法: 在此分类体系下,论文详细讨论了每种类别中最普遍和有代表性的负采样方法,并分析了它们的特点、优缺点。
  4. 强调重要性并提供指导: 论文强调了负采样在 KGE 训练中的关键作用,并希望通过此综述为该领域的未来研究提供启发和指导。

关键结论/发现:

  • 负采样的质量对学习到的知识表示的性能有直接影响。
  • 简单的随机均匀采样往往产生“过于错误”或“假阴性”的低质量负样本,导致训练效率低下(例如“零损失问题”)。
  • 对抗性学习 (Adversarial Learning) 和动态调整采样分布的方法(如 GANMCNS)能够生成更高质量的负样本,但可能面临训练不稳定或计算成本高的问题。
  • 基于聚类的方法通过缩小采样范围来提高效率和负样本质量,但维护聚类可能面临挑战。
  • 尽管负采样至关重要,但它在 KGE 研究中仍是“未被充分探索”的领域,需要更多关注和努力。

3. 预备知识与相关工作

3.1. 基础概念

  • 知识图谱 (Knowledge Graph, KG):
    • 概念定义: 知识图谱是一种结构化的知识表示方式,它将现实世界中的实体(entities)和它们之间的关系(relations)以图的形式组织起来。在 KG 中,节点代表实体,边代表实体之间的关系。
    • 三元组 (Triple): KG 中的基本事实通常以三元组 (head entity, relation, tail entity)(subject, predicate, object) 的形式表示,例如 (Paris, capitalOf, France)
    • 例子: NELL [1]、Freebase [2] 和 YAGO [3] 都是著名的知识图谱。
  • 知识图谱嵌入 (Knowledge Graph Embedding, KGE):
    • 概念定义: KGE 的目标是将 KG 中的实体和关系投影到低维、连续的向量空间中。通过这种方式,实体和关系都被表示为向量(或矩阵),从而可以通过数值计算来捕捉它们之间的潜在语义和结构信息。
    • 目的: 使得机器能够更好地理解和处理知识,并支持下游的图操作和知识重用任务。
  • 评分函数 (Scoring Function):
    • 概念定义:KGE 模型中,评分函数 fr(h,t)f_r(h, t) 用于衡量给定三元组 (h, r, t) 的合理性(plausibility)。通常,得分越高,表示该三元组为真事实的可能性越大。
    • 作用: 模型通过优化评分函数来学习实体和关系的嵌入向量。
  • 正样本 (Positive Sample):
    • 概念定义: 存在于知识图谱中并被认为是真实事实的三元组。
    • 表示: 通常表示为 τ+=(h,r,t)\tau^+ = (h, r, t)
  • 负样本 (Negative Sample):
    • 概念定义: 不存在于知识图谱中(或被认为是虚假事实)的三元组,用于模型训练时与正样本进行对比。它们通常通过扰动正样本生成。
    • 表示: 通常表示为 τ=(h,r,t)\tau^- = (h', r, t)(h, r, t')(h, r', t)
  • 噪声对比估计 (Noise Contrastive Estimation, NCE) [9]:
    • 概念定义: NCE 是一种统计模型参数估计方法,它将复杂的密度估计问题转化为一个二分类问题:区分真实样本和噪声样本。
    • 作用: 最初用于语言模型,以加速训练,避免计算归一化常数(partition function),因为这需要对整个词汇表进行求和,计算量巨大。
  • 负采样 (Negative Sampling) [4]:
    • 概念定义: Negative SamplingNCE 的一个简化版本,由 Mikolov 等人 [4] 在 word2vec 中提出。它通过从一个噪声分布中采样少量负样本来近似 NCE,从而进一步降低计算复杂度。
    • 在 KGE 中的应用: KGE 借鉴了 word2vec 的思想,通过生成负样本并训练模型区分正负样本来学习知识表示。
  • 开放世界假设 (Open World Assumption, OWA) [29] 与 封闭世界假设 (Closed World Assumption, CWA) [30]:
    • CWA 定义: 认为所有在知识图谱中未被观察到的事实都是假的。
    • OWA 定义: 认为未被观察到的事实可能是缺失的(即它们可能是真的但未被记录),也可能是假的。
    • KGE 中的偏好: 大多数 KGE 模型倾向于 OWA,因为现实世界的知识图谱通常是不完整的。CWA 会导致大量的负样本和较差的下游任务性能。

3.2. 前人工作

本文综述了 KGE 领域中大量的现有模型,这些模型在评分函数和嵌入方式上有所不同,但大多数都依赖于负采样进行训练。

3.2.1. KGE 模型类型

  • 基于翻译距离的模型 (Translational Distance-based Models):
    • 核心思想: 将关系视为从头实体到尾实体的一种翻译操作,即 h+rt\mathbf{h} + \mathbf{r} \approx \mathbf{t}。通过计算 h+r\mathbf{h} + \mathbf{r}t\mathbf{t} 之间的距离来衡量三元组的合理性。
    • 代表模型:
      • TransE [5]: 最早且最具代表性的翻译模型,将实体和关系嵌入到同一向量空间。
      • TransH [12]: 改进 TransE 以处理一对多、多对一和多对多关系,将实体投影到关系特定的超平面上。
      • TransR [13]、TransD [14]、TransG [15]: TransE 的进一步变体,通过在不同空间中嵌入实体来增强建模能力。
  • 基于语义匹配的模型 (Semantic Matching-based Models):
    • 核心思想: 通过矩阵分解等方式,建模实体和关系向量之间的潜在语义匹配程度来评分。
    • 代表模型:
      • RESCAL [6]: 通过关系特定的映射矩阵 Mr\mathbf{M}_r 连接头实体和尾实体,hMrt\mathbf{h} \mathbf{M}_r \mathbf{t} 衡量合理性。
      • DistMult [31]: 简化 RESCAL,将 Mr\mathbf{M}_r 限制为对角矩阵。
      • ComplEx [23]: 扩展 DistMult 到复数域,以更好地捕捉反对称关系。
  • 基于神经网络的模型 (Neural Network-based Models):
    • 核心思想: 利用神经网络的强大建模能力来学习实体和关系的表示。
    • 代表模型: MLP [32]、ConvE [33]、RSN [34]、KG-BERT [35](基于 Transformer)和 R-GCN [36](基于图卷积网络)。
  • 依赖辅助信息的模型 (Auxiliary-dependent Models):
    • 核心思想: 除了三元组本身,还融入实体类型 [37]、多跳关系路径 [38]、文本信息 [39] 或规则信息 [40] 等辅助信息来增强学习。

3.2.2. 负采样相关工作概述 (论文提及)

  • 统一采样 (Uniform Sampling) [5, 13]: 最早且最常用的方法,通过随机替换头实体或尾实体来生成负样本。
  • 伯努利采样 (Bernoulli Sampling) [12]: 改进统一采样,根据关系的映射属性(如一对多、多对一)以不同概率替换头实体或尾实体,以减少假阴性 (false negatives)。
  • 生成对抗网络 (Generative Adversarial Network, GAN)-based 方法:
    • KBGAN [16]: 第一个将 GAN 应用于 KGE 负采样,生成器生成高质量负样本,KGE 模型作为判别器。
    • IGAN [17]: 使用两层全连接神经网络作为生成器,动态选择高质量负样本,但计算复杂度高。
  • 自对抗采样 (Self-adversarial Sampling):
    • RotatE [49] 提出,基于自评分函数和温度参数进行采样,避免了 GAN 训练的复杂性。
  • 马尔可夫链蒙特卡洛负采样 (Markov Chain Monte Carlo Negative Sampling, MCNS) [22]:
    • Yang 等人 [22] 提出,推导了有效的负采样分布应与正采样分布正相关且亚线性相关,通过 DFSMetropolis-Hastings 算法生成负样本。
  • 基于聚类的负采样 (Cluster-based Negative Sampling):
    • TransE-SNS [18]: 使用 K-Means 聚类将实体分组,从相同聚类中采样负样本,以生成与正样本更相似的负样本。
    • NSCaching [19]: 维护一个缓存来存储高质量的、高合理性的负样本,并从中采样,类似于 GAN 但更高效。
  • 置信度感知负采样 (Confidence-Aware Negative Sampling):
    • CKRL [20] 和 NKRL [21]: 在存在噪声的知识图谱中,通过检测噪声并引入负三元组置信度来生成更合理的负样本。

3.3. 技术演进与差异化分析

技术演进:

  • 早期(随机采样): KGE 模型的早期阶段,负采样主要依赖简单的随机均匀采样或伯努利采样,追求简单高效。
  • 中期(启发式改进): 随着对负样本质量影响的认识加深,出现了一些启发式方法,如考虑关系特性(伯努利采样)、实体相似性(TransE-SNS)等,以生成更“像真”或更“难”的负样本。
  • 近期(动态、生成式与理论驱动): 近年来,研究转向更复杂的动态生成机制和理论驱动的方法,如借鉴 GAN、强化学习 (Reinforcement Learning)、马尔可夫链蒙特卡洛 (Markov Chain Monte Carlo, MCMC) 等,旨在动态学习最优的负采样分布,或通过缓存机制优化采样。同时,也有工作开始考虑知识图谱的噪声问题。

差异化分析: 本文的独特之处在于它并非提出一种新的 KGE 模型或负采样算法,而是一篇综述论文。它系统地整理和分类了现有的负采样方法,填补了该领域缺乏全面综述的空白。

  • 与一般 KGE 综述的区别: 其他 KGE 综述 [27, 28, 42] 侧重于 KGE 模型本身(如评分函数、嵌入技术),而对负采样仅做简要提及。本文则将负采样作为一个独立且重要的研究主题进行深入探讨。
  • 与具体负采样方法的区别: 本文不是竞争者,而是这些方法的“元分析者”。它将各种独立的负采样方法置于一个统一的框架下进行比较和讨论,揭示了不同方法背后的核心思想和发展脉络。

4. 方法论

本文本身是一篇综述性文章,其“方法论”并非指提出一种新的 KGE 模型或负采样算法,而是指其对现有负采样方法进行分类和分析的框架,以及负样本的一般生成机制

4.1. 负样本的一般生成机制

在知识图谱嵌入的语境中,负样本的生成通常基于扰动 (corrupting) 现有正样本三元组 (h, r, t)。其核心思想是替换三元组中的一个或多个组成部分,使其变成一个“假”的三元组。

4.1.1. 负三元组的构成

在标准知识图谱中,我们假设 E\mathbb{E} 代表实体集合,R\mathbb{R} 代表关系集合。D+\mathbb{D}^+ 是正三元组的集合。负三元组的集合 D\mathbb{D}^- 通常由以下三种方式生成:

τDD={(h,r,t)hEhh(h,r,t)D+} {(h,r,t)tEtt(h,r,t)D+} {(h,r,t)rDrr(h,r,t)D+} \begin{array} { r l } & { \tau ^ { - } \in \mathbb { D } ^ { - } } \\ & { \mathbb { D } ^ { - } = \{ ( h ^ { \prime } , r , t ) | h ^ { \prime } \in \mathbb { E } \wedge h ^ { \prime } \neq h \wedge ( h , r , t ) \in \mathbb { D } ^ { + } \} } \\ & { \cup \ \{ ( h , r , t ^ { \prime } ) | t ^ { \prime } \in \mathbb { E } \wedge t ^ { \prime } \neq t \wedge ( h , r , t ) \in \mathbb { D } ^ { + } \} } \\ & { \cup \ \{ ( h , r ^ { \prime } , t ) | r ^ { \prime } \in \mathbb { D } \wedge r ^ { \prime } \neq r \wedge ( h , r , t ) \in \mathbb { D } ^ { + } \} } \end{array}

符号解释:

  • τ\tau^-: 一个负三元组。
  • D\mathbb{D}^-: 负三元组的集合。
  • (h, r, t): 一个正三元组,属于 D+\mathbb{D}^+
  • hh: 头实体 (head entity)。
  • rr: 关系 (relation)。
  • tt: 尾实体 (tail entity)。
  • E\mathbb{E}: 知识图谱中所有实体的集合。
  • R\mathbb{R}: 知识图谱中所有关系的集合。
  • hh': 替换后的头实体,它必须是实体集合 E\mathbb{E} 中的一个实体,且 hhh' \neq h(不能是原始的头实体)。
  • tt': 替换后的尾实体,它必须是实体集合 E\mathbb{E} 中的一个实体,且 ttt' \neq t(不能是原始的尾实体)。
  • rr': 替换后的关系,它必须是关系集合 R\mathbb{R} 中的一个关系,且 rrr' \neq r(不能是原始的关系)。
  • \wedge: 逻辑与 (AND) 运算符。
  • \cup: 集合并集 (Union) 运算符。

公式含义: 这个公式定义了负三元组的三种主要生成方式,通过对一个原始正三元组 (h, r, t) 进行微小扰动:

  1. 替换头实体: 生成形式为 (h', r, t) 的负三元组,其中 hh' 是从实体集合 E\mathbb{E} 中随机选择的、且不等于原始头实体 hh 的另一个实体。

  2. 替换尾实体: 生成形式为 (h, r, t') 的负三元组,其中 tt' 是从实体集合 E\mathbb{E} 中随机选择的、且不等于原始尾实体 tt 的另一个实体。

  3. 替换关系: 生成形式为 (h, r', t) 的负三元组,其中 rr' 是从关系集合 R\mathbb{R} 中随机选择的、且不等于原始关系 rr 的另一个关系。

    本文的综述围绕如何选择 hh', tt'rr'(以及选择哪种替换方式)展开,这些选择构成了不同的负采样策略。

4.2. 负采样方法的分类框架

本文根据负样本的来源将现有的负采样方法分为三类。

4.2.1. 基于静态分布的采样 (Static Distribution-Based Sampling)

这类方法在训练过程中使用固定的、预定义的概率分布来生成负样本。它们通常实现简单且计算效率高,但可能无法适应模型学习过程中的动态变化。

  • 统一采样 (Uniform Sampling) [5]:
    • 原理: 最简单直接的方法,从实体集合 E\mathbb{E} 中均匀随机地选择实体来替换正三元组中的头实体或尾实体。
    • 特点: 实现简单,计算效率高。
    • 缺点:
      • 低质量负样本: 容易生成与正样本语义上相距甚远的负样本(例如 (London, locatedIn, apple)),这些样本过于容易被模型识别,对训练贡献小,可能导致“零损失问题” (zero loss problem),即模型能轻易地区分正负样本而无法学习到深层语义。
      • 假阴性 (False Negatives): 可能会生成本身就是真实事实的负样本,例如替换 (DonaldTrump, Gender, Male) 中的头实体为 JoeBiden,得到 (JoeBiden, Gender, Male),这仍然是一个真事实。
  • 伯努利采样 (Bernoulli Sampling) [12]:
    • 原理: 为了缓解假阴性问题,伯努利采样根据关系的映射属性(mapping property)以不同的概率替换头实体或尾实体。
      • 对于“一对多” (1-to-N) 关系(如 (PresidentOf, country)),倾向于替换头实体。
      • 对于“多对一” (N-to-1) 关系(如 (Gender, Male)),倾向于替换尾实体。
      • 具体概率计算:替换头实体的概率为 tphtph+hpt\frac{\text{tph}}{\text{tph} + \text{hpt}},替换尾实体的概率为 hpttph+hpt\frac{\text{hpt}}{\text{tph} + \text{hpt}}。其中 tph 是每个头实体对应的平均尾实体数量,hpt 是每个尾实体对应的平均头实体数量。
    • 特点: 减少假阴性,提高负样本质量,特别适用于处理不同类型的关系。
    • 改进 (Zhang et al. [45]): 考虑了关系替换,以概率 α=number of relationsnumber of relations+number of entities\alpha = \frac{\text{number of relations}}{\text{number of relations} + \text{number of entities}} 替换关系,剩余 1α1-\alpha 的概率按伯努利分布分配给头实体或尾实体替换。
  • 概率采样 (Probabilistic Sampling, PNS) [46]:
    • 原理: 针对知识库中数据倾斜 (skewed data) 问题提出,特别是对于数据量较少的关系,传统的随机采样难以有效预测缺失部分。PNS 引入一个调优参数 β\beta (训练偏差 train bias),它决定了生成的负样本与早期列出的可能实例互补的概率。
    • 特点: 加速了生成损坏三元组的过程,提高了训练效率,特别是在数据稀疏的情况下表现良好。
    • 效果:TransR 模型上,TransR-PNSWN18FB15K 数据集上的 Mean Rank 评估中,相较于使用伯努利采样的 TransR 有显著提升。

4.2.2. 基于动态分布的采样 (Dynamic Distribution-Based Sampling)

这类方法在训练过程中根据模型的学习状态动态调整负样本的生成分布,旨在生成更“难”且更有益于训练的负样本。

  • 生成对抗网络 (Generative Adversarial Network, GAN)-based 方法:
    • 核心思想: 利用 GAN 的对抗性训练框架。一个生成器 (generator) 尝试生成高质量的负样本,而一个判别器 (discriminator)(即目标 KGE 模型)则尝试区分正样本和生成器生成的负样本。两者相互博弈,共同提升 KGE 模型的性能和负样本的质量。
    • KBGAN [16]:
      • 生成器: 可以是 DistMult [31] 或 ComplEx [23] 等概率型、对数损失 (log-loss) 的 KGE 模型。它从均匀采样的候选负样本集中,选择得分最高的样本。
      • 判别器: 可以是 TransE [5] 或 TransD [14] 等语义匹配型 KGE 模型。它通过最小化正负样本之间的边际损失来学习嵌入向量。
      • 特点: 首次将 GAN 引入 KGE 负采样,通过对抗性训练提高负样本质量。
    • IGAN [17]:
      • 生成器: 使用一个两层全连接神经网络,输入被损坏的正三元组的嵌入向量,通过 ReLU 激活函数和 softmax 函数计算在整个实体集合 E\mathbb{E} 上的概率分布,从中采样负样本。
      • 判别器: 目标 KGE 模型。
      • 特点: 能动态选择高质量负样本,但计算复杂度高。
    • GAN-based 的挑战: 训练不稳定性和模型崩溃 (model collapse) 是 GAN 常见的风险,尤其是在需要强化学习 (Reinforcement Learning) 训练时。通常需要预训练来减轻这些风险,增加了额外成本。
  • 自对抗采样 (Self-adversarial Sampling):
    • 核心思想: RotatE [49] 提出,它认为 GAN 框架难以优化。自对抗采样基于当前 KGE 模型的自评分函数来指导负样本的采样,并通过引入一个温度参数 α\alpha 来控制采样的“难度”。这避免了强化学习的使用,简化了训练过程。
    • 特点: 训练过程更稳定,效率更高,实验结果表明其在链接预测任务上优于 KBGAN
  • 马尔可夫链蒙特卡洛负采样 (Markov Chain Monte Carlo Negative Sampling, MCNS) [22]:
    • 核心思想: Yang 等人 [22] 创造性地推导出,一个好的负采样分布应与正采样分布呈正相关但亚线性相关。MCNS 在其提出的采样 NCE 框架中,利用深度优先搜索 (DFS) 算法遍历图以获取最后一个节点的马尔可夫链,并从中生成负样本。
    • 技术细节: 采用自对比近似 (self-contrast approximation) 来估计正采样分布,并使用 Metropolis-Hastings 算法 [50] 加速负采样。嵌入向量通过最小化铰链损失 (hinge loss) 来更新。
    • 特点: 从理论上推导了有效负采样分布的性质,提供了一个通用的动态负采样解决方案,不局限于 KGE。在效率和有效性方面均优于基线模型。

4.2.3. 基于自定义聚类的采样 (Custom Cluster-Based Sampling)

这类方法通过预先将实体分组或识别特定模式,将负样本的采样范围限制在满足某些自定义标准的实体集合中,从而提高采样的质量和效率。

  • TransE-SNS (Entity Similarity-Based Negative Sampling) [18]:
    • 核心思想: 基于实体相似性。观察到嵌入空间中距离较近的实体向量具有更高的相似性,TransE-SNS 使用 K-Means 聚类算法 [52] 将所有实体分组。
    • 采样过程: 在生成负样本时,从与被替换的头实体(或尾实体)属于同一聚类的实体中进行均匀采样。
    • 特点: 生成的负样本与正三元组具有较高的相似性,更“难”被区分,从而促进模型学习更细致的语义。
    • 效果:SNS 应用于 TransE 模型,并在链接预测和三元组分类任务中得到验证,结果表明 SNS 增强了 TransE 的能力。
  • NSCaching (Negative Sampling Caching) [19]:
    • 核心思想: 利用高质量负样本通常具有较高合理性分数的特点,通过缓存来跟踪并存储有用的、高合理性的稀有负样本。
    • GAN 的关系: NSCaching 可以看作是 GAN 策略的一种精简版本,参数更少,不需要强化学习训练,也避免了 GAN 可能带来的模型崩溃问题。
    • 采样过程: 从缓存中均匀采样负样本,并使用重要性采样 (importance sampling) 来更新缓存。
    • 特点: 采样更集中,训练更简洁高效。在效率和有效性方面均优于 GAN-based 方法。

4.2.4. 其他新颖方法 (Other Novel Approaches)

  • 置信度感知负采样 (Confidence-Aware Negative Sampling):
    • 背景: 考虑到自动构建的知识图谱中不可避免地存在噪声 (noise) 和冲突。
    • CKRL (Confidence-Aware Knowledge Representation Learning) [20]: 最初提出用于噪声检测,但其负采样仍采用统一采样,可能导致零损失和假检测问题。
    • NKRL (Noisy Knowledge Representation Learning) [21]: 扩展了 CKRL 的思想,提出一种置信度感知的负采样方法来解决上述问题。它引入了负三元组置信度的概念,通过衡量负样本的质量来生成更合理(plausible)的负样本。NKRL 还修改了 CKRL 中定义的三元组质量函数,以减少假检测并提高噪声检测能力。
    • 特点: 在噪声环境下同时进行负采样和噪声检测,生成更可靠的知识表示。
    • 与自对抗采样的联系: NKRL 中定义的负采样分布与 RotatE [49] 的自对抗采样相似,因为它们都根据当前嵌入模型的自评分函数进行采样。

5. 实验设置

本文是一篇综述论文,其主要任务是回顾和分析现有的负采样方法,而不是提出新的模型并进行实验验证。因此,本文本身不包含原创性的实验设置、数据集、评估指标和对比基线。

然而,在对各种负采样方法进行讨论时,论文会提及这些方法在其原始研究中使用的实验设置。以下是对这些在 KGE 领域中常见的实验设置的总结:

5.1. 数据集

KGE 领域通常使用一些标准的、公开的基准数据集来评估模型的性能。论文中提及了以下数据集作为示例:

  • WN18 [5]: WordNet 的一个子集,主要关注词汇语义关系。特点是关系类型相对较少,但实体数量较多。

  • FB15K [5]: Freebase 的一个子集,包含更丰富多样的实体和关系类型,数据规模更大。

    选择这些数据集的原因在于它们是 KGE 任务中的经典基准,能够全面测试模型在不同规模和类型知识图谱上的表现。

5.2. 评估指标

评估 KGE 模型(以及负采样策略对 KGE 模型性能的影响)通常通过一系列下游任务来完成。论文中提及了以下下游任务和相关的评估指标:

  • 链接预测 (Link Prediction):
    • 概念定义: 预测知识图谱中缺失的实体或关系。给定 (h, r, ?) 预测尾实体 tt,或给定 (?, r, t) 预测头实体 hh
    • 评估指标:
      • Mean Rank (MR) - 平均排名:
        • 概念定义: 对于每个测试三元组 (h, r, t),将其与所有可能的负三元组进行比较,然后根据评分函数计算其在所有候选项中的排名。Mean Rank 衡量的是所有正确三元组的平均排名。排名越低表示模型性能越好。
        • 数学公式: MR=1Dtest(h,r,t)Dtestrank(h,r,t) \text{MR} = \frac{1}{|\mathbb{D}_{\text{test}}|} \sum_{(h,r,t) \in \mathbb{D}_{\text{test}}} \text{rank}(h,r,t)
        • 符号解释:
          • Dtest|\mathbb{D}_{\text{test}}|: 测试集中三元组的数量。
          • rank(h,r,t)\text{rank}(h,r,t): 正确三元组 (h,r,t) 在所有候选三元组(包括所有替换头实体或尾实体形成的假三元组)中的排名。
      • Hits@N:
        • 概念定义: 衡量正确三元组的排名在前 NN 位(例如 N=1,3,10N=1, 3, 10)的比例。Hits@N 越高表示模型性能越好。
        • 数学公式: Hits@N=1Dtest(h,r,t)DtestI(rank(h,r,t)N) \text{Hits@N} = \frac{1}{|\mathbb{D}_{\text{test}}|} \sum_{(h,r,t) \in \mathbb{D}_{\text{test}}} \mathbb{I}(\text{rank}(h,r,t) \le N)
        • 符号解释:
          • Dtest|\mathbb{D}_{\text{test}}|: 测试集中三元组的数量。
          • rank(h,r,t)\text{rank}(h,r,t): 正确三元组 (h,r,t) 在所有候选三元组中的排名。
          • I()\mathbb{I}(\cdot): 指示函数 (indicator function),如果括号内的条件为真则返回1,否则返回0。
          • NN: 预设的排名阈值,通常取1、3、10。
  • 三元组分类 (Triple Classification):
    • 概念定义: 判断一个给定的三元组是真实事实还是虚假事实(二分类任务)。
  • 节点分类 (Node Classification):
    • 概念定义: 预测知识图谱中实体的类别或属性。
  • 推荐系统 (Recommendation):
    • 概念定义: 利用知识图谱中的信息,为用户推荐物品或服务。

5.3. 对比基线

在所综述的论文中,新的负采样方法通常会与以下基线方法进行比较:

  • 常见的负采样策略:
    • 统一采样 (Uniform Sampling) [5]: 作为最基础的负采样方法。
    • 伯努利采样 (Bernoulli Sampling) [12]: 作为统一采样的改进版本。
  • 现有的 KGE 模型:
    • 例如,在评估 PNS 时,会将其与使用伯努利采样的 TransR [13] 进行比较。

    • 在评估 GAN-based 方法时,会将其与 TransE, DistMult, ComplEx 等模型在特定负采样策略下的表现进行比较。

      这些基线之所以具有代表性,是因为它们是各自领域中广泛接受或具有里程碑意义的方法,能够充分展示新方法带来的提升。

6. 实验结果与分析

本文是一篇综述性质的论文,其核心贡献在于对知识图谱嵌入中负采样方法的系统性分类和讨论,而不是通过自身实验来验证新提出的模型。因此,本文没有展示新的实验结果、表格或图表

本文的“实验结果与分析”部分,实际上是对其所综述的各个负采样方法在原始论文中报告的性能表现和特点的总结。

6.1. 核心结果分析

通过对现有负采样方法的系统性回顾,本文总结了不同方法在性能和特性上的差异:

  • 静态分布-based 采样的局限性:

    • 统一采样 (Uniform Sampling): 尽管实现简单、效率高,但生成的负样本质量低,容易导致“零损失问题”,对模型训练贡献小,且存在“假阴性”问题。论文中举例说明了 (London, locatedIn, apple) 这种过于容易区分的负样本,以及 (JoeBiden, Gender, Male) 这种“假阴性”的负样本。
    • 伯努利采样 (Bernoulli Sampling): 通过考虑关系映射属性,在一定程度上缓解了假阴性问题,提高了负样本质量。
    • 概率采样 (PNS): 被证明能够有效处理知识库中的数据倾斜问题,显著提升了 TransR 在链接预测任务上的 Mean Rank 表现(在 WN18 上提升190位,在 FB15K 上提升47位),尤其是在数据稀疏的关系上。这表明针对特定问题设计的静态分布采样仍有其价值。
  • 动态分布-based 采样的优势与挑战:

    • GAN-based 方法 (KBGAN, IGAN): 能够动态地近似负采样分布,生成更高质量的负样本,从而提升 KGE 模型的性能。KBGAN 结合了不同的生成器-判别器对,表现优于基线。IGAN 利用神经网络生成负样本,但在计算复杂性上存在劣势。
    • GAN-based 的问题: 这些方法面临训练不稳定性和模型崩溃的潜在风险,并且需要强化学习进行训练,通常需要预训练,导致额外的计算成本。
    • 自对抗采样 (RotatE): 通过避免强化学习,使用自评分函数进行采样,展现出更高的效率和稳定性。实验结果表明,RotatE 的自对抗采样在链接预测上优于 KBGAN
    • 马尔可夫链蒙特卡洛负采样 (MCNS): 被证明是一个具有开创性意义的方法,它从理论上推导了有效负采样分布应与正采样分布正相关但亚线性相关的特性。实验表明,MCNS 在下游任务中的表现优于所有基线,并且在效率上具有优势。这强调了从理论层面理解和设计负采样分布的重要性。
  • 自定义聚类-based 采样的效率与局限性:

    • TransE-SNS: 通过将实体进行聚类并在同类中采样,能够生成与正样本更相似的“困难”负样本,从而增强了 TransE 在链接预测和三元组分类上的能力。这表明缩小采样范围可以有效提高负样本质量。
    • NSCaching: 作为 GAN-based 策略的精简版,通过缓存高合理性的负样本,实现了更集中、更简洁的采样。它在效率和有效性方面均优于 GAN-based 方法,且避免了 GAN 的训练不稳定问题。
    • 挑战: 这类方法需要预先或动态维护自定义聚类或缓存,这在知识图谱快速增长和频繁更新的情况下可能变得困难。
  • 其他新颖方法 (NKRL):

    • NKRL 提出了一种置信度感知负采样方法,能够在存在噪声的知识图谱中同时进行负采样和噪声检测。它引入负三元组置信度来衡量负样本质量,并对三元组质量函数进行修改,以减少假检测问题。在链接预测任务上,NKRL 优于 CKRL。这表明负采样与噪声处理的结合是未来的一个重要方向。

      总体而言,本文通过对这些方法的综合分析,强调了负采样策略对 KGE 模型性能的决定性影响,并指出从简单的随机采样到复杂的动态生成、理论驱动以及结合噪声处理的策略,是负采样领域的发展趋势。

7. 总结与思考

7.1. 结论总结

本文全面回顾了知识图谱嵌入 (KGE) 领域中的负采样 (Negative Sampling) 技术。它强调了负采样在 KGE 模型训练中的关键作用,尤其是在知识图谱通常只存储正样本的情况下。论文将现有负采样方法创新性地归纳为三大类别:基于静态分布 (static distribution-based)、基于动态分布 (dynamic distribution-based) 和基于自定义聚类 (custom cluster-based)。通过对每类中代表性方法的详细讨论,论文分析了它们的特点、优缺点以及对 KGE 模型性能的影响。核心发现是,从简单的统一采样到复杂的 GAN-based、MCMC-based 和聚类-based 方法,负样本质量的提升能够显著增强学习到的知识表示在各种下游任务中的表现。本文填补了 KGE 领域中缺乏系统性负采样综述的空白,为未来的研究提供了宝贵的指导和方向。

7.2. 局限性与未来工作

作者指出的局限性:

  1. 研究焦点偏差: 现有的 KGE 研究过于关注于寻找新的评分函数来建模多关系数据,而对负采样的重要性和意义往往被忽视或未能充分认识。
  2. 缺乏系统性比较: 论文指出,尽管提出了多种负采样方法,但缺乏一个系统的、在统一基准数据集上进行的比较研究,以发现当前负采样方法的不足。

作者提出的未来工作:

  1. 对本文中提及的各种负采样方法在标准基准数据集(如链接预测任务)上进行系统性的比较研究
  2. 通过深入分析现有方法的优缺点和不足,提出新的负采样策略

7.3. 个人启发与批判

个人启发:

  • “幕后英雄”的价值: 这篇论文让我深刻认识到,在机器学习的许多领域中,看似辅助性的技术(如负采样)往往是决定模型最终性能的关键“幕后英雄”。它提醒研究者不要只盯着核心模型设计,而要关注整个训练流程中的每一个环节。
  • 方法论的演进: 从简单的随机采样到复杂的对抗生成和理论驱动的采样,负采样方法的发展路径反映了领域对问题理解的不断深入和技术手段的进步。这对于理解其他机器学习子领域的技术演进也具有借鉴意义。
  • 知识图谱的特殊性: 知识图谱的稀疏性和不完整性(OWA)使得负采样变得尤为重要。如何生成“有意义”的负样本,避免“过于容易”或“假阴性”,是设计 KGE 算法时不可或缺的考量。
  • 综述的价值: 这篇综述本身也是一个很好的案例,展示了如何通过系统梳理和分类,在一个相对“被忽视”的子领域中提炼出关键问题、发展脉络和未来方向,从而推动整个领域的发展。

批判或可改进之处:

  • 缺乏量化比较: 作为一篇综述,虽然讨论了各种方法的优缺点,但由于没有统一的实验平台和结果汇总,读者很难直观地对比不同负采样方法在不同 KGE 模型和数据集上的量化性能差异。如果能在综述中加入一张汇总表,展示各方法在某些代表性任务(如链接预测的 Hits@10MR)上的最佳表现,将更有说服力。
  • 未来工作的具体化: 论文指出的未来工作是“进行比较”和“提出新策略”,这相对宽泛。可以进一步探讨在特定场景(如动态知识图谱、多模态知识图谱、特定噪声类型)下负采样可能面临的挑战和潜在的创新方向,例如:如何结合图神经网络 (GNN) 结构信息进行负采样?如何应对冷启动实体或关系下的负采样?
  • 计算成本与实际应用: 尽管论文提到了 IGAN 的计算复杂度和 GAN-based 方法的训练成本,但在更广泛的讨论中,对不同负采样方法的实际计算开销和在超大规模知识图谱上的可扩展性可以进行更深入的分析和比较。
  • 与正采样分布的理论联系: MCNS 强调了负采样分布与正采样分布之间的理论联系。这一理论视角在其他负采样方法的讨论中可以得到更强的突出,例如,其他方法是如何隐式或显式地建模或近似这种关系的。

迁移或应用到其他领域:

  • 推荐系统: 在隐式反馈 (Implicit Feedback) 推荐中,负采样是至关重要的,因为用户只提供了正反馈(如点击、购买),而没有明确的负反馈。本文中讨论的动态、对抗性或基于聚类的负采样思想可以直接迁移到推荐系统,以生成更具挑战性、更能代表用户真实兴趣偏好的负样本。
  • 表示学习 (Representation Learning) 的通用性: 无论是 word2vecnode2vec 还是 KGE,负采样都是学习离散项连续表示的关键技术。本文的分类和讨论框架可以作为通用指南,用于分析和设计其他离散数据(如图像标签、用户行为序列)的表示学习中的负采样策略。
  • 异常检测 (Anomaly Detection): 在异常检测任务中,正常样本是已知的,而异常样本是未知的。这与 KGE 中正负样本的关系有相似之处。借鉴负采样的思想,可以设计生成“假正常”样本的方法,从而更好地训练异常检测模型。

相似论文推荐

基于向量语义检索推荐的相关论文。

暂时没有找到相似论文。