论文状态：已完成

Knowledge-aware Graph Neural Networks with Label Smoothness Regularization for Recommender Systems

发表：2019/05/11

原文链接 PDF 下载

价格：0.100000

已有 2 人读过

本分析由 AI 生成，可能不完全准确，请以原文为准。

TL;DR 精炼摘要

本文提出KGNN-LS模型，通过训练可辨识用户相关的知识图谱关系，将知识图谱转化为用户特定加权图，并结合标签平滑正则提升边权质量，实现端到端训练。该方法有效提升冷启动推荐性能，并具备良好扩展性，在多数据集上优于现有最优方法。

摘要

Knowledge graphs capture structured information and relations between a set of entities or items. As such knowledge graphs represent an attractive source of information that could help improve recommender systems. However, existing approaches in this domain rely on manual feature engineering and do not allow for an end-to-end training. Here we propose Knowledge-aware Graph Neural Networks with Label Smoothness regularization (KGNN-LS) to provide better recommendations. Conceptually, our approach computes user-specific item embeddings by first applying a trainable function that identifies important knowledge graph relationships for a given user. This way we transform the knowledge graph into a user-specific weighted graph and then apply a graph neural network to compute personalized item embeddings. To provide better inductive bias, we rely on label smoothness assumption, which posits that adjacent items in the knowledge graph are likely to have similar user relevance labels/scores. Label smoothness provides regularization over the edge weights and we prove that it is equivalent to a label propagation scheme on a graph. We also develop an efficient implementation that shows strong scalability with respect to the knowledge graph size. Experiments on four datasets show that our method outperforms state of the art baselines. KGNN-LS also achieves strong performance in cold-start scenarios where user-item interactions are sparse.

思维导图

论文精读

中文精读约 37 分钟读完 · 23,349 字

1. 论文基本信息

1.1. 标题

Knowledge-aware Graph Neural Networks with Label Smoothness Regularization for Recommender Systems (带标签平滑正则化的知识感知图神经网络推荐系统)

1.2. 作者

Hongwei Wang (王宏伟) - 斯坦福大学 (Stanford University)
Fuzheng Zhang (张富峥) - 美团点评集团 (Meituan-Dianping Group)
Mengdi Zhang (张梦迪) - 美团点评集团 (Meituan-Dianping Group)
Jure Leskovec - 斯坦福大学 (Stanford University)
Miao Zhao (赵淼) - 香港理工大学 (Hong Kong Polytechnic University)
Wenjie Li (李文杰) - 香港理工大学 (Hong Kong Polytechnic University)
Zhongyuan Wang (王忠元) - 美团点评集团 (Meituan-Dianping Group)

1.3. 发表期刊/会议

The 25th ACM SIGKDD Conference on Knowledge Discovery and Data Mining (KDD '19), August 4–8, 2019, Anchorage, AK, USA. KDD 是数据挖掘领域顶级会议，具有很高的学术声誉和影响力。

1.4. 发表年份

2019年

1.5. 摘要

知识图谱 (Knowledge Graphs, KGs) 能够捕获结构化信息以及实体或物品之间的关系。因此，知识图谱是改进推荐系统 (recommender systems) 的一个有吸引力的信息来源。然而，现有方法依赖于手动特征工程 (manual feature engineering)，并且不允许端到端 (end-to-end) 训练。本文提出了带标签平滑 (Label Smoothness, LS) 正则化的知识感知图神经网络 (Knowledge-aware Graph Neural Networks, KGNN-LS)，以提供更好的推荐。从概念上讲，本文的方法通过首先应用一个可训练函数来计算用户特定的物品嵌入 (user-specific item embeddings)，该函数为给定用户识别重要的知识图谱关系。通过这种方式，知识图谱被转换为用户特定的加权图 (user-specific weighted graph)，然后应用图神经网络 (Graph Neural Network, GNN) 来计算个性化物品嵌入。为了提供更好的归纳偏置 (inductive bias)，本文依赖于标签平滑假设，即知识图谱中相邻的物品可能具有相似的用户相关性标签/分数。标签平滑为边权重 (edge weights) 提供了正则化，并且本文证明它等价于图上的标签传播 (label propagation) 方案。本文还开发了一种高效的实现，显示出对知识图谱大小的强大可扩展性 (scalability)。在四个数据集上的实验表明，本文的方法优于最先进的 (state-of-the-art) 基线 (baselines)。KGNN-LS 在用户-物品交互稀疏的冷启动 (cold-start) 场景中也取得了出色的性能。

1.6. 原文链接

https://arxiv.org/abs/1905.04413

1.7. PDF 链接

https://arxiv.org/pdf/1905.04413v3.pdf 发布状态：该论文已于2019年在KDD会议上发表，arXiv链接是预印本版本。

2. 整体概括

2.1. 研究背景与动机

推荐系统在互联网应用中广泛用于满足用户的个性化兴趣并缓解信息过载。然而，传统的基于协同过滤 (Collaborative Filtering, CF) 的推荐系统通常面临以下挑战：

冷启动问题 (Cold-start Problem): 难以向新用户或新物品推荐，因为缺乏足够的历史交互数据。
数据稀疏性 (Sparsity Issue): 用户-物品交互数据通常非常稀疏，这限制了模型的学习能力和泛化能力。

知识图谱 (Knowledge Graphs, KGs) 能够捕捉实体之间的结构化信息和丰富关系，被视为解决上述问题的一个有吸引力的信息源。KGs 是异构图 (heterogeneous graphs)，其中节点可以是物品或其属性，边代表不同类型的关系，从而捕捉物品之间的语义相关性。

然而，现有利用知识图谱的推荐系统方法存在以下局限性：

依赖手动特征工程 (Manual Feature Engineering): 大多数方法需要人工设计特征，耗时且难以泛化。
非端到端训练 (Non-end-to-end Training): 知识图谱信息与推荐模型通常是分阶段处理的，无法进行整体优化。
可扩展性差 (Poor Scalability): 随着知识图谱规模增大，一些方法的计算成本急剧上升。
GNN在异构KG上的应用空白: 尽管图神经网络 (GNNs) 在图表示学习方面取得了显著进展，但它们大多设计用于同构的二分图 (homogeneous bipartite graphs) 或用户/物品相似图，如何将其扩展到异构的知识图谱并有效处理其关系异质性 (relational heterogeneity) 仍是一个开放问题。

本文的动机正是针对这些挑战，旨在开发一种能够：

端到端训练: 整合知识图谱信息到推荐模型中。
自动学习关系重要性: 捕获用户对知识图谱中不同关系的个性化偏好。
解决过拟合: 通过引入额外的正则化来应对稀疏交互数据导致的过拟合风险。
提高冷启动性能: 利用知识图谱的丰富信息缓解冷启动问题。
保持可扩展性: 能够处理大规模知识图谱。

2.2. 核心贡献/主要发现

本文提出了 KGNN-LS 模型，其核心贡献和主要发现如下：

提出了用户特定的知识感知图神经网络 (Knowledge-aware Graph Neural Networks): KGNN-LS 将传统的 GNN 架构扩展到异构知识图谱。它通过引入一个可训练的用户特定关系评分函数 (user-specific relation scoring function)，将异构知识图谱转化为用户特定的加权图。这使得模型能够个性化地识别对特定用户重要的知识图谱关系，并在此基础上应用 GNN 来计算个性化物品嵌入。整个过程是端到端可训练的。
引入标签平滑正则化 (Label Smoothness Regularization): 针对用户特定边权重学习可能导致的过拟合问题，KGNN-LS 引入了标签平滑正则化。该正则化基于“知识图谱中相邻实体可能具有相似的用户相关性标签/分数”的假设，为边权重提供了额外的监督信号。
证明标签平滑与标签传播的等价性: 本文从理论上证明了所提出的标签平滑正则化等价于图上的标签传播方案，为正则化的有效性提供了坚实的理论基础。
统一的特征传播与标签传播框架: KGNN-LS 将知识感知图神经网络（作为特征传播）和标签平滑正则化（作为标签传播）统一在一个损失函数中，协同优化以学习物品表示和边权重。
高效实现和可扩展性: 论文开发了高效的实现，并在实验中展示了其对知识图谱规模的强大可扩展性。
优越的推荐性能: 在电影、图书、音乐和餐饮四个真实世界数据集上的实验表明，KGNN-LS 在推荐准确性方面显著优于最先进的基线方法。
在冷启动场景下的卓越表现: KGNN-LS 在用户-物品交互稀疏的冷启动场景中也能保持强劲的推荐性能，有效缓解了传统推荐系统的这一痛点。

3. 预备知识与相关工作

3.1. 基础概念

推荐系统 (Recommender Systems, RS): 一类信息过滤系统，旨在预测用户对物品的偏好并推荐最可能受欢迎的物品。
协同过滤 (Collaborative Filtering, CF): 传统推荐系统的主要范式之一，通过分析用户或物品之间的相似性来进行推荐。例如，基于用户的 CF 寻找与目标用户兴趣相似的其他用户，然后推荐这些相似用户喜欢的物品；基于物品的 CF 则寻找与目标物品相似的物品。
冷启动问题 (Cold-Start Problem): 推荐系统面临的一个挑战，当新用户或新物品加入系统时，由于缺乏足够的历史交互数据，难以做出准确推荐。
知识图谱 (Knowledge Graphs, KGs): 一种结构化的知识表示形式，由三元组 (head, relation, tail) 构成。其中 head (头实体) 和 tail (尾实体) 是实体，relation (关系) 描述了它们之间的联系。KGs 是异构图，节点可以是物品、属性等，边代表不同类型的语义关系，例如 (电影, 主演, 演员)。
图神经网络 (Graph Neural Networks, GNNs): 一类能够直接在图结构数据上运行的神经网络模型。它们通过聚合节点邻居的信息来学习节点的表示 (representation) 或嵌入 (embedding)。
- 图卷积网络 (Graph Convolutional Networks, GCNs): GNNs 的一种流行变体，通过对图的局部邻域进行卷积操作来学习节点特征。其核心思想是，一个节点的表示可以通过其自身特征及其邻居特征的加权平均来更新。
标签传播 (Label Propagation): 一种半监督学习算法，其核心思想是已知标签的节点将其标签信息传播给相邻的未标记节点，直到整个图的标签分布达到稳定状态。在传播过程中，通常假设相邻节点倾向于拥有相似的标签。
归纳偏置 (Inductive Bias): 机器学习模型在学习过程中对未见过的数据做出预测时所做的假设。一个好的归纳偏置可以帮助模型在有限数据下更好地泛化。在图学习中，例如“相邻节点应该有相似的表示”就是一个常见的归纳偏置。
端到端训练 (End-to-end Training): 指模型的整个流程（从输入到输出）作为一个整体进行训练和优化，而不是分成多个独立阶段。这允许梯度在整个模型中流动，从而更好地协同优化所有参数。

3.2. 前人工作

本文将利用知识图谱的推荐系统分为三类，并对比了 GNN 在推荐系统中的应用。

图神经网络 (Graph Neural Networks):
- 早期的 GCN 工作，如 Bruna 等 [3] 在傅里叶域定义卷积，Defferrard 等 [5] 使用切比雪夫展开近似卷积核，Kipf 等 [11] 提出了基于一阶近似的 GCN 架构。这些方法主要用于同构图或半监督节点分类。
- 近期 GNN 在推荐系统中的应用：
  - PinSage [32] 将 GNN 应用于 Pinterest 的物品二分图。
  - Monti 等 [14] 和 Berg 等 [19] 将推荐系统建模为矩阵补全 (matrix completion)，并设计 GNN 在用户-物品二分图上进行表示学习。
  - Wu 等 [31] 使用 GNN 在用户/物品结构图上学习表示。
- 差异化分析: 这些工作大多针对同构的二分图或用户/物品相似图，而本文的 KGNN-LS 则旨在将 GNN 扩展到异构的知识图谱。Wang 等 [28] 也尝试将 GCN 应用于 KG 进行推荐，但本文指出其未进行适当正则化容易导致过拟合。Schlichtkrull 等 [17] 提出了使用 GNN 对 KG 进行建模，但其目的并非推荐。
图上的半监督学习 (Semi-supervised Learning on Graphs):
- 目标是在给定少量节点标签的情况下，正确标注图中的所有节点。
- 核心假设：图上标签的平滑变化。
- 根据边权重的设置分为两类：
  1. 边权重是给定且固定的 [1, 37, 38]。
  2. 边权重是参数化且可学习的 [10, 21, 35]。
- 差异化分析: 本文受这些方法的启发，设计了标签平滑正则化模块。但与传统半监督学习不同，本文的标签平滑约束并非用于半监督节点分类，而是作为正则化手段来辅助学习边权重，并提高推荐系统的泛化能力。
基于知识图谱的推荐 (Recommendations with Knowledge Graphs):
- 嵌入式方法 (Embedding-based methods) [9, 26, 27, 34]: 先使用知识图谱嵌入 (Knowledge Graph Embedding, KGE) 算法（如 TransE [2]）预处理 KG，然后将学习到的实体嵌入整合到推荐模型中。
  - 特点: 灵活，但 KGE 算法更侧重于建模严格的语义关系（如 $head + relation = tail$ ），更适合链接预测等图应用，而非直接推荐。通常缺乏端到端训练。
- 路径式方法 (Path-based methods) [8, 33, 36]: 探索 KG 中物品之间连接的各种模式（即元路径 meta-path 或元图 meta-graph），以提供额外的推荐指导。
  - 特点: 更直观，但高度依赖手动设计的元路径/元图，在实践中难以调优。
- 混合方法 (Hybrid methods) [18, 24, 28]: 结合了上述两类方法，通过利用 KG 结构学习用户/物品嵌入。
- 差异化分析: 本文提出的模型 KGNN-LS 可以看作是一种混合方法，但通过 GNN 架构和标签平滑正则化解决了传统混合方法中手动特征工程和非端到端训练的痛点。

3.3. 技术演进

推荐系统的发展历程大致为：

早期协同过滤 (Early CF): 基于用户-物品交互矩阵，通过计算用户或物品相似度进行推荐。面临冷启动和稀疏性问题。
矩阵分解 (Matrix Factorization, MF): 将用户-物品交互矩阵分解为用户和物品的低维隐向量，提高了推荐效果。SVD [12] 是代表。
特征工程与上下文感知推荐 (Feature Engineering & Context-aware RS): 引入用户/物品属性、社交网络等额外信息来缓解稀疏性，但通常需要大量人工特征工程。LibFM [16] 是特征组合的代表。
知识图谱的引入 (Introduction of KGs): 认识到 KG 丰富的语义信息对推荐的价值。从最初的 KGE 嵌入融合 (TransE [2], CKE [34])，到探索元路径 (PER [33], RippleNet [24])。这些方法仍面临非端到端、手动设计等问题。
深度学习在推荐中的应用 (Deep Learning in RS): 深度学习模型（如 MLP、CNN、RNN）开始应用于推荐系统，以学习更复杂的特征和交互模式。
图神经网络的兴起 (Rise of GNNs): GNNs 为处理图结构数据提供了强大的工具，自然地被引入推荐系统，尤其是处理用户-物品交互图 (PinSage [32])。然而，直接将 GNN 应用于复杂的异构知识图谱仍有挑战。本文的 KGNN-LS 正是位于这一技术演进链条上，它将 GNN 的强大表示学习能力与知识图谱的丰富语义信息相结合，并通过用户个性化的边权重和标签平滑正则化，解决了传统 GNN 在异构 KG 上的应用难题，并克服了冷启动和过拟合问题，实现了端到端的推荐。

4. 方法论

4.1. 方法原理

KGNN-LS 的核心思想是将异构知识图谱 (heterogeneous knowledge graph) 转化为用户特定的加权图 (user-specific weighted graph)，然后利用图神经网络 (GNN) 在这个加权图上学习个性化的物品嵌入 (personalized item embeddings)，并通过标签平滑 (label smoothness) 正则化来指导边权重的学习，防止过拟合，并增强模型的泛化能力。

直觉上，不同用户在评估物品时，可能关注物品之间不同的关系。例如，一个电影爱好者可能非常看重“导演”关系，而另一个用户可能更关注“主演”关系。KGNN-LS 通过一个可训练函数捕捉这种用户-关系偏好，为每个用户动态地计算知识图谱中边的权重。然后，GNN 在这个用户特定的加权图上进行信息聚合，生成反映用户偏好的物品嵌入。

然而，这种用户特定边权重的引入增加了模型的复杂度，可能导致在稀疏的推荐数据上过拟合。为了解决这个问题，模型引入了标签平滑正则化。该正则化基于一个核心假设：在知识图谱中相邻的物品，对于某个特定用户而言，它们被喜欢或不喜欢的可能性应该是相似的。通过最小化“相邻物品标签差异”的能量函数，并结合“留一法 (leave-one-out)”损失，标签平滑正则化能够为边权重提供额外的监督信号，促使模型学习到更合理的、能够使标签平滑传播的边权重，从而提高模型的泛化能力。

整个模型是一个端到端的框架，这意味着所有组件（用户-关系偏好函数、GNN 的参数、预测函数）都可以通过用户-物品交互数据进行联合优化。

4.2. 核心方法详解

4.2.1. 知识感知图神经网络 (Knowledge-aware Graph Neural Networks)

该模块旨在通过 GNN 在知识图谱上学习用户特定的物品嵌入。其关键在于将异构知识图谱转换为用户特定的加权图，再进行 GNN 的消息传递。

用户特定关系评分函数 (User-specific Relation Scoring Function): 首先，对于每个用户 $u$ ，模型会学习一个函数 $s_u(r)$ 来量化关系 $r$ 对于用户 $u$ 的重要性。这使得模型能够捕捉到不同用户对知识图谱中不同关系类型的个性化关注点。 $s_u(r) = g(\mathbf{u}, \mathbf{r})$
- $\mathbf{u}$ : 用户 $u$ 的特征向量或嵌入 (embedding)。
- $\mathbf{r}$ : 关系类型 $r$ 的特征向量或嵌入。
- $g$ : 一个可微分函数，通常可以是内积 (inner product) 或多层感知机 (Multilayer Perceptron, MLP)。论文中将其设置为内积。
构建用户特定邻接矩阵 (User-specific Adjacency Matrix): 基于 $s_u(r)$ ，原始的知识图谱 $\mathcal{G}$ 被转换为一个用户特定的邻接矩阵 $\mathbf{A}_u \in \mathbb{R}^{|\mathcal{E}| \times |\mathcal{E}|}$ 。这里 $|\mathcal{E}|$ 是知识图谱中实体的总数。
- $\mathbf{A}_u^{ij}$ 表示实体 $e_i$ 和 $e_j$ 之间的边权重。
- 如果知识图谱中存在从 $e_i$ 到 $e_j$ 的关系 $r_{e_i, e_j}$ ，则 $A_u^{ij} = s_u(r_{e_i, e_j})$ 。
- 如果 $e_i$ 和 $e_j$ 之间没有关系，则 $A_u^{ij} = 0$ 。
GNN 层级传播 (Layer-wise GNN Propagation): 得到用户特定邻接矩阵 $\mathbf{A}_u$ 后，GNN 通过多层信息聚合来更新实体表示。
- 初始实体特征矩阵 $\mathbf{E}$ : 这是一个 $\mathbb{R}^{|\mathcal{E}| \times d_0}$ 维的矩阵，其中 $d_0$ 是原始实体特征的维度。 $\mathbf{H}_0 = \mathbf{E}$ 。
- 层级传播公式: $\mathbf { H } _ { l + 1 } = \sigma \left( \mathbf { D } _ { u } ^ { - 1 / 2 } \mathbf { A } _ { u } \mathbf { D } _ { u } ^ { - 1 / 2 } \mathbf { H } _ { l } \mathbf { W } _ { l } \right) , l = 0 , 1 , \cdots , L - 1 .$
  - $\mathbf{H}_l$ : 第 $l$ 层实体的隐表示 (hidden representations) 矩阵。
  - $\mathbf{A}_u$ : 用户特定的邻接矩阵。为了确保实体自身的信息也参与更新，通常会对其进行自连接处理，即 $\mathbf{A}_u \gets \mathbf{A}_u + \mathbf{I}$ ，其中 $\mathbf{I}$ 是单位矩阵。
  - $\mathbf{D}_u$ : 对角线度矩阵 (diagonal degree matrix)。其对角线元素 $D_u^{ii} = \sum_j A_u^{ij}$ 。矩阵 $\mathbf{D}_u^{-1/2}$ 用于归一化 (normalize) $\mathbf{A}_u$ ，以保持实体表示矩阵 $\mathbf{H}_l$ 的数值稳定性和避免梯度爆炸/消失。
  - $\mathbf{W}_l \in \mathbb{R}^{d_l \times d_{l+1}}$ : 第 $l$ 层的可训练权重矩阵，将 $d_l$ 维的表示变换为 $d_{l+1}$ 维。
  - $\sigma$ : 非线性激活函数，如 ReLU (整流线性单元)。
  - $L$ : GNN 的层数。每一层 GNN 聚合了实体在 KG 中一跳邻居的信息。通过堆叠 $L$ 层，实体表示可以捕获到 $L$ 跳远的邻居信息。
最终物品表示与预测 (Final Item Representation and Prediction): 经过 $L$ 层 GNN 传播后，得到最终的实体表示矩阵 $\mathbf{H}_L \in \mathbb{R}^{|\mathcal{E}| \times d_L}$ 。对于每个物品 $v$ ，其最终的用户特定表示是 $\mathbf{v}_u$ (即 $\mathbf{H}_L$ 的第 $v$ 行)。
- 预测用户 $u$ 对物品 $v$ 的参与概率 $\hat{y}_{uv}$ : $\hat{y}_{uv} = f(\mathbf{u}, \mathbf{v}_u)$
  - $f$ : 一个可微分的预测函数，例如内积或多层感知机。论文中将其设置为内积。
- 用户特定性: 注意 $\mathbf{v}_u$ 是用户特定的，因为邻接矩阵 $\mathbf{A}_u$ 是用户特定的。
- 端到端训练: 整个模型是端到端可训练的，梯度从预测函数 $f(\cdot)$ 经过 GNN (通过 $\mathbf{W}$ 矩阵) 流向关系评分函数 $g(\cdot)$ ，并最终流向用户 $\mathbf{u}$ 和关系 $\mathbf{r}$ 的表示。

4.2.2. 标签平滑正则化 (Label Smoothness Regularization)

传统 GNN 中的边权重是固定的，而 KGNN-LS 中的边权重 $\mathbf{A}_u$ 是通过可学习函数 $g$ 动态生成的，虽然增加了灵活性，但也容易因监督信号（用户-物品交互）稀疏而过拟合。标签平滑正则化旨在为这些可学习的边权重提供额外的归纳偏置 (inductive bias)。

标签平滑假设和能量函数 (Label Smoothness Assumption and Energy Function):
- 假设: 知识图谱中相邻的实体可能具有相似的用户相关性标签/分数。
- 定义用户 $u$ 的真实标签函数 $l_u$ : $l_u: \mathcal{E} \to \mathbb{R}$ 。对于已交互的物品 $v \in \mathcal{V}$ (物品集合)，其标签 $l_u(v) = y_{uv}$ (1 表示用户喜欢，0 表示不喜欢)。对于非物品实体或未交互物品，标签是未知的。
- 能量函数 $E$ : 衡量图上标签平滑度的指标。如果相邻实体有相似标签，能量值会较低。 $E ( l _ { u } , \mathbf { A } _ { u } ) = \frac { 1 } { 2 } \sum _ { e _ { i } \in \mathcal { E } , e _ { j } \in \mathcal { E } } A _ { u } ^ { i j } \left( l _ { u } ( e _ { i } ) - l _ { u } ( e _ { j } ) \right) ^ { 2 } .$
  - $l_u(e_i)$ : 实体 $e_i$ 的用户 $u$ 相关性标签。
  - $A_u^{ij}$ : 用户 $u$ 对实体 $e_i$ 和 $e_j$ 之间关系的加权重要性。
  - 直觉: 能量函数对 $A_u^{ij}$ 大但 $l_u(e_i)$ 和 $l_u(e_j)$ 相差大的情况进行惩罚，反之，鼓励 $A_u^{ij}$ 大时 $l_u(e_i)$ 和 $l_u(e_j)$ 相似。
最小能量标签函数的调和性质 (Harmonic Property of Minimum-Energy Label Function): 定理 1: 最小化能量函数 $E(l_u, \mathbf{A}_u)$ 且固定已知物品标签 $l_u(v) = y_{uv}$ 的标签函数 $l_u^*$ 是调和的 (harmonic)。 $l _ { u } ^ { * } = \operatorname* { a r g m i n } _ { \substack { l _ { u } : l _ { u } ( v ) = y _ { u v } , \forall v \in \mathcal { V } } } E ( l _ { u } , \mathbf { A } _ { u } )$ 满足： $l _ { u } ^ { * } ( e _ { i } ) = \frac { 1 } { D _ { u } ^ { i i } } \sum _ { e _ { j } \in \mathcal { E } } A _ { u } ^ { i j } l _ { u } ^ { * } ( e _ { j } ) , \forall e _ { i } \in \mathcal { E } \backslash \mathcal { V } .$
- 证明: 取 $E(l_u, \mathbf{A}_u)$ 对 $l_u(e_i)$ （其中 $e_i \in \mathcal{E} \setminus \mathcal{V}$ ，即非物品实体或未标记物品实体）的偏导数，并令其为 0： $\frac { \partial E ( l _ { u } , \mathbf { A } _ { u } ) } { \partial l _ { u } ( e _ { i } ) } = \sum _ { j } A _ { u } ^ { i j } \left( l _ { u } ( e _ { i } ) - l _ { u } ( e _ { j } ) \right) = 0$ 整理可得： $l _ { u } ^ { * } ( e _ { i } ) \sum _ { j } A _ { u } ^ { i j } = \sum _ { j } A _ { u } ^ { i j } l _ { u } ^ { * } ( e _ { j } )$ 由于 $D_u^{ii} = \sum_j A_u^{ij}$ ，因此： $l _ { u } ^ { * } ( e _ { i } ) = \frac { 1 } { D _ { u } ^ { i i } } \sum _ { j } A _ { u } ^ { i j } l _ { u } ^ { * } ( e _ { j } ) , \ : \forall e _ { i } \in \mathcal { E } \backslash \mathcal { V } .$
- 含义: 这个调和性质表明，非物品实体 $e_i$ 的最小能量标签 $l_u^*(e_i)$ 等于其邻居标签的加权平均。这正是标签传播的核心思想。
标签传播方案 (Label Propagation Scheme): 定理 2: 重复以下两步操作，可以达到最小能量标签函数 $l_u^*$ ：
1. 标签传播: $l_u(\mathcal{E}) \gets \mathbf{D}_u^{-1} \mathbf{A}_u l_u(\mathcal{E})$ 。这里 $l_u(\mathcal{E})$ 是所有实体标签的向量。
2. 重置已知标签: $l_u(\mathcal{V}) \gets \mathbf{Y}[u, \mathcal{V}]^\top$ 。这里 $l_u(\mathcal{V})$ 是物品实体的标签向量， $\mathbf{Y}[u, \mathcal{V}]$ 是用户 $u$ 对物品的真实交互标签。
- 证明: 将所有实体标签向量 $l_u(\mathcal{E})$ 分割为物品标签 $l_u(\mathcal{V})$ 和非物品实体（或未标记物品）标签 $l_u(\mathcal{E} \setminus \mathcal{V})$ 。定义转移矩阵 $\mathbf{P} = \mathbf{D}_u^{-1} \mathbf{A}_u$ ，并根据标签分割将其划分为子矩阵： $\mathbf { P } = \left[ \begin{array} { l l } { \mathbf { P } _ { V V } } & { \mathbf { P } _ { V E } } \\ { \mathbf { P } _ { E V } } & { \mathbf { P } _ { E E } } \end{array} \right] .$ 其中，下标 $V$ 代表物品实体 $\mathcal{V}$ ，下标 $E$ 代表非物品实体 $\mathcal{E} \setminus \mathcal{V}$ 。标签传播的第二步（重置已知标签）意味着 $l_u(\mathcal{V})$ 保持固定为 $\mathbf{Y}[u, \mathcal{V}]^\top$ 。因此，我们只关注 $l_u(\mathcal{E} \setminus \mathcal{V})$ 的更新。标签传播的等价形式为： $l _ { u } ( \mathcal { E } \backslash \mathcal { V } ) = \mathbf { P } _ { E V } \mathbf { Y } [ u , \mathcal { V } ] ^ { \top } + \mathbf { P } _ { E E } l _ { u } ( \mathcal { E } \backslash \mathcal { V } ) .$ 重复此过程 $n$ 次，得到： $l _ { u } ( \mathcal { E } \backslash \mathcal { V } ) = \operatorname* { l i m } _ { n \to \infty } ( \mathbf { P } _ { E E } ) ^ { n } l _ { u } ^ { ( 0 ) } ( \mathcal { E } \backslash \mathcal { V } ) + \left( \sum _ { i = 1 } ^ { n } ( \mathbf { P } _ { E E } ) ^ { i - 1 } \right) \mathbf { P } _ { E V } \mathbf { Y } [ u , \mathcal { V } ] ^ { \top } ,$ 其中 $l_u^{(0)}(\mathcal{E} \setminus \mathcal{V})$ 是初始值。由于 $\mathbf{P}$ 是行归一化 (row-normalized) 矩阵，且 $\mathbf{P}_{EE}$ 是其子矩阵，可以证明 $\lim_{n \to \infty} (\mathbf{P}_{EE})^n = \mathbf{0}$ (零矩阵)，这意味着 $\lim_{n \to \infty} (\mathbf{P}_{EE})^n l_u^{(0)}(\mathcal{E} \setminus \mathcal{V}) = \mathbf{0}$ 。初始值不影响收敛。因此，上式简化为： $l _ { u } ( \mathcal { E } \backslash \mathcal { V } ) = \operatorname* { l i m } _ { n \longrightarrow \infty } \left( \sum _ { i = 1 } ^ { n } ( \mathbf { P } _ { E E } ) ^ { i - 1 } \right) \mathbf { P } _ { E V } \mathbf { Y } [ u , \mathcal { V } ] ^ { \top } .$ 令 $\mathbf{T} = \sum_{i=1}^\infty (\mathbf{P}_{EE})^{i-1} = (\mathbf{I} - \mathbf{P}_{EE})^{-1}$ 。最终，得到唯一固定点解： $l _ { u } ( \mathcal { E } \backslash \mathcal { V } ) = ( \mathbf { I } - \mathbf { P } _ { E E } ) ^ { - 1 } \mathbf { P } _ { E V } \mathbf { Y } [ u , \mathcal { V } ] ^ { \top } .$ 这证明了重复传播和重置步骤会收敛到最小能量标签函数 $l_u^*$ 。
留一法损失 (Leave-one-out Loss) 作为正则化: 虽然定理 2 提供了计算最小能量标签的方法，但 $l_u^*$ 本身不足以直接训练边权重 $\mathbf{A}_u$ ，因为它对已标记的物品标签没有提供梯度信号。为了解决这个问题，本文提出了使用“留一法”损失进行正则化。
- 思想: 假设我们“隐藏”一个物品 $v$ 的真实标签 $y_{uv}$ ，并将其视为未标记。然后，使用其余已标记物品和未标记实体进行标签传播，预测 $v$ 的标签 $\hat{l}_u(v)$ 。
- 正则化项 $R(\mathbf{A})$ : 预测标签 $\hat{l}_u(v)$ $\hat{l}_{u} (v)$ 与真实标签 $y_{uv}$ $y_{uv}$ 之间的差异，作为监督信号来正则化边权重 $\mathbf{A}_u$ $A_{u}$ 。 $R ( \mathbf { A } ) = \sum _ { u } R ( \mathbf { A } _ { u } ) = \sum _ { u } \sum _ { v } J ( y _ { u v } , \hat { l } _ { u } ( v ) ) ,$
  - $J$ : 交叉熵损失函数 (cross-entropy loss function)。
  - 直觉: 理想的边权重 $\mathbf{A}_u$ 应该能够通过标签传播准确地预测被隐藏的物品标签，同时保持标签的平滑性。这有助于学习到更合理的边权重，防止过拟合。

4.2.3. 统一损失函数 (The Unified Loss Function)

KGNN-LS 将知识感知图神经网络模块（主要负责特征传播和推荐预测）和标签平滑正则化模块（主要负责边权重的规范化）结合在一个统一的损失函数中进行端到端优化。

$\operatorname* { m i n } _ { \mathbf { W } , \mathbf { A } } \mathcal { L } = \operatorname* { m i n } _ { \mathbf { W } , \mathbf { A } } \sum _ { u , v } J ( y _ { u v } , \hat { y } _ { u v } ) + \lambda R ( \mathbf { A } ) + \gamma \| \mathcal { F } \| _ { 2 } ^ { 2 } ,$

$\sum_{u,v} J(y_{uv}, \hat{y}_{uv})$ : 这是推荐任务的核心损失项，通常使用交叉熵损失，衡量模型预测的参与概率 $\hat{y}_{uv}$ 与真实标签 $y_{uv}$ 之间的差异。这一项驱动 KGNN-LS 中的 GNN 学习实体表示和预测用户偏好。
$\lambda R(\mathbf{A})$ : 这是标签平滑正则化项。它鼓励模型学习到的边权重 $\mathbf{A}_u$ $A_{u}$ 能够使图上的标签平滑传播，并能准确预测隐藏的物品标签。
- $\lambda$ : 平衡标签平滑正则化项重要性的超参数。
$\gamma \|\mathcal{F}\|_2^2$ : L2 正则化项，用于防止模型参数过拟合。
- $\gamma$ : 平衡 L2 正则化项重要性的超参数。
- $\|\mathcal{F}\|_2^2$ : 表示模型所有可训练参数的 L2 范数平方。

双重传播视角: 这个统一的损失函数可以从“特征传播”和“标签传播”两个角度来理解：

特征传播 (Feature Propagation): GNN 部分负责在知识图谱上聚合实体特征，将原始实体特征 $\mathbf{E}$ 转换为高阶、用户特定的嵌入 $\mathbf{H}_L$ ，这可以看作是实体特征在图上的传播。
标签传播 (Label Propagation): 标签平滑正则化项 $R(\mathbf{A})$ 鼓励边权重 $\mathbf{A}_u$ 使得用户相关性标签能够在图上平滑传播，这本质上是一个标签传播过程。

通过这种方式，KGNN-LS 同时利用了知识图谱的结构信息在特征侧和标签侧来捕捉用户的高阶偏好，从而提升推荐效果。

4.2.4. 讨论与直观理解

下图（原文 Figure 2）展示了知识图谱与标签平滑正则化如何影响推荐决策的直观类比。

该图像是论文中的示意图，展示了不同情境下知识图（KG）与标签平滑（LS）正则化对用户兴趣判别边界的影响。图中通过不同颜色圆点和箭头表示正负样本及其力的方向，说明了KG和标签平滑如何帮助调整判别边界以优化推荐效果。

图 2a (无 KG): 物品被视为粒子，用户相关性信号（正样本被拉高，负样本被拉低）是唯一的力。没有知识图谱时，物品之间仅通过协同过滤效应（图中未画出）松散连接。
图 2b (单层 KGNN): 知识图谱中的边充当“橡皮筋”，对连接实体施加邻近约束。当 $L=1$ 时，每个实体表示是自身及其直接邻居的混合。优化正样本会同时拉动其直接邻居。注意，橡皮筋的强度（即 $s_u(r)$ ）是用户特定和关系特定的。例如，用户 A 可能更看重关系 $r_1$ （图 2b），而用户 B 可能更看重关系 $r_2$ （图 2d）。
图 2c (多层 KGNN): 随着 GNN 层数 $L$ 的增加，这种向上拉力在知识图谱中深入，帮助探索用户更远的兴趣（多跳邻居），从而提升更多潜在正样本。
图 2e (标签平滑正则化): 即使有 KG，边权重也可能设置不当（例如，橡皮筋太弱，无法有效拉起未观察到的物品）。标签平滑正则化通过“留一法”机制发挥作用：假设隐藏左上方的一个正样本（条纹粉色圆点），并试图用其余物品预测其标签。由于其真实标签为 1 且右上方的样本（蓝色圆点）标签值最大，LS 正则化项 $R(\mathbf{A})$ 会强制箭头上所示的边权重变大，以便标签能更多地从蓝色样本“流向”条纹粉色样本。这将“拉紧”这些橡皮筋，鼓励模型更大幅度地拉起两个上方的粉色物品。

通过这种物理类比，论文直观地解释了知识图谱如何通过其结构提供邻近约束，以及用户特定关系权重如何实现个性化，而标签平滑正则化如何进一步校准这些边权重，确保标签在图上的合理传播，从而提高推荐效果和泛化能力。

5. 实验设置

5.1. 数据集

本文在四个真实世界数据集上评估了 KGNN-LS 模型，涵盖了电影、图书、音乐和餐饮推荐场景。其中 MovieLens-20M、Book-Crossing 和 Last.FM 是公开数据集，Dianping-Food 来自美团点评集团。

下表（原文 Table 2）展示了四个数据集的统计信息：

	Movie	Book	Music	Restaurant
# users	138,159	19,676	1,872	2,298,698
# items	16,954	20,003	3,846	1,362
# interactions	13,501,622	172,576	42,346	23,416,418
# entities	102,569	25,787	9,366	28,115
# relations	32	18	60	7
# KG triples	499,474	60,787	15,518	160,519

表 1: 四个数据集的统计信息：MovieLens-20M（电影）、Book-Crossing（图书）、Last.FM（音乐）和 Dianping-Food（餐饮）。

MovieLens-20M (电影):
- 来源: 广泛使用的电影推荐基准数据集。
- 特点: 约 2000 万条显式评分 (1-5 星)。
- KG 构造: 使用微软的商业知识图谱 Satori 构建子知识图谱。
- 数据预处理: 将显式评分转换为隐式反馈，设定 4 星及以上为正向交互 (1)。
Book-Crossing (图书):
- 来源: 包含图书社区的评分数据。
- 特点: 100 万条评分 (0-10)。
- KG 构造: 使用 Satori 构建子知识图谱。
- 数据预处理: 将显式评分转换为隐式反馈，无特定阈值。
Last.FM (音乐):
- 来源: 来自 Last.fm 在线音乐系统的音乐人收听信息。
- 特点: 包含收听计数作为用户-物品交互权重。
- KG 构造: 使用 Satori 构建子知识图谱。
- 数据预处理: 将收听计数转换为隐式反馈，无特定阈值。
Dianping-Food (餐饮):
- 来源: 来源于中国美团点评的真实数据。
- 特点: 约 1000 万条用户与餐厅之间的交互（包括点击、购买、收藏等）。
- KG 构造: 使用美团点评内部知识图谱工具 Meituan Brain 构建。实体类型包括 POI（餐厅）、城市、品类、星级、商圈、菜品、标签等，关系类型对应这些实体。
- 数据预处理: 积极交互类型（点击、购买、收藏）被视为正样本。

通用数据预处理:

隐式反馈转换: 对于显式反馈数据集（MovieLens-20M、Book-Crossing、Last.FM），转换为隐式反馈，即用户对物品有积极交互则为 1。MovieLens-20M 阈值为 4 星，其余数据集因稀疏性未设阈值。
负样本采样: 对于每个用户，随机采样与其正向交互数量相同的未观察物品作为负样本 (0)。
KG 构造细节:
- 从 Satori 中选择置信度大于 0.9 的三元组。
- 通过名称匹配，获取电影/图书/音乐人的有效 ID。
- 将这些物品 ID 与 Satori 子 KG 中的三元组的 head 进行匹配，选择匹配成功的三元组作为最终的 KG。

5.2. 评估指标

本文使用了两种常见的推荐系统评估指标：Recall@K 用于 top-K 推荐，AUC 用于 点击率预测 (CTR prediction)。

5.2.1. Recall@K (R@K)

概念定义: Recall@K 用于衡量在给定推荐列表长度 $K$ 的情况下，模型能够成功召回 (recall) 的用户实际感兴趣的物品的比例。它关注的是模型找到所有相关物品的能力，即使这些物品排名靠后，只要在前 $K$ 个推荐中出现就算召回成功。在推荐系统中，Recall@K 越高，说明模型越能有效地发现用户潜在感兴趣的物品。
数学公式: $\mathrm{Recall@K} = \frac{\text{Number of relevant items in top-K recommendations}}{\text{Total number of relevant items}}$
符号解释:
- Number of relevant items in top-K recommendations: 指在为特定用户生成的 $K$ 个推荐物品列表中，实际与该用户相关的（即用户在测试集中有积极交互的）物品的数量。
- Total number of relevant items: 指该用户在测试集中实际所有相关的物品的总数量。

5.2.2. AUC (Area Under the ROC Curve)

概念定义: AUC 代表接收者操作特征曲线 (Receiver Operating Characteristic curve) 下的面积。在点击率预测等二分类任务中，AUC 衡量模型将正样本排在负样本之前的能力。AUC 的值介于 0 和 1 之间，值越高表示模型性能越好。 $AUC=0.5$ 表示模型随机预测， $AUC=1$ 表示模型完美分类。AUC 不受类别不平衡问题的影响，因为它考虑了所有可能的分类阈值。
数学公式: AUC 没有一个简单的封闭形式数学公式，它通常通过绘制 ROC 曲线来计算，而 ROC 曲线的横轴是假正率 (False Positive Rate, FPR)，纵轴是真正率 (True Positive Rate, TPR)。AUC 则是这条 ROC 曲线下的面积。其中，TPR 和 FPR 的定义如下： $\mathrm{TPR} = \frac{\text{True Positives}}{\text{True Positives} + \text{False Negatives}} = \frac{\text{TP}}{\text{TP} + \text{FN}}$ $\mathrm{FPR} = \frac{\text{False Positives}}{\text{False Positives} + \text{True Negatives}} = \frac{\text{FP}}{\text{FP} + \text{TN}}$
符号解释:
- True Positives (TP): 真实为正例，预测也为正例的数量。
- False Negatives (FN): 真实为正例，预测却为负例的数量（漏报）。
- False Positives (FP): 真实为负例，预测却为正例的数量（误报）。
- True Negatives (TN): 真实为负例，预测也为负例的数量。

5.3. 对比基线

本文将 KGNN-LS 模型与以下基线模型进行比较：

SVD [12] (奇异值分解):
- 类型: 无知识图谱 (KG-free)、基于协同过滤 (CF-based)。
- 描述: 一种经典的矩阵分解模型，通过内积来建模用户-物品交互。将用户和物品表示为低维向量，其内积表示预测的交互概率。论文中使用的是无偏版本 $y_{uv} = \mathbf{u}^\top \mathbf{v}$ 。
LibFM [16] (分解机):
- 类型: 无知识图谱 (KG-free)、基于特征 (Feature-based)。
- 描述: 一种广泛用于点击率预测的特征分解模型。它能够对特征之间的二阶交互进行建模，即使在数据稀疏的情况下也能表现良好。输入是用户 ID 和物品 ID 的拼接。
LibFM + TransE:
- 类型: 知识图谱感知 (KG-aware)、嵌入式方法 (Embedding-based)。
- 描述: 在 LibFM 的基础上，将通过 TransE [2] 学习到的实体表示作为额外特征添加到每个用户-物品对中。TransE 是一种知识图谱嵌入算法，旨在将实体和关系嵌入到低维向量空间中，以满足 $head + relation = tail$ 的翻译假设。
PER [33] (个性化实体推荐):
- 类型: 知识图谱感知 (KG-aware)、路径式方法 (Path-based)。
- 描述: 路径式方法的代表。将知识图谱视为异构信息网络 (Heterogeneous Information Network, HIN)，并提取基于元路径 (meta-path) 的特征来表示用户和物品之间的连接性。元路径是实体类型和关系类型的序列。例如，对于电影推荐，使用“用户-电影-导演-电影”等元路径。
CKE [34] (协同知识库嵌入):
- 类型: 知识图谱感知 (KG-aware)、嵌入式方法 (Embedding-based)、混合方法 (Hybrid)。
- 描述: 嵌入式方法的代表。将协同过滤与结构化、文本和视觉知识结合在一个统一的框架中。本文实现的是 CF 结合结构化知识模块的版本。
RippleNet [24] (波纹网络):
- 类型: 知识图谱感知 (KG-aware)、混合方法 (Hybrid)。
- 描述: 混合方法的代表，是一种类记忆网络 (memory-network-like) 的方法，它通过在知识图谱上“波纹状 (ripple)”传播用户偏好来进行推荐。它能够探索用户兴趣的 K 跳邻居。

6. 实验结果与分析

6.1. 连接性验证

为了验证知识图谱 $G$ 和用户-物品交互 $Y$ 之间的连接性，本文进行了一项实证研究：分析知识图谱中随机抽样物品对的最短路径距离与它们在数据集中是否有共同用户之间的相关性。

下图（原文 Figure 3）展示了在两种情况下，知识图谱中两个随机采样物品的最短路径距离的概率分布：

它们在数据集中没有共同用户。
它们在数据集中有共同用户。

图 3: 在知识图谱中随机采样的两个物品的最短路径距离概率分布，分为 (1) 在数据集中没有共同用户；(2) 在数据集中有共同用户两种情况。

分析: 图 3 结果清晰地表明，如果两个物品在数据集中有共同用户，它们在知识图谱中往往更接近。

MovieLens-20M (电影): 如果两部电影有共同用户，它们在 KG 中有 0.92 的概率在 2 跳之内。如果没有共同用户，这一概率降至 0.80。
Last.FM (音乐): 结果也呈现相似趋势。这表明知识图谱中的结构信息确实反映了用户对物品的潜在偏好。这一发现从经验上验证了利用知识图谱的邻近结构可以辅助推荐的有效性，也为本文使用标签平滑正则化来帮助学习实体表示提供了依据和动机。

6.2. 核心结果分析

6.2.1. Top-K 推荐结果

下表（原文 Table 3）展示了在四个数据集上，所有模型在 top-K 推荐任务中的 Recall@K 表现。

Model	MovieLens-20M			Book-Crossing			Last.FM				Dianping-Food
Model	R@2	R@10 R@50 R@100		R@2	R@10 R@50 R@100		R@2	R@10 R@50 R@100			R@2		R@10 R@50 R@100
SVD	0.036	0.124 0.277	0.401	0.027	0.046 0.077	0.109	0.029	0.098	0.240	0.332	0.039	0.152 0.329	0.451
LibFM	0.039	0.121 0.271	0.388	0.033	0.062 0.092	0.124	0.030	0.103	0.263	0.330	0.043 0.156	0.332	0.448
LibFM + TransE	0.041	0.125 0.280	0.396	0.037	0.064 0.097	0.130	0.032	0.102	0.259	0.326	0.044 0.161	0.343	0.455
PER	0.022	0.077 0.160	0.243	0.022 0.041	0.064	0.070	0.014	0.052	0.116	0.176	0.023 0.102	0.256	0.354
CKE	0.034	0.107 0.244	0.322	0.028	0.051 0.079	0.112	0.023	0.070	0.180	0.296	0.034 0.138	0.305	0.437
RippleNet	0.045	0.130 0.278	0.447	0.036	0.074 0.107	0.127	0.032	0.101	0.242	0.336	0.040 0.155	0.328	0.440
KGNN-LS	0.043	0.155 0.321	0.458		0.045 0.082 0.117	0.149	0.044 0.122 0.277			0.370	0.047 0.170 0.340		0.487

表 2: top-K 推荐的 Recall@K 结果。

分析:

KGNN-LS 在所有四个数据集上，无论是 R@2、R@10、R@50 还是 R@100，都显著优于所有基线方法。这表明 KGNN-LS 在发现用户感兴趣的物品方面具有更强的能力。
知识图谱感知方法的优势: 总体而言， $LibFM+TransE$ 、RippleNet 和 KGNN-LS 等知识图谱感知方法表现优于 SVD 和 LibFM 等无知识图谱方法，证明了知识图谱在推荐系统中的价值。
PER 的局限性: PER 作为路径式方法，在某些数据集上表现不佳，可能与其高度依赖手动设计的元路径有关，这在实践中难以调优。
KGNN-LS 的相对优势: KGNN-LS 不仅在绝对值上领先，其在 R@10 等指标上的提升尤其显著，例如在 MovieLens-20M 上从 RippleNet 的 0.130 提升到 0.155，在 Last.FM 上从 RippleNet 的 0.101 提升到 0.122，显示出其在提供更相关推荐列表方面的有效性。

6.2.2. CTR 预测结果

下表（原文 Table 4）展示了所有模型在 点击率预测 (CTR prediction) 任务中的 AUC 结果。

Model	Movie	Book	Music	Restaurant
SVD	0.963	0.672	0.769	0.838
LibFM	0.959	0.691	0.778	0.837
LibFM + TransE	0.966	0.698	0.777	0.839
PER	0.832	0.617	0.633	0.746
CKE	0.924	0.677	0.744	0.802
RippleNet	0.960	0.727	0.770	0.833
KGNN-LS	0.979	0.744	0.803	0.850

表 3: CTR 预测的 AUC 结果。

分析:

KGNN-LS 的最佳性能: KGNN-LS 在所有四个数据集上的 AUC 指标均为最高，进一步验证了其在精确预测用户交互方面的卓越能力。例如，在 MovieLens-20M 上，AUC 达到 0.979，超过了 $LibFM+TransE$ 的 0.966。在 Last.FM 上达到 0.803，超过了 LibFM 的 0.778。
平均提升显著: 论文指出 KGNN-LS 的 AUC 平均提升了 5.1% (MovieLens-20M)、6.9% (Book-Crossing)、8.3% (Last.FM) 和 4.3% (Dianping-Food) 相比于基线。
PER 的再次劣势: PER 在 CTR 预测中也表现较差，再次印证了路径式方法在实践中可能存在的局限性。

6.2.3. 每日性能稳定性

下图（原文 Figure 4）展示了在 Dianping-Food 数据集上，2018年9月各方法的每日 AUC 曲线。

Figure 4: Daily AUC of all methods on Dianping-Food in September 2018. 图 4: 2018年9月 Dianping-Food 数据集上所有方法的每日 AUC。

分析:

KGNN-LS 的 AUC 曲线始终高于所有基线，表明其性能优越且稳定。
KGNN-LS 的性能波动较小，证明其在实际应用中具有良好的鲁棒性 (robustness) 和稳定性 (stability)。这对于实际推荐系统部署至关重要。

6.3. 消融实验/参数分析

6.3.1. 标签平滑 (LS) 正则化的有效性

为了研究 LS 正则化的有效性，本文在 Last.FM 数据集上，固定隐藏层维度 $d$ 为 4、8 和 16，然后改变正则化权重 $\lambda$ （从 0 到 5），观察 R@10 的变化。下图（原文 Figure 5）展示了 LS 正则化对 Last.FM 数据集性能的影响。

Figure 5: Effectiveness of LS regularization on Last.FM. 图 5: LS 正则化在 Last.FM 数据集上的有效性。

分析:

当 $\lambda = 0$ 时，模型实际上退化为不带 LS 正则化的 GNN（类似于 Wang 等 [28] 的方法）。图中显示，**当 $\lambda > 0$ 时，KGNN-LS 的 R@10 性能明显优于 $\lambda = 0$ 的情况。**这有力地证明了 LS 正则化对改善模型性能的有效性，它能够辅助 GNN 学习边权重并实现更好的泛化。
$\lambda$ 的选择: 性能曲线表明， $\lambda$ 过大（例如超过 1.0）会导致性能下降。这是因为过大的正则化项会压倒主要的推荐损失，并误导梯度方向。实验结果建议 $\lambda$ 在 0.1 到 1.0 之间通常是比较好的选择。

6.3.2. 冷启动场景下的结果

为了评估 KGNN-LS 在冷启动场景中的表现（用户-物品交互稀疏），本文在 MovieLens-20M 数据集上，将训练集比例 $r$ 从 100% 降低到 20%（验证集和测试集保持不变），并报告 AUC 结果。

下表（原文 Table 5）展示了在不同训练集比例 $r$ 下，所有方法的 AUC。

r	20%	40%	60%	80%	100%
SVD	0.882	0.913	0.938	0.955	0.963
LibFM	0.902	0.923	0.938	0.950	0.959
LibFM+TransE	0.914	0.935	0.949	0.960	0.966
PER	0.802	0.814	0.821	0.828	0.832
CKE	0.898	0.910	0.916	0.921	0.924
RippleNet	0.921	0.937	0.947	0.955	0.960
KGNN-LS	0.961	0.970	0.974	0.977	0.979

表 4: 不同训练集比例 $r$ 下所有方法的 AUC。

分析:

当训练集比例 $r = 20\%$ 时，大多数基线模型的 AUC 相对于完整训练数据 ( $r = 100\%$ ) 下降了 2.8% 到 8.4%。
然而，KGNN-LS 的 AUC 仅下降了 1.8% (从 0.979 降至 0.961)。
这表明 KGNN-LS 即使在用户-物品交互数据非常稀疏的冷启动场景下，也能保持强大的预测性能。这是因为 KGNN-LS 能够有效地利用知识图谱中丰富的结构信息来弥补交互数据的不足。

6.3.3. 超参数敏感性分析

本文分析了 GNN 层数 $L$ 和隐藏层维度 $d$ 对模型性能的影响。

GNN 层数 $L$ 的影响: 下表（原文 Table 6）展示了在不同 GNN 层数 $L$ 下 R@10 的结果。

L 1 2 3 4
MovieLens-20M 0.155 0.146 0.122 0.011
Book-Crossing 0.077 0.082 0.043 0.008
Last.FM 0.122 0.106 0.105 0.057
Dianping-Food 0.165 0.170 0.061 0.036

表 5: 不同层数 $L$ 下的 R@10。

分析:
- KGNN-LS 在 $L=1$ 或 $L=2$ 时表现最佳。
- 当 $L$ 增加到 3 或 4 时，性能显著下降。这可能是由于 GNN 中的过平滑 (over-smoothing) 问题：当层数过多时，实体表示会过度混合其远距离邻居的信息，导致不同实体的表示趋于相似，从而丧失区分度。
隐藏层维度 $d$ 的影响: 下表（原文 Table 7）展示了在不同隐藏层维度 $d$ 下 R@10 的结果。

d 4 8 16 32 64 128
MovieLens-20M 0.134 0.141 0.143 0.155 0.155 0.151
Book-Crossing 0.065 0.073 0.077 0.081 0.082 0.080
Last.FM 0.111 0.116 0.122 0.109 0.102 0.107
Dianping-Food 0.155 0.170 0.167 0.166 0.163 0.161

表 6: 不同隐藏层维度 $d$ 下的 R@10。

分析:
- 随着隐藏层维度 $d$ 的增加，模型性能在初期有所提升，因为更大的维度可以增加模型的容量，捕获更多信息。
- 然而，当 $d$ 进一步增大时，性能开始下降。这表明过大的维度可能导致模型过拟合 (overfit) 训练数据，降低泛化能力。
- 最佳性能通常在 $d = 8 \sim 64$ 之间。

6.4. 运行时间分析

本文还研究了 KGNN-LS 相对于知识图谱大小的运行时间。实验在一台配备 GPU 的 Microsoft Azure 虚拟机上进行。通过从 Satori 提取更多三元组，将知识图谱的大小增加到原始的五倍。

下图（原文 Figure 6）展示了在 MovieLens-20M 数据集上，所有方法随知识图谱大小变化的运行时间。

Figure 6: Running time of all methods w.r.t. KG size on MovieLens-20M. 图 6: 所有方法在 MovieLens-20M 数据集上随知识图谱大小变化的运行时间。

分析:

图 6 显示，KGNN-LS 表现出强大的可扩展性 (scalability)，即使在知识图谱规模较大时，其运行时间增长也相对平缓。
与 RippleNet 等其他知识图谱感知方法相比，KGNN-LS 的运行时间在 KG 规模增大时表现出更好的效率。
这表明 KGNN-LS 适合处理实际应用中的大规模知识图谱。

7. 总结与思考

7.1. 结论总结

本文提出了 KGNN-LS (Knowledge-aware Graph Neural Networks with Label Smoothness regularization) 模型，旨在解决传统推荐系统在冷启动和数据稀疏性问题，并克服现有知识图谱感知推荐方法中手动特征工程和非端到端训练的局限性。

KGNN-LS 的核心创新点包括：

用户特定的知识感知 GNN: 通过引入一个可训练的用户特定关系评分函数，将异构知识图谱动态转换为用户特定的加权图，并在此图上应用 GNN 学习个性化物品嵌入。
标签平滑正则化: 引入标签平滑正则化来约束可学习的边权重，防止过拟合，并从理论上证明了其等价于图上的标签传播方案。
端到端优化框架: 将知识感知 GNN（特征传播）和标签平滑正则化（标签传播）统一在一个损失函数中，实现了端到端的联合优化。

实验结果表明，在电影、图书、音乐和餐饮四个真实世界数据集上，KGNN-LS 在 top-K 推荐的 Recall@K 和 CTR 预测的 AUC 方面均显著优于最先进的基线方法。此外，KGNN-LS 在用户-物品交互稀疏的冷启动场景中表现出强大的鲁棒性，并展现出良好的可扩展性。

7.2. 局限性与未来工作

作者在论文中指出了以下未来研究方向：

将 LS 正则化应用于其他图任务: 本文提出的标签平滑 (LS) 正则化是为带知识图谱的推荐任务设计的。未来可以探索其在其他图任务中的应用，例如链接预测 (link prediction) 和节点分类 (node classification)。
深入探讨特征传播与标签传播的理论关系: 本文将 GNN 视为特征传播，LS 正则化视为标签传播。深入研究这两种传播机制之间的理论关系，可能会揭示更深层次的图学习原理。

7.3. 个人启发与批判

7.3.1. 个人启发

个性化图结构的重要性: 论文提出的用户特定关系评分函数是一个非常关键的创新点。它认识到不同用户对知识图谱中不同类型关系的敏感度和偏好是不同的。这种动态、个性化的图结构建模比静态的图结构更能捕捉用户细粒度的兴趣。这启发我们，在处理复杂异构图时，图结构的个性化或动态调整可能比仅仅使用静态图结构更有效。
正则化的新视角: 标签平滑正则化提供了一种巧妙的正则化方式。它不仅仅是简单的 L1/L2 正则，而是利用了图结构本身的归纳偏置（邻近实体标签相似），通过“留一法”机制为边权重提供了额外的监督信号，从而有效缓解了稀疏数据下的过拟合问题。这为在稀疏图数据上训练复杂模型提供了一个新的思路。
特征传播与标签传播的统一: 将 GNN 的特征传播与标签平滑的标签传播统一在一个框架下，是模型成功的关键。这表明在图学习中，同时考虑如何有效传播特征信息和如何保持标签一致性，可以从不同角度增强模型的学习能力和泛化能力。
冷启动的有效解决方案: 知识图谱的引入本身就是为了缓解冷启动问题，而 KGNN-LS 在冷启动场景下的卓越表现进一步证明了其有效性。它通过利用物品之间丰富的语义关联，即使在用户交互稀少的情况下也能做出有意义的推荐。

7.3.2. 潜在问题与批判

计算成本与采样策略:
- 问题: 论文提到为了提高计算效率，对每个实体统一采样固定数量的邻居 (S)。这种采样策略可能导致重要邻居信息丢失，尤其是在稀疏或长尾实体上。对于高度连接的实体，采样可能丢失重要信息；对于连接稀疏的实体，如果邻居数量少于 S，则采样可能无效或引入噪声。
- 批判: 尽管采样是必要的，但统一采样 S 个邻居并非最优策略。更先进的采样方法（如基于重要性采样、自适应采样）可能会进一步提升性能并减少信息损失。
Satori 和 Meituan Brain 的可获取性:
- 问题: 论文使用了商业知识图谱 Satori 和内部知识图谱 Meituan Brain。这些资源对于学术界和其他研究者来说通常是不可公开获取的。这在一定程度上限制了结果的复现性和模型的通用验证。
- 批判: 虽然使用真实世界数据是优点，但未来工作或在开源数据集上验证模型会更有益于社区。
超参数敏感性:
- 问题: 论文实验显示，GNN 的层数 $L$ 和隐藏层维度 $d$ 对性能非常敏感。过多的层数导致过平滑，过大的维度导致过拟合。这意味着在实际应用中需要仔细调优这些超参数。
- 批判: 模型的鲁棒性在超参数变化时仍需进一步提升。可能需要引入自适应层数或维度选择机制，或更强的正则化来应对这些挑战。
标签平滑的强度 $\lambda$ :
- 问题: $\lambda$ 的选择范围在 0.1 到 1.0 之间表现较好，但过大或过小都会影响性能。这意味着 $\lambda$ 也是一个关键且需要仔细调优的超参数。
- 批判: 如何自动或更智能地确定 $\lambda$ 的值是一个值得探索的方向。例如，可以通过元学习 (meta-learning) 或贝叶斯优化 (Bayesian optimization) 来搜索最佳 $\lambda$ 。
“留一法”损失的计算效率:
- 问题: “留一法”标签传播需要对每个隐藏的物品重新进行标签传播，这可能在计算上是昂贵的，尤其是在大规模图上。虽然论文提到高效实现，但具体细节可能需要更深入的考量。
- 批判: 探索更近似或更高效的标签传播损失计算方法，可能会进一步提升模型在大规模数据集上的实际应用潜力。
对稀疏关系的捕获能力:
- 问题: 用户特定关系评分函数 $s_u(r) = g(\mathbf{u}, \mathbf{r})$ 在关系 $r$ 对应的训练样本很少时，学习到的关系嵌入 $\mathbf{r}$ 可能不够准确。
- 批判: 可以考虑为稀疏关系引入更强的共享信息或正则化，或者采用元学习方法来帮助模型从少数样本中快速适应新的关系。

相似论文推荐

基于向量语义检索推荐的相关论文。

暂时没有找到相似论文。

L	1	2	3	4
MovieLens-20M	0.155	0.146	0.122	0.011
Book-Crossing	0.077	0.082	0.043	0.008
Last.FM	0.122	0.106	0.105	0.057
Dianping-Food	0.165	0.170	0.061	0.036

d	4	8	16	32	64	128
MovieLens-20M	0.134	0.141	0.143	0.155	0.155	0.151
Book-Crossing	0.065	0.073	0.077	0.081	0.082	0.080
Last.FM	0.111	0.116	0.122	0.109	0.102	0.107
Dianping-Food	0.155	0.170	0.167	0.166	0.163	0.161