KQGC: Knowledge Graph Embedding with Smoothing Effects of Graph Convolutions for Recommendation
TL;DR 精炼摘要
KQGC模型提出一种基于图卷积平滑效应的知识图谱嵌入推荐方法。它利用GNN对预训练KGE进行平滑,通过聚合邻居“知识查询”有效对齐实体嵌入,避免无关平滑,提升了真实电商场景下的推荐性能。
摘要
Leveraging graphs on recommender systems has gained popularity with the development of graph representation learning (GRL). In particular, knowledge graph embedding (KGE) and graph neural networks (GNNs) are representative GRL approaches, which have achieved the state-of-the-art performance on several recommendation tasks. Furthermore, combination of KGE and GNNs (KG-GNNs) has been explored and found effective in many academic literatures. One of the main characteristics of GNNs is their ability to retain structural properties among neighbors in the resulting dense representation, which is usually coined as smoothing. The smoothing is specially desired in the presence of homophilic graphs, such as the ones we find on recommender systems. In this paper, we propose a new model for recommender systems named Knowledge Query-based Graph Convolution (KQGC). In contrast to exisiting KG-GNNs, KQGC focuses on the smoothing, and leverages a simple linear graph convolution for smoothing KGE. A pre-trained KGE is fed into KQGC, and it is smoothed by aggregating neighbor knowledge queries, which allow entity-embeddings to be aligned on appropriate vector points for smoothing KGE effectively. We apply the proposed KQGC to a recommendation task that aims prospective users for specific products. Extensive experiments on a real E-commerce dataset demonstrate the effectiveness of KQGC.
思维导图
论文精读
中文精读
1. 论文基本信息 (Bibliographic Information)
- 标题 (Title): KQGC: Knowledge Graph Embedding with Smoothing Effects of Graph Convolutions for Recommendation (KQGC: 结合图卷积平滑效应的知识图谱嵌入推荐模型)
- 作者 (Authors): Daisuke Kikuta, Toyotaro Suzumura, Md Mostafizur Rahman, Yu Hirate, Satyen Abrol, Manoj Kondapaka, Takuma Ebisu, Pablo Loyola.
- 研究背景与隶属机构: 作者主要来自日本乐天技术研究院 (Rakuten Institute of Technology, Rakuten Group, Inc.),部分作者也与东京大学 (The University of Tokyo) 有合作关系。这表明该研究具有很强的产业背景,旨在解决真实世界电商场景中的问题。
- 发表期刊/会议 (Journal/Conference): arXiv 预印本。这意味着该论文在发表时未经同行评审,是作者发布以供学术界早期交流的版本。
- 发表年份 (Publication Year): 2022
- 摘要 (Abstract): 随着图表示学习 (GRL) 的发展,在推荐系统中使用图结构已变得普遍。知识图谱嵌入 (KGE) 和图神经网络 (GNNs) 是其中的代表性方法。本文提出了一种名为
KQGC(Knowledge Query-based Graph Convolution) 的新模型,它专注于利用 GNN 的平滑效应来增强预训练的 KGE。具体而言,KQGC接收一个预训练好的 KGE,并通过聚合邻居的“知识查询” (knowledge queries) 来对其进行平滑处理,从而有效地对齐实体嵌入。该模型被应用于为特定产品寻找潜在用户的推荐任务,并在真实的电子商务数据集上验证了其有效性。 - 原文链接 (Source Link):
-
发布状态: 预印本 (Preprint)
2. 整体概括 (Executive Summary)
-
研究背景与动机 (Background & Motivation - Why):
- 核心问题: 如何更有效地将在知识图谱 (KG) 中编码的丰富信息用于推荐系统,以提升推荐性能。
- 重要性与挑战: 传统的协同过滤 (CF) 方法难以利用辅助信息,导致冷启动问题。虽然结合知识图谱和图神经网络 (KG-GNNs) 的模型(如
KGAT、KGCN)取得了先进成果,但它们通常将 KGE 和 GNN 模块耦合训练,或在聚合信息时仅考虑邻居实体本身,可能会导致无关平滑 (irrelevant smoothing)——即一个节点的表示被其语义上不相关的邻居所“污染”。 - 切入点/创新思路: 本文作者认为,在推荐系统这类具有强同质性 (homophily) 的图中,GNN 最核心的作用是平滑 (smoothing),即让相邻节点的表示变得更相似。因此,他们提出了一种解耦的、专注于平滑的模型
KQGC。其创新思路在于:1) 分阶段训练,先训练好 KGE,再用一个简单的线性图卷积层对其进行平滑;2) 聚合“知识查询” (),而不是邻居实体本身 (),这使得聚合的信息与目标节点在语义上更相关,从而实现更有效的平滑。
-
核心贡献/主要发现 (Main Contribution/Findings - What):
-
提出了
KQGC模型: 一种结合 KGE 和图卷积的新颖推荐模型。它为如何融合 KGE 和 GNNs 提供了一个新的视角,即将 GNN 视为对预训练 KGE 的一种后处理(平滑)增强器。 -
提出了“知识查询”聚合机制: 模型不直接聚合邻居节点的嵌入,而是聚合由“源节点嵌入 + 关系嵌入”构成的“知识查询”。这种方法能够更好地保留 KGE 的语义结构,避免无关平滑。
-
在真实工业场景中验证了有效性: 在乐天集团(Rakuten)的大规模真实电子商务数据集上进行了广泛实验,证明了
KQGC相较于基线模型(包括纯 KGE 模型)能够有效提升“目标用户挖掘”任务的性能。
-
3. 预备知识与相关工作 (Prerequisite Knowledge & Related Work)
-
基础概念 (Foundational Concepts):
- 推荐系统 (Recommender Systems, RecSys): 一种信息过滤系统,旨在预测用户对物品的“评分”或“偏好”。
- 协同过滤 (Collaborative Filtering, CF): 一类经典的推荐算法,其核心思想是“物以类聚,人以群分”,通过分析用户历史行为(如购买、点击)的共现性来推断用户偏好。
- 知识图谱 (Knowledge Graph, KG): 一种用图结构表示知识的数据库。它由实体(节点)和关系(边)组成,通常表示为一系列三元组
(头实体, 关系, 尾实体),例如(鞋子A, isSoldBy, 店铺B)。 - 知识图谱嵌入 (Knowledge Graph Embedding, KGE): 将 KG 中的实体和关系映射到低维连续向量空间中的技术。这使得基于向量的计算(如相似度计算)成为可能。
- TransE 模型: 一种经典的基于翻译的 KGE 模型。其核心思想是,对于一个正确的三元组
(h, r, t),其嵌入向量 应满足关系 。这意味着关系 可以被看作是从头实体 到尾实体 的一个平移操作。 - 图神经网络 (Graph Neural Networks, GNNs): 一类专门处理图结构数据的深度学习模型。其核心机制是消息传递 (Message Passing),节点通过聚合 (aggregate) 其邻居节点的信息来更新 (update) 自己的表示。
- 平滑 (Smoothing): GNN 在聚合邻居信息时产生的一种效应,使得一个节点的表示向量与其邻居节点的表示向量在向量空间中变得更加接近。
- 同质性 (Homophily): 图的一种属性,指相互连接的节点倾向于拥有相似的特征或属性。例如,在社交网络中,朋友之间可能有相似的兴趣。推荐系统中的用户-物品图通常也具有强同质性。
-
前人工作 (Previous Works):
- KGE for RecSys: 直接使用 KGE 模型(如 TransE, TransR, ComplEX)为用户和物品生成嵌入,然后通过计算嵌入之间的相似度来进行推荐。
- GNN for RecSys: 在用户-物品二部图上应用 GNN(如
NGCF),通过多层信息传播来捕捉高阶的协同信号。 - 结合 KGE 和 GNNs (KG-GNNs):
KGCN(Knowledge Graph Convolutional Networks): 一种基于元路径的 GNN,它在 KG 上为目标实体聚合其邻居信息,并使用注意力机制来区分不同邻居的重要性。KGAT(Knowledge Graph Attention Network): 它首先使用TransR初始化实体和关系的嵌入,然后在一个结合了 KG 和用户-物品交互的图上应用 GGN 层进行信息传播。TransR和 GNN 部分是同时训练的。
-
技术演进 (Technological Evolution): 推荐系统的发展经历了从传统的协同过滤,到利用辅助信息的 KGE 方法,再到能够捕捉高阶关系的 GNN 方法。
KGCN和KGAT等模型代表了将 KGE 和 GNN 进行深度融合的趋势。本文的KQGC处在这一脉络中,但它提出了一种不同的融合范式:解耦与后处理,强调 GNN 的角色是“平滑”而非端到端的特征提取。 -
差异化分析 (Differentiation):
KQGC与现有 KG-GNN 模型(特别是KGAT和KGCN)的核心区别如下:-
训练方式:
KQGC采用两阶段分离式训练。先独立预训练 KGE 模型,然后固定 KGE 嵌入,再训练图卷积模块。而KGAT是端到端联合训练。 -
聚合内容:
KQGC聚合的是知识查询 (knowledge queries),即 。而KGCN和KGAT聚合的是邻居实体嵌入本身,即 。 -
更新函数:
KQGC使用线性变换,没有非线性激活函数,旨在保留预训练 KGE 的平移特性。而KGCN和KGAT在更新时通常会使用非线性激活函数(如 ReLU)。
-
4. 方法论 (Methodology - Core Technology & Implementation Details)
KQGC 的整体框架如下图所示,它包含两个核心阶段:KGE 预训练和 KQGC 平滑。
该图像是图1:KQGC的模型框架示意图。它展示了KQGC如何应用于推荐系统。首先,知识图谱(KG)通过基于翻译的模型进行预训练生成知识图谱嵌入(KGE)。随后,KQGC模块对KGE进行平滑处理,通过聚合邻居知识查询来对实体嵌入进行对齐。最后,平滑后的嵌入用于下游任务的训练,包括一个解码器(如MLP)和一个损失函数 。
-
方法原理 (Methodology Principles):
KQGC的核心思想是,一个优秀的 KGE(如 TransE)已经在一个向量空间中编码了实体间的语义关系。GNN 的作用不应该是从头学习表示,而是在这个已有的良好基础上,利用图的局部结构信息进行微调,即平滑。通过让每个节点的嵌入向其“语义正确”的邻域中心靠拢,可以增强模型的鲁棒性和泛化能力。而“知识查询”的提出,正是为了定义这个“语义正确”的邻域中心。 -
方法步骤与流程 (Steps & Procedures):
-
阶段一:基于翻译的 KGE 预训练 (Translation-based KGE Pre-training)
- 本文采用
TransE模型。首先,将知识图谱(KG)作为输入,为图中所有的实体和关系初始化随机嵌入向量。 - 然后,通过最小化一个最大间隔损失函数 (max-margin loss) 来优化这些嵌入。
- 本文采用
-
阶段二:基于知识查询的图卷积平滑 (KQGC Smoothing)
- 将
TransE预训练好的实体和关系嵌入作为KQGC模型的初始输入。在KQGC训练期间,这些预训练的嵌入是固定不变的。 KQGC遵循消息传递框架,对每个节点(目标节点)执行以下操作:- 聚合 (Aggregation): 从每个邻居节点(源节点)计算到达目标节点的知识查询,然后将所有邻居的知识查询聚合起来。
- 更新 (Update): 将聚合后的信息与目标节点自身的嵌入相结合,通过一个线性变换层生成新的、更平滑的节点嵌入。
- 训练
KQGC模型以完成下游任务。本文中,下游任务是生成通用的用户嵌入,因此采用了一个无监督的协同过滤损失函数进行训练。
- 将
-
-
数学公式与关键细节 (Mathematical Formulas & Key Details):
1. TransE 预训练模型
-
得分函数 (Score Function): 对于一个三元组
(h, r, t),其合理性得分由以下公式衡量,得分越低表示该三元组越可信。-
符号解释:
- : 分别是头实体 、关系 、尾实体 的嵌入向量。
- : 表示 L1 或 L2 范数。本文使用 L1 范数。
-
这个公式直观地体现了 的思想,如下图所示。
该图像是图2的示意图,展示了TransE模型中正向三元组嵌入之间的关系。在一个2D平面上,头实体嵌入 和关系嵌入 之和 近似等于尾实体嵌入 。所有嵌入向量都经过归一化处理,其端点位于单位圆上,直观地表现了TransE的核心思想,即在向量空间中通过平移实现实体和关系的建模。
-
-
损失函数 (Loss Function):
TransE使用最大间隔损失来训练,目标是让正样本(真实存在的三元组)的得分低于负样本(随机构造的错误三元组)的得分。- 符号解释:
(h,r,t): 正样本三元组。(h',r,t'): 负样本三元组,通过随机替换正样本的头实体或尾实体生成。- : 边际 (margin),一个超参数,用于控制正负样本得分的最小间隔。
- : Hinge loss 函数。
- 符号解释:
2. KQGC 模型
-
知识查询 (Knowledge Query): 这是
KQGC的核心概念。从源节点src经关系 到达目标节点dst的知识查询定义为: 根据TransE的原理,这个查询向量 在理想情况下应该非常接近目标节点dst的嵌入 。下图直观解释了聚合知识查询相比聚合邻居节点特征的优势,它可以避免无关平滑。
该图像是图3,展示了KQGC模型中知识查询的聚合过程。左侧部分描绘了从用户行为知识图谱(如点击、购买)如何通过聚合邻居查询(例如 )来更新实体嵌入 和 。右侧的(a)图显示了节点特征的初始分布,而(b)图则具体展示了如何通过考虑不同关系类型(如“Include”、“PurchasedBy”)的知识查询来调整实体嵌入的位置,实现平滑效果,以生成新的、更对齐的嵌入。 -
聚合器 (Aggregator): 在第 层,聚合来自邻居 的知识查询 来生成消息 。
- 均值聚合器 (Mean aggregator):
- 注意力聚合器 (Attention aggregator):
其中注意力系数 有两种计算方式:
Attention1(内积注意力):Attention2(可学习注意力,类似 GAT):
-
更新函数 (Update Function): 将聚合得到的消息 与目标节点 在上一层的嵌入 结合,通过一个线性层进行更新。
- 符号解释:
- : 第 层的可学习权重矩阵和偏置向量。
- : 更新后的节点和关系嵌入。
- 关键点: 这里没有使用非线性激活函数,是为了保持
TransE的平移特性。关系嵌入也通过相同的线性变换进行更新,以确保在新的向量空间中,平移关系依然成立。
- 符号解释:
-
KQGC 训练损失函数: 由于目标是生成通用的用户嵌入,
KQGC采用了一个无监督的协同过滤损失函数进行训练,该函数专注于用户和物品之间的purchase关系。 其中得分函数为:- 符号解释:
-
: 正样本对,表示用户 购买过物品 。
-
: 负样本对,其中 是随机采样的物品。
-
: 分别是用户、物品和
purchase关系的嵌入向量(来自KQGC的输出)。
-
- 符号解释:
-
5. 实验设置 (Experimental Setup)
-
数据集 (Datasets):
-
来源: 实验数据来自乐天集团旗下的大型电商平台
Rakuten Ichiba。这是一个真实的、大规模的工业级数据集。 -
任务: 目标用户挖掘 (Target Prospecting, TP),即为客户(例如品牌方)找到潜在的购买用户。
-
KG 构建: KG 的构建数据时间窗口为 2021年2月1日至7月31日。其统计信息由下表2转录而来: Table 2: Statics of the KG for training KQGC
# users # items # edges # relations 85,402 1,302,877 2,360,012 1 (purchase) -
TP 任务数据集:
- 实验对象为 5个化妆品品牌 (匿名化为 Brand A-E)。
- 正样本: 在特定时间窗口内购买过该品牌商品的用户。
- 负样本: 同一时间窗口内未购买该品牌商品的用户。正负样本比例约为 1:3。
- 数据划分: 训练/验证集和测试集来自不同时间窗口,以防止数据泄露。
- 训练/验证集:2021年7月1日至10月31日(随机6:4划分)。
- 测试集:2021年9月1日至9月31日。
- 数据集的具体统计数据由下表1转录而来: Table 1: Statics of the AIrist datasets
Brand A Brand B Brand C Brand D Brand E Training # positive users 3784 3768 3719 1668 3753 # negative users 11216 11232 11281 5504 11247 # total users 15000 15000 15000 6672 15000 Validation # positive users 1255 1241 1285 213 1206 # negative users 3745 3759 3715 639 3794 # total users 5000 5000 5000 852 5000 Test # positive users 1285 1238 1264 1100 1233 # negative users 3715 3715 3736 3300 3767 # total users 5000 5000 5000 4400 5000
-
-
评估指标 (Evaluation Metrics):
- PR-AUC (Area Under the Precision-Recall Curve)
- 概念定义 (Conceptual Definition): PR-AUC,即精确率-召回率曲线下面积,是衡量二分类模型性能的指标,尤其适用于数据不平衡的场景。精确率 (Precision) 关注的是模型预测为正的样本中有多少是真正的正样本,而召回率 (Recall) 关注的是所有真正的正样本中有多少被模型成功预测。PR 曲线展示了在不同分类阈值下精确率和召回率的权衡关系。PR-AUC 的值越高(越接近1),说明模型在保持高精确率的同时能覆盖更多的正样本,性能越好。
- 数学公式 (Mathematical Formula): PR-AUC 是 PR 曲线的积分。设 Precision 为
P(r),是 Recall 的函数,则: 在实际计算中,通常使用数值方法(如梯形法则)来近似这个积分值。 - 符号解释 (Symbol Explanation):
- 精确率 (Precision):
- 召回率 (Recall):
TP(True Positive): 真正例,被正确预测为正例。FP(False Positive): 假正例,负正例,被错误预测为正例。FN(False Negative): 假反例,正反例,被错误预测为负例。
- PR-AUC (Area Under the Precision-Recall Curve)
-
对比基线 (Baselines):
-
Baseline (AIris TP): 乐天现有的生产模型。它是一个XGBoost分类器,使用了五类特征:人口统计学特征、积分概览、积分交易、品类级别购买历史等。 -
TransE: 仅使用预训练的TransE生成的用户嵌入作为特征,并与基线特征拼接后输入XGBoost模型。这个基线用于衡量纯 KGE 的效果。 -
KQGC(mean, attn1, attn2): 使用KQGC不同聚合器变体生成的用户嵌入,与基线特征拼接后输入XGBoost模型。
-
6. 实验结果与分析 (Results & Analysis)
-
核心结果分析 (Core Results Analysis): 实验的核心结果展示在下表3(转录自原文)中,比较了不同方法在五个品牌上的 PR-AUC 得分以及相对于
Baseline的提升率。'able 3: Improvement rate compared to the baseline model in PR-AUC
Input features Brand A Brand B Brand C Brand D Brand E AVG. Baseline 0.693 0.678 0.593 0.749 0.732 0.689 TransE 0.706 (+1.83) 0.699 (+3.13) 0.604 (+1.90) 0.786 (+4.95) 0.737 (+0.97) 0.706 (+2.50) KQGC(mean) 0.712 (+2.70) 0.703 (+3.62) 0.607 (+2.46) 0.784 (+4.65) 0.749 (+2.32) 0.711 (+3.15) KQGC(attn1) 0.708 (+2.11) 0.705 (+3.88) 0.607 (+2.52) 0.781 (+4.26) 0.741 (+1.23) 0.708 (+2.80) KQGC(attn2) 0.710 (+2.46) 0.702 (+3.55) 0.612 (+3.27) 0.784 (+4.67) 0.740 (+1.09) 0.710 (+3.00) - 主要发现:
-
图嵌入的有效性: 所有基于图嵌入的方法(
TransE和KQGC变体)在平均性能上都显著优于Baseline,证明了从用户购买行为构建的知识图谱中学习到的嵌入特征对于目标用户挖掘任务是有效的。 -
KQGC的优越性:KQGC模型(特别是KQGC(mean))在平均 PR-AUC 上取得了最佳性能,比Baseline提升了 3.15%,比TransE提升了 0.65%。这直接证明了在 KGE 基础上进行平滑处理的有效性。 -
模型稳定性: 从下图6可以看出,
KQGC(mean)和 的性能在训练过程中表现得相对稳定且持续领先,而 (带可学习参数的注意力)的性能波动较大。作者推测,这是因为KQGC的训练与下游预测任务是分离的,导致复杂的注意力机制难以学习到对下游任务真正有益的权重。简单的均值聚合反而更鲁棒有效。
该图像是图6所示的折线图,展示了PR-AUC平均改进率随训练周期(epochs)的变化。图中比较了TransE、KQGC(mean)、KQGC(attn1)和KQGC(attn2)四种模型的性能。KQGC(mean)模型在大多数周期内表现出最高的PR-AUC改进率,而TransE模型的改进率在初期较低,随后逐渐上升。KQGC的其他变体模型介于两者之间。
-
- 主要发现:
-
消融实验/参数分析 (Ablation Studies / Parameter Analysis):
-
平滑模块的有效性: 将
KQGC的结果与TransE进行比较,可以看作是一项消融实验。KQGC在TransE的基础上增加了一个图卷积平滑模块,并且在大多数情况下性能更优,这验证了平滑模块的积极作用。 -
不同聚合器的影响: 实验比较了三种不同的聚合器(
mean,attn1,attn2)。结果显示,最简单的mean聚合器在平均性能上表现最好。这表明对于此任务,简单而直接的邻居信息平均可能比复杂的加权机制更有效,也再次印证了smoothing本身是关键。
-
7. 总结与思考 (Conclusion & Personal Thoughts)
-
结论总结 (Conclusion Summary): 本文提出了一种新颖的推荐模型
KQGC,它创新性地将 GNN 的作用聚焦于对预训练 KGE 进行平滑处理。通过聚合邻居的知识查询而非实体本身,KQGC能够有效地使相邻实体的嵌入更加相似,同时避免了无关信息的干扰。在乐天集团的真实大规模电子商务数据集上的实验表明,KQGC显著优于现有的基线模型和纯TransE模型,验证了其在工业级推荐任务中的有效性。 -
局限性与未来工作 (Limitations & Future Work): 论文作者指出了以下未来研究方向:
- 更深入的模型分析: 当前模型仅使用单层卷积,且仅在一个私有数据集上进行了评估。未来将在更多公共数据集上与多个 SOTA 模型进行比较,并探索更深层次的
KQGC网络结构。 - 融合更多辅助信息: 当前的 KG 实体类型有限。如何将图像、文本等连续型特征作为
KQGC的输入,是一个有待研究的问题。 - 模型通用性验证: 本文主要关注目标用户挖掘任务。未来需要将
KQGC生成的用户嵌入应用于更多不同的推荐服务中,以检验其通用性。
- 更深入的模型分析: 当前模型仅使用单层卷积,且仅在一个私有数据集上进行了评估。未来将在更多公共数据集上与多个 SOTA 模型进行比较,并探索更深层次的
-
个人启发与批判 (Personal Insights & Critique):
-
个人启发:
- 解耦思想的价值:
KQGC的两阶段解耦设计非常巧妙且实用。它允许研究人员和工程师分别优化 KGE 模型和 GNN 平滑模块,降低了系统复杂性,也便于模块复用。这在大型工业系统中尤为重要。 - 问题定义的精确性: 将 GNN 在推荐中的作用精确定义为“平滑”是一个深刻的洞见。它化繁为简,促使模型设计更有针对性。“知识查询”的提出,正是对“如何进行有效平滑”这个问题的精彩回答。
- 简单模型的有效性: 实验结果表明,最简单的均值聚合器效果最好。这提醒我们,在特定问题上,简单、鲁棒且具有良好解释性的方法可能优于复杂的黑盒模型。
- 解耦思想的价值:
-
批判性思考:
- 缺乏与 SOTA KG-GNN 的直接对比: 论文虽然在引言和相关工作中提到了
KGCN和KGAT,但在实验部分并未将KQGC与它们进行直接比较。这是一个较为明显的短板,使得我们无法判断KQGC相对于这些主流 KG-GNN 模型的真实优势。 - 知识图谱结构过于简单: 实验中使用的 KG 仅包含一种关系类型 (
purchase)。KQGC中知识查询的优势在更复杂、包含多种关系类型的异构知识图谱上是否依然存在,有待进一步验证。 - 性能提升幅度有限: 虽然
KQGC取得了统计上显著的提升,但从绝对数值上看(平均提升约 0.65% PR-AUC 相对于TransE),性能提升幅度并不算巨大。这可能意味着在该数据集上,高质量的TransE嵌入已经捕获了大部分关键信息,平滑带来的只是边际效益。
- 缺乏与 SOTA KG-GNN 的直接对比: 论文虽然在引言和相关工作中提到了
-
相似论文推荐
基于向量语义检索推荐的相关论文。