Learning Intents behind Interactions with Knowledge Graph for Recommendation
TL;DR 精炼摘要
本文提出基于知识图谱的意图网络(KGIN),通过细粒度的意图识别和递归关系路径聚合,增强了长程依赖语义建模,提升推荐系统的表现和可解释性,在多数据集上显著优于现有图神经网络方法。
摘要
Knowledge graph (KG) plays an increasingly important role in recommender systems. A recent technical trend is to develop end-to-end models founded on graph neural networks (GNNs). However, existing GNN-based models are coarse-grained in relational modeling, failing to (1) identify user-item relation at a fine-grained level of intents, and (2) exploit relation dependencies to preserve the semantics of long-range connectivity. In this study, we explore intents behind a user-item interaction by using auxiliary item knowledge, and propose a new model, Knowledge Graph-based Intent Network (KGIN). Technically, we model each intent as an attentive combination of KG relations, encouraging the independence of different intents for better model capability and interpretability. Furthermore, we devise a new information aggregation scheme for GNN, which recursively integrates the relation sequences of long-range connectivity (i.e., relational paths). This scheme allows us to distill useful information about user intents and encode them into the representations of users and items. Experimental results on three benchmark datasets show that, KGIN achieves significant improvements over the state-of-the-art methods like KGAT, KGNN-LS, and CKAN. Further analyses show that KGIN offers interpretable explanations for predictions by identifying influential intents and relational paths. The implementations are available at https://github.com/huangtinglin/Knowledge_Graph_based_Intent_Network.
思维导图
论文精读
中文精读
1. 论文基本信息
1.1. 标题
学习知识图谱中交互背后的意图以进行推荐 (Learning Intents behind Interactions with Knowledge Graph for Recommendation)
1.2. 作者
Xiang Wang, Tinglin Huang, Dingxian Wang, Yancheng Yuan, Zhenguang Liu, Xiangnan , Tat-Seng Chua
- 新加坡国立大学 (National University of Singapore)
- 浙江大学 (Zhejiang University)
- eBay
- 香港理工大学 (The Hong Kong Polytechnic University)
- 中国科学技术大学 (University of Science and Technology of China)
1.3. 发表期刊/会议
该论文发表于 The Web Conference 2021 (WWW '21)。WWW 是计算机科学领域,特别是万维网(World Wide Web)技术、数据挖掘和信息系统方向的顶级国际会议之一,享有极高的学术声誉和影响力。
1.4. 发表年份
2021年 (2021-02-14T03:21:36.000Z,发布于 arXiv 的时间戳)。
1.5. 摘要
知识图谱 (Knowledge Graph, KG) 在推荐系统 (recommender systems) 中扮演着越来越重要的角色。近年来,一个技术趋势是开发基于图神经网络 (Graph Neural Networks, GNNs) 的端到端模型。然而,现有的基于 GNN 的模型在关系建模方面存在粗粒度 (coarse-grained) 的问题,未能做到:
-
在细粒度 (fine-grained) 的意图 (intents) 层面识别用户-物品关系。
-
利用关系依赖 (relation dependencies) 来保持长程连通性 (long-range connectivity) 的语义。
本研究通过使用辅助物品知识来探索用户-物品交互背后的意图,并提出了一个新模型——基于知识图谱的意图网络 (Knowledge Graph-based Intent Network, KGIN)。在技术上,KGIN 将每个意图建模为知识图谱关系的一种注意力组合 (attentive combination),这鼓励了不同意图之间的独立性 (independence),以提高模型能力和可解释性 (interpretability)。此外,KGIN 为 GNN 设计了一种新的信息聚合方案 (information aggregation scheme),该方案递归地 (recursively) 集成长程连通性的关系序列(即关系路径 (relational paths))。该方案使得模型能够提取有关用户意图的有用信息,并将其编码到用户和物品的表示 (representations) 中。在三个基准数据集 (benchmark datasets) 上的实验结果表明,KGIN 比
KGAT、KGNN-LS和CKAN等最先进的 (state-of-the-art) 方法取得了显著改进。进一步的分析表明,KGIN 通过识别有影响力的意图和关系路径,为推荐预测提供了可解释的解释 (interpretable explanations)。
1.6. 原文链接
- ArXiv 预印本链接: https://arxiv.org/abs/2102.07057v1 (发布于 2021-02-14)
- PDF 链接: https://arxiv.org/pdf/2102.07057v1.pdf
- 状态: 该论文已于 2021 年 4 月 19-23 日在 WWW '21 会议上发表,ArXiv 链接提供的是其预印本版本。
2. 整体概括
2.1. 研究背景与动机
2.1.1. 论文试图解决的核心问题
当前基于知识图谱和图神经网络 (GNNs) 的推荐系统在对用户-物品关系进行建模时,存在两个主要的“粗粒度”问题:
- 用户意图建模不足: 大多数现有方法未能从细粒度的“意图”层面去识别用户与物品之间的关系。用户对物品的选择往往受到多种潜在动机或意图的驱动,而现有的 GNN-based 模型通常将用户-物品交互视为单一、同质的关系通道。
- 关系路径语义丢失: 现有 GNN 模型的聚合机制多为“基于节点 (node-based)”的,它们聚合邻居节点的信息,但往往不区分信息来源于哪条特定的关系路径,也未能有效捕捉多跳关系路径中蕴含的“关系依赖”和“整体语义”。这导致模型在处理知识图谱中的长程连通性时,无法充分利用其中丰富的结构信息。
2.1.2. 为什么这个问题在当前领域是重要的
- 推荐精度提升: 知识图谱 (KG) 包含了丰富的实体和关系信息,能够为推荐系统提供强大的辅助。例如,它能揭示物品间的复杂关联(如共同导演的电影),也能帮助解释用户偏好(如用户选择某部电影是因为其导演)。若能更精细地建模用户意图和关系路径,将有助于更准确地捕捉用户偏好,从而提高推荐的准确性。
- 推荐可解释性增强: 理解用户行为背后的具体意图,并能追溯到知识图谱中的具体关系路径,可以为推荐结果提供直观、有意义的解释,这对于提升用户信任和满意度至关重要。例如,“用户喜欢这部电影是因为她偏好某位导演和某种特定类型”比“用户喜欢这部电影是因为算法算出来的”更具说服力。
- GNNs潜力的充分挖掘: GNNs 在集成多跳邻居信息方面表现出色,但其在关系建模上的粗粒度限制了其在知识图谱推荐中的全部潜力。解决这些问题将使 GNNs 更有效地利用知识图谱的结构信息。
2.1.3. 这篇论文的切入点或创新思路
论文的创新思路在于从两个维度对知识图谱中的关系建模进行精细化:
- 用户意图建模: 将用户-物品交互不再视为单一关系,而是由多个潜在的、细粒度的“意图”驱动。每个意图被建模为知识图谱关系的注意力组合,从而赋予意图可解释的语义,并引入独立性约束来确保不同意图的独特性。
- 关系路径感知聚合: 设计一种新的 GNN 信息聚合方案,该方案明确考虑了关系路径的序列和依赖性。它将关系路径视为信息通道,并递归地集成这些路径的语义,从而在用户和物品表示中编码长程连通性的整体语义。
2.2. 核心贡献/主要发现
2.2.1. 论文最主要的贡献
- 揭示用户意图: 首次在基于知识图谱的推荐中,探索并建模了用户与物品交互背后的细粒度用户意图。这些意图被设计为知识图谱关系的组合,不仅增强了模型的能力,也提升了可解释性。
- 提出 KGIN 模型: 提出了一个名为
KGIN的新型模型,该模型在一个统一的 GNN 框架下,同时考虑了用户-物品关系的细粒度意图和关系路径的长程语义。 - 关系路径感知聚合: 设计了一种新颖的信息聚合机制,能够递归地集成长程连通性的关系序列,有效地编码关系依赖和路径的整体语义。这克服了现有 GNN 模型在关系建模上的粗粒度问题。
- 实证验证: 在三个真实的基准数据集上进行了广泛的实验,证明了
KGIN相较于KGAT、KGNN-LS和CKAN等最先进的方法具有显著的性能提升。 - 可解释性分析: 进一步分析表明,
KGIN能够通过识别有影响力的意图和关系路径,为推荐预测提供直观且可解释的理由。
2.2.2. 论文得出了哪些关键的结论或发现
- 在推荐系统中,考虑用户-物品交互背后的细粒度“用户意图”对于提升模型性能和可解释性至关重要。
- 通过将意图建模为知识图谱关系的注意力组合,可以赋予意图明确的语义,并且通过独立性约束可以确保意图的独特性。
- 显式地建模关系路径的序列和依赖性,而非仅仅聚合节点信息,能够更好地捕获知识图谱中长程连通性的丰富语义,从而生成更高质量的用户和物品表示。
KGIN在三个不同领域的数据集上均显著优于现有主流的基于知识图谱的推荐方法,尤其在NDCG(Normalized Discounted Cumulative Gain) 指标上提升明显。- 模型的可解释性分析证实,
KGIN能够识别用户在特定交互中最重要的意图和相关的知识图谱路径,从而提供透明的推荐解释。 - 增加模型深度(即考虑更长的关系路径)通常能提升性能,但并非无限有效,存在一个最优深度,这取决于数据集的特性和知识图谱的结构。
- 独立性建模虽然可能不会直接大幅提升推荐准确率,但它能确保学习到的意图之间差异化显著,从而增强模型的可解释性。
3. 预备知识与相关工作
3.1. 基础概念
为了更好地理解 KGIN 模型,我们需要了解以下几个核心概念:
- 推荐系统 (Recommender Systems):旨在预测用户对物品的偏好,并向用户推荐他们可能感兴趣的物品。论文中主要关注隐式反馈 (implicit feedback),即用户通过与物品的交互(如点击、购买、观看)来间接表达偏好,而非直接给出评分。
- 知识图谱 (Knowledge Graph, KG):一种结构化的数据表示形式,以图的形式存储现实世界中的事实。它由实体 (entities) 和关系 (relations) 组成,并通过三元组 (triplets) 的形式表示事实,例如
(头实体, 关系, 尾实体)或(head, relation, tail)。例如,(马丁·弗里曼, 参演, 霍比特人1)就是一个知识图谱三元组。知识图谱能够提供物品的属性、类别信息以及外部常识知识,极大地丰富了推荐系统中的物品信息。 - 图神经网络 (Graph Neural Networks, GNNs):一类设计用于处理图结构数据的深度学习模型。其核心思想是通过信息聚合 (information aggregation) 或消息传递 (message passing) 机制,将节点自身的特征及其邻居节点的特征进行整合,从而更新节点的表示。这种机制使得 GNN 能够捕获图中多跳邻居 (multi-hop neighbors) 的信息,从而学习到丰富的节点表示 (representations)。
- 用户意图 (User Intents):在
KGIN中,用户意图被定义为用户选择物品背后的潜在动机或原因,它反映了所有用户行为的共性。例如,用户购买一本书可能是因为对特定“作者”和“流派”的偏好。KGIN假设用户具有多个意图,每个意图都可以是知识图谱中不同关系(或关系组合)的抽象。 - 关系路径 (Relational Paths):指在图结构中,从一个节点到另一个节点,经过一系列中间节点和关系的序列。例如,
用户 -> 交互 -> 物品 -> 导演 -> 导演实体构成一条关系路径。KGIN强调这些路径不仅是连接,其关系序列本身蕴含着重要的语义信息,即关系依赖 (relation dependencies) 和长程连通性 (long-range connectivity) 的整体语义。
3.2. 前人工作
本论文回顾了知识图谱在推荐系统中的四类主要方法:
-
嵌入式方法 (Embedding-based Methods):
- 这类方法主要关注知识图谱中的一阶连通性 (first-order connectivity)(即三元组),利用知识图谱嵌入 (KG embedding) 技术(如
TransE[3] 和TransH[46])学习实体和关系的向量表示。 - 然后,这些知识感知的嵌入作为物品的先验信息或内容信息,补充到推荐模型(如
矩阵分解, MF[26])中。 - 例子:
CKE[51] 将TransE应用于知识图谱三元组,并将知识感知的物品嵌入输入到 MF 框架中。KTUP[4] 同时在用户-物品交互和 KG 三元组上使用TransH,以联合学习用户偏好和进行 KG 补全。 - 局限性: 忽略了高阶连通性,未能捕捉两个节点之间路径的长程语义或序列依赖性。
- 这类方法主要关注知识图谱中的一阶连通性 (first-order connectivity)(即三元组),利用知识图谱嵌入 (KG embedding) 技术(如
-
路径式方法 (Path-based Methods):
- 这类方法通过从知识图谱中提取连接目标用户和物品节点的路径 (paths) 来利用长程连通性 (long-range connectivity)。
- 然后,利用这些路径来预测用户偏好,通常通过循环神经网络 (RNN) [31, 44] 或记忆网络 [36] 实现。
- 例子:
RippleNet[36] 记忆用户根植路径上的物品表示,并用它们来增强用户表示。 - 局限性: 路径质量高度依赖于提取方法:蛮力搜索 (brute-force search) 劳动密集且耗时;使用元路径模式 (meta-path patterns) 需要领域专家预定义,导致可迁移性差 [15, 17]。
-
策略式方法 (Policy-based Methods):
- 受强化学习 (Reinforcement Learning, RL) 成功的启发,这类方法设计 RL 智能体 (RL agents) 来学习路径发现策略 (path-finding policy)。
- 例子:
PGPR[49] 利用策略网络探索目标用户感兴趣的物品。这些基于 RL 的策略网络可以看作是蛮力搜索的有效替代方案。 - 局限性: 稀疏的奖励信号 (sparse reward signals)、巨大的动作空间 (huge action spaces) 和基于策略梯度的优化 (policy gradient-based optimization) 使得这些网络难以训练并收敛到稳定和满意的解决方案 [50, 52]。
-
GNN-based 方法 (GNN-based Methods):
- 这类方法建立在图神经网络 (GNNs) [13, 14, 19, 34, 42] 的信息聚合机制之上。
- 通过递归地传播信息,可以将多跳节点的信息编码到节点的表示中,从而建模长程连通性。
- 例子:
KGAT[41] 将用户-物品交互和 KG 结合成一个异构图 (heterogeneous graph),并在此之上应用聚合机制。CKAN[47] 使用两种不同的策略分别传播协同信号和知识感知信号。KGNN-LS[38] 考虑用户对KG关系的偏好和标签平滑性。R-GCN[27] 将不同的KG关系视为信息流的不同通道。 - 局限性 (本文关注的重点): 现有 GNN-based 方法通常假设用户和物品之间只有一种关系,忽略了隐藏的意图。此外,大多数方法未能保留路径中的关系依赖性。
3.3. 技术演进
知识图谱在推荐系统中的应用大致经历了从浅层到深层、从局部到全局、从隐式到显式地利用知识图谱信息的过程:
- 早期嵌入式方法: 关注知识图谱的一阶结构(三元组),通过知识图谱嵌入技术学习实体表示,作为物品的辅助信息,但未能充分利用高阶连通性。
- 路径式方法兴起: 意识到高阶连通性的重要性,开始显式地提取用户和物品之间的多跳路径,以捕捉更复杂的关联。然而,路径提取本身面临效率和泛化性挑战。
- GNN-based 方法的崛起: 随着图神经网络的兴起,GNNs 提供了一种端到端的方式来自动聚合多跳邻居信息,从而隐式或显式地建模长程连通性,避免了繁琐的路径工程。
- KGIN 的精细化改进: 尽管 GNN-based 方法取得了成功,但
KGIN指出它们在关系建模上的“粗粒度”问题。KGIN的工作代表了对 GNN-based 方法的进一步精细化和深化,通过引入用户意图建模和关系路径感知聚合,旨在更深入地理解用户偏好和知识图谱的结构语义。
3.4. 差异化分析
KGIN 与现有 GNN-based 方法的主要区别和创新点在于:
- 用户意图的细粒度建模:
- 现有 GNN 方法: 普遍将用户-物品交互视为单一、同质的关系(如
interact-with),未能识别用户行为背后的多种潜在意图。它们的信息聚合机制不区分来自不同意图的信号。 - KGIN: 引入了用户意图 (user intents) 的概念,将用户-物品关系分解为多个细粒度的意图(
u-p-i三元组)。每个意图被建模为知识图谱关系的注意力组合 (attentive combination),赋予其可解释的语义,并强制意图之间保持独立性 (independence),以确保其独特性和信息量。
- 现有 GNN 方法: 普遍将用户-物品交互视为单一、同质的关系(如
- 关系路径的语义保留与聚合:
-
现有 GNN 方法: 大多数是基于节点 (node-based) 的聚合,仅仅收集邻居节点的信息,而不区分信息来自哪条具体的关系路径。关系通常仅作为邻接矩阵中的衰减因子 (decay factors) 或注意力权重来调节信息贡献,未能显式捕捉关系依赖 (relation dependencies) 和路径的整体语义 (holistic semantics of paths)。例如,路径 的语义无法被完整保留。
-
KGIN: 设计了关系路径感知聚合 (relational path-aware aggregation) 方案。它将每个关系路径视为一个信息通道,并显式地将关系序列(即关系路径)递归地集成到表示中。通过关系嵌入的逐元素乘法 (element-wise product) 来建模关系作为投影或旋转操作,从而在用户和物品表示中编码路径的整体语义和关系间的交互。
简而言之,
KGIN在GNN范式下,不仅关注了节点本身,更深入地挖掘了连接节点的“边”和“路径”中蕴含的丰富信息,从而实现了更精细、更具解释性的关系建模。
-
4. 方法论
本节将详细阐述 KGIN 模型的方法论,包括其核心思想、关键组件以及数学公式。KGIN 框架主要由两个核心部分组成:用户意图建模和关系路径感知聚合。
4.1. 方法原理
KGIN 的核心思想是解决现有基于 GNN 的知识图谱推荐模型在关系建模上的粗粒度问题。它通过以下两个方面实现精细化:
-
用户意图建模: 认为用户对物品的交互行为并非单一原因,而是由多个潜在的、细粒度的“意图”驱动。这些意图具有可解释的语义,可以通过知识图谱中的关系组合来表达。通过引入意图,模型能够更精确地刻画用户偏好。
-
关系路径感知聚合: 针对 GNN 聚合机制中忽略关系依赖和路径整体语义的问题,
KGIN设计了一种新的聚合方案。该方案将关系路径视为信息通道,并递归地将路径上的关系序列整合到节点表示中,从而在用户和物品的嵌入中编码长程连通性的丰富语义。最终,通过整合用户意图和关系路径信息,
KGIN旨在生成高质量的用户和物品表示,从而提高推荐性能和可解释性。
4.2. 核心方法详解
4.2.1. 用户意图建模 (User Intent Modeling)
KGIN 引入了用户意图来精细化用户-物品关系。它假设存在一个由所有用户共享的意图集合 。因此,一个统一的用户-物品关系 (u, i) 可以被分解为 形式的多个三元组,其中 代表一个特定的意图。这样,用户-物品交互数据就被重组为一个异构图 (heterogeneous graph),称之为意图图 (Intent Graph, IG)。
4.2.1.1. 意图的表示学习 (Representation Learning of Intents)
为了使意图具有语义,KGIN 将每个意图 与知识图谱关系上的一个分布相关联。这意味着意图的嵌入是知识图谱关系嵌入的注意力组合。
意图 的嵌入 通过以下公式计算: 其中:
-
是意图 的嵌入向量,维度为 。
-
是知识图谱中的关系集合。
-
是关系 的
ID嵌入向量。 -
是一个注意力分数 (attention score),量化了关系 对于意图 的重要性。
注意力分数 通过
softmax函数计算,以确保所有关系对特定意图的权重和为 1: 其中: -
是一个可训练的权重,专门用于特定关系 和意图 。这个权重决定了关系 在形成意图 的语义时所扮演的角色。
-
exp(.)和sum(exp(.))构成了softmax函数,将权重归一化为概率分布。值得注意的是,这些注意力权重并非针对单个用户,而是捕捉了所有用户的共同行为模式。
4.2.1.2. 意图的独立性建模 (Independence Modeling of Intents)
为了提高模型的容量和可解释性,KGIN 鼓励不同意图的表示彼此独立,即它们应包含不同的信息。如果一个意图可以被其他意图推断出来,那么它就是冗余且信息量不足的。
KGIN 提供了两种实现意图独立性建模的正则化方法:
-
互信息 (Mutual information):
KGIN通过最小化任意两个不同意图表示之间的互信息来量化它们的独立性。这种思想与对比学习 (contrastive learning) [7, 12] 的思路一致。形式上,独立性建模损失定义为: 其中:- 是衡量任意两个意图表示关联度的函数,在此设置为余弦相似度 (cosine similarity function)。
- 是
softmax函数中的温度超参数 (temperature hyper-parameter)。 - 在此处扮演一个特殊的角色,通常在对比学习中,它代表一个正样本(例如,可以是 本身,或其增强视图),而分母中的 则代表包括 在内的所有意图表示。这种损失函数旨在最大化意图 与其正样本 之间的相似性,同时最小化与其它负样本 之间的相似性,从而使得不同的意图表示更加区分。原文中
e_phi的具体生成方式未详述,但其作用是引导 区分其他 。
-
距离相关 (Distance correlation): 距离相关系数衡量两个变量的线性和非线性关联,当且仅当这两个变量独立时,其系数为零。最小化用户意图的距离相关性有助于降低不同意图的依赖性。损失函数表示为: 其中, 是意图 和 之间的距离相关性,其定义为: 其中:
- 是两个表示的距离协方差 (distance covariance)。
- 是每个意图表示的距离方差 (distance variance)。
- 这些统计量可以捕获变量间的任意依赖关系。最小化这个损失函数能够强制不同意图之间具有显著差异,从而使这些意图拥有更清晰的边界,增强了可解释性。
4.2.2. 关系路径感知聚合 (Relational Path-aware Aggregation)
KGIN 提出了一种新的聚合方案,以解决现有 GNN 聚合机制的局限性,即未能区分信息来源路径和捕获关系依赖。
4.2.2.1. 意图图上的聚合层 (Aggregation Layer over Intent Graph)
在意图图 (IG) 上,KGIN 旨在从用户历史交互中提炼协同信息。它将用户 的历史交互(即 意图感知历史, intent-aware history)视为用户自身的预存特征。对于用户 ,其意图感知历史 表示围绕 的一阶连通性,其中 是用户-意图-物品三元组的集合。
用户 在第一层聚合后的表示 通过集成其历史物品的意图感知信息来创建: 其中:
-
是用户 在第一层聚合后的表示。
-
是聚合函数,用于表征每个一阶连接
(u, p, i)。 -
是用户 的
ID嵌入。 -
是意图 的嵌入。
-
是物品 的
ID嵌入。的具体实现如下,它结合了两个关键洞察: 其中:
-
是用户 历史交互物品的数量。
-
表示逐元素乘法 (element-wise product)。
-
是一个注意力分数,用于区分不同意图对用户行为的重要性。它使得意图的贡献个性化: 其中:
-
计算意图 嵌入与用户
ID嵌入之间的点积,反映了用户 对意图 的偏好程度。 -
softmax函数将其归一化,得到用户 针对不同意图的个性化权重。这种聚合方式通过 显式地表达了第一阶意图感知信息在用户表示中的作用。
-
4.2.2.2. 知识图谱上的聚合层 (Aggregation Layer over Knowledge Graph)
在知识图谱 (KG) 上,一个实体可以参与多个 KG 三元组,并将其连接的其他实体视为属性,这些属性反映了物品之间的内容相似性。对于物品 ,其属性和一阶连通性 表示围绕 的 KG 三元组,其中 是 KG 三元组的集合。
物品 在第一层聚合后的表示 通过集成其连接实体的关系感知信息来生成: 其中:
-
是物品 在第一层聚合后的表示。
-
是聚合函数,用于从每个连接
(i, r, v)中提取和集成信息。 -
是物品 的
ID嵌入。 -
是关系 的
ID嵌入。 -
是实体 的
ID嵌入。的具体实现如下,它在聚合器中考虑了关系上下文,将关系建模为投影或旋转操作 [30]: 其中:
-
是物品 在 KG 中连接的实体数量。
-
表示关系 对实体 的信息进行调制,生成一个关系信息。这使得即使当实体相同时,由于关系的不同,其携带的语义也能有所区别。 类似地,可以获得每个 KG 实体 的表示 。
4.2.2.3. 捕获关系路径 (Capturing Relational Paths)
为了捕获更高阶邻居的影响,KGIN 递归地堆叠多个聚合层。用户 和物品 在 层聚合后的表示可以形式化为:
其中:
-
, , 分别表示用户 、物品 和实体 在上一层
(l-1)的表示,它们已经包含了来自其(l-1)跳邻居的关系信号。 -
这些递归的聚合使得表示能够存储多跳路径的整体语义 (holistic semantics),并突出关系依赖 (relational dependencies)。
以物品 为根节点的 跳路径 包含一系列连接的三元组。其关系路径可以表示为关系序列 。物品 的 层表示 可以重写为: 其中:
-
是物品 的所有 跳路径的集合。
-
是路径中第 个中间实体 的
ID嵌入。 -
这种表示清晰地反映了关系之间的交互,并保留了路径的整体语义。它通过逐元素乘法将路径上所有关系的嵌入进行组合,从而形成对该路径的编码,这与现有仅关注节点聚合或将关系视为衰减因子的 GNN 方法有显著不同。
4.2.3. 模型预测 (Model Prediction)
在经过 层聚合后,KGIN 获得用户 和物品 在不同层的表示。最终表示是通过将这些层表示求和得到的,这是一种常用的跳跃连接 (skip connection) 方式,可以缓解过平滑问题并捕获不同尺度下的信息:
其中:
-
和 分别是用户 和物品 的最终表示向量。
-
通过这种方式,意图感知关系和 KG 关系路径依赖性都被编码到最终表示中。
接着,
KGIN使用内积 (inner product) 来预测用户 采纳物品 的可能性: 其中: -
是用户 对物品 的预测分数。
4.2.4. 模型优化 (Model Optimization)
KGIN 采用成对贝叶斯个性化排序 (Pairwise Bayesian Personalized Ranking, BPR) 损失 [26] 来优化模型参数,以重建历史交互数据。BPR 损失的目标是确保对于一个给定的用户,她已交互过的物品(正样本)的预测分数高于她未交互过的物品(负样本)。
BPR 损失函数定义为: 其中:
-
是训练数据集,由观测到的交互 和未观测到的对应物 组成。对于每个用户 ,
(u, i)是一个正样本(用户已交互),(u, j)是一个负样本(用户未交互)。 -
是Sigmoid 函数,将输入值映射到 之间,表示概率。
-
该损失函数促使 。
结合意图独立性损失和 BPR 损失,
KGIN的总目标函数为: 其中: -
是 BPR 损失。
-
是意图独立性损失(可以是基于互信息的或基于距离相关的)。
-
和 是两个超参数,分别控制独立性损失和 正则化项的权重。
-
是模型的所有可训练参数集合,包括用户、实体、关系、意图的初始
ID嵌入以及意图建模中的注意力权重。 正则化项 有助于防止模型过拟合。
4.2.5. 模型分析 (Model Analysis)
4.2.5.1. 模型大小 (Model Size)
KGIN 的聚合方案舍弃了非线性激活函数和特征变换矩阵,这与一些研究 [48] 提出的简化 GNN 以避免训练困难的思路一致。因此,KGIN 的模型参数主要包括:
- ID 嵌入 (ID embeddings):用户 、实体 和关系 的初始嵌入。
- 意图嵌入 (intent embeddings):意图 的嵌入。
- 注意力权重 (attention weights):用于意图表示学习的权重 。
4.2.5.2. 时间复杂度 (Time Complexity)
KGIN 的时间开销主要来自用户意图建模和聚合方案。
- 意图图上的聚合 (Aggregations over IG):计算用户表示的复杂度为 。
- : 聚合层数。
- : 意图图中的三元组数量(即用户-意图-物品交互数量)。
- : 嵌入维度。
- 知识图谱上的聚合 (Aggregations over KG):更新实体表示的复杂度为 。
- : 知识图谱中的三元组数量。
- 独立性建模 (Independence modeling):若使用距离相关性,其计算复杂度为 。
- : 用户意图的数量。
因此,整个训练 epoch 的总时间复杂度为 。在相同的实验设置下,
KGIN的复杂度与KGAT和CKAN相当。
- : 用户意图的数量。
因此,整个训练 epoch 的总时间复杂度为 。在相同的实验设置下,
5. 实验设置
本节详细介绍 KGIN 的实验设置,包括数据集、评估指标、对比基线以及参数设置。
5.1. 数据集
实验使用了三个基准数据集,分别来自图书、音乐和时尚搭配推荐领域:
-
Amazon-Book (亚马逊图书):由
KGAT[41] 发布,一个图书推荐数据集。 -
Last-FM (最后一英里):由
KGAT[41] 发布,一个音乐推荐数据集。 -
Alibaba-iFashion (阿里巴巴时尚):由 [8] 引入,一个时尚搭配推荐数据集。在这个数据集中,时尚搭配被视为推荐给用户的“物品”,每个搭配包含多个时尚单品(如上衣、下装、鞋子、配饰),这些单品遵循时尚分类学并被分配到不同的时尚类别(如牛仔裤、T恤)。这些属性被提取作为搭配的知识图谱数据。
为了确保数据质量,所有数据集都采用了 10-core (10-核) 设置,即丢弃交互次数少于 10 次的用户和物品,并过滤掉参与三元组少于 10 次的知识图谱实体。
以下是原文 Table 1 的数据集统计信息:
| Amazon-Book | Last-FM | Alibaba-iFashion | ||
| User-Item Interaction | #Users | 70,679 | 23,566 | 114,737 |
| #Items | 24,915 | 48,123 | 30,040 | |
| #Interactions | 847,733 | 3,034,796 | 1,781,093 | |
| Knowledge Graph | #Entities | 88,572 | 58,266 | 59,156 |
| #Relations | 39 | 9 | 51 | |
| #Triplets | 2,557,746 | 464,567 | 279,155 |
数据分区 (Data Partition):遵循先前研究 [41, 45] 的做法。
- 训练阶段 (Training Phase):每个观测到的用户-物品交互被视为正样本 (positive instance)。同时,从用户未交互过的物品中随机采样一个作为负样本 (negative instance) 与用户配对。
- 评估阶段 (Evaluation Phase):采用全排序策略 (all-ranking strategy) [20],而非采样指标。对于每个用户,所有她之前未采纳的物品都被视为负样本,而测试集中相关的物品被视为正样本。所有这些物品都根据推荐模型的预测分数进行排序。
5.2. 评估指标
为了评估 Top-K 推荐的性能,论文采用了两个广泛使用的指标:Recall@K 和 NDCG@K。 默认设置为 20。报告的是测试集中所有用户的平均指标。
-
Recall@K (召回率@K):
- 概念定义:
Recall@K衡量推荐系统在生成的Top-K推荐列表中,成功发现用户所有实际感兴趣物品的比例。它关注的是模型“找全”相关物品的能力,即在有限的推荐位置中,有多少真正相关的物品被找了出来。 - 数学公式:
- 符号解释:
- : 对于一个用户,在推荐列表的前 个物品中,与该用户实际相关的物品数量。
- : 对于一个用户,在测试集中,所有与该用户实际相关的物品数量。
- 概念定义:
-
NDCG@K (Normalized Discounted Cumulative Gain at K,归一化折损累积增益@K):
- 概念定义:
NDCG@K是一个衡量推荐列表排序质量的指标。它不仅考虑了推荐物品的相关性,还对相关物品在列表中的位置进行了折损加权——位置越靠前的相关物品,贡献的增益越大。NDCG值通常在 0 到 1 之间,1 表示完美的排序。 - 数学公式:
首先计算
DCG@K(Discounted Cumulative Gain): 然后计算IDCG@K(Ideal Discounted Cumulative Gain),即理想情况下的DCG@K(将所有相关物品按相关性从高到低排序后的DCG值): 最后,NDCG@K是DCG@K与IDCG@K的比值: - 符号解释:
- : 推荐列表的长度。
- : 推荐列表中排名第 位的物品与用户的相关性分数。在二元相关性(0 或 1)场景中, 表示相关, 表示不相关。
- : 理想推荐列表中排名第 位的物品与用户的相关性分数。
- : 位置 的折损因子。分母越大,位置越靠后的物品贡献的增益越小。
- 概念定义:
5.3. 对比基线
KGIN 与以下最先进的方法进行了比较,涵盖了无知识图谱、基于嵌入和基于 GNN 的方法:
- MF (Matrix Factorization,矩阵分解) [26]:
- 类型: 无知识图谱。
- 描述: 最基础的推荐算法之一,仅考虑用户-物品交互数据,通过学习用户和物品的隐因子表示来进行预测。它不利用知识图谱信息。
- CKE (Collaborative Knowledge Base Embedding) [51]:
- 类型: 基于嵌入。
- 描述: 代表性的嵌入式方法。它利用
TransR[22] 等KG嵌入模型学习到的实体嵌入,作为物品的ID嵌入,并将其整合到MF框架中。KG关系主要作为TransR的约束来规范端点的表示。
- KGNN-LS (Knowledge-aware Graph Neural Networks with Label Smoothness Regularization) [38]:
- 类型: 基于 GNN。
- 描述: 将
KG转换为用户特定图,并在信息聚合阶段考虑用户对KG关系的偏好和标签平滑性 (label smoothness),以生成用户特定的物品表示。关系在聚合中主要作为衰减因子 (decay factors) 建模。
- KGAT (Knowledge Graph Attention Network for Recommendation) [41]:
- 类型: 最先进的基于 GNN。
- 描述: 在一个结合了
KG和用户-物品交互的整体图 (holistic graph) 上,应用注意力邻居聚合机制 (attentive neighborhood aggregation mechanism) 来生成用户和物品表示。用户-物品关系和KG关系在邻接矩阵中作为注意力权重。
- CKAN (Collaborative Knowledge-aware Attentive Network) [47]:
- 类型: 基于 GNN。
- 描述: 建立在
KGNN-LS的基础上,但分别在用户-物品图和KG上使用不同的邻居聚合策略,以获取用户和物品嵌入。
- R-GCN (Relational Graph Convolutional Networks) [27]:
- 类型: 基于 GNN。
- 描述: 最初为知识图谱补全任务提出,它将各种
KG关系视为信息流的不同通道 (channels),在聚合邻居节点时进行区分。在此实验中,它被迁移到推荐任务。
5.4. 参数设置
-
实现框架:
KGIN在PyTorch中实现。 -
公平比较: 为了公平比较,所有方法都统一设置了:
- ID 嵌入维度 : 64
- 优化器 (Optimizer):
Adam[18] - 批次大小 (Batch Size): 1024
-
超参数调优 (Grid Search):
- 学习率 (Learning Rate): 在 中调整。
- 约束系数 (Coefficients of additional constraints): 对于所有方法的 正则化项、
KGIN的独立性建模、CKE和KGAT的TransR、KGNN-LS的标签平滑性,系数在 中搜索。 - GNN 层数 : 对于所有基于 GNN 的方法,层数 在 中调整。
-
特定方法设置:
KGNN-LS和CKAN: 邻居大小设置为 16,批次大小设置为 128。
-
初始化:
- 模型参数使用
Xavier[11] 初始化。 KGAT的ID嵌入使用MF的预训练ID嵌入进行初始化。
- 模型参数使用
-
KGIN 具体设置:
- 默认情况下,|\mathcal{P}|$$: 4。
- 默认情况下,
关系路径聚合层数: 3。 - 论文观察到使用公式 (3) 和 (4) 具有相似的趋势和性能,因此报告的是公式 (3) 的结果。
KGIN-3表示使用三层关系路径聚合的推荐模型,依此类推。
-
详细超参数: 附录 A.1 (Table 6) 提供了
KGIN在三个数据集上的详细超参数设置。以下是原文 Table 6 的 KGIN 超参数设置:
ρ d L |P| λ`_1` λ`_2` Amazon-Book 10 64 3 4 10 10 Last-FM 10 64 3 4 10 10 Alibaba-iFashion 10 64 3 4 10 10
6. 实验结果与分析
本节将深入分析 KGIN 的实验结果,以回答论文提出的研究问题:RQ1 模型的整体性能;RQ2 模型设计(如意图数量、意图独立性、关系路径深度)的影响;RQ3 模型的可解释性。
6.1. 核心结果分析 (RQ1)
6.1.1. 整体性能比较
以下是原文 Table 2 的整体性能比较结果(recall@20 和 ndcg@20):
| Amazon-Book | Last-FM | Alibaba-iFashion | ||||
| recall | ndcg | recall | ndcg | |||
| MF | 0.1300 | 0.0678 | 0.0724 | 0.0617 | 0.1095 | 0.0670 |
| CKE | 0.1342 | 0.0698 | 0.0732 | 0.0630 | 0.1103 | 0.0676 |
| KGAT | 0.1487 | 0.0799 | 0.0873 | 0.0744 | 0.1030 | 0.0627 |
| KGNN-LS | 0.1362 | 0.0560 | 0.0880 | 0.0642 | 0.1039 | 0.0557 |
| CKAN | 0.1442 | 0.0698 | 0.0812 | 0.0660 | 0.0970 | 0.0509 |
| R-GCN | 0.1220 | 0.0646 | 0.0743 | 0.0631 | 0.0860 | 0.0515 |
| KGIN-3 | 0.1687* | 0.0915* | 0.0978* | 0.0848* | 0.1147* | 0.0716* |
| %Imp. | 13.44% | 14.51% | 11.13% | 13.97% | 3.98% | 5.91% |
主要发现:
- KGIN 的卓越性能:
KGIN在所有三个数据集的所有评估指标上都持续优于所有基线模型。特别是在ndcg@20上,KGIN在Amazon-Book、Last-FM和Alibaba-iFashion上分别比最强的基线模型高出 、 和 。这有力地证明了KGIN方法的合理性和有效性。- 性能提升原因归因于 KGIN 的关系建模:
- 用户意图建模:
KGIN通过揭示用户意图,能够更好地刻画用户与物品之间的关系,从而生成更强大的用户和物品表示。相比之下,所有基线模型都忽略了隐藏的用户意图,并将用户-物品边建模为同质的信息收集通道。 - 关系路径聚合:
KGIN的关系路径聚合方案能够保留路径的整体语义并从知识图谱中收集更具信息量的信号,优于KGAT、CKAN、KGNN-LS等基于 GNN 的基线。 - IG 和 KG 分别聚合:
KGIN在意图图 (IG) 和知识图谱 (KG) 上应用不同的聚合方案,能够更好地将协同信号和物品知识编码到用户和物品表示中。
- 用户意图建模:
- 性能提升原因归因于 KGIN 的关系建模:
- 数据集差异:
Amazon-Book上的性能提升比Alibaba-iFashion更显著。这可能是因为Amazon-Book的交互和KG数据都比Alibaba-iFashion更密集、更丰富。这表明KGIN更擅长发挥长程连通性的潜力。 - KG 的重要性:
MF模型的性能最低,因为它未利用知识图谱。CKE通过简单地将KG嵌入集成到MF中,性能优于MF,这印证了辅助信息(如KG)的重要性。 - GNN 的优势与局限:
KGAT、CKAN、KGNN-LS等基于 GNN 的方法在Amazon-Book和Last-FM上优于CKE,表明建模长程连通性的重要性。它们的改进来源于利用节点的局部结构(即多跳邻居)来提升表示学习。- 然而,在
Alibaba-iFashion上,CKE的性能反而优于这些基于 GNN 的方法。可能原因包括:这些 GNN 方法涉及额外的非线性特征变换,训练负担较重,可能导致性能下降 [14, 48];CKE中的TransR在Alibaba-iFashion上成功捕获了主要的一阶连通性。 KGAT、KGNN-LS和CKAN的结果处于同一水平,且优于R-GCN。尽管R-GCN通过KG关系变换邻居信息的方式优于其他方法中的衰减因子,但R-GCN并非为推荐任务原生设计,未能正确建模用户-物品关系。
6.2. 消融实验/参数分析 (RQ2)
6.2.1. 用户意图和 KG 关系的必要性 (Impact of Presence of User Intents & KG Relations)
为了探究用户意图和 KG 关系的重要性,论文构建了两个变体:
-
KGIN-3_w/o I&R: 移除所有用户意图和KG关系。 -
KGIN-3_w/o I: 仅移除所有用户意图(即 )。以下是原文 Table 3 的结果:
Amazon-Book Last-FM Alibaba-iFashion recall ndcg recall ndcg w/o I&R 0.1518 0.0816 0.0802 0.0669 0.0862 0.0530 w/o I 0.1627 0.0870 0.0942 0.0819 0.1103 0.0678
主要发现:
- 与
KGIN-3(Table 2)相比,移除所有关系(KGIN-3_w/o I&R)会显著降低预测准确率,这表明关系建模的必要性。KGIN-3_w/o I&R仅在单一空间中传播节点信息,不保留任何关系语义,从而扭曲了节点间的内部关系。 - 同样,忽略隐藏的用户意图(
KGIN-3_w/o I)也会导致性能下降。尽管KGIN-3_w/o I保留了KG关系建模,但它只考虑了用户更粗粒度的偏好,导致次优的用户表示。这再次强调了探索多个用户意图的益处。
6.2.2. 模型深度影响 (Impact of Model Depth)
论文通过改变关系路径聚合层数 来研究模型深度对性能的影响。 以下是原文 Table 4 的结果:
| Amazon-Book | Last-FM | Alibaba-iFashion | ||||
| recall | ndcg | recall | ndcg | |||
| KGIN-1 | 0.1455 | 0.0766 | 0.0831 | 0.0707 | 0.1045 | 0.0638 |
| KGIN-2 | 0.1652 | 0.0892 | 0.0920 | 0.0791 | 0.1162 | 0.0723 |
| KGIN-3 | 0.1687 | 0.0915 | 0.0978 | 0.0848 | 0.1147 | 0.0716 |
主要发现:
- 在大多数情况下,增加模型深度能够提升预测结果。
KGIN-2显著优于KGIN-1。这归因于:- 堆叠更多层能够探索更多通过
KG三元组连接的相关物品,加深对用户兴趣的理解。KGIN-1仅考虑了一阶连通性,而KGIN-2揭示了两跳路径。 - 更长的关系路径能带来更多与用户意图相关的信息,从而更好地刻画用户对物品的偏好。
- 堆叠更多层能够探索更多通过
- 在
Amazon-Book和Last-FM上,KGIN-3的结果持续优于KGIN-2,这实证表明更高阶的连通性是二阶连通性的补充,能够带来更好的节点表示。 - 然而,在
Alibaba-iFashion上,KGIN-3的结果略逊于KGIN-2。这再次印证了Alibaba-iFashion数据集的固有特性——其KG大部分是物品的一阶连通性(如时尚搭配包含时尚单品),这些信息在KGIN-2中已经充分捕获。过深的层数可能引入噪声或导致过平滑。
6.2.3. 意图建模影响 (Impact of Intent Modeling)
为了分析意图数量的影响,论文将用户意图数量 从 1 变到 8,并在 Amazon-Book 和 Last-FM 数据集上绘制了性能变化曲线。
以下是原文 Figure 4 的结果:
该图像是论文中的图表,展示了不同意图数量对Amazon-Book和Last-FM两个数据集的召回率和NDCG的影响,图中横轴为意图数量,纵轴分别为召回率和NDCG指标。
主要发现:
-
在大多数情况下,增加意图数量能够提升性能。当只建模一个粗粒度关系(即 )时,
KGIN-3的性能表现很差,这再次强调了探索多个用户意图的益处。 -
在
Amazon-Book中,当意图数量超过 时,准确率有所下降。一个可能的原因是,独立性建模虽然鼓励意图之间不相关,但也可能使某些意图变得过于细粒度而无法携带足够有用的信息。 -
有趣的是,与
Amazon-Book相比,Last-FM在设置 时准确率有所提高,尽管Amazon-Book包含更丰富的KG关系。这归因于两个数据集的差异。Last-FM的KG是从专辑、歌曲和艺术家的属性转换而来,而Amazon-Book的KG是从Freebase提取的,可能包含与用户行为不相关的噪声关系。此外,论文还进行了一项消融研究,以探究独立性建模(第 3.1.2 节)的影响。通过禁用该模块构建变体
KGIN-3_w/oInd,并展示了关于距离相关性 (distance correlation) 的结果。 以下是原文 Table 5 的结果:
| Amazon-Book | Last-FM | Alibaba-iFashion | ||||
| w/Ind | w/o Ind | w/ Ind | w/o Ind | w/ Ind | w/o Ind | |
| distance correlation | 0.0389 | 0.3490 | 0.0365 | 0.4944 | 0.0112 | 0.3121 |
主要发现:
KGIN-3_w/oInd在推荐性能上与KGIN-3相当,但其距离相关系数 (distance correlation coefficients) 更大。这表明,虽然独立性建模可能不会直接大幅提升推荐准确率,但它能有效地促使学习到的意图之间相互独立、差异显著。- 没有独立性建模,意图之间可能存在较强的相关性,使得这些意图仍然难以理解用户行为,从而降低了可解释性。因此,独立性建模对于保证意图的独特和可解释性至关重要。
6.3. 可解释性 (RQ3)
KGIN 的一个显著优点是其能够提供可解释的推荐理由。本节通过两个示例(Amazon-Book 和 Last-FM)展示了用户意图的语义以及模型如何提供解释。
以下是原文 Figure 5 的解释示例:
该图像是论文中的示意图,展示了用户u236与不同目标实体通过多种KG关系路径(p1-p4)的连接及其得分,突出意图p2的重要性。左侧表格列出了每个意图对应的前两KG关系及其分数,右侧图形显示了用户与物品之间的关系路径和权重。
这张图展示了用户 交互物品 (在 Amazon-Book 上) 和用户 交互物品 (在 Last-FM 上) 的解释。
左侧表格列出了每个意图 ( 到 ) 中最重要的两个 KG 关系及其注意力分数。右侧图形展示了用户和物品之间的关系路径和权重。
主要发现:
- KGIN 归纳意图的语义:
KGIN首先归纳出意图——这些是所有用户的共性——它们由各种KG关系的组合构成。对于一个意图,关系的权重反映了其对用户行为影响的重要性。- 例如,在
Amazon-Book中,意图 的前两个关系是theater.play.genre(戏剧.剧本.类型) 和theater.plays.in-this-genre(戏剧.剧本.属于此类型),这表明 可能代表用户对特定戏剧流派的偏好。而意图 的高权重关系是date-of-the-first-performance(首演日期) 和fictional-universe(虚构宇宙),这可能代表用户对特定历史时期或虚构背景作品的兴趣。 - 这些学习到的意图抽象了用户选择背后的共同原因。由于引入了独立性建模,这些意图倾向于具有不同的边界,从而从不同且独立的角度描述用户行为。
- 在
Last-FM中, 和 具有高度相关性,可能是因为Last-FM的KG中只有 9 种关系,相对较少。某些关系(如version)在多个意图中都具有高权重,表明这些关系是与用户行为相关的常见因素。例如, 结合了version和featured-artist关系,可能诱导出一个意图,即用户对由特定艺术家创作的特定版本音乐感兴趣。
- 例如,在
- KGIN 提供实例级解释:
KGIN为每次交互创建了实例级别的解释,即针对单个用户的个性化解释。-
例如,对于
Amazon-Book中的交互u231-i21904,KGIN根据注意力分数(参见公式 (8))找到了最有影响力的意图 。因此,它将这种行为解释为:“用户 选择音乐 是因为该物品与其对特邀艺术家和特定版本的兴趣相匹配。”这种解释提供了具体且可理解的推荐理由。 -
对于
Last-FM中的用户 和物品 ,KGIN识别出意图 是最关键的意图。通过图示, 路径 () 可能揭示了用户对特定歌曲或专辑的某种关系循环或自指属性的偏好。通过这些分析,
KGIN不仅提升了推荐性能,还为推荐结果提供了深层次、可理解的解释,这是其重要优势。
-
7. 总结与思考
7.1. 结论总结
本文提出了一个新颖的基于知识图谱的意图网络 (Knowledge Graph-based Intent Network, KGIN) 模型,旨在解决现有 GNN-based 推荐系统在关系建模上的粗粒度问题。KGIN 从两个关键维度对关系建模进行了精细化:
-
用户意图建模:
KGIN揭示了用户与物品交互背后的细粒度用户意图。每个意图被建模为知识图谱关系的注意力组合,从而赋予其可解释的语义。通过引入独立性约束,模型鼓励不同意图之间相互独立,增强了模型能力和可解释性。 -
关系路径感知聚合:
KGIN设计了一种新颖的 GNN 信息聚合方案,该方案递归地集成长程连通性的关系序列,即关系路径。这种聚合方式能够显式地编码关系依赖和路径的整体语义,克服了传统 GNN 仅关注节点聚合的局限性。实验结果表明,
KGIN在三个基准数据集上均显著优于KGAT、KGNN-LS、CKAN等最先进的方法。此外,通过识别有影响力的意图和关系路径,KGIN为推荐预测提供了直观且可解释的理由。
7.2. 局限性与未来工作
论文作者指出了当前的局限性并提出了未来的研究方向:
- 监督信号稀疏问题: 当前基于知识图谱的推荐系统通常将任务框架为监督学习,其监督信号仅来自历史交互。这种监督信号可能过于稀疏,无法学习到高质量的表示。
- 未来工作: 探索自监督学习 (self-supervised learning) 在推荐系统中的应用,通过自监督任务生成辅助监督信号,以发现数据实例之间的内部关系,从而学习更丰富的表示。
- 偏差与因果推理: 现有的推荐模型可能存在偏差。
- 未来工作: 将因果概念 (causal concepts)(如因果效应推断
causal effect inference、反事实推理counterfactual reasoning和去混淆deconfounding)引入知识感知推荐中,以发现和放大偏差,从而构建更公平、鲁棒的推荐系统。
- 未来工作: 将因果概念 (causal concepts)(如因果效应推断
7.3. 个人启发与批判
7.3.1. 个人启发
- 细粒度建模的重要性: 这篇论文深刻地启发了我,在复杂的系统中,仅仅依靠粗粒度的关系建模是不足的。用户行为背后的“意图”并非单一,而是多维度的、可组合的。通过将这些意图显式地建模为 KG 关系的组合,不仅提高了模型的表达能力,也为可解释性提供了直接的切入点。
- 路径语义的价值: 传统 GNN 往往将关系视为节点连接的属性,或仅仅作为注意力权重。
KGIN强调了关系序列(路径)本身所蕴含的整体语义和关系依赖,并设计了巧妙的逐元素乘法聚合机制来捕获这些信息。这提醒我们,在图结构中,“边”和“路径”本身就是信息载体,其复杂性值得深入挖掘。 - 可解释性与性能的统一:
KGIN成功地将推荐性能的提升与可解释性的增强结合起来。意图的独立性约束保证了每个意图的独特性,使得模型能够提供清晰、非冗余的解释。这种“白盒”式的解释能力对于提升用户信任和推荐系统的实际应用价值至关重要。 - 异构图处理的灵活性: 模型针对意图图(用户-意图-物品)和知识图谱(实体-关系-实体)设计了不同的聚合策略,体现了处理异构图的灵活性和专业性,能够更好地融合不同类型的数据信号。
7.3.2. 批判与潜在改进方向
e_phi的模糊性: 在公式 (3) 中,e_phi的具体定义和生成方式在论文正文中并未详细说明,这给初学者理解带来了困惑。虽然可以根据对比学习的上下文进行推测(如e_phi是 的正样本或自身),但明确的定义将更有助于模型的复现和理解。- 意图数量的确定: 尽管论文通过实验分析了意图数量 的影响,但最优数量的确定仍然是一个依赖于数据集的超参数。能否设计一种自适应机制,让模型自动学习或推断出合适的意图数量,以减少人工调优成本?
- 注意力机制的复杂度: 意图表示(公式 (2))和用户个性化注意力(公式 (8))均采用了相对简单的点积或线性权重注意力。能否引入更复杂的注意力机制(如多头注意力、门控注意力),以捕获更复杂的贡献模式或关系组合?
- 关系建模的局限性: 尽管 能够建模关系作为投影/旋转操作,但逐元素乘法可能不足以捕捉所有复杂的关系转换。可以探索更复杂的函数(如多层感知机 MLP)来学习关系转换操作,或集成 等更丰富的知识图谱嵌入操作到聚合器中。
- 计算效率与扩展性: 尽管论文分析了时间复杂度,但随着知识图谱和用户-物品交互图的规模爆炸式增长,更深层次的 GNN 模型仍可能面临计算效率的挑战。例如,聚合所有 跳路径可能非常耗时。未来的工作可以探索更高效的采样策略或近似聚合方法。
- 负采样策略: 论文提到在训练阶段随机采样负样本。随机负采样可能效率不高,因为很多随机选取的负样本可能很容易被模型区分。可以考虑引入更高级的负采样策略,如
BPR论文中提到的基于流行度的采样,或者挖掘更具挑战性的负样本,以进一步提高模型的鉴别能力。 - 意图的可控性: 尽管意图具有可解释性,但这些意图是模型通过数据学习到的。能否引入某种机制,允许用户或领域专家对意图进行预定义或引导,从而让意图更符合人类的直觉或业务需求?
相似论文推荐
基于向量语义检索推荐的相关论文。