Knowledge-aware Diffusion-Enhanced Multimedia Recommendation
TL;DR 精炼摘要
本文提出了一种知识感知扩散增强架构KDiffE,利用对比学习范式改善多媒体推荐系统。通过构建融合注意力感知矩阵的图神经网络,KDiffE提高了用户-项目交互的有效性,并采用引导扩散模型生成低噪声、强相关的知识图谱,显著增强了项目的语义信息。在多个数据集上的实验验证了该方法的有效性。
摘要
Multimedia recommendations aim to use rich multimedia content to enhance historical user-item interaction information, which can not only indicate the content relatedness among items but also reveal finer-grained preferences of users. In this paper, we propose a Knowledge-aware Diffusion-Enhanced architecture using contrastive learning paradigms (KDiffE) for multimedia recommendations. Specifically, we first utilize original user-item graphs to build an attention-aware matrix into graph neural networks, which can learn the importance between users and items for main view construction. The attention-aware matrix is constructed by adopting a random walk with a restart strategy, which can preserve the importance between users and items to generate aggregation of attention-aware node features. Then, we propose a guided diffusion model to generate strongly task-relevant knowledge graphs with less noise for constructing a knowledge-aware contrastive view, which utilizes user embeddings with an edge connected to an item to guide the generation of strongly task-relevant knowledge graphs for enhancing the item's semantic information. We perform comprehensive experiments on three multimedia datasets that reveal the effectiveness of our KDiffE and its components on various state-of-the-art methods. Our source codes are available https://github.com/1453216158/KDiffE.
思维导图
论文精读
中文精读
1. 论文基本信息
1.1. 标题
Knowledge-aware Diffusion-Enhanced Multimedia Recommendation
1.2. 作者
Xian Mo, Fei Liu, Rui Tang, Jintao, Gao, Hao Liu, Member, IEEE
1.3. 发表期刊/会议
论文的发布状态为预印本 (Preprint)。根据提供的日期 Published at (UTC):2025-07-22T09:47:56.000Z,这篇论文尚未在任何期刊或会议上正式发表,仍处于提交或评审阶段。因此,目前无法评估其所属期刊/会议在相关领域的声誉和影响力。
1.4. 发表年份
2025年
1.5. 摘要
多媒体推荐系统 (Multimedia Recommendations) 旨在利用丰富的多媒体内容来增强历史用户-项目 (user-item) 交互信息,这不仅能揭示项目 (item) 之间的内容相关性,还能反映用户更细粒度的偏好。本文提出了一种基于对比学习范式 (contrastive learning paradigms) 的知识感知扩散增强架构 (Knowledge-aware Diffusion-Enhanced architecture),命名为 KDiffE,用于多媒体推荐。具体来说,首先利用原始的用户-项目图 (user-item graphs) 构建一个注意力感知矩阵 (attention-aware matrix) 并将其融入图神经网络 (Graph Neural Networks, GNN) 中,从而学习用户和项目之间的重要性以构建主视图 (main view)。这个注意力感知矩阵是通过采用带重启的随机游走策略 (random walk with a restart strategy) 构建的,它可以保留用户和项目之间的重要性,以生成注意力感知节点特征的聚合。其次,本文提出了一种引导扩散模型 (guided diffusion model) 来生成任务强相关 (strongly task-relevant)、噪声更少 (less noise) 的知识图谱 (Knowledge Graphs, KG),用于构建知识感知对比视图 (knowledge-aware contrastive view)。该模型利用与项目连接的用户嵌入 (user embeddings with an edge connected to an item) 来指导任务强相关知识图谱的生成,从而增强项目的语义信息。在三个多媒体数据集上进行的综合实验表明,KDiffE 及其组件在与各种最先进方法 (state-of-the-art methods) 比较时展现了其有效性。
1.6. 原文链接
原文链接: https://arxiv.org/abs/2507.16396v1 PDF 链接: https://arxiv.org/pdf/2507.16396v1.pdf 发布状态:预印本 (Preprint)。
2. 整体概括
2.1. 研究背景与动机
多媒体推荐系统 (Multimedia Recommendation, MMRec) 是当前推荐系统领域的一个重要方向,它旨在通过利用项目的多媒体内容(如视觉、文本、音频)来丰富用户-项目交互信息,从而更精准地捕捉用户偏好、揭示项目间的内容关联,并最终提升推荐性能。
核心问题与现有挑战 (Gaps):
- GNN 聚合的局限性: 现有的基于图神经网络 (Graph Neural Networks, GNN) 的多媒体推荐方法,如 MHGCF 等,虽然能够通过消息传递机制学习用户和项目之间的高阶关系,但它们普遍存在一个问题:在聚合邻居节点信息时,往往平均处理所有用户-项目交互,忽略了不同交互之间可能存在不同的重要性。这种平均聚合可能导致不准确的用户和项目表示,从而降低推荐性能。
- 注意力机制的计算成本与可解释性: 尽管一些研究引入了自适应训练注意力权重机制 (adaptive training attention weight mechanisms) 来学习用户和项目交互的不同重要性,例如 DualGNN、MGCN 等,但这类方法通常会带来高昂的计算成本。此外,它们的注意力权重通常难以直观理解,降低了模型的可解释性。
- 知识图谱的稀疏性和噪声问题: 为了增强项目的语义信息,一些方法利用多媒体内容构建知识图谱 (Knowledge Graph, KG)。然而,实际应用中,项目的多媒体内容往往稀疏,导致构建的知识图谱能力有限。此外,多媒体内容可能包含大量噪声或与主题无关的信息,导致知识图谱中存在不相关实体或关系,这在生成对比视图 (contrastive view) 时,会将噪声信息注入用户和项目表示,进一步损害推荐性能。
- 扩散模型引导的不足: 近年来,扩散模型 (Diffusion Models, DM) 在图数据生成方面表现出色,被用于生成鲁棒的知识图谱以缓解噪声问题。然而,大多数现有方法忽略了利用原始知识图谱关系作为补充内容来指导生成任务强相关的知识图谱,无法确保生成的知识图谱总能带来与任务相关的知识增益。
本文的切入点或创新思路: 针对上述挑战,本文提出了 KDiffE 模型,其核心思路是通过精心设计的注意力机制和引导式扩散模型来解决 GNN 聚合中的重要性差异、知识图谱的稀疏/噪声问题,并提升模型的计算效率和可解释性。
2.2. 核心贡献/主要发现
本文的主要贡献体现在以下几个方面:
- 注意力感知图学习 (Attention-aware Graph Learning): 提出了一个有效的对比学习架构 KDiffE,其中设计了一个注意力感知矩阵 (attention-aware matrix) 来识别用户和项目之间的重要性,从而生成注意力感知节点特征聚合 (attention-aware node feature aggregation)。这个矩阵通过带重启的随机游走策略 (random walk with a restart strategy) 构建,不仅提升了计算效率,还增强了模型的可解释性。
- 引导扩散模型生成知识感知对比视图 (Guided Diffusion Model for Knowledge-aware Contrastive View): 提出了一种引导扩散模型,利用与项目连接的用户嵌入 (user embeddings with an edge connected to an item) 来指导生成任务强相关的知识图谱 (strongly task-relevant knowledge graphs),且噪声较少。这解决了知识图谱的稀疏性和噪声问题,为构建知识感知对比视图提供了高质量的增强数据。
- 综合有效性验证: 在三个多媒体数据集(TikTok, Amazon-Baby, Amazon-Sports)上进行了全面的实验。实验结果证明了 KDiffE 模型及其关键组件(注意力感知矩阵和引导扩散机制)在推荐性能上优于多种最先进的方法。
关键结论或发现:
- 注意力感知机制的有效性: 通过构建注意力感知矩阵,模型能够更好地识别用户-项目交互的重要性,避免平均聚合带来的信息损失,从而提高了推荐性能。
- 引导扩散模型的优势: 引导扩散模型能够生成高质量、任务强相关且噪声更少的知识图谱,有效增强了项目的语义信息,并通过对比学习进一步提升了模型表现。
- 对比学习的协同作用: KDiffE 将注意力感知 GNN 与引导扩散模型生成的对比视图相结合,通过对比损失进行优化,使得模型能够从不同视角学习鲁棒的用户和项目表示。
- 计算效率和可解释性: 与传统的自适应注意力机制相比,本文提出的基于图拓扑构建注意力感知矩阵的方法,在保证性能的同时,降低了计算成本并提升了模型的可解释性。
3. 预备知识与相关工作
本部分将为读者铺垫理解本文所需的前置知识,并对相关工作进行总结和差异化分析。
3.1. 基础概念
3.1.1. 推荐系统 (Recommendation Systems)
推荐系统的目标是预测用户对未交互项目的偏好,并向用户推荐他们可能感兴趣的项目。这对于解决信息过载问题、提升用户体验至关重要,广泛应用于电商、内容平台等领域。
3.1.2. 多媒体推荐 (Multimedia Recommendation, MMRec)
传统的推荐系统主要依赖用户-项目交互历史和项目元数据。多媒体推荐在此基础上,进一步利用项目的视觉 (visual)、文本 (textual)、音频 (acoustic) 等多媒体内容来更深入地理解项目特性和用户偏好。例如,通过分析商品的图片、描述或视频内容,可以发现更细粒度的用户兴趣。
3.1.3. 图神经网络 (Graph Neural Networks, GNN)
GNN 是一类设计用于处理图结构数据的神经网络。它们通过在图上进行消息传递 (message passing) 或信息聚合 (information aggregation) 来学习节点 (node) 的表示 (embedding)。
- 节点 (Node): 图中的基本单元,可以代表用户、项目、实体等。
- 边 (Edge): 连接两个节点的关系,表示它们之间的某种联系,如用户交互了某个项目。
- 消息传递 (Message Passing): GNN 的核心机制,每个节点从其邻居节点收集信息(消息),然后聚合这些信息来更新自身的表示。
- 图卷积网络 (Graph Convolutional Networks, GCN): 一种常见的 GNN 变体,通过对邻接矩阵 (adjacency matrix) 和节点特征矩阵进行操作,实现节点特征的传播和聚合。
3.1.4. 知识图谱 (Knowledge Graph, KG)
知识图谱是一种结构化的知识表示方式,它将实体 (entity) 和它们之间的关系 (relation) 表示为三元组 (h, r, t),其中 是头实体 (head entity), 是关系 (relation), 是尾实体 (tail entity)。在推荐系统中,KG 可以用来增强项目的语义信息,例如将电影与导演、演员、类型等实体关联起来。
3.1.5. 对比学习 (Contrastive Learning, CL)
对比学习是一种自监督学习 (self-supervised learning) 范式,其核心思想是学习一个嵌入空间,使得相似的样本(正样本对)彼此靠近,不相似的样本(负样本对)彼此远离。
- 数据增强 (Data Augmentation): 对原始数据进行不同方式的变换,生成多个“视图”或“增强版本”,这些不同视图之间被认为是正样本对。
- 正样本对 (Positive Pairs): 指的是来源于相同原始数据但经过不同增强的样本,或在语义上被认为是相关的样本。
- 负样本对 (Negative Pairs): 指的是来源于不同原始数据或在语义上不相关的样本。
- 对比损失 (Contrastive Loss): 如
InfoNCE损失,用于优化嵌入空间,使得正样本对的相似度高于负样本对的相似度。
3.1.6. 扩散模型 (Diffusion Models, DM)
扩散模型是一类生成模型,它通过两个过程来学习数据分布:
- 扩散过程 (Diffusion Process) / 前向过程 (Forward Process): 逐步向数据中添加高斯噪声 (Gaussian noise),直到数据完全变成纯噪声(通常是标准高斯分布)。这个过程通常是固定的,不需要学习。
- 逆向过程 (Reverse Process): 学习从纯噪声中逐步去除噪声,从而恢复原始数据。这个过程通过神经网络进行建模和学习。 在本文中,扩散模型被用于生成高质量的知识图谱,以增强项目语义信息并减少噪声。
3.1.7. 随机游走 (Random Walk) 与 Jaccard 指数 (Jaccard Index)
- 带重启的随机游走 (Random Walk with Restart, RWR): 是一种在图上进行节点之间相似性度量的方法。游走者从一个起始节点开始随机移动到其邻居节点,但在每一步都有一定概率返回到起始节点。RWR 可以捕捉节点之间的局部和全局连接性。
- Jaccard 指数 (Jaccard Index): 用于衡量两个集合的相似性。对于两个集合 和 ,其 Jaccard 指数定义为: 该值介于 0 到 1 之间,值越大表示两个集合越相似。在本文中,它被用于衡量用户和项目通过随机游走采样得到的邻居集合的相似性,从而构建注意力感知矩阵。
3.2. 前人工作与技术演进
多媒体推荐系统的发展大致经历了以下几个阶段:
- 早期多模态特征融合: 最初的工作主要集中在如何从多媒体内容(如图像、文本)中提取特征,并将其简单地融合到传统的推荐模型(如矩阵分解)中。例如,MMALFM [3] 通过多模态方面感知潜在因子模型学习用户偏好。
- GNN 在推荐系统中的应用: 随着 GNN 的兴起,研究者开始将 GNN 应用于用户-项目交互图,以捕捉高阶协同信号。LightGCN [4] 等简化 GCN 的工作在协同过滤 (collaborative filtering) 领域取得了显著成功。MMGCN [34] 则将多模态特征与 GNN 结合,学习细粒度用户偏好。
- GNN-based MMRec 的挑战与改进:
- 忽略交互重要性: 许多 GNN 方法平均聚合邻居信息,未能区分不同交互的重要性。
- 注意力机制引入: 为了解决上述问题,MGAT [22]、DualGNN [26]、MGCN [41] 和 MONET [7] 等引入了注意力机制,允许模型学习不同模态或不同交互的重要性。然而,这些自适应训练的注意力机制常常计算成本高昂且可解释性差。
- 知识图谱增强: 为了弥补多媒体内容稀疏性,部分工作尝试构建知识图谱来增强项目语义信息,如 MHGCF [13]。然而,这引入了 KG 自身的稀疏性和噪声问题。
- 对比学习引入: 针对数据稀疏性问题,对比学习被引入推荐系统,通过图增强 (graph augmentation) 策略生成自监督信号。SGL [35]、NCL [9]、HCCF [37] 是通用 CL-based 推荐模型。CLCRec [32]、MMGCL [40]、BM3 [45]、MGCL [11] 等将对比学习应用于多媒体推荐,以丰富项目嵌入、处理冷启动等问题。
- 扩散模型的新兴应用: 近期,扩散模型在图数据生成和数据增强方面展现潜力。DiffuASR [14]、Diff4Rec [36]、PDRec [16] 将扩散模型应用于序列推荐或传统推荐。DiffMM [5] 和 DiffKG [6] 探索了扩散模型在多媒体推荐和知识图谱增强中的应用。DiffKG 尤其与本文相关,它利用扩散模型生成知识图谱以增强语义信息。
3.3. 差异化分析
KDiffE 与上述相关工作的主要区别和创新点在于:
-
高效且可解释的注意力机制: 区别于依赖自适应训练注意力权重的传统方法(如 MGAT, DualGNN),KDiffE 通过带重启的随机游走和 Jaccard 指数来构建一个注意力感知矩阵。这种方法在不增加训练参数的情况下,利用图的拓扑结构来衡量用户-项目交互的重要性,从而降低了计算成本,并提高了模型的可解释性。
-
引导式扩散模型 (Guided Diffusion Model): 现有扩散模型(如 DiffKG)虽然能生成知识图谱,但可能未能充分利用原始图信息来指导生成过程,导致生成的 KG 可能不够“任务强相关”。KDiffE 的创新在于其引导式扩散模型:
- 它利用与项目连接的用户嵌入 (user embeddings with an edge connected to an item) 作为条件来指导知识图谱的生成,确保生成的知识图谱更符合用户偏好,并与推荐任务强相关。
- 通过选择
top-q关系来调整生成的知识图谱结构,进一步减少噪声,只保留最有信息量的部分。
-
多视图对比学习范式整合: KDiffE 将其独特构建的“主视图”(基于注意力感知 GNN)和“知识感知对比视图”(基于引导扩散模型生成的 KG)通过对比学习范式进行联合优化。这种多视图学习进一步增强了用户和项目的表示鲁棒性。
简而言之,KDiffE 的创新在于提出了一个低成本、高可解释性的注意力机制来构建主视图,并设计了一个用户偏好引导的扩散模型来生成任务强相关、噪声少的对比视图,并通过对比学习将二者有效结合。
4. 方法论
本节将详细阐述 KDiffE 模型的方法论,包括其两个主要组成部分:基于注意力感知的用户-项目图学习 (User-item Graph Learning with Attention-aware) 和基于引导扩散模型的对比学习 (Contrastive Learning with Guided Diffusion-enhanced)。
4.1. 方法原理
KDiffE 的核心思想是利用多媒体内容增强推荐系统的性能,同时解决现有 GNN 方法在聚合时忽略交互重要性以及知识图谱可能包含噪声的问题。它通过构建两个互补的视图:
-
主视图 (Main View): 通过融入基于随机游走和 Jaccard 指数的注意力感知矩阵,使得图神经网络在聚合用户-项目交互信息时能区分不同交互的重要性,生成更准确的用户和项目表示。
-
知识感知对比视图 (Knowledge-aware Contrastive View): 通过一个引导扩散模型,生成任务强相关、噪声更少的知识图谱,用于增强项目的语义信息。该扩散模型利用用户嵌入来指导知识图谱的生成,确保生成内容与用户偏好紧密相关。
这两个视图通过对比学习范式进行联合训练,从而学习到鲁棒且富有表现力的用户和项目嵌入。
4.2. 核心方法详解 (逐层深入)
4.2.1. 多媒体特征聚合 (Multimodal Features Aggregation)
首先,KDiffE 从项目的多媒体内容中提取特征,并构建一个关联的知识图谱 (Knowledge Graph, KG)。
- 实体特征提取: 对于一个项目 ,使用预训练的神经网络提取其多模态实体。例如,使用 PNASNet [10] 从图像中提取视觉实体,使用预处理的词 [13] 提取文本实体。
- 知识图谱构建: 提取所有实体后,构建一个项目-实体图 。其中,头实体 代表用户-项目图中的项目,尾实体 代表项目 的特定多媒体内容类型(如视觉特征、文本特征), 代表它们之间的关系。
- 知识感知项目语义增强: 为了增强项目的语义信息,KDiffE 采用一个关系感知知识嵌入层 [28] 来聚合知识图谱中与项目 相关的不同类型的实体,从而生成一个知识感知用户-项目图 。这有助于捕捉 KG 中连接结构固有的多样化关系。
关系感知知识嵌入层将项目 及其连接的实体 的嵌入 和 进行聚合,得到增强的项目嵌入 。其计算公式如下:
其中:
-
是项目 的增强嵌入 (enhanced embeddings)。
-
是项目 的原始嵌入。
-
是与项目 连接的实体 的嵌入。
-
表示项目 在知识图谱中通过不同关系 连接的邻居实体集合。
-
是归一化函数。
-
是用于估计实体特定和关系特定注意力相关性的权重。
为了区分项目 和实体 之间关系的语义,权重 通过以下公式计算: 其中:
-
是一个参数权重矩阵。
-
是一个注意力向量 (attention vector)。
-
是激活函数。
-
表示 和 的拼接 (concatenation)。 这个注意力机制 能够区分关系语义,从而通过知识图谱有效增强项目 的语义信息。
-
4.2.2. 注意力感知用户-项目图学习 (Attention-aware User-item Graph Learning)
为了解决 GNN 平均聚合交互信息的问题,KDiffE 引入了一个图嵌入层 (graph embedding layer) 并结合了注意力感知机制,以学习用户-项目交互的重要性,从而生成用户 和项目 的表示。
4.2.2.1. 注意力感知矩阵构建
KDiffE 不像传统方法那样通过自适应训练来学习注意力权重,而是通过用户-项目图的拓扑关系构建一个注意力感知矩阵 。
- 带重启的随机游走 (Random Walk with Restart, RWR): 对于每个用户 和项目 ,执行带重启的随机游走策略 [43]。
- 从起始节点 或 开始,进行 次采样游走 (sampled paths)。
- 每次游走的长度为 。
- 表示从用户 出发,经过 次、长度为 的随机游走所访问到的邻居节点集合。
- 表示从项目 出发,经过 次、长度为 的随机游走所访问到的邻居节点集合。
- Jaccard 指数计算: 使用 Jaccard 指数来衡量用户 和项目 之间通过随机游走采样得到的集合 和 的相似性,以此构建注意力感知矩阵 。 其中, 的值越大,表示用户 和项目 通过拓扑结构表现出的相似性越高,即它们之间的交互重要性越高。
4.2.2.2. 图嵌入传播层 (Graph Embedding Propagation Layer)
在获得注意力感知矩阵 后,将其融入到图神经网络的邻接矩阵中,用于节点特征的聚合。
- 用户和项目嵌入初始化: 用户 和项目 被初始化为嵌入向量 和 。这些嵌入构成嵌入矩阵 和 。
- 简化 GNN 传播: 为了简化模型并提高效率,KDiffE 移除了 GNN 中的特征转换矩阵 (feature transformation matrices) 和非线性激活函数 (non-linear activation functions),构建了一个简化的图嵌入传播层。
- 注意力感知归一化 Laplacian 矩阵: 聚合过程通过一个注意力感知归一化 Laplacian 矩阵 实现,它结合了原始邻接矩阵 和注意力感知矩阵 。
其中:
- 是用户-项目图的邻接矩阵。
- 和 分别是用户和项目的对角度矩阵 (diagonal degree matrices)。
- 是一个超参数,用于控制注意力感知矩阵 的贡献度。
- 节点特征聚合: 利用 进行节点特征聚合,更新用户和项目的嵌入:
这里, 和 分别表示用户和项目,
*表示所有列或行。 和 分别表示用户 和项目 从其邻居节点聚合而来的节点特征。 - 多层传播与最终嵌入: 通过堆叠多个这样的嵌入传播层,可以聚合多跳邻居信息。第 层的传播公式可以表示为: 这里, 和 分别是用户 和项目 在第 层的嵌入, 和 分别是用户 和项目 的邻居集合。 最终,通过用户 和项目 的最终嵌入的内积 (inner product) 来预测用户 对项目 的偏好得分 :
4.2.3. 基于引导扩散模型的对比学习 (Contrastive Learning with Guided Diffusion-enhanced)
此部分旨在通过引导扩散模型生成一个知识感知对比视图,以解决知识图谱稀疏性和噪声问题。
4.2.3.1. 扩散过程 (Diffusion Process)
扩散过程用于向原始知识图谱中添加噪声。
- 初始状态表示: 原始知识图谱 中项目 和实体 之间的关系 被表示为一个关系向量 。如果项目 与实体 有关系,则 ,否则为 0。
- 逐步加噪: 在 步扩散过程中,噪声逐步添加到关系 中,生成 。这个过程通过高斯分布 建模:
其中:
- 是单位矩阵。
- 表示扩散步长。
- 是高斯分布 (Gaussian distribution)。
- 控制在每一步 添加的高斯噪声的尺度。
- 当 时, 将收敛到标准高斯分布。
4.2.3.2. 逆向过程 (Reverse Process)
逆向过程的目标是从纯高斯噪声 迭代地恢复原始关系 。 KDiffE 的关键创新在于引入用户嵌入作为指导,生成任务强相关的知识图谱。
- 噪声去除与恢复: 扩散模型使用神经网络来学习如何从 恢复 ,即去除添加的噪声。
其中:
- 和 分别是高斯分布的协方差 (covariance) 和均值 (mean),由参数化为 的神经网络学习。
- 是引导信息,表示与项目连接的用户嵌入,用于指导任务强相关知识图谱的生成。
- 引导用户嵌入的计算: 引导用户嵌入 的计算方式如下:
其中:
- 是原始知识图谱中的用户嵌入。
- 是与项目 有连接的邻居用户集合。
- 是平均操作。 这种计算方式确保了生成的知识图谱受到用户偏好的影响,从而增强了任务相关性。
- 均值重参数化: 均值 被重参数化,以便神经网络 能够学习在时间步 添加的噪声: 其中, 是由多层感知机 (Multi-Layer Perceptron, MLP) 实现的,它以 、步长嵌入 和用户嵌入 作为输入,预测噪声。用户嵌入 进一步调整 的嵌入重构,确保生成的数据始终对扩散增强模型带来益处。
- 模型参数更新: 模型参数通过最大化 似然的证据下界 (Evidence Lower Bound, ELBO) [6] 进行更新。
4.2.3.3. 对比视图生成 (Contrastive View Generation)
在逆向过程结束后,得到重构的 。KDiffE 利用 来调整知识图谱结构,以重建一个任务强相关且噪声更少的知识图谱 。
- 结构调整: 从 中选择
top-q个项目 和实体 之间任务强相关的关系来修改知识图谱结构。这有助于保留重构知识图谱中最具信息量的结构,同时减少噪声。 - 对比视图构建: 将重构知识图谱 中的实体聚合到项目 中,使用与公式 (1) 相同的方法增强项目语义信息,从而生成对比视图 。
- 对比嵌入生成: 最后,使用公式 (6) 生成用户 和项目 的嵌入 和 ,用于数据增强。
4.2.4. 模型训练 (Model Training)
KDiffE 采用 InfoNCE 损失 [24] 来对比增强视图嵌入与主视图嵌入,以训练模型参数。
- 用户对比损失: 用户 的对比损失 定义为:
其中:
- 表示余弦相似度 (cosine similarity)。
- 是温度参数 (temperature parameter)。
- 表示在不同视图中的同一节点,构成正样本对 (positive pairs)。
- () 表示在不同视图中的任意两个不同节点,构成负样本对 (negative pairs)。
- 项目对比损失: 项目 的对比损失 以相同方式定义。
- 联合优化: 主目标函数与对比损失联合优化,总损失函数 如下:
其中:
- 是主目标函数。
- 控制对比损失的贡献。
- 控制模型参数 的 L2 正则化 (L2 regularization) 项的贡献。
- 主目标函数: 通常采用成对排名损失 (pairwise ranking loss),如
BPR损失,其形式为: 其中:- 是由
(u, i, j)三元组组成的训练集,表示用户 对正向项目 的偏好高于对负向项目 的偏好。 - 是用户 对正向项目 的预测得分。
- 是用户 对负向项目 的预测得分。
- 是由
4.2.5. 可解释性分析 (Interpretability Analysis)
KDiffE 通过注意力感知矩阵 增强了模型的可解释性。
- 直观理解: 的值代表用户 和项目 之间的相似性。值越大,表示其重要性越高。这种基于图拓扑的相似性度量比黑盒的自适应注意力权重更直观。
- 局部贡献明确: 图嵌入传播层在聚合信息时,注意力感知矩阵 能够明确每个邻居节点对中心节点的贡献,从而提升了模型在节点层面的可解释性。
IV. User-item Graph Reconstructed Knowledge Graph
KDiffE 的架构图清晰地展示了其设计理念。
该图像是示意图,展示了知识驱动的扩散增强多媒体推荐架构(KDiffE)。图中左侧包含用户-项目图和知识图,右侧展示了通过引导扩散增强技术生成的主视图和对比视图,并标注了相关的损失函数( 和 )来优化推荐模型的训练过程。整体结构强调了注意力机制和用户嵌入在图神经网络中的应用。
图 2 展示了 KDiffE 的整体架构,它包含两个主要模块:
- 左侧:用户-项目图和知识图谱 (User-item Graph and Knowledge Graph):
- 原始的用户-项目交互信息。
- 从多媒体内容中提取的实体构建的知识图谱。
- 通过关系感知知识嵌入层(如公式 (1) 和 (2))将知识图谱信息融入用户-项目图,形成增强的知识感知用户-项目图 。
- 中间:主视图构建 (Main View Construction):
- 基于知识感知用户-项目图 ,通过图神经网络进行学习。
- 关键在于引入注意力感知矩阵 。这个矩阵通过带重启的随机游走和 Jaccard 指数计算(如公式 (5)),融入到归一化 Laplacian 矩阵 中(如公式 (4))。
- 通过图嵌入传播层(如公式 (3) 和 (6)),生成用户和项目的嵌入 和 。
- 右侧:对比视图构建 (Contrastive View Construction):
- 引导扩散模型 (Guided Diffusion Model): 如图 4 所示,这个模块负责生成任务强相关、噪声更少的知识图谱 。
- 扩散过程 (Diffusion Process): 向原始知识图谱的关系 中逐步添加噪声,生成 (如公式 (8))。
- 逆向过程 (Reverse Process): 从噪声 中恢复关系,并由用户嵌入 (如公式 (11))引导生成 (如公式 (10) 和 (12))。
- 对比视图 生成: 基于重构的 ,调整知识图谱结构(选择
top-q关系),然后再次通过关系感知知识嵌入层聚合实体到项目,生成知识感知对比视图 。 - 通过图嵌入传播层(如公式 (6)),生成对比视图下的用户和项目嵌入 和 。
- 引导扩散模型 (Guided Diffusion Model): 如图 4 所示,这个模块负责生成任务强相关、噪声更少的知识图谱 。
- 模型训练与损失函数 (Model Training and Loss Functions):
-
排名损失 (如公式 (15))用于优化主推荐任务。
-
对比损失 和 (如公式 (13))用于拉近主视图和对比视图中的正样本对,推远负样本对。
-
总损失 (如公式 (14))联合优化这三部分,包括 L2 正则化项。
该图像是示意图,展示了知识感知扩散增强模型 KDiffE 的构建过程。左侧是用户-项目图,显示用户(蓝色)与项目(橙色)之间的关系。中间部分描述了通过随机游走计算雅可比指数 S(u, v)以及构建邻接矩阵 的步骤,右侧展示了具有注意力机制的图嵌入层,通过可视化展示了增强的用户与项目特征的关系。
-
图 3 进一步展示了注意力感知图学习的过程。它强调了注意力感知矩阵 的构建及其在图嵌入层中的作用。
-
左侧的用户-项目图显示了用户和项目之间的交互。
-
中间部分说明了如何通过带重启的随机游走和 Jaccard 指数(公式 (5))来计算用户和项目之间的相似性,从而得到注意力感知矩阵 。
-
右侧展示了图嵌入层如何将注意力感知矩阵 融入邻接矩阵 ,形成 ,进而指导节点特征的聚合,从而实现注意力感知的节点表示学习。
该图像是示意图,展示了知识图谱的引导扩散模型的过程。图中上半部分表示扩散过程:从知识图谱开始,逐步引入噪声以破坏项与实体之间的关系;下半部分则是逆向过程,使用与项目连接的用户嵌入来逐步恢复原始关系。相关的概率分布分别用 和 表示,强调了从高斯噪声中逐步重建知识图谱的重要性。
图 4 详细描绘了引导扩散模型的工作原理。
- 扩散过程 (Diffusion process): 从原始知识图谱 开始,逐步向项目和实体之间的关系中添加高斯噪声,直到关系完全被破坏,变成纯噪声 。
- 逆向过程 (Reverse process): 从纯高斯噪声 开始,通过神经网络学习逐步去除噪声,并利用与项目连接的用户嵌入 作为引导信息,迭代地恢复原始的项目和实体之间的关系。这个引导机制确保了恢复的关系是任务强相关的,并能增强项目的语义信息。
5. 实验设置
本节将详细介绍 KDiffE 模型在实验中的设置,包括使用的数据集、评估指标和对比基线。
5.1. 数据集
实验采用了三个公共多媒体数据集来评估 KDiffE 模型。这些数据集涵盖了不同领域和模态类型。
以下是原文 Table 1 提供的详细统计信息:
| Datasets | User | Item | Interactions | Modality |
| TikTok | 9,319 | 6,710 | 59,541 | V A T |
| Amazon-Baby | 19,445 | 7,050 | 139,110 | V T |
| Amazon-Sports | 35,598 | 2,18,357 | 256,308 | V T |
- TikTok:
- 特点: 包含大量短视频内容,捕捉用户与丰富的视觉 (Visual, V)、音频 (Acoustic, A) 和文本 (Textual, T) 特征的交互。
- 规模: 9,319 名用户,6,710 个项目,59,541 次交互。
- 模态: 视觉、音频、文本。
- Amazon-Baby:
- 特点: 从亚马逊平台收集的多媒体数据集,具有丰富的视觉 (V) 和文本 (T) 特征,主要包含婴儿用品。
- 规模: 19,445 名用户,7,050 个项目,139,110 次交互。
- 模态: 视觉、文本。
- Amazon-Sports:
-
特点: 同样从亚马逊平台收集的多媒体数据集,具有丰富的视觉 (V) 和文本 (T) 特征,主要包含运动用品。
-
规模: 35,598 名用户,218,357 个项目,256,308 次交互。
-
模态: 视觉、文本。
选择这些数据集是为了在不同规模、不同模态类型(TikTok 包含音频,Amazon 数据集包含视觉和文本)和不同领域(短视频、电商)下全面验证 KDiffE 的有效性和泛化能力。
-
5.2. 评估指标
论文使用 Recall@N 和 NDCG@N (Normalized Discounted Cumulative Gain at N) 这两个常用的推荐系统评估指标,其中 。这两个指标常用于衡量推荐列表的质量。
5.2.1. Recall@N
-
概念定义:
Recall@N衡量的是在推荐列表的前 N 个项目中,有多少用户实际交互过的项目被成功推荐出来。它关注的是模型找到所有相关项目的能力,即“查全率”。在推荐系统中,Recall@N越高,表示模型能够捕捉到的用户真实兴趣项目越多。 -
数学公式:
Recall@N的计算公式如下: -
符号解释:
- : 所有用户的集合。
- : 为用户 生成的推荐列表中的前 N 个项目集合。
- : 用户 在测试集中实际交互过的项目集合(即真实相关的项目)。
- : 集合中元素的数量。
5.2.2. NDCG@N (Normalized Discounted Cumulative Gain at N)
-
概念定义:
NDCG@N是一个衡量推荐列表质量的指标,它不仅考虑了推荐项目是否相关,还考虑了相关项目的位置(排名)和相关性分数。一个高相关性的项目如果排在列表前面,会比排在后面获得更高的NDCG分数。它旨在评估推荐列表的整体有效性,特别是对用户最有价值的项目是否排在显眼位置。 -
数学公式:
NDCG@N的计算分为两步:首先计算DCG@N(Discounted Cumulative Gain),然后将其归一化。- DCG@N (Discounted Cumulative Gain at N):
- IDCG@N (Ideal Discounted Cumulative Gain at N): 理想的
DCG@N,即最优排序下的DCG@N。 - NDCG@N (Normalized Discounted Cumulative Gain at N):
-
符号解释:
- : 推荐列表的长度。
- : 推荐列表中项目的排名位置。
- : 排名在 的项目的相关性分数。在二分类相关性(相关或不相关)的推荐场景中,如果项目相关,;如果不相关,。
- : 理想排序下,排名在 的项目的相关性分数。
- : 用于对排名靠后的项目进行惩罚的折扣因子。
5.3. 对比基线
论文选择了两类具有代表性的基线模型进行比较,以全面评估 KDiffE 的性能:
5.3.1. 基于对比学习的推荐模型 (CL-based Recommendation Models)
这类模型主要利用对比学习范式来学习用户和项目表示,通常侧重于解决数据稀疏性问题,但可能未充分利用多媒体内容。
- SGL [35]: 自监督图学习 (Self-supervised Graph Learning) 模型,通过随机数据增强操作来增强对比学习信号,以提升推荐性能。
- NCL [9]: 邻居增强对比学习 (Neighborhood-enriched Contrastive Learning) 模型,通过识别邻居节点来构建正对比对,从而丰富图协同过滤。
- HCCF [37]: 超图对比协同过滤 (Hypergraph Contrastive Collaborative Filtering) 模型,通过跨视图对比学习范式增强超图神经网络,学习局部和全局协同关系。
5.3.2. 多模态推荐模型 (Multi-modal Recommendation Models)
这类模型旨在利用多媒体内容增强推荐,其中一些也结合了对比学习或扩散模型。
- CLCRec [32]: 基于对比学习的冷启动推荐 (Contrastive Learning for Cold-Start Recommendation),采用多模态特征和对比学习来丰富项目嵌入,以解决多媒体推荐中的项目冷启动问题。
- MMGCL [40]: 多模态图对比学习 (Multi-modal Graph Contrastive Learning),通过模态边缘丢弃 (modality edge dropout) 和模态掩码 (modality masking) 等自监督学习方式增强多模态表示。
- SLMRec [21]: 自监督学习的多模态推荐 (Self-supervised Learning for Multimedia Recommendation),通过多模态模式发现和特征噪声扰动来增强多模态内容。
- BM3 [45]: 自举潜在表示的多模态推荐 (Bootstrap latent representations for multi-modal recommendation),采用自监督学习消除多媒体推荐中随机采样负样本的需求。
- MGCL [11]: 多模态图对比学习 (Multimodal Graph Contrastive Learning),利用基于对比学习的策略学习视觉和文本偏好线索。
- MHGCF [13]: 多模态分层图协同过滤 (Multimodal Hierarchical Graph Collaborative Filtering),通过构建知识图谱来增强项目的语义信息,提取协同信号、内容级偏好和语义级偏好。
- DiffKG [6]: 知识图谱扩散模型 (Knowledge Graph Diffusion Model),引入扩散模型和图对比学习来学习知识图谱,以增强项目的语义信息。
5.4. 参数设置
实验中使用的参数配置如下:
- 对比损失和正则化权重: (对比损失贡献), (模型参数 L2 正则化贡献)。
- 注意力感知矩阵参数:
- 采样路径数量 (Number of sampled paths) 。
- 采样路径长度 (Length of sampled paths) 。
- 注意力感知矩阵贡献控制超参数 。
- 扩散模型参数:
- 扩散步长 (Number of steps) 。
- 调整任务强相关知识图谱结构的
top-q关系参数 。
- 对比学习温度参数: 温度参数 在 范围内搜索。
- 实验执行: 为了确保公平比较,所有基线模型都已调优到最佳值。实验重复 10 次,报告平均指标。
- 实验环境: Ubuntu 22.04.4 操作系统,Intel(R) Xeon(R) Silver 4310 CPU @ 2.10GHz,1024 GB 内存,NVIDIA Corporation Device 2684 GPU,Python 3.11。
6. 实验结果与分析
本节将深入解读 KDiffE 模型的实验结果,包括其在推荐性能上的表现、与基线的比较、消融研究以及超参数分析。
6.1. 核心结果分析
以下是原文 Table II 提供的推荐性能结果,展示了 KDiffE 与其他基线模型在三个数据集上的 Recall@20 和 NDCG@20 表现。
| Datasets | TikTok | Amazon-Baby | Amazon-Sports | |||
| Baselines | Recall@20 | NDCG@20 | Recall@20 | NDCG@20 | Recall@20 | NDCG@20 |
| SGL | 0.060 | 0.024 | 0.068 | 0.030 | 0.078 | 0.036 |
| NCL | 0.066 | 0.027 | 0.070 | 0.031 | 0.077 | 0.035 |
| HCCF | 0.066 | 0.027 | 0.071 | 0.031 | 0.078 | 0.036 |
| CLCRec | 0.062 | 0.026 | 0.061 | 0.028 | 0.065 | 0.030 |
| MMGCL | 0.080 | 0.033 | 0.076 | 0.033 | 0.088 | 0.041 |
| SLMRec | 0.085 | 0.035 | 0.077 | 0.033 | 0.083 | 0.038 |
| BM3 | 0.096 | 0.040 | 0.084 | 0.036 | 0.098 | 0.044 |
| MGCL | 0.109 | 0.040 | 0.087 | 0.038 | 0.100 | 0.044 |
| MHGCF | 0.100 | 0.043 | 0.091 | 0.039 | 0.097 | 0.040 |
| DiffKG | 0.099 | 0.044 | 0.087 | 0.037 | 0.095 | 0.042 |
| KDiffE | 0.112 | 0.046 | 0.095 | 0.040 | 0.102 | 0.046 |
核心观察与分析:
- KDiffE 表现最佳: 从 Table II 可以看出,KDiffE 模型在所有三个数据集(TikTok、Amazon-Baby、Amazon-Sports)上,无论是
Recall@20还是NDCG@20,都取得了最佳性能。这强有力地验证了 KDiffE 提出的注意力感知机制和引导扩散模型对于多媒体推荐的有效性。 - CL-based 模型的局限性: SGL、NCL 和 HCCF 等纯粹基于对比学习的推荐模型,由于没有利用丰富的多媒体内容来增强用户-项目交互信息,其性能普遍低于多模态推荐模型。这表明多媒体内容在推荐任务中的重要性。
- 多模态增强的优势: CLCRec、MMGCL、SLMRec、BM3、MGCL 等基于多模态的对比学习模型,通过融入多媒体特征,显著提升了推荐性能。例如,MGCL 在 TikTok 数据集上达到了 0.109 的
Recall@20,远超 SGL 的 0.060。这证明了多媒体内容对丰富节点语义信息、提升推荐质量的有效性。 - 知识图谱和扩散模型的潜力: MHGCF 和 DiffKG 作为利用知识图谱或扩散模型增强语义信息的代表,表现出较强的竞争力。尤其是 DiffKG,引入扩散模型和图对比学习,在某些数据集上(如 TikTok 的
NDCG@20达到 0.044)超越了大多数模型,表明扩散模型在增强知识图谱、处理噪声方面的潜力。 - KDiffE 相较于 DiffKG 的提升: 尽管 DiffKG 表现优秀,但 KDiffE 仍然能够超越它。例如,在 TikTok 数据集上,KDiffE 的
Recall@20(0.112) 和NDCG@20(0.046) 均高于 DiffKG (0.099 和 0.044)。这可以归因于 KDiffE 在以下方面的改进:- 注意力感知矩阵: KDiffE 通过基于拓扑的注意力机制,更精细地处理用户-项目交互的重要性,避免了传统 GNN 的平均聚合问题。
- 引导扩散模型: KDiffE 的扩散模型利用用户嵌入来指导知识图谱的生成,确保了生成的知识图谱是任务强相关的且噪声更少,进一步增强了项目的语义信息。
6.2. 消融实验 (Ablation Study)
为了验证 KDiffE 模型中各个关键组件的有效性,论文进行了一系列消融实验。通过移除特定组件,观察模型性能的变化,从而评估该组件的贡献。实验报告了平均 Recall@20 和 NDCG@20 值。
以下是原文 Table III 提供的消融研究结果:
| Datasets | TikTok | Amazon-Baby | Amazon-Sports | |
| Variants | Recall NDCG | Recall | NDCG | Recall NDCG |
| KDiffE_1 | 0.107 0.041 | 0.094 | 0.040 0.101 | 0.045 |
| KDiffE_2 | 0.110 0.045 | 0.093 | 0.040 0.101 | 0.045 |
| KDiffE_3 | 0.107 0.046 | 0.091 | 0.038 0.098 | 0.043 |
| Ours | 0.112 0.046 | 0.095 | 0.041 | 0.102 0.046 |
消融变体定义:
- (移除注意力感知矩阵 ): 对应于
KDiffE模型中移除了公式 (4) 中的注意力感知矩阵 ,即 GNN 聚合时不再区分用户-项目交互的重要性,而是平均聚合。 - (移除引导扩散机制): 对应于
KDiffE模型中移除了公式 (10) 中用户嵌入 对扩散模型逆向过程的引导。这意味着知识图谱的生成不再考虑用户偏好引导。 - (移除对比学习损失): 对应于
KDiffE模型中移除了总损失函数 (公式 (14)) 中的对比损失项 和 。这意味着模型仅通过主任务损失 进行训练,缺乏自监督信号。 Ours(完整 KDiffE): 完整的 KDiffE 模型。
消融结果分析:
-
注意力感知矩阵的有效性 (KDiffE vs. KDiffE_1):
- 与 相比,完整的 KDiffE 在所有数据集上均显示出更好的性能。例如,在 TikTok 数据集上,KDiffE 的
NDCG比 高 0.5%,Recall也高 0.5%。 - 解释: 采用平均聚合方式,未能识别用户和项目交互的不同重要性。而 KDiffE 通过构建注意力感知矩阵,能够更精准地聚合节点特征,从而提高了推荐性能。这验证了注意力感知矩阵在区分交互重要性方面的有效性。
- 与 相比,完整的 KDiffE 在所有数据集上均显示出更好的性能。例如,在 TikTok 数据集上,KDiffE 的
-
引导扩散机制的有效性 (KDiffE vs. KDiffE_2):
- 与 相比,完整的 KDiffE 模型性能有所提升。
- 解释: 移除了用户嵌入 对扩散模型的引导。这意味着生成的知识图谱可能不够“任务强相关”或未能充分反映用户偏好。KDiffE 的引导扩散机制能够生成与用户偏好更匹配的知识图谱,有效增强了项目的语义信息,从而提升了模型性能。这验证了引导扩散机制在生成高质量、任务相关知识图谱方面的贡献。
-
对比学习的有效性 (KDiffE vs. KDiffE_3):
- 尽管在 TikTok 数据集上,KDiffE 的
NDCG值与 相近,但在所有三个数据集上,KDiffE 的Recall值均显示出显著的提升。 - 解释: 移除了对比损失,意味着模型缺乏了自监督信号来增强表示的鲁棒性。对比学习能够通过数据增强生成正负样本对,促使模型学习到更具判别性和鲁棒性的用户和项目嵌入,从而提升了数据质量和推荐性能,尤其体现在查全率
Recall上。这验证了对比学习模块在增强模型泛化能力和鲁棒性方面的作用。
- 尽管在 TikTok 数据集上,KDiffE 的
6.3. 去噪效果分析 (Effectiveness of Denoising)
论文通过调整 top-q 关系参数 来评估模型的去噪能力。参数 控制了在重构知识图谱 时,从 中选择多少个任务强相关的关系来修改 KG 结构。
-
机制: 值越小,表示引入的额外任务相关关系越少,引入的噪声也越少。反之, 值越大,引入的关系越多,潜在噪声也可能越多。
-
实验发现:
该图像是图表,展示了去噪效果的不同评估指标。左侧图表显示了不同应用(TikTok、Amazon-Baby 和 Amazon-Sports)在 Recall@20 指标下的去噪效果,右侧图表则展示了相应的 NDCG@20 数据。各条曲线的表现相对平稳,表明去噪效果一致。图 5 展示了在三个数据集上,随着参数 的增加,模型性能(
Recall@20和NDCG@20)的变化趋势。实验结果表明,当 时,模型达到了最满意的性能。随着 值的继续增加,性能开始下降。 -
解释: 当 时,模型只保留了最强的一个任务相关关系,有效地去除了大部分噪声。当 值增加时,虽然可能引入更多的相关信息,但也同时引入了更多的噪声信息,这些噪声会污染用户和项目表示,导致推荐性能下降。这证实了 KDiffE 通过
top-q策略进行结构调整,能够有效控制噪声的引入,从而提升推荐性能。
6.4. 超参数分析 (Hyper-parameter Analysis)
论文对多个关键超参数进行了分析,以评估它们对 KDiffE 模型推荐性能的影响。
6.4.1. 参数 (采样路径长度) 和 (采样路径数量)
这两个参数共同决定了在构建注意力感知矩阵时随机游走的采样规模。
该图像是图表,展示了超参数分析的结果,其中左侧图(a)显示了参数对不同数据集(TikTok和Amazon)的Recall与NDCG指标的影响,右侧图(b)则展示了参数的影响。每个曲线代表不同的数据集及其指标,便于比较和分析超参数的效果。
图 6 展示了不同 和 值下模型的性能。
- 观察:
- 当 和 时,模型在三个数据集上都取得了满意的性能。
- 当 和 继续增加时,性能保持不变或略有增加。
- 模型对这两个参数不敏感,较小的值也能达到满意性能。
- 结论: 考虑到计算效率,最终选择 和 。
6.4.2. 参数 (注意力感知矩阵贡献度)
控制了注意力感知矩阵 在归一化 Laplacian 矩阵 中的贡献度。
该图像是图表,展示了超参数 (左图)和 (右图)对不同数据集(TikTok 和 Amazon)的推荐性能指标(Recall 和 NDCG)的影响。图中显示了不同参数值下的模型表现,帮助理解这些超参数对推荐系统效果的影响。每个数据集的表现通过不同颜色和线型区分。
图 7a 展示了不同 值下模型的性能。
- 观察:
- 当 时,模型在三个数据集上都取得了满意的性能,但最佳性能会因数据集而异。
- 随着 的持续增加,性能保持不变或略有增加。
- 解释: 注意力矩阵的贡献度需要根据数据集的稀疏性特征进行调整。过小可能无法充分利用注意力信息,过大也可能引入噪声或过拟合。
- 结论: 考虑到模型的泛化能力,最终选择 。
6.4.3. 参数 (扩散步长)
表示扩散过程的步长。
该图像是图表,展示了超参数 (左图)和 (右图)对不同数据集(TikTok 和 Amazon)的推荐性能指标(Recall 和 NDCG)的影响。图中显示了不同参数值下的模型表现,帮助理解这些超参数对推荐系统效果的影响。每个数据集的表现通过不同颜色和线型区分。
图 7b 展示了不同 值下模型的性能。
- 观察:
- 随着 的增加,性能有所提升。
- 当 时,模型取得了满意的结果。
- 当 继续增加时,性能下降或保持不变。
- 解释: 适当的扩散步长可以确保噪声的充分添加和去除,从而有效学习数据分布。步长过小可能导致扩散不充分,过大则可能引入不必要的计算成本或模型收敛困难。
- 结论: 综合计算成本和性能,最终选择 。
6.4.4. 参数 (对比学习温度参数)
是 InfoNCE 损失函数中的温度参数。
该图像是一个图表,展示了不同超参数下模型在各个数据集上的性能变化趋势,包含多个数据集的召回率和平均准确率。图中曲线代表不同数据集的结果,其中红色和黄色曲线随变化较小,表明在这些参数下模型的性能保持相对稳定。
图 8a 展示了不同 值下模型的性能。
- 观察:
- 当 在
[0.5, 0.7]范围内时,模型取得了满意的结果。 - 随着 的持续增加,性能下降或保持不变。
- 当 在
- 解释: 温度参数影响正负样本对之间对比的“硬度”。较小的 使模型更关注困难的负样本,对比度更强;较大的 则使对比更加平滑。选择合适的 对于平衡对比学习的强度至关重要。
6.4.5. 参数 (对比损失贡献)
控制对比损失 在总损失函数中的权重。
该图像是一个图表,展示了不同超参数下模型在各个数据集上的性能变化趋势,包含多个数据集的召回率和平均准确率。图中曲线代表不同数据集的结果,其中红色和黄色曲线随变化较小,表明在这些参数下模型的性能保持相对稳定。
图 8b 展示了不同 值下模型的性能。
- 观察:
- 当 时,模型在三个数据集上都取得了最佳性能。
- 随着 的持续增加,性能下降。
- 解释: 过大会导致模型过于关注对比学习任务,而减少对主推荐任务的关注,从而可能损害整体推荐性能。需要平衡对比学习和主任务之间的权重。
6.4.6. 参数 (Top-q 关系)
控制了在生成知识感知对比视图时选择多少个最强任务相关关系。
该图像是图表,展示了 TikTok、Amazon-Baby 和 Amazon-Sports 三个类别的时间消耗情况。左侧图表(a)显示了总时间消耗,右侧图表(b)展示了平均时间消耗,数据点的变化趋势揭示了各类别在时间消耗上的差异。
图 9 展示了不同 值下模型的性能。
- 观察:
- 当 或 时,模型取得了满意的结果。
- 随着 的持续增加,性能下降或保持不变。
- 解释: 如前述去噪分析,较大的 值可能引入更多噪声信息,从而损害推荐性能。选择适当的 值可以平衡信息量和噪声。
- 结论: 考虑到计算成本和性能平衡,最终选择 。
6.5. 可扩展性分析 (Scalability Analysis)
论文评估了 KDiffE 模型的计算效率和可扩展性。
6.5.1. 不同扩散步长下的时间消耗

图 10a 展示了 KDiffE 模型在不同扩散步长 下在三个数据集上的时间消耗。
- 观察: 随着扩散步长 的增加,模型的训练时间消耗随之增加。
- 结论: 论文指出,模型在较小的 值(例如 )下就能取得满意性能,这有助于控制扩散模型通常带来的时间消耗问题。
6.5.2. 时间复杂度分析
论文对 KDiffE 与 MGCL [11] 和 MHGCF [13] 进行了时间复杂度分析。
- MGCL 的训练复杂度: 接近
- MHGCF 的训练复杂度: 接近
- KDiffE 的训练复杂度:
- GCN 层 (L 层):
- 注意力感知矩阵 :
- 对比学习范式:
- 引导扩散模型生成知识图谱 :
- 符号解释:
- : 采样路径长度。
- : 采样路径数量。
- : GNN 层数。
- : 嵌入维度。
- : 训练 epoch 数量。
- : 用户数量。
- : 项目数量。
- : 用户-项目图中的交互数量。
- : 扩散步长。
- : 单个批次中包含的节点数量。
- 结论: 从分析来看,KDiffE 的训练过程虽然包含扩散模型和对比学习等复杂组件,但其时间复杂度仍然是可控的,并不会成为模型优化的瓶颈。
6.5.3. 大型网络下的可扩展性

图 10b 展示了 KDiffE 模型在 Amazon-Sports 数据集上,随着用户数量的增加,每个 epoch 的平均时间消耗。Amazon-Sports 数据集的用户数量较多,适合评估可扩展性。
- 观察:
- 当用户数量分别为 5,000、10,000、20,000、30,000 和所有节点时,KDiffE 模型每个 epoch 的平均时间消耗分别为 28.34、43.38、46.00、48.19 和 53.54 秒。
- 结论: 随着用户数量的增加,KDiffE 模型的计算成本呈现线性增长。这表明 KDiffE 具有良好的可扩展性,适用于大规模网络。
7. 总结与思考
7.1. 结论总结
本文提出了一个名为 KDiffE 的知识感知扩散增强多媒体推荐架构,该模型通过结合注意力感知图学习和引导扩散模型来提升多媒体推荐的性能。KDiffE 的主要贡献体现在以下几个方面:
- 注意力感知矩阵: 通过带重启的随机游走策略和 Jaccard 指数构建注意力感知矩阵,有效地识别用户和项目交互的重要性,从而在 GNN 聚合时生成注意力感知节点特征。这种方法相比传统的自适应注意力机制,显著提高了计算效率和模型可解释性。
- 引导扩散模型: 提出了一种创新的引导扩散模型,利用与项目连接的用户嵌入来指导任务强相关知识图谱的生成,并通过选择
top-q关系进一步去噪,确保生成的对比视图具有高质量和高相关性。 - 对比学习范式: 将主视图和通过引导扩散模型生成的知识感知对比视图相结合,通过 InfoNCE 损失进行联合优化,增强了用户和项目嵌入的鲁棒性。
- 实验验证: 在 TikTok、Amazon-Baby 和 Amazon-Sports 三个多媒体数据集上进行的大量实验证明了 KDiffE 及其各个组件在性能上优于多种最先进的基线方法。可扩展性分析也表明 KDiffE 适用于大规模推荐场景。
7.2. 局限性与未来工作
论文作者指出了当前的局限性并提出了未来的研究方向:
- 知识图谱嵌入重构的语义引导: 作者计划未来的工作将探索如何利用语义关系来指导知识图谱嵌入的重构,以进一步提高多媒体推荐性能。这意味着目前扩散模型在生成知识图谱时,可能还未充分利用知识图谱中丰富的语义关系信息,未来的工作可以更精细地将这些语义融入到扩散过程的引导中。
7.3. 个人启发与批判
7.3.1. 个人启发
- 注意力机制的新视角: 论文在注意力机制上的处理方式令人耳目一新。通常的注意力机制需要学习额外的权重参数,增加了模型的复杂性和计算量。而 KDiffE 通过图拓扑结构(随机游走 + Jaccard 指数)来构建注意力感知矩阵,这是一种“无参数学习”的注意力机制,既降低了计算成本,又增强了可解释性,为在资源受限或需要高可解释性场景下设计注意力机制提供了新的思路。
- 扩散模型在推荐领域的潜力: 扩散模型在图像生成等领域表现出色,但其在推荐系统(尤其是图结构数据增强)中的应用仍处于早期探索阶段。KDiffE 成功地将扩散模型应用于知识图谱的增强和去噪,并通过“用户引导”使其与推荐任务紧密结合,这为扩散模型在其他图数据增强、数据补全、甚至对抗样本生成等推荐任务中的应用提供了宝贵的经验。
- 多视图协同学习的威力: 通过精心设计的主视图和对比视图,并利用对比学习进行优化,KDiffE 有效地从不同层面捕捉和整合信息。主视图关注交互的重要性,对比视图关注增强的语义信息,二者互补,共同提升了模型的鲁棒性和准确性。这种多视图协同学习的范式在复杂数据建模中具有广泛的应用前景。
7.3.2. 潜在问题、未经验证的假设或可以改进的地方
- 随机游走参数的敏感性与解释: 尽管论文声称 和 参数不敏感,但随机游走路径长度和数量的选择仍然可能影响所捕获的邻居信息范围。例如,过短的路径可能无法捕捉到高阶关系,过长的路径可能引入不必要的噪声或增加计算量。虽然通过超参数分析进行了调优,但其理论依据(为何 最优)仍可进一步深究,例如通过分析不同
M,R下 Jaccard 相似性的图结构特性。 - Jaccard 指数的局限性: Jaccard 指数是基于集合交集和并集的度量,它对集合大小敏感。在实际的用户-项目图或知识图谱中,节点的度分布可能高度不平衡。对于度数很高的节点,Jaccard 指数可能偏低;对于度数很低的节点,Jaccard 指数可能偏高。这可能会影响注意力感知矩阵的准确性。可以考虑尝试其他更鲁棒的相似性度量,如 Adamic-Adar 指数或资源分配指标。
- 引导扩散模型的计算开销: 扩散模型的逆向过程通常涉及多次迭代和神经网络的推理,这可能带来较高的计算成本。尽管论文中提到 时性能良好,并且总复杂度是可控的,但在超大规模数据集上,扩散模型的训练和推理效率仍可能是实际部署的挑战。未来的工作可以探索更轻量级的扩散模型变体或加速采样技术。
top-q策略的泛化性:top-q策略用于选择任务强相关的关系,以减少噪声。虽然实验表明 或 效果最好,但这个最佳 值可能高度依赖于数据集的特性和噪声水平。如何自适应地确定 值,或者设计一种更智能的关系过滤机制,而非简单的top-q,是一个值得探索的方向。- 负样本采样策略: 对比学习的性能高度依赖于负样本的质量。论文中提到负样本对是“不同视图中的任意两个不同节点”,这通常意味着随机负采样。但随机负样本可能过于简单,无法有效挑战模型。引入硬负样本 (hard negative samples) 挖掘策略(如基于距离的采样或对抗性采样)可能会进一步提升对比学习的效果。
- 多模态融合的深度: 目前,多模态特征的聚合主要发生在构建知识图谱和增强项目语义信息的阶段。KDiffE 专注于图结构和扩散模型,但多模态特征本身如何更深层次地融合和交互(例如,模态间注意力,或不同模态对用户偏好贡献的动态调整),仍有进一步探索的空间。
相似论文推荐
基于向量语义检索推荐的相关论文。