AiPaper
论文状态:已完成

Multimodal fusion framework based on knowledge graph for personalized recommendation

发表:2025/01/01
原文链接
价格:0.10
已有 5 人读过
本分析由 AI 生成,可能不完全准确,请以原文为准。

TL;DR 精炼摘要

本文针对现有多模态知识图谱推荐系统忽视模态交互问题,提出Multi-KG4Rec框架,通过细粒度模态融合模块挖掘用户偏好。模型在真实数据上验证了高效性,实现了更精准的个性化推荐。

摘要

Expert Systems With Applications 268 (2025) 126308 Available online 1 January 2025 0957-4174/© 2025 Elsevier Ltd. All rights are reserved, including those for text and data mining, AI training, and similar technologies. Contents lists available at ScienceDirect Expert Systems With Applications journal homepage: www.elsevier.com/locate/eswa Multimodal fusion framework based on knowledge graph for personalized recommendation Jingjing Wang a , Haoran Xie b , ∗ , Siyu Zhang a , S. Joe Qin b , Xiaohui Tao c , Fu Lee Wang d , Xiaoliang Xu a a Hangzhou Dianzi University, 1158 2nd Ave, Qiantang district, Hangzhou, 310005, Zhejiang, China b Lingnan University, 8 Castle Peak Road, Tuen Mun, New Territories, 999077, Hong Kong Special Administrative Region c University of Southern Queensland, Springfield, 4300, Queensland, Australia d Hong Kong Metropolitan University, 30 Good Shepherd Street, Ho Man Tin, Kowloon, 999077, Hong Kong Special Administrative Region A R T I C L E I N F O Keywords: Knowledge graphs Multimodal fusion framework Recommender system A B S T R A C T Knowledge Graphs (KGs), which contain a wealth of knowledge

思维导图

论文精读

中文精读

1. 论文基本信息

1.1. 标题

Multimodal fusion framework based on knowledge graph for personalized recommendation (基于知识图谱的多模态融合个性化推荐框架)

1.2. 作者

Jingjing Wang, Haoran Xie, Siyu Zhang, S. Joe Qin, Xiaohui Tao, Fu Lee Wang, Xiaoliang Xu

1.3. 发表期刊/会议

论文的发表期刊/会议信息在提供的文本中未明确说明,但从其格式来看,通常是发表在同行评审的国际期刊或顶级会议上。

1.4. 发表年份

论文的发表年份未明确说明。

1.5. 摘要

知识图谱 (Knowledge Graphs, KGs) 因其丰富的知识内容,在推荐系统中被广泛用作支持高质量表示的知识驱动工具。为了进一步增强模型理解真实世界的能力,多模态知识图谱 (Multimodal Knowledge Graphs, MKGs) 被提出,用于从文本和视觉内容中提取对象之间丰富的知识和事实。然而,现有的基于 MKG 的方法主要侧重于通过将多模态信息作为辅助数据在 KG 中利用实体间的推理关系,却忽视了模态之间的交互。

为了解决这些限制,本文提出了一个名为 Multi-KG4Rec (Multimodal fusion framework based on Knowledge Graph for personalized Recommendation) 的基于知识图谱的多模态融合个性化推荐框架。具体而言,文章系统性地分析了现有多模态图构建方法的缺点。为此,Multi-KG4Rec 提出了一个模态融合模块,以细粒度(fine-grained level)地提取用户的模态偏好。此外,通过在来自不同领域的两个真实世界数据集上进行广泛实验,评估了所提出模型的性能,结果表明 Multi-KG4Rec 具有高效性。

1.6. 原文链接

/files/papers/690dd0087a8fb0eb524e6845/paper.pdf (该链接为内部文件路径,非公开网络链接,其发布状态未知)

2. 整体概括

2.1. 研究背景与动机

论文试图解决的核心问题: 现有基于知识图谱 (KGs) 或多模态知识图谱 (MKGs) 的推荐系统在以下两个方面存在局限性:

  1. 缺乏统一的 MKG 架构: 现有 MKG 方法(主要分为基于特征的方法和基于实体的方法)在构建多模态知识图谱时面临挑战。基于特征的方法虽然能丰富实体表示,但容易忽略不同模态之间的交互,且对多模态数据的完整性有严格要求。基于实体的方法将多模态信息作为新增的辅助节点,但这些节点通常仅限于属性实体,对于物品实体而言,由于其多模态信息(如电影海报或文本描述)的独特性和稀疏性,导致新增节点数量稀疏,难以从中提取足够的多模态信号。

  2. 多模态融合不足: 现有方法(无论是基于特征还是基于实体)大多采用简单的连接或加权求和来融合多模态信息,这使得模型难以在后续阶段有效利用多模态信息。例如,用户可能对某些视觉风格的电影有偏好,而这种偏好可能与文本信息无关,现有方法难以捕捉这种细粒度、跨模态的内在关联。

    为什么这个问题在当前领域是重要的? 推荐系统需要更深入地理解用户偏好和物品特性,以提供高质量的个性化推荐。真实世界场景通常包含丰富的图像和文本描述等多模态信息,而传统基于纯符号表示的知识图谱无法充分利用这些信息,降低了模型理解真实世界场景的能力。多模态知识图谱的提出正是为了解决这一问题,但其架构和融合机制的局限性阻碍了其潜力的充分发挥。

现有研究存在的具体挑战或空白 (Gap):

  • 现有 MKG 架构无法有效平衡数据完整性与模态交互捕捉。
  • 现有融合方法无法在细粒度上有效捕捉和利用模态间的交互,导致模型无法提取用户对特定模态的个性化偏好。

这篇论文的切入点或创新思路: 论文提出 Multi-KG4Rec 框架,通过以下方式切入并解决问题:

  1. 统一的 MKG 架构: 将多模态图分解为多个单模态图,每个模态内的实体通过其模态特征表示,避免了节点稀疏性问题,并初步捕捉用户粗粒度模态偏好。
  2. 细粒度多模态融合: 利用预训练模型(如 CLIP)进行图像-文本对齐和初始特征生成。设计一个模态融合模块,包含文本 Transformer 和视觉 Transformer,并通过一个跨模态多头注意力 (cross multi-head attention) 模块在细粒度上融合模态信息。这使得模型能够捕捉到用户对特定模态的个性化偏好。
  3. 图结构信息整合: 尽管使用了预训练语言模型 (LLM) 生成多模态特征,但考虑到生成模型与图结构数据不兼容,论文设计了图神经网络 (GNN) 来将多模态特征与图结构信息对齐。

2.2. 核心贡献/主要发现

论文的主要贡献总结如下:

  • 提出了一个统一的多模态架构,克服了基于特征方法的严格限制,同时解决了基于实体方法中的节点稀疏性问题。
  • 利用预训练的 LLM 生成初始多模态特征,并通过图神经网络将其与图结构信息集成。随后,提出了一个多模态融合模块,以细粒度提取用户的个性化多模态偏好。
  • 在两个真实世界数据集上进行的广泛实验证明了 Multi-KG4Rec 的有效性。

3. 预备知识与相关工作

3.1. 基础概念

为了更好地理解 Multi-KG4Rec 框架,初学者需要了解以下基础概念:

  • 推荐系统 (Recommender Systems): 旨在预测用户对物品的偏好,并向用户推荐他们可能感兴趣的物品。常见的推荐系统包括基于协同过滤 (Collaborative Filtering, CF) 的方法和基于内容的 (Content-based) 方法。
  • 知识图谱 (Knowledge Graphs, KGs): 一种结构化的知识表示形式,由实体 (entities)关系 (relations) 组成,通过三元组 (头实体, 关系, 尾实体)(head, relation, tail) 来表示事实。例如,(电影《肖申克的救赎》, 导演, 弗兰克·德拉邦特)。KGs 能够提供丰富的背景知识,帮助推荐系统更好地理解物品和用户。
  • 多模态知识图谱 (Multimodal Knowledge Graphs, MKGs): 在传统 KGs 的基础上,融入了多模态信息(如图像、文本、音频、视频等)。这意味着图中的实体或关系可以关联到多种模态的数据。例如,电影实体不仅有导演、演员等结构化信息,还可以关联电影海报(视觉模态)和电影简介(文本模态)。
  • 图神经网络 (Graph Neural Networks, GNNs): 一类用于处理图结构数据的深度学习模型。它们通过在图上进行信息传播(message passing)和聚合(aggregation)来学习节点或图的表示。GNNs 能够捕捉节点之间的结构关系和高阶连接信息。
  • 协同过滤 (Collaborative Filtering, CF): 推荐系统中最常用的技术之一,通过分析用户-物品交互数据来发现用户或物品之间的相似性,进而做出推荐。它分为用户-用户协同过滤和物品-物品协同过滤。
  • 知识图谱嵌入 (Knowledge Graph Embedding, KGE): 将知识图谱中的实体和关系映射到低维向量空间(即嵌入空间)的技术。目标是使得在嵌入空间中,属于真实三元组的实体和关系之间的距离更近,而虚假三元组的距离更远。TransR 就是一种 KGE 方法。
  • Transformer: 一种基于自注意力 (self-attention) 机制的神经网络架构,最初用于自然语言处理,后广泛应用于计算机视觉等领域。它能够捕捉序列中不同位置之间的长距离依赖关系。
  • 多头注意力 (Multi-head Attention): Transformer 中的核心机制之一。它通过并行运行多个注意力机制,并独立学习不同的注意力权重,然后将结果拼接起来,从而允许模型在不同的表示子空间中关注来自不同位置的信息。
  • 对比学习 (Contrastive Learning): 一种自监督学习方法,通过将相似的样本(正例)拉近,将不相似的样本(负例)推远,来学习有效的特征表示。CLIP 就是一个基于对比学习的预训练模型。
  • 预训练大语言模型 (Pre-trained Large Language Models, LLMs): 在大规模文本数据上预训练的深度学习模型,能够生成高质量的文本表示,并执行各种自然语言处理任务。

3.2. 前人工作

论文在 2. Related work 部分回顾了三个主要领域的相关工作:基于知识图谱 (KG-based) 的方法、基于多模态知识图谱 (MKG-based) 的方法,以及常用的模态融合方法。

3.2.1. KG-based methods (基于知识图谱的方法)

这类方法通过构建包含用户、物品和物品属性的异构图,并在图上进行关系传播来生成物品和用户表示。

  • KGCN (Knowledge Graph Convolutional Networks) (Wang, Zhao, Xie, Li and Guo, 2019): 将图卷积网络 (GCN) 与知识图谱方法结合,学习实体之间的关系。它利用固定数量的邻居作为感受野来聚合信息。

  • KGAT (Knowledge Graph Attention Network) (Wang, He, Cao, Liu and Chua, 2019): 创新性地提出了协同知识图谱方法,通过 GCN 层在协同 KG 上传播特征,编码用户和物品之间的高阶关系。它将 TransR 和 GNN 结合生成实体表示。

  • Meta-path based methods (Hu et al., 2018; Zhao et al., 2017): 依赖手动定义元路径 (meta-path) 来捕获图中的复杂语义关系。这些方法通常需要人工特征工程。

    论文指出的局限性: 上述方法主要关注从 KG 中提取知识,但忽略了文本和视觉信息中丰富的知识和事实,限制了模型的表示能力。

3.2.2. MKG-based methods (基于多模态知识图谱的方法)

这类方法旨在将多模态信息整合到知识图谱中。论文将其分为基于特征的方法和基于实体的方法。

  • 基于特征的方法 (Feature-based methods): 将多模态信息作为实体的辅助特征。
    • CKE (Collaborative Knowledge Base Embedding) (Zhang et al., 2016): 将 MKG 分为二部图、文本内容和视觉内容。使用 TransR 学习结构表示,通过去噪自编码器 (denoising autoencoders) 提取多模态内容。
    • DKN (Deep Knowledge-aware Network) (Wang et al., 2018): 提出一个卷积神经网络框架,将高阶关系推理任务与文本语义生成相结合,但主要关注文本模态。
    • CMCKG (Cao et al., 2022): 利用原始 KG 探索结构表示,将文本描述转换为 KG 中的新增节点来学习文本表示,并应用对比学习 (contrastive learning) 增强两种表示的一致性。
  • 基于实体的方法 (Entity-based methods): 将多模态信息视为新增的辅助节点添加到原始 KG 中。
    • MKGAT (Multimodal Knowledge Graph Attention Network) (Sun et al., 2020): 是一种代表性的基于实体的方法,其中只有属性实体包含多模态信息,并以新增节点的形式在 KG 中传播。

论文指出的局限性:

  • 基于特征的方法: 倾向于忽略不同模态之间的交互,且对多模态数据的完整性有严格要求。
  • 基于实体的方法: 新增的物品多模态节点(如海报、文本描述)往往是稀疏的,难以从中提取足够的信号。

3.2.3. Multimodal fusion (多模态融合)

论文将现有的多模态融合方法分为三类:粗粒度注意力、细粒度注意力、以及结合注意力。

  • 粗粒度注意力 (Coarse-grained attention): 关注捕捉模态间的粗粒度相关性。
    • DUALGRAPH (Li, Feng and Chiu, 2023): 提出使用双图神经网络的少样本关系抽取方法。
    • UVCAN (Liu et al., 2019): 采用协同注意力机制 (co-attention mechanism) 从用户和微视频视角提取多模态信息。
    • MCPTR (Liu, Ma et al., 2022): 通过自注意力机制 (self-attention mechanism) 从用户和物品视角探索跨模态信息。
    • CMBF (Chen et al., 2021): 采用交叉注意力机制 (cross-attention mechanism) 学习模态级别特征。
  • 细粒度注意力 (Fine-grained attention): 关注捕捉模态间更详细的关联。
    • POG (Chen et al., 2019): 提出编码-解码模型,结合用户个性化和搭配推荐,包含基于自注意力的蒙版物品预测任务。
    • NOR (Lin et al., 2019): 采用带有细粒度自注意力结构的 Transformer 进行服装推荐。
    • EFRM (Hou et al., 2019): 引入可解释的个性化时尚推荐模型,基于语义属性和注意力机制进行细粒度偏好建模。
    • MMRec (Wu et al., 2021): 引入候选感知注意力网络 (candidate-aware attention network) 评估点击物品和候选物品之间的跨模态相关性。
  • 结合级别注意力 (Combined-level multimodal fusion): 结合粗粒度和细粒度注意力。
    • NOVA (Liu et al., 2021): 在 BERT 框架下提出非侵入式自注意力机制,利用辅助信息增强注意力分布。

    • NRPA (Liu, Wu et al., 2019): 开发个性化词级注意力机制,通过细粒度与粗粒度融合结合注意力层。

    • VLSNR (Han et al., 2022): 通过多头注意力 (multi-head attention) 和 GRU 实现细粒度与粗粒度融合,捕捉用户短期和长期兴趣。

    • MARank (Yu et al., 2019): 设计多阶注意力层,通过融合多视角信息捕捉个体和联合级别的物品交互。

      论文指出的局限性: 细粒度注意力通常会增加计算复杂度,影响实时性能。论文的 Multi-KG4Rec 属于结合级别多模态融合,但它首先使用预训练模型而非注意力机制来对齐视觉和文本内容,随后使用跨多头注意力模块进行细粒度融合。

3.3. 技术演进

该领域的技术演进可以概括为从仅关注结构化知识到融合多模态信息,并从简单融合向细粒度交互学习发展:

  1. KG-based CF: 早期推荐系统主要依赖用户-物品交互矩阵,面临数据稀疏和冷启动问题。引入 KGs 后,通过图结构信息(如物品属性、实体间关系)丰富了物品和用户表示,例如 KGCNKGAT。这些方法通过在图上进行信息传播,捕捉高阶关系。
  2. Multimodal KGs (MKGs) 的出现: 随着多媒体内容的普及,研究者意识到仅依赖结构化知识的局限性。于是,MKGs 被提出,将图像、文本等非结构化多模态信息整合到知识图谱中,以增强模型对真实世界的理解。这又衍生出两种主要路线:
    • 基于特征的 MKG: 将多模态信息作为实体的辅助特征,如 CKEDKN,通过编码器(如 CNN、BERT)提取特征并与结构化嵌入融合。
    • 基于实体的 MKG: 将多模态信息提升为图中的新节点,以显式地捕捉它们与实体或属性的关系,如 MKGAT
  3. 多模态融合机制的演进:
    • 早期简单融合: 初始阶段,多模态信息的融合多采用简单的拼接 (concatenation)、加权求和等方式。
    • 注意力机制的引入: 随着注意力机制在深度学习中的成功,研究者开始将其应用于多模态融合,从粗粒度的模态间关联(如 UVCAN 的协同注意力)到细粒度的模态内及模态间元素级关联(如 NOR 的细粒度自注意力)。
    • 预训练模型的兴起: CLIP 等预训练模型在跨模态对齐方面展现出强大能力,为多模态推荐提供了更强的初始表示。
    • 细粒度、交互式融合: 本文提出的 Multi-KG4Rec 正是处于这一演进阶段,它结合了预训练模型的强大表示能力和 Bi-Transformer 架构的细粒度跨模态交互学习能力,旨在克服现有 MKG 架构和融合方法的局限性。

3.4. 差异化分析

Multi-KG4Rec 与相关工作的主要区别和创新点体现在以下几个方面:

  1. 统一的 MKG 架构:

    • 与基于特征的方法对比: 现有基于特征的方法(如 CKE, DKN)将多模态信息作为实体的辅助数据,容易忽略不同模态间的交互。Multi-KG4Rec 通过将多模态图分解为多个单模态图,并在后续阶段引入专门的融合模块,旨在更明确地处理和捕捉模态间交互,而不是简单地将其视为辅助特征。
    • 与基于实体的方法对比: 现有基于实体的方法(如 MKGAT)将多模态信息作为新增节点,但对于物品实体而言,其多模态节点(如电影海报、商品描述)往往是稀疏且独特的,导致新增节点信息不足。Multi-KG4Rec 则通过让每个模态内的实体由其模态特征表示,从而有效避免了物品实体多模态信息的节点稀疏性问题,同时能够以粗粒度级别提取用户的模态偏好。
  2. 细粒度多模态融合策略:

    • 与现有融合方法对比: 大多数现有方法(无论是粗粒度还是细粒度)在融合时可能未能充分挖掘模态间的复杂交互。Multi-KG4Rec 采取了多阶段、细粒度的融合策略:
      • 预对齐: 利用 CLIP 这样的预训练多模态模型来对齐图像和文本内容并生成高质量的初始特征,这比直接使用简单的编码器(如 CKE 中的去噪自编码器)更能处理模态间的语义鸿沟。
      • 图结构整合: 针对 LLMs 不兼容图结构数据的限制,设计 GNN 将多模态特征与图结构信息对齐,确保特征能够适应图的拓扑结构。
      • 跨模态 Bi-Transformer 融合: 引入文本 Transformer 和视觉 Transformer 来提取各自模态内的依赖,并通过一个跨模态多头注意力模块,在细粒度级别上实现双向的模态间信息交互,而不是简单的单向注意力或拼接。这种双向交互机制能够更全面、更深入地捕捉用户对不同模态的个性化偏好。
  3. 强调用户个性化模态偏好: 论文明确指出其模态融合模块旨在“以细粒度提取用户的模态偏好”,并通过实验案例(Case Study)验证了不同用户对视觉和文本模态的偏好确实存在差异。这一点在许多现有方法中可能没有得到如此明确和细致的关注。

    总而言之,Multi-KG4Rec 的创新性在于其在 MKG 架构设计上的平衡性(避免稀疏性,同时促进模态交互),以及在多模态融合策略上的深度和细致性(结合预训练模型、GNN 和双向 Transformer 跨模态注意力),从而实现了对用户个性化模态偏好的有效捕捉。

4. 方法论

本节将详细阐述 Multi-KG4Rec 框架的方法论,从嵌入模块、多模态融合模块、信息传播模块到最终的预测和优化器。

4.1. 方法原理

Multi-KG4Rec 的核心思想是构建一个能够细粒度融合多模态信息并利用知识图谱结构进行推荐的框架。其整体流程如图 2 所示,可以概括为以下几个步骤:

  1. 多模态图划分: 首先,将多模态知识图谱划分为若干个单模态图。这意味着,不同模态的信息(例如视觉和文本)在初期会分别处理,允许模型独立地捕捉每个模态内的特征。
  2. 实体嵌入: 使用预训练模型 CLIP 对多模态实体(物品及其属性节点)的视觉和文本内容进行特征提取,生成初始的模态对齐特征。这些特征随后通过 TransR 进行优化,以保留知识图谱的结构信息。
  3. 单模态特征提取: 对于每个模态,使用对应的 Transformer(文本 Transformer 和视觉 Transformer)来编码其高阶邻居信息,从而提取模态内部的依赖关系。
  4. 多模态融合: 引入一个跨模态多头注意力模块(Bi-Transformer 的核心),以细粒度的方式融合文本和视觉模态的信息。这个模块允许不同模态之间进行双向的交互和信息交换。
  5. 信息传播: 使用知识感知的图注意力层(GAT 层)将融合后的多模态信息传播到更高阶的邻居节点,从而捕获图中的高阶连接性。
  6. 预测: 基于生成的最终用户和物品表示,模型计算用户对物品的偏好分数,并进行个性化推荐。
  7. 优化: 模型的训练采用 BPR 损失和 KG 损失相结合的方式,以同时优化推荐性能和知识图谱的结构表示。

4.2. 核心方法详解

4.2.1. 嵌入模块 (Embedding module)

嵌入模块主要由实体嵌入和嵌入优化两部分组成。

4.2.1.1. 实体嵌入 (Entity embedding)

对于知识图谱 G\mathcal{G} 中的三元组 (h, r, t),首先通过查找表 (lookup table) 将实体 ID 转换为实体结构特征。 对于多模态实体(即具有视觉和文本内容的物品及其属性节点),现有方法通常使用 CNNBERT 等基础编码器对多模态特征进行建模。然而,这些方法往往存在模态未对齐的问题。 本文选择使用近期常用的预训练多模态视觉-文本模型 CLIP (Radford et al., 2021)CLIP 是一个对比学习模型,能够对齐图像-文本对并生成初始实体特征。 具体操作为:将与实体对应的视觉和文本描述对输入到 CLIP 中。两个编码器(图像编码器和文本编码器)的输出随后被投影到一个共享嵌入空间中,并将最后一层的输出作为特征,其维度为 512。

4.2.1.2. 嵌入优化 (Embedding optimization)

为了优化实体特征的训练,本文采用了 TransR (Lin et al., 2015) 模型。TransR 是一种经典的知识图谱嵌入方法,旨在将实体和关系映射到低维向量空间,并在关系空间中进行转换,以更好地建模复杂关系。 具体而言,知识图谱 G\mathcal{G} 中的节点和边被转换为三元组 (h, r, t),并通过以下公式进行优化: ehr+eretr \mathbf{e}_h^r + \mathbf{e}_r \approx \mathbf{e}_t^r 其中,eh,etRd\mathbf{e}_h, \mathbf{e}_t \in \mathbb{R}^d 分别表示头实体 hh 和尾实体 tt 的嵌入向量,其维度为 dderRk\mathbf{e}_r \in \mathbb{R}^k 表示关系 rr 的嵌入向量,其维度为 kkehr\mathbf{e}_h^retr\mathbf{e}_t^r 分别表示将头实体 eh\mathbf{e}_h 和尾实体 et\mathbf{e}_t 投影到关系 rr 所在空间后的表示。 给定一个三元组 (h, r, t),其目标得分函数 g(h, r, t) 定义如下: g(h,r,t)=Wreh+erWret22 g ( h , r , t ) = \left\| \mathbf { W } _ { r } \mathbf { e } _ { h } + \mathbf { e } _ { r } - \mathbf { W } _ { r } \mathbf { e } _ { t } \right\| _ { 2 } ^ { 2 } 这里,WrRk×d\mathbf{W}_r \in \mathbb{R}^{k \times d} 是一个转换矩阵,用于将实体从实体空间投影到关系 rr 空间。得分 g(h, r, t) 越小,表示该三元组为真的可能性越大。 TransR 的训练通过区分正样本 (h,r,t)G(h, r, t) \in \mathcal{G} (真实存在的三元组) 和负样本 (h,r,t)G(h, r, t') \notin \mathcal{G} (虚假三元组) 来进行,采用配对排序损失 (pairwise ranking loss): LKG=(h,r,t,t)Tlnσ(g(h,r,t)g(h,r,t)) \mathcal { L } _ { \mathrm { K G } } = \sum _ { ( h , r , t , t ^ { \prime } ) \in T } - \ln \sigma \left( g \left( h , r , t ^ { \prime } \right) - g ( h , r , t ) \right) 其中,TT 表示所有正负样本对的集合,σ()\sigma(\cdot) 表示 sigmoid 函数。这个损失函数的目标是使得正样本的得分 g(h, r, t) 远小于负样本的得分 g(h, r, t'),从而实现对知识图谱嵌入的优化。

4.2.2. 多模态融合模块 (Multimodal fusion module)

上述实体嵌入方法在捕获用户粗粒度多模态偏好方面是有效的。本节介绍多模态融合模块,用于在细粒度级别融合模态信息。该模块包括一个文本 Transformer、一个视觉 Transformer 和一个多头注意力层。Transformer 旨在提取单模态内部的依赖关系,最终通过多头注意力层实现多模态融合。

考虑到文本 Transformer 和视觉 Transformer 具有相似的架构,此处以文本 Transformer 为例进行说明。 给定一个物品 viv_i,首先需要确定输入到 Transformer 的序列范围。本文将物品的高阶邻居作为输入序列 Si={vi,um1,ep1,eq2,un2,ek2}S_i = \{v_i, u_m^1, e_p^1, e_q^2, u_n^2, e_k^2\}。其中,um1u_m^1 表示用户 umu_m 是物品 viv_i 的一阶邻居,上标 1 表示一阶邻居。由于邻居数量不同,本文采用广度优先搜索 (breadth-first search, BFS) 方法搜索邻居,直到 SiS_i 的数量达到 nn,并按距离排序。对于冷启动节点,将引入更多高层信息来增强其表示。

为了在细粒度级别融合模态信息,我们应用了一个多头注意力层 (Multi-Head Attention, MHA),如图 3(a) 所示。 给定邻居集合 SiS_i,以及与邻居集合 SiS_i 对应的视觉特征 xvRn×dx_v \in \mathbb{R}^{n \times d} 和文本特征 xtRn×dx_t \in \mathbb{R}^{n \times d}。 然后,将视觉特征 xvx_v 转换为查询 (queries) QvRn×dQ_v \in \mathbb{R}^{n \times d},键 (keys) KvRn×dK_v \in \mathbb{R}^{n \times d} 和值 (values) VvRn×dV_v \in \mathbb{R}^{n \times d}Qv(i),Kv(i),Vv(i)=xvWQv(i),xvWKv(i),xvWVv(i) Q _ { v } ^ { ( i ) } , K _ { v } ^ { ( i ) } , V _ { v } ^ { ( i ) } = x _ { v } \mathbf { W } _ { Q } ^ { v ( i ) } , x _ { v } \mathbf { W } _ { K } ^ { v ( i ) } , x _ { v } \mathbf { W } _ { V } ^ { v ( i ) } 其中,(i) 表示第 ii 个注意力头。每个头通过参数矩阵 WQv(i),WKv(i),WVv(i)Rd×dh\mathbf{W}_Q^{v(i)}, \mathbf{W}_K^{v(i)}, \mathbf{W}_V^{v(i)} \in \mathbb{R}^{d \times d_h} 将输入转换为查询、键和值。这里,dh=d/Hd_h = d/H,其中 HH 表示注意力头的数量。对于文本模态,也有类似的转换过程,生成 Qt(i),Kt(i),Vt(i)Q_t^{(i)}, K_t^{(i)}, V_t^{(i)}

在获取了视觉注意力头和文本注意力头后,我们将视觉头的 KvK_vVvV_v 与文本头的 KtK_tVtV_t 分别拼接起来,然后计算视觉模态的注意力输出 headMv\mathbf{head}^{\mathrm{M}_v}。 计算视觉模态第 ii 个注意力头的输出 headiMv\mathbf{head}_i^{\mathrm{M}_v} 的公式如下: headiMv=Attn(Qv(i),concat(Kv(i),Kt(i)),concat(Vv(i),Vt(i))) \mathbf { h e a d } _ { \mathrm { i } } ^ { \mathrm { M } _ { v } } = \mathbf { A t t n } \left( Q _ { v } ^ { ( i ) } , \mathrm { c o n c a t } \left( K _ { v } ^ { ( i ) } , K _ { t } ^ { ( i ) } \right) , \mathrm { c o n c a t } \left( V _ { v } ^ { ( i ) } , V _ { t } ^ { ( i ) } \right) \right) 这里,Attn 表示标准的缩放点积注意力 (scaled dot-product attention) 机制。concat 操作将视觉模态的键 Kv(i)K_v^{(i)} 和文本模态的键 Kt(i)K_t^{(i)} 拼接起来,以及将视觉模态的值 Vv(i)V_v^{(i)} 和文本模态的值 Vt(i)V_t^{(i)} 拼接起来,形成混合的键和值。这意味着视觉模态的查询 Qv(i)Q_v^{(i)} 将同时关注来自视觉和文本模态的信息。 所有 HH 个注意力头的输出 head1Mv,,headHMv\mathbf{head}_1^{\mathrm{M}_v}, \dots, \mathbf{head}_H^{\mathrm{M}_v} 被拼接 (concat) 起来,并通过一个线性投影 Wov\mathbf{W}_o^v 得到最终的视觉模态融合表示 headv\mathbf{head}^vheadv=concat(head1Mv,,headHMv)Wov \mathbf { h e a d } ^ { v } = \mathrm { c o n c a t } \left( \mathrm { h e a d } _ { 1 } ^ { \mathrm { M } _ { v } } , \dots , \mathrm { h e a d } _ { H } ^ { \mathrm { M } _ { v } } \right) W _ { o } ^ { v } 其中,WovRHdh×dW_o^v \in \mathbb{R}^{H d_h \times d} 是输出权重矩阵。对于文本模态的融合表示 headt\mathbf{head}^t,计算过程是类似的,即文本查询 Qt(i)Q_t^{(i)} 会关注拼接后的键 concat(Kv(i),Kt(i))\mathrm{concat}(K_v^{(i)}, K_t^{(i)}) 和值 concat(Vv(i),Vt(i))\mathrm{concat}(V_v^{(i)}, V_t^{(i)}). 这种双向的跨模态注意力机制是 Bi-Transformer 的核心。

前馈神经网络 (Feedforward Neural Network, FFN)Transformer 的另一个关键组成部分。它通常由两个非线性层组成,其中包含 ReLU 激活函数。FFN 将经过层归一化 (layer normalization) 和残差连接 (residual connections) 处理后的结果作为输入,并执行以下计算: FFN(x)v=ReLU(xvW1v+b1v)W2v+b2v \mathrm { FFN } ( \mathbf { x } ) ^ { v } = \mathrm { ReLU } \left( x _ { v } W _ { 1 } ^ { v } + \mathbf { b } _ { 1 } ^ { v } \right) W _ { 2 } ^ { v } + \mathbf { b } _ { 2 } ^ { v } 其中,W1vRd×dm\mathbf{W}_1^v \in \mathbb{R}^{d \times d_m}W2vRdm×d\mathbf{W}_2^v \in \mathbb{R}^{d_m \times d} 是权重矩阵,b1v\mathbf{b}_1^vb2v\mathbf{b}_2^v 是偏置向量,dmd_m 是隐藏层的维度。

4.2.3. 信息传播模块 (Information propagation module)

在获得多模态信息后,本文应用知识感知的图注意力层 (knowledge-aware graph attention layer) 将多模态信息传播到更高阶的邻居。 实体充当连接不同三元组关系的桥梁。对于给定实体 hhNh\mathcal{N}_h 表示以 hh 为头实体的三元组集合,即 Nh=(h,r,t(h,r,t)G)\mathcal{N}_h = (h, r, t \mid (h, r, t) \in \mathcal{G})。 我们通过以下公式聚合邻居信息: eNh=(h,r,t)Nhπ(h,r,t)et \mathbf { e } _ { \mathcal { N } _ { h } } = \sum _ { ( h , r , t ) \in \mathcal { N } _ { h } } \pi ( h , r , t ) \mathbf { e } _ { t } 其中,π(h,r,t)\pi(h, r, t) 控制从实体 tt 到实体 hh(注意原文此处写的是 entity t to entity t,根据图 3b 和上下文,应理解为从邻居实体 tt 到中心实体 hh)的信息流,其权重取决于它们之间的关系 rrπ(h,r,t)\pi(h, r, t) 的定义如下: π(h,r,t)=(Wret)tanh((Wreh+er)) \pi ( h , r , t ) = \left( \mathbf { W } _ { r } \mathbf { e } _ { t } \right) ^ { \top } \operatorname { tanh } \left( \left( \mathbf { W } _ { r } \mathbf { e } _ { h } + \mathbf { e } _ { r } \right) \right) 其中,Wr\mathbf{W}_r 是可训练的权重矩阵。所有与 hh 连接的三元组的系数 π(h,r,t)\pi(h, r, t) 随后通过 softmax 函数进行归一化。这类似于图注意力网络的机制,使得模型能够学习不同邻居对中心实体贡献的重要性。

如图 3(b) 所示,我们应用双向交互 (Bi-Interaction) 来聚合实体 ehe_h 和其邻居聚合信息 eNhe_{\mathcal{N}_h},其公式如下: fBiInteraction=LeakyReLU(W1(eh+eNh))+LeakyReLU(W2(eheNh)) f _ { \mathrm { Bi } -I n t e r a c t i o n } = \mathrm { LeakyReLU } \left( \mathbf { W } _ { 1 } \left( \mathbf { e } _ { h } + \mathbf { e } _ { \mathcal { N } _ { h } } \right) \right) + \mathrm { LeakyReLU } \left( \mathbf { W } _ { 2 } \left( \mathbf { e } _ { h } \odot \mathbf { e } _ { \mathcal { N } _ { h } } \right) \right) 其中,\odot 表示逐元素乘积 (element-wise product)。LeakyReLU 是激活函数。W1\mathbf{W}_1W2\mathbf{W}_2 是可训练的权重矩阵。这个 Bi-Interaction 模块能够同时捕获中心实体和其邻居信息的加和效应 (eh+eNh\mathbf{e}_h + \mathbf{e}_{\mathcal{N}_h}) 以及交互效应 (eheNh\mathbf{e}_h \odot \mathbf{e}_{\mathcal{N}_h})。

4.2.4. 预测 (Prediction)

经过多层信息传播后,我们获得了用户 uu 在每个传播层 ll 的表示 eu(1),,eu(l)e_u^{(1)}, \ldots, e_u^{(l)},以及物品 ii 在每个传播层 ll 的表示 ei(1),,ei(l)e_i^{(1)}, \ldots, e_i^{(l)}。 本文采用层聚合机制 (layer-aggregation mechanism) (Xu et al., 2018) 将每个迭代层的表示连接成一个统一的向量: eu=eu(0)eu(l),ei=ei(0)ei(l) \mathbf { e } _ { u } ^ { * } = \mathbf { e } _ { u } ^ { ( 0 ) } \rVert \cdots \rVert \mathbf { e } _ { u } ^ { ( l ) } , \quad \mathbf { e } _ { i } ^ { * } = \mathbf { e } _ { i } ^ { ( 0 ) } \rVert \cdots \rVert \mathbf { e } _ { i } ^ { ( l ) } 其中,\rVert 表示向量拼接 (concatenation) 操作。eu(0)\mathbf{e}_u^{(0)}ei(0)\mathbf{e}_i^{(0)} 分别表示用户和物品的初始嵌入。 接下来,将来自视觉模态的用户和物品表示与来自文本模态的用户和物品表示进行拼接,以获得最终的用户和物品表示: eu=euv()eut(),ei=eiv()eit() \mathbf { e } _ { u } = \mathbf { e } _ { u } ^ { v ( * ) } \rVert \mathbf { e } _ { u } ^ { t ( * ) } , \quad \mathbf { e } _ { i } = \mathbf { e } _ { i } ^ { v ( * ) } \rVert \mathbf { e } _ { i } ^ { t ( * ) } 这里,euv()\mathbf{e}_u^{v(*)}eut()\mathbf{e}_u^{t(*)} 分别表示通过视觉模态和文本模态融合后聚合得到的用户表示。eiv()\mathbf{e}_i^{v(*)}eit()\mathbf{e}_i^{t(*)} 同理。最终得到的 eu\mathbf{e}_uei\mathbf{e}_i 是融合了多模态和多层图结构信息的向量。 最终的预测得分可以通过计算用户和物品表示的内积得到,例如 y^(u,i)=euei\hat{y}(u, i) = \mathbf{e}_u^\top \mathbf{e}_i

4.2.5. 优化器 (Optimizer)

为了训练推荐模型,本文利用 贝叶斯个性化排序 (Bayesian Personalized Ranking, BPR) 损失来优化模型参数。BPR 损失的目标是使模型对用户喜欢的物品的预测得分高于用户不喜欢的物品的预测得分。 BPR 损失函数定义如下: LCF=(u,i)R+,(u,j)Rlnσ(y^(u,i)y^(u,j))+λθ22 \mathcal { L } _ { \mathrm { CF } } = \sum _ { ( u , i ) \in \mathcal { R } ^ { + } , ( u , j ) \in \mathcal { R } ^ { - } } - \ln \sigma ( \hat { y } ( u , i ) - \hat { y } ( u , j ) ) + \lambda \| \theta \| _ { 2 } ^ { 2 } 其中:

  • R+\mathcal{R}^+ 表示观察到的(正向)用户-物品交互对,即用户 uu 与物品 ii 之间存在交互(例如用户喜欢物品 ii)。

  • R\mathcal{R}^- 表示采样到的未观察到的(负向)用户-物品交互对,即用户 uu 与物品 jj 之间不存在交互(或被认为是用户不喜欢的物品 jj)。

  • y^(u,i)\hat{y}(u, i) 是模型预测的用户 uu 对物品 ii 的偏好得分。

  • σ()\sigma(\cdot)sigmoid 函数,将输入映射到 (0,1)(0, 1) 之间。

  • λ\lambda 是正则化系数,用于控制 L2 正则化项 θ22\|\theta\|_2^2 的强度,以防止过拟合。

  • θ\theta 代表所有可训练的模型参数。

    最终的总损失函数是 BPR 损失 (LCF\mathcal{L}_{\mathrm{CF}}) 和知识图谱嵌入损失 (LKG\mathcal{L}_{\mathrm{KG}}) 的结合: L=LKG+LCF \mathcal { L } = \mathcal { L } _ { \mathrm { K G } } + \mathcal { L } _ { \mathrm { CF } } 通过最小化这个总损失函数,模型能够同时学习高质量的知识图谱嵌入和准确的用户-物品偏好预测。

5. 实验设置

5.1. 数据集

实验使用了两个来自不同领域的真实世界数据集来评估 Multi-KG4Rec 的性能:

  1. MovieLens:
    • 来源: 基于 MovieLens-1M 数据集。
    • 特点: 包含用户 ID、物品 ID 和 1 到 5 的评分。
    • 处理方式: 评分 1 被标记为 1 (正样本),所有其他评分标记为 0 (负样本)。为了丰富多模态信息,作者根据 Zhao et al. (2019) 的方法构建了知识图谱,通过将数据集中的物品与 Freebase 中的实体建立连接。此外,从 IMDB 检索了对应的电影海报和文本描述,作为实体的视觉和文本多模态信息。
  2. Amazon-Books:
    • 来源: 来自全球最大电子商务网站之一的亚马逊图书评论数据集。

    • 处理方式: 过滤掉了交互次数少于 10 次的用户。多模态信息的收集方法与 MovieLens 数据集相同。

      以下是两个数据集的详细统计信息(原文 Table 1):

      Dataset #Interactions #Items #Users #Sparsity #Entities #Relations #Triplets
      MovieLens 834,268 3589 6040 96.15% 60,406 51 273,547
      Amazon-Books 332,834 18,932 24,047 99.92% 44,935 23 192,388

为什么选择这些数据集进行实验? 这两个数据集涵盖了电影和图书两个不同的领域,具有不同的物品数量、用户数量和稀疏性。MovieLens 相对稠密,而 Amazon-Books 更加稀疏。这种选择有助于验证模型在不同领域和不同数据稀疏程度下的泛化能力和鲁棒性。同时,这两个数据集都能够方便地关联外部知识库(如 Freebase)并获取多模态信息(海报/封面图、描述文本),符合 Multi-KG4Rec 对多模态知识图谱的需求。

5.2. 评估指标

为了衡量推荐序列的质量,论文使用了三个常用的评估指标,它们都是在推荐列表的 Top-k 范围内计算的。以下对每个指标进行详细解释:

  1. Recall@k (召回率@k)

    • 概念定义: Recall@k 衡量的是在模型推荐的 Top-k 物品列表中,实际用户感兴趣(或已交互)的物品所占的比例。它关注的是模型“找全”用户喜欢物品的能力,而不关注推荐列表中的顺序。
    • 数学公式: Recall@k=uURuTuuUTu \mathrm{Recall@k} = \frac{\sum_{u \in U} |R_u \cap T_u|}{\sum_{u \in U} |T_u|}
    • 符号解释:
      • UU: 参与评估的所有用户的集合。
      • RuR_u: 模型为用户 uu 推荐的 Top-k 物品集合。
      • TuT_u: 用户 uu 实际感兴趣(或已交互)的物品集合。
      • A|A|: 集合 AA 中元素的数量。
      • RuTu|R_u \cap T_u|: 用户 uu 的推荐列表中,既被推荐又被用户实际喜欢的物品数量。
      • uURuTu\sum_{u \in U} |R_u \cap T_u|: 所有用户在推荐列表中被正确推荐的喜欢物品的总数。
      • uUTu\sum_{u \in U} |T_u|: 所有用户实际喜欢的物品的总数。
  2. MRR@k (Mean Reciprocal Rank@k)

    • 概念定义: MRR@k 衡量的是第一个正确推荐物品(即用户实际喜欢的物品)在推荐列表中的排名倒数的平均值。它对排名靠前的正确推荐给予更高的分数,因此对推荐顺序敏感。如果第一个正确推荐的物品排名很高,MRR 值就高。
    • 数学公式: MRR@k=1UuU1ranku \mathrm{MRR@k} = \frac{1}{|U|} \sum_{u \in U} \frac{1}{\mathrm{rank}_u}
    • 符号解释:
      • UU: 参与评估的所有用户的集合。
      • U|U|: 用户的总数量。
      • ranku\mathrm{rank}_u: 对于用户 uu,其第一个正确推荐物品在推荐列表中的排名。如果用户 uu 的 Top-k 列表中没有正确推荐的物品,则 1ranku\frac{1}{\mathrm{rank}_u} 通常取 0。
  3. NDCG@k (Normalized Discounted Cumulative Gain@k)

    • 概念定义: NDCG@k 是一个综合考虑推荐相关性和排名位置的指标。它通过折损累积增益 (Discounted Cumulative Gain, DCG) 来衡量推荐列表的质量,并将其归一化,使得不同用户和不同查询之间的结果具有可比性。相关性更高的物品排名越靠前,NDCG 值越高。
    • 数学公式: DCG@k 的计算公式为: DCG@k=i=1k2reli1log2(i+1) \mathrm{DCG@k} = \sum_{i=1}^{k} \frac{2^{\mathrm{rel}_i} - 1}{\log_2(i+1)} IDCG@k (理想折损累积增益) 是最优推荐列表的 DCG@k 值。 NDCG@k=DCG@kIDCG@k \mathrm{NDCG@k} = \frac{\mathrm{DCG@k}}{\mathrm{IDCG@k}}
    • 符号解释:
      • kk: 推荐列表的长度。

      • reli\mathrm{rel}_i: 推荐列表中第 ii 个物品的相关性得分。在二分类场景(喜欢/不喜欢)中,通常设置为 1 (喜欢) 或 0 (不喜欢)。

      • log2(i+1)\log_2(i+1): 折损因子,使得排名靠后的物品对总得分的贡献减小。

      • DCG@k\mathrm{DCG@k}: 实际推荐列表的折损累积增益。

      • IDCG@k\mathrm{IDCG@k}: 理想情况下(所有用户喜欢的物品都排在最前面)的折损累积增益。

      • NDCG@k 的取值范围是 [0, 1],1 表示完美推荐。

        默认值: 实验中 kk 的默认值是 20。

5.3. 对比基线

为了全面评估 Multi-KG4Rec 模型的性能,论文将其与以下几类基线模型进行了比较:

  1. 协同过滤方法 (Collaborative Filtering methods):

    • SpectralCF (Zheng et al., 2018): Spectral collaborative filtering 是一种在频谱域空间中基于二部图的卷积模型。它利用频谱域丰富的连接信息来揭示用户-物品交互的深层联系,有效缓解冷启动问题。
    • ConvNCF (He et al., 2018): Neural Collaborative Filtering 的一个变体,通过逐元素乘积 (element-wise products) 来显式捕捉嵌入空间中维度间的配对关联。
  2. 知识图谱基方法 (Knowledge Graph-based approaches):

    • KGAT (Knowledge Graph Attention Network) (Wang, He et al., 2019): 该方法结合 TransR 和 GNN 来生成实体表示,并通过在协同 KG 上传播特征来编码高阶关系。
    • KGCN (Knowledge Graph Convolutional Networks) (Wang, Zhao et al., 2019): 该方法利用 GCN 和 KG 技术学习实体间的关系,并通过聚合固定数量的邻居来获取最终的向量表示。
    • CKE (Collaborative Knowledge Base Embedding) (Zhang et al., 2016): CKE 整合了结构化信息、文本数据和图像数据来提高推荐模型的质量。结构化信息通过 TransR 获取,而文本数据和图像数据分别通过堆叠去噪自编码器 (stacked denoising autoencoders) 和堆叠卷积自编码器 (stacked convolutional auto-encoders) 提取。
  3. 多模态知识图谱基方法 (Multimodal methods that incorporate knowledge graphs):

    • MKGAT (Multimodal Knowledge Graph Attention Network) (Sun et al., 2020): MKGAT 是多模态推荐模型领域的代表性方法之一,它提出了一种多模态图注意力机制来解决实体信息聚合和实体关系推理问题。

这些基线为什么具有代表性?

  • SpectralCFConvNCF 代表了经典的、基于深度学习的协同过滤方法,是推荐系统领域的基础模型。
  • KGATKGCN 是典型的利用知识图谱结构信息增强推荐的图神经网络模型,代表了 KG-based 方法的先进水平。
  • CKE 是一个较早但具有开创性的多模态知识图谱嵌入方法,展示了多模态信息对推荐的潜在价值。
  • MKGAT 是一个更先进的多模态知识图谱方法,尤其是基于实体的方法的代表,是直接与 Multi-KG4Rec 进行比较的关键模型。 通过与这些具有代表性的基线模型进行比较,可以全面评估 Multi-KG4Rec 在不同推荐范式下的性能表现,并突出其在多模态融合和知识图谱利用方面的优势。

5.4. 参数设置

  • 数据划分: 将所有交互数据按 8:1:1 的比例随机划分为训练集、验证集和测试集。
  • 参数初始化: 使用 Xavier 初始化器 (Xavier initializer) 初始化模型参数。
  • 优化器: 采用 Adam 优化器进行模型优化。
  • 批次大小 (Mini-batch sizes): 在集合 {1024, 5120, 10240} 中搜索。
  • 学习率 (Learning rates): 在集合 {0.0001, 0.0005, 0.001, 0.005, 0.01} 中搜索。
  • 正则化系数 λ\lambda 在集合 105,104,...,101{10^-5, 10^-4, ..., 10^-1} 中设置。
  • 视觉和文本实体特征:
    • 初始特征:使用 CLIP 模型的最后一层输出的 512 维特征。
    • 降维:通过带有 LeakyReLU 激活函数的非线性变换,将特征维度降至 64 维。
  • 多模态融合模块 (Multimodal fusion module):
    • 堆叠块数:3 个块。
    • 注意力头数:每个块包含 8 个注意力头。
  • 信息传播 (Information propagation):
    • 层数:3 层知识感知的图神经网络,用于编码高阶连接性。
    • 每层输出维度:{64, 32, 16}
  • 实现环境: 模型使用 PyTorch 实现,所有实验在一台配备 RTX 3090 GPU 的 Windows PC 上进行。

6. 实验结果与分析

6.1. 核心结果分析

6.1.1. 综合比较

以下是所有模型在 MovieLens 和 Amazon-Books 数据集上的性能比较结果 (原文 Table 2):

Models MovieLens Amazon-Books
Recall MRR NDCG Recall MRR NDCG
SpectralCF 0.2199 0.3714 0.2082 0.1327 0.0541 0.0602
ConvNCF 0.1815 0.3405 0.1794 0.0404 0.0148 0.0175
KGAT 0.2489 0.3941 0.2303 0.1431 0.0553 0.0702
KGCN 0.2268 0.3783 0.2165 0.1418 0.0528 0.0677
CKE 0.2217 0.3754 0.2128 0.1324 0.0491 0.0612
MKGAT 0.2513 0.3963 0.2311 0.1477 0.0560 0.0707
Multi-KG4Rec 0.2552 0.4077 0.2383 0.1498 0.0572 0.0727
Improv. 1.55% 2.88% 3.12% 1.42% 2.83% 2.14%

从表 2 中可以观察到以下关键发现:

  • Multi-KG4Rec 的卓越性能: Multi-KG4Rec 在 MovieLens 和 Amazon-Books 两个数据集上均持续表现最佳。与次优模型 MKGAT 相比,Multi-KG4Rec 在 MovieLens 上的 Recall@20 提升了 1.55%,MRR@20 提升了 2.88%,NDCG@20 提升了 3.12%;在 Amazon-Books 上分别提升了 1.42%、2.83% 和 2.14%。这验证了其多模态融合框架的有效性。
  • 多模态融合的重要性: MKGAT 是代表性的基于特征的多模态方法,而 Multi-KG4Rec 相较于 MKGAT 的显著提升,验证了细粒度模态融合的重要性。MKGAT 能够整合来自文本、图像和交互的各种信息,提供更丰富的用户-物品交互视图,这对于生成准确和个性化的推荐至关重要。
  • KG-based 方法的优势: 在所有对比方法中,基于知识图谱的方法(如 CKE, KGAT, KGCN, MKGAT, Multi-KG4Rec)在两个数据集上均优于基于协同过滤的方法(SpectralCF, ConvNCF)。这表明知识图谱在帮助图神经网络编码属性实体之间的关系推理方面非常有用。多媒体信息作为辅助特征或节点,不仅缓解了数据稀疏性和冷启动问题,还增强了模型理解用户与物品之间关系的能力,从而提高了推荐结果的质量。
  • KGAT 和 KGCN 的比较: KGAT 优于 KGCN。尽管 KGCN 采用了更广泛的实体感受野来聚合异构和高阶邻域信息,但与 KGAT 相比,扩展感受野的方法可能引入了噪音。
  • CKE 的表现: CKE 在所有 KG-based 方法中表现最差。尽管 CKE 在模型架构上与 Multi-KG4Rec 有相似之处(都将文本和图像分为独立模态),但 CKE 未使用 GNN 聚合高阶邻居信息,因此缺乏对不同模态之间交互的足够关注。这进一步突显了 Multi-KG4RecGNN 和细粒度融合模块的有效性。

6.1.2. 模态有效性分析

为了评估不同模态的有效性,论文比较了 MKGATMulti-KG4Rec 在 MovieLens 数据集上的结果。 以下是不同模态对 MovieLens 数据集性能影响的实验结果 (原文 Table 3):

Models MKGAT Multi-KG4Rec
Recall MRR NDCG Recall MRR NDCG
w/o t&v 0.2453 0.3907 0.2251 0.2489 0.3941 0.2303
w/o v 0.2477 0.3949 0.2272 0.2518 0.4014 0.2327
Improv. 1.00% 1.07% 0.93% 1.16% 1.85% 1.04%
w/o t 0.2479 0.3951 0.2285 0.2531 0.4016 0.2340
Improv. 1.06% 1.13% 1.51% 1.69% 1.90% 1.61%
Multi-KG4Rec 0.2488 0.3963 0.2311 0.2542 0.4033 0.2371
Improv. 1.42% 1.43% 2.67% 2.13% 2.33% 2.95%

主要发现:

  • 多模态信息的有效性: 包含多模态特征的模型(Multi-KG4Rec 及其变体)相比仅依赖单一模态或禁用多模态融合模块 (w/o t&v) 的模型表现更优。这表明多模态信息提供了丰富多样的物品特征,从不同角度增强了模型理解用户意图的能力。
  • 视觉模态的相对优势: 在单一模态条件下,视觉模态 (w/o t,即只包含视觉信息) 的效果优于文本模态 (w/o v,即只包含文本信息)。这与大多数多模态模型的结论一致,即图像通常包含比文本更多的信息。这意味着在用户的最终决策中,视觉模态可能具有更高的权重。这启发了未来探索更多模态(如视频、网页、表格)来提供更多上下文信息以生成用户画像。
  • Multi-KG4Rec 的强大表达能力:MKGAT 相比,Multi-KG4Rec 取得了更好的性能,这证明 Multi-KG4Rec 在感知图像和文本之间隐式关系方面具有强大的表达能力。这种性能提升归因于其多模态融合模块,该模块有效地以细粒度级别提取跨模态信息。

6.1.3. 消融研究

为了进一步分析 Bi-Transformer 的有效性,论文修改了双向注意力机制,创建了两个变体:

  • BiTranst2vBi-Trans_{t2v}:只激活文本到图像的注意力。

  • BiTransv2tBi-Trans_{v2t}:只激活图像到文本的注意力。

  • w/o t&v:多模态融合模块被禁用(与 Table 3 中的含义一致)。

    以下是关于多模态融合模块的消融研究结果 (原文 Table 4):

    Dataset MovieLens Amazon-Books
    Recall MRR NDCG Recall MRR NDCG
    w/o t&v 0.2453 0.3907 0.2251 0.1473 0.0566 0.0716
    Bi-Transt2v 0.2437 0.3917 0.2244 0.1428 0.0514 0.0674
    Bi-Transv2t 0.2444 0.3944 0.2227 0.1436 0.0521 0.0662
    Multi-KG4Rec 0.2552 0.4077 0.2383 0.1498 0.0572 0.0727

主要发现:

  • 多模态融合的整体有效性: Multi-KG4RecRecall, MRR, 和 NDCG 各项指标上均优于 w/o t&v(禁用多模态融合模块)的模型。这进一步证实了集成多模态信息能够增强模型的表达能力。
  • 双向注意力的必要性: 无论是禁用文本到视觉的注意力 (BiTranst2vBi-Trans_{t2v}) 还是禁用视觉到文本的注意力 (BiTransv2tBi-Trans_{v2t}),模型性能均有所下降。这表明单向 Transformer 仅考虑单侧相关性,可能导致与图像特征相关的文本信息或与文本特征相关的图像信息的丢失。
  • 双向注意力机制的优势: 相反,双向 Transformer 在多模态任务中具有显著优势。它首先独立提取每个模态中的重要特征,然后通过跨模态注意力模块调整这些重要特征的权重。这种机制增强了模态之间的交互,从而带来更好的性能。此外,双向 Transformer 对单模态中的噪声数据或不相关信息表现出更强的鲁棒性,从而提高了整体性能。

6.2. 案例研究

为了验证模态对用户偏好影响的重要性,论文从 MovieLens 和 Amazon-Books 数据集中各选择了一名用户,并收集了他们交互过的 10 件物品。利用注意力机制计算用户-物品对之间的相关性得分。相关性得分越高,表示当前物品模态对用户偏好的影响越大。结果可视化如图 4 所示。

该图像是多模态偏好示意图,展示了两用户u_3238和u_927在视觉模态和文本模态下的实体及偏好权重关系,部分视觉节点对应影视海报,文本节点附带关键词标签,反映了多模态信息在用户偏好捕捉中的细粒度交互。 该图像是多模态偏好示意图,展示了两用户u_3238和u_927在视觉模态和文本模态下的实体及偏好权重关系,部分视觉节点对应影视海报,文本节点附带关键词标签,反映了多模态信息在用户偏好捕捉中的细粒度交互。

图 4. 用户 u3238u_{3238}u927u_{927} 的注意力分布示意图,展示了他们对视觉和文本模态的不同偏好。其中,节点周围的颜色(红色代表视觉,蓝色代表文本)和大小可能代表了该模态在用户偏好中的权重和强度。图中显示了具体的电影海报和图书描述关键词,以直观展示用户偏好。

主要发现:

  • 用户模态偏好的多样性: 图 4 表明不同用户对视觉和文本模态表现出不同的偏好。例如,MovieLens 数据集中的用户 u3238u_{3238} 对视觉模态的得分显著高于文本模态,而用户 u927u_{927} 则表现出相反的趋势(对文本模态偏好更高)。
  • 细粒度模态融合的合理性: 这种差异性验证了在细粒度层面讨论模态融合的合理性和必要性。用户 u3238u_{3238} 可能在选择电影时更看重电影海报而非文本描述,而 u927u_{927} (来自图书销售网站)则可能偏好文本描述。
  • 偏好内容的可视化: 进一步可视化高注意力得分的多模态内容发现,用户 u3238u_{3238} 偏爱带有恐怖元素的电影海报,而用户 u927u_{927} 则倾向于浪漫主题的图书。这说明模型能够捕捉到用户在不同模态上的具体偏好内容。

7. 总结与思考

7.1. 结论总结

本研究提出了一种基于知识图谱的个性化推荐多模态融合框架 Multi-KG4Rec。该框架通过创新的 Bi-Transformer 架构,有效地学习文本和视觉模态之间潜在的关系和交互,实现了细粒度的模态融合。随后,利用图神经网络 (GNN) 层传播高阶信息,从而在图结构中捕捉更深层次的连接。在 MovieLens 和 Amazon-Books 两个真实世界数据集上进行的广泛实验验证了 Multi-KG4Rec 模型的有效性,证明其在处理多模态信息和知识图谱集成方面的优越性能,特别是在捕捉用户个性化模态偏好方面。

7.2. 局限性与未来工作

论文作者指出了以下未来可能的研究方向:

  • 探索额外模态: 作者认为网页 (web pages) 可以作为额外的模态,为物品提供更丰富的上下文信息。目前在该领域的研究相对较少。
  • 数据集收集与模型设计: 未来工作旨在收集此类网页数据集,并设计相应的模型来验证将网页信息整合到推荐系统中的设想。

7.3. 个人启发与批判

  • 启发:

    1. 预训练模型与图结构数据的结合: Multi-KG4Rec 有效地将 CLIP 等强大的预训练多模态模型与图神经网络结合起来,解决了它们之间数据结构不兼容的问题。这为未来在图结构任务中利用更多预训练模型提供了新的思路。
    2. 细粒度模态偏好的捕捉: 案例研究清晰地展示了不同用户对不同模态(视觉或文本)有独特的偏好。这强调了推荐系统不仅要融合多模态信息,更要学习和适应用户对这些模态的个性化权重和注意力,这对于提升推荐的精准度和解释性至关重要。
    3. 双向跨模态注意力的有效性: 消融实验证明了双向注意力机制在多模态融合中的关键作用,它能更全面地捕捉模态间的相互依赖,而非简单的单向影响。
    4. 统一架构的价值: 论文提出的架构通过将 MKG 划分为单模态图,有效地规避了基于实体方法中物品多模态节点稀疏性的问题,提供了一个更具通用性的 MKG 构建范式。
  • 批判与潜在改进:

    1. 计算复杂度: Transformer 和多头注意力机制通常计算成本较高,尤其是在处理高阶邻居和长序列时。尽管论文提到了优化器和 GPU 环境,但对于大规模工业级推荐系统,其实时性能可能仍是一个挑战。未来的工作可以探索更高效的 Transformer 变体或近似注意力机制。

    2. 可解释性: 尽管案例研究展示了用户对特定模态的偏好,但模型内部如何根据这些偏好进行决策,以及不同模态信息如何在 Bi-TransformerGNN 中交互并最终影响推荐,仍有待更深入的可解释性分析。例如,可以通过可视化注意力权重来揭示具体哪些视觉或文本元素对用户决策产生了影响。

    3. 冷启动问题: 论文提到 MKG 和多媒体信息有助于缓解冷启动问题。虽然 CLIP 能提供丰富的初始嵌入,但对于全新的物品或用户,在 GNN 中获取足够的高阶邻居信息可能仍然是一个挑战。可以考虑引入元学习 (meta-learning) 或零样本 (zero-shot) 推荐技术来进一步增强冷启动场景下的性能。

    4. 模态间噪声和冗余: 尽管双向注意力有助于处理噪声,但不同模态之间可能存在冗余信息或冲突信息。如何在融合过程中智能地处理这些冗余或冲突,避免负面影响,是值得进一步探讨的方向。例如,可以引入模态门控机制或信息熵分析来动态调整模态贡献。

    5. LLM 特征的局限性: CLIP 在图像-文本对齐方面表现出色,但其特征可能不完全捕捉所有下游推荐任务所需的细微语义。如果未来的 LLM 能够直接理解和生成更适合推荐任务的上下文感知嵌入,可能会进一步提升性能。

    6. 通用性评估: 实验在两个数据集上进行,虽然涵盖了不同领域,但更多样化的数据集(例如包含视频、音频等更多模态的数据集)将有助于更全面地评估框架的通用性和扩展性。

      总体而言,Multi-KG4Rec 提供了一个扎实且创新的多模态融合框架,为个性化推荐领域贡献了重要的进展,同时也为未来的研究提供了明确的方向。

相似论文推荐

基于向量语义检索推荐的相关论文。

暂时没有找到相似论文。