AiPaper
论文状态:已完成

Entity Recommendation via Knowledge Graph: A Heterogeneous Networking Embedding Approach

原文链接
价格:0.10
已有 6 人读过
本分析由 AI 生成,可能不完全准确,请以原文为准。

TL;DR 精炼摘要

本文提出协同知识库嵌入方法CKE,利用知识图谱中的结构化、文本和视觉信息,通过TransR异构网络嵌入与深度自编码器提取多模态语义表示,联合优化推荐系统。实验证明该方法显著优于传统协同过滤与多种融合模型。

摘要

Collaborative Knowledge Base Embedding for Recommender Systems Fuzheng Zhang † , Nicholas Jing Yuan † , Defu Lian ‡ , Xing Xie † ,Wei-Ying Ma † † Microsoft Research ‡ Big Data Research Center, University of Electronic Science and Technology of China {fuzzhang,nicholas.yuan,xingx,wyma}@microsoft.com, dove.ustc@gmail.com ABSTRACT Among different recommendation techniques, collaborative fil- tering usually suffer from limited performance due to the sparsity of user-item interactions. To address the issues, auxiliary informa- tion is usually used to boost the performance. Due to the rapid collection of information on the web, the knowledge base provides heterogeneous information including both structured and unstruc- tured data with different semantics, which can be consumed by var- ious applications. In this paper, we investigate how to leverage the heterogeneous information in a knowledge base to improve the quality of recommender systems. First, by exploiting the knowl- edge base, we design three components to extract items’ semantic representations from structural content, textual content and visu- al content, respectively. To be specific, we adopt a heterogeneous network e

思维导图

论文精读

中文精读

1. 论文基本信息

1.1. 标题

协同知识库嵌入推荐系统 (Collaborative Knowledge Base Embedding for Recommender Systems)

1.2. 作者

  • Fuzheng Zhang, Nicholas Jing Yuan, Xing Xie, Wei-Ying Ma: 均来自微软研究院 (Microsoft Research)。

  • Defu Lian: 来自电子科技大学大数据研究中心 (Big Data Research Center, University of Electronic Science and Technology of China)。

    作者团队主要来自微软研究院,这是全球顶尖的计算机科学研究机构之一,在信息检索、数据挖掘和人工智能领域享有盛誉。这表明该研究具有坚实的工业界背景和应用前景。

1.3. 发表期刊/会议

论文发表于 KDD 2016。KDD (ACM SIGKDD Conference on Knowledge Discovery and Data Mining) 是数据挖掘、知识发现领域的顶级国际会议,被中国计算机学会 (CCF) 推荐列表评为 A 类会议。在 KDD 上发表论文通常意味着该研究在理论创新或实践应用上具有很高的水平和影响力。

1.4. 发表年份

2016年

1.5. 摘要

传统的协同过滤推荐系统因用户-物品交互数据的稀疏性而性能受限。为解决此问题,论文提出利用知识库中丰富的异构信息来提升推荐质量。作者设计了一个名为协同知识库嵌入 (Collaborative Knowledge Base Embedding, CKE) 的统一框架。该框架包含三个核心组件,分别从知识库中提取物品的结构化内容文本内容视觉内容的语义表示。具体而言:

  1. 采用异构网络嵌入方法 TransR 来学习物品的结构化表示
  2. 采用两种深度学习模型——堆叠去噪自编码器 (stacked denoising auto-encoders)堆叠卷积自编码器 (stacked convolutional auto-encoders)——来分别学习物品的文本表示视觉表示
  3. 最终,CKE 框架将协同过滤中的隐式反馈学习与知识库中的多模态语义表示学习联合起来进行端到端优化。在两个真实世界数据集上的实验表明,该方法显著优于多种当时最先进的 (state-of-the-art) 推荐方法。

1.6. 原文链接

/files/papers/6901d1b584ecf5fffe471809/paper.pdf (已正式发表)


2. 整体概括

2.1. 研究背景与动机

2.1.1. 核心问题

推荐系统的核心任务是连接用户与物品,但其基石——协同过滤 (Collaborative Filtering, CF)——面临两大经典难题:

  1. 数据稀疏性 (Data Sparsity): 在现实场景(如电商、电影网站)中,物品数量远超用户个体能够消费或评价的数量。这导致用户-物品交互矩阵极其稀疏,使得算法难以准确地学习用户偏好和物品特征。
  2. 冷启动问题 (Cold Start Problem): 对于新用户或新物品,由于缺乏历史交互数据,协同过滤模型无法为其生成有效的推荐。

2.1.2. 现有挑战与空白 (Gap)

为了缓解上述问题,研究者们提出了混合推荐系统 (hybrid recommender systems),即引入物品的辅助信息 (auxiliary information),如物品的属性、描述等。随着知识库 (Knowledge Base, KB)(如 DBpedia, YAGO, Google Knowledge Graph)的兴起,一个包含海量实体、属性和关系的结构化知识网络为推荐系统提供了前所未有的丰富信息源。

然而,在当时(2016年),利用知识库的研究存在以下局限性:

  • 信息利用不充分: 大多数研究仅利用了知识库的网络结构信息(即实体间的关系),而忽略了同样重要的非结构化信息,如描述物品的文本和展示物品外观的图片
  • 依赖人工特征工程: 从知识库中提取有效特征通常需要繁琐且低效的人工特征工程 (feature engineering),例如手动设计元路径 (meta-path) 等,这限制了模型的可扩展性和泛化能力。

2.1.3. 创新思路

本文的切入点是:我们能否构建一个统一的框架,自动地、全面地从知识库中学习物品的多维度、异构表示,并将其与协同过滤无缝结合,从而根本性地解决数据稀疏性问题?

论文的核心思路是,一个物品的完整画像应该由其在知识网络中的结构定位文本描述视觉外观共同定义。因此,作者提出分别对这三种模态的信息进行嵌入 (embedding),将它们转换为低维度的、密集的语义向量,然后在同一个模型中进行联合学习。

2.2. 核心贡献/主要发现

  1. 首次全面利用异构知识: 这是学术界首次尝试将知识库中的结构、文本、视觉三种异构信息同时整合到推荐系统中的工作。

  2. 提出 CKE 统一框架: 设计了一个名为 CKE (Collaborative Knowledge Base Embedding) 的端到端框架。该框架能够联合学习 (jointly learn) 用户的偏好表示(来自协同过滤)和物品的多模态知识表示(来自知识库),使得两种信息能够相互补充和增强。

  3. 自动化特征学习: 采用先进的网络嵌入深度学习技术,实现了从原始知识数据中自动学习语义表示,摆脱了对人工特征工程的依赖。

  4. 显著的性能提升: 实验证明,CKE 在电影和图书推荐两个真实场景中,性能均显著优于多种主流和最先进的基线方法,验证了其全面利用异构知识的有效性。


3. 预备知识与相关工作

3.1. 基础概念

3.1.1. 协同过滤 (Collaborative Filtering, CF)

协同过滤是推荐系统中最经典、应用最广泛的技术之一。其核心思想是“物以类聚,人以群分”。它主要分为两类:

  • 基于用户的协同过滤 (User-based CF): 找到与目标用户兴趣相似的用户群体,然后将这些相似用户喜欢、但目标用户尚未接触过的物品推荐给他。

  • 基于物品的协同过滤 (Item-based CF): 计算物品之间的相似度,然后向用户推荐与他们过去喜欢的物品相似的其他物品。

    在实际应用中,基于模型的协同过滤(如矩阵分解 (Matrix Factorization))更为流行。它将用户和物品都映射到同一个低维度的潜在因子空间 (latent factor space),通过学习到的用户向量和物品向量的点积来预测用户对物品的偏好。本文所采用的贝叶斯个性化排序 (Bayesian Personalized Ranking, BPR) 就是一种先进的基于模型的协同过滤方法。

3.1.2. 知识库 (Knowledge Base, KB)

知识库是一个用于知识管理的大型结构化数据库。它通常以图 (graph) 的形式存储信息,图中的节点代表实体 (entities)(如电影《泰坦尼克号》、演员“莱昂纳多·迪卡普ריο”),边代表实体间的关系 (relations)(如“主演”)。最基本的信息单元是三元组 (triple),形式为 (头实体, 关系, 尾实体),例如 (莱昂纳多·迪卡普ריο, 主演, 泰坦尼克号)

3.1.3. 嵌入 (Embedding)

嵌入是一种将离散的、高维的符号表示(如单词、物品ID、知识库实体)转换为连续的、低维的、密集的向量表示 (vector representation) 的技术。这种向量能够捕捉到符号背后的语义信息。例如,在词嵌入中,“国王”和“女王”的向量在空间中的位置会很接近。在本文中,知识库中的每个实体、关系、甚至物品的文本和图像都会被“嵌入”成一个向量。

3.1.4. 自编码器 (Autoencoder, AE)

自编码器是一种无监督的神经网络模型,用于学习数据的有效编码。其结构包含两部分:

  • 编码器 (Encoder): 将输入数据压缩成一个低维的潜在表示(即“编码”或“嵌入”)。

  • 解码器 (Decoder): 尝试从这个低维的潜在表示中重构出原始的输入数据。

    通过最小化重构误差 (reconstruction error) 进行训练,自编码器被迫学习到数据中最具代表性的特征。本文使用了两种高级的自编码器变体:

  • 堆叠去噪自编码器 (Stacked Denoising Autoencoder, SDAE): 通过堆叠多个去噪自编码器构成深度网络。其特点是,输入是被噪声破坏的原始数据,而模型的目标是重构出干净的原始数据。这使得模型能学习到更鲁棒的特征。

  • 堆叠卷积自编码器 (Stacked Convolutional Autoencoder, SCAE): 将传统自编码器中的全连接层替换为卷积层 (convolutional layers)。由于卷积操作能够有效捕捉图像等数据的空间局部性 (spatial locality),它特别适合处理视觉信息。

3.2. 前人工作

3.2.1. 知识图谱嵌入 (Knowledge Graph Embedding)

为了在知识库(也称知识图谱)上进行计算,需要将其中的实体和关系也进行嵌入。

  • TransE: 是最经典的知识图谱嵌入模型之一。它将关系视为实体向量之间的平移操作。对于一个正确的三元组 (h, r, t),TransE 希望头实体向量 h\mathbf{h} 加上关系向量 r\mathbf{r} 后,在向量空间中能够约等于尾实体向量 t\mathbf{t}。其能量函数(距离)为: fr(h,t)=h+rt f_r(h, t) = ||\mathbf{h} + \mathbf{r} - \mathbf{t}|| ||\cdot|| 表示向量的范数(如L1或L2范数)。TransE 的思想简洁,但难以处理复杂的一对多 (1-to-N)多对一 (N-to-1)多对多 (N-to-N) 关系。
  • TransR: 是对 TransE 的改进,也是本文采用的方法。TransR 认为不同的关系应该在不同的语义空间中进行建模。因此,它为每个关系 rr 引入一个关系特定的投影矩阵 Mr\mathbf{M}_r。在计算时,头实体和尾实体向量首先通过 Mr\mathbf{M}_r 投影到该关系对应的空间中,然后再进行平移操作。这种设计使得模型能够更好地区分实体在不同关系下的不同语义,从而更有效地处理复杂关系。

3.2.2. 基于知识库的推荐

在本文之前,已有工作尝试利用知识库辅助推荐。

  • 基于元路径的方法 (Meta-path based):PER,将知识库视为一个异构信息网络,通过预先定义好的元路径(例如:“电影-导演-电影”或“电影-演员-电影”)来抽取用户和物品之间的连接特征。这种方法的缺点是高度依赖人工设计的元路径,难以发现隐含的复杂关联。
  • 基于图结构的方法:PRP,利用类似 PageRank 的算法在知识图谱上传播用户的偏好信息。这类方法通常只利用图的拓扑结构,忽略了实体和关系的语义信息。

3.3. 技术演进

推荐系统技术演进的脉络大致如下: 早期协同过滤 -> 矩阵分解 -> 引入辅助信息的混合模型 -> 利用知识库结构信息 -> 本文 (CKE):全面利用知识库异构信息(结构、文本、视觉)并自动化学习

本文处在一个关键的节点上,它推动了基于知识库的推荐从仅利用结构信息依赖人工特征的阶段,迈向了全面利用多模态信息端到端深度学习的新阶段。

3.4. 差异化分析

与之前的工作相比,本文的核心差异和创新点在于:

  • 信息的全面性: CKE 是第一个同时处理结构、文本、视觉三种模态知识的模型,而之前的工作大多只关注结构信息。

  • 学习的自动化: CKE 使用 TransR深度自编码器自动学习特征表示,而之前的方法(如 PER)严重依赖人工设计的特征。

  • 框架的统一性: CKE 将知识表示学习和协同过滤置于一个联合优化的框架中。这意味着知识库的学习过程会直接受到推荐任务目标的指导,从而学到对推荐最有利的表示;同时,更丰富的物品表示也能反过来提升协同过滤的效果。这是一个双向增强的过程,优于先学习知识表示再用于推荐的两阶段 (two-stage) 方法。


4. 方法论

4.1. 方法原理

CKE 的核心思想是,一个物品 jj 的最终潜在表示 ej\mathbf{e}_j 应该由四部分共同构成:

  1. 一个纯粹的协同过滤潜在向量 ηj\mathbf{\eta}_j(捕捉交互数据中的隐式信号)。

  2. 来自知识库的结构化表示 vj\mathbf{v}_j(捕捉其在知识图谱中的位置和关系)。

  3. 来自知识库的文本表示 XLt2,j\mathbf{X}_{\frac{L_t}{2}, j*}(捕捉其文字描述中的语义)。

  4. 来自知识库的视觉表示 ZLv2,j\mathbf{Z}_{\frac{L_v}{2}, j*}(捕捉其图片中的视觉特征)。

    通过将这四部分向量相加得到最终的物品表示,CKE 构建了一座桥梁,将用户偏好信息与多模态的知识信息紧密地联系在一起。整个模型通过一个统一的联合学习 (joint learning) 框架进行端到端的优化。

下图(原文 Figure 2)展示了 CKE 框架的整体流程:

该图像是论文中的示意图,展示了基于知识库嵌入的协同联合学习框架。图中通过结构化、文本和视觉三种知识表示,结合贝叶斯TransR、SDAE和SCAE方法,提取商品的异构语义向量,最终整合用户和物品潜在向量以提升推荐性能。 该图像是论文中的示意图,展示了基于知识库嵌入的协同联合学习框架。图中通过结构化、文本和视觉三种知识表示,结合贝叶斯TransR、SDAE和SCAE方法,提取商品的异构语义向量,最终整合用户和物品潜在向量以提升推荐性能。

4.2. 核心方法详解 (逐层深入)

CKE 的学习过程分为两个主要部分:知识库嵌入协同联合学习

4.2.1. 知识库嵌入 (Knowledge Base Embedding)

此步骤负责从知识库的三种异构数据中分别为物品提取语义表示。

A. 结构化嵌入 (Structural Embedding)

为了捕捉物品实体及其相关实体(如导演、演员、类型)在知识图谱中的结构信息,CKE 采用了 TransR 模型的一个贝叶斯版本 (Bayesian TransR)。

  • 基本原理: TransR 的核心思想是为每个关系 rr 学习一个投影矩阵 MrRk×d\mathbf{M}_r \in \mathbb{R}^{k \times d},将 kk 维的实体向量 vh,vt\mathbf{v}_h, \mathbf{v}_t 投影到 dd 维的关系向量 r\mathbf{r} 所在的空间中。

  • 投影过程: 投影后的实体向量计算如下: vhr=vhMr,vtr=vtMr \mathbf{v}_h^r = \mathbf{v}_h \mathbf{M}_r, \quad \mathbf{v}_t^r = \mathbf{v}_t \mathbf{M}_r 其中,vh,vt\mathbf{v}_h, \mathbf{v}_t 分别是头实体和尾实体的原始嵌入向量,vhr,vtr\mathbf{v}_h^r, \mathbf{v}_t^r 是它们在关系 rr 空间中的投影向量。

  • 评分函数: 在关系空间中,TransR 期望投影后的头实体向量 vhr\mathbf{v}_h^r 加上关系向量 r\mathbf{r} 能逼近投影后的尾实体向量 vtr\mathbf{v}_t^r。其评分函数(距离)定义为: fr(vh,vt)=vhr+rvtr22 f_r(v_h, v_t) = ||\mathbf{v}_h^r + \mathbf{r} - \mathbf{v}_t^r||_2^2 这个值越小,表示三元组 (vh,r,vt)(v_h, r, v_t) 成立的可能性越大。

  • 学习目标: 学习的目标是让正确三元组的得分低于错误(损坏的)三元组的得分。对于每个物品实体 jj,最终学到的向量 vj\mathbf{v}_j 就是它的结构化嵌入。

    下图(原文 Figure 3)直观地展示了 TransR 的投影和平移过程:

    Figure 3: Illustration of TransR for structural embedding 该图像是图示,展示了原文中图3所示的TransR结构嵌入方法。图中分为实体空间和关系空间,通过矩阵MrM_r将实体嵌入映射到关系空间,红色箭头表示关系rr从头实体向尾实体的转换。

    B. 文本嵌入 (Textual Embedding)

为了从物品的文本描述(如电影情节、书籍简介)中提取语义,CKE 使用了贝叶斯堆叠去噪自编码器 (Bayesian SDAE)

  • 输入: 文本首先被转换成词袋 (bag-of-words) 向量。这是一个高维稀疏向量,每一维对应词典中的一个词,其值为该词在文本中出现的次数。

  • 过程:

    1. 加噪: 将原始的词袋向量 XLt\mathbf{X}_{L_t} 随机地将其中的一些元素置为0,得到一个损坏的输入 X0\mathbf{X}_0
    2. 编码: X0\mathbf{X}_0 经过多层神经网络(编码器)的非线性变换,被逐步压缩成一个低维、密集的向量。中间层的输出即为文本的嵌入向量。
    3. 解码: 这个低维向量再经过多层神经网络(解码器)的变换,目标是重构出未被损坏的原始词袋向量 XLt\mathbf{X}_{L_t}
  • 输出: 对于物品 jj,其文本嵌入就是SDAE网络中间隐藏层的输出向量 XLt2,j\mathbf{X}_{\frac{L_t}{2}, j*}

    下图(原文 Figure 4)展示了一个6层SDAE的结构:

    Figure 4: Ilustration of a 6-layer SDAE for textual embedding 该图像是图示,展示了用于文本嵌入的6层堆叠去噪自动编码器(SDAE)结构,输入为被破坏的文档,输出为还原的干净文档,中间通过多层隐藏层提取文本嵌入向量。

    C. 视觉嵌入 (Visual Embedding)

为了从物品的图像(如电影海报、书籍封面)中提取特征,CKE 使用了贝യെസ്堆叠卷积自编码器 (Bayesian SCAE)

  • 原理: SCAE 与 SDAE 结构类似,但其核心组件是卷积层反卷积层 (deconvolutional layers),这使其特别擅长处理具有空间结构的图像数据。

  • 过程:

    1. 加噪: 原始图像 ZLv\mathbf{Z}_{L_v} 被加入高斯噪声,得到损坏的输入 Z0\mathbf{Z}_0
    2. 编码: Z0\mathbf{Z}_0 经过多个卷积层,图像的尺寸逐渐变小,而通道数(特征图 feature maps 的数量)逐渐增多,最终被一个全连接层映射为一个低维的视觉嵌入向量。
    3. 解码: 该视觉嵌入向量经过一个全连接层和多个反卷积层,逐步放大尺寸,最终目标是重构出干净的原始图像 ZLv\mathbf{Z}_{L_v}
  • 卷积层操作: 卷积层的映射公式为: Zl=σ(QlZl1+cl) \mathbf{Z}_l = \sigma(\mathbf{Q}_l * \mathbf{Z}_{l-1} + \mathbf{c}_l)

    • Zl1,Zl\mathbf{Z}_{l-1}, \mathbf{Z}_l: 分别是第 l-1 层和第 ll 层的输出(特征图)。
    • Ql\mathbf{Q}_l: 第 ll 层的卷积核(权重)。
    • cl\mathbf{c}_l: 第 ll 层的偏置项。
    • *: 表示卷积操作。
    • σ\sigma: 表示激活函数(如 ReLU)。
  • 输出: 对于物品 jj,其视觉嵌入就是SCAE网络中间隐藏层的输出向量 ZLv2,j\mathbf{Z}_{\frac{L_v}{2}, j*}

    下图(原文 Figure 5)展示了一个6层SCAE的结构:

    Figure 5: Ilustration of a 6-layer SCAE for visual embedding 该图像是论文中图5的示意图,展示了用于视觉嵌入的6层堆叠卷积去噪自编码器(SCAE)的结构,包括多个卷积层和全连接层,输入为受损图像,输出为重建的干净图像,中间获得视觉嵌入向量。

4.2.2. 协同联合学习 (Collaborative Joint Learning)

此步骤将上述三种知识嵌入与协同过滤模型整合到一个统一的框架中进行端到端优化。

  • 基础模型: CKE 采用了贝叶斯个性化排序 (Bayesian Personalized Ranking, BPR) 作为协同过滤的基础。BPR 是一种针对隐式反馈 (implicit feedback)(如点击、购买、观看,而不是显式的评分)的推荐算法。它的核心思想是,对于一个用户,他交互过的物品的排名应该高于他未交互过的物品。
  • 物品表示的重构: 这是CKE框架的核心连接点。一个物品 jj 的最终潜在表示 ej\mathbf{e}_j 被定义为其四个组成部分的向量和ej=ηj+vj+XLt2,j+ZLv2,j \mathbf{e}_j = \mathbf{\eta}_j + \mathbf{v}_j + \mathbf{X}_{\frac{L_t}{2}, j*} + \mathbf{Z}_{\frac{L_v}{2}, j*}
    • ej\mathbf{e}_j: 物品 jj 的最终综合嵌入向量。
    • ηj\mathbf{\eta}_j: 物品 jj 在协同过滤中自身的偏移向量,捕捉交互数据中无法被知识库解释的隐式特征。
    • vj\mathbf{v}_j: 物品 jj 的结构化嵌入。
    • XLt2,j\mathbf{X}_{\frac{L_t}{2}, j*}: 物品 jj 的文本嵌入。
    • ZLv2,j\mathbf{Z}_{\frac{L_v}{2}, j*}: 物品 jj 的视觉嵌入。
  • 偏好概率: 用户 ii 对物品 jj 的偏好得分由用户向量 ui\mathbf{u}_i 和物品综合向量 ej\mathbf{e}_j 的点积 uiTej\mathbf{u}_i^T \mathbf{e}_j 给出。根据 BPR,用户 ii 更偏好物品 jj 而非物品 jj' 的概率由 sigmoid 函数建模: p(j>ijΘ)=σ(uiTejuiTej) p(j >_i j' | \Theta) = \sigma(\mathbf{u}_i^T \mathbf{e}_j - \mathbf{u}_i^T \mathbf{e}_{j'}) 其中 Θ\Theta 代表所有模型参数,σ(x)=1/(1+ex)\sigma(x) = 1 / (1 + e^{-x})
  • 统一的目标函数: 最终,CKE 通过最大化一个统一的对数后验概率来进行学习。这个目标函数整合了所有部分。以下是原文中 Equation (7) 的完整形式,它是整个框架需要最大化的对数似然函数 L\mathcal{L}L=(i,j,j)Dlnσ(uiTejuiTej)+(vh,r,vt,vt)Slnσ(vhMr+rvtMr22vhMr+rvtMr22)λZ2l{Lv2,Lv2+1}σ(Zl1Ql+cl)Zl22λU2iui22λZ2l{Lv2,Lv2+1}σ(Zl1Ql+cl)Zl22λv2vv2212l(λWWl22+λbbl22)12l(λQQl22+λccl22)λI2jejvjXLt2,jZLv2,j22λr2rr22λM2rMr22 \begin{aligned} \mathcal{L} = & \sum_{(i,j,j') \in \mathcal{D}} \ln \sigma(\mathbf{u}_i^T \mathbf{e}_j - \mathbf{u}_i^T \mathbf{e}_{j'}) \\ & + \sum_{(v_h,r,v_t,v_{t'}) \in \mathcal{S}} \ln \sigma(|| \mathbf{v}_h \mathbf{M}_r + \mathbf{r} - \mathbf{v}_{t'} \mathbf{M}_r ||_2^2 - || \mathbf{v}_h \mathbf{M}_r + \mathbf{r} - \mathbf{v}_t \mathbf{M}_r ||_2^2) \\ & - \frac{\lambda_Z}{2} \sum_{l \notin \{\frac{L_v}{2}, \frac{L_v}{2}+1\}} || \sigma(\mathbf{Z}_{l-1} * \mathbf{Q}_l + \mathbf{c}_l) - \mathbf{Z}_l ||_2^2 - \frac{\lambda_U}{2} \sum_i ||\mathbf{u}_i||_2^2 \\ & - \frac{\lambda_Z}{2} \sum_{l \in \{\frac{L_v}{2}, \frac{L_v}{2}+1\}} || \sigma(\mathbf{Z}_{l-1} \mathbf{Q}_l + \mathbf{c}_l) - \mathbf{Z}_l ||_2^2 - \frac{\lambda_v}{2} \sum_v ||\mathbf{v}||_2^2 \\ & - \frac{1}{2}\sum_l(\lambda_W ||\mathbf{W}_l||_2^2 + \lambda_b ||\mathbf{b}_l||_2^2) - \frac{1}{2}\sum_l(\lambda_Q ||\mathbf{Q}_l||_2^2 + \lambda_c ||\mathbf{c}_l||_2^2) \\ & - \frac{\lambda_I}{2} \sum_j || \mathbf{e}_j - \mathbf{v}_j - \mathbf{X}_{\frac{L_t}{2}, j*} - \mathbf{Z}_{\frac{L_v}{2}, j*} ||_2^2 \\ & - \frac{\lambda_r}{2} \sum_r ||\mathbf{r}||_2^2 - \frac{\lambda_M}{2} \sum_r ||\mathbf{M}_r||_2^2 \end{aligned} 公式 (7) 逐项详解:
    • 第一行: lnσ(uiTejuiTej)\sum \ln \sigma(\mathbf{u}_i^T \mathbf{e}_j - \mathbf{u}_i^T \mathbf{e}_{j'})
      • 含义: 这是协同过滤部分的目标,即 BPR 的 pairwise 排序损失。它旨在最大化用户 ii 对其交互过的物品 jj 的偏好得分高于未交互物品 jj' 的概率。这是整个模型最核心的推荐任务目标
    • 第二行: lnσ(...vt...22...vt...22)\sum \ln \sigma(||...v_{t'}...||_2^2 - ||...v_t...||_2^2)
      • 含义: 这是结构化知识嵌入 (Bayesian TransR) 部分的目标。它要求一个不正确的三元组 (vh,r,vt)(v_h,r,v_{t'}) 的得分(距离平方)要比一个正确的三元组 (vh,r,vt)(v_h,r,v_t) 的得分更高,并通过 sigmoid 函数将这种得分差异转换为概率。
    • 第三、四行: λZ2...22- \frac{\lambda_Z}{2} \sum || ... ||_2^2
      • 含义: 这两项是视觉知识嵌入 (SCAE) 的重构损失。它们衡量了SCAE各层输出与目标之间的差距。理论上,这代表了在假设高斯噪声下的负对数似然。值得注意的是,原文公式在此处似乎省略了文本嵌入(SDAE)的重构损失项,这可能是原文的笔误,因为一个完整的模型理应包含所有部分的损失。
    • 其余所有项:
      • λU2ui2,λv2v2,...- \frac{\lambda_U}{2} \sum||\mathbf{u}_i||^2, - \frac{\lambda_v}{2} \sum||\mathbf{v}||^2, ... 等等。
      • 含义: 这些全部是 L2 正则化项,用于惩罚模型参数的复杂度,防止过拟合。它们覆盖了模型中所有需要学习的参数:
        • 用户向量 ui\mathbf{u}_i 和结构化实体向量 v\mathbf{v} (第三、四行末尾)。

        • SDAE的权重 Wl\mathbf{W}_l 和偏置 bl\mathbf{b}_l,SCAE的权重 Ql\mathbf{Q}_l 和偏置 cl\mathbf{c}_l (第五行)。

        • TransR的关系向量 r\mathbf{r} 和投影矩阵 Mr\mathbf{M}_r (第七行)。

        • 特别地,第六行 λI2ejvjXZ22- \frac{\lambda_I}{2} \sum || \mathbf{e}_j - \mathbf{v}_j - \mathbf{X}_{\dots} - \mathbf{Z}_{\dots} ||_2^2 实际上等价于 λI2ηj22- \frac{\lambda_I}{2} \sum || \mathbf{\eta}_j ||_2^2。这是对物品专属偏移向量 ηj\mathbf{\eta}_j 的正则化,源于其高斯先验假设。作者用这种写法强调了 ηj\mathbf{\eta}_j 是综合向量 ej\mathbf{e}_j 与知识嵌入向量之差。

          通过使用随机梯度下降 (Stochastic Gradient Descent, SGD) 联合优化这个复杂的目标函数,模型中所有的参数都会被同时更新,使得知识表示的学习能够直接服务于推荐性能的提升。


5. 实验设置

5.1. 数据集

实验在两个不同领域的真实世界数据集上进行:

  1. MovieLens-1M:
    • 来源: 一个经典的电影评分数据集。
    • 规模与特点: 包含约100万个评分,涉及约6000名用户和3700部电影。作者将其处理为隐式反馈数据,只保留评分为5星的记录作为正样本。
    • 知识库关联: 电影实体通过标题和属性匹配的方式,被关联到微软的 Satori 知识库上。
  2. IntentBooks:
    • 来源: 从微软必应 (Bing) 搜索引擎的搜索日志中收集的用户对书籍的兴趣数据。

    • 规模与特点: 这是一个规模更大的数据集,包含约9万用户、1.8万本书籍和近90万次交互。

    • 知识库关联: 书籍本身就是 Satori 知识库中的实体,无需额外匹配。

      以下是原文 Table 1 的数据集详细统计信息:

      MovieLens-1M IntentBooks
      #user (用户数) 5,883 92,564
      #item (物品数) 3,230 18,475
      #interactions (交互数) 226,101 897,871
      #sk nodes (结构知识节点数) 84,011 26,337
      #sk edges (结构知识边数) 169,368 57,408
      #sk edge types (结构知识关系类型数) 10 6
      #tk items (有文本知识的物品数) 2,752 17,331
      #vk items (有视觉知识的物品数) 2,958 16,719

5.2. 评估指标

论文使用两个标准的排序评估指标 (ranking metrics) 来评估推荐列表的质量。

5.2.1. 平均准确率均值@K (Mean Average Precision@K, MAP@K)

  1. 概念定义 (Conceptual Definition): MAP@K 是一个综合衡量推荐列表精确率 (Precision)召回率 (Recall) 的指标,并且特别关注排名靠前的推荐结果的准确性。如果相关物品排在推荐列表的前面,AP@K 的值会更高。MAP@K 则是对所有用户的 AP@K 取平均值,用于衡量模型在整个用户群体上的平均性能。
  2. 数学公式 (Mathematical Formula): MAP@K=1UuU(1muk=1KP(k)×rel(k)) \text{MAP@K} = \frac{1}{|U|} \sum_{u \in U} \left( \frac{1}{m_u} \sum_{k=1}^{K} P(k) \times rel(k) \right)
  3. 符号解释 (Symbol Explanation):
    • UU: 用户集合。
    • P(k): 推荐列表中前 kk 个物品的精确率。
    • rel(k): 一个指示函数,如果第 kk 个推荐的物品是用户喜欢的(相关的),则为1,否则为0。
    • mum_u: 用户 uu 在测试集中喜欢的物品总数。

5.2.2. 召回率@K (Recall@K)

  1. 概念定义 (Conceptual Definition): Recall@K 衡量的是在推荐的前 K 个物品中,命中了多少用户真正喜欢的物品。它关注的是模型“找全”用户兴趣的能力。
  2. 数学公式 (Mathematical Formula): Recall@K=1UuURecommendedItems(u,K)LikedItems(u)LikedItems(u) \text{Recall@K} = \frac{1}{|U|} \sum_{u \in U} \frac{|\text{RecommendedItems}(u, K) \cap \text{LikedItems}(u)|}{|\text{LikedItems}(u)|}
  3. 符号解释 (Symbol Explanation):
    • UU: 用户集合。
    • RecommendedItems(u,K)\text{RecommendedItems}(u, K): 为用户 uu 推荐的前 K 个物品的集合。
    • LikedItems(u)\text{LikedItems}(u): 用户 uu 在测试集中实际喜欢的物品的集合。

5.3. 对比基线

论文将 CKE 与多个基线模型进行了详尽的比较,这些基线覆盖了从纯协同过滤到利用不同知识的各种方法。

  • 纯协同过滤:
    • BPRMF: 经典的基于矩阵分解的协同过滤方法,使用BPR损失函数,不使用任何辅助信息。
  • 利用结构化知识:
    • BPRMF+TransEBPRMF+TransE: 将 TransE 嵌入与 BPRMF 结合的简单版本。
    • PRP: 基于 PageRank 的图排序方法。
    • PER: 基于元路径的异构网络推荐方法。
    • LIBFM(S): 使用经典的 Factorization Machines 模型,将知识库中的实体属性作为物品的特征输入。
  • 利用文本知识:
    • CTR: 经典的协同主题回归 (Collaborative Topic Regression) 模型,结合了主题模型 (LDA) 和矩阵分解。
    • CMF(T): 集体矩阵分解 (Collective Matrix Factorization),同时分解用户-物品矩阵和物品-词项矩阵。
    • LIBFM(T): Factorization Machines 模型,使用词袋作为文本特征。
  • 利用视觉知识:
    • CMF(V): 同时分解用户-物品矩阵和物品-像素矩阵。

    • BPRMF+SDAE(V)BPRMF+SDAE(V): 将SDAE(而非SCAE)用于视觉特征提取,以验证卷积层的有效性。

    • LIBFM(V): Factorization Machines 模型,使用原始像素值作为视觉特征。


6. 实验结果与分析

论文通过一系列实验,系统性地验证了 CKE 框架中每个知识组件的有效性以及整合框架的优越性。

6.1. 核心结果分析

6.1.1. 各知识组件的有效性分析 (消融实验)

作者首先分别评估了仅使用结构(S)、文本(T)、视觉(V)知识时 CKE 变体 (CKE(S), CKE(T), CKE(V)) 的性能。

结构化知识 (Usage of Structural Knowledge):

  • 结果: 如下图 (原文 Figure 6a, 7a, 8a, 9a) 所示,所有利用了结构化知识的方法(如 CKE(S), PER, LIBFM(S))均显著优于纯协同过滤的 BPRMF。这证明了知识库的结构信息对于缓解数据稀疏性至关重要

  • 分析: CKE(S) 在所有对比方法中表现最佳,甚至优于 BPRMF+TransEBPRMF+TransE。这说明 TransRTransE 更能有效处理知识库中的复杂关系。同时,基于嵌入的方法 (CKE(S)) 优于基于特征工程的方法 (PER, LIBFM(S)), 表明端到端的嵌入学习能更深刻地捕捉语义。

    下图 (原文 Figure 6 和 7) 展示了在 MovieLens-1M 数据集上的结果:

    Figure 6: Recall \(@ \\mathbf { K }\) results comparison between our methods using each component in knowledge base embedding and relater baselines for dataset MovieLens-1M. 该图像是论文中图6,显示了MovieLens-1M数据集中不同方法结合知识库各组件的Recall@K指标对比,分为结构知识、文本知识和视觉知识三部分,横轴为K值,纵轴为Recall@K,体现了各方法随K变化的性能趋势。

    文本知识 (Usage of Textual Knowledge):

  • 结果: 引入文本知识同样能带来性能提升,但提升幅度略小于结构化知识。

  • 分析: CKE(T) 的性能优于 CMF(T)LIBFM(T),并多数情况下优于强大的基线 CTR。这表明基于深度学习 (SDAE) 的文本嵌入比传统的主题模型 (LDA) 或直接使用词袋特征更能捕捉深层次的文本语义

视觉知识 (Usage of Visual Knowledge):

  • 结果: 视觉知识的引入也能带来性能提升,虽然幅度在三者中最小,但仍然是显著的。
  • 分析: CKE(V)BPRMF+SDAE(V)BPRMF+SDAE(V) 均优于其他视觉基线,证明了深度学习在提取视觉特征上的强大能力。特别地,CKE(V) (使用卷积SCAE) 显著优于 BPRMF+SDAE(V)BPRMF+SDAE(V) (使用全连接SDAE),这强有力地证明了卷积层在处理图像数据以用于推荐任务时的优越性

6.1.2. 完整框架性能分析

最后,作者评估了完整的 CKE(STV) 模型,并与各种组合基线进行比较。

  • 结果: 如下图 (原文 Figure 10 和 11) 所示,完整的 CKE(STV) 模型在两个数据集上都取得了最佳性能,全面超越了所有基线方法和自身的变体。
  • 分析:
    1. 多模态融合的有效性: CKE(STV) 的性能优于任何只使用一或两种知识的变体(如 CKE(ST), CKE(SV)),这证明了结构、文本、视觉三种知识是互补的,将它们结合起来能最全面地刻画物品,从而带来最大的性能提升。

    2. 嵌入优于特征工程: CKE(STV) 显著优于 LIBFM(STV)(一个使用所有三种信息的特征工程方法),再次验证了端到端嵌入学习的优越性

    3. 联合学习的必要性: CKE(STV) 优于 BPRMF+STVBPRMF+STV(一个两阶段方法,先分别学习嵌入再用于CF)。这表明联合学习至关重要,它能确保知识表示的学习过程被推荐任务的目标所引导,从而学到对推荐最有效的表示。

      下图 (原文 Figure 10 和 11) 展示了完整框架的最终对比结果:

      Figure 10: Recall \(@ \\mathbf { K }\) results comparison between our framework and related baselines for both datasets. 该图像是图表,展示了论文中图10的Recall@K对比结果,比较了CKE框架与多个基线方法在MovieLens-1M和IntentBooks两个数据集上的性能表现。

6.2. 超参数设置

以下是原文 Table 2 提供的超参数设置,展示了模型在两个数据集上的最佳配置:

MovieLens-1M IntentBooks
cf (协同过滤) dim=150, λU=λI=0.0025 dim=100, λU=λI=0.005
sk (结构化知识) λv=λr=0.001, λM=0.01 λv=λr=0.001, λM=0.1
tk (文本知识) λW=λb=0.01, λX=0.0001, ε=0.2, Lt=4, Nl=300 λW=λb=0.01, λX=0.001, ε=0.1, Lt=6, Nl=200
vk (视觉知识) λQ=λc=0.01, λZ=0.0001, σ=3, Lv=6, Nf=20, Sf=(5,5) λQ=λc=0.01, λZ=0.001, σ=2, Lv=8, Nf=20, Sf=(5,5)

7. 总结与思考

7.1. 结论总结

这篇论文提出了一种名为 CKE (协同知识库嵌入) 的新型混合推荐框架。通过首次将知识库中的结构、文本、视觉三种异构信息进行统一建模,并利用联合学习的方式将知识表示学习和协同过滤进行端到端优化,CKE 能够学习到更丰富、更精确的物品表示。这不仅显著缓解了传统推荐系统的数据稀疏性和冷启动问题,也为如何有效利用日益庞大的多媒体知识库来提升推荐质量开辟了一条新的、富有成效的道路。

7.2. 局限性与未来工作

尽管论文取得了巨大成功,但仍可从以下几个方面思考其潜在的局限性和未来方向:

  • 计算复杂度: CKE 框架非常复杂,需要同时训练一个协同过滤模型和三个(其中两个是深度)知识嵌入模型。这导致训练过程的计算开销和时间成本非常高,在需要频繁更新模型的工业界大规模场景中可能面临挑战。
  • 知识库质量依赖: 模型的性能高度依赖于底层知识库的质量和完备性。如果知识库本身存在大量噪声、缺失关系、或物品的文本/视觉信息不全,CKE 的效果会受到直接影响。此外,将推荐系统中的物品准确对齐 (align) 到知识库实体也是一个充满挑战的前置步骤。
  • 模型架构的演进: 本文使用的是2016年左右的“先进”技术(如TransR, SDAE, SCAE)。自那时起,领域内涌现了更强大的模型,例如用于图结构的图神经网络 (Graph Neural Networks, GNNs),用于文本的 Transformer 模型,以及用于视觉的更深、更复杂的 CNN 架构(如ResNet)。未来的工作可以用这些更先进的模型来替换 CKE 中的相应组件,以期获得更好的性能。

7.3. 个人启发与批判

  • 跨领域融合的典范: 这篇论文是知识图谱推荐系统两个领域成功融合的典范之作。它揭示了结构化的世界知识对于理解用户个性化偏好的巨大价值。
  • “表示学习”思想的重要性: CKE 的成功本质上是表示学习 (representation learning) 的胜利。它没有停留在使用原始特征的层面,而是致力于学习数据背后更深层次的、语义化的向量表示。这种思想已经成为现代机器学习的核心范式。
  • 联合学习的威力: 论文中关于联合学习优于两阶段学习的结论具有普遍的指导意义。当多个任务或信息源相关时,构建一个端到端的统一模型,让它们在优化过程中相互“通信”和“协商”,往往能达到 1+1>21+1>2 的效果。
  • 批判性思考: 论文中将四种嵌入向量简单相加作为最终表示,这种方式虽然简单有效,但可能不是最优的。例如,不同用户可能对物品的不同方面(结构、文本、视觉)有不同的关注度。未来可以探索更复杂的融合机制,如引入注意力机制 (attention mechanism),来动态地、个性化地为不同知识源的表示分配权重,从而实现更精细化的信息整合。

相似论文推荐

基于向量语义检索推荐的相关论文。

暂时没有找到相似论文。