摘要

30 MEGCF: Multimodal Entity Graph Collaborative Filtering for Personalized Recommendation KANG LIU, FENG XUE, DAN GUO, LE WU, SHUJIE LI, and RICHANG HONG, Hefei University of Technology, China In most E-commerce platforms, whether the displayed items trigger the user’s interest largely depends on their most eye-catching multimodal content. Consequently, increasing efforts focus on modeling multimodal user preference, and the pressing paradigm is to incorporate complete multimodal deep features of the items into the recommendation module. However, the existing studies ignore the mismatch problem between multimodal feature extraction (MFE) and user interest modeling (UIM) . That is, MFE and UIM have different emphases. Specifically, MFE is migrated from and adapted to upstream tasks such…

1. 论文基本信息

1.1. 标题

MEGCF: Multimodal Entity Graph Collaborative Filtering for Personalized Recommendation
(MEGCF：面向个性化推荐的多模态实体图协同过滤)

1.2. 作者

Kang Liu, Feng Xue, Dan Guo, Le Wu, Shujie Li, and Richang Hong
隶属于 合肥工业大学 (Hefei University of Technology)，中国。

1.3. 发表期刊/会议

ACM Transactions on Information Systems (TOIS)
注：TOIS 是信息检索与推荐系统领域的顶级国际期刊（CCF-A类），以对理论深度和实验严谨性的高要求著称。

1.4. 发表年份

2023年 (文章于2022年6月在线发表，正式刊发于2023年3月第41卷第2期)

1.5. 摘要

大多数电商平台的商品推荐依赖于引人注目的多模态内容（图像、文本）。现有的多模态推荐方法通常直接利用深度神经网络提取的完整多模态特征。然而，本文指出这些方法忽略了多模态特征提取（MFE）与用户兴趣建模（UIM）之间的错配问题（Mismatch Problem）。具体而言，MFE 通常是为了图像分类等上游任务设计的，关注所有内容；而 UIM 关注的是与用户偏好相关的特定内容。直接融合会导致大量与偏好无关的噪声（如背景、光照）污染用户表示。

为了解决这一问题，本文提出了 MEGCF 模型。该模型首先从多模态数据中提取语义实体（Semantic Entities），因为实体比原始特征更能反映用户偏好。然后，构建包含用户、物品和实体的图结构。接着，设计了一种情感加权的对称线性图卷积网络（Sentiment-weighted Symmetric Linear GCN），利用评论中的情感信息对邻居聚合进行细粒度加权，从而在图中传播高阶语义相关性和协同信号。

1.6. 原文链接

PDF 下载链接 (状态：已正式发表)

2. 整体概括

2.1. 研究背景与动机

核心问题： 在多模态推荐系统中，如何有效地利用商品的视觉（图像）和文本（标题、评论）信息来提升推荐准确性？
现有挑战（The Gap）： 现有的主流方法（无论是端到端框架还是分离框架）通常直接使用预训练模型（如 ResNet）提取整张图片或整段文本的向量表示。
- 错配现象（The Mismatch）： 预训练模型是内容导向（Content-oriented）的，它会提取图片中的所有信息（包括背景、拍摄角度、亮度等）；而推荐系统是用户导向（User-oriented）的，用户购买商品往往是因为图片中的某个具体物体（如一件夹克、一顶白帽子）。
- 后果： 这种错配引入了大量与用户偏好无关的多模态噪声，污染了物品和用户的嵌入表示（Embedding），降低了推荐性能。
  
  下图（原文 Figure 1）生动地展示了这种错配：预训练的特征提取器（VFE）关注整个图像，而用户的购买行为其实只与图像中的特定实体（如“Jacket”）高度相关。
  
  该图像是一个示意图，展示了用户对商品中语义丰富实体（夹克、白帽子和牛仔裤）的偏好匹配情况，以及传统视觉特征提取（VFE）与用户兴趣建模之间的错配问题。

2.2. 核心贡献

提出多模态语义实体提取： 摒弃直接使用完整多模态特征的做法，转而提取图像和文本中的语义实体（如从图片中识别出“背包”，从文本中提取关键词），并将其作为节点融入用户-物品交互图中。
构建情感加权对称线性 GCN： 提出了 MEGCF 模型，包含两个对称的线性图卷积模块。
- 利用情感分析技术从评论中挖掘用户对物品质量的反馈，以此动态调整图卷积中的邻居聚合权重。
- 采用线性 GCN 结构（去除复杂的非线性激活函数），更适合捕捉高阶协同信号。
显著的性能提升： 在三个真实世界数据集上的实验表明，MEGCF 显著优于现有的 SOTA 多模态推荐方法（如 GRCN, MMGCN）。

3. 预备知识与相关工作

3.1. 基础概念

协同过滤 (Collaborative Filtering, CF): 推荐系统的基石，核心思想是“相似的用户喜欢相似的物品”。它主要依赖用户和物品的历史交互数据（如点击、购买）。
多模态推荐 (Multimodal Recommendation): 在 CF 的基础上，引入物品的辅助信息（如图片、描述文本、视频），以解决交互稀疏和冷启动问题。
图卷积网络 (Graph Convolutional Network, GCN): 一种用于图数据的深度学习技术。在推荐系统中，用户和物品被视为节点，交互被视为边。GCN 通过消息传播（Message Propagation）和聚合（Aggregation）机制，让节点不断吸收邻居的信息，从而学习到包含高阶连接关系的嵌入表示。
语义实体 (Semantic Entity): 指数据中具有明确意义的对象。例如，在“一个穿着红裙子的女孩”这张图中，“女孩”和“红裙子”就是语义实体，而背景的蓝天可能就是非实体的环境信息。

3.2. 技术演进与差异

早期方法 (如 VBPR): 将视觉特征直接拼接到矩阵分解（MF）的物品向量上。
- 缺陷： 只能捕获低阶特征，且无法区分特征的重要性。
基于 GCN 的方法 (如 MMGCN, GRCN): 利用 GCN 在用户-物品图上传播多模态信息。
- 缺陷： 虽然利用了高阶结构，但传播的是包含噪声的完整特征（Full Features），噪声随着层数加深会被放大。
本文 (MEGCF):
- 创新点： 不传播原始特征向量，而是传播实体节点。构建了 User-Item-Entity 三元图。这相当于在输入端就对多模态信息进行了“去噪”和“结构化”。
  
  下图（原文 Figure 2）解释了为什么引入实体能帮助捕捉用户间更深层的相似性（即多模态语义相关性）：即使用户 $u_1$ 和 $u_2$ 没有共同购买的物品，他们也可能因为购买了包含相同实体（如 $e_2$ ）的不同物品而建立联系。
  
  $Fig. 2. Illustration of multimodal semantic correlation, where $u$ ,i, and $e$ denote the user, item, and semantic entity, respectively, and `C _ { a b }` denotes the semantic correlation between $a$ and $b$ .$ Fig. 2. Illustration of multimodal semantic correlation, where $u$ ,i, and $e$ denote the user, item, and semantic entity, respectively, and C _ { a b } denotes the semantic correlation between $a$ and $b$ .

4. 方法论

MEGCF 的整体架构如下图（原文 Figure 3）所示。它由三个主要部分组成：多模态语义实体提取层、情感加权对称线性 GCN 层、预测与优化层。

$Fig. 3. Illustration of the proposed MEGCF. The target user and item are `u _ { 1 }` and `i _ { 1 }` , MSE denotes multimodal semantic entity, and $L$ is the max number of graph convolution layers.$ Fig. 3. Illustration of the proposed MEGCF. The target user and item are u _ { 1 } and i _ { 1 } , MSE denotes multimodal semantic entity, and $L$ is the max number of graph convolution layers.

4.1. 多模态语义实体提取层 (Multimodal Semantic Entity Extraction Layer)

这一层的目的是将非结构化的多模态数据转化为结构化的实体节点，并构建图。

4.1.1. 视觉语义实体提取

方法： 使用在 ImageNet 数据集上预训练的 PNASNet 模型（一种图像分类模型）。
过程： 输入商品图片，模型输出 1000 个类别的概率分布。选取概率最高的 Top-K 类别作为该图片的视觉实体（例如“运动鞋”、“太阳镜”）。
集合： 得到视觉实体集合 $\mathcal{E}_V$ 。

4.1.2. 文本语义实体提取

方法： 处理商品的标题和评论。
过程：
- 标题： 直接分词，保留名词作为实体（因为标题通常客观描述商品）。
- 评论： 使用 SGRank 算法（一种关键词提取技术）从评论中提取关键词作为实体。
集合： 得到文本实体集合 $\mathcal{E}_T$ 。

4.1.3. 协同多模态交互图构建

最终构建一个包含三种节点（用户、物品、实体）的异构图 $\mathcal{G}$ 。

用户-物品边： 基于购买历史 $r_{ui}=1$ 。
物品-实体边： 基于上述提取结果，如果物品 $i$ 包含实体 $e$ ，则 $r_{ie}=1$ 。

4.2. 情感加权对称线性 GCN 层 (Sentiment-weighted Symmetric Linear GCN Layer)

这是模型的核心，包含两个并行的 GCN 模块：LS-GCN-1（处理用户-物品交互图）和 LS-GCN-2（处理协同多模态交互图）。

4.2.1. 基于评论的情感提取

为了区分不同物品的重要性，模型利用评论挖掘用户的情感倾向（即物品质量）。

工具： 使用预训练的 SENTA 模型（百度开发的中文情感分析模型，或者类似的英文模型）。
公式： 计算物品 $i$ $i$ 的平均情感分数 $s_i$ $s_{i}$ ： $s_i = \frac{\sum_{t \in T_i} f(t)}{|T_i|}$
- 符号解释：
  - $T_i$ : 物品 $i$ 的所有评论集合。
  - $|T_i|$ : 评论的数量。
  - f(t): SENTA 模型对单条评论 $t$ 的情感打分（输出）。
  - $s_i$ : 物品 $i$ 的最终情感权重，反映了物品的整体质量。

4.2.2. LS-GCN-1: 捕捉协同过滤信号

该模块仅在用户-物品二部图 $\mathcal{G}_1$ 上运行，目的是捕捉纯粹的交互信号。

特点： 采用了 Linear GCN（去除了非线性激活函数，类似于 LightGCN），并引入了情感加权和流行度感知归一化。
核心公式 (User & Item Update): 在第 $l$ $l$ 层，目标物品 $i1$ $i 1$ 和用户 $u1$ $u 1$ 的嵌入更新规则如下： $\begin{array} { l } { { v _{ i 1 } ^ { ( l ) } = \displaystyle \sum _{ u \in N _{ i 1 } \cup i 1 } \frac { ( s _{ i 1 } ) ^ { \gamma } |\mathcal{I}| } { \sum _{ i \in \mathcal{I} } ( s _{ i } ) ^ { \gamma } } \cdot \frac { 1 } { | N _{ i 1 } | ^ { 0 . 5 } | N _{ u } | ^ { 0 . 5 - \alpha } } \cdot v _{ u } ^ { ( l - 1 ) } } , } \\ { { v _{ u 1 } ^ { ( l ) } = \displaystyle \sum _{ i \in N _{ u 1 } \cup u 1 } \frac { ( s _{ i } ) ^ { \gamma } |\mathcal{I}| } { \sum _{ i \in \mathcal{I} } ( s _{ i } ) ^ { \gamma } } \cdot \frac { 1 } { | N _{ u 1 } | ^ { 0 . 5 } | N _{ i } | ^ { 0 . 5 - \alpha } } \cdot v _{ i } ^ { ( l - 1 ) } } , } \end{array}$
- 符号解释与深度分析：
  - $v^{(l)}$ : 第 $l$ 层的嵌入向量。
  - $N_{u}, N_{i}$ : 用户和物品的邻居集合。
  - 第一部分 (情感加权): $\frac { ( s _{ i } ) ^ { \gamma } |\mathcal{I}| } { \sum _{ i \in \mathcal{I} } ( s _{ i } ) ^ { \gamma } }$ 。这是本文的核心创新之一。它利用情感分数 $s_i$ 对物品进行加权。高质量（高情感分）的物品在传播信息时会获得更大的权重。 $\gamma$ 是平滑系数， $|\mathcal{I}|$ 是物品总数。
  - 第二部分 (流行度感知归一化): $\frac { 1 } { | N _{ u 1 } | ^ { 0 . 5 } | N _{ i } | ^ { 0 . 5 - \alpha } }$ 。这是对传统 GCN 归一化项（通常是度数的平方根倒数）的改进。参数 $\alpha$ 调节模型对热门物品（高流行度）的敏感程度。

4.2.3. LS-GCN-2: 捕捉多模态语义相关性

该模块在包含实体的协同多模态交互图 $\mathcal{G}$ 上运行。它的目标是利用“物品-实体”连接，将语义信息注入用户表示中。

用户节点更新 (User Update): $v _{ u 1 } ^ { * ( l ) } = \sum _{ i \in N _{ u 1 } \cup u 1 } \frac { ( s _{ i } ) ^ { \gamma } | \mathcal { I } | } { \sum _{ i \in \mathcal { I } } { ( s _{ i } ) ^ { \gamma } } } \cdot \frac { 1 } { | N _{ u 1 } | ^ { 0 . 5 } | N _{ i } | ^ { 0 . 5 - \alpha } } \cdot v _{ i } ^ { * ( l - 1 ) }$
- 注意这里的 $v^*$ 表示 LS-GCN-2 中的嵌入，它包含了实体信息。
实体节点更新 (Entity Update): $v _{ e 1 } ^ { * ( l ) } = \sum _{ i \in N _{ e 1 } \cup e 1 } \frac { ( s _{ i } ) ^ { \gamma } | \mathcal{I} | } { \sum _{ i \in \mathcal{I} } { ( s _{ i } ) ^ { \gamma } } } \cdot \frac { 1 } { | N _{ e 1 } | ^ { 0 . 5 } | N _{ i } | ^ { 0 . 5 - \alpha } } \cdot v _{ i } ^ { * ( l - 1 ) }$
- 实体 $e1$ 从与其相连的物品 $i$ 聚合信息。
物品节点更新 (Item Update): 物品节点起到了桥梁作用，它同时聚合用户邻居 $N_{i1}^{(u)}$ 和实体邻居 $N_{i1}^{(e)}$ 的信息。 $v ^ { * } _{ i 1 } ^ { ( l ) } = \sum _{ u \in N _{ i 1 } ^ { ( u ) } \cup i 1 } \frac { ( s _{ i 1 } ) ^ { \gamma } |\mathcal{I}| } { \sum _{ i \in { \cal I } } { ( s _{ i } ) ^ { \gamma } } } \cdot \frac { v ^ { * } _{ u } ^ { ( l - 1 ) } } { | N _{ i 1 } | ^ { 0 . 5 } | N _{ u } | ^ { 0 . 5 - \alpha } } + \sum _{ e \in N _{ i 1 } ^ { ( e ) } \cup i 1 } \frac { ( s _{ i 1 } ) ^ { \gamma } |\mathcal{I}| } { \sum _{ i \in { \cal I } } { ( s _{ i } ) ^ { \gamma } } } \cdot \frac { v ^ { * } _{ e } ^ { ( l - 1 ) } } { | N _{ i 1 } | ^ { 0 . 5 } | N _{ e } | ^ { 0 . 5 - \alpha } }$
- 深度解析： 这个公式清晰地展示了物品嵌入是如何被丰富的。第一项聚合了交互过的用户信息（协同信号），第二项聚合了包含的实体信息（语义信号）。二者通过加法融合。

4.3. 预测与优化

最终预测: 将两个 GCN 模块得到的最终层嵌入（ $v^{(L)}$ 和 $v^{*(L)}$ ）分别进行内积，然后相加。 $\hat { y } _{ u i } = ( v _{ u } ^ { ( L ) } ) ^ { T } \cdot v _{ i } ^ { ( L ) } + ( v _{ u } ^ { * ( L ) } ) ^ { T } \cdot v _{ i } ^ { * ( L ) }$
联合损失函数: 使用 BPR Loss (Bayesian Personalized Ranking)，分别约束两个 GCN 的输出，迫使模型在协同空间和语义空间都学好排序。 $\mathscr { L } = \mathscr { L } _ { 1 } + \mathscr { L } _ { 2 }$ 其中 $\mathscr { L } _ { 1 }$ 针对 LS-GCN-1 的输出， $\mathscr { L } _ { 2 }$ 针对 LS-GCN-2 的输出。

5. 实验设置

5.1. 数据集

实验使用了三个真实世界的电商数据集：

Amazon Beauty: 美妆类商品，包含图片、标题、评论。
Amazon Art: 艺术与手工类商品，包含图片、标题、评论。
Taobao: 淘宝时尚穿搭数据集，包含图片、标题，但没有评论（因此在该数据集上 MEGCF 无法使用情感加权模块）。

数据预处理：采用 5-core 设置（过滤掉交互少于 5 次的用户和物品）。

5.2. 评估指标

HR@k (Hit Ratio):
- 定义: 命中率。衡量推荐列表中是否包含用户实际交互的物品（Ground Truth）。如果前 $k$ 个推荐中有正确物品，则为 1，否则为 0。
- 关注点: 召回能力。
NDCG@k (Normalized Discounted Cumulative Gain):
- 定义: 归一化折损累计增益。不仅看是否命中，还看命中的位置。位置越靠前，得分越高。
- 关注点: 排序质量。

5.3. 对比基线

传统 CF: BPRMF, SVD++。
基于 GCN 的 CF: NGCF, LightGCN (SOTA 纯 CF 模型)。
多模态推荐:
- VBPR: 经典的视觉特征 + MF。
- CKE: 融合知识图谱、文本和视觉特征。
- MMGCN: 多模态 GCN 方法，针对每种模态构建图。
- GRCN: SOTA 多模态推荐方法，利用 GCN 修正交互图。

6. 实验结果与分析

6.1. 核心结果分析

MEGCF 在所有数据集和所有指标上均取得了最优性能。

以下是原文 [Table 2] 的结果：

Metric	Models	Beauty			Art		Taobao
Metric	Models	k = 5	k = 10	k = 20	k = 10	k = 20	k = 5	k = 10	k = 20
HR@k	BPRMF	0.4274	0.5173	0.6231	0.7052	0.7829	0.3215	0.4049	0.5155
	SVD++	0.4584	0.5520	0.6659	0.7425	0.8285	0.3374	0.4293	0.5466
	VBPR	0.4722	0.5670	0.6665	0.7464	0.8262	0.3464	0.4364	0.5512
	CKE	0.4810	0.5894	0.6950	0.7632	0.8461	0.3560	0.4550	0.5789
	NGCF	0.4853	0.5820	0.6810	0.7541	0.8287	0.3575	0.4593	0.5841
	MMGCN	0.4934	0.6067	0.7166	0.7702	0.8546	0.3649	0.4695	0.5902
	LightGCN	0.5002	0.6063	0.7178	0.7639	0.8329	0.3848	0.4893	0.6237
	GRCN	0.5087	0.6204	0.7241	0.7743	0.8532	0.3865	0.4996	0.6375
	MEGCF	0.5439	0.6464	0.7448	0.7902	0.8651	0.4045	0.5212	0.6516
NDCG@k	BPRMF	0.3343	0.3634	0.3900	0.5829	0.6025	0.2465	0.2733	0.3011
	SVD++	0.3592	0.3895	0.4157	0.5916	0.6134	0.2523	0.2819	0.3114
	VBPR	0.3665	0.3973	0.4224	0.6078	0.6280	0.2639	0.2928	0.3216
	CKE	0.3650	0.4002	0.4269	0.6030	0.6245	0.2622	0.2941	0.3253
	NGCF	0.3776	0.4089	0.4339	0.6141	0.6330	0.2658	0.2986	0.3301
	MMGCN	0.3714	0.4081	0.4359	0.5945	0.6159	0.2709	0.3047	0.3351
	LightGCN	0.3807	0.4152	0.4435	0.6153	0.6340	0.2840	0.3176	0.3515
	GRCN	0.3910	0.4272	0.4533	0.6208	0.6407	0.2861	0.3225	0.3573
	MEGCF	0.4257	0.4590	0.4838	0.6398	0.6588	0.3020	0.3397	0.3726

分析：

MEGCF vs. GRCN (SOTA): MEGCF 相比最强基线 GRCN 有显著提升（HR 平均提升 4.40%，NDCG 提升 8.87%）。NDCG 提升更大，说明语义相关性对于优化推荐排序特别有效。
LightGCN vs. NGCF: LightGCN 优于 NGCF，证明了线性 GCN（去除非线性激活）在推荐任务中捕捉协同信号的能力更强，这也支撑了 MEGCF 选择线性 GCN 结构的合理性。
多模态的价值: 即使是简单的 VBPR 也优于纯 CF 方法 SVD++，说明多模态信息确实有用。但 MEGCF 的大幅领先说明“怎么用”（提取实体 vs. 原始特征）至关重要。

6.2. 消融实验与参数分析

6.2.1. 模态特定语义相关性的作用

作者对比了去除视觉实体 (w/o V)、去除文本实体 (w/o T) 和去除所有实体 (w/o V&T) 的变体。

结果 (Figure 5): w/o V&T 性能最差，证明了引入实体图结构的有效性。MEGCF 优于单模态变体，说明视觉和文本信息是互补的。

Fig. 5. Effect of modality-specific semantic correlation on MEGCF.

6.2.2. 对称线性 GCN 结构的作用

对比仅使用 LS-GCN-1 (w/o g2) 或仅使用 LS-GCN-2 (w/o g1) 的情况。
结果: 双流结构（MEGCF）效果最好，说明协同信号（User-Item）和语义信号（User-Item-Entity）需要同时建模，两者缺一不可。

6.2.3. 情感加权 vs. 自注意力机制

作者对比了使用本文提出的情感加权策略与使用 GAT 中的自注意力 (Self-attention) 机制。

发现: 情感加权优于自注意力。
原因: 自注意力仅基于图的拓扑结构计算权重，而情感加权引入了外部知识（评论中的情感倾向/物品质量），这是一种额外的高价值信息。

6.3. 案例研究 (Case Study)

为了直观展示模型如何工作，作者在淘宝数据集上进行了一个案例分析（Figure 10）。

场景: 用户 $u_{8640}$ 交互过的物品图片中都包含“背包”这个实体。
结果: 模型计算出该用户对实体 $e_{78}$ (Backpack) 的偏好分显著高于其他实体（如 T-shirt）。
结论: MEGCF 成功通过实体节点捕捉到了用户的细粒度视觉偏好。

该图像是一个示意图，展示了MEGCF模型中目标用户与交互商品及视觉语义实体之间的关系，使用不同虚线表示用户与实体偏好计算和商品之间的相似度计算。

7. 总结与思考

7.1. 结论总结

MEGCF 是一篇针对多模态推荐中“特征提取与用户偏好错配”问题的优秀论文。它没有随大流去设计更复杂的深度特征融合网络，而是另辟蹊径，通过语义实体提取将非结构化数据转化为结构化图数据，并结合情感加权的线性 GCN 进行高效推理。其实验结果扎实，不仅在准确率（HR）上领先，在排序质量（NDCG）上的提升尤为明显。

7.2. 局限性与未来工作

实体提取的局限: 目前使用的 ImageNet 预训练模型只能识别 1000 个类别。这导致很多细粒度的时尚单品（如具体的某种帽子款式）可能被笼统地归类甚至漏检。
- 未来方向: 使用更强大的预训练模型（如 CLIP）或特定领域的检测模型。
对评论的依赖: 情感加权模块依赖于评论数据。对于新上架的商品（冷启动），没有评论就无法计算情感分，这限制了模型在冷启动场景下的部分能力。
实体提取的准确性: 直接迁移计算机视觉模型可能存在领域适应问题（Domain Shift），导致提取出的实体不准确。

7.3. 个人启发与批判

启发: 这篇论文通过“实体化”实现了多模态信息的显式推理（Explicit Reasoning）。相比于将图片压缩成一个 1024 维的黑盒向量，构建 User-Item-Entity 图使得推荐过程具有了更好的可解释性（我们可以知道用户是因为喜欢“背包”这个元素而被推荐的）。
批判: 虽然线性 GCN 效率高，但双流 GCN 使得训练时的计算复杂度翻倍。此外，情感加权虽然有效，但本质上是一种静态权重（Static Weight），如果能结合用户个性化，设计成用户特定的动态情感关注（Dynamic Attention），效果可能会更好。

MEGCF: Multimodal Entity Graph Collaborative Filtering for Personalized Recommendation

TL;DR 精炼摘要

摘要

思维导图

论文精读

中文精读约 14 分钟读完 · 9,132 字