论文状态：已完成

Modality-Independent Graph Neural Networks with Global Transformers for Multimodal Recommendation

发表：2024/12/19

原文链接 PDF 下载

价格：0.100000

已有 2 人读过

本分析由 AI 生成，可能不完全准确，请以原文为准。

TL;DR 精炼摘要

本研究提出了一种具有模态独立感受野的图神经网络（GNN），通过为不同模态采用独立的GNN以增强多模态推荐性能。引入的基于采样的全局变压器有效整合了全局信息，改善了现有方法的局限性。实验结果表明，本方法在各种数据集上优于现有技术。

摘要

Multimodal recommendation systems can learn users' preferences from existing user-item interactions as well as the semantics of multimodal data associated with items. Many existing methods model this through a multimodal user-item graph, approaching multimodal recommendation as a graph learning task. Graph Neural Networks (GNNs) have shown promising performance in this domain. Prior research has capitalized on GNNs' capability to capture neighborhood information within certain receptive fields (typically denoted by the number of hops, $K$ ) to enrich user and item semantics. We observe that the optimal receptive fields for GNNs can vary across different modalities. In this paper, we propose GNNs with Modality-Independent Receptive Fields, which employ separate GNNs with independent receptive fields for different modalities to enhance performance. Our results indicate that the optimal $K$ for certain modalities on specific datasets can be as low as 1 or 2, which may restrict the GNNs' capacity to capture global information. To address this, we introduce a Sampling-based Global Transformer, which utilizes uniform global sampling to effectively integrate global information for GNNs. We conduct comprehensive experiments that demonstrate the superiority of our approach over existing methods. Our code is publicly available at https://github.com/CrawlScript/MIG-GT.

思维导图

论文精读

中文精读约 34 分钟读完 · 21,889 字

1. 论文基本信息

1.1. 标题

Modality-Independent Graph Neural Networks with Global Transformers for Multimodal Recommendation

1.2. 作者

Jun Hu, Bryan Hooi, Bingsheng He, Yinwei Wei

隶属机构：

Jun Hu, Bryan Hooi, Bingsheng He 均来自新加坡国立大学计算机学院 (School of Computing, National University of Singapore)。
Yinwei Wei 来自山东大学软件学院 (School of Software, Shandong University)。

1.3. 发表期刊/会议

论文发布在 arXiv 预印本平台，状态为预印本 (preprint)，尚未正式发表在特定期刊或会议上。

1.4. 发表年份

2024年12月18日

1.5. 摘要

多模态推荐系统可以从现有的用户-物品交互以及与物品相关的多模态数据的语义中学习用户的偏好。许多现有方法通过构建多模态用户-物品图来建模，将多模态推荐视为一个图学习任务。图神经网络 (GNNs) 在该领域已显示出良好的性能。先前的研究利用了 GNN 捕获特定感受野（通常由跳数 $K$ 表示）内邻域信息的能力，以丰富用户和物品的语义。我们观察到 GNN 的最佳感受野在不同模态之间可能有所不同。在本文中，我们提出了具有模态独立感受野 (Modality-Independent Receptive Fields) 的 GNN，它为不同模态采用独立的 GNN 和独立的感受野来提高性能。我们的结果表明，某些模态在特定数据集上的最佳 $K$ 值可能低至 1 或 2，这可能会限制 GNN 捕获全局信息的能力。为了解决这个问题，我们引入了一种基于采样的全局变压器 (Sampling-based Global Transformer)，它利用统一的全局采样来有效地整合 GNN 的全局信息。我们进行了全面的实验，证明了我们的方法优于现有方法。我们的代码已公开可用，地址为 https://github.com/CrawlScript/MIG-GT。

1.6. 原文链接

原文链接: https://arxiv.org/abs/2412.13994v1
PDF 链接: https://arxiv.org/pdf/2412.13994v1.pdf
发布状态：该论文目前作为预印本 (v1 版本) 发布在 arXiv 平台。

2. 整体概括

2.1. 研究背景与动机

推荐系统通过分析历史用户-物品交互来预测用户偏好。近年来，深度学习推动了多模态推荐系统 (Multimodal Recommendation Systems) 的发展，这类系统除了用户-物品交互数据外，还整合了丰富的多模态数据，如文本和图像，以期更全面地理解物品并提升推荐性能。

许多现有研究将多模态推荐建模为图学习任务，通过构建多模态用户-物品图，并应用图神经网络 (Graph Neural Networks, GNNs) 来学习用户和物品的表示 (representations)。GNNs 擅长捕获邻域信息，通过消息传递机制在特定跳数（即感受野，receptive field，通常用 $K$ 表示）内聚合邻居特征来丰富节点语义。

然而，本文作者观察到现有 GNNs 在多模态推荐中存在两个主要挑战或空白 (Gap)：

模态间最佳感受野差异 (Modality-dependent optimal receptive fields): 现有的 GNN 方法通常为所有模态设置相同的感受野 (即相同的 $K$ 值)。但作者通过初步实验发现，不同模态（如可学习嵌入、文本、视觉）的最佳感受野 $K$ 值是不同的。例如，在 Amazon Baby 数据集上，可学习嵌入和文本模态在 $K=3$ 时表现最佳，而视觉模态在 $K=2$ 时表现最佳（见 Figure 1）。忽略这种差异可能会限制模型性能。
GNN 捕获全局信息的能力受限 (Limited global information capture by GNNs): 当 GNN 的最佳感受野 $K$ 值较低（如 1 或 2）时，GNN 只能聚合局部邻域信息，难以捕获整个图的全局信息。这可能导致模型对长距离依赖和全局模式的理解不足。传统的变压器 (Transformers) 虽能捕获全局信息，但其二次方的计算复杂度使其难以直接应用于大型推荐图。

因此，本文的切入点是解决 GNN 在多模态推荐中感受野的模态依赖性问题，并引入一种高效的方式来弥补 GNN 在捕获全局信息方面的不足。

2.2. 核心贡献/主要发现

本文提出了一个名为 MIG-GT (Modality-Independent Graph Neural Networks with Global Transformers) 的框架，其核心贡献包括：

提出了模态独立感受野 (Modality-Independent Receptive Fields, MIRF): 该机制为不同模态（可学习嵌入、文本、视觉）的数据应用独立的图神经网络，并允许它们具有独立的、经过优化的感受野 (即不同的跳数 $K$ )。这使得每种模态可以根据其自身特性和信息传播需求进行更有效的学习，从而提升了多模态推荐的性能。
引入了基于采样的全局变压器 (Sampling-based Global Transformer, SGT): 针对 GNN 感受野受限导致难以捕获全局信息的问题，SGT 通过对图中的节点进行统一的全局采样，并在采样的子集上应用简化版变压器进行自注意力计算。这种方法有效地将全局上下文信息集成到 GNN 中，同时显著降低了计算复杂性，使其在大规模图上变得可行。
提出了变压器不平滑正则化 (Transformer Unsmooth Regularization, TUR): 为了解决 SGT 在通过自注意力机制融合信息时可能导致节点表示过于平滑、难以区分的问题，TUR 通过强制模型区分目标节点与其邻居节点以及采样的其他节点，来保持表示的区分度。
实验验证和性能提升: 论文在三个公开数据集 (Amazon Baby, Sports, Clothing) 上进行了全面的实验，结果表明 MIG-GT 在各项评估指标上显著优于或匹配了最先进的 (state-of-the-art) 基线模型，尤其在 Baby 和 Sports 数据集上取得了约 5% 的改进。值得注意的是，MIG-GT 在没有依赖于通常复杂机制（如显式建模物品-物品关系或图去噪）的情况下实现了这些改进，证明了其方法的有效性和简洁性。

3. 预备知识与相关工作

3.1. 基础概念

多模态推荐系统 (Multimodal Recommendation Systems): 这类系统旨在通过整合多种数据模态（如用户-物品交互历史、物品的文本描述、图像、视频等）来更准确地预测用户的偏好。与仅依赖单一模态（通常是交互数据）的传统推荐系统相比，多模态系统能够从更丰富的语义信息中学习，从而提供更精准、更具解释性的推荐。
图神经网络 (Graph Neural Networks, GNNs): 是一类设计用于处理图结构数据的深度学习模型。它们通过在图节点及其邻居之间传递和聚合信息来学习节点的低维向量表示（即嵌入）。GNNs 能够捕捉图的结构信息和节点特征，广泛应用于社交网络分析、知识图谱推理和推荐系统等领域。
感受野 (Receptive Field) / 跳数 (Number of Hops, $K$ ): 在 GNN 中，一个节点的感受野指的是其表示学习过程中能够接收到信息的最远邻居的距离（以跳数衡量）。例如，1跳感受野意味着节点只从其直接邻居接收信息；2跳感受野则意味着节点可以从其直接邻居和间接邻居（即邻居的邻居）接收信息。感受野的大小决定了 GNN 能够捕获的图结构的局部或更广范围的信息。
变压器 (Transformers): 是一种基于自注意力 (self-attention) 机制的神经网络架构，最初用于自然语言处理，后被广泛应用于计算机视觉等多个领域。Transformer 能够捕获输入序列中任意位置之间的长距离依赖关系，因为它为序列中的每个元素计算注意力权重，并聚合来自所有其他元素的信息。然而，其计算复杂度通常是输入序列长度的二次方，这限制了其在大规模图上的直接应用。
BPR (Bayesian Personalized Ranking): 是一种常用的成对 (pairwise) 排名优化损失函数，广泛应用于隐式反馈推荐系统。它假设用户对已交互的物品的偏好高于未交互的物品。BPR 目标是最大化已交互物品对未交互物品的相对排名，而不是预测具体的评分值。其损失函数通常形式为： $\mathcal{L}_{\mathrm{BPR}} = -\sum_{(u, i, j) \in D_S} \ln \sigma(\hat{x}_{ui} - \hat{x}_{uj})$ 其中， $D_S$ 是训练集，包含三元组 (u, i, j) 表示用户 $u$ 偏好物品 $i$ 胜过物品 $j$ ； $\hat{x}_{ui}$ 和 $\hat{x}_{uj}$ 分别是模型预测的用户 $u$ 对物品 $i$ 和 $j$ 的偏好分数； $\sigma(\cdot)$ 是 Sigmoid 函数。
NDCG (Normalized Discounted Cumulative Gain) 与 Recall: 推荐系统常用的评估指标。Recall@K 衡量的是在推荐列表前 $K$ 个项目中，有多少用户实际感兴趣的物品被成功推荐。NDCG@K 关注推荐的排名质量，它对出现在推荐列表靠前位置的相关物品给予更高的权重，并根据理想排名进行归一化，更全面地评估了推荐列表的有效性。

3.2. 前人工作

3.2.1. 用于推荐的图神经网络 (Graph Neural Networks for Recommendation)

该领域的研究将用户-物品交互建模为二分图，并利用 GNN 来学习用户和物品的嵌入 (embeddings)。

GCMC (Graph Convolutional Matrix Completion): 使用图卷积网络 (GCN) 构建自编码器进行推荐。
PinSage: 为大型数据集设计，结合 GNN 和采样技术。
NGCF (Neural Graph Collaborative Filtering): 设计 GNN 来增强节点及其邻域之间的交互信号捕获。
LightGCN: 简化 GNN 架构，移除 GCN 层中的非线性变换和激活函数，以实现更有效的消息传递。
UltraGCN: 提出了一种新的范式，通过基于约束的损失函数替代显式的 GNN 操作。
ApeGNN: 根据局部结构自适应地聚合信息，捕获多样化的模式。
MGDN (Markov Graph Diffusion for Neural Collaborative Filtering): 本文所使用的 GNN 基础模型，它能够泛化 LightGCN 并提供灵活的控制来平衡自信息和邻居信息。

3.2.2. 图变压器 (Graph Transformers)

Transformer 能够捕获全局信息，但由于其相对于节点数量的二次方复杂度，在大型图上的效率低下。

SGFormer (Simplifying and Empowering Transformers for Large-Graph Representations): 和 Polynormer (Polynomial-Expressive Graph Transformer in Linear Time) 等近期工作通过移除 softmax 归一化，将复杂度降低到线性。这些方法通常将图 Transformer 的输出与 GNN 模型结合，但在融合策略上有所不同。

3.2.3. 多模态推荐 (Multimodal Recommendation)

早期工作主要通过结合可学习嵌入和视觉特征来增强 BPR (如 VBPR)。

VECF (Visual Explanations based on Multimodal Attention Network): 利用 VGG 进行图像预处理和区域特定注意力来提取物品视觉特征。
MMGCN (Multi-modal Graph Convolution Network): 是早期且典型的 GNN 应用于多模态推荐的研究，它构建了模态感知图，并为每种模态应用独立的 GNN 来学习模态特定特征，然后进行聚合。
GRCN (Graph-Refined Convolutional Network): 通过优化用户-物品图结构，筛选掉误导性连接来进一步发展 MMGCN 的概念。
DualGNN (Dual Graph Neural Network): 引入用户共现图和特征偏好模块来捕捉多模态物品特征动态。
LATTICE (Mining Latent Structures for Multimedia Recommendation): 执行模态感知结构学习，为每种模态分别获取物品-物品结构，然后进行组合。
FREEDOM (Freezing and Denoising Graph Structures for Multimodal Recommendation): 通过冻结物品-物品图结构和去噪用户-物品交互图来简化流程。

3.3. 技术演进

多模态推荐领域的技术演进可以概括为以下几个阶段：

早期融合阶段: 将多模态特征（如视觉、文本特征）直接与传统的协同过滤模型（如矩阵分解 MF、BPR）结合，作为额外的输入或辅助信息。例如 VBPR。
GNN 引入阶段: 认识到用户-物品交互的图结构特性，引入 GNN 来建模和学习用户和物品的嵌入。MMGCN 是这一阶段的代表，它为不同模态分别构建 GNN，但通常对所有模态采用统一的 GNN 传播机制。
GNN 优化阶段: 在 GNN 的基础上进一步优化图结构、消息传递机制或考虑噪声。GRCN、DualGNN 通过图结构优化，LATTICE 和 FREEDOM 通过显式建模物品-物品关系来提升性能。
本文的创新阶段: 本文 MIG-GT 关注 GNN 自身在多模态场景下的内在局限性：
- 模态间感受野差异: 提出 MIRF 解决不同模态对邻域信息聚合范围的不同需求。
- 全局信息缺失: 提出 SGT 以高效地引入全局上下文，克服 GNN 局部感受野的限制。

3.4. 差异化分析

MIG-GT 与现有方法的核心区别和创新点在于：

模态独立感受野 (MIRF): 大多数现有 GNN 方法（包括 MMGCN 等）虽然对不同模态使用单独的 GNN，但通常会统一设置所有模态的感受野 (即 $K$ 值)。MIG-GT 明确指出并实验证明了不同模态的最佳 $K$ 值是不同的，并提出了为每种模态独立选择 $K$ 的机制，这是一种细粒度的优化。
高效的全局信息捕获 (SGT): 虽然一些方法（如 LATTICE、FREEDOM）通过构建物品-物品图或去噪机制来间接捕获更广范围的信息，但 MIG-GT 采用了一种更为直接且高效的方式来整合全局信息——通过基于采样的 Transformer。这种方法避免了显式构建复杂的物品-物品图，也无需复杂的去噪过程，从而在保持模型简洁性的同时提升了性能。
模型复杂度与效率: 传统的 Transformer 由于二次方复杂度不适用于大规模图，而 MIG-GT 的 SGT 通过统一全局采样，将 Transformer 的注意力计算限制在少量采样的节点上，显著降低了复杂度，使其在大规模推荐系统中的应用成为可能。
无需复杂图结构优化: 许多高性能的基线模型（如 FREEDOM）依赖于复杂的图去噪或显式物品-物品关系建模。MIG-GT 在不使用这些机制的情况下，通过 MIRF 和 SGT 依然能够超越或匹配这些模型，表明其方法的通用性和有效性。

4. 方法论

4.1. 方法原理

MIG-GT (Modality-Independent Graph Neural Networks with Global Transformers) 框架的核心思想是解决多模态推荐中 GNN 的两个主要局限性：

模态间最佳感受野的差异： 不同的模态可能需要不同范围的邻域信息才能达到最佳效果。例如，视觉特征可能更强调局部相似性，而文本特征可能需要更广阔的上下文。
GNN 感受野受限导致全局信息捕获不足： 当最佳感受野 $K$ 较小（如 1 或 2 跳）时，GNN 难以捕获图中的全局依赖和长距离信息。

为了解决这些问题，MIG-GT 提出了两个主要组件：

模态独立感受野 (Modality-Independent Receptive Fields, MIRF): 为每种模态（可学习嵌入、文本、视觉）分别使用独立的 GNN，并允许它们拥有各自独立的、经过优化的感受野 $K^{(M)}$ 。
基于采样的全局变压器 (Sampling-based Global Transformer, SGT): 通过对全局节点进行均匀采样，然后在采样节点和目标节点之间应用一个简化的 Transformer，以高效地捕获全局信息，同时避免了传统 Transformer 的高计算复杂度。SGT 还引入了变压器不平滑正则化 (Transformer Unsmooth Regularization, TUR) 来确保节点表示的区分度。

4.2. 整体框架 (Overall Framework)

下图（原文 Figure 3）展示了 MIG-GT 的整体框架：

Figure 3: Overall Framework of Modality-Independent Graph Neural Networks with Global Transformers (MIG-GT
该图像是关于融合图神经网络与全局变换器的总体框架示意图。图中展示了多模态用户-项目图、各模态的图（嵌入、文本、视觉）及其特征提取过程，采用了 $MGDN(hop=K)$ 方法进行消息传递，并引入了基于全局采样的变换器以整合全局信息。

Figure 3: Overall Framework of Modality-Independent Graph Neural Networks with Global Transformers (MIG-GT

该框架以用户-物品交互图作为输入，其中用户和物品作为节点，交互作为边。每个物品还关联着多模态数据，如文本和图像。框架主要由两大部分构成：

模态独立感受野 (MIRF): 针对不同模态的数据（可学习嵌入、文本、视觉），分别应用独立的 GNN。首先，每个模态的原始特征通过 MLP 编码器（对于可学习嵌入，直接使用）转换为 $d$ 维特征向量。然后，这些编码后的特征通过独立的 MGDN 模型进行消息传播，每个 MGDN 具有其模态特定的感受野 $K^{(M)}$ 。最终，来自不同模态的 $d$ 维节点表示通过求和池化 (sum-pooling) 聚合成一个统一的多模态节点表示 $Z$ 。
基于采样的全局变压器 (SGT): 在获得多模态节点表示 $Z$ 后，SGT 模块被应用于捕获全局信息。对于每个目标节点，它从全局节点集合中均匀采样 $C$ 个节点，并与目标节点一起形成一个短序列。一个简化的 Transformer 在这个短序列上执行自注意力，以丰富目标节点的表示，使其融入全局上下文。为了防止表示过于平滑，还引入了 Transformer 不平滑正则化 (TUR)。

4.3. 模态独立感受野 (Modality-Independent Receptive Fields, MIRF)

MIRF 组件为不同模态的特征应用独立的 GNN。每个 GNN 都遵循“编码-传播”的框架。

4.3.1. 特征编码

首先，每个模态的原始特征通过一个多层感知机 (MLP) 编码器转换为统一的 $d$ 维向量。设 $X^{(M)} \in \mathbb{R}^{|N| \times d^{(M)}}$ 表示模态 $M$ 的原始节点特征矩阵，其中 $|N|$ 是节点总数， $d^{(M)}$ 是模态 $M$ 的原始特征维度。编码后的特征向量表示为： $\tilde{X}^{(M)} = \mathrm{MLP}(X^{(M)}) \in \mathbb{R}^{|N| \times d}$ 其中 $d$ 是最终节点表示的维度，且通常 $d \ll |N|$ 。一个例外是可学习嵌入模态 (learnable embedding modality)，其 $X^{(E)} \in \mathbb{R}^{|N| \times d}$ 可以直接优化，因此不需要额外的 MLP，即 $\tilde{X}^{(E)} = X^{(E)}$ 。对于用户节点在文本或视觉模态下可能缺失特征的情况，它们被赋值为零向量，以匹配其他节点的维度。

4.3.2. 消息传播

消息传播采用 MGDN 模型，它对每个模态使用不同的感受野 $K^{(M)}$ 。首先，计算一个标准化的邻接矩阵 $\hat{A}$ ，这个矩阵在所有模态之间共享。 $\hat{A} = \tilde{D}^{-\frac{1}{2}} \tilde{A} \tilde{D}^{-\frac{1}{2}}$ 其中， $\tilde{A} = A + I$ 是带有自环的邻接矩阵（ $A$ 是原始用户-物品交互图的邻接矩阵， $I$ 是单位矩阵）， $\tilde{D}_{ii} = \sum_{j=0}^{N} \tilde{A}_{ij}$ 是 $\tilde{A}$ 的度矩阵。

MGDN 模型通过融合 $K^{(M)}$ 跳内的邻居信息来学习节点表示。其核心传播公式为： $\mathcal{Z}^{(M)} = f_{\mathrm{MGDN}}(\tilde{X}^{(M)}, A) = \left( \beta^{K^{(M)}} \hat{A}^{K^{(M)}} + \sum_{k=0}^{K^{(M)}-1} \alpha \beta^k \hat{A}^k \right) \tilde{X}^{(M)} / \Gamma$ 其中：

$\mathcal{Z}^{(M)} \in \mathbb{R}^{|N| \times d}$ 是模态 $M$ 经过 MGDN 传播后的节点表示矩阵。
$\tilde{X}^{(M)}$ 是模态 $M$ 编码后的初始特征矩阵。
$\hat{A}^k$ 表示标准化邻接矩阵的 $k$ 次幂，代表 $k$ 跳邻域的信息。
$\alpha$ 和 $\beta$ 是超参数，用于调整初始特征和传播结果的相对重要性。
$\Gamma$ 是一个归一化因子，确保 $\hat{A}^k \tilde{X}^{(M)}$ 系数之和为 1.0： $\Gamma = \beta^{K^{(M)}} + \sum_{k=0}^{K^{(M)}-1} \alpha \beta^k$ 为了提高计算效率，MGDN 的传播过程通常以迭代方式进行：

初始化: 零跳表示即为编码后的初始特征： $H^{(M, 0)} = \tilde{X}^{(M)}$
迭代传播: 对于每一跳 $k$ （从 1 到 $K^{(M)}$ ），更新节点表示，融合上一跳的传播结果和初始特征： $\boldsymbol{H}^{(M, k)} = \beta \boldsymbol{\hat{A}} \boldsymbol{H}^{(M, k-1)} + \alpha \boldsymbol{H}^{(M, 0)}$ 这里， $H^{(M, k)}$ 是模态 $M$ 在第 $k$ 跳后的节点表示。
最终表示: 经过 $K^{(M)}$ 跳传播后，最终的模态特定表示为： $\mathcal{Z}^{(M)} = H^{(M, K^{(M)})}/\Gamma$

4.3.3. 多模态融合

在获得各个模态的独立节点表示 $\mathcal{Z}^{(E)}, \mathcal{Z}^{(T)}, \mathcal{Z}^{(V)}$ 后，通过求和池化 (sum-pooling) 得到统一的多模态节点表示 $Z \in \mathbb{R}^{|N| \times d}$ ： $Z = \mathcal{Z}^{(E)} + \mathcal{Z}^{(T)} + \mathcal{Z}^{(V)}$ $z_i$ 表示 $Z$ 的第 $i$ 行，是第 $i$ 个节点的多模态表示。

4.3.4. 感受野选择

对于模态独立的感受野 $K^{(E)}, K^{(T)}, K^{(V)}$ 的选择，论文通过在验证集上进行网格搜索 (grid search) 来确定。实验表明，验证集上的最佳 $K$ 值与测试集上的表现高度一致，证明了这种选择方法的可行性。

4.4. 基于采样的全局变压器 (Sampling-based Global Transformer, SGT)

为了克服 GNN 局部感受野的限制并引入全局信息，MIG-GT 引入了 SGT。

4.4.1. 全局采样

传统的 Transformer 需要计算每对节点之间的注意力分数，导致计算和存储复杂度过高（ $O(|N|^2)$ ）。SGT 通过为每个目标节点 $z_i$ 均匀采样 $C$ 个节点表示来缓解这个问题。对于每个目标节点 $z_i$ ，构建一个矩阵 $S_i \in \mathbb{R}^{(C+1) \times d}$ 。

$S_i$ 的第一行 $s_{i1} = z_i$ 是目标节点自身的表示。
其余 $C$ 行 $s_{ij}$ （对于 $1 < j \le C+1$ ）通过从全局节点表示集 $Z$ 中均匀采样得到，即 $s_{ij} = z_k$ ，其中 $k \sim \mathrm{Uniform}(1, |N|)$ 。在每个训练步骤中，对于每个节点都会独立地进行 $C$ 次采样。通过这种方式，即使 $C$ 值很小，在整个训练过程中，每个节点也能够与大量不同的全局采样节点进行交互，从而捕获全局信息。

4.4.2. 简化变压器

在构建的 $S_i$ 矩阵上应用一个简化的 Transformer 来执行自注意力操作，以丰富 $S_i$ 中节点表示的语义。输出为 $T_i \in \mathbb{R}^{(C+1) \times d}$ ： $T_i = (1 - \gamma) \mathrm{softmax}\left(\frac{QK^\top}{\sqrt{d}}\right) \mathcal{V} + \gamma S_i$ 其中：

softmax 表示行方向的 softmax 归一化。
$0 \le \gamma \le 1$ 是一个超参数，用于调整 Transformer 的残差连接，提供更大的灵活性，以调节 Transformer 输出与原始输入的集成程度。当 $\gamma=1$ 时，输出完全是残差连接的输入，即 $T_i = S_i$ 。
$Q = S_i W^{(Q)}$ , $K = S_i W^{(K)}$ , $\mathcal{V} = S_i$ 。
$W^{(Q)} \in \mathbb{R}^{d \times d^{(\text{att})}}$ 和 $W^{(K)} \in \mathbb{R}^{d \times d^{(\text{att})}}$ 是可学习的参数矩阵， $d^{(\text{att})}$ 是注意力机制的维度（超参数）。
注意： 论文中明确 $\mathcal{V} = S_i$ ，这意味着它没有像标准 Transformer 那样使用单独的 $W^{(V)}$ 投影矩阵，这是一种简化。

在自注意力计算完成后，SGT 提取 $T_i$ 的第一行作为第 $i$ 个节点的最终表示。最终的节点表示矩阵记为 $\tilde{Z} \in \mathbb{R}^{|N| \times d}$ ，其中 $\tilde{z}_i = T_{i1}$ 。其余行 $\{T_{ij} | j > 1\}$ 不作为最终节点表示，但会用于正则化。用户 $u_i$ 和物品 $v_j$ 的最终表示分别表示为 $\tilde{u}_i = \tilde{z}_i$ 和 $\tilde{v}_j = \tilde{z}_{j+|U|}$ 。

4.4.3. 变压器不平滑正则化 (Transformer Unsmooth Regularization, TUR)

SGT 模块通过自注意力机制融合了目标节点与采样节点的信息。这种信息融合可能会导致节点表示过于平滑，使得原本不同的节点（如目标节点和其邻居）的表示变得难以区分。为了防止这种“平滑化”问题，MIG-GT 引入了 TUR。 TUR 的核心思想是，对于一个目标节点 $z_i$ 和其一个邻居节点 $z_k$ （即 $A_{ik}=1$ ），模型应该能够区分 $z_i$ 的最终表示 $\tilde{z}_i$ 与 SGT 模块输出 $T_i$ 中的其他采样节点表示。正则化损失 $\mathcal{L}_{\mathrm{TUR}}$ 计算方式如下： $\mathcal{L}_{\mathrm{TUR}} = - \sum_{A_{ik}=1} \log \left( \frac{\exp(\tilde{z}_k^\prime T_{i1})}{\sum_{j=1}^{C+1} \exp(\tilde{z}_k^\prime T_{ij})} \right)$ 其中：

$A_{ik}=1$ 表示节点 $i$ 和 $k$ 之间存在边，即 $z_k$ 是 $z_i$ 的一个邻居。
$\tilde{z}_k^\prime$ 表示邻居节点 $k$ 的最终表示的转置。
$T_{i1}$ 是目标节点 $i$ 经过 SGT 后的表示（即 $\tilde{z}_i$ ）。
$T_{ij}$ 是 SGT 输出矩阵 $T_i$ 中的第 $j$ 行，代表了序列中第 $j$ 个节点的表示（包括目标节点和 $C$ 个采样节点）。这个损失函数本质上是一个负对数似然，它促使 $\tilde{z}_k$ 与 $T_{i1}$ （即 $\tilde{z}_i$ ）的点积尽可能大，而与 $T_i$ 中其他采样节点表示的点积相对较小。这鼓励模型在进行全局信息融合的同时，保持目标节点与其邻居表示的独特性和区分度。

4.5. 模型优化 (Model Optimization)

MIG-GT 使用 Adam 优化器 (Adam optimizer) 进行训练，优化一个包含排名损失、TUR 损失和 L2 正则化的组合损失函数： $\mathcal{L}_{\mathrm{rec}} = \mathcal{L}_{\mathrm{rank}}(\tilde{Z}) + \mathcal{L}_{\mathrm{TUR}}(\tilde{Z}, T) + \Psi_{\mathrm{L2}} \mathcal{L}_{\mathrm{L2}}(\tilde{Z})$ 其中：

$\mathcal{L}_{\mathrm{rank}}(\tilde{Z})$ 是排名损失，用于优化推荐排名。
$\mathcal{L}_{\mathrm{TUR}}(\tilde{Z}, T)$ 是上述的变压器不平滑正则化损失。
$\mathcal{L}_{\mathrm{L2}}(\tilde{Z})$ 是 L2 正则化损失，用于防止过拟合， $\Psi_{\mathrm{L2}}$ 是其系数。对于排名损失，本文采用流行的 BPR 损失 (Bayesian Personalized Ranking loss)： $\mathcal{L}_{\mathrm{BPR}} = - \sum_{B_{ij}=1} \mathbb{E}_{v_k \sim p(v)} \log \sigma \big( \tilde{u}_i^\prime \tilde{v}_j - \tilde{u}_i^\prime \tilde{v}_k \big)$ 其中：
$\sigma$ 表示 sigmoid 激活函数。
$B_{ij}=1$ 表示用户 $i$ 与物品 $j$ 存在交互。
$\mathbb{E}_{v_k \sim p(v)}$ 表示从图中随机采样的未交互物品 $v_k$ 的期望。
$\tilde{u}_i^\prime \tilde{v}_j$ 是用户 $i$ 对已交互物品 $j$ 的偏好分数（通过其最终表示的点积计算）。
$\tilde{u}_i^\prime \tilde{v}_k$ 是用户 $i$ 对随机采样未交互物品 $k$ 的偏好分数。 BPR 损失的目标是最大化用户对已交互物品的偏好分数与对随机采样的未交互物品的偏好分数之间的差异。

5. 实验设置

5.1. 数据集

实验使用了三个公开的 Amazon 评论数据集，这些数据集经过预处理并被先前的研究广泛采用。

来源: Amazon review datasets (He and McAuley 2016a)。
预处理: 所有数据集都经过 5-core 阈值过滤，即用户和物品都至少有 5 次交互。
多模态特征:
- 视觉特征 (Visual features): 4096 维嵌入向量，通过预训练的卷积神经网络 (CNNs) 提取。
- 文本特征 (Text features): 384 维嵌入向量，通过 sentence-transformers 从物品标题、描述、类别和品牌中提取。
  
  以下是原文 Table 1 提供的各数据集统计信息：
  
  Dataset Users Items Interactions Sparsity
  
  Baby 19,445 7,050 160,792 99.88%
  
  Sports 35,598 18,357 296,337 99.95%
  
  Clothing 39,387 23,033 278,677 99.97%
特点和领域: 这些数据集代表了电子商务平台中的不同商品类别（婴儿用品、运动与户外、服装鞋包），具有不同的用户、物品数量和交互密度，有助于全面评估模型的性能和泛化能力。

Dataset	Users	Items	Interactions	Sparsity
Baby	19,445	7,050	160,792	99.88%
Sports	35,598	18,357	296,337	99.95%
Clothing	39,387	23,033	278,677	99.97%

5.2. 评估指标

为了与先前研究保持一致，实验采用两个广泛使用的评估指标：Recall@K 和 Normalized Discounted Cumulative Gain@K (NDCG@K)。本文报告了 $K=10$ 和 $K=20$ 时的结果。

Recall@K (R@K):
- 概念定义: Recall@K 衡量的是在模型推荐给用户的 $K$ 个物品中，有多少是用户真正感兴趣（即在测试集中有交互）的物品。它关注的是模型找到所有相关物品的能力，即“召回”了多少。
- 数学公式: $\mathrm{Recall@K} = \frac{1}{|U|} \sum_{u \in U} \frac{|\{\text{top-K recommended items for } u\} \cap \{\text{relevant items for } u\}|}{|\{\text{relevant items for } u\}|}$
- 符号解释:
  - $U$ : 用户集合。
  - $u$ : 集合 $U$ 中的一个用户。
  - $\{\text{top-K recommended items for } u\}$ : 模型为用户 $u$ 生成的排名最高的 $K$ 个推荐物品集合。
  - $\{\text{relevant items for } u\}$ : 用户 $u$ 在测试集中实际交互过的（即相关的）物品集合。
  - $|\cdot|$ : 集合的基数（元素数量）。
Normalized Discounted Cumulative Gain@K (NDCG@K):
- 概念定义: NDCG@K 是一种更精细的排名质量指标。它不仅考虑相关物品是否被推荐，还考虑其在推荐列表中的位置。排名越靠前的相关物品，其贡献的增益越高，并对不同用户的理想排名进行归一化，使得不同用户间的 DCG 值具有可比性。在隐式反馈场景中，通常将用户交互过的物品视为相关度 1，未交互过的视为相关度 0。
- 数学公式: 首先计算 Discounted Cumulative Gain (DCG@K)： $\mathrm{DCG@K} = \sum_{i=1}^{K} \frac{2^{\mathrm{rel}_i} - 1}{\log_2(i+1)}$ 然后计算 Ideal Discounted Cumulative Gain (IDCG@K)，即完美排名下的 DCG： $\mathrm{IDCG@K} = \sum_{i=1}^{K} \frac{2^{\mathrm{rel}_{i_{ideal}}} - 1}{\log_2(i+1)}$ 最后计算 NDCG@K： $\mathrm{NDCG@K} = \frac{\mathrm{DCG@K}}{\mathrm{IDCG@K}}$
- 符号解释:
  - $K$ : 推荐列表的长度。
  - $i$ : 推荐列表中的位置索引，从 1 到 $K$ 。
  - $\mathrm{rel}_i$ : 在推荐列表位置 $i$ 上的物品的相关性得分。对于隐式反馈，通常是二值的 (1 表示相关，0 表示不相关)。
  - $\mathrm{rel}_{i_{ideal}}$ : 在理想（完美）排名中，位置 $i$ 上的物品的相关性得分。

5.3. 对比基线

实验将 MIG-GT 与两类基线模型进行比较，所有基线都使用 BPR 作为排名损失。

不使用多模态数据的模型 (Non-multimodal models):
- MF (Matrix Factorization): 经典的协同过滤方法。
- LightGCN: 简化 GNN 推荐模型。
- ApeGNN: 自适应聚合 GNN 推荐模型。
- MGDN: LightGCN 的泛化模型，也是 MIG-GT 中 MIRF 部分的 GNN 基础。
使用多模态数据的推荐模型 (Multimodal recommendation models):
- VBPR (Visual Bayesian Personalized Ranking): 早期将视觉特征整合到 BPR 中的模型。
- MMGCN (Multi-modal Graph Convolution Network): 典型的多模态 GNN 推荐模型，为不同模态使用独立的 GNN。
- GRCN (Graph-Refined Convolutional Network): 通过优化用户-物品图结构来改进 MMGCN。
- DualGNN (Dual Graph Neural Network): 引入用户共现图和特征偏好模块。
- SLMRec (Self-Supervised Learning for Multimedia Recommendation): 基于自监督学习的多媒体推荐模型。
- LATTICE (Mining Latent Structures for Multimedia Recommendation): 通过模态感知结构学习构建物品-物品关系。
- FREEDOM (Freezing and Denoising Graph Structures for Multimodal Recommendation): 通过冻结物品-物品图结构和去噪用户-物品交互图来实现。这是 MIG-GT 的主要 SOTA 基线。

5.4. 参数设置

为了确保公平比较，数据集划分为 80% 训练集、10% 验证集和 10% 测试集。所有报告的性能是五次不同随机种子运行结果的平均值。超参数调优通过在验证集上进行网格搜索完成，选择在验证集上表现最佳的组合。

模态独立感受野 $K^{(M)}$ : 搜索范围为 $K^{(M)} \le 4$ 。
Transformer 中的 $\gamma$ : 搜索范围在 0.8 和 0.9 之间。
学习率 (Learning rate): 搜索范围为 $\{1 \times 10^{-2}, 1 \times 10^{-3}\}$ 。
L2 正则化系数: 搜索范围为 $\{1 \times 10^{-4}, 1 \times 10^{-5}\}$ 。

6. 实验结果与分析

6.1. 核心结果分析

以下是原文 Table 2 报告的不同推荐模型在三个数据集上的性能比较：

Method	Multimodal	GNN	R@10	R@20	N@10	N@20	R@10	R@20	N@10	N@20	R@10	R@20	N@10	N@20
			Baby	Sports	Clothing
MF	X		0.0357	0.0575	0.0192	0.0249	0.0432	0.0653	0.0241	0.0298	0.0206	0.0303	0.0114	0.0138
LightGCN	X	X	0.0479	0.0754	0.0257	0.0328	0.0569	0.0864	0.0311	0.0387	0.0361	0.0544	0.0197	0.0243
ApeGNN	X		0.0501	0.0775	0.0267	0.0338	0.0608	0.0892	0.0333	0.0407	0.0378	0.0538	0.0204	0.0244
MGDN	X		0.0495	0.0783	0.0272	0.0346	0.0614	0.0932	0.0340	0.0422	0.0362	0.0551	0.0199	0.0247
VBPR	✓		0.0423	0.0663	0.0223	0.0284	0.0558	0.0856	0.0307	0.0384	0.0281	0.0415	0.0158	0.0192
MMGCN	✓	✗	0.0421	0.0660	0.0220	0.0282	0.0401	0.0636	0.0209	0.0270	0.0227	0.0361	0.0154	0.0154
GRCN	✓		0.0532	0.0824	0.0282	0.0358	0.0599	0.0919	0.0330	0.0413	0.0421	0.057	0.0224	0.0284
DualGNN	✓	✓	0.0513	0.0803	0.0278	0.0352	0.0588	0.0899	0.0324	0.0404	0.0452	0.0675	0.0242	0.0298
SLMRec	✓		0.0521	0.0772	0.0289	0.0354	0.0663	0.0990	0.0365	0.0450	0.0442	0.0659	0.0241	0.0296
LATTICE	✓	✓	0.0547	0.0850	0.0292	0.0370	0.0620	0.0953	0.0335	0.0421	0.0492	0.0733	0.0268	0.0330
FREEDOM	✓	✓	0.0627	0.0992	0.0330	0.0424	0.0717	0.1089	0.0385	0.0481	0.0626	0.0932	0.0338	0.0416
MIG-GT	✓	✓	0.0665	0.1021	0.0361	0.0452	0.0753	0.1130	0.0414	0.0511	0.0636	0.0934	0.0347	0.0422
Improv.			6.06%	2.92%	9.39%	6.6%	5.02%	3.76%	7.53%	6.24%	1.6%	0.21%	2.66%	1.44%

从上述实验结果可以得出以下关键观察：

多模态数据的重要性: 利用多模态数据的模型（标记为 ✓）通常比不利用多模态数据的模型（标记为 $X$ ，如 MF、LightGCN）表现更好。特别是 VBPR，作为 MF 的多模态扩展，显示出显著的性能提升，这印证了多模态数据在推荐系统中的价值。
GNN 的有效性: 基于 GNN 的方法（标记为 ✓）无论是单模态还是多模态，通常都优于非 GNN 方法（如 MF、VBPR）。这强调了 GNN 在捕获用户-物品交互图结构信息方面的强大能力。
现有 GNN 多模态方法的不足与改进: MMGCN 作为一个早期的 GNN 多模态方法，相比其他更复杂的模型（如 GRCN、DualGNN、SLMRec），性能相对较低。这表明在多模态 GNN 推荐领域仍有很大的改进空间，需要考虑更细致的特性（例如噪声交互）。
物品-物品关系建模的价值: LATTICE 和 FREEDOM 等模型通过显式建模物品-物品关系或去噪机制，通常能超越大多数基线。FREEDOM 作为当前的 SOTA (state-of-the-art) 模型，其性能在大多数情况下是最佳的。
MIG-GT 的优越性:
- MIG-GT 在 Baby 和 Sports 数据集上显著超越了 SOTA 模型 FREEDOM，性能提升分别约为 5% 和 6-9% (以 N@10 为例)。
- 在 Clothing 数据集上，MIG-GT 的表现与 FREEDOM 基本持平或略有提升。
- 值得注意的是，MIG-GT 在没有依赖于 FREEDOM 等模型所使用的复杂去噪机制或显式物品-物品关系建模的情况下，实现了这些卓越性能。这表明 MIG-GT 中提出的模态独立感受野 (MIRF) 和基于采样的全局变压器 (SGT) 是非常有效且简洁的解决方案。

6.2. 详细分析

6.2.1. 模态独立感受野 (MIRF) 的影响与选择

论文首先通过 Figure 1 展示了不同模态在不同感受野 (K 值) 下的 GNN 性能，明确指出最佳 K 值是模态依赖的。

$Figure 1: Performance of GNNs on Amazon Baby with features of different modalities at varying receptive fields (number of hops, `K _ { c }` ). "Emb" stands for learnable embeddings. The optimal $K$ i…$
该图像是图表，展示了在 Amazon Baby 数据集上，不同模态（Emb、Text 和 Visual）在不同感受野（ $K$ 值）下的 GNN 性能。图中表明，最佳的 $K$ 值依赖于模态，其中 Emb 和 Text 在 $K=3$ 时表现最佳，而 Visual 在 $K=2$ 时最佳。数据由 NDCG@20 指标衡量。

Figure 1: Performance of GNNs on Amazon Baby with features of different modalities at varying receptive fields (number of hops, K _ { c } ). "Emb" stands for learnable embeddings. The optimal $K$ is modality-dependent: Emb and Text perform best at $K = 3$ , while Visual performs best at $K = 2$ .

Figure 1 揭示: 在 Amazon Baby 数据集上，可学习嵌入 (Emb) 和文本 (Text) 模态在 $K=3$ 时 NDCG@20 达到最佳，而视觉 (Visual) 模态在 $K=2$ 时表现最好。这直接支持了为不同模态设置独立感受野的必要性。

为了进一步探究和验证 MIRF 的影响以及其可行性，论文通过热图展示了不同 $K^{(M)}$ 组合对性能的影响。

下图（原文 Figure 4）展示了在固定 $K^{(E)}=4$ 的情况下，改变 $K^{(T)}$ 和 $K^{(V)}$ 对 NDCG@20 的影响：

$Figure 4: Heatmaps showing the ${ \\mathrm { N D C G } } @ 2 0$ scores for different combinations of $K ^ { ( T ) }$ and $K ^ { ( V ) }$ .$
该图像是热图，展示了不同组合的 $K^{(T)}$ 和 $K^{(V)}$ 对 ${\mathrm{NDCG}}@20$ 分数的影响。左侧热图显示了在验证集上的得分，右侧热图则表示测试集上的得分。热图中的数值反映了不同模态下的性能表现，颜色深浅则指示得分的高低。

Figure 4: Heatmaps showing the ${ \\mathrm { N D C G } } @ 2 0$ scores for different combinations of $K ^ { ( T ) }$ and $K ^ { ( V ) }$ .

Figure 4 分析:
- 左侧热图 (a) 显示了验证集上的 NDCG@20 结果，右侧热图 (b) 显示了测试集上的结果。
- 在固定 $K^{(E)}=4$ 的情况下，验证集上的最高性能出现在 $K^{(T)}=4, K^{(V)}=2$ 或 $K^{(T)}=4, K^{(V)}=3$ (NDCG@20 约为 0.043)。
- 测试集上的最高性能出现在 $K^{(T)}=4, K^{(V)}=2$ (NDCG@20 约为 0.045)，与验证集表现出较高的一致性。
- 这表明不同的 $K^{(T)}$ 和 $K^{(V)}$ 组合确实导致了不同的性能，且最佳组合并非所有 $K$ 值都相同。
  
  下图（原文 Figure 5）展示了在固定 $K^{(T)}=2$ 的情况下，改变 $K^{(E)}$ 和 $K^{(V)}$ 对 NDCG@20 的影响：
  
  $Figure 5: Heatmaps showing the ${ \\mathrm { N D C G } } @ 2 0$ scores for different combinations of $K ^ { ( E ) }$ and $K ^ { ( V ) }$ .$ 该图像是热力图，展示了在验证集和测试集上不同 $K^{(E)}$ 和 $K^{(V)}$ 组合下的 { ext{NDCG}}@20 分数。左侧为验证集的表现，右侧为测试集的表现，色深表示分数的高低。

Figure 5: Heatmaps showing the ${ \\mathrm { N D C G } } @ 2 0$ scores for different combinations of $K ^ { ( E ) }$ and $K ^ { ( V ) }$ .

Figure 5 分析:
- 左侧热图 (a) 显示了验证集上的 NDCG@20 结果，右侧热图 (b) 显示了测试集上的结果。
- 在固定 $K^{(T)}=2$ 的情况下，验证集上的最高性能出现在 $K^{(E)}=4, K^{(V)}=2$ (NDCG@20 约为 0.043)。
- 测试集上的最高性能也出现在 $K^{(E)}=4, K^{(V)}=2$ (NDCG@20 约为 0.045)。
- 这些热图进一步证实了最佳 MIRF 配置是模态相关的，并且与所有模态使用相同感受野的设置不同。
- MIRF 选择的可行性: 通过比较验证集和测试集的热图，论文指出验证集上观察到的模式与测试集基本一致，这验证了使用验证集进行网格搜索来选择模态独立感受野的可行性。

6.2.2. 基于采样的全局变压器 (SGT) 的影响

为了验证 SGT 模块的有效性，论文进行了消融实验，并将 MIG-GT 与仅包含 MIRF 组件的模型 MIG 进行比较。同时，也与 SOTA 方法 FREEDOM 进行对比。

下图（原文 Figure 6）展示了 MIG、MIG-GT 和 FREEDOM 在不同数据集上的性能比较：

Figure 6: Impact of Sampling-based Global Transformers.
该图像是一个柱状图，展示了“MIG-GT”、“MIG”和“FREEDOM”三种方法在不同数据集（Baby、Sports、Clothing）上的表现。图中分别展示了在 recall@10 和 recall@20 以及 ndcg@10 和 ndcg@20 四个指标下的比较。图中可以看出，MIG-GT 在多个数据集上表现优越。

Figure 6: Impact of Sampling-based Global Transformers.

Figure 6 分析:
- MIG 的基线性能: MIG (仅含 MIRF，无 SGT) 在 Baby 和 Sports 数据集上已经超越了 FREEDOM。这表明 MIRF 机制本身就非常有效，能够通过模态独立感受野捕获更准确的局部信息。
- SGT 的提升作用: 在 MIG 的基础上加入 SGT 模块后，MIG-GT 的性能在所有数据集上都有进一步的提升。
  - 在 Baby 和 Sports 上，MIG-GT 进一步拉大了与 FREEDOM 的差距。
  - 在 Clothing 数据集上，虽然 MIG 略逊于 FREEDOM，但 MIG-GT 成功将其提升至超越 FREEDOM 的水平。
- 这强有力地证明了 SGT 模块能够有效地整合全局信息，进一步增强模型的推荐能力。
  
  此外，论文还对比了 SGT 与其他现有图 Transformer 方法的有效性。以下是原文 Table 3 报告的不同全局 Transformer 方法对 MIG 性能的影响：

Method	R@20	N@20	R@20	N@20	R@20	N@20
	Baby	Sports	Clothing
MIG-SGFormer	0.0863	0.0376	0.0887	0.0392	0.0827	0.0363
MIG-Polynormer	0.0997	0.0436	0.1048	0.0461	0.0864	0.0386
MIG-GT	0.1021	0.0452	0.1130	0.0511	0.0934	0.0422

Table 3 分析: 结果显示，MIG-GT 在三个数据集上均优于将 SGT 替换为 SGFormer (MIG-SGFormer) 和 Polynormer (MIG-Polynormer) 的变体。这表明 MIG-GT 提出的采样机制和简化 Transformer 结构在推荐上下文中更有效，验证了其针对推荐任务设计的合理性。

6.2.3. 全局采样数量 (C) 的影响

论文研究了 SGT 中全局采样数量 $C$ 对模型性能的影响，将 $C$ 从 5 变化到 25。

下图（原文 Figure 7）展示了不同全局采样数量 $C$ 对 Recall@20 和 NDCG@20 的影响：

Figure 7: Impact of Number of Global Samples `( C )` for SGT.
该图像是一个图表，展示了不同全局样本数量 $C$ 对于召回率（recall@20）和归一化折损累计增益（ndcg@20）的影响。左侧图表（(a)）表示不同数据集（Baby、Sports、Clothing）在召回率上的变化，右侧图表（(b)）展示了各数据集在ndcg@20上的表现。不同数据集在这两个指标上的变化趋势相对平稳，呈现出一定的规律性。

Figure 7: Impact of Number of Global Samples ( C ) for SGT.

Figure 7 分析:
- 当 $C$ 从 5 增加到 10 时，所有数据集的性能（Recall@20 和 NDCG@20）都有明显的提升。
- 将 $C$ 进一步增加到 15 或 20，在某些数据集上性能仍有小幅提升，但在 Sports 数据集上，性能趋于平稳，甚至在 Baby 数据集上，当 $C$ 增加到 25 时，NDCG@20 略有下降。
- 这表明，即使只使用 10 或 20 个全局样本，SGT 也能显著提升性能。这验证了小规模采样足以捕获有用的全局上下文信息，并使其在大规模图上的应用变得高效。

6.2.4. MIG-GT 的训练效率

论文通过比较 MIG-GT 和 FREEDOM 的测试性能 (NDCG@20) 随训练时间（秒）的变化，来评估 MIG-GT 的训练效率。选择训练时间而非 epoch 是因为 epoch 的定义在不同推荐任务中可能不一致。

下图（原文 Figure 8）展示了 FREEDOM 和 MIG-GT 在训练过程中 ndcg@20 随时间的变化：

Figure 8: Test performance (ndcg $\textcircled{2} 2 0 )$ during training.

Figure 8 分析:
- 在 Baby 和 Sports 数据集上，MIG-GT 在训练早期就达到了并超越了 FREEDOM 的最终性能，并且最终性能更高。
- 在 Clothing 数据集上，尽管 MIG-GT 的最终性能与 FREEDOM 持平，但它更快地收敛并达到了最佳结果。
- 这表明 MIG-GT 具有更高的训练效率，能够更快地达到高性能水平。这得益于其避免了 FREEDOM 中复杂的去噪机制和显式物品-物品关系建模。

6.2.5. 与基于对比学习 (CL) 方法的比较

论文还与基于对比学习 (Contrastive Learning, CL) 的 GNN 推荐方法进行了比较。作者构建了一个 MIG-GT-CL 变体，将 InfoNCE 损失（一种典型的 CL 损失）集成到 MIG-GT 中。

以下是原文 Table 4 报告的与基于 CL 方法的比较结果：

Method	R@20	N@20	R@20	N@20	R@20	N@20
	Baby	Sports	Clothing
MMSSL	0.0971	0.0420	0.1013	0.0474	0.0797	0.0359
MGCN	0.0964	0.0427	0.1106	0.0496	0.0945	0.0428
LGMRec	0.1002	0.0440	0.1068	0.0480	0.0828	0.0371
MIG-GT	0.1021	0.0452	0.1130	0.0511	0.0934	0.0422
MIG-GT-CL	0.1022	0.0451	0.1120	0.0505	0.0946	0.0428

Table 4 分析:
- MIG-GT 在不使用 CL 的情况下，已经超越了大多数基于 CL 的基线方法 (MMSSL, MGCN, LGMRec)。
- 当简单地将 InfoNCE 对比学习损失添加到 MIG-GT 中 (MIG-GT-CL) 时，模型性能进一步提升，在 Clothing 数据集上达到了最佳。
- 这表明 MIG-GT 的核心组件（MIRF 和 SGT）是有效的，并且可以与其他先进技术（如 CL）结合，进一步提升性能。

6.3. 个人总结

总的来说，实验结果充分证明了 MIG-GT 在多模态推荐任务上的优越性。其创新点在于：

模态特异性处理: 针对不同模态信息传播规律的差异，提出了模态独立的感受野，使得每种模态都能在最合适的“视野”内聚合信息，避免了“一刀切”的局限。
全局-局部平衡: 通过 SGT 模块，MIG-GT 在 GNN 捕获局部信息的基础上，高效地融入了全局上下文，弥补了 GNN 在处理长距离依赖上的不足，且避免了传统 Transformer 的高昂计算成本。
简洁高效: MIG-GT 在不依赖复杂的图去噪或显式物品-物品关系建模的情况下，实现了 SOTA 或超越 SOTA 的性能，展现了其方法本身的简洁和有效。

7. 总结与思考

7.1. 结论总结

本研究深入探索了多模态推荐系统中的图神经网络 (GNNs) 应用。论文的核心发现是，GNN 的最佳感受野 (即传播跳数 $K$ ) 在不同模态之间存在显著差异，且低 $K$ 值会限制 GNN 捕获全局信息的能力。

为了解决这些问题，论文提出了 MIG-GT 框架，包含两个主要创新点：

模态独立感受野 (Modality-Independent Receptive Fields, MIRF): 该组件为可学习嵌入、文本和视觉等不同模态分别配备独立的 GNN，并允许这些 GNN 拥有各自独立的、经过验证的优化感受野。这使得模型能够更精细地根据每种模态的特性进行信息聚合，从而提升了推荐性能。
基于采样的全局变压器 (Sampling-based Global Transformer, SGT): 为了弥补 GNN 局部感受野对全局信息捕获的限制，SGT 模块通过对全局节点进行均匀采样，并在目标节点和少量采样节点之间应用一个简化的 Transformer。这种方法高效地将全局上下文信息融入节点表示，同时避免了传统 Transformer 的二次方计算复杂度，使其在大规模图上可行。论文还引入了变压器不平滑正则化 (Transformer Unsmooth Regularization, TUR) 以保持节点表示的区分度。

通过在三个 Amazon 数据集上的全面实验，MIG-GT 在 Recall@K 和 NDCG@K 等关键评估指标上显著优于或匹配了最先进的基线模型，并且展示了更高的训练效率。这些结果验证了 MIRF 和 SGT 机制的有效性。

7.2. 局限性与未来工作

论文中未明确列出专门的“局限性”部分，但从其设计和实验分析中可以推断出一些潜在的局限性和未来的研究方向：

感受野 $K$ 的选择： 论文通过在验证集上进行网格搜索来选择最佳的模态独立感受野 $K^{(M)}$ 。尽管实验证明这种方法可行，但在实际大规模应用中，为每个模态手动搜索最佳 $K$ 值可能耗时。未来的工作可以探索自适应地学习或动态调整不同模态的感受野大小。
全局采样策略的优化： SGT 采用的是统一的全局采样。虽然这种方法高效且有效，但更复杂的采样策略（例如，基于节点重要性、结构或语义相似性的采样）可能会进一步提高全局信息捕获的质量和效率。
SGT 的泛化性： 论文证明了 SGT 在推荐系统中的有效性，但其在其他图学习任务（如节点分类、链接预测）上的泛化性尚待进一步验证。
模型复杂性与可解释性： 虽然 MIG-GT 避免了某些基线中复杂的去噪和图结构建模，但引入了多模态独立的 GNN 和 Transformer 模块，这增加了模型的整体复杂性。对于初学者或需要高度可解释性场景，如何更好地理解不同模态的贡献和 SGT 内部的注意力机制，仍是一个挑战。
与其他高级 GNN 技术的融合： 论文展示了与对比学习 (CL) 的良好结合。未来可以探索 MIG-GT 与其他先进 GNN 技术（如自监督学习、异构图 GNN 等）的融合潜力，以期进一步提升性能。
对稀疏交互数据的处理： 推荐系统通常面临严重的交互数据稀疏性问题。虽然多模态信息有助于缓解，但 MIG-GT 显式地处理稀疏性或冷启动用户的能力，还可以进一步探讨。

7.3. 个人启发与批判

7.3.1. 个人启发

“不均衡”原则的价值：这篇论文最大的启发在于其“模态独立感受野”的设计。它挑战了 GNN 领域中普遍存在的“为所有组件/模态设置统一超参数”的隐含假设。这提醒我们，在设计多模态或多视图模型时，应更深入地思考不同模态的固有特性和信息传播需求，不应简单地一视同仁。某些模态可能只需要局部信息，而另一些可能需要更广阔的上下文，这种不均衡性是提升性能的关键。
“轻量级全局信息”的解决方案： SGT 提供了一个优雅且高效的全局信息捕获方案。在大型图上直接应用 Transformer 的计算开销是巨大的，但通过智能的采样，SGT 成功地在效率和全局上下文之间取得了平衡。这种“采样+简化 Transformer”的模式对于其他需要全局信息但计算资源受限的图任务具有很强的借鉴意义。
简洁而强大的力量： MIG-GT 在不依赖于复杂的图去噪或显式构建物品-物品关系图（这些通常是 SOTA 模型的复杂组成部分）的情况下，仍能超越或匹配现有 SOTA 模型。这表明，有时最直接、最专注于核心问题的解决方案反而能产生更强大的效果。

7.3.2. 批判

超参数敏感性与手动调优： 模态独立感受野 $K^{(M)}$ 的确定目前依赖于网格搜索，这可能在模型扩展到更多模态或更大、更复杂的数据集时变得非常耗时和计算密集。虽然论文展示了验证集与测试集的一致性，但仍然是一种启发式而非自动化的过程。未来的研究可以探索如何通过元学习 (meta-learning) 或强化学习 (reinforcement learning) 等方式，实现 $K^{(M)}$ 的自适应学习。
SGT 采样的随机性与稳定性： SGT 采用均匀随机采样。虽然这有助于捕获广泛的全局信息，但其每次训练步的随机性是否会影响训练的稳定性或收敛速度？更具策略性的采样方法（例如，考虑节点重要性、连接强度或语义相关性）是否能带来进一步的性能提升和更稳定的训练？这种改进可能会增加复杂性，但值得探索。
Transformer 简化与信息损失： SGT 中 Transformer 将 $\mathcal{V}$ 设为 $S_i$ ，而不是像标准 Transformer 那样使用 $S_i W^{(V)}$ 。这种简化虽然有助于效率，但可能会限制模型从值 (Value) 向量中提取特征表示的灵活性和深度。这是一种权衡，但其对最终性能的影响值得更深入的消融研究和理论分析。
TUR 的通用性： Transformer 不平滑正则化 TUR 的设计是为了解决 SGT 可能导致的表示平滑问题。虽然其在本文中有效，但其在不同图结构、不同模态组合或不同 Transformer 变体下的通用性和鲁棒性如何？它是否会过度惩罚某些有益的平滑化，或者其超参数的选择是否高度敏感？

总的来说，MIG-GT 是一项富有洞察力的工作，它针对多模态推荐中 GNN 的核心挑战提出了创新且高效的解决方案。其方法论的简洁性和实验结果的强大性使其在领域内具有显著的影响力。

相似论文推荐

基于向量语义检索推荐的相关论文。

暂时没有找到相似论文。