论文状态：已完成

DiffCL: A Diffusion-Based Contrastive Learning Framework with Semantic Alignment for Multimodal Recommendations

发表：2025/01/02

原文链接 PDF 下载

价格：0.100000

已有 1 人读过

本分析由 AI 生成，可能不完全准确，请以原文为准。

TL;DR 精炼摘要

本文提出DiffCL，一种基于扩散模型的多模态推荐对比学习框架。其通过扩散生成对比视图减少噪声，利用稳定的ID嵌入实现跨模态语义对齐，并引入物品-物品图缓解数据稀疏性，显著提升推荐性能。

摘要

Multimodal recommendation systems integrate diverse multimodal information into the feature representations of both items and users, thereby enabling a more comprehensive modeling of user preferences. However, existing methods are hindered by data sparsity and the inherent noise within multimodal data, which impedes the accurate capture of users' interest preferences. Additionally, discrepancies in the semantic representations of items across different modalities can adversely impact the prediction accuracy of recommendation models. To address these challenges, we introduce a novel diffusion-based contrastive learning framework (DiffCL) for multimodal recommendation. DiffCL employs a diffusion model to generate contrastive views that effectively mitigate the impact of noise during the contrastive learning phase. Furthermore, it improves semantic consistency across modalities by aligning distinct visual and textual semantic information through stable ID embeddings. Finally, the introduction of the Item-Item Graph enhances multimodal feature representations, thereby alleviating the adverse effects of data sparsity on the overall system performance. We conduct extensive experiments on three public datasets, and the results demonstrate the superiority and effectiveness of the DiffCL.

思维导图

论文精读

中文精读约 38 分钟读完 · 24,352 字

1. 论文基本信息

1.1. 标题

DiffCL: 一种用于多模态推荐的基于扩散的对比学习框架与语义对齐 (DiffCL: A Diffusion-Based Contrastive Learning Framework with Semantic Alignment for Multimodal Recommendations)

1.2. 作者

Qiya Song, Jiajun Hu, Lin Xiao, Bin Sun Member, IEEE, Xieping Gao, Shutao Li Fellow, IEEE

1.3. 发表期刊/会议

论文作为预印本 (preprint) 发布在 arXiv 平台。虽然未指明具体的期刊或会议，但 arXiv 是计算机科学和相关领域研究论文常用的预发布平台，具有较高的学术影响力，许多重要的研究成果在此发布后会提交至顶级会议或期刊。

1.4. 发表年份

2025年

1.5. 摘要

多模态推荐系统 (Multimodal Recommendation Systems, MRSs) 通过整合多样化的多模态信息到物品 (items) 和用户 (users) 的特征表示中，从而实现对用户偏好更全面的建模。然而，现有方法受限于数据稀疏性 (data sparsity) 和多模态数据固有的噪声 (inherent noise)，这阻碍了对用户兴趣偏好的准确捕获。此外，不同模态间物品语义表示的不一致性 (discrepancies in semantic representations) 可能会对推荐模型的预测精度产生不利影响。为了解决这些挑战，本文引入了一种新颖的基于扩散的对比学习框架 (diffusion-based contrastive learning framework)，命名为 DiffCL，用于多模态推荐。DiffCL 采用扩散模型 (diffusion model) 来生成对比视图 (contrastive views)，有效减轻了对比学习阶段噪声的影响。此外，它通过稳定的 ID 嵌入 (ID embeddings) 对齐不同的视觉 (visual) 和文本 (textual) 语义信息，从而提高了跨模态的语义一致性。最后，引入物品-物品图 (Item-Item Graph) 增强了多模态特征表示，从而缓解了数据稀疏性对整个系统性能的不利影响。本文在三个公共数据集上进行了广泛实验，结果表明 DiffCL 具有优越性和有效性。

1.6. 原文链接

原文链接: https://arxiv.org/abs/2501.01066v1 PDF 链接: https://arxiv.org/pdf/2501.01066v1.pdf 发布状态: 预印本 (preprint)，UTC时间 2025-01-02T05:30:19.000Z 发布。

2. 整体概括

2.1. 研究背景与动机

2.1.1. 核心问题

传统的推荐系统 (Recommendation Systems, RSs) 主要依赖用户-物品交互数据，但这种数据往往面临数据稀疏性 (data sparsity) 问题，导致模型难以准确捕捉用户偏好。随着用户需求日益复杂和多样，仅基于交互信息的推荐系统逐渐暴露出局限性。多模态推荐系统 (Multimodal Recommendation Systems, MRSs) 应运而生，通过整合视觉、文本等多种模态信息来更全面地建模用户偏好。然而，MRSs 也面临自身挑战：

多模态数据中的噪声 (Inherent Noise): 多模态数据本身可能包含噪声，影响用户兴趣偏好的准确捕获。
模态间语义表示不一致 (Semantic Discrepancies): 同一物品在不同模态（如图片和文字描述）的语义表示可能存在差异，这会干扰推荐模型的预测精度。
数据稀疏性 (Data Sparsity): 尽管引入多模态信息，但在用户-物品交互数据稀疏的场景下，如何有效利用多模态信息仍然是一个挑战。

2.1.2. 问题的重要性与现有研究的空白

准确捕捉用户兴趣偏好是推荐系统的核心目标，直接影响用户体验和平台收益。现有 MRSs 在整合多模态信息时，通常采用直观的交叉视图对比学习 (cross-view contrastive learning) 或简单的随机数据增强 (random augmentation) 技术。然而，这些方法在生成对比视图时，可能会引入与推荐结果无关的噪声信息，反而降低模型性能。此外，如何有效对齐不同模态间的语义，以及在数据稀疏环境下充分利用多模态信息，是当前研究的难点和空白。

2.1.3. 论文的切入点与创新思路

DiffCL 旨在通过以下创新点解决上述挑战：

引入扩散模型生成对比视图 (Diffusion Model for Contrastive Views): 借鉴扩散模型在数据生成领域的成功，DiffCL 利用扩散模型的前向和逆向过程生成高质量、去噪的对比视图，从而有效缓解了对比学习阶段噪声的影响。
ID 引导的跨模态语义对齐 (ID-Guided Semantic Alignment): 提出利用物品的稳定 ID 嵌入 (ID embeddings) 作为指导，对齐视觉和文本模态的语义信息，确保语义一致性。ID 嵌入的稳定性和独特性使其成为理想的对齐基准。
构建物品-物品图增强特征 (Item-Item Graph for Feature Enhancement): 引入物品-物品图 (Item-Item Graph) 来捕捉物品间的潜在语义连接，增强多模态特征表示，以缓解数据稀疏性带来的负面影响。

2.2. 核心贡献/主要发现

论文的主要贡献概括如下：

提出了一个新颖的基于扩散的对比学习框架 (DiffCL)，用于多模态推荐。该框架通过引入物品-物品图 (Item-Item Graph) 来缓解数据稀疏性，从而增强物品的语义表示。
在图对比学习阶段引入扩散模型 (Diffusion Model) 来生成对比视图，有效降低了图对比学习任务中噪声信息的影响。
利用稳定的 ID 嵌入指导语义对齐 (ID Embeddings for Semantic Alignment)，以增强不同模态之间的一致性，从而实现视觉和文本模态之间有效的互补学习。
在三个公共数据集上进行了广泛实验，证明了 DiffCL 的优越性和有效性，特别是在捕获用户偏好和提高推荐准确性方面。实验结果显示 DiffCL 在各项评估指标上均优于现有的最先进模型。

3. 预备知识与相关工作

本节将介绍理解 DiffCL 框架所需的关键概念和技术背景，并分析其与现有工作的关系。

3.1. 基础概念

3.1.1. 多模态推荐系统 (Multimodal Recommendation Systems, MRSs)

概念定义: 多模态推荐系统 (MRSs) 是一种超越传统推荐系统的信息过滤技术。传统推荐系统主要依赖用户与物品的交互历史数据。MRSs 则通过整合多种类型的信息，如商品的图片、文字描述、视频、音频等，以及用户的评论、个人资料等，来构建更丰富、更全面的用户和物品表示，从而提供更准确、更个性化的推荐。 在本文中的作用: DiffCL 关注如何更有效地利用物品的视觉和文本多模态信息来提高推荐质量，尤其是在数据稀疏和模态语义不一致的挑战下。

3.1.2. 自监督学习 (Self-supervised Learning, SSL)

概念定义: 自监督学习 (SSL) 是一种机器学习范式，它通过设计辅助任务，从无标签数据中自动生成监督信号 (supervision signals)。模型在这些辅助任务上进行训练，学习有用的特征表示，这些表示随后可用于下游任务（如推荐）。对比学习 (Contrastive Learning) 是 SSL 中一种流行的技术，其核心思想是拉近相似样本（正样本对）的表示，同时推开不相似样本（负样本对）的表示。 在本文中的作用: DiffCL 将自监督学习应用于图结构数据，即图对比学习 (Graph Contrastive Learning)，以增强用户和物品的嵌入表示。

3.1.3. 扩散模型 (Diffusion Models, DMs)

概念定义: 扩散模型 (DMs) 是一类生成模型 (generative models)，近年来在图像生成、音频合成等领域取得了显著成功。其基本思想是模拟一个前向扩散过程 (forward diffusion process)，逐步向数据中添加噪声，直到数据完全变为随机噪声。然后，模型学习一个逆向去噪过程 (reverse denoising process)，从噪声中逐步恢复出原始数据。通过学习这个逆向过程，扩散模型能够生成与训练数据分布相似的新数据。 在本文中的作用: DiffCL 创新性地将扩散模型引入图对比学习阶段，用于生成高质量的对比视图。相比于传统的随机噪声或随机丢弃方法，扩散模型能生成既相似又具有信息量的视图，同时有效减轻噪声影响。

3.1.4. 图神经网络 (Graph Neural Networks, GNNs)

概念定义: 图神经网络 (GNNs) 是一类专门处理图结构数据的深度学习模型。图数据由节点 (nodes) 和边 (edges) 组成，GNNs 通过“消息传递 (message passing)”机制，聚合节点邻居的信息来更新节点自身的表示。这使得 GNNs 能够捕捉图中的结构信息和高阶依赖关系。 在本文中的作用: DiffCL 利用图卷积网络 (Graph Convolutional Networks, GCNs)，一种常见的 GNN 变体，来处理用户-物品交互图以及多模态特征图，以捕获用户偏好和物品的高阶特征表示。

3.1.5. 图对比学习 (Graph Contrastive Learning, GCL)

概念定义: 图对比学习 (GCL) 是自监督学习在图数据上的应用。它通过对原始图进行不同的数据增强 (data augmentation) 操作，生成图的两个或多个“视图 (views)”。然后，模型学习最大化同一节点在不同视图中表示的一致性（即正样本对相似），同时最小化不同节点在不同视图中表示的一致性（即负样本对不相似），从而学习到鲁棒的节点嵌入。常见的增强策略包括节点丢弃 (node dropping)、边扰动 (edge perturbation)、属性掩蔽 (attribute masking) 和子图采样 (subgraph sampling)。 在本文中的作用: DiffCL 改进了传统的图增强策略，利用扩散模型生成对比视图，以减少噪声信息对对比学习的影响。

3.1.6. 多模态融合 (Multimodal Fusion)

概念定义: 多模态融合 (Multimodal Fusion) 是一种将来自不同模态（如视觉、文本、音频）的信息整合起来，以获得对底层信息更全面、更鲁棒的理解的技术。融合过程通常包括三个阶段：特征提取 (feature extraction)、对齐 (alignment) 和组合 (combination)。特征提取将原始模态数据转换为统一的特征表示；对齐确保不同模态的信息在时间和语义上相互关联；组合则将对齐后的特征合并，生成最终的融合表示。 在本文中的作用: DiffCL 在特征层面 (feature-level) 融合视觉和文本特征，生成更全面的物品表示。此外，它还通过 ID 嵌入指导跨模态语义对齐，以解决模态间语义不一致的问题。

3.1.7. 贝叶斯个性化排序 (Bayesian Personalized Ranking, BPR)

概念定义: 贝叶斯个性化排序 (BPR) 是一种广泛用于隐式反馈 (implicit feedback) 推荐任务的优化方法。它基于“用户更倾向于选择他们交互过的物品而非未交互的物品”这一假设。BPR 的目标是最大化用户对已交互物品的偏好超过未交互物品的概率。它通过采样三元组 (u, p, n)，其中 $u$ 是用户， $p$ 是用户交互过的正样本物品， $n$ 是用户未交互过的负样本物品，并优化一个损失函数来使 $u$ 对 $p$ 的预测分数高于 $u$ 对 $n$ 的预测分数。 在本文中的作用: DiffCL 采用 BPR 损失作为主要的推荐任务优化目标。

3.2. 前人工作

3.2.1. 多模态推荐 (Multimodal Recommendation)

早期的推荐系统专注于单模态数据，如 DUIF [27] 利用额外的用户信息增强用户特征，ACF [28] 使用注意力网络自适应学习用户偏好权重。随着多模态信息的普及，MRSs 开始整合图像、文本等多种模态。CKE [29] 结合知识图谱将图像和文本特征融入物品表示，以矩阵分解为基础。Wei 等人 [16] 使用多个图卷积网络处理不同模态信息以捕捉用户偏好线索。Zhang 等人 [30] 通过构建物品语义图提供更全面的物品表示。DiffCL 在此基础上，旨在更全面地利用物品的多模态特征，并通过构建物品-物品图 (Item-Item Graph) 增强物品特征表示。

3.2.2. 基于图的推荐模型 (Graph-based Models for Recommendation)

图神经网络 (GNNs) 在处理图结构数据方面具有独特优势，广泛应用于推荐系统。NGCF [9] 融合 GCN 架构和矩阵分解，显式编码高阶协同信号。LightGCN 提出移除 GCN 中的非线性激活函数和权重矩阵，实现更轻量高效的推荐。JMPGCF [33] 则利用图拉普拉斯范式捕捉多粒度流行度特征。近年来，自监督学习 (SSL) 与 GNNs 结合成为解决数据稀疏性问题的新方法。SGL [22] 通过不同的丢弃操作生成对比视图进行对比学习。MMSSL [26] 引入模态间对比学习以保持语义共性。DiffCL 借鉴这些方法，利用 GCN 建模用户偏好和物品多模态特征，并通过引入扩散模型改进图对比学习阶段，以降低多模态噪声的影响，实现更鲁棒和准确的推荐。

3.2.3. 推荐领域的扩散模型 (Diffusion Models for Recommendation)

扩散模型 (DMs) 在生成领域取得成功后，也被引入推荐系统。PDRec [37] 利用基于扩散的用户偏好改进序列推荐。DreamRec [38] 探索物品空间中的潜在连接，并以用户行为序列为指导生成推荐。DiffRec [39] 在去噪过程中使用 DM 生成协同信息。LD4MRec [40] 将 DM 应用于离散物品索引，并结合多模态序列信息。DiffMM [41] 通过结合跨模态对比学习和模态感知图扩散模型增强用户表示。与这些工作不同，DiffCL 提出了一种基于扩散模型的新型图对比学习组件。它利用 DM 强大的生成能力来构建更具信息量和意义的对比视图，而不是仅仅添加随机噪声，从而增强学习过程的有效性。

3.3. 差异化分析

DiffCL 的核心创新和与现有工作的区别在于：

扩散模型驱动的对比视图生成: 现有图对比学习方法多依赖简单的随机增强（如边丢弃、添加随机噪声），这些方法可能引入与推荐任务无关的噪声。DiffCL 首次将扩散模型引入图对比学习，利用其前向加噪和逆向去噪过程生成高质量、低噪声的对比视图，从而解决了传统方法中噪声视图的弊端。
ID 引导的跨模态语义对齐: 现有方法在进行多模态融合时，可能面临模态间语义不一致的问题，且某些对齐方法可能破坏历史交互信息。DiffCL 利用物品 ID 嵌入的稳定性和独特性作为桥梁，通过度量 ID 模态与视觉/文本模态特征分布的距离进行语义对齐，避免了破坏用户-物品交互信息，同时保证了跨模态语义的一致性。
物品-物品图增强多模态表示: 针对数据稀疏性问题，DiffCL 引入基于模态特定特征构建的物品-物品图，捕捉物品间的潜在语义关联，进一步增强物品的多模态特征表示，这与仅仅依赖用户-物品交互图的模型形成对比。

4. 方法论

本节将深入探讨 DiffCL 框架的详细技术方案，包括其核心组件、数学描述以及数据流。DiffCL 框架的整体工作流程如 Figure 2 所示。

$该图像是综述DiffCL模型结构的示意图，展示了用户-物品交互的多模态特征输入、图编码器的多层GCN网络、扩散对比学习过程及不同模态语义对齐与特征增强模块，图中包含扩散概率过程的转移公式$p(x_t|x_{t-1})$和$p(x_{t-1}|\\tilde{x_t})$。$
该图像是综述DiffCL模型结构的示意图，展示了用户-物品交互的多模态特征输入、图编码器的多层GCN网络、扩散对比学习过程及不同模态语义对齐与特征增强模块，图中包含扩散概率过程的转移公式 $p(x_t|x_{t-1})$ 和 $p(x_{t-1}|\tilde{x_t})$ 。

Figure 2 展示了 DiffCL 框架的整体结构。它包含三个主要部分：图编码器 (Graph Encoder) 捕获高阶用户偏好线索和协同信号；扩散图对比学习 (Diffusion Graph Contrastive Learning) 引入扩散模型构建对比视图；语义对齐与特征增强模块 (Semantic Alignment and Feature Enhancement) 通过稳定 ID 嵌入对齐语义并利用物品-物品图增强特征。图中的 $G = \{ G_m \mid G_v, G_t, G_{id} \}$ 表示三种不同的用户-物品图， $E_m$ 是 GCNs 获得的来自不同模态的特征嵌入，其中 $m \in \{ v, t, id \}$ 。 $E_m^1$ 和 $E_m^2$ 是通过扩散模型生成的对比视图，用于视觉和文本模态， $E_{id}^u$ 和 $E_{id}^i$ 分别是用户和物品的 ID 嵌入。

4.1. 问题定义

在推荐过程中，仅仅依赖用户-物品交互数据可能信息不足，无法完全反映用户的兴趣和偏好。多模态推荐系统通过整合不同模态的数据，可以更全面地捕捉用户需求，从而提供更个性化和准确的推荐。

多模态推荐系统的过程如下：给定用户集合 $U = \{ u \}$ 和物品集合 $I = \{ i \}$ ，总数量分别为 $|U|$ 和 $|I|$ 。我们首先处理原始的用户-物品 ID 交互数据，获取 ID 的嵌入特征 $E_{id}$ 。然后，通过不同的编码器获取视觉模态特征 $E_v$ 和文本模态特征 $E_t$ 。经过一系列增强和对齐操作后，我们得到最终的物品嵌入 $e_i$ 和用户嵌入 $e_u$ 。通过计算两者的内积，得到用户 $u$ 对目标物品 $i$ 的预测分数 $\hat{y}_{u,i}$ ，公式如下： $\hat{y}_{u,i} = e_u \cdot e_i^T$ 多模态推荐系统计算用户对不同物品的预测分数，并将其从高到低排序，取排名最高的 $K$ 个物品作为最终推荐列表。

4.2. 图编码器 (Graph Encoder)

一些基于图卷积网络 (GCNs) 的推荐系统研究表明，构建物品-用户异构图并使用图神经网络进行处理，能更好地捕捉用户偏好线索，从而提高整个系统的推荐准确性。受此启发，DiffCL 提出了一个图编码器组件，包含三个不同的 GCN，用于捕获不同模态的高阶特征。

首先，我们利用预训练的 ResNet50 [44] 和 BERT [47] 分别从原始数据中提取图像信息和文本信息，并编码这些模态特征。随后，图编码器组件被用来分别捕获用户-物品交互、图像和文本特征的高阶特征。

基于原始数据中的交互信息以及物品的多模态信息，我们构建了三个用户-物品图 $G = \{ G_m \mid G_v, G_t, G_{id} \}$ 。我们构建交互矩阵 $J$ 来表示交互信息，其中如果用户 $u$ 和物品 $i$ 之间存在交互，则 $j_{ui} = 1$ ，否则 $j_{ui} = 0$ 。 $G_m = \{ n, e \}$ 表示用户-物品图，其中 $m \in \{ v, t, id \}$ ， $n$ 表示节点集合， $e$ 表示图中的边集合。经过 $l$ 层 GCN 处理后的特征表示为 $E_m^{(l)}$ ，其数学表达式如下： $E_m^{(l)} = \sum_{i \in N_u} {\frac{1}{\sqrt{|N_u|}\sqrt{|N_i|}}} E_m^{(l-1)}$ 其中， $N_i$ 是图 $G_m$ 中 $i$ 的单跳邻居 (single-hop neighbor)， $N_u$ 是图 $G_m$ 中 $u$ 的单跳邻居。这实际上是 LightGCN [9] 中用于聚合邻居信息的一种简化形式。

最终的嵌入特征 $E_m$ 是不同层级特征的累加，数学表达如下： $E_m = \sum_{l=0}^{L} E_m^{(l)}$ 其中， $L$ 是 GCN 的层数， $E_m^{(0)}$ 是经过初始特征提取后的原始特征。

4.3. 扩散图对比学习 (Diffusion Graph Contrastive Learning)

近年来，扩散模型 (DM) 在数据生成领域取得了卓越成就，能够生成与原始数据高度一致的数据。受 DM 应用的启发，DiffCL 提出了一种基于 DM 的新型多模态推荐系统方法。扩散图对比学习是 DiffCL 最重要的组成部分。我们将 DM 引入图对比学习阶段，并利用它生成两个相似但不完全一致的对比视图，以增强物品和用户的表示。具体而言，我们逐步向原始用户-物品图中添加高斯噪声 (Gaussian noise)，以破坏两者之间的原始交互信息，然后通过概率扩散过程 (probabilistic diffusion process) 预测原始数据状态来恢复原始交互。

4.3.1. 图扩散前向过程 (Graph Diffusion Forward Process)

图编码器捕获的高阶特征表示为 $E_m$ ，其数学形式如下： $E_m = [e_m^u \quad e_m^i]$ 其中， $m \in \{ v, t, id \}$ ， $e_m^u$ 和 $e_m^i$ 分别表示特定模态下用户和物品的嵌入。

我们的图扩散过程仅包括视觉模态和文本模态。这里我们以视觉模态为例来数学描述扩散过程。我们考虑视觉模态的嵌入 $E_v = [e_v^u \quad e_v^i]$ 。我们将扩散过程初始化为 $x_0 = [e_v^u \quad e_v^i]^T$ ，并通过在每个时间步 $t$ 逐步添加高斯噪声来构建最终的 $\pmb{x}_{1:T}$ 。具体地，从 $x_{t-1}$ 到 $x_t$ 的过程表达如下： $q(\pmb{x}_t \mid \pmb{x}_{t-1}) = \mathcal{N}(\pmb{x}_t; \sqrt{1 - \beta_t} \pmb{x}_{t-1}, \beta_t \pmb{I})$ 其中， $\mathcal{N}$ 表示高斯分布 (Gaussian distribution)， $\beta_t$ 是噪声尺度 (noise scale)，用于调节在每个时间步 $t$ 添加高斯噪声的增加量。随着 $t \to \infty$ ， $\pmb{x}_t$ 将收敛到一个标准高斯分布。由于独立高斯噪声分布是可加的，因此我们可以直接从 $x_0$ 得到 $x_t$ 。这个过程通过以下公式表示： $q(\pmb{x}_t \mid \pmb{x}_0) = \mathcal{N}(\pmb{x}_t; \sqrt{\overline{\gamma_t}} \pmb{x}_0, (1 - \overline{\gamma_t}) \pmb{I})$ 我们使用两个参数 $\gamma_t$ 和 $\overline{\gamma_t}$ 来控制从 $x_0$ 到 $x_t$ 过程中添加的噪声总量。它们的数学表示如下： $\gamma_t = 1 - \beta_t$ $\overline{\gamma_t} = \prod_1^t \gamma_t$ 然后， $x_t$ 可以重新参数化为： $x_t = \sqrt{\overline{\gamma_t}} x_0 + \sqrt{1 - \overline{\gamma_t}} \varepsilon$ 其中， $\varepsilon \sim \mathcal{N}(0, I)$ 。我们采用线性噪声调度器 (linear noise scheduler) 控制 $1 - \overline{\gamma}$ 来控制 $x_{0:T}$ 中的噪声量： $1 - \overline{\gamma}_t = s \cdot \left[ \gamma_{\operatorname*{min}} + \frac{t - 1}{T - 1} (\gamma_{\operatorname*{max}} - \gamma_{\operatorname*{min}}) \right]$ 其中， $t \in \{ 1, 2, \cdots, T \}$ ， $s$ 是噪声尺度 (noise scale)， $s \in [0, 1]$ ， $\gamma_{\operatorname*{min}}$ 和 $\gamma_{\operatorname*{max}}$ 分别代表附加噪声的最大和最小限度。

4.3.2. 图扩散逆向过程 (Graph Diffusion Reverse Process)

逆向过程的目标是消除从 $x_0$ 到 $x_t$ 过程中引入的噪声，并恢复 $x_0$ 。这个过程生成一个类似于原始视觉表示的伪特征 (pseudo-feature)。逆向过程的转换从 $x_t$ 开始，通过一个去噪转换步骤逐步恢复 $x_0$ 。逆向过程的数学表达式如下： $p_\theta(\boldsymbol{x}_{t-1} \mid \boldsymbol{x}_t) = \mathcal{N}(\boldsymbol{x}_{t-1}; \mu_\theta(\boldsymbol{x}_t, t), \boldsymbol{\Sigma}_\theta(\boldsymbol{x}_t, t))$ 其中， $\mu_\theta(x_t, t)$ 和 $\Sigma_\theta(x_t, t)$ 分别表示下一个状态高斯分布的均值 (mean) 和方差 (variance) 的预测值。我们通过两个可学习参数的神经网络来获得它们。

4.3.3. 图对比学习 (Graph Contrastive Learning)

DiffCL 框架采用一种广泛使用的增强策略，即利用对比学习 (contrast learning) 来增强模态特定的特征表示。具体来说，我们利用扩散模型生成对比视图。例如，经过图卷积操作后，视觉模态的图对比学习表示为 $E_v$ 。令 $x_0 = E_v$ ，我们可以通过扩散模型得到一个类似于 $E_v$ 的表示 $E_v^1$ 。重复此过程得到 $E_v^2$ 。然后，我们基于 InfoNCE [45] 损失函数进行图对比学习，公式如下：对于用户 $u$ : $\mathcal{L}_u^v = \sum_{u_1 \in U} -\log \frac{\exp \big( s(e_{u_1,v}^1, e_{u_1,v}^2) \big) / \tau}{\sum_{u_2 \in U} \exp \big( s(e_{u_2,v}^1, e_{u_2,v}^2) \big) / \tau}$ 对于物品 $i$ : $\mathcal{L}_i^v = \sum_{i_1 \in I} -\log \frac{\exp \big( s(e_{i_1,v}^1, e_{i_1,v}^2) \big) / \tau}{\sum_{i_2 \in I} \exp \big( s(e_{i_2,v}^1, e_{i_2,v}^2) \big) / \tau}$ 其中， $s(\cdot)$ 表示余弦相似度 (cosine similarity) 函数， $\tau$ 是一个超参数 (hyperparameter)，用于控制模型收敛的速度。

视觉模态的总对比损失为： $\mathcal{L}_{cl}^v = \mathcal{L}_u^v + \mathcal{L}_i^v$ 同理，对于文本模态的对比损失为： $\mathcal{L}_{cl}^t = \mathcal{L}_u^t + \mathcal{L}_i^t$ 最终的图对比学习损失为： $\mathcal{L}_{cl} = \lambda_{cl} (\mathcal{L}_{cl}^v + \mathcal{L}_{cl}^t)$ 其中， $\lambda_{cl}$ 是一个超参数，用于控制图对比学习损失的权重。

4.4. 多模态特征增强与对齐 (Multimodal Feature Enhancement and Alignment)

4.4.1. 多模态特征增强 (Multimodal Feature Enhancement)

为了挖掘不同物品之间的语义连接，我们构建了物品-物品图 (Item-Item Graph, I-I graph)。通过基于不同模态特征，分别计算不同物品对 (i, j) 之间的 KNN (K-Nearest Neighbors) 相似度 $S_{i,j}^m$ ，从而获得特定模态的 I-I 图。相似度分数通过以下公式计算： $S_{i,j}^m = \frac{(f_i^m)^\top f_j^m}{\|f_i^m\| \|f_j^m\|}$ 其中， $i$ 和 $j$ 表示不同的物品对， $f_i^m$ 和 $f_j^m$ 分别表示物品 $i$ 和物品 $j$ 在模态 $m$ 下的原始特征。 $m \in \{ v, t \}$ 表示模态。

为了减少冗余数据对模型准确性的影响，我们选择性地丢弃获得的相似度分数。我们只保留相似度分数排名前 $K$ 的邻居，并将其值设为 1，这可以表示为： $S_{i,j}^m = \left\{ \begin{array}{ll} 1 & \mathrm{~if~} S_{i,j}^m \in \mathrm{~top~}K(S_{i,j}^m) \\ 0 & \mathrm{~otherwise} \end{array} \right.$ 当 $S_{i,j}^m = 1$ 时，表示物品对 (i, j) 之间存在连接。同时，我们固定 $K=10$ 。我们将 $S^m$ 进行归一化，使用以下公式： $\widehat S^m = (D^m)^{-\frac{1}{2}} S^m (D^m)^{-\frac{1}{2}}$ 其中， $D^m$ 表示 $S^m$ 的对角矩阵 (diagonal matrix)， $D^m \in \mathbb{R}^{N \times N}$ 。它生成一个对称、归一化矩阵，有助于消除节点度 (node degrees) 对结果的影响，使后续的聚合操作更稳定。 $D_{ii}^m$ 的计算公式如下： $D_{ii}^m = \sum_j S_{i,j}^m$ 然后，我们基于获得的模态感知邻接矩阵 (modality-aware adjacency matrix) 聚合多层邻居信息： $A_m^{(l)} = \sum_{j \in N_i} \widehat S_{i,j}^m A_{j_m}^{(l-1)}$ 其中， $j$ 是 $i$ 的一阶邻居， $A_{j_m}$ 表示物品 $j$ 在模态 $m$ 中的嵌入。 $m \in \{ v, t \}$ 。

为了更好地利用各种模态信息来挖掘用户偏好，我们使用嵌入 $A_m^{(l)}$ 来增强最终的嵌入 $E_m$ ，公式如下： $\boldsymbol{E_m} = \left[ e_m^{\boldsymbol{u}} \quad e_m^i + A_m^{(l)} \right]$

4.4.2. 多模态特征融合 (Multimodal Feature Fusion)

不同的模态携带着独特的模态信息，这些信息既相关又互补。为了更全面地捕捉用户行为偏好，我们对视觉和文本特征进行特征级融合 (feature-level fusion)，得到以下融合特征表示： $E_{vt} = \mu \times E_v + (1 - \mu) \times E_t$ 其中， $E_v$ 和 $E_t$ 分别表示视觉特征和文本特征， $\mu$ 是一个可训练参数 (trainable parameter)，初始值为 0.5。在特征融合阶段，我们不将 ID 模态与其他多模态特征融合。这是因为在多模态推荐系统中，ID 模态具有唯一性和稳定性。因此，我们只使用它来对齐多模态特征并计算最终的预测分数。

4.4.3. 多模态语义对齐 (Multimodal Semantic Alignment)

在多模态推荐系统中，不同模态的特征分布通常不一致，融合过程往往保留大量噪声信息。此外，一些现有的模态语义对齐方法会破坏历史交互信息，对最终预测产生不利影响。因此，我们提出一种跨模态对齐方法，以稳定的 ID 特征作为指导，有效利用 ID 嵌入更好地对齐不同模态的语义信息，确保各种模态信息之间的语义一致性。受 PPMDR [46] 启发，我们将最终的 ID 模态特征 $E_{id}$ 、视觉模态特征 $E_v$ 和文本模态特征 $E_t$ 参数化为高斯分布 (Gaussian distribution)。然后，我们分别计算 ID 模态与视觉模态和文本模态特征分布之间的距离作为损失。公式如下： $E_{id} \sim \mathcal{N}(\mu_{id}, \sigma_{id}^2)$ $\left\{ \begin{array}{l} E_v \sim \mathcal{N}(\mu_v, \sigma_v^2), \\ E_t \sim \mathcal{N}(\mu_t, \sigma_t^2). \end{array} \right.$ 然后，计算 ID 模态与视觉模态和文本模态的分布距离损失： $\left\{ \begin{array}{ll} \mathcal{L}_{align_1} = |\mu_{id} - \mu_v| + |\sigma_{id} - \sigma_v|, \\ \mathcal{L}_{align_2} = |\mu_{id} - \mu_t| + |\sigma_{id} - \sigma_t|. \end{array} \right.$ 最终的对齐损失计算如下： $\mathcal{L}_{align} = \lambda_{align} (\mathcal{L}_{align_1} + \mathcal{L}_{align_2})$ 其中， $\lambda_{align}$ 是用于平衡对齐损失的超参数。

4.5. 模型优化 (Model Optimization)

在推荐任务中，贝叶斯个性化排序 (Bayesian Personalized Ranking, BPR) 是一种常用的优化方法。BPR 的基本思想是增加正样本和负样本预期分数之间的区别，因为它假定用户更倾向于选择他们已经交互过的物品。我们构建一个三元组 $(u, p, n) \in D$ 来计算 BPR 损失， $u$ 代表用户， $p$ 表示用户已经交互过的物品， $n$ 表示用户尚未交互过的物品。公式如下： $\mathcal{L}_{BPR} = \sum_{(u,p,n) \in D} -\log (\sigma (y_{u,p} - y_{u,n}))$ 其中， $y_{u,p}$ 表示用户 $u$ 对物品 $p$ 的预测分数， $y_{u,n}$ 表示同一用户对物品 $n$ 的预测分数。此外， $\sigma$ 指的是 Sigmoid 函数。

$y_{u,p}$ 和 $y_{u,n}$ 的计算公式如下： $y_{u,p} = (e_{vt}^u)^T \cdot e_{vt}^p + (e_{id}^u)^T \cdot e_{id}^p$ $y_{u,n} = (e_{vt}^u)^T \cdot e_{vt}^n + (e_{id}^u)^T \cdot e_{id}^n$ 其中， $e_{vt}^u$ 和 $e_{vt}^p$ 分别表示用户 $u$ 和物品 $p$ 的融合视觉-文本嵌入； $e_{id}^u$ 和 $e_{id}^p$ 分别指用户 $u$ 和物品 $p$ 的 ID 嵌入。

最后，我们将 BPR 损失、扩散图对比学习损失和跨模态对齐损失结合起来计算总损失，如以下公式所示： $\mathcal{L} = \lambda_{cl} \mathcal{L}_{cl} + \mathcal{L}_{align} + \mathcal{L}_{BPR} + \mathcal{L}_E$ $\mathcal{L}_E$ 是正则化损失 (regularization loss)，计算公式如下： $\mathcal{L}_E = \lambda_E ( \|E_v\|_2^2 + \|E_t\|_2^2 )$ 其中， $\lambda_E$ 是用于调节 $L_2$ 正则化影响的超参数。

5. 实验设置

本节将详细介绍 DiffCL 模型的实验设置，包括使用的数据集、评估指标、对比基线以及具体的超参数配置。

5.1. 数据集

本文采用 Amazon review 数据集，该数据集在多模态推荐系统 (MRSs) 中被广泛使用。原始数据集包含用户与物品的交互信息、物品的文本描述和图像、用户对物品的评论文本以及其他信息（如物品价格）。

对于所有对比模型，我们采用相同的处理方式。具体来说，我们使用 5-core 过滤 (5-core filtering) 对原始数据进行筛选，以优化数据质量（即保留至少有 5 次交互的用户和物品）。在模型训练之前，我们利用预训练的 ResNet50 [44] 和 BERT [47] 分别提取物品的视觉和文本特征。ResNet50 提取的视觉特征初始维度为 4096，BERT 提取的文本特征初始维度为 384。

实验使用了以下三个数据集：

Baby
Video
Sports and Outdoors (简称 Sports)

以下是原文 Table I 提供的具体数据分布：

Dataset #User #Item #Interaction Spasity

Baby 19,445 7,050 160,792 99.88%

Sports 35,598 18,357 296,337 99.96%

Video 24,303 10,672 231,780 99.91%

Dataset	#User	#Item	#Interaction	Spasity
Baby	19,445	7,050	160,792	99.88%
Sports	35,598	18,357	296,337	99.96%
Video	24,303	10,672	231,780	99.91%

数据集特性分析:

这三个数据集都来自 Amazon，涵盖了不同商品类别，能够验证模型在不同领域下的泛化能力。
从稀疏度 (Sparsity) 来看，所有数据集的稀疏度都非常高（接近 100%），这验证了数据稀疏性确实是推荐系统面临的关键挑战，也说明了本文方法通过多模态信息和图增强来缓解稀疏性是合理的。
物品数量和交互数量的差异也为模型在不同规模数据上的表现提供了测试场景。

5.2. 评估指标

本实验采用的评估指标是 召回率 (Recall@K) 和 归一化折损累积增益 (Normalized Discounted Cumulative Gain, NDCG@K)。我们设置 $K = \{10, 20\}$ ，表示最终推荐列表中的物品数量。

5.2.1. 召回率 (Recall@K)

概念定义: 召回率 (Recall@K) 衡量的是在推荐列表（长度为 $K$ ）中，有多少用户实际喜欢的物品被成功推荐出来。它关注的是模型“找到所有相关物品”的能力，即用户感兴趣的物品有多少比例出现在推荐结果中。召回率越高，说明模型遗漏用户兴趣物品的可能性越小。 数学公式: $\text{Recall@K} = \frac{\sum_{u \in U} |\{\text{top-K recommended items for u}\} \cap \{\text{relevant items for u}\}|}{\sum_{u \in U} |\{\text{relevant items for u}\}|}$ 符号解释:

$U$ : 所有用户的集合。
$\text{top-K recommended items for u}$ : 对于用户 $u$ ，模型推荐的 $K$ 个物品的集合。
$\text{relevant items for u}$ : 对于用户 $u$ ，实际相关的（或用户已交互过的）物品的集合。
$|\cdot|$ : 集合的基数（元素数量）。

5.2.2. 归一化折损累积增益 (Normalized Discounted Cumulative Gain, NDCG@K)

概念定义: 归一化折损累积增益 (NDCG@K) 是一种衡量推荐列表质量的指标，它不仅考虑了推荐物品的相关性，还考虑了相关物品在列表中的位置。NDCG 假设排名靠前的相关物品比排名靠后的相关物品更有价值。折损 (Discounted) 意味着排名靠后的相关物品对总分贡献较小，归一化 (Normalized) 意味着将计算出的 DCG 值除以理想排名（所有相关物品按相关性从高到低排列）的 DCG 值，使得 NDCG 值介于 0 到 1 之间。NDCG 越高，表示推荐列表越好。 数学公式: 首先计算累积增益 (Cumulative Gain, CG)： $\text{CG@K} = \sum_{i=1}^K \text{rel}_i$ 然后计算折损累积增益 (Discounted Cumulative Gain, DCG)： $\text{DCG@K} = \sum_{i=1}^K \frac{2^{\text{rel}_i} - 1}{\log_2(i + 1)}$ 接着计算理想折损累积增益 (Ideal Discounted Cumulative Gain, IDCG)： $\text{IDCG@K} = \sum_{i=1}^{|\text{relevant items for u}|} \frac{2^{\text{rel}_{i, \text{ideal}}} - 1}{\log_2(i + 1)}$ 最后计算归一化折损累积增益 (NDCG)： $\text{NDCG@K} = \frac{\text{DCG@K}}{\text{IDCG@K}}$ 符号解释:

$K$ : 推荐列表的长度。
$\text{rel}_i$ : 推荐列表中第 $i$ 个物品的相关性分数（通常为二元，1 表示相关，0 表示不相关；或多级，表示不同程度的相关性）。
$\text{rel}_{i, \text{ideal}}$ : 理想推荐列表中第 $i$ 个物品的相关性分数（即相关物品按最高相关性排序）。
$\log_2(i+1)$ : 对排名靠后的物品进行惩罚（折损）。

5.3. 对比基线

本文将 DiffCL 与当前最先进的推荐方法进行比较，包括通用推荐模型和多模态推荐模型。

5.3.1. 通用推荐方法 (General Recommendation Methods)

BPR [48]: 一种基于贝叶斯个性化排序 (Bayesian Personalized Ranking) 的隐式反馈推荐算法。它通过随机选择负样本，优化用户对正样本的偏好高于负样本的概率，以提高模型的泛化能力。
LightGCN [9]: 一种轻量级的图卷积网络 (GCN) 推荐框架。它移除了 GCN 中的权重矩阵和非线性激活函数，专注于协同信号的传播，以提高训练效率和推荐效果。

5.3.2. 多模态推荐方法 (Multimodal Recommendation Methods)

VBPR [49]: 贝叶斯个性化排序 (BPR) 的扩展，首次将视觉模态信息引入物品的特征表示，以改善多模态推荐场景的性能。
MMGCN [16]: 该方法利用图结构捕捉用户与物品之间复杂关系，并设计专门机制整合不同模态信息，确保信息有效互补。
DualGNN [18]: 使用双图神经网络 (Dual Graph Neural Network) 同时建模用户与物品之间的关系，捕获多级关系信息以提高推荐准确性和个性化。
SLMRec [49]: 通过设计自监督学习任务生成标签，并采用对比学习策略优化模型，通过构建正负样本对来增强推荐。
BM3 [24]: 简化多模态推荐系统中的自监督任务，通过引导式引导 (bootstrap) 潜在表示来增强模型。
MGCN [17]: 基于图卷积网络 (GCN)，利用物品信息净化模态特征，并设计行为感知融合器 (behavior-aware fuser) 自适应学习不同模态特征。
Freedom [50]: 通过冻结用户-物品图 (U-I graph) 和物品-物品图 (I-I graph)，并设计度敏感边剪枝方法 (degree-sensitive edge pruning) 来删除可能的噪声边。
DiffMM [41]: 基于扩散模型，通过结合跨模态对比学习和模态感知图扩散模型增强用户表示，以实现更准确的推荐结果。

5.4. 细节

为了确保评估的公平性，所有对比基线模型均使用 MMRec [51] 进行实现。同时，对这些模型进行了网格搜索 (grid search) 以确定最佳的超参数设置。

优化器: Adam 优化器被用于优化 DiffCL 和其他模型。
学习率 (Learning Rate): DiffCL 的学习率设置为 0.001。
丢弃率 (Dropout Rate): 设置为 0.5。
温度参数 ( $\tau$ ): 图对比学习中的 $\tau$ 设置为 0.4。
损失权重 (Loss Weights): 超参数 $\lambda_{cl}$ $λ_{c l}$ （图对比学习损失权重）、 $\lambda_{align}$ $λ_{a l i g n}$ （对齐损失权重）和 $\lambda_E$ $λ_{E}$ （正则化损失权重）在不同数据集上设置不同。
- Baby 数据集: $\{0.1, 0.4, 0.7\}$
- Video 数据集: $\{0.01, 1.0, 1.0\}$
- Sports 数据集: $\{0.7, 0.4, 0.9\}$

6. 实验结果与分析

6.1. 核心结果分析 (RQ1)

以下是原文 Table II 提供的不同基线模型与 DiffCL 在三个数据集上的性能比较：

Datasets	Baby				Video				Sports
Model	R@10	R@20	N@10	N@20	R@10	R@20	N@10	N@20	R@10	R@20	N@10	N@20
BPR	0.0268	0.0441	0.0144	0.0188	0.0722	0.1106	0.0386	0.0486	0.0306	0.0465	0.0169	0.0210
LightGCN	0.0402	0.0644	0.0274	0.0375	0.0873	0.1351	0.0475	0.0599	0.0423	0.0642	0.0229	0.0285
DiffCL	0.0641	0.0987	0.0343	0.0433	0.1421	0.2069	0.0804	0.0974	0.0754	0.1095	0.0421	0.0509
Improv.	32.50%	42.70%	14.23%	5.60%	59.45%	50.55%	62.11%	56.43%	64.78%	60.59%	65.06%	64.91%
VBPR	0.0397	0.0665	0.0210	0.0279	0.1198	0.1796	0.0647	0.0802	0.0509	0.0765	0.0274	0.0340
MMGCN	0.0397	0.0641	0.0206	0.0269	0.0843	0.1323	0.0440	0.0565	0.0380	0.0610	0.0206	0.0266
DualGNN	0.0518	0.0820	0.0273	0.0350	0.1200	0.1807	0.0656	0.0814	0.0583	0.0865	0.0320	0.0393
SLMRec	0.0529	0.0775	0.0290	0.0353	0.1187	0.1767	0.0642	0.0792	0.0663	0.0990	0.0365	0.0450
BM3	0.0539	0.0848	0.0283	0.0362	0.1166	0.1772	0.0636	0.0793	0.0632	0.0940	0.0346	0.0426
MGCN	0.0608	0.0927	0.0333	0.0415	0.1345	0.1997	0.0740	0.0910	0.0713	0.1060	0.0392	0.0489
Freedom	0.0622	0.0948	0.0330	0.0414	0.1226	0.1858	0.0662	0.0827	0.0722	0.1062	0.0394	0.0484
DiffMM	0.0619	0.0947	0.0326	0.0394					0.0683	0.1019	0.0374	0.0455
DiffCL	0.0641	0.0987	0.0343	0.0433	0.1421	0.2069	0.0804	0.0974	0.0754	0.1095	0.0421	0.0509
Improv.	3.05%	4.11%	3.93%	4.58%	5.65%	3.60%	8.64%	7.03%	4.43%	3.11%	6.85%	5.16%

分析要点:

多模态模型优于通用模型: 从 Table II 中可以看出，绝大多数多模态推荐模型 (MRSs) 的性能显著优于通用推荐模型 (如 BPR 和 LightGCN)。这验证了整合多模态信息能够更有效地捕捉用户偏好线索，从而提高推荐准确性。例如，DiffCL 在 Sports 数据集上相比于最佳通用模型（LightGCN），在 R@10、R@20、N@10 和 N@20 上分别提升了 64.78%、60.59%、65.06% 和 64.91%，表现出巨大优势。
DiffCL 的整体优越性: DiffCL 在所有三个数据集（Baby, Video, Sports）和所有评估指标（R@10, R@20, N@10, N@20）上均取得了最佳性能，且显著超越了其他最先进的多模态推荐模型。这充分证明了 DiffCL 框架的有效性和优越性。
数据集差异性分析:
- Sports 数据集: DiffCL 在 Sports 数据集上相比于通用推荐模型表现出最大的提升。这可能表明 Sports 类物品（如运动装备）的视觉和文本信息对于用户偏好具有更强的指示性，用户在选择此类商品时可能更依赖于商品的图片和描述。
- Baby 数据集: DiffCL 在 Baby 数据集上的提升幅度相对较小（相比最佳多模态模型提升 3.05%-4.58%）。作者推测，在 Baby 数据集上，物品的多模态信息对用户偏好的影响可能不如其他因素（如质量、价格）那么大。这提示我们，不同领域的物品，用户偏好受多模态信息影响的程度可能有所不同。
- Video 数据集: DiffCL 在 Video 数据集上的提升也非常显著，特别是 R@10 和 N@10 分别提升了 5.65% 和 8.64%，这说明对于视频类商品，其多模态信息（如视频封面、简介）对于用户决策至关重要，DiffCL 能够有效利用这些信息。
创新点有效性验证: 实验结果支持了 DiffCL 的核心创新点：
- 扩散模型生成对比视图: 相比于其他多模态模型（如 BM3, SLMRec, DiffMM 等），DiffCL 通过扩散模型生成的对比视图，有效减少了噪声，提升了对比学习的效果。
- 物品-物品图增强: 物品-物品图 (Item-Item Graph) 的引入增强了数据稀疏性下的特征表示能力。
- ID 引导语义对齐: ID 引导的跨模态语义对齐确保了不同模态间语义的一致性，从而提高了推荐精度。

6.2. 消融实验 (RQ2)

为了验证 DiffCL 各个组件的有效性，作者进行了一系列消融实验。以下是原文 Table III 提供的不同变体的性能比较：

Variants	Metrics	Datasets
Variants	Metrics	Baby	Video	Sports
DiffCL_baseline	R@20	0.0854	0.1907	0.0956
DiffCL_baseline	N@20	0.0364	0.0856	0.0428
DiffCL_diff	R@20	0.0925	0.1978	0.1095
DiffCL_diff	N@20	0.0396	0.0895	0.0509
DiffCL_align	R@20	0.0907	0.1965	0.0960
DiffCL_align	N@20	0.0392	0.0893	0.0428
DiffCL_h	R@20	0.0986	0.1921	0.1099
DiffCL_h	N@20	0.0430	0.0872	0.0494
DiffCL_diff+align	R@20	0.0911	0.1904	0.1093
DiffCL_diff+align	N@20	0.0403	0.0866	0.0506
DiffCL_diff+h	R@20	0.0986	0.1940	0.1102
DiffCL_diff+h	N@20	0.0430	0.0885	0.0495
DiffCL_align+h	R@20	0.0993	0.1968	0.1114
DiffCL_align+h	N@20	0.0432	0.0896	0.0496
DiffCL	R@20	0.0987	0.2069	0.1095
DiffCL	N@20	0.0433	0.0974	0.0509

变体说明:

DiffCL_baseline: 移除了所有核心组件（扩散图对比学习、ID 引导语义对齐、物品-物品图特征增强）的基础模型。
DiffCL_diff: 仅保留扩散图对比学习任务。
DiffCL_align: 仅保留 ID 模态引导的跨模态语义对齐任务。
DiffCL_h: 仅保留特征增强任务（即物品-物品图增强）。
DiffCL_diff+align: 保留扩散图对比学习任务和 ID 模态引导的跨模态语义对齐任务。
DiffCL_diff+h: 保留扩散图对比学习任务和特征增强任务。
DiffCL_align+h: 保留 ID 模态引导的跨模态语义对齐任务和特征增强任务。
DiffCL: 完整模型，包含所有三个核心组件。

消融实验结果分析:

所有组件的有效性: 对比 DiffCL_baseline 和各个单组件变体 (DiffCL_diff, DiffCL_align, $DiffCL_h$ ) 可以看出，每个核心组件都对模型的整体性能有积极贡献。例如，在 Baby 数据集上，DiffCL_diff、DiffCL_align 和 $DiffCL_h$ 的 R@20 分别从 DiffCL_baseline 的 0.0854 提升到 0.0925、0.0907 和 0.0986，验证了扩散对比学习、语义对齐和物品-物品图增强各自的有效性。
组件组合的协同效应: 任意两个组件的组合模型（如 DiffCL_diff+align、DiffCL_diff+h、DiffCL_align+h）通常比单个组件的模型表现更好，这表明这些组件之间存在协同作用，能够相互补充。例如，DiffCL_align+h 在 Baby 数据集上的 R@20 达到了 0.0993，优于任何单组件模型。
完整模型的最佳性能: 完整的 DiffCL 模型（包含所有三个组件）在 Video 和 Sports 数据集上取得了最佳性能（Video R@20 为 0.2069，Sports R@20 为 0.1095）。在 Baby 数据集上，DiffCL 的 R@20 略低于 DiffCL_align+h (0.0987 vs 0.0993)，但 NDCG@20 依然最高 (0.0433 vs 0.0432)。这表明三个组件共同作用时能达到最优效果，验证了 DiffCL 框架设计的合理性和有效性。
组件贡献的相对重要性: 从单组件变体的结果来看， $DiffCL_h$ （特征增强，即物品-物品图）在 Baby 和 Sports 数据集上带来了最大的性能提升（例如 Baby R@20 从 0.0854 提升到 0.0986），表明缓解数据稀疏性并利用物品间关系对推荐效果至关重要。DiffCL_diff（扩散对比学习）在 Video 数据集上带来了显著提升（R@20 从 0.1907 提升到 0.1978），这可能说明在该数据集上噪声问题更为突出，扩散模型的去噪能力发挥了更大作用。

6.3. 超参数影响 (RQ3)

本节探究了不同损失权重对扩散图对比学习和多模态间接对齐任务性能的影响。作者通过一系列超参数实验，分析了 $\lambda_{diff}$ 、 $\lambda_{align}$ 和 $\lambda_E$ 的值如何影响模型性能。损失权重均在集合 $\{0.01, 0.1, 0.2, 0.3, 0.4, 0.5, 0.6, 0.7, 0.8, 0.9, 1.0\}$ 中取值。实验结果在 Figures 3、4 和 5 中展示。

以下是原文 Figures 3, 4, 5 的描述：

该图像是两幅折线图，展示了不同数据集（baby、sports、video）在不同参数λ_diff取值下Recall@20和NDCG@20的变化趋势。图中显示sports数据集效果明显优于其他两类，且在中等λ_diff值时性能最高。

图 3 展示了 DiffCL 在不同 $\lambda_{diff}$ 设置下的性能。横轴表示 $\lambda_{diff}$ 的取值，纵轴表示 R@20 和 N@20。从中可以看出，在 Sports 和 Video 数据集上，模型性能随着 $\lambda_{diff}$ 的增加先上升后下降，存在一个最优值。在 Baby 数据集上，性能波动相对较小。通常在中等 $\lambda_{diff}$ 值时，模型性能达到最高。

$该图像是两幅折线图，展示了不同参数条件下婴儿、运动和视频三个类别在Recall@20和NDCG@20指标上的表现。横轴分别为调节参数$\\lambda_{align}$和$\\lambda_{diff}$，纵轴显示对应的评估指标值，反映参数对模型推荐效果的影响。$
该图像是两幅折线图，展示了不同参数条件下婴儿、运动和视频三个类别在Recall@20和NDCG@20指标上的表现。横轴分别为调节参数 $\lambda_{align}$ 和 $\lambda_{diff}$ ，纵轴显示对应的评估指标值，反映参数对模型推荐效果的影响。

图 4 展示了 DiffCL 在不同 $\lambda_{align}$ 设置下的性能。横轴表示 $\lambda_{align}$ 的取值，纵轴表示 R@20 和 N@20。对于所有数据集，模型性能同样呈现先上升后下降的趋势，表明适度的语义对齐损失有助于提升模型效果，过高或过低都会损害性能。

$Fig. 5. The performance of the DiffCL under various $\\lambda _ { E }$ settings$
该图像是图表，展示了DiffCL模型在不同参数 $\lambda_E$ 设置下的性能表现，分别用Recall@20和NDCG@20指标衡量，从三个数据集baby、sports和video中对比了性能变化。

图 5 展示了 DiffCL 在不同 $\lambda_E$ 设置下的性能。横轴表示 $\lambda_E$ 的取值，纵轴表示 R@20 和 N@20。正则化损失权重 $\lambda_E$ 对模型性能的影响也存在一个最优区间，过大的正则化可能导致模型欠拟合。

超参数影响分析:

损失权重的重要性: 实验结果表明，扩散图对比学习损失 ( $\lambda_{diff}$ )、对齐损失 ( $\lambda_{align}$ ) 和正则化损失 ( $\lambda_E$ ) 的权重值显著影响模型的性能。这强调了仔细调整这些超参数对于实现最佳性能的重要性。
最优值因数据集而异: 尽管三个参数的损失权重都在相同的范围内进行搜索，但每个权重的最优值会因数据集和任务而异。例如，对于 $\lambda_{diff}$ ，在 Sports 数据集上可能需要更高的权重来强化扩散对比学习，而在 Baby 数据集上则可能需要较低的权重。这与不同数据集的噪声水平和模态一致性程度可能不同有关。
平衡与折衷: 大多数情况下，模型性能曲线呈现出先上升后下降的趋势，这表明需要在一个合适的范围内平衡各项损失。过低的权重可能导致模型未能充分利用该组件的优势，而过高的权重则可能导致模型过拟合于该特定损失，从而损害整体推荐性能。
对模型鲁棒性和准确性的影响: 适当的超参数选择对于优化 DiffCL 在不同任务中的鲁棒性 (robustness) 和准确性 (accuracy) 至关重要。例如，通过调整 $\lambda_{diff}$ 可以控制扩散模型在去噪和生成对比视图方面的强度；调整 $\lambda_{align}$ 可以控制 ID 引导语义对齐的强度，确保模态间语义一致性；而 $\lambda_E$ 则控制 L2 正则化以防止过拟合。

7. 总结与思考

7.1. 结论总结

本文提出了一种新颖的基于扩散的对比学习框架 DiffCL，用于多模态推荐。DiffCL 框架通过以下三个核心创新点有效解决了现有多模态推荐系统面临的数据稀疏性、多模态数据噪声和模态间语义不一致等挑战：

扩散模型生成高质量对比视图： 在图对比学习阶段引入扩散模型，通过其前向加噪和逆向去噪过程生成具有信息量且去噪的对比视图，有效减轻了传统对比学习中噪声视图的负面影响。
ID 引导的语义对齐： 利用物品稳定的 ID 嵌入作为指导，对齐视觉和文本模态的语义信息，显著增强了跨模态的语义一致性，同时避免了破坏用户-物品交互信息。
物品-物品图增强特征表示： 构建模态特定的物品-物品图，捕捉物品间的潜在语义关联，从而增强了多模态特征表示，有效缓解了数据稀疏性问题。

在三个公共真实世界数据集（Baby、Video、Sports）上的广泛实验表明，DiffCL 在各项推荐评估指标（Recall@K 和 NDCG@K）上均显著优于现有的通用推荐模型和最先进的多模态推荐模型，验证了其优越性和有效性。消融实验也证实了 DiffCL 各个核心组件对整体性能的积极贡献。

7.2. 局限性与未来工作

作者在论文中指出了未来的研究方向：

优化扩散模型在推荐系统中的集成： 旨在将扩散模型的应用扩展到推荐过程的特定阶段之外。目前扩散模型主要用于生成对比视图，未来研究可能会探索其在推荐系统其他环节的潜力。
多角度数据增强： 计划利用扩散模型强大的生成能力，从多个角度进行数据增强，以期获得更优的推荐结果。这可能包括生成更丰富、更真实的物品特征，或模拟更多样化的用户行为。

7.3. 个人启发与批判

7.3.1. 个人启发

DiffCL 框架为多模态推荐系统提供了几个重要的启发：

扩散模型的新颖应用： 将扩散模型从其传统的图像/文本生成领域扩展到图数据增强和对比学习，是机器学习领域跨领域技术融合的一个优秀范例。它表明扩散模型的去噪和生成能力不仅限于像素或词元 (tokens) 级别，也可以应用于更抽象的特征空间，为其他领域的自监督学习提供了新的思路。
ID 嵌入的价值再发现： 在多模态融合和对齐中，ID 嵌入常被视为一种基础特征。DiffCL 利用其稳定性作为语义对齐的“真值 (Ground Truth)”或参考点，提供了一种简洁而有效的跨模态语义鸿沟弥合方案，避免了复杂的多模态转换或共享空间学习，具有很强的实用价值。
全面解决多模态挑战： 论文不仅关注多模态信息的利用，更深入考虑了多模态数据本身的痛点（噪声、不一致），并结合推荐系统的固有挑战（稀疏性）进行系统性解决。这种全面的问题视角和多组件协作的设计思路值得借鉴。
工程实践意义： 扩散模型的去噪能力对于实际推荐系统中的“脏数据”或“低质量模态数据”可能具有很好的鲁棒性，能够帮助模型从含有噪声的多模态输入中提取更纯净的信号。

7.3.2. 批判与潜在改进

计算成本： 扩散模型通常计算成本较高，特别是在训练阶段。虽然论文提到了生成对比视图，但并未详细讨论扩散模型的具体参数（如时间步 $T$ 、模型大小）对训练时间和资源消耗的影响。对于大规模推荐系统，这可能是一个实际部署的挑战。未来的工作可以探索更轻量级的扩散模型变体，或引入知识蒸馏 (knowledge distillation) 等技术来降低推理成本。
超参数敏感性： 实验结果显示，损失权重（ $\lambda_{cl}, \lambda_{align}, \lambda_E$ ）对模型性能有显著影响，且最佳值因数据集而异。这意味着在实际应用中，需要对这些超参数进行仔细调优，这增加了模型的复杂性和部署难度。未来可以研究自适应的损失权重调整机制，例如基于任务进展或数据特性的动态权重分配。
ID 嵌入的局限性： 尽管 ID 嵌入具有稳定性，但它本身不包含丰富的语义信息。将其作为唯一对齐基准，可能在某些复杂语义对齐场景下存在局限性。未来可以探索结合其他丰富的语义信息（如知识图谱、属性信息）来增强 ID 嵌入的语义对齐能力。
可解释性： 深度学习模型，尤其是涉及扩散模型和图神经网络的复杂框架，其可解释性 (interpretability) 往往较差。DiffCL 如何具体地通过扩散去噪、ID 对齐和图增强来影响用户偏好捕获和推荐决策，如果能提供更深入的可解释性分析，将有助于模型的理解、调试和改进。
负采样策略： 论文在 BPR 损失中提到负样本 $n$ 是用户未交互过的物品，但没有详细说明具体的负采样策略。在图对比学习的 InfoNCE 损失中，负样本通常是当前批次中的其他样本。负采样策略对推荐系统性能至关重要，特别是对于高稀疏度数据。未来的工作可以探索更高级的负采样技术，例如硬负样本挖掘 (hard negative mining) 或生成式负采样 (generative negative sampling)。

相似论文推荐

基于向量语义检索推荐的相关论文。

暂时没有找到相似论文。