论文状态：已完成

Curriculum Conditioned Diffusion for Multimodal Recommendation

发表：2025/04/11

原文链接

价格：0.100000

已有 1 人读过

本分析由 AI 生成，可能不完全准确，请以原文为准。

TL;DR 精炼摘要

提出了一种课程条件扩散框架CCDRec，用于解决多模态推荐中的数据稀疏问题。该框架通过扩散模型整合了逆向阶段与负采样，有效挖掘多模态之间的相关性，提升推荐系统的个性化能力，且在多个数据集上验证了其有效性与鲁棒性。

摘要

Multimodal recommendation (MMRec) aims to integrate multimodal information of items to address the inherent data sparsity issue in collaborative-based recommendation. Traditional MMRec methods typically capture the structure-level item representations from the observed user behaviors within the multimodal graph, overlooking the potential impact of negative instances for personalized preference understanding. In light of the outstanding generative ability and step-by-step inference characteristic of Diffusion Models (DMs), we propose a Curriculum Conditioned Diffusion framework for Multimodal Recommendation (CCDRec), which precisely excavates the modality-aware distribution-level correlation among multi-modalities and elegantly integrates the reverse phase of DMs into negative sampling to highlight the most suitable instances in a curricular manner. Specifically, CCDRec proposes the Diffusion-controlled Multimodal Aligning module (DMA) to align multimodal knowledge with collaborative signals by capturing the fine-grained relationships among multi-modalities in the probabilistic distribution space. Furthermore, CCDRec designs the Negative-sensitive Diffusive Inferring module (NDI) to progressively synthesize the negative sample pool with diverse hardness to support the following knowledge-aware negative sampling. To gradually ramp up the training complexity, CCDRec further introduces a Curricular Negative Sampler (CNS) to tally the curriculum learning paradigm with the reverse phase of DMA, thereby adaptively sampling the gold-standard negative instances to enhance optimization. Extensive experiments on three datasets with four diverse backbones demonstrate the effectiveness and robustness of our CCDRec. The visualization analyses also clarify the underlying mechanism of our DMA in multimodal representation alignment and CNS in curricular negative discovery. The code and the corresponding dataset will be uploaded in the Appendix.

思维导图

论文精读

中文精读约 43 分钟读完 · 27,448 字

1. 论文基本信息

1.1. 标题

Curriculum Conditioned Diffusion for Multimodal Recommendation (课程条件扩散用于多模态推荐)

1.2. 作者

Yimeng Yang, Haokai Ma, Lei Meng, Shuo Xu, Ruobing Xie, Xiangxu Meng。作者主要来自山东大学软件学院 (School of Software, Shandong University) 和腾讯 (Tencent)，其中 Lei Meng 和 Xiangxu Meng 也来自山东省工业技术研究院 (Shandong Research Institut of Industrial Technology)。

1.3. 发表期刊/会议

论文发布于 2025-04-11T00:00:00.000Z。根据其研究领域和引用格式，通常这类工作会投稿至计算机科学领域的顶级会议或期刊，如 WWW、SIGIR、KDD、MM、NIPS 等。

1.4. 摘要

多模态推荐 (MMRec) 旨在整合物品的多模态信息，以解决基于协同过滤 (Collaborative Filtering) 的推荐中固有的数据稀疏性问题。传统的 MMRec 方法通常从多模态图中的观察到的用户行为中捕获结构级 (structure-level) 的物品表示，而忽略了负实例 (negative instances) 对个性化偏好理解的潜在影响。鉴于扩散模型 (Diffusion Models, DMs) 卓越的生成能力和逐步推理 (step-by-step inference) 特性，本文提出了一个用于多模态推荐的课程条件扩散框架 (Curriculum Conditioned Diffusion framework for Multimodal Recommendation, CCDRec)。CCDRec 精确挖掘了多模态之间的模态感知分布级 (modality-aware distribution-level) 相关性，并巧妙地将扩散模型的逆向阶段 (reverse phase) 整合到负采样 (negative sampling) 中，以课程化的方式突出最合适的实例。具体而言，CCDRec 提出了扩散控制的多模态对齐模块 (Diffusion-controlled Multimodal Aligning module, DMA)，通过在概率分布空间中捕获多模态之间的细粒度关系，将多模态知识与协同信号 (collaborative signals) 对齐。此外，CCDRec 设计了负样本敏感扩散推理模块 (Negative-sensitive Diffusive Inferring module, NDI)，逐步合成具有不同硬度 (hardness) 的负样本池，以支持后续的知识感知负采样。为了逐步增加训练复杂度，CCDRec 进一步引入了课程负采样器 (Curricular Negative Sampler, CNS)，将课程学习 (curriculum learning) 范式与 DMA 的逆向阶段结合起来，从而自适应地采样金标准 (gold-standard) 负实例以增强优化。在三个数据集和四个不同主干网络 (backbones) 上的广泛实验证明了 CCDRec 的有效性和鲁棒性。可视化分析也阐明了 DMA 在多模态表示对齐中的潜在机制以及 CNS 在课程负样本发现中的作用。

1.5. 原文链接

/files/papers/692faab1ab04788a90066006/paper.pdf 发布状态：根据提供的 UTC 时间，该论文计划于 2025-04-11 发布。

2. 整体概括

2.1. 研究背景与动机

多模态推荐 (MMRec) 在信息社会中扮演着至关重要的角色，它通过结合不同类型的数据（如文本、图像、音频）来全面捕捉用户偏好，并提供更个性化和相关的推荐。然而，现有的推荐方法在整合多模态信息时面临以下挑战：

传统 MMRec 的局限性： 传统的 MMRec 方法通常侧重于从观察到的用户行为和多模态图中学习物品的结构级表示，但它们往往忽略了负实例 (negative instances) 的潜在影响。在推荐系统中，负实例指的是用户没有交互过的物品。理解用户为什么不与某些物品交互，对于更深入地理解其个性化偏好至关重要。
负采样的不足： 负采样是推荐系统中的一个关键技术，用于从海量的未交互物品中选择负样本以优化模型。然而，传统的负采样策略，如均匀采样 (uniform sampling) 或基于流行度采样 (popularity-based sampling)，通常缺乏灵活性，无法适应用户动态变化的偏好。它们可能采样到过于简单的负样本，导致模型优化效率低下，也可能采样到过于困难的负样本，在训练初期阻碍模型收敛。
硬负采样 (Hard Negative Sampling, HNS) 的挑战： 尽管硬负采样技术旨在选择更具信息量的负实例（即那些模型容易误判为正样本的负样本），以提升模型判别能力，但现有方法多应用于协同过滤 (Collaborative Filtering) 或图表示学习 (Graph Representation Learning) 场景，缺乏针对多模态推荐的灵活性和适应性。在多模态环境下，如何有效利用多模态信息来发现不同硬度的负样本，并以合理的方式引入训练，是一个未解决的问题。

针对这些挑战，本文的切入点是利用扩散模型 (Diffusion Models, DMs) 的独特优势。DMs 具有出色的生成能力和逐步推理 (step-by-step inference) 的特性，其多步马尔可夫 (Markov) 逆向过程允许在不同去噪阶段灵活访问数据，并实现自适应的难度控制。作者认为，这种特性可以被巧妙地应用于负采样过程，以动态地生成和选择具有不同硬度的负实例。

2.2. 核心贡献/主要发现

本文提出了一个新颖的课程条件扩散框架用于多模态推荐 (Curriculum Conditioned Diffusion for Multimodal Recommendation, CCDRec)，其核心贡献和主要发现如下：

首次将条件扩散模型 (Conditioned DMs) 的逆向阶段整合到负采样中： CCDRec 创新性地将扩散模型的逆向去噪过程与负采样结合起来，以课程化 (curricular manner) 的方式自适应地发现和选择最佳的负实例。这是首次探索扩散模型在多模态推荐负采样策略中的应用。
提出了三个模型无关的模块：
- 扩散控制的多模态对齐模块 (Diffusion-controlled Multimodal Aligning module, DMA)： 该模块利用扩散模型在概率分布空间中捕获多模态之间的细粒度关系，实现多模态知识与协同信号的对齐，生成更准确的物品对齐表示。
- 负样本敏感扩散推理模块 (Negative-sensitive Diffusive Inferring module, NDI)： NDI 利用 DMA 的推理过程，在不同扩散步（即不同去噪阶段）提取物品表示，从而构建具有多样化硬度的负样本池。
- 课程负采样器 (Curricular Negative Sampler, CNS)： CNS 将课程学习范式与 DMA 的逆向阶段相结合。它在训练过程中逐步引入更难的负样本，从易到难地提升模型学习能力，增强优化效果。
广泛的实验验证： 在三个真实世界数据集（Baby、Sports、Clothing）和四个不同的多模态推荐主干网络 (backbones) 上的实验结果表明，CCDRec 在所有指标上均显著优于现有基线方法，验证了其有效性和鲁棒性。
机制可视化分析： 可视化分析进一步阐明了 DMA 在多模态表示对齐中的作用（图4），以及 CNS 在课程化负样本发现中的潜在机制（图5），为理解模型内部工作原理提供了直观证据。

3. 预备知识与相关工作

本节将介绍理解 CCDRec 所需的基础概念，回顾相关领域的前人工作，并分析本文与现有研究的差异。

3.1. 基础概念

多模态推荐 (Multimodal Recommendation, MMRec)：这是一种推荐系统，它不仅仅依赖于用户与物品的交互历史（如购买、点击），还整合了物品的多种类型信息（模态），例如图像、文本描述、音频等。通过利用这些丰富的上下文信息，MMRec 旨在更全面地理解用户偏好和物品特征，从而提供更准确和个性化的推荐，尤其是在数据稀疏性 (Data Sparsity) 问题严重的场景下。
协同过滤 (Collaborative Filtering, CF)：这是推荐系统中最常用的技术之一。其基本思想是“物以类聚，人以群分”。CF 可以分为两类：基于用户的 CF，寻找与目标用户兴趣相似的用户并推荐这些用户喜欢的物品；基于物品的 CF，寻找与用户过去喜欢的物品相似的物品进行推荐。CF 主要依赖于用户-物品交互数据。
数据稀疏性 (Data Sparsity)：在推荐系统中，由于用户通常只与极少数物品进行交互，导致用户-物品交互矩阵中绝大部分条目为空白，这就是数据稀疏性问题。这使得基于协同过滤的方法难以准确捕捉用户偏好，并可能导致“冷启动 (cold-start)”问题。
图神经网络 (Graph Neural Networks, GNNs)：GNNs 是一类专门处理图结构数据的深度学习模型。它们通过在图上进行信息传播和聚合，学习节点（例如用户、物品）的低维表示（嵌入）。在推荐系统中，GNNs 常用于建模用户-物品交互图或物品之间的关系图，以捕获高阶连接信息。
自监督学习 (Self-supervised Learning, SSL)：SSL 是一种机器学习范式，它不依赖于人工标注的数据，而是通过从数据本身生成监督信号来训练模型。例如，在多模态领域，可以通过预测图像与文本之间的匹配关系来学习跨模态的表示。
生成模型 (Generative Models)：生成模型是一类能够学习训练数据分布，并能生成与训练数据相似的新样本的机器学习模型。常见的生成模型包括变分自编码器 (Variational Autoencoders, VAEs)、生成对抗网络 (Generative Adversarial Networks, GANs) 和扩散模型 (Diffusion Models, DMs)。
扩散模型 (Diffusion Models, DMs)：扩散模型是一种近期在图像生成等领域取得巨大成功的生成模型。它包含两个主要过程：
- 前向扩散过程 (Forward Diffusion Process)：这个过程逐步向原始数据中添加高斯噪声 (Gaussian noise)，直到数据完全变成纯噪声。这个过程是固定的、马尔可夫链式的。
- 逆向去噪过程 (Reverse Denoising Process)：这个过程是学习的，它试图从纯噪声中逐步去除噪声，最终恢复出原始数据。通过训练一个神经网络来预测并去除每一步添加的噪声，DMs 能够生成高质量的样本。其逐步推理 (step-by-step inference) 的特性意味着在不同去噪阶段可以获得不同程度的信息表示，这为本文的负采样策略提供了基础。
负采样 (Negative Sampling)：在许多机器学习任务中，尤其是二分类任务（如用户是否喜欢某个物品），正样本（用户喜欢的物品）通常很少，而负样本（用户不喜欢的物品）非常多。负采样是指从大量的负样本中选择一小部分负样本参与训练，以平衡正负样本比例，并提高训练效率。
硬负采样 (Hard Negative Sampling, HNS)：HNS 是一种更高级的负采样策略。它不仅随机选择负样本，而是有选择性地挑选那些模型目前还难以正确分类的负样本。这些“硬”负样本通常与正样本非常相似，或者模型对其预测分数较高，但实际上是负样本。通过学习这些硬负样本，模型能够更好地学习判别边界，从而提高性能。
课程学习 (Curriculum Learning, CL)：这是一种训练策略，其灵感来源于人类学习过程。模型不会一开始就面对所有难度的训练样本，而是从相对简单、容易学习的样本开始训练，然后逐步引入更复杂、更困难的样本。这种循序渐进的方式有助于模型更好地收敛，避免陷入局部最优，并提高泛化能力。
贝叶斯个性化排序 (Bayesian Personalized Ranking, BPR)：BPR 是一种针对隐式反馈 (implicit feedback) 推荐系统的优化准则和损失函数。它不直接预测用户对物品的评分，而是关注用户对一对物品的偏好关系：即用户更喜欢交互过的物品 $p$ 而不是未交互过的物品 $r$ 。BPR 损失函数旨在最大化这种相对偏好关系。
主干网络 (Backbone)：在深度学习模型中，主干网络通常指用于特征提取的底层网络结构。例如，在图像处理中，ResNet、VGG 等常被用作主干网络来提取图像特征。在推荐系统中，LightGCN、FREEDOM 等可以被视为提取用户和物品特征的主干网络。

3.2. 前人工作

本论文在多模态推荐、推荐系统中的扩散模型以及推荐系统中的负采样等领域，与多项前人工作进行了对比和借鉴。

3.2.1. 多模态推荐 (Multimodal Recommendation)

早期研究： 早期工作（如 He 和 McAuley, 2016; Chen et al., 2019）主要通过预先提取的视觉特征来丰富物品表示。
基于图神经网络 (GNN) 的方法： 随着 GNNs 在推荐领域取得成功，许多方法（如 Wang et al., 2021; Zhang et al., 2021; Zhou and Shen, 2023）利用 GNN 来提取用户特定的模态偏好和物品之间的高阶关系。例如，这些方法通常会从用户偏好视角生成模态偏好表示，并从多模态视角获取物品表示。
自监督学习 (SSL) 方法： 为了确保不同模态之间内容的一致性，一些研究（如 Tao et al., 2022; Zhou et al., 2023）引入了自监督多模态信号来改进潜在物品表示。
生成模型方法： 近期，生成模型（如 VAEs 和 DMs）的有效性在多模态推荐任务中也得到了探索（如 Bai et al., 2023; Yu et al., 2023; Ma et al., 2024c）。例如，MCDRec (Ma et al., 2024c) 使用扩散模型来建模多模态和协同数据在连续空间中的分布。

3.2.2. 推荐系统中的扩散模型 (Diffusion Models in Recommendation)

受扩散模型在计算机视觉领域（如图像生成和数据增强）成功应用的启发（Rombach et al., 2022; Zheng et al., 2024; Yu et al., 2024），一些研究开始探索其在推荐系统中的潜力：

DiffRec (Wang et al., 2023a)： 通过去噪过程逐步生成全局但个性化的协同信息。
PDRec (Ma et al., 2024a)： 引入了三个插件模块，以充分利用基于扩散的跨物品偏好。
序列推荐中的扩散模型： 还有一些方法（如 Li et al., 2023; Yang et al., 2024）探索使用扩散模型来挖掘物品空间中的潜在分布，以增强对用户序列行为引导下的物品动态的理解。
MCDRec (Ma et al., 2024c)： 将模态感知的不确定性注入物品表示中，以缓解多模态特征和协同特征之间的偏差。

3.2.3. 推荐系统中的负采样 (Negative Sampling in Recommendation)

负采样在推荐系统中至关重要，尤其是在优化如贝叶斯个性化排序 (BPR) 等目标函数时：

传统静态负采样： 推荐系统通常使用 BPR (Rendle et al., 2012) 和基于固定概率分布（如均匀采样 (Guo et al., 2017) 和基于流行度采样 (Mikolov et al., 2013)）的静态负采样来优化模型。然而，均匀选择的负样本可能导致梯度较小，对收敛贡献不大。
硬负采样 (HNS)： 为解决上述问题，研究人员提出了硬负采样方法，例如 DNS (Zhang et al., 2013) 通过过采样高分负样本来获取更多信息。SRNS (Ding et al., 2020) 利用基于方差的函数来检测高信息量的负样本。MixGCF (Huang et al., 2021) 通过结合多层负样本来生成合成负样本。
现有 HNS 的局限： 然而，上述方法主要依赖于协同过滤和图表示学习，这限制了它们对多模态推荐场景的适用性。

3.3. 差异化分析

本文 CCDRec 与上述现有工作的主要区别和创新点在于：

现有 MMRec 方法的不足： 现有的多模态推荐方法通常侧重于从观察到的用户交互中提升物品表示，但它们普遍忽略了负实例在个性化偏好理解中的重要作用。这导致模型可能无法充分学习用户不喜欢的具体原因，从而限制了推荐的精度和解释性。
MCDRec 的改进： 尽管 MCDRec (Ma et al., 2024c) 也采用了扩散模型来建模多模态数据，但其主要关注点在于将模态感知的不确定性注入物品表示以缓解特征偏差，并且其 U-Net 结构在物品特征重建时可能存在模态信息丢失的风险。更重要的是，MCDRec 未能深入利用扩散模型的逐步推理特性来进行负采样。
负采样策略的创新： 传统的负采样方法（如均匀采样、基于流行度采样）缺乏灵活性和适应性，而现有硬负采样方法主要针对协同过滤，未能有效结合多模态信息。
CCDRec 的核心创新：
- CCDRec 是首个将扩散模型的逆向过程巧妙地整合到多模态推荐的负采样策略中的工作。它充分利用了扩散模型逐步去噪的特性来生成具有不同硬度的负样本。
- 通过 DMA 模块，CCDRec 能够更精确地捕获多模态之间的细粒度关系，并将其与协同信号对齐，解决了多模态信息与协同信息之间可能存在的语义鸿沟。
- 通过 NDI 和 CNS 模块，CCDRec 实现了知识感知且动态的负采样，能够根据训练阶段自适应地提供难度合适的负样本，从而避免了训练初期的过难样本导致收敛困难，并在后期提供有效挑战以提升模型判别力。
  
  综上所述，CCDRec 在利用扩散模型进行多模态信息融合的同时，突破性地将其应用于负采样，弥合了现有方法在负样本建模上的空白，为多模态推荐带来了显著提升。

4. 方法论

本节将详细阐述 CCDRec 框架的方法论，包括其任务表述、整体架构以及三个核心模块——DMA、NDI 和 CNS 的设计原理和数学细节，最后介绍其优化目标。

4.1. 任务公式与整体框架

任务目标： 多模态推荐的目标是利用物品的额外多模态信息来获取更精确的物品表示，从而提供更准确的推荐。 符号定义：

$\mathcal{U}$ ：用户集合。
$\mathcal{I}$ ：物品集合。
$e_u \in \mathbb{R}^d$ ：用户 $u \in \mathcal{U}$ 的嵌入表示，维度为 $d$ 。
$e_i \in \mathbb{R}^d$ ：物品 $i \in \mathcal{I}$ 的嵌入表示，维度为 $d$ 。
$e_i^v \in \mathbb{R}^{d_v}$ ：物品 $i$ 的视觉特征，维度为 $d_v$ 。
$e_i^t \in \mathbb{R}^{d_t}$ ：物品 $i$ 的文本特征，维度为 $d_t$ .

整体框架： CCDRec 的整体架构如图2所示。它通过扩散模型 (Diffusion Model, DM) 来增强物品的多模态融合，并利用 DM 生成的知识进行自适应负采样，在不同训练阶段选择不同难度的负样本。

该图像是示意图，展示了课程条件扩散框架（CCDRec）在多模态推荐中的结构。图中包括用户和物品的协同信息、图谱与多模态信息的结合，以及扩散控制的多模态对齐模块（DMA）和负样本敏感扩散推理模块（NDI）。图示还揭示了课程负采样器（CNS）的功能，逐步调整训练复杂度以优化推荐效果。箭头指向不同模块，标明信号流动和信息处理的过程。

上图（原文 Figure 2）展示了 CCDRec 的整体架构。该框架主要包含以下几个关键部分：

基础多模态推荐器 (Base Multimodal Recommender)： 负责从用户-物品交互数据和原始模态特征中提取初步的用户和物品表示。
扩散控制的多模态对齐模块 (Diffusion-controlled Multimodal Aligning, DMA)： 接收来自基础推荐器的物品 ID 嵌入、视觉特征和文本特征。它利用条件扩散模型的学习阶段，在概率分布空间中对齐多模态信息与协同信号，生成更准确、融合的物品表示。
负样本敏感扩散推理模块 (Negative-sensitive Diffusive Inferring, NDI)： 在 DMA 学习完成后，NDI 利用 DMA 的推理阶段，在不同的去噪时间步提取物品的中间表示。这些中间表示构成了具有不同“硬度”的负样本池。
课程负采样器 (Curricular Negative Sampler, CNS)： CNS 结合课程学习策略。它根据当前的训练 epoch，从 NDI 构建的负样本池中自适应地选择难度适中的负样本。在训练初期选择相对容易的负样本，后期逐步引入更困难的负样本，以优化推荐模型。
优化目标： 最终，通过结合来自随机负样本的 BPR 损失、来自课程负样本的 BPR 损失以及 DMA 的扩散损失，共同优化整个模型。

4.2. 基础多模态推荐器 (Base Multimodal Recommender)

CCDRec 采用 FREEDOM (Zhou and Shen, 2023) 作为其基础多模态推荐器。FREEDOM 的核心思想是利用图结构来融合多模态和协同信息。

具体步骤：

构建模态感知物品-物品图 (Modality-aware Item-Item Graphs)：
- 使用原始视觉特征 $e_i^v$ 和文本特征 $e_i^t$ 构建模态特定的物品-物品图。
- 通过 k-近邻 (KNN) 稀疏化 (sparsification) 简化这些图，生成归一化的邻接矩阵。
融合图构建： 合并这些模态特定的邻接矩阵，创建一个统一的潜在物品-物品图 $S$ 。
图卷积 (Graph Convolutions)： 在图 $S$ 上应用图卷积操作，进行特征聚合和信息传播，以获得物品的模态增强表示 $\hat{h}_i$ 。
ID 嵌入学习： 在用户-物品交互图 $\widehat{A}$ 上，使用 LightGCN (He et al., 2020) 的默认设置进行多次卷积操作，以获得用户和物品的 ID 嵌入，分别表示为 $\tilde{h}_u$ 和 $\tilde{h}_i$ 。
最终表示：
- 用户的最终表示为 $h_u = \tilde{h}_u$ 。
- 物品的最终表示融合了模态增强表示和 ID 嵌入： $h_i = \hat{h}_i + \tilde{h}_i$ 。
模态特征投影： 此外，使用多层感知器 (Multilayer Perceptrons, MLPs) 将每种模态的原始特征投影到嵌入空间： $h_i^m = e_i^m W_m + b_m$ ，其中 $m \in \{v, t\}$ 代表视觉或文本模态， $W_m$ 和 $b_m$ 是可学习的权重和偏置。

4.3. 扩散控制的多模态对齐模块 (Diffusion-controlled Multimodal Aligning, DMA)

DMA 模块的核心是利用扩散模型来捕捉多模态之间的概率相关性，并将这些多模态信息与协同信号对齐，从而生成更准确的物品对齐表示，解决协同信息和多模态信息之间的不一致性，并更好地捕捉用户的深层偏好。DMA 基于去噪扩散概率模型 (Denoising Diffusion Probabilistic Models, DDPM)。

4.3.1. DMA 的学习阶段 (Learning Phase of DMA)

1. 前向扩散过程 (Forward Process)： 给定一个物品的 ID 嵌入 $e_i$ ，我们首先将其记为 $e_i^0$ 。在前向过程中，我们逐步向 $e_i^0$ 中引入高斯噪声。经过 $t$ 个时间步后，原始嵌入 $e_i^0$ 转化为一个不确定的分布 $q(e_i^t \mid e_i^0)$ 。这个过程是一个马尔可夫链，每一步都在前一步的基础上添加噪声。 $q \left( e _ { i } ^ { t } \mid e _ { i } ^ { 0 } \right) = \mathcal { N } \left( e _ { i } ^ { t } ; \sqrt { \bar { \alpha } _ { t } } e _ { i } ^ { 0 } , \left( 1 - \overline { { \alpha } } _ { t } \right) \mathrm { I } \right)$ 其中：

$e_i^t$ 是在时间步 $t$ 时物品 $i$ 的带噪声嵌入。
$e_i^0$ 是物品 $i$ 的原始 ID 嵌入。
$\mathcal{N}(\cdot ; \mu, \Sigma)$ 表示均值为 $\mu$ 、协方差矩阵为 $\Sigma$ 的高斯分布。
$\bar{\alpha}_t$ 是一个预定义的调度参数，控制着在时间步 $t$ 时保留的原始信号的比例，它通常是从 $\alpha_t = 1 - \beta_t$ 累积得到的，其中 $\beta_t$ 是在时间步 $t$ 添加的噪声量。 $\bar{\alpha}_t = \prod_{s=1}^t \alpha_s$ 。
$\mathrm{I}$ 是单位矩阵。

通过重参数化技巧 (reparameterization trick)，我们可以直接从 $e_i^0$ 和一个标准高斯噪声 $\epsilon$ 中得到 $e_i^t$ ： $e _ { i } ^ { t } = \sqrt { { \bar { \alpha } } _ { t } } e _ { i } ^ { 0 } + \sqrt { 1 - { \bar { \alpha } } _ { t } } \epsilon$ 其中 $\epsilon \sim \mathcal{N}(0, \mathrm{I})$ 是一个从标准高斯分布中采样的噪声向量。

2. 逆向去噪过程 (Reverse Process)： 逆向过程是扩散模型学习的核心，其目标是从带噪声的 $e_i^t$ 恢复出 $e_i^{t-1}$ ，最终恢复到 $e_i^0$ 。传统的扩散模型通过预测每一步的噪声来实现去噪。本文中，模型通过一个参数化的去噪轨迹 $f_\theta$ 来重建样本，这个轨迹旨在反映原始数据的分布。 $p _ { \theta } \left( e _ { i } ^ { t - 1 } \mid { e } _ { i } ^ { t } \right) = \mathcal { N } \left( e _ { i } ^ { t - 1 } ; \mu _ { \theta } \left( e _ { i } ^ { t } , t , h _ { i } ^ { v } , h _ { i } ^ ^ { t } \right) , \Sigma _ { \theta } \left( e _ { i } ^ { t } , t \right) \right)$ 其中：

$p_\theta(e_i^{t-1} \mid e_i^t)$ 是条件概率分布，表示从 $e_i^t$ 恢复到 $e_i^{t-1}$ 的过程。
$\mu_\theta(\cdot)$ 是由模型学习的均值函数，用于估计去噪后的 $e_i^{t-1}$ 。
$h_i^v$ 和 $h_i^t$ 是物品 $i$ 的视觉和文本特征，作为条件信息 (conditional information) 引导去噪过程。
$\Sigma _ { \theta } \left( e _ { i } ^ { t } , t \right) = \sigma _ { t } ^ { 2 } \mathrm { I } = \frac { 1 - \bar { \alpha } _ { t - 1 } } { 1 - \bar { \alpha } _ { t } } \beta _ { t } \mathrm { I }$ 是协方差矩阵，其中 $\sigma_t^2$ 是预定义的方差。

均值 $\mu_\theta$ 可以通过以下方式计算，其中 $f_\theta(\cdot)$ 是一个用于预测噪声的条件估计器（在本文中用于直接预测 $e_i^0$ ）： $\mu _ { \theta } \left( e _ { i } ^ { t } , t , h _ { i } ^ { v } , h _ { i } ^ { t } \right) = \frac { 1 } { \sqrt { \alpha _ { t } } } \left( e _ { i } ^ { t } - \frac { \beta _ { t } } { \sqrt { 1 - \bar { \alpha } _ { t } } } f _ { \theta } \left( e _ { i } ^ { t } , t , h _ { i } ^ { v } , h _ { i } ^ { t } \right) \right)$ 在这里， $f_\theta(\cdot)$ 是一个专门设计的条件估计器，它接收带噪声的嵌入 $e_i^t$ 、当前时间步 $t$ 、视觉特征 $h_i^v$ 和文本特征 $h_i^t$ 作为输入，并预测原始的、无噪声的物品嵌入 $e_i^0$ (通常在 DDPM 中是预测噪声 $\epsilon$ ，但本文采用了预测 $e_i^0$ 的变体，更常见于推荐领域)。

3. 损失函数 (Loss Function)： 为了训练高质量的条件估计器 $f_\theta(\cdot)$ ，我们遵循 DDPM 的设置，通过优化变分下界 (Variational Lower Bound, VLB) 来最大化数据似然。这通常转化为最小化真实逆向过程和模型学习的逆向过程之间的 KL 散度： $\mathcal { L } _ { v l b } = D _ { K L } \left( q \left( e _ { i } ^ { t } \mid e _ { i } ^ { t - 1 } , e _ { i } ^ { 0 } \right) \parallel p _ { \theta } \left( e _ { i } ^ { t - 1 } \mid e _ { i } ^ { t } \right) \right) .$ 在实践中，这个复杂的 KL 散度损失可以简化为一个更易于优化的均方误差 (Mean-Squared Error, MSE) 损失函数： $\mathcal { L } _ { d m } = E _ { e _ { i } ^ { 0 } , e _ { i } ^ { t } } \left[ \left. e _ { i } ^ { 0 } - f _ { \theta } \left( e _ { i } ^ { t } , t , \pmb { h } _ { i } ^ { v } , \pmb { h } _ { i } ^ { t } \right) \right. ^ { 2 } \right] .$ 其中：

$E[\cdot]$ 表示期望值。
$e_i^0$ 是原始的、无噪声的物品 ID 嵌入。
$f_\theta(\cdot)$ 是条件估计器，它接收带噪声的 $e_i^t$ 、时间步 $t$ 、视觉特征 $\pmb{h}_i^v$ 和文本特征 $\pmb{h}_i^t$ ，并输出一个估计的原始物品嵌入 $\hat{e}_i^0 = f_\theta(\cdot)$ 。
这个损失函数的目标是训练 $f_\theta$ 使得其输出 $\hat{e}_i^0$ 尽可能接近真实的原始嵌入 $e_i^0$ 。

4. 融合表示 (Fused Representation)： 在训练过程中，从 DMA 得到的估计物品表示 $\widetilde{e}_i^0$ 会与基础推荐器中学习到的高阶物品表示 $\hat{h}_i$ 进行融合，形成最终的融合表示 $\hat{e}_i^f$ ： $\hat { e } _ { i } ^ { f } = ( 1 - \mu ) \hat { h } _ { i } + \mu \cdot \widetilde { e } _ { i } ^ { 0 }$ 其中：

$\hat{h}_i$ 是来自基础推荐器的物品 $i$ 的高阶表示。
$\widetilde{e}_i^0$ 是由 DMA 模块估计的原始物品嵌入。
$\mu$ 是一个可调参数，控制着扩散模型输出在融合表示中的权重。

4.3.2. 条件估计器 (Conditional Estimator)

为了实现 $f_\theta(\cdot)$ ，本文遵循 (Li et al., 2023; Wang et al., 2024) 的方法，采用 Transformer (Vaswani et al., 2017) 架构作为条件估计器。

输入： 它将多种模态特征（包括带噪声的物品表示 $e_i^t$ $e_{i}^{t}$ 、文本特征 $\boldsymbol{h}_i^t$ $h_{i}^{t}$ 、视觉特征 $\boldsymbol{h}_i^v$ $h_{i}^{v}$ ）以及一个正弦时间步嵌入 $t_i$ $t_{i}$ 组合起来，形成输入特征矩阵 $\mathbf{F} \in \mathbb{R}^{B \times M \times d}$ $F \in R^{B \times M \times d}$ 。
- $B$ 是批次大小 (batch size)。
- $M$ 是模态的数量（这里是 3：噪声嵌入、文本、视觉）。
- $d$ 是特征维度。
处理： Transformer 的自注意力机制 (self-attention mechanism) 允许模型选择性地关注输入数据中不同部分，从而捕捉不同模态之间复杂的依赖关系。
输出： 最终的聚合注意力输出 $\widetilde{e}_i^0$ 通过对不同模态的输出进行平均得到，确保多模态数据被精确且复杂地整合，以条件化估计 $\hat{e}_i^0$ 。

4.3.3. DMA 的推理阶段 (Inference Phase of DMA)

DMA 的推理阶段在每个训练 epoch 结束后执行一次。

添加噪声： 给定一个完整的扩散步数 $T$ ，我们首先向原始物品嵌入 $e_i^0$ 添加噪声，得到 $\hat{e}_i^T$ （这是在扩散模型的训练完成后，用于生成负样本池的第一步）。
逐步去噪： 接着，我们执行一个逐步逆向去噪操作，从 $\hat{e}_i^T \to \hat{e}_i^{T-1} \to \dots \to \hat{e}_i^0$ ，最终得到符合协同表示分布的最终去噪表示 $\hat{e}_i^0$ 。
生成融合表示： 类似于训练任务，最终的物品融合表示被生成为 $\hat{e}_i^f = (1 - \mu) \hat{\pmb{h}}_i + \bar{\mu} \cdot \hat{e}_i^0$ 。这里 $\bar{\mu}$ 是推理阶段的权重参数，可能与训练阶段的 $\mu$ 不同，或者就是其最终值。这个融合表示将用于后续的推荐任务。

4.4. 负样本敏感扩散推理模块 (Negative-sensitive Diffusive Inferring, NDI)

背景： 硬负实例 (Hard Negative Instances) 对于增强模型辨别能力非常重要，但过早地使用过难的负样本可能导致模型陷入局部最优。因此，构建一个具有不同难度级别的负样本池至关重要。NDI 模块旨在解决这一挑战。

原理： NDI 利用了 DMA 推理过程中，物品表示在不同时间步具有不同“去噪程度”的特性。在扩散模型的逆向过程中，随着去噪步数的增加，物品表示会逐渐从纯噪声向原始数据逼近，其信息量和与真实物品的相似度也随之增加。因此，不同去噪步的表示可以代表不同“硬度”的负样本。

具体步骤：

DM 推理执行： 在每个训练 epoch 开始时，已经训练好的 DMA 模型会为所有物品执行一次完整的逆向推理过程。这个过程的计算成本较低，因为它只需要执行一次。
多步表示提取： 逆向过程从噪声开始，逐步生成最终的表示（即 $\hat{e}_i^0$ $\overset{e}{^}_{i}^{0}$ ）。NDI 在这个过程中设置固定的时间步间隔，提取物品在 $T/4, T/2, 3T/4, T$ $T /4, T /2, 3 T /4, T$ 等时间步的中间表示。这些提取的表示构成了四个不同的样本候选池。
- $T$ 步： 接近纯噪声，对应非常“简单”的负样本。
- $3T/4$ 步： 噪声较多，但已开始包含一些结构信息，对应相对“简单”的负样本。
- $T/2$ 步： 噪声中等，包含更多信息，对应中等“硬度”的负样本。
- $T/4$ 步： 噪声较少，接近最终表示，对应较“硬”的负样本。
- 0 步（等同于 $T$ 步的推理结果）： 最终去噪后的表示 $\hat{e}_i^0$ ，信息最丰富，对应最“硬”的负样本。这些不同时间步的物品表示集合可以表示为： $\hat { E } _ { | \mathcal { I } | } ^ { t } = \left[ \hat { e } _ { 0 } ^ { t } , \hat { e } _ { 1 } ^ { t } , \cdots , \hat { e } _ { | \mathcal { I } | - 1 } ^ { t } \right] \in \mathbb { R } ^ { | \mathcal { I } | \times d } , \quad t \in \big \{ \frac { 3 T } { 4 } , \frac { T } { 2 } , \frac { T } { 4 } , 0 \big \} .$ 其中：
- $\hat{E}_{|\mathcal{I}|}^t$ 是在特定时间步 $t$ 下所有物品的表示矩阵。
- $|\mathcal{I}|$ 是物品总数。
- $\hat{e}_j^t$ 是物品 $j$ 在时间步 $t$ 下的表示。
- $d$ 是特征维度。
灵活选择： 通过这些分层的样本池，我们就可以根据需要灵活地选择具有不同难度级别的负实例。

4.5. 课程负采样器 (Curricular Negative Sampler, CNS)

背景： 在训练初期，过早地引入过于困难的负样本可能导致模型性能下降和收敛缓慢。课程学习 (Curriculum Learning, CL) 策略能够通过逐步增加样本难度来提高模型的泛化能力和收敛速度。CNS 模块正是为了实现这种自适应的课程化负采样。

原理： CNS 结合了课程学习范式与 NDI 提供的不同硬度的负样本池。它会根据训练的进度（当前的 epoch 数）动态地选择一个合适的难度级别的负样本池，从中进行采样。

具体步骤：

动态选择负样本池： CNS 根据当前的训练 epoch $n$ 动态地确定要使用的负样本池的时间步 $t$ 。 $t = ( T / 4 ) \times \left( 3 - \operatorname* { m i n } \left( 3 , \lfloor n / \Delta \tau \rfloor \right) \right) .$ 其中：
- $n$ 是当前的训练 epoch 编号。
- $\Delta \tau$ 是一个超参数，控制着课程学习中难度切换的 epoch 间隔。
- $\lfloor \cdot \rfloor$ 是向下取整函数。
- $min(3, ...)$ 确保索引不会超出预定义的难度级别（对应 $3T/4, T/2, T/4, 0$ 这四个时间步，其中 0 步是最硬的，索引为 3）。
- 通过这个公式，CNS 在训练初期会选择较大的 $t$ 值（例如 $3T/4$ ），对应 NDI 中较简单的负样本。随着 $n$ 的增加， $\lfloor n / \Delta \tau \rfloor$ 会增大， $3 - \operatorname{min}(\dots)$ 会减小，导致 $t$ 逐渐减小（例如 $T/2, T/4, 0$ ），从而引入越来越硬的负样本。
- 当 epoch $n > \tau_{\mathrm{end}}$ （其中 $\tau_{\mathrm{end}}$ 标记了课程学习策略结束的 epoch）时，模型将始终使用最终的项目表示（即时间步 0 的表示，被认为是“最硬”的样本）作为负样本池。
负样本采样：
- 候选集选择： 一旦确定了当前 epoch 对应的负样本池 $\hat{E}_{|\mathcal{I}|}^t$ ，我们从中随机采样 $10\%$ 的物品作为候选负样本。
- 相似度计算与硬负样本选择： 对于一个正样本 $h_p$ （用户 $u$ 交互过的物品），我们从当前选定的负样本池中取出其在时间步 $t$ 的表示 $\hat{e}_p^t$ 。然后，计算 $\hat{e}_p^t$ 与所有候选负样本的相似度 $S(\hat{e}_p^t, \hat{e}_j^t)$ 。
- 课程负样本 (Curricular Negative Sample) 生成： 从相似度最高的 top-k 候选物品 $\mathcal{C}_k$ 中随机选择一个物品 $c$ ，将其最终表示 $h_c$ 作为课程负样本。这里的 $k$ 是一个比例参数，代表选择高相似度物品的比例。
- 简单负样本 (Easy Negative Sample) 补充： 为了增强模型的泛化能力和稳定性，除了课程负样本 $h_c$ 之外，CNS 还会包含一个随机选择的简单负样本 $h_r$ 进行共同训练。这有助于避免模型因只关注极度困难的负样本而过拟合。

4.6. 优化目标 (Optimization Objectives)

CCDRec 的优化目标基于传统的推荐算法，特别是贝叶斯个性化排序 (BPR) 损失，并结合了 DMA 的扩散损失以及两种负样本策略。

1. 贝叶斯个性化排序 (BPR) 损失： 对于每个用户 $u$ 和其交互过的正样本 $h_p$ ，我们引入两种 BPR 损失：一种是针对随机负样本 $h_r$ 的，另一种是针对课程负样本 $h_c$ 的。 $\left\{ \begin{array} { l } { \displaystyle \mathcal { L } _ { b p r } ^ { r } = \sum _ { \left( u , p , r \right) \in \mathcal { R } } \left( - \log \sigma \left( h _ { u } ^ { \top } h _ { p } - h _ { u } ^ { \top } h _ { r } \right) \right) , } \\ { \displaystyle \mathcal { L } _ { b p r } ^ { c } = \sum _ { \left( u , p , c \right) \in \mathcal { R } } \left( - \log \sigma \left( h _ { u } ^ { \top } h _ { p } - h _ { u } ^ { \top } h _ { c } \right) \right) . } \end{array} \right.$ 其中：

$\mathcal{R}$ 表示用户 $u$ 、正样本 $p$ 和负样本 $r$ （或 $c$ ）构成的三元组集合。
$\sigma(\cdot)$ 是 Sigmoid 激活函数，用于将输入值映射到 $(0, 1)$ 之间，表示用户对正样本比负样本更偏好的概率。
$h_u$ 是用户 $u$ 的嵌入表示。
$h_p$ 是正样本物品 $p$ 的嵌入表示（由基础推荐器和 DMA 融合后的 $\hat{e}_i^f$ ）。
$h_r$ 是随机负样本物品 $r$ 的嵌入表示。
$h_c$ 是课程负样本物品 $c$ 的嵌入表示。
$h_u^\top h_p$ 表示用户 $u$ 对物品 $p$ 的偏好分数（点积相似度）。
$\mathcal{L}_{bpr}^r$ 旨在最大化用户对正样本与随机负样本之间的偏好差距。
$\mathcal{L}_{bpr}^c$ 旨在最大化用户对正样本与课程负样本之间的偏好差距。

2. 整体目标函数 (Overall Objective Function)： 总的优化目标 $\mathcal{L}$ 是所有损失项的加权和： $\mathcal { L } = ( 1 - \omega ) \cdot \mathcal { L } _ { b p r } ^ { r } + \omega \cdot \mathcal { L } _ { b p r } ^ { c } + \lambda \cdot \mathcal { L } _ { d m } ,$ 其中：

$\mathcal{L}_{dm}$ 是 DMA 模块的扩散损失（如前所述的 MSE 损失），用于训练条件估计器并实现多模态对齐。
$\omega$ 是一个超参数，用于平衡随机负样本 BPR 损失和课程负样本 BPR 损失的权重。当 $\omega$ 较大时，模型更侧重于从课程负样本中学习。
$\lambda$ 是一个超参数，用于平衡推荐任务损失（BPR 损失）和扩散模型损失的权重。

通过联合优化这个损失函数，CCDRec 能够同时学习高质量的多模态对齐物品表示，并在课程学习范式下有效利用不同硬度的负样本来优化推荐性能。

5. 实验设置

本节将详细介绍 CCDRec 在实验中采用的数据集、评估指标、对比基线模型以及具体的参数设置。

5.1. 数据集

本文在三个真实的亚马逊 (Amazon) 平台数据集上进行了实验，这些数据集广泛应用于多模态推荐研究。为了保证数据的质量和模型的训练效率，所有数据集都经过了预处理，采用了 5-core 设置，即只保留至少有 5 次交互的用户和至少被 5 个用户交互过的物品。

Baby (婴儿用品)
Sports (运动户外)
Clothing (服饰鞋包)

这些数据集的统计信息如表1所示：

以下是原文 Table 1 的结果：

Dataset	#Users	#Items	#Interactions	Sparsity
Baby	19,445	7,050	160,792	99.88%
Sports	35,598	18,357	296,337	99.95%
Clothing	39,387	23,033	237,488	99.97%

模态特征：

视觉特征 (Visual features)： 直接使用预提取的特征，维度为 4096。
文本特征 (Textual features)： 使用 sentence-transformers (Reimers and Gurevych, 2019) 提取，维度为 384。

选择这些数据集是因为它们代表了不同领域和规模的真实世界推荐场景，且包含丰富的多模态信息，能够有效地验证 CCDRec 在多模态推荐任务中的性能和泛化能力。

5.2. 评估指标

本文使用推荐系统领域两个标准的评估指标来衡量模型的性能： $\mathrm{Recall}@k$ 和 $\mathrm{NDCG}@k$ 。其中 $k$ 取值为 5 和 10。

5.2.1. 召回率 (Recall@k)

概念定义 (Conceptual Definition): 召回率 (Recall) 衡量的是在所有用户实际喜欢的物品中，模型成功推荐出了多少比例的物品。更具体地， $\mathrm{Recall}@k$ 表示在推荐给用户的 $k$ 个物品中，有多少比例是用户实际交互过的。它关注的是模型找到所有相关物品的能力。
数学公式 (Mathematical Formula): $\mathrm{Recall}@k = \frac{|\{\text{推荐列表中前 k 个项目}\}| \cap |\{\text{用户实际交互过的项目}\}|}{|\{\text{用户实际交互过的项目}\}|}$
符号解释 (Symbol Explanation):
- $k$ ：推荐列表的长度，即模型推荐给用户的物品数量。
- $|\{\text{推荐列表中前 k 个项目}\}| \cap |\{\text{用户实际交互过的项目}\}|$ ：推荐列表中前 $k$ 个物品中，与用户实际交互过的物品集合的交集大小，即模型成功推荐出的用户真正喜欢的物品数量。
- $|\{\text{用户实际交互过的项目}\}|$ ：用户实际交互过的物品总数。

5.2.2. 归一化折损累计增益 (Normalized Discounted Cumulative Gain, NDCG@k)

概念定义 (Conceptual Definition): 归一化折损累计增益 (NDCG) 是一种衡量推荐列表排序质量的指标。它不仅考虑了被推荐物品的相关性，还考虑了它们在推荐列表中的位置。相关性越高的物品排在越前面，NDCG 值越高。通过对位置进行折扣（即位置越靠后的物品，其相关性得分的贡献越小），NDCG 能更好地反映用户对推荐列表的满意度。
数学公式 (Mathematical Formula): 首先计算折损累计增益 (Discounted Cumulative Gain, DCG)： $\mathrm{DCG}_k = \sum_{j=1}^{k} \frac{2^{\mathrm{rel}_j}-1}{\log_2(j+1)}$ 然后计算理想折损累计增益 (Ideal Discounted Cumulative Gain, IDCG)： $\mathrm{IDCG}_k = \sum_{j=1}^{k} \frac{2^{\mathrm{rel}_{j}^{\text{ideal}}}-1}{\log_2(j+1)}$ 最后计算 NDCG： $\mathrm{NDCG}_k = \frac{\mathrm{DCG}_k}{\mathrm{IDCG}_k}$
符号解释 (Symbol Explanation):
- $k$ ：推荐列表的长度。
- $j$ ：推荐列表中物品的位置（排名），从 1 开始。
- $\mathrm{rel}_j$ ：在推荐列表中第 $j$ 个位置上物品的相关性得分。这个得分通常是二值的（0 或 1，表示未交互或交互过），也可以是多值的（如评分）。
- $\mathrm{rel}_{j}^{\text{ideal}}$ ：在理想推荐列表（所有相关物品按最高相关性排序）中第 $j$ 个位置上物品的相关性得分。
- $\log_2(j+1)$ ：折扣因子，表示位置越靠后的物品，其相关性得分对总增益的贡献越小。分母使用 $\log_2(j+1)$ 而不是 $\log_2(j)$ 是为了避免 $j=1$ 时分母为 0。
- $\mathrm{DCG}_k$ ：前 $k$ 个推荐物品的折损累计增益，累加了每个物品相关性得分经过位置折扣后的值。
- $\mathrm{IDCG}_k$ ：理想情况下（即完美排序）前 $k$ 个物品的折损累计增益，作为归一化的最大可能值。
- $\mathrm{NDCG}_k$ ：通过将 $\mathrm{DCG}_k$ 除以 $\mathrm{IDCG}_k$ 进行归一化，使得不同查询或不同长度列表的得分可以在 0 到 1 之间比较。

5.3. 对比基线

为了全面评估 CCDRec 的性能，本文将其与多类别的基线模型进行了比较：

5.3.1. 协同过滤 (CF-based) 推荐器

这些模型仅依赖用户-物品交互数据。

BPR (Rendle et al., 2012)： 贝叶斯个性化排序，一种经典的隐式反馈推荐算法。
LightGCN (He et al., 2020)： 一种简化但强大的图卷积网络 (GCN) 推荐模型，仅使用邻接矩阵进行传播。

5.3.2. 多模态推荐器 (Multimodal Recommenders)

这些模型整合了多模态信息。

MMGCN (Wei et al., 2019)： 多模态图卷积网络，利用图结构融合多模态信息进行推荐。
SLMRec (Tao et al., 2022)： 自监督学习多模态推荐，利用自监督信号增强物品表示。
BM3 (Zhou et al., 2023)： Bootstrap Latent Representations for Multi-modal Recommendation，通过自举学习增强多模态表示。
LATTICE (Zhang et al., 2021)： Mining Latent Structures for Multimedia Recommendation，挖掘多媒体的潜在结构进行推荐。
FREEDOM (Zhou and Shen, 2023)： A Tale of Two Graphs: Freezing and Denoising Graph Structures for Multimodal Recommendation，本文的基础多模态推荐器。
MG (Zhong et al., 2024)： Mirror Gradient: Towards Robust Multimodal Recommender Systems via Exploring Flat Local Minima，一个探索平坦局部最小值的多模态推荐系统。
MCDRec (Ma et al., 2024c)： Multimodal Conditioned Diffusion Model for Recommendation，另一个利用条件扩散模型进行推荐的方法。

为了确保公平比较，所有基线模型在负采样时都使用了两个随机负样本。

5.4. 参数设置

为了找到最优的模型性能，本文进行了全面的网格搜索 (grid search) 来选择超参数。

嵌入大小 (Embedding size)： 用户和物品的嵌入维度统一设置为 64。
GCN 层数 (Number of GCN layers)： 设置为 2。
损失权重：
- 扩散损失权重 $\lambda$ 在 $\{0.5, 1, 2\}$ 中进行搜索。
- 课程负样本 BPR 损失权重 $\omega$ 在 $\{0.5, 0.7, 0.8, 0.9\}$ 中进行搜索。
扩散过程参数：
- 扩散步数 $T$ （或用于采样的时间步）在 $\{5, 10, 20, 40, 100\}$ 中进行调优。
- 扩散权重 $\mu$ （用于融合 DMA 输出和基础推荐器输出）在 $\{0.3, 0.5, 0.8\}$ 中进行选择。
课程学习参数：
- $\Delta \tau$ （控制课程学习中难度切换的 epoch 间隔）在 $\{3, 5, 10, 15, 20\}$ 中进行搜索。
- $\tau_{\mathrm{end}}$ （课程学习结束的 epoch）在 $\{30, 50, 75, 100\}$ 中进行搜索。
训练策略： 遵循 (Zhou and Shen, 2023) 的做法，采用早停策略 (early stopping strategy) 来防止过拟合，即当验证集上的性能不再提升时停止训练。

6. 实验结果与分析

本节将详细解读 CCDRec 的实验结果，包括其与基线方法的性能对比、消融研究、与其他硬负采样方法的比较，以及对 DMA 和 CNS 机制的深入可视化分析。

6.1. 性能对比 (RQ1)

为了回答研究问题 RQ1，即 CCDRec 相较于协同过滤 (CF-based) 方法和最先进的多模态推荐方法的性能如何，本文在 Baby、Sports 和 Clothing 三个数据集上进行了实验，并使用 $\mathrm{Recall}@k$ 和 $\mathrm{NDCG}@k$ (其中 $k=5, 10$ ) 作为评估指标。实验结果如表2所示：

以下是原文 Table 2 的结果：

Versions	Algorithms	Baby				Sports				Clothing
Versions	Algorithms	R@5	R@10	N@5	N@10	R@5	R@10	N@5	N@10	R@5	R@10	N@5	N@10
CF-based recommenders	BPR-MF	0.0208	0.0344	0.0138	0.0183	0.0257	0.0410	0.0177	0.0228	0.0118	0.0191	0.0079	0.0102
CF-based recommenders	LightGCN	0.0307	0.0488	0.0204	0.0263	0.0354	0.0554	0.0242	0.0308	0.0219	0.0355	0.0145	0.0189
Multimodal recommenders	MMGCN	0.0251	0.0410	0.0164	0.0217	0.0236	0.0388	0.0154	0.0204	0.0128	0.0210	0.0085	0.0111
	SLMRec	0.0320	0.0486	0.0216	0.0271	0.0420	0.0650	0.0285	0.0361	0.0290	0.0440	0.0192	0.0240
	BM3	0.0326	0.0535	0.0219	0.0288	0.0401	0.0627	0.0269	0.0343	0.0273	0.0417	0.0180	0.0226
	LATTICE	0.0352	0.0545	0.0228	0.0291	0.0395	0.0625	0.0263	0.0338	0.0330	0.0499	0.0217	0.0272
	CCDRec(LATTICE)	0.0371	0.0596	0.0251	0.0325	0.0470	0.0715	0.0316	0.0397	0.0393	0.0613	0.0259	0.0330
	Improvement	5.40%	9.36%	10.09%	11.68%	18.99%	14.40%	20.15%	17.46%	19.09%	22.85%	19.35%	21.32%
	FREEDOM	0.0389	0.0626	0.0250	0.0328	0.0455	0.0713	0.0299	0.0384	0.0403	0.0623	0.0265	0.0337
	CCDRec(FREEDOM)	0.0426	0.0679	0.0274	0.0356	0.0481	0.0760	0.0315	0.0406	0.0433	0.0677	0.0288	0.0368
	Improvement	9.51%	8.47%	9.60%	8.54%	5.71%	6.59%	5.35%	5.73%	7.44%	8.67%	8.68%	9.20%
	MCDRec	0.0381	0.0651	0.0255	0.0343	0.0463	0.0709	0.0305	0.0386	0.0415	0.0653	0.0276	0.0353
	CCDRec(MCDRec)	0.0409	0.0667	0.0269	0.0354	0.0478	0.0740	0.0315	0.0400	0.0434	0.0670	0.0288	0.0364
	Improvement	7.35%	2.46%	5.49%	3.21%	3.24%	4.37%	3.28%	3.63%	4.58%	2.60%	4.35%	3.12%
	MG	0.0390	0.0624	0.0253	0.0330	0.0460	0.0714	0.0302	0.0385	0.0400	0.0622	0.0264	0.0336
	CCDRec(MG)	0.0399	0.0651	0.0262	0.0344	0.0489	0.0746	0.0319	0.0404	0.0428	0.0664	0.0284	0.0361
	Improvement	2.31%	4.33%	3.56%	4.24%	6.30%	4.48%	5.63%	4.94%	7.00%	6.75%	7.58%	7.44%

从表2中，我们可以观察到以下关键洞察：

CCDRec 的卓越性能： CCDRec 在所有三个数据集的所有评估指标上都显著优于所有基线方法。这有力地证明了其将扩散模型增强的物品融合与扩散知识引导的负采样策略相结合，能够有效地利用多模态信息，帮助模型学习用户更细粒度的多模态偏好。
多模态推荐优于协同过滤： 普遍而言，多模态推荐方法（如 MMGCN、LATTICE、FREEDOM 等）的性能优于传统的纯协同过滤方法（BPR-MF、LightGCN）。这再次证实了整合多模态信息在缓解数据稀疏性、丰富物品表示方面的有效性。
不同主干网络上的提升： CCDRec 在不同的主干网络 (backbones) 上均实现了性能提升。
- 在 LATTICE 上，CCDRec 实现了最显著的提升，例如在 Sports 数据集的 R@5 上达到了 18.99% 的提升，在 Clothing 的 R@10 上达到了 22.85% 的提升。这表明 CCDRec 对于那些不直接使用扩散模型进行物品表示建模的主干网络，能够带来巨大的增益。
- 与 FREEDOM 结合时，CCDRec 取得了所有数据集上的最佳结果，这表明 CCDRec 与一个强大的基线模型结合时，仍能进一步挖掘潜力。
- 即使对于像 MCDRec 这样已经引入扩散模型进行物品建模的方法，CCDRec 也能带来稳定的性能提升。这暗示了 MCDRec 可能存在的局限性，例如其 U-Net 结构在重建物品特征时可能丢失关键的模态信息。同时，这也突出 CCDRec 通过扩散引导的负采样策略，为模型训练提供了更有价值的指导。
- 对于 MG，CCDRec 也表现出一致的提升。这些结果进一步强调了 CCDRec 通过其定制的扩散模型来建模物品多模态融合表示的能力。

6.2. 消融研究 (RQ2 & RQ3)

为了回答研究问题 RQ2 和 RQ3，即 CCDRec 中不同组件对其推荐性能的影响以及其在不同多模态推荐主干网络上的有效性，本文进行了消融研究。实验比较了 CCDRec 及其不同组件被移除或修改的版本。其中，"FREEDOM + DMA + NDI" 指的是从 NDI 生成的最后一个样本池 $\hat{E}_{|\mathcal{I}|}^0$ 中随机选择样本作为负实例进行优化。CCDRec (FREEDOM) 则等同于 FREEDOM + DMA + NDI + CNS。实验结果如图3所示：

Figure 3: Results on ablation study of CCDRec on LATTICE, FREEDOM and MG. All components are effective. 该图像是图表，展示了 CCDRec 在 LATTICE、FREEDOM 和 MG 数据集上的消融研究结果。图中显示了在 R@10 和 N@10 两个指标下，各种配置的性能，证明了所有组件的有效性。

上图（原文 Figure 3）展示了 CCDRec 在 LATTICE、FREEDOM 和 MG 三个主干网络上的消融研究结果。图中比较了基线模型、基线模型加上 DMA、基线模型加上 DMA 和 NDI，以及完整的 CCDRec (即基线模型加上 DMA、NDI 和 CNS) 的性能。

从图3中，我们可以得出以下结论：

DMA 模块的有效性： FREEDOM + DMA 在 Baby 和 Sports 数据集上始终优于 FREEDOM 基线。这表明 DMA 模块能够有效地捕捉用户细粒度的模态偏好，并生成更准确的物品对齐表示，从而提升推荐性能。
NDI 模块的有效性： FREEDOM + DMA + NDI 相较于 FREEDOM + DMA 表现出显著改进。这说明 NDI 模块通过利用扩散模型推理过程中的不同时间步表示，成功地挖掘出了具有信息量的潜在负样本，为模型优化提供了更丰富的信号。
CNS 模块的有效性： CCDRec (FREEDOM)（即 FREEDOM + DMA + NDI + CNS）进一步提升了性能，超越了 FREEDOM + DMA + NDI。这强调了课程学习范式在动态负采样中的价值。通过根据推理步骤自适应地调整负样本难度，CNS 确保了在训练的不同阶段模型都能获得最合适的学习挑战，从而实现最优的训练效果。
组件的普适性和泛化性： 论文在 LATTICE、FREEDOM 和 MG 这三个不同的主干网络上都进行了渐进式消融实验，并始终发现 CCDRec 的完整版本优于所有其他变体。这表明 DMA、NDI 和 CNS 这些模块是有效且具有良好泛化能力的，可以集成到各种多模态推荐模型中。

6.3. 与其他硬负采样方法的性能对比 (RQ4)

为了回答研究问题 RQ4，即 CCDRec 相较于其他硬负采样 (HNS) 算法的优越性，本文将 CCDRec 与三种典型的 HNS 方法——DNS、MixGCF 和 RealHNS——进行了比较。为了确保公平性，这些 HNS 方法也被集成到 LATTICE、FREEDOM 和 MG 这三个基础模型中，并在一致的实验设置下进行评估。实验结果如表3所示：

以下是原文 Table 3 的结果：

Versions	Baby		Clothing
Versions	Recall@10	NDCG@10	Recall@10	NDCG@10
LATTICE	0.0545	0.0291	0.0499	0.0272
+DNS	0.0572	0.0311	0.0580	0.0322
+MixGCF	0.0582	0.0316	0.0582	0.0321
+RealHNS	0.0586	0.0313	0.0586	0.0322
+CCDRec	0.0596	0.0356	0.0613	0.0330
FREEDOM	0.0626	0.0328	0.0623	0.0337
+DNS	0.0637	0.0339	0.0650	0.0354
+MixGCF	0.0654	0.0348	0.0644	0.0350
+RealHNS	0.0659	0.0351	0.0641	0.0351
+CCDRec	0.0679	0.0356	0.0677	0.0368
MG	0.0624	0.0330	0.0622	0.0336
+DNS	0.0635	0.0336	0.0639	0.0346
+MixGCF	0.0643	0.0342	0.0648	0.0349
+RealHNS	0.0644	0.0338	0.0651	0.0352
+CCDRec	0.0651	0.0344	0.0664	0.0361

从表3中，我们可以得出以下观察：

CCDRec 的显著优势： CCDRec 在所有主干网络（LATTICE、FREEDOM 和 MG）和两个数据集上，其性能（Recall@10 和 NDCG@10）始终优于所有其他硬负采样方法（DNS、MixGCF 和 RealHNS）。这进一步证明了 CCDRec 在负采样方面的优越性，尤其是在结合了扩散模型的模态感知能力和课程学习策略后，能够发现并利用更有效的负样本。
硬负采样方法的普遍有效性： 将不同的 HNS 方法集成到各个主干网络中，都能够带来性能的提升（相较于未使用 HNS 的基线）。这表明，在多模态推荐中，负信息确实蕴含着巨大的潜在价值，通过明智地选择负采样策略，可以持续增强模型建模用户多模态偏好的能力。

6.4. DMA 中的多模态对齐估计 (RQ5)

为了深入理解研究问题 RQ5，即 DMA 如何影响用户表示和物品表示的分布，本文使用 t-SNE (Van der Maaten and Hinton, 2008) 对 Baby 数据集上用户与物品的嵌入进行了可视化。实验对比了模型在训练初始状态和收敛状态下的表现。

Figure 4: Visualization of the multimodal representation distribution of CCDRec on different training stages from the perspective of different users. 该图像是图表，展示了 CCDRec 在不同训练阶段的多模态表示分布，其中左侧为初始状态，右侧为收敛状态。图中不同符号和颜色代表用户嵌入、项目嵌入、融合项目嵌入等，展示了模型在训练过程中的变化与优化。

上图（原文 Figure 4）展示了 CCDRec 在不同训练阶段（初始状态和收敛状态）的多模态表示分布。图中：

不同的颜色代表不同的用户。
实心圆点代表用户嵌入。
实心方块代表物品 ID 嵌入。
实心三角形代表模态特征（例如视觉或文本特征）。
实心星形代表融合物品嵌入（由 DMA 生成）。

从图4中，我们可以观察到：

初始阶段的无序分布： 在训练的初始阶段（左侧图），同一用户的相关表示（包括用户嵌入、其交互物品的 ID 嵌入、模态特征和融合物品嵌入）在低维空间中呈现出分散且无序的分布。不同用户之间的表示也高度混杂，难以区分。这表明模型尚未有效地学习到用户偏好和物品特征之间的关联，以及多模态信息之间的对齐。
收敛阶段的聚类现象： 相比之下，在收敛阶段（右侧图），同一用户的相关表示呈现出显著的聚类分布。具体表现为：
- 属于同一用户的物品表示（ID 嵌入、模态特征、融合嵌入）聚集在一起。
- 用户嵌入与其交互物品的融合嵌入（实心星形）距离最近。
- 不同用户之间的聚类也变得更加清晰和分离。这有力地证明了 DMA 模块在精确捕获同一物品不同模态（如视觉、文本）之间的细粒度关系，并将其与协同信号进行对齐方面的有效性。通过这种对齐，DMA 能够生成更具区分性和信息量的融合物品表示，使得模型在用户偏好理解上达到更高的水平。

6.5. CNS 中的负推理估计 (RQ6)

为了回答研究问题 RQ6，即 CNS 在课程化负样本发现中的潜在机制，本文可视化了在 CNS 采样过程中，具有不同硬度的负实例的表示分布。实验随机选取了两个用户及其交互过的正样本，并展示了 CNS 采样到的不同硬度负实例（来自 DMA 推理阶段的 $3T/4$ 到 0 步）。

$Figure 5: Visualization of the representation distribution of negative instances with diverse hardness (from step $3 T / 4$ to step 0 of the inference phase of DMA) in training.$ 该图像是图表，展示了在DMA推理阶段中，负实例的表征分布及其多样性的难度（从第 $3T / 4$ 步骤到第 0 步骤）变化情况。图中展示了用户及各个实例的相对位置，难易程度从难到易呈现出不同的分布特征。

上图（原文 Figure 5）展示了在 DMA 推理阶段中，具有不同硬度负实例的表示分布（从 $3T/4$ 步到 0 步）。图中：

不同的颜色代表不同的用户。
实心圆点代表用户嵌入。
实心方块代表正样本嵌入。
实心星形代表负样本嵌入。

从图5中，我们可以观察到：

负实例硬度的递增趋势： 随着 DMA 推理阶段的进行（即从 $3T/4$ 步逐渐到 0 步），采样到的负实例的硬度呈现出明显的递增趋势。这种硬度的增加直观地体现在这些负样本在低维空间中与对应用户和正样本的距离上。
去噪步数与负样本硬度的关系：
- 较少的逆向去噪步数（如 $3T/4, T/2$ ）：这些阶段的物品表示仍然包含较多的噪声，因此它们与用户和正样本的距离相对较远，代表着“简单”或“较软”的负样本。这些样本对于模型在训练初期建立基本的判别能力是有益的。
- 较多的逆向去噪步数（如 $T/4, 0$ ）：这些阶段的物品表示经过更多去噪，信息量更丰富，与原始物品表示更接近。因此，它们与用户和正样本的距离更近，代表着“困难”或“较硬”的负样本。这些样本能够更有效地挑战模型，促使其学习更精细的判别边界，提高鲁棒性。
CNS 机制的有效性： 这种可视化现象明确地突出了 CNS 的有效性。通过在训练过程中，根据课程学习的策略，自适应地选择来自不同去噪阶段的负样本，CNS 能够为推荐器的优化提供逐步增加难度的挑战。这有助于模型从简单到复杂地学习，避免训练初期因过难样本而造成的收敛问题，并在后期通过硬负样本进一步提升性能。

7. 总结与思考

7.1. 结论总结

本文提出了一个新颖的课程条件扩散框架用于多模态推荐 (Curriculum Conditioned Diffusion for Multimodal Recommendation, CCDRec)。该框架巧妙地将扩散模型 (Diffusion Models, DMs) 的逆向过程与负采样 (negative sampling) 机制相结合，旨在以课程化的方式自适应地选择最合适的负实例。

CCDRec 的主要贡献和核心模块包括：

扩散控制的多模态对齐模块 (DMA)： 利用条件扩散模型的学习阶段，在概率分布空间中捕捉多模态之间的细粒度关系，并将其与协同信号对齐，生成高质量的物品融合表示。
负样本敏感扩散推理模块 (NDI)： 在 DMA 的推理阶段，系统性地从不同的去噪时间步提取物品表示，构建了一个具有多样化硬度 (hardness) 的负样本池。
课程负采样器 (CNS)： 结合课程学习范式，根据训练进度从 NDI 生成的负样本池中动态选择难度适中的负样本，从而优化模型训练。

在三个真实世界数据集和四个多样化的多模态推荐主干网络 (backbones) 上的广泛实验验证了 CCDRec 的显著有效性和鲁棒性。可视化分析进一步直观地阐明了 DMA 在多模态表示对齐中的作用以及 CNS 在课程化负样本发现中的机制。

7.2. 局限性与未来工作

作者在论文中指出了以下局限性并展望了未来的研究方向：

DM 在负采样中的潜力挖掘： 尽管 CCDRec 已经成功将 DM 应用于负采样，但作者认为 DM 在负采样中仍有许多未被充分利用的潜力，值得进一步探索。
更具挑战的场景： 未来工作将研究 CCDRec 在更具挑战性的推荐场景中的有效性，例如：
- 多模态跨域推荐 (Multimodal Cross-domain Recommendation)： 在不同领域之间利用多模态信息进行推荐。
- 序列推荐 (Sequential Recommendation)： 考虑用户历史行为的顺序，预测下一个可能交互的物品。

7.3. 个人启发与批判

个人启发：

DM 的新颖应用： 本文最令人启发之处在于将扩散模型从传统的生成任务（如图像、文本生成）拓展到推荐系统中的负采样。DM 的逐步去噪特性天然地对应了“从模糊到清晰”、“从简单到复杂”的信息演进过程，这与课程学习和硬负采样的思想高度契合。这种将生成模型特性与推荐系统核心问题结合的思路非常巧妙且富有创新性。
统一多模态与协同信号： DMA 模块通过 DM 实现多模态知识与协同信号的对齐，解决了多模态推荐中一个常见的问题——如何有效融合异构信息。通过在概率分布空间中进行对齐，模型能够学习到更鲁棒和细致的物品表示。
课程化负采样的价值： CNS 的引入再次证明了课程学习在复杂模型训练中的重要性。通过自适应地调整负样本难度，模型能够更平稳地学习，避免早期训练的波动，并在后期通过“硬”样本挑战提升判别能力，这对于提高推荐系统的泛化性能至关重要。
模块化设计： DMA、NDI 和 CNS 都是模型无关的模块，这意味着它们可以灵活地集成到不同的多模态推荐主干网络中，具有良好的普适性。

批判与可以改进的地方：

计算成本： 扩散模型的训练通常计算成本较高。虽然 NDI 模块在每个 epoch 开始时只执行一次推理，降低了推理阶段的成本，但 DMA 本身的训练（尤其是在 Transformer 作为条件估计器时）可能需要大量的计算资源和时间，这可能限制其在大规模推荐系统中的应用。
超参数敏感性： CCDRec 引入了多个超参数，如扩散权重 $\mu$ 、损失权重 $\lambda$ 和 $\omega$ 、课程学习参数 $\Delta \tau$ 和 $\tau_{\mathrm{end}}$ 。这些参数的调优可能非常复杂和耗时，且对最终性能影响较大。如何更自适应或自动化地确定这些参数是值得研究的方向。
负样本池的粒度： NDI 模块通过固定间隔（ $T/4, T/2, 3T/4, 0$ ）来构建负样本池。这种离散的难度划分是否最优？是否存在更平滑、更细粒度或更自适应的难度划分策略？例如，可以根据模型当前的学习状态动态调整抽样时间步的分布。
隐式反馈的局限： 当前工作主要关注隐式反馈数据。在显式反馈（如评分）或更复杂的交互类型（如评论、分享）中，负样本的定义和采样策略可能需要进一步调整。
可解释性： 尽管可视化分析提供了一定的直观解释，但扩散模型本身通常被认为是“黑箱”模型。如何进一步提升 CCDRec 在推荐决策层面的可解释性，例如解释为什么某个负样本被认为是“硬”的，以及模型如何从这些硬负样本中学习，是未来一个重要方向。
冷启动问题： 虽然多模态推荐有助于缓解冷启动，但 CCDRec 的负采样策略主要依赖于已有物品表示。对于全新的、没有交互历史的物品，如何有效地生成其多模态融合表示并进行负采样，可能需要额外的机制。

相似论文推荐

基于向量语义检索推荐的相关论文。

暂时没有找到相似论文。