论文状态:已完成

InfoDCL: Informative Noise Enhanced Diffusion Based Contrastive Learning

发表:2025/12/18
原文链接PDF 下载
价格:0.100000
价格:0.100000
已有 3 人读过
本分析由 AI 生成,可能不完全准确,请以原文为准。

TL;DR 精炼摘要

本文提出了一种名为InfoDCL的新框架,通过单步扩散过程结合辅助语义信息,生成真实用户偏好以增强对比学习。该方法转化生成与偏好学习之间的干扰为合作,并在五个真实数据集上显著优于现有方法。

摘要

Contrastive learning has demonstrated promising potential in recommender systems. Existing methods typically construct sparser views by randomly perturbing the original interaction graph, as they have no idea about the authentic user preferences. Owing to the sparse nature of recommendation data, this paradigm can only capture insufficient semantic information. To address the issue, we propose InfoDCL, a novel diffusion-based contrastive learning framework for recommendation. Rather than injecting randomly sampled Gaussian noise, we employ a single-step diffusion process that integrates noise with auxiliary semantic information to generate signals and feed them to the standard diffusion process to generate authentic user preferences as contrastive views. Besides, based on a comprehensive analysis of the mutual influence between generation and preference learning in InfoDCL, we build a collaborative training objective strategy to transform the interference between them into mutual collaboration. Additionally, we employ multiple GCN layers only during inference stage to incorporate higher-order co-occurrence information while maintaining training efficiency. Extensive experiments on five real-world datasets demonstrate that InfoDCL significantly outperforms state-of-the-art methods. Our InfoDCL offers an effective solution for enhancing recommendation performance and suggests a novel paradigm for applying diffusion method in contrastive learning frameworks.

思维导图

论文精读

中文精读

1. 论文基本信息

1.1. 标题

InfoDCL: Informative Noise Enhanced Diffusion Based Contrastive Learning

1.2. 作者

Xufeng Liang, Zhida Qin (北京理工大学), Chong Zhang (西安交通大学), Tianyu Huang, Gangyi Ding (北京理工大学)

1.3. 发表期刊/会议

论文发布在 KDD '26 (第 32 届 ACM SIGKDD 知识发现与数据挖掘会议),将于 2026 年 8 月 9-13 日在韩国济州岛举行。KDD 是数据挖掘和知识发现领域的顶级会议,具有极高的学术声誉和影响力。

1.4. 发表年份

2026年 (UTC时间 2025-12-18T14:15:31.000Z 发布)。

1.5. 摘要

对比学习 (Contrastive Learning, CL) 在推荐系统 (Recommender Systems) 中展现出巨大潜力。现有方法通常通过随机扰动原始交互图来构建更稀疏的视图,因为它们无法获取真实的用户偏好 (user preferences)。由于推荐数据固有的稀疏性,这种范式只能捕获不足的语义信息 (semantic information)。为了解决这个问题,本文提出了 InfoDCL,一个新颖的基于扩散的对比学习推荐框架。InfoDCL 不再注入随机采样的高斯噪声 (Gaussian noise),而是采用单步扩散过程 (single-step diffusion process),将噪声与辅助语义信息 (auxiliary semantic information)相结合,生成信号 (signals),并将其输入到标准扩散过程中,以生成真实的用户偏好 (user preferences)作为对比视图。此外,基于对 InfoDCL 中生成和偏好学习之间相互影响的全面分析,论文构建了一个协同训练目标策略 (collaborative training objective strategy),将它们之间的干扰转化为相互协作。另外,为了在保持训练效率的同时融入高阶共现信息 (higher-order co-occurrence information),论文仅在推理阶段采用多个 GCN 层。在五个真实世界数据集上进行的广泛实验表明,InfoDCL 显著优于最先进的 (state-of-the-art)方法。InfoDCL 提供了一种增强推荐性能的有效解决方案,并提出了将扩散方法应用于对比学习框架的新范式。

1.6. 原文链接

https://arxiv.org/abs/2512.16576v1 发布状态: 预印本 (v1 版本,发布于 2025-12-18)。

2. 整体概括

2.1. 研究背景与动机

随着数字信息的爆炸式增长,推荐系统 (Recommender Systems) 已成为过滤和分发海量数据的基本工具。用户交互记录的不断积累,促使人们需要更准确、高效地揭示用户潜在偏好的推荐模型。近年来,对比学习 (Contrastive Learning) 因其通过对比正样本 (positive samples)负样本 (negative samples)来学习判别性表示的强大能力,在研究社区中获得了广泛关注。与传统的监督学习方法相比,对比学习可以利用大量的未标注数据来捕获细粒度的相似性,使其特别适用于显式反馈稀疏且嘈杂的推荐任务。

论文试图解决的核心问题: 现有的对比学习推荐模型通常通过随机扰动原始交互图来构建稀疏视图。这种方法的主要问题在于,由于缺乏对“真实用户偏好分布”的认知,以及推荐数据本身的稀疏性,这种范式只能捕获到非常有限的语义信息 (semantic information)和用户偏好。即使是一些引入辅助数据(如多模态信息)的方法,也主要侧重于对齐来自异构源的视图,但由于分布差异和潜在噪声,这些对齐对于学习准确的用户偏好来说往往不足。简单地在嵌入 (embeddings)中添加噪声,虽然能增强鲁棒性,但仍未能挖掘出更丰富的用户偏好。

为什么这个问题在当前领域是重要的? 准确捕捉用户偏好是推荐系统核心任务,直接影响推荐的质量和用户的满意度。当前方法在稀疏数据下捕获用户偏好不足,导致模型性能受限,无法提供更精准、多样化的推荐。

现有研究存在哪些具体的挑战或空白 (Gap)?

  1. 视图构建不足: 现有对比学习方法主要通过扰动现有交互关系来生成稀疏视图,这在数据稀疏时无法有效捕捉用户真正的偏好,导致语义信息 (semantic information)不足。
  2. 噪声注入问题: 简单地注入随机采样的高斯噪声 (Gaussian noise)会破坏已经有限的潜在用户偏好信号,尤其是在稀疏数据中。
  3. 多目标优化冲突: 生成模型 (generative model)(如扩散模型)的目标是生成逼真的数据,而偏好学习 (preference learning)(如推荐任务)的目标是优化排序。这两种学习目标之间可能存在相互干扰,导致优化不足。

这篇论文的切入点或创新思路是什么? 论文提出利用扩散范式 (diffusion paradigm)强大的生成能力来创建能够反映真实用户偏好的视图 (views)。关键在于如何将辅助信息 (auxiliary information)中的语义 (semantics)融入到扩散过程中,生成富有意义的信息噪声 (informative noise),从而在保留共现关系 (co-occurrence relationships)的同时,生成更准确反映用户偏好的嵌入 (embeddings)

2.2. 核心贡献/主要发现

论文提出了 InfoDCL 框架,其主要贡献和发现可以总结如下:

  • 提出新颖的对比学习框架: 提出了 InfoDCL,一个灵活的信息噪声 (informative noise)增强的基于扩散的对比学习 (diffusion-based contrastive learning)框架。该框架能够为每种类型的语义辅助信息 (semantic auxiliary information)构建独立的对比学习通道,并通过协调策略联合训练以达到最佳性能。
  • 创新性的信息噪声生成: 设计了一个基于扩散过程的 PsNet 模块,通过谱修正 (spectral rectification)上下文重编码 (contextual re-encoding),将辅助语义信息 (auxiliary semantic information)高效地注入到高斯噪声 (Gaussian noise)中,生成更能反映真实用户偏好的信息噪声 (informative noise)。这解决了传统扩散模型随机噪声破坏稀疏数据中潜在用户偏好信号 (latent user preference signals)的问题。
  • 构建协同训练目标策略: 基于对生成和偏好学习之间相互影响的分析,构建了一个协同训练目标策略 (collaborative training objective strategy),将重建损失 (reconstruction loss)、对比损失 (contrastive loss) 和贝叶斯个性化排序 (Bayesian Personalized Ranking, BPR) 损失同时优化,并通过协作平衡损失 (collaboration balance loss)来解决它们之间的干扰,将其转化为相互协作,显著增强了模型的学习能力和适应性。
  • 高效融入高阶信息: 仅在推理阶段使用多个 GCN 层来捕获高阶共现信息 (higher-order co-occurrence information),从而在不增加训练阶段计算开销的情况下提升了模型性能和训练效率。
  • 优越的实验性能和理论支持: 在五个真实世界数据集上进行了广泛实验,结果表明 InfoDCL 显著优于最先进的 (state-of-the-art)基线方法。此外,论文还提供了严格的理论分析,证明了信息噪声 (informative noise)的生成过程符合扩散框架,并且能够有效提升用户偏好对齐。

3. 预备知识与相关工作

3.1. 基础概念

为了更好地理解 InfoDCL 框架,我们需要了解以下几个核心概念:

  • 推荐系统 (Recommender Systems): 旨在预测用户对物品的兴趣或偏好,并向用户推荐他们可能感兴趣的物品。其核心挑战之一是在数据稀疏的情况下准确捕捉用户的隐含偏好。
  • 协同过滤 (Collaborative Filtering, CF): 一种广泛使用的推荐技术,通过分析用户或物品之间的相似性来生成推荐。例如,基于用户的 CF 会向用户推荐与他们品味相似的其他用户喜欢的物品。
  • 嵌入 (Embeddings): 在机器学习中,嵌入 (embeddings)是将高维、离散数据(如用户 ID、物品 ID)映射到低维连续向量空间中的表示。这些向量能够捕捉实体之间的语义关系,相似的实体在嵌入空间 (embedding space)中距离较近。
  • 对比学习 (Contrastive Learning): 一种自监督学习 (self-supervised learning)范式,通过最小化正样本对 (positive pairs)(同一实体的不同视图)之间的距离,同时最大化负样本对 (negative pairs)(不同实体的不同视图)之间的距离来学习判别性表示 (representations)。它不依赖于显式标签,而是从数据本身构建监督信号。
  • 图神经网络 (Graph Neural Networks, GNNs): 专门用于处理图结构数据的神经网络。它们通过消息传递 (message passing)机制,迭代地聚合节点邻居的信息来更新节点的表示 (representations)
    • LightGCN: 一种简化的 GNN,被广泛用于推荐系统。它移除了 GCN 中的特征转换和非线性激活,仅保留了邻居聚合 (neighbor aggregation),从而提高了效率和性能。
  • 扩散模型 (Diffusion Models): 一类强大的生成模型 (generative models),通过模拟一个逐步向数据添加随机噪声的前向扩散过程 (forward diffusion process),然后学习一个逆向去噪过程 (reverse denoising process)来从噪声中恢复原始数据。
    • 前向扩散过程 (Forward Diffusion Process): 逐渐向原始数据 x0x_0 添加高斯噪声 (Gaussian noise),经过 TT 个时间步,数据最终变为纯噪声 xTN(0,I)x_T \sim \mathcal{N}(0, I)。这个过程是马尔可夫链式的。
    • 逆向去噪过程 (Reverse Denoising Process): 学习从纯噪声 xTx_T 逐步去除噪声,从而恢复出原始数据 x0x_0。这个过程通常由一个神经网络来建模,用于预测每一步的噪声,然后从当前状态中减去预测的噪声。
  • 贝叶斯个性化排序 (Bayesian Personalized Ranking, BPR) 损失: 推荐系统中用于隐式反馈数据的排序损失函数。它基于一个假设:对于任意用户 uu,他与交互过的物品 ii 的偏好应该高于他未交互过的任意物品 jj。BPR 损失的目标是最大化这种相对排序关系。其公式通常为: Lbpr=u=1MiNujNulnσ(y^uiy^uj) \mathcal{L}_{bpr} = - \sum_{u=1}^{\mathbf{M}} \sum_{i \in \mathcal{N}_u} \sum_{j \notin \mathcal{N}_u} \ln \sigma \big( \hat{\mathbf{y}}_{ui} - \hat{\mathbf{y}}_{uj} \big)
    • Nu\mathcal{N}_u: 用户 uu 交互过的物品集合。
    • y^ui\hat{\mathbf{y}}_{ui}: 用户 uu 对物品 ii 的预测评分。
    • y^uj\hat{\mathbf{y}}_{uj}: 用户 uu 对物品 jj 的预测评分。
    • σ()\sigma(\cdot): Sigmoid 激活函数,将输入映射到 (0,1) 之间。
    • 损失函数促使 y^ui\hat{\mathbf{y}}_{ui} 大于 y^uj\hat{\mathbf{y}}_{uj}
  • 奇异值分解 (Singular Value Decomposition, SVD): 一种重要的矩阵分解方法,可以将任意矩阵 A\mathbf{A} 分解为三个矩阵的乘积:A=UΣV\mathbf{A} = \mathbf{U} \Sigma \mathbf{V}^\top
    • U\mathbf{U} 是一个正交矩阵,其列向量是 AA\mathbf{A}\mathbf{A}^\top特征向量 (eigenvectors)
    • Σ\Sigma 是一个对角矩阵,其对角线元素是 A\mathbf{A}奇异值 (singular values),按降序排列。
    • V\mathbf{V} 是一个正交矩阵,其列向量是 AA\mathbf{A}^\top\mathbf{A}特征向量 (eigenvectors)。 SVD 在数据降维、去噪和特征提取等方面有广泛应用。

3.2. 前人工作

论文在引言和相关工作部分提到了多项先前的研究,这些工作为 InfoDCL 奠定了基础或提供了对比:

  • 基于对比学习的推荐系统:

    • SGL [34]: 最早将对比学习引入图基协同过滤的工作之一,通过构建多个图增强(如节点/边丢弃 (dropout))来增强表示的判别性。
    • NCL [16]: 扩展了 SGL,通过结合结构邻居 (structural neighbors)语义邻居 (semantic neighbors)形成对比对,以更好地利用邻域信息。
    • SimGCL [41]: 提出了一种模型无关的框架,通过直接向嵌入 (embeddings)注入噪声来促进鲁棒学习,而无需手动设计增强操作。
    • CoGCL [51]: 利用离散协同代码和虚拟邻居来创建具有语义意义的对比视图,并强化协同信号。
    • RecDCL [47], SGCL [49]: 也是近期具有高准确性的对比学习技术。 这些方法虽然取得了进展,但普遍依赖于对现有交互关系的扰动来生成视图,这在数据稀疏时难以捕捉真实的用户偏好 (user preferences)
  • 基于生成模型(特别是扩散模型)的推荐系统:

    • DiffMM [11]: 尝试将模态感知图扩散模型与跨模态对比学习相结合,以对齐多模态物品上下文与协同关系,通过扩散过程生成模态感知用户-物品图 (user-item graphs)并增强表示。其主要目标是异构源的对齐。
    • DiffRec [30]: 最早将推荐系统中的用户-物品交互建模为去噪任务 (denoising task)的扩散模型之一。
    • DDRM [50]: 通过用户和物品之间的相互条件化 (mutual conditioning),允许双方在逆向扩散过程中通过联合梯度更新协同演化 (co-evolve)
    • GiffCF [53]: 提出了一种基于图信号处理的扩散机制,通过拉普拉斯算子 (Laplacian)模拟交互图上的热扩散过程 (heat diffusion process)来传播亲和信号。 这些扩散模型展示了捕捉复杂用户-物品模式的潜力,但它们通常注入随机高斯噪声 (Gaussian noise),这在稀疏数据中可能会破坏已有的潜在用户偏好信号 (latent user preference signals)

3.3. 技术演进

推荐系统的技术演进大致可以分为以下几个阶段:

  1. 传统协同过滤 (Traditional Collaborative Filtering): 早期方法如矩阵分解 (Matrix Factorization, MF),通过分解用户-物品交互矩阵来学习用户和物品的潜在因子 (latent factors)。虽然有效,但受限于稀疏性和冷启动问题。

  2. 图神经网络 (GNN) 的兴起: 随着图结构数据处理能力的提升,GNNs 被引入推荐系统,如 NGCFLightGCN。它们通过在用户-物品交互图 (user-item interaction graph)上传播信息,有效地捕获高阶协同信号 (higher-order collaborative signals)

  3. 自监督学习 (Self-Supervised Learning, SSL) 与对比学习 (CL) 的融合: 为了解决数据稀疏性和泛化能力问题,SSL 尤其是 CL 被引入推荐系统。早期方法通过图增强(如 SGLNCL)或嵌入扰动 (embedding perturbation)(如 SimGCL)来生成正样本对 (positive pairs),学习鲁棒的表示 (representations)

  4. 生成模型 (Generative Models) 的探索: 变分自编码器 (Variational Autoencoders, VAEs)生成对抗网络 (Generative Adversarial Networks, GANs)等生成模型被用于捕捉复杂的数据分布并生成新的推荐。近期,扩散模型 (Diffusion Models)因其强大的生成能力和高质量样本生成潜力,开始被引入推荐领域,如 DiffRecDDRMGiffCF,它们将推荐任务视为一个去噪过程 (denoising process)

    InfoDCL 处于对比学习扩散模型的交叉点,旨在结合两者的优势。

3.4. 差异化分析

InfoDCL 与现有方法的关键区别和创新点体现在以下几个方面:

  1. 视图构建方式的创新:

    • 与现有对比学习方法的区别: 传统的对比学习方法(如 SGL、NCL、SimGCL)主要通过随机扰动现有交互图 (interaction graph)嵌入 (embeddings)来生成稀疏视图。这种方式在推荐数据稀疏时难以捕捉到真实的用户偏好 (user preferences)。InfoDCL 则利用扩散模型 (diffusion models)的生成能力,并通过注入信息噪声 (informative noise)来生成更具语义且能反映真实用户偏好的视图。
    • 核心优势: InfoDCL 不再只是“扰动”已有信息,而是“生成”新的、更丰富的偏好信号,从而克服了数据稀疏性带来的语义信息 (semantic information)不足问题。
  2. 噪声注入机制的优化:

    • 与现有扩散模型的区别: 大多数扩散模型(如 DiffRec、DDRM、GiffCF)在前向扩散过程 (forward diffusion process)中注入随机采样的高斯噪声 (Gaussian noise)。然而,在稀疏的推荐数据中,这种随机噪声可能会破坏已有的、有限的潜在用户偏好信号 (latent user preference signals)。InfoDCL 引入 PsNet 来生成信息噪声 (informative noise)
    • 核心优势: PsNet辅助语义信息 (auxiliary semantic information)融入到噪声中,使得噪声本身具有语义意义,从而更好地引导扩散过程生成能够挖掘用户潜在偏好的嵌入 (embeddings)
  3. 协同训练目标的构建:

    • 与多目标优化问题的处理区别: InfoDCL 识别到生成 (generation)偏好学习 (preference learning)目标之间可能存在的相互干扰。
    • 核心优势: 论文构建了一个协同训练目标策略 (collaborative training objective strategy),通过引入协作平衡损失 (collaboration balance loss)来平衡重建损失、对比损失和 BPR 损失,将原本可能存在的冲突转化为相互协作,从而显著提升了模型的学习能力 (learning ability)适应性 (adaptability)
  4. 推理效率与高阶信息捕获的平衡:

    • 与传统 GNNs 的区别: 传统的 GNNs 在训练和推理阶段都需要进行图卷积 (graph convolution),这会增加训练开销。

    • 核心优势: InfoDCL 仅在推理阶段使用多个 GCN 层来捕获高阶共现信息 (higher-order co-occurrence information),从而在提高推荐性能的同时,显著提升了训练效率。

      综上所述,InfoDCL 通过对对比视图构建 (contrastive view construction)噪声注入机制 (noise injection mechanism)多目标优化策略 (multi-objective optimization strategy)的深度创新,解决了稀疏推荐数据下用户偏好捕获 (user preference capturing)不足的瓶颈,并提供了一种高效且有效的解决方案。

4. 方法论

本节将详细阐述 InfoDCL 的方法论,包括其核心思想、信息噪声生成、语义增强对比学习、协同训练目标策略以及推理阶段的设计。

该图像是示意图,展示了研究框架InfoDCL的训练阶段和推理阶段。左侧部分说明了辅助元数据合成、谱修正和信息噪声生成的过程;中间部分展示了前向处理和增强对比学习的步骤;右侧部分则描述了图卷积及其在推理阶段的应用,包括排名得分的生成。整个框架旨在提升推荐系统的性能,结合了噪声生成与用户偏好的协同训练目标策略。
该图像是示意图,展示了研究框架InfoDCL的训练阶段和推理阶段。左侧部分说明了辅助元数据合成、谱修正和信息噪声生成的过程;中间部分展示了前向处理和增强对比学习的步骤;右侧部分则描述了图卷积及其在推理阶段的应用,包括排名得分的生成。整个框架旨在提升推荐系统的性能,结合了噪声生成与用户偏好的协同训练目标策略。

上图(原文 Figure 1)展示了 InfoDCL 框架的整体架构图。左侧部分为信息噪声生成 (Informative Noise Generation)模块,通过辅助元数据合成 (Auxiliary Metadata Synthesis)谱修正 (Spectral Rectification)上下文重编码 (Contextual Re-encoding),将噪声与语义信息结合。中间部分展示了扩散模型前向处理 (forward process)逆向去噪过程 (reverse denoising process),并结合语义增强对比学习 (Semantics Enhanced Contrastive Learning)。右侧部分则描述了在推理阶段使用的 LightGCN 模型,用于捕获高阶共现信息 (higher-order co-occurrence information),最终生成推荐排名得分 (ranking scores)

4.1. 方法原理

InfoDCL 的核心思想是利用扩散模型 (diffusion models)强大的生成能力来创建更能反映真实用户偏好 (user preferences)对比视图 (contrastive views)。与传统方法直接扰动现有交互数据或简单注入随机噪声不同,InfoDCL 提出生成信息噪声 (informative noise),这种噪声在生成过程中融入了丰富的辅助语义信息 (auxiliary semantic information)。这种信息噪声 (informative noise)随后被用于扩散模型 (diffusion model)前向过程 (forward process),指导其生成具有更强用户偏好信号的物品嵌入 (item embeddings)。为了优化这一复杂的多任务学习过程,InfoDCL 设计了一个协同训练目标策略 (collaborative training objective strategy),平衡了重建损失 (reconstruction loss)对比损失 (contrastive loss)推荐任务的 BPR 损失 (BPR loss for recommendation task)。此外,为了在捕获高阶共现信息 (higher-order co-occurrence information)的同时保持训练效率,InfoDCL 将 GCN 层的应用限制在推理阶段 (inference stage)

4.2. 核心方法详解

4.2.1. 信息噪声生成 (Informative Noise Generation)

由于交互数据的稀疏性,随机采样的高斯噪声 (Gaussian noise)往往会破坏原本就有限的潜在用户偏好信号 (latent user preference signals)。为了生成更具信息量 (informative)的噪声以用于扩散过程,论文设计了一个名为偏好信号网络 (Preference Signal Network, PsNet)的模块。PsNet 整合了辅助信号 (auxiliary signals),并利用奇异值分解 (Singular Value Decomposition, SVD)的分解能力来生成信息噪声 (informative noise)。其灵感来源于 Davis-Kahan 定理 [26, 36],该过程模拟了单步扩散 (single-step diffusion)

PsNet 构建在两个核心模块之上:谱修正 (spectral rectification)上下文重编码 (contextual re-encoding)

4.2.1.1. 辅助元数据合成 (Auxiliary Metadata Synthesis)

由于随机采样的噪声本身缺乏语义信息 (semantic information),论文通过构建用户相似度图 (user similarity graph)物品相似度图 (item similarity graph)来创建辅助元数据 (auxiliary metadata),这些元数据共同参与信息噪声 (informative noise)的生成,从而注入用户偏好信息 (user-preference information)。 具体来说,模型仅依赖训练集 (training set)中包含的用户-物品交互 (user-item interactions)来构建用户社交关系图 (user social-relation graph)物品特征相似度图 (item feature-similarity graph)。基于这些图,聚合LightGCN 预训练的嵌入 (LightGCN pre-trained embeddings)以获取辅助元数据 (auxiliary metadata)。 值得注意的是,辅助元数据 (auxiliary metadata)是可扩展的:当数据集提供真实的社交关系、知识图谱链接或多模态属性时,这些信息也可以被整合进来,以丰富元数据的语义内容 (semantic content)

4.2.1.2. 谱修正 (Spectral Rectification)

PsNet 的第一个关键组件是谱修正 (spectral rectification),旨在通过对输入信号进行奇异值分解 (Singular Value Decomposition, SVD)并编码得到的奇异向量 (singular vectors)来学习辅助元数据 (auxiliary metadata)中的语义 (semantics),从而近似单步扩散生成过程 (single-step diffusion generation process)。 在实践中,在进行 SVD 过程之前,输入信号 (input signal) y\mathbf{y} 是通过噪声 ϵ\epsilon 和元数据 m\mathbf{m} 的组合获得的。整个过程可以表示为: y=ϵ+m,y=UΣV,dD \mathbf{y} = \epsilon + \mathbf{m}, \quad \mathbf{y} = \mathbf{U} \Sigma \mathbf{V}^\top, \quad d \ll D

  • yRD\mathbf{y} \in \mathbb{R}^D: 结合了噪声和元数据的输入信号 (input signal)

  • ϵRD\epsilon \in \mathbb{R}^D: 随机采样的高斯噪声 (Gaussian noise)向量。

  • mRD\mathbf{m} \in \mathbb{R}^D: 辅助元数据 (auxiliary metadata)嵌入 (embedding)

  • UR1×d\mathbf{U} \in \mathbb{R}^{1 \times d}: 左奇异向量 (singular vectors)矩阵,其中 dd 是降维后的维度,通常远小于原始维度 DD

  • ΣRd×d\Sigma \in \mathbb{R}^{d \times d}: 奇异值 (singular values)对角矩阵。

  • VRD×d\mathbf{V} \in \mathbb{R}^{D \times d}: 右奇异向量 (singular vectors)矩阵。

    这些三个矩阵随后被输入到不同的多层感知机 (MLP)层中,从而模拟扩散范式 (diffusion paradigm)特征生成过程 (feature-generation process)U~=MLP(U),V~=MLP(V1:),Σ~=MLP(diag(Σ)) \tilde{\mathbf{U}} = \mathrm{MLP}(\mathbf{U}), \quad \tilde{\mathbf{V}} = \mathrm{MLP}(\mathbf{V}_{1:}^\top), \quad \tilde{\Sigma} = \mathrm{MLP}(\mathrm{diag}(\Sigma))

  • U~,V~,Σ~Rd\tilde{\mathbf{U}}, \tilde{\mathbf{V}}, \tilde{\Sigma} \in \mathbb{R}^d: 经过 MLP 转换后的奇异向量 (singular vectors)奇异值 (singular values)

  • diag(Σ)\mathrm{diag}(\Sigma): 从对角矩阵 Σ\Sigma 中提取对角线上的奇异值 (singular values)

    由于这三个转换后的分量现在处于不同的语义空间,需要将它们带回到同一个语义空间。因此,将它们拼接 (concatenate)起来以恢复信号: g=Φ([U~V~Σ~])RD \mathbf{g} = \Phi ([\tilde{\mathbf{U}} || \tilde{\mathbf{V}} || \tilde{\Sigma}]) \in \mathbb{R}^D

  • gRD\mathbf{g} \in \mathbb{R}^D: 恢复后的信号,包含了语义信息 (semantic information)

  • Φ:R3dRD\Phi: \mathbb{R}^{3d} \to \mathbb{R}^D: 一个非线性映射 (non-linear mapping)函数。

  • [.||.||.]: 表示向量拼接操作 (concatenation operation)

    最后,应用残差连接 (residual connection)得到谱修正 (spectral rectification)的输出: S(ϵ,m)=y+diag(tanh(α))g S(\epsilon, \mathbf{m}) = \mathbf{y} + \mathrm{diag}(\mathrm{tanh}(\alpha)) \cdot \mathbf{g}

  • S(ϵ,m)RDS(\epsilon, \mathbf{m}) \in \mathbb{R}^D: 谱修正 (spectral rectification)模块的输出。

  • αRD\alpha \in \mathbb{R}^D: 一个可学习的参数向量 (parameter vector),用于控制残差 (residual)的尺度。

4.2.1.3. 上下文重编码 (Contextual Re-encoding)

为了进一步融合噪声和辅助元数据 (auxiliary metadata),论文提出了上下文重编码模块 (contextual re-encoding module)来弥合高斯噪声 (Gaussian noise)信息噪声 (informative noise)之间的差异。该模块旨在拓宽 PsNet 的宽度,以学习输出 S(ϵ,m)S(\epsilon, \mathbf{m}) 与理想信息噪声 (informative noise)之间的残差 (residual)。 具体来说,通过结合它们形成一个增强输入 (augmented input)ϵ+=ϵ+φ(m)RD \epsilon^+ = \epsilon + \varphi(\mathbf{m}) \in \mathbb{R}^D

  • ϵ+RD\epsilon^+ \in \mathbb{R}^D: 增强输入 (augmented input)

  • ϵRD\epsilon \in \mathbb{R}^D: 随机采样的高斯噪声 (Gaussian noise)

  • φ(m)RD\varphi(\mathbf{m}) \in \mathbb{R}^D: 辅助元数据 (auxiliary metadata)嵌入 (embedding)

    之后,采用线性变换 (linear transformation)来进一步整合元数据中包含的语义信息 (semantic information)和噪声: h=N(Ψ(ϵ+))RD \mathbf{h} = N(\Psi(\epsilon^+)) \in \mathbb{R}^D

  • hRD\mathbf{h} \in \mathbb{R}^D: 经过转换后的特征。

  • Ψ\Psi: 一个线性函数 (linear function)

  • NN: 层归一化 (Layer Normalization)操作。

    同时,一个残差缩放因子 (residual scaling factor) ρ\rho 调节残差 (residual)强度。最终,上下文重编码 (contextual re-encoding)的输出是: C(ϵ,m)=ϵ+σ(ρ)h C(\epsilon, \mathbf{m}) = \epsilon + \sigma(\rho) \cdot \mathbf{h}

  • C(ϵ,m)RDC(\epsilon, \mathbf{m}) \in \mathbb{R}^D: 上下文重编码 (contextual re-encoding)模块的输出。

  • σ()\sigma(\cdot): Sigmoid 激活函数。

  • ρ\rho: 可学习的残差缩放因子 (residual scaling factor)

PsNet 的最终输出 (Output of PsNet): 在获得 S(ϵ,m)S(\epsilon, \mathbf{m})C(ϵ,m)C(\epsilon, \mathbf{m}) 之后,两者通过残差连接 (residual connection)融合,并将辅助元数据 (auxiliary metadata)整合到输出中,从而促进更稳定的训练并改善模型收敛。 总结来说,给定一个随机采样的高斯噪声向量 (Gaussian noise vector) ϵRD\epsilon \in \mathbb{R}^D辅助元数据 (auxiliary metadata) m\mathbf{m}PsNet 生成一个精炼的表示 ϵ(m)\epsilon^{(\mathbf{m})},其过程描述如下: ϵ(m)=S(ϵ,m)spectral rectification+η0C(ϵ,m)contextual re-encoding+σ(η11)φ(m)residual term \epsilon^{(\mathbf{m})} = \underbrace{S(\epsilon, \mathbf{m})}_{\text{spectral rectification}} + \underbrace{\eta_0 C(\epsilon, \mathbf{m})}_{\text{contextual re-encoding}} + \underbrace{\sigma(\eta_1 - 1) \varphi(\mathbf{m})}_{\text{residual term}}

  • ϵ(m)RD\epsilon^{(\mathbf{m})} \in \mathbb{R}^D: PsNet 产生的信息噪声 (informative noise),它富含语义信息 (semantic information)

  • σ()\sigma(\cdot): 表示 Sigmoid 函数。

  • φ(m)RD\varphi(\mathbf{m}) \in \mathbb{R}^D: 是辅助元数据 (auxiliary metadata)嵌入 (embedding)

  • η0,η1R\eta_0, \eta_1 \in \mathbb{R}: 是可学习的标量 (scalars),用于平衡不同项的贡献。

    通过这个过程,得到了富含语义信息 (semantic information)信息噪声 (informative noise) ϵ(m)\epsilon^{(\mathbf{m})},可以将其用于后续的扩散过程 (diffusion process),以生成更准确反映真实用户偏好的嵌入 (embeddings)

4.2.2. 语义增强对比学习 (Semantics Enhanced Contrastive Learning)

现有对比推荐系统 (contrastive recommendation systems)通常通过随机扰动原始交互数据 (interaction data)来生成增强视图 (augmented views),旨在构建稀疏的交互视图,从而平滑物品和用户嵌入 (user embeddings)的分布并增强鲁棒性。 相比之下,InfoDCL 生成更具信息量 (informative)嵌入 (embeddings)作为对比视图 (contrastive views),指导物品表示 (item representations)的分布更紧密地与用户偏好 (user preferences)对齐。通过利用扩散模型 (diffusion models)强大的生成能力来合成能够挖掘用户潜在真实偏好 (latent authentic preferences)嵌入 (embeddings),可以提升对比学习 (contrastive learning)的效率。

具体来说,信息噪声 (informative noise)被注入到扩散范式 (diffusion paradigm)前向过程 (forward process)中。对于初始化的物品嵌入 (item embedding) eiRd\mathbf{e}_i \in \mathbb{R}^d 和带有辅助元数据 (auxiliary metadata) m\mathbf{m}信息噪声 (informative noise) ϵ(m)\epsilon^{(\mathbf{m})},第 tt 步的前向过程 (forward step)表示为: zt(m)=αˉtei+1αˉtϵt(m),αˉt=s=1tαs,0<αt<1 \mathbf{z}_t^{(\mathbf{m})} = \sqrt{\bar{\alpha}_t} \mathbf{e}_i + \sqrt{1 - \bar{\alpha}_t} \epsilon_t^{(\mathbf{m})}, \quad \bar{\alpha}_t = \prod_{s=1}^t \alpha_s, \quad 0 < \alpha_t < 1

  • zt(m)Rd\mathbf{z}_t^{(\mathbf{m})} \in \mathbb{R}^d: 经过 tt前向扩散 (forward diffusion)后,结合了信息噪声 (informative noise)物品嵌入 (item embedding)

  • eiRd\mathbf{e}_i \in \mathbb{R}^d: 初始化的物品嵌入 (item embedding)

  • ϵt(m)\epsilon_t^{(\mathbf{m})}: 在第 tt 步注入的信息噪声 (informative noise)

  • αs\alpha_s: 扩散过程中每一步的噪声调度参数 (noise schedule parameter)

  • αˉt\bar{\alpha}_t: 从时间步 1 到 ttαs\alpha_s 累积乘积。

    t=Tt=T 时,zT(m)\mathbf{z}_T^{(\mathbf{m})} 趋近于纯噪声。经过信息噪声 (informative noise)驱动的扩散后,最终生成的输出 e^i(m)\hat{\mathbf{e}}_i^{(\mathbf{m})} 因此捕获了物品语义 (item semantics)用户偏好 (user preferences),以用于下游推荐任务。这种优化的实际实现可以表示为: Lr=i=1Neiμθ(zt(m),t)2 \mathcal{L}_{\mathbf{r}} = \sum_{i=1}^{\mathrm{N}} \left\| \mathbf{e}_i - \mu_{\theta}(\mathbf{z}_t^{(\mathbf{m})}, t) \right\|^2

  • Lr\mathcal{L}_{\mathbf{r}}: 重建损失 (reconstruction loss),旨在指导潜在状态 (latent state) zt(m)\mathbf{z}_t^{(\mathbf{m})} 向真实用户偏好演进。

  • μθ(zt(m),t)\mu_{\theta}(\mathbf{z}_t^{(\mathbf{m})}, t): 去噪网络 (denoising network)(由参数 θ\theta 建模)预测的去噪后的物品嵌入 (item embedding)

    随后,引入一个视图级对比损失 (view-level contrastive loss),将扩散过程 (diffusion process)生成的嵌入 (embeddings) e^i(m)\hat{\mathbf{e}}_i^{(\mathbf{m})}物品嵌入 (item embedding) ei\mathbf{e}_i 对齐,从而将真实的潜在用户偏好 (latent user preferences)注入到物品嵌入 (item embeddings)中: Lcon=i=1Nlogexp(sim(e^i(m),ei)/τ)j=1Nexp(sim(e^i(m),ej)/τ) \mathcal{L}_{\mathrm{con}} = - \sum_{i=1}^{\mathrm{N}} \log \frac{\exp\left(\operatorname{sim}(\hat{\mathbf{e}}_i^{(\mathbf{m})}, \mathbf{e}_i) / \tau\right)}{\sum_{j=1}^{\mathrm{N}} \exp\left(\operatorname{sim}(\hat{\mathbf{e}}_i^{(\mathbf{m})}, \mathbf{e}_j) / \tau\right)}

  • Lcon\mathcal{L}_{\mathrm{con}}: 对比损失 (contrastive loss)

  • e^i(m)\hat{\mathbf{e}}_i^{(\mathbf{m})}: 扩散过程 (diffusion process)生成的物品 ii偏好增强嵌入 (preference-enhanced embedding)

  • ei\mathbf{e}_i: 物品 ii 的原始(或初始化)物品嵌入 (item embedding)

  • sim(,)\operatorname{sim}(\cdot, \cdot): 余弦相似度 (cosine similarity)函数,通常用于衡量两个向量之间的相似性。

  • τ>0\tau > 0: 温度超参数 (temperature hyperparameter),用于调节对比学习的难易程度。

    这个损失函数的目标是使偏好增强嵌入 (preference-enhanced embedding) e^i(m)\hat{\mathbf{e}}_i^{(\mathbf{m})} 与原始物品嵌入 (item embedding) ei\mathbf{e}_i 更相似,同时与数据集中的其他物品嵌入 (item embeddings) ej\mathbf{e}_j 更不相似,从而将从信息噪声 (informative noise)中学习到的用户偏好信号传递给物品嵌入 (item embeddings)

4.2.3. 协同训练目标策略 (Collaborative Training Objective Strategy)

在前面的章节中,模型通过扩散范式 (diffusion paradigm)提取辅助元数据 (auxiliary metadata)中的语义信息 (semantic information)来生成具有潜在用户偏好的嵌入 (embeddings)。这些偏好随后通过对比学习 (contrastive learning)整合到物品表示 (item representations)中。然而,由于物品表示 (item representations)从零开始初始化 (initialized from scratch)的,它们固有地缺乏共现关系 (co-occurrence relationships)。 为了解决这个问题,论文设计了一种混合优化方法 (hybrid optimization approach),将用户-物品交互模式 (user-item interaction patterns)整合到生成模型 (generative model)的训练中。具体来说,除了重建损失 (reconstruction loss) Lr\mathcal{L}_{\mathbf{r}}对比损失 (contrastive loss) Lcon\mathcal{L}_{\mathrm{con}} 之外,还引入了贝叶斯个性化排序 (Bayesian Personalized Ranking, BPR) 损失 Lbpr\mathcal{L}_{bpr} 作为补充目标: Lbpr=u=1MiNujNulnσ(y^uiy^uj) \mathcal{L}_{bpr} = - \sum_{u=1}^{\mathbf{M}} \sum_{i \in \mathcal{N}_u} \sum_{j \notin \mathcal{N}_u} \ln \sigma \big( \hat{\mathbf{y}}_{ui} - \hat{\mathbf{y}}_{uj} \big)

  • M\mathbf{M}: 用户总数。
  • Nu\mathcal{N}_u: 用户 uu 交互过的物品集合。
  • iNui \in \mathcal{N}_u: 用户 uu 交互过的正样本物品。
  • jNuj \notin \mathcal{N}_u: 用户 uu 未交互过的负样本物品。
  • y^ui\hat{\mathbf{y}}_{ui}: 用户 uu 对物品 ii 的预测评分。
  • y^uj\hat{\mathbf{y}}_{uj}: 用户 uu 对物品 jj 的预测评分。
  • σ()\sigma(\cdot): Sigmoid 激活函数。

协作平衡损失 (Collaboration Balance Loss): 在实际训练中,论文观察到随着模型训练的进行,重建损失 (reconstruction loss)BPR 损失之间的差距越来越大,这负面影响了生成质量。为了提高模型的稳定性和整体性能,引入了协作平衡损失 (collaboration balance loss) Lc\mathcal{L}_c,它明确针对生成过程 (generative process)。这一设计源于一个关键的见解:在训练中,潜在值 (latent value) zt(m)\mathbf{z}_t^{(\mathbf{m})} 和其他损失之间经常存在显著差异。如果没有适当的约束,这种不对齐可能导致不稳定或次优的生成行为。借鉴正则化策略 (regularization strategies)的有效性,采用基于 L2 范数的公式来规范生成输出 (generative output)协作平衡损失 (collaboration balance loss)定义为: Lc=1Ne^(m)2=1N(ie^i(m)2)1/2 \mathcal{L}_{c} = \frac{1}{\mathbf{N}} \Big\| \hat{\mathbf{e}}^{(\mathbf{m})} \Big\|_2 = \frac{1}{\mathbf{N}} \Big( \sum_i \big| \hat{\mathbf{e}}_i^{(\mathbf{m})} \big|^2 \Big)^{1/2}

  • N\mathbf{N}: 物品总数。
  • e^(m)\hat{\mathbf{e}}^{(\mathbf{m})}: 由扩散过程 (diffusion process)生成的物品嵌入 (item embeddings)
  • 2\|\cdot\|_2: L2 范数。 这个损失鼓励生成的嵌入 (embeddings)具有合理的范数大小,避免它们过大或过小,从而稳定生成过程 (generative process)

总优化目标 (Total Optimization): 最终,总的训练目标是所有组件的加权组合: Ltotal=(1λb)Lr+λbLbpr+λcLcon+λlLc+λgLreg \mathcal{L}_{total} = (1 - \lambda_b) \mathcal{L}_r + \lambda_b \mathcal{L}_{bpr} + \lambda_c \mathcal{L}_{con} + \lambda_l \mathcal{L}_c + \lambda_g \mathcal{L}_{reg}

  • Ltotal\mathcal{L}_{total}: 总训练损失。
  • λb,λc,λl,λg\lambda_b, \lambda_c, \lambda_l, \lambda_g: 非负系数 (coefficients),平衡每个损失项的影响,通过验证集 (validation set)调整。
  • Lr\mathcal{L}_r: 重建损失 (reconstruction loss)
  • Lbpr\mathcal{L}_{bpr}: BPR 损失。
  • Lcon\mathcal{L}_{con}: 对比损失 (contrastive loss)
  • Lc\mathcal{L}_c: 协作平衡损失 (collaboration balance loss)
  • Lreg\mathcal{L}_{reg}: 正则化损失。

正则化损失 (Regularizer): Lreg=i=1N(ei22+ui22) \mathcal{L}_{reg} = \sum_{i=1}^{\mathrm{N}} \bigl( \| \mathbf{e}_i \|_2^2 + \| \mathbf{u}_i \|_2^2 \bigr)

  • ei\mathbf{e}_i: 物品嵌入 (item embeddings)
  • ui\mathbf{u}_i: 用户嵌入 (user embeddings)。 这个正则化损失对物品嵌入 (item embeddings)用户嵌入 (user embeddings)进行惩罚,以阻止表示崩溃 (representation collapse)并促进平滑性。

多种优化类型 (Multiple Types of Optimization): 上述公式代表了单个辅助元数据 (auxiliary metadata)通道的总损失。如果存在多个通道,则每个通道产生的相应重建损失 (reconstruction losses)对比损失 (contrastive losses)平衡损失 (balance losses)将被求和,并作为方程中相应的组件进行联合优化。

4.2.4. 推理阶段 (Inference Stage)

推理阶段 (inference stage),模型不再进行任何额外的扩散采样 (diffusion sampling),而是直接依赖于训练期间学习到的用户和物品表示 (user and item representations)。为了进一步丰富这些嵌入 (embeddings),模型使用 LightGCN 架构传播高阶共现信号 (higher-order co-occurrence signals)。 具体来说,首先将观察到的交互图 (interaction graph)转换为对称归一化邻接矩阵 (symmetrically normalized adjacency matrix) Hˉu,i\bar{\mathcal{H}}_{\mathbf{u},\mathrm{i}}。然后执行 KK 层图卷积以获得最终的用户和物品表示 (user and item representations)E^=Hˉu,E,U^=Hˉ,iU,Hˉu,i=Au,iNuNi \hat{\mathbf{E}} = \mathcal{\bar{H}}_{\mathbf{u},*} \mathbf{E}, \qquad \hat{\mathbf{U}} = \mathcal{\bar{H}}_{*,\mathrm{i}} \mathbf{U}, \qquad \mathcal{\bar{H}}_{\mathbf{u},\mathrm{i}} = \frac{\mathcal{A}_{\mathbf{u},\mathrm{i}}}{\sqrt{\vert \mathcal{N}_{\mathbf{u}} \vert \vert \mathcal{N}_{\mathrm{i}} \vert}}

  • ERN×d\mathbf{E} \in \mathbb{R}^{\mathbf{N} \times \mathbf{d}}: 物品的初始嵌入矩阵 (embedding matrix)

  • URM×d\mathbf{U} \in \mathbb{R}^{\mathbf{M} \times \mathbf{d}}: 用户的初始嵌入矩阵 (embedding matrix)

  • E^RN×d\hat{\mathbf{E}} \in \mathbb{R}^{\mathbf{N} \times \mathbf{d}}: 经过 GCN 传播后,物品的最终嵌入矩阵 (embedding matrix)

  • U^RM×d\hat{\mathbf{U}} \in \mathbb{R}^{\mathbf{M} \times \mathbf{d}}: 经过 GCN 传播后,用户的最终嵌入矩阵 (embedding matrix)

  • Hˉu,i\mathcal{\bar{H}}_{\mathbf{u},\mathrm{i}}: 用户-物品交互图 (user-item interaction graph)对称归一化邻接矩阵 (symmetrically normalized adjacency matrix)

  • Au,i\mathcal{A}_{\mathbf{u},\mathrm{i}}: 原始用户-物品邻接矩阵 (user-item adjacency matrix)

  • Nu\vert \mathcal{N}_{\mathbf{u}} \vert: 用户 u\mathbf{u} 在交互图中的邻居集合的势(即度)。

  • Ni\vert \mathcal{N}_{\mathrm{i}} \vert: 物品 i\mathrm{i} 在交互图中的邻居集合的势(即度)。

    LightGCN 层的传播过程可以简化为对邻接矩阵 (adjacency matrix)嵌入矩阵 (embedding matrices)的乘法操作。最终,通过计算精炼的嵌入 (refined embeddings)内积 (inner product)来估计每个用户-物品对 (user-item pair)相关性得分 (relevance score),并根据这些得分对物品进行排序以生成个性化推荐。

4.2.5. 理论分析 (Theoretical Analysis)

论文在附录 AABB 中提供了两项定理,用于支持信息噪声 (informative noise)的有效性。

4.2.5.1. 定理 A.1 (Theorem A.1):信息噪声生成

定理 A.1 提供了模型潜空间 (latent space)信息噪声 (informative noise)生成过程的闭式表达式 (closed-form expression)和严谨推导。它证明了 PsNet 产生的噪声不仅符合扩散框架 (diffusion framework),而且有效地融入了辅助元数据 (auxiliary metadata)中的语义信息 (semantic information)

假设 v0Rd\mathbf{v}_0 \in \mathbb{R}^d 表示物品的干净嵌入 (clean embedding)前向扩散过程 (forward diffusion process)在任意时间步 tt 遵循标准的 DDPM 公式: vt=αtv0+σtε,εN(0,Id) \mathbf{v}_t = \boldsymbol{\alpha}_t \mathbf{v}_0 + \boldsymbol{\sigma}_t \boldsymbol{\varepsilon}, \quad \boldsymbol{\varepsilon} \sim \mathcal{N}(\mathbf{0}, \mathbf{I}_d)

  • vt\mathbf{v}_t: 在时间步 tt潜在状态 (latent state)
  • αt,σt\boldsymbol{\alpha}_t, \boldsymbol{\sigma}_t: 与时间步 tt 相关的调度参数 (schedule parameters)
  • ε\boldsymbol{\varepsilon}: 标准高斯噪声 (Gaussian noise)。 假设 vTN(0,Id)\mathbf{v}_T \sim \mathcal{N}(\mathbf{0}, \mathbf{I}_d) 是作为逆向过程 (reverse process)初始状态的标准高斯样本 (Gaussian sample)。目标是在实际去噪之前,将结构语义信息 (structural semantic information) sRds\mathbf{s} \in \mathbb{R}^{d_s}(来源于知识图谱 (knowledge graphs)社交网络 (social networks))注入到噪声中。

定理 A.1:εθ(v,t)\pmb{\varepsilon}_{\theta}(\mathbf{v}, t \mid \star) 是一个关于其第一个参数是 LL-Lipschitz噪声预测网络 (noise prediction network)。假设轨迹在步长 kTk \ll T 内是平滑的,即 vTvTkLk\|\mathbf{v}_T - \mathbf{v}_{T-k}\| \leq Lk。令在时间步 TTT-k无分类器引导 (classifier-free guidance, CFG)尺度分别为 ω\omega_\ellωw\omega_w。那么,一轮再去噪 (re-denoising)的输出,记作 vT\mathbf{v}_T',满足: vT=vT+κgs,κ=(ωωw)αTσTkαTkσTαTk \mathbf{v}_T' = \mathbf{v}_T + \boldsymbol{\kappa} \cdot \mathbf{g}_s, \qquad \boldsymbol{\kappa} = \left(\omega_\ell - \omega_w\right) \cdot \frac{\boldsymbol{\alpha}_T \boldsymbol{\sigma}_{T-k} - \boldsymbol{\alpha}_{T-k} \boldsymbol{\sigma}_T}{\boldsymbol{\alpha}_{T-k}} 其中, gs=εθ(vTk2,Tk2s)εθ(vTk2,Tk2) \mathbf{g}_s = \pmb{\varepsilon}_{\theta}\left(\mathbf{v}_{T - \frac{k}{2}}, T - \frac{k}{2} \mid s\right) - \pmb{\varepsilon}_{\theta}\left(\mathbf{v}_{T - \frac{k}{2}}, T - \frac{k}{2} \mid \emptyset\right) 被称为语义梯度 (semantic gradient)

  • vT\mathbf{v}_T': 经过再去噪 (re-denoising)后得到的信息噪声 (informative noise)

  • vT\mathbf{v}_T: 原始的高斯噪声 (Gaussian noise)

  • κ\boldsymbol{\kappa}: 控制注入幅度 (injection magnitude)的系数。

  • ω,ωw\omega_\ell, \omega_w: 在不同时间步的 CFG 尺度。

  • αT,σT,αTk,σTk\boldsymbol{\alpha}_T, \boldsymbol{\sigma}_T, \boldsymbol{\alpha}_{T-k}, \boldsymbol{\sigma}_{T-k}: 在时间步 TTT-k调度参数 (schedule parameters)

  • gs\mathbf{g}_s: 语义梯度 (semantic gradient),表示在存在语义条件 ss 和不存在语义条件 \emptyset 下,噪声预测 (noise prediction)的差异。

    该表达式表明,信息噪声 (informative noise) vT\mathbf{v}_T' 是通过将标准高斯噪声 (Gaussian noise) vT\mathbf{v}_T 沿着语义梯度 (semantic gradient) gs\mathbf{g}_s 进行平移而获得的,并且具有可控的注入幅度 κ\boldsymbol{\kappa}。梯度的方向来源于在存在和不存在结构条件 (structural condition) ss 下的噪声预测 (noise predictions)差异,因此它保证在潜空间 (latent space)中反映有意义的语义信息 (semantic information)

4.2.5.2. 定理 B.1 (Theorem B.1):通过信息噪声实现偏好对齐

定理 B.1用户偏好对齐 (user preference alignment)的角度分析了信息噪声 (informative noise)的优势。它证明了与标准高斯噪声 (Gaussian noise)相比,语义注入 (semantically injected)信息噪声 (informative noise)能够带来更高的预期偏好得分。

定理 B.1:vTN(0,Id)\mathbf{v}_T \sim \mathcal{N}(\mathbf{0}, \mathbf{I}_d)潜空间 (latent space)中的初始高斯噪声向量 (Gaussian noise vector)。令 sRds\mathbf{s} \in \mathbb{R}^{d_s} 表示结构语义 (structural semantics)uRd\mathbf{u} \in \mathbb{R}^d用户嵌入向量 (user embedding vector)。令 G:RdRd\mathbf{G}: \mathbb{R}^d \to \mathbb{R}^d 是确定性生成映射 (generative mapping)(例如,一个经过 KK 步的 DDIM 采样器),使得 v0=G(vT)\mathbf{v}_0 = \mathbf{G}(\mathbf{v}_T) 产生一个生成的物品嵌入 (item embedding)。 假设满足以下条件:

  1. 噪声预测器 (noise predictor) εθ(,t)\pmb{\varepsilon}_{\theta}(\cdot, t \mid \cdot)LL-Lipschitz 的。

  2. 信息噪声 (Informative noise)通过一次再去噪 (re-denoise)步骤构建: vTinfo=vT+κgs \mathbf{v}_T^{info} = \mathbf{v}_T + \boldsymbol{\kappa} \cdot \mathbf{g}_s 其中语义梯度 (semantic gradient) gsRd\mathbf{g}_s \in \mathbb{R}^d 定义为: gs=εθ(vTk2,Tk2s)εθ(vTk2,Tk2) \mathbf{g}_s = \pmb{\varepsilon}_{\theta}\left(\mathbf{v}_{T - \frac{k}{2}}, T - \frac{k}{2} \mid s\right) - \pmb{\varepsilon}_{\theta}\left(\mathbf{v}_{T - \frac{k}{2}}, T - \frac{k}{2} \mid \emptyset\right) κ>0\kappa > 0 控制注入强度 (injection strength)

  3. 存在 δ>0\delta > 0 使得 u,gsδ\langle \mathbf{u}, \mathbf{g}_s \rangle \geq \delta,即语义方向 (semantic direction)用户偏好 (user preference)正向对齐。

    那么,通过信息噪声 (informative noise)生成的嵌入 (embedding) v0info=G(vTinfo)\mathbf{v}_0^{info} = \mathbf{G}(\mathbf{v}_T^{info}) 满足以下预期偏好边界 (expected preference bound)EvT[u,v0info]EvT[u,v0std]+κδγκ2ugs \mathbb{E}_{\mathbf{v}_T}\left[\left.\mathbf{u}, \mathbf{v}_0^{info}\right.\right] \geq \mathbb{E}_{\mathbf{v}_T}\left[\left.\mathbf{u}, \mathbf{v}_0^{std}\right.\right] + \kappa \delta - \gamma \kappa^2 \left\|\mathbf{u}\right\| \cdot \left\|\mathbf{g}_s\right\| 其中 v0std=G(vT)\mathbf{v}_0^{std} = \mathbf{G}(\mathbf{v}_T) 是由标准噪声生成的物品嵌入 (item embedding)

  • vTinfo\mathbf{v}_T^{info}: 经过信息噪声 (informative noise)增强的噪声向量。

  • v0info\mathbf{v}_0^{info}: 由 vTinfo\mathbf{v}_T^{info} 经过生成映射 (generative mapping) G\mathbf{G} 得到的物品嵌入 (item embedding)

  • v0std\mathbf{v}_0^{std}: 由标准高斯噪声 (Gaussian noise) vT\mathbf{v}_T 经过生成映射 (generative mapping) G\mathbf{G} 得到的物品嵌入 (item embedding)

  • u,v\langle \mathbf{u}, \mathbf{v} \rangle: 向量 u\mathbf{u}v\mathbf{v}内积 (inner product),表示用户偏好 (user preference)得分。

  • δ\delta: 语义方向 (semantic direction)用户偏好 (user preference)正向对齐的下界。

  • γ\gamma: 与生成映射 (generative mapping) G\mathbf{G}Hessian曲率相关的常数。

    讨论 (Discussion): 这一结果表明,通过再去噪 (re-denoising)构建的信息噪声 (informative noise) vTinfo\mathbf{v}_T^{info} 产生的物品嵌入 (item embeddings),与由标准噪声生成的嵌入 (embeddings)相比,具有严格更高的预期偏好得分 (expected preference score),前提是语义方向 (semantic direction) gs\mathbf{g}_s用户意图 (user intent)正向对齐。此外,通过选择最优的 κ=δ2γugs\kappa^* = \frac{\delta}{2\gamma \|\mathbf{u}\| \cdot \|\mathbf{g}_s\|},可以最大化预期内积 (expected inner product)的改进 Δ=δ24γugs\Delta^* = \frac{\delta^2}{4\gamma \|\mathbf{u}\| \cdot \|\mathbf{g}_s\|}。这为选择最优注入强度 (injection strength) κ\boldsymbol{\kappa} 提供了理论指导,例如通过调整 ωωw\omega_\ell - \omega_wDDIM 步长 kk。它证实了信息噪声 (informative noise)不仅是语义上有意义的修改,而且以数学上可控和可验证的方式改善了偏好对齐 (preference alignment)

5. 实验设置

本节详细描述了 InfoDCL 的实验设置,包括使用的数据集、评估指标、对比基线模型以及实现细节。

5.1. 数据集

实验评估在五个常用的公开推荐数据集上进行,包括 ml-1mAmazon-OfficeAmazon-ElectronicsAmazon-BabyTaobao。这些数据集涵盖了不同规模和稀疏度的用户-物品交互数据。

以下是原文 [Table 1] 的结果:

Datasets ML-1M Office Baby Taobao Electronics
#Users 6040 4,905 19,445 12,539 32,886
#Items 3706 2,420 7,050 8,735 52,974
#Int. 1,000,209 53,258 159,669 83,648 337,837
Sparsity 95.53% 99.55% 99.88% 99.92% 99.69%

数据集特点分析:

  • ML-1M: 用户和物品数量相对较少,但交互密度相对较高(稀疏度 95.53%),是一个经典的基准数据集。

  • Amazon-Office, Amazon-Baby, Amazon-Electronics: 属于 Amazon 评论数据集系列,物品数量和用户数量适中,但稀疏度 (Sparsity)普遍较高(99% 以上),特别是 BabyTaobao 达到了 99.88% 和 99.92%,这对推荐系统提出了严峻挑战。

  • Taobao: 具有较高的稀疏度,并且在多模态实验中仅包含视觉数据,可以检验模型在单一模态下的表现。

  • Amazon-Electronics: 拥有最多的用户和物品,以及最多的交互,是一个大规模且稀疏的数据集,适合评估模型的扩展性和效率。

    选择这些数据集是为了全面评估模型在不同规模、不同稀疏度以及不同领域(电影、电子商务)下的性能和鲁棒性。它们能有效验证方法在真实世界推荐场景中的有效性。

5.2. 评估指标

推荐系统的有效性通过两个广泛采用的排序指标 (ranking metrics)进行评估:NDCG@KRecall@K,其中 KK 表示排序列表 (ranked list)中的截止位置。采用全排序评估协议 (all-ranking evaluation protocol),最终性能报告为所有测试用户的平均得分。

  1. Recall@K (召回率@K)

    • 概念定义: Recall@K 衡量推荐系统在给定长度 KK 的推荐列表中,成功识别出用户实际感兴趣的物品的比例。它关注的是模型找到所有相关物品的能力。
    • 数学公式: Recall@K=用户在测试集中实际交互过的,且出现在推荐列表前 K 项中的物品数量用户在测试集中实际交互过的所有物品数量 \mathrm{Recall}@K = \frac{\text{用户在测试集中实际交互过的,且出现在推荐列表前 K 项中的物品数量}}{\text{用户在测试集中实际交互过的所有物品数量}}
    • 符号解释:
      • KK: 推荐列表的截断位置,表示只考虑推荐列表的前 KK 个物品。
      • 用户在测试集中实际交互过的,且出现在推荐列表前 K 项中的物品数量: 指的是模型在前 KK 个推荐结果中,命中用户真实交互过的项目的数量。
      • 用户在测试集中实际交互过的所有物品数量: 指的是用户在测试集中所有真实交互过的物品的总数量。
  2. NDCG@K (Normalized Discounted Cumulative Gain at K,归一化折损累计增益@K)

    • 概念定义: NDCG@K 是一个衡量推荐列表质量的指标,它不仅考虑了相关物品是否被推荐,还考虑了它们在推荐列表中的位置。相关性越高的物品如果排在越前面,得分就越高。NDCG 通过将实际的累计增益(DCG)与理想的累计增益(IDCG)进行归一化,使得不同查询结果之间的比较更加公平。
    • 数学公式: NDCG@K=DCG@KIDCG@K \mathrm{NDCG}@K = \frac{\mathrm{DCG}@K}{\mathrm{IDCG}@K} 其中,DCG@K 的计算公式为: DCG@K=i=1K2reli1log2(i+1) \mathrm{DCG}@K = \sum_{i=1}^K \frac{2^{rel_i} - 1}{\log_2(i+1)} IDCG@K 是理想情况下的 DCG@K,即假设推荐列表中的物品按照相关性从高到低完美排序时的 DCG 值: IDCG@K=i=1REL2reli1log2(i+1) \mathrm{IDCG}@K = \sum_{i=1}^{|REL|} \frac{2^{rel_i} - 1}{\log_2(i+1)}
    • 符号解释:
      • KK: 推荐列表的截断位置。
      • relirel_i: 推荐列表在位置 ii 处物品的相关性得分。在隐式反馈推荐中,通常设置为二元值(1 表示用户已交互,0 表示未交互)。
      • log2(i+1)\log_2(i+1): 折损因子,使得排名靠前的相关物品贡献更大。
      • DCG@K\mathrm{DCG}@K: 折损累计增益 (Discounted Cumulative Gain),衡量实际推荐列表的相关性得分。
      • IDCG@K\mathrm{IDCG}@K: 理想折损累计增益 (Ideal Discounted Cumulative Gain),是完美排序列表的 DCG 值,用于归一化。
      • REL|REL|: 在测试集中与用户相关的所有物品数量,用于计算完美排序下的 DCG

5.3. 对比基线

为了全面评估 InfoDCL 的性能,论文将其与一系列最先进的 (state-of-the-art)基线方法进行了比较。这些基线包括:

  1. 经典协同过滤模型 (Classical Collaborative Filtering Models):

    • MF [12]: 矩阵分解 (Matrix Factorization),一种经典的潜在因子模型 (latent factor model)
    • ENMF [2]: 高效神经矩阵分解 (Efficient Neural Matrix Factorization),一种不需要采样就能进行优化的矩阵分解 (Matrix Factorization)变体。
  2. 图神经网络基方法 (Graph Neural Network-based Approaches):

    • NGCF [7]: 神经图协同过滤 (Neural Graph Collaborative Filtering),通过在用户-物品交互图 (user-item interaction graph)上进行消息传递 (message passing)来学习表示 (representations)
    • LightGCN [6]: 简化与强化图卷积网络 (Simplifying and Powering Graph Convolution Network),移除了 GCN 中的非线性激活和特征转换,只保留了邻居聚合 (neighbor aggregation)
  3. 基于扩散过程的生成模型 (Generative Models based on Diffusion Processes):

    • DiffRec [30]: 扩散推荐模型 (Diffusion Recommender Model),最早将扩散模型引入推荐领域的工作之一。
    • DDRM [50]: 去噪扩散推荐模型 (Denoising Diffusion Recommender Model),实现了用户和物品之间的相互条件化 (mutual conditioning)
    • GiffCF [53]: 图信号扩散模型 (Graph Signal Diffusion Model),通过图信号处理 (graph signal processing)模拟热扩散过程 (heat diffusion process)
  4. 基于对比学习的技术 (Contrastive Learning-based Techniques):

    • SGL [34]: 自监督图学习 (Self-supervised Graph Learning),通过图增强进行对比学习。
    • NCL [16]: 邻居对比学习 (Neighbor-based Contrastive Learning),利用多跳结构邻居和语义原型。
    • SimGCL [41]: 简单图对比学习 (Simple Graph Contrastive Learning),通过直接对嵌入 (embeddings)注入噪声来增强鲁棒性。
    • RecDCL [47]: 双重对比学习 (Dual Contrastive Learning),用于推荐。
    • SGCL [49]: 对称图对比学习 (Symmetric Graph Contrastive Learning),用于对抗噪声视图。
    • CoGCL [51]: 协同图对比学习 (Collaborative Graph Contrastive Learning),利用离散协同代码和虚拟邻居。
  5. 多模态推荐系统 (Multimodal Recommender Systems) (在专门的对比实验中):

    • MMSSL [33]: 多模态自监督学习 (Multi-Modal Self-Supervised Learning)
    • LATTICE [48]: 挖掘多媒体推荐的潜在结构 (Mining Latent Structures for Multimedia Recommendation)
    • BM3 [52]: 多模态推荐的引导式自举潜在表示 (Bootstrap Latent Representations for MultiModal Recommendation)
    • LGMRec [5]: 多模态推荐的局部和全局图学习 (Local and Global Graph Learning for Multimodal Recommendation)
    • MGCN [43]: 多视图图协同网络 (Multi-View Graph Collaborative Network)
    • DiffMM [11]: 多模态扩散模型 (Multi-Modal Diffusion Model),用于推荐。

5.4. 实现细节

所有模型均配置一致的嵌入维度 (embedding dimensionality)为 64,并使用 Xavier 方案进行初始化。超参数 (hyperparameter)优化过程涵盖了几个关键维度:

  • 学习率 (Learning Rate):[1×106,5×101][1 \times 10^{-6}, 5 \times 10^{-1}] 区间内进行对数采样。

  • 批量大小 (Batch Sizes): 根据每个数据集的交互密度离散选择,以保持训练效率(例如,ML-1M 使用 1024,Amazon-Office 使用 2000)。

  • 损失系数 (Loss Coefficients):

    • 控制扩散重建项 (diffusion reconstruction term)λr\lambda_r成对排序项 (pairwise ranking term)λb\lambda_b 都在 [0, 1.0] 范围内进行调整。
    • 正则化系数 (regularization coefficient) λg\lambda_g[0.001, 0.01] 区间内搜索,以确保足够的泛化能力。
    • 对比损失权重 (contrastive loss weight) λcon\lambda_{con}5×1055 \times 10^{-5}5×1065 \times 10^{-6} 之间变化。
  • GCN 层数 (Number of GCN Layers): 推理阶段 (inference stage)使用的 GCN 层数在 0 到 3 之间探索。

  • 扩散时间步 (Number of Diffusion Timesteps): 扩散时间步数在 100 到 500 之间测试。

  • 优化器 (Optimizers): 比较了 AdamAdamW 优化器的影响。

    所有实验都在相同的 GPU 下以单进程设置进行,以消除硬件和实现的可变性。

6. 实验结果与分析

本节将详细分析 InfoDCL 在各项实验中的表现,包括与基线模型的性能对比、消融研究、与多模态方法的比较、训练效率以及深入分析。

6.1. 核心结果分析

以下是原文 [Table 2] 的结果:

Dataset Metric Matrix Factorization GCN-based Models Diffusion Models Contrastive Learning Models Ours Improve.
MF ENMF NGCF LightGCN DiffRec DDRM GiffCF SGL NCL SimGCL RecDCL SGCL CoGCL InfoDCL-S InfoDCL-D
Baby Recall@20 0.0451 0.0602 0.0532 0.0715 0.0713 0.0118 0.0725 0.0656 0.0742 0.0782 0.0726 0.0533 0.0765 0.0832 0.0856 9.46%
Recall@50 0.0899 0.1055 0.1002 0.1255 0.1181 0.0178 0.1253 0.1090 0.1305 0.1324 0.1142 0.0839 0.1289 0.01417 0.1445 9.14%
NDCG@20 0.0185 0.0287 0.0226 0.0298 0.0327 0.0051 0.0323 0.0297 0.0321 0.0332 0.0338 0.0240 0.0318 0.0355 0.0359 6.21%
NDCG@50 0.0272 0.0377 0.0320 0.0409 0.0422 0.0063 0.0449 0.0384 0.0433 0.0443 0.0431 0.0301 0.0427 0.0472 0.0477 6.29%
Office Recall@20 0.0598 0.1004 0.0928 0.1215 0.1159 0.0133 0.1252 0.1151 0.0966 0.1305 0.1254 0.0414 0.1206 0.01364 0.1398 11.70%
Recall@50 0.1178 0.1729 0.1684 0.2064 0.1867 0.0277 0.2084 0.1838 0.1595 0.2073 0.1969 0.0705 0.1986 0.2217 0.2282 9.48%
NDCG@20 0.0232 0.0500 0.0400 0.0558 0.0511 0.0058 0.0537 0.0549 0.0463 0.0562 0.0534 0.0206 0.0572 0.0630 0.0625 10.14%
NDCG@50 0.0346 0.0651 0.0563 0.0702 0.0704 0.0088 0.0719 0.0697 0.0594 0.0733 0.0689 0.0267 0.0737 0.0810 0.0812 10.18%
Taobao Recall@20 0.0556 0.1307 0.1223 0.1502 0.1492 0.0139 0.1524 0.1555 0.1558 0.1611 0.1459 0.1334 0.1458 0.2001 0.1996 24.20%
Recall@50 0.0983 0.1813 0.1902 0.2250 0.2013 0.0228 0.2084 0.2107 0.2372 0.2189 0.2114 0.1890 0.1957 0.2837 0.2825 19.60%
NDCG@20 0.0207 0.0630 0.0523 0.0681 0.0715 0.0057 0.0659 0.0748 0.0717 0.0762 0.0713 0.0634 0.0720 0.0900 0.0895 18.11%
NDCG@50 0.0290 0.0731 0.0658 0.0830 0.0824 0.0075 0.0786 0.0859 0.0880 0.0898 0.0844 0.0746 0.0820 0.1066 0.1060 18.71%
Electronics Recall@20 0.0401 0.0299 0.0368 0.0394 0.0236 0.0033 0.0343 0.0359 0.0435 0.0423 0.0409 0.0407 0.0415 0.0473 0.0464 8.73%
Recall@50 0.0620 0.0512 0.0593 0.0645 0.0451 0.0044 0.0509 0.0561 0.0679 0.0655 0.0614 0.0622 0.0648 0.0715 0.0735 8.25%
NDCG@20 0.0155 0.0139 0.0163 0.0178 0.0123 0.0020 0.0138 0.0175 0.0199 0.0192 0.0182 0.0198 0.0192 0.0210 0.0217 9.05%
NDCG@50 0.0198 0.0183 0.0209 0.0229 0.0189 0.0022 0.0181 0.0217 0.0249 0.0230 0.0213 0.0243 0.0239 0.0261 0.0273 9.64%
ML-1M Recall@20 0.0751 0.1061 0.0877 0.0790 0.0794 0.0141 0.1044 0.0778 0.0868 0.1192 0.0858 0.0107 0.1020 0.1701 0.1631 42.70%
Recall@50 0.0854 0.2154 0.1785 0.1666 0.1761 0.0182 0.2006 0.1719 0.1740 0.2167 0.1709 0.0211 0.1977 0.2505 0.2450 15.59%
NDCG@20 0.0244 0.0402 0.0347 0.0278 0.0316 0.0059 0.0379 0.0304 0.0310 0.0417 0.0321 0.0123 0.0371 0.0538 0.0511 29.02%
NDCG@50 0.0263 0.0554 0.0525 0.0451 0.0468 0.0068 0.0569 0.0489 0.0480 0.0581 0.0487 0.0155 0.0560 0.0696 0.0673 19.79%

观察与分析:

  1. 扩散模型 (Diffusion Models) 的表现: DiffRecGiffCF基于扩散的推荐系统 (diffusion-based recommender systems)在性能上优于传统的基线方法(如 MFENMFNGCF)。它们利用噪声注入机制 (noise-injection mechanisms)逆向去噪过程 (reverse denoising processes)来捕获用户和物品交互之间复杂的依赖关系。其生成框架 (generative framework)提供了更多样化的推荐。然而,随机采样的噪声会破坏已经稀疏的用户-物品交互 (user-item interactions),从而降低了扩散模型 (diffusion model)的生成能力。特别值得注意的是 DDRM 在所有数据集上的表现都非常差,这可能表明其相互条件化 (mutual conditioning)策略在这些稀疏数据集上未能有效工作,或者其参数没有被充分优化。
  2. 对比学习方法 (Contrastive Learning Methods) 的表现: SGLNCLSimGCLCoGCL 等对比学习方法通过生成正负样本对 (positive and negative pairs),鼓励同一节点在增强视图 (augmented views)之间保持一致性,同时保持不同节点之间的表示区分度 (representational distinctiveness)。这些模型通常通过对现有交互进行随机扰动来创建新的对比视图 (contrastive views),这使得嵌入 (embeddings)分布更加均匀,从而增强了鲁巴性。然而,它们未能有效利用辅助信息 (supplementary information),限制了其预测性能。
  3. InfoDCL 的优越性: InfoDCL 在所有数据集的所有指标上均优于最先进的 (state-of-the-art)模型,取得了最佳的整体性能。这突出强调了利用辅助元数据 (auxiliary metadata)SVD 产生信息噪声 (informative noise)的价值。与随机高斯噪声 (Gaussian noise)相比,这种信息噪声 (informative noise)增强了扩散过程 (diffusion process)嵌入 (embeddings)的生成,使其富含语义信息 (semantic information)。此外,协同训练目标策略 (collaborative training objective strategy)将生成、对比学习和偏好学习之间的相互干扰转化为协作,显著提高了预测性能。
    • 例如,在 ML-1M 数据集上,InfoDCL 在 Recall@20 上比次优模型 SimGCL 提升了 42.70% (0.1701 vs 0.1192),在 NDCG@20 上提升了 29.02% (0.0538 vs 0.0417)。

    • 在稀疏的 Taobao 数据集上,InfoDCL 在 Recall@20 上比 SimGCL 提升了 24.20% (0.2001 vs 0.1611)。

      InfoDCL-SInfoDCL-D 分别代表单通道和双通道的 InfoDCL。尽管论文标题中提到“独立对比学习通道”,但表格中的 InfoDCL-SInfoDCL-D 似乎指的是单通道对比学习 (single channel contrastive learning)双通道对比学习 (double channel contrastive learning),这在表格标题的下方注释中有所提及。从结果来看,在大部分数据集上,InfoDCL-D 略优于 InfoDCL-S,但在 ML-1MTaobao 数据集上 InfoDCL-S 表现更好,这可能与数据集的特性或辅助元数据的使用方式有关。

6.2. 消融实验/参数分析

6.2.1. 消融分析 (Ablation Analysis)

下图(原文 Figure 2)展示了在五个数据集上的消融研究结果。

Figure 2: Ablation analysis across five datasets
该图像是图表,展示了在五个数据集上的消融分析,包括 Recall@20 和 NDCG@20 等指标。结果以不同颜色条形图呈现,比较了 w/o SR、w/o CBL 和 InfoDCL 的性能表现,显示了 InfoDCL 在推荐系统中的效果 superiority。

上图(原文 Figure 2)展示了在五个数据集上的消融分析,包括 Recall@20NDCG@20 等指标。

分析:

  • w/o SR (去除谱修正模块): 表示移除了谱修正模块 (spectral rectification module),只保留上下文重编码 (contextual re-encoding)来整合高斯噪声 (Gaussian noise)辅助元数据 (auxiliary metadata)。这意味着不再使用 SVD 来模拟单步扩散过程 (one-step diffusion process)以生成语义丰富噪声 (semantically rich noise),而只是简单地将噪声和语义线性融合。从 Figure 2 可以看出,移除谱修正模块 (spectral rectification module)导致性能显著下降。这表明 SVD 在提取和编码辅助元数据 (auxiliary metadata)中的语义 (semantics)方面至关重要。
  • w/o CR (去除上下文重编码模块): 表示移除了上下文重编码模块 (contextual re-encoding module),只使用 SVD 来生成信息噪声 (informative noise)。尽管其性能下降不如 w/o SR 严重,但仍然突显了仅依靠 SVD 来近似单步扩散过程 (one-step diffusion process)的不足。这强调了需要额外增强的重要性,而论文提出的上下文重编码模块 (contextual re-encoding module)提供了一个有效的解决方案。
  • w/o PsNet (去除偏好信号网络): 这个变体用随机采样的高斯噪声 (Gaussian noise)替换了信息噪声 (informative noise),相当于标准的扩散过程 (diffusion process)用于生成物品嵌入 (item embeddings)Figure 2 显示,在几乎所有数据集和评估指标上,移除 PsNet 都会导致严重的性能下降。这一结果强烈表明,通过注入辅助语义信息 (auxiliary semantic information)生成的信息噪声 (informative noise)有效地利用扩散范式 (diffusion paradigm)来产生更能捕捉真实用户偏好 (user preferences)物品嵌入 (item embeddings)
  • w/o CBL (去除协作平衡损失): 这个变体移除了协作平衡损失 (collaboration balance loss)Figure 2 显示,这个损失项对模型性能同样至关重要。首先,移除该损失导致所有数据集和评估指标的性能下降。其次,在某些数据集上,其对性能提升的影响尤为显著。例如,在 Amazon-Electronics 上,w/o CBL 变体的性能下降最为明显。这突出了协作平衡损失 (collaboration balance loss)在协调多个学习目标方面的重要作用。

6.2.2. 与多模态基线模型的比较 (Comparison with Multimodal Baselines)

为了进一步评估 InfoDCL 在利用模态信息 (modality information)方面的有效性,论文将 InfoDCL 与几个最先进的多模态推荐系统 (state-of-the-art multimodal recommender systems)进行了实验比较,包括 MMSSLLATTICEBM3LGMRecMGCNDiffMM。 所有这些基线模型以及 InfoDCL 都整合了视觉 (visual)文本模态 (textual modalities),除了 Taobao 数据集,该数据集只包含视觉数据 (visual data)

以下是原文 [Table 3] 的结果:

Datasets Metric MMSSL LATTICE BM3 LGMRec MGCN DiffMM InfoDCL
Baby Recall@20 0.0525 0.0839 0.0835 0.0643 0.0744 0.0806 0.0890
Recall@50 0.1005 0.1432 0.1456 0.1157 0.1326 0.1459 0.1476
NDCG@20 0.0228 0.0368 0.0364 0.0284 0.0327 0.0337 0.0375
NDCG@50 0.0327 0.0473 0.0465 0.0388 0.0455 0.0463 0.0492
Office Recall@20 0.1277 0.1345 0.1158 0.1348 0.1196 0.1351 0.1438
Recall@50 0.2123 0.2200 0.1944 0.2231 0.2029 0.2308 0.2280
NDCG@20 0.0541 0.0524 0.0527 0.0598 0.0544 0.0599 0.0644
NDCG@50 0.0732 0.0742 0.0695 0.0789 0.0724 0.0804 0.0823
Taobao Recall@20 0.1619 0.1622 0.1451 0.1661 0.1528 0.1498 0.2006
Recall@50 0.2377 0.2434 0.2246 0.2392 0.2411 0.2342 0.2818
NDCG@20 0.0749 0.0699 0.0636 0.0693 0.0645 0.0649 0.0904
NDCG@50 0.0901 0.0862 0.0802 0.0868 0.0829 0.0817 0.1066
Electronics Recall@20 0.0425 0.0461 0.0451 0.0449 0.0466 0.0467 0.0533
Recall@50 0.0671 0.0712 0.0738 0.0733 0.0756 0.0754 0.0851
NDCG@20 0.0214 0.0206 0.0207 0.0209 0.0212 0.0215 0.0244
NDCG@50 0.0273 0.0264 0.0267 0.0268 0.0274 0.0277 0.0310
ML-1M Recall@20 0.0683 0.0743 0.1005 0.1507 0.0844 0.0854 0.1647
Recall@50 0.1474 0.1745 0.1983 0.2369 0.1826 0.1895 0.2494
NDCG@20 0.0242 0.0271 0.0319 0.0412 0.0332 0.0336 0.0462
NDCG@50 0.0397 0.0467 0.0512 0.0569 0.0517 0.544 0.0630

分析: 在五个数据集上,InfoDCL 始终表现出优于这些多模态模型 (multimodal models)的性能。这表明 InfoDCL 在利用模态信息 (modality information)方面比现有多模态模型 (multimodal models)更有效。值得注意的是,在仅包含单一模态 (single modality)(视觉数据)的 Taobao 数据集上,InfoDCL 显著优于所有竞争对手。这一发现表明:

  • PsNet 的有效性: 论文提出的 PsNet 确实生成了带有语义信息 (semantic information)信息噪声 (informative noise),使得扩散过程 (diffusion process)能够更好地捕捉用户的真实偏好。
  • 协同训练目标策略的贡献: 通过协同训练目标策略 (collaborative training objective strategy),生成的物品嵌入 (item embeddings)将丰富的语义信息 (semantic information)注入到初始化的物品表示 (item representation)中,进一步提高了推荐性能。

6.2.3. 训练效率 (Training Efficiency)

下图(原文 Figure 3)展示了不同模型在 Amazon-Electronics 数据集上的性能与效率分析。

Figure 3: Performance versus efficiency analysis on AmazonElectronics.
该图像是一个图表,展示了不同模型在亚马逊电子产品数据集上的性能和效率分析。横轴为每个周期的平均训练时间(秒),纵轴为Recall@20值。红点表示InfoDCL,显示出其在性能与效率上的优越表现。

上图(原文 Figure 3)展示了不同模型在亚马逊电子产品数据集上的性能和效率分析。横轴为每个周期的平均训练时间(秒),纵轴为 Recall@20 值。

分析:

  • GCN-based Methods (GCN 基方法): LightGCN 以其简单高效而突出。通过去除非线性变换和特征聚合,它保持了轻量级架构,实现了准确性和训练效率的平衡。
  • Diffusion-based Models (基于扩散的模型): DiffRec基于扩散的模型 (diffusion-based models)试图利用信息传播的动态性,但其复杂性增加导致训练时间显著延长,而性能提升却微乎其微。
  • Contrastive Learning Approaches (对比学习方法): NCL对比学习方法 (contrastive learning approaches)表现出强大的性能,取得了第二高的 Recall@20,但与 LightGCN 相比,训练时间略有增加。这反映了对比目标 (contrastive objectives)在学习鲁棒表示方面的有效性。
  • InfoDCL 的表现: InfoDCL 在训练效率和模型性能之间实现了卓越的平衡。它在 Recall@20 方面始终优于所有基线模型,同时保持每个周期的训练时间相对较低。这种在性能-效率空间 (performance-efficiency space)中的最佳位置,突显了 InfoDCL 在不产生大量计算成本的情况下提取信息表示 (informative representations)的能力。

6.3. 深入分析 (In-depth Analysis)

6.3.1. 高斯噪声与信息噪声的信噪比 (SNR) 比较

为了进一步评估信息噪声 (informative noise)的强度,论文对三个基准数据集:Amazon-ElectronicsAmazon-BabyTaobao 进行了信噪比 (Signal-to-Noise Ratio, SNR)的比较分析。SNR 使用标准统计定义计算,表示随机变量在噪声添加时间步长上均方 (square of the mean)方差 (variance)之比。 具体来说,对于任何随机变量 XXSNR 由以下公式给出: SNR(X)=(E[X])2Var(X) \mathrm{SNR}(\mathbf{X}) = \frac{(\mathbb{E}[\mathbf{X}])^2}{\mathrm{Var}(\mathbf{X})}

  • E[X]\mathbb{E}[\mathbf{X}]: 随机变量 X\mathbf{X}期望 (expectation)

  • Var(X)\mathrm{Var}(\mathbf{X}): 随机变量 X\mathbf{X}方差 (variance)

    下图(原文 Figure 4)展示了在 Amazon-BabyAmazon-ElectronicsTaobao 数据集上 SNR 随时间步的变化。

    Figure 4: SNR Comparison on Amazon-Baby, AmazonElectronics and Taobao 该图像是一个对比图表,展示了在三个数据集(Amazon-Baby、Amazon Electronics 和 Taobao)上,使用高斯噪声和信息噪声的信噪比(SNR)随时间步变化的情况。图中蓝线表示高斯噪声,橙线表示信息噪声,展示了不同噪声类型对信号质量的影响。

上图(原文 Figure 4)展示了在三个数据集(Amazon-Baby、Amazon Electronics 和 Taobao)上,使用高斯噪声 (Gaussian noise)信息噪声 (informative noise)信噪比 (SNR)随时间步变化的情况。

分析: 结果表明,InfoDCLzT(m)\mathbf{z}_T^{(\mathbf{m})}SNR 高于随机采样的高斯噪声 (Gaussian noise),并且随着噪声注入时间步数的增加,这种优势变得更加明显。 这一发现突显了论文提出的信息噪声生成过程 (informative noise generation process)的有效性。通过将丰富的语义信息 (semantic information)嵌入高斯噪声 (Gaussian noise)中,模型能够合成具有语义结构的噪声,其中包含更多有意义的信息。这种增强的噪声不仅保留了输入的性质,而且在扩散过程 (diffusion process)中提供了信息引导 (informative guidance)。因此,生成的物品嵌入 (item embeddings)更准确地捕捉了用户偏好 (user preferences),从而提高了表示学习 (representation learning)和推荐性能。

下图(原文 Figure 8)展示了在 Amazon-OfficeML-1M 数据集上的 SNR 比较曲线,进一步证实了 InfoDCL 能够有效捕获不同数据集的语义信息 (semantic information)

Figure 8: SNR Comparison on Amazon-Office and ML-1M
该图像是图表,展示了在 Amazon-Office 和 ML-1M 数据集上,使用高斯噪声与信息噪声的信噪比(SNR)比较。左侧为 Office 数据集的 SNR 随时间步变化的曲线,右侧为 ML-1M 数据集的对应曲线。通过对比,两种噪声在不同时间步的表现差异明显。

上图(原文 Figure 8)展示了在 Amazon-Office 和 ML-1M 数据集上,使用高斯噪声 (Gaussian noise)信息噪声 (informative noise)信噪比 (SNR)比较。

6.3.2. 高斯噪声与信息噪声的可视化比较

为了探究随机采样的高斯噪声 (Gaussian noise)对推荐数据中共现关系 (co-occurrence relationships)的破坏,并验证 InfoDCL 提出的信息噪声 (informative noise)的有效性,论文通过训练 InfoDCL 及其用高斯噪声 (Gaussian noise)替换信息噪声 (informative noise)的变体,在 Amazon-Baby 数据集上收集了两种物品表示 (item representations),然后使用 t-SNE 进行可视化 (visualization),以直观观察数据分布。

下图(原文 Figure 5)展示了在 Amazon-Baby 数据集上使用 t-SNE物品嵌入 (item embeddings)可视化 (visualization)

Figure 5: Visualization of the item embeddings on AmazonBaby dataset using T-SNE.
该图像是一个比较图表,展示了在使用 T-SNE 方法对 AmazonBaby 数据集进行降维处理时,注入高斯噪声和信息噪声后的项目嵌入的分布。左侧为高斯噪声造成的散点分布,右侧则展示了信息噪声的散点分布,后者的聚集度明显更高,表明信息噪声在表示用户偏好方面的优势。

上图(原文 Figure 5)是一个比较图表,展示了在使用 t-SNE 方法对 AmazonBaby 数据集进行降维处理时,注入高斯噪声 (Gaussian noise)信息噪声 (informative noise)后的物品嵌入 (item embeddings)的分布。

分析:

  • 左侧图显示,使用随机噪声的物品嵌入 (item embeddings)物品空间 (item space)的有限离散区域内呈现拥挤 (crowding)现象,使得它们难以区分。
  • 右侧图则显示,在 InfoDCL 中注入信息噪声 (informative noise)后,生成的嵌入 (embeddings)表现出更均衡的空间排列 (spatial arrangement)。 这一经验观察强烈表明,在固有稀疏的推荐数据中引入噪声会显著破坏原始交互模式 (interaction patterns)。相反,引入信息噪声 (informative noise)可以丰富生成的嵌入 (embeddings)语义内容 (semantic content),增强对用户偏好 (user preferences)的建模,因此更适合推荐场景。

6.3.3. 协同训练目标策略分析

本小节介绍了协同训练目标方法 (collaborative training objective approach)的核心思想。与其它基于扩散的框架 (diffusion-based frameworks)类似,InfoDCL重建损失 (reconstruction loss)在训练过程中会迅速收敛。如 3.3 节所述,论文采用了一种协同策略 (collaborative strategy),联合优化生成过程 (generation process)推荐目标 (recommendation objectives)。 下图(原文 Figure 6)展示了在 Amazon-Electronics 数据集上,w/o collaboration balance lossInfoDCL 的比较。

Figure 6: Comparison of w/o collaboration balance loss and InfoDCL.
该图像是图表,展示了在有无协作平衡损失条件下,重构损失(绿色虚线)和BPR损失(蓝色实线)随训练轮次的变化趋势。左侧图为无协作平衡损失,右侧图为有协作平衡损失,显示出损失随轮次的不同表现。

上图(原文 Figure 6)是图表,展示了在有无协作平衡损失 (collaboration balance loss)条件下,重构损失 (reconstruction loss)(绿色虚线)和 BPR 损失(蓝色实线)随训练轮次的变化趋势。

分析:

  • 左侧图(w/o collaboration balance loss)显示,随着训练的进行,重建损失 (reconstruction loss)BPR 损失之间出现了明显的分歧 (divergence)。最终,重建损失 (reconstruction loss)减小到一个点,其对总损失的贡献变得可以忽略不计,阻碍了去噪生成模型 (denoising generative model)的进一步改进。
  • 右侧图(InfoDCL)显示,协作平衡损失 (collaboration balance loss)的引入明显改善了这种情况。在应用此策略之前,两个损失项的量级差异显著。一旦整合,损失项的量级更加接近,从而实现了一致且稳定的训练 (consistent and stable training)。这种平衡优化不仅稳定了生成训练 (generative training),而且显著提高了模型效率,这得到了实验结果的支持。

6.3.4. 特征向量相似性可视化

为了证明扩散模型 (diffusion model)输入和输出的 SVD 分解得到的奇异向量 (singular vectors)具有高度相似性,论文计算了它们的余弦相似度 (cosine similarity)的绝对值,如下图(原文 Figure 7)所示。

Figure 7: Cosine similarity between the singular vectors of input and output in diffusion process
该图像是一个柱状图,展示了扩散过程中文本输入与输出的奇异向量之间的余弦相似度的频率分布。X轴表示相似度范围,Y轴表示频率,显示出大部分相似度集中在接近1的区域。

上图(原文 Figure 7)是一个柱状图,展示了扩散过程 (diffusion process)中输入和输出的奇异向量 (singular vectors)之间的余弦相似度 (cosine similarity)的频率分布。

分析: 如图所示,大多数向量对 (vector pairs)相似度得分 (similarity scores)非常接近 1,表明它们的特征表示 (feature representations)高度对齐。这一发现为 PsNet 的设计提供了坚实的理论依据,因为它证实了在输入空间 (input space)输出空间 (output space)之间进行特征转换 (transforming characteristics)的可行性。

6.4. 超参数分析 (Hyperparameter Analysis)

为了研究关键超参数 (hyperparameters)的影响,论文在五个基准数据集上进行了实验。研究的超参数 (hyperparameters)包括:(1) BPR 损失系数 λb\lambda_b;(2) 对比学习系数 λcon\lambda_{con};(3) 协作平衡损失 (collaboration balance loss)系数 λl\lambda_l;以及 (4) 正则化损失系数 λg\lambda_g。 下图(原文 Figure 9)展示了这些超参数的分析结果。

Figure 9: Hyperparameter analysis across five datasets
该图像是一个图表,展示了五个数据集中的超参数分析。图表中包含多条曲线,分别表示不同超参数与指标(如 Recall@20、Recall@50、NDCG@20、NDCG@50)的关系。不同颜色的线条代表不同的数据集,包括 Baby、Taobao、Office、Electronics 和 ML-1M。

上图(原文 Figure 9)是一个图表,展示了五个数据集中的超参数分析 (hyperparameter analysis)

分析:

  • BPR 损失系数 λb\lambda_b 观察到增加 λb\lambda_b 通常会提高所有数据集的性能,特别是对于 TaobaoOffice。这表明中等到较高的 λb\lambda_b 值有助于学习有效的用户-物品表示 (user-item representations)
  • 协作平衡系数 λl\lambda_l 其影响似乎因数据集而异。ML-1MOffice 数据集在中间值(大约 10310^{-3}10410^{-4})表现最佳,这表明需要针对不同的数据稀疏度仔细平衡生成 (generation)偏好学习 (preference learning)
  • 正则化系数 λg\lambda_g 发现较低的值(例如 3×1033 \times 10^{-3}5×1035 \times 10^{-3})能带来更好的性能,尤其是在像 ML-1M 这样的密集数据集上。过度正则化往往会抑制学习效果,导致性能下降。
  • 对比学习系数 λcon\lambda_{con} 较小的值(例如 5×1035 \times 10^{-3})持续导致所有数据集的指标改善,这表明尽管对比信号 (contrastive signals)有益,但过强的对比损失 (contrastive losses)可能会主导学习并损害泛化能力,特别是在像 BabyElectronics 这样的稀疏数据集上。

7. 总结与思考

7.1. 结论总结

本文提出了 InfoDCL,一个新颖的基于扩散的对比学习 (diffusion-based contrastive learning)框架,旨在解决推荐系统中数据稀疏性 (data sparsity)导致的用户偏好 (user preferences)捕获不足问题。InfoDCL 的核心创新点在于用信息噪声 (informative noise)取代了传统的随机高斯噪声 (Gaussian noise)。这种信息噪声 (informative noise)通过 PsNet 模块生成,该模块利用谱修正 (spectral rectification)上下文重编码 (contextual re-encoding),将辅助语义信息 (auxiliary semantic information)高效地注入到噪声中,从而引导扩散过程 (diffusion process)生成更准确反映真实用户偏好的物品嵌入 (item embeddings)

为了协调生成 (generation)对比学习 (contrastive learning)偏好学习 (preference learning)这三个目标的优化,InfoDCL 构建了一个协同训练目标策略 (collaborative training objective strategy),引入了协作平衡损失 (collaboration balance loss)来解决它们之间的潜在干扰,从而转化为相互协作。此外,为了在捕获高阶共现信息 (higher-order co-occurrence information)的同时保持训练效率,模型仅在推理阶段 (inference stage)使用 LightGCN 层。

在五个真实世界数据集上进行的广泛实验验证了 InfoDCL 的优越性,其性能显著超越了最先进的 (state-of-the-art)基线方法。理论分析也进一步证实了信息噪声 (informative noise)的有效性及其对用户偏好对齐 (user preference alignment)的积极影响。这项工作为对比学习推荐系统 (contrastive learning recommender systems)提供了一个新颖的视角,并为将扩散范式 (diffusion paradigm)应用于固有稀疏的推荐任务开辟了新的研究方向。

7.2. 局限性与未来工作

论文中未明确指出 InfoDCL 的局限性,但可以从其方法和领域挑战中推断:

潜在局限性:

  • 对辅助数据的依赖: InfoDCL 的核心在于利用辅助语义信息 (auxiliary semantic information)生成信息噪声 (informative noise)。如果辅助数据质量不高、存在噪声,或者在某些场景下根本不存在可用的辅助信息,那么 PsNet 的效果可能会大打折扣。
  • PsNet 的复杂性: 虽然 PsNet 提供了理论支持,但其内部的 SVD 分解和多层感知机(MLP)转换,以及多项损失的平衡,增加了模型的复杂性和调参难度。
  • 理论假设的限制: 定理 B.1 在推导时,对生成映射 (generative mapping) G\mathbf{G} 进行了近似线性的假设,并假定语义梯度 (semantic gradient)用户偏好 (user preference)正向对齐。在实际复杂的高维非线性空间中,这些假设可能不完全成立,从而影响理论边界的紧密性。
  • 泛化能力: 尽管在五个数据集上表现优异,但在更广泛、更多样化的推荐场景(如冷启动用户/物品 (cold-start users/items)序列推荐 (sequential recommendation)多行为推荐 (multi-behavior recommendation))中,InfoDCL 的性能和适应性仍需进一步验证。

未来工作:

  • 探索更丰富的辅助信息源: 研究如何集成更多样化、更复杂的辅助信息(如用户评论、知识图谱的结构信息、更细粒度的多模态特征),并设计更鲁棒的机制来处理这些信息的潜在噪声和异构性。
  • 自适应噪声注入策略: 开发动态或自适应的信息噪声 (informative noise)生成机制,使其能够根据数据的稀疏度、特征的丰富程度或训练阶段自动调整噪声的语义注入强度 (semantic injection strength)和类型。
  • 将扩散模型应用于其他推荐场景: 将 InfoDCL 的核心思想扩展到序列推荐 (sequential recommendation)公平性推荐 (fairness-aware recommendation)可解释性推荐 (explainable recommendation)等更复杂的推荐任务中。
  • 优化 PsNet 架构: 简化 PsNet 结构,或者探索更高效的语义-噪声融合机制 (semantic-noise fusion mechanism),以进一步降低计算成本并提高训练效率。
  • 深入理论分析: 放松当前理论分析中的一些假设,提供在更一般条件下的性能保证或收敛性分析。

7.3. 个人启发与批判

InfoDCL 提出了一个引人注目的新范式,将扩散模型 (diffusion models)的生成能力与对比学习 (contrastive learning)的判别能力巧妙地结合起来,以解决推荐系统中长期存在的数据稀疏性 (data sparsity)问题。

个人启发:

  1. “信息噪声”的巧妙构思: 最具启发性的是信息噪声 (informative noise)的概念。在传统扩散模型 (diffusion models)中,噪声通常被视为随机扰动;而 InfoDCL 通过将辅助语义信息 (auxiliary semantic information)注入噪声,使其从单纯的扰动变为具有语义引导 (semantic guidance)的信号,这是对扩散模型 (diffusion models)应用方式的深刻理解和创新。它将生成模型 (generative model)从“生成看起来像数据的样本”提升到“生成符合特定语义偏好的样本”。
  2. 协同优化策略的实践价值: 多个损失函数之间的平衡是深度学习模型设计中的常见挑战。协作平衡损失 (collaboration balance loss)的引入,不仅解决了生成 (generation)偏好学习 (preference learning)之间的冲突,还将其转化为互补。这种“化解矛盾为协同”的设计思想在多任务学习和多目标优化中具有广泛借鉴意义。
  3. 效率与效果的权衡: 仅在推理阶段 (inference stage)使用 GCN 层来捕获高阶信息 (higher-order information),是兼顾模型性能和训练效率的巧妙策略。在不增加训练复杂度的前提下,充分利用图结构信息,这对于工业级推荐系统至关重要。
  4. 跨领域融合的潜力: InfoDCL 展示了生成模型 (generative model)(扩散)与自监督学习 (self-supervised learning)(对比学习)的深度融合可以创造出强大的新模型。这种跨领域、跨范式的结合,是未来机器学习研究的重要方向。

批判性思考:

  1. 辅助信息的质量与来源: PsNet 的性能高度依赖辅助元数据 (auxiliary metadata)的质量和丰富度。如果辅助信息本身是嘈杂的、不完整的,或者与实际用户偏好 (user preferences)关联性不强,那么信息噪声 (informative noise)的生成可能会受到负面影响。论文中通过 LightGCN 聚合预训练嵌入 (pre-trained embeddings)来获取辅助元数据,这本身就依赖于 LightGCN 的性能和预训练的质量。

  2. 理论分析的实用性: 虽然提供了理论分析 (theoretical analysis),但定理中的一些假设(如 Lipschitz 条件、近似线性 GG语义梯度 (semantic gradient)与偏好的正向对齐)在实际复杂场景中可能较难严格满足。如何量化这些假设的违反程度对模型性能的影响,以及在非理想条件下如何调整模型,仍需进一步研究。

  3. 计算成本: 尽管将 GCN 放在推理阶段 (inference stage)提升了训练效率,但 PsNet 内部的 SVD 操作对于大规模、高维数据仍可能带来显著的计算开销。SVD 的计算复杂度通常较高,虽然 dDd \ll D 可以缓解,但在超大规模推荐系统中仍需关注其效率。

  4. 可解释性: 扩散模型和对比学习本身都具有一定的“黑箱”性质。信息噪声 (informative noise)的生成过程虽然有理论解释,但在实际应用中,如何直观地理解辅助信息 (auxiliary information)如何被编码到噪声中,以及它如何影响最终的推荐结果,仍是一个挑战。

    总的来说,InfoDCL 在基于扩散的对比学习 (diffusion-based contrastive learning)领域迈出了重要一步,其提出的信息噪声 (informative noise)协同训练目标 (collaborative training objective)具有高度的创新性和实用价值。未来,针对其对辅助信息 (auxiliary information)的依赖、计算效率以及可解释性 (interpretability)等方面的深入研究,将有助于其在更广泛的推荐场景中发挥潜力。

相似论文推荐

基于向量语义检索推荐的相关论文。

暂时没有找到相似论文。