1. 论文基本信息

1.1. 标题

协同扩散模型推荐系统 (Collaborative Diffusion Model for Recommender System)

1.2. 作者

Gyuseok Lee: 浦项科技大学 (POSTECH)，韩国。
Yaochen Zhu: 弗吉尼亚大学 (University of Virginia)，美国。
Hwanjo Yu (通讯作者): 浦项科技大学 (POSTECH)，韩国。
Yao Zhou: Google LLC，美国。
Jundong Li: 弗吉尼亚大学 (University of Virginia)，美国。

1.3. 发表期刊/会议

The ACM Web Conference 2025 (WWW '25)。该会议是互联网技术与 Web 挖掘领域最顶级的国际学术会议（CCF-A 类）。

1.4. 发表年份

2025年（正式发表日期为 2025 年 5 月 8 日）。

1.5. 摘要

基于扩散模型的推荐系统 (Diffusion-based recommender systems, DR) 因其卓越的生成能力和去噪性能而备受关注。然而，现有的 DR 面临两个核心局限性：(i) 在通过注入噪声增强生成能力与保留个性化信息损失之间存在权衡；(ii) 对丰富的物品端信息利用不足。为了解决这些挑战，本文提出了 CDiff4Rec 模型。该模型通过从物品特征中生成“伪用户”，并利用基于行为相似性识别的真实用户和伪用户的协作信号，从而有效地重建细粒度的用户偏好。实验结果证明，CDiff4Rec 在三个公开数据集上均优于现有基准模型。

1.6. 原文链接

PDF 链接 (ACM Digital Library)。该论文属于正式发表的会议论文。

2. 整体概括

2.1. 研究背景与动机

推荐系统旨在从海量信息中为用户提供个性化建议。协同过滤 (Collaborative Filtering, CF) 是其核心策略。近年来，深度生成模型（如 GAN 和 VAE）增强了 CF 的能力，但 GAN 训练不稳定，VAE 容易出现 后验坍缩 (Posterior Collapse)（即模型忽略了潜在变量，导致生成结果缺乏多样性）。

扩散模型 (Diffusion Models) 作为一种新兴的生成范式，通过前向加噪和反向去噪过程，展现了极高的生成质量。然而，在推荐场景中应用扩散模型存在以下痛点：

个性化信息的丢失: 扩散模型依赖加噪来提高泛化能力，但噪声过多会抹除用户原始的个性化偏好，导致难以重建准确的推荐列表；噪声过少则限制了模型的生成潜力。
物品侧信息的忽视: 现有的基于扩散的推荐系统大多只关注用户-物品的交互矩阵，忽略了如物品评论、文本描述等丰富的物品侧特征。

2.2. 核心贡献/主要发现

提出 CDiff4Rec 模型: 这是第一个通过引入 伪用户 (Pseudo-users) 概念将物品侧信息（评论词）无缝集成到扩散推荐系统中的工作。
个性化邻居聚合: 引入了基于行为相似性的真实邻居和伪邻居信号，利用这些“协作信号”来补偿扩散过程中丢失的个性化偏好信息。
性能与效率的平衡: 实验表明，CDiff4Rec 不仅在推荐准确度（Recall 和 NDCG）上显著优于强基准模型（如 DiffRec、MultiVAE），而且在计算开销上保持了良好的竞争力。

3. 预备知识与相关工作

3.1. 基础概念

协同过滤 (Collaborative Filtering, CF): 一种基于“物以类聚，人以群分”思想的推荐算法。如果用户 A 和用户 B 都喜欢过相似的物品，那么系统会将 B 喜欢过的其他物品推荐给 A。
扩散模型 (Diffusion Models): 一种概率生成模型。其核心思想是：
- 前向过程 (Forward Process): 逐渐向原始数据添加高斯噪声，直到数据变成纯噪声。
- 反向过程 (Backward Process): 学习一个神经网络来逐步去除噪声，从纯噪声中还原出原始数据。
TF-IDF: 一种用于信息检索的加权技术。它衡量一个词对于一个文档集中的某篇文档的重要程度。在本文中，用于衡量评论词（特征）对物品的重要性。

3.2. 前人工作

DiffRec (Wang et al. 2023): 这是第一个将扩散模型应用于协同过滤的工作。它通过对用户交互历史进行加噪和去噪来生成预测。但它只利用了交互矩阵，面临上文提到的个性化信息流失问题。
MultiVAE: 基于变分自编码器的经典推荐模型，通过潜在空间建模用户偏好。

3.3. 差异化分析

相比于 DiffRec，CDiff4Rec 的核心区别在于它不只是对单个用户的交互历史进行去噪，而是引入了“邻居”的概念。通过观察与当前用户相似的其他用户（真实邻居）以及与该用户兴趣匹配的物品特征（伪邻居），为去噪过程提供“导航”，从而在不减少噪声强度的前提下，防止个性化特征的丢失。

4. 方法论

CDiff4Rec 的整体架构如下图（原文 Figure 1）所示，它将物品评论转化为伪用户，并通过聚合真实与伪邻居的协作信号来辅助扩散过程。

Figure 1: The overview of the proposed Collaborative Diffusion Model for Recommender System (CDiff4Rec). 该图像是示意图，展示了提议的协作扩散模型（CDiff4Rec）在推荐系统中的工作原理。图中包含了推荐者、预测信息以及来自真实用户和伪用户的偏好信号的处理过程。公式 $r_u = x_0$ 表示用户的初始评分。

4.1. 伪用户生成 (Pseudo-User Generation)

为了利用物品侧信息，作者提出了一个创新的视角：将每一个物品特征（例如评论中的单词 $f$ ）看作一个 伪用户 (Pseudo-user, pu)。

构建交互向量: 对于一个特定的词 $f$ ，它在不同物品中的出现频率构成了一个原始特征向量 $\mathbf{m}_f \in \mathbb{R}^{|\mathcal{I}|}$ ，其中 $|\mathcal{I}|$ 是物品总数。
重要性加权: 使用 TF-IDF 计算词 $f$ 对每个物品 $i$ 的重要性，然后通过 最大最小归一化 (Min-Max Normalization) 将值缩放到 [0, 1] 区间。
结果: 得到伪用户的归一化交互向量 $\mathbf{m}_{pu} \in [0, 1]^{|\mathcal{I}|}$ 。这与真实用户的二元交互向量 $\mathbf{r}_{ru} \in \{0, 1\}^{|\mathcal{I}|}$ 结构完全一致，使得模型可以统一处理两者。

4.2. 个性化 Top-K 邻居识别

对于每一个查询用户 (Query User) $u$ ，模型会识别两类邻居：

真实邻居 ( $\mathcal{U}_{ru}^u$ ): 与用户 $u$ 行为最相似的其他真实用户。
伪邻居 ( $\mathcal{U}_{pu}^u$ ): 其代表的特征（词）与用户 $u$ 的交互历史最吻合。

识别过程使用 余弦距离 (Cosine Distance, $\phi$ ) 进行衡量： $\begin{array} { r l } & { \mathcal{U} _ { r u } ^ { u } = \big \{ r u | \underset { r u \in \mathcal { U } } { \arg \mathrm { s o r t } } \phi ( \mathbf { r } _ { u } , \mathbf { r } _ { r u } ) [ : K ] \big \} , } \\ & { \mathcal { U } _ { p u } ^ { u } = \big \{ p u | \underset { p u \in \mathcal { F } } { \arg \mathrm { s o r t } } \phi ( \mathbf { r } _ { u } , \mathbf { m } _ { p u } ) [ : K ] \big \} , } \end{array}$ 其中 $K$ 是预定义的邻居数量。

4.3. 协作信号聚合

这是模型的核心步骤。在扩散的反向去噪过程中，模型不仅预测用户自身的重建结果 $\hat{\mathbf{r}}_u$ ，还融合了来自真实邻居和伪邻居的 偏好信息 (Preference Information, PI)。

最终得到的精细化用户偏好表示 $\hat{\mathbf{r}}_u^\prime$ 计算公式如下： $\hat { \bf r } _ { u } ^ { \prime } = \alpha \hat { \bf r } _ { u } + \beta \sum _ { \substack { r u _ { i } \in \mathcal { U } _ { r u } ^ { u } } } a _ { r u _ { i } } \hat { \bf r } _ { r u _ { i } } + \gamma \sum _ { \substack { p u _ { j } \in \mathcal { U } _ { p u } ^ { u } } } a _ { j p u _ { j } } \hat { \bf m } _ { p u _ { j } }$

变量解释:

$\alpha, \beta, \gamma$ : 权重超参数，满足 $\alpha + \beta + \gamma = 1$ ，分别控制用户自身、真实邻居、伪邻居的贡献。
$\hat{\mathbf{r}}_u$ : 模型对当前用户原始交互的初步重建。
$\hat{\mathbf{r}}_{ru_i}$ 和 $\hat{\mathbf{m}}_{pu_j}$ : 分别是邻居用户和伪用户的交互预测。
$a_{ru_i}$ 和 $a_{jpu_j}$ : 注意力分数 (Attention Scores)，用于衡量不同邻居的重要性。

论文提出了三种计算注意力分数 $a_{ru_i}$ 的方法：

平均池化 (Average Pooling): $a_{ru_i} = \frac{1}{K}$ ，即所有邻居地位平等。
行为相似性 (Behavior Similarity): 基于预计算的余弦距离进行 Softmax 归一化。
参数化建模 (Parametric Modeling): 使用可学习的权重矩阵 $\mathbf{W}_q, \mathbf{W}_k$ 通过注意力机制动态计算： $a _ { r u _ { i } } = \frac { \exp ( ( \mathbf { W } _ { q } ^ { T } \mathbf { \hat { r } } _ { u } ) ^ { T } ( \mathbf { W } _ { k } ^ { T } \mathbf { \hat { r } } _ { u _ { i } } ) ) } { \sum _ { r u _ { i } \in \mathcal { U } _ { r u } ^ { u } } \exp ( ( \mathbf { W } _ { q } ^ { T } \mathbf { \hat { r } } _ { u } ) ^ { T } ( \mathbf { W } _ { k } ^ { T } \mathbf { \hat { r } } _ { r u _ { i } } ) ) }$

4.4. 目标函数

模型通过最小化重建后的精细化偏好 $\hat{\mathbf{r}}_u^\prime$ 与原始交互 $\mathbf{r}_u$ 之间的平方误差来训练： $\mathcal { L } _ { t } = \mathbb { E } _ { q ( \mathbf { x } _ { t } | \mathbf { x } _ { 0 } ) } \left[ C \left\| \hat { \mathbf { r } } _ { u } ^ { \prime } - \mathbf { r } _ { u } \right\| _ { 2 } ^ { 2 } \right]$ 其中 $C$ 是与步数 $t$ 相关的系数，用于平衡不同去噪阶段的损失。

5. 实验设置

5.1. 数据集

实验使用了三个真实世界的公开数据集：

Yelp: 商业评论数据。
AM-Game: 亚马逊游戏类商品交互数据。
Citeulike-t: 论文引用/收藏数据。

以下是原文 Table 1 的统计信息：

数据集用户数物品数交互数稀疏度 (%)

Yelp 26,695 20,220 942,328 99.83

AM-Game 2,343 1,700 39,263 99.01

Citeulike-t 7,947 25,975 132,275 99.94

数据集	用户数	物品数	交互数	稀疏度 (%)
Yelp	26,695	20,220	942,328	99.83
AM-Game	2,343	1,700	39,263	99.01
Citeulike-t	7,947	25,975	132,275	99.94

5.2. 评估指标

论文使用了推荐系统中最常用的两个指标：

召回率 (Recall@20): 衡量模型在前 20 个推荐位中找回用户真正感兴趣物品的能力。 $\mathrm{Recall@K} = \frac{|\mathrm{Recommended@K} \cap \mathrm{Relevant}|}{|\mathrm{Relevant}|}$
归一化折损累计增益 (NDCG@20): 不仅关注是否推荐正确，还关注正确物品的排名位置，排名越靠前分数越高。

5.3. 对比基线

传统 CF: BPRMF (矩阵分解), LightGCN (图神经网络)。
生成模型: MultiVAE, DiffRec (基础扩散模型)。
引入辅助信息: Ease (邻居信息), ConVAE (物品内容特征)。

6. 实验结果与分析

6.1. 核心结果分析

以下是原文 Table 2 的性能对比：

<!-- 篇幅限制，此处省略 AM-Game 和 Citeulike-t 的部分行，逻辑一致 -->

数据集	模型	R@20	N@20
Yelp	LightGCN	0.1047	0.0553
	BPRMF	0.0918	0.0485
	Ease	0.1099	0.0601
	MultiVAE	0.1056	0.0548
	ConVAE	0.1082	0.0564
	DiffRec	0.1045	0.0563
	Ours (+仅真实邻居)	0.1090	0.0590
	Ours (+仅伪邻居)	0.1074	0.0584
	Ours (完整模型)	0.1145***	0.0622*

主要发现:

超越基准: CDiff4Rec 在所有数据集上均优于 DiffRec，证明了邻居协作信号对去噪过程的巨大帮助。
消融研究: 同时使用真实邻居和伪邻居的效果最好。单独使用其中一种也能提升性能，说明物品内容（伪用户）和协同过滤（真实用户）具有互补性。

6.2. 效率分析

作者对比了模型运行的 墙上时间 (Wall time)。如 Table 3 所示，CDiff4Rec 在准确率大幅提升的情况下（如 Yelp 数据集 Recall@10 提升 12.3%），计算时间仅增加了约 10.5%，甚至在 Citeulike-t 上由于收敛更快，时间反而有所减少。这证明了该方法具有很高的实用价值。

7. 总结与思考

7.1. 结论总结

CDiff4Rec 成功地通过“伪用户”这一桥梁，将物品侧的文本评论信息引入了扩散推荐系统。通过在去噪过程中动态聚合邻居的协作信号，它克服了传统扩散模型在高度稀疏数据下个性化信息容易丢失的问题，实现了更精准的偏好重建。

7.2. 局限性与未来工作

特征选择: 目前仅使用了评论词。未来的工作可以扩展到物品图像特征或更复杂的多模态信息。
邻居搜索: 预计算 Top-K 邻居虽然高效，但在极大规模在线系统中，如何动态更新邻居仍是一个挑战。

7.3. 个人启发

该论文最惊艳的地方在于 “伪用户 (Pseudo-user)” 的设定。通常研究者会考虑如何设计复杂的特征融合层来加入物品信息，而本文作者选择改变数据的“视角”，将物品特征直接映射为用户行为。这种 “结构统一化” 的思路极大地降低了模型的复杂度，同时也让扩散模型强大的去噪能力可以直接作用于物品特征，非常值得在其他多源信息融合任务中借鉴。

Collaborative Diffusion Model for Recommender System

TL;DR 精炼摘要

摘要

思维导图

论文精读

中文精读约 9 分钟读完 · 5,674 字