论文状态：已完成

Towards A Tri-View Diffusion Framework for Recommendation

发表：2025/11/25

原文链接 PDF 下载

价格：0.100000

已有 3 人读过

本分析由 AI 生成，可能不完全准确，请以原文为准。

TL;DR 精炼摘要

本文提出了一种面向推荐的三视图扩散框架，结合热力学视角，揭示现有扩散模型推荐系统通过最大化能量而运行。新的框架通过最大化亥姆霍兹自由能整合了优化策略，同时引入去噪器和接受-拒绝Gumbel采样过程，显著提升了推荐系统的准确性和效率。

摘要

Diffusion models (DMs) have recently gained significant interest for their exceptional potential in recommendation tasks. This stems primarily from their prominent capability in distilling, modeling, and generating comprehensive user preferences. However, previous work fails to examine DMs in recommendation tasks through a rigorous lens. In this paper, we first experimentally investigate the completeness of recommender models from a thermodynamic view. We reveal that existing DM-based recommender models operate by maximizing the energy, while classic recommender models operate by reducing the entropy. Based on this finding, we propose a minimalistic diffusion framework that incorporates both factors via the maximization of Helmholtz free energy. Meanwhile, to foster the optimization, our reverse process is armed with a well-designed denoiser to maintain the inherent anisotropy, which measures the user-item cross-correlation in the context of bipartite graphs. Finally, we adopt an Acceptance-Rejection Gumbel Sampling Process (AR-GSP) to prioritize the far-outnumbered unobserved interactions for model robustness. AR-GSP integrates an acceptance-rejection sampling to ensure high-quality hard negative samples for general recommendation tasks, and a timestep-dependent Gumbel Softmax to handle an adaptive sampling strategy for diffusion models. Theoretical analyses and extensive experiments demonstrate that our proposed framework has distinct superiority over baselines in terms of accuracy and efficiency.

思维导图

论文精读

中文精读约 48 分钟读完 · 33,106 字

1. 论文基本信息

1.1. 标题

Towards A Tri-View Diffusion Framework for Recommendation (面向推荐的三视图扩散框架)

1.2. 作者

Ximing Chen, Pui Ieng Lei, Yijun Sheng, Yanyan Liu, Zhiguo Gong

1.3. 发表期刊/会议

ACM SIGKDD Conference on Knowledge Discovery and Data Mining (KDD '26)。 KDD 是数据挖掘（Knowledge Discovery and Data Mining）领域的顶级国际会议，享有极高的学术声誉和影响力，被认为是该领域最重要的会议之一。

1.4. 发表年份

2025年

1.5. 摘要

扩散模型 (Diffusion Models, DMs) 因其在推荐任务中蒸馏、建模和生成全面用户偏好的卓越潜力而备受关注。然而，现有工作未能通过严谨的视角审视推荐任务中的扩散模型。本文首先从热力学视角实验性地调查了推荐模型的完备性。我们揭示了现有基于扩散模型的推荐系统通过最大化能量运行，而经典推荐模型则通过减少熵运行。基于此发现，我们提出了一个极简的扩散框架，通过最大化亥姆霍兹自由能 (Helmholtz Free Energy) 来整合这两个因素。同时，为了促进优化，我们的逆向过程配备了一个精心设计的去噪器 (denoiser)，以保持固有的各向异性 (anisotropy)，这在二部图 (bipartite graphs) 的背景下衡量用户-物品的交叉相关性。最后，我们采用接受-拒绝 Gumbel 采样过程 (Acceptance-Rejection Gumbel Sampling Process, AR-GSP) 来优先处理数量远超的正样本的未观测交互，以增强模型鲁棒性。AR-GSP 集成了接受-拒绝采样 (acceptance-rejection sampling) 以确保通用推荐任务的高质量难负样本 (hard negative samples)，并使用时间步依赖的 Gumbel Softmax 来处理扩散模型的自适应采样策略。理论分析和广泛实验表明，我们提出的框架在准确性和效率方面明显优于基线。

1.6. 原文链接

预印本链接: https://arxiv.org/abs/2511.20122v1
PDF 链接: https://arxiv.org/pdf/2511.20122v1.pdf
发布状态: 预印本 (Preprint)，计划于 KDD '26 发表。

2. 整体概括

2.1. 研究背景与动机

推荐系统 (Recommendation systems) 在信息过载的时代扮演着至关重要的角色，但仍面临数据稀疏性 (data sparsity) 和多样性 (diversity) 等严峻挑战。近年来，扩散模型 (Diffusion Models, DMs) 作为强大的生成模型，在图像生成等领域取得了巨大成功，并开始被应用于推荐任务，展现出在去噪、降维和预测生成方面的潜力。然而，现有基于扩散模型的推荐方法往往直接沿用其他领域的优化目标（例如 Mean Squared Error (MSE)），而未从推荐任务的本质需求出发进行严格审视。

具体来说，作者通过初步实验发现：

现有基于扩散模型的推荐系统 (DM-based recommender models) 在优化过程中倾向于最大化能量 (maximizing the energy)，这有助于通过重建来缓解数据稀疏性。
经典推荐模型 (classic recommender models)，如 Bayesian Personalized Ranking (BPR)，则倾向于最小化熵 (reducing the entropy)，通过区分正负样本来增强个性化排名。这种优化目标上的差异导致了现有扩散模型在处理隐式反馈 (implicit feedback) 的排名任务时表现不佳。同时，扩散模型在捕获用户-物品二部图 (user-item bipartite graphs) 中固有的拓扑信息 (topological information) 和各向异性 (anisotropy) 方面存在局限性，并且在负采样 (negative sampling) 策略上未能很好地适应扩散过程的特点。这些问题阻碍了扩散模型在推荐任务中发挥其全部潜力。

本文的动机正是为了弥补这些空白，提出一个更完备、更严谨的扩散推荐框架，以有效结合不同类型模型的优势，并解决扩散模型在推荐领域面临的具体挑战。

2.2. 核心贡献/主要发现

本文提出了一个新颖的三视图扩散推荐框架 (Tri-View Diffusion Framework for Recommendation)，命名为 TV-Diff，其核心贡献和主要发现如下：

提出亥姆霍兹自由能最大化 (Helmholtz Free Energy Maximization) 统一优化目标： 首次从热力学视角对推荐模型进行系统性分析，揭示了扩散模型和经典推荐模型分别侧重于最大化能量和最小化熵的机制。在此基础上，创新性地引入亥姆霍兹自由能 (Helmholtz free energy) 作为统一的优化目标，将能量最大化和熵最小化整合进一个框架，旨在实现更全面和鲁棒的推荐性能。
设计各向异性去噪器 (Anisotropic Denoiser) 维护拓扑信息： 针对现有扩散模型在处理二部图各向异性上的不足，提出了一个定制的去噪器。该去噪器通过解耦用户和物品维度的编码器-解码器范式，并利用显式的拓扑信息（如对称归一化二部矩阵）计算用户-物品交叉相关性来重建交互，有效维护了推荐系统中固有的各向异性信号。
开发接受-拒绝 Gumbel 采样过程 (AR-GSP) 优化负采样： 针对推荐任务中未观测交互数量庞大且扩散模型中得分不稳定的问题，提出了 AR-GSP。该过程结合了接受-拒绝采样 (acceptance-rejection sampling) 来筛选高质量的难负样本 (hard negative samples)，并引入了时间步依赖的 Gumbel Softmax 来适应扩散过程中不同时间步的噪声水平，从而提供更具鲁棒性和适应性的负采样策略。
提供理论分析和实验验证： 论文不仅通过理论分析深入探讨了 BPR 与熵的等价性、拓扑信息对熵减少的影响，以及负采样方法的边界，还通过在五个真实世界数据集上的广泛实验，证明了 TV-Diff 在准确性和效率上显著优于各种基线模型（包括基于矩阵分解、自编码器、图神经网络、负采样和现有扩散模型的推荐系统）。

3. 预备知识与相关工作

3.1. 推荐任务 (Recommendation Task)

推荐系统旨在根据用户的历史行为和偏好，预测用户可能感兴趣的物品，并将其推荐给用户。本文关注的是隐式反馈 (implicit feedback) 场景，即用户对物品的交互行为（例如点击、购买、收藏）被视为正样本，而未交互行为则通常被视为负样本。给定用户-物品交互数据 $\mathcal{D} = \{u, i, r_{u,i} | u \in \mathcal{U}, i \in \mathcal{I}\}$ ：

$\mathcal{U} = \{u_1, ..., u_m\}$ 表示用户集合，其中 $m = |\mathcal{U}|$ 是用户总数。
$\mathcal{I} = \{i_1, ..., i_n\}$ 表示物品集合，其中 $n = |\mathcal{I}|$ 是物品总数。
$r_{u,i} = \{0, 1\}$ 是二值指示符，表示用户 $u$ 是否与物品 $i$ 发生了交互（1表示交互，0表示未交互）。
N(u) 表示用户 $u$ 交互过的物品集合。
在矩阵表示中，这种交互数据可以形成一个二部图 (bipartite graph)，用矩阵 $\mathbf{R} \in \{0, 1\}^{m \times n}$ 表示。本文主要关注基于用户的 Top-K 推荐 (user-based Top-K recommendations)，即为每个用户预测 K 个最可能感兴趣的物品。

3.2. 扩散模型 (Diffusion Model) 基础

扩散模型 (Diffusion Models, DMs) 是一类强大的生成模型，通过模拟数据逐渐被噪声破坏（前向扩散过程）和从噪声中恢复数据（逆向去噪过程）来学习复杂的数据分布。

3.2.1. 前向扩散过程 (Forward Diffusion Process)

对于给定的数据点 $\mathbf{x}_0 \in \mathbb{R}^n$ （在推荐中，这可以代表一个用户的完整交互记录），前向扩散过程在 $T$ 个时间步内逐步向数据中添加高斯噪声。这可以被视为一个马尔可夫链 (Markov chain)，其中每个时间步 $t$ 的数据 $\mathbf{x}_t$ 仅依赖于前一个时间步 $\mathbf{x}_{t-1}$ 。具体来说，前向过程定义为： $q(\mathbf{x}_t | \mathbf{x}_{t-1}) = \mathcal{N}(\mathbf{x}_t; \sqrt{1 - \beta_t} \mathbf{x}_{t-1}, \beta_t \mathbf{I})$ 其中 $\beta_t \in (0, 1)$ 是在时间步 $t$ 添加噪声的量。随着 $t$ 增加，噪声累积，最终 $\mathbf{x}_T$ 将近似于一个纯高斯噪声分布。一个关键的特性是，给定 $\mathbf{x}_0$ ，任何时间步 $t$ 的 $\mathbf{x}_t$ 都可以直接计算得到： $q(\mathbf{x}_t | \mathbf{x}_0) = \mathcal{N}(\mathbf{x}_t; \sqrt{\bar{\alpha}_t} \mathbf{x}_0, (1 - \bar{\alpha}_t) \mathbf{I})$ 其中 $\alpha_t = 1 - \beta_t$ 且 $\bar{\alpha}_t = \prod_{s=1}^t \alpha_s$ 。这正是原文公式 (1) 所表达的： $\mathbf{q}(\mathbf{x}_t | \mathbf{x}_0) = \mathbf{N}\left(\mathbf{x}_t; \prod_{t'=1}^t \sqrt{(1 - \beta_{t'})} \mathbf{x}_0, (1 - \prod_{t'=1}^t (1 - \beta_{t'})) \mathbf{I}\right)$ 符号解释：

$\mathbf{x}_0$ : 原始数据点（例如用户的完整交互向量）。
$\mathbf{x}_t$ : 经过 $t$ 步加噪后的数据点。
$\mathcal{N}(\cdot; \mu, \Sigma)$ : 均值为 $\mu$ ，协方差矩阵为 $\Sigma$ 的高斯分布。
$\beta_t$ : 在时间步 $t$ 添加的噪声幅度。
$\mathbf{I}$ : 单位矩阵。
$\prod_{t'=1}^t \sqrt{(1 - \beta_{t'})}$ : 等价于 $\sqrt{\bar{\alpha}_t}$ ，表示从 $\mathbf{x}_0$ 到 $\mathbf{x}_t$ 原始信号保留的比例。
$(1 - \prod_{t'=1}^t (1 - \beta_{t'}))$ : 等价于 $(1 - \bar{\alpha}_t)$ ，表示从 $\mathbf{x}_0$ 到 $\mathbf{x}_t$ 累积的噪声方差。

3.2.2. 逆向去噪过程 (Reverse Denoising Process)

逆向过程的目标是从完全噪声 $\mathbf{x}_T$ 中逐步恢复原始数据 $\mathbf{x}_0$ 。这通过学习条件概率 $p_{\theta}(\mathbf{x}_{t-1} | \mathbf{x}_t)$ 来实现，该概率通常也是一个高斯分布： $p_{\theta}(\mathbf{x}_{t-1} | \mathbf{x}_t) = \mathcal{N}(\mathbf{x}_{t-1}; \mu_{\theta}(\mathbf{x}_t, t), \Sigma_{\theta}(\mathbf{x}_t, t))$ 符号解释：

$p_{\theta}(\mathbf{x}_{t-1} | \mathbf{x}_t)$ : 模型学习的从 $\mathbf{x}_t$ 恢复 $\mathbf{x}_{t-1}$ 的条件概率分布，由参数 $\theta$ 决定。
$\mu_{\theta}(\mathbf{x}_t, t)$ : 模型在给定 $\mathbf{x}_t$ 和时间步 $t$ 时预测的均值。
$\Sigma_{\theta}(\mathbf{x}_t, t)$ : 模型在给定 $\mathbf{x}_t$ 和时间步 $t$ 时预测的协方差。通常， $\mu_{\theta}$ 通过一个神经网络（去噪器）来预测，而 $\Sigma_{\theta}$ 可以是学习的，也可以是预设的。

3.2.3. 优化目标 (Optimization Objective)

扩散模型通过最大化数据对数似然的变分下界 (Variational Lower Bound, VLB) 进行训练。VLB 可以分解为多个项，其中最主要的是一系列 KL 散度 (KL divergence) 项和重建损失项。原文公式 (3) 展示了 VLB 的简化形式： $\log p(\mathbf{x}_0) \geq \mathbb{E}_q \left[ \log p(\mathbf{x}_0 | \mathbf{x}_1) - KL(q(\mathbf{x}_T | \mathbf{x}_0) || p(\mathbf{x}_T)) - \sum_{t=2}^T KL(q(\mathbf{x}_{t-1} | \mathbf{x}_t, \mathbf{x}_0) || p(\mathbf{x}_{t-1} | \mathbf{x}_t)) \right]$ 符号解释：

$\log p(\mathbf{x}_0)$ : 原始数据分布的对数似然。
$\mathbb{E}_q[\cdot]$ : 在前向扩散过程 $q$ 下的期望。
$p(\mathbf{x}_0 | \mathbf{x}_1)$ : 从 $\mathbf{x}_1$ 恢复 $\mathbf{x}_0$ 的概率。
$KL(A || B)$ : Kullback-Leibler (KL) 散度，衡量两个概率分布 $A$ 和 $B$ 之间的差异。
$q(\mathbf{x}_T | \mathbf{x}_0)$ : 从 $\mathbf{x}_0$ 经过 $T$ 步扩散得到 $\mathbf{x}_T$ 的分布。
$p(\mathbf{x}_T)$ : 逆向过程的先验分布（通常是标准高斯分布）。
$q(\mathbf{x}_{t-1} | \mathbf{x}_t, \mathbf{x}_0)$ : 前向过程的后验分布，可以精确计算。
$p(\mathbf{x}_{t-1} | \mathbf{x}_t)$ : 模型学习的逆向过程分布。

在实际实现中，KL 散度项通常被简化为预测噪声的 Mean Squared Error (MSE) 损失，即让去噪器学习预测在每个时间步中添加的噪声，然后从 $\mathbf{x}_t$ 中减去预测的噪声来得到 $\mathbf{x}_{t-1}$ 。

3.3. 热力学概念：能量、熵和亥姆霍兹自由能 (Helmholtz Free Energy)

本文从热力学 (thermodynamics) 视角分析推荐模型，并引入了三个核心概念：

3.3.1. 能量 (Energy)

在物理热力学中，能量是系统内部的总能量。在本文的推荐系统上下文中，能量 (Energy) 被定义为衡量模型重建（reconstructed）交互数量或质量的指标。它反映了模型能够多大程度上恢复或生成与真实交互相似的模式。具体来说，本文采用以下方式计算能量 $U(\hat{R}')$ ： $U(\hat{R}') = \sum_u \sum_i \mathbb{I}(\hat{r}'_{u,i} \geq r_{u,i}) + \mathbb{I}(\hat{r}'_{u,i} < r_{u,i}) \frac{\hat{r}'_{u,i}}{\hat{r}_{u,i}}$ 符号解释：

$U(\hat{R}')$ : 重建交互矩阵 $\hat{R}'$ 的能量。
$\hat{r}'_{u,i}$ : 用户 $u$ 对物品 $i$ 的重建交互概率。
$r_{u,i}$ : 用户 $u$ 对物品 $i$ 的原始交互概率。
$\mathbb{I}(\cdot)$ : 指示函数，如果条件为真则为 1，否则为 0。这个定义包含了显式能量 (explicit energy)（重建概率高于或等于原始概率的部分）和隐式能量 (implicit energy)（重建概率低于原始概率但按比例加权的部分），旨在全面衡量重建的完备性。

3.3.2. 熵 (Entropy)

在物理热力学中，熵是衡量系统无序或随机程度的量。在信息论 (information theory) 中，熵 (Entropy) 衡量随机变量的不确定性或信息量。在本文的推荐系统上下文中，熵衡量模型重建物品分布的不确定性。低的熵值表示模型对物品的偏好预测更加确定和集中，而高的熵值表示预测更分散和不确定。本文使用香农熵 (Shannon Entropy) 来定义： $S(\hat{R}') = \sum_u - \hat{r}'_u \log \hat{r}_u'^{\top}$ 符号解释：

$S(\hat{R}')$ : 重建交互矩阵 $\hat{R}'$ 的熵。
$\hat{r}'_u$ : 用户 $u$ 的重建交互概率向量（通常经过 softmax 归一化）。

3.3.3. 亥姆霍兹自由能 (Helmholtz Free Energy)

亥姆霍兹自由能 (Helmholtz Free Energy) 是物理热力学中的一个概念，它表示在恒定温度和体积下，系统可以用于做有用功的最大能量。在机器学习中，它常被用于统一能量和熵这两种相互制约的因素。Hinton 和 Zemel (1994) 首次将其引入机器学习，并指出自编码器 (autoencoders) 的优化目标在统计学上等价于最小化亥姆霍兹自由能。

在本文中，亥姆霍兹自由能被用来整合能量最大化和熵最小化这两个目标，其定义为： $F = U - tS$ 其中 $U$ 是能量， $S$ 是熵， $t$ 是温度。最大化自由能意味着同时要最大化能量和最小化熵（当 $t>0$ 时）。通过最大化亥姆霍兹自由能，模型可以在重建的完整性（能量）和预测的确定性（熵）之间找到一个平衡点，从而实现更鲁棒和泛化的推荐。

3.4. 图神经网络 (Graph Neural Networks) 与协同过滤 (Collaborative Filtering)

3.4.1. 图神经网络 (Graph Neural Networks, GNNs)

图神经网络 (GNNs) 是一类专门处理图结构数据的深度学习模型。它们通过消息传递 (message-passing) 机制，聚合节点邻居的信息来更新节点的表示 (representation)。在推荐系统中，用户-物品交互可以被自然地建模为一个二部图，GNNs 可以有效地捕获用户和物品之间的复杂关系。例如，LightGCN 是一种简化的 GNN，它移除了特征转换和非线性激活，只保留了邻居聚合操作，并被证明在推荐任务中表现出色。

3.4.2. 协同过滤 (Collaborative Filtering, CF)

协同过滤 (CF) 是推荐系统中最广泛使用的技术之一，其基本思想是“物以类聚，人以群分”。它通过分析用户的历史行为数据，发现用户之间或物品之间的相似性，然后进行推荐。

贝叶斯个性化排名 (Bayesian Personalized Ranking, BPR) 是一种经典的基于优化的协同过滤算法，它通过最大化正样本对负样本的排名差距来学习用户和物品的隐式表示。其损失函数通常是基于三元组 $(u, i^+, i^-)$ （用户 $u$ ，交互过的物品 $i^+$ ，未交互过的物品 $i^-$ ）的成对排名损失。

3.5. 负采样 (Negative Sampling)

在隐式反馈推荐中，用户未交互的物品数量远多于已交互的物品。为了训练模型，需要从大量未交互物品中选择一部分作为负样本。这个过程称为负采样 (Negative Sampling)。

随机负采样 (Random Negative Sampling, RNS)：最简单的方法是随机选择未交互物品作为负样本。然而，这些负样本可能信息量不足，无法有效区分正负样本。
难负采样 (Hard Negative Sampling, Hard NS)：旨在选择那些模型容易误判为正样本的负样本，即“难”的负样本。这些样本通常位于决策边界附近，有助于模型学习更精确的决策边界，加速收敛并提高性能。但是，在扩散模型中，由于前向过程的噪声扰动，模型预测的得分可能不稳定，导致难负样本的识别变得困难。

3.6. 相关工作概述与差异化分析

本文在相关工作部分回顾了以下三类研究：

3.6.1. 基于扩散模型的推荐系统 (Diffusion-based Recommender Models)

扩散模型最初应用于计算机视觉，最近才被引入推荐领域。早期的扩散推荐模型（如 CODIGEM、DiffRec）主要关注其去噪和生成能力。然而，这些模型往往忽略了推荐系统中用户-物品二部图固有的拓扑信息，而这在计算机视觉中通常不相关。为了解决这一问题，一些后续工作（如 BSPM、GiffCF、SDiff）尝试将消息传递机制整合到扩散过程中，或者采用两阶段训练策略（如 HDRM），先预训练图结构，再进行扩散模型的微调。然而，这些方法通常会带来显著的计算成本。 本文的差异化： TV-Diff 旨在通过精心设计的各向异性去噪器 (Anisotropic Denoiser)，直接在扩散模型的逆向过程中显式地整合并维护拓扑信息，而不是仅仅模拟消息传递或采用高成本的两阶段训练。

3.6.2. 图神经网络推荐模型 (Graph-based Recommender Models)

随着图神经网络 (GNNs) 的发展，基于图的推荐模型（如 LightGCN、ChebyCF、LinkProp、SGCL）日益流行。这些方法通常利用消息传递机制来捕获用户和物品之间的协同信号。主要类型包括：

图信号处理 (Graph Signal Processing)：利用图傅里叶变换和低通滤波器提取图结构中的低频协同信号。
超图方法 (Hypergraph Methods)：构建超图来探索更高阶的关系。
负采样方法 (Negative Sampling Methods)：利用图结构识别信息丰富的负样本。
对比学习模型 (Contrastive Learning Models)：通过增强图视图之间的表示对齐和一致性来缓解数据稀疏性。 本文的差异化： 虽然图神经网络在捕获拓扑信息方面很强，但它们通常依赖多层消息传递，这可能导致过平滑 (over-smoothing) 和计算开销。TV-Diff 的各向异性去噪器旨在更有效地利用拓扑信息，尤其是在单层消息传递中，以避免这些问题，并将其与扩散过程结合。

3.6.3. 难负采样 (Hard Negative Sampling)

负采样是推荐系统中的关键组成部分。传统的随机负采样 (Random Negative Sampling, RNS) 效率低下。难负采样 (Hard NS) 通过选择更具挑战性的负样本来提高训练效率和模型性能。现有理论分析表明，难负样本分布应与正样本分布呈子线性相关 (sub-linear correlation)。然而，将这一原则应用于 BPR 等损失函数时可能导致问题，比如将成对损失退化为点式损失，损害模型性能。 本文的差异化： TV-Diff 引入的 接受-拒绝 Gumbel 采样过程 (AR-GSP) 专门针对扩散模型的特点设计。它首先通过接受-拒绝采样筛选出高质量的难负样本，然后在扩散模型的上下文中，利用时间步依赖的 Gumbel Softmax 来适应不同噪声水平下的负样本选择，避免了传统难负采样在扩散模型中因分数不稳定而失效的问题，并确保了负样本与正样本的正交性 (orthogonality) 而非子线性相关性，以保持信息丰富的语义。

4. 方法论

本文提出的 TV-Diff 框架，旨在通过整合热力学、拓扑学和难负样本三个视角，解决现有扩散模型在推荐任务中的局限性。以下将详细阐述其方法论。

4.1. TV-Diff 框架总览

TV-Diff 框架包含三个相互作用的组件：

亥姆霍兹自由能最大化 (Helmholtz Free Energy Maximization)：作为框架的基础，它整合了能量和熵两类目标，从热力学视角优化模型。
各向异性去噪器 (Anisotropic Denoiser)：用于逆向扩散过程，旨在通过明确考虑用户-物品二部图的拓扑信息和各向异性来维持信号，并重建用户-物品交叉相关性。
接受-拒绝 Gumbel 采样过程 (Acceptance-Rejection Gumbel Sampling Process, AR-GSP)：为模型的鲁棒性提供高质量的难负样本，特别是针对扩散模型中分数不稳定的问题。

4.2. 热力学视角：亥姆霍兹自由能最大化 (Helmholtz Free Energy Maximization)

4.2.1. 模型的能量与熵分析

为了深入理解现有推荐模型，本文对三类代表性模型（DiffRec 代表扩散模型，BPR 和 LightGCN 代表经典模型）进行了初步实验分析。作者通过可视化模型的能量 (energy) 和熵 (entropy) 变化来评估它们的“完备性”。

首先，定义原始用户交互概率 $\hat{\mathbf{R}}$ 和训练后重建的交互概率 $\hat{R}'$ ： $\begin{array}{r} \hat{\mathbf{R}} = \mathbf{D}_{\mathcal{U}}^{-1} \mathbf{R} \end{array}$ $\begin{array}{r} \hat{R}' = \left\{\begin{array}{ll} \tilde{\mathbf{D}}_{\mathcal{U}}^{-1} \tilde{\mathbf{R}}, & \mathrm{DiffRec} \\ \mathrm{Softmax}(\mathbf{E}_{\mathcal{U}} \cdot \mathbf{E}_{\mathcal{I}}^{\top}), & \mathrm{BPR, LightGCN} \end{array}\right. \end{array}$ 符号解释：

$\mathbf{R} \in \{0, 1\}^{m \times n}$ : 原始用户-物品交互矩阵。
$\mathbf{D}_{\mathcal{U}} \in \mathbb{R}^{m \times m}$ : 原始用户度矩阵（对角矩阵，对角线元素为用户交互物品的数量）。
$\tilde{\mathbf{R}} \in \mathbb{R}^{m \times n}$ : DiffRec 生成的原始重建分数（未归一化）。
$\tilde{\mathbf{D}}_{\mathcal{U}} = \mathrm{diag}\left(\frac{1}{\|\tilde{\mathbf{r}}_1\|_1}, ..., \frac{1}{\|\tilde{\mathbf{r}}_m\|_1}\right)$ : DiffRec 的重建用户度矩阵（对角矩阵，用于归一化用户行向量）。
$\mathbf{E}_{\mathcal{U}} \in \mathbb{R}^{m \times d}$ : 用户表示矩阵。
$\mathbf{E}_{\mathcal{I}} \in \mathbb{R}^{n \times d}$ : 物品表示矩阵。
$\mathrm{Softmax}(\cdot)$ : 行向 softmax 函数，将分数转换为概率分布。
$\|\cdot\|_1$ : L1-范数。这个预处理步骤旨在将用户交互概率归一化，作为后续能量和熵计算的先决条件。

能量的定义： 本文使用以下公式定义能量 $U(\hat{R}')$ ，它综合了显式和隐式重建的亲和度： $U(\hat{R}') = \sum_u \sum_i \mathbb{I}(\hat{r}'_{u,i} \geq r_{u,i}) + \mathbb{I}(\hat{r}'_{u,i} < r_{u,i}) \frac{\hat{r}'_{u,i}}{\hat{r}_{u,i}}$ 符号解释：

$U(\hat{R}')$ : 重建交互矩阵 $\hat{R}'$ 的能量。
$\hat{r}'_{u,i}$ : 用户 $u$ 对物品 $i$ 的重建交互概率。
$r_{u,i}$ : 用户 $u$ 对物品 $i$ 的原始交互概率。
$\mathbb{I}(\cdot)$ : 指示函数，如果条件为真则为 1，否则为 0。这个定义旨在全面衡量重建的完备性，其中第一项衡量高于或等于原始概率的重建，第二项衡量低于原始概率但按比例加权的重建。

熵的定义： 本文使用香农熵定义熵 $S(\hat{R}')$ ： $S(\hat{R}') = \sum_u - \hat{r}'_u \log \hat{r}_u'^{\top}$ 符号解释：

$S(\hat{R}')$ : 重建交互矩阵 $\hat{R}'$ 的熵。
$\hat{r}'_u$ : 用户 $u$ 的重建交互概率向量。

通过实验观察，作者得出以下结论：
观察 1：基于扩散模型的推荐系统总是最大化能量。这意味着它们擅长重建交互。
观察 2：基于扩散模型的推荐系统总是无法显著减少熵，它们几乎是等熵的。这表明其优化目标未能有效关注预测分布的确定性。经典推荐模型（如 BPR）在优化过程中会显著减少熵。
观察 3：基于图的推荐模型（如 LightGCN）比其骨干模型（如 BPR）在熵减少方面表现出更强的能力。这归因于消息传递过程中邻居信息的使用，暗示了拓扑信息的重要性。

4.2.2. 亥姆霍兹自由能损失函数

基于上述观察，本文提出通过最大化亥姆霍兹自由能 (Helmholtz Free Energy) 来整合能量和熵的优化： $\mathcal{L}_H(\hat{R}') \equiv \mathcal{L}_U(\hat{R}') - t \cdot \mathcal{L}_S(\hat{R}') = U(\hat{R}') - t \cdot S(\hat{R}')$ 为了实现这一点，作者将能量项 $\mathcal{L}_U$ 建模为 Mean Squared Error (MSE) 损失，将熵项 $\mathcal{L}_S$ 建模为 Binary Cross Entropy (BCE) 损失。最终的亥姆霍兹自由能损失函数定义为： $\mathcal{L}_H(\hat{R}') = - \sum_{u \in \mathcal{B}} \sum_i (\hat{r}_{u,i} - \hat{r}'_{u,i})^2 - t \cdot (\hat{r}_{u,i} \log \sigma(\hat{r}'_{u,i}) + (1 - c_{u,i} \cdot (1 - \hat{r}_{u,i})) \log (1 - \sigma(\hat{r}'_{u,i})))$ 其中原文公式 (9) 中第二项的 $c_{u,i} \cdot (1 - \hat{r}_{u,i})$ 经过推断，应为 $(1 - c_{u,i} \cdot (1 - \hat{r}_{u,i}))$ ，以符合二元交叉熵的形式（正样本权重为 1，负样本权重为 $c_{u,i}$ ）。这里我将按照论文中对 $c_{u,i}$ 的描述：“ $c_{u,i} \in \{0, 1\}$ denotes the confidence to sample the non-interactive items”，其意义更像是对负样本的权重或置信度。若 $c_{u,i}$ 是采样非交互物品的指示符，则其意义会更清晰。

根据标准 Binary Cross Entropy (BCE) 损失，对于每个样本 $(y, \hat{y})$ ，损失为 $-(y \log \hat{y} + (1-y) \log (1-\hat{y}))$ 。在推荐场景中， $y$ 对应于真实交互 $r_{u,i}$ ， $\hat{y}$ 对应于预测交互 $\sigma(\hat{r}'_{u,i})$ 。对于非交互物品，通常会引入一个权重来平衡正负样本。如果 $c_{u,i}$ 是一个权重，那么负样本项应该乘以 $c_{u,i}$ 。

重新审视原文公式 (9) 的第二部分： 原文写的是： $- t · ( \hat { r } _ { u , i } \log { \sigma } ( \hat { r } _ { u , i } ^ { \prime } ) - c _ { u , i } \cdot ( 1 - \hat { r } _ { u , i } ) \log ( 1 - \sigma ( \hat { r } _ { u , i } ^ { \prime } ) ) )$ 这看起来是一个带权重的 BCE 变体。如果 $\hat{r}_{u,i} = 1$ ，则第一项为 $\log \sigma(\hat{r}'_{u,i})$ ，第二项为 0。如果 $\hat{r}_{u,i} = 0$ ，则第一项为 0，第二项为 $-c_{u,i} \log (1 - \sigma(\hat{r}'_{u,i})))$ 。这个损失函数的形式是可行的。因此，我将忠实转录原文公式： $\mathcal{L}_H(\hat{R}') = - \sum_{u \in \mathcal{B}} \sum_i (\hat{r}_{u,i} - \hat{r}'_{u,i})^2 - t \cdot (\hat{r}_{u,i} \log \sigma(\hat{r}'_{u,i}) - c_{u,i} \cdot (1 - \hat{r}_{u,i}) \log (1 - \sigma(\hat{r}'_{u,i})))$ 符号解释：

$\mathcal{L}_H(\hat{R}')$ : 亥姆霍兹自由能损失。
$\mathcal{B}$ : 训练的用户批次。
$t$ : 温度 (temperature)，一个系数，用于平衡能量项和熵项的优先级。
$\hat{r}_{u,i}$ : 用户 $u$ 对物品 $i$ 的原始交互（0或1）。
$\hat{r}'_{u,i}$ : 模型预测的用户 $u$ 对物品 $i$ 的得分（未经过 sigmoid）。
$\sigma(\cdot)$ : sigmoid 函数，将预测得分转换为概率。
$c_{u,i} \in \{0, 1\}$ : 用于采样非交互物品的置信度，作为负样本项的权重。当 $r_{u,i}=0$ 时， $c_{u,i}$ 决定该负样本是否参与损失计算。

通过最大化亥姆霍兹自由能，TV-Diff 避免了扩散模型仅关注能量最大化而导致的次优结果，同时解决了熵保持不变的问题，从而为个性化推荐提供了更泛化和鲁棒的结果。

4.3. 拓扑学视角：各向异性去噪器 (Anisotropic Denoiser)

4.3.1. 熵与拓扑信息的联系

观察 3 表明，图基推荐模型（如 LightGCN）在减少熵方面比 BPR 更强，这归因于消息传递中邻居信息的使用。为了从理论上阐明拓扑信息与熵之间的联系，论文提出了以下定理：

引理 3.1：给定一个在熵上训练的模型（即 BPR），最优结果近似于二部矩阵 $\mathbf{R}$ 。 证明概述：BPR 的目标是最大化正样本得分 $s_{u,i^+}$ 相对于负样本得分 $s_{u,i^-}$ 的差距。当 $s_{u,i^+} \to +\infty$ 且 $s_{u,i^-} \to -\infty$ 时，经过 sigmoid 激活函数 $\sigma(s_{u,*}) = 1/(1 + \exp^{-s_{u,*}})$ 后，最优结果将是 $\tilde{r}_{u,i^+} = 1$ 和 $\tilde{r}_{u,i^-} = 0$ ，这与原始的二值交互图矩阵 $\mathbf{R}$ 一致。

定理 3.2：给定一个在熵上训练的模型（即 BPR），通过图结构（如 $\mathbf{D}_{\mathcal{U}}^{-\frac{1}{2}}\mathbf{R}\mathbf{D}_{\mathcal{I}}^{-\frac{1}{2}}$ ）训练的模型在优化过程中会减少更多的熵，即 $\Delta S(\hat{R}_L | \hat{R}_B) \leq 0$ 。 证明概述：论文通过比较 BPR 的概率矩阵 $\hat{R}_B = \mathbf{D}_{\mathcal{U}}^{-1}\mathbf{R}$ 和 LightGCN 的概率矩阵 $\hat{R}_L = \tilde{\mathbf{D}}_{\mathcal{U}}^{-1}\tilde{\mathbf{R}}_L$ （其中 $\tilde{\mathbf{R}}_L = \mathbf{D}_{\mathcal{U}}^{-\frac{1}{2}}\mathbf{R}\mathbf{D}_{\mathcal{I}}^{-\frac{1}{2}}$ ）之间的熵差异来证明。尽管推导过程复杂，核心思想是 LightGCN 通过度归一化和邻居聚合，能够生成更“平滑”或更“集中”的概率分布，从而实现更低的熵。

启示：将物品度信息整合到拓扑结构中，有助于基于熵的训练目标实现更高的亥姆霍兹自由能，最终提高模型性能。用户和物品度分布之间不一致的各向异性 (anisotropy) 是用户-物品二部图固有的特性，这需要异步建模。

4.3.2. 各向异性去噪器设计

为了解决现有扩散模型未能充分利用拓扑信息和各向异性信号的问题，本文提出了各向异性去噪器 (Anisotropic Denoiser)。现有基于扩散模型的方法通常采用单一的用户编码器-解码器范式，这假设物品的度分布与用户一致。然而，用户和物品的交互模式往往具有显著的差异，即二部图的各向异性。

各向异性去噪器的设计如下： $\tilde{\mathbf{x}}_{\theta}(\mathbf{x}_t, t) = h_{u|\theta}(\mathbf{x}_t, t) \cdot H_{I|\theta}(\mathbf{x}_t, t)^{\top}$ $= \tanh(\mathrm{Agg}(\mathbf{x}_t \cdot \mathbf{W}_I, \mathbf{e}_t)) \cdot \tanh(\bar{\mathbf{R}}^{\top} \cdot \mathbf{W}_U)^{\top}$ $\hat{\mathbf{r}}'_u = \tilde{\mathbf{x}}_{\theta}(\mathbf{x}_t, t) / \|\tilde{\mathbf{x}}_{\theta}(\mathbf{x}_t, t)\|_1$ 符号解释：

$\tilde{\mathbf{x}}_{\theta}(\mathbf{x}_t, t)$ : 在时间步 $t$ 接收到噪声数据 $\mathbf{x}_t$ 后，由去噪器预测的原始数据 $\mathbf{x}_0$ 的重建。
$h_{u|\theta}(\mathbf{x}_t, t)$ : 学习用户表示的函数，它聚合了加噪的用户交互 $\mathbf{x}_t$ 和时间嵌入 $\mathbf{e}_t$ ，并经过 tanh 激活。
$H_{I|\theta}(\mathbf{x}_t, t)^{\top}$ : 学习物品表示的函数，它利用对称归一化二部矩阵 $\bar{\mathbf{R}}^{\top}$ 和物品转换矩阵 $\mathbf{W}_U$ ，并经过 tanh 激活。注意，这里 $H_{I|\theta}$ 是物品表示，与 $h_{u|\theta}$ 对应。
$\mathbf{W}_I \in \mathbb{R}^{n \times d}$ : 物品的潜在转换矩阵。
$\mathbf{W}_U \in \mathbb{R}^{m \times d}$ : 用户的潜在转换矩阵。
$\mathbf{e}_t \in \mathbb{R}^d$ : 可学习的时间嵌入。
$\bar{\mathbf{R}} \in \mathbb{R}^{m \times n}$ : 对称归一化二部矩阵，其定义为 $\bar{\mathbf{R}} = \mathbf{D}_{\mathcal{U}}^{-\frac{1}{2}}\mathbf{R}\mathbf{D}_{\mathcal{I}}^{-\frac{1}{2}}$ 。
$\mathrm{Agg}(\cdot)$ : 聚合函数，例如元素级加法 (element-wise addition)。
$\tanh(\cdot)$ : 激活函数。
$\hat{\mathbf{r}}'_u$ : 归一化后的用户 $u$ 的预测交互概率向量。

这个去噪器通过计算用户-物品交叉相关性 (user-item cross-correlation) 来进行预测，明确考虑了物品的度信息。它使用单层消息传递 (single-layer message-passing)，以保留各向异性信号并避免多层消息传递可能导致的熵损失和计算资源消耗。这种设计使得 TV-Diff 能够更有效地捕获二部图的内在结构信息。

4.4. 难负样本视角：接受-拒绝 Gumbel 采样过程 (Acceptance-Rejection Gumbel Sampling Process, AR-GSP)

4.4.1. 负采样理论分析

亥姆霍兹自由能最大化目标整合了能量和熵，需要高效且有效的负采样方法来保证联合训练的鲁棒性。传统的随机负采样 (RNS) 通常产生信息量不足的负样本。难负采样 (Hard NS) 旨在识别高质量的信息性负样本，但其效果取决于负样本分布 $p_n(j|u)$ 与正样本分布 $p_d(i|u)$ 之间的关系。

定理 3.3：BPR 的期望损失达到上限当且仅当 $p_n(j|u) = C \cdot p_d(i|u)$ ，而当所有正负物品对 (i, j) 满足 $p_n(j|u) \cdot p_d(i|u) = 0$ 时，损失达到下限。 证明概述：该定理通过分析 BPR 损失函数 $\mathcal{L}_{BPR}(u) = \mathbb{E}_{i \sim p_d(u)} \mathbb{E}_{j \sim p_n(u)} [-\log \sigma(e_u e_i^{\top} - e_u e_j^{\top})]$ 来说明。当正负样本分布存在子线性相关时，BPR 损失会在优化和泛化之间产生权衡。作者指出，强制正负样本分布之间的正交性 (orthogonality) 而非子线性相关性，可以为去噪器的训练保留信息丰富的语义（例如，各向异性）。

4.4.2. 接受-拒绝采样 (Acceptance-Rejection Sampling)

为了有效地从偏离正样本的分布中采样难负样本，TV-Diff 采用了接受-拒绝采样 (acceptance-rejection sampling)。这种方法可以截断潜在的非信息性物品： $c_{u,j} \sim p_n(j|u) \approx \begin{cases} \frac{1}{\gamma \cdot n}, & \mathrm{Rank}(\tilde{r}_{u,j}) \leq \gamma \cdot n \\ \epsilon, & \mathrm{Rank}(\tilde{r}_{u,j}) > \gamma \cdot n \end{cases}$ 符号解释：

$c_{u,j}$ : 表示物品 $j$ 被接受为用户 $u$ 的负样本的置信度。
$p_n(j|u)$ : 物品 $j$ 作为用户 $u$ 负样本的概率。
$\gamma \in (0, 1]$ : 负因子 (negative factor)，控制信息性负样本的阈值。
$n$ : 物品总数。
$\epsilon$ : 一个无穷小量。
$\mathrm{Rank}(\tilde{r}_{u,j})$ : 函数返回物品 $j$ 在用户 $u$ 所有物品得分 $\tilde{r}_{u,*}$ 降序列表中的位置。这个策略旨在将物品池分解为正样本和长尾的真负样本，使得真阳性样本和假阳性样本（即难负样本）对模型的泛化贡献均衡。

4.4.3. 时间步依赖的 Gumbel Softmax (Timestep-Dependent Gumbel Softmax)

在扩散模型中，由于不同时间步的噪声大小不同，模型的预测得分可能不稳定。当采样到大扩散时间步时，前向过程会过度破坏输入，导致去噪器难以准确重建得分，从而影响难负样本的区分。为了解决这个问题，TV-Diff 在接受-拒绝采样之上应用了时间步依赖的 Gumbel Softmax (timestep-dependent Gumbel Softmax)： $\hat{p}_n(j|u) = \mathrm{Softmax}\left(\frac{\log{p_n(j|u)} + g_j}{\tau(\bar{t})}\right) = \frac{\exp\left(\frac{\log{p_n(j|u)} + g_j}{\exp(-\lambda \bar{t})}\right)}{\sum_{j'}\exp\left(\frac{\log{p_n(j'|u)} + g_{j'}}{\exp(-\lambda \bar{t})}\right)}$ 符号解释：

$\hat{p}_n(j|u)$ : 经过 Gumbel Softmax 调整后的物品 $j$ 作为用户 $u$ 负样本的概率。
$p_n(j|u)$ : 原始的负样本概率（由接受-拒绝采样获得）。
$g \sim \mathrm{Gumbel}(0, 1)$ : 从 Gumbel 分布中采样的噪声，通过重参数化技巧 (reparameterization trick) 获得，即 $g = -\log(-\log(\mu))$ , $\mu \sim \mathrm{Uniform}(0,1)$ 。
$\tau(\bar{t})$ : 温度参数，依赖于归一化时间步长 $\bar{t}$ 。
$\bar{t} = 1 - \frac{t}{T}$ : 归一化时间步长，当 $t$ 趋近于 $T$ 时， $\bar{t}$ 趋近于 0，表示噪声较大。
$\lambda$ : 弛豫率 (relaxation rate)，控制 Gumbel Softmax 温度的变化速度。
$\exp(-\lambda \bar{t})$ : 作为 Gumbel Softmax 的温度，当 $\bar{t}$ 较大（即噪声较小）时，温度较低，采样更接近 argmax；当 $\bar{t}$ 较小（即噪声较大）时，温度较高，采样更接近均匀分布，以避免误判负样本。

AR-GSP 结合了两个层面的难负采样策略：在通用推荐层面，接受-拒绝采样有效地筛选出信息性负样本；在扩散模型层面，时间步依赖的 Gumbel Softmax 根据扩散过程的噪声水平自适应地调整采样策略，增强了对不稳定得分的鲁棒性。

4.5. 算法流程 (Algorithms)

4.5.1. 训练过程 (Algorithm 1)

以下是原文 Algorithm 1 的训练过程：

Algorithm 1 The training process with TV-Diff

Input: binary interaction X₀, symmetric normalized Ā. entropy-based training objective L_S, temperature t, negative factor γ, diffusion-based hyperparameter (T, s, β_min, β_max).

Output: overall learnable parameters θ

1: while not convergent do
2:   for each batch of users u do
3:     Sample t ~ Uniform(1, T).
4:     Computer ∇X_t[∇u] ← Eq.(1);                                  // Forward diffusion process
5:     Reconstruct the X₀[u] with Ā Eq.(13), (14);                     // View II: Anisotropic Denoiser
6:     Sample negative items j Eq.(16), (17);                          // View III: Acceptance-Rejection Gumbel Sampling Process
7:     Compute L_H by involving L_S Eq.(9);                           // View I: Helmholtz Free Energy Maximization
8:     Update by descending gradients ∇_θ L_H;
9:   end for
10: end while
11: return θ

算法解释：

输入 (Input)：二值交互矩阵 $\mathbf{X}_0$ ，对称归一化矩阵 $\bar{\mathbf{A}}$ ，基于熵的训练目标 $\mathcal{L}_S$ ，温度 $t$ ，负因子 $\gamma$ ，以及扩散模型的超参数 $(T, s, \beta_{min}, \beta_{max})$ 。
输出 (Output)：学习到的模型参数 $\theta$ 。
训练循环 (while not convergent do)：模型持续训练直到收敛。
用户批次循环 (for each batch of users u do)：在每个训练周期中，遍历用户批次。
采样时间步 (Sample t ~ Uniform(1, T))：为当前批次随机采样一个扩散时间步 $t$ 。
前向扩散 (Computer $\nabla X_t[\nabla u] \leftarrow \mathrm{Eq.}(1)$ )：根据公式 (1) 执行前向扩散过程，向原始交互 $\mathbf{X}_0$ 添加噪声，得到 $\mathbf{X}_t$ 。
重建 (Reconstruct the $\mathbf{X}_0[\mathbf{u}]$ with $\bar{\mathbf{A}} \mathrm{Eq.}(13), (14)$ )：使用各向异性去噪器（View II）根据公式 (13) 和 (14) 重建原始交互 $\mathbf{X}_0$ 。
负样本采样 (Sample negative items j Eq.(16), (17))：使用接受-拒绝 Gumbel 采样过程（View III）根据公式 (16) 和 (17) 采样负样本。
计算损失 (Compute $\mathcal{L}_H$ by involving $\mathcal{L}_S \mathrm{Eq.}(9)$ )：根据公式 (9) 计算亥姆霍兹自由能损失 $\mathcal{L}_H$ （View I），其中包含了基于熵的 $\mathcal{L}_S$ 。
梯度更新 (Update by descending gradients $\nabla_{\theta} \mathcal{L}_H$ )：使用优化器（如 Adam）更新模型参数 $\theta$ 。
返回参数 (return $\theta$ )：训练结束后返回优化后的模型参数。

4.5.2. 推理过程 (Algorithm 2)

以下是原文 Algorithm 2 的推理过程：

Algorithm 2 The inference process with TV-Diff

Input: binary interaction X₀, symmetric normalized Ā. diffusion-based hyperparameter (T, s, β_min, β_max), optimized parameters θ

Output: reconstructed interaction prediction X̃₀

1: if s > 0 then
2:   Sample noise from N(0, I);
3: end if
4: Computer X_T with noise (if existing) Eq.(1);                     // Generate noisy X_T
5: for each timestep t in [T, ..., 1] do
6:   Compute X̃_t-1_bar by q(X̃_t-1 | X̃_t, X₀) ← Eq.(13),(14);       // Denoise X̃_t to X̃_t-1
7: end for
8: return X̃₀

算法解释：

输入 (Input)：原始二值交互矩阵 $\mathbf{X}_0$ ，对称归一化矩阵 $\bar{\mathbf{A}}$ ，扩散模型超参数 $(T, s, \beta_{min}, \beta_{max})$ ，以及已训练好的模型参数 $\theta$ 。
输出 (Output)：重建的交互预测 $\tilde{\mathbf{X}}_0$ 。
初始化噪声 (if s > 0 then Sample noise from $\mathcal{N}(0, \mathbf{I})$ ; end if)：如果噪声尺度 $s > 0$ ，则从标准高斯分布 $\mathcal{N}(0, \mathbf{I})$ 中采样噪声。
生成初始噪声数据 (Computer $\mathbf{X}_T$ with noise (if existing) Eq.(1))：根据前向扩散过程（公式 (1)），生成完全加噪的 $\mathbf{X}_T$ 。这通常是从纯噪声开始，或者将原始 $\mathbf{X}_0$ 彻底噪声化。
逆向去噪循环 (for each timestep t in [T, ..., 1] do)：从最大时间步 $T$ 倒退到 1。
去噪一步 (Compute $\tilde{\mathbf{X}}_{t-1}^{\bar{}}$ by $q(\tilde{\mathbf{X}}_{t-1} | \tilde{\mathbf{X}}_t, \mathbf{X}_0) \leftarrow \mathrm{Eq.}(13),(14)$ )：在每个时间步，利用各向异性去噪器（公式 (13) 和 (14)）从当前噪声数据 $\tilde{\mathbf{X}}_t$ 恢复出 $\tilde{\mathbf{X}}_{t-1}$ 。这里原文的 $q(\tilde{\mathbf{X}}_{t-1} | \tilde{\mathbf{X}}_t, \mathbf{X}_0)$ 应该是指模型学习的逆向分布 $p_{\theta}(\mathbf{x}_{t-1} | \mathbf{x}_t)$ ，通过去噪器预测均值来一步步去除噪声。
返回预测 (return $\tilde{\mathbf{X}}_0$ )：经过 $T$ 步去噪后，最终得到重建的原始交互预测 $\tilde{\mathbf{X}}_0$ 。

5. 实验设置

5.1. 数据集

实验使用了五个公开的真实世界数据集来评估 TV-Diff 的性能，这些数据集在推荐系统文献中被广泛使用。所有评分都被二值化为隐式反馈 (implicit feedback)。数据集被随机划分为训练集和测试集，比例为 8:2。

以下是原文 Table 2 的数据集统计信息：

Dataset	#User	#Item	#Interaction	%Density
LastFM	1,892	17,632	92,834	0.2783
Amazon-Beauty	22,364	12,102	198,502	0.0733
Douban-Book	13,024	22,347	792,062	0.2721
Gowalla	29,858	40,981	1,027,370	0.0840
Yelp2018	31,668	38,048	1,561,406	0.1296

数据集特点：

LastFM：音乐推荐数据集，用户和物品数量相对较少，但密度较高。
Amazon-Beauty：亚马逊美妆产品评论数据集，用户数量中等，物品数量较少，密度较低。
Douban-Book：豆瓣读书数据集，用户数量中等，物品数量中等，密度较高。
Gowalla：社交签到数据集，用户和物品数量较大，密度较低，具有明显的稀疏性。
Yelp2018：Yelp 商业评论数据集，用户和物品数量最大，密度适中，也存在稀疏性挑战。这些数据集涵盖了不同规模和稀疏程度的推荐场景，有助于全面评估模型的性能。

5.2. 评估指标

本文使用两种在 Top-K 推荐中常用的评估指标：Recall@K (R@K) 和 NDCG@K (N@K)，其中 $K \in \{10, 20\}$ 。

5.2.1. 召回率 (Recall@K)

概念定义 (Conceptual Definition)：Recall@K 衡量的是在为用户生成的 Top-K 推荐列表中，有多少用户在测试集中实际交互过的物品被成功召回。它关注的是模型找到所有相关物品的能力，即在所有真实相关的物品中，模型找回了多少。
数学公式 (Mathematical Formula)： $\mathrm{Recall@K} = \frac{1}{|\mathcal{U}|} \sum_{u \in \mathcal{U}} \frac{|\mathrm{R}_u(K) \cap \mathrm{T}_u|}{|\mathrm{T}_u|}$
符号解释 (Symbol Explanation)：
- $|\mathcal{U}|$ : 用户总数。
- $\mathrm{R}_u(K)$ : 为用户 $u$ 生成的 Top-K 推荐列表。
- $\mathrm{T}_u$ : 用户 $u$ 在测试集中实际交互过的物品集合。
- $|\cdot|$ : 集合的基数（元素数量）。
- $\cap$ : 集合交集。

5.2.2. 归一化折损累计增益 (NDCG@K)

概念定义 (Conceptual Definition)：NDCG@K 衡量推荐列表的质量，它不仅考虑了推荐物品的相关性，还考虑了它们在列表中的位置。相关性高的物品排在推荐列表的前面会获得更高的分数，因此 NDCG@K 对排名位置敏感，能够更好地评估推荐列表的整体有效性。
数学公式 (Mathematical Formula)： $\mathrm{NDCG@K} = \frac{1}{|\mathcal{U}|} \sum_{u \in \mathcal{U}} \frac{\mathrm{DCG@K}_u}{\mathrm{IDCG@K}_u}$ 其中， $\mathrm{DCG@K}_u$ （折损累计增益）和 $\mathrm{IDCG@K}_u$ （理想折损累计增益）分别定义为： $\mathrm{DCG@K}_u = \sum_{j=1}^{K} \frac{2^{\mathrm{rel}_j} - 1}{\log_2(j+1)}$ $\mathrm{IDCG@K}_u = \sum_{j=1}^{K} \frac{2^{\mathrm{rel}_{j, \mathrm{ideal}}} - 1}{\log_2(j+1)}$
符号解释 (Symbol Explanation)：
- $|\mathcal{U}|$ : 用户总数。
- $\mathrm{rel}_j$ : 推荐列表第 $j$ 位物品的相关性得分。对于隐式反馈，如果物品是用户在测试集中实际交互过的，则 $\mathrm{rel}_j = 1$ ，否则为 0。
- $\mathrm{rel}_{j, \mathrm{ideal}}$ : 理想情况下，推荐列表第 $j$ 位物品的相关性得分。这是将所有用户实际交互过的物品按相关性（在此为 1）从高到低排序后得到的得分。
- $\log_2(j+1)$ : 位置折损因子，随着 $j$ 增大，折损越大，即排在后面的物品贡献越小。
- $\mathrm{DCG@K}_u$ : 用户 $u$ 的折损累计增益。
- $\mathrm{IDCG@K}_u$ : 用户 $u$ 的理想折损累计增益，用于归一化，使得 NDCG 值介于 0 和 1 之间。

5.3. 对比基线

本文将 TV-Diff 与五类代表性的推荐模型进行比较：

基础推荐模型 (Base Recommender Models, B)：
- BPR-MF [42]：基于矩阵分解 (Matrix Factorization) 的贝叶斯个性化排名 (Bayesian Personalized Ranking)。
- NeuMF [15]：神经网络协同过滤 (Neural Collaborative Filtering)。
自编码器基推荐模型 (Autoencoder-based Recommender Models, A)：
- CDAE [57]：协同深度自编码器 (Collaborative Deep Autoencoders)。
- MultiVAE [34]：多项式变分自编码器 (Multinomial Variational Autoencoders)。
图基推荐模型 (Graph-based Recommender Models, G)：
- LightGCN [14]：简化并增强的图卷积网络 (Graph Convolution Network)。
- ChebyCF [24]：基于切比雪夫插值的图谱过滤 (Graph Spectral Filtering)。
- LinkProp [8]：基于邻居的链接预测 (Link Prediction) 方法。
- SGCL [69]：自监督图对比学习 (Self-supervised Graph Contrastive Learning)。
- MixGCF [21]：改进的图神经网络训练方法。
负采样推荐模型 (Negative Sampling Recommender Models, N)：
- AHNS [29]：自适应硬负采样 (Adaptive Hard Negative Sampling)。
扩散模型基推荐模型 (Diffusion-based Recommender Models, D)：
- CODIGEM [54]：协同扩散生成模型 (Collaborative Diffusion Generative Model)。
- DiffRec [55]：扩散推荐模型 (Diffusion Recommender Model)，是 TV-Diff 的骨干模型。
- BSPM [5]：模糊-锐化过程模型 (Blurring-Sharpening Process Models)。
- GiffCF [71]：图信号扩散模型 (Graph Signal Diffusion Model)。
- DDRM [18]：去噪扩散模型 (Denoising Diffusion Models)。
- HDRM [66]：双曲扩散推荐模型 (Hyperbolic Diffusion Recommender Model)。

5.4. 实现细节

超参数调优 (Hyperparameter Tuning)：使用网格搜索 (grid search) 对所有基线的超参数进行调优，范围遵循原始论文的报告。
早停 (Early-Stopping)：所有模型都设定了相同的早停阈值（10个 epoch 未改进则停止）。
通用设置 (General Settings)：
- 潜在维度 (latent size)：64。
- 正则化系数 (coefficient of regularization)： $1e^{-4}$ 。
- 弛豫率 (relaxation rate) $\lambda$ ：经验设置为 3。
- 推理时间步数 (number of inference timesteps)：等于训练时间步数。
参数初始化 (Parameter Initialization)：所有参数使用 Xavier 方法 [11] 初始化。
优化器 (Optimizer)：所有模型都使用 Adam [25] 优化器。
负采样策略 (Negative Sampling Strategy)：为了公平比较，每个训练迭代中，每个正样本都与一个负样本配对。
随机种子 (Random Seed)：为了结果可复现性，随机种子固定为 0。

6. 实验结果与分析

6.1. 性能对比

以下是原文 Table 1 的性能对比结果：

Type\|	Method	LastFM				Amazon-Beauty				Douban-Book				Yelp2018				Gowalla
		R@10	N@10	R@20	N@20 \|	R@10	N@10	R@20	N@20 \|	R@10	N@10	R@20	N@20 \|	R@10	N@10	R@20	N@20 \|	R@10	N@10	R@20	N@20
B	BPR-MF	0.1742	0.2070	0.2602	0.2435	0.0711	0.0470	0.1015	0.0572	0.0776	0.0927	0.1268	0.1038	0.0279	0.0316	0.0491	0.0397	0.1045	0.1052	0.0456	0.1213
	NeuMF	0.1454	0.1669	0.2257	0.2056	0.0622	0.0397	0.0937	0.0496	0.0572	0.0673	0.0895	0.0735	0.0224	0.0250	0.0396	0.0314	0.0932	0.0904	0.1398	0.1051
A	CDAE	0.0752	0.0877	0.1082	0.0906	0.0208	0.0119	0.0341	0.0157	0.0463	0.0508	0.0716	0.0579	0.0073	0.0081	0.0127	0.0102	0.0209	0.0190	0.0305	0.0210
	MultiVAE	0.1040	0.1220	0.2713	0.2488	0.0576	0.0391	0.1018	0.0574	0.0459	0.0475	0.1207	0.1008	0.0245	0.0271	0.0542	0.0434	0.0763	0.0711	0.1480	0.1121
	LightGCN	0.1980	0.2347	0.2999	0.2836	0.0921	0.0596	0.1308	0.0735	0.1000	0.1161	0.1504	0.1264	0.0342	0.0390	0.0587	0.0482	0.1278	0.1297	0.1857	0.1474
G	ChebyCF	0.1868	0.2261	0.2981	0.2853	0.0839	0.0595	0.1358	0.0795	0.1107	0.1245	0.1762	0.1644	0.0348	0.0398	0.0598	0.0495	0.1318	0.1323	0.2002	0.1577
	LinkProp	0.1182	0.1446	0.2763	0.2647	0.0884	0.0648	0.1202	0.0747	0.0929	0.1088	0.1727	0.1513	0.0352	0.0402	0.0635	0.0517	0.1263	0.1261	0.2084	0.1642
	SGCL	0.1899	0.2305	0.3093	0.2946	0.1004	0.0678	0.1433	0.0810	0.1405	0.1704	0.1939	0.1771	0.0416	0.0472	0.0679	0.0555	0.1498	0.1516	0.2172	0.1705
	MixGCF	0.1935	0.2306	0.3009	0.2838	0.0933	0.0607	0.1356	0.0754	0.0940	0.1104	0.1502	0.1242	0.0334				0.1248	0.1254		0.1542
N	AHNS	0.1921	0.2285	0.2744	0.2611	0.0905	0.0583	0.1427	0.0802	0.1285	0.1633	0.1839	0.1690	0.0366	0.0378	0.0621	0.0509	0.1160	0.1183	0.1959	0.1346
															0.0422	0.0631	0.0519			0.1724
	CODIGEM	0.2122	0.2530	0.2943	0.2831	0.0666	0.0478	0.0916	0.0556	0.1115	0.1454	0.0716	0.0563	0.0349	0.0407	0.0590	0.0491	0.0930	0.0997	0.1347	0.1099
	DiffRec	0.2127	0.2538	0.2867	0.2708	0.0850	0.0586	0.1206	0.0713	0.1356	0.1682	0.1847	0.1695	0.0380	0.0443	0.0603	0.0506	0.1383	0.1439	0.1981	0.1577
D	BSPM	0.1962	0.2349	0.2985	0.2852	0.1405	0.0797	0.0814	0.0602	0.1296	0.1594	0.1843	0.1740	0.0401	0.0455	0.0670	0.0553	0.1484	0.1498	0.2023	0.1470
	GiffCF	0.1735	0.2112	0.2582	0.2501	0.0673	0.0488	0.1019	0.0620	0.0502	0.0578	0.1586	0.1281	0.0327	0.0394	0.0642	0.0529	0.1371	0.1397	0.1885	0.1317
	DDRM	0.1966	0.2337	0.2815	0.2675	0.0949	0.0627	0.1365	0.0760	0.0830	0.0957	0.1344	0.1080	0.0217	0.0257	0.0404	0.0332	0.0800	0.0773	0.1293
	HDRM	0.1807	0.2139	0.2951	0.2782	0.0667	0.0438	0.1300	0.0695	0.0769	0.0914	0.1272	0.1065	0.0328	0.0377	0.0556	0.0457	0.1147	0.1163	0.1674	0.0959
Imp. (Follow-up)	TV-Diff	0.2220	0.2605	0.3133	0.2953\| 0.24%	0.1046	0.0719	0.1475	0.0852	0.1474	0.1863	0.2037	0.1908	0.0416	0.0481	0.0700	0.0582	0.1517	0.1578	0.2195	0.1762

分析：

TV-Diff 的卓越性能：TV-Diff 在所有数据集的所有评估指标上均取得了最佳性能（粗体数字），这强有力地验证了其在蒸馏、建模和生成全面用户偏好方面的能力。这表明本文提出的整合优化目标、各向异性去噪器和自适应难负采样策略是有效的。
扩散模型优于自编码器模型：基于扩散模型的推荐模型（如 DiffRec、BSPM）普遍优于自编码器模型（如 CDAE、MultiVAE）。这归因于扩散模型独特的去噪得分匹配机制，能够更有效地处理噪声和学习数据分布。
TV-Diff 相较于现有扩散模型的显著提升：TV-Diff 相较于现有扩散方法取得了显著的性能提升（平均超过 12%）。这表明 TV-Diff 有效克服了现有扩散模型在热力学和拓扑学视角下的内在局限性。此外，TV-Diff 无需预训练，避免了预训练嵌入质量高度敏感所带来的不稳定性。
对比学习模型的竞争力：对比学习方法（如 SGCL）表现出色的竞争力，通常是次优模型（下划线数字）。这主要得益于其批次级负采样 (batch-wise negative sampling) 策略，能够捕获更全面的语义。然而，TV-Diff 仍然以平均超过 3.5% 的优势超越了这些方法，说明 AR-GSP 能够更有效地识别信息性负样本，并避免了批次级负采样带来的冗余计算。
图基模型的优势：图基模型（如 LightGCN、SGCL）在多个数据集上表现良好，尤其是在捕获协同信号方面。但 TV-Diff 在结合了扩散能力和更精细的拓扑处理后，进一步超越了它们。

6.2. 消融实验 (Ablation Study)

6.2.1. 不同视角的有效性

为了验证 TV-Diff 各个组件的有效性及其相互作用，论文进行了消融研究。其中：

Vanilla：指骨干模型 DiffRec，不包含 TV-Diff 的任何提议组件。
View I：表示引入了亥姆霍兹自由能最大化。
View I + II：在 View I 的基础上，进一步引入了各向异性去噪器。
View I + II + III：表示完整的 TV-Diff 框架，即在 View I + II 的基础上，再引入接受-拒绝 Gumbel 采样过程。

以下是原文 Figure 4 的消融研究结果：

分析：
各组件均有效：从图中可以看出，在 Vanilla 模型的基础上，每引入一个新组件（View I -> View I + II -> View I + II + III），模型性能（Recall@20 和 NDCG@20）在所有数据集上都有显著提升。这证实了 TV-Diff 每个组件的重要性。
各向异性去噪器贡献最大：在大多数数据集上，引入各向异性去噪器（从 View I 到 View I + II）带来的性能提升最大，平均超过 8%。这表明现有基于扩散模型的推荐系统在捕获二部图的各向异性方面存在明显不足，而 TV-Diff 的各向异性去噪器有效解决了这个问题。
AR-GSP 的贡献：AR-GSP 带来了超过 3% 的性能提升，但在小型数据集（如 LastFM）上的提升相对较小。这可能是因为扩散模型自身的去噪能力在一定程度上减弱了对难负采样的需求。然而，对于大型数据集，AR-GSP 仍然提供了重要贡献，通过识别信息性负样本增强了模型的鲁棒性。

6.2.2. 熵基础目标的影响

论文还评估了三种常用的基于熵的训练目标（BCE、BPR、NLL）对模型性能的影响，并与仅使用能量目标（None）的控制组进行比较。

以下是原文 Figure 5 的消融研究结果：

Figure 5: Ablation study on entropy-based objectives. 分析：

熵基础目标的普遍有效性：所有基于熵的优化目标 (BCE, BPR, NLL) 都一致地提高了模型性能，相较于仅使用能量目标的模型 (None)。这再次验证了将熵纳入优化目标的重要性，有助于提升模型的泛化能力和鲁棒性。
数据集规模对目标选择的影响：
- 小型数据集偏爱 BPR：在 LastFM 等小型数据集上，BPR 表现最佳。作者推测，BPR 的三元组 (triplet) 形式能从有限的交互中提取更细致的用户偏好。
- 大型数据集偏爱 BCE：在 Yelp2018 等大型数据集上，BCE 表现最佳。这可能是因为在交互数据充足的情况下，BCE 可以更直接、更稳定地建模二元交互概率，而 BPR 可能因过度关注相对排名而导致过拟合。
NLL 的表现：NLL（负对数似然）由于忽略了非交互类别，在大多数情况下表现不如 BCE 和 BPR，这表明在隐式反馈场景中，对负样本的建模同样重要。

6.2.3. 接受-拒绝采样与传统难负采样的比较

为了严格评估接受-拒绝采样 (AR) 相较于传统子线性相关 (Sub-Linear Correlation, SL) 难负采样方法的优越性，论文在相同条件下进行了直接比较，即两种方法都从整个物品集中采样一个负样本。为清晰起见，实验以 LightGCN 作为基线模型。

以下是原文 Table 3 的消融研究结果：

Dataset	Method	R@10	N@ 10	R@20	N@20
LastFM	w/ SL	0.2098	0.2419	0.3022	0.2895
LastFM	w/AR	0.2165	0.2533	0.3108	0.2925
Douban	w/ SL	0.1274	0.1431	0.1768	0.1545
Douban	w/AR	0.1353	0.1587	0.1832	0.1692
Gowalla	w/ SL	0.1318	0.1375	0.2072	0.1627
Gowalla	w/AR	0.1437	0.1459	0.2178	0.1721

分析：

AR 的显著优势：接受-拒绝采样 (w/AR) 在所有数据集上均显著且一致地优于子线性相关采样 ( $w/ SL$ )。尤其是在 Douban-Book 数据集上，性能提升甚至超过了 10%。
截断真负样本的重要性：这一结果强调了在负采样过程中截断真负样本（即那些模型很容易区分的非信息性负样本）的重要性，特别是在处理长尾分布时。AR 能够更好地筛选出高质量的难负样本，从而更有效地帮助模型学习潜在语义。
AR 提升模型泛化能力：AR 方法有助于模型在推荐任务中学习到更具判别力的表示，从而提升了模型的泛化能力和准确性。

6.3. 超参数敏感性分析

6.3.1. 温度 $t$

温度 (temperature) $t$ 是亥姆霍兹自由能损失函数中平衡能量和熵优先级的关键超参数。

以下是原文 Figure 6 的温度 $t$ 敏感性分析结果：

$Figure 6: Influence of the temperature $t$ .$ 分析：

最佳 $t$ 值因数据集而异：
- 在小型数据集（如 LastFM, Amazon-Beauty, Douban-Book）上，TV-Diff 在 $t=1$ 时性能达到峰值。这表明对于小型数据集，能量和熵之间的平衡优化更为重要。
- 在大型数据集（如 Yelp2018, Gowalla）上，TV-Diff 在 $t=10$ 时性能达到峰值。这暗示对于大型数据集，由于其固有的高稀疏性，模型需要赋予熵基础目标更高的优先级（即更大的 $t$ 值），以引导模型学习更确定的分布。
平衡优化策略：当 $t$ 过小（例如 $t=0.1, 0.5$ ）或过大（例如 $t=15$ ）时，模型性能都会下降，表明需要适当的 $t$ 值来平衡能量和熵的贡献，以实现最佳性能。

6.3.2. 负因子 $\gamma$

负因子 (negative factor) $\gamma$ 控制了接受-拒绝采样中信息性负样本的阈值，影响着候选负样本的数量和位置。

以下是原文 Figure 7 的负因子 $\gamma$ 敏感性分析结果：

$Figure 7: Influence of the negative factor $\\gamma$$ 分析：

性能随 $\gamma$ 变化呈现先升后降趋势：TV-Diff 的性能随着 $\gamma$ 的增加先上升，达到峰值后逐渐下降。
最佳 $\gamma$ 值与数据集规模相关：
- 在小型数据集上，模型在 $\gamma=0.05$ 时表现良好。过小的 $\gamma$ 可能导致负样本数量不足，而过大的 $\gamma$ 可能引入过多非信息性负样本。
- 在大型数据集上，模型在 $\gamma=0.2$ 时性能最佳。这反映了大型数据集需要少量但信息丰富的负样本，遵循长尾分布。
过小 $\gamma$ 导致性能急剧下降：当 $\gamma$ 过小（例如 LastFM 在 $\gamma=0.01$ 时）时，性能急剧下降。这表明，如果筛选范围过窄，可能会无意中将一些未观测到的正样本误判为负样本（假阴性），导致表示崩溃。
均匀采样的重要性：为了缓解基于推荐分数进行选择的偏差，论文强调在 AR 完成后，对候选负样本进行均匀采样是合理的。

6.3.3. 扩散时间步 $T$

扩散时间步 (diffusion timestep) $T$ 决定了前向和逆向扩散过程的最大步数。

以下是原文 Figure 8 的扩散时间步 $T$ 敏感性分析结果：

$Figure 8: Influence of the number of diffusion timesteps $T$ .$ 分析：

最佳 $T$ 值：无论在小型还是大型数据集上，TV-Diff 在 $T=50$ 时均达到性能峰值。
大 $T$ 有助于模拟去噪过程：较多的扩散时间步（即更大的 $T$ ）有助于更好地模拟去噪过程，使得底层得分匹配机制能够捕获更全面的分布信息。
过多的 $T$ 可能导致性能饱和或下降：当 $T$ 进一步增加到 100 时，性能略有下降或趋于平稳，这可能意味着过多的时间步并不能带来额外的信息增益，反而可能增加计算负担或引入更多噪声。

6.3.4. 噪声尺度 $s$

噪声尺度 (noise scale) $s$ 控制了在不同时间步中添加噪声的幅度。

以下是原文 Figure 9 的噪声尺度 $s$ 敏感性分析结果：

Figure 9: Influence of the noise scale s. 分析：

最佳 $s$ 值与数据集规模相关：
- 在小型数据集上，TV-Diff 在 $s=1e-4$ 时性能达到峰值。这表明对于小型数据集，需要较小的噪声尺度才能学习到细微的分布特征。
- 在大型数据集上，TV-Diff 在 $s=1e-3$ 时性能最佳。这表明大型数据集对较大的噪声尺度表现出更强的鲁棒性，能够从更强的扰动中学习到稳健的模式。
噪声尺度的重要性：适当的噪声尺度对于扩散模型学习准确的分布至关重要。过大或过小的噪声都可能影响模型的性能。

6.3.5. 噪声上下限 $(\beta_{min}, \beta_{max})$

噪声上下限 $(\beta_{min}, \beta_{max})$ 限制了在整个扩散过程中噪声的最小和最大幅度。

以下是原文 Figure 10 的噪声上下限 $(\beta_{min}, \beta_{max})$ 敏感性分析结果：

Figure 10: Influence of the upper and lower bound of noise. 分析：

最佳组合因数据集而异：
- 在小型数据集上，TV-Diff 在 $(\beta_{min}, \beta_{max}) = (5e-4, 5e-3)$ 时达到峰值。这表明对于小型数据集，噪声上下限之间较小的差异有助于保持学习分布的一致性，从而提高训练稳定性。
- 在大型数据集上，TV-Diff 在 $(\beta_{min}, \beta_{max}) = (1e-3, 1e-2)$ 时性能最佳。这表明较大的噪声上下限差异为模型提供了更多关于极端噪声下的互信息，有助于探索可信的去噪模式。
噪声范围的影响：噪声上下限的设定影响了扩散过程的动态范围。适当的范围能够使模型在不同时间步有效学习，从而获得更好的性能。

6.4. 拓扑信息的影响

论文评估了不同拓扑信息编码方式（对称归一化、左归一化、LinkProp）对各向异性去噪器的影响。

以下是原文 Figure 11 的拓扑信息影响分析结果：

Figure 11: Influence of topological information. 分析：

对称归一化 (Sym.) 的优越性：对称归一化二部矩阵 (Sym.) 在所有数据集上始终优于其他方法。这表明它能够简洁且准确地编码用户和物品的各向异性度信号，从而为去噪器提供了最有效的拓扑信息。
左归一化 (Left) 的局限性：左归一化矩阵 (Left) 未能有效整合物品度信息，导致性能下降。这证实了在处理二部图时，仅考虑用户侧的度信息是不够的。
LinkProp 的局限性：LinkProp 是一种平滑图矩阵的方法，但它会衰减各向异性信号，导致模型性能恶化。这强调了在保持拓扑信息时，避免过度平滑和各向异性信号损失的重要性。
各向异性去噪器的有效性：这一结果进一步验证了各向异性去噪器的设计理念，即通过适当的拓扑信息编码，可以显著提升扩散模型的性能。

6.5. 能量与熵的可视化案例研究

通过对重建交互概率的能量和熵进行可视化（如原文 Figure 2 和 Figure 3 所示的初步实验），论文发现 TV-Diff 作为一种基于扩散的推荐框架，与主流方法一样优先考虑能量最大化。然而，TV-Diff 在熵减少方面表现出卓越的能力，其熵减少量 $\Delta S_T$ 显著高于现有扩散模型 $\Delta S_D$ （即 $\frac{\Delta S_D}{\Delta S_T} > 1$ ）。

分析：

TV-Diff 的双重优化：这一结果表明 TV-Diff 成功地超越了现有扩散模型单方面优化能量的局限性。通过将能量和熵通过亥姆霍兹自由能进行协调，TV-Diff 实现了同时最大化重建完整性（能量）和最小化预测不确定性（熵）的目标。
增强的泛化能力和性能：这种双重优化策略使得 TV-Diff 能够获得增强的泛化能力和整体性能，因为它在保留原始交互信息的同时，也确保了预测结果的确定性和区分度。

6.6. 效率分析

为了评估 TV-Diff 的效率，论文选取了 LightGCN 和 DiffRec 作为代表性基线进行比较。所有实验均在 Intel(R) Core(TM) i7-12700 CPU 和 GeForce RTX 3090 GPU 上运行。

以下是原文 Table 4 的效率比较结果：

(s=second)	LightGCN		DiffRec		TV-Diff
(s=second)	UT↓	#Ep.↓\|	UT↓	#Ep.↓\|	UT↓	#Ep.↓
LastFM	0.623s	424	0.353s	46	1.056s	26
Douban	5.345s	270	2.572s	66	1.649s	42
Gowalla	14.748s	368	19.303s	113	5.162s	45
Space	O(m + n)d)		O(m +n)d)		O(m + n)d)
Time	O(\|R+\|Kd)		O(2mnd)		O(\|B\|n + \|R+\|)

分析：

TV-Diff 的整体效率：TV-Diff 具有相当高的效率，尤其是在大型数据集上表现出色。
LightGCN 在大型数据集上的挑战：LightGCN 在大型数据集上（如 Gowalla）由于多层消息传递的计算成本较高，其每轮训练时间 (Unit Time per epoch, UT) 和总训练轮数 (#Ep.) 都较高。
DiffRec 在大型数据集上的挑战：DiffRec 在大型数据集上（如 Gowalla）的 UT 也很高，这可能是由于批次训练时难以维护性能。
TV-Diff 的优势：
- 在 Douban 和 Gowalla 等大型数据集上，TV-Diff 的 UT 显著低于 LightGCN 和 DiffRec。
- TV-Diff 的训练总轮数 (#Ep.) 在所有数据集上都非常低，远低于 LightGCN 和 DiffRec，这意味着它能更快收敛。
时间复杂度分析：
- LightGCN 的时间复杂度为 $O(|\mathbf{R}^+| K d)$ ，其中 $|\mathbf{R}^+|$ 是非零交互的数量， $K$ 是层数， $d$ 是嵌入维度。
- DiffRec 的时间复杂度为 $O(2mnd)$ ，其中 $m$ 是用户数， $n$ 是物品数。
- TV-Diff 的时间复杂度为 $O(|\mathcal{B}|n + |\mathbf{R}^+|)$ ，其中 $|\mathcal{B}|$ 是批次大小， $n$ 是物品数， $|\mathbf{R}^+|$ 是非零交互数量。其中，AR-GSP 的排序部分占用 $O(|\mathcal{B}|n \log n)$ ，但作者认为可以忽略。这种复杂度在大型数据集上通常更优。
  
  结论：TV-Diff 在保持高准确性的同时，也展现出了卓越的训练效率，特别是在处理大型数据集时，其收敛速度更快，单轮训练时间更短。

7. 总结与思考

7.1. 结论总结

本文提出了一个新颖的三视图扩散推荐框架 (Tri-View Diffusion Framework for Recommendation)，命名为 TV-Diff，旨在解决现有基于扩散模型的推荐系统在理论完备性、拓扑信息利用和负采样策略上的不足。

TV-Diff 的核心贡献在于：

热力学视角 (Thermodynamic View)：通过引入亥姆霍兹自由能最大化 (Helmholtz Free Energy Maximization) 作为优化目标，成功地将基于扩散模型的能量最大化 (energy maximization) 和经典推荐模型的熵最小化 (entropy minimization) 统一起来，实现了更全面和鲁棒的模型优化。
拓扑学视角 (Topological View)：设计了各向异性去噪器 (Anisotropic Denoiser)，它显式地捕获并维护了用户-物品二部图中的各向异性 (anisotropy) 信号。该去噪器通过用户-物品交叉相关性进行预测，并采用单层消息传递以避免多层 GNN 带来的熵损失和计算开销。
难负样本视角 (Hard-Negative View)：提出了接受-拒绝 Gumbel 采样过程 (Acceptance-Rejection Gumbel Sampling Process, AR-GSP)。该过程通过接受-拒绝采样筛选高质量的难负样本，并结合时间步依赖的 Gumbel Softmax 来适应扩散过程中不稳定的得分，从而为扩散模型提供更具鲁棒性和适应性的负采样策略。

理论分析和广泛的实验结果表明，TV-Diff 在准确性和效率方面均显著优于多种基线模型，验证了其设计的有效性。

7.2. 局限性与未来工作

论文作者在结论中指出了未来的研究方向：

深入研究扩散模型的基本架构和过程：未来的工作将更深入地探索扩散模型的基本架构和内在过程，以期为推荐系统带来更好的改进。这可能包括研究更适合推荐场景的扩散核、采样策略或网络结构。

除了作者指出的未来工作，本文可能存在的局限性还包括：
亥姆霍兹自由能的理论完备性：虽然引入了亥姆霍兹自由能来统一能量和熵，但其在信息学中的映射（如能量对应 MSE，熵对应 BCE）是否是唯一的、最优的，以及这种映射是否在所有推荐场景下都具有普适性，仍值得深入探讨。
各向异性去噪器的泛化能力：虽然各向异性去噪器在二部图上表现出色，但其单层消息传递的策略，在处理更复杂、高阶的用户-物品交互或异构信息图时，是否会损失某些深层协同信息，值得进一步研究。
AR-GSP 的计算开销：尽管效率分析表明 TV-Diff 整体高效，但 AR-GSP 中的接受-拒绝采样和 Gumbel Softmax 引入了额外的计算复杂性。尽管作者声称其排名部分 $O(|\mathcal{B}|n \log n)$ 可以忽略，但在超大规模推荐系统中，这部分开销仍可能成为瓶颈。
超参数的敏感性：论文对多个超参数进行了敏感性分析，并发现最佳值因数据集规模而异。这意味着在实际应用中，TV-Diff 可能需要针对特定数据集进行细致的超参数调优，增加了部署的复杂性。

7.3. 个人启发与批判

这篇论文提供了一个非常新颖和深入的视角来审视扩散模型在推荐系统中的应用，尤其是在理论结合实践方面做得很好。

个人启发：

跨学科融合的强大潜力：将热力学概念（能量、熵、亥姆霍兹自由能）引入推荐系统和扩散模型，为模型的设计和优化提供了全新的理论指导和解释框架。这种跨学科的思维方式是解决复杂问题的重要途径。
模型“完备性”的思考：论文通过能量和熵来衡量模型的“完备性”，这是一个非常有启发性的视角。它促使我们思考，一个优秀的推荐模型不仅要能准确预测（高能量），还要能提供确定的、低不确定性的预测（低熵）。
针对模型特性的定制化设计：扩散模型在推荐领域的早期应用往往是“拿来主义”，直接移植其他领域的损失和架构。本文则深入分析了扩散模型自身的特性（如去噪能力、噪声敏感性）以及推荐任务的特性（如二部图的各向异性、负采样的挑战），并在此基础上进行定制化设计（各向异性去噪器、AR-GSP），这才是真正发挥模型潜力的方法。
负采样在 DM 中的新方向：将 Gumbel Softmax 与时间步依赖性结合，以适应扩散模型中预测得分的不稳定性，为扩散模型中的负采样开辟了新的思路。

批判性思考：

热力学概念的解释性与因果性：虽然引入热力学概念提供了优雅的统一框架，但其在信息学中具体的数学形式（如 MSE 和 BCE）是基于经验选择的。这种映射在多大程度上真正捕捉了热力学原理的因果关系，而非仅仅是形式上的类比，值得更深入的理论探讨。例如，能否从热力学第一性原理出发，直接推导出推荐模型的最优损失函数？
单层消息传递的限制：各向异性去噪器采用单层消息传递来避免熵损失和计算开销。然而，许多复杂推荐场景，如社交推荐或序列推荐，可能需要捕获高阶甚至超高阶的用户-物品交互信息。单层传递可能在捕获这些复杂模式方面存在局限性，导致在某些特定任务上性能受限。未来的工作可以探索如何在保持各向异性的同时，有效融入多层消息传递。
Gumbel Softmax 的鲁棒性：时间步依赖的 Gumbel Softmax 在高噪声下趋于均匀分布，以避免误判。这在一定程度上牺牲了采样精度来换取鲁棒性。在噪声级别适中或噪声分布复杂的情况下，这种自适应策略的最优性如何，以及它如何影响模型对细微偏好的学习，需要更精细的分析。
实际部署的复杂性：TV-Diff 框架引入了多个新组件和超参数（如 $t, \gamma, \lambda$ 等），尽管实验证明了其有效性，但实际部署时，这些超参数的精细调优可能需要大量计算资源和专业知识，尤其是在新数据集上。如何在保持性能的同时简化模型结构或提供更强的自适应能力，是工程化落地的挑战。

总体而言，TV-Diff 是一篇非常有价值的论文，它为推荐系统中的扩散模型研究开辟了新的方向，并提供了一个强大且富有洞察力的框架。

相似论文推荐

基于向量语义检索推荐的相关论文。

暂时没有找到相似论文。

Towards A Tri-View Diffusion Framework for Recommendation

TL;DR 精炼摘要

摘要

思维导图

论文精读

中文精读约 48 分钟读完 · 33,106 字

1. 论文基本信息

1.1. 标题

1.2. 作者

1.3. 发表期刊/会议

1.4. 发表年份

1.5. 摘要

1.6. 原文链接

2. 整体概括

2.1. 研究背景与动机

2.2. 核心贡献/主要发现

3. 预备知识与相关工作

3.1. 推荐任务 (Recommendation Task)

3.2. 扩散模型 (Diffusion Model) 基础

3.2.1. 前向扩散过程 (Forward Diffusion Process)

3.2.2. 逆向去噪过程 (Reverse Denoising Process)

3.2.3. 优化目标 (Optimization Objective)

3.3. 热力学概念：能量、熵和亥姆霍兹自由能 (Helmholtz Free Energy)

3.3.1. 能量 (Energy)

3.3.2. 熵 (Entropy)

3.3.3. 亥姆霍兹自由能 (Helmholtz Free Energy)

3.4. 图神经网络 (Graph Neural Networks) 与协同过滤 (Collaborative Filtering)

3.4.1. 图神经网络 (Graph Neural Networks, GNNs)

3.4.2. 协同过滤 (Collaborative Filtering, CF)

3.5. 负采样 (Negative Sampling)

3.6. 相关工作概述与差异化分析

3.6.1. 基于扩散模型的推荐系统 (Diffusion-based Recommender Models)

3.6.2. 图神经网络推荐模型 (Graph-based Recommender Models)

3.6.3. 难负采样 (Hard Negative Sampling)

4. 方法论

4.1. TV-Diff 框架总览

4.2. 热力学视角：亥姆霍兹自由能最大化 (Helmholtz Free Energy Maximization)

4.2.1. 模型的能量与熵分析

4.2.2. 亥姆霍兹自由能损失函数

4.3. 拓扑学视角：各向异性去噪器 (Anisotropic Denoiser)

4.3.1. 熵与拓扑信息的联系

4.3.2. 各向异性去噪器设计

4.4. 难负样本视角：接受-拒绝 Gumbel 采样过程 (Acceptance-Rejection Gumbel Sampling Process, AR-GSP)

4.4.1. 负采样理论分析

4.4.2. 接受-拒绝采样 (Acceptance-Rejection Sampling)

4.4.3. 时间步依赖的 Gumbel Softmax (Timestep-Dependent Gumbel Softmax)

4.5. 算法流程 (Algorithms)

4.5.1. 训练过程 (Algorithm 1)

4.5.2. 推理过程 (Algorithm 2)

5. 实验设置

5.1. 数据集

5.2. 评估指标

5.2.1. 召回率 (Recall@K)

5.2.2. 归一化折损累计增益 (NDCG@K)

5.3. 对比基线

5.4. 实现细节

6. 实验结果与分析

6.1. 性能对比

6.2. 消融实验 (Ablation Study)

6.2.1. 不同视角的有效性

6.2.2. 熵基础目标的影响

6.2.3. 接受-拒绝采样与传统难负采样的比较

6.3. 超参数敏感性分析

6.3.1. 温度 ttt

6.3.2. 负因子 γ\gammaγ

6.3.3. 扩散时间步 TTT

6.3.4. 噪声尺度 sss

6.3.5. 噪声上下限 (βmin,βmax)(\beta_{min}, \beta_{max})(βmin​,βmax​)

6.4. 拓扑信息的影响

6.5. 能量与熵的可视化案例研究

6.6. 效率分析

7. 总结与思考

7.1. 结论总结

7.2. 局限性与未来工作

7.3. 个人启发与批判

相似论文推荐

6.3.1. 温度 $t$

6.3.2. 负因子 $\gamma$

6.3.3. 扩散时间步 $T$

6.3.4. 噪声尺度 $s$

6.3.5. 噪声上下限 $(\beta_{min}, \beta_{max})$