论文状态：已完成

De-collapsing User Intent: Adaptive Diffusion Augmentation with Mixture-of-Experts for Sequential Recommendation

价格：0.100000

已有 4 人读过

本分析由 AI 生成，可能不完全准确，请以原文为准。

TL;DR 精炼摘要

本文提出了一种自适应扩散增强推荐框架（ADARec），旨在解决序列推荐中的数据稀疏性问题。通过利用混合专家架构，ADARec有效解耦用户意图的粗粒度与细粒度层次，重建真实意图层次结构。实验表明，该方法在标准基准和稀疏序列上均显著优于现有技术。

摘要

Sequential recommendation (SR) aims to predict users’ next action based on their historical behavior, and is widely adopted by a number of platforms. The performance of SR models relies on rich interaction data. However, in real-world scenarios, many users only have a few historical interactions, leading to the problem of data sparsity. Data sparsity not only leads to model overfitting on sparse sequences, but also hinders the model’s ability to capture the underlying hierarchy of user intents. This results in misinterpreting the user’s true intents and recommending irrelevant items. Existing data augmentation methods attempt to mitigate overfitting by generating relevant and varied data. However, they overlook the problem of reconstructing the user’s intent hierarchy, which is lost in sparse data. Consequently, the augmented data often fails to align with the user’s true intents, potentially leading to misguided recommendations. To address this, we propose the Adaptive Diffusion Augmentation for Recommendation (ADARec) framework. Critically, instead of using a diffusion model as a black-box generator, we use its entire step-wise denoising trajectory to reconstruct a user’s intent hierarchy from a single sparse sequence. To ensure both efficiency and effectiveness, our framework adaptively determines the required augmentation depth for each sequence and employs a specialized mixture-of-experts architecture to decouple coarse- and fine-grained intents. Experiments show ADARec outperforms state-of-the-art methods by 2-9% on standard benchmarks and 3-17% on sparse sequences, demonstrating its ability to reconstruct hierarchical intent representations from sparse data.

思维导图

论文精读

中文精读约 33 分钟读完 · 22,412 字

1. 论文基本信息

1.1. 标题

De-collapsing User Intent: Adaptive Diffusion Augmentation with Mixture-of-Experts for Sequential Recommendation (解构用户意图：基于混合专家的自适应扩散增强序列推荐)

1.2. 作者

Xiaoxi Cui, Chao Zhao, Yurong Cheng (北京理工大学，中国)；Xiangmin Zhou (RMIT大学，墨尔本，澳大利亚)。

1.3. 发表期刊/会议

论文在参考文献中提及 In Proceedings of the 48th International ACM SIGIR Conference on Research and Development in Information Retrieval，这表明该论文预计发表于 第48届国际ACM SIGIR信息检索研究与开发会议 (SIGIR 2025)。SIGIR 是信息检索领域的顶级会议，具有很高的学术声誉和影响力。

1.4. 发表年份

2025年。

1.5. 摘要

序列推荐 (Sequential Recommendation, SR) 旨在根据用户的历史行为预测其下一步行动，并被众多平台广泛采用。SR 模型的性能依赖于丰富的交互数据。然而，在真实世界的场景中，许多用户只有少量历史交互，导致数据稀疏性问题。数据稀疏性不仅导致模型在稀疏序列上过拟合，还阻碍了模型捕获用户意图底层层次结构的能力。这导致对用户真实意图的误解和推荐不相关物品。现有的数据增强方法试图通过生成相关且多样化的数据来缓解过拟合。然而，它们忽视了重建用户意图层次结构的问题，而这种层次结构在稀疏数据中丢失了。因此，增强数据往往未能与用户真实意图对齐，可能导致误导性推荐。为了解决这个问题，我们提出了自适应扩散增强推荐 (Adaptive Diffusion Augmentation for Recommendation, ADARec) 框架。关键在于，我们没有将扩散模型用作黑盒生成器，而是利用其完整的逐步去噪轨迹来从单个稀疏序列中重建用户意图层次结构。为了确保效率和有效性，我们的框架自适应地确定每个序列所需的增强深度，并采用专门的混合专家 (Mixture-of-Experts) 架构来解耦粗粒度 (coarse-grained) 和细粒度 (fine-grained) 意图。实验表明，ADARec 在标准基准测试上优于最先进的方法 2-9%，在稀疏序列上优于 3-17%，证明了其从稀疏数据中重建层次意图表示的能力。

1.6. 原文链接

/files/papers/694a32027a7e7809d937f471/paper.pdf

2. 整体概括

2.1. 研究背景与动机

核心问题: 序列推荐 (SR) 模型在现实世界中面临严重的数据稀疏性 (data sparsity) 问题。许多用户只有少量历史交互，这导致两个主要挑战：
1. 模型容易在稀疏交互序列上过拟合。
2. 模型难以捕获用户意图的底层层次结构 (underlying hierarchy of user intents)，从而导致对用户真实意图的误解和推荐不相关的物品。
问题重要性: SR 在电商、媒体流等在线服务中广泛应用，其推荐质量直接影响用户体验和平台收益。用户的活动通常遵循长尾分布，这意味着数据稀疏性是一个普遍且关键的问题。
现有研究的挑战/空白 (Gap):
- 现有意图学习方法：如图 1 所示，在稀疏数据下，它们可能过度拟合少数交互物品的表面特征（例如，将能量棒归类为零食，登山靴归类为鞋子），从而错误地推断出用户是想买更多“零食”或“鞋子”，而未能捕捉到更高层次的意图（例如“徒步旅行”）。
- 现有数据增强方法：它们通常通过生成更多相关或多样化的数据来缓解过拟合。然而，这些方法往往在“相关性”和“多样性”之间进行盲目权衡，没有高层意图的指导，生成的增强数据可能无法与用户的真实意图对齐，甚至可能导致误导性推荐（例如，生成足球和运动鞋，可能错误地推断用户想买“足球鞋”）。
- 核心空白：现有方法普遍忽视了从稀疏数据中重建和利用用户“意图层次结构”的问题。意图层次结构（从细粒度到粗粒度）是理解用户真实需求的关键，但在数据稀疏时极易丢失或“崩塌” (de-collapsing)。
论文的切入点/创新思路: 论文认为数据增强的关键不在于盲目权衡相似性和多样性，而在于构建用户意图的层次结构。作者受到信息瓶颈 (Information Bottleneck, IB) 原理的启发，提出利用扩散模型 (diffusion model) 的去噪轨迹来逐步揭示用户意图的不同抽象层次。

2.2. 核心贡献/主要发现

论文提出了 ADARec (Adaptive Diffusion Augmentation for Recommendation) 框架，其核心贡献和主要发现如下：

提出 ADARec 框架： 首次提出利用扩散模型的整个逐步去噪轨迹来从单个稀疏序列中重建用户意图层次结构，旨在解决数据稀疏性导致的意图层次崩塌问题。
引入 HDA 模块： 设计了层次扩散增强 (Hierarchical Diffusion Augmentation, HDA) 模块。它利用扩散过程逐步从细粒度到粗粒度生成丰富的用户意图层次，即通过模型的去噪过程，在高噪声水平下捕捉粗粒度意图，在低噪声水平下恢复细粒度意图。
设计 ADC 和 HP-MoE 模块：
- 自适应深度控制器 (Adaptive Depth Controller, ADC)： 智能地为每个用户序列确定最佳的扩散增强深度，以平衡计算效率和增强效果。
- 层次解析混合专家 (Hierarchical Parsing Mixture-of-Experts, HP-MoE) 模块： 专门设计用于高效地解析生成的意图层次。它通过功能解耦的专家（细粒度专家和粗粒度专家）和内容感知路由机制，将不同粒度的意图进行处理和融合。
实验验证卓越性能： 在真实世界数据集上进行的大量实验表明，ADARec 在标准基准测试上优于最先进的方法 2-9%。尤其是在极度稀疏的序列上，性能提升更为显著，达到了 3-17%。这有力地证明了 ADARec 从稀疏数据中重建层次意图表示的有效性。

3. 预备知识与相关工作

3.1. 基础概念

序列推荐 (Sequential Recommendation, SR): 是一种推荐系统，其目标是根据用户过去一系列的交互行为（例如购买、点击、浏览历史）来预测用户下一步可能感兴趣的物品。SR 模型需要捕捉用户行为的动态模式和时间依赖性。
数据稀疏性 (Data Sparsity): 指在推荐系统中，用户与物品之间的交互记录非常少。这导致用户历史行为序列短，模型难以从有限的数据中学习到可靠的用户偏好和模式，容易出现过拟合和泛化能力差的问题。
用户意图 (User Intent): 指用户在与推荐系统交互时所隐含的潜在目的或需求。例如，用户购买一双跑鞋和运动服可能表明其有“健身”的意图。
意图层次 (Intent Hierarchy): 指用户的意图可以存在不同的抽象层次。例如，“购买水瓶”是细粒度意图，“准备徒步旅行”是粗粒度意图。这种从具体到抽象的结构就是意图层次。在稀疏数据中，识别和重建这种层次结构极具挑战性。
数据增强 (Data Augmentation): 一种通过对现有数据进行变换或生成新数据来扩充训练集的技术。目的在于增加数据的多样性，减少模型过拟合，提高模型的泛化能力。在序列推荐中，常见的方法包括对序列进行掩码 (masking)、裁剪 (cropping)、重排 (reordering) 等。
扩散模型 (Diffusion Models): 是一类生成模型，它通过模拟一个逐渐向数据添加随机噪声（前向过程）的物理过程，并学习如何逆转这个过程（反向过程，即去噪）来生成新的数据。
- 前向过程 (Forward Process / Noising): 逐渐向原始数据 $\mathbf{x}_0$ 添加高斯噪声，生成一系列带噪数据 $\mathbf{x}_1, \dots, \mathbf{x}_T$ 。随着时间步 $t$ 增大，噪声量增加，数据逐渐变为纯噪声。
- 反向过程 (Reverse Process / Denoising): 从纯噪声 $\mathbf{x}_T$ 开始，通过学习到的去噪网络逐步去除噪声，最终恢复出原始数据 $\mathbf{x}_0$ 。每一步去噪都旨在从当前带噪数据中预测并移除噪声，从而得到一个更清晰的表示。
信息瓶颈 (Information Bottleneck, IB) 原理: 一种理论框架，旨在从原始数据中提取出与目标变量最相关且最简洁的表示。核心思想是，通过引入一个“瓶颈”（例如添加噪声），迫使模型丢弃不重要的细节，只保留那些对预测目标至关重要的最基本、最通用的模式。在本文中，扩散模型的去噪过程被视为一种信息瓶颈，高噪声水平强制模型学习粗粒度、抽象的意图。
混合专家模型 (Mixture-of-Experts, MoE): 是一种神经网络架构，它由多个“专家网络” (expert networks) 和一个“门控网络” (gating network) 组成。门控网络根据输入决定将任务路由给哪个或哪些专家，或者如何组合多个专家的输出。这使得模型能够处理多样化的输入，并通过专业化的专家提高效率和效果。
Gumbel-Softmax 估计器: 是一种用于在神经网络中进行离散选择（例如从一组类别中选择一个）的可微近似方法。它允许通过反向传播来训练离散变量，通常用于采样或门控机制中。
InfoNCE Loss (Information Noise-Contrastive Estimation Loss): 是一种在对比学习中常用的损失函数。它通过最大化正样本对（相关样本）之间的相似度，同时最小化负样本对（不相关样本）之间的相似度来学习有意义的表示。它通常以交叉熵的形式计算，旨在区分真实配对与随机配对。

3.2. 前人工作

序列推荐模型的发展:
- 早期模型: 马尔可夫链 (Markov Chains) (He and McAuley 2016; Rendle, Freudenthaler, and Schmidt-Thieme 2010)。
- 深度学习模型: 循环神经网络 (RNNs) (Hidasi et al. 2015)、Transformer (Kang and McAuley 2018; Sun et al. 2019; Zhou et al. 2024)、图神经网络 (GNNs) (Chang et al. 2021; Li et al. 2023b) 和多层感知机 (MLPs) (Li et al. 2022; Zhou et al. 2022)。
- 自监督学习 (Self-supervised Learning): 广泛应用于序列推荐 (Xie et al. 2022; Liu et al. 2021; Qiu et al. 2022; Yang et al. 2023)。
意图学习 (Intent Learning): 旨在捕捉用户的多重意图。
- 多兴趣建模 (Multi-interest modeling): (Li et al. 2019; Cen et al. 2020)。
- 解耦 (Disentanglement): (Ma et al. 2020; Li et al. 2024)。
- 端到端聚类 (End-to-end clustering): (Chen et al. 2022; Liu et al. 2024)，如 ELCRec (Liu et al. 2024)。
数据稀疏性缓解策略 (Data Augmentation):
- 简单启发式方法: 掩码 (masking) 和裁剪 (cropping) (Xie et al. 2022; Liu et al. 2021)。
- 基于扩散模型的方法:
  - 生成泛化偏好 (Ma et al. 2024; Luo, Li, and Lin 2025)。
  - 从稀疏交互中去噪特征表示 (Cui et al. 2025a,b)。
  - 例如 PDRec (Ma et al. 2024)、GlobalDiff (Luo, Li, and Lin 2025)、DiffDiv (Cai et al. 2025)。
- 表示级 Mixup: 平衡相关性和多样性 (Dang et al. 2025)，例如 BASRec。

3.3. 技术演进

序列推荐技术从早期的简单统计模型（如马尔可夫链）发展到复杂的深度学习架构（如 Transformer）。为了解决数据稀疏性，研究人员不断探索新的数据增强技术。早期的增强方法主要集中在对现有序列进行简单变换。随着生成模型的发展，尤其是扩散模型，它们开始被应用于生成更丰富、更多样化的数据或去噪特征表示。然而，现有的大多数数据增强方法，无论是基于启发式的还是基于扩散模型的，其核心策略都是通过生成更多样化的物品来丰富训练集。这些方法往往缺乏用户高层意图的指导，可能导致生成的增强数据偏离用户的真实意图。它们未能解决数据稀疏性导致的根本问题——用户意图层次结构的不完整性。

3.4. 差异化分析

ADARec 与现有工作的主要区别和创新点在于：

意图层次结构重建： 现有扩散增强方法（如 DiffDiv, GlobalDiff, PDRec）通常将扩散模型作为黑盒生成器，仅利用其最终输出作为增强数据。ADARec 则超越了这种“单点”生成，创新性地利用扩散模型整个逐步去噪轨迹来重建一个从细粒度到粗粒度的完整用户意图层次结构。这是对数据稀疏性导致意图“崩塌”问题的直接且更有力的回应。
自适应性和效率： 考虑到扩散模型的高计算成本，ADARec 引入了自适应深度控制器 (ADC)，为每个序列动态确定最佳的增强深度，有效平衡了增强效果和计算效率。这解决了传统扩散模型在实际应用中的一个主要障碍。
专业化意图解析： 针对重建出的意图层次包含不同粒度（粗粒度、细粒度）的特性，ADARec 设计了层次解析混合专家 (HP-MoE) 模块。该模块通过功能解耦的专家和内容感知路由机制，能够高效且有针对性地处理不同层次的意图表示，并最终融合为一个丰富的用户表示。这比单一模型处理所有粒度意图更具优势。
目标导向的损失设计： HP-MoE 中的两个专家分别通过推荐损失 ( $\mathcal{L}_{rec}$ ) 和对比损失 ( $\mathcal{L}_{cont}$ ) 进行优化，确保了细粒度专家关注精确预测，粗粒度专家捕捉不变本质，进一步强化了意图的解耦和学习。

4. 方法论

ADARec (Adaptive Diffusion Augmentation for Recommendation) 框架旨在从稀疏的用户行为数据中构建分层的用户意图表示。它主要由三个关键模块组成：自适应深度控制器 (Adaptive Depth Controller, ADC)、层次扩散增强 (Hierarchical Diffusion Augmentation, HDA) 和层次解析混合专家 (Hierarchical Parsing Mixture-of-Experts, HP-MoE)。整个架构的概述如原文 Figure 3 所示。

4.1. 方法原理

ADARec 的核心思想是，数据稀疏性使得模型难以捕捉用户意图的层次结构。为了解决这个问题，它借鉴了信息瓶颈 (Information Bottleneck, IB) 原理，利用扩散模型的去噪过程来逐步揭示用户意图的不同抽象层次。具体来说：

意图层次的构建： 扩散模型的去噪过程会从一个高度噪声的表示（粗粒度信息）逐步恢复到接近原始的清晰表示（细粒度信息）。ADARec 创新地将这一整个去噪轨迹视为用户意图从粗到细的连续演化。在高噪声水平下，模型被迫从不完整信号中提取抽象信息，形成粗粒度意图；随着噪声减少，模型恢复更多行为细节，形成细粒度意图。
效率与自适应性： 由于扩散模型计算成本较高，ADARec 通过 ADC 模块为每个用户序列自适应地确定所需的去噪深度，从而在保证效果的同时提高效率。
专业化处理： 构建出的意图层次包含不同粒度的信息，难以由单一模块有效处理。ADARec 引入 HP-MoE 模块，通过专门的细粒度专家和粗粒度专家来分别处理和融合这些表示，并使用门控机制动态路由，以获得更全面、鲁棒的用户表示。

4.2. 核心方法详解

4.2.1. 序列嵌入 (Sequence Embedding)

首先，对于用户的历史交互序列 $S_u$ ，我们使用 ELCRec (Liu et al. 2024) 作为骨干编码器来获取序列嵌入 $\mathbf{E}_u^0 \in \mathbb{R}^{L \times D}$ 。其中 $L$ 是序列的最大长度， $D$ 是嵌入维度。同时，用户的序列长度 $l_u$ 也通过一个多层感知机 (MLP) 进行编码，得到一个序列长度的嵌入向量 $\mathbf{v}_{l_u}$ 。这两个嵌入 $\mathbf{E}_u^0$ 和 $\mathbf{v}_{l_u}$ 将作为后续自适应增强框架的输入。

4.2.2. 自适应深度控制器 (Adaptive Depth Controller, ADC)

为了为每个用户定制化增强过程，ADC 模块负责确定用户序列 $S_u$ 的最优增强深度 $T_u$ 。

ADC 的输入是用户原始序列嵌入 $\mathbf{E}_u^0$ 和归一化序列长度的嵌入向量 $\mathbf{v}_{l_u}$ 。为了捕捉序列的上下文信息和时间依赖性，将这两个输入进行拼接，然后送入一个门控循环单元 (GRU) 网络。GRU 的输出随后通过池化 (Pool) 操作（例如平均池化）聚合成一个固定维度的向量 $\mathbf{h}_c$ 。最后， $\mathbf{h}_c$ 通过一个线性变换（即 MLP）生成一个在 0 到预定义的最大深度 $T_{max}$ 之间所有可能深度的 logits 向量。

$\begin{array}{r} \mathbf{h}_c = \mathrm{Pool}(\mathrm{GRU}([\mathbf{E}_u^0; \mathbf{v}_{l_u}])) \\ \mathbf{logits}_u = \mathbf{W}_{\sigma} \mathbf{h}_c + b_{\sigma} \end{array}$

其中：

$\mathbf{E}_u^0 \in \mathbb{R}^{L \times D}$ 是用户序列的初始嵌入。
$\mathbf{v}_{l_u} \in \mathbb{R}^{D_l}$ 是序列长度的嵌入向量， $D_l$ 是长度嵌入的维度。
$[\cdot; \cdot]$ 表示向量拼接操作。
$\mathrm{GRU}(\cdot)$ 是门控循环单元网络，用于处理序列信息。
$\mathrm{Pool}(\cdot)$ 是池化函数（例如平均池化），用于从 GRU 输出中提取固定长度的表示。
$\mathbf{h}_c \in \mathbb{R}^{D_h}$ 是池化后的隐藏状态，代表了序列的压缩信息。
$\mathbf{logits}_u \in \mathbb{R}^{T_{max}+1}$ 是未经归一化的深度选择分数。
$\mathbf{W}_{\sigma} \in \mathbb{R}^{(T_{max}+1) \times D_h}$ 和 $b_{\sigma} \in \mathbb{R}^{T_{max}+1}$ 是可学习的权重和偏置参数。

为了以可微方式选择离散的深度 $T_u$ ，我们使用 Gumbel-Softmax 估计器对 $T_{max}+1$ 个离散选择进行操作。在训练的前向传播中，选择概率最高的深度（argmax 操作），而在反向传播中则使用 Gumbel-Softmax 的平滑概率分布。

$\mathbf{p}_u = \mathrm{Softmax}((\mathbf{logits}_u + \mathbf{g}) / \tau_{gs})$

其中：

$\mathbf{p}_u \in \mathbb{R}^{T_{max}+1}$ 是经过 Gumbel-Softmax 归一化后的概率分布，表示选择每个深度的概率。
$\mathbf{g}$ 是从 Gumbel(0,1) 分布中独立同分布 (i.i.d.) 采样的样本，用于引入随机性以促进探索。
$\tau_{gs}$ 是 Gumbel-Softmax 的温度参数，控制分布的尖锐程度。在训练过程中通常会逐渐退火。

为了防止 ADC 在训练早期倾向于选择“安全”的浅层深度，从而限制探索，我们引入了一个辅助探索损失 (auxiliary exploration loss)。这个损失鼓励 ADC 在其选择中保持一定程度的不确定性，促进对所有可能深度的探索。我们使用 ADC 概率分布的负熵作为此损失：

$\mathcal{L}_{expl} = - \sum_{i=0}^{T_{max}} p_{u,i} \log p_{u,i}$

其中：

$p_{u,i}$ 是 ADC 选择深度 $i$ 的概率。
$\mathcal{L}_{expl}$ 旨在最大化概率分布的熵，从而鼓励 ADC 探索更广泛的深度选择。

4.2.3. 层次扩散增强 (Hierarchical Diffusion Augmentation, HDA)

HDA 模块是 ADARec 的核心，它利用扩散模型的去噪轨迹来构建用户意图的层次结构。与现有仅使用扩散模型最终输出的增强方法不同，HDA 关注整个去噪路径。

通过去噪轨迹构建意图层次的直觉： 扩散模型的去噪过程可以看作是一种信息压缩和恢复的过程。在高噪声水平 $k$ （接近 $T_u$ ）时，去噪网络 $\epsilon_\theta(\mathbf{E}_u^k, k)$ 必须从高度不完整和模糊的信号中提取信息。这迫使模型关注最抽象、最通用的模式，从而形成粗粒度意图。此时，原始信息的保留量非常少 ( $I(\hat{\mathbf{E}}_k; \mathbf{E}_u) \ll H(\mathbf{E}_u)$ )，但模型仍需保持对下一步推荐的预测相关性（通过 $\mathcal{L}_{rec}$ 优化）。随着噪声水平 $k$ 降低（接近 0），去噪网络逐渐恢复更多具体的行为细节，形成细粒度意图。此时，原始信息几乎完全保留 ( $I(\hat{\mathbf{E}}_k; \mathbf{E}_u) \approx H(\mathbf{E}_u)$ )。因此，从 $k = T_u$ 到 $k = 0$ 的整个去噪轨迹 $\{\hat{\mathbf{E}}_0, \hat{\mathbf{E}}_1, \dots, \hat{\mathbf{E}}_{T_u}\}$ 自然地构成了一个用户意图的层次结构，其中高 $k$ 值对应粗粒度意图，低 $k$ 值对应细粒度意图。

HDA 的过程： 给定用户 $u$ 的序列嵌入 $\mathbf{E}_u^0$ 和 ADC 预测的深度 $T_u$ ，HDA 模块首先执行扩散模型的前向过程 (forward process)，即逐步向 $\mathbf{E}_u^0$ 添加高斯噪声，生成一系列带噪表示 $\{\mathbf{E}_u^k\}_{k=0}^{T_u}$ 。

$\mathbf{E}_u^k = \sqrt{\bar{\alpha}_k} \mathbf{E}_u^0 + \sqrt{1 - \bar{\alpha}_k} \pmb{\epsilon}_k , \quad \epsilon_k \sim \mathcal{N}(0, \mathbf{I})$

其中：

$\mathbf{E}_u^k$ 是在时间步 $k$ 时的带噪序列嵌入。
$\mathbf{E}_u^0$ 是原始的序列嵌入。
$\bar{\alpha}_k$ 是预定义的噪声调度参数，控制在时间步 $k$ 时添加到原始数据中的噪声量。本文采用 DDPM (Ho, Jain, and Abbeel 2020) 中的线性方差调度。
$\pmb{\epsilon}_k$ 是从标准高斯分布 $\mathcal{N}(0, \mathbf{I})$ 中采样的噪声。

HDA 的核心在于反向过程 (reverse process)，由可训练的去噪网络 $D_\theta$ 执行。去噪网络的目标是预测并移除每个时间步 $k$ 添加的噪声，从而恢复出原始的序列嵌入。

$\hat{\mathbf{E}}_u^k = \frac{\mathbf{E}_u^k - \sqrt{1 - \bar{\alpha}_k} \epsilon_\theta(\mathbf{E}_u^k, k)}{\sqrt{\bar{\alpha}_k}}$

其中：

$\hat{\mathbf{E}}_u^k$ 是在时间步 $k$ 经过去噪网络恢复出的估计原始序列嵌入。
$\epsilon_\theta(\mathbf{E}_u^k, k)$ 是去噪网络 $D_\theta$ 预测的在时间步 $k$ 时的噪声。
去噪网络 $D_\theta$ 被实现为一个简单的多层感知机 (MLP) 以确保效率。

去噪网络 $D_\theta$ 通过最小化预测噪声 $\epsilon_\theta(\mathbf{E}_u^k, k)$ 和真实噪声 $\pmb{\epsilon}_k$ 之间的均方误差 (MSE) 损失进行优化：

$\mathcal{L}_{deno} = ||\epsilon_\theta(\mathbf{E}_u^k, k) - \epsilon_k||^2$

这个迭代过程，从高度带噪的 $\mathbf{E}_u^{T_u}$ 逐步去噪到 $\mathbf{E}_u^0$ ，产生了一个高质量的意图层次 $A_u = \{\hat{\mathbf{E}}_u^{T_u}, \hat{\mathbf{E}}_u^{T_u-1}, \dots, \hat{\mathbf{E}}_u^0\}$ 。在这个层次结构中，高 $k$ 值的元素表示粗粒度意图，而低 $k$ 值的元素捕捉细粒度意图。HDA 模块的最终输出不是单个向量，而是整个结构化的集合 $A_u$ 。

4.2.4. 层次解析混合专家 (Hierarchical Parsing MoE, HP-MoE)

为了高效地解析由 HDA 生成的意图层次 $A_u$ ，ADARec 设计了 HP-MoE 模块。该模块旨在智能地解耦和处理粗粒度与细粒度意图。

功能解耦专家 (Functionally Decoupled Experts): HP-MoE 包含两个专门的专家网络，分别处理不同粒度的意图：

细粒度专家 ( $E_{fin}$ ):
- 目的：捕捉用户序列中更具体、更瞬态的细节。
- 实现：使用一个 Transformer 模型 (Vaswani et al. 2017)。
- 优化：主要通过标准推荐损失 $\mathcal{L}_{rec}$ 进行优化。推荐损失直接优化下一项预测，为细粒度意图提供了足够精确的监督信号，使其专注于序列中的微妙细节。
粗粒度专家 ( $E_{coar}$ ):
- 目的：提取用户的更高层次、更稳定不变的意图。
- 优化：应用一个排他性对比损失 $\mathcal{L}_{cont}$ 。这个基于 InfoNCE 的损失强制专家学习用户的不变本质，通过拉近其自身粗粒度层次中的表示，同时推远与其他用户的粗粒度意图表示。
  
  对比损失 $\mathcal{L}_{cont}$ 的计算如下：

$\mathcal{L}_{cont} = \sum_{k = \lfloor T_u / 2 \rfloor}^{T_u - 1} - \log \frac{\exp(\mathrm{sim}(\mathbf{z}_{u,k}, \mathbf{z}_{u,k+1}) / \tau)}{\sum_{\mathbf{z}_j \in \mathcal{B}_k} \exp(\mathrm{sim}(\mathbf{z}_{u,k}, \mathbf{z}_j) / \tau)}$

其中：

$\mathbf{z}_{u,k}$ 表示用户 $u$ 在层次 $k$ 的粗粒度表示。
$\mathbf{z}_{u,k+1}$ 是正样本，即来自同一用户 $u$ 在相邻更粗粒度层次 $k+1$ 的表示。这里，sim 表示余弦相似度。
$\tau$ 是 InfoNCE 损失的温度参数。
$\mathcal{B}_k$ 是一个包含 $\mathbf{z}_{u,k+1}$ 和一组负样本的集合。负样本由同一批次 (batch) 中其他用户的粗粒度表示构成。通过最大化正样本对相似度并最小化与负样本的相似度，促使粗粒度专家学习到用户更稳定、独特的意图。

内容感知路由与门控融合 (Content-Aware Routing and Gated Fusion): 为了从意图层次中合成一个统一的用户表示，我们设计了一个两级门控融合机制。

层级路由门控： 在每个意图层次 $k$ 上，我们使用一个内容感知门控函数来动态地加权两个专家（细粒度专家和粗粒度专家）的输出。这个门控概率 $g_k$ 同时考虑了噪声水平的嵌入 $\mathbf{emb}(k)$ 和当前层次的内容表示 $\mathrm{Pool}(\hat{\mathbf{E}}_u^k)$ 。

$g_k = \mathrm{Sigmoid}(\mathrm{MLP}([\mathrm{Pool}(\hat{\mathbf{E}}_u^k); \mathbf{emb}(k)]))$

其中：
- $\mathrm{Pool}(\hat{\mathbf{E}}_u^k)$ 是在层次 $k$ 处去噪表示 $\hat{\mathbf{E}}_u^k$ 的池化结果，代表了该层次的内容信息。
- $\mathbf{emb}(k)$ 是时间步 $k$ （噪声水平）的嵌入，帮助门控网络区分不同抽象层次。
- $\mathrm{MLP}(\cdot)$ 是一个多层感知机。
- $\mathrm{Sigmoid}(\cdot)$ 将输出压缩到 $(0, 1)$ 之间，作为门控权重。
专家输出聚合： 接着，我们根据各自的门控概率 $g_k$ 聚合每个专家在整个意图层次中的输出，形成一个综合的细粒度表示 $\mathbf{z}_{fin}$ 和一个综合的粗粒度表示 $\mathbf{z}_{coar}$ 。

$\begin{array}{c} \mathbf{z}_{fin} = \displaystyle \frac{\sum_{k=0}^{T_u} g_k \cdot E_{fin}(\hat{\mathbf{E}}_u^k)}{\sum_{k=0}^{T_u} g_k + \epsilon} \\ \mathbf{z}_{coar} = \displaystyle \frac{\sum_{k=0}^{T_u} (1 - g_k) \cdot E_{coar}(\hat{\mathbf{E}}_u^k)}{\sum_{k=0}^{T_u} (1 - g_k) + \epsilon} \end{array}$

其中：
- $E_{fin}(\hat{\mathbf{E}}_u^k)$ 和 $E_{coar}(\hat{\mathbf{E}}_u^k)$ 分别是细粒度专家和粗粒度专家在层次 $k$ 处的输出。
- $\epsilon$ 是一个小的常数，用于防止分母为零。
最终用户表示融合： 最后，为了平衡稳定的长期主题和瞬态具体细节，我们从聚合的粗粒度表示 $\mathbf{z}_{coar}$ 计算一个最终的门控向量 $\mathbf{gate}_u$ 。这个门控向量自适应地结合两个聚合表示，生成最终的用户表示 $\mathbf{h}_u$ 。

$\mathbf{gate}_u = \mathrm{Sigmoid}(\mathbf{W}_g \mathbf{z}_{coar} + \mathbf{b}_g)$ $\mathbf{h}_u = \mathbf{gate}_u \odot \mathbf{z}_{fin} + (1 - \mathbf{gate}_u) \odot \mathbf{z}_{coar}$

其中：
- $\mathbf{W}_g$ 和 $\mathbf{b}_g$ 是可学习的权重和偏置参数。
- $\odot$ 表示逐元素乘法 (element-wise multiplication)。

4.2.5. 预测层 (Prediction Layer)

最终融合的用户表示 $\mathbf{h}_u$ 被送入一个预测层，以生成最终的推荐分数。预测层接收 $\mathbf{h}_u$ 作为输入，并计算所有候选物品的概率分数 $\mathbf{y}_u$ 。

4.2.6. 训练目标 (Training Objective)

ADARec 框架采用端到端的方式进行训练，其综合目标函数协同结合了主要推荐任务和多个辅助损失。总损失定义为：

$\mathcal{L}_{tot} = \mathcal{L}_{rec} + \lambda_{deno} \mathcal{L}_{deno} + \lambda_{cont} \mathcal{L}_{cont} + \lambda_{expl} \mathcal{L}_{expl}$

其中：

$\mathcal{L}_{rec}$ 是主要推荐损失。
$\mathcal{L}_{deno}$ 是去噪损失，用于训练生成意图层次的去噪网络。
$\mathcal{L}_{cont}$ 是对比损失，作为关键的正则化项，强制专家之间实现功能解耦。
$\mathcal{L}_{expl}$ 是探索损失，通过基于熵的正则化项，防止 ADC 过早收敛到浅层深度，从而鼓励探索。
$\lambda_{deno}$ , $\lambda_{cont}$ , $\lambda_{expl}$ 是超参数，用于平衡每个损失分量的贡献。

主要推荐损失 $\mathcal{L}_{rec}$ 使用标准的交叉熵损失计算。对于给定用户 $u$ ，损失是根据预测概率分数 $\mathbf{y}_u$ 对物品集 $\mathcal{I}$ 中的所有物品计算的：

$\mathcal{L}_{rec} = - \sum_{i \in \mathcal{I}} p(i) \log (\mathbf{y}_{u,i})$

其中：

$\mathcal{I}$ 表示所有候选物品的集合。
p(i) 是物品 $i$ 的真实概率（通常对于用户实际交互的下一项为 1，其他为 0）。
$\mathbf{y}_{u,i}$ 是模型预测的用户 $u$ 对物品 $i$ 的概率分数。

5. 实验设置

5.1. 数据集

实验在四个公开的基准数据集上进行：Beauty (美妆), Sports (运动), Toys (玩具), 和 Yelp (点评)。为了确保公平性和可复现性，论文严格遵循 ELCRec (Liu et al. 2024) 提供的相同数据集和管道。

Beauty: 亚马逊美妆产品评论数据集。
Sports: 亚马逊体育用品评论数据集。
Toys: 亚马逊玩具和游戏评论数据集。
Yelp: Yelp 餐厅评论数据集，通常以其复杂的用户行为和多样化的物品类别而闻名。

选择这些数据集是为了涵盖不同领域和规模的推荐场景，以全面评估模型的泛化能力。它们包含大量的用户交互数据，但同时由于用户行为的“长尾”分布，也存在大量的稀疏用户序列，这正是 ADARec 旨在解决的核心问题。

5.2. 评估指标

论文使用了推荐系统领域常用的两个评估指标来衡量模型的性能：Hit Ratio@K (HR@K) 和 Normalized Discounted Cumulative Gain@K (NDCG@K)。

5.2.1. Hit Ratio (HR@K)

概念定义 (Conceptual Definition): Hit Ratio@K 衡量的是在推荐列表的前 $K$ 个物品中，至少有一个用户实际交互过的（即目标）物品的用户的比例。它反映了模型能否成功地将用户感兴趣的物品包含在推荐列表中，而不考虑这些物品的具体排序。
数学公式 (Mathematical Formula): $\mathrm{HR@K} = \frac{\text{Number of users with at least one hit in top K}}{\text{Total number of users}}$
符号解释 (Symbol Explanation):
- $\text{Number of users with at least one hit in top K}$ : 指在推荐给该用户的 $K$ 个物品中，至少有一个是用户接下来实际会交互的物品的用户数量。
- $\text{Total number of users}$ : 参与评估的总用户数量。
- $K$ : 推荐列表的长度，即考虑前 $K$ 个推荐物品。

5.2.2. Normalized Discounted Cumulative Gain (NDCG@K)

概念定义 (Conceptual Definition): NDCG@K 是一个评估推荐列表排序质量的指标。它不仅考虑了推荐物品的相关性，还考虑了相关物品在列表中的位置。排名靠前的相关物品贡献的得分更高，而非相关物品或排名靠后的相关物品贡献的得分较低。NDCG 的值介于 0 和 1 之间，1 表示完美排序。
数学公式 (Mathematical Formula): $\mathrm{NDCG@K} = \frac{\mathrm{DCG@K}}{\mathrm{IDCG@K}}$ 其中，DCG@K (Discounted Cumulative Gain@K) 的计算方式为： $\mathrm{DCG@K} = \sum_{i=1}^K \frac{2^{rel_i} - 1}{\log_2(i+1)}$ IDCG@K (Ideal Discounted Cumulative Gain@K) 是理想的 DCG 值，即当推荐列表完美排序时获得的 DCG 值： $\mathrm{IDCG@K} = \sum_{i=1}^{|REL|} \frac{2^{rel_i} - 1}{\log_2(i+1)}$
符号解释 (Symbol Explanation):
- $K$ : 推荐列表的长度，即考虑前 $K$ 个推荐物品。
- $i$ : 推荐列表中物品的排名位置。
- $rel_i$ : 位于排名 $i$ 的物品与用户的相关性得分。在推荐系统中，这通常是一个二值量，1 表示相关（用户实际交互），0 表示不相关。
- $\log_2(i+1)$ : 折扣因子，随着排名 $i$ 的增加，相关物品的贡献被折扣。
- $|REL|$ : 用户所有相关物品的数量。

5.3. 对比基线

论文将 ADARec 与 11 种不同的基线模型进行了比较，这些模型涵盖了序列推荐技术的发展历程：

早期深度学习模型:
- Caser (Tang and Wang 2018): 基于卷积神经网络 (CNN) 的序列推荐模型。
Transformer 架构:
- SASRec (Kang and McAuley 2018): 第一个将 Transformer 应用于序列推荐的模型，通过自注意力机制捕捉长期依赖。
- BERT4Rec (Sun et al. 2019): 借鉴 BERT 的双向编码思想，采用掩码语言建模任务进行训练。
意图学习方法 (Intent-learning methods):
- IOCRec (Li et al. 2023a): 面向多意图的对比学习序列推荐。
- ICLRec (Chen et al. 2022): 意图对比学习，利用对比学习增强意图表示。
- ELCRec (Liu et al. 2024): 端到端可学习的聚类意图学习模型，在论文中也作为 ADARec 的骨干编码器。
数据增强框架 (Data Augmentation frameworks): 尤其是基于扩散模型的方法。
- BASRec (Dang et al. 2025): 通过平衡相关性和多样性来增强序列推荐。
- PDRec (Ma et al. 2024): 即插即用的扩散模型，用于序列推荐。
- GlobalDiff (Luo, Li, and Lin 2025): 通过全局扩散增强序列推荐。
- DiffDiv (Cai et al. 2025): 利用扩散模型实现多样化序列推荐。
  
  这些基线模型具有代表性，能够全面评估 ADARec 在不同技术范式下的性能表现，特别是与最新的基于扩散模型的数据增强方法的比较，突出了 ADARec 在处理意图层次方面的独特优势。

5.4. 实施细节

优化器: 使用 Adam 优化器，权重衰减 (weight decay) 设置为 $1 \times 10^{-4}$ 。
序列长度: 最大用户序列长度限制为 50。
Gumbel-Softmax 温度: $\tau_{gs}$ 固定为 0.5。
InfoNCE 温度: $\tau$ 设置为 0.07。
超参数调优: 通过网格搜索 (grid search) 调整关键模型特定超参数。
- 最大扩散深度 $T_{max}$ : 在 $\{4, 6, 8, 10, 12\}$ 中搜索。
- 损失权重 $\lambda_{deno}$ 和 $\lambda_{cont}$ : 在 $\{0.01, 0.03, 0.05, 0.1, 0.15\}$ 中选择。
- 损失权重 $\lambda_{expl}$ : 在 $\{0.001, 0.003, 0.01, 0.03, 0.1\}$ 中搜索。
基线实现: 为了公平比较，BASRec, PDRec, GlobalDiff, 和 DiffDiv 在 ADARec 的框架管道内统一实现。
计算资源: 模型在配备 20GB NVIDIA RTX 3090 GPU 的服务器上实现。

6. 实验结果与分析

6.1. 核心结果分析

6.1.1. 整体性能 (RQ1)

以下是原文 Table 1 的结果，展示了 ADARec 在四个数据集上与基线模型的整体性能对比：

以下是原文 Table 1 的结果：

Dataset	Metric	Caser (2018)	SASRec (2018)	BERT4Rec (2019)	IOCRec (2023)	ICLRec (2022)	ELCRec (2024)	PDRec (2024)	BASRec (2025)	GDiff (2025)	DDiv (2025)	ADARec (Ours)	Improv.
Dataset	Metric	Caser (2018)	SASRec (2018)	BERT4Rec (2019)	IOCRec (2023)	ICLRec (2022)	ELCRec (2024)	PDRec (2024)	BASRec (2025)	GDiff (2025)	DDiv (2025)	ADARec (Ours)	Improv.
Beauty	H@5	0.0251	0.0374	0.0360	0.0408	0.0495	0.0529	0.0569	0.0551	0.0563	0.0575	0.0600*	+4.35%
	N@5	0.0145	0.0241	0.0216	0.0245	0.0326	0.0355	0.0380	0.0385	0.0382	0.0375	0.0403*	+4.35%
	H@20	0.0643	0.0901	0.0984	0.0916	0.1072	0.1079	0.1145	0.1135	0.1129	0.1152	0.1187*	+4.68% +3.04%
	N@20	0.0298	0.0387	0.0391	0.0444	0.0491	0.0509	0.0541	0.0539	0.0531	0.0548	0.0568*	+4.68% +3.04%
Sports	H@5	0.0154	0.0206	0.0217	0.0246	0.0263	0.0286	0.0325	0.0328	0.0321	0.0315	0.0341*	+3.96% +3.64%
	N@5	0.0114	0.0135	0.0143	0.0162	0.0173	0.0185	0.0218	0.0220	0.0215	0.0211	0.0228*	+3.96% +3.64%
	H@20	0.0399	0.0497	0.0604	0.0641	0.0630	0.0648	0.0701	0.0728	0.0719	0.0714	0.0745*	+2.33% +3.02%
	N@20	0.0178	0.0216	0.0251	0.0280	0.0276	0.0286	0.0328	0.0331	0.0325	0.0318	0.0341*	+2.33% +3.02%
Toys	H@5	0.0166	0.0463	0.0274	0.0311	0.0586	0.0585	0.0635	0.0648	0.0642	0.0645	0.0691*	+6.64% +9.08%
	N@5	0.0107	0.0306	0.0174	0.0197	0.0397	0.0403	0.0433	0.0431	0.0435	0.0428	0.0474*	+6.64% +9.08%
	H@20	0.0420	0.0941	0.0688	0.0781	0.1130	0.1138	0.1230	0.1245	0.1219	0.1225	0.1298*	+4.26% +4.53%
	N@20	0.0179	0.0441	0.0291	0.0330	0.0550	0.0560	0.0615	0.0618	0.0613	0.0605	0.0646*	+4.26% +4.53%
Yelp	H@5	0.0142	0.0160	0.0196	0.0222	0.0233	0.0248	0.0253	0.0255	0.0251	0.0258	0.0264*	+2.33%
	N@5	0.0080	0.0101	0.0121	0.0137	0.0146	0.0153	0.0159	0.0153	0.0161	0.0155	0.0167*	+2.33%
	H@20	0.0406	0.0443	0.0564	0.0640	0.0645	0.0667	0.0688	0.0681	0.0685	0.0691	0.0712*	+3.73% +2.83%
	N@20	0.0156	0.0179	0.0223	0.0263	0.0261	0.0275	0.0280	0.0275	0.0278	0.0283	0.0291*	+3.73% +2.83%

分析:

ADARec 在所有四个数据集（Beauty, Sports, Toys, Yelp）和所有评估指标 (HR@5, NDCG@5, HR@20, NDCG@20) 上均持续地优于所有基线模型，包括最新的基于扩散模型的数据增强方法 (PDRec, BASRec, GlobalDiff, DiffDiv)。这表明 ADARec 的设计理念和方法是有效的。
性能提升的幅度在 2% 到 9% 之间，表明其相对于现有最先进方法具有显著优势。
在 Yelp 数据集上，ADARec 的性能提升相对温和。论文解释这可能是因为 Yelp 是一个综合性数据集，用户意图的解耦和区分更具挑战性，这在意图学习推荐中是常见现象。

6.1.2. 稀疏序列上的性能 (RQ1)

以下是原文 Table 2 的结果，展示了 ADARec 在极度稀疏序列（用户历史长度 $\leq 5$ ）上的性能对比：

以下是原文 Table 2 的结果：

Dataset		BASRec (2025)	GlobalDiff (2025)	DiffDiv (2025)	ADARec (Ours)	Improv.
Metric
Beauty	H@5	0.0441	0.0428	0.0455	0.0531*	+16.70% +19.66%
	N@5	0.0285	0.0272	0.0295	0.0353*	+16.70% +19.66%
	H@20	0.0910	0.0897	0.0925	0.1066*	+15.24% +17.48%
	N@20	0.0421	0.0409	0.0427	0.0504*	+15.24% +17.48%
	H@5	0.0261	0.0256	0.0265	0.0305*	+15.09%
Sports	N@5	0.0180	0.0174	0.0179	0.0199*	+10.56%
	H@20	0.0592	0.0585	0.0590	0.0659*	+11.32%
	N@20	0.0270	0.0266	0.0269	0.0298*	+10.37%
	H@5	0.0557	0.0550	0.0560	0.0618*	+10.36%
Toys	N@5	0.0389	0.0387	0.0392	0.0431*	+9.95%
	H@20	0.1051	0.1043	0.1050	0.1169*	+11.23%
	N@20	0.0530	0.0518	0.0522	0.0586*	+10.57%
	H@5	0.0194	0.0189	0.0190	0.0200*	+3.09%
Yelp	N@5	0.0121	0.0112	0.0119	0.0124*	+2.48%
	H@20	0.0528	0.0506	0.0522	0.0559*	+5.87%
	N@20	0.0217	0.0204	0.0209	0.0225*	+3.69%

分析:

在用户历史长度 $\leq 5$ 的极度稀疏序列上，ADARec 的相对性能提升尤为显著，达到了 3-17%。例如，在 Beauty 和 Sports 数据集上，相对于最强竞争者，性能提升超过 15%。
这表明 ADARec 能够有效地从极少量交互中捕获粗粒度意图表示，避免了被稀疏数据中的噪声误导，从而做出更准确和泛化的推荐。这正是 ADARec 针对数据稀疏性导致意图层次崩塌问题的核心优势所在。

6.1.3. 与不同意图感知预测层的结合 (RQ1)

以下是原文 Table 3 的结果，展示了将 ADARec 的增强框架与不同的意图感知模型结合后的性能：

以下是原文 Table 3 的结果：

Model	Beauty		Toys
	HR@20	NDCG@20	HR@20	NDCG@20
IOCRec (2023)	0.0916	0.0444	0.0781	0.0330
ADARec w/ IOCRec	0.1053	0.0501	0.1098	0.0515
ICLRec (2022)	0.1072	0.0491	0.1130	0.0550
ADARec w/ ICLRec	0.1165	0.0558	0.1271	0.0628
ELCRec (2024)	0.1079	0.0509	0.1138	0.0560
ADARec w/ ELCRec	0.1187	0.0568	0.1298	0.0646

分析:

实验结果表明，当 ADARec 的增强框架与 IOCRec, ICLRec, ELCRec 等意图感知模型结合时，所有基线模型的性能都获得了持续一致的提升。
这验证了 ADARec 能够有效生成层次化的用户表示，为各种意图感知模型提供更丰富、更具语义信息的输入，从而提升它们的推荐能力。这说明 ADARec 具有良好的通用性和兼容性，可以作为增强组件集成到现有的意图感知推荐模型中。

6.2. 消融实验/参数分析 (RQ2, RQ4)

6.2.1. 关键组件的消融研究 (RQ2)

以下是原文 Table 4 的结果，展示了 ADARec 各个关键组件的消融研究：

以下是原文 Table 4 的结果：

ADC	HDA	HP-MoE	C-A Router	Lcont	Beauty		Sports		Toys		Yelp
ADC	HDA	HP-MoE	C-A Router	Lcont	HR@20	NDCG@20	HR@20	NDCG@20	HR@20	NDCG@20	HR@20	NDCG@20
✓	✓	✓	✓	✓	0.1187	0.0568	0.0745	0.0341	0.1298	0.0646	0.0712	0.0291
×	✓	✓	✓	✓	0.1141	0.0545	0.0715	0.0328	0.1246	0.0621	0.0690	0.0281
✓	×	✓	✓	✓	0.1105	0.0528	0.0681	0.0310	0.1189	0.0592	0.0672	0.0276
✓	✓	×	✓	✓	0.1075	0.0505	0.0645	0.0283	0.1132	0.0557	0.0661	0.0273
✓	✓	✓	×	✓	0.1172	0.0561	0.0736	0.0337	0.1281	0.0638	0.0705	0.0288
✓	✓	✓	✓	×	0.1158	0.0553	0.0725	0.0332	0.1260	0.0627	0.0697	0.0284

分析:

移除 HDA 模块 (Row 3, HDA=×): 导致最严重的性能下降。这证实了 HDA 在 ADARec 框架中的基础性和核心作用，即它成功地从稀疏数据中构建了用户意图的层次结构。
移除 ADC 或 HP-MoE 模块 (Rows 2 & 4, ADC=× 或 HP-MoE=×): 也导致了显著的性能下降。这验证了 ADC 动态分配增强资源的必要性，以及 HP-MoE 作为专门架构来解析层次意图的有效性。
仅有 ADC 和 HDA (与 ELCRec 比较): 论文指出，仅有 ADC 和 HDA 的变体仍优于 ELCRec 等强基线，这突出了 ADARec 增强策略的强大之处。
仅有 HP-MoE (与 ELCRec 比较): 论文指出，仅使用 HP-MoE 的变体性能与 ELCRec 相近。这表明 HP-MoE 的有效性依赖于 HDA 提供的结构化输入，进一步强调了 HDA 的关键性。
移除内容感知路由器 (C-A Router) 或对比损失 ( $\mathcal{L}_{cont}$ ) (Rows 5 & 6): 导致了较小但持续的性能下降。这证实了它们在精细化路由和专家解耦中的重要作用。

6.2.2. 超参数敏感性 (RQ4)

原文 Figure 4 展示了辅助损失权重 ( $\lambda_{expl}$ 和 $\lambda_{deno}$ ) 的稳定性分析：

Figure 4: Stability analysis for auxiliary loss weights.

分析:

$\lambda_{expl}$ 和 $\lambda_{deno}$ 分析: 从图中可以看出，模型在 $\lambda_{expl} = 0.01$ 和 $\lambda_{deno} = 0.1$ 附近通常表现最佳。
鲁棒性: 性能曲线在这些最优值附近相对平坦。这表明 ADARec 对这些辅助权重参数的微小偏差具有较好的鲁棒性，证实了其稳定性和易用性。

6.2.3. HP-MoE 专家数量分析 (RQ4)

原文 Figure 5 展示了 HP-MoE 中专家数量对性能 (HR@20) 和训练时间成本的影响：

$Figure 5: Analysis of Performance $( \\mathrm { H R } @ 2 0 )$ and Training Time Cost vs. Number of Experts.$

分析:

2 专家配置的优势: 实验结果强烈支持 ADARec 选择使用两个专家（细粒度专家和粗粒度专家）的设计。
边际收益递减: 将 HP-MoE 扩展到 3 或 4 个专家，虽然可能带来边际性的 HR@20 提升，但会显著增加训练时间。
稀疏序列的限制: 这种现象的原因是，ADC 通常会为稀疏序列选择相对较小的实际扩散深度 $T_u$ ，这限制了潜在意图层次的数量。因此，增加额外的专家并不能从有限的输入信息中发现更多独立的意图层次，反而导致冗余和计算开销的增加，而没有带来实质性的性能收益。
效率与效果平衡: 两个专家的配置在效率和效果之间达到了最佳平衡。

6.3. 效率分析 (RQ3)

以下是原文 Table 5 的结果，展示了 ADARec 与基线模型的效率对比：

以下是原文 Table 5 的结果：

Model	Beauty		Sports		Toys		Yelp
	Train (s/epoch)	Infer (ms/user)	Train (s/epoch)	Infer (ms/user)	Train (s/epoch)	Infer (ms/user)	Train (s/epoch)	Infer (ms/user)
	SASRec	2.15	3.1	4.32	6.8	5.25	7.9	6.51	11.28
ELCRec	3.81	5.9	7.88	11.5	9.00	13.2	14.80	20.10
DiffDiv	7.55	16.1	15.60	22.4	18.23	26.1	31.50	45.80
GlobalDiff	8.90	21.2	18.95	33.6	21.75	38.5	23.50	45.80
Ours	6.21	10.5	13.52	18.7	15.88	19.3	17.95	24.9

分析:

训练时间: ADARec 的训练时间高于非扩散基线模型 (SASRec, ELCRec)。这是可以理解的，因为扩散模型本身就具有较高的计算成本。然而，这种额外的成本是一次性的离线成本，被其显著的推荐质量提升所抵消。
推理延迟: ADARec 的推理延迟 (ms/user) 也高于非扩散基线。
与扩散模型的比较: 重要的是，ADARec 在训练时间和推理延迟方面都比其他基于扩散模型的方法 (DiffDiv, GlobalDiff) 更高效。这主要归因于 ADARec 的轻量级架构，以及 ADC 模块自适应地确定增强深度，避免了不必要的深度计算。

6.4. 意图表示可视化 (RQ5)

原文 Figure 6 展示了在稀疏 Yelp 数据集上学习到的用户意图表示的 t-SNE 可视化：

Figure 6: t-SNE visualization of the learned user intent representations on the Yelp dataset. (a) A strong baseline like DiffDiv struggles to form distinct clusters. (b) Our method, ADARec, successfully learns well-separated intent clusters.

分析:

基线模型 (DiffDiv) 的表现 (图 6a): 强基线模型 DiffDiv 在稀疏数据上未能形成清晰分离的用户意图聚类。大多数意图都“崩塌”成一个难以区分的中心团块。这说明 DiffDiv 等现有方法在稀疏场景下，难以捕捉到用户意图的内在结构。
ADARec 的表现 (图 6b): 相比之下，ADARec 成功学习到了清晰、分离良好的意图聚类。这直观地证明了 ADARec 能够有效地识别并重建用户意图的层次结构，即使是从稀疏数据中也能做到。这进一步支持了 ADARec 在解决数据稀疏性导致意图层次崩塌问题上的能力。

7. 总结与思考

7.1. 结论总结

本文提出了 ADARec (Adaptive Diffusion Augmentation for Recommendation) 框架，以解决序列推荐中数据稀疏性导致的用户意图层次结构丢失问题。ADARec 创新性地利用扩散模型的完整逐步去噪轨迹来从单个稀疏序列中重建用户意图的层次结构，涵盖了从细粒度到粗粒度的不同抽象级别。为了兼顾效率和有效性，框架中引入了：

自适应深度控制器 (ADC): 为每个用户序列智能地确定最佳的扩散增强深度。
层次扩散增强 (HDA) 模块: 负责生成丰富的意图层次。
层次解析混合专家 (HP-MoE) 模块: 采用功能解耦的专家（细粒度与粗粒度）和内容感知路由机制，高效地解析和融合不同粒度的意图表示。通过端到端训练，结合推荐损失、去噪损失、对比损失和探索损失，ADARec 能够重建出鲁棒的用户表示。实验结果表明，ADARec 在多个标准基准数据集上显著优于最先进的序列推荐方法（性能提升 2-9%），特别是在极度稀疏的序列上，性能提升更为显著（3-17%），并且能够有效增强其他意图感知模型。可视化结果也直观地展示了 ADARec 从稀疏数据中学习到清晰分离的用户意图聚类的能力。

7.2. 局限性与未来工作

论文本身并未在专门的章节中明确指出其局限性或未来工作，但从其方法设计和实验分析中可以推断出一些潜在的考量：

计算成本： 尽管 ADARec 通过 ADC 和轻量级 MLP 作为去噪网络等方式提高了扩散模型的效率，但相比于非生成式模型，其训练和推理成本仍然更高。特别是在超大规模推荐系统中，这可能仍是一个挑战。未来的工作可以探索更高效的扩散模型架构或近似方法。
对骨干编码器的依赖： ADARec 使用 ELCRec 作为骨干编码器来获取初始序列嵌入。模型的整体性能在一定程度上可能受限于骨干编码器的质量。未来可以探索对骨干编码器的选择进行自适应优化，或设计一个更端到端、对初始编码器依赖性更低的框架。
意图层次的定义和粒度： 扩散模型的去噪轨迹自然地提供了一个连续的意图抽象层次。然而，粗粒度意图和细粒度意图的划分（例如 HP-MoE 中对 $k$ 值的划分）仍然是启发式的。未来的工作可以探索更数据驱动或自监督的方式来定义和区分不同粒度的意图。
泛化到极度动态或复杂意图： 尽管 ADARec 在稀疏数据上表现出色，但对于具有非常复杂、快速变化或非线性意图结构的用户，其重建意图层次的精确性和鲁棒性仍有待进一步深入研究。

7.3. 个人启发与批判

启发:
- 扩散模型的新颖应用: ADARec 将扩散模型的去噪轨迹从单一数据生成扩展到信息层次结构重建，这是一个非常富有洞察力的创新。它超越了传统数据增强方法仅关注“量”的增加，而深入到“质”的提升，即重建数据背后的语义结构。这种思路在其他领域（如图像、文本的层次理解）可能也有广泛应用前景。
- 信息瓶颈理论的实践： 论文成功地将信息瓶颈理论的直觉（通过噪声强制提取本质信息）应用于推荐系统，证明了理论指导在实际问题解决中的巨大潜力。
- 效率与效果的平衡： ADC 和 HP-MoE 的设计体现了在复杂模型中对实用性和效率的考量。ADC 的自适应深度解决了扩散模型在真实场景中计算成本过高的问题，而 HP-MoE 则通过专业化处理，高效利用了分层信息。
- 解决根本问题： 许多数据增强方法只是缓解了过拟合，但 ADARec 直接针对数据稀疏性导致的意图层次崩塌这一根本问题，从源头上提升了模型对用户真实意图的理解，从而带来更精准的推荐。
批判:
- 可解释性挑战： 尽管 ADARec 能够有效重建意图层次，但扩散模型本身以及 HP-MoE 内部的门控和专家机制，其具体如何识别和组合意图，仍然相对是一个黑箱。在对可解释性有高要求的场景中，这可能是一个限制。
- 超参数敏感度： 尽管论文声称对 $\lambda$ 参数不敏感，但在实际部署中，损失权重的选择（如 $\lambda_{deno}$ , $\lambda_{cont}$ , $\lambda_{expl}$ ）和 Gumbel-Softmax 温度 ( $\tau_{gs}$ ) 等超参数的调优仍然是一个挑战，可能需要大量的实验。
- 模型复杂度： 尽管论文强调了效率优化，但 ADARec 整体上是一个多模块、多损失的复杂框架。其训练过程涉及扩散模型的去噪、Gumbel-Softmax 采样、MoE 路由等，相比于一些简洁的推荐模型，其调试、维护和计算资源需求仍然较高。
- "De-collapsing User Intent" 的量化： 论文通过 t-SNE 可视化直观地展示了意图聚类的改善，但除了推荐性能提升之外，如何更直接、更量化地衡量“意图层次被成功重建”或“意图崩塌被有效解构”，可能是一个值得深入探讨的方向。

相似论文推荐

基于向量语义检索推荐的相关论文。

暂时没有找到相似论文。