论文状态:已完成

Masked Diffusion for Generative Recommendation

发表:2025/11/28
原文链接PDF 下载
价格:0.100000
价格:0.100000
已有 10 人读过
本分析由 AI 生成,可能不完全准确,请以原文为准。

TL;DR 精炼摘要

本文提出了一种新的生成式推荐方法——掩蔽扩散生成推荐(MADRec),通过离散掩蔽噪声对用户交互序列中的语义ID(SID)进行建模。该方法克服了传统自回归模型高推理成本及低数据利用效率的问题,实验表明MADRec在性能上优于自回归模型,尤其在数据受限和粗粒度召回场景中表现显著。

摘要

Generative recommendation (GR) with semantic IDs (SIDs) has emerged as a promising alternative to traditional recommendation approaches due to its performance gains, capitalization on semantic information provided through language model embeddings, and inference and storage efficiency. Existing GR with SIDs works frame the probability of a sequence of SIDs corresponding to a user's interaction history using autoregressive modeling. While this has led to impressive next item prediction performances in certain settings, these autoregressive GR with SIDs models suffer from expensive inference due to sequential token-wise decoding, potentially inefficient use of training data and bias towards learning short-context relationships among tokens. Inspired by recent breakthroughs in NLP, we propose to instead model and learn the probability of a user's sequence of SIDs using masked diffusion. Masked diffusion employs discrete masking noise to facilitate learning the sequence distribution, and models the probability of masked tokens as conditionally independent given the unmasked tokens, allowing for parallel decoding of the masked tokens. We demonstrate through thorough experiments that our proposed method consistently outperforms autoregressive modeling. This performance gap is especially pronounced in data-constrained settings and in terms of coarse-grained recall, consistent with our intuitions. Moreover, our approach allows the flexibility of predicting multiple SIDs in parallel during inference while maintaining superior performance to autoregressive modeling.

思维导图

论文精读

中文精读

1. 论文基本信息

1.1. 标题

Masked Diffusion for Generative Recommendation

1.2. 作者

Kulin Shah, Bhuvesh Kumar, Neil Shah, Liam Collins 等

1.3. 发表期刊/会议

该论文作为预印本发表于 arXiv,链接提供了 v1v1 版本信息。虽然尚未在正式期刊或会议上发表,但 arXiv 是学术界重要的预印本平台,广泛用于快速分享研究成果并接受同行评审。

1.4. 发表年份

2025年(根据 Published at (UTC):2025-11-28T09:36:26.000Z 判断)

1.5. 摘要

生成式推荐 (Generative Recommendation, GR) 结合语义ID (Semantic IDs, SIDs) 已成为传统推荐方法的一种有前景的替代方案,其优势在于性能提升、利用语言模型嵌入提供的语义信息以及推理和存储效率。现有基于SIDs的GR工作主要使用自回归 (autoregressive) 建模来表示用户交互历史中SID序列的概率。尽管这在某些设置下取得了令人印象深刻的下一项预测性能,但这些自回归的SIDs生成式推荐模型存在推理成本高昂(因为是顺序的词元级解码)、训练数据利用效率可能低下以及偏向学习词元之间短上下文关系的问题。受自然语言处理 (Natural Language Processing, NLP) 领域近期突破的启发,本文提出转而使用掩蔽扩散 (masked diffusion) 来建模和学习用户SID序列的概率。掩蔽扩散采用离散掩蔽噪声 (discrete masking noise) 来促进序列分布的学习,并将掩蔽词元的概率建模为在未掩蔽词元给定条件下的条件独立,从而允许并行解码掩蔽词元。通过全面的实验,本文证明所提出的方法持续优于自回归建模。这种性能差距在数据受限设置和粗粒度召回 (coarse-grained recall) 方面尤为显著,这与作者的直觉一致。此外,本文的方法在推理过程中可以灵活地并行预测多个SIDs,同时保持优于自回归建模的性能。

1.6. 原文链接

https://arxiv.org/abs/2511.23021v1 PDF 链接: https://arxiv.org/pdf/2511.23021v1.pdf 发布状态:预印本 (v1)

2. 整体概括

2.1. 研究背景与动机

2.1.1. 生成式推荐与语义ID

推荐系统 (Recommendation Systems, RecSys) 的核心任务是根据用户的历史交互序列预测用户接下来可能感兴趣的物品。生成式推荐 (Generative Recommendation, GR) 是一个快速发展的范式,它利用生成模型来解决这一任务。在GR的诸多方法中,结合语义ID (Semantic IDs, SIDs) 的方法因其能有效利用语言模型 (Language Model, LM) 嵌入中的语义信息,并在推理和存储效率方面表现出色,而受到广泛关注。SIDs通过将物品(item)的语义特征(如文本、视觉特征)映射到由多个词元 (token) 组成的紧凑表示来工作,显著减少了物品词汇表的大小。

2.1.2. 现有自回归模型的局限性

当前主流的SIDs生成式推荐模型,如 TIGER,普遍采用自回归 (Autoregressive, AR) 建模。这种方法将用户交互序列中SIDs的概率建模为每个词元依赖于其所有前序词元的条件概率乘积。尽管AR建模在自然语言处理 (NLP) 领域取得了巨大成功,并被证明在SIDs序列建模中有效,但它存在以下显著局限性:

  • 高昂的推理成本: AR模型必须按顺序生成词元,导致推理速度受限,无法并行解码。这对于需要快速响应的推荐系统而言是一个瓶颈,尤其是在需要解码多个SIDs才能表示一个物品的情况下。
  • 训练数据利用效率低下: AR模型主要通过预测下一个词元进行训练,每个序列的训练目标数量与序列长度呈线性关系。这可能导致在数据稀疏(data-constrained)的推荐场景中训练数据利用不充分。
  • 偏向短上下文关系: AR模型在训练时倾向于关注词元之间的局部、短上下文关系,可能难以有效捕捉序列中词元间的全局依赖性。

2.1.3. 创新思路:引入掩蔽扩散

为了克服自回归模型的这些局限性,论文受到NLP领域中掩蔽扩散 (masked diffusion) 模型最新进展的启发。掩蔽扩散通过引入离散掩蔽噪声来学习序列分布,并允许模型在给定未掩蔽词元的情况下,将掩蔽词元的概率建模为条件独立,从而实现并行解码。这种方法有望解决AR模型在推理效率、数据利用和全局关系学习方面的不足。

2.2. 核心贡献/主要发现

本文的主要贡献体现在以下几个方面:

  1. 提出 MADRec 模型: 首次将掩蔽扩散框架引入生成式推荐与语义ID领域,构建了 MADRec (MAsked Diffusion over SIDs for Generative Recommendation) 模型。MADRec 旨在解决自回归模型在SIDs序列建模中的效率和数据利用问题。
  2. 性能显著提升: 通过全面的实验证明,MADRec 在多个基准数据集上持续优于标准的自回归SIDs模型(如 TIGER)以及其他生成式推荐基线。这种性能优势在数据稀疏设置和粗粒度召回任务中尤为明显。
  3. 数据效率高: MADRec 在数据受限(data-constrained)的环境下表现出更强的泛化能力。当训练数据量减少时,MADRec 相较于 TIGER 性能下降更慢,验证了其能更有效地利用有限训练数据的假设。
  4. 推理效率与灵活性: MADRec 允许在推理过程中并行预测多个SIDs,从而实现推理效率与性能的灵活权衡。即使在较少的函数评估 (Function Evaluations, NFEs) 次数下,MADRec 也能超越自回归模型,并且随着NFEs的增加,性能进一步提升。
  5. 模块化与可扩展性: MADRec 框架具有良好的可扩展性,能够与现有提升推荐性能的辅助方法相结合,例如与稠密检索 (dense retrieval) 机制的融合,进一步提升了性能。这表明 MADRec 可以作为一个通用的SIDs序列建模范式。
  6. 基础性实证观察: 本文提供了关于掩蔽扩散在SIDs生成式推荐中有效性的一系列基础性实证观察,为该领域未来的研究奠定了基础。

3. 预备知识与相关工作

3.1. 基础概念

3.1.1. 生成式推荐 (Generative Recommendation, GR)

生成式推荐是一种利用生成模型来直接预测用户下一个交互物品或物品序列的推荐范式。与传统的基于分类或排序的推荐系统不同,生成式模型旨在学习物品或用户行为序列的概率分布,然后从中采样或解码出推荐结果。其优势在于能够生成多样化的推荐,并可能更好地捕捉物品之间的复杂关系。

3.1.2. 语义ID (Semantic IDs, SIDs)

语义ID (SIDs) 是一种将物品表示为语义丰富的词元序列的方法。它的核心思想是:

  1. 语义特征提取: 首先,使用预训练的语言模型 (Large Language Model, LLM) 或视觉模型 (Vision Model, VM) 从物品的文本、图像等原始特征中提取出高维语义嵌入 (semantic embeddings)。
  2. 聚类与量化: 接着,对这些语义嵌入进行聚类或量化,例如使用残差K-均值 (Residual K-Means, RK-means) 或乘积量化 (product quantization) 等技术。这个过程会将高维嵌入编码成一个由多个离散词元(或称为“码本索引”)组成的元组。每个词元对应一个较小的词汇表。
  3. 形成SID: 最终,一个物品被表示为一个短的、由多个离散词元组成的序列,即其语义ID元组。例如,一个物品可能由 (s1,s2,s3,s4)(s^1, s^2, s^3, s^4) 组成,其中每个 sjs^j 都是一个独立的词元。 SIDs的优势在于:
  • 语义丰富性: 保留了物品的语义信息。
  • 词汇表压缩: 将大规模物品ID的预测问题转化为预测少数几个词元的问题,显著减小了模型的输出空间,提高了推理和存储效率。
  • 可组合性: 通过组合不同的SIDs可以表示大量物品。

3.1.3. 自回归建模 (Autoregressive Modeling, AR)

自回归建模是序列建模中的一种常见方法,尤其在NLP领域广泛应用。它的核心思想是:一个序列中当前元素的概率取决于所有先前元素。 对于一个序列 X=(x1,x2,,xN)X = (x_1, x_2, \dots, x_N),其联合概率分布可以分解为一系列条件概率的乘积: p(X)=p(x1)p(x2x1)p(x3x1,x2)p(xNx1,,xN1)=i=1Np(xix1,,xi1) p(X) = p(x_1) \cdot p(x_2|x_1) \cdot p(x_3|x_1, x_2) \cdots p(x_N|x_1, \dots, x_{N-1}) = \prod_{i=1}^{N} p(x_i | x_1, \dots, x_{i-1}) 在SIDs生成式推荐中,这意味着模型需要按顺序预测每个SID词元,例如预测 s1s^1,然后根据 s1s^1 预测 s2s^2,以此类推。

  • 优点: 能够精确捕捉序列中的长距离依赖关系。
  • 缺点: 无法并行生成序列中的所有元素,推理速度慢;训练时可能偏向学习局部依赖。

3.1.4. 扩散模型 (Diffusion Models)

扩散模型是一类生成模型,最初在计算机视觉领域取得成功,用于生成高质量图像。其基本思想是通过一个迭代的前向扩散过程 (Forward Diffusion Process) 逐渐向数据中添加噪声,直到数据完全变成噪声;然后训练一个逆向去噪过程 (Reverse Denoising Process) 来学习如何从噪声中恢复原始数据。

  • 前向过程: X0X1XTX_0 \to X_1 \to \dots \to X_T,其中 X0X_0 是原始数据,XTX_T 是纯噪声。每一步 XtX_tXt1X_{t-1} 通过添加少量噪声得到。
  • 逆向过程: 学习一个模型来预测如何从 XtX_t 恢复 Xt1X_{t-1},最终从 XTX_T 恢复 X0X_0。 根据添加噪声的类型,扩散模型可以分为连续扩散(如添加高斯噪声)和离散扩散(如添加掩蔽噪声)。

3.1.5. 掩蔽扩散 (Masked Diffusion)

掩蔽扩散是专门针对离散数据(如文本词元、SIDs)设计的一种扩散模型。

  • 离散掩蔽噪声 (Discrete Masking Noise): 与连续扩散模型添加高斯噪声不同,掩蔽扩散模型通过将原始数据中的部分词元替换为特殊的 [M] (Mask) 词元来引入噪声。噪声水平 tt 控制每个词元被掩蔽的概率。
  • 并行去噪: 模型在训练时学习预测被掩蔽词元的原始值,给定序列中未被掩蔽的部分。这使得在推理时可以并行地预测多个被掩蔽词元,解决了自回归模型的顺序生成限制。
  • 数据增强: 通过在不同噪声水平下随机掩蔽词元进行训练,掩蔽扩散模型可以从每个原始序列中生成指数级多的训练样本(相对于序列长度而言),从而更有效地利用训练数据。

3.2. 前人工作

论文在 Related workIntroduction 中提到了多项相关工作,主要可分为以下几类:

3.2.1. 基于物品ID的序列推荐 (Item ID-based Sequential Recommendation)

  • SASRec [KM18]: 使用自注意力 (self-attention) 机制捕捉用户序列中的物品依赖关系,是序列推荐领域的里程碑工作。
  • BERT4Rec [SLW+19]: 借鉴BERT的掩蔽语言模型 (masked language modeling) 思想,随机掩蔽用户交互历史中的物品ID,然后训练模型预测被掩蔽的物品。这是掩蔽预测在推荐领域的早期应用,但直接作用于原始物品ID,且掩蔽比例固定。

3.2.2. 基于连续扩散的推荐模型 (Continuous Diffusion-based Recommendation)

这些方法将连续扩散过程应用于物品嵌入或用户向量:

  • DreamRec [YWW+23]: 将扩散模型应用于序列推荐,在物品嵌入空间中进行连续扩散。
  • CaDiRec [CWH+24]: 强调上下文感知,在连续语义嵌入空间中利用扩散模型。
  • 其他工作:许多方法在用户交互向量、用户-物品交互图或物品嵌入空间进行连续扩散,但可能面临维度扩展和可伸缩性问题。

3.2.3. 生成式推荐与语义ID (Generative Recommendation with SIDs)

这是本文的直接相关领域,主要特点是使用SIDs而非原始物品ID:

  • VQ-REC [HHMZ23] 和 TIGER [RMS+23]: SIDs生成式推荐的开创性工作。TIGER 使用自回归模型来生成SIDs序列,并通过预测下一个SID词元进行训练。这是本文的主要对比基线。
  • LIGER [YPH+24]: 扩展了 TIGER,通过融合稠密检索 (dense retrieval) 进一步提升了性能,是本文的另一个重要对比基线和扩展方向。
  • RPG [HLS+25]: 提出使用乘积量化 (product-quantized) 的SIDs,以实现在单个物品内部SIDs词元的并行解码,但物品之间仍是顺序解码。
  • 其他工作:许多研究集中于优化SIDs的分配方式(如对比学习、融入协同信号、LLM直接生成SIDs)、用户偏好条件化、长SID序列生成等,但大多沿用自回归训练策略。

3.3. 技术演进

推荐系统从早期的协同过滤 (Collaborative Filtering, CF) 发展到基于深度学习的序列推荐模型,如 GRU4RecSASRec。这些模型大多关注用户交互序列的下一个物品预测。

随着大型语言模型 (LLM) 和生成模型在NLP领域的崛起,推荐领域也开始探索生成式方法。其中一个重要方向是利用LLM的语义理解能力,通过语义ID (SIDs) 来表示物品。SIDs有效地将推荐问题转化为一个序列生成问题,可以利用NLP中成熟的序列建模技术。

最初,SIDs生成式推荐模型自然地采用了NLP中占主导地位的自回归 (AR) 建模范式。然而,AR模型在推理效率和数据利用方面的局限性在推荐场景中愈发凸显。

与此同时,扩散模型 (Diffusion Models) 在计算机视觉和NLP中展现出强大的生成能力。在离散数据领域,掩蔽扩散 (Masked Diffusion) 模型被证明能够与AR模型竞争甚至超越其性能。本文正是在这一技术演进背景下,将NLP中的掩蔽扩散思想引入到SIDs生成式推荐中,旨在克服AR模型的固有缺陷,开辟新的建模路径。

3.4. 差异化分析

MADRec 与相关工作的主要区别和创新点在于其核心建模范式:

  • 与自回归 SIDs 模型 (如 TIGER) 的区别:

    • 建模方式: MADRec 使用掩蔽扩散,将序列中掩蔽词元的概率建模为在未掩蔽词元给定条件下的条件独立。TIGER 使用自回归建模,每个词元依赖于其所有前序词元。
    • 推理方式: MADRec 支持并行解码多个掩蔽词元,从而实现更快的推理速度和更高的灵活性。TIGER 必须顺序解码词元,推理速度受限。
    • 数据利用: MADRec 通过动态掩蔽率和多样化的训练目标,能更有效地从有限数据中学习。TIGER 的训练目标相对固定,可能在数据稀疏时表现不佳。
    • 全局关系: MADRec 训练模型去噪整个序列,可能更好地捕捉词元间的全局关系。TIGER 侧重于局部、下一个词元预测。
  • 与连续扩散推荐模型 (如 DreamRec, CaDiRec) 的区别:

    • 噪声类型: MADRec 使用离散掩蔽噪声,更适合离散的SIDs词元。连续扩散模型使用高斯噪声,通常作用于连续嵌入空间。
    • 性能和效率: 论文实验表明 MADRec 在更少的推理步数下超越了连续扩散模型,支持了离散掩蔽扩散在离散数据生成方面的有效性。
  • 与 BERT4Rec 的区别:

    • BERT4Rec 也是基于掩蔽预测,但它直接作用于原始物品ID,且通常使用固定的掩蔽比例。MADRec 作用于语义ID (SIDs),并且其掩蔽过程是基于扩散理论的动态掩蔽,能够数学上保证从序列分布中采样。
  • 与 RPG 的区别:

    • RPG 允许单个物品内部的SIDs词元并行解码,但物品之间仍是顺序解码。MADRec 允许任意SIDs的并行解码,且在标准残差量化SIDs下也能实现性能提升。

4. 方法论

本文提出 MADRec (MAsked Diffusion over SIDs for Generative Recommendation),一个基于掩蔽扩散 (masked diffusion) 框架的生成式推荐模型。MADRec 旨在克服传统自回归 (autoregressive, AR) 建模在处理语义ID (SIDs) 序列时的局限性,如推理效率低下和数据利用不足。

4.1. 方法原理

MADRec 的核心思想是利用离散掩蔽扩散模型来学习用户交互历史的SID序列的概率分布。与AR模型顺序预测词元不同,掩蔽扩散通过一个迭代的去噪过程来生成序列。这个过程首先将原始SID序列通过添加掩蔽噪声进行腐蚀,然后训练一个神经网络来学习如何从噪声序列中恢复原始序列。关键在于,模型在去噪过程中可以并行地预测多个被掩蔽的词元,从而实现更高的推理效率。

4.1.1. SID序列的表示

MADRec 框架中,首先需要将用户的交互历史物品序列 (i1,,inu)(i_1, \dots, i_{n_u}) 转换为对应的SID序列。每个物品 iji_j 被表示为一个包含 mm 个词元的SID元组 (sij1,,sijm)(s_{i_j}^1, \dots, s_{i_j}^m)。用户的完整SID序列 SuS^u 则由所有交互物品的SID元组按顺序拼接而成: Su:=(s11,,s1m,s21,,s2m,,snu1,,snum) S^u := (s_1^1, \ldots, s_1^m, s_2^1, \ldots, s_2^m, \ldots, s_{n_u}^1, \ldots, s_{n_u}^m) 为了简化模型,本文假设所有用户的序列长度都归一化为 nn,即 nu=nn_u = n。因此,一个用户序列的完整SID序列长度为 mn

4.1.2. MADRec 训练

MADRec 的训练基于离散扩散模型的掩蔽噪声框架。

4.1.2.1. 符号定义

  • [M]:特殊的掩蔽词元 (mask token)。
  • StuS_t^u:在噪声水平 t[0,1]t \in [0, 1] 下被腐蚀的SID序列。
  • Stu(i)S_t^u(i)StuS_t^u 的第 ii 个元素。
  • mm:每个物品的SID词元数量。
  • cc:每个SID层码本的大小。
  • 词汇表大小:包含 mc 个可能的SID值和 1 个 [M] 词元,总计 mc+1mc+1 个词元。

4.1.2.2. 前向过程 (Forward Process)

前向过程通过独立地对原始序列 S0u=SuS_0^u = S^u 中的每个SID词元应用掩蔽噪声来腐蚀序列。具体来说,原始序列中的每个词元 S0u(i)S_0^u(i) 都以概率 tt 被替换为掩蔽词元 [M],从而得到噪声序列 StuS_t^u

形式上,从干净序列 S0uS_0^u 到噪声序列 StuS_t^u 的转移概率定义为: p(StuS0u)=i=1mnp(Stu(i)S0u(i)) p(S_t^u | S_0^u) = \prod_{i=1}^{mn} p(S_t^u(i) | S_0^u(i)) 其中,每个词元的条件概率 p(Stu(i)S0u(i))p(S_t^u(i) | S_0^u(i)) 是一个分类分布 (categorical distribution): p(Stu(i)S0u(i))=Cat((1t)eS0u(i)+te[M]) p(S_t^u(i) | S_0^u(i)) = \mathrm{Cat}( (1-t)e_{S_0^u(i)} + t e_{[\mathrm{M}]})

  • 符号解释:
    • Cat()\mathrm{Cat}(\cdot):表示一个分类分布。
    • exe_x:表示词元 xx 对应的独热 (one-hot) 向量。
    • tt:噪声水平,取值范围 [0, 1]。当 t=0t=0 时,序列是干净的;当 t=1t=1 时,所有词元都被掩蔽。
    • (1t)eS0u(i)+te[M](1-t)e_{S_0^u(i)} + t e_{[\mathrm{M}]}:这是一个概率向量,表示词元 S0u(i)S_0^u(i)1-t 的概率保持不变,以 tt 的概率变为 [M]

4.1.2.3. 逆向过程 (Reverse Process)

逆向过程旨在学习如何从噪声序列中去除噪声,恢复原始数据。为了推导去噪方向,首先计算后验概率 p(SuStu,S0u)p(S_\ell^u | S_t^u, S_0^u),其中 <t\ell < t 是一个更低的噪声水平。由于前向过程是坐标独立的,后验概率也可以坐标分解: p(SuStu,S0u)=i=1mnp(Su(i)Stu,S0u) p(S_\ell^u | S_t^u, S_0^u) = \prod_{i=1}^{mn} p(S_\ell^u(i) | S_t^u, S_0^u) 每个坐标的后验概率 p(Su(i)Stu,S0u)p(S_\ell^u(i) | S_t^u, S_0^u) 由以下公式给出: p(Su(i)Stu,S0u)={Cat(eStu(i))if Stu(i)[M]Cat(te[M]+(1t)eS0u(i))if Stu(i)=[M] p(S_\ell^u(i) | S_t^u, S_0^u) = \begin{cases} \mathrm{Cat}(e_{S_t^u(i)}) & \mathrm{if~} S_t^u(i) \ne [\mathrm{M}] \\ \mathrm{Cat}(\frac{\ell}{t} e_{[\mathrm{M}]} + (1 - \frac{\ell}{t}) e_{S_0^u(i)}) & \mathrm{if~} S_t^u(i) = [\mathrm{M}] \end{cases}

  • 符号解释:
    • \ell:较低的噪声水平。

    • 如果 Stu(i)S_t^u(i) 不是掩蔽词元 [M],则它在 Su(i)S_\ell^u(i) 中保持不变,因为去噪过程不会重新掩蔽已显露的词元。

    • 如果 Stu(i)S_t^u(i) 是掩蔽词元 [M],则它在 Su(i)S_\ell^u(i) 中以 t\frac{\ell}{t} 的概率保持 [M],以 1t1 - \frac{\ell}{t} 的概率恢复为原始词元 S0u(i)S_0^u(i)

      为了进行去噪,模型 fθ(Stu)f_\theta(\cdot \vert S_t^u) 被训练来近似 eS0u(i)e_{S_0^u(i)}。具体而言,fθf_\theta 是一个神经网络(通常是 Transformer 编码器),其参数为 θ\theta。它接收一个部分掩蔽的SID序列 StuS_t^u,并输出在每个掩蔽位置上预测原始词元的概率分布。

4.1.2.4. 训练目标 (Training Objective)

模型参数 θ\theta 通过最大化似然的证据下界 (Evidence Lower Bound, ELBO) 进行训练,这简化为一个对掩蔽词元的交叉熵 (cross-entropy) 损失: L=EtUnif[0,1],S0upSID,Stup(StuS0u)[1ti=1mnI[Stu(i)=[M]]logpθ(S0u(i)Stu)] \mathcal{L} = \mathbb{E}_{t \sim \mathrm{Unif}[0, 1], S_0^u \sim p_{\mathrm{SID}}, S_t^u \sim p(S_t^u | S_0^u)} \left[ - \frac{1}{t} \sum_{i=1}^{mn} \mathbb{I}[S_t^u(i) = [\mathrm{M}]] \log p_\theta(S_0^u(i) | S_t^u) \right]

  • 符号解释:
    • E[]\mathbb{E}[\cdot]:期望值。

    • tUnif[0,1]t \sim \mathrm{Unif}[0, 1]:噪声水平 tt[0, 1] 上的均匀分布中采样。这意味着模型在训练时会遇到不同程度掩蔽的序列。

    • S0upSIDS_0^u \sim p_{\mathrm{SID}}:原始SID序列 S0uS_0^u 从SID序列的真实分布 pSIDp_{\mathrm{SID}} 中采样。

    • Stup(StuS0u)S_t^u \sim p(S_t^u | S_0^u):噪声序列 StuS_t^u 根据前向过程从 S0uS_0^u 生成。

    • I[Stu(i)=[M]]\mathbb{I}[S_t^u(i) = [\mathrm{M}]]:指示函数 (indicator function),当 Stu(i)S_t^u(i) 是掩蔽词元 [M] 时,其值为 1,否则为 0。这确保了损失只在被掩蔽的SID词元上计算。

    • logpθ(S0u(i)Stu)\log p_\theta(S_0^u(i) | S_t^u):模型 fθf_\theta 预测的在给定 StuS_t^u 情况下,原始词元 S0u(i)S_0^u(i) 的对数概率。

    • 1t- \frac{1}{t}:损失项前的加权因子,平衡不同噪声水平下的损失贡献。

      这个训练目标鼓励模型学习在给定序列其余部分的情况下,准确地预测被掩蔽词元的原始值。

      Figure 1: Overview of training and inference of MADRec. During training, MADRec randomly masks each SID in the SID sequence with a probability \(t \\sim \\mathrm { U n i f } \\vert 0 , 1 \\vert\) and feeds the masked sequence into an encoder-only transformer. The model is then optimized to reconstruct the original values of the masked SIDs using a cross-entropy loss applied at the masked positions (see Eq. (3)). During inference, MADRec begins with all SIDs of the last item replaced by masks. At each inference step, the partially masked sequence is passed through the network to predict values for all masked positions. The model then selectively unmasks a subset of these positions by retaining their predicted values while keeping the remaining positions masked. This iterative process continues until all SIDs are unmasked. 该图像是MADRec的训练与推断示意图。训练阶段,MADRec以概率 t hicksim ext{Unif}[0,1] 随机掩蔽SID序列,随后通过编码器-仅变换器进行优化。推断阶段,从最后一项的所有SID开始掩蔽,模型迭代预测并选择性解掩,直至所有SID解掩。

图 1(原文 Figure 1)展示了 MADRec 的训练和推理概述。在训练阶段,MADRec 随机掩蔽SID序列中的每个SID,然后将掩蔽序列输入一个编码器-Transformer。模型通过最小化在掩蔽位置上的交叉熵损失来重建原始SIDs。在推理阶段,MADRec 从最后一项的所有SIDs被掩蔽开始。在每个推理步骤中,部分掩蔽的序列通过网络预测所有掩蔽位置的值。然后,模型通过保留预测值来选择性地解除一部分掩蔽,而其余位置保持掩蔽。这个迭代过程持续进行,直到所有SIDs都被解除掩蔽。

4.1.3.1. 单项预测 (Single-item prediction)

给定一个用户的交互历史物品ID序列 (i1,,in1)(i_1, \ldots, i_{n-1}),其对应的SID序列为 Q=(s11,,sn1m)Q = (s_1^1, \ldots, s_{n-1}^m)。目标是预测下一个物品 ini_nMADRec 的推理过程从掩蔽第 nn 个物品的所有SIDs开始,形成一个初始的、完全掩蔽的序列 S~1=(Q,A1)\tilde{S}_1 = (Q, A_1),其中 A1=([M],,[M])A_1 = ([\mathrm{M}], \dots, [\mathrm{M}])mm 个掩蔽词元。 去噪过程通过一系列步骤将噪声水平从 tt 降低到更低的 rr。在每个步骤中,模型迭代地解除一部分被选定的掩蔽词元,并从学习到的分布 pθ(S~r(i)S~t)p_\theta(\tilde{S}_r(i) \mid \tilde{S}_t) 中采样它们的值。 标准的掩蔽扩散推理会独立地解除每个掩蔽词元,但研究表明通过基于模型对掩蔽位置预测不确定性来选择解除掩蔽的词元,可以显著提高性能。这个去掩蔽过程重复进行,直到所有SIDs都被解除掩蔽。

4.1.3.2. MADRec 中的束搜索 (Beam Search in MADRec)

与自回归模型按固定顺序(如从左到右)解码词元不同,MADRec 可以以任何顺序生成SIDs。为了在 MADRec 中实现束搜索以找到最可能的物品,假设下一个物品的词元按照特定顺序 (k1,,km)(k_1, \ldots, k_m) 被解除掩蔽。束搜索的目标是最大化生成物品的概率: pθ(sn1,,snmQ)=i=1mpθ(snkiQ,snk1,,snki1) p_\theta(s_n^1, \ldots, s_n^m \mid Q) = \prod_{i=1}^m p_\theta(s_n^{k_i} \mid Q, s_n^{k_1}, \ldots, s_n^{k_{i-1}})

  • 符号解释:
    • sn1,,snms_n^1, \ldots, s_n^m:第 nn 个物品的 mm 个SIDs。

    • QQ:用户的历史SID序列。

    • k1,,kmk_1, \ldots, k_m:解除掩蔽的顺序。

    • pθ(snkiQ,snk1,,snki1)p_\theta(s_n^{k_i} \mid Q, s_n^{k_1}, \ldots, s_n^{k_{i-1}}):模型预测的在给定历史 QQ 和已生成的SIDs snk1,,snki1s_n^{k_1}, \ldots, s_n^{k_{i-1}} 情况下,下一个SID snkis_n^{k_i} 的概率。

      值得注意的是,生成顺序不需要预先确定,可以在推理过程中动态调整。论文实验评估了三种生成策略:随机顺序、基于不确定性的顺序和从左到右的顺序。

4.1.3.3. 具有多词元预测的 MADRec 束搜索 (Beam Search in MADRec with Multi-Token Prediction)

MADRec 框架还支持同时预测多个词元,可以在少于 mm 次顺序函数评估 (sequential function evaluations) 的情况下生成完整的 mm 长度SID序列。由于 MADRec 仅建模掩蔽词元的条件概率,而非掩蔽词元间的联合概率(即假设掩蔽词元在给定未掩蔽词元的情况下是条件独立的),它近似计算生成物品的概率 pθ(Q,snk1,,snkm)p_\theta(Q, s_n^{k_1}, \ldots, s_n^{k_m})

假设使用 T<mT < m 次模型评估,并且在第 jj 步,αj\alpha_j 个SIDs在位置 (k1j,,kαjj)(k_1^j, \dots, k_{\alpha_j}^j) 被解除掩蔽。为了简化,假设解除掩蔽计数序列 (α1,,αT)(\alpha_1, \ldots, \alpha_T) 是预先确定的。在这种情况下,物品的概率近似为: pθ(sn1,,snmQ)=j=1Ti=1αjpθ(snkijQ,snk11,,snkαj1j1) p_\theta(s_n^1, \ldots, s_n^m | Q) = \prod_{j=1}^T \prod_{i=1}^{\alpha_j} p_\theta(s_n^{k_i^j} | Q, s_n^{k_1^1}, \ldots, s_n^{k_{\alpha_{j-1}}^{j-1}})

  • 符号解释:
    • TT:模型评估的总步数, T<mT < m

    • αj\alpha_j:在第 jj 步同时解除掩蔽的SIDs数量。

    • kijk_i^j:在第 jj 步解除掩蔽的第 ii 个SID的位置。

    • pθ(snkijQ,snk11,,snkαj1j1)p_\theta(s_n^{k_i^j} | Q, s_n^{k_1^1}, \ldots, s_n^{k_{\alpha_{j-1}}^{j-1}}):模型预测的在给定历史 QQ 和前 j-1 步已解除掩蔽的所有SIDs(snk11,,snkαj1j1s_n^{k_1^1}, \ldots, s_n^{k_{\alpha_{j-1}}^{j-1}})的情况下,当前SID snkijs_n^{k_i^j} 的概率。

      这种近似方法用于指导 MADRec 在预测多个SIDs时的束搜索推理。实验表明,尽管存在条件独立性假设,同时解码多个词元仍优于AR模型。

4.1.4. 扩展 MADRec 与稠密检索 (Extending MADRec with Dense Retrieval)

为了展示 MADRec 的可扩展性,论文将其与稠密检索 (dense retrieval) 方法相结合,灵感来源于 LIGER [YPH+24] 中融合生成式检索和稠密检索的思想。这需要对 MADRec 框架进行三项关键修改:

4.1.4.1. 输入表示 (Input Representation)

不再仅仅使用SID嵌入作为编码器-only架构的输入,而是将它们与每个物品的文本表示结合起来。 对于一个SID序列为 (σi1,,σim)(\sigma_i^1, \dots, \sigma_i^m) 的物品 ii,输入嵌入定义为: Hσij=hσij+Ajhitext H_{\sigma_i^j} = h_{\sigma_i^j} + A_j h_i^{\mathrm{text}}

  • 符号解释:
    • HσijH_{\sigma_i^j}:物品 ii 的第 jj 个SID词元 σij\sigma_i^j 的最终输入嵌入。
    • hσijh_{\sigma_i^j}:SID词元 σij\sigma_i^j 的嵌入。
    • hitexth_i^{\mathrm{text}}:从语言模型中提取的物品 ii 的文本特征嵌入。
    • AjA_j:一个可学习的线性变换 (learnable linear transformation),用于将文本嵌入投影到与SID嵌入相同的维度。

4.1.4.2. 掩蔽策略 (Masking Strategy)

原始 MADRec 中,每个SID是独立掩蔽的。但在结合稠密检索时,为了鼓励模型在物品抽象级别上学习,引入了联合掩蔽策略。 在训练期间,以固定概率 β\beta 联合掩蔽一个物品的所有SIDs,使用与词元掩蔽相同的噪声水平。以 1β1-\beta 的概率则沿用原始 MADRec 的掩蔽策略。β\beta 是一个超参数。

4.1.4.3. 预测机制与损失函数 (Prediction Mechanism and Loss Function)

在神经网络 fθf_\theta 的固定层数 η\eta 之后,使用产生的隐藏状态来形成预测的稠密物品嵌入。 具体而言,为了预测一个物品的稠密嵌入,模型掩蔽该物品的所有SIDs,并将完整的序列通过 fθf_\theta。设 h~j\tilde{h}^j 为第 η\eta 层之后第 jj 个SID的嵌入,将所有 mm 个SIDs的预测嵌入连接起来得到预测的稠密嵌入 H~={h~1,,h~m}\tilde{H} = \{\tilde{h}^1, \dots, \tilde{h}^m\}。 然后,通过一个线性层或小型多层感知机 (Multilayer Perceptron, MLP) gθg_\thetaH~\tilde{H} 投影到与文本物品嵌入相同的维度。 稠密检索目标旨在使预测嵌入 E~\tilde{E} 与对应物品的真实文本嵌入对齐,其损失函数表述为: Ldense=logexp(gθ(H~)hitext)jIexp(gθ(H~)hjtext) \mathcal{L}_{\mathrm{dense}} = - \log \frac{\exp \Bigl( g_\theta(\tilde{H})^\top h_i^{\mathrm{text}} \Bigr)}{\sum_{j \in \mathcal{I}} \exp \Bigl( g_\theta(\tilde{H})^\top h_j^{\mathrm{text}} \Bigr)}

  • 符号解释:
    • Ldense\mathcal{L}_{\mathrm{dense}}:稠密检索的损失函数。

    • gθ(H~)g_\theta(\tilde{H}):经过 gθg_\theta 投影后的预测稠密嵌入。

    • hitexth_i^{\mathrm{text}}:真实物品 ii 的文本嵌入。

    • I\mathcal{I}:所有物品的集合。

    • 这个损失函数是一个负对数似然 (negative log-likelihood) 损失,旨在最大化预测嵌入与真实物品文本嵌入之间的相似度,同时最小化与其他物品文本嵌入的相似度(这是一种常见的对比学习或负采样形式)。

      稠密检索损失仅应用于那些所有SIDs都被掩蔽的物品。这些修改使得 MADRec 能够将SID生成能力与稠密检索相结合。

5. 实验设置

5.1. 数据集

实验在四个公开基准数据集上进行:

  1. Amazon Review 数据集 [MTSVDH15]: 选择了三个类别——Beauty (美妆), Sports (运动), Toys (玩具)。
    • 预处理: 对Amazon数据集应用标准5-core过滤,即移除交互次数少于5次的用户和物品。
    • 物品特征: 遵循 TIGER [RMS+23],使用物品的标题 (title)、类别 (category)、描述 (description) 和价格 (price) 作为文本特征。
  2. MovieLens-1M (ML-1M) 电影评分数据集 [HKA16]:
    • 预处理: 同样应用5-core过滤。

    • 物品特征: 使用电影的标题 (title)、年份 (year) 和流派 (genres) 作为文本特征。

      以下是原文 Table 6 的结果,总结了预处理后的数据集统计信息: 以下是原文 Table 6 的结果:

Dataset Beauty Toys Sports ML-1M
# Users 22,363 19,412 35,598 6,040
# Items 12,101 11,924 18,357 3,416
# Interactions 198,502 167,597 296,337 999,611
# Avg. Length 8.88 8.63 8.32 165.50
Sparsity 99.93% 99.93% 99.95% 95.16%

为什么选择这些数据集: 这些数据集是序列推荐领域常用的基准,涵盖了不同规模和领域(如电商、电影)的交互数据。Amazon数据集的稀疏度较高,适用于验证模型在数据稀疏场景下的性能。MovieLens-1M则具有较长的平均序列长度,适合研究多项预测任务。

5.2. 评估指标

所有方法均使用以下两种推荐系统常用指标进行评估:

  1. 召回率 (Recall@K, R@K)

    • 概念定义: 召回率衡量的是模型在推荐列表中成功识别出用户真正感兴趣的物品的比例。Recall@K 指的是在推荐列表的前 KK 个物品中,有多少比例是用户实际交互过的物品。它关注的是模型“找全”的能力。
    • 数学公式: Recall@K=uUiGuI(ranku(i)K)uUGu \mathrm{Recall@K} = \frac{\sum_{u \in U} \sum_{i \in G_u} \mathbb{I}(\mathrm{rank}_u(i) \le K)}{\sum_{u \in U} |G_u|}
    • 符号解释:
      • UU:所有用户的集合。
      • GuG_u:用户 uu 在测试集中实际交互的物品集合(通常只有一个)。
      • I()\mathbb{I}(\cdot):指示函数,当条件为真时为 1,否则为 0。
      • ranku(i)\mathrm{rank}_u(i):物品 ii 在用户 uu 的推荐列表中的排名。
      • KK:推荐列表的长度或截断位置。
      • Gu|G_u|:用户 uu 在测试集中实际交互的物品数量。
  2. 归一化折损累计增益 (Normalized Discounted Cumulative Gain at K, NDCG@K)

    • 概念定义: NDCG 是一种综合考虑推荐列表相关性(即推荐物品的质量)和位置(即推荐物品在列表中的排序)的评估指标。它对排名靠前的相关物品给予更高的权重,因此能够更好地反映推荐列表的整体质量。NDCG值越高表示推荐效果越好。
    • 数学公式: NDCG@K=DCG@KIDCG@K \mathrm{NDCG@K} = \frac{\mathrm{DCG@K}}{\mathrm{IDCG@K}} 其中,DCG@K\mathrm{DCG@K} (Discounted Cumulative Gain at K) 的计算公式为: DCG@K=j=1K2relj1log2(j+1) \mathrm{DCG@K} = \sum_{j=1}^K \frac{2^{\mathrm{rel}_j} - 1}{\log_2(j+1)} IDCG@K\mathrm{IDCG@K} (Ideal Discounted Cumulative Gain at K) 是理想情况下的DCG,即完美排序下的DCG值: IDCG@K=j=1min(Gu,K)2relj1log2(j+1) \mathrm{IDCG@K} = \sum_{j=1}^{\min(|G_u|, K)} \frac{2^{\mathrm{rel}_j^*} - 1}{\log_2(j+1)}
    • 符号解释:
      • relj\mathrm{rel}_j:在推荐列表第 jj 个位置的物品的相关性得分(对于二元相关性,通常为 1 如果是相关物品,0 否则)。在本文的留一法 (leave-one-out) 评估中,测试集只有一个真实物品,因此如果该物品在位置 jj,则 relj=1\mathrm{rel}_j=1,否则为 0。

      • relj\mathrm{rel}_j^*:理想情况下,在完美排序的推荐列表第 jj 个位置的物品的相关性得分。

      • KK:推荐列表的长度或截断位置。

      • log2(j+1)\log_2(j+1):折扣因子,随着排名 jj 的增加,相关性得分的贡献会减小。

        评估协议: 采用标准的留一法 (leave-one-out) 评估协议。即每个用户的序列中,最后一个物品用于测试,倒数第二个物品用于验证,其余物品用于训练。

5.3. 对比基线

论文将 MADRec 的性能与六种代表性的基线方法进行比较:

5.3.1. 物品ID-based 方法

直接在原始物品ID上进行操作的序列推荐模型。

  • SASRec [KM18]: 自注意力序列推荐模型。
  • BERT4Rec [SLW+19]: 借鉴 BERT 的掩蔽语言模型思想,在物品ID序列上进行掩蔽预测。

5.3.2. 基于扩散的推荐方法

将连续扩散过程应用于物品ID或嵌入空间。

  • DreamRec [YWW+23]: 将连续扩散模型应用于物品ID。
  • CaDiRec [CWH+24]: 强调上下文感知,利用连续扩散过程。

5.3.3. 基于语义ID的生成式推荐方法 (Generative Recommendation with SIDs)

使用语义ID进行推荐的生成式模型。

  • TIGER [RMS+23]: 本文的主要对比基线,使用自回归 (AR) 建模来预测SID序列。
  • LIGER [YPH+24]: TIGER 的扩展,通过整合稠密检索 (dense retrieval) 进一步提升性能。

实现细节:

  • MADRec 的实现基于 GRID [JCN+25] 代码库。
  • 使用 AdamW 优化器,学习率为 0.005,权重衰减为 0.001,批大小为 8192。
  • 所有实验都使用验证集上的 Recall@10 进行早停 (early stopping)。
  • SID分配:使用 Flan-T5-XXL [CHL+24] 提取 4096 维文本嵌入,然后应用残差 K-均值聚类 (residual k-means clustering),每个层有 256 个码本 (codebook),共四层。
  • 每个物品通常有 5 个SIDs(4个聚类层 + 1个去重词元),除非另有说明。
  • TIGERLIGER 默认每个物品使用 4 个SIDs(3个聚类层 + 1个去重词元),与其原始实现一致。
  • 基线模型的报告结果:SASRec 结果来自 [RMS+23][RMS+23]BERT4RecDreamRecCaDiRec 结果来自 [CWH+24][CWH+24]

6. 实验结果与分析

本节旨在通过实验回答论文提出的五个关键问题 (Q1-Q5)。

6.1. Q1. 整体性能

本文首先比较了 MADRec 与其他生成式推荐方法在四个数据集上的整体性能。

以下是原文 Table 1 的结果:

Method Beauty Sports Toys ML-1M
R@5 N@5 R@5 N@5 R@5 N@5 R@5 N@5
SASRec 3.87 2.49 2.33 1.54 4.63 3.06 9.38 5.31
BERT4Rec 3.60 2.16 2.17 1.43 4.61 3.11 13.63 8.89
DreamRec 4.40 2.74 2.48 1.51 4.97 3.16 13.04 8.58
CaDiRec 4.95 3.14 2.76 1.83 5.22 3.56 15.04 10.01
TIGER 4.29 2.88 2.45 1.64 4.42 2.91 12.83 8.85
LIGER 4.62 3.17 2.61 1.67 4.66 3.01 13.73 9.12
MADRec + Improv % 5.38 +8.7 % 3.51 +10.7 % 3.02 +9.4 % 1.91 +4.4 % 5.48 + 5.0 % 3.75 +5.3 % 16.72 +11.2 % 11.12 +11.1 %

以下是原文 Table 7 的结果,展示了 Recall@10 和 NDCG@10 的结果:

Method Beauty Sports Toys ML-1m
R@10 N@10 R@10 N@10 R@10 N@10 R@10 N@10
SASRec 6.05 3.18 3.50 1.92 7.12 4.32 16.89 7.72
BERT4Rec 6.01 3.08 3.59 1.81 6.65 3.68 20.56 11.12
DreamRec 6.87 3.52 3.74 1.91 6.43 4.02 20.29 10.47
CaDiRec 7.18 3.86 4.25 2.33 7.85 4.41 22.82 12.51
TIGER 6.33 3.54 3.61 2.03 6.63 3.61 19.97 10.13
LIGER 7.52 4.14 4.27 2.30 6.25 3.52 20.58 10.81
MADRec (+ Improv. ( (%)) 8.15 +8.7 % 4.41 +6.5 % 4.54 +6.3 % 2.49 +6.9 % 8.46 +7.8 % 4.45 +0.9 % 23.96 +5.0 % 13.45

6.1.1. 与自回归建模 (AR modeling) 的比较

  • 显著提升: MADRec 相较于 TIGER (标准的SIDs自回归模型) 表现出显著的性能提升。在所有数据集上,NDCG@5 平均提升了 21.9%。这支持了掩蔽扩散框架在数据稀疏场景(如序列推荐)中比自回归模型更有效的观点。

  • 粗粒度召回优势: 如图 2 所示,MADRecTIGER 之间的性能差距随着召回粒度 KK 的增加而增大。这意味着在需要召回更多物品(即粗粒度召回)时,MADRec 的优势更为明显。

    Figure 2: Improved performance gap for coarse-grained retrieval on the Beauty and Sports datasets The gap in Recall \(\\textcircled { \\mathrm { a K } }\) between TIGER and MADRec increases as K increases. 该图像是图表,展示了在Beauty和Sports数据集上MADRec与TIGER之间的粗粒度召回率差异。纵轴为召回值,横轴为不同的K值,表中的增量显示了MADRec相较于TIGER的性能提升。在Beauty数据集上,R@40的召回率提升幅度为+3.8,而在Sports数据集上,R@40的提升为+1.6。

    图 2(原文 Figure 2)显示了在 Beauty 和 Sports 数据集上,针对粗粒度检索的性能差距有所改善。TIGER 和 MADRec 之间 Recall@K 的差距随着 K 的增加而增大。 这一观察与直觉一致:自回归模型倾向于过度关注词元间的局部关系,而掩蔽扩散通过在整个序列上进行去掩蔽训练,能够更好地捕捉词元间的全局关系,从而在需要更广泛、更高质量的召回时表现更优。

6.1.2. 与连续扩散 (continuous diffusion) 的比较

MADRec 也超越了基于连续扩散的推荐方法 DreamRecCaDiRec。这进一步支持了先前的结论,即对于离散数据生成任务,使用掩蔽噪声的扩散模型比使用高斯噪声的连续扩散模型更有效。值得注意的是,DreamRecCaDiRec 通常需要 1000 次扩散推理步骤,而 MADRec 仅使用 5 次推理步骤就能取得更优的性能,显示出其更高的效率。

6.2. Q2. 数据受限性能

为评估 MADRec 在数据受限场景下的有效性,实验通过逐步减少训练数据量,比较 MADRecTIGER 的性能保留情况。在 Beauty 数据集上,训练集中的每个序列按 25%、37.5%、50%、62.5% 和 75% 的比例随机丢弃物品,同时确保每个序列至少保留三个物品。验证集和测试集保持不变,然后测量模型性能的保留百分比。

Figure 3: Comparison of data eficiency of MADRec and TIGER by dropping \(2 5 \\%\) , \(3 7 . 5 \\%\) , \(5 0 \\%\) , \(6 7 . 5 \\%\) and \(7 5 \\%\) of items from each sequence in the training set, while maintaining at least three items in each sequence. 该图像是条形图,展示了MADRec和TIGER模型在不同丢失比例(25%、37.5%、50%、62.5%、75%)的训练集项目下的性能保持率。上方的两组柱状图分别表示NDCG@5和Recall@5的百分比性能保留情况。MADRec(橙色)在各个丢失比例下的性能有所提高,特别是在丢失25%时比TIGER(蓝色)多保留了10%(NDCG)和9%(Recall)。

图 3(原文 Figure 3)比较了 MADRecTIGER 在数据效率方面的表现,通过从训练集中每个序列丢弃 25%、37.5%、50%、67.5% 和 75% 的物品(同时确保每个序列至少保留三个物品)。

  • 结果: 如图 3 所示,随着丢弃物品比例的增加,TIGER 的性能下降速度快于 MADRec。这有力地支持了 MADRec(通过掩蔽扩散)能更有效地利用有限训练数据的假设。在训练数据非常稀疏的推荐场景中,MADRec 的数据效率优势尤为重要。

6.3. Q3. 推理性能-效率权衡

6.3.1. 单项预测 (Single-item prediction)

MADRec 的一个关键优势是其并行解码能力。模型可以以少于 mm 次顺序函数评估 (Function Evaluations, NFEs) 的次数来解码一个物品的 mm 个SIDs,尽管这可能带来潜在的性能损失。 实验在 Beauty 数据集上评估了 MADRec 在 2、3、4 和 5 次 NFEs 下的性能 (Beauty 数据集每个物品有 5 个SIDs),并与自回归基线进行比较。

Figure 4: Next- \(k\) item prediction performance vs number of function evaluations (NFEs) during inference for (Left) \(k = 1\) on Beauty and (Right) \(k = 2\) on MovieLens-1M. The AR methods (TIGER and LIGER) must decode tokens sequentially, so they always execute \(k \\times ( \\# \\mathrm { S I D S } / \\mathrm { i t e m } )\) NFEs. MADRec can decode multiple items in parallel, thereby allows trading off performance and efficiency by tuning the NFEs. Moreover, it already outperforms the AR methods with fewer NFEs. 该图像是图表,展示了在不同的函数评估次数(NFEs)下,MADRec与其他方法(TIGER和LIGER)在NDCG@5和Avg Session R@10的表现。随着NFEs的增加,MADRec的表现优于其他方法,特别是在较低的NFEs时,显示出更高的效率和效果。

图 4(原文 Figure 4)展示了在推理过程中,Next-k 项预测性能与函数评估次数 (NFEs) 之间的关系,其中左图为 k=1 在 Beauty 数据集上的结果,右图为 k=2 在 MovieLens-1M 数据集上的结果。自回归方法(TIGER 和 LIGER)必须顺序解码词元,因此总是执行 k × (#SIDs/item) 次 NFEs。MADRec 可以并行解码多个物品,从而允许通过调整 NFEs 来权衡性能和效率。此外,即使在较少的 NFEs 下,它也已超越自回归方法。

  • 结果: 如图 4 (左) 所示,即使只有 3 次 NFEs,MADRec 的性能 (NDCG@5) 就已超越 TIGER (13% 提升) 和 LIGER (4.7% 提升),而 TIGERLIGER 都需要 4 次 NFEs。这意味着 MADRec 能够在更少的计算量下达到甚至超越自回归模型的性能,展现出显著的推理效率优势。随着 NFEs 的增加,MADRec 的性能进一步提升。

6.3.2. 多项预测 (Multi-item prediction)

为了验证 MADRec 在多项推荐场景下的优势,实验采用了“留二法”协议:每个用户序列的最后两个物品用于测试,倒数第二个用于验证。在 ML-1M 数据集上进行训练和评估(该数据集平均序列长度较长)。

  • 设置: 假设总共生成 10 个会话束 (session beams),每个束代表一对物品。
  • 结果: 如图 4 (右) 所示,MADRec 仅用 4 次 NFEs 就能达到与 TIGER 相同的性能,而 TIGER 需要 8 次 NFEs (每个物品 4 个SID,预测两个物品需要 2×4=82 \times 4 = 8 次 NFEs)。这表明 MADRec 在多项预测任务中能够将 NFEs 减少 50%,显著提升推理效率。

6.4. Q4. 组件重要性

为了理解 MADRec 各关键组件的重要性,论文进行了一系列消融实验。

6.4.1. 语义ID的重要性 (Importance of semantic IDs)

为了验证语义ID的重要性,实验在 Beauty 数据集上进行了两个补充实验:

  1. MADRec + Random SIDs: 用随机分配的词元元组替换由物品嵌入生成的真实 SIDs,词汇表大小与原始 SIDs 相同。

  2. MADRec + Item IDs: 直接在原始物品ID序列上应用 MADRec 框架,而不是 SID 序列。

    以下是原文 Table 2 的结果:

    Method R@5 R@10 N@5 N@10
    BERT4Rec 3.60 6.01 2.16 3.08
    MADRec W Item IDs 4.69 6.71 3.12 3.77
    MADRec w/ Random SIDs 3.78 5.53 2.61 3.05
    MADRec 5.38 8.15 3.51 4.41
  • 结果:
    • 将真实 SIDs 替换为随机 SIDs (MADRec + Random SIDs) 导致 Recall@10 从 8.15 大幅下降到 5.53。
    • 直接在物品ID上使用 MADRec (MADRec W Item IDs) 也使性能从 8.15 下降到 6.71。
  • 结论: 这些结果表明,MADRec 能够有效利用 SIDs 中包含的语义信息,SIDs对于 MADRec 性能至关重要。

6.4.2. 动态掩蔽概率的重要性 (Importance of dynamic masking probability)

  • 与 BERT4Rec 比较: MADRec + Item IDs 仍然优于 BERT4Rec。尽管 BERT4Rec 也是基于掩蔽预测,但它以固定比例(例如 t=0.15t=0.15)掩蔽物品ID。而 MADRec + Item IDs 则在 [0, 1] 区间内使用所有可能的掩蔽比例进行训练,这提供了一个更有效的训练机制。这表明动态掩蔽概率是 MADRec 优于固定掩蔽比例模型的关键因素。

6.4.3. 每个物品的 SID 数量依赖性 (Dependence on the number of SIDs per item)

实验探究了每个物品的SID数量对 MADRec 性能的影响,在 Beauty 数据集上对 SID 数量进行了消融。

以下是原文 Table 3 的结果:

Number of SIDs R@5 R@10 N@5 N@10
3 4.96 7.93 3.24 4.20
4 5.38 8.15 3.51 4.41
5 4.86 7.53 3.26 4.11
  • 结果: 性能从 3 个SIDs 增加到 4 个SIDs 时有所提升,但从 4 个SIDs 增加到 5 个SIDs 时却有所下降。
  • 分析: 作者推测性能下降的原因可能是预测的 SID 组合与有效物品的映射关系变得更加稀疏,导致模型更容易预测出无效的 SID 组合。未来的工作可以探索结合约束束搜索来避免此类无效预测。

6.4.4. 推理策略的作用 (Role of inference strategy)

由于 MADRec 训练时没有对词元顺序引入归纳偏置 (inductive bias),它在推理时选择去掩蔽词元的顺序上具有更大的灵活性。实验评估了三种去掩蔽策略:

  1. 随机推理 (Random inference): 遵循香草掩蔽扩散模型 (vanilla masked diffusion models),随机选择 SIDs 进行去掩蔽。

  2. 贪婪推理 (Greedy inference): 基于预测不确定性选择 SIDs。不确定性通过每个掩蔽 SID 位置上最可能和次最可能分配之间的概率差来衡量。

  3. 从左到右推理 (Left-to-right inference): 顺序地从左到右去掩蔽词元,与残差 K-均值分配 SID 词元的顺序一致。

    以下是原文 Table 4 的结果:

    Inference Method R@5 R@10 N@5 N@10
    MADRec + Random 5.01 7.54 3.27 4.09
    MADRec b + Left-to-right 5.31 8.09 3.46 4.37
    MADRec (Greedy) 5.38 8.15 3.51 4.41
  • 结果: 贪婪推理和从左到右推理都显著优于随机推理。其中,贪婪推理略优于固定的从左到右顺序。
  • 结论: 选择合适的推理策略,尤其是基于不确定性的贪婪策略,对于 MADRec 的性能至关重要。

6.5. Q5. 通过稠密检索扩展

实验评估了将 MADRec 与稠密检索相结合的性能。

  • 实现细节:

    • 使用与 SID 分配相同的 4096 维 Flan-T5-XXL 嵌入作为物品的文本嵌入。

    • 预测的稠密嵌入通过编码器模型第 4 层的输出,并经过一个带有低秩权重(秩 32)的单层 MLP 投影到 4096 维。

    • 训练时,以 β=0.2\beta = 0.2 的概率联合掩蔽物品的所有 SIDs,以促进物品级别的学习。

    • 在统一检索 (unified retrieval) 设置中,MADRec 首先使用束搜索生成 20 个束,然后根据其稠密检索得分进行重排序,以获得 top-10 候选。

      以下是原文 Table 5 的结果:

      Method R@5 R@10 N@5 N@10
      MADRec 5.38 8.15 3.51 4.41
      MADRec + Dense Retrieval 5.41 8.50 3.53 4.45
      MADRec + Unified Retrieval 5.43 8.59 3.54 4.47
  • 结果:MADRec 与稠密检索结合 (MADRec + Dense Retrieval) 或使用统一检索 (MADRec + Unified Retrieval) 均能提升性能,且两种增强变体表现相当。

  • 结论: 这些结果证明 MADRec 框架具有良好的通用性,能够与为自回归 SID 建模开发的辅助方法(如稠密检索)兼容并融合,进一步提升推荐性能。

7. 总结与思考

7.1. 结论总结

本文提出了 MADRec,一种基于掩蔽扩散 (masked diffusion) 的生成式推荐新范式,用于建模语义ID (SIDs) 序列。MADRec 通过引入离散掩蔽噪声和并行去噪机制,成功克服了传统自回归 (AR) 建模在SIDs生成式推荐中存在的推理效率低下、数据利用不足以及偏向局部关系等问题。

主要成果包括:

  • 卓越性能: MADRec 在多个基准数据集上持续优于自回归模型 TIGER 和其他生成式推荐基线,特别是在数据稀疏和粗粒度召回场景中。
  • 高效数据利用: 在数据受限设置下,MADRec 表现出更强的鲁棒性,性能下降速度慢于 TIGER,证实了其能够更有效地从有限数据中学习。
  • 灵活高效的推理: MADRec 能够并行预测多个SIDs,从而实现了推理效率与性能的灵活权衡,并能在更少的函数评估次数下超越自回归模型。
  • 强大的可扩展性: 实验证明 MADRec 可以与稠密检索等辅助方法无缝集成,进一步提升性能,展现了其作为通用建模框架的潜力。

7.2. 局限性与未来工作

论文作者指出了以下局限性和未来研究方向:

  • 无效SID预测: 在增加每个物品的SIDs数量时,MADRec 的性能可能会下降,这可能是由于模型预测了不对应有效物品的SID组合。未来可以探索结合约束束搜索 (constrained beam search) 来防止生成无效的SIDs。
  • 更复杂的训练和推理指导策略: MADRec 的用户序列建模可以通过更复杂的训练和推理指导策略来进一步改进,例如:
    • 无分类器/基于分类器的指导 (Classifier-free/classifier-based guidance): 这类技术可以增强生成质量和样本多样性。
    • 通过重新掩蔽进行错误校正 (Error correction via remasking): 在推理过程中引入重新掩蔽机制,以修正之前的预测错误。
  • 融合其他辅助技术: 探索将 MADRec 与其他为自回归SIDs建模开发的辅助技术相结合,例如用户偏好条件化、长序列生成方法等。

7.3. 个人启发与批判

7.3.1. 个人启发

  1. 范式迁移的价值: 这篇论文再次强调了将一个领域(NLP中的掩蔽扩散)的SOTA技术巧妙迁移到另一个领域(推荐系统)所能带来的巨大价值。这种跨领域借鉴的能力是推动AI发展的重要动力。
  2. 离散建模的重要性: 在处理离散数据(如推荐系统中的物品ID或SIDs)时,离散扩散模型(尤其是掩蔽扩散)可能比连续扩散模型更具优势。这提示我们在选择模型时,应充分考虑数据本身的特性。
  3. 效率与性能的平衡: MADRec 在推理效率和性能之间找到了一个很好的平衡点。在工业级推荐系统中,推理延迟是至关重要的指标,MADRec 的并行解码能力具有很高的实际应用价值。
  4. 数据稀疏性缓解: 推荐系统普遍面临数据稀疏问题。MADRec 在数据受限环境下的优越表现,为解决这一顽疾提供了新的思路。其“指数级”的训练样本利用方式,值得在其他数据稀疏任务中借鉴。
  5. 全局特征捕捉: 自回归模型偏向局部依赖的缺陷是众所周知的。MADRec 通过在序列上进行去噪,能够更好地捕捉全局特征,这对于理解用户长期兴趣或物品间复杂关联至关重要。

7.3.2. 批判与潜在改进

  1. 条件独立性假设的强度: MADRec 在多词元预测时,假设掩蔽词元在给定未掩蔽词元的情况下是条件独立的。尽管实验结果表明这种近似是有效的,但它仍然是一个强假设。未来的工作可以探索更精细的建模方式来捕捉掩蔽词元之间的潜在依赖关系,例如通过引入更复杂的图结构或注意力机制来显式建模。
  2. “无效SID预测”问题: 论文提到了当SIDs数量增加时可能出现无效SID预测的问题,这暗示了SID空间与实际物品映射之间可能存在不连续性或稀疏性。除了文中所提的约束束搜索,也可以考虑在训练阶段引入额外的正则化项或对抗性训练 (adversarial training),以鼓励模型生成更“合法”或接近真实物品分布的SIDs。
  3. SIDs分配的优化: 论文沿用了现有SIDs生成式推荐方法中的残差K-均值聚类进行SID分配。SIDs的质量对 MADRec 的性能至关重要。未来的工作可以探索将SIDs的分配过程与 MADRec 的训练过程进行更紧密的联合优化 (joint optimization),甚至端到端 (end-to-end) 地学习SIDs表示,以进一步提升整体效果。
  4. 计算成本: 尽管 MADRec 在推理时具有并行性,但扩散模型的训练通常计算成本较高,需要大量迭代。虽然本文没有详细讨论训练时间,但对于大规模工业应用,如何进一步优化训练效率仍是一个需要关注的问题。
  5. 超参数敏感性: 扩散模型的性能通常对噪声调度 (noise schedule)、去噪步数、掩蔽策略等超参数敏感。如何在不同数据集和场景下鲁棒地选择这些超参数,是实际应用中需要考虑的挑战。
  6. 可解释性: 扩散模型,尤其是深度学习驱动的扩散模型,通常被认为是“黑箱”模型。如何提高 MADRec 的决策可解释性,例如解释为什么推荐了某个物品,或哪些SIDs在推荐过程中起到了关键作用,是未来研究的重要方向。

相似论文推荐

基于向量语义检索推荐的相关论文。

暂时没有找到相似论文。