AiPaper
论文状态:已完成

DiffGRM: Diffusion-based Generative Recommendation Model

发表:2025/10/21
原文链接PDF 下载
价格:0.10
价格:0.10
已有 20 人读过
本分析由 AI 生成,可能不完全准确,请以原文为准。

TL;DR 精炼摘要

提出DiffGRM,一种基于掩码离散扩散的生成式推荐模型,通过并行语义编码解耦语义ID数字,实现对数字的任意顺序并行生成,克服自回归方法在项内一致性和跨位异质性上的限制,提升推荐效果及训练效率。

摘要

Generative recommendation (GR) is an emerging paradigm that represents each item via a tokenizer as an n-digit semantic ID (SID) and predicts the next item by autoregressively generating its SID conditioned on the user's history. However, two structural properties of SIDs make ARMs ill-suited. First, intra-item consistency: the n digits jointly specify one item, yet the left-to-right causality trains each digit only under its prefix and blocks bidirectional cross-digit evidence, collapsing supervision to a single causal path. Second, inter-digit heterogeneity: digits differ in semantic granularity and predictability, while the uniform next-token objective assigns equal weight to all digits, overtraining easy digits and undertraining hard digits. To address these two issues, we propose DiffGRM, a diffusion-based GR model that replaces the autoregressive decoder with a masked discrete diffusion model (MDM), thereby enabling bidirectional context and any-order parallel generation of SID digits for recommendation. Specifically, we tailor DiffGRM in three aspects: (1) tokenization with Parallel Semantic Encoding (PSE) to decouple digits and balance per-digit information; (2) training with On-policy Coherent Noising (OCN) that prioritizes uncertain digits via coherent masking to concentrate supervision on high-value signals; and (3) inference with Confidence-guided Parallel Denoising (CPD) that fills higher-confidence digits first and generates diverse Top-K candidates. Experiments show consistent gains over strong generative and discriminative recommendation baselines on multiple datasets, improving NDCG@10 by 6.9%-15.5%. Code is available at https://github.com/liuzhao09/DiffGRM.

思维导图

论文精读

中文精读

1. 论文基本信息

1.1. 标题

DiffGRM: Diffusion-based Generative Recommendation Model (DiffGRM:基于扩散的生成式推荐模型)

1.2. 作者

赵柳 (Zhao Liu),朱亦辰 (Yichen Zhu),杨亦清 (Yiqing Yang),唐国平 (Guoping Tang),黄锐 (Rui Huang),罗强 (Qiang Luo),吕晓 (Xiao Lv),唐睿明 (Ruiming Tang),盖坤 (Kun Gai),周国睿 (Guorui Zhou)。 其中,赵柳、朱亦辰、杨亦清、唐国平、黄锐、罗强、吕晓、唐睿明、周国睿隶属于快手科技 (Kuaishou Technology),盖坤为独立研究员 (Unaffiliated)。

1.3. 发表期刊/会议

未指定具体期刊或会议,但论文发布于 arXiv,一个面向预印本 (preprint) 的开放获取存储库。通常,arXiv 上的论文在提交到特定会议或期刊之前发布,或者作为研究进展的公开分享。考虑到其内容和引用格式,它很可能瞄准顶级机器学习或推荐系统会议(如 NeurIPS, KDD, WWW, SIGIR)。

1.4. 发表年份

2025年

1.5. 摘要

生成式推荐 (Generative Recommendation, GR) 是一种新兴的范式,它通过分词器 (tokenizer) 将每个物品 (item) 表示为 nn 位语义ID (Semantic ID, SID),并通过自回归地 (autoregressively) 生成下一个物品的 SID 来进行推荐,生成过程以用户的历史行为为条件。然而,SID 的两个结构特性使得自回归模型 (Autoregressive Models, ARMs) 不太适用。首先是项内一致性 (intra-item consistency)nn 位数字共同指定一个物品,但从左到右的因果关系使得每个数字只能在其前缀上下文下进行训练,阻碍了双向的跨位证据 (bidirectional cross-digit evidence),将监督信号坍缩到单一的因果路径。其次是跨位异质性 (inter-digit heterogeneity):不同的数字在语义粒度和可预测性上存在差异,而统一的下一个词元 (next-token) 目标却赋予所有数字相同的权重,导致简单数字过拟合 (overtraining),复杂数字欠拟合 (undertraining)。为了解决这两个问题,本文提出了 DiffGRM,一个基于扩散的生成式推荐模型,它将自回归解码器 (autoregressive decoder) 替换为掩码离散扩散模型 (masked discrete diffusion model, MDM),从而实现了双向上下文 (bidirectional context) 和 SID 数字的任意顺序并行生成 (any-order parallel generation) 以进行推荐。具体而言,DiffGRM 在三个方面进行了定制:(1) 使用并行语义编码 (Parallel Semantic Encoding, PSE) 进行词元化 (tokenization),以解耦数字并平衡每个数字的信息;(2) 通过在线策略协同去噪 (On-policy Coherent Noising, OCN) 进行训练,该方法通过协同掩码 (coherent masking) 优先处理不确定数字,将监督信号集中在高价值信号上;(3) 采用置信度引导的并行去噪 (Confidence-guided Parallel Denoising, CPD) 进行推理,该方法首先填充置信度较高的数字,并生成多样化的 Top-K 候选。实验结果表明,在多个数据集上,DiffGRM 相较于强大的生成式和判别式推荐基线模型取得了持续的性能提升,NDCG@10 提升了 6.9% - 15.5%。代码已在 GitHub 上开源。

1.6. 原文链接

原文链接: https://arxiv.org/abs/2510.21805 PDF 链接: https://arxiv.org/pdf/2510.21805v1.pdf 发布状态:预印本 (preprint),发布于 (UTC):2025-10-21T03:23:32.000Z

2. 整体概括

2.1. 研究背景与动机

2.1.1. 研究背景

推荐系统 (Recommendation Systems) 在现代数字生活中扮演着至关重要的角色,帮助用户从海量信息中发现感兴趣的物品。传统的推荐系统通常是判别式 (discriminative) 的,即直接预测用户对物品的偏好得分或点击概率。近年来,生成式推荐 (Generative Recommendation, GR) 作为一种新兴范式,开始受到广泛关注。GR 的核心思想是将推荐任务转化为生成任务,通过预测目标物品的表示(通常是语义ID序列)来完成推荐。这种方法继承了大型语言模型 (Large Language Models, LLMs) 在序列生成方面的强大能力,有望实现开放词汇推荐 (open-vocabulary recommendation) 等新特性。

2.1.2. 核心问题与动机

在 GR 框架中,每个物品 (item) 首先通过分词器 (tokenizer) 被编码成一个固定长度 nn语义ID (Semantic ID, SID) 序列,其中每个数字都代表一个语义词元 (semantic token)。随后,一个生成模块(通常是 GPT 风格的自回归模型 (Autoregressive Model, ARM))根据用户的历史行为,自回归地预测下一个物品的 SID。

然而,本文指出 SID 结构具有两个关键特性,这些特性与传统的自回归模型 (ARM) 的工作方式存在不匹配 (mismatch)

  1. 项内一致性 (Intra-item Consistency):一个物品的 nn 个 SID 数字共同且完整地定义了一个物品。例如,一个 SID 序列可能代表“迪奥烈艳蓝金唇膏999丝绒哑光 (Dior Rouge 999 Velvet)”。这意味着这些数字之间存在紧密的语义关联,它们共同构成了物品的完整语义。然而,ARM 采用从左到右 (left-to-right) 的因果预测方式,每个数字的预测仅依赖于其前缀,无法利用来自后续数字的双向上下文信息。这导致监督信号被限制在单一的因果路径上,难以充分捕捉 SID 数字间的内在一致性。当早期数字预测错误时,这种错误会向后传播,影响后续数字的预测,如原文 Figure 1(b) 所示。

  2. 跨位异质性 (Inter-digit Heterogeneity):不同的 SID 数字通常编码了不同粒度的语义信息(例如,第一个数字可能是类别,第二个是品牌,第三个是类型,第四个是尺寸)。这导致不同数字的可预测性和预测难度存在显著差异。然而,ARM 采用的统一“下一个词元 (next-token)”预测目标,会赋予所有数字相同的监督权重。这导致训练不平衡:简单数字可能被过度训练 (overtrained),而复杂数字则可能欠训练 (undertrained),从而影响整体的 SID 生成质量。

2.1.3. 论文的切入点与创新思路

为了解决上述 ARM 在处理 SID 时面临的挑战,本文提出利用掩码离散扩散模型 (Masked Discrete Diffusion Model, MDM) 来替代 ARM。MDM 能够自然地利用双向上下文,支持并行生成,并通过随机去噪过程提供更丰富的监督信号,这使其与 SID 的结构特性更加契合。在此基础上,DiffGRM 进一步提出了三个定制化的组件,以优化 SID 的词元化、训练和推理过程。

2.2. 核心贡献/主要发现

本文的主要贡献总结如下:

  • 提出 DiffGRM 框架:DiffGRM 是首个基于扩散的生成式推荐框架,它用掩码离散扩散模型替代了自回归解码器,从而消除了自回归模型固有的从左到右的因果约束,并充分利用了 SID 数字之间的双向跨位上下文信息。
  • 并行语义编码 (Parallel Semantic Encoding, PSE):DiffGRM 采用了 PSE 来对物品进行词元化,与传统残差量化 (Residual Quantization, RQ) 方法不同,PSE 解耦了 SID 数字之间的残差依赖关系,平衡了每个数字的信息量,从而更好地支持 MDM 的并行预测。
  • 在线策略协同去噪 (On-policy Coherent Noising, OCN):在训练层面,OCN 解决了掩码扩散中监督信号组合爆炸的问题。它通过模型自身在策略 (on-policy) 下选择不确定性最高的“困难”数字进行协同掩码,将训练预算集中于高价值信号,提高了样本效率。
  • 置信度引导的并行去噪 (Confidence-guided Parallel Denoising, CPD):在推理层面,CPD 是一种置信度引导的全局并行束搜索 (global parallel beam search) 策略。它能够首先填充模型置信度高的数字,然后逐步完成 SID 的去噪过程,从而生成准确且多样化的 Top-K 推荐候选。
  • 卓越的实验性能:DiffGRM 在多个公开数据集上实现了最先进 (state-of-the-art) 的性能,相较于强大的生成式和判别式推荐基线模型,NDCG@10 指标提升了 6.9% 至 15.5%。这充分证明了 DiffGRM 在准确性和泛化能力方面的优势。

3. 预备知识与相关工作

3.1. 基础概念

3.1.1. 生成式推荐 (Generative Recommendation, GR)

生成式推荐 (Generative Recommendation) 是一种新兴的推荐范式,它将推荐任务重新定义为序列生成任务。与传统的判别式推荐模型(如预测用户对物品的评分或点击概率)不同,GR 模型的目标是直接生成用户可能感兴趣的物品的表示(例如,物品的 ID 序列、属性描述或本论文中的语义 ID 序列)。这种范式借鉴了自然语言处理领域中生成模型的成功,特别是大型语言模型 (LLMs) 在文本生成方面的能力。

3.1.2. 语义 ID (Semantic ID, SID)

语义 ID (Semantic ID, SID) 是生成式推荐中的一个核心概念。在 GR 框架中,为了使物品能够被生成模型处理,每个物品的原始特征(如文本描述、图片、视频等)首先被编码成一个固定长度 nn 的离散序列,这个序列就是 SID。每个 SID 序列由 nn 个数字组成,每个数字(或称词元 (token))从一个预定义的码本 (codebook) 中选择。这些数字共同编码了物品的语义信息,例如,不同的数字可能代表物品的类别、品牌、类型、尺寸等不同粒度的属性。

3.1.3. 自回归模型 (Autoregressive Models, ARMs)

自回归模型 (Autoregressive Models, ARMs) 是一类序列模型,其核心思想是根据序列中已生成的(或前缀)部分来预测下一个元素。在自然语言处理中,典型的 ARM 如 GPT 系列模型,通过从左到右 (left-to-right) 的方式生成文本。在 GR 中,ARM 会根据用户历史和已生成的 SID 前缀,逐个数字地生成目标物品的 SID。 工作原理: ARMs 采用因果注意力 (causal attention) 机制,确保每个预测仅依赖于其左侧的上下文。这意味着在生成一个序列时,模型在预测位置 tt 的词元时,只能看到位置 1t-1 的词元,而不能看到位置 t+1t+1 到序列末尾的词元。 局限性 (在 GR 中的体现):

  • 单一因果路径: 由于只能从左到右预测,模型无法利用 SID 中数字之间的双向语义依赖关系,这在 SID 中尤其重要,因为所有数字共同定义一个物品。
  • 错误传播: 如果序列早期的数字预测错误,这个错误可能会沿着因果链传播到后续的数字,导致整个 SID 序列的错误。
  • 训练不平衡: 无法灵活地集中监督信号到更“困难”的数字上,因为所有数字都按照顺序被同等对待。

3.1.4. 掩码离散扩散模型 (Masked Discrete Diffusion Models, MDMs)

扩散模型 (Diffusion Models) 最初是为连续数据(如图像)生成而设计的。它们通过一个前向扩散过程 (forward diffusion process) 逐渐向数据中添加噪声,直到数据变为纯噪声。然后,一个逆向去噪过程 (reverse denoising process) 被训练来学习如何从噪声中恢复原始数据。 离散扩散模型 (Discrete Diffusion Models) 是扩散模型在离散数据(如文本词元、本论文中的 SID 数字)上的扩展。 掩码离散扩散模型 (Masked Discrete Diffusion Models, MDMs) 是一种特殊的离散扩散模型,它通过掩码 (masking) 操作来引入噪声。在前向过程 (forward process) 中,MDM 随机地将数据序列中的一部分词元替换为特殊的 [MASK] 词元,掩码的比例随着时间步 (time step) 逐渐增加。在逆向过程 (reverse process) 中,模型被训练来并行地预测所有被掩码的词元,从而从被破坏的序列中恢复原始数据。 优势 (在 GR 中的体现):

  • 双向上下文: MDM 在预测被掩码词元时,可以利用其左右两侧的所有可见词元作为上下文,这与 ARM 的单向因果限制形成鲜明对比。这允许模型更好地捕捉 SID 数字间的内在一致性。
  • 并行生成: MDM 可以并行地预测所有被掩码的词元,这在推理时可以提高效率。
  • 丰富监督信号: 通过在训练过程中随机掩码不同子集,模型可以在多种上下文下学习预测每个词元,提供更丰富的监督信号。

3.1.5. 向量量化 (Vector Quantization, VQ)

向量量化 (Vector Quantization) 是一种数据压缩技术,它将高维连续向量映射到低维离散码本中的一个索引。在 GR 中,物品的连续语义嵌入 (semantic embeddings) 通过 VQ 转换为离散的语义 ID (SID)。 工作原理: VQ 维护一个码本,其中包含一系列预定义的码字 (codewords)。对于一个输入的连续向量,VQ 找到码本中与其最接近的码字,并返回该码字的索引作为离散表示。 变体:

  • 残差量化 (Residual Quantization, RQ):一种层级 (hierarchical) 的 VQ 方法,它分多步进行量化。第一步量化原始向量,然后量化原始向量与第一个码字之间的残差 (residual),以此类推。这导致数字之间存在顺序依赖。
  • 乘积量化 (Product Quantization, PQ)正交乘积量化 (Orthogonal Product Quantization, OPQ):这些方法将高维向量分解为多个低维子向量,并为每个子向量独立地进行量化。这可以消除数字间的残差依赖,实现并行量化。

3.2. 前人工作

本文主要关注生成式推荐和离散扩散模型的最新进展。

3.2.1. 生成式推荐模型 (Generative Recommendation Models)

  • 自回归 (AR) 方法: 许多 GR 模型将推荐视为序列生成任务,将物品离散化为语义 ID,并使用 Transformer 模型逐词元地预测目标 SID。
    • TIGER [48]: 使用 RQ-VAE 进行词元化,并自回归解码。这是本文的主要对比基线之一。
    • HSTU [65]: 将推荐建模为大规模序列转换问题。
    • GenNewsRec [9]: 将 LLM 推理与物品生成结合。
    • MTGRec [72] 和 ETEGRec [32]: 改进量化以生成更高质量的词元。
    • ActionPiece [21]: 执行上下文感知的词元化。
    • RPG [20]: 通过多词元目标和图引导解码,并行预测无序的语义 ID 词元。这与 DiffGRM 的并行思想有所契合,但其并行方式(无序)和生成机制(图引导解码)与 DiffGRM(扩散模型)不同。
  • 共性: 这些 AR 生成式推荐器统一了表示和预测,受益于大规模语言建模技术,并支持开放词汇推荐。
  • 本文的观点: 尽管 GR 统一了表示和生成,但 RQ 结合从左到右的解码,导致了不匹配、不平衡和僵硬的推理过程。因此,本文提出了基于扩散的 GR,采用并行词元化、难度感知掩码和置信度驱动的并行去噪。

3.2.2. 离散扩散语言模型 (Discrete Diffusion Language Models)

  • 起源: 扩散模型最初为连续数据(如图像)而生 [16, 37, 56, 57],后扩展到离散空间 [3, 17]。
  • 理论发展: 连续时间框架建模离散扩散为 CTMC [4, 5],concrete-score / score-matching 目标实现了有效训练 [34, 39]。
  • 性能提升: 大规模离散扩散语言模型 (DDMs) 在某些任务上已接近自回归模型的性能 [64],并通过改进逆向采样策略获得进一步提升 [35, 44, 46]。
  • 本文的观点: 这些进展主要针对自由形式、单输出的文本生成。然而,GR 需要结构化的 nn 位 SID 和 Top-K 候选集。因此,本文需要针对 GR 任务,定制 DDMs 的词元化、训练和推理过程。

3.3. 技术演进

推荐系统的发展经历了从传统协同过滤 (Collaborative Filtering) 到基于深度学习的序列推荐 (Sequential Recommendation),再到近年兴起的生成式推荐的演变。

  • 判别式推荐 (Discriminative Recommendation): 早期和主流的深度学习推荐模型,如 GRU4RecSASRecBERT4Rec,主要通过学习用户和物品的嵌入 (embeddings),然后预测用户对特定物品的偏好得分。它们本质上是判别式的,即区分用户喜欢哪些物品和不喜欢哪些物品。
  • 语义增强判别式模型 (Semantic-enhanced Discriminative Models): 为了更好地利用物品的丰富内容信息(如文本、图片),一些判别式模型开始引入语义嵌入,例如 FDSAS3-RecvQ-RecRecJPQ。这些模型通常通过预训练的语言模型 (PLMs) 或向量量化技术将物品内容转化为语义表示,然后将其集成到判别式预测中。
  • 自回归生成式推荐 (Autoregressive Generative Recommendation): 随着 LLMs 的兴起,推荐领域开始探索将推荐问题建模为序列生成。物品通过分词器编码为离散的语义 ID (SID) 序列,然后使用 Transformer 架构的自回归模型 (如 TIGER) 逐个生成 SID 词元。这种方法能够实现开放词汇推荐,并从 LLMs 的强大序列建模能力中受益。
  • 扩散生成式推荐 (Diffusion-based Generative Recommendation): 本文提出的 DiffGRM 代表了生成式推荐的最新演进方向。它认识到自回归模型在处理 SID 序列时存在的局限性(单向性、错误传播、训练不平衡),转而引入了掩码离散扩散模型 (MDM)。MDM 的双向上下文建模和并行生成能力,能够更好地匹配 SID 的结构特性,克服 ARMs 的缺点,从而在生成准确性和多样性方面实现进一步的突破。

3.4. 差异化分析

DiffGRM 与现有 GR 模型的核心区别和创新点在于:

  • 生成范式:
    • 自回归模型 (ARMs) (如 TIGER): 采用从左到右的单向生成,每个 SID 数字的预测依赖于其前缀。这导致无法捕捉数字间的双向依赖,且早期错误会传播。
    • DiffGRM (基于 MDM): 采用掩码离散扩散模型,实现并行和任意顺序的数字生成。模型可以利用 SID 数字间的双向上下文,预测任何被掩码的数字,这更符合 SID 数字共同定义一个物品的特性。
  • 词元化策略:
    • 残差量化 (RQ) (如 TIGER, RQ-Kmeans): 引入了数字间的残差依赖和层级结构,导致信息分布不平衡,并与并行预测冲突。
    • DiffGRM (并行语义编码, PSE): 采用 OPQ 等技术,将物品表示分解为独立子空间,消除数字间的残差依赖,平衡了每个数字的信息,从而更好地支持并行扩散生成。
  • 训练策略:
    • ARMs (统一 next-token 目标): 为所有 SID 数字分配相同的监督权重,导致简单数字过训练,复杂数字欠训练。
    • DiffGRM (在线策略协同去噪, OCN): 引入难度感知 (difficulty-aware) 掩码,通过模型自身的置信度来识别“困难”数字,并优先对其进行协同掩码。这使得训练预算集中于高价值信号,解决了训练不平衡问题。
  • 推理策略:
    • ARMs (左到右束搜索): 传统的束搜索通常是顺序扩展的,一次填充一个数字。对于 Top-K 推荐,可能导致多样性不足。

    • DiffGRM (置信度引导的并行去噪, CPD): 利用扩散模型的并行性,设计了一种置信度引导的全局并行束搜索。它首先填充高置信度的数字,并能够生成多样化的 Top-K 候选。

      总结来说,DiffGRM 通过引入 MDM 并对其词元化、训练、推理进行专门定制,克服了传统 ARMs 在处理 SID 序列时面临的结构性挑战,从而显著提升了生成式推荐的性能。

4. 方法论

4.1. 方法原理

DiffGRM 的核心思想是利用掩码离散扩散模型 (MDM) 替代传统生成式推荐中的自回归模型 (ARM),以解决 SID 序列的项内一致性 (intra-item consistency)跨位异质性 (inter-digit heterogeneity) 问题。

基本原理:

  1. Encoder-Decoder 架构: DiffGRM 采用编码器-解码器 (encoder-decoder) 架构。编码器负责从用户的历史交互序列中提取上下文信息,生成一个固定长度的向量表示。
  2. MDM 解码器: 解码器是核心组件,它不再是自回归的,而是基于 MDM。MDM 在生成 SID 数字时,能够利用双向上下文 (bidirectional context),这意味着在预测某个数字时,它可以同时考虑其左侧和右侧的数字,这与 ARM 只能看左侧前缀截然不同。
  3. 并行生成: MDM 允许并行生成 (parallel generation) SID 的所有数字,而非逐个生成。这提高了推理效率,并且更好地匹配了 SID 数字共同构成一个物品的语义特性。
  4. 定制化设计: 为了 MDM 在推荐任务中发挥最大效用,DiffGRM 引入了三个关键组件:
    • 并行语义编码 (Parallel Semantic Encoding, PSE):一种新的词元化方法,用于生成解耦且信息均衡的 SID,为 MDM 的并行生成提供基础。

    • 在线策略协同去噪 (On-policy Coherent Noising, OCN):一种训练策略,通过优先掩码“困难”数字,将监督信号集中到高价值部分,提高训练效率和模型性能。

    • 置信度引导的并行去噪 (Confidence-guided Parallel Denoising, CPD):一种推理策略,结合置信度信息和并行束搜索,以高效生成准确且多样化的 Top-K 推荐候选。

      整个流程如原文 Figure 2 所示。

4.2. 核心方法详解

4.2.1. SID 生成用于序列推荐 (SID Generation for Sequential Recommendation)

给定用户的历史交互序列 Su=[i1u,,iLuu]S_u = [i_1^u, \dots, i_{L_u}^u],其中 LuL_u 是历史序列的长度。每个物品 iIi \in \mathcal{I} 都有内容特征 fi\mathbf{f}_i。一个语义编码器 E()E(\cdot) 将这些特征映射为 dd 维的连续嵌入 hi=E(fi)Rd\mathbf{h}_i = E(\mathbf{f}_i) \in \mathbb{R}^d。然后,这个连续嵌入被离散化为一个 nn 位语义 ID (SID),记作 SIDi=[si0,,sin1]\mathrm{SID}_i = [s_i^0, \dots, s_i^{n-1}]。每个数字 siks_i^k 从一个大小为 MM 的码本中选择,即 sik{0,,M1}s_i^k \in \{0, \dots, M-1\}。用户的历史序列在 SID 空间中表示为 Xu=[SIDi1u,,SIDiLuu]X_u = [\mathrm{SID}_{i_1^u}, \dots, \mathrm{SID}_{i_{L_u}^u}]。目标是预测下一个物品的 SID,记作 y=SIDiLu+1u\mathbf{y}^* = \mathrm{SID}_{i_{L_u+1}^u}

模型学习一个条件生成器 pθ(yXu)p_\theta(\mathbf{y} \mid X_u),并通过最大化条件对数似然 (conditional log-likelihood) 来优化参数 θ\theta: maxθEuU[logpθ(yXu)] \operatorname*{max}_{\theta} \mathbb{E}_{u \in \mathcal{U}} \big[ \log p_\theta(\mathbf{y}^* \mid X_u) \big] 其中 pθp_\theta 是在给定用户历史 XuX_u 的情况下,对 nn 个 SID 数字的联合分布进行建模的。在 DiffGRM 中,pθp_\theta 由一个基于掩码扩散的解码器实现,该解码器通过对掩码数字的逐位监督进行训练。

4.2.2. 用于并行词元预测的掩码扩散 (Masked Diffusion for Parallel Token Prediction)

DiffGRM 采用掩码扩散 (masked diffusion) 方法来生成 nn 位 SID。

  • 前向过程 (Forward Process): 前向过程是一个噪声添加过程。它通过一个与时间相关的调度函数,将 SID 序列 x0\mathbf{x}_0 中的一部分数字替换为特殊的 [MASK] 词元,生成被破坏的序列 xτ\mathbf{x}_\tau。这个过程用 qτ0(x0)q_{\tau|0}(\cdot | \mathbf{x}_0) 表示,其中 τ\tau 是掩码比率,可以看作是“时间步”。

  • 逆向过程 (Reverse Process): 逆向过程是去噪过程。模型被训练来从被破坏的序列 xτ\mathbf{x}_\tau 中并行地预测所有被掩码的数字,从而恢复原始的干净序列 x0\mathbf{x}_0

    模型训练的目标是最小化掩码数字的交叉熵损失 (masked-digit cross-entropy loss): L(θ)=Ex0,τ,xτqτ0(x0)[1MτkMτlogPθ(x0kxτ,τ)] \mathcal{L}(\theta) = - \mathbb{E}_{\mathbf{x}_0, \tau, \mathbf{x}_\tau \sim q_{\tau|0}(\cdot | \mathbf{x}_0)} \left[ \frac{1}{|\mathcal{M}_\tau|} \sum_{k \in \mathcal{M}_\tau} \log \mathcal{P}_\theta \Big( x_0^k \mid \mathbf{x}_\tau, \tau \Big) \right] 其中:

  • x0\mathbf{x}_0 是干净的 SID 序列。

  • xτ\mathbf{x}_\tau 是在掩码比率 τ[0,1)\tau \in [0, 1) 下被破坏的序列。

  • qτ0(x0)q_{\tau|0}(\cdot | \mathbf{x}_0) 是前向扩散过程,表示从 x0\mathbf{x}_0 生成 xτ\mathbf{x}_\tau 的概率分布。

  • Mτ\mathcal{M}_\tau 是在 τ\tau 时刻被掩码的索引集合。

  • Mτ|\mathcal{M}_\tau| 是被掩码数字的数量。

  • x0kx_0^k 是原始 SID 序列中第 kk 个数字的真实值。

  • Pθ(x0kxτ,τ)\mathcal{P}_\theta(x_0^k \mid \mathbf{x}_\tau, \tau) 是模型在给定被破坏序列 xτ\mathbf{x}_\tau 和时间步 τ\tau 时,预测第 kk 个数字为真实值 x0kx_0^k 的概率。

    这个损失函数上界 (upper-bounds) 了负对数似然 (negative log-likelihood),消除了因果约束,并通过监督所有掩码位置和改变训练过程中的掩码集合,提供了更丰富的监督信号组合,从而实现了高效的并行生成。

4.2.3. 并行语义编码 (Parallel Semantic Encoding, PSE)

在推荐系统中,物品 ii 通常包含多种内容特征 fi\mathbf{f}_i。语义编码器 E()E(\cdot) 将这些原始特征映射为 dd 维连续表示 hiRd\mathbf{h}_i \in \mathbb{R}^d。为了将连续表示离散化为 SID,DiffGRM 采用并行语义编码 (Parallel Semantic Encoding, PSE)

PSE 采用一种基于 OPQ (Optimized Product Quantization) 的分区-量化方案:

  1. 正交旋转 (Orthogonal Rotation): 首先学习一个正交旋转矩阵 Ro\mathbf{R}_o,用于减少下游量化失真。原始向量 hi\mathbf{h}_i 经过旋转得到 h~i=Rohi\tilde{\mathbf{h}}_i = \mathbf{R}_o \mathbf{h}_i
  2. 均匀分区 (Even Partitioning): 旋转后的向量 h~i\tilde{\mathbf{h}}_i 被均匀地划分为 nn 个子向量:h~i=vi1vin\tilde{\mathbf{h}}_i = \mathbf{v}_i^1 \oplus \cdots \oplus \mathbf{v}_i^n
  3. 独立量化 (Independent Quantization): 每个子向量 vik\mathbf{v}_i^k 被独立地分配到一个专门的、逐位的码本 C(k)={c0(k),,cM1(k)}\mathbf{C}^{(k)} = \{\mathbf{c}_0^{(k)}, \dots, \mathbf{c}_{M-1}^{(k)}\} 中。量化过程通过最近质心索引 (nearest-centroid indexing) 完成,即找到与子向量距离最近的码字: sik=argminjvikcj(k)22 s_i^k = \operatorname*{argmin}_{j} \| \mathbf{v}_i^k - \mathbf{c}_j^{(k)} \|_2^2 这生成了 nn 位 SID SIDi=[si0,,sin1]\mathrm{SID}_i = [s_i^0, \dots, s_i^{n-1}]

PSE 的优势:

  • 解耦数字: PSE 消除了数字间的残差序列依赖,允许对每个数字进行完全并行的预测。
  • 平衡信息: 通过独立量化,PSE 旨在平衡每个数字所携带的信息量,减少了由残差量化 (RQ) 引起的跨位异质性 (inter-digit heterogeneity) 和信息不平衡问题。

4.2.4. 在线策略协同去噪 (On-policy Coherent Noising, OCN)

传统的随机掩码 (random masking) 在训练 MDM 时可能导致监督信号稀疏且不平衡,尤其是在推荐系统这种物品目录巨大且长尾分布的场景下。OCN 旨在通过难度感知 (difficulty-aware) 掩码来更有效地分配监督信号。

OCN 的核心思想: OCN 根据模型当前的预测能力(即“在线策略 (on-policy)”)来识别最不确定的(即“最困难的”)数字,并优先对这些数字进行掩码,同时保持未被掩码的上下文是“协同 (coherent)”的。

具体步骤:

  1. 难度评估 (Difficulty Assessment): 对于每个训练样本,首先将 nn 位 SID 输入 MD-Decoder,并进行完全掩码 (fully masked) 预测(即所有数字都被掩码)。这次探测会为每个数字 kk 得到一个预测的离散分布 Pθ(R,k)()\mathcal{P}_\theta^{(R, k)}(\cdot)。 模型对数字 kk 的置信度 (confidence) pmax(k)p_{\operatorname*{max}}^{(k)} 和难度 (difficulty) δ(k)\delta^{(k)} 被量化为: pmax(k)=maxv{0,,M1}Pθ(R,k)(v) p_{\operatorname*{max}}^{(k)} = \operatorname*{max}_{v \in \{0, \ldots, M-1\}} \mathcal{P}_\theta^{(R, k)}(v) δ(k)=1pmax(k) \delta^{(k)} = 1 - p_{\operatorname*{max}}^{(k)} 其中,pmax(k)p_{\operatorname*{max}}^{(k)} 是模型预测第 kk 个数字的最高概率值,而 δ(k)\delta^{(k)} 衡量了其不确定性或难度。δ(k)\delta^{(k)} 越大,表示模型对该数字的预测越不自信,即该数字越“困难”。

  2. 难度排序与策略 (Difficulty Ranking and Policy): 这些难度分数 δ(k)\delta^{(k)} 诱导出一个策略 πθ(k)δ(k)\pi_\theta(k) \propto \delta^{(k)},即模型倾向于关注更困难的数字。根据 δ(k)\delta^{(k)} 的降序(从最困难到最容易)对数字进行排序,得到一个排列 σ\sigma

  3. 构建协同视图 (Constructing Coherent Views): OCN 为每个样本构造一个小的、嵌套的 (nested) 视图集合,这些视图从轻度损坏到重度损坏依次排列。对于第 rr 个视图,它会确定性地掩码由 σ\sigma 排列出的前 mrm_r 个最困难的数字,而其余数字则保持可见且使用干净的嵌入。掩码的索引集合为: M(r)={σ(1),,σ(mr)} \mathcal{M}^{(r)} = \{ \sigma(1), \dots, \sigma(m_r) \} 其中 mrm_r 是第 rr 个视图中掩码数字的数量,并且遵循一个非递减的调度 1m1<<mRn1 \leq m_1 < \dots < m_R \leq n。 第 rr 个视图的输入 y(r,k)\mathbf{y}^{(r, k)} (对于第 kk 个数字) 构造如下: y(r,k)={Emask[k],ifkM(r),Esid(k)[sk],ifkM(r), \begin{array}{r} \mathbf{y}^{(r, k)} = \left\{ \begin{array}{ll} \mathbf{E}_{\mathrm{mask}}[k], & \mathrm{if}\, k \in \mathcal{M}^{(r)}, \\ \mathbf{E}_{\mathrm{sid}}^{(k)}[s^k], & \mathrm{if}\, k \notin \mathcal{M}^{(r)}, \end{array} \right. \end{array} 其中 Emask[k]\mathbf{E}_{\mathrm{mask}}[k] 是掩码词元嵌入,Esid(k)[sk]\mathbf{E}_{\mathrm{sid}}^{(k)}[s^k] 是第 kk 个数字 sks^k 的干净嵌入。

  4. 损失计算与聚合 (Loss Calculation and Aggregation): 对于每个视图 rr,计算其掩码数字的交叉熵损失 L(r)\mathcal{L}^{(r)}L(r)=1M(r)kM(r)(v=0M1q~(k)logpθ(r,k)(vy(r),Hu)) \mathcal{L}^{(r)} = \frac{1}{|\mathcal{M}^{(r)}|} \sum_{k \in \mathcal{M}^{(r)}} \left( - \sum_{v=0}^{M-1} \tilde{\mathbf{q}}^{(k)} \log p_\theta^{(r, k)}(v \mid \mathbf{y}^{(r)}, \mathbf{H}_u) \right) 其中 q~(k)\tilde{\mathbf{q}}^{(k)} 是数字 kk 的平滑 (smoothed) 独热 (one-hot) 目标,y(r)\mathbf{y}^{(r)} 是视图 rr 的部分掩码输入,Hu\mathbf{H}_u 是编码器输出的用户历史表示。 最终的总损失是所有视图损失的平均值: L=1Rr=1RL(r) \mathcal{L} = \frac{1}{R} \sum_{r=1}^R \mathcal{L}^{(r)} 其中 RR 是视图数量。

OCN 的优势:

  • 集中监督: OCN 将训练预算集中到模型最不确定的“困难”数字上,避免了随机掩码可能导致的监督信号分散。
  • 提高样本效率: 通过优先处理高价值信号,OCN 可以在有限的训练预算下实现更好的性能。
  • 稳定优化: 嵌套的掩码集合使得模型在训练过程中逐步获得更丰富的上下文证据,有助于稳定优化。

4.2.5. 置信度引导的并行去噪 (Confidence-guided Parallel Denoising, CPD)

在推荐任务中,通常需要生成一个多样化的 Top-K 候选物品集合,而不仅仅是一个最佳物品。传统的 MDM 解码通常采用贪婪填充 (greedy fill-in) 来生成单个高质量输出。为了满足推荐系统的需求,DiffGRM 提出了 置信度引导的并行去噪 (Confidence-guided Parallel Denoising, CPD) 策略。

CPD 是一种全局并行束搜索 (global parallel beam search) 去噪器,它在 MD-Decoder 上运行,联合评估部分 SID,并按照模型置信度降序填充数字,从而生成准确且多样化的 Top-K SID 候选。

CPD 的具体步骤:

  1. 初始化 (Initialization):

    • 编码器首先计算用户历史的表示 Hu\mathbf{H}_u,并缓存其键值 (k/v) 对。
    • 从一个完全掩码的 nn 位输入 y(R)\mathbf{y}^{(R)} (对应于最高的掩码比率 tR=1t_R=1) 开始。
    • 对于每个可能的 (数字索引 kk, 码字 cc) 对,计算模型预测该码字的对数概率 logpθ(yk=cy(R),Hu)\log p_\theta(y_k=c \mid \mathbf{y}^{(R)}, \mathbf{H}_u)
    • 初始化活跃集 BR\mathcal{B}_R,选择得分最高的 BactB_{\mathrm{act}} 个 (数字索引 kk, 码字 cc) 对。 BR=TopBact{logpθ(yk=cy(R),Hu)} \mathcal{B}_R = \operatorname*{Top}_{B_{\mathrm{act}}} \Big\{ \log p_\theta \Big( y_k = c \Big| \mathbf{y}^{(R)}, \mathbf{H}_u \Big) \Big\} 其中:
    • yky_k 是第 kk 个 SID 数字。
    • k{0,,n1}k \in \{0, \dots, n-1\}
    • c{0,,M1}c \in \{0, \dots, M-1\} 是码字。
    • MM 是逐位码本的大小。
    • BactB_{\mathrm{act}} 是每一步的束宽 (beam width)。
    • Pθ\mathcal{P}_\theta 是 MD-Decoder 的分布。
    • TopBact{}\operatorname*{Top}_{B_{\mathrm{act}}}\{\cdot\} 选择得分最高的 BactB_{\mathrm{act}} 个元素。
  2. 迭代去噪 (Iterative Denoising):

    • CPD 按照逆向时间步 {tr}r=1R\{t_r\}_{r=1}^R (从 tR=1t_R=1t1=0t_1=0) 进行迭代。
    • 在每个去噪步 trt_r,对于活跃集 Br\mathcal{B}_r 中的每个分支 bb,以及该分支中所有尚未被填充的掩码数字 kMr(b)k \in \mathcal{M}_r^{(b)},尝试填充所有可能的码字 cc
    • 计算填充 (数字 kk, 码字 cc) 的得分 sr1(b,k,c)s_{r-1}(b, k, c)sr1(b,k,c)=scorer(b)+logpθ(yk=cyb(r),Hu) s_{r-1}(b, k, c) = \mathrm{score}_r(b) + \log p_\theta \Big( y_k = c \mid \mathbf{y}_b^{(r)}, \mathbf{H}_u \Big) 其中:
    • bBrb \in \mathcal{B}_r 索引一个分支。
    • scorer(b)\mathrm{score}_r(b) 是分支 bbtrt_r 时累积的对数概率。
    • yb(r)\mathbf{y}_b^{(r)} 是分支 bbtrt_r 时刻的部分掩码序列。
    • kMr(b)k \in \mathcal{M}_r^{(b)} 是一个仍被掩码的索引。
  3. 束截断与更新 (Beam Truncation and Update):

    • 在计算所有可能的 (分支 bb, 数字 kk, 码字 cc) 组合的得分后,通过截断保留得分最高的 BactB_{\mathrm{act}} 个分支,形成新的活跃集 Br1\mathcal{B}_{r-1}Br1=TopBact{sr1(b,k,c)} \mathcal{B}_{r-1} = \operatorname*{Top}_{B_{\mathrm{act}}} \Big\{ s_{r-1}(b, k, c) \Big\}
    • 对于选中的每个元组 (b, k, c),将数字 kk 填充为 cc,并从分支 bb 的掩码索引集合中移除 kk。所有其他数字仍保持掩码状态。这样,掩码比率从 trt_r 降低到 tr1t_{r-1}
  4. 完成与 Top-K (Completion and Top-K):

    • 迭代过程持续到 t1=0t_1 = 0,此时所有数字都被填充,得到最终的 B0\mathcal{B}_0
    • 对生成的所有 SID 序列进行去重 (deduplicate),并根据最终得分选择 Top-K 个作为推荐候选。

CPD 的优势:

  • 多样化 Top-K 推荐: 相较于贪婪解码,CPD 通过束搜索能够生成更多样化的 Top-K 候选。
  • 利用并行性: CPD 充分利用了 MDM 的并行生成能力,在每一步并行评估和填充多个数字。
  • 置信度引导: 优先填充高置信度的数字有助于稳定解码过程,提高生成质量。

4.2.6. 设计选择讨论 (Discussion)

4.2.6.1. 为何不使用残差量化 (Why not RQ)

残差量化 (Residual Quantization, RQ) 是一种广泛用于当前生成式推荐系统分词器(如 RQ-VAE)的量化方案,通常有 3-4 个码本层。然而,对于 DiffGRM 的并行扩散生成,RQ 存在两个缺点:

  • 信息分布不平衡: 先前研究表明,RQ 的残差层级结构导致信息在不同数字之间分布不平衡,加剧了跨位异质性,并导致数字间可预测性不均。
  • 序列依赖冲突: RQ 的分层残差依赖性使得后续数字依赖于先前的数字,这创造了一种从左到右的偏置,与 MDM 的并行、任意顺序预测相冲突。 相比之下,并行语义编码 (PSE) 通过正交乘积量化 (OPQ) 等技术将表示分解为独立的子空间,平衡了每个数字的信息量并消除了序列耦合,从而更好地与基于扩散的并行生成相匹配。

4.2.6.2. 训练复杂度 (Complexity of Training)

DiffGRM 采用编码器-解码器架构,编码器处理长度为 NN 的用户历史,解码器预测 nn 位 SID。

  • 自回归模型 (ARM) 的训练复杂度: 编码器成本为 O(N2dm+Ndm2)O(N^2 d_m + N d_m^2)。一次解码器通过(用于教师强制)贡献 O(n2dm+nNdm+ndm2+nMdm)O(n^2 d_m + n N d_m + n d_m^2 + n M d_m)。主导项为 O(N2dm)+O(n2dm+nNdm)O(N^2 d_m) + O(n^2 d_m + n N d_m)
  • DiffGRM 的训练复杂度: 编码器运行一次,其输出在 RR 个视图中复用,因此成本为 O(N2dm)O(N^2 d_m)。MD-Decoder 部分在 RR 个视图上进行,每个视图的成本为 O(n2dm+nNdm)O(n^2 d_m + n N d_m)。总复杂度为 O(N2dm)+RO(n2dm+nNdm)O(N^2 d_m) + R \cdot O(n^2 d_m + n N d_m)。 在工业实践中,用户历史 NN 通常很长,而视图数量 RR 较小。因此,训练复杂度主要由编码器决定,DiffGRM 的总体训练复杂度与 ARM 基本相同。

4.2.6.3. 推理复杂度 (Complexity of Inference)

BactB_{\mathrm{act}} 为活跃束宽,nrn_r 为逆向步 rr 时未解决的数字数量。

  • ARM 的推理复杂度: 编码器运行一次的成本为 O(N2dm+Ndm2)O(N^2 d_m + N d_m^2)。ARM 解码器执行 nn 个增量步,主要成本为 O(BactnNdm)O(B_{\mathrm{act}} n N d_m)
  • DiffGRM 的推理复杂度: 编码器成本相同。CPD (置信度引导的并行去噪) 包括一次完全掩码的通过和多个逆向去噪步。逆向步中未解决数字的总和为 rnr=Θ(n2)\sum_r n_r = \Theta(n^2)。因此,DiffGRM 解码器的主要成本为 O(Bactn2Ndm)O(B_{\mathrm{act}} n^2 N d_m)。 当 BactB_{\mathrm{act}} 较大时,解码器部分可能占据显著份额。然而,nn 通常较小,而 NN 通常是最大的量。因此,编码器项仍然占据主导地位。DiffGRM 和 ARM 的端到端推理成本相似,DiffGRM 解码器中的额外因子 nn 仅引入了适度的开销。由于额外的评分过程是并行进行的,并利用缓存的编码器键值对,这增加了计算量但没有增加关键路径,因此实际的墙钟延迟 (wall-clock latency) 通常接近 ARM。

5. 实验设置

5.1. 数据集

实验在三个来自 Amazon Reviews (亚马逊评论) 数据集 [38] 的子集上进行,这些数据集是基于语义 ID 的生成式推荐的常用基准 [23, 24, 48]。

  • "Sports and Outdoors" (体育用品)
  • "Beauty" (美妆)
  • "Toys and Games" (玩具)

数据处理:

  • 遵循先前的研究 [18, 48, 74],将每个用户的历史评论视为交互,并按时间顺序排序以形成输入序列。
  • 采用标准的留一法评估 (leave-last-out evaluation) [27, 48, 69]:
    • 序列中最后一个物品用于测试。
    • 倒数第二个物品用于验证。
    • 其余交互用于训练。

数据集统计信息 (Table 2): 以下是原文 Table 2 的结果:

Dataset #Users #Items #Interactions Avg. t
Sports 35,598 18,357 260,739 8.32
Beauty 22,363 12,101 176,139 8.87
Toys 19,412 11,924 148,185 8.63

其中,Avg. t 表示每个输入序列的平均交互次数。

5.2. 评估指标

采用 Recall@KNDCG@K 作为评估指标,其中 K{5,10}K \in \{5, 10\},这与 Rajput et al. [48] 等先前的研究保持一致。模型检查点 (checkpoint) 选择在验证集 (validation set) 上表现最佳的。

5.2.1. 召回率 (Recall@K)

概念定义: 召回率 (Recall@K) 衡量的是在模型推荐的 Top-K 物品中,实际用户感兴趣(或目标物品)的比例。它关注的是模型能否尽可能多地“召回”所有相关的物品,而不考虑它们的排序位置。

数学公式: Recall@K={推荐的Top-K物品}{用户感兴趣的物品}{用户感兴趣的物品} \mathrm{Recall@K} = \frac{|\{\text{推荐的Top-K物品}\} \cap \{\text{用户感兴趣的物品}\}|}{|\{\text{用户感兴趣的物品}\}|}

符号解释:

  • {推荐的Top-K物品}\{\text{推荐的Top-K物品}\}:模型为用户推荐的 K 个物品集合。
  • {用户感兴趣的物品}\{\text{用户感兴趣的物品}\}:用户实际感兴趣(或目标)的物品集合。在留一法评估中,通常指下一个交互物品。
  • |\cdot|:集合的基数(元素数量)。

5.2.2. 归一化折扣累积增益 (NDCG@K)

概念定义: 归一化折扣累积增益 (Normalized Discounted Cumulative Gain, NDCG@K) 是一种衡量推荐列表质量的指标,它不仅考虑了推荐物品的相关性,还考虑了相关物品在列表中的位置。排名靠前的相关物品会获得更高的分数,而排名靠后的相关物品或不相关物品会受到“折扣”惩罚。

数学公式: 首先计算累积增益 (Cumulative Gain, CG)折扣累积增益 (Discounted Cumulative Gain, DCG)CG@K=i=1Kreli \mathrm{CG@K} = \sum_{i=1}^{K} \mathrm{rel}_i DCG@K=i=1K2reli1log2(i+1) \mathrm{DCG@K} = \sum_{i=1}^{K} \frac{2^{\mathrm{rel}_i} - 1}{\log_2(i+1)} 然后计算理想折扣累积增益 (Ideal Discounted Cumulative Gain, IDCG@K),即在完美排序下(所有相关物品排在最前面)的 DCG。 IDCG@K=i=1REL2reli1log2(i+1) \mathrm{IDCG@K} = \sum_{i=1}^{|\mathrm{REL}|} \frac{2^{\mathrm{rel}_i} - 1}{\log_2(i+1)} 其中,REL\mathrm{REL} 是用户实际感兴趣的物品集合,且假设其相关性得分按降序排列。 最后,NDCG@K 为: NDCG@K=DCG@KIDCG@K \mathrm{NDCG@K} = \frac{\mathrm{DCG@K}}{\mathrm{IDCG@K}}

符号解释:

  • KK: 推荐列表的长度。
  • ii: 物品在推荐列表中的位置(排名),从 1 开始。
  • reli\mathrm{rel}_i: 位于排名 ii 的物品的相关性得分。在二元相关性(相关或不相关)场景下,如果物品是目标物品,则 reli=1\mathrm{rel}_i=1,否则 reli=0\mathrm{rel}_i=0
  • log2(i+1)\log_2(i+1): 折扣因子,用于惩罚排名靠后的物品。
  • REL|\mathrm{REL}|: 用户实际感兴趣的物品总数。在留一法评估中,通常 REL=1|\mathrm{REL}|=1

5.3. 对比基线

DiffGRM 与以下三类基线模型进行比较:

5.3.1. Item ID-based (Discriminative) (基于物品ID的判别式模型)

这类模型主要依赖物品的 ID 进行推荐,通常用于序列推荐。

  • GRU4Rec [15]: 一种基于 RNN 的会话推荐器,用于建模序列动态。
  • HGN [36]: 通过门控机制增强 RNN 的序列建模能力。
  • SASRec [27]: 采用自注意力 Transformer 解码器,通过二元交叉熵 (binary cross-entropy) 进行下一个物品预测。
  • BERT4Rec [58]: 一种双向 Transformer 编码器,采用 Cloze 风格的目标函数在物品 ID 上训练。

5.3.2. Semantic-enhanced (Discriminative) (语义增强的判别式模型)

这类模型在判别式框架中融入了物品的语义信息。

  • FDSA [67]: 通过自注意力机制建模物品 ID 和特征序列,并融合它们。
  • s3\mathbf{s}^3-Rec [74]: 通过自监督预训练 (self-supervised pretraining) 物品特征和 ID,然后微调 (fine-tuning) 进行下一个物品预测。
  • vQ-Rec [18]: 将文本特征乘积量化 (product-quantizes) 为语义 ID,并将其池化 (pools) 作为物品表示。
  • RecJPQ [47]: 使用连接的联合乘积量化子嵌入 (concatenated jointly product-quantized sub-embeddings) 替换物品嵌入。

5.3.3. Semantic ID-based (Generative) (基于语义ID的生成式模型)

这类模型是生成式推荐,将物品表示为语义 ID 序列并进行生成。

  • TIGER [48]: 采用 RQ-VAE 进行词元化,并自回归地生成下一个 SID 词元。这是DiffGRM的直接竞争对手。
  • HSTU [65]: 将原始物品特征离散化为词元,进行生成式推荐;为了与现有设置一致,采用 4 位 OPQ 词元化的 SID 作为物品词元。
  • ActionPiece [21]: 上下文感知的词元化方法,将每个动作表示为物品特征的无序集合。
  • RPG [20]: 通过多词元目标和图引导解码 (graph-guided decoding),并行预测无序的语义 ID 词元。

5.4. 实现细节

  • 基线重现: 大部分基线结果直接引用自先前在相同 Amazon 数据集分割上的研究 [20, 21, 24, 48]。对于其余方法,使用公开实现(主要是 RecBole [70] 或作者的官方代码)进行复现,并根据原始论文调整超参数。
  • DiffGRM 实现:
    • 使用 PyTorch [45] 实现。
    • 使用 FAISS [8] 将文本衍生的物品嵌入进行 OPQ 量化为 SID。
    • 骨干网络 (backbone) 是一个 Transformer encoder [61] 和一个 MD-Decoder
    • 默认使用 sentence-t5-base [41] 作为语义编码器,这与 TIGERActionPiece 一致,以确保公平比较。附录 C 中也报告了使用其他语义编码器(如 bge-large-en-v1.5 [62] 和 gte-large-en-v1.5 [68])的结果,以探究 DiffGRM 捕获语义的能力。
  • 超参数: 详细超参数见原文 Table 7。
    • 学习率 (learning_rate):0.003 (Sports, Toys), 0.01 (Beauty)
    • 预热步数 (warmup_steps):10,000
    • 丢弃率 (dropout_rate):0.1
    • 模型隐藏维度 (dmd_m):256 (Sports, Beauty), 1024 (Toys)
    • 前馈网络维度 (dffd_{ff}):1024
    • 注意力头数 (num_heads):4 (Sports, Beauty), 8 (Toys)
    • SID 数字位数 (nn):4
    • 逐位码本大小 (MM):256
    • 编码器层数 (encoder_layers):1
    • MD-Decoder 层数 (md_decoder_layers):4
    • 标签平滑系数 (α\alpha):0.1 (Sports, Beauty), 0.15 (Toys)
    • 编码器输入长度 (LinputL_{\mathrm{input}}):50
    • 束宽 (BactB_{\mathrm{act}}):128 (Sports, Toys), 256 (Beauty)
    • 最大训练轮次 (max_epochs):100
    • 早停耐心 (early_stop_patience):15 (基于验证集分数 0.8NDCG@10+0.2Recall@100.8 \mathrm{NDCG@10} + 0.2 \mathrm{Recall@10})

6. 实验结果与分析

6.1. 核心结果分析

原文 Table 3 总结了 DiffGRM 与判别式和生成式基线模型在三个 Amazon Reviews 数据集上的整体性能比较。

主要发现:

  • 语义信息的重要性: 结果表明,利用语义信息的模型(无论是语义增强的判别式模型还是基于语义 ID 的生成式模型)普遍优于仅基于物品 ID 的判别式模型。这强调了物品语义在推荐任务中的价值。
  • 生成式模型的优势: 在语义家族中,基于语义 ID 的生成式模型通常优于语义增强的判别式模型,这表明将推荐任务转化为生成任务的潜力。
  • DiffGRM 的卓越性能:
    • DiffGRM 取得了最佳的整体结果,在 12 项指标中的 11 项排名第一。
    • 相较于最强的基线模型,DiffGRM 在 NDCG@10 上的提升尤为显著:
      • Sports:15.53%
      • Beauty:8.19%
      • Toys:6.94%
    • 在 Recall@10 方面,DiffGRM 在 Sports 上提升了 10.00%,在 Beauty 上提升了 8.28%。在 Toys 上虽然略有下降(-4.03%),但其 NDCG@10 在 K=5 和 K=10 时仍然更高,表明其推荐列表的排序质量更优。

性能提升的原因: 这些性能提升主要归因于 DiffGRM 的以下设计:

  1. 掩码扩散训练: 对 SID 进行掩码扩散训练,提供了密集的逐位监督,并能捕获 SID 数字间的双向上下文。
  2. OCN 策略: 在线策略协同去噪 (OCN) 能够将监督信号更有效地分配给“困难”数字,解决训练不平衡问题。
  3. CPD 策略: 置信度引导的并行去噪 (CPD) 能够高效地生成准确且多样化的 Top-K SID 候选。

语义编码器的影响: 实验中,sentence-t5-base 被用作文本嵌入的语义编码器,以与 TIGERActionPiece 等先前工作保持一致。附录 C 中的分析显示,使用更大、更强的语义编码器(如 bge-large-en-v1.5gte-large-en-v1.5)可以进一步提升 DiffGRM 的性能,表明 DiffGRM 能够有效利用更丰富的语义信息。

6.2. 数据呈现 (表格)

以下是原文 Table 3 的结果:

Methods Sports and Outdoors Beauty Toys and Games
Recall @5 NDCG @5 Recall @10 NDCG @10 Recall @5 NDCG @5 Recall @10 NDCG @10 Recall @5 NDCG @5 Recall @10 NDCG @10
Item ID-based (Discriminative)
GRU4Rec 0.0129 0.0086 0.0204 0.0110 0.0164 0.0099 0.0283 0.0137 0.0097 0.0059 0.0176 0.0084
HGN 0.0189 0.0120 0.0313 0.0159 0.0325 0.0206 0.0512 0.0266 0.0321 0.0221 0.0497 0.0277
SASRec 0.0233 0.0154 0.0350 0.0192 0.0387 0.0249 0.0605 0.0318 0.0463 0.0306 0.0675 0.0374
BERT4Rec 0.0115 0.0075 0.0191 0.0099 0.0203 0.0124 0.0347 0.0170 0.0116 0.0071 0.0203 0.0099
Semantic-enhanced (Discriminative)
FDSA 0.0182 0.0122 0.0288 0.0156 0.0267 0.0163 0.0407 0.0208 0.0228 0.0140 0.0381 0.0189
S3-Rec 0.0251 0.0161 0.0385 0.0204 0.0387 0.0244 0.0647 0.0327 0.0443 0.0294 0.0700 0.0376
vQ-Rec 0.0208 0.0144 0.0300 0.0173 0.0457 0.0317 0.0664 0.0383 0.0497 0.0346 0.0737 0.0423
RecJPQ 0.0141 0.0076 0.0220 0.0102 0.0311 0.0167 0.0482 0.0222 0.0331 0.0182 0.0484 0.0231
Semantic ID-based (Generative)
TIGER 0.0264 0.0181 0.0400 0.0225 0.0454 0.0321 0.0648 0.0384 0.0521 0.0371 0.0712 0.0432
HSTU 0.0258 0.0165 0.0414 0.0215 0.0469 0.0314 0.0704 0.0389 0.0433 0.0281 0.0669 0.0357
RPG 0.0316 0.0205 0.0500 0.0264 0.0511 0.0340 0.0775 0.0424
ActionPiece 0.0314 0.0216 0.0463 0.0263 0.0550 0.0381 0.0809 0.0464 0.0592 0.0401 0.0869 0.0490
DiffGRM 0.0363 0.0245 0.0550 0.0305 0.0603 0.0414 0.0876 0.0502 0.0618 0.0455 0.0834 0.0524
Improv. +14.87% +13.43% +10.00% +15.53% +9.64% +8.66% +8.28% +8.19% +4.39% +13.47% -4.03% +6.94%

注:表格中的“Improv.”行表示 DiffGRM 相较于最强基线的提升百分比,计算方式为 (DiffGRM - BestBaseline) / BestBaseline * 100%。最佳结果以粗体显示。

6.3. OCN有效性分析 (Effectiveness of OCN)

本节评估在线策略协同去噪 (OCN) 在有限训练预算下是否能实现更平衡的监督分配并提高样本效率。 为了进行比较,引入了一个统一的度量:有效样本通过次数 (Effective Sample Passes, ESP)ESP=best_epoch×(每个样本每轮训练的视图数量) \mathrm{ESP} = \text{best\_epoch} \times (\text{每个样本每轮训练的视图数量}) 对于 DiffGRM,视图来自协同路径去噪 (coherent-path noising)。如果采用 1 条路径,每个样本每轮训练产生 nn 个视图(等于码本层数 n=4n=4)。为了测试更多监督信号是否有帮助,将协同路径从 1 扩展到 kk 条,因此视图数量变为 n×kn \times kESP=best_epoch×n×k\mathrm{ESP} = \text{best\_epoch} \times n \times k

下图(原文 Figure 3)展示了性能(NDCG@10/Recall@10)随 ESP 的变化。

Figure 3: Analysis of performance (NDCG `@` 10/Recall@10) w.r.t. effective sample passes (ESP). DiffGRM matches or surpasses the \(k\) T \(d _ { \\mathrm { m o d e l } } { = } 2 5 6\) ,while the optimal \$… 分析:

  • k 增加对性能的影响: 增加 kk(即增加协同路径的数量)可以提升性能,但同时也增加了 ESP。

  • OCN 的优势: OCN 通过利用模型当前策略 (on-policy) 选择不确定性最高的数字,将训练重心放在高价值信号上。这使得 OCN 在相同或更低的 ESP 下,实现了比传统协同路径方法更好的结果,从而提高了样本效率。图中可以看到,OCN 的性能点位于其他拟合曲线的上方或左上方,表明其在效率和效果上的优势。

  • 内存限制: 对于最优的 dmodel=1024d_{\mathrm{model}}=1024 配置,当 k>3k>3 时会出现内存不足 (runs out of memory) 的情况,这凸显了在大模型和复杂训练策略下资源消耗的挑战。

    这部分实验结果有力地证明了 OCN 能够更有效地分配监督信号,并在有限的训练预算下提高模型的性能。

6.4. 消融研究 (Ablation Study)

原文 Table 4 进行了消融研究,量化了 DiffGRM 各模块对整体性能的贡献。性能以 NDCG@10 衡量。

以下是原文 Table 4 的结果:

Variants Sports Beauty Toys
Semantic ID Setting
(1.1) PSE → RQ-Kmeans 0.0200 0.0343 0.0305
(1.2) PSE → Random 0.0138 0.0300 0.0206
Training strategy
(2.1) w/o OCN 0.0250 0.0368 0.0385
(2.2) w/o On-policy 0.0263 0.0455 0.0430
Inference strategy
(3.1) w/o CPD 0.0273 0.0496 0.0499
DiffGRM (ours) 0.0305 0.0502 0.0524

分析:

  1. 并行语义编码 (PSE) 的评估:

    • (1.1) PSE → RQ-Kmeans: 将 PSE 替换为 RQ-Kmeans 导致性能下降。这是因为 RQ 的残差层级结构引入了数字间的依赖关系,这与掩码扩散的双向和并行去噪机制相冲突。
    • (1.2) PSE → Random: 将 PSE 替换为随机词元进一步损害了性能,因为它完全丢弃了语义结构。
    • 结论: 这证实了 PSE 对于 MDM 的有效性是必需的,因为它提供了解耦且信息均衡的 SID。
  2. 在线策略协同去噪 (OCN) 的评估:

    • (2.1) w/o OCN: 采用类似 DDMs 的随机掩码策略(移除了协同去噪和在线策略选择)。这导致性能显著下降,因为监督信号被分散,长尾样本训练不足。
    • (2.2) w/o On-policy: 保留了协同去噪但移除了在线策略选择。性能优于 (2.1) 但仍低于完整的 DiffGRM。
    • 结论: 这表明 OCN 的协同去噪本身是有效的,而在线策略选择进一步将监督信号集中到“困难”位置,带来了额外的性能提升。
  3. 置信度引导的并行去噪 (CPD) 的评估:

    • (3.1) w/o CPD: 将置信度引导的并行去噪替换为随机固定顺序的束搜索。这意味着解码数字的顺序是固定的随机排列,没有信心反馈。这导致所有三个数据集的性能下降。
    • 结论: 这证实了 CPD 在推理阶段的重要性,它通过置信度引导的并行去噪机制,能够更准确地完成 SID,从而提升推荐性能。

总的来说,消融研究证明了 DiffGRM 的三个核心组件——PSE、OCN 和 CPD——都对模型的整体卓越性能做出了重要贡献,它们协同工作,共同解决了自回归模型在生成式推荐中面临的挑战。

6.5. 进一步分析 (Further Analysis)

6.5.1. OCN 策略分析 (OCN Strategy Analysis)

原文 Table 5 比较了四种 OCN 变体,以评估不同的选择策略和刷新频率对性能的影响。

  • 选择策略 (Selection policy):
    • "least" (最少): 选择当前模型置信度最低的数字(即最困难的数字)进行去噪。
    • "most" (最多): 选择当前模型置信度最高的数字(即最简单的数字)进行去噪。
  • 刷新频率 (Refresh frequency):
    • "static" (静态): 运行 MD-Decoder 一次以估计不确定性,然后将该顺序固定用于整个去噪过程。

    • "refresh" (刷新): 在每个去噪步骤后重新估计不确定性,并更新数字的去噪顺序。

      以下是原文 Table 5 的结果:

      Dataset Metric L-S (Ours) L-R M-S M-R
      Beauty CPD 0.0502 0.0484 0.0476 0.0382
      w/o CPD 0.0496 0.0470 0.0444 0.0309
      Improv. -1.20% -2.89% -6.72% -19.11%
      Toys CPD 0.0524 0.0481 0.0516 0.0421
      w/o CPD 0.0499 0.0455 0.0506 0.0318
      Improv. -4.71% -5.41% -1.94% -24.47%

其中,L-S 代表 "least, static"(最少置信度,静态顺序),L-R 代表 "least, refresh"(最少置信度,刷新顺序),M-S 代表 "most, static"(最多置信度,静态顺序),M-R 代表 "most, refresh"(最多置信度,刷新顺序)。Improv. 表示 (w/o CPD - CPD) / CPD,即不使用 CPD 带来的性能损失。

发现:

  1. 选择策略: "least-based"(选择置信度最低的,即最困难的数字)的调度策略在相同的刷新设置下优于 "most-based"(选择置信度最高的)。这表明将训练重心放在模型不确定的困难数字上是更有效的。

  2. 刷新频率: "static"(静态顺序)优于 "refresh"(刷新顺序)。在每个步骤重新估计去噪顺序会改变计划,并导致性能下降。这可能因为频繁的顺序变化引入了不稳定性,或者模型需要更稳定的目标。

  3. 顺序敏感性: 最大的性能下降发生在 M-R 变体中,当将其 CPD 替换为 w/o CPD 时。这表明,如果模型优先处理最简单的数字(置信度最高的),并且在每一步都刷新这个“简单优先”的顺序,那么一旦移除 CPD 的置信度引导机制,模型会严重依赖于“简单优先”的策略。当这种顺序被打乱时,困难数字就得不到充分训练,导致性能急剧下降。

    结论: 最优的 OCN 策略是 "least, static" (L-S),即选择置信度最低的数字进行去噪,并且在整个过程中保持这个难度顺序不变。

6.5.2. CPD 束宽分析 (CPD Beam-Size Analysis)

原文 Figure 4 展示了 CPD 束宽 (beam size) 对 DiffGRM 性能 (NDCG@10) 的影响。

Figure 4: Analysis of DiffGRM performance \(\\mathbf { ( N D C G } @ 1 0 )\) w.r.t. beam size in CPD. 分析:

  • 束宽与性能: 随着 CPD 束宽({32, 64, 128, 256})的增加,NDCG@10 性能普遍得到提升。
  • 原因: 这与经典的束搜索 (beam search) 理论一致。更大的束宽允许模型在生成过程中探索更多的候选路径,从而更好地避免局部最优 (local optima),找到质量更高的 SID 序列。
  • 数据集差异: 在 Beauty 和 Toys 数据集上,性能提升尤为明显,而在 Sports 数据集上提升相对平缓,但总体趋势一致。

6.5.3. 隐藏维度分析 (Hidden Dimension Analysis)

原文 Figure 6 分析了隐藏维度 dmd_m 对 DiffGRM 性能 (NDCG@10) 和最佳训练轮次 (best epoch) 的影响。

Figure 6: Analysis of DiffGRM performance \(\\mathbf { ( N D C G } @ 1 0 )\) and best epoch w.r.t. hidden dimension `d _ { m }` . 分析:

  • 性能与 dmd_m
    • 在 Sports 和 Beauty 数据集上,性能的“拐点 (knee)”出现在 dm=256d_m = 256 附近。这意味着进一步增加 dmd_m 带来的性能增益不显著。
    • 然而,在 Toys 数据集上,性能持续提升,直到 dm=1024d_m = 1024。这表明 Toys 数据集可能更复杂,需要更大的模型容量来捕获其内在模式。
  • 收敛速度与 dmd_m 随着 dmd_m 的增加,模型达到最佳性能所需的训练轮次 (best epoch) 普遍减少。这意味着更大的模型容量有助于更快的收敛。
  • 权衡: 增加 dmd_m 也会增加模型参数数量,以及相关的内存和计算成本。
  • 最终设定: 为了平衡准确性和效率,实验中 Sports 和 Beauty 使用 dm=256d_m = 256,而 Toys 使用 dm=1024d_m = 1024

7. 总结与思考

7.1. 结论总结

本文深入分析了语义 ID (SID) 序列的结构特性,并揭示了传统自回归生成模型 (ARMs) 在处理 SID 数字间的双向语义上下文时存在的不匹配问题。为了解决这些挑战,论文提出了 DiffGRM,一个基于掩码离散扩散模型 (MDM) 的生成式推荐框架。

DiffGRM 的核心创新在于其三大定制化组件:

  1. 并行语义编码 (Parallel Semantic Encoding, PSE):通过 OPQ 子空间量化,解除了 SID 数字间的残差依赖,平衡了数字信息,为并行生成奠定基础。

  2. 在线策略协同去噪 (On-policy Coherent Noising, OCN):在训练阶段,通过模型置信度识别“困难”数字,并优先对其进行协同掩码,将监督信号集中于高价值区域,显著提升了样本效率和训练效果。

  3. 置信度引导的并行去噪 (Confidence-guided Parallel Denoising, CPD):在推理阶段,设计了置信度引导的全局并行束搜索,以高效且准确地生成多样化的 Top-K SID 候选。

    实验结果表明,DiffGRM 在多个数据集上显著优于强大的判别式和生成式推荐基线模型,NDCG@10 指标提升了 6.9% - 15.5%。这充分证明了 DiffGRM 在协调跨位语义与并行生成方面的卓越能力,为生成式推荐领域开辟了新的方向。

7.2. 局限性与未来工作

论文作者指出了未来的研究方向:

  • 推理效率和可扩展性 (inference efficiency and scalability):尽管论文在讨论中分析了 DiffGRM 的推理复杂度与 ARM 相当,并指出墙钟延迟 (wall-clock latency) 接近,但对于超大规模的工业级应用,进一步优化扩散模型的推理速度(例如通过更少的去噪步数、更快的采样策略)和提高其在海量物品库中的可扩展性仍然是重要的研究方向。

    除了作者提及的,一些可能的局限性和未来工作包括:

  • SID 生成的语义准确性: 尽管 DiffGRM 提高了 NDCG 和 Recall,但生成的 SID 是否总是精确地对应到真实且有意义的物品,以及是否会生成“幻觉”物品(即不存在的但语义上合理的 SID),这需要更深入的定性分析。

  • 码本学习与优化: PSE 使用 OPQ 进行词元化。码本的质量直接影响 SID 的表达能力。探索更先进的、与扩散模型训练相结合的码本学习方法,或者动态调整码本以适应不同语义粒度的需求,可能进一步提升性能。

  • 多模态融合: 现有语义 ID 主要基于文本特征。未来可以探索如何更有效地将图像、视频、音频等多模态信息融入 SID 的生成和扩散过程中,以应对更复杂的推荐场景。

  • 用户偏好细粒度建模: DiffGRM 主要通过 Transformer 编码器对用户历史进行建模。如何在扩散过程中更细粒度地捕捉和引导用户的短期、长期偏好,甚至用户的意图,可能是提升个性化推荐的关键。

  • 冷启动问题: 对于新用户或新物品的冷启动问题,基于语义 ID 的生成式推荐理论上具有优势,因为它们依赖物品的语义信息而非交互历史。但 DiffGRM 如何具体地处理这些场景,以及其性能如何,值得进一步研究。

7.3. 个人启发与批判

DiffGRM 的工作为生成式推荐领域带来了重要的突破,其核心思想——用扩散模型替代自回归模型来解决 SID 结构与生成机制的不匹配问题——具有很强的启发性。

启发:

  1. 超越自回归的思维: 长期以来,序列生成任务深受自回归模型的成功影响。DiffGRM 提醒我们,对于具有强内部结构和双向依赖的序列(如本例中的 SID),扩散模型或非自回归模型可能更具优势。这鼓励我们跳出传统范式,为特定任务寻找更合适的生成机制。
  2. 任务定制化组件的重要性: 尽管扩散模型在图像和文本生成中取得了巨大成功,但将其应用于推荐系统并非简单套用。DiffGRM 在词元化、训练和推理层面进行的三项定制(PSE、OCN、CPD)是其成功的关键。这强调了在应用通用 AI 模型时,针对特定领域和任务进行精细化设计的重要性。
  3. 对“困难”样本的关注: OCN 策略通过识别和优先处理“困难”数字来集中监督信号,这在数据分布不平衡(长尾效应)的推荐系统中尤为重要。这种“在线策略”的学习方式可以推广到其他训练场景,提高样本效率和模型鲁棒性。
  4. 多样化推荐的生成: CPD 通过置信度引导的并行束搜索,很好地解决了 Top-K 推荐中多样性与准确性的权衡问题。这种结合置信度与并行性的推理策略,为其他需要生成多样化输出的 AI 任务提供了借鉴。

批判与可以改进的地方:

  1. 计算资源消耗: 尽管论文声称 DiffGRM 的训练和推理复杂度与 ARM 相似,但在实际部署中,扩散模型通常需要更多的计算资源(尤其是 VRAM)和更长的推理时间(多步去噪),尤其是在生成 Top-K 候选时。对于工业界的大规模实时推荐场景,这种开销仍可能是一个挑战。论文虽然提及未来工作将关注效率和可扩展性,但更具体的优化策略(例如知识蒸馏、更快的采样器)将是关键。

  2. 可解释性: 扩散模型的去噪过程相对复杂,不如自回归模型那样直观。SID 本身具有一定的语义可解释性,但整个扩散生成过程如何具体反映用户偏好、如何导致某个特定 SID 的生成,以及生成过程中“困难”数字是如何被攻克的,其可解释性可能不如基于注意力权重或特征交互的判别式模型。

  3. 超参数的敏感性: 扩散模型通常对超参数(如扩散步数、学习率调度、掩码比率调度、束宽等)非常敏感。尽管论文提供了详细的超参数设置,但这些设置是否能在更广泛的数据集和场景中保持鲁棒性,需要进一步验证。例如,OCN 中“least-static”策略的有效性是否普适?

  4. 长尾物品和新物品生成: 生成式推荐在理论上对长尾物品和新物品(冷启动)具有优势。论文在实验中展示了整体性能的提升,但并未深入分析 DiffGRM 在这些特定挑战上的表现,例如,DiffGRM 是否能生成更多长尾物品?对于完全未见过的物品内容,它能否生成合理的 SID?

    总体而言,DiffGRM 是一项创新且令人兴奋的工作,它成功地将扩散模型引入生成式推荐,并提出了有效的定制化解决方案。其贡献不仅限于推荐领域,也为其他需要结构化序列生成的 AI 任务提供了宝贵的经验。

相似论文推荐

基于向量语义检索推荐的相关论文。

暂时没有找到相似论文。