LLaDA-Rec: Discrete Diffusion for Parallel Semantic ID Generation in Generative Recommendation

Jun Xu

论文状态：已完成

LLaDA-Rec: Discrete Diffusion for Parallel Semantic ID Generation in Generative Recommendation

发表：2025/11/09

原文链接 PDF 下载

价格：0.10

已有 2 人读过

本分析由 AI 生成，可能不完全准确，请以原文为准。

TL;DR 精炼摘要

本文提出了LLaDA-Rec，一个离散扩散框架，旨在解决生成式推荐中的单向约束和错误积累问题。通过结合双向注意力和自适应生成顺序，该方法有效建模物品间及物品内依赖。三个关键设计包括并行词元化方案、双层掩码机制和自适应束搜索，实验证明LLaDA-Rec在真实数据集上优于现有推荐系统。

摘要

Generative recommendation represents each item as a semantic ID, i.e., a sequence of discrete tokens, and generates the next item through autoregressive decoding. While effective, existing autoregressive models face two intrinsic limitations: (1) unidirectional constraints, where causal attention restricts each token to attend only to its predecessors, hindering global semantic modeling; and (2) error accumulation, where the fixed left-to-right generation order causes prediction errors in early tokens to propagate to the predictions of subsequent token. To address these issues, we propose LLaDA-Rec, a discrete diffusion framework that reformulates recommendation as parallel semantic ID generation. By combining bidirectional attention with the adaptive generation order, the approach models inter-item and intra-item dependencies more effectively and alleviates error accumulation. Specifically, our approach comprises three key designs: (1) a parallel tokenization scheme that produces semantic IDs for bidirectional modeling, addressing the mismatch between residual quantization and bidirectional architectures; (2) two masking mechanisms at the user-history and next-item levels to capture both inter-item sequential dependencies and intra-item semantic relationships; and (3) an adapted beam search strategy for adaptive-order discrete diffusion decoding, resolving the incompatibility of standard beam search with diffusion-based generation. Experiments on three real-world datasets show that LLaDA-Rec consistently outperforms both ID-based and state-of-the-art generative recommenders, establishing discrete diffusion as a new paradigm for generative recommendation.

思维导图

论文精读

中文精读约 44 分钟读完 · 31,046 字

1. 论文基本信息

1.1. 标题

LLaDA-Rec: Discrete Diffusion for Parallel Semantic ID Generation in Generative Recommendation (LLaDA-Rec：用于生成式推荐中并行语义 ID 生成的离散扩散模型)

1.2. 作者

Teng Shi, Chenglei Shen, Weijie Yu, Shen Nie, Chongxuan Li, Xiao Zhang, Ming He, Yan Han, Jun Xu 等。作者们主要来自中国人民大学高瓴人工智能学院、对外经济贸易大学信息技术与管理学院，以及联想研究院人工智能实验室。

1.3. 发表期刊/会议

该论文在 arXiv 上发布，属于预印本 (arXiv preprint)。虽然没有明确指出具体期刊或会议，但其内容与高质量的机器学习、信息检索或推荐系统会议（如 SIGIR, KDD, WWW, NeurIPS, ICLR 等）的研究方向高度吻合。

1.4. 发表年份

2025年11月9日 (UTC)。

1.5. 摘要

生成式推荐 (Generative recommendation) 将每个物品表示为语义 ID (semantic ID)，即离散词元 (discrete tokens) 序列，并通过自回归 (autoregressive) 解码生成下一个物品。尽管有效，但现有的自回归模型面临两个固有限制：(1) 单向约束 (unidirectional constraints)：因果注意力 (causal attention) 限制每个词元只能关注其前驱词元，从而阻碍了全局语义建模；(2) 错误积累 (error accumulation)：固定的从左到右生成顺序导致早期词元的预测错误传播到后续词元的预测中。为了解决这些问题，本文提出了 LLaDA-Rec，一个离散扩散 (discrete diffusion) 框架，它将推荐任务重新表述为并行语义 ID 生成 (parallel semantic ID generation)。通过结合双向注意力 (bidirectional attention) 和自适应生成顺序 (adaptive generation order)，该方法更有效地建模物品间 (inter-item) 和物品内 (intra-item) 依赖，并缓解了错误积累。具体而言，该方法包含三个关键设计：(1) 并行词元化方案 (parallel tokenization scheme)：生成用于双向建模的语义 ID，解决了残差量化 (residual quantization) 与双向架构之间的不匹配问题；(2) 用户历史 (user-history) 和下一物品 (next-item) 两个层面的掩码机制 (masking mechanisms)：分别捕获物品间序列依赖和物品内语义关系；(3) 自适应束搜索 (adapted beam search) 策略：用于自适应顺序离散扩散解码，解决了标准束搜索与基于扩散的生成不兼容的问题。在三个真实世界数据集上的实验表明，LLaDA-Rec 始终优于基于 ID 的和最先进 (state-of-the-art) 的生成式推荐器，从而确立了离散扩散作为生成式推荐的新范式。

1.6. 原文链接

原文链接: https://arxiv.org/abs/2511.06254v1 PDF 链接: https://arxiv.org/pdf/2511.06254v1.pdf

2. 整体概括

2.1. 研究背景与动机

近年来，生成式语言模型 (Generative Language Models, LLMs) 在多个领域展现出卓越的能力，这激发了研究人员将生成范式应用于推荐系统 (Recommendation Systems) 的兴趣。传统的判别式推荐模型 (discriminative recommendation models) 通常直接预测用户对物品的偏好或下一个交互物品，而生成式推荐 (generative recommendation) 则将推荐任务重新定义为序列到序列 (sequence-to-sequence) 的生成问题，其中下一个目标物品以自回归 (autoregressive) 方式生成。

现有的生成式推荐方法通常包括两个关键组成部分：物品词元化 (item tokenization) 和 自回归生成 (autoregressive generation)。在物品词元化阶段，每个物品被赋予一个语义 ID (Semantic ID, SID)，它是一个由离散词元 (discrete tokens) 组成的序列。这些词元通常通过分层聚类 (hierarchical clustering) 或向量量化 (vector quantization)（如残差量化变分自编码器 RQ-VAE）技术生成。然后，用户的历史交互记录被编码为离散词元序列，输入到生成模型中，模型以步进 (step-by-step) 方式自回归地生成下一个物品的词元。

尽管这些方法取得了一定的效果，但它们仍面临以下固有局限性：

单向约束 (Unidirectional Constraint)：大多数自回归方法以从左到右的方式预测每个物品的词元，这种因果注意力 (causal attention) 机制限制了模型捕获所有共同定义一个物品的词元之间全局关系的能力。这导致生成的物品语义连贯性和表达能力有限。
错误积累 (Error Accumulation)：在推理 (inference) 阶段，模型基于先前采样 (sampled) 的词元生成后续词元。与训练阶段不同，训练时通常采用教师强制 (teacher forcing)，即在每一步提供真实的词元。因此，推理时早期词元产生的错误无法得到纠正，并会传播到后续词元的预测中，从而放大其不利影响。

为了解决这些限制，本文探索了一种基于离散扩散 (discrete diffusion) 的生成式推荐新范式，旨在通过双向理解 (bidirectional understanding) 和自适应生成顺序 (adaptive generation order) 来更有效地建模物品间和物品内依赖，并缓解错误积累。

2.2. 核心贡献/主要发现

本文提出了 LLaDA-Rec，一个基于离散扩散的双向生成式推荐框架。其主要贡献和关键发现包括：

分析并解决了现有自回归生成式推荐模型的局限性：LLaDA-Rec 针对自回归模型中的单向约束和错误积累问题，提出了一个基于离散扩散的新范式。
引入并行语义 ID (Parallel Semantic IDs)：设计了 多头 VQ-VAE (Multi-Head VQ-VAE)，用于生成并行语义 ID，以解决残差量化 (RQ) 与双向架构不匹配的问题，确保所有词元在表示和生成过程中同等重要。
定制化离散扩散训练机制：为推荐任务开发了专门的离散扩散训练方法，包括两个掩码机制：
- 用户历史级别掩码 (User-History level masking)：用于捕获物品间 (inter-item) 的序列依赖关系。
- 下一物品级别掩码 (Next-Item level masking)：用于捕获物品内 (intra-item) 的语义关系，帮助模型更好地理解物品内部不同词元之间的联系。
自适应顺序离散扩散推理：提出了一种适应于离散扩散模型的束搜索 (beam search) 策略，能够生成 Top- $k$ 推荐结果，解决了标准束搜索与扩散模型自适应生成顺序不兼容的问题。
实验验证了 LLaDA-Rec 的有效性：在三个真实世界数据集上的广泛实验表明，LLaDA-Rec 始终优于传统的基于物品 ID (item-ID-based) 的推荐方法和最先进 (state-of-the-art) 的基于语义 ID (semantic-ID-based) 的生成式推荐模型。
确立离散扩散作为生成式推荐的新范式：通过 LLaDA-Rec 的成功，本文展示了离散扩散在生成式推荐领域的巨大潜力，为其后续研究奠定了基础。

3. 预备知识与相关工作

3.1. 基础概念

生成式推荐 (Generative Recommendation)：一种推荐系统范式，它不直接预测用户对物品的评分或点击率，而是将推荐任务建模为序列到序列 (sequence-to-sequence) 的生成问题。模型的目标是根据用户的历史交互序列生成下一个物品的表示（通常是离散的语义 ID）。这种方法借鉴了自然语言处理 (Natural Language Processing, NLP) 领域生成模型的成功，如大语言模型 (Large Language Models, LLMs)。
语义 ID (Semantic ID, SID)：在生成式推荐中，每个物品不再用一个简单的整数 ID 来表示，而是被编码成一个由一系列离散词元 (discrete tokens) 组成的序列。这些词元旨在捕获物品的语义信息，使得模型能够像处理自然语言一样处理物品，从而更好地理解物品间的内在联系和生成新的物品表示。
自回归模型 (Autoregressive Models)：这类模型在生成序列时，当前时间步的输出依赖于所有先前时间步的输出。在生成式推荐中，这意味着生成一个物品的语义 ID 序列时，每个词元都是在前一个词元（以及用户历史）的基础上生成的。其特点是固定的从左到右生成顺序和因果注意力 (causal attention)。
因果注意力 (Causal Attention)：在 Transformer (Vaswani et al., 2017) 架构中，因果注意力是一种限制机制，确保在生成序列的某个位置时，模型只能关注该位置之前（包括该位置自身）的词元。这通常通过在注意力矩阵中掩盖未来词元来实现，以防止信息泄露，从而模拟自回归生成过程。
错误积累 (Error Accumulation)：自回归模型的固有问题。由于每个生成步骤都依赖于前一步的输出，如果早期生成的词元出现错误，这些错误会像滚雪球一样传播并影响后续词元的生成，导致最终生成的序列质量下降。
离散扩散模型 (Discrete Diffusion Models)：一种生成模型，最初用于图像和文本生成。其核心思想是通过一个前向过程 (forward process) 逐渐向数据添加噪声（如掩码或替换），然后学习一个逆向过程 (reverse process) 来从噪声数据中恢复原始数据。在离散扩散模型中，这个过程通常涉及对离散词元序列进行掩码和去噪。它使用双向 Transformer 作为骨干网络，并在推理时采用自适应生成顺序。
双向注意力 (Bidirectional Attention)：与因果注意力不同，双向注意力（如 BERT (Devlin et al., 2019) 中使用的掩码语言模型）允许模型在预测序列中某个位置的词元时，同时关注该位置之前和之后的所有词元。这使得模型能够捕获更丰富、更全面的上下文信息，从而更好地理解全局语义。
向量量化变分自编码器 (Vector Quantized Variational AutoEncoder, VQ-VAE)：一种深度学习模型，用于将连续的输入向量映射到离散的码本 (codebook) 中的码向量 (code vectors)。它包含一个编码器 (encoder) 将输入映射到潜在空间，一个量化器 (quantizer) 将潜在向量替换为码本中最接近的码向量，以及一个解码器 (decoder) 从量化后的向量重建原始输入。VQ-VAE 的关键优势在于学习离散的、可解释的表示。
残差量化 (Residual Quantization, RQ)：一种向量量化技术，它通过多阶段量化来提高量化精度。在每个阶段，它量化前一阶段量化误差的残差，并将多个量化结果组合起来。RQ-VAE (Razavi et al., 2019) 是一种将残差量化与 VAE 结合的方法，常用于生成式推荐中生成分层的语义 ID。
Transformer：一种基于注意力机制 (attention mechanism) 的神经网络架构，广泛应用于自然语言处理和计算机视觉任务。其核心是自注意力机制 (self-attention mechanism)，允许模型在处理序列的每个元素时，计算其与序列中所有其他元素的相关性，并据此加权聚合信息。Transformer 模型通常由编码器 (encoder) 和解码器 (decoder) 组成，编码器擅长理解上下文，解码器擅长生成序列。

以下是 Transformer 中自注意力机制的数学公式： $\mathrm{Attention}(Q, K, V) = \mathrm{softmax}\left(\frac{QK^T}{\sqrt{d_k}}\right)V$ 其中：
$Q$ (Query) 是查询矩阵，由输入序列的每个词元的查询向量堆叠而成。
$K$ (Key) 是键矩阵，由输入序列的每个词元的键向量堆叠而成。
$V$ (Value) 是值矩阵，由输入序列的每个词元的值向量堆叠而成。
$d_k$ 是键向量的维度 (dimension of key vectors)，用于缩放点积，防止在维度很高时梯度过小。
$QK^T$ 计算查询与键之间的相似度（点积），表示序列中每个词元对其他词元的关注程度。
$\mathrm{softmax}$ 函数将相似度分数归一化为概率分布，确保所有注意力权重之和为1。
将这些权重应用于值矩阵 $V$ ，得到加权后的输出，即每个词元的上下文感知表示。

3.2. 前人工作

本文将相关工作分为两类：生成式推荐 (Generative Recommendation) 和 离散扩散模型 (Discrete Diffusion Model)。

3.2.1. 生成式推荐

该领域受到大语言模型 (LLMs) 成功的启发，旨在将物品词元化为语义 ID (Semantic ID, SID) 序列，然后使用生成模型生成目标物品的 SID。

词元化方法 (Item Tokenization Methods)：
- 聚类方法 (Clustering-based approaches)：如 SEATER (Wu et al., 2024) 和 EAGER (Wang et al., 2024)，通过聚类物品嵌入 (item embeddings) 来构建标识符。
- 向量量化方法 (Vector-quantization based approaches)：
  - 残差量化 (Residual Quantization, RQ)：如 TIGER (Rajput et al., 2023)、LETTER (Wang et al., 2024) 和 LC-Rec (Zheng et al., 2024) 使用 RQ-VAE (Zeghidour et al., 2021)；OneRec (Deng et al., 2025) 使用 RQ-KMeans。
  - 乘积量化 (Product Quantization)：如 RPG (Hou et al., 2025) 使用乘积量化 (Jegou et al., 2013)。
- 也有研究 (Dai et al., 2025; Tang et al., 2025) 通过潜在推理 (latent reasoning) 增强生成式推荐。
生成范式 (Generative Paradigm)：大多数现有方法结合了自回归范式和分层量化 (hierarchical quantization)。这导致了单向约束和错误积累问题，是本文 LLaDA-Rec 旨在解决的核心限制。

3.2.2. 离散扩散模型

离散扩散模型 (Gu et al., 2022; Shi et al., 2024; Nie et al., [n. d.]; Ou et al., [n. d.]) 作为一种新兴的语言建模架构，近年来受到广泛关注。

核心机制：它以双向 Transformer 为骨干网络，通过前向词元掩码噪声过程 (forward token-masking noise process) 和逆向去噪重建过程 (reverse denoising reconstruction) 进行训练，从而实现更强的双向上下文建模。
推理特点：在推理阶段，词元并行生成，同时低置信度 (low-confidence) 的词元会被重新掩码和重新预测，从而产生自适应和灵活的生成顺序。
代表性工作：
- LLaDA (Nie et al., 2025)：第一个实现与自回归模型性能相当的扩散语言模型。
- LLaDA-V (You et al., 2025)：将 LLaDA 框架应用于视觉理解。
- MMaDA (Yang et al., 2025)：进一步将其推广到多模态理解和生成。
- LLaDA 1.5 (Zhu et al., 2025)：集成了基于 DPO (Direct Preference Optimization) 的后训练以进一步提升性能。本文的工作基于离散扩散模型，并利用其在双向理解和自适应生成方面的优势来推进生成式推荐。

3.3. 技术演进

推荐系统领域经历了从传统协同过滤、矩阵分解到深度学习模型的演进。在深度学习时代，序列推荐 (Sequential Recommendation) 成为主流，其中 GRU4Rec (Hidasi et al., 2016)、SASRec (Kang & McAuley, 2018) 和 BERT4Rec (Sun et al., 2019) 等模型相继利用循环神经网络 (RNN) 和 Transformer 架构来建模用户行为序列。

近年来，受大语言模型 (LLMs) 成功的启发，推荐系统开始转向生成式范式。这一范式将物品抽象为语义 ID (SID) 序列，将推荐任务转化为序列生成问题。早期生成式推荐方法（如 TIGER, LETTER, LC-Rec）大多采用自回归 (autoregressive) 方式，结合分层向量量化 (hierarchical vector quantization) 生成 SID。虽然有效，但这种方式继承了自回归模型的单向约束和错误积累问题。

为了克服这些限制，本文引入了离散扩散模型 (Discrete Diffusion Model)。该技术在图像和文本生成领域已显示出强大能力，其双向建模和自适应生成顺序的特点与推荐任务的需求高度契合，尤其是在需要捕获复杂物品语义和避免错误传播的场景。LLaDA-Rec 正是这一技术演进的最新成果，它将离散扩散的优势引入生成式推荐，通过并行语义 ID 生成来提供一个更鲁棒和高效的解决方案。

3.4. 差异化分析

LLaDA-Rec 与相关工作的主要差异点体现在以下几个方面：

生成范式 (Generative Paradigm)：
- 现有自回归方法：如 TIGER, LETTER, LC-Rec，采用自回归生成，即从左到右依次生成语义 ID 的词元。这导致了单向约束，模型无法利用生成词元后的上下文信息，且存在错误积累问题。
- LLaDA-Rec：采用离散扩散模型。它通过迭代地去掩码 (denoising) 词元来并行生成整个语义 ID 序列。这种方式允许模型利用双向上下文，并在每次迭代中纠正错误，从而缓解错误积累。
物品词元化方案 (Item Tokenization Scheme)：
- 现有自回归方法：通常使用分层量化 (hierarchical quantization)，如 RQ-VAE。这种量化方式使得序列中较早的词元具有更高的重要性（因为后续词元依赖于它们），这与自回归的单向生成顺序是匹配的。
- LLaDA-Rec：设计了多头 VQ-VAE (Multi-Head VQ-VAE)，生成并行语义 ID。它消除了词元之间的层级依赖，使得所有词元在表示和生成过程中同等重要。这种并行化设计更好地契合了离散扩散模型的双向建模能力。
注意力机制 (Attention Mechanism)：
- 现有自回归方法：使用因果注意力 (causal attention)，限制每个词元只能关注其左侧的词元。
- LLaDA-Rec：利用离散扩散模型固有的双向 Transformer (bidirectional Transformer) 骨干，允许每个词元关注其左侧和右侧的所有词元，从而捕获更全面的全局语义信息。
生成顺序 (Generation Order)：
- 现有自回归方法：采用固定的从左到右生成顺序。
- LLaDA-Rec：采用自适应生成顺序 (adaptive generation order)。在每一步去噪过程中，模型会优先生成那些置信度高 (high confidence) 的词元，并 iteratively re-mask 和 re-predict 低置信度的词元。这种灵活的顺序可以更好地处理不确定性，并减少错误传播。
Top- $k$ 推荐推理 (Top- $k$ Recommendation Inference)：
- 现有自回归方法：通常直接将标准束搜索 (beam search) 应用于其固定的从左到右生成过程。
- LLaDA-Rec：由于离散扩散的自适应生成顺序与标准束搜索不兼容，本文提出了适应性束搜索策略 (adapted beam search strategy)，使其能够生成高质量的 Top- $k$ 推荐结果。
与并行多词元预测模型的对比：
- 虽然 RPG (Hou et al., 2025) 也引入了并行生成语义 ID 的概念，但它是在单个步骤中完成预测，缺乏迭代细化 (iterative refinement) 和重新掩码 (re-masking) 的能力。
- LLaDA-Rec 结合了迭代去噪和自适应生成顺序，能够动态地优化预测。
  
  综上所述，LLaDA-Rec 通过引入离散扩散模型，从根本上改变了生成式推荐的范式，解决了自回归模型中的核心局限性，并为推荐任务提供了更强大、更灵活的生成能力。

4. 方法论

本节将详细介绍 LLaDA-Rec 框架，它由三个主要模块组成：并行词元化 (Parallel Tokenization)、离散扩散训练 (Discrete Diffusion Training) 和 离散扩散推理 (Discrete Diffusion Inference)。LLaDA-Rec 的整体架构如图 2 所示。

该图像是一个示意图，展示了LLaDA-Rec的离散扩散训练与推理过程。左侧展示了并行标记过程，中心展示了用户历史和下一项的掩码方法，右侧展示了在推理阶段的生成过程，标注了掩码和生成步骤的关系。

图 2: LLaDA-Rec 框架的整体示意图。它展示了并行词元化、离散扩散训练中用户历史和下一物品的掩码机制，以及推理阶段的自适应顺序生成过程，最终产生 Top- $k$ 推荐物品。

4.1. 并行词元化 (Parallel Tokenization) via Multi-Head VQ-VAE

现有的生成式推荐模型，为了与自回归生成范式对齐，通常采用分层量化方法，如残差量化变分自编码器 (Residual Quantization VAE, RQ-VAE)。在这些框架中，早期生成的词元（例如第一个词元）扮演着更主导的角色，因为后续词元是条件依赖于它们的。然而，离散扩散模型采用的双向 Transformer 架构允许所有词元之间进行完全的相互作用，使得每个词元在表示和生成过程中都同等重要。为了更好地适应这一特性，LLaDA-Rec 提出了一种多头 VQ-VAE (Multi-Head VQ-VAE) 架构，旨在消除词元之间的层级依赖，并平等地建模所有词元。

4.1.1. 物品语义表示

首先，对于每个物品 $i$ ，我们使用预训练的嵌入模型（例如 BERT (Devlin et al., 2019) 或 Sentence-T5 (Ni et al., 2021)）对其文本信息（如标题、描述）进行编码，从而获得其语义表示向量 $\mathbf{v}_i \in \mathbb{R}^D$ 。

4.1.2. 编码与子向量划分

随后，通过一个编码器 (Encoder)，我们将 $\mathbf{v}_i$ 投影到一个潜在空间，得到潜在向量 $\mathbf{z}_i \in \mathbb{R}^d$ 。编码器 $\operatorname{Encoder}(\cdot)$ 被实现为一个多层感知机 (Multi-Layer Perceptron, MLP)。 $\mathbf{z}_i = \operatorname{Encoder}(\mathbf{v}_i)$ 接下来，我们将潜在向量 $\mathbf{z}_i$ 划分为 $M$ 个子向量： $\mathbf{z}_i = [\mathbf{z}_{i,1}; \mathbf{z}_{i,2}; \ldots; \mathbf{z}_{i,M}]$ 其中，每个子向量 $\mathbf{z}_{i,m} \in \mathbb{R}^{d/M}$ 对应一个“头 (head)”，并且每个子向量都将独立地进行量化。

4.1.3. 独立量化

我们维护 $M$ 个码本 (codebooks)。第 $m$ 个码本定义为 $C_m = \{\mathbf{e}_{m,k}\}_{k=1}^K$ ，其中 $K$ 是码本大小， $\mathbf{e}_{m,k} \in \mathbb{R}^{d/M}$ 是一个可学习的码嵌入 (code embedding)。第 $m$ 个子向量的量化过程公式为： $c_{i,m} = \arg\min_k \|\mathbf{z}_{i,m} - \mathbf{e}_{m,k}\|_2^2, \quad \mathbf{e}_{m,k} \in C_m$ 这里， $c_{i,m}$ 表示从第 $m$ 个码本中选择的码索引。

4.1.4. 语义 ID 生成与重建

量化所有 $M$ 个子向量后，我们得到物品 $i$ 的语义 ID $s_i = [c_{i,1}, c_{i,2}, \ldots, c_{i,M}]$ ，以及对应的码嵌入集合 $\{\mathbf{e}_{c_{i,1}}, \mathbf{e}_{c_{i,2}}, \ldots, \mathbf{e}_{c_{i,M}}\}$ 。通过拼接这些嵌入，我们构建出量化后的表示： $\hat{\bf z}_i = [ {\bf e}_{c_{i,1}}; {\bf e}_{c_{i,2}}; \ldots; {\bf e}_{c_{i,M}} ]$ 然后，这个量化后的表示 $\hat{\bf z}_i$ 将通过一个解码器 (Decoder) 重建原始的语义向量 $\mathbf{v}_i$ ： $\hat{\mathbf{v}}_i = \operatorname{Decoder}(\hat{\mathbf{z}}_i)$ 解码器 $\operatorname{Decoder}(\cdot)$ 同样实现为一个多层感知机 (MLP)。

4.1.5. VQ-VAE 损失函数

整个 VQ-VAE 的损失函数由重建损失 $\mathcal{L}_{\mathrm{Recon}}$ 和向量量化损失 $\mathcal{L}_{\mathrm{VQ}}$ 组成。 $\begin{array}{r l} & \mathcal{L}_{\mathrm{Recon}} = \Vert \mathbf{v}_i - \hat{\mathbf{v}}_i \Vert_2^2, \\ & \mathcal{L}_{\mathrm{VQ}} = \displaystyle \sum_{m=1}^M \Big( \Vert \mathrm{sg}[\mathbf{z}_{i,m}] - \mathbf{e}_{c_{i,m}} \Vert_2^2 + \alpha \Vert \mathbf{z}_{i,m} - \mathrm{sg}[\mathbf{e}_{c_{i,m}}] \Vert_2^2 \Big), \\ & \mathcal{L}_{\mathrm{VQ-VAE}} = \mathcal{L}_{\mathrm{Recon}} + \mathcal{L}_{\mathrm{VQ}}. \end{array}$ 其中：

$\operatorname{sg}[\cdot]$ $sg [\cdot]$ 表示停止梯度 (stop-gradient) 操作，意味着在反向传播时，被 sg 包裹的项的梯度不会流回其输入。
- $\Vert \mathrm{sg}[\mathbf{z}_{i,m}] - \mathbf{e}_{c_{i,m}} \Vert_2^2$ 这一项的作用是让码本嵌入 $\mathbf{e}_{c_{i,m}}$ 学习去靠近编码器输出的子向量 $\mathbf{z}_{i,m}$ 。
- $\Vert \mathbf{z}_{i,m} - \mathrm{sg}[\mathbf{e}_{c_{i,m}}] \Vert_2^2$ 这一项的作用是让编码器输出的子向量 $\mathbf{z}_{i,m}$ 学习去靠近选择的码本嵌入 $\mathbf{e}_{c_{i,m}}$ ，但此时 $\mathbf{e}_{c_{i,m}}$ 被视为常数。这通常被称为“Commitment Loss”或“Encodervs. Codebook Loss”。
$\alpha$ 是一个超参数，用于平衡两个量化损失项的贡献。
$\mathcal{L}_{\mathrm{Recon}}$ 确保重建向量 $\hat{\mathbf{v}}_i$ 与原始语义向量 $\mathbf{v}_i$ 匹配。
$\mathcal{L}_{\mathrm{VQ}}$ 最小化每个子向量与其对应码嵌入之间的距离。

4.2. 离散扩散训练 (Discrete Diffusion Training)

原始的离散扩散模型主要针对语言任务进行训练，但在推荐任务中，模型需要理解语义 ID，并捕获用户历史中的物品间序列依赖 (inter-item sequential dependencies) 和目标物品内部的语义关系 (intra-item semantic relationships)。为了弥合这种差距，LLaDA-Rec 设计了两种掩码机制：用户历史级别掩码 (User-History level masking) 和 下一物品级别掩码 (Next-Item level masking)。

4.2.1. 离散扩散过程

离散扩散模型包含两个互补的阶段：前向过程 (forward process) 和逆向过程 (reverse process)。

前向过程 (Forward Process)：输入序列中的词元逐渐被掩码。当掩码比率 $r=1$ 时，所有词元都被替换为 [MASK] 词元。对于中间掩码比率 $r \in (0, 1)$ ，序列被部分掩码，每个词元以概率 $r$ 被独立掩码，以概率 1-r 保持可见。
逆向过程 (Reverse Process)：随着掩码比率 $r$ 从 1 减小到 0，模型逐渐重建原始序列，从完全掩码状态开始，逐步填充被掩码的词元。

基于此框架，我们设计了两种扩散掩码训练策略：用户历史级别掩码和下一物品级别掩码。

4.2.2. 用户历史级别掩码 (User-History Level Masking)

该机制将离散扩散掩码过程应用于用户历史的词元序列 $S_{\mathcal{H}}$ 。其目的是使掩码预测器 (MASK predictor) 能够有效捕获用户交互历史中所有词元之间的全局依赖关系。在每个扩散步骤中，给定掩码比率 $r \in (0, 1)$ ， $S_{\mathcal{H}}$ 中的每个词元以概率 $r$ 被独立掩码，以概率 1-r 保持可见。掩码后的序列，记作 $S_{\mathcal{H}}^r$ ，然后被送入掩码预测器，该预测器旨在重建被掩码的词元。这种掩码策略的训练损失定义为： $\mathcal{L}_{\mathrm{His-Mask}} = - \mathbb{E}_{r, S_{\mathcal{H}}, S_{\mathcal{H}}^r} \left[ \frac{1}{r} \sum_{i=1}^{M \times (n-1)} \mathbb{1} \left[ S_{\mathcal{H}, i}^r = \left[ \mathsf{MASK} \right] \right] \log \mathbb{P}_{\theta} ( S_{\mathcal{H}, i} \mid S_{\mathcal{H}}^r ) \right]$ 其中：

$S_{\mathcal{H}}$ 是用户历史的原始词元序列。
$S_{\mathcal{H}}^r$ 是在掩码比率 $r$ 下被部分掩码的用户历史词元序列。
$M \times (n-1)$ 是用户历史中总的词元数量（假设每个物品有 $M$ 个词元，历史有 n-1 个物品）。
$\mathbb{1} \left[ S_{\mathcal{H}, i}^r = \left[ \mathsf{MASK} \right] \right]$ 是一个指示函数 (indicator function)，如果用户历史 $S_{\mathcal{H}}$ 中的第 $i$ 个词元在步骤 $r$ 被掩码，则返回 1，否则返回 0。
$\mathbb{P}_{\theta} ( S_{\mathcal{H}, i} \mid S_{\mathcal{H}}^r )$ 是模型预测的第 $i$ 个词元为真实词元 $S_{\mathcal{H}, i}$ 的概率，给定部分掩码的序列 $S_{\mathcal{H}}^r$ 。
$\frac{1}{r}$ 是一个权重，用于平衡不同掩码比率的贡献。

4.2.3. 下一物品级别掩码 (Next-Item Level Masking)

该机制将离散扩散掩码过程应用于下一物品的词元序列 $s_n$ ，同时保持用户历史序列 $S_{\mathcal{H}}$ 完全可见。在这种设置下，下一物品的 $M$ 个词元在扩散步骤中逐渐被掩码。此策略鼓励掩码预测器捕获同一物品内部不同词元之间的语义关系 (intra-item semantics)，同时在给定历史上下文的条件下生成下一物品。在每个步骤中，给定掩码比率 $r \in (0, 1)$ ， $s_n$ 中的每个词元以概率 $r$ 被独立掩码，以概率 1-r 保持可见。部分掩码的序列 $s_n^r$ 然后与历史词元 $S_{\mathcal{H}}$ 拼接，并输入到掩码预测器以重建被掩码的词元。训练目标定义为： $\mathcal{L}_{\mathrm{Item-Mask}} = - \mathbb{E}_{r, s_n, s_n^r} \left[ \frac{1}{r} \sum_{i=1}^{M} \mathbb{1} \left[ c_{n,i}^r = \left[ \mathsf{MASK} \right] \right] \log \mathrm{P}_{\theta} \left( c_{n,i} \mid s_n^r, S_{\mathcal{H}} \right) \right]$ 其中：

$s_n$ 是下一物品的原始词元序列。
$s_n^r$ 是在掩码比率 $r$ 下被部分掩码的下一物品词元序列。
$\mathbb{1} \left[ c_{n,i}^r = [ \mathsf{MASK} ] \right]$ 是一个指示函数，如果下一物品 $s_n$ 的第 $i$ 个词元在步骤 $r$ 被掩码，则返回 1，否则返回 0。
$\mathrm{P}_{\theta} \left( c_{n,i} \mid s_n^r, S_{\mathcal{H}} \right)$ 是模型预测的第 $i$ 个词元为真实词元 $c_{n,i}$ 的概率，给定部分掩码的序列 $s_n^r$ 和完整的用户历史 $S_{\mathcal{H}}$ 。
公式 (12) 中的损失函数已被证明是条件模型分布 $\mathrm{P}_{\theta} ( s_n \mid S_{\mathcal{H}} )$ 的负对数似然 (negative log-likelihood) 的上限 (upper bound) (Shi et al., 2024; Nie et al., 2025)。因此，最小化此损失函数等价于最大化条件概率。

4.2.4. 联合训练 (Joint Training)

为了联合优化学习目标，我们通过结合公式 (11) 和 (12) 中的损失来训练掩码预测器。这种联合目标鼓励模型捕获用户历史中不同词元的语义信息，同时在给定历史上下文的条件下预测下一物品的词元。总的训练损失公式为： $\mathcal{L}_{\mathrm{Total}} = \mathcal{L}_{\mathrm{Item-Mask}} + \lambda_{\mathrm{His-Mask}} \mathcal{L}_{\mathrm{His-Mask}} + \lambda_{\mathrm{Reg}} \Vert \theta \Vert_2^2$ 其中：

$\lambda_{\mathrm{His-Mask}}$ 是一个权重系数，用于平衡 $\mathcal{L}_{\mathrm{Item-Mask}}$ 和 $\mathcal{L}_{\mathrm{His-Mask}}$ 的贡献。
$\lambda_{\mathrm{Reg}}$ 控制 $L_2$ 正则化项 $\Vert \theta \Vert_2^2$ 的强度，以防止过拟合。

4.3. 离散扩散推理 (Discrete Diffusion Inference)

训练完离散扩散模型后，目标是生成 Top- $k$ 推荐物品。然而，面临两个挑战：

原始的离散扩散语言模型 (Nie et al., 2025) 通过采样 (sampling) 产生输出，其贪婪的 Top-1 采样 (greedy top-1 sampling) 无法直接产生 Top- $k$ 结果。
束搜索 (beam search) 算法在生成式推荐中常用于 Top- $k$ 结果，但它主要设计用于固定的从左到右解码顺序。离散扩散采用自适应且动态变化的生成顺序，使得传统的束搜索不适用。

为了克服这些挑战，LLaDA-Rec 调整了束搜索以适应离散扩散框架，从而能够生成 Top- $k$ 推荐物品。

4.3.1. 初始化

生成过程分为 $T$ 个离散步骤。我们用 $\mathcal{PG}_t$ 表示在步骤 $t \in \{1, \ldots, T\}$ 已经生成的词元位置集合。在第一步， $\mathcal{PG}_1 = \emptyset$ 。让 $s_n^t$ 表示在步骤 $t$ 要生成的下一物品的词元序列。具体来说，在 $t=1$ 时，我们初始化 $s_n^1 = \{[\mathsf{MASK}], \ldots, [\mathsf{MASK}]\}$ ，包含 $M$ 个 [MASK] 词元。给定 $s_n^t$ 和用户历史词元序列 $S_{\mathcal{H}}$ ，掩码预测器为每个被掩码的位置输出词汇表上的概率分布： $\mathrm{P}_{\theta}^{t,m}(\boldsymbol{w} \mid s_n^t, S_{\mathcal{H}}) \in [0, 1], \quad m \in \{1, \ldots, M\} \setminus \mathcal{PG}_t, \quad \boldsymbol{w} \in \{1, \ldots, |\mathcal{W}|\}$ 其中：

$m$ 索引被掩码的位置。
$\boldsymbol{w}$ 索引词汇表中的候选词元。
$\mathcal{W}$ 表示包含所有可能词元的词汇表。
$\mathrm{P}_{\theta}^{t,m}(\cdot)$ 表示在步骤 $t$ 位置 $m$ 上的词汇表概率分布。

4.3.2. 生成位置选择 (Generation Position Selection)

与从左到右的自回归生成不同，离散扩散在每一步并行预测所有 [MASK] 位置。为了迭代生成词元，我们首先确定在步骤 $t$ 要生成的哪些位置。由于总共有 $M$ 个词元要在 $T$ 步内生成，因此在每一步，我们选择最高最大词元概率 (highest maximum token probabilities) 的前 $\frac{M}{T}$ 个未填充位置： $\begin{array}{r l} & \mathcal{M}_t = \underset{m \in \{1, \dots, M\} \setminus \mathcal{PG}_t}{\mathrm{top}(M/T)} \left( \underset{w \in \{1, \dots, |\mathcal{W}|\}}{\mathrm{max}} \mathrm{P}_{\theta}^{t,m}(w \mid s_n^t, S_{\mathcal{H}}) \right), \\ & \qquad \quad \mathcal{PG}_{t+1} = \mathcal{PG}_t \cup \mathcal{M}_t. \end{array}$ 其中：

$\mathcal{M}_t$ 表示在步骤 $t$ 具有最高置信度分数的前 $\frac{M}{T}$ 个位置集合。
$\mathrm{top}(M/T)(\cdot)$ 函数选择具有最高置信度分数的 M/T 个元素。
$\mathcal{PG}_t$ 在此选择后通过并集操作更新为 $\mathcal{PG}_{t+1}$ 。

4.3.3. 离散扩散的束搜索 (Beam Search for Discrete Diffusion)

我们对 $\mathcal{M}_t$ 中的所有选定位置进行顺序束搜索。令 $\mathcal{B}_t$ 表示步骤 $t$ 的束集合 (beam set)， $\mathcal{B}_{t,0}$ 是在处理 $\mathcal{M}_t$ 中任何位置之前的初始状态。将 $\mathcal{M}_t$ 中的位置索引为 $\{m_1, m_2, \ldots, m_{|\mathcal{M}_t|}\}$ 。对于每个 $m_i$ ，我们首先用该位置的 Top- $B$ 候选词元扩展当前束集合，然后根据模型得分将其修剪回 Top- $B$ 个束： $\begin{array}{r l} & \mathcal{B}_{t,0} \ \gets \ \mathcal{B}_t, \quad \mathcal{B}_{t,i} \ \gets \ \mathcal{B}_{t,i-1} \cup \quad \mathrm{top}{-B} \ \big( \mathrm{P}_{\theta}^{t,m_i}(w \mid s_n^t, S_{\mathcal{H}}) \big), \\ & \mathcal{B}_{t,i} \ \gets \ \mathrm{top}{-B} \big( \mathrm{P}_{\theta}^t(b \mid s_n^t, S_{\mathcal{H}}) \big), \quad \mathcal{B}_{t+1} \ \gets \ \mathcal{B}_{t, |\mathcal{M}_t|}. \\ & \quad b \in \mathcal{B}_{t,i} \end{array}$ 其中：

$B$ 是束大小 (beam size)。
$\mathrm{top}{-B}(\cdot)$ 函数选择具有最高置信度分数的 $B$ 个元素。
$\mathrm{P}_{\theta}^t(b \mid s_n^t, S_{\mathcal{H}})$ 表示在步骤 $t$ 束 $b$ 的联合概率。在束扩展之后， $s_n^t$ 中所有选定位置 $\mathcal{M}_t$ 的词元被新生成的词元替换，形成更新的序列 $s_n^{t+1}$ 。

4.3.4. 迭代生成 (Iterative Generation)

在每次迭代中， $\mathcal{M}_t$ 根据公式 (16) 确定。所有未选定的位置都被重新掩码，以便掩码预测器可以在部分生成的序列上下文中重新评估它们。利用这个更新的序列，掩码预测器再次应用，并重复位置选择和束搜索的过程，直到所有位置都被填充。最终得到的序列根据其总概率进行排序，并返回前 $k$ 个序列作为推荐。这种迭代过程使离散扩散模型能够动态地细化未选定位置的预测，实现高质量的 Top- $k$ 输出，同时比严格的从左到右自回归生成提供更大的灵活性。

4.4. 讨论

4.4.1. 推荐中的连续与离散扩散 (Continuous vs. Discrete Diffusion in Recommendation)

连续扩散模型 (Continuous diffusion models)：广泛应用于图像生成 (Rombach et al., 2022; Yang et al., 2023) 和序列推荐 (Li et al., 2025; Li et al., 2023; Wang et al., 2023; Yang et al., 2023)。它们在连续空间中操作，通过前向加噪过程 (forward noising process) 和逆向去噪过程 (reverse denoising process) 生成高质量图像或潜在表示 (latent representations)。在推荐任务中，基于连续扩散的方法通常生成一个潜在表示，然后通过相似性搜索 (similarity search) 检索物品。在这种方法中，检索和模型优化是分离的阶段。
离散扩散模型 (Discrete diffusion models)：如 LLaDA-Rec，旨在生成离散词元序列。我们的方法直接生成物品的语义 ID，从而消除了检索阶段，将生成和检索统一到单个优化过程中。这种整合简化了推理管道 (inference pipeline)，并带来了更高的推荐性能。

4.4.2. 相对于自回归模型的优势 (Advantages over Autoregressive Models)

自回归生成式推荐方法 (Liu et al., 2025; Rajput et al., 2023; Wang et al., 2024; Zheng et al., 2024) 以固定的从左到右顺序生成词元，导致强烈的序列依赖性和容易受到错误积累的影响，即早期错误会传播到整个序列。它们的注意力机制是单向的 (因果)，限制每个词元只能关注其前驱词元。虽然 RPG (Hou et al., 2025) 采用多词元预测 (multi-token prediction) (Gloeckle et al., 2024) 来并行生成语义 ID，但预测是在单一步骤中完成的，无法通过重新掩码和重新预测进行迭代细化。此外，它需要复杂的解码策略。

相比之下，离散扩散模型采用自适应的、置信度驱动的生成顺序，优先处理置信度高的词元，从而降低早期步骤错误的影响并缓解错误积累。它还结合了双向注意力 (bidirectional attention)，允许词元同时关注前驱和后续位置，以捕获更丰富的上下文语义。此外，离散扩散支持可控的生成步骤，可以在每个步骤预测多个词元。

总体而言，双向建模与自适应生成顺序的结合使生成过程更紧密地与推荐目标对齐，提高了准确性。表 1 总结了 LLaDA-Rec 与代表性生成式推荐方法之间的关键区别。

以下是原文 Table 1 的结果：

Methods	Attention Mechanism	Generation Order	Controllable Generation Step
TIGER [29]	Causal	Left2Right
LETTER [36]	Causal	Left2Right	xxxx)
LC-Rec [48]	Causal	Left2Right
RPG [14]	Causal	Parallel
LLaDA-Rec	Bidirectional	Adaptive

Table 1: 比较不同生成式推荐方法。通过 Table 1 可以直观看出：

注意力机制 (Attention Mechanism)：LLaDA-Rec 采用双向 (Bidirectional) 注意力，而所有其他生成式推荐方法（TIGER, LETTER, LC-Rec, RPG）都使用因果 (Causal) 注意力。这是 LLaDA-Rec 捕获全局语义优势的关键。
生成顺序 (Generation Order)：LLaDA-Rec 采用自适应 (Adaptive) 生成顺序，这意味着它根据预测置信度动态决定生成哪些词元。TIGER, LETTER, LC-Rec 采用从左到右 (Left2Right) 的固定顺序。RPG 虽然是并行 (Parallel)，但其并行性是在单一步骤完成，与 LLaDA-Rec 的迭代自适应生成有所不同。
可控生成步骤 (Controllable Generation Step)：LLaDA-Rec 具有此特性，允许在效率和性能之间进行权衡。其他方法则不具备此特性。

5. 实验设置

5.1. 数据集

LLaDA-Rec 在三个来自广泛使用的 Amazon 2023 Review 数据集 (Hou et al., 2024) 的类别上进行了评估，分别是："Industrial Scientific" (Scientific)、"Musical Instruments" (Instrument) 和 "Video Games" (Game)。

数据处理：与先前的研究 (Hou et al., 2023; Rajput et al., 2023) 一致，每个用户的历史评论被视为交互记录并按时间顺序排列，最早的评论放在最前面。
评估协议：采用广泛使用的“留一法 (leave-one-out protocol)” (Kang & McAuley, 2018; Rajput et al., 2023)：在每个用户序列中，最后一个物品用于测试，倒数第二个物品用于验证。
数据集特点：这些数据集涵盖不同领域的物品，具有真实的用户交互模式和稀疏性。选择它们可以有效地验证方法的通用性和性能。

以下是原文 Table 2 的结果：

Dataset #Users #Items #Interaction Sparsity Avg.len
Scientific 50,985 25,848 412,947 99.969% 8.10
Instrument 57,439 24,587 511,836 99.964% 8.91
Game 94,762 25,612 814,586 99.966% 8.60

Table 2: 所用数据集的统计数据。其中：

#Users: 用户数量。
#Items: 物品数量。
#Interaction: 总交互数量。
Sparsity: 稀疏度，表示交互矩阵中非零元素的比例，高稀疏度是推荐系统面临的常见挑战。
Avg.len: 每个输入序列的平均交互长度。

5.2. 评估指标

遵循先前的研究 (Rajput et al., 2023; Wang et al., 2024; Zheng et al., 2024)，我们使用两个常用的排序指标来评估性能：Top- $k$ 召回率 (Recall@k) 和 Top- $k$ 归一化折损累计增益 (Normalized Discounted Cumulative Gain, NDCG@k)。报告的 $k$ 值包括 $\{1, 5, 10\}$ 。由于 $\mathrm{NDCG@1}$ 与 $\mathrm{Recall@1}$ 相同，因此省略了 $\mathrm{NDCG@1}$ 。

5.2.1. 召回率 (Recall@k)

概念定义：召回率衡量了在推荐列表前 $k$ 个物品中，有多少用户实际交互过的目标物品被成功推荐。它关注的是模型找到所有相关物品的能力，即使这些物品的排名不是最高的。
数学公式： $\mathrm{Recall@k} = \frac{1}{|U|} \sum_{u \in U} \frac{|\mathrm{R}_u(k) \cap \mathrm{T}_u|}{|\mathrm{T}_u|}$
符号解释：
- $|U|$ ：用户总数。
- $u$ ：某个特定用户。
- $\mathrm{R}_u(k)$ ：为用户 $u$ 生成的 Top- $k$ 推荐物品列表。
- $\mathrm{T}_u$ ：用户 $u$ 实际交互过的目标物品集合（在留一法中，通常是唯一的下一个真实交互物品）。
- $|\mathrm{R}_u(k) \cap \mathrm{T}_u|$ ：推荐列表 $\mathrm{R}_u(k)$ 中包含的真实目标物品数量。
- $|\mathrm{T}_u|$ ：用户 $u$ 实际交互过的目标物品总数。

5.2.2. 归一化折损累计增益 (Normalized Discounted Cumulative Gain, NDCG@k)

概念定义：NDCG 是一种衡量推荐系统排名的指标，它考虑了物品的相关性以及它们在推荐列表中的位置。相关性更高的物品排名越靠前，NDCG 值就越高。它通过对排名靠前的相关物品给予更高的权重来体现排名质量。
数学公式：首先计算折损累计增益 (Discounted Cumulative Gain, DCG@k)： $\mathrm{DCG@k} = \sum_{j=1}^{k} \frac{\mathrm{rel}_j}{\log_2(j+1)}$ 然后计算理想折损累计增益 (Ideal Discounted Cumulative Gain, IDCG@k)： $\mathrm{IDCG@k} = \sum_{j=1}^{k} \frac{\mathrm{rel}_j^{\mathrm{ideal}}}{\log_2(j+1)}$ 最终的 NDCG@k 如下： $\mathrm{NDCG@k} = \frac{\mathrm{DCG@k}}{\mathrm{IDCG@k}}$
符号解释：
- $k$ ：推荐列表的长度。
- $j$ ：推荐列表中的位置索引。
- $\mathrm{rel}_j$ ：在推荐列表位置 $j$ 处物品的相关性得分。在二元相关性（物品是否是真实目标）场景下，如果位置 $j$ 的物品是真实目标，则 $\mathrm{rel}_j=1$ ，否则 $\mathrm{rel}_j=0$ 。
- $\log_2(j+1)$ ：折损因子，用于对排名靠后的物品给予较低的权重。
- $\mathrm{rel}_j^{\mathrm{ideal}}$ ：对于用户来说，根据真实相关性（由高到低排序）的理想推荐列表中位置 $j$ 处物品的相关性得分。IDCG@k 是最佳推荐列表的 DCG 值。

5.3. 对比基线

实验中，LLaDA-Rec 与两类基线模型进行了比较：传统的基于物品 ID (Item ID-based) 的方法和基于语义 ID (Semantic ID-based) 的生成式推荐方法。

5.3.1. 基于物品 ID (Item ID-based) 的方法

这类方法直接操作物品的离散 ID 或其嵌入表示，而不是语义词元序列。

GRU4Rec (Hidasi et al., 2016)：利用门控循环单元 (Gated Recurrent Units, GRUs) 来建模用户交互历史，是会话推荐 (session-based recommendation) 的经典模型。
SASRec (Kang & McAuley, 2018)：采用单向 Transformer (unidirectional Transformer) 来捕获序列依赖关系，是序列推荐领域的里程碑工作。
BERT4Rec (Sun et al., 2019)：利用双向 Transformer (bidirectional Transformer) 和完形填空式目标 (cloze-style objective) 进行训练，以更好地理解用户行为序列的上下文。
FMLP-Rec (Zhou et al., 2022)：采用带有可学习滤波器 (learnable filters) 的多层感知机 (MLPs) 进行序列建模，旨在提高效率和性能。
LRURec (Yue et al., 2024)：整合线性循环单元 (Linear Recurrent Units, LRUs) 以有效处理长距离用户交互。
DreamRec (Yang et al., 2023)：使用 SASRec 的输出在扩散去噪模块中，移除负采样 (negative sampling)，仅在正样本上训练。它结合了序列推荐和扩散模型的思想。
DiffuRec (Li et al., 2023)：通过 Transformer 近似器 (Transformer approximator) 重建目标物品嵌入，将生成式扩散与序列推荐结合。

5.3.2. 基于语义 ID (Semantic ID-based) 的生成式推荐方法

这类方法将物品词元化为语义 ID 序列，然后通过生成模型进行推荐。

VQ-Rec (Hou et al., 2023)：应用乘积量化 (product quantization) 将物品词元化为语义 ID，然后池化 (pooled) 这些 ID 以获得物品表示。
TIGER (Rajput et al., 2023)：利用 RQ-VAE (Residual Quantization VAE) 生成码本标识符 (codebook identifiers)，将语义信息嵌入离散的码序列中。
TIGER-SAS (Rajput et al., 2023)：从 SASRec 训练的物品嵌入而非文本嵌入中提取语义 ID，是 TIGER 的一个变体。
LETTER (Wang et al., 2024)：开发了一种可学习的词元化器 (learnable tokenizer)，结合了分层语义 (hierarchical semantics)、协同信号 (collaborative signals) 和码分配多样性 (code assignment diversity)。
LC-Rec (Zheng et al., 2024)：利用标识符和辅助对齐任务 (auxiliary alignment tasks) 将生成的码与自然语言关联起来。
RPG (Hou et al., 2025)：一个轻量级的基于语义 ID 的模型，通过多词元预测 (multi-token prediction) 并行生成长而无序的语义 ID。

5.4. 实施细节

5.4.1. 并行词元化模块

文本编码器：采用 Sentence-T5 (Ni et al., 2021) 将每个物品的标题和其他文本信息编码为嵌入向量。
码本设置：使用 $M=4$ 个码本，每个码本包含 $K=256$ 个码向量，每个向量维度为 $d=32$ 。
VQ-VAE 超参数：公式 (10) 中的权重 $\alpha$ 设置为 0.25。
训练细节：Multi-Head VQ-VAE 使用 AdamW 优化器 (Loshchilov & Hutter, 2017) 训练 10,000 个周期 (epochs)，学习率为 $1 \times 10^{-3}$ ，批处理大小 (batch size) 为 2,048。

5.4.2. 离散扩散模型 (MASK 预测器)

模型架构：掩码预测器 (MASK predictor) 是一个双向 Transformer 编码器 (bidirectional Transformer encoder)。
维度：词元嵌入维度 (token embedding dimension) 为 256，每层有 8 个注意力头 (attention heads)。
层数：在 Scientific 和 Instrument 数据集上使用 4 层编码器，在 Game 数据集上使用 6 层编码器。
参数初始化：模型参数随机初始化。
训练损失：使用本文设计的联合损失函数（公式 (14)）进行训练。
超参数：公式 (14) 中的权重 $\lambda_{\mathrm{His-Mask}}$ 在 $\{1, 2, 3, 4, 5\}$ 范围内调优。
训练细节：Transformer 编码器训练 150 个周期，采用早停 (early stopping) 机制。使用 AdamW 优化器。学习率在 $\{0.005, 0.003, 0.001\}$ 范围内调优，权重衰减 (weight decay) 在 $\{0.05, 0.005, 0.001\}$ 范围内调优。批处理大小设置为 1,024。

6. 实验结果与分析

6.1. 核心结果分析

以下是原文 Table 3 的结果：

Datasets	Metric	Item ID-based							Semantic ID-based
Datasets	Metric	GRU4Rec	SASRec	BERT4Rec	FMLP-Rec	LRURec	DreamRec	DiffuRec	VQ-Rec	TIGER	TIGER-SAS	LETTER	LC-Rec	RPG	LLaDA-Rec
Scientific	Recall@1	0.0071	0.0063	0.0045	0.0046	0.0049	0.0052	0.0050	0.0076	0.0084	0.0067	0.0082	0.0091	0.0087	0.0098
	Recall@5	0.0184	0.0240	0.0157	0.0181	0.0169	0.0184	0.0190	0.0248	0.0282	0.0221	0.0273	0.0280	0.0257	0.0310
	Recall@10	0.0272	0.0379	0.0264	0.0300	0.0267	0.0299	0.0310	0.0385	0.0446	0.0356	0.0423	0.0434	0.0395	0.0474
	NDCG@5	0.0128	0.0152	0.0100	0.0113	0.0110	0.0118	0.0119	0.0162	0.0183	0.0144	0.0179	0.0186	0.0174	0.0203
	NDCG@10	0.0156	0.0197	0.0134	0.0151	0.0141	0.0155	0.0158	0.0206	0.0236	0.0187	0.0227	0.0235	0.0218	0.0256
	Recall@1	0.0094	0.0089	0.0065	0.0086	0.0071	0.0069	0.0077	0.0099	0.0105	0.0102	0.0114	0.0119	0.0118	0.0128
Instrument	Recall@5	0.0297	0.0331	0.0255	0.0299	0.0272	0.0245	0.0283	0.0345	0.0359	0.0342	0.0362	0.0379	0.0362	0.0406
	Recall@10	0.0453	0.0525	0.0412	0.0496	0.0431	0.0423	0.0465	0.0532	0.0566	0.0521	0.0562	0.0587	0.0545	0.0623
	NDCG@5	0.0196	0.0211	0.0160	0.0193	0.0172	0.0157	0.0179	0.0222	0.0233	0.0223	0.0239	0.0251	0.0241	0.0268
	NDCG@10	0.0246	0.0273	0.0211	0.0257	0.0223	0.0214	0.0237	0.0282	0.0300	0.0280	0.0303	0.0318	0.0300	0.0337
	Recall@1	0.0149	0.0128	0.0082	0.0099	0.0134	0.0125	0.0111	0.0150	0.0166	0.0170	0.0169	0.0165	0.0209	0.0203
	Recall@5	0.0461	0.0516	0.0315	0.0395	0.0480	0.0381	0.0425	0.0497	0.0529	0.0548	0.0552	0.0567	0.0579	0.0623
Game	Recall@10	0.0712	0.0823	0.0530	0.0649	0.0753	0.0611	0.0709	0.0769	0.0823	0.0847	0.0863	0.0891	0.0853	0.0942
	NDCG@5	0.0307	0.0323	0.0199	0.0246	0.0308	0.0253	0.0268	0.0325	0.0348	0.0360	0.0362	0.0366	0.0397	0.0415
	NDCG@10	0.0387	0.0421	0.0267	0.0328	0.0396	0.0326	0.0359	0.0412	0.0442	0.0457	0.0462	0.0471	0.0485	0.0517

Table 3: 不同生成式推荐方法的比较。表格中的最佳性能用粗体表示，次佳性能用下划线表示。与次佳方法相比，LLaDA-Rec 的改进具有统计学意义（配对 $t$ -检验， $P$ -值 $< 0.05$ ）。

从 Table 3 的实验结果中可以观察到以下几点：

LLaDA-Rec 实现了最先进 (SOTA) 的性能：LLaDA-Rec 在所有三个数据集（Scientific, Instrument, Game）和所有评估指标（Recall@1/5/10, NDCG@5/10）上，均显著优于所有传统的基于物品 ID 的方法和现有的基于语义 ID 的生成式推荐方法。这有力地验证了离散扩散训练和推理的优势，以及 Multi-Head VQ-VAE 设计的有效性。例如，在 Game 数据集上，LLaDA-Rec 的 Recall@10 达到了 0.0942，显著高于次优方法 LC-Rec 的 0.0891。
生成式语义 ID 方法优于传统物品 ID 方法：总体而言，基于语义 ID 的生成式推荐方法（VQ-Rec, TIGER, LETTER, LC-Rec, RPG, LLaDA-Rec）的性能普遍优于传统的基于物品 ID 的方法（GRU4Rec, SASRec, BERT4Rec 等）。这表明使用语义 ID 能够更好地捕捉不同物品之间的相关性，并且生成式方法在推荐任务中具有显著优势。例如，在 Scientific 数据集上，基于语义 ID 的方法普遍能达到 0.02+ 的 Recall@5，而基于物品 ID 的方法大多在 0.01+。
并行语义 ID 的优势：RPG 和 LLaDA-Rec 这两种基于并行语义 ID 的方法，都取得了令人满意的结果。这证实了并行语义 ID 在推荐任务中的潜力。LLaDA-Rec 进一步超越 RPG，这表明离散扩散模型在并行生成方面比 RPG 的单步多词元预测 (multi-token prediction) 具有更强的优势，可能得益于其迭代细化和自适应生成顺序。

6.2. 消融实验/参数分析

以下是原文 Table 4 的结果：

Model	Scientific		Instrument		Game
	R@5	N@5	R@5	N@5	R@5	N@5
LLaDA-Rec	0.0310	0.0203	0.0406	0.0268	0.0623	0.0415
Tokenizer
RQ-VAE	0.0293	0.0191	0.0367	0.0244	0.0604	0.0399
RQ-Kmeans	0.0250	0.0165	0.0344	0.0224	0.0552	0.0370
OPQ	0.0237	0.0155	0.0340	0.0229	0.0552	0.0362
Training
w/o LHis-Mask	0.0255	0.0169	0.0321	0.0209	0.0544	0.0356
w/o LItem-Mask	0.0264	0.0172	0.0355	0.0231	0.0571	0.0376
Inference
w/o Beam Search	0.0077	0.0077	0.0091	0.0091	0.0162	0.0162

Table 4: 在三个数据集上的消融实验结果。w/o 表示移除相应模块。R@5 和 N@5 分别表示 Recall@5 和 NDCG@5。

6.2.1. 词元化器 (Tokenizer)

为了验证 Multi-Head VQ-VAE 的有效性，本文将其与几种常用语义 ID 生成方法进行了比较：

RQ-VAE (Residual Quantization VAE)：残差量化是一种分层方法。
RQ-Kmeans (Residual Quantization K-means)：基于 K-means 的残差量化。
OPQ (Optimized Product Quantization)：优化乘积量化。实验结果显示：
Multi-Head VQ-VAE 的优势：LLaDA-Rec 使用的 Multi-Head VQ-VAE 性能最佳。这表明其并行词元化方案更好地与双向 Transformer 架构对齐，因为所有词元被平等对待，消除了层级依赖。
残差量化 (RQ) 的局限性：基于残差量化（RQ-VAE, RQ-Kmeans）的语义 ID 表现持续不佳。这证实了残差量化与双向 Transformer 之间的不匹配，因为在 RQ 中，早期词元影响力更大，而 LLaDA-Rec 中的词元重要性均匀分布，更适合并行语义 ID 结构。
VQ-VAE 的鲁棒性：即使将 LLaDA-Rec 的词元化器替换为 RQ-VAE，模型性能在大多数情况下仍优于基线，这验证了 LLaDA-Rec 生成框架的鲁棒性和架构优势。
聚类方法的性能：RQ-Kmeans 和 OPQ 等基于聚类的方法性能劣于 RQ-VAE 和 VQ-VAE，这表明 VAE-based 的量化方法具有更强的表示能力。

6.2.2. 训练 (Training)

本研究引入了两个掩码机制来指导训练过程：用户历史级别掩码 ( $\mathcal{L}_{\mathrm{His-Mask}}$ ) 和下一物品级别掩码 ( $\mathcal{L}_{\mathrm{Item-Mask}}$ )。

移除 $\mathcal{L}_{\mathrm{His-Mask}}$ (w/o LHis-Mask)：性能显著下降。这表明用户历史级别掩码（公式 (11)）对于模型有效捕获不同物品之间的序列依赖关系至关重要。
移除 $\mathcal{L}_{\mathrm{Item-Mask}}$ (w/o LItem-Mask)：性能也有所下降。这说明下一物品级别掩码（公式 (12)）有助于模型学习同一物品内部不同词元之间的语义关系，并能在给定历史上下文的条件下更好地预测下一物品。这两个损失函数共同优化，使得模型能够同时理解物品内语义和物品间序列关系。

6.2.3. 推理 (Inference)

本文针对离散扩散模型设计了适应性束搜索策略以生成 Top- $k$ 推荐。

移除束搜索 (w/o Beam Search)：性能急剧下降。如果移除束搜索，转而使用原始扩散语言模型中的贪婪搜索 (greedy search) 策略（只能返回 Top-1 结果），Recall 和 NDCG 的值会变得相同且非常低。这有力地证实了在生成式推荐任务中，束搜索对于生成高质量的 Top- $k$ 推荐结果的重要性。

6.3. 实验分析

6.3.1. 注意力机制的影响 (Impact of the Attention Mechanism)

LLaDA-Rec 基于双向 Transformer，能够更有效地建模上下文依赖。本文将双向注意力与几种替代注意力机制进行了比较：

因果注意力 (Causal attention)：自回归模型中常用，只能关注前驱词元。
物品间因果注意力 (Inter-item causal attention)：物品之间是因果注意力，物品内部是双向注意力。
物品内因果注意力 (Intra-item causal attention)：物品内部是因果注意力，物品之间是双向注意力。

下图（原文 Figure 3）展示了不同注意力机制的比较：

该图像是图表，展示了不同注意力机制的比较。图中的（a）部分分别表示因果（Causal）、项目间因果（Inter-Item Causal）、项目内因果（Intra-Item Causal）和双向（Bidirectional）机制的注意力掩码；（b）和（c）部分呈现了在乐器和游戏数据集上的性能结果，使用 NDCG@5 和 Recall@5 作为评估指标。

图 3: 不同注意力机制的比较。(a): 对应每种机制的注意力掩码。(b) 和 (c): 不同注意力机制下的性能。

从 Figure 3 可以看出：

双向注意力最佳：双向注意力实现了最佳性能，这归因于其卓越的捕获上下文依赖能力。
因果注意力最差：因果注意力由于其单向结构的限制，利用上下文信息的效果最差，因此表现最糟糕。
混合注意力表现：物品间因果注意力和物品内因果注意力都取得了有竞争力的性能，这突出表明，无论是跨物品还是物品内部，融入双向注意力对于有效的上下文建模都至关重要。

6.3.2. 生成顺序的影响 (Impact of Generation Order)

LLaDA-Rec 的生成顺序是动态决定的，在每一步选择置信度最高的词元位置进行生成。本文将这种自适应策略与固定的从左到右 (left2right) 和从右到左 (right2left) 顺序进行了比较。

下图（原文 Figure 4）展示了不同生成顺序下的性能表现：

Figure 4: Performance under different generation orders. 该图像是图表，展示了不同生成顺序下的性能表现，包括两个子图：(a) 工具的 NDCG@5 和 Recall@5，(b) 游戏的 NDCG@5 和 Recall@5。图中使用了不同颜色的柱状图分别表示左右生成顺序和自适应生成方式。

图 4: 不同生成顺序下的性能。

从 Figure 4 可以看出：

自适应顺序表现最佳：自适应 (Adaptive) 方法始终提供卓越的性能。
固定顺序的局限性：从左到右 (Left2Right) 的生成顺序有时会产生最差的结果，这突出了这种常用方案的缺点。
优势：LLaDA-Rec 能够从更容易的词元逐步生成更难的词元，这提供了一个显著的优势。

6.3.3. 生成步骤的影响 (Impact of Generation Steps)

本文分析了生成步骤数 $T$ 对性能的影响。

下图（原文 Figure 5）展示了不同生成步骤下的性能表现：

Figure 5: Performance under different generation steps. 该图像是一个柱状图，展示了在不同生成步骤下的推荐性能，包含两个部分：左侧为"Instrument"和右侧为"Game"。每一部分展示了在5个生成步骤下的 NDCG@5（蓝色柱子）和 Recall@5（红色线条）的变化情况。

图 5: 不同生成步骤下的性能。

从 Figure 5 可以观察到：

步骤数与性能：增加生成步骤数 (T) 会带来更好的结果。这意味着更多的迭代去噪和细化过程有助于提高生成质量。
效率与性能的权衡：虽然减少步骤数可以提高生成效率，但也会导致性能显著下降。如何在更少的步骤下实现效率和性能之间的更好权衡仍然是一个开放问题，也是扩散语言模型领域近期研究的方向 (Chen et al., 2025; Hayakawa et al., 2024)。

6.3.4. 超参数的影响 (Impact of Hyper-parameters)

本文研究了不同超参数对结果的影响，特别是公式 (14) 中权重 $\lambda_{\mathrm{His-Mask}}$ 的影响。

下图（原文 Figure 6）展示了不同 $\lambda_{\mathrm{His-Mask}}$ 值下的性能表现：

$Figure 6: Performance of different $\\lambda _ { \\mathrm { H i s - M a s k } }$ (Eq. (14)) values.$ 该图像是图表，展示了不同 ext{a}_{ ext{Instrument}} 和 ext{b}_{ ext{Game}} 中 NDCG@5 和 Recall@5 的性能表现。左侧图表显示了对 Instrument 项目的评估，而右侧图表则展示了对于 Game 项目的比较。两组数据均以柱状图和折线图的方式呈现。

图 6: 不同 $\lambda _ { \mathrm { H i s - M a s k } }$ (公式 (14)) 值下的性能。

从 Figure 6 可以看出：

适当增加 $\lambda_{\mathrm{His-Mask}}$ 有益：适度增加 $\lambda_{\mathrm{His-Mask}}$ 可以提高性能，这使得模型能够更好地捕获历史中不同词元之间的关系。
过大的 $\lambda_{\mathrm{His-Mask}}$ 有害：然而，将 $\lambda_{\mathrm{His-Mask}}$ 设置得过大会阻碍模型在给定历史条件下预测下一物品的能力，导致性能下降。这表明需要仔细平衡用户历史信息建模和下一物品生成任务。

7. 总结与思考

7.1. 结论总结

本文从离散扩散 (discrete diffusion) 的角度重新审视了生成式推荐 (generative recommendation)，旨在解决现有自回归方法中固有的单向约束 (unidirectional constraints) 和错误积累 (error accumulation) 问题。我们提出了 LLaDA-Rec，一个双向生成式推荐框架，它利用了并行语义 ID (parallel semantic IDs)、定制的掩码机制 (tailored masking mechanisms) 和适应性束搜索策略 (adapted beam search strategy)，以使离散扩散模型与推荐任务对齐。这种设计使得模型能够同时捕获全局的物品间 (inter-item) 和物品内 (intra-item) 依赖关系，同时有效缓解早期预测错误的传播。在三个真实世界数据集上的大量实验证明，LLaDA-Rec 始终优于传统的基于 ID 的推荐器和最先进的基于语义 ID 的生成式推荐模型。这些结果确立了离散扩散作为生成式推荐领域一个有前景的新范式。

7.2. 局限性与未来工作

论文在第 5.4.3 节“Impact of Generation Steps”中提到了一个未来研究方向：“如何通过更少的步骤在效率和性能之间取得更好的权衡仍然是一个开放问题”。这暗示了当前模型在生成效率方面可能存在进一步优化的空间。虽然增加步骤数可以提高性能，但也会增加推理时间。未来工作可能会探索：

知识蒸馏 (Knowledge Distillation)：将多步扩散模型蒸馏为单步或少步模型，以提高推理效率 (Hayakawa et al., 2024)。
加速采样策略 (Accelerated Sampling Strategies)：开发更高效的采样方法，减少达到高质量生成所需的迭代次数 (Chen et al., 2025)。
自适应步长策略 (Adaptive Step Size)：动态调整每一步生成的词元数量，而不是固定地生成 M/T 个词元，以根据当前置信度灵活调整生成过程。
结合检索与生成：虽然 LLaDA-Rec 统一了生成和检索，但探索与更复杂检索机制的协同作用可能进一步提升性能，尤其是在超大规模物品集合中。

7.3. 个人启发与批判

7.3.1. 个人启发

范式转变的洞察力：将离散扩散模型引入生成式推荐是一个非常具有前瞻性的想法。它巧妙地解决了传统自回归模型在处理推荐序列时固有的单向性和错误积累问题。这种范式转变不仅提升了性能，也为推荐系统带来了更强的模型解释性和生成灵活性。
双向建模的价值：推荐系统中的物品往往具有复杂的语义关联，用户历史中的物品之间也存在复杂的序列模式。双向 Transformer 结合自适应生成顺序，能够全面理解上下文，这在推荐领域尤为重要。这启发我们，在处理复杂序列数据时，应尽可能避免单向限制，而是利用全局信息。
细致的模块设计：LLaDA-Rec 在词元化、训练和推理三个阶段都进行了精心设计。Multi-Head VQ-VAE 用于生成并行语义 ID，两种级别的掩码机制（用户历史和下一物品）确保模型同时捕获物品间和物品内依赖，以及适应性束搜索，这些都展示了将先进生成模型应用于特定领域任务所需的高度定制化和工程智慧。
可控生成步骤的潜力：离散扩散模型允许控制生成步骤数，这为推荐系统在不同延迟要求下进行性能-效率权衡提供了可能。在某些实时性要求高的场景下，牺牲少量性能换取更快的响应速度是完全可接受的。

7.3.2. 批判性思考

计算成本与效率：虽然论文强调了离散扩散的优势，但其迭代生成和双向注意力机制可能带来更高的计算成本，尤其是在推理阶段。尽管作者提出了可控的生成步骤，但与单步生成或少数解码步的自回归模型相比，其真实世界的部署效率仍需进一步评估和优化。特别是在超大规模数据集和低延迟要求下，其计算资源消耗可能是一个挑战。
语义 ID 的质量与可解释性：Multi-Head VQ-VAE 生成的并行语义 ID 确实克服了残差量化的层级依赖，但这些离散词元的语义可解释性如何？它们是否真正捕获了物品的关键特征？以及在多头设置下，不同头的词元之间是否存在潜在的冗余或冲突？对语义 ID 本身的质量和可解释性进行更深入的分析，可能会提供更多洞察。
泛化能力：实验在三个 Amazon 评论数据集上进行，虽然涵盖了不同领域，但这些数据集的物品通常具有丰富的文本描述。对于那些文本信息稀疏或非结构化数据为主的推荐场景（如电影、音乐，可能只有标题和标签），LLaDA-Rec 的性能是否依然出色？其对物品文本信息的依赖程度可能是一个潜在局限。
束搜索的复杂度：适应性束搜索策略旨在解决扩散模型和标准束搜索的不兼容问题，但其在每次迭代中都需要进行位置选择、扩展和修剪，这相对于传统自回归的固定步长束搜索可能更加复杂。其实现细节和计算开销在实际应用中需要被仔细考量。
与连续扩散的更深层比较：论文讨论了离散扩散与连续扩散在推荐中的差异（直接生成 SID vs. 潜在表示 + 检索）。未来工作可以更深入地探讨在何种场景下，哪种扩散范式更具优势。例如，连续扩散在处理连续特征或需要细粒度语义检索时可能更有潜力，而离散扩散在直接生成特定物品标识符时更直接。两种范式是否存在融合的可能？

相似论文推荐

基于向量语义检索推荐的相关论文。

暂时没有找到相似论文。

Dataset	#Users	#Items	#Interaction	Sparsity	Avg.len
Scientific	50,985	25,848	412,947	99.969%	8.10
Instrument	57,439	24,587	511,836	99.964%	8.91
Game	94,762	25,612	814,586	99.966%	8.60