1. 论文基本信息

1.1. 标题

A Survey of Generative Recommendation from a Tri-Decoupled Perspective: Tokenization, Architecture, and Optimization

1.2. 作者

Xiaopeng Li, Bo Chen, Junda She, Shiteng Cao, You Wang, Qinlin Jia, Haiying He, Zheli Zhou, Zhao Liu, Ji Liu, Zhiyang Zhang, Yu Zhou, Guoping Tang, Yiqing Yang, Chengcheng Guo, Si Dong, Kuo Cai, Pengyue Jia, Maolin Wang, Wanyu Wang, Shiyao Wang, Xinchen Luo, Qigen Hu, Qiang Luo, Xiao Lv, Chaoyi Ma, Ruiming Tang, Kun Gai, Guorui Zhou, and Xiangyu Zhao

1.3. 作者单位

City University of Hong Kong (香港城市大学)
Kuaishou Technology (快手科技)
Unaffiliated (独立研究员)

1.4. 发表期刊/会议

Preprints.org (预印本平台)

1.5. 发表年份

2025年

1.6. 摘要

推荐系统 (recommender systems) 领域正经历从多阶段级联判别式流水线 (multi-stage cascaded discriminative pipelines) (即召回 (retrieval)、排序 (ranking) 和重排序 (re-ranking)) 向统一生成式框架 (unified generative frameworks) 的快速转变，后者能够直接生成物品 (items)。与传统的判别式模型 (discriminative models) 相比，生成式推荐 (generative recommender systems) 具有缓解级联错误传播 (cascaded error propagation)、通过统一架构 (unified architectures) 提高硬件利用率 (hardware utilization) 以及优化超越局部用户行为 (local user behaviors) 的潜力。这一新兴范式受到生成模型 (generative models) 兴起以及对端到端架构 (end-to-end architectures) 需求的推动，显著提高了模型浮点运算利用率 (Model FLOPS Utilization, MFU)。本综述从分词 (tokenization)、架构 (architecture) 和优化 (optimization) 三个解耦的视角对生成式推荐进行了全面分析，这三者共同定义了现有生成系统。我们追溯了分词从稀疏 ID (sparse ID) 和基于文本的编码 (text-based encodings) 到平衡词汇效率 (vocabulary efficiency) 和语义表达能力 (semantic expressiveness) 的语义标识符 (semantic identifiers) 的演变；分析了编码器-解码器 (encoder-decoder)、仅解码器 (decoder-only) 和基于扩散的架构 (diffusion-based architectures)，这些架构越来越多地采用统一、可扩展 (scalable) 和高效的骨干网络 (efficient backbones)；并回顾了从监督式下一个词元预测 (supervised next-token prediction) 到基于强化学习 (reinforcement learning) 的偏好对齐 (preference alignment) 的转变，从而实现多维度偏好优化 (multi-dimensional preference optimization)。我们进一步总结了其在级联阶段 (cascade stages) 和应用场景 (application scenarios) 中的实际部署，并审视了关键的开放挑战 (open challenges)。总而言之，本综述旨在为研究社区提供一个基础参考，并为构建下一代生成式推荐系统的工业实践者提供一个可操作的蓝图。为了支持正在进行的研究，我们维护了一个活的知识库 https:/ /github.com/Kuaishou-RecModel/Tri-Decoupled-GenRec，持续跟踪新兴文献和参考实现。

1.7. 原文链接

/files/papers/6932e0a6574a23595ada718d/paper.pdf 该论文为预印本 (preprint) 形式发布在 Preprints.org 平台。

2. 整体概括

2.1. 研究背景与动机

2.1.1. 论文试图解决的核心问题是什么？

当前推荐系统 (recommender systems) 领域正在经历从传统的判别式模型 (discriminative models) 向生成式推荐 (generative recommendation) 范式的转变。传统的判别式模型存在一些根本性限制，如语义信息不足的 tokenization、硬件利用率 (MFU) 低下的定制化架构、以及仅关注局部优化目标。这些问题导致了级联错误传播 (cascaded error propagation) 和效率低下。论文试图解决的核心问题是：

缺乏对生成式推荐的系统性综述： 尽管生成式推荐迅速发展，但研究社区缺乏一个从生成范式本身出发，系统性地审视这一领域及其技术进步和硬件约束的综合性综述。
传统判别式推荐的局限性： 判别式模型面临物品 embedding 的语义隔离、冷启动 (cold-start) 问题、参数量庞大的 embedding 表、低下的硬件利用率 (<5% MFU) 以及模型扩展能力受限。
多阶段级联架构的固有缺陷： 判别式推荐系统通常采用多阶段级联 (multi-stage cascaded) 架构（召回、预排序、排序、重排序），这不可避免地引入累积误差和信息损失。
优化目标单一： 传统判别式模型主要依靠判别式训练策略 (discriminative training strategies) 优化局部决策边界，缺乏对物品完整概率分布的刻画和多维度偏好优化能力。

2.1.2. 为什么这个问题在当前领域是重要的？现有研究存在哪些具体的挑战或空白 (Gap)？

这个问题在当前领域非常重要，原因如下：

范式转变： 生成模型 (generative models)，特别是大语言模型 (Large Language Models, LLMs) 的崛起，为推荐系统带来了新的可能性，使其能够直接生成物品标识符 (item identifiers)，从而简化甚至消除多阶段处理。
工业界需求： 工业界对端到端 (end-to-end) 架构的需求日益增长，以提高模型浮点运算利用率 (MFU) 和系统效率。
学术空白： 现有综述或以 LLM 为中心，或从其他维度（如架构、模态、应用阶段）审视，缺乏一个以生成式推荐作为独立框架，从其内在核心要素（分词、架构、优化）进行系统性、解耦式分析的综述。这使得初学者和研究者难以全面理解其发展脉络、关键技术和未来方向。

2.1.3. 这篇论文的切入点或创新思路是什么？

本论文的创新切入点在于：首次从分词 (Tokenization)、架构 (Architecture) 和优化 (Optimization) 三个解耦的视角，对生成式推荐进行系统性、综合性分析。这三个维度被作者视为共同定义现有生成系统的基础组件。这种“三解耦 (tri-decoupled)”的视角使得综述能够：

深入分析核心要素： 而非仅仅关注 LLM 在推荐中的应用，而是从生成式推荐作为独立框架的本质出发，剖析其构建块。
追溯技术演进： 清晰地展现了这三个核心组件如何从传统方法演变为适应生成范式。
提供全面图景： 为研究者和实践者提供了一个理解生成式推荐的综合概念框架和实用路线图，涵盖了从方法创新到实际部署的考虑。

2.2. 核心贡献/主要发现

本综述的核心贡献是：

首次三维分解分析： 首次从分词、架构设计和优化策略三个维度，全面分析了生成式推荐系统，并在此框架内组织现有工作，追溯了推荐系统从判别式方法向生成式范式的演变。
识别关键趋势： 通过系统性概述和分析，识别出关键趋势：
- 分词向平衡词汇紧凑性 (vocabulary compactness) 和语义表达能力 (semantic expressiveness) 的高效语义标识符 (semantic identifiers) 发展。
- 模型架构 (model architecture) 在可扩展性 (scalability) 和资源高效计算 (resource-efficient computation) 方面的进步。
- 多维度偏好对齐 (multi-dimensional preference alignment) 旨在平衡用户、平台和其他利益相关者的目标。
深入讨论与未来展望： 深入探讨了生成式推荐在不同阶段和场景中的应用，审视了当前面临的挑战，并勾勒出有前景的未来研究方向。旨在为学术界和工业界的学者和实践者提供一份实用参考和蓝图。

论文得出的关键结论或发现是：

生成式推荐正在取代多阶段级联的判别式流水线，能够缓解错误传播，提高硬件利用率，并优化超越局部用户行为的目标。
Tokenization 正在从稀疏 ID 和基于文本的编码演变为语义 ID，以平衡词汇效率和语义表达能力。
模型架构正趋向于统一、可扩展和高效的骨干网络，如编码器-解码器、仅解码器和基于扩散的结构，其中仅解码器架构显示出优越的扩展潜力。
优化策略正从监督式下一个词元预测转向基于强化学习的偏好对齐，以实现多维度偏好优化，更好地平衡用户和平台目标。
生成式推荐在召回、排序、端到端系统以及冷启动、跨域、搜索和自动竞价等多种应用场景中展现出巨大潜力。
未来研究方向包括进一步的端到端建模、提高效率、增强推理能力、优化数据处理以及发展交互式智能体 (interactive agent) 和从推荐到生成的范式转变。

3. 预备知识与相关工作

3.1. 基础概念

3.1.1. 推荐系统 (Recommender Systems)

概念定义： 推荐系统是一种信息过滤系统，旨在预测用户对物品的“评分”或“偏好”，并向用户推荐他们可能感兴趣的物品。其核心目标是增强用户体验、提高用户满意度和平台价值。

3.1.2. 判别式模型 (Discriminative Models)

概念定义： 在机器学习中，判别式模型是一种直接对条件概率 $P(Y|X)$ 进行建模的模型，即给定输入 $X$ 时，预测输出 $Y$ 的概率。在推荐系统中，判别式模型通常预测用户与物品之间交互（如点击、购买）的概率，并以此对物品进行排序。 特点： 擅长区分不同类别或预测特定结果，但通常不直接生成数据。

3.1.3. 生成式模型 (Generative Models)

概念定义： 生成式模型是一种对数据分布 P(X) 或联合概率分布 P(X, Y) 进行建模的模型。它们能够学习数据的内在结构，并据此生成新的、与训练数据相似的样本。在推荐系统中，生成式模型旨在直接生成用户可能喜欢的物品标识符或物品序列。 特点： 能够生成新颖的数据，通常对数据分布有更深刻的理解。

3.1.4. 大语言模型 (Large Language Models, LLMs)

概念定义： 大语言模型是参数量庞大（通常数十亿甚至数万亿）、在海量文本数据上预训练的深度学习模型。它们能够理解、生成自然语言，并展现出强大的语义理解和推理能力。 与推荐系统的关系： LLMs 的强大能力促使研究者探索其在推荐系统中的应用，如语义增强、数据增强和对齐增强。

3.1.5. `Transformer` 架构

概念定义： Transformer 是一种基于自注意力 (self-attention) 机制的深度学习模型架构，最初用于自然语言处理任务。它在处理序列数据方面表现出色，能够并行处理序列中的所有元素，并捕捉长距离依赖关系。 核心机制： Attention 机制是 Transformer 的核心。给定查询 (Query) 向量 $Q$ 、键 (Key) 向量 $K$ 和值 (Value) 向量 $V$ ，注意力机制计算输出为： $\mathrm{Attention}(Q, K, V) = \mathrm{softmax}\left(\frac{QK^T}{\sqrt{d_k}}\right)V$ 其中， $d_k$ 是键向量的维度，用于缩放点积。 符号解释：

$Q$ ：查询矩阵 (Query matrix)，包含序列中每个位置的查询向量。
$K$ ：键矩阵 (Key matrix)，包含序列中每个位置的键向量。
$V$ ：值矩阵 (Value matrix)，包含序列中每个位置的值向量。
$T$ ：矩阵转置操作。
$\mathrm{softmax}(\cdot)$ ：softmax 函数，将分数转换为概率分布。
$\sqrt{d_k}$ ：缩放因子，用于防止点积过大导致 softmax 函数进入梯度饱和区。

3.1.6. 模型浮点运算利用率 (Model FLOPS Utilization, MFU)

概念定义： MFU 是衡量模型在特定硬件上计算效率的指标，表示模型实际达到的浮点运算次数与硬件理论峰值浮点运算次数之比。高 MFU 意味着模型能更有效地利用硬件计算能力。

3.1.7. `Next-Token Prediction (NTP)`

概念定义： 下一个词元预测是语言模型 (language model) 训练的常见任务，模型的目标是根据给定序列中的前驱词元，预测下一个词元。这是一种自回归 (autoregressive) 任务，即每个词元的生成都依赖于它之前生成的词元。

3.1.8. 强化学习 (Reinforcement Learning, RL)

概念定义： RL 是一种机器学习范式，智能体 (agent) 通过与环境 (environment) 交互，学习如何在特定状态下采取行动 (action) 以最大化累积奖励 (cumulative reward)。在推荐系统中，RL 可用于优化长期用户价值或平台目标。

3.1.9. 分词 (Tokenization)

概念定义： 在 LLMs 中，分词是将文本分割成更小单元（词元 (tokens)）的过程，这些词元是模型能够理解和处理的基本单位。在生成式推荐中，分词是指将物品 (items) 或特征 (features) 表示为离散基本单位的方式。

3.1.10. 语义标识符 (Semantic ID, SID)

概念定义： 语义标识符是一种将物品表示为固定长度的、具有语义相关性的 ID 序列的方法。它旨在克服稀疏 ID 缺乏语义信息和文本 ID 效率低下及难以落地的问题。

3.1.11. 编码器-解码器架构 (Encoder-Decoder Architecture)

概念定义： 一种常见的序列到序列 (sequence-to-sequence) 模型架构，由一个编码器 (encoder) 和一个解码器 (decoder) 组成。编码器负责将输入序列编码为上下文向量，解码器则根据该上下文向量逐步生成输出序列。

3.1.12. 仅解码器架构 (Decoder-Only Architecture)

概念定义： 一种仅由解码器层组成的 Transformer 架构，通常用于生成任务。它通过自回归 (autoregressive) 方式，根据已生成的序列预测下一个词元。

3.1.13. 基于扩散的架构 (Diffusion-Based Architecture)

概念定义： 基于扩散的生成模型 (generative models) 通过模拟一个逐渐向数据添加噪声的扩散过程，并学习一个逆向的去噪过程来生成数据。在推荐中，它们通过并行迭代去噪来生成目标序列。

3.2. 前人工作

3.2.1. 判别式推荐模型

ML-based 方法： 包括基于相似性的协同过滤 (collaborative filtering) (如 User-CF 和 Item-CF [48,49]) 和矩阵分解 (matrix factorization) [50,51]。
DL-based 方法： 遵循“Embedding & MLP”范式。
- 特征交互： 使用 MLP 捕获复杂特征交互 [7]（如 DeepFM），或 DCN [8] 进行高阶特征交互建模。
- 行为建模： 从用户时序行为序列中挖掘短期和长期行为模式 [52]（如 DIN）。
- 多任务/场景建模： 联合优化多个目标 [53]（如 CTR、CVR、停留时间）或不同场景 [54]。

3.2.2. `LLM` 增强推荐模型 (LLM-enhanced Recommendation Models)

语义增强 (Semantic Enhancement)： 利用 LLM 的语义知识和推理能力 [26,27]。
数据增强 (Data Enhancement)： 改善推荐数据 [55,56]。
对齐增强 (Alignment Enhancement)： 更好地对齐用户偏好 [57,58]。
与生成式推荐的区别： 尽管 LLM 增强推荐利用了 LLM 的能力，但它们通常仍受限于判别式范式，而非像生成式推荐那样直接生成物品。

3.2.3. 多阶段级联推荐系统 (Multi-stage Cascaded Recommender Systems)

工业界的标准实践，通过召回 (recall)、预排序 (pre-ranking)、排序 (ranking) 和重排序 (re-ranking) 多个阶段逐步缩小候选集 [9]，以处理海量物品和严格的延迟约束。
局限性： 存在累积误差和信息损失问题 [22,23]。

3.3. 技术演进

推荐系统的发展历程可以概括为从早期的基于内容、协同过滤等 ML-based 方法，到深度学习兴起后基于“Embedding & MLP”的 DL-based 判别式模型，再到当前由 LLM 浪潮推动的生成式推荐范式。

从 ML 到 DL： DL 模型通过学习密集向量表示 (dense vector representations) 和复杂特征交互，显著提升了推荐效果。
从 DL 到 LLM 增强： LLM 的语义理解和生成能力被引入推荐系统，以增强现有判别式模型的语义理解、数据质量和对齐能力。
从 LLM 增强到生成式推荐： 这是一个更根本的范式转变，不再是简单地增强判别式模型，而是将推荐任务本身重构为序列生成问题，直接生成物品标识符。这受到了 LLM 在统一架构、高 MFU 和可扩展性方面的启发。

3.4. 差异化分析

本综述与其他相关综述的核心区别在于其三解耦 (tri-decoupled) 的分析视角。

LLM-centric 综述 [39-42]： 这些综述主要关注 LLM 在各种推荐任务中的使用和增强，将 LLM 视为外部工具，涵盖 LLM4Rec 和 LLMasRec 等范式。它们更侧重于 LLM 本身的能力及其在推荐场景中的应用。
其他维度综述 [43-45,47]： 这些综述从架构、模态、统一搜索与推荐、扩散模型或流水线层面进行分析。
本综述的创新点： 将生成式推荐视为一个独立的框架，而非 LLM 增强方法。它强调了输入分词、架构建模和优化这些基础元素，将其视为统一生成式框架的必要构建块。这种内在的生成建模视角使得综述能够全面覆盖方法论，并阐明未来的发展轨迹。

4. 方法论

本综述本身并未提出新的方法论，而是对现有生成式推荐系统的方法论进行分类和总结。其核心思想是采用三解耦 (Tri-Decoupled) 视角，即从分词 (Tokenization)、架构 (Architecture) 和优化 (Optimization) 三个核心组件来剖析生成式推荐。

4.1. 分词 (Tokenization)

在生成式推荐中，分词指的是物品 (items) 如何被表示为模型能够处理的离散基本单位，类似于 LLM 中文本被分割成词元 (tokens)。一个有效的分词器需要平衡语义表达能力和词汇量大小，并能准确高效地将生成的词元映射回实际物品。

4.1.1. 稀疏 ID (Sparse ID-Based Identifiers)

原理： 沿袭传统判别式推荐方法，每个物品被分配一个唯一的、随机的稀疏 ID。这些 ID 本身不携带语义信息，模型通过学习独立的 embedding 向量来表示它们。
优势：
- 避免 ID 冲突，每个物品有唯一 ID。
- 方便直接表示多样化特征和学习特征交互关系。
核心方法详解：
- HSTU [35]： 将用户行为转换为按时间顺序排列的词元序列，通过交错物品 ID 和行为 ID 的形式 $\left[ \mathrm { i t e m } _ { 1 } , \mathrm { a c t } _ { 1 } , \dots , \mathrm { i t e m } _ { n } , \mathrm { a c t } _ { n } \right]$ ，将召回和排序任务统一到单一的序列建模框架中。它增强了 Transformer 架构以更好地建模序列交互。
- MTGR [65]： 在 HSTU 基础上引入丰富的交互特征和用户物品的交叉特征作为稀疏 ID。
- LUM [67]： 将“条件 (conditions)”作为特殊词元构建序列，如 $\left[ \mathrm { c o n d } _ { 1 } , \mathrm { i t e m } _ { 1 } , \ldots , \mathrm { c o n d } _ { n } , \mathrm { i t e m } _ { n } \right]$ ，通过条件词元（如搜索查询、场景、类别）捕获用户兴趣。
- PinRec [66]： 同样集成“条件”作为稀疏词元，但这些条件是用户行为结果（如点击或收藏），从而控制生成特定结果和个性化的物品表示。
- GenRank [62]： 针对 HSTU 序列长度过长导致排序开销大的问题，将物品词元与行为词元结合，将物品作为位置信息，迭代预测每个物品相关的行为，即“行为导向组织 (action-oriented organization)”，显著缩短序列长度。
- DFGR [68]： 将物品和行为视为单一词元，通过拼接物品 ID embedding 和行为 ID embedding 形成统一词元。
局限性：
- 缺乏多模态语义信息： ID 随机分配，无内在语义。
- 冷启动问题： embedding 学习依赖交互数据，冷启动物品缺乏学习。
- 词汇爆炸： 庞大的物品词汇量导致预测输出空间巨大，对生成模型适应性构成挑战。

4.1.2. 基于文本 (Text-Based Identifiers)

原理： 利用 LLM 的预训练词汇表，通过物品的自然语言描述来表示物品。将推荐任务重构为 LLM 的文本理解和生成任务。
优势：
- 利用 LLM 的世界知识和推理能力，缓解冷启动和长尾问题，实现跨域泛化和少样本/零样本推荐。
- 提供更好的可解释性和对话交互能力。
核心方法详解：
- M6-Rec [69]： 在电商场景中，利用产品属性和描述填充自然语言模板，将用户交互历史中的产品进行分词。
- LLMTreeRec [70]： 强调产品属性的层次结构，组织属性信息为树形结构，避免冗长文本。
- TallRec [71]： 以“属性名: 属性值”形式表示物品，促进文本化物品表示。
- BIGRec [72]： 分两步：首先使用 SFT (Supervised Fine-Tuning) 对齐 LLM 的生成与推荐空间，然后计算实际和生成物品间的 L2 距离进行重排序。
- S-DPO [38]： 将用户交互历史作为文本提示，预测目标物品标题，通过 S-DPO 优化正负样本概率。
- MLLMs 增强 [73]： 利用多模态大语言模型 (Multimodal Large Language Models, MLLMs) 总结物品文本表示。
- 融合协同信号： LLaRa [75] 认识到纯文本方法缺乏协同信号，将传统推荐模型获得的物品表示与物品的文本属性结合，通过 LoRA [76] 微调 LLM。
局限性：
- 计算效率低下： 文本描述通常需要大量词元。
- 物品落地困难： 生成的文本词元可能难以准确映射到实际物品，导致歧义和不准确。

4.1.3. 语义 ID (SID-Based Identifiers)

原理： 结合稀疏 ID 和文本 ID 的优点，通过固定长度的语义 ID 序列表示物品，既避免了词汇爆炸，又保留了语义信息，实现紧凑高效的表示。
核心方法详解： SID 构建通常分两步：嵌入提取 (Embedding Extraction) 和 量化 (Quantization)。

4.1.3.1. 语义 ID 构建 (Semantic ID Construction)

嵌入提取 (Embedding Extraction)： 将物品的语义信息（如文本、图像）转化为语义 embedding。
- TIGER [29] 和 LC-Rec [82]： 仅从静态物品内容特征（标题、描述、图像）生成 embedding。
- LETTER [37]、EAGER [83]、OneRec [15,32]、UNGER [84]： 进一步注入协同信号，联合学习协同和语义跨模态 embedding。
- OneLoc [85]、GNPR-SID [86]： 针对基于位置的推荐场景，注入地理信息。
- TokenRec [87]： 仅使用协同信号（通过 GNN [88] 捕获用户-物品交互）构建 embedding。
量化 (Quantization)： 将语义 embedding 量化为 SID 序列。
- 残差量化 (Residual-based Quantization)： 最常用方法，通过量化潜在 embedding 与聚类中心之间的残差，构建从粗到精的表示。
  - RQ-VAE [80]： 广泛应用于 TIGER [29]、LC-Rec [82]、COBRA [89] 等。其过程为：对于每个物品的语义表示 $z$ $z$ ，量化器进行多级量化。在每一级 $l$ $l$ ，算法从码本 (codebook) $\{ v _ { k } ^ { l } \} _ { k = 1 } ^ { K }$ ${v_{k}^{l}}_{k = 1}^{K}$ 中识别出最接近当前潜在表示输入 $z$ $z$ 的码向量： $c ^ { l } = \arg \operatorname* { m i n } _ { k } | | z - { \boldsymbol { v } } _ { k } ^ { l } | | _ { 2 } ^ { 2 }$ 然后，残差 $r ^ { l + 1 } = z - v _ { c } ^ { l }$ $r^{l + 1} = z - v_{c}^{l}$ 作为下一级量化的输入，此过程迭代直到所有 $L$ $L$ 级完成。 符号解释：
    - $c^l$ : 在第 $l$ 级量化中选择的码向量的索引。
    - $z$ : 当前待量化的潜在表示输入。
    - $v_k^l$ : 第 $l$ 级码本中第 $k$ 个码向量。
    - $K$ : 码本中码向量的总数。
    - $||\cdot||_2^2$ : 欧几里得距离的平方。
    - $r^{l+1}$ : 第 $l$ 级量化后的残差，作为第 $l+1$ 级的输入。
    - $v_c^l$ : 第 $l$ 级中与 $z$ 最接近的码向量。
  - ResKmeans [95]： OneRec [32] 和 OneLoc [85] 采用，通过限制每个码向量可分配的最大物品数量来防止码本崩溃，提高码本利用率和稳定性。
  - 残差量化面临的挑战： 可能产生沙漏效应 (hourglass effect) [96]，导致中间层码本词元过度集中；推理时 SID 生成存在前缀依赖，限制了解码效率。
- 并行量化 (Parallel Quantization)： 预测多个 ID 同时，以提高语义建模和生成效率。
  - RPG [97]： 使用乘积量化 (Product Quantization, PQ) [81] 构建超长 SID，结合并行解码提高推理效率。
  - RecGPT [60]： 集成有限标量量化 (Finite Scalar Quantization, FSQ) [79] 和混合注意力机制。
- 跨域 SID 构建：
  - GMC [98]： 采用对比学习 (contrastive learning) 增强同一领域内物品表示的一致性。
  - RecBase [94]： 采用课程学习 (curriculum learning) 从粗到精地增强跨域表示能力。

4.1.3.2. 语义 ID 的挑战 (Challenges for Semantic ID)

SID 冲突 (SID Collision)： 多个不同物品映射到相同的 SID 序列，导致物品落地时的歧义。
- 原因： 量化方法固有限制，如 RQ-VAE 中学习到的聚类中心分布不均或崩溃。
- 缓解策略：
  - 训练时去冲突： SaviorRec [100] 引入 Sinkhorn 算法 [101] 和熵正则化损失 (entropy-regularized loss) 促使更均匀的分配。OneRec [32] 和 LETTER [37] 使用约束 k-means 限制每个聚类中心的物品数量。
  - 额外词元： TIGER [29] 在 SID 末尾添加随机词元，CAR [99] 添加物品稀疏 ID。
  - 分层编码： OneSearch [63] 使用 ResKmeans 编码共享特征，使用优化乘积量化 (optimized product quantization, OPQ) 编码独特特征。
目标不一致 (Objective Inconsistency)： embedding 提取、SID 量化和生成模型训练三阶段之间的目标不一致。
- 缓解策略：
  - LMIndexer [102]： 自监督 SID 训练框架，LLM 直接编码物品文本为 SID，并用于重建原始文本进行监督。
  - URI [103]： 单一模型同时作为索引器和检索器，通过 EM 算法训练。
  - ETEGRec [104]： 端到端联合优化框架，通过序列-物品对齐和偏好-语义对齐损失。
  - MMQ [105]： 行为感知微调 (behavior-aware fine-tuning)，通过软索引机制将物品表示为码本向量的加权组合，实现连续梯度传播。
多模态集成 (Multi-modal Integration)： 如何在分词过程中精确建模多模态信息。
- 嵌入提取阶段融合： QARM [106]、OneRec [15,32,33] 微调预训练多模态模型。UNGER [84] 在多模态 embedding 和协同 embedding 之间进行对比对齐。OneLoc [85] 整合地理信息。
- SID 量化阶段融合：
  - 独立量化：EAGER [83]、MME-SID [108]、LETTER [37]。
  - 增强一致性：MME-SID [108]、LETTER [37] 采用对比学习强化模态间对齐。MMQ [105] 设计多模态共享-特定分词器，结合 MoE (Mixture-of-Experts) 架构，维护模态特定码本和共享码本。BBQRec [109] 提出行为对齐多模态量化方法。
  - 分配不同位置：TALKPLAY [110] 通过 K-means 聚类将每种模态编码为单独位置。EAGER-LLM [111] 将前两层码本用于多模态信息，后两层用于协同信号。
可解释性和推理 (Interpretability and Reasoning)： SID 缺乏 LLM 的可解释性和推理能力。
- PLUM [112]： 采用 SID 到标题、SID 到主题等预训练任务，使 LLM 获得 SID 词元与自然语言描述之间的语义对应关系。
- OneRec-Think [34]： 统一对话理解、思维链推理 (chain-of-thought reasoning) 和个性化推荐，设计基于检索的推理范式。

4.2. 模型架构 (Model Architecture)

生成式架构通过序列词元组织和自回归 (auto-regressive) 结构，统一架构，提高计算规律性，显著改善硬件 MFU。

4.2.1. 编码器-解码器架构 (Encoder-Decoder Architecture)

原理： 平衡用户偏好理解和下一物品生成。编码器处理输入序列（如用户历史行为），解码器根据编码器输出自回归生成物品序列。
早期探索： 直接迁移预训练的编码器-解码器语言模型。
- P5 [28]： 基于 T5 [116] 架构，通过特定提示统一五种推荐任务。
- M6-Rec [69]： 基于 M6 模型 [117]，将用户-物品交互序列化为文本，生成下一个推荐物品的文本描述。
- RecSysLLM [74]： 将用户行为和物品属性组织为文本输入，使用多任务掩码词元预测进行推荐。
- 挑战： 通用 LLM 缺乏推荐领域的协同信号，语言建模目标与推荐目标不一致，推理开销大。
定制化设计： 针对推荐任务设计专门的编码器-解码器架构。
- TIGER [29]： 率先将生成式召回应用于推荐，采用标准 Transformer 编码器-解码器 (T5) 结构，将推荐形式化为“语义 ID 序列生成”问题。
- OneRec [32]： 构建端到端生成架构。编码器通过统一的 Transformer 网络捕捉不同尺度的用户交互模式（静态、短期、正反馈、终身路径）。解码器处理用户序列： $\begin{array} { r l } & { \mathbf { x } _ { m } ^ { ( i + 1 ) } = \mathbf { x } _ { m } ^ { ( i ) } + \mathrm { CausalSelfAttn } ( \mathbf { x } _ { m } ^ { ( i ) } ) , } \\ & { \mathbf { x } _ { m } ^ { ( i + 1 ) } = \mathbf { x } _ { m } ^ { ( i + 1 ) } + \mathrm { CrossAttn } ( \mathbf { x } _ { m } ^ { ( i + 1 ) } , \mathbf { Z } _ { \mathrm { enc } } , \mathbf { Z } _ { \mathrm { enc } } ) , } \\ & { \mathbf { x } _ { m } ^ { ( i + 1 ) } = \mathbf { x } _ { m } ^ { ( i + 1 ) } + \mathrm { MoE } ( \mathrm { RMSNorm } ( \mathbf { x } _ { m } ^ { ( i + 1 ) } ) ) . } \end{array}$ 符号解释：
  - $\mathbf{x}_m^{(i)}$ ：解码器第 $i$ 层的输入序列表示。
  - $\mathrm{CausalSelfAttn}(\cdot)$ ：因果自注意力层，用于处理解码器内部序列。
  - $\mathrm{CrossAttn}(\mathbf{Q}, \mathbf{K}, \mathbf{V})$ ：交叉注意力层，其中 $\mathbf{Q}$ 来自解码器， $\mathbf{K}$ 和 $\mathbf{V}$ 来自编码器输出。
  - $\mathbf{Z}_{\mathrm{enc}}$ ：编码器层的编码信息。
  - $\mathrm{RMSNorm}(\cdot)$ ：RMS 归一化层。
  - $\mathrm{MoE}(\cdot)$ ：专家混合层，用于增强模型容量和计算效率。
- 场景特定优化：
  - OneSug [119]： 针对电商查询自动补全，专用编码器建模历史交互，专用解码器生成查询。
  - OneSearch [63]： 针对搜索场景，引入多视图行为序列注入捕捉用户偏好，生成 SID 序列。
  - OneLoc [85]： 针对本地生活服务，编码器引入地理位置感知自注意力模块，解码器设计邻域感知注意力。
  - EGA-V2 [107]： 针对广告场景，编码用户交互序列，通过两个依赖解码器自回归生成 POI 词元和创意词元序列。

4.2.2. 仅解码器架构 (Decoder-Only Architecture)

原理： 传统编码器-解码器架构中，编码器资源占用过多。仅解码器架构通过自回归方式，根据已生成的序列预测下一个词元，更高效且可扩展。
直接使用预训练 LLM 作为骨干：
- GenRec [122]、BIGRec [72]、Rec-R1 [123]、GPT4Rec [59]、RecFound [124]、Llama4Rec [125]： 通过提示工程 (prompting) 和 SFT 任务，利用 LLM 的自然语言理解和生成能力生成目标物品的文本描述，然后通过“物品落地 (item grounding)”映射回具体物品。
- 优势： 继承模型架构和词汇表，复用开源 LLM，部署开销低。
- 挑战： 生成文本与离散物品空间之间存在语义鸿沟。
引入语义 ID 到生成流水线：
- MME-SID [108]、EAGER-LLM [111]、RecGPT [61]、SpaceTime-GR [126]、TALKPLAY [110]、GNPR-SID [86]： 直接建模和生成物品的语义 ID。
- OneRec-Think [34]： 统一对话理解、思维链推理和个性化推荐。
从零构建专用架构：
- RecGPT [60]、FORGE [127]： 采用纯仅解码器架构，在预训练的 SID 标识符上进行自回归训练，直接生成下一物品。
- SynerGen [128]： 统一搜索和推荐任务，引入任务特定掩码矩阵，控制异构词元间的信息流。
- COBRA [89]： 将 SID 与密集 embedding 在解码器中融合，联合预测下一物品的稀疏 SID 及其密集向量表示。
- RPG [129]： 基于并行 SID 编码提出多词元预测机制，结合图解码策略提高解码效率。
- CAR [99]： 将 SID 分组为概念块，设计支持并行块式预测的自回归 Transformer 解码器，避免逐词元自回归的延迟累积。
- OneRec-V2 [33]： 引入 Lazy Decoder 结构优化计算效率。通过上下文处理器整合异构、多模态用户行为信号。为提高参数和计算效率，省略了注意力计算中的标准键 (key) 和值 (value) 投影操作。多个 Lazy Decoder 块共享上下文处理器生成的键值对，并采用分组查询注意力 (grouped query attention) 进一步降低计算开销。
- HSTU [35]： 将推荐框架化为行为时间序列上的结构化序列预测，强调意图建模而非逐词元生成。HSTU 架构由通过残差连接堆叠的层组成： ${ \mathbf { u } } ^ { ( i ) } , { \mathbf { v } } ^ { ( i ) } , { \mathbf { q } } ^ { ( i ) } , { \mathbf { k } } ^ { ( i ) } = \mathrm { Split } \big ( \mathrm { SiLU } ( f _ { 1 } ( { \mathbf { x } } ^ { ( i ) } ) ) \big ) ,$ \begin{array} { r } { \mathbf { \boldsymbol { x } } ^ { ( i + 1 ) } = f _ { 2 } \big ( \mathrm { Norm } ( \mathrm { SiLU } \left( \mathbf { q } ^ { ( i ) } ^ { T } \mathbf { k } ^ { ( i ) } + \mathbf { r a b } ^ { p , t } \right) \mathbf { v } ^ { ( i ) } \big ) \odot \mathbf { u } ^ { ( i ) } \big ) . } \end{array} 符号解释：
  - $\mathbf{x}^{(i)}$ ：第 $i$ 层的输入。
  - $f_1(\cdot)$ ， $f_2(\cdot)$ ：前馈网络 (feed-forward networks)。
  - $\mathrm{SiLU}(\cdot)$ ：SiLU 激活函数。
  - $\mathrm{Split}(\cdot)$ ：将输出分割成多个部分，这里是查询 $q$ 、键 $k$ 、值 $v$ 和门控单元 $u$ 。
  - $\mathbf{u}^{(i)}, \mathbf{v}^{(i)}, \mathbf{q}^{(i)}, \mathbf{k}^{(i)}$ ：第 $i$ 层输出的门控单元、值、查询和键。
  - $\mathrm{Norm}(\cdot)$ ：归一化操作。
  - $\mathbf{q}^{(i)^T} \mathbf{k}^{(i)}$ ：查询和键的点积，表示注意力得分。
  - $\mathbf{rab}^{p,t}$ ：相对位置 embedding，编码位置和时间信息。
  - $\odot$ ：元素级乘法。
  - 创新点： HSTU 用逐点聚合注意力 (pointwise aggregated attention) 替代了传统的 softmax，以保留偏好强度信号，更适合物品词汇表非静态的流式场景。
- MTGR [65]： 为排序任务设计专用注意力模式：对静态信息使用全注意力，对实时行为使用动态自回归掩码，对候选物品施加对角掩码防止信息泄露。
- INTSR [130]： 引入会话级掩码策略，并引入 Query-Driven Block 统一查询无关推荐和基于查询的搜索任务。
- LiGR [131]： 针对重排序场景，提出会话内集合式注意力机制。

4.2.3. 基于扩散的架构 (Diffusion-Based Architecture)

原理： 通过并行迭代去噪 (denoising) 生成目标序列，支持所有词元的双向注意力，打破因果依赖，并灵活控制生成步骤。
Diff4Rec [115]： 使用 VAE 将离散交互映射到潜在向量，通过课程调度 (curriculum scheduling) 的扩散过程生成语义一致的增强数据。
CaDiRec [132]： 通过上下文感知加权 (context-aware weighting) 和基于 Transformer 的 UNet 增强时间依赖性。
RecDiff [133]： 结合 GCN 和潜在空间扩散，优化用户表示。
DDRM [134]： 通过 MLP 直接对连续 embedding 进行去噪。
多模态场景：
- DiffCL [135]、DimeRec [136]： 将扩散作为特征增强器。DiffCL 从 GCN 聚合特征中生成硬正样本进行对比对齐。DimeRec 基于多兴趣向量进行联合优化。
离散扩散：
- DiffGRM [137]： 率先采用离散扩散 (discrete diffusion) 进行语义 ID 生成。

4.3. 优化策略 (Optimization Strategy)

生成式推荐模型的优化策略正从单一行为模仿向多维度偏好对齐演进。

4.3.1. 监督学习 (Supervised Learning)

NTP 建模 (Next-Token Prediction Modeling)： 生成式推荐的主要监督训练目标，通过自回归预测下一物品。
- TIGER [29]、OneRec [15,60]： 将生成式范式引入召回阶段，以序列到序列 (sequence-to-sequence) 方式训练编码器-解码器，目标如公式 (2) 所示： $p _ { \theta } ( i _ { 1 : T } \mid u , c ) = \prod _ { t = 1 } ^ { T } p _ { \theta } ( i _ { t } \mid i _ { < t } , u , c ) \quad i \in \mathcal { T }$ 符号解释：
  - $p_{\theta}(i_{1:T} | u, c)$ ：在给定用户 $u$ 和上下文 $c$ 的情况下，物品序列 $i_{1:T}$ 的生成概率。
  - $i_{1:T} = (i_1, \dots, i_T)$ ：用户交互的物品序列。
  - $t$ ：时间步。
  - $i_t$ ：用户在时间步 $t$ 交互的物品。
  - $i_{<t} = (i_1, \dots, i_{t-1})$ ：时间步 $t$ 之前的历史交互序列。
  - $\theta$ ：模型参数。
  - $\mathcal{T}$ ：所有物品的集合。该目标通过最大化条件概率来学习用户行为序列的生成分布。
- LETTER [37]： 修改 NTP 损失为排序引导生成损失，通过调整温度 (temperature) 强调对难负样本 (hard-negative samples) 的惩罚。
- COBRA [89]： 设计复合损失函数，结合稀疏 ID 预测和密集向量预测的损失。
- REG4Rec [139]： 添加辅助类别预测任务。
- UNGER [84]： 引入模态内知识蒸馏 (intra-modality knowledge distillation) 任务，通过对比学习传递分词步骤的物品知识。
- LLM 参数继承： GPT4Rec [59]、LC-Rec [82]、RecFound [124]、EAGER-LLM [111] 通过 SFT 或参数高效微调 (Parameter-Efficient Tuning, PET) 适应 LLM。
NCE 建模 (Noise Contrastive Estimation Modeling)： 针对稀疏 ID 词汇量过大的问题，采用 NCE 风格优化近似 softmax。
- HSTU [35]、GenRank [62]： 使用采样 softmax (sampled softmax) 近似全 softmax，将真实下一词元作为正样本，从物品目录中采样负样本。
- PinRec [66]： 采用高效多词元目标，在时间窗内预测多个词元。
- IntSR [130]： 利用 InfoNCE 优化目标和硬负样本采样策略。
- SessionRec [140]： 会话级训练，通过下一会话预测和排序任务增强模型区分硬负样本的能力。
- MTGR [65]： 采用类似判别式模型的优化策略，保留用户-物品交叉特征，用判别式损失优化。
局限性： 监督训练仅能从观察到的行为中学习，无法完全对齐用户多维度偏好或优化平台级目标。

4.3.2. 偏好对齐 (Preference Alignment)

原理： 引入强化学习 (RL) 技术，优化累积奖励 (cumulative reward)，以对齐用户隐式多维度偏好和平台级目标（如留存、终身价值、多样性、公平性）。
DPO 建模 (Direct Preference Optimization Modeling)： 通过成对偏好数据直接优化模型，鼓励模型输出更接近被选择样本的结果。
- S-DPO [38]： 扩展标准 DPO，在一步中配对一个正样本和多个负样本。
- RosePO [146]： 通过选择性拒绝采样，强调有助于提高有用性和无害性的负样本。
- SPRec [147]： 引入自演化机制，从模型先前的预测中动态选择硬负样本。
- 多维度偏好构建： OneLoc [85]、OneSearch [63]、OneSug [119] 结合启发式规则和预测模型，设计反馈感知加权以改进偏好构建。
GRPO 建模 (Group Relative Policy Optimization Modeling)： 将偏好优化从成对扩展到群组，为每个候选分配显式奖励信号，更新策略以将概率质量转移到高奖励候选。
- 混合奖励系统： 集成多种反馈来源。
  - 规则基础奖励： VRAgent-R1 [148] 在生成输出符合预期格式时提供正奖励。STREAM-Rec [91] 引入分级行为奖励。
  - 模型基础奖励： Rec-R1 [123]、RecLLM-R1 [138] 结合后验排序指标（如 NDCG、最长公共子序列 LCS）评估候选组质量。
  - 混合规则和预测模型： OneRec [15] 集成点式 P-Score 模型（预测用户偏好）和规则基础组件（格式符合性、生态系统相关性）。采用 Early Clipped Policy Optimization (ECPO) 稳定优化。
- 融入显式推理：
  - OneRec-Think [34]： 引入思维链推理 (chain-of-thought reasoning) 和多路径奖励优化。
  - REG4Rec [139]： 通过生成多个语义词元扩展推理空间，并通过自反思剪枝不一致路径。
  - RecZero [64]： 采用“先思考后推荐 (Think-before-Recommendation)” RL 范式，利用结构化推理模板和规则基础奖励。

4.4. 总结

本综述的方法论框架清晰地展示了生成式推荐在三个核心维度的演变和当前研究现状。

分词从缺乏语义的稀疏 ID，到效率低下但富含语义的文本 ID，最终收敛到平衡语义和效率的 SID。SID 的挑战主要在于冲突、目标不一致和多模态集成，研究者正通过各种量化技术和联合优化来解决。
架构从直接复用 LLM 的编码器-解码器，到更具可扩展性和效率的仅解码器架构，以及新兴的扩散模型。仅解码器架构因其在 LLM 领域的成功和优秀的扩展性，正成为主导趋势。任务特定的细化和效率优化是当前研究重点。
优化从单一的监督式 NTP 预测，发展到融合 NCE 技巧处理大词汇量，并最终转向基于 RL 的偏好对齐，以解决多维度目标优化问题。DPO 和 GRPO 是两大主流范式，奖励信号的构建从简单行为模仿到复杂的多维度平衡。

5. 实验设置

本综述并非一篇原创研究论文，因此不涉及具体的实验设置。它总结了生成式推荐领域内现有研究的实验设置特点。

5.1. 数据集

生成式推荐模型通常在大规模用户交互数据集上进行训练和评估。这些数据集的特点包括：

领域多样性： 涵盖电商 [1]、流媒体 [2]、音乐 [3]、社交网络 [4] 等多个领域。
规模庞大： 包含数十亿用户和数千万甚至上亿的物品。
数据形态：
- 用户-物品交互序列： 用户的点击、购买、浏览等行为构成的时序序列，是生成式推荐模型的核心训练数据。
- 物品属性信息： 文本描述（标题、简介）、图像、类别、品牌等，用于提取语义 embedding 或构建文本 ID。
- 用户画像： 静态特征（年龄、性别）和动态特征（历史兴趣），用于丰富用户表示。
- 上下文信息： 时间、地点、设备等，用于个性化建模。

具体数据集示例（根据文中提及的研究推断）：

电商数据集： 针对 OneSug [119]、OneSearch [63] 等电商场景模型。
本地生活服务数据集： 针对 OneLoc [85] 等 POI (Point of Interest) 推荐模型。
广告数据集： 针对 EGA-V2 [107] 等广告推荐模型。
通用公开数据集： 虽然综述未明确列出，但许多推荐研究会使用如 Amazon、Yelp、MovieLens 等经典数据集。

5.2. 评估指标

生成式推荐系统的评估指标需要衡量模型生成物品的相关性、准确性，以及在多维度目标下的表现。

5.2.1. 召回 (Retrieval) 阶段指标

召回率 (Recall@K)
1. 概念定义： 衡量模型在召回阶段返回的 $K$ 个物品中，有多少是用户实际交互过的相关物品。它关注的是模型“找全”相关物品的能力。
2. 数学公式： $\mathrm{Recall@K} = \frac{\sum_{u \in U} \text{Number of relevant items in top-K recommendations for user } u}{\sum_{u \in U} \text{Total number of relevant items for user } u}$
3. 符号解释：
  - $U$ : 所有用户的集合。
  - $\text{Number of relevant items in top-K recommendations for user } u$ : 对于用户 $u$ ，在模型召回的 $K$ 个物品中，实际相关的物品数量。
  - $\text{Total number of relevant items for user } u$ : 对于用户 $u$ ，所有实际相关的物品数量。
精确率 (Precision@K)
1. 概念定义： 衡量模型在召回阶段返回的 $K$ 个物品中，有多少是真正相关的。它关注的是模型“找准”相关物品的能力。
2. 数学公式： $\mathrm{Precision@K} = \frac{\sum_{u \in U} \text{Number of relevant items in top-K recommendations for user } u}{\sum_{u \in U} K}$
3. 符号解释：
  - $U$ : 所有用户的集合。
  - $\text{Number of relevant items in top-K recommendations for user } u$ : 对于用户 $u$ ，在模型召回的 $K$ 个物品中，实际相关的物品数量。
  - $K$ : 召回的物品数量。
命中率 (Hit Rate@K)
1. 概念定义： 衡量用户实际交互的物品是否出现在模型召回的 $K$ 个物品列表中。只要有一个相关物品命中，则计为一次命中。
2. 数学公式： $\mathrm{HitRate@K} = \frac{|\{u \in U \mid \text{at least one relevant item in top-K for user } u\}|}{|U|}$
3. 符号解释：
  - $U$ : 所有用户的集合。
  - $|\cdot|$ : 集合的基数（元素数量）。
  - $\text{at least one relevant item in top-K for user } u$ : 对于用户 $u$ ，在模型召回的 $K$ 个物品中至少有一个相关物品。

5.2.2. 排序 (Ranking) 阶段指标

归一化折扣累积增益 (Normalized Discounted Cumulative Gain, NDCG@K)
1. 概念定义： 衡量排序结果的质量，考虑了相关性得分的高低和物品在列表中的位置。高相关性物品出现在列表顶部会获得更高的分数。
2. 数学公式： $\mathrm{DCG@K} = \sum_{i=1}^{K} \frac{2^{\mathrm{rel}_i} - 1}{\log_2(i+1)}$ $\mathrm{NDCG@K} = \frac{\mathrm{DCG@K}}{\mathrm{IDCG@K}}$ 其中，IDCG@K 是理想排序下的 DCG@K 值。
3. 符号解释：
  - $\mathrm{rel}_i$ : 排名第 $i$ 个物品的相关性得分。
  - $\mathrm{DCG@K}$ : 折扣累积增益，考虑物品相关性和位置。
  - $\mathrm{IDCG@K}$ : 理想折扣累积增益，即完美排序下的 DCG@K 值。
平均排名倒数 (Mean Reciprocal Rank, MRR@K)
1. 概念定义： 用于评估搜索或推荐列表中第一个相关物品的位置。如果第一个相关物品在位置 $r$ ，则其倒数排名是 $1/r$ 。MRR 是所有查询的平均倒数排名。
2. 数学公式： $\mathrm{MRR@K} = \frac{1}{|Q|} \sum_{q \in Q} \frac{1}{\mathrm{rank}_q}$
3. 符号解释：
  - $Q$ : 所有查询或用户的集合。
  - $\mathrm{rank}_q$ : 对于查询 $q$ ，第一个相关物品在推荐列表中的排名。

5.2.3. 其他多维度目标指标

多样性 (Diversity)： 衡量推荐列表中物品之间的差异性。
新颖性 (Novelty)： 衡量推荐物品的流行度，鼓励推荐用户可能不知道但仍会喜欢的物品。
公平性 (Fairness)： 确保推荐结果对不同用户群体或物品类型没有偏见。
商业指标： 如总交易额 (Gross Merchandise Volume, GMV)、用户留存率 (Retention Rate)、转化率 (Conversion Rate, CVR)、点击率 (Click-Through Rate, CTR) 等。

5.3. 对比基线 (Baselines)

本综述中提到的生成式推荐模型通常与以下类型的基线模型进行比较：

传统的判别式推荐模型：
- ML-based 模型： 如协同过滤 (User-CF, Item-CF)、矩阵分解 (Matrix Factorization)。
- DL-based 模型： 如 DeepFM [7]、DCN [8]、DIN [52] 等，这些模型通常采用“Embedding & MLP”范式。
- 多阶段级联系统： 尤其是在端到端 (end-to-end) 性能比较时，生成式模型会与由召回、排序、重排序等多个判别式模型组成的完整级联系统进行对比，以验证其在缓解误差传播和提高效率方面的优势。
LLM 增强的判别式推荐模型： 那些利用 LLM 语义增强、数据增强或对齐增强但仍采用判别式框架的模型。
早期生成式推荐模型： 较早提出的生成式推荐模型，如基于文本的生成模型或早期的 SID 模型，作为后续改进模型的基线。

6. 实验结果与分析

本综述并未展示具体的实验结果数据，而是总结了生成式推荐领域整体的进展和趋势。

6.1. 核心结果分析

根据综述的描述，生成式推荐模型在多个方面展现出相对于传统判别式模型的显著优势：

缓解级联错误传播： 通过统一的端到端架构，生成式模型避免了多阶段级联系统固有的误差累积，从而提高了整体推荐质量。例如 OneRec [32]、OneSug [119]、ETEGRec [104] 等模型在性能上显著优于传统级联方法。
提高硬件利用率 (MFU)： 统一的 Transformer 骨干和序列化处理使得生成式模型能够更高效地利用硬件计算资源。OneRec [15] 报告的训练 MFU 达到 23.7%，推理 MFU 达到 28.8%，远高于传统级联系统（分别为 4.6% 和 11.2%）。
模型可扩展性： 尤其是在仅解码器 (decoder-only) 架构中，生成式模型展现出清晰的扩展规律 (scaling laws) [33,35]，即增加模型规模能带来可预测的性能提升。这使得模型能够处理更复杂的推荐场景。
解决冷启动和跨域问题： 语义 ID 和 LLM 的世界知识使得生成式模型能够更好地处理缺乏交互历史的冷启动物品，并实现跨域知识迁移。
多维度偏好优化： 结合强化学习的偏好对齐策略，使得模型能够超越简单的用户行为预测，优化更复杂的平台级目标和长期用户价值。
统一召回和排序： 将推荐任务视为序列生成问题，使得召回和排序能够在一个统一的模型中完成，简化了系统复杂性，例如 TIGER [29] 在生成式召回中的应用。

6.2. 数据呈现 (表格)

以下是原文 Table 1 对不同分词器 (tokenizers) 的比较：

	Universality	Semantics	Vocabulary	Item Grounding
Sparse ID	X	×	Large	✓
Text	✓	✓	Moderate	×
Semantic ID	×	✓	Moderate	✓

分析：

稀疏 ID (Sparse ID)： 在通用性 (Universality) 和语义性 (Semantics) 上表现不佳，词汇量 (Vocabulary) 大，但物品落地 (Item Grounding) 能力强。这反映了其缺乏语义信息但能精确指向具体物品的特点。
文本 (Text)： 在通用性 (Universality) 和语义性 (Semantics) 上表现出色，词汇量适中 (Moderate)，但物品落地 (Item Grounding) 能力差。这说明 LLM 能够理解和生成语义，但生成的文本可能不唯一对应一个实际物品。
语义 ID (Semantic ID)： 在通用性 (Universality) 上表现不佳，但在语义性 (Semantics) 上表现出色，词汇量适中 (Moderate)，物品落地 (Item Grounding) 能力强。这表明 SID 结合了稀疏 ID 的精确落地和文本 ID 的语义表达能力，但可能在跨领域或新物品的通用性上有所欠缺。

6.3. 消融实验/参数分析

本综述未直接提供具体的消融实验或参数分析结果，但其对不同组件的讨论隐含了对这些分析的总结。

分词器选择： 综述详细比较了稀疏 ID、文本 ID 和语义 ID 的优缺点，这本身就是一种对不同“分词组件”的分析。语义 ID 逐渐成为主流，表明其在平衡词汇紧凑性、语义表达和物品落地方面的优势得到了实践验证。
架构选择： 编码器-解码器、仅解码器和扩散模型各有侧重。仅解码器架构在模型规模扩展和 MFU 方面的优势，以及针对推荐任务进行定制化设计（如 OneRec-V2 的 Lazy Decoder），都体现了对架构组件有效性的探索。
优化策略： 从 NTP 到 NCE，再到 RL 偏好对齐，每一步都是对优化目标和方法的“消融”。例如，引入 RL 对齐多维度目标，就是为了解决单纯监督学习的局限性。

7. 总结与思考

7.1. 结论总结

本综述全面分析了生成式推荐 (Generative Recommendation) 这一新兴范式，从分词 (Tokenization)、架构 (Architecture) 和优化 (Optimization) 三个解耦的视角，揭示了其从传统判别式推荐 (Discriminative Recommendation) 演变而来的过程、核心技术和发展趋势。生成式推荐通过直接生成物品标识符，有效缓解了传统多阶段级联系统中的错误传播和效率低下问题，并展现出更高的硬件利用率 (MFU) 和模型扩展潜力。

在分词方面，研究从语义缺失的稀疏 ID 和效率不足的文本 ID 发展到平衡二者优点的语义 ID (SID)。语义 ID 的构建涉及 embedding 提取和量化过程，但仍面临 SID 冲突、目标不一致和多模态集成等挑战，研究者正通过创新量化方法和联合优化框架来克服这些问题。

在架构方面，编码器-解码器和仅解码器模型是主流，其中仅解码器架构因其在 LLM 领域的成功和优越的扩展性而日益占据主导地位。基于扩散的模型也作为一种新的并行生成机制被探索。这些架构通过任务特定的设计和效率优化，不断提升推荐性能。

在优化策略方面，模型从基于用户行为的监督式下一个词元预测 (NTP) 发展到结合强化学习的偏好对齐 (Preference Alignment)，以实现多维度偏好优化，更好地平衡用户和平台目标。DPO 和 GRPO 是偏好对齐的两大主流范式。

本综述还探讨了生成式推荐在召回、排序、端到端系统以及冷启动、跨域、搜索和自动竞价等多种实际应用场景中的潜力。

7.2. 局限性与未来工作

作者指出了生成式推荐领域当前的局限性，并提出了以下未来研究方向：

端到端建模 (End-to-End Modeling)：
- 模型扩展： 如何在保持可接受推理延迟的同时，将模型规模进一步扩展到 LLM 级别（数十亿甚至数万亿参数）。
- 统一奖励设计： 开发统一的奖励智能体 (Reward Agent)，利用 LLM 的偏好理解和角色扮演能力，自动平衡用户和平台的多维度偏好，并提供列表级 (list-wise) 奖励信号。
效率 (Efficiency)：
- 算法-系统协同设计： 缺乏针对大规模流式训练 (streaming training) 和低延迟、高吞吐量推理场景的集成算法-系统协同设计框架。
- 超长行为建模： 解决注意力机制计算复杂度带来的效率瓶颈，探索更高效的序列建模范式（如记忆增强结构、RAG 增强训练范式）。
推理 (Reasoning)：
- 推理链构建： 缺乏大规模生成个性化推荐思维链 (chain-of-thought) 的方法论。
- 自适应推理： 在严格延迟约束下，模型如何根据查询难度学习自适应推理策略，防止过度思考。
- 自演化推荐器： 开发能够持续反思决策、修正推理策略并从在线反馈中改进的自演化生成式推荐器。
数据优化 (Data Optimization)：
- 训练数据偏差： 解决历史用户交互数据中固有的曝光偏差 (exposure bias)、位置偏差 (position bias) 等问题。
- 高质量数据构建： 构建推理导向的思维链数据、用户和平台多方面偏好数据以及显式意图级标注数据。
交互式智能体 (Interactive Agent)：
- 个性化对话推荐： 提供符合用户偏好和风格的对话推荐和解释。
- 用户中心记忆机制： 设计用于对话推荐场景的用户中心记忆机制，增强模型对用户的多方面理解和个性化能力。
从推荐到生成 (From Recommendation to Generation)：
- 生成式内容： 从推荐现有内容转向主动生成（如视频、音频、广告材料）符合用户兴趣的新内容。
- 稀疏反馈与成本效益： 解决生成内容强个性化导致的稀疏反馈问题，并权衡生成成本与潜在价值。

7.3. 个人启发与批判

7.3.1. 个人启发

这篇综述为理解生成式推荐提供了一个非常清晰和全面的框架。对我而言，主要的启发在于：

系统性思维： “三解耦”的视角（分词、架构、优化）提供了一种强大的分析工具，不仅适用于生成式推荐，也可以推广到其他复杂的 AI 系统。它强调了系统各个模块之间的相互依赖和协同作用。
范式转变的必然性： 论文深刻揭示了判别式推荐的固有局限性，使得生成式范式不仅仅是“酷炫的新技术”，而是解决现有系统根本性痛点（如效率、错误传播、扩展性）的必然选择。
工程与学术的结合： 论文中大量提及了工业界的部署经验和“One-series”模型，这表明生成式推荐的发展是学术创新与工业实践紧密结合的产物。在 MFU 等指标上的突破，更是对工程优化的高度重视。
LLM 浪潮的深远影响： LLM 的成功不仅仅在于其语言能力，更在于其统一架构、高 MFU 和可扩展性所带来的启示，这些特点正深刻地影响着推荐系统乃至更广泛的 AI 领域的设计理念。
数据与对齐的挑战： 即使有了强大的生成模型，数据偏差和多维度目标对齐仍然是核心挑战。这提醒研究者，模型能力再强，也离不开高质量数据和精准的优化目标。

7.3.2. 批判

尽管本综述提供了一个出色的概览，但我认为有以下几点可以进一步思考或批判：

“三解耦”的完全性：尽管分词、架构和优化是核心，但生成式推荐系统可能还涉及其他重要方面，例如评估方法 (Evaluation Methodology)。生成式推荐的评估可能比判别式推荐更复杂，它不仅需要考虑准确性，还需要考虑生成内容的流畅性、多样性、新颖性和可控性等，这些在“优化”部分有所提及，但独立作为一个维度的深入探讨可能会更有价值。
SID 的通用性限制： 综述在 Table 1 中将 SID 的通用性标记为“×”，并指出它缺乏可解释性，这与 LLM 主导的文本 ID 存在明显差异。尽管 PLUM 和 OneRec-Think 等工作尝试弥补，但 SID 在跨领域或处理全新、未见过的物品时，如何快速构建高质量 SID 并保持语义一致性，仍是一个值得深究的问题。其“非普适性”的本质限制了其作为“基础模型” tokenization 的广度。
部署与成本的细节： 论文强调了 MFU 的提升，但在实际工业部署中，除了 MFU，推理延迟 (inference latency)、内存占用 (memory footprint)、在线更新能力 (online updateability) 以及计算成本 (computational cost) 也是关键考量。特别是对于几十亿甚至上百亿参数的模型，即便 MFU 高，绝对资源消耗也可能非常大。综述提到了 KV-cache、Lazy Decoder 等技术，但可以更深入地探讨在超大规模部署中，如何平衡性能与经济成本的实际策略和挑战。
长尾和冷启动问题的深层解决： 尽管生成式推荐在缓解长尾和冷启动方面有优势，但这些问题的根源在于数据稀疏性。生成模型是否真正“解决了”这些问题，还是仅仅“缓解了”它们，以及在缓解过程中引入了哪些新的挑战（例如，生成幻觉 (hallucinations) 或不符合事实的物品描述），这些可以进一步讨论。
伦理和社会影响： 任何强大的推荐系统都伴随着伦理和社会风险，例如过滤气泡 (filter bubbles)、回音室效应 (echo chambers)、推荐偏见 (recommendation bias) 以及对用户意图的过度操纵。生成式模型由于其强大的生成能力，可能加剧这些问题，例如生成高度个性化但缺乏多样性的内容，或在不知不觉中引导用户行为。综述在“未来方向”中提到了数据偏差和公平性，但可以更全面地探讨这些风险，以及生成式推荐如何主动设计来减轻这些负面影响。

A Survey of Generative Recommendation from a Tri-Decoupled Perspective: Tokenization, Architecture, and Optimization

TL;DR 精炼摘要

摘要

思维导图

论文精读

中文精读约 37 分钟读完 · 22,908 字