论文状态：已完成

Generative Recommender with End-to-End Learnable Item Tokenization

发表：2024/09/09

原文链接 PDF 下载

价格：0.100000

已有 7 人读过

本分析由 AI 生成，可能不完全准确，请以原文为准。

TL;DR 精炼摘要

本文提出ETEGRec，一种将物品令牌化与生成式推荐端到端联合训练的框架。基于双编码器-解码器结构，通过序列-物品与偏好-语义对齐策略，促进两者协同优化，采用交替优化技术保证训练稳定，大幅提升生成式推荐性能。

摘要

Generative recommendation systems have gained increasing attention as an innovative approach that directly generates item identifiers for recommendation tasks. Despite their potential, a major challenge is the effective construction of item identifiers that align well with recommender systems. Current approaches often treat item tokenization and generative recommendation training as separate processes, which can lead to suboptimal performance. To overcome this issue, we introduce ETEGRec, a novel End-To-End Generative Recommender that unifies item tokenization and generative recommendation into a cohesive framework. Built on a dual encoder-decoder architecture, ETEGRec consists of an item tokenizer and a generative recommender. To enable synergistic interaction between these components, we propose a recommendation-oriented alignment strategy, which includes two key optimization objectives: sequence-item alignment and preference-semantic alignment. These objectives tightly couple the learning processes of the item tokenizer and the generative recommender, fostering mutual enhancement. Additionally, we develop an alternating optimization technique to ensure stable and efficient end-to-end training of the entire framework. Extensive experiments demonstrate the superior performance of our approach compared to traditional sequential recommendation models and existing generative recommendation baselines. Our code is available at https://github.com/RUCAIBox/ETEGRec.

思维导图

论文精读

中文精读约 38 分钟读完 · 25,203 字

1. 论文基本信息

1.1. 标题

生成式推荐系统，带有端到端可学习的物品令牌化 (Generative Recommender with End-to-End Learnable Item Tokenization)

1.2. 作者

Enze Liu*、Bowen Zheng* (共享第一作者)，Cheng Ling，Lantao Hu，Han Li，Wayne Xin Zhao (通讯作者)。 *表示共享第一作者。隶属机构：

中国人民大学高瓴人工智能学院 (Gaoling School of Artificial Intelligence, Renmin University of China)，北京，中国。
快手科技 (Kuaishou Technology)，北京，中国。

1.3. 发表期刊/会议

SIGIR '25 (第48届国际ACM信息检索研究与发展大会，2025年7月13-18日，意大利帕多瓦)。SIGIR 是信息检索领域的顶级国际会议，享有盛誉，影响力巨大。

1.4. 发表年份

2025年。

1.5. 摘要

生成式推荐系统 (Generative Recommender Systems) 作为一种直接生成物品标识符 (item identifiers) 的创新方法，受到了越来越多的关注。尽管其潜力巨大，但一个主要挑战是如何有效构建与推荐系统良好对齐的物品标识符。现有方法通常将物品令牌化 (item tokenization) 和生成式推荐训练视为独立过程，这可能导致次优性能。为了解决这个问题，本文引入了 ETEGRec，一个新颖的 端到端生成式推荐器 (End-To-End Generative Recommender)，它将物品令牌化和生成式推荐统一到一个内聚的框架中。ETEGRec 基于双编码器-解码器架构，由一个物品令牌化器 (item tokenizer) 和一个生成式推荐器 (generative recommender) 组成。为了实现这些组件之间的协同交互，本文提出了一种推荐导向的对齐策略 (recommendation-oriented alignment strategy)，其中包括两个关键优化目标：序列-物品对齐 (sequence-item alignment) 和 偏好-语义对齐 (preference-semantic alignment)。这些目标将物品令牌化器和生成式推荐器的学习过程紧密耦合，促进了相互增强。此外，本文还开发了一种交替优化技术 (alternating optimization technique)，以确保整个框架的稳定高效的端到端训练。大量的实验表明，与传统的序列推荐模型和现有的生成式推荐基线相比，本文的方法具有卓越的性能。

1.6. 原文链接

https://arxiv.org/abs/2409.05546

1.7. PDF 链接

https://arxiv.org/pdf/2409.05546v3.pdf 发布状态：预印本 (arXiv)，已接受发表于 SIGIR '25。

2. 整体概括

2.1. 研究背景与动机

核心问题： 在生成式推荐系统领域，如何有效构建与推荐系统目标紧密对齐的物品标识符 (item identifiers) 是一个关键挑战。 重要性与现有挑战： 传统的序列推荐方法通常采用判别式 (discriminative) 方式，通过计算用户历史行为与候选物品的相似性来推荐。近年来，受生成式语言模型 (generative language models) 成功的启发，生成式推荐系统兴起，将推荐任务建模为序列到序列 (sequence-to-sequence) 问题，直接生成目标物品的标识符。然而，现有生成式推荐方法普遍存在一个解耦 (decoupling) 问题：物品令牌化 (item tokenization)（即将物品映射为一系列离散的令牌）和生成式推荐模型的训练是两个独立的过程。这种解耦导致了以下具体挑战或空白 (Gap)：

令牌化器与推荐目标不匹配： 物品令牌化器在设计和训练时，通常没有充分考虑到后续推荐任务的优化目标，或者说其生成的令牌表示不一定是最适合推荐器使用的。
知识融合不足： 生成式推荐器无法深度融合或进一步精炼物品令牌化器中隐式编码的先验知识 (prior knowledge)。这两种情况都会导致生成式推荐系统的性能次优。

论文的切入点与创新思路： 针对上述解耦问题，本文旨在开发一个端到端 (end-to-end) 的生成式推荐框架，无缝集成物品令牌化和生成式推荐，实现两者之间的相互增强 (mutual enhancement)。

2.2. 核心贡献/主要发现

本文的主要贡献体现在以下几个方面：

提出 ETEGRec 框架： 引入了一个新颖的端到端生成式推荐器 ETEGRec，它将物品令牌化和生成式推荐整合到一个统一的框架中，实现了两个组件的联合优化和相互增强。
设计推荐导向对齐策略： 提出了两种关键的对齐策略：
- 序列-物品对齐 (Sequence-Item Alignment)： 旨在对齐编码器输出的序列状态分布和目标物品的协作嵌入 (collaborative embedding) 在令牌器空间中的分布，确保序列上下文能够有效预测目标物品的令牌。
- 偏好-语义对齐 (Preference-Semantic Alignment)： 利用对比学习 (contrastive learning) 来对齐生成式推荐器解码器捕捉到的用户偏好 (user preference) 与物品令牌化器重建的目标物品语义 (item semantics)，从而增强用户偏好建模。这些对齐策略紧密耦合了物品令牌化器和生成式推荐器的学习过程。
开发交替优化技术： 为了确保整个端到端框架的稳定高效训练，本文提出了一种交替优化 (alternating optimization) 技术，分别优化物品令牌化器和生成式推荐器，同时通过对齐损失保持协同。
实验验证卓越性能： 在三个推荐基准数据集上进行了广泛实验，结果表明 ETEGRec 在性能上优于传统的序列推荐模型和现有的生成式推荐基线。

关键结论与发现：

将物品令牌化和生成式推荐进行端到端联合优化，并通过推荐导向的对齐策略促进相互增强，能够显著提升生成式推荐的性能。
提出的序列-物品对齐和偏好-语义对齐策略，从不同角度有效耦合了两个组件的学习。
交替优化技术对于稳定和高效地训练端到端生成式推荐系统至关重要。
ETEGRec 不仅提供了更优越的物品标识符，更重要的是将物品令牌化器中编码的先验知识与生成式推荐器进行了深度融合和精炼。

3. 预备知识与相关工作

3.1. 基础概念

为了更好地理解 ETEGRec 的创新之处，我们需要先了解几个核心概念：

3.1.1. 序列推荐 (Sequential Recommendation)

概念定义： 序列推荐旨在根据用户过去交互的物品序列来预测用户接下来最可能交互的物品。它假设用户的兴趣是动态变化的，并受到其近期行为的影响。 作用： 在许多应用场景（如电商、内容平台）中，用户的行为并非孤立，而是具有时间顺序和上下文依赖性。序列推荐模型能够捕捉这些顺序模式，提供更精准和个性化的推荐。

3.1.2. 生成式推荐 (Generative Recommendation)

概念定义： 生成式推荐是一种将推荐任务重新定义为序列生成问题的方法。与传统的判别式推荐（预测用户对某个物品的评分或点击概率）不同，生成式推荐直接“生成”目标物品的标识符 (item identifiers) 或其对应的令牌序列 (token sequence)。 作用： 这种范式受到了大型语言模型 (Large Language Models, LLMs) 成功的启发，能够利用其强大的序列建模和生成能力，有望处理更复杂的推荐场景，并可能实现更灵活的推荐解释。

3.1.3. 物品令牌化 (Item Tokenization)

概念定义： 物品令牌化是指将一个物品（例如，一部电影、一件商品）表示为一系列离散的数字或符号，这些数字或符号被称为“令牌 (tokens)”。这类似于自然语言处理 (Natural Language Processing, NLP) 中将单词分解为子词 (subwords) 令牌的过程。 作用：

处理大规模物品集： 当物品数量非常庞大时，直接使用物品 ID 作为唯一的标识符会导致词汇表 (vocabulary) 过大，增加模型复杂度。令牌化可以将物品分解为更小的、可组合的单元。
捕捉语义和协作信息： 设计良好的令牌化方案可以使令牌携带物品的语义信息（例如，电影的类型、演员）或协作信息（例如，经常一起购买的物品）。
生成式模型的输入： 生成式推荐模型通常以令牌序列作为输入和输出。

3.1.4. 编码器-解码器架构 (Encoder-Decoder Architecture)

概念定义： 编码器-解码器架构是一种广泛用于序列到序列任务（如机器翻译、文本摘要）的神经网络结构。

编码器 (Encoder)： 接收输入序列，并将其转换为一个固定长度或可变长度的上下文向量/隐藏状态 (context vector/hidden states)，捕捉输入序列的语义信息。
解码器 (Decoder)： 接收编码器输出的上下文向量，并结合其自身的历史输出，逐步生成输出序列。 作用： 这种架构能够有效地处理变长序列输入和输出，是生成式推荐模型的常用骨干。本文的生成式推荐器基于 Transformer 的编码器-解码器架构，类似于 T5。

3.1.5. 残差量化变分自编码器 (Residual Quantization Variational Autoencoder, RQ-VAE)

概念定义： RQ-VAE 是一种用于学习离散表示 (discrete representations) 的模型。它通过多级 (multi-level) 残差量化 (residual quantization) 的方式，将连续的嵌入 (continuous embedding) 编码成一系列离散的令牌 (tokens)。

变分自编码器 (VAE)： 一种生成模型，旨在学习数据的潜在表示，并能够从这些潜在表示中重构数据。它通过编码器将输入映射到潜在空间，并通过解码器从潜在空间重构输入。
残差量化 (Residual Quantization)： 传统的量化可能在单次量化中丢失大量信息。残差量化通过迭代的方式进行：首先对原始信号进行量化，然后对量化后的残差（原始信号与量化信号之差）再进行量化，重复此过程多级，从而逐步减小量化误差，提高表示的精度。 作用： 在本文中，RQ-VAE 被用作物品令牌化器，将物品的语义嵌入 (semantic embedding) 转换为多级、固定长度的离散令牌序列。这些令牌可以捕捉物品从粗粒度到细粒度的信息。

3.1.6. KL 散度 (Kullback-Leibler Divergence, $D_{KL}$ )

概念定义： KL 散度是一种衡量两个概率分布之间差异的非对称度量。它量化了一个概率分布 $P$ 相对于另一个参考概率分布 $Q$ 的信息损失。 数学公式： 对于离散概率分布 $P$ 和 $Q$ ，KL 散度定义为： $D_{KL}(P || Q) = \sum_{x \in \mathcal{X}} P(x) \log \left( \frac{P(x)}{Q(x)} \right)$ 符号解释：

P(x)：分布 $P$ 中事件 $x$ 的概率。
Q(x)：分布 $Q$ 中事件 $x$ 的概率。
$\mathcal{X}$ ：所有可能事件的集合。 作用： 在本文中，KL 散度用于衡量不同输入（如协作嵌入和编码器序列状态）通过物品令牌化器得到的令牌分布之间的相似性，作为序列-物品对齐损失的一部分。

3.1.7. InfoNCE (Information Noise-Contrastive Estimation)

概念定义： InfoNCE 是一种对比学习 (contrastive learning) 的目标函数，旨在学习数据的表示，使得正样本对 (positive pairs) 的表示相互靠近，而与负样本对 (negative pairs) 的表示相互远离。它通过最大化正样本对之间的互信息 (mutual information) 来实现。 数学公式 (简化形式，一般用于一个正例和多个负例)： $\mathcal{L}_{InfoNCE} = - \log \frac{\exp(s(\mathbf{q}, \mathbf{k}^+) / \tau)}{\sum_{i=0}^N \exp(s(\mathbf{q}, \mathbf{k}_i) / \tau)}$ 符号解释：

$\mathbf{q}$ ：查询 (query) 向量。
$\mathbf{k}^+$ ：与 $\mathbf{q}$ 匹配的正样本 (positive key) 向量。
$\mathbf{k}_i$ ：包括 $\mathbf{k}^+$ 在内的 $N+1$ 个样本，其中只有一个是正样本。
$s(\cdot, \cdot)$ ：相似度函数，通常是余弦相似度或点积。
$\tau$ ：温度系数 (temperature coefficient)，用于调整相似度分布的锐利度。 作用： 在本文中，InfoNCE 被用于偏好-语义对齐损失 $\mathcal{L}_{PSA}$ ，以对齐用户偏好表示和目标物品语义表示。

3.1.8. 交替优化 (Alternating Optimization)

概念定义： 交替优化是一种优化策略，当一个优化问题包含多个变量或组件时，它通过迭代地固定一部分变量/组件，然后优化其余变量/组件，直到收敛。 作用： 在 ETEGRec 中，物品令牌化器和生成式推荐器是两个复杂的、相互依赖的组件。直接联合优化所有参数可能导致训练不稳定。交替优化策略允许模型在每次迭代中专注于优化一个组件，同时利用另一个组件的当前状态，从而提高训练的稳定性和效率。

3.2. 前人工作

3.2.1. 判别式序列推荐 (Discriminative Sequential Recommendation)

这类方法通过预测用户对特定物品的交互概率（如点击、购买）来推荐。

早期方法： 基于马尔可夫链 (Markov Chain) 假设，如 FPMC。
神经网络方法：
- RNN-based (循环神经网络)： GRU4Rec (Hidasi et al., 2016) 使用 GRU 捕捉用户序列行为。
- CNN-based (卷积神经网络)： Caser (Tang & Wang, 2018) 利用水平和垂直卷积核建模用户行为序列。
- Transformer-based (Transformer 架构)： SASRec (Kang & McAuley, 2018) 引入单向自注意力 (unidirectional self-attention) 捕捉用户偏好；BERT4Rec (Sun et al., 2019) 采用双向注意力 (bidirectional attention) 和掩码预测任务 (mask prediction task) 训练。
其他改进： FDSA (Zhang et al., 2019) 关注物品特征间的转换模式；S3-Rec (Zhou et al., 2020) 利用互信息最大化进行自监督预训练；FMLP-Rec (Zhou et al., 2022) 提出全 MLP 架构。

3.2.2. 生成式推荐 (Generative Recommendation)

这类方法将推荐视为令牌序列生成问题，主要分为物品令牌化和生成式推荐两个阶段。

物品令牌化 (Item Tokenization) 方法：

参数无关方法 (Parameter-free methods)：
- 协同矩阵分解 (Co-occurrence matrix factorization)： CID (Hua et al., 2023) 和 GPTRec (Petrov & Macdonald, 2023) 通过对协同矩阵进行矩阵分解来获取物品标识符。
- 聚类 (Clustering)： SEATER (Zhan et al., 2024) 和 EAGER (Wang et al., 2024) 通过聚类物品嵌入 (item embeddings) 来构建分层标识符。
- 文本元数据 (Textual metadata)： 某些方法直接使用物品的标题、描述等文本信息作为标识符，如 IDGenRec (Tan et al., 2024)。
- 局限性： 效率高但常有长度偏差 (length bias)，且难以捕捉深层协作关系。
深度学习多级向量量化 (Deep learning multi-level Vector Quantization, VQ) 方法：
- TIGER (Rajput et al., 2023)：使用 RQ-VAE (Residual Quantization Variational Autoencoder) 学习码本 (codebooks)，从而将物品的文本嵌入 (text embeddings) 转化为多级令牌。
- LETTER (Wang et al., 2024)：在 TIGER 基础上，进一步将 RQ-VAE 量化嵌入与协作嵌入对齐 (align quantized embeddings with collaborative embeddings)，并引入多样性正则化 (diversified regularization)。
- 局限性： 这些方法通常将物品令牌化作为预处理步骤，在推荐器训练时固定令牌化器，导致物品令牌化器和生成式推荐器的优化解耦。

3.3. 技术演进

推荐系统从早期基于协同过滤和矩阵分解的判别式方法，发展到基于 RNN、CNN 和 Transformer 的深度学习判别式方法，主要关注用户行为序列的建模和下一个物品的预测。近年来，生成式人工智能的兴起，特别是大型语言模型在序列生成任务上的巨大成功，推动了推荐领域向生成式范式转变。生成式推荐系统将物品标识符或其令牌序列作为生成目标，利用类似 Transformer 的架构来完成推荐。

然而，现有生成式推荐的一个主要瓶颈在于物品令牌化与推荐器训练的解耦。早期方法直接使用数值 ID 或启发式方法生成令牌，缺乏语义和协同信息。后来引入了 RQ-VAE 等深度学习方法来生成更具表达力的令牌，但仍停留在预处理阶段。ETEGRec 正是填补了这一空白，通过提出端到端学习和推荐导向的对齐策略，将物品令牌化器和生成式推荐器深度融合，使它们能够相互适应和增强，从而克服了过去解耦带来的性能限制。

3.4. 差异化分析

特征	传统序列推荐模型 (SASRec, BERT4Rec)	早期生成式推荐 (SID, CID)	基于VQ的生成式推荐 (TIGER, LETTER)	ETEGRec
推荐范式	判别式 (Discriminative)	生成式 (Generative)	生成式 (Generative)	生成式 (Generative)
物品标识符来源	物品嵌入 (Item Embeddings)	数值 ID 或启发式	预学习的 RQ-VAE 生成	端到端学习的 RQ-VAE 生成
令牌化与推荐关系	无 (不涉及令牌化)	解耦 (预处理)	解耦 (预处理)	端到端耦合与联合优化
令牌化器感知推荐目标	不适用	不感知	不感知	通过对齐策略感知和适应
核心创新点	高效序列建模	尝试生成范式	引入分层语义令牌	统一令牌化与生成训练，相互增强
协作信息利用	直接建模	启发式或间接	预学习阶段利用或对齐	通过对齐策略在端到端训练中深度融合
训练稳定性	相对稳定	训练挑战大	相对稳定 (解耦后)	通过交替优化实现稳定端到端训练

ETEGRec 的核心区别在于打破了物品令牌化和生成式推荐模型训练的传统解耦，首次实现了端到端的可学习物品令牌化。通过引入推荐导向的对齐策略（序列-物品对齐和偏好-语义对齐），ETEGRec 使物品令牌化器能够感知并适应推荐任务的优化目标，同时让生成式推荐器能够更好地利用令牌化器提供的语义信息，从而实现两个组件的相互增强。这种紧密耦合和联合优化的设计，辅以交替优化技术来确保训练稳定性，是其相对于现有生成式推荐方法（如 TIGER 和 LETTER）的根本性创新。

4. 方法论

本节将详细阐述 ETEGRec 的方法论，它将物品令牌化和生成式推荐无缝集成到一个内聚的框架中。该框架基于双编码器-解码器架构，并通过推荐导向的对齐策略和交替优化技术实现协同训练。

4.1. 问题定义

遵循以往研究，本文考虑典型的序列推荐 (sequential recommendation) 场景。给定一个物品集合 $\mathcal{I}$ 和用户 $u$ 的交互序列 $S = [i_1, i_2, \ldots, i_t]$ ，序列推荐旨在预测用户 $u$ 接下来最可能交互的物品 $i_{t+1} \in \mathcal{I}$ 。

本文采用生成式范式，将序列推荐视为令牌序列生成 (token sequence generation) 任务。每个物品由一个特定的 ID 标识符或一系列令牌来表示。传统的做法是直接使用原始物品 ID，但这难以有效共享物品间的相似语义，且导致物品词汇表 (item vocabulary) 庞大。

在本文中，每个物品 $i$ 由多个令牌 $[c_1, \ldots, c_L]$ 表示，其中 $L$ 是标识符的长度。为避免潜在的长度偏差，所有物品使用相同的标识符长度 $L$ 。物品到令牌的映射过程称为物品令牌化 (item tokenization)。

在此表示方案下，输入交互序列 $S$ 被转换为令牌序列 $X = [c_1^1, \ldots, c_L^1, \ldots, c_1^t, \ldots, c_L^t]$ ，其中 $c_j^k$ 表示第 $k$ 个物品的第 $j$ 个令牌。生成式推荐的目标是根据 $X$ 预测目标物品 $i_{t+1}$ 的标识符 $Y = [c_1^{t+1}, \ldots, c_L^{t+1}]$ 。形式化地，该任务被建模为一个序列到序列学习问题： $P ( \boldsymbol { Y } | \boldsymbol { X } ) = \prod _ { l = 1 } ^ { L } P ( c _ { l } ^ { t + 1 } | \boldsymbol { X } , c _ { 1 } ^ { t + 1 } , \ldots , c _ { l - 1 } ^ { t + 1 } )$ 该公式表示给定历史交互序列 $X$ 和已生成的前 l-1 个令牌 $c_1^{t+1}, \ldots, c_{l-1}^{t+1}$ ，模型自回归地生成目标物品的第 $l$ 个令牌 $c_l^{t+1}$ 的概率。

4.2. 双编码器-解码器架构

ETEGRec 框架包含两个主要组件：物品令牌化器 ( $\mathcal{T}$ ) 和 生成式推荐器 ( $\mathcal{R}$ )，两者都采用编码器-解码器架构。用户交互序列首先由物品令牌化器映射为令牌序列，然后送入生成式推荐器。生成式推荐器对令牌序列进行建模，并自回归地生成推荐物品的令牌。

下图（原文 Figure 1）展示了 ETEGRec 的整体架构，它包含物品令牌化器、生成式推荐器以及四个优化目标 $L_{REC}, L_{SQ}, L_{SIA}, L_{PSA}$ 。

$该图像是论文中提出的ETEGRec模型结构示意图，展示了项令牌化器和生成推荐器的协同训练流程及四个优化目标：$L_{REC}$，$L_{SQ}$，$L_{SIA}$和$L_{PSA}$，通过残差量化实现序列与项对齐和偏好语义对齐。$ 该图像是论文中提出的ETEGRec模型结构示意图，展示了项令牌化器和生成推荐器的协同训练流程及四个优化目标： $L_{REC}$ ， $L_{SQ}$ ， $L_{SIA}$ 和 $L_{PSA}$ ，通过残差量化实现序列与项对齐和偏好语义对齐。

4.2.1. 物品令牌化器 (Item Tokenizer)

物品令牌化器 ( $\mathcal{T}$ ) 的作用是将物品的语义或协作嵌入转换为多级离散令牌序列。本文采用 $L$ 级分层表示方案，每个物品由 $L$ 个令牌 ID 索引。这种分层方案将物品组织成树状结构，有利于生成任务，并使具有相同前缀令牌的物品共享协作语义。

4.2.1.1. 基于残差量化的令牌生成 (Token Generation as Residual Quantization)

物品令牌化器 ( $\mathcal{T}$ ) 实现为 RQ-VAE (Residual Quantization Variational Autoencoder)。对于每个物品 $i$ ，令牌化器接收其上下文或协作语义嵌入 $z \in \mathbb{R}^{d_s}$ 作为输入，其中 $d_s$ 是语义嵌入的维度。输出是其在每个级别的量化令牌，表示为 $[c_1, \ldots, c_L]$ 。 $[ c _ { 1 } , \ldots , c _ { L } ] = { \mathcal { T } } ( z )$ 具体步骤如下：

编码： 首先，输入语义嵌入 $z$ 经过一个基于多层感知机 (MLP) 的编码器，编码成一个潜在表示 $r$ 。 $r = \operatorname { E n c o d e r } _ { T } ( z )$
残差量化： 潜在表示 $r$ $r$ 随后通过查找 $L$ $L$ 级码本 (codebooks) 被量化为序列化的代码（即令牌）。在每个级别 $l \in \{1, \ldots, L\}$ $l \in {1, \dots, L}$ ，都有一个码本 $C_l = \{e_k^l\}_{k=1}^K$ $C_{l} = {e_{k}^{l}}_{k = 1}^{K}$ ，其中 $e_k^l \in \mathbb{R}^{d_c}$ $e_{k}^{l} \in R^{d_{c}}$ 是第 $l$ $l$ 级码本中的第 $k$ $k$ 个码向量， $K$ $K$ 是每个码本的大小， $d_c$ $d_{c}$ 是码向量的维度。残差量化过程如下： $\begin{array} { l } { c _ { l } = \arg \max _ { k } P ( k | v _ { l } ) , } \\ { v _ { l } = v _ { l - 1 } - e _ { c _ { l - 1 } } ^ { l } . } \end{array}$ 其中：
- $c_l$ 是第 $l$ 级分配的令牌。
- $v_l$ 是第 $l$ 级的残差向量。初始残差向量 $v_1 = r$ 。
- $P(c_l=k | v_l)$ 表示残差 $v_l$ 被量化为令牌 $k$ 的可能性，通过 $v_l$ 与码本向量的距离来衡量。
- 这个概率 $P(k | v_l)$ 的计算公式为： $P ( k | v _ { l } ) = \frac { \exp ( - | | v _ { l } - \pmb { e } _ { k } ^ { l } | | ^ { 2 } ) } { \sum _ { j = 1 } ^ { K } \exp ( - | | v _ { l } - \pmb { e } _ { j } ^ { l } | | ^ { 2 } ) } .$ 这里， $\exp ( - | | v _ { l } - \pmb { e } _ { k } ^ { l } | | ^ { 2 } )$ 表示残差向量 $v_l$ 与码本向量 $e_k^l$ 之间欧氏距离平方的负指数，越接近则概率越高。分母是对所有码本向量的归一化因子。

通过上述过程，RQ-VAE 将初始语义嵌入从粗粒度到细粒度量化为不同级别的令牌。

4.2.1.2. 重构损失 (Reconstruction Loss)

在获得物品令牌 $[c_1, \ldots, c_L]$ 后，可以通过码本向量的和得到量化表示 $\tilde{r}$ ： $\tilde { r } = \sum _ { l = 1 } ^ { L } e _ { c _ { l } } ^ { l } \in \mathbb { R } ^ { d _ { c } }$ 随后， $\tilde{r}$ 经过一个 MLP 解码器，重构出物品语义嵌入 $\tilde{z}$ ： $\tilde { z } = \mathrm { D e c o d e r } _ { T } ( \tilde { r } )$ 学习物品令牌化器的语义量化损失 (semantic quantization loss) $\mathcal{L}_{SQ}$ 如下： $\begin{array} { r l r } { \mathcal { L } _ { \mathrm { S Q } } = \mathcal { L } _ { \mathrm { R E C O N } } + \mathcal { L } _ { \mathrm { R Q } } , } \\ & { } & { \mathcal { L } _ { \mathrm { R E C O N } } = | | \boldsymbol { z } - \tilde { \boldsymbol { z } } | | ^ { 2 } , } \\ & { } & { \mathcal { L } _ { \mathrm { R Q } } = \displaystyle \sum _ { l = 1 } ^ { L } | | \mathrm { s g } [ v _ { l } ] - e _ { c _ { l } } ^ { l } | | ^ { 2 } + \beta | | v _ { l } - \mathrm { s g } [ e _ { c _ { l } } ^ { l } ] | | ^ { 2 } , } \end{array}$ 其中：

$\mathrm{sg}[\cdot]$ 表示停止梯度操作 (stop-gradient operation)，意味着在该操作内部的计算不会向后传播梯度。
$\beta$ 是平衡编码器和码本之间优化的系数，通常设为 0.25。
$\mathcal{L}_{RECON}$ 是重构损失，确保重构的语义嵌入 $\tilde{z}$ 与原始嵌入 $z$ 紧密匹配。
$\mathcal{L}_{RQ}$ 是 RQ 损失，旨在最小化码本向量与残差向量之间的距离，用于优化码本。具体来说，第一项 $| | \mathrm { s g } [ v _ { l } ] - e _ { c _ { l } } ^ { l } | | ^ { 2 }$ 确保码本向量 $e_{c_l}^l$ 接近残差向量 $v_l$ ，但梯度只更新 $e_{c_l}^l$ ；第二项 $\beta | | v _ { l } - \mathrm { s g } [ e _ { c _ { l } } ^ { l } ] | | ^ { 2 }$ 确保残差向量 $v_l$ 接近码本向量 $e_{c_l}^l$ ，但梯度只更新 $v_l$ （即编码器参数）。

4.2.2. 生成式推荐器 (Generative Recommender)

生成式推荐器采用类似于 T5 的基于 Transformer 的编码器-解码器架构，用于序列行为建模。

4.2.2.1. 令牌级序列到序列公式 (Token-level Seq2Seq Formulation)

在训练过程中，物品级的用户交互序列 $S$ 和目标物品 $i_{t+1}$ 首先被物品令牌化器 $\mathcal{T}$ 令牌化为令牌级序列 $X = [c_1^1, c_2^1, \ldots, c_L^1, \ldots, c_1^t, \ldots, c_L^t]$ 和 $Y = [c_1^{t+1}, \ldots, c_L^{t+1}]$ 。

编码： 输入令牌序列 $X$ 对应的嵌入 $E^X \in \mathbb{R}^{|X| \times d_h}$ 被送入生成式推荐器的编码器，进行用户偏好建模。 $H ^ { E } = \operatorname { E n c o d e r } _ { R } ( E ^ { X } )$ 其中 $H^E \in \mathbb{R}^{|X| \times d_h}$ 是编码后的序列表示， $d_h$ 是推荐器的隐藏维度。
解码： 为了解码，目标令牌序列 $Y$ 前面会添加一个特殊的起始令牌 [BOS]，形成 $\tilde{Y} = [[BOS], c_1^{t+1}, \ldots, c_L^{t+1}]$ 。然后，编码器输出 $H^E$ 和 $\tilde{Y}$ 被送入解码器，提取用户偏好表示： $H ^ { D } = \operatorname { D e c o d e r } _ { R } ( H ^ { E } , { \tilde { Y } } )$ 其中 $H^D \in \mathbb{R}^{(L+1) \times d_h}$ 是解码器的隐藏状态，它隐含了用户对物品的偏好。

4.2.2.2. 推荐损失 (Recommendation Loss)

解码器隐藏状态 $H^D$ 通过与词汇表嵌入矩阵 (vocabulary embedding matrix) $E$ 进行内积，用于预测每个步骤的目标物品令牌。具体而言，模型优化基于序列到序列范式的目标令牌的负对数似然 (negative log-likelihood)： $\mathcal { L } _ { \mathrm { R E C } } = - \sum _ { j = 1 } ^ { L } \log P ( Y _ { j } | \boldsymbol { X } , Y _ { < j } )$ 其中：

$Y_j$ 表示目标令牌序列 $Y$ 的第 $j$ 个令牌。
$Y_{<j}$ 表示在 $Y_j$ 之前的令牌。通过这种方式，目标物品的令牌将自回归地生成。

4.3. 推荐导向对齐 (Recommendation-oriented Alignment)

传统的生成式推荐方法将物品令牌化器和生成式推荐器视为独立的组件。令牌化器通常在预处理阶段训练并固定，无法适应推荐任务的优化目标。ETEGRec 的关键创新在于通过两种推荐导向的对齐策略，实现这两个组件的联合学习和相互增强。

4.3.1. 序列-物品对齐 (Sequence-Item Alignment, SIA)

4.3.1.1. 对齐假设 (Alignment Hypothesis)

该对齐策略基于以下假设：生成式推荐器编码器输出的隐藏状态 $H^E$ (见 Eq. (11)) 编码了整个历史交互序列的信息，应与目标物品的协作嵌入 $z$ 高度相关。当这两个表示（ $H^E$ 和 $z$ ）被送入物品令牌化器时，它们应该产生相似的令牌分布。这种关联关系被称为序列-物品对齐。

4.3.1.2. 对齐损失 (Alignment Loss)

为了实现序列-物品对齐，首先对编码器隐藏状态 $H^E$ 应用平均池化 (mean pooling) 操作，并经过一个额外的 MLP 层进行语义空间转换，得到序列状态表示 $z^E$ : $z ^ { E } = \mathrm { MLP } ( \mathrm { mean \_p ool } ( H ^ { E } ) )$ 然后，使用物品令牌化器为 $z$ (协作物品嵌入) 和 $z^E$ (编码器序列状态) 生成每个级别的令牌分布。设 $P_z^l$ 和 $P_{z^E}^l$ 分别表示 $z$ 和 $z^E$ 在第 $l$ 级生成的令牌分布。我们的目标是使这两个分布相似。本文引入了对称 KL 散度 (symmetric Kullback-Leibler divergence) 损失来实现这一点： $\mathcal { L } _ { \mathrm { S I A } } = - \sum _ { l = 1 } ^ { L } \left( D _ { K L } \big ( P _ { z } ^ { l } | | P _ { z ^ { E } } ^ { l } \big ) + D _ { K L } \big ( P _ { z ^ { E } } ^ { l } | | P _ { z } ^ { l } ) \big ) \right)$ 其中 $D_{KL}(\cdot)$ 是 KL 散度。这个对称形式确保了两个分布相互趋近。 作用：

组件融合： 促使物品令牌化器在推荐任务中发挥作用，使其学习到的令牌分布能够反映序列信息。
增强编码器表示： 解决了解码器可能绕过编码器（即很少使用编码器信息）来完成生成任务的问题，从而提高编码器捕捉序列表示的能力。

4.3.2. 偏好-语义对齐 (Preference-Semantic Alignment, PSA)

4.3.2.1. 对齐假设 (Alignment Hypothesis)

该对齐策略关注生成式推荐器解码器的第一个隐藏状态 $\pmb{h}^D$ (Eq. (12) 中 $H^D$ 的第一列) 与物品令牌化器重建的语义嵌入 $\tilde{z}$ (Eq. (7)) 之间的联系。 $\pmb{h}^D$ 通过对交互序列建模学习得到，反映了用户的序列偏好 (sequential user preference)；而 $\tilde{z}$ 编码了目标物品的协作语义 (collaborative semantics)。这种关联关系被称为偏好-语义对齐。值得注意的是，这里使用的是重建的嵌入 $\tilde{z}$ ，从而自然地将令牌化器组件纳入优化过程。

4.3.2.2. 对齐损失 (Alignment Loss)

本文使用 InfoNCE (Information Noise-Contrastive Estimation) 损失，结合批内负样本 (in-batch negatives)，来对齐经过 MLP 转换的 $\pmb{h}^D$ 和 $\tilde{z}$ 。偏好-语义对齐损失 $\mathcal{L}_{PSA}$ 定义如下： $\mathcal { L } _ { \mathrm { P S A } } = - \left( \log \frac { \exp { ( s ( \tilde { z } , h ^ { D } ) / \tau ) } } { \sum _ { \hat { h } \in \mathcal { B } } \exp { ( s ( \tilde { z } , \hat { h } ) / \tau ) } } + \log \frac { \exp { ( s ( h ^ { D } , \tilde { z } ) / \tau ) } } { \sum _ { \hat { z } \in \mathcal { B } } \exp { ( s ( h ^ { D } , \hat { z } ) / \tau ) } } \right)$ 其中：

$s(\cdot, \cdot)$ 是余弦相似度 (cosine similarity) 函数。
$\tau$ 是温度系数 (temperature coefficient)。
$\mathcal{B}$ 表示一个训练批次中的所有实例。这个损失是双向的，既使 $\tilde{z}$ 接近 $h^D$ ，也使 $h^D$ 接近 $\tilde{z}$ ，同时远离批次中的其他负样本。 作用：

增强推荐损失： 作为推荐损失 $\mathcal{L}_{REC}$ (Eq. (13)) 的额外增强，它引入了重建的协作嵌入，从而将令牌化器组件纳入训练过程，促进相互优化。
强化用户偏好建模： 确保推荐器捕捉到的用户偏好与物品的语义表示紧密相关。

通过上述两种对齐策略，ETEGRec 在模型优化过程中有效增强了物品令牌化器和生成式推荐器之间的关联，从而促进了两者的相互适应和增强。

4.4. 交替优化 (Alternating Optimization)

基于双编码器-解码器架构和推荐导向对齐，直接联合优化所有目标可能导致训练不稳定。为了提高训练稳定性，本文提出了一种交替优化策略来协同训练物品令牌化器和生成式推荐器。

4.4.1. 物品令牌化器优化 (Item Tokenizer Optimization)

在优化物品令牌化器时，生成式推荐器的所有参数保持固定。物品令牌化器的总损失函数为： $\mathcal { L } _ { \mathrm { I T } } = \mathcal { L } _ { \mathrm { S Q } } + \mu \mathcal { L } _ { \mathrm { S I A } } + \lambda \mathcal { L } _ { \mathrm { P S A } }$ 其中：

$\mathcal{L}_{SQ}$ (Equation (8)) 是语义量化损失。
$\mathcal{L}_{SIA}$ (Equation (15)) 是序列-物品对齐损失。
$\mathcal{L}_{PSA}$ (Equation (16)) 是偏好-语义对齐损失。
$\mu$ 和 $\lambda$ 是平衡对齐损失的超参数。

4.4.2. 生成式推荐器优化 (Generative Recommender Optimization)

在优化生成式推荐器时，物品令牌化器的所有参数保持固定。生成式推荐器的总损失函数为： $\mathcal { L } _ { \mathrm { G R } } = \mathcal { L } _ { \mathrm { R E C } } + \mu \mathcal { L } _ { \mathrm { S I A } } + \lambda \mathcal { L } _ { \mathrm { P S A } }$ 其中：

$\mathcal{L}_{REC}$ (Equation (13)) 是生成式推荐损失。
$\mathcal{L}_{SIA}$ (Equation (15)) 和 $\mathcal{L}_{PSA}$ (Equation (16)) 同样作为对齐损失参与优化。

4.4.3. 训练流程 (Training Procedure)

训练过程分为多个周期 (cycles)，每个周期包含固定数量的 epoch。

在每个周期的第一个 epoch 中，根据 $\mathcal{L}_{IT}$ (Eq. (17)) 优化物品令牌化器，以通过生成式推荐器改进物品表示的质量。
在每个周期的其余 epoch 中，物品令牌化器被冻结，物品令牌保持固定，仅根据 $\mathcal{L}_{GR}$ (Eq. (18)) 训练生成式推荐器。这个交替过程持续进行，直到物品令牌化器收敛。之后，物品令牌化器被永久冻结，并对生成式推荐器进行完全训练直至收敛。这种方法确保了在进行推荐导向对齐时训练的稳定性和有效性。

4.5. 讨论与分析

4.5.1. 与现有方法的比较

如前文在 3.4. 差异化分析 部分的表格所示，ETEGRec 与现有生成式推荐模型的主要区别在于其端到端的可学习物品令牌化。

物品令牌化方面： 现有方法如 GPTRec 和 CID 采用启发式方法（基于协同矩阵或聚类），而 TIGER 和 LETTER 预先训练 RQ-VAE 作为令牌化器。这些方法都将令牌化视为预处理步骤，与推荐器训练解耦。ETEGRec 则通过联合优化，使令牌化器在推荐任务中动态调整，融入用户行为偏好信息。
生成式推荐方面： 现有方法通常使用预处理好的、固定不变的令牌序列作为输入，这可能导致序列模式单一，存在过拟合风险。ETEGRec 在学习过程中持续优化物品令牌化器，生成多样化且语义逐渐精炼的令牌序列，并深度融合令牌器中的先验知识。

4.5.2. 复杂度分析

物品令牌化器：
- 对于单个物品，编码器和解码器层的时空复杂度为 $O(d^2)$ ，其中 $d$ 是模型维度。
- 码本查找操作的复杂度为 $O(LKd)$ ，其中 $L$ 是码本数量 (令牌长度)， $K$ 是每个码本的大小， $d$ 是码向量维度。
- 语义量化损失的计算复杂度为 $O(d + Ld)$ 。
- 因此，令牌化一个物品的总时间复杂度为 $O(d^2 + LKd)$ 。
生成式推荐器：
- 序列偏好建模（基于 Transformer 的自注意力机制和前馈网络）的时空复杂度为 $O(N^2 d + N d^2)$ ，其中 $N$ 是序列长度。
- 推荐损失 ( $\mathcal{L}_{REC}$ )、序列-物品对齐损失 ( $\mathcal{L}_{SIA}$ ) 和偏好-语义对齐损失 ( $\mathcal{L}_{PSA}$ ) 的计算复杂度分别为 $O(LKd)$ 、 $O(LKd)$ 和 $O(Md)$ ，其中 $M$ 是负样本数量。
总训练成本： 整体训练成本为 $O(NLKd + N^2 d + N d^2 + Md)$ 。这与主流模型 (如 TIGER 和 LETTER) 的数量级相同。
推理复杂度： ETEGRec 的推理复杂度与 TIGER 完全一致，因为物品令牌化结果可以预先缓存。

5. 实验设置

5.1. 数据集

实验在三个来自 Amazon 2023 评论数据 (Hou et al., 2024) 的子集上进行，包括“Musical Instruments (乐器)”、“Video Games (视频游戏)”和“Industrial Scientific (工业科学)”。这些数据集包含了从 1996 年 5 月到 2023 年 9 月的用户评论数据。 预处理：

遵循此前工作 (Zheng et al., 2024; Zhou et al., 2020)，应用 5-core 过滤器，即移除交互记录少于 5 次的用户和物品。
根据时间顺序构建用户行为序列。
统一将最大物品序列长度设置为 50。

以下是预处理后数据集的统计信息：

以下是原文 Table 2 的结果：

Dataset	#Users	#Items	#Interactions	Sparsity
Instrument	57,439	24,587	511,836	99.964%
Scientific	50,985	25,848	412,947	99.969%
Game	94,762	25,612	814,586	99.966%

Instrument (乐器): 用户数 57,439，物品数 24,587，交互数 511,836，稀疏度 99.964%。
Scientific (工业科学): 用户数 50,985，物品数 25,848，交互数 412,947，稀疏度 99.969%。
Game (视频游戏): 用户数 94,762，物品数 25,612，交互数 814,586，稀疏度 99.966%。

选择这些数据集是为了在不同领域验证模型性能，它们代表了具有不同规模和稀疏度的真实世界推荐场景。

5.2. 评估指标

采用两个广泛使用的指标来评估序列推荐的性能：

Top-K 召回率 (Recall@K)
Top-K 归一化折损累计增益 (Normalized Discounted Cumulative Gain, NDCG@K) 其中 $K$ 设置为 5 和 10。

5.2.1. 召回率 (Recall@K)

概念定义： Recall@K 衡量的是在推荐列表的前 $K$ 个物品中，实际用户感兴趣的目标物品被推荐出来的比例。它关注的是模型“找回”所有相关物品的能力。

数学公式： $\text{Recall@K} = \frac{\text{Number of relevant items in top-K recommendations}}{\text{Total number of relevant items}}$ 在本文的序列推荐任务中，每个用户只有一个目标物品（即下一个交互物品），因此公式简化为： $\text{Recall@K} = \frac{\sum_{u \in U} \mathbb{I}(\text{target item for } u \text{ is in top-K recommendations for } u)}{|U|}$ 符号解释：

$U$ : 所有用户的集合。
$\mathbb{I}(\cdot)$ : 指示函数，如果括号内的条件为真，则为 1，否则为 0。
$\text{target item for } u$ : 用户 $u$ 实际下一个交互的物品。
$\text{top-K recommendations for } u$ : 模型为用户 $u$ 生成的包含 $K$ 个物品的推荐列表。

5.2.2. 归一化折损累计增益 (Normalized Discounted Cumulative Gain, NDCG@K)

概念定义： NDCG@K 是一种考虑推荐列表物品位置和相关性分级的评估指标。它不仅关注相关物品是否被推荐，还关注其在列表中的位置（靠前的相关物品贡献更大）以及相关性的高低（相关性更高的物品贡献更大）。

数学公式： 首先计算累计增益 (Cumulative Gain, CG)： $\text{CG@K} = \sum_{j=1}^{K} \text{rel}_j$ 然后计算折损累计增益 (Discounted Cumulative Gain, DCG)： $\text{DCG@K} = \sum_{j=1}^{K} \frac{\text{rel}_j}{\log_2(j+1)}$ 最后计算归一化折损累计增益 (NDCG)： $\text{NDCG@K} = \frac{\text{DCG@K}}{\text{IDCG@K}}$ 其中，IDCG@K 是理想的折损累计增益 (Ideal DCG)，即假设推荐列表中的物品按照相关性从高到低完美排序时所能达到的最大 DCG 值。

符号解释：

$K$ : 推荐列表的长度。
$j$ : 推荐列表中物品的位置（排名）。
$\text{rel}_j$ : 位于排名 $j$ 的物品的相关性评分。在二元相关性（0或1，即是否为目标物品）场景下，如果位置 $j$ 的物品是目标物品，则 $\text{rel}_j=1$ ，否则为 0。
$\log_2(j+1)$ : 对排名 $j$ 的折损因子，位置越靠后，折损越大。

评估策略： 遵循先前研究 (Rajput et al., 2023; Zhou et al., 2020)，采用留一法 (leave-one-out strategy) 划分训练集、验证集和测试集。具体而言，对于每个用户：

最新的交互记录作为测试数据。
倒数第二新的交互记录作为验证数据。
所有其他交互记录用于训练。进行全排序评估 (full ranking evaluation)，即在整个物品集上进行评估，以避免采样偏差。所有生成式推荐模型的光束搜索 (beam search) 大小统一设置为 20。

5.3. 对比基线

为了全面评估 ETEGRec，本文将其与两类基线模型进行比较：

5.3.1. 传统序列推荐模型 (Traditional Sequential Recommendation Models)

这类模型通常采用判别式方法预测下一个交互物品。

Caser (Tang & Wang, 2018): 利用水平和垂直卷积滤波器来建模用户行为序列。
GRU4Rec (Hidasi et al., 2016): 基于 RNN 的序列推荐器，使用 GRU 捕捉用户行为。
HGN (Ma et al., 2019): 采用分层门控网络 (hierarchical gating networks) 捕捉用户序列中的长期和短期兴趣。
SASRec (Kang & McAuley, 2018): 采用单向 Transformer 建模用户行为并预测下一个物品。
BERT4Rec (Sun et al., 2019): 引入双向 Transformer 和掩码预测任务进行用户偏好建模。
FMLP-Rec (Zhou et al., 2022): 提出一个基于全 MLP 的序列推荐器，具有可学习滤波器，有效减少用户行为噪声。
FDSA (Zhang et al., 2019): 通过自注意力网络分别建模物品级和特征级序列，强调物品特征间的转换模式。
S3-Rec (Zhou et al., 2020): 将互信息最大化 (mutual information maximization) 引入序列推荐的预训练，学习物品和属性之间的相关性。

5.3.2. 生成式推荐模型 (Generative Recommendation Models)

这类模型将推荐任务视为令牌生成问题。

SID (Hua et al., 2023): 按照用户交互顺序顺序编码物品 ID，并将其用作生成式推荐的物品标识符。
CID (Hua et al., 2023): 通过对物品协同出现图 (item co-occurrence graphs) 进行谱聚类 (spectral clustering) 生成物品标识符，将协作知识整合到基于 LLM 的生成式推荐器中。
TIGER (Rajput et al., 2023): 利用文本嵌入构建物品的语义 ID，并采用生成式检索 (generative retrieval) 范式进行序列推荐。
TIGER-SAS (Rajput et al., 2023): 使用从训练好的 SASRec 中获得的物品嵌入，而非文本嵌入，来构建语义 ID，从而使物品标识符隐含协作先验知识。
LETTER (Wang et al., 2024): 通过整合分层语义、协作信号和代码分配多样性，设计了一个可学习的令牌化器。

5.4. 语义 ID 生成 (Semantic ID Generation)

协作语义嵌入： 从一个训练好的 SASRec 模型中获取 256 维的物品协作语义嵌入 $z$ 。
物品令牌化器 (RQ-VAE)：
- 编码器和解码器：各使用一个 3 层 MLP。
- 码本数量 ( $L$ )：设置为 3。
- 每个码本包含的码向量数量 ( $K$ )：256。
- 码向量维度：128。
唯一性保证： 遵循 TIGER (Rajput et al., 2023) 的方法，在语义令牌序列的末尾添加一个额外的令牌，以确保物品语义 ID 的唯一性。

5.5. 实现细节 (Implementation Details)

生成式推荐器骨干： 采用 T5 模型，具有 6 个编码器层和 6 个解码器层。
模型尺寸： 隐藏维度 $d_h$ 和前馈网络 (FFN) 维度分别设置为 128 和 512。
注意力机制： 每层包含 4 个自注意力头 (self-attention heads)，每个头的维度为 64。
初始化： 物品令牌化器使用预训练的 RQ-VAE 进行初始化。
优化器： 使用 AdamW 优化器，权重衰减 (weight decay) 为 0.05，用于训练整个框架。
交替优化：
- 每个周期 (cycle) 的 epoch 数量 $C$ 在 $\{2, 4\}$ 中调优。
- 训练过程：在一个周期的第一个 epoch 训练物品令牌化器 (根据 Eq. (17))，其余 C-1 个 epoch 训练生成式推荐器 (根据 Eq. (18)，此时冻结物品令牌化器)。此过程重复，直到验证性能收敛。
学习率：
- 生成式推荐器学习率：在 $\{5e-3, 3e-3, 1e-3\}$ 范围内调优。
- 物品令牌化器学习率：在 $\{5e-4, 1e-4, 5e-5\}$ 范围内调优。
超参数： 对齐损失系数 $\mu$ 和 $\lambda$ 在 $\{5e-3, 1e-3, 5e-4, 3e-4, 1e-4\}$ 范围内调优。
基线实现：
- 传统推荐基线：通过开源推荐框架 RecBole (Zhao et al., 2022; Zhao et al., 2021) 实现。
- CID, SID, LETTER：使用其官方实现。
- TIGER, TIGER-SAS：遵循原始论文 (Rajput et al., 2023) 提供的实现细节。
公平比较： 除 SID 和 CID 保持默认维度 768 外，所有模型的物品嵌入维度统一设置为 128。

6. 实验结果与分析

6.1. 核心结果分析

本文在三个公开推荐基准数据集上对 ETEGRec 进行了评估，结果如表 3 所示。

以下是原文 Table 3 的结果：

Model	Instrument				Scientific				Game
Model	Recall@5	Recall@10	NDCG@5	NDCG@10	Recall@5	Recall@10	NDCG@5	NDCG@10	Recall@5	Recall@10	NDCG@5	NDCG@10
Caser	0.0242	0.0392	0.0154	0.0202	0.0172	0.0281	0.0107	0.0142	0.0346	0.0567	0.0221	0.0291
GRU4Rec	0.0345	0.0537	0.0220	0.0281	0.0221	0.0353	0.0144	0.0186	0.0522	0.0831	0.0337	0.0436
HGN	0.0319	0.0515	0.0202	0.0265	0.0220	0.0356	0.0138	0.0182	0.0423	0.0694	0.0266	0.0353
SASRec	0.0341	0.0530	0.0217	0.0277	0.0256	0.0406	0.0147	0.0195	0.0517	0.0821	0.0329	0.0426
BERT4Rec	0.0305	0.0483	0.0196	0.0253	0.0180	0.0300	0.0113	0.0151	0.0453	0.0716	0.0294	0.0378
FMLP-Rec	0.0328	0.0529	0.0206	0.0271	0.0248	0.0388	0.0158	0.0203	0.0535	0.0860	0.0331	0.0435
FDSA	0.0364	0.0557	0.0233	0.0295	0.0261	0.0391	0.0174	0.0216	0.0548	0.0857	0.0353	0.0453
S3Rec	0.0340	0.0538	0.0218	0.0282	0.0253	0.0410	0.0172	0.0218	0.0533	0.0823	0.0351	0.0444
SID	0.0319	0.0438	0.0237	0.0275	0.0155	0.0234	0.0103	0.0129	0.0480	0.0693	0.0333	0.0401
CID	0.0352	0.0507	0.0234	0.0285	0.0192	0.0300	0.0123	0.0158	0.0497	0.0748	0.0343	0.0424
TIGER	0.0368	0.0574	0.0242	0.0308	0.0275	0.0431	0.0181	0.0231	0.0570	0.0895	0.0370	0.0471
TIGER-SAS	0.0375	0.0576	0.0242	0.0306	0.0272	0.0435	0.0174	0.0227	0.0561	0.0891	0.0363	0.0469
LETTER	0.0372	0.0581	0.0243	0.0310	0.0276	0.0433	0.0179	0.0230	0.0576	0.0901	0.0373	0.0475
ETEGRec	0.0402*	0.0624*	0.0260*	0.0331*	0.0294*	0.0455*	0.0190*	0.0241*	0.0616*	0.0947*	0.0400*	0.0507*

带 * 的结果表示与所有基线相比，在配对 t 检验下 $p < 0.01$ 具有显著性提升。

观察结果：

传统序列推荐模型：
- FDSA 在三个数据集上表现优于其他传统模型，这得益于其利用额外的文本特征嵌入。
- FMLP-Rec 取得了与 SASRec 和 BERT4Rec 相当的性能，表明全 MLP 架构也能有效建模行为序列。
生成式推荐模型：
- TIGER 和 TIGER-SAS 始终优于 CID 和 SID，即使 CID 和 SID 使用了参数更多的预训练 T5 模型。这种性能差异归因于物品令牌化方法的不同。SID 仅使用缺乏语义信息的数值令牌，CID 基于启发式协同出现图，未能有效捕捉物品相似性。
- TIGER 和 TIGER-SAS 通过 RQ-VAE 学习分层文本或协作语义，对推荐任务更有益。TIGER-SAS 的性能与 TIGER 相当，表明协作语义和文本语义都对推荐性能有显著贡献。
- LETTER 在大多数情况下表现最佳，因为它有效地整合了协作和文本语义信息。
ETEGRec 的卓越性能：
- ETEGRec 在所有数据集上始终取得了最佳结果，且在统计学上显著优于所有基线模型 (p < 0.01)。这证明了 ETEGRec 的有效性。
- 性能提升归因于物品令牌化器和生成式推荐器之间通过推荐导向对齐实现的相互增强。

6.2. 消融实验 (Ablation Study)

为了评估 ETEGRec 中各项提出技术的贡献，本文在所有三个数据集上进行了消融研究。结果如表 4 所示。

以下是原文 Table 4 的结果：

Variants	Instrument				Scientific				Game
Variants	Recall@5	Recall@10	NDCG@5	NDCG@10	Recall@5	Recall@10	NDCG@5	NDCG@10	Recall@5	Recall@10	NDCG@5	NDCG@10
ETEGRec	0.0402	0.0624	0.0260	0.0331	0.0294	0.0455	0.0190	0.0241	0.0616	0.0947	0.0400	0.0507
w/o LsIA	0.0396	0.0614	0.0255	0.0325	0.0285	0.0446	0.0186	0.0238	0.0590	0.0917	0.0386	0.0491
w/o LpSA	0.0389	0.0609	0.0250	0.0321	0.0270	0.0422	0.0174	0.0223	0.0602	0.0933	0.0392	0.0499
w/o LsIA & LpSA	0.0379	0.0601	0.0245	0.0317	0.0269	0.0422	0.0175	0.0224	0.0576	0.0894	0.0375	0.0478
w/o AT	0.0337	0.0529	0.0215	0.0277	0.0234	0.0375	0.0153	0.0198	0.0514	0.0810	0.0333	0.0428
w/o ETE	0.0388	0.0600	0.0252	0.0320	0.0277	0.0431	0.0181	0.0230	0.0569	0.0899	0.0369	0.0475

w/o LsIA： 移除序列-物品对齐损失 ( $\mathcal{L}_{SIA}$ )。该变体在所有数据集上的性能均劣于完整的 ETEGRec。这表明将编码器序列表示与码本空间中的物品表示对齐，对生成式推荐是有益的，能够有效增强编码器的表征能力。
w/o LpSA： 移除偏好-语义对齐损失 ( $\mathcal{L}_{PSA}$ )。同样导致了性能下降。这证明了所提出的 $\mathcal{L}_{PSA}$ 损失的有效性，它能够增强用户偏好建模，并使推荐器与物品的语义表示紧密联系。
w/o LsIA & LpSA： 同时移除 $\mathcal{L}_{SIA}$ 和 $\mathcal{L}_{PSA}$ 。该变体的性能比仅移除其中一个损失的变体更差。这表明序列-物品对齐和偏好-语义对齐都对生成式推荐有积极贡献，并且它们的结合能够带来更好的性能。
w/o AT： 移除交替优化 (Alternating Training) 策略。该变体直接联合学习框架中的所有优化目标。结果显示，缺少交替训练策略导致性能显著下降。这表明在训练过程中频繁更新物品令牌化器会对推荐器的训练产生不利影响。交替训练通过在维持组件间协同对齐的同时，为每个组件提供了稳定的优化过程。
w/o ETE： 移除端到端优化 (End-To-End) 过程。该变体不是进行端到端训练，而是利用 ETEGRec 最终学到的物品令牌，然后重新训练一个生成式推荐器。结果显示，w/o ETE 的性能仍然低于完整的 ETEGRec。这表明 ETEGRec 的改进不仅仅是由于生成了更优越的物品标识符，更重要的是通过将物品令牌化器中编码的先验知识与生成式推荐器进行了深度融合和精炼。

6.3. 进一步分析

6.3.1. 泛化能力评估 (Generalizability Evaluation)

为了评估 ETEGRec 的泛化能力，本文评估了其在新用户（在训练期间未见过）上的推荐性能。通过从训练集中移除部分用户的交互记录来构建新的训练集，并创建一个包含见过用户 (seen users) 和未见过用户 (unseen users) 的测试集。具体地，在 Instrument 和 Scientific 数据集上，选择了交互历史最少的 5% 用户作为新用户。

下图（原文 Figure 2）展示了 ETEGRec 与 LETTER 和 TIGER 在见过用户和未见过用户上的 Recall@10 性能对比。

Figure 2: Performance comparison on seen and unseen users. 该图像是柱状图，展示了ETEGRec与TIGER、LETTER模型在Instrument和Scientific数据集上对见过用户(Seen)和未见用户(Unseen)的Recall@10性能对比。ETEGRec模型在各场景下表现均优于其他两种方法。

从图 2 可以看出，ETEGRec 在见过用户和未见过用户上都优于 LETTER 和 TIGER。这表明 ETEGRec 通过物品令牌化器和生成式推荐器之间的对齐，能够更鲁棒地建模用户偏好，即使面对不熟悉的用户也能提供更准确的推荐。

6.3.2. 偏好-语义表示可视化 (Preference-Semantic Representation Visualization)

为了进一步验证所提出的偏好-语义对齐 ( $\mathcal{L}_{PSA}$ ，Eq. (16)) 的有效性，本文使用 t-SNE (van der Maaten & Hinton, 2008) 对偏好表示 $\pmb{h}^D$ 和相应目标物品的语义表示 $\tilde{z}$ 进行了可视化。

下图（原文 Figure 3）展示了偏好表示（圆圈）和语义表示（星形）的可视化结果。

Figure 3: Visualization of preference and semantic representations, where circles denote preference points, stars represent semantic points, and different colors indicate distinct groups 该图像是图3的示意图，展示了偏好表示与语义表示的可视化，其中圆圈表示偏好点，星形表示语义点，不同颜色代表不同的组别，用于区分乐器类(a)和科学类(b)数据。

具体来说，从 Instrument 和 Scientific 数据集中选择了 10 个物品和 80 条相应的交互历史，并提取了它们的偏好和重建语义表示。从图 3 可以观察到，偏好点 (preference points) 紧密地聚集在其对应的目标语义点 (target semantic points) 周围，同时与其他语义点保持分离。这有力地证明了所提出的 PSA 在对齐序列用户偏好和目标物品语义方面的有效性。

6.3.3. 超参数分析 (Hyper-Parameter Analysis)

本文对序列-物品对齐损失系数 $\mu$ 和偏好-语义对齐损失系数 $\lambda$ 进行了分析。

下图（原文 Figure 4）展示了不同对齐损失系数下 Recall@10 和 NDCG@10 的性能对比。

Figure 4: Performance comparison of different alignment loss coefficients. 该图像是论文中图4的图表，展示了不同对齐损失系数λ和μ下三个数据集（Instrument, Scientific, Game）上Recall@10和NDCG@10的性能比较，反映了系数对推荐效果的影响。

$\mu$ (序列-物品对齐系数)：
- 通过将 $\mu$ 从 1e-4 变化到 5e-3 进行研究。
- 结果显示，超出最佳范围的 $\mu$ 值可能会干扰模型学习并对性能产生不利影响。
- 在 Instrument 和 Scientific 数据集上，最佳结果在 $\mu = 3e-4$ 时获得；在 Game 数据集上，最佳结果在 $\mu = 1e-3$ 时获得。
$\lambda$ (偏好-语义对齐系数)：
- 将 $\lambda$ 在 0 到 5e-3 的范围内进行调优。
- 观察到与 $\mu$ 相似的趋势：过大的 $\lambda$ 值会导致次优性能。
- 当 $\lambda = 1e-4$ 时，ETEGRec 在所有三个数据集上表现最佳。
  
  这些分析表明，适当的对齐损失系数对于 ETEGRec 的性能至关重要，它们需要在平衡不同优化目标之间进行权衡。

7. 总结与思考

7.1. 结论总结

本文提出了 ETEGRec，一个新颖的端到端生成式推荐器 (End-To-End Generative Recommender)，其核心创新在于实现了推荐导向的对齐 (recommendation-oriented alignment)。与以往将物品令牌化 (item tokenization) 和生成式推荐训练视为独立过程的方法不同，ETEGRec 将这两部分无缝集成到统一的框架中，构建了一个具有端到端可学习物品令牌化 (end-to-end learnable item tokenization) 的模型。

ETEGRec 基于双编码器-解码器架构，包含一个物品令牌化器和一个生成式推荐器。为促使两组件协同工作，论文设计了两种关键的推荐导向对齐策略：

序列-物品对齐 (Sequence-Item Alignment, SIA)： 确保生成式推荐器编码器输出的序列状态分布与目标物品的协作嵌入在令牌器空间中保持一致。
偏好-语义对齐 (Preference-Semantic Alignment, PSA)： 利用对比学习对齐解码器捕捉到的用户偏好与物品令牌化器重建的物品语义。这些对齐目标紧密耦合了两个组件的学习过程，促进了相互增强。此外，为保证稳定高效的端到端训练，论文还提出了一种交替优化技术 (alternating optimization technique)。

在三个 Amazon 数据集上的广泛实验表明，ETEGRec 在 Recall@K 和 NDCG@K 等指标上均显著优于传统序列推荐模型和现有生成式推荐基线。消融研究证实了序列-物品对齐、偏好-语义对齐以及交替优化策略的有效性。泛化能力评估显示 ETEGRec 在未见过用户上表现更鲁棒。偏好-语义表示可视化进一步直观地验证了对齐策略的有效性。

7.2. 局限性与未来工作

论文作者指出了以下局限性及未来研究方向：

方法迁移： 未来工作将探索如何将这种联合令牌化方法迁移到其他生成式推荐架构中。
模型扩展性： 探索当模型参数增加时，ETEGRec 的扩展效果 (scaling effect) 如何。这可能涉及到对更大规模数据和更复杂模型的实验，以了解其性能瓶颈和优化潜力。

7.3. 个人启发与批判

个人启发：

解耦问题的再思考： 这篇论文最重要的启发在于强调了“解耦”在机器学习系统中的潜在危害。很多时候，我们为了模块化或简化训练，会人为地将一个端到端的问题拆分为多个阶段（如预处理、特征工程、模型训练），但每个阶段的优化目标可能并不完全一致。ETEGRec 明确指出并解决了物品令牌化与推荐任务之间的解耦，这提供了一个通用的思路：在设计复杂系统时，应尽可能地考虑不同组件之间的相互作用，并通过联合优化或对齐机制来促进整体性能。
深度融合的潜力： ETEGRec 展示了深度融合不同模态或信息来源的强大潜力。通过将物品令牌化器中学习到的语义和协作先验知识，通过对齐损失与生成式推荐器的用户偏好建模紧密结合，模型能够从更丰富的角度理解和生成推荐。
Transformer 在推荐领域的适应性： 再次证明了 Transformer 架构在序列建模和生成任务中的强大通用性。通过巧妙地将其与 RQ-VAE 和创新的对齐损失结合，可以解决推荐领域的特定挑战。
对齐思想的重要性： 提出的序列-物品对齐和偏好-语义对齐损失，是从不同抽象层面（序列状态与物品本身、用户偏好与物品语义）进行对齐，这种多层次、多角度的对齐思路值得借鉴。特别是序列-物品对齐通过增强编码器表示，解决了 Transformer 编码器可能被绕过的问题，这是一个细致而重要的贡献。

批判与可以改进的地方：

计算成本： 尽管论文声称整体训练成本与主流模型在同一数量级，但端到端训练和交替优化仍然可能比分阶段训练更复杂、耗时。特别是 RQ-VAE 的码本查找操作和 InfoNCE 的批内负采样，在处理大规模数据集时可能会带来显著的计算开销。未来的工作可以探索更高效的令牌化和对齐机制。
超参数敏感性： 论文提到了 $\mu$ 和 $\lambda$ 等超参数对性能的影响，并且需要在不同数据集上进行调优。这意味着模型可能对超参数的选择比较敏感，这在实际部署中会增加复杂性。能否开发出自适应的超参数调整机制，或者设计对超参数不那么敏感的对齐损失，将是一个有益的方向。
令牌的可解释性： 虽然 RQ-VAE 生成了分层令牌，并且这些令牌在模型中发挥了关键作用，但这些离散令牌本身的可解释性如何？能否从这些令牌中反向推断出物品的哪些具体属性或用户偏好？这对于推荐系统的透明度和用户信任非常重要。
负采样策略： 偏好-语义对齐损失 ( $\mathcal{L}_{PSA}$ ) 使用了批内负样本 (in-batch negatives)。虽然这种方法简单有效，但批内负样本可能不是真正的困难负样本 (hard negatives)，或者负样本的质量受批次大小影响。探索更先进的负采样策略（如硬盘负样本挖掘 hard negative mining 或基于生成器的负样本）可能会进一步提升性能。
冷启动问题： 论文提到了泛化能力评估，ETEGRec 在未见过用户上表现良好，这暗示了其在一定程度上处理冷启动 (cold-start) 问题的能力。但对于全新的物品，其语义嵌入 $z$ 如何获取？如何将新物品高效地整合到令牌化和推荐流程中，仍然是一个值得深入研究的挑战。

总的来说，ETEGRec 提供了一个优雅且有效的解决方案，解决了生成式推荐领域中物品令牌化与模型训练解耦的关键问题，为未来生成式推荐系统的发展奠定了坚实的基础。

相似论文推荐

基于向量语义检索推荐的相关论文。

暂时没有找到相似论文。