Learning Decomposed Contextual Token Representations from Pretrained and Collaborative Signals for Generative Recommendation
TL;DR 精炼摘要
本研究提出了DECOR框架,以解决生成推荐系统中的静态标记化及丢弃预训练语义的问题。通过引入上下文词元组合和分解嵌入融合,DECOR能够在提高词元嵌入适应性的同时保留预训练的语义知识。实验显示,DECOR在真实数据集上的推荐性能优于现有最佳方法。
摘要
Recent advances in generative recommenders adopt a two-stage paradigm: items are first tokenized into semantic IDs using a pretrained tokenizer, and then large language models (LLMs) are trained to generate the next item via sequence-to-sequence modeling. However, these two stages are optimized for different objectives: semantic reconstruction during tokenizer pretraining versus user interaction modeling during recommender training. This objective misalignment leads to two key limitations: (i) suboptimal static tokenization, where fixed token assignments fail to reflect diverse usage contexts; and (ii) discarded pretrained semantics, where pretrained knowledge - typically from language model embeddings - is overwritten during recommender training on user interactions. To address these limitations, we propose to learn DEcomposed COntextual Token Representations (DECOR), a unified framework that preserves pretrained semantics while enhancing the adaptability of token embeddings. DECOR introduces contextualized token composition to refine token embeddings based on user interaction context, and decomposed embedding fusion that integrates pretrained codebook embeddings with newly learned collaborative embeddings. Experiments on three real-world datasets demonstrate that DECOR consistently outperforms state-of-the-art baselines in recommendation performance. Our code will be made available upon publication.
思维导图
论文精读
中文精读
1. 论文基本信息
1.1. 标题
Learning Decomposed Contextual Token Representations from Pretrained and Collaborative Signals for Generative Recommendation (中文直译:从预训练和协作信号中学习生成推荐的分解上下文词元表示)
1.2. 作者
Yifan Liu, Yaokun Liu, Zelin Li, Zhenrui Yue, Gyusek Lee, Ruichen Yao, Dong Wang (伊利诺伊大学厄巴纳-香槟分校); Yang Zhang (迈阿密大学)。
1.3. 发表期刊/会议
该论文的发表状态为预印本(arXiv),发布于 2025-08-22T18:50:38.000Z。在学术界,arXiv 是一个重要的预印本服务器,允许研究者在正式同行评审前分享研究成果,但其内容尚未经过严格的同行评审。
1.4. 发表年份
2025年。
1.5. 摘要
该论文旨在解决生成推荐器 (generative recommenders) 中存在的两个关键局限性。当前生成推荐器通常采用两阶段范式:首先使用预训练的词元分析器 (tokenizer) 将物品 (items) 标记化 (tokenized) 为语义 ID,然后使用大型语言模型 (Large Language Models, LLMs) 通过序列到序列 (sequence-to-sequence) 建模生成下一个物品。然而,这种方法存在目标不匹配问题:词元分析器预训练是为了语义重建,而推荐器训练是为了用户交互建模。这导致了 (i) 次优的静态标记化 (suboptimal static tokenization),即固定词元分配无法反映多样化的使用上下文;以及 (ii) 被丢弃的预训练语义 (discarded pretrained semantics),即预训练知识(通常来自语言模型嵌入)在推荐器训练过程中被用户交互数据覆盖。
为了解决这些问题,论文提出了 DECOR (Decomposed COntextual Token Representations) 框架,它通过增强词元嵌入的适应性来保留预训练语义。DECOR 引入了上下文词元组合 (contextualized token composition),根据用户交互上下文精炼词元嵌入,并采用分解嵌入融合 (decomposed embedding fusion),将预训练的码本嵌入 (codebook embeddings) 与新学习的协作嵌入 (collaborative embeddings) 相结合。在三个真实世界数据集上的实验表明,DECOR 在推荐性能方面始终优于最先进的基线方法。
1.6. 原文链接
https://arxiv.org/abs/2509.10468 PDF 链接: https://arxiv.org/pdf/2509.10468v1.pdf
2. 整体概括
2.1. 研究背景与动机
近年来,大型语言模型 (LLMs) 的发展推动了生成推荐 (generative recommendation) 成为序列推荐 (sequential recommendation) 的新范式。这类方法通常将推荐任务视为自回归序列生成任务,利用 LLMs 建模长程依赖和生成连贯序列的能力。其典型流程分为两个阶段:
-
物品标记化 (Item Tokenization): 物品元数据(如名称、描述)被编码成预训练语义嵌入 (pretrained semantic embeddings),然后通过预训练的词元分析器(通常是矢量量化器 (vector quantizer))将其转化为离散的语义 ID (semantic IDs)。
-
推荐器训练 (Recommender Training): 缓存的语义 ID 序列被用于训练 LLM 来预测下一个物品。
然而,作者指出,这两个阶段存在目标不匹配 (objective misalignment) 的问题:
-
词元分析器 (tokenizer) 的训练目标是重建原始语义嵌入,关注的是物品的内在语义。
-
推荐器 (recommender) 的训练目标是建模用户交互序列,关注的是物品在用户行为中的协作模式。
这种目标不匹配导致了两个关键局限性,也是本文试图解决的核心问题:
-
次优的静态标记化 (C1: Suboptimal Static Tokenization): 词元分析器产生的语义 ID 是固定的,无法动态适应不同的推荐上下文。例如,同一个物品(如“降噪耳机”)可能在不同用户或不同情境下有不同的用途(办公、健身、睡眠),但其静态语义 ID 无法体现这种上下文多样性。这导致了前缀模糊性 (prefix ambiguity),即多个语义上或使用上下文上不同的物品可能共享相同的词元前缀,增加了后续词元的消歧负担,降低了表示效率。现有尝试通过联合优化词元分析器和推荐器来解决此问题的方法(如 ETEGRec)会引入训练不稳定性和计算开销。
-
被丢弃的预训练语义 (C2: Discarded Pretrained Semantics): 在物品标记化后,词元分析器所捕捉的预训练语义知识(例如,语言模型嵌入中的世界知识)在推荐器训练过程中被很大程度上丢弃。推荐器训练时,词元嵌入通常随机初始化,并完全基于用户交互数据进行训练,这可能导致其原始语义信息被覆盖。例如,一个词元 最初代表“苹果”(既可以是水果也可以是科技品牌),但在训练中如果主要出现在电子产品相关语境,其嵌入就会偏向科技品牌,导致对稀疏物品的推荐不准确。
因此,论文的动机在于提出一个统一的框架,能够保留预训练语义,同时增强词元嵌入的适应性,以更好地服务于生成推荐任务。
2.2. 核心贡献/主要发现
本文的核心贡献和主要发现如下:
- 明确识别并分析了生成推荐器的两个局限性: 首次明确地指出了静态标记化对表示灵活性的限制,以及预训练语义在推荐器训练中被丢弃的问题。
- 提出了 DECOR (Decomposed COntextual Token Representations) 框架:
- 分解嵌入融合 (Decomposed Embedding Fusion): 引入该模块以融合预训练的语义嵌入(来自冻结的 RQ-VAE 码本 (codebook))和新学习的协作嵌入 (collaborative embeddings)。这使得模型能够自适应地整合来自预训练码本的语义知识和从序列建模中学到的协作交互模式,从而保留预训练语义。
- 上下文词元组合 (Contextualized Token Composition): 引入该机制以在推荐器模型生成词元时动态地精炼词元嵌入。它通过与其他词元嵌入进行软组合,并根据用户交互历史上下文进行条件化,从而使 LLM 推荐器能够以上下文相关的方式重新解释词元语义,解决静态标记化的次优问题。
- 实验验证了方法的有效性: 在三个真实世界数据集(Scientific, Instrument, Game)上的综合实验表明,DECOR 在推荐性能上持续优于经典的序列推荐器 (sequential recommenders) 和最新的生成推荐基线模型 (generative recommender baselines)。
- 提供了对静态标记化问题的解决方案: 通过案例研究和嵌入利用率分析,DECOR 被证明能够有效缓解前缀模糊性,并提高码本中嵌入的利用率,使得模型能够适应性地激活更多嵌入,以适应更丰富的上下文建模需求。
3. 预备知识与相关工作
3.1. 基础概念
3.1.1. 生成推荐 (Generative Recommendation)
概念定义: 生成推荐是一种新兴的推荐系统范式,它将推荐任务重新定义为序列生成问题。不同于传统的通过排名或分类来预测用户可能喜欢的物品,生成推荐系统直接生成目标物品的标识符(例如,物品 ID 或其语义词元序列)。这种方法通常利用大型语言模型 (LLMs) 的强大序列建模能力,将用户历史交互序列作为输入,然后自回归地生成下一个可能被用户交互的物品的表示。
作用: 这种范式的好处在于能够自然地处理长序列依赖、生成多样化的推荐结果,并能更好地融入物品的丰富语义信息(如果物品被表示为文本或语义词元序列)。它统一了不同的推荐任务(如评分预测、序列预测)到一个单一的生成框架中。
3.1.2. 序列推荐 (Sequential Recommendation)
概念定义: 序列推荐是推荐系统的一个子领域,它关注用户在时间上的行为序列。给定一个用户过去与物品交互的有序序列(例如,物品A -> 物品B -> 物品C),序列推荐系统的目标是预测用户最有可能在接下来交互的物品。
作用: 它捕捉了用户偏好随时间变化的动态性,以及物品之间的序列依赖关系。例如,用户在购买相机后,可能接着购买镜头或相机包,而非完全不相关的物品。
3.1.3. 词元分析器 (Tokenizer) 与语义 ID (Semantic IDs)
概念定义: 在自然语言处理和一些生成推荐系统中,词元分析器 (tokenizer) 是一种将原始输入(如文本、图像特征或物品元数据)转换为离散的、模型可处理的最小单元(即 词元 (token))的工具。在生成推荐的背景下,物品(例如,一部电影、一本书)通常会被表示成一系列离散的 语义 ID (semantic IDs)。这些 语义 ID 并非简单的数字 ID,而是通过某种方式(如矢量量化 (Vector Quantization))从物品的语义信息(如文本描述的嵌入向量)中提取出来的,旨在捕捉物品的语义特征。
作用:
- 离散化: 将连续的语义信息转换为离散符号,使其可以被离散符号处理模型(如 LLMs)处理。
- 压缩: 通过有限的词表来表示无限或大量的物品,实现数据压缩。
- 语义编码: 使得每个
语义 ID能够携带物品的部分语义信息,而不是简单的无意义标识符。
3.1.4. 矢量量化变分自编码器 (Residual Quantized Variational AutoEncoder, RQ-VAE)
概念定义: RQ-VAE 是一种用于学习离散表示的神经网络模型,它结合了矢量量化 (Vector Quantization, VQ) 和变分自编码器 (Variational AutoEncoder, VAE) 的思想,并引入了残差量化 (Residual Quantization)。
-
矢量量化 (VQ): 将输入向量映射到预定义码本 (codebook) 中最接近的码字 (codeword)。码本中的每个码字都是一个嵌入向量,代表一个离散符号或
词元(token)。 -
残差量化 (Residual Quantization): 传统 VQ 可能损失大量信息。RQ-VAE 通过多层量化来解决这个问题:第一层量化原始输入,然后计算量化误差(残差),再用第二层量化这个残差,如此重复多层。这样,每一层都捕捉了前一层未能捕捉到的信息,最终将一个输入分解为一系列离散的
词元(token) 序列,每个词元对应一个码本中的索引。 -
变分自编码器 (VAE): 提供了一个概率框架,用于学习数据的潜在表示。
作用: 在生成推荐中,
RQ-VAE被用于将物品的连续语义嵌入(例如,来自预训练语言模型的文本嵌入)转化为离散的语义 ID序列。这些语义 ID序列随后可作为 LLM 的输入或输出。
3.1.5. 大型语言模型 (Large Language Models, LLMs)
概念定义: LLMs 是基于深度学习(特别是 Transformer 架构)的语言模型,拥有极其庞大的参数量(数亿到数千亿),并在海量文本数据上进行预训练。它们能够理解、生成和处理人类语言,执行各种复杂的自然语言任务,如文本生成、摘要、翻译、问答等。
作用: 在生成推荐中,LLMs 被用作核心的推荐引擎。它们可以:
- 编码用户历史: 将用户的交互序列(表示为物品的
语义 ID序列)编码成上下文向量。 - 自回归生成: 根据编码的历史信息,自回归地预测并生成下一个物品的
语义 ID序列。 - 利用世界知识: 预训练
LLMs所包含的丰富世界知识可以帮助理解物品的语义,尤其是在物品元数据丰富的情况下。
3.2. 前人工作
3.2.1. 传统的序列推荐器 (Traditional Sequential Recommenders)
这类模型主要关注从用户历史交互序列中学习用户偏好和物品间的序列依赖关系。
Caser(Tang and Wang 2018): 采用卷积神经网络 (Convolutional Neural Networks, CNNs) 来捕捉序列模式。它通过在垂直方向上应用窄卷积核来学习顺序模式,在水平方向上应用卷积核来检测共现的潜在特征。GRU4Rec(Jannach and Ludewig 2017): 利用循环神经网络 (Recurrent Neural Networks, RNNs),特别是门控循环单元 (Gated Recurrent Units, GRUs),来建模会话内用户行为,并使用最终隐藏状态预测下一个物品。SASRec(Kang and McAuley 2018): 开创性地将 Transformer 架构中的自注意力(self-attention) 机制引入序列推荐,通过堆叠 Transformer 编码器层来建模用户交互序列中的长距离依赖关系。BERT4Rec(Sun et al. 2019): 借鉴BERT的思想,使用双向 Transformer 编码器和Masked Item Prediction任务进行预训练,以学习上下文感知的物品表示。FDSA(基于SASRec的一个变体,可能指Future Disentangled Self-Attention或类似模型): 通常在SASRec基础上进行改进,可能通过解耦不同类型的注意力来增强模型表达能力。S3Rec(Zhou et al. 2020): 引入自监督学习(self-supervised learning) 范式,通过四个辅助自监督任务(如遮蔽属性、预测遮蔽物品等)来最大化物品粒度上的互信息,从而增强预训练效果。
3.2.2. 生成推荐器 (Generative Recommenders)
这些模型将推荐任务表述为序列到序列 (sequence-to-sequence) 问题,直接生成下一个物品的标识符。
P5(Geng et al. 2022): 早期工作,通过微调预训练语言模型(如 T5)在一个统一的生成框架内处理多种推荐任务。TIGER(Rajput et al. 2023): 本文的主要基线之一。它通过RQ-VAE将物品文本嵌入量化为语义 ID,然后训练一个LLM自回归地生成下一个物品的 ID 序列。这是本文方法的基础架构。EAGER(Wang et al. 2024c): 在TIGER的基础上,提出了双流生成框架,共享编码器,但使用独立的解码器来联合捕捉用户行为和物品内容语义。OneRec(Deng et al. 2025): 将检索和排序统一到单一的迭代生成过程中。P5-SID和P5-CID(Hua et al. 2023): 这两个是P5的变体。P5-SID通过将物品的数字 ID 分解为有序的子词元(如前缀),使得频繁共现或序列相邻的物品共享子词元模式,提高自回归生成的局部性。P5-CID则通过对协作共现图进行谱聚类 (spectral clustering) 来对物品进行分组,然后使用这些聚类 ID 作为离散词元进行生成推荐。LETTER(Wang et al. 2024a): 优化RQ-VAE词元分析器,通过强制对比对齐和多样性正则化来学习分层、协作和多样化的物品词元。CoST(Zhu et al. 2024): 使用InfoNCE风格的对比损失训练量化码本 (quantization codebook),将物品嵌入映射到离散语义词元,同时保留语义相似性和邻域结构。
3.2.3. 动态词元化方法 (Dynamic Tokenization Approaches)
ETEGRec(Liu et al. 2025): 提出端到端 (end-to-end) 训练框架,共同优化物品词元分析器和推荐器模型,并通过一系列对齐损失来提高词元分析器与推荐器的一致性。本文认为这种联合训练可能导致训练不稳定。- (Yin et al. 2025): 提出了双索引框架,包含多粒度词元调节器和结合用户级元数据的指令微调,但其依赖的用户特定信息在所有场景下可能不可用。
3.3. 技术演进
从早期的基于 ID 的序列推荐器(如 GRU4Rec, Caser),到引入 自注意力 (self-attention) 机制的 SASRec 和 BERT4Rec,推荐系统在捕捉序列依赖和上下文信息方面取得了显著进步。随着 LLMs 的兴起,研究转向将推荐任务视为生成问题,即生成推荐。这一阶段的代表工作如 TIGER,将物品语义通过 RQ-VAE 转化为离散 语义 ID,并使用 LLM 进行自回归预测。
然而,这种两阶段方法暴露出 静态标记化 (static tokenization) 的局限性,即物品的 语义 ID 一旦生成便固定不变,无法适应推荐过程中的动态上下文。为了解决这个问题,一些工作尝试进行 端到端 (end-to-end) 训练(如 ETEGRec),但代价是训练稳定性和复杂性增加。
本文的 DECOR 旨在平衡 静态标记化 的效率和 动态适应性 的需求。它通过保留预训练语义(即冻结 RQ-VAE 码本)并引入 上下文词元组合 (contextualized token composition) 来动态调整词元嵌入,从而在不进行复杂 端到端 词元分析器再训练的情况下,实现了对上下文的适应。这种方法代表了在 生成推荐 领域中,对 物品表示 灵活性和语义丰富性之间权衡的进一步探索。
3.4. 差异化分析
本文 DECOR 与相关工作的主要区别和创新点在于:
- 与传统序列推荐器的区别:
DECOR属于生成推荐范式,利用LLM的序列生成能力,将物品表示为语义 ID序列,而非简单的物品 ID 或密集嵌入。它更注重物品的语义信息和生成能力。 - 与现有生成推荐器的区别:
- 静态标记化基线 (
TIGER,LETTER,CoST): 这些方法生成的物品词元表示在训练和推理过程中是固定的。DECOR的核心在于通过上下文词元组合(contextualized token composition) 机制,使得这些静态词元在生成时能够被动态地上下文化,从而提高了表示的灵活性和表达能力。 - 动态词元化基线 (
ETEGRec, ): 尽管ETEGRec尝试联合优化词元分析器和推荐器来解决静态词元化问题,但它引入了训练不稳定性和计算开销,因为词元分配本身在训练中会变化。DECOR采取了一种更稳定的方法:它不修改原始的词元分配,而是通过在嵌入层面进行动态组合来适应上下文,从而避免了词元分析器联合训练带来的复杂性。 依赖于用户级元数据,而DECOR则不要求用户特定信息。
- 静态标记化基线 (
- 对预训练语义的处理:
DECOR通过分解嵌入融合(decomposed embedding fusion) 明确地将冻结的RQ-VAE码本嵌入(代表预训练语义)与新学习的协作嵌入相结合。这解决了C2中指出的“被丢弃的预训练语义”问题,确保了模型能够持续利用来自预训练模型的丰富知识,而不仅仅是基于用户交互从头学习。 - 高效性和稳定性:
DECOR在不大幅增加计算复杂度的前提下,提升了模型的适应性和性能。其上下文词元组合机制的额外开销与上下文长度呈线性关系,相对于 Transformer 骨干网络的二次复杂度而言是可控的。
4. 方法论
本文提出的 DECOR (Decomposed COntextual Token Representations) 框架旨在通过融合预训练语义和协作信号,解决生成推荐器中 次优静态标记化 (suboptimal static tokenization) 和 被丢弃预训练语义 (discarded pretrained semantics) 的问题。DECOR 包含两个核心组件:分解嵌入融合 (Decomposed Embedding Fusion) 和 上下文词元组合 (Contextualized Token Composition)。
4.1. 问题表述
在序列推荐场景下,给定一个物品集合 和用户 的交互序列 , 生成推荐任务的目标是预测下一个物品 。 生成推荐通过两个关键步骤完成:
- 物品标记化 (Item Tokenization): 将每个物品 映射到一个离散的词元序列 ,其中 是序列长度, 是预定义的词元集合。用户交互序列 转换为词元化序列 。
- 自回归生成 (Autoregressive Generation): 给定 ,模型自回归地生成对应于下一个目标物品 的词元序列 。其条件概率可表示为: 其中 表示物品 的第 个词元。
4.2. 语义索引器预训练 (Semantic Indexer Pretraining)
沿用 Rajput et al. (2023) 的方法,本文使用 RQ-VAE 作为语义索引器 (semantic indexer)。RQ-VAE 由一对 MLP (多层感知机) 编码器-解码器,以及一系列码本 (codebooks) 组成,其中 是量化层数。
给定物品元数据的预训练文本嵌入 ,分层量化 (hierarchical quantization) 通过残差步骤进行: 其中:
-
: 物品元数据的预训练文本嵌入。
-
:
MLP编码器。 -
: 编码器输出的初始潜在表示。
-
: 第 层量化后的残差表示。
-
: 在第 个码本 中执行最近邻查找 (nearest-neighbor lookup) 操作,找到与 距离最近的码字 。
-
: 第 层的码本,包含一组嵌入向量。
-
: 欧几里得距离。
物品的最终
语义 ID(semantic ID) 是来自每个量化层码本中最近向量的码索引 的拼接,并附加一个用于处理物品冲突的最终词元。
RQ-VAE 的训练是基于预训练语义嵌入重建的自监督任务。为了执行重建,量化表示 被解码回语义空间,其中 是码本 中对应于 语义 ID 的码本向量。
其中:
-
: 量化后的聚合表示。
-
: 第 层码本中被选中的码字。
-
:
MLP解码器。 -
: 重建后的语义表示。
整个
RQ-VAE语义索引器通过损失函数 进行优化: 其中: -
: 语义量化总损失。
-
: 重建损失,衡量原始嵌入 与解码器输出 之间的差异。
-
: 量化损失,用于码本更新和促进量化过程。
-
(stop-gradient): 停止梯度操作,表示在反向传播时不计算其参数的梯度。
-
: 平衡码本学习的超参数,通常设为
0.25。 -
: 在第 层码本中选择的码字。
4.3. 分解嵌入融合 (Decomposed Embedding Fusion)
为了保留预训练语义信息(解决 C2 问题),本文引入了 分解嵌入融合 模块。该模块动态融合预训练语义嵌入和新学习的协作嵌入表示。
-
预训练语义嵌入 (Pretrained Semantic Embeddings): 本文利用预训练
RQ-VAE词元分析器的码本作为预训练语义嵌入。这些码本提供了在语义重建目标下学习到的词元级嵌入,并保留了多阶段标记化引入的层次结构。形式上,预训练语义嵌入空间定义为: 其中:- : 层
RQ-VAE语义索引方案的第 层的冻结码本,包含 个嵌入向量。 - : 码本大小。
- : 嵌入维度,与推荐器模型的隐藏层大小保持一致。
- 冻结码本: 这些码本在推荐器训练阶段是冻结的,以确保预训练语义的保留。 对于词元索引 ,其预训练语义嵌入 通过直接查找相应的码本获得:。
- : 层
-
协作嵌入 (Collaborative Embeddings): 并行地,本文定义了协作嵌入空间 ,这是一个可学习的嵌入矩阵,从头开始通过自回归生成目标进行训练。与预训练语义嵌入不同,协作嵌入完全基于用户交互序列进行监督,使其能够编码共现和用户偏好动态等序列模式。
E_pre和E_collab具有相同的维度 ,以便后续无缝对齐和融合。 -
融合机制 (Fusion Mechanism): 为了弥合预训练语义和协作用户交互模式之间的模态鸿沟,首先将两种嵌入投影到共享的潜在空间,然后进行层归一化 (Layer Normalization): 其中:
-
: 经过投影和归一化后的预训练和协作词元嵌入。
-
: 原始的预训练和协作词元嵌入。
-
: 可学习的投影矩阵。
-
: 层归一化操作。
然后,将归一化后的嵌入拼接起来,并应用一个融合层将其映射回原始潜在空间: 其中:
-
: 可学习的融合矩阵。
-
: 向量拼接操作。
-
: 融合后的嵌入。
这个融合过程使模型能够将预训练语义和协作信号整合到一个统一的表示中,对齐异构模态,同时保留它们对下游推荐任务的互补优势。在前向传播期间,
分解嵌入融合模块根据每个物品 的输入词元序列 动态计算融合嵌入 。
-
4.4. 上下文词元组合 (Contextualized Token Composition)
为了解决静态物品词元表示在推荐背景下的次优问题(C1 问题),本文引入了 上下文词元组合 机制,该机制根据使用上下文精炼词元嵌入。
-
上下文向量计算 (Context Vector Computation): 给定一个目标物品 及其缓存的
语义 ID序列 以及历史上下文序列 ,为生成特定目标词元 计算上下文感知嵌入。 其中:-
: 上下文感知的组合词元嵌入。
-
: 组合函数。
-
: 从历史记录中导出的上下文向量。
-
: 候选组合词元的嵌入集合。
为了获得用于生成特定目标词元 的上下文向量 ,本文聚合历史上下文序列 的融合嵌入。每个 表示通过
分解嵌入融合模块获得的词元 的融合嵌入。具体来说,应用基于注意力的池化机制生成上下文摘要: 其中: -
: 多层感知机,将加权和转换为最终的上下文向量。
-
: 注意力权重,通过以下方式计算: 这里:
- , , : 注意力网络的可学习参数。 注意力池化允许模型以内容相关的方式关注历史嵌入,并动态计算上下文 。
-
-
词元组合 (Token Composition): 为了实现公式 (12) 中的 函数,本文定义了一个对固定候选词元嵌入集合 的软组合 (soft composition)。候选集 被选择为来自同一
RQ-VAE码本层的所有词元。这意味着词元组合允许每个词元嵌入整合来自预训练期间未充分利用或很少选择的码本条目的信息,从而通过插值超越原始静态词元分配,有效增加词元表示的多样性。 然后,在上下文向量 的引导下执行基于注意力的组合: 更简洁的表示是: 其中:-
: 可学习的投影矩阵。
-
: 组合权重。
-
: 组合后的词元嵌入。
上下文感知的组合词元嵌入 与原始静态嵌入 通过残差连接 (residual link) 进行融合: 其中:
-
: 最终的词元嵌入。
-
: 可调超参数,控制上下文适应的强度。较小的 值优先考虑静态嵌入,而较大的值鼓励基于提取的用户交互上下文进行重新解释。
总体而言,
上下文词元组合使模型能够在生成时灵活地将协作信号融入词元表示,从而在不修改词元分析器或不丢失预训练层次结构的情况下解决次优静态标记化问题。
-
-
可学习的
BOS嵌入组合 (Learnable BOS Embedding Composition): 在RQ-VAE语义索引方案中,物品语义 ID的第一个词元通常捕获粗粒度、高层语义(如物品的广泛类别),因此纠正这个第一个词元至关重要。为了在没有历史生成词元时启动生成过程,本文引入了一组 个可学习的序列开始(Beginning-of-Sequence, BOS) 查询向量 。这些BOS查询向量作为一组候选BOS词元的潜在表示,允许模型对BOS词元嵌入执行上下文组合,从而根据输入词元序列提供定制的BOS词元嵌入。 具体来说,对于目标词元 的生成,BOS词元通过上下文组合函数 进行组合: 其中:-
: 组合后的
BOS嵌入。 -
: 原始
BOS嵌入。 -
: 上下文向量。
-
: 可学习的
BOS查询向量集合。组合后的
BOS嵌入 用作物品词元自回归生成的初始前缀。可学习的BOS查询形成了一个统一的方案,确保所有生成的词元嵌入都通过上下文词元组合进行动态适应。因此,模型可以更好地将每个词元的解释与高层语义锚点(即通过初始BOS组合捕获的粗粒度物品语义)对齐,从而实现更精确和连贯的语义 ID序列生成。
-
4.5. 复杂度分析
- 分解嵌入融合 (Decomposed Embedding Fusion): 引入了每个物品的常数成本 ,通过投影和组合来自预训练和协作源的词元嵌入。
- 上下文词元组合 (Contextualized Token Composition):
- 计算上下文向量:通过对 个历史词元进行注意力池化,复杂度为 。
- 每个词元组合:对固定大小为 的候选集进行注意力,增加了 的成本。 由于 (嵌入维度) 和 (码本大小) 是常数,因此额外成本与上下文长度 成线性关系,与骨干推荐器模型中 Transformer 自注意力层 的复杂度相比,可以忽略不计。
4.6. DECOR 训练 (DECOR Training)
DECOR 集成到每次前向传播中。首先,通过结合预训练语义嵌入和协作表示,应用 分解嵌入融合 来计算编码器输入嵌入。在自回归生成过程中,用 上下文词元组合 替换静态嵌入查找,其中每个词元嵌入根据生成的上下文动态适应。这使得词元嵌入表示在训练期间能够演变。DECOR 保留了预训练语义并适应推荐信号,有效地解决了 次优静态标记化 (C1) 和 被丢弃文本语义 (C2) 这两个问题,并将其统一在一个框架中。
下图(原文 Figure 2)展示了 DECOR 框架如何通过 分解嵌入融合 和 上下文词元组合 来增强生成推荐。
该图像是一个示意图,展示了生成推荐算法的两个阶段:第一阶段是项目标记预训练,第二阶段是推荐器训练。图中分别阐述了如何在标记预训练阶段进行编码、共享权重以及在推荐器训练来构建上下文化的表示。关键流程如"Decomposed Embedding Fusion"和"Contextualized Token Composition"表现了如何结合预训练语义与新的协作嵌入。
图 2: DECOR 通过两个组件增强生成推荐:分解嵌入融合集成了冻结的预训练嵌入和新学习的协作嵌入,而上下文词元组合在自回归生成过程中动态精炼词元表示。
5. 实验设置
5.1. 数据集
为了验证方法的有效性,实验使用了三个来自最新 Amazon Review 数据集 (Hou et al. 2024) 的子集。遵循常见的评估协议和数据预处理方法 (Rajput et al. 2023; Wang et al. 2024a),作者应用了 5-core 过滤器,即排除了交互记录少于 5 次的物品和用户。之后,通过按时间顺序对物品进行对齐,构建用户交互序列,最大物品序列长度设置为 20。
以下是原文 Table 4 的数据集统计信息: 以下是原文 Table 4 的结果:
| Dataset | # Users | # Items | # Interactions | Sparsity |
| Scientific | 50,985 | 25,848 | 412,947 | 99.969% |
| Instrument | 57,439 | 24,587 | 511,836 | 99.964% |
| Game | 94,762 | 25,612 | 814,586 | 99.966% |
分析:
- 来源与领域: Amazon Review 数据集是电子商务领域常用的基准数据集,包含用户对商品的评论和评分,可以反映用户的真实购买行为和偏好。
- 规模: 三个数据集的用户、物品和交互数量分别为:
Scientific:约 5.1 万用户,2.6 万物品,41.3 万交互。Instrument:约 5.7 万用户,2.5 万物品,51.2 万交互。Game:约 9.5 万用户,2.6 万物品,81.5 万交互。 这些规模适中,适合验证推荐算法的有效性。Game数据集拥有最多的用户和交互,可能具有更丰富的协作信号。
- 稀疏性 (Sparsity): 所有数据集的稀疏性都非常高(约 99.96%),这反映了真实世界推荐系统面临的挑战——用户通常只与极少数物品进行交互。高稀疏性使得学习用户偏好和物品表示更具挑战性,也强调了从有限交互中提取有效信号的重要性。
- 预处理: 5-core 过滤和最大序列长度 20 是序列推荐领域常见的预处理步骤,旨在去除噪音用户/物品并控制序列长度,以便模型处理。
- 验证目的: 选择这些数据集可以有效地验证方法在不同领域(科学用品、乐器、游戏)和不同规模下的推荐性能,尤其是在高稀疏性环境中的表现。
5.2. 评估指标
所有模型均使用 Recall@K 和 NDCG@K 进行评估,其中 。
5.2.1. Recall@K (R@K)
概念定义: Recall@K 衡量的是在推荐列表的前 个物品中,有多少比例的实际相关物品被成功推荐。它关注的是模型找到所有相关物品的能力,即“召回”能力。
数学公式:
符号解释:
- : 在推荐列表的前 个物品中,实际相关物品的数量。
- : 实际相关物品的总数量。在序列推荐的下一个物品预测任务中,通常
Relevant Items就是指下一个实际交互的物品(即数量为 1)。因此,如果模型成功预测了下一个物品,该项为 1,否则为 0。
5.2.2. Normalized Discounted Cumulative Gain at K (NDCG@K)
概念定义: NDCG@K 是一个衡量排名质量的指标,它考虑了物品的相关性以及它们在推荐列表中的位置。它对排名靠前的相关物品给予更高的权重,这意味着如果一个高度相关的物品被排在很靠前的位置,NDCG@K 的值会更高。
数学公式:
首先定义 Discounted Cumulative Gain (DCG@K):
然后定义 Ideal Discounted Cumulative Gain (IDCG@K),它是理想情况下(所有相关物品按相关性降序排列)的 DCG@K 值。
最后,NDCG@K 定义为:
符号解释:
- : 推荐列表的长度。
- : 排名在第 位的物品的相关性分数。在二元相关性(相关或不相关)的推荐任务中,如果物品是用户下一个交互的物品,则 ,否则 。
- : 位置折扣因子,排名越靠后,折扣越大。
- : 理想的
DCG@K,即在完美推荐列表中的DCG@K值。 - : 实际推荐列表中的
DCG@K值。
分析:
Recall@K 和 NDCG@K 是序列推荐任务中常用的评估指标。Recall@K 更侧重于“命中率”,即模型能否在候选列表中找到目标物品。NDCG@K 则更全面,因为它不仅关注是否命中,还关注命中的物品在列表中的位置,对排名靠前的正确推荐给予更高的奖励,这与用户体验更相关。同时使用这两个指标可以从不同角度全面评估推荐性能。
5.3. 对比基线
实验将 DECOR 与一系列经典的基于 ID 的序列推荐器 (sequential recommenders) 和基于 LLM 的生成推荐器 (generative recommenders) 进行了比较。对于那些在不同实验设置下训练的基线,作者调整了其官方实现以适应本文的实验设置。对于在相同实验设置下训练的基线,则直接比较了论文中报告的性能。
5.3.1. 传统基线 (Traditional Baselines)
- Caser (Tang and Wang 2018): 采用卷积序列嵌入,通过垂直应用窄卷积滤波器学习序列模式,并通过水平应用滤波器检测共现潜在特征。
- GRU4Rec (Jannach and Ludewig 2017): 使用 GRU 网络编码基于会话的用户行为,并利用最终状态预测下一个物品。
- SASRec (Kang and McAuley 2018): 采用堆叠的 Transformer 编码器层与多头自注意力机制,建模用户交互序列中的长程依赖。
- BERT4Rec (Sun et al. 2019): 利用深度双向 Transformer 编码器,通过掩码物品预测学习上下文感知的物品表示。
- FDSA: (Full-Duplex Self-Attention,或类似的
Self-Attention变体) 在自注意力机制上进行改进,以捕获更复杂的序列关系。 - S3Rec (Zhou et al. 2020): 通过引入四个辅助的自监督任务(如掩码属性、预测掩码物品、区分子序列和对比完整序列),最大化互信息,增强预训练效果。
5.3.2. 生成推荐基线 (Generative Recommender Baselines)
- P5-SID (Hua et al. 2023): 将数字物品 ID 分解为有序的子词元(如前缀),使频繁共现或序列相邻的物品共享子词元模式,提高自回归生成中的局部性。
- P5-CID (Hua et al. 2023): 对协作共现图进行谱聚类以对物品进行分组,然后使用生成的聚类 ID 作为离散词元进行生成推荐。
- TIGER (Rajput et al. 2023): 将序列推荐构造成生成检索任务,通过
RQ-VAE将物品文本嵌入量化为固定词汇的语义 ID,并训练一个LLM自回归生成下一个物品的 ID。这是DECOR的一个重要基线。 - LETTER (Wang et al. 2024a): 通过强制对比对齐和多样性正则化来优化
RQ-VAE词元分析器,学习分层、协作和多样化的物品词元。 - CoST (Zhu et al. 2024): 训练一个量化码本,使用
InfoNCE风格的对比损失将物品嵌入映射到离散语义词元,同时保留语义相似性和邻域结构。 - ETEGRec (Liu et al. 2025): 联合优化词元分析器和推荐器模型,并使用一系列对齐损失来提高词元分析器-推荐器之间的一致性。这个基线是动态词元化方法的代表。
5.4. 评估设置 (Evaluation Settings)
- Top-K 评估: 所有模型均使用
Recall@K和NDCG@K(K=5, 10) 进行评估。 - 留一法 (Leave-one-out): 采用留一法策略。对于每个用户,其最后一个交互用于测试,倒数第二个交互用于验证,其余交互用于训练。
- 全排名评估 (Full-ranking evaluation): 在整个候选物品集上进行全排名评估,不进行采样。这意味着模型需要从所有可能的物品中选出最佳推荐,而不是从一个较小的采样集合中选择。
5.5. 实施细节 (Implementation Details)
-
基线复现: 作者首先实现了
TIGER的报告性能,并将其作为基线。 -
文本编码器: 使用
Sentence-T5作为预训练语义的文本编码器。 -
生成推荐器: 使用
T5作为生成推荐器。 -
硬件: 实验在单个
NVIDIA Tesla A40 GPU上进行。 -
超参数选择: 在验证集上选择
NDCG@10表现最好的模型。 -
随机种子: 随机种子固定为 2025,以确保实验的可复现性。
以下是原文 Table 5 的超参数: 以下是原文 Table 5 的结果:
| Hyperparameter | Scientific | Instrument | Game |
| learning_rate | 0.003 | 0.003 | 0.003 |
| warmup_steps | 10,000 | 10,000 | 10,001 |
| dropout_rate | 0.1 | 0.1 | 0.1 |
| max_grad_norm | 1.0 | 1.0 | 1.0 |
| weight_decay | 0.05 | 0.05 | 0.05 |
| beam_size | 50 | 50 | 50 |
| d_model | 128 | 128 | 128 |
| α | 0.25 | 0.55 | 0.55 |
| BOs_Query_Number | 32 | 64 | 64 |
| optimizer | adamw | adamw | adamw |
| lr_scheduler | cosine | cosine | cosine |
| train_batch_size | 256 | 256 | 256 |
| max_epochs | 200 | 200 | 200 |
| early_stop_patience | 20 | 20 | 10 |
分析:
- 学习率和优化器:
AdamW是一种带有权重衰减的Adam优化器,常用于 Transformer 模型训练。学习率0.003,配合warmup_steps和cosine学习率调度器,是常见的训练策略,有助于稳定训练并达到更好的性能。 - 正则化:
dropout_rate0.1和weight_decay0.05用于防止过拟合。max_grad_norm1.0用于梯度裁剪,防止梯度爆炸。 - 模型尺寸:
d_model128是 Transformer 模型的隐藏维度,相对较小,这可能意味着模型在效率和性能之间进行了权衡,或者考虑到单个A40 GPU的资源限制。 - 解码策略:
beam_size50表明在生成过程中使用了集束搜索 (beam search) 策略,这有助于找到更高质量的生成序列。 - DECOR 特有超参数:
- :
上下文词元组合中的混合权重,Scientific为0.25,Instrument和Game为0.55。这表明不同数据集对静态嵌入和上下文组合的侧重程度不同。 BOS_Query_Number: 可学习BOS查询的数量,Scientific为32,Instrument和Game为64。这反映了不同数据集可能需要不同数量的BOS锚点来捕获其语义多样性。
- :
- 训练和早停:
train_batch_size256相对标准,max_epochs200足够长,配合early_stop_patience(20 或 10) 可以避免不必要的训练,并在验证集性能不再提升时停止。
6. 实验结果与分析
6.1. 核心结果分析
以下是原文 Table 1 的结果:
| Group | Method | Scientific | Instrument | Game | |||||||||
| R@5 | R@10 | N@5 | N@10 | R@5 | R@10 | N@5 | N@10 | R@5 | R@10 | N@5 | N@10 | ||
| Traditional | Caser | 0.0172 | 0.0281 | 0.0107 | 0.0142 | 0.0242 | 0.0392 | 0.0154 | 0.0202 | 0.0346 | 0.0567 | 0.0221 | 0.0291 |
| GRU4Rec | 0.0221 | 0.0353 | 0.0144 | 0.0186 | 0.0345 | 0.0537 | 0.0220 | 0.0281 | 0.0522 | 0.0831 | 0.0337 | 0.0436 | |
| SASRec | 0.0256 | 0.0406 | 0.0147 | 0.0195 | 0.0341 | 0.0530 | 0.0217 | 0.0277 | 0.0517 | 0.0821 | 0.0329 | 0.0426 | |
| BERT4Rec | 0.0180 | 0.0300 | 0.0113 | 0.0151 | 0.0305 | 0.0483 | 0.0196 | 0.0253 | 0.0453 | 0.0716 | 0.0294 | 0.0378 | |
| FDSA | 0.0261 | 0.0391 | 0.0174 | 0.0216 | 0.0364 | 0.0557 | 0.0233 | 0.0295 | 0.0548 | 0.0857 | 0.0353 | 0.0453 | |
| S3Rec | 0.0253 | 0.0410 | 0.0172 | 0.0218 | 0.0340 | 0.0538 | 0.0218 | 0.0282 | 0.0533 | 0.0823 | 0.0351 | 0.0444 | |
| Generative (Static) | P5-SID | 0.0155 | 0.0234 | 0.0103 | 0.0129 | 0.0319 | 0.0437 | 0.0237 | 0.0275 | 0.0480 | 0.0693 | 0.0333 | 0.0401 |
| P5-CID | 0.0192 | 0.0300 | 0.0123 | 0.0158 | 0.0352 | 0.0507 | 0.0234 | 0.0285 | 0.0497 | 0.0748 | 0.0343 | 0.0424 | |
| TIGER | 0.0275 | 0.0431 | 0.0181 | 0.0231 | 0.0368 | 0.0574 | 0.0242 | 0.0308 | 0.0570 | 0.0895 | 0.0370 | 0.0471 | |
| LETTER | 0.0276 | 0.0433 | 0.0179 | 0.0230 | 0.0372 | 0.0581 | 0.0243 | 0.0310 | 0.0576 | 0.0901 | 0.0373 | 0.0475 | |
| CoST | 0.0270 | 0.0426 | 0.0180 | 0.0229 | 0.0366 | 0.0570 | 0.0242 | 0.0306 | 0.0569 | 0.0897 | 0.0379 | 0.0472 | |
| Generative (Dynamic) | ETEGRec | 0.0272 | 0.0433 | 0.0173 | 0.0225 | 0.0387 | 0.0609 | 0.0251 | 0.0323 | 0.0591 | 0.0925 | 0.0385 | 0.0492 |
| DECOR | 0.0301* | 0.0469* | 0.0201* | 0.0256* | 0.0399* | 0.0610 | 0.0266* | 0.0333* | 0.0610* | 0.0944* | 0.0400* | 0.0507* | |
分析: 从 Table 1 的实验结果中可以观察到以下关键发现:
-
DECOR 表现优异:
DECOR在所有三个数据集 (Scientific,Instrument,Game) 上的所有评估指标 (Recall@5,Recall@10,NDCG@5,NDCG@10) 上均取得了最佳性能(粗体表示),并且在多数情况下达到了统计学显著性(标有星号*)。这强有力地验证了DECOR方法的有效性。 -
生成推荐器普遍优于传统模型: 总体而言,生成推荐器(
TIGER,LETTER,CoST等)的性能普遍优于传统的序列推荐器(Caser,GRU4Rec,SASRec,BERT4Rec,FDSA,S3Rec)。这表明将推荐任务建模为序列生成问题,并利用LLM的强大能力,确实是提升推荐性能的有效途径。 -
DECOR 显著超越静态词元化生成器:
DECOR不仅超越了TIGER(作为其基础模型) 和LETTER,CoST等静态词元化生成推荐器,其性能提升是显著的。例如,在Scientific数据集上,DECOR的NDCG@10达到0.0256,相比TIGER的0.0231提升了约 10.8%。这表明上下文词元组合和分解嵌入融合能够有效地解决静态标记化和被丢弃预训练语义的问题。 -
DECOR 优于动态词元化基线 ETEGRec: 即使是与
ETEGRec这种尝试动态优化词元分析器和推荐器的基线相比,DECOR仍然表现出优越性。例如,在Scientific数据集上,DECOR的NDCG@10相对ETEGRec提升了约 13.8%。这支持了论文的论点,即DECOR通过上下文词元组合和分解嵌入融合提供了一个更鲁棒、更稳定的框架,避免了联合训练词元分析器可能带来的不稳定性和计算开销,同时实现了更好的性能。 -
P5-SID 和 P5-CID 表现相对较弱:
P5-SID和P5-CID在Scientific数据集上甚至弱于许多传统方法,这可能说明它们基于简单 ID 分解或聚类的方法在捕捉复杂语义和序列模式方面存在局限性。总的来说,实验结果明确地表明
DECOR的创新点——保留预训练语义和动态上下文适应——是有效的,使其成为当前生成推荐领域的最先进方法。
6.2. 消融实验 (Ablation Study)
以下是原文 Table 2 的结果:
| Model Variant | Scientific | Instrument | Game | |||||||||
| R@5 | R@10 | N@5 | N@10 | R@5 | R@10 | N@5 | N@10 | R@5 | R@10 | N@5 | N@10 | |
| Base (TIGER) | 0.0275 | 0.0431 | 0.0181 | 0.0231 | 0.0368 | 0.0574 | 0.0242 | 0.0308 | 0.0570 | 0.0895 | 0.0370 | 0.0471 |
| w/ Token Comp. | 0.0292 | 0.0459 | 0.0193 | 0.0247 | 0.0385 | 0.0583 | 0.0261 | 0.0321 | 0.0599 | 0.0931 | 0.0394 | 0.0502 |
| w/ Token Comp. and BOS Queries | 0.0300 | 0.0462 | 0.0198 | 0.0248 | 0.0374 | 0.0585 | 0.0246 | 0.0313 | 0.0600 | 0.0932 | 0.0395 | 0.0500 |
| w/ Pretrained Only | 0.0294 | 0.0457 | 0.0192 | 0.0246 | 0.0382 | 0.0595 | 0.0254 | 0.0323 | 0.0602 | 0.0934 | 0.0390 | 0.0501 |
| w/ Pretrained + Token Comp. | 0.0298 | 0.0465 | 0.0198 | 0.0250 | 0.0388 | 0.0598 | 0.0257 | 0.0324 | 0.0603 | 0.0932 | 0.0396 | 0.0500 |
| DECOR (Full) | 0.0301 | 0.0469 | 0.0201 | 0.0256 | 0.0399 | 0.0610 | 0.0266 | 0.0333 | 0.0610 | 0.0944 | 0.0400 | 0.0507 |
分析:
消融实验 (ablation study) 旨在评估 DECOR 各个组件的贡献。从 Table 2 的结果中可以得出以下结论:
-
上下文词元组合(Token Comp.) 的重要性:- 从
Base (TIGER)到w/ Token Comp.:仅添加上下文词元组合就带来了显著的性能提升。例如,在Instrument数据集上,NDCG@10从0.0308增加到0.0321(约 4.1% 的提升)。这证实了上下文词元组合在精炼静态词元语义方面的有效性,它能让模型更好地适应多样的使用上下文,从而解决次优静态标记化问题。
- 从
-
可学习 BOS 查询(BOS Queries) 的贡献:- 从
w/ Token Comp.到w/ Token Comp. and BOS Queries:进一步添加可学习 BOS 查询带来了额外的性能增益,尤其是在Scientific数据集上。这表明BOS查询有助于在生成第一个词元时更好地捕获多样化的用户偏好和高层语义锚点,从而改善整体生成过程的质量。
- 从
-
冻结预训练嵌入(Pretrained Only) 的价值:w/ Pretrained Only:仅仅保留冻结的预训练语义嵌入(不进行上下文组合)也显著提高了性能,例如在Instrument数据集上的NDCG@10从0.0308提升到0.0323。这表明保留预训练语义对于模型非常重要,可以提供丰富的外部知识和更好的物品表示基础,验证了解决被丢弃预训练语义问题的必要性。
-
预训练嵌入与上下文词元组合的协同作用:w/ Pretrained + Token Comp.:当同时结合冻结预训练嵌入和上下文词元组合时,性能进一步提升。这表明这两个组件是互补的,预训练语义提供了丰富的知识基础,而上下文组合则在此基础上实现了动态适应,共同提高了模型的表达能力。
-
DECOR (Full)的综合优势:-
DECOR (Full)版本(包含所有组件)始终优于所有消融变体。这证明了分解嵌入融合(通过Pretrained Only和Pretrained + Token Comp.评估)和上下文词元组合(通过Token Comp.和Token Comp. and BOS Queries评估)的集成是最佳策略,每个组件都为整体推荐质量做出了独特贡献。简而言之,消融实验清晰地表明
DECOR的每个核心组件都是有益的,并且它们协同工作,共同提升了生成推荐的性能。其中,上下文词元组合带来了最大的单项改进,而冻结预训练嵌入也提供了坚实的基础。
-
6.3. 超参数敏感性 (Hyperparameter Sensitivity)
下图(原文 Figure 3)展示了两个关键超参数对 DECOR 性能的影响:组合权重 和 BOS 查询数量。
该图像是一个结果对比图,展示了不同数据集(Scientific、Instrument、Game)在不同参数(Alpha和BOS Query Number)下的Recall@10和NDCG@10指标。通过分析,可以看出在不同 Alpha 值和 BOS 查询数量下各模型的性能变化。
图 3: DECOR 在所有数据集上关于上下文词元组合权重 和 BOS 查询数量的参数分析。阴影区域表示在极端设置下的性能崩溃。超参数搜索范围为: 和 BOS Query Number 。
分析:
6.3.1. 组合权重 的影响
组合权重 控制着最终词元嵌入中 上下文组合嵌入 () 与 原始静态嵌入 () 的混合比例。
- 鲁棒性:
DECOR对 值在一定范围内表现出较好的鲁棒性。 - 最佳范围: 中等值(例如 到
0.55)在不同数据集上持续带来最佳性能。这表明需要平衡残差连接(静态嵌入)和上下文感知组合的贡献,以达到最佳效果。 - 低 值: 即使 ,性能也比仅含预训练嵌入和词元组合的基线(
w/ Pretrained + Token Comp.,Table 2)有所提升。这说明即使是少量的上下文适应也能带来好处。 - 高 值导致性能下降: 极高的 值(例如
0.7)会导致性能急剧下降,甚至出现阴影区域表示的性能崩溃。这可能是因为模型过度依赖来自其他词元的组合信号,导致单个词元嵌入训练不足,尤其是在Instrument和Game这类具有更大交互空间的数据集上。在这些数据集上,词元嵌入需要尽早稳定以泛化到多样化的使用上下文。过度依赖组合可能会延迟嵌入收敛并导致训练失败。
6.3.2. BOS 查询数量 (BOS Query Number) 的影响
BOS 查询数量 控制着可学习的 序列开始 (BOS) 查询向量的数量,用于 BOS 词元的上下文组合。
- 性能提升: 在最佳
组合权重下,增加BOS 查询数量持续提升性能,尤其是在从0增加到32时。例如,在Scientific数据集上,NDCG@10从1.17%提升到2.56%。这表明BOS查询通过使模型在生成第一个词元之前更好地捕捉多样化的用户偏好,从而促进了有意义的收敛。 - 性能饱和: 超过一定数量(例如
Scientific上的32,Game上的64)后,性能增益趋于平稳,更大的值(如128)没有带来额外的改进。这可能是因为模型已经捕获了足够的上下文信息,额外的BOS查询提供了冗余信号,对推荐质量不再有进一步贡献。
6.4. 解决次优静态标记化 (Addressing Suboptimal Static Tokenization)
6.4.1. 前缀模糊性案例研究 (Case Study for Prefix Ambiguity)
为了更好地理解 DECOR 是否解决了 次优静态标记化 问题,作者在 Scientific 数据集上进行了前缀模糊性 (prefix ambiguity) 的案例研究。
下图(原文 Figure 4)展示了在 上下文词元组合 前后词元嵌入的 t-SNE 可视化。
该图像是一个示意图,左侧展示了采用静态前缀表示的项目分布,右侧展示了采用上下文组合前缀表示后项目的分布变化。图中标注了不同类型的前缀,包括由星标指示的原始前缀以及其他带有颜色区分的前缀和可能的下一个SID3。
图 4: Scientific 数据集上前缀模糊性的案例研究。与静态标记化(左)相比,DECOR(右)生成的前缀嵌入是上下文自适应的,增强了消歧的表达能力。
分析:
- 静态标记化(左图): 静态标记化为前缀 (1, 276) 生成了一个固定的嵌入。从图中可以看出,这个固定的前缀嵌入与有效的
下一个词元候选(红色三角形)缺乏语义一致性。它无法区分同一前缀在不同上下文中的含义,导致了模糊性。 - DECOR(右图): 经过
上下文词元组合后,散布的组合前缀嵌入与有效的下一个词元候选更连贯地对齐。这表明DECOR能够根据上下文自适应地增强前缀表示,有效缓解了静态标记化带来的模糊性。模型不再受限于一个固定不变的语义,而是可以根据历史交互动态调整前缀的含义,从而更精确地进行推荐。
6.4.2. 嵌入利用率 (Embedding Utilization)
以下是原文 Table 3 的结果:
| Dataset | Method | Embedding Utilization | ||
| Layer-1 | Layer-2 | Layer-3 | ||
| Scientific | TIGER Ours |
26.6% 51.06% |
99.07% 99.97% |
99.87% 100.00% |
| Instrument | TIGER Ours |
27.97% 100.00% |
96.77% 100.00% |
100.00% 100.00% |
| Game | TIGER Ours |
25.67% 100.00% |
99.61% 100.00% |
100.00% 100.00% |
分析:
该表格比较了 TIGER 和 DECOR 在每个量化层 (quantization layer) 的活跃嵌入 (active embedding) 使用情况。活跃嵌入指的是在训练过程中被实际使用或激活的码本条目。
-
TIGER 的嵌入利用率问题:
- 在
TIGER中,第一量化层的活跃嵌入利用率非常低,仅为25-28%。这意味着大部分码本条目在预训练过程中未被充分利用或选择。这正是次优静态标记化问题的一个体现,即静态分配导致了码本容量的浪费,模型无法充分利用其表示能力。
- 在
-
DECOR 显著提高嵌入利用率:
- 通过过滤掉
低于均匀组合注意力权重的词元(即根据公式 16,权重不足的词元),DECOR显著提高了活跃嵌入的覆盖率。 - 在
Instrument和Game数据集上,DECOR将第一层的利用率提高到100%,表明模型能够充分利用所有码本条目进行上下文组合。 - 在
Scientific数据集上,利用率也显著提高到51.06%。由于Scientific数据集的交互量比其他数据集少(详见附录),其上下文建模可能不如其他数据集多样化,因此DECOR能够自适应地激活更多的嵌入,但并非完全激活,这体现了其高效的表示使用。
- 通过过滤掉
-
高层利用率: 对于
Layer-2和Layer-3,TIGER和DECOR的利用率都相对较高,接近100%。这可能因为高层码本捕获的是更细粒度的语义或残差信息,更频繁地被模型使用。然而,第一层的提升尤为关键,因为它捕获的是粗粒度、高层语义,其利用率的提高对整体语义表达能力至关重要。结论: 嵌入利用率的提升进一步证明了
DECOR能够有效缓解次优静态标记化问题。通过上下文词元组合,模型能够动态地激活和利用码本中以前未使用的嵌入,从而增加了词元表示的多样性和表达能力,使模型能够更好地适应不同的推荐上下文。
7. 总结与思考
7.1. 结论总结
本文深入分析了当前生成推荐器在两阶段范式下存在的两个核心局限性:
-
次优的静态标记化 (suboptimal static tokenization):固定词元分配无法反映多样化的使用上下文,导致前缀模糊性和码本利用率低下。
-
被丢弃的预训练语义 (discarded pretrained semantics):预训练知识在推荐器训练中被用户交互数据覆盖,损失了丰富的外部语义。
为了解决这些问题,论文提出了 DECOR (Decomposed COntextual Token Representations) 框架。
DECOR的核心创新在于:
-
分解嵌入融合 (Decomposed Embedding Fusion):通过将冻结的
RQ-VAE预训练码本嵌入与新学习的协作嵌入进行融合,有效地保留了预训练语义,并自适应地整合了语义知识和协作交互模式。 -
上下文词元组合 (Contextualized Token Composition):在生成词元时,动态地根据用户交互上下文精炼词元嵌入。这通过软组合其他词元嵌入,并结合可学习的
BOS查询,实现了词元语义的上下文自适应重新解释,从而克服了静态标记化的局限性。在
Scientific、Instrument和Game三个真实世界数据集上的广泛实验表明,DECOR在Recall@K和NDCG@K等指标上持续优于所有对比的传统序列推荐器和最先进的生成推荐基线模型,包括TIGER和ETEGRec。消融实验也证实了分解嵌入融合和上下文词元组合各自以及协同作用对性能提升的关键贡献。此外,案例研究和嵌入利用率分析直观地展示了DECOR如何有效缓解前缀模糊性并提高码本嵌入的利用率,从而增强了词元表示的灵活性和表达能力。
7.2. 局限性与未来工作
论文中并未明确指出自身方法的局限性或提出未来工作方向。然而,作为一篇严谨的学术论文,我们可以根据其方法和实验推断出一些潜在的局限性并展望未来的研究方向。
潜在局限性:
- 计算开销(虽然已优化但仍存在): 尽管作者声称
上下文词元组合的额外计算成本相对于 Transformer 骨干网络是可忽略的,但分解嵌入融合和上下文词元组合机制仍然引入了额外的计算层和参数。在大规模推荐系统(例如,具有数亿甚至数十亿物品)中,即使是线性增长的计算开销也可能变得显著,尤其是在实时推荐场景下。 - 超参数敏感性: 尽管论文指出
DECOR对 值在一定范围内是鲁棒的,但图 3 所示,过高或过低的 值都会导致性能急剧下降甚至崩溃。这意味着在实际应用中,对关键超参数(如 和BOS 查询数量)的调优仍然是必要的,这可能需要大量的验证和计算资源。 - 泛化能力与新物品问题:
DECOR依赖于预训练RQ-VAE码本和协作嵌入。对于新物品(cold-start items),如果其元数据与预训练语义嵌入偏差较大,或者缺乏足够的交互数据来学习协作嵌入,其推荐效果可能会受到影响。尽管预训练语义有助于缓解,但上下文词元组合仍需要一定的历史上下文。 - 可解释性: 虽然
DECOR提升了性能,但其内部的动态组合机制可能增加了模型的可解释性挑战。理解特定推荐是源于哪个词元组合、以及这些组合如何受上下文影响,可能不如传统的基于规则或简单嵌入的方法直观。 - LLM 幻觉 (Hallucination) 风险: 作为基于
LLM的生成推荐器,尽管本文的重点在于词元表示,但LLM在生成过程中固有地存在生成不相关或“幻觉”内容的风险。如果生成的语义 ID序列不对应任何真实物品,则会影响推荐质量。
未来研究方向:
- 更高效的动态词元表示: 探索在不引入大量计算开销的情况下,进一步优化动态词元表示的方法。例如,可以通过稀疏激活、知识蒸馏或更轻量级的注意力机制来实现。
- 自适应超参数调优: 开发自适应机制,使模型能够根据数据集特性或实时上下文动态调整 和
BOS 查询数量等超参数,减少人工调优的负担并提高泛化能力。 - 冷启动物品和用户的处理: 进一步研究
DECOR如何更好地处理冷启动物品和用户。例如,可以结合更先进的元学习 (meta-learning) 或强化学习 (reinforcement learning) 技术,以在数据稀疏的情况下更有效地学习上下文信息。 - 增强可解释性: 探索提高
DECOR推荐可解释性的方法,例如通过注意力权重可视化、解释性模型或用户反馈循环,以帮助用户理解推荐理由。 - 多模态信息融合: 除了文本元数据,可以考虑整合图像、音频、视频等多模态信息,以进一步丰富物品的语义表示,并研究如何在
分解嵌入融合中处理更复杂的异构模态。 - 端到端优化与稳定性: 尽管本文避免了
ETEGRec的不稳定性,但重新审视在保证稳定性的前提下,如何更有效地进行词元分析器和推荐器的端到端联合优化,仍是一个有价值的方向。 - 针对 LLM 幻觉的缓解策略: 针对生成推荐器可能出现的幻觉问题,研究如何引入约束、验证机制或对抗训练,以确保生成
语义 ID序列的有效性和真实性。
7.3. 个人启发与批判
个人启发:
这篇论文提供了一个非常重要的视角,即在利用 LLM 进行生成推荐时,不应仅仅将物品 标记化 (tokenization) 视为一个预处理步骤,而是要持续关注 词元表示 (token representation) 在推荐过程中的动态性和语义完整性。
- 模块化创新与问题解耦:
DECOR通过分解嵌入融合和上下文词元组合两个相对独立的模块,巧妙地解决了两个核心问题。这种模块化的设计思路值得借鉴,即当一个复杂系统存在多个问题时,可以尝试针对性地设计解耦的解决方案,而不是试图用一个大模型包打天下。 - “不破坏”预训练知识:
冻结预训练码本这一策略非常聪明。它避免了重新训练复杂RQ-VAE的开销和不稳定性,同时通过融合机制确保了预训练语义的持续利用,这对于依赖LLM预训练知识的生成模型来说是至关重要的。 - 动态适应的轻量级实现:
上下文词元组合以一种轻量级的方式实现了词元表示的动态适应,避免了ETEGRec那种可能更重、更不稳定的端到端词元分析器优化。这种“在不改变骨骼的情况下,动态调整皮肤和肌肉”的思路,为其他复杂模型的动态适应提供了新的范例。 - 深挖表示层潜力: 论文聚焦于
词元表示层面进行创新,而非仅仅替换LLM骨干网络或调整损失函数。这提醒我们,在现有强大模型(如T5)之上,对输入和输出表示的精细化设计仍然可以带来显著的性能提升。
批判:
-
“被丢弃预训练语义”的程度: 论文指出
C2问题为“被丢弃的预训练语义”。然而,即使在TIGER等基线中,RQ-VAE也是在预训练语义嵌入上训练的,并且LLM在其上进行微调。因此,这些语义不太可能完全被“丢弃”,更可能是稀释或被用户交互信号所覆盖。DECOR的贡献可能更多在于有效重新激活和平衡这些语义,而非完全从“丢弃”中“挽救”。 -
d_model较小: 实验中d_model(隐藏层维度) 仅为128。对于LLM来说,这相对较小。在更大的d_model下,模型本身的表示能力更强,其静态词元可能会捕捉到更丰富的语义。在这种情况下,上下文词元组合带来的提升是否依然显著?或者,如果d_model足够大,模型是否能够自行学习到部分上下文适应能力? -
通用性限制:
DECOR依赖于RQ-VAE生成的离散语义 ID。对于不使用这种标记化方案的生成推荐器(例如直接使用物品 ID 或更复杂的连续嵌入作为输入),DECOR的部分组件可能不直接适用,需要进一步的修改。 -
更复杂的交互上下文: 论文主要关注用户交互序列作为上下文。未来的工作可以考虑更丰富的上下文信息,例如用户画像、环境因素、时间动态等。
DECOR的上下文向量计算模块可以扩展,但如何高效地融合这些异构上下文,仍需进一步探索。总而言之,
DECOR为生成推荐领域提供了一个优雅且高效的解决方案,成功地解决了静态标记化和预训练语义利用的核心挑战。其模块化的设计思想和在表示层面的创新值得广泛学习和借鉴。
相似论文推荐
基于向量语义检索推荐的相关论文。