Inductive Generative Recommendation via Retrieval-based Speculation
TL;DR 精炼摘要
本文提出了`SpecGR`,一种基于检索的归纳式生成推荐框架,旨在弥补生成式推荐模型在推荐未见物品时的不足。通过引入具有归纳能力的草拟模型来提出候选物品,并由生成式模型进行验证,`SpecGR`显著提升了推荐精准度和性能。
摘要
Generative recommendation (GR) is an emerging paradigm that tokenizes items into discrete tokens and learns to autoregressively generate the next tokens as predictions. While this token-generation paradigm is expected to surpass traditional transductive methods, potentially generating new items directly based on semantics, we empirically show that GR models predominantly generate items seen during training and struggle to recommend unseen items. In this paper, we propose SpecGR, a plug-and-play framework that enables GR models to recommend new items in an inductive setting. SpecGR uses a drafter model with inductive capability to propose candidate items, which may include both existing items and new items. The GR model then acts as a verifier, accepting or rejecting candidates while retaining its strong ranking capabilities. We further introduce the guided re-drafting technique to make the proposed candidates more aligned with the outputs of generative recommendation models, improving the verification efficiency. We consider two variants for drafting: (1) using an auxiliary drafter model for better flexibility, or (2) leveraging the GR model's own encoder for parameter-efficient self-drafting. Extensive experiments on three real-world datasets demonstrate that SpecGR exhibits both strong inductive recommendation ability and the best overall performance among the compared methods. Our code is available at: https://github.com/Jamesding000/SpecGR.
思维导图
论文精读
中文精读
1. 论文基本信息
1.1. 标题
Inductive Generative Recommendation via Retrieval-based Speculation (通过基于检索的推测实现归纳式生成推荐)
1.2. 作者
Yijie Ding, Jiacheng Li, Julian McAuley, Yupeng Hou*
1.3. 发表机构
University of California, San Diego (加利福尼亚大学圣迭戈分校)
1.4. 发表日期与状态
- 发布日期 (UTC): 2024-10-03T19:32:32.000Z
- 状态: 预印本 (arXiv preprint)
1.5. 摘要
生成式推荐 (Generative Recommendation, GR) 是一种新兴的范式,它将物品 (item) 标记化 (tokenize) 为离散词元 (discrete tokens),并学习自回归地生成下一个词元作为预测。尽管这种词元生成范式有望超越传统的转导式 (transductive) 方法,可能直接基于语义生成新物品,但我们实证表明,GR 模型主要生成训练期间见过的物品,并且难以推荐未见过的物品 (unseen items)。
本文提出了 SpecGR,一个即插即用 (plug-and-play) 的框架,使 GR 模型能够在归纳式 (inductive) 设置中推荐新物品。SpecGR 使用一个具有归纳能力的草拟模型 (drafter model) 来提出候选物品,这些候选物品可能包括现有物品和新物品。然后,GR 模型充当验证器 (verifier),接受或拒绝这些候选物品,同时保留其强大的排序能力。我们进一步引入了引导式重草拟 (guided re-drafting) 技术,使提出的候选物品与生成式推荐模型的输出更一致,从而提高了验证效率。我们考虑了两种草拟变体:(1) 使用辅助草拟模型以获得更好的灵活性,或 (2) 利用 GR 模型自身的编码器 (encoder) 进行参数高效的自草拟 (self-drafting)。在三个真实世界数据集上的大量实验表明,SpecGR 展现出强大的归纳推荐能力和在所有比较方法中最佳的整体性能。
1.6. 原文链接
2. 整体概括
2.1. 研究背景与动机
2.1.1. 生成式推荐的挑战:未见物品推荐
生成式推荐 (Generative Recommendation, GR) 是序列推荐任务 (sequential recommendation tasks) 中的一种新兴范式,它通过将物品 (item) 转化为离散的语义 ID (semantic IDs) 词元 (token),并使用自回归 (autoregressive) 模型预测下一个词元序列,从而实现物品推荐。这种方法具有易于扩展和性能优越的优点,被期望能够直接基于语义生成新物品 (new items),从而超越传统的基于物品 ID 的转导式 (transductive) 方法。
然而,论文通过实证分析发现,GR 模型存在一个显著的局限性:它们主要倾向于生成在训练期间已经见过的物品。对于那些在训练数据中从未出现过的新物品,GR 模型几乎无法有效地进行推荐。这主要是因为模型容易过度拟合 (overfit) 训练数据中的语义 ID 模式,导致其生成输出与新物品的语义 ID 模式不匹配。在新闻或短视频平台等对推荐时效性要求高的场景中,无法推荐新物品极大地限制了 GR 模型的实际应用价值。
2.1.2. 现有归纳式推荐方法的局限性
传统的推荐系统通过结合物品的辅助信息 (side information) 和 K-最近邻 (K-nearest neighbor, KNN) 搜索来实现归纳式推荐 (inductive recommendation)。尽管 GR 模型也可以将带有辅助信息的物品编码为语义 ID,但它们在自回归生成过程中仍难以产生未见物品的语义 ID 模式。
现有一些工作尝试将 GR 模型的输出与非 GR 方法检索到的物品进行融合,但这未能充分利用 GR 模型强大的建模能力,导致次优的性能。因此,如何开发一个灵活、即时 (on-the-fly) 的推理框架,使 GR 模型能够有效推荐新物品,同时保留其核心优势,是一个亟待解决的非平凡 (non-trivial) 问题。
2.2. 核心贡献/主要发现
本文提出了 SpecGR (Speculative Generative Recommendation),一个即插即用的框架,旨在为生成式推荐模型赋予强大的归纳推荐能力,使其能够有效地推荐新物品。其核心贡献和主要发现如下:
- 提出
SpecGR框架:SpecGR借鉴了推测解码 (speculative decoding) 的思想,将其扩展为一个“草拟-验证” (draft-then-verify) 框架。它将一个具有归纳能力的模型作为草拟器 (drafter),负责提出包含现有和新物品的候选集;将强大的 GR 模型作为验证器 (verifier),负责根据其推荐能力接受或拒绝这些候选物品。这种机制确保了最终推荐的物品都经过 GR 模型的评分和排序。 - 引入引导式重草拟 (Guided Re-drafting): 为了提高验证效率,
SpecGR引入了引导式重草拟技术。当初始草拟的候选物品被接受的数量不足时,GR 模型会根据已生成的语义 ID 前缀 (semantic ID prefixes) 来引导草拟器生成更符合验证器分布的高质量候选物品,从而提高后续候选物品的接受率。 - 提供两种草拟策略:
- 辅助草拟模型 (Auxiliary Drafter Model): 允许使用独立的归纳式推荐模型(如
UniSRec)作为草拟器,提供更大的灵活性。 - GR 编码器自草拟 (): 提出了一种参数高效的策略,直接利用 GR 模型自身的编码器作为草拟器。通过对比学习 (contrastive learning) 和学习排序 (learning-to-rank) 预训练与微调,使编码器能够生成强大的归纳式嵌入。
- 辅助草拟模型 (Auxiliary Drafter Model): 允许使用独立的归纳式推荐模型(如
- 实验验证: 在三个真实世界数据集上的广泛实验表明,
SpecGR显著提升了 GR 模型推荐新物品的能力,并在所有比较方法中取得了最佳的整体性能。特别是, 在保持参数高效性的同时,也展现了与辅助模型草拟相当的性能。
2.3. 论文插图概述
以下是论文中部分核心插图的概述,它们直观地展示了 SpecGR 的核心思想和工作原理:
2.3.1. GR 模型在归纳设置中的挑战与 SpecGR 的解决方案
下图(原文 Figure 1)直观地展示了 GR 模型在归纳式推荐中的局限性,并引入了 SpecGR 作为解决方案。
该图像是示意图,展示了“SpecGR”框架中的诱导草拟与目标感知验证过程。左侧显示购买历史中现有商品的编码,底部为草拟器(Drafter),中间为验证器(GR Model),其输出为“logits”。右侧展示了给定购买历史时,模型对新候选项(如鞋子)的概率评估,表明在特定情况下验证是否通过的过程。整体体现了如何在推荐系统中实施新项目的识别与验证。
Figure 1: (1 & 2) GR models struggle to generate unseen items in an inductive setting. (3) SpecGR, a draft-then-verify framework, leverages GR models to verify candidates from an inductive drafter, enabling new-item recommendations.
- 图 1 (1 & 2): GR 模型难以生成未见物品。它以传统的 GR 推荐流程为例,展示了模型如何根据购买历史(如
1 2 3)自回归地预测下一个物品(如4),并给出了预测概率。但其主要问题是无法推荐那些未在训练中出现的物品。图中左上角展示了新物品(运动鞋)如何被添加到物品池中,但 GR 模型难以识别和推荐这些新物品。 - 图 1 (3):
SpecGR框架概览。SpecGR采用了“草拟-验证”框架。一个归纳式草拟器(Drafter)负责根据输入序列(Purchase History)提出潜在的候选物品(Candidates),其中可能包含新物品。然后,GR 模型(Verifier)不再是直接生成物品,而是对这些候选物品进行验证和打分,接受或拒绝它们。这个过程使得 GR 模型能够有效地处理新物品的推荐。
2.3.2. SpecGR 框架的详细流程
下图(原文 Figure 2)详细描绘了 SpecGR 框架的组件和流程,包括诱导草拟、目标感知验证、引导式重草拟和自适应退出。
该图像是示意图,展示了SpecGR框架中的草拟和验证过程。框架包含三部分:引导草拟、目标识别验证和引导重草拟,旨在提高生成推荐模型的效率。草拟阶段包括使用辅助模型或自草拟来生成候选项,验证阶段则决定接受或拒绝这些候选项。该流程通过引导重草拟,从语义ID中筛选候选项以提高精度。
VLM 描述: 该图像是示意图,展示了SpecGR框架中的草拟和验证过程。框架包含三部分:引导草拟、目标识别验证和引导重草拟,旨在提高生成推荐模型的效率。草拟阶段包括使用辅助模型或自草拟来生成候选项,验证阶段则决定接受或拒绝这些候选项。该流程通过引导重草拟,从语义ID中筛选候选项以提高精度。
- 诱导草拟 (Inductive Drafting): 给定用户的历史购买序列 ,草拟模型
D(.)会生成一个包含 个候选物品的集合 。这些候选物品可能包括现有物品和新物品。 - 目标感知验证 (Target-aware Verifying): GR 模型
V(.)作为验证器,接收草拟器提出的候选物品。它根据候选物品的语义 ID 模式和输入序列,计算其条件概率作为验证分数。分数高于阈值 的物品被接受。 - 引导式重草拟 (Guided Re-drafting): 如果接受的物品数量不足 ,GR 模型会通过束搜索 (beam search) 生成一组语义 ID 前缀 。草拟器被引导,只生成那些前缀与 匹配的候选物品,从而提高后续草拟的质量和接受率。
- 自适应退出 (Adaptive Exiting): 一旦接受的物品数量达到 ,框架立即退出并输出这些物品,根据 GR 模型给出的分数进行排序。这个过程是自适应的,可以减少不必要的解码步骤,从而提高推理效率。
3. 预备知识与相关工作
3.1. 基础概念
3.1.1. 生成式推荐 (Generative Recommendation, GR)
生成式推荐是一种新兴的推荐范式。与传统的通过预测物品 ID 或学习物品嵌入 (item embedding) 来进行推荐不同,GR 模型将物品(item)转换为离散的词元(token),通常称为语义 ID (semantic IDs)。每个物品不再是一个单一的 ID,而是一个由几个数字或字符组成的序列。GR 模型被训练成一个自回归模型 (autoregressive model),类似于大型语言模型 (Large Language Models, LLMs),它根据用户的历史序列,自回归地预测下一个物品的语义 ID 序列。
- 核心思想: 将推荐问题转化为序列生成问题。
- 优点:
- 可扩展性 (Scalability): 能够处理大规模的物品库。
- 语义理解 (Semantic Understanding): 通过语义 ID 捕获物品之间的语义关联,理论上可以推荐未见过的物品。
- 内存效率 (Memory Efficiency): 不需要为每个物品维护一个独立的嵌入向量。
- 代表模型:
TIGER(Rajput et al. 2024),DSI(Tay et al. 2022) 等。
3.1.2. 归纳式推荐 (Inductive Recommendation) 与冷启动 (Cold-Start)
- 归纳式推荐: 指模型能够对在训练期间未见过的新用户 (new users) 或新物品 (new items) 进行推荐。在实际应用中,新物品不断涌现,模型必须具备处理这些新物品的能力。
- 物品冷启动 (Item Cold-Start): 特指推荐系统中,新上线的物品由于缺乏历史交互数据,难以被现有模型有效推荐的问题。
- 挑战: 传统推荐模型(如基于物品 ID 的
SASRec)无法推荐新物品,因为它们在训练时没有这些物品的 ID。GR 模型虽然理论上可以生成新物品的语义 ID,但实践中往往难以做到。
3.1.3. 推测解码 (Speculative Decoding)
推测解码是加速大型语言模型推理的一种技术。
- 核心思想: 利用一个轻量级、同源 (homologous) 的“草拟模型” (drafter model) 快速预测未来的词元序列。然后,一个更强大、更准确的“目标模型” (target model) 作为验证器 (verifier),并行地验证这些预测的词元序列。如果预测正确,目标模型可以直接接受,从而避免了逐个词元自回归生成的高延迟。
- 优点: 在保持输出质量的同时,显著降低推理延迟。
- 与
SpecGR的区别: 传统的推测解码主要关注加速推理,草拟模型是目标模型的近似。SpecGR扩展了这一概念,草拟模型并非目标模型的近似,而是具有不同能力(归纳能力)的模型,其目标是引入新能力(推荐未见物品),而不仅仅是加速。
3.1.4. K-最近邻 (K-Nearest Neighbor, KNN)
KNN 是一种非参数的机器学习算法,常用于分类和回归任务。在推荐系统中,它也常用于检索与给定查询 (query) 最相似的物品或用户。
- 在归纳式推荐中的应用: 当物品具有丰富的辅助信息(如文本描述、图像特征)时,可以通过这些特征计算物品的嵌入 (embedding) 向量。然后,通过 KNN 搜索,可以找到与用户历史行为或查询物品最相似的物品,即使这些物品是新物品。
3.2. 前人工作
3.2.1. 传统序列推荐模型 (Traditional Sequential Recommendation Models)
SASRec(Kang and McAuley 2018): 一种基于自注意力机制 (self-attention mechanism) 的序列推荐模型。它为每个物品分配一个独特的嵌入向量,并通过学习用户历史行为序列中的物品依赖关系来预测下一个物品。FDSA(Zhang et al. 2019) 和S3-Rec(Zhou et al. 2020): 这些模型在SASRec的基础上,进一步引入了物品的特征信息(如文本、类别),或采用了自监督学习 (self-supervised learning) 的技术来增强模型性能。- 局限性: 这些模型本质上是转导式的,它们为训练集中每个物品学习一个固定 ID 嵌入。因此,它们无法直接推荐在训练中未见过的新物品。
3.2.2. 基于模态的推荐模型 (Modality-based Recommendation Models)
UniSRec(Hou etol. 2022) 和RecFormer(Li et al. 2023): 这些模型利用物品的辅助信息(如标题、描述、图像等),通过预训练语言模型 (Pretrained Language Models, PLMs) 或其他模态编码器 (modality encoders) 生成物品的语义嵌入。然后,通过计算这些嵌入的相似度来进行推荐。- 优点: 能够处理新物品,因为新物品也可以通过其辅助信息生成嵌入。
- 局限性: 它们的建模能力可能不如强大的 GR 模型在捕捉细粒度用户偏好方面那么强大。
3.2.3. 生成式推荐模型 (Generative Recommendation Models)
TIGER(Rajput et al. 2024),TIGERc(Rajput et al. 2024),LIGER(Yang et al. 2024): 这些是论文中直接比较的 GR 模型。TIGER:将物品 token 化为语义 ID,并自回归生成下一个物品的语义 ID。TIGERc:TIGER的一个变体,尝试通过启发式策略将固定比例的未见物品混合到TIGER的推荐列表中。这是一种简单的融合策略,其性能受限于启发式规则。LIGER:通过融合 GR 模型的输出和密集检索 (dense retrieval) 的结果来增强归纳能力。这与TIGERc类似,都是通过简单混合不同模型输出来处理未见物品,但未能充分利用 GR 模型的验证能力。
DSI(Tay et al. 2022): 另一种 GR 模型,它使用分层 K 均值 (hierarchical K-means) 聚类来派生物品的语义 ID。- 共同局限性: 尽管 GR 模型理论上可以生成新物品,但如论文实证所示,它们倾向于生成训练期间见过的语义 ID,难以推广到未见物品。
3.3. 差异化分析
SpecGR 与现有工作的主要区别和创新点体现在以下几个方面:
- 从生成到验证的角色转变:
- 传统 GR: 专注于自回归“生成”下一个物品的语义 ID。
SpecGR: 将 GR 模型从“生成器”的角色转变为“验证器”的角色。它不再期望 GR 模型凭空生成新物品的 ID,而是让一个归纳式草拟器提出候选,GR 模型负责验证和排序这些候选。这种角色转变巧妙地利用了 GR 模型强大的排序能力,同时规避了其在生成未见物品时的固有局限性。
- 融合不同范式模型的能力:
- 传统推测解码: 草拟器通常是目标模型的轻量级同源版本,主要用于加速。
SpecGR: 草拟器是一个具有归纳能力的模型(可以是 KNN-based 模型、模态模型或 GR 编码器),与 GR 验证器具有不同的能力和范式。这种异构模型的集成,使得SpecGR能够引入传统 GR 模型缺乏的归纳能力。
- 引导式重草拟提升效率:
- 现有融合方法 (如
TIGERc,LIGER): 通常采用简单的混合或启发式融合策略,未能有效利用 GR 模型的内部信息来提升候选质量。 SpecGR: 引入了“引导式重草拟”机制。GR 模型通过其内部的束搜索结果(语义 ID 前缀)来“指导”草拟器进行下一轮的草拟,确保后续候选物品更符合 GR 模型的偏好分布,从而显著提高了验证效率和最终推荐质量。
- 现有融合方法 (如
- 参数高效的自草拟策略 ():
- 现有方法: 需要额外的模型或模块来处理归纳推荐。
- : 通过重用 GR 模型的编码器作为草拟器,并采用对比学习和学习排序的联合训练策略,实现了参数高效的归纳推荐能力。这减少了额外的模型开销,并促进了生成和表示学习的统一。
- 端到端验证与排序:
- 现有融合方法: 往往是简单地合并不同模型的输出,可能导致最终推荐列表的质量不一致。
SpecGR: 确保所有最终推荐的物品都经过 GR 验证器的打分和排序,从而保持了推荐质量和一致性。
4. 方法论
本文提出的 SpecGR (Speculative Generative Recommendation) 框架旨在将归纳能力引入生成式推荐模型,使其能够有效推荐新物品。该框架的核心思想是将 GR 模型从直接生成物品转变为验证由归纳式草拟器提出的候选物品。
4.1. 问题设置与形式化 (Problem Setup and Formulation)
SpecGR 遵循归纳式序列推荐任务 (inductive sequential recommendation task) 的设置。
-
输入: 用户按时间顺序交互的物品序列 ,其中 为序列长度。每个物品 具有相关的文本特征(如标题、描述、类别)。
-
目标: 预测用户下一个感兴趣的物品。
-
归纳设置的特点: 目标物品 可能未出现在训练集中,即为新物品 (new items) 或未见物品 (unseen items)。
GR 模型(如
TIGER)将每个物品 词元化为一个语义 ID 模式:,其中 是一个物品语义 ID 模式的位数(或词元长度), 表示语义 ID 的一位数字。 因此,GR 模型的输入序列 可以表示为: 其中, 和 是特殊词元,分别表示语义 ID 序列的开始和结束位置。GR 模型被训练以生成 个语义 ID 模式,这些模式将被解析为推荐物品,并根据其概率进行排名。在归纳设置中,新物品也被分配了语义 ID 模式,如果 GR 模型的输出与这些新语义 ID 模式匹配,则可以解析为新物品。
4.2. 推测式生成推荐 (Speculative Generative Recommendation)
SpecGR 框架包括四个核心组件,协同工作以实现归纳式推荐:
-
诱导草拟 (Inductive Drafting)
-
目标感知验证 (Target-aware Verifying)
-
引导式重草拟 (Guided Re-drafting)
-
自适应退出 (Adaptive Exiting)
下图(原文 Figure 2)展示了
SpecGR框架的详细流程:
该图像是示意图,展示了SpecGR框架中的草拟和验证过程。框架包含三部分:引导草拟、目标识别验证和引导重草拟,旨在提高生成推荐模型的效率。草拟阶段包括使用辅助模型或自草拟来生成候选项,验证阶段则决定接受或拒绝这些候选项。该流程通过引导重草拟,从语义ID中筛选候选项以提高精度。
VLM 描述: 该图像是示意图,展示了SpecGR框架中的草拟和验证过程。框架包含三部分:引导草拟、目标识别验证和引导重草拟,旨在提高生成推荐模型的效率。草拟阶段包括使用辅助模型或自草拟来生成候选项,验证阶段则决定接受或拒绝这些候选项。该流程通过引导重草拟,从语义ID中筛选候选项以提高精度。
4.2.1. 诱导草拟 (Inductive Drafting)
传统 GR 模型难以直接生成未见物品的语义 ID。SpecGR 通过引入一个具有归纳能力的草拟模型 来解决这个问题。
- 功能: 给定与 GR 模型相同的输入物品序列 ,草拟模型生成一组 个候选物品 ,其中 。这些“推荐草稿”可能包含新物品。
- 设计理念: 与传统推测解码中草拟器是目标模型的轻量级近似不同,
SpecGR中的草拟器不要求是 GR 模型,而是任何能够引入归纳能力的模型。这允许高质量的未见物品被引入到系统中。 - 草拟策略: 论文将在后续“Drafting Strategies”部分详细介绍两种有效的草拟策略。
4.2.2. 目标感知验证 (Target-aware Verifying)
尽管归纳式草拟器擅长推荐未见物品,但在建模输入序列和提供推荐方面,它们通常不如 GR 模型有效。因此,从草拟器获得候选物品 后,GR 模型被用作验证器来验证它们,并拒绝低可能性 (low likelihood) 的物品。
-
GR 模型作为查询可能性模型 (Query-Likelihood Model, QLM): GR 模型被用作 QLM 来对候选物品进行评分。QLM 通过测量模型连续生成查询中词元的可能性来评估查询(即输入序列和潜在目标)。
-
验证分数计算: 验证器 计算给定输入序列 条件下,生成目标物品 的语义 ID 模式的条件概率作为验证分数。
然而,直接应用 QLM 会导致对未见物品的评分过低。这是因为并非所有语义 ID 的数字都源于物品语义。现有方法通常会添加一个额外的数字作为物品识别词元 (item identification token),以避免冲突。对于未见物品,生成这个识别词元的概率通常是噪声。 为了为未见物品提供公平的验证分数,
SpecGR排除识别词元,仅计算其他数字的概率。目标感知验证分数计算如下:- :验证器模型,输入序列 和潜在目标物品 ,输出对数似然 (log-likelihood) 概率分数。
- :语义 ID 模式的总位数,假设最后一位是物品识别词元。
- :骨干自回归模型 (backbone autoregressive model),计算语义 ID 序列的似然分数。
- :目标物品 语义 ID 的第 位数字。
- :已见物品 (seen items) 的集合。
- :未见物品 (unseen items) 的集合。
- 归一化: 为了缓解未见物品和现有物品语义 ID 长度不同导致的偏差,对对数似然分数进行了相应位数的归一化处理。
-
接受条件: 物品 被接受当且仅当其验证分数 ,其中 是一个超参数 (hyperparameter)。
4.2.3. 引导式重草拟 (Guided Re-drafting)
如果初始草拟批次中接受的物品数量少于 个,草拟模型需要生成额外的候选批次。然而,这些后续候选的预期接受概率会显著降低。为了解决这个问题,SpecGR 引入了引导式重草拟机制。
- 机制: GR 验证器模型会生成一组束搜索序列 (beam sequences) ,其中每个序列都是一个 位数字的语义 ID 前缀。在下一个草拟-验证迭代中,草拟模型被引导,只提出那些前缀与 中匹配的候选物品 。
- :语义 ID 前缀的集合, 是集合大小的超参数。
- 迭代次数: 总的草拟-验证迭代次数不会超过 (语义 ID 的最大长度),这与最大解码步数一致。
- 目标: 通过利用验证器生成的语义 ID 前缀来引导草拟器,使其提出的候选物品更符合验证器的评分分布,从而提高后续候选的质量和接受率。
4.2.4. 自适应退出 (Adaptive Exiting)
SpecGR 可以根据验证器接受的候选物品数量自适应地终止草拟-验证迭代。
- 退出条件: 当接受的物品数量达到 时,循环退出。
- 效率提升: 这种自适应方法减少了不必要的完整序列生成,从而缩短了推理时间。
- 最坏情况: 即使在最坏情况下(没有足够的物品被接受),束搜索序列也会被添加到推荐列表,直到达到 个物品。在这种情况下,
SpecGR不会比使用束搜索解码产生额外的时间开销。 - 最终排序: 最终的推荐列表根据被接受物品的验证分数进行排序。如果包含来自束序列的物品,则也使用其束分数。
4.3. 草拟策略 (Drafting Strategies)
论文提出了两种实现草拟器的方法:使用辅助模型或重用 GR 模型的编码器。
4.3.1. 辅助草拟模型 (Auxiliary Draft Model)
- 方法: 最直接的方式是引入一个辅助的归纳式推荐模型作为草拟器。
- 示例:
UniSRec(Hou et al. 2022) 是一种使用基于模态的物品表示进行 KNN 搜索的模型。当新物品添加时,它们的表示可以直接合并到物品池中。如果新物品的模态表示与序列表示相似,该模型就能检索到它们。 - 优点: 灵活性高,可以利用各种成熟的归纳式推荐模型。
- 缺点: 可能存在通信延迟和分布漂移 (distribution shift) 问题,且需要维护额外的模型。
4.3.2. 自草拟:通过 GR 编码器 ()
为了解决辅助模型带来的额外开销和潜在问题,论文提出了 ,它重用 GR 模型自身的编码器模块作为归纳式草拟模型。
4.3.2.1. 语义 ID-based 物品和序列表示 (Semantic ID-based Item and Sequence Representations)
- 序列表示: 使用与 GR 模型相同的输入格式(即上述 )来派生序列表示。
- 物品表示: 将单个物品 的语义 ID 格式化为编码器输入 。
- 嵌入获取: 通过取 GR 编码器输出的最后一个隐藏状态 (last hidden state) 并应用均值池化 (mean pooling) 来获得物品和序列的表示。
4.3.2.2. 物品-序列对比预训练 (Item-Sequence Contrastive Pretraining)
- 动机: 现有研究表明,生成模型的隐藏状态不直接适合作为强大的表示。为了获得强大的归纳嵌入,将 GR 编码器与对比学习目标联合训练。
- 对比损失 (Contrastive Loss, ): 给定序列嵌入 和下一个物品嵌入 ,对比损失定义为:
- :嵌入批次大小。
- :序列嵌入。
- :正样本(下一个物品)嵌入。
- :负样本嵌入。
- :温度参数 (temperature parameter)。
- 生成损失 (Generation Loss, ): 与生成下一个词元的损失联合优化。
- :生成批次大小。
- :序列 的长度。
- :序列 中第 个词元。
- :模型预测词元概率。
- 联合优化: 为了确保对比目标有足够的批内负样本 (in-batch negatives),通常使用更大的嵌入批次 ()。最终的多任务损失表示为:
- :平衡两个任务的超参数。
4.3.2.3. 学习排序微调 (Learning-to-rank Fine-tuning)
- 动机: 为了进一步增强语义 ID 编码器的排序能力,论文在更大批次的负样本上继续使用交叉熵损失 () 对编码器进行微调。
- 微调过程: 在微调阶段开始时,物品表示被冻结。
- 微调损失:
- :平衡两个任务的超参数。
4.4. 理论时间复杂度分析
论文对 SpecGR 的预期时间复杂度进行了理论分析,其中每个物品由 个语义词元表示。
- :需要推荐的物品数量。
- :每次迭代的草拟大小。
- :被草拟物品的接受概率。
- :GR 编码器单次前向传播的运行时间。
- :GR 解码器单次前向传播的运行时间。
4.4.1. 标准 GR 模型 (如 TIGER) 的复杂度
标准 GR 模型必须为 个束 (beams) 解码所有 个词元。
4.4.2. SpecGR 的复杂度
SpecGR 的诱导草拟需要一次前向传播和一次 KNN 搜索,记为 。验证和束搜索并行进行,每次迭代的成本为 。
- 迭代次数 : 获得 个有效推荐的预期迭代次数上限为:
SpecGR的预期时间复杂度:- 预期加速因子:
这个公式表明,当 较小(即较少的迭代次数)时,
SpecGR可以显著加速。此外,当语义 ID 长度 增加时,加速效果会更明显,因为SpecGR避免了对每个候选物品都进行完整的 步解码。
5. 实验设置
5.1. 数据集
实验使用了 Amazon Reviews 2023 数据集 (Hou et al. 2024a) 中的三个品类:
- Video Games (Games): 视频游戏
- Office Products (Office): 办公用品
- Cell Phones and Accessories (Phones): 手机及配件
5.1.1. 数据预处理
- 排除了交互次数少于五次的用户和物品。
- 数据按时间戳 (timestamp) 划分训练集、验证集和测试集。这种划分方式确保验证集和测试集自然包含未见物品 (unseen items),更真实地模拟了新物品随时间出现的场景。
5.1.2. 数据集统计信息
以下是原文 Table A2 提供的详细数据集统计信息: 以下是原文 Table A2 的结果:
| Dataset | Items | Train | Valid | Test | |||
| #Items | New% | #Inter. | #Inter. | New% | #Inter. | New% | |
| Games | 25.6 | 10.3 | 645.3 | 33.1 | 27.9 | 41.5 | 60.3 |
| Office | 77.6 | 15.1 | 1230.2 | 136.1 | 16.2 | 211.3 | 59.4 |
| Phones | 111.5 | 15.1 | 1841.5 | 232.9 | 33.0 | 297.4 | 68.3 |
#Items和#Inter.单位为千 (K)。New%(New Item Percentage):表示与未见目标物品的交互比例。例如,在 Games 数据集中,测试集有 60.3% 的交互是针对新物品的。
5.2. 评估指标
论文采用 Recall@K 和 NDCG@K 作为评估方法性能的指标,其中 。
此外,根据测试集中目标物品是现有物品还是新物品(未在训练集中出现),测试集被分为两个子集:
-
In-Sample (样本内): 目标物品已在训练集中出现。
-
Unseen (未见): 目标物品未在训练集中出现。
下面对这两个指标进行详细解释:
5.2.1. 召回率 (Recall@K)
- 概念定义:
Recall@K用于衡量推荐系统在给定的 个推荐物品中,成功找出用户实际感兴趣物品的比例。它关注的是模型“能找到多少”用户喜欢的物品,强调的是覆盖率或完整性。 - 数学公式:
- 符号解释:
- :测试集中用户总数。
- :测试集中的一个用户。
- :为用户 生成的 个推荐物品的集合。
- :用户 实际感兴趣(例如,已交互或购买)的物品集合。
- :集合交集运算。
- :集合的势(元素数量)。
5.2.2. 归一化折损累计增益 (Normalized Discounted Cumulative Gain, NDCG@K)
- 概念定义:
NDCG@K是一个衡量推荐列表质量的指标,它考虑了推荐物品的相关性(增益)以及它们在列表中的位置(折损)。相关性越高的物品排在越靠前的位置,NDCG@K值越高。它强调的是推荐列表的排序质量。 - 数学公式:
其中,
DCG@K的计算公式为:IDCG@K(Ideal DCG@K) 的计算公式为: - 符号解释:
- :测试集中用户总数。
- :测试集中的一个用户。
- :推荐列表中第 个物品的相关性分数(通常为二元,1表示相关,0表示不相关;或多元,表示不同程度的相关性)。
- :在理想推荐列表(所有相关物品按相关性降序排列)中第 个物品的相关性分数。
- :折损因子 (discounting factor),使得排名靠后的物品的贡献降低。
- :用户 的折损累计增益。
- :用户 的理想折损累计增益,即完美推荐列表的
DCG@K值,用于归一化。
5.3. 对比基线 (Compared Methods)
论文将 SpecGR 与以下几类最先进的方法进行了比较:
5.3.1. 基于 ID 的方法 (ID-based Methods)
SASRec(Kang and McAuley 2018): 经典的自注意力序列推荐模型。
5.3.2. 基于特征 + ID 的方法 (Feature + ID-based Methods)
FDSA(Zhang et al. 2019): 结合特征的深度自注意力网络。S3-Rec(Zhou et al. 2020): 基于自监督学习的序列推荐模型。
5.3.3. 基于模态的方法 (Modality-based Methods)
SASRecT:SASRec的变体,利用文本特征。UniSRec(Hou et al. 2022): 利用模态(如文本)信息统一表示序列的推荐模型。Recformer(Li et al. 2023): 利用语言表示进行序列推荐。
5.3.4. 生成式方法 (Generative Methods)
TIGER(Rajput et al. 2024): 基础的生成式推荐模型,将物品 token 化为语义 ID。TIGERc(Rajput et al. 2024):TIGER的变体,通过启发式策略将固定比例的未见物品混合到推荐列表中。LIGER(Yang et al. 2024): 通过将生成式输出与密集检索结果混合来增强归纳能力。
5.3.5. SpecGR 变体 (Ours)
SpecGR_Aux: 使用UniSRec作为辅助草拟模型的SpecGR变体。- : 利用 GR 模型自身编码器进行自草拟的
SpecGR变体。
5.4. 实现细节 (Implementation Details)
- 草拟器和 GR 骨干:
SpecGR_Aux使用UniSRec作为辅助草拟模型。SpecGR的两个变体都使用TIGER(Rajput et al. 2024) 作为 GR 骨干模型。
- 输入序列: 最长截断为 20 个物品。
- 语义 ID 词元化: 采用与
TIGER相同的语义 ID 词元化过程。 - 训练:
- 采用多任务设置,结合生成目标和对比目标,超参数 。
- 使用较大的嵌入批次 () 和生成批次 (),以确保对比学习的负样本充足。
- 接着进行学习排序 (learning-to-rank) 微调阶段。
- 超参数调优: 草拟阈值 ()、束大小 () 和草拟大小 () 等超参数在验证集上进行调优。
6. 实验结果与分析
6.1. 整体性能分析 (Overall Performance Analysis, RQ1)
以下是原文 Table 1 提供的所有模型在三个数据集上的整体性能比较: 以下是原文 Table 1 的结果:
| Dataset | Metric | ID-based | Feature + ID | Modality-based | Generative | Ours | Improv. | ||||||
| SASReCID | FDSA | S3-Rec | SASRecT | UniSRec | Recformer | TIGER | TIGERC | LIGER | SpecGRAux | SpecGR++ | |||
| Games | R@10 | 0.0186 | 0.0190 | 0.0195 | 0.0179 | 0.0225 | 0.0243 | 0.0222 | 0.0226 | 0.0139 | 0.0254 | 0.0250 | +4.53% |
| N@10 | 0.0093 | 0.0101 | 0.0094 | 0.0091 | 0.0115 | 0.0111 | 0.0114 | 0.0115 | 0.0068 | 0.0128 | 0.0124 | +10.40% | |
| R@50 | 0.0477 | 0.0496 | 0.0473 | 0.0507 | 0.0621 | 0.0740 | 0.0584 | 0.0611 | 0.0635 | 0.0778 | 0.0717 | +5.13% | |
| N@50 | 0.0162 | 0.0167 | 0.0154 | 0.0161 | 0.0200 | 0.0218 | 0.0193 | 0.0198 | 0.0172 | 0.0239 | 0.0225 | +9.72% | |
| R@10 | 0.0093 | 0.0095 | 0.0100 | 0.0091 | 0.0119 | 0.0126 | 0.0132 | 0.0130 | 0.0059 | 0.0138 | 0.0134 | +3.99% | |
| Office | N@10 | 0.0047 | 0.0050 | 0.0052 | 0.0048 | 0.0062 | 0.0039 | 0.0071 | 0.0070 | 0.0029 | 0.0072 | 0.0070 | +1.68% |
| R@50 | 0.0217 | 0.0224 | 0.0234 | 0.0233 | 0.0322 | 0.0340 | 0.0308 | 0.0312 | 0.0268 | 0.0360 | 0.0332 | +5.93% | |
| N@50 | 0.0074 | 0.0078 | 0.0080 | 0.0078 | 0.0105 | 0.0106 | 0.0109 | 0.0110 | 0.0072 | 0.0119 | 0.0113 | +8.76% | |
| R@10 | 0.0052 | 0.0067 | 0.0058 | 0.0072 | 0.0084 | 0.0074 | 0.0090 | 0.0087 | 0.0048 | 0.0099 | 0.0101 | +11.90% | |
| N@10 | 0.0027 | 0.0035 | 0.0028 | 0.0037 | 0.0045 | 0.0036 | 0.0047 | 0.0046 | 0.0022 | 0.0050 | 0.0052 | +10.64% | |
| Phones | R@50 | 0.0143 | 0.0184 | 0.0151 | 0.0188 | 0.0233 | 0.0236 | 0.0232 | 0.0233 | 0.0226 | 0.0285 | 0.0275 | +20.64% |
| N@50 | 0.0047 | 0.0060 | 0.0048 | 0.0062 | 0.0077 | 0.0070 | 0.0078 | 0.0078 | 0.0059 | 0.0090 | 0.0090 | +14.80% | |
Improv.(Improvement):SpecGR相较于表现最佳的基线模型的提升百分比。R@K和N@K分别表示Recall@K和NDCG@K。- 粗体 (
**) 表示最佳性能,下划线 (__) 表示次佳性能。
主要发现:
SpecGR性能领先:SpecGR的两个变体 (SpecGR_Aux和 ) 在所有三个数据集上,无论Recall@K还是NDCG@K,都持续取得最佳的整体性能。例如,在 Phones 数据集上,NDCG@50提升高达 14.80%,Recall@50提升高达 20.64%。- 传统方法的局限:
- 基于 ID 和基于特征的方法表现通常较差,尤其是在稀疏数据集(如 Phones)上。
- 基于模态的方法(如
UniSRec,Recformer)通过利用文本嵌入等辅助信息,表现有所改善。其中Recformer在某些指标上表现优异,但其基于大型语言模型的主干网络导致模型尺寸显著更大。 - 生成式推荐模型(如
TIGER)通过自回归建模细粒度语义 ID 取得了较好的结果。
- 的优势: 在保持参数效率的同时,性能与
SpecGR_Aux相当甚至更好(例如 Phones 数据集上的N@10),这表明 GR 编码器在学习鲁棒的语义 ID 表示以进行归纳推荐方面非常有效。 TIGERc和LIGER的不足: 尽管TIGERc和LIGER尝试通过混合或融合来处理未见物品,但它们通常无法达到SpecGR的性能,这可能是因为它们采用的启发式组合方式未能充分利用 GR 模型的排序能力,引入了不相关的物品。
6.2. 子集性能分析 (Subset Analysis, RQ1)
以下是原文 Table 2 提供的部分模型在样本内 (In-Sample) 和未见 (Unseen) 子集上的详细性能分解: 以下是原文 Table 2 的结果:
| Model | #Params. (M) | Games | Phones | ||||||||||
| Overall | In-Sample (39.7%) | Unseen (60.3%) | Overall | In-Sample (31.8%) | Unseen (68.2%) | ||||||||
| R@50 | N@50 | R@50 | N@50 | R@50 | N@50 | R@50 | N@50 | R@50 | N@50 | R@50 | N@50 | ||
| UniSRec | 2.90 | 0.0621 | 0.0200 | 0.1386 | 0.0461 | 0.0118 | 0.0029 | 0.0233 | 0.0077 | 0.0604 | 0.0211 | 0.0060 | 0.0014 |
| Recformer | 233.73 | 0.0740 | 0.0218 | 0.1082 | 0.0333 | 0.0514 | 0.0142 | 0.0236 | 0.0070 | 0.0340 | 0.0103 | 0.0188 | 0.0055 |
| TIGER | 13.26 | 0.0584 | 0.0193 | 0.1472 | 0.0486 | - | - | 0.0232 | 0.0078 | 0.0730 | 0.0245 | - | - |
| TIGERC | 13.26 | 0.0611 | 0.0198 | 0.1447 | 0.0482 | 0.0061 | 0.0011 | 0.0233 | 0.0078 | 0.0691 | 0.0238 | 0.0019 | 0.0003 |
| LIGER | 13.26 | 0.0635 | 0.0172 | 0.0438 | 0.0160 | 0.0765 | 0.0179 | 0.0226 | 0.0059 | 0.0472 | 0.0107 | 0.0111 | 0.0037 |
| SpecGRAux | 16.16 | 0.0778 | 0.0239 | 0.1485 | 0.0457 | 0.0312 | 0.0096 | 0.0285 | 0.0090 | 0.0748 | 0.0237 | 0.0069 | 0.0021 |
| SpecGR++ | 13.28 | 0.0717 | 0.0225 | 0.1323 | 0.0439 | 0.0318 | 0.0084 | 0.0275 | 0.0090 | 0.0730 | 0.0246 | 0.0063 | 0.0017 |
主要发现:
TIGER的归纳能力缺失: 基础的TIGER模型在样本内 (In-Sample) 性能强大,但在未见 (Unseen) 子集上的性能显示为-(几乎为零),这验证了论文引言中关于 GR 模型难以推荐未见物品的论点。SpecGR的归纳能力:SpecGR的两个变体 (SpecGR_Aux和 ) 显著改善了 GR 模型在未见物品上的推荐能力,同时在样本内性能方面也保持了竞争力,甚至有所提升。这表明SpecGR成功地在归纳泛化和样本内质量之间取得了平衡。Recformer的权衡:Recformer作为表现最佳的模态方法,在未见物品推荐上表现不错,但其模型尺寸(233.73M 参数)远大于其他基线,代价较高。LIGER的局限:LIGER通过结合密集检索来提高未见物品的性能,但其启发式融合策略可能导致引入不相关的物品,从而导致整体推荐质量次优。SpecGR的优势:SpecGR利用 GR 模型的“目标感知似然分数”来过滤归纳式候选物品,这使得它不仅具有强大的归纳能力,而且在整体性能上优于其他方法。
6.3. 消融研究 (Ablation Study, RQ2)
以下是原文 Table 3 提供的 推理和训练范式的消融研究结果: 以下是原文 Table 3 的结果:
| Variants | Games | Office | Phones | |||||||||
| R@50 | N@50 | R@10 | N@10 | R@50 | N@50 | R@10 | N@10 | R@50 | N@50 | R@10 | N@10 | |
| (1.1) w/o inductive drafting | 0.0609 | 0.0202 | 0.0235 | 0.0121 | 0.0306 | 0.0109 | 0.0132 | 0.0070 | 0.0233 | 0.0080 | 0.0092 | 0.0049 |
| (1.2) w/o likelihood score adjustment | 0.0712 | 0.0221 | 0.0236 | 0.0119 | 0.0331 | 0.0103 | 0.0118 | 0.0057 | 0.0236 | 0.0081 | 0.0092 | 0.0049 |
| (1.3) w/o guided re-drafting | 0.0611 | 0.0202 | 0.0235 | 0.0121 | 0.0309 | 0.0110 | 0.0132 | 0.0070 | 0.0264 | 0.0086 | 0.0096 | 0.0050 |
| (1.4) w/o item re-ranking | 0.0703 | 0.0219 | 0.0239 | 0.0120 | 0.0334 | 0.0113 | 0.0131 | 0.0069 | 0.0264 | 0.0083 | 0.0093 | 0.0047 |
| (1.5) w/o adaptive exiting | 0.0694 | 0.0200 | 0.0203 | 0.0095 | 0.0313 | 0.0108 | 0.0126 | 0.0068 | 0.0265 | 0.0086 | 0.0095 | 0.0050 |
| (2.1) TIGER for SpecGR++ | 0.0582 | 0.0192 | 0.0224 | 0.0114 | 0.0302 | 0.0105 | 0.0127 | 0.0067 | 0.0232 | 0.0078 | 0.0090 | 0.0047 |
| (2.2) w/o contrastive pretraining | 0.0581 | 0.0193 | 0.0221 | 0.0115 | 0.0313 | 0.0108 | 0.0126 | 0.0068 | 0.0234 | 0.0077 | 0.0093 | 0.0050 |
| (2.3) w/o fine-tuning | 0.0692 | 0.0225 | 0.0222 | 0.0111 | 0.0325 | 0.0110 | 0.0129 | 0.0068 | 0.0259 | 0.0087 | 0.0098 | 0.0051 |
| SpecGR++ | 0.0717 | 0.0225 | 0.0250 | 0.0124 | 0.0332 | 0.0113 | 0.0134 | 0.0070 | 0.0275 | 0.0090 | 0.0101 | 0.0052 |
6.3.1. SpecGR 推理框架的贡献 (SpecGR Inference Framework)
(1.1) w/o inductive drafting(无归纳草拟): 性能大幅下降,验证了归纳草拟是引入未见物品、提升归纳泛化能力的关键。没有归纳草拟,模型将无法提出新物品。(1.2) w/o likelihood score adjustment(无似然分数调整): 性能下降,尤其在未见物品上,这表明为未见物品调整似然分数计算方式(排除识别词元)是公平评估和接受新物品的关键。(1.3) w/o guided re-drafting(无引导式重草拟): 性能明显下降,特别是在需要多轮草拟时,这证实了引导式重草拟在提高后续候选物品质量和接受率方面的重要性。(1.4) w/o item re-ranking(无物品重排序): 性能有所下降,表明基于验证分数的重排序对于确保最终推荐列表的质量至关重要。(1.5) w/o adaptive exiting(无自适应退出): 性能略有下降,且会增加不必要的计算开销,证实了自适应退出在平衡性能和效率方面的价值。
6.3.2. 训练范式的贡献 (SpecGR++ Training Paradigm)
(2.1) TIGER for SpecGR++(直接使用 TIGER 作为 的编码器状态): 性能显著低于完整的 ,这表明直接使用TIGER编码器状态而不进行专门的表示学习,其归纳能力有限。(2.2) w/o contrastive pretraining(无对比预训练): 性能下降,尤其在归纳能力上,这验证了对比预训练对于学习高质量的归纳式表示至关重要。(2.3) w/o fine-tuning(无微调): 性能有所下降,表明学习排序微调阶段进一步提升了编码器的排序能力。- 结论: 完整的 设计(包括两阶段训练)是实现其高性能的关键。
6.4. 超参数分析 (Hyperparameter Analysis, RQ3)
论文分析了超参数对 在 Video Games 数据集上的性能和效率的影响。基准超参数为 (草拟大小), (阈值), (束大小)。
下图(原文 Figure 3)展示了超参数的影响:
该图像是图表,展示了超参数对 SpecGR 性能和效率的影响。左、中部展示了推荐中的未见项目比例;右侧则表示推理延迟(秒)。曲线描绘了样本内召回率与未见召回率之间的权衡关系,其中样本内召回率用 Recall@50 表示。
Figure 3: Impact of hyperparameters on SpecGR's performance and efficiency. (Left, middle): Bars show the proportion of unseen items in recommendations. (Right): Bars represent inference latency in seconds. Lines depict the tradeoff between in-sample and unseen Recall .
-
草拟大小 ():
- 影响: 控制推荐中未见物品的比例。所有未见物品都来源于草拟。
- 趋势: 增加草拟大小通常会增强归纳性能(因为有更多机会发现新物品),但可能由于固定数量的接受候选,对样本内指标产生负面影响。
- 选择: 最佳值通过在验证集上调优选择。
-
束大小 ():
- 影响: 控制引导式重草拟的搜索空间。
- 趋势: 增加束大小可以改善样本内性能,但可能降低归纳能力。这可能意味着更大的束搜索空间会更偏向于已见物品的生成模式。
-
阈值 ():
- 影响: 控制草拟候选物品的接受率,从而影响达到 个推荐所需的解码步数。
- 趋势: 较低的阈值意味着更容易接受候选,可能导致样本内性能下降。
- 权衡: 参数在性能和效率之间提供了权衡。选择 时通常使用“肘部法则” (elbow criterion),以在边际性能增益和额外延迟之间找到平衡点。
6.5. 即插即用框架评估 (Plug-and-Play Framework, RQ4)
为了评估 SpecGR 的即插即用能力,论文将其与多种归纳式草拟器 (SemanticKNN, UniSRec, GR 编码器 ()) 和多种 GR 骨干模型 (TIGER, DSI) 进行了集成测试。
以下是原文 Table 4 提供的在 Video Games 数据集上,不同 GR 骨干和草拟器配置下的未见子集和整体测试集性能 (NDCG@50):
以下是原文 Table 4 的结果:
| GR | Drafter | U-N@50 | O-N@50 |
| TIGER | Baseline | 0.0193 | |
| GR Encoder (SpecGR++) | 0.0084 | 0.0225 (+16.6%) | |
| Semantic-KNN | 0.0085 | 0.0231 (+19.7%) | |
| UniSRec | 0.0096 | 0.0239 (+23.8%) | |
| Baseline | 0.0198 | ||
| DSI | |||
| GR Encoder (SpecGR++) | 0.0061 | 0.0217 (+9.6%) | |
| Semantic-KNN | 0.0049 | 0.0217 (+9.6%) | |
| UniSRec | 0.0058 | 0.0220 (+11.1%) |
U-N@50:未见子集上的NDCG@50。O-N@50:整体测试集上的NDCG@50。Baseline行表示原始 GR 模型(TIGER或DSI)的性能,它们在未见物品上的性能为零(未显示具体数值,但暗示其无法生成)。
主要发现:
- 显著性能提升: 对于原始 GR 模型(如
TIGER和DSI),它们最初无法生成未见物品。集成SpecGR后,其整体性能平均提升约 15%,同时实现了强大的归纳推荐能力。 - 草拟器无关性: 这种性能提升适用于多种草拟范式,包括轻量级检索模型 (SemanticKNN)、基于模态的模型 (
UniSRec),以及利用 GR 编码器进行自草拟 ()。 - 骨干模型无关性:
SpecGR框架对不同的 GR 骨干模型(TIGER和DSI)都有效。 - 结论:
SpecGR具有模型无关性 (model-agnostic) 的特点,可以作为即插即用框架,为任何基于语义 ID 的 GR 模型赋予归纳能力。
6.6. 其他分析
6.6.1. 与集成方法的比较 (Comparison with Ensemble Methods)
以下是原文 Table A5 提供的 SpecGR_Aux 与几种集成变体的性能比较:
以下是原文 Table A5 的结果:
| Model | Overall | Unseen | In-Sample | |||
| R@50 | N@50 | R@50 | N@50 | R@50 | N@50 | |
| Single Model | ||||||
| TIGER | 0.0584 | 0.0193 | - | - | 0.1472 | 0.0486 |
| UniSRec | 0.0621 | 0.0200 | 0.0118 | 0.0029 | 0.1386 | 0.0461 |
| Ensemble Method | ||||||
| Score-based | 0.0571 | 0.0191 | 0.0050 | 0.0009 | 0.1333 | 0.0456 |
| Ranking-based | 0.0678 | 0.0218 | 0.0056 | 0.0011 | 0.1624 | 0.0532 |
| 2-Stage | 0.0621 | 0.0205 | 0.0118 | 0.0026 | 0.1386 | 0.0477 |
| SpecGR (UniSRec) | 0.0778 | 0.0239 | 0.0312 | 0.0096 | 0.1485 | 0.0457 |
Score-based Ensemble(分数集成): 线性结合TIGER的似然分数和UniSRec的排名分数。Ranking-based Ensemble(排名集成): 平均两个模型的物品排名位置以缓解分数尺度不匹配。2-Stage Ensemble(两阶段集成):UniSRec选择 top-K 物品,然后TIGER对其进行重排序。
主要发现:
- 所有集成方法在未见物品上的性能都受限于两个基础模型 (
TIGER和UniSRec),因为简单的分数聚合或重排序并不能真正引入归纳能力。 - 相比之下,
SpecGR通过引导式重草拟机制,有效地利用了骨干模型的建模能力来增强未见候选物品的质量,从而取得了显著优势。这进一步证实了SpecGR框架的有效性,它超越了简单的模型集成。
6.6.2. 推理速度加速 (Inference Speed Acceleration)
生成式推荐模型由于自回归生成而具有高推理延迟。SpecGR 通过推测式检索草拟来解决此问题,显著减少了所需的自回归解码步数。
以下是原文 Table A6 提供的不同草拟大小下,草拟 (D) 和验证 (V) 阶段的经验推理延迟(秒): 以下是原文 Table A6 的结果:
| Draft Size | 20 (D/V) | 50 (D/V) | 100 (D/V) |
| SpecGR (UniSRec) | 0.0110 / 0.0261 | 0.0112 / 0.0249 | 0.0112 / 0.0227 |
| SpecGR++ | 0.0003 / 0.0261 | 0.0003 / 0.0249 | 0.0003 / 0.0235 |
| TIGER | - / 0.0403 | - / 0.0403 | - / 0.0403 |
主要发现:
-
的高效性: 由于其高效的基于编码器的草拟机制,实现了极低的草拟延迟(
0.0003秒),相较于TIGER实现了显著的整体速度提升。 -
总体加速:
SpecGR模型的验证阶段延迟通常低于TIGER的总延迟,结合草拟阶段,实现了整体加速。以下是原文 Figure A1 提供的语义 ID 数字位数对推理速度加速因子的影响:
该图像是一个图表,展示了不同数量的语义ID数字对应的推理速度加速因子与阈值(heta)的关系。可以看到,当语义ID数字增多时,加速因子逐渐提高,尤其在阈值较小的情况下效果显著。
Figure A1: Inference speed acceleration factor w.r.t. different numbers of semantic ID digits.
主要发现:
- 线性增长的加速因子: 语义 ID 长度越长,加速因子越高。在标准 GR 设置中(4 位语义 ID),
SpecGR实现了 1.7 倍的推理加速。对于更长的语义 ID,加速效果更为显著,因为每完成一个物品的推荐所需的解码步数减少了。这进一步验证了SpecGR在避免完整自回归生成方面的效率。
6.6.3. 经验接受率和加速 (Empirical Acceptance Rates and Speedup)
以下是原文 Table A7 提供的不同草拟器的经验接受率 和预期加速因子: 以下是原文 Table A7 的结果:
| Drafter | Acceptance Rate (p) | Acceleration Factor |
| SpecGR++ Encoder | 0.44 | 1.72 |
| UniSRec | 0.35 | 1.38 |
| SemanticKNN | 0.20 | 1.11 |
主要发现:
- 编码器接受率最高: 编码器作为草拟器时具有最高的接受率(0.44),因此也提供了最高的加速因子(1.72)。这得益于其统一的表示空间和专门的训练。
- 所有
SpecGR变体均优于传统 GR: 所有SpecGR变体都持续优于传统的 GR 模型,证明了草拟-验证框架在性能和效率上的优势。
6.6.4. 参数效率和训练时间 (Parameter Efficiency and Training Time)
以下是原文 Table A8 提供的模型参数量和训练时间: 以下是原文 Table A8 的结果:
| Model | Trainable (M) | Non-trainable (M) | Training Time (h) | ||
| Total | Non-emb | Emb | |||
| SASReCID | 7.24 | 0.10 | 7.13 | 0 | 3.6 |
| UniSRec | 2.90 | 2.90 | 0 | 85.62 | 18.3 |
| Recformer | 233.73 | 106.32 | 127.41 | 0 | 226.0 |
| TIGER | 13.26 | 13.11 | 0.15 | 0 | 16.2 |
| TIGERc | 13.26 | 13.11 | 0.15 | 0 | 16.2 |
| SpecGRAux | 16.16 | 16.02 | 0.15 | 85.62 | 34.5 |
| SpecGR++ | 13.28 | 13.13 | 0.15 | 14.27 | 42.8 |
Total:总可训练参数。Non-emb:非嵌入层参数。Emb:嵌入层参数。Non-trainable:不可训练参数(如UniSRec中冻结的 PLM 编码器)。
主要发现:
- 与基础
TIGER模型的总可训练参数量相似 (13.28M vs 13.26M),因为它重用了 GR 编码器。这使其在参数效率方面优于需要额外辅助模型的SpecGR_Aux(16.16M)。 - 的训练时间(42.8 小时)略长于单独训练
TIGER(16.2 小时)和辅助草拟模型(UniSRec18.3 小时),约为TIGER的 2.6 倍。这是由于额外的嵌入训练任务。然而,考虑到推理时的显著加速和性能提升,这种额外的训练成本是值得的。 Recformer具有最大的参数量和训练时间,这主要是因为它基于大型 LLM 骨干。
6.6.5. 子集排序能力 (Subset Ranking)
以下是原文 Figure A2 左侧展示的子集排序的推理延迟比较:
该图像是图表,左侧展示了不同检索大小下各方法的每次推荐所需时间,采用对数坐标。右侧比较了不同阈值下的接受率,显示了 SpecGR++、UniSRec和其他方法的表现。
Figure A2: (Left) Inference latency comparison for subset ranking. Both and -axis use log scale. (Right) Acceptance rate comparison for different drafting strategies.
主要发现:
- 传统 GR 模型的子集排序挑战: 传统 GR 模型通过在整个物品空间中搜索 top-K 解码路径进行推荐,这使得它们在特定子集上进行排序时效率低下。
Batch Scoring(BS): 简单地对子集进行批量打分,但延迟随批次大小线性增长,对于大型子集不切实际。Constrained Beam Search(CBS): 通过构建 Trie 结构来限制搜索空间,但会引入显著的计算开销,时间复杂度呈指数增长,不适合大规模排序。SpecGR的优势:SpecGR通过将草拟器的范围限制在指定子集内,实现了高效的子集排序。在子集大小小于 时,SpecGR相较于TIGER结合CBS实现了 3.5 倍的加速。SpecGR的时间复杂度在其完整排序复杂度内,使其成为高效的子集排序解决方案。
7. 总结与思考
7.1. 结论总结
本文提出了 SpecGR,一个即插即用 (plug-and-play) 的框架,旨在为生成式推荐模型 (Generative Recommendation, GR) 赋予强大的归纳推荐能力 (inductive recommendation ability)。通过借鉴推测解码 (speculative decoding) 的思想,SpecGR 将一个具有归纳能力的草拟模型 (drafter model) 与一个强大的 GR 验证器 (verifier) 相结合。草拟器负责提出可能包含新物品的候选集,而 GR 模型则负责验证和排序这些候选物品,从而确保了推荐的质量和相关性。
SpecGR 引入了引导式重草拟技术,通过利用 GR 模型生成的语义 ID 前缀 (semantic ID prefixes) 来指导草拟器,提高了候选物品的质量和验证效率。此外,论文提供了两种草拟策略:使用辅助草拟模型以增加灵活性,以及利用 GR 模型自身的编码器进行参数高效的自草拟 ()。
在三个真实世界数据集上的广泛实验表明,SpecGR 在推荐未见物品方面表现出卓越的能力,并且在整体性能上超越了所有现有的最先进方法。特别是, 在保持参数效率的同时,取得了与辅助模型草拟相当的性能,验证了其设计理念的有效性。
7.2. 局限性与未来工作
7.2.1. 论文作者指出的局限性
- 草拟器选择和训练: 尽管
SpecGR提供了两种草拟策略,但如何选择和优化最适合特定场景的草拟器仍是一个开放问题。辅助模型的训练和维护可能带来额外开销,而自草拟则需要精心设计的联合训练策略。 - 超参数调优的复杂性: 诸如草拟阈值 、束大小 和草拟大小 等超参数对性能和效率有显著影响,其最佳值的选择需要细致的调优。
- 理论分析的进一步细化: 尽管论文提供了理论时间复杂度分析,但实际场景中的接受率 和加速因子可能受到更多复杂因素的影响,需要更深入的建模和分析。
7.2.2. 作者提出的未来研究方向
- 生成与表示的统一: 论文指出, 的经验表明,生成任务和表示学习任务在推荐设置中并非相互冲突,而是互补的。未来的研究可以进一步探索生成式推荐和表示式推荐之间的统一和重叠,以开发更强大的模型。
- 更复杂的草拟策略: 可以探索更先进的草拟策略,例如基于强化学习的草拟器,以动态调整草拟过程,最大化验证器的接受率。
- 实时动态调整: 结合实时用户反馈和环境变化,开发能够动态调整
SpecGR超参数(如 )的机制,以适应不断变化的推荐需求和系统负载。 - 扩展到多模态数据: 尽管
UniSRec作为草拟器利用了模态信息,但可以将SpecGR框架与更先进的多模态 GR 模型结合,以处理更丰富、更多样化的物品信息。
7.3. 个人启发与批判
7.3.1. 个人启发
- “生成-验证”范式的巧妙应用:
SpecGR最主要的启发在于其对推测解码“生成-验证”范式的创造性应用。它不仅仅是为了加速,更是为了扩展模型的能力边界。这提示我们,在面对大模型或复杂模型的局限性时,不一定需要从零开始设计新模型,而是可以通过巧妙地组合和重新定义现有模型的角色,来实现新的功能和突破。将擅长检索归纳的“草拟器”与擅长精细排序的“验证器”结合,是一种非常优雅的解决方案。 - 统一生成与表示学习: 成功地将 GR 模型的编码器用于归纳式表示学习,并通过对比学习进行预训练。这有力地挑战了传统观点,即生成和表示学习是分离或甚至冲突的任务。在推荐领域,这为构建更通用、更强大的统一模型指明了方向,即一个模型可能同时具备高质量生成和高效检索的能力。
- 对冷启动问题的深入思考: 论文清晰地指出了 GR 模型在冷启动(未见物品推荐)方面的固有局限性,并提供了一个实用的解决方案。这强调了在评估推荐模型时,不仅要关注整体性能,还要深入分析其在特定挑战(如冷启动、长尾推荐)上的表现。
7.3.2. 潜在问题、未经验证的假设或可以改进的地方
- 草拟器的选择和性能上限:
SpecGR的性能在很大程度上依赖于草拟器的归纳能力。如果草拟器本身无法有效提出高质量的未见物品,即使验证器再强大也无济于事。如何设计一个“完美”的归纳式草拟器,或者如何让草拟器与验证器之间形成更强的协同进化关系,是值得深究的问题。例如,草拟器能否通过验证器的反馈进行在线学习或适应性调整? - 阈值 的鲁棒性: 阈值 对于性能和效率的权衡至关重要。论文虽然讨论了它的影响,但其选择是否能在不同数据集、不同时间段甚至不同用户群之间保持鲁棒性,需要进一步验证。在实际部署中,动态调整 的策略可能非常复杂。
- 语义 ID 设计的影响: 论文依赖于物品的语义 ID 词元化。这些语义 ID 的质量和表示能力直接影响 GR 模型的性能,也间接影响
SpecGR的验证效果。如果语义 ID 本身就无法有效捕获新物品的语义,那么SpecGR的效果也会受限。未来可以探索更先进的语义 ID 生成方法。 - 计算成本与实时性: 尽管
SpecGR提供了加速,但相比于纯粹的检索模型,其验证阶段仍然涉及复杂的 GR 模型推理。在对延迟有极高要求的实时推荐场景中,可能仍需进一步优化。同时, 的训练时间较长,对于资源有限的团队来说,这可能是一个挑战。 - 多模态融合的深度:
SpecGR框架本质上可以融合多模态信息(通过辅助草拟器UniSRec),但这种融合方式仍是浅层的。未来的工作可以探索在 GR 模型内部,更深层次地融合文本、图像、视频等多种模态信息,以增强其语义理解和归纳能力。
相似论文推荐
基于向量语义检索推荐的相关论文。