AiPaper
论文状态:已完成

Understanding Generative Recommendation with Semantic IDs from a Model-scaling View

发表:2025/09/30
原文链接PDF 下载
价格:0.10
价格:0.10
已有 24 人读过
本分析由 AI 生成,可能不完全准确,请以原文为准。

TL;DR 精炼摘要

本文揭示了基于语义ID的生成式推荐在模型扩展时性能瓶颈,因语义ID编码能力有限导致饱和。通过对比直接使用大型语言模型推荐,发现后者具有更优的扩展性能,提升可达20%,挑战了LLM难捕获协同过滤信号的观点,指明推荐系统基础模型路径。

摘要

Recent advancements in generative models have allowed the emergence of a promising paradigm for recommender systems (RS), known as Generative Recommendation (GR), which tries to unify rich item semantics and collaborative filtering signals. One popular modern approach is to use semantic IDs (SIDs), which are discrete codes quantized from the embeddings of modality encoders (e.g., large language or vision models), to represent items in an autoregressive user interaction sequence modeling setup (henceforth, SID-based GR). While generative models in other domains exhibit well-established scaling laws, our work reveals that SID-based GR shows significant bottlenecks while scaling up the model. In particular, the performance of SID-based GR quickly saturates as we enlarge each component: the modality encoder, the quantization tokenizer, and the RS itself. In this work, we identify the limited capacity of SIDs to encode item semantic information as one of the fundamental bottlenecks. Motivated by this observation, as an initial effort to obtain GR models with better scaling behaviors, we revisit another GR paradigm that directly uses large language models (LLMs) as recommenders (henceforth, LLM-as-RS). Our experiments show that the LLM-as-RS paradigm has superior model scaling properties and achieves up to 20 percent improvement over the best achievable performance of SID-based GR through scaling. We also challenge the prevailing belief that LLMs struggle to capture collaborative filtering information, showing that their ability to model user-item interactions improves as LLMs scale up. Our analyses on both SID-based GR and LLMs across model sizes from 44M to 14B parameters underscore the intrinsic scaling limits of SID-based GR and position LLM-as-RS as a promising path toward foundation models for GR.

思维导图

论文精读

中文精读

1. 论文基本信息 (Bibliographic Information)

  • 标题 (Title): Understanding Generative Recommendation with Semantic IDs from a Model-scaling View (从模型缩放视角理解基于语义ID的生成式推荐)
  • 作者 (Authors): Jingzhe Liu, Liam Collins, Jiliang Tang, Tong Zhao, Neil Shah, Clark Mingxuan Ju
  • 隶属机构 (Affiliations): Michigan State University (密歇根州立大学), Snap Inc.
  • 发表期刊/会议 (Journal/Conference): 未明确,根据 ArXiv 预印本格式,这可能是一篇正在投稿或已被顶级会议(如 NeurIPS, KDD, SIGIR, WWW 等)接收的论文。
  • 发表年份 (Publication Year): 论文中引用了2025年的文献,且ArXiv ID格式为2509.25522,这通常表示提交年份为2025年。因此,本文可视为2025年的前沿研究。
  • 摘要 (Abstract): 近期,生成式推荐 (GR) 作为一种统一物品语义和协同过滤信号的新范式备受关注。其中,一种主流方法(SID-based GR)是利用大型语言或视觉模型将物品信息压缩成离散的语义ID (SIDs),再通过自回归模型对用户交互序列进行建模。然而,与其它领域的生成模型不同,本研究发现 SID-based GR 在模型放大时遭遇显著性能瓶颈:无论是扩大模态编码器、量化分词器还是推荐模型本身,其性能都很快饱和。研究将此瓶颈归因于SIDs编码物品语义信息的能力有限。为此,作者重新审视了另一种直接使用大型语言模型作为推荐器(LLM-as-RS)的范式。实验证明,LLM-as-RS 范式具有更优的模型缩放特性,通过放大模型可比 SID-based GR 的最佳性能提升高达20%。研究还挑战了“LLM难以捕捉协同过滤信息”的普遍观点,表明LLM建模用户交互的能力随模型规模增大而增强。本研究通过对44M至14B参数规模的两种范式进行分析,揭示了 SID-based GR 的内在缩放限制,并指出 LLM-as-RS 是通向推荐系统基础模型的一条更有前景的道路。
  • 原文链接 (Source Link):
    • ArXiv 链接: https://arxiv.org/abs/2509.25522 (注意:这是一个示例链接,非真实存在)

    • PDF 链接: https://arxiv.org/pdf/2509.25522v2.pdf

    • 发布状态: 预印本 (Preprint)。


2. 整体概括 (Executive Summary)

  • 研究背景与动机 (Background & Motivation - Why):

    • 核心问题: 生成式推荐 (GR) 是一个新兴且有前景的推荐系统范式,但其性能是否能像其他领域的生成模型一样,通过简单地“堆料”(即增大模型规模)来持续提升?特别是对于主流的、基于语义ID (SID-based GR) 的方法,其模型缩放行为 (model-scaling behaviors) 尚不明确。
    • 重要性与挑战: 在大模型时代,缩放定律 (Scaling Laws) 已成为指导模型设计和预估性能的关键。如果 SID-based GR 无法有效缩放,意味着投入巨大的计算资源可能得不到相应的性能回报,这将阻碍其发展为推荐领域的“基础模型”。现有研究多关注于如何为GR模型增加新特征或知识,却鲜有研究系统性地探究其内在的缩放潜力。
    • 切入点/创新思路: 本文没有提出一个全新的模型,而是选择了一种更具诊断性的研究视角:通过模型缩放实验来“诊断”现有主流GR范式的优劣。它系统地、控制变量地扩大 SID-based GR 范式中的每一个组件(编码器、分词器、推荐器),并与直接使用LLM的 LLM-as-RS 范式进行对比,从而探究性能瓶颈的根源。
  • 核心贡献/主要发现 (Main Contribution/Findings - What):

    • 贡献一:揭示了 SID-based GR 范式的内在缩放瓶颈。 实验证明,无论是单独扩大LLM编码器、量化分词器,还是推荐模块本身,SID-based GR 的性能都很快达到饱和。研究进一步定位了瓶颈的根源:语义ID (SID) 本身。将丰富的物品语义压缩成几个离散的ID,造成了严重的信息损失,使得更强大的LLM知识无法有效传递给下游推荐模型。

    • 贡献二:验证了 LLM-as-RS 范式的优越缩放潜力。SID-based GR 相反,直接将物品文本输入LLM进行推荐的 LLM-as-RS 范式,其性能随着模型规模的增大而持续、稳定地提升,并未出现饱和迹象,且最终性能远超 SID-based GR

    • 贡献三:挑战并修正了关于LLM在推荐中角色的普遍认知。 过去普遍认为LLM擅长理解语义,但在捕捉用户行为模式(即协同过滤信号)方面较弱。本文通过巧妙的实验设计证明,LLM捕捉协同过滤信息的能力也遵循缩放定律,即模型越大,其从交互序列中学习用户行为模式的能力越强。


3. 预备知识与相关工作 (Prerequisite Knowledge & Related Work)

  • 基础概念 (Foundational Concepts):

    • 推荐系统 (Recommender Systems, RS): 一种信息过滤系统,旨在预测用户对物品的“评分”或“偏好”。传统的RS通常采用一个包含召回 (retrieval)排序 (ranking) 两个阶段的流水线。
    • 生成式推荐 (Generative Recommendation, GR): 一种新兴的推荐范式,它借鉴了生成模型的思想,将推荐任务视为一个“生成”过程,直接产出推荐结果(如物品ID或描述),从而将多阶段流水线统一为单阶段模型。
    • 语义ID (Semantic ID, SID): 为了让推荐模型能理解物品的丰富语义(如文本、图像内容),SID-based GR 范式首先使用一个强大的预训练模型(如LLM)将物品内容编码成一个高维向量,然后通过一个量化 (quantization) 过程,将这个连续的向量压缩成一组离散的数字ID。这组ID就是该物品的 SID。它被认为是物品语义的“压缩表示”。
    • 协同过滤 (Collaborative Filtering, CF): 推荐系统中最经典的思想之一。其核心假设是“物以类聚,人以群分”。它不依赖物品内容,仅通过分析大量用户的历史行为数据(如购买、点击记录)来发现用户间的相似性或物品间的关联性,从而进行推荐。
    • 缩放定律 (Scaling Law): 在深度学习领域,特别是大语言模型中观察到的一个经验性规律,即模型的性能与模型大小、数据集大小和计算量之间存在可预测的幂律关系。简单来说,模型越大、数据越多、算的越久,效果就越好。
    • 自回归模型 (Autoregressive Model): 一种生成模型,它在生成序列时,下一个元素的生成依赖于之前所有已生成的元素。例如,在语言模型中,预测下一个词需要以上文为条件。在本文中,推荐模型通过自回归的方式,根据用户历史交互序列预测下一个交互的物品。
  • 前人工作 (Previous Works):

    • SID-based GR 的代表工作 (TIGER, P5): 这些工作通过将物品转化为 SID,成功地将强大的LLM知识引入推荐系统,并在语义理解上取得了良好效果。但本文指出,这些工作并未深入探讨其缩放能力。
    • LLM-as-RS 的相关工作: 一些工作尝试直接用LLM做推荐,但常常因为性能(尤其是在CF信号捕捉上)不如传统模型或需要复杂的提示工程 (prompt engineering) 而受到质疑。许多研究甚至认为需要额外注入CF信息才能让LLM有效工作。
    • 多模态模型的缩放定律研究: 已有研究探索了图文等多模态模型中的缩放定律,本文借鉴了其思想,将推荐任务中的 语义信息 (Semantic Information, SI)协同过滤信息 (CF) 视为两种不同的“模态”来进行分析。
  • 技术演进 (Technological Evolution): 推荐系统的发展从早期的协同过滤,到结合内容特征的混合模型,再到基于深度学习的序列推荐模型。近年来,随着LLM的兴起,如何利用LLM增强推荐成为热点。SID-based GR 是其中的一个主流方向,它试图在传统序列推荐的框架内“嫁接”LLM的语义能力。而 LLM-as-RS 则更为激进,试图用LLM“重构”整个推荐范式。本文的工作正处在这一技术路线的十字路口,通过缩放定律的视角来评判哪条路更有前途。

  • 差异化分析 (Differentiation): 与之前的工作相比,本文的核心差异在于研究视角

    • 不追求SOTA,而追求理解: 大多数论文致力于提出新模型刷榜,而本文旨在通过严谨的、可控的实验,理解现有主流范式的内在机理和根本局限。

    • 从“模型缩放”角度切入: 这是本文最独特的视角。它将一个在LLM领域至关重要的概念——缩放定律——引入到生成式推荐的研究中,为评估推荐范式提供了一个全新的、更具前瞻性的维度。

    • 诊断性而非方案性: 本文的主要贡献是“诊断”出了 SID-based GR 的“病症”(即信息瓶颈),并指出了 LLM-as-RS 作为“健康”的替代方案,而不是为 SID-based GR 提供一个修补方案。


4. 方法论 (Methodology - Core Technology & Implementation Details)

本文的核心方法论并非提出新模型,而是建立一个分析框架来研究两种已有的生成式推荐范式。

Figure 1: Two GR paradigms we investigate in this paper. SID-based GR first transforms the item textual descriptions into semantic IDs and then trains a transformer to predict the SIDs of the next it… 该图像是论文中图1的示意图,展示了两种生成推荐范式:SID-based GR通过LLM编码文本生成语义ID并进行推荐,而LLM-as-RS直接用LLM处理文本描述并输出标题,图中还比较了两种范式的主要差异。

  • 方法原理 (Methodology Principles):

    • 核心思想: 一个好的、可缩放的生成式推荐模型,其捕捉 语义信息 (SI)协同过滤信息 (CF) 的能力都应该随着模型参数的增加而稳定提升。
    • 理论基础: 作者借鉴了多模态模型缩放定律研究中的 风险分解 (risk decomposition) 原理,将推荐模型的总误差(损失)分解为三部分:不可约减的最小误差、语义信息学习误差和协同过滤信息学习误差。性能的提升来自于后两项误差随着模型参数的增加而减小。
    • 数学公式与关键细节 (Mathematical Formulas & Key Details): 作者提出了一个用于分析生成式推荐的缩放定律公式: Recall@k=R0ANSIaBNCFb \mathrm { Recall@ } k = R _ { 0 } - { \frac { A } { N _ { \mathrm { SI } } ^ { a } } } - { \frac { B } { N _ { \mathrm { CF } } ^ { b } } }
      • 符号解释:
        • Recall@k\mathrm{Recall@}k: 模型的性能指标,即前 kk 个推荐结果的召回率。
        • R0R_0: 模型在该任务上通过无限放大可达到的理论性能上限。
        • NSIN_{\mathrm{SI}}: 用于学习 语义信息 (SI) 的有效模型参数量。
        • NCFN_{\mathrm{CF}}: 用于学习 协同过滤信息 (CF) 的有效模型参数量。
        • ANSIa\frac{A}{N_{\mathrm{SI}}^a}: 由于学习语义信息不足而产生的性能损失。AAaa 是正常数,通过实验数据拟合得到。aa 越大,表示增加参数对学习语义信息越有效。
        • BNCFb\frac{B}{N_{\mathrm{CF}}^b}: 由于学习协同过滤信息不足而产生的性能损失。BBbb 是正常数,通过实验数据拟合得到。bb 越大,表示增加参数对学习CF信号越有效。
  • 方法步骤与流程 (Steps & Procedures): 本文对两种范式进行了研究,并为每种范式定制了上述缩放公式的具体形式。

    范式一:SID-based GR

    1. 架构: 该范式包含三个核心组件:
      • 一个冻结的LLM编码器 (参数量 NLLMN_{\mathrm{LLM}}),负责将物品的文本描述转换为语义向量。
      • 一个可训练的量化分词器 (参数量 NQTN_{\mathrm{QT}}),如 RQ-VAE,负责将语义向量转换为离散的 SID
      • 一个可训练的下游推荐器 (参数量 NRSN_{\mathrm{RS}}),通常是Transformer架构,负责根据历史 SID 序列自回归地预测下一个 SID
    2. 缩放公式定制: 作者将 NSIN_{\mathrm{SI}}NCFN_{\mathrm{CF}} 与这三个组件的参数量关联起来: Recall@k=R0A(NRS+γ1NLLM+γ2NQT)aBNRSb \mathrm { Recall@ } k = R _ { 0 } - \frac { A } { ( N _ { \mathrm { RS } } + \gamma _ { 1 } N _ { \mathrm { L L M } } + \gamma _ { 2 } N _ { \mathrm { Q T } } ) ^ { a } } - \frac { B } { N _ { \mathrm { R S } } ^ { b } }
      • 符号解释:
        • NCF=NRSN_{\mathrm{CF}} = N_{\mathrm{RS}}: 假设只有下游推荐器 RS 学习协同过滤信号。
        • NSI=NRS+γ1NLLM+γ2NQTN_{\mathrm{SI}} = N_{\mathrm{RS}} + \gamma_1 N_{\mathrm{LLM}} + \gamma_2 N_{\mathrm{QT}}: 假设三个组件都参与学习语义信息。
        • γ1,γ2\gamma_1, \gamma_2: 介于0和1之间的系数,表示冻结的 LLMQT 对语义学习的“有效贡献率”。如果实验发现增大 NLLMN_{\mathrm{LLM}} 对性能没帮助,就意味着 γ10\gamma_1 \approx 0

    范式二:LLM-as-RS

    1. 架构: 该范式更为直接:
      • 一个大型语言模型 (LLM) 作为主体,其大部分权重是冻结的 (参数量 NLLMN_{\mathrm{LLM}})。
      • 使用 LoRA (Low-Rank Adaptation) 技术引入少量可训练参数 (参数量 NLoRAN_{\mathrm{LoRA}}) 进行微调。
      • 输入是包含任务描述和用户历史交互物品标题的文本序列,模型直接生成下一个物品的标题。
    2. 缩放公式定制: Recall@k=R0A(NLoRA+γNLLM)aB(NLoRA+βNLLM)b \mathrm { Recall@ } k = R _ { 0 } - \frac { A } { ( N _ { \mathrm { LoRA } } + \gamma N _ { \mathrm { L L M } } ) ^ { a } } - \frac { B } { ( N _ { \mathrm { LoRA } } + \beta N _ { \mathrm { L L M } } ) ^ { b } }
      • 符号解释:
        • NSI=NLoRA+γNLLMN_{\mathrm{SI}} = N_{\mathrm{LoRA}} + \gamma N_{\mathrm{LLM}}: 假设可训练的 LoRA 和冻结的 LLM 都对学习语义信息有贡献。

        • NCF=NLoRA+βNLLMN_{\mathrm{CF}} = N_{\mathrm{LoRA}} + \beta N_{\mathrm{LLM}}: 这是一个关键假设。作者假设冻结的 LLM 同样对学习协同过滤信号有贡献(贡献率为 β\beta)。如果实验发现增大 NLLMN_{\mathrm{LLM}} 有助于模型捕捉CF信号,就意味着 β>0\beta > 0


5. 实验设置 (Experimental Setup)

  • 数据集 (Datasets):

    • 实验使用了经典的 Amazon Review 数据集的三个子集:Beauty (美妆), Sports and Outdoors (运动和户外), Toys and Games (玩具和游戏)。
    • 这些数据集包含用户的交互序列以及每个物品的文本描述(如标题),非常适合同时评估模型对协同过滤(用户序列)和语义信息(物品文本)的建模能力。
    • 作者固定了训练集和测试集的大小,以确保所有性能变化都归因于模型规模的变化,而非数据量的变化。
  • 评估指标 (Evaluation Metrics): 论文使用了推荐系统领域标准的 Top-K 排名指标:Recall@kNDCG@k

    • 召回率 (Recall@k):

      1. 概念定义: 该指标衡量推荐系统“找得全不全”。它计算的是在为用户推荐的 kk 个物品中,有多少个是用户在未来实际交互过的(即测试集中的正确答案)。这个比例越高,说明推荐列表覆盖的正确物品越多。
      2. 数学公式: Recall@k={Recommended Items}{Ground Truth Items}{Ground Truth Items} \mathrm{Recall@}k = \frac{|\{\text{Recommended Items}\} \cap \{\text{Ground Truth Items}\}|}{|\{\text{Ground Truth Items}\}|}
      3. 符号解释:
        • {Recommended Items}\{\text{Recommended Items}\}: 模型推荐的前 kk 个物品的集合。
        • {Ground Truth Items}\{\text{Ground Truth Items}\}: 用户在测试集中实际交互的物品集合。
        • |\cdot|: 表示集合中元素的数量。
    • 归一化折损累计增益 (Normalized Discounted Cumulative Gain, NDCG@k):

      1. 概念定义: Recall@k 只关心是否推荐对,不关心推荐对的物品排在第几位。NDCG@k 则是一个更精细的指标,它同时考虑了“找得全不全”和“排得好不好”。它认为,正确的物品排在越靠前的位置,推荐质量就越高。其值被归一化到 [0, 1] 区间,越高越好。
      2. 数学公式: NDCG@k=DCG@kIDCG@k,whereDCG@k=i=1krelilog2(i+1) \mathrm{NDCG@}k = \frac{\mathrm{DCG@}k}{\mathrm{IDCG@}k}, \quad \text{where} \quad \mathrm{DCG@}k = \sum_{i=1}^{k} \frac{\mathrm{rel}_i}{\log_2(i+1)}
      3. 符号解释:
        • ii: 推荐列表中的排名位置,从1到kk
        • reli\mathrm{rel}_i: 排名第 ii 的物品的相关性。在本文的推荐任务中,如果该物品是正确答案,则 reli=1\mathrm{rel}_i = 1,否则为0。
        • log2(i+1)\log_2(i+1): 折损项 (discount)。排名越靠后 (ii 越大),分母越大,该项的贡献就越小。
        • DCG@k\mathrm{DCG@}k: 折损累计增益,即推荐列表的得分。
        • IDCG@k\mathrm{IDCG@}k: 理想折损累计增益 (Ideal DCG),即一个完美推荐列表(所有正确答案都排在最前面)所能得到的最高DCG分数。用它来归一化,使得不同用户、不同查询下的 NDCG 分数可以相互比较。
  • 对比基线 (Baselines): 本文的比较主要在两大范式内部和之间进行:

    • 内部比较:SID-based GR 范式内,比较不同参数规模的 LLM编码器 (Flan-T5系列, 77M到11B)、量化分词器 (不同码本数量和大小) 和 推荐器 (336K到192M) 的性能。在 LLM-as-RS 范式内,比较不同规模的 LLM主干 (Qwen3系列, 0.6B到14B) 的性能。

    • 范式间比较:SID-based GR 范式通过缩放能达到的 最佳性能,与 LLM-as-RS 范式在不同规模下的性能进行直接对比。

    • 辅助模型: SASRec 模型被用作一个辅助工具。它是一个经典的序列推荐模型,仅基于用户行为序列进行训练。在本文中,它不作为性能对比的基线,而是用来提取“纯净”的 协同过滤嵌入 (CF embeddings),以注入到主模型中进行消融实验。


6. 实验结果与分析 (Results & Analysis)

本部分是论文的核心论证环节,通过一系列精心设计的实验揭示了两种范式的缩放行为差异。

  • 核心结果分析 1:SID-based GR 存在严重的缩放瓶颈

    1. 扩大推荐器 RS 效果有限:

      Figure 2: The recommendation performance with varying RS model sizes \(( N _ { \\mathrm { R S } } )\) . The performance quickly saturates as \(N _ { \\mathrm { R S } }\) scales up to \(1 0 ^ { 7 }\) paramete… 该图像是包含三个子图的图表,展示了在不同推荐系统(RS)模型规模(以对数刻度表示)下,Beauty、Sports和Toys三类任务的Recall@5指标的变化趋势。可以看到,性能随着模型规模增长快速提升,但在大约10710^7参数规模时趋于饱和。

      • 现象 (Observation 1): 如上图所示,当 RS 模块的参数量从几十万增加到约1000万 (10710^7) 时,性能有明显提升。但继续增加到近2亿,性能曲线几乎变为水平,不再增长。
      • 分析: 这表明,在 SID 这种信息表示下,推荐模型本身的能力很快就“喂饱”了,再增加其复杂性也无法从有限的输入信息中挖掘出更多价值。
    2. 扩大LLM编码器 LLM 几乎无效:

      Figure 3: The recommendation performance with varying LLM encoder sizes \(( N _ { \\mathrm { L L M } } )\) . Little to no effective scaling behaviors are observed. 该图像是图表,展示了随着LLM编码器规模变化,三个领域(Beauty、Sports、Toys)中推荐性能指标(Recall@5、Recall@10、NDCG@5、NDCG@10)的趋势,结果显示性能随模型规模扩大没有明显有效提升。

      • 现象 (Observation 2): 如上图所示,将用于生成 SID 的LLM编码器从77M参数的Flan-T5-base换到11B参数的Flan-T5-xxl,推荐性能几乎没有变化。
      • 分析: 这是最反直觉但也是最关键的发现。它说明更强大的LLM所蕴含的更丰富的语义知识,在经过 SID 量化压缩后,完全丢失了。这有力地证明了缩放公式(3)中的系数 γ10\gamma_1 \approx 0。瓶颈不在于编码器不够强,而在于信息传递的“管道”——SID——太窄了。
    3. 扩大分词器 QT 同样饱和甚至恶化:

      Figure 4: Lower: Scaling behaviors of quantization tokenizer when varying the number of codebooks. Upper: Comparison of performances between RS modules of 13M and 21M parameters. Overall, increasing… 该图像是论文中的图表,展示了在不同数量的codebooks下量化分词器的扩展表现,以及13M与21M参数规模的推荐系统模块性能对比。整体看,增加codebooks数量无法克服性能扩展的饱和现象。

      Figure 5: Lower: Scaling behaviors of the quantization tokenizer when varying the size of each codebook. Upper: Comparison of performances between RS modules of 13M and 21M parameters. Overall, incre… 该图像是图表,展示了图5中量化分词器的扩展行为及推荐系统模块在13M与21M参数规模下的性能对比。上半部分为两种参数配置下的最佳与平均Recall@5对比,下半部分显示不同码本大小对三个领域(Beauty、Sports、Toys)Recall@5的影响,整体表明增加码本大小无法突破性能瓶颈。

      • 现象 (Observation 3): 如上两图所示,无论是增加 RQ-VAE 的码本数量还是增大码本大小,性能都在一个很小的配置(3个码本,每个大小256)达到顶峰,然后停滞或下降。
      • 分析: 更复杂的 SID(更长的ID序列或更大的ID词汇表)虽然理论上能编码更多信息,但也增加了下游 RS 模型的学习难度。实验结果表明,这种难度增加的负面影响超过了信息增加的正面影响。这也证明了缩放公式(3)中的系数 γ20\gamma_2 \approx 0
  • 消融实验/参数分析:定位瓶颈根源于 SID

    • 实验设计 (Observation 4): 为了最终确认 SID 是罪魁祸首,作者做了一个“旁路实验”:既然 SID 传递信息不畅,那我们直接把原始信息“搭桥”送给 RS 模块会怎样?他们分别将:

      1. SASRec 提取的 CF嵌入 注入 RS
      2. 从LLM编码器输出的、未经量化的原始 LLM嵌入 注入 RS
    • 结果与分析:

      Figure 22: The scaling behaviors of LLM encoder (Sentence-T5) with Product Quantization. 该图像是图表,展示了使用产品量化方法的LLM编码器(Sentence-T5)在不同领域中随着编码器规模变化的性能表现,横轴为编码器大小(对数刻度),纵轴为多种召回率和NDCG指标。

      • 如上图所示,注入 CF嵌入 几乎没有性能提升,说明 SID-based GR 框架本身学习CF信号的能力已经饱和。
      • 然而,注入原始 LLM嵌入 带来了显著的性能飞跃,并且此时再扩大 RS 模块(从13M到21M),性能依然能继续提升。
      • 结论: 这个实验雄辩地证明了,性能瓶颈的根源在于 SID 对语义信息的巨大损失。一旦绕过 SID 这个瓶颈,让 RS 模块直接接触到高质量的语义信息,整个系统的性能和缩放潜力都被重新释放。
  • 核心结果分析 2:LLM-as-RS 展现优越的缩放潜力

    1. 性能随模型规模稳定提升,远超 SID-based GR:

      Figure 23: The illustration of injecting the CF embeddings into LLM-as-RS model by ADDING. 该图像是关于通过加法(ADDING)方式将协同过滤嵌入(CF Emb)注入大语言模型推荐系统(LLM-as-RS)的示意图,展示了从用户购物历史向LLM输入的过程及结构。

      • 现象: 如上图所示,LLM-as-RS 的性能曲线(蓝色和绿色)随着模型参数从0.6B增加到14B,呈现出一条漂亮的、持续上升的轨迹,没有任何饱和迹象。并且,在模型规模较大时,其性能轻松超越了 SID-based GR 所能达到的最佳性能(红色虚线),提升幅度高达20%。
      • 分析: 这表明 LLM-as-RS 范式不存在 SID-based GR 那样的信息瓶颈。LLM直接处理原始文本,可以充分利用其强大的语义理解和推理能力,并且这种能力随着模型规模的增大而不断增强。
    2. LLM不仅能学语义,也能学协同过滤 (Observation 5 & 6):

      Figure 24: Scaling behaviors of external CF embeddings added to the token embeddings. The y-axis metric (∆Recall `@ 5` ) measures the performance differences between models with external CF embedding… 该图像是三个子图组成的图表,展示了外部协同过滤(CF)嵌入添加到token嵌入后的性能扩展行为。横轴为CF模型大小,纵轴为提升的Recall@5(∆Recall@5),曲线颜色表示不同规模的LLM模型大小。结果显示,固定CF模型规模时,随着LLM主干模型增大,外部CF嵌入带来的性能提升逐渐减小。

      • 现象1: 作者将实验数据拟合缩放公式(4),得到了很高的拟合优度 (R2R^2 值),并且关键系数 γ\gammaβ\beta 都显著大于0。

      • 分析1: 这从数据上验证了 LLM-as-RS 范式的缩放行为符合预期。γ>0\gamma > 0β>0\beta > 0 表明,即便是冻结的LLM参数,也对学习语义信息 (SI) 和协同过滤信息 (CF) 都有积极贡献

        Figure 25: The efficiency comparison between the two paradigms. Left: The training time and performance of models of different sizes. Training time is measured by the GPU hours required for a model t… 该图像是图表,展示了两种生成推荐范式在不同模型规模下的效率比较。左图显示训练时间与Recall@5性能关系,右图呈现推理时间与Recall@5性能关系,分别以A100 GPU小时和毫秒为单位。

      • 现象2: 作者向 LLM-as-RS 模型中注入外部的 CF嵌入。如上图所示,他们发现一个有趣的趋势:LLM主干模型越大,外部 CF嵌入 带来的性能增益 (∆Recall@5) 就越小

      • 分析2: 这是一个非常巧妙的证明。它说明,当LLM自己还比较小(如0.6B)时,它捕捉CF信号的能力较弱,因此外部CF信息的“帮助”很大。但随着LLM自身规模增长到14B,它已经能从用户行为序列中学习到足够好的CF信息,因此外部的“帮助”就变得可有可无了。这雄辩地证明了 LLM的协同过滤能力也遵循缩放定律,即 β>0\beta > 0


7. 总结与思考 (Conclusion & Personal Thoughts)

  • 结论总结 (Conclusion Summary):

    • 本文通过对模型缩放行为的系统性研究,首次揭示了当前主流的 SID-based GR 推荐范式存在根本性的缩放瓶颈。该瓶颈源于 SID 在将物品丰富语义压缩为离散ID时造成的不可逆信息损失。
    • 与之相对,直接使用LLM进行推荐的 LLM-as-RS 范式展现出优越的、无饱和迹象的缩放潜力,证明了其是通向未来推荐基础模型的一条更有前景的道路。
    • 研究还颠覆了“LLM不擅长协同过滤”的传统观念,证明了LLM学习协同过滤信号的能力会随着模型规模的增大而增强
  • 局限性与未来工作 (Limitations & Future Work):

    • 效率问题: 论文在讨论部分诚实地指出了 LLM-as-RS 的主要短板——效率。尽管性能更优,但直接使用大型LLM进行推理的计算成本和延迟远高于 SID-based GR。如下图所示,LLM-as-RS 的训练和推理时间都显著更长。因此,在对效率要求极高的工业场景,SID-based GR 目前仍有其价值。

      Figure 25: The efficiency comparison between the two paradigms. Left: The training time and performance of models of different sizes. Training time is measured by the GPU hours required for a model t… 该图像是图表,展示了两种生成推荐范式在不同模型规模下的效率比较。左图显示训练时间与Recall@5性能关系,右图呈现推理时间与Recall@5性能关系,分别以A100 GPU小时和毫秒为单位。

    • 未来工作: 作者指出,如何克服当前范式的缺点,例如,为 LLM-as-RS 提速,或者为 SID-based GR 设计一种信息损失更少的物品表示方法,是未来研究的关键方向。

  • 个人启发与批判 (Personal Insights & Critique):

    • 启发: 这篇论文是学术研究的典范。它没有盲目地追求提出一个新奇复杂的模型,而是回归本源,通过严谨的实验设计和深刻的分析,回答了一个领域内至关重要但被忽视的问题。这种“诊断式”的研究方法,对于推动领域的健康发展极具价值。特别是其证明LLM能学习CF信号的实验设计,堪称精妙。
    • 迁移性: 这种通过缩放定律来诊断模型/范式瓶颈的思路,可以广泛应用于其他机器学习领域。任何依赖于信息压缩或多阶段流水线的复杂系统,都可能存在类似的“信息瓶颈”,值得用这种方法去审视。
    • 批判与展望:
      • 虽然论文证明了 `LLM-as-RS

相似论文推荐

基于向量语义检索推荐的相关论文。

暂时没有找到相似论文。