AiPaper
论文状态:已完成

PLUM: Adapting Pre-trained Language Models for Industrial-scale Generative Recommendations

发表:2025/10/09
原文链接PDF 下载
价格:0.10
价格:0.10
已有 23 人读过
本分析由 AI 生成,可能不完全准确,请以原文为准。

TL;DR 精炼摘要

PLUM提出利用语义ID对物品进行符号化,通过持续预训练和任务微调,将预训练语言模型成功应用于工业级大规模生成式推荐。该框架在YouTube视频推荐中显著优于基于大型嵌入表的生产模型,提升了检索效果和扩展能力。

摘要

Large Language Models (LLMs) pose a new paradigm of modeling and computation for information tasks. Recommendation systems are a critical application domain poised to benefit significantly from the sequence modeling capabilities and world knowledge inherent in these large models. In this paper, we introduce PLUM, a framework designed to adapt pre-trained LLMs for industry-scale recommendation tasks. PLUM consists of item tokenization using Semantic IDs, continued pre-training (CPT) on domain-specific data, and task-specific fine-tuning for recommendation objectives. For fine-tuning, we focus particularly on generative retrieval, where the model is directly trained to generate Semantic IDs of recommended items based on user context. We conduct comprehensive experiments on large-scale internal video recommendation datasets. Our results demonstrate that PLUM achieves substantial improvements for retrieval compared to a heavily-optimized production model built with large embedding tables. We also present a scaling study for the model's retrieval performance, our learnings about CPT, a few enhancements to Semantic IDs, along with an overview of the training and inference methods that enable launching this framework to billions of users in YouTube.

思维导图

论文精读

中文精读

1. 论文基本信息 (Bibliographic Information)

  • 标题 (Title): PLUM: Adapting Pre--trained Language Models for Industrial-scale Generative Recommendations (PLUM: 为工业级生成式推荐调整预训练语言模型)
  • 作者 (Authors): Ruining He, Lukasz Heldt, Lichan Hong, Raghunandan Keshavan, Shifan Mao, Nikhil Mehta 等。作者团队来自 Google DeepMindYouTube,这表明该研究结合了前沿的学术探索与大规模工业应用的实践经验。
  • 发表期刊/会议 (Journal/Conference): 论文格式模板为 ACM 会议,但具体会议名称是占位符 (Conference acronym 'XX')。从其在 arXiv 上的发布形式来看,它是一篇预印本 (Pre-print) 论文,尚未在同行评审的会议或期刊上正式发表。
  • 发表年份 (Publication Year): 论文中 ArXiv ID 和引用格式存在占位符和未来日期(如 2510.07784 意指 2025 年 10 月),这通常是作者在投稿前使用的模板。结合论文内容中提及的 Gemini-1.5 模型,可以推断其实际发布时间为 2024 年或之后。
  • 摘要 (Abstract): 论文介绍了一个名为 PLUM 的框架,旨在将预训练语言模型 (LLMs) 应用于工业级规模的推荐任务。该框架包含三个核心阶段:1) 使用语义 ID (Semantic IDs) 对物品进行符号化(Tokenization);2) 在领域特定数据上进行持续预训练 (Continued Pre-training, CPT);3) 为推荐目标进行任务特定的微调 (Fine-tuning),特别聚焦于生成式检索 (Generative Retrieval)。实验在 YouTube 大规模视频推荐数据集上进行,结果表明 PLUM 在检索任务上显著优于一个经过高度优化的、基于大型嵌入表 (Large Embedding Models, LEMs) 的生产模型。论文还分享了模型性能的伸缩性研究、CPT 的经验、Semantic IDs 的改进,以及在 YouTube 上线该框架以服务数十亿用户的训练和推理方法。
  • 原文链接 (Source Link):
    • 原文链接: https://arxiv.org/abs/2510.07784
    • PDF 链接: https://arxiv.org/pdf/2510.07784v1.pdf
    • 发布状态: 预印本 (Pre-print)。

2. 整体概括 (Executive Summary)

  • 研究背景与动机 (Background & Motivation - Why):

    • 核心问题: 传统的工业推荐系统严重依赖巨大的嵌入表 (Large Embedding Models, LEMs) 来表示物品和用户,这种架构擅长记忆,但限制了更复杂、更深层神经网络模型能力的发挥,其扩展方式(增大嵌入表)与大语言模型 (LLMs) 通过增加网络深度和参数来学习组合能力的思路背道而驰。
    • 挑战与空白 (Gap): 直接将现成的 LLM 应用于推荐任务效果不佳。主要存在两大挑战:1) 领域鸿沟 (Domain Gap):LLM 未在特定领域的物品语料和用户行为数据上预训练,难以理解用户偏好和物品的细微差异。2) 输入表示挑战:传统的 LEM 范式难以与 LLM 的扩展方式兼容,训练成本高昂。
    • 切入点/创新思路: 本文的思路不是从零开始训练推荐模型,而是“教会”一个已有的、强大的预训练 LLM 如何做推荐。其核心是设计一个框架 (PLUM),通过物品符号化持续预训练来弥合领域鸿沟,并利用 LLM 强大的序列建模和生成能力,将推荐任务重塑为一个生成式检索问题。
  • 核心贡献/主要发现 (Main Contribution/Findings - What):

    • 提出了 PLUM 框架: 一个系统性地将预训练 LLM 适配于工业级生成式推荐的三阶段框架,包括 物品符号化 (Semantic IDs)持续预训练 (CPT)任务微调 (Fine-tuning)
    • 证明了生成式检索的优越性: PLUM 模型在 YouTube 生产环境中的检索效果显著优于一个高度优化的传统 LEM 模型。它不仅提升了核心业务指标(如点击率、用户满意度),还极大地扩展了推荐内容的多样性(有效词汇表大小提升数倍)。
    • 实现了更高的样本效率: PLUM 模型用更少的训练样本和更低的总计算量(FLOPs)就达到了甚至超越了 LEM 模型的性能,证明了将模型复杂度从嵌入表转移到神经网络的有效性。
    • 分享了宝贵的工业实践经验: 论文详细介绍了 Semantic ID 的改进版 (SID-v2)、CPT 阶段的价值、模型伸缩性规律 (Scaling Law) 以及在 YouTube 部署数十亿参数模型的工程方法。

3. 预备知识与相关工作 (Prerequisite Knowledge & Related Work)

  • 基础概念 (Foundational Concepts):

    • 推荐系统 (Recommender Systems): 一种信息过滤系统,旨在预测用户对物品的偏好或评分。通常包含两个主要阶段:1) 召回/检索 (Retrieval): 从海量物品库中快速筛选出数百或数千个候选物品。2) 排序 (Ranking): 对检索出的候选物品进行精准打分和排序,生成最终的推荐列表。本文主要关注检索阶段。
    • 大型嵌入模型 (Large Embedding Models, LEMs): 工业界推荐系统的主流范式。它为每个用户 ID 和物品 ID 等高基数类别特征学习一个独立的、高维的嵌入向量。模型的绝大部分参数都存在于这些嵌入表中,模型通过学习这些嵌入来“记忆”交互模式。
    • 大语言模型 (Large Language Models, LLMs): 例如 GPT、Gemini 等,是在海量文本数据上通过自监督学习(如“预测下一个词”)训练的深度神经网络。它们拥有强大的自然语言理解、生成能力和丰富的世界知识。
    • 生成式检索 (Generative Retrieval): 一种新的检索范式。它不像传统方法那样计算查询和文档的相似度分数,而是训练一个生成模型(如 LLM)直接“生成”相关文档的唯一标识符(在这里是 Semantic ID)。
    • 语义 ID (Semantic IDs, SIDs): 将每个物品(如视频)表示为一个由离散符号(token)组成的序列,而不是一个单一的嵌入向量。这使得物品可以像文本一样被 LLM 处理。SIDs 通常通过矢量量化技术(如 RQ-VAE)从物品的内容特征中学习得到。
    • 残差量化变分自编码器 (Residual-Quantized Variational AutoEncoder, RQ-VAE): 一种生成 SIDs 的核心技术。它将一个高维的物品嵌入向量逐步分解为一系列残差,并对每个残差在各自的码本(codebook)中寻找最接近的码字(codeword),这些码字的索引就组成了物品的 SID
    • 持续预训练 (Continued Pre-training, CPT): 在一个已经预训练好的模型(如 LLM)的基础上,使用特定领域的数据(如推荐日志、物品元数据)继续进行预训练。目的是让模型学习新领域的知识和模式,同时保留其原有的通用能力。
    • 混合专家模型 (Mixture-of-Experts, MoE): 一种扩展模型参数同时保持计算量相对恒定的架构。它包含多个“专家”子网络,并通过一个门控网络为每个输入 token 选择性地激活少数几个专家。本文实验中使用了 MoE 架构的模型。
  • 前人工作 (Previous Works):

    • 序列推荐 (Sequential Recommendations): 早期工作使用 RNN、Transformer 等模型来捕捉用户行为序列的动态。这些模型虽然使用了神经网络,但仍然依赖 LEM 范式,即为每个物品 ID 创建一个大型嵌入表。
    • 语义 ID 与量化 (Semantic IDs and Quantization): TIGER [23, 24] 是该方向的奠基性工作,证明了使用 SID 从零开始训练生成式检索模型的可行性。后续研究致力于通过融合多模态特征、用户行为信号等来提升 SID 的质量。
    • 生成式检索与对齐 (Generative Retrieval and Alignment): 许多工作(如 OneRec [40])开始采用生成式检索,但大多是从零开始训练模型。而另一些工作探索将 LLM 用于推荐,但主要集中在利用其语言接口,很少研究如何将 SID 这种新模态有效地融入 LLM。
  • 技术演进 (Technological Evolution): 推荐系统的发展脉络可以看作是:

    1. 协同过滤等传统算法。
    2. LEM 为核心的深度学习模型(如 Deep Neural Networks for YouTube Recommendations [6])。
    3. 引入 Transformer 等序列模型的 LEM 变体,但本质未变。
    4. 本文所处的阶段: 范式转移,即放弃 LEM,拥抱 LLM,将推荐视为一个 序列到序列 (seq2seq) 的生成任务,通过 SIDs 将物品语言化。
  • 差异化分析 (Differentiation):

    • 与传统 LEM 的区别: 根本区别在于模型参数的构成。PLUM 将模型复杂度从输入端(巨大的嵌入表)转移到了计算端(深厚的 Transformer 网络),不再为每个物品维护一个独立向量。
    • 与从零训练的生成式模型的区别: PLUM 的核心是适配 (Adapting) 而非从零训练。它利用了通用 LLM 的预训练成果(语言理解和序列建模能力),并通过 CPT 阶段系统性地将推荐领域的知识注入模型,从而实现更好的性能和样本效率。
    • 与其它 LLM for RecSys 工作的区别: 许多工作关注让 LLM 理解自然语言指令来做推荐,而 PLUM 专注于将物品本身转化为一种 LLM 能直接处理的“语言”(SID),并将其用于大规模检索任务,更偏向底层系统架构的革新。

4. 方法论 (Methodology - Core Technology & Implementation Details)

PLUM 框架的核心是其三个有机结合的阶段:

2.1 语义 ID (Semantic IDs, SID-v2)

SID 的质量直接决定了生成式检索模型的上限。本文在 TIGER 框架 (RQ-VAE) 的基础上提出了一系列名为 SID-v2 的重要改进。

该图像是一个示意图,展示了用于视频推荐的余量量化方法及其训练过程,包括DNN编码器对共现视频嵌入的处理、残差量化分解为多个码本的表示方式,以及解码器与多层感知机(MLP)之间的对比损失和重构损失。 该图像是一个示意图,展示了用于视频推荐的余量量化方法及其训练过程,包括DNN编码器对共现视频嵌入的处理、残差量化分解为多个码本的表示方式,以及解码器与多层感知机(MLP)之间的对比损失和重构损失。

  • 方法原理 (Methodology Principles): SID-v2 的核心思想是创建一个既能全面反映物品内在内容(多模态),又能体现用户行为关联(协同过滤信号),同时还具有高效层级结构的物品符号表示。

  • 方法步骤与流程 (Steps & Procedures):

    1. 融合多模态内容表示 (Fused Multi-Modal Content Representation):
      • 为了克服单一内容来源(如仅文本)的局限性,SID-v2 可以接收来自不同模态的多个嵌入向量 {xm}m=1M\{x_m\}_{m=1}^M(如视频画面的视觉嵌入、标题的文本嵌入、音频嵌入等)。
      • 每个嵌入向量 xmx_m 首先通过一个独立的编码器 Em\mathcal{E}_m 得到一个隐向量 zmz_m
      • 然后将所有隐向量拼接起来 z~=[z1,,zM]\tilde{z} = [z_1, \dots, z_M],再通过一个投影层得到一个统一的特征向量 zz。这个 zz 将作为 RQ-VAE 的输入。
    2. 量化的层级结构优化 (Hierarchical Refinements in Quantization):
      • 多分辨率码本 (Multi-Resolution Codebooks): 传统 RQ-VAE 所有层级的码本大小相同,效率低下。SID-v2 采用递减的分辨率,第一层的码本最大(如2048),后续层级的码本大小逐层减半。公式为:码本大小 = 2048/2level12048 / 2^{level-1}。这使得 SID 的前几位能够区分大类,后几位进行精细修正,结构更高效。
      • 渐进式掩码 (Progressive Masking): 为了强化层级依赖关系,训练时引入一个随机掩码。随机选择一个层级 r[1,L]r \in [1, L],只使用 SID 的前 rr 个码字来重构原始向量。这迫使模型学习到一个更有意义的由粗到精的层级结构。
    3. 共现对比正则化 (Co-occurrence Contrastive Regularization):
      • 为了让 SID 能反映用户的观看习惯(例如,经常一起看的视频应该有相似的 SID),引入了一个对比学习损失项 Lcon\mathcal{L}_{con}
      • 在训练批次中,对于一个视频 ii,将与它共同出现在用户观看序列中的另一个视频作为正样本 (pi+p_i^+),批次内的其他视频作为负样本。目标是拉近正样本对在嵌入空间中的距离,推远负样本对。
  • 数学公式与关键细节 (Mathematical Formulas & Key Details):

    • 对比损失 (Lcon\mathcal{L}_{con}): Lcon=i=12Nbexp(sim(pi,pi+))j=12Nbexp(sim(pi,pj)) \mathcal{L}_{con} = - \sum_{i=1}^{2N_b} \frac{\exp(\mathrm{sim}(p_i, p_i^+))}{\sum_{j=1}^{2N_b} \exp(\mathrm{sim}(p_i, p_j))}

      • 符号解释:
        • NbN_b: 一个批次 (batch) 中的视频对数量。
        • pip_i: 第 ii 个视频的表示向量。
        • pi+p_i^+: 与视频 ii 共现的正样本视频的表示向量。
        • sim(pi,pj)\mathrm{sim}(p_i, p_j): 视频 iijj 表示向量的点积相似度。
      • 公式目的: 该损失是一个标准的 InfoNCE 对比损失。它最大化正样本对的相似度,同时最小化与批次内所有其他负样本的相似度,从而将共现视频在表示空间中聚集在一起。
    • SID-v2 总训练损失 (L\mathcal{L}): L=Lrecon+\mathcalLrq+Lcon \mathcal{L} = \mathcal{L}_{recon} + \mathcalL_{rq} + \mathcal{L}_{con}

      • 符号解释:
        • Lrecon=m=1Mxmx^m2\mathcal{L}_{recon} = \sum_{m=1}^{M} ||x_m - \hat{x}_m||^2: 重构损失。要求量化后的向量 z^\hat{z} 经过解码器 Dm\mathcal{D}_m 后,能尽可能地还原出原始的多模态输入嵌入 x^m\hat{x}_m
        • Lrq=l=1Lβrlsg[el]2+sg[rl]el2\mathcal{L}_{rq} = \sum_{l=1}^{L} \beta ||r_l - \mathrm{sg}[e_*^l]||^2 + ||\mathrm{sg}[r_l] - e_*^l||^2: 量化损失。这是 RQ-VAE 的核心损失,包含两部分:1) codebook loss (第一项),更新码本中的码字向量 ele_*^l;2) commitment loss (第二项),鼓励编码器的输出 rlr_l 靠近选中的码字。sg 是停止梯度 (stop-gradient) 算子,用于隔离两部分损失的梯度传播。rlr_l 是第 ll 层的残差。
        • Lcon\mathcal{L}_{con}: 上文解释的对比损失

2.2 持续预训练 (Continued Pre-training, CPT)

  • 方法原理: 此阶段的目标是让一个通用的预训练 LLM 理解 SID 这种新的“语言”模态,并将其与模型已有的自然语言知识对齐。

  • 方法步骤: 模型在两种数据源混合的语料上进行标准的“下一个词元预测” (next-token prediction) 任务。

    • 数据源 1: 用户行为数据 (User behavior data): 主要由用户的观看历史序列构成。每个观看记录不仅包含视频的 SID,还可能包含如频道名、观看比例、观看时长等其他特征的 token 化表示。
    • 数据源 2: 视频元数据语料 (Video metadata corpus): 将视频的 SID 与其文本描述(标题、简介、ASR字幕等)构造成“问答”或“描述”形式的文本。
    • 数据混合: 两种数据源各占 50%。
  • 关键细节: Table 1 展示了 CPT 阶段的训练数据格式。

    以下是论文 Table 1 的数据转录:

    类型 示例
    用户行为训练数据 wh=<sid1><channelname><watchratio><watchtime><hourssincefinalwatch><sid2><channelname>..<sidn>wh = <sid_1> <channel_name> <watch_ratio> <watch_time><hours_since_final_watch> <sid_2> <channel_name>.. || <sid_n>
    SID + 视频标题 Video <sid> has title (en): <video_title>
    SID + 视频主题 Thetopicsinvideo<sid>are:<topics>The topics in video <sid> are: <topics>

    这个阶段的训练让模型学会:1) 根据用户历史预测下一个视频的 SID;2) 根据 SID 生成视频的文本描述;3) 根据文本描述生成视频的 SID

2.3 生成式检索 (Generative Retrieval)

  • 方法原理:CPT 之后,模型具备了基础的推荐能力。此阶段通过监督微调 (Supervised Fine-Tuning, SFT) 进一步强化模型,使其专注于**“给定用户上下文,生成用户最可能点击的下一个视频的 SID”**这一特定任务。

    Figure 2: Illustration of Generative Retrieval for next video recommendation. The input prompt is a sequence of interleaved sID tokens, text and custom tokens for numerical features. 该图像是图2的示意图,展示了用于下一个视频推荐的生成式检索过程。输入提示由交错的sID令牌、文本和数值特征的自定义令牌组成,模型为解码器结构的语言模型,直接生成下一推荐项的Semantic ID。

  • 方法步骤与流程:

    • 输入 (Input Prompt): 构建一个丰富的提示序列,包含:用户观看历史 (SID 序列)、实时上下文特征(如当前正在看的视频)、以及其他数值和类别特征(这些特征也被 token 化)。
    • 输出 (Output Target): 用户在给定上下文后实际点击(或有高满意度互动)的视频的 SID 序列。
    • 训练: 模型采用标准的自回归最大似然目标进行训练,即最大化生成真实点击视频 SID 的概率。
    • 推理 (Inference): 使用集束搜索 (beam search) 等解码策略生成多个候选 SID 序列。这些 SID 序列再被映射回真实的视频库,形成最终的推荐候选集。
  • 数学公式与关键细节:

    • SFT 损失函数 (LSFT\mathcal{L}_{\mathrm{SFT}}): LSFT=t=1Lr(user,vclick)logP(sidtContextuser,Historyuser,sid<t) \mathcal{L}_{\mathrm{SFT}} = - \sum_{t=1}^{L} r(\mathrm{user}, v_{click}) \cdot \log P(sid_t | \mathrm{Context}_{\mathrm{user}}, \mathrm{History}_{\mathrm{user}}, sid_{<t})
      • 符号解释:
        • [sid1,,sidL][sid_1, \dots, sid_L]: 用户点击的视频 vclickv_{click}SID 序列。
        • sidtsid_t: SID 序列的第 tt 个 token。
        • sid<tsid_{<t}: SID 序列中第 tt 个 token 之前的所有 tokens。
        • Contextuser,Historyuser\mathrm{Context}_{\mathrm{user}}, \mathrm{History}_{\mathrm{user}}: 用户的上下文和历史记录构成的输入 prompt。
        • r(user,vclick)r(\mathrm{user}, v_{click}): 一个人工设计的奖励信号,用于衡量用户点击的质量(如长观看、点赞等)。论文提到,实践中通过基于该奖励进行采样,然后对样本进行等权重训练。
      • 公式目的: 这是一个加权的交叉熵损失。模型被训练来预测 SID 的每个 token,权重 rr 使得模型更关注能带来高质量互动的样本。

5. 实验设置 (Experimental Setup)

  • 数据集 (Datasets):

    • 实验使用了谷歌内部的大规模 YouTube 视频推荐数据集,涵盖长视频 (LFV) 和短视频 (Shorts)。
    • 伸缩性研究 (Scaling Study) 使用了 YouTube 的“接下来观看什么”(what to watch next) 场景的数据,视频语料库包含数十亿个视频。
    • 选择原因: 使用真实的工业级数据集是验证模型在实际应用中有效性的唯一途径,其规模和复杂性远超公开数据集。
  • 评估指标 (Evaluation Metrics):

    • 有效词汇表大小 (Effective Vocab Size):
      1. 概念定义: 该指标衡量推荐系统推荐内容的多样性和广度。它定义为“覆盖 95% 推荐曝光量所需的独立视频数量”。一个更高的值意味着模型能够推荐更多样化、更小众的内容,而不是总推荐少数热门视频。
      2. 数学公式: 论文未提供标准公式,其定义为描述性定义。
      3. 符号解释: 不适用。
    • 点击率 (Click-Through-Rate, CTR):
      1. 概念定义: 衡量用户对推荐内容感兴趣程度的指标。它计算的是推荐项目被点击的次数占其总曝光次数的比例。CTR 越高,说明推荐越精准。
      2. 数学公式: CTR=Total ClicksTotal Impressions \mathrm{CTR} = \frac{\text{Total Clicks}}{\text{Total Impressions}}
      3. 符号解释:
        • Total Clicks: 推荐项目被点击的总次数。
        • Total Impressions: 推荐项目被展示的总次数。
    • 每次观看的观看时长 (Watch Time per View, WT/View):
      1. 概念定义: 衡量用户观看推荐视频的平均时长。这个指标反映了内容的吸引力和用户的投入程度。
      2. 数学公式: WT/View=Total Watch TimeTotal Views \mathrm{WT/View} = \frac{\text{Total Watch Time}}{\text{Total Views}}
      3. 符号解释:
        • Total Watch Time: 所有被观看推荐视频的总时长。
        • Total Views: 推荐视频被观看的总次数。
    • 每次观看的观看比例 (Watch Fraction per View, WF/View):
      1. 概念定义: 衡量用户观看推荐视频的平均完成度。它计算的是平均观看时长占视频总时长的比例。这个指标可以部分消除视频长短对观看时长的影响。
      2. 数学公式: WF/View=1Nviewsi=1NviewsWatch TimeiVideo Durationi \mathrm{WF/View} = \frac{1}{N_{views}} \sum_{i=1}^{N_{views}} \frac{\text{Watch Time}_i}{\text{Video Duration}_i}
      3. 符号解释:
        • NviewsN_{views}: 观看总次数。
        • Watch Timei\text{Watch Time}_i: 第 ii 次观看的观看时长。
        • Video Durationi\text{Video Duration}_i: 第 ii 次观看的视频总时长。
    • 视频召回率@K (Video Recall@K, VID Recall@K):
      1. 概念定义: 衡量生成式检索模型准确生成目标视频的能力。它计算的是在模型生成的前 K 个 SID 候选序列中,有多少比例成功包含了真实的目标视频。
      2. 数学公式: Recall@K=1TiTI(videoiMapToVideo(TopK(predictionsi))) \mathrm{Recall}@K = \frac{1}{|T|} \sum_{i \in T} \mathbb{I}(\text{video}_i \in \text{MapToVideo}(\text{TopK}(\text{predictions}_i)))
      3. 符号解释:
        • TT: 测试集。
        • videoi\text{video}_i: 第 ii 个测试样本的真实目标视频。
        • TopK(predictionsi)\text{TopK}(\text{predictions}_i): 模型为第 ii 个样本生成的前 K 个最可能的 SID 序列。
        • MapToVideo()\text{MapToVideo}(\cdot): 将 SID 序列映射回视频的函数。
        • I()\mathbb{I}(\cdot): 指示函数,如果条件为真则为 1,否则为 0。
  • 对比基线 (Baselines):

    • LEM (Large Embedding Model): 一个在 YouTube 生产环境中经过多年高度优化的、基于 Transformer 架构的大型嵌入模型。这是本文最主要的、也是最强的对比基线。在 A/B 测试中,作者还使用了一个增强版 LEM+LEM+(增加了给 LEM 的流量配额)作为更强的基线。
    • PLUM 变体 (Ablation Models): 在消融实验中,对比了不同配置的 PLUM 模型,例如:从随机权重初始化、不经过 CPT 阶段等。

6. 实验结果与分析 (Results & Analysis)

6.1 核心结果分析 (Generative Retrieval Performance)

本部分对比了 PLUM 模型 (MoE-900M) 和生产环境的 LEM 模型。

以下是论文 Table 2Table 3 的数据转录:

Table 2: 推荐质量对比 (PLUM vs. LEM) 每个数值是 PLUM 指标除以 LEM 指标的比率。

Metric LFV (长视频) Shorts (短视频)
Effective Vocab Size 2.60x 13.24x
CTR 1.42x 1.33x
WT/View 0.72x 1.13x
WF/View 1.32x 1.03x
  • 分析:
    • 多样性巨大提升: PLUM 的有效词汇表大小是 LEM 的 2.6 倍(长视频)到 13.24 倍(短视频),这表明 PLUM 能够推荐更广泛、更多样化的内容,挖掘出更多小众和长尾视频,泛化能力远超 LEM
    • 用户参与度提升: PLUMCTR 显著更高(+33%~42%),说明其推荐更符合用户兴趣。WF/View (观看完成度) 也有提升,表明推荐的内容质量更高。WT/View 在长视频上有所下降,但观看比例 (WF/View) 上升了 32%,这可能意味着 PLUM 推荐了更短但更吸引人的长视频。
    • 样本效率: 论文指出,PLUM 每天只使用约 2.5 亿样本训练,而 LEM 使用数十亿样本。尽管训练单个样本的成本更高,PLUM 的总训练计算量(FLOPs)却不到 LEM 的 55%,实现了显著的效率提升。

Table 3: 线上 A/B 测试结果 添加 PLUM 模型后,相对于 LEM+LEM+ 基线的指标变化百分比。

Metric LFV (长视频) Shorts (短视频)
Engaged Users +0.07% +0.28%
Panel CTR +0.76% +4.96%
Views +0.80% +0.39%
Satisfaction +0.06% +0.39%
  • 分析: 在真实的线上环境中,PLUM 作为现有系统的补充,依然带来了全面的正向收益,尤其是在短视频场景下 Panel CTR 提升近 5%,这证明了 PLUM 能够提供现有最强系统无法提供的独特价值。

6.2 消融实验/参数分析 (Ablation Studies / Parameter Analysis)

1. Semantic IDs (SID-v2) 消融实验

以下是论文 Table 4 的数据转录:

Table 4: SIDv2 改进的消融实验

SID Model SID Uniqueness VID Recall@10
SIDv1 (Baseline) 94.0% 12.3%
SIDv2 (Ours) 96.7% 14.4%
Ablate Multi-Resolution 94.8% 13.2%
Ablate Multi-Embedding 96.9% 12.8%
Ablate Co-occurrence 91.8% 12.6%
  • 分析:
    • SIDv2 整体有效: SIDv2 相比基线 SIDv1,在 SID 唯一性(减少哈希冲突)和下游任务的 VID Recall@10 上都有明显提升。
    • 各组件均有贡献: 去掉任何一个组件(多分辨率码本、多模态嵌入融合、共现对比学习)都会导致 Recall@10 下降。
    • 共现对比学习至关重要: 去掉共现对比学习(Ablate Co-occurrence)后,SID 唯一性和 Recall@10 都出现了大幅下降,这说明将用户行为信号注入 SID 的学习过程,对于生成与推荐任务对齐的 SID 至关重要

2. 持续预训练 (CPT) 的影响

以下是论文 Table 5 的数据转录,并结合 图像3 进行分析。

Table 5: CPT 和 LLM 初始化的影响

Model Pre-trained LLM CPT Recall@10 (8th-day)
R1 No No 0.19
R2 Yes No 0.23
CR1 No Yes 0.27
CR2 Yes Yes 0.28

Figure 3: 8-th Day Recall `@` 10 and training loss vs retrieval SFT training step. 该图像是图表,展示了第八天召回率@10和训练损失随检索微调训练步骤变化的关系。左图为召回率曲线,右图为训练损失(对数尺度)曲线,分别对比了四种不同的训练策略。

  • 分析:
    • CPT 的巨大价值: 无论是否使用预训练 LLM 初始化,CPT 阶段都带来了巨大的性能提升(CR1 vs R1, CR2 vs R2)。图像3 显示,经过 CPT 的模型(CR1, CR2)在微调开始时就有更高的 Recall 和更低的 Loss,并且收敛速度快得多。这证明了 CPT 在弥合领域鸿沟、提升微调效率方面的核心作用。
    • 预训练 LLM 的价值: 使用预训练 LLM 初始化 consistently 优于随机初始化(R2 vs R1, CR2 vs CR1)。这说明 LLM 在海量文本上学到的通用序列处理能力和知识,可以被有效迁移到推荐任务中,即使推荐任务的输入主要是非文本的 SID

3. 伸缩性研究 (Scaling Study)

图像4图像5图像6 共同揭示了 PLUM 生成式检索模型的伸缩规律。

Figure 4: Training and evaluation loss variation as we scale up training Iso-FLOPS. 该图像是图表,展示了图4中不同模型规模下训练和评估损失随Iso-FLOPS扩展的变化关系。(a)显示训练损失与等效计算量的对数关系,(b)显示第8天评估损失变化,图中模型包括MoE-3B、MoE-900M、MoE-370M和MoE-110M。

该图像是两张折线对比图,展示了不同规模MoE模型(3B, 900M, 370M, 110M)在Iso-FLOPS维度上训练召回率(左图)和第8天召回率(右图)的表现,体现了模型规模与计算效率对推荐性能的影响。 该图像是两张折线对比图,展示了不同规模MoE模型(3B, 900M, 370M, 110M)在Iso-FLOPS维度上训练召回率(左图)和第8天召回率(右图)的表现,体现了模型规模与计算效率对推荐性能的影响。

该图像是一张双子图表,左图展示了不同参数规模和计算预算下的训练损失,右图展示了相应的8天召回率@10。横轴为每个令牌激活参数数,曲线表示不同的等效FLOPS预算,显示模型性能随着计算资源和模型大小变化的趋势。 该图像是一张双子图表,左图展示了不同参数规模和计算预算下的训练损失,右图展示了相应的8天召回率@10。横轴为每个令牌激活参数数,曲线表示不同的等效FLOPS预算,显示模型性能随着计算资源和模型大小变化的趋势。

  • 分析:
    • 模型和计算量越大,效果越好: 实验清晰地展示了生成式检索任务遵循与 LLM 类似的伸缩法则 (Scaling Law)。增加模型大小和训练计算量,可以稳定地降低损失、提升召回率。
    • 大模型泛化能力更强: 图像4 表明,在相同的计算量下,更大的模型虽然在训练集上可能不是最优的,但在未见过的测试集上表现更好,这证明了其强大的泛化能力。
    • Chinchilla-like 规律: 图像6 的结果与著名的 Chinchilla 论文[11]的发现类似,即在固定的计算预算下,存在一个最优的模型大小和数据量的配比。盲目增大模型而不增加数据和训练步数,效果不一定最好。
    • 局限性讨论: 作者指出,实验中最大的 MoE-3B 模型表现未超过 MoE-900M,这可能是因为受限于计算资源,其分配到的批处理大小 (batch size) 过小,且训练轮数 (epoch) 不足(仅 0.57 epoch),未能充分训练。这暗示了对于超大模型,需要同等规模的数据和计算资源才能发挥其全部潜力。

7. 总结与思考 (Conclusion & Personal Thoughts)

  • 结论总结 (Conclusion Summary): 论文成功地提出了 PLUM,一个将预训练 LLM 适配于工业级生成式推荐的有效框架。通过创新的 SID-v2 物品符号化、关键的 CPT 领域对齐阶段和高效的 SFT 微调,PLUM 不仅在 YouTube 的生产环境中取得了超越高度优化 LEM 模型的性能,而且展示了更高的样本效率和更好的多样性。这项工作标志着推荐系统领域从传统的“嵌入-记忆”范式向“生成-理解”范式迈出了坚实的一步。

  • 局限性与未来工作 (Limitations & Future Work):

    • 局限性: 论文坦诚,在当前的计算资源下,最大的 MoE-3B 模型并未展现出最佳性能,说明超大模型的训练和调优仍具挑战。此外,解码策略(如 beam search)虽然有效,但在多样性上可能还有优化空间。
    • 未来工作:
      1. PLUM 框架应用到推荐系统的其他任务,如排序 (Ranking)个性化搜索 (Personalized Search)
      2. 开发新的解码策略,以更好地平衡推荐的准确性和多样性。
      3. 实现 SID 和自然语言的无缝混合生成,让模型不仅能推荐物品,还能用自然语言解释推荐原因。
  • 个人启发与批判 (Personal Insights & Critique):

    • 启发:
      1. 范式转移的佐证: 这篇论文是“LLM 重塑一切”趋势在推荐系统领域的强有力证明。它清晰地展示了放弃传统 LEM、拥抱 LLM 生成范式的巨大潜力。其核心思想——将模型复杂度从“记忆”转移到“计算”——对设计下一代 AI 系统具有普遍的指导意义。
      2. CPT 的普适价值: CPT 阶段的设计非常巧妙,是解决 LLM “领域鸿沟”问题的有效模板。对于任何希望将通用 LLM 应用于特定专业领域(如金融、医疗、法律)的场景,这种“领域知识注入”的思路都值得借鉴。
      3. 万物皆可“语言化”: Semantic ID 的成功表明,任何事物(视频、商品、音乐)只要能提取出足够丰富的特征,就有可能被“语言化”并纳入 LLM 的处理框架中。这为多模态和跨领域智能系统的构建打开了想象空间。
    • 批判:
      1. 可复现性挑战: 作为一篇工业界论文,其所有实验均基于内部的、不公开的数据集和巨大的计算资源(千卡 TPU),这使得学术界的研究者几乎无法复现其结果或进行公平比较。
      2. “幻觉”问题的讨论不足: 论文提到生成无效 SID(幻觉)的比例很低(< 5%),但没有深入探讨这个问题的原因、影响以及更有效的解决方案。在生成式范式中,如何保证生成内容的可控性和真实性是一个长期存在的挑战。
      3. 在线服务成本: 论文强调了训练效率的提升,但对在线推理(serving)的成本和延迟讨论较少。MoE 模型虽然在训练时计算量可控,但其巨大的参数量对推理服务的硬件需求(内存)提出了极高要求,这在实际部署中是一个关键的权衡因素。

相似论文推荐

基于向量语义检索推荐的相关论文。

暂时没有找到相似论文。