论文状态:已完成

Pre-training Generative Recommender with Multi-Identifier Item Tokenization

发表:2025/04/06
原文链接PDF 下载
价格:0.100000
价格:0.100000
已有 2 人读过
本分析由 AI 生成,可能不完全准确,请以原文为准。

TL;DR 精炼摘要

本文提出了MTGRec框架,通过多标识符物品词元化增强生成式推荐器的预训练数据。创新点包括使用残差量化变分自编码器作为词元化器,将每个物品与多个标识符关联,结合课程学习动态调整数据组的采样概率,有效提高低频物品的语义建模和词元序列数据的多样性。

摘要

Generative recommendation autoregressively generates item identifiers to recommend potential items. Existing methods typically adopt a one-to-one mapping strategy, where each item is represented by a single identifier. However, this scheme poses issues, such as suboptimal semantic modeling for low-frequency items and limited diversity in token sequence data. To overcome these limitations, we propose MTGRec, which leverages Multi-identifier item Tokenization to augment token sequence data for Generative Recommender pre-training. Our approach involves two key innovations: multi-identifier item tokenization and curriculum recommender pre-training. For multi-identifier item tokenization, we leverage the RQ-VAE as the tokenizer backbone and treat model checkpoints from adjacent training epochs as semantically relevant tokenizers. This allows each item to be associated with multiple identifiers, enabling a single user interaction sequence to be converted into several token sequences as different data groups. For curriculum recommender pre-training, we introduce a curriculum learning scheme guided by data influence estimation, dynamically adjusting the sampling probability of each data group during recommender pre-training. After pre-training, we fine-tune the model using a single tokenizer to ensure accurate item identification for recommendation. Extensive experiments on three public benchmark datasets demonstrate that MTGRec significantly outperforms both traditional and generative recommendation baselines in terms of effectiveness and scalability.

思维导图

论文精读

中文精读

1. 论文基本信息

1.1. 标题

Pre-training Generative Recommender with Multi-Identifier Item Tokenization (使用多标识符物品词元化预训练生成式推荐器)

1.2. 作者

  • Bowen Zheng* (中国人民大学高瓴人工智能学院)

  • Zhongfu Chen (华为泊松实验室)

  • Enze Liu* (中国人民大学高瓴人工智能学院)

  • Zhongrui Ma (华为泊松实验室)

  • Yue Wang (华为泊松实验室)

  • Wayne Xin Zhao (中国人民大学高瓴人工智能学院)

  • Ji-Rong Wen (中国人民大学高瓴人工智能学院)

    (*表示共同第一作者)

1.3. 发表期刊/会议

Proceedings of the 48th International ACM SIGIR Conference on Research and Development in Information Retrieval (SIGIR '25)。 SIGIR (Special Interest Group on Information Retrieval) 是信息检索领域的顶级国际会议,享有极高的声誉和影响力。

1.4. 发表年份

2025年

1.5. 摘要

生成式推荐 (Generative recommendation) 是一种通过自回归 (autoregressively) 生成物品标识符 (item identifiers) 来推荐潜在物品的新兴范式。现有方法通常采用一对一的映射策略,即每个物品 (item) 由一个单一标识符 (single identifier) 表示。然而,这种方案存在一些问题,例如对于低频物品 (low-frequency items) 的语义建模次优,以及词元序列数据 (token sequence data) 的多样性有限。

为了克服这些限制,本文提出了 MTGRec,它利用多标识符物品词元化 (Multi-identifier item Tokenization) 来增强生成式推荐器 (Generative Recommender) 的预训练数据。本文的方法包含两项关键创新:多标识符物品词元化和课程推荐器预训练 (curriculum recommender pre-training)。对于多标识符物品词元化,本文利用残差量化变分自编码器 (Residual-Quantized Variational AutoEncoder, RQ-VAE) 作为词元化器骨干 (tokenizer backbone),并将来自相邻训练周期的模型检查点 (model checkpoints) 视为语义相关的词元化器。这使得每个物品可以关联多个标识符,从而将单个用户交互序列 (user interaction sequence) 转换为多个词元序列,作为不同的数据组 (data groups)。对于课程推荐器预训练,本文引入了一种由数据影响估计 (data influence estimation) 引导的课程学习 (curriculum learning) 方案,在推荐器预训练期间动态调整每个数据组的采样概率 (sampling probability)。预训练之后,模型使用单个词元化器进行微调 (fine-tune),以确保推荐时准确的物品识别。在三个公共基准数据集上进行的广泛实验表明,MTGRec 在有效性和可伸缩性 (scalability) 方面显著优于传统的和生成式的推荐基线模型。

1.6. 原文链接

https://arxiv.org/abs/2504.04400 (预印本)

1.7. PDF 链接

https://arxiv.org/pdf/2504.04400v3.pdf

2. 整体概括

2.1. 研究背景与动机

当前,序列推荐系统 (sequential recommender systems) 已被广泛应用于各种在线平台,旨在根据用户的历史交互行为捕捉个性化偏好。传统的序列推荐方法通过为每个物品分配一个唯一 ID,并通过近似最近邻 (approximate nearest neighbor, ANN) 算法衡量用户偏好与候选物品之间的相似性来预测下一个物品。

近年来,受大型语言模型 (Large Language Models, LLMs) 和生成式检索 (generative retrieval) 方法潜力的推动,生成式推荐范式被提出作为 ANN 的替代方案。其核心思想是使用一系列词元(即词元序列)作为物品表示的标识符,而不是单一的 ID。因此,下一物品预测被重新定义为序列到序列 (sequence-to-sequence) 问题,目标是自回归地生成目标物品的标识符。

一个典型的生成式推荐框架包括两个关键组件:物品词元化器 (item tokenizer) 和生成式推荐器 (generative recommender)。物品词元化器旨在将每个物品与一个包含语义知识的词元列表关联起来。生成式推荐器则用于自回归地生成目标词元序列。

尽管生成式推荐取得了显著进展,但现有方法通常为每个物品分配一个单一标识符,采用严格的一对一映射 (one-to-one mapping) 进行物品词元化。这种僵化的词元化方案带来了以下两个潜在问题:

  1. 低频物品的语义建模次优 (Suboptimal semantic modeling for low-frequency items): 词元序列数据继承了交互数据的长尾分布 (long-tail distribution) 和数据稀疏性 (data sparsity) 问题。因此,与长尾物品相关的词元频率较低,缺乏监督信号,使得有效学习其语义具有挑战性。

  2. 词元序列数据多样性有限 (Limited diversity in token sequence data): 一对一的映射限制了序列数据的多样性。与所有可能的词元排列相比,将观察到的物品序列一对一地映射到词元序列导致了数据变异性的不足。

    这些限制阻碍了通过模型扩展 (model scaling) 来提高性能的潜力,这在 LLMs 中已得到证实。为了解决这些问题,本文的核心思想是为一个物品关联多个标识符,通过结合多个语义相关的物品词元化器来实现。

2.2. 核心贡献/主要发现

本文提出了 MTGRec 框架,旨在通过多标识符物品词元化来增强生成式推荐器的预训练,从而提高其有效性和可伸缩性。具体贡献如下:

  1. 提出新框架 MTGRec: 引入了一个新颖的 MTGRec 框架,通过学习多个物品词元化器来进行课程推荐器预训练,以改进生成式推荐。
  2. 多标识符物品词元化与数据课程方案:
    • 开发了一种多标识符物品词元化方法,利用残差量化变分自编码器 (RQ-VAE) 作为词元化器骨干,并将训练过程中相邻 epochs 的模型检查点视为语义相关的词元化器。这使得每个物品可以关联多个标识符,从而将单个用户交互序列扩展为多个词元序列数据组,增强了词元序列数据。
    • 引入了一种基于数据影响估计 (data influence estimation) 的数据课程方案,以在推荐器预训练期间动态调整不同数据组的采样概率,从而优化模型训练。
  3. 实验验证与性能提升: 在三个公共基准数据集上进行了广泛实验,结果表明 MTGRec 在有效性和可伸缩性方面显著优于传统的和生成式推荐基线。特别是,MTGRec 在处理长尾物品 (long-tail items) 方面表现出卓越的性能提升,并通过消融研究 (ablation study) 验证了其关键组件的有效性。

3. 预备知识与相关工作

3.1. 基础概念

理解本文需要掌握以下核心概念:

  • 序列推荐系统 (Sequential Recommender Systems): 这类系统旨在根据用户过去的交互行为序列(如购买历史、浏览记录)来预测用户接下来最可能交互的物品。它捕捉用户偏好的动态变化,而非静态偏好。
  • 生成式推荐 (Generative Recommendation): 一种新兴的推荐范式。传统推荐系统通常通过计算相似度或预测分数来排名物品,而生成式推荐系统将物品推荐任务重新定义为“生成”目标物品的标识符序列。例如,如果一个物品的标识符是 [tokena,tokenb,tokenc][token_a, token_b, token_c],系统会尝试自回归地生成这个词元序列。
  • 物品词元化 (Item Tokenization): 这是生成式推荐中的关键步骤。它指的是将每个物品(通常由其 ID、文本描述、图像等表示)转换为一个固定长度或可变长度的词元序列的过程。这些词元序列作为物品的“语义 ID”或“标识符”。好的词元化器能够让共享词元反映物品之间的语义相似性。
  • 词元 (Token): 在自然语言处理 (Natural Language Processing, NLP) 中,词元是文本的最小有意义单位,如单词、子词或字符。在本文中,词元是物品标识符序列中的基本组成单位,它们是从一个预定义的码本 (codebook) 中选择的离散符号。
  • 残差量化变分自编码器 (Residual-Quantized Variational AutoEncoder, RQ-VAE): 是一种用于将连续的输入嵌入(如物品的语义嵌入)量化为离散词元序列的神经网络模型。
    • 自编码器 (AutoEncoder): 一种神经网络,旨在学习输入数据的有效编码。它由一个编码器 (encoder) 和一个解码器 (decoder) 组成。编码器将输入映射到低维的潜在表示 (latent representation),解码器则尝试从这个潜在表示重建原始输入。
    • 变分自编码器 (Variational AutoEncoder, VAE): 是自编码器的一种变体,它在潜在空间中引入了概率分布,使得潜在表示更具连续性和可采样性,有助于生成新的数据。
    • 量化 (Quantization): 将连续值映射到一组离散值的过程。在 RQ-VAE 中,物品的连续语义嵌入被量化为离散的词元。
    • 残差量化 (Residual Quantization): 一种分层量化方法。它不是一次性完成量化,而是在多个级别上进行。在每个级别,模型量化当前残差(即前一级别量化后剩余的信息),并将结果添加到前一级别的量化中,直到所有级别完成。这有助于捕捉更精细的语义。
    • 码本 (Codebook): 包含一组离散的“码字”或“嵌入”的集合。在 RQ-VAE 中,每个量化级别都有一个码本,词元化器通过查找最近的码字来将连续嵌入映射到离散词元。
  • 课程学习 (Curriculum Learning): 一种机器学习训练策略,灵感来源于人类学习过程。模型不是一次性暴露给所有训练数据,而是首先从“简单”或“容易”的数据样本开始学习,然后逐渐过渡到“更复杂”或“更难”的样本。这种循序渐进的方法可以帮助模型更快地收敛、达到更好的性能,并提高泛化能力。
  • 数据影响估计 (Data Influence Estimation): 一种用于量化训练数据集中每个样本对模型最终性能(例如,在验证集上的损失)贡献的技术。它帮助识别哪些训练样本对模型的学习是“有用”的,哪些是“有害”的,或者哪些是冗余的。本文使用一阶梯度近似 (first-order gradient approximation) 来估计数据影响。
  • Adam 优化器 (Adam Optimizer): 一种流行的随机梯度下降 (Stochastic Gradient Descent, SGD) 优化算法,广泛应用于深度学习。它结合了 AdaGrad 和 RMSProp 的优点,维护了每个参数的自适应学习率,并利用了梯度的第一动量(均值)和第二动量(未中心化的方差)。
  • 负对数似然损失 (Negative Log-Likelihood Loss, NLL Loss): 在分类和生成任务中常用的损失函数。对于序列生成任务,它衡量模型预测的词元序列与真实词元序列之间的差异。目标是最小化 NLL,即最大化模型预测真实序列的概率。

3.2. 前人工作

本文将相关工作分为传统序列推荐模型和生成式推荐模型。

3.2.1. 传统序列推荐模型

这些模型主要基于物品 ID 和协同过滤 (collaborative filtering) 关系进行建模。

  • Caser [39]: 利用卷积神经网络 (Convolutional Neural Networks, CNN) 来捕捉用户行为序列中的空间和位置模式。

  • HGN [24]: 使用特征级和实例级门控机制来建模用户偏好。

  • GRU4Rec [10]: 采用循环神经网络 (Recurrent Neural Networks, RNN) 中的门控循环单元 (Gated Recurrent Units, GRU) 来捕捉用户交互中的序列模式。

  • BERT4Rec [36]: 受到 BERT 的启发,使用带有掩码预测目标的双向自注意力 (bidirectional self-attentive) 模型进行序列建模。

  • SASRec [16]: 采用单向自注意力网络进行用户行为建模,是 Transformer 架构在序列推荐中的早期应用。

  • FMLP-Rec [60]: 提出了一种带有可学习滤波器的全 MLP (Multi-Layer Perceptron) 模型,旨在减少噪声并建模用户偏好。

  • HSTU [54]: 将用户行为和时间戳信息融入下一物品预测中,并提出了具有显著可伸缩性的分层序列转换器。它仍然是一种基于 ID 的方法。

  • FDSA [55]: 引入了一个双流自注意力框架,独立建模物品级和特征级序列以进行推荐。

  • S3RecS^3-Rec [59]: 通过利用特征-物品相关性作为自监督信号来增强序列推荐模型。

    这些传统方法虽然取得了进展,但主要依赖物品 ID 或协同信息,往往忽略了物品内容(如标题、描述、类别)中丰富的语义信息。

3.2.2. 生成式推荐模型

生成式推荐将每个物品索引为由词元列表表示的标识符。物品词元化在此范式中至关重要。

  • 启发式方法 (Heuristic approach): 依赖手动定义的规则或技术,如时间顺序 [15]、物品聚类 [34, 45] 和矩阵分解 [15, 27] 来构建物品标识符。优点是易于实现,但通常难以捕捉物品间的隐式关系。
  • 文本基方法 (Text-based approach): 直接使用物品属性(如标题、特征、描述)作为标识符 [5, 8, 14, 21]。这些方法通常利用预训练语言模型 (Pre-trained Language Models, PLMs) 的内部知识来提升推荐性能,但存在长度不一致、语义模糊和缺乏协同信息等问题。
  • 码本基方法 (Codebook-based approach): 采用可学习的码本量化物品嵌入,从而构建固定长度、语义丰富的物品标识符 [6, 29, 32, 44]。
    • TIGER [32]: 利用 RQ-VAE 将物品嵌入量化为语义 ID,作为物品标识符,并采用生成式检索范式进行序列推荐。
    • LETTER [42]: 通过在 RQ-VAE 中集成协同和多样性正则化 (collaborative and diversity regularization) 来扩展 TIGER,旨在融合协同信号并缓解码分配偏差。
    • TIGER++TIGER++ [32]: 进一步通过表示白化 (representation whitening) 和指数移动平均 (Exponential Moving Average, EMA) 技术来优化码本学习过程,以提高物品语义 ID 的质量。
    • 其他研究也关注增强码本学习,例如引入协同语义 [22] 或多行为信息 [23]。

3.3. 技术演进

推荐系统从早期的协同过滤 (如矩阵分解、基于物品/用户的协同过滤) 发展到深度学习时代,引入了 RNN、CNN、Attention/Transformer 等架构来处理序列数据。这些系统最初主要基于物品 ID 建模,后来开始融合物品内容特征。

生成式推荐是近年来新兴的范式,它将推荐问题视为序列生成任务,旨在克服传统 ID-based 方法在语义建模和处理稀疏性方面的局限。其核心挑战在于如何有效地将物品“词元化”为语义丰富的序列标识符。技术演进从简单的启发式方法,到直接利用物品文本,再到更高级的、可学习的码本方法(如 RQ-VAE)来生成离散的语义词元。

本文的工作处在生成式推荐的最新发展脉络中,特别是在码本基物品词元化方面。它进一步指出,即使是现有的码本基生成式方法也存在数据多样性不足和长尾物品语义建模次优的问题。

3.4. 差异化分析

本文提出的 MTGRec 与现有生成式推荐方法的核心区别和创新点在于:

  • 多标识符物品词元化 (Multi-identifier item tokenization): 大多数现有生成式推荐方法都遵循严格的一对一映射,即每个物品只对应一个词元序列标识符。MTGRec 打破了这一限制,通过利用训练过程中 RQ-VAE 词元化器在相邻 epoch 的多个检查点,为每个物品关联了多个语义相关但又略有不同的标识符。这显著增加了训练数据的多样性和数量,提高了词元曝光频率,有助于更好地学习低频物品的语义。

  • 课程推荐器预训练 (Curriculum recommender pre-training): 面对由多个词元化器生成的混合数据,MTGRec 引入了一种基于数据影响估计的课程学习方案。它动态调整不同数据组的采样概率,优先学习“有用”的数据,从而更有效地利用增强后的数据进行模型预训练。这与传统方法中对所有数据组进行均匀采样或简单混合的方式形成对比。

    通过这两项创新,MTGRec 旨在解决现有生成式推荐方法在数据稀疏性、低频物品语义建模和模型可伸缩性方面的瓶颈,提供一个更鲁棒和高性能的解决方案。

4. 方法论

4.1. 方法原理

MTGRec 的核心思想是克服传统生成式推荐系统中的“一对一”物品词元化限制。现有方法为每个物品生成一个唯一的词元序列作为其标识符。这种方法导致训练数据多样性不足,尤其对于长尾 (long-tail) 或低频 (low-frequency) 物品,其相关词元缺乏足够的监督信号来学习有效的语义表示。

本文提出的 MTGRec 通过引入“多标识符物品词元化”来解决这个问题。它不为每个物品生成一个,而是生成多个语义相关的词元序列标识符。这些多重标识符的引入有双重优势:

  1. 增加词元曝光频率: 每个物品有多个标识符,意味着其底层词元在训练数据中出现的频率增加,从而为低频物品的词元提供了更多的监督信号,有助于模型更好地学习其语义。

  2. 丰富训练数据多样性: 一个用户交互序列现在可以被多个词元化器转换成多个不同的词元序列,这极大地扩充了训练数据的规模和多样性,为更大型、更复杂的生成式推荐器提供了训练基础,从而提高模型的可伸缩性。

    为了有效地利用这些由多个词元化器生成的混合数据,MTGRec 进一步引入了“课程推荐器预训练”方案。该方案借鉴了大型语言模型预训练中的课程学习思想,通过动态估计不同数据组(由不同词元化器生成)对模型学习的“影响”,并据此调整它们的采样概率。这样,模型可以优先学习高质量或当前阶段更有益的数据,从而优化训练过程,提高模型的性能。

预训练完成后,为了确保推荐结果的准确性(即一个生成标识符能唯一对应一个物品),MTGRec 会使用单个词元化器对预训练模型进行微调,并选择最佳模型进行部署。

下图(原文 Figure 1)展示了 MTGRec 的整体框架:

该图像是示意图,展示了多标识符项目标记的过程及其在生成推荐系统中的应用。图中展示了通过 RQ-VAE 进行的多标识符标记、数据课程和生成推荐器如何相互作用,以及如何对训练数据进行标记和处理以优化推荐结果。 该图像是示意图,展示了多标识符项目标记的过程及其在生成推荐系统中的应用。图中展示了通过 RQ-VAE 进行的多标识符标记、数据课程和生成推荐器如何相互作用,以及如何对训练数据进行标记和处理以优化推荐结果。

VLM 描述: 该图像是示意图,展示了多标识符项目标记的过程及其在生成推荐系统中的应用。图中展示了通过 RQ-VAE 进行的多标识符标记、数据课程和生成推荐器如何相互作用,以及如何对训练数据进行标记和处理以优化推荐结果。

4.2. 核心方法详解

4.2.1. 问题定义 (Problem Formulation)

给定物品集 V\mathcal{V},用户的历史交互物品序列表示为 S=[v1,,vt]S = [v_1, \dotsc, v_t],其中物品按时间顺序排列。序列推荐的目标是捕捉用户偏好并预测下一个潜在的物品 vt+1v_{t+1}

生成式推荐将这一任务重新定义为序列到序列问题。首先,学习一个物品词元化器 T\mathrm{T},将每个物品表示为其词元序列标识符。这个过程称为物品词元化,形式上表示为 [c1,,cH]=T(v)[c_1, \ldots, c_H] = \mathrm{T}(\boldsymbol{v}),其中 chc_h 是物品 vv 的第 hh 个词元,HH 是标识符的长度。

接着,交互物品序列 SS 和目标物品 vt+1v_{t+1} 被词元化为 X=T(S)=[c11,c21,,cHt]X = \mathrm{T}(S) = [c_1^1, c_2^1, \ldots, c_H^t]Y=T(vt+1)=[c1t+1,,cHt+1]Y = \mathrm{T}(v_{t+1}) = [c_1^{t+1}, \ldots, c_H^{t+1}]。注意,此处原文 XX 的表示可能略有误,更合理的理解是 XX 是所有历史物品词元序列的拼接,而 YY 是目标物品的词元序列。

最终,通过自回归地生成目标物品的标识符 YY 来实现下一物品预测。其形式化表示为: P(YX)=h=1HP(cht+1X,c1t+1,,ch1t+1) P(\boldsymbol{Y} | \boldsymbol{X}) = \prod_{h=1}^{H} P(c_h^{t+1} | \boldsymbol{X}, c_1^{t+1}, \ldots, c_{h-1}^{t+1})

  • 符号解释:
    • V\mathcal{V}: 物品的集合。
    • SS: 用户历史交互物品序列,按时间顺序排列。
    • viv_i: 序列 SS 中的第 ii 个物品。
    • T\mathrm{T}: 物品词元化器,一个将物品映射到其词元序列标识符的函数。
    • chc_h: 物品标识符中的第 hh 个词元。
    • HH: 物品标识符的固定长度。
    • X\boldsymbol{X}: 词元化后的历史交互序列(即由 T(S)\mathrm{T}(S) 得到)。
    • Y\boldsymbol{Y}: 词元化后的目标物品标识符(即由 T(vt+1)\mathrm{T}(v_{t+1}) 得到)。
    • P(YX)P(\boldsymbol{Y} | \boldsymbol{X}): 在给定历史交互序列 X\boldsymbol{X} 的条件下,生成目标物品标识符 Y\boldsymbol{Y} 的概率。
    • P(cht+1X,c1t+1,,ch1t+1)P(c_h^{t+1} | \boldsymbol{X}, c_1^{t+1}, \ldots, c_{h-1}^{t+1}): 在给定历史交互序列 X\boldsymbol{X} 和已生成的前 h-1 个目标物品词元 c1t+1,,ch1t+1c_1^{t+1}, \ldots, c_{h-1}^{t+1} 的条件下,生成目标物品的第 hh 个词元 cht+1c_h^{t+1} 的概率。

4.2.2. 多标识符物品词元化 (Multi-Identifier Item Tokenization)

不同于以往工作将每个物品与一个单一标识符关联,本文旨在通过将一个物品与多个标识符关联,构建更庞大、更多样化的词元序列数据用于推荐器预训练。该过程分为三个子步骤。

4.2.2.1. 词元化器骨干 (Tokenizer Backbone)

本文采用可学习的残差量化变分自编码器 (RQ-VAE) 作为物品词元化器的骨干网络,因为它在建模物品语义和缓解长度偏差方面具有优势。 RQ-VAE 的工作流程如下:

  1. 编码: RQ-VAE 首先接收物品的语义嵌入 z\boldsymbol{z}(例如,由预训练语言模型编码的文本嵌入)作为输入,并将其编码为潜在表示 r\boldsymbol{r}
  2. 残差量化: 接着,r\boldsymbol{r} 通过 HH 个 RQ 级别(从粗到细)量化为序列化的代码(即词元)。每个码本由 Ch={ekh}k=1KC^h = \{ \boldsymbol{e}_k^h \}_{k=1}^K 定义,其中 ekh\boldsymbol{e}_k^h 是第 hh 级码本中的第 kk 个码字,KK 是码本大小。残差量化的具体过程如下: ch=argminkrhekh22, rh+1=rhechh, \begin{array}{rl} & c_h = \underset{k}{\arg\operatorname{min}} ||\boldsymbol{r}_h - \boldsymbol{e}_k^h||_2^2, \\ & ~ \\ & \boldsymbol{r}_{h+1} = \boldsymbol{r}_h - \boldsymbol{e}_{c_h}^h, \end{array} 其中,rh\boldsymbol{r}_h 是第 hh 个 RQ 级别中的残差向量,初始时 r1=r\boldsymbol{r}_1 = \boldsymbol{r}。这个过程意味着在每个级别,模型会找到当前残差向量 rh\boldsymbol{r}_h 在当前码本 ChC^h 中最近的码字 echh\boldsymbol{e}_{c_h}^h,然后将这个码字从 rh\boldsymbol{r}_h 中减去,得到新的残差 rh+1\boldsymbol{r}_{h+1} 用于下一个级别的量化。
  3. 重建: 量化过程结束后,物品的量化表示 r~=h=1Hechh\tilde{\boldsymbol{r}} = \sum_{h=1}^H \boldsymbol{e}_{c_h}^h 被用于解码以重建物品嵌入 z^\hat{\boldsymbol{z}}
  4. 损失函数: 整个 RQ-VAE 的损失函数由重建损失和量化损失组成: LT=Lrecon+Lrq \mathcal{L}_{\mathrm{T}} = \mathcal{L}_{\mathrm{recon}} + \mathcal{L}_{\mathrm{rq}} 其中重建损失 Lrecon=zz^22\mathcal{L}_{\mathrm{recon}} = ||\boldsymbol{z} - \hat{\boldsymbol{z}}||_2^2,量化损失 Lrq\mathcal{L}_{\mathrm{rq}} 为: Lrq=h=1Hsg[rh]echh22+βechhsg[rh]22 \mathcal{L}_{\mathrm{rq}} = \sum_{h=1}^H ||\mathrm{sg}[\boldsymbol{r}_h] - \boldsymbol{e}_{c_h}^h||_2^2 + \beta ||\boldsymbol{e}_{c_h}^h - \mathrm{sg}[\boldsymbol{r}_h]||_2^2
    • 符号解释:
      • z\boldsymbol{z}: 输入的物品语义嵌入(例如,通过 Sentence-T5 编码的文本嵌入)。
      • r\boldsymbol{r}: 编码器输出的物品潜在表示。
      • HH: 残差量化级别(码本)的数量。
      • ChC^h: 第 hh 个残差量化级别的码本,包含 KK 个码字。
      • ekh\boldsymbol{e}_k^h: 第 hh 个码本中的第 kk 个码字(向量)。
      • KK: 每个码本的大小(即码字数量)。
      • chc_h: 在第 hh 个量化级别中,被选择的码字的索引。
      • argminkab22\underset{k}{\arg\operatorname{min}} ||\boldsymbol{a} - \boldsymbol{b}||_2^2: 找到使向量 a\boldsymbol{a}b\boldsymbol{b} 之间 L2 范数平方最小的索引 kk
      • rh\boldsymbol{r}_h: 第 hh 个残差量化级别待处理的残差向量。
      • rh+1\boldsymbol{r}_{h+1}: 第 hh 个级别量化后剩余的残差向量,用于下一个级别。
      • r1=r\boldsymbol{r}_1 = \boldsymbol{r}: 第一个级别处理的残差向量就是原始的潜在表示。
      • r~\tilde{\boldsymbol{r}}: 通过所有级别选择的码字之和得到的物品量化表示。
      • z^\hat{\boldsymbol{z}}: 解码器从 r~\tilde{\boldsymbol{r}} 重建的物品嵌入。
      • LT\mathcal{L}_{\mathrm{T}}: RQ-VAE 的总损失函数。
      • Lrecon\mathcal{L}_{\mathrm{recon}}: 重建损失,衡量原始嵌入 z\boldsymbol{z} 与重建嵌入 z^\hat{\boldsymbol{z}} 之间的相似度。
      • Lrq\mathcal{L}_{\mathrm{rq}}: 量化损失,包含两个部分:
        • sg[rh]echh22||\mathrm{sg}[\boldsymbol{r}_h] - \boldsymbol{e}_{c_h}^h||_2^2: 确保编码器输出的残差向量 rh\boldsymbol{r}_h 接近选定的码字 echh\boldsymbol{e}_{c_h}^hsg[] (stop-gradient) 操作意味着在反向传播时,梯度不会流过 rh\boldsymbol{r}_h 到编码器。
        • βechhsg[rh]22\beta ||\boldsymbol{e}_{c_h}^h - \mathrm{sg}[\boldsymbol{r}_h]||_2^2: 码本更新项,确保码字 echh\boldsymbol{e}_{c_h}^h 接近编码器输出的残差向量 rh\boldsymbol{r}_hsg[] 操作意味着梯度不会流过 rh\boldsymbol{r}_h 到编码器,但会更新码字 echh\boldsymbol{e}_{c_h}^h
      • β\beta: 一个超参数,用于平衡编码器和码本之间的优化,通常设为 0.25。

4.2.2.2. 语义相关词元化器 (Semantically Relevant Tokenizers)

为了获得为每个物品关联多个标识符的多个物品词元化器,一个直接的方法是训练多个具有不同随机初始化的 RQ-VAE 模型。然而,这种方法学习到的模型是独立的,它们生成的词元序列可能彼此不相关甚至存在语义冲突。

本文提出一种更有效的方法:将同一训练过程中相邻 epoch 对应的模型检查点视为多个语义相关的物品词元化器。由于这些检查点都源于相同的初始化参数,并通过迭代梯度下降学习,相邻 epoch 之间码本的差异最小。因此,这些词元化器生成的词元序列虽然略有不同,但包含相关且同质的语义知识。 形式上,学习到的多个语义相关物品词元化器集合表示为: T={T1,T2,,Tn}={TϕNn+1,TϕNn+2,,TϕN} \mathcal{T} = \{ \mathrm{T}_1, \mathrm{T}_2, \ldots, \mathrm{T}_n \} = \{ \mathrm{T}_{\phi^{N-n+1}}, \mathrm{T}_{\phi^{N-n+2}}, \ldots, \mathrm{T}_{\phi^N} \}

  • 符号解释:
    • T\mathcal{T}: 语义相关物品词元化器的集合。
    • Ti\mathrm{T}_i: 集合中的第 ii 个物品词元化器。
    • nn: 所选取的词元化器数量。
    • ϕi\phi^i: 对应于第 ii 个训练 epoch 的 RQ-VAE 模型参数。
    • NN: RQ-VAE 训练的最大 epoch 数。这里的 TϕN\mathrm{T}_{\phi^N} 代表训练结束时的最终词元化器。

4.2.2.3. 将物品序列词元化为多个词元序列 (Tokenize an Item Sequence to Multiple Token Sequences)

有了这些语义相关的物品词元化器,一个历史物品序列 SS 和一个目标物品 vt+1v_{t+1} 就可以通过不同的词元化器词元化为多个词元序列: X1,X2,,Xn=T1(S),T2(S),,Tn(S),X1,X2,,XnY1,Y2,,Yn=T1(vt+1),T2(vt+1),,Tn(vt+1), \begin{array}{rl} & X_1, X_2, \ldots, X_n = \mathrm{T}_1(S), \mathrm{T}_2(S), \ldots, \mathrm{T}_n(S), \\ & \phantom{X_1, X_2, \ldots, X_n} Y_1, Y_2, \ldots, Y_n = \mathrm{T}_1(v_{t+1}), \mathrm{T}_2(v_{t+1}), \ldots, \mathrm{T}_n(v_{t+1}), \end{array}

  • 符号解释:
    • XiX_i: 由词元化器 Ti\mathrm{T}_i 词元化后的历史交互序列。

    • YiY_i: 由词元化器 Ti\mathrm{T}_i 词元化后的目标物品标识符。

    • Ti(S)\mathrm{T}_i(S): 使用词元化器 Ti\mathrm{T}_i 对历史序列 SS 进行词元化。

    • Ti(vt+1)\mathrm{T}_i(v_{t+1}): 使用词元化器 Ti\mathrm{T}_i 对目标物品 vt+1v_{t+1} 进行词元化。

      值得注意的是,在模型预训练时,并不会直接使用所有增强后的词元序列。这是因为当 nn 很大时,数据量会变得难以管理,且难以自适应地调整不同数据组的比例。相反,本文在每次模型优化时只采样一个词元序列,这近似等效于通过多次采样使用所有数据。后续章节将详细介绍如何调整不同数据组的采样概率。

4.2.3. 课程推荐器预训练 (Curriculum Recommender Pre-training)

基于多标识符物品词元化,本文得到了一个包含多个词元序列数据组的混合数据集,从中选择实例进行生成式推荐器预训练。这带来了一个关键挑战,即如何在预训练期间自适应地调整不同数据组的比例。受 LLM 预训练中广泛采用的数据课程 (data curriculum) 启发,本文设计了一种基于数据影响估计 (data influence estimation) 的课程预训练方案。

4.2.3.1. 估计数据影响 (Estimating Data Influence)

为了更有效地利用来自多个物品词元化器的数据,本文的思路是增加有用数据的比例,同时减少低质量数据的比例。为了合理地衡量数据是否“有用”,本文将训练数据对验证损失的贡献定义为数据影响 (data influence),并基于梯度信息进行估计。

使用一阶泰勒展开式,验证损失可以表示为: L(Dval;θt+1)=L(Dval;θt)+L(Dval;θt)(θt+1θt) \mathcal{L}(\mathcal{D}_{val}; \theta^{t+1}) = \mathcal{L}(\mathcal{D}_{val}; \theta^t) + \nabla \mathcal{L}(\mathcal{D}_{val}; \theta^t) \cdot (\theta^{t+1} - \theta^t) 其中,Dval\mathcal{D}_{val} 表示用于验证的保留数据,θt\theta^t 是时间步 tt 的推荐器参数。等式的第一项表示时间步 tt 的验证损失,第二项是泰勒展开式中的一阶导数。 因此,验证损失的更新可以写为: L(Dval;θt+1)L(Dval;θt)=L(Dval;θt)(θt+1θt) \mathcal{L}(\mathcal{D}_{val}; \boldsymbol{\theta}^{t+1}) - \mathcal{L}(\mathcal{D}_{val}; \boldsymbol{\theta}^t) = \nabla \mathcal{L}(\mathcal{D}_{val}; \boldsymbol{\theta}^t) \cdot (\boldsymbol{\theta}^{t+1} - \boldsymbol{\theta}^t)

  • 符号解释:
    • L(Dval;θt+1)\mathcal{L}(\mathcal{D}_{val}; \theta^{t+1}): 在参数更新到 θt+1\theta^{t+1} 后,在验证数据集 Dval\mathcal{D}_{val} 上的损失。
    • L(Dval;θt)\mathcal{L}(\mathcal{D}_{val}; \theta^t): 在当前参数 θt\theta^t 下,在验证数据集 Dval\mathcal{D}_{val} 上的损失。
    • L(Dval;θt)\nabla \mathcal{L}(\mathcal{D}_{val}; \theta^t): 验证损失关于参数 θt\theta^t 的梯度。
    • θt+1θt\theta^{t+1} - \theta^t: 参数从时间步 tt 更新到 t+1t+1 的变化量。
    • \cdot: 向量点积。

计算验证数据的梯度 (Calculate Gradient of Validation Data): 在本文讨论的序列推荐场景中,验证数据采用 leave-one-out 策略获取。经过不同词元化器的物品词元化后,多个词元序列数据组被混合到 Dval\mathcal{D}_{val} 中。L(Dval;θ)\mathcal{L}(\mathcal{D}_{val}; \theta)L(Dval;θ)\nabla \mathcal{L}(\mathcal{D}_{val}; \theta) 分别表示所有验证数据的平均损失和累积梯度,可以形式化为: L(Dval;θ)=1DvalX,YDvalL(X,Y;θ),L(Dval;θ)=1DvalX,YDvalL(X,Y;θ), \begin{array}{rl} & \mathcal{L}(\mathcal{D}_{val}; \theta) = \displaystyle \frac{1}{|\mathcal{D}_{val}|} \sum_{X, Y \in \mathcal{D}_{val}} \mathcal{L}(X, Y; \theta), \\ & \nabla \mathcal{L}(\mathcal{D}_{val}; \theta) = \displaystyle \frac{1}{|\mathcal{D}_{val}|} \sum_{X, Y \in \mathcal{D}_{val}} \nabla \mathcal{L}(X, Y; \theta), \end{array}

  • 符号解释:
    • Dval|\mathcal{D}_{val}|: 验证数据集中样本的数量。
    • X, Y: 对应历史交互物品和目标物品的词元序列对。
    • L(X,Y;θ)\mathcal{L}(X, Y; \theta): 针对单个 (X, Y) 词元序列对的负对数似然损失(如公式 20 所示)。
    • L(X,Y;θ)\nabla \mathcal{L}(X, Y; \theta): 单个 (X, Y) 词元序列对的损失对参数 θ\theta 的梯度。

计算训练数据的 Adam 梯度 (Calculate Adam Gradients of Training Data): 由于生成式推荐器通常使用 Adam 优化器 [18] 进行训练,公式 (8) 中的参数更新 θt+1θt\theta^{t+1} - \theta^t 可以计算如下: θt+1θt=ηtΓ(Dtraini;θt) \theta^{t+1} - \theta^t = - \eta_t \Gamma(\mathcal{D}_{train}^i; \theta^t) 其中,Γ(Dtraini;θt)\Gamma(\mathcal{D}_{train}^i; \theta^t) 是 Adam 优化器在时间步 tt 计算的有效梯度,其定义为: Γ(Dtraini;θt)=mt+1vt+1+ϵ \Gamma(\mathcal{D}_{train}^i; \theta^t) = \frac{\boldsymbol{m}^{t+1}}{\sqrt{\boldsymbol{v}^{t+1} + \epsilon}} 其中 mt+1\boldsymbol{m}^{t+1}vt+1\boldsymbol{v}^{t+1} 分别是 Adam 的第一动量(均值)和第二动量(未中心化的方差)的偏置校正估计: mt+1=(β1mt+(1β1)L(Dtraini;θt))/(1β1t) \boldsymbol{m}^{t+1} = (\beta_1 \boldsymbol{m}^t + (1 - \beta_1) \nabla \mathcal{L}(\mathcal{D}_{train}^i; \theta^t)) / (1 - \beta_1^t) vt+1=(β2vt+(1β2)L(Dtraini;θt)2)/(1β2t) \boldsymbol{v}^{t+1} = (\beta_2 \boldsymbol{v}^t + (1 - \beta_2) \nabla \mathcal{L}(\mathcal{D}_{train}^i; \boldsymbol{\theta}^t)^2) / (1 - \beta_2^t)

  • 符号解释:
    • Dtraini\mathcal{D}_{train}^i: 由物品词元化器 Ti\mathrm{T}_i 词元化后的训练词元序列数据。
    • ηt\eta_t: 时间步 tt 的学习率。
    • mt\boldsymbol{m}^t: 时间步 tt 的第一动量估计。
    • vt\boldsymbol{v}^t: 时间步 tt 的第二动量估计。
    • β1,β2\beta_1, \beta_2: Adam 优化器的超参数,通常分别设为 0.9 和 0.999。
    • ϵ\epsilon: 一个小常数,用于防止分母为零,通常为 10810^{-8}
    • L(Dtraini;θt)\nabla \mathcal{L}(\mathcal{D}_{train}^i; \theta^t): 针对训练数据组 Dtraini\mathcal{D}_{train}^i 的损失对参数 θt\theta^t 的梯度。
    • β1t,β2t\beta_1^t, \beta_2^t: β1\beta_1β2\beta_2tt 次幂,用于偏置校正。

计算影响 (Calculate Influence): 基于上述分析,本文将每个物品词元化器在时间步 tt 的数据影响定义为: I(Ti;θt)=ηtL(Dval;θt)Γ(Dtraini,θt) \operatorname{I}(\mathrm{T}_i; \theta^t) = \eta_t \nabla \mathcal{L}(\mathcal{D}_{val}; \theta^t) \cdot \Gamma(\mathcal{D}_{train}^i, \theta^t) 其中 I(Ti;θt)\operatorname{I}(\mathrm{T}_i; \theta^t) 表示与词元化器 Ti\mathrm{T}_i 相关的数据组的影响。 最后,由于训练过程跨越多个时间步,本文计算基于检查点的累积影响: I~(Ti)=k=1KI(Ti;θk) \tilde{\mathrm{I}}(\mathrm{T}_i) = \sum_{k=1}^{K} \mathrm{I}(\mathrm{T}_i; \theta_k)

  • 符号解释:
    • I(Ti;θt)\operatorname{I}(\mathrm{T}_i; \theta^t): 词元化器 Ti\mathrm{T}_i 的数据组在时间步 tt 的影响。
    • I~(Ti)\tilde{\mathrm{I}}(\mathrm{T}_i): 词元化器 Ti\mathrm{T}_i 数据组的累积影响。
    • θk\theta_k: 时间步 tkt_k 的第 kk 个模型检查点。
    • KK: 检查点总数。

4.2.3.2. 课程预训练 (Curriculum Pre-training)

在阐述如何估计每个物品词元化器的数据影响后,本文现在制定一个数据课程方案,通过动态调整不同数据组的采样概率来进行模型预训练。 具体来说,本文将训练过程划分为多个阶段,每个阶段包含特定数量的 epoch。在每个阶段结束时,根据当前模型检查点确定的每个物品词元化器的最新数据影响,更新数据采样概率。 形式上,给定当前模型检查点 θk\boldsymbol{\theta}_k 和前一阶段的累积数据影响 I~k1(Ti)\tilde{\mathrm{I}}_{k-1}(\mathrm{T}_i),采样概率更新如下: I~k(Ti)=I~k1(Ti)+I(Ti;θk) \tilde{\mathrm{I}}_k(\mathrm{T}_i) = \tilde{\mathrm{I}}_{k-1}(\mathrm{T}_i) + \mathrm{I}(\mathrm{T}_i; \boldsymbol{\theta}_k) pik=eI~k(Ti)/τj=1neI~k(Tj)/τ p_i^k = \frac{e^{\tilde{\mathrm{I}}_k(\mathrm{T}_i) / \tau}}{\sum_{j=1}^n e^{\tilde{\mathrm{I}}_k(\mathrm{T}_j) / \tau}}

  • 符号解释:
    • I~k(Ti)\tilde{\mathrm{I}}_k(\mathrm{T}_i): 词元化器 Ti\mathrm{T}_i 在第 kk 阶段的累积影响。

    • pikp_i^k: 词元化器 Ti\mathrm{T}_i 在后续阶段的采样概率。

    • τ\tau: 温度系数 (temperature coefficient),用于控制分布的平滑度。

      最初,每个数据组以相同的概率被采样。然后,第 k+1k+1 阶段的数据采样策略定义如下: TT={T1,T2,,Tn},P(T=Ti)=pik,X=T(S),Y=T(vt+1). \begin{array}{l} \mathrm{T} \sim \mathcal{T} = \{ \mathrm{T}_1, \mathrm{T}_2, \dots, \mathrm{T}_n \}, \\ P(\mathrm{T} = \mathrm{T}_i) = p_i^k, \\ X = \mathrm{T}(S), \quad Y = \mathrm{T}(v_{t+1}). \end{array}

  • 符号解释:
    • T\mathrm{T}: 从词元化器集合 T\mathcal{T} 中采样的词元化器。

    • P(T=Ti)P(\mathrm{T} = \mathrm{T}_i): 采样到词元化器 Ti\mathrm{T}_i 的概率。

    • XX: 经采样词元化器 T\mathrm{T} 词元化后的历史序列。

    • YY: 经采样词元化器 T\mathrm{T} 词元化后的目标物品标识符。

      最后,采样的词元序列数据 XXYY 被输入生成式推荐器进行模型优化,使用负对数似然损失: L(X,Y)=h=1HlogP(cht+1X,c1t+1,,ch1t+1) \mathcal{L}(X, Y) = - \sum_{h=1}^H \log P(c_h^{t+1} | X, c_1^{t+1}, \ldots, c_{h-1}^{t+1})

  • 符号解释:
    • L(X,Y)\mathcal{L}(X, Y): 针对词元序列对 (X, Y) 的负对数似然损失。

4.2.4. 微调与推理 (Fine-tuning and Inference)

4.2.4.1. 微调 (Fine-tuning)

在实际应用中,推荐器生成的词元序列应该能够唯一识别对应的物品,即在推荐系统内,物品与其标识符之间应满足一对一的映射。然而,在本文提出的多物品词元化课程预训练过程中,由于可能存在多个标识符对应同一个物品的情况(即 T1(v),,Tn(v)v\mathrm{T}_1(v), \ldots, \mathrm{T}_n(v) \mapsto v),模型可能无法直接识别物品。 因此,本文会进一步针对每个物品词元化器分别微调预训练好的生成式推荐器,并选择验证性能最佳的模型用于实际部署和测试。

4.2.4.2. 推理 (Inference)

在推理阶段,目标是从整个物品集中生成 Top KK 个物品进行推荐。本文采用束搜索 (beam search) 来解码 KK 个词元序列,并将它们映射到相应的物品。与一些现有工作不同,本文不引入前缀树 (prefix tree) 来约束搜索过程,因为这会阻碍并行解码并降低效率。对于极少出现的无效标识符,本文选择简单地忽略。

5. 实验设置

5.1. 数据集

本文在三个 Amazon 2023 评论数据集 [12] 的子集上评估了所提出的方法:

  • Musical Instruments (乐器)

  • Industrial and Scientific (工业与科学)

  • Video Games (电子游戏)

    这些数据集包含了从 1996 年 5 月到 2023 年 9 月的用户评论数据。 数据预处理步骤(与先前研究 [32, 59] 一致):

  1. 过滤掉交互记录少于 5 次的低活跃用户和物品。
  2. 按用户对历史物品序列进行分组,并按时间顺序排序。
  3. 最大序列长度限制为 20 个物品。

以下是原文 Table 1 的结果:

Dataset #Users #Items #Interactions Sparsity Avg.len
Instrument 57,439 24,587 511,836 99.964% 8.91
Scientific 50,985 25,848 412,947 99.969% 8.10
Game 94,762 25,612 814,586 99.966% 8.60
  • 符号解释:
    • #Users: 数据集中用户的数量。

    • #Items: 数据集中物品的数量。

    • #Interactions: 数据集中总的交互记录数量。

    • Sparsity: 交互矩阵的稀疏度,表示非零交互的比例。计算公式为 (1 - \frac{\text{#Interactions}}{\text{#Users} \times \text{#Items}}) \times 100\%

    • Avg.len: 用户交互序列的平均长度。

      选择这些数据集的原因是它们是公共基准数据集,在推荐系统研究中广泛使用,能够有效验证方法在不同领域和规模数据上的性能。

5.2. 评估指标

本文采用 Top-KK 召回率 (Recall)归一化折损累积增益 (Normalized Discounted Cumulative Gain, NDCG) 来评估序列推荐模型的性能,其中 KK 设置为 5 和 10。

  • 召回率 (Recall@K):

    1. 概念定义: 召回率衡量推荐系统在 Top-KK 推荐列表中成功找出用户实际交互的物品(即真值物品)的比例。它关注系统发现所有相关物品的能力。在 leave-one-out 评估策略下,每个用户只有一个真值物品,因此召回率等价于真值物品是否在 Top-KK 列表中。
    2. 数学公式: Recall@K={推荐列表中的物品}{用户实际交互的物品}{用户实际交互的物品} \mathrm{Recall@K} = \frac{|\{\text{推荐列表中的物品}\} \cap \{\text{用户实际交互的物品}\}|}{|\{\text{用户实际交互的物品}\}|}
    3. 符号解释:
      • KK: 推荐列表的长度。
      • {推荐列表中的物品}{用户实际交互的物品}|\{\text{推荐列表中的物品}\} \cap \{\text{用户实际交互的物品}\}|: Top-KK 推荐列表中与用户实际交互物品的交集数量。
      • {用户实际交互的物品}|\{\text{用户实际交互的物品}\}|: 用户实际交互的物品总数。在 leave-one-out 策略中,这个值通常为 1。
  • 归一化折损累积增益 (Normalized Discounted Cumulative Gain, NDCG@K):

    1. 概念定义: NDCG 是一种评估排名质量的指标,它不仅考虑推荐的准确性,还高度重视相关物品在推荐列表中的位置。排名靠前的相关物品会获得更高的分数。NDCG 适用于对物品相关性有多个等级的情况,但也可以用于二元相关性(相关或不相关)。
    2. 数学公式: 首先计算折损累积增益 (Discounted Cumulative Gain, DCG@K): DCG@K=i=1K2reli1log2(i+1) \mathrm{DCG@K} = \sum_{i=1}^{K} \frac{2^{\mathrm{rel}_i} - 1}{\log_2(i+1)} 然后计算理想折损累积增益 (Ideal Discounted Cumulative Gain, IDCG@K): IDCG@K=i=1REL2reliideal1log2(i+1) \mathrm{IDCG@K} = \sum_{i=1}^{|\mathrm{REL}|} \frac{2^{\mathrm{rel}_i^{ideal}} - 1}{\log_2(i+1)} 最后计算 NDCG@K: NDCG@K=DCG@KIDCG@K \mathrm{NDCG@K} = \frac{\mathrm{DCG@K}}{\mathrm{IDCG@K}}
    3. 符号解释:
      • KK: 推荐列表的长度。

      • reli\mathrm{rel}_i: 推荐列表中第 ii 个物品的相关性分数。在二元相关性场景中,如果物品是用户实际交互的,则 reli=1\mathrm{rel}_i = 1,否则 reli=0\mathrm{rel}_i = 0

      • REL|\mathrm{REL}|: 实际相关物品的数量。在 leave-one-out 策略中,这个值通常为 1。

      • reliideal\mathrm{rel}_i^{ideal}: 理想情况下,排名靠前的第 ii 个物品的相关性分数(即假设所有相关物品都排在最前面,且按相关性分数降序排列)。

      • log2(i+1)\log_2(i+1): 折损因子,使得排名靠后的物品对总得分的贡献逐渐减小。

      • DCG@K\mathrm{DCG@K}: 衡量 Top-KK 推荐列表的累积增益,并对排名位置进行折损。

      • IDCG@K\mathrm{IDCG@K}: 衡量理想排序下(所有相关物品排在最前面)的 DCG。

      • NDCG@K\mathrm{NDCG@K}: 通过将 DCG@K 除以 IDCG@K 进行归一化,使得不同查询或列表长度之间的结果可比较。

        评估策略: 遵循先前研究 [16, 32, 59],本文采用 leave-one-out 策略来划分训练集、验证集和测试集。对于每个用户交互序列,最后一个物品用作测试数据,倒数第二个物品用作验证数据,其余所有物品用于训练。为了进行严格比较,本文对整个物品集执行 full ranking 评估,而不是基于采样的评估。此外,所有生成式推荐模型的自回归解码的束搜索 (beam search) 大小设置为 50。

5.3. 对比基线

为了进行全面的比较,基线模型分为两组:

5.3.1. 传统序列推荐模型

这些模型主要基于物品 ID 和协同过滤关系进行建模。

  • Caser [39]: 基于卷积神经网络,通过捕获用户行为序列中的空间和位置模式进行推荐。
  • HGN [24]: 采用分层门控网络 (Hierarchical Gating Networks),利用特征级和实例级门控机制来建模用户偏好。
  • GRU4Rec [10]: 使用门控循环单元 (GRU) 来捕捉用户交互的序列模式。
  • BERT4Rec [36]: 借鉴 BERT 架构,利用双向自注意力模型和掩码预测目标进行序列建模。
  • SASRec [16]: 采用单向自注意力网络来建模用户行为序列,是 Transformer 架构在推荐领域的代表作。
  • FMLP-Rec [60]: 提出一种全多层感知机 (All-MLP) 模型,通过可学习的滤波器来减少噪声并建模用户偏好。
  • HSTU [54]: 结合用户行为和时间戳信息进行下一物品预测,并提出了具有良好可伸缩性的分层序列转换器。它仍然是基于 ID 的方法。
  • FDSA [55]: 引入了双流自注意力框架,独立建模物品级和特征级序列以进行推荐。
  • S3RecS^3-Rec [59]: 通过利用特征-物品相关性作为自监督信号来增强序列推荐模型。

5.3.2. 生成式推荐模型

这些模型将推荐任务建模为生成物品标识符的序列到序列问题。

  • TIGER [32]: 使用 RQ-VAE 将物品嵌入量化为语义 ID 作为物品标识符,并采用生成式检索范式进行序列推荐。
  • LETTER [42]: 在 TIGER 的基础上,通过在 RQ-VAE 中集成协同和多样性正则化来改进物品词元化器。
  • TIGER++TIGER++ [32]: 在 TIGER 的基础上,通过采用表示白化 (representation whitening) 和指数移动平均 (EMA) 技术来增强码本学习并提高语义 ID 的质量。

5.4. 实施细节

5.4.1. 物品词元化器 (Item Tokenizer)

  • 语义嵌入: 遵循 TIGER [32],使用 Sentence-T5 [25] 来编码与每个物品相关的文本信息(如标题、描述)作为其语义嵌入。
  • RQ-VAE 配置:
    • 模型结构:3 个码本 (codebook),每个码本大小为 256。
    • 额外码本:一个用于碰撞处理 (collision handling) 的额外码本。
    • 码本维度:128。
  • 增强码本学习技术 (同 TIGER++):
    1. PCA (主成分分析) 结合 representation whitening [35]:用于增强物品语义嵌入的质量。
    2. 更深的 MLP (多层感知机) 结构:隐藏层大小分别为 [2048, 1024, 512, 256],用作 RQ-VAE 的编码器和解码器。
    3. EMA (指数移动平均):代替梯度下降进行码本学习,以提高稳定性和有效性 [41]。
  • 训练与词元化器选择:
    • 优化器:Adagrad
    • 训练 epoch:10K epoch。
    • 学习率:0.001。
    • 批大小:2048。
    • 语义相关词元化器数量 nn: 在 5 到 30 之间以 5 为间隔进行调优,选择 RQ-VAE 最后 nn 个 epoch 的检查点作为词元化器。

5.4.2. 生成式推荐器 (Generative Recommender)

  • 骨干网络: 采用 T5 [31] 作为生成式推荐器的骨干网络。
  • 模型架构参数:
    • 模型维度 (model dimension):128。
    • 内部维度 (inner dimension):512。
    • 注意力头数量 (attention heads):4 个。
    • 注意力头维度 (head dimension):64。
    • 激活函数:ReLU
  • 模型层数: 编码器和解码器层数 LL 在 {1, 2, 3, 4, 5, 6, 7, 8} 中进行调优。
  • 预训练设置:
    • 每 GPU 批大小:256。
    • GPU 数量:4 个。
    • 预训练 epoch:所有数据集上 200 个 epoch。
    • 课程预训练阶段设置:
      • 梯度特征预热 (gradient feature warmup):前 60 个 epoch。
      • 采样概率更新频率:之后每 20 个 epoch 更新一次采样概率。
    • 温度系数 τ\tau: 在 {0.1, 0.3, 1.0, 3.0, 5.0, 10.0} 中调优。
  • 优化器与学习率:
    • 优化器:AdamW (预训练和微调均使用)。
    • 预训练学习率:0.005。
    • 微调学习率:0.0002。
    • 学习率调度器:cosine scheduler
  • 基线模型实现:
    • 传统序列推荐模型:基于 RecBole [56] 实现,所有模型嵌入维度设置为 128,并通过网格搜索 (grid search) 获得最佳超参数。
    • 生成式基线模型:采用与 MTGRec 相同的模型架构,模型层数 LL 在 1 到 8 之间调优。

6. 实验结果与分析

6.1. 核心结果分析

本文将 MTGRec 与传统和生成式基线模型在三个公共推荐基准数据集上进行了比较。

以下是原文 Table 2 的结果:

Methods Instrument Scientific Game
Recall@5 Recall@10 NDCG@5 NDCG@10 Recall@5 Recall@10 NDCG@5 NDCG@10 Recall@5 Recall@10 NDCG@5 NDCG@10
Caser 0.0241 0.0386 0.0151 0.0197 0.0159 0.0257 0.0101 0.0132 0.0330 0.0553 0.0209 0.0281
HGN 0.0321 0.0517 0.0202 0.0265 0.0212 0.0351 0.0131 0.0176 0.0424 0.0687 0.0271 0.0356
GRU4Rec 0.0324 0.0501 0.0209 0.0266 0.0202 0.0338 0.0129 0.0173 0.0499 0.0799 0.0320 0.0416
BERT4Rec 0.0307 0.0485 0.0195 0.0252 0.0186 0.0296 0.0119 0.0155 0.0460 0.0735 0.0298 0.0386
SASRec 0.0333 0.0523 0.0213 0.0274 0.0259 0.0412 0.0150 0.0199 0.0535 0.0847 0.0331 0.0438
FMLP-Rec 0.0339 0.0536 0.0218 0.0282 0.0269 0.0422 0.0155 0.0204 0.0528 0.0857 0.0338 0.0444
HSTU 0.0343 0.0577 0.0191 0.0271 0.0271 0.0429 0.0147 0.0198 0.0578 0.0903 0.0334 0.0442
FDSA 0.0347 0.0545 0.0230 0.0293 0.0262 0.0421 0.0169 0.0213 0.0544 0.0852 0.0361 0.0448
S3-Rec 0.0317 0.0496 0.0199 0.0257 0.0263 0.0418 0.0171 0.0219 0.0485 0.0769 0.0315 0.0406
TIGER 0.0370 0.0564 0.0244 0.0306 0.0264 0.0422 0.0175 0.0226 0.0559 0.0868 0.0366 0.0467
LETTER 0.0372 0.0580 0.0246 0.0313 0.0279 0.0435 0.0182 0.0232 0.0563 0.0877 0.0372 0.0473
TIGER++ 0.0380 0.0588 0.0249 0.0316 0.0289 0.0450 0.0190 0.0241 0.0580 0.0914 0.0377 0.0485
MTGRec 0.0413 0.0635 0.0275 0.0346 0.0322 0.0506 0.0212 0.0271 0.0621 0.0956 0.0410 0.0517
Imporve +8.68% +7.99% +10.44% +9.49% +11.42% +12.44% +11.58% +12.45% +7.07% +4.60% +8.75% +6.60%

从结果中可以得出以下结论:

  • 传统序列推荐模型:
    • FMLP-RecHSTU 通过引入更先进的模型架构,取得了比 SASRec 更好的结果。
    • S3RecS^3-Rec 通过集成辅助特征进行自监督预训练,在 Game 数据集上表现出色。
    • FDSA 在三个数据集上均优于其他仅涉及物品 ID 和协同信息的模型(如 Caser、HGN、GRU4Rec、BERT4Rec、SASRec、FMLP-Rec、HSTU)。这表明结合物品文本特征作为补充信息可以显著提升推荐效果。
  • 生成式推荐模型:
    • 生成式推荐模型通常优于传统的序列推荐模型,这得益于物品标识符所蕴含的语义信息和生成式范式。
    • LETTERTIGER++TIGER++ 相比 TIGER 表现更好,这归因于它们对物品词元化器 (item tokenizer) 的改进。LETTER 引入了协同和多样性正则化来整合协同信号并缓解码分配偏差,而 TIGER++TIGER++ 则应用了表示白化 (representation whitening) 和 EMA (exponential moving average) 技术来改善物品嵌入质量和模型优化。
  • MTGRec 的优越性:
    • 本文提出的 MTGRec 在所有情况下均保持最佳性能,相对于传统和生成式基线模型都取得了实质性的提升。例如,在 Scientific 数据集上,Recall@10 提升了 12.44%
    • MTGRec 之所以表现优异,是因为它引入了多个语义相关的物品词元化器进行词元序列增强,并设计了带有数据课程的预训练方法。通过在由多个物品词元化器派生出的大规模、多样化序列数据上预训练生成式推荐器,MTGRec 显著提高了模型的可伸缩性和有效性。

6.2. 消融实验/参数分析

6.2.1. 消融研究 (Ablation Study)

为了探究 MTGRec 中各项技术的贡献,本文在 InstrumentScientific 数据集上进行了消融研究。 以下是原文 Table 3 的结果:

Methods Instrument Scientific
Recall@5 Recall@10 NDCG@5 NDCG@10 Recall@5 Recall@10 NDCG@5 NDCG@10
MTGRec 0.0413 0.0635 0.0275 0.0346 0.0322 0.0506 0.0212 0.0271
w/o Data curriculum 0.0406 0.0618 0.0268 0.0338 0.0312 0.0487 0.0205 0.0263
w/o Relevant tokenizers 0.0350 0.0548 0.0226 00.0290 0.0249 0.0404 0.0158 0.0208
w/o Pre-training 0.0380 0.0571 0.0247 0.0309 0.0285 0.0443 0.0181 0.0236
  • w/o Data curriculum (不使用数据课程): 该变体在没有数据影响估计的课程学习下,以等概率从不同物品词元化器采样数据。结果显示其性能低于 MTGRec,表明将课程学习引入生成式推荐器预训练能够有效提高性能。
  • w/o Relevant tokenizers (不使用语义相关词元化器): 该变体通过不同随机参数初始化多个物品词元化器。由于这些词元化器不相关且冗余,导致预训练期间出现严重的语义冲突,模型学习崩溃,性能显著下降。这一观察结果强调了从训练过程中相邻 epoch 的 RQ-VAE 检查点中选择语义相关词元化器的重要性。
  • w/o Pre-training (不进行预训练): 该变体指的是不基于由多个语义相关物品词元化器派生出的增强序列数据进行预训练,而是直接基于单个物品词元化器进行学习(即 TIGER++TIGER++)。结果表明,基于多个物品词元化器的预训练是本文框架有效性的关键要素。

6.2.2. 模型规模与性能比较 (Performance Comparison w.r.t. Model Scale)

本文探究了不同模型规模对推荐性能的影响。实验从单层开始,逐步将生成式推荐器的编码器和解码器层数增加到 8 层。 以下是原文 Figure 2 的结果:

Figure 2: Performance Comparison w.r.t. Model Scale. The \(\\mathbf { x }\) -axis coordinates are the number of encoder and decoder layers in 该图像是一个图表,展示了在不同层数下,MTGRec、TIGER++ 和 TIGER 模型在三个数据集(Instrument、Scientific 和 Game)中的 Recall@10 性能比较。在各层数中,MTGRec 模型的表现优于其他模型,特别是在 Game 数据集上达到最高的召回率。

VLM 描述: 该图像是一个图表,展示了在不同层数下,MTGRec、TIGER++ 和 TIGER 模型在三个数据集(Instrument、Scientific 和 Game)中的 Recall@10 性能比较。在各层数中,MTGRec 模型的表现优于其他模型,特别是在 Game 数据集上达到最高的召回率。

  • MTGRec 在所有情况下均优于基线模型 (TIGERTIGER++TIGER++)。
  • 基线模型在浅层(例如,1-3 层)时,性能与模型规模呈正相关;但随着模型规模的轻微增加(例如,4 或 5 层),性能可能由于过拟合 (overfitting) 而下降。
  • 相比之下,MTGRec 的性能通常随着模型规模的扩大而呈现上升趋势。然而,这种正相关性是受约束的,不像 LLMs 那样即使模型规模达到 100B 仍有提升空间。这可能源于词元序列数据本质上是基于有限的用户交互集合构建的限制。随着模型变大,需要更多数据进行有效优化,而通过多个物品词元化器实现增强数据的质量和数量之间的权衡变得更具挑战性。具体来说,当 RQ-VAE 检查点间隔的训练 epoch 过多时,方法难以在保持语义相关性的同时生成足够的词元序列。

6.2.3. 词元化器数量与性能比较 (Performance Comparison w.r.t. Tokenizer Number)

本文进一步探究了用于模型预训练的物品词元化器数量对推荐性能的影响。实验使用了两种规模的生成式推荐器(3 层和 6 层模型),在由 5 到 30 个物品词元化器构建的数据集上进行预训练。 以下是原文 Figure 3 的结果:

Figure 3: Performance Comparison w.r.t. Tokenizer Number on the Instrument and Scientific datasets. 该图像是一个图表,展示了在工具和科学数据集上,基于不同标记器数量(3-layer 和 6-layer)对召回率(Recall@10)的影响。在工具数据集上,3-layer的召回率在标记器数量为15时达到最高,而在科学数据集上,6-layer则表现相对稳定。

VLM 描述: 该图像是一个图表,展示了在工具和科学数据集上,基于不同标记器数量(3-layer 和 6-layer)对召回率(Recall@10)的影响。在工具数据集上,3-layer的召回率在标记器数量为15时达到最高,而在科学数据集上,6-layer则表现相对稳定。

  • 使用较少词元化器进行预训练仅带来微小的提升,这归因于序列数据的多样性和数量不足,无法有效优化深度模型。
  • 词元化器数量过多也会导致次优性能。当物品词元化器之间的间隔跨越太多 epoch 时,它们之间的语义相关性会减弱甚至发生冲突,从而阻碍有效的模型学习。
  • 因此,MTGRec 需要选择适当数量的物品词元化器,以在数据量和语义相关性之间取得平衡。
  • 此外,观察到最佳词元化器数量随模型规模的增加而增加(例如,对于 6 层模型),这表明更大的模型受益于更广泛和多样化的序列数据以进行有效训练。

6.2.4. 温度系数 τ\tau 与性能比较 (Performance Comparison w.r.t. Temperature Coefficient)

在公式 (18) 中定义的关于不同数据组采样概率的计算中,温度系数 τ\tau 用于调节分布的平滑度。本文将 τ\tau 值从 0.1 变化到 10,并报告了结果。 以下是原文 Figure 4 的结果:

Figure 4: Performance Comparison w.r.t. Temperature Coefficient on the Instrument and Scientific datasets. 该图像是一个图表,展示了在Instrument和Scientific数据集上,温度系数au对NDCG@10和Recall@10的影响。横轴为温度系数au,纵轴分别表示NDCG@10和Recall@10的值。图中可以看到,在不同的温度系数下,这两个指标的表现有所变化。

VLM 描述: 该图像是一个图表,展示了在Instrument和Scientific数据集上,温度系数au对NDCG@10和Recall@10的影响。横轴为温度系数au,纵轴分别表示NDCG@10和Recall@10的值。图中可以看到,在不同的温度系数下,这两个指标的表现有所变化。

  • 结果表明,适当的 τ\tau 值可以显著提高 MTGRec 的性能。具体而言,在 InstrumentScientific 数据集上的最佳 τ\tau 值分别为 3 和 1。
  • 较小的 τ\tau 会使模型更倾向于高概率的物品词元化器。
  • 较大的 τ\tau 会导致数据课程退化为均匀采样。两种极端情况都会对课程预训练的有效性产生不利影响。

6.2.5. 长尾物品性能比较 (Performance Comparison w.r.t. Long-tail Items)

开发基于多物品词元化器的预训练方法的一个关键动机是增强生成式推荐器的泛化能力,并防止其忽视长尾物品。为了验证该方法在涉及长尾物品推荐方面的优势,本文对不同交互次数的物品组进行了 MTGRec 评估。 以下是原文 Figure 5 的结果:

Figure 5: Performance Comparison w.r.t. Long-tail Items on the Instrument and Scientific datasets.. The bar graph illustrates the number of interactions in the test data for each group, while the line chart displays the improvement ratios for Recall \(\\bf { \\Pi } _ { \\mathcal { \\Theta } } ( \\pmb { \\omega } 1 0\) in comparison to TIGER. 该图像是图表,展示了在 Instrument 和 Scientific 数据集上长期低频项目的性能比较。左侧柱状图显示每个组在测试数据中的交互数量,而右侧折线图展示了与 TIGER 相比,Recall f { ext{Improved Recall}@10} 的提升比例。

VLM 描述: 该图像是图表,展示了在 Instrument 和 Scientific 数据集上长期低频项目的性能比较。左侧柱状图显示每个组在测试数据中的交互数量,而右侧折线图展示了与 TIGER 相比,Recall f { ext{Improved Recall}@10} 的提升比例。

  • MTGRec 在所有物品组中始终优于基线模型 (TIGER)。
  • 特别是当目标物品不流行时(例如,交互次数在 [0, 20) 组),MTGRec 表现出卓越的性能和比 TIGERTIGER++TIGER++ 更显著的改进。
  • 这一现象表明,长尾物品可以从多物品词元化器预训练中受益,因为这种方法增加了词元的曝光,并融入了更多来自共享词元的知识。

6.2.6. MTGRec 在其他生成式推荐方法上的应用 (Applying MTGRec on Other Generative Recommendation Methods)

本文提出的方法可以无缝集成到其他生成式推荐方法中,例如原始的 TIGERLETTER,唯一的前提是需要一个可训练的物品词元化器。为了评估其通用适用性,本文将 MTGRec 应用于 InstrumentScientific 数据集上的其他生成式推荐方法。 以下是原文 Table 4 的结果:

Methods Instrument Scientific
Recall@10 NDCG@10 Recall@10 NDCG@10
TIGER 0.0568 0.0307 0.0423 0.0225
+MTGRec 0.0598 0.0329 0.0465 0.0245
LETTER 0.0580 0.0313 0.0435 0.0232
+MTGRec 0.0614 0.0335 0.0481 0.0255
TIGER++ 0.0588 0.0316 0.0450 0.0241
+MTGRec 0.0635 0.0346 0.0506 0.0271
  • 结果表明,本文提出的方法能够持续改进基模型的性能,进一步验证了其有效性。这证实了从相邻 epoch 的模型检查点中选择语义相关物品词元化器,可以在多种方法中生成具有同质知识的序列数据。

6.2.7. 多标识符差异分析 (Multiple Identifier Difference Analysis)

本文分析了由不同训练 epoch 的物品词元化器生成的物品标识符的相关性和差异。计算了两个指标:

  1. First: 第一个词元发生变化的物品比例。
  2. Any: 物品标识符中任何词元发生变化的物品比例。 以下是原文 Table 5 的结果:
Intervals Instrument Scientific Game
First Any First Any First Any
1 0.39% 13.58% 0.27% 11.4% 0.36% 9.36%
5 0.44% 21.26% 0.58% 22.54% 0.58% 21.22%
10 0.51% 29.75% 0.51% 30.68% 0.57% 30.43%
20 0.75% 44.09% 0.71% 47.33% 0.79% 47.42%
30 0.87% 54.94% 0.85% 58.29% 1.14% 59.95%
  • 语义一致性: 对于两个相邻的词元化器(epoch 间隔为 1),三个数据集上的物品标识符变化极小,表明语义一致性很强。
  • 语义差异与冲突风险: 随着词元化器之间 epoch 间隔的增加,更多物品标识符发生变化(例如,Game 数据集中间隔 30 epoch 时有 59.95% 变化),这导致语义冲突的风险更高。
  • 核心语义保留: 值得注意的是,即使在间隔较大且许多标识符不同的情况下,第一个词元的变化比例通常仍低于 1%,这表明核心语义信息得到了保留。

6.2.8. 效率分析 (Efficiency Analysis)

本文进一步探究了所提出方法的效率。 以下是原文 Table 6 的结果:

Methods Instrument Scientific Game
Time Epoch Time Epoch
TIGER 1.33 h 186 1.04 h 184 2.19 h 253
TIGER++ 1.22 h 178 1.02 h 187 2.23 h 264
MTGRec 1.41 h 209 1.21 h 217 2.11 h 248
  • 本文的方法 MTGRec 包括一个 200 个 epoch 的预训练阶段,随后是一个低成本的微调阶段。
  • 结果表明,MTGRec 的多标识符预训练策略与基线方法相比,并未引入过多的训练时间成本,同时取得了显著的性能提升。
  • 此外,所提出的课程学习方案在 Game 数据集上加速了模型的收敛。

7. 总结与思考

7.1. 结论总结

本文提出了 MTGRec 框架,旨在通过多标识符物品词元化来增强生成式推荐器的预训练。与以往将物品与单一标识符建立一对一映射的方法不同,MTGRec 通过结合多个语义相关的物品词元化器,为每个物品关联了多个标识符。 具体而言,该框架的关键创新包括:

  1. 多标识符物品词元化: 利用 RQ-VAE 作为词元化器骨干,并将训练过程中相邻 epochs 的模型检查点作为语义相关的物品词元化器。这使得单个用户交互序列能够被转换为多个词元序列数据组,从而实现了训练数据的扩充和多样化。
  2. 课程推荐器预训练: 设计了一个基于数据影响估计的数据课程方案,在推荐器预训练期间动态调整不同数据组的采样概率。这确保了模型能有效、有选择地从增强后的数据中学习。 最后,为了确保推荐时准确的物品识别,模型在预训练后会使用单个词元化器进行微调,并选择最佳模型进行部署。 在三个公共基准数据集上进行的广泛实验和深入分析表明,MTGRec 在有效性和可伸缩性方面均显著优于传统的和生成式推荐基线,尤其在长尾物品推荐方面表现出更强的能力。

7.2. 局限性与未来工作

论文作者指出了以下局限性及未来研究方向:

  • 模型扩展的正相关性约束: 尽管 MTGRec 性能随模型规模增加而提升,但这种正相关性存在约束,未能像大型语言模型 (LLMs) 那样即使规模达到数百亿参数仍有持续提升。作者推测这可能源于词元序列数据本质上是基于有限的用户交互集合构建的,使得在通过多物品词元化器实现增强数据时,其质量与数量之间的权衡变得更具挑战性,特别是在 RQ-VAE 检查点间隔的训练 epoch 过多时,难以在保持语义相关性的同时生成足够的词元序列。
  • 未来工作方向:
    1. 将多标识符物品词元化应用于更通用的推荐场景,例如可迁移推荐 (transferable recommendation)多领域推荐 (multi-domain recommendation)
    2. 尝试将模型参数进一步扩展到十亿 (billion) 级别,并深入研究模型参数增加时的扩展效应 (scaling effect)

7.3. 个人启发与批判

7.3.1. 个人启发

  • 数据增强的巧妙性: 本文利用同一模型训练过程中产生的多个检查点作为“语义相关”的词元化器,这是一种非常巧妙且成本相对较低的数据增强策略。它避免了从头训练多个独立模型带来的高昂计算成本和潜在的语义不一致问题,同时有效地增加了训练数据多样性。
  • 课程学习在数据管理中的价值: 在拥有海量且可能存在质量差异的增强数据时,简单地均匀采样往往不是最优解。本文通过数据影响估计引入课程学习,使得模型能够优先从“更有益”的数据中学习,这为处理复杂、多源的数据混合提供了有效范式,在 LLM 预训练中也得到了验证。这种自适应的采样策略对于推荐系统中普遍存在的长尾数据尤其重要。
  • 生成式推荐的潜力: 再次证明了生成式范式在推荐系统中的巨大潜力,它能够将物品的复杂语义信息编码为离散的、可生成序列,从而更好地利用类似 LLM 的架构。同时,本文的工作也揭示了其在数据挑战方面的独特考量。
  • 对长尾物品的赋能: 论文明确指出该方法对长尾物品的显著改进。这对于实际推荐系统至关重要,因为长尾物品往往难以推荐,但其销售和长尾效应具有巨大价值。通过增加低频词元的曝光和共享知识,MTGRec 为解决这一顽疾提供了新的思路。

7.3.2. 批判与潜在改进

  • 数据影响估计的计算开销: 尽管论文提到使用一阶梯度近似,但动态计算所有词元化器对验证集的影响,并在每个阶段更新采样概率,仍然会引入额外的计算开销。虽然效率分析显示总训练时间没有显著增加,但对于超大规模模型和超多词元化器的情况,这部分开销仍需更细致的权衡。未来可以探索更轻量级或周期更长的影响估计方法。
  • “语义相关性”的量化与保证: 论文的核心假设是相邻 epoch 的检查点能保证“语义相关”。虽然实验结果支持这一假设,但这种相关性是隐式的,缺乏明确的量化指标。当 epoch 间隔较大时,语义冲突的程度如何量化?是否可以引入更明确的正则化项或评估指标来显式地保持词元化器之间的语义一致性或控制其差异度,而不是仅仅依赖训练过程的自然演化?
  • 单一词元化器微调的潜在信息损失: 预训练阶段利用了多个词元化器来丰富语义和数据多样性,但在微调和推理阶段又回归到使用单个词元化器。这可能导致在预训练中学到的部分丰富、多样化的语义信息在最终部署时未能充分利用。可以探索一种多标识符的推理策略,或者设计一种微调机制,使最终模型能够更好地整合和保留来自多个词元化器的知识。例如,是否可以集成多个微调后的推荐器,或者在推理时仍能利用多个标识符进行更鲁棒的匹配?
  • 对 RQ-VAE 质量的依赖性: 整个框架的有效性严重依赖于 RQ-VAE 作为词元化器骨干的质量。如果 RQ-VAE 本身无法有效编码物品语义或存在量化瓶颈,MTGRec 的效果将受限。未来可以探索将该思想应用于更先进或更鲁棒的物品词元化技术,或研究如何在多标识符背景下进一步优化 RQ-VAE 的训练。
  • 模型可伸缩性瓶颈的深层原因: 论文提到模型规模与性能的正相关性存在约束,未能像 LLM 那样达到更大规模时仍有显著提升。除了论文中提到的数据质量与数量的权衡,是否还有其他根本性原因?例如,推荐任务与通用语言理解任务的本质差异(例如,推荐任务的物品空间是有限的,而语言空间是无限的),或者物品语义编码本身的固有局限性。深入分析这些深层原因有助于更好地指导未来模型扩展策略。

相似论文推荐

基于向量语义检索推荐的相关论文。

暂时没有找到相似论文。