论文状态：已完成

RecBase: Generative Foundation Model Pretraining for Zero-Shot Recommendation

发表：2025/09/03

价格：0.100000

已有 2 人读过

本分析由 AI 生成，可能不完全准确，请以原文为准。

TL;DR 精炼摘要

本文提出了一种名为RecBase的领域无关基础模型，旨在解决现有大语言模型在零样本推荐中的跨领域泛化限制。该模型通过面对推荐目标进行预训练，以统一文本表示和特征映射为基础，利用大规模跨领域语料库提升推荐效果。在八个真实数据集上，RecBase凭借其1.5亿参数在性能上达到或超过了高达7亿参数的基线模型，展现出更优的推荐能力和灵活性。

摘要

Recent advances in LLM-based recommendation have shown promise, yet their cross-domain generalization is hindered by a fundamental mismatch between language-centric pretraining and the recommendation task. Existing methods, relying on language-level knowledge, fail to capture dynamic, item-level user interests across domains. To bridge this gap, we propose RecBase, a domain-agnostic foundational model pretrained with a recommendation-oriented objective. RecBase leverages a large-scale, heterogeneous, cross-domain corpus with unified textual representations and feature mappings to enhance cross-domain generalization. To further align item semantics across domains, we introduce a unified item tokenizer that encodes items into hierarchical concept identifiers, enabling structured representation and efficient vocabulary sharing. The model is trained using an autoregressive objective to capture complex item-level sequential patterns. On eight real-world datasets, our 1.5B-parameter model matches or surpasses the performance of LLM baselines up to 7B parameters in zero-shot and cross-domain recommendation tasks.

思维导图

论文精读

中文精读约 35 分钟读完 · 21,169 字

1. 论文基本信息

1.1. 标题

RecBase: Generative Foundation Model Pretraining for Zero-Shot Recommendation

1.2. 作者

Sashuai Zhou, Weinan Gan, Qijiong Liu, Ke Lei, Jieming Zhu, Hai Huang, Yan Xia, Ruiming Tang, Zhenhua Dong, Zhou Zhao 作者来自浙江大学 (Zhejiang University)、华为诺亚方舟实验室 (Huawei Noah's Ark Lab)、上海人工智能实验室 (Shanghai AI Lab) 和香港理工大学 (The HK PolyU) 等机构。

1.3. 发表期刊/会议

该论文尚未在正式期刊或会议上发表，目前作为预印本 (preprint) 发布在 arXiv 上。

1.4. 发表年份

2025年。

1.5. 摘要

当前基于大语言模型 (LLM-based) 的推荐系统展现出潜力，但其跨领域泛化能力受限于语言中心预训练与推荐任务之间的根本不匹配。现有方法依赖于语言级别的知识，难以捕捉跨领域的动态、项目级别的用户兴趣。为弥合这一差距，本文提出了 RecBase，一个领域无关的 (domain-agnostic) 基础模型，它通过面向推荐的 (recommendation-oriented) 目标进行预训练。RecBase 利用大规模、异构的跨领域语料库，结合统一的文本表示和特征映射，以增强跨领域泛化能力。为了进一步对齐跨领域的项目语义，我们引入了一个统一的项目分词器 (unified item tokenizer)，将项目编码为分层的概念标识符 (hierarchical concept identifiers)，从而实现结构化表示和高效的词汇共享。该模型采用自回归目标进行训练，以捕捉复杂的项目级别序列模式。在八个真实世界数据集上，我们拥有1.5亿参数的模型在零样本 (zero-shot) 和跨领域推荐任务中，性能与参数量高达7亿的 LLM 基线模型持平或超越。

1.6. 原文链接

原文链接: https://arxiv.org/abs/2509.03131v1
PDF 链接: https://arxiv.org/pdf/2509.03131v1.pdf 发布状态: arXiv 预印本。

2. 整体概括

2.1. 研究背景与动机

2.1.1. 核心问题

论文试图解决的核心问题是：当前基于大语言模型 (LLM-based) 的推荐系统在跨领域 (cross-domain) 泛化能力方面存在根本性障碍。

2.1.2. 问题的重要性与现有挑战

LLMs的局限性: 尽管大语言模型在零样本学习 (zero-shot learning)、多任务统一 (multi-task unification) 和多领域泛化 (multi-domain generalization) 方面表现出色，但将其直接应用于推荐系统 (recommender systems) 时，会遇到挑战。
语言中心预训练与推荐任务的不匹配: 现有 LLM 是基于通用语言数据进行预训练的，其知识主要集中在语言层面。然而，推荐任务的核心在于捕捉用户对具体项目 (item-level) 的动态兴趣，以及项目之间在不同领域内的复杂关联。这种语言中心知识与项目级兴趣建模之间存在“语义鸿沟 (semantic gap)”或“知识鸿沟 (knowledge gap)”。
现有方法的局限:
1. 输入表示 (Input Representation): 推荐数据（如用户行为序列）需要被映射到语言模态，但这种映射可能无法有效代表用户序列，导致信息丢失或不准确。
2. 知识鸿沟 (Knowledge Gap): LLMs 在预训练时并未专门学习项目间的协同关系 (item-item co-relationships)，这使得它们在零样本推荐等场景中表现不佳。
3. 模型对齐 (Model Alignment): 通过下游任务数据集对 LLM 进行微调 (fine-tuning) 来与推荐模型对齐，可能会损害模型处理零样本和跨领域推荐的能力。

2.1.3. 论文的切入点与创新思路

本文的切入点是从头开始 (from scratch) 预训练一个专门用于推荐任务的、领域无关的 (domain-agnostic) 基础模型 (foundational model)。该模型不再仅仅将 LLM 作为通用编码器或通过语言提示 (language prompts) 适配推荐任务，而是直接以“面向推荐的 (recommendation-oriented)”目标进行预训练，核心创新思路体现在：

推荐导向的预训练: 不依赖于语言中心预训练，而是直接在推荐序列数据上进行训练。
统一的项目表示: 引入 统一项目分词器 (unified item tokenizer)，将项目编码为分层的概念标识符，实现跨领域语义对齐和高效知识共享。
自回归建模: 利用自回归目标捕捉项目级别的序列模式。

2.2. 核心贡献/主要发现

论文的主要贡献体现在以下几个方面：

提出了 RecBase 模型: 首次从头预训练一个专门针对零样本和多领域推荐的生成式基础模型。
大规模、开放域推荐数据集的构建和表示: 编译了一个包含15个不同领域的大规模、开放域推荐数据集（4.5M项目和35M交互），并统一提取项目文本表示作为预训练的数据源，增强跨领域泛化。
引入统一项目分词器 (Unified Item Tokenizer):
- 提出了一个通用的项目分词器，将项目表示统一到跨领域。
- 每个项目被分词为多级概念 ID (multi-level concept IDs)，通过课程学习 (curriculum learning) 以粗粒度到细粒度的方式学习。
- 这种分层编码 (hierarchical encoding) 促进了语义对齐 (semantic alignment)，减少了词汇量大小，并实现了跨领域知识有效迁移。
采用自回归预训练范式 (Autoregressive Pretraining):
- 模型采用自回归建模范式进行预训练，预测序列中的下一个词元 (token)。
- 这种方法使得模型能够在一个统一的概念词元空间内学习项目间的协同关系 (item co-relationships)，从而增强模型在零样本和跨领域设置下的泛化能力。
实验结果证明其优越性: 在八个真实世界数据集上，拥有1.5亿参数的 RecBase 模型在零样本和跨领域推荐任务中，性能与参数量高达7亿的 LLM 基线模型持平或超越，并且在推理效率上表现更优。这突出了面向推荐的预训练策略的有效性。

3. 预备知识与相关工作

3.1. 基础概念

3.1.1. 推荐系统 (Recommender Systems)

概念定义: 推荐系统是一种信息过滤系统，旨在预测用户对某个项目（如商品、电影、音乐、新闻等）的“兴趣”或“偏好”程度，并向用户推荐他们可能感兴趣的项目。其核心目标是帮助用户在海量信息中发现符合其口味的内容，同时为平台增加用户活跃度和商业价值。

3.1.2. 大语言模型 (Large Language Models, LLMs)

概念定义: 大语言模型是基于海量文本数据进行预训练的深度学习模型，通常采用 Transformer 架构，拥有数亿到数万亿的参数。它们通过学习语言的统计规律和语义信息，能够执行文本生成、问答、翻译、摘要等多种自然语言处理任务。LLMs在预训练阶段学习到的是通用的语言知识和世界知识。

3.1.3. 零样本推荐 (Zero-shot Recommendation)

概念定义: 零样本推荐指的是在模型训练时从未见过某个特定领域、任务或项目类别的数据，但在推理时仍能对这些新领域、新任务或新项目进行有效推荐的能力。这意味着模型必须具备强大的泛化能力，能够将其从已知领域学到的知识迁移到未知领域。

3.1.4. 跨领域泛化 (Cross-domain Generalization)

概念定义: 跨领域泛化是指模型在多个不同领域的数据上进行训练后，能够成功地将所学知识应用到新的、未见过的领域，并在此新领域中保持良好性能的能力。这要求模型学习到领域无关的、更高层次的抽象特征和关系。

3.1.5. 自回归模型 (Autoregressive Models)

概念定义: 自回归模型是一种序列模型，它通过建模序列中每个元素的条件概率分布，来预测下一个元素。具体来说，给定一个序列的前 t-1 个元素，自回归模型预测第 $t$ 个元素。在文本生成中，它会根据已生成的词元 (token) 来预测下一个词元。这种模型天然适用于捕捉序列数据中的依赖关系和模式。

3.1.6. 向量量化变分自编码器 (Vector Quantized Variational Autoencoder, VQ-VAE)

概念定义: VQ-VAE 是变分自编码器 (Variational Autoencoder, VAE) 的一个变体，它引入了向量量化 (vector quantization) 层，将连续的潜在表示 (latent representation) 映射到离散的码本 (codebook) 中的一个向量。

变分自编码器 (VAE): VAE 是一种生成模型，由编码器 (encoder) 和解码器 (decoder) 组成。编码器将输入数据压缩成潜在空间中的一个概率分布（通常是高斯分布），解码器则从该分布中采样生成数据。VAE 的目标是学习数据的潜在表示，并能从这些表示中生成新的、与训练数据相似的数据。
向量量化 (Vector Quantization): 向量量化是一种数据压缩技术，它将输入向量映射到有限集合（码本）中的一个“码字 (codeword)”向量。在 VQ-VAE 中，编码器输出的连续潜在向量会被“吸附 (snap)”到码本中最近的码字上，从而实现离散化。

3.1.7. 残差量化变分自编码器 (Residual Quantized Variational Autoencoder, RQ-VAE)

概念定义: RQ-VAE 是 VQ-VAE 的扩展，它通过引入分层量化 (hierarchical quantization) 的概念，进一步提高了量化的精度。它不是一次性将潜在表示量化到一个码字，而是迭代地对残差 (residual) 进行量化。在每个量化级别，模型量化当前残差，然后计算新的残差（原始残差减去量化后的向量），并将其传递给下一个量化级别。这种从粗粒度到细粒度 (coarse-to-fine) 的量化方式允许模型用多个码字来表示一个潜在向量，从而更精确地重建原始输入，同时保持离散性。

3.1.8. 课程学习 (Curriculum Learning)

概念定义: 课程学习是一种机器学习训练策略，其灵感来源于人类学习过程。它建议模型应该从相对简单或容易学习的样本或任务开始训练，然后逐渐过渡到更复杂或困难的样本或任务。这种渐进式的训练方法有助于模型更好地收敛，避免陷入局部最优，并提高最终的泛化性能。

3.2. 前人工作

论文将相关工作分为 LLM-based Recommendation 和 Item Representation for Recommendation 两类。

3.2.1. LLM-based Recommendation (基于大语言模型的推荐)

项目评分 (Item Scoring):
- $M6-Rec (Cui et al., 2022)$ 、Prompt4NR (Zhang and Wang, 2023)、TabLLM (Hegselmann et al., 2023)、TALLRec (Bao et al., 2023)：这些方法将用户-项目数据转换为自然语言表示，通过生成项目描述进行评分，或将任务重构为完形填空 (cloze-style prediction)。
- ONCE (Liu et al., 2024a)：为基于内容的推荐提供生成式框架。
- $CLLM4Rec (Zhu et al., 2024b)$ ：增强 LLM-based 系统中的协作。
项目生成 (Item Generation):
- GPT4Rec (Petrov and Macdonald, 2023)、P5 (Geng etal., 2022)、EAGER (Wang et al., 2024a)、EAGER-LLM (Hong et al., 2025)：利用生成模型基于用户行为预测下一个项目。
- DiffuRec：将不确定性引入序列推荐。
- GIRL (Zheng et al., 2023)：展示 LLM 如何改进职位推荐。
局限性: 这些方法虽然推进了推荐系统，但仍受限于语言中心表示与结构化推荐数据之间的语义鸿沟。它们主要依赖于将推荐数据“翻译”成自然语言，然后让 LLM 处理，而不是直接在推荐任务的语义空间中进行操作。

3.2.2. Item Representation for Recommendation (推荐中的项目表示)

分层模型 (Hierarchical Models):
- Li et al., 2020、Wang et al., 2021a：使用图神经网络 (Graph Neural Networks, GNNs) 聚合项目信息到表示中，以细化用户画像并捕获交互内部和跨交互的依赖关系。
跨视图对比学习 (Cross-view Contrastive Learning):
- Ma et al., 2022：提出建模用户-捆绑包 (user-bundle) 和用户-项目 (user-item) 交互，以促进跨领域泛化。
序列推荐中的表示方法:
- Peng et al., 2022：关注缓解项目表示差异 (item representation divergence)，提高学习效率。
语义 ID (Semantic IDs):
- Rajput et al., 2023、Zheng et al., 2024、Wang et al., 2024b、Zhu et al., 2024a：利用语义 ID 和生成式检索框架预测序列中的下一个项目，增强泛化能力，尤其是在零样本场景。
局限性: 这些方法通常受限于特定领域的数据，限制了其在不同上下文中的泛化能力。它们可能难以构建一个真正统一的跨领域项目表示。

3.3. 技术演进

推荐系统的技术演进大致经历了从传统的协同过滤 (Collaborative Filtering)、基于内容的推荐 (Content-based Recommendation) 到深度学习时代，再到近期结合大语言模型的发展。

传统推荐: 基于用户或项目相似性进行推荐。
深度学习推荐: 利用神经网络（如循环神经网络 RNN、卷积神经网络 CNN、Transformer）学习用户行为序列和项目特征，捕捉更复杂的模式。
LLM-based 推荐: 尝试将 LLM 的强大语言理解和生成能力引入推荐系统，通过将推荐任务转化为语言任务（如提示工程、文本生成）来利用 LLM 的通用知识。
本文工作 (RecBase): 处在 LLM-based 推荐的进一步演化中。它认识到直接适配通用 LLM 的局限性，并提出了一种更深层次的融合方式——构建一个“面向推荐的”基础模型。它不再仅仅将 LLM 作为辅助工具，而是从数据表示、模型架构和预训练目标上，为推荐任务量身定制一个基础模型，旨在弥合语言中心与项目中心之间的语义鸿沟。

3.4. 差异化分析

RecBase 与相关工作的主要区别和创新点在于：

预训练目标和数据源:
- LLM-based 方法: 依赖于语言模型在通用文本语料上的预训练知识，然后通过微调或提示工程适应推荐任务。预训练是语言中心 (language-centric) 的。
- RecBase: 从头开始在大规模、异构、跨领域推荐行为数据上进行预训练，目标是直接学习项目间的协同关系和序列模式，预训练是推荐导向 (recommendation-oriented) 的。
项目表示方式:
- 传统 ID-based 方法: 项目通常以离散 ID 表示，缺乏语义信息，难以泛化到新项目和跨领域。
- 语言-based 方法: 将项目描述转化为自然语言文本，虽然有语义，但可能冗长且无法有效捕捉项目级别特征，容易受通用语言偏见影响。
- RecBase 的统一项目分词器 (CL-VAE): 将项目文本描述编码为分层概念 ID (hierarchical concept IDs)。这既保留了离散 ID 的高效性，又通过多级编码注入了语义信息，实现跨领域语义对齐，并有效共享词汇。这种表示是介于纯 ID 和纯语言之间的创新。
模型架构和训练范式:
- LLM-based 方法: 通常复用现有的 LLM 架构（如 Transformer 解码器），并对其进行改造或微调。
- RecBase: 也使用 Transformer 架构，但其自回归预训练直接作用于概念 ID 序列，而非通用语言词元。这使得模型在更低层次上学习项目之间的序列依赖，更直接地服务于“预测下一个项目”这一核心推荐任务。
泛化能力:
- LLM-based 方法: 在零样本和跨领域任务中常因知识鸿沟和模型对齐问题而受限。
- RecBase: 通过领域无关的预训练、统一的项目语义表示和项目级别序列建模，显著增强了在零样本和跨领域推荐任务中的泛化能力，并在实验中超越了参数量更大的 LLM 基线。

4. 方法论

本文提出的 RecBase 模型包含两个主要阶段：首先，将项目表示映射到一个统一的离散空间，为每个项目生成一个概念 ID 序列；其次，利用这个概念 ID 序列通过自回归模型预测序列中的下一个项目。

4.1. 方法原理

RecBase 的核心思想是，为了克服现有基于 LLM 推荐系统的局限性（即语言中心预训练与推荐任务之间的不匹配），需要一个专门为推荐任务设计的、领域无关的基础模型。这个模型应该能够直接理解和学习项目级别的用户兴趣和序列模式，而不是通过语言层面进行间接建模。

其直觉在于：

统一语义表示: 不同领域的项目虽然表面上差异很大，但在更高抽象层面上可能共享相似的“概念”。通过学习一个统一的、分层的离散概念 ID 空间，可以将这些跨领域项目映射到共同的语义表示上，从而促进知识迁移。
序列模式捕捉: 用户行为本质上是项目交互的序列。自回归模型非常适合捕捉这种序列依赖性，即根据用户过去的行为预测其下一个行为。
课程学习增强表示: 直接学习一个复杂的、高维度的概念空间可能面临挑战（如码本崩溃）。通过课程学习逐步构建分层概念，可以使学习过程更稳定、更有效，确保概念 ID 空间被充分利用且具有良好的分布特性。

4.2. 核心方法详解 (逐层深入)

4.2.1. 预备知识：残差量化变分自编码器 (RQ-VAE)

为了让大语言推荐模型能够学习基于项目历史的用户行为，需要将连续的项目语义嵌入 (item semantic embeddings) 离散化为统一的离散词元 (discrete tokens)。RQ-VAE (Lee et al., 2022) 是一种实现此目的的方法。

给定一个输入嵌入 $e \in \mathbb { R } ^ { d }$ ，RQ-VAE 首先使用编码器 $\mathcal { E }$ 将其编码到潜在空间 (latent space)： $z : = \mathcal { E } ( e )$ 其中 $e$ 是项目的语义嵌入， $d$ 是嵌入的维度， $z$ 是编码器 $\mathcal{E}$ 输出的潜在表示。

RQ-VAE 通过引入分层量化 (hierarchical quantization) 的概念扩展了 VQ-VAE (van den Oord et al., 2018)，它逐步量化潜在表示 $z$ 。具体来说，在每个级别 $d$ ，残差 r _ { d } 通过将其映射到级别特定码本 $C _ { d } := \{ e _ { k } \} _ { k = 1 } ^ { K }$ 中最近的嵌入 e _ { c _ { d } } 来进行量化，其中： $c _ { d } = \arg \operatorname* { m i n } _ { k } \| r _ { d } - e _ { k } \|$ 这里 $c_d$ 是在第 $d$ 个量化级别上找到的码本索引（概念 ID）， $r_d$ 是当前的残差向量（初始时 $r_0 = z$ ）， $e_k$ 是码本 $C_d$ 中的第 $k$ 个码字向量， $K$ 是码本 $C_d$ 的大小。此操作旨在找到与当前残差最相似的离散表示。

下一个级别的残差计算为： $r _ { d + 1 } : = r _ { d } - e _ { c _ { d } }$ 这个过程递归地重复 $m$ 次，以生成一个包含 $m$ 个码字（概念 ID）的元组，表示从粗粒度到细粒度的语义 ID，近似于原始输入。每个级别的独立码本允许在残差范数减小时具有不同的粒度。

4.2.2. 统一特征表示空间 (Unified Feature Representation Space)

为了确保跨不同领域项目表示的一致性和结构化，RecBase 首先将项目描述标准化为统一格式。这允许进行统一处理，并通过共享编码器将其转换为特征嵌入。通过保持结构一致性，模型可以在共同特征空间中有效地学习和比较跨领域项目。

对于一个高度可泛化的大型语言推荐模型，从项目嵌入中导出的 ID 必须在 ID 空间中均匀分布。这确保了来自不同领域的项目表示能够很好地分散开来，使模型更容易泛化到各种类别。然而，在 RQ-VAE 训练过程中，经常发生码本崩溃 (codebook collapse)，即大多数输入（无论其领域如何）仅映射到码本向量的一小部分。这导致新项目（尤其是来自未见过领域的新项目）可能被编码为大型语言模型从未遇到过的词元，从而导致次优性能。

为了缓解这个问题，本文提出了课程学习增强残差量化变分自编码器 (Curriculum Learning Enhanced RQ-VAE, CL-VAE)，它提高了模型的鲁棒性，并增强了其在多样化领域中处理零样本场景的能力。

如下图 (原文 Figure 1) 所示，在 CL-VAE 中，引入了课程学习 (curriculum learning)。其核心思想是让模型从简单到复杂逐步学习任务，而不是直接学习复杂任务。RQ-VAE 的分层结构与课程学习的原理天然契合。本文对码本的不同级别进行分阶段训练 (staged training)：

最初，训练第一层 $n$ 个周期，使其充分学习基本特征表示。
当损失稳定后，添加第二层进行进一步训练，以此类推。

这种分阶段训练方法不仅降低了初始训练的复杂性，还增强了模型的收敛稳定性。通过逐步构建分层表示，CL-VAE 有效地将来自不同领域的项目表示映射到统一的概念 ID 空间，使大型语言模型能够更有效地泛化到不同的分布。

下图 (原文 Figure 2) 展示了 t-SNE 聚类在 ID 空间中的可视化结果，可以看到 CL-VAE 学习到的离散 ID 空间相比 RQ-VAE 具有更好的分布和交叠。

该图像是示意图，展示了统一项目概念ID生成和自回归模型的结构。图中分为三个部分：第一部分展示原始数据输入和格式化文本描述；第二部分说明了分阶段的课程学习以优化代码簿；第三部分则展示自回归概念ID预测的过程和模型结构，通过重建损失实现项目特征重建，支持跨域推荐任务。

VLM 描述: 该图像是示意图，展示了统一项目概念ID生成和自回归模型的结构。图中分为三个部分：第一部分展示原始数据输入和格式化文本描述；第二部分说明了分阶段的课程学习以优化代码簿；第三部分则展示自回归概念ID预测的过程和模型结构，通过重建损失实现项目特征重建，支持跨域推荐任务。

Figure 2: Visualization of t-SNE Clustering in the ID Space: (a) Discrete ID space learned by RQ-VAE, (b)Discrete ID space learned by CL-VAE. 该图像是一个示意图，展示了 t-SNE 聚类在 ID 空间中的可视化结果，左侧为 RQ-VAE 学习到的离散 ID 空间，右侧为 CL-VAE 学习到的离散 ID 空间。

VLM 描述: 该图像是一个示意图，展示了 t-SNE 聚类在 ID 空间中的可视化结果，左侧为 RQ-VAE 学习到的离散 ID 空间，右侧为 CL-VAE 学习到的离散 ID 空间。

为了进一步缓解码本崩溃问题，特别是在某些码本向量利用率稀疏的情况下，CL-VAE 会根据训练期间第一层码本的使用率来决定是否对其进行重新初始化 (reinitialize)。这种重新初始化为第一层码本提供了新的优化起点，确保了低层特征的充分学习并防止了崩溃，从而提高了模型的整体性能。

修改后的模型损失函数由重建损失 $\mathcal { L } _ { \mathrm { R } }$ 、码本损失和承诺损失 $\mathcal { L } _ { \mathrm { Q } }$ 以及熵损失 $\mathcal { L } _ { \mathrm { E } }$ 组成： $\mathcal { L } ( x ) : = \mathcal { L } _ { \mathrm { R } } + \mathcal { L } _ { \mathrm { Q } } + \gamma \mathcal { L } _ { \mathrm { E } }$ 其中：

重建损失 (Reconstruction Loss): 衡量解码器输出 $\hat { x }$ 与原始输入 $x$ 之间的差异。 $\mathcal { L } _ { \mathrm { R } } : = | x - \hat { x } | ^ { 2 }$ 这里 $x$ 是原始项目嵌入， $\hat{x}$ 是解码器基于量化后的潜在表示重建的项目嵌入。此损失促使模型能够准确地重建原始输入。
码本损失和承诺损失 (Codebook Loss and Commitment Loss): 包含 VQ-VAE 的核心损失项，用于更新码本嵌入和鼓励编码器的输出接近码本向量。 $\mathcal { L } _ { \mathrm { Q } } : = \sum _ { d = 0 } ^ { m - 1 } | \mathrm { sg } [ r _ { i } ] - e _ { c _ { i } } | ^ { 2 } + \beta | r _ { i } - \mathrm { sg } [ e _ { c _ { i } } ] | ^ { 2 }$ 这里 $\mathrm{sg}[\cdot]$ 表示停止梯度 (stop-gradient) 操作，它将括号内的表达式视为常量，不参与梯度回传。 $r_i$ 是编码器输出的潜在表示（或残差）， $e_{c_i}$ 是从码本中选择的最近的码字。第一项 $| \mathrm { sg } [ r _ { i } ] - e _ { c _ _ { i } } | ^ { 2 }$ 用于将码本向量 $e_{c_i}$ 更新到编码器输出 $r_i$ 的方向（由于 $\mathrm{sg}$ ，梯度只流向 $e_{c_i}$ ）。第二项 $\beta | r _ { i } - \mathrm { sg } [ e _ { c _ { i } } ] | ^ { 2 }$ 是承诺损失，鼓励编码器的输出 $r_i$ 接近所选码字 $e_{c_i}$ ，其中 $\beta$ 是一个超参数。
熵损失 (Entropy Loss): 旨在促进码本的更多样化利用，防止码本崩溃。 $\mathcal { L } _ { \mathrm { E } } : = - \sum _ { d = 0 } ^ { m - 1 } \sum _ { j = 1 } ^ { K } p _ { d , j } \log p _ { d , j }$ 这里 p _ { d , j } 表示在第 $d$ 层码本中码本向量 e _ { j } 的使用频率。熵损失最大化意味着 $p_{d,j}$ 趋向于均匀分布，即所有码本向量都被均匀使用，从而避免了少数码本向量被过度使用而导致其他向量“死亡”的码本崩溃问题。 $\gamma$ 是熵损失的权重超参数。这些损失项共同促进了编码器、解码器和码本的联合训练。

4.2.3. 自回归建模 (Autoregressive Modeling)

在应用统一离散化方法后，每个项目都被表示为一个 $m$ 比特 (bit) 的语义 ID，形成一个概念 ID 序列。为了将这种表示用于推荐，用户的交互历史被转换为一个概念 ID 序列，并保持时间顺序。序列中的每个项目 $s_i$ 被表示为 $s _ { i } = ( s _ { i } ^ { 1 } , s _ { i } ^ { 2 } , \ldots , s _ { i } ^ { m } )$ ，其中 $s _ { i } ^ { j }$ 是该项目概念 ID 的第 $j$ 个比特。

给定一个历史交互序列 $S = ( s _ { 1 } , s _ { 2 } , \ldots , s _ { n } )$ ，模型训练一个自回归模型来预测下一个 ID。模型以之前的序列 $S _ { < t }$ 作为输入，并为下一个 ID s _ { t } 的每个比特输出一个概率分布： $P ( s _ { t } | S _ { < t } ) = \prod _ { j = 1 } ^ { m } P ( s _ { t } ^ { j } | s _ { t } ^ { < j } , S _ { < t } )$ 这里 P ( s _ { t } | S _ { < t } ) 是给定历史交互序列 $S_{<t}$ 预测下一个项目 $s_t$ 的概率。这个概率通过链式法则分解为预测其每个比特 $s_t^j$ 的概率的乘积，其中 $P ( s _ { t } ^ { j } | s _ { t } ^ { < j } , S _ { < t } )$ 是给定其之前的比特 $s_t^{<j}$ 和交互历史 $S_{<t}$ 的情况下，第 $j$ 个比特 $s_t^j$ 的概率。 $S_{<t}$ 表示序列中所有在 $t$ 之前的项目， $s_t^{<j}$ 表示项目 $s_t$ 中所有在第 $j$ 个比特之前的比特。

训练通过负对数似然损失 (negative log-likelihood loss) 进行： $\mathcal { L } = - \sum _ { t = 1 } ^ { n } \sum _ { j = 1 } ^ { m } \log P ( s _ { t } ^ { j * } | s _ { t } ^ { < j * } , S _ { < t } )$ 这里 $\mathcal{L}$ 是总损失， $n$ 是序列长度， $m$ 是概念 ID 的比特数。 $s _ { t } ^ { j * }$ 是真实 (ground truth) 的第 $t$ 个项目概念 ID 的第 $j$ 个比特， $s _ { t } ^ { < j * }$ 是真实第 $t$ 个项目概念 ID 的前 j-1 个比特。此损失促使模型最大化预测真实序列中每个项目的每个比特的概率。

在推理阶段，模型比特接比特地生成下一个项目的概念 ID，将概念 ID 视为其词汇表中的词元。这种结构化表示使模型能够有效捕捉用户行为模式，从而产生更准确和多样化的推荐。

5. 实验设置

5.1. 数据集

RecBase 模型在15个多样化的训练数据集上进行预训练，并在8个额外的跨领域测试数据集上进行评估，以衡量其泛化能力。

5.1.1. 训练数据集

论文使用了以下15个训练数据集，涵盖了新闻、短视频和电子商务评论等多个领域：

EBNeRD (Kruse et al., 2024): 新闻相关数据集，用于优化新闻推荐系统。
PENS (Ao et al., 2021): 新闻相关数据集，用于个性化新闻标题生成。
PixelRec (Cheng et al., 2024): 短视频推荐数据集，包含大量用户与短视频的交互和对应的视频缩略图。
KuaiRec (Gao et al., 2022): 短视频推荐数据集，包含用户与短视频的交互和丰富模态信息。
Amazon Reviews 2023 (Hou et al., 2024a): 大规模电子商务评论数据集，包含用户反馈信息（如评分、评论文本、有用投票）和产品元数据。
Amazon Review Dataset (子数据集): 经典的亚马逊产品评论数据集，包括：
- Amazonbeauty: 美容产品领域。
- Amazonbooks: 图书产品领域。
- Amazonsports: 运动产品领域。
- Amazontoys: 玩具产品领域。
Netflix dataset: 经典的电影相关推荐系统数据集，包含超过1亿个用户对电影的评分。

5.1.2. 评估数据集

论文在以下8个多样且以前未见的真实世界数据集上评估 RecBase 的零样本和跨领域性能：

MIND (Wu et al., 2020): 大规模新闻推荐数据集，基于微软新闻用户点击日志构建，包含丰富新闻文章信息（标题、摘要、正文、类别标签）和用户点击历史及曝光日志。适用于研究冷启动问题和用户兴趣建模。
MovieLens (Harper and Konstan, 2015): 经典电影推荐系统数据集，包含大量用户对电影的评分。
MicroLens (Ni et al., 2023): 大规模、内容驱动的短视频推荐数据集，包含10亿次用户与短视频的交互，并提供丰富的视频模态信息。
Goodreads (Wan et al., 2019): 从 Goodreads 网站收集的图书数据集，包含图书元数据、用户-图书交互和详细用户评论，约2.28亿条交互记录。
Yelp Open Dataset: 著名美国商家评论网站 Yelp 提供的数据子集，包括约16万商家、863万评论和20万图片。
Steam Dataset: 基于 Steam 平台构建的多维数据集，涵盖数百万用户的游戏购买记录和游玩时长等详细信息，广泛用于用户行为分析、市场趋势预测和游戏推荐系统研究。
H&M dataset: H&M 提供的服装产品数据集，包含产品信息、客户信息和交易记录，广泛用于推荐系统研究。
HotelRec (Antognini and Faltings, 2020): 大规模酒店推荐数据集，从 TripAdvisor 平台收集，包含约5000万条酒店评论，是单一领域中带有文本评论的最大推荐数据集。

下图（原文 Figure 4）展示了训练和测试数据集的分布情况。

该图像是一个示意图，展示了训练和测试数据集的分布。左侧为训练数据集，右侧为测试数据集，各类别的比例通过不同颜色表示，涉及电影、视频、商品等多个领域。

VLM 描述: 该图像是一个示意图，展示了训练和测试数据集的分布。左侧为训练数据集，右侧为测试数据集，各类别的比例通过不同颜色表示，涉及电影、视频、商品等多个领域。

以下是原文 Table 2 中提供的训练、微调和测试数据集的统计信息：

	Item size	User size	History Avg. length
Training datasets	4,595,003	35,047,682	20.37
Finetune datasets	1,005,745	5,098,084	17.83
Test datasets	623,615	145,975	15.01

5.1.3. 数据预处理

文本标准化 (Text Standardization): 将项目相关内容结构化为统一格式，结合标题、属性和评论，形成干净的文本描述。过滤掉非信息性或离题的评论，只保留与核心产品或项目相关的内容。
用户历史过滤 (User History Filtering): 应用基于长度的过滤来管理用户历史长度的变化。交互次数少于15次的用户（例如在 AmazonToys 中）被移除，因为序列信号不足；而极长的历史记录（例如在 LastFM 或 PixelRec 中超过2500次交互）被截断，以避免过拟合和内存效率问题。
负样本采样 (Negative Sampling): RecBase 使用自回归目标在真实用户交互序列上进行训练，因此训练过程中不涉及人工负样本采样。模型仅利用正向（即观察到的）用户反馈来预测下一个可能项目。

5.1.4. 项目文本示例

为了帮助读者直观理解数据形态，以下是原文附录 C 中展示的一些项目格式化文本描述示例，这些描述用于通过 NV-Embedding 模型提取嵌入：

$'Describe a movie:\n{\n"title": "Toy Story (1995)",\n"genres": "Adventure | Animation | Children | Comedy | Fantasy"\n}'$
$'Describe a movie:\n{\n"title": "Jumanji (1995)",\n"genres": "Adventure | Children | Fantasy"\n}'$
$'Describe a movie:\n{\n"title": "Grumpier Old Men (1995)",\n"genres": "Comedy | Romance"\n}'$

以及用于大语言模型基准测试的测试用例：
$'User behavior sequence: \n(1) This Ford GT40 Movie Rig From "Ford V Ferrari" Looks Absurd\n(2) Kendall Jenner Wore the Tiniest Dress to Go Jewelry Shopping\nCandidate item: 9 fashion trends inspired by the 2000s that are coming back in style'$
$'User behavior sequence: \n(1) This Ford GT40 Movie Rig From "Ford V Ferrari" Looks Absurd\n(2) Kendall Jenner Wore the Tiniest Dress to Go Jewelry Shopping\nCandidate item: Here Are the Biggest Deals Were Anticipating for Black Friday'$
$'User behavior sequence: \n(1) This Ford GT40 Movie Rig From "Ford V Ferrari" Looks Absurd \n(2) Kendall Jenner Wore the Tiniest Dress to Go Jewelry Shopping\nCandidate item: Man cuffed for eating sandwich on train platform gets an apology'$

5.2. 评估指标

论文将任务框架为根据历史交互预测用户对未见项目的兴趣，并将其作为排名问题处理。为了评估模型的性能，使用了 Area Under Curve (AUC) 指标。

5.2.1. 曲线下面积 (Area Under Curve, AUC)

概念定义: AUC 是接收者操作特征曲线 (Receiver Operating Characteristic curve, ROC curve) 下方的面积。ROC 曲线 以真阳性率 (True Positive Rate, TPR) 为纵轴，假阳性率 (False Positive Rate, FPR) 为横轴绘制。AUC 值介于0和1之间，用于衡量分类模型对正负样本的区分能力。AUC 值越高，表示模型区分能力越好。在推荐系统中，它衡量模型将用户可能喜欢的项目排在不喜欢项目之前的能力。
数学公式: $\text{AUC} = \frac{\sum_{i \in \text{PositiveClass}} \sum_{j \in \text{NegativeClass}} \mathbf{1}(P_i > P_j)}{|\text{PositiveClass}| \cdot |\text{NegativeClass}|}$
符号解释:
- $\text{PositiveClass}$ : 所有正样本的集合（例如，用户点击过的项目）。
- $\text{NegativeClass}$ : 所有负样本的集合（例如，用户未点击或不感兴趣的项目）。
- $P_i$ : 模型预测的正样本 $i$ 的得分（或概率）。
- $P_j$ : 模型预测的负样本 $j$ 的得分（或概率）。
- $\mathbf{1}(\cdot)$ : 指示函数，当括号内条件为真时取值为1，否则取值为0。
- $|\text{PositiveClass}|$ : 正样本的数量。
- $|\text{NegativeClass}|$ : 负样本的数量。

5.2.2. 点击概率 (Click Probability)

对于大语言模型 (LLM) 基线，预测用户兴趣得分或点击概率的方式略有不同：

闭源模型 (Closed-source models): LLM 的文本响应（YES 或 NO）直接映射为兴趣得分1.0和0.0。
开源模型 (Open-source models): 从分类器获取 YES 和 NO 词元的 logits，分别表示为 $l _ { \mathrm { y e s } }$ 和 $l _ { \mathrm { n o } }$ 。应用 Softmax 归一化后，将 YES 词元对应的得分作为点击概率，公式如下： $\mathrm { Click ~ Probability } = p _ { \mathrm { y e s } } = \frac { e ^ { l _ { \mathrm { y e s } } } } { e ^ { l _ { \mathrm { y e s } } } + e ^ { l _ { \mathrm { n o } } } }$ 这里 $p_{\mathrm{yes}}$ 是预测用户将点击（即感兴趣）的概率。

对于 RecBase 的推理，模型接收用户的历史交互序列作为输入，并输出预测项目概念 ID 的 logits。这些 logits 代表了 $m$ 个可能概念 ID 上的联合概率分布。通过比较这些概率，RecBase 根据其预测的兴趣得分对项目进行排名，从而生成推荐。

5.3. 对比基线

论文将 RecBase 模型与多种最先进的方法进行了比较，包括基于大语言模型的零样本推荐方法和经过微调的推荐模型。

5.3.1. 基于 LLM 的零样本方法

这些模型直接在零样本设置下进行评估，通常通过将推荐任务转化为语言提示或问答格式：

$\mathbf { BERT _ { b a s e } }$ (Devlin et al., 2019)
OPT (Zhang et al., 2022)
Qwen-2 (Yang et al., 2024)
Phi-2
Llama-2 (Touvron et al., 2023)
Llama-3 (Dubey et al., 2024)
Mistral (Jiang et al., 2023)
GPT-3.5 (Brown et al., 2020)

5.3.2. 经过微调的基于 LLM 的模型

这些模型在特定推荐数据集上进行了微调或持续预训练：

RecGPT (Zhang et al., 2024)
P5 (Geng et al., 2022)

5.3.3. RecBase 模型

本文提出的 RecBase 模型有两个版本：

RecBasebase: 0.3亿参数。
RecBaselarge: 1.5亿参数。

5.4. 实现细节

CL-VAE 配置: 采用4级码本 (4-level codebook)，每个级别的大小为2048。
文本嵌入: 使用 NV-Embed-v2 (Lee et al., 2024) 模型将非结构化文本转换为密集的、语义丰富的嵌入。
RecBase 模型架构: 共享 Qwen2 (Yang et al., 2024) 架构的关键设置。
- RecBasebase (Base 版本):
  - 隐层维度 (hidden size): 1024
  - 中间维度 (intermediate size): 2816
  - 注意力头数 (attention heads): 16
  - 层数 (layers): 24
  - 最大位置嵌入长度 (maximum position embedding length): 32,768
- RecBaselarge (Large 版本):
  - 隐层维度 (hidden size): 1536
  - 中间维度 (intermediate size): 8960
  - 注意力头数 (attention heads): 12
  - 层数 (layers): 28
  - 位置嵌入长度和滑动窗口 (sliding window) 扩展到 131,072，增强处理长序列的能力。
词汇表大小 (Vocabulary Size): 两个版本均使用 20,000 的词汇表大小。

6. 实验结果与分析

6.1. 核心结果分析

6.1.1. 零样本推荐性能 (Zero-Shot Recommendation Performance)

以下是原文 Table 1 中展示的零样本推荐在多领域数据集上的评估结果 (AUC 值)：

	Size(M)	MIND	MovieLens	MicroLens	Goodreads	Yelp	Steam	H&M	HotelRec	Overall
P5	223	0.4911	0.5138	0.5017	0.5027	0.5080	0.5296	0.4845	0.4905	0.5027
RecGPT	6,649	0.5078	0.5069	0.4703	0.5083	0.5140	0.4924	0.4875	0.4937	0.4976
BERTbase	110	0.4963	0.4934	0.4992	0.4958	0.4914	0.5002	0.5204	0.4955	0.4990
OPTbase	331	0.5490	0.5104	0.4773	0.5015	0.5158	0.4257	0.4555	0.5028	0.4922
OPTlarge	1,316	0.5338	0.5174	0.5236	0.5042	0.5026	0.3825	0.5650	0.5026	0.5039
Qwen-2	494	0.4886	0.5138	0.5701	0.5148	0.5077	0.6399	0.6287	0.5311	0.5493
Phi-2	2,780	0.4851	0.5296	0.5078	0.5049	0.5186	0.6061	0.5447	0.4986	0.5244
Llama-2	6,738	0.4945	0.6030	0.4877	0.5273	0.5378	0.5622	0.4519	0.5305	0.5243
Llama-3	8,030	0.4904	0.6412	0.5577	0.5191	0.5267	0.7690	0.5454	0.5342	0.5729
Mistral	7,248	0.4833	0.6933	0.559	0.5321	0.5313	0.8102	0.5762	0.5677	0.5941
Deepseek-Qwen2	7,615	0.5117	0.5407	0.563	0.5165	0.5303	0.5905	0.5994	0.5648	0.5520
GPT-3.5	-	0.5057	0.5170	0.5110	0.5122	0.5039	0.6184	0.5801	0.5076	0.5319
RecBasebase	313	0.5508	0.5352	0.5401	0.5029	0.5320	0.7450	0.5870	0.4874	0.5601
RecBaselarge	1,318	0.5442	0.6474	0.5712	0.5329	0.5326	0.8343	0.6761	0.5124	0.6063

分析：

RecBase 的优越性: RecBaselarge (1.5B 参数) 取得了0.6063的总体 (Overall) AUC，超越了所有 LLM 基线，包括参数量高达7B的 Mistral (0.5941) 和 Llama-3 (0.5729)，以及 GPT-3.5 (0.5319)。这有力证明了其面向推荐的预训练策略在零样本和跨领域泛化方面的有效性。
在特定数据集上的显著提升: RecBase 在 H&M (0.6761 vs. Qwen-2 0.6287) 和 Steam (0.8343 vs. Mistral 0.8102) 数据集上取得了尤其显著的提升，再次强调了其强大的泛化能力。
效率与性能的平衡: RecBasebase (313M 参数) 虽然参数量远小于多数 LLM，但其总体 AUC 达到了0.5601，甚至优于 BERTbase (0.4990) 和 OPTbase (0.4922) 等模型，展现了在较低计算成本下提供竞争性结果的能力。
LLM 基线的局限: 多数 LLM 基线模型在零样本推荐任务中的表现并不理想，总体 AUC 普遍低于 RecBase。这印证了论文最初的假设：语言中心预训练与推荐任务存在根本性不匹配。

6.1.2. 统一表示性能 (Unified Representation Performance)

通过深入分析，验证了 CL-VAE 方法生成的统一概念空间 (unified concept space) 的有效性。

码本分布优化: CL-VAE 旨在将输入数据分布尽可能均匀地映射到潜在空间 (latent space)，最大化每个词元 (token) 的利用率。
t-SNE 聚类可视化: 如上文 Figure 2 所示，传统的 RQ-VAE 方法导致来自不同领域的特征在潜在空间中独立分布，相互作用最小。相比之下，CL-VAE 方法显著改善了这一点，表现为不同数据集的特征在统一概念空间中增加了重叠和交互，表明其实现了更好的跨领域语义对齐。
码本使用频率: 如下图 (原文 Figure 5c) 所示，CL-VAE 方法在不同层级上不仅实现了更均衡的 ID 分布，还确保了码本分层结构的有效利用。这种分层方法使模型能够捕获细粒度 (fine-grained) 和粗粒度 (coarse-grained) 特征，从而增强了其在各种推荐场景中的泛化能力。通过建立统一且分布良好的概念空间，CL-VAE 促进了自回归模型进行更高效、更准确的预测，最终提高了推荐系统的整体性能。

该图像是图表，展示了不同编码大小和编码级别下的碰撞率与利用率。在（a）部分，随着编码大小的增加，碰撞率逐渐下降且利用率保持稳定；在（b）部分，编码级别的变化对碰撞率的影响更加显著。底部图表显示了不同编码ID下的频率分布情况。

VLM 描述: 该图像是图表，展示了不同编码大小和编码级别下的碰撞率与利用率。在（a）部分，随着编码大小的增加，碰撞率逐渐下降且利用率保持稳定；在（b）部分，编码级别的变化对碰撞率的影响更加显著。底部图表显示了不同编码ID下的频率分布情况。

6.2. 消融实验/参数分析

6.2.1. 关键组件的消融分析 (Ablation Analysis on Key Components)

以下是原文 Table 4 中展示的模块化消融研究结果。format., init., cur. 分别代表格式化文本描述 (formatted text description)、重新初始化 (reinitialization) 和课程学习 (curriculum learning) 在 CL-VAE 中的作用。

	Yelp	Steam	H&M	HotelRec	Overall
RecBasebase	0.5320	0.7450	0.5870	0.4874	0.5879
w/o format.	0.5204	0.7187	0.5668	0.4966	0.5756
w/o init.	0.4912	0.5924	0.5319	0.4909	0.5266
w/o cur.	0.5073	0.6815	0.5412	0.4815	0.5529

分析：

RecBasebase 整体方法表现最佳，证实了完整方法的有效性。
移除格式化文本描述 (w/o format.): 性能有明显下降 (Overall 从0.5879降至0.5756)。这表明结构化的文本表示在增强模型捕获相关特征方面至关重要。
移除重新初始化步骤 (w/o init.): 导致性能大幅下降 (Overall 降至0.5266)。这表明初始化机制对于稳定学习和改善收敛至关重要，它能有效缓解码本崩溃问题。
移除课程学习模块 (w/o cur.): 性能进一步下降 (Overall 降至0.5529)，尤其是在更复杂的推荐场景中。这强调了逐步训练模型处理日益复杂任务的价值。

6.2.2. 码本的消融研究 (Ablation Study on the Codebook)

这部分分析了 CL-VAE 模块中多级码本的大小和级别数量。

码本大小 (Codebook Size): 如上图 (原文 Figure 5a) 所示，随着码本大小的增加，从码本获得的概念 ID 之间的冲突率 (collision rate) 持续下降，表明增大码本有利于表示的优化。然而，当大小达到一定规模（如图中4096）时，利用率 (utilization rate) 开始下降，导致词汇空间冗余浪费。因此，模型为每层选择了大小为2048的码本。
码本级别数量 (Number of Levels): 随着级别数量的增加，概念 ID 可以表示的产品数量呈指数增长。然而，如上图 (原文 Figure 5b) 所示，超过四层后，ID 的利用率变得非常低，并且增加层数带来的收益开始趋于平稳，同时在解码过程中会产生额外的推理成本。因此，模型采用了四层的策略，以优化性能和效率之间的平衡。

6.3. 域内适应性：通过微调 (In-Domain Adaptation via Fine-Tuning)

以下是原文 Table 3 中展示的模型在零样本和微调设置下在不同数据集上的性能。

	Microlens	Steam	MovieLens	H&M	Yelp
Zero-shot	0.5401	0.7450	0.5352	0.5870	0.5320
Fine-tuned	0.5602	0.9173	0.6216	0.6261	0.6125
Improve. (%)	3.70%	23.12%	16.14%	6.66%	15.13%

分析：

微调的有效性: 微调 (Fine-tuning) 始终能提升模型在零样本设置下的性能，尤其在 Steam (+0.1723) 和 MovieLens (+0.0864) 数据集上取得了显著的增益。这表明领域特定适应 (domain-specific adaptation) 对模型性能的提升是有效的。
普遍提升: 即使在提升较小的数据集上，如 Microlens (+0.0201) 和 Yelp (+0.0805)，微调也带来了性能收益。
模型适应性: 如下图 (原文 Figure 3) 所示，微调过程通过域内适应来精炼模型的表示。这些结果证明了 RecBase 模型具有良好的适应性和在域内监督下进一步增强性能的潜力。

该图像是示意图，展示了RecBase模型的零-shot转移和领域特定微调过程。图中指出了训练、预训练与微调步骤，以及在零-shot和领域内测试中的模型应用。

VLM 描述: 该图像是示意图，展示了RecBase模型的零-shot转移和领域特定微调过程。图中指出了训练、预训练与微调步骤，以及在零-shot和领域内测试中的模型应用。

6.4. 推理效率分析 (Analysis of Inference Efficiency)

以下是原文 Figure 6 中展示的推理延迟对比。

Figure 6: Comparison of Inference Latency. 该图像是图表，展示了在20,000个交互测试数据上的推理时间比较。RecBase-0.3B和RecBase-1.5B模型的推理时间分别为295秒和390秒，相比之下，其他模型如GpdRec-7B和Miatr-1B的推理时间较长，分别为774秒和946秒。

VLM 描述: 该图像是图表，展示了在20,000个交互测试数据上的推理时间比较。RecBase-0.3B和RecBase-1.5B模型的推理时间分别为295秒和390秒，相比之下，其他模型如GpdRec-7B和Miatr-1B的推理时间较长，分别为774秒和946秒。

分析：

RecBase 模型在推理效率方面表现出优越性。在20,000个交互测试数据上，RecBase-0.3B 的推理延迟约为295秒，RecBase-1.5B 约为390秒。
相比之下，其他一些最先进的模型，如 Qwen2、phi、GptRec-7B 和 Mistral-1B，显示出更长的推理延迟（例如 GptRec-7B 约774秒，Mistral-1B 约946秒）。
原因: 这种显著的效率提升归因于 RecBase 专门为推荐任务设计的特殊 ID 词汇空间 (specialized ID vocabulary space)。与依赖于自然语言表示的庞大词汇空间的通用大语言模型不同，RecBase 利用一个更小、更高效的词汇表，该词汇表专为推荐系统需求定制。这种设计选择不仅提升了模型的效率，也使其成为更适合推荐相关任务的基础模型。

7. 总结与思考

7.1. 结论总结

本文引入了 RecBase，一个为零样本和多领域推荐挑战量身定制的基础模型。通过在包含结构化文本表示和统一特征映射的大规模跨领域语料库上进行预训练，RecBase 在异构推荐任务中展现出强大的泛化能力。

统一概念 ID 空间: 结合课程学习 (curriculum learning) 和离散表示 (discrete representations)，促进了统一概念 ID 空间 (unified concept ID space) 的构建，从而弥合了领域间的语义差异。
自回归训练范式: 自回归训练范式使模型能够有效捕捉项目间的依赖关系 (inter-item dependencies)，在零样本和跨领域性能上超越了传统的大语言模型。
实验验证: 在八个真实世界数据集上的全面评估证实了该方法的有效性，尤其在冷启动 (cold-start) 场景中表现突出。 RecBase 的研究结果强调了面向推荐的预训练 (recommendation-oriented pretraining) 作为构建鲁棒且适应性强的推荐系统的潜在方向。

7.2. 局限性与未来工作

尽管 RecBase 在零样本和多领域场景中表现出色，但该模型仍存在一些源于推荐数据本身的局限性：

数据稀疏性 (Data Sparsity) 与分布不平衡 (Distribution Imbalance): 这些问题会损害模型的泛化能力，尤其对于冷启动用户 (cold-start users) 和长尾项目 (long-tail items)。尽管跨领域预训练部分缓解了这个问题，模型仍可能低估某些领域或交互稀疏的项目。
训练数据中的偏差 (Biases in Training Data): 训练数据中固有的偏差可能会限制模型向新领域或多样化用户群体的泛化能力。

未来的工作应探索以下方向：
数据增强 (Data Augmentation): 引入数据增强技术以缓解数据稀疏性问题。
主动学习 (Active Learning): 利用主动学习策略来更有效地选择有价值的样本进行训练，以解决数据不平衡问题。
偏差缓解策略 (Bias Mitigation Strategies): 开发并应用偏差缓解策略，以提高模型对新领域和多样化用户群体的公平性和泛化能力。
更大、更异构的基准测试 (Larger, More Heterogeneous Benchmarks): 在更大、更多样化的基准数据集上评估模型，以增强其可扩展性和真实世界鲁棒性。

7.3. 个人启发与批判

7.3.1. 个人启发

RecBase 提出了一种引人深思的范式转变，即从“将推荐任务适应 LLM”到“为推荐任务构建基础模型”。这种转变强调了领域特定预训练的重要性，而非简单地复用通用 LLM。其核心思想——通过学习离散、分层的概念 ID 空间来统一跨领域项目语义，是解决推荐系统中跨领域泛化和冷启动问题的强大途径。这表明，对于某些高度专业化的领域，通用大模型的知识可能不足以支撑其核心任务，需要更精细、更专注于领域本身的知识构建。

此外，CL-VAE 中结合课程学习来缓解码本崩溃和逐步学习分层特征的方法，对于其他需要学习离散表示的场景也具有普适性。推理效率的显著提升也揭示了在模型设计中，针对特定任务定制词汇表空间，是实现高性能和高效率的关键。这种设计思路可以启发我们在其他垂直领域构建高效的基础模型。

7.3.2. 批判与潜在改进

文本模态的局限性: 论文为了公平比较，将所有多模态数据集（如 PixelRec、Clothing）的数据输入标准化为文本模态，并丢弃了其他模态信息。尽管这简化了实验，但实际上忽略了图像、视频等丰富模态对推荐任务的重要性。未来的工作应探索如何将离散化的多模态特征（而不仅仅是文本特征）整合到统一的概念 ID 框架中。这可能需要更复杂的编码器和量化策略来处理不同模态的信息。
概念 ID 的可解释性: 虽然分层概念 ID 能够有效编码项目语义，但其内在的可解释性如何？这些概念 ID 是否对应于人类可理解的类别、属性或潜在兴趣点？如果能通过可视化或分析将概念 ID 与实际语义关联起来，将有助于提高模型的可信度和调试能力。
用户建模的深度: 论文主要侧重于项目表示和项目序列的自回归建模。虽然这已经取得了显著成果，但用户本身的复杂特征（如人口统计信息、兴趣偏好演变、社交关系等）是否能通过更丰富的方式融入到 RecBase 框架中？例如，可以考虑在自回归模型中引入用户级别的个性化偏置或注意力机制。
冷启动用户的挑战: 论文提到数据稀疏性和冷启动用户是局限性之一。虽然跨领域泛化有助于缓解，但对于那些几乎没有交互历史的新用户，仅仅依靠项目级别的概念 ID 可能仍然不足。如何有效利用用户侧的零散信息（如注册信息、少量点击行为）来构建初始用户表示，并与 RecBase 的项目概念 ID 结合，是值得深入研究的方向。
负样本的隐式处理: RecBase 的自回归训练是基于正向交互序列进行的，没有显式地进行负样本采样。虽然这符合真实行为模式，但在某些场景下，显式负样本（或硬负样本）的引入可能会进一步提升模型对“不喜欢”项目的区分能力，尤其是在推荐排名任务中。未来的工作可以探索如何在保持自回归特性的同时，巧妙地引入负样本信息。

相似论文推荐

基于向量语义检索推荐的相关论文。

暂时没有找到相似论文。