From IDs to Semantics: A Generative Framework for Cross-Domain Recommendation with Adaptive Semantic Tokenization
TL;DR 精炼摘要
本文提出了一种新颖的生成式跨域推荐框架GenCDR,针对传统方法依赖共享用户/物品ID的局限,利用领域自适应词元化模块生成解耦的语义ID,并通过跨域自回归推荐模块建模用户兴趣。在多个真实世界的数据集上,GenCDR显著优于现有基线,提升了推荐准确性与泛化能力。
摘要
Cross-domain recommendation (CDR) is crucial for improving recommendation accuracy and generalization, yet traditional methods are often hindered by the reliance on shared user/item IDs, which are unavailable in most real-world scenarios. Consequently, many efforts have focused on learning disentangled representations through multi-domain joint training to bridge the domain gaps. Recent Large Language Model (LLM)-based approaches show promise, they still face critical challenges, including: (1) the \textbf{item ID tokenization dilemma}, which leads to vocabulary explosion and fails to capture high-order collaborative knowledge; and (2) \textbf{insufficient domain-specific modeling} for the complex evolution of user interests and item semantics. To address these limitations, we propose \textbf{GenCDR}, a novel \textbf{Gen}erative \textbf{C}ross-\textbf{D}omain \textbf{R}ecommendation framework. GenCDR first employs a \textbf{Domain-adaptive Tokenization} module, which generates disentangled semantic IDs for items by dynamically routing between a universal encoder and domain-specific adapters. Symmetrically, a \textbf{Cross-domain Autoregressive Recommendation} module models user preferences by fusing universal and domain-specific interests. Finally, a \textbf{Domain-aware Prefix-tree} enables efficient and accurate generation. Extensive experiments on multiple real-world datasets demonstrate that GenCDR significantly outperforms state-of-the-art baselines. Our code is available in the supplementary materials.
思维导图
论文精读
中文精读
1. 论文基本信息
1.1. 标题
从 ID 到语义:一种基于自适应语义词元化 (Adaptive Semantic Tokenization) 的跨域推荐 (Cross-Domain Recommendation) 生成式框架 (Generative Framework)。
1.2. 作者
作者列表: Peiyu Hu, Wayne Lu, Jia Wang 所属机构:
- 西安交通利物浦大学 (Xi'an Jiaotong-Liverpool University), 苏州,中国
- 利物浦大学 (University of Liverpool), 利物浦,英国
1.3. 发表期刊/会议
论文以预印本 (arXiv preprint) 形式发布,未提及具体期刊或会议。arXiv 是一个广受学术界认可的预印本平台,其上的论文通常在同行评审 (peer review) 前发布,以供学术交流。
1.4. 发表年份
2025 年 11 月 11 日 (根据 Published at (UTC):2025-11-11T00:00:00.000Z 判断)。
1.5. 摘要
跨域推荐 (CDR) 对于提高推荐准确性和泛化能力至关重要,但传统方法常受限于对共享用户/物品 ID (user/item IDs) 的依赖,而这些 ID 在多数实际场景中不可用。因此,许多研究致力于通过多域联合训练 (multi-domain joint training) 学习解耦表示 (disentangled representations) 以弥合领域差距。最近基于大型语言模型 (Large Language Model, LLM) 的方法展现出潜力,但它们仍面临关键挑战,包括:(1) item ID tokenization dilemma(物品 ID 词元化困境),这会导致词汇爆炸 (vocabulary explosion) 并无法捕捉高阶协同知识 (high-order collaborative knowledge);以及 (2) 对用户兴趣演变和物品语义 (item semantics) 的复杂性进行领域特定建模 (domain-specific modeling) 不足。为解决这些局限性,本文提出了 GenCDR,一个新颖的生成式跨域推荐框架。GenCDR 首先采用一个领域自适应词元化 (Domain-adaptive Tokenization) 模块,通过在通用编码器 (universal encoder) 和领域特定适配器 (domain-specific adapters) 之间动态路由 (dynamically routing) 为物品生成解耦的语义 ID (semantic IDs)。对称地,一个跨域自回归推荐 (Cross-domain Autoregressive Recommendation) 模块通过融合通用和领域特定兴趣来建模用户偏好。最后,一个领域感知前缀树 (Domain-aware Prefix-tree) 实现了高效且准确的生成。在多个真实世界数据集上的广泛实验表明,GenCDR 显著优于最先进的基线 (state-of-the-art baselines)。
1.6. 原文链接
https://arxiv.org/abs/2511.08006v1
1.7. PDF 链接
https://arxiv.org/pdf/2511.08006.pdf
2. 整体概括
2.1. 研究背景与动机
论文试图解决的核心问题: 传统的跨域推荐 (CDR) 方法严重依赖于不同领域间共享的用户或物品 ID 来进行知识迁移。然而,在许多实际场景中(例如在线内容平台与线下服务),这些共享 ID 往往不存在,这成为了传统基于 ID 方法的显著瓶颈。尽管近期基于大型语言模型 (LLM) 的推荐方法展现出潜力,但它们在处理 CDR 任务时仍面临两大挑战:
- 物品 ID 词元化困境 (Item ID Tokenization Dilemma): 传统的物品索引方式不适用于 LLM 在多领域场景下的应用,这会导致词汇表爆炸,并且难以捕捉物品之间的高阶协同知识。
- 领域个性化不足 (Insufficient Domain-specific Modeling): 现有方法难以有效解耦和建模用户兴趣以及物品语义在通用性与领域特定性之间的复杂动态演变。例如,同一词汇“Apple”在科技领域(Apple Watch)和生活方式领域(新鲜苹果)具有共享语义,但也拥有截然不同的领域特定属性。
为什么这个问题在当前领域是重要的: 推荐系统已成为现代在线服务不可或缺的工具。用户在多个异构领域中的互动日益频繁,有效利用这些跨域行为数据对提高推荐准确性和泛化能力至关重要。当前方法的局限性阻碍了 CDR 在真实世界、非 ID 对齐场景中的广泛应用,限制了用户体验的提升和商业价值的挖掘。
这篇论文的切入点或创新思路:
GenCDR 的核心洞察在于:原始语义信息(如文本描述)本身是可跨领域迁移的,而物品 ID 则不是。受单域推荐中生成式模型成功的启发,GenCDR 引入了离散语义 ID (Discrete Semantic IDs, SIDs) 的概念来直接解决物品词元化困境。此外,为了解决领域个性化不足的问题,GenCDR 设计了两个核心模块:领域自适应词元化 (Domain-adaptive Tokenization) 模块和跨域自回归推荐 (Cross-Domain Autoregressive Recommendation) 模块,旨在系统地解耦并动态融合物品和用户层面上的通用与领域特定知识。
2.2. 核心贡献/主要发现
本文的贡献总结如下:
- 首次将生成式语义 ID 范式引入 LLM-based 跨域推荐 (LLM-based Cross-Domain Recommendation): 提出了一个新颖的生成式跨域推荐框架
GenCDR,有效解决了长期存在的物品词元化困境。 - 设计领域自适应词元化模块 (Domain-adaptive Tokenization Module): 该模块能够动态解耦并精确建模语义层面上的通用知识和物品维度 (item-wise) 的领域特定知识。
- 设计对称协作式跨域自回归推荐模块 (Cross-Domain Autoregressive Recommendation Module): 该模块在推荐过程中有效解耦并融合了通用兴趣和用户维度 (user-wise) 的领域特定兴趣。
- 提出领域感知前缀树解码策略 (Domain-aware Prefix-tree based Decoding Strategy): 该策略确保了跨域场景中高效且准确的生成。
- 实验验证: 在多个真实世界跨域数据集上的大量实验证明,
GenCDR在准确性和泛化能力方面显著优于现有的最先进方法。
3. 预备知识与相关工作
3.1. 基础概念
为了理解 GenCDR 框架,读者需要掌握以下几个基础概念:
3.1.1. 跨域推荐 (Cross-Domain Recommendation, CDR)
概念定义: 跨域推荐是指通过利用用户在一个或多个源域 (source domain) 中的行为数据来改进其在目标域 (target domain) 中的推荐效果。其核心思想是,用户的兴趣和偏好可能在不同领域之间存在一定的关联或相似性,通过知识迁移 (knowledge transfer) 可以缓解数据稀疏性 (data sparsity) 或冷启动 (cold-start) 问题。 在本文中的关注点: 本文关注的是在没有共享用户/物品 ID 的情况下,如何通过语义信息实现跨域知识迁移,并处理用户兴趣和物品语义的领域特异性。
3.1.2. 生成式推荐 (Generative Recommendation)
概念定义: 传统的推荐系统通常被视为一个排名 (ranking) 问题,即预测用户对物品的评分或点击概率,然后对物品进行排序。生成式推荐则将推荐任务重新定义为序列生成问题,通常使用类似自然语言处理 (Natural Language Processing, NLP) 中的模型(如 Transformer)来生成用户可能感兴趣的物品序列或物品的语义 ID。
在本文中的关注点: GenCDR 采用生成式范式,通过生成离散的语义 ID 来预测用户下一个可能互动的物品,从而解决了传统推荐系统中物品 ID 词元化 (tokenization) 的问题。
3.1.3. 大型语言模型 (Large Language Model, LLM)
概念定义: LLM 是指拥有大量参数、在海量文本数据上进行预训练 (pre-trained) 的深度学习模型。它们具有强大的语义理解、文本生成和少样本学习 (few-shot learning) 能力,能够处理各种自然语言任务。
在本文中的关注点: GenCDR 利用 LLM 作为推荐系统的核心骨干,通过其强大的序列建模能力来理解用户行为序列和生成语义 ID。
3.1.4. 词元化 (Tokenization) 与语义 ID (Semantic ID, SID)
概念定义:
- 词元化: 在 NLP 中,
tokenization是将文本分解为更小的单元(token,如单词、子词或字符)的过程。在推荐系统中,item ID tokenization dilemma指的是将物品映射为离散 ID 的传统方式,在多域或大规模场景下可能导致 ID 数量爆炸,且无法捕捉物品本身的语义信息。 - 语义 ID (SID):
semantic ID是指那些能够携带物品语义信息的离散标识符。与传统的无语义信息的物品 ID 不同,semantic ID的相似性可以反映物品间的语义相似性,从而更自然地融入 LLM 的序列生成框架。 在本文中的关注点:GenCDR的核心创新之一就是通过Domain-adaptive Tokenization模块为物品生成具有语义信息的离散 ID 序列,解决了传统 ID 的局限性。
3.1.5. 解耦表示 (Disentangled Representations)
概念定义: disentangled representations 指的是将数据中的不同独立变化因子(例如,人脸图像中的姿态、光照、表情等)分别映射到表示空间中不同的、独立的维度上。在推荐系统中,这意味着将用户兴趣或物品属性中不同方面的知识(如通用兴趣和领域特定兴趣)分离表示。
在本文中的关注点: GenCDR 旨在解耦用户兴趣和物品语义中的通用 (universal) 和领域特定 (domain-specific) 成分,以更细致地进行建模和融合。
3.1.6. 低秩适应 (Low-Rank Adaptation, LoRA)
概念定义: LoRA 是一种参数高效微调 (Parameter-Efficient Fine-Tuning, PEFT) 技术,用于适应大型预训练模型到特定下游任务。它通过在预训练模型的特定层中注入低秩矩阵对 (low-rank matrices) 和 来修改模型权重。在训练时,只有这些低秩矩阵的参数被更新,而原始的预训练权重被冻结。这大大减少了可训练参数的数量,从而降低了计算成本和内存需求。
在本文中的关注点: GenCDR 广泛使用 LoRA 来实现领域特定适配器 (domain-specific adapters) 和通用/领域特定兴趣模型的构建,以高效地在大模型上进行微调。
3.1.7. 残差量化变分自编码器 (Residual-Quantized Variational Autoencoder, RQ-VAE)
概念定义: RQ-VAE 是一种用于学习离散表示的生成模型。它扩展了 VQ-VAE (Vector Quantized Variational Autoencoder),通过引入残差量化 (residual quantization) 机制,可以生成多层次的离散代码序列来更精确地表示输入。编码器将输入映射到连续潜在空间,然后通过多级量化器将其转换为离散代码。解码器则从这些离散代码重构原始输入。
在本文中的关注点: GenCDR 利用 RQ-VAE 来实现 Domain-Universal Semantic Token Generation,将物品的特征嵌入转换为具有语义信息的离散代码序列。
3.1.8. 自回归模型 (Autoregressive Model)
概念定义: Autoregressive model 是一种序列模型,其核心思想是预测序列中的下一个元素,基于该元素之前的所有元素。例如,在文本生成中,模型会一个词一个词地生成句子,每个词的生成都依赖于它前面已生成的词。Transformer 模型的解码器部分通常以自回归方式工作。
在本文中的关注点: GenCDR 中的 Cross-domain Autoregressive Recommendation 模块就是通过自回归方式,根据用户历史互动序列来预测下一个物品的语义 ID。
3.2. 前人工作
论文将相关工作分为三类:
3.2.1. 跨域序列推荐 (Cross-Domain Sequential Recommendation)
概念: 旨在通过利用用户在不同领域中的多元互动序列来建模其不断演变的兴趣,并进行知识迁移。
传统方法: 多数方法依赖共享物品 ID,使用门控机制 (gating mechanisms)、注意力模块 (attention modules) 或图神经网络 (Graph Neural Networks, GNNs) 来融合和迁移知识,并常结合对比学习 (contrastive learning) 来增强表示。
代表工作: Kang and McAuley (2018)、Lu and Yin (2025)、、、Li and Lu (2024)、、、。
局限性: 尽管近期开始结合预训练语言模型 (pre-trained language models) 的特征来纳入语义信息 (e.g., Liu et al. 2025c; Li et al. 2022),但如何将这些语义有效整合到统一的生成式框架中,并显式解耦共享和领域特定知识,仍然是一个开放挑战。
3.2.2. 生成式推荐 (Generative Recommendation)
概念: 将推荐任务重构为自回归序列生成问题,其中基于 Transformer 的模型预测语义物品 ID 序列。
物品词元化方法: 关键研究领域在于如何构建这些 semantic item IDs。主要方法包括:
- 基于内容的词元化: 通过向量量化 (vector quantization) 实现 (e.g.,
Li et al. 2025a,如RQ-VAE)。 - 结构感知方法: 使用层次聚类 (hierarchical clustering) (
Si et al. 2024)。 - 嵌入协同信号: 将协同信号直接嵌入到词元化过程中 (
Mo et al. 2024)。 局限性: 这些技术几乎都是为单域数据集开发的 (e.g.,Zheng et al. 2025),它们在复杂的多域环境中的应用仍是一个未解决的研究问题。
3.2.3. 大型语言模型在推荐中的应用 (Large Language Models for Recommendation)
概念: LLMs 被整合到推荐系统中有两种主要方式。
- 辅助组件: 作为辅助组件,通过提供丰富的语义特征或数据增强来增强传统模型 (e.g.,
Sun et al. 2024; Yin et al. 2025; Zhang ets al. 2025a; Yuan et al. 2025)。 - 核心生成引擎: 作为核心生成引擎,将推荐任务重新定义为自回归预测物品 ID (e.g.,
Rajput et al. 2023; Zheng et al. 2024; Lin et al. 2024)。 微调技术: 通常需要对 LLM 进行微调,常用参数高效微调 (PEFT) 技术,如 LoRA (e.g.,Hu et al. 2022; Bao et al. 2023; Liu et al. 2025a; Zhang et al. 2023)。 局限性: 现有工作主要集中在单域应用,如何有效进行知识迁移和在异构领域间进行表示学习的挑战在很大程度上尚未解决。
3.3. 技术演进
从传统的基于 ID 的协同过滤 (collaborative filtering) 和矩阵分解 (matrix factorization) 方法,到基于序列建模的深度学习方法(如 Transformer),再到利用预训练语言模型进行语义增强。CDR 领域也从早期依赖共享用户/物品 ID 的方法,逐步发展到尝试通过解耦表示、对比学习等手段实现无共享 ID 的知识迁移。近期 LLM 的兴起为推荐系统带来了新的范式,特别是将推荐视为序列生成问题。然而,LLM 在 CDR 中仍面临物品词元化和领域个性化不足的问题。GenCDR 正是在此背景下,尝试弥合生成式推荐和跨域推荐的差距,特别是通过引入语义 ID 和自适应的通用/领域特定建模,以期在 LLM 时代实现更有效的 CDR。
3.4. 差异化分析
GenCDR 与现有工作的主要区别和创新点在于:
- 语义 ID 范式在 CDR 中的首次应用: 现有生成式推荐虽然使用了语义 ID,但主要限于单域。
GenCDR首次将生成式语义 ID 范式引入跨域推荐,并解决了传统物品 ID 的局限性。 - 端到端的通用与领域特定知识解耦:
GenCDR不仅在物品层面(Domain-adaptive Tokenization模块)解耦通用语义和领域特定语义,还在用户兴趣层面(Cross-Domain Autoregressive Recommendation模块)解耦通用兴趣和领域特定兴趣,并通过动态路由 (dynamic routing) 实现两者之间的自适应融合。这比现有 CDR 方法中简单的特征增强或统一模型更精细。 - 参数高效性与可扩展性: 通过广泛采用
LoRA技术,GenCDR实现了在大规模 LLM 骨干上的参数高效微调,同时通过Domain-aware Prefix-tree确保了推理阶段的效率和生成结果的有效性,解决了 LLM 推荐中常见的效率问题。 - 无共享 ID 依赖: 明确提出并解决了 CDR 中不依赖共享用户/物品 ID 的核心挑战,使其更适用于真实世界的复杂场景。
4. 方法论
为了解决跨域推荐中物品词元化和领域个性化这两大关键挑战,本文提出了 GenCDR,一个新颖的生成式框架。GenCDR 框架由三个核心模块组成:领域自适应词元化 (Domain-adaptive Tokenization) 模块、跨域自回归推荐 (Cross-Domain Autoregressive Recommendation) 模块,以及用于高效推理的领域感知前缀树 (Domain-aware Prefix-tree)。
4.1. 方法原理
GenCDR 的核心思想是利用生成式模型和语义 ID 来克服传统 CDR 对共享 ID 的依赖和 LLM 在多领域应用中的挑战。它通过以下方式实现:
- 语义 ID 生成: 不再使用传统的物品 ID,而是为每个物品生成一个具有语义信息的离散 ID 序列(
semantic IDs)。这些semantic IDs能够捕捉物品的通用语义和领域特定属性。 - 通用与领域知识解耦与融合: 在物品层面,通过
Domain-adaptive Tokenization模块动态平衡通用语义和领域特定语义。在用户兴趣层面,通过Cross-Domain Autoregressive Recommendation模块融合用户的通用兴趣和领域特定兴趣。 - 生成式推荐: 将推荐任务转化为预测下一个
semantic ID序列的自回归生成问题,利用 LLM 的强大序列建模能力。 - 高效推理: 引入
Domain-aware Prefix-tree来指导生成过程,确保生成的semantic IDs是有效且高效的。
4.2. 核心方法详解
4.2.1. 领域自适应词元化 (Domain-adaptive Tokenization)
该模块旨在为来自不同领域的物品生成统一的语义 ID (SIDs),以平衡领域无关的通用语义和领域特定的判别性特征,从而为生成式推荐任务提供富有表达力的表示。SIDs 被设计为具有两个关键属性:(i) 语义丰富性:捕捉全面的物品语义;(ii) 语义相似性:确保跨领域相似的物品具有可比较的 ID。
4.2.1.1. 领域通用语义词元生成 (Domain-Universal Semantic Token Generation)
为了建立统一的语义基础以进行知识迁移,本文提出了一个基于残差量化变分自编码器 (Residual-Quantized Variational Autoencoder, RQ-VAE) 框架 (Lee et al. 2022) 的通用离散语义编码器 (Universal Discrete Semantic Encoder)。
RQ-VAE 由一个编码器 、一个解码器 和 个码本 (codebooks) 组成。它在所有物品的文本特征上进行预训练。
该模型将物品的特征嵌入 转换为离散代码序列 。
编码和量化过程:
- 模型将 编码为潜在表示 。
- 初始残差设置为 。
- 对于每个级别 到
M-1:- 被量化为码本 中最近的码本向量 。
- 下一个残差是 。
- 量化后的表示 被解码为 。
模型优化: 模型通过一个联合目标函数进行优化。
- 标准重构损失 (Standard Reconstruction Loss):
- :原始物品特征嵌入。
- :解码器从量化表示中重构的物品特征嵌入。
- :L2 范数平方,衡量原始嵌入与重构嵌入之间的差异。
- 量化损失 (Quantization Loss): 确保编码器的输出与码本向量对齐,使用承诺项 (commitment terms) (
Van Den Oord, Vinyals et al. 2017):- :
stop-gradient操作,表示在反向传播时将该项视为常数。 - :第 级的残差。
- :第 级码本中与 最接近的码本向量。
- :一个超参数,用于平衡两个承诺项的权重。
- 第一个项:确保编码器输出 能够接近选择的码本向量 。
- 第二个项:鼓励码本向量 能够学习到编码器输出 的信息,从而更新码本。
- :
- 掩码词元建模损失 (Masked Token Modeling, MTM Loss): 进一步确保代码的上下文连贯性,通过预测被掩码 (masked) 的代码 来训练模型,给定其周围的上下文 :
- :物品特征的分布。
- :被掩码的词元索引集合。
- :模型在给定上下文 时预测被掩码词元 的概率,由上下文模型 参数化。
- 该损失鼓励模型学习代码序列的语义和语法结构,使其不仅仅是简单的重构,而是能够捕捉上下文关系。
总预训练损失:
- :超参数,用于平衡不同损失项的权重。 该损失指导模型学习既具代表性又上下文感知的通用语义词元。预训练完成后,通用编码器和码本被冻结 (frozen)。
4.2.1.2. 领域特定语义词元适配器 (Domain-specific Semantic Token Adapters)
虽然通用编码器建立了领域无关的语义基础,但它可能无法完全捕捉领域特定的判别性特征。为此,本文引入了领域特定语义适配器来以参数高效的方式改进通用表示,增强其对每个领域的关联性。
本文利用低秩适应 (Low-Rank Adaptation, LoRA) (Hu et al. 2022) 来实现这一点。
LoRA 模块:
- 对于每个领域 ,引入一个轻量级的 LoRA 模块,包括低秩矩阵 和 。
- 其中 ,即 远小于输入维度 和输出维度 。
- 这些矩阵增强了通用编码器 中被冻结的权重 ,修改了前向传播过程:
- :输入到权重矩阵 的特征。
- :原始通用编码器的输出。
- :LoRA 模块引入的低秩更新。LoRA 模块的输出 经过 映射后与原始输出相加。
- :LoRA 适配后的输出。
- 将适配后的编码器表示为 ,其可训练参数为 。 微调过程:
- 在第二个训练阶段,对每个领域 的 进行微调。
- 对于来自领域 的每个物品嵌入 ,最小化一个自监督重构损失:
- :领域 的物品特征分布。
- :量化操作,将连续潜在表示转换为离散代码。
- :解码器,从离散代码重构物品嵌入。
- 此方法确保了领域特定的改进,同时只引入了最少的额外参数。
4.2.1.3. 物品级动态语义路由网络 (Item-level Dynamic Semantic Routing Network)
为了有效整合通用和领域特定的表示,本文提出了一个物品级动态语义路由网络 (Item-level Dynamic Semantic Routing Network),以逐物品 (per-item) 的方式自适应地平衡这些表示。这种方法通过动态确定通用跨域语义和领域特定语义对每个物品的贡献,减轻了静态融合策略中固有的负迁移 (negative transfer) 风险。 路由网络功能:
- 路由网络 (参数为 ,例如多层感知机
multi-layer perceptron, MLP)以物品的嵌入 作为输入,并产生一个门控权重 。 - 对于来自领域 的物品,在量化之前计算两个潜在表示:
- 通用表示 ,来自冻结的通用编码器。
- 领域特定表示 ,来自适配后的编码器。
- 路由器计算:
- :
sigmoid函数,将路由网络的输出映射到[0, 1]范围,作为融合权重。 - :路由网络对物品嵌入 的输出。
- :融合后的潜在表示,是通用表示和领域特定表示的加权和。
- :
- 融合后的表示 随后被量化和解码。
正则化:
为了促进解耦表示并防止过拟合 (overfitting),本文使用变分信息瓶颈 (Variational Information Bottleneck, VIB) 原理 (Alemi et al. 2016) 对路由器进行正则化。
- VIB 损失最小化路由器从 中提取的信息,确保只有基本特征影响路由决策。这通过一个 KL 散度 (KL-divergence) 项来强制执行:
- :两个概率分布之间的 KL 散度。
- :路由器的内部表示分布,条件是物品嵌入 。
- :一个先验分布(例如标准正态分布)。
- 此损失被纳入第二阶段训练目标,以实现共享和领域特定知识的平衡融合。
4.2.2. 跨域自回归推荐 (Cross-Domain Autoregressive Recommendation)
利用 Domain-adaptive Tokenization 模块生成的统一语义 ID (SIDs),该组件对用户互动序列中复杂的时序模式进行建模,以实现个性化的跨域推荐。本文引入了一种参数高效的两阶段微调 (two-phase fine-tuning) 策略,该策略识别用户兴趣的多面性(例如,品牌偏好或类别亲和性)。
4.2.2.1. 通用兴趣建模网络 (Universal Interest Modeling Network)
为了建模用户跨领域的多元兴趣,本文开发了一个通用兴趣建模网络 (Universal Interest Modeling Network)。这是通过使用多个低秩适应 (LoRA) 适配器 (Li et al. 2024a; Zhang et al. 2024) 增强预训练的大型语言模型 (LLM) 来实现的。
- 这些适配器协同训练,以捕捉不同的、可迁移的行为模式。
- 第 个通用专家 (universal expert) 的参数表示为 。
- 这些参数的完整集合为 ,代表通用模块 的所有可训练权重。 输入: 跨域 SIDs 序列 。 第一阶段微调:
- 使用标准自回归目标优化通用参数 ,即在给定前序序列的情况下预测下一个语义 ID。
- 训练损失定义为:
- :用户集合。
- :用户 的跨域 SIDs 序列。
- :序列中第 个语义 ID。
- :序列中前 个语义 ID。
- :冻结的 LLM 参数。
- :LLM 预测下一个词元的概率。
- 此阶段后, 和 都被固定,形成了作为领域特定适应基础的通用兴趣建模网络。
4.2.2.2. 领域特定兴趣适应 (Domain-specific Interest Adaptation)
虽然通用兴趣建模网络捕捉了普遍的用户偏好,但领域特定细微差别需要量身定制的建模。为此,本文引入了第二个微调阶段,以训练领域特定的 LoRA 适配器,使模型能够适应每个领域的独特特征。 第二阶段微调:
- 对于每个领域 ,用一个专门的可训练 LoRA 适配器 增强冻结的模型。
- 在此阶段,基础 LLM 参数 和通用参数集 保持冻结。
- 使用来自领域 的用户 的序列 来优化 ,采用自回归损失:
- :在领域 中有交互的用户集合。
- :用户 在领域 中的 SIDs 序列。
- 这种方法使模型能够高效地学习领域特定的兴趣模式,为推理阶段的动态集成做准备。
4.2.2.3. 用户级动态兴趣路由网络 (User-level Dynamic Interest Routing Network)
与物品级路由器对称,本文采用一个经过 VIB 正则化的用户级动态兴趣路由网络 (User-level Dynamic Interest Routing Network),以防止推理阶段的负迁移。
- 这个轻量级门控网络以用户的历史表示 作为输入,计算一个动态权重 。
- 这个权重融合了来自通用模型 () 和领域适配模型 () 的概率分布:
- :最终预测物品 的概率,给定用户序列 。
- :来自冻结的通用网络(由 参数化)的输出分布。
- :来自增强了领域特定适配器(由 和 参数化)的网络输出分布。
- 路由器上的 VIB 正则化确保融合逻辑是高效且鲁棒的。
4.2.3. 推理 - 领域感知前缀树 (Inference - Domain-aware Prefix-tree)
为确保高效和有效的语义 ID 生成,本文提出了领域感知前缀树 (Domain-aware Prefix-tree) 机制,以缓解标准自回归解码的局限性,例如计算效率低下和无效 ID 输出。 前缀树构建:
-
对于每个领域 ,构建一个离线前缀树 ,该树编码了
Domain-adaptive Tokenization模块生成的所有有效语义 ID 序列。 解码过程: -
在推理时,给定目标领域 ,相应的树 指导生成过程。
-
在每个解码步骤 ,树根据当前前缀 识别一个有效的下一个代码子集 。
-
LLM 的预测被约束到这个子集,使用掩码
softmax:- :在步骤 生成的语义 ID。
- :前
k-1个已生成的语义 ID 序列。 - :目标领域 的前缀树。
- :LLM 对 的
logit。 - :在当前前缀 下,由前缀树确定的有效下一个语义 ID 集合。
-
这种方法确保了有效序列的生成,同时显著降低了计算开销,提高了推荐过程的效率。
该图像是示意图,展示了“GenCDR”框架的整体流程与关键模块。图中(a)部分展示了总体管道,包括前缀树、LLM解码器与两阶段训练过程;(b)部分介绍了领域自适应标记化模块,说明了如何生成重构嵌入;(c)部分则展示了自回归推荐的输出过程。这些模块共同实现了跨域推荐的任务。
图 2: GenCDR 框架示意图。
(a) 总体流程: 展示了 GenCDR 的整体架构,包括一个通用骨干 LLM (Qwen2.5-7B),一个编码器模块 (Encoder Module),以及一个领域感知前缀树 (Domain-aware Prefix-tree)。编码器模块负责生成物品的语义 ID (SIDs),这些 SIDs 作为 LLM 的输入。LLM 接收用户历史 SIDs 序列,通过自回归方式预测下一个 SID。整个过程被一个两阶段的训练策略所引导。
(b) 领域自适应词元化模块 (Domain-adaptive Tokenization Module): 详细展示了如何生成物品的语义 ID。首先,物品的原始特征嵌入 经过通用编码器 得到通用表示 。同时,针对特定领域 ,适配后的编码器 产生领域特定表示 。一个物品级动态路由网络 (Item-level Dynamic Routing Network) 根据输入 生成权重 ,动态融合 和 得到 。然后,RQ-VAE 的量化器 将 转化为离散的 semantic IDs 序列 。解码器 从这些 SIDs 重构 ,用于训练。
(c) 跨域自回归推荐模块 (Cross-Domain Autoregressive Recommendation Module): 展示了 LLM 如何进行推荐。用户历史交互序列 中的物品 SIDs 作为 LLM 的输入。LLM 在通用 LoRA 专家 (Universal LoRA Experts) 和领域特定 LoRA 专家 (Domain-specific LoRA Experts) 的共同作用下,预测下一个语义 ID 。一个用户级动态路由网络 (User-level Dynamic Routing Network) 产生权重 ,融合来自通用和领域特定专家的概率分布,得到最终的预测 。
5. 实验设置
5.1. 数据集
实验使用了三个跨域数据集对 (cross-domain dataset pairs),每个数据集对反映了不同的真实世界场景:
- 体育-服装 (Sports-Clothing): 休闲 (Leisure) 领域,源自公共 Amazon 产品评论数据集 (
McAuley et al. 2015)。 - 手机-电子产品 (Phones-Electronics): 科技 (Technology) 领域,源自公共 Amazon 产品评论数据集 (
McAuley et al. 2015)。 - 图书-电影 (Books-Movies): 娱乐 (Entertainment) 领域,收集自豆瓣 (
Zhu et al. 2020, 2019)。
数据集处理:
- 按照 (
Rajput et al. 2023; Zhou et al. 2020) 的做法,将用户的历史评论视为按时间顺序排列的互动。 - 采用
leave-last-out评估协议 (Kang and McAuley 2018; Zhao et al. 2022):每个用户序列中,最后一个物品用于测试,倒数第二个用于验证。
数据集统计信息: 以下是原文 Table 1 的结果:
| Dataset | #Users | #Items | #Interactions | Sparsity | Overlap |
|---|---|---|---|---|---|
| Sports | 35,598 | 18,357 | 296,337 | 99.95% | 1.73% |
| Clothing | 39,387 | 23,033 | 278,677 | 99.97% | (704) |
| Phones | 27,879 | 10,429 | 194,439 | 99.93% | 0.55% |
| Electronics | 192,403 | 63,001 | 1,689,188 | 99.99% | (404) |
| Books | 1,713 | 8,601 | 104,295 | 99.29% | 7.48% |
| Movies | 2,628 | 20,964 | 1,249,016 | 97.73% | (2,058) |
说明:
#Users:用户数量。#Items:物品数量。#Interactions:总互动次数。Sparsity:数据稀疏度,衡量互动矩阵中非零元素的比例(越高表示越稀疏)。Overlap:物品重叠率,表示两个领域共享物品的百分比(括号内为共享物品的数量)。
5.2. 评估指标
本文采用序列推荐领域 (sequential recommendation literature) 的标准做法 (Kang and McAuley 2018; Rajput et al. 2023),使用 Recall@K 和 NDCG@K 作为评估指标,其中 设置为 5 和 10。
5.2.1. 召回率 (Recall@K)
概念定义: Recall@K 衡量的是在推荐列表的前 个物品中,实际用户互动过的相关物品所占的比例。它关注的是模型找到所有相关物品的能力,即使其排名不高。对于推荐系统而言,Recall@K 可以衡量系统发现用户潜在兴趣物品的能力。
数学公式:
符号解释:
- :所有用户的集合。
- :为用户 生成的排名靠前的 个推荐物品集合。
- :用户 在测试集中实际互动过的相关物品集合。
- :集合的势(即集合中元素的数量)。
- :集合交集运算。
5.2.2. 归一化折损累计增益 (Normalized Discounted Cumulative Gain, NDCG@K)
概念定义: NDCG@K 是一种衡量推荐列表质量的指标,它考虑了相关物品的排名位置。相关物品出现在推荐列表顶部时会获得更高的分数,并且随着相关物品在列表中位置的下降,其贡献会被“折损” (discounted)。NDCG@K 还通过将计算出的 DCG@K 除以理想 DCG@K(所有相关物品都排在最理想位置时的 DCG@K 值)进行归一化,使得不同查询或用户之间的分数具有可比性。
数学公式:
首先,计算折损累计增益 (Discounted Cumulative Gain, DCG@K):
然后,计算理想折损累计增益 (Ideal Discounted Cumulative Gain, IDCG@K):
最后,计算 NDCG@K:
符号解释:
-
:推荐列表的长度。
-
:排名在第 位的物品的相关性得分。通常,在二元相关性(相关/不相关)场景中, 如果物品相关,
0如果物品不相关。 -
:在理想情况下,排名在第 位的物品的相关性得分(即所有相关物品按最高相关性从高到低排列)。
-
:对排名位置 进行折损的因子,排名越靠后,折损越大。
模型选择: 对于每个模型,选择在验证集上
Recall@10表现最好的检查点 (checkpoint) 进行最终测试。
5.3. 对比基线
为了全面评估 GenCDR 框架的有效性,将其与三类代表性最先进模型进行比较:
-
单域序列推荐 (Single-domain Sequential Recommendation, SDSR):
SASRec(Kang and McAuley 2018):使用单向 Transformer 建模用户序列偏好,通过自注意力 (self-attention) 预测下一个物品。BERT4Rec(Sun et al. 2019):将 BERT 扩展到推荐领域,通过掩码物品预测目标 (masked item prediction objective) 学习双向上下文 (bidirectional context)。STOSA(Fan et al. 2022):引入随机自注意力 (stochastic self-attention) 处理长序列,提高效率,并结合自监督目标 (self-supervised objectives) 增强物品表示。 说明: 这些模型按照其标准的单域设置进行比较。
-
生成式推荐系统 (Generative Recommendation Systems, GRS):
VQ-Rec(Hou et al. 2023):结合基于VQ-VAE的词元化 (tokenization) 和 Transformer 序列建模,将物品嵌入映射到离散代码空间,然后预测代码空间中的下一个物品。TIGER(Rajput et al. 2023):通过协同约束 (collaborative constraints) 优化物品词元化,增强生成式检索 (generative retrieval),产生同时捕捉内容和用户-物品互动信号的语义 ID。HSTU(Zhai et al. 2024):提出了一个层次化词元化框架 (hierarchical tokenization framework),在多个语义层面(从粗粒度到细粒度)编码物品,提高生成准确性和效率。 说明: 这些模型采用其官方的多域配置,以充分利用其跨域迁移能力。
-
跨域序列推荐 (Cross-domain Sequential Recommendation, CDSR):
C2DSR(Cao et al. 2022):构建统一的跨域用户-物品互动图 (user-item interaction graph),并采用基于 GNN 的传播机制 (propagation mechanism) 与自适应门控 (adaptive gating) 来调节域间知识迁移。TriCDR(Ma et al. 2024):利用基于三元组的对比学习 (triplet-based contrastive learning) 来对齐跨域用户嵌入,通过最小化跨域内部用户距离和最大化用户间可分离性来实现。LLM4CDSR(Liu et al. 2025c):将 CDR 重新定义为文本生成任务,将用户历史和物品属性转换为文本提示 (textual prompts),供 LLM 建模隐式跨域语义相关性。 说明: 所有基线模型都在统一的 PyTorch 框架下重新实现和调优,以确保一致性。
5.4. 实现细节
GenCDR 框架的实现基于 PyTorch,并使用 Hugging Face PEFT 库进行基于 LoRA 的微调。
训练阶段: GenCDR 的训练分为两个主要阶段。
第一阶段:领域自适应词元化模块 (Domain-adaptive Tokenization module) 训练
RQ-VAE预训练:- 在所有物品嵌入上进行预训练。
- 优化器:
AdamW。 - 学习率 (lr):。
- 批量大小 (batch size):512。
- 训练轮次 (epochs):100。
- 领域特定
LoRA适配器微调:LoRA秩 (rank):64。LoRA(scaling factor):32。LoRA丢弃率 (dropout):0.05。- 训练轮次:50。
- 学习率 (lr):。
- 路由器网络训练:
- 路由器网络:一个两层
MLP,隐藏单元 (hidden units) 数量为 128。 - 与 VIB 正则化权重 联合训练。
- 路由器网络:一个两层
第二阶段:跨域自回归推荐模块 (Cross-Domain Autoregressive Recommendation module) 微调
- LLM 骨干:
Qwen2.5-7B。 - 通用
LoRA专家训练:- 数量 :4 个通用
LoRA专家。 LoRA秩 (rank):64。LoRA(scaling factor):128。- 在组合的跨域数据上训练 10 个轮次。
- 数量 :4 个通用
- 领域特定适配器微调:
- 每个领域训练 10-20 个轮次。
通用设置:
- 优化器:
AdamW。 - 学习率 (lr):。
- 批量大小 (batch size):8。
- 混合精度训练 (mixed-precision training):
FP16。 - 硬件:
NVIDIA H200 GPUs。
6. 实验结果与分析
6.1. 核心结果分析
以下是原文 Table 2 的结果:
| Scene | Domain | Metric | Bert4Rec | SASRec | STOSA | VQ-Rec | TIGER | HSTU | C2DSR | TriCDR | LLM4CDSR | GenCDR |
| Leisure | Sports | R@5 | 0.0188 | 0.0197 | 0.0236 | 0.0261 | 0.0267 | 0.0254 | 0.0265 | 0.0266 | 0.0263 | 0.0274 |
| N@5 | 0.0121 | 0.0126 | 0.0162 | 0.0238 | 0.0244 | 0.0241 | 0.0253 | 0.0255 | 0.0257 | 0.0261 | ||
| R@10 | 0.0325 | 0.0334 | 0.0346 | 0.0389 | 0.0397 | 0.0381 | 0.0395 | 0.0396 | 0.0398 | 0.0403 | ||
| N@10 | 0.0169 | 0.0173 | 0.0283 | 0.0281 | 0.0287 | 0.0277 | 0.0258 | 0.0259 | 0.0260 | 0.0262 | ||
| Clothing | R@5 | 0.0128 | 0.0132 | 0.0162 | 0.0171 | 0.0173 | 0.0175 | 0.0172 | 0.0174 | 0.0176 | 0.0181 | |
| N@5 | 0.0078 | 0.0081 | 0.0119 | 0.0129 | 0.0125 | 0.0132 | 0.0158 | 0.0161 | 0.0163 | 0.0167 | ||
| R@10 | 0.0219 | 0.0227 | 0.0223 | 0.0248 | 0.0241 | 0.0253 | 0.0255 | 0.0258 | 0.0261 | 0.0265 | ||
| N@10 | 0.0105 | 0.0108 | 0.0135 | 0.0170 | 0.0167 | 0.0174 | 0.0191 | 0.0194 | 0.0196 | 0.0203 | ||
| Technology | Phones | R@5 | 0.0331 | 0.0345 | 0.0415 | 0.0411 | 0.0423 | 0.0415 | 0.0428 | 0.0434 | 0.0431 | 0.0431 |
| N@5 | 0.0215 | 0.0224 | 0.0283 | 0.0308 | 0.0315 | 0.0327 | 0.0392 | 0.0396 | 0.0401 | 0.0406 | ||
| R@10 | 0.0524 | 0.0537 | 0.0618 | 0.0607 | 0.0613 | 0.0615 | 0.0589 | 0.0593 | 0.0614 | 0.0622 | ||
| N@10 | 0.0278 | 0.0287 | 0.0346 | 0.0399 | 0.0406 | 0.0425 | 0.0493 | 0.0505 | 0.0506 | 0.0512 | ||
| Electronics | R@5 | 0.0179 | 0.0186 | 0.0213 | 0.0219 | 0.0228 | 0.0232 | 0.0235 | 0.0238 | 0.0237 | 0.0241 | |
| N@5 | 0.0118 | 0.0122 | 0.0148 | 0.0211 | 0.0214 | 0.0226 | 0.0229 | 0.0231 | 0.0230 | 0.0235 | ||
| R@10 | 0.0276 | 0.0285 | 0.0315 | 0.0318 | 0.0322 | 0.0328 | 0.0336 | 0.0339 | 0.0338 | 0.0342 | ||
| N@10 | 0.0149 | 0.0154 | 0.0172 | 0.0262 | 0.0269 | 0.0271 | 0.0278 | 0.0280 | 0.0279 | 0.0283 | ||
| Entertainment | Books | R@5 | 0.0089 | 0.0093 | 0.0142 | 0.0175 | 0.0172 | 0.0181 | 0.0152 | 0.0155 | 0.0161 | 0.0192 |
| N@5 | 0.0071 | 0.0076 | 0.0117 | 0.0178 | 0.0177 | 0.0180 | 0.0143 | 0.0148 | 0.0153 | 0.0187 | ||
| R@10 | 0.0176 | 0.0182 | 0.0219 | 0.0224 | 0.0221 | 0.0230 | 0.0205 | 0.0211 | 0.0216 | 0.0237 | ||
| N@10 | 0.0158 | 0.0164 | 0.0165 | 0.0201 | 0.0198 | 0.0206 | 0.0182 | 0.0185 | 0.0189 | 0.0212 | ||
| Movies | R@5 | 0.1503 | 0.1542 | 0.1562 | 0.1680 | 0.1652 | 0.1682 | 0.1588 | 0.1601 | 0.1613 | 0.1713 | |
| N@5 | 0.1015 | 0.1047 | 0.1063 | 0.1182 | 0.1156 | 0.1189 | 0.1092 | 0.1105 | 0.1149 | 0.1215 | ||
| R@10 | 0.1798 | 0.1825 | 0.1753 | 0.1922 | 0.1893 | 0.1931 | 0.1854 | 0.1865 | 0.1878 | 0.1971 | ||
| N@10 | 0.1211 | 0.1265 | 0.1230 | 0.1261 | 0.1255 | 0.1268 | 0.1203 | 0.1217 | 0.1225 | 0.1275 |
结论:
- GenCDR 显著超越所有基线: 实验结果清晰表明,在所有三个跨域数据集对(休闲、科技、娱乐)的六个子领域上,
GenCDR在Recall@K和NDCG@K指标上均持续且显著地优于所有SDSR、GRS和CDSR基线模型。这有力证明了GenCDR在跨域序列推荐任务中的整体优越性。 - 跨域模型优于单域模型:
CDSR类模型普遍优于传统的SDSR模型,这印证了利用跨域信息进行知识迁移的基本假设是正确的。单域模型无法有效利用其他领域的用户行为信息,导致性能受限。 - 生成式模型潜力与局限:
GRS类模型虽然相比SDSR有所改进,但其性能通常不及专门的CDSR模型。这表明简单地将现有生成模型应用于跨域场景并非最优策略。GenCDR正是弥补了这一差距,通过深度整合生成式范式与跨域知识迁移的独特挑战,实现了最先进的性能。 - LLM4CDSR 表现:
LLM4CDSR作为同样基于 LLM 的跨域推荐方法,其性能也低于GenCDR。这暗示了GenCDR提出的semantic ID词元化和自适应通用/领域特定建模策略,相比于LLM4CDSR纯粹的文本提示和相关性建模,能更有效地捕捉高阶协同知识和动态兴趣。
6.2. 消融实验/参数分析
6.2.1. 消融实验 (Ablation Study)
以下是原文 Table 3 的结果:
| Category | Variant | Phones | Electronics | Sports | Clothing |
|---|---|---|---|---|---|
| Full Model | GenCDR | 0.0512 | 0.0283 | 0.0262 | 0.0203 |
| Tokenization | w/o MTM | 0.0483 (↓5.7%) | 0.0267 (↓5.7%) | 0.0245 (↓6.5%) | 0.0190 (↓6.4%) |
| w/o Item Adapter | 0.0466 (↓9.0%) | 0.0255 (↓9.9%) | 0.0238 (↓9.2%) | 0.0183 (↓9.9%) | |
| Autoregressive Recommendation | w/o Specific Expert | 0.0448 (↓12.5%) | 0.0245 (↓13.4%) | 0.0226 (↓13.7%) | 0.0173 (↓14.8%) |
| w/o Universal Experts | 0.0425 (↓17.0%) | 0.0232 (↓18.0%) | 0.0212 (↓19.1%) | 0.0162 (↓20.2%) | |
| w/o MoE Gate (Avg.) | 0.0475 (↓7.2%) | 0.0262 (↓7.4%) | 0.0242 (↓7.6%) | 0.0186 (↓8.4%) | |
| Inference Strategy | w/o Prefix Tree | 0.0498 (↓2.7%) | 0.0274 (↓3.2%) | 0.0255 (↓2.7%) | 0.0198 (↓2.5%) |
分析:
消融实验结果(以 NDCG@10 为例)清晰地表明 GenCDR 框架中每个组件都发挥着不可或缺的作用:
- 上下文代码建模的影响 (w/o MTM): 移除
MTM(Masked Token Modeling) 损失导致性能下降(下降 5.7% - 6.5%)。这证实了学习语义代码的上下文“语法”至关重要,而不仅仅是简单的重构。MTM损失有助于RQ-VAE学习到更具意义和上下文一致性的语义词元。 - 物品特定适应的影响 (w/o Item Adapter): 移除物品特定适配器(w/o Item Adapter)导致性能下降(下降 9.0% - 9.9%)。这验证了为物品建模领域特定语义的必要性。通用语义虽然重要,但无法完全捕捉各个领域物品的独特判别性特征。
- 领域特定专家 (Specific Expert) 的影响 (w/o Specific Expert): 移除领域特定专家 (w/o Specific Expert) 会显著损害性能(下降 12.5% - 14.8%),证明其在捕捉细粒度用户偏好中的关键作用。这表明用户兴趣在不同领域有其独特的表现形式。
- 通用专家 (Universal Experts) 的影响 (w/o Universal Experts): 移除所有 个通用专家 (w/o Universal Experts) 导致性能急剧下降(下降 17.0% - 20.2%),证实了共享的跨域知识基础是不可或缺的。用户在不同领域可能存在一些贯穿的、普遍的兴趣。
- MoE 门控 (MoE Gate) 的影响 (w/o MoE Gate (Avg.)): 将可训练的 MoE 门控替换为简单的平均融合 (w/o MoE Gate (Avg.)) 会损害性能(下降 7.2% - 8.4%),突出强调了动态、上下文感知的专家选择优于朴素融合的重要性。这意味着智能地融合通用和领域特定知识比简单加权更有效。
- 受限解码 (Constrained Decoding) 的影响 (w/o Prefix Tree): 移除前缀树约束 (w/o Prefix Tree) 导致性能持续下降(下降 2.5% - 3.2%)。这表明前缀树能够保证生成有效的物品 ID 并防止“幻觉”推荐,从而提高了推荐的准确性和可靠性。
6.2.2. 超参数分析 (Hyper-parameter Analysis)
该图像是图表,显示了在 Cloth 数据集上 LoRA 微调对关键超参数的敏感性。图中展示了不同数量的通用专家、LoRA 排名、LoRA Alpha 和 LoRA dropout 率对 Recall@5、Recall@10、NDCG@5 和 NDCG@10 指标值的影响。各个超参数的变化与相应的度量结果之间的关系被清晰地呈现,便于分析其对推荐系统性能的影响。
图 4: 在 Cloth 数据集上 LoRA 微调对关键超参数的敏感性。 分析: 在 Cloth 数据集上对关键超参数的敏感性分析(图 4)揭示了明确的最优值:
- 通用专家数量 (): 存在一个最优值(例如 )。当 过少时,模型无法充分捕捉通用知识;当 过多时,可能导致冗余或难以训练,性能反而下降,暗示了过拟合的风险。
- LoRA 秩 (): 同样存在一个最优值(例如 )。较低的秩可能限制了模型适应特定任务的能力;过高的秩虽然增加了模型容量,但也增加了参数,可能导致过拟合或训练不稳定。
- LoRA (Alpha): 同样存在一个最优值。 控制了
LoRA适配器对原始模型权重更新的缩放比例。过大或过小都可能影响微调的效果。 - LoRA 丢弃率 (Dropout Rate): 较小的
LoRA Dropout Rate(0.05) 提供了有效的正则化。这表明LoRA本身参数量小,不需要很高的丢弃率就能避免过拟合,同时保持模型的表达能力。 这些发现强调了容量 (capacity) 和泛化 (generalization) 之间的平衡,证明了框架的鲁棒性和可调优性。
6.3. 深入分析 (In-depth Analysis)
该图像是一个图表,展示了在三种不同设置下项目嵌入的 t-SNE 可视化。左侧的 (a) 中为原始项目嵌入,中间的 (b) 展示共享 LoRA 嵌入,而右侧的 (c) 则为特定领域的 LoRA 嵌入,每个类别通过不同颜色表现。
图 3: 在三种不同设置下物品嵌入的 t-SNE 可视化。
分析:
为了定性评估框架,本文使用 t-SNE 可视化了最终的物品表示 ()。
- (b) 仅使用通用适配器 (only universal adapters): 在这种情况下,来自不同领域的物品嵌入混合在一起,没有明显的领域边界。这表明通用适配器捕捉的是跨领域的共享语义,但缺乏区分领域特定特征的能力。
- (c) 使用完整 GenCDR 模型(包含领域特定适配器)(full GenCDR model with domain-specific adapters): 相比之下,此设置下的嵌入形成了清晰分离的领域特定聚类 (domain-specific clusters)。例如,不同颜色的点代表不同领域,它们在嵌入空间中形成了明显的群落。这证实了领域特定适应对于学习解耦表示的重要性,即模型能够有效区分和表示不同领域的物品独特属性。
- (a) 原始物品嵌入 (raw item embeddings): 这显示了未经任何处理的原始物品特征的分布情况,通常也是混合的。
这些可视化结果直观地验证了
GenCDR在语义层面解耦通用和领域特定知识的有效性。
6.4. 效率分析 (Analysis of Efficiency)
6.4.1. 训练效率 (Training Efficiency)
该图像是一个图表,比较了使用 Qwen2.5-7B 模型的训练效率。图中展示了 (a) 可训练参数数量(十进制对数尺度)、(b) 训练时间和 (c) 峰值 GPU 内存,分别体现了基于 LoRA 的 GenCDR 与完整微调方法的差异。
图 5: 使用 Qwen2.5-7B 模型比较训练效率。图表显示了 (a) 可训练参数(对数尺度)、(b) 训练时间、和 (c) 峰值 GPU 内存,对比了基于 LoRA 的 GenCDR 与完全微调 (Full Fine-Tuning) 版本。
分析:
- (a) 可训练参数: 基于
LoRA的GenCDR的可训练参数显著少于完全微调。对数尺度的图表强调了这种巨大的差距,表明LoRA大幅减少了需要更新的参数量。 - (b) 训练时间:
GenCDR的训练时间也远低于完全微调。参数量的减少直接带来了计算量的降低,从而缩短了训练周期。 - (c) 峰值 GPU 内存:
GenCDR在训练过程中所需的峰值 GPU 内存也显著降低。这使得在资源受限的环境中也能进行大规模 LLM 的训练,或者在相同资源下训练更大的模型。 这些结果表明,GenCDR基于LoRA的微调策略在训练效率方面具有压倒性优势,使其成为在大型语言模型背景下进行跨域推荐的可行方案。
6.4.2. 推理效率和可扩展性 (Inference Efficiency and Scalability)
该图像是一个图表,展示了 TriCDR、TIGER 和 GenCDR 在不同项池大小下的运行内存和推理时间的比较。横轴表示项数(以 为单位),左侧纵轴表示内存(GB),右侧纵轴表示时间(s)。从图中可以看出,GenCDR 在内存和时间上均具有优势。
图 6: TriCDR、TIGER 和 GenCDR(Qwen2.5-0.5B)在不同物品池大小下的运行时内存和推理时间比较。 分析:
- 运行时内存:
GenCDR的运行时内存消耗随着物品池大小的增加几乎保持不变。相比之下,TriCDR和TIGER的内存消耗随物品池大小的增加而显著上升。这表明GenCDR的设计,特别是其生成式架构和前缀树约束,使其对物品数量的扩展具有很强的鲁棒性。 - 推理时间: 类似地,
GenCDR的推理时间在物品池大小增加时也保持相对恒定。而TriCDR和TIGER的推理时间则呈上升趋势。这说明GenCDR的prefix-tree受限生成架构避免了在推理时遍历整个物品集合,从而实现了高效的推理。 这些结果证明了GenCDR在推理阶段具有卓越的可扩展性,其推理成本与物品池大小无关,这对于实际部署中面对庞大物品库的推荐系统至关重要。
7. 总结与思考
7.1. 结论总结
本文针对基于 LLM 的跨域推荐中存在的物品词元化困境和领域个性化不足两大挑战,提出了 GenCDR 这一新颖的生成式框架。GenCDR 的核心创新在于:
-
领域自适应词元化模块: 该模块通过
RQ-VAE结合LoRA适配器和动态路由网络,为物品生成具有通用和领域特定语义的离散语义 ID (SIDs),有效解决了传统物品 ID 的局限性。 -
跨域自回归推荐模块: 利用 LLM 的强大序列建模能力,通过分阶段微调通用和领域特定的
LoRA专家,以及用户级动态路由,实现对用户兴趣的精细化建模和融合。 -
领域感知前缀树: 在推理阶段,通过构建领域感知前缀树来约束 LLM 的生成过程,确保了生成物品 ID 的有效性和推理的高效率。
在多个真实世界跨域数据集上的广泛实验表明,
GenCDR在推荐准确性和泛化能力方面均显著优于现有的最先进基线模型,并且在训练效率和推理可扩展性方面也表现出显著优势。
7.2. 局限性与未来工作
论文作者指出了未来的工作方向:
- 融合多模态特征: 探索将多模态特征(如图像、视频、音频)融入框架,以构建更丰富的物品表示。当前的
GenCDR主要依赖于文本特征来生成语义 ID,整合多模态信息有望进一步提升推荐效果和语义理解能力。
此外,从严谨性角度,可以提出以下潜在局限性:
- 语义 ID 的可解释性与粒度: 尽管
semantic IDs旨在捕捉语义信息,但其具体含义和可解释性可能不如直接的自然语言描述。不同RQ-VAE码本大小和层级对语义粒度的影响也值得深入研究。 - LLM 的选择与成本: 尽管使用了
LoRA进行参数高效微调,但选择Qwen2.5-7B这样的大型 LLM 作为骨干模型,其预训练和推理的基础设施成本仍然较高,对于资源有限的研究者或小型企业可能难以承受。 - 负面交互建模: 论文主要关注用户正向互动序列的建模。在实际推荐系统中,负面互动(如跳过、不喜欢)同样包含重要的用户偏好信息,如何有效纳入这些信号可能是一个挑战。
- 领域异构性限制: 尽管
GenCDR旨在处理跨域推荐,但对于领域之间存在极端异构性(例如,物品类型、用户行为模式差异巨大)的场景,其通用和领域特定知识的解耦和融合效果可能仍有待进一步验证。
7.3. 个人启发与批判
这篇论文提供了一个非常清晰且具有前瞻性的框架,将生成式模型和语义 ID 的概念引入了长期面临挑战的跨域推荐领域,特别是在缺乏共享 ID 的真实场景中。
个人启发:
- 语义 ID 的巨大潜力: 将推荐物品从离散、无语义的 ID 转换为具有语义信息的
semantic IDs,是 LLM 时代推荐系统发展的必然趋势。这不仅解决了词汇表爆炸的问题,更使得 LLM 能够以其擅长的序列生成方式直接进行推荐,大大提升了模型的可解释性和泛化能力。 - 解耦学习的重要性:
GenCDR在物品和用户层面都采用了通用与领域特定知识的解耦和动态融合策略,这对于处理复杂的用户兴趣和物品特征至关重要。这种精细化的建模方式,相比于简单的特征拼接或统一模型,更能有效地捕捉多方面的交互信号。 - LoRA 在 LLM 推荐中的普适性:
LoRA作为一种参数高效微调技术,在 LLM 时代的推荐系统中展现出强大的应用前景。它使得研究者能够在不牺牲 LLM 强大能力的前提下,高效地将其适应到各种推荐任务和领域。 - 前缀树的巧妙应用:
Domain-aware Prefix-tree的引入,是生成式推荐从理论走向实用化的关键一步。它不仅保证了生成结果的有效性,还极大地提升了推理效率,解决了 LLM 生成模型在推荐场景中可能面临的计算瓶颈。
批判:
-
语义 ID 的生成质量: 语义 ID 的质量直接影响后续推荐效果。
RQ-VAE预训练的质量、MTM损失的设计以及领域特定适配器的效果,都对semantic ID的表达能力构成影响。如何量化和评估semantic ID本身的语义丰富性和区分度,以及它在多领域语义冲突时的处理能力,是一个值得深思的问题。 -
动态路由网络的复杂性: 物品级和用户级动态路由网络虽然提供了灵活性,但其内部决策逻辑可能不如固定规则那么透明。VIB 正则化有助于防止过拟合,但其在复杂多领域场景下如何精确地平衡通用与领域特定信息,仍需更深入的理论分析和实证研究。
-
冷启动物品的处理:
RQ-VAE需要物品的文本特征进行预训练。对于完全冷启动、没有任何文本描述的物品,如何生成其semantic ID仍是一个挑战。 -
领域数量的扩展性: 论文在三个领域对上进行了实验。当领域数量进一步增加,或者领域间的关系更加复杂时, 个通用专家和领域特定适配器的数量如何动态调整,以及路由网络能否有效处理更多领域间的交互,仍是需要探讨的问题。
总而言之,
GenCDR为跨域推荐领域带来了令人兴奋的生成式范式,特别是其在语义 ID 上的创新性探索,为未来的 LLM 驱动推荐系统发展提供了宝贵的思路。
相似论文推荐
基于向量语义检索推荐的相关论文。