论文状态:已完成

Large Language Models meet Collaborative Filtering: An Efficient All-round LLM-based Recommender System

发表:2024/04/17
原文链接PDF 下载
价格:0.100000
价格:0.100000
已有 1 人读过
本分析由 AI 生成,可能不完全准确,请以原文为准。

TL;DR 精炼摘要

协同过滤推荐系统在提升用户体验方面取得了显著成功,但在冷启动场景中面临稀疏数据的挑战。本文提出了一种高效的全能型基于LLM的推荐系统A-LLMRec,能够有效利用协同知识,提升在冷启动和暖启动场景中的表现,具有模型无关性和效率高的优点。

摘要

Collaborative filtering recommender systems (CF-RecSys) have shown successive results in enhancing the user experience on social media and e-commerce platforms. However, as CF-RecSys struggles under cold scenarios with sparse user-item interactions, recent strategies have focused on leveraging modality information of user/items (e.g., text or images) based on pre-trained modality encoders and Large Language Models (LLMs). Despite their effectiveness under cold scenarios, we observe that they underperform simple traditional collaborative filtering models under warm scenarios due to the lack of collaborative knowledge. In this work, we propose an efficient All-round LLM-based Recommender system, called A-LLMRec, that excels not only in the cold scenario but also in the warm scenario. Our main idea is to enable an LLM to directly leverage the collaborative knowledge contained in a pre-trained state-of-the-art CF-RecSys so that the emergent ability of the LLM as well as the high-quality user/item embeddings that are already trained by the state-of-the-art CF-RecSys can be jointly exploited. This approach yields two advantages: (1) model-agnostic, allowing for integration with various existing CF-RecSys, and (2) efficiency, eliminating the extensive fine-tuning typically required for LLM-based recommenders. Our extensive experiments on various real-world datasets demonstrate the superiority of A-LLMRec in various scenarios, including cold/warm, few-shot, cold user, and cross-domain scenarios. Beyond the recommendation task, we also show the potential of A-LLMRec in generating natural language outputs based on the understanding of the collaborative knowledge by performing a favorite genre prediction task. Our code is available at https://github.com/ghdtjr/A-LLMRec .

思维导图

论文精读

中文精读

1. 论文基本信息

1.1. 标题

大型语言模型遇上协同过滤:一种高效的全能型基于LLM的推荐系统 (Large Language Models meet Collaborative Filtering: An Efficient All-round LLM-based Recommender System)

1.2. 作者

  • Sein Kim (KAIST, Republic of Korea)
  • Hongseok Kang (KAIST, Republic of Korea)
  • Seungyoon Choi (KAIST, Republic of Korea)
  • Donghyun Kim (NAVER Corporation, Republic of Korea)
  • Minchul Yang (NAVER Corporation, Republic of Korea)
  • Chanyoung Park (KAIST, Republic of Korea)

1.3. 发表期刊/会议

该论文将于 2024年知识发现与数据挖掘国际会议 (KDD '24) 发表。KDD 是数据挖掘领域顶级且极具影响力的学术会议。

1.4. 发表年份

2024年

1.5. 摘要

协同过滤推荐系统 (CF-RecSys) 在增强社交媒体和电子商务平台的用户体验方面取得了显著成就。然而,CF-RecSys 在冷启动场景 (cold scenarios) 中因用户-物品交互稀疏而面临挑战。近期策略通过利用用户/物品的模态信息 (modality information)(如文本或图像),并结合预训练的模态编码器 (modality encoders) 和大型语言模型 (Large Language Models - LLMs) 来解决这一问题。尽管这些方法在冷启动场景中表现出色,但作者观察到,由于缺乏协同知识 (collaborative knowledge),它们在暖启动场景 (warm scenarios) 中的表现反而不如简单的传统协同过滤模型。

在这项工作中,作者提出了一种高效的全能型基于LLM的推荐系统 (All-round LLM-based Recommender System),名为 A-LLMRec,它不仅在冷启动场景中表现优异,在暖启动场景中也同样出色。其核心思想是使 LLM 能够直接利用预训练的最先进 (state-of-the-art) CF-RecSys 中包含的协同知识,从而联合利用 LLM 的涌现能力 (emergent ability) 以及由 SOTA CF-RecSys 训练出的高质量用户/物品嵌入 (user/item embeddings)。这种方法带来了两个优势:(1) 模型无关性 (model-agnostic),允许与各种现有 CF-RecSys 集成;(2) 效率 (efficiency),消除了基于 LLM 的推荐系统通常所需的大量微调 (fine-tuning)。在各种真实世界数据集上的广泛实验表明,A-LLMRec 在冷/暖启动、少样本 (few-shot)、冷用户 (cold user) 和跨领域 (cross-domain) 等多种场景中均表现出优越性。除了推荐任务,作者还通过执行喜好类型预测任务 (favorite genre prediction task) 展示了 A-LLMRec 在理解协同知识基础上生成自然语言输出的潜力。

1.6. 原文链接

2. 整体概括

2.1. 研究背景与动机

推荐系统在现代数字生活中扮演着至关重要的角色,尤其在社交媒体和电子商务平台中,极大地提升了用户体验。协同过滤 (Collaborative Filtering - CF) 模型是推荐系统的基石,通过分析用户-物品交互数据来发现用户偏好和物品相似性。然而,随着用户和物品数量的爆炸式增长,CF 模型面临一个长期存在的挑战——冷启动问题 (cold-start problem)。当新用户或新物品缺乏足够的历史交互数据时,CF 模型难以构建有效的协同知识,从而导致推荐性能不佳。

为了解决冷启动问题,近期研究开始利用用户和物品的模态信息 (modality information),例如物品的标题、描述文本或图像。这些方法通常依赖于预训练的模态编码器 (modality encoders)(如 BERTVision-Transformer)来提取丰富的语义特征。随着 大型语言模型 (Large Language Models - LLMs) 的兴起,其强大的预训练知识和高级语言理解能力被引入推荐领域,以更有效地提取和整合模态信息。

尽管这些模态感知和基于 LLM 的推荐系统在冷启动场景中表现出显著效果,但一个关键的局限性被逐渐揭示:它们过度依赖文本信息,导致缺乏深层的协同知识 (collaborative knowledge)。因此,在用户-物品交互数据充足的暖启动场景 (warm scenarios) 下,这些模型反而不如简单的传统协同过滤模型。例如,Figure 1 (原文 Figure 1) 展示了 MoRecTALLRec 虽然在冷启动场景优于 SASRec,但在暖启动场景却被 SASRec 反超。这表明,现有方法要么擅长处理冷启动(基于模态信息),要么擅长处理暖启动(基于协同过滤的 ID 信息),但鲜有模型能同时在两种场景下都表现出色。

Figure 1: Comparisons between collaborative filtering model (SASRec), modality-aware model (i.e., MoRec), and LLMbased model (i.e., TALLRec) under the cold/warm1 scenarios on Amazon Movies/Video Games dataset \(( \\mathbf { H i t } ( \\pmb { \\omega } \\mathbf { 1 } ) ^ { 2 }\) .
该图像是一个图表,展示了三种推荐模型(SASRec、MoRec和TALLRec)在亚马逊电影和视频游戏数据集下的性能比较,包含冷和温场景的 HIT@1 值。可以看到,TALLRec在温场景下达到了最高的表现。

图1: 协同过滤模型 (SASRec)、模态感知模型 (MoRec) 和基于LLM的模型 (TALLRec) 在亚马逊电影/视频游戏数据集的冷/暖场景下 Hit@1 表现比较 (原文 Figure 1)。

然而,在实际推荐应用中,暖启动场景不容忽视。现实世界中,大部分用户交互和收入都来自于已存在且活跃的物品(即暖物品),在工业数据中甚至可能贡献高达 90% 的交互。同时建模冷启动和暖启动物品对于提升整体用户参与度至关重要。因此,迫切需要一种全能型推荐系统 (all-round recommender system),能够有效整合协同知识和模态信息,在所有场景下都能提供高质量的推荐。

这篇论文的切入点和创新思路在于:不是让 LLM 完全取代 CF-RecSys,而是让 LLM 能够直接利用预训练好的、最先进的 CF-RecSys 中蕴含的协同知识。通过将 CF-RecSys 的高质量用户/物品嵌入与 LLM 的语言理解能力相结合,期望弥补现有基于 LLM 推荐系统在暖启动场景中的不足,同时保持其在冷启动场景中的优势。

2.2. 核心贡献/主要发现

这篇论文的核心贡献在于提出了 A-LLMRec (All-round LLM-based Recommender system),一个高效的全能型基于 LLM 的推荐系统。其主要发现和贡献总结如下:

  • 提出 A-LLMRec 框架: A-LLMRec 是一种新型的基于 LLM 的推荐系统,它能够直接利用预训练的最先进 (state-of-the-art) 协同过滤推荐系统 (CF-RecSys) 中的协同知识。通过这种方式,A-LLMRec 旨在克服现有 LLM-based 推荐系统在暖启动场景下的不足,同时保持其在冷启动场景下的优势。

  • 创新的两阶段对齐机制: A-LLMRec 引入了一个两阶段的对齐过程。

    1. 阶段一 (Stage-1): 将 CF-RecSys 的物品嵌入与物品的文本信息进行对齐,生成联合协同-文本嵌入 (joint collaborative-text embedding)。该阶段引入了潜在空间匹配损失、重建损失和推荐损失,以确保协同知识和文本知识的有效融合,并避免表示过平滑。
    2. 阶段二 (Stage-2): 将这些联合嵌入以及用户表示投影到 LLM 的词元空间 (token space),并通过精心设计的提示 (prompt) 将这些信息传递给 LLM,使 LLM 能够进行推荐。
  • 模型无关性和高效率: A-LLMRec 不需要对预训练的 CF-RecSys 和 LLM 进行微调。唯一需要训练的是连接两者之间的对齐网络 (alignment network)。这带来了两个关键优势:

    • 模型无关性 (Model-agnostic): 它可以与任何现有的 CF-RecSys 灵活集成,便于服务方利用 LLM 的能力,并方便模型更新。
    • 高效率 (Efficiency): 相较于需要使用 LoRA 微调 LLM 的 TALLRec 等方法,A-LLMRec 的训练和推理速度显著加快(训练速度快约 2.5-3 倍,推理速度快约 1.7 倍)。
  • 在多场景下的卓越性能: 广泛的实验证明 A-LLMRec 在多种推荐场景中均表现出优越性,包括:

    • 冷/暖物品场景 (Cold/Warm Item Scenarios): 在这两种对比场景中都超越了所有基线模型。
    • 少样本训练场景 (Few-shot Training Scenario): 在训练用户数量极少的情况下表现出色。
    • 冷用户场景 (Cold User Scenarios): 对新用户或交互历史稀疏的用户推荐效果显著。
    • 跨领域场景 (Cross-domain Scenario): 在不同领域数据集之间的泛化能力强。
  • 支持自然语言生成: A-LLMRec 不仅限于推荐任务,还展示了在理解协同知识基础上生成自然语言输出的潜力,例如在喜好类型预测任务 (favorite genre prediction task) 中表现出有效的语言生成能力,而其他基于 LLM 的基线模型则未能成功。


3. 预备知识与相关工作

3.1. 基础概念

为了理解本文,需要掌握以下核心概念:

  • 协同过滤推荐系统 (Collaborative Filtering Recommender Systems - CF-RecSys):
    • 概念定义: CF 是一种广泛使用的推荐技术,其核心思想是根据用户的历史行为和偏好,找到相似的用户或物品,然后进行推荐。它不依赖于物品的元数据或内容信息,而是纯粹基于用户-物品交互数据来发现模式。
    • 工作原理:
      • 用户-用户协同过滤: 找到与目标用户兴趣相似的其他用户,然后将这些相似用户喜欢的物品推荐给目标用户。
      • 物品-物品协同过滤: 找到与目标用户过去喜欢的物品相似的其他物品,然后将这些相似物品推荐给目标用户。
    • 挑战: 最大的挑战是冷启动问题 (cold-start problem),即新用户或新物品缺乏足够的交互数据,难以进行有效推荐。
  • 冷启动问题 (Cold-start problem):
    • 概念定义: 指的是推荐系统在面对新用户(没有历史交互数据)或新物品(没有被用户交互过)时,由于缺乏足够的信息而无法做出准确推荐的困境。这是 CF-RecSys 的一个核心挑战。
    • 具体表现:
      • 冷用户 (cold user): 系统对新用户一无所知,无法通过协同过滤找到其偏好。
      • 冷物品 (cold item): 新物品没有被任何用户交互过,系统无法将其推荐给任何用户。
  • 暖启动场景 (Warm scenario):
    • 概念定义: 与冷启动相对,指的是用户和物品都有丰富历史交互数据的场景。在这种情况下,CF-RecSys 通常能够有效地学习用户偏好和物品特征,并提供高质量的推荐。
  • 模态信息 (Modality information):
    • 概念定义: 指的是除了传统的 ID 信息(如用户 ID、物品 ID)之外的、描述用户或物品的附加信息,通常以不同数据形式存在。
    • 常见类型:
      • 文本模态: 物品的标题、描述、评论、用户个人简介等。
      • 图像模态: 物品图片、用户头像等。
      • 视频模态: 物品宣传片、用户上传视频等。
  • 预训练模态编码器 (Pre-trained modality encoders):
    • 概念定义: 是一类在大规模多模态数据上预先训练好的神经网络模型,能够将特定模态(如文本、图像)的原始数据转换成低维、语义丰富的向量表示(即嵌入)。
    • 作用: 这些编码器捕获了模态的通用语义知识,可以作为特征提取器用于下游任务,例如在推荐系统中为物品生成有意义的文本或图像嵌入,以解决冷启动问题。
    • 例子:
      • BERT (Bidirectional Encoder Representations from Transformers): 文本编码器,基于 Transformer 架构,擅长理解文本的上下文语义。
      • Vision-Transformer (ViT): 图像编码器,将 Transformer 架构应用于图像处理,将图像切分成小块(patch)并序列化处理。
      • Sentence-BERT (SBERT): BERT 的变体,专门用于生成语义上相似的句子嵌入,使得相似的句子在向量空间中距离更近。
  • 大型语言模型 (Large Language Models - LLMs):
    • 概念定义: 拥有数亿甚至数千亿参数的深度学习模型,通过在海量文本数据上进行预训练,学习了丰富的语言知识、世界知识和推理能力。
    • 核心特点:
      • 预训练知识 (Pre-trained knowledge): 模型包含了训练数据中的大量事实、概念和语言模式。
      • 高级语言理解能力 (Advanced language understanding capabilities): 能够理解复杂的指令、上下文,并进行文本生成、摘要、问答等任务。
      • 涌现能力 (Emergent abilities): 指的是 LLM 在达到一定规模后,在某些任务上突然展现出之前小规模模型不具备的能力,例如复杂的推理能力。
      • 上下文学习 (In-context Learning): LLM 能够通过在输入提示 (prompt) 中提供少量示例(few-shot examples)或指令,从而在不更新模型参数的情况下,适应并执行新任务。
      • 参数高效微调 (Parameter Efficient Fine-Tuning - PEFT) / LoRA (Low-Rank Adaptation): 一种微调 LLM 的技术,通过只训练少量新增参数(例如,在 Transformer 层的低秩矩阵)来适应特定下游任务,而不是微调整个庞大的模型,从而大大降低了计算资源需求和存储成本。
  • 嵌入 (Embeddings):
    • 概念定义: 将离散的实体(如用户 ID、物品 ID、词语、句子、图像)映射到连续的、低维的向量空间中的技术。
    • 作用: 在嵌入空间中,语义相似的实体通常具有较小的向量距离。这使得模型能够处理高维稀疏数据,并捕捉实体之间的复杂关系。
  • 序列推荐 (Sequential Recommendation):
    • 概念定义: 一种推荐任务,其目标是根据用户过去一系列的交互行为(例如,点击、购买、浏览顺序),预测用户接下来最可能交互的物品。它强调用户行为的时间顺序和上下文依赖性。
  • 提示工程 (Prompt Engineering):
    • 概念定义: 指的是设计和优化输入给 LLM 的文本指令(即提示),以引导 LLM 更好地理解任务意图并生成期望的输出。
    • 作用: 精心设计的提示可以显著提高 LLM 在特定任务上的性能,尤其是在上下文学习场景中。
    • 软提示 (Soft Prompts): 不直接修改原始模型参数,而是训练一些可学习的连续向量(而非离散的文本词元),这些向量作为“虚拟词元”插入到输入中,以引导 LLM 的行为。

3.2. 前人工作

本论文讨论了三类主要的相关工作:协同过滤、模态感知推荐系统和基于 LLM 的推荐系统。

3.2.1 协同过滤 (Collaborative Filtering)

  • 发展历程: CF 是推荐系统的基石,通过利用用户历史偏好进行推荐。
    • 矩阵分解 (Matrix Factorization - MF): 代表性方法,通过将稀疏的用户-物品交互矩阵分解为低秩的用户和物品潜在因子矩阵,来捕捉用户偏好。例如 PMF (Probabilistic Matrix Factorization) 和 SVD (Singular Value Decomposition) 进一步提升了预测能力。
    • 深度学习增强的 CF: 随着深度学习的发展,AutoRec (Autoencoders Meet Collaborative Filtering) 和 NCF (Neural Collaborative Filtering) 利用神经网络来捕捉更复杂的非线性用户-物品交互模式。
    • 序列推荐 (Sequential Recommendation): 近年来,许多研究开始关注用户交互行为的序列历史,而非仅仅静态的交互矩阵。
      • CaserNextItNet 利用卷积神经网络 (Convolutional Neural Networks - CNNs) 捕捉局部序列信息,将物品序列视为图像进行处理。
      • GRU4RecSASRec (Self-Attentive Sequential Recommendation) 则分别使用循环神经网络 (Recurrent Neural Networks - RNNs)自注意力机制 (Self-attention mechanism) 来建模用户序列,其中 SASRec 是一种基于 Transformer 架构的 SOTA 序列推荐模型,通过自注意力机制有效捕捉用户在序列中的长短期依赖。
  • 局限性: 传统 CF 模型主要依赖于用户和物品的 ID 信息以及交互历史,忽略了物品本身的模态信息,因此在冷启动场景中表现不佳。

3.2.2 模态感知推荐系统 (Modality-aware Recommender Systems)

  • 核心思想: 利用物品的模态信息(如标题、描述、图片)来增强推荐性能,主要目标是解决冷启动问题。
  • 发展历程:
    • 早期方法: 利用 CNNs 提取视觉特征,并通过马氏距离 (Mahalanobis distance) 建模人类视觉偏好。
    • 基于预训练模态编码器: 随着 BERTResNetVision-Transformer 等预训练编码器的发展,模态感知推荐系统得到极大推动。
      • NOVADMRL 通过注意力机制 (attention mechanism) 将纯物品嵌入和文本整合的物品嵌入进行非侵入式或解耦式融合。
      • MoRec 利用模态编码器将原始模态特征投影,直接替代 CF 模型中使用的物品嵌入。
      • 基于预训练的模型:
        • Liu et al. 通过构建用户-用户和物品-物品协同交互图来提取协同知识,然后通过注意力机制以自回归方式与用户/物品文本信息融合。
        • CTRL 通过对比学习 (contrastive learning) 目标,使用成对的表格数据和文本数据预训练 CF 模型,然后针对特定推荐任务进行微调。
        • RECFORMER 将用户偏好和物品特征建模为基于 Transformer 架构的语言表示,将序列推荐任务表述为下一个物品句子预测任务。
  • 局限性: 尽管这些方法在冷启动场景表现良好,但它们通常过度依赖模态信息,导致在暖启动场景下,由于缺乏对 ID 级别协同知识的有效建模,性能可能不如传统 CF 模型。

3.2.3 基于LLM的推荐系统 (LLM-based Recommender Systems)

  • 核心思想: 利用 LLMs 强大的语言理解能力、预训练知识和推理能力来解决推荐任务。
  • 发展历程:
    • 上下文学习 (In-context Learning): 早期研究 (Gao et al., Sanner et al., Wang and Lim) 利用 OpenAI-GPT 结合上下文学习,通过精心设计的提示 (prompting) 风格(如指令、少样本提示)进行推荐。这些方法展示了 LLM 作为推荐系统的潜力,尤其是在利用丰富的物品信息和自然语言理解方面。
    • 微调 LLM (Fine-tuning LLM): 仅依赖上下文学习的 LLM 推荐系统通常不如传统推荐模型,因为 LLM 的训练任务与推荐任务之间存在差距。
      • TALLRec 通过参数高效微调 (Parameter Efficient Fine-Tuning - PEFT) 方法(如 LoRA)使用推荐数据微调 LLM。TALLRec 经验性地证明了在冷启动和跨领域场景中,微调后的 LLM 优于传统 CF 模型。
  • 局限性: TALLRec 简单地将传统推荐任务转换为指令文本并进行微调,但它仍然未能明确捕获在暖启动场景中至关重要的协同知识。它主要侧重于文本信息,这解释了其在冷启动场景中的优势,以及在暖启动场景中表现不如传统 CF 模型的原因。

3.3. 技术演进

该领域的技术演进可以概括为以下路径:

  1. 传统协同过滤 (ID-based CF):Matrix FactorizationSASRec 为代表,纯粹依赖用户-物品交互 ID,擅长处理暖启动场景,但在冷启动场景下性能急剧下降。
  2. 模态感知推荐系统 (Modality-aware RecSys): 在传统 CF 基础上引入物品的文本、图像等模态信息,利用预训练模态编码器提取特征。这有效缓解了冷启动问题,但往往牺牲了部分协同知识的建模能力,导致在暖启动场景不如纯 ID-based CF。MoRecCTRLRECFORMER 是典型代表。
  3. 基于大型语言模型推荐系统 (LLM-based RecSys): 更进一步利用 LLM 的强大语言理解和推理能力处理模态信息,通过上下文学习 (In-context Learning)参数高效微调 (PEFT) 将 LLM 应用于推荐任务。TALLRec 是此方向的代表,在冷启动和跨领域表现出色。然而,这类方法往往因为缺乏直接的协同知识而无法在暖启动场景超越传统 CF。

3.4. 差异化分析

本论文提出的 A-LLMRec 与现有工作的主要区别和创新点在于:

  • 同时解决冷/暖启动问题: 现有方法通常只能在冷启动或暖启动场景中表现优异。A-LLMRec 的核心优势是设计了一个“全能型”系统,能够在两种场景下都取得卓越性能。它通过显式地将 CF-RecSys 的协同知识注入 LLM,弥补了现有 LLM-based 推荐系统在暖启动场景中的不足。

  • 协同知识的直接利用: 不同于 TALLRec 等方法试图通过微调 LLM 来“间接”学习协同知识,A-LLMRec 直接利用了预训练的 SOTA CF-RecSys 中已经学习到的高质量用户/物品嵌入作为协同知识的来源,并通过一个对齐网络 (alignment network) 将其与 LLM 的词元空间桥接。

  • 模型无关性: A-LLMRec 的设计使其能够与任何现有的 CF-RecSys 集成。这意味着企业可以继续使用其定制的、高度优化的 CF 模型,并在此基础上轻松引入 LLM 的能力,而无需重新开发或替换整个推荐栈。

  • 高效率: 现有基于 LLM 的推荐系统(如 TALLRec)通常需要对 LLM 进行大规模的微调(即使是参数高效微调 LoRA 也涉及 LLM 参数的更新),这仍然消耗大量计算资源和时间。A-LLMRec 冻结了 CF-RecSys 和 LLM 的参数,仅训练一个轻量级的对齐网络,这显著提高了训练和推理效率,使其更具实用性。

  • 超越推荐任务的语言生成能力: A-LLMRec 不仅提升了推荐性能,还通过实验证明其能够基于对协同知识的理解,生成高质量的自然语言输出(如用户喜欢的电影类型),这是纯粹基于 LLM 的推荐系统(如 LLM-Only)难以做到的。


4. 方法论

本节将详细阐述 A-LLMRec (All-round LLM-based Recommender system) 的方法论。A-LLMRec 的核心目标是克服传统协同过滤 (CF-RecSys) 在冷启动场景下的不足,以及现有基于大型语言模型 (LLM) 推荐系统在暖启动场景下缺乏协同知识的问题。它通过一个两阶段的对齐过程,将预训练的 CF-RecSys 的协同知识与冻结的 LLM 的语言理解能力相结合,从而实现“全能型”推荐。

4.1. 方法原理

A-LLMRec 的核心思想是让一个冻结的(即参数不更新的)大型语言模型 (LLM) 能够直接利用来自一个冻结的最先进 (state-of-the-art) 协同过滤推荐系统 (CF-RecSys) 所学习到的协同知识 (collaborative knowledge)。这里的协同知识具体体现在 CF-RecSys 训练得到的高质量用户/物品嵌入 (user/item embeddings) 中。

为了实现这一目标,A-LLMRec 设计了一个对齐网络 (alignment network)。这个网络的作用是将 CF-RecSys 输出的物品嵌入(携带协同知识)与 LLM 的词元空间 (token space) 进行对齐。通过这种对齐,LLM 不仅能处理物品的文本描述(模态知识),还能“理解”并利用物品在协同过滤语境下的相似性和流行度等信息。

具体来说,A-LLMRec 分为两个主要阶段:

  1. 阶段一:协同与文本知识对齐 (Alignment between Collaborative and Textual Knowledge):此阶段的目标是整合来自 CF-RecSys 的物品嵌入(协同知识)和来自预训练 Sentence-BERT (SBERT) 的物品文本嵌入(文本知识),生成一种联合协同-文本嵌入 (joint collaborative-text embedding)

  2. 阶段二:联合协同-文本嵌入与LLM对齐 (Alignment between Joint Collaborative-Text Embedding and LLM):此阶段的目标是将阶段一生成的联合嵌入以及用户表示(来自 CF-RecSys)投影到 LLM 的词元空间,并通过精心设计的提示 (prompt) 将这些信息输入给 LLM,使 LLM 能够直接进行推荐预测。

    这种设计使得 A-LLMRec 具备以下优势:

  • 模型无关性 (Model-agnostic): 任何现有的、预训练好的 CF-RecSys 都可以作为骨干模型,提供其物品嵌入。
  • 高效率 (Efficiency): 只有对齐网络(轻量级 MLP)需要训练,CF-RecSys 和 LLM 本身都是冻结的,避免了 LLM 大规模微调的计算开销。

4.2. 核心方法详解 (逐层深入)

4.2.1 问题定义:序列推荐 (Sequential Recommendation)

本文主要关注序列推荐任务 (sequential recommendation task)

  • 符号定义:

    • D\mathcal{D}: 历史用户-物品交互数据集。
    • U\mathcal{U}: 用户集合。
    • I\mathcal{I}: 物品集合。
    • T\mathcal{T}: 物品标题/描述文本集合。
    • SS: 用户交互序列集合。
    • Su=(i1u,i2u,,iku,iSuu)SS^u = (i_1^u, i_2^u, \cdots, i_k^u, \cdots i_{|S^u|}^u) \in S: 用户 uUu \in \mathcal{U} 的交互序列,其中 ikui_k^u 表示用户 uu 的第 kk 次交互的物品。
    • S1:ku=(i1u,i2u,,iku)S_{1:k}^u = (i_1^u, i_2^u, \cdots, i_k^u): 用户 uu 的从第一次到第 kk 次交互的子序列。
    • ERI×d\mathbf{E} \in \mathbb{R}^{|\mathcal{I}| \times d}: 物品嵌入矩阵,其中 dd 是嵌入维度。
    • Eiju\mathbf{E}_{i_j^u}: 物品 ijui_j^u 的嵌入向量,即 E\mathbf{E} 的第 ijui_j^u 行。
    • E1:ku=(Ei1u,Ei2u,,Eiku)Rk×d\mathbf{E}_{1:k}^u = (\mathbf{E}_{i_1^u}, \mathbf{E}_{i_2^u}, \dots, \mathbf{E}_{i_k^u}) \in \mathbb{R}^{k \times d}: 序列 S1:kuS_{1:k}^u 中物品的嵌入矩阵。
  • 任务目标: 给定用户 uu 的历史交互序列 S1:kuS_{1:k}^u,预测用户接下来最可能交互的物品 ik+1ui_{k+1}^u。传统的 CF-RecSys 模型(如 SASRec)通过优化以下目标函数来学习和预测下一个物品:

    maxΘuUk=1Su1p(ik+1uS1:ku;Θ) \operatorname* { \max } _ { \Theta } \prod _ { u \in \mathcal { U } } \prod _ { k = 1 } ^ { | S ^ { u } | - 1 } p ( i _ { k + 1 } ^ { u } | S _ { 1 : k } ^ { u } ; \Theta )

    • 符号解释:
      • maxΘ\operatorname* { \max } _ { \Theta }:表示通过调整参数 Θ\Theta 来最大化目标函数。

      • U\mathcal{U}: 用户的集合。

      • SuS^u: 用户 uu 的完整历史交互序列。

      • Su|S^u|: 用户 uu 交互序列的长度。

      • p(ik+1uS1:ku;Θ)p(i_{k+1}^u | S_{1:k}^u; \Theta): 在用户 uu 的历史交互序列 S1:kuS_{1:k}^u 条件下,预测第 k+1k+1 个交互物品 ik+1ui_{k+1}^u 的概率。这个概率是由 CF-RecSys 模型及其参数 Θ\Theta 决定的。

      • Θ\Theta: CF-RecSys 的所有可学习参数的集合。

        通过最大化这个目标函数,模型可以学习到在给定用户历史行为序列的情况下,预测下一个物品的概率分布。

需要注意的是,虽然本文主要关注序列推荐任务,但 A-LLMRec 具有模型无关性,可以通过替换骨干 CF-RecSys(例如,从序列推荐模型 SASRec 替换为非序列推荐模型 NCF)来应用于非序列推荐任务。

4.2.2 阶段一:协同与文本知识对齐 (Alignment between Collaborative and Textual Knowledge)

本阶段的目标是将来自冻结的 CF-RecSys 的物品嵌入(代表协同知识)与物品的文本信息(代表文本知识)进行对齐,以生成一种融合了两者信息的联合协同-文本嵌入 (joint collaborative-text embedding)

4.2.2.1 提取文本嵌入

我们使用一个预训练的 Sentence-BERT (SBERT) 模型来从物品的文本信息中提取文本嵌入。SBERT 在训练过程中会被微调,以更好地适应推荐任务。

  • 对于每个物品 ii,其文本信息包括标题 tit^i 和描述 did^i
  • SBERT 将这些文本信息编码为一个文本嵌入 QiR768\mathbf{Q}_i \in \mathbb{R}^{768}Qi=SBERT("Title: ti,Description: di") \mathbf{Q}_i = SBERT(\text{"Title: } t^i, \text{Description: } d^i\text{"}) 其中,SBERT 的输出维度为 768。

4.2.2.2 潜在空间匹配 (Latent Space Matching)

为了对齐物品嵌入和文本嵌入,我们引入了两个编码器:

  • 物品编码器 (item encoder) fIencf_I^{enc}: 这是一个单层多层感知机 (Multi-Layer Perceptron - MLP)。它将来自冻结 CF-RecSys 的物品原始嵌入 EiRd\mathbf{E}_i \in \mathbb{R}^d 编码为一个潜在物品嵌入 eiRd\mathbf{e}_i \in \mathbb{R}^{d'}ei=fIenc(Ei) \mathbf{e}_i = f_I^{enc}(\mathbf{E}_i) 其中 dd' 是潜在空间的维度。
  • 文本编码器 (text encoder) fTencf_T^{enc}: 同样是一个单层 MLP。它将 SBERT 提取的文本嵌入 QiR768\mathbf{Q}_i \in \mathbb{R}^{768} 编码为一个潜在文本嵌入 qiRd\mathbf{q}_i \in \mathbb{R}^{d'}qi=fTenc(Qi) \mathbf{q}_i = f_T^{enc}(\mathbf{Q}_i)

然后,我们通过最小化潜在空间匹配损失 (latent space matching loss) 来使这两个潜在嵌入尽可能接近,从而在它们的语义之间建立联系: Lmatching=ESuS[EiSu[MSE(ei,qi)]]=ESuS[EiSu[MSE(fIenc(Ei),fTenc(Qi))]] \begin{array}{r l} \mathcal{L}_{\mathrm{matching}} &= \underset{S^u \in S}{\mathbb{E}} \left[ \underset{i \in S^u}{\mathbb{E}} \left[ MSE(\mathbf{e}_i, \mathbf{q}_i) \right] \right] \\ &= \underset{S^u \in S}{\mathbb{E}} \left[ \underset{i \in S^u}{\mathbb{E}} \left[ MSE(f_I^{enc}(\mathbf{E}_i), f_T^{enc}(\mathbf{Q}_i)) \right] \right] \end{array}

  • 符号解释:
    • Lmatching\mathcal{L}_{\mathrm{matching}}: 潜在空间匹配损失。
    • ESuS\underset{S^u \in S}{\mathbb{E}}: 对所有用户序列 SuS^u 的期望。
    • EiSu\underset{i \in S^u}{\mathbb{E}}: 对序列 SuS^u 中所有物品 ii 的期望。
    • MSE(a,b)MSE(\mathbf{a}, \mathbf{b}): 两个向量 a\mathbf{a}b\mathbf{b} 之间的均方误差损失。
    • Ei\mathbf{E}_i: 物品 ii 的原始嵌入,来自冻结的 CF-RecSys。
    • Qi\mathbf{Q}_i: 物品 ii 的文本嵌入,来自 SBERT
    • fIenc()f_I^{enc}(\cdot): 物品编码器。
    • fTenc()f_T^{enc}(\cdot): 文本编码器。

4.2.2.3 避免过平滑表示 (Avoiding Over-smoothed Representation)

仅仅优化 Lmatching\mathcal{L}_{\mathrm{matching}} 可能导致编码器生成过平滑 (over-smoothed) 的表示(即 eiqi\mathbf{e}_i \approx \mathbf{q}_i 且它们都趋向于平凡表示,如全零向量),从而丢失原始信息。为了解决这个问题并保留物品嵌入和文本嵌入的原始信息,我们为每个编码器添加了一个解码器,并引入重建损失 (reconstruction losses):

  • 物品重建损失 (Item Reconstruction Loss): Litemrecon=ESuS[EiSu[MSE(Ei,fIdec(fIenc(Ei)))]] \mathcal{L}_{\mathrm{item-recon}} = \underset{S^u \in S}{\mathbb{E}} \left[ \underset{i \in S^u}{\mathbb{E}} \left[ MSE(\mathbf{E}_i, f_I^{dec}(f_I^{enc}(\mathbf{E}_i))) \right] \right]
  • 文本重建损失 (Text Reconstruction Loss): Ltextrecon=ESuS[EiSu[MSE(Qi,fTdec(fTenc(Qi)))]] \mathcal{L}_{\mathrm{text-recon}} = \underset{S^u \in S}{\mathbb{E}} \left[ \underset{i \in S^u}{\mathbb{E}} \left[ MSE(\mathbf{Q}_i, f_T^{dec}(f_T^{enc}(\mathbf{Q}_i))) \right] \right]
    • 符号解释:
      • Litemrecon\mathcal{L}_{\mathrm{item-recon}}: 物品重建损失。
      • Ltextrecon\mathcal{L}_{\mathrm{text-recon}}: 文本重建损失。
      • fIdecf_I^{dec}: 物品解码器,用于将潜在物品嵌入 ei\mathbf{e}_i 重建回原始物品嵌入 Ei\mathbf{E}_i
      • fTdecf_T^{dec}: 文本解码器,用于将潜在文本嵌入 qi\mathbf{q}_i 重建回原始文本嵌入 Qi\mathbf{Q}_i

4.2.2.4 推荐损失 (Recommendation Loss)

除了对齐协同知识和文本知识,我们还引入了一个推荐损失来显式地整合协同知识,并告知模型推荐任务的目标。这个损失借鉴了 SASRec 等序列推荐模型的思想: Lrec=SuS[log(σ(s(xSu1u,fIdec(fIenc(EiSuu)))))+log(1σ(s(xSu1u,fIdec(fIenc(EiSuu,)))))] \begin{array}{r} \mathcal{L}_{\mathrm{rec}} = - \displaystyle \sum_{S^u \in S} \left[ \log(\sigma(s(\mathbf{x}_{\lvert S^u \rvert - 1}^u, f_I^{dec}(f_I^{enc}(\mathbf{E}_{i_{\lvert S^u \rvert}^u})))) ) \right. \\ \left. + \log(1 - \sigma(s(\mathbf{x}_{\lvert S^u \rvert - 1}^u, f_I^{dec}(f_I^{enc}(\mathbf{E}_{i_{\lvert S^u \rvert}^u, -})))) ) \right] \end{array}

  • 符号解释:
    • Lrec\mathcal{L}_{\mathrm{rec}}: 推荐损失。

    • SuS\displaystyle \sum_{S^u \in S}: 对所有用户序列求和。

    • xSu1u=CFRecSys(S1:Su1u)Rd\mathbf{x}_{\lvert S^u \rvert - 1}^u = \mathrm{CF-RecSys}(S_{1:\lvert S^u \rvert - 1}^u) \in \mathbb{R}^d: 用户表示,由 CF-RecSys 根据用户 uu 历史交互序列 S1:Su1uS_{1:\lvert S^u \rvert - 1}^u 提取。

    • EiSuuRd\mathbf{E}_{i_{\lvert S^u \rvert}^u} \in \mathbb{R}^d: 用户实际交互的最后一个物品(正样本)的嵌入。

    • EiSuu,Rd\mathbf{E}_{i_{\lvert S^u \rvert}^u, -} \in \mathbb{R}^d: 随机采样的负样本物品(未交互)的嵌入。

    • σ()\sigma(\cdot): Sigmoid 函数,将输入值映射到 (0,1)(0, 1) 之间,表示概率。

    • s(a,b)s(\mathbf{a}, \mathbf{b}): 向量 a\mathbf{a}b\mathbf{b}点积 (dot product),用于衡量两个向量之间的相似度。

      这个损失函数旨在最大化正样本物品与用户表示的点积(即相似度)通过 Sigmoid 函数后的对数概率,同时最小化负样本物品与用户表示的点积的对数概率。

4.2.2.5 阶段一最终损失 (Final Loss of Stage-1)

阶段一的最终目标函数 Lstage1\mathcal{L}_{\mathrm{stage-1}} 是上述所有损失项的加权和: Lstage1=Lmatching+αLitemrecon+βLtextrecon+Lrec \mathcal{L}_{\mathrm{stage-1}} = \mathcal{L}_{\mathrm{matching}} + \alpha \mathcal{L}_{\mathrm{item-recon}} + \beta \mathcal{L}_{\mathrm{text-recon}} + \mathcal{L}_{\mathrm{rec}}

  • 符号解释:
    • α\alphaβ\beta: 控制物品重建损失和文本重建损失重要性的超参数系数。

      为了训练效率,在优化 Lstage1\mathcal{L}_{\mathrm{stage-1}} 时,我们通常只考虑每个用户序列中的最后一个物品。然而,考虑到序列中的所有物品可以进一步提升推荐性能(如实验所示)。

4.2.2.6 联合协同-文本嵌入 (Joint Collaborative-Text Embedding)

在阶段一训练完成后,我们得到的潜在物品嵌入 ei=fIenc(Ei)\mathbf{e}_i = f_I^{enc}(\mathbf{E}_i) 被视为物品 ii联合协同-文本嵌入 (joint collaborative-text embedding)。这个嵌入融合了 CF-RecSys 学习到的协同知识和 SBERT 提取的文本知识。

  • 冷启动物品处理: 当遇到在 CF-RecSys 训练期间未见过的新物品 (new items)冷启动物品 (cold items) 时(即没有原始物品嵌入 Ei\mathbf{E}_i),我们可以转而使用文本编码器 fTencf_T^{enc} 来提取联合嵌入,即 qi=fTenc(Qi)\mathbf{q}_i = f_T^{enc}(\mathbf{Q}_i)。由于 fIencf_I^{enc}fTencf_T^{enc} 在阶段一被训练成对齐它们的潜在空间,我们期望 qi\mathbf{q}_i 也能隐式地捕捉到协同知识,同时显式地包含文本知识。

4.2.3 阶段二:联合协同-文本嵌入与LLM对齐 (Stage-2: Alignment between Joint Collaborative-Text Embedding and LLM)

在阶段一我们获得了融合协同和文本知识的联合嵌入。阶段二的目标是将这些联合嵌入以及用户表示与 LLM 的词元空间进行对齐,并通过设计合适的提示 (prompt) 来指导 LLM 完成推荐任务。需要注意的是,在阶段二中,阶段一训练好的 item encoder fIencf_I^{enc} 等组件是冻结的。

该图像是示意图,展示了A-LLMRec推荐系统的框架及其工作流程。图中包括三个主要部分:CF-RecSys、A-LLMRec以及大型语言模型(LLM),并显示了用户-项目交互历史和输入提示如何流入不同组件以生成推荐。每个部分的功能通过箭头和标签进行了标注,清晰地展示了系统在冷场景和暖场景中的应用。 该图像是示意图,展示了A-LLMRec推荐系统的框架及其工作流程。图中包括三个主要部分:CF-RecSys、A-LLMRec以及大型语言模型(LLM),并显示了用户-项目交互历史和输入提示如何流入不同组件以生成推荐。每个部分的功能通过箭头和标签进行了标注,清晰地展示了系统在冷场景和暖场景中的应用。

图2: A-LLMRec 推荐系统的整体架构。该图展示了系统如何通过两阶段流程整合 CF-RecSys、对齐网络和 LLM,以实现全能型推荐。

4.2.3.1 投影协同知识到LLM词元空间 (Projecting collaborative knowledge onto the token space of LLM)

为了让冻结的 LLM 能够将用户表示和联合协同-文本嵌入作为输入,我们需要将它们投影到 LLM 的词元嵌入空间。为此,我们引入了两个双层 MLP:

  • 用户投影器 FUF_U: 将用户表示 xuRd\mathbf{x}^u \in \mathbb{R}^d 投影到 LLM 的词元空间。 Ou=FU(xu) \mathbf{O}_u = F_U(\mathbf{x}^u)
  • 物品投影器 FIF_I: 将联合协同-文本嵌入 eiRd\mathbf{e}_i \in \mathbb{R}^{d'} 投影到 LLM 的词元空间。 Oi=FI(ei) \mathbf{O}_i = F_I(\mathbf{e}_i)
  • 符号解释:
    • OuRdtoken\mathbf{O}_u \in \mathbb{R}^{d^{\mathrm{token}}}: 投影后的用户嵌入,维度为 LLM 的词元空间维度 dtokend^{\mathrm{token}}

    • OiRdtoken\mathbf{O}_i \in \mathbb{R}^{d^{\mathrm{token}}}: 投影后的物品联合嵌入,维度为 LLM 的词元空间维度 dtokend^{\mathrm{token}}

      通过这些投影,Ou\mathbf{O}_uOi\mathbf{O}_i 可以被视为 LLM 的普通词元,并被直接整合到输入提示中。

4.2.3.2 提示设计以整合协同知识 (Prompt Design for Integrating Collaborative Knowledge)

提示工程 (Prompt engineering) 对于引导 LLM 执行复杂任务至关重要。传统的基于 LLM 的推荐系统主要关注如何通过提示整合模态信息,而忽略了协同知识。A-LLMRec 引入了一种新颖的提示设计方法,将协同知识与推荐指令相结合。

Figure 3: An example prompt of A-LLMRec designed for the Amazon Movies dataset. For other datasets, we keep the same format but adjust the verbs and nouns to fit the context (e.g. 'watched' 'bought', 'movie' \( \\mathrm { { \\dot { \\mathbf { u t e } } } }\) m').
该图像是一个示意图,展示了 A-LLMRec 在推荐电影中的输入输出结构。用户输入包含过去观看的电影历史和候选电影集合,LLM 输出为下一个推荐的电影标题,其中历史和候选电影包含其标题与嵌入信息。

图3: A-LLMRec 为亚马逊电影数据集设计的提示示例 (原文 Figure 3)。

如 Figure 3 (原文 Figure 3) 所示,我们通过以下方式将投影后的嵌入集成到提示中:

  • 用户表示 Ou\mathbf{O}_u: 将投影后的用户表示 Ou\mathbf{O}_u 放置在提示的开头。这为 LLM 提供了关于用户的个性化信息,类似于软提示 (soft prompts),有助于 LLM 更好地理解用户偏好。

  • 物品联合嵌入 Oi\mathbf{O}_i: 将投影后的物品联合嵌入 Oi\mathbf{O}_i 放置在对应的物品标题旁边。这使得 LLM 在处理物品文本信息的同时,也能利用其所携带的协同知识。

    这种结构化的提示作为 LLM 的输入,期望 LLM 生成针对该用户的定制化推荐。

  • 学习目标: 阶段二的学习目标是最大化 LLM 预测下一个物品标题的概率: maxθSuSk=1yulog(Pθ,Θ(ykupu,y<ku)) \operatorname* { \max } _ { \theta } \sum _ { S ^ { u } \in S } \sum _ { k = 1 } ^ { | y ^ { u } | } \log ( P _ { \theta , \Theta } ( y _ { k } ^ { u } | \mathcal { p } ^ { u } , y _ { < k } ^ { u } ) )

    • 符号解释:
      • maxθ\operatorname* { \max } _ { \theta }: 表示通过调整参数 θ\theta 来最大化目标函数。

      • θ\theta: 投影器 FUF_UFIF_I 的可学习参数。

      • Θ\Theta: LLM 的冻结参数

      • SuS^u: 用户 uu 的交互序列。

      • yu|y^u|: 下一个物品标题 yuy^u 的词元长度。

      • Pθ,Θ(ykupu,y<ku)P_{\theta, \Theta}(y_k^u | \mathcal{p}^u, y_{<k}^u): 在给定输入提示 pu\mathcal{p}^u 和前面已生成的词元 y<kuy_{<k}^u 的条件下,LLM 预测生成下一个词元 ykuy_k^u 的概率。

      • pu\mathcal{p}^u: 用户 uu 的输入提示,其中包含了投影后的用户表示 Ou\mathbf{O}_u 和物品联合嵌入 Oi\mathbf{O}_i

      • yuy^u: 用户 uu 序列中下一个物品的标题。

      • ykuy_k^u: 物品标题 yuy^u 的第 kk 个词元。

      • y<kuy_{<k}^u: 物品标题 yuy^u 的前 k-1 个词元。

        同样,为了效率,我们通常只使用每个用户序列中的最后一个物品来训练阶段二。


5. 实验设置

本节将详细介绍 A-LLMRec 的实验设置,包括使用的数据集、评估指标、对比基线模型以及具体的实现细节。

5.1. 数据集

为了全面评估模型性能,实验使用了来自亚马逊数据集 [13, 32] 的四个真实世界数据集:Movies and TVVideo GamesBeautyToys。这些数据集都包含丰富的文本信息(如物品的“标题”和“描述”)。选择这些数据集的原因在于它们在用户和物品数量方面具有不同的统计特征,有助于进行全面的模型分析。

以下是数据集的详细描述和预处理规则:

  • Movies and TV (电影和电视):

    • 规模: 约 30 万用户,6 万物品。
    • 特点: 用于大规模评估模型。
    • 预处理: 移除了交互次数少于 5 次的用户和物品。
  • Video Games (视频游戏):

    • 规模: 约 6.4 万用户,3.3 万物品。
    • 特点: 用于中等规模数据评估。
    • 预处理: 移除了交互次数少于 5 次的用户和物品。
  • Beauty (美妆):

    • 规模: 约 9 千用户,6 千物品。
    • 特点: 用于模拟小型和冷启动数据集。
    • 预处理: 移除了交互次数少于 4 次的用户和物品。为了保留一些用户-物品反馈信息,将评分高于 3 的物品视为正样本,所有其他物品(包括未交互物品)视为负样本。
  • Toys (玩具):

    • 规模: 约 3 万用户,6 万物品。

    • 特点: 物品数量远大于用户数量,与其他数据集不同。

    • 预处理: 移除了交互次数少于 4 次的用户和物品。与 Beauty 数据集类似,将评分高于 3 的物品视为正样本,所有其他物品视为负样本。

      以下是经过预处理后,各数据集的统计信息:

      Datasets #Users #Items #Interactions. Avg. Len
      Movies and TV 297,498 59,944 3,409,147 11.46
      Video Games 64,073 33,614 598,509 8.88
      Beauty 9,930 6,141 63,953 6.44
      Toys 30,831 61,081 282,213 9.15

以上是原文 Table 2 的结果。#Users 表示用户数量,#Items 表示物品数量,#Interactions 表示总交互次数,Avg. Len 表示用户序列的平均长度。

5.2. 评估指标

所有实验均采用广泛使用的命中率@1 (Hit Ratio at 1 - Hit@1) 作为定量比较的指标。

  • 命中率@1 (Hit Ratio at 1 - Hit@1):

    1. 概念定义 (Conceptual Definition): Hit@1 是推荐系统评估中常用的指标之一,它衡量的是在推荐列表的第一个位置是否包含了用户实际会交互(即目标)的物品。这个指标对于那些推荐结果顺序非常重要,特别是当用户倾向于只关注推荐列表最顶部的几个物品时。Hit@1 值越高,表示模型将正确物品推荐到最顶部的能力越强。
    2. 数学公式 (Mathematical Formula): Hit@1=Number of users for whom the relevant item is in the top 1 positionTotal number of users \text{Hit@1} = \frac{\text{Number of users for whom the relevant item is in the top 1 position}}{\text{Total number of users}}
    3. 符号解释 (Symbol Explanation):
      • Number of users for whom the relevant item is in the top 1 position\text{Number of users for whom the relevant item is in the top 1 position}: 在测试集中,推荐列表的第一个位置包含用户实际交互的物品的用户数量。
      • Total number of users\text{Total number of users}: 参与评估的用户总数。
  • 评估设置 (Evaluation Setting):

    • 用户序列被划分为训练集、验证集和测试集。
    • 对于每个用户序列,最近交互的两个物品 iSuui_{|S^u|}^uiSu1ui_{|S^u|-1}^u 分别用作测试集和验证集。其余的序列用于训练。
    • 为了评估序列推荐模型的性能,每个用户的测试集会添加 19 个随机选择的未交互物品,因此每个用户的测试集包含 1 个正样本物品和 19 个负样本物品。

5.3. 对比基线

论文将 A-LLMRec 与以下三类基线模型进行了比较:

5.3.1 协同过滤推荐系统 (Collaborative Filtering Recommender Systems)

这些模型主要依靠用户-物品交互数据来学习偏好。

  • NCF (Neural Collaborative Filtering) [15]: 结合神经网络(MLP)来捕捉协同信息,是一个双塔模型,包含独立的用户和物品嵌入矩阵组件。
  • NextItNet [50]: 提出了一种时间卷积网络,利用一维扩张卷积层 (1D-dilated convolutional layers) 和残差连接 (residual connections) 来捕捉交互序列中固有的长期依赖关系。
  • GRU4Rec [17]: 采用循环神经网络 (Recurrent Neural Networks - RNNs) 中的 门控循环单元 (Gated Recurrent Units - GRUs) 来建模用户行为序列,主要用于会话推荐。
  • SASRec (Self-Attentive Sequential Recommendation) [20]: 本文的主要基线 CF-RecSys,是最先进 (state-of-the-art) 的协同过滤推荐系统之一,采用自注意力编码方法 (self-attention encoding method) 来从用户行为序列中建模用户偏好。

5.3.2 模态感知推荐系统 (Modality-aware Recommender Systems)

这些模型利用物品的模态信息来增强推荐。

  • MoRec [51]: 利用预训练的 SBERT 来利用物品的文本信息,生成物品的初始嵌入,这些嵌入随后用于协同过滤模型。本文实验中,SASRec 被用作 MoRec 的骨干模型。
  • CTRL (Connect Tabular and Language Model or CTR Prediction) [25]: 采用两阶段学习过程:第一阶段通过对比学习 (contrastive learning) 在物品的文本信息上初始化骨干模型;第二阶段则在推荐任务上微调模型。本文实验中,SASRec 被用作 CTRL 的骨干模型。
  • RECFORMER [24]: 使用 Transformer 架构将用户偏好和物品特征建模为语言表示,将序列推荐任务转化为预测下一个物品句子(通过将物品的键值属性扁平化为句子)。

5.3.3 基于LLM的推荐系统 (LLM-based Recommender Systems)

这些模型利用大型语言模型的能力进行推荐。

  • LLM-Only: 仅使用开源 LLM 模型 OPT-6.7B [52],结合与推荐任务相关的提示 (prompt) 进行推荐。其提示与 Figure 6 所示的提示相同,但不包含用户表示和物品嵌入。
  • TALLRec [2]: 本文的主要 LLM-based 基线,通过参数高效微调 (Parameter Efficient Fine-Tuning - PEFT) 方法(如 LoRA [18])微调 LLMs,学习基于文本提示的推荐任务。其方法涉及提供用户交互历史和一个目标物品,然后判断用户是否会偏好这个目标物品。
  • MLP-LLM: 一个额外设计的基于 LLM 的推荐模型,用于分析。与 A-LLMRec 相比,该模型直接使用 MLP 层连接来自冻结 CF-RecSys 的用户和物品嵌入与 LLM,而不是 A-LLMRec 中复杂的两阶段对齐模块。其提示与 Figure 3 所示的提示相同。

5.4. 实现细节

  • 骨干模型:
    • LLM 骨干: OPT-6.7B [52] 被用作所有基于 LLM 模型的骨干 LLM(包括 LLM-OnlyTALLRecMLP-LLM)。
    • CF-RecSys 骨干: SASRec [20] 被用作 A-LLMRec 的预训练 CF-RecSys 骨干。同时,在 MoRecCTRL 等模态感知模型中也使用 SASRec 作为骨干 CF-RecSys。
    • RECFORMER 骨干: 遵循其论文,采用 Longformer [3] 作为骨干网络。
  • 嵌入维度: 物品和模型嵌入的维度统一设置为 50,适用于所有方法和数据集。
  • 批次大小 (Batch Size):
    • 所有基于协同过滤和模态感知的模型:128。
    • A-LLMRec 阶段一:32。
    • MLP-LLMTALLRec 和 A-LLMRec 阶段二:4。
  • 训练轮次 (Epochs):
    • A-LLMRec 阶段一:10 个 epochs
    • A-LLMRec 阶段二:5 个 epochs
    • TALLRec: 最多 5 个 epochs
  • 优化器 (Optimizer): 所有数据集均使用 Adam 优化器。
  • 超参数调优 (Hyperparameter Tuning):
    • 学习率 η1,η2\eta_1, \eta_2: 在 {0.01,0.001,0.0005,0.0001}\{0.01, 0.001, 0.0005, 0.0001\} 范围内调优。
    • 系数 α,β\alpha, \beta: 在 {0.1,0.2,0.5,0.75,1.0}\{0.1, 0.2, 0.5, 0.75, 1.0\} 范围内调优。
    • 每个数据集的最佳超参数如 Table 3 (原文 Table 3) 所示。
  • 计算资源:
    • Movies and TV 数据集训练基于 LLM 的模型:四块 NVIDIA GeForce A6000 48GB GPU。

    • 其他数据集(包括基于 LLM 和其他模型):一块 NVIDIA GeForce A6000 48GB GPU。

      以下是 A-LLMRec 的超参数配置:

      Learning ratestage 1 Learning ratestage 2 embedding dim(CF-RecSys) d embedding dim(f enc, enc) d" alpha beta
      Movies and TV 0.0001 0.0001 50 128 0.5 0.5
      Video Games 0.0001 0.0001 50 128 0.5 0.5
      Beauty 0.0001 0.0001 50 128 0.5 0.2
      Toys 0.0001 0.0001 50 128 0.5 0.2

以上是原文 Table 3 的结果。


6. 实验结果与分析

本节将详细分析 A-LLMRec 在各种场景下的实验结果,包括整体性能、冷/暖启动场景、冷用户场景、少样本训练场景和跨领域场景。同时,还将进行消融实验以验证模型各组件的有效性,并对模型的训练/推理速度、模型无关性以及语言生成能力进行分析。

6.1. 核心结果分析

6.1.1 整体性能 (Overall Performance)

以下是原文 Table 1 的结果,展示了所有模型在四个数据集上的整体性能 (Hit@1):

Collaborative filtering Modality-aware LLM-based
NCF NextItNet GRU4Rec SASRec MoRec CTRL RECFORMER LLM-Only TALLRec MLP-LLM A-LLMRec
Movies and TV 0.4273 0.5855 0.5215 0.6154 0.4130 0.3467 0.4865 0.0121 0.2345 0.5838 0.6237
Video Games 0.3159 0.4305 0.4026 0.5402 0.4894 0.2354 0.4925 0.0168 0.4403 0.4788 0.5282
Beauty 0.2957 0.4231 0.4131 0.5298 0.4997 0.3963 0.4878 0.0120 0.5542 0.5548 0.5809
Toys 0.1849 0.1415 0.1673 0.2359 0.1728 0.1344 0.2871 0.0141 0.0710 0.3225 0.3336

分析与观察:

  1. A-LLMRec 表现最佳: A-LLMRec 在所有四个数据集上均超越了所有其他基线模型,取得了最佳的 Hit@1 性能。这强有力地验证了 A-LLMRec 整合协同知识和文本信息,并通过 LLM 进行推荐的整体有效性。
  2. 协同知识的重要性: A-LLMRec 显著优于其他不考虑协同知识的基于 LLM 的推荐系统(如 LLM-OnlyTALLRec),表明协同知识对于提升推荐性能至关重要。
  3. 对齐模块的有效性: MLP-LLM 仅用简单的 MLP 连接 CF-RecSys 和 LLM,其性能低于 A-LLMRec。这说明本文提出的两阶段对齐模块并非简单的连接,而是有效解决了 CF-RecSys 与 LLM 之间模态鸿沟的挑战。
  4. LLM-Only 性能最差: LLM-Only 表现最差,说明仅仅依靠设计的提示,而不融入任何外部知识,是不足以让 LLM 胜任推荐任务的。这凸显了将协同知识整合到 LLM 中的重要性。
  5. TALLRec 的局限性: TALLRec 尽管对 LLM 进行了微调,但在 Movies and TVToys 数据集上甚至不如 SASRec。这表明仅仅依赖文本信息,即使通过微调 LLM,也可能不足以有效捕获协同知识。
  6. 模态感知模型的挑战: MoRecCTRL(均使用 SASRec 作为骨干)性能均低于 SASRecRECFORMER 同样难以超越 SASRec。这暗示过度强调模态知识可能会干扰协同知识的学习,导致性能下降。

6.1.2 冷/暖物品场景 (Cold/Warm Item Scenarios)

为了评估模型在不同物品稀疏度下的表现,将物品分为“暖物品”和“冷物品”:交互次数排名前 35% 的物品标记为“暖”,后 35% 的标记为“冷”。模型使用全部数据训练后,分别在这两类物品上进行评估。

以下是原文 Table 4 的结果,展示了冷/暖物品场景下的 Hit@1 性能:

Movies and TV Video Games Beauty
Cold Warm Cold Warm Cold Warm
SASRec 0.2589 0.6787 0.1991 0.5764 0.1190 0.6312
MoRec 0.2745 0.4395 0.2318 0.4977 0.2145 0.5425
CTRL 0.1517 0.3840 0.2074 0.2513 0.1855 0.4711
RECFORMER 0.3796 0.5449 0.3039 0.5377 0.3387 0.5133
TALLRec 0.2654 0.2987 0.3950 0.4897 0.5462 0.6124
A-LLMRec 0.5714 0.6880 0.4263 0.5970 0.5605 0.6414
A-LLMRec (SBERT) 0.5772 0.6802 0.4359 0.5792 0.5591 0.6405

分析与观察:

  1. A-LLMRec 的全能性: A-LLMRec 在所有数据集的冷启动和暖启动场景中均优于所有其他基线。这验证了其设计理念,即通过对齐网络使 LLM 能够理解和利用协同知识,从而在两种截然不同的场景中都表现出色。
  2. 传统 CF 与 LLM-based 模型的权衡: SASRec 在暖启动场景中表现强劲,但在冷启动场景中表现不佳。相反,TALLRec 在冷启动场景中优于 SASRec,但在暖启动场景中则被 SASRec 反超。这进一步证实了现有 LLM-based 模型过度依赖文本信息而缺乏协同知识的局限性。
  3. A-LLMRec (SBERT) 在冷启动中的优势: A-LLMRec (SBERT)(在推理时使用文本编码器 fTencf_T^{enc} 提取联合嵌入,即 qi\mathbf{q}_i)在冷启动场景下表现优于标准的 A-LLMRec(使用物品编码器 fIencf_I^{enc} 提取 ei\mathbf{e}_i)。这支持了 4.1.4 节的讨论,即当物品缺乏交互信息时,从文本编码器获取的联合嵌入更能有效捕捉文本知识,并且隐式地包含协同知识,从而对冷启动物品更有帮助。在暖启动场景下,标准 A-LLMRec 通常表现更好,因为此时原始物品嵌入 Ei\mathbf{E}_i 包含更丰富的协同信息。

6.1.3 冷用户场景 (Cold User Scenarios)

为了模拟冷用户场景,我们采样了恰好交互过三个物品的用户,并将最后一个物品作为测试集。模型在除这些采样用户之外的所有用户上进行训练,然后对这些冷用户进行推理。

以下是原文 Table 5 的结果,展示了冷用户场景下的 Hit@1 性能:

Movies and TVVideo GamesBeauty
SASRec 0.2589 0.4048 0.4459
MoRec 0.3918 0.3572 0.4815
CTRL 0.2273 0.1737 0.3902
RECFORMER 0.4481 0.3989 0.4644
TALLRec 0.2143 0.3895 0.5202
MLP-LLM 0.4909 0.3960 0.5276
A-LLMRec 0.5272 0.4160 0.5337

分析与观察:

  1. A-LLMRec 持续领先: A-LLMRec 在冷用户场景中持续优于其他所有模型。这表明其通过对齐机制有效地将协同和文本知识融合,即使对于交互历史稀疏的用户也能提供高质量推荐。
  2. SASRec 在冷用户场景的劣势: SASRec 在冷用户场景中表现不佳,特别是在大型数据集 Movies and TV 上。这是由于冷用户缺乏足够的交互数据来构建协同知识,SASRec 纯粹基于 ID 的方法难以处理。
  3. LLM-based 模型在冷用户场景的优势: 基于 LLM 的模型(TALLRecMLP-LLMA-LLMRec)在处理冷用户时表现出更好的性能,这得益于它们能够利用物品的文本信息来弥补协同知识的不足。

6.1.4 少样本训练场景 (Few-shot Training Scenario)

为了探究未见物品对推荐模型的影响,实验在少样本训练场景下进行,即训练集中用户数量极端受限(只有 KK 个用户)。在这种场景下,模型在推理阶段会遇到大量未见物品。

以下是原文 Table 6 的结果,展示了少样本训练场景下的 Hit@1 性能:

k KSASRecMoRecTALLRecA-LLMRec| A-LLMRec (SBERT)
Movies and TV 256 0.2111 0.2208 0.1846 0.2880 0.2963
128 0.1537 0.1677 0.1654 0.2518 0.2722
Video Games 256 0.1396 0.1420 0.2321 0.2495 0.2607
128 0.1089 0.1157 0.1154 0.1608 0.1839
Beauty 256 0.2243 0.2937 0.3127 0.3467 0.3605
128 0.1813 0.2554 0.2762 0.3099 0.3486

分析与观察:

  1. A-LLMRec 在少样本场景下的优越性: A-LLMRec 在少样本场景中表现优于所有其他基线。尽管训练用户数量极少,A-LLMRec 仍能依赖 CF-RecSys 捕获协同知识,并与物品的文本知识相结合,实现卓越性能。
  2. A-LLMRec (SBERT) 的性能提升: A-LLMRec (SBERT) 在少样本场景中再次优于标准 A-LLMRec。这再次印证了当物品缺乏交互信息时(在少样本场景中,很多物品可能在训练集中很少甚至没有出现),使用文本编码器来提取联合文本-协同知识是更有效的策略。
  3. LLM-based 模型优于 CF-RecSys: 在少样本场景下,基于 LLM 的模型(包括 TALLRecA-LLMRec)通常优于纯 CF-RecSys(如 SASRec)。这是因为 LLM 对文本的理解能力有助于从未见物品的文本中提取信息,而 CF-RecSys 则受限于缺乏关于这些新物品的协同知识。

6.1.5 跨领域场景 (Cross-domain Scenario)

为了进一步验证 A-LLMRec 的泛化能力,实验在跨领域场景下进行:模型在 Movies and TV 数据集上预训练,然后在 Video Games 数据集上进行评估。

以下是原文 Table 7 的结果,展示了跨领域场景下的 Hit@1 性能:

SASRec MoRec RECFORMER TALLRec A-LLMRec A-LLMRec (SBERT)
Movies and TV→ Video Games 0.0506 0.0624 0.0847 0.0785 0.0901 0.1203

分析与观察:

  1. A-LLMRec (SBERT) 在跨领域表现突出: A-LLMRec 在跨领域场景中优于所有基线,其中 A-LLMRec (SBERT) 表现尤其出色。这再次归因于文本编码器在缺乏协同信息时(跨领域场景意味着训练域和目标域的物品交互模式可能差异很大)变得非常有用。文本信息提供了领域无关的语义,有助于模型在新领域泛化。
  2. 文本知识对跨领域的重要性: SASRec 在跨领域场景中表现极差,远低于模态感知模型和基于 LLM 的模型。这表明在缺乏共享协同知识的情况下,利用文本知识对于跨领域推荐至关重要。

6.2. 消融实验 (Ablation Studies)

6.2.1 阶段一组件效应 (Effect of Components in Stage-1)

本节探究 A-LLMRec 阶段一中各个损失组件的贡献。

以下是原文 Table 8 的结果,展示了阶段一各组件的消融研究 (Hit@1):

Ablation Movies and TVBeauty Toys
A-LLMRec 0.6237 0.5809 0.3336
w/o Lmatching 0.5838 0.5548 0.3225
w/o Litem-recon&Ltext-recon 0.5482 0.5327 0.3204
w/o Lrec 0.6130 0.5523 0.1541
Freeze SBERT 0.6173 0.5565 0.1720

分析与观察:

  1. Lmatching 的重要性: 移除潜在空间匹配损失 Lmatching\mathcal{L}_{\mathrm{matching}} 导致所有数据集的性能显著下降。这表明物品嵌入和文本信息之间的有效对齐对于 LLM 理解物品文本信息并增强推荐能力至关重要。
  2. 重建损失的重要性: 移除物品重建损失 Litemrecon\mathcal{L}_{\mathrm{item-recon}} 和文本重建损失 Ltextrecon\mathcal{L}_{\mathrm{text-recon}} 同样导致性能下降。这证实了引入重建损失能够有效避免编码器生成过平滑的表示,从而保留了原始物品和文本嵌入的关键信息。
  3. Lrec 的重要性: 移除推荐损失 Lrec\mathcal{L}_{\mathrm{rec}} 导致性能下降。由于 Lrec\mathcal{L}_{\mathrm{rec}} 明确地将协同知识融入模型并指导推荐任务,其性能下降说明了协同知识对于推荐任务的不可或缺性。在 Toys 数据集上,性能下降尤其显著,可能与该数据集的特点(物品多于用户,协同信息更稀疏)有关。
  4. 微调 SBERT 的必要性:SBERT 被冻结(即不进行微调)时,所有数据集的性能都有所下降。这表明微调 SBERT 有助于其文本嵌入更好地适应推荐任务的特定语义,从而提升整体性能。

6.2.2 阶段二对齐方法效应 (Effect of the Alignment method in Stage-2)

本节验证将用户表示和联合嵌入注入 LLM 提示的有效性。

以下是原文 Table 9 的结果,展示了阶段二对齐方法的消融研究 (Hit@1):

Row | Ablation Movies and TV Video Games Beauty Toys
(1) | A-LLMRec 0.6237 0.5282 0.5809 0.3336
(2) | A-LLMRec w/o user representation 0.5925 0.5121 0.5547 0.3217
(3) A-LLMRec w/o joint embedding 0.1224 0.4773 0.5213 0.2831
(4) A-LLMRec with random joint embedding 0.1200 0.4729 0.5427 0.0776

分析与观察:

  1. 用户表示的重要性: 移除提示中的用户表示(row (2))导致性能下降。这表明用户表示能够向 LLM 提供用户的个性化偏好信息,对于实现个性化推荐至关重要。
  2. 联合嵌入的决定性作用: 移除提示中的联合嵌入(row (3))导致性能大幅下降,尤其是在 Movies and TV 数据集上。这强调了联合嵌入在传递协同知识方面的重要作用。由于联合嵌入也包含了物品的文本信息,其缺失对性能的影响更为显著。
  3. 协同知识的有效性: 当联合嵌入被随机初始化的嵌入替换(row (4)),即 A-LLMRec 在没有协同知识的情况下训练时,性能显著下降。这再次证明了利用协同知识对于推荐任务的至关重要性。在 Toys 数据集上,性能下降尤其剧烈,可能因为该数据集物品数量多,纯粹随机嵌入无法提供有效信息。

6.3. 模型分析

6.3.1 训练/推理速度 (Train/Inference Speed)

A-LLMRec 的设计理念是不微调 CF-RecSys 和 LLM,只训练一个轻量级的对齐网络,这使其具有高效率。本节比较 A-LLMRec 和 TALLRec 的训练和推理时间。训练时间衡量从开始到结束的总时间,推理时间衡量每个 mini-batch 的时间。

以下是原文 Table 10 的结果,展示了训练/推理时间比较 (Beauty 数据集):

Train time (min) Inference time (sec/batch) Hit@1
TALLRec 588.58 3.36 0.5542
A-LLMRec 232.5 1.98 0.5809
A-LLMRecall 643.33 1.98 0.6002

分析与观察:

  1. A-LLMRec 显著更高效: A-LLMRec 的训练时间(232.5 分钟)和推理时间(1.98 秒/批次)均显著快于 TALLRec(训练时间 588.58 分钟,推理时间 3.36 秒/批次)。
  2. 训练效率的提升: 训练时间上的提升尤为显著,因为 A-LLMRec 无需微调 LLM,这大大减少了计算开销,使其在大型推荐数据集上具有更高的实用性。
  3. 推理效率的提升: 更快的推理时间也表明 A-LLMRec 在实时推荐服务等对响应速度要求高的场景中具有实际应用价值。

6.3.2 使用序列中所有物品进行训练 (Training with all items in each sequence)

为了效率,A-LLMRec 在阶段一和阶段二的训练中仅使用每个用户序列的最后一个物品进行优化。本节探讨使用序列中所有物品进行训练(A-LLMRec_all)对性能和速度的影响。

分析与观察:

  1. 性能提升但边际效应: 如 Table 10 (原文 Table 10) 所示,当使用序列中所有物品进行训练时,A-LLMRec_all 的推荐性能 (Hit@1) 确实有所提升(从 0.5809 提高到 0.6002)。
  2. 训练时间显著增加: 然而,训练时间也相应增加了约 3 倍(从 232.5 分钟增加到 643.33 分钟)。考虑到训练时间的显著增加,性能的提升似乎是边际的。
  3. A-LLMRec 的泛化能力: 值得注意的是,即使标准的 A-LLMRec 仅使用每个用户序列的最后一个物品进行训练,它在测试集中仍能处理大量未见物品,并取得了与 A-LLMRec_all 相当的性能。这表明 A-LLMRec 具有良好的泛化能力,能够有效地处理未见物品。

6.3.3 A-LLMRec 是模型无关的 (A-LLMRec is Model-Agnostic)

A-LLMRec 具有模型无关性,这意味着它可以与任何现有的协同过滤推荐系统集成。本节将 A-LLMRec 与其他三种 CF-RecSys 骨干模型结合进行实验:NextItNetGRU4Rec(均为序列推荐器)和 NCF(非序列推荐器)。

以下是原文 Table 11 的结果,展示了 A-LLMRec 的模型无关性:

Model Beauty Toys
SASRec 0.5298 0.2359
A-LLMRec (SASRec) 0.5809 0.3336
NextItNet 0.4231 0.1415
A-LLMRec (NextItNet) 0.5642 0.3203
GRU4Rec 0.4131 0.1673
A-LLMRec (GRU4Rec) 0.5542 0.3089
NCF 0.2957 0.1849
A-LLMRec (NCF) 0.5431 0.3263

分析与观察:

  1. SOTA CF-RecSys 骨干表现最佳:SASRec 作为骨干 CF-RecSys 时,A-LLMRec 表现最佳。这符合预期,因为 SASRec 在其独立版本中已表现出优越性。这表明高质量的协同知识输入可以进一步增强 A-LLMRec 的性能。
  2. A-LLMRec 普遍提升性能: 将 A-LLMRec 应用于任何骨干 CF-RecSys 都能显著提升其独立模型的性能。这证明了 A-LLMRec 框架的通用性,以及它能够通过整合模态信息和 LLM 能力来增强现有 CF-RecSys 的潜力。
  3. 缩小性能差距: 尽管 SASRecNCF 在作为独立 CF-RecSys 时性能差异接近一倍,但与 A-LLMRec 集成后,这种性能差距有所缩小。这表明 A-LLMRec 能够利用物品文本模态信息和 LLM 的强大能力,在一定程度上弥补骨干 CF-RecSys 性能上的劣势。

6.3.4 超越推荐:语言生成任务 (Favorite genre prediction)

为了验证 A-LLMRec 是否能够基于对协同知识的理解生成自然语言输出,我们进行了一项喜好类型预测任务 (favorite genre prediction task)。给定相同的提示格式,要求基于 LLM 的模型(A-LLMRecLLM-Only,均使用 OPT-6.7B 骨干 LLM)预测用户会喜欢观看的电影类型。唯一的区别在于,LLM-Only 只接收用户过去观看的电影标题,而 A-LLMRec 则除了电影标题外,还接收用户表示和物品嵌入。

Figure 4: A-LLMRec v.s. LLM-Only on the favorite genre prediction task (Movies and TV dataset used).
该图像是一个对比图,展示了 A-LLMRec 与 LLM-Only 在电影和电视数据集上的用户推荐表现。左侧展示了 A-LLMRec 如何利用用户观看历史生成个性化推荐,而右侧则是 LLM-Only 的较为简化的推荐过程。

图4: A-LLMRec 与 LLM-Only 在喜好类型预测任务上的比较(使用 Movies and TV 数据集)(原文 Figure 4)。

Figur :A-LLMRec, LLM-Only, and TALLRec on the favori gere prediction task (Movies and TV dataset ued).
该图像是一个示意图,展示了A-LLMRec、LLM-Only和TALLRec在电影和电视剧数据集上的喜好类型预测任务的用户表现。图中详细列出用户观看的影片及其推荐的类型,突出不同推荐系统的用户建模能力。

图5: A-LLMRec, LLM-Only 和 TALLRec 在喜好类型预测任务上的结果(使用 Movies and TV 数据集)(原文 Figure 5)。

分析与观察:

  1. A-LLMRec 的有效语言生成: 从 Figure 4 和 Figure 5 (原文 Figure 4 和 Figure 5) 可以观察到,A-LLMRec 能够生成合理的电影类型预测。这表明通过将 CF-RecSys 的物品嵌入与 LLM 的词元空间良好对齐,LLM 能够理解和利用协同知识来生成自然语言输出。

  2. LLM-Only 的失败: LLM-Only 在此任务中未能生成有效的输出。这再次强调了仅仅依赖于提示而缺乏协同知识支持的 LLM,难以在需要深层用户偏好理解的任务上表现良好。

  3. TALLRec 的局限性: 论文中提到,TALLRec 也无法获得有效的输出(详见附录 B)。推测原因是 TALLRec 中的 LLM 经过指令微调 (instruction-tuning),使其倾向于以特定格式响应推荐任务,从而难以生成有效的自然语言描述。

    这项实验证明了 A-LLMRec 不仅在推荐性能上表现出色,还具备了基于协同知识进行语言生成的能力,拓展了其应用潜力。


7. 总结与思考

7.1. 结论总结

本论文提出了一种新颖的全能型基于LLM的推荐系统 (All-round LLM-based Recommender System),名为 A-LLMRec。其核心思想在于,使大型语言模型 (LLM) 能够直接利用预训练的最先进协同过滤推荐系统 (CF-RecSys) 中蕴含的协同知识。通过一个创新的两阶段对齐框架,A-LLMRec 成功地将 CF-RecSys 的高质量用户/物品嵌入与 LLM 的语言理解能力相结合。

具体来说,阶段一通过潜在空间匹配、重建损失和推荐损失,将物品的协同嵌入与文本嵌入对齐,生成联合协同-文本嵌入。阶段二则将这些联合嵌入和用户表示投影到 LLM 的词元空间,并通过精心设计的提示 (prompt) 传递给 LLM 进行推荐。

A-LLMRec 的主要优势在于其模型无关性 (model-agnostic)高效率 (efficiency)。它无需对冻结的 CF-RecSys 和 LLM 进行微调,仅训练一个轻量级的对齐网络,大大降低了计算成本和部署难度。

通过在多个真实世界数据集上的广泛实验,A-LLMRec 展现了在各种场景下的卓越性能,包括传统的冷/暖启动物品场景、冷用户场景、少样本训练场景以及跨领域场景。这些结果强有力地证明了 A-LLMRec 能够有效平衡和利用协同知识与模态信息,克服了现有 LLM-based 推荐系统在暖启动场景下的不足。

此外,A-LLMRec 还展示了超越传统推荐任务的潜力,通过喜好类型预测任务 (favorite genre prediction task),证明了模型能够基于对协同知识的理解生成有意义的自然语言输出。

7.2. 局限性与未来工作

论文作者指出了未来的研究方向:

  • 增强 LLM 能力: 计划通过更高级的提示工程 (prompt engineering) 技术,例如思维链提示 (chain-of-thought prompting) [46],来进一步增强 A-LLMRec 中 LLM 的推理和理解能力。这可能意味着 LLM 不仅仅是作为一个推荐接口,而是更深入地参与到推荐逻辑的推理过程中。

    虽然论文没有明确列出 A-LLMRec 的当前局限性,但从其方法论和实验结果中可以推断出一些潜在的考量:

  • 依赖高质量的 CF-RecSys: A-LLMRec 的性能在很大程度上依赖于作为骨干的预训练 CF-RecSys 的质量。如果底层的 CF-RecSys 表现不佳,可能会限制 A-LLMRec 的天花板。

  • 文本信息的质量和可用性: 尽管 A-LLMRec 结合了协同知识,但其在冷启动和跨领域场景下的优势仍依赖于高质量的物品文本信息。如果物品文本信息缺失或质量低下,其性能可能会受影响。

  • 计算开销依然存在: 尽管 A-LLMRec 比微调 LLM 的方法更高效,但毕竟涉及一个大型 LLM,其推理和部署仍可能比纯粹的 CF 模型需要更高的计算资源和延迟。

  • 对齐的复杂性: 两阶段对齐网络本身的设计和超参数调优可能仍然是一个复杂的过程。

7.3. 个人启发与批判

7.3.1 个人启发

这篇论文提供了一个非常深刻且实用的思路,即如何巧妙地结合两种看似独立但又互补的推荐范式——协同过滤大型语言模型

  1. “知识蒸馏”的变体与泛化: A-LLMRec 的方法可以被看作是一种广义上的“知识蒸馏”或“知识注入”。它不是将 LLM 简单地作为模态特征提取器或黑盒预测器,而是将 CF-RecSys 学习到的 ID 级别协同知识“翻译”并“注入”到 LLM 的语言理解框架中。这种方式避开了 LLM 直接从稀疏交互数据中学习协同模式的困难,而是借力于成熟的 CF 方案。
  2. 模型无关性的巨大价值: “模型无关性”是一个极具吸引力的特性。这意味着在实际工业界中,一个公司可以保留其多年积累和优化的内部 CF-RecSys(通常性能极佳且针对特定业务场景高度定制),同时通过 A-LLMRec 这种轻量级适配层,轻松地引入 LLM 的强大能力,以解决冷启动、可解释性等问题,而无需颠覆现有架构。这种渐进式的升级路径非常符合实际需求。
  3. LLM 作为“通用推理器”的潜力: A-LLMRec 不仅实现了推荐,还在语言生成任务中表现出色。这暗示 LLM 能够将数值型的协同知识转化为语义理解,并进行更高级的推理和解释。未来的推荐系统可能不仅仅是给出物品列表,还能解释推荐理由,甚至与用户进行对话,提供更丰富的交互体验。A-LLMRec 为此提供了一个有力的起点。
  4. 对“全能型”的追求: 论文明确提出要解决冷启动和暖启动问题,这种“全能型”的愿景非常重要。很多研究只关注特定场景的优化,但真实世界中的推荐系统必须在各种复杂多变的环境下工作。A-LLMRec 提供了一个在两种极端场景下都表现出色的解决方案,是向更实用、更鲁棒推荐系统迈出的重要一步。

7.3.2 批判与潜在改进

  1. 对齐网络的复杂性与可解释性: 虽然论文强调效率和模型无关性,但对齐网络(包括编码器、解码器和投影器)的设计和训练仍然是一个黑盒过程。这些 MLP 在多大程度上真正“理解”并有效地转换了协同知识和文本知识,以及它们在不同场景下的表现差异(例如 A-LLMRec 和 A-LLMRec (SBERT) 的切换机制),其内部机制仍有待更深入的可解释性分析。如何动态或自适应地选择使用哪种联合嵌入(eie_iqiq_i)可能是一个需要探索的方向,而非简单的基于场景硬编码。
  2. LLM 的推理能力利用不足: 目前的 A-LLMRec 似乎主要利用 LLM 作为“语义匹配器”和“文本生成器”,通过提示将信息喂给它,然后让它给出下一个物品标题。虽然这是有效的,但 LLM 强大的推理能力 (reasoning ability) 尚未被充分挖掘。未来的工作可以探索如何让 LLM 在推荐过程中进行更复杂的链式推理(如 Chain-of-Thought),例如分析用户历史、物品属性、协同关系,然后逐步推导出推荐结果和解释。这可能需要更复杂的提示工程,甚至涉及 LLM 内部的结构性修改。
  3. 评估指标的局限性: Hit@1 是一个严格的指标,但推荐系统的评估通常是多维度的,包括多样性、新颖性、公平性等。论文主要关注 Hit@1,但在现实应用中,用户体验不仅仅取决于最准确的第一个推荐。未来的工作可以考虑在更全面的评估指标体系下验证 A-LLMRec 的性能,并探索其在其他方面(如推荐列表多样性)的潜力。
  4. 实时性与更新机制: 冻结 CF-RecSys 和 LLM 带来了效率,但这也意味着当底层 CF-RecSys 或 LLM 更新时,需要重新训练对齐网络。对于物品和用户数据不断变化的推荐系统,如何实现 A-LLMRec 更高效的持续学习 (continual learning) 或增量更新,以适应数据漂移,是一个实际挑战。
  5. 负采样策略: 推荐损失中涉及到负采样。负采样策略对模型性能有显著影响,但论文中对负采样的具体实现细节描述较少。更先进的负采样技术(如困难负采样)是否能进一步提升性能值得探究。

相似论文推荐

基于向量语义检索推荐的相关论文。

暂时没有找到相似论文。