Recommender Systems in the Era of Large Language Models (LLMs)
TL;DR 精炼摘要
本文回顾了利用大型语言模型(LLMs)强化推荐系统的各类方法,包括预训练、微调和提示。通过综合分析这些技术,作者强调LLMs在编码用户和物品特征、提升理解和生成能力方面的潜力,以及其在未来推荐系统研究中可能的应用方向。
摘要
With the prosperity of e-commerce and web applications, Recommender Systems (RecSys) have become an important component of our daily life, providing personalized suggestions that cater to user preferences. While Deep Neural Networks (DNNs) have made significant advancements in enhancing recommender systems by modeling user-item interactions and incorporating textual side information, DNN-based methods still face limitations, such as difficulties in understanding users' interests and capturing textual side information, inabilities in generalizing to various recommendation scenarios and reasoning on their predictions, etc. Meanwhile, the emergence of Large Language Models (LLMs), such as ChatGPT and GPT4, has revolutionized the fields of Natural Language Processing (NLP) and Artificial Intelligence (AI), due to their remarkable abilities in fundamental responsibilities of language understanding and generation, as well as impressive generalization and reasoning capabilities. As a result, recent studies have attempted to harness the power of LLMs to enhance recommender systems. Given the rapid evolution of this research direction in recommender systems, there is a pressing need for a systematic overview that summarizes existing LLM-empowered recommender systems, to provide researchers in relevant fields with an in-depth understanding. Therefore, in this paper, we conduct a comprehensive review of LLM-empowered recommender systems from various aspects including Pre-training, Fine-tuning, and Prompting. More specifically, we first introduce representative methods to harness the power of LLMs (as a feature encoder) for learning representations of users and items. Then, we review recent techniques of LLMs for enhancing recommender systems from three paradigms, namely pre-training, fine-tuning, and prompting. Finally, we comprehensively discuss future directions in this emerging field.
思维导图
论文精读
中文精读
1. 论文基本信息
1.1. 标题
Recommender Systems in the Era of Large Language Models (LLMs) (大语言模型时代的推荐系统)
1.2. 作者
Zihuai Zhao, Wenqi Fan, Jiatong Li, Yunqing Liu, Xiaowei Mei, Yiqi Wang, Zhen Wen, Fei Wang, Xiangyu Zhao, Jiliang Tang, 和 Qing Li。
1.3. 发表期刊/会议
该论文以预印本 (arXiv preprint) 形式发布,尚未在正式期刊或会议上发表。然而,所有作者均来自知名学术机构或行业研究实验室,例如香港理工大学 (The Hong Kong Polytechnic University)、密歇根州立大学 (Michigan State University)、亚马逊 (Amazon) 等。这些机构和作者在推荐系统、自然语言处理和人工智能领域具有较高的研究声誉和影响力。
1.4. 发表年份
2023年。
1.5. 摘要
随着电子商务 (e-commerce) 和网络应用 (web applications) 的繁荣,推荐系统 (RecSys) 已成为我们日常生活中不可或缺的一部分,提供满足用户偏好的个性化建议。尽管深度神经网络 (DNNs) 在通过建模用户-物品交互 (user-item interactions) 和整合文本侧信息 (textual side information) 来增强推荐系统方面取得了显著进展,但基于 DNN 的方法仍然面临局限性,例如难以理解用户兴趣、难以捕获文本侧信息、难以泛化到各种推荐场景以及难以解释其预测等。与此同时,大型语言模型 (LLMs),如 ChatGPT 和 GPT4,凭借其在语言理解和生成方面的卓越能力,以及令人印象深刻的泛化 (generalization) 和推理 (reasoning) 能力,彻底改变了自然语言处理 (NLP) 和人工智能 (AI) 领域。因此,最近的研究试图利用 LLMs 的强大能力来增强推荐系统。鉴于推荐系统这一研究方向的快速演变,迫切需要一个系统性的概述来总结现有的 LLM 赋能的推荐系统,以便为相关领域的研究人员提供深入的理解。因此,本文从预训练 (Pre-training)、微调 (Fine-tuning) 和 提示 (Prompting) 等多个方面对 LLM 赋能的推荐系统进行了全面回顾。更具体地说,我们首先介绍了利用 LLMs (作为特征编码器 feature encoder) 学习用户和物品表示的代表性方法。然后,我们从预训练、微调和提示这三种范式回顾了 LLMs 增强推荐系统的最新技术。最后,我们全面讨论了该新兴领域的未来方向。
1.6. 原文链接
原文链接: https://arxiv.org/abs/2307.02046v6 PDF 链接: https://arxiv.org/pdf/2307.02046v6.pdf
2. 整体概括
2.1. 研究背景与动机
论文试图解决的核心问题是: 在大语言模型 (LLMs) 迅速崛起并展示出强大能力(如语言理解、生成、泛化和推理)的背景下,如何系统地整合和利用 LLMs 来克服传统推荐系统 (RecSys) 面临的挑战,并为这一新兴交叉领域的研究人员提供全面的知识体系。
为什么这个问题在当前领域是重要的: 推荐系统在电子商务、娱乐等日常应用中扮演着关键角色,但传统的 DNN (深度神经网络) 方法存在以下具体挑战或空白:
-
文本理解能力不足: 传统
DNN模型和早期的预训练语言模型(如BERT)在捕获用户和物品的文本知识方面能力有限,导致在处理复杂语义信息时表现不佳。 -
泛化能力弱: 大多数现有推荐方法是为特定任务设计的,难以泛化到未见过的推荐场景或多任务需求。例如,一个用于评分预测的模型很难直接用于生成解释。
-
复杂推理能力缺失: 传统
DNN难以支持涉及多步骤推理的复杂决策,如旅行规划推荐需要考虑多个因素和逻辑链条。LLMs的出现为解决这些问题提供了新的契机。它们在语言理解和生成方面的卓越能力,以及出色的泛化和推理能力,使其成为改进推荐系统性能和功能潜力的强大工具。因此,系统地回顾和分析LLMs在推荐系统中的应用,对于指导未来研究至关重要。
这篇论文的切入点或创新思路是: 鉴于 LLMs 赋能推荐系统的快速发展,论文旨在提供一个全面、系统且最新的概述。其创新之处在于从 LLMs 适应下游任务的三种核心范式——预训练 (Pre-training)、微调 (Fine-tuning) 和 提示 (Prompting) ——来组织和分析现有的 LLM 赋能推荐系统工作。这提供了一个清晰的分类框架,有助于研究人员理解不同方法背后的核心思想和技术路线。
2.2. 核心贡献/主要发现
论文最主要的贡献是:
-
首次系统性概述: 提供了关于
LLM赋能推荐系统这一新兴领域的首次全面且系统性的概述,填补了现有综述未能涵盖ChatGPT和LLaMA等先进LLMs时代最新进展的空白。 -
创新分类框架: 将
LLM赋能推荐系统的方法归纳为预训练 (Pre-training)、微调 (Fine-tuning) 和 提示 (Prompting) 三大范式,并进一步细化了每个范式下的具体技术和应用。 -
深入分析用户/物品表示: 详细阐述了
LLMs如何用于构建用户和物品的表示,包括基于ID的方法和增强文本侧信息的方法。 -
识别挑战与未来方向: 讨论了当前
LLM赋能推荐系统面临的挑战,并提出了六个关键的未来研究方向(如幻觉缓解、可信赖性、垂直领域LLMs等),为领域发展指明了道路。论文得出的关键结论或发现是:
-
LLMs在推荐系统中具有巨大的潜力,能够通过其强大的语言理解和生成能力,以及泛化和推理能力,有效解决传统推荐系统在文本理解、泛化和复杂推理方面的局限。 -
LLMs可以作为特征编码器来学习用户和物品的丰富表示,尤其是在利用文本侧信息方面表现出色。 -
预训练、微调和提示是
LLMs适应推荐任务的三种主要策略,各有优劣和适用场景,且正在快速发展和融合。 -
尽管前景广阔,但
LLM赋能推荐系统仍处于早期阶段,面临诸多挑战,如幻觉、可信赖性(安全、公平、可解释性、隐私)、效率和数据增强等,这些都构成了重要的未来研究方向。
3. 预备知识与相关工作
3.1. 基础概念
3.1.1. 推荐系统 (Recommender Systems, RecSys)
概念定义: 推荐系统 (RecSys) 是一种信息过滤系统,旨在预测用户对物品的“偏好”或“评分”,并向用户推荐他们可能感兴趣的物品。其核心目标是帮助用户在海量信息中发现符合其个性化需求的有用内容,从而解决信息过载问题。常见的应用场景包括电商平台的商品推荐、流媒体服务的电影或音乐推荐、新闻应用的资讯推荐等。
3.1.2. 协同过滤 (Collaborative Filtering, CF)
概念定义: 协同过滤 (CF) 是一种广泛使用的推荐技术,其基本思想是“物以类聚,人以群分”。它通过分析用户或物品之间的相似性来进行推荐。
- 用户-用户协同过滤: 找到与目标用户兴趣相似的其他用户,并将这些相似用户喜欢的但目标用户尚未接触过的物品推荐给目标用户。
- 物品-物品协同过滤: 找到与目标用户过去喜欢的物品相似的其他物品,并将这些相似物品推荐给目标用户。
Matrix Factorization (MF)(矩阵分解) 是一种经典的CF方法,通过将用户-物品交互矩阵分解为两个低秩矩阵(用户矩阵和物品矩阵)来学习用户和物品的隐式表示。
3.1.3. 基于内容推荐 (Content-based Recommendation)
概念定义: 基于内容推荐 (Content-based Recommendation) 侧重于利用物品自身的特征(如电影的类型、演员、剧情简介;商品的描述、品牌)和用户过去的偏好历史(如用户喜欢看科幻电影),来构建用户画像和物品画像,然后根据画像匹配度进行推荐。例如,如果用户经常观看科幻电影,系统就会推荐更多科幻电影。
3.1.4. 深度神经网络 (Deep Neural Networks, DNNs)
概念定义: 深度神经网络 (DNNs) 是指包含多层(隐藏层)的神经网络,能够从数据中学习复杂的非线性模式和特征表示。在推荐系统中,DNNs 被广泛用于建模用户-物品交互、融合多模态信息(如文本、图像)以及学习用户和物品的低维嵌入表示。
- 循环神经网络 (Recurrent Neural Networks, RNNs): 特别适用于处理序列数据,如用户按时间顺序的交互行为序列,能够捕捉序列中的长期依赖关系。
- 图神经网络 (Graph Neural Networks, GNNs): 适用于处理图结构数据。在推荐系统中,用户和物品及其交互可以自然地表示为图,
GNNs通过在图上传播信息来学习节点(用户和物品)的表示。 - 卷积神经网络 (Convolutional Neural Networks, CNNs): 擅长处理网格状数据(如图像),也可以用于处理文本数据,通过捕获局部特征来编码文本信息。
3.1.5. 预训练语言模型 (Pre-trained Language Models, PLMs)
概念定义: 预训练语言模型 (PLMs) 是在大规模文本语料库上进行预训练的语言模型,通过学习语言的统计规律、语法和语义知识,能够生成高质量的文本表示。
- BERT (Bidirectional Encoder Representations from Transformers): 是一种编码器-only (encoder-only) 模型,采用双向
Transformer编码器。它通过Masked Language Modeling (MLM)(掩码语言建模) 和Next Sentence Prediction (NSP)(下一句预测) 任务进行预训练,擅长理解文本的上下文语义。 - GPT (Generative Pre-trained Transformer): 是一种解码器-only (decoder-only) 模型,采用单向
Transformer解码器。它通过Next Token Prediction (NTP)(下一个词元预测) 任务进行预训练,擅长生成文本。 - T5 (Text-To-Text Transfer Transformer): 是一种编码器-解码器 (encoder-decoder) 模型,将所有
NLP(自然语言处理) 任务统一为文本到文本的转换问题,既可以理解又可以生成文本。
3.1.6. 大型语言模型 (Large Language Models, LLMs)
概念定义: 大型语言模型 (LLMs) 是指参数量巨大(通常达到数十亿甚至数千亿)、在海量多样化文本数据上进行训练的 PLMs。它们展现出强大的语言理解、生成、泛化和多任务处理能力,甚至涌现出一些意想不到的能力,如语境学习 (In-Context Learning, ICL) 和思维链 (Chain-of-Thought, CoT)。
3.1.7. 语境学习 (In-Context Learning, ICL)
概念定义: 语境学习 (ICL) 是 LLMs 的一种独特能力,指模型在不更新参数的情况下,仅通过在输入提示 (prompt) 中提供少量示例(也称作少样本学习 (few-shot learning))或不提供任何示例(零样本学习 (zero-shot learning)),就能快速适应并完成新任务。模型并非真正“学习”了新任务,而是利用其在预训练阶段获得的广阔知识,识别输入中的模式并生成符合模式的输出。
3.1.8. 思维链 (Chain-of-Thought, CoT)
概念定义: 思维链 (CoT) 是一种提示策略,通过在提示中引导 LLMs 输出解决问题的中间推理步骤,从而增强其在复杂推理任务上的性能。通过显式地展示“思考过程”,模型能够分解多步骤问题,减少错误,并提高最终答案的准确性。
3.2. 前人工作
本节将根据论文中对相关工作的回顾,补充理解本文所需的关键前人工作。
3.2.1. 推荐系统的发展
- 早期协同过滤 (CF) 方法:
Matrix Factorization (MF)(矩阵分解) [7, 35] 等方法利用用户-物品交互数据学习用户和物品的表示,计算匹配分数进行推荐。 - 深度学习在推荐系统中的应用:
NeuMF[39] 使用DNNs替代传统的内积操作来建模用户-物品间的非线性交互。- 图神经网络 (GNNs):
LightGCN[6] 等模型利用图结构数据(用户-物品交互图)通过消息传递机制学习用户和物品的表示 [1, 40, 41, 42]。 - 融合文本信息:
DeepCoNN[8] 使用CNNs编码用户评论来增强评分预测;NARRE[43] 结合注意力机制同时预测评分并生成解释。
- 语言模型在推荐系统中的早期应用:
BERT4Rec[47] 首次将BERT引入序列推荐,利用其双向编码能力建模用户行为序列。Li et al. [48]提出了一个基于Transformer的框架,同时进行物品推荐和解释生成。
3.2.2. 从预训练语言模型 (PLMs) 到大型语言模型 (LLMs)
- Transformer 架构:
Attention Is All You Need[52] 提出了Transformer架构,奠定了现代PLMs和LLMs的基础。- 自注意力 (Self-Attention) 机制:
Transformer的核心组件,允许模型在处理序列数据时对序列中不同位置的信息进行加权处理。其计算公式如下: 其中,- (Query) 是查询矩阵。
- (Key) 是键矩阵。
- (Value) 是值矩阵。
- 是键向量的维度,用于缩放点积以防止梯度过小。
- 函数将输出转换为概率分布。
- 计算查询和键之间的点积相似度。 这个公式描述了如何通过查询与所有键的相似度来对值进行加权求和,从而得到注意力输出。
- 自注意力 (Self-Attention) 机制:
- 经典
PLMs:BERT[49] (编码器-only)、GPT[50] (解码器-only)、T5[51] (编码器-解码器) 是PLMs的代表,它们通过在大规模语料上预训练,学习了丰富的语言知识。 - 涌现能力: 随着模型规模和训练数据量的增加,
LLMs展现出ICL[15] 和CoT[59] 等强大的涌现能力。ICL通过提供上下文示例,使LLMs无需微调即可适应新任务 [57, 58]。CoT通过引导LLMs生成中间推理步骤,提高了其在复杂决策任务上的推理能力 [60, 61, 62, 63]。
3.2.3. LLMs 在推荐系统中的最新探索
- LLMs 预测用户评分:
Kang et al. [66]和Zhiyuli et al. [67]探索了LLMs预测用户评分的能力。 - LLMs 用于序列推荐:
TALLRec[68]、M6-Rec[69]、PALR[70] 和P5[71] 等方法利用LLMs进行序列推荐。 - LLMs 生成解释:
Chat-Rec[3] 利用ChatGPT提供可解释的推荐理由。 - LLMs 实现对话式推荐:
UniCRS[72] 和UniMIND[73] 提出了基于LLMs的对话式推荐框架。 - LLMs 与图学习结合:
Chen et al. [18]探讨了LLMs作为增强器 (Enhancers) 或预测器 (Predictors) 在图学习(包括图推荐)中的潜力。
3.3. 技术演进
推荐系统的发展经历了从早期基于规则、基于统计的方法(如CF)到深度学习驱动的阶段(DNNs、GNNs),再到如今与大语言模型融合的新范式。
- 传统阶段: 解决信息过载问题,主要依赖用户-物品交互数据,但缺乏对深层语义的理解。
- 深度学习阶段: 增强了表示学习能力,能够处理复杂的用户-物品交互模式和多模态侧信息,但仍受限于模型规模和泛化能力。
- LLMs 时代: 凭借其强大的语言理解、生成、泛化和推理能力,
LLMs为解决传统RecSys的局限性提供了前所未有的机会,能够更好地捕捉用户兴趣、生成高质量的解释,并处理复杂的对话式推荐任务。
3.4. 差异化分析
现有关于 LLMs 在推荐系统中应用的综述包括:
-
Liu et al. [30]: 主要关注早期语言模型(如
BERT、GPT-2)在推荐系统中的训练策略和学习目标。 -
Wu et al. [31]: 从判别式 (discriminative) 和生成式 (generative) 角度总结
LLMs在推荐系统中的应用。 -
Lin et al. [32]: 从“何处 (where)”和“如何 (how)”适应
LLMs的角度,沿着推荐系统的流程审视LLMs的功能。与上述工作不同,本文的独特之处在于系统地回顾了适应
LLMs到推荐系统的领域特定技术。它不仅仅强调LLMs在RecSys中的应用层面,更深入探讨了LLMs自身的预训练、微调和提示这三大范式如何在推荐领域落地,从而为开发LLM赋能推荐系统的未来研究提供更深入的理解。简而言之,本文更侧重于技术实现细节而非仅仅应用场景。
4. 方法论
本篇综述论文的“方法论”主要体现在其对现有 LLM 赋能推荐系统研究的分类和分析框架。作者将 LLM 融入推荐系统的方法归纳为两大类表示学习(ID (Identity Document) 基和文本侧信息增强)和三大范式(预训练、微调和提示)。
4.1. 用户和物品的深度表示学习
在 LLM 赋能的推荐系统中,表示用户和物品是基础。论文将现有方法分为两类:ID (身份) 基表示和文本侧信息增强表示。
4.1.1. ID-基推荐系统 (ID-based Recommender Systems)
方法原理: 这种方法将用户和物品视为离散的 ID,并通过学习这些 ID 的嵌入向量来捕捉用户-物品交互信息。在 LLM 时代,ID 可以被转换为自然语言序列中的短语,供 LLM 处理。
- 核心思想: 将离散的用户
ID和物品ID映射到LLM的词汇表或特殊标记中,使得LLM能够像处理普通文本一样处理这些ID,从而利用LLM的语言建模能力进行推荐。 - 具体实现:
-
P5 [71]: 提出了一个统一的范式
P5,将各种推荐数据格式(如用户-物品交互、用户画像、物品描述、用户评论)转换为自然语言序列。它将用户和物品映射为特殊的索引标记,例如 ,以避免LLM将其分解为多个词元 (token),并利用预训练的T5模型进行训练。 -
索引方法:
Hua et al. [74]在P5的基础上,提出了四种索引解决方案:- 序列索引 (sequential indexing): 简单地按顺序分配
ID。 - 协同索引 (collaborative indexing): 利用协同信息分配
ID。 - 语义索引 (semantic (content-based) indexing): 根据物品内容分配具有语义意义的
ID。 - 混合索引 (hybrid indexing): 结合上述多种方法。
- 序列索引 (sequential indexing): 简单地按顺序分配
-
语义
ID(Semantic IDs) [75]: 将ID表示为具有语义含义的码字元组 (tuple of codewords),并提出RQ-VAE分层方法生成这些码字,使得ID本身携带更多信息,方便Transformer模型处理。局限性: 纯粹的
ID索引是离散的,无法提供足够的语义信息来捕捉用户和物品的深层表示,导致在用户-物品交互稀疏时难以进行相关性计算。同时,修改LLM的词汇表和参数会带来额外的计算成本。
-
4.1.2. 文本侧信息增强推荐系统 (Textual Side Information-enhanced Recommender Systems)
方法原理: 为了克服 ID 基方法的局限性,这类方法利用用户和物品的丰富文本侧信息(如用户画像、评论、物品标题/描述)来增强表示学习。LLM 在这里充当文本编码器,将文本信息映射到语义空间。
- 核心思想:
LLM(如BERT) 能够将物品或用户的描述文本编码成具有丰富语义的向量,使得相似的物品或用户在语义空间中距离更近,从而实现更细粒度的区分和更准确的相关性计算。 - 具体实现:
- Li et al. [76]: 比较了
ID基和模态基 (modality-based) 推荐系统的性能,指出后者在利用侧信息方面更具优势。 - Unisec [77]: 利用物品描述学习可迁移的通用物品表示,通过轻量级物品编码器结合参数白化 (parametric whitening) 和专家混合模型 (
MoE(Mixture-of-Experts) enhanced adaptor) 来实现。 - Text-based Collaborative Filtering (TCF) [78]: 通过提示
LLM(如GPT-3) 探索文本基协同过滤,证明了文本侧信息在协同过滤中的潜力。 - VQ-Rec [79]: 为了缓解过度强调文本特征的问题,提出了学习向量量化 (vector-quantized) 的物品表示,将物品文本映射为离散索引(物品码),并通过码嵌入表检索物品表示。
- Zero-Shot Item-based Recommendation (ZSIR) [80]: 引入产品知识图谱 (
PKG(Product Knowledge Graph)) 来优化LLM的物品特征,通过多任务预训练学习用户和物品嵌入。 - ShopperBERT [81]: 通过预训练用户购买历史来建模用户行为,学习用户表示。
- IDA-SR (ID-Agnostic User Behavior Pre-training framework for Sequential Recommendation) [81]: 一个与
ID无关的用户行为预训练框架,直接从文本信息中提取表示。对于一个物品 及其 个词元的描述 ,添加一个起始词元[CLS]变为 ,然后将此描述输入LLM。最终,[CLS]词元的嵌入可作为与ID无关的物品表示。
- Li et al. [76]: 比较了
下图 (原文 Figure 3) 展示了基于 ID 的表示和增强文本侧信息的表示这两种方法在 LLM 赋能推荐系统中的应用:
该图像是示意图,展示了基于ID的表示与增强文本侧信息的表示两种方法用于LLM推荐系统中用户和物品的表示。左侧为基于用户和物品ID的传统方法,右侧则结合了用户评论等文本信息,通过编码器(如BERT)生成用户的语义空间表示。
4.2. 预训练与微调范式 (Pre-training & Fine-tuning Paradigms)
LLMs 适应推荐任务的核心范式之一是预训练和微调,它们是迁移学习思想的体现。
4.2.1. 预训练范式 (Pre-training Paradigm)
方法原理: 预训练是在大量多样化的无标签文本数据上训练 LLMs,使其掌握语言的语法、语义和常识推理能力。在推荐系统中,预训练 LLMs 旨在使其能够理解和生成与用户行为和物品相关的文本序列。
- 核心思想: 模仿
NLP领域经典的预训练任务(如MLM和NTP),将用户行为序列或物品属性文本视为“语言”,通过预测缺失行为或下一个行为来学习有用的用户和物品表示。 - 经典预训练任务:
- Masked Language Modeling (MLM) (掩码语言建模): 适用于编码器-only (encoder-only) 或编码器-解码器 (encoder-decoder) 架构。随机掩盖序列中的词元或片段,模型需要根据其余上下文预测被掩盖的内容。
- Next Token Prediction (NTP) (下一个词元预测): 适用于解码器-only (decoder-only) 架构。模型需要根据给定上下文预测下一个词元。
- 推荐系统中的应用:
- PTUM [82]: 提出了两个类似的预训练任务来建模用户行为:
- Masked Behavior Prediction (MBP) (掩码行为预测): 类似于
MLM,但针对用户行为。它不是掩盖一个文本片段,而是掩盖一个单一的用户行为,目标是根据交互序列中的其他行为预测被掩盖的行为。 - Next K Behavior Prediction (NBP) (下一个 K 行为预测): 类似于
NTP。目标是根据用户-物品交互历史预测接下来的 个行为,这对于用户建模至关重要,能更好地模拟用户偏好。
- Masked Behavior Prediction (MBP) (掩码行为预测): 类似于
- M6 [69]: 也采用了两个受经典预训练任务启发的预训练目标:
- 文本填充目标 (text-infilling objective): 类似于
BART[92],随机掩盖文本序列中的一个片段,并预测这些被掩盖的片段。这赋予模型评估文本或事件合理性的能力,用于推荐评分任务。 - 自回归语言生成目标 (auto-regressive language generation objective): 遵循
NTP,但略有不同,它基于被掩盖的序列预测未被掩盖的句子。
- 文本填充目标 (text-infilling objective): 类似于
- P5 [71]: 采用多掩码建模 (multi-mask modeling) 并混合不同推荐任务的数据集进行预训练。它使用统一的索引方法表示用户和物品,使得
MLM任务能够应用,从而使模型能够泛化到各种推荐任务,甚至具有零样本 (zero-shot) 生成能力。
- PTUM [82]: 提出了两个类似的预训练任务来建模用户行为:
下图 (原文 Figure 4) 展示了为推荐系统预训练 LLMs 的工作流程,包括掩码语言建模和多任务预训练提示:

以下是原文 Table 1 的结果:
| Paradigms | Methods | Pre-training Tasks | Code Availability |
|---|---|---|---|
| Pre-training | PTUM [82] | Masked Behavior Prediction | https://github.com/wuch15/PTUM |
| Next K Behavior Prediction | |||
| M6 [69] | Auto-regressive Generation | Not available | |
| P5 [71] | Multi-task Modeling | https:/ /github.com/jeykigung/P5 |
4.2.2. 微调范式 (Fine-tuning Paradigm)
方法原理: 微调是在预训练 LLM 的基础上,使用特定任务的推荐数据集(包括用户-物品交互行为和侧信息)进行进一步训练,使模型专门化其知识和参数,以提高在推荐领域的性能。
- 核心思想: 将
LLM的通用语言知识迁移到推荐领域,使其能够更好地理解和处理推荐任务特有的数据模式和语义。 - 分类: 微调策略根据模型权重改变的比例分为两类:
- 全模型微调 (Full-model Fine-tuning):
- 概念定义: 调整模型的所有权重。这是一种直接的方法,通常能获得最佳性能,但计算成本高昂,尤其对于大型
LLMs。 - 推荐系统中的应用:
RecLLM[83] 微调LaMDA作为会话推荐系统 (CRS(Conversational Recommender System)) 进行YouTube视频推荐。GIRL[87] 利用监督微调策略指导LLMs进行职位推荐。LMRec[84] 通过训练侧掩码 (train-side masking) 和测试侧中和 (test-side neutralization) 非偏好实体来缓解LLMs可能带来的偏差,以实现公平推荐。TransRec[85] 以端到端方式学习预训练推荐系统,直接从多模态物品(文本和图像)的原始特征中学习,实现了跨不同场景的有效迁移。Carranza et al. [86]提出了通过应用差分隐私 (DP(Differentially Private))LLMs实现保护隐私的大规模推荐系统。- 对比学习 (Contrastive Learning) 应用:
SBERT[88] 引入了三元组损失函数 (triple loss function),用于电商领域中意图句与锚点、正例和负例产品的配对。UniTRec[89] 提出了一个统一框架,结合判别性匹配分数 (discriminative matching scores) 和候选文本困惑度 (candidate text perplexity) 作为对比目标,以改进文本基推荐。
- 概念定义: 调整模型的所有权重。这是一种直接的方法,通常能获得最佳性能,但计算成本高昂,尤其对于大型
- 参数高效微调 (Parameter-efficient Fine-tuning, PEFT):
- 概念定义: 仅微调模型的一小部分权重,或引入少量额外的可训练权重,而冻结
LLM的大部分参数。这大大降低了计算资源需求,同时能达到与全模型微调相当的性能。 - 核心技术:
- 适配器 (Adapter) [93]: 在
Transformer架构的每一层中插入小型模块。在微调时,仅训练这些适配器和层归一化层,而LLM的原始权重保持固定。 - 低秩适应 (Low-Rank Adaptation, LoRA) [94]: 受到权重矩阵低内在秩的启发,
LoRA为LLM原始结构中的矩阵乘法模块添加了一个新的通路,通过两个串行矩阵先降维再升维来模拟参数变化。
- 适配器 (Adapter) [93]: 在
- 推荐系统中的应用:
TallRec[68] 在LLaMA-7B模型上使用LoRA提出了一个高效的微调框架,使得在单个RTX 3090 GPU上即可完成LLMs与推荐任务的对齐。GLRec[90] 利用LoRA微调LLMs作为职位推荐器。LLaRA[95] 也采用LoRA微调LLMs以适应不同任务。M6[69] 应用LoRA微调,使其能够在移动设备上部署。
- 概念定义: 仅微调模型的一小部分权重,或引入少量额外的可训练权重,而冻结
- 全模型微调 (Full-model Fine-tuning):
下图 (原文 Figure 5) 展示了微调 LLMs 以适应推荐系统的工作流程,包括全模型微调和参数高效微调:

以下是原文 Table 2 的结果:
| Paradigms | Methods | References |
|---|---|---|
| Fine-tuning | Full-model Fine-tuning | [83], [84], [85], [86], [87], [88], and [89]1 |
| Parameter-efficient Fine-tuning | [68]2, [90], and [69] | |
| CodeAvailability:1https://github.com/veason-silverbullet/unitrec, https://github.com/sai990323/ta | ||
4.3. 提示范式 (Prompting Paradigm)
方法原理: 提示是一种轻量级的方法,通过设计任务特定的提示 (prompts) 来引导冻结的 LLMs 执行下游任务,而无需大量数据和参数更新。它将不同下游任务统一为语言生成任务。
- 核心思想: 利用
LLM强大的语言理解和生成能力,通过精心设计的自然语言指令或示例,诱导模型直接生成所需输出,而无需修改模型参数。 - 分类: 提示技术包括提示 (Prompting)、提示调优 (Prompt Tuning) 和 指令调优 (Instruction Tuning)。
4.3.1. 提示 (Prompting)
概念定义: 提示 (Prompting) 指在 LLM 参数冻结 (frozen) 的情况下,通过任务特定提示使其适应下游任务。
- 核心思想: 将下游任务转换为
LLM在预训练期间见过的语言生成形式。 - 方法:
- 常规提示 (Conventional Prompting):
- 提示工程 (prompt engineering): 通过模仿
LLM预训练期间遇到的文本形式来设计提示。例如,Liu et al. [48]提示ChatGPT将评论摘要任务转换为通用文本生成任务。 - 少样本提示 (few-shot prompting): 提供少量输入-输出示例来指导
LLM生成所需输出。 - 局限性: 由于语言生成任务与推荐任务之间的巨大差距,常规提示在推荐系统中的应用有限,主要限于与语言生成性质相似的任务(如评论摘要 [48]、物品关系标注 [4])。
- 提示工程 (prompt engineering): 通过模仿
- 语境学习 (In-Context Learning, ICL):
- 核心思想: 利用
LLM的语境能力,在推理阶段从上下文中学习(新任务)。 - 设置:
- 少样本设置 (few-shot setting): 提示中包含少量带有上下文和期望完成的任务示例。
- 零样本设置 (zero-shot setting): 提示中不提供示例,只提供任务的自然语言描述。
- 推荐系统中的应用:
- LLMs 作为推荐器:
Liu et al. [48]采用ChatGPT,为不同推荐任务(如Top-K推荐、评分预测、解释生成)设计独立的任务描述,并基于相应的输入-输出示例进行ICL。 - 增强型
ICL:Zhiyuli et al. [67]建议在ICL演示中加入角色注入 (role injection) 的文本描述(如“你是一位图书评分专家”),以防止LLMs拒绝执行推荐任务。 - 连接
LLMs与传统RecSys:Chat-Rec[3] 提出了一个框架,通过ICL连接ChatGPT和传统RecSys,ChatGPT接收传统RecSys的候选物品并精炼最终推荐结果。 - API 调用与工具集成:
Zhang [113]设计了文本API调用模板,使ChatGPT通过ICL调用外部图推理工具,访问基于图的推荐结果。 - LLM-based 自主智能体 (autonomous agent):
InteRecAgent[114]、RecAgent[115] 和Agent4Rec[116] 通过为LLMs配备记忆 (memory) 和行动 (action) 模块,模拟用户行为,与RecSys交互。
- LLMs 作为推荐器:
- 核心思想: 利用
- 思维链提示 (Chain-of-Thought, CoT Prompting):
- 核心思想: 通过在提示中加入中间推理步骤的标注,增强
LLM的推理能力,特别适用于复杂的多步骤推理任务(如对话式推荐中的多轮对话)。 - 设置:
- 零样本
CoT(zero-shot CoT): 插入“让我们一步一步思考 (Let's think step by step)”等短语,引导LLMs独立生成推理步骤。 - 少样本
CoT(few-shot CoT): 在ICL示例中手动设计任务特定的推理步骤,将原始的输入-输出示例扩展为输入-CoT-输出形式。
- 零样本
- 推荐系统中的应用:
Zhao et al. [19]讨论了ICL和CoT结合。Zhao et al. [20]提出了一个简单的CoT模板:“请推断用户的偏好并推荐合适的物品。”来指导LLMs。- 示例: 在电商推荐中,
CoT提示可以指导LLM推断用户的高级购物意图、识别常与已购物品一起购买的物品,并选择最相关的物品进行推荐。 InteRecAgent[114] 和RecMind[112] 使用CoT提示,使LLMs作为智能体管理复杂推荐任务,通过生成计划利用外部工具。- 未来方向:
Yao et al. [124]提出通过将推理步骤建模为图节点和边而非序列链来增强LLMs的图推理能力,这可能迁移到RecSys。
- 核心思想: 通过在提示中加入中间推理步骤的标注,增强
- 常规提示 (Conventional Prompting):
下图 (原文 Figure 7) 提供了推荐任务中零样本 ICL 和少样本 ICL 的简要模板:
该图像是一个示意图,展示了零-shot ICL 和 few-shot ICL 在推荐任务中的应用模板。左侧是 few-shot ICL 的说明与示例,右侧为 zero-shot ICL 的描述,强调在指定上下文下如何进行推荐。
4.3.2. 提示调优 (Prompt Tuning)
概念定义: 提示调优 (Prompt Tuning) 是一种添加新的提示词元 (prompt tokens) 到 LLMs,并基于任务特定数据集优化这些提示的方法,通常比手动设计提示所需的人工工作和领域知识更少。
- 核心思想: 不直接修改
LLM权重,而是引入可学习的提示参数,通过梯度下降等方法优化这些提示,使其更好地引导LLM完成特定任务。 - 分类:
- 硬提示调优 (Hard Prompt Tuning):
- 概念定义: 生成和更新离散的文本提示模板(如自然语言)。
ICL可以被视为硬提示调优的一个子类 [126],其中ICL中的语境示例是提示的一部分。 - 局限性: 存在离散优化挑战,需要大量的试错来发现合适的自然语言提示。
- 概念定义: 生成和更新离散的文本提示模板(如自然语言)。
- 软提示调优 (Soft Prompt Tuning):
- 概念定义: 使用连续向量作为提示(如文本嵌入),并基于任务特定数据集优化这些提示。软提示词元通常连接到输入层的原始输入词元,仅更新软提示和输入层的少量参数。
- 推荐系统中的应用:
Wu et al. [127]应用对比学习捕获用户表示并将其编码为提示词元。Wang et al. [72]和Guo et al. [128]编码跨领域推荐中的互信息到软提示中。- 基于任务学习: 随机初始化的软提示被用于引导
T5生成推荐结果 [119],并根据T5输出的推荐损失进行端到端优化。
- 优缺点: 软提示在连续空间中更易于优化,但牺牲了可解释性,因为连续向量与自然语言提示之间缺乏直观对应。
- 硬提示调优 (Hard Prompt Tuning):
4.3.3. 指令调优 (Instruction Tuning)
概念定义: 指令调优 (Instruction Tuning) 通过在多个任务特定提示上微调 LLMs,以增强其遵循指令的能力,从而提高 LLMs 在未见任务上的零样本性能。它结合了提示和预训练&微调范式的特点。
- 核心思想: 训练
LLM更好地理解和遵循自然语言指令,而不是解决特定任务。这使得模型能够准确地遵循新的任务指令,提高泛化能力。 - 阶段:
- 指令(提示)生成阶段:
- 概念定义: 引入一种基于指令的自然语言提示格式,包含任务导向的输入(基于任务特定数据集的任务描述)和期望的目标(基于任务特定数据集的相应输出)。
- 推荐系统中的应用:
Zhang et al. [20]提出了一个面向推荐的指令模板,包括用户偏好、意图和任务形式,作为生成各种推荐任务指令的通用模板。Bao et al. [68]和Chen et al. [70]使用“任务描述-输入-输出”的三部分指令模板,基于任务特定推荐数据集生成指令。
- 模型调优阶段:
- 概念定义: 使用上述生成的指令对
LLMs进行微调。此阶段的微调原则与 Section 4.2 中的全模型微调和参数高效微调相同。 - 推荐系统中的应用:
Bao et al. [68]利用LoRA(Low-Rank Adaptation) 使LLaMA的指令调优更加轻量化,适用于下游推荐任务。- 图数据理解:
Wu et al. [90]提出了一个LLM基的提示构造器,将行为图 (behavior graphs) 中节点(候选物品)和边(物品间关系)的路径编码为自然语言描述,用于指令调优LLM基推荐器。
- 概念定义: 使用上述生成的指令对
- 指令(提示)生成阶段:
下图 (原文 Figure 6) 比较了对应上述三种提示技术(ICL、提示调优和指令调优)的代表性方法的工作流程:

以下是原文 Table 3 的结果:
| Paradigms | Methods | LLM Tasks | LLM Backbones | References |
|---|---|---|---|---|
| Prompting | Conventional Prompting | Text Summarization | ChatGPT | [48] |
| Relationship Extraction | ChatGPT | [4] | ||
| In-context Learning (ICL) | Recommendation Tasks (e.g., rating prediction, top-K recommendation,conversational recommendation, explanation generation, etc.) |
GPT-4 ChatGPT |
[96] [4, 67, 96, 97] |
|
| T5 PaLM |
[100, 101, 102] [103] |
|||
| Data Augmentation of RecSys | GPT-4 ChatGPT GPT-3 |
[104] [104, 105, 106] [107] |
||
| Data Refinement of RecSys | ChatGPT GPT-3 |
[3, 108] [109] |
||
| GPT-2 ChatGLM |
[110] [111] |
|||
| API Call of RecSys & Tools | ChatGPT | [112], [113] | ||
| User Behavior Simulation | GPT-4 | [114] | ||
| ChatGPT | [115, 116] | |||
| Task Planning | LLaMA | [117] | ||
| Chain-of-thought (CoT) | Recommendation Tasks | T5 | [20] | |
| Task Planning | GPT-4 ChatGPT |
[114] [112] |
||
| Prompt Tuning | Hard Prompt Tuning | Recommendation Tasks | GPT-2 | [118] |
| ICL is a subclass of hard prompt tuning (See Section 5.1.2) | ||||
| Soft Prompt Tuning | Recommendation Tasks | T5 GPT-2 PaLM M6 |
[119], [120] [118] [102] [69] |
|
| Instruction Tuning | Full-model Tuning with Prompt |
Recommendation Tasks | T5 LLaMA |
[20], [66] [121] |
| Parameter-efficient Model Tuning with Prompt |
Recommendation Tasks | LLaMA | [68], [95], [121] | |
5. 实验设置
本篇论文是一篇综述,因此不涉及传统意义上的实验设置。本节将从综述论文的角度,讨论其回顾文献的范围、所采用的分类标准以及所分析的 LLM 和推荐任务类型。
5.1. 综述范围与分类标准
论文系统地回顾了 LLM 赋能推荐系统这一新兴领域的研究。其核心“设置”在于对现有工作的分类框架。作者将 LLM 在推荐系统中的应用主要划分为:
- 用户和物品的表示学习 (Deep Representation Learning for LLM-based Recommender Systems):这是基础层面,关注如何将用户和物品的信息输入
LLM。- ID-基推荐系统 (ID-based Recommender Systems):通过将离散的用户/物品
ID映射到LLM可处理的文本序列中。 - 文本侧信息增强推荐系统 (Textual Side Information-enhanced Recommender Systems):利用用户画像、物品描述等文本信息,通过
LLM编码器学习更丰富的语义表示。
- ID-基推荐系统 (ID-based Recommender Systems):通过将离散的用户/物品
LLM适应推荐任务的三大范式 (Paradigms for Adapting LLMs to RecSys):这是核心方法论层面。- 预训练范式 (Pre-training Paradigm):在大量用户行为数据上预训练
LLM,使其掌握推荐领域的通用模式。 - 微调范式 (Fine-tuning Paradigm):在特定推荐任务数据集上对预训练
LLM进行调整,包括全模型微调和参数高效微调。 - 提示范式 (Prompting Paradigm):通过设计任务指令或示例,引导冻结的
LLM完成推荐任务,包括常规提示、语境学习 (ICL)、思维链 (CoT) 提示、提示调优和指令调优。
- 预训练范式 (Pre-training Paradigm):在大量用户行为数据上预训练
5.2. 数据集与 LLM 主干模型
论文通过对大量现有工作的分析,总结了这些工作所使用的“数据集”类型和“LLM 主干模型”:
- 数据集特点:
- 用户-物品交互数据: 包括购买、点击、评分等显式或隐式行为。
- 文本侧信息: 用户评论、用户画像、物品标题、描述等。
- 多模态数据: 少数工作也涉及图像等非文本数据,但文本仍是主流。
- 任务多样性: 涵盖
Top-K推荐、评分预测、会话推荐、解释生成、数据增强、数据精炼、API调用、用户行为模拟、任务规划等。
LLM主干模型 (LLM Backbones):- 早期的
PLMs:GPT-2、BERT、T5等。 - 中大型
LLMs:GPT-3、LaMDA、PaLM、LLaMA、M6、ChatGPT、GPT-4、ChatGLM等。这反映了综述的及时性,涵盖了最新的LLM发展。
- 早期的
5.3. 评估指标与对比基线
由于是综述,论文本身没有进行具体的实验评估。但其所分析的 LLM 赋能推荐系统工作,通常会采用推荐领域通用的评估指标和对比基线。虽然论文未列出具体公式,但以下是一些在相关研究中常用的评估指标,可以推断被分析的论文会用到这些。
5.3.1. 评估指标 (Evaluation Metrics)
-
准确率 (Precision)
- 概念定义: 在所有推荐给用户的物品中,有多少是用户真正感兴趣(或与之交互)的。它衡量推荐结果的“纯度”。
- 数学公式:
- 符号解释:
- 表示推荐列表中用户感兴趣的物品数量。
- 表示推荐列表中的总物品数量。
-
召回率 (Recall)
- 概念定义: 在所有用户真正感兴趣的物品中,有多少被推荐系统成功地推荐给了用户。它衡量推荐系统的“覆盖度”。
- 数学公式:
- 符号解释:
- 表示推荐列表中用户感兴趣的物品数量。
- 表示用户所有感兴趣的物品总数量。
-
F1 分数 (F1-score)
- 概念定义:
F1分数是Precision和Recall的调和平均值,用于综合衡量推荐系统的性能,特别适用于Precision和Recall之间需要平衡的场景。 - 数学公式:
- 符号解释:
- 是准确率。
- 是召回率。
- 概念定义:
-
归一化折扣累积增益 (Normalized Discounted Cumulative Gain, NDCG)
- 概念定义:
NDCG衡量推荐列表的排序质量。它不仅考虑推荐物品的相关性,还考虑相关物品在列表中的位置,位置越靠前的相关物品贡献越大。 - 数学公式:
- 符号解释:
- 是推荐列表的长度。
- 是第 个推荐物品的相关性评分(例如,0 表示不相关,1 表示相关,更高表示更相关)。
- 是理想情况下,按照相关性降序排列的推荐列表中第 个物品的相关性评分。
- 是折扣累积增益,衡量实际推荐列表的质量。
- 是理想折扣累积增益,是最佳推荐列表的
DCG值。
- 概念定义:
-
平均排名倒数 (Mean Reciprocal Rank, MRR)
- 概念定义:
MRR用于评估推荐系统在检索单个正确物品时的性能。它计算第一个正确物品位置的倒数的平均值。如果第一个正确物品在第 位,那么倒数就是 。 - 数学公式:
- 符号解释:
- 是查询(或用户)的总数。
- 是第 个查询中第一个相关物品的排名。
- 概念定义:
5.3.2. 对比基线 (Baselines)
被综述的论文通常会将自己提出的 LLM 赋能方法与以下类型的基线模型进行比较:
- 传统推荐系统模型:
Matrix Factorization (MF)、BPR(Bayesian Personalized Ranking)、LightGCN等。 - 基于深度学习的推荐系统模型:
GRU4Rec、BERT4Rec、SASRec等序列推荐模型,以及其他DNN或GNN模型。 - 早期的
PLM赋能推荐系统: 例如,直接使用BERT或GPT-2的嵌入作为特征,或对其进行微调。 - 其他
LLM方法: 例如,不同的提示策略或微调方法之间的比较。
6. 实验结果与分析
作为一篇综述论文,本研究的“实验结果”体现在其对现有文献的系统性整理和归纳。作者通过分类和总结 LLM 赋能推荐系统在预训练、微调和提示三大范式下的具体方法、任务和所用的 LLM 主干模型,揭示了该领域的现状和发展趋势。
6.1. 核心结果分析
通过对现有研究的梳理,论文揭示了 LLMs 在推荐系统中的应用模式和效果:
- 表示学习的基础性作用: 无论是
ID基还是文本侧信息增强的表示方法,都旨在为LLMs提供更丰富的用户和物品信息。文本侧信息增强的方法在解决ID稀疏性和语义理解不足方面展现出巨大潜力,利用LLM作为强大的语义编码器。 - 预训练的通用性与适应性: 预训练范式通过模仿语言模型的任务(如
MLM和NTP),使LLMs能够在用户行为序列上学习通用的推荐模式。PTUM和M6等通过行为预测任务进行预训练,P5则通过多任务建模实现跨任务泛化,显示了预训练在捕捉用户偏好和物品特性方面的强大能力。 - 微调的性能优化与效率权衡:
- 全模型微调 (Full-model Fine-tuning) 在提升特定任务性能方面通常效果显著,但计算成本高昂,且可能引入偏差。例如
RecLLM和GIRL直接微调LLMs来实现会话或职位推荐。 - 参数高效微调 (PEFT) (如
LoRA和Adapter) 提供了一种折衷方案,在保持高性能的同时大大降低了资源需求,使得在有限硬件条件下部署LLM赋能推荐系统成为可能,如TallRec和M6的应用。
- 全模型微调 (Full-model Fine-tuning) 在提升特定任务性能方面通常效果显著,但计算成本高昂,且可能引入偏差。例如
- 提示工程的灵活性与挑战:
- 常规提示 (Conventional Prompting) 适用于将推荐任务转换为
LLM熟悉的语言生成任务(如文本摘要),但泛化能力有限。 - 语境学习 (ICL) 显著提升了
LLMs在新任务上的性能,无论是作为直接推荐器、桥接传统RecSys还是作为自主智能体,都展现了其无需参数更新的强大适应性。零样本ICL的便捷性,以及少样本ICL通过提供示例进一步提升性能的特点,使其成为快速原型开发和部署的有效手段。 - 思维链 (CoT) 提示解决了
ICL在复杂推理任务上的局限,通过引导LLMs输出中间推理步骤,增强了其解决多步骤推荐问题的能力。 - 提示调优 (Prompt Tuning) 通过优化可学习的提示词元,自动化了提示设计过程,特别是软提示调优在效率和性能之间取得了平衡,但牺牲了一定的可解释性。
- 指令调优 (Instruction Tuning) 结合了微调和提示的优势,通过在多任务指令上微调
LLMs,显著提高了模型遵循指令和在未见任务上的零样本泛化能力。
- 常规提示 (Conventional Prompting) 适用于将推荐任务转换为
以下是原文 Table 1 的结果(预训练方法总结):
| Paradigms | Methods | Pre-training Tasks | Code Availability |
|---|---|---|---|
| Pre-training | PTUM [82] | Masked Behavior Prediction | https://github.com/wuch15/PTUM |
| Next K Behavior Prediction | |||
| M6 [69] | Auto-regressive Generation | Not available | |
| P5 [71] | Multi-task Modeling | https:/ /github.com/jeykigung/P5 |
分析: Table 1 展示了 LLM 赋能推荐系统中的几种代表性预训练方法。PTUM [82] 专注于用户行为,通过掩码行为预测和下一个 K 行为预测来学习用户模型,这与 NLP 中的 MLM 和 NTP 任务相呼应。M6 [69] 采用自回归生成,表明其偏向生成式任务。P5 [71] 则通过多任务建模实现统一的预训练,旨在处理多种推荐任务。这些方法的共同点是都试图将推荐领域的特定“语言”结构(用户行为序列、物品描述等)通过预训练任务融入 LLM,以提升其对推荐场景的理解。
以下是原文 Table 2 的结果(微调方法总结):
| Paradigms | Methods | References |
|---|---|---|
| Fine-tuning | Full-model Fine-tuning | [83], [84], [85], [86], [87], [88], and [89]1 |
| Parameter-efficient Fine-tuning | [68]2, [90], and [69] | |
| CodeAvailability:1https://github.com/veason-silverbullet/unitrec, https://github.com/sai990323/ta | ||
分析: Table 2 总结了微调 LLM 以适应推荐任务的两种主要策略。全模型微调 (Full-model Fine-tuning) 涉及更新 LLM 的所有参数,虽然计算成本高昂,但在特定任务上可能达到最佳性能。所引用的文献涵盖了会话推荐、消除偏差、跨模态迁移和隐私保护等多个应用方向。参数高效微调 (Parameter-efficient Fine-tuning, PEFT) 是为了解决全模型微调的资源限制而提出的,通过仅更新少量参数或引入适配器来实现高效微调,例如 TallRec [68] 和 M6 [69] 的应用。这表明研究人员在追求性能的同时,也高度关注 LLM 在推荐系统中的实际部署可行性。
以下是原文 Table 3 的结果(提示方法总结):
| Paradigms | Methods | LLM Tasks | LLM Backbones | References |
|---|---|---|---|---|
| Prompting | Conventional Prompting | Text Summarization | ChatGPT | [48] |
| Relationship Extraction | ChatGPT | [4] | ||
| In-context Learning (ICL) | Recommendation Tasks (e.g., rating prediction, top-K recommendation,conversational recommendation, explanation generation, etc.) |
GPT-4 ChatGPT |
[96] [4, 67, 96, 97] |
|
| T5 PaLM |
[100, 101, 102] [103] |
|||
| Data Augmentation of RecSys | GPT-4 ChatGPT GPT-3 |
[104] [104, 105, 106] [107] |
||
| Data Refinement of RecSys | ChatGPT GPT-3 |
[3, 108] [109] |
||
| GPT-2 ChatGLM |
[110] [111] |
|||
| API Call of RecSys & Tools | ChatGPT | [112], [113] | ||
| User Behavior Simulation | GPT-4 | [114] | ||
| ChatGPT | [115, 116] | |||
| Task Planning | LLaMA | [117] | ||
| Chain-of-thought (CoT) | Recommendation Tasks | T5 | [20] | |
| Task Planning | GPT-4 ChatGPT |
[114] [112] |
||
| Prompt Tuning | Hard Prompt Tuning | Recommendation Tasks | GPT-2 | [118] |
| ICL is a subclass of hard prompt tuning (See Section 5.1.2) | ||||
| Soft Prompt Tuning | Recommendation Tasks | T5 GPT-2 PaLM M6 |
[119], [120] [118] [102] [69] |
|
| Instruction Tuning | Full-model Tuning with Prompt |
Recommendation Tasks | T5 LLaMA |
[20], [66] [121] |
| Parameter-efficient Model Tuning with Prompt |
Recommendation Tasks | LLaMA | [68], [95], [121] | |
分析: Table 3 对提示范式下的各种方法进行了最详尽的总结。它清晰地展示了从早期的常规提示 (Conventional Prompting) 到更为复杂的语境学习 (ICL) 和思维链 (CoT) 提示的演进。
ICL及其多种应用场景(如直接推荐、数据增强、数据精炼、API调用和用户行为模拟)表明了LLMs在无需训练情况下处理多样化推荐任务的强大能力。主流LLM如ChatGPT、GPT-4和T5被广泛使用。CoT提示特别强调了LLMs的推理能力,通过分解复杂任务来生成更准确的推荐。- 提示调优 (Prompt Tuning) 弥补了手动提示的不足,特别是软提示调优 (Soft Prompt Tuning) 在优化连续向量提示方面展现了效率和性能的平衡。
- 指令调优 (Instruction Tuning) 代表了微调和提示的融合,通过在带提示的多任务上进行微调,显著提升了
LLM遵循指令的能力和在未见任务上的零样本性能,常结合PEFT(如LoRA) 实现轻量化。 总体而言,Table 3揭示了提示策略的丰富性和灵活性,以及LLM在推荐系统中作为智能辅助、数据增强器甚至自主智能体的多重角色。
6.2. 消融实验/参数分析
作为一篇综述论文,本文本身不包含消融实验或参数分析。然而,论文中引用的许多研究(尤其是那些提出了具体 LLM 赋能推荐系统方法的论文)通常会进行这些实验。例如,在微调范式下,研究者可能会通过消融实验来评估 LoRA 模块或特定适配器对模型性能和效率的影响;在提示范式下,不同的提示模板、示例数量或 CoT 步骤设计都可能是参数分析的对象。这些实验有助于验证模型各组件的有效性,并理解关键超参数对推荐结果的影响。
7. 总结与思考
7.1. 结论总结
本综述全面回顾了大语言模型 (LLMs) 赋能推荐系统 (RecSys) 的最新进展。论文强调,LLMs 凭借其卓越的语言理解和生成能力、强大的泛化和推理能力,以及快速适应新任务的特性,为解决传统 DNN 基推荐系统在文本理解、任务泛化和复杂推理方面的局限性提供了新的途径。
综述将 LLM 赋能推荐系统的方法归纳为两大基础方向:ID-基表示和文本侧信息增强表示,以及三大核心范式:预训练 (Pre-training)、微调 (Fine-tuning) 和 提示 (Prompting)。
-
在表示学习层面,
LLMs既可以处理离散的ID信息,也能作为强大的编码器抽取文本侧信息的深层语义。 -
在预训练范式下,
LLMs通过模仿语言建模任务来学习用户行为序列和物品特征的通用模式。 -
微调范式通过全模型微调或参数高效微调 (
PEFT),使LLMs专门适应特定推荐任务,兼顾性能与效率。 -
提示范式则展现了
LLMs在不更新参数或仅更新少量参数的情况下,通过精心设计的自然语言指令或示例完成复杂推荐任务的灵活性,包括语境学习 (ICL)、思维链 (CoT)、提示调优和指令调优。总体而言,该综述为研究人员提供了
LLM赋能推荐系统领域的技术全景和深入理解。
7.2. 局限性与未来工作
论文作者指出了该领域当前存在的挑战,并提出了六个关键的未来研究方向:
-
幻觉缓解 (Hallucination Mitigation):
- 局限性:
LLMs存在生成听起来合理但事实不准确或输入数据中不存在的内容(即“幻觉”)的现象,这在医疗、法律等高风险推荐场景中可能导致严重后果。 - 未来方向: 引入事实知识图谱 (
knowledge graphs) 作为训练和推理阶段的补充事实知识,以减少幻觉;在模型输出阶段进行内容验证和事实核查。
- 局限性:
-
可信赖的大语言模型用于推荐系统 (Trustworthy Large Language Models for Recommender Systems):
- 局限性:
LLM赋能的推荐系统可能带来可靠性低、不公平待遇、缺乏透明度和可解释性,以及用户隐私泄露等问题。 - 未来方向: 从安全与鲁棒性 (Safety&Robustness)、非歧视与公平性 (Non-discrimination&Fairness)、可解释性 (Explainability) 和隐私 (Privacy) 四个维度构建可信赖的
LLM推荐系统。- 安全与鲁棒性: 增强模型对对抗性扰动(恶意输入)的抵抗力,例如通过强化学习从人类反馈 (
RLHF(Reinforcement Learning from Human Feedback)) 整合安全提示,或对推荐任务的输入提示进行自动预处理和对抗性训练。 - 非歧视与公平性: 解决
LLMs训练数据中固有的偏见和刻板印象,避免生成歧视性推荐。目前研究尚处于初步阶段,需要更多关注。 - 可解释性: 鉴于许多
LLMs是“黑箱”模型,需要努力理解其内部工作机制,以提高LLM基推荐系统的可解释性,帮助用户理解推荐理由。 - 隐私: 保护用户敏感数据,防止训练
LLMs导致隐私泄露。可以探索差分隐私 (DP)LLMs和prompt tuning等方法,以及联邦学习 (federated learning) 与LLMs的结合,实现去中心化、保护隐私的推荐。
- 安全与鲁棒性: 增强模型对对抗性扰动(恶意输入)的抵抗力,例如通过强化学习从人类反馈 (
- 局限性:
-
垂直领域特定
LLMs用于推荐系统 (Vertical Domain-Specific LLMs for Recommender Systems):- 局限性: 通用
LLMs虽强大,但在特定领域(如医疗、金融)可能缺乏足够的专业知识。 - 未来方向: 开发和优化垂直领域特定的
LLMs,使其更好地理解和处理特定领域的知识、术语和上下文。这需要高质量的领域数据集和合适的微调策略。
- 局限性: 通用
-
用户与物品索引 (Users&Items Indexing):
- 局限性:
LLMs在处理长文本的用户-物品交互信息时可能表现不佳,且纯文本格式难以充分捕捉协同知识。 - 未来方向: 开发先进的用户和物品索引方法,融合用户-物品交互的协同知识,而不仅仅是文本格式。
- 局限性:
-
微调效率 (Fine-tuning Efficiency):
- 局限性:
LLMs的微调计算成本高昂,尤其对于大规模模型和数据集。 - 未来方向: 进一步研究
PEFT技术,如适配器模块,以降低计算成本和时间。同时,探索多模态(文本和图像)推荐系统中的适配器调优效果,并优化端到端训练过程。
- 局限性:
-
数据增强 (Data Augmentation):
- 局限性: 传统推荐系统研究高度依赖真实用户行为数据,数据收集和标注成本高昂且不可持续。
- 未来方向: 利用
LLMs进行数据增强,生成高质量的合成用户行为数据或物品描述,以克服真实数据稀缺的挑战。LLMs可以作为模拟用户行为的智能体,或通过提示技术增强个性化内容推荐。
7.3. 个人启发与批判
这篇综述为 LLM 与推荐系统交叉领域的研究提供了全面的路线图,极大地启发了我对该领域未来发展的思考。
个人启发:
- 范式融合与创新: 论文清晰地展示了从预训练到微调再到提示的演进路径,以及它们之间的融合(如指令调优)。这提示未来的研究不应局限于单一范式,而应探索这些范式的协同作用,以达到最佳性能和效率。例如,是否可以设计一种基于轻量级
PEFT的指令调优策略,结合CoT提示,在资源受限的边缘设备上实现复杂推理的个性化推荐? - 可信赖
AI的重要性: 论文将可信赖LLM推荐系统作为一个重要未来方向,这强调了技术发展与社会责任并重的理念。在追求高准确率和个性化的同时,必须将公平性、可解释性、隐私和鲁棒性内嵌到系统设计中,而不仅仅是事后修补。这对于AI伦理研究者和开发者都具有深远的指导意义。 - 多模态和知识图谱的潜力: 论文多次提及将
LLMs与多模态数据(如图像)和知识图谱 (knowledge graphs) 结合。这暗示了LLMs不仅仅是文本处理工具,更是连接不同数据源和知识体系的枢纽。未来的推荐系统可能是一个由LLMs驱动的、能够理解世界万物并进行复杂推理的“智能体”,而不仅仅是基于用户行为的模式匹配器。
批判与可以改进的地方:
-
理论基础的深入探讨: 尽管论文全面回顾了技术应用,但在某些部分,对于
LLMs在推荐系统中“为什么有效”的深层理论机制探讨略显不足。例如,ICL在RecSys中成功的本质原因是什么?是LLM捕获了何种类型的协同信息或语义关联?更深入地阐明这些理论基础,将有助于指导更具原则性的模型设计。 -
量化评估的缺乏: 作为一篇综述,无法进行实验是其性质决定。但可以在对现有工作的总结中,更系统地汇总不同方法的性能数据(例如,如果可能,创建一个汇总
Top-K推荐任务在不同数据集上,不同LLM方法的NDCG性能的表格),以便读者更直观地比较不同范式和方法的量化优势。 -
计算成本和环境影响:
LLMs的训练和推理需要巨大的计算资源,这带来了高昂的成本和环境影响。虽然论文在微调效率中有所提及,但可以更突出地讨论这一问题,并将其作为未来研究(如绿色AI推荐)的一个重要考量因素。 -
用户体验和人机交互: 尽管提及了对话式推荐和用户行为模拟,但对于
LLM赋能推荐系统在实际用户体验 (user experience) 和人机交互 (human-computer interaction) 方面的深层影响和设计原则可以进一步展开。例如,LLMs如何真正提升用户发现新物品的乐趣?如何避免过度个性化导致的“信息茧房”效应? -
实际部署的挑战: 论文提及了部署
LLMs的效率问题,但实际部署还面临其他挑战,如延迟、算力需求、维护成本以及与现有基础设施的集成等。更深入地讨论这些工程层面的挑战,将对工业界研究人员更有价值。总而言之,这篇综述为
LLM赋能推荐系统这一快速发展的领域提供了一个坚实的基础和清晰的导航,同时也为未来的深入研究和实际应用指明了方向。
相似论文推荐
基于向量语义检索推荐的相关论文。