A Survey on Generative Recommendation: Data, Model, and Tasks
TL;DR 精炼摘要
本文综述生成式推荐的新范式,基于数据增强与统一、模型对齐训练及任务设计三个维度系统分析。重点探讨大型语言模型和扩散模型的创新应用,揭示生成推荐在知识整合、自然语言理解与个性化生成上的优势。
摘要
Recommender systems serve as foundational infrastructure in modern information ecosystems, helping users navigate digital content and discover items aligned with their preferences. At their core, recommender systems address a fundamental problem: matching users with items. Over the past decades, the field has experienced successive paradigm shifts, from collaborative filtering and matrix factorization in the machine learning era to neural architectures in the deep learning era. Recently, the emergence of generative models, especially large language models (LLMs) and diffusion models, have sparked a new paradigm: generative recommendation, which reconceptualizes recommendation as a generation task rather than discriminative scoring. This survey provides a comprehensive examination through a unified tripartite framework spanning data, model, and task dimensions. Rather than simply categorizing works, we systematically decompose approaches into operational stages-data augmentation and unification, model alignment and training, task formulation and execution. At the data level, generative models enable knowledge-infused augmentation and agent-based simulation while unifying heterogeneous signals. At the model level, we taxonomize LLM-based methods, large recommendation models, and diffusion approaches, analyzing their alignment mechanisms and innovations. At the task level, we illuminate new capabilities including conversational interaction, explainable reasoning, and personalized content generation. We identify five key advantages: world knowledge integration, natural language understanding, reasoning capabilities, scaling laws, and creative generation. We critically examine challenges in benchmark design, model robustness, and deployment efficiency, while charting a roadmap toward intelligent recommendation assistants that fundamentally reshape human-information interaction.
思维导图
论文精读
中文精读
1. 论文基本信息
1.1. 标题
A Survey on Generative Recommendation: Data, Model, and Tasks (生成式推荐综述:数据、模型与任务)
1.2. 作者
Min Ho, Le Wu, Yuxin Liaoa, Yonghui Yangb, Zhen Zhanga, Yu Wanga, Changlong Zhenga, Han Wu 和 Richang Honga
- Min Ho, Le Wu, Yuxin Liaoa, Zhen Zhanga, Yu Wanga, Changlong Zhenga, Han Wu, Richang Honga: 合肥工业大学 (Hefei University of Technology), 合肥, 230009, 安徽, 中国
- Yonghui Yangb: 新加坡国立大学 (National University of Singapore), 新加坡
1.3. 发表期刊/会议
预印本 (arXiv),综述论文。
1.4. 发表年份
2025年
1.5. 摘要
推荐系统 (Recommender systems, RSs) 作为现代信息生态系统的基础架构,帮助用户浏览数字内容并发现符合其偏好的物品。其核心在于解决一个基本问题:将用户与物品进行匹配。在过去的几十年里,该领域经历了连续的范式转变,从机器学习 (Machine Learning, ML) 时代的协同过滤 (Collaborative Filtering, CF) 和矩阵分解 (Matrix Factorization, MF) 到深度学习 (Deep Learning, DL) 时代的神经网络架构。最近,生成模型 (Generative Models) 的兴起,特别是大型语言模型 (Large Language Models, LLMs) 和扩散模型 (Diffusion Models),引发了一种新的范式:生成式推荐 (Generative Recommendation),它将推荐重新概念化为一项生成任务,而非判别式评分任务。
本综述通过一个统一的三方框架,涵盖数据、模型和任务维度,对这一范式进行了全面审视。我们并非简单地对工作进行分类,而是系统地将方法分解为操作阶段:数据增强和统一、模型对齐和训练、任务制定和执行。在数据层面,生成模型实现了知识注入式增强 (Knowledge-infused Augmentation) 和基于代理的模拟 (Agent-based Simulation),同时统一了异构信号。在模型层面,我们对基于 LLM 的方法、大型推荐模型 (Large Recommendation Models, LRMs) 和扩散方法进行了分类,分析了它们的对齐机制和创新点。在任务层面,我们阐明了新的能力,包括对话式交互 (Conversational Interaction)、可解释推理 (Explainable Reasoning) 和个性化内容生成 (Personalized Content Generation)。
我们确定了五个关键优势:世界知识整合 (World Knowledge Integration)、自然语言理解 (Natural Language Understanding, NLU)、推理能力 (Reasoning Capabilities)、缩放法则 (Scaling Laws) 和创造性生成 (Creative Generation)。我们批判性地审视了基准设计 (Benchmark Design)、模型鲁棒性 (Model Robustness) 和部署效率 (Deployment Efficiency) 方面的挑战,同时描绘了迈向智能推荐助手 (Intelligent Recommendation Assistants) 的路线图,这将从根本上重塑人机信息交互。
1.6. 原文链接
- 原文链接: https://arxiv.org/abs/2510.27157
- PDF 链接: https://arxiv.org/pdf/2510.27157v1.pdf
- 发布状态: 预印本
2. 整体概括
2.1. 研究背景与动机
推荐系统 (RSs) 在现代信息生态系统中扮演着核心角色,旨在帮助用户从海量数字内容中发现符合其偏好的物品,从而解决信息过载 (information overload) 问题,并为服务提供商带来流量和收入。
核心问题: 将用户与物品进行匹配。
现有研究的挑战或空白 (Gap):
- 语义知识受限: 传统
RSs依赖有限的语义知识,通常需要手动处理,难以捕捉物品和用户的深层含义。 - 小规模模型性能欠佳: 对于小规模模型,性能往往不理想。
- 固定候选集: 传统模型通常依赖于固定的候选物品集。
- 任务特定架构: 需要针对特定任务设计专门的架构和训练目标。
- 冷启动问题 (Cold-start Challenges): 在新用户或新物品出现时,由于缺乏历史交互数据,传统
RSs难以提供有效推荐。 - 缺乏透明度和可解释性: 难以提供透明、上下文丰富的解释。
本文的切入点或创新思路:
最近,生成模型,特别是大型语言模型 (LLMs) 和扩散模型 (Diffusion Models) 的兴起,为 RSs 带来了新的范式——生成式推荐 (Generative Recommendation)。它将推荐问题重新概念化为一项生成任务,而非传统的判别式评分过程。这种转变有望解决传统 RSs 面临的诸多挑战,并带来新的机遇。
2.2. 核心贡献/主要发现
本综述旨在为快速发展的生成式推荐领域提供一份全面的技术图谱,其主要贡献体现在以下几个方面:
- 统一的三方框架: 提出了一个统一的、涵盖数据、模型和任务维度 (data, model, and task dimensions) 的三方框架,系统地分解了生成式推荐的方法论,而不仅仅是简单分类。
- 操作阶段分解: 将生成式推荐的方法分解为操作阶段:数据增强和统一、模型对齐和训练、任务制定和执行。
- 数据层面机遇: 阐述了生成模型在数据层面如何通过
知识注入式增强 (knowledge-infused augmentation)和基于代理的模拟 (agent-based simulation)来统一异构信号,解决数据稀疏和冷启动等长期挑战。 - 模型层面分类与分析: 对基于
LLM的方法、大型推荐模型 (LRMs)和扩散模型 (Diffusion Models)进行了分类,分析了它们的对齐机制和创新点。 - 任务层面新能力: 揭示了生成模型在任务层面如何实现
对话式交互 (conversational interaction)、可解释推理 (explainable reasoning)和个性化内容生成 (personalized content generation)等新能力。 - 五大关键优势: 总结了生成模型为
RSs带来的五大关键优势:世界知识整合 (world knowledge integration)、自然语言理解 (natural language understanding)、推理能力 (reasoning capabilities)、缩放法则 (scaling laws)和创造性生成 (creative generation)。 - 挑战与路线图: 批判性地审视了基准设计、模型鲁棒性、部署效率等方面的挑战,并提出了迈向智能推荐助手 (intelligent recommendation assistants) 的未来研究路线图。
3. 预备知识与相关工作
本章旨在为读者提供理解生成式推荐领域所需的基础概念,并梳理该领域的技术演进脉络,同时明确本文的独特定位。
3.1. 基础概念
3.1.1. 推荐系统 (Recommender Systems, RSs)
推荐系统 (RSs) 是旨在为用户提供个性化物品(如电商产品、视频、音乐、新闻等)推荐的智能系统。其核心目标是通过分析用户历史行为、用户画像和上下文信息来推断用户兴趣,从而缓解信息过载问题,帮助用户发现感兴趣的内容,并为服务提供商带来商业价值。
3.1.2. 判别式模型 (Discriminative Models) 与生成式模型 (Generative Models)
- 判别式模型 (Discriminative Models): 这类模型学习条件概率分布 ,即在给定输入 的情况下预测输出 的概率,或者直接学习一个从输入 到输出 的映射函数。在推荐系统中,判别式模型通常学习一个评分或排序函数
f(u, i),用于估计用户 对物品 的相关性或偏好。 - 生成式模型 (Generative Models): 这类模型学习输入 和输出 的联合概率分布
P(x, y),这意味着它模型化了输入 和标签 是如何共同生成的。在推荐系统中,生成式模型的目标是直接生成目标物品或文档,以满足用户的信息需求,而不是仅仅预测一个分数。
3.1.3. 协同过滤 (Collaborative Filtering, CF) 与矩阵分解 (Matrix Factorization, MF)
- 协同过滤 (CF):
协同过滤是早期RSs的核心思想之一,它基于“物以类聚,人以群分”的原则。它通过收集大量用户的历史行为数据,找出与目标用户兴趣相似的用户群体,或者找出与目标物品相似的物品,然后进行推荐。 - 矩阵分解 (MF):
矩阵分解是CF的一种高效实现方式。它将用户-物品交互矩阵分解为两个低维的潜在因子矩阵:一个用户潜在因子矩阵和一个物品潜在因子矩阵。通过学习这些潜在因子,可以预测用户对未交互物品的偏好。著名的Netflix Prize大赛推动了MF方法的广泛应用。
3.1.4. 深度学习 (Deep Learning, DL)
深度学习 利用多层神经网络来从数据中学习复杂的表示和模式。在 RSs 中,DL 架构(如 CNNs、RNNs、GNNs、Transformers)被用于捕捉用户-物品交互的非线性关系,并从文本、图像、知识图谱等复杂数据中学习丰富的用户和物品表示。
3.1.5. 大型语言模型 (Large Language Models, LLMs) 与扩散模型 (Diffusion Models)
- 大型语言模型 (LLMs):
LLMs是基于Transformer架构的深度学习模型,通过在海量文本数据上进行预训练,展现出强大的自然语言理解 (Natural Language Understanding, NLU)、生成、推理和上下文学习 (in-context learning) 能力。它们能够处理和生成类人文本,是当前AIGC (AI-Generated Content)领域的核心技术。 - 扩散模型 (Diffusion Models):
扩散模型是一类生成模型,通过模拟一个逐步加噪(前向扩散过程)和逐步去噪(反向生成过程)的过程来学习数据的分布。它们在图像生成领域取得了显著成功,能够生成高质量的、逼真的图像。
3.2. 前人工作与技术演进
推荐系统 领域在过去几十年经历了显著的技术演进:
- 机器学习时代 (20世纪90年代-21世纪初): 早期研究主要集中于启发式方法,如
基于内容的推荐 (Content-based Recommendation)和协同过滤 (Collaborative Filtering)。随后,矩阵分解 (Matrix Factorization)方法的兴起,特别是在Netflix Prize竞赛的推动下,成为主流。 - 深度学习时代 (21世纪10年代中期至今): 随着
神经网络技术的发展和大规模用户行为数据的可用性增加,深度学习方法开始主导RSs。CNNs、RNNs、GNNs和Transformers等架构被引入,显著增强了模型处理复杂数据和学习非线性映射的能力。 - 生成式模型时代 (近年):
LLMs和扩散模型的崛起,标志着RSs进入了新的范式。生成式推荐将推荐任务重新定义为生成任务,利用LLMs强大的世界知识 (world knowledge)、自然语言理解和推理能力,以及扩散模型的生成能力,来解决传统RSs面临的挑战。
3.3. 差异化分析
本综述与现有的其他相关综述相比,具有以下显著的差异和创新点:
-
更广泛的生成范式覆盖: 现有的综述(如 Wu et al. [187], Lin et al. [92], Zhao et al. [233], Deldjoo et al. [22], Liu et al. [106], Li et al. [80], Wang et al. [170])主要集中于基于
LLM的推荐系统。而本文提供了更广泛的生成范式覆盖,不仅包括LLM,还涵盖了大型推荐模型 (LRMs)和扩散模型 (Diffusion Models),确保纳入了最新的研究进展(包括2025年及以后的工作)。 -
全面的数据-模型-任务框架: 本综述引入了一个创新的
数据-模型-任务 (data-model-task)框架,允许从数据准备、模型架构到任务特定创新的不同层面,分析生成模型的贡献。这提供了一个更全面的视角来理解生成模型在推荐系统中的演变作用,超越了简单地将LLM作为增强器或推荐器的分类。 -
深入探讨任务级创新: 本文专门辟出一个章节深入探讨
任务级创新 (task-level innovations),考察了生成模型如何开启交互式推荐 (interactive recommendation)、对话式推荐 (conversational recommendation)和个性化内容生成 (personalized content generation)等新颖推荐场景。这在以往的综述中通常未被充分探索。 -
最新研究路线图: 结合了2025年及以后的最新研究,对当前挑战和未来研究方向进行了讨论,提供了最新的领域发展路线图。
总之,本综述不仅对当前生成式推荐的现状进行了全面回顾,更通过其独特的框架和前瞻性分析,为该领域的未来发展提供了系统的指导。
4. 方法论
本节将深入探讨生成式推荐的核心方法论,从其所带来的关键优势出发,详细分解生成式模型在推荐流程中数据、模型和任务层面的具体应用。
4.1. 判别式与生成式推荐模型概述
在深入探讨方法论之前,我们首先回顾判别式和生成式推荐模型的基本概念和流程。
4.1.1. 判别式推荐模型 (Discriminative Recommendation Models)
判别式推荐模型的核心目标是学习一个评分或排序函数 f(u, i),以估计用户 和物品 之间的相关性或亲和度。其流程通常分为三个部分:
- 数据准备 (Data Preparation):
- 训练数据通常包含三元组 ,其中 是用户, 是物品, 是观察到的交互(如评分或二元反馈)。
- 用户 和物品 可以通过
one-hot ID表示。 - 辅助内容数据(如用户社交网络、画像、多媒体描述、知识图谱等)常用于丰富 和 的表示。
- 模型构建 (Model Construction):
- 模型首先通过嵌入层将用户和物品映射到密集嵌入向量: 和 。 和 可以是简单的查找表,也可以是
多层感知机 (MLPs)、图神经网络 (GNNs)、卷积神经网络 (CNNs)、Transformer等复杂结构。 - 然后,模型计算用户和物品嵌入之间的匹配分数:。常用的评分函数包括内积、基于距离的度量或神经网络。
- 模型通过区分正负交互进行训练。常见的损失函数包括
均方误差 (Mean Squared Error, MSE)损失 、二元交叉熵 (Binary Cross Entropy, BCE)损失 和贝叶斯个性化排序 (Bayesian Personalized Ranking, BPR)损失 。 - 符号解释:
- : 训练样本总数。
- : 用户 对物品 的真实评分或交互标签。
f(u, i): 模型预测的用户 对物品 的相关性分数。- : 训练数据集。
- :
Sigmoid激活函数。 - : 用户 偏好的物品 (正样本)。
- : 用户 不偏好的物品 (负样本)。
- 模型首先通过嵌入层将用户和物品映射到密集嵌入向量: 和 。 和 可以是简单的查找表,也可以是
- 推荐任务 (Recommendation Task):
-
最终任务主要是从候选列表中选择用户可能喜欢的
Top-K物品。 -
在推理时,给定用户 和候选物品集 ,模型计算每个物品的分数并进行排序,得到
TopK列表: -
这个过程需要为每个候选物品计算匹配分数,然后排序并选择
Top-K物品。下图(原文 Figure 1)展示了判别式推荐与生成式推荐的对比:
该图像是论文中的示意图,展示了判别式推荐与生成式推荐的对比。左侧(a)展示判别式推荐通过表示学习和匹配函数计算匹配分数,右侧(b)展示生成式推荐利用生成模型直接基于用户历史交互数据推荐物品。
-
Figure 1: Discriminative Recommendation and Generative Recommendation
4.1.2. 生成式推荐模型 (Generative Recommendation Models)
生成式推荐是一个广泛的范式,其中生成模型(如 LLMs、扩散模型)被应用于推荐流程的各个阶段。本综述将其分为三个主要范式:
- 数据级合成 (Data-Level Synthesis): 生成模型用于合成训练数据,包括用户/物品特征和交互记录,特别适用于冷启动或数据稀疏场景。
- 符号解释:
- : 原始用户集合。
- : 原始物品集合。
- : 原始交互集合。
- : 生成模型,用于合成数据。
- : 生成模型的参数。
- : 生成的用户特征、物品特征和交互记录。
- 符号解释:
- 模型级推荐 (Model-Level Recommendation): 生成模型作为核心推荐引擎,直接学习用户偏好并生成个性化推荐。主要包括
基于LLM的方法、大型推荐模型和基于扩散模型的方法。 - 任务级生成 (Task-Level Generation): 生成模型将推荐重构为生成任务,以自然语言或结构化格式输出推荐结果,实现解释生成、对话式交互、个性化内容生成等新能力。
4.2. 生成式模型的优势 (Advantages of Generative Models)
生成式模型为推荐系统带来了以下关键优势,解决了理解用户和物品方面的基本挑战:
4.2.1. 世界知识整合 (World Knowledge Integration)
传统的推荐系统需要显式的内容增强方法(如知识图谱提取),流程复杂。LLMs 在大规模多样化数据集上预训练,天然地编码了关于实体、事件、关系和文化背景的广泛世界知识。通过采用生成范式,推荐系统可以直接利用这些嵌入式知识,无需复杂的知识提取管道,从而实现更具上下文感知和信息丰富的推荐。
4.2.2. 自然语言理解 (Natural Language Understanding, NLU)
个性化推荐依赖于理解用户。虽然隐式行为信号(点击、购买、评分)是主要数据来源,但用户也通过搜索查询、评论、对话等语言表达偏好。传统 RSs 难以有效处理这些丰富的自然语言信号。LLMs 凭借其先进的自然语言理解能力,可以直接解释自由形式文本中的用户表达,理解其细微差别、上下文和意图。这使得推荐系统能够捕捉自然语言表达的用户偏好,支持对话式推荐界面,并理解复杂多面的查询。
4.2.3. 推理能力 (Reasoning Capabilities)
用户在推荐场景中的决策往往需要推理,尤其是在复杂决策背景下(如选择金融产品、规划旅行)。传统推荐模型通常依赖模式匹配和关联,缺乏显式推理能力。生成模型凭借其涌现推理能力 (emergent reasoning capabilities),可以模拟用户决策背后的逻辑过程,理解用户偏好某一物品而非另一物品的“原因”,通过考虑特征关系、时间序列和上下文因素来提供解释和理由,使推荐更透明和可信。
4.2.4. 缩放法则 (Scaling Law)
大型语言模型 中观察到的缩放法则 表明,随着模型规模和训练数据量的增加,模型性能会显著提升。这一原则为构建更强大的推荐系统提供了有前景的途径。通过扩大生成模型参数和增加训练数据的多样性,推荐系统可以捕捉用户行为和物品特征中更深层次的模式,从而展现出对用户意图的更好理解、更细致的偏好建模和改进的复杂推荐场景处理能力。
4.2.5. 生成能力以实现新颖推荐 (Generative Capabilities for Novel Recommendations)
与判别式推荐模型仅从现有候选物品中排序或选择不同,生成模型可以创建新颖的内容和推荐。这在冷启动 (cold-start) 场景中尤为宝贵,因为新用户或新物品缺乏历史交互数据。生成模型可以利用更广泛的模式、用户原型和物品相似性来合成推荐。此外,它们可以生成多样化和创造性的推荐,打破传统系统中常见的过滤气泡 (filter bubble) 问题。例如,生成模型可以推荐定制捆绑包、个性化内容变体,甚至生成完全根据用户偏好量身定制的全新物品描述。
下图(原文 Figure 2)展示了本综述的概览:
该图像是一个示意图,展示了生成式推荐的开放挑战及其对应的三大层面机遇,包括数据层(数据生成与统一)、模型层(基于LLM、大型推荐模型与扩散模型)和任务层(多种推荐任务)。
A Survey on Generative Recommendation
Figure 2: Overview of this survey.
下图(原文 Figure 3)展示了生成式推荐研究的分类体系:
该图像是论文中图3的示意图,展示了生成推荐研究的分类体系,涵盖数据级、模型级和任务级的机会与方法,细分各类技术和代表性工作。
Figure 3: Taxonomy of research on generative recommendation.
4.3. 数据级机遇 (Data-Level Opportunities)
LLMs 凭借其强大的开放世界知识 (open-world knowledge)、自然语言理解 (natural language understanding)和生成能力 (generative capabilities),为推荐系统的数据层面带来了前所未有的机遇,实现了有效的数据生成和统一。
4.3.1. 数据生成 (Data Generation)
LLMs 不仅能被动消费数据,还能主动丰富、合成和统一推荐数据。
4.3.1.1. 开放世界知识增强 (Open-world Knowledge for Augmentation)
LLMs 能够利用其预训练语料库中存储的广阔世界知识,对推荐数据进行增强。这包括:
- 内容增强 (Content Augmentation):
LLMs通过多样的提示策略 (diverse prompting strategies)提取关键洞察,丰富稀疏的物品描述和用户交互历史。- 例如,
ONCE (WSDM'24)和LLM-Rec (NAACL'24)能够生成自然语言的用户/物品画像,总结历史信息,并丰富稀疏元数据。 MSIT (ACL'25)利用多模态大语言模型 (Multimodal Large Language Models, MLLMs)通过自校正指令微调 (self-corrective instruction tuning)从图像和文本中挖掘潜在物品属性。SeRALM (SIGIR'24)设计对齐目标提示 (alignment-targeted prompts),引导LLMs生成与推荐目标一致的物品描述,过滤掉不相关的噪音。
- 表示增强 (Representation Augmentation):
LLMs驱动的生成方法正在取代传统的手动特征工程 (feature engineering),自动构建语义丰富的、任务特定的特征。DynLLM (ArXiv'24)使用LLM作为内容编码器提取内容表示,并将其集成到推荐任务中。GE4Rec (ICML'24)提出了生成式特征生成 (feature generation)范式,预测每个特征嵌入。
- 行为增强 (Behavior Augmentation):
LLMs通过适当的提示 (prompting)能够理解用户行为,并生成符合用户兴趣的上下文。- 例如,
ColdLLM (WSDM'25)利用耦合漏斗架构 (coupled-funnel architecture)筛选冷启动用户并模拟交互。 LLM-FairRec (SIGIR'25)采用公平感知提示 (fairness-aware prompts)为少数用户生成公平的伪交互 (pseudo-interactions)。LLM4IDRec (TOIS'25)利用微调 (fine-tuned)的LLMs增强ID格式的交互数据。
- 结构增强 (Structure Augmentation):
-
LLMs被用于诱导更高层次的语义结构(如关系、图),以支持结构化推理。 -
SBR (SIGIR'25)将物品特征与层次意图对齐。 -
LLMRec (WSDM'24)推断图中的缺失节点和边。 -
CORONA (SIGIR'25)检索意图感知子图 (intent-aware subgraphs)。 -
LLM-KERec (CIKM'24)推断新的三元组。以下是原文 Table 1,展示了用于推荐系统的开放世界知识数据增强方法:
Category Representative Works Description / Focus Content Augmentation ONCE (WSDM'24), LLM-Rec (NAACL'24), LRD (SIGIR'24), MSIT (ACL'25), EXP3RT (SIGIR'25), Lettingo (KDD'25), SINGLE (WWW'24), KAR (RecSys'24), IRLLRec (SIGIR'25), LLM4SBR (TOIS'25), SeRALM (SIGIR'24), TRAWL (ArXiv'24) Generate natural-language user/item profiles, summarize histories, enrich sparse metadata, and align textual semantics with feedback. Representation Augmentation DynLLM (ArXiv'24), GE4Rec (ICML'24), HyperLLM (SIGIR'25) Automated feature construction, multimodal attribute extraction, external knowledge distillation, and hierarchical category generation. Behavior Augmentation ColdLLM (WSDM'25), Wang et al. (WWW'25), LLM-FairRec (SIGIR'25), LLM4IDRec (TOIS'25) Generate synthetic user-item interactions, simulate cold-start preferences, ensure fairness, and integrate pseudo-interactions into ID-based pipelines. Structure Augmentation SBR (SIGIR'25), LLMRec (WSDM'24), Chang et al. (AAAI'25), CORONA (SIGIR'25), LLM-KERec (CIKM'24), TCR-QF (IJCAI'25), COSMO (SIGMOD'24) Relation discovery, graph completion, social network generation, subgraph retrieval, knowledge graph construction & distillation.
-
下图(原文 Figure 4)展示了 LLM 驱动的数据生成关键技术框架:
该图像是图4,展示了基于LLM的数据生成关键技术框架,涵盖内容增强、行为增强、结构增强和交互模拟等方面,强调了通过开放世界知识和代理行为模拟提升数据质量。
Figure 4: Outline of key techniques in LLM-empowered data generation.
4.3.1.2. 基于代理的行为模拟 (Agent-Based Behavior Simulation)
LLM 驱动的代理 (agents) 能够感知环境、进行推理和生成类似人类的语言,从而模拟用户行为。
- 交互模拟 (Interaction Simulation):
Agent4Rec [219]将这种方法扩展到具有事实和情感记忆的用户代理,模拟多样化行为。AgentCF [221]同时模拟用户代理和物品代理,建模传统推荐系统中的协同过滤概念。- 其他工作如
SimUSER [5]和SUBER [18]设计了具有情景记忆、角色设定和基于马尔可夫决策过程 (MDP)交互规划的认知代理。
- 社会模拟 (Social Simulation):
GGBond [239]集成了类人认知代理和动态社交交互,模型化了用户不断演变的社交关系和信任动态。RecAgent [169]构建了一个交互式沙盒,模拟和研究推荐系统中的信息孤岛 (information silos)和从众 (conformity)等社会场景。
4.3.2. 数据统一 (Data Unification)
LLMs 提供了强大的工具,可以统一跨任务、跨领域和跨模态的异构数据,解决长期存在的数据稀疏性、领域漂移和表示不一致等挑战。
4.3.2.1. 多领域数据统一 (Multi-Domain Data Unification)
跨领域推荐面临行为稀疏性、领域差距和表示不对齐的挑战。
DMCDR [83]使用偏好编码器 (preference encoder)基于源域交互历史建立偏好引导信号 (preference-guided signals),引导用户表示的反向过程。LLM4CDSR [105]利用LLMs提取物品的语义表示,建模用户的跨领域交互序列。LLMCDSR [194]利用LLMs理解跨领域信息,为非重叠用户生成重叠物品的伪交互。UniCTR [31]利用LLMs学习层次语义表示,捕捉跨领域的共性。MoLoRec [51]利用模块化适配器 (modular adapters)和共享编码器 (shared encoders)实现高效的多领域学习。
4.3.2.2. 多任务数据统一 (Multi-Task Data Unification)
现代推荐系统面临多种任务(如评分预测、排序、解释生成),传统上这些任务是分开建模的。
P5 [38]率先将推荐任务统一为文本到文本 (text-to-text)的生成问题,通过个性化提示 (personalized prompts)。GPSD [163]结合生成式预训练 (generative pretraining)和判别式微调 (discriminative fine-tuning)提高排序准确性。ARTS [113]使用自提示 (self-prompting)进行联合预测和解释,增强可解释性。EcomScriptBench [173]提供了一个模拟真实购物流程的多任务基准 (multi-task benchmark)。
4.3.2.3. 多模态数据统一 (Multi-Modal Data Unification)
推荐涉及文本、图像、行为日志等多种模态。
UniMP [184]和MQL4GRec [217]将多模态 (multimodal)输入统一到共享的语义空间中。LLaRA [90]通过混合提示 (hybrid prompting)整合物品ID和文本。PAD [178]通过三阶段预训练-对齐-解耦 (three-stage pretrain-align-disentangle)过程对齐模态。MLLM-MSR [207]设计了一个基于MLLMs的物品摘要器 (item-summariser)来提取图像特征并转换为文本。
4.3.2.4. 一模型多用 (One Model for All)
LLMs 的快速发展正在将推荐系统从任务特定设计转向统一的、通用目的模型,能够处理多样化任务、领域和模态。
-
P5 [38]将推荐重新定义为文本到文本的生成问题,统一了评分预测和序列推荐等任务。 -
M6-Rec [20]移除了固定候选集,实现了结合用户行为、文本和图像的开放式多模态生成 (multimodal generation)。 -
UniTRec [122]将生成式建模 (generative modeling)与对比学习 (contrastive learning)结合,增强了用户意图和物品语义理解。 -
CLLM4Rec [244]将用户/物品ID纳入LLM词汇表,统一了生成和排序。下图(原文 Figure 5)展示了
LLM驱动的数据统一示意图:
该图像是图表,展示了图5中大语言模型(LLM)驱动的数据统一示意,涵盖多领域、多任务和多模态数据的统一处理,体现“一模型多用”的理念。
Figure 5: LLM empowered data unification
4.4. 模型级机遇 (Model-Level Opportunities)
生成模型的发展为解决传统推荐系统的局限性提供了重要机遇。本节将现有的生成式推荐系统分为基于LLM的生成式推荐、大型推荐模型和基于扩散模型的生成式推荐。
4.4.1. 基于LLM的生成式推荐 (LLM-Based Generative Recommendation)
LLM 凭借其广泛的世界知识和强大的语义理解能力,通过自然语言提示 (natural-language prompt) 或轻量级微调 (lightweight fine-tuning) 来生成个性化推荐。
4.4.1.1. 预训练LLM用于推荐 (Pretrained LLMs for Recommendation)
利用预训练 LLMs 进行推荐依赖于提示设计 (prompt design) 和上下文学习 (in-context learning),无需大量再训练。
- LLM作为增强器 (LLM-as-Enhancer) [150, 54, 67, 102, 47]:
LLMs用于将用户/物品画像和交互历史重写为自然语言特征,然后将其输入或与协同过滤、序列模型 (sequential models)或重排序器 (re-rankers)结合。这提高了可解释性、用户交互,有时还改善了长尾覆盖。 - LLM作为推荐器 (LLM-as-Recommender) [36]: 预训练
LLM通过任务特定提示 (prompts)或模板 (templates)直接生成推荐(如物品标题或ID),并可以以零样本 (zero-shot)模式跨场景操作。这延伸到多模态 (multimodal)设置,其中MLLMs接收文本和图像作为输入以生成零样本推荐 (zero-shot recommendations)。
4.4.1.2. 将LLM与推荐对齐 (Aligning LLMs for Recommendation)
为了弥补通用语言建模目标与推荐任务(排序、个性化、领域约束等)之间的不匹配,研究人员通过在推荐特定数据上进行微调 (fine-tuning) 来对齐 LLMs。
下图(原文 Figure 6)展示了 LLM 对齐推荐的不同范式:
该图像是一个示意图,展示了基于大语言模型(LLM)的推荐系统中不同输入与输出形式的对比,包括(a)文本元数据、(b)协同令牌、(c)ID号和(d)可训练ID令牌四种方案,直观体现了输入处理和推荐生成的过程。
Fgure :The paradigms aligning LLMs o recommendation. Inspired b thefigure [214].
-
基于文本提示的方法 (Text prompting based methods): 通过结合任务描述和用户的历史交互,在自然语言中构建用户画像。
-
早期工作
[86, 149, 157]主要输入已消费物品序列。 -
后续研究如
TALLRec [4]在提示模板 (prompt templates)中插入显式偏好陈述。 -
LlamaRec [215]首先使用序列推荐器 (sequential recommender)缩小候选集。 -
LettinGo [168]使用直接偏好优化 (Direct Preference Optimization, DPO)使模型适应用户偏好。 -
Reason4Rec [28]利用用户评论提取偏好。 -
局限性: 文本提示缺乏显式
协同信号 (collaborative signals),可能导致在关键依赖于物品间关系和协同模式 (collaborative patterns)的场景中性能不足。以下是原文 Table 2,展示了基于文本提示的推荐方法的总结:
Methods User formulation Backbone Task description Historical interactions Profile Feedback Chat-Rec [36] ranking history interactions ✓ GPT-3.5 TALLRec [4] preference classification user preference LLaMA-7B LlamaRec [214] retrieval, ranking history interactions LLaMA2-7B LRD [202] ranking history interactions GPT-3.5 ReLLa [93] ranking history interactions Vicuna-7B CALRec [86] ranking history interactions PaLM-2 XXS BiLLP [149] long-term Interactive history interactions, reward model GPT-3.5, GPT-4, LLaMA2-7B PO4ISR [157] Ranking history interactions LLaMA2-7B LLM-TRSR [237] Ranking history interactions LLaMA2-7B RecGPT [124] Ranking history interactions, user preference RecGPT-7B KAR [189] Ranking history interactions, user preference GPT-3.5 LLM4CDSR [105] Ranking history interactions GPT-3.5, GLM4-Flash EXP3RT [68] rating prediction history interactions LLaMA3-8B SERAL [191] retrieval, ranking history interactions Qwen2-0.5B LettinGo [168] Ranking history interactions LLaMA3-8B Reason4Rec [28] Rating Prediction history interactions, user preference LLaMA3-8B InstructRec [224] Ranking history interactions Flan-T5-XL Uni-CTR [31] Rating Prediction history interactions, user preference DeBERTaV3-large BIGRec [3] Ranking history interactions LLaMA-7B UPSR [140] Ranking history interactions T5, FLAN-T5
-
-
基于协同信号的方法 (Collaborative signal based methods): 旨在将
协同信号注入用户/物品画像,使LLM同时获取语义和关系知识。-
LLM增强的
协同过滤 (CF)模型表示: 将协同信号和语义表示 (semantic representations)映射到共享空间并融合。例如,[72, 104, 90, 177, 226, 227, 82, 145, 69, 144, 65]等方法通过拼接两种信息来源构建增强的用户画像。 -
LLM辅助的
CF模型摘要: 将用户偏好提炼为简洁的文本摘要,作为传统推荐器的辅助输入。例如,CORONA [12]结合LLM推理和GNN。 -
CoRAL [186]将协同信号重构为显式语句,使其更具可解释性。 -
局限性: 密集嵌入对
LLMs而言并非原生可解释,通常需要投影或口头化 (verbalization)来弥合表示空间差距。以下是原文 Table 3,展示了基于协同信号的方法的总结:
Methods User Formulation Combining Method Backbone Task Description Historical Interactions Profile Feedback iLoRA [72] Ranking history interactions Concatenation GPT-3.5 LLM-ESR [104] Ranking history interactions Concatenation LLaMA2-7B LLaRA [90] Ranking history interactions Concatenation LLaMA2-7B A-LLMRec [69] Ranking history interactions Concatenation OPT-6.7B RLMRec [144] Ranking history interactions, user preference Concatenation GPT-3.5 CoRAL [186] Ranking history interactions, user preference Retrieval-Augmented GPT-4 BinLLM [226] Ranking history interactions, user preference Concatenation Vicuna-7B E4SRec [82] Ranking history interactions Concatenation Vicuna-7B SeRALM [145] Ranking history interactions Concatenation LLaMA2-7b CORONA [12] Ranking history interactions Pipeline Integration GPT-4o-mini HyperLLM [16] Ranking history interactions Pipeline Integration LLaMA3-8B RecLM [65] Ranking history interactions Concatenation LLaMA2-7b CoLLM [227] Ranking history interactions Concatenation Vicuna-7B PAD [177] Ranking history interactions, user preference Concatenation LLaMA3-8B IDP [188] Ranking history interactions, user preference Concatenation T5
-
-
基于物品词元化 (Item tokenization based methods): 将物品映射到
LLM的词汇表,通过分配可识别的词元 (tokens),使模型能够自回归 (autoregressively)生成。-
ID词元化 (ID-based tokenization): 最简单的方式是为每个用户或物品分配特殊词元[38, 244]。 -
文本词元化 (Text-based tokenization): 使用标题和描述等文本属性引入语义
[3, 20, 158]。 -
码本词元化 (Codebook-based tokenization): 将物品表示为来自共享词汇表的离散
词元序列 (sequences of discrete tokens)[141, 52, 235]。 -
结合
协同信号的码本 (Codebooks with collaborative signals): 将CF信号直接整合到词元化中。例如,LETTER [172]结合RQVAE和对比对齐 (contrastive alignment)。 -
通过
LLMs的自适应词元化 (Self-adaptive tokenization via LLMs):SIT [15]允许LLMs在训练期间自我调整物品词元。 -
挑战: 设计能有效平衡文本和协同语义的
词元仍然是一个开放的挑战。以下是原文 Table 4,展示了基于物品词元化的方法的总结:
Methods User formulation Backbone Task description Historical interactions Token types P5 [38] Ranking historical interactions, user preference ID-based tokenization Transformer CLLM4Rec [244] Ranking historical interactions ID-based tokenization GPT-2 BIGRec [3] Ranking historical interactions Text-based tokenization LLaMA-7B M6 [20] Retrieval, Ranking historical interactions Text-based tokenization M6 IDGenRec [158] Ranking historical interactions Text-based tokenization BERT4Rec TIGER [141] Ranking historical interactions Codebook-based tokenization T5 RPG [52] Ranking historical interactions Codebook-based tokenization LLaMA-2-7B LC-Rec [235] Ranking historical interactions Codebook-based tokenization LLaMA-2-7B ActionPiece [53] Retrieval historical interactions Codebook-based tokenization LLaMA-2-7B LETTER [172] Ranking historical interactions Codebooks with collaborative signals LLaMA-7B TokenRec [138] Retrieval historical interactions Codebooks with collaborative signals T5-small SETRec [94] Ranking historical interactions Codebooks with collaborative signals T5, Qwen CCFRec [100] Ranking historical interactions Codebooks with collaborative signals LLaMA-2-7B LLM2Rec [48] Ranking historical interactions Codebooks with collaborative signals LLaMA-2-7B SIIT [15] Retrieval historical interactions Self-adaptive tokenization LLaMA-2-7B
-
4.4.1.3. 训练目标与推理 (Training Objective & Inference)
-
训练目标 (Training objective): 推荐系统中的训练目标通常是
下一项预测 (next-item prediction)。- 监督微调 (Supervised Fine-Tuning, SFT):
LLMs通过预定义的模板进行微调,以学习下一项预测任务。P5 [38]为五个代表性任务设计了提示 (prompts)。- 符号解释:
- : 用户画像/上下文。
- : 用户偏好的物品。
- : 模型 在给定 的情况下预测 的概率。
- 符号解释:
- 自监督学习 (Self-Supervised Learning, SSL): 通过生成辅助训练信号来减少对手动模板的依赖
[213, 165, 143]。例如,EasyRec [143]构建了文本-行为对齐目标。- 符号解释:
- : 锚点(例如,一个正样本或其增强版本)。
- : 正样本。
- : 负样本。
- : 相似度函数。
- : 温度参数。
- : 负样本集。
- 符号解释:
- 强化学习 (Reinforcement Learning, RL): 引入
奖励驱动优化 (reward-driven optimization)来建模负样本并处理不可微分指标。LEA [166]学习用户状态。- 符号解释:
- : 策略模型。
- : 状态。
- : 动作。
- : 奖励函数。
- 符号解释:
- 偏好优化 (Preference Optimization, PO): 避免训练
奖励模型 (reward model)并减少RL的不稳定性。RosePO [89]调整偏好构建并应用DPO风格的目标。- 符号解释:
-
: 用户画像/上下文。
-
: 偏好的物品。
-
: 拒绝的物品。
-
: 策略模型。
-
: 参考模型。
-
: 惩罚/缩放系数。
-
:
Sigmoid激活函数。以下是原文 Table 5,展示了
LLM生成式推荐的统一训练目标:Category Representative Works Formula Supervised Fine-Tuning P5 (RecSys'22) LGIR (AAAI'24) LLM-Rec (TOÍS'25) RecRanker (TOIS'25) Self-Supervised Learning FELLAS (TOIS'24) HFAR (TOIS'25) Reinforcement Learning LEA (SIGIR'24) RPP (TOIS'25) Direct Preference Optimization LettinGo (KDD'25) RosePO (ArXiv'24) SPRec (WWW'25)
-
- 符号解释:
- 监督微调 (Supervised Fine-Tuning, SFT):
-
推理 (Inference):
- 重排序 (Reranking): 通过在推理时注入更强的排序信号来提高输出质量。
RecRanker [114]采用两阶段管道 (pipeline)。LLM4Rerank [35]将推理框定为多节点、多跳推理 (multinode, multi-hop reasoning)。 - 加速 (Acceleration): 通过减少
LLM使用、缩短输入和加快解码来降低延迟和内存消耗。FELLAS将LLM限制为生成物品/序列嵌入。提示蒸馏 (Prompt Distillation, GenRec [155])压缩长历史记录。AtSpeed [97]应用推测解码 (speculative decoding)。
- 重排序 (Reranking): 通过在推理时注入更强的排序信号来提高输出质量。
4.4.2. 大型推荐模型 (Large Recommendation Model, LRM)
大型推荐模型 (LRMs) 专注于为推荐任务设计专门的架构,而非仅仅适配 LLMs。
- LRMs的缩放法则 (The Scaling Law of LRMs):
Meta提出的HSTU [216]验证了缩放法则同样适用于推荐系统。它将传统判别式点击率预测 (CTR prediction)任务转换为生成式序列建模 (sequence modeling)任务。HSTU采用因果自回归建模 (causal autoregressive modeling),输入超长用户序列,将检索和排序任务统一为序列生成问题。美团的MTGR [46]是一个生成式排序框架,融合了判别式推荐中常用的交叉特征 (cross features)。小红书的GenRank [60]针对资源敏感的排序场景,将物品视为位置信息 (positional information),并迭代预测与物品相关的动作。
- 端到端推荐 (End-to-End Recommendations):
-
快手的OneRec [23, 240]采用端到端生成式推荐模型取代了传统的检索-粗排-精排 (retrieval-coarse ranking-fine ranking)级联架构。 -
OneRec采用编码器-解码器 (encoder-decoder)结构和MoE (Mixture of Experts)架构。 -
OneSug [43]将此思想扩展到查询推荐。 -
EGA-V2 [238]引入分层词元化 (hierarchical tokenization)和多词元预测 (multi-token prediction)。以下是原文 Table 6,展示了一些代表性
大型推荐模型的总结:Methods User Formulation Architectures Backbone Task Historical Interactions LEARN [62] Ranking history interactions, user preference Cascaded Baichuan2-7B, Transformer HLLM [9] Retrieval, Ranking history interactions Cascaded TinyLlama-1.1B, Baichuan2-7B KuaiFormer [98] Retrieval history interactions Cascaded Stacked Transformer SRP4CTR [44] Ranking history interactions, user preference Cascaded FG-BERT HSTU [216] Ranking history interactions Cascaded Transformer MTGR [45] Ranking history interactions Cascaded Transformer UniROM [135] Ranking history interactions End-to-End RecFormer URM [63] Ranking history interactions, user preference End-to-End BERT OneRec [23] Generative Retrieval and Ranking history interactions, user preference End-to-End Transformer OneSug [43] Generative Retrieval and Ranking history interactions, user preference End-to-End Transformer EGA-V2 [238] Generative Retrieval and Ranking history interactions, user preference End-to-End Transformer
-
下图(原文 Figure 7)展示了 大型推荐模型 (LRM) 的架构及端到端推荐系统架构:
该图像是两张示意图,分别展示了大规模推荐模型(LRM)的架构(a)及端到端推荐系统架构(b)对比。图(a)描绘了编码器、解码器及多种输入序列;图(b)展示了端到端训练与偏好对齐及级联检索排序流程。
End Recommendation.
4.4.3. 基于扩散模型的生成式推荐 (Diffusion-Based Generative Recommendation)
扩散模型 (Diffusion Models, DM) 在图像合成方面取得显著成功后,被扩展到各种推荐任务。
4.4.3.1. 增强数据生成 (Augmented Data Generation)
- 生成高质量交互数据 (Generate high-quality interaction data):
DGFedRS [24]预训练扩散模型以捕捉潜在的个性化用户信息。MoDiCF [77]和TDM [121]专注于数据缺失场景,通过生成和迭代优化缺失数据。Diffurec [88]将用户/物品表示视为分布,并在扩散阶段向嵌入生成中添加高斯噪声 (Gaussian noise)。
- 生成鲁棒表示 (Generate robust representations):
ARD [156]利用扩散过程 (diffusion process)改进社交网络。DDRM [230]和DRGO [229]利用扩散模型学习鲁棒表示。
- 偏好注入条件生成 (Preference injected conditional generation):
DMCDR [83]利用源域的偏好引导信号指导反向过程。InDiRec [139]中的条件扩散模型 (conditional diffusion model)被引导生成具有相同意图的前向视图 (forward views)。
4.4.3.2. 目标项目生成 (Target Item Generation)
- 扩散推荐模型 (Diffusion recommender model):
DiffRec [174]将用户交互预测视为去噪过程 (denoising process)。DreamRec [205]对目标物品进行加噪 (noises)以探索物品空间的潜在分布。DiffRIS [129]使用用户历史序列的局部和全局隐式特征作为条件引导 (conditional guidance)。DiQDiff [119]通过语义向量量化 (semantic vector quantization)增强指导信息的鲁棒性。
- 多样性与不确定性建模 (Diversity and uncertainty modeling):
DiffDiv [7]设计了多样性感知引导学习机制 (diversity-aware guided learning mechanism)。 - 针对
DM推荐的定制优化 (Tailored Optimization for DM-based recommendation):-
DDSR [192]采用离散扩散 (discrete diffusion)构建交互序列的模糊集 (fuzzy sets)。 -
ADRec [11]和PreferDiff [108]提出了定制的优化目标。下图(原文 Figure 8)展示了基于扩散模型的数据增强与目标项目生成流程:
该图像是一个示意图,展示了基于扩散模型的数据增强与目标项目生成流程。图中包含扩散模型的前向和反向过程,以及条件引导反向过程,体现了从嘈杂社交网络到精炼网络和从输入序列到目标项目的转变。
-
Item Generation.
4.5. 任务级机遇 (Task-Level Opportunities)
生成模型在推荐系统中的应用远不止于数据和模型架构的改进,它们还开启了全新的任务范式和功能,极大地扩展了推荐系统的能力边界。
4.5.1. Top-K推荐 (Top-K Recommendation)
传统的判别式推荐逐一计算候选物品的偏好分数并排序,而生成式推荐可以直接生成物品。为确保推荐物品映射到有效物品,生成模型在推理阶段会进行生成接地 (generation grounding)。
- 词汇表受限解码 (Vocabulary-Constrained Decoding): 将生成模型的解码空间限制在预定义的物品标识符或词汇表内。例如,
P5 [38]使用受限解码和集束搜索 (beam-search)。IDGenRec [158]利用前缀树 (prefix tree)存储所有生成的候选ID。 - 生成后过滤 (Post-Generation Filtering): 允许
LLM自由生成文本(ID、标题或语义词元),然后通过精确/语义匹配或重排序将其映射/重排序到目录中的物品。例如,BIGRec [3]通过生成词元序列表示与物品表示之间的L2距离将生成的标识符与有效物品接地。 - 提示增强 (Prompt Augmentation): 对于
基于LLM的推荐器,此策略将候选物品集注入文本提示中,要求模型从候选集中推荐物品。许多基于LLM的推荐器采用了这种策略,如LLaRA [90]、A-LLMRec [69]、iLoRA [72]。
4.5.2. 个性化内容生成 (Personalized Content Generation)
除了推荐现有物品,生成模型还能创造全新的物品内容。
- 个性化视觉内容生成 (Personalized visual content generation):
DiFashion能生成个性化服装搭配,为时尚产业提供指导。DreamVTON [193]通过模板驱动优化机制 (template-driven optimization mechanism)和normal-style LoRA解决3D生成中的多视角一致性问题 (multi-view consistency problem),实现高质量3D虚拟试穿。InstantBooth [148]引入概念编码器 (concept encoder)和补丁编码器 (patch encoder)实现个性化图像生成。OOTDiffusion [197]设计搭配U-Net (outfitting UNet)和搭配融合 (outfitting fusion)实现可控的虚拟试穿。
- 个性化文本内容生成 (Personalized textual content generation) [198]:
- 一些工作利用真实用户交互来探索评论生成
[126, 78, 154, 79]和新闻标题生成[1, 6, 152]的个性化。例如,Ao et al. [1]提出了一个个性化标题生成基准 (personalized headline generation benchmark)。
- 一些工作利用真实用户交互来探索评论生成
4.5.3. 对话式推荐 (Conversational Recommendation)
对话式推荐系统 (Conversational Recommender Systems, CRSs) 能够通过实时、多轮的自然语言交互,动态地获取用户偏好并根据其当前需求采取行动。
- 提示与零样本方法 (Prompting and Zero-shot Methods): 通过设计任务特定
模板 (templates)或演示示例 (demonstration examples)来引导LLMs进行推荐。例如,He et al. [49]展示了现成的LLMs在不微调的情况下可以超越监督式CRSs基线 (supervised CRS baselines)。 - 检索增强与知识增强方法 (Retrieval-augmented and Knowledge-enhanced Approaches): 将
LLMs与检索模块 (retrieval modules)或知识图谱 (knowledge graphs)结合,以解决纯提示 (prompt-based)方法中幻觉 (hallucinations)的问题。例如,[136]通过检索相关物品和实体来增强推荐。 - 统一与参数高效架构 (Unified and Parameter-efficient Architectures):
[142]将CRS重新定义为单一自然语言处理 (Natural Language Processing, NLP)任务。MemoCRS [190]引入记忆模块 (memory modules)捕捉序列连贯性。 - 评估 (Evaluation):
[199]提出评估系统策略是否符合人类预期,而不仅仅依赖准确性指标。
4.5.4. 可解释推荐 (Explainable Recommendation)
可解释推荐 (Explainable Recommendation) 通过告知用户推荐背后的逻辑,显著提高了系统透明度、有效性和可信度。
P5 [38]主要关注设计提示 (prompts)引导LLMs直接生成解释。LLM2ER [201]在强化学习 (Reinforcement Learning)范式中微调LLM解释性推荐主干网络 (backbone)。- 研究人员尝试结合图的优势来增强
LLMs生成的解释。XRec [118]采用图神经网络 (GNN)建模图结构并生成嵌入。 - 一些工作
[211, 231]利用思维模型 (thinking models)的推理能力,并将思维过程 (thought process)作为推荐的解释。
4.5.5. 推荐推理 (Recommendation Reasoning)
LLMs 在推理能力方面取得了显著进展,例如DeepSeek-R1 [40] 和 GPT o-series。CoT (Chain-of-Thought) 提示 [183] 是基础方法,它将问题分解为中间推理步骤。
- 显式推理方法 (Explicit reasoning methods): 生成显式且人类可读的推理过程。
Reason4Rec [30]引入了审慎推荐 (deliberative recommendation)任务。Reason-to-Recommend [231]提出了思维交互 (Interaction-of-Thought, IoT)推理。 - 隐式推理方法 (Implicit reasoning methods): 在没有文本可解释性的情况下进行潜在推理。
LatentR3 [228]引入了强化潜在推理 (reinforced latent reasoning),将推理过程编码为紧凑的潜在词元序列 (sequence of latent tokens)。 - LLM推理增强方法 (LLM reasoning augmentation methods): 利用
LLMs生成推理步骤以增强传统RSs的训练。例如,DeepRec [236]提出了自主交互范式 (autonomous interaction paradigm)。
5. 实验设置
本论文作为一篇综述,并未进行独立的实验来验证其自身提出的方法。因此,本节将总结论文中提及的,或在生成式推荐领域常见的数据集、评估指标和对比基线,以期为读者提供该领域研究的实验背景。
5.1. 数据集
论文回顾了 推荐系统 发展过程中具有里程碑意义的数据集,并指出它们对于生成式推荐范式已不再完全适用。
-
传统数据集:
- MovieLens: 早期
RSs的基础数据集,提供大规模评分数据,推动了协同过滤和矩阵分解方法的发展。 - Netflix Prize 数据集:
Netflix Prize大赛的核心数据集,是潜在因子模型 (latent factor models)和矩阵分解技术发展的重要里程碑。 - Amazon Review 数据集: 将研究重心从显式评分转向隐式反馈(如点击和购买),其包含评分、文本和产品元数据,促进了整合多信号的
混合推荐 (hybrid recommendation)研究。 - Yelp 数据集: 包含丰富的用户评论和商家信息,推动了
深度学习RSs的发展,利用自然语言处理 (Natural Language Processing, NLP)进行情感分析 (sentiment analysis)、表示学习 (representation learning)和上下文感知推荐 (context-aware suggestions)。
- MovieLens: 早期
-
对生成式推荐的适用性挑战:
- 非交互式、离线、静态: 上述数据集大多是历史性的、非交互式的离线数据,只捕捉了特定时间点的用户偏好,而非现实世界中动态的反馈循环和多轮交互。
- 任务特定提示与传统指标: 大多数现有研究在这些数据集上依赖固定的任务特定
提示模板 (prompt templates)生成推荐,并使用传统指标进行评估。 - 限制评估作为个性化助手的能力: 这些数据集更适合评估传统
RSs的准确性,但限制了对作为个性化助手的生成模型的评估,因为后者需要在交互式环境中处理多种场景和多样化任务。
-
急需新基准: 这种差距凸显了对新基准的迫切需求,以更好地支持下一阶段的
生成式推荐研究。
5.2. 评估指标
生成式推荐的评估比传统推荐更为复杂,因为它不仅关注准确性,还涉及到生成内容的质量、多样性、可解释性、对话能力和鲁棒性。虽然论文没有给出具体的实验,但根据其讨论的挑战和任务,可以推断出以下几类评估指标是相关的:
5.2.1. 准确性指标 (Accuracy Metrics)
这些指标衡量推荐列表与用户实际偏好或未来行为的匹配程度。
- 点击率 (Click-Through Rate, CTR):
- 概念定义:
点击率表示用户看到推荐物品后点击该物品的概率。它是衡量推荐系统吸引用户注意力的直接指标,尤其在广告和内容推荐中广泛使用。 - 数学公式:
- 符号解释:
点击次数: 用户点击推荐物品的总次数。曝光次数: 推荐物品被展示给用户的总次数。
- 概念定义:
- 精确率 (Precision@K):
- 概念定义:
精确率@K衡量在推荐给用户的 个物品中,有多少是用户真正感兴趣(正样本)的。它关注推荐列表的“纯度”。 - 数学公式:
- 符号解释:
推荐列表中真正的正样本数量: 在模型推荐的 个物品中,用户实际有交互或表现出偏好的物品数量。- : 推荐列表的长度。
- 概念定义:
- 召回率 (Recall@K):
- 概念定义:
召回率@K衡量用户所有真正感兴趣的物品中,有多少被成功推荐到Top-K列表中。它关注推荐系统的“覆盖度”。 - 数学公式:
- 符号解释:
推荐列表中真正的正样本数量: 在模型推荐的 个物品中,用户实际有交互或表现出偏好的物品数量。所有真正的正样本数量: 在测试集中,用户实际偏好的所有物品数量。
- 概念定义:
- 归一化折损累计增益 (Normalized Discounted Cumulative Gain, NDCG@K):
- 概念定义:
NDCG@K是一个衡量排序质量的指标,它考虑了推荐物品的相关性以及其在推荐列表中的位置。相关性更高的物品如果排在更靠前的位置,NDCG值就越高。 - 数学公式:
- 符号解释:
- : 推荐列表的长度。
- : 排名第 个物品的相关性得分(通常是二元值,1表示相关,0表示不相关;或多级评分)。
- :
折损累计增益,衡量推荐列表的实际排序质量。 - :
理想折损累计增益,表示完美推荐列表(所有最相关物品排在最前面)的DCG值,用于归一化。
- 概念定义:
- 平均精度 (Mean Average Precision, MAP):
- 概念定义:
MAP是衡量信息检索和推荐系统排序质量的常用指标,它对每个用户的平均精确率 (Average Precision, AP)取平均。AP考虑了所有相关物品的精确率,并且对排在更前的相关物品给予更高的权重。 - 数学公式:
- 符号解释:
- : 推荐列表的长度。
- : 在推荐列表前 个物品中的精确率。
- : 指示函数,如果第 个物品是相关物品则为1,否则为0。
相关文档总数: 用户实际偏好的物品总数。- : 用户查询总数。
- : 第 个查询的
平均精确率。
- 概念定义:
5.2.2. 多样性与新颖性指标 (Diversity and Novelty Metrics)
生成式推荐强调创造性生成,因此这些指标变得更加重要,以避免过滤气泡。
- 列表内多样性 (Intra-list Diversity, ILD):
- 概念定义: 衡量单个推荐列表中物品之间的差异程度。较高的
ILD意味着推荐列表包含更多不同类型的物品。 - 数学公式:
- 符号解释:
- : 推荐列表。
- : 推荐列表中物品的数量。
- : 物品 和物品 之间的相似度(例如,基于特征或嵌入的余弦相似度)。
- 概念定义: 衡量单个推荐列表中物品之间的差异程度。较高的
- 覆盖率 (Coverage):
- 概念定义: 衡量推荐系统能够推荐的独特物品占总物品集合的比例。高覆盖率意味着系统能够推荐更多不同的物品,而不是只集中于热门物品。
- 数学公式:
- 符号解释:
- : 所有用户集合。
- : 用户 的推荐列表。
- : 总物品集合。
- 意外性/惊喜度 (Serendipity):
- 概念定义: 衡量推荐的物品对用户来说是相关但又意想不到的程度。即推荐的物品既能满足用户的潜在兴趣,又超出其显式预期。这通常通过结合相关性、新颖性和与用户历史行为的差异性来评估。
- 评估方式: 通常通过用户调研或结合模型预测的相关性与用户已知物品的距离来衡量。没有统一的数学公式,通常是启发式指标。
5.2.3. 可解释性与对话质量指标 (Explainability and Conversational Quality Metrics)
这些是任务级生成带来的新维度。
- 解释的清晰度与忠实度 (Clarity and Faithfulness of Explanations): 评估生成解释的可读性、逻辑性和是否真实反映了推荐决策。通常通过人工评估或
代理模型评估。 - 对话流畅度与有用性 (Conversational Fluency and Usefulness): 衡量对话式推荐系统在多轮交互中的表现,包括回复的自然度、对用户意图的理解程度以及推荐的有效性。通常通过
人机评估 (Human-in-the-loop evaluation)。
5.2.4. 公平性与鲁棒性指标 (Fairness and Robustness Metrics)
鉴于论文中讨论了偏见和鲁棒性的挑战。
- 受欢迎度偏差 (Popularity Bias): 衡量系统推荐热门物品的倾向,例如
平均流行度 (Average Popularity)。 - 公平性 (Fairness): 衡量推荐系统对不同用户群体(如性别、种族)或物品类别(如大小厂商)的对待是否公平。例如,
不同影响 (Disparate Impact, DI)衡量不同群体获得推荐的机会差异。 - 攻击鲁棒性 (Attack Robustness): 衡量系统在面对
恶意攻击 (malicious attacks)(如文本模拟攻击 (textual simulation attack))时保持性能的能力。
5.2.5. 效率指标 (Efficiency Metrics)
- 训练效率 (Training Efficiency): 训练模型所需的时间和计算资源。
- 推理延迟 (Inference Latency): 从接收请求到生成推荐所需的时间。
- 吞吐量 (Throughput): 单位时间内系统能处理的请求数量。
5.3. 对比基线
作为综述论文,本文没有直接的“对比基线”实验。但它在讨论各个方法时,隐含地将新提出的生成式推荐方法与以下类型的系统进行比较:
-
传统判别式推荐模型: 如
协同过滤、矩阵分解以及各种深度学习RSs(如DIN、Transformer-based序列推荐器)。这些是生成式推荐试图超越的传统范式。 -
早期或简单
基于LLM的推荐方法: 比如只使用LLM作为增强器或进行简单提示的方法,与那些进行更深层次对齐或微调的LLMRSs形成对比。 -
不同
生成模型类别之间的对比: 如LLM、LRM和扩散模型在特定任务上的表现差异。 -
有无特定组件的消融对比: 例如,在数据增强、模型对齐或推理优化方面,有无特定机制对性能的影响。
这些对比通常在所引用的具体研究论文中进行,本综述则总结了这些对比所揭示的趋势和优势。
6. 实验结果与分析
本论文是一篇综述,旨在系统性地梳理生成式推荐领域的研究进展和未来方向,而非提出新的模型并进行实验验证。因此,本节将不包含传统的“实验结果与分析”,而是总结论文通过文献分析得出的主要发现和趋势,并通过转录论文中的表格来呈现其对现有工作的分类和特征归纳。
6.1. 核心结果分析
论文的核心发现是,生成式推荐的兴起标志着推荐系统领域从传统的判别式匹配 (discriminative matching) 范式向智能合成 (intelligent synthesis) 的根本性转变。这一转变在数据、模型和任务三个维度上带来了开放性和灵活性。
- 数据层面:知识的引入与统一
- 传统局限: 传统
RSs依赖手工特征和领域特定数据集,特征手动构建且任务固定。 - 生成式优势:
生成模型,特别是LLMs,将世界知识引入推荐过程。通过实时互联网搜索,它们能够整合海量、实时的世界知识。此外,LLMs天然适合整合多领域 (multi-domain)和多任务 (multi-task)的推荐知识。 - 结果: 数据层面更加丰富和知识驱动。
- 传统局限: 传统
- 模型层面:能力增强与缩放法则
- 传统局限:
判别式推荐模型复杂性增加但收益递减,且级联架构成本高昂。 - 生成式优势:
生成模型展现了缩放法则的强大力量,随着模型规模、训练数据和计算资源的增加,推荐性能显著提升,并涌现出新能力(如指令微调、RLHF、上下文学习)。推理能力使模型能理解和推断用户、物品和上下文之间复杂的潜在关系。与限制候选集的判别式推荐器不同,生成模型能够直接生成推荐。 - 结果: 模型层面具有更强的能力和
涌现能力 (emergent capabilities)。
- 传统局限:
- 任务层面:多样化与灵活性
-
传统局限: 传统
RSs通常设计用于单一任务,如点击率预测 (CTR prediction)或评分预测 (rating prediction)。 -
生成式优势:
LLMs通过设计是任务无关 (task-agnostic)的,可以在一个统一框架内处理多种推荐任务。同一个模型可以排序物品、生成解释并以交互方式生成个性化内容。这种灵活性允许系统动态适应不同的用户需求。 -
结果: 任务层面支持更多样化和灵活的功能。
总结而言,
生成式推荐系统已经摆脱了传统判别式范式(基于映射、特征驱动、小模型、任务独立、依赖预定义候选集),正在向开放、能处理广泛任务并适应不断变化的用户需求的推荐助手 (recommendation assistants)演进。这种转变代表了推荐方式的根本性变化,使其更具动态性和响应性。
-
下图(原文 Figure 9)对比了传统判别式推荐与生成式推荐助理的示意图:
该图像是论文中对比传统判别式推荐与生成式推荐助理的示意图,展示了两者数据流程、交互方式、特点及面临的挑战。
Fiur Ilustration traditional iscriminativeecommendationnenerativerecommendationassitant.
6.2. 数据呈现 (表格)
以下是原文 Table 1 的结果:
| Category | Representative Works | Description / Focus |
| Content Augmentation | ONCE (WSDM'24), LLM-Rec (NAACL'24), LRD (SIGIR'24), MSIT (ACL'25), EXP3RT (SIGIR'25), Lettingo (KDD'25), SINGLE (WWW'24), KAR (RecSys'24), IRLLRec (SIGIR'25), LLM4SBR (TOIS'25), SeRALM (SIGIR'24), TRAWL (ArXiv'24) | Generate natural-language user/item profiles, summarize histories, enrich sparse metadata, and align textual semantics with feedback. |
| Representation Augmentation | DynLLM (ArXiv'24), GE4Rec (ICML'24), Hy- perLLM (SIGIR'25) | Automated feature construction, multimodal attribute extraction, external knowledge distil- lation, and hierarchical category generation. |
| Behavior Augmentation | ColdLLM (WSDM'25), Wang et al. (WWW'25), LLM-FairRec (SIGIR'25), LLM4IDRec (TOIS'25) | Generate synthetic user-item interactions, simulate cold-start preferences, ensure fair- ness, and integrate pseudo-interactions into ID-based pipelines. |
| Structure Augmentation | SBR (SIGIR'25), LLMRec (WSDM'24), Chang et al. (AAAI'25), CORONA (SIGIR'25), LLM-KERec (CIKM'24), TCR-QF (IJCAI'25), COSMO (SIGMOD'24) | Relation discovery, graph completion, social network generation, subgraph retrieval, knowl- edge graph construction & distillation. |
以下是原文 Table 2 的结果:
| Methods | User formulation | Backbone | |||
| Task description | Historical interactions | Profile | Feedback | ||
| Chat-Rec [36] | ranking | history interactions | ✓ | GPT-3.5 | |
| TALLRec [4] | preference classification | user preference | LLaMA-7B | ||
| LlamaRec [214] | retrieval, ranking | history interactions | LLaMA2-7B | ||
| LRD [202] | ranking | history interactions | GPT-3.5 | ||
| ReLLa [93] | ranking | history interactions | Vicuna-7B | ||
| CALRec [86] | ranking | history interactions | PaLM-2 XXS | ||
| BiLLP [149] | long-term Interactive | history interactions, reward model | GPT-3.5, GPT-4, LLaMA2-7B | ||
| PO4ISR [157] | Ranking | history interactions | LLaMA2-7B | ||
| LLM-TRSR [237] | Ranking | history interactions | LLaMA2-7B | ||
| RecGPT [124] | Ranking | history interactions, user preference | RecGPT-7B | ||
| KAR [189] | Ranking | history interactions, user preference | GPT-3.5 | ||
| LLM4CDSR [105] | Ranking | history interactions | GPT-3.5, GLM4-Flash | ||
| EXP3RT [68] | rating prediction | history interactions | LLaMA3-8B | ||
| SERAL [191] | retrieval, ranking | history interactions | Qwen2-0.5B | ||
| LettinGo [168] | Ranking | history interactions | LLaMA3-8B | ||
| Reason4Rec [28] | Rating Prediction | history interactions, user preference | LLaMA3-8B | ||
| InstructRec [224] | Ranking | history interactions | Flan-T5-XL | ||
| Uni-CTR [31] | Rating Prediction | history interactions, user preference | DeBERTaV3-large | ||
| BIGRec [3] | Ranking | history interactions | LLaMA-7B | ||
| UPSR [140] | Ranking | history interactions | T5, FLAN-T5 | ||
以下是原文 Table 3 的结果:
| Methods | User Formulation | Combining Method | Backbone | |||
| Task Description | Historical Interactions | Profile | Feedback | |||
| iLoRA [72] | Ranking | history interactions | Concatenation | GPT-3.5 | ||
| LLM-ESR [104] | Ranking | history interactions | Concatenation | LLaMA2-7B | ||
| LLaRA [90] | Ranking | history interactions | Concatenation | LLaMA2-7B | ||
| A-LLMRec [69] | Ranking | history interactions | Concatenation | OPT-6.7B | ||
| RLMRec [144] | Ranking | history interactions, user preference | Concatenation | GPT-3.5 | ||
| CoRAL [186] | Ranking | history interactions, user preference | Retrieval-Augmented | GPT-4 | ||
| BinLLM [226] | Ranking | history interactions, user preference | Concatenation | Vicuna-7B | ||
| E4SRec [82] | Ranking | history interactions | Concatenation | Vicuna-7B | ||
| SeRALM [145] | Ranking | history interactions | Concatenation | LLaMA2-7b | ||
| CORONA [12] | Ranking | history interactions | Pipeline Integration | GPT-4o-mini | ||
| HyperLLM [16] | Ranking | history interactions | Pipeline Integration | LLaMA3-8B | ||
| RecLM [65] | Ranking | history interactions | Concatenation | LLaMA2-7b | ||
| CoLLM [227] | Ranking | history interactions | Concatenation | Vicuna-7B | ||
| PAD [177] | Ranking | history interactions, user preference | Concatenation | LLaMA3-8B | ||
| IDP [188] | Ranking | history interactions, user preference | Concatenation | T5 | ||
以下是原文 Table 4 的结果:
| Methods | User formulation | Backbone | ||
| Task description | Historical interactions | Token types | ||
| P5 [38] | Ranking | historical interactions, user preference | ID-based tokenization | Transformer |
| CLLM4Rec [244] | Ranking | historical interactions | ID-based tokenization | GPT-2 |
| BIGRec [3] | Ranking | historical interactions | Text-based tokenization | LLaMA-7B |
| M6 [20] | Retrieval, Ranking | historical interactions | Text-based tokenization | M6 |
| IDGenRec [158] | Ranking | historical interactions | Text-based tokenization | BERT4Rec |
| TIGER [141] | Ranking | historical interactions | Codebook-based tokenization | T5 |
| RPG [52] | Ranking | historical interactions | Codebook-based tokenization | LLaMA-2-7B |
| LC-Rec [235] | Ranking | historical interactions | Codebook-based tokenization | LLaMA-2-7B |
| ActionPiece [53] | Retrieval | historical interactions | Codebook-based tokenization | LLaMA-2-7B |
| LETTER [172] | Ranking | historical interactions | Codebooks with collaborative signals | LLaMA-7B |
| TokenRec [138] | Retrieval | historical interactions | Codebooks with collaborative signals | T5-small |
| SETRec [94] | Ranking | historical interactions | Codebooks with collaborative signals | T5, Qwen |
| CCFRec [100] | Ranking | historical interactions | Codebooks with collaborative signals | LLaMA-2-7B |
| LLM2Rec [48] | Ranking | historical interactions | Codebooks with collaborative signals | LLaMA-2-7B |
| SIIT [15] | Retrieval | historical interactions | Self-adaptive tokenization | LLaMA-2-7B |
以下是原文 Table 5 的结果:
| Category | Representative Works | Formula |
| Supervised Fine-Tuning | P5 (RecSys'22) LGIR (AAAI'24) LLM-Rec (TOÍS'25) RecRanker (TOIS'25) | |
| Self-Supervised Learning | FELLAS (TOIS'24) HFAR (TOIS'25) | |
| Reinforcement Learning | LEA (SIGIR'24) RPP (TOIS'25) | |
| Direct Preference Optimization | LettinGo (KDD'25) RosePO (ArXiv'24) SPRec (WWW'25) |
以下是原文 Table 6 的结果:
| Methods | User Formulation | Architectures | Backbone | |
| Task | Historical Interactions | |||
| LEARN [62] | Ranking | history interactions, user preference | Cascaded | Baichuan2-7B, Transformer |
| HLLM [9] | Retrieval, Ranking | history interactions | Cascaded | TinyLlama-1.1B, Baichuan2-7B |
| KuaiFormer [98] | Retrieval | history interactions | Cascaded | Stacked Transformer |
| SRP4CTR [44] | Ranking | history interactions, user preference | Cascaded | FG-BERT |
| HSTU [216] | Ranking | history interactions | Cascaded | Transformer |
| MTGR [45] | Ranking | history interactions | Cascaded | Transformer |
| UniROM [135] | Ranking | history interactions | End-to-End | RecFormer |
| URM [63] | Ranking | history interactions, user preference | End-to-End | BERT |
| OneRec [23] | Generative Retrieval and Ranking | history interactions, user preference | End-to-End | Transformer |
| OneSug [43] | Generative Retrieval and Ranking | history interactions, user preference | End-to-End | Transformer |
| EGA-V2 [238] | Generative Retrieval and Ranking | history interactions, user preference | End-to-End | Transformer |
6.3. 消融实验/参数分析
本综述作为对现有研究的梳理,本身不包含消融实验或参数分析。然而,论文在讨论开放挑战时,间接触及了与模型组件、超参数和训练策略相关的问题。例如:
-
模型鲁棒性 (Model Robustness): 讨论了
LLMs的幻觉问题 (hallucination problem)、对提示 (prompt)的敏感性以及流行度偏差 (popularity bias),这些都与模型设计和训练参数的选择紧密相关。 -
部署效率 (Deployment Efficiency):
参数高效微调 (Parameter-Efficient Fine-Tuning, PEFT)方法虽然减少了训练成本,但仍不足以应对推荐数据集规模的快速增长,这暗示了在模型效率和性能之间需要权衡。 -
训练目标 (Training Objective): 论文分析了
SFT、SSL、RL和PO等不同训练目标对模型性能和特性的影响,这在具体研究中通常会通过消融实验来验证不同损失函数或优化策略的有效性。这些讨论表明,在
生成式推荐的具体模型开发中,消融实验和参数分析是验证模型各组件有效性和优化性能的关键手段。
7. 总结与思考
7.1. 结论总结
本综述系统地审视了生成模型如何革命性 (revolutionizing) 地改变推荐系统领域,标志着从判别式匹配 (discriminative matching) 到智能合成 (intelligent synthesis) 的范式转变。通过一个统一的数据-模型-任务 (data-model-task) 三方框架,论文揭示了生成式推荐在各个层面的深刻变革:
-
数据层面:
生成模型通过知识增强 (knowledge augmentation)和行为模拟 (behavioral simulation)超越了传统数据边界,实现了异构信号的统一。 -
模型层面:
基于LLM的方法、大型推荐模型 (LRMs)和扩散模型 (diffusion approaches)为传统范式提供了强大的替代方案。 -
任务层面: 涌现了
对话式交互 (conversational dynamics)、透明推理 (transparent reasoning)和个性化内容生成 (personalized content creation)等新能力,从根本上重新定义了人机系统交互。论文还强调了
生成模型在世界知识整合 (world knowledge integration)、自然语言理解 (natural language understanding)、推理能力 (reasoning capabilities)、缩放法则 (scaling laws)和创造性生成 (creative generation)方面的五大关键优势。
7.2. 局限性与未来工作
尽管前景广阔,生成式推荐仍面临诸多挑战,作者指出了以下主要局限性和未来研究方向:
- 数据层面挑战:
- 基准设计 (Benchmark Design): 现有数据集大多是静态、离线且非交互式的,无法充分评估
生成模型作为个性化助手在多任务和交互式场景下的真实性能。未来需要开发更具动态性、交互性和能捕捉真实世界复杂性的新基准。
- 基准设计 (Benchmark Design): 现有数据集大多是静态、离线且非交互式的,无法充分评估
- 模型层面挑战:
- 偏差 (Bias):
- 流行度偏差 (Popularity Bias):
LLMs预训练语料库和用户交互数据中的偏差会导致模型倾向于推荐热门物品,降低推荐多样性。 - **公平性 (Fairness):
LLMs隐式利用敏感属性可能导致不公平推荐。 - 位置偏差 (Positional Bias):
LLMs对提示 (prompt)结构和内容敏感,可能导致对高排名物品的偏向。
- 流行度偏差 (Popularity Bias):
- 鲁棒性 (Robustness):
- 对抗自然噪声 (Natural Noise):
RSs长期受点击诱饵 (clickbait)和意外交互等噪声困扰。LLMs在去噪 (denoising)方面面临挑战,其预训练目标与推荐去噪要求存在差距,且易受幻觉问题 (hallucination problem)影响。 - **对抗恶意攻击 (Malicious Attack):
注入攻击 (injection attacks)对传统RSs有效,但成本高。而针对LLM的文本模拟攻击 (textual simulation attack)成本低、隐蔽性强,且具有跨模型迁移性 (transferability),对生成式推荐构成严重威胁。
- 对抗自然噪声 (Natural Noise):
- 偏差 (Bias):
- 部署效率 (Deployment Efficiency) 挑战:
-
**训练效率 (Training Efficiency):
PEFT (Parameter-Efficient Fine-Tuning)虽有助益,但面对快速增长的数据规模仍显不足。快速适应LLMs需要更少数据和计算资源。 -
**推理效率 (Inference Efficiency):
自回归解码 (autoregressive decoding)导致生成式推荐的推理过程耗时过长,难以满足实时推荐需求。集束搜索 (beam search)进一步增加了复杂性。知识蒸馏 (Knowledge Distillation)是一种潜在解决方案。未来研究的路线图是迈向
智能推荐助手 (intelligent recommendation assistants),这些助手将通过自然语言实现透明、上下文感知、并无缝整合推理和生成能力,从而从根本上重塑人机信息交互。
-
7.3. 个人启发与批判
7.3.1. 个人启发
- 范式转变的深刻洞察: 论文清晰地阐释了从
判别式到生成式的范式转变,不仅限于技术细节,更上升到对“推荐”这一概念本身的重新定义,即从“选择已有”到“创造新颖”。这种宏观视角对于理解领域发展至关重要。 - 系统性的分析框架:
数据-模型-任务的三方框架极具启发性。它提供了一个全面的视角来审视生成模型在RSs中应用的每个环节,有助于研究者和工程师定位问题、寻找机遇,并设计更完整的解决方案。 - LLM潜力的多维发掘: 论文详细列举了
LLMs在世界知识整合、NLU、推理和创造性生成等方面的独特优势,并将其与RSs的核心挑战相结合。这表明LLMs不仅仅是“更大的模型”,而是带来了质量 (qualitative)上的飞跃。 - 从模型到助手的愿景: 将
推荐系统设想为智能推荐助手,这不仅仅是技术目标,更是对未来人机交互模式的憧憬。这种愿景指明了RSs发展的终极方向,即更加人性化、智能化和交互化。
7.3.2. 批判与潜在改进
-
实际部署的成本与复杂性: 尽管论文指出了
部署效率的挑战,但对于生成式推荐在实际大规模工业部署中的计算成本 (computational cost)、延迟 (latency)和数据隐私/安全等方面的具体权衡 (trade-offs),可以进行更深入的探讨。例如,如何在保证实时性 (real-time performance)和个性化效果 (personalization effectiveness)的同时,控制巨大的模型尺寸和推理开销,这仍是工业界的核心痛点。 -
幻觉问题 (Hallucination Problem)的量化与缓解:LLMs的幻觉是其固有的问题,在推荐场景下可能导致推荐不存在的物品或提供虚假信息。论文提及了幻觉,但可以进一步探讨现有研究是如何量化推荐幻觉的严重性,以及除了检索增强生成 (Retrieval-Augmented Generation, RAG)之外,还有哪些机制可以有效缓解这一问题,并确保推荐的事实性 (factuality)。 -
伦理与社会影响的深入分析: 论文简要提到了
公平性和过滤气泡问题,但生成式推荐带来的伦理 (ethical)挑战可能更为复杂。例如,个性化内容生成可能加剧信息茧房 (echo chambers);代理模拟可能被用于操纵用户行为 (manipulate user behavior);恶意攻击可能利用生成能力 (generative capabilities)散布虚假信息 (misinformation)。这些更深层次的社会影响和潜在滥用风险,以及相应的规避策略 (mitigation strategies),值得更全面的讨论。 -
跨模态交互的复杂性: 论文提到了
多模态统一,但在多模态环境中,用户偏好可能通过更复杂的感知方式表达,例如通过视觉注意力、情感表达等。如何有效捕捉和整合这些更深层次的跨模态信号,并实现真正的多模态生成推荐,仍然是一个巨大的挑战。 -
缺乏统一的评估框架:
生成式推荐引入了对话质量、解释质量、生成内容新颖性等新颖的评估维度。目前,这些指标的评估往往缺乏统一标准,且高度依赖人工评估 (human evaluation),成本高昂。论文在指出基准设计的挑战时,可以更具体地展望一个能覆盖这些新维度,且可扩展的综合评估框架 (comprehensive evaluation framework)。总体而言,这篇综述为理解
生成式推荐这一新兴领域提供了宝贵的路线图。它不仅全面梳理了现有技术,更以批判性视角展望了未来的机遇与挑战,为后续研究奠定了坚实的基础。
相似论文推荐
基于向量语义检索推荐的相关论文。