摘要

Recommendation as Language Processing (RLP): A Unified Pretrain, Personalized Prompt & Predict Paradigm (P5) Shijie Geng, Shuchang Liu, Zuohui Fu, Yingqiang Ge, Yongfeng Zhang Department of Computer Science, Rutgers University, NJ 08854, US {sg1309,shuchang.syt.liu,zuohui.fu,yingqiang.ge,yongfeng.zhang}@rutgers.edu ABSTRACT For a long time, different recommendation tasks require designing task-specific architectures and training objectives. As a result, it is hard to transfer the knowledge and representations from one task to another, thus restricting the generalization ability of existing recommendation approaches. To deal with such issues, considering that language can describe almost anything and language ground- ing is a powerful medium to represent various problems or tasks, we pr…

1. 论文基本信息

1.1. 标题

Recommendation as Language Processing (RLP): A Unified Pretrain, Personalized Prompt & Predict Paradigm (P5) （推荐即语言处理：一种统一的预训练、个性化提示与预测范式）

1.2. 作者

Shijie Geng, Shuchang Liu, Zuohui Fu, Yingqiang Ge, Yongfeng Zhang

隶属机构: 美国罗格斯大学 (Rutgers University) 计算机科学系。
作者背景: 该团队（Yongfeng Zhang 教授团队）在推荐系统与自然语言处理结合、可解释性推荐等领域具有深厚的研究积累。

1.3. 发表期刊/会议

该论文发表于 RecSys '22 (ACM Conference on Recommender Systems)，这是推荐系统领域的顶级国际会议，具有极高的学术影响力。

1.4. 发表年份

2022年

1.5. 摘要

论文提出了一种名为 P5 (Pretrain, Personalized Prompt, and Predict Paradigm) 的统一框架。该框架将各类推荐任务（如评分预测、序列推荐、解释生成等）全部转化为统一的自然语言处理 (NLP) 任务。通过将用户-物品交互数据、元数据等转换为自然语言序列，并利用个性化提示 (Personalized Prompts)，P5 能够在单一的序列到序列 (Seq2Seq) 模型中同时学习多个任务。实验表明，P5 不仅在多个任务上表现出色，还具备强大的零样本 (Zero-shot) 泛化能力，能够处理未见过的提示和新领域的物品。

1.6. 原文链接

点击查看原文 PDF

2. 整体概括

2.1. 研究背景与动机

碎片化的现状: 长期以来，推荐系统 (Recommender Systems, RS) 领域针对不同的任务（如预测用户打几分、预测下一个买什么、生成推荐理由）通常需要设计特定的模型架构和损失函数。
知识迁移困难: 由于架构各异，模型很难在不同任务间共享知识，导致泛化能力受限。
NLP 的启发: 自然语言处理领域通过预训练大模型（如 BERT, GPT, T5）实现了任务的统一。既然语言可以描述万物，为什么不能用语言模型来统一推荐任务？
核心动机: 作者希望打破推荐任务之间的壁垒，构建一个通用的推荐引擎，只需一个模型就能处理所有推荐相关的问题。

2.2. 核心贡献/主要发现

范式转移 (Paradigm Shift): 提出了 P5 范式，将推荐问题重新定义为语言处理问题 (Recommendation as Language Processing, RLP)。
统一架构: 使用基于 Transformer 的编码器-解码器 (Encoder-Decoder) 架构，通过单一的语言建模损失函数同时训练评分、序列推荐、解释生成等五大类任务。
个性化提示 (Personalized Prompt): 设计了一套包含用户/物品信息的提示模板集合，使得模型能够理解个性化需求并在不同任务间切换。
零样本泛化: 实验发现，P5 具备在未见过的提示模板甚至新领域数据上进行零样本预测的能力，减少了对微调 (fine-tuning) 的依赖。

下图（原文 Figure 1）展示了 P5 的核心理念：通过中心的一个统一模型（P5），处理周围五种不同的推荐任务，所有输入输出均为自然语言。

该图像是示意图，展示了推荐系统中的不同任务，如序列推荐、评分预测、解释生成、评论总结和直接推荐。中心展示了 RLP 模型的 P5 结构，周围以不同颜色的框表示各个任务和示例，包括相关的产品和用户信息。

3. 预备知识与相关工作

为了理解 P5，初学者需要掌握以下核心概念：

3.1. 基础概念

序列到序列 (Seq2Seq) 模型: 一种深度学习架构，输入是一个序列（如一句中文），输出是另一个序列（如一句英文）。本文使用的 T5 (Text-to-Text Transfer Transformer) 就是典型的 Seq2Seq 模型，它将所有 NLP 任务都视为“文本输入到文本输出”的过程。
提示学习 (Prompt Learning): 随着 GPT-3 的出现而兴起。它不再通过修改模型结构来适应任务，而是通过给模型一段“提示文本”（例如：“把这句话翻译成法语：...”），激发预训练模型已有的知识来完成任务。
词元 (Token): 文本处理的最小单位。它可以是一个单词、一个字，或者单词的一部分。例如 "recommendation" 可能被切分为 "recom", "mend", "ation" 三个词元。
零样本学习 (Zero-shot Learning): 模型在训练阶段从未见过某类任务或数据，但在测试阶段直接对其进行预测并取得不错效果的能力。

3.2. 前人工作

统一框架: 之前有尝试统一 NLP 任务的模型（如 T5, GPT-3），也有尝试统一多模态任务的模型。但在推荐领域，虽然有学习通用用户表示的工作（如 One4all），但大多仍需针对下游任务进行微调。
NLP 与推荐的结合: 早期工作主要利用 NLP 处理评论文本或生成解释，或者将用户行为序列视为词序列（如 BERT4Rec）。P5 的区别在于它彻底地将一切（包括用户 ID、物品 ID）都视为自然语言的一部分，并在一个模型中端到端地解决所有问题。

3.3. 差异化分析

与 BERT4Rec 或 SASRec 等序列推荐模型相比，P5 的核心区别在于：

通用性: BERT4Rec 只能做序列推荐，P5 可以同时做评分预测、解释生成等。
交互方式: P5 支持通过自然语言指令与系统交互（例如：“请给用户 A 推荐一个他可能喜欢的电子产品”），具有更强的交互性和可解释性。

4. 方法论

4.1. 方法原理

P5 的核心思想是将所有推荐数据（用户行为、元数据、评论）转化为自然语言序列。通过预定义的个性化提示模板，将不同的推荐任务统一格式化为 输入文本 -> 目标文本 对，然后利用预训练的 T5 模型进行微调。

4.2. 核心方法详解 (逐层深入)

4.2.1. 数据格式化与个性化提示

P5 将数据转换为“输入-目标”对。关键在于个性化提示 (Personalized Prompt) 的设计。提示不仅包含任务指令，还嵌入了用户和物品的个性化信息（如 ID 或属性）。

下图（原文 Figure 2）展示了如何利用提示模板将原始数据转换为模型输入。例如，对于序列推荐任务，输入是用户的购买历史，目标是下一个物品；对于评分任务，输入是用户和物品信息，目标是分数。

该图像是示意图，展示了三种针对“Beauty”类产品的推荐数据处理方式。第一部分（a）展示了用户评分、评价和总结信息；第二部分（b）列出了用户的购买历史和候选推荐项；第三部分则是针对给定用户推荐的候选项。每部分包含用户、商品和相应的推荐方法提示，突出了个性化推荐中的不同信息整合方式。

4.2.2. 模型架构与输入表示

P5 基于 Transformer Encoder-Decoder 架构。

1. 输入嵌入 (Input Embedding): 假设输入文本序列的词元嵌入为 $\mathbf{x} = [x_1, \cdots, x_n]$ 。为了让模型理解序列顺序和个性化信息，P5 在原始嵌入的基础上增加了两部分：

位置编码 (Positional Encoding, $\mathcal{P}$ ): 捕捉词元在句子中的位置。
全词嵌入 (Whole-word Embedding, $\mathcal{W}$ ): 这是一个关键细节。由于使用 SentencePiece 分词器，一个用户 ID（如 $user_7391$ ）可能会被切分成多个子词（如 user, _, 7391）。为了让模型知道这些子词共同代表同一个实体（用户或物品），P5 为属于同一个原始词的所有子词添加相同的全词嵌入。

2. 编码器 (Encoder): 编码器 $\mathcal{E}(\cdot)$ 接收上述三种嵌入的和 $\mathbf{e} = [e_1, \cdots, e_n]$ ，并输出上下文相关的表示 $\mathbf{t}$ 。该过程结合了公式说明如下： $\mathbf{t} = [t_1, \cdots, t_n] = \mathcal{E}(\mathbf{e})$ 这里， $\mathbf{t}$ 包含了输入序列的深层语义特征，不仅编码了文本信息，也编码了用户和物品的交互历史信息。

下图（原文 Figure 3）展示了 P5 的架构细节，清晰地描绘了 Token Embedding、Position Embedding 和 Whole-word Embedding 是如何相加并输入到编码器中的。

该图像是一个示意图，展示了双向文本编码器和自回归文本解码器的结构。图中包含了不同类型的嵌入表示，如标记嵌入、位置嵌入和整体词嵌入，以便进行语言处理任务。

4.2.3. 训练目标 (预训练)

P5 采用标准的负对数似然 (Negative Log-Likelihood) 作为损失函数，这与 T5 和 GPT 等语言模型的训练目标一致。

在训练阶段，模型根据输入文本 $\mathbf{x}$ 和之前生成的目标词元 $\mathbf{y}_{<j}$ ，预测下一个目标词元 $\mathbf{y}_j$ 的概率。损失函数 $\mathcal{L}_{\theta}^{\mathrm{P5}}$ 定义为：

$\mathcal { L } _ { \theta } ^ { \mathrm { P 5 } } = - \sum _ { j = 1 } ^ { | \mathbf { y } | } \log P _ { \theta } \left( \mathbf { y } _ { j } \mid \mathbf { y } _ { < j } , \mathbf { x } \right)$

符号解释:
- $\theta$ : 模型的可学习参数。
- $|\mathbf{y}|$ : 目标序列的总长度。
- $\mathbf{y}_j$ : 目标序列中的第 $j$ 个词元。
- $\mathbf{y}_{<j}$ : 目标序列中第 $j$ 个词元之前的所有词元。
- $\mathbf{x}$ : 输入的提示文本序列。
- $P_{\theta}$ : 模型预测的条件概率分布。
  
  通过最小化这个损失函数，P5 学会了在给定提示的情况下生成正确的推荐结果（无论是评分数字、物品名称还是解释文本）。

4.2.4. 预测与推理 (Inference)

训练完成后，P5 可以处理不同类型的任务。不同的任务采用不同的解码策略：

生成式任务 (评分、解释、评论): 使用贪婪解码 (Greedy Decoding)，即每一步都选择概率最大的词。
排序/选择任务 (序列推荐、直接推荐): 这类任务通常需要从候选集中选出 Top-k 个物品。P5 使用束搜索 (Beam Search) 来生成最可能的输出序列列表。

束搜索的过程可以用公式表示为： $\mathbf { C } = [ C _ { 1 } , \cdots , C _ { B } ] = \mathrm { B e a m\_S } \mathrm { e a r c h } ( \mathscr { D } , \mathbf { t } , B )$

符号解释:
- $\mathbf{C}$ : 输出的候选物品列表。
- $B$ : 束宽 (Beam Size)，即搜索过程中保留的可能性最大的路径数量。
- $\mathscr{D}$ : 解码器 (Decoder)。
- $\mathbf{t}$ : 编码器的输出表示。
  
  对于直接推荐 (Direct Recommendation)，如果任务是从 100 个候选项中选一个，模型会对每个候选项生成特定的文本（如 "yes"）计算概率，或者直接生成物品名称，然后根据生成概率进行排序。

5. 实验设置

5.1. 数据集

实验使用了三个 Amazon 数据集（Sports, Beauty, Toys）和一个 Yelp 数据集。

特点: 这些数据集包含用户-物品交互记录、用户评论、评分等丰富信息，适合多任务学习。
规模: 包含数万用户和物品，以及数十万条评论（见原文 Table 1）。

5.2. 评估指标

针对不同的任务族，论文使用了不同的评估指标：

评分预测 (Rating Prediction):
- RMSE (Root Mean Square Error): 均方根误差，衡量预测分数与真实分数偏差的平方根。值越小越好。 $RMSE = \sqrt{\frac{1}{N} \sum_{i=1}^{N} (\hat{y}_i - y_i)^2}$ (符号: $N$ 为样本数, $\hat{y}_i$ 为预测值, $y_i$ 为真值)
- MAE (Mean Absolute Error): 平均绝对误差。值越小越好。 $MAE = \frac{1}{N} \sum_{i=1}^{N} |\hat{y}_i - y_i|$
序列推荐与直接推荐 (Top-k Recommendation):
- HR@k (Hit Ratio): 命中率，衡量前 k 个推荐中是否包含用户真实交互的物品。值越大越好。 $HR@k = \frac{1}{N} \sum_{i=1}^{N} \mathbb{I}(rank_i \le k)$ (符号: $\mathbb{I}$ 为指示函数，若真实物品排名前 k 则为 1，否则为 0)
- NDCG@k (Normalized Discounted Cumulative Gain): 归一化折损累计增益，不仅看是否推荐对，还看推荐的位置（越靠前越好）。值越大越好。
解释生成 (Explanation Generation):
- BLEU-4: 衡量生成文本与参考文本之间 4-gram (四元组词) 的重合度。
- ROUGE: 衡量生成文本对参考文本的召回率。

5.3. 对比基线

P5 与各类任务的 SOTA (State-of-the-Art) 模型进行了对比：

评分预测: MF (矩阵分解), MLP.
序列推荐: SASRec, BERT4Rec, S^3-Rec.
解释生成: PETER, NRT.
评论总结: T0, GPT-2 (这显示了 P5 与通用 LLM 的对比)。

6. 实验结果与分析

6.1. 核心结果分析

P5 在五大任务族上均取得了与特定任务 SOTA 模型相当或更好的成绩。

6.1.1. 序列推荐性能

如下表（原文 Table 3）所示，P5 (特别是 P5-Base 版本) 在 Sports, Beauty, Toys 数据集上，相较于 BERT4Rec、SASRec 等强基线，在 HR@5/10 和 NDCG@5/10 上均有显著提升。

分析: 这证明了将交互历史转化为文本序列，并利用 T5 强大的语言建模能力，能够更有效地捕捉用户的序列偏好。

以下是原文 Table 3 的结果：

Methods	Sports				Beauty				Toys
Methods	HR@5	NDCG@5	HR@10	NDCG@10	HR@5	NDCG@5	HR@10	NDCG@10	HR@5	NDCG@5	HR@10	NDCG@10
Caser	0.0116	0.0072	0.0194	0.0097	0.0205	0.0131	0.0347	0.0176	0.0166	0.0107	0.0270	0.0141
HGN	0.0189	0.0120	0.0313	0.0159	0.0325	0.0206	0.0512	0.0266	0.0321	0.0221	0.0497	0.0277
GRU4Rec	0.0129	0.0086	0.0204	0.0110	0.0164	0.0099	0.0283	0.0137	0.0097	0.0059	0.0176	0.0084
BERT4Rec	0.0115	0.0075	0.0191	0.0099	0.0203	0.0124	0.0347	0.0170	0.0116	0.0071	0.0203	0.0099
FDSA	0.0182	0.0122	0.0288	0.0156	0.0267	0.0163	0.0407	0.0208	0.0228	0.0140	0.0381	0.0189
SASRec	0.0233	0.0154	0.0350	0.0192	0.0387	0.0249	0.0605	0.0318	0.0463	0.0306	0.0675	0.0374
S^3-Rec	0.0251	0.0161	0.0385	0.0204	0.0387	0.0244	0.0647	0.0327	0.0443	0.0294	0.0700	0.0376
P5-S (2-3)	0.0272	0.0169	0.0361	0.0198	0.0503	0.0370	0.0659	0.0421	0.0648	0.0567	0.0709	0.0587
P5-B (2-3)	0.0364	0.0296	0.0431	0.0318	0.0508	0.0379	0.0664	0.0429	0.0608	0.0507	0.0688	0.0534
P5-S (2-13)	0.0258	0.0159	0.0346	0.0188	0.0490	0.0358	0.0646	0.0409	0.0647	0.0566	0.0705	0.0585
P5-B (2-13)	0.0387	0.0312	0.0460	0.0336	0.0493	0.0367	0.0645	0.0416	0.0587	0.0486	0.0675	0.0536

6.1.2. 直接推荐 (Direct Recommendation) 性能

在直接推荐任务（从 100 个候选物品中选出用户可能交互的那个，即 1-out-of-100）中，P5 同样表现优异，尤其是在 HR@1 指标上大幅领先对比模型 SimpleX。这说明 P5 在“最推荐的那一个”物品上具有极高的准确度。

以下是原文 Table 7 的结果：

Methods	Sports					Beauty					Toys
Methods	HR@1	HR@5	NDCG@5	HR@10	NDCG@10	HR@1	HR@5	NDCG@5	HR@10	NDCG@10	HR@1	HR@5	NDCG@5	HR@10	NDCG@10
BPR-MF	0.0314	0.1404	0.0848	0.2563	0.1220	0.0311	0.1426	0.0857	0.2573	0.1224	0.0233	0.1066	0.0641	0.2003	0.0940
BPR-MLP	0.0351	0.1520	0.0927	0.2671	0.1296	0.0317	0.1392	0.0848	0.2542	0.1215	0.0252	0.1142	0.0688	0.2077	0.0988
SimpleX	0.0331	0.2362	0.1505	0.3290	0.1800	0.0325	0.2247	0.1441	0.3090	0.1711	0.0268	0.1958	0.1244	0.2662	0.1469
P5-S (5-1)	0.0638	0.2096	0.1375	0.3143	0.1711	0.0600	0.2021	0.1316	0.3121	0.1670	0.0405	0.1538	0.0969	0.2405	0.1248
P5-B (5-1)	0.0245	0.0816	0.0529	0.1384	0.0711	0.0224	0.0904	0.0559	0.1593	0.0780	0.0187	0.0827	0.0500	0.1543	0.0729
P5-S (5-4)	0.0701	0.2241	0.1483	0.3313	0.1827	0.0862	0.2448	0.1673	0.3441	0.1993	0.0413	0.1411	0.0916	0.2227	0.1178
P5-B (5-4)	0.0299	0.1026	0.0665	0.1708	0.0883	0.0506	0.1557	0.1033	0.2350	0.1287	0.0435	0.1316	0.0882	0.2000	0.1102
P5-S (5-5)	0.0574	0.1503	0.1050	0.2207	0.1276	0.0601	0.1611	0.1117	0.2370	0.1360	0.0440	0.1282	0.0865	0.2011	0.1098
P5-B (5-5)	0.0641	0.1794	0.1229	0.2598	0.1488	0.0588	0.1573	0.1089	0.2325	0.1330	0.0386	0.1122	0.0756	0.1807	0.0975
P5-S (5-8)	0.0567	0.1514	0.1049	0.2196	0.1269	0.0571	0.1566	0.1078	0.2317	0.1318	0.0451	0.1322	0.0889	0.2023	0.1114
P5-B (5-8)	0.0726	0.1955	0.1355	0.2802	0.1627	0.0608	0.1564	0.1096	0.2300	0.1332	0.0389	0.1147	0.0767	0.1863	0.0997

6.2. 消融实验与参数分析

6.2.1. 任务扩展与提示数量的影响 (RQ3)

作者研究了使用单一任务训练 (P5-SN) 与多任务联合训练 (P5-S) 的区别，以及减少提示数量 (P5-PS) 的影响。

结论: 如下图（原文 Figure 5）所示，多任务联合训练 (P5-S, 蓝色柱) 在大多数指标上优于单任务训练，说明不同任务间存在正向的知识迁移。同时，更多的提示数量 (P5-S vs P5-PS) 也有助于提高性能，特别是对未见过的提示的泛化能力。

该图像是图表，展示了P5-S、P5-SN和P5-PS在多个指标上的性能比较。图中包括四个子图，分别以MAE（图a）、BLEU（图b）、NDCG@5（图c）和NDCG@10（图d）为评估标准，比较了不同模型在特定参数设置（如“1-6”、“3-9”等）下的表现。每个指标以柱状图形式呈现，颜色区分不同的模型，便于观察各模型的相对性能差异。

6.2.2. 个性化的实现方式 (RQ4)

作者比较了 P5 的默认实现（使用 SentencePiece 子词）与为每个用户/物品分配独立 Token (P5-I) 的效果。

结论: 如下图（原文 Figure 6）所示，P5-I（黄色柱）在序列推荐和直接推荐任务上表现显著差于默认的 P5-S（蓝色柱）。这表明将 ID 视为自然语言子词序列，能更好地利用预训练模型学到的语言知识，而不是简单地当作一个独立的符号。

该图像是一个图表，展示了 P5-I 和 P5-S 在不同参数下的性能对比，包括 MAE（图 a）、BLEU（图 b）、NDCG@5（图 c）和 NDCG@10（图 d）。该图表显示了个性化实现对推荐系统性能的影响。

6.3. 零样本泛化 (RQ2)

P5 展现了令人印象深刻的零样本能力：

未见提示: 在训练中未使用的提示模板（如 Table 3 中的 Prompt 2-13），P5 依然能取得极高的性能，有时甚至超过见过的提示。
跨域迁移: 即使是在新领域（如从 Toys 迁移到 Beauty），P5 也能根据物品的文本描述（如价格、品牌）做出合理的评分预测和解释生成（见原文 Figure 4 示例）。

7. 总结与思考

7.1. 结论总结

这篇论文开创性地提出了 P5 (Pretrain, Personalized Prompt, & Predict Paradigm)，将推荐系统从传统的基于 ID 匹配的模型，转变为基于大语言模型 (LLM) 的生成式框架。

核心突破: 证明了可以用同一个模型、同一个损失函数、同一套数据格式来解决几乎所有的推荐任务。
关键价值: 极大地简化了推荐系统的开发流程，并赋予了系统强大的零样本泛化能力和可解释性。

7.2. 局限性与未来工作

模型规模: 当前只探索了 T5-small 和 T5-base，未来可以尝试更大规模的模型（如 GPT-3, BLOOM）以观察性能提升。
推理效率: 文中附录提到，序列推荐和直接推荐任务由于需要 Beam Search，推理时间较长。这是实际部署面临的一大挑战。
上下文长度: 模型的输入长度受限于 Transformer 的上下文窗口（本文设为 512），对于超长的用户历史行为可能无法完全建模。

7.3. 个人启发与批判

启发: 这篇论文是 "Generative Recommender Systems"（生成式推荐系统）的里程碑之作。它打破了 NLP 和 RS 的界限，提示我们未来的推荐系统可能就是一个高度定制化的对话 AI。
批判: 虽然将 ID 视为文本子词 (Sub-word units) 效果不错，但这本质上还是依赖于 ID 的文本形式（如 "item_123"）。这种方式是否真的捕获了 ID 背后的图结构信息（Graph Structure）值得商榷。如果 ID 的文本形式发生变化（如重置 ID），模型可能就需要完全重新训练。此外，生成式推荐在面对百万级候选物品时的检索效率问题，文中并未给出高效的解决方案（如结合向量检索），仅依赖 Beam Search 在大规模场景下是不可行的。

Recommendation as Language Processing (RLP): A Unified Pretrain, Personalized Prompt & Predict Paradigm (P5)

TL;DR 精炼摘要

摘要

思维导图

论文精读

中文精读约 13 分钟读完 · 8,961 字