MULTIMODAL QUANTITATIVE LANGUAGE FOR GENERATIVE RECOMMENDATION
TL;DR 精炼摘要
本文提出了MQL4GRec框架,旨在解决生成式推荐系统的不足。该方法通过量化翻译器将物品的文本和图像内容转化为统一的‘定量语言’,实现跨模态知识的有效迁移。实验表明,该系统在多个数据集上的推荐性能显著提升,NDCG指标提高至14.82%。
摘要
Generative recommendation has emerged as a promising paradigm aiming at directly generating the identifiers of the target candidates. Most existing methods attempt to leverage prior knowledge embedded in Pre-trained Language Models (PLMs) to improve the recommendation performance. However, they often fail to accommodate the differences between the general linguistic knowledge of PLMs and the specific needs of recommendation systems. Moreover, they rarely consider the complementary knowledge between the multimodal information of items, which represents the multi-faceted preferences of users. To facilitate efficient recommendation knowledge transfer, we propose a novel approach called Multimodal Quantitative Language for Generative Recommendation (MQL4GRec). Our key idea is to transform items from different domains and modalities into a unified language, which can serve as a bridge for transferring recommendation knowledge. Specifically, we first introduce quantitative translators to convert the text and image content of items from various domains into a new and concise language, known as quantitative language, with all items sharing the same vocabulary. Then, we design a series of quantitative language generation tasks to enrich quantitative language with semantic information and prior knowledge. Finally, we achieve the transfer of recommendation knowledge from different domains and modalities to the recommendation task through pre-training and fine-tuning. We evaluate the effectiveness of MQL4GRec through extensive experiments and comparisons with existing methods, achieving improvements over the baseline by 11.18%, 14.82%, and 7.95% on the NDCG metric across three different datasets, respectively.
思维导图
论文精读
中文精读
1. 论文基本信息
1.1. 标题
MULTIMODAL QUANTITATIVE LANGUAGE FOR GENERATIVE RECOMMENDATION (面向生成式推荐的多模态定量语言)
1.2. 作者
Jianyang Zhai, Zi-Feng Mai, Chang-Dong Wang, Feidiao Yang, Xiawu Zheng, Hui Li, Yonghong Tian
- 机构: 中山大学 (Sun Yat-sen University), 鹏城实验室 (Pengcheng Laboratory), 厦门大学 (Xiamen University), 北京大学 (Peking University)。
1.3. 发表期刊/会议
- 发表时间: 2025年2月20日 (UTC)
- 来源: 论文未明确标注具体会议名称,但从格式和引用风格推测为计算机科学领域的顶级会议(如 WWW, SIGIR 或 RecSys 等相关领域的投稿或录用版本)。
1.4. 摘要
生成式推荐(Generative Recommendation)旨在直接生成目标候选物品的标识符(ID)。现有的方法大多试图利用预训练语言模型(PLMs)的先验知识,但往往难以适应推荐系统的特定需求,且忽略了物品多模态信息(如图像和文本)之间的互补性。为了解决这些问题,本文提出了 MQL4GRec。该方法通过“定量翻译器”将不同领域和模态的物品转换为一种统一的、简洁的“定量语言”(Quantitative Language)。通过预训练和微调一系列定量语言生成任务,该模型实现了跨领域和跨模态的推荐知识迁移,在三个数据集上显著优于现有基线方法。
1.5. 原文链接
2. 整体概括
2.1. 研究背景与动机
- 核心问题: 传统的推荐系统通常将物品视为通过 0 到 N 索引的简单 ID(IDRec),这导致了冷启动问题和跨域知识迁移的困难。
- 技术趋势: 生成式推荐(Generative Recommendation)正在兴起,它使用生成模型(如 GPT, LLaMA)直接预测下一个物品的 ID。
- 现有挑战 (Research Gap):
- 语义鸿沟: 通用预训练语言模型(PLM)的自然语言知识与推荐系统的具体需求之间存在差异。直接用物品标题作为 ID 太长且稀疏,用随机 ID 则丢失了语义。
- 多模态缺失: 现有的生成式推荐方法(如 TIGER)虽然利用了文本语义生成 ID,但往往忽略了图像等多模态信息的互补性。
- 跨域迁移难: 不同领域的物品 ID 空间不共享,难以迁移知识。
2.2. 核心贡献/主要发现
-
统一的定量语言 (Quantitative Language): 提出了一种新颖的思路,将不同模态(文本、图像)和不同领域的物品内容,通过量化技术(Quantization)转化为共享词表的离散词元序列。这打破了模态和领域的壁垒。
-
MQL4GRec 框架: 设计了包含“定量翻译器”(Quantitative Translator)和一系列“定量语言生成任务”(如非对称生成、对齐任务)的完整框架。
-
显著的性能提升: 在 Amazon 数据集的三个子集上,相较于最强基线(Baseline),NDCG 指标分别提升了 11.18%、14.82% 和 7.95%。
下图(原文 Figure 1)直观展示了 MQL4GRec 的核心理念:将电影、艺术品等不同领域的图像和文本,翻译成统一的“定量语言”作为桥梁。
该图像是示意图,展示了如何将来自不同领域和模态的物品转换为统一的定量语言,以便于推荐知识的转移。图中包括艺术和电影类别的示例项目,通过定量语言进行表达。
3. 预备知识与相关工作
3.1. 基础概念
为了理解本文,初学者需要掌握以下概念:
- 生成式推荐 (Generative Recommendation):
- 传统推荐是“排序”任务(计算用户与所有物品的评分,取 Top-K)。
- 生成式推荐是“生成”任务(输入用户历史序列,模型直接输出下一个物品的 ID 序列)。这类似于让 ChatGPT 做“完形填空”。
- 矢量量化 (Vector Quantization, VQ):
- 将连续的高维向量(如一张图片的特征向量)映射为有限个离散的代号(Codebook Indices)。
- RQ-VAE (Residual-Quantized VAE): 一种改进的量化方法。它不是一次性量化,而是分多层进行“残差”量化。
- 直观理解: 假设要描述数字 12.5。第一层量化说“它是 10” (残差 2.5);第二层说“残差是 2” (残差 0.5);第三层说“残差是 0.5”。最终 ID 为 。这种分层结构使得生成的 ID 具有层级语义信息。
- 多模态 (Multimodality): 指结合多种信息形式(如文本、图像、音频)。本文特指结合物品的标题/描述(文本)和封面(图像)。
3.2. 前人工作与差异
- TIGER (Rajput et al., 2023): 这是本文最重要的对比对象。TIGER 使用 RQ-VAE 将物品的文本嵌入转化为语义 ID。
- 差异: TIGER 仅使用了文本模态,且生成的 ID 主要用于索引。本文同时使用了文本和图像,并设计了跨模态的生成任务(如看图生文 ID)。
- P5 (Geng et al., 2022): 将推荐任务转化为自然语言处理任务。
-
差异: P5 使用原始文本或简单整数 ID,效率低且缺乏特定语义结构。本文的“定量语言”更简洁且结构化。
-
4. 方法论
本部分是论文的核心。MQL4GRec 的工作流程分为两步:首先将物品翻译成“定量语言”,然后进行生成式推荐训练。
下图(原文 Figure 2)展示了整体框架:左侧是定量翻译器,右侧是基于 Transformer 的生成任务。
该图像是MQL4GRec的框架示意图。它展示了如何将来自不同领域和模态的项目内容转换为统一的量化语言,以促进推荐知识的转移。图中包括了量化语言生成任务的设计,以及预训练和微调的过程,通过Transformer编码器和解码器生成目标序列,并用和表示嵌入和量化语言对齐。
4.1. 定量翻译器 (Quantitative Translator)
目标是将物品的内容(文本 或图像 )转换为一串离散的 ID(词元)。
4.1.1. 编码与残差量化 (Encoding & RQ-VAE)
作者为文本和图像分别训练了两个翻译器。
-
模态编码:
- 使用冻结的 LLaMA 提取文本特征。
- 使用冻结的 ViT (Vision Transformer) 提取图像特征。
- 设编码后的物品表示为 。
-
残差量化 (RQ-VAE) 详解: RQ-VAE 通过 个层级的码本(Codebook)来近似表示向量 。
- 步骤:
- 第 0 步:初始残差 。
- 第 步:在第 层码本 中找到与当前残差 最接近的向量 。 就是这一层的离散 ID。
- 更新残差:。
- 公式表达: 其中, 是第 层的码字索引(Code Index)。
- 步骤:
-
重构与损失函数: 为了让量化后的向量能还原回原始特征,需要优化以下损失函数。这是理解 VQ-VAE 的关键:
- 重构损失 (): 保证量化后的向量 与原向量 尽可能相似。
- RQ 损失 (): 包含两部分,用于更新码本和训练编码器逼近码本。
- 符号解释:
- : 停止梯度 (Stop Gradient) 操作。这意味着反向传播时,梯度不会流过该操作符内的变量。这是 VQ-VAE 训练稳定性的关键技巧。
- 第一项:更新码本向量 ,使其靠近残差 。
- 第二项:更新编码器输出(即残差 ),使其靠近码本向量 。
- : 权衡系数。
- 符号解释:
4.1.2. 词汇表构建与冲突处理
- 词汇表: 文本码本使用小写前缀(如 , ),图像码本使用大写前缀(如 , )。这样所有物品共享一个统一的词汇表 。
- 冲突处理 (Handling Collisions):
- 问题: 不同的物品量化后可能得到相同的 ID 序列(冲突)。
- 本文方法: 并不简单地加后缀,而是基于残差向量到码本向量的距离重新分配。
- 逻辑: 如果多个物品落入同一个 ID,计算它们到该 ID 中心的距离。距离最近的保留该 ID,其余的分配给第二近的 ID(或者在上一层进行调整)。这保证了 ID 的语义连续性。
4.2. 定量语言生成任务 (Quantitative Language Generation Tasks)
一旦物品变成了 Token 序列,推荐就变成了序列生成任务。作者设计了三种任务来训练 Transformer 模型。
4.2.1. 下一项生成 (Next Item Generation, NIG)
这是主任务。
- NIG-Text: 输入用户历史交互物品的 Token 序列,预测下一个物品的文本 Token 序列。
- NIG-Image: 输入历史序列,预测下一个物品的图像 Token 序列。
4.2.2. 非对称物品生成 (Asymmetric Item Generation, AIG)
为了强制模型学习模态间的联系:
- 输入图像 -> 预测文本: 输入历史物品的图像 Token,预测下一个物品的文本 Token。
- 输入文本 -> 预测图像: 输入历史物品的文本 Token,预测下一个物品的图像 Token。
- 例子: 用户看了这一系列“图片”,预测他想买的下一个东西的“文字描述 ID”。
4.2.3. 定量语言对齐 (Quantitative Language Alignment, QLA)
显式地对齐同一物品的两种模态:
- 给定一个物品的文本 Token,让模型生成其图像 Token(反之亦然)。这类似于翻译任务(把“中文”翻译成“英文”,这里是把“文本语言”翻译成“图像语言”)。
4.3. 训练与推荐 (Training and Recommendation)
4.3.1. 目标函数
使用标准的负对数似然损失(Negative Log-Likelihood, NLL)进行训练:
- 符号解释:
- : 模型参数。
- : 输入的 Token 序列(用户历史)。
- : 目标 Token 序列(下一个物品的 ID)。
- : 目标序列的第 个 Token。
- : 目标序列中第 个之前的所有 Token(自回归生成)。
4.3.2. 推荐重排序 (Re-ranking)
在推理阶段,模型会分别生成“文本推荐列表” 和“图像推荐列表” 。作者提出了一种融合策略:
-
逻辑: 如果一个物品同时出现在文本预测和图像预测的 Top-K 列表中,给予它更高的权重(),认为其置信度更高。
5. 实验设置
5.1. 数据集
实验使用了 Amazon Product Reviews 数据集。
- 预训练数据 (Source Domain): 使用了6个类别(如宠物用品、手机配件等)。
- 下游任务数据 (Target Domain): 使用了3个类别进行评估:
- Musical Instruments (乐器)
- Arts Crafts and Sewing (艺术工艺)
- Video Games (电子游戏)
- 数据处理: 过滤掉交互少于5次的用户和物品。最大序列长度设为 20。
5.2. 评估指标
采用 Top-K 评估 ()。
-
HR@K (Hit Ratio):
- 概念: 命中率。预测的 Top-K 列表中是否包含真实的目标物品。
- 公式:
- 符号: 是用户数, 是指示函数(命中为1,否则为0)。
-
NDCG@K (Normalized Discounted Cumulative Gain):
- 概念: 归一化折损累计增益。不仅看是否命中,还看命中的位置。位置越靠前,得分越高。
- 公式: , 其中
DCG@K = \sum_{i=1}^K \frac{rel_i}{\log_2(i+1)} - 符号: 是第 个位置物品的相关性(通常命中为1,否则为0)。
IDCG是理想情况下的最大DCG。
5.3. 对比基线
-
传统序列推荐: GRU4Rec, SASRec, BERT4Rec。
-
多模态推荐: FDSA, VIP5 (基于 P5 的多模态版本)。
-
生成式推荐: TIGER (当前最先进的基于 RQ-VAE ID 的方法)。
6. 实验结果与分析
6.1. 核心结果分析
MQL4GRec 在所有三个数据集上的表现均优于基线模型。
以下是原文 Table 1 的完整转录,展示了不同方法在三个数据集上的性能对比:
| Dataset | Metrics | Non-Generative Baselines | Generative Baselines & Ours | |||||||||
|---|---|---|---|---|---|---|---|---|---|---|---|---|
| GRU4Rec | BERT4Rec | SASRec | FDSA | S3-Rec | VQ-Rec | MISSRec | P5-CID | VIP5 | TIGER | MQL4GRec | ||
| Instruments | HR@1 | 0.0566 | 0.0450 | 0.0318 | 0.0530 | 0.0339 | 0.0502 | 0.0723 | 0.0512 | 0.0737 | 0.0754 | 0.0833 |
| HR@5 | 0.0975 | 0.0856 | 0.0946 | 0.0987 | 0.0937 | 0.1062 | 0.1089 | 0.0839 | 0.0892 | 0.1007 | 0.1152 | |
| HR@10 | 0.1207 | 0.1081 | 0.1233 | 0.1249 | 0.1123 | 0.1357 | 0.1361 | 0.1119 | 0.1071 | 0.1221 | 0.1375 | |
| NDCG@5 | 0.0783 | 0.0667 | 0.0654 | 0.0775 | 0.0693 | 0.0796 | 0.0797 | 0.0678 | 0.0815 | 0.0882 | 0.0977 | |
| NDCG@10 | 0.0857 | 0.0739 | 0.0746 | 0.0859 | 0.0743 | 0.0891 | 0.0880 | 0.0704 | 0.0872 | 0.0950 | 0.1060 | |
| Arts | HR@1 | 0.0365 | 0.0289 | 0.0212 | 0.0380 | 0.0172 | 0.0408 | 0.0479 | 0.0421 | 0.0474 | 0.0532 | 0.0672 |
| HR@5 | 0.0817 | 0.0697 | 0.0951 | 0.0832 | 0.0739 | 0.1038 | 0.1021 | 0.0713 | 0.0704 | 0.0894 | 0.1037 | |
| HR@10 | 0.1088 | 0.0922 | 0.1250 | 0.1190 | 0.1030 | 0.1386 | 0.1321 | 0.0994 | 0.0859 | 0.1167 | 0.1327 | |
| NDCG@5 | 0.0602 | 0.0502 | 0.0610 | 0.0583 | 0.0511 | 0.0732 | 0.0699 | 0.0587 | 0.0586 | 0.0718 | 0.0857 | |
| NDCG@10 | 0.0690 | 0.0575 | 0.0706 | 0.0695 | 0.0630 | 0.0844 | 0.0815 | 0.0662 | 0.0635 | 0.0806 | 0.0950 | |
| Games | HR@1 | 0.0140 | 0.0115 | 0.0069 | 0.0163 | 0.0136 | 0.0075 | 0.0201 | 0.0169 | 0.0173 | 0.0166 | 0.0203 |
| HR@5 | 0.0544 | 0.0426 | 0.0587 | 0.0614 | 0.0527 | 0.0408 | 0.0674 | 0.0532 | 0.0480 | 0.0523 | 0.0637 | |
| HR@10 | 0.0895 | 0.0725 | 0.0985 | 0.0988 | 0.0903 | 0.0679 | 0.1048 | 0.0824 | 0.0758 | 0.0857 | 0.1033 | |
| NDCG@5 | 0.0341 | 0.0270 | 0.0333 | 0.0389 | 0.0351 | 0.0242 | 0.0385 | 0.0331 | 0.0328 | 0.0345 | 0.0421 | |
| NDCG@10 | 0.0453 | 0.0366 | 0.0461 | 0.0509 | 0.0468 | 0.0329 | 0.0499 | 0.0454 | 0.0418 | 0.0453 | 0.0548 | |
分析:
- 对比 TIGER: MQL4GRec 在所有数据集上均优于 TIGER。这是因为 TIGER 仅使用了文本信息,而 MQL4GRec 引入了图像信息,并通过多任务学习增强了语义理解。
- 对比 VIP5: VIP5 虽然也是多模态,但效果不如 MQL4GRec。可能原因是 VIP5 的预训练任务与推荐任务之间的 Gap 较大,且直接使用连续特征或简单 ID 不如定量语言(离散 Token)有效。
- 显著性: 提升幅度很大(NDCG@10 提升约 8%-14%),说明“定量语言”作为桥梁的策略非常有效。
6.2. 消融实验:冲突处理
作者验证了其独特的“基于距离重分配”的冲突处理机制的有效性。
以下是原文 Table 2 的结果:
| Methods | Instruments | Arts | Games | |||
|---|---|---|---|---|---|---|
| HR@10 | NDCG@10 | HR@10 | NDCG@10 | HR@10 | NDCG@10 | |
| TIGER | 0.1221 | 0.0950 | 0.1167 | 0.0806 | 0.0857 | 0.0453 |
| TIGER w/o user | 0.1216 | 0.0958 | 0.1159 | 0.0810 | 0.0863 | 0.0464 |
| Handling Collisions (Ours) | 0.1277 | 0.0987 | 0.1163 | 0.0844 | 0.0885 | 0.0473 |
结论: TIGER 通过加后缀索引来处理冲突,这会引入语义无关的分布。而本文的方法基于语义距离分配 ID,保留了更好的语义一致性,因此性能更好。
6.3. 参数分析:预训练数据量与Epoch
下图(原文 Figure 3)展示了预训练数据集数量对下游任务的影响:

分析:
-
NIG (仅文本): 数据越多,效果越好(蓝色线)。
-
QLG (多模态): 在 Instruments 和 Arts 数据集上,增加预训练数据显著提升效果(红色线)。
-
异常点: 在 Games 数据集上,增加多模态预训练数据反而导致性能下降。作者推测这是因为 Games 领域的图像特征与预训练源领域(如宠物、家居)差异过大,导致了负迁移或过拟合。
下图(原文 Figure 4)展示了预训练轮数(Epochs)的影响,结论类似:Games 数据集对多模态预训练比较敏感,轮数过多会下降。
该图像是一个图表,展示了不同预训练时代对推荐性能的影响。左侧图表展示了 NIG1 模型在不同预训练时代的 HR@10 表现,右侧图表则显示了 QLG 模型的相应表现。横轴为预训练时代,纵轴为 HR@10 的值,各颜色代表不同类型的项目。
7. 总结与思考
7.1. 结论总结
本文提出了 MQL4GRec,一种基于多模态定量语言的生成式推荐方法。
- 创新点: 创造性地将物品的多模态内容(图像、文本)统一编码为共享词表的离散序列(定量语言),以此作为知识迁移的桥梁。
- 方法: 结合 RQ-VAE 进行离散化,并设计了非对称生成和对齐任务来融合模态信息。
- 结果: 在三个亚马逊数据集上取得了最先进(State-of-the-art)的性能,证明了该方法在打破模态和领域壁垒方面的有效性。
7.2. 局限性与未来工作
- 推理效率: 作为生成式模型,MQL4GRec 采用自回归方式(一个接一个 Token 生成)进行推理,速度远慢于传统的打分模型。这是所有生成式推荐的通病。
- 内容依赖: 该方法高度依赖物品的内容信息(文本和图像)。如果物品缺乏描述或图片(冷启动场景中常见),模型可能无法有效工作。这也是作者提到的未来需要研究的“内容缺失”场景。
- 负迁移风险: 实验发现,当源领域和目标领域差异过大(如 Games 数据集)时,强行进行多模态预训练可能会损害性能。
7.3. 个人启发与批判
- 启发: “将一切视为语言” (Everything as Language) 的思想非常强大。通过 VQ-VAE 将图像“文本化”,使得多模态数据可以无缝使用 Transformer 这种强大的序列建模工具。这为推荐系统融合更多异构数据(如视频、用户行为图)提供了一个通用范式。
- 批判:
- 冲突处理的本质: 虽然作者的方法比 TIGER 好,但本质上还是把不同的物品强行归类到一个 ID。如果冲突依然严重,是否应该增加码本大小(Codebook Size)而不是仅仅重分配?
- 计算成本: 需要训练两个 VQ-VAE 加上一个大的 Transformer,训练和推理成本都较高,在工业界大规模实时推荐场景下的落地难度较大。
相似论文推荐
基于向量语义检索推荐的相关论文。