论文状态：已完成

Multimodal Quantitative Language for Generative Recommendation

发表：2025/02/20

价格：0.100000

已有 1 人读过

本分析由 AI 生成，可能不完全准确，请以原文为准。

TL;DR 精炼摘要

本文提出了一种新方法MQL4GRec，通过将不同领域和模态的项目转换为统一的“定量语言”，有效解决传统推荐系统的冷启动问题和跨领域知识迁移的挑战。该方法利用定量翻译器将文本和图像转化为简洁的词元序列，并设计多种生成任务，实验显示在NDCG指标上相较基准模型提升了11.18%、14.82%和7.95%。

摘要

Generative recommendation has emerged as a promising paradigm aiming at directly generating the identifiers of the target candidates. Most existing methods attempt to leverage prior knowledge embedded in Pre-trained Language Models (PLMs) to improve the recommendation performance. However, they often fail to accommodate the differences between the general linguistic knowledge of PLMs and the specific needs of recommendation systems. Moreover, they rarely consider the complementary knowledge between the multimodal information of items, which represents the multi-faceted preferences of users. To facilitate efficient recommendation knowledge transfer, we propose a novel approach called Multimodal Quantitative Language for Generative Recommendation (MQL4GRec). Our key idea is to transform items from different domains and modalities into a unified language, which can serve as a bridge for transferring recommendation knowledge. Specifically, we first introduce quantitative translators to convert the text and image content of items from various domains into a new and concise language, known as quantitative language, with all items sharing the same vocabulary. Then, we design a series of quantitative language generation tasks to enrich quantitative language with semantic information and prior knowledge. Finally, we achieve the transfer of recommendation knowledge from different domains and modalities to the recommendation task through pre-training and fine-tuning. We evaluate the effectiveness of MQL4GRec through extensive experiments and comparisons with existing methods, achieving improvements over the baseline by 11.18%, 14.82%, and 7.95% on the NDCG metric across three different datasets, respectively.

思维导图

论文精读

中文精读约 11 分钟读完 · 6,747 字

1. 论文基本信息

1.1. 标题

Multimodal Quantitative Language for Generative Recommendation (生成式推荐的多模态定量语言)

1.2. 作者

作者: Jianyang Zhai (翟建阳), Zi-Feng Mai (麦紫锋), Chang-Dong Wang (王昌栋), Feidiao Yang (杨飞雕), Xiawu Zheng (郑侠武), Hui Li (李辉), Yonghong Tian (田永鸿)。
隶属机构: 中山大学、鹏城实验室、广东省大数据分析与处理重点实验室、厦门大学、北京大学。

1.3. 发表期刊/会议

该论文发布于 arXiv 预印本平台，其内容涉及推荐系统、多模态学习和自然语言处理的交叉领域。

1.4. 发表年份

2025年2月 (提交时间为 2025-02-20)。

1.5. 摘要

生成式推荐 (Generative Recommendation) 是一种直接生成目标候选项目标识符的新兴范式。尽管现有方法尝试利用预训练语言模型 (Pre-trained Language Models, PLMs) 的先验知识，但往往难以适应通用语言知识与推荐系统特定需求之间的差异，且忽略了项目多模态信息之间的互补性。为此，本文提出了一种名为 MQL4GRec (Multimodal Quantitative Language for Generative Recommendation) 的新方法。该方法将不同领域和模态的项目转换为一种统一的“定量语言 (Quantitative Language)”，作为知识迁移的桥梁。具体而言，通过定量翻译器将文本和图像转化为共享词表的简洁词元序列，并设计了一系列定量语言生成任务来富化语义。实验表明，该方法在 NDCG 指标上较基准模型分别提升了 11.18%、14.82% 和 7.95%。

1.6. 原文链接

arXiv 链接: https://arxiv.org/abs/2504.05314
PDF 链接: https://arxiv.org/pdf/2504.05314v1.pdf
发布状态: 预印本 (v1)。

2. 整体概括

2.1. 研究背景与动机

核心问题: 传统的推荐系统主要依赖于项目的唯一 ID (ID-based Recommendation, IDRec)，但在面临“冷启动”问题（新项目缺乏交互数据）和跨领域知识迁移时表现不佳。
技术演进: 近年来，生成式推荐 (Generative Recommendation) 将推荐任务转化为序列生成任务，直接预测项目的标识符（如标题或索引代码）。
研究空白 (Gap):
1. 语义对齐问题: 预训练语言模型 (PLMs) 内部蕴含的是通用文本知识，而推荐系统需要的是反映用户偏好的协作信号，两者之间存在任务差异。
2. 多模态融合缺失: 现有生成式推荐模型往往只关注单一模态（如文本），忽略了图像等多模态信息在刻画用户多面偏好时的互补作用。
创新思路: 本文受自然语言处理中“共享词表 (Shared Vocabulary)”的启发，提出将所有项目（无论来自哪个领域、什么模态）都翻译成一种名为定量语言 (Quantitative Language) 的统一中间语言。

2.2. 核心贡献/主要发现

统一语言表示: 提出了 MQL4GRec 框架，通过定量翻译器消除了不同领域（如电影、艺术）和模态（如文本、图像）之间的壁垒。
定量语言生成任务: 设计了包括下一项生成 (Next Item Generation)、非对称生成 (Asymmetric Generation) 和语言对齐 (Language Alignment) 在内的一系列任务，旨在让模型在微调前就具备跨模态的推荐常识。
知识迁移效率: 证明了通过在大规模源领域数据集上进行预训练，可以显著提升目标领域推荐任务的性能。
显著的性能提升: 在三个真实世界数据集上，MQL4GRec 在排序评估指标上大幅超越了包括 TIGER 和 VIP5 在内的最先进生成式推荐模型。

3. 预备知识与相关工作

3.1. 基础概念

生成式推荐 (Generative Recommendation): 与传统的“从候选池中排序”不同，这种方法直接利用编码器-解码器 (Encoder-Decoder) 架构生成代表项目的词元 (token) 序列。
向量量化 (Vector Quantization, VQ): 这是一种将连续向量映射到有限离散代码本 (codebook) 向量的技术。它可以将复杂的特征压缩为离散的数字索引。
残差量化变分自编码器 (Residual-Quantized Variational AutoEncoder, RQ-VAE): 它是 VQ 的升级版。与其一次性找最接近的离散向量，RQ-VAE 通过多层量化来逼近原始向量：第一层量化原始向量，第二层量化第一层的残差，以此类推。这能以较小的词表表示极大的搜索空间。

3.2. 前人工作

P5 与 TIGER: P5 (Geng et al., 2022) 首次提出了将推荐任务统一为文本生成任务。TIGER (Rajput et al., 2023) 则引入了利用 RQ-VAE 生成“语义 ID”的方法，这直接启发了本文对定量语言的使用。
多模态推荐: 早期方法如 VBPR 利用矩阵分解结合视觉特征。近期的 VIP5 尝试将图像编码集成到生成式框架中，但往往只在输入端加入图像特征，而没有在生成目标端统一模态表示。

3.3. 差异化分析

多模态对等性: 现有的多模态生成推荐模型（如 VIP5）通常将图像作为辅助输入。MQL4GRec 将图像和文本都视为可以互相转换的“定量语言”，在生成任务中具有对等地位。
词表设计: 相比于直接使用自然语言词词表，MQL4GRec 构造了一个专门用于推荐的、由不同层级代码组成的紧凑词表，避免了生成过长序列导致的效率低下问题。

4. 方法论

4.1. 方法原理

MQL4GRec 的核心思想是：将项目的内容信息（文本描述、图像）翻译为一种简洁的、分层级的离散代码序列。由于不同领域的项目共享同一套翻译逻辑和代码本，这使得模型能够学习到跨领域的通用推荐模式。

下图（原文 Figure 2）展示了 MQL4GRec 的整体框架：

该图像是MQL4GRec的整体框架示意图，展示了将来自不同领域和模态的项目内容转换为统一的定量语言的过程。图中包含了多个翻译器和定量语言生成任务，以及通过预训练和微调进行知识转移的步骤。

4.2. 核心方法详解 (分步拆解)

4.2.1. 定量翻译器 (Quantitative Translator)

为了将连续的项目特征转化为离散的“语言”，我们需要训练翻译器。

特征提取: 对于文本内容，使用冻结的 LLaMA 编码器获取特征；对于图像内容，使用 CLIP 的 ViT 分支获取特征。
RQ-VAE 量化: 设提取的特征向量为 $h$ ，我们通过 $L$ 层代码本来表示它。在每一层 $i$ 中，我们寻找最接近残差向量 $r_i$ 的代码向量 $v_k^i$ 。
- 词元选择公式: $c_i = \mathop{\arg\min}_{k} \| r_i - v_k^i \|_2^2$ 这里 $c_i$ 是第 $i$ 层的代码索引， $v_k^i$ 是第 $i$ 层代码本 $\mathcal{C}^l$ 中的第 $k$ 个聚类中心向量。
- 残差更新公式: $r_{i+1} = r_i - v_{c_i}^i$ 其中初始残差 $r_1$ 等于经过线性变换后的原始特征向量 $z$ 。
- 量化表示: 最终的重建向量 $\hat{z}$ 是各层代码向量之和： $\hat{z} = \sum_{i=1}^L v_{c_i}^i$ 。
损失函数: 翻译器的训练由重建损失和量化损失组成： $\mathcal{L}_{recon} = \| h - \hat{h} \|_2^2$ $\mathcal{L}_{rqvae} = \sum_{i=1}^L \| \mathrm{sg}[r_i] - v_{c_i}^i \|_2^2 + \beta \| r_i - \mathrm{sg}[v_{c_i}^i] \|_2^2$ 其中 $\mathrm{sg}[\cdot]$ 是停止梯度 (stop-gradient) 操作，防止梯度在某些路径回传； $\beta$ 是平衡两个损失项的系数。总损失为 $\mathcal{L}(h) = \mathcal{L}_{recon} + \mathcal{L}_{rqvae}$ 。

4.2.2. 定量语言的构建

训练完成后，每个项目可以被表示为两个序列：

文本定量语言: 如 $<a_2><b_3><c_1><d_6>$ 。
图像定量语言: 如 $<A_1><B_4><C_2><D_6>$ 。其中 a/A 代表第 1 层代码本，d/D 代表第 4 层代码本。作者通过添加前缀来区分层级和模态。

4.2.3. 定量语言生成任务 (QLG Tasks)

为了让模型掌握这种语言，作者设计了三种生成任务：

下一项生成 (Next Item Generation, NIG): 给定用户交互历史的项目词元序列，预测下一个项目的词元。
非对称项目生成 (Asymmetric Item Generation, AIG): 给定用户的图像交互历史，预测下一个项目的文本词元（反之亦然）。这有助于模态间的知识迁移。
定量语言对齐 (Quantitative Language Alignment, QLA): 给定一个项目的文本词元，直接生成对应的图像词元。这实现了模态间的显式语义对齐。

4.2.4. 冲突处理 (Handling Collisions)

当不同项目的内容非常相似时，RQ-VAE 可能会为它们分配相同的代码序列（即冲突）。

原文逻辑: 传统的做法是增加一个随机 ID，但这会破坏语义。本文根据残差向量到代码向量的距离进行重新分配。
处理步骤: 如果 $N$ 个项目发生冲突，计算它们到最后一层代码向量的距离并排序。按距离远近依次在最后一层分配最邻近且未被占用的代码词元。如果最后一层词元不够用，则向上级代码本回溯并重新分配。

4.2.5. 重排序 (Re-ranking)

在预测阶段，模型会根据文本和图像两个分支分别生成推荐列表 $R_t$ 和 $R_v$ 。最后通过以下公式融合得分： $s(x) = \begin{cases} (s_t(x) + s_v(x))/2 + 1 & x \in R_t, x \in R_v \\ s_t(x) & x \in R_t \\ s_v(x) & x \in R_v \end{cases}$ 该公式的直觉是：同时出现在两个模态预测列表中的项目应当获得更高的排名。

5. 实验设置

5.1. 数据集

实验使用了 Amazon 产品评论数据集中的九个类别。

源领域 (预训练): Pet (宠物用品)、Cell (手机配件)、Automotive (汽车)、Tools (工具)、Toys (玩具)、Sports (运动)。
目标领域 (微调): Instruments (乐器)、Arts (艺术与手工艺)、Games (视频游戏)。
数据预处理: 过滤掉交互少于 5 次的用户和项目。每个项目包含标题、描述和一张图像。

5.2. 评估指标

论文使用了推荐系统中最标准的两个指标：

召回率 (Recall @ K / HR @ K):
- 概念定义: 衡量在模型给出的前 $K$ 个推荐结果中，用户真正感兴趣的项目（真实标签）所占的比例。在“留一法”评估中，它代表真实项目是否出现在前 $K$ 名中。
- 数学公式: $\mathrm{HR@K} = \frac{1}{|\mathcal{U}|} \sum_{u \in \mathcal{U}} \delta(\mathrm{rank}_u \le K)$
- 符号解释: $\mathcal{U}$ 是用户集合； $\mathrm{rank}_u$ 是真实项目在推荐列表中的排名； $\delta(\cdot)$ 是指示函数，条件成立为 1，否则为 0。
归一化折扣累积增益 (NDCG @ K):
- 概念定义: 不仅关注真实项目是否出现，还关注它的排名位置。排名越靠前，增益越高，且通过归一化使不同数据集可比。
- 数学公式: $\mathrm{NDCG@K} = \frac{\mathrm{DCG@K}}{\mathrm{IDCG@K}}, \quad \mathrm{DCG@K} = \sum_{i=1}^K \frac{2^{rel_i} - 1}{\log_2(i+1)}$
- 符号解释: $rel_i$ 是第 $i$ 位项目的相关度（此处为 0 或 1）； $i$ 是排名位置； $\mathrm{IDCG}$ 是理想情况下的最大 $\mathrm{DCG}$ 。

5.3. 对比基线

传统模型: GRU4Rec (递归神经网络), SASRec (自注意力机制), BERT4Rec。
多模态模型: FDSA, $S^3$ -Rec, MISSRec (多模态预训练)。
生成式模型: P5-CID, VIP5 (多模态 P5), TIGER (基于语义 ID 的生成)。

6. 实验结果与分析

6.1. 核心结果分析

以下是原文 Table 1 的完整性能对比结果：

Dataset	Metrics	GRU4Rec	BERT4Rec	SASRec	FDSA	S3-Rec	VQ-Rec	MISSRec	P5-CID	VIP5	TIGER	MQL4GRec	Improv.
Instruments	HR@1	0.0566	0.0450	0.0318	0.0530	0.0339	0.0502	0.0723	0.0512	0.0737	0.0754	0.0833	+10.48%
	HR@10	0.1207	0.1081	0.1233	0.1249	0.1123	0.1357	0.1361	0.1119	0.1071	0.1221	0.1375	+1.03%
	NDCG@5	0.0783	0.0667	0.0654	0.0757	0.0693	0.0796	0.0797	0.0678	0.0815	0.0882	0.0977	+10.77%
	NDCG@10	0.0857	0.0739	0.0746	0.0859	0.0743	0.0891	0.0880	0.0704	0.0872	0.0950	0.1060	+11.58%
	Arts	HR@1	0.0365	0.0289	0.0212	0.0380	0.0172	0.0408	0.0479	0.0421	0.0474	0.0532	0.0672	+26.32%
NDCG@10		0.0690	0.0575	0.0706	0.0695	0.0630	0.0844	0.0815	0.0662	0.0635	0.0806	0.0950	+17.87%
Games		HR@1	0.0140	0.0115	0.0069	0.0163	0.0136	0.0075	0.0201	0.0169	0.0173	0.0166	0.0203	+1.00%
	NDCG@10	0.0453	0.0366	0.0461	0.0509	0.0468	0.0329	0.0499	0.0454	0.0418	0.0453	0.0548	+7.95%

分析:

MQL4GRec 在所有数据集和指标上均显著优于基线模型。
相比于同样使用生成式检索的 TIGER，MQL4GRec 的优势在于引入了图像模态和精心设计的跨模态预训练任务。
在 Arts 数据集上，HR@1 的提升达到了惊人的 26.32%，说明该方法在精准预测方面的能力极强。

6.2. 消融实验

生成任务的影响 (Table 3): 实验证明，同时使用 NIG、AIG 和 QLA 任务的效果最好。单独增加“非对称生成任务 (AIG)”能显著提升模型在单一模态下的预测准确性，说明模态间的知识确实得到了共享。
预训练的影响 (Figure 3 & 4):
- 随着预训练数据集数量的增加，模型在 Instruments 和 Arts 上的表现稳步提升。
- 但在 Games 数据集上，预训练过多反而会导致性能下降。作者分析这可能是由于游戏领域的项目特征与源领域（如宠物、工具）差异过大，或者是发生了过拟合。

6.3. 零样本能力 (Zero-shot Capability)

作者测试了模型在完全不接触目标领域训练数据的情况下的表现 (Table 5)。结果发现，经过 6 个源领域预训练后的模型已经具备了微弱的零样本预测能力。虽然数值较低，但这证明了定量语言作为“通用推荐协议”的潜力。

7. 总结与思考

7.1. 结论总结

MQL4GRec 成功地通过“定量语言”这一媒介，解决了生成式推荐中的两大难题：知识迁移困难和多模态融合不足。该框架不依赖于传统的随机项目 ID，而是将项目内容（文本与图像）深度转化为结构化的语义词元，通过预训练捕捉通用的推荐模式。

7.2. 局限性与未来工作

推理延迟: 作为生成式模型，MQL4GRec 需要使用集束搜索 (Beam Search) 逐个词元生成，这在面对超大规模候选池时，推理速度慢于传统的向量内积检索。
内容依赖: 该模型高度依赖项目的元数据（标题、图片）。如果新项目缺失这些信息，模型将失效。
未来方向: 作者提出未来将探索更具泛化能力的定量翻译器，并尝试在更大规模、更多样化的数据集上验证其零样本推荐能力。

7.3. 个人启发与批判

启发: 这篇论文展示了“离散化”在多模态融合中的巨大威力。将图片和文本统一为类似“方言”的中间代码，避开了复杂的跨模态对比学习损失函数的设计，直接在生成概率上进行对齐，思路非常精巧。
批判:
- 冲突处理的局限: 虽然作者提出了基于残差距离的冲突处理，但这本质上还是在“打补丁”。如果两个项目的图像和文本完全一致，这种处理方式是否会引入噪音？
- 预训练成本: 论文使用了 LLaMA 和 CLIP 进行离线特征提取，虽然 RQ-VAE 本身参数量不大（1300万），但整体流程的计算开销对于小型推荐系统来说依然较高。
- 游戏领域的负迁移: 实验中 Games 数据集的性能波动值得深思。这提醒我们，并非所有的推荐知识都是通用的，如何识别并避免“负迁移”是未来跨领域研究的关键。

相似论文推荐

基于向量语义检索推荐的相关论文。

暂时没有找到相似论文。