CEMG: Collaborative-Enhanced Multimodal Generative Recommendation
TL;DR 精炼摘要
本文提出了一种新颖的协作增强多模态生成推荐框架CEMG,旨在通过动态集成视觉和文本特征来克服推荐系统中对协作信号的浅层集成以及多模态特征的解耦融合问题。该方法展示了显著优于现有技术的性能。
摘要
Generative recommendation models often struggle with two key challenges: (1) the superficial integration of collaborative signals, and (2) the decoupled fusion of multimodal features. These limitations hinder the creation of a truly holistic item representation. To overcome this, we propose CEMG, a novel Collaborative-Enhaned Multimodal Generative Recommendation framework. Our approach features a Multimodal Fusion Layer that dynamically integrates visual and textual features under the guidance of collaborative signals. Subsequently, a Unified Modality Tokenization stage employs a Residual Quantization VAE (RQ-VAE) to convert this fused representation into discrete semantic codes. Finally, in the End-to-End Generative Recommendation stage, a large language model is fine-tuned to autoregressively generate these item codes. Extensive experiments demonstrate that CEMG significantly outperforms state-of-the-art baselines.
思维导图
论文精读
中文精读
1. 论文基本信息
1.1. 标题
CEMG: Collaborative-Enhanced Multimodal Generative Recommendation
1.2. 作者
- Yuzhen Lin ()
- Hongyi Chen ()
- Xuanjing Chen ()
- Shaowen Wang ()
- Ivonne Xu ()
- Dongming Jiang ()
机构列表: School of Information Systems and Management, Carnegie Mellon University, Pittsburgh, PA 15213, USA Samueli School of Engineering, University of California, Los Angeles, CA 90095, USA Columbia Business School, Columbia University, New York, NY 10027, USA Henry Siebel School of Computing and Data Science, University of Illinois Urbana-Champaign, Urbana, IL 61820, USA Department of Physics, University of Chicago, Chicago, IL 60637, USA Department of Computer Science, Rice University, Houston, TX 77005, USA
1.3. 发表期刊/会议
该论文发布于 arXiv 预印本平台,发布时间为 2025-12-25T07:28:35.000Z。arXiv 是一个开放获取的预印本服务器,允许研究人员在正式同行评审和发表前分享他们的研究成果。在相关研究领域中,预印本平台的影响力日益增强,是快速传播最新研究进展的重要渠道。
1.4. 发表年份
2025年
1.5. 摘要
生成式推荐模型 (Generative recommendation models) 在以下两个关键挑战上常常表现不佳:(1) 对协作信号 (collaborative signals) 的浅层集成,以及 (2) 多模态特征 (multimodal features) 的解耦融合。这些限制阻碍了真正整体性项目表示 (holistic item representation) 的创建。为了克服这些问题,本文提出了 CEMG,一个新颖的协作增强多模态生成式推荐 (Collaborative-Enhanced Multimodal Generative Recommendation) 框架。该方法具有一个多模态融合层 (Multimodal Fusion Layer),在协作信号的指导下动态集成视觉和文本特征。随后,统一模态标记化 (Unified Modality Tokenization) 阶段采用残差量化变分自编码器 (Residual Quantization VAE, RQ-VAE) 将这种融合表示转换为离散的语义代码 (semantic codes)。最后,在端到端生成式推荐 (End-to-End Generative Recommendation) 阶段,一个大型语言模型 (large language model, LLM) 被微调 (fine-tuned) 以自回归地生成这些项目代码。广泛的实验证明,CEMG 显著优于最先进的 (state-of-the-art) 基线模型。
1.6. 原文链接
- arXiv 链接: https://arxiv.org/abs/2512.21543v1
- PDF 链接: https://arxiv.org/pdf/2512.21543v1.pdf
2. 整体概括
2.1. 研究背景与动机
核心问题: 传统的推荐系统,无论是基于协同过滤 (collaborative filtering) 还是序列模型 (sequential models),常常将项目视为独立的标识符(即“ID-based”范式)。这种方式难以捕捉项目之间丰富的语义关系,限制了模型对新项目或长尾项目 (long-tail items) 的泛化能力,并且未能有效利用描述性的多模态内容。
生成式推荐的兴起: 为了超越这些限制,生成式推荐 (generative recommendation) 应运而生。它将每个项目表示为一系列语义词元 (semantic tokens),从而将推荐任务重新定义为一个复杂的序列到序列生成任务 (sequence-to-sequence generation task),极大地增强了建模能力。
多模态数据集成面临的挑战: 虽然多模态数据(如图像和文本)的集成进一步推动了生成式推荐的发展,但现有方法仍存在以下两个关键挑战:
-
协作信号的浅层集成 (Superficial Integration of Collaborative Signals): 尽管多模态内容提供了丰富的项目语义描述,但个性化的核心在于协作信号(即用户集体行为产生的模式)。许多现有生成模型仅将协作信息作为补充特征或通过浅层对齐方式融入,未能捕捉揭示用户潜在偏好和超越内容相似性的复杂高阶关系。
-
多模态与协作特征的解耦融合 (Decoupled Fusion of Multimodal and Collaborative Features): 当前框架倾向于将多模态内容和协作信号视为独立的实体,以迟缓或分离的方式进行融合。这种分离阻碍了模型理解项目内在属性(它是什么)与它在用户社区中上下文角色(它如何被感知)之间错综复杂的相互作用。例如,两个视觉上截然不同的项目可能是功能上的替代品,这种细微差别只能通过对这些信息源的深度协同融合才能捕捉到。
本文的切入点/创新思路: 为了解决上述限制,本文提出了 CEMG 框架,旨在创建一个深度统一的项目表示,该表示能够协同内容语义与协作智慧,并为强大的生成式推荐引擎量身定制。CEMG 的核心在于通过协作信号的引导,动态且深度地融合多模态特征,从而生成更具信息量的离散语义代码,进而利用大型语言模型进行推荐。
2.2. 核心贡献/主要发现
本文的主要贡献总结如下:
- 首次提出协作引导的多模态深度融合机制: CEMG 框架首次采用协作引导机制,将多模态内容与高阶协作信号深度融合到一个统一的语义空间中,用于项目的词元化 (item tokenization)。这克服了现有方法中协作信号浅层集成和多模态特征解耦融合的问题。
- 设计精巧高效的多模态融合层: 提出了一个优雅且高效的多模态融合层 (Multimodal Fusion Layer) 架构,通过动态地将内容特征与其协作上下文对齐,从而增强项目表示。
- 开发端到端生成式推荐管道: 构建了一个端到端生成式管道,该管道利用大型语言模型 (LLM) 的强大能力进行推荐,并通过受限解码策略 (constrained decoding strategy) 确保推荐的有效性和效率。
- 卓越的实验性能: 在三个基准数据集上进行了广泛实验,证明 CEMG 显著优于各种最先进的基线模型,尤其在处理冷启动项目 (cold-start items) 方面表现突出。
3. 预备知识与相关工作
本部分旨在为读者铺垫理解 CEMG 框架所需的前置知识,并介绍其与现有研究的联系和区别。
3.1. 基础概念
-
推荐系统 (Recommender Systems, RS): 一种信息过滤系统,旨在预测用户对特定项目的偏好并提供个性化推荐,以缓解信息过载问题。
- 协作过滤 (Collaborative Filtering): 一种经典的推荐算法,通过分析用户或项目之间的相似性来生成推荐。它基于“喜欢相似项目的人也会喜欢其他相似项目”或“相似的用户会喜欢相似的项目”的假设。
- 序列推荐 (Sequential Recommendation): 考虑用户历史交互序列中的顺序信息,预测用户下一步可能交互的项目。这类模型通常利用循环神经网络 (RNN) 或 Transformer 等架构捕捉序列依赖关系。
-
生成式推荐 (Generative Recommendation): 一种新兴的推荐范式,它将推荐任务重新定义为一个生成问题。不同于传统推荐系统输出项目 ID 或排名列表,生成式推荐旨在生成项目的语义表示(如文本描述或离散代码序列),然后将这些表示映射回具体的项目。
- 项目词元化 (Item Tokenization): 将一个项目(例如一个商品,一部电影)从其原始形式(如 ID、图像、文本描述)转换为一系列离散的语义词元 (semantic tokens) 的过程。这些词元可以看作是项目在高维语义空间中的编码,能够被生成模型理解和处理。
- 自回归生成 (Autoregressive Generation): 一种序列生成方法,其中每个词元或元素是基于其前面的所有已生成词元条件性地生成的。这意味着模型在生成序列中的下一个词元时,会考虑之前所有词元的上下文信息。
-
多模态学习 (Multimodal Learning): 结合和处理来自多种模态(如视觉、文本、音频等)信息的技术。在推荐系统中,多模态学习通常指利用商品的图片、文本描述等多种信息来增强项目表示,从而提升推荐效果。
-
图神经网络 (Graph Neural Networks, GNNs): 一类专门处理图结构数据的深度学习模型。它们通过在图上进行信息传播和聚合来学习节点(如用户、项目)的低维嵌入表示,从而捕捉复杂的结构关系。
- LightGCN: 一种简化但强大的图卷积网络 (Graph Convolution Network, GCN) 变体,用于推荐系统。它移除了 GCN 中的特征变换和非线性激活操作,仅保留了最核心的邻居聚合和传播步骤,从而提高了效率并减轻了过平滑问题。
-
变分自编码器 (Variational Autoencoders, VAEs): 一类生成模型,它学习数据的低维潜在表示 (latent representation)。VAEs 通过一个编码器将输入数据映射到潜在空间中的概率分布,然后通过一个解码器从这个潜在分布中采样并重建原始数据。
- 矢量量化变分自编码器 (Vector Quantization VAE, VQ-VAE): VAE 的一个变体,它在编码器和解码器之间引入了一个离散的码本 (codebook)。编码器输出的连续潜在向量被“量化”为码本中最近的离散向量。这使得 VQ-VAE 能够学习到离散的潜在表示,非常适合生成离散数据(如图像像素或文本词元)。
- 残差量化变分自编码器 (Residual Quantization VAE, RQ-VAE): VQ-VAE 的进一步改进。它不是一次性将潜在向量量化到一个码本中,而是通过多个连续的量化阶段(即多个码本层)逐步减少量化误差。在每个阶段,它量化当前残差向量,并将其从原始潜在向量中减去,将剩余的残差传递给下一个量化阶段。这允许模型学习到更精细、多层次的离散表示序列,每个词元来自一个独立的码本。
-
大型语言模型 (Large Language Models, LLMs): 具有数亿到数万亿参数的深度神经网络模型,通常基于 Transformer 架构,通过在海量文本数据上进行预训练来学习语言的复杂模式和语义。它们能够执行多种自然语言处理任务,如文本生成、翻译、问答等。
- T5 (Text-to-Text Transfer Transformer): 一种由 Google AI 开发的 Transformer 模型,其核心思想是将所有自然语言处理任务统一为“文本到文本”的格式。无论输入和输出是什么,都被视为文本字符串,这使得 T5 能够以统一的方式处理各种任务,如翻译、摘要、问答等。
- 下一词元预测 (Next-token Prediction): LLM 的核心训练目标之一,即给定一个词元序列,模型预测序列中下一个词元的概率分布。
- 束搜索 (Beam Search): 一种启发式搜索算法,常用于序列生成任务(如机器翻译、文本生成)。它通过在每个时间步保留多个最有可能的候选序列(即“束”),而不是只保留一个最佳序列,来探索更广阔的搜索空间,从而生成更高质量的序列。
- 注意力机制 (Attention Mechanism): 一种神经网络技术,允许模型在处理序列数据时,动态地聚焦于输入序列中最重要的部分。它通过计算查询(Query)和键(Key)之间的相似度来生成权重,然后用这些权重对值(Value)进行加权求和,从而得到一个上下文向量。在本文的多模态融合层中,协作特征充当查询,而视觉和文本特征充当键和值,以动态地计算它们的相对重要性。
符号解释:
- :查询矩阵 (Query Matrix),维度为 ,代表当前需要关注的信息。
- :键矩阵 (Key Matrix),维度为 ,代表所有可能被关注的信息的索引或描述。
- :值矩阵 (Value Matrix),维度为 ,代表所有可能被关注的信息的具体内容。
- : 查询和键/值的序列长度。
- : 键和查询的维度。
- : 查询和键之间的点积,衡量查询与每个键的相似度。
- : 缩放因子,用于防止点积结果过大导致
softmax函数梯度过小。 - : 归一化函数,将相似度分数转换为权重,确保所有权重之和为 1。
- : 最终的注意力输出,是值的加权和,表示在给定查询下对值的关注。
3.2. 前人工作
论文回顾了两个主要领域的前人工作:
3.2.1. 多模态推荐 (Multimodal Recommendation)
多模态推荐系统通过利用图像和文本等辅助信息来增强推荐性能,主要采用嵌入-检索 (embed-and-retrieve) 范式。
- 早期工作:
- VBPR [3]: 将预训练的视觉特征集成到矩阵分解 (matrix factorization) 模型中。
- 进阶融合技术:
- ACF [1] 和 UVCAN [14]: 利用注意力机制 (attention mechanisms) 动态选择信息丰富的内容。
- 基于图神经网络 (GNN) 的方法:
- MMGCN [27]: 通过多模态图传播信息,建模复杂关系。
- 自监督学习 (Self-supervised Learning) 和模态特定建模 (Modality-specific Modeling):
- MISSRec [25] 和 MMSRec [23]: 进一步探索自监督学习和模态特定建模来更好地捕捉用户兴趣。 局限性: 尽管这些判别式 (discriminative) 方法有效,但它们可能计算昂贵,并面临复杂交互建模不足和假阴性问题 (false-negative problem) [11] 等挑战。本文工作通过采用更具表达力的生成式方法来超越这一范式。
3.2.2. 生成式推荐 (Generative Recommendation)
生成式推荐是一个新领域,将推荐重新定义为序列生成任务,主要包括两个阶段:项目词元化和自回归生成。
- 项目词元化方法:
- 文本基础方法 [9]: 简单地基于文本内容进行词元化。
- 矢量量化 (VQ) 技术:
- TIGER [20]: 采用 RQ-VAE [8] 等架构从项目特征中学习语义代码。
- LETTER [26]: 通过整合协作信号来对齐学习到的代码,进一步改进了 TIGER。
- 多模态集成:
- MMGRec [11]: 采用基于图的架构来标记融合的多模态信息。 局限性: 这些方法通常基于单模态数据(通常是文本)进行词元化,或者使用浅层融合,未能创建真正整体性的表示。
3.3. 技术演进
该领域的技术演进可以概括为以下几个阶段:
- ID-based 推荐: 早期和传统的推荐系统主要依赖于项目 ID,通过用户-项目交互矩阵进行协作过滤或基于序列分析进行推荐。
- 内容增强推荐: 引入文本、图片等辅助内容信息,以增强项目表示,解决冷启动和稀疏性问题。早期方法多为嵌入-检索范式,将多模态特征编码后与用户偏好进行匹配。
- 生成式推荐的提出: 将推荐问题转换为序列生成问题,通过生成项目的语义表示而非直接的项目 ID 来提供推荐,从而提升对语义的理解和新项目的泛化能力。
- VQ-VAE / RQ-VAE 引入生成式推荐: 利用矢量量化技术将项目表示离散化为语义词元序列,为生成式模型(尤其是大型语言模型)提供结构化的输入和输出。
- LLM 在推荐中的应用: 随着大型语言模型的兴起,将其强大的文本生成和理解能力引入推荐系统,将用户历史和推荐目标编码为语言模型可以处理的文本序列。
- 多模态与协作信号的深度融合: 本文的工作正处于这一演进的最新阶段。它超越了简单的多模态特征拼接或浅层协作信号融合,提出了一种协作引导 (collaborative-guided) 的机制,以实现多模态与协作信号的深度、动态、统一融合,从而生成更具信息量的语义词元。
3.4. 差异化分析
CEMG 与相关工作的主要区别和创新点体现在以下几个方面:
- 与判别式多模态推荐的对比 (如 MISSRec, MMSRec):
- 范式不同: CEMG 采用生成式范式,将推荐视为序列生成任务,而大多数多模态推荐是判别式或嵌入-检索范式。生成式方法更具表达力,能更好地处理语义信息和生成新内容。
- 表示学习: CEMG 学习离散的语义词元序列作为项目表示,而非连续的嵌入向量。
- 与现有生成式推荐的对比 (如 TIGER, LETTER, MMGRec):
-
融合机制: 这是 CEMG 最核心的创新点。
- TIGER [20]: 主要从项目特征(可能包含多模态,但融合方式相对简单)学习语义代码。
- LETTER [26]: 结合了文本和协作信号来对齐学习到的代码,但其主要关注文本模态,且协作信号的整合可能仍是“浅层”或“补充性”的。
- MMGRec [11]: 确实处理多模态信息并使用图结构进行词元化,但其融合方式可能仍是解耦或预先融合的。
- CEMG 的创新: 首次提出协作引导的多模态融合层。它不只是简单地结合多模态特征,而是将协作信号作为“查询”来动态地指导视觉和文本特征的融合,赋予不同模态在不同协作上下文下的不同重要性。这实现了多模态内容与高阶协作信号的“深度统一”融合,从而生成更全面的项目语义表示。
-
大型语言模型应用: CEMG 利用强大的预训练 LLM (T5) 作为生成骨干,并通过受限解码策略增强推荐的有效性和效率,相比一些从头训练或使用较小生成模型的基线具有优势。
总而言之,CEMG 的独特之处在于其创新的协作引导多模态融合机制,它解决了现有生成式推荐模型在协作信号集成和多模态特征融合方面的两大痛点,实现了更全面、更具情境感知的项目语义表示学习。
-
4. 方法论
本节将详细介绍本文提出的 CEMG 框架的技术细节,涵盖其三个主要组件:多模态编码层、统一模态标记化和端到端生成式推荐。
4.1. 方法原理
CEMG 的核心思想是构建一个统一、密集的项目表示,该表示不仅能捕捉项目的多模态内容(图像和文本),还能深度整合其协作特性(用户互动模式)。通过一个协作引导的融合机制,CEMG 确保了项目表示既包含其内在属性,也反映其在用户社区中的上下文角色。随后,这种丰富的表示被转换为离散的语义代码序列,供大型语言模型进行端到端的推荐生成。
整个框架分为以下三个核心组件:
-
多模态编码层 (Multimodal Encoding Layer): 从项目图像、文本以及用户-项目交互图中提取特征,并通过一个新颖的多模态融合层 (Multimodal Fusion Layer),利用协作信号作为引导,动态地集成这些特征,生成一个统一的、全面的项目表示 。
-
统一模态标记化 (Unified Modality Tokenization): 使用残差量化变分自编码器 (RQ-VAE) 将上一步得到的统一项目表示 转换为紧凑的离散语义词元序列 。
-
端到端生成式推荐 (End-to-End Generative Recommendation): 将推荐任务视为条件语言生成任务。通过将用户的交互历史构建为结构化提示 (prompt),并微调一个大型语言模型 (T5) 以自回归地生成下一个推荐项目的语义词元序列。
下图(原文 Figure 1)展示了 CEMG 框架的整体架构:
该图像是CEMG框架的整体架构示意图。框架由三个主要组件组成:多模态编码层集成视觉特征 、协作特征 和文本特征 ,通过多模态融合层生成统一表示 。统一模态标记化阶段利用残差量化变分自编码器(RQ-VAE)将 转换为离散语义标记序列。最后,端到端生成推荐模块根据历史标记序列自回归生成下个推荐项目的标记。
Figure 1: CEMG 框架的整体架构。框架由三个主要组件组成。多模态编码层集成视觉特征 ()、协作特征 () 和文本特征 () ,通过多模态融合层生成统一表示 。统一模态标记化阶段利用残差量化变分自编码器(RQ-VAE)将 转换为离散语义标记序列。最后,端到端生成推荐模块根据历史标记序列自回归生成下个推荐项目的标记。
4.2. 核心方法详解
4.2.1. 问题定义
首先,我们形式化地定义问题。
-
设 表示用户集合, 表示项目集合。
-
每个项目 都关联有多模态内容,包括图像 和文本描述 。
-
对于用户 ,其历史交互序列按时间顺序表示为 。
-
目标是预测用户 最有可能在下一步交互的 个项目。
CEMG 以生成式方式重新构建此任务。每个项目 不再是原子 ID,而是由 个离散语义词元组成的序列,记作 ,其中每个词元 是从一个码本 (codebook) 中选取的索引。推荐问题因此转化为基于用户历史交互序列 对应的词元序列,生成下一个项目 的词元序列。形式上,我们对以下概率进行建模: 符号解释:
-
: 在给定用户历史交互序列 的条件下,生成下一个项目 的完整词元序列 的概率。
-
: 表示对 个词元的条件概率的乘积,体现了自回归生成。
-
: 目标项目 的第 个语义词元。
-
: 用户历史交互序列中所有 个项目对应的词元序列。
-
: 目标项目 中在第 个词元之前已经生成的词元。
4.2.2. 多模态编码层
框架的第一步是为每个项目学习一个统一的密集表示,该表示封装了其多模态和协作特性。
多模态特征编码 (Multimodal Feature Encoding): 对于每个项目 ,我们使用预训练编码器提取其关联图像和文本的特征:
-
视觉编码器 (Visual Encoder): 使用预训练的 VGG 网络 [22] 处理图像 ,提取其视觉特征,得到原始视觉特征向量。
-
文本编码器 (Textual Encoder): 使用预训练的 BERT 模型 [24] 对文本描述 进行编码。我们取
[CLS]词元 (token) 的嵌入作为文本表示,得到原始文本特征向量。原始特征向量随后通过主成分分析 (Principal Component Analysis, PCA) 层进行降维,得到最终的视觉嵌入 和文本嵌入 ,其中 是统一的嵌入维度。
协作特征编码 (Collaborative Feature Encoding): 为了捕捉反映社区偏好的重要协作信号,我们将用户-项目交互建模为二部图 ,其中如果用户 曾与项目 交互,则存在一条边 。然后,我们采用 LightGCN [4],一个简洁而强大的图神经网络 (Graph Neural Network),来学习用户和项目的嵌入。项目 的最终嵌入是通过在多个传播层上聚合其邻域信息获得的。这个过程产生了一个协作嵌入 ,它提炼了高阶连接模式。
多模态融合层 (Multimodal Fusion Layer): CEMG 的一个关键创新是其融合机制,它使用协作嵌入作为引导,动态地集成多模态特征。我们假设项目的协作上下文应该决定其视觉和文本属性的相对重要性。为此,我们设计了一个引导注意力机制 (guided attention mechanism)。协作嵌入 充当查询 (query),而视觉嵌入 和文本嵌入 则充当键 (keys) 和值 (values)。注意力权重计算如下: 符号解释:
-
: 模态 (可以是视觉 或文本 )的注意力权重。
-
: 项目 的协作嵌入,作为注意力机制的查询 (query)。
-
: 项目 的模态 的嵌入( 或 ),作为注意力机制的键 (key)。在本文中,视觉和文本嵌入也充当值 (value),因为它们是直接加权的。
-
: 可学习的投影矩阵,用于将查询和键投影到相同的特征空间进行点积计算。
-
: 计算经过投影后的协作查询与模态键之间的点积相似度。
-
: 指数函数,用于将相似度转换为非负值。
-
: 对所有模态(视觉和文本)的指数相似度进行求和,用于归一化。
-
分母部分:一个
softmax操作,确保所有模态的注意力权重 之和为 1。最终的融合表示 是加权多模态特征与引导协作特征的拼接: 符号解释:
-
: 项目 的统一融合表示。
-
: 视觉嵌入 乘以其注意力权重 。
-
: 文本嵌入 乘以其注意力权重 。
-
: 表示逐元素相加 (element-wise addition)。这意味着加权后的视觉和文本特征被合并成一个单一的向量。
-
[ ; ]: 表示向量拼接 (concatenation)。融合后的多模态特征向量 与原始的协作特征向量 被拼接在一起,形成最终的统一表示 。这个统一向量 现在全面地代表了项目 。
4.2.3. 统一模态标记化
有了每个项目的统一表示 ,我们接着使用残差量化变分自编码器 (Residual Quantization Variational Autoencoder, RQ-VAE) [8] 将其词元化为离散的语义词元序列。RQ-VAE 由一个编码器、一个带有 个码本 (codebooks) 的残差量化器和一个解码器组成。
-
编码器 (Encoder): 将统一表示 映射到一个潜在向量 。
-
残差量化器 (Residual Quantizer): 迭代地近似 。在每个阶段 ,它从码本 中找到最接近当前残差向量的码向量 ,并将其减去以形成下一个残差。选定的码本索引序列 成为项目的语义词元序列 。
-
解码器 (Decoder): 从选定码向量的总和中重建原始向量 。
RQ-VAE 通过最小化一个复合损失函数进行训练,以确保语义保真度 (semantic fidelity) 和码本质量: 符号解释:
-
: RQ-VAE 的总训练损失。
-
: 重建损失 (reconstruction loss)。它衡量原始统一表示 与解码器重建的表示 之间的欧几里得距离。目标是确保离散词元能够忠实地代表原始连续表示。
-
: VQ 承诺损失 (VQ commitment loss) [17]。这个损失鼓励编码器的输出(潜在向量 )尽可能接近它所量化到的码本条目。它确保编码器学习生成与码本中的向量兼容的潜在表示。
-
: 多样性损失 (diversity loss) [12]。这个损失旨在促进每个码本中不同代码向量的利用,防止码本塌陷(即许多输入都映射到码本中少数几个向量)。
-
: 量化损失 的平衡超参数。
-
: 多样性损失 的平衡超参数。
4.2.4. 端到端生成式推荐
词元化阶段之后,每个项目 由其语义词元序列 表示。我们现在将推荐任务重新定义为条件生成问题。
交互历史提示 (Interaction History Prompting): 我们将用户的交互历史构建为大型语言模型 (LLM) 的提示 (prompt)。对于具有历史 的用户,我们将每个项目 转换为其词元序列 。每个词元由一个特殊符号表示,例如 表示来自第一个码本(层 'a')的第 12 个词元。完整的提示是按照时间顺序构建的这些项目词元的序列。LLM 的任务是自回归地预测下一个项目 的词元序列。
训练与推理 (Training and Inference): 我们采用一个强大的仅解码器 (decoder-only) LLM 作为我们的生成骨干模型。模型使用标准的下一词元预测 (next-token prediction) 目标进行训练,最小化预测词元概率与真实目标词元之间的交叉熵损失 (cross-entropy loss): 符号解释:
-
: 下一词元预测的交叉熵损失。
-
: 用户历史序列的长度。
-
: 每个项目词元序列的长度。
-
: LLM 预测的概率。
-
: 目标项目 的第 个真实词元。
-
: 历史序列中从第一个项目到第 个项目的所有词元序列。
-
: 目标项目 中在第 个词元之前已经生成的词元。
在推理阶段,给定用户的历史提示,我们使用束搜索 (beam search) 来生成多个候选的下一个项目词元序列。候选序列 的得分是其对数概率之和: 符号解释:
-
: 候选词元序列 的得分。
-
: 对序列中所有 个词元的对数概率进行求和。
-
: 在给定用户历史提示和已生成的前
m-1个词元条件下,生成第 个词元的对数概率。为了确保只生成有效的项目序列,我们采用了一种基于前缀树 (Trie) 的受限解码策略 (constrained decoding strategy)。前缀树包含了我们项目目录中所有有效的项目词元序列。在每个生成步骤中,LLM 的输出词汇表 (vocabulary) 被掩码 (masked),只允许生成能构成有效前缀的词元,这大大剪枝了搜索空间并保证了最终推荐的有效性。
5. 实验设置
本节详细介绍 CEMG 框架的实验设置,包括使用的数据集、评估指标、对比基线模型以及具体的实现细节。
5.1. 数据集
为了评估模型,研究人员使用了三个广泛使用的公共数据集,这些数据集来源于 Amazon 评论和 Yelp。对于每个交互,都收集了相关的项目图像和文本描述。根据标准实践,过滤掉了交互次数少于 5 次的用户和项目。
以下是原文 Table 1 的结果:
| Attribute | Beauty | Sports | Yelp |
| #Users | 22,363 | 35,598 | 30,431 |
| #Items | 12,101 | 18,357 | 20,033 |
| #Interactions | 198,502 | 296,337 | 316,942 |
| Avg. Len. | 8.9 | 8.3 | 10.4 |
| Sparsity | 99.93% | 99.95% | 99.95% |
数据集特点分析:
-
Beauty (美妆): 拥有相对较少的用户和项目,交互次数适中,平均序列长度为 8.9。
-
Sports (体育): 拥有更多的用户和项目,以及更多的交互次数,平均序列长度为 8.3。
-
Yelp: 用户数和项目数与 Sports 接近,但交互次数最多,平均序列长度为 10.4。
-
稀疏性 (Sparsity): 所有数据集都表现出极高的稀疏性(99.93%-99.95%),这表明推荐系统面临着用户-项目交互数据不足的典型挑战。
选择这些数据集进行实验是合理的,因为它们代表了不同领域(美妆、体育用品、本地服务)的真实世界推荐场景,且具有足够的规模和稀疏性,能够有效验证推荐方法在实际应用中的性能和泛化能力。这些数据集还提供了丰富的多模态内容(图像和文本),符合 CEMG 利用多模态信息的设定。
5.2. 评估指标
采用留一法 (leave-one-out strategy) 进行评估。对于每个用户,其最后一次交互的项目作为测试集中的真实标注数据 (ground truth),倒数第二个项目用于验证,其余用于训练。所有模型性能评估采用以下两个指标,在截断值 和 下进行:
-
命中率 (Hit Rate, HR@K)
- 概念定义 (Conceptual Definition): 在推荐列表的前 个推荐结果中,是否包含了用户实际下一个交互的真实目标项目。它衡量的是推荐系统能够“命中”用户兴趣(即成功推荐用户会喜欢的项目)的能力,而不关心该项目在列表中的具体排名。如果真实项目在推荐列表的前 位中,则记为一次命中。
- 数学公式 (Mathematical Formula):
- 符号解释 (Symbol Explanation):
Number of hits @K: 在所有用户的测试集中,成功将真实交互项目推荐到前 位列表中的用户数量。Total number of users: 参与评估的总用户数量。
-
归一化折损累积增益 (Normalized Discounted Cumulative Gain, NDCG@K)
- 概念定义 (Conceptual Definition): 衡量推荐列表质量的指标,它不仅考虑了相关项目的存在与否(召回),还高度关注这些相关项目在列表中的位置(排名),并对排名靠前的相关项目给予更高的权重。NDCG@K 通常用于评估推荐列表的整体质量,尤其是在相关性具有多级度量时,或者对推荐顺序敏感的场景。
- 数学公式 (Mathematical Formula): 其中,(Discounted Cumulative Gain,折损累积增益)的计算公式为: (Ideal Discounted Cumulative Gain,理想折损累积增益)是理想的、完美的推荐列表的 值,即所有相关项目都按其相关性从高到低排列。
- 符号解释 (Symbol Explanation):
- : 排名在第 位的项目的相关性分数。在本文的二元相关性设置(即用户是否实际交互了该项目)下,如果目标真实项目在第 位,则 ,否则为
0。 - : 推荐列表的截断长度。
- : 位置 的折扣因子。排名越靠后,折扣越大,对总增益的贡献越小。
- : 实际推荐列表的折损累积增益。
- : 理想推荐列表的折损累积增益,用于对 进行归一化,使其值介于 0 到 1 之间。
- : 排名在第 位的项目的相关性分数。在本文的二元相关性设置(即用户是否实际交互了该项目)下,如果目标真实项目在第 位,则 ,否则为
5.3. 对比基线
CEMG 与四类基线模型进行了比较:
- 序列方法 (Sequential Methods):
- GRU4Rec [5]: 基于 GRU 的循环神经网络,用于捕捉用户会话中的序列模式。
- SASRec [6]: 基于自注意力机制 (self-attention mechanism) 的序列推荐模型,能够捕捉长距离依赖关系。
- 多模态方法 (Multimodal Methods):
- MMSRec [23]: 一种自监督多模态序列推荐模型。
- MISSRec [25]: 一种预训练和迁移多模态兴趣感知序列表示的推荐模型。
- 基于 LLM 的方法 (LLM-based Methods):
- LlamaRec [28]: 使用大型语言模型进行两阶段推荐(包括排名)。
- LLM-ESR [13]: 利用大型语言模型增强长尾序列推荐。这些方法通常基于项目标题或原始文本操作。
- 生成方法 (Generative Methods):
- TIGER [20]: 一种基于矢量量化 (VQ) 和 Transformer 的生成式检索系统。
- LETTER [26]: 一种可学习的项目词元化方法,用于生成式推荐,通过对齐量化表示和协作嵌入来增强项目词元。
- MMGRec [11]: 一种结合 Transformer 模型的跨模态生成式推荐模型。
5.4. 实现细节
- 嵌入维度: CEMG 框架中所有特征嵌入都被投影到一个统一的维度 。
- RQ-VAE 配置: 用于词元化的 RQ-VAE 配置了 个码本层 (codebook layers),每个码本的大小为 。
- 损失权重: 根据参数分析,损失平衡权重设置为 和 。
- 生成式 LLM: 采用 T5 [19] 作为生成式 LLM 的骨干模型。
- 优化器与学习率: 模型使用 AdamW 优化器进行训练,学习率为 。
- 硬件: 在 NVIDIA A100 GPU 上进行训练。
6. 实验结果与分析
本节将深入分析 CEMG 在各项实验中的表现,并与基线模型进行比较,探讨其有效性和各个组件的贡献。
6.1. 核心结果分析
6.1.1. 整体性能 (RQ1)
以下是原文 Table 2 的结果,展示了 CEMG 在三个数据集上的整体性能比较:
| Category | Model | Beauty | Sports | Yelp | |||
| HR@10 | NDCG@10 | HR@10 | NDCG@10 | HR@10 | NDCG@10 | ||
| Sequential | GRU4Rec | 0.0385 | 0.0116 | 0.0201 | 0.0045 | 0.0288 | 0.0095 |
| SASRec | 0.0434 | 0.0147 | 0.0232 | 0.0061 | 0.0329 | 0.0121 | |
| Multimodal | MISSRec | 0.0577 | 0.0287 | 0.0305 | 0.0118 | 0.0387 | 0.0163 |
| MMSRec | 0.0581 | 0.0292 | 0.0311 | 0.0124 | 0.0395 | 0.0171 | |
| LLM-based | LlamaRec | 0.0492 | 0.0198 | 0.0256 | 0.0083 | 0.0341 | 0.0134 |
| LLM-ESR | 0.0515 | 0.0214 | 0.0269 | 0.0091 | 0.0353 | 0.0140 | |
| Generative | TIGER | 0.0533 | 0.0251 | 0.0281 | 0.0103 | 0.0368 | 0.0151 |
| LETTER | 0.0552 | 0.0268 | 0.0295 | 0.0111 | 0.0377 | 0.0159 | |
| MMGRec | 0.0571 | 0.0281 | 0.0302 | 0.0119 | 0.0389 | 0.0166 | |
| CEMG | 0.0665 | 0.0348 | 0.0363 | 0.0157 | 0.0458 | 0.0212 | |
| Improvement (%) | +14.46% | +19.18% | +16.72% | +26.61% | +15.95% | +23.98% | |
分析: 从 Table 2 可以清楚地看出,CEMG 在所有三个数据集(Beauty、Sports、Yelp)和所有评估指标(HR@10、NDCG@10)上均始终显著优于所有基线模型。
- CEMG 的绝对优势: 在 Beauty 数据集上,CEMG 相较于次优基线 (MMSRec) 在 HR@10 方面提升了 14.46%,在 NDCG@10 方面提升了 19.18%。在 Sports 数据集上,HR@10 提升了 16.72%,NDCG@10 更是高达 26.61%。Yelp 数据集上也有类似的显著提升。所有改进都具有统计学意义 ()。
- 生成式范式的潜力: 总体而言,生成式方法(如 MMGRec, LETTER)通常优于传统的序列方法(如 GRU4Rec, SASRec)和仅依赖 LLM 的方法(如 LlamaRec, LLM-ESR),这印证了生成式范式在推荐领域的巨大潜力。
- 多模态的价值: 多模态方法(如 MISSRec, MMSRec)通常优于纯序列方法,表明利用多模态内容能够有效提升推荐性能。
- CEMG 领先的原因: CEMG 的卓越表现验证了其核心设计理念:通过深度统一的语义表示,协同整合多模态内容与协作信号,并结合强大的 LLM 进行生成。这种方法能够更全面、更细致地捕捉用户偏好和项目特征,从而生成更高质量的推荐。它有效地解决了协作信号浅层集成和多模态特征解耦融合的问题,创建了真正整体性的项目表示。
6.2. 消融实验/参数分析
6.2.1. 消融研究 (RQ2)
为了理解 CEMG 中每个组件的贡献,研究人员进行了一项消融研究 (ablation study),比较了多个 CEMG 变体。
-
w/o Collab: 从第一阶段的统一表示中移除协作特征。 -
w/o Image: 移除视觉特征。 -
w/o Text: 移除文本特征。 -
w/o LLM: 用一个从头开始训练的标准 6 层 Transformer 解码器替换预训练的 T5 模型,类似于 TIGER [20]。下图(原文 Figure 2)展示了在三个数据集上 HR@10 和 NDCG@10 的消融研究结果:
该图像是图表,展示了在三个数据集(Beauty、Sports、Yelp)上,CEMG模型与各种去除组件的变体的HR@10和NDCG@10的消融研究结果。各个变体性能的下降显示了每个组件的贡献。
Figure 2: 在三个数据集上 HR@10 和 NDCG@10 的消融研究结果。所有变体的性能下降都表明了每个组件的贡献。
分析:
- 所有组件的重要性: 完整功能的 CEMG 模型取得了最佳性能。移除任何组件都会导致性能下降,这证实了所有组件的重要性。
- 协作信号的关键作用:
w/o Collab变体的性能下降最为显著。这强调了即使在一个内容丰富的生成模型中,协作过滤信号也扮演着至关重要的角色,它能够捕获超越内容相似性的高阶用户偏好。 - 预训练 LLM 的价值:
w/o LLM变体也导致了明显的性能下降。这验证了使用强大预训练 LLM 的选择,因为其先进的推理和序列建模能力对于准确预测下一个项目至关重要。从头训练一个较小的 Transformer 无法匹敌预训练大模型的强大泛化和生成能力。 - 多模态信息的有效利用: 移除图像或文本特征也会导致性能的显著下降,这表明 CEMG 模型有效地利用了多模态信息,并且视觉和文本信息都对最终推荐质量有积极贡献。
6.2.2. 效率分析 (RQ3)
研究人员分析了 CEMG 与其他最先进生成模型的训练和推理效率。 下图(原文 Figure 3)展示了在 Beauty 和 Sports 数据集上的效率比较:

该图像是一个图表,展示了在美妆和体育数据集上的效率比较。左侧展示了训练时间(小时)和推理延迟(毫秒/用户)两项指标,分别按阶段分解。右侧则是体育数据集的对应结果。不同的方法包括 TIGER、LETTER、MMGRec 和 CGMG。
Figure 3: 在 Beauty 和 Sports 数据集上的效率比较。左轴(条形图)显示了每 epoch 的训练时间,按阶段细分。右轴(折线图)显示了推理速度,单位为每秒用户数(越高越好)。
分析:
- 训练效率: CEMG 的训练时间由两个阶段组成:词元化 (RQ-VAE) 和端到端生成 (LLM 微调)。虽然由于处理更多模态特征,整体训练时间高于 TIGER,但仍具有高度竞争力。总时间与 LETTER 模型相当,甚至略优于 LETTER,后者需要复杂的对齐过程。这表明 CEMG 复杂的融合和词元化管道并未引入过高的计算开销。
- 推理效率: CEMG 在推理速度方面表现出色,相较于 MMGRec 和 LETTER 等其他多模态生成模型,实现了显著更低的推理延迟。这种效率得益于其设计——生成短的、固定长度的语义词元序列 (),这比需要更复杂生成或检索步骤的模型要快得多。CEMG 的高效率使其非常适用于现实世界的部署场景。
6.2.3. 参数分析 (RQ4)
研究人员调查了 CEMG 对统一模态标记化阶段中四个关键超参数的敏感性。 下图(原文 Figure 4)展示了 CEMG 对 HR@10 的参数敏感性分析:

该图像是图表,展示了CEMG模型在指标下,对不同参数的敏感性分析。图中分为四个子图:(a)展示了层数(M)的影响;(b)展示了码本大小(K)的影响;(c)展示了量化损失权重()的影响;(d)展示了多样性损失权重()的影响。不同类型(美妆、体育、Yelp)的数据点展示了各参数对推荐效果的影响。
Figure 4: CEMG 对 HR@10 的参数敏感性分析,包括 (a) 码本层数、(b) 码本大小、(c) 量化损失权重和 (d) 多样性损失权重。
分析:
-
码本层数 (M) (Figure 4(a)):
- 性能从 增加到 时有所提升,因为更多的层能够捕捉更细粒度的语义细节。
- 在 时性能趋于平稳,而在 时略有下降,这可能是由于生成更长序列的难度增加。
- 因此,选择 作为最优设置。
-
码本大小 (K) (Figure 4(b)):
- 更大的码本大小 通常带来更好的性能,因为它为词元提供了更大的表达能力。
- 性能增益在 之后趋于饱和,表明这个大小在表达能力和复杂性之间取得了良好平衡。
-
量化损失权重 (Figure 4(c)):
- 性能呈现明显的单峰趋势,在 时达到峰值。
- 过低或过高的值都会破坏重建质量和码本对齐之间的平衡,导致次优的词元化效果。
-
多样性损失权重 (Figure 4(d)):
- 性能随着 增加到
0.01而提高,这证实了鼓励代码多样化使用的益处。 - 过高的值可能会扭曲语义空间,从而损害性能。
- 性能随着 增加到
6.2.4. 冷启动项目性能 (RQ5)
冷启动项目 (cold-start items) 是推荐系统面临的一个严峻挑战,因为它们缺乏足够的交互数据,使得协作过滤难以有效工作。研究人员通过评估模型在训练集中交互次数少于或等于五次的项目上的性能来研究这一问题。 以下是原文 Table 3 的结果,展示了冷启动项目上的性能比较:
| Model | Beauty HR@10 | NDCG@10 | Sports HR@10 | NDCG@10 | Yelp HR@10 | NDCG@10 |
| SASRec | 0.0112 | 0.0048 | 0.0065 | 0.0027 | 0.0098 | 0.0041 |
| MISSRec | 0.0254 | 0.0115 | 0.0141 | 0.0068 | 0.0185 | 0.0092 |
| MMGRec | 0.0268 | 0.0123 | 0.0153 | 0.0075 | 0.0192 | 0.0099 |
| CEMG | 0.0305 | 0.0153 | 0.0183 | 0.0094 | 0.0231 | 0.0125 |
分析: Table 3 的结果显示,CEMG 在冷启动项目上显著优于所有基线模型。
- 内容感知模型的优势: 相较于纯粹基于 ID 的 SASRec,内容感知模型(如 MISSRec 和 MMGRec)在冷启动场景下自然表现更好,因为它们可以利用项目的多模态内容信息进行推荐,即使交互数据稀疏。
- CEMG 的卓越泛化能力: CEMG 进一步超越了这些内容感知基线。这表明,通过从协作引导的多模态内容融合中学习生成丰富的项目表示,CEMG 即使在交互信号稀疏的情况下也能保持高效。其深度统一的词元化过程能够从有限的交互中提取更多语义信息,并通过 LLM 的强大泛化能力进行有效推荐。这对于解决实际推荐系统中的冷启动问题具有重要意义。
7. 总结与思考
7.1. 结论总结
本文提出了 CEMG(Collaborative-Enhanced Multimodal Generative Recommendation),一个新颖的生成式推荐框架。CEMG 的核心创新在于其多模态融合层 (Multimodal Fusion Layer),该层能够协同整合多模态内容(视觉和文本)与高阶协作信号,从而创建一个统一且更具信息量的项目表示。这种表示随后被统一模态标记化 (Unified Modality Tokenization) 模块转换为离散的语义代码。最后,端到端生成式推荐 (End-to-End Generative Recommendation) 组件利用微调过的大型语言模型 (LLM) 自回归地生成这些项目代码,以产生最终推荐。通过在三个基准数据集上进行广泛实验,CEMG 显著优于所有最先进的基线模型,特别是在处理冷启动项目方面展现出强大的泛化能力。
7.2. 局限性与未来工作
论文作者指出了 CEMG 的一个主要局限性:
-
多模态内容中的噪声信号: 多模态内容中可能包含噪声信号,例如图像中不相关的背景信息。这些噪声可能会在无意中被编码进项目表示,从而潜在地损害词元化质量和最终推荐的准确性。
针对这一局限性,作者提出了未来的研究方向:
-
探索先进的解码策略: 计划探索更先进的解码策略,以进一步减轻推荐错误,提高生成推荐的鲁棒性和精确性。这可能包括更智能的束搜索、多样性增强或与外部知识结合的解码方法。
7.3. 个人启发与批判
7.3.1. 个人启发
这篇论文提供了一些重要的启发:
- 协作引导的多模态融合的强大潜力: 将协作信号作为注意力机制的“查询”来动态指导多模态特征的融合,是一个非常直观且强大的思想。它使得模型能够根据项目在社交网络中的上下文角色,动态调整对视觉和文本信息的关注度,从而生成更具情境感知的项目表示。这种深度融合方式是解决传统多模态推荐中“解耦融合”问题的有效途径。
- 离散语义词元与 LLM 的结合: 使用 RQ-VAE 将连续的多模态融合表示转换为离散的语义词元序列,巧妙地解决了将丰富但连续的特征与擅长处理离散词元的 LLM 连接起来的问题。这种方法为 LLM 在推荐系统中的应用提供了一个结构化且高效的接口,使得 LLM 能够利用其强大的序列建模和生成能力。
- 实践导向的效率与有效性平衡: 在保持高性能的同时,通过生成固定短长度的词元序列并结合受限解码策略,极大地提升了推理效率,使得模型更具实际部署价值。在 LLM 驱动的推荐系统中,效率往往是一个关键瓶颈,本文在这方面做出了有效探索。
- 冷启动问题的有效缓解: CEMG 在冷启动项目上的显著表现表明,深度融合多模态内容和协作信号(即使是稀疏的协作信号)可以为新项目构建更鲁棒的语义表示,从而有效缓解传统推荐系统中的冷启动难题。
7.3.2. 批判与潜在改进
- “协作引导”机制的理论深挖: 尽管协作引导的多模态融合机制在实验中表现出色,但其背后的理论解释可以进一步深入。例如,协作信号作为“查询”的内在机制是否能被更形式化地解释?它在不同数据稀疏度或模态冲突情况下如何动态调整,其泛化能力边界在哪里?未来可以探索不同的引导机制,如协同注意力的多头版本,或者利用更复杂的交互建模来生成查询。
- 噪声信号的缓解策略: 论文提到了多模态内容中的噪声可能影响词元化质量。未来的工作可以主动引入噪声鲁棒性机制,例如:
- 模态去噪模块: 在编码器阶段引入专门的去噪模块,如通过对比学习或自监督任务学习去噪特征。
- 注意力机制的改进: 改进融合层的注意力机制,使其更具选择性,能够识别并忽略不相关的模态区域(例如图像背景)。
- 外部知识增强: 结合外部知识图谱或语义标签来校准模态特征,减少噪声干扰。
- 编码器选择的现代化: 当前的视觉编码器 VGG 和文本编码器 BERT 虽然经典且有效,但在快速发展的深度学习领域,已有更先进的基础模型 (foundation models),如 CLIP(多模态)或更大的视觉 Transformer、文本 Transformer 模型。未来可以探索将这些更强大的预训练模型作为特征提取器,以进一步提升初始特征的质量和表示能力。
- 长序列生成与个性化: 尽管固定短长度词元序列有助于提高效率,但对于某些需要更复杂或更精细语义表示的项目,这可能构成限制。未来的研究可以探索动态长度的词元序列生成,或设计分层词元化策略,以在效率和表达力之间找到更优平衡。
- 用户建模的进一步增强: 当前模型主要聚焦于项目表示的优化。虽然 LLM 在处理用户历史序列时展现出强大能力,但用户本身的动态偏好、长短期兴趣以及跨领域兴趣的建模可以进一步增强,例如引入用户级元学习或更精细的用户画像表示。
相似论文推荐
基于向量语义检索推荐的相关论文。