论文状态：已完成

Multimodal Generative Recommendation for Fusing Semantic and Collaborative Signals

发表：2025/10/08

价格：0.100000

已有 1 人读过

本分析由 AI 生成，可能不完全准确，请以原文为准。

TL;DR 精炼摘要

本文提出了一种新的生成式推荐系统MSCGRec，旨在克服现有序列推荐系统的局限性。通过融合多种语义模态和协同特征，利用DINO框架的自监督量化学习，MSCGRec实现了更优的推荐性能。实证研究表明，该方法在三大真实数据集上表现优于传统基线，验证了各组件的有效性。

摘要

Sequential recommender systems rank relevant items by modeling a user's interaction history and computing the inner product between the resulting user representation and stored item embeddings. To avoid the significant memory overhead of storing large item sets, the generative recommendation paradigm instead models each item as a series of discrete semantic codes. Here, the next item is predicted by an autoregressive model that generates the code sequence corresponding to the predicted item. However, despite promising ranking capabilities on small datasets, these methods have yet to surpass traditional sequential recommenders on large item sets, limiting their adoption in the very scenarios they were designed to address. We identify two key limitations underlying the performance deficit of current generative recommendation approaches: 1) Existing methods mostly focus on the text modality for capturing semantics, while real-world data contains richer information spread across multiple modalities, and 2) the fixation on semantic codes neglects the synergy of collaborative and semantic signals. To address these challenges, we propose MSCGRec, a Multimodal Semantic and Collaborative Generative Recommender. MSCGRec incorporates multiple semantic modalities and introduces a novel self-supervised quantization learning approach for images based on the DINO framework. To fuse collaborative and semantic signals, MSCGRec also extracts collaborative features from sequential recommenders and treats them as a separate modality. Finally, we propose constrained sequence learning that restricts the large output space during training to the set of permissible tokens. We empirically demonstrate on three large real-world datasets that MSCGRec outperforms both sequential and generative recommendation baselines, and provide an extensive ablation study to validate the impact of each component.

思维导图

论文精读

中文精读约 31 分钟读完 · 19,959 字

1. 论文基本信息

1.1. 标题

多模态语义与协同生成式推荐用于融合语义和协同信号 (Multimodal Generative Recommendation for Fusing Semantic and Collaborative Signals)

1.2. 作者

匿名作者 (Anonymous authors) 由于论文处于双盲评审阶段 (Paper under double-blind review)，作者信息和隶属机构暂未公开。

1.3. 发表期刊/会议

论文处于评审阶段，尚未明确发表在特定期刊或会议上。考虑到其主题和深度，很可能瞄准机器学习或推荐系统领域的顶级会议，如 NeurIPS, ICML, KDD, SIGIR 等。

1.4. 发表年份

2025年10月08日 (UTC)

1.5. 摘要

序列推荐系统 (Sequential recommender systems) 通过建模用户的交互历史并计算用户表示与存储的物品嵌入 (item embeddings) 之间的内积来推荐相关物品。为了避免存储大量物品集带来的巨大内存开销，生成式推荐 (generative recommendation) 范式转而将每个物品建模为一系列离散的语义编码 (discrete semantic codes)。在这种范式下，下一个物品通过自回归模型 (autoregressive model) 生成预测物品对应的编码序列来预测。然而，尽管这些方法在小数据集上展现出有前景的排序能力，但它们在大物品集上尚未超越传统的序列推荐器，这限制了其在最初设计旨在解决的场景中的应用。本文识别了当前生成式推荐方法性能不足的两个关键限制：1) 现有方法主要关注文本模态 (text modality) 来捕捉语义，而真实世界数据包含分布在多个模态中的更丰富信息；2) 对语义编码的固执使得其忽略了协同 (collaborative) 和语义信号 (semantic signals) 的协同作用。为了应对这些挑战，本文提出了 MSCGRec，一个多模态语义和协同生成式推荐器 (Multimodal Semantic and Collaborative Generative Recommender)。MSCGRec 融合了多种语义模态，并引入了一种基于 DINO 框架的新型图像自监督量化学习 (self-supervised quantization learning) 方法。为了融合协同和语义信号，MSCGRec 还从序列推荐器中提取协同特征 (collaborative features) 并将其视为一个独立的模态。最后，本文提出了约束序列学习 (constrained sequence learning)，在训练期间将巨大的输出空间限制为允许的词元 (permissible tokens) 集合。通过在三个大型真实世界数据集上的实证研究，本文证明了 MSCGRec 优于序列和生成式推荐基线，并提供了广泛的消融研究 (ablation study) 以验证每个组件的影响。

1.6. 原文链接

https://openreview.net/pdf?id=SdzEu8Cf2t 发布状态：预印本 (Preprint)，正在进行双盲评审。

2. 整体概括

2.1. 研究背景与动机

推荐系统 (recommender systems) 在帮助用户浏览海量内容并提供个性化建议方面发挥着重要作用。在各类推荐系统中，序列推荐系统 (sequential recommender systems) 因其能够显式建模用户-物品交互的时间顺序、捕捉用户兴趣演变而备受关注。传统的序列推荐器通常为每个物品学习一个嵌入 (embedding)，并通过这些嵌入的内积来预测下一个物品。然而，这种基于物品 ID 和嵌入的方法面临两个主要挑战：

内存开销巨大： 当物品集非常大时，存储所有物品的嵌入需要大量的内存和计算资源。
语义信息缺失： 它们通常仅依赖于协同信息 (collaborative information)（即物品之间的共现模式），而忽略了物品丰富的语义属性 (semantic attributes)。

为了解决这些问题，生成式推荐 (generative recommendation) 范式应运而生。它将每个物品表示为一系列离散的语义编码 (discrete semantic codes)，并通过自回归模型生成这些编码序列来预测下一个物品。这种方法在理论上具有优势，例如通过共享语义编码在相似物品之间实现信息共享，并显著减少存储物品所需的内存。然而，现有生成式推荐方法在大型数据集上表现不佳，未能超越传统的序列推荐器，这限制了其在实际场景中的应用。

本文识别了当前生成式推荐方法性能不足的两个关键限制：

模态单一性： 大多数现有方法主要依赖文本模态 (text modality) 来捕捉语义。然而，真实世界的物品数据通常包含图像、视频、音频等多种模态的丰富信息，这些信息尚未被充分利用。
协同信号的忽视： 现有方法过度关注语义编码，而忽略了协同信号和语义信号之间强大的协同作用。协同信号能够捕捉物品之间的共现模式和用户偏好，这对于推荐的准确性至关重要。

MSCGRec 正是为了解决这些挑战而提出的。它旨在开发一种多模态生成式推荐方法，能够有效地利用不同模态的丰富信息，并巧妙地融合协同和语义信号，从而在大型数据集上超越传统推荐器。

2.2. 核心贡献/主要发现

本文的主要贡献体现在以下几个方面：

提出多模态语义与协同生成式推荐器 (MSCGRec)：
- MSCGRec 能够无缝整合序列推荐器学习到的协同特征，将其作为一个独立的模态融入生成式推荐框架。这使得模型既能保留生成式推荐的优势，又能利用协同信息提升性能。
- 通过这种方式，MSCGRec 在不引入额外损失函数的情况下，将协同信号与语义特征融合。
改进语义编码质量：
- 图像自监督量化学习： 提出了一种新颖的基于 DINO 框架的图像自监督量化学习方法。这种方法直接在 DINO 框架内对图像进行量化，从而生成语义质量更高的离散编码，并且无需依赖图像-文本对或重建损失。
- 约束训练： 引入了约束序列学习 (constrained sequence learning)，在训练过程中将输出空间限制在允许的词元 (permissible tokens) 集合内。这有助于模型将注意力集中在区分有意义的下一个物品编码上，避免了对无效编码序列的记忆，从而提高了训练效率和模型性能。
大规模数据集上的实证验证：
- 首次在比以往工作大一个数量级的大型真实世界数据集上（Amazon 2023 评论数据集的“美容与个人护理”和“体育与户外”子集，以及 PixelRec）进行了彻底的实证评估。
- 实验结果表明，MSCGRec 在所有数据集和指标上均优于现有的序列推荐和生成式推荐基线。这是首次有生成式推荐方法在此规模上超越序列推荐基线。
模型鲁棒性与灵活性：
- 通过广泛的消融研究验证了每个组件（包括位置嵌入、约束训练和各模态的贡献）的有效性。
- MSCGRec 能够处理物品历史中缺失模态的情况，进一步增强了其在真实世界场景中的实用性。
  
  总之，MSCGRec 成功地将多模态信息与协同信号融合到生成式推荐框架中，并通过创新的量化学习和训练策略，克服了现有生成式推荐在大规模数据集上的性能瓶颈，展现了生成式推荐在处理大规模物品集方面的巨大潜力。

3. 预备知识与相关工作

3.1. 基础概念

3.1.1. 推荐系统 (Recommender Systems)

推荐系统是一种信息过滤系统，旨在预测用户对物品的“偏好”或“评分”，并向他们推荐最可能喜欢的物品。它在电子商务、内容平台等领域中扮演着关键角色，帮助用户从海量信息中发现感兴趣的内容。

3.1.2. 序列推荐系统 (Sequential Recommender Systems)

序列推荐系统是推荐系统的一个子领域，它显式地考虑用户交互历史的时间顺序。它不仅关注用户喜欢什么，还关注用户在特定时间点或特定物品序列之后可能会喜欢什么。例如，用户购买了一双鞋子后，系统可能会推荐相应的鞋油或袜子。这种系统通常通过建模用户交互序列来捕捉用户兴趣的动态变化。

3.1.3. 物品嵌入 (Item Embeddings)

在推荐系统中，物品嵌入是指将每个物品（如电影、商品）表示为一个低维的实数向量。这些向量通常通过机器学习模型学习得到，能够捕捉物品的特征和它们之间的关系。相似的物品在嵌入空间中通常距离较近。传统的序列推荐系统通过查找表 (lookup table) 存储所有物品的嵌入，并根据用户表示与物品嵌入的内积 (inner product) 来进行推荐。

3.1.4. 生成式推荐 (Generative Recommendation)

生成式推荐是序列推荐领域的一种新兴范式。与传统推荐系统直接预测物品 ID 或物品嵌入不同，生成式推荐将每个物品编码为一系列离散的语义编码 (discrete semantic codes)。推荐过程则是一个自回归 (autoregressive) 过程，模型生成下一个物品所对应的语义编码序列。这种方法借鉴了大型语言模型 (Large Language Models, LLMs) 的思想，旨在通过生成具有语义信息的编码来减少内存开销、提高模型泛化能力。

3.1.5. 语义编码 (Semantic Codes)

语义编码是指将物品的语义信息（例如，物品的描述文本、图像特征等）通过量化 (quantization) 过程转换为一系列离散的数字或符号。这些编码旨在捕捉物品的关键语义特征，并且通常具有层次结构，使得相似物品的编码序列在一定程度上是共享的。

3.1.6. 自回归模型 (Autoregressive Model)

自回归模型是一种序列模型，其中当前时刻的输出是前面所有时刻输出的函数。在生成式推荐中，这意味着模型预测下一个语义编码时，会依赖于之前已经生成的语义编码以及用户的历史交互序列。这与自然语言处理中的语言模型类似，模型会根据已有的词来预测下一个词。

3.1.7. 模态 (Modality)

模态指的是数据的不同表现形式或来源。例如，文本、图像、音频、视频都属于不同的模态。多模态 (multimodal) 数据融合了两种或更多种模态的信息，以提供对物品或现象更全面的理解。

3.1.8. 自监督学习 (Self-Supervised Learning, SSL)

自监督学习是一种机器学习范式，它通过设计辅助任务 (pretext tasks)，从数据本身自动生成标签，从而避免了对大量人工标注数据的依赖。例如，在图像领域，可以预测图像的旋转角度、被遮挡部分的像素等。通过解决这些辅助任务，模型可以学习到有用的特征表示，这些表示随后可用于下游任务。

3.1.9. DINO (Self-Distillation with No Labels)

DINO 是一种用于视觉 Transformer (Vision Transformer, ViT) 的自监督学习框架。它通过自蒸馏 (self-distillation) 的方式，训练一个“学生模型 (student model)”去匹配一个“教师模型 (teacher model)”的输出。教师模型是学生模型历史迭代的指数移动平均 (Exponential Moving Average, EMA)，因此没有直接的标签监督。DINO 能够学习到强大的、具有良好视觉语义的图像特征表示，而无需使用任何人工标注。

3.1.10. 残差量化 (Residual Quantization, RQ)

残差量化是一种将连续嵌入向量压缩成离散编码序列的技术。它通过迭代地进行量化，在每个阶段捕捉上一个阶段量化后的残差信息。具体来说，给定一个输入向量，RQ 首先找到第一个码本 (codebook) 中最接近的码字 (codeword)，然后计算原始向量与该码字之间的残差。接着，RQ 对这个残差向量应用第二个码本进行量化，并再次计算残差，如此循环 $L$ 次，最终得到一个由 $L$ 个离散码字组成的序列。这种层次结构使得量化过程能够从粗到细地捕捉信息，并且相似的物品会在较早的层级共享码字。

3.2. 前人工作

本论文在相关工作部分对序列推荐、生成式推荐和多模态生成式推荐进行了回顾。

3.2.1. 序列推荐 (Sequential Recommendation)

序列推荐将推荐问题视为一个序列预测问题，目标是预测序列中的下一个物品。

早期方法： 常常基于马尔可夫假设 (Markov Assumption) 来简化问题，如 Factorizing personalized Markov chains (Rendle et al., 2010)。
神经网络模型： 随着深度学习的发展，RNN (如 GRU4Rec, Hidasi et al., 2016a; Li et al., 2017; Liu et al., 2018) 和 CNN (如 Caser, Tang & Wang, 2018) 被用于建模序列。Hierarchical gating network (Ma et al., 2019) 用于选择相关物品和特征。
注意力机制 (Attention Mechanism)： Transformer 模型 (Vaswani et al., 2017) 在 NLP 领域取得成功后，也被引入序列推荐。
- SASRec (Kang & McAuley, 2018) 是该领域的开创性工作，使用了 decoder-only 架构。
- BERT4Rec (Sun et al., 2019) 提出了双向模型。
- FDSA (Zhang et al., 2019) 结合物品属性进行预测。
- Wang et al. (2023) 在预训练阶段整合物品属性。
- S3-Rec (Zhou et al., 2020) 利用自监督学习 (Self-Supervised Learning) 捕捉数据内在相似性。
挑战： 传统序列推荐器在大规模物品集上，由于需要存储每个物品的嵌入，面临内存和计算资源开销大的问题，且通常只关注协同信息。

3.2.2. 生成式推荐 (Generative Recommendation)

生成式推荐是序列推荐的最新范式，灵感来源于生成式语言模型。

核心思想： 将物品表示为离散编码序列，并通过 sequence-to-sequence 模型 (Raffel et al., 2020) 生成下一个物品的编码序列。
编码获取： 编码通常通过对物品文本进行残差量化 (Residual Quantization, RQ) (van den Oord et al., 2017; Lee et al., 2022) 获得，形成层次化表示。
代表性工作：
- TIGER (Rajput et al., 2023) 提出了生成式推荐框架。
- Wang et al. (2024a, LETTER) 通过正则化编码使其与序列推荐嵌入相似，融入协同信息。
- Zhu et al. (2024, CoST) 使用对比损失 (contrastive loss) 捕捉语义和邻域关系。
- Wang et al. (2024b) 使用双流生成架构 (two-stream generation architecture) 建模语义和协同信息。
- Qu et al. (2024); Zheng et al. (2024); Paischer et al. (2025) 探索了 LLM 在该框架中的应用。
- Yang et al. (2025) 将序列推荐思想整合到 sequence-to-sequence 模型中。
- Lepage et al. (2025) 用独立的时序和深度 Transformer 替换编码器-解码器架构。
- Liu et al. (2025, ETEGRec) 避免了两阶段方法，在序列学习过程中优化物品分词器 (item tokenizer)。
挑战： 尽管理论优势明显，但现有生成式推荐方法在大规模数据集上仍难以超越传统序列模型，主要集中在文本模态。

3.2.3. 多模态生成式推荐 (Multimodal Generative Recommendation)

鉴于物品数据模态多样性，多模态生成式推荐开始受到关注。

早期尝试：
- Zhai et al. (2025a, MQL4GRec); Zhu et al. (2025) 借鉴语言模型，将不同模态视为独立语言，通过翻译式任务训练序列模型，鼓励共享词汇。
- 其他方法采用早期融合 (early fusion)，通过多模态基础模型 (Zheng et al., 2025) 或跨模态对比损失 (cross-modal contrastive loss) (Zhai et al., 2025b) 将多模态信息编码为单个编码序列。
- $Li et al. (2025)$ 使用乘积量化 (product quantization) 合并多模态编码。
- $Liu et al. (2024)$ 提出图残差量化器 (graph residual quantizer) 编码多模态和协同信号到共享码本 (codebook)。
本文的差异： 现有工作通常试图学习统一编码，而本文的 MSCGRec 则利用不同模态的独特层次结构，并赋予序列模型提取与预测任务相关结构的能力，且能够处理缺失模态。

3.3. 差异化分析

MSCGRec 与上述前人工作的核心区别和创新点在于：

协同信号融合方式： 传统生成式推荐方法通常通过额外的损失函数或特定的正则化来尝试将协同信号融入语义编码中（如 LETTER, CoST, ETEGRec）。MSCGRec 则采取了一种更自然、更统一的方法：它直接将序列推荐器学习到的物品嵌入视为一个独立的模态，并对其进行残差量化，然后与其他语义模态一起输入到序列模型中。这使得协同信息能够与其他模态在模型内部进行更深层次的交互，而不是仅仅作为一种辅助信息。
多模态处理的广度与深度： 现有的大多数生成式推荐方法主要关注文本模态，即使是多模态方法，也通常通过早期融合或统一编码的方式处理（如 MQL4GRec, Zheng et al., 2025, Li et al., 2025）。MSCGRec 不仅整合了图像和文本模态，还为图像模态引入了新型的自监督量化学习方法 (RQ-DINO)，直接在自监督学习框架内进行量化，以获取更具语义意义的图像编码，且无需依赖图像-文本对或重建损失。
处理大规模物品集的有效性： 尽管生成式推荐旨在解决大规模物品集的问题，但此前的方法在该规模下往往表现不佳。MSCGRec 通过其独特的多模态融合策略、协同信号的整合以及关键的约束序列学习 (constrained sequence learning) 机制，显著提升了模型在大规模数据集上的性能，甚至首次超越了传统序列推荐器基线。约束序列学习通过限制输出空间，帮助模型更有效地关注预测任务，避免了对无用信息的记忆。
缺失模态的鲁棒性： 真实世界数据经常存在模态缺失的问题。MSCGRec 的多模态框架通过保留模态特定编码，能够自然地处理用户历史中缺失模态的情况，增强了其实用性。

综上所述，MSCGRec 不仅仅是简单地叠加多模态信息，而是在模态融合策略、编码质量提升和训练效率优化这三个关键方面进行了创新，使其成为首个在大规模数据集上能够有效运行并超越传统序列推荐器的生成式推荐方法。

4. 方法论

本节将详细阐述 MSCGRec 的方法论，包括其多模态框架、新颖的图像量化方法以及序列建模的改进。

4.1. 方法原理

MSCGRec 的核心思想是构建一个多模态生成式推荐系统，该系统能够：

整合多模态语义信息： 除了传统的文本模态，还利用图像等其他语义模态，并为图像设计了专门的自监督量化学习方案。
融合协同信号： 将从传统序列推荐器中提取的协同特征作为单独的模态进行量化，从而在生成式推荐框架中自然地融合语义和协同信号。
优化序列建模： 引入约束序列学习和改进的位置编码，以提高模型在处理大规模物品集时的效率和准确性。

MSCGRec 不像以往工作那样试图学习一个统一的编码，而是利用不同模态的独特层次结构，并让序列模型从这些结构中提取与预测任务相关的特征。

4.2. 核心方法详解

4.2.1. 多模态生成式推荐框架

在基于量化的生成式推荐 (quantization-based generative recommendation) 中，每个物品 $i$ 由一系列离散编码 $c_i = [c_{i,1}, \ldots, c_{i,L}]$ 唯一描述。目标是根据用户历史 $\mathbf{c}_{<i}$ 预测下一个物品 $i$ 对应的编码序列 $c_i$ 。传统的序列学习损失函数表示为：

$\mathcal{L}_{rec}^{(i)} = -\log p(c_{i}|\mathbf{c}_{1},\ldots \mathbf{c}_{i - 1}) = -\sum_{l = 1}^{L}\log p(c_{i,l}|\mathbf{c}_{1},\ldots \mathbf{c}_{i - 1},c_{i,< l}) \quad (1)$

其中， $L$ 是编码序列的长度， $c_{i,l}$ 表示物品 $i$ 在第 $l$ 层的编码， $c_{i,<l}$ 表示物品 $i$ 在前 l-1 层的编码。这个损失函数鼓励模型在给定历史序列和当前物品部分编码的情况下，准确预测下一个编码。这些编码通常具有层次结构，通过残差量化 (Residual Quantization, RQ) 获得，使得具有相似语义的物品在序列开头共享编码。

MSCGRec 的创新之处在于它将协同信号集成到多模态框架中，而无需额外的损失函数。它将协同信息视为一个独立的模态。因此，每个物品被编码为 $D$ 种模态的编码序列 $\tilde{c}_i = [c_1^{m_1},\dots,c_L^{m_1},\dots,c_L^{m_D}]$ 。在本文中，使用的语义模态包括通过第 3.2 节描述的方法获得的图像编码和通过标准层次量化 (Hierarchical Quantization, HQ) 获得的文本编码。此外，协同特征通过对序列推荐器（如 SASRec）学习到的物品嵌入应用残差量化来获得，并被视为一个单独的模态。

MSCGRec 不学习统一编码，而是利用不同模态的独特层次结构，并赋予序列模型提取与预测任务相关结构的能力。每个模态都捕捉数据的不同特征。为了确保每个物品编码的唯一性，MSCGRec 为每个模态附加了一个单独的碰撞层 (collision level)。

在解码下一个物品时，MSCGRec 通过一个模态进行解码。这使得在推理时能够进行更有效的约束束搜索 (constrained beam search)，集中于单个编码，而不是跨多个层次进行联合搜索。解码损失表示为：

$\mathcal{L}_{r e c}^{(i)} = -\log p(\mathbf{e}_1^{m_d}\big|\tilde{\mathbf{e}}_1,\ldots \tilde{\mathbf{c}}_{i - 1}), \quad (2)$

其中 $\mathbf{e}_1^{m_d}$ 表示目标模态 $d$ 的第一个编码（通常用于指示物品）， $\tilde{\mathbf{c}}$ 表示包含所有模态编码的物品表示。这种单模态解码策略是由于选择将编码序列化堆叠而不是简单地拼接。

此外，MSCGRec 能够处理真实世界数据中常见的模态缺失问题。例如，当某些物品没有文本描述时。通过将训练扩展到通过概率 $p$ 随机掩盖每个物品的一个模态，并用可学习的掩码词元 (mask tokens) 替换对应的编码，模型可以学习处理缺失模态。

下图（原文 Figure 1）提供了 MSCGRec 的整体示意图：

fig 1

图 1: MSCGRec 示意图

(a) 历史序列中的每个物品都由包含所有模态的联合编码表示。
(b) 图像通过自监督量化学习进行编码，其中学生嵌入通过残差量化编码。
(c) 序列学习通过优化允许的编码进行，其中绿色节点表示对应于正确下一个物品的编码。

4.2.2. 图像量化 (Image Quantization)

传统的单模态生成式推荐器主要关注文本模态，通过预训练编码器 (如 Sentence-T5) 提取文本嵌入，然后进行残差量化。MSCGRec 的多模态框架需要量化图像。在图像生成任务中，RQ 已经被探索用于量化原始像素。然而，推荐系统的目标是提取语义上有意义的信息，而不是完整图像信息。因此，MSCGRec 放弃了旨在保留所有信息的重建目标 (reconstruction objective)，转而提出了基于自监督学习 (Self-Supervised Learning, SSL) 的量化方法。

MSCGRec 提出了一种基于 DINO 框架的自监督量化学习方法。DINO 是一种最先进的图像 SSL 方法，它通过自蒸馏 (self-distillation) 进行训练，即训练一个学生模型 $g^s$ 及其投影头 $f^s$ 来匹配教师模型 $f^t(g^t(\mathbf{x}))$ 的输出。教师模型是学生模型历史迭代的指数移动平均 (EMA)。

DINO 的损失函数定义为：

$\mathcal{L}_{DINO} = CE(f^s (\mathbf{z}^s),f^t (\mathbf{z}^t));\quad \mathbf{z}^s = g^s (\mathbf{x})\& \mathbf{z}^t = g^t (\mathbf{x}) \quad (3)$

其中，CE 表示交叉熵 (Cross-Entropy) 损失， $g^s$ 和 $g^t$ 分别是学生和教师的骨干网络 (backbone networks)， $f^s$ 和 $f^t$ 是它们各自的投影头 (projection heads)， $\mathbf{x}$ 是输入图像， $\mathbf{z}^s$ 和 $\mathbf{z}^t$ 是学生和教师骨干网络提取的特征。

MSCGRec 直接将残差量化 (RQ) 整合到 DINO 框架中。关键在于，只有学生模型被量化。 这样做的目的是促使模型学习一个表示，其量化近似能够尽可能多地保留教师模型的表达能力。由于量化是自监督学习框架的一部分，因此不再需要通常用于 RQ 训练的解码器和重建损失，而是由 DINO 损失直接提供学习信号。

整合了 RQ 的 DINO 损失 (RQ-DINO) 定义为：

$\begin{array}{r}{\mathcal{L}_{R Q - D I N O} = C E(f^{s}(\hat{z}_{L}^{s}),f^{t}(\mathbf{z}^{t}));\quad \hat{z}_{L}^{s} = \sum_{l = 1}^{L}e_{c_{l}}^{l},} \end{array} \quad (4)$

其中 $\hat{z}_{L}^{s}$ 是通过残差量化得到的学生模型的最终量化表示。具体来说， $\hat{z}_{L}^{s} = \sum_{l = 1}^{L}e_{c_{l}}^{l}$ 表示将所有 $L$ 个量化层得到的码字嵌入 (codeword embeddings) 相加，其中 $e_{c_{l}}^{l}$ 是在第 $l$ 层与离散编码 $c_l$ 对应的嵌入。这意味着学生模型在量化后的表示上与教师模型进行匹配。

完整的 RQ-DINO 训练还结合了 DINOv2 (Oquab et al., 2024) 框架中的其他损失，包括 iBOT (Zhou et al., 2022) 和 KoLeo (Sablayrolles et al., 2019) 损失，以及一个编码承诺损失 (code commitment loss) (van den Oord et al., 2017)。码本中心 (cluster centers) 通过指数移动平均 (EMA) 进行更新。最终的综合损失函数为：

$\mathcal{L}_{R Q - D I N O} + \alpha_{1}\mathcal{L}_{i B O T} + \alpha_{2}\mathcal{L}_{K o L e o} + \alpha_{3}\mathcal{L}_{c o m m i t} \quad (5)$

其中 $\alpha_1, \alpha_2, \alpha_3$ 是损失权重系数。

4.2.3. 序列建模 (Sequence Modeling)

在生成式推荐中，每个物品都被分配一个唯一的编码序列。随着数据集增大，独特的编码序列数量也会增加。回顾损失函数（公式 2）可以发现，它不仅奖励正确预测下一个编码，也通过惩罚不正确的预测来改进模型。具体来说，对于物品 $i$ 在编码层 $l$ 的损失项为：

$\mathcal{L}_{rec}^{(i,l)} = -\log \mathrm{softmax}(\mathbf{z})_{c} = -z_{c} + \log \sum_{c^{\prime}\in \mathcal{C}}\exp{(z_{c^{\prime}})} \quad (6)$

其中 $\mathbf{z}$ 是位置 (i,l) 处的预测 logits， $c$ 是正确的编码， $\mathcal{C}$ 是所有可能的词元 (tokens) 集合。这个损失函数鼓励模型区分正确的编码和不正确的编码。然而，由于推理时的约束束搜索 (constrained beam search) 会丢弃不允许的编码序列，因此模型记忆这些不允许的序列是不必要的。模型只需正确排序允许的编码即可。这种现象可能导致模型将大量容量用于记忆，特别是在编码冲突增多时，这是一种快捷学习 (shortcut learning) 现象。

为了解决这个问题，MSCGRec 提出了约束序列学习 (constrained sequence learning)。它修改了 softmax 计算，使得归一化因子 (normalization factor) 仅在可能成为下一个编码的集合上计算。形式上，定义一个树 $\mathcal{T}$ ，它表示所有观察到的物品 $\mathcal{X}$ 的编码序列。给定一个编码序列 $\mathbf{c} \leq \mathrm{windows}$ (表示当前序列的前缀)，则序列化建模损失定义为：

$\mathcal{L}_{rec}^{(i,l)} = -z_{c} + \log \sum_{c'\in \operatorname {Ch}(v_{c\leq l};\mathcal{T})}\exp (z_{c'}), \quad (7)$

其中 $\operatorname{Ch}(v_{c\leq l};\mathcal{T})$ 表示在树 $\mathcal{T}$ 中，以当前编码前缀 $c_{\leq l}$ 对应的节点 $v_{c\leq l}$ 为父节点的所有子节点（即允许的下一个编码）。这个公式确保模型只在实际可能出现的下一个编码中进行区分，从而将模型的学习重点从记忆无效编码序列转移到区分有效编码序列上。这个约束在训练过程中不会增加计算开销，因为前缀树可以在训练开始时预先计算。这种方法使得模型能够更有效地利用其容量，并提高了验证损失作为预测性能指标的准确性。

最后，MSCGRec 还改进了常用的 T5 模型 (Raffel et al., 2020) 中使用的相对位置嵌入 (relative position embedding)。T5 的相对位置嵌入使用对数间隔的 bin，这可能不适用于编码的模态和层级结构。MSCGRec 采用了两种不同的相对位置嵌入：

跨物品位置嵌入 (across-item position embedding)： 捕捉不同物品之间的相对位置关系。
物品内位置嵌入 (within-item position embedding)： 捕捉同一物品内部不同模态或不同层级编码之间的相对位置关系。

这两种位置嵌入被求和以得到最终的嵌入。通过确保跨物品和物品内 bin 的数量之和等于原始总数，保持了存储嵌入的数量不变。这种新颖的位置嵌入使得 MSCGRec 能够更全面地理解底层的编码结构，因为它能够显式处理来自不同物品的相同模态或相同层级的信息。

5. 实验设置

5.1. 数据集

实验在三个大型真实世界数据集上进行：

Amazon 2023 评论数据集 (Hou et al., 2024)： 选择了其中两个子集：
- Beauty and Personal Care (美容与个人护理)
- Sports and Outdoors (体育与户外) 这两个子集的物品集规模比常用的 Amazon 2014 和 2018 版本 (McAuley et al., 2015; Ni et al., 2019) 大约一个数量级。
PixelRec (Cheng et al., 2023)： 这是一个专注于图像的推荐数据集，提供抽象且语义丰富的图像。

数据预处理：

遵循现有文献 (Rendle et al., 2010; Zhang et al., 2019)，通过 3-core 过滤 (3-core filtering) 移除交互次数少于 5 次的用户和物品。
对于 Amazon 数据集，移除了空图像或占位符图像的样本。
通过将所有具有相同图像的物品映射到共享 ID 来进行去重 (deduplicate)。
训练集、验证集和测试集划分： 采用时间顺序的留一法 (chronological leave-one-out splitting)。
- 对于 Amazon 数据集，每个训练序列中的每个物品都被用作单独的目标 (target)。
- 对于 PixelRec，只有最后一个物品被用作目标。
最大物品序列长度： 设置为 20。

数据集统计信息 (预处理后)：

以下是原文 Table 1 的结果：

Dataset	# Users		# Items		# Interactions	Avg. Item per User	Max. Seq. Len.	Modalities
Dataset	Train	Test	Train	Test	# Interactions	Avg. Item per User	Max. Seq. Len.	Modalities
Beauty	251,466	62,867	38,452	9,613	4,842,504	19.26	20	Text, Img
Sports	305,537	76,384	47,651	11,913	5,992,305	19.61	20	Text, Img
PixelRec	10,214	2,554	25,483	6,371	345,616	33.84	20	Text, Img

5.2. 评估指标

为了评估推荐性能，本文使用了以下三个标准的 Top-K 评估指标，其中 $K \in \{1, 5, 10\}$ 。

5.2.1. 召回率 (Recall@K)

召回率衡量的是在推荐列表 Top-K 中，实际相关物品被成功推荐出来的比例。它关注的是模型能否尽可能多地“召回”用户感兴趣的物品。

概念定义： 召回率是在给定 $K$ 个推荐物品的情况下，用户实际交互的物品中有多少比例出现在推荐列表中。高召回率意味着模型能够有效地找到用户可能感兴趣的大部分物品。

数学公式： $\text{Recall@K} = \frac{\text{Number of relevant items in top-K recommendations}}{\text{Total number of relevant items}}$

符号解释：

$\text{Number of relevant items in top-K recommendations}$ ：在模型推荐的 Top-K 物品中，有多少是用户实际喜欢的。
$\text{Total number of relevant items}$ ：用户实际喜欢的物品总数（通常是测试集中用户交互的下一个物品）。

5.2.2. 归一化折损累计增益 (Normalized Discounted Cumulative Gain, NDCG@K)

NDCG 是一种考虑推荐物品排序位置的指标，排名靠前的相关物品贡献的增益更高。它不仅关注相关性，还关注相关物品在列表中的位置。

概念定义： NDCG 衡量推荐列表的质量，考虑了相关物品的位置。排名越靠前的相关物品，其贡献的价值越大。如果推荐列表中的相关物品都排在最前面，NDCG 值会更高。

数学公式： $\text{DCG@K} = \sum_{i=1}^{K} \frac{2^{\text{rel}_i} - 1}{\log_2(i+1)}$ $\text{IDCG@K} = \sum_{i=1}^{|\text{REL}|} \frac{2^{\text{rel}_i'} - 1}{\log_2(i+1)}$ $\text{NDCG@K} = \frac{\text{DCG@K}}{\text{IDCG@K}}$

符号解释：

$K$ ：推荐列表的长度。
$\text{rel}_i$ ：在推荐列表中第 $i$ 个位置上的物品的相关性评分（通常为 1 表示相关，0 表示不相关）。
$\text{rel}_i'$ ：理想情况下，将所有相关物品按相关性降序排列后，第 $i$ 个位置上的物品的相关性评分。
$|\text{REL}|$ ：用户实际喜欢的物品总数（通常是测试集中用户交互的下一个物品）。
$\text{DCG@K}$ (Discounted Cumulative Gain)：折损累计增益。
$\text{IDCG@K}$ (Ideal Discounted Cumulative Gain)：理想折损累计增益，即完美推荐列表的 DCG。

5.2.3. 平均倒数排名 (Mean Reciprocal Rank, MRR@K)

MRR 主要关注第一个相关物品的排名。如果第一个相关物品的排名很高，MRR 值就会很高。

概念定义： MRR 衡量的是第一个正确推荐物品的排名倒数。它特别适用于那些用户只需要找到一个正确答案（例如搜索结果、Q&A 系统）的场景。

数学公式： $\text{MRR@K} = \frac{1}{Q} \sum_{q=1}^{Q} \frac{1}{\text{rank}_q}$

符号解释：

$Q$ ：查询 (queries) 或用户 (users) 的总数。
$\text{rank}_q$ ：对于第 $q$ 个查询，第一个相关物品在推荐列表中的排名。如果 Top-K 列表中没有相关物品，则 $\text{rank}_q$ 通常被设置为无穷大，其倒数为 0。

5.3. 对比基线

论文将 MSCGRec 与两种类型的基线模型进行了比较：传统的基于 ID 的序列推荐方法和生成式推荐方法。

5.3.1. 序列推荐基线 (Sequential Recommendation Baselines)

这些模型使用了开源推荐框架 RecBole (Xu et al., 2023) 实现。

GRU4Rec (Hidasi et al., 2016a)： 基于 RNN 的序列推荐模型，使用定制的门控循环单元 (GRU) 捕捉用户行为序列。
BERT4Rec (Sun et al., 2019)： 采用双向自注意力机制和掩码预测目标来建模用户偏好序列。
Caser (Tang & Wang, 2018)： 利用具有水平和垂直滤波器的卷积神经网络 (CNN) 捕捉用户行为中的高阶序列模式。
SASRec (Kang & McAuley, 2018)： 应用 decoder-only 自注意力机制建模用户交互序列中的物品相关性。
FDSA (Zhang et al., 2019)： 引入特征级深度自注意力网络，建模序列推荐中的物品和特征转换模式。

5.3.2. 生成式推荐基线 (Generative Recommendation Baselines)

这些方法与 MSCGRec 共享生成式推荐框架。

TIGER (Rajput et al., 2023)： 通过对单模态嵌入进行残差量化获得语义编码。论文评估了图像模态 ( $TIGER_i$ ) 和文本模态 ( $TIGER_t$ ) 的版本。
LETTER (Wang et al., 2024a)： 通过将量化编码嵌入与序列推荐器的物品嵌入对齐来融入协同信号。论文中使用的版本是 LETTER-TIGER。
CoST (Zhu et al., 2024)： 提出对比损失，鼓励量化前后语义嵌入的对齐。
ETEGRec (Liu et al., 2025)： 偏离了标准的两阶段训练，通过循环优化序列编码器和物品分词器，并使用对齐损失确保序列和协同物品嵌入对齐。
MQL4GRec (Zhai et al., 2025a)： 一种近期的多模态生成式推荐器，使用模态对齐损失 (modality-alignment losses) 将不同模态“翻译”成统一的语言。

5.4. 实现细节

文本嵌入提取：
- 对于 Amazon 数据集，遵循 Zhai et al. (2025a)，使用 LLAMA (Touvron et al., 2023) 提取文本嵌入。
- 对于 PixelRec，使用作者提供的文本嵌入。
协同模态： 使用 SASRec (Kang & McAuley, 2018) 的物品嵌入作为协同模态。
图像编码器初始化与训练：
- 图像编码器从 DINO 预训练的 ViT-S/14 (Vision Transformer Small/14) 模型初始化。
- 训练时保留默认超参数，但将小裁剪 (small crops) 数量减少到 4 (Oquab et al., 2024)。
- 训练 30 个 epoch。
- 保留 DINOv2 的损失权重，并设置 $\alpha_3 = 0.01$ (承诺损失权重)，以避免过度干扰表示学习能力。
残差量化 (RQ)：
- 为每种模态单独训练一个残差量化器 (Zeghidour et al., 2021)，每个量化器包含 3 个层，每层有 256 个条目。
- MSCGRec 直接在嵌入空间进行量化，没有额外的编码器-解码器层，因为观察到预训练模型的固有表达能力已经足够。
- 遵循 Rajput et al. (2023)，为每个模态添加一个额外的编码层来处理冲突 (collision)，将冲突的编码分离为唯一的编码序列。
- 实验也尝试了 Zhai et al. (2025a) 提出的将冲突重新分配到空叶节点的方法，但未观察到性能提升，这归因于约束训练限制了附加层的解空间。
处理缺失模态： 训练时，以 75% 的概率随机掩盖用户历史中每个物品的一个模态，并用可学习的掩码词元替换。
序列建模：
- 遵循 Rajput et al. (2023)，使用 T5 (Raffel et al., 2020) 编码器-解码器模型进行序列建模。
- 训练 25 个 epoch，采用早停 (early stopping)。
- 使用 8 个自注意力头，维度为 64。
- MLP 大小为 2048。
- 学习率为 0.002。
- 批次大小为 2048。
- 根据验证性能，使用协同模态的编码作为目标编码，并解绑 (unbind) 输出嵌入表，使其与单模态输入编码分离。
推理 (Inference)： 使用约束束搜索 (constrained beam search)，束宽度 (beam width) 为 20。
硬件与软件： 模型在四块 A100 GPU 上使用 PyTorch 2 (Ansel et al., 2024) 训练。

6. 实验结果与分析

6.1. 核心结果分析

本节对比了 MSCGRec 与序列推荐和生成式推荐基线模型的性能。实验结果展示在 Table 2 中，涵盖了 Beauty、Sports 和 PixelRec 三个数据集，并使用了 Recall@K、NDCG@K 和 MRR@K 等指标进行评估。

以下是原文 Table 2 的结果：

Dataset	Metrics	Sequential Recommendation					Generative Recommendation							Δ_GR	Δ_R
Dataset	Metrics	GRU4Rec	BERT4Rec	Caser	SASRec	FDSA	TIGER_t	TIGER_i	LETTER	CoST	ETEGRec	MQL4GRec	MSCGRec	Δ_GR	Δ_R
Beauty	Recall@1	0.0046	0.0042	0.0029	0.0035	0.0050	0.0030	0.0045	0.0053	0.0043	0.0054	0.0048	0.0060	+11.1%	+11.1%
	Recall@5	0.0155	0.0146	0.0105	0.0204	0.0169	0.0096	0.0148	0.0168	0.0147	0.0182	0.0148	0.0204	+12.1%	+0.3%
	Recall@10	0.0247	0.0233	0.0174	0.0317	0.0270	0.0147	0.0226	0.0253	0.0231	0.0284	0.0237	0.0316	+10.9%	-
Beauty	NDCG@1	0.0046	0.0042	0.0029	0.0035	0.0050	0.0030	0.0045	0.0053	0.0043	0.0054	0.0048	0.0060	+11.1%	+11.1%
	NDCG@5	0.0100	0.0094	0.0067	0.0122	0.0100	0.0063	0.0096	0.0111	0.0095	0.0118	0.0098	0.0132	+11.9%	+8.2%
	NDCG@10	0.0127	0.0127	0.0121	0.0164	0.0130	0.0110	0.0089	0.0117	0.0122	0.0136	0.0156	0.0175	+11.6%	+6.7%
Beauty	MRR@10	0.0071	0.0070	0.0050	0.0080	0.0072	0.0050	0.0070	0.0078	0.0070	0.0082	0.0070	0.0089	+8.5%	+8.5%

	... (表格内容根据原文进行了截断，以展示其结构) ...
Sports	Recall@1	0.0040	0.0040	0.0039	0.0051	0.0049	0.0040	0.0038	0.0041	0.0040	0.0042	0.0041	0.0052	+23.8%	+2.0%
	Recall@5	0.0142	0.0142	0.0130	0.0191	0.0160	0.0118	0.0130	0.0139	0.0130	0.0142	0.0130	0.0195	+38.0%	+2.1%
	Recall@10	0.0229	0.0229	0.0208	0.0298	0.0253	0.0178	0.0208	0.0222	0.0208	0.0229	0.0208	0.0305	+34.6%	+2.4%
Sports	NDCG@1	0.0040	0.0040	0.0039	0.0051	0.0049	0.0040	0.0038	0.0041	0.0040	0.0042	0.0041	0.0052	+23.8%	+2.0%
	NDCG@5	0.0095	0.0095	0.0086	0.0125	0.0108	0.0079	0.0089	0.0096	0.0089	0.0098	0.0089	0.0128	+30.6%	+2.4%
	NDCG@10	0.0122	0.0122	0.0110	0.0159	0.0137	0.0104	0.0115	0.0123	0.0115	0.0125	0.0115	0.0162	+31.2%	+1.9%
Sports	MRR@10	0.0067	0.0067	0.0060	0.0085	0.0075	0.0055	0.0064	0.0068	0.0064	0.0069	0.0064	0.0087	+26.6%	+2.4%

	... (表格内容根据原文进行了截断，以展示其结构) ...
PixelRec	Recall@1	0.0030	0.0032	0.0026	0.0029	0.0027	0.0013	0.0009	0.0019	0.0009	0.0009	0.0018	0.0035	+94.4%	+9.4%
	Recall@5	0.0099	0.0102	0.0084	0.0093	0.0087	0.0030	0.0020	0.0050	0.0020	0.0020	0.0048	0.0108	+125.0%	+5.9%
	Recall@10	0.0159	0.0163	0.0135	0.0148	0.0140	0.0048	0.0032	0.0080	0.0032	0.0032	0.0078	0.0173	+121.8%	+6.1%
PixelRec	NDCG@1	0.0030	0.0032	0.0026	0.0029	0.0027	0.0013	0.0009	0.0019	0.0009	0.0009	0.0018	0.0035	+94.4%	+9.4%
	NDCG@5	0.0068	0.0070	0.0058	0.0071	0.0066	0.0024	0.0016	0.0038	0.0016	0.0016	0.0037	0.0077	+108.1%	+8.5%
	NDCG@10	0.0088	0.0090	0.0075	0.0092	0.0086	0.0035	0.0024	0.0055	0.0024	0.0024	0.0054	0.0099	+115.6%	+7.6%
PixelRec	MRR@10	0.0048	0.0050	0.0041	0.0044	0.0042	0.0017	0.0011	0.0027	0.0011	0.0011	0.0025	0.0054	+116.0%	+8.0%

关键观察和分析：

MSCGRec 的显著优势： MSCGRec 在所有数据集 (Beauty, Sports, PixelRec) 和所有评估指标 (Recall@K, NDCG@K, MRR@K) 上均取得了最佳性能，且常常大幅度领先。这有力地证明了其在大型真实世界数据集上的优越性。
- 例如，在 Beauty 数据集的 Recall@1 指标上，MSCGRec 达到 0.0060，相较于表现最好的生成式推荐基线 (ETEGRec 的 0.0054) 提升了 11.1%，相较于表现最好的所有推荐基线 (ETEGRec 0.0054) 同样提升 11.1%。
- 在 PixelRec 数据集上，MSCGRec 的提升更为显著，在 Recall@1 上相较于最佳生成式基线 (MQL4GRec 的 0.0018) 提升了 94.4%，相较于最佳序列推荐基线 (BERT4Rec 的 0.0032) 提升了 9.4%。这表明 MSCGRec 在图像为核心的推荐场景中尤其有效。
生成式推荐基线表现不一：
- 在生成式推荐基线中，LETTER、ETEGRec 和 MQL4GRec 通常表现优于纯文本 ( $TIGER_t$ ) 或纯图像 ( $TIGER_i$ ) 的 TIGER 模型，这表明整合协同信息或多模态信息对于生成式推荐是有效的。
- 然而，这些模型仍然难以持续超越传统序列推荐器，尤其是在 Top-1 召回等指标上。 $TIGER_i$ 在某些情况下表现甚至非常差（例如 PixelRec）。
序列推荐基线表现：
- 基于注意力的 SASRec 通常在序列推荐模型中表现最好，但 BERT4Rec 在 PixelRec 上表现突出，这可能与数据集规模或物品特性有关。
- Caser（基于 CNN）通常表现较弱，可能难以适应这些数据集的复杂性。
- SASRec 在 Recall@1 上的性能相对较弱，这可能与其校准问题有关 (Petrov & Macdonald, 2023)，表明其可能倾向于更宽泛的推荐，而不是精准地命中第一个物品。
首次超越序列推荐基线： 论文强调，MSCGRec 是首次在如此大规模数据集上超越序列推荐基线（如 SASRec、BERT4Rec）的生成式推荐方法。这标志着生成式推荐范式在实际应用方面迈出了重要一步，证明了其在大规模场景下的可行性和优越性。

总体而言，MSCGRec 的卓越表现验证了其多模态融合策略、协同信号整合、以及创新的图像量化和序列建模方法组合的有效性。它成功弥补了现有生成式推荐方法在大规模数据集上的性能鸿沟。

6.2. 消融实验/参数分析

消融研究旨在验证 MSCGRec 各个组件和模态的贡献。

以下是原文 Table 3 的结果：

Dataset	Metrics	(a) Component Ablation				(b) Modality Ablation			(c) Image-Only
Dataset	Metrics	MSCGRec	w/o Pos. Emb.	w/o Const. Train.	w/Masking	w/o Img	w/o Text	w/o Coll.	RQ-DINO	DINO
Beauty	Recall@10	0.0315	0.0311	0.0291	0.0312	0.0308	0.0299	0.0275	0.0173	0.0158
Beauty	NDCG@10	0.0168	0.0166	0.0154	0.0166	0.0163	0.0159	0.0146	0.0094	0.0086

6.2.1. (a) 组件消融 (Component Ablation)

此部分评估了 MSCGRec 内部关键组件的影响。

完整 MSCGRec (MSCGRec)： 作为基准，展示了所有组件都包含时的性能。
无位置嵌入 (w/o Pos. Emb.)： 移除了改进后的位置嵌入。
- 结果：Recall@10 从 0.0315 略降至 0.0311，NDCG@10 从 0.0168 降至 0.0166。
- 分析：改进的位置嵌入对性能有积极但有限的贡献。这表明它确实有助于模型理解代码结构，但其影响不如其他组件显著。
无约束训练 (w/o Const. Train.)： 移除了约束序列学习。
- 结果：Recall@10 显著降至 0.0291，NDCG@10 降至 0.0154。
- 分析：这是所有组件中影响最大的一个。约束训练通过将模型焦点限制在允许的编码上，显著提高了模型的预测能力。它避免了模型将容量浪费在记忆无效编码序列上，使模型能够更好地建模用户历史。
带掩码 (w/Masking)： 启用了处理缺失模态的掩码训练。
- 结果：Recall@10 为 0.0312，NDCG@10 为 0.0166。与完整模型相比，性能略有下降（Recall@10 0.0315 -> 0.0312），但幅度很小。
- 分析：这表明 MSCGRec 可以有效地处理缺失模态，且对整体性能影响不大。这对于真实世界场景中的鲁棒性至关重要。

6.2.2. (b) 模态消融 (Modality Ablation)

此部分评估了不同模态对 MSCGRec 性能的贡献。注意，这些消融实验是在模型能够处理缺失模态 (w/Masking) 的配置下进行的。

无图像模态 (w/o Img)： 移除了图像模态。
- 结果：Recall@10 降至 0.0308，NDCG@10 降至 0.0163。
- 分析：图像模态的移除导致性能轻微下降，表明图像信息对推荐结果有正向贡献。
无文本模态 (w/o Text)： 移除了文本模态。
- 结果：Recall@10 降至 0.0299，NDCG@10 降至 0.0159。
- 分析：文本模态的移除导致性能下降，但下降幅度与图像模态类似。这表明 MSCGRec 能够利用语义模态的共享信息，即使缺少其中一个，也能保持相对稳健的推荐性能。
无协同模态 (w/o Coll.)： 移除了协同模态。
- 结果：Recall@10 显著降至 0.0275，NDCG@10 降至 0.0146。
- 分析：协同信息的移除导致了最显著的性能下降。这表明 MSCGRec 中协同信息是性能最强劲的贡献者。尽管如此，即使没有协同特征，MSCGRec 的性能仍然优于除 ETEGRec 之外的所有其他生成式推荐基线（ETEGRec 强依赖于协同嵌入）。这突出了 MSCGRec 多模态框架的灵活性和韧性。

6.2.3. (c) 仅图像分析 (Image-Only Analysis)

此部分比较了 MSCGRec 中提出的图像量化方法 RQ-DINO 与传统 DINO 模型后处理 RQ 的效果。

RQ-DINO： MSCGRec 中提出的自监督量化学习方法。
- 结果：Recall@10 为 0.0173，NDCG@10 为 0.0094。
DINO： 使用预训练的 DINO 模型，然后进行后处理的残差量化。
- 结果：Recall@10 降至 0.0158，NDCG@10 降至 0.0086。
- 分析：RQ-DINO 的性能优于单独 DINO 后接 RQ。这表明将 RQ 直接集成到 DINO 编码器的训练中（即在自监督学习框架内进行量化）是更有效的。它促使模型学习一种表示，其量化近似能更好地保留语义信息，同时忽略与推荐任务无关的“高频”图像细节，而重建导向的方法可能会保留这些细节。

总结： 消融研究清晰地验证了 MSCGRec 各个组件的有效性：

约束训练是性能提升的关键因素，它优化了模型的学习目标。
协同模态是整体性能最强的贡献者，这强调了融合协同信号的重要性。
图像和文本模态也贡献了性能提升，并且 MSCGRec 在缺少任何一个语义模态时仍能保持鲁棒性，体现了其多模态框架的灵活性。
RQ-DINO 证实了其在图像量化方面的优越性，通过自监督整合提高了语义编码质量。
改进的位置嵌入也有助于模型更好地理解编码结构。

这些发现共同支持了 MSCGRec 的设计选择，并解释了其在大型数据集上超越基线模型的强大能力。

7. 总结与思考

7.1. 结论总结

本文提出了 MSCGRec，一种创新的多模态语义与协同生成式推荐系统。MSCGRec 成功地将多模态语义信息（如文本和图像）与传统序列推荐器提供的协同信号无缝融合到一个统一的生成式推荐框架中。论文的主要贡献包括：

创新的模态融合： 将协同特征作为独立的模态进行残差量化，并与其他语义模态一同处理，避免了复杂的额外损失函数。
图像自监督量化学习： 引入了基于 DINO 框架的 RQ-DINO 方法，直接在自监督学习过程中生成语义丰富的图像离散编码，无需图像-文本对或重建损失。
约束序列学习： 提出了一种新的训练策略，通过限制输出空间为允许的词元集合，使模型更有效地学习，避免了对无效编码序列的记忆。
大规模数据集上的卓越性能： 在三个大型真实世界数据集（Amazon Beauty、Sports 和 PixelRec）上的广泛实验证明，MSCGRec 显著优于所有序列推荐和生成式推荐基线。这是首次有生成式推荐方法在这种规模下超越传统序列推荐器。
对缺失模态的鲁棒性： MSCGRec 的多模态框架能够自然地处理用户历史中缺失模态的情况，进一步提升了其在实际应用中的实用性。

MSCGRec 的研究成果表明，生成式推荐范式在处理大规模物品集时，不仅可以有效运作，而且能够克服传统序列推荐器在存储和计算方面的限制，为推荐系统领域带来了新的突破。

7.2. 局限性与未来工作

论文作者指出了以下局限性并提出了未来工作方向：

模态通用性： 提出的自监督量化学习方法（RQ-DINO）目前主要针对图像模态。未来工作可以探索将其推广到其他模态，例如使用 dino.txt (Jose et al., 2025) 将其应用于文本模态，以进一步提升模型的通用性。
特定数据集的模态影响： 模态消融的影响具有数据集依赖性。虽然 MSCGRec 表现出很强的鲁棒性，但在不同数据集和领域中，各模态的相对重要性和影响可能会有所不同。未来的研究可以深入探索如何自适应地权重不同模态或更细致地处理模态间的交互。
模型复杂性与推理效率： 尽管生成式推荐旨在减少内存开销，但多模态输入的序列模型本身可能仍具有一定的复杂性，尤其是在处理极长的用户历史或更多模态时。未来的工作可以探索更轻量级的模型架构或更高效的推理策略。

7.3. 个人启发与批判

7.3.1. 个人启发

生成式推荐的潜力被点燃： 长期以来，生成式推荐虽然理论上吸引人，但在实际性能上难以超越传统方法，尤其是在大型数据集上。MSCGRec 首次证明了其在大规模场景下的优越性，这无疑为该领域注入了新的活力，预示着生成式推荐可能成为未来推荐系统的主流范式。
多模态协同效应的重要性： 论文强调了融合多模态信息和协同信号的协同作用，而不仅仅是简单叠加。将协同信息作为“模态”来处理是一个非常巧妙且有效的思想，它简化了融合机制，并利用了序列模型本身的强大建模能力。
自监督学习与量化融合的价值： RQ-DINO 这种将残差量化直接嵌入到自监督学习框架中的方法，避免了先训练特征提取器再进行量化的两阶段问题，能让量化过程更好地服务于语义表示学习，这对于压缩和高效利用多模态信息具有通用指导意义。
训练策略的精细化： 约束序列学习是一个看似简单但非常有效的训练策略。它提醒我们，优化模型学习目标和训练环境，有时比单纯增加模型复杂性更能带来性能提升。在面对巨大的输出空间时，合理地限制模型的“注意力”可以显著提高学习效率和效果。

7.3.2. 批判与可改进之处

“协同模态”的来源依赖性：论文中“协同模态”的特征是来自于预训练的 SASRec 物品嵌入。这意味着 MSCGRec 的性能在一定程度上依赖于外部序列推荐器的质量。虽然这是一种有效的融合方式，但如果 SASRec 本身存在局限性或偏见，可能会影响 MSCGRec 的协同信号质量。未来的工作可以探索更端到端 (end-to-end) 的协同信号学习方式，或者在多模态框架内共同优化协同嵌入。
计算资源消耗： 尽管生成式推荐旨在减少内存开销，但 MSCGRec 的训练过程仍然需要四块 A100 GPU，这对于许多研究者和小型团队来说是昂贵的。其模型主体基于 T5，本身就较大。未来的研究可以探索更轻量级的 Transformer 架构或更高效的训练策略，以降低计算成本，提高可访问性。
模态权重与交互机制的探索： 虽然论文展示了各模态的贡献，但并未深入探讨不同模态之间的权重分配或更复杂的交互机制。例如，在某些场景下，图像可能比文本更重要，反之亦然。自适应地学习模态权重，或者设计更精细的跨模态注意力或融合模块，可能会进一步提升性能。
长序列建模的挑战： 论文将最大序列长度设置为 20，这对于一些用户而言可能并不足够。在处理极长的用户交互序列时，Transformer 模型的计算复杂性和记忆容量仍是挑战。未来的工作可以探索结合稀疏注意力、记忆网络或分层建模等技术，以更好地处理超长序列。
用户表示的动态性： MSCGRec 主要关注物品编码和序列预测，用户表示（如果隐式存在）的动态性探索相对较少。结合更复杂的动态用户兴趣建模，例如通过外部知识图谱或更精细的用户画像，可能会进一步增强推荐的个性化和准确性。

总的来说，MSCGRec 是一项具有里程碑意义的工作，它成功地将多模态信息和协同信号融入生成式推荐框架，并在大规模数据集上取得了显著突破。它为生成式推荐的未来发展开辟了广阔前景，但也留下了一些有趣的问题供社区进一步探索。

相似论文推荐

基于向量语义检索推荐的相关论文。

暂时没有找到相似论文。