Multi-Aspect Cross-modal Quantization for Generative Recommendation

Zhao Zhang

论文状态：已完成

Multi-Aspect Cross-modal Quantization for Generative Recommendation

发表：2025/11/19

原文链接 PDF 下载

价格：0.10

已有 2 人读过

本分析由 AI 生成，可能不完全准确，请以原文为准。

TL;DR 精炼摘要

本文提出了一种多方面跨模态量化生成式推荐（MACRec）模型，通过整合多模态信息来提升语义标识符的质量。这种方法利用跨模态量化降低了冲突率，并结合隐式和显式对齐，旨在增强生成模型的能力。实验结果验证了其在三个推荐数据集上的有效性。

摘要

Generative Recommendation (GR) has emerged as a new paradigm in recommender systems. This approach relies on quantized representations to discretize item features, modeling users' historical interactions as sequences of discrete tokens. Based on these tokenized sequences, GR predicts the next item by employing next-token prediction methods. The challenges of GR lie in constructing high-quality semantic identifiers (IDs) that are hierarchically organized, minimally conflicting, and conducive to effective generative model training. However, current approaches remain limited in their ability to harness multimodal information and to capture the deep and intricate interactions among diverse modalities, both of which are essential for learning high-quality semantic IDs and for effectively training GR models. To address this, we propose Multi-Aspect Cross-modal quantization for generative Recommendation (MACRec), which introduces multimodal information and incorporates it into both semantic ID learning and generative model training from different aspects. Specifically, we first introduce cross-modal quantization during the ID learning process, which effectively reduces conflict rates and thus improves codebook usability through the complementary integration of multimodal information. In addition, to further enhance the generative ability of our GR model, we incorporate multi-aspect cross-modal alignments, including the implicit and explicit alignments. Finally, we conduct extensive experiments on three well-known recommendation datasets to demonstrate the effectiveness of our proposed method.

思维导图

论文精读

中文精读约 33 分钟读完 · 21,723 字

1. 论文基本信息

1.1. 标题

Multi-Aspect Cross-modal Quantization for Generative Recommendation (MACRec)

1.2. 作者

Fuwei Zhang, Xiaoyu Liu, Dongbo Xi, Jishen Yin, Huan Chen, Peng Yan, Fuzhen Zhuang, Zhao Zhang。作者隶属于北京航空航天大学人工智能研究院、SKLCCSE计算机科学与工程学院以及美团。

1.3. 发表期刊/会议

预印本，发表于 arXiv。

1.4. 发表年份

2025年11月19日（UTC）。

1.5. 摘要

生成式推荐 (Generative Recommendation, GR) 作为推荐系统中的一种新范式，通过量化表示将物品特征离散化，将用户的历史交互建模为离散词元（token）序列，并基于这些词元序列使用下一词元预测（next-token prediction）方法来预测下一个物品。GR 的挑战在于构建高质量的语义标识符 (semantic IDs)，这些标识符需要具有层次性、最小冲突性，并且有利于生成模型的有效训练。然而，现有方法在利用多模态信息以及捕捉不同模态之间深层和复杂交互方面存在局限，而这些对于学习高质量语义 ID 和有效训练 GR 模型至关重要。

为解决这些问题，本文提出了 多方面跨模态量化生成式推荐 (Multi-Aspect Cross-modal Quantization for Generative Recommendation, MACRec) 模型。MACRec 从不同方面引入并整合多模态信息到语义 ID 学习和生成模型训练中。具体而言，MACRec 首先在 ID 学习过程中引入跨模态量化 (cross-modal quantization)，通过互补整合多模态信息有效降低冲突率，从而提高码本（codebook）的可用性。此外，为进一步增强 GR 模型的生成能力，MACRec 整合了多方面跨模态对齐 (multi-aspect cross-modal alignments)，包括隐式对齐 (implicit alignments) 和显式对齐 (explicit alignments)。最后，在三个知名推荐数据集上进行了广泛实验，验证了所提出方法的有效性。

1.6. 原文链接

https://arxiv.org/abs/2511.15122v1 PDF 链接: https://arxiv.org/pdf/2511.15122v1.pdf 发布状态：预印本 (v1)。

2. 整体概括

2.1. 研究背景与动机

2.1.1. 研究背景

推荐系统在帮助用户处理信息过载方面发挥着关键作用，广泛应用于电商、社交媒体、在线广告和短视频平台等领域。随着大型语言模型 (Large Language Models, LLMs) 的发展，基于 LLM 的推荐方法，特别是生成式推荐 (Generative Recommendation, GR)，受到了广泛关注。GR 将推荐任务重新定义为下一词元预测 (next-token prediction) 问题，通过将物品特征量化为离散的语义标识符 (semantic IDs)，并将用户历史交互建模为这些 ID 的序列。

2.1.2. 核心问题与挑战 (Gap)

尽管 GR 具有灵活性和表达能力，但在构建高质量语义 ID 和有效训练 GR 模型方面面临挑战。现有方法主要依赖于文本嵌入的离散化来形成语义 ID，这带来了以下问题：

语义判别性有限： 仅依赖单一模态（如文本）的嵌入可能导致语义判别能力不足。例如，同一品牌的不同类型乐器在文本特征上可能相似，导致其编码表示距离较小，难以区分，降低了语义 ID 的质量。
多模态信息利用不足： 现有方法在利用多模态信息（如图像）以及捕捉不同模态之间深层和复杂交互方面存在局限。图像等视觉特征在形状、颜色等方面通常比文本描述更具区分度。
语义损失和码本利用率： 常见的量化方法如残差量化变分自编码器 (Residual Quantization Variational Autoencoder, RQ-VAE) 在较深的层次结构中容易出现显著的语义损失，可能导致模型在分配词元时缺乏明确的语义指导，影响生成的物品表示的语义层次性，并可能导致码本利用率低。

2.1.3. 论文的切入点或创新思路

论文的创新点在于：

引入多模态信息： 整合图像信息以克服文本表示的局限性，利用不同模态的互补性。
跨模态量化： 在语义 ID 学习阶段引入跨模态对比学习，增强不同模态间的信息交互，减少语义损失，提高码本的可用性。
多方面对齐策略： 在生成模型训练阶段，设计隐式和显式对齐机制，以增强模型对语义 ID 的理解，并促进不同模态间共享特征的学习。

2.2. 核心贡献/主要发现

2.2.1. 主要贡献

提出了新颖的跨模态量化方法： 将对比学习整合到残差量化 (residual quantization) 和重构 (reconstruction) 过程中，以捕捉更丰富、更具区分度的语义，从而为物品生成具有层次意义的语义 ID。
设计了多方面对齐策略： 为了使模型能够从不同模态中学习共同特征，论文采用了包括潜在空间中的隐式对齐和生成任务中的显式对齐在内的多方面对齐策略。
实验验证了方法的优越性： 在三个广泛使用的推荐数据集上进行了实验，结果表明所提出的方法显著优于现有最先进的 GR 模型。

2.2.2. 关键结论与发现

MACRec 在所有数据集上均取得了最佳性能，表明其在生成式推荐任务上的有效性。
所构建的语义 ID 和跨模态对齐训练策略能够有效提升推荐性能，特别是与现有最先进的多模态生成式推荐模型 MQL4GRec 相比。
消融实验 (Ablation Study) 证明了论文提出的各个模块（包括 交叉模态对比损失 $\mathcal{L}_{\mathrm{con}}$ 、对齐损失 $\mathcal{L}_{\mathrm{align}}$ 、隐式对齐损失 $\mathcal{L}_{\mathrm{implicit}}$ 和 显式对齐）都对模型的性能提升起到了关键作用，其中 交叉模态对比损失 贡献最大。
MACRec 显著降低了物品 ID 冲突率，表明其能更好地利用多模态互补性，实现码本中物品的更均衡分布。
码本分配分析显示 MACRec 能更均匀地分配物品到码本中的词元，提高了码本容量的利用率，并提供了更好的语义表示。
参数分析揭示了关键超参数（如码本大小、语义 ID 长度和对比损失的起始层）对模型性能的影响，并指出了最佳设置。

3. 预备知识与相关工作

3.1. 基础概念

3.1.1. 生成式推荐 (Generative Recommendation, GR)

生成式推荐是推荐系统领域的一种新兴范式。它将推荐任务重新定义为一个序列生成问题，通常是“下一词元预测 (next-token prediction)”。在这个范式中，物品的特征被量化（discretize）成离散的语义标识符 (semantic IDs) 或词元（token）。用户的历史交互序列被看作是这些离散词元的序列。生成模型（通常是基于 Transformer 的模型）学习从用户历史序列中预测下一个最可能被用户交互的物品的语义 ID。这种方法利用了大型语言模型强大的序列建模能力，使得推荐系统能够更好地理解用户意图和整合上下文信息。

3.1.2. 量化 (Quantization)

量化是将连续值或高维度表示映射到一组有限的离散值或低维度表示的过程。在生成式推荐中，量化通常用于将物品的连续嵌入 (embeddings) 转换为离散的语义 ID 或词元。这使得物品可以通过像自然语言处理 (Natural Language Processing, NLP) 中的词元一样被处理，从而可以使用语言模型进行生成。量化的目标是尽可能保留原始连续表示中的语义信息，同时实现离散化和压缩。

3.1.3. 残差量化变分自编码器 (Residual Quantized Variational Autoencoder, RQ-VAE)

RQ-VAE 是一种用于嵌入量化 (embedding quantization) 的方法，它在多层向量量化 (Vector Quantization, VQ) 的基础上进行了改进。

向量量化 (VQ): VQ 是一种将连续嵌入映射到可学习码本（codebook）中最近的条目（称为“码字”或“词元”）的过程。码本由一组离散的向量组成。这个过程有效地压缩了表示空间。
残差量化 (RQ): RQ 进一步增强了 VQ。它不是一次性量化整个嵌入，而是顺序地应用多个 VQ 层。每个后续层都对前一层量化后剩余的“残差 (residuals)”进行量化。这意味着第一层量化主要信息，第二层量化第一层量化后丢失的细节，以此类推。通过这种方式，RQ-VAE 能够以分层的方式捕捉嵌入的细微差别，并生成一系列离散的语义 ID，每个 ID 对应一个量化层。

3.1.4. 多模态信息 (Multimodal Information)

多模态信息指的是来自不同模态的数据，例如文本、图像、视频、音频等。在推荐系统中，这通常意味着除了传统的物品 ID 或文本描述外，还包括物品的图片、视频、评论文本等。利用多模态信息可以提供更丰富、更全面的物品表示，因为不同模态捕捉了物品的不同方面。例如，文本可能描述物品的功能和品牌，而图像可能展示物品的颜色、形状和风格。

3.1.5. 对比学习 (Contrastive Learning)

对比学习是一种自监督学习技术，其核心思想是学习一个嵌入空间，使得相似的样本（正样本对）彼此靠近，不相似的样本（负样本对）彼此远离。它通常通过设计一个损失函数来实现，该损失函数最大化正样本对之间的相似度，同时最小化负样本对之间的相似度。常见的对比损失函数包括 InfoNCE 损失。

InfoNCE 损失 (Information Noise-Contrastive Estimation): $\mathcal{L}_{\mathrm{InfoNCE}}(x, x^+) = - \log \frac{\exp(\mathrm{sim}(x, x^+) / \tau)}{\sum_{x^- \in D} \exp(\mathrm{sim}(x, x^-) / \tau) + \exp(\mathrm{sim}(x, x^+) / \tau)}$ 其中， $x$ 是锚点样本， $x^+$ 是正样本， $D$ 是负样本集合， $\mathrm{sim}(\cdot, \cdot)$ 是相似度函数（如余弦相似度或点积）， $\tau$ 是温度参数。这个损失函数旨在使得锚点与正样本的相似度相对于所有负样本（以及正样本本身）的相似度更大。

3.2. 前人工作与技术演进

3.2.1. 序列推荐 (Sequential Recommendation)

单模态序列推荐： 早期方法如 GRU4Rec、STAMP、NARM 使用循环神经网络 (Recurrent Neural Networks, RNNs) 捕捉用户序列模式。SASRec 引入自注意力机制 (self-attention) 改进长程依赖建模。近期，BERT4Rec 等预训练语言模型 (Pretrained Language Models, PLMs) 通过大规模自监督预训练提升了性能。P5 和 M6-Rec 等基于提示 (prompt-based) 的方法将推荐任务重构为语言建模问题，增强了泛化性和灵活性。
- Attention 机制的计算公式补充： 自注意力（Self-Attention）是 Transformer 架构中的核心机制，其计算公式为： $\mathrm{Attention}(Q, K, V) = \mathrm{softmax}\left(\frac{QK^T}{\sqrt{d_k}}\right)V$ 其中：
  - $Q$ (Query)：查询矩阵，用于查询序列中其他位置的信息。
  - $K$ (Key)：键矩阵，用于被查询，代表序列中每个位置的信息。
  - $V$ (Value)：值矩阵，包含实际的语义信息，当查询和键匹配时，对应的值会被聚合。
  - $d_k$ ：键向量的维度，用于缩放点积结果，防止梯度过大。
  - $\mathrm{softmax}$ ：归一化函数，将注意力权重转换为概率分布。这个机制允许模型在处理序列时，对序列中的每个元素都关注到其他所有元素，并根据其相关性分配不同的权重。
多模态序列推荐： 通过整合文本、图像等多种模态来丰富序列表示，提升推荐质量。MMGCN、GRCN 使用深度和图神经网络整合异构特征。MMGCL 和 MISSRec 利用对比学习和多模态预训练。VIP5 将基于提示的技术扩展到多模态设置。

3.2.2. 生成式推荐 (Generative Recommendation)

早期工作： TIGER 将物品序列离散化为词元，开启了生成式推荐范式。LC-Rec 利用 LLM 的自然语言理解能力支持推荐任务的微调。LETTER 在 TIGER 基础上引入协同过滤嵌入和额外的损失函数来改善码本利用率。
多模态生成式推荐： MMGRec 使用图 RQ-VAE (Graph RQ-VAE) 结合多模态特征和协同信号生成物品表示。MQL4GRec 通过将多模态和跨领域物品信息编码为统一的量化语言，促进知识迁移并实现了更好的性能。

3.3. 差异化分析

现有多模态生成式推荐模型，如 MQL4GRec，通常分别对每个模态进行编码以获取语义 ID，但它们在量化过程中没有考虑模态间的交叉交互。这使得它们更容易在分层语义中丢失信息。

本文提出的 MACRec 首次在量化阶段引入了跨模态学习，使得语义 ID 能够捕捉不同模态的优势特征。此外，MACRec 在 GR 训练阶段还整合了隐式和显式对齐方法，让不同模态的特征能够更有效地相互补充。这构成了 MACRec 与现有方法的核心区别和创新点。

4. 方法论

本节将详细阐述 MACRec 的方法论，其整体架构如图2所示。该方法主要包含两个核心模块：跨模态物品量化模块 (Cross-modal Item Quantization)，用于生成离散的语义 ID；以及多方面对齐的 GR 模型训练阶段 (Generative Recommendation with Multi-aspect Alignment)。

该图像是示意图，展示了多方面跨模态量化在生成推荐系统中的应用。图中包含了跨模态项目量化和多方面对齐的过程，分别展示了文本和视觉特征的编码、伪标签生成、量化过程及对齐机制。通过对比隐式和显式对齐，图像阐明了如何利用多模态信息来提升生成推荐模型的性能。

图2：多方面跨模态量化生成式推荐 (MACRec) 的整体架构图。左侧展示了跨模态物品量化阶段，包括伪标签生成、带有对比学习的跨模态量化和跨模态重构对齐。右侧展示了 GR 模型训练阶段，通过隐式对齐、显式对齐以及 Seq2Seq 任务训练 GR 模型。

4.1. 跨模态物品量化

传统的 RQ-VAE 方法主要用于量化单个嵌入。然而，当处理多模态信息（如图像和文本）时，简单地拼接其嵌入然后统一量化，或者独立量化每个模态都会带来问题。前者可能因模态维度差异导致量化偏向高维模态，后者则未能充分利用跨模态信息的互补性。为解决这些挑战，MACRec 提出了 跨模态物品量化 (Cross-modal Item Quantization) 框架，该框架在量化和重构学习中有效利用了多模态对比学习，以生成语义区分性强的物品标识符，同时降低标识符冲突率。

4.1.1. 双模态伪标签生成 (Dual-modality Pseudo-label Generation)

为了进行跨模态对比学习，首先需要生成伪标签（pseudo-labels）来构建正样本。

嵌入获取： 对于给定物品 $i$ ，其文本信息通过开源大型语言模型（如 LLaMA）编码为嵌入 $\mathbf{t}_i$ 。同时，物品图像的视觉内容通过 Vision Transformer (ViT) 编码为嵌入 $\mathbf{v}_i$ 。
K-means 聚类： 随后，对所有物品的文本嵌入和视觉嵌入分别独立进行 K-means 聚类，将它们划分为 $K$ $K$ 个簇。
- 聚类过程可以表示为： $\mathcal{C}_{\mathrm{text}} = \mathrm{KMeans}(\{ \mathbf{t}_i \}_{i=1}^N), \quad \mathcal{C}_{\mathrm{vision}} = \mathrm{KMeans}(\{ \mathbf{v}_i \}_{i=1}^N)$ 其中：
  - $\mathcal{C}_{\mathrm{text}}$ ：文本模态的聚类分配（伪标签）。
  - $\mathcal{C}_{\mathrm{vision}}$ ：视觉模态的聚类分配（伪标签）。
  - $\{ \mathbf{t}_i \}_{i=1}^N$ ：所有 $N$ 个物品的文本嵌入集合。
  - $\{ \mathbf{v}_i \}_{i=1}^N$ ：所有 $N$ 个物品的视觉嵌入集合。
  - $N$ ：物品总数。
  - $\mathrm{KMeans}(\cdot)$ ：K-means 聚类函数。这些聚类结果作为伪标签，用于后续构建对比学习中的正样本。

RQ-VAE 基础： 在 RQ-VAE 中，文本和视觉嵌入首先通过多层感知机 (Multi-layer Perceptron, MLP) 组成的编码器处理，得到潜在表示 $\mathbf{z}^t = \mathrm{T-Encoder}(\mathbf{t})$ 和 $\mathbf{z}^v = \mathrm{V-Encoder}(\mathbf{v})$ 。这些潜在表示作为第一层 VQ 的残差 $(\mathbf{r}_0^t = \mathbf{z}^t, \mathbf{r}_0^v = \mathbf{z}^v)$ 。
逐层量化： 在第 $l$ 层，每个模态都有一个可学习的码本 $C_l^{v/t} = \{ \mathbf{e}_{l,k}^{v/t} \}_{k=0}^M$ ，其中 $M$ 是码本大小。量化通过寻找当前残差最近的码本向量完成： $c_l^t = \arg \min_k \| \mathbf{r}_l^t - \mathbf{e}_{l,k}^t \|_2, \quad c_l^v = \arg \min_k \| \mathbf{r}_l^v - \mathbf{e}_{l,k}^v \|_2$ 其中：
- $c_l^t$ ：第 $l$ 层文本模态的码字索引。
- $c_l^v$ ：第 $l$ 层视觉模态的码字索引。
- $\mathbf{r}_l^t$ ：第 $l$ 层文本模态的残差向量。
- $\mathbf{r}_l^v$ ：第 $l$ 层视觉模态的残差向量。
- $\mathbf{e}_{l,k}^t$ ：第 $l$ 层文本模态码本中索引为 $k$ 的码字向量。
- $\mathbf{e}_{l,k}^v$ ：第 $l$ 层视觉模态码本中索引为 $k$ 的码字向量。
- $\| \cdot \|_2$ ：L2 范数（欧几里得距离）。
- $\arg \min_k$ ：返回使表达式最小的索引 $k$ 。
  
  然后，计算下一层的残差： $\mathbf{r}_{l+1}^t = \mathbf{r}_l^t - \mathbf{e}_{l,c_k^t}^t, \quad \mathbf{r}_{l+1}^v = \mathbf{r}_l^v - \mathbf{e}_{l,c_k^v}^v$ 其中：
- $\mathbf{r}_{l+1}^t$ ：第 $l+1$ 层文本模态的残差向量。
- $\mathbf{r}_{l+1}^v$ ：第 $l+1$ 层视觉模态的残差向量。
- $\mathbf{e}_{l,c_k^t}^t$ ：第 $l$ 层文本模态码本中选定的码字向量。
- $\mathbf{e}_{l,c_k^v}^v$ ：第 $l$ 层视觉模态码本中选定的码字向量。
引入跨模态对比学习： 传统的量化过程是模态独立的，这可能导致码本利用率低和语义互补性不足。MACRec 通过引入跨模态对比学习来解决这些问题，利用双模态伪标签来优化码本中各层的残差表示。具体来说，视觉伪标签用于增强文本模态的残差表示，反之，文本伪标签用于优化视觉模态的残差。
- 第 $l$ $l$ 层的 InfoNCE 对比损失如下： $\mathcal{L}_{\mathrm{con}}^{l, v \to t} = - \frac{1}{B} \sum_{i=1}^B \log \left( \frac{\exp ( { \langle \mathbf{r}_i^t, \mathbf{r}_{i, \mathrm{pos}}^t \rangle } / { \tau } ) }{ \sum_{j=1}^B \exp ( { \langle \mathbf{r}_i^t, \mathbf{r}_j^t \rangle } / { \tau } ) } \right)$ $\mathcal{L}_{\mathrm{con}}^{l, t \to v} = - \frac{1}{B} \sum_{i=1}^B \log \left( \frac{\exp ( { \langle \mathbf{r}_i^v, \mathbf{r}_{i, \mathrm{pos}}^v \rangle } / { \tau } ) }{ \sum_{j=1}^B \exp ( { \langle \mathbf{r}_i^v, \mathbf{r}_j^v \rangle } / { \tau } ) } \right)$ $\mathcal{L}_{\mathrm{con}}^l = \mathcal{L}_{\mathrm{con}}^{l, t \to v} + \mathcal{L}_{\mathrm{con}}^{l, v \to t}$ 其中：
  - $B$ ：批次大小 (batch size)。
  - $\langle \cdot, \cdot \rangle$ ：内积 (inner product)，用于衡量相似度。
  - $\tau$ ：温度参数 (temperature parameter)。
  - $\mathbf{r}_i^t$ ：批次中第 $i$ 个物品的文本残差向量。
  - $\mathbf{r}_i^v$ ：批次中第 $i$ 个物品的视觉残差向量。
  - $\mathbf{r}_{i, \mathrm{pos}}^t$ ：与批次中第 $i$ 个物品共享相同视觉伪标签 $\mathcal{C}_{\mathrm{vision}}$ 的正样本（另一个物品）的文本残差向量。
  - $\mathbf{r}_{i, \mathrm{pos}}^v$ ：与批次中第 $i$ 个物品共享相同文本伪标签 $\mathcal{C}_{\mathrm{text}}$ 的正样本（另一个物品）的视觉残差向量。
  - $\sum_{j=1}^B \exp ( { \langle \mathbf{r}_i^t, \mathbf{r}_j^t \rangle } / { \tau } )$ ：批次中所有物品的文本残差与 $\mathbf{r}_i^t$ 的相似度之和（包括 $\mathbf{r}_i^t$ 自身）。
  - $\sum_{j=1}^B \exp ( { \langle \mathbf{r}_i^v, \mathbf{r}_j^v \rangle } / { \tau } )$ ：批次中所有物品的视觉残差与 $\mathbf{r}_i^v$ 的相似度之和。
  - $\mathcal{L}_{\mathrm{con}}^{l, v \to t}$ ：表示视觉伪标签引导的文本模态对比损失。
  - $\mathcal{L}_{\mathrm{con}}^{l, t \to v}$ ：表示文本伪标签引导的视觉模态对比损失。
  - $\mathcal{L}_{\mathrm{con}}^l$ ：第 $l$ 层总的跨模态对比损失。这些损失鼓励不同模态的残差在共享伪标签的情况下彼此靠近，从而实现跨模态信息的互补和码本的优化。

在 $L$ 层码本的作用下，物品的量化表示可以通过求和各层对应的码字向量得到： $\hat{\mathbf{z}}^t = \sum_{l=0}^{L-1} \mathbf{e}_{l,c_k^t}^t$ 和 $\hat{\mathbf{z}}^v = \sum_{l=0}^{L-1} \mathbf{e}_{l,c_k^v}^v$ 。为了进一步利用这些量化表示来细化码本表示并平衡码本利用率，MACRec 引入了基于对比学习的对齐损失。该损失鼓励同一物品不同模态的量化表示之间进行双向对齐： $\mathcal{L}_{\mathrm{align}}^{t \to v} = - \frac{1}{B} \sum_{i=1}^B \log \left( \frac{\exp ( \langle \hat{\mathbf{z}}_i^t, \hat{\mathbf{z}}_i^v \rangle / \tau ) }{ \sum_{j=1}^B \exp ( \langle \hat{\mathbf{z}}_i^t, \hat{\mathbf{z}}_j^v \rangle / \tau ) } \right)$ $\mathcal{L}_{\mathrm{align}}^{v \to t} = - \frac{1}{B} \sum_{i=1}^B \log \left( \frac{\exp ( \langle \hat{\mathbf{z}}_i^v, \hat{\mathbf{z}}_i^t \rangle / \tau ) }{ \sum_{j=1}^B \exp ( \langle \hat{\mathbf{z}}_i^v, \hat{\mathbf{z}}_j^t \rangle / \tau ) } \right)$ $\mathcal{L}_{\mathrm{align}} = \mathcal{L}_{\mathrm{align}}^{t \to v} + \mathcal{L}_{\mathrm{align}}^{v \to t}$ 其中：

$\hat{\mathbf{z}}_i^t$ ：第 $i$ 个物品的文本模态量化嵌入。
$\hat{\mathbf{z}}_i^v$ ：第 $i$ 个物品的视觉模态量化嵌入。
其他符号定义与之前的 InfoNCE 损失相同。该损失确保了同一物品的文本和视觉量化表示在潜在空间中彼此接近。
重构损失与 RQ-VAE 损失： 类似于标准的 RQ-VAE 架构，量化后的表示 $\hat{\mathbf{z}}^t$ 和 $\hat{\mathbf{z}}^v$ 会被解码器 (T-Decoder 和 V-Decoder) 分别解码，重建出原始的文本嵌入 $\hat{\mathbf{t}} = \mathrm{T-Decoder}(\hat{\mathbf{z}}^t)$ 和视觉嵌入 $\hat{\mathbf{v}} = \mathrm{V-Decoder}(\hat{\mathbf{z}}^v)$ 。
- 重构损失 (reconstruction loss) 为原始嵌入与解码后嵌入之间的 L2 范数距离： $\mathcal{L}_{\mathrm{recon}}^t = \| \mathbf{t} - \hat{\mathbf{t}} \|_2^2, \quad \mathcal{L}_{\mathrm{recon}}^v = \| \mathbf{v} - \hat{\mathbf{v}} \|_2^2$ 其中：
  - $\mathbf{t}$ 和 $\mathbf{v}$ 是原始的文本和视觉嵌入。
  - $\hat{\mathbf{t}}$ 和 $\hat{\mathbf{v}}$ 是重构的文本和视觉嵌入。
- 残差量化损失 (residual quantization loss) 旨在训练码本： $\mathcal{L}_{\mathrm{rq}}^m = \sum_{l=0}^{L-1} \left( \| \mathrm{sg}[\mathbf{r}_l^m] - \mathbf{e}_{l,c_k^m}^m \|_2^2 + \alpha \| \mathbf{r}_l^m - \mathrm{sg}[\mathbf{e}_{l,c_k^m}^m] \|_2^2 \right)$ 其中：
  - $m$ ：表示不同的模态（文本或视觉）。
  - $\mathrm{sg}[\cdot]$ ：表示 stop-gradient 操作，即在反向传播时不计算该部分的梯度。
  - $\alpha$ ：是损失系数。这个损失项包含两部分：第一部分是量化后的码字与原始残差（停止梯度）的距离，用于更新码本；第二部分是原始残差与量化码字（停止梯度）的距离，用于更新编码器。
- RQ-VAE 的总损失为： $\mathcal{L}_{\mathrm{RQ-VAE}} = \mathcal{L}_{\mathrm{recon}}^t + \mathcal{L}_{\mathrm{recon}}^v + \mathcal{L}_{\mathrm{rq}}^t + \mathcal{L}_{\mathrm{rq}}^v$ 其中：
  - $\mathcal{L}_{\mathrm{rq}}^t$ 和 $\mathcal{L}_{\mathrm{rq}}^v$ 分别是文本和视觉模态的残差量化损失。
语义 ID 学习的总目标： 最终，学习语义标识符的总训练目标 $\mathcal{L}_{\mathrm{ID}}$ 定义为： $\mathcal{L}_{\mathrm{ID}} = \mathcal{L}_{\mathrm{RQ-VAE}} + \lambda_{\mathrm{con}}^l \sum_{l=0}^{L-1} \mathcal{L}_{\mathrm{con}}^l + \lambda_{\mathrm{align}} \mathcal{L}_{\mathrm{align}}$ 其中：
- $\lambda_{\mathrm{con}}^l$ 和 $\lambda_{\mathrm{align}}$ 是平衡对比损失 $\mathcal{L}_{\mathrm{con}}$ 和对齐损失 $\mathcal{L}_{\mathrm{align}}$ 贡献的权衡超参数。
冲突解决： 对于某些物品 ID 之间出现的冲突，MACRec 采用了与 Zhai et al. 论文中提出的相同冲突解决策略，即根据物品与码本之间的距离重新分配码字。

4.2. 多方面对齐的生成式推荐

通过上述训练好的 RQ-VAE 模型，可以获得文本和图像的离散语义 ID。例如，文本语义 ID 可以表示为 $\cdots < \mathrm{a}\_1 > < \mathrm{b}\_2 > < \mathrm{c}\_3 >$ ，图像语义 ID 可以表示为 $\cdots < \mathrm{A}\_1 > < \mathrm{B}\_2 > < \mathrm{C}\_3 >$ 。为了训练生成式推荐模型，需要基于这些离散语义 ID 构建 Seq2Seq 训练数据，并以下一词元预测 (next-token prediction) 的方式进行训练。为进一步优化不同模态间信息的共享和交互，MACRec 设计了隐式对齐和显式对齐机制。

目标是让模型更好地识别属于同一物品的不同模态语义 ID 之间的共性。这通过在编码后的潜在空间级别进行对齐来实现。

编码器： 使用 GR 模型的编码器（例如基于 T5 的编码器）将文本语义 ID $t$ -sid 和视觉语义 ID $v$ -sid 编码为潜在表示。 $\mathbf{e}^t = \mathrm{MeanPool}(\mathrm{T5-Encoder}(t\text{-sid}))$ $\mathbf{e}^v = \mathrm{MeanPool}(\mathrm{T5-Encoder}(v\text{-sid}))$ 其中：
- $\mathbf{e}^t$ ：文本语义 ID 编码后的潜在表示。
- $\mathbf{e}^v$ ：视觉语义 ID 编码后的潜在表示。
- $\mathrm{T5-Encoder}(\cdot)$ ：基于 T5 模型的编码器。
- $\mathrm{MeanPool}(\cdot)$ ：对编码器输出进行平均池化操作，得到固定维度的表示。
对比学习对齐： 在潜在空间中，通过对比学习对齐同一物品不同模态的表示。 $\mathcal{L}_{\mathrm{implicit}}^{t \to v} = - \frac{1}{B} \sum_{i=1}^B \log \left( \frac{\exp ( \langle \mathbf{e}_i^t, \mathbf{e}_i^v \rangle / \tau ) }{ \sum_{j=1}^B \exp ( \langle \mathbf{e}_i^t, \mathbf{e}_j^v \rangle / \tau ) } \right)$ $\mathcal{L}_{\mathrm{implicit}}^{v \to t} = - \frac{1}{B} \sum_{i=1}^B \log \left( \frac{\exp ( \langle \mathbf{e}_i^v, \mathbf{e}_i^t \rangle / \tau ) }{ \sum_{j=1}^B \exp ( \langle \mathbf{e}_i^v, \mathbf{e}_j^t \rangle / \tau ) } \right)$ $\mathcal{L}_{\mathrm{implicit}} = \mathcal{L}_{\mathrm{implicit}}^{t \to v} + \mathcal{L}_{\mathrm{implicit}}^{v \to t}$ 其中：
- $\mathbf{e}_i^t, \mathbf{e}_i^v$ ：批次中第 $i$ 个物品的文本和视觉潜在表示。
- 其他符号定义与之前的 InfoNCE 损失相同。该损失确保同一物品的文本和视觉语义 ID 的潜在表示在编码后仍然保持高度相似。

4.2.2. 不同生成任务的显式对齐 (Explicit Alignment with Different Generation Tasks)

对于大多数生成模型，可以通过设计不同的训练任务来对齐图像和物品的表示。MACRec 提出了物品级 (item-level) 和序列级 (sequence-level) 的跨模态对齐策略。

物品级对齐：
- 以物品的文本语义 ID 作为输入，生成其视觉语义 ID。
- 反之，以视觉语义 ID 作为输入，生成其文本语义 ID。
序列级对齐：
- 构建预测任务，使用文本语义 ID 的历史序列来预测下一个推荐物品的视觉语义 ID。
- 类似地，使用视觉语义 ID 的历史序列来预测下一个推荐物品的文本语义 ID。这些额外的显式对齐任务被整合到序列推荐的训练中，强制模型在生成过程中理解和关联不同模态的信息。

4.2.3. 训练目标与推理 (Training Objectives and Inference)

对于多模态 GR，推荐主要有两个任务：

基于物品文本语义 ID 的历史序列，预测下一个物品的文本语义 ID。
基于物品视觉语义 ID 的历史序列，预测下一个物品的视觉语义 ID。

通过整合上述对齐策略，最终的训练目标 $\mathcal{L}_{\mathrm{rec}}$ 公式如下： $\mathcal{L}_{\mathrm{rec}} = - \sum_{t=1}^{|y|} \log P_{\theta} (y_t | y_{<t}, x) + \lambda_{\mathrm{implicit}} \mathcal{L}_{\mathrm{implicit}}$ 其中：

$y$ ：目标序列（例如下一个物品的语义 ID 序列）。
$|y|$ ：目标序列的长度。
$y_t$ ：目标序列中的第 $t$ 个词元。
$y_{<t}$ ：目标序列中在 $t$ 之前的词元。
$x$ ：输入序列（例如用户历史交互的语义 ID 序列）。
$P_{\theta} (y_t | y_{<t}, x)$ ：模型在给定历史序列和之前词元的情况下，预测第 $t$ 个词元的概率。这通常是语言模型中的交叉熵损失。
$\lambda_{\mathrm{implicit}}$ ：隐式对齐损失 $\mathcal{L}_{\mathrm{implicit}}$ 的权重超参数。虽然论文提到了显式对齐任务，但最终训练目标公式中只明确包含了隐式对齐损失。显式对齐可能通过修改 $P_{\theta}$ 的输入-输出对来实现，或作为额外的损失项，但在给定的公式中未直接体现为单独的损失项。
推理阶段： 在推理阶段，使用受限束搜索 (constrained beam search) 为不同模态生成多个候选语义 ID。最后，通过平均两个模态的得分来集成结果 (ensemble)，得到最终的推理结果。

5. 实验设置

5.1. 数据集

实验使用了三个真实世界的推荐数据集，均从 Amazon Product Reviews 数据集构建。这些数据集包含了1996年5月至2018年10月期间的用户评论和物品元数据。具体选择的类别包括：“Musical Instruments (乐器)”、“Arts, Crafts and Sewing (艺术、工艺与缝纫)”和“Video Games (视频游戏)”。

以下是原文 Table 1 提供的详细数据集统计信息：

Datasets	#Users	#Items	#Interactions	Sparsity	Avg. len
Instruments	17112	6250	136226	99.87%	7.96
Arts	22171	9416	174079	99.92%	7.85
Games	42259	13839	373514	99.94%	8.84

表1：数据集统计信息。Avg. len 表示物品序列的平均长度。

选择这些数据集进行实验，是因为它们代表了不同商品类别，且具有丰富的用户交互数据，可以有效验证推荐方法的性能和泛化能力。

5.2. 评估指标

为了评估推荐效果，实验采用了 Top-K 的命中率 (Hit Rate, HR@K) 和归一化折损累计增益 (Normalized Discounted Cumulative Gain, NDCG@K)。其中 K 设置为 1、5 和 10。

5.2.1. 命中率 (Hit Rate, HR@K)

概念定义： HR@K 衡量的是在推荐列表的前 K 个物品中，有多少比例包含了用户实际交互的下一个物品。它关注的是模型是否能成功命中用户感兴趣的物品，而不考虑其在列表中的具体排名。HR@K 值越高，表示模型在命中用户兴趣方面的能力越强。
数学公式： $\mathrm{HR@K} = \frac{\text{命中的用户数}}{\text{总用户数}} = \frac{\sum_{u \in U} \mathbb{I}(\text{next\_item}_u \in \mathrm{TopKList}_u)}{|U|}$ 其中：
- $U$ ：所有用户的集合。
- $\mathbb{I}(\cdot)$ ：指示函数，如果条件为真则返回 1，否则返回 0。
- $\text{next\_item}_u$ ：用户 $u$ 实际交互的下一个物品。
- $\mathrm{TopKList}_u$ ：为用户 $u$ 生成的 Top-K 推荐列表。
- $|U|$ ：用户总数。

5.2.2. 归一化折损累计增益 (Normalized Discounted Cumulative Gain, NDCG@K)

概念定义： NDCG@K 是一种考虑物品在推荐列表中位置的评估指标。它不仅关注是否命中，还强调命中物品的排名：排名靠前的相关物品会获得更高的分数。NDCG@K 值越高，表示模型不仅能命中相关物品，还能将其排在更靠前的位置，从而提供更优质的推荐体验。
数学公式： 首先计算折损累计增益 (Discounted Cumulative Gain, DCG@K)： $\mathrm{DCG@K} = \sum_{i=1}^K \frac{2^{\mathrm{rel}_i} - 1}{\log_2(i+1)}$ 然后计算理想折损累计增益 (Ideal DCG, IDCG@K)，即完美推荐列表的 DCG@K： $\mathrm{IDCG@K} = \sum_{i=1}^K \frac{2^{\mathrm{rel}_i^{ideal}} - 1}{\log_2(i+1)}$ 最后，NDCG@K 是 DCG@K 与 IDCG@K 的比值： $\mathrm{NDCG@K} = \frac{\mathrm{DCG@K}}{\mathrm{IDCG@K}}$ 其中：
- $K$ ：推荐列表的长度。
- $\mathrm{rel}_i$ ：推荐列表中第 $i$ 个物品的相关性得分（在二元相关性（相关/不相关）中通常为 1 或 0）。
- $\mathrm{rel}_i^{ideal}$ ：完美推荐列表中第 $i$ 个物品的相关性得分（通常是按照真实相关性从高到低排序）。
- $\log_2(i+1)$ ：折损因子，随着 $i$ 增加，对后续物品的增益进行折损。
评估协议： 与之前研究 (Geng et al. 2022; Hua et al. 2023) 一致，实验采用留一法 (leave-one-out) 评估协议。这意味着每个用户最新的交互物品被用作测试集，其余作为训练集。同时，不进行抽样，而是对整个物品集合进行全排名评估，以确保评估的全面性。

5.3. 对比基线

为了评估 MACRec 的性能，论文将其与以下代表性的最新方法进行了比较：

传统序列推荐模型：
- BERT4Rec (Sun et al. 2019): 基于 BERT 的双向 Transformer 序列推荐模型。
- SASRec (Kang and McAuley 2018): 基于自注意力机制的序列推荐模型。
- FDSA (Zhang et al. 2019): 基于特征级深度自注意力网络的序列推荐模型。
- S3-Rec (Zhou et al. 2020): 基于自监督学习的序列推荐模型。
多模态序列推荐模型：
- MISSRec (Wang et al. 2023a): 用于推荐的预训练和迁移多模态兴趣感知序列表示模型。
- P5 (Geng et al. 2022): 将推荐视为语言处理问题的统一范式。
- VIP5 (Geng et al. 2023): 面向推荐的多模态基础模型。
生成式推荐模型：
- TIGER (Rajput et al. 2023): 基于生成式检索的推荐系统。
- MQL4GRec (Zhai et al. 2025): 多模态量化语言生成式推荐模型，是当前最先进的多模态生成式推荐基线之一。

5.4. 实现细节

公平比较： 对于多模态生成基线模型 MQL4GRec，为了确保公平比较，未利用数百万额外类别数据集进行预训练。
特征提取器：
- 文本特征使用 LLaMA (Touvron et al. 2023) 获取。
- 图像特征使用 ViT-L/14 (Dosovitskiy et al. 2020) 获取。
RQ-VAE 参数：
- 码本大小 $M$ ：256。
- 层数：4 层。
- 优化器：AdamW。
- 批次大小 (batch size)：1024。
- 学习率 (learning rate)：0.001。
- 聚类数量 $K$ (用于伪标签生成)：512。
GR 模型骨干： 遵循 Rajput et al. (2023) 和 Zhai et al. (2025) 的设置，使用 T5 作为骨干模型。其编码器和解码器各有 4 个 Transformer 层，每个层有 6 个注意力头（维度为 64）。
超参数：
- 层级对比权重 $\lambda_{\mathrm{con}}^l$ ： $\lambda_{\mathrm{con}}^{0,1} = 0$ , $\lambda_{\mathrm{con}}^{2,3} = 0.1$ 。这表明前两层不使用对比损失，后两层使用。
- 对齐损失权重 $\lambda_{\mathrm{align}}$ ：0.001。
- 隐式对齐损失权重 $\lambda_{\mathrm{implicit}}$ ：0.01。
- 温度参数 $\tau$ ：0.1 (用于所有对比损失)。
重复实验： 结果是五次随机种子运行的平均值。

6. 实验结果与分析

6.1. 核心结果分析

以下是原文 Table 2 提供的 MACRec 在三个数据集上的实验结果：

Dataset	Metrics	BERT4Rec	SASRec	FDSA	S3-Rec	MISSRec	P5-CID	VIP5	TIGER	MQL4GRec	MACRec
Dataset	Metrics
Instruments	HR@1	0.0450	0.0318	0.0530	0.0339	0.0723	0.0512	0.0737	0.0754	0.0763	0.0819*
	HR@5	0.0856	0.0946	0.0987	0.0937	0.1089	0.0839	0.0892	0.1007	0.1058	0.1110*
	HR@10	0.1081	0.1233	0.1249	0.1123	0.1361	0.1119	0.1071	0.1221	0.1291	0.1363*
	NDCG@5	0.0667	0.0654	0.0775	0.0693	0.0797	0.0678	0.0815	0.0882	0.0902	0.0965*
	NDCG@10	0.0739	0.0746	0.0859	0.0743	0.0880	0.0704	0.0872	0.0950	0.0997	0.1046*
Arts	HR@1	0.0289	0.0212	0.0380	0.0172	0.0479	0.0421	0.0474	0.0626	0.0685	0.0704*
	HR@5	0.0697	0.0951	0.0832	0.0739	0.1021	0.0713	0.0704	0.0997	0.1046	0.1090*
	HR@10	0.0922	0.1250	0.1190	0.1030	0.1321	0.0994	0.0959	0.1254	0.1329	0.1396*
	NDCG@5	0.0502	0.0610	0.0583	0.0511	0.0699	0.0607	0.0586	0.0816	0.0868	0.0905*
	NDCG@10	0.0575	0.0706	0.0695	0.0630	0.0815	0.0662	0.0635	0.0953	0.0997	0.1042*
Games	HR@1	0.0115	0.0069	0.0163	0.0136	0.0201	0.0169	0.0173	0.0200	0.0208	0.0215*
	HR@5	0.0426	0.0587	0.0614	0.0527	0.0674	0.0532	0.0480	0.0645	0.0671	0.0702*
	HR@10	0.0725	0.0985	0.0988	0.0903	0.1048	0.0824	0.0758	0.1007	0.1078	0.1119*
	NDCG@5	0.0270	0.0333	0.0389	0.0351	0.0385	0.0331	0.0328	0.0421	0.0435	0.0458*
	NDCG@10	0.0366	0.0461	0.0509	0.0468	0.0499	0.0454	0.0418	0.0538	0.0565	0.0591*

表2：在三个数据集上的推荐性能比较结果。 * 表示与最佳基线相比，统计显著性 $p$ 值 < 0.05。

从 Table 2 的实验结果，可以得出以下结论：

MACRec 性能卓越： MACRec 在所有三个数据集（Instruments、Arts、Games）的所有评估指标（HR@1, HR@5, HR@10, NDCG@5, NDCG@10）上均达到了最佳性能，且结果具有统计显著性。这有力证明了所提出方法的有效性。
显著超越最先进的 GR 模型： MACRec 显著优于目前最先进的多模态生成式推荐模型 MQL4GRec。例如，在 Instruments 数据集上，MACRec 的 HR@10 和 NDCG@10 分别比 MQL4GRec 提高了约 5.6% 和 4.9%。这表明 MACRec 构建的语义 ID 和其跨模态对齐训练策略能更有效地增强推荐性能。
相较传统多模态模型的优势： 相较于传统的单模态或多模态序列推荐模型（如 BERT4Rec、SASRec、MISSRec、P5、VIP5），MACRec 在 NDCG 指标上取得了显著提升。NDCG 更关注推荐物品的排名，这一提升表明 MACRec 的多模态生成式推荐框架能够更准确地推荐用户真正感兴趣且排名靠前的物品。这得益于其对多模态信息的深度利用和精细的语义 ID 构建。

6.2. 消融实验/参数分析

以下是原文 Table 3 提供的消融研究结果（HR@10）。

Model	Instruments	Arts	Games
MACRec	0.1363	0.1396	0.1119
w/o Lcon	0.1289	0.1301	0.1018
w/o Lalign	0.1310	0.1322	0.1026
w/o Limplicit	0.1312	0.1328	0.1042
w/o Explicit Alignment	0.1296	0.1321	0.1037

表3：在三个数据集上的消融研究结果 (HR@10)。

从 Table 3 的消融研究结果中，可以观察到：

所有模块的有效性： 移除任何一个提出的模块都会导致推荐性能一定程度的下降，这证明了 MACRec 中每个组件的有效性。
跨模态对比损失 (w/o Lcon) 的关键作用： 排除 交叉模态对比损失 ( $\mathcal{L}_{\mathrm{con}}$ ) 导致了性能下降最严重，例如在 Instruments 数据集上从 0.1363 下降到 0.1289。这突出表明了基于对比学习的跨模态量化方法对于提升模型性能的重要性。它有效减少了语义损失，并提高了码本的可用性。
对齐策略的重要性： 跨模态重构对齐损失 (w/o Lalign)、隐式对齐损失 (w/o Limplicit) 和 显式对齐 (w/o Explicit Alignment) 均对模型的最终性能有积极贡献。这表明在生成模型训练阶段引入多方面对齐策略对于增强模型对语义 ID 的理解和促进不同模态间共享特征的学习至关重要。

6.3. 物品冲突率分析

以下是原文 Table 4 提供的 MACRec 与 MQL4GRec 在量化过程中物品 ID 冲突率的比较。

Dataset	Text		Image
	MQL4GRec	MACRec	MQL4GRec	MACRec
Instruments	2.76	2.38	3.71	3.23
Arts	5.15	4.24	5.29	4.71
Games	3.51	2.91	6.10	5.24

表4：MQL4GRec 与 MACRec 在三个数据集上物品 ID 冲突率 (%) 的比较。

冲突率降低： Table 4 显示，MACRec 在所有数据集的文本和图像模态上都显著降低了物品 ID 冲突率。例如，在 Instruments 数据集上，文本 ID 冲突率从 MQL4GRec 的 2.76% 降至 MACRec 的 2.38%；图像 ID 冲突率从 3.71% 降至 3.23%。
码本利用率提升： 冲突率的降低进一步证明了 MACRec 通过充分利用不同模态之间的互补性，使得码本中的物品分布更加均衡。这意味着相似的物品被编码为相同语义 ID 的概率降低，从而提高了码本的利用率和语义表示能力。

6.4. 码分配分布分析

Figure 4: Code assignment distribution on the 2-th RQ layer.
该图像是图表，展示了 MQL4Rec 和 MACRec 两种方法在不同桶索引下的代码分配情况。横轴为桶索引（每桶16个），纵轴为项目数量，分别显示了文本和图像的分布情况。

图4：第2层 RQ 层的码分配分布。

更均匀的分布： Figure 4 展示了 MACRec 和 MQL4GRec 在第二层 RQ 层中，每个码字（codewords）被分配到的物品数量。红色条代表文本语义 ID 的分配，蓝色条代表视觉语义 ID 的分配。码字按分配物品数量降序排列，每 16 个码字一组显示。
语义表示能力增强： 从图中可以观察到，MACRec 将物品更均匀地分配到各个码字中。相比之下，MQL4GRec 的分配更加集中，存在一些码字被分配了大量物品，而另一些则很少甚至没有被分配的情况。MACRec 这种更均匀的分布表明它更好地利用了码本容量，并提供了更优越的语义表示。这种改进得益于 MACRec 在量化过程中引入的跨模态对比学习，使得码字能够更好地捕捉不同模态的互补信息，从而减少了码本坍塌和未利用码字的问题。

6.5. 超参数分析

论文在 Instruments 数据集上分析了几个关键超参数对 MACRec 性能的影响，如图3所示。

Figure 3: Performance of MACRec over different hyper-parameters on Instruments.
该图像是图表，展示了MACRec在不同超参数下的性能，包括代码簿大小、语义ID长度、起始层、 $L_{con}$ 、 $L_{align}$ 和 $L_{implicit}$ 的影响。每个子图中，HR@10和NDCG@10的值通过不同颜色的柱状图呈现，显示出超参数变化对推荐性能的影响。图中给出了相应的数值，以反映各参数设置下的具体性能。

图3：MACRec 在 Instruments 数据集上不同超参数的性能。

码本大小 (Codebook Size)：
- 影响： 码本大小过小或过大都会降低性能。
- 分析： 过小的码本限制了量化空间和语义关联，导致无法有效区分物品。过大的码本则会稀释词元的曝光，使得模型难以学习到鲁棒的表示。存在一个最优的码本大小，能在表示能力和学习效率之间取得平衡。
语义 ID 长度 (Semantic ID Length)：
- 影响： 语义 ID 过短或过长都会降低性能。
- 分析： 过短的 ID 无法捕捉全面的语义信息，导致表示能力不足。过长的 ID 则会扩展生成空间，增加学习难度，从而降低性能。需要找到一个合适的长度，既能包含足够的语义信息，又能保持生成任务的可行性。
跨模态对比损失 $\mathcal{L}_{\mathrm{con}}^l$ 的起始层 (Starting Layer for $\mathcal{L}_{\mathrm{con}}^l$ )：
- 影响： 从第三层开始应用 $\mathcal{L}_{\mathrm{con}}^l$ 取得了最佳结果。
- 分析： 这表明让较晚的 VQ 层利用跨模态信号来补偿语义损失更为有效。早期层可能主要负责捕捉基础的、模态特定的信息，而后续层则更适合通过跨模态交互来细化残差，减少深层量化中的语义损失。
其他三个对比损失的权重 (Weights for other three contrastive losses)：
- 影响： 每个对比损失（ $\mathcal{L}_{\mathrm{align}}$ 、 $\mathcal{L}_{\mathrm{implicit}}$ 和显式对齐任务的损失）都有一个最优权重。
- 分析： 更高的权重会加强模态融合，但过高可能导致过拟合或特征混淆。较低的权重则可能导致跨模态交互不足。这强调了需要仔细调整这些权重，以在不同模态的互补性和独立性之间找到最佳平衡点。

7. 总结与思考

7.1. 结论总结

本文针对当前生成式推荐 (GR) 方法在语义标识符 (ID) 学习和生成模型训练中跨模态对齐和交互不足的问题，提出了 多方面跨模态量化生成式推荐 (Multi-Aspect Cross-modal Quantization for Generative Recommendation, MACRec) 模型。MACRec 在两个关键阶段引入了跨模态交互：

语义 ID 学习阶段： 引入了基于对比学习的跨模态量化方法，通过互补整合多模态信息，构建了具有层次语义且更独立的语义 ID。这有效降低了物品 ID 冲突率，并提高了码本的可用性和表示能力。
生成模型训练阶段： 整合了隐式对齐和显式对齐两种多方面跨模态对齐策略，进一步增强了模型对序列信息的理解和跨模态信息的整合能力。

通过在三个知名推荐数据集上的广泛实验，MACRec 证明了其在推荐系统中的优越性能，显著超越了包括最先进的生成式推荐模型在内的多个基线。此外，对码本利用率的分析也进一步验证了 MACRec 在码分配方面相比现有方法的优势。

7.2. 局限性与未来工作

论文作者在结论部分并未明确指出当前工作的具体局限性，也没有详细说明未来的研究方向。然而，基于对论文的理解，我们可以推断出一些潜在的局限性和可能的未来工作：

伪标签的质量： 论文使用 K-means 聚类生成伪标签，其质量会直接影响对比学习的效果。如果原始模态嵌入的聚类效果不佳，可能会限制跨模态对比学习的上限。未来工作可以探索更先进的自监督聚类方法或更鲁棒的伪标签生成机制。
计算成本： 多模态特征提取（LLaMA 和 ViT）、多层残差量化以及多个对比损失的引入，可能会增加模型的训练和推理成本。尤其是在大规模推荐场景下，如何优化效率是一个挑战。未来研究可以探索更轻量级的编码器或更高效的量化策略。
超参数敏感性： 从参数分析部分可以看出，模型的性能对码本大小、语义 ID 长度以及各种对比损失的权重较为敏感。如何自动或更鲁棒地确定这些超参数是未来可以探索的方向。
模态多样性： 目前的工作主要集中在文本和图像两种模态。未来可以探索整合更多模态信息，如视频、音频、用户行为日志中的结构化特征等，以构建更全面的物品表示。
生成式推荐的解释性： 生成式推荐在生成下一个物品的语义 ID 时，其决策过程的解释性可能不如传统的基于相似度或特征匹配的推荐方法直观。未来工作可以研究如何提高生成式推荐模型的解释性，以增强用户信任。
冷启动问题： 对于新物品或新用户，由于缺乏足够的交互数据，学习高质量的语义 ID 或生成准确的推荐可能会面临挑战。探索如何结合知识图谱、元学习等技术来缓解冷启动问题是一个重要的研究方向。

7.3. 个人启发与批判

多模态融合的深度与时机： 这篇论文给我最大的启发在于强调了多模态信息融合的深度和时机。以往许多多模态推荐模型仅仅是在后期融合不同模态的特征，而 MACRec 将跨模态交互前置到语义 ID 的学习阶段（通过跨模态量化），并在生成模型的训练阶段进一步强化对齐。这种“多方面”和“多阶段”的融合策略，尤其是在量化过程中引入对比学习，是其性能优越的关键。这提示我们在设计多模态模型时，应更早、更深入地考虑模态间的交互，而不仅仅是简单的拼接或后期融合。
语义 ID 的构建： 论文对语义 ID 的构建方式进行了深度优化，不仅关注语义的层次性，还通过对比学习和对齐机制降低了冲突率，提高了码本利用率。这对于生成式推荐而言至关重要，因为高质量的离散 ID 是后续生成任务的基础。这种 ID 设计思想可以推广到其他需要将连续表示转换为离散“词汇”的领域。
生成式推荐的潜力： MACRec 进一步展示了生成式推荐范式的巨大潜力。通过将推荐任务转化为序列生成问题，它能够利用大型语言模型强大的序列建模能力，为用户提供更富有个性化、更符合语境的推荐。未来，生成式推荐或许能够超越单纯的物品推荐，生成个性化的推荐理由、评论，甚至进行多轮对话式推荐。
批判性思考：
- 伪标签的潜在局限： 尽管 K-means 是一种简单有效的聚类方法，但它可能无法捕捉到复杂的非线性关系。如果数据集的底层语义结构高度复杂，K-means 伪标签的质量可能会限制跨模态对比学习的最终效果。更复杂的自监督聚类或图神经网络增强的聚类方法或许能提供更优质的伪标签。
- 模型复杂度与部署： 模型的架构相对复杂，包含了 LLaMA 和 ViT 作为特征提取器，以及多层 RQ-VAE 和 T5 作为 GR 骨干。这在实际工业部署中可能会面临较高的计算资源和延迟挑战，尤其是在追求低延迟的实时推荐场景。未来可能需要探索模型的剪枝、蒸馏或更轻量级的架构设计。
- 对齐损失的平衡： 论文中 $\lambda$ 参数的设置（如 $\lambda_{\mathrm{con}}^{0,1} = 0, \lambda_{\mathrm{con}}^{2,3} = 0.1$ ）表明不同层级的对比损失被赋予了不同的权重，甚至在早期层不使用。这可能意味着早期的量化层更注重捕捉模态内部的结构，而晚期层才适合引入跨模态的细粒度对齐。这个经验性的发现值得深入理论分析，以理解为什么这种分层对齐是有效的。

相似论文推荐

基于向量语义检索推荐的相关论文。

暂时没有找到相似论文。

Multi-Aspect Cross-modal Quantization for Generative Recommendation

TL;DR 精炼摘要

摘要

思维导图

论文精读

中文精读约 33 分钟读完 · 21,723 字

1. 论文基本信息

1.1. 标题

1.2. 作者

1.3. 发表期刊/会议

1.4. 发表年份

1.5. 摘要

1.6. 原文链接

2. 整体概括

2.1. 研究背景与动机

2.1.1. 研究背景

2.1.2. 核心问题与挑战 (Gap)

2.1.3. 论文的切入点或创新思路

2.2. 核心贡献/主要发现

2.2.1. 主要贡献

2.2.2. 关键结论与发现

3. 预备知识与相关工作

3.1. 基础概念

3.1.1. 生成式推荐 (Generative Recommendation, GR)

3.1.2. 量化 (Quantization)

3.1.3. 残差量化变分自编码器 (Residual Quantized Variational Autoencoder, RQ-VAE)

3.1.4. 多模态信息 (Multimodal Information)

3.1.5. 对比学习 (Contrastive Learning)

3.2. 前人工作与技术演进

3.2.1. 序列推荐 (Sequential Recommendation)

3.2.2. 生成式推荐 (Generative Recommendation)

3.3. 差异化分析

4. 方法论

4.1. 跨模态物品量化

4.1.1. 双模态伪标签生成 (Dual-modality Pseudo-label Generation)

4.1.2. 带有对比学习的跨模态量化 (Cross-modal Quantization with Contrastive Learning)

4.1.3. 跨模态重构对齐 (Cross-modal Reconstruction Alignment)

4.2. 多方面对齐的生成式推荐

4.2.1. 跨模态语义 ID 的隐式对齐 (Implicit Alignment for Cross-modal Semantic IDs)

4.2.2. 不同生成任务的显式对齐 (Explicit Alignment with Different Generation Tasks)

4.2.3. 训练目标与推理 (Training Objectives and Inference)

5. 实验设置

5.1. 数据集

5.2. 评估指标

5.2.1. 命中率 (Hit Rate, HR@K)

5.2.2. 归一化折损累计增益 (Normalized Discounted Cumulative Gain, NDCG@K)

5.3. 对比基线

5.4. 实现细节

6. 实验结果与分析

6.1. 核心结果分析

6.2. 消融实验/参数分析

6.3. 物品冲突率分析

6.4. 码分配分布分析

6.5. 超参数分析

7. 总结与思考

7.1. 结论总结

7.2. 局限性与未来工作

7.3. 个人启发与批判

相似论文推荐