论文状态：已完成

Q-BERT4Rec: Quantized Semantic-ID Representation Learning for Multimodal Recommendation

发表：2025/12/02

价格：0.100000

已有 4 人读过

本分析由 AI 生成，可能不完全准确，请以原文为准。

TL;DR 精炼摘要

本文提出了一种名为Q-BERT4Rec的多模态序列推荐框架，旨在结合语义表示和量化建模，以克服传统推荐方法的不足。通过跨模态语义注入、语义量化和多掩码预训练，该模型显著提升了推荐系统的泛化能力和可解释性，在公共Amazon基准测试中表现优异。

摘要

Sequential recommendation plays a critical role in modern online platforms such as e-commerce, advertising, and content streaming, where accurately predicting users' next interactions is essential for personalization. Recent Transformer-based methods like BERT4Rec have shown strong modeling capability, yet they still rely on discrete item IDs that lack semantic meaning and ignore rich multimodal information (e.g., text and image). This leads to weak generalization and limited interpretability. To address these challenges, we propose Q-Bert4Rec, a multimodal sequential recommendation framework that unifies semantic representation and quantized modeling. Specifically, Q-Bert4Rec consists of three stages: (1) cross-modal semantic injection, which enriches randomly initialized ID embeddings through a dynamic transformer that fuses textual, visual, and structural features; (2) semantic quantization, which discretizes fused representations into meaningful tokens via residual vector quantization; and (3) multi-mask pretraining and fine-tuning, which leverage diverse masking strategies -- span, tail, and multi-region -- to improve sequential understanding. We validate our model on public Amazon benchmarks and demonstrate that Q-Bert4Rec significantly outperforms many strong existing methods, confirming the effectiveness of semantic tokenization for multimodal sequential recommendation. Our source code will be publicly available on GitHub after publishing.

思维导图

论文精读

中文精读约 38 分钟读完 · 25,404 字

1. 论文基本信息

1.1. 标题

Q-BERT4Rec: Quantized Semantic-ID Representation Learning for Multimodal Recommendation （Q-BERT4Rec：多模态推荐中量化语义 ID 表示学习）

1.2. 作者

Haofeng Huang¹ 和 Ling Gai^2*。他们均隶属于上海理工大学 (University of Shanghai for Science and Technology)，中国上海。其中 Ling Gai 是通讯作者。

1.3. 发表期刊/会议

这篇论文在摘要和 ACM 参考格式中提到 "In Proceedings of Make sure to enter the correct conference title from your rights confirmation email (Conference acronym 'XX). ACM, New York, NY, USA, 10 pages."，这表明它是一篇会议论文，但具体的会议名称在提供的文本中是占位符（'XX）。因此，我们无法确定具体的会议。然而，ACM 作为出版方，确保了其在计算机科学领域的学术质量和影响力。

1.4. 发表年份

2025年12月02日（UTC）。

1.5. 摘要

序列推荐 (Sequential recommendation) 在现代在线平台中扮演着关键角色，对于个性化推荐至关重要。近期基于 Transformer (Transformer) 的方法，如 BERT4Rec，展现出强大的建模能力，但它们仍依赖于缺乏语义意义的离散物品 ID (discrete item IDs)，并忽略了丰富的多模态信息 (multimodal information)（例如文本和图像）。这导致泛化能力弱和可解释性受限。为解决这些挑战，本文提出了 Q-BERT4Rec，一个统一语义表示 (semantic representation) 和量化建模 (quantized modeling) 的多模态序列推荐框架。具体而言，Q-BERT4Rec 包含三个阶段：(1) 跨模态语义注入 (cross-modal semantic injection)，通过动态 Transformer (dynamic Transformer) 融合文本、视觉和结构特征，丰富随机初始化的 ID 嵌入 (ID embeddings)；(2) 语义量化 (semantic quantization)，通过残差向量量化 (residual vector quantization) 将融合的表示离散化为有意义的词元 (meaningful tokens)；(3) 多掩码预训练和微调 (multi-mask pretraining and fine-tuning)，利用多样化的掩码策略——span mask（跨度掩码）、tail mask（尾部掩码）和 multi-region mask（多区域掩码）——来提高序列理解能力。模型在公共 Amazon 基准测试上进行了验证，结果表明 Q-BERT4Rec 显著优于许多现有强基线方法，证实了语义词元化 (semantic tokenization) 对多模态序列推荐的有效性。论文的源代码将在发布后公开。

1.6. 原文链接

原文链接: https://arxiv.org/abs/2512.02474v1 PDF 链接: https://arxiv.org/pdf/2512.02474v1.pdf 发布状态: 预印本 (arXiv preprint)。

2. 整体概括

2.1. 研究背景与动机

核心问题： 现代在线平台（如电子商务、广告、内容流媒体）中的序列推荐系统面临的核心挑战是：如何准确预测用户的下一个交互行为，以实现有效的个性化。

现有研究的挑战与空白：

Transformer 基线模型的局限性： 尽管像 BERT4Rec 这样的基于 Transformer 的模型在序列推荐中表现出色，但它们通常依赖于离散的物品 ID (discrete item IDs)。这些 ID 缺乏内在的语义意义，并且无法有效利用物品所附带的丰富多模态信息（如文本描述、产品图片等）。
泛化能力与可解释性不足： 这种对非语义 ID 的依赖导致模型在处理新物品或跨领域推荐时泛化能力 (generalization) 较弱，同时模型对用户偏好的解释性也受限。
现有量化/多模态模型的不足： 现有的多模态或量化模型（如 MQL4GRec、DiffMM）存在以下问题：
- MQL4GRec 对不同模态独立进行量化，导致各模态码本 (codebook) 分布不一致，削弱了共享语义空间。
- DiffMM 主要侧重于去噪过程，而非细粒度的多模态融合 (multimodal fusion)。
- 这些模型要么进行静态多模态融合，缺乏自适应性，要么将量化与序列建模解耦，限制了可解释性和泛化能力。

论文的切入点与创新思路： 本文受到 Residual Vector Quantization (RQ-VAE) 和预训练-微调 (pretraining-finetuning) 范式在自然语言生成 (natural language generation) 中的成功启发。作者设想将推荐系统中的物品 ID 替换为具有丰富语义的“语义 ID (semantic IDs)”，这些语义 ID 是由量化的语义词元 (quantized semantic tokens) 序列构成的。这种新范式旨在将物品表示为一种“语言”，其中每个码本词元 (codebook token) 都是一个语义原子，类似于词汇表中的单词。通过这种方式，推荐可以被重构为物品的语言，交互被建模为由语义词元组成的句子。

2.2. 核心贡献/主要发现

本文提出了 Q-BERT4Rec，一个新颖的量化 BERT 风格多模态序列推荐框架。其主要贡献和发现总结如下：

统一语义表示学习与离散词元建模： 首次提出了一个统一框架，将物品的语义表示学习 (semantic representation learning) 与离散词元建模 (discrete token modeling) 相结合，解决了传统 ID 缺乏语义的问题。
三阶段架构： 设计了一个由三个核心阶段组成的架构：
1. 动态跨模态语义注入模块 (Dynamic Cross-Modal Semantic Injection Module)： 实现了自适应 (adaptive) 的多模态融合，通过一个可学习的门控机制 (gating mechanism) 控制融合深度，使模型能够根据物品内容自适应地注入文本、视觉和结构特征，从而生成语义丰富的 ID 嵌入 (ID embeddings)。
2. 残差向量量化机制 (Residual Vector Quantization Mechanism)： 将融合后的连续嵌入转换为紧凑、可解释的语义 ID (semantic IDs)，这些 ID 替代了原始的物品 ID，作为新的建模单元。
3. 多掩码预训练策略 (Multi-Mask Pretraining Strategy)： 引入了 span mask（跨度掩码）、tail mask（尾部掩码）和 multi-region mask（多区域掩码）三种互补的掩码策略，以增强模型对局部连续性 (local continuity) 和长程关联 (long-range correlations) 的时间推理能力 (temporal reasoning) 和鲁棒性 (robustness)。
显著的性能提升： 在三个公共 Amazon 基准数据集上进行了广泛的实验和分析，结果表明 Q-BERT4Rec 在 Hit Ratio (HR@K) 和 Normalized Discounted Cumulative Gain (NDCG@K) 等评价指标上显著优于多个现有强基线方法。
验证了语义词元化的有效性： 实验结果证实，统一语义融合 (semantic fusion) 和量化建模 (quantized modeling) 有效地弥合了连续多模态表示 (continuous multimodal representations) 和离散推荐推理 (discrete recommendation reasoning) 之间的差距。

3. 预备知识与相关工作

3.1. 基础概念

序列推荐 (Sequential Recommendation): 一种推荐系统范式，旨在通过分析用户历史交互序列（例如，用户按时间顺序浏览或购买的物品），预测用户在未来最可能交互的下一个物品。它特别关注用户偏好的动态演变和短期意图。
Transformer (Transformer): 一种基于自注意力机制 (self-attention mechanism) 的神经网络架构，最初为自然语言处理 (NLP) 任务设计。其核心是能够并行处理输入序列，并捕获序列中任意两个位置之间的长程依赖关系，极大地提高了序列建模的效率和效果。
BERT4Rec (BERT4Rec): 一种基于 Transformer 的序列推荐模型，借鉴了 BERT 在 NLP 中的思想。它使用双向 Transformer 编码器和 Masked Language Modeling (MLM) 目标来预测序列中被掩盖的物品，从而学习物品的上下文表示。
多模态信息 (Multimodal Information): 指从不同数据模态中获取的信息，例如：
- 文本特征 (Textual Features): 物品的标题、描述、评论等文字信息。
- 视觉特征 (Visual Features): 物品的图片、视频等图像信息。
- 结构化特征 (Structural Features): 物品的类别、品牌、属性等结构化元数据。整合这些信息可以提供比单一模态更丰富、更全面的物品表示。
离散物品 ID (Discrete Item IDs): 传统的推荐系统中，每个物品通常被赋予一个唯一的整数 ID。这些 ID 本身是任意的、无语义的，无法直接携带物品的内在属性或含义，也难以在不同领域之间直接传递知识。
向量量化 (Vector Quantization, VQ): 一种数据压缩技术，将连续的输入向量映射到一组预定义或学习到的离散码字 (codewords) 集合（即码本 codebook）中的一个。每个码字代表输入空间中的一个区域，通过选择最近的码字来实现离散化。
残差向量量化 (Residual Vector Quantization, RQ-VAE): VQ 的一种变体，通过多级量化来逐步细化表示。它不是一次性量化整个向量，而是在每一级量化前计算当前残差向量 (residual vector)，然后量化这个残差，并将量化结果叠加起来。这允许模型以更紧凑的方式捕获更精细的语义信息。
自注意力机制 (Self-Attention Mechanism): Transformer 架构的核心组件。它允许模型在处理序列中的某个元素时，动态地权衡序列中所有其他元素的重要性。通过计算 Query (Q)、Key (K) 和 Value (V) 向量之间的点积，并经过 softmax 归一化，得到一个注意力权重分布，然后将这些权重应用于 Value 向量的加权和，从而生成上下文感知的表示。其核心公式为： $\mathrm{Attention}(Q, K, V) = \mathrm{softmax}\left(\frac{QK^T}{\sqrt{d_k}}\right)V$ 其中， $Q$ 是查询矩阵， $K$ 是键矩阵， $V$ 是值矩阵， $d_k$ 是键向量的维度，用于缩放点积。

3.2. 前人工作

序列推荐的演进：
- 早期神经网络方法： GRU4Rec [14] 利用循环神经网络 (Recurrent Neural Network, RNN) 中的门控循环单元 (Gated Recurrent Unit, GRU) 捕捉时间动态。Caser [23] 采用卷积神经网络 (Convolutional Neural Network, CNN) 捕获局部序列模式。
- 自注意力模型的兴起： SASRec [16] 引入自注意力机制，显著提升了长程依赖建模和并行训练效率。
- Transformer 骨干： BERT4Rec [22] 将双向 Transformer 编码器和 masked item prediction 引入序列推荐，奠定了后续许多 Transformer 基模型的基础。
- 增强表示学习： CL4SRec [29] 和 DuoRec [19] 通过对比学习 (contrastive learning) 增强表示鲁棒性。FDSA [34] 结合特征级注意力 (feature-level attention) 利用辅助属性。 $S^3-Rec$ [35] 引入自监督学习 (self-supervised learning) 任务。
多模态推荐的进展：
- 早期多模态集成： VBPR [10] 将视觉特征整合到矩阵分解 (matrix factorization) 中。
- 图神经网络 (GNN) 应用： MMGCN [28] 使用 GNN 传播多模态信号。LATTIICE [33] 构建模态特定的物品-物品图。DuaIGNN [26] 建模用户偏好与物品内容间的跨模态注意力。MVGAG [30] 通过变分自编码器 (Variational Autoencoder, VAE) 整合多模态嵌入。
- 预训练大模型 (Foundation Models) 融合： VIP5 [9] 将 CLIP 图像编码器与 P5 框架结合。MMGRec [17] 利用 Graph RQ-VAE 从多模态和协同信号中构建物品 ID。IISAN [7] 提出了轻量级多模态适配的 PEFT 架构。
生成式与量化推荐：
- 推荐即语言生成： P5 [8], M6-Rec [3], TIGER [21] 将推荐重构为语言或序列生成问题，通过提示微调 (prompt tuning) 或词元化 (tokenization) 统一任务。
- 量化语义 ID： P5-ID [13] 探讨物品标识符设计对可迁移性的影响。ColaRec [27] 通过编码协同信号构建生成式物品 ID。TIGER [21] 首次将 RQ-VAE [31] 应用于构建离散物品 ID。MQL4GRec [32] 进一步量化多模态嵌入为统一的“量化语言 (quantitative language)”。

3.3. 技术演进

该领域的技术演进路径清晰地从以下几个阶段发展而来：

基于 ID 的早期模型： 最开始的推荐系统依赖于物品的原始 ID，这些 ID 仅仅是标识符，不携带任何语义信息。GRU4Rec、SASRec 等模型主要关注用户行为序列中的模式，但物品本身是黑盒。
Transformer 的引入： BERT4Rec 引入 Transformer 架构，使得模型能够更好地捕获序列中的复杂依赖关系，但物品依然是离散的、无语义的 ID。
多模态信息的融合： 认识到 ID 信息的不足，研究人员开始探索将物品的文本、图片等辅助信息融入推荐模型，以丰富物品表示。VBPR、MMGCN 等是这一阶段的代表。
生成式推荐与预训练大模型： 近年来，受 Large Language Models (LLMs) 成功的启发，推荐系统开始尝试将推荐任务转化为文本生成问题，并利用预训练语言模型 (Pre-trained Language Models, PLMs) 的强大泛化能力。P5、VIP5 等是典型代表。
量化与语义 ID： 为了桥接连续多模态特征和离散语义表示，同时保持可解释性和效率，Vector Quantization (VQ) 技术开始被引入。TIGER 和 MQL4GRec 率先将 RQ-VAE 用于构建语义 ID。

本文的工作 Q-BERT4Rec 正处于第五个阶段，并在此基础上进行了创新。

3.4. 差异化分析

Q-BERT4Rec 与相关工作中的主要方法相比，核心区别和创新点在于：

与传统 ID-based 方法（如 BERT4Rec, SASRec）的区别： 传统方法依赖于无语义的离散物品 ID。Q-BERT4Rec 通过多模态语义注入和量化，将这些无语义 ID 转换为富含语义的“语义 ID”，显著提升了表示能力、泛化性和可解释性。
与多模态融合方法（如 MMGCN, VIP5）的区别： 多数多模态方法直接将提取的模态特征融合到推荐模型中。Q-BERT4Rec 不仅融合多模态特征，还通过动态 Transformer (Dynamic Transformer) 实现自适应融合 (adaptive fusion)，并进一步通过语义量化 (Semantic Quantization) 将连续的多模态表示转化为离散的、可迁移的语义 ID。VIP5 虽然结合了 CLIP，但它依赖于语言先验而不是学习的物品语义。
与现有量化推荐方法（如 TIGER, MQL4GRec）的区别：
- TIGER 首次使用 RQ-VAE 构建离散语义物品 ID，但 Q-BERT4Rec 引入了更复杂的动态跨模态语义注入，以更自适应和精细的方式融合多模态信息。
- MQL4GRec 也量化多模态嵌入，但它存在独立量化各模态导致码本分布不一致的问题。Q-BERT4Rec 通过将多模态融合置于量化之前，确保了统一的语义空间，并进一步引入了多掩码预训练策略 (Multi-Mask Pretraining Strategy) 来增强序列理解和鲁棒性。
核心创新点： Q-BERT4Rec 统一了 动态自适应的多模态语义融合、残差向量量化生成语义 ID 和 多样化掩码策略预训练 三个阶段，形成了一个端到端的框架，有效弥合了连续语义和离散推理之间的鸿沟，从而在推荐性能、泛化能力和可解释性方面都取得了显著提升。

4. 方法论

4.1. 方法原理

Q-BERT4Rec 的核心思想是克服传统序列推荐模型对离散、无语义物品 ID 的依赖，通过引入语义 ID (semantic IDs) 来丰富物品表示，从而提升模型的泛化能力和可解释性。它将每个物品表示为一系列量化的语义词元 (quantized semantic tokens)，这些词元封装了物品的多模态（文本、视觉、结构）语义。整个框架通过一个三阶段的流水线来实现：首先，将多模态信息动态地注入到物品 ID 嵌入中；其次，通过残差向量量化 (Residual Vector Quantization, RQ-VAE) 将这些语义丰富的连续嵌入离散化为紧凑的语义词元序列；最后，利用多掩码预训练 (multi-mask pretraining) 策略在用户交互序列上进行训练，以学习序列模式并预测下一个物品。

4.2. 核心方法详解

Q-BERT4Rec 的整体架构如图 2（原文 Figure 2）所示，它由三个主要阶段组成：动态跨模态语义注入 (Dynamic Cross-Modal Semantic Injection)、语义量化 (Semantic Quantization) 和多掩码预训练和微调 (Multi-Mask Pretraining and Fine-Tuning)。

fig 5 该图像是Q-BERT4Rec模型的示意图，详细展示了动态跨模态语义注入、语义量化以及预训练和微调的流程。包含了不同的掩码策略如范围掩码、尾部掩码和多掩码，以增强序列理解能力。

图 2 (原文 Figure 2): Q-Bert4Rec 的概览。Q-Bert4Rec 由三个主要阶段组成：动态跨模态语义注入、语义量化以及多掩码预训练和微调。

4.2.1. 问题定义 (Problem Formulation)

设 $\mathcal{U} = \{u_{1},\ldots ,u_{N}\}$ 为用户集合， $i = \{\mathrm{i}_1,\ldots ,\mathrm{i}_M\}$ 为物品集合。每个用户 $u\in \mathcal{U}$ 有一个交互序列 $S_{u} = \{i_{1},i_{2},\ldots ,i_{T_{u}}\}$ ，其中 $i_{t}\in \mathcal{I}$ 是在时间戳 $t$ 交互的物品， $T_{u}$ 是序列长度。 传统 ID-based 方法的目标： 预测下一个物品 $\hat{i}_{T_{ut} + 1}$ ，其条件是历史序列： $\hat{i}_{T_{ut} + 1} = \arg \max_{i\in \mathcal{I}}P(i\mid \mathcal{S}_u;\Theta) \quad (1)$ 其中 $\Theta$ 表示模型参数。

Q-BERT4Rec 的目标： 与传统方法不同，每个物品 $i$ 不再由任意整数表示，而是由多模态特征 $\mathbf{x}_{i} = \{\mathbf{x}_i^{(t)},\mathbf{x}_i^{(v)},\mathbf{x}_i^{(s)}\}$ 表示，其中 $\mathbf{x}_i^{(t)},\mathbf{x}_i^{(v)}$ 和 $\mathbf{x}_i^{(s)}$ 分别表示文本、视觉和结构化表示。模型的目标是学习一个量化映射 $f_{\mathrm{quant}}:\mathbf{x}_i\mapsto \mathbf{z}_i$ ，将多模态内容转换为紧凑的离散代码 $\mathbf{z}_i = [\mathbf{z}_i^1,\mathbf{z}_i^2,\ldots ,\mathbf{z}_i^K]$ ，其中每个 $\mathbf{z}_i^k\in \{1,2,\ldots ,M_c\}$ 索引来自大小为 $M_{c}$ 的码本 $\mathcal{C}$ 中的一个语义词元 (semantic token)。这些离散代码构成了新的建模单元——语义 ID (semantic ID)。 新的预测目标： 学习给定语义 ID 序列的下一个物品的条件分布： $P(\hat{\boldsymbol{t}}_{T u + 1}|\mathcal{Z}_{u};\Theta),\qquad \mathcal{Z}_{u} = [\mathbf{z}_{i_{1}},\mathbf{z}_{i_{2}},\ldots ,\mathbf{z}_{i_{T_{u}}}]. \quad (2)$ 这旨在连接连续的多模态语义和离散的词元级建模，从而实现可解释性和高效的知识迁移。

此模块旨在将多模态语义注入到随机初始化的物品 ID 嵌入中，使模型能够在量化前对来自文本和图像的异构信息进行对齐和融合。这是 Q-BERT4Rec 的第一阶段，为每个物品生成一个语义丰富的嵌入 $\mathbf{h}_i$ 。

输入与注意力结构 (Input and attention structure): 对于每个物品 $i$ ，模型维护一个可学习的 ID 向量 $\mathbf{q}_{i}$ 作为 query。同时，从预训练的文本和图像编码器中提取模态特定的特征 $\mathbf{x}_i^{(t)}$ 和 $\mathbf{X}_i^{(v)}$ 作为 keys 和 values。在跨模态注意力块中， $\mathbf{q}_i$ 代表物品身份，而 $\mathbf{x}_i^{(t)}$ 和 $\mathbf{X}_i^{(v)}$ 提供互补的多模态证据。
基于相似度的对齐 (Similarity-based alignment): 在融合之前，模型对 $\mathbf{q}_{i}$ 和每个模态之间进行轻量级的相似度对齐。每个模态特征首先被归一化并投影到共享的潜在空间，然后计算余弦相似度 (cosine similarity) 来衡量其与 ID 嵌入的相关性。相似度分数被转换为软权重 (soft weights)，并用于获得每个模态的加权表示： $\hat{\mathbf{x}}_i^{(m)} = \sum_j\mathrm{softmax}\left(\frac{\mathbf{q}_i^\tau\mathbf{x}_{ij}^{(m)}}{\tau}\right)\mathbf{x}_{ij}^{(m)},m\in \{t,v\} \quad (3)$ 其中， $\mathbf{q}_i$ 是物品的初始可学习 ID 向量（即 query）， $\mathbf{x}_{ij}^{(m)}$ 是模态 $m$ （ $t$ 代表文本， $v$ 代表视觉）的第 $j$ 个特征向量（作为 key 或 value）， $\tau$ 是一个温度参数。这个步骤使得模型能够关注与物品 ID 最具语义相关性的模态特征。
动态跨模态融合 (Dynamic cross-modal fusion): 对齐后的文本和视觉表示被输入到 Dynamic Cross-Modal Transformer $\mathcal{T}_{dyn}$ 中，其中 $\mathbf{q}_i$ 作为 query， $\{\hat{\mathbf x}_i^{(t)};\hat{\mathbf x}_i^{(v)}\}$ 作为 key-value 输入。每个 Transformer 层融合多模态语义并更新 query 嵌入： $\mathbf{h}_i^{(l)} = \mathrm{TransformerBlock}(\mathbf{h}_i^{(l - 1)},[\hat{\mathbf{x}}_i^{(t)};\hat{\mathbf{x}}_i^{(v)}]). \quad (4)$ 其中， $\mathbf{h}_i^{(l)}$ 是第 $l$ 层融合后的物品嵌入， $\mathbf{h}_i^{(l - 1)}$ 是上一层的输出，TransformerBlock 是一个标准的 Transformer 编码器层，它将前一层的输出和对齐后的多模态特征作为输入。为了自适应地控制融合深度，每个层输出一个门控向量 (gating vector) $\mathbf{g}_i^{(l)} = \sigma (\mathrm{MLP}(\mathbf{h}_i^{(l)}))$ ，其中 $\sigma (\cdot)$ 表示 sigmoid 激活函数。这个门控向量通过一个小的多层感知机 (Multilayer Perceptron, MLP) 计算得出，并直接决定每个物品是否继续或停止传播到更深的层。这使得模型能够对具有更丰富语义的物品进行更深层次的处理，而较简单的物品则可以提前终止融合。
训练目标 (Training objective): 为确保多模态表示之间的一致对齐，模型采用多视图对比损失 (multi-view contrastive loss)，联合优化融合表示 $\mathbf{h}_i$ 、模态对齐特征和原始 ID 向量之间的相似性。总损失定义为： $\mathcal{L}_{\mathrm{align}} = \mathcal{L}_{it} + \mathcal{L}_{iv} + \mathcal{L}_{tv} + \lambda \| \mathbf{h}_i - \mathrm{sg}(\mathbf{q}_i)\|_{2}^{2}, \quad (5)$ 其中， $\mathcal{L}_{it}, \mathcal{L}_{iv},\mathcal{L}_{tv}$ 是融合嵌入与文本嵌入、融合嵌入与视觉嵌入、文本嵌入与视觉嵌入之间的对称 InfoNCE 损失 (InfoNCE losses)。这些项鼓励跨模态对齐。 $\mathrm{sg}(\cdot)$ 表示 stop-gradient 操作符，它在反向传播时阻止梯度流过其参数。 $\lambda$ 是一个超参数，用于平衡一致性项的权重。最后， $\| \mathbf{h}_i - \mathrm{sg}(\mathbf{q}_i)\|_{2}^{2}$ 是一致性项，它迫使融合后的 $\mathbf{h}_i$ 保持与原始 ID 向量 $\mathbf{q}_i$ 的语义一致性，并稳定训练。最终输出的 $\mathbf{h}_i$ 代表了注入了文本和视觉知识以及原始 ID 表示的语义注入嵌入。它将作为下一个语义量化阶段的输入。

4.2.3. 语义量化 (Semantic Quantization)

在获得语义注入嵌入 $\mathbf{h}_i$ 后，模型通过 Residual Vector Quantized Variational Autoencoder (RQ-VAE) 将其转换为离散且紧凑的表示。此阶段旨在弥合连续语义表示和离散物品标识符之间的差距，使每个物品能够通过一组保留多模态含义的语义词元来表示。

量化过程 (Quantization process): 给定语义嵌入 $\mathbf{h}_i \in \mathbb{R}^d$ ，RQ-VAE 的编码器首先将其投影到一个潜在空间以生成 $\mathbf{z}_i$ 。然后，残差向量量化以分层方式将 $\mathbf{z}_i$ 离散化为 $K$ 个码本： $\hat{\mathbf{z}}_i = \sum_{k = 1}^{K}\mathbf{e}_q^{(k)},\quad \mathbf{e}_q^{(k)} = \arg \min_{\mathbf{e}\in \mathcal{C}^{(k)}}\| \mathbf{r}_i^{(k - 1)} - \mathbf{e}\|_{2}^{2}, \quad (6)$ 其中， $\hat{\mathbf{z}}_i$ 是最终的量化代码，由 $K$ 个来自不同码本的码字（codewords）相加得到。 $\mathcal{C}^{(k)}$ 表示第 $k$ 个码本，其中包含一组离散的码字。 $\mathbf{e}_q^{(k)}$ 是从第 $k$ 个码本 $\mathcal{C}^{(k)}$ 中选择的码字，它是与当前残差向量 $\mathbf{r}_i^{(k - 1)}$ 距离最近的码字。初始残差向量 $\mathbf{r}_i^{(0)} = \mathbf{z}_i$ （由编码器从 $\mathbf{h}_i$ 投影得到），后续的残差向量 $\mathbf{r}_i^{(k)} = \mathbf{r}_i^{(k - 1)} - \mathbf{e}_q^{(k)}$ 是前一个残差向量减去当前层选择的码字。这种残差细化允许 RQ-VAE 在保持紧凑离散表示的同时，建模细粒度的语义。最终的量化代码 $\hat{\mathbf{z}}_i$ 作为物品 $i$ 的语义 ID (semantic ID)，替换了原始的符号标识符。
重建与损失 (Reconstruction and loss): 解码器从量化表示 $\hat{\mathbf{z}}_i$ 重建原始语义嵌入 $\mathbf{h}_i$ 。整个训练目标包含两部分：用于保留语义信息的重建损失 (reconstruction loss) 和用于稳定码本学习的量化损失 (quantization loss)。重建损失定义为： $\mathcal{L}_{\mathrm{recon}} = \| \mathbf{h}_i - \hat{\mathbf{h}}_i\| _2^2, \quad (7)$ 其中 $\mathbf{h}_i$ 是原始语义注入嵌入， $\hat{\mathbf{h}}_i$ 是解码器从量化表示 $\hat{\mathbf{z}}_i$ 重建的嵌入。这确保解码器能够忠实地从量化嵌入重建输入语义。量化正则化遵循 RQ-VAE 中的标准 commitment 公式： $\mathcal{L}_{\mathrm{rq}} = \sum_{k = 1}^{K}\left(\left\| \mathbf{sg}[\mathbf{z}_i^{(k)}] - \mathbf{e}_q^{(k)}\right\| _2^2 +\beta \|\mathbf{z}_i^{(k)} - \mathbf{sg}[\mathbf{e}_q^{(k)}]\| _2^2\right), \quad (8)$ 其中， $\mathrm{sg}[\cdot]$ 表示 stop-gradient 操作符。 $\mathbf{z}_i^{(k)}$ 是编码器在第 $k$ 层输出的潜在向量（在选择码字之前）。 $\mathbf{e}_q^{(k)}$ 是在第 $k$ 个码本中选择的码字。 $\beta$ 是 commitment weight，用于控制码本的稳定性。该损失项包含两部分：第一部分鼓励编码器输出的潜在向量 $\mathbf{z}_i^{(k)}$ 接近选择的码字 $\mathbf{e}_q^{(k)}$ （确保码字的有效利用），第二部分（通过 stop-gradient）确保编码器学习到的潜在向量 $\mathbf{z}_i^{(k)}$ 能够更好地被码字 $\mathbf{e}_q^{(k)}$ 代表，同时更新码本。最终，总损失结合了这两个目标： $\mathcal{L}_{\mathrm{quant}} = \mathcal{L}_{\mathrm{recon}} + \mathcal{L}_{\mathrm{rq}}, \quad (9)$ 这种联合优化确保了紧凑的码本利用和语义的保留。
处理冲突 (Handling collisions): 在实践中，多个物品可能被量化为相同的词元序列，导致码冲突 (code collisions)。为了缓解这种情况，模型采用了 MQL4GRec [32] 中提出的重新分配策略。对于 $N$ 个冲突物品，模型首先计算残差向量与各层码字之间的距离张量 $\pmb {\mathrm{D}}\in \mathbb{R}^{N\times L\times K}$ ： $d_{i}^{(k)} = \| \mathbf{r}_{i}^{(k)} - \mathbf{v}^{(k)}\|_{2}^{2}. \quad (10)$ 其中， $d_{i}^{(k)}$ 表示物品 $i$ 在第 $k$ 个量化层（level）的残差向量 $\mathbf{r}_{i}^{(k)}$ 与码本中的码字 $\mathbf{v}^{(k)}$ 之间的欧氏距离。然后，模型对这些距离进行排序以获取索引 $\mathrm{I} = \mathrm{argsort}(\mathrm{D},\mathrm{axis} = 2)$ 。冲突物品根据它们到最后一级码本的最小距离进行排名，并根据以下原则重新分配词元：(1) 从最后一个码本开始，每个物品接收最近的可用词元；(2) 如果冲突仍然存在，则依次向上重新分配到更早的码本，直到所有冲突解决。这种分层重新分配确保了语义相近的物品保持接近，同时保持了物品之间的代码多样性。
输出表示 (Output representation): 每个量化嵌入 $\hat{\mathbf{z}}_i$ 都会产生一个离散索引序列 $[\mathbf{z}_i^1,\mathbf{z}_i^2,\ldots ,\mathbf{z}_i^K]$ ，其中每个索引对应于学习到的码本中的一个码字。为了为下游推荐任务形成统一的词汇表，这些索引被序列化为符号词元 (symbolic tokens)，为每个码本添加一个小写标识符前缀，例如 $<a_2><b_3><c_1><d_6>$ ，其中 a-d 表示码本标识符，下标表示词元索引。这种紧凑且可解释的词元化使得模型能够用有意义的语义 ID (semantic IDs) 替换任意物品 ID，作为后续序列推荐和预训练阶段的基本建模单元。

4.2.4. 多掩码预训练 (Multi-Mask Pretrain)

在获得量化的语义 ID 后，模型在用户交互序列上进行预训练 (pretraining)，以增强模型理解多模态语义和时间依赖关系的能力。与传统的 BERT4Rec 风格目标（依赖单一随机掩码策略）不同，本文引入了多掩码预训练策略，利用三种互补的掩码方案——span mask（跨度掩码）、tail mask（尾部掩码）和 multi-region mask（多区域掩码）——来捕获短期转换 (short-term transitions) 和长程上下文关系 (long-range contextual relations)。

掩码策略 (Masking strategies): 为了丰富预训练信号并提高鲁棒性，模型设计了三种在训练期间共同采样的掩码方案：
- 跨度掩码 (Span masking): 连续的词元段被掩盖，鼓励模型建模用户会话内的局部连贯性 (local coherence) 和短期物品转换。
- 尾部掩码 (Tail masking): 序列的最后几个词元被掩盖，以模拟下一个物品预测 (next-item prediction)，使模型能够根据历史行为预测未来的交互。
- 多区域掩码 (Multi-region masking): 几个非连续的区域被随机掩盖，要求模型从附近和遥远的上下文推断缺失的词元，从而增强其长程推理能力。

4.2.5. 训练和微调 (Training and Fine-tuning)

训练 (Training): 模型遵循预训练和微调的两阶段范式。
- 预训练阶段 (Pretraining): 利用大规模多领域数据集学习通用的推荐先验知识 (general recommendation priors)。此阶段使模型能够捕获跨领域的序列模式和多模态语义，为下游个性化任务奠定基础。
- 微调阶段 (Fine-tuning): 使用标准掩码预测目标 (masked prediction objective) 将预训练模型适配到目标领域数据集。两个阶段的目标函数是相同的，给定用户的语义交互序列 $\mathcal{Z}_u = [\mathbf{z}_i_1,\mathbf{z}_i_2,\ldots ,\mathbf{z}_{i_{_{\ell_b}}}]$ , 其中 $\ell_b$ 是序列长度，模型会随机掩盖一部分词元，并训练模型根据其周围上下文恢复被掩盖的词元： $\mathcal{L}_{\mathrm{mask}} = -\sum_{t\in \mathcal{M}}\log P_{\theta}(\mathbf{z}_it\mid \mathcal{Z}_u^{\backslash M}), \quad (11)$ 其中， $\mathcal{M}$ 表示被掩盖位置的集合， $\mathcal{Z}_u^{\backslash \mathcal{M}})$ 表示未被掩盖的序列， $\mathbf{z}_it$ 是在位置 $t$ 被掩盖的语义词元。这个目标鼓励模型理解序列中的时间依赖性和用户偏好演变。
推断 (Inference): 在推断时，模型掩盖用户序列中的最后一个交互，并预测最可能的语义 ID 作为下一个物品： $\hat{t}_{T_{\mathrm{t}} + 1} = \arg {\mathrm{max}_{i\in \mathcal{I}}}P_{\theta}(\boldsymbol{z}_i\mid \boldsymbol {z}_{i_1},\dots ,\boldsymbol {z}_{i_{T_{\mathrm{t}} - \mathrm{1}}})$ 。这个简单而有效的过程允许模型利用预训练的多模态先验知识和领域特定的序列知识进行准确的下一个物品推荐。

5. 实验设置

5.1. 数据集

实验使用了广泛使用的 Amazon Product Reviews dataset [18]，该数据集包含从 Amazon 收集的不同领域的用户-物品交互历史记录，包括用户评论、评分和时间戳，非常适合评估跨领域序列推荐。

为了验证 Q-BERT4Rec 框架的可迁移性 (transferability) 和泛化能力 (generalization ability)，数据集被分为两部分用于预训练 (pretraining) 和微调 (fine-tuning)。

预训练源域 (Source Domains for Pretraining): 使用六个源域进行预训练：Pet Supplies（宠物用品）、Cell Phones and Accessories（手机及配件）、Automotive（汽车）、Tools and Home Improvement（工具和家居改善）、Toys and Games（玩具和游戏）以及 Sports and Outdoors（运动和户外）。这些领域提供了丰富多样的行为序列，帮助模型学习通用的推荐先验知识 (general recommendation priors)。

微调目标域 (Target Domains for Fine-tuning): 选择了三个具有不同用户行为和物品分布的目标域进行微调：Musical Instruments（乐器）、Arts, Crafts and Sewing（艺术、工艺和缝纫）以及 Video Games（视频游戏）。这种设置旨在评估模型将多模态和序列知识从异构源域迁移到新目标域的能力。

以下是预处理后数据集的统计信息 (Table 1)：

Datasets	# Users	# Items	# Interactions	Sparsity	Avg. len
Pet	183,697	31,986	1,571,284	99.97%	8.55
Cell	123,885	38,298	873,966	99.98%	7.05
Automotive	105,490	39,537	845,454	99.98%	8.01
Tools	144,326	41,482	1,153,959	99.98%	8.00
Toys	135,748	47,520	1,158,602	99.98%	8.53
Sports	191,920	56,395	1,504,646	99.99%	7.84
Instruments	17,112	6,250	136,226	99.87%	7.96
Arts	22,171	9,416	174,079	99.92%	7.85
Games	42,259	13,839	373,514	99.94%	8.84

5.2. 评估指标

模型性能通过两个广泛采用的排名指标 (ranking metrics) 进行评估：

命中率 (Hit Ratio, HR@K):
1. 概念定义: HR@K 衡量的是在推荐列表中前 K 个物品中，有多少比例的用户其真实交互的下一个物品被成功命中。它反映了模型在推荐列表中找到相关物品的能力，但不考虑相关物品的具体位置。
2. 数学公式: $\mathrm{HR@K} = \frac{\text{Number of hits @K}}{\text{Total number of interactions}}$
3. 符号解释:
  - Number of hits @K: 在推荐列表的前 K 个位置中，实际被用户交互的下一个物品出现的次数。
  - Total number of interactions: 测试集中所有用户交互的总次数。
归一化折损累计增益 (Normalized Discounted Cumulative Gain, NDCG@K):
1. 概念定义: NDCG@K 评估推荐列表的排序质量。它不仅考虑了相关物品是否被推荐，还关注其在列表中的位置。排名越靠前的相关物品，其贡献越大。NDCG 的值介于 0 到 1 之间，1 表示完美排序。
2. 数学公式: $\mathrm{NDCG@K} = \frac{\mathrm{DCG@K}}{\mathrm{IDCG@K}}$ 其中，DCG@K（折损累计增益）和 IDCG@K（理想折损累计增益）的计算如下： $\mathrm{DCG@K} = \sum_{j=1}^{K} \frac{2^{rel_j} - 1}{\log_2(j+1)}$ $\mathrm{IDCG@K} = \sum_{j=1}^{K} \frac{2^{rel_{j}^{opt}} - 1}{\log_2(j+1)}$
3. 符号解释:
  - $K$ : 推荐列表的长度。
  - $rel_j$ : 推荐列表中第 $j$ 个物品的相关性得分。在二元相关性（即物品是用户下一个交互物品则为 1，否则为 0）的情况下， $rel_j \in \{0, 1\}$ 。
  - $rel_{j}^{opt}$ : 在理想排序（即所有相关物品都排在最前面）下，第 $j$ 个位置的物品的相关性得分。
  - $\log_2(j+1)$ : 位置折损因子，使得排名靠后的相关物品的贡献减小。
  - $\mathrm{DCG@K}$ : 实际推荐列表的累计增益。
  - $\mathrm{IDCG@K}$ : 理想推荐列表（最优排序）的累计增益，作为归一化因子。
    
    按照之前的工作 [16]，使用 leave-one-out 评估策略，即最近的一个交互用于测试，倒数第二个交互用于验证。

5.3. 对比基线

在实验中，Q-BERT4Rec 与一系列广泛使用的序列推荐基线模型进行了比较，这些模型分为以下几类：

传统模型 (Traditional Models):
- GRU4Rec [14]: 使用门控循环单元 (Gated Recurrent Units, GRU) 建模用户行为中的序列依赖关系。对短序列有效，但难以捕捉长程依赖和上下文语义。
基于 Transformer 的模型 (Transformer-based Models):
- BERT4Rec [22]: 应用双向 Transformer 和掩码语言建模 (Masked Language Modeling, MLM) 目标进行下一个物品预测。但它建模的是离散物品 ID，缺乏语义意义。
- SASRec [16]: 使用单向自注意力 (uni-directional self-attention) 进行自回归序列建模。有效捕捉局部依赖，但忽略物品级多模态语义。
- FDSA [34]: 将用户和物品属性整合到注意力机制中，以增强个性化。
- S³-Rec [35]: 引入自监督学习 (self-supervised learning) 任务来丰富表示学习，但仍依赖纯 ID 嵌入，缺乏可迁移性。
VQ/多模态模型 (VQ/Multimodal Models):
- VQ-Rec [12]: 将向量量化 (Vector Quantization, VQ) 应用于序列推荐。
- MISsRec [25]: 使用预提取嵌入 (pre-extracted embeddings) 对齐文本和图像特征，以改进多模态序列推荐。
提示驱动的 LLM 模型 (Prompt-driven LLM Models):
- P5-CID [13]: 以文本到文本 (text-to-text) 格式组织多个推荐任务，并使用 T5 模型统一建模不同任务。
- VIP5 [9]: 扩展 P5 框架，使用 CLIP 图像编码器和文本提示 (text prompts) 整合多模态信息。这些方法实现了强大的零样本泛化 (zero-shot generalization)，但严重依赖语言先验 (language priors)，而非学习到的物品语义。
语义 ID / 生成模型 (Semantic-ID / Generative Models):
- TIGER [21]: 首次采用 RQ-VAE 构建离散语义物品 ID，实现生成式推荐 (generative recommendation)。
- MQL4GRec [32]: 进一步将多模态嵌入量化为统一的“量化语言 (quantitative language)”，以增强跨领域可迁移性。

5.4. 实施细节

模型实现: Q-BERT4Rec 使用 PyTorch 实现。
动态跨模态语义注入模块 (Dynamic Cross-Modal Semantic Injection module):
- 文本特征编码：采用预训练的 LLaMA 模型。
- 视觉特征提取：采用 CLIP [20] 的图像编码器分支（以 ViT [6] 为骨干）。
- Transformer 配置：模块内的 Transformer 最大深度设置为 5 层。
RQ-VAE 模块:
- 编码器和解码器：实现为带有 ReLU 激活函数的多层感知机 (MLPs)。
- 码本 (Codebook) 配置：码本层数设置为 4，每层包含 256 个维度为 32 的向量。
- 学习率和批大小：学习率设置为 0.001，批大小设置为 1024。
预训练 (Pretraining):
- 掩码策略：遵循之前的工作 [22]，应用三种掩码策略，概率分别为：span mask 0.3，multi-position mask (原文称为 multi-region mask) 0.15，tail mask 0.1。
- 批大小和学习率：批大小设置为 512，学习率设置为 0.0005。
- Transformer 编码器：包含 4 层，每层 4 个注意力头。
微调 (Fine-tuning):
- 掩码策略：仅使用传统的掩码策略，掩码比例为 0.3。
- 批大小和学习率：批大小设置为 256，学习率设置为 0.0001。
- 正则化：所有 Transformer 层应用 dropout，丢弃率为 0.2，以防止过拟合。
硬件环境: 所有实验均在 NVIDIA RTX 4090 GPU 上进行。预训练使用 4 块 GPU，微调使用单块 GPU。

6. 实验结果与分析

6.1. 核心结果分析 (RQ1)

性能比较： Q-BERT4Rec 在三个下游数据集（乐器、艺术、游戏）上的性能与现有基线模型进行了比较，结果如表 2 所示。

Dataset	Metric	Traditional	Transformer-based				VQ/Multimodal		Prompt-LLM				Semantic-ID / Gen.
Dataset	Metric	Traditional	GRU4Rec	BERT4Rec	SASRec	FDSA	S³Rec	VQ-Rec	MISSRec	P5-CID	VIP5	TIGER	MQL4GRec	Ours	Improv.
Instrument	HR@1	0.0566	0.0450	0.0318	0.0530	0.0339	0.0502	0.0723	0.0512	0.0737	0.0754	0.0833	0.0835	+0.24%
	HR@5	0.0975	0.0856	0.0946	0.0987	0.0937	0.1062	0.1089	0.0839	0.0892	0.1007	0.1115	0.1153	+3.41%
	HR@10	0.1207	0.1081	0.1233	0.1249	0.1123	0.1357	0.1361	0.1119	0.1071	0.1221	0.1375	0.1418	+3.13%
	NDCG@5	0.0783	0.0667	0.0654	0.0775	0.0693	0.0796	0.0797	0.0678	0.0815	0.0882	0.0977	0.0995	+1.84%
	NDCG@10	0.0857	0.0739	0.0746	0.0859	0.0743	0.0891	0.0880	0.0704	0.0872	0.0950	0.1060	0.1077	+1.60%
Arts	HR@1	0.0365	0.0289	0.0212	0.0380	0.0172	0.0408	0.0479	0.0421	0.0474	0.0532	0.0672	0.0756	+12.50%
	HR@5	0.0817	0.0697	0.0951	0.0832	0.0739	0.1038	0.1021	0.0713	0.0704	0.0894	0.1037	0.1136	+9.44%
	HR@10	0.1088	0.0922	0.1250	0.1190	0.1030	0.1386	0.1321	0.0994	0.0859	0.1167	0.1327	0.1419	+2.38%
	NDCG@5	0.0602	0.0502	0.0610	0.0583	0.0511	0.0732	0.0699	0.0607	0.0586	0.0718	0.0857	0.0947	+10.50%
	NDCG@10	0.0690	0.0575	0.0706	0.0695	0.0630	0.0844	0.0815	0.0662	0.0635	0.0806	0.0950	0.1039	+9.36%
Games	HR@1	0.0140	0.0115	0.0069	0.0163	0.0136	0.0075	0.0201	0.0169	0.0173	0.0166	0.0203	0.0233	+14.77%
	HR@5	0.0544	0.0426	0.0587	0.0614	0.0527	0.0408	0.0674	0.0532	0.0480	0.0523	0.0637	0.0673	-
	HR@10	0.0895	0.0725	0.0985	0.0998	0.0903	0.0679	0.1048	0.0930	0.0758	0.0857	0.1033	0.1061	+1.24%
	NDCG@5	0.0341	0.0270	0.0333	0.0389	0.0351	0.0422	0.0385	0.0334	0.0328	0.0345	0.0421	0.0451	+6.87%
	NDCG@10	0.0453	0.0366	0.0461	0.0509	0.0468	0.0329	0.0499	0.0454	0.0418	0.0453	0.0548	0.0575	+4.93%

表 2: 在三个 Amazon 子数据集上的性能比较，并按列标题分组。最佳结果加粗；次佳结果带下划线。Improv. 表示 Ours 相对于最佳模型的相对提升。

结果与分析:

整体优势： Q-BERT4Rec 在所有三个下游数据集 (Musical Instruments、Arts, Crafts & Sewing 和 Video Games) 上始终优于所有基线模型。这种提升在 HR@K 和 NDCG@K 两种排名指标上都非常明显，表明其在集成语义词元化与多模态融合方面的有效性。
Musical Instruments 数据集： Q-BERT4Rec 在 HR@5 上达到 0.1153，在 NDCG@10 上达到 0.1077，分别比最强的基线 MQL4GRec 高出 +3.41% 和 +1.60%。
Arts 数据集： 模型在 HR@10 上达到 0.1419，在 NDCG@10 上达到 0.1039，相对于前一个最佳模型，分别实现了 +2.38% 和 +9.36% 的相对提升。
Games 数据集： 在 Games 数据集上观察到最大的提升，Q-BERT4Rec 在 HR@1 上超越 MQL4GRec +14.77%，在 NDCG@5 上超越 +6.87%。这突出表明了模型在稀疏和噪声交互场景下的鲁棒性。
基线分析：
- 传统模型 (GRU4Rec) 表现一般，印证了 RNN 架构在长序列建模上的局限。
- Transformer 基模型 (BERT4Rec, SASRec, FDSA, S³-Rec) 普遍优于传统模型，但仍受限于离散 ID 的语义缺失。
- VQ/多模态模型 (VQ-Rec, MISsRec) 表现出一定竞争力，表明多模态信息和量化方法的潜力。
- Prompt-LLM 模型 (P5-CID, VIP5) 具有较好的性能，尤其 VIP5 结合了 CLIP，但 Q-BERT4Rec 仍能超越，说明其学习的语义 ID 更适合推荐任务。
- 语义 ID / 生成模型 (TIGER, MQL4GRec) 是与 Q-BERT4Rec 最接近的基线，它们也利用 RQ-VAE 构建语义 ID。Q-BERT4Rec 能够持续超越这些模型，特别是 MQL4GRec，这验证了其动态跨模态语义注入和多掩码预训练策略的优越性，以及对语义 ID 建模的更深层次理解。

6.2. 消融实验/参数分析 (RQ2, RQ3, RQ4)

6.2.1. 消融研究 (RQ2)

为了评估 Q-BERT4Rec 中各个组件的有效性，论文从两个方面进行了消融实验：(i) 动态跨模态语义注入模块中不同模态的贡献，以及 (ii) 各种预训练策略的影响。

模态贡献的影响 (Impact of modality): 以下是原文 Table 3 的结果，展示了不同模态组合对模型性能的影响：

Modality		Instruments				Arts				Games
Image	Text ID-Only	HR@5	HR@10	NDCG@5	NDCG@10	HR@5	HR@10	NDCG@5	NDCG@10	HR@5	HR@10	NDCG@5	NDCG@10
✓		0.1126	0.1367	0.0977	0.1055	0.1112	0.1399	0.0928	0.1020	0.0660	0.1048	0.0441	0.0566
	✓	0.1139	0.1398	0.0979	0.1063	0.1111	0.1378	0.0922	0.1007	0.0646	0.1040	0.0437	0.0563
	✓	0.1117	0.1363	0.0955	0.1034	0.1079	0.1367	0.0890	0.0982	0.0625	0.1011	0.0415	0.0539
✓	✓	✓	0.1153	0.1418	0.0995	0.1077	0.1136	0.1419	0.0947	0.1039	0.0673	0.1061	0.0451	0.0575

表 3: 模态贡献的消融研究。✓ 表示启用的模态。

分析:

从表 3 可以看出，移除任何模态都会导致性能的持续下降。
例如，在 Instruments 数据集上，仅使用图像特征的模型 HR@10 为 0.1367，NDCG@10 为 0.1055；仅使用文本特征的模型 HR@10 为 0.1398，NDCG@10 为 0.1063。
然而，当所有三种模态（文本、图像和 ID）联合使用时，性能提升到 HR@10 为 0.1418，NDCG@10 为 0.1077（注意，表格中 Image 列的最后一个 ✓ 对应的是所有模态都启用的情况，其后面的结果对应 Ours 的最终性能，与上文 Table 2 的 Ours 结果一致）。这清楚地表明了模态之间的协同效应 (synergistic effect)。
在 Arts 和 Games 数据集上也观察到类似的趋势。这些结果证实了视觉、文本和结构化线索的整合提供了互补信息，从而实现了更丰富的用户-物品交互语义表示。

预训练策略的影响 (Impact of pretraining strategies): 以下是原文 Table 4 的结果，展示了不同预训练方案的效果：

Modal	Tasks	Instruments			Arts			Games
Modal	Tasks	HR@10	NDCG@10	HR@10	NDCG@10	HR@10	NDCG@10
All	w/o Pretrain	0.1360	0.1035	0.1361	0.0988	0.1037	0.0543
	+ MLM	0.1384	0.1055	0.1405	0.1019	0.1041	0.0566
	+ MultiMask	0.1418	0.1077	0.1419	0.1039	0.1061	0.0575

表 4: 预训练策略的消融研究。我们比较了无预训练、传统 MLM 预训练和我们的多掩码预训练。

分析:

无预训练 (w/o Pretrain): 模型表现相对较差（例如，在 Instruments 上 $HR@10 = 0.1360, NDCG@10 = 0.1035$ ），表明从头开始学习限制了模型捕获序列依赖的能力。
传统 MLM 预训练 (+ MLM): 引入传统的 MLM 预训练后，性能有所提升（Instruments 上 $HR@10 = 0.1384, NDCG@10 = 0.1055$ ），这突出了上下文重建的益处。
多掩码预训练 (+ MultiMask): 提出的多掩码预训练在所有数据集上均取得了最佳性能，例如在 Instruments 上 $HR@10 = 0.1418, NDCG@10 = 0.1077$ 。
与仅使用 MLM 的变体相比，多掩码预训练在 HR@10 上平均提升了 +2.27%，在 NDCG@10 上平均提升了 +1.70%。这表明结合 span mask、tail mask 和 multi-region mask 有助于模型学习更鲁棒的序列表示，并更好地适应不同的用户行为。

总结 (RQ2): 这些消融研究验证了多模态对齐和多掩码预训练对于 Q-BERT4Rec 成功的重要性。前者为物品表示注入丰富的语义知识，后者增强了模型的序列理解能力，共同实现了更强的泛化和推荐准确性。

6.2.2. 超参数分析 (RQ3)

论文进一步研究了 Q-BERT4Rec 对影响模型性能和泛化能力的关键超参数的敏感性。主要分析了三个重要参数：(i) Transformer 层数，(ii) 微调期间使用的掩码概率，以及 (iii) 应用于 Transformer 层的 dropout 率。报告的推荐性能以 HR@10 为基准，因为 NDCG@10 观察到类似的趋势。

层数影响 (Impact of Layer Number):

该图像是一个示意图，展示了艺术（Arts）和乐器（Instruments）领域中不同 dropout 比率对模型性能的影响。左侧图表显示艺术领域的表现，右侧图表则展示了乐器领域的结果，蓝色线条表示准确率，黄色线条表示损失值。通过调整 dropout 比率，可以观察到模型性能的变化趋势。

图 3 (原文 Figure 3): Transformer 层数分析

分析:
- 通过将 Transformer 层数从 1 变到 4，结果（图 3）显示，在早期阶段，增加层数持续提升了 HR@10 和 NDCG@10。
- 例如，在 Instruments 数据集上，HR@10 从 1 层时的 0.1329 上升到 4 层时的 0.1418，而 NDCG@10 从 0.1035 提升到 0.1077。Arts 数据集也显示了类似趋势。
- 这表明更深的架构增强了模型捕捉序列依赖和跨模态交互的能力。然而，层数越深，训练和推断速度越慢，存在一个性能与效率的权衡。
Dropout 率影响 (Impact of Dropout Rate):

该图像是一个示意图，展示了在艺术和乐器两种类别下，不同掩码概率对模型性能的影响。横轴为掩码概率，纵轴为性能指标，图中包含了两条曲线，分别代表不同的类别，表明随着掩码概率的增加，模型性能随之提升。

图 4 (原文 Figure 4): 不同 dropout 率影响分析

分析:
- 通过改变 dropout 率从 0.1 到 0.4（图 4），观察到性能先增加后逐渐下降。
- 适中的 dropout 率（约 0.2）取得了最佳结果，使 Arts 和 Instruments 的 HR@10 分别达到 0.1419 和 0.1418。
- 这表明适量的正则化能有效防止过拟合并稳定训练，而过高的 dropout（例如 0.4）会导致特征利用不足，降低推荐准确性。因此，0.2 被选为最优 dropout 设置。
掩码概率影响 (Impact of Mask Probability):

该图像是一个示意图，对比了动态融合对齐（左）和传统融合对齐（右）在多模态推荐中的表现。左侧显示了更丰富的语义信息，通过动态融合方式突显了文本、图像和结构特征的结合。右侧则展示了传统方法下的对齐结果，其语义信息的获取明显受限.

图 5 (原文 Figure 5): 不同掩码概率影响分析

分析:
- 通过改变掩码概率从 0.15 到 0.30（图 5），发现 HR@10 和 NDCG@10 均呈现上升趋势。
- 这表明较高的掩码概率鼓励模型捕获用户行为序列中更多的上下文依赖。
- 然而，当概率超过 0.3 时，性能提升趋于平稳，这暗示过度的掩码可能会移除过多信息，导致次优的重建和较弱的序列理解。
- 最佳性能在掩码概率设置为 0.3 时取得，此时 Arts 上的 HR@10 达到 0.1419，Instruments 上达到 0.1418。因此，0.3 被选为默认掩码比例。

6.2.3. Q-BERT4Rec 的模态融合 (RQ4)

为了更好地理解动态融合 Transformer (Dynamic Fusion Transformer) 如何对齐多模态表示，论文可视化了 Instruments 数据集上学习到的文本、视觉和融合嵌入。每个物品由三个点表示——文本（绿色）、视觉（紫色）和融合（蓝色），并由灰色线条连接，指示它们在语义空间中的成对关系。

fig 4 该图像是一个图表，展示了动态融合层使用分布的箱线图。图中显示了在动态跨模态变换器中激活的层数，中心红线表示中位数，箱体的上下边缘代表四分位数，延伸的线段显示了数据的范围。

图 6 (原文 Figure 6): 动态模态融合与传统方法的比较。

分析:

动态融合对齐 (Dynamic Fusion Alignment) vs. 传统融合 (Traditional Fusion):
- 如图 6（左侧）所示，提出的动态融合对齐产生了更紧密、更连贯的聚类，其中融合嵌入始终位于文本和视觉模态之间，形成语义上有意义的三元组。
- 相比之下，传统融合（固定层数，如图 6 右侧）展示了明显分离的模态特定区域，表明跨模态一致性较弱，且缺乏自适应语义桥接。
- 较低的平均均方误差 (MSE)（0.6351 vs. 0.6603）表明动态融合有效缩小了模态差距，同时保留了每种模态的互补信息。
动态跨模态 Transformer 中的激活层分布：

图 7 (原文 Figure 7): 动态跨模态 Transformer 中激活层的分布。

分析:
- 图 7 显示了动态跨模态 Transformer 中激活层的分布。
- 大多数样本使用 1 到 3 个融合层，中位数深度为 2。这一观察结果表明，模型根据模态复杂性自适应地调整其融合深度——较简单的样本提前终止，而复杂的样本则遍历更深的层。

动态融合与传统融合的性能比较 (Table 5): 以下是原文 Table 5 的结果：

Method	Instruments		Arts		Games
Method	HR@10	NDCG@10	HR@10	NDCG@10	HR@10	NDCG@10
Traditional Fusion	0.1387	0.1067	0.1362	0.1003	0.1043	0.0572
Ours (Dynamic Fusion)	0.1418	0.1077	0.1419	0.1039	0.1061	0.0575

表 5: 动态融合与传统融合的比较。仅报告 HR@10 和 NDCG@10。

分析:

在所有三个数据集上，动态融合始终优于传统融合，在 HR@10 和 NDCG@10 上均取得了明显提升。
在 Arts 数据集上，提升最为显著（HR@10 提升 +4.18%，NDCG@10 提升 +3.58%），该数据集的物品语义异质性更高。这证实了“一刀切”的融合深度对于多样化的多模态交互是不够的。

6.2.4. 模型复杂度和推理效率 (Table 6)

以下是原文 Table 6 的结果：

Dataset	FLOPs (M)	Params (M)	Latency (ms/sample)
Instruments	185.36	3.71	2.66
Arts	225.68	4.51	2.67
Games	282.14	5.64	2.69

表 6: 跨数据集的模型复杂度和推理效率。该表报告了总浮点运算次数 (FLOPs)、可训练参数 (Params) 和平均每样本推理延迟 (Latency)。

分析:

复杂度增长： 尽管 FLOPs 和参数数量从 Instruments (185.36M / 3.71M) 到 Arts (225.68M / 4.51M) 再到 Games (282.14M / 5.64M) 逐渐增加，但这种增长主要源于更大的数据集规模和扩展的词汇空间，而非架构开销。
轻量级和高效： 总体而言，模型保持轻量级（参数少于 6M），并实现了高效的推理（平均每样本约 3ms）。这表明 Q-BERT4Rec 在大规模推荐场景下具有强大的可扩展性和计算效率。

7. 总结与思考

7.1. 结论总结

本文介绍了 Q-BERT4Rec，一个基于语义 ID 的序列推荐框架，该框架统一了动态跨模态融合 (dynamic cross-modal fusion) 和残差量化 (residual quantization)。通过其提出的动态融合模块，模型能够自适应地选择跨模态交互的深度，从而有效地整合异构的文本和视觉语义。在此基础上，RQ-VAE 模块将物品特征转换为紧凑且可迁移的语义 ID，显著增强了序列建模能力和跨领域泛化能力。在三个真实世界领域进行的广泛实验表明，Q-BERT4Rec 相对于强大的多模态和生成式基线模型取得了持续的性能提升。这证实了语义 ID 和其所承载的动态多模态信息，对于提升序列推荐效果的关键作用。

7.2. 局限性与未来工作

论文作者指出了以下局限性并提出了未来研究方向：

扩展到更大规模目录和更多模态： 当前模型已在 Amazon 评论数据集上验证，未来工作计划将语义 ID 建模扩展到更大规模的物品目录和更多的数据模态（例如，音频、视频等）。
生成式推荐潜力探索： 将探索 Q-BERT4Rec 在生成式推荐 (generative recommendation) 中的潜力。这意味着模型可能不仅仅是预测下一个物品 ID，而是能够生成新的、符合用户偏好的物品描述或属性。
统一多模态预训练： 探索将模型架构融入更通用的统一多模态预训练 (unified multimodal pretraining) 框架中，以期利用更广泛的跨任务知识。

7.3. 个人启发与批判

7.3.1. 个人启发

语义 ID 的强大潜力： 将无语义的离散物品 ID 替换为富含多模态语义的“语义 ID”是一个极具前景的方向。它不仅提升了物品表示的质量，还为推荐系统注入了可解释性，并可能促进跨领域知识的迁移，将推荐任务提升到“物品语言”的抽象层次，这与大语言模型在 NLP 中的成功有异曲同工之妙。
动态融合机制的精妙： 动态跨模态语义注入模块中的可学习门控机制 (learnable gating mechanism) 能够自适应地控制融合深度，这比固定融合策略更灵活和高效。它体现了“按需融合”的智能，使得模型能够根据物品语义的复杂性动态调整处理过程，从而更好地捕获不同物品的细粒度特征。
多掩码预训练的全面性： 结合 span mask、tail mask 和 multi-region mask 的多掩码策略，比单一 MLM 任务更能全面地提升模型对序列模式（包括局部连贯性和长程依赖）的理解。这种策略能够使模型在不同粒度上学习上下文信息，增强了模型的鲁棒性和泛化能力。
RQ-VAE 在推荐领域的应用： 看到 RQ-VAE 技术从语音、图像生成领域成功迁移到推荐系统，并作为连接连续多模态特征和离散语义的桥梁，这再次证明了跨领域技术借鉴的重要性。

7.3.2. 批判与潜在改进

对预训练编码器的依赖性： Q-BERT4Rec 在文本特征提取上依赖于 LLaMA，在视觉特征提取上依赖于 CLIP。虽然这利用了现有大模型的强大能力，但也意味着模型性能受限于这些预训练编码器的质量和适用性。在特定领域，这些通用编码器可能无法捕捉到最细微的领域特定语义，这可能会在某些情况下构成性能瓶颈。未来可以探索领域自适应的预训练编码器或轻量级的适配层。
量化过程中的信息损失： 尽管残差向量量化旨在最小化信息损失，但从连续的高维嵌入到离散的有限码字的映射过程，必然会损失一部分信息。特别是对于语义特别丰富或微妙的物品，这种量化可能会导致细微语义的丢失。未来的工作可以探索更复杂的量化策略，例如，基于对抗学习 (adversarial learning) 的量化，或者混合离散-连续表示，以更好地平衡信息压缩和语义保真度。
码本冲突处理的优化空间： 论文提到了采用 MQL4GRec 的重新分配策略来处理码本冲突。虽然这有助于缓解问题，但在极端情况下，例如当大量物品具有高度相似的多模态特征时，冲突处理的效率和效果可能仍有优化空间。可以研究更智能的冲突预测与规避机制，或者动态调整码本大小和结构以适应数据分布。
计算成本： 尽管论文在讨论中指出模型轻量且推理高效，但动态跨模态语义注入模块中的 Transformer 层数（最多 5 层）和 RQ-VAE 模块（4 层码本）本身仍具有一定的计算开销。特别是对于超大规模的物品数量和用户交互序列，预训练和微调的成本可能仍然较高。如何在保持性能的同时，进一步优化模型的计算效率是一个持续的研究方向，例如通过知识蒸馏 (knowledge distillation) 或更高效的网络架构设计。
可解释性评估的深度： 论文提到语义 ID 增强了可解释性，这是一个重要的优势。然而，除了性能指标，未来可以更深入地量化和可视化这种可解释性，例如通过分析语义 ID 中的特定词元与物品属性的对应关系，或者通过用户调研来验证语义 ID 对人类理解推荐原因的帮助程度。

相似论文推荐

基于向量语义检索推荐的相关论文。

暂时没有找到相似论文。

Q-BERT4Rec: Quantized Semantic-ID Representation Learning for Multimodal Recommendation

TL;DR 精炼摘要

摘要

思维导图

论文精读

中文精读约 38 分钟读完 · 25,404 字

1. 论文基本信息

1.1. 标题

1.2. 作者

1.3. 发表期刊/会议

1.4. 发表年份

1.5. 摘要

1.6. 原文链接

2. 整体概括

2.1. 研究背景与动机

2.2. 核心贡献/主要发现

3. 预备知识与相关工作

3.1. 基础概念

3.2. 前人工作

3.3. 技术演进

3.4. 差异化分析

4. 方法论

4.1. 方法原理

4.2. 核心方法详解

4.2.1. 问题定义 (Problem Formulation)

4.2.2. 动态跨模态语义注入 (Dynamic Cross-Modal Semantic Injection)

4.2.3. 语义量化 (Semantic Quantization)

4.2.4. 多掩码预训练 (Multi-Mask Pretrain)

4.2.5. 训练和微调 (Training and Fine-tuning)

5. 实验设置

5.1. 数据集

5.2. 评估指标

5.3. 对比基线

5.4. 实施细节

6. 实验结果与分析

6.1. 核心结果分析 (RQ1)

6.2. 消融实验/参数分析 (RQ2, RQ3, RQ4)

6.2.1. 消融研究 (RQ2)

6.2.2. 超参数分析 (RQ3)

6.2.3. Q-BERT4Rec 的模态融合 (RQ4)

6.2.4. 模型复杂度和推理效率 (Table 6)

7. 总结与思考

7.1. 结论总结

7.2. 局限性与未来工作

7.3. 个人启发与批判

7.3.1. 个人启发

7.3.2. 批判与潜在改进

相似论文推荐