论文状态：已完成

Empowering Large Language Model for Sequential Recommendation via Multimodal Embeddings and Semantic IDs

发表：2025/11/08

大语言模型微调 (53)基于大语言模型的序列推荐系统 (2)多模态嵌入与语义ID (1)多模态残差量化变分自编码器 (1)用户动态兴趣建模 (1)

原文链接

价格：0.100000

已有 1 人读过

本分析由 AI 生成，可能不完全准确，请以原文为准。

TL;DR 精炼摘要

本研究提出了一种新型的序列推荐框架MME-SID，利用大语言模型和多模态嵌入解决嵌入崩溃及灾难性遗忘问题。通过引入多模态残差量化变分自编码器，结合最大均值差异和对比学习以提高推荐性能，并实现高效的微调。

摘要

Sequential recommendation (SR) aims to capture users’ dynamic interests and sequential patterns based on their historical interactions. Recently, the powerful capabilities of large language models (LLMs) have driven their adoption in SR. However, we identify two critical challenges in existing LLM-based SR methods: 1) embedding collapse when incorporating pre-trained collaborative embeddings and 2) catastrophic forgetting of quantized embeddings when utilizing semantic IDs. These issues dampen the model scalability and lead to suboptimal recommendation performance. Therefore, based on LLMs like Llama3-8B-instruct, we introduce a novel SR framework named MME-SID, which integrates multimodal embeddings and quantized embeddings to mitigate embedding collapse. Additionally, we propose a Multimodal Residual Quantized Variational Autoencoder (MM-RQ-VAE) with maximum mean discrepancy as the reconstruction loss and contrastive learning for alignment, which effectively preserve intra-modal distance information and capture inter-modal correlations, respectively. To further alleviate catastrophic forgetting, we initialize the model with the trained multimodal code embeddings. Finally, we fine-tune the LLM efficiently using LoRA in a multimodal frequency-aware fusion manner. Extensive experiments on three public datasets validate the superior performance of MME-SID thanks to its capability to mitigate embedding collapse and catastrophic forgetting. The implementation code and datasets are publicly available for reproduction.

思维导图

论文精读

中文精读约 42 分钟读完 · 26,100 字

1. 论文基本信息

1.1. 标题

赋能大语言模型用于序列推荐：通过多模态嵌入和语义ID (Empowering Large Language Model for Sequential Recommendation via Multimodal Embeddings and Semantic IDs)

1.2. 作者

Yuhao Wang, Junwei Pan, Xinhang Li, Maolin Wang, Yuan Wang, Yue Liu, Dapeng Liu, Jie Jiang, Xiangyu Zhao。作者团队来自香港城市大学 (City University of Hong Kong) 和腾讯公司 (Tencent Inc.)，这表明了该研究融合了学术界的理论深度和工业界的实践经验。

1.3. 发表期刊/会议

发表于第34届ACM国际信息与知识管理会议 (CIKM '25)，2025年11月10日至14日，韩国首尔。 CIKM 是计算机科学领域，特别是信息检索、数据挖掘和数据库方面的重要国际会议，具有较高的学术声誉和影响力。

1.4. 发表年份

2025年

1.5. 摘要

序列推荐 (Sequential Recommendation, SR) 旨在根据用户的历史交互序列捕捉其动态兴趣和序列模式。近年来，大语言模型 (Large Language Models, LLMs) 强大的能力推动了它们在SR领域的应用。然而，现有基于LLM的SR方法存在两个关键挑战：1) 在结合预训练的协同嵌入 (collaborative embeddings) 时出现嵌入崩溃 (embedding collapse)；2) 在利用语义ID (semantic IDs) 时量化嵌入 (quantized embeddings) 存在灾难性遗忘 (catastrophic forgetting)。这些问题限制了模型的可扩展性并导致次优的推荐性能。

因此，本文基于Llama3-8B-instruct等大语言模型，引入了一种名为MME-SID的新型SR框架，该框架集成了多模态嵌入 (multimodal embeddings) 和量化嵌入，以缓解嵌入崩溃问题。此外，本文提出了一种多模态残差量化变分自编码器 (Multimodal Residual Quantized Variational Autoencoder, MM-RQ-VAE)，它采用最大均值差异 (maximum mean discrepancy, MMD) 作为重建损失 (reconstruction loss)，并结合对比学习 (contrastive learning) 进行对齐，从而有效地分别保留模态内距离信息和捕捉模态间关联。为了进一步缓解灾难性遗忘，MME-SID使用经过训练的多模态码嵌入 (multimodal code embeddings) 对模型进行初始化。最后，通过低秩适配 (Low-Rank Adaptation, LoRA) 以多模态频率感知融合 (multimodal frequency-aware fusion) 的方式高效地微调 (fine-tune) 大语言模型。在三个公共数据集上的大量实验验证了MME-SID的卓越性能，这归因于其缓解嵌入崩溃和灾难性遗忘的能力。该实现代码和数据集已公开发布以供复现。

1.6. 原文链接

/files/papers/695777a34a1fbc163064c29c/paper.pdf 该论文已在CIKM '25上发表。

2. 整体概括

2.1. 研究背景与动机

背景： 近年来，随着短视频平台和电子商务服务等网络应用的快速发展，推荐系统在推动利润和增强用户参与度方面的重要性显著增加。序列推荐 (SR) 作为推荐领域的一个重要分支，旨在通过利用用户的历史交互序列来建模用户的动态兴趣和序列模式。传统的SR方法主要依赖于协同模态 (collaborative modality)，即只使用物品ID (item ID) 进行推荐。然而，这些方法在面对新用户、新物品和新业务场景时，特别容易受到冷启动问题 (cold-start problem) 的影响。

大语言模型 (LLMs) 在理解自然语言格式的语义数据方面展现出强大能力，这促使研究人员探索将LLMs应用于序列推荐 (LLM4SR)。一些工作将SR任务建模为文本生成任务，并利用指令微调 (instruction tuning) LLMs。另一类研究则引入语义ID (semantic IDs) 来表示物品，将物品嵌入 (item embedding) 转换为语义ID序列，然后将这些ID作为LLM的新词元 (tokens) 进行生成式推荐或检索。这种方法通常涉及量化 (quantization) 技术，例如残差量化变分自编码器 (Residual Quantized Variational Autoencoder, RQ-VAE)。

动机和挑战： 尽管LLMs在SR领域展现出潜力，但现有基于LLM的SR方法存在两个关键挑战，导致次优性能和模型可扩展性受限：

嵌入崩溃 (Embedding Collapse)： 当现有方法将预训练的低维协同嵌入（通常来自传统推荐模型，维度如64或128）映射到高维LLM的表示空间（如4096维）时，会发生嵌入崩溃。这意味着映射后的嵌入矩阵的秩 (rank) 较低，导致其只占据LLM嵌入空间的低维子空间，从而未能有效利用LLM的巨大模型容量，限制了模型的可扩展性和表达能力。传统的解决方法（如多嵌入）在LLM框架下也可能失效。
灾难性遗忘 (Catastrophic Forgetting)： 现有方法在使用语义ID时，通常在训练完量化模型后，简单地抛弃了学到的码嵌入 (code embeddings)，而只保留分配的语义ID，并在下游推荐任务中从头开始训练这些ID的嵌入。尽管语义ID的层次结构可能被保留，但原始码嵌入中包含的绝大部分距离信息（例如，论文实证指出超过94%的距离偏序信息丢失）会丢失，导致灾难性遗忘。这意味着模型忘记了在量化阶段从原始嵌入中学习到的有价值的知识。

论文的切入点和创新思路： 本文旨在同时解决嵌入崩溃和灾难性遗忘这两个关键挑战，提出了一种新的框架MME-SID。论文强调了一个根本性困境：仅依赖预训练的低维协同嵌入会导致崩溃，而随机初始化新的嵌入表虽然能减少崩溃，但计算成本高昂且会遗忘。

MME-SID的创新思路在于：

缓解嵌入崩溃： 通过集成多模态嵌入 (multimodal embeddings)（协同、文本、视觉）和语义ID (semantic IDs) 来扩展有效的嵌入空间，提供更丰富、更具判别力的物品表示，从而缓解嵌入崩溃。
缓解灾难性遗忘： 通过使用MM-RQ-VAE训练得到的码嵌入 (code embeddings) 来初始化LLM的语义ID嵌入，从而保留量化阶段学习到的距离信息，减轻灾难性遗忘。
创新的量化模型： 提出了一种多模态残差量化变分自编码器 (MM-RQ-VAE)，采用最大均值差异 (MMD) 作为重建损失以显式保留距离分布信息，并结合对比学习 (contrastive learning) 来捕捉模态间关联。
高效且频率感知的LLM微调： 使用LoRA高效微调LLM，并引入多模态频率感知融合 (multimodal frequency-aware fusion) 机制，根据物品的冷热程度自适应地融合不同模态的信息。

2.2. 核心贡献/主要发现

本文的核心贡献总结如下：

首次识别并系统性解决LLM4SR中的双重挑战： 首次明确识别并系统性地解决了LLM用于推荐时存在的嵌入崩溃和灾难性遗忘问题。
提出MME-SID框架： 引入了一种新颖的序列推荐框架MME-SID，通过集成多模态嵌入和语义ID来增强大语言模型。
设计MM-RQ-VAE： 提出了一种创新的多模态残差量化变分自编码器 (MM-RQ-VAE)，其特点在于：
- 使用基于特征核的最大均值差异 (characteristic-kernel-based maximum mean discrepancy) 作为重建损失，以更好地保留量化嵌入中的距离分布信息 (distance distribution information)。
- 引入对比学习目标 (contrastive learning objective) 来捕捉模态间的关联，特别是对齐协同嵌入与文本/视觉嵌入。
缓解灾难性遗忘的策略： 采用训练好的多模态码嵌入来初始化LLM的语义ID嵌入，从而有效地缓解了灾难性遗忘问题。
高效且频率感知的LLM微调： 通过LoRA高效微调LLM，并设计了多模态频率感知融合模块，根据物品的流行度自适应地整合多模态信息。
验证卓越性能： 在三个Amazon公开数据集上进行了广泛实验，证明了MME-SID在推荐性能上的显著优越性，并深入分析了其缓解嵌入崩溃和灾难性遗忘的能力。
潜在的颠覆性影响： MME-SID能够生成整个物品集的排名列表，并灵活输出最相关的Top-k物品，避免了现有生成式检索方法中常见的冲突 (collision)问题，并且具有更高的推理效率 (inference efficiency)。

3. 预备知识与相关工作

3.1. 基础概念

序列推荐 (Sequential Recommendation, SR): SR是一种推荐系统任务，旨在根据用户历史交互的物品序列（例如，用户按时间顺序购买、浏览或点击的物品）来预测用户接下来可能感兴趣的物品。它关注捕捉用户的动态兴趣和物品之间的序列模式。传统的SR方法如SASRec通过自注意力机制来建模这些序列依赖。
大语言模型 (Large Language Models, LLMs): LLMs是基于Transformer架构的深度学习模型，通过在海量文本数据上进行预训练而获得强大的自然语言理解和生成能力。它们能够处理复杂的语言任务，例如文本生成、问答、摘要等。在推荐领域，LLMs被探索用于理解物品描述、用户评论，甚至直接生成推荐结果。本文使用的Llama3-8B-instruct是一个80亿参数的Llama3模型，经过指令微调，能够更好地遵循用户指令。
嵌入崩溃 (Embedding Collapse): 嵌入崩溃是深度学习模型中一个常见的问题，指的是模型学习到的嵌入向量最终只占据一个低维子空间，或者多个不同的输入被映射到非常相似的嵌入向量上。这导致模型无法有效利用其嵌入空间的全部容量来区分不同的实体，从而限制了模型的表达能力和性能。在推荐系统中，这通常意味着物品或用户的嵌入变得彼此过于接近，无法有效捕捉它们的独特性。论文中提到，当低维协同嵌入被映射到高维LLM空间时，投影后的嵌入矩阵的秩仍然受限于原始低维嵌入的秩，从而导致嵌入崩溃。
灾难性遗忘 (Catastrophic Forgetting): 灾难性遗忘是神经网络在学习新任务时，忘记之前学过的知识或技能的现象。在本文的语境中，特指在生成语义ID后，如果简单地丢弃预训练的码嵌入并随机初始化新的嵌入表，那么在量化阶段从原始物品嵌入中学习到的关于物品之间距离关系的重要信息就会丢失，从而影响下游推荐任务的性能。
多模态嵌入 (Multimodal Embeddings): 多模态嵌入是指将来自不同模态（如文本、图像、协同信息、音频等）的数据，通过各自的编码器或联合编码器，映射到同一个低维连续向量空间中。这些嵌入向量能够捕捉不同模态数据的语义信息，并在统一的表示空间中进行融合和交互。在推荐系统中，结合多模态信息可以缓解冷启动问题，并提供更丰富的物品理解。
语义ID (Semantic IDs): 语义ID是一种将高维物品嵌入通过量化技术转换为一系列离散的、通常具有层次结构的数字或词元序列。这些ID可以作为LLM的输入词元，使LLM能够像处理文本一样处理物品信息，从而实现生成式推荐或生成式检索。其目的是在保留原始嵌入大部分语义信息的同时，将连续空间离散化。
残差量化变分自编码器 (Residual Quantized Variational Autoencoder, RQ-VAE): RQ-VAE是一种量化模型，旨在将连续的嵌入向量编码成一系列离散的语义ID（也称为码或tokens）。它通过多层码本 (codebook) 逐级量化残差信息，以捕捉原始嵌入的精细结构。每个码本包含一组可学习的码嵌入 (code embeddings)。这种方法能够将一个嵌入分解为多个语义ID的组合，这些ID可以作为LLM的输入。
最大均值差异 (Maximum Mean Discrepancy, MMD): MMD是一种衡量两个概率分布之间距离的度量。它通过将两个分布的样本映射到再生核希尔伯特空间 (Reproducing Kernel Hilbert Space, RKHS)中，并计算它们在RKHS中均值嵌入 (mean embeddings) 的距离来评估。MMD的优点在于，如果使用特征核 (characteristic kernel)，它能够捕获分布的所有统计量，从而比简单的均方误差 (Mean Squared Error, MSE) 更能有效地比较和匹配分布的形状和结构。在本文中，MMD被用作重建损失，以显式地保留量化嵌入与原始嵌入之间的距离分布信息。
对比学习 (Contrastive Learning): 对比学习是一种自监督学习方法，通过学习将相似的样本（正样本对）在嵌入空间中拉近，同时将不相似的样本（负样本对）推远，从而学习到有意义的表示。它通常使用InfoNCE损失 (Info_NCE loss)等目标函数。在MME-SID中，对比学习被用于对齐不同模态（如协同模态与文本/视觉模态）的量化嵌入，以捕捉模态间的关联。
低秩适配 (Low-Rank Adaptation, LoRA): LoRA是一种高效的微调 (fine-tuning) 大语言模型的方法。它通过在预训练模型的大型权重矩阵旁边引入两个小型、低秩的矩阵来适配新任务。在微调过程中，只更新这些小矩阵的参数，而冻结预训练模型的大部分参数。这显著减少了可训练参数的数量和计算成本，同时能够保持甚至提升模型在新任务上的性能，有效缓解了灾难性遗忘，并提高了微调效率。

3.2. 前人工作

3.2.1. 序列推荐 (Sequential Recommendation)

传统方法 (如 SASRec): 传统的序列推荐模型如SASRec (Kang and McAuley, 2018) 主要依赖物品ID信息，通过自注意力 (self-attention)机制来捕捉用户历史交互序列中的物品间依赖关系和用户的动态兴趣。SASRec在许多基准测试中表现出色，但它仅使用协同信息，容易受到冷启动问题的影响。
- Attention机制补充： 自注意力机制是Transformer架构的核心，用于计算序列中不同位置之间的关联强度。其核心思想是为序列中的每个元素计算一个加权和，权重由该元素与其他所有元素的相似度决定。 $\mathrm{Attention}(Q, K, V) = \mathrm{softmax}\left(\frac{QK^T}{\sqrt{d_k}}\right)V$ 其中：
- $Q$ (Query): 查询矩阵，由输入序列中的每个元素生成。
- $K$ (Key): 键矩阵，由输入序列中的每个元素生成。
- $V$ (Value): 值矩阵，由输入序列中的每个元素生成。
- $d_k$ : 键向量的维度，用于缩放点积以防止梯度过大。
- $QK^T$ : 计算查询和键之间的相似度（点积）。
- $\mathrm{softmax}(\cdot)$ : 将相似度转换为权重，使其和为1。
- $\mathrm{softmax}\left(\frac{QK^T}{\sqrt{d_k}}\right)V$ : 用权重对值矩阵进行加权求和，得到注意力输出。

3.2.2. 大语言模型用于推荐 (LLM4Rec)

TALLRec (Bao et al., 2023): 将SR任务表述为文本生成任务，并通过指令微调LLMs来完成推荐。这种方法利用了LLMs强大的文本理解和生成能力。
基于语义ID的方法 (TIGER, LETTER等): 另一类方法 (Rajput et al., 2023; Sun et al., 2024; Wang et al., 2024) 引入语义ID来表示物品。它们将物品嵌入转换为语义ID序列，然后将这些ID视为LLM的新词元，用于生成式推荐或生成式检索。
- TIGER (Rajput et al., 2023): 提出使用物品内容信息生成语义词元序列，并用这些词元训练Transformer模型进行SR任务。
- LETTER (Wang et al., 2024): 在TIGER的基础上，采用多种正则化方法（如多样性正则化）以实现更好的物品词元化。
- 问题： 这些方法通常在训练完量化模型后，简单地丢弃训练好的码嵌入，并在下游任务中随机初始化新的嵌入，导致灾难性遗忘。同时，它们以自回归方式检索，效率较低，且可能面临冲突问题（多个物品映射到相同的语义ID序列）。

3.2.3. 多模态推荐 (Multimodal Recommendation)

早期工作： 结合独立的视觉编码器和文本编码器，或采用多模态编码器（如BEiT3、CLIP）将原始多模态数据转换为多模态嵌入。
- 问题： 独立的编码器可能导致不同模态的嵌入不在同一表示空间，需要额外的对齐成本并可能造成语义损失。CLIP等模型在处理长而复杂的文本时能力有限。
LLM2CLIP (Wu et al., 2024): 通过用更强大的LLM（如Llama3-8B）替换CLIP的文本编码器来增强CLIP模型。本文采用LLM2CLIP作为多模态编码器。

3.3. 技术演进

传统ID-based推荐： 从基于协同过滤的MF模型到基于序列模式的GRU4Rec、SASRec，这些方法主要依赖物品ID，在冷启动场景下表现不佳。
多模态推荐的兴起： 随着多模态数据（图像、文本描述）的普及，研究开始探索将多模态信息融入推荐系统，以丰富物品表示，缓解冷启动，并提升推荐质量。
LLMs在推荐中的应用： Transformer架构和LLM的巨大成功推动了LLM4Rec的研究。LLM强大的语义理解和生成能力被认为是解决传统推荐系统挑战（如可解释性、冷启动）的关键。
语义ID和量化： 为了让LLM能够原生处理物品，将物品表示为语义ID序列成为一个重要的研究方向，这使得LLM能够像生成文本一样生成物品推荐。
本文的定位： 本文站在LLM4Rec和语义ID研究的前沿，识别并解决了在将低维协同嵌入整合到LLM和使用语义ID时出现的嵌入崩溃和灾难性遗忘这两个深层次问题。通过引入MM-RQ-VAE和多模态频率感知融合，MME-SID旨在更有效地利用多模态信息，并克服现有LLM4SR方法的局限性。

3.4. 差异化分析

本文的方法MME-SID与相关工作的主要区别和创新点在于：

同时解决嵌入崩溃和灾难性遗忘： 现有工作通常只关注LLM4SR的一个方面，而MME-SID是第一个系统性地识别并同时解决这两个关键挑战的工作。
- 缓解嵌入崩溃： 不同于只使用低维协同嵌入并线性映射到LLM空间的方法（如E4SRec, Concat），MME-SID通过集成多模态嵌入（协同、文本、视觉）和语义ID的组合，显著扩展了嵌入空间的有效秩，从而更充分地利用了LLM的表达能力。
- 缓解灾难性遗忘： 与TIGER、LETTER等只使用语义ID并随机初始化其嵌入的方法不同，MME-SID使用训练好的码嵌入来初始化语义ID的嵌入，从而保留了量化阶段学习到的丰富的距离信息，避免了知识的丢失。
创新的MM-RQ-VAE：
- 重建损失： 采用最大均值差异 (MMD)作为重建损失，而非传统的均方误差 (MSE)。MMD能够显式地保留原始嵌入和量化嵌入之间的距离分布信息，从而更好地保持语义结构。
- 模态对齐： 在RQ-VAE中引入对比学习目标，以捕捉模态间关联，特别是对齐协同嵌入与文本/视觉嵌入，这是现有单一模态RQ-VAE所不具备的。
独特的LLM输入格式与融合机制：
- MME-SID的LLM输入同时包含了原始嵌入的线性投影（带停止梯度）和多模态语义ID嵌入的总和，这在现有方法中是独一无二的，旨在同时利用原始嵌入的距离信息和语义ID的层次结构。
- 引入多模态频率感知融合模块，根据物品的流行度（冷热程度）动态调整不同模态信息的权重，这比简单的模态拼接或固定权重融合更加智能和自适应。
更高的效率和鲁棒性：
- 推理效率： MME-SID将每个物品表示为一个高效的多模态嵌入，LLM输入维度为 $D_{\mathrm{LLM}} \times N$ ，而像TIGER这样的自回归生成方法，每个物品都需要L个语义ID，LLM输入维度为 $D_{\mathrm{LLM}} \times N \times L$ ，因此MME-SID的推理效率更高。
- 避免冲突问题： MME-SID通过多模态数据自然地区分不同物品，避免了TIGER等方法需要额外计算和存储来确保每个物品映射到唯一语义ID序列的冲突问题。
- 灵活的Top-k推荐： MME-SID能够生成整个物品集的排名列表并灵活输出Top-k推荐，而不是像TIGER那样以自回归方式逐个词元地检索。

4. 方法论

本文提出的MME-SID（Multimodal Embeddings and Semantic IDs for Sequential Recommendation）框架旨在通过集成多模态嵌入和语义ID来增强大语言模型在序列推荐任务上的性能，并解决嵌入崩溃和灾难性遗忘两大挑战。整个框架分为两个阶段：编码阶段 (Encoding Stage) 和 微调阶段 (Fine-tuning Stage)。

4.1. 方法原理

MME-SID的核心思想是：

丰富物品表示： 结合协同、文本和视觉三种模态的信息，为每个物品构建一个更丰富、更具判别力的多模态嵌入。
语义ID的智能生成与利用： 提出MM-RQ-VAE，将多模态嵌入量化为语义ID。通过引入MMD损失和对比学习，确保量化后的语义ID能够更好地保留原始嵌入的距离信息和捕捉模态间关联。
缓解灾难性遗忘： 使用MM-RQ-VAE训练好的码嵌入来初始化LLM中语义ID的嵌入，从而避免在下游任务中重新学习这些关键知识。
缓解嵌入崩溃： 在LLM输入中同时利用原始多模态嵌入的线性投影和语义ID嵌入的总和，以提供更具多样性和高秩的输入表示，避免单一低维嵌入带来的崩溃。
高效自适应微调： 利用LoRA高效微调LLM，并引入多模态频率感知融合机制，根据物品的冷热程度动态调整不同模态信息的权重，以优化推荐性能。

4.2. 核心方法详解 (逐层深入)

4.2.1. 编码阶段 (Encoding Stage)

该阶段旨在获取物品的多模态嵌入及其对应的语义ID。

1. 多模态嵌入编码 (Multimodal Embedding Encoding) 首先，需要为每个物品获取其在协同、文本和视觉模态下的嵌入。

协同嵌入 (Collaborative Embedding)：
- 通过训练一个传统的序列推荐系统（如SASRec）在仅包含物品ID的协同数据上，获取预训练的协同嵌入表 $E_c \in \mathbb{R}^{D_c \times |\mathcal{I}|}$ 。其中， $D_c$ 是协同嵌入的维度， $|\mathcal{I}|$ 是物品总数。
文本和视觉嵌入 (Textual and Visual Embedding)：
- 为了更好地处理多模态数据，本文采用LLM2CLIP模型作为多模态编码器。LLM2CLIP通过用更强大的LLM（如Llama3-8B）替换CLIP的文本编码器，增强了原始CLIP模型处理长而复杂文本的能力，同时确保了视觉和文本信息被映射到相同的嵌入空间中。
- LLM2CLIP将物品的多模态属性（如产品标题和图像）作为输入，输出文本嵌入 $E_t \in \mathbb{R}^{D_t \times |\mathcal{I}|}$ 和视觉嵌入 $E_v \in \mathbb{R}^{D_v \times |\mathcal{I}|}$ 。其中， $D_t$ 和 $D_v$ 分别是文本和视觉嵌入的维度。

2. 多模态嵌入量化 (Multimodal Embedding Quantization) 为了生成多模态语义ID，本文提出了多模态残差量化变分自编码器 (MM-RQ-VAE)。其模型架构如原文 Figure 2 所示。

该图像是示意图，展示了MME-SID框架的多模态嵌入与语义ID的集成过程。图中包括协作嵌入、文本嵌入和视觉嵌入的编码和解码流程，采用Llama3-8B和CLIP-ViT进行多模态表示。图示还展示了量化嵌入的重建及其与协作和语义ID的对齐关系，强调了最大均值差异作为重建损失的作用。

VLM 描述: 该图像是示意图，展示了MME-SID框架的多模态嵌入与语义ID的集成过程。图中包括协作嵌入、文本嵌入和视觉嵌入的编码和解码流程，采用Llama3-8B和CLIP-ViT进行多模态表示。图示还展示了量化嵌入的重建及其与协作和语义ID的对齐关系，强调了最大均值差异作为重建损失的作用。

残差量化过程： 对于每种模态 $j \in \{c, t, v\}$ ，原始嵌入 $s_j \in E_j$ 首先被编码成潜在语义嵌入 $z_j$ 。然后，通过一个 $L$ 级的码本，将 $z_j$ 量化成一系列语义ID $\{SID_j^1, ..., SID_j^L\}$ 。具体地，对于每个码本级别 $l = 1, \ldots, L$ ，都有一个码本 $C_l = \{CE_k\}_{k=1}^S$ ，其中 $CE_k \in \mathbb{R}^d$ 是可学习的码嵌入， $S$ 是码本大小。残差量化过程公式如下： $SID^l = \arg \min_k \|r_{l-1} - CE_k\|^2 \\ r_l = r_{l-1} - CE_{SID^l}$ 其中：
- $SID^l$ : 在第 $l$ 级码本分配的语义ID。
- $r_{l-1}$ : 来自上一级别的残差， $r_0 = z$ （即编码后的潜在语义嵌入）。
- $CE_k$ : 码本 $C_l$ 中的第 $k$ 个码嵌入。
- $\|\cdot\|$ : L2 范数，用于计算距离。量化后，物品的语义ID序列为 $\{SID^1, ..., SID^L\}$ 。量化嵌入 $\hat{z}$ 是所有级别码嵌入的总和： $\hat{z} = \sum_{l=1}^L CE_{SID^l}$ 这个量化嵌入 $\hat{z}$ 随后被解码器映射回 $\hat{s}$ ，以重建原始嵌入 $s$ 。
MM-RQ-VAE的损失函数： 为了解决现有语义ID方法仅使用MSE作为重建损失无法显式保留距离分布信息的问题，以及未能捕捉模态间关联的问题，MM-RQ-VAE引入了最大均值差异 (MMD) 作为重建损失，并结合对比学习进行模态对齐。

MM-RQ-VAE的整体损失函数为： $\mathcal{L}_{\mathrm{MM-RQ-VAE}} = \mathcal{L}_{\mathrm{Recon}} + \beta \cdot \mathcal{L}_{\mathrm{Align}} + \gamma \cdot \sum_{j \in \{c, t, v\}} \mathcal{L}_{\mathrm{RQ-VAE}} \quad \mathrm{(9)}$ 其中：
- $\mathcal{L}_{\mathrm{Recon}}$ : 重建损失，用于确保量化解码后的嵌入能够准确重建原始嵌入。
- $\mathcal{L}_{\mathrm{Align}}$ : 对齐损失，用于拉近不同模态之间相同物品的量化嵌入。
- $\mathcal{L}_{\mathrm{RQ-VAE}}$ : 原始RQ-VAE的损失，用于训练码本和编码器/解码器。
- $\beta, \gamma$ : 是超参数，用于平衡各项损失的重要性。
a. 重建损失 ( $\mathcal{L}_{\mathrm{Recon}}$ ): 本文提出使用最大均值差异 (MMD) 作为重建损失，以显式地保留原始嵌入 $s_j$ 和解码后的量化嵌入 $\hat{s}_j$ 之间的距离分布信息。 MMD度量了两个概率分布 $P$ 和 $Q$ 之间的距离，定义为： $\mathrm{MMD}_K(P, Q) \triangleq \|\pmb{\mu}_P - \pmb{\mu}_Q\|_{\mathcal{H}_K} \quad \mathrm{(7)}$ 其中：
- $k(\cdot, \cdot)$ : 对称正定核函数。
- $\mathcal{H}_K$ : 由核函数 $k$ 定义的再生核希尔伯特空间 (Reproducing Kernel Hilbert Space)。
- $\pmb{\mu}_P, \pmb{\mu}_Q$ : 分布 $P$ 和 $Q$ 在 $\mathcal{H}_K$ 中的均值嵌入。
- $\|\cdot\|_{\mathcal{H}_K}$ : $\mathcal{H}_K$ 空间中的范数。
- 本文使用高斯核 (Gaussian kernel)作为特征核，它可以保留分布的所有统计量。最终的重建损失定义为： $\mathcal{L}_{\mathrm{Recon}} = \sum_{b \subset I} \sum_{j \in \{c, t, v\}} \mathrm{MMD}_K^2 \left( \mathsf{SG}(s_j^b) , \hat{s}_j^b \right) \quad \mathrm{(10)}$ 其中：
- $b \subset I$ : 表示一个物品批次 (batch) 的样本。
- $j \in \{c, t, v\}$ : 遍历协同、文本和视觉三种模态。
- $\mathsf{SG}(\cdot)$ : 停止梯度操作 (Stop Gradient operation)，意味着梯度不会流回 $s_j^b$ ，而是将其视为固定目标。这确保了重建器专注于匹配原始嵌入的分布，而不是影响原始嵌入的生成。
- $\mathrm{MMD}_K^2$ : 计算原始嵌入分布和重建嵌入分布之间的MMD距离的平方。
b. 对齐损失 ( $\mathcal{L}_{\mathrm{Align}}$ ): 为了捕捉模态间关联，MM-RQ-VAE采用对比学习目标（如InfoNCE损失）来对齐量化后的协同嵌入 $\hat{z}_c$ 与量化后的文本嵌入 $\hat{z}_t$ 和视觉嵌入 $\hat{z}_v$ 。由于LLM2CLIP已将视觉和文本信息映射到同一嵌入空间，因此无需额外对齐这两者。对齐损失定义为： $\mathcal{L}_{\mathrm{Align}} = \mathcal{L}_{c-t} + \mathcal{L}_{c-v} \quad \mathrm{(11)}$ 其中 $\mathcal{L}_{c-t}$ 和 $\mathcal{L}_{c-v}$ 是协同模态与其他模态的InfoNCE损失： $\mathcal{L}_{c-t} = - \frac{1}{|\mathcal{I}|} \sum_{i=1}^{|\mathcal{I}|} \log \frac{\exp \left( \langle \hat{z}_c^i, \hat{z}_t^i \rangle / \epsilon \right)}{\exp \left( \langle \hat{z}_c^i, \hat{z}_t^i \rangle / \epsilon \right) + \sum_{i' \neq i} \exp \left( \langle \hat{z}_c^i, \hat{z}_t^{i'} \rangle / \epsilon \right)} \quad \mathrm{(12)}$ $\mathcal{L}_{c-v} = - \frac{1}{|\mathcal{I}|} \sum_{i=1}^{|\mathcal{I}|} \log \frac{\exp \left( \langle \hat{z}_c^i, \hat{z}_v^i \rangle / \epsilon \right)}{\exp \left( \langle \hat{z}_c^i, \hat{z}_v^i \rangle / \epsilon \right) + \sum_{i' \neq i} \exp \left( \langle \hat{z}_c^i, \hat{z}_v^{i'} \rangle / \epsilon \right)} \quad \mathrm{(13)}$ 其中：
- $\langle \cdot, \cdot \rangle$ : 相似度度量（如余弦相似度）。
- $\hat{z}_c^i, \hat{z}_t^i, \hat{z}_v^i$ : 第 $i$ 个物品在协同、文本和视觉模态下的量化嵌入。
- $\epsilon$ : 温度系数 (temperature coefficient)。
- 分母中的 $\sum_{i' \neq i}$ 表示从其他物品中采样负样本。
c. RQ-VAE损失 ( $\mathcal{L}_{\mathrm{RQ-VAE}}$ ): 这部分损失与原始RQ-VAE的损失等价，用于训练码本和编码器/解码器。 $\mathcal{L}_{\mathrm{RQ-VAE}} = \sum_{l=1}^L \left\| \mathsf{SG}(r_{l-1}) - CE_{SID^l} \right\|^2 + \alpha \left\| r_{l-1} - \mathsf{SG}(CE_{SID^l}) \right\|^2 \quad \mathrm{(5)}$ 其中：
- $\mathsf{SG}(\cdot)$ : 停止梯度操作。
- $\alpha$ : 超参数，平衡码嵌入更新与编码器更新。
- 第一项是编码器输出与码嵌入之间的距离，用于更新码嵌入。
- 第二项是编码器输出与码嵌入之间距离的平方，用于更新编码器，鼓励编码器输出接近码嵌入。 注意： 原文公式 (5) 在最后一项缺少 $- \mathrm{e}^{\alpha}$ 的平方，这可能是原始VQ-VAE或RQ-VAE中的一个正则化项。按照严格忠实于原文的原则，我将严格复述论文中的公式形式，并指出可能的不完整性。然而，根据上下文，该项在RQ-VAE损失中通常表示编码器输出和码嵌入之间的commitment loss。这里仅有前两项，可能是一个简化版本。原文公式 (5) 应该是缺少 $+ \beta_1 \| \cdot \|^2 + \beta_2 \| \cdot \|^2$ 的形式。我将严格按照原文给出的呈现。这里只呈现了量化部分，没有VAE的KL散度项，所以这是RQ而非RQ-VAE的简化损失。
通过MM-RQ-VAE的训练，我们获得了每种模态的多模态语义ID $\{SID_j^1, ..., SID_j^L\}$ 及其对应的训练好的码嵌入 $CE_{SID_j^l}$ 。

4.2.2. 微调阶段 (Fine-tuning Stage)

该阶段旨在高效地微调大语言模型，使其能够执行序列推荐任务。

Figure 1: The overall framework of MME-SID. 该图像是MME-SID框架的示意图，显示了大语言模型（LLM）如何集成多模态嵌入和量化嵌入。图中展现了多个线性映射，其中包括协作嵌入、文本嵌入和视觉嵌入，利用频率感知融合进行信息整合。

VLM 描述: 该图像是MME-SID框架的示意图，显示了大语言模型（LLM）如何集成多模态嵌入和量化嵌入。图中展现了多个线性映射，其中包括协作嵌入、文本嵌入和视觉嵌入，利用频率感知融合进行信息整合。

1. 初始化与输入构造：

缓解灾难性遗忘： 为了解决灾难性遗忘问题，MME-SID不随机初始化语义ID的嵌入。相反，它使用训练好的码嵌入 $CE_{SID_j^l}$ 来初始化ID嵌入 $E_{SID_j^l}$ 。这些码嵌入来自经过训练的MM-RQ-VAE，其中包含了丰富的模态内距离信息。
LLM输入 (Behavioral Item Sequence) 构造： LLM的输入由{Instruction}（用于执行SR任务的指令）和{Behavioral Item Sequence}（用户行为物品序列）组成。 {Behavioral Item Sequence}的构造方式是MME-SID区别于现有方法的关键，它旨在同时利用原始嵌入的距离信息和语义ID的层次结构，以缓解嵌入崩溃： $f_{\mathrm{MLP}} \left( \left[ \mathcal{W}_j \cdot \left( \mathcal{X} \cdot \mathsf{SG}(E_j) \right) + b_j , \sum_{l=1}^L E_{SID_j^l} \right] \right), \quad j \in \{c, t, v\} \quad \mathrm{(14)}$ 其中：
- $\mathcal{X}$ : 行为物品序列的独热向量 (one-hot vector)。
- $E_j$ : 原始模态 $j$ 的嵌入表（协同 $E_c$ 、文本 $E_t$ 、视觉 $E_v$ ）。
- $\mathsf{SG}(E_j)$ : 停止梯度操作，确保原始嵌入 $E_j$ 不会被下游任务的梯度更新，从而保留其预训练知识。
- $\mathcal{W}_j, b_j$ : 模态 $j$ 的线性投影权重和偏置，用于将原始嵌入映射到LLM的词元嵌入空间。
- $\sum_{l=1}^L E_{SID_j^l}$ : 第 $j$ 模态的语义ID嵌入的总和（即量化嵌入），其中 $E_{SID_j^l}$ 是用MM-RQ-VAE训练好的码嵌入初始化的。
- $[\cdot, \cdot]$ : 连接操作 (concatenation operation)，将线性投影后的原始嵌入与语义ID嵌入的总和拼接起来。
- $f_{\mathrm{MLP}}$ : 一个多层感知机 (MLP)，用于将拼接后的特征转换到LLM的词元嵌入维度 $D_{\mathrm{LLM}}$ 。这种输入格式同时包含了原始嵌入和语义ID嵌入，被认为能够提供一个不那么崩溃 (less collapsed)、更少遗忘 (less forgetting)且信息更丰富 (more informative)的多模态嵌入，从而改善推理效率。

2. 多模态频率感知融合 (Multimodal Frequency-Aware Fusion) 现有SR模型常忽略不同模态对冷启动物品 (cold items)或热门物品 (warm items)重要性不同的事实。因此，本文提出了多模态频率感知融合模块，以自适应地融合LLM输出与不同模态物品嵌入的分数。

物品频率计算： 首先，记录训练集中每个物品 $i$ 出现的频率 $q_i$ 。由于用户-物品交互数据通常遵循高度偏斜的长尾分布 (highly-skewed long-tail distribution)，频率 $q_i$ 会被转换为特征 $q_i'$ 并归一化为 $q_i''$ ： $q_i' = \log(q_i + 1) \quad \mathrm{(15)} \\ q_i'' = \frac{q_i' - \min(q_i')}{\max(q_i') - \min(q_i')} \quad \mathrm{(16)}$
融合权重生成： 一个MLP $g$ 将归一化的频率 $q_i''$ 作为输入特征，并输出目标物品的融合权重 $\{w_X, w_c, w_t, w_v\}$ 。这些权重用于平衡LLM输出与不同模态嵌入之间的贡献。
预测分数计算： LLM的最终隐藏状态 $\mathbf{o}_{\mathrm{LLM}}$ $o_{LLM}$ 被用于计算预测分数。目标物品 $E_x \in \mathbb{R}^{D_{\mathrm{LLM}} \times |\mathcal{I}|}$ $E_{x} \in R^{D_{LLM} \times ∣ I ∣}$ 是一个新的嵌入表，专门用于缓解目标物品嵌入的潜在崩溃问题。最终的预测分数 $\hat{y}$ $\overset{y}{^}$ 为： $w_X \odot (\mathbf{o}_{\mathrm{LLM}} \cdot E_x^\top) + \sum_j w_j \odot \left( \mathbf{o}_{\mathrm{LLM}} \cdot \left(\mathcal{W}_j \cdot (\mathcal{X} \cdot \mathsf{SG}(E_j)) + b_j\right)^\top \right) \quad \mathrm{(17)}$ 其中：
- $\odot$ : 哈达玛积 (Hadamard product)（元素级乘法）。
- $\cdot$ : 点积 (dot product)（矩阵乘法）。
- $j \in \{c, t, v\}$ : 遍历协同、文本和视觉模态。
- $E_x$ : 专门用于目标物品的新嵌入表，其维度与LLM的词元嵌入维度 $D_{\mathrm{LLM}}$ 相同。这被证明对缓解嵌入崩溃有必要。

3. LLM微调：

使用二元交叉熵损失 (Binary Cross Entropy, BCE loss) 计算 $\hat{y}$ 和真实标签 $y$ 之间的损失。
通过LoRA技术高效地更新LLM的参数。LoRA只更新一小部分参数（实验中约0.19%），大大降低了计算成本，同时减轻了灾难性遗忘。

4.3. 伪代码

原文的算法1提供了MME-SID的伪代码，清晰地展示了其两个阶段的流程：

算法 1: MME-SID的流程 输入: 用户集合 $\mathcal{U}$ ；物品集合 $\mathcal{I}$ ；历史交互序列 $\{h_u\}$ ，目标物品 $x_u$ ，和真实标签 $y_u$ ； 输出: 一个训练好的LLM作为序列推荐系统。

阶段 1: 编码

从一个预训练的传统序列推荐系统获取协同嵌入；
使用LLM2CLIP获取文本和视觉嵌入；
while 未收敛 do
从 $\mathcal{I}$ 中采样一个mini-batch数据；
计算重建损失 $\mathcal{L}_{\mathrm{Recon}}$ ；
计算对齐损失 $\mathcal{L}_{\mathrm{Align}}$ ；
计算RQ-VAE损失 $\mathcal{L}_{\mathrm{RQ-VAE}}$ ；
计算梯度并更新MM-RQ-VAE；
end while
获取多模态语义ID和码嵌入；

阶段 2: 微调 11. while 未收敛 do 12. 从 $\mathcal{U}$ 中采样一个mini-batch数据； 13. 检索多模态嵌入和语义ID； 14. 获取LLM输出的最后一个隐藏状态； 15. 计算目标物品的融合权重； 16. 计算多模态融合的预测分数； 17. 计算BCE损失； 18. 计算梯度并使用LoRA更新LLM； 19. end while

5. 实验设置

5.1. 数据集

实验在三个Amazon 2018 5-核数据集（Amazon 2018 5-core dataset）的类别上进行，包括 Beauty (美妆), Toys & Games (玩具与游戏), 和 Sports & Outdoors (运动与户外)。这些数据集要求每个用户和物品至少有5次交互，以确保数据质量。数据集来自亚马逊电子商务平台，任务目标是预测用户对目标物品的评分是否高于3。

数据预处理： 移除原始数据集中缺少标题或图像的物品。
训练/测试集划分： 对于每个用户的历史交互序列，将倒数第二个物品 (N-1th) 作为训练集中的目标物品，最后一个物品 ( $N$ th) 作为测试集中的目标物品。

以下是原文 Table 1 提供的Amazon数据集统计信息：

Category	Users	Items	Interactions	Sparsity
Beauty	22,332	12,086	198,215	99.93%
Toys & Games	19,121	11,757	165,221	99.93%
Sports & Outdoors	35,092	18,090	292,007	99.95%

特点和领域： 这些数据集涵盖了不同的商品类别，具有真实的电商用户行为数据。稀疏度 (Sparsity) 指标显示，绝大部分样本是负样本 (标签 $y=0$ )，这反映了真实推荐场景中的数据特点，即用户实际交互的物品只占极少数。选择这些数据集能够有效验证推荐系统在真实、稀疏场景下的性能。

5.2. 评估指标

为了评估模型性能，本文采用了以下两个在推荐系统中常用的Top-k评估指标：

命中率 (Hit Ratio, HR@k):
- 概念定义： HR@k衡量的是推荐列表中是否包含用户实际交互的物品。它是一个二元指标：如果用户的真实目标物品出现在Top-k推荐列表中，则认为命中；否则，未命中。HR@k主要关注模型推荐出用户喜欢物品的能力，而不考虑其在列表中的具体位置。
- 数学公式： $\mathrm{HR@k} = \frac{\text{Number of hits @k}}{\text{Total number of interactions}}$ 或更精确地对于一个用户，假设 $R_u$ 是推荐列表， $T_u$ 是用户实际交互的目标物品： $\mathrm{HR@k}(u) = \mathbb{I}(T_u \in R_u[:k])$ 总的 $\mathrm{HR@k}$ 则是对所有用户取平均： $\mathrm{HR@k} = \frac{1}{|\mathcal{U}|} \sum_{u \in \mathcal{U}} \mathrm{HR@k}(u)$
- 符号解释：
  - $\text{Number of hits @k}$ : 在所有测试交互中，真实目标物品出现在Top-k推荐列表中的次数。
  - $\text{Total number of interactions}$ : 测试集中的总交互次数。
  - $\mathcal{U}$ : 用户集合。
  - $R_u[:k]$ : 为用户 $u$ 生成的Top-k推荐列表。
  - $T_u$ : 用户 $u$ 实际交互的目标物品。
  - $\mathbb{I}(\cdot)$ : 指示函数，当括号内条件为真时取1，否则取0。
归一化折损累计增益 (Normalized Discounted Cumulative Gain, nDCG@k):
- 概念定义： nDCG@k 衡量的是推荐列表的质量，它不仅考虑了推荐物品的相关性，还考虑了相关物品在列表中的位置。排名靠前的相关物品会获得更高的分数，而排名靠后的相关物品或不相关的物品则分数较低。nDCG@k 旨在评估推荐列表的整体效用，尤其是对用户最感兴趣的物品的排名。
- 数学公式： 首先定义 DCG@k (Discounted Cumulative Gain): $\mathrm{DCG@k} = \sum_{i=1}^{k} \frac{\mathrm{rel}_i}{\log_2(i+1)}$ 然后计算 IDCG@k (Ideal DCG@k)，即理想情况下，所有相关物品都按其相关性从高到低排列时的 DCG@k。最后，nDCG@k 为 DCG@k 与 IDCG@k 的比值： $\mathrm{nDCG@k} = \frac{\mathrm{DCG@k}}{\mathrm{IDCG@k}}$ 对于二分类相关性 (relevant/irrelevant)， $\mathrm{rel}_i$ 为1 (相关) 或0 (不相关)。
- 符号解释：
  - $k$ : 推荐列表的长度。
  - $i$ : 物品在推荐列表中的排名位置。
  - $\mathrm{rel}_i$ : 排名在第 $i$ 位的物品的相关性得分（在本文任务中，如果预测的用户评分高于3，则为1，否则为0）。
  - $\log_2(i+1)$ : 折扣因子，使排名靠前的物品贡献更大。
  - $\mathrm{DCG@k}$ : 累积折扣增益，衡量实际推荐列表的效用。
  - $\mathrm{IDCG@k}$ : 理想累积折扣增益，衡量完美推荐列表的效用。
  - $\mathrm{nDCG@k}$ : DCG@k 的归一化版本，值在0到1之间。

k值设置： 实验中 $k$ 值设定为 5, 10, 20。

5.3. 对比基线

本文将MME-SID与以下代表性基线方法进行比较，所有基于LLM的方法均采用Llama3-8B-instruct作为LLM骨干，并使用RQ-VAE生成语义ID，以确保公平比较。

以下是原文 Table 2 提供的基线方法及其 {Behavioral Item Sequence} 输入形式：

Method	Input
SASRec	$\mathcal{X} \cdot E_c$
E4SRec	$\mathcal{W}_c \cdot (\mathcal{X} \cdot \mathsf{SG}(E_c)) + b_c$
ME	$f_{\mathrm{MLP}}([\mathcal{W}_c \cdot (\mathcal{X} \cdot \mathsf{SG}(E_c)) + b_c, \mathcal{X} \cdot E_c'])$
Concat	$[\mathcal{W}_j \cdot (\mathcal{X} \cdot \mathsf{SG}(E_j)) + b_j]_{j \in \{c, t, v\}}$
Concat&MLP	$f_{\mathrm{MLP}}([\mathcal{W}_j \cdot (\mathcal{X} \cdot \mathsf{SG}(E_j)) + b_j]_{j \in \{c, t, v\}})$
CTRL-MM	$f_{\mathrm{MLP}}([\mathcal{W}_j \cdot (\mathcal{X} \cdot \mathsf{SG}(E_j)) + b_j]_{j \in \{c, t, v\}})$
TIGER-MM	$[SID_j^1, \dots, SID_j^L]_{j \in \{c, t, v\}}$
MOTOR	$[\sum_{l=1}^L SID_t^l, \sum_{l=1}^L SID_v^l]$
LETTER	$[SID_t^1, \dots, SID_t^L]$

$\mathcal{X}$ : 行为物品序列的独热向量。
$E$ : 嵌入矩阵。
$\mathcal{W}, b$ : 线性投影的权重和偏置。
$SID^l$ : 第 $l$ 级码本的语义ID。
下标 c, t, v: 分别表示协同、文本和视觉模态。
$[\cdot]$ : 连接操作。
$\mathsf{SG}(\cdot)$ : 停止梯度操作。
$f_{\mathrm{MLP}}(\cdot)$ : 多层感知机。

基线方法分类与描述：

1. 仅利用物品ID（协同模态）的方法：

SASRec (Kang and McAuley, 2018): 原始的SASRec模型，使用自注意力机制建模序列模式。它不使用LLM，是一个传统的序列推荐系统。
E4SRec (Li et al., 2023): 将预训练的ID嵌入通过线性投影映射到LLM的词元空间，以解决超范围生成问题 (out-of-range generation problem)。
Multi Embedding (ME): 本文提出的一个基线。它同时使用预训练ID嵌入的线性投影 $\mathcal{W}_c \cdot (\mathcal{X} \cdot \mathsf{SG}(E_c)) + b_c$ 和一套新的随机初始化的ID嵌入 $\mathcal{X} \cdot E_c'$ 作为输入。旨在通过增加嵌入多样性来缓解嵌入崩溃，但仍仅限于协同模态。

2. 利用多模态数据的方法：

Concat (CoLLM, LLaRA等): 简单地将不同模态（协同、文本、视觉）的嵌入（经过线性映射后）直接拼接起来作为LLM的输入。例如CoLLM (Zhang et al., 2025) 和LLaRA (Liao et al., 2024)。
Concat&MLP: 多模态融合的典型方法。它将协同、文本和视觉嵌入的拼接结果输入到一个多层感知机 (MLP)中，然后将MLP的输出作为LLM的输入。
CTRL-MM: CTRL (Li et al., 2023) 的多模态变体。它与Concat&MLP具有相同的输入结构，但在模型内部明确使用InfoNCE等对比学习损失来对齐协同嵌入与文本和视觉嵌入。
TIGER-MM: TIGER (Rajput et al., 2023) 的多模态变体。它为每种模态（协同、文本、视觉）分别训练一个RQ-VAE以生成语义ID，然后仅使用这些语义ID序列作为LLM的输入，进行生成式检索。
MOTOR (Zhang et al., 2024): 替换协同嵌入，使用视觉和文本特征的词元嵌入，并采用词元交叉网络 (token cross network)进行交互。在此基线中，为公平比较，获取视觉和文本嵌入的语义ID总和，并使用SASRec作为传统的下游多模态推荐模型。
LETTER (Wang et al., 2024): 在TIGER的基础上，采用各种正则化方法（如多样性）来改进物品词元化。在此基线中，仅使用文本嵌入的语义ID序列作为LLM的输入，进行生成式推荐。

5.4. 实现细节

多模态编码： 利用商品的标题和图片。协同嵌入维度 $D_c = 64$ ；文本嵌入维度 $D_t = 1280$ ；视觉嵌入维度 $D_v = 1280$ 。
MMD核函数： 采用高斯核 (Gaussian kernel) $k(\pmb{e}, \pmb{e}') = \exp \left( - \frac{\|\pmb{e} - \pmb{e}'\|^2}{2\sigma^2} \right)$ 作为特征核。
LLM骨干： 采用Llama3-8B-instruct作为推荐器，其词元嵌入维度 $D_{\mathrm{LLM}} = 4096$ 。选择instruct版本是因为其在遵循指令方面表现更好。
优化器： 采用AdamW (Loshchilov and Hutter, 2017) 优化器。
超参数：
- RQ-VAE损失中的 $\alpha = 1$ 。
- MM-RQ-VAE中的平衡系数 $\beta = 1\mathrm{e}{-3}$ ， $\gamma = 1$ 。
- LoRA目标模块为 [gate_proj, down_proj, up_proj]，这些是Transformer模型中常见的投影层。
- 实验中仅更新了约 0.19% 的总参数，体现了LoRA的高效性。
计算资源： 所有实验均在A100 GPU上进行。
重复实验： 结果是3次运行的平均值。

以下是原文 Table 4 提供的实验超参数设置：

Dataset	Beauty	Toys & Games	Sports & Outdoors
Training epochs	3	3	2
Learning rate	3e-4	2e-4	2e-4
Batch size	16	16	16
LoRA rank	8	8	8
LoRA alpha	16	16	16
LoRA dropout	0.05	0.05	0.05
Warm-up steps	100	100	200
Number of codes	256	256	300
Level of codebooks	4	4	4

6. 实验结果与分析

6.1. 核心结果分析 (RQ1)

RQ1: 所提出的MME-SID与基线方法相比，性能如何？ 原文 Table 3 展示了在三个Amazon数据集（Beauty, Toys & Games, Sports & Outdoors）上MME-SID与各种基线方法的整体性能比较。

以下是原文 Table 3 的结果：

Datasets	Metric	SASRec	E4SRec	ME	Concat	Concat&MLP	CTRL-MM	TIGER-MM	MOTOR	LETTER	Ours-full	Impr.
Beauty	HR@5	0.0368	0.0545	0.0567	0.0523	0.0581	0.0614	0.0471	0.0226	0.0415	0.0675*	9.93%
	HR@10	0.0578	0.0757	0.0787	0.0757	0.0830	0.0875	0.0668	0.0380	0.0654	0.0955*	9.14%
	HR@20	0.0903	0.1040	0.1046	0.1070	0.1177	0.1224	0.0945	0.0635	0.0833	0.1342*	9.64%
	nDCG@5	0.0243	0.0388	0.0402	0.0365	0.0404	0.0430	0.0329	0.0140	0.0262	0.0475*	10.47%
	nDCG@10	0.0310	0.0456	0.0473	0.0440	0.0484	0.0515	0.0393	0.0189	0.0351	0.0566*	9.90%
	nDCG@20	0.0392	0.0527	0.0538	0.0519	0.0571	0.0602	0.0463	0.0253	0.0408	0.0663*	10.13%
Toys & Games	HR@5	0.0508	0.0593	0.0598	0.0620	0.0623	0.0618	0.0486	0.0168	0.0471	0.0653*	4.82%
	HR@10	0.0713	0.0802	0.0827	0.0846	0.0871	0.0850	0.0667	0.0310	0.0650	0.0909*	4.36%
	HR@20	0.1022	0.1064	0.1120	0.1114	0.1184	0.1179	0.0889	0.0528	0.0852	0.1223*	3.29%
	nDCG@5	0.0357	0.0433	0.0435	0.0452	0.0444	0.0429	0.0354	0.0104	0.0343	0.0472*	4.42%
	nDCG@10	0.0422	0.0501	0.0509	0.0525	0.0524	0.0503	0.0412	0.0150	0.0399	0.0555*	5.71%
	nDCG@20	0.0500	0.0566	0.0582	0.0592	0.0602	0.0586	0.0468	0.0204	0.0449	0.0634*	5.32%
Sports & Outdoors	HR@5	0.0204	0.0316	0.0339	0.0287	0.0292	0.0270	0.0251	0.0154	0.0224	0.0371*	9.44%
	HR@10	0.0327	0.0456	0.0494	0.0431	0.0445	0.0424	0.0376	0.0253	0.0334	0.0541*	9.51%
	HR@20	0.0522	0.0650	0.0718	0.0658	0.0667	0.0652	0.0551	0.0426	0.0503	0.0778*	8.36%
	nDCG@5	0.0132	0.0218	0.0234	0.0191	0.0194	0.0181	0.0167	0.0100	0.0149	0.0253*	8.12%
	nDCG@10	0.0171	0.0263	0.0285	0.0237	0.0243	0.0230	0.0207	0.0131	0.0186	0.0308*	8.07%
	nDCG@20	0.0220	0.0312	0.0341	0.0294	0.0299	0.0287	0.0251	0.0174	0.0226	0.0367*	7.62%

Bold：表示基线中的最佳性能。
*：表示与最佳基线相比，t检验的P值 < 0.05，具有统计学显著性。

观察与分析：

LLM-based方法优于传统SRS方法： 总体而言，基于LLM的方法（除了某些表现不佳的特定基线）性能优于传统SRS方法 SASRec和MOTOR。这证实了LLM在序列推荐领域的巨大潜力。SASRec作为纯ID-based模型，其性能通常垫底。MOTOR作为多模态方法，其在Toys & Games和Sports & Outdoors数据集上表现非常差，甚至不如SASRec，这可能与其词元交叉网络和下游SASRec的整合方式有关，也可能是其对物品表示的量化和自回归生成存在效率或信息损失问题。
单模态LLM4SR的提升有限：
- E4SRec始终优于SASRec，表明将预训练ID嵌入映射到LLM空间是有效的。
- Multi Embedding (ME)在E4SRec的基础上略有改进，通过维护一个新的协同嵌入表来增加信息。然而，在Beauty和Toys & Games数据集上提升不显著，这可能因为它仍然只利用协同模态数据，未能引入足够额外的信息增益。
现有多模态LLM4SR方法的局限性：
- 令人惊讶的是，即使引入了多模态数据，广泛采用的Concat、Concat&MLP和CTRL-MM在某些数据集上表现甚至不如E4SRec（例如，Beauty和Sports & Outdoors上的nDCG@5）。这表明这些方法在利用多模态数据的方式上可能存在缺陷，未能充分发挥多模态信息的潜力，或者融合方式不当导致噪声。
- TIGER-MM、MOTOR和LETTER在所有多模态方法中表现最差。这挑战了当前仅利用语义ID进行生成式检索的常见方法，暗示这种方法可能存在严重的信息损失（灾难性遗忘）或效率问题。特别是LETTER，声称通过正则化提升词元化，但实际效果不佳，可能进一步印证了抛弃码嵌入的弊端。
MME-SID的显著优越性：
- MME-SID在所有三个数据集上均取得了显著的性能提升，并始终优于所有基线方法。
- 它在Beauty数据集上，nDCG@5比最佳基线提升了10.47%；在Toys & Games上提升了4.42%；在Sports & Outdoors上提升了8.12%。
- 这些结果强有力地验证了MME-SID的有效性，证明其在解决嵌入崩溃和灾难性遗忘方面的能力，并真正释放了LLM在序列推荐中的潜力。

6.2. 缓解嵌入崩溃 (RQ2)

RQ2: 多模态嵌入和语义ID是否有助于缓解嵌入崩溃？ 为了回答这个问题，实验比较了SASRec、E4SRec、ME、SE-SID-MMD和MME-SID五种方法。SE-SID-MMD仅使用协同模态，其输入为 $f_{\mathrm{MLP}} \left( \left[ \mathcal{W}_c \cdot \left( \mathcal{X} \cdot \mathsf{SG}(E_c) \right) + b_c , \sum_{l=1}^L E_{SID_c^l} \right] \right)$ 。SR性能通过nDCG@k评估，嵌入崩溃通过嵌入表的奇异值 (singular value) 来衡量，奇异值越高表示崩溃程度越低。结果在Beauty数据集上进行，并展示在原文 Figure 3 中。

$Figure 3: (a) Sequential recommendation performance where the y-axis is $\\mathbf { n D C G } @ 2 \\mathbf { 0 } .$ (b) Embedding collapse Measurement. The $\\mathbf { x }$ -axis is dimension index and y-axis is the logarithm of singular value (normalized by the maximum value) of embedding. They are both conducted on Beauty dataset.$ 该图像是图表，展示了序列推荐（SR）的性能和嵌入崩溃的测量结果。图(a)显示了不同方法在SR任务上的表现，y轴为nDCG@20；图(b)则展示了嵌入崩溃的度量，x轴为维度索引，y轴为嵌入的对数奇异值（归一化处理）。这些结果源于Beauty数据集。

VLM 描述: 该图像是图表，展示了序列推荐（SR）的性能和嵌入崩溃的测量结果。图(a)显示了不同方法在SR任务上的表现，y轴为nDCG@20；图(b)则展示了嵌入崩溃的度量，x轴为维度索引，y轴为嵌入的对数奇异值（归一化处理）。这些结果源于Beauty数据集。

观察与分析：

SASRec和E4SRec的严重嵌入崩溃：
- Figure 3(a) 显示SASRec和E4SRec的nDCG@20性能最差。
- Figure 3(b) 显示，这两者的4096维嵌入矩阵在约第64维之后奇异值急剧下降（因为 $D_c = 64$ ），表明存在严重的嵌入崩溃。这意味着它们只能利用LLM嵌入空间的一个极低维子空间。
MME-SID显著缓解嵌入崩溃并提升性能：
- Figure 3(a) 中，MME-SID取得了最佳的SR性能。
- Figure 3(b) 中，MME-SID的输入行为物品嵌入（蓝色线）以及目标物品嵌入（绿色线，MME-SID target item）从第65维到第4096维（占嵌入矩阵超过98%的维度）都保持了相对较高的奇异值，显示出最低的崩溃程度。这表明引入多模态嵌入和语义ID有效地扩展了有效嵌入空间，从而增强了模型容量。
- SE-SID-MMD（仅协同模态）也比SASRec和E4SRec有更好的SR性能和更低的嵌入崩溃，这表明使用MMD量化和语义ID本身就对缓解崩溃有益。
目标物品嵌入的重要性：
- MME-SID target item的奇异值分布也显著优于SASRec和E4SRec。这证实了在多模态频率感知融合模块中引入一个新的目标物品嵌入表 $E_x$ 的必要性，它有助于缓解目标物品嵌入的崩溃问题，从而提升整体推荐性能。
  
  结论 1 (Result 1): 仅依赖预训练的低维协同嵌入的LLM4SR会导致嵌入崩溃。相比之下，本文提出的MME-SID通过采用多模态嵌入和语义ID，有效缓解了这一现象，并取得了更好的推荐性能。

6.3. MMD-based重建损失 (RQ3)

RQ3: 基于MMD的重建损失有何作用？ 为了回答RQ3，实验比较了两个模型变体：SE-SID-MMD和SE-SID-MSE。两者都训练RQ-VAE，但前者使用MMD作为重建损失，后者使用MSE。SR性能在Beauty数据集上进行，结果展示在原文 Figure 4 中。

Figure 4: Comparison of MMD and MSE as the reconstruction loss on (a) sequential recommendation performance and (b) embedding collapse on Beauty dataset. 该图像是图表，比较了在(а)重建损失和(б)嵌入崩溃方面，MMD与MSE的性能。图(a)展示了不同nDCG指标下，SE-SID-MSE和SE-SID-MMD两种重建损失的效果，图(b) 则呈现了对应的嵌入崩溃情况。

VLM 描述: 该图像是图表，比较了在(а)重建损失和(б)嵌入崩溃方面，MMD与MSE的性能。图(a)展示了不同nDCG指标下，SE-SID-MSE和SE-SID-MMD两种重建损失的效果，图(b) 则呈现了对应的嵌入崩溃情况。

观察与分析：

SE-SID-MMD的性能优势：
- Figure 4(a) 显示，SE-SID-MMD在nDCG@k各项指标上均优于SE-SID-MSE。这表明MMD作为重建损失确实能够带来更好的SR性能。
MMD更好地保留距离信息，缓解遗忘：
- 论文计算了SE-SID-MMD和SE-SID-MSE输入嵌入中，行为-目标物品协同嵌入对之间欧氏距离变量与预训练协同嵌入 $E_c$ 之间肯德尔τ系数 (Kendall's tau)。
- SE-SID-MMD的 $\tau = 0.4436$ ，高于SE-SID-MSE的 $\tau = 0.3714$ 。
- 这表明MMD损失使量化嵌入能够更好地保留原始嵌入中的信息（即距离的偏序关系），从而在一定程度上缓解了遗忘。
MMD对崩溃的影响相对较小：
- Figure 4(b) 显示，SE-SID-MSE和SE-SID-MMD的输入嵌入具有可比的崩溃程度（蓝色和紫色线）。尽管SE-SID-MMD的语义ID嵌入（黄色线）比SE-SID-MSE（绿色线）的崩溃程度略低，但作者认为f_MLP（多层感知机）只会利用对SR有益的信息。因此，SE-SID-MMD的优越性更主要归因于缓解遗忘，而不是显著改善崩溃。
  
  结论 2 (Result 2): 与使用均方误差 (MSE)作为重建损失相比，最大均值差异 (MMD)重建损失使量化嵌入能够更好地保留信息（即行为-目标物品嵌入距离的偏序关系），从而实现了更好的推荐性能。

6.4. 嵌入初始化 (RQ4)

RQ4: 使用训练好的码嵌入进行初始化是否能缓解灾难性遗忘？ 为了回答RQ4，实验比较了MME-SID与MME-SID-random。MME-SID-random随机初始化语义ID的嵌入，而MME-SID则使用MM-RQ-VAE训练好的码嵌入进行初始化。结果在原文 Figure 5(a) 中展示。

$Figure 5: (a) Comparison of code embedding initialization where the y-axis denotes nDCG@k. (b) Ablation study on Beauty dataset where the y-axis denotes nDCG $\\textcircled { \\pmb { \\omega } } 2 \\mathbf { 0 }$ .$ 该图像是图表，展示了代码嵌入初始化的比较（a）和美学数据集的消融研究（b）。y轴表示 nDCG@k，其中包含了 MME-SID、E4Rec等方法的性能指标，其中 nDCG@5 和 nDCG@20 的数值反映了推荐系统的有效性。

VLM 描述: 该图像是图表，展示了代码嵌入初始化的比较（a）和美学数据集的消融研究（b）。y轴表示 nDCG@k，其中包含了 MME-SID、E4Rec等方法的性能指标，其中 nDCG@5 和 nDCG@20 的数值反映了推荐系统的有效性。

观察与分析：

MME-SID-random性能下降：
- Figure 5(a) 显示，MME-SID-random的性能明显低于MME-SID。这直接证明了随机初始化码嵌入会导致性能下降。
肯德尔τ系数量化灾难性遗忘：
- 在MME-SID-random中，微调后行为-目标物品协同嵌入对之间欧氏距离变量与预训练协同嵌入 $E_c$ 之间肯德尔τ系数为 0.0508。这个值非常低，远低于SE-SID-MSE的 0.3714，表明存在严重的灾难性遗忘。这意味着模型几乎完全忘记了原始嵌入中包含的距离信息。
- 相比之下，MME-SID在微调后的肯德尔τ系数为 0.2727。尽管仍有部分信息丢失，但与MME-SID-random相比，这是一个显著的提升，表明MME-SID通过初始化保留了大部分距离信息，从而显著缓解了遗忘。
  
  结论 3 (Result 3): 简单地抛弃预训练的码嵌入并在下游任务中随机初始化会导致灾难性遗忘。本文提出的MME-SID通过使用训练好的码嵌入进行初始化，缓解了这一现象，从而保留了距离信息，提升了推荐性能。

6.5. 消融研究 (Ablation Study)

消融研究： 实验在Beauty数据集上进行，结果展示在原文 Figure 5(b) 中。

观察与分析：

MME-random vs. MME-SID：
- MME-random与MME-SID具有相同数量的输入参数，但它用随机初始化的新嵌入表替换了量化嵌入。MME-random的性能劣于MME-SID。这表明MME-SID的性能提升并非简单地来源于输入参数数量的增加，而是因为MME-SID能够有效利用MM-RQ-VAE学习到的模态内和模态间关联。随机初始化无法提供这些有益的信息。
SE-random的表现：
- SE-random是单模态模型变体，其输入仅为随机初始化的物品ID嵌入，与E4SRec具有相同数量的输入参数。然而，SE-random的性能远差于E4SRec。这进一步强调了遗忘问题的重要性：即使参数数量相同，随机初始化也会导致无法利用预训练知识，从而性能大幅下降。
w/o Fusion的重要性：
- w/o Fusion是移除了多模态频率感知融合模块的MME-SID变体。其性能下降表明多模态频率感知融合模块的重要性。该模块能够根据物品的冷热程度自适应地融合不同模态的信息，从而对推荐结果产生积极影响。
  
  总结： 消融研究进一步验证了MME-SID中各个核心组件（包括多模态语义ID的智能生成与初始化，以及频率感知融合模块）的有效性，强调了它们在缓解嵌入崩溃和灾难性遗忘以及提升整体推荐性能方面的贡献。

7. 总结与思考

7.1. 结论总结

本文《Empowering Large Language Model for Sequential Recommendation via Multimodal Embeddings and Semantic IDs》深入探讨了将大语言模型（LLMs）应用于序列推荐（SR）时面临的两个关键挑战：嵌入崩溃 (embedding collapse) 和 灾难性遗忘 (catastrophic forgetting)。

为了解决这些问题，论文提出了一种新颖的框架 MME-SID。该框架通过以下创新点显著提升了LLM在SR任务上的性能：

多模态嵌入与语义ID集成： MME-SID利用协同、文本和视觉模态的丰富信息，并将其转化为多模态语义ID，从而有效扩展了LLM的输入表示空间，缓解了嵌入崩溃。
创新的MM-RQ-VAE： 提出了一种多模态残差量化变分自编码器（MM-RQ-VAE）。该模型巧妙地结合了：
- 最大均值差异（MMD） 作为重建损失，以显式地保留量化嵌入与原始嵌入之间的距离分布信息，从而更好地维持语义结构。
- 对比学习 机制，以有效捕捉并对齐不同模态（特别是协同模态与文本/视觉模态）的量化嵌入，增强模态间关联。
缓解灾难性遗忘： MME-SID通过使用MM-RQ-VAE训练得到的码嵌入来初始化LLM中语义ID的嵌入。这种策略有效避免了在下游任务中重新学习这些知识而导致的灾难性遗忘，保留了重要的距离信息。
高效且频率感知微调： 利用LoRA技术高效微调LLM，并引入了多模态频率感知融合模块，根据物品的流行度动态调整不同模态的贡献，进一步优化了推荐效果。

在三个公共Amazon数据集上的广泛实验证实了MME-SID的卓越性能，并深入分析了其缓解嵌入崩溃和灾难性遗忘的能力。MME-SID还展现出更高的推理效率、避免了生成式检索中的冲突问题，并能灵活生成Top-k推荐列表，预示着其在LLM4SR领域的重要影响。

7.2. 局限性与未来工作

论文中未明确提出自身的局限性或未来工作方向，这在学术论文中是比较少见的。然而，根据论文内容和当前领域发展，我们可以推断一些潜在的局限性和未来研究方向：

潜在局限性：

计算资源消耗： 尽管LoRA微调LLM效率高，且MM-RQ-VAE在训练阶段是独立进行的，但多模态编码器（如LLM2CLIP）本身以及LLM（如Llama3-8B-instruct）的部署和推理仍然需要大量的计算资源。对于资源受限的场景，这可能是一个挑战。
超参数调优复杂性： MM-RQ-VAE中涉及多个损失项（重建、对齐、RQ-VAE损失）及其权重 ( $\beta, \gamma$ )，加上高斯核的带宽参数 ( $\sigma$ )，以及LoRA和融合模块的超参数，使得整个系统的超参数调优可能非常复杂和耗时。
泛化能力： 论文在三个Amazon数据集上取得了优异性能，但这些数据集主要集中在电商领域。MME-SID在其他领域（如新闻推荐、视频推荐等）或具有更多模态（如音频、评论文本情感）的场景下的泛化能力仍需进一步验证。
语义ID的唯一性与表达能力： 尽管论文声称MME-SID“不需处理冲突”，因为多模态数据可以自然区分不同物品，但这可能并非绝对。理论上，如果物品数量极大且语义高度相似，仍可能出现量化后的语义ID序列重叠的情况。同时，有限长度的语义ID序列能否完美捕捉所有物品的细微语义差异，也值得深思。
动态性处理： 用户兴趣和物品特征都在不断变化。虽然序列推荐捕捉了动态兴趣，但预训练的多模态嵌入和MM-RQ-VAE的码本是否能有效适应快速变化的新物品和新趋势，可能需要更频繁的更新机制。

未来研究方向：

更高效的MM-RQ-VAE： 探索更轻量级、训练更快或能自适应调整码本的MM-RQ-VAE变体。例如，研究稀疏码本或动态码本。
多模态融合的可解释性： 进一步研究多模态频率感知融合模块，使其不仅能提升性能，还能提供关于不同模态在不同场景下（如冷热物品）重要性的可解释性洞察。
自适应模态选择： 针对特定用户或查询，动态选择最相关的模态信息，而不是简单地融合所有模态。
端到端训练： 探索将MM-RQ-VAE的量化过程与LLM的微调过程进行更紧密的端到端训练，可能进一步减少信息损失。
长尾物品和冷启动物品的专门优化： 尽管频率感知融合有所帮助，但可以进一步研究针对长尾和冷启动物品的特殊量化策略或LLM提示工程。
结合用户侧多模态信息： 目前主要关注物品的多模态信息，未来可考虑融入用户的多模态数据（如用户头像、社交媒体内容等），构建更全面的用户-物品多模态表示。

7.3. 个人启发与批判

个人启发： 这篇论文提供了一个非常清晰和有力的框架，来解决LLM4SR领域中两个核心且普遍存在的挑战。

双重挑战的系统性解决思路： 最主要的启发是，研究问题不应只关注单点优化，而应从系统层面识别并解决多个相互关联的关键瓶颈。嵌入崩溃和灾难性遗忘是LLM4SR中的一对“孪生”问题，本文通过多模态和智能初始化的双重策略同时应对，具有很强的借鉴意义。
MMD在量化中的应用： MMD作为重建损失的应用是一个亮点。它超越了传统的MSE，能够从分布层面确保量化嵌入保留原始嵌入的结构信息，这对于避免遗忘和维持语义一致性至关重要。这种思想可以推广到其他需要保留分布特征的编码-解码或表示学习任务中。
语义ID的正确使用姿势： 论文批判了现有语义ID方法中简单抛弃码嵌入的弊端，并通过初始化的方式重新赋予了码嵌入生命力。这提示我们，在特征工程或表示学习的多个阶段，任何阶段学到的有价值的知识都应尽可能地在后续阶段得到保留和利用，而非简单丢弃。
频率感知融合的实用性： 在工业界，物品的流行度差异是巨大的。频率感知融合模块是工业实践中非常实用的设计，它使得模型能够更智能地分配不同模态的权重，从而更好地服务于不同“冷热”程度的物品。这种自适应的融合策略值得在其他多模态任务中推广。

批判：

RQ-VAE损失公式的完整性： 在论文的公式 (5) 中，RQ-VAE损失的呈现似乎不完全符合标准的VQ-VAE或RQ-VAE的损失形式（通常包括commitment loss的第三项）。虽然论文声称其等价于公式 (5)，但这种简化或省略可能会让熟悉原版损失的读者感到困惑，并在复现时带来潜在问题。论文应更明确地说明其损失项的具体来源或推导。
非线性映射的嵌入崩溃分析不足： 论文在嵌入崩溃的理论分析中主要以线性投影为例，并指出非线性映射难以得出统一结论。虽然通过经验分析补充了ReLU的例子，但对更复杂非线性变换（如Transformer层内部的非线性激活）如何影响嵌入崩溃，以及MMD和多模态策略如何在理论层面更有效地对抗这些非线性导致的崩溃，仍可进行更深入的探讨。
负样本采样策略： InfoNCE损失（公式12、13）中负样本的采样方式是“ $i' \neq i$ ”，即批次内所有其他物品作为负样本。对于大批次或特定数据集，这种批内负采样 (in-batch negative sampling)可能不够多样或效率不高。更复杂的负样本采样策略（如硬盘负样本、最近邻负样本）可能会进一步提升性能，但也会增加计算成本，这是一个权衡问题，可以在未来工作中讨论。
LLM指令的影响： 论文提到LLM输入包含{Instruction}，但没有详细说明指令的具体内容或其对性能的影响。指令设计在LLM应用中至关重要，一个好的指令可以显著提升模型表现。未来工作可以深入探讨不同指令范式对LLM4SR的影响。

相似论文推荐

基于向量语义检索推荐的相关论文。

暂时没有找到相似论文。