论文状态：已完成

Towards Scalable Semantic Representation for Recommendation

发表：2024/10/12

价格：0.100000

已有 3 人读过

本分析由 AI 生成，可能不完全准确，请以原文为准。

TL;DR 精炼摘要

本研究提出了一种名为“Mixture-of-Codes（MoC）”的方法，以解决将大语言模型嵌入应用于推荐系统时遇到的维度压缩问题。通过在索引阶段构建多个独立的码本，并结合融合模块，MoC显著提升了语义表示的区分度和维度鲁棒性，优化了推荐系统的扩展性能。

摘要

With recent advances in large language models (LLMs), there has been emerging numbers of research in developing Semantic IDs based on LLMs to enhance the performance of recommendation systems. However, the dimension of these embeddings needs to match that of the ID embedding in recommendation, which is usually much smaller than the original length. Such dimension compression results in inevitable losses in discriminability and dimension robustness of the LLM embeddings, which motivates us to scale up the semantic representation. In this paper, we propose Mixture-of-Codes, which first constructs multiple independent codebooks for LLM representation in the indexing stage, and then utilizes the Semantic Representation along with a fusion module for the downstream recommendation stage. Extensive analysis and experiments demonstrate that our method achieves superior discriminability and dimension robustness scalability, leading to the best scale-up performance in recommendations.

思维导图

论文精读

中文精读约 28 分钟读完 · 16,608 字

1. 论文基本信息

1.1. 标题

Towards Scalable Semantic Representation for Recommendation (面向可扩展语义表示的推荐系统)

1.2. 作者

Taolin Zhang, Junwei Pan, Jinpeng Wang, Yaohua Zha, Tao Dai, Bin Chen, Ruisheng Luo, Xiaoxiang Deng, Yuan Wang, Ming Yue, Jie Jiang, Shu-Tao Xia

1.3. 作者机构

清华大学 (Tsinghua University, China) 和腾讯公司 (Tencent Inc, China)。

1.4. 发表年份

2024年

1.5. 摘要

随着大语言模型 (LLMs) 的最新进展，越来越多的研究致力于开发基于 LLMs 的 Semantic IDs (语义ID) 来提升推荐系统性能。然而，这些嵌入的维度需要与推荐系统中 ID embedding (ID嵌入) 的维度匹配，而 ID embedding 通常远小于原始长度。这种维度压缩不可避免地导致 LLM 嵌入在 discriminability (区分度) 和 dimension robustness (维度鲁棒性) 方面的损失，这促使研究人员探索如何扩展语义表示。本文提出了 Mixture-of-Codes (MoC) 方法，该方法首先在 indexing stage (索引阶段) 为 LLM 表示构建多个独立的 codebooks (码本)，然后将 Semantic Representation (语义表示) 与一个 fusion module (融合模块) 结合，用于下游推荐阶段。大量的分析和实验表明，MoC 方法在 discriminability 和 dimension robustness 可扩展性方面表现优异，从而在推荐系统中实现了最佳的 scale-up performance (扩展性能)。

1.6. 原文链接

原文链接: https://arxiv.org/abs/2410.09560v1 PDF 链接: https://arxiv.org/pdf/2410.09560v1.pdf 发布状态: 预印本 (v1 版本于 2024-10-12T15:10:56.000Z 发布)。

2. 整体概括

2.1. 研究背景与动机

2.1.1. 研究背景

近年来，大语言模型 (LLMs) 在自然语言处理领域取得了显著的成功，并被认为是提升推荐系统性能的有力工具。通过利用 LLMs 丰富的语义知识，研究者们试图将 LLM 嵌入应用到推荐系统中，以捕获更深层次的用户偏好和物品特征。

2.1.2. 核心问题与挑战

语义鸿沟 (Semantic Gap): LLM 嵌入与推荐系统嵌入之间存在巨大的语义鸿沟。直接将 LLM 嵌入投影到低维空间通常效果不佳。
维度不匹配与信息损失: LLM 嵌入通常具有非常高的维度（例如，4096到16384维），而推荐系统中的 ID embedding 通常由于 Interaction Collapse Theory (交互坍塌理论) 的限制，维度较小（通常不超过256维）。为了将 LLM 知识引入推荐系统，需要对 LLM 嵌入进行维度压缩，这会导致 discriminability (区分度) 和 dimension robustness (维度鲁棒性) 的严重损失，从而限制了 LLM 语义信息的有效利用。

2.1.3. 现有方法的局限性

单码本方法的局限性: 仅使用一个 codebook (码本) 生成的 Semantic ID 嵌入可能无法捕获原始 LLM 嵌入复杂的、高维的结构，导致信息丢失。
多嵌入方法的冗余性: 类似 Multi-Embedding 的方法虽然为单个 Semantic ID 产生多个嵌入，但由于这些嵌入都源自同一个 Semantic ID，它们包含的信息高度冗余，无法带来额外的区分度提升。
分层码本方法的低效性: RQ-VAE (残差向量量化变分自编码器) 采用分层 codebook，其高层 Semantic ID 包含的信息量递减，对下游任务的贡献有限，且其表示在区分度和维度鲁棒性方面不具可扩展性。

2.1.4. 本文的切入点与动机

为了解决上述挑战，本文旨在研究如何有效地扩展 (scale up) 语义表示，以在有限的推荐系统嵌入维度内，尽可能多地保留 LLM 嵌入的丰富语义信息。

2.2. 核心贡献/主要发现

开创性研究可扩展性: 本文首次系统性地研究了将 LLM 知识迁移到推荐系统时语义表示的可扩展性 (scalability) 问题，并揭示了现有基线方法在有效扩展方面的不足。
提出 Mixture-of-Codes (MoC) 方法: 提出了一种新颖的两阶段 Mixture-of-Codes 方法。
- 索引阶段: 基于 LLM 嵌入学习多个独立的 codebooks，生成多组 Semantic IDs。与 RQ-VAE 的分层设计不同，MoC 采用并行 codebook，旨在捕获互补的语义信息。
- 下游推荐阶段: 引入 Mixture-of-Codes 模块（一个 fusion module，融合模块）来隐式融合多个 Semantic IDs 的可学习嵌入，以实现更好的知识迁移。
实验验证可扩展性: 在三个公共数据集上的全面实验证明，MoC 方法在 discriminability (区分度)、dimension robustness (维度鲁棒性) 和最终推荐性能方面都成功实现了可扩展性，并在扩大 scaling factor (缩放因子) 时显示出显著的性能提升。
揭示现有方法缺陷: 通过 discriminability scalability 和 dimension robustness scalability 两个量化指标，深入分析并指出 Multi-Embedding 和 RQ-VAE 等现有方法在语义表示可扩展性方面的缺陷。

3. 预备知识与相关工作

3.1. 基础概念

3.1.1. 大语言模型 (Large Language Models, LLMs)

Large Language Models (LLMs) 是指参数量庞大（通常数十亿甚至数千亿）、基于 Transformer 架构的深度学习模型，通过在大规模文本数据上进行预训练，学习语言的统计规律和语义信息。它们能够生成、理解和处理人类语言，并在各种自然语言处理任务中表现出卓越的性能。在推荐系统中，LLMs 可以提供丰富的物品语义信息或用户偏好描述，通过其 embeddings (嵌入) 来增强推荐效果。

3.1.2. 向量量化变分自编码器 (Vector Quantized Variational AutoEncoder, VQ-VAE)

VQ-VAE 是一种生成模型，旨在学习离散表示。它通过一个 encoder (编码器) 将输入 $x$ 映射到一个连续的潜在空间，然后将这个连续表示量化到最接近 codebook (码本) 中的一个离散 code (码字)。接着，一个 decoder (解码器) 根据量化后的 code 重构输入。VQ-VAE 的关键在于 codebook，它包含一系列可学习的 code 向量。

3.1.3. 残差向量量化变分自编码器 (Residual Vector Quantized Variational AutoEncoder, RQ-VAE)

RQ-VAE 是 VQ-VAE 的一个变体，它通过在多个层级上进行残差量化来进一步提高重构精度。在 RQ-VAE 中，每一层量化当前残差表示，并将量化后的 code 贡献从残差中减去，然后将新的残差传递给下一层进行量化。这种分层处理方式允许模型捕获不同粒度的信息，理论上可以更有效地减少重构误差。

3.1.4. 语义 ID (Semantic IDs)

Semantic IDs 是指通过量化方法（如 VQ-VAE 或 RQ-VAE）从高维 LLM 嵌入中提取的离散标识符。这些 ID 旨在捕获原始 LLM 嵌入的局部结构和语义信息，并可以在推荐系统中作为一种新的特征字段，与传统的 ID embedding 一起参与特征交互。

3.1.5. 交互坍塌理论 (Interaction Collapse Theory)

Interaction Collapse Theory 是指在推荐系统中，当 embedding (嵌入) 维度过高时，由于训练数据中交互模式的稀疏性和噪声，模型可能会过拟合于特定的交互模式，导致泛化能力下降。这使得推荐系统中的 ID embedding 通常被限制在相对较低的维度（如256维或更低），以避免过拟合和提高模型稳定性。

3.2. 前人工作

LLM 在推荐系统中的应用: (Hou et al., 2024; Bao et al., 2023) 等研究探索了利用 LLM 语义知识改进推荐系统的方法。
基于 VQ-VAE/RQ-VAE 的 Semantic IDs: (Rajput et al., 2024; Singh et al., 2023) 提出了通过 VQ-VAE 或 RQ-VAE 等聚类方法从 LLM 嵌入中提取 Semantic IDs 的思路。这些方法首先训练一个带有离散 codes 的自编码器，然后将这些 codes 应用于下游任务，如检索或排序。它们旨在将 LLM 嵌入空间的知识迁移到推荐系统，利用 codes 捕获原始空间的局部结构。
多嵌入方法 (Multi-Embedding): (Guo et al., 2023) 提出了在推荐系统中扩展嵌入维度的方法，即为同一个 ID 分配多个嵌入。本文将其作为一种基线方法来探索语义表示的可扩展性。
生成式检索推荐 (Generative Retrieval for Recommendation): (Rajput et al., 2024) 在 TIGER 中利用 RQ-VAE 的分层量化器将物品转换为 tokens (词元)，用于生成式推荐和检索。
LC-Rec (Zheng et al., 2024): 通过整合 LLM 知识并引入指令微调任务，改进了 TIGER，以更好地适应推荐系统。
LMINDEXER (Jin et al., 2023): 通过自监督学习获取文档的语义表示及其层次结构，从而学习 Semantic IDs。

3.3. 差异化分析

现有工作主要集中于将 LLM 知识通过 Semantic IDs 引入推荐系统，并使用单个 codebook 或分层 codebook (如 RQ-VAE)。这些方法在 LLM 嵌入与推荐系统嵌入之间进行维度压缩时，均面临信息损失和可扩展性不足的问题。本文提出的 MoC 方法通过引入多个并行且独立的 codebooks，旨在捕获 LLM 嵌入中更丰富和互补的信息，并通过一个 fusion module (融合模块) 在下游推荐任务中有效地整合这些信息，从而解决了现有方法在 discriminability (区分度) 和 dimension robustness (维度鲁棒性) 方面的可扩展性限制。与 Multi-Embedding 相比，MoC 产生的是真正独立的语义信息；与 RQ-VAE 相比，MoC 避免了高层 ID 信息量递减的问题。

4. 方法论

本文提出了 Mixture-of-Codes (MoC)，一种两阶段方法，旨在解决现有语义表示在推荐系统中可扩展性不足的问题。

4.1. 方法原理

MoC 的核心思想是，单一的 codebook (码本) 或分层的 codebook 难以在推荐系统低维 embedding (嵌入) 空间中捕捉到高维 LLM 嵌入的全部丰富信息。因此，MoC 提出：

多码本向量量化: 在 indexing stage (索引阶段)，不使用单个 codebook 或分层 codebook，而是构建多个独立的、并行的 codebooks。每个 codebook 独立地从 LLM 嵌入中提取信息，旨在捕获互补的语义特征。
隐式融合模块: 在下游推荐阶段，引入一个 fusion module (融合模块) 来隐式地融合来自多个 codebooks 的 learnable embeddings (可学习嵌入)，而不是简单地拼接或独立使用。这个融合模块能够学习不同 Semantic IDs 嵌入之间的复杂交互，从而更好地进行知识迁移。

Figure 5 对比了 Multi-Embedding VQ、RQ-VAE 和 Mixture-of-Codes 的主要区别：

Multi-Embedding VQ (Figure 5a) 为同一组 Semantic IDs 构建独立的嵌入，相当于对索引进行复制，无法提供新的信息。
RQ-VAE (Figure 5b) 使用分层 codebook，高层 Semantic IDs 的信息量较低。
Mixture-of-Codes (Figure 5c) 使用并行的 codebook 捕获原始 LLM 空间中的重要语义，并通过一个 fusion network (融合网络) 在下游任务中实现更好的泛化。

4.2. 核心方法详解

MoC 方法分为两个主要阶段：Multi-Codebooks for Vector Quantization (多码本向量量化) 和 Mixture-of-Codes for Implicit Fusion (隐式融合的码本混合)。

4.2.1. 阶段一：多码本向量量化 (Multi-Codebooks for Vector Quantization)

本阶段的目标是为 LLM 嵌入学习多个独立的离散 codebooks。

传统 VQ-VAE 回顾： 在 VQ-VAE 中，给定一个编码器 $\mathcal{E}$ 和一个解码器 $\mathcal{D}$ ，以及一个包含 $K$ 个 code 向量的 codebook $\mathcal{Z} = \{ \boldsymbol{z}_k \}_{k=1}^K$ ，其中 $\boldsymbol{z}_k \in \mathbb{R}^{n_z}$ 。

编码: 编码器 $\mathcal{E}$ 将输入 $x$ 编码为连续表示 $\mathbf{z} := \mathcal{E}(x) \in \mathbb{R}^{n_z}$ 。
量化: 将 $\mathbf{z}$ 量化到 codebook 中最近的 code 向量，得到量化后的表示 $\mathbf{z^q}$ ： $\mathbf { z ^ { q } } = \underset { z _ { k } \in Z } { \arg \operatorname* { m i n } } \ : \| \mathbf { z } - z _ { k } \| _ { 2 } ^ { 2 } .$ 其中 $\| \cdot \|_2^2$ 表示欧氏距离的平方。
重构: 解码器 $\mathcal{D}$ 根据 $\mathbf{z^q}$ 重构输入 $\hat{x} = \mathcal{D}(\mathbf{z^q})$ 。
损失函数: VQ-VAE 的训练损失函数为： $\begin{array} { r } { \mathcal { L } _ { \mathrm { V Q } } ( \boldsymbol { \mathcal { E } } , \mathcal { D } , \mathcal { Z } ) = \| x - \hat { x } \| ^ { 2 } + \| \mathrm { s g } [ \mathbf { z ^ { q } } ] - \mathbf { z } \| _ { 2 } ^ { 2 } + \| \mathrm { s g } [ \mathbf { z } ] - \mathbf { z ^ { q } } \| _ { 2 } ^ { 2 } , } \end{array}$ 其中 sg[.] 表示 stop-gradient (停止梯度) 操作。
- 第一项 $\mathcal{L}_{\mathrm{rec}} = \| x - \hat{x} \|^2$ 是 reconstruction loss (重构损失)，用于确保解码器能重构输入。
- 第二项 $\| \mathrm{s g} [ \mathbf{z^q} ] - \mathbf{z} \|_2^2$ 是 commitment loss (提交损失)，用于使编码器输出 $\mathbf{z}$ 尽可能接近 codebook 中的 code。
- 第三项 $\| \mathrm{s g} [ \mathbf{z} ] - \mathbf{z^q} \|_2^2$ 用于更新 codebook。在实践中，通常使用 moving averages update (移动平均更新) 来稳定 codebook 的训练。

MoC 的多码本 VQ-VAE： 与传统 VQ-VAE 和 RQ-VAE 不同，MoC 引入了 $N$ 个并行的 codebooks $\{ \mathcal{Z}_i \}_{i=1}^N$ 。每个 codebook 独立地对编码器的输出 $\mathbf{z}$ 进行量化，得到各自的量化结果 $\mathbf{z_i^q}$ 。为了进行重构和训练，MoC 对这些量化结果进行平均。

编码: 编码器 $\mathcal{E}$ 将输入 $x$ 编码为连续表示 $\mathbf{z} := \mathcal{E}(x) \in \mathbb{R}^{n_z}$ 。
多码本量化: 对于每个独立的 codebook $\mathcal{Z}_i$ ，它都对 $\mathbf{z}$ 进行量化，得到 $\mathbf{z_i^q}$ ： $\mathbf { z _ { i } ^ { q } } = \underset { z _ { k } \in Z _ { i } } { \arg \operatorname* { m i n } } \ : \| \mathbf { z } - z _ { k } \| _ { 2 } ^ { 2 } .$
平均量化结果: 将所有 codebooks 的量化结果进行平均，得到最终的量化表示 $\mathbf{z^q}$ ： $\mathbf { z ^ { q } } = \mathrm { AVG } ( \{ \mathbf { z _ { i } ^ { q } } \} _ { i = 1 } ^ { N } ) ,$ 其中 AVG 表示对 $N$ 个量化结果求平均。
重构与训练损失: MoC 的训练损失函数与 VQ-VAE 类似，只是使用了平均后的 $\mathbf{z^q}$ ： $\begin{array} { r l } & { \mathcal { L } _ { \mathrm { MoC } } ( \boldsymbol { \mathcal { E } } , \mathcal { D } , \{ \mathcal { Z } _ { i } \} _ { i = 1 } ^ { N } ) = \| \boldsymbol { x } - \hat { \boldsymbol { x } } \| ^ { 2 } + \| \mathrm { s g } [ \mathbf { z ^ { q } } ] - \mathbf { z } \| _ { 2 } ^ { 2 } + \| \mathrm { s g } [ \mathbf { z } ] - \mathbf { z ^ { q } } \| _ { 2 } ^ { 2 } , } \end{array}$ 在训练完成后，每个 codebook 选择的对应索引将作为 Semantic IDs。

与现有方法的比较 (Figure 5)：

Multi-Embedding VQ (Figure 5a): 为单个 Semantic ID 的多个嵌入，本质上是索引复制，信息冗余。
RQ-VAE (Figure 5b): 采用分层 codebook，高层 Semantic ID 提供的额外信息有限。
Mixture-of-Codes (Figure 5c): 采用并行的 codebook 结构，旨在从原始 LLM 空间中捕获互补且重要的语义信息。每个 codebook 都可以独立地学习不同的语义方面，从而更全面地保留 LLM 知识。

4.2.2. 阶段二：隐式融合的码本混合 (Mixture-of-Codes for Implicit Fusion)

在索引阶段获得多个 Semantic IDs 后，本阶段的目标是在下游推荐模型中有效地融合这些 Semantic IDs 的嵌入。

挑战: 传统的 Mixture-of-Experts (专家混合) 模型通常使用 gating router (门控路由器) 根据任务特定的损失选择和混合专家。然而，在 MoC 中，codebooks 并非以端到端方式与下游任务一起训练，并且 embeddings (嵌入) 在下游阶段才进行初始化和调整，这使得传统的 gating router 不适用。

MoC Fusion 模块： 为了解决这一问题，本文提出了一个 bottleneck network (瓶颈网络) 作为 fusion module，用于在 embedding layer (嵌入层) 之后、feature interaction modules (特征交互模块) 之前，隐式地融合不同 Semantic IDs 的嵌入。

Figure 6 展示了 MoC Fusion 的整体架构：

嵌入层: 传统的 $N$ 个属性嵌入 $e_1, \dots, e_n$ 和来自 $M$ 个 Semantic IDs 的嵌入 $e_{\mathrm{sid}_1}, \dots, e_{\mathrm{sid}_M}$ 。
拼接: 将所有嵌入拼接起来： $e _ { \mathrm { c o n c a t } } = \mathrm { CONCAT } ( e _ { 1 } , . . . , e _ { n } , e _ { \mathrm { s i d } _ { 1 } } , . . . , e _ { \mathrm { s i d } _ { M } } ) ,$ 其中 $\mathrm{CONCAT}$ 表示拼接操作。
瓶颈网络融合: 将拼接后的嵌入 $e_{\mathrm{concat}}$ 经过一个瓶颈网络进行融合。瓶颈网络通常由一个 down-projection layer (降维投影层) $\mathbf{W}_{\mathrm{down}}$ 和一个 up-projection layer (升维投影层) $\mathbf{W}_{\mathrm{up}}$ 组成。这里使用了一种残差连接的形式： $e _ { \mathrm { c o n c a t } } ^ { \prime } = e _ { \mathrm { c o n c a t } } + e _ { \mathrm { c o n c a t } } \cdot \mathbf { W } _ { \mathrm { d o w n } } \cdot \mathbf { W } _ { \mathrm { u p } } ,$ 这里， $e_{\mathrm{concat}} \cdot \mathbf{W}_{\mathrm{down}}$ 是将拼接嵌入降维，然后 $e_{\mathrm{concat}} \cdot \mathbf{W}_{\mathrm{down}} \cdot \mathbf{W}_{\mathrm{up}}$ 将其升维，并与原始 $e_{\mathrm{concat}}$ 进行残差连接。这种结构有助于在低维空间中捕获复杂的交互信息，同时保留原始信息流。
拆分: 融合后的嵌入 $e_{\mathrm{concat}}^{\prime}$ 再拆分回各个独立的嵌入，用于后续的特征交互模块： $e _ { 1 } , . . . , e _ { n } , e _ { \mathrm { s i d } _ { 1 } } , . . . , e _ { \mathrm { s i d } _ { M } } = \mathrm { SPLIT } ( e _ { \mathrm { c o n c a t } } ^ { \prime } ) ,$ 其中 $\mathrm{SPLIT}$ 表示拆分操作。

这个隐式融合设计通过任务特定的损失进行训练，混合了来自不同 codebooks 的嵌入，从而在下游推荐任务中实现更好的性能，其作用类似于传统的 gating network。

4.3. 可扩展性分析指标

4.3.1. 区分度可扩展性 (Discriminability Scalability)

Discriminability Scalability of Semantic Representation (语义表示的区分度可扩展性) 定义为：对于每个从 $1 \times$ 到 $M \times$ 的 scaling factor (缩放因子)，连续空间中语义表示的区分度被定义为其量化表示 $Q(\boldsymbol{r})$ 与下游任务中的监督标签 $Y$ 之间的 mutual information (互信息)，即 $\mathrm{MI}(Q(\boldsymbol{r}), Y)$ 。

互信息 (Mutual Information, MI) 公式: 对于两个离散随机变量 $X$ 和 $Y$ ，它们的互信息定义为： $\mathrm{MI}(X; Y) = \sum_{y \in \mathcal{Y}} \sum_{x \in \mathcal{X}} p(x,y) \log \left( \frac{p(x,y)}{p(x)p(y)} \right)$ 其中：

$\mathcal{X}$ 和 $\mathcal{Y}$ 分别是 $X$ 和 $Y$ 的取值空间。
p(x,y) 是 $X=x$ 和 $Y=y$ 的联合概率分布。
p(x) 和 p(y) 分别是 $X=x$ 和 $Y=y$ 的边缘概率分布。

归一化互信息 (Normalized Mutual Information, NMI) 公式: NMI 是 MI 的一个归一化版本，通常用于衡量聚类结果与真实标签的匹配程度，范围在 [0, 1] 之间。 $\mathrm{NMI}(X, Y) = \frac{\mathrm{MI}(X; Y)}{\sqrt{H(X)H(Y)}}$ 其中 H(X) 和 H(Y) 分别是 $X$ 和 $Y$ 的 entropy (熵)。 $H(X) = - \sum_{x \in \mathcal{X}} p(x) \log p(x)$ 在本文中，NMI 通过将语义表示进行 K-means 聚类作为其离散化表示 $Q(\boldsymbol{r})$ ，然后计算 $Q(\boldsymbol{r})$ 与监督标签 $Y$ 之间的 NMI 来衡量。

4.3.2. 维度鲁棒性可扩展性 (Dimension Robustness Scalability)

Dimension Robustness Scalability of Semantic Representation (语义表示的维度鲁棒性可扩展性) 定义为：可以通过不同 scaling factors 下语义表示的 singular spectrum (奇异谱) 来衡量。一个鲁棒的语义表示应该具有更高的 top singular values (顶部奇异值)，并且不会遭受 dimension collapse (维度坍塌)。

奇异谱 (Singular Spectrum): 对于一个矩阵 $\mathbf{A}$ ，其 singular value decomposition (奇异值分解) 为 $\mathbf{A} = \mathbf{U} \boldsymbol{\Sigma} \mathbf{V}^T$ ，其中 $\boldsymbol{\Sigma}$ 是一个对角矩阵，对角线上的元素 $\sigma_1 \ge \sigma_2 \ge \dots \ge \sigma_r \ge 0$ 是矩阵 $\mathbf{A}$ 的 singular values (奇异值)。这些奇异值按降序排列，构成了矩阵的 singular spectrum。

顶部奇异值 (Top Singular Values): 较大的奇异值表示数据在该方向上有更大的方差，即捕获了更多的信息。
维度坍塌 (Dimension Collapse): 指当大部分奇异值都非常接近于零时，意味着数据主要集中在低维子空间中，即使嵌入在高维空间中，其有效维度也较低，丧失了区分度。

通过分析 singular spectrum，可以评估语义表示在增加维度时能否持续有效地捕获信息，并避免信息冗余或维度退化。

5. 实验设置

5.1. 数据集

实验在三个 Amazon review benchmark (亚马逊评论基准) 数据集上进行：

Amazon-Beauty
Amazon-Sports
Amazon-Toys

为了过滤掉不活跃的用户和物品，遵循 LMINDEXER (Jin et al., 2023) 的做法，保留了至少有 5 次交互的用户和物品。

数据示例: LLM 嵌入的来源是物品的文本描述，包括标题 (title)、品牌 (brand) 和类别 (categories)。例如，对于一个玩具物品，其文本描述可能包括：

Title: "LEGO Classic Medium Creative Brick Box"
Brand: "LEGO"
Categories: "Toys & Games", "Building Toys", "Blocks"

这些文本描述用于通过 LLM2Vec (BehnamGhader et al., 2024) 和 LLama3 (Dubey et al., 2024) 作为 backbone (主干模型) 来获取 LLM 嵌入。

数据划分: 所有三个数据集都采用 $8/1/1$ 的比例进行训练集/验证集/测试集划分，并采用 early stop (早停) 策略。

5.2. 评估指标

本文主要关注推荐系统中的性能指标 AUC (Area Under the ROC Curve)，以及在可扩展性分析中引入的 NMI (Normalized Mutual Information) 和 singular spectrum (奇异谱)。

5.2.1. AUC (Area Under the ROC Curve)

AUC 是推荐系统中常用的评估指标，尤其适用于衡量二分类任务中模型的性能，例如点击率预测 (CTR)。它表示随机选择一个正样本和一个负样本时，模型将正样本排在负样本之前的概率。

概念定义: AUC 是 Receiver Operating Characteristic (ROC) 曲线下的面积。ROC 曲线以 True Positive Rate (TPR，真阳性率) 为纵轴，False Positive Rate (FPR，假阳性率) 为横轴绘制，展示了在不同分类阈值下模型的表现。AUC 值越高，模型的分类性能越好。AUC 的取值范围是 [0, 1]，其中 0.5 表示随机猜测， 1 表示完美分类。

数学公式: AUC 可以表示为： $\text{AUC} = P(S_p > S_n)$ 其中：

$S_p$ 是模型对随机选择的一个正样本的预测分数。
$S_n$ 是模型对随机选择的一个负样本的预测分数。

在实践中，AUC 通常通过以下公式进行计算，该公式基于 Mann-Whitney U statistic： $\text{AUC} = \frac{\sum_{i=1}^{P} \sum_{j=1}^{N} \mathbb{I}(y_i=1, y_j=0, \text{score}_i > \text{score}_j) + 0.5 \sum_{i=1}^{P} \sum_{j=1}^{N} \mathbb{I}(y_i=1, y_j=0, \text{score}_i = \text{score}_j)}{P \times N}$ 其中：
$P$ 是正样本的总数。
$N$ 是负样本的总数。
$y_i$ 和 $y_j$ 分别是样本 $i$ 和 $j$ 的真实标签（1为正样本，0为负样本）。
$\text{score}_i$ 和 $\text{score}_j$ 分别是模型对样本 $i$ 和 $j$ 的预测分数。
$\mathbb{I}(\cdot)$ 是 indicator function (指示函数)，当条件为真时取1，否则取0。

符号解释:

$P$ : 真实正样本数量。
$N$ : 真实负样本数量。
$y_i, y_j$ : 样本的真实标签。
$\text{score}_i, \text{score}_j$ : 模型对样本的预测分数。
$\mathbb{I}(\cdot)$ : 指示函数。

5.2.2. NMI (Normalized Mutual Information)

在 3.3.1. 区分度可扩展性 部分已详细解释，用于衡量语义表示的区分度可扩展性。

5.2.3. 奇异谱 (Singular Spectrum)

在 3.3.2. 维度鲁棒性可扩展性 部分已详细解释，用于衡量语义表示的维度鲁棒性可扩展性。

5.3. 对比基线

本文将 MoC 与两种基于现有工作的语义表示扩展方法进行比较：

Multi-Embedding (ME): 基于 (Guo et al., 2023) 提出的方法。对于一个 Semantic ID，分配 $M$ 个独立的嵌入 $e_{\mathrm{sid}}^1, \dots, e_{\mathrm{sid}}^M$ 。这些嵌入都对应于同一个 Semantic ID $x_{\mathrm{sid}}$ ，然后与其它特征一起参与特征交互。 $\begin{array} { r l } & { e _ { s i d } ^ { i } = ( { \cal E } _ { s i d } ^ { i } ) ^ { \top } { \bf 1 } _ { x _ { s i d } } , \ : \forall i \in \{ 1 , 2 , . . . , M \} , } \\ & { \quad h = I ( e _ { 1 } , e _ { 2 } , . . . , e _ { n } , e _ { s i d } ^ { 1 } , . . . , e _ { s i d } ^ { M } ) . } \end{array}$
RQ-VAE: 基于 (Lee et al., 2022) 的残差向量量化方法。它通过多层量化残差来获取 Semantic IDs。由于其分层设计，获得的 Semantic IDs 具有依赖性。在下游任务中，使用多个来自不同层级的 Semantic IDs $x_{\mathrm{sid}_i}$ 及其嵌入 $e_{\mathrm{sid}_i}$ 。 $\begin{array} { r l } & { \mathbf { z _ { i } } ^ { \mathbf { q } } = \underset { z _ { k } \in Z _ { i } } { \arg \operatorname* { m i n } } \| \mathbf { z _ { i } } - z _ { k } \| _ { 2 } ^ { 2 } , } \\ & { \mathbf { z _ { i + 1 } } = \mathbf { z _ { i } } - \mathbf { z _ { i } } ^ { \mathbf { q } } . } \end{array}$ $\begin{array} { r } { \pmb { e } _ { s i d _ { i } } = ( \pmb { E } _ { s i d _ { i } } ) ^ { \top } \mathbf { 1 } _ { x _ { s i d _ { i } } } , \forall i \in \{ 1 , 2 , . . . , M \} } \\ { h = I ( e _ { 1 } , e _ { 2 } , . . . , e _ { n } , e _ { s i d _ { 1 } } , . . . , e _ { s i d _ { M } } ) . } \end{array}$

5.4. 实施细节

码本大小 (Codebook Size): 遵循 TIGER (Rajput et al., 2024)，设置 codebook size 为 256。
潜在表示维度 (Latent Representation Dimension): 设置为 32。
编码器架构: 索引阶段的编码器包含三层隐藏层，大小分别为 512、256 和 128，使用 ReLU activation (ReLU激活函数)。
下游推荐模型: 评估了四种代表性的 CTR (点击率) 模型：
- DeepFM (Guo et al., 2017)
- DeepIM (Yu et al., 2020)
- $AutoInt+$ (Song et al., 2019)
- DCNv2 (Wang et al., 2021)
优化器: 采用 Adam optimizer (Adam优化器)。
批处理大小 (Batch Size): 8012。
学习率 (Learning Rate): 0.001。
实验重复次数: 所有实验运行三次，取平均结果。

6. 实验结果与分析

6.1. 核心结果分析

6.1.1. 重构误差分析

Figure 1 展示了在不同 Semantic IDs 数量下的重构误差。

Figure 1: Reconstruction Error with different sets of Semantic IDs.
该图像是一个柱状图，展示了不同语义ID下的重构误差。可以看到，当语义ID为1倍时，重构误差达到99.41，而增加到2倍时降至91.57，3倍时进一步降低至68.64，表明随着语义ID的增加，重构误差逐渐减小。

图1：不同语义ID集合的重构误差。

当只使用一个 Semantic ID 作为输入时，重构原始 4096 维 LLM 嵌入的误差极高（接近 99.41%），这表明单个 Semantic ID 丢失了大量信息。
当扩展到 2 倍和 3 倍独立的 codebooks 时，重构误差显著下降（分别降至 91.57% 和 68.64%）。这一发现直观地证明了，单个 codebook 只能保留 LLM 嵌入的有限信息，并且通过增加独立 codebooks 数量，可以显著减少信息损失，从而验证了扩展语义表示的必要性。

6.1.2. 区分度可扩展性分析

Figure 2 展示了不同方法在区分度方面的可扩展性。

Figure 2: Scalability on discriminability of various methods.
该图像是图表，展示了不同方法在可扩展性和可分辨性方面的表现，包括对缩放因子和聚类数量的影响。图中包含三部分，分别为标定的嵌入 NMI 对缩放因子的关系、对聚类数量的关系，以及与 RQ-VAE SID 1 嵌入的比较。

图2：各种方法在区分度方面的可扩展性。

ME (Multi-Embedding): 区分度 (NMI) 并没有随着 scaling factor (缩放因子) 的增加而提高，甚至略有下降。这是因为所有额外的嵌入仍然对应于来自单个 codebook 的相同 Semantic IDs，包含的附加信息极少，且冗余度高。
RQ-VAE: 区分度也没有随着 scaling factor 的增加而持续提高。这归因于在高层引入的额外细粒度 Semantic IDs 所包含的信息量递减。
MoC: 在 $1 \times$ scaling factor 下，MoC 的区分度与 RQ-VAE 相当，且远高于 ME。更重要的是，MoC 的区分度随着 scaling factor 从 $1 \times$ 增加到 $7 \times$ 而持续提高，这表明 MoC 在区分度方面具有更好的可扩展性。

Figure 3 进一步展示了 $7 \times$ scaling factor 下 NMI 的比较。

$Figure 3: Normalized Mutual Information(NMI) of Semantic Representation with $7 \\mathbf { x }$ scaling factor.$ 该图像是图表，展示了语义表示和语义 ID 的归一化互信息（NMI）结果。图中包含两个部分：部分 (a) 显示了与语义 ID 相关的 NMI 值，部分 (b) 展示了与语义表示相关的 NMI 值，二者均为不同方法的比较。

图3：语义表示在 $7 \mathbf { x }$ 缩放因子下的归一化互信息 (NMI)。

RQ-VAE: 最低层的 Semantic ID (SID 1) 及其表示包含的信息量，反而比所有 Semantic IDs 的平坦嵌入信息量更大。这表明高层 Semantic IDs 可能阻碍了低层 Semantic IDs 的泛化能力。
MoC: 在 $7 \times$ 缩放因子下，MoC 的 NMI 显著高于 RQ-VAE 和 ME，进一步验证了其在区分度方面的优势。

6.1.3. 维度鲁棒性可扩展性分析

Figure 4 绘制了 ME、RQ-VAE 和 MoC 在不同 scaling factors 下的奇异谱。

Figure 4: Scalability of Dimension Robustness regarding different scaling factors. Each figure presents the singular spectrum of the semantic representation at the given scaling factor.
该图像是图表，展示了在不同缩放因子下语义表示的维度鲁棒性的可扩展性。每个子图呈现了在给定缩放因子下的奇异谱，分别对应于 3x、5x 和 7x 的缩放因子。

图4：不同缩放因子下维度鲁棒性的可扩展性。每个图都展示了给定缩放因子下语义表示的奇异谱。

RQ-VAE: 虽然没有出现维度坍塌（其长尾奇异值没有显著减小），但其顶部奇异值不够大。
ME: 具有最大的顶部奇异值，但存在维度坍塌问题，其长尾奇异值在 $5 \times$ 和 $7 \times$ 设置下，在索引 250 和 275 后突然减小。
MoC: 在低指数奇异值上获得了更高的值（相比 RQ-VAE），尽管不如 ME 高。此外，其高指数奇异值也表现出鲁棒性，没有像 ME 那样在 $5 \times$ 和 $7 \times$ 因子下减小。这些观察结果表明，MoC 的维度鲁棒性优于 ME 和 RQ-VAE，因为它在扩展表示时能更好地平衡顶部信息捕获和避免维度坍塌。

6.1.4. 整体推荐性能

以下是原文 Table 1 的结果：以下是原文 Table 1 的结果：

Model		Toys				Beauty				Sports
Model		1x	2x	3x	7x	1x	2x	3x	7x	1x	2x	3x	7x
DeepFM	ME		0.7403	0.7397	0.7390		0.6651	0.6649	0.6638		0.6942	0.6928	0.6917
	RQ-VAE	0.7406	0.7409	0.7405	0.7398	0.6651	0.6676	0.6670	0.6687	0.6931	0.6945	0.6932	0.6937
	MoC		0.7408	0.7415	0.7418		0.6656	0.6674	0.6681		0.6931	0.6936	0.6953
DeepIM	ME		0.7396	0.7404	0.7395		0.6620	0.6635	0.6637		0.6907	0.6910	0.6925
	RQ-VAE	0.7404	0.7401	0.7403	0.7404	0.6648	0.6651	0.6660	0.6678	0.6931	0.6918	0.6925	0.6938
	MoC		0.7401	0.7417	0.7422		0.6641	0.6668	0.6691		0.6927	0.6935	0.6942
AutoInt+	ME		0.7430	0.7419	0.7414		0.6648	0.6630	0.6641		0.6935	0.6930	0.6929
	RQ-VAE	0.7415	0.7430	0.7419	0.7418	0.6630	0.6672	0.6642	0.6677	0.6911	0.6934	0.6933	0.6915
	MoC		0.7414	0.7420	0.7447		0.6661	0.6651	0.6689		0.6939	0.6926	0.6927
DCNv2	ME		0.7445	0.7449	0.7459		0.6717	0.6716	0.6722		0.6955	0.6963	0.6976
	RQ-VAE	0.7445	0.7457	0.7457	0.7469	0.6701	0.6719	0.6720	0.6726	0.6962	0.6965	0.6966	0.6979
	MoC		0.7462	0.7458	0.7474		0.6714	0.6730	0.6729		0.6970	0.6972	0.6989

表1：各种模型在不同缩放因子下的测试 AUC。

MoC 的优越性: 在所有 scaling factors 下，MoC 在大多数情况下都取得了最佳的 AUC 性能。特别是在 $7 \times$ 缩放因子下，MoC 在 Toys 数据集上，相比 RQ-VAE，分别在 DeepFM、DeepIM、 $AutoInt+$ 和 DCNv2 模型上取得了 $0.20\%$ 、 $0.18\%$ 、 $0.29\%$ 和 $0.05\%$ 的提升。
可扩展性表现: 在许多场景下，MoC 成功实现了 scaling law (缩放法则)，即随着 Semantic Representation 数量的增加，性能也随之提升。
基线方法的局限性:
- ME 由于语义信息冗余，性能出现下降。
- RQ-VAE 由于高层 Semantic IDs 信息量较低，性能提升有限。

6.1.5. 多表示之间的相关性分析

Figure 7 展示了不同方法中多个表示之间的相关性。

Figure 7: Correlation analysis of different methods.
该图像是图表，展示了不同方法的相关性分析，包括MoC、RQ-VAE和ME方法的相关性矩阵。通过色彩深浅，图中清晰地呈现了不同方法在特征之间的相关性程度。

图7：不同方法的相关性分析。

ME: ME 中的 Semantic Representation 之间高度相关。例如，表示 1 和 3、4 和 6 之间存在强相关性。这种强相关性使得表示容易相互影响，导致优化不稳定和可扩展性不足。
MoC 和 RQ-VAE: MoC 和 RQ-VAE 中不同 Semantic Representation 之间的相关性较低（如非对角线单元格中的低相关性得分所示）。这表明它们能够捕获更独立和互补的信息，有助于提高性能。

6.1.6. 与 RQ-VAE 的详细比较

Figure 8 提供了与 RQ-VAE 更详细的比较结果。

该图像是图表，展示了不同聚类数量下的归一化互信息（NMI）。图中包括两条曲线，分别代表使用和不使用MOC融合的情况，横轴为聚类数量，纵轴为NMI值。

图8：与 RQ-VAE 的更多比较结果。

RQ-VAE 单一 ID 性能 (Figure 8a): 在 RQ-VAE 中，在低层添加单个 Semantic ID 带来的性能提升大于在高层添加 Semantic ID。这再次证明了 RQ-VAE 的高层 Semantic ID 包含的信息量较少。
MoC 统一表现: 相比之下，MoC 在各种 Semantic IDs 上表现一致，并且始终优于 RQ-VAE。
从最低层开始添加多个 ID (Figure 8b): 当从最低层开始添加多个 Semantic IDs 时，MoC 相比 RQ-VAE 在不同 scaling factors 下获得了显著的性能提升，这表明 MoC 具有更好的泛化能力。

6.2. 消融实验：MoC 融合模块

6.2.1. 融合模块的有效性

以下是原文 Table 2 的结果：

Method	2x		3x		7x
Method	w/o	w/	w/o	w/	w/o	w/
RQ-VAE	0.7409	0.7414	0.7405	0.7407	0.7398	0.7413
MoC	0.7409	0.7408	0.7404	0.7415	0.7416	0.7418

表2：MoC 融合模块的消融研究。实验在 Toys 数据集上进行，以 DeepFM 作为主干模型。

实验结果表明，无论是 RQ-VAE 还是 MoC，配备 fusion module (融合模块) 后，在 scaling up (扩展) 时都能获得性能提升。这验证了融合模块在下游阶段混合特征的重要性。

6.2.2. 融合模块对区分度可扩展性的影响

Figure 9 展示了 MoC Fusion 对区分度可扩展性的影响。

Figure 8: More comparison results with RQ-VAE.
该图像是图表，展示了RQ-VAE与MOC在单一ID和多ID情况下的AUC测试结果。在单一ID测试中，AUC随语义ID索引变化而波动，而在多ID测试中，AUC在扩大比例因子的情况下逐渐上升，显示出MOC的优势。

图9：MoC 融合模块的区分度可扩展性。

融合模块显著增强了 MoC 的整体区分度可扩展性。通过混合特征，MoC Fusion 能够从多个 Semantic IDs 中提取更丰富、更有区分力的信息。

6.2.3. 融合模块对维度鲁棒性可扩展性的影响

Figure 10 展示了 MoC Fusion 对维度鲁棒性可扩展性的影响。

Figure 10: Dimension robustness scalability of MoC Fusion.
该图像是图表，展示了带融合和不带融合的MoC在维度鲁棒性可扩展性方面的比较。可以看出，MoC带融合的结果在维度增加时表现出更优的鲁棒性，损失较少，图中横轴为维度，纵轴为鲁棒性指标，黑色线条表示不带融合的情况，青色线条则表示带融合的情况。

图10：MoC 融合模块的维度鲁棒性可扩展性。

融合模块能够放大 Semantic Representation 的 principal components (主成分)，导致顶部奇异值显著更高。这意味着融合模块使得 MoC 能够更有效地捕获数据的主要变化模式。
同时，长尾部分接近 RQ-VAE 的表现，且没有出现维度坍塌。这表明融合模块在提高区分度的同时，也增强了维度鲁棒性，使 MoC 的表示在扩展时更加稳定和有效。

6.3. 总结性发现

发现 1: 现有方法，如 ME (Multi-Embedding) 和 RQ-VAE，在区分度和维度鲁棒性方面，不能作为可扩展的语义表示用于推荐系统。
发现 2: 本文提出的 MoC (Mixture-of-Codes) 成功实现了在区分度和维度鲁棒性方面的可扩展语义表示。

7. 总结与思考

7.1. 结论总结

本文深入探讨了基于大语言模型 (LLM) 的语义表示在推荐系统中面临的可扩展性挑战。研究发现，简单的扩展方法，如使用单个码本的多嵌入方式（Multi-Embedding）或采用分层码本的 RQ-VAE，在语义表示的区分度和维度鲁棒性方面都未能有效扩展。为了解决这些问题，本文提出了 Mixture-of-Codes (MoC) 方法。该方法在索引阶段构建多个独立的 codebooks (码本) 以捕获 LLM 嵌入中互补的语义信息，并在下游推荐阶段引入一个 fusion module (融合模块) 来隐式融合这些多码本生成的 Semantic IDs (语义ID) 嵌入。大量的实验证明，MoC 方法在区分度、维度鲁棒性和实际推荐性能方面均实现了卓越的可扩展性，显著优于现有基线方法。

7.2. 局限性与未来工作

论文中未明确指出自身的局限性和未来的研究方向。然而，根据现有研究和论文内容，我们可以推断出一些潜在的局限性和未来工作：

潜在局限性：

码本数量的选择: MoC 引入了多个独立的 codebooks，但如何确定最佳的 codebook 数量 $N$ 尚不明确，可能需要进行额外的超参数调优。
计算成本: 训练多个独立的 codebooks 可能会增加索引阶段的计算成本，尤其是在 LLM 嵌入维度很高的情况下。
融合模块的复杂性: 尽管 bottleneck network 是一种有效的融合方式，但其设计和参数选择仍可能影响融合效果，且需要与下游推荐模型一同训练，增加了整体模型的复杂性。
语义 ID 的稀疏性: 离散 Semantic IDs 可能会引入稀疏性问题，特别是在处理长尾物品时，这可能需要更复杂的嵌入学习策略。
对 LLM 嵌入质量的依赖: MoC 的性能高度依赖于 LLM 嵌入的质量。如果 LLM 嵌入本身未能很好地捕获物品的语义信息，MoC 的效果也会受限。

未来工作：

自适应码本数量: 探索自适应机制，根据数据特性或任务需求动态调整 codebook 的数量。
更复杂的融合机制: 研究更先进的融合模块，例如基于注意力机制或更复杂的神经网络结构，以更好地捕捉不同 Semantic IDs 嵌入之间的交互。
端到端训练: 尽管本文的两阶段方法有效，但探索 MoC 如何实现更近似端到端的训练，从而让 codebooks 的学习更好地服务于下游任务，可能是一个有前景的方向。
理论分析: 对 MoC 在区分度和维度鲁棒性方面的理论保障进行更深入的分析。
多模态融合: 将 MoC 扩展到处理多模态 LLM 嵌入，融合文本、图像、音频等多种模态的语义信息。
冷启动问题: 针对推荐系统中的冷启动问题，研究如何利用 MoC 生成的语义表示来更好地处理新用户和新物品。

7.3. 个人启发与批判

启发:
- 维度压缩的深度洞察: 论文通过实验清晰地展示了 LLM 嵌入在维度压缩中信息损失的严重性，强调了在将 LLM 引入推荐系统时，不应仅仅关注语义鸿沟，还要关注信息维度本身带来的挑战。
- 并行化思想的有效性: MoC 提出的多码本并行量化，是对传统序列或单码本量化思路的有效突破。它直观地表明，从不同“视角”或“方面”捕获信息，再进行融合，可以更好地保留原始高维信息的丰富性。这对于其他需要将高维复杂信息压缩到低维的任务也具有借鉴意义。
- 融合模块的隐式作用: MoC Fusion 的设计思路，即通过一个 bottleneck network 进行隐式融合，避免了传统专家混合模型的复杂门控机制，提供了一种在下游任务中有效整合多源信息的实用方法。这对于推荐系统或其他多特征融合场景具有参考价值。
- 可扩展性度量的重要性: 论文引入的区分度和维度鲁棒性可扩展性指标，为评估语义表示的质量提供了更全面的视角，而不仅仅是最终的推荐性能。这有助于更深入地理解模型的内在机制。
批判:
- “独立”码本的严格性: 论文声称 MoC 构建了“多个独立的 codebooks”，但这些 codebooks 共享同一个编码器 $\mathcal{E}$ 的输出 $\mathbf{z}$ ，并且在训练损失中通过平均量化结果 $\mathbf{z^q} = \mathrm{AVG}(\{ \mathbf{z_i^q} \}_{i=1}^N)$ 进行连接。这种连接可能使其并非完全“独立”，它们之间可能存在隐式关联或相互影响。未来研究可以更严格地分析这种“独立性”的程度，或者探索更彻底解耦码本的方法。
- 码本学习与下游任务的优化差距: 尽管 MoC Fusion 缓解了这个问题，但 codebooks 的学习（索引阶段）和下游推荐任务（融合与预测阶段）仍然是两个相对独立的优化过程。是否存在一种机制，能够让 codebooks 的学习更直接地受益于下游任务的反馈，实现更强的端到端优化，从而进一步提升性能？
- 理论支撑的进一步加强: 论文通过实验和定性分析展示了 MoC 的优越性，但如果能提供更强的理论分析，解释为何并行码本加上融合模块能有效提升区分度和维度鲁棒性，将使研究更具说服力。例如，可以从信息论角度分析 MoC 相比 RQ-VAE 如何捕获更多互补信息。
- 计算效率的细节缺乏: 虽然论文强调了可扩展性，但在计算效率方面，特别是与 RQ-VAE 相比，MoC 在训练和推理阶段的具体计算开销（如时间复杂度和内存占用）缺乏详细分析。多个 codebooks 的引入可能带来额外的计算负担，这在实际应用中是一个重要考量。

相似论文推荐

基于向量语义检索推荐的相关论文。

暂时没有找到相似论文。