Unified Semantic and ID Representation Learning for Deep Recommenders

Jiaxuan You

论文状态：已完成

Unified Semantic and ID Representation Learning for Deep Recommenders

发表：2025/02/23

原文链接 PDF 下载

价格：0.10

已有 15 人读过

本分析由 AI 生成，可能不完全准确，请以原文为准。

TL;DR 精炼摘要

本研究提出统一语义与ID表示学习框架，融合两者优势，提升推荐系统性能。ID表示捕获独特属性，语义表示提取通用特征，有效缓解冷启动和重复问题。结合余弦相似度与欧氏距离，优化嵌入搜索，提高大规模在线推荐的准确性和效率。

摘要

Effective recommendation is crucial for large-scale online platforms. Traditional recommendation systems primarily rely on ID tokens to uniquely identify items, which can effectively capture specific item relationships but suffer from issues such as redundancy and poor performance in cold-start scenarios. Recent approaches have explored using semantic tokens as an alternative, yet they face challenges, including item duplication and inconsistent performance gains, leaving the potential advantages of semantic tokens inadequately examined. To address these limitations, we propose a Unified Semantic and ID Representation Learning framework that leverages the complementary strengths of both token types. In our framework, ID tokens capture unique item attributes, while semantic tokens represent shared, transferable characteristics. Additionally, we analyze the role of cosine similarity and Euclidean distance in embedding search, revealing that cosine similarity is more effective in decoupling accumulated embeddings, while Euclidean distance excels in distinguishing unique items. Our framework integrates cosine similarity in earlier layers and Euclidean distance in the final layer to optimize representation learning. Experiments on three benchmark datasets show that our method significantly outperforms state-of-the-art baselines, with improvements ranging from 6% to 17% and a reduction in token size by over 80%. These results demonstrate the effectiveness of combining ID and semantic tokenization to enhance the generalization ability of recommender systems.

思维导图

论文精读

中文精读约 32 分钟读完 · 19,771 字

1. 论文基本信息

1.1. 标题

Unified Semantic and ID Representation Learning for Deep Recommenders (深度推荐系统中统一语义与ID表示学习)

1.2. 作者

Guanyu Lin1 2, Zhigang Hua2, Tao Feng1, Shuang Yang2, Bo Long2, Jiaxuan You1 1University of Illinois at Urbana-Champaign (伊利诺伊大学厄巴纳-香槟分校) 2Meta AI (元人工智能)

1.3. 发表期刊/会议

在ACM Reference Format中，该论文未明确指定发表的会议或期刊，而是使用了占位符。这通常意味着该论文可能是一个预印本 (preprint)，或已提交但尚未正式发表。

1.4. 发表年份

2025年

1.5. 摘要

Effective recommendation is crucial for large-scale online platforms. Traditional recommendation systems primarily rely on ID tokens to uniquely identify items, which can effectively capture specific item relationships but suffer from issues such as redundancy and poor performance in cold-start scenarios. Recent approaches have explored using semantic tokens as an alternative, yet they face challenges, including item duplication and inconsistent performance gains, leaving the potential advantages of semantic tokens inadequately examined. To address these limitations, we propose a Unified Semantic and ID Representation Learning framework that leverages the complementary strengths of both token types. In our framework, ID tokens capture unique item attributes, while semantic tokens represent shared, transferable characteristics. Additionally, we analyze the role of cosine similarity and Euclidean distance in embedding search, revealing that cosine similarity is more effective in decoupling accumulated embeddings, while Euclidean distance excels in distinguishing unique items. Our framework integrates cosine similarity in earlier layers and Euclidean distance in the final layer to optimize representation learning. Experiments on three benchmark datasets show that our method significantly outperforms state-of-the-art baselines, with improvements ranging from 6% to 17% and a reduction in token size by over 80%. These results demonstrate the effectiveness of combining ID and semantic tokenization to enhance the generalization ability of recommender systems.

1.6. 原文链接

原文链接: https://arxiv.org/abs/2502.16474 PDF 链接: https://arxiv.org/pdf/2502.16474v1.pdf 发布状态：预印本 (preprint)

2. 整体概括

2.1. 研究背景与动机

在大规模在线平台（如YouTube、TikTok、Amazon）中，有效的推荐系统对于匹配用户偏好并过滤不相关内容至关重要。传统的推荐系统主要依赖 ID token（标识符词元）来唯一标识物品，这种方法能够有效地捕获物品间的特定关系。然而，随着物品数量的爆炸式增长，纯 ID token 方法面临诸多挑战：

冗余性 (Redundancy)： 大量的 ID token 导致巨大的嵌入空间，造成存储和计算上的冗余。
冷启动问题 (Cold-start Scenarios)： 对于新物品或交互稀少的物品，ID token 无法提供足够的历史信息来学习其表示，导致推荐性能不佳。

为了克服这些局限性，近期研究开始探索使用 semantic token（语义词元）作为替代。semantic token 能够捕获物品的共享、可迁移的特征，有助于泛化和缓解冷启动。然而，这些方法也面临自身的问题：
物品重复 (Item Duplication)： semantic token 倾向于将多个相似物品映射到相同的表示，导致难以区分独特的物品。
性能提升不一致 (Inconsistent Performance Gains)： 现有研究中 semantic token 带来的性能提升并不总是显著或稳定的，其潜在优势尚未得到充分检验。

基于以上背景和挑战，本文的动机在于：既然 ID token 和 semantic token 各有优缺点，且似乎是互补的，那么能否设计一个统一的框架，充分利用两者的优势，共同解决现有推荐系统面临的问题？

2.2. 核心贡献/主要发现

本文提出了一个 Unified Semantic and ID Representation Learning（统一语义与ID表示学习）框架，主要贡献和发现如下：

全面研究语义与ID词元的互补关系： 首次对 semantic token 和 ID token 在推荐系统中的互补关系进行了全面的调查，明确了 ID token 擅长捕获独特属性和区分物品，而 semantic token 擅长捕获共享、可迁移特征和泛化能力。
提出新颖的统一词元化框架： 提出了一个新颖的统一 ID 和 semantic tokenization（词元化）框架，该框架能够同时捕获物品的独特属性和共享特征，并显著减少了词元空间的冗余性。
创新性地融合距离度量： 引入了统一的相似性和距离度量方法，通过分析 cosine similarity（余弦相似度）和 Euclidean distance（欧氏距离）在嵌入搜索中的作用，发现 cosine similarity 更擅长解耦（decouple）累积嵌入，而 Euclidean distance 更擅长区分独特物品。因此，框架在模型的早期层使用 cosine similarity，在最终层使用 Euclidean distance，以优化表示学习。
显著的性能提升和词元空间压缩： 在三个基准数据集上的实验结果表明，该方法显著优于最先进的基线模型，性能提升范围在6%到17%之间，同时词元大小减少了80%以上。
验证冗余性假设： 消融研究进一步验证了假设，即许多 ID token 是冗余的，可以有效地被 semantic token 替代，从而增强推荐系统的泛化能力。

3. 预备知识与相关工作

3.1. 基础概念

为了理解本文提出的框架，以下是一些核心的基础概念：

推荐系统 (Recommendation Systems)： 一种信息过滤系统，旨在预测用户对物品的“评分”或“偏好”，并向用户推荐他们可能感兴趣的物品。
物品 (Item)： 在推荐系统中，泛指可以被推荐给用户的实体，如电影、商品、文章等。
用户 (User)： 推荐系统的服务对象，其行为和偏好是系统学习和预测的基础。
ID Token (标识符词元)： 传统的推荐系统中，每个物品被赋予一个唯一的数字或字符串标识符。这些 ID token 通常通过查找表 (lookup table) 映射到高维嵌入向量 (embedding vector) 中。
嵌入 (Embedding)： 将离散的符号（如 ID token、单词）映射到连续的、低维向量空间中的表示。这些向量能够捕获物品之间的语义或关系信息。
语义词元 (Semantic Token)： 不依赖于唯一的物品ID，而是从物品的内容信息（如文本描述、图片特征）中提取的、能够表示物品共享语义特征的离散单元。
冷启动 (Cold-start)： 推荐系统中的一个常见问题，指的是当新用户或新物品加入系统时，由于缺乏足够的历史交互数据，系统难以对其进行准确推荐的情况。
残差量化变分自编码器 (Residual Quantized Variational AutoEncoder, RQ-VAE)： 一种用于学习离散表示的生成模型。它通过将输入编码为一系列离散的码本向量 (codebook vector) 来实现量化，每个码本处理残差信息，从而逐步精细化表示。这种分层量化方式能够捕获不同粒度的语义信息，并显著压缩表示空间。
余弦相似度 (Cosine Similarity)： 一种衡量两个非零向量之间方向的相似性的度量。它通过计算两个向量夹角的余弦值来判断它们有多么“指向同一方向”。取值范围在-1到1之间，值越接近1表示方向越相似。 $\text{cosine\_similarity}(\mathbf{A}, \mathbf{B}) = \frac{\mathbf{A} \cdot \mathbf{B}}{\|\mathbf{A}\| \|\mathbf{B}\|}$ 其中， $\mathbf{A} \cdot \mathbf{B}$ 是向量 $\mathbf{A}$ 和 $\mathbf{B}$ 的点积， $\|\mathbf{A}\|$ 和 $\|\mathbf{B}\|$ 分别是它们的欧氏范数（长度）。
欧氏距离 (Euclidean Distance)： 在多维空间中衡量两点之间直线距离的度量。距离越小表示两点越接近。 $\text{euclidean\_distance}(\mathbf{A}, \mathbf{B}) = \sqrt{\sum_{i=1}^n (A_i - B_i)^2}$ 其中， $A_i$ 和 $B_i$ 分别是向量 $\mathbf{A}$ 和 $\mathbf{B}$ 在第 $i$ 个维度上的分量， $n$ 是向量的维度。
序列推荐 (Sequential Recommendation)： 一种关注用户行为序列的推荐任务，目标是根据用户过去的交互历史（例如点击、购买顺序）来预测用户下一步可能会交互的物品。
停用梯度 (Stop Gradient, sg)： 在神经网络训练中，sg 操作会阻止梯度流通过某个特定的张量。这意味着在反向传播过程中，该张量的值会被视为常数，其之前的层不会接收到来自该张量的梯度信号。这常用于稳定训练或解耦不同部分的优化。

3.2. 前人工作

本文在总结前人工作时，提到了以下几个关键类别和具体模型：

传统ID词元推荐系统：
- FM (Factorization Machine) [20]：通过因子分解来建模变量间的两两交互。
- SASRec (Self-Attentive Sequential Recommendation) [8]：利用自注意力机制捕获序列中物品的上下文关系。
- BERT4Rec [22]：将 BERT (Bidirectional Encoder Representations from Transformers) 模型应用于序列推荐，通过掩码自监督学习增强鲁棒性。
- GRU4Rec [5]：开创性地使用循环神经网络 RNN (Recurrent Neural Network)，特别是 GRU (Gated Recurrent Unit) 来进行基于会话的推荐。
- Caser [23]：引入卷积神经网络 CNN (Convolutional Neural Network) 架构，通过水平和垂直卷积操作捕获高阶马尔可夫链。
- HGN (Hierarchical Gating Networks) [14]：通过分层门控机制有效建模用户长短期偏好。
量化表示学习与语义词元：
- VQ-Rec [6]：利用 product quantization (乘积量化) 来生成语义编码作为物品表示，使其可迁移。
- TIGER [19]：进一步利用 RQ-VAE 生成分层语义 ID 作为物品表示。
- 另一项工作 [21]：证明了 semantic ID 在冷启动场景下可以改善泛化能力。
文本嵌入模型：
- Sentence-T5 [18]：预训练的文本到文本模型，用于生成高质量的句子嵌入。

3.3. 技术演进

推荐系统的发展历程可以概括为从早期的基于内容、协同过滤方法，演进到基于 ID token 的嵌入学习，再到近年来融合深度学习技术（如 RNN、CNN、Transformer）进行序列建模。在物品表示层面，也从简单的 ID token 转向利用物品内容信息生成 semantic token，以增强泛化能力。本文的工作正处在这一演进的关键交叉点上，试图弥合 ID token 和 semantic token 之间的鸿沟，探索两者的最佳结合方式。

3.4. 差异化分析

本文的方法与相关工作中的主要方法相比，核心区别和创新点在于：

统一而非替代： 现有的 semantic token 相关工作（如 TIGER [19] 和 [21]）通常旨在用 semantic token 替代传统的 ID token，或者在更复杂的模型架构中引入 semantic token，导致难以明确其独立优势。本文则明确提出了一个统一的框架，旨在融合 ID token 和 semantic token 的互补优势，而非简单替换。
显式区分独特与共享特征： 本文明确地将 ID token 用于捕获物品的独特属性，而 semantic token 用于捕获共享的、可迁移的特征。这种显式的分工和结合是其创新之处。
分层距离度量的优化： 创新性地分析了 cosine similarity 和 Euclidean distance 在 RQ-VAE 码本搜索中的不同作用，并提出在模型的早期层使用 cosine similarity 来解耦累积嵌入，在最终层使用 Euclidean distance 来区分独特物品。这是一个在量化表示学习中未被充分探索的优化策略。
端到端联合优化： 框架通过端到端的方式联合优化推荐损失、RQ-VAE 量化损失和文本重建损失，确保所有组件协同工作以达到最佳性能。
显著的效率和泛化提升： 在显著降低词元大小（超过80%）的同时，实现了比最先进基线模型更高的推荐性能，尤其是在泛化能力方面。

4. 方法论

本文提出了 Unified Semantic and ID Representation Learning（统一语义与ID表示学习）框架，旨在充分利用 semantic token 和 ID token 的互补优势，并优化码本搜索中的距离度量。整个框架通过端到端的方式联合优化，以实现高效准确的推荐。

4.1. 方法原理

该方法的核心思想是：认识到 ID token 和 semantic token 各有优缺点——ID token 能捕获物品的独特属性但存在冗余和冷启动问题；semantic token 能泛化和捕获共享特征但可能导致物品重复。因此，本文提出一个混合（hybrid）框架，将两者结合起来，取长补短。此外，针对 RQ-VAE 中码本搜索环节，深入分析了 cosine similarity 和 Euclidean distance 的特性，并提出一种分层的距离度量策略以提高码本选择的准确性。

4.2. 核心方法详解

如图 2 所示，本文的框架包含三个关键组件：统一语义和 ID tokenization、统一 cosine similarity 和 Euclidean distance，以及端到端联合优化。

4.2.1. 统一语义和ID词元化 (Unified Semantic and ID Tokenization)

传统的 ID tokenization 虽然能有效捕获物品的独特信息，但存在冗余性和泛化能力差的问题，尤其是在冷启动场景。而 semantic tokenization 擅长通过捕获共享、可迁移的特征来实现泛化，但当多个相似物品被映射到同一 token 时，容易引入物品重复问题。这两种方法是互补的，结合它们的优势可以克服各自的局限性。

本文提出一种统一的词元化策略，如图 3 所示。对于每个物品 $i_t$ 在用户的交互历史中，该方法将低维 ID embedding $\boldsymbol{e}_{i_t}$ 和 semantic embedding $\hat{\boldsymbol{z}}_{i_t}$ 拼接起来，形成一个统一的表示。具体来说：

ID嵌入降维： 考虑到物品数量 $m$ 可能非常大，作者减少了 ID embedding 的维度 $D$ ，使其小于 semantic embedding 的维度 $D'$ 。这意味着只保留 ID token 空间中的少数维度来捕获物品的独特特性。
语义嵌入生成： semantic token 通过 RQ-VAE 学习得到，用于捕获物品间的共享、可迁移特征。
统一表示： 对于用户 $u$ 交互序列中的每个物品 $i_t$ ，其统一表示 $\boldsymbol{s}_{i_t}$ 由其对应的 semantic embedding $\hat{\boldsymbol{z}}_{i_t}$ 和低维 ID embedding $\boldsymbol{e}_{i_t}$ 拼接而成。

$\boldsymbol{s}_{i_t} = [ \hat{\boldsymbol{z}}_{i_t}, \boldsymbol{e}_{i_t} ]$

其中：

$\boldsymbol{s}_{i_t}$ ：物品 $i_t$ 的统一表示。
$\hat{\boldsymbol{z}}_{i_t}$ ：物品 $i_t$ 的 semantic embedding。这是由 RQ-VAE 量化过程生成的。
$\boldsymbol{e}_{i_t}$ ：物品 $i_t$ 的低维 ID embedding。

通过这种方式，统一词元化方法在利用 semantic embedding 的泛化能力的同时，保留了每个物品的独特特征，从而提高了推荐的效率和准确性，并增强了模型对冷启动物品的泛化能力。

4.2.2. 统一距离函数 (Unified Distance Function)

为了提高框架中码本选择的准确性，本文对 RQ-VAE 中用于识别最近码本的距离函数进行了深入分析和优化。在 RQ-VAE 的码本搜索步骤中，需要找到与当前残差向量 $r_l$ 最接近的码本向量 $e_k^c$ ，即 $k = \arg \operatorname*{min}_k \left\| r_l - e_k^c \right\|$ 。这里的 $\left\| \cdot \right\|$ 代表了距离度量。

统计分析： 如表 1 所示，初步分析揭示了 cosine similarity 和 Euclidean distance 的不同特点：

Cosine similarity：激活了高比例的码本，但覆盖独特物品的效果较差。
Euclidean distance：提供了高覆盖率的独特物品，但在第一层仅激活了5.86%的码本，激活率远低于 cosine similarity。
- 原因分析： Euclidean distance 在早期层激活受限可能因为其难以解耦累积的嵌入，这些嵌入在开始时往往紧密聚类。Cosine similarity 则擅长解耦这些嵌入，可能因为它能处理嵌入之间的正交关系。然而，cosine similarity 在区分不同嵌入方面的能力有限，可能归因于其角度范围的限制（0到360度）。相比之下，基于笛卡尔坐标系的 Euclidean distance 提供了更精确的区分度量。
  
  以下是原文 Table 1 的结果：
  
  Type Cosine Euclidean
  First layer 97.66% 5.86%
  Second layer 98.44% 100.00%
  Third layer 97.66% 100.00%
  Total coverage 70.13% 92.67%

可视化分析： 为了进一步探究两种距离度量在码本选择上的性能，作者可视化了使用 cosine similarity (图 4) 和 Euclidean distance (图 5) 时，不同类别中顶级学习码本的计数。

图 4 展示了 cosine similarity 能够有效地捕获跨层的类别特定信息。
图 5 显示 Euclidean distance 在第一层难以区分类别，其选择的码本条目在各类别中分布均匀。
- 原因分析： 这表明 Euclidean distance 在早期层无法有效地解耦紧密聚类的嵌入。
  
  以下是原文 Figure 4 的结果：
  
  该图像是三幅条形图组成的图表，展示了在三个编码器（First Codebook、Second Codebook、Third Codebook）中不同类别物品的代码本计数分布，反映了语义与ID表示在推荐系统中的编码差异。

图 4：在RQ-VAE码本选择中，cosine similarity 在所有层中有效地捕获了类别特定信息，有助于区分不同类别。

以下是原文 Figure 5 的结果：

该图像是三个条形图示意，分别展示了第一、第二和第三个Codebook在不同商品类别上的编码数量分布，反映了ID和语义表示方法的特征捕捉差异及其在推荐系统中的应用。

图 5：在RQ-VAE码本选择中，Euclidean distance 在第一层难以区分类别，因为其在这一阶段未能捕获类别特定信息。

假设： 基于上述观察，本文提出了一个假设：

Cosine similarity 更擅长最小化累积嵌入内部的干扰，但区分不同嵌入的能力较弱。
Euclidean distance 擅长区分独特嵌入，但难以解耦累积的嵌入。

提出的方法与实验验证： 基于此假设，本文提出了一种统一方法，结合了 cosine similarity 和 Euclidean distance。

在初始层，使用 cosine similarity 来解耦累积嵌入。
在最终层，应用 Euclidean distance 以更好地区分独特物品。

图 6 展示了这种混合方法在类别码本选择上的可视化效果，结果表明它成功捕获了类别特定信息。以下是原文 Figure 6 的结果：

该图像是三个柱状图，展示了三种编码书（First Codebook, Second Codebook, Third Codebook）中不同品类商品的编码数量分布。图中使用颜色区分不同的编码组别，反映了模型在不同编码书中对商品类别的表示情况。

图 6：统一方法（cosine similarity 与 Euclidean distance 结合）有效地捕获了类别特定信息。

此外，如表 2 所示，这种混合方法将激活码本的百分比提高到100%，并且独特物品的覆盖率也比单独使用 cosine similarity 显著提高。以下是原文 Table 2 的结果：

Activated codebook	First layer	100.00%
	Second layer	100.00%
	Third layer	100.00%
Coverage of unique items		83.27%

局限性： 尽管有所改进，这种混合方法仍存在约17%的重复物品（如表2所示）。当某些物品的句子嵌入过于相似而无法区分时，就会出现这个问题。本文指出，通过为每个物品分配一个唯一的低维 ID token，可以进一步缓解这个问题。

4.2.3. 端到端联合优化 (End-to-End Joint Optimization)

在对用户 $u$ 的输入物品序列进行统一词元化后，模型可以预测下一个物品的概率。

序列推荐模型预测： $\hat{y}_{u,t} = \Phi (s_{i_1}, s_{i_2}, \cdot \cdot \cdot s_{i_{t-1}})$ 其中：
- $\hat{y}_{u,t}$ ：用户 $u$ 在时间步 $t$ 预测的下一个物品的概率。
- $\Phi$ ：一个序列推荐模型（本文使用 SASRec [8]），它接收用户 $u$ 历史交互物品序列的统一表示 $\hat{S}_u = ( \hat{s}_{i_1}, \hat{s}_{i_2}, \ldots, \hat{s}_{i_t} )$ 作为输入。
- $s_{i_j}$ ：第 $j$ 个交互物品的统一表示，如前所述由 semantic embedding 和低维 ID embedding 拼接而成。
推荐损失 (Recommendation Loss)： 基于流行的 logloss (对数损失) [8, 11]，推荐模型的目标是最小化以下损失函数： $\mathcal{L}_{recom} = - \frac{1}{|\mathcal{R}|} \sum_{(u, \boldsymbol{J}_u) \in \mathcal{R}} \left( y_{u,t} \log \hat{y}_{u,t} + \left( 1 - y_{u,t} \right) \log \left( 1 - \hat{y}_{u,t} \right) \right) + \lambda \|\Theta\|$ 其中：
- $\mathcal{R}$ ：训练集。
- $(u, \boldsymbol{J}_u) \in \mathcal{R}$ ：表示训练集中的一个用户 $u$ 及其交互序列 $\boldsymbol{J}_u$ 。
- $y_{u,t}$ ：真实标签，表示用户 $u$ 在时间步 $t$ 实际交互的物品（通常为1表示交互，0表示未交互）。
- $\hat{y}_{u,t}$ ：模型预测的物品交互概率。
- $\Theta$ ：模型中所有可学习的参数。
- $\lambda$ ：正则化超参数，用于防止过拟合。
- $\|\Theta\|$ ：模型参数的范数（例如L2范数），作为正则化项。
联合优化： 最终，模型通过联合优化以下三个损失函数实现端到端训练： $\mathcal{L} = \mathcal{L}_{recom} + \mathcal{L}_{rqvae} + \mathcal{L}_{recon}$ 其中：
- $\mathcal{L}_{recom}$ ：如上所述的推荐损失。
- $\mathcal{L}_{rqvae}$ ：RQ-VAE 量化损失，用于优化码本的分配。
- $\mathcal{L}_{recon}$ ：文本重建损失，用于保持语义表示的质量。

4.2.4. RQ-VAE语义词元化算法 (Algorithm 1 in Appendix A.1)

RQ-VAE 算法是生成 semantic embedding 的核心组件。以下是其详细步骤：

输入： 用户 $u$ 的物品序列的句子嵌入 $\boldsymbol{X}_u = ( \boldsymbol{x}_{i_1}, \boldsymbol{x}_{i_2}, \ldots, \boldsymbol{x}_{i_T} )$ 。 输出： 用户 $u$ 的语义表示 $\hat{\mathcal{Z}}_u = ( \hat{\boldsymbol{z}}_{i_1}, \hat{\boldsymbol{z}}_{i_2}, \ldots, \hat{\boldsymbol{z}}_{i_T} )$ 。

并行处理每个物品： 对于序列中的每个物品 $i_t$ ( $t=1 \ldots T$ )，并行执行以下步骤：
1. 编码文本嵌入： 使用编码器将物品 $i_t$ 的原始文本嵌入 $\boldsymbol{x}_{i_t}$ 编码为潜在表示 $z_{i_t}$ 。 $\boldsymbol{z}_{i_t} = \mathbf{Encoder}(\boldsymbol{x}_{i_t})$
2. 初始化残差和累积量化嵌入： 设置初始残差 $r_1 = z_{i_t}$ ，并将累积量化嵌入 $\hat{\boldsymbol{z}}_{i_t}$ 初始化为零向量。
3. 分层量化 (残差量化器)： 对于每个量化层 $l = 1 \ldots L$ (本文设置 $L=3$ )： a. 码本搜索： 在当前层的码本 $\left\{ \boldsymbol{e}_k^c \right\}_{k=1}^K$ 中，找到与当前残差 $\boldsymbol{r}_l$ 最近的码本向量 $\boldsymbol{e}_k^c$ 的索引 $k$ 。 $k = \arg \operatorname*{min}_k \left\| \boldsymbol{r}_l - \boldsymbol{e}_k^c \right\|$ 注意： 这里的距离度量 $\left\| \cdot \right\|$ 是本文提出的统一距离函数，即在初始层使用 cosine similarity，在最终层使用 Euclidean distance。 b. 更新残差： 从当前残差中减去选定的码本向量，生成新的残差用于下一层。 $\boldsymbol{r}_{l+1} = \boldsymbol{r}_l - \boldsymbol{e}_k^c$ c. 累积量化嵌入： 将选定的码本向量累加到 $\hat{\boldsymbol{z}}_{i_t}$ 中。 $\hat{\boldsymbol{z}}_{i_t} += \boldsymbol{e}_k^c$ d. 计算 RQ-VAE 损失： 计算当前层的 RQ-VAE 损失。这里使用 stop gradient (sg) 操作来稳定训练。 $\mathcal{L}_{\mathrm{rqvae}} += \left\| \operatorname{sg} \left[ \boldsymbol{r}_l \right] - \boldsymbol{e}_k^c \right\|^2 + \beta \left\| \boldsymbol{r}_l - \operatorname{sg} \left[ \boldsymbol{e}_k^c \right] \right\|^2$ 其中： * $\operatorname{sg}[\cdot]$ ：stop gradient 操作，阻止梯度流过。 * $\boldsymbol{r}_l$ ：当前层的残差。 * $\boldsymbol{e}_k^c$ ：选定的码本向量。 * $\beta$ ：一个超参数，平衡量化损失的两个项。第一项促使 $\boldsymbol{r}_l$ 靠近码本，第二项促使码本向量靠近 $\boldsymbol{r}_l$ 。
4. 解码量化语义嵌入： 使用解码器将累积的量化语义嵌入 $\hat{\boldsymbol{z}}_{i_t}$ 解码回原始文本嵌入空间，得到重建的嵌入 $\hat{\boldsymbol{x}}_{i_t}$ 。 $\hat{\boldsymbol{x}}_{i_t} = \mathbf{Decoder}(\hat{\boldsymbol{z}}_{i_t})$
5. 计算重建损失： 计算原始文本嵌入 $\boldsymbol{x}_{i_t}$ 与重建的嵌入 $\hat{\boldsymbol{x}}_{i_t}$ 之间的重建损失。 $\mathcal{L}_{\mathrm{recon}} += \left\| \boldsymbol{x}_{i_t} - \hat{\boldsymbol{x}}_{i_t} \right\|^2$
返回语义表示： 经过所有物品处理后，返回所有物品的语义表示 $\hat{\mathcal{Z}}_u$ 。

通过这种分层量化和联合优化的方式，RQ-VAE 能够有效地将连续的文本嵌入转换为离散的语义词元，同时保持语义信息和减少表示冗余。

5. 实验设置

5.1. 数据集

实验使用了来自 Amazon 产品评论数据集 [4] 的三个真实世界基准数据集。这些数据集包含了用户评论和物品元数据，涵盖1996年5月至2014年7月。本文关注以下三个特定类别：

Beauty (美容)
Sports (体育用品) (原文中指 Sports and Outdoors，即运动与户外)
Toys (玩具) (原文中指 Toys and Games，即玩具与游戏)

为了构建物品序列，作者按照时间戳对用户的评论历史进行排序。此外，对数据集进行了 5-core filtering（5核过滤），这意味着只保留那些至少有5次评论的用户和至少被5个用户评论的物品，以确保数据的活跃度和质量。

以下是原文 Table 6 的结果：

Dataset	# Users	# Items	Average Len.
Beauty	22,363	12,101	8.87
Sports	35,598	18,357	8.32
Toys	19,412	11,924	8.63

其中：

# Users：数据集中的用户总数。
# Items：数据集中的物品总数。
Average Len.：所有用户物品序列的平均长度。

5.2. 评估指标

本文遵循先前工作 [26] 的方法，使用以下三种广泛认可的评估指标：

命中率 (Hit Ratio, HR@k)：
- 概念定义： 衡量在推荐列表的前 $k$ 个物品中，有多少次包含了用户实际交互的“真实 (ground-truth)”物品。它关注的是模型能否命中用户感兴趣的物品，而不考虑命中的物品在列表中的具体排名位置。
- 数学公式： $\mathrm{HR@k} = \frac{\text{Number of users for whom the ground-truth item is in top k recommended items}}{\text{Total number of users}}$
- 符号解释：
  - $k$ ：推荐列表的长度，通常取值如5或10。
  - ground-truth item：用户实际交互的下一个物品。
  - top k recommended items：模型预测并排名前 $k$ 位的物品列表。
归一化折损累积增益 (Normalized Discounted Cumulative Gain, NDCG@k)：
- 概念定义： NDCG@k 是一个综合性的评估指标，它不仅考虑推荐的“命中”情况，还考虑了命中物品的相关性以及其在推荐列表中的位置。相关性更高的物品如果排名靠前，NDCG@k 值就越高。
- 数学公式： 首先计算 Discounted Cumulative Gain (DCG)： $\mathrm{DCG@k} = \sum_{i=1}^k \frac{2^{rel_i}-1}{\log_2(i+1)}$ 然后计算 Ideal DCG (IDCG)，即完美推荐列表的 DCG： $\mathrm{IDCG@k} = \sum_{i=1}^k \frac{2^{rel_i^{opt}}-1}{\log_2(i+1)}$ 最后，计算 NDCG： $\mathrm{NDCG@k} = \frac{\mathrm{DCG@k}}{\mathrm{IDCG@k}}$
- 符号解释：
  - $k$ ：推荐列表的长度。
  - $rel_i$ ：推荐列表第 $i$ 个物品的相关性分数。在二元相关性（0或1）的场景下，如果第 $i$ 个物品是 ground-truth item，则 $rel_i=1$ ，否则 $rel_i=0$ 。
  - $rel_i^{opt}$ ：理想（完美排序）推荐列表第 $i$ 个物品的相关性分数。
  - $\log_2(i+1)$ ：折扣因子，使排名靠后的物品对总分数贡献更小。
平均倒数排名 (Mean Reciprocal Rank, MRR)：
- 概念定义： MRR 主要用于衡量模型找到第一个相关物品的速度。它计算的是第一个正确推荐物品的排名的倒数，然后对所有查询（用户）取平均。排名越靠前，MRR 值越高。
- 数学公式： $\mathrm{MRR} = \frac{1}{|Q|} \sum_{q=1}^{|Q|} \frac{1}{rank_q}$
- 符号解释：
  - $|Q|$ ：用户查询（或测试样本）的总数。
  - $rank_q$ ：对于第 $q$ 个查询，ground-truth item 在推荐列表中首次出现的位置。如果 ground-truth item 未出现在推荐列表中，则 $rank_q$ 可以被设置为无穷大，使其倒数为0。

实验设置细节：

训练/验证/测试划分： 遵循惯例 [11, 26]，给定一个用户行为序列，使用最后一个物品进行测试，倒数第二个物品用于验证，其余用于训练。
负采样： 考虑到物品集合庞大，对所有可能的物品进行排名计算成本高昂。因此，模型通过对每个 ground-truth item 采样99个负样本物品来进行评估，这是一种常用的方法 [8, 12]。所有指标都在这100个物品（1个 ground-truth + 99个负样本）的排名基础上计算，并对所有用户取平均值。

5.3. 对比基线

为了评估所提出方法的纯粹影响，本文将其与几个具有竞争力的推荐基线模型进行了比较。

FM (Factorization Machine) [20]：一个经典的推荐模型，通过因子分解来建模变量间的两两交互。
GRU4Rec [5]：基于 GRU 的循环神经网络，是序列推荐领域的先驱模型。
Caser [23]：利用卷积神经网络捕获用户行为序列中的高阶马尔可夫链。
SASRec [8]：基于自注意力机制的序列推荐模型，能够有效捕获长距离依赖关系。本文提出的方法也是基于 SASRec 框架实现的，以进行公平比较。
BERT4Rec [22]：将 BERT 的双向编码器表示应用于序列推荐，通过掩码自监督学习提升性能。
HGN (Hierarchical Gating Networks) [14]：通过分层门控机制有效建模用户长短期偏好。

不对比 TIGER [19] 的原因： 本文没有直接与 TIGER [19] 等利用 RQ-VAE 的现有工作进行比较，因为 TIGER 采用了更深、更复杂的模型架构。本文的主要目标是在相同的序列推荐模型（SASRec）背景下，检查 semantic tokenization 的效果，以确保比较的公平性和一致性，从而隔离 semantic token 带来的收益。

5.4. 超参数设置

基线模型结果： 直接使用先前工作 S3-Rec [26] 提供的所有基线模型结果。
本文方法实现： 基于 SASRec 框架实现。
RQ-VAE 参数：
- $L$ (码本层数)：设置为3层，遵循 TIGER [19] 的设定。
- $K$ (码本大小)：对于 Beauty 和 Toys 数据集， $K$ 搜索范围从64到1024，最终选择256。对于 Sports 数据集，选择128。
- $D'$ (语义嵌入维度)：设置为64，与 ID token 维度对齐。
初始文本嵌入： 使用预训练的 Sentence-T5 [18] 模型来获取物品的句子描述嵌入。物品的句子描述由其内容特征（标题、品牌、类别、价格）构建，Sentence-T5 输出768维的文本嵌入作为输入。
RQ-VAE 模型架构：
- 编码器 (DNN encoder)：将输入文本嵌入转换为与码本嵌入对齐的维度。由ReLU激活函数连接的层组成，尺寸分别为512、256和128，最终输出64维的潜在表示。
- 残差量化器 (residual quantizer)：进行三级残差量化。每级码本大小为 $K$ ，每个 token 维度为64。
- 解码器 (DNN decoder)：将量化后的语义 token 解码回原始文本嵌入空间。
训练设置： 使用 S3-Rec [26] 的框架，但采用微调（fine-tuning）设置而非预训练设置。
优化器： Adam 优化器 [9]。
学习率： 0.001。
批次大小 (Batch size)： 256。

6. 实验结果与分析

6.1. 核心结果分析

本文的方法在三个基准数据集上显著优于最先进的基线模型。

以下是原文 Table 3 的结果：

Datasets	Metric	FM	GRU4Rec	Caser	SASRec	BERT4Rec	HGN	Ours	Improv.
Beauty	HIT@5	0.1461	0.3125	0.3032	0.3741	0.3640	0.3544	0.4201	12.30%
	NDCG@5	0.0934	0.2268	0.2219	0.2848	0.2622	0.2656	0.3079	8.11%
	HIT@10	0.2311	0.4106	0.3942	0.4696	0.4739	0.4503	0.5318	12.22%
	NDCG@10	0.1207	0.2584	0.2512	0.3156	0.2975	0.2965	0.3440	9.00%
	MRR	0.1096	0.2308	0.2263	0.2852	0.2614	0.2669	0.3025	6.07%
Sports	HIT@5	0.1603	0.3055	0.2866	0.3466	0.3375	0.3349	0.3849	11.05%
	NDCG@5	0.1048	0.2126	0.2020	0.2497	0.2341	0.2420	0.2717	8.81%
	HIT@10	0.2491	0.4299	0.4014	0.4622	0.4722	0.4551	0.5247	11.12%
	NDCG@10	0.1334	0.2527	0.2390	0.2869	0.2775	0.2806	0.3168	10.42%
	MRR	0.1202	0.2191	0.2100	0.2520	0.2378	0.2469	0.2722	8.02%
Toys	HIT@5	0.0978	0.2795	0.2614	0.3682	0.3344	0.3276	0.4340	17.87%
	NDCG@5	0.0614	0.1919	0.1885	0.2820	0.2327	0.2423	0.3141	11.38%
	HIT@10	0.1715	0.3896	0.3540	0.4663	0.4493	0.4211	0.5456	17.01%
	NDCG@10	0.0850	0.2274	0.2183	0.3136	0.2698	0.2724	0.3501	11.64%
	MRR	0.0819	0.1973	0.1967	0.2842	0.2338	0.2454	0.3064	7.81%

观察结果：

显著提升： 本文方法对基线模型实现了显著提升，提升范围从6.07%到17.87%。这在序列推荐任务中是一个非常显著的进步。
HIT 指标表现更佳： HIT (Hit Ratio) 指标的提升幅度通常大于 NDCG (Normalized Discounted Cumulative Gain) 和 MRR (Mean Reciprocal Rank) 指标。这可能因为 semantic embedding 固有的重复词元化问题，导致其对排名位置的敏感度较低，即使加入了唯一的 ID embedding。这意味着模型在“是否命中”方面表现出色，但在“命中物品的排名顺序”方面提升相对较小。

6.2. 消融实验/参数分析

6.2.1. 不同词元化方法的性能对比 (RQ2)

为了进一步研究不同词元化方法的性能，作者将本文方法与纯 ID tokenization 和纯 semantic tokenization 方法进行了比较。

以下是原文 Table 4 的结果：

Dataset	Method	Metric			Token Size			Token Reduction
Dataset	Method	HIT@10	NDCG@10	MRR	ID	Semantic	Total	Token Reduction
Beauty	ID	0.4654	0.3121	0.282	12,101 × 64	0	774,464	\|
	Semantic	0.4956	0.2914	0.2476	0	3 × 256 × 64	49,152	93.65%
	Unified	0.5318	0.344	0.3025	12,101 × 8	3 × 256 × 64	145,960	81.15%
Sports	ID	0.4582	0.2826	0.2482	18,357 × 64	0	1,174,848	\|
	Semantic	0.4704	0.2554	0.2131	0	3 × 128 × 64	24,576	97.91%
	Unified	0.5247	0.3168	0.2722	18,357 × 8	3 × 128 × 64	171,432	85.41%
Toys	ID	0.4603	0.3092	0.2804	11,924 × 64	0	763,136	\|
	Semantic	0.4644	0.2741	0.236	0	3 × 256 × 64	49,152	93.56%
	Unified	0.5456	0.3501	0.3064	11,924 × 8	3 × 256 × 64	144,544	81.06%

观察结果：

统一词元化性能最佳且词元显著减少： 在所有三个基准数据集上，本文提出的统一方法显著优于仅使用 ID tokenization 或仅使用 semantic tokenization 的方法。更重要的是，与传统的 ID tokenization 方法相比，本文方法将词元数量至少减少了80%，在 Sports 数据集上甚至减少了85%。这通过用少量 semantic token 替换 ID token 的56个维度来实现，支持了作者关于大多数 ID token 冗余的分析。
语义词元化在位置不敏感指标上优于ID词元化： 在三个数据集中，仅使用 semantic tokenization 的方法在 HIT (位置不敏感指标) 上甚至优于仅使用 ID tokenization 的方法，尽管其词元数量不到10%。这一结果也支持了作者关于 semantic tokenization 在泛化和捕获高级语义信息方面有效的分析。然而，仅使用 semantic tokenization 的方法在 NDCG 和 MRR (对位置敏感的指标) 上表现较差。这是因为 semantic tokenization 产生的重复词元化物品在排名中难以区分。

6.2.2. 统一距离度量方法的有效性 (RQ2)

作者还比较了本文方法与仅使用 cosine similarity 进行 RQ-VAE 码本搜索的性能。

以下是原文 Table 5 的结果：

Method	HIT@10	Beauty NDCG@10	MRR	HIT@10	Sports NDCG@10	MRR	HIT@10	Toys NDCG@10	MRR
Cosine	0.5212	0.3334	0.2921	0.5129	0.3081	0.2649	0.5252	0.3309	0.2879
Unified	0.5318	0.3440	0.3025	0.5247	0.3168	0.2722	0.5456	0.3501	0.3064

观察结果：

统一方法优于纯 cosine similarity： 本文提出的整合了 cosine similarity 和 Euclidean distance 的统一方法在三个基准数据集上均优于仅使用 cosine similarity 的方法。这表明，本文提出的统一 cosine similarity 和 Euclidean distance 方法不仅提高了激活码本的百分比和独特物品的覆盖率，而且确实提升了最终的推荐性能。

6.2.3. ID词元维度超参数研究 (RQ3)

为了进一步验证只需要一小部分 ID token 即可，作者改变了 ID 维度从 $\{0, 4, 8, 16\}$ ，并研究了其在三个关键指标下的性能。

以下是原文 Figure 7 的结果：

该图像是三幅折线图，展示了不同ID维度对Beauty、Sports和Toys三个数据集的HIT@10、NDCG@10和MRR指标的影响。图中显示各指标随ID维度变化呈现先上升后趋于平稳或下降的趋势，反映了ID维度对推荐效果的影响。

图 7：随着 ID token 维度的增加，性能提升减小。这意味着一小部分 ID token 足以捕获物品的独特特征。

观察结果：

性能提升随 ID token 维度增加而减小： 随着 ID token 维度的增加，性能提升变得越来越小，甚至当维度大于8时性能还会下降。这表明一小部分 ID token (例如，8维) 就足以学习物品的独特信息，而其他维度确实是冗余的，可以被节省下来并由 semantic token 替代。

6.2.4. 词元可视化 (RQ4)

为了研究学习到的 semantic token 和 ID token 的模式，作者使用 t-SNE 在 Beauty 数据集上进行了可视化，并在附录中展示了 Sports 和 Toys 数据集的可视化结果。

以下是原文 Figure 8 的结果：

该图像是一个示意图，展示了三个码本（First Codebook，Second Codebook，Third Codebook）与唯一标识符（Unique Tokens）在二维空间中分布的可视化效果，反映了不同码本对语义和ID表示的聚类与区分特征。

图 8：Beauty 数据集上的词元可视化。

以下是原文 Figure 14 和 Figure 15 的结果：

该图像是代码本（Codebook）和唯一令牌（Unique Tokens）的示意图，展示了前三个代码本中颜色点的分布，与右侧密集多彩的唯一令牌形成对比，反映了语义和ID表示学习中令牌的不同表达特性。

图 14：Sports 数据集上的码本模式。

该图像是论文中展示的向量编码分布示意图，分别展示了第一、第二、第三个编码本及唯一标识符的分布情况，用色点表示不同的编码向量聚类特征。

图 15：Toys 数据集上的码本模式。

观察结果：

语义词元在不同层之间变化： 在所有数据集上，semantic token 在不同层之间表现出不同的模式，这意味着 semantic codebook 的不同层可以捕获各种共享模式。通过这些共享模式的组合，可以更好地表示每个物品的语义信息。
ID词元均匀分布： 独特的 ID token 在所有数据集上都均匀分布。这意味着 ID token 成功捕获了每个物品的独特特征，因此它们不会聚集在一起。

6.2.5. 码本大小研究 (Appendix A.5)

作者还探究了码本大小 $K$ 对 semantic token 学习模式的影响，特别是在 Sports 数据集中观察到的退化问题。

以下是原文 Table 7 的结果：

Codebook Size	HR@5	NDCG@5	HR@10	NDCG@10	MRR
64	0.3792	0.2675	0.5138	0.3109	0.2675
128	0.3849	0.2717	0.5247	0.3168	0.2722
256	0.3786	0.2672	0.5184	0.3123	0.2688
521	0.3842	0.2719	0.5218	0.3163	0.2720
1024	0.3809	0.2691	0.5202	0.3140	0.2696

观察结果：

增加码本大小不一定会显著提升性能： 性能在码本大小为128时达到峰值，但在码本大小增加到256及以上时，性能出现波动。
码本退化问题： 作者还可视化了码本大小为64、256、512和1024时的词元分布 (图 9-13)。
- 当码本大小大于256时，码本开始退化并变得冗余。
- 随着码本大小的增加，退化问题变得更加严重，例如图 11、12、13 所示。
  
  以下是原文 Figure 9, 10, 11, 12, 13 的结果：
  
  该图像是一个示意图，展示了三种不同Codebook与唯一Tokens的分布情况，反映了语义和ID表示学习中Token的多样性和分布特征。

图 9：Sports 数据集上，码本大小为64时，码本模式在不同层之间是变化的。

该图像是一个示意图，展示了由三个不同码本（Codebook）生成的稀疏离散表示点与唯一标记点的对比，反映了语义与ID表示中token的分布及稀疏性特征。

图 10：Sports 数据集上，码本大小为128时，码本模式在不同层之间是变化的。

Figure 11: The first and third codebooks start to degenerate on Sports dataset with codebook size 256. 该图像是散点图，展示了在Sports数据集上码本（Codebook）和唯一标记（Unique Tokens）的分布状态。其中，第一和第三码本出现了退化现象，点的聚集度和分布差异明显。

图 11：Sports 数据集上，码本大小为256时，第一和第三个码本开始退化。

该图像是多个代码本与唯一令牌的二维可视化图，展示了不同代码本中令牌的聚类分布与唯一令牌的稠密分布，反映了语义和ID令牌在表达上的差异。

图 12：Sports 数据集上，码本大小为512时，码本也开始退化。

该图像是一个图表，展示了四个编码簿（First Codebook、Second Codebook、Third Codebook）和唯一Token的分布情况，用于说明语义和ID融合表示学习中不同编码簿的聚类效果和分布差异。

图 13：Sports 数据集上，码本大小为1024时，码本退化非常严重。

独特词元不受码本大小影响： 随着码本大小的增长，独特 token 的分布几乎保持不变。

7. 总结与思考

7.1. 结论总结

本文对推荐系统中 ID token 和 semantic token 的互补关系进行了全面的探索，解决了单独使用任一方法时的局限性。主要结论和贡献包括：

提出统一框架： 引入了一个新颖的框架，融合了 ID tokenization 和 semantic tokenization，有效地捕获了物品的独特属性和共享特征，同时显著降低了词元冗余。
优化距离度量： 通过结合 cosine similarity（用于解耦累积嵌入）和 Euclidean distance（用于区分独特物品）的分层距离度量方法，优化了嵌入表示学习。
卓越的性能与效率： 在三个基准数据集上的实验证明，本文方法显著优于现有基线模型（性能提升6%至17%），同时将词元大小减少了80%以上。
验证冗余性假设： 实验结果证实了 ID token 中存在大量冗余，可以通过 semantic token 有效替代以增强泛化能力。这些成果为推荐系统提供了一种更高效、更有效的表示策略，通过结合 ID 和 semantic token 的优势，改善了用户体验。

7.2. 局限性与未来工作

尽管本文取得了显著进展，但也存在一些局限性，作者在方法论的统一距离函数部分提到，其提出的方法仍会导致约17%的物品重复问题。这个问题源于某些物品的句子嵌入过于相似而难以区分。虽然通过分配唯一的低维 ID token 可以部分缓解，但并未完全消除。

基于此，未来可以探索以下研究方向：

进一步减少物品重复： 探索更精细的 semantic tokenization 策略，或结合更强大的 ID token 编码方式，以在不增加过多复杂性的前提下，进一步区分高度相似的物品。
自适应的ID维度和码本大小： 本文通过超参数搜索确定了 ID 维度和码本大小，但这些参数在不同数据集上可能是不同的。未来可以研究自适应机制，让模型自动学习或调整这些参数，以达到最佳平衡。
扩展到更复杂的物品特征： 本文主要使用文本内容生成 semantic embedding。未来可以整合图像、视频、音频等多模态信息来丰富 semantic token 的表示能力。
泛化到其他领域： 验证该统一框架在非电子商务领域（如新闻推荐、社交媒体内容推荐）的有效性。
理论分析： 对 cosine similarity 和 Euclidean distance 在不同层级解耦和区分能力上的理论基础进行更深入的分析和证明。

7.3. 个人启发与批判

7.3.1. 个人启发

这篇论文提供了一个非常深刻的见解：推荐系统中长期存在的 ID token 和 semantic token 之争，并非一个“非此即彼”的选择，而是一个“如何协同”的问题。以下几点特别具有启发性：

互补性思维： 明确提出 ID token 解决“唯一性”和“区分性”，semantic token 解决“泛化性”和“共享性”，这种明确的职责划分和融合是解决各自痛点的有效途径。这提示我们在设计复杂系统时，不应简单地否定旧方法或盲目追求新方法，而应深入挖掘其内在优势和局限，寻找最佳的组合策略。
距离度量的细致分析： 对 cosine similarity 和 Euclidean distance 在 RQ-VAE 不同层级中的作用进行细致分析，并据此设计分层度量策略，体现了对模型细节的深刻理解和创新。这对于优化量化表示学习，甚至其他涉及聚类或相似性计算的任务，都具有借鉴意义。
效率与性能的平衡： 在显著提升推荐性能的同时，将词元大小减少80%以上，这对于大规模在线平台而言，是极具价值的。它展示了理论创新如何与实际系统需求（如存储和计算效率）相结合。

7.3.2. 批判

尽管本文的贡献显著，但仍有一些潜在问题或可以改进之处：

“ID token冗余”的更严格定义：论文中多次提到 ID token 冗余，并通过实验验证了大部分 ID token 可以被语义词元替代。然而，对于“冗余”的更严格的数学或信息论定义，以及 ID token 的哪些维度或信息是真正“独特”且不可被 semantic token 捕获的，可以进行更深入的理论探讨。这有助于更好地理解 ID token 存在的必要性边界。
RQ-VAE 码本退化问题： 在附录的码本大小研究中提到，当码本大小过大时（如大于256），码本会出现退化和冗余现象。这表明 RQ-VAE 自身的稳定性或效率受到码本容量的限制。尽管这不直接是本文统一框架的局限，但由于 RQ-VAE 是生成 semantic token 的核心组件，其局限性会影响整体性能。如何设计更鲁棒的量化器，避免这种退化，是一个值得探索的方向。
ID 维度选择的普适性： 论文通过超参数研究发现 ID 维度为8左右时性能最佳，但这个“最佳”维度可能与特定数据集和领域相关。对于其他复杂或稀疏的场景，这个维度是否仍然适用？能否引入一种机制，让模型根据数据特性自适应地确定 ID 嵌入的最佳维度？
对“累积嵌入”的解释： 论文中提到 cosine similarity 更擅长“解耦累积嵌入”，而 Euclidean distance 难以做到。虽然提供了实验观察和直觉解释，但对于“累积嵌入”的精确含义，以及为何 cosine similarity 更适合解耦它的深层数学或几何原因，可以提供更深入的理论阐述。
冷启动场景的量化评估： 尽管论文摘要中提到了 semantic token 在冷启动场景的优势，并在背景中强调了 ID token 在冷启动中的不足，但主要的实验结果（Table 3, 4, 5）并没有单独针对冷启动性能进行量化分析。未来的工作可以设计专门的实验来评估统一框架在不同冷启动程度下的表现。

相似论文推荐

基于向量语义检索推荐的相关论文。

暂时没有找到相似论文。

Type	Cosine	Euclidean
First layer	97.66%	5.86%
Second layer	98.44%	100.00%
Third layer	97.66%	100.00%
Total coverage	70.13%	92.67%