Tokenize Once, Recommend Anywhere: Unified Item Tokenization for Multi-domain LLM-based Recommendation

Won-Yong Shin

论文状态：已完成

Tokenize Once, Recommend Anywhere: Unified Item Tokenization for Multi-domain LLM-based Recommendation

发表：2025/11/17

原文链接 PDF 下载

价格：0.10

已有 8 人读过

本分析由 AI 生成，可能不完全准确，请以原文为准。

TL;DR 精炼摘要

本文提出了`UniTok`，一种统一物品词元化框架，用于解决大型语言模型（LLM）推荐系统中不同物品领域需要独立训练模型的限制。该框架结合混合专家架构和互信息校准机制，实现跨领域的物品词元化，同时在多样化场景中保持语义信息。实验表明，`UniTok`比现有基线提高了最多51.89%。

摘要

Large language model (LLM)-based recommender systems have achieved high-quality performance by bridging the discrepancy between the item space and the language space through item tokenization. However, existing item tokenization methods typically require training separate models for each item domain, limiting generalization. Moreover, the diverse distributions and semantics across item domains make it difficult to construct a unified tokenization that preserves domain-specific information. To address these challenges, we propose UniTok, a Unified item Tokenization framework that integrates our own mixture-of-experts (MoE) architecture with a series of codebooks to convert items into discrete tokens, enabling scalable tokenization while preserving semantic information across multiple item domains. Specifically, items from different domains are first projected into a unified latent space through a shared encoder. They are then routed to domain-specific experts to capture the unique semantics, while a shared expert, which is always active, encodes common knowledge transferable across domains. Additionally, to mitigate semantic imbalance across domains, we present a mutual information calibration mechanism, which guides the model towards retaining similar levels of semantic information for each domain. Comprehensive experiments on wide-ranging real-world datasets demonstrate that the proposed UniTok framework is (a) highly effective: achieving up to 51.89% improvements over strong benchmarks, (b) theoretically sound: showing the analytical validity of our architectural design and optimization; and (c) highly generalizable: demonstrating robust performance across diverse domains without requiring per-domain retraining, a capability not supported by existing baselines.

论文精读

中文精读约 37 分钟读完 · 27,514 字

1. 论文基本信息

1.1. 标题

Tokenize Once, Recommend Anywhere: Unified Item Tokenization for Multi-domain LLM-based Recommendation (一次词元化，随处推荐：多领域大型语言模型推荐的统一物品词元化)

1.2. 作者

Yu Hou, Won-Yong Shin

1.3. 发表期刊/会议

未指明具体期刊/会议，但文章发布在 arXiv 预印本平台。

1.4. 发表年份

2025年11月17日 (UTC)

1.5. 摘要

大型语言模型 (LLM) 驱动的推荐系统通过物品词元化 (item tokenization) 弥合了物品空间 (item space) 和语言空间 (language space) 之间的差异，实现了高质量的推荐性能。然而，现有的物品词元化方法通常需要为每个物品领域 (item domain) 训练独立的模型，这限制了其泛化能力。此外，不同物品领域之间多样化的数据分布和语义使得构建一个既能统一又能保留领域特定信息 (domain-specific information) 的词元化方法变得困难。为了应对这些挑战，本文提出了 UniTok，一个统一物品词元化框架 (Unified item Tokenization framework)。UniTok 集成了作者定制的混合专家 (Mixture-of-Experts, MoE) 架构和一系列码本 (codebooks)，将物品转换为离散的词元 (discrete tokens)，从而实现了可扩展的词元化，同时在多个物品领域中保留了语义信息 (semantic information)。具体来说，来自不同领域的物品首先通过一个共享编码器 (shared encoder) 投影到一个统一的潜在空间 (unified latent space)。然后，它们被路由到领域特定的专家 (domain-specific experts) 以捕获独特的语义，而一个始终活跃的共享专家 (shared expert) 则编码跨领域可迁移的通用知识 (common knowledge)。此外，为了缓解跨领域的语义不平衡 (semantic imbalance)，本文提出了一个互信息校准 (mutual information calibration) 机制，该机制引导模型为每个领域保留相似水平的语义信息。在广泛的真实世界数据集上进行的综合实验表明，所提出的 UniTok 框架 (a) 高效：比现有强大基线提升高达 51.89%；(b) 理论完备：展示了其架构设计和优化的分析有效性；(c) 高度泛化：在多样化领域中表现出鲁棒的性能，而无需进行逐领域再训练，这是现有基线不支持的能力。

1.6. 原文链接

原文链接: https://arxiv.org/abs/2511.12922v1
PDF 链接: https://arxiv.org/pdf/2511.12922v1.pdf
发布状态: arXiv 预印本。

2. 整体概括

2.1. 研究背景与动机

大型语言模型 (LLM) 在生成式推荐 (generative recommendation) 领域展现出巨大潜力，利用其强大的泛化能力 (generalization)、语言理解 (language understanding) 和世界知识 (world knowledge) 来实现超越传统任务的个性化推荐。要有效地将 LLM 用于推荐，物品必须通过物品词元化 (item tokenization) 转换为离散的标识符。这个过程旨在弥合物品空间和语言空间之间的鸿沟，使 LLM 能够像处理自然语言序列一样处理物品，从而实现生成式推荐。

然而，现有物品词元化方法存在以下挑战和空白：

C1. 训练开销大 (Training overhead): 大多数现有方法（如 Rajput et al. 2023; Wang ets. 2024）主要是为单领域 (single-domain) 设计的。这意味着当推荐任务扩展到多个领域（如不同的商品类别或服务）时，需要为每个领域单独训练一个词元化器 (tokenizer)。这种重复训练导致了低效率、高资源消耗，并阻碍了系统的可扩展性 (scalability)。
C2. 语义对齐困难 (Semantic alignment): 物品在不同领域之间具有多样化的数据分布和语义 (diverse distributions and semantics)。如果简单地在跨领域共享词元空间 (shared token space)，可能导致语义混淆 (semantic mixing) 和偏差的词元分配 (biased token assignments)，从而无法精确捕获领域特定的丰富语义信息。

为了应对这些挑战，本文旨在回答一个核心问题：“我们如何为基于 LLM 的推荐设计一个统一的物品词元化框架，使其能够在最小计算开销的情况下有效地泛化到多个领域？”

2.2. 核心贡献/主要发现

本文提出了 UniTok 框架，旨在解决多领域 LLM 推荐中统一物品词元化的核心问题。其主要贡献和关键发现包括：

新的方法论 (New methodology):
- 提出了 UniTok，一个统一的物品词元化框架，结合了定制的混合专家 (MoE) 架构 (TokenMoE) 和码本 (codebooks)。
- TokenMoE 包含领域特定专家 (domain-specific experts) 和一个共享专家 (shared expert)，前者学习领域独特模式，后者捕获跨领域通用知识，从而在不牺牲领域专业性的情况下实现知识共享，有效解决了 C1 并部分解决了 C2。
- 引入了互信息 (Mutual Information, MI) 校准机制，通过最小化跨领域 MI 的方差来确保潜在嵌入 (latent embeddings) 在各领域之间保留足够且一致的信息量，从而解决 C2 中的语义不平衡问题。
广泛的评估 (Extensive evaluations):
- 在多样化的真实世界数据集上，UniTok 在多领域场景中显著优于现有基线，在 NDCG@10 指标上实现了高达 51.89% 的提升。
- 在模型效率方面，UniTok 将模型参数量减少了 9.63 倍，显示出其在训练和部署方面的显著优势。
- 展示了 UniTok 强大的泛化能力 (generalization capability)，在零样本 (zero-shot) 设置下（即未见过的领域）无需额外再训练即可表现出鲁棒性能。
理论上的合理性 (Theoretical justifications):
- 理论证明了 UniTok 诱导的词元空间具有更高的熵 (entropy)，扩展了词元空间容量（定理 1）。
- 证明了 UniTok 实现了更低的量化误差 (quantization error)，使得物品词元化更加精确（定理 2）。
- 证明了通过减少 MI 方差，UniTok 确保了跨领域的语义一致性 (semantic consistency)，从而带来更稳定和平衡的推荐性能（定理 3）。

3. 预备知识与相关工作

3.1. 基础概念

3.1.1. 混合专家 (Mixture-of-Experts, MoE)

MoE 架构 (Jacobs et al. 1991; Shazeer et al. 2017; Fedus, Zoph, and Shazeer 2022; Dai et al. 2024) 包含多个专家网络 (expert networks)，每个专家专注于处理输入空间的不同部分。它的核心思想是通过一个门控函数 (gating function) 或路由器 (router) 为每个输入动态选择或加权组合一部分专家。

形式化定义: 给定输入 $\mathbf{x}$ ，MoE 模型的输出定义为： $\mathrm{MoE}(\mathbf{x}) = \sum_{k=1}^K G_k(\mathbf{x}) E_k(\mathbf{x})$ 其中，

$K$ 是专家 (expert) 的总数量。
$E_k(\mathbf{x})$ 表示第 $k$ 个专家的输出。
$G_k(\mathbf{x})$ 是一个基于 softmax 的路由器函数 (router function)，它为给定输入 $\mathbf{x}$ 分配给第 $k$ 个专家的概率。

特点:

增加模型容量: 允许模型在不显著增加计算量的情况下拥有更多的参数。
计算效率: 对于每个输入，只有一部分专家被激活和计算，提高了效率。
适应性: 门控机制可以根据输入自适应地选择专家，使其适用于处理混合数据集 (mixture of datasets) 和多样化的输入分布。

3.1.2. 码本式标识符 (Codebook-based Identifiers) 与残差量化 (Residual Quantization, RQ)

码本式标识符 (Rajput et al. 2023) 是通过残差量化 (RQ) 生成的。RQ 是一种序列化的量化过程，通过在多个阶段将码本 (codebooks) 顺序应用于残差 (residuals)，将物品的元数据编码成层次化的代码序列 (hierarchical code sequences)。

形式化定义: 给定输入向量 $\mathbf{x}$ ，RQ 过程从初始残差 $\mathbf{r}^{(0)} = \mathbf{x}$ 开始。它递归地使用一系列 $L$ 个码本 $\{C_1, C_2, \dots, C_L\}$ 对残差进行量化。其中 $C_\ell \triangleq \{\mathbf{c}_t\}_{t=1}^T$ 包含 $T$ 个码向量 (code vectors)，用于第 $\ell$ 层。

量化过程定义为： $\begin{array}{r} \mathbf{c}_{\ell} = \arg \min_{\mathbf{c} \in C_{\ell}} \|\mathbf{r}^{(\ell-1)} - \mathbf{c}\|^2, \\ \mathbf{r}^{(\ell)} = \mathbf{r}^{(\ell-1)} - \mathbf{c}_{\ell}, \end{array}$ 其中，

$\mathbf{r}^{(\ell)}$ 是第 $\ell$ 层的残差。
$\mathbf{c}_{\ell}$ 是从码本 $C_{\ell}$ 中选择的最近的码向量。

经过 $L$ 步量化后， $\mathbf{x}$ 的最终近似值 $\hat{\mathbf{x}}$ 为： $\hat{\mathbf{x}} = \sum_{\ell=1}^L \mathbf{c}_{\ell}$

离散词元生成: 每个被选择的码向量 $\mathbf{c}_{\ell}$ 对应一个离散的索引 $z_{\ell} \in \{1, \dots, T\}$ 。最终，原始输入 $\mathbf{x}$ 被表示为一个词元序列 $(z_1, \dots, z_L)$ 。这个层次化的量化机制为码本式标识符提供了基础，能够生成紧凑且语义上有意义的词元 (semantically meaningful tokens)，非常适合物品词元化。在推荐系统中，这些离散词元可以直接用作 LLM 的输入，从而弥合物品空间和语言空间之间的差距，同时保留语义结构。

3.2. 前人工作

单领域物品词元化: 现有的 LLM 推荐中的物品词元化方法 (Rajput et al. 2023; Wang et al. 2024; Zheng et al. 2024) 主要关注单领域 (single-domain) 设置。它们通常为每个物品领域训练独立的词元化器 (tokenizer)，这在实际应用中导致了效率低下和可扩展性问题。
多领域学习 (Multi-domain Learning): 其他机器学习领域，如语言处理 (Gururangan et al. 2020; Raffel et al. 2020) 和计算机视觉 (Ullah et al. 2022; Jain et al. 2023)，已经转向构建统一模型 (unified models) 以减少冗余训练、提高参数效率 (parameter efficiency) 并促进跨领域知识共享 (knowledge sharing)。本文受此启发，将多领域学习的理念引入物品词元化。
LLM 在推荐中的应用: LLM 已被证明在生成式推荐中具有强大潜力 (Rajput et al. 2023; Hua et al. 2023)，其优势在于泛化、语言理解和世界知识。

3.3. 差异化分析

UniTok 与现有工作的主要区别和创新点在于：

统一性 vs. 单领域: 现有的 item tokenization 方法（如 TIGER, LC-Rec, LETTER）通常为每个领域训练独立的模型。UniTok 首次尝试构建一个统一的词元化框架，能够处理来自多个领域的物品，无需进行逐领域训练，显著提高了效率和泛化能力。
MoE 架构创新性应用: 虽然 MoE 在 Transformer 的前馈层中已被用于模型扩展 (Dai et al. 2024)，但 UniTok 独特地将 MoE 集成到词元化模块中，以实现领域感知的词元化 (domain-aware tokenization)。通过 TokenMoE，模型能够同时捕获领域特定的语义和共享的通用知识。
语义平衡机制: 现有方法在多领域场景下容易出现语义不平衡 (semantic imbalance)，导致不同领域间的词元化质量差异。UniTok 引入了互信息 (MI) 校准机制，明确引导模型为每个领域保留相似的信息量，从而确保跨领域语义的一致性。
理论支撑: UniTok 的设计不仅在实践中表现出色，还通过理论分析证明了其在词元空间熵、量化误差和性能稳定性方面的优势。

4. 方法论

4.1. 方法原理

UniTok 的核心思想是构建一个统一的物品词元化框架，能够高效且有效地处理来自多个不同物品领域的推荐任务。它通过以下几个关键组件实现这一目标：

共享编码器和解码器 (Shared Autoencoder): 将所有领域的物品语义嵌入投影到一个统一的潜在空间，并学习有效的重建能力，确保核心语义信息的保留。
TokenMoE 架构: 针对多领域数据分布的异质性，设计了一种定制的混合专家模型。它包含多个领域特定的专家 (domain-specific experts) 来捕获各领域的独特语义，以及一个始终活跃的共享专家 (shared expert) 来编码跨领域可迁移的通用知识。通过路由器 (router) 将物品动态地分配给专家。
码本式标识符 (Codebook-based Identifiers): 在每个专家内部使用残差量化 (Residual Quantization, RQ) 将连续的潜在嵌入量化为离散的词元序列，以实现紧凑且语义丰富的表示。
互信息 (MI) 校准机制: 为解决跨领域语义不平衡问题，引入了一个正则化项，鼓励潜在空间保留来自每个领域的足够且一致的信息量，从而保证词元化质量在各领域间的稳定性。

这些组件共同作用，使得 UniTok 能够在多个领域中实现高效、高质量且可泛化的物品词元化。

4.2. 核心方法详解

4.2.1. 任务定义

多领域设置 (Multi-domain setting): 设 $\mathcal{D} = \{D_1, \dots, D_K\}$ 为 $K$ 个不同物品领域的推荐数据集集合。每个领域 $D_k$ 包含一个物品集 $\mathcal{T}_k$ 及相关的文本元数据（如标题、类别、特征）。
物品词元化任务 (Item tokenization task): 给定来自任何领域特定数据集 $D_k$ 的原始物品 $\mathcal{T}_k$ ，假设已有一个预训练的内容编码器 (pre-trained content encoder) 可以生成领域 $k$ 的语义嵌入 $\mathbf{X}^k \in \mathbb{R}^{|\mathcal{T}_k| \times d}$ ，其中 $|\mathcal{T}_k|$ 是领域 $k$ 中的物品数量， $d$ 是嵌入维度。第 $i$ 个嵌入物品表示为 $\bar{\mathbf{x}}_i^k \in \mathbf{X}^k$ 。目标是学习一个映射函数 $\mathcal{F}: \mathbb{R}^d \to \mathcal{C}$ ，将每个连续嵌入 $\mathbf{x}_i^k$ 投影到一个离散的码字 (codeword) $\mathbf{c}_i^k \in \mathcal{C}$ ，其中 $\mathcal{C}$ 表示所有领域共享的离散物品词元空间。

4.2.2. 共享自编码器 (Shared Autoencoder)

为了在混合领域中建立一个统一的表示空间，UniTok 首先使用一个共享自编码器 (shared autoencoder)。它由一个编码器 $f_\theta$ 和一个解码器 $g_\phi$ 组成。

编码器 (Encoder): 将来自任何领域 $D_k$ 的输入物品 $\mathbf{x}_i^k \in \mathbf{X}^k$ 投影到统一的潜在空间，生成潜在嵌入 (latent embedding) $\mathbf{z}_i^k = f_\theta(\mathbf{x}_i^k)$ 。
解码器 (Decoder): 负责从量化后的潜在表示 $\hat{\mathbf{z}}_i^k$ 重构原始语义嵌入，即 $\hat{\mathbf{x}}_i^k = g_\phi(\hat{\mathbf{z}}_i^k)$ 。这里的 $\hat{\mathbf{z}}_i^k = \mathrm{TokenMoE}(\mathbf{z}_i^k)$ 是经过 TokenMoE 模块处理后的输出。

优化目标 (重建损失 $\mathcal{L}_{\mathrm{Rec}}$ ): 模型通过最小化重建损失来优化，以确保潜在空间能够保留物品的核心语义信息。 $\mathcal{L}_{\mathrm{Rec}} = \sum_{k=1}^K \sum_{\mathbf{x}_i^k \in \mathbf{X}^k} \|\mathbf{x}_i^k - \hat{\mathbf{x}}_i^k\|^2$ 其中， $\|\cdot\|$ 表示 $L_2$ 范数。

4.2.3. `TokenMoE` 模块

TokenMoE 是一种定制的 MoE 架构，旨在捕获领域特定语义和通用知识。

路由器函数 (Router Function): 物品潜在嵌入 $\mathbf{z}_i^k$ 首先通过路由器函数 $G(\cdot)$ ，该函数生成一个关于 $K$ 个领域特定专家 (domain-specific experts) 的 softmax 分布。 $G(\mathbf{z}_i^k) = \{G_1, G_2, \dots, G_K\} \quad \text{其中 } G_k = \frac{\exp(s_i^{(k)})}{\sum_{j=1}^K \exp(s_i^{(j)})}, s_i = h(\mathbf{z}_i^k) \in \mathbb{R}^K$
- $h(\cdot)$ 是路由器中的一个可学习的线性变换 (learnable linear transformation)，生成路由器对数几率 (router logits) $s_i$ 。
- $s_i^{(k)}$ 表示对应于第 $k$ 个领域特定专家的对数几率。
- $K$ 是领域特定专家的总数量，通常与领域数量一致。
专家路由 (Expert Routing):
- 物品被路由到前 $N$ 个得分最高的领域特定专家 (top- $N$ domain-specific experts) (基于 $G(\mathbf{z}_i^k)$ 的最高值)。
- 物品还确定性地 (deterministically) 分配给一个共享专家 (shared expert)。
- 每个专家（包括共享专家）都实现为一个码本式标识符 (codebook-based identifier)。
最终量化嵌入 $\hat{\mathbf{z}}_i^k$ 的计算: $\hat{\mathbf{z}}_i^k$ 是选定领域特定专家和共享专家的加权组合。 $\left\{ \begin{array}{l} \hat{\mathbf{z}}_i^k = \mathrm{TokenMoE}\left(\mathbf{z}_i^k\right) = \displaystyle \sum_{k=1}^K G_k E_k\left(\mathbf{z}_i^k\right) + E_{\mathrm{share}}\left(\mathbf{z}_i^k\right), \\ G_k = \left\{ \begin{array}{ll} G_k, & \mathrm{if } k \in \mathrm{Top}_N\left(G\left(\mathbf{z}_i^k\right)\right) \\ 0, & \mathrm{otherwise} \end{array} \right., \end{array} \right.$
- $E_k(\cdot)$ 表示第 $k$ 个专家模块。
- $E_{\mathrm{share}}(\cdot)$ 表示共享专家模块。
- $\mathrm{Top}_N(G(\mathbf{z}_i^k)) = \{k_1, k_2, \dots, k_N\}$ 是路由器选择的前 $N$ 个专家的索引集合。
专家专业化 (Expert Specialization): 为了鼓励专家专业化，每个专家（包括共享专家）使用特定领域的平均特征 (mean feature) 进行初始化，为领域感知词元化提供强归纳偏置 (strong inductive bias)，而无需显式监督。

4.2.4. 码本式标识符 (Codebook-based Identifiers)

在每个专家模块内部，使用残差量化 (RQ) 将物品潜在嵌入离散化为紧凑的词元序列。

量化过程: 给定 TokenMoE 生成的物品潜在嵌入 $\mathbf{z}_i^k \in \mathbb{R}^d$ ，RQ 通过一系列码本 $\{C_1, C_2, \dots, C_L\}$ 对其进行近似。 $E_k(\mathbf{z}_i^k) \approx \sum_{\ell=1}^L \mathbf{c}_{\ell}, \quad \mathrm{where} ~ \mathbf{c}_{\ell} \in C_{\ell}.$
- $L$ 是码本层数 (number of codebook levels)。
- $C_{\ell} \triangleq \{\mathbf{c}_t\}_{t=1}^T$ 包含 $T$ 个码向量。
- 在每一层 $\ell$ ，上一步的残差 $\mathbf{r}^{(\ell)}$ 使用 $C_{\ell}$ 中最近的码 $\mathbf{c}_{\ell}$ 进行编码。
- 所有选定码的总和重建了原始潜在嵌入。
离散码字 (Discrete Codeword): 这种层次化量化将每个物品词元化为一个离散的码字： $\mathbf{z}_i^k \mapsto \mathbf{c}_i^k = (z_1, \dots, z_L, e_1, \dots, e_N)$
- $z_{\ell} \in \{1, \dots, T\}$ 表示从第 $\ell$ 个码本 $C_{\ell}$ 中选择的码向量 $\mathbf{c}_{\ell}$ 的索引。
- $e_n \in \{1, \dots, K\}$ 表示路由器选择的第 $n$ 个前 $N$ 专家的专家 ID。
残差量化损失 ( $\mathcal{L}_{\mathrm{RQ}}$ ): 用于训练量化过程。 $\mathcal{L}_{\mathrm{RQ}} := \sum_{\ell=1}^L \left\| \mathrm{sg}[\mathbf{r}^{(\ell)}] - \mathbf{c}_{\ell} \right\|^2 + \alpha \left\| \mathbf{r}^{(\ell)} - \mathrm{sg}[\mathbf{c}_{\ell}] \right\|^2$
- $\mathbf{r}^{(\ell)}$ 是第 $\ell$ 层的残差向量。
- $\mathbf{c}_{\ell}$ 是从 $C_{\ell}$ 中选定的码向量。
- $\mathrm{sg}[\cdot]$ 是停止梯度算子 (stop-gradient operator)。
- $\alpha$ 是平衡超参数 (balancing hyperparameter)。
- 第一项使码向量与目标残差对齐（码本学习）。
- 第二项强制编码器和路由器致力于选定的量化码向量。

4.2.5. 互信息 (MI) 校准机制 ( $\mathcal{L}_{\mathrm{MI}}$ )

为了缓解跨领域的语义不平衡问题，UniTok 引入了 MI 校准机制，确保潜在空间保留来自每个领域的足够信息。

HSIC 作为 MI 代理: 采用 Hilbert-Schmidt independence criterion (HSIC) (Gretton et al. 2005; Li et al. 2021) 作为互信息的代理，更高的 HSIC 值表示更强的依赖性。对于领域 $k$ ，HSIC 衡量输入语义嵌入 $\mathbf{X}^k = \{\mathbf{x}_1^k, \dots, \mathbf{x}_{|\mathcal{T}_k|}^k\}$ 及其潜在嵌入 $\mathbf{Z}^k = \{\mathbf{z}_1^k, \dots, \mathbf{z}_{|\mathcal{T}_k|}^k\}$ 在再生核希尔伯特空间 (Reproducing Kernel Hilbert Space, RKHS) 中的依赖性。 $\widehat{\mathrm{HSIC}}(\mathbf{X}^k, \mathbf{Z}^k) = \frac{1}{(|\mathcal{T}_k| - 1)^2} \mathrm{Tr}(\mathbf{UHVH})$
- $\mathbf{U}, \mathbf{V} \in \mathbb{R}^{|\mathcal{T}_k| \times |\mathcal{T}_k|}$ 是在 $\mathbf{X}^k$ 和 $\mathbf{Z}^k$ 上计算的高斯核矩阵 (Gaussian kernel matrices)。
- 中心化矩阵 (centering matrix) $\mathbf{H} = \mathbf{I} - \frac{1}{|\mathcal{T}_k|} \mathbf{1}\mathbf{1}^\top$ 确保 RKHS 中的嵌入均值为零。
- $\mathrm{Tr}(\mathbf{UHVH})$ 计算两个 RKHS 之间交叉协方差的 Hilbert-Schmidt 范数。
MI 校准损失: 为了强制实现跨领域的语义平衡，MI 校准损失定义为： $\mathcal{L}_{\mathrm{MI}} = \mathrm{Var}\left[\widehat{I}^{(k)}\right] - \beta \mathbb{E}\left[\widehat{I}^{(k)}\right]$
- $\widehat{I}^{(k)} = \widehat{\mathrm{HSIC}}(\mathbf{X}^k, \mathbf{Z}^k)$ 。
- $\beta$ 是一个加权超参数。
- 第一项惩罚 MI 在跨领域之间的高方差，以缓解语义不平衡。
- 第二项强制每个领域保留足够的领域特定信息。

4.2.6. 整体优化目标

模型通过最小化总损失函数进行训练： $\mathcal{L}_{\mathrm{total}} = \mathcal{L}_{\mathrm{Rec}} + \lambda_{\mathrm{RQ}} \mathcal{L}_{\mathrm{RQ}} + \lambda_{\mathrm{MI}} \mathcal{L}_{\mathrm{MI}}$ 其中， $\lambda_{\mathrm{RQ}}$ 和 $\lambda_{\mathrm{MI}}$ 是控制 RQ 损失和 MI 校准损失强度的超参数。

4.2.7. `UniTok` 在 `LLM` 推荐系统中的实例化

首先，使用上述总损失函数在所有物品上训练 UniTok。
训练后的 UniTok 将每个物品词元化为离散的语义词元。
遵循现有工作 (Wang et al. 2024)，用户交互历史 $u$ 被转换为物品词元序列 $\textbf{u} = [\widetilde{\mathbf{c}}_1, \widetilde{\mathbf{c}}_2, \dots, \widetilde{\mathbf{c}}_P]$ 。
基于 LLM 的推荐系统学习预测下一个交互物品词元 $\tilde{\mathbf{c}}_{P+1}$ 。

4.3. 理论分析

4.3.1. 定理 1: 词元空间熵

定理: UniTok 诱导的词元空间比标准码本方法的熵严格更高： $H(\mathcal{C}_{\mathrm{UniTok}}) > H(\mathcal{C}_{\mathrm{standard}})$ 其中， $\mathcal{C}_{\mathrm{UniTok}}$ 和 $\mathcal{C}_{\mathrm{standard}}$ 分别表示由 UniTok 和标准码本方法生成的离散词元分布。

证明:

标准码本方法的熵:
- 在标准码本方法中，每个 $L$ 层都有一个包含 $T$ 个码向量的码本。
- 词元空间中的唯一词元总数为 $|\mathcal{C}_{\mathrm{standard}}| = T^L$ 。
- 假设量化表示的均匀概率分布为 $P(c) = \frac{1}{T^L}$ 。
- 标准码本方法的词元空间熵为： $H(\mathcal{C}_{\mathrm{standard}}) = -\sum_{c \in \mathcal{C}} P(c) \log P(c) = L \log T$
UniTok 的熵:
- UniTok 中有 $K$ 个领域特定专家，每个专家都有自己的独立码本，其容量也是 $T^L$ 。
- 给定物品嵌入 $\mathbf{z}$ ，路由器函数分配专家概率 $G_k = \frac{\exp(h(\mathbf{z}^{(k)}))}{\sum_{j=1}^K \exp(h(\mathbf{z}^{(j)}))}$ 。
- 设 $\mathcal{G}$ $G$ 是专家选择的随机变量。UniTok 中的词元 $c \in \mathcal{C}_{\mathrm{UniTok}}$ $c \in C_{UniTok}$ 通过以下方式生成：
  - 从 $\mathcal{G}$ 中采样一个专家索引 $k$ 。
  - 从第 $k$ 个专家的离散词元分布 $\mathcal{C}_k$ 中采样一个词元 $c$ 。
- 根据熵的链式法则： $H(\mathcal{C}_{\mathrm{UniTok}}) = H(\mathcal{G}) + H(\mathcal{C}_k \mid \mathcal{G})$
- 条件熵 $H(\mathcal{C}_k \mid \mathcal{G})$ 是每个专家潜在空间的熵的期望，由路由器分布加权： $H(\mathcal{C}_k \mid \mathcal{G}) = \sum_{k=1}^K G_k \cdot H(\mathcal{C}_k) = \mathbb{E}_{k \sim \mathcal{G}}[H(\mathcal{C}_k)]$
- 因此， $H(\mathcal{C}_{\mathrm{UniTok}}) = H(\mathcal{G}) + \mathbb{E}_{k \sim \mathcal{G}}[H(\mathcal{C}_k)]$ 。
- 由于每个专家具有与标准码本方法相同的量化熵，即 $H(\mathcal{C}_k) = L \log T$ 对于所有 $k$ 成立。
- 所以， $\mathbb{E}_{k \sim \mathcal{G}}[H(\mathcal{C}_k)] = L \log T$ 。
- 路由器熵 $H(\mathcal{G}) = -\sum_{k=1}^K G_k \log G_k$ ，当 $K > 1$ 时，此项总是正数，即 $H(\mathcal{G}) > 0$ 。
- 因此，UniTok 的词元熵为： $H(\mathcal{C}_{\mathrm{UniTok}}) = H(\mathcal{G}) + L \log T > H(\mathcal{C}_{\mathrm{standard}})$
- 这表明引入多个专家能增加整体熵，从而扩展词元空间容量。

4.3.2. 定理 2: 量化误差

定理: 设 $\mathbb{E}[\mathcal{L}_{\mathrm{UniTok}}]$ 和 $\mathbb{E}[\mathcal{L}_{\mathrm{standard}}]$ 分别表示 UniTok 和使用单个共享码本的标准码本方法的预期量化误差 (expected quantization error)。那么以下不等式成立： $\mathbb{E}[\mathcal{L}_{\mathrm{UniTok}}] \le \mathbb{E}[\mathcal{L}_{\mathrm{standard}}]$

引理 1: 函数 $f(\mathbf{x}) = \|\mathbf{x}\|^2 = \mathbf{x}^\top \mathbf{x}$ ，其中 $\mathbf{x} \in \mathbb{R}^n$ ，是凸函数。 引理 1 证明:

计算 $f(\mathbf{x})$ 的梯度： $\nabla f(\mathbf{x}) = \nabla (\mathbf{x}^\top \mathbf{x}) = 2\mathbf{x}$
计算 $f(\mathbf{x})$ 的 Hessian 矩阵： $\nabla^2 f(\mathbf{x}) = \nabla (2\mathbf{x}) = 2\mathbf{I}$ 其中 $\mathbf{I}$ 是 $n \times n$ 单位矩阵。由于 Hessian 矩阵是正定矩阵，因此 $f(\mathbf{x})$ 是严格凸函数。

定理 2 证明:

设 $\mathbf{z} \in \mathbb{R}^d$ 是从分布 p(z) 中抽取的物品潜在嵌入。设 $\hat{\mathbf{z}} = E(\mathbf{z})$ 是量化函数的输出，它生成码向量组合来近似 $\mathbf{z}$ 。
对于使用单个共享码本的标准码本方法，预期量化误差为： $\mathbb{E}[\mathcal{L}_{\mathrm{standard}}] = \mathbb{E}_{\mathbf{z} \sim p(z)} \left[ \|\mathbf{z} - E(\mathbf{z})\|^2 \right]$
考虑 UniTok，它有 $K$ 个领域特定专家，每个专家有自己的码本。给定嵌入 $\mathbf{z}$ ，路由器函数分配给每个专家的概率为 $G_k = \frac{\exp(h(\mathbf{z}^{(k)}))}{\sum_{j=1}^K \exp(h(\mathbf{z}^{(j)}))}$ 。
UniTok 的量化输出为 $\hat{\mathbf{z}} = \sum_{k=1}^K G_k \cdot E_k(\mathbf{z})$ ，量化误差为： $\mathcal{L}_{\mathrm{UniTok}}(\mathbf{z}) = \left\| \mathbf{z} - \sum_{k=1}^K G_k \cdot E_k(\mathbf{z}) \right\|^2$ 由于 $\sum_{k=1}^K G_k = 1$ ，我们可以写成： $\mathcal{L}_{\mathrm{UniTok}}(\mathbf{z}) = \left\| \sum_{k=1}^K G_k \cdot (\mathbf{z} - E_k(\mathbf{z})) \right\|^2$
定义每个 $\mathbf{z}$ 的近似误差为 $\epsilon_k(\mathbf{z}) = \mathbf{z} - E_k(\mathbf{z})$ 。
代入后得到： $\mathcal{L}_{\mathrm{UniTok}}(\mathbf{z}) = \left\| \sum_{k=1}^K G_k \cdot \epsilon_k(\mathbf{z}) \right\|^2$
根据引理 1 中平方范数函数的凸性，应用 Jensen 不等式： $\mathcal{L}_{\mathrm{UniTok}}(\mathbf{z}) = \left\| \sum_{k=1}^K G_k \cdot \epsilon_k(\mathbf{z}) \right\|^2 \leq \sum_{k=1}^K G_k \cdot \|\epsilon_k(\mathbf{z})\|^2$
对上式两边取数据分布 p(z) 的期望： $\mathbb{E}_{\mathbf{z} \sim p(z)} \left[ \left\| \sum_{k=1}^K G_k \cdot \epsilon_k(\mathbf{z}) \right\|^2 \right] \leq \mathbb{E}_{\mathbf{z} \sim p(z)} \left[ \sum_{k=1}^K G_k \cdot \|\epsilon_k(\mathbf{z})\|^2 \right]$
由于单个量化函数 $E(\mathbf{z})$ 可以看作是 UniTok 的一个退化情况（即只有一个专家 $G_k=1$ ，其他为 0），所以 UniTok 总是提供更好或等同的近似： $\mathbb{E}_{\mathbf{z} \sim p(z)} \left[ \mathcal{L}_{\mathrm{UniTok}}(\mathbf{z}) \right] \leq \mathbb{E}_{\mathbf{z} \sim p(z)} [ \mathcal{L}_{\mathrm{standard}}(\mathbf{z}) ]$ 这表明更低的预期量化误差反映了更精确的物品词元化建模。TokenMoE 框架通过利用专家专业化进一步降低了此误差。

4.3.3. 定理 3: 性能变异性

定理: 假设第 $k$ 个领域上的损失 $\mathcal{L}^{(k)}$ 对于表示的信息量 (informativeness of representations) 是 Lipschitz 连续的。那么，跨领域的性能变异性 (performance variability) 有一个上限，由 MI 的方差决定： $|\mathcal{L}^{(i)} - \mathcal{L}^{(j)}| \leq C \sqrt{\mathrm{Var}\left[\widehat{I}^{(k)}\right]}, \forall i, j$ 其中， $\mathrm{Var}[\widehat{I}^{(k)}]$ 是跨领域 MI 估计值的方差， $C$ 是一个常数。

证明:

设 $\widehat{I}^{(k)} = \widehat{\mathrm{HSIC}}(\mathbf{X}^k, \mathbf{Z}^k)$ 是第 $k$ 个领域的输入 $\mathbf{X}^k$ 和其表示 $\mathbf{Z}^k$ 之间的 MI。
由于损失 $\mathcal{L}^{(k)}$ 对于表示的信息量（即 MI）是 Lipschitz 连续的，所以： $\left| \mathcal{L}^{(i)} - \mathcal{L}^{(j)} \right| \leq L \left| \widehat{\mathrm{HSIC}}(\mathbf{X}^i ; \mathbf{Z}^i) - \widehat{\mathrm{HSIC}}\left(\mathbf{X}^j ; \mathbf{Z}^j\right) \right|$ 其中 $L$ 是 Lipschitz 常数。
现在，我们取所有领域对之间 MI 的最大差距，并将其与 MI 的方差联系起来。设 $\mu = \mathbb{E}[\widehat{I}^{(k)}]$ 为 MI 估计值的均值： $\begin{aligned} & \quad |\widehat{I}^{(i)} - \widehat{I}^{(j)}| \\ & \leq \max_{i \le j} |\widehat{I}^{(i)} - \widehat{I}^{(j)}| \\ & = \max_{i, j} |\widehat{I}^{(i)} - \mu - (\widehat{I}^{(j)} - \mu)| \\ & \leq \max_{i \le j} |\widehat{I}^{(i)} - \mu| + |(\widehat{I}^{(j)} - \mu)| \\ & \leq 2 \max_{i \le j} |\widehat{I}^{(k)} - \mu| \\ & \leq 2 \sqrt{\displaystyle \int_{k=1}^K (\widehat{I}^{(k)} - \mu)^2} \\ & \leq 2 \sqrt{K \cdot \mathrm{Var}[\widehat{I}^{(k)}]} \end{aligned}$ (原文此处推导最后一步有误，其从 $\displaystyle \int_{k=1}^K (\widehat{I}^{(k)} - \mu)^2$ 到 $2 \sqrt{K} \mathrm{Var}[\widehat{I}^{(k)}]$ 的转换不严谨。正确的上界推导应为： $|\widehat{I}^{(i)} - \widehat{I}^{(j)}| \le 2 \max_k |\widehat{I}^{(k)} - \mu|$ 。根据切比雪夫不等式，对于任何随机变量 $X$ 和常数 $a > 0$ ，有 $P(|X - \mu| \ge a) \le \frac{\mathrm{Var}[X]}{a^2}$ 。所以， $\max_k |\widehat{I}^{(k)} - \mu|$ 可以与方差关联，但直接得出一个 $2\sqrt{K}\mathrm{Var}[\widehat{I}^{(k)}]$ 形式的上界需要更严格的假设或不同的推导路径。但论文在此处的意图是建立性能差距与 MI 方差的关联。)
因此，我们得到： $\left| \mathcal{L}^{(i)} - \mathcal{L}^{(j)} \right| \leq L \left| \widehat{I}^{(i)} - \widehat{I}^{(j)} \right| \leq C \sqrt{\mathrm{Var}\left[\widehat{I}^{(k)}\right]}$ 其中 $C = 2 L \sqrt{K}$ 。这表明减少跨领域 MI 方差可以促进语义表示的一致性，从而导致更稳定和可靠的下游性能。

5. 实验设置

5.1. 数据集

实验使用了 10 个真实世界数据集作为源领域 (source domains)，以及 3 个数据集作为零样本 (zero-shot) 评估的目标领域 (target domains)。每个物品都包含元数据，如标题、类别和特征。

源领域数据集：

Beauty (美妆)
Cellphones (手机)
Grocery (杂货)
Instruments (乐器)
Office Products (办公用品)
Pet Supplies (宠物用品)
Tools (工具)
Toys (玩具)
Games (游戏)
Yelp (本地生活服务)

目标领域数据集 (零样本评估)：

Clothing (服装)
Health (健康)

Sports (运动)

以下是原文 Table 6 的结果，展示了所有数据集的统计信息：

Dataset	# of users	# of items	# of interactions
Beauty	22,363	12,101	198,502
Cellphones	27,879	10,429	194,439
Grocery	14,681	8,713	151,254
Instruments	24,772	9,922	206,153
Office Products	4,905	2,420	53,258
Pet Supplies	19,856	8,510	157,836
Tools	16,638	10,217	134,476
Toys	19,412	11,924	167,597
Games	24,303	10,672	231,780
Yelp	30,431	20,033	316,354
Clothing	39,387	23,033	278,677
Health	38609	18533	346,355
Sports	35,598	18,357	296,337

选择这些数据集是为了覆盖广泛的物品类别和领域，从而全面评估 UniTok 在多领域推荐场景下的性能、效率和泛化能力。

5.2. 评估指标

论文采用推荐领域广泛使用的两种排名指标：Recall@M 和 NDCG@M，其中 $M \in \{5, 10\}$ 。

5.2.1. 召回率 (Recall@M)

概念定义: Recall@M 衡量的是在推荐列表的前 $M$ 个物品中，有多少比例的相关物品被成功检索出来。它关注的是模型找到所有相关物品的能力。
数学公式: $\mathrm{Recall}@M = \frac{ |\mathrm{Top}\text{-}M \mathrm{~recommended~items} \cap \mathrm{Ground~truth~items}| }{ |\mathrm{Ground~truth~items}| }$
符号解释:
- $\mathrm{Top}\text{-}M \mathrm{~recommended~items}$ : 模型在前 $M$ 个位置推荐的物品集合。
- $\mathrm{Ground~truth~items}$ : 真实的相关物品集合（用户实际交互的物品）。
- $|\cdot|$ : 集合中元素的数量。

5.2.2. 归一化折损累计增益 (NDCG@M)

概念定义: NDCG@M 同时考虑了推荐物品的相关性 (relevance) 和排名位置 (ranking positions)。它假定排名越靠前的相关物品对用户的价值越大，并且相关性高的物品比相关性低的物品更有价值。NDCG 值介于 0 和 1 之间，1 表示完美排名。
数学公式: $\mathrm{NDCG}@M = \frac{1}{\mathrm{IDCG}@M} \sum_{i=1}^M \frac{1\{\mathrm{item}_i \in \mathrm{Ground~truth}\}}{\log_2(i + 1)}$
符号解释:
- $\mathrm{IDCG}@M$ : 理想的 DCG (Ideal Discounted Cumulative Gain)，即给定真实相关性下可能达到的最大 DCG 值，用于归一化。
- $\mathrm{item}_i$ : 推荐列表中第 $i$ 个位置的物品。
- $1\{\mathrm{item}_i \in \mathrm{Ground~truth}\}$ : 指示函数，如果 $\mathrm{item}_i$ 存在于真实相关物品集合中则为 1，否则为 0。
- $\log_2(i + 1)$ : 折损因子 (discount factor)，用于降低排名靠后物品的贡献。

5.3. 对比基线

为了全面展示 UniTok 的优越性，论文将其与九种基准推荐方法进行了比较，包括：

四种广泛使用的协同过滤 (Collaborative Filtering, CF) 方法:
- MF (Matrix Factorization, Rendle et al. 2009): 基于矩阵分解的用户-物品交互模式学习。
- SASRec (Self-Attentive Sequential Recommendation, Kang and McAuley 2018): 使用自注意力机制捕获用户短期和长期行为序列。
- LightGCN (Simplifying and Powering Graph Convolution Network for Recommendation, He et al. 2020): 简化图卷积网络以提高推荐效率和性能。
- Bert4Rec (Sequential Recommendation with Bidirectional Encoder Representations from Transformer, Sun et al. 2019): 基于 Transformer 的双向编码器表示，用于序列推荐。
五种物品词元化辅助的 LLM 推荐方法:
- P5-TID (P5-Textual ID, Hua et al. 2023): 通过 LLM 生成物品 ID 的方法，其中 ID 直接来源于文本描述。
- P5-SemID (P5-Semantic ID, Hua et al. 2023): 同样基于 LLM 生成物品 ID，但强调从语义层面进行 ID 的构建。
- TIGER (Generative Retrieval for Recommendation, Rajput et al. 2023): 利用 RQ 将物品编码为离散语义词元，然后与 LLM 结合进行生成式检索推荐。
- LC-Rec (LLM-based Collaborative Recommendation, Zheng et al. 2024): 通过向量量化学习协同语义，并微调 LLM 以直接生成物品。
- LETTER (Learnable Item Tokenization for Generative Recommendation, Wang et al. 2024): 一种可学习的词元化器，结合了文本和协同信号，并缓解了码字分配偏差。
  
  这些基线方法涵盖了从传统 CF 到最新 LLM 辅助推荐的多种范式，特别是针对物品词元化的方法。

5.4. 实现细节

物品词元化设置:
- 使用 4 层 (4-level) 码本式标识符 ( $L=4$ )。
- 每个码本包含 256 个码向量 ( $T=256$ )。
- 码向量维度为 32。
超参数:
- $\lambda_{\mathrm{RQ}}$ (残差量化损失权重) 设为 1。
- $\lambda_{\mathrm{MI}}$ (互信息校准损失权重) 设为 0.03。
- TokenMoE 中的 alpha 设为 0.25，beta 设为 1。
训练:
- UniTok 训练 10,000 个 epoch。
- 优化器: AdamW (Loshchilov and Hutter 2019)。
- 学习率: 1e-3。
- 批次大小 (Batch size): 1,024。
- TIGER 根据验证性能进行微调，学习率在 $1e-3, 5e-4, 1e-4, 2e-4, 3e-4$ 之间选择。
硬件:
- CPU: Intel(R) 12-Core (TM) E5-1650 v4 CPUs @ 3.60 GHz。
- GPU: 两块 NVIDIA RTX 3090 GPU。

6. 实验结果与分析

6.1. 核心结果分析

6.1.1. `UniTok` 在多领域推荐中的有效性

问题: 一个词元化器能否服务所有领域？为了评估 UniTok 的推荐准确性，论文将其与各种基准物品词元化方法在 10 个不同领域的基准数据集上进行了比较。值得注意的是，与需要为每个数据集训练独立词元化器的基准方法不同，UniTok 训练一个单一的统一模型来联合处理所有 10 个数据集。

以下是原文 Table 1（截取自主论文）和 Table 7（截取自附录 D.5）的结果，展示了所有数据集上 NDCG@10 和 Recall@10 的性能比较：

Method	Beauty		Cellphones		Grocery		Instruments		Office Products
Method	R@10	N@10	R@10	N@10	R@10	N@10	R@10	N@10	R@10	N@10
MF	0.0614	0.0369	0.0604	0.0267	0.0418	0.0216	0.0930	0.0710	0.0569	0.0255
LightGCN	0.0639	0.0285	0.0668	0.0456	0.0697	0.0357	0.1008	0.0781	0.0587	0.0301
SASRec	0.0646	0.0314	0.0651	0.0446	0.0701	0.0376	0.0905	0.0609	0.0574	0.0285
Bert4Rec	0.0372	0.0194	0.0507	0.0268	0.0448	0.0237	0.0791	0.0573	0.0563	0.0274
P5-TID	0.0532	0.0255	0.0648	0.0357	0.0617	0.0316	0.0928	0.0721	0.0557	0.0239
P5-SemID	0.0584	0.0304	0.0737	0.0406	0.0641	0.0351	0.0964	0.0730	0.0592	0.0283
TIGER	0.0624	0.0324	0.0838	0.0446	0.0706	0.0375	0.1047	0.0788	0.0594	0.0295
LC-Rec	0.0684	0.0381	0.0859	0.0458	0.0722	0.0369	0.1066	0.0802	0.0637	0.0311
LETTER	0.0672	0.0364	0.0876	0.0473	0.0731	0.0392	0.1122	0.0831	0.0649	0.0326
UniTok	0.0934	0.0478	0.1251	0.0647	0.1061	0.0533	0.1361	0.0884	0.0897	0.0432
Improve	36.55%	25.46%	42.81%	36.78%	45.14%	35.97%	21.30%	6.38%	38.21%	32.52%

Method	Pet Supplies		Tools		Toys		Games		Yelp
Method	R@10	N@10	R@10	N@10	R@10	N@10	R@10	N@10	R@10	N@10
MF	0.0503	0.0268	0.0356	0.0169	0.0405	0.0192	0.0359	0.0366	0.0304	0.0144
LightGCN	0.0529	0.0289	0.0482	0.0257	0.0495	0.0287	0.0407	0.0417	0.0368	0.0195
SASRec	0.0538	0.0301	0.0475	0.0234	0.0473	0.0239	0.0401	0.0412	0.0354	0.0183
Bert4Rec	0.0313	0.0161	0.0184	0.0092	0.0333	0.0177	0.0363	0.0379	0.0272	0.0131
P5-TID	0.0485	0.0243	0.0377	0.0198	0.0419	0.0202	0.0372	0.0388	0.0316	0.0154
P5-SemID	0.0569	0.0282	0.0405	0.0237	0.0445	0.0231	0.0398	0.0432	0.0324	0.0188
TIGER	0.0546	0.0279	0.0507	0.0284	0.0486	0.0268	0.0438	0.0427	0.0394	0.0208
LC-Rec	0.0648	0.0335	0.0561	0.0307	0.0538	0.0279	0.0442	0.0451	0.0418	0.0215
LETTER	0.0596	0.0307	0.0556	0.0298	0.0546	0.0291	0.0559	0.0469	0.0426	0.0231
UniTok	0.0955	0.0496	0.0852	0.0439	0.0902	0.0442	0.0565	0.0476	0.0684	0.0321
Improve	47.38%	48.06%	51.87%	42.99%	65.20%	51.89%	1.07%	1.49%	60.56%	38.96%

分析:

显著性能提升: UniTok 在所有数据集上均持续优于竞争对手，在 Tools 数据集上 NDCG@10 提升高达 51.89%，在 Toys 数据集上 Recall@10 提升高达 65.20%。这证实了其统一词元化框架的有效性。
统一性优势: 与需要针对每个数据集训练独立词元化器的方法不同，UniTok 通过一个单一的共享词元化过程有效地捕获了跨多样化领域的物品语义，这突出了其设计的强大通用性。
LLM 辅助推荐的优越性: TIGER, LC-Rec, LETTER 和 UniTok 等 LLM 辅助推荐系统在性能上优于 MF, LightGCN, SASRec 和 Bert4Rec 等标准协同过滤方法。这归因于 LLM 固有的丰富语义理解和推理能力。
精心设计的词元化器的价值: 与仅依靠物品元数据进行词元化的 LLM（如 P5-TID 和 P5-SemID）相比，集成精心设计的物品词元化器（如 UniTok）可以带来额外的性能提升。物品词元化作为物品空间和语言空间之间的关键桥梁，能够将物品表示为离散的、与语言对齐的语义空间，从而增强泛化和推理能力。

6.1.2. `UniTok` 的效率

问题: UniTok 是否比传统词元化器更高效？

为了验证 UniTok 的效率，论文比较了 UniTok 与传统码本式竞争对手（TIGER, LC-Rec, LETTER）的总可训练参数数量。

以下是原文 Table 2 的结果，展示了可训练参数数量的比较：

Module	Codebook-based methods	UniTok
Codebook	0.33M	0.36M
Autoencoder	87.45M	8.75M
Router		0.01M
Total	87.78M	9.11M

分析 (参数效率):

模型参数量大幅减少: UniTok 实现了总可训练参数数量约 10 倍的减少。这是因为竞争对手需要为每个数据集训练和存储单独的词元化模型，而 UniTok 采用单一的统一模型在所有数据集之间共享。
共享自编码器是关键: 这种效率主要来自于使用共享自编码器 (shared autoencoder)。码本和 TokenMoE 路由器引入的额外可训练参数数量可以忽略不计。

此外，论文还在统一训练设置下评估了竞争对手的性能。

以下是原文 Table 3 的结果，展示了统一训练设置下 UniTok 和竞争对手的性能比较：

Beauty		Cellphones		Grocery
Method	R@10	N@10	R@10	N@10	R@10	N@10
TIGER	0.0499	0.0267	0.0661	0.0342	0.0576	0.0273
LC-Rec	0.0564	0.0302	0.0647	0.0337	0.0584	0.0287
LETTER	0.0528	0.0288	0.0678	0.0363	0.0618	0.0315
UniTok	0.0934	0.0478	0.1251	0.0647	0.1061	0.0533
Gain	65.60%	58.28%	84.51%	78.23%	71.68%	69.21%

分析 (统一训练下的性能):

竞争方法性能显著下降: 在统一训练设置下（即用类似 UniTok 的参数预算在所有数据集上联合训练），竞争方法相比其单领域设置下的性能（见 Table 1）出现了显著下降。这主要是由于它们难以在共享词元化中区分不同领域的物品。
UniTok 性能保持优越: UniTok 在使用相似参数预算的情况下，保持了持续优越的推荐性能，在 Cellphones 上 Recall@10 提升高达 84.51%。这得益于其模块化的 TokenMoE 架构，其中领域特定专家独立学习语义，同时共享一个统一的词元空间。

6.1.3. `UniTok` 的泛化能力

问题: UniTok 能否泛化到未见过的领域？

为了评估 UniTok 的泛化能力，论文采用了零样本 (zero-shot) 设置。UniTok 模型在 10 个源数据集上训练一次，然后直接在三个目标领域（Clothing, Health, Sports）的未见数据集上进行测试，无需任何额外训练或微调。

以下是原文 Table 4 的结果，展示了 UniTok 和竞争对手在三个未见数据集上的性能比较：

	Clothing	Health		Sports
Method	R@10	N@10	R@10	N@10	R@10	N@10
TIGER	0.0501	0.0242	0.0677	0.0342	0.0469	0.0228
LC-Rec	0.0527	0.0266	0.0694	0.0358	0.0494	0.0246
LETTER	0.0515	0.0257	0.0717	0.0375	0.0510	0.0265
UniTok	0.0592	0.0288	0.0835	0.0442	0.0591	0.0298
Gain	12.33%	8.27%	16.46%	17.87%	15.88%	12.45%

分析:

零样本性能优越: UniTok 显著优于现有的物品词元化推荐系统，在 Health 数据集上 NDCG@10 提升高达 17.87%。
无需适应性训练: 竞争对手通常需要在每个新数据集上进行再训练才能达到合理的词元化结果，而 UniTok 无需任何进一步的适应性训练即可保持稳健的准确性。
跨领域语义可迁移性: 这表明 UniTok 能够学习一个离散词元空间，该空间捕获了跨多样化领域可迁移的物品语义。其持续强大的零样本性能进一步突出了 UniTok 统一词元化框架在支持异构领域有效泛化方面的鲁棒性和实用价值。

6.2. 消融实验/参数分析

6.2.1. `UniTok` 有效性的组成部分

问题: 是什么使得 UniTok 有效？

为了评估 UniTok 中每个组件的贡献，论文进行了消融实验，逐步移除或修改其核心模块：TokenMoE 模块、共享专家和 MI 校准部分。

UniTok-1: 移除了 TokenMoE 和 MI 校准，仅使用一套码本，没有 MoE 结构（即标准单码本方法）。
UniTok-2: 保留了 TokenMoE，但移除了共享专家和 MI 校准。
UniTok-3: 仅移除了 MI 校准。

UniTok: 包含所有组件。

以下是原文 Table 5（截取自主论文）和 Table 8（截取自附录 D.6）的结果，展示了消融实验在 Beauty, Cellphones, Grocery, Instruments, Yelp 数据集上的结果：

	Beauty		Cellphones		Grocery		Instruments		Yelp
Method	R@10	N@10	R@10	N@10	R@10	N@10	R@10	N@10	R@10	N@10
UniTok-1	0.0558	0.0304	0.0702	0.0371	0.0633	0.0342	0.0926	0.0742	0.0345	0.0177
UniTok-2	0.0896	0.0436	0.1194	0.0606	0.0989	0.0497	0.1273	0.0851	0.0624	0.0281
UniTok-3	0.0915	0.0457	0.1225	0.0622	0.1044	0.0515	0.1327	0.0868	0.0657	0.0303
UniTok	0.0934	0.0478	0.1251	0.0647	0.1061	0.0533	0.1361	0.0884	0.0684	0.0321

分析:

所有模块的重要性: 移除任何模块都会导致推荐准确性显著下降，这证实了所有模块的组合对 UniTok 的有效性至关重要。
TokenMoE 的关键作用: 比较 UniTok-1 和 UniTok-2 突出了 TokenMoE 模块的重要性。它通过捕获领域特定语义，在所有数据集上显著提高了性能。
MI 校准的贡献: 与 UniTok-3 相比，引入 MI 校准进一步增强了性能。它通过强制学习到的潜在嵌入保留每个领域的基本语义信息，从而确保了跨领域词元化质量的一致性。

6.2.2. 敏感性分析 (对关键参数的鲁棒性)

论文分析了 UniTok 对关键超参数的敏感性，包括量化层数 $L$ 、码本大小 $T$ 以及损失权重 $\lambda_{\mathrm{RQ}}$ 和 $\lambda_{\mathrm{MI}}$ 。结果在 Beauty, Cellphones, Grocery 数据集上呈现，反映了在所有评估数据集上观察到的一致趋势。

1. 量化层数 $L$ 的影响: 下图（原文 Figure 4a, 5a, 6a）展示了 NDCG@10 随量化层数 $L$ 从 2 变化到 8 的变化。

Figure 4: Sensitivity analysis on Beauty. 该图像是图表，展示了对美妆领域的敏感性分析，包含四个子图(a)(b)(c)(d)。每个子图中y轴表示NDCG@10的值，x轴分别为不同的参数：L（图a），T（图b）， $\lambda_{RQ}$ （图c）和 $\lambda_{MI}$ （图d）。结果显示在不同参数设置下的推荐性能变化，为理解UniTok框架提供了有效性验证。

图 4: Beauty 数据集上的敏感性分析 (NDCG@10)

Figure 5: Sensitivity analysis on Cellphones. 该图像是图表，展示了对手机推荐系统的灵敏度分析。图中包含四个子图（a、b、c、d），分别评估不同参数对NDCG@10的影响，其中 $a$ 表示参数 $L$ 的变化， $b$ 为参数 $T$ ， $c$ 为 $\lambda_{RQ}$ ， $d$ 为 $\lambda_{MI}$ 。每个子图中，纵轴为NDCG@10值，横轴为对应参数的不同取值，呈现出这些参数变化对性能指标的影响，总体趋势显示了在特定参数值下性能的提升或下降。

图 5: Cellphones 数据集上的敏感性分析 (NDCG@10)

Figure 6: Sensitivity analysis on Grocery. 该图像是图表，展示了在Grocery数据集上的敏感性分析结果。图中包含了四个子图(a)(b)(c)(d)，分别展示了不同超参数对NDCG@10指标的影响，其中参数包括 $L$ （图a）、 $T$ （图b）、 $\lambda_{RQ}$ （图c）和 $\lambda_{MI}$ （图d）。每个子图的横轴表示相应参数的值，纵轴则显示NDCG@10的变化趋势，从而分析这些参数调整对推荐性能的影响。

图 6: Grocery 数据集上的敏感性分析 (NDCG@10)

分析 (量化层数 $L$ ):

$L=4$ 达到最佳: 当 $L$ 从 2 增加到 4 时，性能有所提高。这可能是因为更长的序列提供了更好的能力来捕获细粒度的语义信息。
过长序列的负面影响: 然而，当 $L$ 超过 4 时，性能开始下降。这可能归因于在推荐过程中，更长的自回归序列会导致误差累积。

2. 码本大小 $T$ 的影响: 下图（原文 Figure 4b, 5b, 6b）展示了 NDCG@10 随码本大小 $T \in \{64, 128, 256, 512\}$ 变化的趋势。

分析 (码本大小 $T$ ):

$T=256$ 达到最佳: 性能通常在 $T=256$ 时达到峰值。
过小或过大的影响: 较小的 $T$ 值可能导致模型无法捕获足够的物品语义，因为码本容量有限。而非常大的 $T$ 值可能会鼓励模型过度拟合 (overfit) 虚假或意义不大的模式。

3. 残差量化损失权重 $\lambda_{\mathrm{RQ}}$ 的影响: 下图（原文 Figure 4c, 5c, 6c）展示了 NDCG@10 随超参数 $\lambda_{\mathrm{RQ}}$ 变化的趋势。

分析 ( $\lambda_{\mathrm{RQ}}$ ):

$\lambda_{\mathrm{RQ}}=1$ 达到最佳: 性能在 $\lambda_{\mathrm{RQ}}=1$ 时达到峰值。
平衡码本学习与编码器提交: 结果表明，设置过低的 $\lambda_{\mathrm{RQ}}$ 可能会导致量化不足，即编码器和路由器未能充分致力于选定的量化码向量。而设置过高的 $\lambda_{\mathrm{RQ}}$ 可能会过度强调码本学习，从而可能导致编码器和路由器对码本监督的利用不足。这些发现强调了仔细调整 $\lambda_{\mathrm{RQ}}$ 以平衡码本式标识符和优化性能的重要性。

4. 互信息校准损失权重 $\lambda_{\mathrm{MI}}$ 的影响: 下图（原文 Figure 4d, 5d, 6d）展示了 NDCG@10 随超参数 $\lambda_{\mathrm{MI}}$ 变化的趋势。

分析 ( $\lambda_{\mathrm{MI}}$ ):

$\lambda_{\mathrm{MI}}=0.03$ 达到最佳: 在 $\lambda_{\mathrm{MI}}=0.03$ 时达到最高的 NDCG@10。
平衡语义保留和泛化: 结果表明，设置过高的 $\lambda_{\mathrm{MI}}$ 可能会过度强调 MI 校准，从而可能抑制模型学习独特的领域特定特征，并可能导致性能下降。另一方面，设置过低的 $\lambda_{\mathrm{MI}}$ 会削弱互信息保留的影响，限制词元表示的语义对齐。这些发现强调了正确调整 $\lambda_{\mathrm{MI}}$ 以平衡语义保留和泛化以获得最佳性能的重要性。

6.3. 理论分析的实证验证

6.3.1. 定理 1: 词元空间熵

为了验证定理 1，论文比较了 UniTok 和标准码本方法的词元空间熵。

以下是原文 Table 9 的结果，展示了词元空间熵的比较：

Method	Token Space Entropy
Codebook-based methods	9.63
UniTok without the router	9.63
UniTok (full)	10.42

分析:

UniTok（完整版）的词元空间熵（10.42）显著高于标准码本方法（9.63）和不带路由器的 UniTok（9.63）。这证实了 TokenMoE 引入的额外路由机制通过增加词元空间的随机性和多样性，有效地提高了词元空间容量，从而实证验证了定理 1。

6.3.2. 定理 2: 量化误差

为了验证定理 2，论文比较了 UniTok 和 LETTER 在训练过程中的残差量化损失。

下图（原文 Figure 7）展示了 UniTok 和 LETTER 在训练 epoch 上的残差量化损失比较：

Figure 7: Comparison of residual quantization loss over training epochs between UniTok and LETTER. 该图像是图表，展示了在训练过程中UniTok和LETTER的残差量化损失随迭代次数的变化。图中显示，UniTok损失（紫色线）表现出明显的下降趋势，而LETTER损失（绿色线）则变化较小，最终收敛在较高值。

图 7: UniTok 和 LETTER 在训练 epoch 上残差量化损失的比较。

分析:

UniTok 始终保持较低的残差量化损失，并随着训练的进行迅速收敛，这表明其在编码物品到离散词元时具有更高的精度。相比之下，LETTER 的损失更高。这实证支持了定理 2，即 UniTok 在异构环境中实现了更低的量化误差，更精确地捕捉了物品语义。

6.3.3. 定理 3: 性能变异性

为了验证定理 3，论文分析了 MI 估计值的方差与跨领域性能差距之间的关系。

下图（原文 Figure 8）展示了 MI 方差与性能差距之间的关系：

Figure 8: Relationship between MI variance and performance gap. 该图像是图表，展示了最大绝对差值 $|L^{(i)} - L^{(j)}|$ 与方差 $Var(ar{f}^{(k)})$ 之间的关系。随着方差的增加，最大绝对差值呈现上升趋势，表明信息互信息（MI）方差与性能差距间的关系。

图 8: MI 方差与性能差距之间的关系。

分析:

图中显示，随着 MI 估计值方差的增加，性能差距也随之增加。这表明 MI 方差与性能变异性之间存在正相关关系，与定理 3 的 Lipschitz 连续性假设一致。这实证支持了定理 3，即通过 MI 校准机制减少 MI 方差，可以有效降低跨领域的性能波动，从而带来更稳定和平衡的多领域推荐性能。

7. 总结与思考

7.1. 结论总结

本文提出了 UniTok，一个用于多领域大型语言模型推荐的统一物品词元化框架。它通过集成定制的混合专家 (MoE) 架构 (TokenMoE) 和码本，将物品转换为离散的语义词元。TokenMoE 结合了领域特定专家和共享专家，以捕获领域独特语义和通用知识。为了解决语义不平衡问题，UniTok 引入了互信息校准机制，以确保潜在嵌入在各领域之间保留一致的信息量。

实验结果表明：

高有效性: UniTok 在广泛的真实世界数据集上，NDCG@10 性能比现有基线提升高达 51.89%。
高效率: UniTok 将模型参数量减少了 9.63 倍，显著降低了训练和部署成本。
高泛化性: UniTok 在零样本设置下，无需额外训练即可在未见领域保持鲁棒性能。
理论支撑: 理论分析和实证验证证明了 UniTok 在提高词元空间熵、降低量化误差和减少跨领域性能变异性方面的优势。

7.2. 局限性与未来工作

论文作者指出的未来工作方向主要包括：

将 UniTok 扩展为推荐领域基础模型 (foundation models) 的通用词元化接口 (general-purpose tokenization interface)。这意味着 UniTok 可以作为预处理层，为更广泛的推荐任务和 LLM 提供统一的物品表示，从而进一步提升其应用范围和效率。

作者未明确指出的潜在局限性可能包括：

专家数量与领域数量的强绑定: 目前的 TokenMoE 架构中，领域特定专家的数量 $K$ 通常与领域数量对齐。这可能在领域数量非常大或动态变化（即新领域不断出现）时带来挑战，需要重新考虑专家分配或动态扩展机制。
语义信息的定义与捕获: UniTok 依赖于预训练内容编码器生成的语义嵌入。如果初始的语义嵌入质量不高或无法充分捕获某些领域的细微特征，可能会限制 UniTok 的最终性能。
计算资源消耗: 尽管 UniTok 减少了参数量，但 MoE 架构本身，尤其是在推理时激活多个专家，仍可能带来一定的计算开销。对于超大规模的推荐系统，这仍需进一步优化。
超参数敏感性: 虽然论文进行了敏感性分析，但 $L$ 、 $T$ 、 $\lambda_{\mathrm{RQ}}$ 和 $\lambda_{\mathrm{MI}}$ 等超参数的选择对性能有显著影响，这可能需要针对特定应用场景进行仔细调优。

7.3. 个人启发与批判

多领域统一建模的趋势: 这篇论文清晰地展示了在 LLM 时代，将多个领域统一建模的必要性和巨大潜力。传统为每个领域单独训练模型的方法在可扩展性和资源效率上已难以满足需求。UniTok 提供了一个优雅的解决方案，预示着未来推荐系统将更倾向于构建能够处理异构数据的统一架构。
MoE 在推荐系统中的潜力: MoE 架构通常被视为扩展模型容量的有效手段，本文将其创新性地应用于物品词元化，以解决领域异质性问题，这为 MoE 在推荐系统其他模块中的应用提供了新的思路。例如，是否可以构建一个 MoE 驱动的用户表征模块，让不同专家学习用户在不同领域的偏好？
信息理论在模型优化中的指导作用: 互信息校准机制 (MI calibration) 的引入是一个亮点。它从信息理论的角度出发，解决多领域学习中的语义不平衡问题，提供了一个直观且有理论支撑的优化方向。这提醒我们在设计复杂模型时，可以更多地借鉴信息理论来指导正则化和损失函数的设计。
可解释性挑战: 尽管 MoE 提高了性能，但多个专家和路由机制的引入，可能会增加模型的可解释性挑战。用户最终被推荐某个物品，其背后是哪个专家或哪些专家起了主导作用，以及 MI 校准如何影响了最终决策，这些细节可能不易直观理解。未来工作可以探索如何提高这类复杂 MoE 模型的透明度。
实际部署的复杂性: 虽然理论和实验结果令人鼓舞，但 UniTok 在真实世界、高并发、低延迟的推荐系统中的部署可能仍面临工程挑战。例如，TokenMoE 的动态路由和多专家激活如何高效地集成到现有服务框架中，以及如何管理和更新码本。
通用性与领域特定特征的平衡: UniTok 试图在通用性（共享编码器、共享专家）和领域特定性（领域专家、MI 校准）之间取得平衡。这种平衡的艺术是多领域学习的核心。这篇论文在这方面迈出了重要一步，但如何进一步动态调整这种平衡，以适应不同领域之间差异程度的巨大变化，仍值得深入研究。

相似论文推荐

基于向量语义检索推荐的相关论文。

暂时没有找到相似论文。

Tokenize Once, Recommend Anywhere: Unified Item Tokenization for Multi-domain LLM-based Recommendation

TL;DR 精炼摘要

摘要

论文精读

中文精读约 37 分钟读完 · 27,514 字

1. 论文基本信息

1.1. 标题

1.2. 作者

1.3. 发表期刊/会议

1.4. 发表年份

1.5. 摘要

1.6. 原文链接

2. 整体概括

2.1. 研究背景与动机

2.2. 核心贡献/主要发现

3. 预备知识与相关工作

3.1. 基础概念

3.1.1. 混合专家 (Mixture-of-Experts, MoE)

3.1.2. 码本式标识符 (Codebook-based Identifiers) 与残差量化 (Residual Quantization, RQ)

3.2. 前人工作

3.3. 差异化分析

4. 方法论

4.1. 方法原理

4.2. 核心方法详解

4.2.1. 任务定义

4.2.2. 共享自编码器 (Shared Autoencoder)

4.2.3. TokenMoE 模块

4.2.4. 码本式标识符 (Codebook-based Identifiers)

4.2.5. 互信息 (MI) 校准机制 (LMI\mathcal{L}_{\mathrm{MI}}LMI​)

4.2.6. 整体优化目标

4.2.7. UniTok 在 LLM 推荐系统中的实例化

4.3. 理论分析

4.3.1. 定理 1: 词元空间熵

4.3.2. 定理 2: 量化误差

4.3.3. 定理 3: 性能变异性

5. 实验设置

5.1. 数据集

5.2. 评估指标

5.2.1. 召回率 (Recall@M)

5.2.2. 归一化折损累计增益 (NDCG@M)

5.3. 对比基线

5.4. 实现细节

6. 实验结果与分析

6.1. 核心结果分析

6.1.1. UniTok 在多领域推荐中的有效性

6.1.2. UniTok 的效率

6.1.3. UniTok 的泛化能力

6.2. 消融实验/参数分析

6.2.1. UniTok 有效性的组成部分

6.2.2. 敏感性分析 (对关键参数的鲁棒性)

6.3. 理论分析的实证验证

6.3.1. 定理 1: 词元空间熵

6.3.2. 定理 2: 量化误差

6.3.3. 定理 3: 性能变异性

7. 总结与思考

7.1. 结论总结

7.2. 局限性与未来工作

7.3. 个人启发与批判

相似论文推荐

4.2.3. `TokenMoE` 模块

4.2.5. 互信息 (MI) 校准机制 ( $\mathcal{L}_{\mathrm{MI}}$ )

4.2.7. `UniTok` 在 `LLM` 推荐系统中的实例化

6.1.1. `UniTok` 在多领域推荐中的有效性

6.1.2. `UniTok` 的效率

6.1.3. `UniTok` 的泛化能力

6.2.1. `UniTok` 有效性的组成部分