论文状态：已完成

Learnable Item Tokenization for Generative Recommendation

发表：2024/05/12

价格：0.100000

已有 4 人读过

本分析由 AI 生成，可能不完全准确，请以原文为准。

TL;DR 精炼摘要

本文提出了一种可学习的物品分词器LETTER，以解决在生成式推荐中将推荐数据有效转换为大语言模型语言空间的挑战。LETTER整合了层次语义、协同信号和代码分配多样性，通过残差量化变分自编码器、对比对齐损失和多样性损失进行正则化，实验证明其在三个数据集上优于现有方法，推动了基于LLM的推荐技术进步。

摘要

Utilizing powerful Large Language Models (LLMs) for generative recommendation has attracted much attention. Nevertheless, a crucial challenge is transforming recommendation data into the language space of LLMs through effective item tokenization. Current approaches, such as ID, textual, and codebook-based identifiers, exhibit shortcomings in encoding semantic information, incorporating collaborative signals, or handling code assignment bias. To address these limitations, we propose LETTER (a LEarnable Tokenizer for generaTivE Recommendation), which integrates hierarchical semantics, collaborative signals, and code assignment diversity to satisfy the essential requirements of identifiers. LETTER incorporates Residual Quantized VAE for semantic regularization, a contrastive alignment loss for collaborative regularization, and a diversity loss to mitigate code assignment bias. We instantiate LETTER on two models and propose a ranking-guided generation loss to augment their ranking ability theoretically. Experiments on three datasets validate the superiority of LETTER, advancing the state-of-the-art in the field of LLM-based generative recommendation.

思维导图

论文精读

中文精读约 36 分钟读完 · 22,349 字

1. 论文基本信息

1.1. 标题

Learnable Item Tokenization for Generative Recommendation (生成式推荐的可学习物品分词)

1.2. 作者

Wenjie Wang (王文杰), Jizhi Zhang (张吉智), See-Kiong Ng (黄赐琼), Honghui Bao (包宏辉), Xinyu Lin (林欣宇), Fuli Feng (冯福立), Yongqi Li (李永奇), Tat-Seng Chua (蔡德生)
机构:
- 新加坡国立大学 (National University of Singapore)
- 中国科学技术大学 (University of Science and Technology of China)
- 香港理工大学 (The Hong Kong Polytechnic University)

1.3. 发表期刊/会议

ACM International Conference on Information and Knowledge Management (CIKM 24), October 21-25, 2024, Boise, ID, USA.

CIKM (国际信息和知识管理会议) 是数据管理、信息检索和知识管理领域的重要国际会议之一，具有较高的学术声誉和影响力。

1.4. 发表年份

2024

1.5. 摘要

利用强大的大语言模型 (LLMs) 进行生成式推荐引起了广泛关注。然而，一个关键挑战是如何通过有效的物品分词 (item tokenization) 将推荐数据转换到 LLMs 的语言空间。当前的物品标识符方法，如 ID (Identifier)、文本 (textual) 和码本 (codebook) 方法，在编码语义信息、整合协同信号或处理代码分配偏差方面存在缺陷。为了解决这些限制，本文提出了 LETTER (a LEarnable Tokenizer for generaTivE Recommendation，生成式推荐的可学习分词器)，它整合了层次语义 (hierarchical semantics)、协同信号 (collaborative signals) 和代码分配多样性 (code assignment diversity) 来满足标识符的基本要求。LETTER 结合了残差量化变分自编码器 (Residual Quantized VAE, RQ-VAE) 进行语义正则化 (semantic regularization)，对比对齐损失 (contrastive alignment loss) 进行协同正则化 (collaborative regularization)，以及多样性损失 (diversity loss) 来缓解代码分配偏差 (code assignment bias)。本文将 LETTER 应用于两种模型，并提出了一种排名引导生成损失 (ranking-guided generation loss) 以从理论上增强它们的排名能力。在三个数据集上的实验验证了 LETTER 的优越性，推动了基于 LLM 的生成式推荐领域的最新技术发展。

1.6. 原文链接

原文链接: https://arxiv.org/abs/2405.07314
PDF 链接: https://arxiv.org/pdf/2405.07314v3.pdf
发布状态: 预印本 (arXiv:2405.07314v3)，2024年5月12日发布。

2. 整体概括

2.1. 研究背景与动机

2.1.1. 研究背景

近年来，大语言模型 (Large Language Models, LLMs) 在自然语言处理领域取得了显著成功，其强大的世界知识、推理和泛化能力引起了广泛关注。研究人员开始探索将 LLMs 的能力扩展到信息检索和推荐系统领域，特别是生成式推荐 (generative recommendation)。生成式推荐旨在利用 LLMs 根据用户的历史交互生成推荐物品，这为构建超越传统自然语言处理范畴的基础 LLM 提供了可能性。

2.1.2. 核心问题与挑战

生成式推荐的一个核心挑战在于物品分词 (item tokenization)。为了让 LLMs 能够理解和生成推荐物品，需要将每个物品编码成一个标识符（即一个词元序列），从而弥合推荐数据与 LLMs 语言空间之间的鸿沟。现有物品分词方法存在以下具体挑战和空白：

ID 标识符 (ID identifiers):
- 为每个物品分配一个唯一的数值字符串。
- 缺点：无法有效编码语义信息，导致在冷启动 (cold-start) 物品上泛化能力差。
文本标识符 (Textual identifiers):
- 直接使用物品的语义信息（如标题、属性、描述）作为标识符。
- 缺点：
  1. 语义信息未按层次从粗粒度到细粒度分布在词元序列中。这可能导致如果目标物品的起始词元与用户偏好不一致（例如电影标题中的“With”和“Be”），生成概率会很低。
  2. 缺乏来自用户行为的协同信号 (collaborative signals)。词元序列完全由语义信息决定。这意味着语义相似但协同信号不同的物品可能具有相似的词元序列，从而损害了从协同过滤 (Collaborative Filtering, CF) 角度来看的物品独特性。
码本标识符 (Codebook-based identifiers):
- 使用自编码器将物品语义编码成层次化的代码序列。
- 缺点：
  1. 与文本标识符类似，代码序列中仍缺乏协同信号。
  2. 存在代码分配偏差 (code assignment bias)：码本中代码的分配通常是不平衡的，导致高频代码的物品更容易被生成，从而引入物品生成偏差 (item generation bias)。

2.1.3. 本文的切入点与创新思路

针对上述挑战，本文提出了一个理想标识符应满足的三个关键要求：

整合层次语义 (Hierarchical Semantics): 标识符的词元序列应能从粗粒度逐步过渡到细粒度地编码语义信息，以适应生成式推荐的自回归特性。
整合协同信号 (Collaborative Signals): 词元分配应纳入协同信号，确保用户行为中具有相似协同信号的物品也拥有相似的词元序列。
提高代码分配多样性 (Diversity of Token Assignments): 改善词元分配的多样性，以缓解物品生成偏差，确保物品生成的公平性。

基于这些要求，本文提出了 LETTER (a LEarnable Tokenizer for generaTivE Recommendation)，一个可学习的物品分词器，旨在自适应地学习能够同时满足这三个标准的标识符。

2.2. 核心贡献/主要发现

本文的核心贡献总结如下：

提出了 LETTER 框架: 详细分析了理想标识符所需的核心特征，并提出了一个新颖的可学习分词器 LETTER。LETTER 旨在自适应地学习包含层次语义、协同信号和代码分配多样性的标识符。
整合多重正则化机制: LETTER 引入了三种正则化来增强基于码本的标识符：
1. 语义正则化 (Semantic Regularization): 利用 Residual Quantized VAE (RQ-VAE) 将物品语义信息转化为层次化标识符。
2. 协同正则化 (Collaborative Regularization): 通过对比对齐损失将 RQ-VAE 中的语义量化嵌入与经过训练的协同过滤 (CF) 模型（如 LightGCN）的 CF 嵌入对齐，将协同信号注入代码序列。
3. 多样性正则化 (Diversity Regularization): 引入多样性损失，增强代码嵌入的多样性，缓解代码分配偏差和物品生成偏差。
提出了排名引导生成损失 (Ranking-guided Generation Loss): 将 LETTER 应用于两种代表性的生成式推荐模型，并提出了一个理论上增强这些模型排名能力的排名引导生成损失。该损失通过调整传统生成损失中的温度参数，强调对难负样本 (hard-negative samples) 的惩罚。
全面的实验验证: 在三个真实世界数据集上进行了大量实验和深入分析，验证了 LETTER 在基于 LLM 的生成式推荐中优于现有物品分词方法，实现了最先进的性能。

2.3. 关键结论

LETTER 显著提升了基于 LLM 的生成式推荐模型的性能，超越了现有 ID、文本和码本标识符方法。
LETTER 的各个正则化组件（语义、协同、多样性）均能有效提升性能，协同正则化成功地将协同信号整合到代码分配中，多样性正则化有效缓解了代码分配偏差。
排名引导生成损失能够理论上增强生成式推荐模型的排名能力，通过对难负样本的有效处理进一步提升了推荐性能。
超参数分析表明，适中的标识符长度 ( $L=4$ ) 和码本大小 ( $N=256$ ) 结合适当的正则化强度 ( $α=0.02$ , $β=0.0001$ ) 能够取得最佳性能。

3. 预备知识与相关工作

3.1. 基础概念

大语言模型 (Large Language Models, LLMs):
- 概念定义: LLMs 是指拥有数亿甚至数千亿参数的深度学习模型，通常基于 Transformer 架构，通过在海量文本数据上进行预训练学习语言的统计规律、语义理解和生成能力。它们能够执行文本生成、摘要、翻译、问答等多种任务。
- 在推荐中的应用: LLMs 在推荐系统中被用于生成推荐项、理解用户偏好、进行零/少样本推荐等，利用其强大的泛化和推理能力来处理复杂的用户-物品交互。
生成式推荐 (Generative Recommendation):
- 概念定义: 一种推荐范式，其目标是直接生成推荐物品的标识符或描述，而不是像判别式推荐那样预测用户对物品的评分或点击概率。它将推荐问题视为一个序列生成任务，通常利用像 LLMs 这样的生成模型。
- 本文背景: 在本文中，生成式推荐利用 LLMs 根据用户的历史交互序列自回归地生成下一个推荐物品的标识符。
物品分词 (Item Tokenization):
- 概念定义: 将推荐系统中的每个物品（Item）转换成 LLMs 可以理解和处理的离散词元 (token) 序列的过程。这是连接推荐数据和 LLMs 语言空间的关键一步。
- 本文关注点: 本文研究了 ID、文本和码本三种类型的标识符，并提出了一个可学习的分词器 LETTER 来改进物品分词。
自回归生成 (Autoregressive Generation):
- 概念定义: 一种序列生成方式，模型在生成序列中的每个元素时，都会考虑之前已生成的所有元素。例如，在文本生成中，每个词元的生成都依赖于它前面的词元序列。
- 在生成式推荐中的应用: LLMs 在生成物品标识符时，会逐个词元地生成，每个后续词元的生成都基于之前已生成的词元。
协同过滤 (Collaborative Filtering, CF):
- 概念定义: 一种常用的推荐技术，其核心思想是“物以类聚，人以群分”。通过分析用户之间的相似性或物品之间的相似性来生成推荐。例如，如果用户 A 和用户 B 过去对某些物品有相似的偏好，那么用户 A 可能会喜欢用户 B 喜欢但用户 A 尚未接触过的物品。
- 本文应用: LETTER 引入协同正则化，旨在将协同信号整合到物品的词元分配中，使具有相似协同行为的物品拥有相似的标识符。
残差量化变分自编码器 (Residual Quantized VAE, RQ-VAE):
- 概念定义: VAE 是一种生成模型，旨在学习数据的潜在表示并生成新数据。RQ-VAE 是 VAE 的一个变种，它引入了残差量化机制。在 RQ-VAE 中，输入数据（或其残差）被递归地量化成一系列离散的代码。每个量化层处理前一层的残差，从而形成一个层次化的代码序列，能够从粗粒度到细粒度地捕获信息。
- 本文应用: LETTER 利用 RQ-VAE 进行语义正则化，将物品的语义信息编码成具有层次结构的离散代码序列作为标识符。
对比学习 (Contrastive Learning):
- 概念定义: 一种自监督学习方法，通过最大化正样本对（例如，同一数据点的不同视图）之间的一致性，同时最小化负样本对（不同数据点）之间的一致性来学习表示。其目标是使相似的样本在嵌入空间中彼此靠近，不相似的样本彼此远离。
- 本文应用: LETTER 使用对比对齐损失来作为协同正则化，将 RQ-VAE 生成的量化嵌入与 CF 模型学习到的 CF 嵌入进行对齐，以注入协同信号。
LoRA (Low-Rank Adaptation of Large Language Models):
- 概念定义: 一种参数高效微调 (Parameter-Efficient Fine-Tuning, PEFT) 技术。它通过在预训练模型的每一层注入小的、可训练的低秩矩阵来适应特定任务，从而大大减少了需要训练的参数数量，同时保持了与全量微调相当的性能。
- 本文应用: 在 LC-Rec 的微调过程中，为了提高效率，采用了 LoRA 技术来微调 LLaMA-7B。
Trie (前缀树):
- 概念定义: 一种用于存储字符串集合的树形数据结构，可以高效地进行前缀匹配。它的每个节点代表一个字符串的前缀，根节点是空字符串。从根节点到任意节点的路径上的字符序列就是该节点代表的字符串。
- 本文应用: 在生成式推荐的推理阶段，Trie 被用于实现约束生成 (constrained generation)，确保 LLM 仅生成有效的物品标识符。

3.2. 前人工作

本文主要关注基于 LLM 的生成式推荐中的物品分词方法。现有工作主要探索了三种类型的标识符：

ID 标识符 (ID Identifiers):
- 特点: 早期方法通常随机分配 ID ([4, 9, 14, 43])，确保唯一性。
- 局限性: 难以有效编码语义信息和协同模式。为了解决此问题，P5-SemiD [14] 和 P5-CID [14] 等方法尝试利用物品的语义信息（如类别）或协同信号（如物品共现图谱）来构建树状结构以生成 ID。然而，这些固定且不可学习的结构难以高效、有效地表示物品相似性并适应新物品。
- 本文的差异化: LETTER 提出的是一个可学习的、动态适应的标识符生成机制，能够更好地整合多方面信息并进行优化。
文本标识符 (Textual Identifiers):
- 特点: 直接利用物品的详细描述信息（如标题、描述）作为标识符 ([1, 7, 19, 21, 47, 49])。
- 局限性:
  - 语义信息未按层次结构编码，导致生成过程效率低下或不准确。
  - 难以有效整合协同信号。语义相似的物品可能具有非常不同的用户交互模式，但纯文本标识符无法区分。
- 本文的差异化: LETTER 通过 RQ-VAE 引入层次语义编码，并通过协同正则化主动将协同信号整合到标识符的生成中，从而解决语义与协同信号错位的问题。
码本标识符 (Codebook-based Identifiers):
- 特点: 使用自编码器将物品语义编码成离散的代码序列 ([32, 43, 50])。TIGER [32] 引入 RQ-VAE 将语义信息量化为代码序列。LC-Rec [50] 在码本标识符的基础上，增加了辅助对齐任务以更好地利用 LLMs 的知识。
- 局限性:
  - 与文本标识符类似，通常在代码序列中缺乏协同信号，尽管在训练过程中可能会尝试将协同信号注入到代码嵌入中，但这并不能解决代码序列本身的协同信息缺失。
  - 存在代码分配偏差：码本中代码的分配是不平衡的，导致物品生成偏差。例如，LC-Rec 使用 Sinkhorn-Knopp 算法来公平地考虑层内代码，但作者认为其没有触及代码分配的本质——代码嵌入的分布。
- 本文的差异化: LETTER 正是在这些码本方法的基础上进行改进。它通过引入协同正则化，直接影响代码分配以更好地与协同模式对齐，并通过多样性正则化解决代码分配偏差问题，从而提供一个更全面、更优越的标识符生成方案。

3.3. 技术演进与差异化分析

3.3.1. 技术演进

早期推荐系统 (如 MF, Caser, HGN, BERT4Rec, LightGCN, SASRec): 专注于利用用户-物品交互数据来学习隐式表示 (latent representations) 或预测用户偏好。这些模型通常是判别式的，不涉及生成物品标识符。它们为 LETTER 提供了获取协同信号的“工具”（如 LightGCN 和 SASRec 可以提供 CF 嵌入）。
LLM-based 判别式推荐: LLMs 被用于增强传统推荐（如数据增强、表示学习）或直接作为判别式模型进行点击率 (CTR) 预测或匹配打分。这些方法通常不关注物品分词在生成任务中的作用。
LLM-based 生成式推荐的兴起: 随着 LLMs 能力的提升，研究开始转向利用 LLMs 直接生成推荐。这使得物品分词成为一个核心且待解决的问题。
物品分词方法演进:
- ID/文本标识符: 作为最初的尝试，它们面临语义编码不足、缺乏协同信号等问题。
- 码本标识符 (如 TIGER, LC-Rec): 引入了 RQ-VAE 等技术，尝试将语义信息编码成层次化代码。这是 LETTER 的直接前身。
- LETTER: 在码本标识符的基础上，LETTER 系统性地解决了其主要局限性：缺乏协同信号和代码分配偏差。

3.3.2. 差异化分析

LETTER 与现有方法的核心区别和创新点在于它提供了一个可学习的、全面优化的物品分词器，能够同时满足理想标识符的三个关键要求：

层次语义 (Hierarchical Semantics): LETTER 沿用了 RQ-VAE 的优势，将物品的语义信息编码成从粗粒度到细粒度的层次化代码序列。这是对 ID 和多数文本标识符的改进。
协同信号整合 (Collaborative Signal Integration):
- 区别于 ID 和文本标识符: ID 标识符通常无法编码语义或协同信号，文本标识符只依赖语义。
- 区别于现有码本方法 (如 TIGER, LC-Rec): TIGER 和 LC-Rec 注入协同信号的方式通常是在 LLM 训练阶段将协同信号注入词元嵌入，但词元序列本身仍由语义决定。这导致语义相似但协同行为不同的物品可能具有相同的代码序列，造成错位。LETTER 通过协同正则化，在生成标识符阶段就将 CF 嵌入与 RQ-VAE 的量化嵌入对齐，直接影响代码的分配，使得代码序列本身就包含了协同信号，从而从根本上解决了语义与协同信号的错位问题。
代码分配多样性 (Code Assignment Diversity):
- 区别于所有现有方法: ID 和文本标识符可能因其固有限制而面临生成偏差。现有码本方法（包括 TIGER 和 LC-Rec）都存在代码分配不平衡的问题，导致高频代码的物品更容易被生成。
- LETTER 的创新: LETTER 引入了多样性正则化，通过正则化代码嵌入的表示空间，鼓励更均匀的代码分配，从而缓解代码分配偏差和由此产生的物品生成偏差。
  
  总结来说，LETTER 并非简单地叠加现有技术，而是在深入分析现有物品分词方法的局限性后，提出了一套系统性的解决方案，使得生成的物品标识符能够更全面、更有效地捕获物品的内在属性和外部行为，从而显著提升生成式推荐的性能。

4. 方法论

本文提出的 LETTER (a LEarnable Tokenizer for generaTivE Recommendation) 旨在为 LLM 生成式推荐学习一种理想的物品标识符。LETTER 通过整合层次语义、协同信号和代码分配多样性来优化标识符。其核心思想是构建一个可学习的分词器，该分词器能够生成具有这些特性的代码序列作为物品标识符。

4.1. 方法原理

LETTER 的核心原理围绕三个主要目标：

层次语义整合: 确保生成的标识符能从粗粒度到细粒度地编码物品的语义信息，以适应 LLM 的自回归生成特性。这通过 Residual Quantized VAE (RQ-VAE) 实现。
协同信号注入: 使标识符不仅反映语义，还反映用户行为中的协同模式，即语义相似但协同行为不同的物品应有不同的标识符，而协同行为相似的物品应有相似的标识符。这通过协同正则化实现。
代码分配多样性: 缓解码本中代码分配不平衡的问题，确保所有代码都能被更均匀地使用，从而避免物品生成偏差。这通过多样性正则化实现。

这三个目标通过三种不同的损失函数（语义正则化损失 $\mathcal{L}_{\mathrm{Sem}}$ 、协同正则化损失 $\mathcal{L}_{\mathrm{CF}}$ 和多样性正则化损失 $\mathcal{L}_{\mathrm{Div}}$ ）被整合到 LETTER 的训练过程中。训练完成后，LETTER 作为一个物品分词器，可以为生成式推荐模型提供优化的物品标识符，并在 LLM 的微调阶段通过排名引导生成损失 $\mathcal{L}_{\mathrm{rank}}$ 进一步增强排名能力。

4.2. 核心方法详解

LETTER 的训练过程主要包含三个正则化模块：语义正则化、协同正则化和多样性正则化。

4.2.1. 语义正则化 (Semantic Regularization)

为了构建具有层次语义的标识符，LETTER 基于 RQ-VAE [16] 进行设计。RQ-VAE 是一种多级嵌入量化器，它通过递归地量化语义残差（semantic residuals），利用固定数量的码本（codebooks）来自然地实现从粗粒度到细粒度的语义编码。

语义正则化分为两个步骤：语义嵌入提取和语义嵌入量化。

4.2.1.1. 语义嵌入提取 (Semantic Embedding Extraction)

给定一个物品及其内容信息（如标题和描述），首先通过一个预训练的语义提取器（例如 LLaMA-7B [41]）提取物品的语义嵌入 $s$ 。然后，该语义嵌入 $s$ 通过一个编码器 Encoder 被压缩成潜在语义嵌入 $z \in \mathbb{R}^d$ 。 $z = \mathrm{Encoder}(s)$

4.2.1.2. 语义嵌入量化 (Semantic Embedding Quantization)

潜在语义嵌入 $z$ 随后通过 $L$ 级码本（codebooks）被量化成代码序列，其中 $L$ 是标识符的长度。具体来说，对于每个代码级别 $l \in \{1, \dots, L\}$ ，都有一个码本 $Q_l = \{e_i\}_{i=1}^N$ ，其中 $e_i \in \mathbb{R}^d$ 是一个可学习的代码嵌入，而 $N$ 表示码本的大小。残差量化过程可以公式化为： $\left\{ \begin{array}{ll}c_l = \arg \min_i\| \pmb {r}_{l - 1} - \pmb {e}_l\| ^2, & \pmb {e}_l\in Q_l, \\ \pmb {r}_l = \pmb {r}_{l - 1} - \pmb {e}_{rl}, & \end{array} \right. \quad (1)$ 其中：

$c_l$ : 从第 $l$ 级码本 $Q_l$ 中分配的代码索引。
$\pmb {r}_{l - 1}$ : 来自上一级别的语义残差 (semantic residual)。初始时， $\pmb {r}_0 = z$ 。
$\pmb {e}_{rl}$ : 在第 $l$ 级码本 $Q_l$ 中找到的最接近 $\pmb {r}_{l - 1}$ 的代码嵌入。

直观地，在每个代码级别，LETTER 会在码本中找到与当前语义残差最相似的代码嵌入，并将相应的代码索引分配给物品。经过递归量化，最终得到量化标识符 $\tilde{\pmb{r}} = [c_1, c_2, \dots, c_L]$ 和量化嵌入 $\hat{z} = \sum_{l=1}^{L}e_{rl}$ 。这个量化嵌入 $\hat{z}$ 随后被解码器解码为重构的语义嵌入 $\hat{s}$ 。

语义正则化的损失函数定义如下： $\begin{cases} \mathscr{L}_{\mathrm{Sem}} = \mathscr{L}_{\mathrm{Recon}} + \mathscr{L}_{\mathrm{RQ VAE}},\quad \mathrm{where}\\ \begin{cases} \mathscr{L}_{\mathrm{Recon}} = \| s - \hat{s} \| ^2,\\ \mathscr{L}_{\mathrm{RQ VAE}} = \sum_{l = 1}^{L} \| \mathrm{sg}[\pmb{r}_{l - 1}] - e_{rl} \| ^2 + \mu \| \pmb {r}_{l - 1} - \mathrm{sg} [ e_{rl}] \| ^2, \end{cases} \end{cases} \quad (2)$ 其中：

$\mathscr{L}_{\mathrm{Sem}}$ : 语义正则化总损失。
$\mathscr{L}_{\mathrm{Recon}}$ : 重构损失，目标是最小化原始语义嵌入 $s$ 和重构语义嵌入 $\hat{s}$ 之间的距离，确保在潜在空间中保留了物品的关键语义信息。
$\mathscr{L}_{\mathrm{RQ VAE}}$ $L_{RQVAE}$ : RQ-VAE 损失，用于减少所有级别的残差误差，并联合训练编码器和代码嵌入。
- $\mathrm{sg}[\cdot]$ : 停止梯度 (stop-gradient) 操作 [42]，这意味着在反向传播时，这个操作前面的梯度不会流过它。
- $\mu$ : 平衡代码嵌入优化和编码器优化强度的系数。通过语义正则化，代码序列能够编码层次语义，有助于从粗粒度到细粒度的生成，并支持冷启动泛化。

4.2.2. 协同正则化 (Collaborative Regularization)

为了将协同信号注入到代码序列中（而不仅仅是代码嵌入中），本文引入了协同正则化。它通过对比学习来对齐量化嵌入 $\hat{z}$ 和 CF 嵌入。

具体来说，本文使用一个高效的非密集词模型（如 SASRec [15] 和 LightGCN [11]）来获取物品的 CF 嵌入，然后通过一个 CF 损失来对齐这些 CF 嵌入和量化嵌入 $\hat{z}$ ： $\mathcal{L}_{\mathrm{CF}} = -\frac{1}{B}\sum_{i = 1}^{B}\frac{\exp(< \hat{z}_i,\mathbf{h}_i>)}{\sum_{j = 1}^{B}\exp(< \hat{z}_i,\mathbf{h}_j>)}, \quad (3)$ 其中：

$\mathcal{L}_{\mathrm{CF}}$ : 协同正则化损失。
$B$ : 批次大小 (batch size)。
$\hat{z}_i$ : 批次中第 $i$ 个物品的量化嵌入。
$\mathbf{h}_i$ : 批次中第 $i$ 个物品的 CF 嵌入。
$< \cdot ,\cdot>$ : 内积操作，用于计算嵌入之间的相似度。
$\exp(< \hat{z}_i,\mathbf{h}_i>)$ / \sum_{j = 1}^{B}\exp(< \hat{z}_i,\mathbf{h}_j>) : 这类似于对比学习中的 softmax 交叉熵损失，旨在最大化 $\hat{z}_i$ 与其对应正样本 $\mathbf{h}_i$ 之间的相似度，同时最小化与批次中其他负样本 $\mathbf{h}_j$ 之间的相似度。

协同正则化鼓励具有相似协同交互的物品表现出相似的代码序列。与 TIGER [32] 等仅依赖语义生成标识符的方法不同，LETTER 通过优化量化嵌入来注入协同信号，从而改变代码分配，使其更好地与协同模式对齐。

4.2.3. 多样性正则化 (Diversity Regularization)

为了解决代码分配偏差导致物品生成偏差的问题，目标是学习一个更均匀的代码嵌入分布。如图 5 (原文 Figure 5) 所示，偏倚的代码嵌入分布更容易导致潜在空间中代码分配的偏倚，即某些代码被分配给更多物品。相反，均匀的代码嵌入分布有助于更平衡的代码分配。因此，LETTER 旨在通过多样性正则化来提高代码嵌入的多样性，实现多样化的代码分配。

具体而言，对于每个码本，LETTER 首先通过约束 K-means [3] 将代码嵌入聚类为 $K$ 个组。然后，通过多样性损失对聚类后的代码嵌入进行正则化，多样性损失定义为： $\mathcal{L}_{\mathrm{Div}} = \sum_{i = 1}^{N}\sum_{j \in \mathcal{C}_i}\mathrm{exp}(< \pmb{e}_i, \pmb{e}_j >) + \sum_{i = 1}^{N}\sum_{j \notin \mathcal{C}_i}\mathrm{exp}(-< \pmb{e}_i, \pmb{e}_j >), \quad (4)$ 这里，原文提供公式 (4) 时，直接在公式中使用了符号 $\epsilon_+$ 和 $\pmb{e}_{I\in \{1,\dots ,N\} \setminus c_{I}}$ ，并在公式上方的文本中对这些符号进行了说明。为了忠实于原文，我们在此处复述原文的符号说明，并指出原文公式 (4) 实际呈现的是一个对比学习形式的多样性损失，其目的在于拉近同类嵌入，推远异类嵌入。

根据原文的描述，多样性损失的直观理解如下：

$\pmb{e}_{ij}^{i}$ : 物品 $I$ 的最近代码嵌入 (原文在公式前描述为 $\epsilon_+$ 和 $\pmb{e}_{I\in \{1,\dots ,N\} \setminus c_{I}}$ ，但在公式4中并未直接使用，这可能是原文在描述和公式之间存在细微不一致的地方。为忠实原文，我们在此处沿用原文对公式的描述)。
$\epsilon_+$ : 随机选择的来自代码 $c_I$ 所在同一聚类的样本的代码嵌入。
$\pmb{e}_{I\in \{1,\dots ,N\} \setminus c_{I}}$ : 除了 $\pmb{e}_{iT}$ (原文可能写错，应为 $\pmb{e}_I$ 或 $e_{rl}$ ) 之外，来自码本的所有代码嵌入。

直观地，如图 4 (原文 Figure 4) 所示，多样性正则化旨在将来自同一聚类的代码嵌入拉得更近，并将来自不同聚类的代码嵌入推得更远。这鼓励代码嵌入的多样性，从而缓解代码分配偏差问题。

4.2.4. 总体损失函数 (Overall Loss)

LETTER 的总训练损失函数总结如下： $\mathcal{L}_{\mathrm{LETTER}} = \mathcal{L}_{\mathrm{Sem}} + \alpha \mathcal{L}_{\mathrm{CF}} + \beta \mathcal{L}_{\mathrm{Div}}, \quad (5)$ 其中：

$\mathcal{L}_{\mathrm{LETTER}}$ : LETTER 的总损失。
$\mathcal{L}_{\mathrm{Sem}}$ : 语义正则化损失。
$\mathcal{L}_{\mathrm{CF}}$ : 协同正则化损失。
$\mathcal{L}_{\mathrm{Div}}$ : 多样性正则化损失。
$\alpha$ 和 $\beta$ : 控制协同正则化和多样性正则化强度的超参数。

4.2.5. 实例化 (Instantiation)

在 LETTER 训练完成后，它作为一个物品分词器，可以用于 LLM 生成式推荐模型的训练和推理阶段。

4.2.5.1. 训练阶段 (Training)

生成式推荐模型的训练包括物品分词和模型优化阶段。

物品分词: 使用训练好的 LETTER 将每个物品索引成标识符 $\hat{i} = [c_1, c_2, \ldots, c_L]$ 。
用户交互序列转换: 用户的交互历史序列被转换为基于这些物品标识符的序列。形式上，数据集 $\mathcal{D} = \{(x, y)\}$ ，其中 $x = [\hat{i}_1, \hat{i}_2, \dots, \hat{i}_M]$ 表示用户按时间顺序交互过的物品序列，而 $y = \hat{i}_{M+1}$ 表示用户下一个交互物品的标识符。

4.2.5.2. 排名引导生成损失 (Ranking-guided Generation Loss)

现有的工作通常通过最小化负对数似然 (negative log-likelihood) 的生成损失来优化 LLMs。尽管这种生成损失在许多领域有效，但它可能忽略了对所有物品的排名优化，从而损害推荐性能。为此，本文提出了排名引导生成损失，它通过调整传统生成损失中的温度参数 $\bar{\tau}$ 来强调对难负样本的惩罚，从而增强生成式推荐模型的排名能力。

形式上，排名引导生成损失定义为： $\mathcal{L}_{\mathrm{rank}} = -\sum_{t=1}^{|y|} \log P_\theta(y_t | y_{<t}, x) = -\sum_{t=1}^{|y|} \log \frac{\exp(p(y_t) / \bar{\tau})}{\sum_{v \in \mathcal{V}} \exp(p(v) / \bar{\tau})}, \quad (6)$ 其中：

$\mathcal{L}_{\mathrm{rank}}$ : 排名引导生成损失。
$|y|$ : 目标标识符 $y$ 的长度。
$y_t$ : 目标标识符 $y$ 的第 $t$ 个词元。
$y_{<t}$ : $y_t$ 之前的词元序列。
$x$ : 用户的历史交互序列。
$P_\theta(y_t | y_{<t}, x)$ : 生成模型在给定历史 $x$ 和前缀 $y_{<t}$ 的情况下，生成词元 $y_t$ 的概率。
p(v): 词元 $v$ 的 logit (未经归一化的预测分数)。
$\mathcal{V}$ : 词元词汇表 (token vocabulary)。
$\bar{\tau}$ : 可调节的温度参数，用于惩罚难负样本。

命题 1 (PROPOSITION 1): 对于给定的排名引导生成损失 $\mathcal{L}_{\mathrm{rank}}$ 和参数 $\bar{\tau}$ ，以下声明成立：

最小化 $\mathcal{L}_{\mathrm{rank}}$ 等价于优化用户的难负样本，其中较小的 $\bar{\tau}$ 会加剧对难负样本的惩罚。
$\mathcal{L}_{\mathrm{rank}}$ 的最小化与单向部分 AUC (one-way partial AUC) 的优化相关 [36]，这与 Recall 和 NDCG 等排名指标强相关，最终导致 top-K 排名能力的提升。

该命题的证明在附录 7 中给出。

4.2.5.3. 推理阶段 (Inference)

为了生成下一个物品，生成式推荐模型自回归地生成代码序列，形式为 \hat{y}_t = \arg \max_{v \in \mathcal{V}} P_\theta(v | y_{<t}, x)。为了确保生成有效的标识符，本文遵循 [14] 的方法，采用约束生成 (constrained generation) [8]，即利用 Trie (前缀树) [5] 来支持模型在自回归生成过程中找到所有严格有效的后继词元。

5. 实验设置

5.1. 数据集

实验使用了三个真实世界的推荐数据集，涵盖不同领域：

Instruments (乐器): 来自 Amazon 评论数据集 [29]，包含用户与丰富音乐设备之间的交互。
Beauty (美妆): 来自 Amazon 评论数据集 [29]，包含用户与大量美妆产品之间的交互。
Yelp: 一个流行的数据集，包含 Yelp 平台上的商业交互。

数据预处理: 遵循以往工作 [15, 32] 的预处理技术，剔除交互次数少于 5 的稀疏用户和物品。采用序列推荐设置，并使用留一法 (leave-one-out strategy) [32, 50] 划分数据集。在训练时，遵循 [14, 50] 的方法，将用户历史交互物品数量限制为 20。

5.2. 评估指标

使用两个常用的排名指标进行评估：

Recall@K (R@K):
- 概念定义: 衡量在推荐列表的前 $K$ 个物品中，有多少用户实际交互过的目标物品被成功召回。它关注的是模型找到相关物品的能力，而不考虑它们在列表中的具体位置。
- 数学公式: $\mathrm{Recall@K} = \frac{\sum_{u \in U} \mathbb{I}(y_u \in \mathrm{TopK}_u)}{\sum_{u \in U} 1}$
- 符号解释:
  - $U$ : 所有用户的集合。
  - $y_u$ : 用户 $u$ 实际交互的下一个目标物品。
  - $\mathrm{TopK}_u$ : 模型为用户 $u$ 生成的排名靠前的 $K$ 个推荐物品列表。
  - $\mathbb{I}(\cdot)$ : 指示函数，如果条件为真则为 1，否则为 0。
  - $\sum_{u \in U} 1$ : 用户总数。
NDCG@K (Normalized Discounted Cumulative Gain@K):
- 概念定义: 一种常用的排名质量评估指标，不仅考虑了相关物品是否被召回，还考虑了它们在推荐列表中的位置。相关物品排在前面会获得更高的分数，排名越靠后分数越低。通过与理想排名（所有相关物品都排在最前面）进行归一化，使得不同长度的推荐列表和不同数量的相关物品之间可以进行比较。
- 数学公式: $\mathrm{DCG@K} = \sum_{i=1}^{K} \frac{2^{\mathrm{rel}_i} - 1}{\log_2(i+1)}$ $\mathrm{IDCG@K} = \sum_{i=1}^{K} \frac{2^{\mathrm{rel}_{i}^{ideal}} - 1}{\log_2(i+1)}$ $\mathrm{NDCG@K} = \frac{\mathrm{DCG@K}}{\mathrm{IDCG@K}}$
- 符号解释:
  - $K$ : 推荐列表的长度。
  - $\mathrm{rel}_i$ : 推荐列表第 $i$ 个位置的物品与目标物品的相关性得分（在二元相关性场景中，如果物品是目标物品则为 1，否则为 0）。
  - $\mathrm{rel}_{i}^{ideal}$ : 理想推荐列表第 $i$ 个位置物品的相关性得分（通常是按相关性降序排列后的得分）。
  - $\mathrm{DCG@K}$ : 折扣累积增益。
  - $\mathrm{IDCG@K}$ : 理想折扣累积增益。
  - $\mathrm{NDCG@K}$ : 归一化折扣累积增益。
    
    本文中， $K$ 值设置为 5 和 10。

5.3. 对比基线

实验将 LETTER 与两组竞争性的基线模型进行了比较：传统推荐模型和 LLM 生成式推荐模型，这些模型使用了不同类型的标识符。

5.3.1. 传统推荐模型

MF (Matrix Factorization) [35]: 通过将用户-物品交互分解为用户嵌入和物品嵌入来学习潜在空间表示。
Caser (Context-Aware Sequential Recommendation) [40]: 使用卷积神经网络 (CNNs) 捕获用户的空间和位置信息进行序列推荐。
HGN (Hierarchical Gating Networks) [28]: 利用图神经网络 (GNNs) 学习用户和物品表示以预测用户-物品交互。
BERT4Rec (Bidirectional Encoder Representations from Transformers for Recommendation) [37]: 借鉴 BERT 的预训练语言表示，捕获用户-物品之间的语义关系进行序列推荐。
LightGCN (Light Graph Convolution Network) [11]: 一个轻量级图卷积网络模型，专注于用户和物品之间的高阶连接。
SASRec (Self-Attentive Sequential Recommendation) [15]: 采用自注意力机制捕获用户交互历史中的长期依赖关系。

5.3.2. LLM-based 生成式推荐模型

这些模型根据使用的标识符类型进一步细分：

文本标识符 (Textual Identifiers): 7. BIGRec [1]: 一个基于 LLM 的生成式推荐模型，使用文本标识符（每个物品由其标题表示）。 8. P5-TID (P5 with Textual ID) [14]: 使用物品标题作为文本标识符的 LLM 生成式推荐模型。

ID 标识符 (ID Identifiers): 9. P5-SemiD (P5 with Semi-structured ID) [14]: 利用物品元数据（如属性）构建 ID 标识符的 LLM 生成式推荐模型。 10. P5-CID (P5 with Collaborative ID) [14]: 通过从物品共现图谱导出的谱聚类树 (spectral clustering tree) 将协同信号整合到标识符中，用于 LLM 生成式推荐模型。

码本标识符 (Codebook-based Identifiers): 11. TIGER [32]: 引入通过 RQ-VAE 构建的码本标识符，将语义信息量化为代码序列，用于 LLM 生成式推荐。 12. LC-Rec [50]: 使用码本标识符和辅助对齐任务，通过将生成的代码序列与自然语言连接起来，更好地利用 LLMs 中的知识。

5.4. 实现细节

LETTER 实例化: LETTER 被实例化在两个代表性的 LLM 生成式推荐模型上：TIGER [32] 和 LC-Rec [50]。
TIGER 实现: 由于官方实现尚未发布，遵循论文中的描述进行实现。
LC-Rec 实现: 采用参数高效微调 (Parameter-Efficient Fine-Tuning, PEFT) 技术 LoRA [12] 来微调 LLaMA-7B [41]。
物品语义嵌入: 遵循 [50] 的方法，使用 LLaMA-7B 编码物品内容信息以获取语义嵌入。
CF 嵌入: 从 SASRec [15] 获取 32 维的物品嵌入，用于协同正则化。
多样性正则化: 集群数量 $K$ 设置为 10。
硬件: 所有实验在 4 块 NVIDIA RTX A5000 GPU 上进行。
LETTER 训练参数:
- 码本: 使用 4 级码本 (4-level codebooks)，每个码本包含 256 个 32 维的代码嵌入。
- 训练周期: 20,000 个 epoch。
- 优化器: AdamW [27]。
- 学习率: 1e-3。
- 批次大小: 1,024。
- 超参数: $\mu$ 设置为 0.25 (遵循 [32])。
- 搜索范围: $\alpha \in \{1e-1, 2e-2, 1e-2, 1e-3\}$ ； $\beta \in \{1e-2, 1e-3, 1e-4, 1e-5\}$ 。
LLM 微调参数: LETTER 训练完成后，根据验证性能对 TIGER 和 LC-Rec 进行微调直至收敛。
- 学习率: TIGER 使用 $\{1e-3, 5e-4\}$ ；LC-Rec 使用 $\{1e-4, 2e-4, 3e-4\}$ 。

6. 实验结果与分析

6.1. 核心结果分析 (RQ1)

本文在两个 SOTA LLM 生成式推荐模型 (TIGER 和 LC-Rec) 上实例化了 LETTER。表 1 报告了 LETTER 在 TIGER (LETTER-TIGER) 和 LC-REC (LETTER-LC-REC) 上的性能，并与各种基线模型进行了比较。

表 1: 基线模型与 LETTER 在三个数据集上实例化到两个竞争性 LLM 生成式推荐模型上的总体性能比较。粗体结果突出显示了与未集成 LETTER 的后端模型相比的更优性能。

Model	Instruments				Beauty				Yelp
Model	R@5	R@10	N@5	N@10	R@5	R@10	N@5	N@10	R@5	R@10	N@5	N@10
MF	0.0479	0.0735	0.0330	0.0412	0.0294	0.0474	0.0145	0.0191	0.0220	0.0315	0.0121	0.0160
Caser	0.0543	0.0710	0.0355	0.0409	0.0205	0.0347	0.0131	0.0176	0.0150	0.0210	0.0084	0.0108
HGN	0.0813	0.1048	0.0668	0.0774	0.0325	0.0512	0.0206	0.0266	0.0186	0.0244	0.0093	0.0119
Bert4Rec	0.0671	0.0822	0.0560	0.0608	0.0203	0.0347	0.0124	0.0170	0.0186	0.0260	0.0099	0.0132
LightGCN	0.0794	0.1000	0.0662	0.0728	0.0305	0.0511	0.0194	0.0260	0.0248	0.0321	0.0135	0.0169
SASRec	0.0751	0.0947	0.0627	0.0690	0.0380	0.0588	0.0246	0.0313	0.0183	0.0249	0.0096	0.0125
BIGRec	0.0513	0.0576	0.0470	0.0491	0.0243	0.0299	0.0181	0.0198	0.0154	0.0171	0.0123	0.0130
P5-TID	0.0000	0.0001	0.0000	0.0000	0.0182	0.0432	0.0132	0.0254	0.0184	0.0255	0.0101	0.0130
P5-SemiD	0.0775	0.0964	0.0669	0.0730	0.0393	0.0584	0.0273	0.0335	0.0202	0.0269	0.0116	0.0145
P5-CID	0.0809	0.0987	0.0695	0.0751	0.0404	0.0597	0.0284	0.0347	0.0219	0.0288	0.0125	0.0154
TIGER	0.0870	0.1058	0.0737	0.0797	0.0395	0.0610	0.0253	0.0321	0.0262	0.0331	0.0142	0.0173
LETTER-TIGER	0.0909	0.1122	0.0763	0.0831	0.0431	0.0672	0.0286	0.0364	0.0277	0.0360	0.0152	0.0187
LC-Rec	0.0824	0.1006	0.0712	0.0772	0.0443	0.0642	0.0311	0.0374	0.0230	0.0301	0.0125	0.0156
LETTER-LC-Rec	0.0913	0.1115	0.0789	0.0854	0.0505	0.0703	0.0355	0.0418	0.0255	0.0337	0.0142	0.0175

从表 1 中可以得出以下关键观察结果：

LLM-based 模型优于传统模型: 总体而言，LLM 生成式推荐模型（如 BIGRec, P5 系列, TIGER, LC-Rec 及其 LETTER 增强版）在大多数情况下表现优于传统推荐模型（如 MF, Caser, HGN, BERT4Rec, LightGCN, SASRec）。这表明 LLMs 在处理推荐任务方面具有巨大潜力。
ID 标识符的比较: 在 LLM 模型中，使用 ID 标识符的 P5-CID 通常优于 P5-SemiD。这是因为 P5-SemiD 基于物品类别（如“弦乐器”和“键盘”），可能无法捕获细粒度语义信息，并且由于语义和协同信号之间存在错位，阻碍了 LLMs 在微调阶段学习协同行为。相比之下，P5-CID 利用物品共现图谱中的协同信号来分配标识符，这有利于 LLM 捕获协同模式。
码本标识符的优势: 在所有 LLM 基线中，使用码本标识符的模型（TIGER 和 LC-Rec）在大多数情况下优于 ID 标识符模型（P5-SemiD 和 P5-CID）以及文本标识符模型（BIGRec 和 P5-TID）。这归因于 RQ-VAE 能够整合不同粒度的层次语义，通过捕捉细粒度细节更有效地区分相似物品。而 BIGRec 和 P5-TID 文本标识符性能较差，可能是由于物品的相似语义和不相似交互之间存在潜在的错位，这损害了协同信号的学习。
LETTER 的显著优越性: LETTER 始终在两个后端模型 (TIGER 和 LC-Rec) 上展示出显著的性能提升，跨越所有三个数据集。这验证了 LETTER 方法的有效性。这种优越性能归因于：
1. 在代码分配过程中整合 CF 信号，对齐协同信号和语义嵌入，从而鼓励具有相似交互或语义的物品拥有相似的代码序列，解决了语义和协同信号之间的错位问题。
2. 提高了词元分配的多样性，通过正则化代码嵌入的表示空间来实现，从而缓解了由代码分配偏差引起的物品生成偏差。

6.2. 深入分析

6.2.1. 消融实验 (RQ2)

为了全面探究 LETTER 中每个正则化组件的效果，本文对 TIGER 上的 LETTER 进行了以下五种变体的比较：

(0) TIGER: 仅采用语义正则化进行物品分词（等同于原始 TIGER 模型）。
(1) TIGER w/ c. r.: 包含语义正则化和协同正则化。
(2) TIGER w/ d. r.: 包含语义正则化和多样性正则化。
(3) (1) w/ d. r.: 包含语义、协同和多样性正则化，并使用原始生成损失训练 TIGER。
(4) LETTER-TIGER: 采用所有三种正则化进行物品分词，并应用排名引导生成损失。

表 2: LETTER-TIGER 的消融研究。

Variants	Instruments		Beauty
Variants	R@10	N@10	R@10	N@10
(0): TIGER	0.1058	0.0797	0.0610	0.0331
(1): TIGER w/ c. r.	0.1078	0.0810	0.0660	0.0351
(2): TIGER w/ d. r.	0.1075	0.0809	0.0618	0.0335
(3): (1) w/ d. r.	0.1092	0.0819	0.0672	0.0357
(4): LETTER-TIGER	0.1122	0.0831	0.0672	0.0364

从表 2 中，可以得出以下关键观察：

协同和多样性正则化的有效性: 无论是单独引入协同正则化 (TIGER w/ c. r.) 还是多样性正则化 (TIGER w/ d. r.)，都能提升 TIGER 的性能。这验证了将协同信号注入代码分配和提高代码嵌入多样性的有效性。
所有正则化的协同效应: 结合所有三种正则化 ( $(1) w/ d. r.$ ) 会进一步提升性能，表明在代码分配中同时考虑语义和协同信息，并提高多样性是有效的。
排名引导生成损失的效果: LETTER-TIGER（即 $(4)$ ）实现了最佳性能，这表明利用排名引导生成损失，通过改变温度惩罚难负样本，能够有效增强模型的排名能力。

6.2.2. 代码分配分布 (RQ2)

本文进一步探讨了多样性正则化是否能有效缓解物品分词中的代码分配偏差。通过比较 TIGER 在有无多样性正则化下的第一个代码分配分布（图 6 左），以及 TIGER 在协同正则化下有无多样性正则化（图 6 右）的第一个代码分配分布。

图 6: Instruments 数据集上更平滑代码分配分布的说明。左图比较了 TIGER 和带有多样性正则化的 TIGER 的代码分配，右图比较了带有协同正则化的 TIGER 和 LETTER。 “reg”表示“regularization”。图片：images/6.jpg

从图 6 中可以观察到：

多样性正则化促进均匀分布: 引入多样性正则化能够有效促进第一个代码的更均匀分布，从而缓解代码分配偏差，并有望减轻生成式推荐模型的物品生成偏差。
代码利用率提升: 多样性正则化显著提高了第一级码本中代码的利用率，从而改善了代码分配的多样性。
协同与多样性的平衡: 尽管添加协同正则化会降低 TIGER 的代码利用率（从 148 降至 76），但整合多样性正则化反而补偿了代码利用率的下降。因此，LETTER 能够同时捕获协同信号并保持较高的代码利用率，同时满足理想标识符的多个标准。

6.2.3. 代码嵌入分布 (RQ2)

为了分析多样性正则化是否能缓解代码嵌入的偏倚分布，本文可视化了 LETTER 在有和无多样性正则化下的代码嵌入。通过 PCA 将第一级码本的代码嵌入降维到 3 维空间进行可视化。

图 7: LETTER 在 Instruments 数据集上有和无多样性正则化时的代码嵌入分布。 图片：images/7.jpg

如图 7 所示，比较 (a) LETTER w/o 多样性正则化和 (b) LETTER，可以发现 LETTER 的第一个代码嵌入在嵌入表示空间中分布更均匀，相比之下，未引入多样性正则化时分布更集中。这验证了多样性正则化在实现代码嵌入在表示空间中更具多样性分布的有效性，从根本上缓解了图 5(a) 中代码分配偏倚的问题。

6.2.4. 标识符中协同信号的探究 (RQ2)

为了验证 LETTER 是否如预期那样将协同信号编码到标识符中，本文设计了两个实验进行分析。

6.2.4.1. 排名实验 (Ranking Experiment)

目的: 评估 LETTER 利用物品的量化嵌入进行交互预测的排名性能。
方法: 首先从训练好的分词器中获取物品的量化嵌入 $\hat{\mathbf{z}}$ 。然后，用这些量化嵌入替换训练好的传统 CF 模型（即 SASRec）的物品嵌入进行交互预测。直观地，如果标识符能有效捕获协同信号，则会导致更好的排名性能。

表 3: 量化嵌入的排名性能。

Dataset	Model	R@5	R@10	N@5	N@10
Instruments	TIGER LETTER	0.0050	0.0150	0.0024	0.0049
Instruments	LETTER	0.0080	0.0159	0.0038	0.0058
Beauty	TIGER LETTER	0.0128	0.0213	0.0064	0.0085
Beauty	LETTER	0.0175	0.0343	0.0076	0.0118

从表 3 中可以观察到，LETTER 显著优于 TIGER，表明 LETTER 有效地整合了协同信号。

6.2.4.2. 相似性实验 (Similarity Experiment)

目的: 验证具有相似协同信号的物品是否具有相似的标识符。
方法: 首先根据预训练 CF 嵌入的相似度，将每个物品与其最相似的物品配对。然后，评估这些物品对之间代码序列的相似度。具体来说，测量两个物品代码序列的重叠程度，并报告所有物品的平均结果。

表 4: 具有相似协同信号的物品之间的代码相似度。

	Instruments	Beauty
TIGER LETTER	0.0849	0.1135
LETTER	0.2760	0.3312

从表 4 中可以看出，LETTER 为具有相似协同信号的物品实现了更相似的代码序列，这表明它缓解了语义和协同相似度之间的错位问题。

6.2.5. 超参数分析 (RQ3)

本文进一步探究了 LETTER 中几个重要超参数对性能的影响。

图 5: LETTER-TIGER 在 Instruments 数据集上不同超参数下的性能。 图片：images/5.jpg

6.2.5.1. 标识符长度 $L$ (Identifier Length $L$ )

观察:
- 将 $L$ 从 2 增加到 4 时，性能有所提升。过短的标识符可能丢失细粒度信息，导致表达能力不足。
- 将标识符长度从 4 持续增加到 8 时，性能反而下降。这是因为自回归生成会受到误差累积 [34] 的影响。由于准确的物品生成需要序列中所有生成代码的正确性，生成更长的标识符比生成更短的标识符更具挑战性。
结论: 适中的标识符长度（如 $L=4$ ）能够平衡表达能力和生成难度。

6.2.5.2. 码本大小 $N$ (Codebook Size $N$ )

观察:
- 逐渐增加 $N$ 往往能带来更好的性能。小码本可能导致代码选择的多样性有限，无法有效区分物品。
- 盲目扩大 $N$ 可能反而损害性能。较大的码本可能更容易受到物品语义信息中噪声的影响，可能导致某些无意义语义的过拟合。
结论: 需要选择一个合适的码本大小，例如 $N=256$ 能够提供足够的代码多样性，同时避免过拟合。

6.2.5.3. 协同正则化强度 $\alpha$ (Strength of Collaborative Regularization $\alpha$ )

观察:
- 随着 $\alpha$ 的持续增加，性能总体上呈现提升趋势。较大的 $\alpha$ 意味着更强的协同模式注入。
- 但过大的 $\alpha$ 可能会干扰语义正则化。
结论: 经验上，推荐将 $\alpha$ 设置为 0.02，因为它可能在语义和协同正则化之间达到适当的平衡，从而带来最佳性能。

6.2.5.4. 多样性正则化强度 $\beta$ (Strength of Diversity Regularization $\beta$ )

观察:
- 应用微弱的多样性正则化（从 $\beta=0.00001$ 到 $\beta=0.0001$ ）足以增强代码分配的多样性并带来显著改进。
- 相反，过多的多样性信号可能会干扰分词器整合语义和协同信号。
结论: 多样性正则化需要谨慎调整，一个较小的 $\beta$ 值（如 0.0001）通常足够有效。

6.2.5.5. 聚类 $K$ (Cluster $K$ )

观察:
- 当 $K$ 值偏离 10 时（无论是减少还是增加），性能往往会下降。
结论: 过大的聚类包含过多的代码嵌入，导致同一聚类内的嵌入不够接近；而过小的聚类包含的代码嵌入相对较少，导致同一聚类内的嵌入过于接近。因此，选择一个合适的 $K$ 值（如 $K=10$ ）对于多样性正则化至关重要。

6.2.5.6. 温度 $\bar{\tau}$ (Temperature $\bar{\tau}$ )

观察:
- 将 $\bar{\tau}$ 从 1.2 降低到 0.7 时，性能往往会下降。这是因为降低温度会更强调对难负样本的惩罚，从而增强排名能力，提高推荐性能。
结论: 应仔细选择 $\bar{\tau}$ ，因为过小的 $\bar{\tau}$ 可能会抑制难负样本被视为其他用户的正样本的可能性。

7. 总结与思考

7.1. 结论总结

本研究对生成式推荐中物品分词所需的最佳特征进行了深入分析。在此基础上，本文提出了 LETTER (a LEarnable Tokenizer for generaTivE Recommendation)，这是一个可学习的分词器，它通过引入三种正则化机制来捕捉物品标识符中的层次语义、协同信号和代码分配多样性。具体而言：

语义正则化利用 RQ-VAE 编码层次语义。
协同正则化通过对比对齐损失将量化嵌入与 CF 嵌入对齐，注入协同信号。
多样性正则化通过多样性损失缓解代码分配偏差。

本文将 LETTER 应用于 TIGER 和 LC-Rec 两个主流的生成式推荐模型，并提出了排名引导生成损失以理论上增强它们的排名能力。在 Instruments、Beauty 和 Yelp 三个数据集上的大量实验验证了 LETTER 在物品分词方面的优越性，显著提升了生成式推荐模型的性能。

7.2. 局限性与未来工作

本文指出了以下局限性并提出了未来的研究方向：

更丰富的用户行为: 目前的物品分词主要关注物品本身的特征和协同信号。未来的工作可以探索如何将更丰富的用户行为（例如，多种类型的交互、时间上下文、情感等）纳入物品分词过程，以使生成式推荐模型能够从多维度的用户行为中推断用户偏好。
跨领域物品分词: LETTER 有潜力扩展到跨领域 (cross-domain) 物品的泛化推荐。未来的研究可以探索如何利用 LETTER 分词跨领域的物品，从而使生成式推荐模型能够利用多领域的用户行为和物品进行用户偏好推理和下一个物品推荐。
结合自然语言指令: 将自然语言中的用户指令与通过 LETTER 分词的用户交互历史相结合，有望实现更个性化的推荐。这有助于生成式推荐模型在复杂的自然语言指令和物品词元空间中进行协同推理。

7.3. 个人启发与批判

7.3.1. 个人启发

分词器设计的核心地位: 这篇论文强调了在 LLM 时代，物品分词器 (tokenizer) 在推荐系统中的核心地位。以往我们可能更多关注 LLM 本身的结构和微调，但如何有效地将推荐领域的特定数据（物品）转换为 LLM 可理解的“语言”，是决定性能上限的关键。LETTER 的成功表明，一个精心设计的、能够整合多模态信息的专业分词器，其重要性不亚于 LLM 架构本身。
多模态信息融合的系统性方法: LETTER 巧妙地将层次语义、协同信号和多样性约束整合到一个统一的可学习框架中。这种系统性的设计思路值得借鉴，即在设计复杂系统时，不是简单地将不同类型的特征拼接，而是通过精心设计的正则化和损失函数，在学习过程中强制模型去捕获和平衡这些关键信息。
解决“失配”问题的重要性: 论文提出的语义与协同信号失配问题，以及代码分配偏差问题，是深度学习模型在实际应用中经常遇到的“隐性问题”。LETTER 明确识别并针对性地提出了解决方案，这提醒我们除了追求模型本身的表达能力，还应关注数据在不同表示空间中的一致性和公平性。
排名引导生成损失的通用性: 排名引导生成损失的提出，理论上增强了生成模型的排名能力。这种将判别式（排名）目标融入生成式训练的思路，对于其他生成任务（如文本摘要、图像生成）中需要兼顾某种“质量”指标的场景，也可能具有借鉴意义。它提供了一种将特定任务的评估指标（如 AUC，Recall，NDCG）间接优化到生成模型中的方法。

7.3.2. 批判

超参数敏感性: 虽然论文进行了超参数分析，但 LETTER 引入了多个超参数 ( $\alpha$ , $\beta$ , $L$ , $N$ , $K$ , $\bar{\tau}$ )。在实际应用中，这些超参数的调优可能非常耗时且复杂，尤其是在新的数据集和领域上。其鲁棒性仍需进一步验证。
计算成本与效率: 结合 RQ-VAE、对比学习、以及 LLM 的微调，LETTER 的训练过程可能需要大量的计算资源和时间。尽管 LoRA 可以提高 LLM 微调的效率，但整个端到端流程的实际部署成本仍是一个值得关注的问题。
语义提取器的依赖: LETTER 的语义正则化依赖于一个预训练的语义提取器 (LLaMA-7B)。如果这个提取器本身存在偏差或无法捕捉到特定领域物品的细微语义，可能会影响整个 LETTER 的性能。LLaMA-7B 并非为推荐领域量身定制，其通用语义理解能力与推荐物品的特定语义（例如，音乐品类中的“音色”差异）可能存在差距。
RQ-VAE 量化损失的解释: 原文公式 (4) 描述的多样性损失与上方文字描述存在一些不一致性，这可能会让读者感到困惑。此外，RQ-VAE 本身在处理离散潜在空间时存在一些挑战（如梯度不连续），尽管 stop-gradient 操作有所缓解，但其潜在的优化问题仍可能存在。
Trie 约束生成对灵活性的影响: Trie 约束生成在推理阶段保证了生成标识符的有效性，但这也可能限制了 LLM 的生成多样性和创造力。在某些探索性推荐场景下，允许 LLM 生成一些“新颖”但略微偏离现有模式的标识符可能更有价值，而 Trie 约束可能会过于严格。
可解释性问题: 码本标识符（特别是多层码本）本身的可解释性比文本标识符低。虽然 LETTER 旨在通过正则化整合语义和协同信息，但如何直观地解释某个代码序列为何代表某个物品，以及其背后蕴含的协同偏好，仍是一个挑战。这对于需要高度可解释性的推荐场景可能是一个短板。

相似论文推荐

基于向量语义检索推荐的相关论文。

暂时没有找到相似论文。