论文状态：已完成

Learning Multi-Aspect Item Palette: A Semantic Tokenization Framework for Generative Recommendation

发表：2024/09/11

价格：0.100000

已有 1 人读过

本分析由 AI 生成，可能不完全准确，请以原文为准。

TL;DR 精炼摘要

本文提出了一种新的多方面语义标记化框架LAMIA，旨在提高生成式推荐系统的效果。与传统方法不同，LAMIA学习多个独立的嵌入，捕捉物品的多重语义特点。通过基于文本的重建任务进行领域特定微调，LAMIA在冷启动和长尾推荐任务上显著提高了推荐准确性。

摘要

Traditional recommendation models often rely on unique item identifiers (IDs) to distinguish between items, which can hinder their ability to effectively leverage item content information and generalize to long-tailed or cold-start items. Recently, semantic tokenization has been proposed as a promising solution that aims to tokenize each item's semantic representation into a sequence of discrete tokens. These semantic tokens have become fundamental in training generative recommendation models. However, existing methods typically rely on RQ-VAE, a residual vector quantizer, for semantic tokenization. This reliance introduces several key limitations, including challenges in embedding extraction, hierarchical coarse-to-fine quantization, and training stability. To address these issues, we introduce LAMIA, a novel approach for multi-aspect semantic tokenization. Unlike RQ-VAE, which uses a single embedding, LAMIA learns an ``item palette''--a collection of independent and semantically parallel embeddings that capture multiple aspects of items. Additionally, LAMIA enhances the semantic encoders through domain-specific tuning using text-based reconstruction tasks, resulting in more representative item palette embeddings. We have conducted extensive experiments to validate the effectiveness of the LAMIA framework across various recommendation tasks and datasets. Our results demonstrate significant improvements in recommendation accuracy over existing methods. To facilitate reproducible research, we will release the source code, data, and configurations.

思维导图

论文精读

中文精读约 41 分钟读完 · 27,421 字

1. 论文基本信息

1.1. 标题

Learning Multi-Aspect Item Palette: A Semantic Tokenization Framework for Generative Recommendation (学习多方面物品调色板：一种用于生成式推荐的语义标记化框架)

1.2. 作者

Qijiong Liu (香港理工大学)
Jieming Zhu (华为诺亚方舟实验室)
Zhaocheng Du (华为诺亚方舟实验室)
Lu Fan (香港理工大学)
Zhou Zhao (浙江大学)
Xiao-Ming Wu (香港理工大学)

1.3. 发表期刊/会议

论文于 2024-09-11T13:49:48.000Z 发布在 arXiv 预印本平台，尚未正式发表至特定期刊或会议，但已修订至第三版 (v3)。

1.4. 发表年份

2024年

1.5. 摘要

传统的推荐模型通常依赖唯一的物品标识符 (IDs) 来区分物品，这限制了它们有效利用物品内容信息以及泛化到长尾或冷启动物品的能力。最近，语义标记化 (semantic tokenization) 被提出作为一种有前景的解决方案，旨在将每个物品的语义表示标记化为离散的词元 (tokens) 序列。这些语义词元已成为训练生成式推荐模型的基础。然而，现有方法通常依赖于 RQ-VAE (Residual Vector Quantizer)，这引入了几个关键限制，包括嵌入提取、分层从粗到细量化以及训练稳定性方面的挑战。为了解决这些问题，本文引入了 LAMIA (Learning Multi-Aspect Item Palette)，一种用于多方面语义标记化的新方法。与 RQ-VAE 使用单个嵌入不同，LAMIA 学习一个“物品调色板 (item palette)”——一个独立且语义并行的嵌入集合，用于捕获物品的多个方面。此外，LAMIA 通过使用基于文本的重建任务进行领域特定微调 (domain-specific tuning) 来增强语义编码器，从而生成更具代表性的物品调色板嵌入。本文进行了广泛的实验，验证了 LAMIA 框架在各种推荐任务和数据集上的有效性。结果表明，与现有方法相比，推荐准确性显著提高。为了促进可复现研究，本文将发布源代码、数据和配置。

1.6. 原文链接

原文链接: https://arxiv.org/abs/2409.07276
PDF 链接: https://arxiv.org/pdf/2409.07276v3.pdf

2. 整体概括

2.1. 研究背景与动机

2.1.1. 传统推荐模型的局限性

传统的序列推荐 (Sequential recommendation) 模型，如在电子商务、广告网络、流媒体服务和社交媒体等在线应用中广泛使用的模型，通常依赖唯一的物品标识符 (Item Identifiers, IDs) 来表示物品。这种基于 ID 的表示方式存在以下几个主要限制：

过拟合 (Overfitting) 问题： 由于训练数据通常是稀疏且不平衡的，基于 ID 的物品表示容易导致模型过拟合。这意味着模型可能在训练数据上表现良好，但在未见过或不常见的数据上泛化能力差。
内容信息利用不足： 传统方法未能充分利用物品的内容信息，例如物品的文本描述、图片等。这对于改进长尾 (long-tailed) 物品（即很少被互动，数据稀疏的物品）和冷启动 (cold-start) 物品（即新上线或没有历史互动记录的物品）的推荐至关重要。

2.1.2. 语义标记化 (Semantic Tokenization) 的兴起与挑战

为了解决上述局限性，语义标记化 (Semantic Tokenization) 作为一种有前景的解决方案应运而生。它旨在将每个物品的语义表示编码成紧凑的离散词元序列 (sequence of discrete tokens)，这些词元可以跨物品共享。通过这种方式，两个物品之间的相似性可以大致通过它们词元序列之间的汉明距离 (Hamming distance) 来估计。语义标识符 (semantic identifiers) 的生成无需依赖下游推荐任务的训练，一旦生成，便可用于生成式推荐 (generative recommendation)。

然而，现有的大多数语义标记化方法都依赖于 RQ-VAE (Residual Vector Quantizer)。RQ-VAE 使用一种可微分的分层聚类机制，将物品表示转换为离散的语义标识符。这种方法虽然能捕捉粗粒度到细粒度的语义信息，但也引入了几个关键限制：

单一主导语义捕获： RQ-VAE 主要关注捕获物品的主导语义方面，而后续层级仅用于细化这一主导方面。这限制了模型表示物品复杂多面性质的能力，例如具有多种功能或主题的物品。例如，一篇新闻文章可能同时涉及“科学”和“环境”两个方面，但 RQ-VAE 可能只将其归类到其中一个。
训练稳定性问题： RQ-VAE 的训练过程对参数敏感，容易出现代码崩溃 (code collapse) 问题，即量化器中的多个码本向量 (codebook vectors) 变得相同，导致表示能力下降。
领域知识和数据分布错位： 现有方法通常直接使用预训练编码器（如大语言模型 LLMs）的嵌入 (embeddings) 进行量化。这种做法未能有效捕获特定领域知识和数据分布，可能导致 RQ-VAE 生成的语义标识符不够有效。

2.1.3. 本文的切入点与创新思路

为了解决 RQ-VAE 带来的这些问题，本文提出了 LAMIA 框架。LAMIA 的核心创新点在于：

多方面物品调色板 (Multi-Aspect Item Palette)： 不再量化多层残差向量，而是学习一个“物品调色板”——一个由多个独立且语义并行的向量组成的集合，每个向量捕获物品的不同方面信息。这克服了 RQ-VAE 仅捕获主导语义的限制，实现了更全面的物品表示。
基于文本的重建任务 (Text-Based Reconstruction Task)： LAMIA 使用基于文本的重建任务进行训练，以最小化信息损失。这与 RQ-VAE 依赖基于嵌入的重建任务不同，后者可能因数据分布偏移而损失信息。
对比学习 (Contrastive Learning) 机制： 引入对比学习任务，确保物品调色板中每个嵌入学习到独立且互斥的多方面信息，减少冗余。
简化量化过程： 学习到的多方面物品表示随后通过简单的聚类算法（如 K-Means）生成多个语义编码，从而避免了 RQ-VAE 训练中遇到的挑战。
领域特定微调 (Domain-Specific Tuning)： 通过领域特定的文本重建任务对语义编码器进行微调，使其更好地适应推荐场景的数据分布和知识，生成更具代表性的物品调色板嵌入。

2.2. 核心贡献/主要发现

本文的核心贡献可以总结如下：

提出 LAMIA 框架： 引入了一个新颖的语义标记化框架 LAMIA，通过学习“物品调色板”来捕捉物品的多方面信息。这个框架与 RQ-VAE 方法正交，并专门设计用于解决 RQ-VAE 的局限性。
并行语义标识符 (Parallel Semantic Identifiers)： LAMIA 学习一组相互独立、权重相等且语义并行的嵌入，这些嵌入共同捕捉物品内容的不同方面，而不是单一的主导方面。
基于文本的重建方法： 采用领域自适应的文本级别重建策略进行微调，减少了信息损失。这与标准 RQ-VAE 依赖于预训练 LLM 的高质量嵌入进行嵌入级重建形成对比。
架构改进： 引入了一种块式输入方案 (block-wise input scheme) 和分层注意力掩码 (hierarchical attention masking)，使任意仅解码器 (decoder-only) 的大型语言模型能够压缩可变长度的文本内容到固定长度的物品调色板。
训练稳定性与效率： 通过采用简单的聚类算法（如 K-Means）进行量化，LAMIA 避免了可微分向量量化（如 RQ-VAE）中常见的训练挑战，如代码崩溃问题。
显著的性能提升： 在多个推荐任务和数据集上进行了广泛实验，结果表明 LAMIA 框架在推荐准确性方面显著优于现有方法。特别是在 MIND 和 CDs 数据集上取得了最佳性能，并在 H&M 数据集上取得了具有竞争力的表现。
代码、数据和配置发布： 作者承诺发布源代码、数据和配置，以促进可复现研究。

3. 预备知识与相关工作

3.1. 基础概念

3.1.1. 序列推荐 (Sequential Recommendation)

序列推荐 (Sequential Recommendation) 是一种推荐系统范式，旨在根据用户过去交互的物品序列来预测用户接下来可能感兴趣的物品。与传统的基于协同过滤或内容过滤的推荐系统不同，序列推荐模型特别关注用户行为的顺序性和时间依赖性。例如，用户在观看了一系列科幻电影后，模型可能会推荐新的科幻电影。

3.1.2. 物品标识符 (Item Identifiers, IDs) 与嵌入 (Embeddings)

在传统的推荐系统中，每个物品通常被赋予一个唯一的物品标识符 (Item ID)。这些 ID 通常会被映射到低维稠密向量 (low-dimensional dense vectors)，称为物品嵌入 (Item Embeddings)。这些嵌入是在模型训练过程中学习得到的，旨在捕捉物品的特征和相似性。例如，电影 ID 123 可能会被映射到一个 128 维的向量，而电影 ID 456 可能会被映射到另一个向量。模型通过计算这些嵌入之间的相似性来推断用户偏好。

3.1.3. 语义标记化 (Semantic Tokenization)

语义标记化 (Semantic Tokenization) 是一种将物品的语义表示转换为一系列离散的、可共享的词元 (tokens) 的技术。与为每个物品学习一个唯一的 ID 嵌入不同，语义标记化旨在通过这些共享词元来表示物品的语义特征。例如，一部电影可能被标记为 [“科幻”, “动作”, “太空”]。这样，即使是新电影（冷启动物品），只要能提取其语义，就可以生成对应的词元序列，从而参与推荐。这种方法可以更好地利用物品内容信息，并提高模型对长尾和冷启动物品的泛化能力。

3.1.4. 生成式推荐 (Generative Recommendation)

生成式推荐 (Generative Recommendation) 是一种推荐范式，它不直接从预定义物品池中过滤或排名物品，而是通过生成式模型（如大型语言模型）直接生成推荐结果。传统推荐通常是预测下一个物品的 ID，而生成式推荐可能会生成物品的语义描述、属性甚至语义词元序列。这种方法使得模型能够生成全新的、以前未见过的推荐，或者更好地融合物品的内容信息。

3.1.5. 残差向量量化器 (Residual Vector Quantizer, RQ-VAE)

残差向量量化器 (Residual Vector Quantizer, RQ-VAE) 是一种用于将连续的输入向量离散化为一系列码本索引 (codebook indices) 的技术。其核心思想是分层 (hierarchical) 地进行量化。

第一层： 将输入向量量化为第一个码本中的最近的码字 (code word)，并计算量化误差（即残差）。
后续层： 将上一层产生的残差再次量化到下一个码本中，并重复此过程。
特点： 这种分层量化机制能够捕捉从粗粒度到细粒度的信息。每一层的码本都只负责编码残差信息，使得编码效率更高。在语义标记化中，RQ-VAE 用于将物品的连续嵌入转换为离散的语义词元序列。
挑战： RQ-VAE 的训练过程较为复杂，容易出现代码崩溃 (code collapse)，即量化器中的部分或全部码字未能被有效利用，导致模型表示能力下降。

3.1.6. 对比学习 (Contrastive Learning)

对比学习 (Contrastive Learning) 是一种自监督学习 (self-supervised learning) 方法，旨在通过学习数据的表示，使得相似的数据点在嵌入空间中彼此靠近，而不相似的数据点彼此远离。

正样本对 (Positive Pairs)： 通常由原始数据经过数据增强 (data augmentation) 得到，或者在语义上相关的样本。
负样本对 (Negative Pairs)： 通常由不相关的数据点组成。
损失函数： 对比学习通常使用 InfoNCE 损失 (InfoNCE loss) 或 Hinge 损失 (Hinge loss) 等来最大化正样本对之间的相似性，并最小化负样本对之间的相似性。其目的是学习一个鲁棒的、能够区分不同语义信息的嵌入空间。

3.1.7. 大语言模型 (Large Language Models, LLMs)

大语言模型 (Large Language Models, LLMs) 是指具有庞大参数量（通常数十亿甚至数万亿）的深度学习模型，它们在海量文本数据上进行预训练，能够理解和生成自然语言。

架构： 通常基于 Transformer 架构，特别是仅解码器 (decoder-only) 的架构。
能力： 具有强大的文本生成、文本理解、问答、翻译等能力。
在推荐中的应用： LLMs 可以作为强大的语义编码器来提取物品内容特征，或者直接作为生成式推荐系统的骨干 (backbone)，通过理解用户偏好和物品描述来生成推荐。

3.2. 前人工作

本文将 LLMs 用于推荐系统的现有技术分为三个范式：预训练 (pre-training)、提示 (prompting) 和微调 (fine-tuning)。

3.2.1. LLMs 用于推荐：预训练

该范式侧重于设计任务来建模多样化的用户行为，并开发一个基础推荐模型。

PITM [40]： 采用掩码行为预测 (masked behavior prediction) 和下一个 K 个行为预测 (next K behavior prediction) 两个预训练任务。
M6 [3]： 使用自回归生成任务 (auto-regressive generation task) 和文本填充目标 (text-infilling objective)。
P5 [6]： 将多个推荐任务整合到一个统一的框架中，以预训练一个基础推荐模型。

3.2.2. LLMs 用于推荐：提示

该范式旨在直接将 LLMs 集成到推荐流程中，通常不更新参数，而是通过特征增强。

Xi et al. [42]： 利用 LLMs 推断用户偏好和物品的事实知识。
Wang et al. [37]： 采用 LLMs 建模用户偏好。

3.2.3. LLMs 用于推荐：微调

该范式旨在通过微调来利用现有强大 LLMs 的能力，以适应各种下游推荐任务。

全模型微调 (Full-model fine-tuning) [5, 31]： 更新 LLM 的所有参数。
参数高效微调 (Parameter-efficient fine-tuning, PEFT) [1, 41]： 例如 LoRA [10]，旨在减少计算资源需求，只更新部分参数或引入少量额外参数。

3.3. 生成式推荐

生成式推荐模型通过直接从用户交互或序列模式生成推荐，绕过了传统的过滤或排名过程。

传统 ID-based 模型： SASRec [14] 和 BERT4Rec [33] 等模型，以及基于语言模型的推荐器 P5 [6] 和 VIP5 [7]，都使用唯一的标识符表示物品，并通过选择最可能的候选物品来预测下一个物品。
语义标识符 (Semantic Identifiers) 的引入： TIGER [29] 引入了可跨物品共享的语义标识符，以取代唯一标识符，从而融入物品内容知识。这一概念随后被其他语义标记化方法 [13, 20, 46] 进一步完善。
混合特征的方法： EAGer [39]、LETTER [38] 和 TokenRec [28] 等方法还将来自简单推荐器的协同特征集成到标识符中。然而，这些方法通常依赖于丰富的交互数据，且在实践中可能不稳定。
训练目标转换： 语义标识符的使用将训练目标从“预测下一个物品”转换为“预测下一个编码 (next-code prediction)”。这限制了每个位置的搜索空间，从而提高了推理性能。

3.4. 差异化分析

本文提出的 LAMIA 框架与现有方法，特别是基于 RQ-VAE 的语义标记化方法，存在显著差异：

3.4.1. 与 RQ-VAE 的核心区别

特性	RQ-VAE 及其衍生方法	LAMIA 框架
嵌入表示方式	单一嵌入，通过分层残差量化进行细化	“物品调色板”，一个包含多个独立且语义并行的嵌入集合
信息捕获	主要捕获物品的主导语义方面，后续层级细化该方面	捕获物品的多个独立方面，每个嵌入代表一个特定方面
量化机制	可微分的分层向量量化 (如 RQ-VAE)，训练复杂且不稳定	训练无关的简单聚类算法 (如 K-Means)
训练稳定性	容易出现代码崩溃 (code collapse) 等训练挑战	通过对比学习和简单的聚类算法，训练更稳定
重建任务	通常依赖嵌入级重建 (embedding-based reconstruction)	使用文本级重建 (text-based reconstruction)，减少信息损失
领域适应性	直接使用预训练 LLM 嵌入，可能与推荐领域不匹配	通过领域特定微调增强语义编码器，使其更具代表性
语义标识符性质	分层、粗到细	并行、相互独立、等权重的多方面语义标识符

3.4.2. 与其他语义标识符方法的比较 (如 Table 1 所示)

方法	嵌入器 (Embedder)	量化器 (Quantizer)	推荐器 (Recommender)	文本-词元对齐任务 (Alignment Task)	关键区别
TIGER [29]	SentenceBERT	RQ-VAE	Transformer	×	传统 RQ-VAE 方法，使用 SentenceBERT 提取嵌入，专注于单一语义主导的表示。
LC-Rec [46]	Llama1-7B	RQ-VAE	Llama1-7B	✓	使用 Llama1-7B 作为嵌入器和推荐器，但仍依赖 RQ-VAE 进行量化，可能面临 RQ-VAE 的训练挑战和单一语义捕获问题。引入了对齐任务。
CoST [47]	SentenceT5	RQ-VAE	Transformer	×	与 TIGER 类似，使用 SentenceT5 提取嵌入，同样依赖 RQ-VAE。
EAGer [39]	SentenceT5 + DIN*	K-Means (分层)	Transformer	×	将协同特征 (DIN) 引入到标识符学习中，并使用分层 K-Means。本文指出其在实际中可能不稳定且公平性对比时需注意其结合了行为知识。
LETTER [38]	Llama1-7B	SASRec	RQ-VAE	Transformer	×
TokenRec [28]	LightGCN	MQ-VAE	Llama1-7B	✓	使用 LightGCN 提取协同特征，并采用 MQ-VAE (Multi-level Quantized VAE) 进行量化。主要关注协同特征，而 LAMIA 更侧重内容特征的多方面表示。引入了对齐任务。
LAMIA	OPT-350M	K-Means	OPT-350M	✓	核心创新在于“物品调色板”学习多方面、并行语义，并结合文本级重建和对比学习，使用简单的 K-Means 量化。

*注：EAGER [39] 使用了 SentenceT5 和 DIN，表示其在语义标识符学习中结合了物品内容和用户行为知识，这与仅使用内容信息的其他方法形成对比，因此在比较时需要特别说明。

总结而言，LAMIA 的核心优势在于其多方面、并行语义表示的能力，以及通过文本级重建和对比学习实现的更稳定的训练和更具代表性的嵌入。

4. 方法论

本文引入了 LAMIA (Learning Multi-Aspect Item Palette) 框架，旨在通过学习多方面物品调色板进行语义标记化，以克服现有 RQ-VAE 方法的局限性。LAMIA 的核心思想是将可变长度的物品内容压缩成一个固定长度的“物品调色板”——一个包含多个独立且语义并行的嵌入集合，每个嵌入捕获物品的不同方面。

LAMIA 的详细架构如 Figure 3 所示。它兼容任何仅解码器 (decoder-only) 的大型语言模型 (LLM)，并采用块式输入方案 (block-wise input scheme)、分层注意力掩码 (hierarchical attention masking)、自监督生成任务 (self-supervised generative tasks) 和辅助对比任务 (auxiliary contrastive tasks)。

fig 1 该图像是一个示意图，展示了 LAMIA 框架在大语言模型中的结构和损失函数。图中包括生成损失（如标题重建和类别预测）和对比损失，通过 K-Means 方法处理的填充部分，帮助进行不同属性的编码，体现可学习的调色板和任务块的协同关系。

图 3: LAMIA 的详细架构。对于每个物品，通过基于文本的生成任务（重建或预测）和对比学习任务来学习物品调色板。

4.1. 架构 (Architecture)

LAMIA 的架构灵感来源于 gisting 框架 [26]，该框架将提示词 (prompts) 浓缩为简洁的词元 (tokens) 以优化自然语言处理中的推理。

4.1.1. 块式输入方案 (Block-wise Input Scheme)

输入序列被结构化为四个块：content (内容)、learnable palette (LaP, 可学习调色板)、learned palette (LdP, 已学习调色板) 和 task (任务)。

内容块 ( $<content>$ )： 对于一个物品 $X$ ，例如一篇新闻文章，它可能有 $m$ 个属性 $\mathbf{a}_1, \mathbf{a}_2, \dots, \mathbf{a}_m$ 。我们选择前 $r \leq m$ 个属性来形成内容块，其形式如下： $\langle \mathrm{content} \rangle = [\mathsf{a}_1;\mathsf{a}_2;\dots ,\mathsf{a}_r] \quad (1)$ 其中 $[\cdot]$ 表示拼接操作。例如，一篇包含三个属性（标题、摘要、类别）的文章，可以使用标题和摘要 ( $r=2$ ) 作为内容块。一个可能的内容块示例是：“title:Yellowstone tourist injured:. abstract:A tourist suffered severe burns..”。
可学习调色板块 ( $<LaP>$ )： 该块由 $L$ 个预定义的词元组成： $\langle \mathsf{LaP} \rangle = [\mathsf{L}\mathsf{a}\mathsf{P1} \rangle ,\mathsf{L}\mathsf{a}\mathsf{P2} \rangle ,\mathsf{L}\mathsf{a}\mathsf{P3} \rangle ] \quad (2)$ 为了简化，在 Figure 3 中， $L$ 被设置为 3。这些词元具有可学习但随机初始化的嵌入 (embeddings)，它们通过 Transformer 网络促进物品内容集成到可操作的洞察中。物品调色板 (Item Palette) 就是 LaP 块的输出嵌入。
已学习调色板块 ( $<LdP>$ )： LdP 块在长度上与 LaP 块相同，但最初包含占位符词元 (placeholder tokens)： $\langle \mathsf{LD}\mathsf{P} \rangle = [\prec \mathsf{LD}\mathsf{P1} \rangle ,\prec \mathsf{LD}\mathsf{2} \rangle ,\prec \mathsf{LD}\mathsf{P3} \rangle ] \quad (3)$ 在处理之前，这些占位符词元将被 LaP 块的输出嵌入替换。这种安排支持文本级重建 (text-level reconstruction)，确保任务块 (task block) 从第一个 Transformer 层开始就利用物品调色板进行文本生成。
任务块 ( $<task>$ )： 任务块以特定任务的词元和答案序列结束： $\langle \mathtt{task} \rangle = [t_i; a_i] \quad (4)$ 其中 $t_i$ 表示一个任务，它根据属性索引变化，旨在重建（当 $0 < i \leq r$ 时，重建内容块中使用的属性）或预测（当 $r < i \leq m$ 时，预测未见过的属性）。两个可能的示例可以是：“<reconstruct_title: title:Yellowstone tourist injured...” （当 $i=1$ 时）和 “<predict_category>:category:travel” （当 $i=3$ 时）。

4.1.2. 分层注意力掩码 (Hierarchical Attention Masking)

仅解码器的大语言模型通常采用因果注意力掩码 (causal attention masks)，这限制了每个词元只能关注其之前的词元和自身，而不能关注未来的词元。这种传统设计不适用于仅允许物品调色板影响任务输出生成的情景。因此，本文实现了一种分层注意力掩码方案，它包含块内掩码 (inner-block masking) 和块间掩码 (inter-block masking)。

如下图 Figure 4 的对角线所示，块内掩码保持因果注意力，以确保序列知识的保留。相比之下，块间掩码允许无限制或无注意力的配置：content 块完全与 learnable palette 块交互，而 learned palette 块则完全专注于 task 块。所有其他块间注意力都被禁用。

fig 2 该图像是一个示意图，展示了不同模块（Content Block、LaP Block、LdP Block 和 Task Block）之间的因果关系。图中使用了不同的连接类型，如 Causal 和 Full，及知识转移的描述，从而说明了嵌入填充的过程。

图 4: 分层注意力掩码方案。第 $i$ 行和第 $j$ 列的交点值表示第 $j$ 列块在第 $i$ 行块的注意力计算中的参与模式。当 $i=j$ 时，值表示块内掩码；当 $i<j$ 时，值表示块间掩码。

4.2. 学习多方面物品调色板 (Learning Multi-aspect Item Palette)

本文将对仅解码器的大语言模型进行领域自适应微调 (domain-adaptive tuning)，以将可变长度的物品内容知识压缩成多方面物品调色板。训练目标设计旨在优化物品调色板的功能：首先，它应捕获并保留足够的物品内容信息，以促进准确的内容重建并最小化信息损失。其次，物品调色板中的每个嵌入应尽可能独立和互斥，以确保最小的冗余。因此，本文设计了以下自监督训练任务。

4.2.1. 生成式重建或预测 (Generative Reconstruction or Prediction)

为了将内容知识充分融入物品调色板，本文通过迭代任务 ID $t_i$ （从 1 到 $m$ ）为每个物品创建不同的输入样本。每个任务 ID 对应一个独特的重建或预测挑战，如前所述。利用专门的 LAMIA 架构，大语言模型通过下一个词元预测 (next-token prediction) 任务进行微调： $\mathcal{L}_{\mathrm{gen}} = -\log P(a_{i,j + 1}|a_{i,1},a_{i,2},\ldots ,a_{i,j}) \quad (5)$ 该损失函数使用交叉熵损失 (cross-entropy loss) 进行优化，其中 $a_{i,j}$ 表示属性 $a_i$ 的第 $j$ 个词元。

为了促进物品调色板嵌入到已学习调色板块 (LdP block) 的转移，本文采用双重前向传播 (dual forward propagation)：在初始前向传播期间，捕获物品调色板嵌入，随后填充 LdP 块，并根据填充后的 LdP 块推导出任务输出。

4.2.2. 对比学习 (Contrastive Learning)

4.2.2.1. 调色板内对比损失 (Intra-Palette Contrastive Loss)

由于同一物品在不同顺序的调色板嵌入捕获物品内容的特定视角，并且旨在进行后续聚类，因此关键在于同一物品的不同顺序嵌入应相互排斥 (mutually exclusive) 并包含最小冗余信息 (minimal redundant information)。这确保了聚类结果的独立性。为此，本文引入了调色板内对比学习任务，旨在减小同一物品不同顺序调色板嵌入之间的相似性。具体来说，本文使用 Hinge Loss 来限制每个样本内调色板嵌入的相似性保持在一定阈值 $\alpha_{\mathrm{intra}}$ 内。

首先，对调色板嵌入进行归一化： $\mathsf{B}_{i,j} = \frac{\mathsf{B}_{i,j}}{\| {\mathsf{B}_{i,j}}\|_{2^i}} \quad (6)$ 这里原文的 $\| {\mathsf{B}_{i,j}}\|_{2^i}$ 似乎是一个印刷错误或者非常规的符号表示。通常情况下，向量的 L2 范数（欧几里得范数）表示为 $\| {\mathsf{B}_{i,j}}\|_{2}$ 。因此，这里应理解为对嵌入进行 L2 范数归一化，使其长度为 1。

然后，调色板内对比损失可以表示为： $\mathcal{L}_{\mathrm{intra}} = \sum_{i = 1}^{B}\sum_{j = 1}^{L}\sum_{k = 1,k\neq j}^{L}\max (0,s(\hat{\mathsf{B}}_{i,j},\hat{\mathsf{B}}_{i,k}) - \alpha_{\mathrm{intra}})^2 \quad (7)$ 其中：

$\mathbf{B} \in \mathbb{R}^{B \times L \times d}$ 是一个批次的调色板嵌入。
$B$ 表示批次大小 (batch size)。
$L$ 表示调色板大小 (palette size)，即每个物品的调色板中嵌入的数量。
$\hat{\mathsf{B}}_{i,j}$ 表示归一化后的第 $i$ 个批次中第 $j$ 个物品的调色板嵌入。
$s$ 表示余弦相似度 (cosine similarity) 函数。
$\alpha_{\mathrm{intra}}$ 是调色板内对比的边距 (margin) 阈值。
$\max(0, \cdot)^2$ 是 Hinge Loss 的平方形式，确保只有当相似度超过 $\alpha_{\mathrm{intra}}$ 时才会产生损失。

4.2.2.2. 调色板间对比损失 (Inter-Palette Contrastive Loss)

为了解决代码碰撞 (code collision) 问题——即多个物品的调色板可能崩溃到相同的语义标识符——本文引入了同一顺序物品调色板嵌入之间的对比损失，鼓励它们保持语义上的区别。具体来说，本文将批次中的所有其他样本视为当前样本的负样本。使用 Hinge Loss 来限制负样本对之间同一顺序调色板嵌入的相似性保持在一定阈值 $\alpha_{\mathrm{inter}}$ 内。 $\mathcal{L}_{\mathrm{inter}} = \sum_{i = 1}^{B}\sum_{k = 1,k\neq i}^{B}\sum_{j = 1}^{L}\mathrm{max}(0,s(\mathbf{B}_{i,j},\bar{\mathbf{B}}_{k,j}) - \alpha_{\mathrm{intra}})^2 \quad (8)$ 其中：

$\mathbf{B}_{i,j}$ 表示第 $i$ 个批次中第 $j$ 个物品的调色板嵌入。
$\bar{\mathbf{B}}_{k,j}$ 表示第 $k$ 个批次中第 $j$ 个物品的调色板嵌入，作为负样本。
$s$ 表示余弦相似度函数。
$\alpha_{\mathrm{inter}}$ 是调色板间对比的边距阈值。
注意： 公式 (8) 中使用了 $\alpha_{\mathrm{intra}}$ ，这可能是一个印刷错误，根据上下文应为 $\alpha_{\mathrm{inter}}$ 。

4.2.3. 最终训练目标

因此，LAMIA 的最终训练任务通过以下损失函数进行优化： $\mathcal{L}_{\mathrm{LAMIA}} = \mathcal{L}_{\mathrm{gen}} + \gamma \mathcal{L}_{\mathrm{cl}} = \mathcal{L}_{\mathrm{gen}} + \gamma \left(\mathcal{L}_{\mathrm{intra}} + \mathcal{L}_{\mathrm{inter}}\right) \quad (9)$ 其中 $\gamma$ 是一个超参数，用于平衡生成损失 (generative loss) 和对比损失 (contrastive loss) 的贡献。

4.3. 使用简单聚类算法进行量化 (Quantization Using A Simple Clustering Algorithm)

与标准流程中采用复杂、难以训练的可微分向量量化技术将物品内容嵌入分割成离散词元不同，LAMIA 的密集词元器 (dense tokenizer) 将物品内容特征高效地映射到可重建的嵌入——称为物品调色板——它封装了领域特定内容。因此，这些密集向量可以通过训练无关 (training-free) 的聚类算法离散化为簇索引 (cluster indices)。

聚合物品调色板嵌入： 首先，将所有物品的物品调色板嵌入聚合起来，形成一个矩阵： $\mathbf{E} = \begin{bmatrix} \mathbb{E}_{1,1} & \mathbb{E}_{1,2} & \dots & \mathbb{E}_{1,n}\\ \mathbb{E}_{2,1} & \mathbb{E}_{2,2} & \dots & \mathbb{E}_{2,n}\\ \vdots & \vdots & \ddots & \vdots \\ \mathbb{E}_{n1} & \mathbb{E}_{n2} & \dots & \mathbb{E}_{n,n} \end{bmatrix} \quad (10)$ 其中 $n$ 表示物品数量， $\mathbf{e}_{i,j}$ 表示第 $j$ 个物品的第 $i$ 个物品调色板嵌入，其维度为 $D$ 。原文的矩阵表示与文字描述稍有不符， $E_{n1}$ 和 $E_{n,n}$ 应为 $E_{L,1}$ 和 $E_{L,n}$ ，表示 $L$ 个调色板维度，且 $E_{i,j}$ 表示第 $j$ 个物品的第 $i$ 个调色板嵌入，所以矩阵应为 $L \times n$ 的维度。这里，我们遵循原文公式的符号，并假设 $\mathbb{E}_{i,j}$ 是指第 $i$ 个物品的第 $j$ 个调色板嵌入。

根据上下文， $L$ 是调色板大小 (palette size)，即每个物品有 $L$ 个嵌入，而 $n$ 是物品数量。因此，矩阵 $\mathbf{E}$ 的实际结构更可能是 $L \times n$ 的，其中每一行代表调色板的一个方面（维度），每一列代表一个物品。 更正的理解： 设 $\mathbf{e}^{(j)} = [\mathbf{e}_{1}^{(j)}, \mathbf{e}_{2}^{(j)}, \dots, \mathbf{e}_{L}^{(j)}]$ 为第 $j$ 个物品的调色板，其中 $\mathbf{e}_{i}^{(j)}$ 是第 $j$ 个物品的第 $i$ 个调色板嵌入。那么，这里构建的 $\mathbf{E}$ 矩阵，其结构应为： $\mathbf{E} = \begin{bmatrix} \mathbf{e}^{(1)}_1 & \mathbf{e}^{(2)}_1 & \dots & \mathbf{e}^{(n)}_1 \\ \mathbf{e}^{(1)}_2 & \mathbf{e}^{(2)}_2 & \dots & \mathbf{e}^{(n)}_2 \\ \vdots & \vdots & \ddots & \vdots \\ \mathbf{e}^{(1)}_L & \mathbf{e}^{(2)}_L & \dots & \mathbf{e}^{(n)}_L \end{bmatrix}$ 其中， $\mathbf{e}^{(j)}_i$ 是一个 $D$ 维向量。因此， $\mathbf{E}$ 的维度是 $L \times n \times D$ 。为了应用 K-Means，通常需要对每个“方面”进行独立聚类。
降维 (Dimensionality Reduction)： 接下来，应用主成分分析 (Principal Component Analysis, PCA) 技术 [25] 将高维的 $D$ 维向量（例如，超过 1024 维）降维到较低的 $d$ 维（例如 32 维）。降维后的主成分表示为 $\hat{\mathbf{e}}_{i,j}$ ，对应于每个降维后的 $\mathbf{e}_{i,j}$ 。
聚类 (Clustering)： 最后，对矩阵的每一行应用简单的、训练无关的聚类算法，例如 K-Means [16]。原文中的描述 $\hat{\mathbf{E}} [i_{i}:] = [\hat{\mathbf{e}}_{i,1},\hat{\mathbf{e}}_{i,2},\dots ,\hat{\mathbf{e}}_{i,n}]$ 表示对第 $i$ 行的所有物品的第 $i$ 个调色板嵌入进行聚类。这证实了上述对 $\mathbf{E}$ 矩阵的理解：每一行代表调色板的一个方面 (aspect)，且包含了所有 $n$ 个物品在该方面上的嵌入。对每一行进行聚类，意味着针对每个方面独立地生成一个词汇表 (vocabulary) 或码本 (codebook)。

最终的聚类索引被组织成一个矩阵： $\mathbf{C} = \left[ \begin{array}{cccc}\underbrace{\hat{\mathbf{e}}_{1,1}} & \underbrace{\hat{\mathbf{e}}_{1,2}} & \dots & \underbrace{\hat{\mathbf{e}}_{1,n}}\\ \underbrace{\hat{\mathbf{e}}_{2,1}} & \underbrace{\hat{\mathbf{e}}_{2,2}} & \dots & \underbrace{\hat{\mathbf{e}}_{2,n}}\\ \vdots & \vdots & \ddots & \vdots \\ \underbrace{\hat{\mathbf{e}}_{L,1}} & \underbrace{\hat{\mathbf{e}}_{L,l}} & \dots & \underbrace{\hat{\mathbf{e}}_{L,n}} \end{array} \right] \quad (11)$ 这里，原文公式中的 $\mathbf{C}$ 矩阵的元素仍然是 $\hat{\mathbf{e}}_{i,j}$ ，这与文本描述的“聚类索引”不符。根据文本描述， $\mathbf{C}$ 矩阵应该是由聚类得到的离散索引 (cluster indices) 组成。 更正的理解： $\mathbf{C}$ 矩阵的元素 $c_{i,j}$ 应该表示第 $j$ 个物品的第 $i$ 个调色板嵌入 $\hat{\mathbf{e}}_{i,j}$ 所属的簇索引。其中 $1 \leq c_{i,j} \leq k$ 表示簇索引， $k$ 是簇的数量。因此，每个物品可以由 $L$ 个离散词元表示： $\mathbf{c}_{j} = [c_{1,j},c_{2,j},\dots ,c_{L,j}]$ 。

4.4. 生成式推荐器 (Generative Recommender)

与其他物品标记化方法类似，由聚类器生成的物品语义标识符（即离散词元）可以用于生成式检索 (generative retrieval) 或序列推荐 (sequential recommendation)。可以采用传统的基于深度学习的推荐模型 (Deep Learning Based Recommendation Models, DLRMs) 或大型语言模型 (LLMs as RS) 进行生成式推荐的训练和推理。

当使用大型语言模型作为推荐器时，还可以设计文本-词元对齐任务 (text-token alignment task) 来增强词元理解能力，这遵循 LC-Rec [46] 的方法，如 Figure 5 所示。

4.4.1. 训练 (Training)

给定一个用户行为序列，其中每个物品由语义词元表示，该序列形式化为： $\operatorname {R} = \left(\underbrace{\mathbf{u}_{i,1}}_{|\cdot},\underbrace{\mathbf{u}_{i,2}}_{|\cdot},\dots,\underbrace{\mathbf{u}_{i,n}}_{|\cdot},\underbrace{\mathbf{u}_{i,2}}_{|\cdot},\underbrace{\mathbf{u}_{i,2}}_{|\cdot},\dots\right] \quad (12)$ 原文公式 (12) 的表示方式存在冗余和不规范之处，例如重复的 $\mathbf{u}_{i,2}$ 和省略号。根据上下文，它应该表示一个用户序列，其中每个物品 $u_i$ 由其对应的 $L$ 个语义词元表示。因此，一个用户序列 $\mathbf{U} = [item_1, item_2, \dots, item_N]$ 会被转换为一个词元序列 $\mathbf{C}_{\mathbf{U}} = [\mathbf{c}_1, \mathbf{c}_2, \dots, \mathbf{c}_N]$ ，其中 $\mathbf{c}_j = [c_{1,j}, \dots, c_{L,j}]$ 。最终，这个序列会被展平 (flattened) 成一个更长的词元序列作为模型的输入。

当采用 DLRMs 或 LLMs 作为序列推荐的骨干时，下一个物品预测 (next-item prediction) 任务始终是主要任务，大致可以形式化为： $\mathcal{L}_{\mathrm{rip}} = -\sum_{i = 1}^{I}\sum_{j = 1}^{L}\log P(u_{i,j + 1}|u_{1,k},\cdot \cdot \cdot ,u_{i - 1,k},u_{i,1},\ldots ,u_{i,j}) \quad (13)$ 原文公式 (13) 的符号表示也存在一些不一致。根据标准的下一个词元预测任务，模型会预测序列中的下一个词元。在这里，目标是预测下一个物品的词元序列。 更正的理解： 假设模型需要预测下一个物品 $u_{next}$ 的所有 $L$ 个语义词元 $\mathbf{c}_{next} = [c_{1,next}, \dots, c_{L,next}]$ 。那么损失函数通常是预测每个词元并求和。或者，如果整个序列被展平，则预测序列中的下一个词元。

当采用 LLM 作为骨干时，用户序列会使用自然语言进行拼接；然而，损失计算只考虑语义词元，忽略自然语言部分。此外，本文使用文本-词元对齐任务 (text-token alignment task) 作为 LLM 的辅助训练目标。遵循 Figure 5 中所示的指令，序列可以构建为： $\mathbf{s} = [s_{1},\dots ,s_{l},\underline{{\mathbf{e}}_{1}},\underline{{\mathbf{e}}_{2}},\dots ,\underline{{\mathbf{e}}_{l}} ]$ 。因此，对齐任务可以形式化为： $\mathcal{L}_{\mathrm{align}} = -\sum_{i = 1}^{v}\log P(c_{i + 1}|s_{k},\dots ,\underline{\underline{\mathbf{e}}}_{i},\dots ,\underline{\underline{\mathbf{e}}}_{l}) \quad (14)$ 原文公式 (14) 的表示方式也较为混乱，特别是 $v$ 和 $l$ 的含义，以及双下划线。 更正的理解： 文本-词元对齐任务的目标是让 LLM 能够将物品的自然语言描述与其对应的语义词元关联起来。假设给定一个物品的文本描述 $T = [t_1, \dots, t_M]$ 和其语义词元序列 $C = [c_1, \dots, c_L]$ 。对齐任务可能是：给定文本描述 $T$ ，预测词元序列 $C$ ；或者给定词元序列 $C$ ，重建文本描述 $T$ 。

Figure 5: Instruction templates for tuning large language models as generative recommenders. The upper instruction outlines the primary training task of next-item prediction, while the lower instruction details an auxiliary text-token alignment task.

fig 5 该图像是图表，展示了多个项目的特征值和序列。每个项目通过颜色区分，包含三个特征值，其中部分项目的特征值重复出现，示例中显示了两个项目及下一个项目的特征值。该图表对于理解多方面项画布方法有重要意义。

fig 6 该图像是一个示意图，展示了一个物品的分类与评分。图中清晰标示出该物品所对应的值，一部分标记为 7，另一部分为 1/6，说明了物品性质的多样性与复杂性。

图 5: 用于微调大型语言模型作为生成式推荐器的指令模板。上方的指令概述了下一个物品预测的主要训练任务，而下方的指令则详细说明了辅助的文本-词元对齐任务。

4.4.2. 推理 (Inference)

推荐器将以自回归 (autoregressive) 方式生成下一个物品的语义词元。遵循之前的工作 [29, 46]，本文应用集束搜索 (beam search) [4] 来保持前 K 个词元组合。

5. 实验设置

5.1. 数据集

本文在三个真实的基于内容的推荐数据集上进行了实验：

MIND (新闻)：一个新闻推荐数据集，包含新闻文章及其相关的文本内容。
Amazon CDs (音乐)：一个音乐产品推荐数据集，包含 CD 专辑的描述等信息。

H&M (时尚)：一个时尚产品推荐数据集，包含服装商品的描述、类型等信息。

以下是数据集的统计信息：

	MIND	CDs	H&M
#Items	25,634	19,684	15,889
#Users	45,000	45,000	45,000
#Finetune	40,000	40,000	40,000
#Test	5,000	5,000	5,000
Avg. User Length	11.78	5.19	8.67
Avg. Item Appearance	20.69	11.70	22.44

表 2: 数据集统计信息。

5.2. 评估指标

本文遵循常见的实践 [28, 29]，使用广泛应用的指标来评估序列推荐器的有效性，即召回率 (Recall) 和 NDCG (Normalized Discounted Cumulative Gain) [12]。在本文中，使用 Recall@5, Recall@10, Recall@20, NDCG@1, NDCG@5, NDCG@10 和 NDCG@20 进行评估。

对于每个评估指标，其定义和计算公式如下：

5.2.1. 召回率 (Recall)

概念定义： 召回率衡量的是推荐系统在所有用户实际感兴趣（即真值）的物品中，成功推荐出来的物品所占的比例。它关注的是系统“找全”的能力，即有多少用户真正喜欢的物品被推荐出来了。Recall@K 表示在推荐列表前 K 个物品中，有多少真值物品被命中。
数学公式： $\mathrm{Recall@K} = \frac{1}{|U|} \sum_{u \in U} \frac{|\mathrm{R}_u(K) \cap \mathrm{T}_u|}{|\mathrm{T}_u|}$
符号解释：
- $U$ : 所有用户的集合。
- $u$ : 集合 $U$ 中的一个用户。
- $\mathrm{R}_u(K)$ : 为用户 $u$ 生成的排名靠前的 K 个推荐物品的列表。
- $\mathrm{T}_u$ : 用户 $u$ 实际交互过的（或真值）物品的集合。
- $|\cdot|$ : 集合的基数（元素数量）。
- $\cap$ : 集合交集操作。

5.2.2. NDCG (Normalized Discounted Cumulative Gain)

概念定义： NDCG 是一种考虑了推荐物品相关性（通常是二元的，即是否命中真值）和位置的评估指标。它不仅关注推荐了多少相关物品，还关注这些相关物品出现在推荐列表中的位置。排名越靠前的相关物品，对 NDCG 的贡献越大。NDCG 的“归一化”意味着它会将计算得到的 DCG 值除以理想情况下的 DCG 值（即所有相关物品都按其相关性降序排列时得到的 DCG），从而得到一个介于 0 到 1 之间的值。NDCG@K 表示在推荐列表前 K 个物品上的 NDCG 值。
数学公式： $\mathrm{DCG@K} = \sum_{i=1}^{K} \frac{\mathrm{rel}_i}{\log_2(i+1)}$ $\mathrm{IDCG@K} = \sum_{i=1}^{|\mathrm{T}_u|} \frac{\mathrm{rel}^{\mathrm{ideal}}_i}{\log_2(i+1)}$ $\mathrm{NDCG@K} = \frac{1}{|U|} \sum_{u \in U} \frac{\mathrm{DCG}_u@K}{\mathrm{IDCG}_u@K}$
符号解释：
- $\mathrm{DCG@K}$ : 前 K 个推荐物品的累积增益。
- $\mathrm{rel}_i$ : 排名第 $i$ 的物品的相关性评分。在推荐系统中，如果排名第 $i$ 的物品是用户实际交互的物品（真值），则 $\mathrm{rel}_i = 1$ ，否则 $\mathrm{rel}_i = 0$ 。
- $\log_2(i+1)$ : 折扣因子，意味着排名越靠后的物品，其相关性增益的贡献越小。
- $\mathrm{IDCG@K}$ : 理想情况下的累积增益，即所有真值物品按照相关性降序排列时的 DCG 值。
- $\mathrm{rel}^{\mathrm{ideal}}_i$ : 理想情况下排名第 $i$ 的物品的相关性评分。
- $|\mathrm{T}_u|$ : 用户 $u$ 实际交互过的物品数量。在计算 $\mathrm{IDCG@K}$ 时，通常取 $\min(K, |\mathrm{T}_u|)$ 。
- $U$ : 所有用户的集合。
- $u$ : 集合 $U$ 中的一个用户。

5.3. 对比基线

本文将 LAMIA 框架与以下两类推荐器进行基准测试：

基于唯一 ID 的推荐器 (Unique ID-based recommenders)：
- GRU4Rec [9]: 基于门控循环单元 (Gated Recurrent Unit, GRU) 的序列推荐模型。
- Caser [34]: 使用卷积序列嵌入 (Convolutional Sequence Embedding) 的个性化 Top-N 序列推荐模型。
- SASRec [14]: 基于自注意力 (Self-Attentive) 机制的序列推荐模型。
  - SASRec3L, SASRec6L, SASRec12L 表示使用 3、6、12 层 Transformer 层。
- BERT4Rec [33]: 基于 BERT (Bidirectional Encoder Representations from Transformers) 的双向编码器表示的序列推荐模型。
- P5 [6]: 将推荐任务视为语言处理任务的统一预训练模型。
基于语义编码的推荐器 (Semantic code-based recommenders)：
- TIGER [29]: 引入语义标识符的生成式检索推荐系统。
- LC-Rec [46]: 通过集成协同语义来适应大型语言模型进行推荐。
- CoST [47]: 基于对比量化的生成式推荐语义标记化方法。
- EAGER [39]: 结合行为-语义协作的双流生成式推荐器。

重要说明：

EAGER [39] 的标记化方法结合了物品内容和行为知识来学习语义标识符，这与仅使用内容信息的其他方法（如 TIGER、LC-Rec、CoST 和 LAMIA）不同。因此，EAGER 的比较可能不是完全公平的（用 $\ddagger$ 标记）。
所有基于编码的推荐器 (TIGER, LC-Rec, CoST 和 LAMIA) 都使用四个编码 ( $v=4$ ) 来表示每个物品，并且每个位置的编码词汇表大小固定为 256。

5.4. 实现细节

5.4.1. LAMIA

骨干 LLM： 使用预训练的 OPT-350M [44] 作为骨干大型语言模型来学习物品调色板。
优化器： Adam [15] 优化器。
学习率： 1e-4。
批次大小： 128。
LoRA Rank： 128 (LoRA [10] 是一种参数高效微调技术)。
调色板大小 ( $L$ )： 4 (即每个物品学习 4 个独立嵌入)。
调色板内/间对比边距 ( $\sigma_{\mathrm{intra}}$ 和 $\sigma_{\mathrm{inter}}$ )： 分别设置为 0.1 和 0.25。
调色板对比权重 ( $\gamma$ )： 0.1 (平衡生成损失和对比损失)。

5.4.2. 自监督生成任务 (Self-supervised generative tasks)

MIND 数据集 ( $m=4, r=2$ )： 使用新闻标题和摘要构成内容块。设计了四个生成任务：生成标题、摘要、类别和子类别。
H&M 数据集 ( $m=r=7$ )： 使用时尚描述、产品类型、产品组、外观名称、主色名称、颜色值名称和索引名称构成内容块。每个属性对应一个生成任务。

5.4.3. 聚类器 (Clusterer)

PCA 降维： 应用 PCA [25] 将 1024 维的物品嵌入降维到 64 个主成分。
K-Means 聚类： 随后将每个位置（调色板的每个方面）聚类成 256 个组。
Hinge Loss 相似度阈值： 在公式 (8) 中的 Hinge Loss 相似度阈值设置为 0.25。
损失权重平衡超参数 ( $\gamma$ )： 设置为 0.1。
物品碰撞处理： 使用额外的索引词元 (index token) 来确保物品被映射到不同的语义标识符。

5.4.4. 生成式推荐器 (Generative recommender)

用户历史序列最大长度： 20。
预测目标： 序列中的最后一个物品。
骨干模型： 使用相同的预训练 OPT-base (OPT-350M) 作为骨干。
学习率： 5e-4。
批次大小： 64。
LoRA Rank： 128。
训练流程：
1. LLM-based 推荐器开始时，联合学习生成式推荐任务和文本-词元对齐任务。
2. 模型收敛后，将通过单一的生成式推荐任务进一步微调。
早停机制 (Early stopping mechanism)： 使用耐心 (patience) 为 5 的早停机制。
硬件： 所有实验均在单个 NVIDIA A100 设备（80GB 内存）上进行。
可复现性： 将发布所有代码和数据。
评估基准： 采用 RecBench [23] 基准评估大型语言模型的推荐能力。

6. 实验结果与分析

6.1. 核心结果分析

以下是原文 Table 3 的结果，概述了 LAMIA 框架与 11 个基线模型在三个数据集上的性能。

Method	Embedder	Recommender	Recall %			NDCG %			Recall %			NDCG %			Recall %			NDCG %
Method	Embedder	Recommender	MIND						CDs						H&M
			5	10	20	5	10	20	5	10	20	5	10	20	5	10	20	5	10	20
GRU4Rec[9]			0.48	0.52	0.60	0.38	0.40	0.42	0.22	0.22	0.25	0.14	0.14	0.16	2.62	2.80	3.28	2.24	2.37	2.69
Caser [34]			0.88	1.02	1.18	0.30	0.32	0.40	0.14	0.14	0.14	0.14	0.14	0.14	2.02	2.24	3.69	2.69	1.82	1.82
Bert4Rec [33]	N/A	N/A	0.82	1.04	1.56	0.38	0.41	0.41	0.18	0.18	0.24	0.13	0.14	0.24	1.98	1.75	2.44	1.90	1.92	1.92
SASRec3L [14]			1.00	1.26	2.28	0.30	0.31	0.38	0.24	0.24	0.21	0.16	0.16	0.16	2.24	2.64	2.98	1.74	1.74	1.74
SASRec6L			1.08	1.18	1.18	0.24	0.25	0.25	0.10	0.10	0.18	0.22	0.12	0.12	3.12	2.68	4.26	2.09	2.09	2.09
SASRec12L			3.00	3.54	4.18	1.24	1.31	1.31	0.88	0.88	1.64	0.47	0.48	0.49	3.66	3.66	4.74	3.12	3.12	3.12
Item Representation: Hierarchical Semantic ID, using RQ-VAE or Hierarchical K-Means
CoST [47]	SentenceT5	TRM3L	2.72	3.22	4.50	1.97	2.13	2.45	1.42	1.66	1.74	1.32	1.58	1.92	3.36	4.49	5.71	2.80	3.75	4.76
EAGER [39]	SentenceT5*	TRM3L	2.00	3.48	5.32	1.36	1.83	2.51	1.56	1.74	1.92	1.28	1.54	1.88	3.71	4.60	5.89	1.10	1.33	1.32
TIGER [29]	SentenceBert	TRM3L	2.98	3.42	4.44	2.15	2.50	2.50	1.72	1.88	2.20	1.48	1.48	1.66	3.67	4.50	6.66	1.00	1.33	1.63
LC-Rec [46]	Llama1-7B	Llama1-7B	2.52	3.30	4.82	1.76	2.61	3.74	1.74	1.84	2.36	1.45	1.52	1.72	3.67	4.50	6.66	1.00	1.33	1.63
Item Representation: Parallel Semantic ID, using LAMIA (ours)
LAMIA (ours)	OPT-350M	OPT-350M	9.08	9.96	10.56	7.42	7.71	7.87	38.88	39.70	40.04	36.16	36.43	36.52	11.50	12.68	13.44	9.17	9.56	9.75

表 3: 检索场景下的整体性能比较。星号 ( $\ddagger$ ) 表示不公平的比较，因为标记化方法 (例如 EAGER) 结合了内容和行为嵌入，而其他方法仅使用内容信息。使用 "TRM" 表示带有因果注意力机制的从零开始训练的 Transformer 网络。使用 "3L", "6L" 和 "12L" 表示 Transformer 层的数量。粗体表示最佳分数，下划线表示次佳分数。

从 Table 3 的结果中，可以得出以下观察：

SASRec 系列模型的性能：
- 通常情况下，SASRec 系列模型（SASRec3L, SASRec6L, SASRec12L）的性能随着注意力层数的增加而提高。这反映了传统序列推荐器在模型扩展方面的行为。
- 在 MIND 和 CDs 数据集上，基于语义标识符的方法普遍优于基于唯一标识符的方法。这表明语义信息对于这些数据集的推荐任务是有效的。
- 然而，在 H&M 数据集上，基于唯一标识符的方法表现更好（SASRec12L 获得次佳性能）。这可能是由于 H&M 数据集的内容特征质量较低，例如，相似的服装描述可能对应不同的标签（如颜色、类型），使得有效的语义标记化变得具有挑战性。
TIGER-Transformer 系列模型的性能：
- 对于 TIGER-Transformer 系列，增加 Transformer 层数通常会带来性能提升。
- 值得注意的是，将 TRM12L 替换为 12 层的 BERTbase 作为生成式推荐器，性能获得了显著提升。这强调了预训练语言模型在捕捉丰富语义信息和用户意图方面的价值，即使这些能力是隐含地编码在语义 ID 中的。
LC-Rec 与 TIGER 的对比：
- LC-Rec 使用 LLaMA-17B 提取物品内容嵌入，但其性能相比 TIGER 的 SentenceBert-based 模型而言，表现出更大的不可预测性。
- 尽管 LLaMA-1 拥有更广泛的通用世界知识，但专门为句子表示进行预训练的 SentenceBERT 在所有三个数据集上都取得了更好的结果。这表明在当前语境下，BERT 的领域知识足以用于内容理解。
LAMIA 的卓越性能：
- 本文提出的 LAMIA 框架，采用并行语义 ID，在两个数据集 (MIND 和 CDs) 上均优于传统的层次语义 ID 方法，取得了最佳结果。
- 在 H&M 数据集上，LAMIA 也取得了具有竞争力的性能，仅次于 SASRec12L。
- 这些结果有力地证明了 LAMIA 模型设计的有效性，特别是其多方面、并行语义表示和领域自适应微调的能力。

6.2. 消融实验/参数分析

本文还进行了消融实验，以研究框架内各个组件的有效性。以下是原文 Table 4 的结果：

Quantizer Recommender	$\mathcal {L}_{\mathrm {cl}}$	$\mathcal {L}_{\mathrm {align}}$	`R@5`	`R@10`	`R@20`	`N@5`	`N@10`	`N@20`	`R@5`	`R@10`	`R@20`	`N@5`	`N@10`	`N@20`
Quantizer Recommender	$\mathcal {L}_{\mathrm {cl}}$	$\mathcal {L}_{\mathrm {align}}$	MIND						H&M
RQ-VAE BERTbase	N/A	×	6.74	6.90	7.17	5.02	5.35	5.58	5.25	6.38	6.86	3.94	4.15	4.50
LAMIA BERTbase	×	√	4.30	6.06	7.94	3.41	3.57	3.83	8.38	9.42	10.14	6.02	6.70	7.15
LAMIA BERTbase	√	×	8.84	9.79	10.26	7.06	7.28	7.38	10.88	11.80	12.64	8.55	8.93	9.08
LAMIA BERTbase	√	√	9.08	9.96	10.56	7.42	7.71	7.87	11.50	12.68	13.44	9.17	9.56	9.75

表 4: 消融实验。 $\mathcal{L}_{\mathrm{cl}}$ 和 $\mathcal{L}_{\mathrm{align}}$ 分别表示是否使用对比任务和对齐任务。'N/A' 表示该设置不适用。

基于 Table 4 的结果，可以得出以下观察：

LAMIA 与 RQ-VAE 的对比：
- 第一行 (RQ-VAE-BERTbase) 遵循传统的 RQ-VAE 语义标记化流程，使用与 LAMIA 相同的预训练 OPT-base 模型。
- 本文的 LAMIA 框架 (最后一行) 在所有指标上均优于这一基线配置。这有力地证明了领域自适应微调 (domain-adaptive tuning) 和多方面物品调色板 (multi-aspect item palette) 的引入所带来的优势。
移除对比损失 ( $\mathcal{L}_{\mathrm{cl}}$ ) 的影响：
- 当 LAMIA 框架移除了辅助对比任务 ( $\mathcal{L}_{\mathrm{cl}}$ ) 时 (第二行，LAMIA BERTbase， $\mathcal{L}_{\mathrm{cl}}$ 为 ×)，性能显著下降。例如，在 MIND 数据集上，Recall@5 从 9.08% 下降到 4.30%。
- 对比损失旨在增强物品调色板嵌入的可分离性，确保不同嵌入之间包含最小冗余信息。移除该组件可能导致不同嵌入存储相似的物品内容特征，从而使聚类过程复杂化，并降低语义标识符的质量。这一结果强调了调色板对比任务的有效性。
移除文本-词元对齐任务 ( $\mathcal{L}_{\mathrm{align}}$ ) 的影响：
- 当 LAMIA 仅使用序列推荐任务（即下一个物品预测）进行训练，而移除了文本-词元对齐任务 ( $\mathcal{L}_{\mathrm{align}}$ ) 时 (第三行，LAMIA BERTbase， $\mathcal{L}_{\mathrm{align}}$ 为 ×)，性能也低于完整的 LAMIA 模型。例如，在 MIND 数据集上，Recall@5 从 9.08% 下降到 8.84%。
- 引入文本-词元对齐任务对于弥合文本和词元之间的语义鸿沟至关重要。它强制 LLMs 学习离散词元（语义标识符）背后的真实语义，从而增强模型对用户序列的语义理解能力。

6.3. 语义标识符长度的影响 (Effect of Semantic Identifier Length)

fig 7 该图像是图表，展示了LAMIA和RQ-VAE在不同语义标识符长度下的R@5值。可以看出，LAMIA在所有长度上均表现出优于RQ-VAE的推荐准确率，特别是在语义标识符长度为8时，达到最高值接近30的结果。

图 6: LAMIA 和 RQ-VAE 基于不同语义标识符长度的性能比较。实验在 MIND 数据集上进行。RQ-VAE 曲线由 TIGER 模型生成。

Figure 6 展示了语义标识符长度（或物品调色板大小）对性能的影响。分析揭示了以下几点：

初期性能提升： 对于 RQ-VAE 和 LAMIA，性能都随着标识符长度的增加而提高，直到长度达到 6。这表明增加标识符长度可以捕获更多的物品信息，从而改善推荐效果。
RQ-VAE 的性能下降： 当标识符长度超过 6 后，RQ-VAE 的性能开始下降。这归因于 RQ-VAE 所采用的层次化和残差离散化方法。在 RQ-VAE 中，后续的离散词元往往包含比早期词元更少的信息，其效用逐渐降低，反而可能对整体性能产生负面影响。
LAMIA 的持续改进： 相比之下，当长度达到 8 时，LAMIA 的性能继续显示出轻微的提升。这是因为 LAMIA 采用了多方面物品调色板方法，将每个调色板嵌入视为等同，每个嵌入都封装了物品内容的一个独立方面。因此，增加调色板的长度可以增强表示的粒度和丰富性，从而带来持续的性能改善。

6.4. 可视化 (Visualization)

fig 3 该图像是 t-SNE 散点图，展示了 RQ-VAE 和 LAMIA 方法在不同token下的分类效果。图中显示了不同类别的数据点分布，能够直观地比较两种方法在多方面语义标记中的表现。

图 7: RQ-VAE (TIGER [29]) 和 LAMIA 在 MIND 数据集上生成的语义标识符的可视化。每个点代表一个物品，相同颜色的点表示被分配了相同的自动生成的类别标签的物品。子图内点之间的空间接近性反映了由地面真值信息定义的密切语义关系。类别是随机选择的。LAMIA 旨在生成多方面语义词元，其中每个词元在不同位置捕获物品语义的一个独特方面。这种设计反映在某些类别中观察到的聚类行为。

本文使用 t-SNE [36] 技术将由 SentenceT5 [27] 提取的物品内容嵌入投影到二维空间，以可视化 RQ-VAE 和 LAMIA 生成的语义标识符。子图中点之间的距离越短，表示物品之间的语义关系越紧密。研究中每个语义词元有 256 个潜在类别，本文随机选择了五个类别进行可视化，揭示了独特的聚类行为：

RQ-VAE 的聚类行为： RQ-VAE 的初始词元聚类反映了其基于原始嵌入的分层聚类技术。然而，后续层中的残差影响导致分散。这意味着虽然第一层可能捕捉到主要类别，但随着层数的增加，细粒度信息可能会导致类别内的分散，使得整体语义边界不那么清晰。
LAMIA 的聚类行为：
- LAMIA 为每个词元 (token) 显示出焦点聚类 (focal clusters)（例如，Figure 7e 中的类别 197，Figure 7f 中的类别 50）。
- 这表明，由 t-SNE 推断出的主要物品语义分布在不同的词元中，每个词元对应于物品的不同方面。这意味着为了全面的语义学习，需要多样化的词元位置。这种多方面表示使得 LAMIA 能够更精细地捕获物品的复杂语义，例如，一个词元可能捕捉“主题”，另一个捕捉“风格”，第三个捕捉“用途”。
  
  总体而言，可视化结果进一步支持了 LAMIA 在捕获物品多方面语义方面的优势，并解释了其在性能上优于传统 RQ-VAE 的原因。

7. 总结与思考

7.1. 结论总结

本文提出了 LAMIA (Learning Multi-Aspect Item Palette)，一个用于生成式推荐的新型语义标记化框架。与现有主要依赖预训练嵌入和 RQ-VAE 技术的传统方法不同，LAMIA 框架专注于通过基于文本的重建任务来学习多方面物品调色板 (multi-aspect item palette)。这种方法不仅能够生成更具多样性的语义词元，而且避免了与 RQ-VAE 相关的训练不稳定性问题。

LAMIA 的核心贡献在于：

多方面并行语义表示： 学习一个由独立且语义并行的嵌入组成的“物品调色板”，有效捕捉物品的多个方面信息，克服了 RQ-VAE 仅捕获单一主导语义的局限。
领域自适应文本级重建： 通过领域特定微调和基于文本的重建任务来增强语义编码器，减少了信息损失，并使得生成的物品调色板嵌入更具代表性。
更稳定的量化过程： 采用简单的 K-Means 聚类算法进行量化，避免了复杂的可微分向量量化（如 RQ-VAE）中常见的训练挑战，如代码崩溃。
卓越的推荐性能： 在 MIND、Amazon CDs 和 H&M 等多个真实世界数据集上的广泛实验验证了 LAMIA 的有效性，在生成式推荐指标上取得了显著优于现有方法的改进。

7.2. 局限性与未来工作

论文作者指出了 LAMIA 框架的一个主要局限性：

自监督微调的时间成本： 使用文本级重建任务对大型语言模型进行自监督微调可能是一个耗时的过程。

基于此局限性，作者提出了未来的研究方向：
加速多方面调色板学习过程： 计划探索策略来加速多方面调色板的学习过程，从而提高训练效率。

7.3. 个人启发与批判

7.3.1. 个人启发

多视角表示的价值： LAMIA 强调了物品多方面语义表示的重要性，这对于理解复杂物品（如新闻文章具有多个主题、商品具有多种功能）至关重要。这种多视角思维可以推广到其他领域，例如用户画像构建（用户可以有多种兴趣爱好）、知识图谱嵌入（实体可以有多种关系类型），甚至跨模态学习（图像可以有多个视觉特征和语义概念）。
领域适应性微调的必要性： 论文通过领域特定微调显著提升了性能，这提醒我们，即使是强大的预训练模型，在特定应用领域仍需进行针对性调整，以更好地适应领域数据分布和任务需求。这对于将 LLMs 应用到垂直领域（如医疗、法律、金融）具有重要指导意义。
简化量化流程的优势： LAMIA 通过将复杂的 RQ-VAE 替换为简单的 K-Means 聚类，不仅提高了训练稳定性，还可能降低了模型的复杂度和资源消耗。这提示研究者，在追求性能的同时，也应考虑方法的可行性、稳定性和效率。
文本-词元对齐的桥梁作用： 文本-词元对齐任务在弥合自然语言和离散词元之间的语义鸿沟方面发挥了关键作用。这种“翻译”或“对齐”的思路可以应用于其他需要连接不同表示形式的场景，例如将用户行为序列与自然语言描述对齐，或将非结构化数据与结构化知识对齐。

7.3.2. 批判与潜在改进

“独立且语义并行”的量化：论文声称 LAMIA 学习的是“独立且语义并行”的嵌入。虽然引入了对比损失来减少冗余，但如何严格量化和验证这些“独立性”和“并行性”仍需更深入的探讨。例如，可以引入互信息 (Mutual Information) 或其他统计学指标来更严格地评估不同方面嵌入之间的独立性。
K-Means 聚类的局限性： 尽管 K-Means 简单有效，但它是一种基于距离的硬聚类方法，对初始中心敏感，并且假设簇是球形的。如果物品的语义分布更为复杂或具有非线性结构，K-Means 可能无法捕捉到最佳的语义边界。未来可以探索更高级的聚类算法（如 DBSCAN、层次聚类或基于密度的聚类），或者引入自适应聚类机制。
多方面语义的解释性： LAMIA 的优势在于多方面表示，但如何清晰地解释每个词元究竟代表了物品的哪个特定“方面”仍然是一个挑战。虽然可视化可以提供一些直观感受，但更定量的、可解释的方法（例如，通过归因技术或主题模型来分析每个词元对应的文本内容）将有助于用户和开发者更好地理解模型的决策。
计算资源消耗： 尽管 LAMIA 简化了量化过程，但其依赖于大型语言模型进行领域自适应微调，这本身就需要大量的计算资源和时间。未来的工作可以探索更高效的微调策略（如更轻量级的 PEFT 方法），或者研究如何从少量标注数据中有效学习物品调色板。
冷启动物品的有效性验证： 论文提到解决冷启动物品是动机之一，但实验结果主要集中在整体推荐性能上。针对不同冷启动程度的物品进行专门的实验分析和案例研究，将更有力地证明 LAMIA 在该场景下的实际效用。
超参数敏感性： 对比损失中的边距 ( $\alpha_{\mathrm{intra}}, \alpha_{\mathrm{inter}}$ ) 和权重 ( $\gamma$ ) 等超参数对模型性能有显著影响。论文中仅给出了实验使用的值，但缺乏对这些超参数敏感性的详细分析，例如它们在不同数据集或任务上的鲁棒性。

LAMIA 为生成式推荐领域的语义标记化提供了一个新颖且强大的视角，其在多方面表示和训练稳定性上的创新具有重要的实践价值和理论启发意义。

相似论文推荐

基于向量语义检索推荐的相关论文。

暂时没有找到相似论文。