Pctx: Tokenizing Personalized Context for Generative Recommendation
TL;DR 精炼摘要
本文提出个性化上下文感知词元化器,将用户历史交互纳入语义ID生成,实现同一物品在不同用户上下文中有不同词元表示。该方法提升了生成式推荐模型的个性化能力,在三个公开数据集上NDCG@10最高提升11.44%。
摘要
Generative recommendation (GR) models tokenize each action into a few discrete tokens (called semantic IDs) and autoregressively generate the next tokens as predictions, showing advantages such as memory efficiency, scalability, and the potential to unify retrieval and ranking. Despite these benefits, existing tokenization methods are static and non-personalized. They typically derive semantic IDs solely from item features, assuming a universal item similarity that overlooks user-specific perspectives. However, under the autoregressive paradigm, semantic IDs with the same prefixes always receive similar probabilities, so a single fixed mapping implicitly enforces a universal item similarity standard across all users. In practice, the same item may be interpreted differently depending on user intentions and preferences. To address this issue, we propose a personalized context-aware tokenizer that incorporates a user's historical interactions when generating semantic IDs. This design allows the same item to be tokenized into different semantic IDs under different user contexts, enabling GR models to capture multiple interpretive standards and produce more personalized predictions. Experiments on three public datasets demonstrate up to 11.44% improvement in NDCG@10 over non-personalized action tokenization baselines. Our code is available at https://github.com/YoungZ365/Pctx.
思维导图
论文精读
中文精读
1. 论文基本信息
1.1. 标题
Pctx: Tokenizing Personalized Context for Generative Recommendation (Pctx:为生成式推荐对个性化上下文进行词元化)
1.2. 作者
Qiyong Zhong, Jiajie Su, Yunshan Ma, Julian McAuley, Yupeng Hou。 主要作者来自浙江大学 (Zhejiang University)、加利福尼亚大学圣地亚哥分校 (University of California, San Diego) 和新加坡管理大学 (Singapore Management University)。
1.3. 发表期刊/会议
该论文以预印本 (arXiv preprint) 形式发布。
1.4. 发表年份
2025年。
1.5. 摘要
生成式推荐 (Generative Recommendation, GR) 模型将每个用户行为 (action) 词元化 (tokenize) 为几个离散的词元 (token),称为语义ID (semantic IDs),并自回归 (autoregressively) 地生成下一个词元作为预测。这种方法在内存效率、可扩展性 (scalability) 以及统一检索和排序 (retrieval and ranking) 方面展现出优势。尽管有这些优点,现有的词元化方法是静态且非个性化的。它们通常仅根据物品特征 (item features) 导出语义ID,假设物品相似性是普适的 (universal item similarity),而忽视了用户特定的视角 (user-specific perspectives)。然而,在自回归范式下,具有相同前缀的语义ID总是获得相似的概率,因此单一的固定映射隐式地在所有用户之间强制执行了一个普适的物品相似性标准。实际上,同一个物品根据用户的意图和偏好可能会有不同的解释。为了解决这个问题,本文提出了一个个性化上下文感知词元化器 (personalized context-aware tokenizer),它在生成语义ID时融入了用户的历史交互 (historical interactions)。这种设计允许同一个物品在不同的用户上下文 (user contexts) 下被词元化为不同的语义ID,从而使 GR 模型能够捕获多种解释标准并生成更个性化的预测。在三个公共数据集上的实验表明,与非个性化行为词元化基线相比,NDCG@10 指标提升高达 11.44%。
1.6. 原文链接
官方来源或 PDF 链接:
- 原文链接: https://arxiv.org/abs/2510.21276
- PDF 链接: https://arxiv.org/pdf/2510.21276v1.pdf 发布状态:预印本 (preprint),发布于 2025-10-24T09:22:04.000Z。
2. 整体概括
2.1. 研究背景与动机
2.1.1. 核心问题
传统的推荐系统主要依赖于基于ID的方法 (ID-based approaches),将每个物品视为一个独立的实体。近年来,生成式推荐 (Generative Recommendation, GR) 作为一种新兴范式,通过将用户行为词元化 (tokenize) 为语义ID (semantic IDs) 并采用自回归模型进行预测,展现了内存效率高、可扩展性好以及统一检索和排序的潜力。
然而,现有的 GR 模型在行为词元化方面存在一个核心问题:它们大多采用静态且非个性化的词元化方法。这意味着同一个物品总是被映射到同一个固定的语义ID,其语义ID的生成仅基于物品自身的特征(如文本描述)。这种“一刀切”的方法隐式地假设了一个普适的物品相似性标准,即一个物品与其他物品的相似度对于所有用户都是相同的。
2.1.2. 为什么这个问题很重要?
在自回归生成模型中,如果语义ID具有相同的前缀,它们在生成时就会获得相似的预测概率。当物品被静态词元化时,这种机制会强制模型对具有相似特征的物品施加普适的相似性标准,而无法捕捉到用户个性化、多样的意图和偏好。例如,购买同一块昂贵手表的两个用户,一个可能将其视为礼物,另一个可能将其视为投资。这两种不同的意图,决定了这块手表在不同用户心中的“相似物品”是截然不同的。静态词元化无法区分这些细微的用户意图差异,导致推荐结果缺乏个性化和准确性。
2.1.3. 论文的切入点与创新思路
为了解决静态词元化的局限性,本文提出了一个创新思路:设计一个个性化上下文感知词元化器 (personalized context-aware tokenizer)。其核心思想是,在生成物品的语义ID时,不仅考虑物品本身的特征,还要融入用户的历史交互信息作为上下文。这样,同一个物品在不同的用户上下文下可以被词元化为不同的语义ID,从而反映用户对其的多样化解释和意图。
2.2. 核心贡献/主要发现
2.2.1. 论文最主要的贡献
- 首次提出个性化上下文感知词元化器 (Personalized Context-Aware Tokenizer, Pctx): Pctx 是第一个将用户的完整历史交互作为上下文,对物品进行个性化词元化的方法。它打破了现有 GR 模型静态、非个性化词元化的限制,允许同一个物品在不同用户背景下具有不同的语义ID。
- 提出应对个性化词元化挑战的策略: 针对个性化词元化可能导致的稀疏性 (sparsity) 和泛化能力 (generalizability) 下降问题,Pctx 设计了多项策略:
- 多面凝缩 (Multi-Facet Condensation): 通过聚类用户的上下文表示来为每个物品生成一组具有代表性的上下文。
- 冗余语义ID合并 (Redundant Semantic ID Merging): 减少因上下文相似或数据稀疏导致的冗余语义ID。
- 数据增强 (Data Augmentation): 通过随机替换物品的个性化语义ID来增加训练数据的多样性,并隐式连接同一物品的不同语义ID。
- 验证了个性化语义ID对 GR 模型的增强作用: 实验结果表明,Pctx 显著提升了 GR 模型的推荐性能,并使其能够捕获和生成多样的用户解释。
2.2.2. 论文的关键结论或发现
- 显著的性能提升: 在三个公共数据集上,Pctx 在
NDCG@10指标上相比非个性化词元化基线取得了高达 11.44% 的提升,证明了其优越性。 - 个性化上下文的有效性: 消融实验 (ablation study) 证明,将
DuoRec提取的序列表示 (sequence representation) 作为个性化上下文比使用SASRec或静态的物品嵌入 (item embedding) 更为有效。 - 平衡泛化与个性化的重要性:
多面凝缩和冗余语义ID合并策略对于提高个性化语义ID的质量和模型泛化能力至关重要。 - 数据增强和多面生成的好处: 在训练中使用数据增强和在推断时采用多面语义ID生成 (multi-facet semantic ID generation) 机制,进一步提升了模型的性能和解释性。
- 语义ID的多样性和解释性: 案例研究 (case study) 和可解释性实验 (explainability experiment) 表明,Pctx 能够为同一物品分配多个语义ID,这些语义ID确实对应着用户对物品的不同解释和偏好,且这些解释是人类可理解的 (human-interpretable)。
3. 预备知识与相关工作
3.1. 基础概念
3.1.1. 生成式推荐 (Generative Recommendation, GR)
概念定义: 生成式推荐 (Generative Recommendation, GR) 是一种新兴的推荐系统范式,它借鉴了自然语言处理领域中大型语言模型 (Large Language Models, LLMs) 的自回归生成 (autoregressive generation) 思想。与传统的推荐系统直接预测物品ID或评分不同,GR 模型首先将用户与物品的交互行为(例如,点击、购买)抽象为一系列离散的词元 (token),这些词元共同构成了一个语义ID (semantic ID)。然后,模型学习如何基于用户历史交互的语义ID序列,自回归地预测下一个物品的语义ID序列。
目标: GR 的目标是学习一个生成模型 ,其中 是用户历史行为的语义ID序列, 是下一个预期行为的语义ID序列。
优势:
- 内存效率 (Memory Efficiency): 相比于为每个物品维护一个庞大的 ID 嵌入表,共享的词元词汇表 (compact vocabulary) 显著减少了内存占用。
- 可扩展性 (Scalability): 能够更好地处理大规模物品集,并且可以利用预训练的生成模型能力。
- 统一检索和排序 (Unify Retrieval and Ranking): 有潜力将传统推荐系统中的多阶段管道(如召回和排序)统一在一个生成框架下。
3.1.2. 语义ID (Semantic ID)
概念定义: 在生成式推荐中,语义ID (semantic ID) 是一种将每个用户行为(通常指与物品的交互)转换为一系列离散词元 (discrete tokens) 的表示方式。每个物品不再由一个唯一的整数ID表示,而是由一个短的、由几个词元组成的序列来表示。例如,一个物品的语义ID可能是 [m1, m2, m3]。这些词元通常从一个相对较小的共享词汇表 (compact vocabulary) 中选择。
作用: 语义ID旨在捕捉物品的内在语义信息,使其在词元空间中具有可比较性。例如,相似的物品可能具有相似的语义ID序列或共享部分词元。这种表示方式使得生成模型可以像处理自然语言一样处理物品序列,通过预测下一个语义ID的词元序列来推荐物品。
3.1.3. 自回归模型 (Autoregressive Models)
概念定义: 自回归模型 (Autoregressive Models) 是一类在序列数据建模中广泛使用的统计或机器学习模型。其核心思想是,序列中的每个元素(或词元)的生成都依赖于其前面已经生成的所有元素。
在 GR 中的应用: 在生成式推荐的语境下,自回归模型被训练来预测用户行为序列中的下一个语义ID。具体来说,给定一个用户的历史交互序列 ,每个 被词元化为语义ID 。自回归模型的目标是预测下一个物品 的语义ID 。这通常通过逐词元地预测 来实现,其中每个词元的预测都以其前面的所有词元(包括当前物品已生成的词元和所有历史物品的词元)为条件。
数学公式:
对于一个生成模型,给定一个词元序列 ,其生成概率可以表示为:
在 GR 中,这表示模型根据已知的历史语义ID序列 和当前物品已生成的词元 来预测下一个词元 。
3.1.4. RQ-VAE (Residual Quantization Variational AutoEncoder)
概念定义: RQ-VAE (Residual Quantization Variational AutoEncoder) 是一种用于离散表示学习 (discrete representation learning) 的模型,特别擅长将连续的特征向量量化 (quantize) 为一系列离散的词元 (tokens)。它结合了残差量化 (residual quantization) 和变分自编码器 (Variational AutoEncoder, VAE) 的思想。
工作原理:
-
编码器 (Encoder): 将连续的输入向量(如物品嵌入)编码成一个潜在的连续表示。
-
量化器 (Quantizer): 这是核心部分。
残差量化通过迭代的方式将连续潜在表示分解为多个离散的码本向量 (codebook vectors)。在每一步,它量化当前残差,并将量化误差作为新的残差传递给下一层。这样,一个连续向量被表示为多个离散码本索引的组合。 -
解码器 (Decoder): 将这些离散的码本索引(即词元)解码回连续空间,并尝试重构原始输入。
在 GR 中的应用:
RQ-VAE被用来将物品的连续特征表示(如从文本特征或上下文特征融合而来的嵌入)转换为一个短的离散语义ID序列。例如,TIGER模型就使用RQ-VAE来生成物品的语义ID。
3.1.5. k-means++ (k-means++)
概念定义: k-means++ 是一种改进的 k-means 聚类算法的初始化方法,旨在提高 k-means 算法的聚类质量和收敛速度。k-means 算法本身是一种迭代的、基于质心 (centroid-based) 的聚类方法,目标是将 个数据点划分到 个簇中,使得每个数据点到其所属簇质心的距离平方和最小。
k-means 算法核心步骤:
-
初始化: 随机选择 个数据点作为初始簇质心。
-
分配: 将每个数据点分配到最近的簇质心。
-
更新: 重新计算每个簇的质心(通常是簇内所有点的均值)。
-
迭代: 重复步骤2和3,直到簇分配不再改变或达到最大迭代次数。
k-means++的改进:k-means++改进了k-means的初始质心选择过程,使得初始质心之间的距离尽可能远,从而避免了k-means容易陷入局部最优解的缺点。
在 Pctx 中的应用: 在 Pctx 中,k-means++ 用于将一个物品在不同用户上下文下产生的大量上下文表示 (context representations) 聚类成少数几个代表性上下文表示 (representative context representations)(即簇质心)。这有助于将丰富的个性化信息凝缩成可管理的、有限数量的语义ID,从而平衡个性化和泛化能力。
3.1.6. Transformer 模型与 Attention 机制 (Transformer Models and Attention Mechanism)
虽然论文中没有直接给出 Attention 机制的公式,但它明确提到 GR 模型通常采用自回归编码器-解码器 (autoregressive encoder-decoder) 架构,并且在 Implementation Details 中说明使用了 sentence-t5-base 作为核心架构,T5 是一种基于 Transformer 的模型。因此,Transformer 及其核心 Attention 机制是理解这类模型如何处理序列和捕捉上下文依赖的关键。
概念定义: Transformer 是一种基于自注意力机制 (self-attention mechanism) 的神经网络架构,由 Vaswani et al. (2017) 首次提出。它彻底改变了序列建模领域,成为现代大型语言模型(如 GPT、BERT、T5)的基础。Transformer 摒弃了传统的循环神经网络 (RNN) 和卷积神经网络 (CNN) 结构,能够并行处理序列中的所有元素,从而显著提高了训练效率和处理长序列的能力。
注意力机制 (Attention Mechanism): 注意力机制 允许模型在处理序列中的一个元素时,能够“关注”到序列中的其他相关元素,并根据它们的重要性分配不同的权重。
自注意力机制 (Self-Attention Mechanism): 自注意力 是 Transformer 的核心组成部分,它使模型能够在一个序列内部,计算每个位置与其他所有位置之间的关系权重。
数学公式: 经典的缩放点积注意力 (Scaled Dot-Product Attention) 计算公式如下:
符号解释:
-
(Query): 查询矩阵,由输入序列通过线性变换得到,形状为 ,其中 是序列长度, 是查询向量的维度。
-
(Key): 键矩阵,由输入序列通过线性变换得到,形状为 。
-
(Value): 值矩阵,由输入序列通过线性变换得到,形状为 ,其中 是值向量的维度。
-
: 计算查询和键的点积,表示查询与每个键的相似度。
-
: 缩放因子,用于防止当 很大时点积结果过大,导致
softmax函数梯度过小。 -
:
softmax函数,将相似度分数转换为概率分布,使得所有权重之和为 1。 -
: 值矩阵,加权求和后的值向量。
在 GR 中的意义: 在
GR模型中,特别是基于Transformer架构的GR模型,Attention机制允许模型在生成下一个语义ID的词元时,能够同时考虑到用户历史交互序列中的所有物品及其语义ID,并识别出哪些历史行为对于当前预测最为重要。这种能力对于捕捉长期的用户偏好和序列依赖至关重要。
3.1.7. DuoRec (Contrastive Learning for Representation Degeneration)
概念定义: DuoRec (Qiu et al., 2022) 是一种用于序列推荐的模型,旨在解决序列表示学习中的表示退化 (representation degeneration) 问题。表示退化是指模型学习到的序列嵌入向量在向量空间中分布过于紧密,导致区分度下降,影响推荐性能。DuoRec 通过对比学习 (contrastive learning) 来缓解这个问题。
工作原理:
DuoRec 的核心思想是,通过对比学习,鼓励模型学习到更具区分度的序列表示。它通常通过构造正样本对 (positive pairs) 和负样本对 (negative pairs) 来实现:
- 正样本: 两个不同的增强视图 (augmented views) 来自同一个用户交互序列。
- 负样本: 一个序列的增强视图与来自不同用户序列的视图。 模型的目标是最大化正样本对之间的相似度,同时最小化负样本对之间的相似度。
在 Pctx 中的应用: Pctx 采用了 DuoRec 作为其辅助模型来编码用户上下文。选择 DuoRec 的原因是它明确地通过对比学习优化序列表示,使其“更具区分度 (more distinguishable)”,这对于捕获用户的个性化特征至关重要,即使它在下一物品预测性能上不一定是最优的。Pctx 的目标是获得能够有效区分不同用户个性的上下文表示,而非仅仅是准确预测下一个物品。
3.2. 前人工作与技术演进
3.2.1. 传统ID-based推荐
早期的序列推荐模型如 GRU4Rec、SASRec、BERT4Rec 等,都采用 ID-based 方法,即每个物品由一个唯一的整数 ID 表示。这种方法虽然直观有效,但面临挑战:
- 稀疏性: 物品数量庞大导致
ID嵌入表巨大且稀疏,难以优化。 - 泛化能力: 难以处理新物品 (cold-start items),且
ID本身不包含语义信息。
3.2.2. 生成式推荐的兴起
为了解决 ID-based 方法的局限性,生成式推荐 (GR) 范式应运而生。GR 借鉴 LLM 的思想,将物品行为词元化为语义ID。
-
TIGER (Rajput et al., 2023): 开创性工作,使用RQ-VAE将物品嵌入量化为离散语义ID,并采用自回归模型进行预测。 -
LETTER (Wang et al., 2024a): 在TIGER基础上融入协同信息 (collaborative information) 和多样性约束。 -
ActionPiece (Hou et al., 2025b): 提出了第一个上下文感知词元化器,但其上下文仅限于相邻行为 (adjacent actions)。这些
GR模型在内存效率和可扩展性上优于ID-based模型,并能够更好地捕捉物品的语义。
3.2.3. 词元化技术的发展
- 语言模型:
BPE (Byte Pair Encoding)、WordPiece、SentencePiece等统计方法,通过合并高频字节片段来构建词汇表,平衡词汇量和输入长度。 - 视觉模型: 通常将原始输入(如像素)编码为密集表示,然后通过量化(如
VQ-VAE)转换为离散词元。 - 推荐系统: 早期
GR模型的词元化主要依赖于物品特征,如文本描述 (TIGER),或结合其他特征如行为类型、视觉信号等。
3.3. 差异化分析
3.3.1. 与静态词元化器的区别
- 静态词元化器 (Static Tokenizers): 例如
TIGER和LC-Rec,将每个物品映射到固定的语义ID。这种方法隐含了一个普适的物品相似性标准。在自回归模型中,具有相同前缀的语义ID将获得相似的概率,限制了模型的表达能力和个性化程度。 - Pctx: 通过融入用户的
个性化上下文,使得同一物品可以被词元化为不同的语义ID。这允许模型捕获用户对物品的多重解释,从而打破了普适相似性的假设,实现了更深层次的个性化推荐。
3.3.2. 与多标识符词元化器的区别
- 多标识符词元化器 (Multi-Identifier Tokenizers): 例如
MTGRec (Zheng et al., 2025),为每个物品分配多个语义ID。这看似与Pctx相似。 - 核心差异:
MTGRec的多个语义ID主要作为数据增强策略,通过从同一RQ-VAE模型的不同训练阶段采样语义ID来实现,其本质上仍然基于普适相似性假设。它增加了数据多样性,但并未显式地将不同的语义ID与用户个性化的解释关联起来。 - Pctx: 其核心洞察在于,每个映射(物品到
语义ID)都必须反映不同的用户解释。这意味着一个物品可以根据不同的用户意图和偏好,与不同的其他物品相似。Pctx关注的是语义ID背后的个性化解释,而非简单地增加语义ID的数量。
3.3.3. 与上下文感知词元化器的区别
- 上下文感知词元化器 (Context-Aware Tokenizers): 例如
ActionPiece (Hou et al., 2025b),根据物品的相邻行为上下文进行词元化。Pctx属于这一类别。 - 核心差异:
ActionPiece的上下文仅限于局部上下文,即相邻的几个行为。这种狭窄的视角不足以捕捉用户长期、深层的个性特征。 - Pctx: 扩展了感知的上下文窗口,将
用户的整个历史交互序列都纳入考虑。这使得词元化器能够捕捉到反映在长期上下文中的用户个性,从而实现更全面的个性化。
4. 方法论
本文提出的 Pctx (Personalized Context-aware Tokenizer for Generative Recommendation) 方法旨在通过将用户历史交互作为上下文信息,对每个用户行为(即交互物品)进行个性化词元化,从而为生成式推荐模型提供更丰富的个性化语义ID。
4.1. 问题形式化
遵循序列推荐 (sequential recommendation) 的设定,我们用用户历史交互序列 来表示每个用户,其中物品按照时间顺序排列, 表示第 个交互物品, 是过去交互的数量。任务目标是根据给定的用户交互序列 预测下一个感兴趣的物品。
生成式推荐模型通过将每个物品词元化为一个离散词元序列 来解决此任务,这个序列被称为语义ID (semantic ID),其中 表示每个语义ID中的词元数量。因此,任务被重新定义为:给定由历史物品语义ID连接而成的词元序列,预测目标物品的一个或多个语义ID。
4.2. 个性化行为词元化 (Personalized Action Tokenization)
提出的个性化行为词元化器不仅将当前物品作为输入,还将用户的历史交互序列作为用户上下文 (user context)。这种设计使得 Pctx 能够根据输入的用户上下文将同一个物品词元化为不同的语义ID,以捕捉用户可能感知的多样化方面。为此,我们首先从每个物品的训练数据中提取丰富的上下文表示 (context representations),然后采用数据驱动的方法获得能够反映多样化用户解释的代表性语义ID (representative semantic IDs)。
4.2.1. 个性化上下文表示 (Personalized Context Representation)
本节介绍如何利用一个辅助模型来获取丰富的上下文表示,这些表示随后将被用于训练个性化行为词元化器。
4.2.1.1. 用户上下文编码 (User Context Encoding)
为了词元化当前物品和用户上下文,我们首先引入一个辅助模型来编码用户上下文:
其中, 是物品 及其关联上下文 的上下文嵌入 (context embedding)。 是一个序列模型。需要注意的是,尽管序列模型 的输入格式与序列推荐模型相似,但我们的目标不是确保导出的用户上下文表示能准确预测下一个物品;相反,我们要求它们足够可区分 (distinguishable),以捕获用户个性 (user personalities)。为此,我们采用 DuoRec (Qiu et al., 2022) 作为示例,它利用对比学习 (contrastive learning) 来缓解表示退化 (representation degeneration) 问题。
符号解释:
- :物品 的上下文嵌入,是一个 维的向量。
- :用于编码用户交互序列的序列模型,例如
DuoRec。 - :用户历史交互序列,包括当前物品 。
4.2.1.2. 上下文表示的多面凝缩 (Multi-Facet Condensation of Context Representations)
一个物品在训练数据中可能出现多次,且处于不同的用户上下文中,这反映了用户多样化的解释。然而,正如引言部分所讨论的,为单个物品分配过多的语义ID会导致稀疏性,因为每个语义ID在训练 GR 模型时会很少出现,从而削弱模型的泛化能力。为了缓解稀疏性问题,我们将同一个物品 的上下文表示进行分组,并将它们凝缩成一小部分代表性上下文表示 (representative ones)。具体来说,我们应用 k-means++ 算法将上下文表示聚类为 个质心 (centroids)(即代表性上下文表示),其中 的选择与物品 可用的上下文表示数量成比例。关于 确定的更详细信息在附录 B 中提供。
关于 的确定 (来自附录 B): 为了避免为物品分配过多或过少的簇质心,同时平衡个性化和泛化能力,我们采用了一种量化和平滑的分配方案来确定每个物品 的簇质心数量 。
- 交互感知分组 (Interaction-aware grouping): 首先,根据每个物品的
上下文表示数量(即交互次数)对其进行升序排序,然后将所有物品划分到 个组中。每个组的物品比例由从整数区间[1, T]上的归一化Gamma分布 中采样的 个离散支持点决定。形状参数 调整分配的偏斜度:较小的 偏向长尾物品,较大的 偏向热门物品。 - 基于分组的质心分配 (Group-based centroid allocation): 每个组被分配一个预定义数量的质心。为了避免组间突变,我们使用算术级数来定义质心数量:第 组被分配 个质心,其中 是起始质心数, 是一个小的步长。同一组中的物品共享相同的质心数量,即对于第 组中的任何物品 ,我们设置 。
- 实际调整 (Practical adjustment): 对于交互次数少于其初始分配的 的稀有物品,我们设置 ,并使用单个质心进行聚类。
4.2.2. 个性化语义ID (Personalized Semantic ID)
在从训练数据中导出所有代表性上下文表示后,我们将它们词元化为离散的语义ID。
4.2.2.1. 从上下文表示构建语义ID (Semantic ID Construction from Context Representations)
除了上下文表示,我们遵循现有工作 (Rajput et al., 2023; Zheng et al., 2024) 的方法,通过使用预训练的句子嵌入模型(如 sentence-t5-base (Ni et al., 2022))编码文本特征,为每个物品导出一个特征表示 。然后,我们将物品 的上下文和特征表示融合如下:
其中, 是物品 的第 个融合表示, 是物品 的第 个编码用户上下文表示, 是物品 的第 个簇质心, 是一个平衡两个融合组件的参数。
在获得所有物品的融合表示后,我们遵循 Rajput et al. (2023) 的方法,应用 RQ-VAE (Zeghidour et al., 2021) 将每个融合表示量化为 G-1 个离散词元序列,同时追加一个额外的词元以避免冲突,从而得到最终的 位语义ID。
符号解释:
- :物品 的第 个融合嵌入向量,维度为 。
- :物品 的第 个上下文表示簇质心,维度为 。
- :物品 的特征嵌入向量,维度为 。
- :向量拼接操作。
- :超参数,权重因子,用于平衡上下文嵌入和特征嵌入的重要性。
- :物品 的上下文表示簇质心数量。
- :每个
语义ID中的词元数量。
4.2.2.2. 冗余语义ID合并 (Redundant Semantic ID Merging)
除了上下文表示的凝缩,我们提出了两种语义ID层面的冗余减少方法,以进一步提高所获语义ID的泛化能力。
-
重复语义ID的合并 (Merging of duplicated semantic IDs): 第一种冗余类型是当一个物品被分配了多个
语义ID,而这些语义ID仅在最后一个词元上有所不同。这发生在物品的上下文表示高度相似时。由于最后一个词元不携带语义信息,仅用于防止冲突,这些重复的语义ID实际上是语义等效的,不应被视为不同的用户解释。为了解决这个问题,我们仅保留其中一个重复的语义ID,并确保最后一个词元仅用于解决不同物品的语义ID之间的冲突,而不是同一物品内部的冲突。 -
不频繁语义ID的合并 (Merging of infrequent semantic IDs): 第二种冗余类型是当一个物品被分配的
语义ID在数据集中出现频率极低。这些不频繁的ID可能来自两个来源:(1) 数据中的离群点 (outliers),或者 (2) 聚类时使用了过多的质心。由于这些ID在训练数据中过于稀疏,保留它们会削弱训练模型的泛化能力。为了解决这个问题,我们设定了一个频率阈值 ,移除出现频率低于该阈值的语义ID,并将其重定向到同一物品最近的剩余质心。通过这些方法,每个物品都可以关联多个
语义ID,每个语义ID代表一个典型的用户解释。
4.3. Pctx 下的生成式推荐 (Generative Recommendation Under Pctx)
本节描述了如何使用所提出的个性化词元化器来训练生成式推荐模型并进行推断,其中每个物品根据上下文从多个候选语义ID中选择一个个性化语义ID。
4.3.1. 数据增强训练 (Training with Data Augmentation)
与先前的工作 Rajput et al. (2023) 类似,我们使用下一词元预测损失 (next-token prediction loss) 训练一个自回归编码器-解码器 (encoder-decoder) 模型,处理语义ID序列。具体来说,当词元化物品 及其对应的用户上下文 时,我们首先根据公式 (2) 导出融合的个性化语义表示。然后,选择其质心与该融合表示最接近的语义ID作为 的语义ID。通过将序列中的每个物品替换为其个性化语义ID,我们得到了训练序列。
为了进一步增强数据多样性,我们引入了一种增强策略:以概率 随机将一个个性化语义ID替换为同一物品的另一个语义ID。尽管增强后的序列可能不总是反映最准确的用户解释,但它们仍然是有效的物品序列。此外,这种增强增加了可用于训练的语义ID序列数量,并隐式地连接了与同一物品相关的不同语义ID。
符号解释:
- :增强概率,表示每个个性化
语义ID被替换为同一物品的其他个性化语义ID的比例。
4.3.2. 多面语义ID生成 (Multi-Facet Semantic ID Generation)
在推断 (inference) 阶段,我们采用束搜索 (beam search) 来生成语义ID预测,这与 Rajput et al. (2023) 和 Zheng et al. (2024) 的做法一致。不同的解码路径可能产生同一物品的不同个性化语义ID,每个语义ID都带有其自身的概率。这些概率代表了用户从不同方面感知潜在下一个物品的可能性。然后,我们聚合语义ID的概率以获得下一个物品的概率。这种多面语义ID生成不仅提供了物品预测,还揭示了不同用户解释的可能性,从而增强了推荐过程的可解释性 (explainability)。
5. 实验设置
5.1. 数据集
遵循先前的工作 (Liu et al., 2025; Zheng et al., 2025),我们在最新的 Amazon Reviews 数据集 (Hou et al., 2024) 的三个类别上进行了实验,分别是“Musical Instruments” (乐器)、“Industrial & Scientific” (工业与科学) 和“Video Games” (游戏)。为了缓解稀疏性和噪声,我们排除了交互次数少于五次的用户和物品。在过滤后,构建并按时间顺序排列用户特定的交互历史,最大序列长度限制为 20 个物品。
以下是原文 Table 5 的结果:
| Datasets | Users | Items | Interactions | s Sparsity AvgLen | |
| Instrument 57,439 | 24,587 | 511,836 | 99.964% | 8.91 | |
| Scientific 50,985 | 25,848 | 412,947 | 99.969% | 8.10 | |
| Game | 94,762 | 25,612 | 814,586 | 99.966% | 8.60 |
符号解释:
Users:数据集中用户的总数。Items:数据集中物品的总数。Interactions:数据集中用户与物品交互的总次数。Sparsity:交互矩阵的稀疏度,表示未发生交互的比例。AvgLen:用户交互序列的平均长度。
为什么选择这些数据集进行实验?
这些数据集是 Amazon Reviews 的子集,具有真实的用户交互数据和丰富的物品文本特征。它们涵盖了不同的物品类别,有助于评估模型在不同领域和数据特性下的性能。选择这些数据集也是为了与先前研究保持一致,便于进行公平比较。
5.2. 评估指标
我们遵循 Rajput et al. (2023) 和 Wang et al. (2024a) 的方法,使用 Recall@K (R@K) 和 Normalized Discounted Cumulative Gain@K (NDCG@K) 来评估模型性能,其中 设为 5 和 10。
5.2.1. 召回率 (Recall@K)
- 概念定义:
召回率 (Recall@K)衡量的是在推荐列表的前 个物品中,实际用户感兴趣的物品(目标物品)被成功推荐出来的比例。它关注的是模型“找回”所有相关物品的能力。 - 数学公式:
在单目标物品的推荐场景中,如果推荐列表的前 个物品包含目标物品,则分子为 1,否则为 0。因此,对于多个用户,
Recall@K通常是所有用户Recall@K分数的平均值。 - 符号解释:
- :在推荐给用户的 个物品中,有多少个是用户真正感兴趣的。
- :用户真正感兴趣的物品总数。在序列推荐中通常是下一个要交互的唯一目标物品。
5.2.2. 归一化折损累积增益 (NDCG@K)
- 概念定义:
归一化折损累积增益 (Normalized Discounted Cumulative Gain, NDCG@K)是一种衡量推荐列表质量的指标,它考虑了推荐物品的相关性 (relevance)和它们在推荐列表中的位置 (position)。NDCG强调排名靠前的相关物品比排名靠后的相关物品更有价值,并且相关性高的物品比相关性低的物品更有价值。 - 数学公式:
NDCG@K的计算分为三步:- 累积增益 (Cumulative Gain, CG): 只考虑相关性。
- 折损累积增益 (Discounted Cumulative Gain, DCG): 考虑了相关性和位置,对排名靠后的物品赋予较低的权重。 对于二进制相关性(0或1,即物品是否相关),公式简化为:
- 理想折损累积增益 (Ideal Discounted Cumulative Gain, IDCG): 假设推荐列表是完美的,即所有相关物品都按相关性从高到低排序。 其中 是在理想情况下,排序在第 位的物品的相关性分数。
- 归一化折损累积增益 (NDCG):
DCG除以IDCG进行归一化,使得NDCG值介于 0 到 1 之间。
- 符号解释:
- :推荐列表的长度。
- :推荐列表中的位置索引,从 1 到 。
- :在位置 的推荐物品的相关性分数。在序列推荐中通常是二元的(0 表示不相关,1 表示相关)。
- :位置 的折损因子。随着 增大,折损因子增大,权重减小。
- :在推荐列表前 个位置中相关物品的数量。
- :在理想排序下,位置 的物品的相关性分数。
5.3. 对比基线 (Compared Models)
实验将 Pctx 与两类模型进行比较:
-
传统序列推荐模型 (Conventional sequential recommendation):
Caser (Tang & Wang, 2018):使用卷积神经网络捕获序列中的空间和位置依赖。- :利用特征和实例层级的层次门控网络优化用户偏好表示。
GRU4Rec (Hidasi et al., 2016):采用门控循环单元建模序列行为的动态性。- :采用双向 Transformer 编码器,通过掩码物品预测目标学习序列模式。
SASRec (Kang & McAuley, 2018):利用单向自注意力机制捕捉行为轨迹中的用户兴趣。FMLP-Rec (Zhou et al., 2022):引入全 MLP 框架,带可学习滤波器抑制噪声并建模用户意图。HSTU (Zhai et al., 2024):结合时间戳信息并提出层次序列传感器,提高可扩展性(仍是基于ID的)。DuoRec (Qiu et al., 2022):通过对比学习和监督采样,解决序列建模中的表示退化问题。FDSA (Zhang et al., 2019):开发双流自注意力设计,分别编码特征级和物品级依赖。S3-Rec (Zhou et al., 2020):通过互信息最大化的自监督目标改进表示学习。
-
生成式推荐模型 (Generative recommendation):
-
TIGER (Rajput et al., 2023):使用RQ-VAE将物品嵌入离散化为语义标识符,并采用生成式检索范式进行推荐。 -
LETTER (Wang et al., 2024a):通过将协同信息和多样性约束注入RQ-VAE,进一步扩展了TIGER。 -
ActionPiece (Hou et al., 2025b):提出了一个上下文感知词元化框架,通过概率加权合并高频共现特征,并引入集合排列正则化 (set permutation regularization) 来更好地利用行为序列。模型选择理由: 这些基线代表了序列推荐和生成式推荐领域的最新和最具代表性的方法,涵盖了不同的架构(CNN、RNN、Transformer、MLP)和思想(自注意力、对比学习、生成式)。通过与这些模型的比较,可以全面评估
Pctx的性能。
-
5.4. 实现细节 (Implementation Details)
5.4.1. 基线模型
Caser、HGN、GRU4Rec、BERT4Rec、SASRec、FMLP-Rec、HSTU、FDSA、S3-Rec、TIGER 和 LETTER 的实验结果直接取自先前的工作 Zheng et al. (2025)。该工作使用 RecBole (Zhao et al., 2021) 框架实现了这些基线。对于其他基线,作者仔细复现并按照其论文中规定的超参数进行配置。对于生成式基线,采用与 Pctx 相同的架构设计以确保一致性。
5.4.2. Pctx
-
物品词元化器 (Item tokenizer):
- 辅助模型:使用
DuoRec (Qiu et al., 2022)作为公式 (1) 中所示的辅助模型。 - 融合权重:公式 (2) 中的融合权重 设置为 0.5。
- 文本嵌入:遵循
TIGER (Rajput et al., 2023)的设置,使用sentence-t5-base (Ni et al., 2022)将每个物品的文本属性转换为文本嵌入。 - 量化:使用
FAISS (Douze et al., 2024)对融合后的上下文和特征表示进行量化,采用 3 个大小为 256 的码本 (codebooks),并按照Zheng et al. (2025)的方法添加一个辅助码本以解决潜在冲突。 - 表示学习强化:为进一步强化码本内的表示学习,应用
PCA (主成分分析)结合whitening (白化)(Su et al., 2021) 来优化物品表示的语义质量。
- 辅助模型:使用
-
生成式推荐模型 (GR model):
- 核心架构:采用
sentence-t5-base (Ni et al., 2022)作为推荐模型的核心架构。 - 配置:隐藏层维度为 128,前馈网络内部维度为 512,4 个注意力头 (attention heads),每个头的维度为 64,激活函数为
ReLU。编码器和解码器均由 4 层构成。 - 训练:在 2 个
A40 GPU上进行,每个GPU的批处理大小为 256,所有数据集训练 200 个周期 (epochs)。 - 优化器:使用
AdamW优化器,学习率在 范围内调整,权重衰减在 范围内搜索。 - 学习率调度:应用
余弦学习率调度器 (cosine learning rate scheduler)以提高收敛稳定性。
- 核心架构:采用
5.5. 评估设置 (Evaluation Settings)
遵循 Kang & McAuley (2018)、Rajput et al. (2023)、Zhou et al. (2020),采用留一法 (leave-one-out) 协议来构建训练集、验证集和测试集。具体来说,对于每个用户的交互序列,最近的物品作为测试实例,倒数第二个物品用于验证,其余交互用于训练。为了确保公平和严格的比较,我们对整个候选集进行全排名评估 (full-ranking evaluation),而不是依赖负采样 (negative sampling)。此外,对于 GR 基线,自回归解码中的束大小 (beam size) 始终固定为 50。
6. 实验结果与分析
6.1. 核心结果分析
我们评估了 Pctx 相对于基于物品 ID 的序列推荐方法和 GR 基线模型的性能。
以下是原文 Table 1 的结果:
| Methods | Instrument | Scientific | Game | |||||||||
| R@5 | R@10 | N@5 | N@10 | R@5 | R@10 | N@5 | N@10 | R@5 | R@10 | N@5 | N@10 | |
| Caser | 0.0241 | 0.0386 | 0.0151 | 0.0197 | 0.0159 | 0.0257 | 0.0101 | 0.0132 | 0.0330 | 0.0553 | 0.0209 | 0.0281 |
| HGN | 0.0321 | 0.0517 | 0.0202 | 0.0265 | 0.0212 | 0.0351 | 0.0131 | 0.0176 | 0.0424 | 0.0687 | 0.0281 | 0.0356 |
| GRU4Rec | 0.0324 | 0.0501 | 0.0209 | 0.0266 | 0.0202 | 0.0338 | 0.0129 | 0.0173 | 0.0499 | 0.0799 | 0.0320 | 0.0416 |
| BERT4Rec | 0.0307 | 0.0485 | 0.0195 | 0.0252 | 0.0186 | 0.0296 | 0.0119 | 0.0155 | 0.0460 | 0.0735 | 0.0298 | 0.0386 |
| SASRec | 0.0333 | 0.0523 | 0.0213 | 0.0274 | 0.0259 | 0.0412 | 0.0150 | 0.0199 | 0.0535 | 0.0847 | 0.0331 | 0.0438 |
| FMLP-Rec | 0.0339 | 0.0536 | 0.0218 | 0.0282 | 0.0269 | 0.0422 | 0.0155 | 0.0204 | 0.0528 | 0.0857 | 0.0338 | 0.0444 |
| HSTU | 0.0343 | 0.0577 | 0.0191 | 0.0271 | 0.0271 | 0.0429 | 0.0147 | 0.0198 | 0.0578 | 0.0903 | 0.0334 | 0.0442 |
| DuoRec | 0.0347 | 0.0547 | 0.0227 | 0.0291 | 0.0234 | 0.0389 | 0.0146 | 0.0196 | 0.0524 | 0.0827 | 0.0336 | 0.0433 |
| FDSA | 0.0347 | 0.0545 | 0.0230 | 0.0293 | 0.0262 | 0.0421 | 0.0169 | 0.0213 | 0.0544 | 0.0852 | 0.0361 | 0.0448 |
| S3-Rec | 0.0317 | 0.0496 | 0.0199 | 0.0257 | 0.0263 | 0.0418 | 0.0171 | 0.0219 | 0.0485 | 0.0769 | 0.0315 | 0.0406 |
| TIGER | 0.0370 | 0.0564 | 0.0244 | 0.0306 | 0.0264 | 0.0422 | 0.0175 | 0.0226 | 0.0559 | 0.0868 | 0.0366 | 0.0467 |
| LETTER | 0.0372 | 0.0580 | 0.0246 | 0.0313 | 0.0279 | 0.0435 | 0.0182 | 0.0232 | 0.0563 | 0.0877 | 0.0372 | 0.0473 |
| ActionPiece | 0.0383 | 0.0615 | 0.0243 | 0.0318 | 0.0284 | 0.0452 | 0.0182 | 0.0236 | 0.0591 | 0.0927 | 0.0382 | 0.0490 |
| Pctx | 0.0419 | 0.0655 | 0.0275 | 0.0350 | 0.0323 | 0.0504 | 0.0205 | 0.0263 | 0.0638 | 0.0981 | 0.0416 | 0.0527 |
| Improvements +9.40% | +6.50% | +11.79% | +10.06% | +13.73% | +11.50% | +12.64% | +11.44% | +7.95% | +5.82% | +8.90% | +7.55% | |
分析:
- GR 模型优于传统
ID-based模型: 从 Table 1 可以看出,TIGER、LETTER和ActionPiece等GR模型普遍优于Caser、SASRec、DuoRec等传统ID-based序列推荐方法。这主要归因于它们采用了行为词元化技术和生成式检索范式,能够更好地捕捉物品语义和处理大规模数据。 ActionPiece表现最佳: 在所有基线模型中,ActionPiece的性能表现最佳,这表明上下文感知行为词元化(即使是局部上下文)能够提供更强的表达能力。Pctx性能卓越: 本文提出的Pctx模型在所有三个数据集的Recall@K和NDCG@K四个指标上均超越了所有基线模型。尤其在Scientific数据集的NDCG@10上,Pctx相比最佳基线模型ActionPiece取得了高达 11.44% 的显著提升。- 个性化上下文感知词元化的重要性:
Pctx是第一个引入个性化上下文感知词元化器的GR范式。这一设计允许同一行为根据用户上下文被词元化为不同的个性化语义ID,从而使模型能够捕获多样化的用户解释并生成更具个性化的预测。实验结果强有力地验证了个性化上下文在GR模型中的巨大潜力。
6.2. 消融实验/参数分析
为了探究 Pctx 各个组件对整体性能的贡献,我们进行了消融实验。
以下是原文 Table 2 的结果:
| Variants | Instrument | Scientific | ||||||
| R@5 | R@10 | N@5 | N@10 | R@5 | R@10 | N@5 | N@10 | |
| Personalized context | ||||||||
| (1.1) with SASRec | 0.0395 | 0.0612 | 0.0261 | 0.0330 | 0.0294 | 0.0458 | 0.0190 | 0.0243 |
| (1.2) with SASRec Item Embedding | 0.0360 | 0.0573 | 0.0231 | 0.0300 | 0.0281 | 0.0448 | 0.0182 | 0.0235 |
| (1.3) with DuoRec Item Embedding TIGER | 0.0378 | 0.0594 | 0.0249 | 0.0318 | 0.0278 | 0.0445 | 0.0180 | 0.0235 |
| 0.0370 | 0.0564 | 0.0244 | 0.0306 | 0.0264 | 0.0422 | 0.0175 | 0.0226 | |
| Tokenization | ||||||||
| (2.1) w/o Clustering | 0.0386 | 0.0596 | 0.0249 | 0.0316 | 0.0295 | 0.0462 | 0.0192 | 0.0245 |
| (2.2) w/o Redundant SID Merging | 0.0270 | 0.0415 | 0.0175 | 0.0221 | 0.0201 | 0.0316 | 0.0133 | 0.0170 |
| Model training and inference | ||||||||
| (3.1) w/o Data Augmentation | 0.0366 | 0.0577 | 0.0240 | 0.0308 | 0.0291 | 0.0457 | 0.0188 | 0.0242 |
| (3.2) w/o Multi-Facet Generation | 0.0376 | 0.0594 | 0.0242 | 0.0312 | 0.0282 | 0.0449 | 0.0181 | 0.0235 |
| Pctx | 0.0419 | 0.0655 | 0.0275 | 0.0350 | 0.0323 | 0.0504 | 0.0205 | 0.0263 |
分析:
-
个性化上下文研究:
- 变体
(1.1) with SASRec(SASRec作为上下文表示模型) 和(1.2) with SASRec Item Embedding、(1.3) with DuoRec Item Embedding(使用预训练模型的物品嵌入作为上下文) 均比完整Pctx性能差。 - 这证实了
DuoRec生成的用户上下文表示更为有效。原因在于DuoRec通过对比学习使序列表示更具区分度,而SASRec并非专门为此优化。 - 使用
物品嵌入 (item embeddings)相比序列表示 (sequence representations)导致更大的性能下降,因为序列表示融入了用户上下文。 - 有趣的是,尽管
DuoRec在 Table 1 中独立性能不如SASRec,但作为Pctx的上下文表示模型时,其效果远超SASRec变体 ()。这表明衡量上下文表示模型好坏的关键不在于其下一物品预测性能,而在于其捕获用户个性和区分度的能力。
- 变体
-
词元化策略的影响:
(2.1) w/o Clustering(不凝缩上下文表示) 和(2.2) w/o Redundant SID Merging(禁用冗余语义ID合并) 都会导致性能下降。- 这表明
多面凝缩和冗余语义ID合并策略对于提升个性化语义ID的质量至关重要。 冗余语义ID合并的移除导致更严重的性能下降,说明其与最终语义ID的关联更直接,对模型泛化能力影响更大。
-
模型训练和推断策略:
(3.1) w/o Data Augmentation(禁用数据增强) 导致性能明显下降,说明随机替换增强策略提高了GR模型在个性化语义ID下的泛化能力。(3.2) w/o Multi-Facet Generation(推断时每个物品限制为单个语义ID) 也导致性能下降,强调了允许GR模型解码多种用户解释的重要性。
6.3. 深入分析
6.3.1. 模型集成 (Model Ensemble)
为了排除 Pctx 的性能提升仅仅是现有模型(如 DuoRec 或 SASRec 与 TIGER)简单组合的结果,我们进行了模型集成分析。我们使用投票机制集成了 SASRec 和 DuoRec 与 TIGER 的预测结果。
以下是原文 Table 3 的结果:
| Methods | Instrument | Scientific | ||||||
| Recall@5 | Recall@10 | NDCG@5 | NDCG@10 | Recall@5 | Recall@10 | NDCG@5 | NDCG@10 | |
| SASRec | 0.0333 | 0.0523 | 0.0213 | 0.0274 | 0.0259 | 0.0412 | 0.0150 | 0.0199 |
| DuoRec | 0.0347 | 0.0547 | 0.0227 | 0.0291 | 0.0234 | 0.0389 | 0.0146 | 0.0196 |
| TIGER | 0.0370 | 0.0564 | 0.0244 | 0.0306 | 0.0264 | 0.0422 | 0.0175 | 0.0226 |
| TIGER+SASRec | 0.0374 | 0.0582 | 0.0245 | 0.0311 | 0.0268 | 0.0427 | 0.0169 | 0.0221 |
| TIGER+DuoRec | 0.0376 | 0.0586 | 0.0247 | 0.0314 | 0.0258 | 0.0418 | 0.0163 | 0.0215 |
| Pctx | 0.0419 | 0.0655 | 0.0275 | 0.0350 | 0.0323 | 0.0504 | 0.0205 | 0.0263 |
分析:
- 集成模型的优势: 集成模型 和 确实比各自的单一模型表现更好,这证实了不同信息源(ID-based 序列模型和生成式模型)之间存在互补性。
Pctx的独特贡献: 尽管集成模型有所提升,但它们的性能仍远低于Pctx。这表明Pctx并非简单地整合了现有模型的优点,而是其个性化语义ID机制从根本上扩展了GR模型的推荐能力,带来了超越简单集成的增益。
6.3.2. 个性化语义ID数量研究
下图(原文 Figure 3)展示了 Pctx 中每个物品被分配的个性化语义ID (SID) 数量分布。

分析:
- 静态词元化器的局限: 像
TIGER这样依赖静态、非个性化词元化器的框架,将每个行为映射到固定的语义ID,阻碍了个性化。 Pctx的多面性:Pctx是第一个引入个性化上下文感知词元化器的方法,它为同一个物品分配多个个性化语义ID。- ID 分布: 大多数物品在
Pctx中被分配了两个个性化语义ID,其次是一个、三个,以及少量超过四个的。 - 稀有物品处理: 只有单个
语义ID的物品通常是交互有限的稀有实体,因此多样性受限。 - 冗余合并策略的效果: 与过多
个性化ID相关的物品数量仍然很少,这得益于所提出的冗余语义ID合并策略有效整合了冗余表示。
6.3.3. 案例研究 (Case Study)
为了说明 Pctx 捕捉多样化用户解释的能力,我们进行了案例研究,如下图(原文 Figure 4)所示,展示了词元化过程。我们从“Game”数据集中抽取了一个具有多个语义ID的物品,并考察了两个涉及该物品的用户交互历史。

背景:
- 故事驱动游戏 (Story-driven games): 优先叙事发展而非纯粹机制,核心体验围绕故事情节塑造玩法。
- 实时战略游戏 (Real-time strategy (RTS) games): 强调动态环境中的同步决策,要求玩家实时管理资源、建造基地、生产军队和协调战斗。
- 案例物品:
StarCraft II: Heart of the Swarm(《星际争霸 II:虫群之心》) 融合了故事驱动和RTS两种流派,两者都深受玩家喜爱。故事驱动和RTS属性共同定义了《星际争霸 II》。
个性化词元化:
- 上图(原文 Figure 4)的上半部分对应一位对
故事驱动游戏感兴趣的用户。 - 下半部分对应一位偏爱
RTS 游戏的用户。 Pctx根据用户上下文为同一个物品StarCraft II: Heart of the Swarm分配了两个不同的语义ID,从而反映了个性化的解释。-
语义ID[53, 395, 576, 770]强调了《星际争霸 II》的故事驱动方面。 -
语义ID[53, 412, 576, 770]则突出了其RTS属性。结论: 这个案例研究表明
Pctx如何在不同上下文下将同一行为自适应地词元化为个性化语义ID,从而使GR模型能够产生更符合用户特定偏好的预测。
-
6.3.4. 参数分析:增强概率
下图(原文 Figure 5)展示了增强概率 对模型性能的影响。

分析:
- **禁用增强 (
\gamma) 的影响:** 当 时(即禁用数据增强机制),模型性能显著低于大多数非零 配置,除了某些极端情况。这表明所提出的数据增强策略是有效的。
* ** 的关键性:** 增强概率 是一个关键的超参数,对整体性能有实质性影响。设置不当会导致明显的性能下降。
* **稳定区间:** 当 介于 0.3 到 0.7 之间时,性能保持相对稳定且在可接受范围内。
* **极端值的影响:** 过小的值( 接近 0)导致增强不足,效果不佳;过大的值( 接近 1)则引入不稳定性,可能导致性能大幅波动。
### 6.3.5. 参数分析:频率阈值
下图(原文 Figure 6)展示了频率阈值 对模型性能和`语义ID`使用数量的影响。

**分析:**
* ** 与`语义ID`数量:** 随着 的增加,使用的`语义ID`数量单调减少。论文指出,由于大多数物品的交互次数有限,初始簇中心和最终`语义ID`数量都保持在相对有界的范围内。
* **性能趋势:** 随着 的增加,评估指标(NDCG@10)先提高,但在 超过 0.2 后开始下降。在两个数据集上,最佳性能均出现在 。
* **平衡稀疏性与个性化:** 过多的`个性化语义ID`会导致稀疏性问题加剧,性能下降。虽然较高的 可以缓解稀疏性,但不可避免地牺牲了个性化,从而降低性能。因此,调整 实际上是在`稀疏性减少`和`个性化保持`之间寻求平衡。
### 6.3.6. 流行度与个性化 (Popular and Personalization)
下图(原文 Figure 7)展示了物品在输入序列中的位置与其被词元化为`最流行语义ID (most popular semantic ID)` 的概率之间的关系。`最流行语义ID`被定义为该物品所有`语义ID`中频率最高的那个。

**分析:**
* **`TIGER` (静态词元化器):** `TIGER` 采用静态词元化器,因此每个物品在所有序列位置都被词元化为其`流行语义ID`,与位置无关。热力图显示为均匀的深色,表示`流行率 (popular rate)` 接近 1。
* **`w/o Data Augmentation` (无数据增强的 `Pctx` 变体):** 随着序列长度的增加,物品被词元化为`流行语义ID`的概率逐渐降低。这是因为序列上下文的影响力增加,使得更多的`个性化词元化`成为可能。热力图颜色从左到右逐渐变浅,表明`流行率`下降。
* **
\gamma=1$$ (高数据增强的 Pctx 变体):** 在此变体中,流行语义ID的词元化概率在不同位置上均匀分布。这意味着高 值会削弱个性化,因为物品被同样可能地词元化为其任何可能的语义ID,而不再强烈依赖于上下文。热力图颜色较浅且均匀。
**结论:** 这些发现证实,我们的`个性化上下文感知词元化器`能够根据`用户上下文`自适应地进行词元化,提供了比 `TIGER` 等静态方法更具个性化的表示。
6.3.7. 可解释性 (Explainability)
我们进行了可解释性实验,以探究 Pctx 生成的个性化语义ID是否以人类可理解的方式对应着不同的用户偏好。对于每个数据集,我们随机选择至少有两个个性化语义ID的物品。每个语义ID都源自一组个性化上下文表示,这些表示又从用户交互序列中提取。因此,我们可以根据每个语义ID将与给定物品相关的序列分组。这些组(每个物品由其标题表示)随后被输入到一个大型语言模型 (GPT-4o) 中,以总结每个语义ID背后隐藏的用户偏好。
接下来,对于每个选定的物品,我们从测试集中随机抽取 50 个以该物品为目标的序列。对于每个序列,我们确定该物品的哪个语义ID首先出现在模型预测列表中。然后,将相应的用户交互序列提供给大型语言模型,评估该物品排名靠前的语义ID所总结的偏好是否比其他语义ID的偏好更符合序列上下文。模型给出二元判断(“是”或“否”)并附带解释,我们将准确率 (accuracy) 定义为 50 个样本中“是”的比例。每个数据集重复此过程 25 次。
以下是原文 Table 6 的结果:
| Methods | Instrument (Acc.) | Scientific (Acc.) | Game (Acc.) |
| with SASRec | 0.8333 | 0.8030 | 0.8240 |
| Pctx | 0.8533 | 0.8534 | 0.8690 |
分析:
Pctx的高准确率:Pctx在三个数据集上的准确率均超过 0.85,表明与物品相关的多个语义ID捕获了多样且一致的用户偏好,并且Pctx的预测能够有效对齐这些偏好。这验证了其词元化机制的可解释性。SASRec变体表现: 使用SASRec作为辅助模型的变体虽然准确率也超过 0.80,但仍低于Pctx。这进一步强调了DuoRec作为上下文编码器的优势。
案例说明(摘自附录 D.5):
目标物品: StarCraft II: Heart of the Swarm。
用户历史交互: Command & Conquer 3: Tiberium Wars - Xbox 360, Company of Heroes - PC, Command & Conquer Red Alert 3: Premier Edition - PC, World in Conflict: Complete Edition [Download]。
-
排名最高的语义ID:
SID: [53, 412, 576, 770];用户偏好关键词:Gaming, RTS, Adventure, Strategy, Multiplayer, Fantasy, Competitive, Role-playing, Decision-making, Management。该用户群体强烈偏好沉浸式游戏体验。他们特别喜欢竞技性实时战略游戏,享受其中的策略制定和决策过程。他们也喜欢奇幻角色扮演游戏。 -
其他语义ID:
SID: [53, 395, 576, 770];用户偏好关键词:Adventure, Narrative, Multiplayer, Open-world, Action, Fantasy, Survival, Shooter, Strategy, Customization。该用户群体强烈偏好沉浸式叙事驱动游戏体验,专注于冒险和角色扮演游戏。他们喜欢开放世界探索、策略玩法和多人互动。GPT-4o响应: 是。 历史交互序列与排名最高的语义ID的偏好高度一致。用户交互历史主要由实时战略 (RTS)游戏主导,如《命令与征服》、《英雄连》和《冲突世界》,这些游戏强调策略、决策和竞技性多人玩法。这些元素直接反映在排名最高的语义ID的偏好中,例如“Gaming, RTS, Adventure, Strategy, Multiplayer, Competitive, and Decision-making”。虽然另一个语义ID也提到了“Strategy”和“Multiplayer”,但其更广泛地侧重于叙事驱动、开放世界和动作射击游戏,与用户对RTS游戏的偏好不够吻合。排名最高的语义ID更好地捕捉了用户对竞技和策略性RTS体验的核心兴趣。
结论: 这个案例清晰地展示了 Pctx 如何通过不同的语义ID捕捉同一物品的不同方面(如 RTS 属性与故事驱动属性),并根据用户的历史偏好,选择最能反映用户意图的语义ID进行预测。这证明了 Pctx 词元化机制的强大可解释性。
7. 总结与思考
7.1. 结论总结
本文提出了 Pctx,一个用于生成式推荐的个性化上下文感知词元化器。Pctx 突破了现有静态词元化范式的局限,不再将每个行为映射到固定不变的语义ID,而是根据用户的历史交互作为上下文来条件化 (condition) 每个交互物品的词元化。这种创新设计使得同一个物品在不同的用户上下文下可以被词元化为不同的语义ID,从而有效捕捉用户对物品的多样化解释,并显著增强了模型的生成能力和个性化推荐效果。
通过在三个公共数据集上的广泛实验,Pctx 在 NDCG@10 指标上相比非个性化词元化基线实现了高达 11.44% 的性能提升。消融实验和深入分析验证了 Pctx 中个性化上下文编码、多面凝缩、冗余语义ID合并、数据增强和多面语义ID生成等关键组件的有效性。此外,案例研究和可解释性实验也证实,Pctx 能够为物品生成具有人类可理解的不同用户偏好的语义ID。据作者所知,这是首次引入个性化行为词元化器用于 GR 的工作。
7.2. 局限性与未来工作
论文作者指出了未来的研究方向:
- 在更广阔的语义ID空间中扩展有效语义ID: 目前
Pctx通过聚类和合并来管理语义ID的数量,但如何在大规模、高维的语义ID空间中更有效地发现和扩展有意义的语义ID,仍是一个值得探索的问题。 - 开发端到端个性化行为词元化器:
Pctx的词元化过程目前是分阶段进行的(例如,首先通过辅助模型获得上下文表示,然后进行量化)。未来的工作可以探索如何设计一个更集成、更端到端 (end-to-end) 的个性化行为词元化器,使其在整个推荐流程中实现更紧密的优化。
7.3. 个人启发与批判
7.3.1. 个人启发
Pctx 的工作提供了一个非常重要的启发:推荐系统中的个性化不应仅仅停留在推荐列表或排序分数的层面,更应该深入到物品表示的底层。过去,我们往往假设物品的语义是固定的,用户只是对这些固定语义有不同的偏好强度。然而,Pctx 提示我们,同一个物品对于不同用户来说,其语义本身就是多面且可变的。例如,一本关于历史的小说,对一个读者来说可能是娱乐 (Entertainment),对另一个读者来说可能是学习 (Learning)。这种用户意图 (user intention) 驱动的物品语义变化,是实现真正细粒度个性化的关键。
Pctx 将这一思想通过上下文感知词元化的形式,巧妙地融入了生成式推荐框架。其在平衡泛化和个性化方面所做出的努力(如多面凝缩、冗余合并和数据增强)也具有普适性,可以推广到其他需要处理多义性 (ambiguity) 和个性化的表示学习任务中。特别是使用对比学习来增强上下文表示的区分度,而非仅仅关注预测准确率,是一个值得借鉴的思路。
7.3.2. 潜在问题、未经验证的假设或可以改进的地方
- 辅助模型的选择与依赖性:
Pctx依赖于一个辅助模型(如DuoRec)来生成用户上下文表示。虽然实验验证了DuoRec比SASRec更有效,但这种依赖性引入了额外的复杂性和潜在的瓶颈。如果辅助模型本身存在局限或偏差,可能会影响最终个性化语义ID的质量。未来的端到端模型或许能更好地解决这个问题,减少对预训练辅助模型的依赖。 - 确定方法的普适性: 附录 B 中关于每个物品簇数量 的确定方法,涉及
Gamma分布的形状参数 、起始质心数 和步长 等超参数。这些参数的调优可能对性能有较大影响,并且在不同数据集或领域下的最佳设置可能不同。虽然论文提到其能够平衡长尾和热门物品,但其复杂性可能为实际应用带来挑战。可以探索更自适应、无需过多手动调优的簇数决定方法。 - 计算资源消耗:
Pctx相比于静态词元化器,在语义ID生成阶段需要更多的计算资源。例如,为每个物品聚类上下文表示,以及RQ-VAE量化过程,都可能带来额外的开销。虽然论文提到了FAISS来加速量化,但对于超大规模的物品集,其可扩展性仍需进一步评估。 - 长尾物品的个性化挑战: 论文提到“只有单个
语义ID的物品通常是交互有限的稀有实体”。对于这些长尾物品 (long-tail items),由于缺乏足够的用户上下文来形成多样化的解释,其个性化词元化的有效性可能会受限。如何在数据稀疏的情况下依然实现有效的个性化,是一个持续的挑战。 alpha参数的敏感性: 融合上下文表示和特征表示的参数 在实验中被固定为 0.5。这个参数决定了个性化上下文和物品自身特征之间的平衡。不同物品或用户可能对这两部分信息的侧重程度不同,未来可以探索自适应或学习型的 参数,以进一步优化融合效果。- 人类可解释性研究的深化: 尽管论文通过
GPT-4o验证了个性化语义ID的可解释性,但这种基于LLM的判断仍是一种间接评估。更直接的人类用户研究,例如让用户评估不同语义ID所代表的推荐理由是否更符合其意图,可以进一步加强这一发现的说服力。
相似论文推荐
基于向量语义检索推荐的相关论文。