论文状态：已完成

Disentangled Self-Supervision in Sequential Recommenders

发表：2020/08/20

原文链接

价格：0.100000

已有 1 人读过

本分析由 AI 生成，可能不完全准确，请以原文为准。

TL;DR 精炼摘要

本论文提出了一种基于潜在自监督和解耦的序列到序列训练策略，以解决传统序列推荐系统中目光短浅和推荐缺乏多样性的问题。通过重构用户的未来行为序列并解耦意图，实验显示该方法在真实和合成数据集上显著提升了推荐性能。

摘要

To learn a sequential recommender, the existing methods typically adopt the sequence-to-item (seq2item) training strategy, which supervises a sequence model with a user’s next behavior as the label and the user’s past behaviors as the input. The seq2item strategy, however, is myopic and usually produces non-diverse recommendation lists. In this paper, we study the problem of mining extra signals for supervision by looking at the longer-term future. There exist two challenges: i) reconstructing a future sequence containing many behaviors is exponentially harder than reconstructing a single next behavior, which can lead to difficulty in convergence, and ii) the sequence of all future behaviors can involve many intentions, not all of which may be predictable from the sequence of earlier behaviors. To address these challenges, we propose a sequence-to-sequence (seq2seq) training strategy based on latent self-supervision and disentanglement. Specifically, we perform self-supervision in the latent space, i.e., reconstructing the representation of the future sequence as a whole, instead of reconstructing the items in the future sequence individually. We also disentangle the intentions behind any given sequence of behaviors and construct seq2seq training samples using only pairs of sub-sequences that involve a shared intention. Results on real-world benchmarks and synthetic data demonstrate the improvement brought by seq2seq training.

思维导图

论文精读

中文精读约 40 分钟读完 · 25,117 字

1. 论文基本信息

1.1. 标题

解耦自监督在序列推荐系统中的应用 (Disentangled Self-Supervision in Sequential Recommenders)

1.2. 作者

Jianxin Ma, Chang Zhou, Hongxia Yang, Peng Cui, Xin Wang, Wenwu Zhu。作者来自清华大学和阿里巴巴集团。

1.3. 发表期刊/会议

该论文发表于 第26届ACM知识发现与数据挖掘会议 (26th ACM SIGKDD Conference on Knowledge Discovery and Data Mining, KDD '20)。KDD 是数据挖掘领域的顶级国际会议之一，享有极高的学术声誉和影响力。

1.4. 发表年份

2020年。

1.5. 摘要

现有的序列推荐系统 (Sequential Recommenders) 通常采用 sequence-to-item (seq2item) 训练策略，即以用户过去的交互行为序列作为输入，预测用户的下一个行为。然而，这种 seq2item 策略具有局限性，通常会导致推荐列表缺乏多样性且目光短浅。本文旨在通过着眼于更长远的未来来挖掘额外的监督信号。在此过程中存在两大挑战：1) 重构包含许多行为的未来序列比重构单个下一个行为要指数级地困难，这可能导致模型难以收敛；2) 用户的未来行为序列可能涉及多种意图 (intentions)，并非所有意图都能从之前的行为序列中预测出来。

为了解决这些挑战，本文提出了一种基于潜在自监督 (latent self-supervision) 和解耦 (disentanglement) 的 sequence-to-sequence (seq2seq) 训练策略。具体来说，本文在潜在空间 (latent space) 中进行自监督，即重构整个未来序列的表示 (representation)，而不是逐个重构未来序列中的物品 (items)。此外，本文还解耦了任何给定行为序列背后的意图，并且仅使用涉及共享意图 (shared intention) 的子序列对来构建 seq2seq 训练样本。在真实世界基准数据集 (real-world benchmarks) 和合成数据 (synthetic data) 上的实验结果表明，所提出的 seq2seq 训练策略带来了显著的性能提升。

1.6. 原文链接

/files/papers/6950ed9888e29060a51c8504/paper.pdf 发布状态：已正式发表于 KDD '20。

2. 整体概括

2.1. 研究背景与动机

论文试图解决的核心问题： 传统的序列推荐系统训练方法主要采用 sequence-to-item (seq2item) 策略，即给定用户历史行为序列，预测用户下一个将要交互的单个物品。这种方法存在以下几个核心问题：

目光短浅 (Myopic)： seq2item 训练只关注用户的即时下一个行为，这导致模型对用户的长期兴趣或多变意图的捕捉能力不足。
推荐列表缺乏多样性 (Non-diverse recommendation lists)： 由于模型倾向于重复推荐用户最近交互的物品类别（例如，用户连续点击了多件衬衫后，模型会更倾向于推荐衬衫），这使得推荐列表往往不够多样化，不能满足用户潜在的多元需求。
对无关行为的脆弱性 (Vulnerability to irrelevant behaviors)： 用户行为序列中可能包含一些与之前意图无关的随机或好奇性点击。seq2item 策略如果将这些无关的“下一个行为”作为监督信号，会导致模型学习到噪声，降低推荐质量。

为什么这个问题在当前领域是重要的？ 随着用户行为数据的爆炸式增长和复杂化，推荐系统需要更智能地理解和预测用户意图。一个能够提供多样化且符合用户长期兴趣的推荐系统，对于提升用户体验、增加平台互动至关重要。传统的 seq2item 策略的局限性，限制了推荐系统在上述方面的进一步发展。

现有研究存在哪些具体的挑战或空白 (Gap)？ 为了克服 seq2item 的局限性，一个自然的想法是利用用户更长远的未来行为序列作为监督信号。然而，这引入了新的挑战：

重构未来序列的复杂性： 预测一个包含许多未来行为的完整序列比预测单个行为要复杂得多，这可能导致模型训练收敛困难。如果逐个重构未来序列中的所有物品，会带来巨大的计算开销和冗余信息。
未来意图的多样性与相关性： 用户的未来行为序列可能包含多个不断演变的意图。并非所有未来意图都与当前的输入行为序列相关或可预测。如果盲目地将整个未来序列作为监督信号，会引入大量噪声，降低信号-噪声比 (signal-to-noise ratio)。

这篇论文的切入点或创新思路是什么？ 本文的创新点在于提出了一种 sequence-to-sequence (seq2seq) 训练策略，来补充而非替代传统的 seq2item 训练。该策略通过以下两个核心思想解决了上述挑战：

潜在自监督 (Latent Self-Supervision)： 不在原始数据空间中逐个重构未来序列中的物品，而是在潜在空间 (latent space) 中重构整个未来序列的表示。这相当于预测未来序列的一个“蒸馏 (distilled)”后的伪行为或意图表示，大大简化了重构任务，并有助于收敛。
意图解耦 (Intention Disentanglement)： 设计一个能够识别并解耦用户在行为序列中潜在意图的编码器。通过这种解耦，模型能够判断输入序列和未来序列之间是否存在共享意图 (shared intention)。只有当两者存在共享意图时，才将该 seq2seq 样本用于训练，从而提高监督信号的质量并减少噪声。

2.2. 核心贡献/主要发现

论文最主要的贡献：

提出新颖的 seq2seq 训练策略： 首次将 seq2seq 范式引入序列推荐系统，通过关注用户的长远未来行为来挖掘额外的监督信号，弥补了传统 seq2item 训练的局限性。
引入潜在空间自监督： 提出在潜在空间中重构未来序列的整体表示，而非逐个重构具体物品，极大地降低了训练难度，提升了模型收敛性。
设计意图解耦机制： 提出了一个能够推断和解耦用户潜在意图的序列编码器。这个机制使得模型能够识别输入序列和未来序列之间共享的意图，从而有选择性地构建 seq2seq 训练样本，提高了监督信号的质量。
经验性验证： 在多个真实世界基准数据集和合成数据上进行了广泛实验，验证了所提出的 seq2seq 训练策略能够显著提升推荐性能，并增强模型在噪声数据下的鲁棒性。

论文得出了哪些关键的结论或发现？

seq2seq 训练策略能有效地从长期未来挖掘额外的监督信号，显著提升了序列推荐系统的性能。
在潜在空间进行自监督，即重构未来序列的整体表示，比在数据空间中逐个重构物品更有效，并有助于模型收敛。
意图解耦机制对于识别输入序列与未来序列之间的相关意图至关重要，它使得模型能够过滤掉无关的监督信号，确保训练的高效性。
结合 seq2item 和 seq2seq 损失的模型在多个数据集上均表现出优于最先进基线模型的性能。
所提出的 seq2seq 训练策略在一定程度的训练数据噪声下，表现出更好的鲁棒性。

3. 预备知识与相关工作

3.1. 基础概念

3.1.1. 顺序推荐系统 (Sequential Recommender Systems)

顺序推荐系统是一种旨在根据用户过去的一系列交互行为（例如点击、购买、浏览等）来预测其下一个可能感兴趣的物品或行为的推荐系统。与传统的协同过滤 (Collaborative Filtering) 或矩阵分解 (Matrix Factorization) 等不考虑时间顺序的推荐方法不同，顺序推荐系统强调用户行为的时间依赖性，认为用户的兴趣和意图是动态变化的，并受到最近行为的强烈影响。其核心任务是捕捉用户兴趣的序列模式和演变。

3.1.2. `sequence-to-item (seq2item)` 训练

这是目前深度学习顺序推荐模型中最常见的训练范式。它的基本思想是：给定一个用户历史行为序列 $[x_1, x_2, \ldots, x_t]$ 作为输入，模型的目标是预测用户在时间 $t+1$ 将要交互的单个物品 $x_{t+1}$ 。这种方法通常通过最大化 $x_{t+1}$ 的预测概率来训练，例如使用交叉熵损失。 优点： 简单直观，在许多场景下表现良好。 缺点： 1) 目光短浅 (Myopic)，只关注即时下一个行为，无法捕捉长期兴趣。2) 多样性不足 (Lack of Diversity)，容易陷入局部模式，推荐相似物品。3) 对噪声敏感 (Vulnerable to Noise)，如果 $x_{t+1}$ 是一个不相关的行为，会引入错误监督。

3.1.3. `sequence-to-sequence (seq2seq)` 训练

seq2seq 模型最初广泛应用于自然语言处理 (Natural Language Processing, NLP) 领域，如机器翻译。它的基本思想是：将一个输入序列映射到一个输出序列。在本文中，seq2seq 训练策略被重新定义用于推荐系统：给定一个用户历史行为序列 $[x_1, x_2, \ldots, x_t]$ ，模型的目标是预测一个未来的行为序列表示 $[x_{t+1}, x_{t+2}, \ldots, x_{T_u}]$ 。与传统的 seq2seq 模型逐个生成输出序列中的项不同，本文提出的 seq2seq 策略是在潜在空间中预测整个未来序列的聚合表示。

3.1.4. 自监督学习 (Self-Supervised Learning, SSL)

自监督学习是一种机器学习范式，它通过设计辅助任务 (pretext tasks)，从无标签数据中自动生成监督信号，从而训练模型学习有用的数据表示 (representations)。这些辅助任务通常利用数据自身的结构或属性来创建。训练好的模型学习到的表示可以用于下游任务 (downstream tasks)。 例如： 在图像领域，可以通过预测图像的旋转角度、识别被遮盖的图像块或解决拼图来训练模型。在自然语言处理领域，BERT 通过 Masked Language Model (MLM) 和 Next Sentence Prediction (NSP) 任务进行自监督预训练。本文的 seq2seq 训练就是一种自监督学习：模型通过预测未来序列的表示来学习用户意图的表示，而这个“未来序列表示”本身就是从无标签的用户行为序列中自动生成的监督信号。

3.1.5. 解耦表示学习 (Disentangled Representation Learning)

解耦表示学习旨在将数据的底层生成因素 (underlying explanatory factors) 分离到学习到的表示的不同、独立的维度或部分中。例如，在图像中，可能将物体的颜色、形状、大小等属性分别编码到表示的不同维度上。在推荐系统中，这可能意味着将用户的不同意图（如购买衣服的意图、购买电子产品的意图）分离到表示的不同部分。 优点： 1) 提升表示的可解释性 (interpretability)。2) 允许对特定因素进行独立操作或控制 (independent manipulation)。3) 提高模型在面对复杂、多意图数据时的鲁棒性 (robustness) 和泛化能力 (generalization ability)。本文利用解耦表示来识别输入序列和未来序列之间的共享意图，从而过滤掉不相关的监督信号。

3.1.6. Transformer/自注意力网络 (Self-Attention Networks)

Transformer 模型是由 Google 在2017年提出的一种完全基于自注意力 (Self-Attention) 机制的深度学习模型，彻底革新了序列建模领域。它摒弃了传统的循环神经网络 (Recurrent Neural Networks, RNN) 和卷积神经网络 (Convolutional Neural Networks, CNN) 结构，仅依靠注意力机制来捕捉序列内部的依赖关系。 自注意力 (Self-Attention) 机制： 允许模型在处理序列中的某个元素时，能够“关注”序列中的所有其他元素，并根据它们之间的相关性来加权聚合信息。 核心公式 (Self-Attention)： $\mathrm{Attention}(Q, K, V) = \mathrm{softmax}\left(\frac{QK^T}{\sqrt{d_k}}\right)V$ 其中，

$Q$ (Query), $K$ (Key), $V$ (Value) 是输入序列经过线性变换后得到的三个矩阵。它们的维度分别为 $n \times d_k$ , $n \times d_k$ , $n \times d_v$ ，其中 $n$ 是序列长度， $d_k$ 是 Key 和 Query 的维度， $d_v$ 是 Value 的维度。
$QK^T$ 计算了 Query 与所有 Key 的点积相似度。
$\sqrt{d_k}$ 是一个缩放因子，用于防止点积结果过大，导致 softmax 函数进入梯度饱和区。
$\mathrm{softmax}(\cdot)$ 将相似度转换为权重分布，确保所有权重的和为1。
$V$ 是加权聚合的对象，将 Value 矩阵根据注意力权重进行线性组合，得到最终的注意力输出。

Transformer 编码器通常由多层组成，每层包含一个多头自注意力 (Multi-Head Self-Attention) 机制和一个前馈网络。SASRec (Self-Attentive Sequential Recommendation) 和 BERT4Rec (Sequential Recommendation with Bidirectional Encoder Representations from Transformer) 都是基于 Transformer 编码器在推荐领域的成功应用。

3.1.7. 对比学习 (Contrastive Learning)

对比学习是一种自监督学习方法，其核心思想是学习一个编码器，使得相似的样本在潜在空间中彼此靠近，而不相似的样本彼此远离。通常，对比学习通过构建正样本对 (positive pairs) 和负样本对 (negative pairs) 来实现。对于一个锚点样本 (anchor)，它的某个数据增强版本或上下文相关的部分被视为正样本，而其他随机采样的样本则被视为负样本。模型的目标是最大化锚点与正样本之间的相似度，同时最小化锚点与所有负样本之间的相似度。本文的 seq2seq 损失函数就采用了对比学习的思想，通过 softmax 归一化，将正样本对（当前输入序列的意图表示与未来序列的意图表示）的相似度最大化，同时使其与批次内其他不相关意图的相似度最小化。

3.2. 前人工作

3.2.1. 顺序推荐 (Sequential Recommendation)

早期方法： 传统的推荐系统如协同过滤 (Collaborative Filtering) 和矩阵分解 (Matrix Factorization) 往往忽略用户行为的顺序性。为了解决这一问题，一些工作开始采用一阶或高阶马尔可夫链 (Markov Chains) 来捕捉顺序依赖，例如 FPMC。
深度学习驱动： 随着深度学习的发展，循环神经网络 (Recurrent Neural Networks, RNN) 及其变体 (如 GRU4Rec、 $GRU4Rec+$ )、卷积神经网络 (Convolutional Neural Networks, CNN, 如 Caser) 以及基于自注意力机制的模型 (如 SASRec、BERT4Rec) 在捕捉复杂序列模式方面取得了显著成功。这些模型通常受到神经语言模型 (Neural Language Models) 的启发，并将推荐任务视为预测序列中的下一个物品，即 seq2item 范式。
本文工作的区别： 现有深度学习顺序推荐器主要在数据空间（即物品ID空间）中显式重构未来序列中的每个物品。本文则提出在潜在空间中进行 seq2seq 训练，重构未来序列的整体表示，这是一个更抽象的层次。

3.2.2. 解耦用户混合意图 (Disentangling a User's Mixed Intentions)

表示解耦的通用方法： 解耦表示学习旨在将观察实例背后的不同解释因素分离到向量表示的不同部分。这通常通过重新解释变分自编码器 (Variational Auto-Encoders, VAEs) 并引入正则化项来实现，以最小化表示不同部分之间的互信息 (mutual information)，例如 beta-VAE。
混合数据与意图： 有些工作从混合数据 (mixture data) 的角度研究解耦，试图分离不同组件。
图数据中的解耦： 近期一些基于表示学习的算法也被提出用于解耦和保留关系数据（如社交网络、用户-物品交互图）中边缘背后的多种意图。
本文工作的区别： 本文的意图解耦目的不同。这些算法通常专注于学习通用的解耦表示，而本文的解耦是为了判断输入序列和标签序列之间是否存在共享意图，进而决定是否将该样本用于训练，以提高 seq2seq 监督信号的质量。

3.2.3. 自监督与对比学习 (Self-Supervision and Contrastive Learning)

自监督学习： 已成为从无标签数据中学习表示的流行方法。它通过设计辅助任务 (pretext tasks) 来实现。
- 预测任务： 预测一部分内容（如 Cloze test 中的被掩盖词，BERT）或排序关系。
- 判别任务： 通常采用对比学习范式，判别样本对之间的关系（如是否由同一数据变换而来，或子部分是否来自同一对象）。
对比预测编码 (Contrastive Predictive Coding, CPC)： 是自监督学习的先驱之一，它在潜在空间中预测未来部分，进行无监督预训练。
本文工作的区别： CPC 探索的是通用设置，其中意图纠缠 (entanglement) 问题不那么严重，且其未明确结合解耦表示学习。本文则在 CPC 潜在空间预测未来的基础上，进一步引入了意图解耦，以解决推荐系统中用户行为多意图且纠缠的复杂性。此外，本文的对比损失也用于减少训练数据中的选择偏差。

3.3. 差异化分析

本文提出的方法与现有工作的主要区别和创新点在于：

突破 seq2item 范式，引入 seq2seq： 现有深度序列推荐模型大多遵循 seq2item 模式，本文首次提出利用长期未来序列作为监督信号的 seq2seq 训练策略，以克服 seq2item 的目光短浅和多样性不足问题。
潜在空间自监督： 与传统 seq2seq 或其他自监督方法在数据空间中显式重构每个物品不同，本文在潜在空间中重构整个未来序列的聚合表示。这显著降低了重构难度，避免了逐个重构未来序列中大量物品的计算复杂性，并提升了训练的收敛性。
结合意图解耦： 针对未来序列可能包含多个不相关意图的问题，本文引入了独特的意图解耦机制。这使得模型能够识别输入序列与未来序列之间共享的意图，并仅基于这些“高置信度”的共享意图来构建 seq2seq 训练样本。这有效地过滤了噪声，提高了监督信号的质量。
互补而非替代： 本文的 seq2seq 训练策略旨在补充而非完全替代传统的 seq2item 训练，二者并行优化，共同提升模型性能。

4. 方法论

本文提出了一种新颖的 sequence-to-sequence (seq2seq) 训练策略，旨在通过利用用户更长远的未来行为序列来挖掘额外的监督信号，从而解决传统 sequence-to-item (seq2item) 训练的局限性。该 seq2seq 策略基于潜在自监督 (latent self-supervision) 和意图解耦 (intention disentanglement)。

4.1. 方法原理

本文的核心思想是结合传统的 seq2item 损失和新提出的 seq2seq 损失来训练序列推荐模型。seq2item 损失负责学习物品空间与用户意图空间之间的对齐，而 seq2seq 损失则通过预测未来序列的整体表示来捕捉用户的长期兴趣和多样化意图。为了有效实现 seq2seq 训练，本文提出了：

潜在自监督： 不逐个重构未来序列中的物品，而是重构整个未来序列在潜在空间中的表示。这简化了任务并促进收敛。
意图解耦： 设计一个能解耦用户不同意图的序列编码器。这使得模型能够识别输入序列和未来序列之间共享的意图类别，并仅使用这些“高置信度”的样本进行 seq2seq 训练，以避免引入噪声。

4.2. 核心方法详解 (逐层深入)

4.2.1. 符号与问题定义

首先，我们定义论文中使用的关键符号。

Notation	Description
N	用户序列的数量，即用户数
M	物品的数量
D	潜在表示的维度
K	解耦的用户意图类别数
$\mathbf{x}^{(u)}$	第 $u$ 个用户点击的物品序列
$x_t^{(u)}$	第 $u$ 个用户序列 $\mathbf{x}^{(u)}$ 中的第 $t$ 次点击
$T_u$	第 $u$ 个用户点击序列 $\mathbf{x}^{(u)}$ 的长度
$\theta$	序列编码器的参数
$\mathbf{H} \in \mathbb{R}^{M \times D}$	物品嵌入表，包含在 $\theta$ 中
$\mathbf{H}_{i,:}$	第 $i$ 个物品的表示，即 $\mathbf{H}$ 的第 $i$ 行
$\mathbf{h}_t^{(u)} \in \mathbb{R}^D$	物品 $x_t^{(u)}$ 的表示
$\phi_\theta(\cdot)$	序列编码器，输出 $K$ 个向量
$\boldsymbol{\phi}_\theta^{(k)}(\mathbf{x}^{(u)})$	在第 $k$ 个潜在类别下，用户 $u$ 的意图表示
$\lambda \in [0, 1]$	用于选择高置信度 `sequence-to-sequence` 训练样本的阈值超参数
$\mathcal{B}$	用于训练的 mini-batch 序列

问题： 在现代推荐系统的候选生成阶段，任务是根据用户 $u$ 观察到的历史行为序列 $\mathbf{x}^{(u)}$ ，预测该用户最有可能点击的下一个物品（或多个物品）。

深度序列推荐器： 一个典型的深度序列模型包含一个序列编码器 $\phi_\theta(\cdot)$ 和一个物品嵌入表 $\mathbf{H}$ 。编码器将序列 $\mathbf{x}^{(u)}$ 作为输入，输出一个或多个 $D$ 维向量，这些向量被视为用户意图的表示。然后，模型通过计算用户表示与物品表示之间的相似度来估计用户点击某个物品的概率。

4.2.2. `Sequence-to-Item (seq2item)` 训练

传统的 seq2item 训练策略是所有深度序列推荐器的基石，它学习将用户历史序列映射到下一个物品。对于每个用户 $u$ 和每个时间步 $t$ ，模型的目标是根据历史序列 $\mathbf{x}_{1:t}^{(u)} = [x_1^{(u)}, \ldots, x_t^{(u)}]$ 预测下一个物品 $x_{t+1}^{(u)}$ 。传统的 seq2item 损失定义如下： $\mathcal{L}_{s2i}(\boldsymbol{\theta}) = \sum_u \sum_t \mathcal{L}_{s2i}(\boldsymbol{\theta}, u, t)$ $\mathcal{L}_{s2i}(\boldsymbol{\theta}, u, t) = - \ln { p_{\boldsymbol{\theta}}(x_{t+1}^{(u)} \mid x_1^{(u)}, x_2^{(u)}, \ldots, x_t^{(u)}) }$ 其中 $p_{\boldsymbol{\theta}}(x_{t+1}^{(u)} \mid \{ x_i^{(u)} \}_{i=1}^t)$ 表示给定历史序列，预测下一个物品 $x_{t+1}^{(u)}$ 的概率。这个概率通常设计为与下一个物品的嵌入和历史序列的表示之间的相似度成比例。

4.2.3. `Sequence-to-Sequence (seq2seq)` 自监督

本文提出的 seq2seq 训练策略与传统的 seq2item 损失并行执行，旨在从整个未来序列中挖掘额外的监督信号。 训练样本构建： 在每个 mini-batch $\mathcal{B}$ 中，每个训练样本 (u, t) 对应一个早期序列 $\mathbf{x}_{1:t}^{(u)} = [x_1^{(u)}, x_2^{(u)}, \ldots, x_t^{(u)}]$ 和其对应的未来序列 $\mathbf{x}_{t+1:T_u}^{(u)} = [x_{t+1}^{(u)}, x_{t+2}^{(u)}, \ldots, x_{T_u}^{(u)}]$ 。为了捕捉未来序列的意图，特别是与早期序列中较近行为的关联，论文使用了反转后的未来序列 $\mathbf{x}_{T_u:t+1}^{(u)} = [x_{T_u}^{(u)}, x_{T_u-1}^{(u)}, \ldots, x_{t+1}^{(u)}]$ 。这个反转操作暗示了越接近时间 $t$ 的未来行为，在形成未来意图表示时可能具有更高的权重。

序列编码器 $\phi_\theta(\cdot)$ ： 本文的序列编码器 $\phi_\theta(\cdot)$ 被设计为输出 $K$ 个 $D$ 维的向量，即 \phi_\theta(\cdot) = \{ \boldsymbol{\phi}_\theta^{(k)}(\cdot) \}_{k=1}^K。每个向量 $\boldsymbol{\phi}_\theta^{(k)}(\cdot)$ 代表了在第 $k$ 个潜在类别 (latent category) 下的用户意图表示。这意味着编码器能够捕捉并解耦用户在给定序列中可能存在的 $K$ 种不同意图。如果某个序列不包含第 $k$ 个潜在类别下的任何物品，那么对应的 $\boldsymbol{\phi}_\theta^{(k)}(\cdot)$ 应该反映这一点。

seq2seq 损失： 针对每个训练样本 (u, t) 和每个潜在意图类别 $k$ ，seq2seq 损失旨在使早期序列在第 $k$ 类意图下的表示 $\boldsymbol{\phi}_\theta^{(k)}(\mathbf{x}_{1:t}^{(u)})$ 能够预测反转后的未来序列在第 $k$ 类意图下的表示 $\boldsymbol{\phi}_\theta^{(k)}(\mathbf{x}_{T_u:t+1}^{(u)})$ 。这通过一个对比学习风格的 softmax 损失来实现： $\begin{array}{r l} & \mathcal{L}_{s2s}(\boldsymbol{\theta}, u, t, k) = - \ln { p_{\boldsymbol{\theta}}( \boldsymbol{\phi}_{\boldsymbol{\theta}}^{(k)}(\mathbf{x}_{T_u:t+1}^{(u)}) \mid \boldsymbol{\phi}_{\boldsymbol{\theta}}^{(k)}(\mathbf{x}_{1:t}^{(u)}) ) } = \\ & - \ln { \frac { \exp { \left( \frac { 1 } { \sqrt { D } } \ \boldsymbol{\phi}_{\boldsymbol{\theta}}^{(k)}(\mathbf{x}_{T_u:t+1}^{(u)}) \cdot \boldsymbol{\phi}_{\boldsymbol{\theta}}^{(k)}(\mathbf{x}_{1:t}^{(u)}) \right) } } { \sum _ { (u', t') \in \mathcal{B} } { \sum _ { k' = 1 } ^ { K } \exp { \left( \frac { 1 } { \sqrt { D } } \ \boldsymbol{\phi}_{\boldsymbol{\theta}}^{(k')}(\mathbf{x}_{T_{u'}:t'+1}^{(u')}) \cdot \boldsymbol{\phi}_{\boldsymbol{\theta}}^{(k)}(\mathbf{x}_{1:t}^{(u)}) \right) } } } } \end{array}$ (3) 公式 (3) 解释：

分子： 表示了正样本对的相似度。它计算的是当前样本中，早期序列在第 $k$ 类意图下的表示 $\boldsymbol{\phi}_{\boldsymbol{\theta}}^{(k)}(\mathbf{x}_{1:t}^{(u)})$ 与其对应的未来序列在第 $k$ 类意图下的表示 $\boldsymbol{\phi}_{\boldsymbol{\theta}}^{(k)}(\mathbf{x}_{T_u:t+1}^{(u)})$ 之间的点积相似度。
分母： 包含了所有可能的负样本对。它计算的是当前早期序列的第 $k$ 类意图表示 $\boldsymbol{\phi}_{\boldsymbol{\theta}}^{(k)}(\mathbf{x}_{1:t}^{(u)})$ 与当前 mini-batch $\mathcal{B}$ 中所有其他样本的所有 $K$ 种未来意图表示 $\boldsymbol{\phi}_{\boldsymbol{\theta}}^{(k')}(\mathbf{x}_{T_{u'}:t'+1}^{(u')})$ 之间的点积相似度。这种 softmax 归一化是对比学习中常用的 InfoNCE 损失形式。
$\frac{1}{\sqrt{D}}$ 缩放因子： 用于对点积结果进行缩放。由于编码器的最后一层是层归一化 (LayerNormalization)，这个缩放因子有助于防止点积结果过大，从而稳定训练过程并帮助收敛。
“未来序列”使用反转：论文中提到 $x_{T_u:t+1}^{(u)}$ 是 $x_{t+1:T_u}^{(u)}$ 的反转序列，这表明模型在形成未来意图表示时，可能希望更关注那些离当前时间点 $t$ 更近的未来行为，因为它们可能与当前意图的延续性更强。

选择高置信度样本进行 seq2seq 训练： 并非所有 (u, t, k) 组合都应该用于 seq2seq 训练。例如，如果早期序列 $\mathbf{x}_{1:t}^{(u)}$ 的意图与第 $k$ 个潜在类别无关，那么将其与未来序列的第 $k$ 类意图进行匹配可能会引入噪声。为了解决这个问题，本文引入了一个选择机制，只使用模型认为高置信度 (high confidence) 的 seq2seq 样本： $\mathcal{L}_{s2s}(\boldsymbol{\theta}, \mathcal{B}) = \sum_{(u, t) \in \mathcal{B}} \sum_{k=1}^K \mathcal{L}_{s2s}(\boldsymbol{\theta}, u, t, k) \cdot \mathbf{1}[\mathcal{L}_{s2s}(\boldsymbol{\theta}, u, t, k) \leq \tau]$ (4) 公式 (4) 解释：

这是一个门控损失 (gated loss)。只有当计算出的 seq2seq 损失 $\mathcal{L}_{s2s}(\boldsymbol{\theta}, u, t, k)$ 小于或等于某个阈值 $\tau$ 时，该样本的损失才会被计入总损失。
阈值 $\tau$ ： 被定义为当前 mini-batch $\mathcal{B}$ 中所有 $\mathcal{L}_{s2s}(\boldsymbol{\theta}, u, t, k)$ 值中第 $\lceil \lambda \cdot |\mathcal{B}| \cdot K \rceil$ 小的值。
超参数 $\lambda \in [0, 1]$ ： 控制了被选作高置信度样本的比例。例如，如果 $\lambda = 0.1$ ，那么只有前 10% 最小的 seq2seq 损失样本会被用于训练。损失越小，意味着模型认为早期序列和未来序列在第 $k$ 类意图下匹配得越好，因此越值得信任。这个机制确保了只从那些“意图相关”且“容易预测”的样本中学习。

4.2.4. 结合 `seq2item` 损失

为了保持与物品空间和单项预测任务的对齐，传统的 seq2item 训练仍然是必要的。由于本文的序列编码器 $\phi_\theta(\cdot)$ 会输出 $K$ 个意图表示，在计算 seq2item 损失时，需要考虑哪个意图表示最适合预测下一个物品。本文的 seq2item 损失定义如下： $\mathcal{L}_{s2i}(\boldsymbol{\theta}, \mathcal{B}) = \sum_{(u, t) \in \mathcal{B}} \mathcal{L}_{s2i}(\boldsymbol{\theta}, u, t)$ $\begin{array}{r} \mathcal{L}_{s2i}(\boldsymbol{\theta}, u, t) = - \ln_{ \mathbf{\Theta} } p_{\boldsymbol{\theta}}(\mathbf{h}_{t+1}^{(u)} \mid \phi_{\boldsymbol{\theta}}(\mathbf{x}_{1:t}^{(u)})) = \end{array}$ $- \ln \frac { \max_{k \in \{1, 2, \ldots, K\}} \exp \left( \frac { 1 } { \sqrt { D } } \mathbf{h}_{t+1}^{(u)} \cdot \boldsymbol{\phi}_{\boldsymbol{\theta}}^{(k)}(\mathbf{x}_{1:t}^{(u)}) \right) } { \sum_{(u', t') \in \mathcal{B}} \sum_{k'=1}^K \exp \left( \frac { 1 } { \sqrt { D } } \mathbf{h}_{t'+1}^{(u')} \cdot \boldsymbol{\phi}_{\boldsymbol{\theta}}^{(k')}(\mathbf{x}_{1:t}^{(u)}) \right) }$ (6) 公式 (6) 解释：

分子： 预测下一个物品 $x_{t+1}^{(u)}$ 时，模型会从 $K$ 个意图表示 $\boldsymbol{\phi}_{\boldsymbol{\theta}}^{(k)}(\mathbf{x}_{1:t}^{(u)})$ 中选择与目标物品 $\mathbf{h}_{t+1}^{(u)}$ 相似度最高的一个。max 操作体现了用户下一个行为可能由其当前多个意图中的任何一个驱动。
分母： 同样采用对比学习的 softmax 归一化，将当前早期序列的意图表示与 mini-batch 中所有其他样本的下一个物品表示进行对比。

4.2.5. 总损失函数

模型训练时，通过 mini-batch 梯度下降同时优化 seq2item 损失和 seq2seq 损失的加权和： $\mathcal{L}(\boldsymbol{\theta}, \mathcal{B}) = \mathcal{L}_{s2i}(\boldsymbol{\theta}, \mathcal{B}) + \mathcal{L}_{s2s}(\boldsymbol{\theta}, \mathcal{B})$ (7) 这里没有显式加权参数，意味着两者权重默认均为1。

4.2.6. 解耦序列编码 (Disentangled Sequence Encoding)

为了实现意图解耦和生成 $K$ 个意图表示，本文在 SASRec 编码器的基础上添加了一个意图解耦层 (intention-disentanglement layer)。 SASRec 编码器是一个基于多头自注意力 (Multi-Head Self-Attention) 的 Transformer 变体。它以物品嵌入序列 $[ \mathbf{h}_1^{(u)}, \mathbf{h}_2^{(u)}, \ldots, \mathbf{h}_t^{(u)} ]$ 作为输入，输出一个同样长度的序列 $[ \mathbf{z}_1^{(u)}, \mathbf{z}_2^{(u)}, \ldots, \mathbf{z}_t^{(u)} ]$ ，其中 $\mathbf{z}_i^{(u)} \in \mathbb{R}^D$ 可以被视为用户在点击物品 $x_i^{(u)}$ 时的潜在意图表示。

意图聚类 (Intention Clustering)： 意图解耦层首先根据每个位置 $i$ 的意图 $\mathbf{z}_i^{(u)}$ 与 $K$ 个预设的原型意图 (prototypical intention representations) $\{ \mathbf{c}_k \in \mathbb{R}^D \}_{k=1}^K$ 之间的距离，来确定该意图属于哪个潜在类别。 $\mathcal{P}_{k \mid i} = \frac { \exp { \Big ( } { \frac { 1 } { \sqrt { D } } } { \mathrm{LayerNorm}_1 }(\mathbf{z}_i^{(u)}) \cdot { \mathrm{LayerNorm}_2 }(\mathbf{c}_k) { \Big ) } } { \sum_{k'=1}^K \exp { \Big ( } { \frac { 1 } { \sqrt { D } } } { \mathrm{LayerNorm}_1 }(\mathbf{z}_i^{(u)}) \cdot { \mathrm{LayerNorm}_2 }(\mathbf{c}_{k'}) { \Big ) } } }$ (8) 公式 (8) 解释：

$\mathcal{P}_{k \mid i}$ 表示在位置 $i$ 的意图 $\mathbf{z}_i^{(u)}$ 属于第 $k$ 个潜在类别（原型 $\mathbf{c}_k$ ）的概率。
原型意图 $\{ \mathbf{c}_k \}$ ： 它们是模型的可学习参数，代表了 $K$ 种不同的通用意图类别。
LayerNorm 层： $LayerNorm_1(\cdot)$ 和 $LayerNorm_2(\cdot)$ 是独立的层归一化层，它们有各自的参数。使用层归一化后计算点积，实际上是在计算余弦相似度 (cosine similarity)。这种设计被认为在避免模式崩溃 (mode collapse) 方面比直接点积更有效，即防止大多数原型被模型忽略。
$\frac{1}{\sqrt{D}}$ 缩放因子： 同样用于稳定相似度计算。

意图加权 (Intention Weighting)： 除了确定每个位置的意图属于哪个类别，模型还需要评估每个位置的意图对预测用户未来意图的重要性。这通过另一个注意力权重 $p_i$ 来实现： $p_i = \frac { \exp { \left( \frac { 1 } { \sqrt { D } } \mathrm{key}_i \cdot \mathrm{query} \right) } } { \sum_{i'=1}^t \exp { \left( \frac { 1 } { \sqrt { D } } \mathrm{key}_{i'} \cdot \mathrm{query} \right) } }$ (9) 其中， $key_i$ 和 query 的计算如下： $\mathbf{key}_i = \widetilde{\mathbf{key}}_i + \mathrm{ReLU}(\mathbf{W}^\top \widetilde{\mathbf{key}}_i + \mathbf{b})$ (10) $\widetilde{\mathbf{key}}_i = \mathrm{LayerNorm}_3(\boldsymbol{\alpha}_i + \mathbf{z}_i^{(u)})$ (11) $\mathrm{query} = \mathrm{LayerNorm}_4(\boldsymbol{\alpha}_t + \mathbf{z}_t^{(u)} + \mathbf{b}')$ (12) 公式 (9)-(12) 解释：

$p_i$ 表示在位置 $i$ 的意图对预测用户未来意图的重要性权重。
$key_i$ 和 query： 这是一个注意力机制的变体。query 是基于序列中最后一个物品的意图 $\mathbf{z}_t^{(u)}$ 和其位置嵌入 $\boldsymbol{\alpha}_t$ 以及一个可学习偏置 $\mathbf{b}'$ 构建的。 $key_i$ 则是基于每个位置 $i$ 的意图 $\mathbf{z}_i^{(u)}$ 和位置嵌入 $\boldsymbol{\alpha}_i$ 构建的。
位置嵌入 $\{ \boldsymbol{\alpha}_i \}$ ： 可学习的参数，用于编码序列中物品的位置信息。
可学习参数 $\mathbf{W}, \mathbf{b}, \mathbf{b}'$ ： 引入这些参数是为了让模型更灵活地学习哪些意图是重要的。
ReLU 激活函数： 为 $key_i$ 引入非线性变换。
LayerNorm 层： $LayerNorm_3$ 和 $LayerNorm_4$ 是独立的层归一化层，同样有助于稳定训练。
假设： query 的构建反映了“最近的点击更有价值”和“与最新意图相近的早期意图可能更重要”的假设。

意图聚合 (Intention Aggregation)： 最后，将所有位置的意图 $\mathbf{z}_i^{(u)}$ 根据其类别概率 $\mathcal{P}_{k \mid i}$ 和重要性权重 $p_i$ 进行聚合，以生成 $K$ 个解耦的序列表示 $\boldsymbol{\phi}_{\boldsymbol{\theta}}^{(k)}(\mathbf{x}_{1:t}^{(u)})$ ： $\boldsymbol{\phi}_{\boldsymbol{\theta}}^{(k)}(\mathbf{x}_{1:t}^{(u)}) = \mathrm{LayerNorm}_5 \left( \boldsymbol{\beta}_k + \sum_{i=1}^t \mathcal{P}_{k \mid i} \cdot p_i \cdot \mathbf{z}_i^{(u)} \right)$ (13) 公式 (13) 解释：

$\boldsymbol{\phi}_{\boldsymbol{\theta}}^{(k)}(\mathbf{x}_{1:t}^{(u)})$ 是输入序列 $\mathbf{x}_{1:t}^{(u)}$ 在第 $k$ 个潜在类别下的最终意图表示。
加权求和： 对于每个类别 $k$ ，模型将所有位置 $i$ 的意图 $\mathbf{z}_i^{(u)}$ 进行加权求和。权重是 $\mathcal{P}_{k \mid i}$ （该意图属于类别 $k$ 的概率）和 $p_i$ （该意图的重要性）的乘积。这意味着只有当一个意图既属于某个类别又被认为重要时，它才会对该类别的最终表示产生贡献。
$\boldsymbol{\beta}_k \in \mathbb{R}^D$ ： 是第 $k$ 个输出的偏置向量，初始化为均值0、标准差 $\frac{1}{\sqrt{D}}$ 的正态分布样本。
$LayerNorm_5$ ： 最后一个层归一化层。
偏置的使用： 论文提到有两组 $\beta_k$ ：一组用于编码作为 seq2seq 输入的序列 $\mathbf{x}_{1:t}^{(u)}$ ，另一组用于编码作为 seq2seq 目标的未来序列 $\mathbf{x}_{T_u:t+1}^{(u)}$ 。这允许模型区分输入和目标序列的不同偏置。

鼓励解耦的机制： 论文指出，其损失函数本身就具有促进解耦的特性。在 seq2seq 损失（公式 3）和 seq2item 损失（公式 6）中，每个正样本的得分（分子）是基于第 $k$ 个意图部分 $\boldsymbol{\phi}_{\boldsymbol{\theta}}^{(k)}(\cdot)$ 计算的。而分母则需要与所有 $K$ 个意图部分（包括其他 K-1 个非 $k$ 的意图）进行对比。为了最大化第 $k$ 个意图部分的似然，模型被强制让不同的意图部分 $\boldsymbol{\phi}_{\boldsymbol{\theta}}^{(k)}(\cdot)$ 保留足够不同的信息，否则它们会在对比中相互竞争并导致性能下降。因此，论文没有引入额外的正则化项来鼓励解耦。

5. 实验设置

5.1. 数据集

实验在四个广泛使用的真实世界基准数据集上进行，这些数据集经过 SASRec 和 BERT4Rec 的处理，保证了公平比较。

Amazon Beauty:
- 用户数：40,226
- 物品数：54,542
- 平均序列长度：8.8 (短序列)
Steam:
- 用户数：281,428
- 物品数：13,044
- 平均序列长度：12.4 (短序列)
MovieLens-1M:
- 用户数：6,040
- 物品数：3,416
- 平均序列长度：163.5 (长序列)
MovieLens-20M:
- 用户数：138,493
- 物品数：26,744
- 平均序列长度：144.4 (长序列)
  
  数据集划分： 遵循先前工作的标准做法 (SASRec, BERT4Rec)。对于每个用户的序列：
最后一个物品用于测试 (Test)。
倒数第二个物品用于验证 (Validation)。
其余所有物品用于训练 (Training)。这种划分方法确保了对模型预测未来行为能力的评估。

选择这些数据集的原因： 这些数据集涵盖了不同规模、不同领域（电商、游戏、电影）以及不同平均序列长度（短序列和长序列）的用户行为数据，能够全面评估模型在各种现实场景下的性能和鲁棒性。

5.2. 评估指标

本文采用推荐系统领域常用的三个评估指标：召回率 (Recall@k)、归一化折损累积增益 (Normalized Discounted Cumulative Gain, NDCG@k) 和平均倒数排名 (Mean Reciprocal Rank, MRR)。所有指标值越高表示推荐性能越好。

为了评估，每个测试集中的真实物品都会与 100 个随机采样的负样本（根据其流行度采样）配对。推荐任务变成从这 101 个物品中识别出真实的下一个物品。

5.2.1. 召回率 (Recall@k)

概念定义： Recall@k 衡量的是模型在前 $k$ 个推荐结果中成功召回（即命中）用户实际交互过的物品的比例。它关注的是模型找到所有相关物品的能力，即使这些物品排名靠后，只要在前 $k$ 个位置内就算命中。

数学公式： $\mathrm{Recall@k} = \frac{1}{N} \sum_{u=1}^N \frac{|\{\text{recommended items at top-k for user u}\} \cap \{\text{ground-truth items for user u}\}|}{|\{\text{ground-truth items for user u}\}|}$ 符号解释：

$N$ : 测试集中用户的总数。
$\{\text{recommended items at top-k for user u}\}$ : 为用户 $u$ 生成的前 $k$ 个推荐物品集合。
$\{\text{ground-truth items for user u}\}$ : 用户 $u$ 在测试集中实际交互的真实物品集合（在本文中通常是下一个真实点击的单个物品）。
$|\cdot|$ : 集合的基数（元素数量）。

5.2.2. 归一化折损累积增益 (Normalized Discounted Cumulative Gain, NDCG@k)

概念定义： NDCG@k 是一种结合了相关性（相关物品的质量）和排序位置（相关物品出现的顺序）的评估指标。它对排名靠前的相关物品赋予更高的权重，对排名靠后的相关物品赋予较低的权重。NDCG 值介于 0 到 1 之间，1 表示完美排名。

数学公式： $\mathrm{NDCG@k} = \frac{1}{N} \sum_{u=1}^N \frac{\mathrm{DCG@k}_u}{\mathrm{IDCG@k}_u}$ 其中， $\mathrm{DCG@k}_u = \sum_{j=1}^k \frac{2^{\mathrm{rel}_j} - 1}{\log_2(j+1)}$ $\mathrm{IDCG@k}_u = \sum_{j=1}^{|\mathrm{REL}_u|} \frac{2^{\mathrm{rel}_j} - 1}{\log_2(j+1)}$ 符号解释：

$N$ : 测试集中用户的总数。
$\mathrm{rel}_j$ : 排名在第 $j$ 位的物品与用户 $u$ 的相关性评分。在二元相关性（命中/未命中）场景下，如果物品是真实物品， $\mathrm{rel}_j=1$ ；否则， $\mathrm{rel}_j=0$ 。
$\mathrm{DCG@k}_u$ : 用户 $u$ 的折扣累积增益，表示推荐列表在前 $k$ 个位置的加权相关性总和。
$\mathrm{IDCG@k}_u$ : 理想折扣累积增益，表示用户 $u$ 在理想（完美排序）情况下能获得的 DCG@k 值。
$|\mathrm{REL}_u|$ : 用户 $u$ 的真实相关物品数量。

5.2.3. 平均倒数排名 (Mean Reciprocal Rank, MRR)

概念定义： MRR 衡量的是第一个相关物品在推荐列表中的平均排名倒数。如果第一个相关物品排在第 1 位，则倒数是 1；如果排在第 2 位，则倒数是 1/2；如果未找到相关物品，则为 0。MRR 对模型将最相关物品排在最前面的能力非常敏感。

数学公式： $\mathrm{MRR} = \frac{1}{N} \sum_{u=1}^N \frac{1}{\mathrm{rank}_u}$ 符号解释：

$N$ : 测试集中用户的总数。
$\mathrm{rank}_u$ : 对于用户 $u$ ，第一个真实物品在推荐列表中出现的排名位置。如果推荐列表中没有真实物品，则 $\mathrm{rank}_u$ 趋于无穷大， $\frac{1}{\mathrm{rank}_u}$ 为 0。

5.3. 对比基线

本文将所提出的方法与一系列具有代表性的、最先进的序列推荐器进行了比较：

POP (Popularity): 朴素基线，总是推荐训练集中最流行的物品。
BPR-MF (Bayesian Personalized Ranking - Matrix Factorization): 基于矩阵分解的经典协同过滤算法，通过贝叶斯个性化排序优化。它不直接建模序列信息，但能捕捉用户的隐式偏好。
NCF (Neural Collaborative Filtering): 基于神经网络的协同过滤框架，利用多层感知机 (Multi-Layer Perceptron, MLP) 学习用户-物品交互，是深度学习在推荐领域的早期代表。它也主要关注用户-物品交互，而非序列性。
FPMC (Factorized Personalized Markov Chains): 结合了矩阵分解和一阶马尔可夫链的混合模型，能够捕捉用户的顺序偏好。
GRU4Rec: 基于门控循环单元 (Gated Recurrent Unit, GRU) 的循环神经网络模型，是会话推荐领域的开创性工作，能有效建模序列。
GRU4Rec $^+$ : GRU4Rec 的改进版本，在 GRU 基础上引入了新的正则化和采样策略。
Caser (Convolutional Sequence Embedding Recommendation): 基于卷积神经网络 (Convolutional Neural Network, CNN) 的模型，通过水平和垂直卷积滤波器捕捉用户行为序列的局部和全局特征。
SASRec (Self-Attentive Sequential Recommendation): 基于 Transformer 编码器的自注意力模型，在序列推荐任务上表现出色，是当前最先进的序列推荐模型之一。它使用自注意力机制捕捉序列中任意两个物品之间的依赖关系。
BERT4Rec (Sequential Recommendation with Bidirectional Encoder Representations from Transformer): 另一个基于 Transformer 模型的序列推荐器，借鉴了 BERT 在自然语言处理中的 Cloze 任务（即掩码语言模型），通过双向 Transformer 编码器学习用户行为序列的上下文表示。这是目前最先进的深度序列推荐器之一。

5.4. 实现与超参数

实现框架： TensorFlow。
参数初始化： 使用 TensorFlow 推荐的默认初始化。
优化器： Adam 优化器。
学习率 (Learning Rate)： 0.001。
Mini-batch 大小 (Batch Size)： 128。
序列编码器： 使用 SASRec 的单头实现作为本文编码器的一部分。
最大序列长度 (Maximum Sequence Length)：
- MovieLens-1M 和 MovieLens-20M：200。
- Amazon Beauty 和 Steam：50。这与 SASRec 和 BERT4Rec 的配置保持一致。
超参数调优： 使用随机搜索 (random search) 进行调优。
- 物品嵌入维度 $D$ ： $\{16, 32, 64, 128, 256\}$ 。
- 自注意力块 (Self-Attention Blocks) 数量 (SASRec 部分)： $\{1, 2, 3\}$ 。
- seq2seq 样本阈值 $\lambda$ ： $\{0.05, 0.10, \ldots, 1.0\}$ 。
- 潜在类别数 $K$ ： $\{1, 2, \ldots, 8\}$ 。
- Dropout 率： $\{0, 0.1, 0.2, \ldots, 0.9\}$ 。
- $L_2$ 正则化项： $\{0, 0.0001, 0.001, \ldots, 1\}$ 。

6. 实验结果与分析

6.1. 核心结果分析

以下图（原文 Figure 2 和 Figure 3）展示了本文方法与一系列基线模型在四个数据集上的推荐性能比较结果。

该图像是一个图表，展示了不同推荐方法在多个数据集（Beauty、Steam、ML-1m、ML-20m）上的召回率（Recall）。图中分为三部分，分别表示在前1、前5和前10个推荐位置的召回率。各个方法的性能比较结果显示了所提出方法的优势。

图2：推荐性能在召回率（Recall@1、Recall@5 和 Recall@10）方面的表现。这些指标衡量了方法在有限预算下检索相关物品的能力。

该图像是一个展示不同推荐方法在多个数据集（如Beauty和Steam）上表现的条形图，包含了标准化折扣累积增益（NDCG@5、NDCG@10）和平均倒数排名（MRR）的结果。数据表明所提方法在多个评估指标上均优于其他基准方法。

图3：推荐性能在 NDCG@5、NDCG@10 和 MRR 方面的表现。这些指标衡量了方法在相关物品排名前列方面的表现。

分析： 从图2和图3可以看出，本文提出的方法（结合了 seq2item 和解耦潜在 seq2seq 训练）在所有四个数据集上均持续优于所有基线模型。

显著提升： 在 Beauty 和 Steam 数据集上，相比于最强的基线模型，本文方法的相对提升通常超过 35%。这表明在用户行为序列相对较短的数据集上，从长期未来挖掘监督信号并进行意图解耦的效果尤为显著。
温和提升： 在 MovieLens-1M 和 MovieLens-20M 这两个数据集上，本文方法的相对提升约为 5%。论文解释这可能是因为这两个数据集的平均序列长度远长于 Beauty 和 Steam（分别为 163.5 和 144.4）。处理如此长的序列，意图解耦和长期未来预测的复杂性会大大增加，挑战更大。

总体而言，实验结果强有力地验证了本文 seq2seq 训练策略的有效性，表明它能够发现传统 seq2item 训练未涵盖的额外监督信号，从而提升推荐性能。

6.2. 数据呈现 (表格)

以下是原文 Table 2 的结果：

Variants of Our Method	Evaluation Metrics
Variants of Our Method	Recall@1	Recall@5	Recall@10	NDCG@5	NDCG@10	MRR
(1) Remove seq2seq training	0.1358	0.3002	0.3891	0.2369	0.2675	0.2420
(2) Individually reconstruct all items in a future sequence	0.1071	0.2709	0.3744	0.1916	0.2251	0.1992
(3) Individually reconstruct the next three items	0.1202	0.2914	0.3898	0.2084	0.2403	0.2139
(0) Default	0.1522	0.3225	0.4171	0.2404	0.2709	0.2448

6.3. 消融实验/参数分析

6.3.1. 消融研究 (Ablation Study)

如上表（原文 Table 2）所示，作者在 Beauty 数据集上进行了消融研究，以验证本文 seq2seq 训练策略中各个组件的有效性。

变体 (1) 移除 seq2seq 训练 (Remove seq2seq training)：
- 该变体仅使用传统的 seq2item 损失进行训练。
- 结果： 相比于默认方法 (0)，所有评估指标均出现下降。例如，Recall@1 从 0.1522 下降到 0.1358。
- 结论： 这强有力地证明了本文提出的 seq2seq 损失的有效性，它确实为模型带来了额外的有益监督信号。
变体 (2) 独立重构未来序列中的所有物品 (Individually reconstruct all items in a future sequence)：
- 该变体尝试在数据空间中逐个重构未来序列中的所有物品，而不是在潜在空间中重构未来序列的整体表示。这是一种更直接但更困难的 seq2seq 监督方式。
- 结果： 性能比变体 (1)（仅 seq2item）还要差。例如，Recall@1 仅为 0.1071。
- 结论： 这验证了在潜在空间进行自监督的必要性。直接重构未来序列中所有物品非常困难，容易导致收敛问题或引入过多噪声，从而降低性能。
变体 (3) 独立重构接下来的三个物品 (Individually reconstruct the next three items)：
- 该变体尝试在数据空间中逐个重构未来序列中最近的三个物品。
- 结果： 性能略优于变体 (2)，但仍然比变体 (1) 差。例如，Recall@1 为 0.1202。
- 结论： 即使只重构未来序列中的一部分物品，其性能仍然不佳，这进一步强调了潜在自监督的优越性，以及从长远未来中筛选高质量信号的重要性。性能下降还可能归因于许多不相关的未来物品，即使它们是较近期的。
  
  总结： 消融研究明确证实了本文 seq2seq 训练策略的有效性，并强调了潜在自监督和筛选高置信度样本这两个核心组件的重要性。

6.3.2. 鲁棒性分析 (Robustness to Synthetic Noises)

以下图（原文 Figure 4）展示了在不同程度的训练数据噪声下，本文方法与仅使用 seq2item 训练策略的鲁棒性比较。训练数据通过随机替换部分观察到的点击行为来引入噪声。

该图像是性能下降的图表，展示了在不同百分比的训练数据损坏下，seq2item与seq2seq策略的性能变化。左图为Recall@5的下降情况，中图为NDCG@5的变化，右图为MRR的性能下降。结果表明，在训练数据损坏时，使用seq2seq策略的性能下降较小。

图4：性能下降的图表，展示了在不同百分比的训练数据损坏下，seq2item 与 seq2seq 策略的性能变化。左图为 Recall@5 的下降情况，中图为 NDCG@5 的变化，右图为 MRR 的性能下降。结果表明，在训练数据损坏时，使用 seq2seq 策略的性能下降较小。图中 y 轴表示性能相对于无噪声训练数据的比率。

分析：

趋势： 随着训练数据中噪声百分比的增加，所有方法的推荐性能均呈下降趋势。
seq2seq 的优势： 当噪声水平相对适中（例如，噪声小于 20%）时，采用 seq2seq 训练策略的模型性能下降速度明显慢于仅使用 seq2item 训练的模型。
结论： 这表明通过从更长远的未来挖掘额外的监督信号，并有选择性地从高置信度 seq2seq 样本中学习，本文方法能够有效增强模型的鲁棒性，使其在面对不确定或噪声污染的训练数据时表现更稳定。这是因为 seq2seq 损失通过潜在自监督和意图解耦，能够更好地过滤掉噪声，提取更纯净的长期意图信号。

6.3.3. 超参数敏感性 (Hyper-parameter Sensitivity)

以下图（原文 Figure 5）展示了超参数 $\lambda$ 对模型性能的影响。 $\lambda \in [0, 1]$ 是用于确定 seq2seq 样本是否具有高置信度，进而决定是否将其用于自监督训练的阈值。

$Figure 5: Impact of the threshold hyper-parameter $\\lambda \\in \\left\[ 0 , 1 \\right\]$ , which is for determining whether a seq2seq sample is of high confidence and thus whether to use the sample for selfsupervised training. $\\lambda = 0$ is equivalent to not using seq2seq training, while $\\lambda = 1$ selects all seq2seq samples for training.$
该图像是展示序列推荐系统中阈值超参数 heta ime ig[ 0 , 1 ig] 对推荐性能的影响图。左侧为 Recall@1，右侧为 NDCG@10，不同的 heta 值对应不同的性能变化，结果体现了阈值的选择对模型训练的重要性。

图5：阈值超参数 $\lambda \in [0, 1]$ 对推荐性能的影响图。该参数用于确定 seq2seq 样本是否具有高置信度，从而决定是否将其用于自监督训练。 $\lambda = 0$ 相当于不使用 seq2seq 训练，而 $\lambda = 1$ 则选择所有 seq2seq 样本进行训练。