论文状态:已完成

FuXi-$α$: Scaling Recommendation Model with Feature Interaction Enhanced Transformer

发表:2025/02/05
原文链接PDF 下载
价格:0.100000
价格:0.100000
已有 1 人读过
本分析由 AI 生成,可能不完全准确,请以原文为准。

TL;DR 精炼摘要

本文提出了一种名为FuXi-$α$的新型大规模推荐模型,采用自适应多通道自注意力机制,显著增强了时间、位置和语义特征的建模能力,同时通过多级前馈网络提升隐式特征交互的效果。离线实验结果表明,该模型在性能上优于现有模型。

摘要

Inspired by scaling laws and large language models, research on large-scale recommendation models has gained significant attention. Recent advancements have shown that expanding sequential recommendation models to large-scale recommendation models can be an effective strategy. Current state-of-the-art sequential recommendation models primarily use self-attention mechanisms for explicit feature interactions among items, while implicit interactions are managed through Feed-Forward Networks (FFNs). However, these models often inadequately integrate temporal and positional information, either by adding them to attention weights or by blending them with latent representations, which limits their expressive power. A recent model, HSTU, further reduces the focus on implicit feature interactions, constraining its performance. We propose a new model called FuXi-αα to address these issues. This model introduces an Adaptive Multi-channel Self-attention mechanism that distinctly models temporal, positional, and semantic features, along with a Multi-stage FFN to enhance implicit feature interactions. Our offline experiments demonstrate that our model outperforms existing models, with its performance continuously improving as the model size increases. Additionally, we conducted an online A/B test within the Huawei Music app, which showed a 4.76%4.76\% increase in the average number of songs played per user and a 5.10%5.10\% increase in the average listening duration per user. Our code has been released at https://github.com/USTC-StarTeam/FuXi-alpha.

思维导图

论文精读

中文精读

1. 论文基本信息

1.1. 标题

FuXi-αα: Scaling Recommendation Model with Feature Interaction Enhanced Transformer (FuXi-αα: 采用特征交互增强型 Transformer 扩展推荐模型)

1.2. 作者

1.3. 发表期刊/会议

预印本 (Preprint),发布在 arXiv。 arXiv 在学术界,尤其是在计算机科学和人工智能领域,是一个广受认可的预印本服务器,许多重要研究成果在正式发表前都会在此发布,具有较高的关注度和影响力。

1.4. 发表年份

2025年

1.5. 摘要

受标度律 (scaling laws) 和大型语言模型 (Large Language Models, LLMs) 的启发,大规模推荐模型的研究受到了广泛关注。最近的进展表明,将序列推荐模型扩展到大规模推荐模型是一种有效的策略。当前最先进的序列推荐模型主要使用自注意力 (self-attention) 机制处理物品之间的显式特征交互,而隐式交互则通过前馈网络 (Feed-Forward Networks, FFNs) 进行管理。然而,这些模型通常未能充分整合时间 (temporal) 和位置 (positional) 信息,无论是通过将其添加到注意力权重 (attention weights) 还是与潜在表示 (latent representations) 混合,这限制了它们的表达能力。最近的模型 HSTU 进一步减少了对隐式特征交互的关注,从而限制了其性能。为了解决这些问题,本文提出了一种名为 FuXi-αα 的新模型。该模型引入了自适应多通道自注意力 (Adaptive Multi-channel Self-attention) 机制,能够明确地建模时间、位置和语义特征,并结合多阶段前馈网络 (Multi-stage FFN) 来增强隐式特征交互。离线实验结果表明,该模型优于现有模型,并且其性能随着模型规模的增加而持续提升。此外,在华为音乐 (Huawei Music) 应用中进行的在线 A/B 测试显示,平均每用户歌曲播放量增加了 4.76%,平均每用户收听时长增加了 5.10%。模型的代码已在 GitHub 上发布。

1.6. 原文链接

2. 整体概括

2.1. 研究背景与动机

  • 论文试图解决的核心问题:

    1. 现有序列推荐模型对时间 (temporal) 和位置 (positional) 信息的整合不足: 当前最先进的序列推荐模型(如基于 Transformer 的模型)在处理序列中物品间的显式特征交互时,虽然使用了自注意力机制,但对于时间和位置信息的处理方式(例如简单地添加到注意力权重或与潜在表示混合)限制了模型的表达能力。这导致模型未能充分利用这些关键的上下文信息。
    2. 隐式特征交互的不足: 虽然前馈网络 (FFN) 通常用于处理隐式特征交互,但一些模型,特别是像 HSTU 这样的最新模型,在强调显式交互的同时,却忽视了对隐式特征交互的充分建模,这可能导致学习过程中的细微信息丢失,从而限制了模型的整体表达能力和性能。
    3. 推荐模型中“标度律”的探索与实践: 受大型语言模型 (LLMs) 中标度律 (scaling laws) 的启发,研究人员开始探索推荐模型是否也遵循类似的规律,即模型性能能否随着模型规模、数据量和计算资源的增加而系统性提升。现有研究表明并非所有推荐模型都严格遵循标度律,特别是传统深度学习推荐模型 (DLRMs) 效果不明显,这提出了一个挑战:如何设计能够有效扩展 (scale up) 并持续提升性能的推荐模型。
  • 为什么这个问题在当前领域是重要的?现有研究存在哪些具体的挑战或空白?

    • 重要性: 随着推荐系统处理的数据量和用户行为序列的复杂性不断增长,开发能够有效捕获用户动态兴趣并持续提升性能的模型变得至关重要。标度律的成功应用预示着通过增加模型规模可以显著提升性能,这为构建超大型推荐系统提供了新的范式和优化方向。
    • 现有挑战/空白:
      • 时间与位置信息的深度利用: 现有模型只是简单地“包含”时间或位置信息,但并未“深度利用”它们进行更复杂的交互建模。如图 1 所示,不同的时间间隔和物品顺序会对用户后续行为产生显著影响,简单叠加信息无法有效捕捉这些复杂模式。
      • 显式与隐式交互的平衡: 许多模型要么过度强调显式交互,要么隐式交互能力不足。如何在保持高效性的同时,充分挖掘这两种交互方式的潜力是一个挑战。
      • 标度律在推荐领域的不确定性: 尽管 LLMs 展现了强大的标度律,但在推荐领域,尤其是 DLRMs,其标度收益并不总是显著,甚至可能出现嵌入坍塌 (embedding collapse) 等问题。这表明需要针对推荐任务设计特定的架构,使其能够更好地遵循标度律。
  • 这篇论文的切入点或创新思路是什么? 本文的创新思路在于,从特征交互 (feature interaction) 的角度出发,重新设计了 Transformer 架构中的关键组件,以更好地整合时间、位置和语义信息,并强化隐式特征交互能力,从而使模型能够更好地遵循标度律,并在规模化后持续提升性能。

2.2. 核心贡献/主要发现

本文的主要贡献和关键发现总结如下:

  1. 提出 FuXi-αα 模型: 引入了一个新颖的、基于 Transformer 的序列推荐模型 FuXi-αα,该模型旨在通过增强特征交互来遵循标度律 (scaling law)。
  2. 设计自适应多通道自注意力 (Adaptive Multi-channel Self-attention, AMS) 机制: AMS 层通过将时间 (temporal)、位置 (positional) 和语义 (semantic) 信息的建模进行解耦 (disentangles),使得模型能够更具表达力地表示这些关键信息。这解决了现有模型未能充分利用时间与位置信息的局限性。
  3. 引入多阶段前馈网络 (Multi-stage Feedforward Network, MFFN): MFFN 被设计用于增强模型中的隐式特征交互。它首先融合 AMS 层来自不同通道的输出,然后通过一个两阶段的 FFN 结构进行深度学习,有效弥补了 HSTU 等模型对隐式交互关注不足的问题。
  4. 遵循标度律的验证: 通过在大型工业数据集上的实验,证明了 FuXi-αα 模型能够遵循标度律,即其性能随着模型规模的增加而持续提升,展现了其在大规模推荐系统中的潜力。
  5. 卓越的离线性能: 在多个公共基准数据集(MovieLens-1M, MovieLens-20M, KuaiRand)和私有工业数据集上,FuXi-αα 在所有评估指标上均持续优于现有最先进的序列推荐模型和大型生成式推荐模型,包括 SASRec、LLaMa 和 HSTU。
  6. 显著的在线 A/B 测试效果: 在华为音乐应用进行的在线 A/B 测试中,FuXi-αα 相较于已高度优化的多通道召回基线,实现了平均每用户歌曲播放量 4.76% 的提升和平均每用户收听时长 5.10% 的提升,证明了其在真实世界应用中的有效性和商业价值。

3. 预备知识与相关工作

3.1. 基础概念

为了更好地理解 FuXi-αα 模型,我们首先回顾一些核心概念:

  • 标度律 (Scaling Laws):

    • 概念定义: 标度律描述的是模型性能与其规模(参数数量)、训练数据量和计算资源之间存在的系统性、可预测的关系。它表明,在某些条件下,随着这些资源的增加,模型的性能会以可预测的方式提高。
    • 在 LLMs 中的应用: 在大型语言模型 (LLMs) 如 GPTs 和 LLaMAs 中,标度律已被广泛观察到,并成为指导模型设计和训练的关键原则。
    • 在推荐系统中的挑战: 尽管在 LLMs 中表现显著,但标度律在推荐系统中的应用更为复杂。一些研究发现,传统的深度学习推荐模型 (DLRMs) 并不总能通过简单地增加模型参数而获得显著的性能提升,甚至可能出现嵌入坍塌 (embedding collapse) 等问题。因此,如何设计遵循标度律的推荐模型是一个重要研究方向。
  • 序列推荐 (Sequential Recommendation):

    • 概念定义: 序列推荐旨在基于用户历史的交互序列来预测用户未来可能感兴趣的物品。它强调用户兴趣的动态性和上下文依赖性,即用户的当前兴趣往往受到其最近交互物品的影响。
    • 任务目标: 给定用户过去的一系列交互物品 [i1,i2,,in][i_1, i_2, \dots, i_n],模型需要预测用户下一步最有可能交互的物品 in+1i_{n+1}
  • Transformer 架构 (Transformer Architecture):

    • 概念定义: Transformer 是一种基于自注意力 (self-attention) 机制的神经网络架构,最初用于自然语言处理 (NLP) 任务。它能够有效地处理序列数据,捕获序列中的长距离依赖关系,并已成为许多序列建模任务的基石。
    • 核心组件: Transformer 主要由多头自注意力 (Multi-Head Self-Attention) 和前馈网络 (Feed-Forward Network) 组成,并通过残差连接 (residual connections) 和层归一化 (layer normalization) 来稳定训练。
  • 自注意力机制 (Self-Attention Mechanism):

    • 概念定义: 自注意力机制允许模型在处理序列中的每个元素时,动态地权衡序列中所有其他元素的重要性,从而捕获序列内部的依赖关系。它通过计算查询 (Query, Q)、键 (Key, K) 和值 (Value, V) 之间的相似度来生成注意力权重。
    • 数学公式: Attention(Q,K,V)=softmax(QKTdk)V \mathrm{Attention}(Q, K, V) = \mathrm{softmax}\left(\frac{QK^T}{\sqrt{d_k}}\right)V
    • 符号解释:
      • QQ:查询矩阵 (Query matrix),由输入序列乘以权重矩阵 WQW_Q 得到。
      • KK:键矩阵 (Key matrix),由输入序列乘以权重矩阵 WKW_K 得到。
      • VV:值矩阵 (Value matrix),由输入序列乘以权重矩阵 WVW_V 得到。
      • QKTQ K^T:计算查询和键之间的相似度。
      • dk\sqrt{d_k}:缩放因子,其中 dkd_k 是键向量的维度,用于防止点积过大导致 softmax 函数饱和。
      • softmax()\mathrm{softmax}(\cdot):将相似度分数转换为注意力权重,使其和为 1。
      • VV:加权求和的值矩阵,表示注意力机制的输出。
    • 在序列推荐中的应用: 在序列推荐中,自注意力可以帮助模型理解用户历史交互序列中不同物品的重要性,并捕获物品之间的复杂关系。
  • 前馈网络 (Feed-Forward Network, FFN):

    • 概念定义: FFN 是 Transformer 块中的另一个核心组件,通常由两个线性变换 (全连接层) 和一个激活函数组成。它独立地作用于序列中的每个位置,用于捕获特征之间的非线性关系和隐式交互。
    • 作用: 在自注意力层捕获显式交互后,FFN 负责进一步处理和转换这些特征,以学习更高级别的表示和隐式模式。
  • 特征交互 (Feature Interactions):

    • 概念定义: 在推荐系统中,特征交互指的是不同特征(如物品特征、用户特征、上下文特征)之间相互影响以决定用户偏好的方式。
    • 类型:
      • 显式交互 (Explicit Interactions): 通过特定的数学操作(如点积、双线性函数、注意力机制)直接建模特征之间的关系。这些交互通常具有较强的可解释性。
      • 隐式交互 (Implicit Interactions): 通过深度神经网络 (DNNs) 的多层非线性变换来学习特征之间复杂的、非线性的组合关系。这些交互往往缺乏直接的可解释性,但能捕获更复杂的模式。
  • 位置编码 (Positional Encodings):

    • 概念定义: Transformer 本身不包含序列的顺序信息,位置编码是一种将物品在序列中的位置信息注入到其嵌入表示中的技术,使得模型能够区分不同位置的物品。
    • 常见方法: 绝对位置编码(将位置嵌入直接加到物品嵌入上)和相对位置编码(将相对位置信息融入注意力计算中)。

3.2. 前人工作

本文主要关注序列推荐领域,特别是基于 Transformer 的模型,并从标度律和特征交互的角度进行分析。

  • 早期序列推荐模型:

    • 池化操作 (Pooling operations) [8]: 最早用于管理交互序列,但表达能力有限,忽略了序列的语义信息。
    • RNN-based (如 GRU4Rec [20]): 利用循环神经网络 (Recurrent Neural Networks, RNNs) 捕获序列依赖,直接与前一时间步的隐藏状态交互。
    • CNN-based (如 Caser [52]): 使用卷积神经网络 (Convolutional Neural Networks, CNNs) 捕获短距离序列模式。
    • GNN-based (如 SR-GNN [61]): 基于图神经网络 (Graph Neural Networks, GNNs) 建模物品之间的复杂转换关系,但受限于直接连接的物品。
    • Memory Network-based [5, 22, 79]: 用于建模长期用户偏好。
  • 基于注意力机制的序列推荐模型:

    • SASRec [23]: 第一个将自注意力机制引入序列推荐的模型,通过自注意力捕获用户动态兴趣。
    • BERT4Rec [51]: 引入双向 Transformer (Bidirectional Transformer) 结构,通过掩码语言模型 (masked language model) 任务进行预训练。
    • TiSASRec [29]: 在 SASRec 的基础上,进一步整合了时间间隔 (time intervals) 和相对位置 (relative position) 信息,提升了性能。
    • HSTU [72]: 一种先进的基于 Transformer 的生成式推荐模型,利用位置和时间信息,并通过元素级乘法建模物品间的显式交互,取得了优于先前模型的性能。它被认为是遵循标度律的序列推荐模型扩展策略的有效实践。
  • 深度学习推荐模型 (Deep Learning Recommendation Models, DLRMs) 中的特征交互:

    • 显式交互:
      • 点积 (Dot product): 如 Factorization Machines (FM) [43] 和 DeepFM [13]。
      • 双线性函数 (Bilinear functions): 如 DCNv2 [59] 和 xDeepFM [33]。
      • 注意力机制 (Attention mechanisms): 如 AutoInt [50] 和 InterHAt [31]。
    • 隐式交互: 通常通过深度神经网络 (DNNs) 实现,例如 Wide & Deep [6]、DCN [58]、DCNv2 [59]、DeepFM [13] 和 PNN [40] 等模型中的 DNN 部分。这些模型将 DNN 作为补偿手段,以捕获显式交互难以捕捉的复杂关系。
  • 标度律研究:

    • LLMs 领域 [1, 3, 24]: 揭示了模型性能与模型参数、数据量和计算资源之间的可预测关系。
    • 其他领域: 扩展到生成式图像模型、视频模型 [19] 和视觉 Transformer (ViT) [9, 73]。
    • 推荐领域 [7, 76]: 证明自回归序列推荐模型也遵循这些标度律,特别是 HSTU [72] 的成功。然而,传统 DLRMs 不一定表现出显著的标度收益 [2, 15]。

3.3. 技术演进

推荐系统的技术演进从早期基于协同过滤的简单方法,逐步发展到利用深度学习捕获用户复杂兴趣和物品特征的先进模型。

  1. 早期方法 (Early Approaches): 从简单的用户-物品相似度匹配,到基于马尔可夫链 (Markov Chain) 的序列建模 [45]。

  2. 深度学习的崛起 (Rise of Deep Learning):

    • RNN/CNN/GNN 时代: GRU4Rec [20] 引入 RNN 捕获序列动态;Caser [52] 使用 CNN 发现短时模式;SR-GNN [61] 采用 GNN 建模物品间的复杂转换。这些模型各有侧重,但都旨在超越传统方法的局限性。
    • DLRMs 与特征交互: DeepFM [13]、DCN [58] 等模型强调特征交互的重要性,将显式交互(如点积、双线性)与隐式交互(通过 DNN)结合,以提升 CTR 预测等任务的性能。
  3. Transformer 革命 (Transformer Revolution): 受 NLP 领域 Transformer 成功的启发,自注意力机制被引入序列推荐。

    • SASRec [23] 开创性地将 Transformer 用于序列推荐,有效捕获用户动态兴趣。
    • BERT4Rec [51] 进一步采用双向 Transformer 和掩码策略。
    • TiSASRec [29] 在此基础上引入时间和位置信息,增强上下文感知。
    • HSTU [72] 等模型则将 Transformer 架构进一步扩展到生成式推荐和大规模场景,并开始探索其在推荐领域遵循标度律的可能性。
  4. 标度律与大模型时代 (Scaling Laws & Large Models): 随着 LLMs 展现出惊人的性能和标度律特性,推荐领域也开始尝试构建大规模生成式推荐模型,以期通过增加模型规模获得持续的性能提升。这标志着推荐系统从“小模型精调”向“大模型涌现”的范式转变。

    本文的工作 FuXi-α 正处于这一技术演进的最新阶段,它在 Transformer 架构的基础上,深入优化了时间/位置信息与语义信息的交互方式,并强化了隐式特征交互,旨在更好地遵循标度律,构建高性能、可扩展的大规模序列推荐模型。

3.4. 差异化分析

本文提出的 FuXi-α 模型与现有模型的主要区别和创新点如下:

  • 与 SASRec [23] 和 LLaMa [10] 的差异:

    • SASRec 和 LLaMa 的特点: 这两个模型均将标准的 NLP Transformer 架构直接或稍作修改后应用于推荐系统。它们的自注意力层通常直接将位置编码加到输入嵌入中,统一处理所有特征,并且使用标准的 FFN 来进行隐式交互。
    • FuXi-α 的创新:
      1. AMS 层 (Adaptive Multi-channel Self-attention): FuXi-α 不使用传统的单通道多头自注意力层。它引入了 AMS,将时间、位置和语义特征的建模进行解耦。这意味着模型能够独立地、更精细地处理这三种不同类型的信息,从而更有效地利用它们。而 SASRecLLaMa 只是将位置编码简单地叠加到输入嵌入,未能实现这种细粒度的解耦建模。
      2. MFFN 层 (Multi-stage Feedforward Network): FuXi-α 采用 MFFN,而非 SASRecLLaMa 中使用的标准 FFN。MFFN 不仅能够处理来自 AMS 层多通道的信息融合,还通过其多阶段设计专门增强了隐式特征交互能力,从而捕获更复杂的物品关系。
  • 与 HSTU [72] 的差异:

    • HSTU 的特点: HSTUSASRec 的基础上有所改进,它通过将相对时间和位置信息直接添加到注意力权重中来整合这些信息。然而,这种简单的添加方式可能会“稀释 (dilute)”这些信息的影响力,未能充分发挥其表达力。更重要的是,HSTU 缺乏 FFN 层,它主要依赖自注意力和显式特征交互,这限制了其捕获复杂隐式物品关系的能力。
    • FuXi-α 的创新:
      1. AMS 层更彻底的解耦: FuXi-αAMS 层将时间、位置和语义信息在自注意力机制内部进行了彻底的解耦。不像 HSTU 只是将时间/位置信息添加到注意力权重,AMS 为它们设计了独立的通道和计算方式,这使得时间/位置信息能够以更具表达力的方式影响模型学习。

      2. MFFN 增强隐式交互: FuXi-α 引入了 MFFN,明确地强化了隐式特征交互。这弥补了 HSTU 缺乏 FFN 层的不足,允许模型在显式交互之后,通过深度非线性变换进一步学习物品之间更微妙、更复杂的隐式关系。

      3. 更强的表达能力: 论文分析指出,AMS 层相对于 HSTU 直接添加注意力权重的方式,能够提供更具表达力的位置和时间信息表示 (参见 5.3 节的 Analysis of AMS)。

        总结来说,FuXi-α 的核心创新在于通过精巧设计的 AMSMFFN,实现了对时间、位置和语义特征的更精细化、解耦化的显式交互建模,以及对隐式特征交互的深度强化。这些改进使其在遵循标度律的同时,能够比现有模型更有效地捕获用户兴趣和物品关系。

4. 方法论

4.1. 方法原理

FuXi-α 的核心思想是解决现有序列推荐模型在处理时间 (temporal) 和位置 (positional) 信息以及隐式特征交互方面的不足。其直觉来源于两点:

  1. 细粒度上下文的重要性: 在序列推荐中,用户交互的物品顺序和时间间隔对于理解其兴趣演变至关重要(如图 1 所示)。简单地将这些信息与物品语义信息混合或作为注意力权重的调节项,会限制模型对这些关键上下文线索的表达能力。因此,FuXi-α 提出将语义、时间、位置特征的建模进行解耦,让模型能够更“专注”地处理每种信息。

  2. 显式与隐式交互的互补性: 传统的 Transformer 结构通过自注意力捕获显式交互,通过 FFN 捕获隐式交互。然而,一些先进模型如 HSTU 忽视了 FFN 的重要性。FuXi-α 认为,在捕获显式交互后,通过一个专门设计的、更强大的 FFN(即 MFFN)来深化隐式特征交互,可以显著提升模型的整体表达能力和性能,尤其是在大规模模型中。

    通过这种方式,FuXi-α 旨在构建一个能够更好地理解复杂用户行为序列、持续扩展并保持高性能的推荐模型。

4.2. 核心方法详解 (逐层深入)

FuXi-α 模型的整体架构如图 2 所示,它由一系列 FuXi Block 堆叠而成。接下来,我们将逐一介绍其组成模块。

Figure 2: The overall architecture of the proposed FuXi \(\\alpha\) . 该图像是图示,展示了所提出的 FuXi-eta 模型的整体架构。该架构包含了多个 Fuxi 块、一个多阶段 FFN 和自适应多通道自注意力机制,旨在增强隐式特征交互及建模时间、位置和语义特征的能力。

Figure 2: The overall architecture of the proposed FuXi α\alpha .

4.2.1. 嵌入层 (Embedding Layer)

在进入嵌入层之前,每个用户的交互序列首先被处理成固定长度 nn。如果序列长度不足 nn,则用特殊的“填充物品 (padding item)”进行填充;如果超过 nn,则进行截断。

在嵌入层中,每个物品 iIi \in \mathcal{I} 被映射到一个 dd 维向量。这通过一个可学习的嵌入矩阵 ERI×d\mathbf{E} \in \mathbb{R}^{|\mathcal{I}| \times d} 实现,其中 dd 是潜在向量 (latent vector) 的维度。 同时,模型也使用了可学习的位置编码 (positional encodings) [12],其中 Pi\pmb{P}_i 表示序列中第 ii 个位置的位置嵌入。

对于用户 uu 的交互序列 Su=[i1(u),,inu(u)]S_u = [i_1^{(u)}, \dots, i_{n_u}^{(u)}],嵌入层的输出 x0\mathbf{x}^0 是将物品嵌入与位置嵌入相加的结果: x0=[e1(u)+p1,,enu(u)+pnu,0,,0] \mathbf{x}^0 = [\mathbf{e}_1^{(u)} + \pmb{p}_1, \dots, \mathbf{e}_{n_u}^{(u)} + \pmb{p}_{n_u}, \mathbf{0}, \dots, \mathbf{0}] 其中:

  • ek(u)\mathbf{e}_k^{(u)}:序列中第 kk 个物品的 dd 维物品嵌入。
  • pk\pmb{p}_k:序列中第 kk 个位置的 dd 维位置嵌入。
  • 0\mathbf{0}:零向量,表示用于填充的物品,其嵌入为零。

4.2.2. FuXi 块 (FuXi Block)

FuXi-α 的核心组件是由 bb 个堆叠的 FuXi Block 组成的,其结构类似于 Transformer 解码器 (decoder) [54]。每个 FuXi Block 包含一个自适应多通道自注意力 (Adaptive Multi-channel Self-attention, AMS) 层和一个多阶段前馈网络 (Multi-stage Feed-Forward Network, MFFN)。AMS 层是多头自注意力 (multi-head self-attention) [54] 的变体,而 MFFN 则首先结合 AMS 层多通道的输出,然后执行隐式特征交互。

xl1Rn×d\mathbf{x}^{l-1} \in \mathbb{R}^{n \times d} 表示第 llFuXi Block 的输入,xlRn×d\mathbf{x}^l \in \mathbb{R}^{n \times d} 表示其输出。第一个 FuXi Block 的初始输入为 x0\mathbf{x}^0

4.2.2.1. 自适应多通道自注意力 (Adaptive Multi-channel Self-attention, AMS)

AMS 层旨在有效捕获和利用序列数据中固有的用户兴趣模式。与传统的直接将位置编码整合到输入嵌入中的多头自注意力机制不同,FuXi-αAMS 将隐藏状态 (hidden states)、位置信息 (positional information) 和时间信号 (temporal signals) 的处理分离到不同的注意力头 (attention heads) 中。这种分离使得每个头能够专注于捕获序列数据的不同方面,从而增强模型学习复杂兴趣模式的能力。

如图 3 所示,AMS 定义了三种类型的通道:语义通道 (semantic channel)、时间通道 (temporal channel) 和位置通道 (positional channel)。

Figure 3: Illustration of Adaptive Multi-channel Selfattention (AMS). In contrast to the conventional multi-head self-attention, AMS decouples the modeling of temporal and positional information from semantics information. 该图像是表征自适应多通道自注意力机制(AMS)的示意图。AMS通过将语义信息的建模与时间和位置信息解耦,增强了特征交互的表达能力,提升了推荐模型的性能。

Figure 3: Illustration of Adaptive Multi-channel Selfattention (AMS). In contrast to the conventional multi-head self-attention, AMS decouples the modeling of temporal and positional information from semantics information.

首先,对输入 xl1\mathbf{x}^{l-1} 进行 RMS 层归一化 (Root Mean Square Layer Normalization, RMSN) [75],然后通过线性变换和非线性激活函数 ϕ\phi(这里采用 SiLU [11])生成查询 (query) ql\mathbf{q}^l、键 (key) kl\mathbf{k}^l 和值 (value) vl\mathbf{v}^l 矩阵。 x~l=RMSN(xl1) \tilde{\mathbf{x}}^l = \mathrm{RMSN}(\mathbf{x}^{l-1}) ql=ϕ(x~lWql),kl=ϕ(x~lWkl),vl=ϕ(x~lWvl) \mathbf{q}^l = \phi(\tilde{\mathbf{x}}^l \mathbf{W}_q^l), \quad \mathbf{k}^l = \phi(\tilde{\mathbf{x}}^l \mathbf{W}_k^l), \quad \mathbf{v}^l = \phi(\tilde{\mathbf{x}}^l \mathbf{W}_v^l) 其中:

  • x~l\tilde{\mathbf{x}}^l:经过 RMS 层归一化后的输入表示。

  • WqlRd×dh\mathbf{W}_q^l \in \mathbb{R}^{d \times d_h}:用于生成查询矩阵的可学习权重矩阵。

  • WklRd×dh\mathbf{W}_k^l \in \mathbb{R}^{d \times d_h}:用于生成键矩阵的可学习权重矩阵。

  • WvlRd×dh\mathbf{W}_v^l \in \mathbb{R}^{d \times d_h}:用于生成值矩阵的可学习权重矩阵。

  • dhd_h:每个注意力头的维度大小。

  • ϕ\phi:非线性激活函数,这里使用的是 SiLU

    接下来,分别计算语义、时间、位置通道的注意力权重: ahl=1nϕ(ql(kl)T) \mathbf{a}_h^l = \frac{1}{n} \phi(\mathbf{q}^l (\mathbf{k}^l)^T) (atl)i,j=α(tjti) (\mathbf{a}_t^l)_{i,j} = \alpha(t_j - t_i) (a{p}i,jl)i,j=βji (\mathbf{a}_{\{p\}_{i,j}}^l)_{i,j} = \beta_{j-i} 其中:

  • ahl\mathbf{a}_h^l:语义通道的注意力权重。计算方式与标准自注意力类似,只是在点积后应用了 SiLU 非线性激活函数,并除以序列长度 nn。论文指出在序列推荐中 SiLU 优于 softmax [72]。

  • (atl)i,j(\mathbf{a}_t^l)_{i,j}:时间通道的注意力权重。它取决于物品 jj 和物品 ii 之间的时间戳差异 (tjti)(t_j - t_i)。这个差异被映射到桶 (buckets) 中,每个桶关联一个可学习参数 α\alpha [42]。这意味着时间通道的注意力权重仅取决于相对时间差。

  • (a{p}i,jl)i,j(\mathbf{a}_{\{p\}_{i,j}}^l)_{i,j}:位置通道的注意力权重。它取决于物品 jj 相对于物品 ii 的相对位置 (j-i)βRn\beta \in \mathbb{R}^n 是一个可学习参数向量,其中 βji\beta_{j-i} 表示相对位置 j-i 的可学习权重。这意味着位置通道的注意力权重仅取决于相对位置。

  • 注意: 时间和位置通道的注意力权重只依赖于相对时间差和相对位置,因此不需要像语义通道那样计算查询和键矩阵。同时,为了简化模型,这两个通道也与语义通道共享值矩阵 vl\mathbf{v}^l

    在计算出各通道的输出后,这些输出被拼接 (concatenate) 起来,并进行 RMS 层归一化。然后,归一化结果与从 x~l\tilde{\mathbf{x}}^l 派生出的矩阵 UU 进行元素级乘法 (\otimes)。这个过程封装在以下公式中: hl=RMSN(concat(ahlvhl,aplvpl,atlvtl))ϕ(x~lWul) \mathbf{h}^l = \mathrm{RMSN}(\mathrm{concat}(\mathbf{a}_h^l \mathbf{v}_h^l, \mathbf{a}_p^l \mathbf{v}_p^l, \mathbf{a}_t^l \mathbf{v}_t^l)) \otimes \phi(\tilde{\mathbf{x}}^l \mathbf{W}_u^l) 其中:

  • ahlvhl\mathbf{a}_h^l \mathbf{v}_h^l:语义通道的输出。

  • aplvpl\mathbf{a}_p^l \mathbf{v}_p^l:位置通道的输出。

  • atlvtl\mathbf{a}_t^l \mathbf{v}_t^l:时间通道的输出。

  • concat:将三个通道的输出拼接起来。

  • WulRd×3dh\mathbf{W}_u^l \in \mathbb{R}^{d \times 3d_h}:可学习参数。

  • ϕ\phiSiLU 激活函数。

  • \otimes:元素级乘法。

  • 矩阵 UU (即 ϕ(x~lWul)\phi(\tilde{\mathbf{x}}^l \mathbf{W}_u^l)) 的设计借鉴了 HSTU [72],旨在引入显式二阶交互 (explicit 2-order interactions)。

  • 注: 上述描述为简化起见,以每个通道一个头的情况为例。但在实际应用中,可以很容易扩展到每个通道包含多个注意力头,类似于多头自注意力机制 [54]。

4.2.2.2. 多阶段前馈网络 (Multi-stage Feed-Forward Network, MFFN)

MFFN 包含两个不同的阶段,如图 4 所示。第一阶段融合来自不同通道的输出并与当前层的原始输入结合;第二阶段则进行隐式特征交互。

Figure 4: Diagram of MFFN: Stage 1 fuses outputs from different channels; Stage 2 facilitates implicit feature interactions. 该图像是示意图,展示了多阶段前馈网络(MFFN)的结构。Stage 1 负责融合来自不同通道的输出,Stage 2 促进隐式特征交互。

Figure 4: Diagram of MFFN: Stage 1 fuses outputs from different channels; Stage 2 facilitates implicit feature interactions.

第一阶段 (Stage 1): 融合通道输出 MFFN 接收来自 AMS 层不同通道的输出,并应用一个投影变换,其特点是可学习参数 WolR3dh×d\mathbf{W}_o^l \in \mathbb{R}^{3d_h \times d}。此阶段的输出 ol\mathbf{o}^l 通过将投影后的输出与当前层的输入 xl1\mathbf{x}^{l-1} 相加得到: ol=hlWol+xl1 \mathbf{o}^l = \mathbf{h}^l \mathbf{W}_o^l + \mathbf{x}^{l-1} 其中:

  • hl\mathbf{h}^l: AMS 层的输出。
  • Wol\mathbf{W}_o^l: 可学习的投影矩阵,将 AMS 层的输出维度变换为与模型隐藏维度 dd 相同。
  • xl1\mathbf{x}^{l-1}: 当前 FuXi Block 的输入,作为残差连接。

第二阶段 (Stage 2): 隐式特征交互 MFFN 的主要目标是进行隐式交互。借鉴 LLaMa [53] 的做法,对上一阶段的输出 ol\mathbf{o}^l 应用 RMS 层归一化,然后使用 SwiGLU 激活函数 [46] 来增强特征学习,最后添加残差连接: xl=FFNl(RMSN(ol))+ol \mathbf{x}^l = \mathrm{FFN}_l(\mathrm{RMSN}(\mathbf{o}^l)) + \mathbf{o}^l 其中,FFNl(x)\mathrm{FFN}_l(\mathbf{x}) 的计算如下: FFNl(x)=(ϕ(xW1l)(xW2l))W3l \mathrm{FFN}_l(\mathbf{x}) = (\phi(\mathbf{x} \mathbf{W}_1^l) \otimes (\mathbf{x} \mathbf{W}_2^l)) \mathbf{W}_3^l 这里:

  • RMSN(ol)\mathrm{RMSN}(\mathbf{o}^l): 对第一阶段输出进行 RMS 层归一化。

  • ol\mathbf{o}^l: 作为残差连接,确保梯度流动。

  • ϕ\phi: 表示 SiLU 激活函数。

  • \otimes: 表示元素级乘法。

  • W1lRd×dFFN\mathbf{W}_1^l \in \mathbb{R}^{d \times d_{\mathrm{FFN}}}:第一个线性变换的权重矩阵。

  • W2lRd×dFFN\mathbf{W}_2^l \in \mathbb{R}^{d \times d_{\mathrm{FFN}}}:第二个线性变换的权重矩阵。

  • W3lRdFFN×d\mathbf{W}_3^l \in \mathbb{R}^{d_{\mathrm{FFN}} \times d}:第三个线性变换的权重矩阵。

  • dFFNd_{\mathrm{FFN}}:前馈网络隐藏层的维度。

    这种配置使得网络能够有效地捕获数据中复杂的交互,并通过残差连接维持有效的梯度流。

4.2.3. 预测层 (Prediction Layer) 与优化目标 (Optimization objective)

在经过 bbFuXi Block 处理后,序列中的每个位置都获得了关于先前交互物品的足够信息。为了获得预测物品的概率分布,模型将最后一层的输出与输入嵌入矩阵的转置进行乘法运算,然后通过 softmax 函数: P(inu+1(u)=iSu)=softmax(xkbET) P(i_{n_u+1}^{(u)} = i \mid S_u) = \mathrm{softmax}(\mathbf{x}_k^b \mathbf{E}^T) 其中:

  • xkb\mathbf{x}_k^b: 最后一个 FuXi Block 输出的第 kk 个位置(通常是序列的最后一个有效物品位置)的表示。

  • ET\mathbf{E}^T: 物品嵌入矩阵的转置。

    为了加速训练过程,本文采用带 NN 个随机采样负样本的采样 softmax 损失 (sampled softmax loss) [25] 作为优化目标。

4.3. 复杂性分析

4.3.1. 空间复杂度 (Space Complexity)

  • FuXi Block:
    • AMS 层包含四组投影矩阵,总参数量为 6d×dh6d \times d_h
    • 位置和时间嵌入的参数量为 O(n+nB)O(n + n_B),其中 nn 是序列长度,nBn_B 是时间桶的数量。
    • MFFN 包含四组投影矩阵,总参数量为 3dh×d+3dFFN×d3d_h \times d + 3d_{\mathrm{FFN}} \times d
  • 物品嵌入: 物品嵌入矩阵的参数量为 I×d|\mathcal{I}| \times d,其中 I|\mathcal{I}| 是物品总数。
  • 简化假设: 假设 d_h = O(d)dFFN=O(d)d_{\mathrm{FFN}} = O(d),且 n_B = O(n)
  • 总空间复杂度: 由于 FuXi-αbbFuXi Block 堆叠而成,总空间复杂度为 O(b(d2+n)+Id)O(b(d^2 + n) + |\mathcal{I}|d)

4.3.2. 时间复杂度 (Time Complexity)

  • 语义通道注意力权重计算: O(n2d)O(n^2 d)
  • 其他通道注意力权重计算: O(n2)O(n^2)
  • QKV 矩阵计算: O(nd2)O(nd^2)
  • MFFN 计算: O(nd2)O(nd^2)
  • 预测生成: O(nId)O(n|\mathcal{I}|d)
  • 总时间复杂度: 由于模型由 bbFuXi Block 堆叠而成,总时间复杂度为 O(bn2d+n(bd2+Id))O(bn^2 d + n(bd^2 + |\mathcal{I}|d))

4.4. 多项式近似 (Polynomial Approximation)

为了分析 FuXi-α 中显式物品间交互的性质,论文对 ll 层的 FuXi Block 进行了简化分析。在此简化中,注意力权重被视为常数,省略了 MFFN 的第二阶段、激活函数以及大部分投影变换。

简化后的 FuXi Block 可以表示为: fblock(l)(xi;x1,,xn)=xi(j=1nai,j(l)xj)+xi f_{block}^{(l)}(x_i; x_1, \dots, x_n) = x_i \circ \left(\sum_{j=1}^{n} a_{i,j}^{(l)} x_j\right) + x_i 其中:

  • x1,,xnx_1, \dots, x_n 是输入到第 llFuXi Block 的潜在表示。

  • \circ 表示交互操作,例如元素级乘法。

  • ai,j(l)a_{i,j}^{(l)} 是第 ll 层的注意力权重。

    xl,ix_{l,i} 表示第 ll 层处理后第 ii 个物品的输出潜在表示。 设 FkF_k 表示一个最高度为 kk 的多项式,形式为 αwαix0,iαi\sum_{\boldsymbol{\alpha}} w_{\boldsymbol{\alpha}} \prod_i x_{0,i}^{\alpha_i},其中 αik\sum \alpha_i \leq k。 通过数学归纳法证明,经过 ll 层后,xl,ix_{l,i} 的形式为 x0,iF2l1x_{0,i} F_{2^l-1}

4.4.1. 基本情况 (Base Case)

b=0b=0 时,即没有 FuXi Block,则 x0,i=x0,i1=x0,iF0x_{0,i} = x_{0,i} \cdot 1 = x_{0,i} \cdot F_0。这里 F0F_0 是常数多项式,最高度为 0。方程成立。

4.4.2. 归纳步骤 (Inductive Step)

假设对于某个整数 l0l \geq 0,该性质成立,即 xl,i=x0,iF2l1x_{l,i} = x_{0,i} F_{2^l-1}。 现在考虑 b=l+1b = l+1 层。 xl+1,i=xl,ij=1nai,j(l+1)xl,j+xl,i x_{l+1,i} = x_{l,i} \circ \sum_{j=1}^{n} a_{i,j}^{(l+1)} x_{l,j} + x_{l,i} 将归纳假设代入: xl+1,i=(x0,iF2l1)(j=1nai,j(l+1)(x0,jF2l1))+x0,iF2l1 x_{l+1,i} = (x_{0,i} F_{2^l-1}) \circ \left(\sum_{j=1}^{n} a_{i,j}^{(l+1)} (x_{0,j} F_{2^l-1})\right) + x_{0,i} F_{2^l-1} 由于 F2l1F_{2^l-1} 是最高度为 2l12^l-1 的多项式,那么 x0,jF2l1x_{0,j} F_{2^l-1} 是最高度为 1+(2l1)=2l1 + (2^l-1) = 2^l 的多项式。 因此,求和项 j=1nai,j(l+1)(x0,jF2l1)\sum_{j=1}^{n} a_{i,j}^{(l+1)} (x_{0,j} F_{2^l-1}) 也是最高度为 2l2^l 的多项式。 假设 1 也是一个最高度为 2l2^l 的多项式 F2lF_{2^l} 的组成部分(常数项)。 那么 j=1nai,j(l+1)x0,jF2l1+1=F2l\sum_{j=1}^{n} a_{i,j}^{(l+1)} x_{0,j} F_{2^l-1} + 1 = F_{2^l}

所以,上述表达式可以进一步简化为: xl+1,i=x0,iF2l1F2l x_{l+1,i} = x_{0,i} F_{2^l-1} \circ F_{2^l} 这里,一个最高度为 2l12^l-1 的多项式与一个最高度为 2l2^l 的多项式进行元素级乘法。其结果将是一个最高度为 (2l1)+2l=2l+11(2^l-1) + 2^l = 2^{l+1}-1 的多项式(当交互操作为元素级乘法时)。 因此,经过 l+1l+1 层后,xl+1,ix_{l+1,i} 的形式是 x0,iF2l+11x_{0,i} F_{2^{l+1}-1}

结论: 经过 bbFuXi Block 后,xb,ix_{b,i} 能够捕获 x0,ix_{0,i} 与所有物品之间最高达到 2b12^b-1 度的特征交互结果。这意味着模型能够通过堆叠层数来学习高阶的特征交互,这是其表达能力强和遵循标度律的基础。

4.5. AMS 分析 (Analysis of AMS)

本节将 AMS 层与传统的基于相对位置嵌入的注意力机制进行比较,以说明 AMS 在处理位置和时间信息方面的优势。

传统的 T5 架构 [42] 中相对位置嵌入的注意力权重 A=(ai,j)n×n\mathbf{A} = (a_{i,j})_{n \times n} 计算方式如下: A=ϕ((xWq)(xWk)T+B) \mathbf{A} = \phi\left( (\mathbf{x} \mathbf{W}_q) (\mathbf{x} \mathbf{W}_k)^T + \mathbf{B} \right) 其中:

  • ϕ\phi 表示非线性函数(如 softmaxSiLU)。

  • B=(bi,j)n×n\mathbf{B} = (b_{i,j})_{n \times n} 表示相对位置偏置项的矩阵。bi,jb_{i,j} 通常通过映射 j-i 得到。

    qiR1×dq_i \in \mathbb{R}^{1 \times d} 是第 ii 个物品的查询向量,kj,vj,uik_j, v_j, u_i 分别是键向量、值向量和用于 Hadamard 积 (element-wise multiplication) 的向量。 多头自注意力机制的输出 oio_i (第 ii 个物品的输出)可以近似表示为: oi=Wo((ai,jvj)ui)Wo((ϕ1(qikjT)Vj)ui)+Wo((ϕ2(bi,j)vj)ui) o_i = W_o ( (\sum a_{i,j} v_j) \otimes u_i ) \\ \approx W_o ( (\sum \phi_1 (q_i k_j^T) V_j) \otimes u_i ) + W_o ( (\sum \phi_2 (b_{i,j}) v_j) \otimes u_i ) 这个近似式表明,在传统方法中,语义交互项 ϕ1(qikjT)\phi_1 (q_i k_j^T) 和位置偏置项 bi,jb_{i,j}混合在一起通过同一个 WoW_o 作用于同一个 uiu_i 向量的。虽然位置信息被引入,但它作为注意力权重的一个加性项,并没有独立且灵活的路径来影响最终的表示。

相比之下,AMS 层中的计算过程如下: oi=Wo1((ϕ(qikjT)Vj)ui(1))+Wo2((bi,jVj)ui(2)) o_i = W_{o1} \left( \left( \sum \phi(q_i k_j^T) V_j \right) \otimes u_i^{(1)} \right) + W_{o2} \left( \left( \sum b_{i,j} V_j \right) \otimes u_i^{(2)} \right) 其中:

  • Wo1,Wo2W_{o1}, W_{o2}MFFN 第一阶段的参数。

  • ui(1)u_i^{(1)}ui(2)u_i^{(2)} 分别对应于语义通道和位置通道中的 uiu_i 向量。

  • 这里为了简化,将时间通道省略,仅关注语义和位置通道的对比。

    AMS 的优势在于:

  1. 独立权重矩阵: AMS 为语义通道的输出和位置通道的输出(以及时间通道)提供了独立的权重矩阵 Wo1W_{o1}Wo2W_{o2}。这意味着模型可以独立地调整这两种信息的贡献和变换方式。
  2. 独立 Hadamard 积向量: AMS 使用独立的 Hadamard 积向量 ui(1)u_i^{(1)}ui(2)u_i^{(2)}。这允许语义信息和位置信息以不同的方式与输入表示进行显式二阶交互。
  3. 解耦处理: 这种结构表明 AMS 层促进了对位置和时间信息更具表达力的表示,因为它将这些信息从语义信息的建模中解耦出来,并允许它们通过独立的路径和参数进行影响,而不是简单地作为注意力权重的一个加性偏置项。这种解耦增强了模型利用时间感知和位置感知上下文信息的能力。

5. 实验设置

5.1. 数据集

实验使用了四个真实世界数据集,包括三个公共数据集和一个私有大规模工业数据集。数据集统计信息如 Table 1 所示。

以下是原文 Table 1 的结果:

DatasetUserItemInteractionsAvg. Len.
MovieLens-1M6,0413,7061,000,209165.60
MovieLens-20M138,49326,74420,000,263144.41
KuaiRand25,6347,5506,945,823270.96
Industrial19,252,028234,4881,023,711,77453.17
  • MovieLens-1M 和 MovieLens-20M:

    • 来源: 广泛使用的电影推荐数据集,包含用户的评分和标记活动。
    • 规模: MovieLens-1M 包含 100 万次交互,MovieLens-20M 包含 2000 万次交互。
    • 特点: 电影推荐领域常用的基准数据集,提供不同规模的数据用于模型评估。
    • 预处理: 使用与 HSTU [72] 相同的预处理过的训练/验证/测试集。
  • KuaiRand:

    • 来源: 来自快手 (Kuaishou) 短视频应用的用户日志。
    • 规模: 约 690 万次交互,2.5 万用户,7500 物品。
    • 特点: 用户活跃度高,平均每用户交互次数超过 200 次,序列长度较长。
    • 预处理: 采用与 HSTU [72] 类似的方式自行处理。
  • Industrial (工业数据集):

    • 来源: 来自主流音乐播放应用的用户记录(华为音乐)。

    • 规模: 拥有数千万月活跃用户,包含超过 10 亿次交互,近 2000 万用户,23 万物品。

    • 特点: 规模庞大,是真实世界大规模推荐场景的代表,用户行为序列通过一个月以上的积极行为(包括收藏、点赞、播放等)构建。

    • 预处理: 采用与 HSTU [72] 类似的方式自行处理。

      选择这些数据集是为了全面评估模型在不同规模和特点的推荐场景下的性能,从小型电影推荐到大规模的短视频和音乐推荐,特别是大型工业数据集对于验证模型在大规模部署中的效果和遵循标度律的能力至关重要。

5.2. 评估指标

本文使用以下广泛使用的指标来评估召回性能:Hit Ratio (HR@K)Normalized Discounted Cumulative Gain (NDCG@K)Mean Reciprocal Rank (MRR)。所有指标的值越高表示性能越好。默认情况下,从所有物品中对真实标签物品进行排名,并报告 K=10,50K=10, 50 的性能。

5.2.1. 命中率 (Hit Ratio, HR@K)

  • 概念定义: HR@K 衡量推荐列表中命中用户实际交互项的比例。如果用户实际交互的物品出现在推荐列表的前 K 个位置中,则认为发生一次命中。它关注的是模型能否成功推荐用户感兴趣的物品,而不考虑其排名。
  • 数学公式: HR@K={uUground-truth item for u is in top-K recommendations}U \mathrm{HR@K} = \frac{|\{u \in \mathcal{U} \mid \text{ground-truth item for } u \text{ is in top-K recommendations}\}|}{|\mathcal{U}|}
  • 符号解释:
    • U\mathcal{U}:所有用户的集合。
    • U|\mathcal{U}|:用户总数。
    • {uUground-truth item for u is in top-K recommendations}|\{u \in \mathcal{U} \mid \text{ground-truth item for } u \text{ is in top-K recommendations}\}|:在推荐列表前 K 个位置中至少包含一个真实交互项的用户数量。

5.2.2. 归一化折损累积增益 (Normalized Discounted Cumulative Gain, NDCG@K)

  • 概念定义: NDCG@K 是一种衡量推荐系统排名质量的指标,它同时考虑了推荐物品的相关性得分以及物品在推荐列表中的位置。排名越靠前的相关物品贡献的得分越高。通过与理想情况下的 DCG 值进行归一化,使得不同推荐列表之间的分数具有可比性。
  • 数学公式: NDCG@K=1UuUDCG@KuIDCG@Ku \mathrm{NDCG@K} = \frac{1}{|\mathcal{U}|} \sum_{u \in \mathcal{U}} \frac{\mathrm{DCG@K}_u}{\mathrm{IDCG@K}_u} 其中,单用户的折损累积增益 (Discounted Cumulative Gain, DCG) 为: DCG@Ku=j=1K2rel(j)1log2(j+1) \mathrm{DCG@K}_u = \sum_{j=1}^{K} \frac{2^{\mathrm{rel}(j)} - 1}{\log_2(j+1)} 以及理想折损累积增益 (Ideal Discounted Cumulative Gain, IDCG) 为: IDCG@Ku=j=1K2relideal(j)1log2(j+1) \mathrm{IDCG@K}_u = \sum_{j=1}^{K} \frac{2^{\mathrm{rel}_{ideal}(j)} - 1}{\log_2(j+1)}
  • 符号解释:
    • U|\mathcal{U}|:用户总数。
    • rel(j)\mathrm{rel}(j):排名第 jj 的物品的相关性得分(通常在序列推荐中,真实交互物品为 1,其他为 0)。
    • log2(j+1)\log_2(j+1):折扣因子,使排名靠后的物品贡献降低。
    • relideal(j)\mathrm{rel}_{ideal}(j):理想情况下,排名第 jj 的物品的相关性得分(即所有相关物品按最高相关性从高到低排列)。

5.2.3. 平均倒数排名 (Mean Reciprocal Rank, MRR)

  • 概念定义: MRR 衡量推荐系统将第一个正确物品排在列表前部的能力。对于每个查询(用户),如果第一个正确物品排在第 rank 位,则其倒数排名为 1/rank1/rankMRR 是所有查询的倒数排名平均值。它对排名靠前的正确推荐给予更高的分数。
  • 数学公式: MRR=1Qq=1Q1rankq \mathrm{MRR} = \frac{1}{|\mathcal{Q}|} \sum_{q=1}^{|\mathcal{Q}|} \frac{1}{\mathrm{rank}_q}
  • 符号解释:
    • Q|\mathcal{Q}|:查询(或用户)总数。
    • rankq\mathrm{rank}_q:对于第 qq 个查询,第一个相关物品在推荐列表中的排名。

5.3. 对比基线 (Compared Baseline)

为了进行全面比较,FuXi-α 与两类代表性基线模型进行了比较:

  • 传统模型 (Conventional Models):

    • BPRMF [44]: 基于贝叶斯个性化排名 (Bayesian Personalized Ranking) 的矩阵分解 (Matrix Factorization) 模型,是传统的协同过滤基线。
    • GRU4Rec [20]: 基于门控循环单元 (Gated Recurrent Unit, GRU) 的序列推荐模型,擅长捕获序列中的短期依赖。
    • NARM [28]: 基于注意力机制的循环神经网络模型,用于序列推荐,能够捕获用户的主要目的和次要兴趣。
  • 自回归生成模型 (Autoregressive Generative Models):

    • SASRec [23]: 基于自注意力机制的序列推荐模型,是 Transformer 架构在序列推荐中的早期应用,通过单向自注意力捕获用户兴趣。
    • LLaMa [10]: 指的是将大型语言模型 (LLM) 的架构(如 LLaMa 系列)应用于序列推荐的变体。
    • HSTU [72]: 一种先进的生成式推荐模型,在 Transformer 基础上引入了对时间 (temporal) 和位置 (positional) 信息的处理,并通过元素级乘法建模显式交互。

5.4. 参数设置 (Parameter Settings)

  • 实现框架: FuXi-α 使用 PyTorch [38] 实现。
  • 大规模训练: 为了支持大规模模型训练,采用了 Accelerate 库 [26] 进行多机多卡并行训练。
  • 公平比较:
    • 在 MovieLens-1M 和 MovieLens-20M 数据集上,除层数外,所有模型参数均与 HSTU [72] 保持一致。
    • 在 KuaiRand 数据集上,默认隐藏维度 (hidden dimension) 设置为 50,负样本 (negative samples) 数量设置为 128。其他参数(如优化器、学习率、权重衰减)与 HSTU [72] 保持一致。
    • 在所有三个数据集上,嵌入维度 (embedding dimensions) 和自注意力隐藏向量维度 (self-attention hidden vector dimensions) 均相同。
  • 模型深度:
    • 基础建模能力比较时,所有模型(包括基线)的层数设置为 2。
    • 为了分析标度效应 (scaling effects),将这些生成模型的层数扩展到 4 倍(即 8 层),并标记为 "XX-Large"。

6. 实验结果与分析

6.1. 核心结果分析

6.1.1. 公共数据集性能 (Public Dataset Performance)

以下是原文 Table 2 的结果:

DatasetMovieLens-1MMovieLens-20MKuaiRand
ModelNG@10NG@50HR@10HR@50MRRNG@10NG@50HR@10HR@50MRRNG@10NG@50HR@10HR@50MRR
BPRMF0.06070.10270.11850.31270.05560.06290.10740.12410.33000.05720.02480.04680.05200.15600.0235
GRU4Rec0.10150.14600.18160.38640.08950.07680.11550.13940.31770.06890.02890.05310.05970.17260.0275
NARM0.13500.18940.24450.49150.11650.10370.15520.19260.42810.09100.04110.07470.08360.23990.0387
SASRec0.15940.21870.28240.55000.13750.15530.21190.27810.53530.13300.04860.08770.09780.28010.0454
LLaMa0.16200.22070.29260.55910.13730.16400.22060.29150.54760.14020.04950.08780.09730.27520.0466
HSTU0.16390.22380.29690.56720.13900.16420.22250.29090.55530.14100.04910.08610.09920.27180.0451
FuXi-α0.18350.24290.32540.59410.15570.19540.25330.33530.59690.16770.05370.09420.10670.29510.0497
SASRec-Large0.11860.17330.21830.46710.01860.02060.03790.04120.12090.02070.02850.04280.05440.12270.0258
LLaMa-Large0.16590.22570.29900.56920.14080.18420.24120.32020.57760.15760.04940.08780.09700.27540.0466
HSTU-Large0.18440.24370.32550.59290.15680.19950.25720.34070.60120.17140.04940.08830.09900.27990.0460
FuXi-α-Large0.19340.25180.33590.59830.16510.20860.26580.35300.61130.17920.05550.09630.11050.29950.0510

主要观察结果:

  • 生成模型优于传统模型: 无论是浅层(2 层)还是深层(8 层),SASRecLLaMaHSTUFuXi-α 这些生成式推荐模型,即使只有两层参数,也显著优于 BPRMFGRU4RecNARM 等传统模型。这表明生成式模型在捕获复杂物品关系和用户偏好方面的优越性。
  • SASRec 的扩展问题: 作为早期序列模型,SASRec 在增加到 8 层时,在所有三个数据集上性能出现显著下降(例如,MovieLens-1M 上的 NDCG@10 从 0.1594 降至 0.1186,MovieLens-20M 上甚至从 0.1553 降至 0.0206),这表明其在规模扩展时存在稳定性问题或设计上的局限性。
  • LLaMa 和 HSTU 在扩展后有显著提升: 新近提出的 LLaMaHSTU 模型在扩展到 8 层(-Large 版本)后,在前两个数据集上都显示出显著的性能提升,例如 LLaMa-Large 在 MovieLens-20M 上的 NDCG@10 从 0.1640 提升到 0.1842。这验证了这些模型在一定程度上遵循标度律。
  • FuXi-α 始终表现最佳: 无论是在浅层(2 层)还是深层(8 层),FuXi-α 在所有三个数据集的所有评估指标上都持续取得了最佳结果。
    • 浅层网络: FuXi-α 平均比最强的基线 HSTUNDCG@10 上高出 13.24%,在 NDCG@50 上高出 10.59%,在 HR@10 上高出 10.81%,在 HR@50 上高出 6.94%,在 MRR 上高出 13.72%。
    • 深层网络: FuXi-α-Large 平均比最强的基线 HSTU-LargeNDCG@10 上高出 7.26%,在 NDCG@50 上高出 5.24%,在 HR@10 上高出 6.14%,在 HR@50 上高出 3.19%,在 MRR 上高出 6.90%。
  • 结论: FuXi-α 的卓越性能证明了其引入的显式和隐式特征交互机制在用户行为建模方面的巨大效用。

6.1.2. 工业数据集性能 (Industrial Dataset Performance)

以下是原文 Table 3 的结果:

DatasetIndustrial
ModelNG@10NG@50HR@10HR@50MRR
SASRec0.10090.15800.19700.45810.0868
LLaMa0.16810.22380.29850.54980.1426
HSTU0.17330.22890.30570.55650.1472
FuXi-α0.18750.24240.32300.57020.1601

主要观察结果:

  • LLaMa 和 HSTU 显著优于 SASRec: 在这个大规模音乐推荐场景中,LLaMaHSTU 显著优于 SASRec。具体而言,它们在 NDCG@10 上分别实现了 64.82% 和 71.75% 的性能提升。这再次强调了在工业级大规模数据集上,更先进的 Transformer 架构和特征处理的重要性。
  • FuXi-α 表现最佳: 我们的 FuXi-α 模型进一步超越了 LLaMaHSTU,在 NDCG@10 上分别高出 11.54% 和 8.19%。
  • 结论: 这些显著的改进凸显了标度律的潜力,以及 FuXi-α 模型设计的优越性,尤其是在处理大规模真实世界数据时。

6.1.3. FuXi-α 在工业数据集上的扩展性 (Scaling of FuXi-α on Industrial Dataset)

下图(原文 Figure 5)展示了 FuXi-α 在工业数据集上扩展层数时的性能。

Figure 5: Scaling of FuXi- \(\\alpha\) on Industrial Dataset. 该图像是一个图表,展示了FuXi-αα模型在不同层数下的性能指标NDCG@10和HR@10的变化趋势。随着层数的增加,NDCG@10和HR@10均表现出持续的提升,表明模型在扩展时有效增强了推荐效果。

Figure 5: Scaling of FuXi- α\alpha on Industrial Dataset.

主要观察结果:

  • 遵循标度律: 随着层数的增加(从 2 层到 32 层),FuXi-α 在工业数据集上的 NDCG@10HR@10 性能持续提升。这明确验证了 FuXi-α 遵循标度律,表明其性能可以通过增加模型规模而得到持续改善。
  • 潜力: 这种特性对于大规模推荐系统具有极大的吸引力,因为它意味着通过投入更多的计算资源和训练数据,模型的性能可以进一步提升。

6.2. 效率比较 (Efficiency Comparison, RQ2)

以下是原文 Table 4 的结果:

DatasetKuaiRand
ModelTPS@200TPS@400TPS@600TPS@800
SASRec2481202416721398
LLaMaHSTU2330197216021326436394
20781183680
FuXi-α19711053615
  • 评估指标: Throughput Per Second (TPS),即每秒处理的训练样本数。
  • 实验设置: 在 KuaiRand 数据集上进行,序列长度从 200 到 800 不等。
  • 主要观察结果:
    • 序列长度对 TPS 的影响: 随着序列长度的增加,所有模型的 TPS 均呈下降趋势,这是因为处理更长的序列需要更多的计算资源。
    • SASRec 和 LLaMa 的 TPS 优势: SASRecLLaMaTPS 方面优于 HSTUFuXi-α。这很可能是因为 SASRecLLaMa 在模型设计中省略了对时间信息编码的显式处理。虽然时间信息编码可以提高模型性能,但它也带来了额外的计算开销。
    • FuXi-α 的效率-性能权衡: FuXi-αTPSHSTU 相似(略低于 HSTU,例如在 TPS@800 上为 394 vs 436)。然而,考虑到 FuXi-α 在性能上的显著优势(如 Table 2 和 Table 3 所示),其效率在权衡性能提升后是可接受的。这表明 FuXi-α 在处理时间信息时的开销相对合理,能够提供更好的性能。

6.3. 消融研究 (Ablation Study, RQ3)

为了评估 FuXi-α 架构中各个子模块的有效性,论文分析了三种模型变体:

以下是原文 Table 5 的结果:

DatasetMovieLens-1MMovieLens-20MMMovieLens-20M
ModelNG@10HR@1010NG@10HR@10NG@10NG@10
Basew/o AMSw/o MFFN0.14540.26760.14520.26470.04760.0928
0.15630.28470.16120.28880.04700.05340.09210.0947
0.18780.33040.20560.3488
FuXi-α0.19340.33590.20860.35300.05550.1105

模型变体:

  1. Base Model:AMS 模块替换为 SASRec 中的普通自注意力层 (vanilla self-attention layer),并将 MFFN 模块替换为 HSTU 中的单阶段 MLP。这相当于一个更基础的 Transformer 结构。
  2. w/o AMS (不带 AMS): 仅将 AMS 模块替换为普通的自注意力层,但保留 MFFN 模块。
  3. w/o MFFN (不带 MFFN): 仅将 MFFN 模块替换为单阶段 MLP,但保留 AMS 模块。

消融结果分析:

  • Base Model (基线模型): 作为最基础的变体,其性能最低,例如在 MovieLens-1M 上的 NDCG@10 为 0.1454。这验证了 FuXi-α 提出的 AMSMFFN 相较于传统或简化的组件具有优势。
  • w/o AMS (移除 AMS): 当移除 AMS 并使用普通的自注意力层时,模型性能显著下降。例如,MovieLens-1M 上的 NDCG@10FuXi-α 的 0.1934 下降到 0.1563。这强调了 AMS 在捕获显式特征交互以及有效利用时间 (temporal) 和位置 (positional) 信息方面的必要性。
  • w/o MFFN (移除 MFFN): 移除 MFFN 并使用单阶段 MLP 时,模型性能也出现显著下降,例如 MovieLens-1M 上的 NDCG@10FuXi-α 的 0.1934 下降到 0.1878。尽管如此,这个变体仍然比 HSTU 表现更好,这表明 AMS 自身已经能够带来很大的提升。但 MFFN 的重要性在于它能够进行彻底的隐式特征交互,其缺失会导致性能损失,凸显了隐式交互的重要性。
  • 结论: 消融实验结果证实了 AMSMFFN 这两个核心组件对 FuXi-α 模型的预测能力都至关重要。AMS 有效地处理了时间、位置和语义特征的显式交互,而 MFFN 则通过多阶段设计增强了隐式特征交互,两者共同促成了 FuXi-α 的优异性能。

6.4. 超参数研究 (Hyperparameter Study, RQ4)

论文考察了 FuXi-α 的几个超参数对性能的影响,包括层数、隐藏维度和负样本数量。

6.4.1. 层数 (The number of layers)

下图(原文 Figure 6)展示了不同层数下模型的性能。

Figure 6: Performances with different number of layers. 该图像是图表,展示了在不同层数下,模型在 MovieLens-1M 和 KuaiRand 数据集上的 NDCG@10 和 HR@10 指标的表现。模型的性能随着层数的增加而有所不同,MovieLens-1M 达到最佳表现于 8 层,而 KuaiRand 的性能则逐渐提升。

Figure 6: Performances with different number of layers.

主要观察结果:

  • MovieLens-1M: 在 MovieLens-1M 数据集上,模型的性能从 2 层提升到 8 层,但在 16 层时开始下降。这可能因为 MovieLens-1M 是一个相对较小的数据集,过多的层数(即过大的模型规模)可能导致过拟合或无法从有限数据中充分学习。
  • KuaiRand: 在 KuaiRand 数据集上,模型的性能从 2 层到 16 层持续提升。这表明对于更大的数据集,增加模型层数(即模型容量)能够带来持续的性能收益,符合标度律的预期。

6.4.2. 隐藏维度 (The hidden dimension)

下图(原文 Figure 7)展示了不同隐藏维度下模型的性能。

Figure 7: Performances with different hidden dimension. 该图像是图表,展示了在不同隐藏维度下,MovieLens-1M(左侧)和KuaiRand(右侧)数据集上的NDCG@10和HR@10的性能表现。随着隐藏维度的增加,两个数据集的性能指标均呈现提升趋势。

Figure 7: Performances with different hidden dimension.

主要观察结果:

  • MovieLens-1M: 在 MovieLens-1M 数据集上,性能在隐藏维度增加到 32 后趋于饱和,之后提升微乎其微。这再次说明小数据集对模型容量的限制。
  • KuaiRand: 在 KuaiRand 数据集上,性能随着隐藏维度的增加(从 8 到 64)持续稳步提升。这表明更大的隐藏维度能够更好地捕获更复杂的数据模式,并在大型数据集上持续带来性能收益。

6.4.3. 负样本数量 (Negative Samples)

下图(原文 Figure 8)展示了不同负样本数量下模型的性能。

Figure 8: Diverse negative sample counts in performances. 该图像是图表,展示了在不同负样本数量下,MovieLens-1M 和 KuaiRand 数据集的 NDCG@10 和 HR@10 的变化趋势。可以观察到,随着负样本数量的增加,NDCG@10 和 HR@10 指标均呈现出上升的趋势,表明更大的负样本可以改善推荐效果。

Figure 8: Diverse negative sample counts in performances.

主要观察结果:

  • 持续提升: 在 MovieLens-1M 和 KuaiRand 两个数据集上,性能都随着负样本数量的增加而提升,即使负样本数量超过 64。
  • 重要性: 论文强调,负样本采样的收益甚至超过了增加模型层数所带来的收益。这突出了负样本采样在提高推荐模型性能中的关键作用,尤其是在 LLM 标度律研究中可能被忽视的方面。

6.5. 在线 A/B 测试 (Online A/B Test)

  • 场景: 华为音乐 (Huawei Music) 应用的一个主场景。
  • 测试方式: 进行了为期 7 天的在线 A/B 测试,使用了 30% 的用户流量。
  • 基线: 与一个经过多年优化的高度优化的多通道召回基线进行比较。
  • 结果:
    • 平均每用户歌曲播放量 (average number of songs played per user) 增加了 4.76%
    • 平均每用户收听时长 (average listening duration per user) 增加了 5.10%
  • 结论: 这些结果表明 FuXi-α 在增强用户互动和参与度方面表现出色,特别是在提升用户体验和增加平台使用时长方面。经过数周的评估,FuXi-α 已成为该场景下的固有召回通道,服务于大部分在线流量。

7. 总结与思考

7.1. 结论总结

本文提出了一种新颖的序列推荐模型 FuXi-α,旨在解决现有模型在处理时间、位置信息和隐式特征交互方面的不足,并使其能够更好地遵循标度律。其核心创新在于:

  1. 自适应多通道自注意力 (AMS) 机制: 通过解耦语义、时间、位置特征的建模,使得模型能够更具表达力地利用这些关键上下文信息。

  2. 多阶段前馈网络 (MFFN): 通过两阶段设计强化了隐式特征交互,弥补了现有模型在这方面的不足。

    离线实验在多个公共数据集和大规模工业数据集上均显示 FuXi-α 显著优于包括 SASRecLLaMaHSTU 在内的现有最先进模型。此外,实验验证了 FuXi-α 遵循标度律,其性能随着模型规模的增加而持续提升。在线 A/B 测试在华为音乐应用中取得了显著的业务提升(平均每用户歌曲播放量增加 4.76%,平均收听时长增加 5.10%),证明了 FuXi-α 在实际应用中的有效性和商业价值。

7.2. 局限性与未来工作

  • 局限性 (作者指出): 论文中并未明确列出模型的具体局限性,但从实验部分可知:
    • 效率: FuXi-α(以及 HSTU)由于显式处理时间信息,其 TPS 相比 SASRecLLaMa 较低,这意味着在实时性要求极高的场景下可能需要进一步的优化。
    • 最大扩展规模: 尽管模型遵循标度律,但由于内存限制,在工业数据集上的层数仅扩展到 32 层,并未探索到其理论上的性能上限。
  • 未来工作 (作者指出):
    1. 扩展到更复杂的推荐问题: 将模型应用于多行为 (multi-behavior) 和多模态 (multi-modal) 推荐场景。
    2. 处理长序列: 将模型应用于涉及极长用户行为序列的场景。

7.3. 个人启发与批判

  • 个人启发:

    1. 细粒度特征交互的价值: FuXi-α 强调了在 Transformer 架构中对不同类型特征(语义、时间、位置)进行细粒度、解耦式交互建模的重要性。这提供了一个重要的设计原则:并非所有信息都应该以相同的方式被整合,针对性地设计交互机制可以显著提升模型表达力。
    2. 隐式交互不容忽视: 论文通过 MFFN 和消融实验明确指出,强化隐式特征交互对于 Transformer 架构的推荐模型仍然至关重要。这提醒研究者在追求显式交互的同时,不应放弃深度非线性变换带来的隐式模式捕获能力。
    3. 标度律在推荐领域的潜力: FuXi-α 成功验证了在推荐模型中遵循标度律的可行性,并提供了实际的性能收益。这鼓励了研究人员将更多精力投入到设计可扩展的推荐架构中,以期利用大模型范式带来的性能飞跃。
    4. 工程与学术的结合: 华为音乐的在线 A/B 测试结果不仅验证了模型在学术指标上的优越性,更直接展示了其在真实商业场景中的巨大价值,为学术研究与工业实践的结合提供了典范。
  • 批判/可以改进的地方:

    1. 时间信息处理的通用性: 论文中时间通道的注意力权重 α(tjti)α(t_j - t_i) 依赖于时间戳差异到桶的映射。虽然有效,但这种基于桶的离散化方法可能存在粒度损失,或对桶的数量和映射函数选择敏感。更精细或自适应的时间编码方法(如连续时间处理)可能进一步提升性能。
    2. 计算效率的进一步优化: 尽管 FuXi-α 性能卓越,但其 TPS 仍低于 SASRecLLaMa。在大规模工业部署中,计算效率是关键考量。未来的工作可以探索如何在保持性能优势的同时,进一步优化 AMSMFFN 的计算效率,例如通过模型剪枝 (pruning)、量化 (quantization) 或更高效的近似注意力机制。
    3. 对超长序列的处理: 论文提到未来工作将应用于长序列。虽然 Transformer 可以处理长序列,但其 O(N2)O(N^2) 的时间复杂度仍是瓶颈。FuXi-αAMS 层虽然在处理时间/位置信息上更精细,但并没有本质上改变自注意力的二次复杂度。针对极长序列(如数千甚至数万个交互项),可能需要结合稀疏注意力 (sparse attention)、线性注意力 (linear attention) 或分块处理 (chunking) 等技术。
    4. 模型可解释性: 虽然 AMS 机制解耦了特征,可能在一定程度上提高了时间、位置和语义信息的影响路径的可解释性,但整个 FuXi-α 仍然是一个复杂的深度学习模型。对于更深层次的决策过程,尤其是 MFFN 捕获的隐式交互,其可解释性仍然是一个挑战。在推荐系统中,可解释性对于用户信任和系统优化越来越重要。
    5. 负样本采样策略的深入探讨: 超参数研究表明负样本数量对性能有显著影响,甚至超过层数。这引出了一个问题:是否存在更优、更自适应的负样本采样策略?例如,困难负样本挖掘 (hard negative mining) 或对比学习 (contrastive learning) 中的负样本构建,可能会带来进一步的提升,并且可能降低对大量负样本数量的需求。

相似论文推荐

基于向量语义检索推荐的相关论文。

暂时没有找到相似论文。