AiPaper
论文状态:已完成

TV-Rec: Time-Variant Convolutional Filter for Sequential Recommendation

发表:2025/10/29
原文链接PDF 下载
价格:0.10
价格:0.10
已有 4 人读过
本分析由 AI 生成,可能不完全准确,请以原文为准。

TL;DR 精炼摘要

本文提出TV-Rec,一种基于图信号处理的时变卷积滤波器,替代传统固定滤波器和自注意力机制,捕捉用户行为中位置依赖的时间变化。该方法提升表达能力,减少计算量,加速推理,在六个公开数据集上平均性能提升7.49%。

摘要

Recently, convolutional filters have been increasingly adopted in sequential recommendation for their ability to capture local sequential patterns. However, most of these models complement convolutional filters with self-attention. This is because convolutional filters alone, generally fixed filters, struggle to capture global interactions necessary for accurate recommendation. We propose Time-Variant Convolutional Filters for Sequential Recommendation (TV-Rec), a model inspired by graph signal processing, where time-variant graph filters capture position-dependent temporal variations in user sequences. By replacing both fixed kernels and self-attention with time-variant filters, TV-Rec achieves higher expressive power and better captures complex interaction patterns in user behavior. This design not only eliminates the need for self-attention but also reduces computation while accelerating inference. Extensive experiments on six public benchmarks show that TV-Rec outperforms state-of-the-art baselines by an average of 7.49%.

思维导图

论文精读

中文精读

1. 论文基本信息

1.1. 标题

TV-Rec: Time-Variant Convolutional Filter for Sequential Recommendation (TV-Rec: 用于序列推荐的时变卷积滤波器)

1.2. 作者

Yehjin Shin, Jeongwhan Choi, Seojin Kim, Noseong Park

1.3. 发表期刊/会议

KAIST (韩国科学技术院)

1.4. 发表年份

2025

1.5. 摘要

最近,卷积滤波器 (convolutional filters) 在序列推荐 (sequential recommendation) 中得到越来越多的应用,因为它们能够捕捉局部序列模式 (local sequential patterns)。然而,这些模型大多需要自注意力 (self-attention) 来辅助卷积滤波器。这是因为单独的卷积滤波器,通常是固定滤波器 (fixed filters),难以捕捉到准确推荐所需的全局交互 (global interactions)。本研究提出了用于序列推荐的时变卷积滤波器 (Time-Variant Convolutional Filters for Sequential Recommendation, TV-Rec),其灵感来源于图信号处理 (graph signal processing)。在 TV-Rec 中,时变图滤波器 (time-variant graph filters) 能够捕捉用户序列中依赖于位置的时间变化 (position-dependent temporal variations)。通过将固定核 (fixed kernels) 和自注意力 (self-attention) 都替换为时变滤波器,TV-Rec 实现了更高的表达能力 (expressive power),并能更好地捕捉用户行为中复杂的交互模式。这种设计不仅消除了对自注意力的需求,还减少了计算量 (computation),同时加速了推理 (inference)。在六个公开基准数据集上进行的广泛实验表明,TV-Rec 的性能平均优于最先进的基线模型 7.49%。

1.6. 原文链接

https://arxiv.org/abs/2510.25259

1.7. PDF 链接

https://arxiv.org/pdf/2510.25259v1.pdf 该论文目前作为预印本 (pre-print) 发布于 arXiv。

2. 整体概括

2.1. 研究背景与动机

推荐系统 (recommender systems) 已成为引导用户浏览海量内容的关键工具,它根据用户的历史交互提供个性化信息。由于用户偏好会随时间演变,序列推荐 (sequential recommendation, SR) 被广泛用于捕捉用户交互中的序列模式 (sequential patterns) 以建模动态偏好。

当前 SR 领域面临的主要挑战是:

  1. 传统卷积滤波器 (convolutional filters) 的局限性:虽然卷积滤波器在捕捉局部序列模式方面表现出色,但其固定性质限制了其适应性。同一个滤波器被均匀地应用于序列中的所有位置,这使得它们难以捕捉随时间演变或特定于位置的语义信息。它们主要侧重于用户的近期行为,难以有效捕捉长期偏好或序列早期阶段的关键模式。

  2. 自注意力机制 (self-attention mechanisms) 的局限性:Transformer (Transformer) 模型及其变体,如 SASRecBERT4Rec,在建模长期依赖性方面表现强大。然而,自注意力机制缺乏对序列结构固有的归纳偏置 (inductive bias),它以成对方式处理所有位置,没有内在的局部邻近性偏置。这导致其在建模细粒度的、局部化的用户行为模式时存在困难,并且计算成本高昂。

  3. 现有混合模型的不足:为了弥补上述不足,一些混合模型尝试结合卷积和自注意力,以期同时捕捉局部和全局模式。然而,这些模型往往继承了自注意力机制的计算复杂性,推理效率不高。

    论文试图解决的核心问题是:如何在序列推荐中设计一个既能有效捕捉局部和全局交互模式,又能兼顾计算效率和表达能力的模型,从而摆脱对自注意力机制的依赖?

这篇论文的切入点和创新思路在于:

  1. 引入时变卷积滤波器 (Time-Variant Convolutional Filters):受图信号处理 (Graph Signal Processing, GSP) 中节点变图滤波器 (node-variant graph filters) 的启发,提出将序列中的每个位置视为一个图节点,并为每个节点应用不同的滤波器。
  2. 替换固定核和自注意力TV-Rec 的设计目标是完全取代传统的固定卷积核以及计算成本高昂的自注意力机制,通过时变滤波器实现更强的表达能力和效率。
  3. 利用图谱域的固有优势:通过将序列建模为有向循环图 (Directed Cyclic Graph, DCG) 并在谱域 (spectral domain) 进行操作,模型能够自然地编码位置信息,从而无需显式的位置编码 (positional embeddings)。

2.2. 核心贡献/主要发现

论文的主要贡献体现在以下几个方面:

  • 提出了 TV-Rec 模型:引入了用于序列推荐的时变卷积滤波器,能够更有效地捕捉时间动态和用户行为模式。这种滤波器为序列中的每个数据点应用不同的滤波器,克服了传统固定卷积滤波器的局有局限性。

  • 展示了 TV-Rec 更强大的泛化能力:论文证明 TV-Rec 具有更高的表达能力,并通过滤波器作为时间函数,有效地捕捉了用户的长期偏好和近期兴趣。

  • 实现了卓越的性能与效率平衡:在六个基准数据集上的广泛实验表明,TV-Rec 的性能平均优于最先进的基线模型 7.49%。此外,该模型在没有自注意力机制的情况下,仍能实现快速推理和较低的计算复杂性,在准确性和效率之间取得了最佳平衡。

    论文得出的关键结论是,通过采用受图信号处理启发的时变卷积滤波器,可以在序列推荐任务中有效地取代自注意力机制和固定核,从而实现更优越的推荐性能和计算效率,尤其是在处理长序列时表现突出。

3. 预备知识与相关工作

3.1. 基础概念

3.1.1. 序列推荐 (Sequential Recommendation, SR)

SR 是推荐系统的一个重要分支,旨在根据用户历史交互序列(如购买历史、浏览记录等)来预测用户下一个可能交互的物品。它假设用户的偏好是动态变化的,并尝试从用户行为的顺序中捕捉这种动态性。例如,用户购买了一系列运动鞋后,系统可能会推荐新的运动服饰。

3.1.2. 卷积滤波器 (Convolutional Filters)

在深度学习中,卷积滤波器(也称为卷积核)是一种小型矩阵,它通过在输入数据(如图像或序列)上滑动并进行元素级乘法和求和操作,来提取局部特征。在 SR 中,一维卷积 (1D Convolution) 通常用于捕捉用户行为序列中的局部模式,例如,用户最近连续购买了特定类别的商品。然而,传统的卷积滤波器是固定的,即在序列的每个位置应用相同的权重,这限制了它们捕捉时变或位置特定语义的能力。

3.1.3. 自注意力 (Self-Attention)

自注意力 (Self-Attention) 是 Transformer 模型中的核心机制,它允许模型在处理序列的某个元素时,能够同时关注序列中的所有其他元素,并根据它们的重要性来加权。这使得模型能够捕捉序列中的长距离依赖关系。

自注意力的计算通常涉及查询 (Query, QQ)、键 (Key, KK) 和值 (Value, VV) 矩阵。给定一个输入序列的嵌入表示,首先将其线性变换为 Q, K, V 矩阵。然后,通过计算 QQKK 之间的点积来衡量序列中不同位置之间的相似度或相关性,再经过 softmax 函数归一化,得到注意力权重。最后,这些权重被应用于 VV 矩阵,聚合得到加权后的输出。

其标准计算公式如下: Attention(Q,K,V)=softmax(QKTdk)V \mathrm{Attention}(Q, K, V) = \mathrm{softmax}\left(\frac{QK^T}{\sqrt{d_k}}\right)V 符号解释:

  • QQ (Query) 是查询矩阵,维度为 N×dkN \times d_k,其中 NN 是序列长度, dkd_k 是键的维度。

  • KK (Key) 是键矩阵,维度为 N×dkN \times d_k

  • VV (Value) 是值矩阵,维度为 N×dvN \times d_v,其中 dvd_v 是值的维度。

  • KTK^TKK 的转置。

  • dk\sqrt{d_k} 是缩放因子,用于防止点积结果过大导致 softmax 函数梯度消失。

  • softmax()\mathrm{softmax}(\cdot)softmax 函数,将注意力分数转换为概率分布。

  • Attention(Q,K,V)\mathrm{Attention}(Q, K, V) 是自注意力机制的输出,维度为 N×dvN \times d_v

    尽管自注意力擅长捕捉全局依赖,但它缺乏对局部邻近性的固有偏置,且计算复杂度较高。

3.1.4. 图信号处理 (Graph Signal Processing, GSP)

GSP 是一门研究定义在图 (graph) 结构上的信号 (signals) 的学科。它将图的拓扑结构与信号的频谱特性相结合,对信号进行分析、处理和变换。

  • 图信号 (Graph Signals):定义在图的节点上的函数值,例如,社交网络中每个用户的年龄、气象站网络中每个站点的温度。
  • 移位算子 (Shift Operator):在 GSP 中,一个图的移位算子 S\mathbf{S} (通常是邻接矩阵或拉普拉斯矩阵) 类似于传统信号处理中的移位操作。它描述了信息如何在图的节点之间传播。
  • 图滤波器 (Graph Filter):图滤波器 G\mathbf{G} 是移位算子 S\mathbf{S} 的多项式函数,用于对图信号进行频率成分的增强或抑制。 y=Gx=k=0KhkSkx \mathbf { y } = \mathbf { G x } = \sum _ { k = 0 } ^ { K } h _ { k } \mathbf { S } ^ { k } \mathbf { x } 符号解释:
    • xRN\mathbf{x} \in \mathbb{R}^N 是输入图信号,其中 NN 是节点数量。
    • yRN\mathbf{y} \in \mathbb{R}^N 是输出图信号。
    • G\mathbf{G} 是图滤波器。
    • SRN×N\mathbf{S} \in \mathbb{R}^{N \times N} 是移位算子(如邻接矩阵或拉普拉斯矩阵)。
    • hkh_k 是滤波器抽头 (filter taps),即多项式系数。
    • KK 是滤波器的阶数 (order)。
  • 图傅里叶变换 (Graph Fourier Transform, GFT)GFT 类似于传统傅里叶变换,将图信号从节点域转换到谱域(频率域)。它通过移位算子 S\mathbf{S} 的特征分解 (eigen-decomposition) 定义: S=Udiag(λ)U \mathbf { S } = \mathbf { U } \mathsf { diag } ( \boldsymbol { \lambda } ) \mathbf { U } ^ { \top } 符号解释:
    • U\mathbf{U} 是特征向量 (eigenvectors) 矩阵。
    • λ\boldsymbol{\lambda} 是特征值 (eigenvalues) 向量。
    • diag()\mathsf{diag}(\cdot) 表示从向量构造对角矩阵。 GFT 定义为 x~=Ux\tilde{\mathbf{x}} = \mathbf{U}^\top \mathbf{x},逆 GFT 定义为 x=Ux~\mathbf{x} = \mathbf{U}\tilde{\mathbf{x}}。在谱域中,图滤波操作变为对角矩阵与转换后信号的乘法: y~=G~x~=(k=0Khkdiag(λ)k)x~ \tilde { \mathbf { y } } = \tilde { \mathbf { G } } \tilde { \mathbf { x } } = \Big ( \sum _ { k = 0 } ^ { K } h _ { k } \mathrm { diag } ( \boldsymbol { \lambda } ) ^ { k } \Big ) \tilde { \mathbf { x } } 符号解释:
    • y~\tilde{\mathbf{y}} 是输出信号的 GFT
    • G~\tilde{\mathbf{G}} 是在谱域中的图滤波器,它是一个对角矩阵。
    • x~\tilde{\mathbf{x}} 是输入信号的 GFT

3.1.5. 节点变图滤波器 (Node-Variant Graph Filter)

传统的图滤波器在所有节点上共享相同的滤波器抽头 hkh_k。而节点变图滤波器 Gnv\mathbf{G}_{nv} 允许每个节点拥有不同的滤波器抽头。这意味着每个节点 ii 在多项式求和中都有其自己的一组系数 hk(i)h_k^{(i)}y=Gnvx=(k=0Kdiag(hk)Sk)x { \bf y } = { \bf G } _ { n v } { \bf x } = \Big ( \sum _ { k = 0 } ^ { K } \mathrm { diag } ( { \bf h } _ { k } ) { \bf S } ^ { k } \Big ) { \bf x } 符号解释:

  • hk=[hk(1),hk(2),,hk(N)]\mathbf{h}_k = [h_k^{(1)}, h_k^{(2)}, \ldots, h_k^{(N)}]^\top 是一个向量,其中 hk(i)h_k^{(i)} 是节点 ii 在阶数 kk 时的滤波器抽头。
  • diag(hk)\mathsf{diag}(\mathbf{h}_k) 是一个对角矩阵,其对角线元素由向量 hk\mathbf{h}_k 给出。 在序列推荐的语境下,如果序列中的每个时间步被视为一个节点,那么节点变图滤波器就等同于时变卷积滤波器 (time-variant convolutional filters),因为每个时间步(位置)都有其独特的滤波器。

3.1.6. 位置编码 (Positional Encoding)

在 Transformer 模型中,由于自注意力机制并行处理所有输入,模型本身不包含任何关于词语顺序的信息。为了引入序列中元素的位置信息,通常会添加位置编码。位置编码可以是固定的(如正弦和余弦函数)或可学习的向量,它们与词嵌入相加,从而使模型能够区分序列中不同位置的元素。

标准正弦位置编码公式如下: PE(pos,2i)=sin(pos100002i/d),PE(pos,2i+1)=cos(pos100002i/d) \mathrm { PE } _ { ( p o s , 2 i ) } = \sin \left( \frac { p o s } { 10000 ^ { 2i / d } } \right) , \quad \mathrm { PE } _ { ( p o s , 2i + 1 ) } = \cos \left( \frac { p o s } { 10000 ^ { 2i / d } } \right) 符号解释:

  • pos 是序列中词语的位置。
  • ii 是嵌入向量中的维度索引。
  • dd 是嵌入维度。 TV-Rec 的一个特点是,由于其时变滤波器和谱域操作,它声称不需要显式的位置编码。

3.2. 前人工作

  • 早期序列推荐模型
    • 马尔可夫链 (Markov chains) [24]:如 Factorizing personalized Markov chains,通过建模项目之间的转移概率来预测下一个项目。
    • 循环神经网络 (Recurrent Neural Networks, RNNs) [13]:如 GRU4Rec,利用 RNN 的序列处理能力捕捉用户偏好中的时间依赖性。
  • 基于 Transformer 的序列推荐模型
    • SASRec [17]:Self-Attentive Sequential Recommendation,首次将自注意力机制引入 SR,通过自注意力层捕获用户序列中的长程依赖。
    • BERT4Rec [29]:Sequential Recommendation with Bidirectional Encoder Representations from Transformer,采用双向 Transformer 编码器和掩码项目预测任务进行训练,进一步提升了性能。
  • 基于卷积的序列推荐模型
    • Caser [30]:Personalized Top-N Sequential Recommendation via Convolutional Sequence Embedding,将用户-物品交互视为图像,使用 2D 卷积捕捉序列模式。
    • NextItNet [40]:A Simple Convolutional Generative Network for Next Item Recommendation,使用膨胀一维卷积 (dilated 1D convolutions) 和残差连接 (residual connections) 捕获长短程依赖。
    • FMLPRec [45]:Filter-enhanced MLP is all you need for sequential recommendation,在一个全 MLP 架构中融入傅里叶变换和可学习滤波器,以增强序列表示。
  • 混合模型 (Hybrid Approaches)
    • AdaMCT [16]:Adaptive Mixture of CNN-Transformer for Sequential Recommendation,结合 Transformer 的自注意力 (long-term preferences) 和 1D 卷积 (short-term preferences)。
    • BSARec [28]:An Attentive Inductive Bias for Sequential Recommendation Beyond the Self-Attention,通过使用傅里叶变换 (Fourier Transform) 应用卷积来解决自注意力机制的局限性,在自注意力之外引入归纳偏置。
  • 基于图神经网络 (GNN-based) 的模型
    • SR-GNN [33]:Session-based Recommendation with Graph Neural Networks,将用户会话转换为图,并应用 GNN 捕捉物品转换关系。
    • GC-SAN [35]:Graph Contextualized Self-Attention Network for Session-Based Recommendation,动态为每个序列构建图,结合 GNN 和自注意力建模局部和长程物品依赖。
    • GCL4SR [43]:Enhancing Sequential Recommendation with Graph Contrastive Learning,构建全局物品转换图,并使用图对比学习 (graph contrastive learning) 整合全局和局部上下文。

3.3. 技术演进

序列推荐技术的发展大致经历了以下几个阶段:

  1. 早期统计/启发式模型:以 马尔可夫链 为代表,主要关注相邻物品间的转换概率。

  2. 基于循环神经网络 (RNN) 的模型:如 GRU4Rec,利用 RNN 捕捉序列中的时间依赖性,但受限于长序列的梯度消失/爆炸问题。

  3. 基于自注意力/Transformer 的模型SASRecBERT4Rec 引入自注意力,显著提升了长程依赖建模能力,但引入了高昂的计算成本和对局部性归纳偏置的缺乏。

  4. 基于卷积神经网络 (CNN) 的模型CaserNextItNet 利用 CNN 捕捉局部模式,提供更好的效率,但通常难以捕捉全局依赖。

  5. 混合架构模型:如 AdaMCTBSARec,尝试结合 CNNTransformer 的优势,但往往未能完全摆脱自注意力的计算负担。

  6. 基于图神经网络 (GNN) 的模型SR-GNN 等将序列建模为图结构,利用 GNN 聚合信息,但通常侧重于物品间的转换关系而非序列位置的动态性。

    本文的 TV-Rec 处于第 5 阶段的演进末端和第 6 阶段的并行探索中,它试图超越现有混合模型,通过一种全新的 时变卷积滤波器 机制,在不依赖自注意力的情况下,实现对局部和全局模式的有效捕捉,并提升效率,可以看作是 GSP 思维在 SR 领域的创新应用。

3.4. 差异化分析

TV-Rec 与现有主要方法的核心区别和创新点在于:

  1. 与固定卷积滤波器相比TV-Rec 引入了 时变卷积滤波器,允许序列中每个位置(时间步)拥有独立的滤波器。这解决了固定滤波器难以捕捉时变或位置特定语义的问题,使其能够同时关注近期兴趣和早期长程偏好。传统的 1D CNN (如 AdaMCT 中的) 对应于固定图卷积滤波器。
  2. 与自注意力机制相比TV-Rec 完全去除了自注意力机制,从而避免了其高昂的计算复杂性和缺乏局部性归纳偏置的限制。通过 时变滤波器 在谱域中的操作,TV-Rec 能够有效捕捉全局交互,而无需自注意力的成对交互。
  3. 与混合模型相比TV-Rec 旨在完全替代自注意力与固定卷积的组合,提供一个更统一、高效的解决方案。例如,FMLPRecBSARec 的滤波器层虽然应用了傅里叶变换 (Fourier transform),但仍可被视为固定滤波器的谱域表示,而 TV-Rec时变滤波器 更加通用。
  4. GNN-based 模型相比
    • 节点定义不同TV-Rec 将序列中的位置而非物品本身定义为图节点,这意味着即使相同的物品在不同时间出现,也会被视为不同的节点。这使得模型能捕捉更细粒度的时序和位置依赖。而 GNN-based 模型通常将物品作为节点,可能会忽略重复物品在不同时间点的上下文差异。
    • 操作方式不同TV-Rec 通过谱域中的 时变图卷积滤波器 直接操作,无需迭代的消息传递 (message passing)。这使得其在处理长序列时更加高效,避免了 GNN 中递归传播的计算成本。
  5. 无需位置编码TV-Rec 通过在有向循环图 (DCG) 上进行谱分解,能够固有地 (inherently) 编码位置信息,从而无需显式的位置编码,简化了模型结构并提高了效率。

4. 方法论

4.1. 方法原理

TV-Rec 的核心思想是利用图信号处理 (GSP) 中的节点变图滤波器 (node-variant graph filters) 来构建一个能够捕捉用户序列中位置依赖性时间变化的时变卷积滤波器 (time-variant convolutional filter)。它将用户的历史交互序列抽象为一个线图 (line graph),并为了在谱域 (spectral domain) 进行高效计算,进一步将其建模为一个零填充 (zero-padded) 的有向循环图 (Directed Cyclic Graph, DCG)。

该方法的直觉在于:用户在序列不同时间点(即序列中的不同位置)的行为模式和偏好可能不同。例如,序列开头的行为可能反映用户的长期兴趣,而序列末尾的行为则更侧重于近期偏好。传统的固定卷积滤波器无法适应这种位置依赖性的变化,而自注意力机制虽然灵活但计算成本高昂且缺乏局部性归纳偏置。通过引入时变滤波器,TV-Rec 允许在序列的每个位置应用一个独特的滤波器,从而动态地调整对序列中不同时间点信息的关注程度,更精细地捕捉复杂的交互模式。这种设计不仅提高了模型的表达能力,还通过其线性算子的性质实现了更快的推理速度,同时彻底替代了自注意力机制。

4.2. 核心方法详解 (逐层深入)

TV-Rec 由三个主要模块组成:嵌入层 (embedding layer)、时变编码器 (time-variant encoder) 和预测层 (prediction layer)。以下将详细介绍各个模块。

4.2.1. 嵌入层 (Embedding Layer)

首先,用户历史交互序列 ss 被转换为固定长度 NN

  • 如果 SN|{ \cal S }| \geq N,则截断序列,保留最近的 NN 个物品。
  • 如果 S<N|{ \cal S }| < N,则在序列开头用零进行填充。 这个过程生成了一个长度为 NN 的序列,表示为 s=(s1,s2,,sN)s = (s_1, s_2, \ldots, s_N)

接下来,使用物品嵌入矩阵 ERν×D\mathbf{E} \in \mathbb{R}^{|\nu| \times D} (其中 DD 是潜在维度大小,ν|\nu| 是物品总数)进行查找操作,获取用户序列的嵌入表示。然后,应用层归一化 (Layer Normalization) 和 dropout (Dropout) 操作。 X0=Dropout(LayerNorm([Es1,Es2,,EsN])) \mathbf { X } ^ { 0 } = \operatorname { Dropout } ( \operatorname { LayerNorm } ( [ \mathbf { E } _ { s _ { 1 } } , \mathbf { E } _ { s _ { 2 } } , \cdots , \mathbf { E } _ { s _ { N } } ] ^ { \top } ) ) 符号解释:

  • s=(s1,s2,,sN)s = (s_1, s_2, \ldots, s_N) 是处理后的用户交互序列。
  • ERν×D\mathbf{E} \in \mathbb{R}^{|\nu| \times D} 是物品嵌入矩阵。
  • Ev\mathbf{E}_v 表示物品 vv 的嵌入向量,是 E\mathbf{E} 中的一行。
  • [Es1,Es2,,EsN][\mathbf{E}_{s_1}, \mathbf{E}_{s_2}, \cdots, \mathbf{E}_{s_N}]^\top 是将序列中所有物品的嵌入向量堆叠起来形成一个 N×DN \times D 的矩阵。
  • LayerNorm()\operatorname{LayerNorm}(\cdot) 是层归一化操作,用于稳定训练。
  • Dropout()\operatorname{Dropout}(\cdot) 是 dropout 操作,用于防止过拟合。
  • X0\mathbf{X}^0 是经过嵌入层处理后的用户序列最终表示,作为时变编码器的输入。 值得注意的是,由于时变卷积滤波器固有的优势,这里不需要 (not necessary) 额外的 位置编码

4.2.2. 时变编码器 (Time-Variant Encoder)

时变编码器通过堆叠 LL 个时变编码块 (time-variant encoding blocks) 来构建。每个编码块包含一个滤波器层 (filter layer) 和一个前馈网络 (feed-forward network),并在两者之后都应用残差连接 (residual connection)。

4.2.2.1. 滤波器层 (Filter Layer)

在第 \ell 个滤波器层中,输入为 X\mathbf{X}^\ell。首先执行滤波操作,然后应用残差连接和层归一化。 如 Figure 2 所示,操作步骤如下:

  1. 转换为频率域: 将输入 X\mathbf{X}^\ell 转换为频率域表示 X~\widetilde{\mathbf{X}}^\ellX~=UX \widetilde { \mathbf { X } } ^ { \ell } = \mathbf { U } ^ { \top } \mathbf { X } ^ { \ell } 符号解释:

    • X\mathbf{X}^\ell 是当前编码块的输入,维度为 N×DN \times D
    • U\mathbf{U}GFT 矩阵,它来源于一个零填充 (zero-padded) 的有向循环图 (DCG)。选择 DCG 是为了确保对角化 (diagonalizability) 并进行谱滤波 (spectral filtering),同时通过零填充策略避免了信息向后泄漏(具体在附录 B 中有正式论证)。U\mathbf{U} 是一个 N×NN \times N 的酉矩阵 (unitary matrix)。
    • U\mathbf{U}^\topU\mathbf{U} 的共轭转置。
    • X~\widetilde{\mathbf{X}}^\ellX\mathbf{X}^\ell 在频率域的表示。
  2. 应用时变卷积滤波器: 计算时变卷积滤波器的输出 X^\widehat{\mathbf{X}}^\ell。这里利用了 节点变图滤波器 的频率响应公式 (Eq. 5)。 X^=GnvX~=(U(HΛ))X~=(U(HΛ))UX \widehat { \mathbf { X } } ^ { \ell } = \mathbf { G } _ { n v } \widetilde { \mathbf { X } } = \bigl ( \mathbf { U } \circ ( \mathbf { H } \mathbf { \Lambda } ^ { \top } ) \bigr ) \widetilde { \mathbf { X } } ^ { \ell } = \bigl ( \mathbf { U } \circ ( \mathbf { H } \mathbf { \Lambda } ^ { \top } ) \bigr ) \mathbf { U } ^ { \top } \mathbf { X } ^ { \ell } 符号解释:

    • Gnv\mathbf{G}_{nv} 是节点变图滤波器。
    • \circ 表示逐元素乘法 (element-wise multiplication)。
    • HCN×(K+1)\mathbf{H} \in \mathbb{C}^{N \times (K+1)} 是滤波器抽头矩阵 (filter tap matrix),其中 NN 是序列长度, KK 是滤波器阶数。
    • ΛCN×(K+1)\mathbf{\Lambda} \in \mathbb{C}^{N \times (K+1)} 是一个范德蒙德矩阵 (Vandermonde matrix),其元素为 Λik=λik1\mathbf{\Lambda}_{ik} = \lambda_i^{k-1},其中 λi\lambda_iDCG 移位算子的第 ii 个特征值。
    • Λ\mathbf{\Lambda}^\topΛ\mathbf{\Lambda} 的转置。
    • X^\widehat{\mathbf{X}}^\ell 是滤波操作后的输出。 为了增强表达能力,滤波器矩阵 H\mathbf{H} 的构造方式如下: H=CBˉ=C(BB2) \mathbf { H } = \mathbf { C } \bar { \mathbf { B } } = \mathbf { C } \left( \frac { \mathbf { B } } { \| \mathbf { B } \| _ { 2 } } \right) 符号解释:
    • CRN×m\mathbf{C} \in \mathbb{R}^{N \times m} 是系数矩阵 (coefficient matrix),它生成位置特定的滤波器。由于每个节点对应序列中的一个位置, C\mathbf{C} 可以看作是时间的函数。
    • BCm×(K+1)\mathbf{B} \in \mathbb{C}^{m \times (K+1)} 是基矩阵 (basis matrix)。
    • mm 是基向量的数量,决定了基的维度。
    • Bˉ\bar{\mathbf{B}} 是归一化后的基矩阵。
    • B2\|\mathbf{B}\|_2 表示沿每行进行 L2 范数归一化,以提高数值稳定性。
  3. 残差连接与归一化: 在滤波操作之后,应用残差连接 (residual connection)、dropout (Dropout) 和层归一化 (Layer Normalization) 以防止过拟合。 F=LayerNorm(X+Dropout(X^)) \mathbf { F } ^ { \ell } = \mathrm { LayerNorm } ( \mathbf { X } ^ { \ell } + \mathrm { Dropout } ( \widehat { \mathbf { X } } ^ { \ell } ) ) 符号解释:

    • X\mathbf{X}^\ell 是当前编码块的输入。
    • X^\widehat{\mathbf{X}}^\ell 是滤波层的输出。
    • F\mathbf{F}^\ell 是滤波器层最终的输出。

4.2.2.2. 前馈层 (Feed Forward Layer)

在滤波器层之后,使用一个前馈网络 (Feed Forward Network, FFN) 来引入非线性。 F^=FFN(F)=(GELU(FW1+b1))W2+b2 \widehat { \mathbf { F } } ^ { \ell } = \mathrm { FFN } ( \mathbf { F } ^ { \ell } ) = ( \mathrm { GELU } ( \mathbf { F } ^ { \ell } \mathbf { W } _ { 1 } ^ { \ell } + \mathbf { b } _ { 1 } ^ { \ell } ) ) \mathbf { W } _ { 2 } ^ { \ell } + \mathbf { b } _ { 2 } ^ { \ell } 符号解释:

  • F\mathbf{F}^\ell 是滤波器层的输出。

  • W1,W2RD×D\mathbf{W}_1^\ell, \mathbf{W}_2^\ell \in \mathbb{R}^{D \times D} 是可学习的权重矩阵。

  • b1,b2RD\mathbf{b}_1^\ell, \mathbf{b}_2^\ell \in \mathbb{R}^{D} 是可学习的偏置向量。

  • GELU()\mathrm{GELU}(\cdot) 是高斯误差线性单元 (Gaussian Error Linear Unit) 激活函数,用于引入非线性。

  • F^\widehat{\mathbf{F}}^\ell 是前馈网络的输出。

    与滤波器层类似,再次应用 dropout、残差连接和层归一化,以得到第 \ell 层编码块的最终输出。 X+1=LayerNorm(F+Dropout(F^)) \mathbf { X } ^ { \ell + 1 } = \mathrm { LayerNorm } ( \mathbf { F } ^ { \ell } + \mathrm { Dropout } ( \widehat { \mathbf { F } } ^ { \ell } ) ) 符号解释:

  • X+1\mathbf{X}^{\ell+1} 是当前编码块的最终输出,也将作为下一个编码块的输入。

4.2.3. 预测层 (Prediction Layer)

经过 LL 个时变编码块的处理后,模型的最终序列表示为 XNL\mathbf{X}_N^L (即最后一个时间步的输出)。然后,计算用户对整个物品集 ν\nu 中每个物品的偏好得分。 y^v=p(vS+1=vS)=EvXNL \hat { y } _ { v } = p ( v _ { | S | + 1 } = v | S ) = \mathbf { E } _ { v } ^ { \top } \mathbf { X } _ { N } ^ { L } 符号解释:

  • y^v\hat{y}_v 是模型预测的物品 vv 作为下一个交互物品的概率或得分。
  • Ev\mathbf{E}_v 是物品 vv 的嵌入向量。
  • Ev\mathbf{E}_v^\topEv\mathbf{E}_v 的转置。
  • XNL\mathbf{X}_N^L 是最终编码器层输出的序列表示中最后一个时间步的嵌入向量。

4.2.4. 模型训练 (Model Training)

模型使用交叉熵损失 (cross-entropy loss) Lce\mathcal{L}_{\mathrm{ce}} 和基矩阵 B\mathbf{B} 上的正交正则化项 (orthogonal regularization term) Lortho\mathcal{L}_{\mathrm{ortho}} 进行优化。 L=logexp(y^g)vVexp(y^v)Lce+α(BrealBrealIF2+BimagBimagIF2)Lortho \mathcal { L } = \underbrace { - \log \frac { \exp ( \hat { y } _ { g } ) } { \sum _ { v \in \mathcal { V } } \exp ( \hat { y } _ { v } ) } } _ { \mathcal { L } _ { \mathrm { ce } } } + \alpha \cdot \underbrace { \left( \left\| \mathbf { B } _ { \mathrm { real } } \mathbf { B } _ { \mathrm { real } } ^ { \top } - \mathbf { I } \right\| _ { F } ^ { 2 } + \left\| \mathbf { B } _ { \mathrm { imag } } \mathbf { B } _ { \mathrm { imag } } ^ { \top } - \mathbf { I } \right\| _ { F } ^ { 2 } \right) } _ { \mathcal { L } _ { \mathrm { ortho } } } 符号解释:

  • L\mathcal{L} 是总损失函数。
  • Lce\mathcal{L}_{\mathrm{ce}} 是交叉熵损失,用于衡量预测得分与真实标签之间的差异。
  • gg 是真实的下一个交互物品 (ground-truth item)。
  • y^g\hat{y}_g 是模型预测的真实物品 gg 的得分。
  • vVexp(y^v)\sum_{v \in \mathcal{V}} \exp(\hat{y}_v) 是对所有物品得分指数化后的总和,用于 softmax 归一化。
  • Lortho\mathcal{L}_{\mathrm{ortho}} 是正交正则化项,用于确保基矩阵 B\mathbf{B} 的实部和虚部近似正交。
  • Breal\mathbf{B}_{\mathrm{real}}Bimag\mathbf{B}_{\mathrm{imag}} 分别表示基矩阵 B\mathbf{B} 的实部和虚部。
  • Breal\mathbf{B}_{\mathrm{real}}^\topBimag\mathbf{B}_{\mathrm{imag}}^\top 分别表示其转置。
  • I\mathbf{I} 是单位矩阵 (identity matrix)。
  • F2\| \cdot \|_F^2 表示 Frobenius 范数的平方。
  • α\alpha 是控制正则化强度的超参数。

4.2.5. 时间复杂度 (Time Complexity)

假设 nn 是输入序列的长度,dd 是每个输入向量的维度。

  • 自注意力:时间复杂度为 O(nd2+n2d)O(n d^2 + n^2 d)。其中 O(nd2)O(n d^2) 用于计算键 (key)、查询 (query) 和值 (value) 矩阵, O(n2d)O(n^2 d) 用于计算注意力分数并将其应用于值矩阵。

  • 时变卷积滤波器:时间复杂度为 O(n2m+n2d)O(n^2 m + n^2 d)。其中 O(n2m)O(n^2 m) 用于计算滤波器抽头 H\mathbf{H}O(n2d)O(n^2 d) 用于对输入信号应用 GFT 并与滤波器抽头相乘。由于 mnm \le n,这个复杂度可以简化为 O(n3+n2d)O(n^3 + n^2 d)

  • 推理时:由于时变卷积滤波器是一个线性算子,Gnv\mathbf{G}_{nv} 无需在每次推理时都计算。它可以在训练后预先计算,从而将推理的时间复杂度降低到 O(n2d)O(n^2 d)

    时间复杂度对比显示,自注意力和时变图滤波器之间的复杂度差异取决于 nndd 的相对大小,这决定了哪个项占主导地位。但 TV-Rec 在推理时具有显著优势。

4.3. 理论依据 (Theoretical Justification for DCG-Based Filtering)

为了进行谱滤波,模型需要应用 GFT,这要求图移位算子(邻接矩阵或拉普拉斯矩阵)可进行特征分解。然而,将序列建模为线图时,其邻接矩阵通常是亏秩 (defective) 且不可对角化 (non-diagonalizable) 的。

为了解决这个问题,TV-Rec 将序列建模为一个有向循环图 (DCG),它与线图的区别在于增加了一条连接最后一个节点到第一个节点的边。这条额外边使得邻接矩阵成为循环矩阵 (circulant matrix),从而确保了可对角化性,并允许在傅里叶域进行谱滤波。

然而,新增的边引入了从未来到过去的逆向连接,这可能导致逆向时间方向的信息泄漏。为了防止这种逆向信息流,同时保持谱域处理的可行性,TV-Rec 采用了一种填充策略。具体来说,它将输入序列 xRN\mathbf{x} \in \mathbb{R}^NKK 个零进行填充,形成扩展向量: x~=[Ξ0x]RN+K \tilde { \mathbf { x } } = \left[ \mathbf { \Xi } _ { \mathbf { 0 } } ^ { \mathbf { x } } \right] \in \mathbb { R } ^ { N + K } 符号解释:

  • x\mathbf{x} 是原始序列向量。
  • 0RK\mathbf{0} \in \mathbb{R}^K 是一个零向量。
  • x~\tilde{\mathbf{x}} 是填充后的扩展向量。 然后,使用表示 DCG 的循环移位算子 SR(N+K)×(N+K)\mathbf{S} \in \mathbb{R}^{(N+K) \times (N+K)} 来定义一个 KK 阶的谱滤波器: g(S)=k=0KhkSk g ( \mathbf { S } ) = \sum _ { k = 0 } ^ { K } h _ { k } \mathbf { S } ^ { k } 符号解释:
  • hkh_k 是滤波器系数。
  • KK 是滤波器的阶数。 滤波后的输出 y~\tilde{\mathbf{y}} 通过将滤波器应用于填充后的输入计算得到: y~=g(S)x~ \tilde { \mathbf { y } } = g ( \mathbf { S } ) \tilde { \mathbf { x } } 通过提取 y~\tilde{\mathbf{y}} 的前 NN 个元素,可以得到与将相同滤波器应用于建模为线图的原始序列 x\mathbf{x} 相同的结果: y=[y~]1:N \mathbf { y } = [ \tilde { \mathbf { y } } ] _ { 1 : N } 符号解释:
  • 1:N 表示取向量的前 NN 个元素。 这种等价性之所以成立,是因为 x~\tilde{\mathbf{x}} 的最后 KK 个条目是零。尽管循环矩阵 S\mathbf{S} 执行循环移位,但滤波器只涉及 SSKK 阶幂,因此这些零条目不会影响前 NN 个输出值。这有效地阻止了任何可能导致逆向泄漏的循环信息流。

因此,在零填充 DCG 上进行谱滤波,提供了与在线图上进行因果卷积 (causal convolution) 等效的正确滤波输出,同时受益于循环矩阵的计算效率和可对角化性。

4.4. 位置编码的等效性 (Equivalence of Positional Encoding and Graph Fourier Basis)

TV-Rec 通过在 DCG 上进行谱分解,固有地捕捉位置信息,这与 Transformer 中显式位置编码的作用相似。

  • Transformer 中的正弦位置编码:使用正弦和余弦函数来编码绝对位置,生成具有不同频率的周期信号集合,作为编码位置变化的基。
  • TV-Rec 中的图傅里叶基TV-Rec 定义移位算子 S\mathbf{S}DCG 的邻接矩阵。其 GFT 矩阵 U\mathbf{U} 的元素为: Ukn=1Nei2πkn/N=1N[cos(2πknN)isin(2πknN)] { \bf U } _ { k n } = \frac { 1 } { \sqrt { N } } e ^ { - i 2 \pi k n / N } = \frac { 1 } { \sqrt { N } } \left[ \cos \left( \frac { 2 \pi k n } { N } \right) - i \sin \left( \frac { 2 \pi k n } { N } \right) \right] 符号解释:
    • Ukn\mathbf{U}_{kn}GFT 矩阵 U\mathbf{U} 的第 kk 行第 nn 列元素。
    • NN 是序列长度。
    • ee 是自然对数的底。
    • ii 是虚数单位。 这对应于离散傅里叶变换 (Discrete Fourier Transform, DFT) 的基,它是一组跨越 RN\mathbb{R}^N(或 CN\mathbb{C}^N)的正交复指数。

尽管 Transformer 位置编码的频率是按对数尺度采样的,而 GFT 的频率是线性间隔的,但两组基函数都由三角函数组成。因此,它们跨越了相同长度为 NN 的周期信号空间。TV-Rec 将输入序列投影到 GFT 域,然后通过 GFT 逆变换重构,从而隐式地编码了基于频率的位置变化。时变滤波器随后根据位置调制这些频率分量,使得显式位置嵌入变得不必要。

5. 实验设置

5.1. 数据集

实验使用了六个用于序列推荐的基准数据集,这些数据集在稀疏度和领域上有所不同。数据预处理遵循 [44, 45] 的程序,将所有评论和评分视为隐式反馈。

以下是原文 Table 6 的数据统计:

# Users # Items # Interactions Avg. Length Sparsity
Beauty 22,363 12,101 198,502 8.9 99.93%
Sports 25,598 18,357 296,337 8.3 99.95%
Yelp 30,431 20,033 316,354 10.4 99.95%
LastFM 1,090 3,646 52,551 48.2 98.68%
ML-1M 6,041 3,417 999,611 165.5 95.16%
Foursquare 1,083 9,989 179,468 165.7 98.34%

数据集描述:

  • Amazon BeautySports:来自 [22] 的亚马逊产品评论数据集,广泛用于 SR。分别使用“Beauty”和“Sports and Outdoors”类别。

  • Yelp:热门的商业推荐数据集。由于其规模庞大,使用了 2019 年 1 月 1 日之后的记录。

  • LastFM:包含艺术家收听记录,用于向用户推荐音乐家。

  • ML-1M [11]:MovieLens 电影推荐数据集,因其详细的用户交互数据而常用于评估推荐算法。

  • Foursquare:提供用户在纽约市 10 个月(2012 年 4 月至 2013 年 2 月)的签到记录。

    选择这些数据集是为了覆盖不同领域(电商、评论、音乐、电影、签到)和不同稀疏度、序列长度的场景,以全面评估模型的性能和泛化能力。例如,BeautySports 的平均序列长度较短,而 ML-1MFoursquare 的平均序列长度较长,这有助于测试模型在处理长程依赖方面的能力。

5.2. 评估指标

为了评估推荐性能,使用了广泛采用的 Top-rr 指标:HR@r (Hit Rate,命中率) 和 NDCG@r (Normalized Discounted Cumulative Gain,归一化折损累计增益),其中 rr 设置为 5、10 和 20。为了公平比较,在整个物品集上评估排序结果,不进行负采样 [19]。

5.2.1. 命中率 (Hit Rate, HR@r)

  1. 概念定义HR@r 衡量的是在推荐列表的前 rr 个位置中,是否存在用户下一个实际交互的物品(真实物品)。如果真实物品出现在推荐列表的前 rr 个位置中,则算作一次“命中”。HR@r 越高,表示模型在推荐列表中包含用户感兴趣物品的能力越强。
  2. 数学公式HR@r=Number of users for whom the ground-truth item is in top-rTotal number of users \mathrm{HR@r} = \frac{\text{Number of users for whom the ground-truth item is in top-r}}{\text{Total number of users}}
  3. 符号解释
    • Number of users for whom the ground-truth item is in top-r\text{Number of users for whom the ground-truth item is in top-r}:真实物品出现在前 rr 个推荐位置的用户数量。
    • Total number of users\text{Total number of users}:总用户数量。

5.2.2. 归一化折损累计增益 (Normalized Discounted Cumulative Gain, NDCG@r)

  1. 概念定义NDCG@r 是一种衡量推荐列表质量的指标,它考虑了物品的相关性以及其在列表中的位置。相关性越高的物品排名越靠前,NDCG@r 的值就越高。它通过对推荐列表中物品的相关性进行折损(即排名靠前的物品赋予更高的权重),并与理想排序(IDCG)进行归一化来计算。在序列推荐中,通常认为用户下一个交互的真实物品是唯一高度相关的物品,其他物品相关性为 0。
  2. 数学公式NDCG@r=DCG@rIDCG@r \mathrm{NDCG@r} = \frac{\mathrm{DCG@r}}{\mathrm{IDCG@r}} 其中,对于单个真实物品的场景: DCG@r=1log2(rankg+1)if ground truth g is in top-r, else 0 \mathrm{DCG@r} = \frac{1}{\log_2(\text{rank}_g+1)} \quad \text{if ground truth } g \text{ is in top-r, else } 0 IDCG@r=1log2(1+1)=1if ground truth exists \mathrm{IDCG@r} = \frac{1}{\log_2(1+1)} = 1 \quad \text{if ground truth exists} 因此,对于只有一个真实物品且相关性为 1 的情况,NDCG@r 可以简化为: NDCG@r=1log2(rankg+1)if ground truth g is in top-r, else 0 \mathrm{NDCG@r} = \frac{1}{\log_2(\text{rank}_g+1)} \quad \text{if ground truth } g \text{ is in top-r, else } 0
  3. 符号解释
    • DCG@r\mathrm{DCG@r} (Discounted Cumulative Gain):折损累计增益,衡量推荐列表的实际增益。
    • IDCG@r\mathrm{IDCG@r} (Ideal Discounted Cumulative Gain):理想折损累计增益,是最佳推荐列表所能达到的最大 DCG 值。
    • rankg\text{rank}_g:真实物品 gg 在推荐列表中的排名。如果真实物品 gg 未出现在前 rr 个位置,则 DCG@rNDCG@r 为 0。
    • log2(rankg+1)\log_2(\text{rank}_g+1):折损因子,用于降低排名靠后的物品的权重。

5.3. 对比基线

论文将 TV-Rec 与以下十种序列推荐基线方法进行了比较:

  • Caser [30]:基于 CNN 的模型,通过水平和垂直卷积捕捉复杂的局部用户模式。

  • GRU4Rec [13]:基于 GRU (Gated Recurrent Unit) 的模型,利用 GRU 捕捉用户交互中的时间动态和模式。

  • SASRec [17]:基于 Transformer 的模型,采用多头自注意力机制 (multi-head self-attention) 捕捉序列中的长程依赖。

  • BERT4Rec [29]:基于双向 Transformer 的模型,使用掩码项目训练方案 (masked item training scheme) 进行序列推荐。

  • NextItNet [40]:基于 CNN 的模型,使用膨胀一维卷积 (dilated 1D convolutions) 和残差连接捕捉用户行为序列中的短程和长程依赖。

  • FMLPRec [45]:使用傅里叶变换 (Fourier Transform) 和可学习滤波器 (learnable filters) 的全 MLP (Multi-layer Perceptron) 架构,以减少噪声并增强序列表示。

  • DuoRec [23]:采用模型级数据增强 (model-level augmentation) 和语义正样本 (semantic positive samples) 进行对比学习 (contrastive learning),以 SASRec 作为基础模型。

  • LRURec [41]:使用线性循环单元 (linear recurrent units),旨在实现快速推理和递归并行化。

  • AdaMCT [16]:混合模型,结合 Transformer 的注意力机制 (long-term user preferences) 和局部卷积滤波器 (local convolutional filters) (short-term user preferences)。

  • BSARec [28]:混合模型,结合 Transformer 的自注意力机制和傅里叶变换的应用卷积,以解决自注意力的一些局限性。

    此外,为了进一步验证 TV-Rec 的有效性,还与三种代表性的基于 GNN 的序列推荐模型进行了比较:

  • SR-GNN [33]:基于会话的推荐模型,将用户会话转换为图并应用 GNN 捕捉物品转换关系。

  • GC-SAN [35]:基于 GNN 的模型,为每个序列动态构建图,并结合 GNN 和自注意力来建模局部和长程物品依赖。

  • GCL4SR [43]:基于 GNN 的模型,构建全局物品转换图,并使用图对比学习来整合全局和局部上下文。

    这些基线模型涵盖了当前序列推荐领域的主流方法,包括基于 RNNTransformerCNN、混合架构和 GNN 的模型,具有很强的代表性。

6. 实验结果与分析

6.1. 核心结果分析

6.1.1. 总体性能 (Overall Performance)

以下是原文 Table 2 的结果,展示了不同方法在标准序列推荐任务上的性能比较:

DatasetsMetricCaser GRU4Rec SASRec BERT4Rec NextItNet FMLPRec DuoRec LRURec AdaMCT BSARecTV-RecImprov.
BeautyHR@5 HR@100.0149 0.02530.0170 0.03070.0368 0.05740.0491 0.07420.0549 0.07790.0423 0.06390.0680 0.09440.0648 0.08890.0675 0.09250.0714 0.0721 0.09900.98%
0.10172.73%
HR@200.04160.04990.08600.10790.11000.09490.12790.11970.12990.1393 0.14030.72%
NDCG@50.00890.01050.02410.03180.03920.02720.04850.04720.04890.0501 0.05132.40%
NDCG@10 0.01220.01490.0307 0.03990.04670.03410.0570 0.05490.05690.0590 0.06083.05%
NDCG@20 0.01640.0198 0.03790.04840.05470.04190.06540.06270.06640.0691 0.04220.07052.03%
HR@50.00910.01310.0215 0.02790.03110.02220.0390 0.03510.03860.04312.13%
HR@100.01470.02110.03190.04340.04580.03580.0549 0.05020.05440.06230.06351.93%
HR@200.02530.03470.04850.06580.06820.05490.07790.06980.07690.0865 0.08801.73%
NDCG@50.00640.00840.0142 0.01820.02120.01480.0276 0.02420.02720.0296 0.02980.68%
NDCG@10 0.00820.01100.0175 0.02170.02320.0260 0.03160.01910.03280.02910.03220.0361 0.04220.03630.55%
NDCG@20 0.01090.01440.02880.02390.0385 0.03400.03790.04250.71%
HR@50.0131 0.01370.01650.02430.02470.01950.0277 0.02400.02390.02600.02904.69%
HR@100.02300.02400.02670.04110.04230.03130.04500.03960.04040.0446 0.04745.33%
HR@200.03880.0412 0.04450.06810.06940.0518 0.07300.06560.06700.07180.07776.44%
YelpNDCG@50.00800.00860.0103 0.01540.01510.0122 0.01790.01510.01530.01620.01863.91%
NDCG@10 0.01120.01190.01350.02080.02080.01600.02340.02010.02060.0222 0.02454.70%
NDCG@20 0.01510.01620.01800.02750.02760.02110.0304 0.02660.02720.0290 0.03215.59%
HR@50.03030.03390.04220.03580.04310.04500.04040.03580.04680.0505 0.059618.02%
HR@10 0.04590.03940.06700.06060.06240.06700.05870.05320.07160.06790.085319.13%
HR@20 NDCG@50.06060.0550 0.09720.09080.09360.1000 0.08720.08070.10180.11190.12027.42%
0.02220.02310.03010.02130.02640.03210.02760.02570.03300.0348 0.040215.52%
NDCG@10 0.02690.02490.03820.02910.03250.03920.03360.03120.04090.04050.048418.34%
NDCG@20 0.03060.02880.04580.03660.04020.04750.04070.03800.04850.0514 0.057211.28%
HR@5 0.10330.12250.14060.16510.18580.13295.06%
ML-1MHR@100.16710.21990.24420.27240.18210.1916 0.28480.1773 0.25600.1909 0.27980.2013 0.29041.97%
HR@200.25980.1925 0.29060.32500.34590.38530.2089 0.32120.2690
NDCG@50.37570.38860.36470.38440.40794.97%
0.06630.07790.09200.10770.12640.08610.12260.13390.11850.1286 0.13712.39%
NDCG@10 0.0868 NDCG@20 0.11010.10060.11740.13320.15430.1105 0.15070.16400.14380.15730.16581.10%
Foursquare0.12530.14380.15880.18290.13880.17760.19010.17110.18360.19552.84%
HR@50.01390.01480.01390.01390.01290.01200.01390.01480.01570.0148 0.017511.46%
HR@10 HR@20 0.02680.01750.01570.01850.0157 0.02310.0175 0.0175 0.0203 0.0240

分析:

  • TV-Rec 的显著领先:从 Table 2 可以看出,TV-Rec 在所有六个数据集上均超越了所有基线方法,平均准确率提升了 7.49%。这强有力地验证了 时变卷积滤波器 的有效性。
  • 突出性能提升:在 LastFM 数据集上,TV-Rec 取得了特别显著的提升,HR@10 提升了 19.13%,NDCG@10 提升了 18.34%。在 Foursquare 上也表现出色,HR@10 提升了 22.17%,NDCG@10 提升了 23.85%。这表明 TV-Rec 在这些数据集上对复杂时间模式的捕捉能力尤其强大。
  • 在大规模数据集上的表现:即使在 ML-1M 这样的大规模数据集上,TV-Rec 仍然实现了 5.06% 的 HR@5 和 2.39% 的 NDCG@5 提升,证明了其可扩展性和泛化能力。
  • 电商数据集上的稳定优势:在 BeautySports 等电商数据集上,虽然提升幅度相对较小(HR@5 分别提升 0.98% 和 2.13%),但这种一致的优势仍然表明了 TV-Rec 的稳健性。
  • 与先进基线的比较AdaMCTBSARec 等结合了卷积和自注意力的混合方法,在许多情况下表现强劲,BSARec 常常位居第二。ML-1M 上的 LRURecYelp 上的 DuoRec 也显示出竞争力。然而,TV-Rec 仍能以显著的优势超越这些先进基线。

6.1.2. 长序列建模性能 (Long-Range Sequential Recommendation Results)

为了评估 TV-Rec 在长程依赖上的表现,实验在 ML-1MFoursquare 数据集上进行了额外测试,将最大序列长度 NN 设置为 200。

以下是原文 Table 3 的结果,展示了长序列建模性能:

DatasetsMetricCaser GRU4Rec SASRec BERT4Rec NextItNet FMLPRec DuoRec LRURec AdaMCT BSARecTV-RecImprov.
ML-1MHR@50.11090.15180.15580.17300.19780.13970.19300.22330.17600.19490.22550.99%
HR@100.18690.23740.23990.25730.28820.22960.27950.3 50.26190.29170.32321.80%
HR@200.29420.34550.35510.36950.39700.34620.38540.42050.36950.40050.43062.40%
NDCG@50.06960.09810.10140.11470.13340.08850.12920.15160.11670.13270.15723.69%
NDCG@10 0.09390.12560.12850.14180.16270.11750.15710.18200.14430.16390.18863.63%
NDCG@20 0.12090.15280.15760.17010.19010.14680.18380.20790.17150.19130.21573.75%
HR@50.01390.01200.01110.01020.00830.01200.01200.01290.01200.01290.01486.47%
HR@100.01940.01570.01750.01570.01660.01480.01940.01390.01570.01750.02129.28%
HR@200.02310.01940.02950.02400.02590.01940.02860.01850.03050.03050.03235.90%
NDCG@50.01050.00990.00850.00780.00680.00870.00780.00990.00940.00890.0082.86%
FoursquareNDCG@10 0.01230.01110.01060.00960.00950.00960.01020.01020.01060.0103001294.88%
NDCG@20 0.01330.01200.01360.01170.01180.01080.01260.01140.01420.01350.015811.27%

分析:

  • 长序列任务的卓越表现TV-Rec 在长序列 SR 任务中再次超越所有基线模型,平均提升 4.74%。尤其在 NDCG 指标上表现突出,例如 FoursquareNDCG@20 提升高达 11.27%。
  • 对长序列的适应性:这表明 TV-Rec时变滤波器 能够有效处理更长的用户交互历史,保持推荐的准确性,这对于建模用户长期演变的偏好至关重要。
  • LRURec 的比较LRURec 因其针对长序列设计的线性循环单元,在 ML-1M 上表现出色,是基线中的最强竞争者。然而 TV-Rec 仍然能超越它,证明了其方法的优越性。
  • 对扩展交互历史的有效性:这些结果强调了 TV-Rec 在处理数百个交互序列时仍能维持和提升推荐准确度的能力。

6.1.3. 与 GNN-based 方法的比较 (Comparison to GNN-based Methods)

以下是原文 Table 4 的结果,展示了 TV-RecGNN-based 方法的性能比较:

MethodsBeautySportsYelpLastFMML-1MFoursquare
H@20N@20H@20N@20H@20N@20H@20N@20H@20N@20H@20N@20
TV-Rec0.14030.07050.08800.04250.07770.03210.12020.05720.40790.19550.03140.0176
SR-GNN0.08470.03740.05170.02240.06090.02520.08720.03790.29400.13900.02220.0137
GC-SAN0.10590.05460.06080.02890.06350.02600.08070.03940.32550.16110.021200131
GCL4SR0.12060.06010.07440.03560.06840.02760.09080.03980.33810.16070.01850.0123

分析:

  • TV-Rec 优于 GNN-based 模型TV-Rec 在所有数据集上始终优于 SR-GNNGC-SANGCL4SR 这些 GNN-based 的序列推荐模型。
  • 设计优势的验证:这证实了 TV-Rec时变滤波 设计的优势。TV-Rec 直接在序列位置上操作,而非通过物品转换图进行消息传递,这种方式能够更有效地表达时间依赖性。
  • 非 GNN 图范式:这表明 TV-Rec 提供了一种连接 GSP 和序列推荐的非 GNN 图范式,在处理序列数据时可以比传统的 GNN 方法更高效和有效。

6.1.4. 消融实验 (Ablation Studies)

以下是原文 Table 5 的结果,展示了消融实验:

MethodsBeautySportsYelpLastFMML-1MFoursquare
H@20 N@20H@20 N@20H@20 N@20H@20 N@20H@20 N@20H@20 N@20
TV-Rec0.14030.07050.0880 0.04250.0777 0.03210.1202 0.05720.4079 0.19550.0314 0.0176
(1) Positional Embedding0.1408 0.07020.0842 0.03960.0763 0.03200.1018 0.04960.4017 0.19360.0313 0.0160
(2) Basic Graph Filter0.1402 0.06920.0857 0.04080.0747 0.03070.1165 0.05430.3974 0.19330.0212 0.0113
(3) Identity Basis0.1400 0.06980.0851 0.04100.0765 0.03170.1138 0.05390.4015 0.19300.0277 0.0141
(4) Basis Normalization0.1336 0.06890.0841 0.04120.0634 0.02640.0963 0.04180.3985 0.19120.0305 0.0144

分析: 消融实验验证了 TV-Rec 各个设计选择的有效性:

  1. 显式位置嵌入 (Positional Embedding):在 TV-Rec 中添加可学习的位置嵌入后,性能并未一致提升,甚至在某些数据集上有所下降(如 SportsLastFM)。这证实了 TV-Rec时变滤波器 固有地捕捉位置特定信息的能力,使得显式位置编码变得不必要。

  2. 基本图滤波器 (Basic Graph Filter):将 时变滤波器 替换为基本图滤波器后,模型性能显著下降。这强调了 时变滤波器 能够适应序列中不同阶段模式的捕捉能力,优于固定滤波器。

  3. 恒等基 (Identity Basis):将基矩阵 B\mathbf{B} 设置为恒等矩阵(即 H\mathbf{H} 等于 C\mathbf{C})后,模型性能有所下降。这表明 基矩阵 B\mathbf{B} 的学习是必要的,它提供了更丰富的滤波器构造方式。

  4. 基归一化 (Basis Normalization):移除基矩阵 B\mathbf{B} 的归一化后,模型性能在大部分数据集上(尤其是 LastFMYelp)有所下降。这证明了归一化对数值稳定性和模型性能的贡献。

    总体而言,这些消融实验结果表明 TV-Rec 的每个组件都对其优越性能做出了贡献。

6.1.5. 参数敏感性 (Parameter Sensitivity)

6.1.5.1. 对基向量数量 mm 的敏感性

下图(原文 Figure 3)展示了基向量数量 mm 对模型性能的敏感性:

Figure 3: Sensitivity to the number of basis vectors \(m\) .

分析:

  • mm 决定了基矩阵的维度,影响模型的表达能力和计算成本。
  • Beauty 数据集上,性能在 m=32m=32 时达到峰值,而在 mm 值较小时急剧下降,表明该数据集需要更丰富的表示。
  • LastFM 数据集上,性能在 m=8m=8 时达到最佳,随着 mm 增大而下降,这暗示对于该数据集而言,紧凑的表示已经足够。

6.1.5.2. 对 dropout 率 pp 的敏感性

下图(原文 Figure 4)展示了 dropout 率 pp 对模型性能的敏感性:

Figure 4: Sensitivity to dropout rate \(p\)

分析:

  • dropout 率影响模型的泛化能力。

  • Sports 数据集上,较大的 pp 值能提升性能,表明该数据集可能存在过拟合风险,需要更强的正则化。

  • Foursquare 数据集上,较小的 pp 值表现更好,这可能因为该数据集的数据多样性较高,无需过强的 dropout

    补充的参数敏感性分析在附录 E 中提供了更详细的结果:

下图(原文 Figure 8)是附录中对基向量数量 mm 的敏感性分析,扩展了 mm 的范围:

Figure 8: Sensitivity to the number of basis vectors \(m\) . 该图像是论文中图8的图表,展示了基向量数量mm对六个数据集(Beauty, Sports, Yelp, LastFM, ML-1M, Foursquare)中NDCG@20和HR@20指标的敏感性分析,柱状图代表NDCG@20,折线图代表HR@20。 分析: 扩展的实验范围进一步印证了 mm 对不同数据集的最佳值是不同的。对于 Beautym=32m=32 最佳,小于此值性能显著下降。对于 LastFMm=8m=8 最佳,增大 mm 反而导致性能下降,这进一步支持了不同数据集复杂度不同,所需的基向量数量也不同的结论。

下图(原文 Figure 9)是附录中对 dropout 率 pp 的敏感性分析,扩展了 pp 的范围:

Figure 9: Sensitivity to dropout rate \(p\) 该图像是图表,展示了TV-Rec模型对参数p(dropout率)的灵敏度分析,包含六个数据集(Beauty、Sports、Yelp、LastFM、ML-1M、Foursquare)的NDCG@20和HR@20随p变化的趋势。 分析: 扩展的实验范围同样印证了 pp 对不同数据集的最佳值是不同的。对于 Sports,较高的 pp 值带来更好的性能,而对于 Foursquare,较低的 pp 值表现更佳。这支持了数据多样性较低的数据集(可能更容易过拟合)需要更高 dropout 率的结论。

6.1.5.3. 对正交正则化系数 α\alpha 的敏感性

下图(原文 Figure 10)是附录中对正交正则化系数 α\alpha 的敏感性分析:

Figure 10: Sensitivity to orthogonal regularization coefficient \(\\alpha\) . 分析:

  • α\alpha 控制正交正则化的强度。
  • 对于 LastFM,性能在 α=103\alpha = 10^{-3} 时达到最佳,过小的 α\alpha 会显著降低性能,表明足够的正交正则化对于维持滤波器多样性和防止过拟合是关键。
  • 对于 SportsYelp,最佳性能出现在较低的 α\alpha 值,过大的 α\alpha 会导致性能下降。这可能意味着过强的正则化会过度约束滤波器参数,限制模型适应数据分布的能力。

6.1.5.4. 对滤波器阶数 KK 的敏感性

以下是原文 Table 8 的结果,展示了滤波器阶数 KK 的敏感性:

KBeautySportsYelpLastFMML-1MFoursquare
H@20N@20H@20N@20H@20N@20H@20N@20H@20N@20H@20N@20
30.13800.06900.08390.04050.07310.02950.10460.04430.39010.18430.02400.0116
50.13640.06800.08490.04070.07520.03080.11470.04900.38230.18140.02680.0116
100.13780.06880.08530.04100.07410.03030.11650.05320.39220.18980.02680.0139
250.13710.06840.08540.04090.07740.03230.12480.05460.39570.18910.02950.0163
500.14030.07050.08800.04250.07770.03210.12020.05720.40790.19550.03140.0176

分析:

  • 滤波器阶数 KK 类似于 CNN 模型中的核大小。
  • 除了 YelpLastFM,将 KK 设置为 50(即与最大序列长度 NN 相等)在所有数据集上都取得了最佳性能。
  • 这支持了将 移位深度 (shift depth) KK 与序列长度 NN 对齐的假设,能够让模型捕捉更全面的全局上下文,从而提高推荐质量。

6.1.6. 滤波器行为分析与案例研究 (Analyzing Filter Behavior and Case Study)

为了理解 时变滤波器 优于基本固定图滤波器(Eq. 3)的原因,论文通过可视化和案例研究分析了它们学习到的表示。

下图(原文 Figure 5)展示了 LastFM 数据集上学习到的图滤波器可视化:

Figure 5: Visualization of learned graph filters on LastFM. The \(\\mathbf { X }\) -axis denotes the number of shifts in graph convolution, while the y-axis represents individual nodes, with higher numb… 分析:

  • 固定滤波器:如图 5(a) 所示,基本图滤波器在所有节点(时间点)上应用相同的权重,更强调近期的物品(较低的移位次数)。

  • 时变滤波器:如图 5(b) 所示,时变滤波器 在序列的不同位置应用不同的滤波器。它在序列早期阶段(较低的节点索引)对各移位次数的权重相对相似,反映了模型对整体模式的关注。随着序列的推进(节点索引增加,表示更近的时间点),滤波器的权重逐渐向近期物品(较低的移位次数)倾斜,从而更准确地捕捉时间上的变化。

  • 优势:这种适应性使得 时变滤波器 能够兼顾序列早期的长程偏好和近期行为的动态变化,从而提升整体性能。

    下图(原文 Figure 6)展示了 ML-1M 上的案例研究:

    Figure 6: Case Study on ML-1M. 分析:

  • 基本图滤波器:在 ML-1M 的案例研究中,基本图滤波器仅关注用户近期交互的“西部片”兴趣。

  • 时变滤波器时变滤波器 不仅捕捉了用户近期的“西部片”兴趣,还捕捉到了用户更广泛的“喜剧片”偏好。这表明 时变滤波器 能够更好地理解用户兴趣的动态演变和多样性,而不仅仅局限于最近的行为。

  • 结论:这些发现证实了在不同时间位置应用不同滤波操作对于有效序列推荐的重要性。

6.1.7. 模型复杂度和运行时分析 (Model Complexity and Runtime Analyses)

以下是原文 Figure 7 的结果,展示了 Beauty 数据集上的模型推理时间与 NDCG@20 性能对比:

Figure 7: Comparison of model inference time and \({ \\mathrm { N D C G } } @ 2 0\) on Beauty. The size of each circle corresponds to the number of parameters. 分析:

  • 性能与效率的平衡:如图 7 所示,TV-Rec 在性能和计算效率之间达到了最佳平衡。它在实现最高 NDCG@20 的同时,拥有最快的推理时间。

  • 与混合模型的比较:相比 AdaMCTBSARec 等结合卷积和自注意力的混合模型,TV-Rec 具有更快的推理速度和更少的参数量。

  • 与纯自注意力模型的比较:与仅使用自注意力(如 SASRecBERT4Rec)的模型相比,TV-Rec 提供了更快的推理速度和卓越的推荐准确性。

  • FMLPRec 的比较FMLPRec 凭借其简单的架构,运行速度稍快,但其通过基本图滤波器实现的性能却有所下降。考虑到 TV-Rec 显著的性能提升,其略高于 FMLPRec 的推理时间是可以接受的。

    以下是原文 Table 10 的结果,展示了所有数据集上的参数数量和执行效率分析:

    DatasetMetricsTV-RecAdaMCTBSARecFMLPRecNextItNetBERT4RecSASRecCaser
    Beauty# Parameters854,208878,208880,318851,200981,696877,888877,8242,909,532
    Training Cost (s/epoch)13.2012.3011.3511.8518.918421.9811.2165.54
    Inference Cost (s/epoch)0.56970.66470.72990.54271.02670.58210.63161.0641
    NDCG@200.07040.06910.06640.04190.05470.04840.03790.0164
    Sports# Parameters1,248,1601,278,5921,264,3181,251,5841,644,2241,278,2721,278,2084,835,756
    Training Cost (s/epoch)19.4617.6318.4417.7630.103431.6014.2698.21
    Inference Cost (s/epoch)0.74110.90490.96790.70491.27240.80160.84601.5715
    NDCG@200.04280.04220.03790.02390.03160.02880.02170.0109
    Yelp# Parameters1,355,4241,385,8561,365,5221,358,8481,751,4881,385,5361,385,4723,925,238
    Training Cost (s/epoch)21.8920.8721.8320.2032.8837.5716.74111.62
    Inference Cost (s/epoch)0.63880.85270.88900.62231.23480.72250.73221.3220
    NDCG@200.03380.02900.02720.02110.02760.02750.01800.0151
    LastFM# Parameters303,440337,088322,814310,080981,696336,768336,704998,646
    Training Cost (s/epoch)2.412.512.662.5119.12534.292.3013.22
    Inference Cost (s/epoch)0.26490.28070.32280.26781.0680.30180.30610.3445
    NDCG@200.05820.05140.04850.04750.04020.03660.04580.0306
    ML-1M# Parameters298,368322,368308,094295,360556,928322,048321,984961,326
    Training Cost (s/epoch)26.6027.6831.4024.6740.773146.5122.50102.99
    Inference Cost (s/epoch)0.41290.41800.44740.35940.72690.42020.41810.5817
    NDCG@200.19510.18360.17110.13880.18290.15880.14380.1101
    Foursquare# Parameters719,040743,040728,766716,0321,108,672742,720742,6561,073,044
    Training Cost (s/epoch)6.015.795.815.118.91099.065.2721.01
    Inference Cost (s/epoch)0.29000.29130.35620.25210.49630.28710.31780.3703
    NDCG@200.01700.01470.01310.01100.01150.01320.01370.0133

分析:

  • 参数效率TV-Rec 在所有数据集上都保持了具有竞争力的参数效率,参数数量与大多数先进基线相当或略低。
  • 训练效率:在大多数数据集上,TV-Rec 的训练成本具有竞争力,通常与 SASRecFMLPRec 相当或略高。虽然 TV-Rec 在训练过程中由于 GFTiGFT 操作以及生成位置特定滤波器而引入了一些额外的计算复杂性,但这种开销在实践中是可控的。
  • 推理效率TV-Rec 展现出强大的推理效率,在所有模型中推理成本通常最低或接近最低,尤其是在 BeautySportsYelp 等数据集上。
  • 整体结论TV-Rec 在模型复杂度、计算效率和推荐性能之间取得了出色的平衡。它在实现最佳性能指标的同时,在训练和推理效率方面与最先进的模型相比具有竞争力或更优。

6.1.8. XLong 数据集上的额外结果

以下是原文 Table 9 的结果,展示了 XLong 数据集上的性能:

MetricSASRecLRURecTV-RecImprov.
HR@50.36120.42660.484413.55%
HR@100.46800.51370.53534.20%
HR@200.56120.58740.5774-1.70%
NDCG@50.26560.32270.390521.00%
NDCG@100.29790.35100.407115.98%
NDCG@200.32320.36970.417813.01%

分析:

  • XLong 数据集是一个极端长序列的场景,平均序列长度高达 958.8。
  • 即使在如此极端的长序列情况下,TV-RecHR@5HR@10 以及所有的 NDCG 指标上都显著优于 SASRecLRURec。尤其在 NDCG 指标上取得了高达 21.00% 的提升。
  • 尽管 TV-RecHR@20 上略低于 LRURec,但在其他所有指标上的领先优势证明了其在处理超长序列方面的强大能力。
  • 这进一步突出 TV-Rec 在长程建模任务中的优势和可扩展性。

6.1.9. 实验结果的统计显著性

以下是原文 Table 11 的结果,展示了 TV-Rec 与次优基线方法在 6 个数据集上的性能比较(均值和标准差):

DatasetsMethodsHR@5HR@10HR@20NDCG@5NDCG@10NDCG@20
BeautyBSARec TV-Rec0.0694±0.001 0.0706±0.0010.0978±0.002 0.0997±0.0010.1352±0.002 0.1375±0.0020.0496±0.001 0.0500±0.0010.0587±0.001 0.0594±0.0010.0681±0.001 0.0689±0.001
SportsBSARec TV-Rec DuoRec0.0417±0.001 0.0420±0.0010.0600±0.001 0.0610±0.0020.0844±0.001 0.0863±0.0020.0288±0.001 0.0290±0.0010.0349±0.001 0.0351±0.0010.0411±0.001 0.0415±0.001
YelpTV-Rec BSARec0.0268±0.001 0.0284±0.001 0.0501±0.0040.0453±0.001 0.0472±0.001 0.0707±0.0060.0733±0.001 0.0759±0.001 0.1051±0.0080.0170±0.000 0.0179±0.000 0.0342±0.0020.0230±0.000 0.0240±0.0010.0300±0.000 0.0312±0.001
LastFMTV-Rec LRURec0.0508±0.005 0.1955±0.0020.0750±0.006 0.2818±0.0020.1090±0.007 0.3871±0.0020.0343±0.003 0.1326±0.0020.0412±0.002 0.0420±0.003 0.1604±0.0020.0498±0.002 0.0506±0.003 0.1869±0.002
ML-1M FoursquareTV-Rec BSARec TV-Rec0.2024±0.005 0.0133±0.003 0.0151±0.0020.2901±0.005 0.0175±0.003 0.0214±0.0030.3972±0.005 0.0250±0.003 0.0289±0.0020.1365±0.004 0.0098±0.002 0.0105±0.0020.1647±0.003 0.0111±0.002 0.0126±0.0020.1918±0.003 0.0130±0.002 0.0145±0.002

分析:

  • 为了确保评估的可靠性,所有实验都使用了 10 个不同的随机种子,并报告了性能指标的均值和标准差。
  • TV-Rec 的均值性能在所有数据集和指标上都优于次优基线,且标准差相对较小,表明其性能提升是稳定且具有统计显著性的。
  • 例如,在 Beauty 数据集上,TV-Rec 在所有指标上的均值均高于 BSARec,且标准差相近,显示出其稳定的优势。
  • 这进一步增强了 TV-Rec 结果的可靠性,排除了随机因素对性能提升的偶然影响。

6.2. 实验设置中的超参数 (Hyperparameters for Standard Sequential Recommendation)

实验中,基线的超参数根据其建议设置。TV-Rec 实验使用以下超参数:

  • 学习率 (learning rates):{5×104,1×103}\lbrace 5 \times 10^{-4}, 1 \times 10^{-3} \rbrace

  • 正交正则化系数 α\alpha{0,1×103,1×105}\lbrace 0, 1 \times 10^{-3}, 1 \times 10^{-5} \rbrace

  • dropoutpp{0.1,0.2,0.3,0.4,0.5}\lbrace 0.1, 0.2, 0.3, 0.4, 0.5 \rbrace

  • 基向量数量 mm{8,16,32}\lbrace 8, 16, 32 \rbrace

  • 时变卷积滤波器阶数 KK:等于最大序列长度 NN,设置为 50。

  • 批大小 (batch size):256

  • 潜在维度 (dimension) DD:64

  • 时变块数量 (number of time-variant blocks) LL:2

  • 优化器:Adam optimizer (Adam 优化器)。

    以下是原文 Table 7 的结果,展示了 TV-Rec 的最佳超参数设置:

    DatasetLearning Rateαpm
    L = 50
    Beauty5 × 10−400.532
    Sports5 × 10−400.516
    YYelp5 × 10−41 × 10-30.116
    LastFM1 × 10−31 × 10-30.48
    ML-1M Foursquare1 × 10−3 5 × 10−41× 10-5 1 × 10-50.3 0.28
    8
    L = 200
    ML-1M1 × 10−300.116
    Foursquare5 × 10−41 × 10−50.18

7. 总结与思考

7.1. 结论总结

本文针对传统固定卷积滤波器在序列推荐中捕捉复杂模式的局限性,以及自注意力机制计算成本高昂且缺乏局部性归纳偏置的问题,提出了 TV-Rec (Time-Variant Convolutional Filters for Sequential Recommendation) 模型。TV-Rec 受图信号处理中节点变图滤波器的启发,为用户序列中的每个时间点应用独特的时变卷积滤波器。

核心贡献和主要发现包括:

  • 创新性的模型设计TV-Rec 成功地用时变滤波器取代了固定卷积核和自注意力机制,实现了更高的表达能力,并能更好地捕捉用户行为中复杂的时变交互模式。

  • 卓越的性能提升:在六个公开基准数据集上的广泛实验表明,TV-Rec 的性能平均优于最先进的基线模型 7.49%,尤其在 LastFMFoursquare 等数据集上取得了显著提升。

  • 高效的推理能力TV-Rec 的设计使其能够作为线性算子进行操作,从而在训练后可以预计算滤波器,显著加速推理过程,同时保持较低的计算复杂性。

  • 长序列建模优势:在 ML-1MFoursquare 等长序列数据集上的实验进一步验证了 TV-Rec 在处理长程依赖方面的有效性。

  • 内在的位置编码:模型通过在有向循环图 (DCG) 上进行谱分解,能够固有地编码位置信息,从而无需显式的位置编码。

    总而言之,TV-Rec 为序列推荐提供了一个强大且高效的新范式,它在准确性、效率和模型简洁性之间取得了卓越的平衡,证明了时变卷积滤波器在推荐系统领域的巨大潜力。

7.2. 局限性与未来工作

论文作者指出了 TV-Rec 的几个局限性:

  1. 训练过程的计算复杂性:尽管 TV-Rec 在推理时效率很高,但其训练过程涉及重复的图傅里叶变换 (GFT) 和逆图傅里叶变换 (iGFT) 操作,以及生成位置特定滤波器,这会引入一些额外的计算复杂性。为了实现谱滤波,TV-RecDCG 替换了原始的线图,并通过填充增加了额外的节点,这增加了谱域的维度。这些因素可能导致中等的训练时间增加和内存使用量增加。不过,Table 10 的结果表明,这种开销是可控的,并且不会显著影响训练的可扩展性。

  2. 滤波器生成的数据独立性TV-Rec 中的滤波器生成是数据独立的,它仅依赖于时间位置而非序列内容。虽然这种设计有助于提高泛化能力和结构简洁性,但它可能限制模型适应实例特定行为 (instance-specific behavior) 或不规则模式的能力。

    未来工作方向:

  • 与状态空间模型 (State Space Models, SSMs) 的联系:计划探索 TV-Rec 的时变滤波器与近期状态空间模型(如 Mamba)之间的理论和实践关系,因为 SSMs 在处理长序列时也表现出与卷积滤波器强的连接性。

7.3. 个人启发与批判

7.3.1. 个人启发

  • GSP 在序列建模中的潜力TV-Rec 成功将 GSP 中节点变图滤波器的概念创造性地应用于序列推荐,将序列视为一种特殊的图结构。这种跨领域的思想迁移为序列建模提供了新的视角,即并非所有序列问题都必须依赖 RNNTransformer 的显式循环/注意力机制。
  • 效率与性能的平衡:在 AI 领域,很多时候需要在模型复杂度和计算效率之间进行权衡。TV-Rec 展示了一种通过更精巧的数学设计,在完全替代 自注意力 的同时,依然能保持甚至超越性能,并显著提升推理效率的范例。这对于资源受限的实际推荐系统部署具有重要意义。
  • 固有位置编码的优雅性TV-Rec 能够通过其谱域操作自然地编码位置信息,而无需额外的 位置编码。这不仅简化了模型结构,也提供了一种更优雅、更“自然”的方式来处理序列的位置依赖性,这与 Transformer 早期为了弥补其结构缺陷而引入 位置编码 形成了鲜明对比。

7.3.2. 批判

  • 滤波器生成的数据独立性:论文提及滤波器生成是数据独立的,仅依赖于时间位置。虽然这带来了泛化性和简洁性,但也可能是其未来性能提升的瓶颈。在真实世界中,用户兴趣的演变可能不仅与时间位置有关,还与之前交互的具体物品类型、属性等内容信息紧密相关。未来的研究可以探索如何将内容信息融入滤波器生成过程,使其能根据序列的语义内容动态调整滤波器权重,从而捕捉更细粒度的实例特定模式。

  • DCG 填充的潜在影响:为了数学上的便利性,将线图强制转换为 DCG 并进行零填充。尽管论文给出了理论证明来防止信息逆向泄漏,但在实践中,这种转换是否会引入某种程度的信息失真或额外噪声,尤其是在 KK 值与 NN 值差异较大时,值得更深入的分析。

  • 训练复杂度的进一步优化:虽然论文指出训练开销是可控的,但对于超大规模数据集或需要频繁重新训练的场景,GFTiGFT 操作的计算成本仍然是一个考虑因素。未来的工作可以探索近似 GFT 或更快的谱域操作方法,以进一步优化训练效率。

  • SSMs 的解释:论文在未来工作中提到要探索与状态空间模型的联系。考虑到 SSMs 近年来在长序列建模上的出色表现,以及它们与卷积的深层联系,TV-Rec 能够从这个方向吸取更多灵感,进一步提升其在长序列建模上的理论完备性和实践性能。

    总体而言,TV-Rec 是一项富有前景的工作,它在序列推荐领域提出了一个新颖且有效的解决方案,为未来的研究开辟了新的方向。

相似论文推荐

基于向量语义检索推荐的相关论文。

暂时没有找到相似论文。