Wavelet Enhanced Adaptive Frequency Filter for Sequential Recommendation
TL;DR 精炼摘要
本研究提出了一种新颖的Wavelet Enhanced Adaptive Frequency Filter (WEARec)用于序列推荐,通过动态频域滤波和小波特征增强克服现有频域方法的限制。这一方法能够个性化地提取用户的动态偏好,并有效重构模糊的非平稳信号,从而提升长序列推荐的性能与效率,实验证明其优越性。
摘要
Sequential recommendation has garnered significant attention for its ability to capture dynamic preferences by mining users' historical interaction data. Given that users' complex and intertwined periodic preferences are difficult to disentangle in the time domain, recent research is exploring frequency domain analysis to identify these hidden patterns. However, current frequency-domain-based methods suffer from two key limitations: (i) They primarily employ static filters with fixed characteristics, overlooking the personalized nature of behavioral patterns; (ii) While the global discrete Fourier transform excels at modeling long-range dependencies, it can blur non-stationary signals and short-term fluctuations. To overcome these limitations, we propose a novel method called Wavelet Enhanced Adaptive Frequency Filter for Sequential Recommendation. Specifically, it consists of two vital modules: dynamic frequency-domain filtering and wavelet feature enhancement. The former is used to dynamically adjust filtering operations based on behavioral sequences to extract personalized global information, and the latter integrates wavelet transform to reconstruct sequences, enhancing blurred non-stationary signals and short-term fluctuations. Finally, these two modules work to achieve comprehensive performance and efficiency optimization in long sequential recommendation scenarios. Extensive experiments on four widely-used benchmark datasets demonstrate the superiority of our work.
思维导图
论文精读
中文精读
1. 论文基本信息
1.1. 标题
Wavelet Enhanced Adaptive Frequency Filter for Sequential Recommendation (小波增强自适应频率滤波器用于序列推荐)
1.2. 作者
Huayang Xu, Huanhuan Yuan, Guanfeng Liu, Junhua Fang, Lei Zhao, Pengpeng Zhao
隶属机构:
- 苏州大学计算机科学与技术学院 (School of Computer Science and Technology, Soochow University, China)
- 麦考瑞大学 (Macquarie University)
1.3. 发表期刊/会议
预印本 (Preprint),发布于 arXiv。
1.4. 发表年份
2025年
1.5. 摘要
序列推荐 (Sequential Recommendation) 因其能够通过挖掘用户历史交互数据来捕捉动态偏好而受到广泛关注。鉴于用户复杂且相互交织的周期性偏好在时域 (time domain) 难以解缠 (disentangle),最近的研究正在探索频域 (frequency domain) 分析以识别这些隐藏模式。然而,当前的基于频域的方法存在两个主要限制:(i) 它们主要采用具有固定特征的静态滤波器 (static filters),忽略了行为模式的个性化 (personalized nature);(ii) 尽管全局离散傅里叶变换 (global discrete Fourier transform) 在建模长程依赖 (long-range dependencies) 方面表现出色,但它可能会模糊非平稳信号 (non-stationary signals) 和短期波动 (short-term fluctuations)。为了克服这些限制,本文提出了一种名为 Wavelet Enhanced Adaptive Frequency Filter for Sequential Recommendation (WEARec) 的新方法。具体来说,它包含两个关键模块:动态频域滤波 (dynamic frequency-domain filtering) 和小波特征增强 (wavelet feature enhancement)。前者用于根据行为序列动态调整滤波操作,以提取个性化的全局信息;后者则集成小波变换 (wavelet transform) 来重构序列,增强被全局离散傅里叶变换模糊的非平稳信号和短期波动。最终,这两个模块协同工作,在长序列推荐场景中实现全面的性能和效率优化。在四个广泛使用的基准数据集上进行的广泛实验证明了本文工作的优越性。
1.6. 原文链接
- 原文链接: https://arxiv.org/abs/2511.07028v2
- PDF 链接: https://arxiv.org/pdf/2511.07028.pdf
- 发布状态:预印本 (arXiv preprint),版本号 v2。
2. 整体概括
2.1. 研究背景与动机
2.1.1. 序列推荐的重要性与挑战
序列推荐 (Sequential Recommendation, SR) 在电子商务等应用中扮演着关键角色,通过分析用户的历史交互数据来捕捉其动态的兴趣转移。随着 Transformer 架构在自然语言处理 (Natural Language Processing, NLP) 和计算机视觉 (Computer Vision, CV) 领域的巨大成功,基于自注意力机制 (self-attention mechanism) 的序列推荐模型也取得了显著进展,如 SASRec 等。
然而,用户交互中的物品通常按时间顺序纠缠在一起,并且固有噪声较多。这导致模型难以直接在时域 (time domain) 中从原始序列中识别行为偏好的变化。传统的时域模型在捕捉用户复杂且相互交织的周期性偏好方面存在局限性。
2.1.2. 频域分析的兴起与现有方法的局限性
为了解决时域分析的挑战,最近的研究开始探索频域 (frequency domain) 方法来替代或增强自注意力机制。通过傅里叶变换 (Fourier transform) 将用户序列分解为不同的频率成分(例如高频和低频信号),可以有效地捕捉在时域中难以识别的周期性模式,如 FMLPRec 等模型。
尽管频域方法在序列推荐中取得了成功,但它们存在两个主要限制:
-
静态滤波器与个性化缺失: 现有方法通常对所有频率成分应用静态的、固定模式的滤波器。这种统一的过滤方式会平等处理所有用户序列,忽略了用户行为模式的个性化 (personalized nature)。实际上,不同用户可能表现出截然不同的行为模式,有些受长期偏好驱动(低频信号),有些则表现出短期波动。 Figure 1 直观地展示了不同频率组件驱动的用户数量差异,强调了开发个性化过滤模型的重要性。
-
全局傅里叶变换的局限性: 离散傅里叶变换 (Discrete Fourier Transform, DFT) 对信号组件进行全局分析,主要用于提取全局频率特征,而非局部特征。虽然全局
DFT擅长捕捉长程依赖 (long-range dependencies),但它难以捕捉高频交互的局部时间特征和短期的兴趣点,容易模糊非平稳信号和短期波动。例如,FMLPRec被发现本质上是一个低通滤波器。
该图像是柱状图,展示了在体育和美容数据集中,每个频率组件唯一驱动的用户数量。从图中可以看出,体育数据集在低频率组件上有较多用户,而美容数据集则在低频率上表现明显。具体的频率与用户数量关系在图中清晰可见。
Figure 1: Number of users uniquely driven by each frequency component in the Sports and Beauty datasets.
2.2. 核心贡献/主要发现
为了克服上述限制,本文提出了 WEARec (Wavelet Enhanced Adaptive Frequency Filter for Sequential Recommendation) 模型。其核心贡献和主要发现如下:
- 提出
WEARec模型架构:WEARec包含两个关键模块:- 动态频域滤波 (Dynamic Frequency-domain Filtering, DFF) 模块: 使用简单的多层感知机 (Multi-Layer Perceptron, MLP) 根据上下文信号动态调整特定频段的增强或抑制,从而提取个性化的全局信息。
- 小波特征增强 (Wavelet Feature Enhancement, WFE) 模块: 通过小波变换 (wavelet transform) 重构序列,放大被全局
DFT容易模糊的非平稳信号和短期波动,从而捕捉细粒度的局部时间模式。
- 高效融合个性化全局与增强局部信息:
WEARec将DFF模块与WFE模块协同工作,实现了个性化全局信息和增强局部信息的有效融合。 - 在长序列场景下的优越性能和效率: 该模型在长序列推荐场景中表现出更低的计算开销 (computational overhead) 和更优越的推荐性能,解决了现有模型在长序列下性能收敛和效率低下的问题。
- 广泛的实验验证: 在四个公开基准数据集(Amazon Beauty, Amazon Sports, ML-1M, LastFM)上进行了广泛实验,结果表明
WEARec在多种评估指标上均优于最先进的基线模型,验证了其有效性和优越性。
3. 预备知识与相关工作
3.1. 基础概念
3.1.1. 离散傅里叶变换 (Discrete Fourier Transform, DFT)
DFT 是信号处理中的核心数学工具,用于将离散时间信号从时域转换到频域,揭示信号的频率成分和能量分布。
给定一个长度为 的离散序列 ,其 DFT 定义为:
符号解释:
-
: 时域序列中第 个样本的值。
-
: 序列的总长度。
-
: 虚数单位,满足 。
-
: 频域中频率索引为 的信号的复数值,表示该频率成分的幅度和相位。
-
: 欧拉公式 的形式,表示一个复指数函数,用于将时域信号投影到不同频率的正弦和余弦分量上。
同时,频域序列 可以通过逆离散傅里叶变换 (Inverse Discrete Fourier Transform, IDFT) 转换回时域特征表示: 符号解释:
-
: 重构后的时域序列中第 个样本的值。
-
: 序列的总长度。
-
: 频域中频率索引为 的信号的复数值。
-
: 欧拉公式形式的复指数函数,用于将频域分量合成回时域信号。
在论文中,作者通过快速傅里叶变换 (Fast Fourier Transform, FFT),记作 ,将序列行为转换为频域。类似地,逆快速傅里叶变换 (Inverse FFT, IFFT),记作 ,用于将频域特征有效地转换回时域。
DFT 的两个核心定理:
- 帕塞瓦尔定理 (Parseval's Theorem): 阐明了信号在变换前后总能量的守恒性。这保证了自适应滤波不会意外地扭曲输入信号的内在信息。
符号解释:
x[m]: 时域序列的第 个样本值。X[k]: 频域序列的第 个频率分量。- : 表示复数的模的平方,即能量。
- : 序列长度。 该定理表明,时域信号的能量总和与其频域表示的能量总和成比例。
- 卷积定理 (Convolution Theorem): 揭示了时域卷积等价于频域中的逐元素乘法。这一特性直接促成了捕获特定频率成分的滤波器设计。
给定输入序列 和卷积参数 ,时域中的循环卷积定义为:
符号解释:
h[m]: 卷积核(滤波器)的第 个参数。x[m]: 输入序列的第 个样本值。*: 表示循环卷积操作符。- : 的周期性扩展。
卷积定理证明,给定变换后的频域特征
X [ k ],上述方程可以转换为: 符号解释: - : 学习到的滤波器在频域的表示。
X[k]: 输入信号在频域的表示。- : 表示哈达玛积 (Hadamard product),即逐元素乘法。 该公式可以简化为: 符号解释:
- : 对应的可学习的复数值滤波矩阵。
- : 输入信号的频域表示。 这意味着在频域中,卷积操作被简化为简单的逐元素乘法,极大地提高了计算效率。
3.1.2. 离散小波变换 (Discrete Wavelet Transform, DWT)
DWT 是一种基于多分辨率分析的信号处理工具,通过对小波基函数进行尺度缩放 (scaling) 和平移 (shifting) 操作,实现信号的时频局部化分解 (time-frequency localized decomposition)。
给定一个长度为 的离散序列 ,它可以通过分层分解 (hierarchical decomposition) 分解为一组高频和低频子信号。第 级分解定义为:
符号解释:
- : 经过第 级低通滤波 后的近似系数 (approximation coefficients),包含信号的低频成分。当 时,我们设置 。
- : 经过第 级高通滤波 后的细节系数 (detail coefficients),包含信号的高频成分。
L[k]: 低通滤波器 (low-pass filter) 的系数。H[k]: 高通滤波器 (high-pass filter) 的系数。- : 滤波器长度。
2m-k: 索引操作,实现了步长为2的下采样 (downsampling),将输出长度减半。因此,在公式中, 是 。 通过小波分解,DWT能够定位时域信号中的瞬态分量 (transient components),从而实现对非平稳信号 (non-stationary signals) 的处理和分析。
此外,分解后的高频和低频子信号可以通过逆离散小波变换 (Inverse Discrete Wavelet Transform, IDWT) 完美重构回原始信号。它通过迭代的上采样 (upsampling) 和滤波操作逐级重构信号: 符号解释:
- : 重构后的第 级近似系数。
- : 上一级(更粗糙)的近似系数经过上采样后的输入。
- : 上一级(更粗糙)的细节系数经过上采样后的输入。
- , : 重构滤波器 (reconstruction filters)。
在论文中,前向
DWT将序列行为转换为高频/低频子信号,记作 。IDWT(记作 ) 将分解的子信号重构为原始信号。
3.2. 前人工作
3.2.1. 时域序列推荐模型 (Time-domain SR Models)
早期的序列推荐研究常依赖于马尔可夫链 (Markov chain) 假设。随着深度学习方法的普及,许多研究采用神经网络架构作为编码器。
Caser(Tang and Wang 2018): 利用卷积操作 (convolutional operations) 捕捉用户活动在时间上的高阶局部动态模式。SASRec(Kang and McAuley 2018): 利用自注意力机制 (self-attention mechanisms) 捕捉序列中物品之间的关系。GRU4Rec(Hidasi et al. 2015): 第一个将门控循环单元 (Gated Recurrent Unit, GRU) 应用于序列推荐中建模用户行为序列的模型。DuoRec(Qiu et al. 2022): 通过模型级增强和语义正样本的对比学习 (contrastive learning) 来增强序列嵌入表示。 局限性: 这些时域模型在有效捕捉用户潜在的周期性行为模式方面仍然面临挑战。
3.2.2. 频域序列推荐模型 (Frequency-domain SR Models)
近期,研究人员开始将频域分析应用于序列推荐。
FMLPRec(Zhou et al. 2022): 首创基于频率的MLP滤波,用于捕捉周期性模式,用可学习滤波器替换了自注意力机制。SLIME4Rec(Du et al. 2023a) 和FEARec(Du et al. 2023b): 进一步发展了这一方向,提出了分层频率斜坡结构 (layered frequency ramp structure) 并结合了对比学习。BSARec(Shin et al. 2024): 旨在发现细粒度的序列模式,并将其作为归纳偏置 (inductive biases) 注入模型,调整高频区域的影响使其可学习,并用作自注意力的归纳偏置。FamouSRec(Zhang et al. 2025): 开发了一种混合专家 (Mixture-of-Experts, MoE) 架构,通过异构编码器模块选择专门的专家模型,以适应用户特定的基于频率的行为模式。 局限性: 这些模型要么缺乏用户特定的自适应性 (user-specific adaptivity),要么计算成本较高,并且全局DFT难以捕捉局部高频和非平稳信号。
3.3. 技术演进
序列推荐领域从最初基于马尔可夫链和传统 RNN/CNN 的时域模型,逐步发展到受 Transformer 启发的自注意力模型,以更好地捕捉长程依赖。然而,时域模型在处理纠缠且有噪声的周期性偏好时遇到瓶颈。为了解决这一问题,研究转向频域分析,利用傅里叶变换分解信号,以识别难以在时域中发现的周期性模式。早期的频域模型(如 FMLPRec)证明了其潜力,但它们通常使用静态滤波器,无法适应用户行为的个性化差异,且 DFT 的全局性使其难以捕捉局部和非平稳的高频信号。
WEARec 正是在这一背景下提出的,旨在弥补现有频域方法的不足。它通过引入动态频域滤波来处理个性化行为模式,并通过小波特征增强来捕捉 DFT 容易忽略的局部非平稳高频信号,从而在保留频域优势的同时,解决了其固有限制。
3.4. 差异化分析
WEARec 与现有方法的核心区别和创新点在于:
- 个性化动态滤波 vs. 静态滤波: 区别于现有频域模型(如
FMLPRec,SLIME4Rec)采用静态的、固定模式的滤波器处理所有用户序列,WEARec引入了动态频域滤波 (DFF) 模块。该模块能够根据每个用户行为序列的上下文信号,动态地生成个性化的缩放因子和偏置项,从而调整滤波器,使其更精准地适应不同用户的特定频率偏好。 - 局部非平稳信号增强 vs. 全局模糊: 现有频域模型主要依赖全局
DFT,虽然擅长捕捉长程依赖,但容易模糊序列中的非平稳信号和短期波动。WEARec通过小波特征增强 (WFE) 模块来弥补这一不足。小波变换具有时频局部化的能力,能够分解并重构序列,专门增强那些可能被全局DFT忽略的细粒度局部特征和高频瞬态信息。 - 综合性能与效率优化:
WEARec将DFF捕捉的个性化全局信息与WFE增强的局部细粒度信息进行高效融合。这种结合不仅提升了推荐性能,尤其是在长序列场景下表现更佳,而且通过避免复杂的自注意力机制和对比学习,实现了更低的计算开销和更快的训练速度,优于BSARec和SLIME4Rec等模型。
4. 方法论
本节将详细阐述 WEARec 模型的方法论,包括其整体框架、各个核心模块的原理、数学公式及其符号解释。
4.1. 问题陈述
序列推荐 (Sequential Recommendation, SR) 的目标是根据用户过去的交互行为预测用户将要点击的下一个物品。给定一个用户集合 和物品集合 ,其中 表示用户, 表示物品。用户和物品的数量分别记作 和 。用户行为序列集合表示为 。在 SR 中,用户的行为序列通常是按时间顺序排列的,即每个用户 的序列表示为 ,其中 是用户 在时间步 交互的物品, 是序列长度。
推荐模型首先将原始序列划分为多个子序列。经过训练,它为每个子序列中的候选物品生成一个概率得分,即 ,其中 表示物品 v _ { i } 的预测得分。给定用户的历史交互序列和最大序列长度 ,如果序列长度 ,则移除最早的物品;如果 ,则用填充符 (padding tokens) 填充至长度 ,得到 。SR 任务以 s _ { u } 作为输入,预测时间步 的前 个物品。
4.2. 整体框架
WEARec 的整体框架如 Figure 2 所示。它由四个主要部分组成:嵌入层 (Embedding Layer)、动态频域滤波 (Dynamic Frequency-domain Filtering, DFF) 模块、小波特征增强 (Wavelet Feature Enhancement, WFE) 模块以及预测层 (Prediction Layer)。DFF 模块和 WFE 模块的输出通过特征集成 (Feature Integrate) 机制进行融合,并经过逐点前馈网络 (Point-wise Feed Forward Network, FFN) 处理,形成一个 WEARec 块,该块可以堆叠多层。

该图像是示意图,展示了“Wavelet Enhanced Adaptive Frequency Filter for Sequential Recommendation”的整体框架。左侧部分描述了小波重构、数据重缩放及小波分解等模块,强调了小波特征增强和动态频域过滤的交互。右侧则展示了逆快速傅里叶变换(Inverse FFT)、多个可学习过滤器及多层感知机(MLP)的处理流程,体现了模型如何整合和优化推荐性能。
T detail aehownbo ides.nally predictionyemputeseendation scoreor candidat.
4.3. 核心方法详解
4.3.1. 嵌入层 (Embedding Layer)
给定用户行为序列 s _ { u },首先通过物品嵌入矩阵 生成序列的嵌入表示 ,其中 是嵌入维度,。为了增加位置信息并保持原始嵌入维度,引入位置嵌入 。接着,为了稳定训练过程,进行层归一化 (Layer Normalization) 和 dropout 操作。最终生成序列表示 如下:
符号解释:
- : 用户 的序列嵌入表示,其中 是序列最大长度, 是嵌入维度。
- : 物品嵌入矩阵,存储所有物品的嵌入向量。 是物品总数。
- : 位置嵌入矩阵,为序列中的每个位置提供额外的时序信息。
- : 层归一化操作,用于稳定神经网络训练。
- : Dropout 操作,用于防止过拟合。
4.3.2. 动态频域滤波 (Dynamic Frequency-domain Filtering, DFF) 模块
DFF 模块旨在根据用户行为序列动态调整滤波操作,以提取个性化的全局信息。
4.3.2.1. 多头投影 (Multi-Head Projection)
为了增强输入物品嵌入 在频域的表示能力,论文借鉴了多头注意力机制 (multi-head attention mechanism) 的分区概念。具体来说,将输入矩阵 沿着嵌入维度分解为 个并行特征子空间,每个子空间都配备一个根据其特性定制的自适应滤波器。 其中, 是第 层的时域特征, 表示第 个子空间。在每个块的开始,输入特征是 ,并将其分解为 个子空间 。
4.3.2.2. 频域转换
对于每个子空间 ,首先沿着物品维度执行一维快速傅里叶变换 (1D FFT): 符号解释:
- : 第 层的第 个时域子空间特征。
- : 一维快速傅里叶变换。
- : 第 层的第 个频域子空间特征,这是一个复数张量。
- : 经过
FFT后保留的独特频率分量的数量(根据共轭对称性)。
4.3.2.3. 上下文信息提取
为了提取用户上下文序列的整体信息,对当前层输入特征 在时域沿着物品维度进行均值处理: 符号解释:
- : 的第 行,代表序列中第 个物品的特征。
- : 第 层用户历史交互序列的整体表示,捕捉用户上下文信息。
4.3.2.4. 动态滤波器生成
为了使频域滤波器能够动态适应用户特定的序列上下文,论文设计了两个三层 MLP 网络,它们从捕捉到的用户上下文特征 生成相应的缩放因子 (scaling factors) 和偏置项 (bias terms),从而调制个性化的频域滤波器。
符号解释:
- 和 : 两个三层多层感知机网络。
- : 第 层用于动态调整滤波器的缩放因子。它影响滤波器的整体频率响应。
- : 第 层用于动态调整滤波器的偏置项。它调整特定频段的权重。
4.3.2.5. 个性化滤波器调制
给定基滤波器权重 和偏置 ,使用个性化生成的缩放因子 和偏置项 通过以下操作获得个性化动态滤波器的权重和偏置: 符号解释:
- : 第 层的基滤波器权重。
- : 第 层的基滤波器偏置。
- : 哈达玛积 (Hadamard product),逐元素乘法。
- : 第 层动态滤波器的线性调制权重,根据用户上下文进行调整。
- : 第 层动态滤波器的线性调制偏置,根据用户上下文进行调整。 调制后的滤波器能够适应不同用户的频域特征。
4.3.2.6. 频域滤波与逆变换
通过使用个性化滤波器权重 和偏置 对频域特征子空间 进行线性变换,获得个性化过滤后的频域信息。 符号解释:
-
: 原始的第 个频域子空间特征。
-
: 经过个性化滤波器处理后的第 个频域子空间特征。
最后,使用逆离散傅里叶变换 (IDFT) 将处理后的频域信号映射回时域: 符号解释:
-
: 逆快速傅里叶变换。
-
: 经过频域滤波并逆变换回时域的第 个子空间特征。 论文中提到将 拼接 (concatenate) 起来形成 ,这是
DFF模块最终输出的全局特征。原文公式 在此处可能是排版错误或指代歧义,它更像是描述输入到多头投影分解的初始状态,而非DFF模块处理后的输出。结合上下文和 Figure 2,正确的解释应是 们被拼接。
4.3.3. 小波特征增强 (Wavelet Feature Enhancement, WFE) 模块
WFE 模块通过可微分小波变换 (differentiable wavelet transforms) 捕获细粒度 (fine-grained) 的时间模式。论文选择了 Haar 小波变换,因为它结构简单、计算效率高且具有完美信号重构的特性。
4.3.3.1. 多头投影 (Multi-Head Projection)
为了确保所获取的细粒度信息与 DFF 模块获取的空间特征对齐,WFE 模块也沿用了多头投影的设计理念,将 DFF 模块的输入 分解为 个子空间 。
4.3.3.2. 小波分解 (Wavelet Decomposition)
为了捕获行为序列中的细粒度时间模式并增强其中的非平稳信号,将 DWT 集成到 WEARec 框架中。沿着物品维度执行 Haar 小波变换,将时域信号分解为低频 (low-frequency) 和高频 (high-frequency) 分量。
符号解释:
- : 第 层的第 个时域子空间特征。
- : 一维
Haar小波变换。 - : 第 个子空间的近似系数 (approximation coefficients),表示原始信号的低频分量,其中 。
- : 第 个子空间的细节系数 (detail coefficients),捕捉原始信号的高频分量。
4.3.3.3. 数据重缩放 (Data Rescale)
为了获取模型所需的高频信息,通过将高频信息的不同分量乘以一个自适应可学习矩阵 ,来自适应地增强或抑制序列中的高频信号。由于低频信息记录了序列的原始主要成分,因此不对其进行修改。 符号解释:
- : 第 层第 个子空间的增强细节系数,增强了原始信号的高频分量。
- : 第 层自适应高频增强器,是一个可学习的矩阵。
- : 哈达玛积。
4.3.3.4. 小波重构 (Wavelet Reconstruction)
最后,通过对处理后的系数应用逆 Haar 小波变换 (inverse Haar wavelet transform),重构出高频增强后的时域信号。
符号解释:
- : 逆
Haar小波变换。 - : 经过小波分解、高频增强并重构回时域的第 个子空间特征。
同样,将 拼接起来形成 ,这是
WFE模块最终输出的局部特征。
4.3.4. 特征集成 (Feature Integrate)
将 DFF 模块提取的全局特征与 WFE 模块获取的细粒度特征进行混合。
符号解释:
-
:
DFF模块输出的全局特征(由 拼接而成)。 -
:
WFE模块输出的细粒度局部特征(由 拼接而成)。 -
: 一个超参数,用于平衡小波增强的局部细节和动态滤波的全局特征。
-
: 融合后的特征。
为了防止模型在深度加深时出现梯度消失 (gradient vanishing) 问题,并实现更稳定的训练过程和更好的泛化能力,采用了跳跃连接 (skip connection)、dropout 和层归一化等典型技术。 符号解释:
-
: 当前层的输入特征,作为跳跃连接的起点。
4.3.5. 逐点前馈网络 (Point-wise Feed Forward Network, FFN)
为了赋予模型在时域不同维度之间非线性特性,每个特征混合器之后还添加了一个前馈网络,该网络由带有 GELU 激活函数 (GELU activation) 的 MLP 组成。FFN 的过程定义如下:
符号解释:
-
: 特征集成后的输出。
-
:
FFN中的可学习权重矩阵。 -
:
FFN中的可学习偏置向量。 -
: Gaussian Error Linear Unit 激活函数,提供非线性变换。
-
: 经过
FFN处理后的特征。为了防止过拟合,在每个隐藏层上都添加了 dropout 层,并再次使用残差连接 (residual connection) 结构对输出 进行层归一化: 符号解释:
-
: 第 层块的最终输出,作为下一层块的输入。
4.3.6. 预测层 (Prediction Layer)
在 WEARec 的最后一层,计算每个候选物品的推荐概率,以预测用户采纳该物品的可能性。具体来说,相应的预测概率 可以通过以下方式生成:
符号解释:
-
: 经过 层块处理后,最后一个时间步的输出特征。通常是取序列最后一个有效的物品嵌入。
-
: 物品嵌入矩阵。
-
: 物品嵌入矩阵的转置。
-
: Softmax 激活函数,将得分转换为概率分布。
-
: 预测的物品偏好得分向量,每个元素表示对应物品的推荐概率。
为了优化模型参数,使用交叉熵损失 (cross-entropy loss)。
SR的目标函数可以表示为: 符号解释: -
: 推荐任务的交叉熵损失函数。
-
y _ { i }: 第 个真实标注物品 (ground truth item) 的标签(通常是 one-hot 编码)。 -
: 物品
v _ { i }的预测偏好得分(概率)。
5. 实验设置
本节将详细介绍实验中使用的各类设置,包括数据集、评估指标、对比基线模型以及具体的实现细节。
5.1. 数据集
实验使用了四个公开的基准数据集来全面评估 WEARec 模型。这些数据集在场景、规模和稀疏性方面有所不同,常用于序列推荐方法的测试。在预处理阶段,遵循 5-core 设置,即过滤掉交互次数少于5次的用户。
以下是原文 Table 3 提供的数据集统计信息:
| Specs. | LastFM | ML-1M | Beauty | Sports |
|---|---|---|---|---|
| # User | 1,090 | 6,041 | 22,363 | 25,598 |
| # Items | 3,646 | 3,417 | 12,101 | 18357 |
| # Interactions | 52,551 | 999,611 | 198,502 | 296,337 |
| # Avg.Length | 48.2 | 165.5 | 8.9 | 8.3 |
| Sparsity | 98.68% | 95.16% | 99.93% | 99.95% |
数据集描述:
-
LastFM: 包含用户与音乐的交互,如艺术家收听记录。用于推荐音乐家,特点是序列长度相对较长。 -
MovieLens-1M (ML-1M): 基于电影评论数据,交互数量约100万。 -
Amazon Beauty和Amazon Sports: 来源于Amazon评论数据集,包含用户-物品交互,提供丰富的电商领域数据源,用于评估序列推荐模型。这两个数据集的平均序列长度相对较短。选择这些数据集的原因在于它们涵盖了不同领域(音乐、电影、电商)、不同规模(用户数、物品数、交互数)和不同特性(平均序列长度、稀疏性),能够全面验证模型的泛化能力和在不同场景下的表现。
5.2. 评估指标
在评估中,采用了留一法 (leave-one-out strategy) 来划分每个用户的物品序列。在不使用负采样 (negative sampling) 的情况下,对整个物品集合的预测得分进行排序。性能通过以下评估指标在所有数据集上进行衡量,其中 设置为 10 和 20。
5.2.1. 命中率 (Hit Ratio at K, HR@K)
概念定义: HR@K 衡量的是在推荐列表的前 个物品中,有多少比例的测试集中的真实标注物品 (ground truth item) 被成功推荐。它是一个召回率 (Recall) 的近似,关注模型能否成功“命中”用户感兴趣的物品。
数学公式:
其中,Number of hits @K 是指在每个用户的推荐列表前 个物品中包含真实标注物品的用户数量(或事件数量),而 Total number of test items 是测试集中所有用户的总真实标注物品数量。在留一法评估中,每个用户有一个测试物品,所以 Total number of test items 就是用户总数。
符号解释:
Number of hits @K: 推荐列表前 个物品中包含真实标注物品的用户(或序列)数量。Total number of test items: 测试集中的总用户(或序列)数量。
5.2.2. 归一化折损累计增益 (Normalized Discounted Cumulative Gain at K, NDCG@K)
概念定义: NDCG@K 是一种衡量推荐列表质量的指标,它不仅考虑了推荐物品是否命中,还考虑了命中的物品在列表中的位置。位置越靠前的命中物品,其贡献越大。NDCG 通过对位置进行折损 (discounting) 来惩罚靠后的命中,并通过对理想排序列表进行归一化来使不同推荐列表的得分具有可比性。
数学公式:
其中,DCG@K 是折损累计增益,IDCG@K 是理想折损累计增益。
符号解释:
- : 推荐列表的长度。
- : 推荐列表第 个位置物品的相关性得分。在二元相关性(命中为1,未命中为0)场景中,如果第 个物品是真实标注物品,则 ,否则为
0。 - : 理想排序列表中第 个位置物品的相关性得分。对于一个真实标注物品,其在理想列表中的相关性为
1,其他为0。在留一法中,这意味着理想情况下第一个位置为1,其余为0。 - : 折损因子,使得位置越靠后的物品贡献越小。
5.3. 对比基线
为了证明 WEARec 模型的有效性,将其与最广泛使用和最先进的方法进行比较,分为两类:
5.3.1. 时域序列推荐模型 (Time-domain SR models)
GRU4Rec(Hidasi et al. 2015): 第一个将门控循环单元 (GRU) 应用于序列推荐中,用于建模用户行为序列。Caser(Tang and Wang 2018): 基于卷积神经网络 (CNN) 的方法,通过水平和垂直卷积滤波器捕捉用户活动的局部动态模式。SASRec(Kang and McAuley 2018): 利用自注意力机制 (self-attention mechanism) 捕捉序列中物品之间的关系。DuoRec(Qiu et al. 2022): 结合无监督模型级增强和监督语义正样本进行对比学习 (contrastive learning)。
5.3.2. 频域序列推荐模型 (Frequency-domain SR models)
FMLPRec(Zhou et al. 2022): 全MLP模型,使用可学习滤波器增强块在嵌入矩阵中去除噪声,是频域方法的开创者。FamouSRec(Zhang et al. 2025): 采用混合专家 (Mixture-of-Experts, MoE) 方法,允许模型通过异构编码器模块专注于不同的频率范围。FEARec(Du et al. 2023b): 在注意力计算中利用频域信息,并集成时域和频域的信息。SLIME4Rec(Du et al. 2023a): 利用频率斜坡结构 (frequency ramp structure),结合动态和静态选择模块,考虑每个层的不同频段。BSARec(Shin et al. 2024): 调整高频区域的影响使其可学习,并将其作为自注意力机制的归纳偏置 (inductive bias)。它是最新的强基线模型。
5.4. 实现细节
WEARec 模型使用 PyTorch 实现。对于基线模型,参考了其原始论文中报告的最佳超参数设置,并直接报告了其重新实现的结果,因为这些工作中使用的数据集和评估指标与本文严格一致。
- 嵌入维度 (embedding size) 和前馈网络维度: 均设置为 64。
WEARec块层数 : 设置为 2。- 最大序列长度 : 设置为 50。
- 批量大小 (Batch size): 设置为 256。
- 优化器:
Adam优化器。 - 学习率 (Learning rate): 从 中选择。
- 小波分解级别 (wavelet decomposition level): 设置为 1。
- 融合超参数 : 从 中选择。
- 多头投影数量 : 从 中选择。
- Dropout 率: 对于 Amazon 数据集和
LastFM数据集的稀疏性,使用 0.5 的 dropout 率;对于MovieLens-1M,使用 0.1。
最佳超参数配置 (原文 Table 4):
| Specs. | LastFM | ML-1M | Beauty | Sports |
|---|---|---|---|---|
| α | 0.3 | 0.3 | 0.2 | 0.3 |
| k | 2 | 2 | 8 | 4 |
| lr | 0.001 | 0.0005 | 0.0005 | 0.001 |
6. 实验结果与分析
6.1. 推荐性能比较 (RQ1)
以下是原文 Table 1 提供的四个数据集上的整体实验结果:
| Datasets | Metric | Caser | GRU4Rec | SASRec | DuoRec | FMLPRec | FamouSRec | FEARec | SLIME4Rec | BSARec | WEARec | Improv. |
| Beauty | HR @10 | 0.0225 | 0.0304 | 0.0531 | 0.0965 | 0.0559 | 0.0838 | 0.0982 | 0.1006 | 0.1008 | 0.1041 | 3.27% |
| HR@20 | 0.0403 | 0.0527 | 0.0823 | 0.1313 | 0.0869 | 0.1146 | 0.1352 | 0.1381 | 0.1373 | 0.1391 | 1.31% | |
| NG@10 | 0.0108 | 0.0147 | 0.0283 | 0.0584 | 0.0291 | 0.0497 | 0.0601 | 0.0601 | 0.0611 | 0.0614 | 0.49% | |
| NG@20 | 0.0153 | 0.0203 | 0.0356 | 0.0671 | 0.0369 | 0.0575 | 0.0694 | 0.0696 | 0.0703 | 0.0703 | 0.00% | |
| Sports | HR @ 10 | 0.0163 | 0.0187 | 0.0298 | 0.0569 | 0.0336 | 0.0424 | 0.0589 | 0.0611 | 0.0612 | 0.0631 | 3.10% |
| HR @20 | 0.0260 | 0.0303 | 0.0459 | 0.0791 | 0.0525 | 0.0632 | 0.0836 | 0.0869 | 0.0858 | 0.0895 | 2.99% | |
| NG@10 | 0.0080 | 0.0101 | 0.0159 | 0.0331 | 0.0183 | 0.0244 | 0.0343 | 0.0357 | 0.0360 | 0.0367 | 1.94% | |
| NG@20 | 0.0104 | 0.0131 | 0.0200 | 0.0387 | 0.0231 | 0.0297 | 0.0405 | 0.0421 | 0.0422 | 0.0433 | 2.60% | |
| LastFM | HR @ 10 | 0.0431 | 0.0404 | 0.0633 | 0.0624 | 0.0560 | 0.0569 | 0.0587 | 0.0633 | 0.0807 | 0.0899 | 11.40% |
| HR@20 | 0.0642 | 0.0541 | 0.0927 | 0.0963 | 0.0826 | 0.0954 | 0.0826 | 0.0927 | 0.1174 | 0.1202 | 2.38% | |
| NG@10 | 0.0268 | 0.0245 | 0.0355 | 0.0361 | 0.0306 | 0.0318 | 0.0354 | 0.0359 | 0.0435 | 0.0465 | 6.89% | |
| NG@20 | 0.0321 | 0.0280 | 0.0429 | 0.0446 | 0.0372 | 0.0415 | 0.0414 | 0.0433 | 0.0526 | 0.0543 | 3.23% | |
| ML-1M | HR @10 | 0.1556 | 0.1657 | 0.2137 | 0.2704 | 0.2065 | 0.2639 | 0.2705 | 0.2891 | 0.2757 | 0.2952 | 2.10% |
| HR@20 | 0.2488 | 0.2664 | 0.3245 | 0.3738 | 0.3137 | 0.3717 | 0.3714 | 0.3950 | 0.3884 | 0.4031 | ||
| NG@10 | 0.0950 | 0.0828 | 0.1116 | 0.1530 | 0.1087 | 0.1455 | 0.1516 | 0.1673 | 0.1568 | 0.1696 | 2.05% | |
| NG@20 | 0.1028 | 0.1081 | 0.1395 | 0.1790 | 0.1356 | 0.1727 | 0.1771 | 0.1939 | 0.1851 | 0.1968 | 1.49% |
分析与结论:
- 时域模型表现欠佳:
Caser,GRU4Rec,SASRec等传统时域序列推荐方法的性能普遍不佳。这是因为它们难以充分识别用户行为中相互交织的周期性模式,而这些模式对于捕捉用户的真实兴趣至关重要。DuoRec通过结合监督和无监督对比学习,验证了其有效性,表现优于其他传统时域模型。 - 频域模型普遍优越: 利用频域进行分析的方法(如
FMLPRec,FamouSRec,FEARec,SLIME4Rec,BSARec)通常表现出更优异的性能。FMLPRec通过MLP结构在频域衰减噪声,在大多数数据集上取得了与SASRec相当甚至更好的性能。FamouSRec,FEARec,SLIME4Rec通过将频域分析与对比学习结合,进一步提升了性能。BSARec通过频域重调校组件作为自注意力机制的归纳偏置,缓解了归纳偏置不足的问题,并减轻了过平滑 (over-smoothing)。
WEARec表现最佳:WEARec在所有四个数据集上均取得了最佳性能,其相对于最佳基线模型的提升(Improv.列)在LastFM数据集上HR@10达到了11.40%,在其他数据集上也保持了稳定的提升。这验证了WEARec结合动态频域滤波模块和小波特征增强模块的优越性。
6.2. 长序列场景下的模型性能 (RQ2)
为了探究长序列场景对推荐结果的影响,论文对 FMLPRec, BSARec, SLIME4Rec 和 WEARec 模型的最大序列长度 进行了变化。实验选取了平均序列长度更长的 LastFM 和 ML-1M 数据集。
以下是原文 Table 5 提供的在不同序列长度 下,WEARec 与 SLIME4Rec 和 BSARec 的性能比较。
| Method | ML-1M | LastFM | |||||||
|---|---|---|---|---|---|---|---|---|---|
| HR@10 | NG@10 | HR@20 | NG@20 | HR@10 | NG@10 | HR@20 | NG@20 | ||
| N = 50 | BSARec | 0.2757 | 0.1568 | 0.3884 | 0.1851 | 0.0807 | 0.0435 | 0.1174 | 0.0526 |
| SLIME4Rec | 0.2894 | 0.1675 | 0.3934 | 0.1937 | 0.0633 | 0.0376 | 0.0936 | 0.0453 | |
| Ours | 0.2952 | 0.1696 | 0.4031 | 0.1968 | 0.0899 | 0.0465 | 0.1202 | 0.0547 | |
| N = 100 | BSARec | 0.3073 | 0.1815 | 0.4089 | 0.2024 | 0.0798 | 0.0455 | 0.1202 | 0.0545 |
| SLIME4Rec | 0.3147 | 0.1815 | 0.4126 | 0.2062 | 0.0679 | 0.0382 | 0.0991 | 0.0463 | |
| Ours | 0.3180 | 0.1819 | 0.4175 | 0.2069 | 0.0890 | 0.0494 | 0.1266 | 0.0589 | |
| N = 150 | BSARec | 0.3171 | 0.1826 | 0.4300 | 0.2111 | 0.0826 | 0.0476 | 0.1174 | 0.0564 |
| SLIME4Rec | 0.3166 | 0.1820 | 0.4298 | 0.2127 | 0.0688 | 0.0387 | 0.1055 | 0.0479 | |
| Ours | 0.3215 | 0.1848 | 0.4338 | 0.2131 | 0.0927 | 0.0522 | 0.1312 | 0.0617 | |
| N = 200 | BSARec | 0.3161 | 0.1837 | 0.4311 | 0.2127 | 0.0862 | 0.0476 | 0.1257 | 0.0594 |
| SLIME4Rec | 0.3166 | 0.1850 | 0.4343 | 0.2173 | 0.0679 | 0.0391 | 0.1064 | 0.0488 | |
| Ours | 0.3334 | 0.1904 | 0.4421 | 0.2179 | 0.0972 | 0.0556 | 0.1477 | 0.0682 | |
分析与结论:
-
长序列信息的重要性: 几乎所有模型在 时都达到了最佳性能,这表明更长的序列信息能够更全面地表示用户行为模式。
-
基线模型在长序列下的局限性: 尽管基线模型在长序列场景下表现出性能提升,但它们容易过拟合,导致性能收敛。
-
WEARec在长序列下的显著优势:WEARec在所有不同的最大序列长度设置下始终优于基线模型,并且在长序列场景下(如 ),其相对于基线模型的改进更加显著。Figure 3 也直观地展示了这一趋势。
该图像是图表,展示了WEARec与FMLPRec、SLIME4Rec和BSARec在不同序列长度 下的 ext{H R}@20性能比较,数据源为ML-1M和LastFM。
Figure 3: The performance comparison of WEARec with FMLPRec, SLIME4Rec and BSARec at different sequence lengths on ML-1M and LastFM.
6.3. 模型复杂度和运行时分析 (RQ2)
为了评估 WEARec 的开销,在 的情况下评估了训练期间的参数数量和每个 epoch 的运行时。
以下是原文 Table 6 提供的在 时,所有数据集上的参数数量和训练时间(每个 epoch 的运行时)。
| Methods | ML-1M | Beauty | Sports | LastFM | ||||
|---|---|---|---|---|---|---|---|---|
| # params | s/epoch | # params | s/epoch | # params | s/epoch | # params | s/epoch | |
| WEARec | 426,082 | 66.46 | 981,922 | 15.12 | 1,382,306 | 26.12 | 440,802 | 5.23 |
| FMLPRec | 324,160 | 36.93 | 880,000 | 10.11 | 1,280,384 | 22.78 | 338,880 | 4.91 |
| BSARec | 331,968 | 109.26 | 887,808 | 25.87 | 1,288,192 | 50.59 | 346,688 | 10.84 |
| SLIME4Rec | 375,872 | 120.43 | 931,712 | 31.44 | 1,332,096 | 68.74 | 390,592 | 13.77 |
分析与结论:
- 参数数量:
WEARec的总参数量相比FMLPRec有所增加,这主要是由于引入了用于上下文参数生成的MLP。然而,其参数量与BSARec和SLIME4Rec处于相似或略高的水平。 - 运行时效率: 尽管参数量有所增加,
WEARec的训练时间(每个 epoch 的运行时)却比SLIME4Rec和BSARec更短。这得益于WEARec没有采用计算成本较高的对比学习和自注意力机制,而是利用了FFT和Haar小波变换的对数线性时间复杂度。 - 计算复杂度理论分析: 传统自注意力机制的计算复杂度为 ,而
WEARec特征混合层的计算复杂度可以降低到 (归因于FFT和Haar小波变换)。自适应滤波器的MLP开销为 ,前馈网络为 。因此,WEARec的总时间复杂度为 ,当 较大时,主要由 支配。这表明WEARec比使用自注意力机制的模型(如BSARec)具有更优越的时间复杂度。
6.4. 模块的贡献 (RQ3) - 消融研究
Figure 4 总结了 WEARec 及其变体在四个数据集上的 HR@20 和 NG@20 性能。
-
WEARec: 完整模型。 -
w/o W: 移除小波特征增强 (WFE) 模块的变体。 -
w/o F: 移除动态频域滤波 (DFF) 模块的变体。 -
w/o M: 移除多头投影 (multi-head projection) 的变体。
该图像是一个条形图,展示了WEARec变体在四个数据集上的性能,分别为HR@20和NG@20。图中展示了不同方法的比较,包括去除不同模块后的性能下降情况。
Figure 4: The and performance achieved by WEARec variants on four datasets.
分析与结论:
结果显示,WEARec 在所有数据集上均优于其所有变体。这有力地证明了模型中所有组件的有效性:
- 移除
WFE(w/o W) 和DFF(w/o F) 都会导致性能下降,这说明两个核心模块对于捕捉用户偏好都是不可或缺的。DFF负责捕捉个性化的全局频域信息,而WFE则负责增强局部非平稳信号,两者协同工作才能达到最佳效果。 - 移除多头投影 (
w/o M) 也导致性能下降,这表明将输入特征分解到多个子空间并独立处理是有效的,能够增强模型的表示能力。
6.5. 超参数分析 (RQ4)
Figure 5 展示了不同超参数对模型性能(HR@20)的影响。

该图像是一个图表,展示了不同超参数对模型性能的影响。图中左侧展示了在变化的参数 下四个数据集(ML-1M、Beauty、LastFM、Sports)的性能变化;右侧则呈现了在变化的参数 下的性能表现。不同的数据集使用不同的线条和标记进行区分,清晰展示了相应的趋势和数值变化。
Figure 5: Performance of WEARec on HR with varying hyperparameters..
6.5.1. 对 的敏感性分析
Figure 5 的左侧展示了改变多头投影数量 时,HR@20 的性能变化。
分析与结论: 结果表明,一个既不太大也不太小的最佳 值对于学习用户兴趣偏好并提高模型性能至关重要。 值过小可能无法充分捕获不同维度的特征,而 值过大可能导致过拟合或计算开销增加。最佳 值在不同数据集上有所差异(如 Beauty 为 8,ML-1M 和 LastFM 为 2,Sports 为 4),这反映了不同数据集的复杂性和特征多样性。
6.5.2. 对 的敏感性分析
Figure 5 的右侧展示了改变特征集成超参数 时,HR@20 的性能变化。
分析与结论: 结果表明,当 约为 0.3 时,模型表现出最佳性能。这说明在 WEARec 中,对小波增强的细粒度局部特征 (WFE 输出) 的强调 (通过 ) 略高于动态滤波的全局特征 (DFF 输出)。这意味着局部细节对于捕捉用户兴趣至关重要,但适当的全局信息融合也能带来增益。
6.6. 滤波器可视化
Figure 6 展示了不同类型滤波模型在 Beauty 数据集各层学习到的频谱响应(频率和幅度特征)。

该图像是图表,展示了不同类型滤波器在Beauty数据集中的第一层和第二层的幅频响应。左侧显示第一层滤波器的响应,右侧则为第二层的响应,包含 WEARrec、FMLPre、SLIME4Rec_L 和 SLIME4Rec_G 等模型的归一化幅度变化。
Figure 6: Visualization of spectral responses for different types of filter models across layers in Beauty. More in-depth model analysis in Appendix C (Xu et al. 2025).
分析与结论:
- 静态滤波器局限性:
FMLPRec和SLIME4Rec(包括其局部和全局变体)由于静态滤波器设计,在各自的频段内倾向于学习低频分量。这意味着它们对高频信号的响应较弱,难以捕获序列中的快速变化或短期兴趣。 WEARec的动态能力: 相比之下,WEARec受益于其动态频域滤波设计,能够涵盖所有频率分量。这表明WEARec能够根据用户序列的上下文,自适应地调整滤波器,从而捕捉到更广泛的频率特征,包括高频和低频信息。这验证了DFF模块能够实现个性化频率响应的能力。
6.7. 学习到的 的可视化
Figure 7 展示了在 Beauty 数据集上,每一层学习到的小波特征增强器 (来自公式 )的归一化幅度。

该图像是图表,展示了WEARec模型在1层和2层WFE下的归一化幅度与移位索引的关系。图(a)显示了1层WFE的幅度变化,图(b)则展示了2层WFE的幅度变化,两者均表明了不同层次下模型的响应特性。
Figure 7: Visualization of learned T in Beauty
分析与结论:
- 第一层
WFE: 在第一层,小波特征增强模块学习到多个非平稳信号的时间点,并赋予它们较高的权重进行增强。同时,对于可能构成噪声信息的非平稳信号点,则赋予负权重进行抑制。这表明WFE能够智能地识别并调整非平稳信号的重要性。 - 第二层
WFE: 在第二层,模型选择最近的非平稳信号点进行增强。 这表明小波特征增强器能够捕获非平稳信号的时间点,并自适应地调整其权重,从而有效地增强序列中的局部细粒度信息,特别是高频瞬态变化。
6.8. 案例研究
为了评估动态滤波器和小波增强器是否能更好地捕获更广泛的频域特征,论文基于引言中的实验(Figure 1),可视化了不同模型正确捕获的用户数量。Figure 8 展示了在 Sports 和 Beauty 数据集上,不同频率下用户数量的分布情况。

该图像是图表,展示了在不同频率下用户数量在运动和美容领域的分布情况。左侧(a)表示运动领域的用户数量,右侧(b)表示美容领域的用户数量,数据分别来自不同的推荐算法。
Figure 8: Case Study in Sports and Beauty.
分析与结论:
FMLPRec的局限性:FMLPRec在多个频段捕获的用户最少。这是由于其使用静态滤波器,无法捕获多样化的用户行为模式。- 基线模型的改进:
BSARec和SLIME4Rec取得了更好的结果,因为它们分别通过归纳偏置增强自注意力或使用频率斜坡结构和对比学习增强用户嵌入表示。 WEARec的最佳表现: 结合动态滤波器和小波增强器产生了最佳结果。得益于动态滤波器捕获全局信息的能力和小波增强器提取局部细节的能力,WEARec在低频区域和某些高频区域都取得了最佳性能。这进一步验证了WEARec两个核心模块的协同作用,使其能够全面理解用户在不同频率上的复杂偏好。
7. 总结与思考
7.1. 结论总结
本文提出了 WEARec (Wavelet Enhanced Adaptive Frequency Filter for Sequential Recommendation),一个旨在有效捕捉多样化用户行为模式并能高效处理长序列的序列推荐模型。WEARec 的核心创新在于其包含的两个关键模块:
- 动态频域滤波 (Dynamic Frequency-domain Filtering, DFF) 模块: 它能够根据用户的行为序列动态调整滤波器,从而捕获个性化的全局频域分布信息。这解决了现有频域模型静态滤波的局限性。
- 小波特征增强 (Wavelet Feature Enhancement, WFE) 模块: 它通过小波变换重构序列,专门增强那些易被全局离散傅里叶变换模糊的非平稳信号和短期波动,从而捕捉细粒度的局部时间模式。
这两个模块协同工作,实现了对用户复杂偏好的全面理解。在四个公开基准数据集上进行的广泛实验证明了
WEARec在推荐性能和长序列场景下的计算效率方面均优于最先进的基线模型。
7.2. 局限性与未来工作
原文的结论部分相对简短,并未明确列出论文的局限性。然而,根据论文的动机和方法设计,可以推断出一些潜在的局限性和未来工作方向:
- 小波类型选择的泛化性: 论文选择了
Haar小波,尽管其简单高效,但在某些复杂信号模式下,其他类型的小波(如Daubechies小波、Symlets小波等)可能提供更优的分解和重构特性。未来可以探索不同小波基函数的选择对模型性能和鲁棒性的影响。 - 动态滤波器的复杂性与可解释性:
DFF模块通过MLP动态生成滤波器的缩放因子和偏置,增加了模型的灵活性,但其内在机制的可解释性可能不如固定滤波器直观。未来的工作可以尝试设计更具可解释性的动态滤波机制。 - 融合策略的进一步优化: 当前的特征集成模块采用简单的加权求和,超参数 负责平衡全局和局部特征。未来可以探索更复杂的自适应融合机制,例如基于注意力机制或门控机制的融合,以动态调整两类特征的贡献。
- 计算效率的极限: 尽管
WEARec比基于自注意力或对比学习的模型更高效,但随着序列长度和嵌入维度的进一步增长,FFT和小波变换的计算开销仍可能成为瓶颈。可以探索更轻量级或近似的变换方法。 - 冷启动问题 (Cold Start Problem): 论文主要关注已有行为序列的用户推荐。对于新用户或新物品的冷启动问题,
WEARec作为一个依赖序列历史的模型,可能仍然面临挑战。未来的研究可以探索如何将WEARec与解决冷启动问题的技术相结合。
7.3. 个人启发与批判
7.3.1. 个人启发
- 时频分析的潜力: 这篇论文再次强调了将信号处理中的时频分析技术引入推荐系统领域的巨大潜力。用户行为序列本质上就是一种时间序列信号,频率分析能够捕捉周期性偏好,小波分析则能捕捉局部瞬时兴趣,两者的结合提供了比纯时域或纯频域更全面的视角。这启发我们可以在其他时序数据处理任务中,更多地考虑结合多种时频分析工具。
- 个性化与自适应的重要性: 论文通过动态滤波器实现了对用户个性化行为模式的适应,这对于提升推荐效果至关重要。静态模型在面对异构用户群体时往往表现不佳,因此,在设计任何推荐模型时,都应充分考虑如何融入个性化和自适应机制。
- 计算效率与性能的平衡:
WEARec在提升性能的同时,通过避免复杂的自注意力机制和对比学习,实现了更低的计算开销。这对于实际工业应用至关重要,提醒研究者在追求性能突破的同时,也要兼顾模型的部署成本和实时性要求。无注意力 (attention-free) 架构在长序列场景下的效率优势值得关注。 - 模块化设计思想:
DFF和WFE两个模块各司其职,又通过简单的融合策略协同工作,这种清晰的模块化设计使得模型易于理解、实现和扩展。
7.3.2. 批判性思考
MLP在动态滤波器中的表达能力:DFF模块使用简单的三层MLP来生成缩放因子和偏置。虽然其简单性带来了效率,但在捕获极其复杂、非线性的用户上下文信息并将其映射到滤波器参数时,其表达能力可能存在局限性。更复杂的神经网络结构(如Transformer编码器)或许能提取更丰富的上下文,但也会增加计算成本。如何在简单与强大之间找到平衡,值得进一步探讨。Haar小波的局限性:Haar小波是最简单的小波基,其方波形状可能不适合所有类型的信号。例如,对于平滑或具有复杂振荡模式的信号,Haar小波可能会引入伪影 (artifacts) 或无法很好地表示细节。选择更平滑、具有更高消失矩 (vanishing moments) 的小波(如Daubechies)可能会在某些情况下提供更好的信号分解和重构,但会增加计算复杂性。论文对此选择的讨论可以更深入一些,例如通过实验对比不同小波基的效果。- 超参数 的敏感性与手动调优: 论文提到 是一个超参数,需要手动调优。尽管实验结果表明 时性能最佳,但这仍然依赖于经验选择。能否设计一种机制,让模型能够自适应地学习 ,或者根据序列特性动态调整 ,将是未来增强模型鲁棒性的一种方向。
- 全局
DFT和局部DWT结合的理论基础: 论文虽然解释了DFT和DWT各自的优缺点,以及它们如何互补。但可以进一步探讨两者结合的更深层次的理论基础,例如,它们在信息论层面是如何协同工作来最大化信息捕获的,或者是否存在潜在的冗余或冲突。 - 跨域泛化能力: 实验主要在电商、电影和音乐等领域进行。对于其他领域(如社交网络、知识图谱等)或更具挑战性的场景(如极度稀疏、长尾分布等),
WEARec的泛化能力和鲁棒性如何,仍需进一步验证。
相似论文推荐
基于向量语义检索推荐的相关论文。