论文状态：已完成

HPSERec: A Hierarchical Partitioning and Stepwise Enhancement Framework for Long-tailed Sequential Recommendation

价格：0.100000

已有 3 人读过

本分析由 AI 生成，可能不完全准确，请以原文为准。

TL;DR 精炼摘要

本文提出了HPSERec框架，旨在解决序列推荐系统中的长尾问题。该框架通过分层划分和逐步增强策略，基于新的不平衡度量，将物品划分为多个子集，针对性地通过知识蒸馏提高长尾物品的表示，同时利用Sinkhorn最优传输算法实现全局信息反馈，实验结果优于现有基线。

摘要

The long-tail problem in sequential recommender systems stems from imbalanced interaction data, resulting in suboptimal model performance for tail users and items. Recent studies have leveraged head data to enhance tail data for diminish the impact of the long-tail problem. However, these methods often adopt ad-hoc strategies to distinguish between head and tail data, which fails to capture the underlying distributional characteristics and structural properties of each category. Moreover, due to a substantial representational gap exists between head and tail data, head-to-tail enhancement strategies are susceptible to negative transfer, often leading to a decline in overall model performance. To address these issues, we propose a hierarchical partitioning and stepwise enhancement framework, called HPSERec, for long-tailed sequential recommendation. HPSERec partitions the item set into subsets based on a data imbalance metric, assigning an expert network to each subset to capture user-specific local features. Subsequently, we apply knowledge distillation to progressively improve long-tail interest representation, followed by a Sinkhorn optimal transport-based feedback module, which aligns user representations across expert levels through a globally optimal and softly matched mapping. Extensive experiments on three real-world datasets demonstrate that HPSERec consistently outperforms all baseline methods. The implementation code is available at https://github.com/bolunxier123/HPSERec.

思维导图

论文精读

中文精读约 13 分钟读完 · 9,178 字

1. 论文基本信息

1.1. 标题

HPSERec: A Hierarchical Partitioning and Stepwise Enhancement Framework for Long-tailed Sequential Recommendation (HPSERec：一种用于长尾序列推荐的分层划分与逐步增强框架)

1.2. 作者

Xiaolong Xu, Xudong Zhao, Haolong Xiang, Xuyun Zhang, Wei Shen, Hongsheng Hu, Lianyong Qi

机构: 南京信息工程大学软件学院 (School of Software, Nanjing University of Information Science and Technology), 麦考瑞大学 (Macquarie University), 纽卡斯尔大学 (University of Newcastle) 等。

1.3. 发表期刊/会议

来源: 根据文中格式（NeurIPS Checklist）推测，该论文可能是提交给 NeurIPS (Conference on Neural Information Processing Systems) 或已被接收。NeurIPS 是人工智能与机器学习领域的顶级会议。
原文链接: PDF Link

1.4. 摘要

序列推荐系统（SRS）深受长尾问题（Long-tail Problem）困扰，导致模型对尾部（不流行）用户和物品的预测性能不佳。现有的解决方法通常采用粗暴的“头部/尾部”二分法，或者直接利用头部数据增强尾部，但这往往忽略了数据分布的内在特性，甚至引发“负迁移”（Negative Transfer）。为了解决这些问题，作者提出了 HPSERec 框架。该框架包含三个关键步骤：

分层划分: 基于新的不平衡度量指标，将物品集划分为多个子集。
逐步增强 (前馈): 为每个子集分配专家网络，并通过知识蒸馏逐步提升长尾兴趣的表示。
反馈调节: 利用基于 Sinkhorn 的最优传输算法，将全局专家的信息反馈给局部专家，实现分布层面的对齐。实验表明，HPSERec 在三个真实数据集上均优于现有基线方法。

2. 整体概括

2.1. 研究背景与动机

核心问题: 推荐系统普遍存在长尾效应 (Long-tail Effect)。
- 用户侧: 少数活跃用户贡献了绝大多数交互。
- 物品侧: 少数流行物品（头部物品）占据了绝大多数点击，而海量冷门物品（尾部物品）鲜有人问津。
- 下图（原文 Figure 1）展示了这种极度不平衡的分布：
  
  该图像是图表，展示了 Yelp 和 MovieLens-20M 上消费项的数量分布。在两个图中，消费项按索引排序，分别显示了头部项目和尾部项目的消费情况，呈现出明显的长尾特征。
现有挑战:
1. 任意划分 (Arbitrary Partitioning): 现有方法通常机械地将前 20% 定义为头部，后 80% 定义为尾部。这是一种经验主义做法，无法适应不同数据集（如 MovieLens 和 Yelp 的长尾程度完全不同）。
2. 有缺陷的增强 (Flawed Head-Tail Augmentation): 盲目地将头部数据的信息迁移给尾部，由于两者特征分布差异巨大（Domain Gap），容易引入噪声，导致模型不仅没学好尾部，反而把头部也搞砸了（即负迁移）。

2.2. 核心贡献

新度量与划分算法: 定义了一种量化数据不平衡程度的指标，并设计了一种动态规划算法，将物品集科学地划分为多个平衡子集，而非简单的二分法。
HPSERec 框架: 提出了一个包含分布平衡、前馈增强（基于知识蒸馏）和反馈调节（基于最优传输）的完整框架。
性能提升: 在处理长尾物品时表现优异，且不牺牲头部物品的推荐准确率，甚至优于基于大语言模型（LLM）的推荐方法。

3. 预备知识与相关工作

3.1. 基础概念

为了理解本文，初学者需要掌握以下概念：

序列推荐 (Sequential Recommendation, SRS): 根据用户按时间顺序排列的历史交互记录（如点击过的商品序列），预测用户下一个可能感兴趣的物品。
长尾分布 (Long-tailed Distribution): 数据的频率分布呈现幂律特性。在推荐系统中，意味着极少数物品极其热门（头部），而绝大多数物品非常冷门（尾部）。
知识蒸馏 (Knowledge Distillation, KD): 一种模型压缩或增强技术。通常让一个由强模型（教师）产生的预测概率分布去指导另一个模型（学生），使其学到更泛化的知识。
最优传输 (Optimal Transport, OT): 数学中用于计算两个概率分布之间距离并找到最小传输成本的方法。Sinkhorn 算法 是 OT 的一种高效近似解法，常用于解决分布对齐问题。
专家混合模型 (Mixture of Experts, MoE): 使用多个专门的小模型（专家）分别处理不同类型的数据，最后综合它们的输出。

3.2. 技术演进与差异

传统 SRS: 如 SASRec (基于 Self-Attention) 和 BERT4Rec，它们在整体准确率上很高，但倾向于推荐热门物品，忽略尾部。
长尾增强方法:
- CITIES: 利用头部物品的上下文来推断尾部物品的嵌入。
- MELT: 同时也考虑了长尾用户和长尾物品的相互增强。
- LLM-based: 利用大语言模型的语义知识来辅助推荐（如 RLMRec, LLM-ESR）。
本文差异: 之前的长尾方法大多是“二元论”（只分头/尾），且迁移策略生硬。HPSERec 采用了分层（Hierarchical） 的视角，将物品分为多个层级，并利用最优传输进行更柔性、全局的特征对齐，这是其核心创新。

4. 方法论

4.1. 方法概览

HPSERec 的整体架构如下图（原文 Figure 2）所示，主要由三个模块组成：

分布平衡模块 (Distribution Balancing Module): 负责将物品集科学地切分。
前馈模块 (Feedforward Module): 从局部专家到全局专家，利用知识蒸馏传递信息。
反馈模块 (Feedback Module): 从全局专家反向修正局部专家，利用最优传输对齐分布。

该图像是HPSERec的总体架构示意图。分布平衡模块将项目集划分为子集，以减少长尾效应并改善训练。前馈模块通过对比学习增强长尾项表示，并通过知识蒸馏精炼全局专家性能。反馈模块利用Sinkhorn最优传输算法，将头项信息转移到长尾专家，扩大其感受野。

4.2. 分布平衡模块 (Distribution Balancing Module)

该模块的目标是将物品集 $V$ 划分为 $L$ 个子集，使得每个子集内部的不平衡程度最小。

步骤 1: 定义不平衡度量 假设子集 $V_k$ 中的物品已按交互次数排序。作者首先定义了子集内的归一化交互概率分布 $p_i^{(k)}$ ： $p_{i}^{(k)} = \frac{c_{i}}{\sum_{j \in V_{k}} c_{j}}$ 其中 $c_i$ 是物品 $i$ 的交互次数。

为了衡量这个分布的集中程度（即不平衡度），作者提出了一个非线性聚合泛函 $\Phi_k$ ： $\Phi_{k} = \left( \sum_{i \in V_{k}} \left( p_{i}^{(k)} \right)^{\alpha} \right)^{\frac{1}{1-\alpha}}$

初学者解释: 这个公式类似于物理学中的“熵”或经济学中的不平等度量。 $\alpha$ $α$ 是一个超参数。
- $\Phi_k$ 越小，说明子集内的物品交互分布越均匀。
- $\Phi_k$ 越大，说明交互高度集中在少数物品上（长尾效应严重）。
  
  为了防止划分出的子集大小差异过大（例如一个子集只有1个物品，另一个有1万个），作者加入了一个大小正则项 $B_k$ ： $B_{k} = \left( \frac{S_{k} - \mu}{\mu} \right)^{2}$ 其中 $S_k$ 是子集大小， $\mu$ 是平均大小。这强迫每个子集的大小尽量接近平均值。

步骤 2: 总体不平衡得分 综合上述两项，定义子集 $V_k$ 的不平衡得分为： $\mathcal{I}(V_{k}) = \log \Phi_{k} + \gamma B_{k}$ 其中 $\gamma$ 是控制权重。

步骤 3: 动态规划划分 目标是找到划分点，使得所有子集的得分之和最小： $\operatorname*{min}_{\Theta} \quad \sum_{k=1}^{L} {\mathcal{I}}(V_{k})$ 作者设计了一个动态规划算法（Algorithm 1）来高效求解这个问题，从而得到最优的物品分组。

4.3. 前馈模块 (Feedforward Module)

划分好子集后，如何训练模型？作者并没有简单地让每个专家只看一个子集，而是采用了累积式的数据分配。

步骤 1: 专家网络分配 设有 $L$ 个专家网络 $E_1, \dots, E_L$ 。

$E_1$ 负责处理最冷门的子集 $V_1$ 。
$E_2$ 负责处理 $V_1 \cup V_2$ 。
...
$E_L$ (全局专家) 负责处理所有物品 $V_1 \cup \dots \cup V_L$ 。
直觉: 这种设计让模型先专注于极难的尾部样本，然后逐渐引入头部样本，类似于课程学习 (Curriculum Learning)。

步骤 2: 逐步知识蒸馏 (Stepwise Knowledge Distillation) 为了让下游专家（处理更多数据的模型）能保留上游专家（处理尾部数据的模型）学到的宝贵尾部特征，作者使用了知识蒸馏。只在相邻的专家之间进行蒸馏（ $E_{i-1} \to E_i$ ），以减少能力差距带来的震荡。

蒸馏损失函数 $\mathcal{L}_{KD}$ 定义为： $\mathcal{L}_{KD} = \frac{1}{\lvert \mathscr{V}_{i} \rvert} \sum_{v \in \mathscr{V}_{i}} \mathrm{KL} \Big( \mathrm{Softmax}(z_{v}^{i-1} / \tau) \ || \ \mathrm{Softmax}(z_{v}^{i} / \tau) \Big)$

符号解释:
- $z_v^{i-1}, z_v^i$ : 分别是上游专家 i-1 和当前专家 $i$ 对物品 $v$ 输出的 Logits（未归一化的预测值）。
- $\tau$ : 温度参数，用于软化概率分布。
- $\mathrm{KL}$ : KL 散度，用于衡量两个概率分布的差异。
作用: 强迫专家 $E_i$ 的预测分布尽可能模仿专家 $E_{i-1}$ ，从而继承其对尾部物品的敏感度。

4.4. 反馈模块 (Feedback Module)

前馈模块将尾部知识传给了全局模型，但尾部模型本身由于数据稀疏，表示能力可能很弱。反馈模块旨在将全局模型学到的高质量通用特征“教回”给尾部模型。

核心挑战: 两个模型的特征空间可能不对齐，且不存在严格的一对一映射。 解决方案: 使用 Sinkhorn 最优传输 (Optimal Transport) 进行软对齐。

步骤 1: 构建成本矩阵 计算第 $t$ 层专家（学生）和第 $t+1$ 层专家（老师）的用户表示之间的余弦距离矩阵 $C$ ： $C_{ij} = 1 - \cos(u_{i}^{t}, u_{j}^{t+1})$ 这表示了学生模型中的用户 $i$ 与老师模型中的用户 $j$ 之间的差异。

步骤 2: 熵正则化最优传输 目标是找到一个传输方案（Transport Plan） $\gamma$ ，使得传输成本最小： $\operatorname*{min}_{\gamma \in \Pi(\mu, \nu)} \sum_{i,j} \gamma_{ij} C_{ij} - \varepsilon \sum_{i,j} \gamma_{ij} \log \gamma_{ij}$

符号解释:
- $\gamma_{ij}$ : 传输矩阵，表示从 $u_i^t$ 传输多少“质量”到 $u_j^{t+1}$ 。
- $\sum \gamma_{ij} C_{ij}$ : 总传输成本。我们希望相似的用户之间传输更多（即距离 $C_{ij}$ 小的时候 $\gamma_{ij}$ 大）。
- $-\varepsilon \sum \gamma \log \gamma$ : 熵正则项。它鼓励 $\gamma$ 更加平滑（不只是非0即1），实现“软匹配”。
- $\Pi(\mu, \nu)$ : 约束条件，保证行和列的边缘分布符合均匀分布。

步骤 3: 反馈损失 通过 Sinkhorn 迭代算法 快速求解上述问题得到最优 $\gamma$ 后，反馈损失定义为： $\mathcal{L}_{\mathrm{back}} = \sum_{i,j} \gamma_{ij} C_{ij}$

作用: 最小化这个损失，意味着强迫学生模型（ $t$ 层）的用户表示向老师模型（ $t+1$ 层）中结构相似的用户表示靠拢，从而提升尾部专家的泛化能力。

5. 实验设置

5.1. 数据集

实验使用了三个公开的真实世界数据集：

Amazon Beauty: 亚马逊美容产品评论数据。
Yelp: 商业评论数据（如餐厅推荐）。
Amazon Music: 亚马逊数字音乐数据。

所有数据集均过滤掉了交互少于 5 次的用户。

数据特点: 如下表（Table 3）所示，这些数据具有典型的稀疏性和长尾特征。

Dataset #Items #Users #Int (Interactions) Avg |Su| (Seq Len)

Beauty 57,289 52,204 394,908 5.6

Yelp 15,720 4,722 192,214 3.8

Music 20,356 20,165 132,595 5.1

Dataset	#Items	#Users	#Int (Interactions)	Avg \|Su\| (Seq Len)
Beauty	57,289	52,204	394,908	5.6
Yelp	15,720	4,722	192,214	3.8
Music	20,356	20,165	132,595	5.1

5.2. 评估指标

采用 Top-K 排名指标进行评估（此处 $K=10$ ）：

命中率 (Hit Rate, HR@K):
- 定义: 衡量正确答案（Ground Truth）是否出现在推荐列表的前 K 个位置中。
- 公式: $\text{HR}@K = \frac{1}{|U|} \sum_{u \in U} \mathbb{I}(\text{rank}_{u, gt} \le K)$
- 符号: $|U|$ 是用户总数， $\mathbb{I}(\cdot)$ 是指示函数（条件满足为1，否则为0）， $\text{rank}_{u, gt}$ 是真实物品在推荐列表中的排名。
归一化折损累计增益 (NDCG@K):
- 定义: 不仅看是否命中，还看命中的位置。位置越靠前，得分越高。
- 公式: $\text{NDCG}@K = \frac{\text{DCG}@K}{\text{IDCG}@K}$ 其中 \text{DCG}@K = \sum_{i=1}^{K} \frac{2^{rel_i} - 1}{\log_2(i+1)}。
- 符号: $rel_i$ 是第 $i$ 个位置物品的相关性（通常命中为1，未命中为0）。IDCG 是理想情况下的最大 DCG 值。

5.3. 对比基线

通用 SRS: SASRec, BERT4Rec。
长尾增强 SRS:
- CITIES: 上下文推断尾部嵌入。
- MELT: 用户-物品互增强。
LLM 增强 SRS:
- RLMRec, LLMInit, LLM-ESR: 利用大语言模型生成特征或增强训练。

6. 实验结果与分析

6.1. 核心结果分析

下表（原文 Table 1）展示了 HPSERec 与其他模型在三个数据集上的全面对比。

Overall: 整体性能。
Tail/Head Item: 针对尾部（后80%）和头部（前20%）物品的性能。
Tail/Head User: 针对不活跃和活跃用户的性能。

主要发现:

全面领先: HPSERec 在所有数据集的 Overall 指标上均取得了最佳性能（标有 * 表示统计显著）。
尾部提升巨大: 在 Tail Item 指标上，HPSERec 相比传统模型（如 SASRec）有成倍的提升，且显著优于专门的长尾模型（如 MELT）。

打破“跷跷板”效应: 很多长尾方法（如 CITIES）在提升尾部性能时，牺牲了头部性能（Head Item 指标下降）。而 HPSERec 在提升尾部的同时，头部性能也保持甚至超过了最佳基线。这得益于其分层结构和双向增强机制。

以下是原文 Table 1 的完整转录：

Dataset	Model	Overall		Tail Item		Head Item		Tail User		Head User
Dataset	Model	HR@10	ND@10	HR@10	ND@10	HR@10	ND@10	HR@10	ND@10	HR@10	ND@10
Beauty	Bert4Rec	0.3945	0.2453	0.0342	0.0085	0.4917	0.2922	0.3845	0.2384	0.4593	0.2941
	SASRec	0.4488	0.2861	0.1593	0.0856	0.7187	0.4815	0.4236	0.2690	0.5261	0.3611
	CITIES	0.3894	0.2462	0.1127	0.0013	0.4974	0.2745	0.3852	0.2249	0.4554	0.2594
	MELT	0.4869	0.3144	0.1598	0.0628	0.8055	0.5595	0.4719	0.3021	0.5523	0.3679
	RLMRec	0.4077	0.2565	0.1924	0.1660	0.6302	0.4657	0.4356	0.3016	0.4892	0.3345
	LLMInit	0.4351	0.2914	0.2714	0.1708	0.6984	0.5198	0.4919	0.3117	0.5430	0.3632
	LLM-ESR	0.4945	0.3275	0.2986	0.1713	0.7270	0.5232	0.4821	0.3103	0.5501	0.3425
	HPSERec	0.5281*	0.3665*	0.3203*	0.2060*	0.7306	0.5229	0.5163*	0.3557*	0.5799*	0.4148*
Yelp	Bert4Rec	0.5307	0.3025	0.0131	0.0045	0.6834	0.3913	0.5319	0.3036	0.5251	0.2978
	SASRec	0.5866	0.3536	0.0890	0.0386	0.8002	0.4888	0.5848	0.3525	0.5945	0.3585
	CITIES	0.5745	0.3404	0.0776	0.0341	0.7648	0.4573	0.5751	0.3416	0.5891	0.3419
	MELT	0.6038	0.3687	0.0697	0.0263	0.8245	0.5041	0.6037	0.3688	0.6042	0.3681
	RLMRec	0.5306	0.3909	0.0104	0.0140	0.7683	0.4568	0.5351	0.3065	0.5137	0.2936
	LLMInit	0.6099	0.3781	0.0874	0.0330	0.7766	0.4797	0.6204	0.3795	0.6187	0.3823
	LLM-ESR	0.6190	0.3784	0.1584	0.0670	0.8045	0.5055	0.6138	0.3761	0.6331	0.3844
	HPSERec	0.6827*	0.4231*	0.3252*	0.1832*	0.8361*	0.5261*	0.6884*	0.4280*	0.6583*	0.4027*
Music	Bert4Rec	0.4721	0.3056	0.1222	0.0494	0.8299	0.5929	0.4475	0.2870	0.5638	0.3752
	SASRec	0.5431	0.3714	0.2473	0.1405	0.8511	0.6256	0.5149	0.3591	0.6843	0.4746
	CITIES	0.4421	0.3345	0.2243	0.0832	0.8328	0.6124	0.4835	0.3237	0.6317	0.4364
	MELT	0.5442	0.2710	0.0824	0.0312	0.8347	0.5391	0.4192	0.2609	0.5082	0.3085
	RLMRec	0.5431	0.3832	0.3271	0.1539	0.8531	0.6292	0.5070	0.3374	0.6677	0.4722
	LLMInit	0.5537	0.3877	0.3024	0.1574	0.8312	0.6426	0.5145	0.3426	0.6604	0.4631
	LLM-ESR	0.5958	0.4035	0.3318	0.1548	0.8961	0.6835	0.5672	0.3824	0.7069	0.4846
	HPSERec	0.6592*	0.4786*	0.4425*	0.2959*	0.8989*	0.6806	0.6428*	0.4701*	0.7144*	0.5069*

6.2. 细粒度分析与消融实验

分组分析: 如下图（原文 Figure 4）所示，HPSERec (橙色线) 在不同的用户序列长度和物品流行度分组下，均保持了优势。特别是在物品流行度最低的组（最左侧），其优势最明显，且没有像 MELT 那样在头部（最右侧）出现性能骤降。

该图像是图表，展示了HPSERec与其他基线模型在用户和物品分组中的表现。左侧图(a)显示了不同物品组的频率与HR@10的关系，右侧图(b)则展示了不同用户组的相应数据。这些结果基于Beauty数据集与SASRec模型。
消融实验: 作者在 Music 数据集上测试了去掉不同模块的效果（见原文 Table 2）。
- DB (Distribution Balancing): 去掉后，性能下降，证明科学划分比随机/二分划分好。
- FF (Feedforward): 核心增强模块，去掉后影响最大。
- FB (Feedback): 去掉后，性能也有所下降，证明反向对齐是有效的补充。
超参数分析:
- $\beta$ (长尾权重): 过大或过小都不好，实验显示在 1.0 左右最佳。
- $\tau$ (蒸馏温度): 1.2 左右最佳。过小则信息传递太生硬，过大则太模糊。
- 见下图（原文 Figure 3）：
  
  $Figure 3: The hyper-parameter experiments on the weight of user's long-tail interest representation $\\beta$ and distillation temperature $\\tau$ . The result are based on the Music dataset with the SASRec model.$ 该图像是一个图表，展示了用户长尾兴趣表示的权重 $\beta$ 和蒸馏温度 $\tau$ 的超参数实验结果。左侧两个图分别呈现了不同 $\beta$ 值下的 HR@10 和 NDCG@10 的变化，右侧两个图则展示了不同 $\tau$ 值下的相应指标。结果基于音乐数据集与 SASRec 模型生成。

7. 总结与思考

7.1. 结论总结

HPSERec 针对长尾序列推荐问题提出了一套系统性的解决方案。不同于以往“打补丁”式的增强，它从数据划分的源头入手（分布平衡模块），构建了分层的专家网络进行循序渐进的学习（前馈模块），并创造性地利用数学工具（Sinkhorn 最优传输）在反馈阶段解决了不同专家间特征空间难以对齐的难题。实验结果强有力地证明了该框架在平衡头部和尾部性能方面的卓越能力。

7.2. 局限性与未来工作

计算复杂度: 分布平衡模块涉及动态规划，在超大规模物品集（如数百万商品）上可能计算成本较高。
超参数敏感: 框架引入了多个超参数（如 $\alpha, \beta, \gamma, \tau, L$ ），在新的应用场景下可能需要繁琐的调优。
未来方向: 作者并未明确提出，但可以推测结合更高效的划分算法，或者探索将此框架与大型预训练模型（LLM）更深度的融合（而不仅仅是对比），是潜在的研究路径。

7.3. 个人启发与批判

启发: “软对齐” (Soft Alignment) 的思想非常有价值。在多模态学习或迁移学习中，直接对齐（如 MSE Loss）往往过于强硬，容易导致模型崩塌或负迁移。利用最优传输（Optimal Transport）来寻找两个分布之间最小代价的映射，是一种更优雅、更符合数据几何特性的对齐方式。
批判: 论文虽然在“用户”和“物品”双侧都做了评估，但模型设计主要围绕“物品”划分展开。尽管作者解释说物品嵌入的改善会自动带动用户嵌入，但这部分逻辑略显隐晦，未来或许可以设计专门针对长尾用户的划分策略。

相似论文推荐

基于向量语义检索推荐的相关论文。

暂时没有找到相似论文。