AiPaper
论文状态:已完成

Multi-Interest Recommendation: A Survey

发表:2025/06/18
原文链接PDF 下载
价格:0.10
价格:0.10
已有 4 人读过
本分析由 AI 生成,可能不完全准确,请以原文为准。

TL;DR 精炼摘要

本文系统综述了多兴趣推荐技术,通过多兴趣表征解决用户偏好多样性问题,实现更准确且细粒的推荐效果。文章回答为何多兴趣建模重要、关注哪些方面及如何实现,梳理了进展、挑战与未来方向,为相关研究提供基础框架。

摘要

Existing recommendation methods often struggle to model users' multifaceted preferences due to the diversity and volatility of user behavior, as well as the inherent uncertainty and ambiguity of item attributes in practical scenarios. Multi-interest recommendation addresses this challenge by extracting multiple interest representations from users' historical interactions, enabling fine-grained preference modeling and more accurate recommendations. It has drawn broad interest in recommendation research. However, current recommendation surveys have either specialized in frontier recommendation methods or delved into specific tasks and downstream applications. In this work, we systematically review the progress, solutions, challenges, and future directions of multi-interest recommendation by answering the following three questions: (1) Why is multi-interest modeling significantly important for recommendation? (2) What aspects are focused on by multi-interest modeling in recommendation? and (3) How can multi-interest modeling be applied, along with the technical details of the representative modules? We hope that this survey establishes a fundamental framework and delivers a preliminary overview for researchers interested in this field and committed to further exploration. The implementation of multi-interest recommendation summarized in this survey is maintained at https://github.com/WHUIR/Multi-Interest-Recommendation-A-Survey.

思维导图

论文精读

中文精读

1. 论文基本信息 (Bibliographic Information)

  • 标题 (Title): 多兴趣推荐:一篇综述 (Multi-Interest Recommendation: A Survey)
  • 作者 (Authors):
    • ZHAO Li (武汉大学,网络安全学院,空天信息安全与可信计算教育部重点实验室)
    • QIANG CHEN (腾讯微信)
    • LIXIN ZOU (武汉大学,网络安全学院,空天信息安全与可信计算教育部重点实验室)
    • AIXIN SUN (新加坡南洋理工大学)
    • CHENLIANG LI (武汉大学,网络安全学院,空天信息安全与可信计算教育部重点实验室,通讯作者)
  • 发表期刊/会议 (Journal/Conference): 这是一篇提交给 ACM 的手稿,目前作为预印本 (Preprint) 发布在 arXiv 上。arXiv 是一个知名的学术论文预印本平台,允许研究者在正式同行评审前分享他们的研究成果。
  • 发表年份 (Publication Year): 2024年 (arXiv 提交日期为 2024 年 6 月 24 日)
  • 摘要 (Abstract): 现有的推荐方法常常难以对用户的多方面偏好进行建模,这主要是因为用户行为具有多样性和易变性,并且实际场景中物品属性存在固有的不确定性和模糊性。多兴趣推荐通过从用户的历史交互中提取多个兴趣表征来应对这一挑战,从而实现更细粒度的偏好建模和更准确的推荐。该领域已引起推荐研究的广泛关注。然而,目前的推荐系统综述要么专注于前沿方法,要么深入探讨特定任务和下游应用。在这项工作中,作者通过回答以下三个问题,系统地回顾了多兴趣推荐的进展、解决方案、挑战和未来方向:(1) 为什么多兴趣建模对推荐至关重要?(2) 多兴趣建模在推荐中关注哪些方面?(3) 如何应用多兴趣建模,并介绍代表性模块的技术细节。作者希望这篇综述能为对该领域感兴趣并致力于进一步探索的研究者建立一个基础框架并提供初步概述。
  • 原文链接 (Source Link):

2. 整体概括 (Executive Summary)

  • 研究背景与动机 (Background & Motivation - Why):

    • 核心问题: 传统推荐系统通常将每个用户的偏好压缩成一个单一的向量表示,这被称为“单兴趣”建模。然而,在现实世界中,用户的兴趣是复杂且多样的。例如,一个用户可能同时对科幻电影、烹饪书籍和户外运动装备感兴趣。使用单一向量无法捕捉这种内在的多样性,导致推荐结果单一化,无法满足用户的潜在需求。
    • 重要性与挑战: 随着信息爆炸,用户行为变得更加多样和动态。准确捕捉和理解用户的多方面兴趣(即多兴趣)对于提升推荐系统的准确性 (Accuracy)多样性 (Diversity)可解释性 (Explainability) 至关重要。现有的研究缺乏一个系统性的框架来梳理多兴趣推荐这一快速发展的领域。
    • 切入点: 本文首次全面、系统地对多兴趣推荐这一特定领域进行综述。它不仅整理了现有方法,还构建了一个从动机、建模方面到具体技术实现与应用的完整框架,旨在为该领域的研究者提供一份清晰的路线图。
  • 核心贡献/主要发现 (Main Contribution/Findings - What):

    • 系统性框架: 提出了一个全面的多兴趣推荐研究框架,涵盖了任务 (Tasks)建模方面 (Aspects)模型 (Models)应用场景 (Scenarios) 四个维度。
    • 方法论归纳: 详细剖析了多兴趣推荐模型的两大核心组件:兴趣提取器 (Multi-Interest Extractor)兴趣聚合器 (Multi-Interest Aggregator),并对主流技术(如动态路由、注意力机制)进行了深入解释。
    • 挑战与展望: 系统地识别了当前研究面临的挑战,如自适应兴趣数量、模型效率、去噪能力等,并指出了未来有前景的研究方向,如强化学习和可解释性。
    • 资源整理: 提供了一个 GitHub 仓库,汇总了本文中提到的多兴趣推荐方法的实现代码,极大地便利了后续研究者。

3. 预备知识与相关工作 (Prerequisite Knowledge & Related Work)

  • 基础概念 (Foundational Concepts):

    • 推荐系统 (Recommender System): 一种信息过滤系统,旨在预测用户对物品的“评分”或“偏好”。其核心任务是根据用户的历史行为(如点击、购买、评分)和/或物品的属性,向用户推荐他们可能感兴趣的物品。
    • 兴趣建模 (Interest Modeling): 在推荐系统中,将用户的历史行为数据转化为一个或多个数学向量(称为“表征”或“嵌入”)的过程。这个向量旨在捕捉用户的偏好和兴趣。
    • 点击率预测 (Click-Through Rate, CTR Prediction): 推荐系统中的一个核心任务,目标是预测用户点击一个被推荐物品的概率。这通常被建模为一个二分类问题。
    • 序列推荐 (Sequential Recommendation): 另一核心任务,它关注用户行为的时间顺序。模型需要根据用户最近的一系列交互行为,预测用户的下一个交互物品。
    • 嵌入 (Embedding): 在深度学习中,将高维稀疏的离散特征(如用户ID、物品ID)映射到低维稠密的连续向量空间的过程。这些低维向量能够捕捉实体之间的语义关系。
  • 前人工作 (Previous Works): 论文在 Table 1 中系统地整理了现有的推荐系统综述,并将它们分为四类:

    1. 综合性综述: 提供了对推荐系统领域的广泛概述。

    2. 任务导向型综述: 专注于特定任务,如序列推荐、CTR预测、跨域推荐等。

    3. 方法导向型综述: 集中于特定的技术,如基于图神经网络、知识图谱或强化学习的推荐。

    4. 应用/主题导向型综述: 关注特定应用场景(如新闻、音乐、电商)或热点问题(如公平性、冷启动、可解释性)。

      以下是论文中Table 1的转录内容:

      综合性综述[1, 16, 20, 38, 127, 153, 229] 音乐[6, 41, 83, 158]
      序列推荐
      会话推荐
      [17, 29, 50, 144]
      [113, 192]
      新闻
      课程与教育
      [85, 136, 149]
      [37, 122]
      点击率预测[217, 231] 电子招聘[53, 131]
      兴趣点推荐[71, 221, 237] 文献与学术[4, 13, 23]
      跨域推荐[51, 86, 223] 旅游[11, 19]
      群组推荐[5, 87] 云服务与金融服务[8, 249]
      捆绑推荐[170, 171] 医疗保健与健康食品[3, 48, 181]
      协同过滤[43, 47, 88, 164] 社交网络与社交媒体[104, 162, 221]
      矩阵补全[18, 146] 电子商务与时尚[40, 44, 58, 200]
      图神经网络[7, 55, 104, 113, 207] 可解释推荐[24, 32, 232, 233]
      大语言模型[12, 115, 118, 206, 240] 评估[60, 166, 225]
      扩散模型[116, 201] 数据稀疏与冷启动问题[34, 77, 167]
      强化学习[2, 30, 31, 117, 165] 公平性[79, 106, 182, 197, 208, 226, 238]
      知识图谱[61, 160, 177, 227] 多样性与长尾问题[82, 91, 205]
      多模态与多行为[29, 119, 120] 去偏、去噪与采样[26, 62, 72, 129]
      因果推断[56, 128, 214] 联邦推荐[75, 170, 191]
      学习到排序[62, 69, 84] 隐私保护与可信[45, 57, 121, 186, 193, 213]
      自监督学习[80, 151, 220] 上下文感知推荐[23, 90, 132, 148, 184]
      主动学习与迁移学习[47, 139, 154] 对话式推荐[54, 73, 93]
      元学习[36, 77, 187] 意图感知推荐[74]
  • 技术演进 (Technological Evolution): 多兴趣推荐的发展可以看作是用户建模从粗粒度到细粒度的演进。

    • 早期: 协同过滤 (Collaborative Filtering) 等方法通过用户-物品交互矩阵来隐式建模用户偏好。
    • 深度学习早期: 神经网络被用来学习用户和物品的单一嵌入向量,通过内积或浅层网络计算匹配分数。
    • 多兴趣时代:MIND [95] 等工作为代表,研究者开始尝试从用户的历史行为序列中提取多个兴趣向量。这些方法通常利用胶囊网络 (Capsule Network) 的动态路由或注意力机制 (Attention Mechanism) 将历史物品聚类到不同的兴趣中。
  • 差异化分析 (Differentiation): 与上述所有综述不同,本文首次多兴趣建模作为一个独立且核心的研究范式进行系统性梳理。它填补了现有综述要么过于宽泛(覆盖整个推荐领域),要么过于狭窄(只关注某个特定任务或技术)的空白,为“多兴趣推荐”这一子领域提供了奠基性的框架和全面的文献回顾。

4. 方法论 (Methodology - Core Technology & Implementation Details)

本综述的核心在于其对多兴趣推荐方法的系统性分类和拆解。整个方法论可以概括为下图所示的通用框架:

该图像是一个示意图,展示了多兴趣推荐中分歧正则化的两大类别及其细分方法,包括表示正则化(如余弦相似度和对比学习)和分布正则化(如协方差正则化和元素级正则化)。 该图像是一个示意图,展示了多兴趣推荐中分歧正则化的两大类别及其细分方法,包括表示正则化(如余弦相似度和对比学习)和分布正则化(如协方差正则化和元素级正则化)。

图10: 该图像是一个多兴趣推荐模型的示意图,展示了用户与交互物品的嵌入表示,通过兴趣提取器得到多个兴趣向量,经过兴趣聚合器计算兴趣分布,最终生成用户表示并与候选物品嵌入匹配,预测推荐概率。

该框架主要包含两大核心组件:多兴趣提取器多兴趣聚合器

  • 方法原理 (Methodology Principles): 多兴趣推荐的核心思想是:不再用单一向量 hu\mathbf{h}_u 代表用户,而是学习一个包含 K 个兴趣向量的集合 Hu=[hu1,hu2,...,huK]\mathbf{H}_u = [\mathbf{h}_u^1, \mathbf{h}_u^2, ..., \mathbf{h}_u^K]。每个向量 huk\mathbf{h}_u^k 捕捉了用户的一个特定方面或维度的兴趣。

  • 方法步骤与流程 (Steps & Procedures):

    1. 输入: 用户的历史交互物品序列 {i1,i2,...,it}\{i_1, i_2, ..., i_t\}
    2. 嵌入层: 将每个物品 iji_j 转换为其嵌入向量 xj\mathbf{x}_j
    3. 多兴趣提取器 (Multi-Interest Extractor): 从物品嵌入序列 [x1,x2,...,xt][\mathbf{x}_1, \mathbf{x}_2, ..., \mathbf{x}_t] 中提取出 K 个用户兴趣向量 Hu=[hu1,...,huK]\mathbf{H}_u = [\mathbf{h}_u^1, ..., \mathbf{h}_u^K]
    4. 多兴趣聚合器 (Multi-Interest Aggregator): 将多个兴趣向量与目标物品的嵌入向量 xtarget\mathbf{x}_{target} 进行交互,最终聚合成一个单一的预测分数 y^\hat{y}
  • 数学公式与关键细节 (Mathematical Formulas & Key Details):

    A. 多兴趣提取器 (Multi-Interest Extractor) 这是从用户历史行为中提炼出多个兴趣向量的核心模块。主要有以下几种实现方式:

    1. 动态路由 (Dynamic Routing): 源于胶囊网络 (Capsule Network),它通过一个迭代过程将低层胶囊(历史物品)动态地“路由”到高层胶囊(兴趣)。

      • 核心思想: 通过迭代更新耦合系数,让每个历史物品找到最适合归属的兴趣簇。
      • 关键公式 (Squash 激活函数): hj=squash(sj)=sj21+sj2sjsj \mathbf { h } _ { j } = \mathrm { squash } ( \mathbf { s } _ { j } ) = \frac { | | \mathbf { s } _ { j } | | ^ { 2 } } { 1 + | | \mathbf { s } _ { j } | | ^ { 2 } } \frac { \mathbf { s } _ { j } } { | | \mathbf { s } _ { j } | | }
        • hj\mathbf{h}_j: 第 jj 个兴趣胶囊的输出向量。
        • sj\mathbf{s}_j: 第 jj 个兴趣胶囊的输入,是所有物品向量的加权和 icijxi\sum_i c_{ij} \mathbf{x}'_i
        • ||\cdot||: 向量的L2范数(长度)。这个函数的作用是:短向量几乎被压缩到0,长向量被压缩到接近1,起到激活和归一化的作用。
    2. 基于注意力的多兴趣提取器 (Attention-Aware Multi-Interest Extractor): 这是目前最主流的方法。它为每个待提取的兴趣预设一个可学习的“兴趣查询”向量,然后利用注意力机制计算历史物品与该查询的匹配度,从而对物品进行加权求和。

      • 核心思想: 让模型自动学习如何将相关的历史物品组合成一个兴趣。
      • 关键公式: hj=i=1twijxi \mathbf { h } _ { j } = \sum _ { i = 1 } ^ { t } w _ { i } ^ { j } \mathbf { x } _ { i } wij=softmax(ejσ(Wjxi+bj)) w _ { i } ^ { j } = \mathrm { s o f t m a x } \left( \mathbf { e } _ { j } \sigma ( \mathbf { W } _ { j } \mathbf { x } _ { i } + \mathbf { b } _ { j } ) ^ { \top } \right)
        • hj\mathbf{h}_j: 第 jj 个兴趣向量。
        • xi\mathbf{x}_i: 第 ii 个历史物品的嵌入向量。
        • wijw_i^j: 物品 ii 对于兴趣 jj 的注意力权重。
        • ej\mathbf{e}_j: 第 jj 个兴趣的可学习查询向量 (learnable interest embedding)。
        • Wj,bj\mathbf{W}_j, \mathbf{b}_j: 可学习的权重矩阵和偏置。
        • σ()\sigma(\cdot): 激活函数,如 tanh

    B. 多兴趣聚合器 (Multi-Interest Aggregator) 在得到多个兴趣向量后,需要将它们与目标物品结合,生成最终的推荐分数。论文总结了两种聚合范式:

    1. 表征聚合 (Representation Aggregation): 将多个兴趣向量聚合成一个单一的用户表征,与目标物品计算分数。 y^ui=ϕu(Hu)xi \hat { y } _ { u _ { i } } = \phi _ { u } ( \mathbf { H } _ { u } ) \mathbf{x}_{i}^{\top}

      • ϕu()\phi_u(\cdot): 聚合函数,可以是简单的 PoolingConcat,或更复杂的注意力网络,用于将 Hu\mathbf{H}_u 融合成单一向量。
    2. 推荐聚合 (Recommendation Aggregation): 让每个兴趣向量分别与目标物品计算一个分数,将这些分数聚合成最终分数。这种方法在 ComiRec [21] 等工作中被证明更有效,因为它保留了每个兴趣的独立性。 y^ui=ϕ(HuXi) \hat { y } _ { u _ { i } } = \phi ( \mathbf { H } _ { u } \mathbf { X } _ { i } ^ { \top } )

      • HuXi\mathbf{H}_u \mathbf{X}_i^{\top}: 得到一个分数向量 [yi1,yi2,...,yiK][y_i^1, y_i^2, ..., y_i^K]
      • ϕ()\phi(\cdot): 聚合策略,最常用的是 max 操作,即 y^ui=max(yi1,...,yiK)\hat{y}_{u_i} = \max(y_i^1, ..., y_i^K)。其直觉是:只要用户的任何一个兴趣与目标物品匹配,用户就可能喜欢该物品。

    C. 多兴趣表征正则化 (Multi-Interest Representation Regularization) 一个关键问题是,模型在训练时可能偷懒,让所有K个兴趣向量都变得非常相似,这被称为兴趣坍塌 (Interest Representation Collapse)。为解决此问题,需要引入正则化项强制不同兴趣向量之间保持差异性。

    该图像是包含三个子图的图表,分别展示了多兴趣推荐领域相关论文发表数量的累计增长及年度分布(左图),多兴趣推荐重要方法的引用次数及时间分布(中图),以及该领域研究中关键术语的词云展示(右图)。 该图像是包含三个子图的图表,分别展示了多兴趣推荐领域相关论文发表数量的累计增长及年度分布(左图),多兴趣推荐重要方法的引用次数及时间分布(中图),以及该领域研究中关键术语的词云展示(右图)。

    图2: 该图像是一个示意图,展示了多兴趣推荐中分歧正则化的两大类别及其细分方法,包括表示正则化(如余弦相似度和对比学习)和分布正则化(如协方差正则化和元素级正则化)。

    该图像是一个示意图,展示了多兴趣推荐中正则化方法的两种类型:(a) 表征正则化,通过避免兴趣向量的塌缩实现更丰富的兴趣表达;(b) 分布正则化,确保兴趣分布趋向均匀,提升多兴趣的多样性。 该图像是一个示意图,展示了多兴趣推荐中正则化方法的两种类型:(a) 表征正则化,通过避免兴趣向量的塌缩实现更丰富的兴趣表达;(b) 分布正则化,确保兴趣分布趋向均匀,提升多兴趣的多样性。

    图3: 该图像是一个示意图,展示了多兴趣推荐中正则化方法的两种类型:(a) 表征正则化,通过避免兴趣向量的塌缩实现更丰富的兴趣表达;(b) 分布正则化,确保兴趣分布趋向均匀,提升多兴趣的多样性。

    主要有两种正则化策略:

    1. 表征正则化 (Representation Regularization): 直接在兴趣向量上操作,鼓励它们在向量空间中互相远离。
      • 余弦相似度 (Cosine Similarity): 最小化不同兴趣向量之间的余弦相似度。 Lreg=1K2i=1Kj=1Khihjhihj \mathcal { L } _ { r e g } = \frac { 1 } { K ^ { 2 } } \sum _ { i = 1 } ^ { K } \sum _ { j = 1 } ^ { K } \frac { \mathbf { h } _ { i } \cdot \mathbf { h } _ { j } } { \vert \vert \mathbf { h } _ { i } \vert \vert \vert \vert \mathbf { h } _ { j } \vert \vert }
    2. 分布正则化 (Distribution Regularization): 在生成兴趣时所使用的分布(如注意力权重或路由系数)上操作,鼓励不同兴趣关注不同的历史物品。
      • 协方差正则化 (Covariance Regularization): 对动态路由的耦合系数矩阵 C\mathbf{C} 进行正则化,使其列向量(代表不同兴趣的物品分布)的协方差尽可能小。 Lreg=ICov(C,C)F2 \mathcal { L } _ { r e g } = | | \mathrm { I } - \mathrm { C o v } ( \mathbf { C } , \mathbf { C } ) | | _ { F } ^ { 2 } (注:论文中给出的公式 diag(Cov(C,C))F2|| diag(Cov(C, C)) ||_F^2 似乎是 ComiRec 中实现的一个变体,旨在最大化方差,而原始思想是最小化协方差,通常写作 Cov(C,C)IF2|| Cov(C, C) - I ||_F^2,其中I是单位矩阵)。

5. 实验设置 (Experimental Setup)

由于这是一篇综述,它总结了多篇论文中使用的实验设置。

  • 数据集 (Datasets): 论文在 Table 4 中列举了不同应用场景下的公开数据集。 以下是 Table 4 的转录内容:

    应用场景 公开数据集
    新闻 (News) MIND
    电影 & 微视频 (Movies & Micro Videos) MovieLens, KuaiShou, ReDial, TG-ReDial
    在线旅游 & 签到 (Online Travel and Check-In) FourSquare, Fliggy, Yelp, Gowalla
    在线购物 (Online Shopping) Amazon, Taobao, RetailRocket, TaFeng
    在线教育 (Online Education) MOOCCube
    • 选择原因: 这些数据集覆盖了多兴趣推荐的主要应用领域,并且规模大、特征丰富,能够有效验证模型性能。例如 Amazon 数据集包含商品评论,MIND 数据集包含新闻标题和摘要,这些丰富的文本信息为显式多兴趣建模提供了基础。
  • 评估指标 (Evaluation Metrics): 论文没有专门章节介绍评估指标,但根据其涵盖的任务(序列推荐、CTR预测),以下是该领域最常用的指标。

    • 对于序列推荐 (Top-N 推荐):

      1. 概念定义 (Conceptual Definition): 命中率 (Hit Rate, HR@K) 用于衡量在推荐的前 K 个物品中,是否至少有一个是用户下一个实际交互的物品。它关注“是否推荐对”,是一个相对粗粒度的指标。

      2. 数学公式 (Mathematical Formula): HR@K=1UuUI(ranku,igtK) \mathrm{HR@K} = \frac{1}{|\mathcal{U}|} \sum_{u \in \mathcal{U}} \mathbb{I}(\text{rank}_{u, i_{gt}} \le K)

      3. 符号解释 (Symbol Explanation):

        • U|\mathcal{U}|: 测试集中的用户总数。
        • I()\mathbb{I}(\cdot): 指示函数,当条件为真时取1,否则取0。
        • ranku,igt\text{rank}_{u, i_{gt}}: 对用户 uu,其真实下一个交互物品 igti_{gt} 在推荐列表中的排名。
        • KK: 推荐列表的长度。
      4. 概念定义 (Conceptual Definition): 归一化折损累计增益 (Normalized Discounted Cumulative Gain, NDCG@K) 不仅衡量是否命中,还考虑了命中物品在推荐列表中的位置。排名越靠前,得分越高。它是一个更关注排序质量的指标。

      5. 数学公式 (Mathematical Formula): NDCG@K=1UuUDCG@KIDCG@K,whereDCG@K=k=1KI(ranku,igt=k)log2(k+1) \mathrm{NDCG@K} = \frac{1}{|\mathcal{U}|} \sum_{u \in \mathcal{U}} \frac{\mathrm{DCG@K}}{\mathrm{IDCG@K}}, \quad \text{where} \quad \mathrm{DCG@K} = \sum_{k=1}^{K} \frac{\mathbb{I}(\text{rank}_{u, i_{gt}} = k)}{\log_2(k+1)}

      6. 符号解释 (Symbol Explanation):

        • DCG@K\mathrm{DCG@K}: 折损累计增益。
        • IDCG@K\mathrm{IDCG@K}: 理想情况下的 DCG@K,即目标物品排在第一位时的值。
        • log2(k+1)\log_2(k+1): 折损因子,排名 kk 越大,该值越大,导致增益越小。
    • 对于点击率预测 (CTR Prediction):

      1. 概念定义 (Conceptual Definition): 受试者工作特征曲线下面积 (Area Under ROC Curve, AUC) 是衡量二分类模型性能的常用指标。它表示模型将正样本排在负样本前面的概率。AUC 值越接近 1,模型性能越好。
      2. 数学公式 (Mathematical Formula): AUC=ipos_samplesrankiM(M+1)2M×N\mathrm{AUC} = \frac{\sum_{i \in \text{pos\_samples}} \text{rank}_i - \frac{M(M+1)}{2}}{M \times N}
      3. 符号解释 (Symbol Explanation):
        • MM: 正样本数量。
        • NN: 负样本数量。
        • ranki\text{rank}_i: 第 ii 个正样本在所有样本按预测概率排序后的排名。
  • 对比基线 (Baselines): 在多兴趣推荐的研究中,通常会将提出的模型与以下几类基线进行比较:

    • 传统序列模型:GRU4Rec,使用 GRU 网络对用户行为序列建模,但只输出一个单一的兴趣向量。
    • 基于注意力的序列模型:SASRec,使用自注意力机制捕捉序列中的依赖关系,同样是单兴趣模型。
    • 早期的多兴趣模型:MIND,是后续许多研究比较的标杆。
    • 最新的SOTA模型: 与同期发表的其他多兴趣推荐模型进行比较,如 ComiRecMINER 等。

6. 实验结果与分析

本综述通过 Table 3 总结了代表性方法及其采用的技术组合,揭示了一些关键趋势。 以下是 Table 3 的转录内容:

兴趣提取器 兴趣聚合器 代表性方法
动态路由 表征聚合 注意力 MIND [95], M2GNN [68], MDSR [28]
Concat 或 Mean/Max Pooling M2GNN [68], MISD [100]
推荐聚合 Mean/Max Pooling MINER [99], ComiRec [21], REMI [212], MGNM [179], UMI [22]
注意力 表征聚合 注意力 MINER [99], DisMIR [46]
Concat 或 Mean/Max Pooling PENR [189], M2GNN [68]
推荐聚合 Mean/Max Pooling
注意力
带强化学习的兴趣选择器
MINER [99], TimiRec [185], PIMI [25], ComiRec [21], CMI [94]
MINER [99], MI-GNN [194]
PIPM [143], M2GNN [68]
REMIT [169]
迭代注意力 推荐聚合 带强化学习的兴趣选择器 MIMCR [235]
非线性变换 表征聚合 Concat CKML [134]
  • 核心结果分析 (Core Results Analysis):

    • 注意力机制的主导地位: 从上表可以看出,注意力机制 是实现 兴趣提取器兴趣聚合器 最流行和最有效的方法。
    • 推荐聚合的优势: 许多高性能模型(如 ComiRec)采用 推荐聚合 范式,尤其是 max pooling 策略。这表明在最终决策阶段保留兴趣的独立性是有益的。
    • 正则化的必要性: 论文强调,几乎所有成功的模型都采用了某种形式的 正则化 策略来防止兴趣坍塌,这已成为多兴趣建模的标配。
  • 消融实验/参数分析 (Ablation Studies / Parameter Analysis): 综述中提到,许多原始论文通过消融实验验证了模型各组件的有效性。例如:

    • 移除正则化项: 多数研究表明,去掉 分歧正则化 会导致性能显著下降,证明了其在维持兴趣多样性上的关键作用。
    • 兴趣数量K的影响: 兴趣数量 KK 是一个重要的超参数。通常,KK 值过小无法捕捉多样的兴趣,过大则会增加计算开销并可能引入噪声。性能往往随着 KK 的增加先上升后趋于平稳或略有下降。

7. 总结与思考 (Conclusion & Personal Thoughts)

  • 结论总结 (Conclusion Summary): 这篇综述为“多兴趣推荐”这一研究领域提供了一个清晰、全面的蓝图。它系统地回答了为什么需要多兴趣、多兴趣关注什么、以及如何实现多兴趣建模这三个核心问题。通过对现有工作的归纳和分类,论文不仅阐明了该领域的技术脉络,还为新入门的研究者提供了坚实的基础,并为资深研究者指明了未来的方向。

  • 局限性与未来工作 (Limitations & Future Work): 论文在第5节中高瞻远瞩地指出了该领域面临的挑战和未来的研究方向:

    1. 自适应多兴趣提取 (Adaptive Multi-Interest Extraction): 如何让模型自动地、动态地决定每个用户的兴趣数量 KK,而不是使用一个固定的全局值。
    2. 多兴趣建模的效率 (Efficiency in Multi-Interest Modeling): 现有多兴趣模型,特别是使用动态路由或大量兴趣向量的模型,计算成本高昂。如何设计轻量级、高效的多兴趣模型是部署到工业界亟待解决的问题。
    3. 多兴趣提取用于去噪 (Multi-Interest Extraction for Denoising): 用户的历史行为中充满了噪声(如误点击)。多兴趣提取过程本质上是一个信息筛选和聚类的过程,可以被看作一种去噪机制。如何显式地利用这一点来提升模型的鲁棒性值得探索。
    4. 可解释性 (Explainability): 如何将模型学到的抽象兴趣向量与人类可以理解的、具体的语义(如“科幻电影爱好者”、“篮球迷”)对应起来,从而提供可解释的推荐。
    5. 缓解长尾和冷启动问题 (Alleviate Long Tail and Cold-Start Problem): 多兴趣建模通过更精细的用户画像,有潜力更好地推荐长尾(非热门)物品,并为冷启动用户提供更准确的初始推荐。
    6. 前沿方法论 (Frontier Methodology): 将强化学习 (Reinforcement Learning)、因果推断 (Causal Inference) 和大语言模型 (Large Language Models) 等前沿技术更深入地融合到多兴趣推荐中。
  • 个人启发与批判 (Personal Insights & Critique):

    • 个人启发:

      • 框架的价值: 这篇综述最大的价值在于其构建的系统性框架。它将一个看似庞杂的领域整理得井井有条,让我对多兴趣推荐的“全貌”有了清晰的认识。
      • 问题导向的思维: 论文从“为什么”出发,层层递进到“是什么”和“怎么做”,这种问题导向的组织方式非常值得学习。它不仅是知识的堆砌,更是思想的引导。
      • 正则化的重要性: “兴趣坍塌”问题及其对应的正则化解决方案给我留下了深刻印象。这提醒我在设计复杂模型时,必须考虑如何通过约束来引导模型学到我们期望的、有意义的表征。
    • 批判性思考:

      • 量化分析的缺失: 作为一篇综述,它在定性分析上做得非常出色,但在定量分析上略显不足。如果能有一个元分析 (Meta-analysis),比如统计不同模型在相同基准数据集上的性能提升幅度,或者对不同组件(如不同正则化方法)的有效性进行跨论文的量化比较,将更具说服力。
      • 对大语言模型(LLM)的讨论不足: 论文在未来展望中提到了LLM,但篇幅较短。当前,LLM 在理解用户意图、生成自然语言解释、以及利用世界知识丰富用户/物品画像方面展现出巨大潜力。如何将LLM与多兴趣建模深度融合(例如,用LLM来生成或标注每个兴趣的语义标签),是一个极具想象力的方向,值得更深入的探讨。
      • 轻微的笔误: 论文引言中提到“a total of 172 papers by March 4, 2025”,年份“2025”明显是一个笔误,应为“2024”。虽然是小瑕疵,但在严谨的学术写作中应尽量避免。

相似论文推荐

基于向量语义检索推荐的相关论文。

暂时没有找到相似论文。