论文状态：已完成

HyMiRec: A Hybrid Multi-interest Learning Framework for LLM-based Sequential Recommendation

发表：2025/10/16

大语言模型微调 (51)多查询表示 (2)序列推荐系统 (23)多兴趣学习 (1)余弦相似度残差码本 (1)

原文链接 PDF 下载

价格：0.100000

已有 14 人读过

本分析由 AI 生成，可能不完全准确，请以原文为准。

TL;DR 精炼摘要

HyMiRec 提出融合轻量级推荐器与 LLM 的混合多兴趣学习框架，有效建模用户长序列行为及多样兴趣。通过余弦相似度残差码本实现嵌入压缩复用，并设计解耦多兴趣模块，显著提升序贯推荐性能，验证于公开和工业数据。

摘要

Large language models (LLMs) have recently demonstrated strong potential for sequential recommendation. However, current LLM-based approaches face critical limitations in modeling users' long-term and diverse interests. First, due to inference latency and feature fetching bandwidth constraints, existing methods typically truncate user behavior sequences to include only the most recent interactions, resulting in the loss of valuable long-range preference signals. Second, most current methods rely on next-item prediction with a single predicted embedding, overlooking the multifaceted nature of user interests and limiting recommendation diversity. To address these challenges, we propose HyMiRec, a hybrid multi-interest sequential recommendation framework, which leverages a lightweight recommender to extracts coarse interest embeddings from long user sequences and an LLM-based recommender to captures refined interest embeddings. To alleviate the overhead of fetching features, we introduce a residual codebook based on cosine similarity, enabling efficient compression and reuse of user history embeddings. To model the diverse preferences of users, we design a disentangled multi-interest learning module, which leverages multiple interest queries to learn disentangles multiple interest signals adaptively, allowing the model to capture different facets of user intent. Extensive experiments are conducted on both benchmark datasets and a collected industrial dataset, demonstrating our effectiveness over existing state-of-the-art methods. Furthermore, online A/B testing shows that HyMiRec brings consistent improvements in real-world recommendation systems. Code is available at https://github.com/FireRedTeam/FireRedSeqRec.

思维导图

论文精读

中文精读约 21 分钟读完 · 12,632 字

1. 论文基本信息 (Bibliographic Information)

标题 (Title): HyMiRec: A Hybrid Multi-interest Learning Framework for LLM-based Sequential Recommendation (HyMiRec: 一个基于 LLM 的混合多兴趣学习序贯推荐框架)
作者 (Authors): Jingyi Zhou, Cheng Chen, Kai Zuo, Manjie Xu, Zhendong Fu, Yibo Chen, Xu Tang, and Yao Hu.
隶属机构 (Affiliations): 作者主要来自小红书 (Xiaohongshu Inc.)，并有来自复旦大学 (Fudan University) 和北京大学 (Beijing University) 的合作者。这表明该研究具有深厚的工业背景，旨在解决真实世界推荐系统中的具体问题。
发表期刊/会议 (Journal/Conference): 论文中提供的 ACM 引用格式模板显示会议信息待定，且提供的 arXiv 链接 2510.13738 指向一个未来的日期，这通常意味着该论文是一篇预印本 (Preprint)。根据其内容和引用（包含 2024 年的研究），这是一项非常前沿的工作。
发表年份 (Publication Year): 2024 (根据内容推断为近期工作)。
摘要 (Abstract): 大型语言模型 (LLM) 在序贯推荐中展现了巨大潜力，但现有方法在建模用户长期和多样化兴趣方面存在局限。首先，由于推理延迟和特征获取带宽的限制，现有方法通常截断用户行为序列，丢失了长期的偏好信号。其次，多数方法依赖单一嵌入进行下一个物品预测，忽略了用户兴趣的多面性。为应对这些挑战，论文提出了 HyMiRec，一个混合多兴趣序贯推荐框架。它利用一个轻量级推荐器从长序列中提取粗粒度的兴趣嵌入，并由一个 LLM 推荐器捕获精细的兴趣嵌入。为了降低特征获取开销，论文引入了基于余弦相似度的残差码本来高效压缩和复用历史嵌入。为了建模用户的多样化偏好，论文设计了一个解耦多兴趣学习模块 (DMIL)，自适应地学习多个解耦的兴趣信号。在公开和工业数据集上的大量实验及线上 A/B 测试均验证了该方法的有效性。
原文链接 (Source Link):
- Arxiv 链接: https://arxiv.org/abs/2510.13738 (注：此链接为论文中提供的占位符，可能并非实际有效链接)
- PDF 链接: https://arxiv.org/pdf/2510.13738v1.pdf
- 发布状态: 预印本 (Preprint)。

2. 整体概括 (Executive Summary)

研究背景与动机 (Background & Motivation - Why):
- 核心问题： 当前基于大型语言模型 (LLM) 的序贯推荐方法在实际工业应用中面临两大瓶颈：
  1. 长序列建模难题： 出于对线上服务低延迟和低带宽的要求，模型无法处理完整的用户历史行为序列，通常只能截取最近的几十个行为。这导致模型无法捕捉用户的长期、稳定兴趣，造成“兴趣遗忘”。
  2. 多兴趣表达不足： 多数模型仅生成一个单一的兴趣向量来预测下一个行为，但这无法准确刻画用户本身具有的多样化、多维度的兴趣（例如，一个用户可能同时对美食、旅游和健身感兴趣）。这限制了推荐结果的多样性和个性化程度。
- 问题重要性： 无法有效建模长序列和多兴趣，使得推荐系统容易陷入“短期热门”或“单一兴趣”的推荐怪圈，用户体验下降，商业价值受损。
- 创新切入点： 论文提出了一种“粗-精结合” (Coarse-to-Fine) 的混合架构。它不直接让昂贵的 LLM 处理长序列，而是先用一个轻量级模型对长序列进行“压缩总结”，提取出粗粒度的长期兴趣；然后让 LLM 专注于处理这个“总结”和用户的短期行为，从而精细地建模出多个维度的即时兴趣。
核心贡献/主要发现 (Main Contribution/Findings - What):
- 提出了 HyMiRec 框架： 一个创新的混合推荐框架，巧妙地结合了轻量级推荐器和 LLM 推荐器，实现了对用户长短期兴趣的协同建模，兼顾了效果与效率。
- 设计了余弦相似度残差码本 (Cosine-Similarity-based Residual Codebook)： 一种高效的向量量化技术，用于压缩海量的用户历史行为物品嵌入，极大地降低了线上推理时特征拉取的带宽和存储成本，使长序列建模在工业界成为可能。
- 提出了 DMIL 模块 (Disentangled Multi-Interest Learning Module)： 一种新颖的解耦多兴趣学习范式。它通过“窗口化目标”和基于匈牙利算法的匹配机制，确保模型的多个兴趣探针 (queries) 能够得到充分且均衡的监督，从而学习到真正解耦、有区分度的用户兴趣表示。
- 取得了显著效果： 无论是在公开数据集还是大规模工业数据集上，HyMiRec 的线下指标均显著优于现有 SOTA 方法。更重要的是，线上的 A/B 测试也证明了其在真实推荐场景中能带来持续的业务提升。

本部分旨在为初学者铺垫理解论文所需的前置知识。

基础概念 (Foundational Concepts):
- 序贯推荐 (Sequential Recommendation, SR): 一种推荐任务，其核心目标是根据用户过去一系列按时间排序的行为（如点击、购买、观看），预测他们下一个最可能感兴趣的物品。这好比是猜测你看完《权力的游戏》第一季第一集后，最想看的是不是第二集。
- 大型语言模型 (Large Language Models, LLMs): 指像 GPT、Llama 这样参数量巨大的深度学习模型。它们通过在海量文本数据上进行预训练，获得了强大的自然语言理解、推理和生成能力。在推荐领域，它们可以被用作：
  1. 特征提取器 (Feature Extractor): 将物品的文本描述（如标题、内容）转换成富有语义信息的嵌入向量 (Embedding)。
  2. 推荐模型 (Recommender): 直接将用户的行为序列（表示为ID或文本）作为输入，像理解一句话一样理解用户的兴趣，并预测下一个物品。
- 多兴趣建模 (Multi-interest Modeling): 传统推荐模型通常为每个用户生成一个单一的兴趣向量，但这无法捕捉用户的多样性。多兴趣建模则试图为每个用户学习多个兴趣向量，每个向量代表用户的一个特定兴趣面（如对篮球的兴趣、对科幻电影的兴趣）。
- 向量量化 (Vector Quantization): 一种数据压缩技术，旨在将高维度的浮点数向量（如物品嵌入）用一个或多个低维度的码字 (codeword) 或索引来表示。这可以极大地减少存储空间和加快相似性搜索速度。HyMiRec 中的残差码本就是一种高级的向量量化方法。
前人工作 (Previous Works):
- 基于 LLM 的序贯推荐：
  - 作为特征提取器： LLMEmb 等工作利用 LLM 增强物品的表示，但推荐效果受限于下游推荐模型的性能。
  - 作为推荐器： HLLM 等工作将 LLM 作为端到端的推荐模型，直接处理行为序列并进行预测。这些方法虽然强大，但因计算成本高昂，难以处理长序列。PatchRec 尝试通过对序列分块池化来缩短输入，但这种粗暴的总结方式会损失信息。
- 用户多兴趣建模：
  - ComiRec 等早期工作使用多探针 (multi-query) 机制或胶囊网络来提取多个兴趣，但它们通常只用“下一个物品”作为监督信号，并且只更新最匹配的那个兴趣向量，导致其他兴趣向量训练不足。
- 长序列用户建模：
  - 传统方法通过记忆网络或改进注意力机制来处理长序列，但这些方法难以直接嫁接到昂贵的 LLM 框架上。
技术演进 (Technological Evolution): 推荐技术从早期的协同过滤，发展到基于深度学习的ID-based模型（如 GRU4Rec, SASRec），再到如今利用 LLM 进行内容理解和序列建模。HyMiRec 正是处在这一技术脉络的前沿，它试图解决 LLM 在推荐领域落地时遇到的核心工程与算法挑战——即如何在保持 LLM 强大能力的同时，高效地处理真实世界中用户的长序列和多兴趣。
差异化分析 (Differentiation):
- 与 PatchRec 的区别： PatchRec 通过简单的平均池化来压缩长序列，信息损失较大。HyMiRec 则使用一个可学习的轻量级推荐器来智能地“总结”长序列，提取出的“粗粒度兴趣”信息含量更高。
- 与 ComiRec 等多兴趣模型的区别： ComiRec 仅用下一个物品进行监督，且存在“赢家通吃”问题（只有一个兴趣向量被更新）。HyMiRec 的 DMIL 模块则使用一个窗口的未来物品作为监督信号，并通过聚类和匈牙利匹配，为每个兴趣向量都分配到了合适的监督目标，训练更充分、更均衡，解耦效果更好。
  
  该图像是论文中的示意图，展示了现有方法与本文方法在用户多兴趣建模上的差异。现有方法截断用户行为序列，并用单一嵌入表示兴趣，可能导致长短期兴趣遗忘和混淆。本文方法则采用轻量级推荐器提取长序列的粗兴趣嵌入，再用LLM推荐器捕捉细化兴趣，实现多兴趣嵌入，兼顾长短期偏好。
  
  图像1解读： 这张图直观地展示了 HyMiRec 的核心思想。
(a) 现有方法： 像剪刀一样剪掉了用户早期的行为历史（长尾兴趣），只关注最近的几个行为。并且只用一个灰色方块（单一兴趣嵌入）来代表用户的所有兴趣，导致不同兴趣（如恐龙、沙滩、衣服、食物）被混杂在一起。
(b) 本文方法： 保留了完整的用户历史。通过一个轻量级推荐器，将长序列总结为几个粗粒度的兴趣嵌入（Coarse interest embeddings）。然后，一个 LLM 推荐器将这些粗粒度兴趣与短期兴趣结合，生成多个更精确、更多样化的紫色方块（多兴趣嵌入），从而更好地预测用户未来的多种可能行为。

4. 方法论 (Methodology - Core Technology & Implementation Details)

本节将详细拆解 HyMiRec 的技术方案。

该图像是HyMiRec框架的整体架构示意图，展示了内容编码器训练、推荐器训练、余弦相似度残差码本以及解耦多兴趣学习模块的设计。图中包含关键模块及数据流，体现了长历史序列压缩和多兴趣表示学习。

图像2解读： 这是 HyMiRec 框架的详细架构图，展示了从数据处理到模型训练的完整流程。

Stage1: Content Encoder Training: 左下角展示了如何训练一个 Content LLM Encoder 来为每个物品（如图片、文字）生成高质量的嵌入向量 (Basepool Embeddings)。
Online Codebook & Quantization: 训练好的物品嵌入被用来构建一个在线码本 (Online Codebook)，它能将高维嵌入压缩成简短的量化编码 (Quantized Code)，便于高效存储和检索。
Stage2: Recommender Training:
- Lightweight Recommender: 接收由量化编码重构出的长历史序列 (Long History Sequence)，并输出粗粒度兴趣嵌入 (Coarse Interest Embedding)。
- LLM Recommender: 将粗粒度兴趣嵌入与用户的近期行为序列 (Lastn Sequence) 结合，输入给 LLM，最终输出精细化的多兴趣嵌入 (Refined Interest Embeddings)。
- Disentangled Multi-Interest Learning Module (DIML): 右侧部分详细描绘了 DMIL 模块。它将未来一个窗口内的行为 (Target Window) 进行聚类，然后通过匈牙利匹配，将聚类中心与模型的精细化兴趣嵌入一一对应，最后通过对比损失 (Contrastive Loss) 进行优化，实现兴趣解耦。
Cosine-Similarity-Based Residual Codebook: 右下角示意了残差码本的原理，一个原始向量被逐层分解，每一层都找到最相似的码字，然后计算残差传给下一层。
方法原理 (Methodology Principles): HyMiRec 的核心思想是分而治之和由粗到精。它将建模用户兴趣的复杂任务分解为两个子任务：
1. 长期兴趣的粗粒度压缩： 使用一个计算开销小的轻量级模型来处理极长的历史序列，提炼出用户的宏观、稳定兴趣。
2. 短长期兴趣的精细化融合： 使用一个能力强大的 LLM 来融合上述的长期兴趣总结和用户的短期即时行为，从而建模出多个精确且解耦的兴趣表示。
方法步骤与流程 (Steps & Procedures): 整个框架分为两个训练阶段：

阶段一：内容编码器训练与码本构建
1. 内容 LLM 编码器 (Content LLM Encoder):
  - 输入： 物品的文本信息（如标题+内容）。
  - 过程： 将文本输入到一个预训练的 LLM（如 TinyLlama-1.1B）中，取特定 token（如末尾的特殊 token）对应的输出向量作为该物品的嵌入表示。
  - 训练： 整个编码器与一个临时的 LLM Recommender 组成一个端到端模型，在用户的近期行为序列上进行推荐任务的训练，从而使生成的物品嵌入包含丰富的语义和协同信息。
2. 余弦相似度残差码本 (Cosine-Similarity-based Residual Codebook):
  - 构建： 训练完第一阶段后，Content LLM Encoder 被固定。用它为海量物品生成嵌入向量。从中随机抽取一个大的子集（basepool），用这些向量来构建码本。
  - 过程： 这是一个多层（论文中使用3层）的量化过程。
    - 第1层： 对所有 basepool 向量进行 K-Means 聚类（以余弦相似度为距离度量），得到 K 个聚类中心，作为第1层码本。
    - 计算残差： 对每个向量，找到其在第1层码本中最相似的中心，然后计算其在该中心方向上的投影残差。这个残差向量将作为下一层聚类的输入。
    - 后续层： 重复上述过程，对上一层的残差向量进行聚类，构建新的码本。
  - 压缩： 最终，一个高维物品嵌入可以被表示为3个整数（每层码本的中心索引）和3个浮点数（在每个中心方向上的投影大小），实现了极高的压缩率。
阶段二：混合推荐器训练
1. 粗粒度兴趣提取 (Lightweight Recommender):
  - 输入： 用户的长历史行为序列。这些行为对应的物品嵌入是通过其压缩编码和在线码本实时重构的。此外，还输入一组可学习的探针 Q_coarse。
  - 模型： 一个浅层 Transformer。
  - 输出： 粗粒度兴趣嵌入 R_coarse，这是对用户长期兴趣的总结。
2. 精细化兴趣提取 (LLM Recommender):
  - 输入：
    1. R_coarse 加上一个特殊的 Indicator Embedding（用于告诉 LLM 这部分输入是总结信息）。
    2. 用户最近 n 个行为的原始物品嵌入 $E^ln$ （未经压缩，保留最精确信息）。
    3. 一组新的可学习探针 Q_refined。
  - 模型： 一个强大的 LLM 推荐器。
  - 输出： 精细化兴趣嵌入 R_refined，通常是多个向量，代表用户当前多样的兴趣。
3. 解耦多兴趣学习 (DMIL):
  - 目标设计： 不再只用下一个物品作为正样本，而是将未来一个时间窗口（Target Window）内的所有物品都视为正样本。
  - 解耦学习：
    1. 聚类： 将 Target Window 内的所有正样本物品嵌入聚成 $s$ 类（ $s$ 等于精细化兴趣嵌入的数量）。
    2. 匹配： 使用匈牙利算法，为 $s$ 个精细化兴趣嵌入和 $s$ 个聚类中心找到一个最佳的一一匹配，使得总余弦相似度最大。
    3. 损失计算： 每个兴趣嵌入只与其匹配到的那一类正样本计算对比损失 (Contrastive Loss)，而与其他类的正样本无关。这确保了每个兴趣嵌入都专注于学习一个特定方向的偏好，从而实现解耦。
数学公式与关键细节 (Mathematical Formulas & Key Details):
- 残差码本构建: 对于第 $i$ 层码本，一个向量 $e_j^i$ 的量化过程如下：
  1. 找到最相似的码本中心索引 $b_j^i$ ： $b _ { j } ^ { i } = \underset { x \in \left[ 1 , k \right] } { \arg \operatorname* { m a x } } \ c o s ( e _ { j } ^ { i } , c _ { x } ^ { i } )$
  2. 计算下一层的残差向量 $e_j^{i+1}$ ： $e _ { j } ^ { i + 1 } = e _ { j } ^ { i } - \frac { e _ { j } ^ { i } \cdot c _ { b _ { j } ^ i } ^ { i } } { \| c _ { b _ { j } ^ i } ^ { i } \| ^ { 2 } } \cdot c _ { b _ { j } ^ i } ^ { i }$
  - 符号解释:
    - $e_j^i$ : 第 $j$ 个物品在第 $i$ 层的输入向量。 $e_j^1$ 是原始物品嵌入。
    - $c_x^i$ : 第 $i$ 层码本的第 $x$ 个中心向量。
    - $\cos(\cdot, \cdot)$ : 余弦相似度函数。
    - $b_j^i$ : 第 $j$ 个物品在第 $i$ 层码本中匹配到的最佳中心索引。
    - $e_j^{i+1}$ : 计算出的残差向量，作为第 $i+1$ 层的输入。这个公式计算的是向量 $e_j^i$ 减去它在 $c_{b_j^i}^i$ 方向上的投影，确保了残差与该方向正交。
- 混合推荐器:
  1. 粗粒度兴趣生成： $R _ { c o a r s e } ^ { u } = \phi _ { L i g h t } ( [ E ^ { h t } , Q _ { c o a r s e } ] )$
  2. 精细化兴趣生成： $R _ { r e f i n e d } ^ { u } = \phi _ { L L M } ( \left[ R _ { c o a r s e } + I , E ^ { l n } , Q _ { r e f i n e d } \right] )$
  - 符号解释:
    - $E^{ht}$ : 从码本重构出的长历史序列嵌入。
    - $Q_{coarse}$ : 用于提取粗粒度兴趣的可学习探针。
    - $\phi_{Light}$ : 轻量级推荐器（一个浅层 Transformer）的参数。
    - $R_{coarse}^u$ : 用户 $u$ 的粗粒度兴趣嵌入。
    - $I$ : 指示符嵌入，用于标记 R_coarse。
    - $E^{ln}$ : 用户最近 n 个行为的精确嵌入序列。
    - $Q_{refined}$ : 用于提取精细化兴趣的可学习探针。
    - $\phi_{LLM}$ : LLM 推荐器的参数。
    - $R_{refined}^u$ : 用户 $u$ 的精细化多兴趣嵌入集合。
- DMIL 损失函数:
  1. 匈牙利匹配： $\operatorname* { m a x } _ { \Pi \in \mathcal { P } _ { s } } \sum _ { j = 1 } ^ { s } \cos ( \mathbf { r } _ { j } , \mathbf { g } _ { \Pi ( j ) } )$
  2. 总损失： $\mathcal { L } _ { t o t a l } = \frac { 1 } { w } \sum _ { i = 1 } ^ { w } \sum _ { j = 1 } ^ { s } \mathcal { L } _ { c t r } \big ( \mathbf { t } _ { i } , \mathbf { r } _ { j } \big ) \cdot \mathbb { I } \big [ \mathbf { t } _ { i } \in G _ { \Pi ( j ) } \big ]$
  3. 对比损失 L_ctr： $\mathcal { L } _ { c t r } ( t , r ) = - \log \frac { e ^ { \cos ( t, r ) / \tau } } { e ^ { \cos ( t, r ) / \tau } + \sum _ { k = 1 } ^ { m } e ^ { \cos ( r, e_k ) / \tau } }$
  - 符号解释:
    - $\mathbf{r}_j$ : 第 $j$ 个精细化兴趣嵌入。
    - $\mathbf{g}_{\Pi(j)}$ : 与 $\mathbf{r}_j$ 匹配的聚类中心。
    - $\Pi$ : 匈牙利算法找到的最优排列函数。
    - $\mathcal{P}_s$ : 所有可能的排列集合。
    - $w$ : 目标窗口大小。
    - $\mathbf{t}_i$ : 目标窗口中的第 $i$ 个正样本物品嵌入。
    - $G_{\Pi(j)}$ : 与 $\mathbf{r}_j$ 匹配的正样本聚类。
    - $\mathbb{I}[\cdot]$ : 指示函数，条件为真时取1，否则取0。
    - $\tau$ : 对比损失中的温度超参数。
    - $m$ : 负样本数量。
    - $e_k$ : 第 $k$ 个负样本的嵌入。
- 在线推理: 对于一个候选物品 $a_i$ ，其与用户所有精细化兴趣的相关性得分计算如下： $s i m _ { i } = \max_{j \in [ 1 , s ]} \cos(a_i, r_j)$
  - 符号解释:
    - $sim_i$ : 物品 $a_i$ 的最终得分。
    - $r_j$ : 用户的第 $j$ 个精细化兴趣嵌入。
    - 注: 此处将原文中错误的 argmax 修正为 max，因为需要的是最高分数值而不是索引。

5. 实验设置 (Experimental Setup)

数据集 (Datasets): 实验在两个公开数据集和一个大规模工业数据集上进行。以下为转录的 Table 1 数据：

Dataset #User #Item #Avg. L. Avg. T.

PixelRec 148,335 98,833 51.38 64.39

MovieLens 3,938 3,677 234.7 15.79

Industrial 571,958 11,708,332 241.11 229.1
- PixelRec 和 MovieLens-1M 是学术界常用的推荐基准数据集。
- Industrial 是从小红书平台收集的真实用户点击序列，其特点是用户量和物品量巨大，序列长度更长，更能反映真实工业场景的复杂性。
评估指标 (Evaluation Metrics):
- Recall@K (召回率@K):
  1. 概念定义: 该指标衡量推荐系统在 Top-K 推荐列表中命中用户未来真实喜欢的物品的能力。它关注的是“找得全不全”，即在 K 个推荐位中，是否成功召回了至少一个用户真正感兴趣的物品。Recall@K 值越高，说明模型推荐的物品覆盖用户兴趣的范围越广。
  2. 数学公式: 对于单个用户， $\mathrm{Recall@K} = \frac{|\{\text{Top-K Recommended Items}\} \cap \{\text{Ground Truth Items}\}|}{|\{\text{Ground Truth Items}\}|}$ 最终指标是所有测试用户的平均值。在本文的设定中，分母（真实物品集合大小）通常为1或一个窗口内的物品数。
  3. 符号解释:
    - Top-K Recommended Items: 模型预测的得分最高的 K 个物品集合。
    - Ground Truth Items: 用户在未来实际交互的物品集合（测试集中的正样本）。
    - $|\cdot|$ : 集合中元素的数量。
- NDCG@K (归一化折损累计增益@K):
  1. 概念定义: 该指标不仅衡量是否命中了正确物品，还额外考虑了推荐顺序的重要性。它认为，将用户更喜欢的物品排在推荐列表更靠前的位置，会带来更好的用户体验。NDCG@K 的核心思想是：排名越靠前的正确推荐，贡献越大。它是一个介于 0 和 1 之间的值，越高表示推荐列表的排序质量越好。
  2. 数学公式: $\mathrm{NDCG@K} = \frac{\mathrm{DCG@K}}{\mathrm{IDCG@K}} \quad \text{其中} \quad \mathrm{DCG@K} = \sum_{i=1}^{K} \frac{rel_i}{\log_2(i+1)}$
  3. 符号解释:
    - $rel_i$ : 排名第 $i$ 位的物品的相关性得分。在推荐任务中，如果该物品是正样本，则 $rel_i=1$ ，否则为 0。
    - $\log_2(i+1)$ : 折损项，排名越靠后（ $i$ 越大），该项越大，对总分的贡献就越小。
    - DCG@K (Discounted Cumulative Gain): 折损累计增益，即实际推荐列表的得分。
    - IDCG@K (Ideal Discounted Cumulative Gain): 理想情况下的 DCG@K，即把所有正样本排在最前面时能得到的最高分。NDCG 通过除以 IDCG 进行归一化。
对比基线 (Baselines):
- ID-based 方法: 仅使用物品 ID 进行建模，不考虑内容信息。
  - GRU4Rec: 使用循环神经网络 (RNN) 建模序列。
  - SASRec: 使用自注意力机制 (Self-Attention) 建模序列。
  - HSTU: 一种更先进的基于 Transformer 的序列模型。
- LLM-based 方法: 使用大型语言模型。
  - MoRec: 一个 LLM-based 的推荐方法。
  - HLLM: 集成了物品和用户建模的层级化 LLM 推荐框架。
  - PatchRec: 专为长序列推荐设计的 LLM 方法，通过分块池化缩短输入。

Dataset	#User	#Item	#Avg. L.	Avg. T.
PixelRec	148,335	98,833	51.38	64.39
MovieLens	3,938	3,677	234.7	15.79
Industrial	571,958	11,708,332	241.11	229.1

6. 实验结果与分析 (Results & Analysis)

核心结果分析 (Core Results Analysis):

线下实验： 以下为转录的 Table 2 (公开数据集) 和 Table 3 (工业数据集) 的主要结果。 Table 2: 公开数据集对比

Method		PixelRec				MovieLens-1M
Method		R@10	R@200	N@10	N@200	R@10	R@200	N@10	N@200
ID-based methods	GRU4REC	0.0358	0.1646	0.02058	0.0429	0.2318	0.6846	0.1430	0.2197
	SASRec	0.0427	0.2137	0.0235	0.0532	0.2580	0.7016	0.1464	0.2304
	HSTU	0.0543	0.2422	0.0302	0.0631	0.2461	0.7296	0.1346	0.2263
LLM-based methods	HLLM	0.0583	0.2407	0.0329	0.0649	0.2715	0.6346	0.1562	0.2432
	Morec	0.0503	0.2241	0.0279	0.5824	0.2341	0.5863	0.1297	0.2161
	Patchrec	0.0570	0.2417	0.0315	0.0639	0.2504	0.6302	0.1420	0.2328
HyMiRec(Ours)		0.0608	0.2625	0.0337	0.0691	0.2811	0.7354	0.1607	0.2474

Table 3: 工业数据集对比

Method		R@10	R@50	R@100	R@200	N@10	N@50	N@100	N@200
ID-based methods	GRU4REC	0.0043	0.0197	0.0390	0.0664	0.0030	0.0055	0.0089	0.0118
	SASRec	0.0050	0.0213	0.0400	0.0690	0.0029	0.0052	0.0092	0.0120
	HSTU	0.0070	0.0237	0.0417	0.0747	0.0033	0.0068	0.0097	0.0133
LLM-based methods	HLLM	0.0163	0.0550	0.0827	0.1313	0.0085	0.0166	0.0210	0.0278
	Morec	0.0083	0.0267	0.0443	0.0774	0.0039	0.0078	0.0106	0.0152
	Patchrec	0.0128	0.0477	0.0844	0.1347	0.0067	0.0141	0.0200	0.0271
HyMiRec(Ours)		0.0227	0.0707	0.1047	0.1577	0.0115	0.0219	0.0274	0.0348

分析： 在所有数据集上，HyMiRec 几乎在所有指标上都显著超过了所有基线模型。尤其是在更具挑战性的工业数据集上，其优势更为明显（例如 R@10 指标比最好的基线 HLLM 提升了约 39%），这证明了其混合架构与多兴趣学习机制在处理稀疏、长序列和海量物品场景下的强大能力。

线上 A/B 实验：
- 场景1 (物品冷启动): HyMiRec 使得每日新增内容发布量提升 +0.44%，日活发布用户数提升 +0.52%。这说明模型能更好地为新内容找到感兴趣的用户，激励了内容创作。
- 场景2 (广告冷启动): 在图文和视频两种流量下，新广告的冷启动通过率（获得500次曝光的比例）分别从 26.46% 提升到 30.93%，从 13.19% 提升到 14.23%。这表明模型能有效提升新广告的曝光效率，加速其商业价值的实现。

消融实验/参数分析 (Ablation Studies / Parameter Analysis):

消融实验： 为了验证 HyMiRec 各个组件的必要性，作者进行了一系列“拆零件”的实验。以下为转录的 Table 4 数据。 Table 4: 工业数据集上的消融实验

Method	R@10	R@50	N@10	N@50
HyMiRec	0.0227	0.0707	0.0115	0.0219
w/o lightweight recommender	0.0207	0.064	0.0105	0.0199
w/o Cosine-Similarity-based Residual Codebook	0.0233	0.0714	0.0118	0.0221
w/ Euclidean-Similarity-based Residual Codebook	0.0213	0.0687	0.0108	0.0210
w/o Indicator Embedding	0.0220	0.0694	0.0111	0.0216
w/o DIML	0.0193	0.0624	0.0112	0.0208
w/o window targets	0.0173	0.0597	0.0103	0.0202
max matching	0.0180	0.0610	0.0917	0.0104

分析：
- 移除轻量级推荐器 (w/o lightweight recommender) 后性能下降，证明了捕捉长序列中的粗粒度兴趣对于补充短期兴趣是至关重要的。
- 移除 DMIL 模块 (w/o DIML) 后性能大幅下降，说明了建模用户多样化兴趣的必要性。
- 移除窗口目标 (w/o window targets) 或使用简单的最大匹配 (max matching) 替代匈牙利匹配，性能均不如完整的 DMIL，证明了 DMIL 设计的精妙之处在于其能为多个兴趣探针提供均衡且充分的监督。
- 移除残差码本 (w/o ... Codebook) 后性能略有提升，但论文指出这会带来超过 300倍 的带宽成本，因此 HyMiRec 的码本设计是在可接受的微小性能损失下，实现了巨大的系统效率提升，是一个非常成功的权衡。

超参数分析：

该图像是论文中图3，用折线图展示了HyMiRec在不同超参数设置下的性能表现，分别以精细兴趣嵌入数量和窗口大小为横轴，指标R@10和N@10为纵轴，包含PixelRec、MovieLens-1M和工业数据集的结果对比。

图像3解读： 这组折线图展示了两个关键超参数的影响。
1. 精细化兴趣嵌入数量 (Number of Refined Interest Embeddings):
  - 观察： 随着数量从1增加，性能普遍提升，在2或3达到峰值，之后再增加则性能开始下降。
  - 分析： 数量太少，无法捕捉用户全部的兴趣面；数量太多，则可能导致兴趣被过度切分，且每个兴趣的监督信号不足，训练不稳定。工业数据集的最优值（3）大于公开数据集（2），说明真实用户的兴趣更加复杂多样。
2. 目标窗口大小 (Window Size):
  - 观察： 窗口大小从2增加到4（或8），性能提升；继续增大会导致性能下降。
  - 分析： 窗口太小，提供的正样本不足，监督信号不稳定；窗口太大，则可能引入不相关的“噪声”行为，干扰模型学习。工业数据集的最优值（8）更大，可能是因为真实场景中用户的会话（session）内行为更连贯，更大的窗口能提供更鲁棒的监督信号。

7. 总结与思考 (Conclusion & Personal Thoughts)

结论总结 (Conclusion Summary): 论文成功提出了 HyMiRec，一个创新的混合多兴趣序贯推荐框架。它通过结合轻量级和 LLM 推荐器，有效解决了 LLM 在推荐中难以建模用户长期和多样化兴趣的两大痛点。其核心组件——残差码本和 DMIL 模块——分别在系统效率和算法效果上做出了关键贡献。大量的离线和在线实验有力地证明了 HyMiRec 在学术和工业场景下的卓越性能和实用价值。
局限性与未来工作 (Limitations & Future Work): 作者指出了几个未来值得探索的方向：
1. 动态码本： 当前的残差码本是离线构建的，未来可以研究如何支持动态更新，以适应不断变化的物品和用户偏好。
2. 多模态融合： 探索将文本、图像、音频等多模态信号与序列行为数据结合，以生成更丰富的物品和用户表示。
3. 与强化学习结合： 尝试将 HyMiRec 与 PPO、DPO 等强化学习框架结合，直接优化用户的长期满意度等更远期的目标。
个人启发与批判 (Personal Insights & Critique):
- 个人启发：
  - 架构设计的艺术： HyMiRec 的“粗-精结合”混合架构是一个非常优雅的工程与算法的折中方案。它为如何在资源受限的工业环境中应用强大的（但昂贵的）大模型提供了一个极具参考价值的范例。
  - 监督信号的创新： DMIL 模块的设计非常巧妙。它超越了传统的“下一个物品预测”范式，通过窗口化目标和匈牙利匹配，为多兴趣学习这个“老大难”问题提供了一个逻辑自洽且效果显著的解决方案。
  - 问题分解的思维： 论文将“长序列多兴趣建模”这个大问题，成功分解为“长序列压缩”、“多兴趣解耦”等多个可操作的子问题，并逐一给出了高质量的解答。
- 批判性思考：
  - 训练的复杂性： 论文采用了两阶段的训练流程。第二阶段的性能可能在一定程度上依赖于第一阶段生成的物品嵌入的质量。这种级联式的训练方式是否会存在次优问题？一个端到端的联合训练框架是否可能，以及会带来多大的计算挑战？
  - 轻量级模型的细节： 论文中对 Lightweight Recommender 的描述是“一个浅层 Transformer”，但并未给出其具体的层数、头数等架构细节。这些细节对于复现和理解其在“总结”长序列中的作用至关重要。
  - 在线更新策略： 每 10 次新交互更新一次兴趣嵌入是一个经验性的设定。未来是否可以设计一种自适应的更新策略，例如当模型检测到用户兴趣发生显著漂移时再触发更新，从而在效果和成本之间取得更好的平衡？
  - 码本的泛化性： 码本是基于一个 basepool 构建的。对于 basepool 之外的新物品（冷启动物品），其量化效果如何？是否会因为找不到合适的码本中心而导致表示偏差？

相似论文推荐

基于向量语义检索推荐的相关论文。

暂时没有找到相似论文。