论文状态:已完成

The Best of the Two Worlds: Harmonizing Semantic and Hash IDs for Sequential Recommendation

发表:2025/12/11
原文链接PDF 下载
价格:0.100000
价格:0.100000
已有 4 人读过
本分析由 AI 生成,可能不完全准确,请以原文为准。

TL;DR 精炼摘要

本文提出了一种新颖的H$^2$Rec框架,旨在解决传统序列推荐系统中的长尾问题。通过协调语义ID(SID)与哈希ID(HID),该框架采用双分支建模架构,捕捉SID的多粒度语义,同时保留HID的唯一协同身份,并引入双层对齐策略以促进知识迁移。

摘要

Conventional Sequential Recommender Systems (SRS) typically assign unique Hash IDs (HID) to construct item embeddings. These HID embeddings effectively learn collaborative information from historical user-item interactions, making them vulnerable to situations where most items are rarely consumed (the long-tail problem). Recent methods that incorporate auxiliary information often suffer from noisy collaborative sharing caused by co-occurrence signals or semantic homogeneity caused by flat dense embeddings. Semantic IDs (SIDs), with their capability of code sharing and multi-granular semantic modeling, provide a promising alternative. However, the collaborative overwhelming phenomenon hinders the further development of SID-based methods. The quantization mechanisms commonly compromise the uniqueness of identifiers required for modeling head items, creating a performance seesaw between head and tail items. To address this dilemma, we propose \textbf{\name}, a novel framework that harmonizes the SID and HID. Specifically, we devise a dual-branch modeling architecture that enables the model to capture both the multi-granular semantics within SID while preserving the unique collaborative identity of HID. Furthermore, we introduce a dual-level alignment strategy that bridges the two representations, facilitating knowledge transfer and supporting robust preference modeling. Extensive experiments on three real-world datasets show that \name~ effectively balances recommendation quality for both head and tail items while surpassing the existing baselines. The implementation code can be found online\footnote{https://github.com/ziwliu8/H2Rec}.

思维导图

论文精读

中文精读

1. 论文基本信息

1.1. 标题

The Best of the Two Worlds: Harmonizing Semantic and Hash IDs for Sequential Recommendation (两全其美:协调语义ID和哈希ID用于序列推荐)

1.2. 作者

Ziwei Liu, Yejing Wang (香港城市大学); Qidong Liu (西安交通大学 & 香港城市大学); Zijian Zhang, Xiangyu Zhao (香港城市大学); Wei Huang (独立研究员); Chong Chen (清华大学)。

1.3. 发表期刊/会议

该论文发布于 arXiv 预印本平台,其 ACM Reference Format 显示其计划发表在 ACM 会议上,但具体会议名称未给出。ACM 在计算机科学领域具有极高的声誉和影响力,尤其是其旗下的顶级会议(如 SIGIR, KDD, WWW)代表了信息检索和数据挖掘领域的最高水平。

1.4. 发表年份

2026年 (根据 ACM Reference Format 所示)。

1.5. 摘要

传统的序列推荐系统 (Sequential Recommender Systems, SRS) 通常为物品分配唯一的哈希ID (Hash IDs, HID) 以构建物品嵌入。这些 HID 嵌入能有效学习用户-物品交互中的协同信息 (collaborative information),但对于交互稀疏的长尾物品 (long-tail items) 容易失效,即存在长尾问题 (long-tail problem)。近期结合辅助信息的方法常因共现信号 (co-occurrence signals) 导致噪声协同共享 (noisy collaborative sharing),或因扁平的密集嵌入导致语义同质性 (semantic homogeneity)语义ID (Semantic IDs, SID) 凭借其代码共享和多粒度语义建模 (multi-granular semantic modeling) 能力,提供了一种有前景的替代方案。然而,协同压倒现象 (collaborative overwhelming phenomenon) 阻碍了基于 SID 方法的进一步发展,即量化机制通常会损害建模头部物品 (head items) 所需的唯一性,导致头部物品和尾部物品的性能出现跷跷板效应。为解决这一困境,本文提出了 H2^2Rec,一个协调 SID 和 HID 的新颖框架。具体而言,模型设计了双分支建模架构 (dual-branch modeling architecture),使其能够捕捉 SID 内的多粒度语义,同时保留 HID 的独特协同身份。此外,论文引入了双层对齐策略 (dual-level alignment strategy),连接两种表示,促进知识迁移并支持鲁棒的偏好建模。在三个真实世界数据集上的广泛实验表明,H2^2Rec 有效平衡了头部和尾部物品的推荐质量,并超越了现有基线。

1.6. 原文链接

原文链接: https://arxiv.org/abs/2512.10388v1 PDF 链接: https://arxiv.org/pdf/2512.10388v1.pdf 发布状态: 预印本 (Preprint)

2. 整体概括

2.1. 研究背景与动机

序列推荐系统 (SRS) 在预测用户下一个交互行为方面发挥着关键作用。传统的 SRS 框架,如 BERT4Rec 和 SASRec,依赖于为物品分配唯一的哈希ID (Hash IDs, HID) 并将其映射到高维嵌入中以捕获协同信息 (collaborative information)。然而,这种 HID-based (基于 HID 的) 方法存在一个长期存在的缺点:长尾物品问题 (long-tail item problem)。对于那些交互稀疏的尾部物品 (tail items),由于数据不足,模型难以学习到可靠的表示。

现有尝试解决这一问题的方法也面临各自的挑战:

  1. 利用辅助信息(如共现模式)的方法: 它们试图通过借用流行物品的信息来增强尾部物品。然而,共现信号 (co-occurrence signals) 在现实世界中可能不可靠,例如偶然点击会导致噪声协同共享 (noisy collaborative sharing),使尾部物品继承不相关的噪声。

  2. 基于大型语言模型 (Large Language Model, LLM) 的物品编码器: LLM 可以从物品的文本属性中提取语义特征。然而,LLM 通常将所有文本信息压缩成一个单一的密集向量 (dense vector),这种“扁平”表示导致了单粒度瓶颈 (single-granularity bottleneck),难以区分语义相似物品之间的细微差别,从而引发语义同质性 (Semantic Homogeneity) 问题。

  3. 基于语义ID (Semantic IDs, SID) 的方法: SID 通过向量量化技术将密集语义嵌入分解为离散的代码序列,实现了代码共享 (code sharing)多粒度语义建模 (multi-granular semantic modeling)。理论上,这可以缓解噪声协同共享语义同质性问题。然而,SID 的量化机制 (quantization mechanisms) 不可避免地引入了代码冲突 (code collisions),损害了物品 ID 的唯一性,尤其对于交互丰富的头部物品 (head items)。这导致了协同压倒现象 (Collaborative Overwhelming phenomenon),使得 SID-based 方法在头部物品上表现不佳,从而在头部和尾部物品之间产生性能的“跷跷板效应”。

    论文的切入点和动机正是解决 HID-based 和 SID-based 方法各自的局限性,并调和它们之间的性能权衡,以期实现“两全其美”。

2.2. 核心贡献/主要发现

本文的核心贡献和主要发现可以总结为:

  1. 识别并形式化“协同压倒现象”: 论文明确指出了基于 SID 方法存在的协同压倒现象 (Collaborative Overwhelming phenomenon),揭示了头部物品所需的标识符唯一性 (identifier uniqueness) 与尾部物品所需的语义 (semantics) 之间固有的性能权衡。
  2. 提出了 H2^2Rec 框架: 提出了一个名为 H2^2Rec (Harmonized Semantic and Hash IDs for Sequential Recommendation) 的双分支框架,旨在协调 HID 和 SID 的优点。
    • 双分支建模架构:
      • SID 分支: 包含一个多粒度融合网络 (multi-granularity fusion network),用于构建精细化的语义表示,有效解决语义同质性 (Semantic Homogeneity) 问题。
      • HID 分支: 引入一个多粒度交叉注意力网络 (multi-granularity cross-attention network),将语义信号选择性地注入 HID 嵌入中,从而防止协同压倒现象
    • 双层对齐策略 (Dual-level Alignment Strategy):
      • 物品级别 (item level): 设计了代码引导对齐损失 (code-guided alignment loss),通过精心设计的样本选择,促进语义空间和协同空间的对齐,使长尾物品能够借用语义相似的头部物品的高质量协同信号,同时避免引入噪声,缓解噪声协同共享 (Noisy Collaborative Sharing) 问题。
      • 用户级别 (user level): 引入了掩码序列粒度损失 (masked sequence granularity loss),通过随机掩码子集粒度来增强内部相关性,支持鲁棒的偏好建模。
  3. 实验验证: 在三个真实世界数据集上的广泛实验表明,H2^2Rec 显著优于现有最先进的基线模型,并且在头部物品和尾部物品上均实现了鲁棒的性能,成功打破了传统方法的性能瓶颈。它在不牺牲头部物品性能的情况下,显著提升了尾部物品的推荐质量。

3. 预备知识与相关工作

3.1. 基础概念

为了理解 H2^2Rec,初学者需要掌握以下核心概念:

  • 序列推荐系统 (Sequential Recommender Systems, SRS)
    • 概念定义: 这类推荐系统的目标是根据用户历史交互序列来预测用户接下来最可能交互的物品。它假设用户的偏好是动态变化的,并且当前行为受到最近行为的影响。
    • 在本文中的语境: 论文将用户 uu 的交互序列定义为 Su={v1,,vN}\boldsymbol{S_u} = \{v_1, \cdots, v_N\},其中 viVv_i \in \mathcal{V} 是物品集合 V\mathcal{V} 中的第 ii 个交互物品,NN 是序列长度。SRS 的目标是最大化预测下一个物品 vN+1v_{N+1} 的概率 P(vN+1=viSu)P(v_{N+1} = v_i | S_u)
  • 哈希ID (Hash IDs, HID)
    • 概念定义: HID 是为推荐系统中的每个物品分配的唯一数字标识符。这些 ID 本身不包含任何语义信息,其主要作用是作为查找表(embedding lookup table)的索引,将物品映射到高维的嵌入向量空间。
    • 在本文中的语境: HID 嵌入通过历史用户-物品交互有效地学习协同信息 (collaborative information),在传统推荐模型(如 SASRec、BERT4Rec)中扮演核心角色。
  • 长尾问题 (Long-tail Problem)
    • 概念定义: 在许多现实世界的分布中(例如物品的流行度),只有少数几个“头部”实体(如流行物品)占据了绝大多数的交互,而大量的“尾部”实体(如不流行或新物品)只有非常少的交互。在推荐系统中,这意味着大部分物品数据稀疏。
    • 在本文中的语境: 由于数据稀疏,基于 HID 的模型难以学习到尾部物品 (tail items) 的可靠表示,导致推荐性能不佳。
  • 语义ID (Semantic IDs, SID)
    • 概念定义: SID 是一种新型的物品标识符,它通过将物品的密集语义嵌入(通常来自 LLM)分解为离散的代码序列来生成。与 HID 不同,SID 本身就携带了多粒度的语义信息,并且允许多个语义相似的物品共享部分代码。
    • 在本文中的语境: 论文指出 SID 具有代码共享 (code sharing)多粒度语义建模 (multi-granular semantic modeling) 的能力,是解决长尾问题和语义信息利用的潜在方案。
  • 向量量化 (Vector Quantization, VQ)
    • 概念定义: VQ 是一种信号处理技术,它将连续或高维的向量空间映射到离散的有限集合中的向量(称为码本 (codebook) 向量)。每个输入向量都被替换为码本中与其最接近的向量的索引或码字。
    • 在本文中的语境: 论文使用 RQ-VAE(一种 VQ 技术)从 LLM 嵌入中生成 SID
  • 残差量化变分自编码器 (Residual Quantized Variational Autoencoder, RQ-VAE)
    • 概念定义: RQ-VAE 是一种先进的向量量化技术,它通过多个量化层(或“残差层”)逐步对输入向量进行量化。每个后续层量化前一层量化后剩余的残差信息 (residual information)。这使得 RQ-VAE 能够用多个离散代码来表示一个原始的密集嵌入,每个代码对应一个不同的语义粒度。
    • 在本文中的语境: 论文明确指出采用 RQ-VAE 作为 SID 的生成器,将 LLM 导出的语义嵌入量化为 LL 层语义代码,即物品 viv_i 可以表示为代码元组 Ci={ci1,,cil,,ciL}C_i = \{c_i^1, \dots, c_i^l, \dots, c_i^L\},其中 cilc_i^l 是第 ll 层的代码,其嵌入 eCile_{C_i}^l 从码本 EClE_C^l 中获取。
  • 噪声协同共享 (Noisy Collaborative Sharing)
    • 概念定义: 当推荐系统试图利用物品之间的共现关系或相似性来为稀疏物品提供信号时,如果这种共现或相似性是偶然的或不具备真实语义关联的,那么稀疏物品就会从不相关的流行物品那里继承到噪声信息,从而损害其表示质量。
    • 在本文中的语境: 这是现有利用辅助信息方法的一个主要问题,导致尾部物品获取误导性信息。
  • 语义同质性 (Semantic Homogeneity)
    • 概念定义: 当物品的语义信息被压缩成一个单一的、扁平的密集向量时,可能会导致语义上不同的细微之处被模糊或丢失。这使得模型难以区分那些语义上相似但具有微妙差异的物品。
    • 在本文中的语境: 这是基于 LLM 密集嵌入方法的一个问题,它产生了“单粒度瓶颈”。
  • 协同压倒现象 (Collaborative Overwhelming phenomenon)
    • 概念定义: 这是本文提出的一个新概念,特指在基于 SID 的方法中,由于量化过程引入代码冲突 (code collisions)(即不同物品共享相同的 SID),损害了物品 ID 的唯一性。对于交互丰富的头部物品 (head items),这种冲突会混淆模型,导致模型错误地将用户-物品连接过度“膨胀”,从而降低对头部物品的建模精度。
    • 在本文中的语境: 论文强调 SID 在头部物品上表现不佳,正是因为这种现象。

3.2. 前人工作

  • 传统序列推荐系统 (Conventional SRS)
    • GRU4Rec [10]:基于循环神经网络 RNN 的方法,利用 GRU 单元捕捉序列依赖。
    • SASRec [12]:基于自注意力机制 self-attention 的方法,通过计算序列中物品之间的注意力权重来捕捉长期依赖。
    • BERT4Rec [24]:受 BERT 启发,采用双向 Transformer 编码器来学习用户行为序列中的上下文表示,通过掩码语言模型任务进行训练。
    • 共同局限性: 这些 HID-based 模型主要依赖于协同信息 (collaborative information),在处理长尾物品 (long-tail items) 时,由于数据稀疏性而表现不佳。
  • 利用共现模式增强长尾物品的方法
    • MELT [13]、CITIES [9]:这些方法试图通过挖掘物品的共现模式来弥补长尾物品数据不足的问题,例如,通过利用与稀疏物品共同出现的流行物品的信息来增强稀疏物品的表示。
    • 共同局限性: 论文指出这些方法可能面临噪声协同共享 (Noisy Collaborative Sharing) 问题,因为共现信号可能不可靠,例如偶然的点击会导致误导性的协同信息。
  • 基于大型语言模型 (LLM) 的物品编码器
    • LLM-ESR [18]、Llmemb [17] 等:这些方法利用 LLM 从物品的文本属性中提取丰富的语义特征,以期弥补 HID 嵌入的语义不足。LLM 能够捕捉物品的深层语义和世界知识。
    • 共同局限性: 论文认为这些方法通常将所有文本信息压缩成一个单一的密集向量 (dense vector),这种“扁平”表示导致了单粒度瓶颈 (single-granularity bottleneck),难以区分语义相似物品之间的细微差别,从而引发语义同质性 (Semantic Homogeneity) 问题。
  • 基于语义ID (SID) 的序列推荐方法
    • VQRec [6]、SPM-SID [23]、PG-SID [37]、CCFRec [16]、PSRQ [30]:这些方法通过向量量化技术(如 RQ-VAE)将 LLM 衍生的密集语义嵌入分解为离散的代码序列,形成 SID。它们利用 SID代码共享 (code sharing) 特性来聚合语义相关物品的协同信号,并利用其多粒度结构 (multi-granular structure) 来捕捉更精细的语义。
    • 共同局限性: 论文指出,尽管 SID 有其优势,但现有方法通常采用简单的替换策略(用 SID 代替 HID)或简单的融合策略(如拼接、对比学习)。这些策略未能充分利用 SID 的潜力,并受到协同压倒现象 (Collaborative Overwhelming phenomenon) 的阻碍。量化过程中的代码冲突 (code collisions) 会损害物品 ID 的唯一性,尤其影响头部物品 (head items) 的性能。

3.3. 差异化分析

本文提出的 H2Rec 框架与上述前人工作的核心区别和创新点在于:

  1. 统一并调和 HID 与 SID: 与纯粹的 HID-based 方法(如 SASRec)和纯粹的 SID-based 方法(如 VQRecPSRQ)不同,H2Rec 明确设计了一个双分支架构 (dual-branch architecture) 来同时建模 HIDSID。这使得模型能够同时从 HID 中学习唯一的协同身份 (unique collaborative identity)(对头部物品至关重要)和从 SID 中学习多粒度语义 (multi-granular semantics)(对尾部物品至关重要)。这直接解决了现有方法在头部和尾部物品之间存在的性能“跷跷板效应”。

  2. 解决语义同质性: 传统的 LLM-based 方法将语义压缩成一个“扁平”的密集向量,导致语义同质性 (Semantic Homogeneity)H2Rec 通过 SID 分支中的多粒度融合网络 (multi-granularity fusion network),将 RQ-VAE 生成的多层语义代码自适应地融合成精细的语义表示,从而克服了这一问题。

  3. 防止协同压倒现象: 现有的 SID-based 方法由于代码冲突 (code collisions) 导致协同压倒现象 (Collaborative Overwhelming phenomenon),损害了头部物品的唯一性。H2RecHID 分支中引入多粒度交叉注意力网络 (multi-granularity cross-attention network),它以唯一的 HID 作为查询,选择性地从 SID 中注入语义信息,从而在增强 HID 的同时,保留了头部物品的独特识别能力。

  4. 缓解噪声协同共享: H2Rec 通过双层对齐策略 (dual-level alignment strategy) 中的代码引导对齐损失 (code-guided alignment loss) 来解决这个问题。它不是简单地基于共现信号进行信息共享,而是通过 SID 的多粒度特性来识别语义相似的物品,并以此为基础借用高质量的协同信号,从而确保信息共享的准确性并抵抗噪声。

  5. 增强用户偏好建模的鲁棒性: 引入掩码序列粒度损失 (masked sequence granularity loss),通过在用户级别随机掩码 SID 的粒度信息,强制模型从剩余上下文和粒度中学习推断缺失的语义信息,从而增强用户表示的内部一致性和鲁棒性。

    简而言之,H2Rec 的核心创新在于其精心设计的双分支和双层对齐机制,这使得它能够有机地融合 HIDSID 的优势,而不是简单地拼接或替换,从而系统地解决了长尾推荐、语义利用不充分、以及 SID 自身缺陷所带来的挑战。

4. 方法论

4.1. 方法原理

H2Rec 的核心思想是协调 (harmonize) 两种不同类型的物品标识符:哈希ID (HID)语义ID (SID),以充分利用它们各自的优势并弥补彼此的不足。HID 擅长捕获物品独特的协同信息 (collaborative information),对于交互丰富的头部物品 (head items) 至关重要,但对长尾物品 (long-tail items) 无能为力。SID 能够通过其多粒度语义 (multi-granular semantics) 缓解长尾物品的数据稀疏性,但其量化机制 (quantization mechanism) 导致的代码冲突 (code collisions) 会损害物品唯一性,从而影响头部物品。

H2Rec 的原理在于:

  1. 双分支建模 (Dual-branch Modeling): 建立两个平行的分支,一个专注于从 SID 中提取精细的、多粒度的语义表示(解决语义同质性),另一个专注于从 HID 中学习唯一的协同表示,并选择性地注入语义信息(防止协同压倒现象)。

  2. 双层对齐 (Dual-level Alignment): 在物品级别和用户级别引入对齐策略,以在 HIDSID 空间之间进行知识迁移。物品级别的代码引导对齐损失 (code-guided alignment loss) 确保语义相似的物品可以在协同空间中共享高质量的信号,帮助尾部物品。用户级别的掩码序列粒度损失 (masked sequence granularity loss) 增强了 SID 内部不同粒度之间的关联性,提高了用户表示的鲁棒性。

    通过这种“分而治之”与“相互协同”的策略,H2Rec 旨在实现“两全其美”,在不牺牲头部物品性能的前提下,显著提升尾部物品的推荐质量。

4.2. 核心方法详解

H2Rec 的整体框架如原文 Figure 2 所示,它由双分支建模架构 (Dual-branch Modeling architecture)双层对齐策略 (Dual-level Alignment Strategy) 组成。

Figure 2: The framework overview for \({ \\bf H } ^ { 2 } { \\bf R e c }\) In this figure, we set \(L = 3\) 该图像是示意图,展示了H2Rec{ \bf H } ^ { 2 } { \bf R e c }框架的整体结构。左侧为SID分支,右侧为HID分支,二者通过多粒度融合网络和交叉注意力机制连接;图中包含图例,显示了不同类型的嵌入及其编码方式。该框架设计旨在平衡推荐系统中头部和尾部项目的推荐质量。

以下是原文 Figure 2 展示的 H2Rec 框架概述图。该图清晰地描绘了 SID 分支和 HID 分支的并行结构,以及它们如何通过多粒度融合网络、多粒度交叉注意力网络和双层对齐策略进行交互和知识共享。

4.2.1. 双分支建模 (Dual-branch Modeling)

4.2.1.1. SID 分支 (SID Branch)

SID 分支主要负责从物品的语义信息中构建多粒度的语义表示。

  1. 语义代码生成: 首先,利用大型语言模型 (LLM) 从物品的文本属性中提取语义嵌入 ELLMRV×dllmE_{LLM} \in \mathbb{R}^{|\mathcal{V}| \times d_{llm}}。例如,论文中提到使用 text-embedding-ada-002。 接着,使用残差量化变分自编码器 (RQ-VAE) 框架(如 Section 2.2 所述)将这些语义嵌入量化为 LL 层语义代码。对于物品 ii,其 SID 表示为 Ci={ci1,,ciL}C_i = \{c_i^1, \dots, c_i^L\},其中 cilc_i^l 是第 ll 层的语义代码。对应的代码嵌入 eCile_{C_i}^l 通过查表操作从 LL 个码本嵌入矩阵 EClE_C^l 中获取。

  2. 多粒度融合网络 (Multi-granularity Fusion Network): 为了构建更精细化的 SID 表示,论文设计了一个多粒度融合网络。

    • 粒度序列构建: 将所有物品的语义代码嵌入按其代码层级分组,形成 LL 个独立的粒度序列。对于每个代码层 ll,其嵌入序列表示为: Egl=[eC1l,eC2l,,eCNl] \mathcal{E}_g^l = [\pmb{e}_{C_1}^l, \pmb{e}_{C_2}^l, \cdot \cdot \cdot, \pmb{e}_{C_N}^l] 其中 ll 表示特定的代码层级,NN 是序列长度。
    • 自适应权重分配: 考虑到用户意图的动态性,模型设计了一个自适应机制来为不同代码粒度分配重要性权重。它使用用户最近交互物品的 HID 嵌入 eNhidRd\pmb{e}_N^{hid} \in \mathbb{R}^d 作为查询锚点,以捕获当前用户意图。为了训练稳定性并纳入粗粒度语义更鲁棒的先验知识,模型引入了一个可学习的残差偏置向量 bpriorRLb_{prior} \in \mathbb{R}^L。 未归一化的重要性分数 sRL\pmb{s} \in \mathbb{R}^L 通过一个多层感知机 (Multi-Layer Perceptron, MLP) 结构计算: s=W2(σ(W1[eN;bprior]+b1))+b2+bprior s = W_2 \left( \sigma \left( W_1 \left[ e_N; b_{prior} \right] + b_1 \right) \right) + b_2 + b_{prior}
      • [eN;bprior]\left[ e_N; b_{prior} \right]:表示将用户最近交互物品的 HID 嵌入 eNe_N 与残差偏置向量 bpriorb_{prior} 进行拼接操作。
      • W1Rdh×(d+L)W_1 \in \mathbb{R}^{d_h \times (d+L)}W2RL×dhW_2 \in \mathbb{R}^{L \times d_h}:是 MLP 的权重矩阵。
      • b1Rdhb_1 \in \mathbb{R}^{d_h}b2RLb_2 \in \mathbb{R}^L:是 MLP 的偏置向量。
      • σ()\sigma(\cdot):表示激活函数(例如 ReLU)。
      • bpriorb_{prior} 的残差加法:明确强制模型在早期训练阶段尊重 RQ-VAE 生成的 SID 的残差结构。
    • 最终 SID 嵌入序列: 接着,将分数 s\pmb{s} 归一化为重要性权重 α\pmb{\alpha},并用于聚合各个粒度序列,得到最终的 SID 物品嵌入序列 Esid=[e1sid,,eNsid]\mathcal{E}^{sid} = [e_1^{sid}, \dots, e_N^{sid}]αl=exp(sl)k=1Lexp(sk),Esid=l=1LαlEgl \alpha_l = \frac{\exp(s_l)}{\sum_{k=1}^L \exp(s_k)} , \quad \mathscr{E}^{sid} = \sum_{l=1}^L \alpha_l \cdot \mathscr{E}_g^l
      • αl\alpha_l:表示第 ll 层代码粒度的重要性权重。
      • exp()\exp(\cdot):指数函数,用于将分数转换为正值。
      • \sum_{k=1}^L \exp(s_k):归一化项,确保所有权重 αl\alpha_l 之和为 1。
      • Esid\mathcal{E}^{sid}:最终的融合 SID 物品嵌入序列,是所有粒度序列的加权和。
  3. 序列编码器: 最后,一个独立的序列编码器 fθ1f_{\theta^1}SID 物品嵌入序列 Esid\mathcal{E}^{sid} 处理,得到 SID 分支的最终用户表示 usid\pmb{u}^{sid}

4.2.1.2. HID 分支 (HID Branch)

HID 分支主要负责学习物品的独特协同身份,并选择性地注入语义信息。

  1. HID 嵌入: 首先,通过一个可学习的物品嵌入层 EhidRV×dE_{hid} \in \mathbb{R}^{|\mathcal{V}| \times d} 获取 HID 物品嵌入。这个嵌入层会通过学习历史用户-物品交互来吸收协同信息。由此得到物品的 HID 嵌入序列 Ehid=[e1hid,,eNhid]\mathcal{E}^{hid} = [e_1^{hid}, \dots, e_N^{hid}]

  2. 多粒度交叉注意力网络 (Multi-granularity Cross Attention Network): 为了将细致的多粒度语义信息注入 HID 物品嵌入,同时避免协同压倒现象 (Collaborative Overwhelming phenomenon),论文提出了多粒度交叉注意力。

    • 查询-键-值 (Query-Key-Value) 投影: HID 物品嵌入序列 Ehid\mathcal{E}^{hid} 被作为查询 (Query) 锚点,而多粒度 SID 物品嵌入序列 Egl\mathcal{E}_g^l 被作为键 (Key) 和值 (Value) 对。这种策略使得模型可以利用 HID 的唯一性选择性地检索和注入语义信息。 对于每个代码层 ll,协同序列和语义序列被投影到不同的子空间: Q=EhidWQ,Kl=EglWK,Vl=EglWV Q = {\mathcal{E}}^{hid} W^Q , \quad K_l = {\mathcal{E}}_g^l W^K , \quad V_l = {\mathcal{E}}_g^l W^V
      • QRN×dQ \in \mathbb{R}^{N \times d}:查询矩阵,由 HID 嵌入序列 Ehid\mathcal{E}^{hid} 乘以可学习权重矩阵 WQRd×dW^Q \in \mathbb{R}^{d \times d} 得到。
      • KlRN×dK_l \in \mathbb{R}^{N \times d}:第 ll 层语义的键矩阵,由 SID 粒度序列 Egl\mathcal{E}_g^l 乘以可学习权重矩阵 WKRd×dW^K \in \mathbb{R}^{d \times d} 得到。
      • VlRN×dV_l \in \mathbb{R}^{N \times d}:第 ll 层语义的值矩阵,由 SID 粒度序列 Egl\mathcal{E}_g^l 乘以可学习权重矩阵 WVRd×dW^V \in \mathbb{R}^{d \times d} 得到。
    • 融合嵌入序列 (Fused Embedding Sequence): 最终的融合嵌入序列 Ef\mathcal{E}^f 通过聚合各粒度注意力输出,并根据用户意图感知权重 αl\alpha_l(在 SID 分支中计算得到)进行加权求和。一个残差连接 (residual connection) 被用于将原始 HID 物品嵌入序列加回,以保留其独特信息: Ef=l=1Lαl(softmax(QKld)Vl)+Ehid \mathcal{E}^f = \sum_{l=1}^L \alpha_l \cdot \left( \mathrm{softmax} \left( \frac{Q K_l^\top}{\sqrt{d}} \right) V_l \right) + \mathcal{E}^{hid}
      • softmax(QKld)\mathrm{softmax} \left( \frac{Q K_l^\top}{\sqrt{d}} \right):计算查询 QQ 和键 KlK_l 之间的注意力分数,并进行 softmax 归一化。d\sqrt{d} 是缩放因子,用于防止点积过大。
      • αl\alpha_l:来自 SID 分支的粒度重要性权重,用于加权不同粒度语义的注意力输出。
      • Ehid\mathcal{E}^{hid}:原始 HID 物品嵌入序列,通过残差连接加回,确保 HID 的唯一性不被完全覆盖。
  3. 序列编码器: 另一个独立的序列编码器 fθ2f_{\theta^2} 将融合后的物品嵌入序列 Ef\mathcal{E}^f 处理,得到 HID 分支的综合用户表示 uhid\pmb{u}^{hid}

4.2.2. 双层对齐 (Dual-level Alignment)

为了进一步增强每个分支的表示能力,论文提出了一个双层对齐方法,包括物品级别的代码引导对齐损失 (Code-guided Alignment Loss) 和用户级别的掩码序列粒度损失 (Masked Sequence Granularity Loss)

4.2.2.1. 代码引导对齐损失 (LCA\mathcal{L}_{CA})

该损失旨在缓解噪声协同共享 (Noisy Collaborative Sharing) 问题,通过对齐语义空间和协同空间。

  • 问题背景: 简单的 1 对 1 对齐(将物品 iiSID 嵌入 eiside_i^{sid}HID 嵌入 eihide_i^{hid} 拉近)不足以实现长尾物品从语义相似的头部物品“借用”高质量协同信号的目标。
  • 1 对多代码引导对齐: 论文扩展了目标,从 1 对 1 对齐到 1 对多的代码引导对齐 (code-guided alignment)。这利用 SID 的多粒度特性来识别语义相似物品,并将它们的协同信号注入到锚点物品中。同时,为了捕获序列依赖,还将局部上下文窗口内的物品纳入正样本。
    • 统一正样本集 P(i)\mathcal{P}(i) 对于物品 ii,构建其统一正样本集 P(i)={i}PC(i)PH(i)\mathcal{P}(i) = \{i\} \cup \mathcal{P}_C(i) \cup \mathcal{P}_H(i)
      • {i}\{i\}:物品本身。
      • PC(i)\mathcal{P}_C(i):与物品 ii 共享 PP 层语义代码的物品集合。这确保了语义上的强关联。
      • PH(i)\mathcal{P}_H(i):在共现上下文窗口 oo 内出现的物品集合。这捕获了局部协同邻近性。
  • 损失函数 LCA1\mathcal{L}_{CA}^1 目标是最大化锚点 SID 物品嵌入与所有正样本 HID 物品嵌入之间的累积相似度。 LCA1=1Bi=1BlogkP(i)exp(cos(eisid,ekhid)/τ)j=1Bexp(cos(eisid,ejhid)/τ) \mathcal{L}_{CA}^1 = - \frac{1}{B} \sum_{i=1}^B \log \frac{ \sum_{k \in \mathcal{P}(i)} \exp ( \cos ( e_i^{sid} , e_k^{hid} ) / \tau ) }{ \sum_{j=1}^B \exp ( \cos ( e_i^{sid} , e_j^{hid} ) / \tau ) }
    • BB:批次大小 (batch size)。
    • cos(,)\cos(\cdot, \cdot):余弦相似度 (cosine similarity)。
    • τ\tau:温度系数 (temperature coefficient)。
    • eiside_i^{sid}:物品 iiSID 嵌入。
    • ekhide_k^{hid}:正样本 kkHID 嵌入。
    • ejhide_j^{hid}:批次中所有物品 jjHID 嵌入,用于负样本(分母)。
  • 总对齐损失 LCA\mathcal{L}_{CA} 通过交换 eside^{sid}ehide^{hid} 的角色,可以得到 LCA2\mathcal{L}_{CA}^2。总的对齐损失为两者之和: LCA=LCA1+LCA2 \mathcal{L}_{CA} = \mathcal{L}_{CA}^1 + \mathcal{L}_{CA}^2 这种机制允许在具有验证的语义相似性或协同邻近性的物品之间进行信息共享,从而实现长尾物品的高质量信号借用。

4.2.2.2. 掩码序列粒度损失 (LMSG\mathcal{L}_{MSG})

该损失旨在增强多粒度语义之间的内部关联性,确保用户表示的鲁棒性。

  • 双视图构建:
    1. 全局视图 (Global View): 保留完整的用户交互序列的多粒度语义代码。
    2. 粒度掩码视图 (Granularity-masked View): 随机选择一个目标粒度索引 m[1,L]m \in [1, L],并用一个可学习的掩码标记替换该层的所有嵌入序列,形成掩码序列 E~sid\tilde{\mathcal{E}}^{sid}
  • 表示生成: 两个视图都通过多粒度融合网络处理,并随后输入共享的序列编码器 fθ1()f_{\theta^1}(\cdot),得到全局表示 usid\pmb{u}^{sid} 和掩码表示 u~sid\tilde{\pmb{u}}^{sid}
  • 互信息最大化: 通过最大化这两个表示之间的互信息,模型被迫从剩余的上下文和其他粒度中隐式推断缺失的语义信息。
  • 损失函数 LMSG1\mathcal{L}_{MSG}^1 对于批次中的 NN 个用户,最小化正样本对 (uisid,u~isid)(\pmb{u}_i^{sid}, \tilde{\pmb{u}}_i^{sid}) 之间的距离,同时推开负样本对: LMSG1=1Ni=1Nlogexp(cos(uisid,u~isid)/τ)j=1Nexp(cos(uisid,u~jsid)/τ) \mathcal{L}_{MSG}^1 = - \frac{1}{N} \sum_{i=1}^N \log \frac{ \exp ( \cos ( u_i^{sid} , \tilde{{ \boldsymbol{u} }}_i^{sid} ) / \tau ) }{ \sum_{j=1}^N \exp ( \cos ( u_i^{sid} , \tilde{{ \boldsymbol{u} }}_j^{sid} ) / \tau ) }
    • NN:用户数量。
    • cos(,)\cos(\cdot, \cdot):余弦相似度。
    • τ\tau:温度系数。
    • uisidu_i^{sid}:用户 ii 的全局 SID 用户表示。
    • u~isid\tilde{\pmb{u}}_i^{sid}:用户 ii 的掩码 SID 用户表示。
  • 总掩码序列粒度损失 LMSG\mathcal{L}_{MSG} 论文提到通过交换 usidu^{sid}u~sid\tilde{u}^{sid} 的角色得到 LMSG2\mathcal{L}_{MSG}^2。总损失为: LMSG=LMSG1+LMSG2 \mathcal{L}_{MSG} = \mathcal{L}_{MSG}^1 + \mathcal{L}_{MSG}^2

4.2.3. 训练与推理 (Training and Inference)

4.2.3.1. 训练 (Training)

在获得 SID 分支的用户表示 usid\pmb{u}^{sid}HID 分支的用户表示 uhid\pmb{u}^{hid} 之后,模型计算推荐分数。

  • 推荐分数计算: 物品 jj 推荐给用户 uu 的概率 P(vN+1=vjSu)P(v_{N+1} = v_j | S_u) 基于融合后的表示: P(vN+1=vjSu)=[ejsid:ejhid][usid:uhid] P ( v_{N+1} = v_j | S_u ) = [ \pmb{e}_j^{sid} : \pmb{e}_j^{hid} ]^\top [ \pmb{u}^{sid} : \pmb{u}^{hid} ]
    • ::表示拼接操作 (concatenation operator)。
    • ejsid\pmb{e}_j^{sid}:物品 jjSID 嵌入。
    • ejhid\pmb{e}_j^{hid}:物品 jjHID 嵌入。
    • usid\pmb{u}^{sid}:用户 uuSID 用户表示。
    • uhid\pmb{u}^{hid}:用户 uuHID 用户表示。 这意味着用户表示和物品表示都由其 SIDHID 分量的拼接组成,然后通过点积计算相似度作为推荐得分。
  • 配对排序损失 (Pairwise Ranking Loss): 模型使用配对排序损失进行优化: Lrec=uUj=1Nlogσ(P(vj+1=v+Su)P(vj+1=vSu)) \mathcal{L}_{rec} = - \sum_{u \in \mathcal{U}} \sum_{j=1}^N \log \sigma ( P ( v_{j+1} = v^+ | S_u ) - P ( v_{j+1} = v^- | S_u ) )
    • U\mathcal{U}:所有用户集合。
    • σ()\sigma(\cdot)sigmoid 激活函数。
    • v+v^+:真实交互物品 (ground-truth item)。
    • vv^-:对应的负采样物品 (negative item)。 这个损失函数的目标是使真实物品的预测得分高于负采样物品。
  • 总训练目标 (Overall Training Objective): 最终的训练目标是主推荐损失与两个辅助对齐损失的加权和: L=Lrec+βLCA+γLMSG \mathcal{L} = \mathcal{L}_{rec} + \beta \cdot \mathcal{L}_{CA} + \gamma \cdot \mathcal{L}_{MSG}
    • β\betaγ\gamma:超参数,控制两个辅助目标(代码引导对齐损失和掩码序列粒度损失)的贡献。

4.2.3.2. 推理 (Inference)

在推理阶段,由于 SID 和相关的码本嵌入已提前缓存,模型直接使用 Equation (9) 计算推荐分数,并给出最终的下一个物品预测。

Algorithm 1 训练和推理过程总结: 以下是原文 Algorithm 1 的内容,总结了 H2Rec 的训练和推理流程。

Algorithm 1 Train and Inference Procedures of $\mathrm{H}^2\mathrm{Rec}$ Require: User set $\boldsymbol{\mathcal{U}}$, Item set $\boldsymbol{\mathcal{T}}$ 1: Indicate the backbone SRS $f_{\theta^1}$ and $f_{\theta^2}$. 2: Indicate the weights of $\mathcal{L}_{CA}$ and $\mathcal{L}_{MSG}$. 3: Derive semantic embedding $E_{LLM}$ by LLM and codebook embedding matrix $E_C$ by RQ-VAE. Training 4: Initialize the HID item embeddings by dimension-reduced ELLM. 5: Initialize the semantic code embeddings by looking up through the $E_C$. 6: for a batch of users $\mathcal{U}_B$ in $\mathcal{U}$ do 7: Get the embedding sequence of different granularities from code embeddings. 8: Generate the weight $\alpha_l$ for different granularities by Equation (2). 9: Derive the final SID item embedding sequence $\varepsilon^{hid}$ by Equation (3). 10: Get the fused embedding sequence $\varepsilon^f$ by Equation (5). 11: Get the user representation in SID branch and HID branch, i.e., $\pmb{u}^{sid}$ and ${\pmb{u}}^{hid}$. 12: Calculate the probability score of ground-truth and negative items by Equation (9). 13: Calculate the ranking loss by Equation (10). 14: Calculate the $\mathcal{L}_{CA}$ by Equation (7) and $\mathcal{L}_{MSG}$ by Equation (8). 15: Sum the $\mathcal{L}_{rec}$, $\mathcal{L}_{CA}$, and $\mathcal{L}_{MSG}$. Then, update the parameters. 16: end for Inference 17: Load $E_{LLM}$, $E_C$, and $\alpha_l$ for item embedding layers and other parameters. 18: for a batch of users $\mathcal{U}_B$ in $\mathcal{U}$ do 19: Get the user representation in SID branch and HID branch, i.e., $\pmb{u}^{sid}$ and ${\pmb{u}}^{hid}$. 20: Calculate the probability score by Equation (9) and give the final next-item prediction. 21: end for

5. 实验设置

5.1. 数据集

实验使用了三个真实世界数据集来评估 H2Rec 的有效性:

  • Yelp:一个餐饮和商业评论数据集。

  • Amazon Beauty:亚马逊美妆商品评论数据集。

  • Amazon Instrument:亚马逊乐器商品评论数据集。

    这些数据集均来自真实的用户交互场景,具有推荐系统研究中常见的长尾分布特点,能够有效验证模型在处理稀疏物品方面的能力。数据预处理和划分遵循了以往 SRS 工作的标准做法 [18, 21]。

以下是原文 Table 1 展示的数据集统计信息:

Dataset # Users # Items Sparsity Avg.length
Yelp 15,720 11,383 99.89% 12.23
Beauty 52,204 57,289 99.92% 7.56
Instrument 40,644 30,676 99.97% 8.01

从表中可以看出,所有数据集都具有非常高的稀疏性(>99%),这突出体现了长尾问题的普遍存在,也为测试模型在稀疏数据下的表现提供了挑战。平均序列长度也各不相同,反映了用户行为模式的多样性。

5.2. 评估指标

为了全面评估 H2Rec,论文将物品分为头部物品 (Head items)尾部物品 (Tail items)。头部物品定义为总交互量排名前 20%20\% 的物品,其余的为尾部物品。对于每个组别,采用了两种常用的评估指标,并均在截断点 K=10K=10 处进行评估:

  1. 命中率 (Hit Rate, H@K)

    • 概念定义: Hit Rate 衡量的是在推荐列表的前 KK 个物品中,是否包含了用户实际下一个交互的物品。它是一个二元指标,表示用户所需的物品是否被成功推荐。H@10 意味着推荐列表的前10个物品中是否包含用户下一个交互的物品。
    • 数学公式: HR@K=uUI(next item for utop-K list for u)U \mathrm{HR}@K = \frac{\sum_{u \in \mathcal{U}} \mathbb{I}(\text{next item for } u \in \text{top-K list for } u)}{|\mathcal{U}|}
    • 符号解释:
      • U\mathcal{U}:用户集合。
      • U|\mathcal{U}|:用户总数。
      • I()\mathbb{I}(\cdot):指示函数,如果条件为真则返回1,否则返回0。
      • next item for u:用户 uu 实际下一个交互的物品。
      • top-K list for u:为用户 uu 生成的包含 KK 个物品的推荐列表。
  2. 归一化折损累计增益 (Normalized Discounted Cumulative Gain, NDCG@K)

    • 概念定义: NDCG 是一种衡量推荐列表质量的指标,它不仅考虑了推荐物品的相关性,还考虑了相关物品在列表中的位置。排名靠前的相关物品会获得更高的分数。NDCG@10 意味着评估推荐列表前10个物品的排序质量。
    • 数学公式: NDCG@K=DCG@KIDCG@K \mathrm{NDCG}@K = \frac{\mathrm{DCG}@K}{\mathrm{IDCG}@K} 其中,DCG@K(折损累计增益)计算为: DCG@K=i=1K2reli1log2(i+1) \mathrm{DCG}@K = \sum_{i=1}^K \frac{2^{\mathrm{rel}_i} - 1}{\log_2(i+1)} IDCG@K(理想折损累计增益)是完美推荐列表的 DCG@K 值: IDCG@K=i=1K2reli,ideal1log2(i+1) \mathrm{IDCG}@K = \sum_{i=1}^K \frac{2^{\mathrm{rel}_{i, \text{ideal}}} - 1}{\log_2(i+1)} (这里 reli,ideal\mathrm{rel}_{i, \text{ideal}} 是将所有相关物品按相关性降序排列后,第 ii 个位置的相关性得分。)
    • 符号解释:
      • KK:推荐列表的截断长度。

      • reli\mathrm{rel}_i:在推荐列表的第 ii 个位置上的物品的相关性得分。在二元相关性(0或1)场景下,如果物品是用户下一个交互的物品,则 reli=1\mathrm{rel}_i=1,否则 reli=0\mathrm{rel}_i=0

      • log2(i+1)\log_2(i+1):折扣因子,随着位置 ii 的增加,相关性得分的影响会降低。

      • DCG@K\mathrm{DCG}@K:实际推荐列表的累计增益,并考虑了位置折扣。

      • IDCG@K\mathrm{IDCG}@K:理想情况下(所有相关物品按最高相关性排在最前面)的 DCG 值,用于归一化。

        为了确保实验结果的鲁棒性,所有结果都是在随机种子 {42,43,44}\{42, 43, 44\} 下运行三次的平均值。

5.3. 对比基线

为了验证 H2Rec 的优越性,论文将其与多类最先进的基线模型进行了比较:

  1. HID 嵌入 (HID Embedding) 方法: 侧重于学习基于唯一 ID 的协同信息。

    • BERT4Rec [24]:基于 BERT 的双向 Transformer 序列推荐模型。
    • SASRec [12]:经典的基于自注意力机制的序列推荐模型。
    • MELT [13]:一种通过相互增强长尾用户和物品来改进序列推荐的方法。
    • LLM-ESR [18]:利用 LLM 增强尾部序列推荐的方法,代表了 LLM 注入语义信息的先进基线。
  2. SID 嵌入 (SID Embedding) 方法: 侧重于利用语义 ID。

    • PG-SID [37]:利用 SID 的生成属性。
    • SPM-SID [23]:一种用于可迁移序列推荐的 SID 方法。
    • CCFRec [16]:通过语义代码弥合文本-协同鸿沟的序列推荐方法。
    • PSRQ [30]:渐进式语义残差量化,用于多模态联合兴趣建模(论文简化为 PSRQ)。
  3. 混合嵌入 (Hybrid Embedding) 方法: 尝试结合 HIDSID 或其他辅助信息。

    • URL4DR [15]:统一语义和 ID 表示学习,用于深度推荐系统。

    • MME-SID [32]:通过多模态嵌入和语义 ID 赋能 LLM 进行序列推荐。

    • PCR-CA [25]:带有对比对齐的并行码本表示,用于多类别应用推荐。

      这些基线模型涵盖了序列推荐领域的不同主流范式,包括纯 HIDLLM 增强、纯 SID 和混合方法,确保了比较的全面性和公平性。

5.4. 实现细节

  • 硬件环境: 所有实验均在一块 RTX 4090 24G GPU 上完成。
  • 软件环境: Python 3.11PyTorch 2.4-2204
  • 超参数设置:
    • 损失权重: β\betaγ\gamma 这两个超参数的搜索范围为 {0.1,0.3,0.5,0.7,0.9}\{0.1, 0.3, 0.5, 0.7, 0.9\}。它们分别控制代码引导对齐损失 (LCA\mathcal{L}_{CA})掩码序列粒度损失 (LMSG\mathcal{L}_{MSG}) 的贡献度。
    • 更多细节: 论文鼓励读者查看其在线代码库获取更多实现细节。

6. 实验结果与分析

6.1. 核心结果分析

6.1.1. 整体性能 (Overall Performance)

以下是原文 Table 2 展示的 H2Rec 在三个数据集上的整体性能对比结果。


Dataset Group Metric HID Emb SID Emb Hybrid Emb Ours Improv. %
BERT4Rec SASRec MELT LLM-ESR SFM-SID PG-SID CCFRec PSRQ URL4DR MME-SID PCR-CA
Yelp Overall H@10 0.5314 0.5940 0.6101 0.6573 0.4727 0.4881 0.5947 0.5438 0.6402 0.6431 0.6447 0.6692* 1.81%
N@10 0.3147 0.3601 0.3394 0.4102 0.3148 0.3251 0.3694 0.3422 0.3776 0.3884 0.3971 0.4272* 4.14%
Tail H@10 0.0177 0.1175 0.1223 0.1802 0.2441 0.2492 0.2478 0.2543 0.1957 0.2215 0.2032 0.2693* 5.90%
N@10 0.0068 0.0588 0.0599 0.0676 0.1162 0.1186 0.1171 0.1210 0.0914 0.1103 0.0954 0.1306* 7.93%
Beauty Overall H@10 0.3992 0.4401 0.4890 0.5544 0.3715 0.3836 0.4398 0.4038 0.5464 0.5509 0.5539 0.5742* 3.57%
N@10 0.2401 0.3043 0.3357 0.3702 0.2617 0.2703 0.3021 0.2845 0.3675 0.3617 0.3673 0.3957* 6.89%
Tail H@10 0.0123 0.0921 0.1536 0.2198 0.2208 0.2254 0.2238 0.2300 0.1967 0.2177 0.2048 0.2557* 11.17%
N@10 0.0052 0.0675 0.0877 0.1074 0.1355 0.1383 0.1323 0.1411 0.1105 0.1404 0.1342 0.1524* 8.01%
Instrument Overall H@10 0.4601 0.5057 0.5510 0.5881 0.4312 0.4453 0.5078 0.4687 0.6005 0.6044 0.6072 0.6184* 1.84%
N@10 0.3213 0.3442 0.3622 0.3809 0.2908 0.3003 0.3376 0.3161 0.4024 0.4027 0.4056 0.4153* 2.39%
Tail H@10 0.0199 0.0489 0.0766 0.0998 0.2058 0.2101 0.2099 0.2144 0.1605 0.2044 0.1827 0.2382* 11.10%
N@10 0.0143 0.0257 0.0459 0.0549 0.0990 0.1010 0.0907 0.1031 0.0828 0.0991 0.1025 0.1233* 11.88%

**分析:**
  • H2^2Rec 的显著优势: 从 Table 2 可以看出,H2Rec 在所有三个数据集的所有指标(H@10 和 N@10)上均取得了最佳性能,且相比次优基线,相对提升幅度从 1.29% 到 11.88% 不等,且所有提升都具有统计显著性 (p<0.05p < 0.05)。这强有力地证明了 H2Rec 的优越性。
  • Hybrid Emb 和 LLM-ESR 的表现: 紧随 H2Rec 之后的是混合嵌入 (Hybrid Embedding) 方法(如 PCR-CAMME-SID)以及 LLM-based 方法(即 LLM-ESR)。这表明简单地融合 LLM 知识到 HID 或组合多种嵌入确实能带来性能提升。然而,这些方法仍不如 H2Rec,暗示了没有显式和细粒度的对齐机制,其潜力未能完全发挥。
  • SID Emb 方法的差异:SID Emb 基线中,SFM-SIDPG-SID 表现普遍不如 CCFRecPSRQ。这表明仅增强语义质量是不够的,推荐系统需要面向推荐任务的架构设计。CCFRec 的性能与 HID-basedSASRec 相当,这得益于其逐步整合多属性维度语义嵌入的能力,提供了比 SFM-SIDPG-SID 更精细的物品区分。
  • 单视图方法的局限性: 总体而言,所有单视图方法 (single-view methods)(前七列)的性能均不如混合方法 (hybrid approaches)(后四列),这进一步强调了在统一框架中整合 SIDHID 的必要性。

6.1.2. 流行度细分性能 (Popularity Breakdown)

分析:

  • HID Emb 方法: HID-based 方法(如 SASRecLLM-ESR)在头部物品 (Head items) 上表现出色,因为它们拥有丰富的交互数据。然而,它们在尾部物品 (Tail group) 上的性能急剧下降,这证实了它们对密集协同信号的依赖。
  • SID Emb 方法: 相反,SID-based 方法(如 PSRQCCFRec)通过利用语义信息进行协同共享,有效解决了尾部物品 (Tail items) 的稀疏性问题。例如,PSRQCCFRec 在尾部物品上显著超越了 SASRec。然而,由于 SID 固有的粗粒度特性和量化导致的 ID 冲突,它们在头部物品 (Head group) 上的性能受限。
  • H2^2Rec 的优势: H2Rec 成功消除了这种权衡。它在尾部组中取得了最佳结果,显著优于 SID-based 基线,同时在头部组中也保持了与 HID-based 方法相比的最先进性能。这表明 H2Rec 成功地将语义知识转移到了冷门物品,同时没有损害模型捕捉流行物品精细协同信息的能力,验证了其所提出模块的有效性。

6.1.3. 消融实验 (Ablation Study)

为了评估 H2Rec 中每个组件的贡献,论文进行了消融研究,选择性地移除单个模块,同时保持其余架构不变。

以下是原文 Table 3 展示的 H2Rec 在 Yelp 数据集上的消融实验结果。


Variants Overall Tail Head
N@10 H@10 N@10 H@10 N@10 H@10
H2RecH^2Rec 0.4272 0.6692 0.1306 0.2693 0.5483 0.8324
w/o FN 0.4123 0.6605 0.1013 0.2347 0.5404 0.8208
w/o Lca 0.4044 0.6455 0.1067 0.2161 0.4920 0.7719
w/o MCA 0.4072 0.6523 0.1105 0.2190 0.5218 0.8077
w/o LMSG 0.4202 0.6667 0.1091 0.2285 0.5398 0.8258

消融变体定义: * w/o Fusion Network (w/o FN): 移除了`多粒度融合网络`,并用固定权重替代不同粒度。 * **w/o LCA\mathcal{L}_{CA}:** 移除了`代码引导对齐损失`。 * w/o Multi-granularity Cross Attention (w/o MCA): 移除了`多粒度交叉注意力`模块。 * **w/o LMSG\mathcal{L}_{MSG}:** 移除了`掩码序列粒度损失`。

分析:

  • 融合网络 (Fusion Network) 和掩码序列粒度损失 (LMSG\mathcal{L}_{MSG}) 的有效性: 移除多粒度融合网络 (w/o FN) 导致整体性能下降,尤其在尾部物品上 (N@10 从 0.1306 降至 0.1013)。类似地,移除掩码序列粒度损失 (w/o LMSG) 也导致尾部物品性能下降 (N@10 从 0.1306 降至 0.1091)。这表明这两个组件都提高了语义表示质量,尤其对尾部物品的推荐有益,验证了学习自适应和鲁棒多粒度语义的重要性。

  • 跨分支交互 (Cross-branch Interaction) 的作用: 移除多粒度交叉注意力模块 (w/o MCA) 导致头部物品的性能显著下降 (N@10 从 0.5483 降至 0.5218)。这证实了跨分支信息传递的必要性,它使 HID 分支能够选择性地吸收有益的多粒度语义信息,同时不损失其标识符的唯一性。

  • 代码引导对齐 (Code-guided Alignment) 的重要性: 移除代码引导对齐损失 (w/o Lca) 导致头部和尾部组的性能均下降(尾部 N@10 从 0.1306 降至 0.1067,头部 N@10 从 0.5483 降至 0.4920)。这表明对齐策略有效地促进了语义相关物品之间准确且抗噪声的协同信息共享。

    这些结果共同验证了 H2Rec 框架中的各个组件都至关重要,它们共同发挥作用,利用 HIDSID 的互补优势,解决了论文提出的各项挑战。

6.1.4. 超参数分析 (Hyperparameter Analysis)

论文分析了两个关键超参数的敏感性:对齐损失权重 β\beta粒度掩码损失权重 γ\gamma。结果在 Yelp 数据集上展示于 Figure 3。

Figure 3: Hyper-parameter Results on Yelp Dataset. Note that Masked" represents the \(\\mathcal { L } _ { M S G }\) while "Alignment" represents the \(\\mathcal { L } _ { C A }\) . 该图像是图表,展示了在Yelp数据集上超参数调整的结果。左侧图表显示了指标 H@10 的变化,"Masked" 用三角形标记表示,而 "Alignment" 用圆点标记表示。右侧图表展示了 N@10 的变化情况。两个图表的横轴均为超参数值,纵轴分别表示各自对应的评估指标的结果。

以上是原文 Figure 3 展示的在 Yelp 数据集上超参数分析结果图。左侧图显示了 H@10β\betaγ\gamma 变化,右侧图显示了 N@10β\betaγ\gamma 变化。

分析:

  • 对齐权重 β\beta 随着 β\beta 值的增加,性能先提升,并在 β=0.5\beta = 0.5 左右达到最优。
    • β\beta 过小: 损害了代码引导对齐 (code-guided alignment),导致协同信号向语义相似的尾部物品传输不足。
    • β\beta 过大: 导致语义空间过度对齐到协同空间,引入噪声并损害泛化能力。
  • 粒度权重 γ\gamma 模型的性能在 γ=0.3\gamma = 0.3 时达到峰值。
    • γ\gamma 过低: 作为辅助正则化器,LMSG\mathcal{L}_{MSG} 无法有效确保表示的鲁棒性。

    • γ\gamma 过高: 干扰了主要的推荐任务。

      这表明,两个辅助损失都需要一个平衡的权重来最大化其效益,过高或过低都会损害整体性能。

6.1.5. LCA\mathcal{L}_{CA} 的深入分析 (In-depth Analysis for LCA\mathcal{L}_{CA})

为了进一步验证代码引导对齐损失 (LCA\mathcal{L}_{CA}) 在缓解噪声协同共享 (noisy collaborative sharing) 问题上的有效性,论文分析了其两个关键设计因素的影响:语义代码匹配阈值 P\mathcal{P}上下文窗口大小 oo

以下是原文 Table 4 展示的语义代码匹配阈值 P\mathcal{P} 对 Yelp 数据集性能的影响。


code num Overall Tail Head
N@10 H@10 N@10 H@10 N@10 H@10
Removed 0.4095 0.6505 0.1177 0.2211 0.4970 0.7769
1 0.4059 0.6473 0.1058 0.2044 0.4955 0.7712
2 0.4199 0.6582 0.1204 0.2591 0.5385 0.8247
3 (Ours) 0.4272 0.6692 0.1306 0.2693 0.5483 0.8324

**分析:** * **代码匹配阈值 P\mathcal{P} 的影响:** * 当使用 P=1P=1(只考虑最粗粒度的语义层)时,性能显著下降。这表明过于粗糙的类别会将许多弱相关的物品组合在一起,从而向正样本集引入噪声。 * 将阈值增加到 P=3P=3(即 `H2Rec` 默认设置)带来了显著的性能提升,尤其是在尾部物品上。这表明更深层次的语义匹配对于过滤噪声、确保只有真正相似的物品共享协同信号至关重要。
    以下是原文 Table 5 展示的上下文窗口大小 oo 对 Yelp 数据集性能的影响。

context Overall Tail Head
N@10 H@10 N@10 H@10 N@10 H@10
Removed 0.4148 0.6522 0.1176 0.2230 0.5072 0.7911
1 0.4190 0.6523 0.1208 0.2294 0.5205 0.8062
3 (Ours) 0.4272 0.6692 0.1306 0.2693 0.5483 0.8324
5 0.4205 0.6637 0.1244 0.2638 0.5441 0.8299

**分析:** * **上下文窗口大小 oo 的影响:** * 扩大共现窗口(例如从 `1` 到 `3`,即 `H2Rec` 默认设置)可以提升性能。这证实了将局部序列相关物品作为额外正样本的有效性。 * 然而,当窗口进一步扩大到 o=5o=5 时,性能开始下降。这可能是因为过大的窗口会包含较不相关的物品,从而引入噪声。
    这些结果验证了 `H2Rec` 中结合多级别语义匹配和局部协同上下文的设计对于实现 LCA\mathcal{L}_{CA} 中准确且抗噪声对齐的必要性。

6.1.6. 分组分析 (Group Analysis)

为了更细致地分析,论文将原始的头-尾物品组进一步划分为五个流行度组。

Figure 4: Detailed results in different item groups on the Yelp dataset. 该图像是图表,展示了在Yelp数据集上不同项组的H@10和N@10的详细结果。图中对比了三种推荐方法的性能,其中我们的方法相较于LLM-ESR和PCR-CA在推荐质量上表现更为优越。

以上是原文 Figure 4 展示的在 Yelp 数据集上不同物品组的详细结果图。图中对比了 LLM-ESR, PCR-CA 和 Ours (H2^2Rec) 在不同流行度分组下的 H@10 和 N@10 表现。

分析:

  • PCR-CA 的优势: 在流行度低于 60 的组(前三列分组)中,PCR-CA(采用混合嵌入机制)相比 LLM 增强方法(LLM-ESR)取得了明显的性能提升。在流行度大于 60 的组(后两列分组)中,PCR-CA 的性能与 LLM-ESR 几乎持平,这展示了混合嵌入方法的优势。
  • H2^2Rec 的全面领先: 相比之下,H2Rec 进一步利用其双分支架构和双层对齐策略进行优化,结果在所有流行度组中持续优于所有现有方法。这表明 H2Rec 在平衡头部和尾部物品的推荐质量方面取得了显著进展。

6.1.7. 通用性验证 (Generality Validation)

6.1.7.1. 量化机制分析 (Quantization Mechanism Analysis)

论文比较了 H2Rec 在三种常用量化机制(VQ, PQ, RQ)生成的 SID 下的性能。

以下是原文 Table 6 展示的 H2Rec 在 Yelp 数据集上使用不同量化机制的性能对比。


Model Overall Tail Head
N@10 H@10 N@10 H@10 N@10 H@10
VQ + 0.4091 0.6531 0.0943 0.1986 0.5018 0.7869
PQ + 0.4124 0.6597 0.1091 0.2285 0.5118 0.7958
RQ + 0.4272 0.6692 0.1306 0.2693 0.5483 0.8324

**分析:** * `H2Rec` 在所有配置下都保持了有竞争力的性能,表明其设计的鲁棒性和通用适用性。 * RQ (Residual Quantization) 的优势: `RQ` 取得了最强的性能,因为其残差编码结构 (residual coding structure) 自然地捕获了残差语义粒度。这种细粒度表示有助于缓解数据稀疏性,从而提升尾部物品的性能。 * PQ (Product Quantization) 的表现: `PQ` 提供了适度的改进,因为它将嵌入空间划分为子空间,在语义精度和代码紧凑性之间提供了平衡。 * VQ (Vector Quantization) 的局限性: `VQ` 表现最弱,因为它将每个物品映射到单一的离散代码,导致严重的语义坍缩 (semantic collapse),降低了头部和尾部物品的唯一性。
尽管存在这些差异,所有变体都取得了持续的良好结果,即使在表达能力最弱的 `VQ` 设置下也是如此。这表明 `H2Rec` 无论底层量化机制如何,都能有效利用语义信号,证实了其框架的通用性和<strong>即插即用 (plug-and-play)</strong> 特性。

6.1.7.2. 主干网络分析 (Backbone Analysis)

为了进一步验证框架的模型无关性 (model-agnostic nature),论文在两种广泛采用的序列推荐主干网络下评估了 H2RecGRU4RecBERT4Rec

以下是原文 Table 7 展示的在 Yelp 数据集上使用不同主干网络的性能对比。


Backbone Model Overall Tail Items Popular Items
N@10 H@10 N@10 H@10 N@10 H@10
GRU4Rec PCR-CA 0.3613 0.5988 0.0745 0.1889 0.4311 0.7204
LLM-ESR 0.3627 0.6075 0.0482 0.0952 0.4491 0.7338
Ours 0.3804 0.6239 0.0983 0.2058 0.4634 0.7470
BERT4Rec PCR-CA 0.4173 0.6604 0.0720 0.1689 0.5346 0.8175
LLM-ESR 0.4205 0.6635 0.0503 0.1247 0.5444 0.8223
Ours 0.4298 0.6724 0.0991 0.1735 0.5545 0.8344

**分析:** * `H2Rec` 在基于 `RNN` 的 `GRU4Rec` 和基于 `Transformer` 的 `BERT4Rec` 两种架构下,都持续优于所有基线模型。 * 这证实了 `H2Rec` 框架并不局限于特定的编码器设计,它可以作为各种 `SRS` 的通用即插即用 (plug-and-play) 增强模块。

6.1.8. 语义代码分析 (Semantic Code Analysis)

论文分析了 H2Rec 在不同质量的 SID 下的性能表现,考察了代码层数 (code layers)码本大小 (codebook size) 两个方面。

以下是原文 Table 8 展示的在 Yelp 数据集上不同 SID 设置的性能对比。


Settings Overall Tail Head Coll.% Util.%
N@10 H@10 N@10 H@10 N@10 H@10
3x128 0.4145 0.6510 0.1152 0.2480 0.5365 0.8150 33.92 0.54
3x256 0.4192 0.6585 0.1215 0.2565 0.5402 0.8215 29.92 0.068
3x512 0.4235 0.6640 0.1268 0.2630 0.5445 0.8270 25.85 0.008
4x128 0.4272 0.6692 0.1306 0.2693 0.5483 0.8324 22.28 0.004
4x256 0.4338 0.6785 0.1385 0.2790 0.5540 0.8410 11.87 <0.001

**分析:** * **码本容量扩大的影响:** 扩大码本容量(例如,增加代码层数或每层码本大小)带来了持续的性能提升。这主要归因于冲突率 (collision rates) 的显著降低。较低的冲突率缓解了语义模糊性 (semantic ambiguity),从而增强了物品表示的独特性。 * **效率与利用率的权衡:** 性能提升的同时也伴随着码本冗余的代价。例如,`4x256` 设置尽管冲突率最低,但其利用率 (utilization rate) 极低(<0.001<0.001),远低于较小设置。 * **默认设置的选择:** 为了在最小化冲突率(确保独特性)和保持合理利用率(确保效率)之间取得平衡,论文将 `4x128` 作为所有实验的默认设置。
这部分分析展示了 `SID` 参数选择对性能和效率的权衡,强调了在实践中需要根据具体应用进行优化。

7. 总结与思考

7.1. 结论总结

本文深入探讨了序列推荐系统中标识符唯一性 (identifier uniqueness)语义泛化能力 (semantic generalization) 之间的基本权衡,并首次正式识别了协同压倒现象 (Collaborative Overwhelming phenomenon)。为了解决由此导致的头部物品和尾部物品之间的性能不平衡,论文提出了 H2^2Rec,一个新颖的双分支框架,旨在协调 (harmonize) 哈希ID (HID)语义ID (SID)

H2Rec 通过以下关键创新实现了目标:

  • 双分支建模: SID 分支利用多粒度融合网络 (multi-granularity fusion network) 捕捉精细的语义差异,有效解决了语义同质性 (Semantic Homogeneity) 问题。HID 分支通过多粒度交叉注意力网络 (multi-granularity cross-attention network),在保留流行物品协同特异性的同时,选择性地注入语义信息,从而缓解了协同压倒现象

  • 双层对齐策略: 代码引导对齐损失 (code-guided alignment loss) 在物品级别促进了语义和协同空间的对齐,使长尾物品能够借用高质量的信号,减轻了噪声协同共享 (Noisy Collaborative Sharing) 问题。掩码序列粒度损失 (masked sequence granularity loss) 在用户级别增强了用户表示的鲁棒性。

    在三个真实世界数据集上的广泛实验表明,H2Rec 持续优于所有最先进的基线模型。最重要的是,它成功打破了性能瓶颈,在显著提升尾部物品性能的同时,并未牺牲头部物品的推荐质量,真正实现了“两全其美”。

7.2. 局限性与未来工作

论文没有明确设置“局限性与未来工作”的章节,但从其讨论和实验中可以推断出一些潜在的局限性和未来研究方向:

潜在局限性:

  • 超参数敏感性: 模型的性能对 β\betaγ\gamma 等超参数的设置较为敏感,需要仔细调优。这种调优过程可能需要大量计算资源和时间。
  • 码本效率与冲突的权衡: 语义代码分析表明,虽然增加码本容量可以降低冲突率并提高性能,但这通常以牺牲码本利用率(即大量代码未被使用)为代价。如何在最小化冲突和最大化效率之间取得最佳平衡仍是一个挑战。
  • LLM 依赖: 模型的语义 ID 质量高度依赖于初始 LLM 嵌入的质量。如果 LLM 嵌入本身存在偏差或信息不足,可能会影响 H2Rec 的性能。
  • 计算开销: 双分支架构、多粒度注意力机制以及双层对齐策略可能带来比单一模型更高的训练和推理计算开销。
  • RQ-VAE 的选择: 尽管论文验证了对量化机制的通用性,但 RQ-VAE 仍是表现最好的。探索如何使 VQPQ 等更简单的量化方法在 H2Rec 中达到类似 RQ 的效果,或减轻 RQ-VAE 自身的复杂性,仍有空间。

未来工作方向 (根据论文内容推断):

  • 更智能的粒度融合: 探索更高级的自适应策略,以动态地融合不同粒度的语义信息,可能不局限于仅仅依赖最近交互的物品。
  • 优化 SID 生成过程: 进一步研究如何在保持低冲突率的同时提高 SID 码本的利用率,例如通过动态码本调整或自适应量化策略。
  • 探索其他类型的 ID 协调:H2Rec 的思想扩展到其他类型的物品标识符或辅助信息(例如图像、音频等),实现更全面的多模态信息融合。
  • 更通用的对齐机制: 设计更具泛化性的对齐损失,以适应更广泛的推荐场景和数据分布,而不仅仅是序列推荐。
  • 效率优化: 研究如何优化双分支模型在训练和推理阶段的计算效率,使其在工业级大规模部署中更具可行性。
  • 跨领域应用: 探索 H2Rec 框架在其他推荐任务(如多样性推荐、公平性推荐)或不同领域(如新闻、社交媒体)中的应用潜力。

7.3. 个人启发与批判

个人启发: 这篇论文提供了一个非常优雅且实用的解决方案,有效地桥接了推荐系统领域长期存在的两个挑战:长尾物品推荐语义信息有效利用。其核心启发在于:

  1. “两全其美”的系统性思考: 论文没有试图用单一方案解决所有问题,而是认识到 HIDSID 各自的优劣势,并通过巧妙的双分支架构双层对齐策略,系统地结合了两者的优点。这种将不同信息源进行深度融合而非简单拼接的范式,对于设计更鲁棒、更全面的推荐系统具有普遍指导意义。
  2. 细致入微的问题拆解: 论文清晰地识别并形式化了 LLM 嵌入的语义同质性、共现信号的噪声协同共享以及 SID协同压倒现象。这种对问题根源的深入分析是提出有效解决方案的前提。
  3. 多粒度语义的价值: RQ-VAE 提供的多粒度语义在模型中得到了充分利用,无论是 SID 分支的融合网络还是 HID 分支的交叉注意力,都体现了对语义细粒度差异的重视,这对于区分高度相似物品和理解用户复杂意图至关重要。
  4. 知识迁移的艺术: 代码引导对齐损失通过“借用”机制,使稀疏的尾部物品能够从语义相似的流行头部物品中获取高质量的协同信号,这是一种非常高效且智能的知识迁移方式,值得在其他数据稀疏问题中借鉴。
  5. 模块化与通用性: 框架的量化机制无关性主干网络无关性(即插即用)使其具有很强的通用性,方便研究人员和实践者在不同场景和模型中应用。

批判与可以改进的地方:

  1. “协同压倒现象”的进一步根治: 尽管 H2Rec 通过 HID 分支的选择性注意力缓解了协同压倒现象,但 SID 本身固有的代码冲突问题依然存在。未来的工作可以探索从 SID 生成源头着手,例如设计能更好地平衡唯一性和语义关联性的量化算法,或者引入某种“冲突感知”机制,在 SID 生成阶段就尽可能减少对头部物品唯一性的损害。
  2. 用户意图建模的深度: SID 分支的多粒度融合网络使用用户最近交互物品的 HID 嵌入作为查询锚点来分配粒度权重。虽然这是一种有效的启发式方法,但用户意图往往更加复杂和动态。可以考虑从整个序列中学习更丰富的用户意图表示,或者引入外部上下文信息来更精准地指导粒度融合。
  3. 负采样策略的探讨: 论文中的配对排序损失和对比损失都依赖于负采样。负采样的质量对推荐效果有显著影响。论文未详细说明其负采样策略。在实际应用中,更先进的负采样技术(如硬负采样、对抗性负采样)可能会进一步提升性能,并值得进行消融实验验证。
  4. 模型复杂度和可解释性: 双分支、多注意力、双层对齐的架构虽然强大,但无疑增加了模型的复杂性。这可能会带来更高的训练和推理成本,并可能降低模型的可解释性。未来的工作可以尝试简化架构,或者引入可解释性模块来揭示模型是如何在 HIDSID 之间进行权衡和知识迁移的。
  5. 公平性和多样性: 论文主要关注准确性指标(H@10, N@10)以及头部/尾部物品的性能平衡。然而,在推荐系统中,多样性 (diversity)公平性 (fairness) 也是重要的考量。H2Rec 在提升尾部物品推荐方面可能间接提升了多样性,但缺乏显式评估。未来的工作可以探索如何在保持高准确性的同时,优化推荐列表的多样性、新颖性或公平性。

相似论文推荐

基于向量语义检索推荐的相关论文。

暂时没有找到相似论文。