论文状态:已完成

Enhancing Sequential Recommendation with World Knowledge from Large Language Models

发表:2025/11/25
原文链接PDF 下载
价格:0.100000
价格:0.100000
已有 4 人读过
本分析由 AI 生成,可能不完全准确,请以原文为准。

TL;DR 精炼摘要

本文提出了GRASP框架,通过生成增强检索和多级注意力机制,克服了传统序列推荐系统在信息捕获方面的局限性。研究表明,GRASP能够在存在大语言模型幻觉的情况下,有效利用世界知识,从而增强用户动态兴趣的建模和推荐性能,达到先进水平。

摘要

Sequential Recommendation System~(SRS) has become pivotal in modern society, which predicts subsequent actions based on the user's historical behavior. However, traditional collaborative filtering-based sequential recommendation models often lead to suboptimal performance due to the limited information of their collaborative signals. With the rapid development of LLMs, an increasing number of works have incorporated LLMs' world knowledge into sequential recommendation. Although they achieve considerable gains, these approaches typically assume the correctness of LLM-generated results and remain susceptible to noise induced by LLM hallucinations. To overcome these limitations, we propose GRASP (Generation Augmented Retrieval with Holistic Attention for Sequential Prediction), a flexible framework that integrates generation augmented retrieval for descriptive synthesis and similarity retrieval, and holistic attention enhancement which employs multi-level attention to effectively employ LLM's world knowledge even with hallucinations and better capture users' dynamic interests. The retrieved similar users/items serve as auxiliary contextual information for the later holistic attention enhancement module, effectively mitigating the noisy guidance of supervision-based methods. Comprehensive evaluations on two public benchmarks and one industrial dataset reveal that GRASP consistently achieves state-of-the-art performance when integrated with diverse backbones. The code is available at: https://anonymous.4open.science/r/GRASP-SRS.

思维导图

论文精读

中文精读

1. 论文基本信息

1.1. 标题

增强序列推荐系统 (Sequential Recommendation System, SRS) 与大语言模型 (Large Language Models, LLMs) 的世界知识 (World Knowledge)。

1.2. 作者

  • Tianjie Dai (上海交通大学)
  • Xu Chen, Yunmeng Shu, Jinsong Lan, Xiaoyong Zhu, Bo Zheng (淘宝天猫集团)
  • Jiangchao Yao (上海交通大学)

1.3. 发表期刊/会议

预印本 (arXiv),目前尚未在期刊或会议上正式发表。但其发布时间 (UTC):2025-11-25T10:59:38.000Z 表明这可能是一篇即将发表或已提交的论文。

1.4. 发表年份

2025年。

1.5. 摘要

序列推荐系统 (SRS) 在现代社会中扮演着关键角色,它基于用户的历史行为预测后续动作。然而,传统的基于协同过滤的序列推荐模型由于其协同信号的信息有限,往往导致次优性能。随着大语言模型 (LLMs) 的快速发展,越来越多的工作将 LLMs 的世界知识融入序列推荐中。尽管这些方法取得了显著的进步,但它们通常假设 LLM 生成结果的正确性,并且容易受到 LLM 幻觉 (hallucinations) 引起的噪声影响。为了克服这些局限性,本文提出了 GRASP (Generation Augmented Retrieval with Holistic Attention for Sequential Prediction),这是一个灵活的框架,它集成了用于描述性合成和相似性检索的生成增强检索 (generation augmented retrieval),以及采用多级注意力 (multi-level attention) 的整体注意力增强 (holistic attention enhancement),即使在存在幻觉的情况下也能有效利用 LLM 的世界知识,并更好地捕获用户的动态兴趣。检索到的相似用户/物品作为辅助上下文信息,用于后续的整体注意力增强模块,有效缓解了基于监督方法带来的噪声指导。在两个公共基准数据集和一个工业数据集上的综合评估表明,GRASP 在与不同主干网络 (backbones) 集成时,始终能实现最先进的性能。

1.6. 原文链接

2. 整体概括

2.1. 研究背景与动机

2.1.1. 序列推荐系统 (SRS) 的重要性与局限性

序列推荐系统 (SRS) 在现代推荐场景中至关重要,它通过利用用户-物品的交互序列来建模用户的时序模式,并预测未来的行为。这使得 SRS 能够捕获用户偏好的动态性,从而在电商、短视频、社交网络等多样化领域提供个性化推荐。

尽管 SRS 取得了成功,但其性能仍有很大的提升空间。传统 SRS 模型主要基于 ID 嵌入 (ID embeddings) 构建,这导致了两个主要局限性:

  1. 信息有限: ID 嵌入无法捕获全面的用户行为模式,忽略了许多其他有价值的信息。
  2. 协同过滤的内在限制: 仅仅依赖协同信号 (collaborative signals) 不可避免地引入偏差。例如,当用户购买户外帐篷时,其潜在兴趣可能延伸到更广泛的露营生态系统(如睡袋、便携式炉灶、照明设备),但传统的 ID-based 模型(如 GRU4Rec)倾向于推荐与已交互物品高度相似的物品(如不同类型的帐篷),这导致无法捕获用户潜在的跨品类兴趣。这种对主导信号的过度强调,使得纯粹的协同建模往往导致次优解。

2.1.2. 大语言模型 (LLMs) 带来的机遇与挑战

大语言模型 (LLMs) 的最新进展为增强 SRS 提供了新途径。LLMs 能够通过整合世界知识 (world knowledge) 生成用户和物品的丰富语义描述,从而提供比协同信息更具多样性和全面性的信号。

然而,LLM-enhanced 的 SRS 方法也面临一个关键挑战:

  • LLM 幻觉 (hallucinations) 问题: LLMs 容易生成与现实不符或包含不准确信息的描述。许多现有方法通常假设 LLM 生成结果的正确性,并直接将其作为监督信号 (supervision signals)。这种做法一旦 LLM 出现幻觉,就可能引入噪声,从而严重损害模型的性能和可靠性。论文通过在工业数据集上的实验表明,当用户交互序列长度较短时,幻觉率显著增加,这使得直接使用潜在幻觉的语义特征作为监督信号风险更高。

2.1.3. 本文的切入点

为了克服传统 SRS 的信息局限性和 LLM-enhanced 方法的幻觉问题,本文旨在设计一个新颖的框架,能够:

  1. 有效融合 LLM 衍生的世界知识,以补充稀疏的协同信号。
  2. 规避由幻觉引起的潜在错误语义嵌入所带来的影响,即不将其直接作为监督信号,而是作为辅助上下文信息。
  3. 更好地捕获用户的动态兴趣。

2.2. 核心贡献/主要发现

本文提出了 GRASP (Generation Augmented Retrieval with Holistic Attention for Sequential Prediction),其主要贡献和发现如下:

  1. 提出 GRASP 框架: 提出了一个灵活的框架 GRASP,它与现有的序列推荐系统正交 (orthogonal),能够集成到不同的 SRS 主干网络 (backbones) 上。它解决了基于属性检索的不准确性问题,并避免了直接利用 LLM 生成的幻觉内容作为监督信号所导致的噪声指导问题。
  2. 引入两大核心组件:
    • 生成增强检索 (Generation Augmented Retrieval): 利用 LLMs 生成详细的用户画像和物品描述,构建离线数据库。通过语义嵌入 (semantic embeddings) 识别最相似的 kk 个用户或物品,以提供辅助信息,将其投影到紧凑的嵌入空间中,从而有效整合原始属性和 LLM 的世界知识。
    • 整体注意力增强 (Holistic Attention Enhancement): 将检索到的信息作为上下文输入 (contextual input),而非直接监督信号,从而有效避免潜在 LLM 幻觉带来的噪声指导。该组件采用多级注意力机制:首先是用户-物品注意力 (user-item attention) 捕获核心交互模式,然后是相似用户/物品组之间的注意力 (attention between similar user/item groups) 融入邻域上下文,最后是拼接注意力 (concatenated attention) 进行全局兴趣建模。
  3. 卓越的实验性能: 在两个公共数据集 (Amazon Beauty, Amazon Fashion) 和一个工业基准数据集 (Industry-100K) 上的广泛实验表明,GRASP 在集成多样化的主干网络时,始终优于最先进的基线模型。
    • GRASP 在整体推荐性能上实现了显著提升。
    • 尤其在长尾 (long-tail) 场景下(幻觉风险最高),GRASP 的性能提升更为显著,同时在头部 (head) 场景下也保持了强大的性能,展示了其在数据稀疏场景下缓解幻觉影响并为充分代表的用户和物品保持高推荐准确性的能力。
  4. 实际部署价值: GRASP 将 LLM 的世界知识作为前端特征增强模块,易于在实际应用中部署,并且在阿里巴巴内部电商平台进行的在线 A/B 测试中,显示了 CTR (点击率) 0.14 个点绝对提升、订单量 1.69% 相对增长、GMV (商品交易总额) 1.71% 提升的显著效果,证实了其实用价值。

3. 预备知识与相关工作

3.1. 基础概念

3.1.1. 序列推荐系统 (Sequential Recommendation System, SRS)

概念定义: 序列推荐系统旨在根据用户过去与物品交互的行为序列,预测用户下一步最有可能交互的物品。它关注用户偏好的动态变化,并利用这种时序信息来提供个性化推荐。 核心思想: 用户的兴趣和偏好是动态变化的,过去的交互行为(如购买历史、浏览记录)可以揭示这种变化模式。SRS 通过建模这些序列模式来预测未来的交互。

3.1.2. 协同过滤 (Collaborative Filtering, CF)

概念定义: 协同过滤是一种广泛使用的推荐技术,其基本思想是“物以类聚,人以群分”。它通过收集大量用户的行为数据(如评分、购买),找出与目标用户兴趣相似的用户(用户-用户协同过滤)或与目标物品相似的物品(物品-物品协同过滤),然后根据这些相似性进行推荐。 局限性: 传统协同过滤方法通常依赖于用户 ID 或物品 ID 进行嵌入学习。这些 ID 嵌入本身不包含语义信息,只是一种抽象的表示。当交互数据稀疏时,ID 嵌入的学习效果会受限,并且难以捕获用户多样的、跨品类的潜在兴趣,因为它主要关注与历史交互物品“高度相似”的物品。

3.1.3. 大语言模型 (Large Language Models, LLMs)

概念定义: 大语言模型是基于海量文本数据训练的深度学习模型,通常采用 Transformer 架构,具有强大的自然语言理解 (Natural Language Understanding, NLU) 和生成 (Natural Language Generation, NLG) 能力。它们能够理解文本的语义、生成连贯的文本、回答问题、进行推理等。 在推荐中的作用: LLMs 可以利用其“世界知识”和语义理解能力,为用户和物品生成丰富的文本描述或语义嵌入,从而弥补传统 ID 嵌入缺乏语义信息的不足,为推荐系统提供更深层次的上下文和个性化洞察。

3.1.4. LLM 幻觉 (LLM Hallucinations)

概念定义: LLM 幻觉是指大语言模型生成的内容在语法上可能是正确的,但在事实层面上与现实不符、逻辑上不连贯,或者与给定的输入信息相矛盾的现象。这种现象通常发生在模型“编造”信息以填补其知识空白时。 在推荐中的影响: 在推荐系统中,如果 LLM 为用户或物品生成了幻觉性的描述或语义特征,并且这些不准确的信息被直接用作监督信号来指导模型学习,就会引入噪声和偏差,导致推荐结果不准确或不可靠,尤其是在数据稀疏的长尾 (long-tail) 场景下,幻觉的风险更高。

3.1.5. 注意力机制 (Attention Mechanism)

概念定义: 注意力机制是一种在神经网络中广泛应用的技术,它允许模型在处理输入序列时,动态地聚焦于序列中最重要的部分。其核心思想是为输入序列中的每个元素分配一个权重,这些权重表示该元素对当前任务的重要性,然后通过加权求和的方式聚合信息。 核心计算: 典型的注意力机制通过计算查询 (Query, QQ) 与一系列键 (Key, KK) 之间的相似度来获得注意力权重,然后将这些权重应用于对应的值 (Value, VV)。 标准多头注意力 (Multi-Head Attention) 中的一个注意力头 (Attention Head) 计算公式通常如下: Attention(Q,K,V)=softmax(QKTdk)V \mathrm{Attention}(Q, K, V) = \mathrm{softmax}\left(\frac{QK^T}{\sqrt{d_k}}\right)V

  • 符号解释:
    • QQ: 查询矩阵 (Query matrix)。
    • KK: 键矩阵 (Key matrix)。
    • VV: 值矩阵 (Value matrix)。
    • QKTQ K^T: 查询与键的矩阵乘法,用于计算相似度。
    • dkd_k: 键向量的维度 (dimension of key vectors),用于缩放点积以防止梯度过大。
    • softmax()\mathrm{softmax}(\cdot): 归一化函数,将相似度转换为概率分布形式的注意力权重,确保所有权重之和为1。
    • Attention()\mathrm{Attention}(\cdot): 最终输出的加权和。 本文的变体: GRASP 中使用的注意力机制将标准 softmax 函数替换为 sigmoid 函数。这种改变的目的是为了避免 softmax 固有的“单峰”问题,允许模型更好地反映用户多样化的偏好,并保留更原始的兴趣模式,而不是强制进行独占式选择。

3.2. 前人工作与差异化分析

3.2.1. 序列推荐系统 (SRS)

  • GRU4Rec [16]: 最早将门控循环单元 (Gated Recurrent Unit, GRU) 应用于序列推荐,以捕获用户行为序列中的时序模式。
  • SASRec [21]: 引入自注意力机制 (self-attention mechanism) 来捕获用户行为序列中的长距离依赖和复杂的物品关系,摆脱了循环网络在序列计算上的限制。
  • BERT4Rec [35]: 借鉴自然语言处理中的掩码语言建模 (masked language modeling) 范式,通过掩码物品预测预训练任务来学习上下文表示。
  • 共同局限: 这些传统 SRS 模型通常依赖于用户或物品的协同过滤表示,忽视了来自多视角 (multi-perspective) 的其他有价值信号。

3.2.2. 大语言模型 (LLM) for 序列推荐

将 LLMs 融入推荐系统的工作大致分为两类范式:

  1. LLM 作为整个系统:

    • ProLLM4Rec [43]: 设计特定的提示 (prompts) 来直接利用 LLM 的能力进行推荐任务。
    • TALLRec [2]: 从用户历史中创建指令微调 (instruction-tuning) 数据集,微调 LLM,并直接将其输出用作推荐预测。
    • 局限: 这种范式在推理时严重依赖 LLM,导致计算成本高昂,难以满足工业界对高并发和低延迟的需求。
  2. 整合 LLM 的语义理解能力:

    • HLLM [8]: 设计物品 LLM (item LLM) 从物品的文本描述中提取丰富的上下文特征,并设计用户 LLM (user LLM) 利用这些特征预测用户未来的兴趣。
    • LLM-ESR [27]: 利用 LLM 的隐藏嵌入 (hidden embedding) 初始化 ID 嵌入,并设计了一个双网络 (dual network) 结合自蒸馏损失函数 (self-distillation loss function),利用 LLM 嵌入来搜索相似用户,从而增强各种传统序列推荐模型的性能。
    • LRD [45]: 利用 LLM 通过语言表示发现潜在的物品关系,并将其与离散状态变分自编码器 (discrete state variational autoencoder) 相结合,以增强关系感知的序列推荐。
    • 局限与本文的差异:
      • LLM-ESR 的问题: 像 LLM-ESR 这样的方法将 LLM 嵌入直接用作监督信号 (supervision signals),这可能由于潜在的幻觉问题而放大噪声。如图 1(b) 和 1(c) 所示,当用户交互序列长度较短时,LLM 幻觉率显著增加。
      • GRASP 的创新: 与直接使用 LLM 嵌入作为监督信号不同,GRASP 利用 LLM 的语义理解能力,并将检索到的相似用户/物品作为辅助上下文信息 (auxiliary contextual information),而不是直接的监督信号。这种方法避免了因幻觉引入的噪声指导,从而提高了模型的鲁棒性和性能。GRASP 的方法更侧重于特征增强 (feature augmentation) 而非直接监督。

4. 方法论

本文提出的 GRASP 框架旨在通过整合 LLM 衍生的世界知识,同时缓解 LLM 幻觉带来的负面影响,以增强序列推荐系统。GRASP 包含两个主要组件:生成增强检索 (Generation Augmented Retrieval)整体注意力增强 (Holistic Attention Enhancement)

4.1. 问题定义 (Problem Formulation)

假设用户 uu 的交互序列表示为 Su={i1,i2,}\mathcal{S}_u = \{i_1, i_2, \dots\},其中 iji_j 表示用户交互的第 jj 个物品。用户集合为 U={u1,u2,,un}\mathcal{U} = \{u_1, u_2, \ldots, u_n\},物品集合为 I={i1,i2,,im}\mathcal{I} = \{i_1, i_2, \ldots, i_m\}。序列推荐系统的目标是预测用户最有可能在下一步交互的物品。

该任务可以数学地表示为: i=argmaxijIf(iSu+1=ij  Su) i ^ { * } = \underset { i _ { j } \in \mathcal { I } } { \mathrm { a r g m a x } } f ( i _ { | S _ { u } | + 1 } = i _ { j } \ | \ S _ { u } )

  • 符号解释:
    • ii^*: 用户最有可能在下一步交互的物品。

    • iji_j: 物品集合 I\mathcal{I} 中的任意一个物品。

    • I\mathcal{I}: 物品的完整集合。

    • f()f(\cdot): 序列推荐系统模型,它输出在给定用户历史序列 SuS_u 的情况下,物品 iji_j 作为下一个交互物品的概率。

    • Su|S_u|: 用户历史交互序列 SuS_u 的长度。

      本文的方法主要关注于增强物品 ii 和用户 uu 的表示,并且可以灵活地集成到现有的 SRS 主干网络 (backbone) 之上。

4.2. 生成增强检索 (Generation Augmented Retrieval)

与直接将嵌入矩阵初始化为物品或用户表示的传统序列推荐模型不同,GRASP 利用大语言模型的语义理解能力,旨在丰富嵌入的语义信息并增强对用户和物品的建模。这一目标通过生成增强检索范式实现。

4.2.1. 生成 (Generation)

  1. 构建提示模板: 首先,为用户和物品分别构建提示模板 (prompt templates),这些模板融合了物品的属性信息或用户的画像和历史行为(具体模板参见附录 A.1)。
  2. LLM 生成描述: 调用 LLM 来解释物品信息和用户偏好,为所有物品和用户生成描述性文本。
  3. 提取嵌入 (Embeddings): 从生成的文本中提取嵌入,以便后续的模型操作。对于公开数据集,直接使用 OpenAI API 获取嵌入;对于内部工业数据,则采用开源文本编码器(如 LLM2Vec [3])提取嵌入。
  4. 构建语义嵌入数据库: 最终构建两个语义嵌入数据库:U\mathbf{U} 用于用户,I\mathbf{I} 用于物品。其中 URn×d\mathbf{U} \in \mathbb{R}^{n \times d}IRm×d\mathbf{I} \in \mathbb{R}^{m \times d}nnmm 分别表示用户和物品的数量,dd 是语义嵌入的维度。具体来说,对于每个用户 uiu_i,我们有其 LLM 嵌入 uiRd\mathbf{u}_i \in \mathbb{R}^d;对于每个物品 iji_j,我们有其 LLM 嵌入 ijRd\mathbf{i}_j \in \mathbb{R}^d

4.2.2. 检索 (Retrieval)

为了增强特征表示,特别是在交互数据稀疏的场景下补充特征信息,GRASP 采用最近邻检索 (nearest-neighbor retrieval) 策略。

  1. 相似性计算: 对于每个用户/物品,基于其 LLM 语义嵌入之间的余弦相似度 (cosine similarity),检索出与其最相似的 top-kk 个用户/物品。
  2. 平均池化 (Average Pooling): 这些检索到的相似用户/物品的嵌入随后通过平均池化进行聚合。
  3. 形式化表示: 对于给定用户 uu 和物品 ii,检索过程可以表示为: uˉ=Avg Pooling(uiuiTop@k(u) \ {u})iˉ=Avg Pooling(ijijTop@k(i) \ {i}) \begin{array} { l } { \bar { \mathbf { u } } = \mathrm { A v g \mathrm { \underline { { ~ P ool i n g } } } } ( \mathbf { u } _ { i } \mid \mathbf { u } _ { i } \in \mathrm { T o p } @ \mathrm { k } ( \mathbf { u } ) \ \backslash \ \{ \mathbf { u } \} ) } \\ { \bar { \mathbf { i } } = \mathrm { A v g \mathrm { \underline { { ~ P ool i n g } } } } ( \mathbf { i } _ { j } \mid \mathbf { i } _ { j } \in \mathrm { T o p } @ \mathrm { k } ( \mathbf { i } ) \ \backslash \ \{ \mathbf { i } \} ) } \end{array}
    • 符号解释:
      • uˉ\bar{\mathbf{u}}: 目标用户 uu 的 top-kk 个相似用户嵌入的平均池化结果。

      • iˉ\bar{\mathbf{i}}: 目标物品 ii 的 top-kk 个相似物品嵌入的平均池化结果。

      • ui\mathbf{u}_i: 用户 uiu_i 的 LLM 语义嵌入。

      • ij\mathbf{i}_j: 物品 iji_j 的 LLM 语义嵌入。

      • Top@k(u)\mathrm{Top@k}(\mathbf{u}): 检索到的与用户 u\mathbf{u} 最相似的 kk 个用户嵌入的集合。

      • Top@k(i)\mathrm{Top@k}(\mathbf{i}): 检索到的与物品 i\mathbf{i} 最相似的 kk 个物品嵌入的集合。

      • \ {u}\backslash \ \{ \mathbf { u } \}\ {i}\backslash \ \{ \mathbf { i } \}: 从相似集合中排除自身(即不包含用户 u\mathbf{u} 或物品 i\mathbf{i} 本身)。

      • AvgPooling()\mathrm{AvgPooling}(\cdot): 平均池化操作,对集合中的所有向量求平均值。

        通过上述过程,每个用户/物品不仅由其原始 LLM 嵌入表示,还通过其最近邻居的聚合嵌入得到增强。这些检索到的嵌入会在后续阶段被冻结和缓存,以供使用。

4.3. 整体注意力增强 (Holistic Attention Enhancement)

在上一步中,我们获得了所有用户偏好和物品特征的 LLM 数据库,即 URn×d\mathbf{U} \in \mathbb{R}^{n \times d}IRm×d\mathbf{I} \in \mathbb{R}^{m \times d}。具体而言,对于每个用户 uiu_i,我们有其 LLM 嵌入 uiRd\mathbf{u}_i \in \mathbb{R}^d 以及相应的相似用户平均嵌入 uˉiRd\bar{\mathbf{u}}_i \in \mathbb{R}^d;对于物品 iji_j 也是如此,即 ijRd\mathbf{i}_j \in \mathbb{R}^diˉjRd\bar{\mathbf{i}}_j \in \mathbb{R}^d

为了捕获用户在其历史物品序列中的动态兴趣,我们统一地将用户嵌入视为查询 q\mathbf{q},将物品嵌入同时视为键和值,表示为 v\mathbf{v}。我们执行一种基于注意力的融合操作,其中注意力机制定义如下: A(q,v)=σ(qvTd)v \mathcal { A } ( \mathbf { q } , \mathbf { v } ) = \sigma \left( \frac { \mathbf { q v } ^ { T } } { \sqrt { d } } \right) \mathbf { v }

  • 符号解释:
    • A(,)\mathcal{A}(\cdot, \cdot): 注意力函数。
    • q\mathbf{q}: 查询向量 (query vector),在此处为用户语义嵌入。
    • v\mathbf{v}: 键和值向量 (key and value vector),在此处为物品语义嵌入。
    • qvT\mathbf{q} \mathbf{v}^T: 查询与键的点积,表示它们之间的相似度。
    • dd: 嵌入的维度,用于缩放点积。
    • σ()\sigma(\cdot): Sigmoid 函数。此处替换了传统的 Softmax 函数。
      • 选择 Sigmoid 的原因: 这种选择避免了 softmax 固有的“单峰 (single-peak)”问题,允许表示更好地反映用户多样化的偏好,同时保留更原始的兴趣模式。softmax 倾向于将注意力集中在一个或少数几个最相关的元素上,而 sigmoid 允许对多个元素独立地赋予高权重,从而更好地捕获多方面的兴趣。

        给定用户语义嵌入 ui\mathbf{u}_i、物品语义嵌入 ij\mathbf{i}_j 以及它们对应的平均相似嵌入 uˉi\bar{\mathbf{u}}_iiˉj\bar{\mathbf{i}}_j,整体注意力增强的嵌入通过一系列注意力操作计算。

为了丰富输入信息,我们将用户嵌入与相似用户的平均嵌入进行拼接,将物品嵌入与相似物品的平均嵌入进行拼接,从而形成全局嵌入。具体而言,整体注意力增强的嵌入计算如下: ij,selfHAE=A(ui,ij),ij,similarHAE=A(uˉi,iˉj)ij,globalHAE=A([uiuˉi],[ijiˉj]) \begin{array} { r l } & { \mathbf { i } _ { j , \mathrm { s e l f } } ^ { \mathrm { H A E } } = \mathcal { A } ( \mathbf { u } _ { i } , \mathbf { i } _ { j } ) , \quad \mathbf { i } _ { j , \mathrm { s i m i l a r } } ^ { \mathrm { H A E } } = \mathcal { A } ( \bar { \mathbf { u } } _ { i } , \bar { \mathbf { i } } _ { j } ) } \\ & { \qquad \mathbf { i } _ { j , \mathrm { g l o b a l } } ^ { \mathrm { H A E } } = \mathcal { A } ( [ \mathbf { u } _ { i } \parallel \bar { \mathbf { u } } _ { i } ] , [ \mathbf { i } _ { j } \parallel \bar { \mathbf { i } } _ { j } ] ) } \end{array}

  • 符号解释:
    • ij,selfHAE\mathbf{i}_{j, \mathrm{self}}^{\mathrm{HAE}}: 物品 iji_j 经过用户自身嵌入 ui\mathbf{u}_i 和物品自身嵌入 ij\mathbf{i}_j 之间的注意力计算后得到的增强嵌入。这捕获了核心的用户-物品交互模式。

    • ij,similarHAE\mathbf{i}_{j, \mathrm{similar}}^{\mathrm{HAE}}: 物品 iji_j 经过相似用户平均嵌入 uˉi\bar{\mathbf{u}}_i 和相似物品平均嵌入 iˉj\bar{\mathbf{i}}_j 之间的注意力计算后得到的增强嵌入。这融入了邻域上下文信息。

    • ij,globalHAE\mathbf{i}_{j, \mathrm{global}}^{\mathrm{HAE}}: 物品 iji_j 经过用户自身嵌入与相似用户平均嵌入的拼接 [uiuˉi][ \mathbf{u}_i \parallel \bar{\mathbf{u}}_i ] 和物品自身嵌入与相似物品平均嵌入的拼接 [ijiˉj][ \mathbf{i}_j \parallel \bar{\mathbf{i}}_j ] 之间的注意力计算后得到的增强嵌入。这用于建模更全面的全局兴趣模式。

    • \parallel: 向量拼接操作。

      这种细粒度 (fine-grained) 注意力与全局注意力操作相结合,确保嵌入既能捕获个体特征,也能捕获来自用户和物品的聚合模式,从而产生多级和全面的表示。

这些增强后的向量随后被拼接 (concatenated),并通过一个多层感知机 (MLP) 以适应 SRS 主干网络 ff 的输入大小: ij,all=MLP([ij,selfHAEij,similarHAEij,globalHAE]) \mathbf { i } _ { j , a l l } = \mathrm { MLP } \left( [ \mathbf { i } _ { j , s e l f } ^ { \mathrm { H A E } } \parallel \mathbf { i } _ { j , s i m i l a r } ^ { \mathrm { H A E } } \parallel \mathbf { i } _ { j , g l o b a l } ^ { \mathrm { H A E } } ] \right)

  • 符号解释:
    • ij,all\mathbf{i}_{j,all}: 物品 iji_j 最终的整体注意力增强嵌入,作为 SRS 主干网络 ff 的输入。

    • MLP()\mathrm{MLP}(\cdot): 多层感知机,用于将拼接后的向量映射到合适的维度。

      通过在将 LLM 嵌入映射到 SRS 模型隐藏维度之前直接对其执行注意力操作,我们确保了语义信息的完整性。此外,将相似用户和物品作为辅助输入,增强了表示的整体信息丰富度,为 SRS 主干网络的训练和推理提供了坚实的基础。

4.4. 训练与部署复杂度 (Training and Deployment Complexity)

4.4.1. 训练目标

如前所述,GRASP 主要侧重于模型的嵌入增强,利用相似用户/物品作为辅助信息,并通过多级整体注意力机制,而不是作为监督信号。因此,该方法可以灵活地集成到现有的 SRS 主干网络之上。

整体的训练目标是 SRS 主干网络使用的标准损失函数,如二元交叉熵 (Binary Cross-Entropy) 损失。 L=1Bj[yjlog(y^j)+(1yj)log(1yj)],y^j=σ(oij,all) \begin{array} { l } { \displaystyle \mathcal { L } = - \frac { 1 } { | \mathcal { B } | } \sum _ { j } \left[ y _ { j } \log ( \hat { y } _ { j } ) + ( 1 - y _ { j } ) \log ( 1 - y _ { j } ) \right] , } \\ { \displaystyle } \\ { \hat { y } _ { j } = \sigma \left( \mathbf { o } \cdot \mathbf { i } _ { j , a l l } \right) } \end{array}

  • 符号解释:
    • L\mathcal{L}: 模型的总损失。
    • B\mathcal{B}: 候选物品池 (candidate pool)。
    • yjy_j: 物品 jj 的真实标签 (ground truth),取值为 0 或 1。
    • y^j\hat{y}_j: 模型预测物品 jj 为下一个交互物品的概率。
    • σ()\sigma(\cdot): Sigmoid 函数,将点积转换为概率。
    • o\mathbf{o}: SRS 主干网络学习到的用户表示。
    • ij,all\mathbf{i}_{j,all}: 根据公式 (5) 计算得到的物品 jj 的整体嵌入。

4.4.2. 部署复杂度

对于实际部署,由于 LLM 生成的嵌入是离线预计算的,并且每天会根据用户行为变化进行更新,因此 GRASP 方法不会引入过多的在线计算开销。增加的在线计算开销主要来自整体注意力模块。当序列长度 ll 和后续 SRS 主干网络的潜在维度 dd 固定时,该模块的时间复杂度是有限的 O(l2d)O(l^2 d)

值得注意的是,相似的用户和物品也可以离线预检索为小批次,而不是针对所有用户和物品进行检索,以实现高效的工业部署。例如,对于给定的用户/物品,我们只在其所属的相同组或类别中检索其相似邻居用户/物品,这大大减轻了部署中最近邻搜索的复杂度。

4.5. GRASP 伪代码 (Pseudo Code of GRASP)

以下是 GRASP 算法的伪代码:

Algorithm 1 Pseudo code of GRASP. Require: Interaction sequence `S _ { u }` 1: Generate LLM embedding database U, I; retrieve similar user/item and generate U, I by Eq. (2). Training 2: Freeze U, I, and I. 3: for each iteration do 4: Compute fine-grained and global enhanced embedding using Eq. (4). 5: Compute input sequence embedding $\mathbf { i } _ { a l l }$ after holistic attention by Eq. (5). 6: Calculate loss function $\mathcal { L }$ using Eq. (6). 7: Update model parameters. 8:end for 9: Return Testing 10: for $u$ in $\boldsymbol { \mathcal U }$ do 11: Obtain corresponding input embedding from U, I, U and I, obtain the model parameters. 12: Compute the scores of items in the candidate set by Eq. (1) and return the ranked order. 13: end for

  • 伪代码解释:
    • 输入 (Require): 用户交互序列 SuS_u
    • 第 1 行 (生成阶段): 使用 LLM 生成用户嵌入数据库 U\mathbf{U} 和物品嵌入数据库 I\mathbf{I}。接着,通过公式 (2) 检索相似的用户和物品,并生成其平均嵌入 Uˉ\bar{\mathbf{U}}Iˉ\bar{\mathbf{I}}(原文中这里的 U\mathbf{U}I\mathbf{I} 应该是 Uˉ\bar{\mathbf{U}}Iˉ\bar{\mathbf{I}} 的笔误)。这些步骤是离线完成的。
    • 第 2 行 (训练前): 冻结(即不参与梯度更新)这些 LLM 生成的嵌入:U\mathbf{U}, I\mathbf{I}, Uˉ\bar{\mathbf{U}}Iˉ\bar{\mathbf{I}}
    • 第 3-8 行 (训练循环): 对于每个训练迭代:
      • 第 4 行: 使用公式 (4) 计算细粒度 (fine-grained) 和全局增强 (global enhanced) 的嵌入。
      • 第 5 行: 通过公式 (5) 拼接这些增强嵌入并经过 MLP 得到最终的输入序列嵌入 iall\mathbf{i}_{all}
      • 第 6 行: 使用公式 (6) 计算损失函数 L\mathcal{L}
      • 第 7 行: 更新模型的参数(SRS 主干网络和 MLP 的参数)。
    • 第 9 行 (训练结束): 返回训练好的模型参数。
    • 第 10-13 行 (测试/推理循环): 对于用户集合 U\mathcal{U} 中的每个用户 uu
      • 第 11 行: 获取用户 uu 及其历史交互物品对应的 LLM 嵌入 (U\mathbf{U}, I\mathbf{I}) 和相似嵌入 (Uˉ\bar{\mathbf{U}}, Iˉ\bar{\mathbf{I}}),并加载训练好的模型参数。
      • 第 12 行: 使用公式 (1) 计算候选集中物品的得分,并返回排序后的推荐列表。

5. 实验设置

5.1. 数据集

实验在两个公开数据集和一个工业数据集上进行。

  • Amazon Beauty:

    • 来源: Amazon [28]。
    • 特点: 包含用户对美容相关产品的评论。
    • 统计数据 (Table 1): 用户数 52204,物品数 57289,平均序列长度 7.56,稀疏度 99.99%。
    • 头/尾划分 (Appendix A.2): 头部/尾部用户的分界点为 9,物品为 4。
  • Amazon Fashion:

    • 来源: Amazon [28]。
    • 特点: 包含用户对时尚物品的评论。
    • 统计数据 (Table 1): 用户数 9049,物品数 4722,平均序列长度 3.82,稀疏度 99.92%。
    • 头/尾划分 (Appendix A.2): 头部/尾部用户的阈值为 3,物品为 4。
  • Industry-100K:

    • 来源: 阿里巴巴内部电商平台的用户购买记录。

    • 特点: 收集了 2025 年 1 月 17 日至 2025 年 2 月 23 日期间约 100,000 名用户的购买行为快照,具有大规模和真实工业场景的特性。

    • 统计数据 (Table 1): 用户数 99711,物品数 1205282,平均序列长度 20.88,稀疏度 99.99%。

    • 头/尾划分 (Appendix A.2): 头部/尾部用户的阈值为 29,物品为 2。

      数据预处理: 遵循 SASRec [21] 和 LLM-ESR [27] 的方法。 数据划分: 采用留一法 (leave-one-out) 进行验证和测试。 头/尾用户和物品定义: 依据帕累托原则 (Pareto Principle),交互频率在前 20% 的用户和物品被划分为“头部 (head)”,其余则定义为“尾部 (tail)”。

以下是原文 Table 1 的结果:

Dataset # User # Item # AVG Length Sparsity
Beauty 52204 57289 7.56 99.99%
Fashion 9049 4722 3.82 99.92%
Industry-100K 99711 1205282 20.88 99.99%

5.2. 评估指标

为了全面评估模型的性能,采用了两种常用的推荐系统评估指标:归一化折损累计增益 (Normalized Discounted Cumulative Gain, NDCG) 和命中率 (Hit Rate, HR)。

5.2.1. 归一化折损累计增益 (Normalized Discounted Cumulative Gain, NDCG)

  1. 概念定义: NDCG 是一种衡量排名推荐质量的指标,它不仅考虑了推荐物品的相关性,还考虑了相关物品在推荐列表中的位置。相关性越高的物品排在越靠前的位置,NDCG 值就越高。它通过对每个位置的相关性得分进行折损,来体现位置的重要性。
  2. 数学公式: 首先,计算折损累计增益 (Discounted Cumulative Gain, DCG): DCGk=j=1k2relj1log2(j+1) \mathrm{DCG}_k = \sum_{j=1}^k \frac{2^{\mathrm{rel}_j} - 1}{\log_2(j+1)} 然后,计算理想折损累计增益 (Ideal Discounted Cumulative Gain, IDCG),即假设推荐列表是完美排序时的 DCG。 最后,NDCG 定义为: NDCGk=DCGkIDCGk \mathrm{NDCG}_k = \frac{\mathrm{DCG}_k}{\mathrm{IDCG}_k}
  3. 符号解释:
    • DCGk\mathrm{DCG}_k: 推荐列表前 kk 个物品的折损累计增益。
    • kk: 推荐列表的长度(即考察前 kk 个物品)。
    • relj\mathrm{rel}_j: 推荐列表中第 jj 个物品的相关性得分。通常,如果物品是用户下一个实际交互的物品,则 relj=1\mathrm{rel}_j=1,否则为 0。
    • log2(j+1)\log_2(j+1): 位置折损因子,随着 jj 增大,分母增大,对总和的贡献减小,表示靠后的物品相关性得分被“打折”。
    • IDCGk\mathrm{IDCG}_k: 理想的 DCG,即最佳推荐列表(所有相关物品按相关性从高到低排序)的 DCG。
    • NDCGk\mathrm{NDCG}_k: 归一化后的 DCG,值介于 0 到 1 之间。

5.2.2. 命中率 (Hit Rate, HR)

  1. 概念定义: 命中率衡量的是在给定的推荐列表长度 kk 中,实际目标物品是否被推荐出来。如果目标物品出现在推荐列表的前 kk 个位置中,则算作一次“命中”。
  2. 数学公式: HRk=Number of users with hit in top-kTotal number of users \mathrm{HR}_k = \frac{\text{Number of users with hit in top-k}}{\text{Total number of users}}
  3. 符号解释:
    • HRk\mathrm{HR}_k: 推荐列表前 kk 个物品的命中率。

    • kk: 推荐列表的长度。

    • Number of users with hit in top-k: 在其推荐列表前 kk 个位置中包含目标物品的用户数量。

    • Total number of users: 总的用户数量。

      评估参数: 排名位置 k{1,3,5,10,20}k \in \{1, 3, 5, 10, 20\}负采样: 评估时,负采样 (negative sampling) 的大小设置为 100。

5.3. 对比基线 (Baselines)

由于 GRASP 是一种可与现有 SRS 主干网络正交的方法,因此实验将 GRASP 与以下三类基线模型进行组合和比较:

  1. 经典序列推荐模型:

    • GRU4Rec [16]: 基于 GRU 捕获序列模式。
    • BERT4Rec [35]: 基于 Transformer 和掩码语言建模。
    • SASRec [21]: 基于自注意力机制捕获长距离依赖。
  2. LLM 增强的序列推荐模型 (LLM-enhanced SRS):

    • RLMRec [34]: 一种通过 LLM 进行表示学习的推荐模型。
    • LLMInit [15, 17]: 利用 LLM 提供的语义信息进行 ID 嵌入初始化。
    • LLM-ESR [27]: 利用 LLM 嵌入作为监督信号,通过搜索相似用户来增强模型性能。

5.4. 实现细节 (Implementation Details)

  • 硬件平台: 所有实验均在单块 NVIDIA A100 GPU 上进行。
  • 序列长度: 最大序列长度设置为 100。
  • 隐藏嵌入维度: 所有方法的隐藏嵌入维度固定为 64。
  • 批次大小 (Batch Size): 128。
  • 优化器: 采用 Adam 优化器。
  • 学习率: 固定学习率为 0.001。
  • 早停机制 (Early Stopping): 如果验证集上的 NDCG@10 在连续 20 个 epochs 内没有改善,则停止训练。
  • 结果鲁棒性: 报告三次不同随机种子 {42,43,44}\{42, 43, 44\} 测试的平均结果。
  • LLM 嵌入获取:
    • 公开数据集 (Amazon Beauty, Fashion): 使用 OpenAI API 获取 LLM 嵌入,维度为 1536。
    • 工业数据集 (Industry-100K): 由于数据保密性要求,使用 Qwen2.5-7B-Instruct [44] 生成描述性文本,并使用预训练的文本编码器 LLM2Vec [3] 获取语义嵌入,维度为 4096。

6. 实验结果与分析

6.1. 核心结果分析

6.1.1. 总体性能 (Overall performance)

以下是原文 Table 2 的结果,展示了 GRASP 与其他基线模型在三个数据集上的总体性能。

Dataset Model NDCG (%) Hit Rate (%)
N@1 N@3 N@5 N@10 N@20 H@1 H@3 H@5 H@10 H@20
Beauty GRU4Rec 11.48 16.88 19.23 22.42 25.62 11.48 20.83 26.56 36.45 49.17
- RLMRec 11.03 16.50 18.93 22.25 25.48 11.03 20.51 26.41 36.75 49.60
- LLMInit 14.33 20.53 23.05 26.29 29.37 14.33 25.08 31.20 41.24 53.46
- LLM-ESR 17.50 25.25 28.18 31.82 35.05 17.50 30.88 38.02 49.28 62.09
- GRASP 18.15 26.88 30.21 34.16 37.56 18.15 33.24 41.35 53.57 67.03
BERT4Rec 10.49 16.86 19.68 23.33 26.67 10.49 21.56 28.43 39.72 52.93
- RLMRec 10.45 16.82 19.66 23.20 26.72 10.45 21.50 28.42 39.43 53.39
- LLMInit 16.57 24.74 27.92 31.65 34.89 16.57 30.71 38.45 50.00 62.86
- LLM-ESR 21.66 29.58 32.37 35.76 38.59 21.66 35.27 42.05 52.55 63.77
- GRASP 23.61 33.62 37.19 41.01 44.12 23.61 40.89 49.56 61.47 73.62
SASRec 18.84 25.22 27.60 30.58 33.47 18.84 29.83 35.62 44.88 56.34
- RLMRec 17.93 24.16 26.56 29.64 32.50 17.93 28.70 34.56 44.10 55.48
- LLMInit 19.00 27.40 30.50 34.08 37.02 19.00 33.51 41.05 52.14 63.78
- LLM-ESR 20.73 29.73 33.10 36.99 40.26 20.73 36.27 44.49 56.50 69.44
- GRASP 26.56 36.18 39.33 42.76 45.61 26.56 43.09 50.74 61.33 72.62
Fashion GRU4Rec 32.71 38.31 34.20 36.66 39.81 25.84 37.63 42.37 48.58 55.07
- RLMRec 29.04 34.65 35.75 37.75 42.88 29.04 37.76 41.56 47.74 55.91
- LLMInit 33.31 37.48 38.71 40.29 42.21 33.31 40.32 43.31 48.26 55.89
- LLM-ESR 37.90 42.11 43.42 45.43 47.38 37.90 45.03 48.24 54.43 62.17
- GRASP 38.39 42.88 44.40 46.41 48.51 38.39 46.06 49.77 56.01 64.36
BERT4Rec 28.61 32.00 33.37 35.58 37.76 28.61 34.39 37.74 44.68 53.23
- RLMRec 26.95 31.92 33.40 35.41 37.36 26.95 35.33 38.95 45.16 52.91
- LLMInit 33.99 37.84 38.92 40.62 42.43 33.99 40.48 43.12 48.42 55.67
- LLM-ESR 37.70 42.37 43.75 45.43 47.19 37.70 45.70 49.04 54.26 61.26
- GRASP 37.11 42.38 43.97 46.22 48.36 37.11 46.09 50.00 57.01 65.46
SASRec 39.32 41.93 42.84 44.13 45.64 39.32 43.75 45.95 49.95 55.98
- RLMRec 39.94 41.96 42.72 43.92 45.32 39.94 43.40 45.26 48.98 54.55
- LLMInit 38.91 42.52 44.04 46.66 48.27 38.91 45.68 49.80 55.32 61.92
- LLM-ESR 39.93 43.92 45.29 47.15 49.17 39.93 46.79 50.13 55.92 64.02
- GRASP 42.16 46.92 48.50 50.50 52.57 42.16 50.30 54.15 60.31 68.57
Industry-100K GRU4Rec 4.78 6.68 7.78 9.58 11.18 4.78 8.07 10.76 16.36 22.70
- RLMRec 4.10 6.13 7.27 8.92 10.42 4.10 7.65 10.42 15.56 21.50
- LLMInit 4.55 8.64 10.98 14.57 18.66 4.55 11.74 17.44 28.60 44.89
- LLM-ESR 11.84 18.32 21.25 25.13 28.92 11.84 23.10 30.25 42.28 57.32
- GRASP 13.02 21.04 24.09 28.66 32.73 13.02 26.64 35.47 48.99 64.15
BERT4Rec 11.84 19.58 23.63 28.18 31.30 11.84 23.63 31.94 45.00 59.50
- LLM-ESR 12.87 20.33 23.18 26.98 30.12 12.87 24.77 32.12 43.76 57.29
- GRASP 15.66 23.63 26.64 31.02 34.94 15.66 29.40 37.54 49.65 64.18
SASRec 13.21 20.94 24.30 28.79 32.55 13.21 25.68 34.46 47.53 61.98
- LLM-ESR 14.15 21.81 24.81 28.66 31.90 14.15 26.69 34.80 47.05 60.67
- GRASP 16.56 25.09 28.46 33.01 37.07 16.56 31.02 39.53 52.79 67.09

分析:

  • GRASP 的领先性: GRASP 在所有三个数据集上,并结合不同的 SRS 主干网络(GRU4Rec, BERT4Rec, SASRec),持续超越其他所有基线模型,包括最新的 LLM 增强模型 LLM-ESR。
    • 在 Beauty 数据集上,GRASP 相较于此前最佳模型 LLM-ESR 平均提升 4.56%。
    • 在 Fashion 数据集上,GRASP 超过 LLM-ESR 1.81%。
    • 在 Industry-100K 工业数据集上,取得了 6.68% 的显著增益。
  • 兼容性与可迁移性: GRASP 与 GRU4Rec、BERT4Rec 和 SASRec 等不同架构的序列推荐模型结合时,都能带来性能提升,这表明了该框架的灵活性和可迁移性。

6.1.2. 不同用户/物品组的性能 (Performance under different groups)

以下是原文 Table 3 的结果,展示了 GRASP 与基线模型在头用户/物品和尾用户/物品上的性能对比。

Dataset Model Tail Group Performance Head Group Performance
Tail User Tail Item Head User Head Item
N@5 H@5 N@10 H@10 N@5 H@5 N@10 H@10 N@5 H@5 N@10 H@10 N@5 H@5 N@10 H@10
Beauty GRU4Rec 18.51 25.68 21.73 35.67 5.11 6.28 5.52 7.58 22.53 30.58 25.56 40.00 22.60 31.39 26.45 43.33
- LLM-ESR 27.58 37.34 31.26 48.76 6.72 10.33 8.61 16.23 30.96 41.10 34.35 51.64 33.30 44.62 37.35 57.16
- GRASP 29.60 40.57 33.64 53.04 15.88 23.92 19.65 35.63 34.68 46.91 38.60 59.05 34.00 45.95 38.07 58.53
BERT4Rec 18.90 27.34 22.51 38.54 0.05 0.12 0.26 0.76 23.24 33.40 27.04 45.11 24.36 35.18 28.83 49.01
- LLM-ESR 31.56 41.04 34.97 51.59 7.05 9.17 8.22 12.83 36.06 46.67 39.38 56.94 38.41 49.89 42.33 62.03
- GRASP 36.44 48.57 40.26 60.39 14.62 22.83 18.44 34.74 40.59 54.07 44.44 65.98 42.57 55.92 46.46 67.76
SASRec 26.83 34.52 29.82 43.78 5.89 6.90 6.52 8.89 31.08 40.63 34.07 49.88 32.77 42.46 36.32 53.46
- LLM-ESR 32.31 43.51 36.20 55.56 7.44 12.58 10.29 21.47 36.74 48.96 40.56 60.79 39.23 52.10 43.35 64.85
- GRASP 38.83 49.93 42.20 60.36 23.03 31.70 26.34 41.82 41.63 54.49 45.29 65.79 43.23 55.28 46.67 65.98
Fashion GRU4Rec 22.16 31.00 24.69 38.79 0.36 0.70 0.80 2.12 50.86 57.11 52.20 61.28 48.31 58.96 50.95 67.08
- LLM-ESR 32.73 38.58 35.08 45.82 2.42 3.90 3.65 7.76 57.28 60.77 58.85 65.60 59.74 65.89 62.06 73.01
- GRASP 34.00 40.37 36.37 47.74 5.89 9.73 8.23 17.31 57.96 61.97 59.43 66.72 59.77 65.71 61.60 71.41
BERT4Rec 19.82 24.56 22.54 33.11 0.82 1.20 1.20 3.49 50.94 54.84 52.50 59.69 46.32 52.28 49.27 61.51
- LLM-ESR 32.73 39.28 34.67 45.24 1.61 2.82 2.57 5.87 58.03 61.71 59.39 65.95 60.52 67.45 62.50 73.52
- GRASP 33.26 40.66 35.97 48.98 3.30 5.97 5.64 13.31 57.86 62.13 59.57 67.43 60.16 67.53 62.38 74.40
SASRec 32.35 35.60 33.82 40.18 1.68 2.39 2.13 3.78 56.45 59.38 57.49 62.62 59.22 63.29 60.85 68.32
- LLM-ESR 35.02 40.55 37.31 47.67 3.28 5.33 4.96 10.58 58.61 62.57 59.90 66.61 62.01 67.97 63.94 73.97
- GRASP 39.53 46.25 41.85 53.44 12.28 17.79 15.07 26.46 60.14 64.39 61.77 69.24 62.92 68.63 64.59 73.78
Industry-100K GRU4Rec 7.89 10.96 9.65 16.41 0.48 0.82 0.71 1.53 7.69 10.66 9.37 15.91 15.86 21.85 19.25 32.38
- LLM-ESR 20.78 29.68 24.67 41.74 20.97 29.97 24.81 41.87 23.21 32.67 27.04 44.53 21.55 30.57 25.47 42.73
- GRASP 24.09 34.94 28.46 48.47 24.30 35.35 28.66 48.87 26.41 37.70 30.75 51.14 24.80 35.61 29.17 49.12
BERT4Rec 14.16 18.17 15.67 22.86 5.49 5.64 5.50 5.64 17.96 21.60 19.30 25.76 25.10 33.17 28.18 42.73
- LLM-ESR 15.66 23.63 19.58 35.85 14.15 21.81 17.95 33.66 16.18 23.90 20.02 35.86 17.50 25.71 21.52 38.23
- GRASP 26.64 37.54 31.02 51.09 26.09 37.07 30.38 50.34 25.58 36.30 30.00 49.99 26.81 37.56 31.30 51.47
SASRec 13.21 18.17 15.67 22.86 5.49 5.64 5.50 5.64 17.96 21.60 19.30 25.76 25.10 33.17 28.18 42.73
- LLM-ESR 14.15 21.81 24.81 28.66 14.15 21.81 17.95 33.66 16.18 23.90 20.02 35.86 17.50 25.71 21.52 38.23
- GRASP 16.56 25.09 28.46 33.01 26.09 37.07 30.38 50.34 25.58 36.30 30.00 49.99 26.81 37.56 31.30 51.47

分析:

  • 在尾部场景的显著提升: 在尾部用户和尾部物品场景下,GRASP 始终优于 LLM-ESR 和所有基线模型。尾部场景通常数据稀疏,LLM 幻觉风险最高。
    • 在 Fashion 数据集上,GRASP 平均超越 LLM-ESR 5.00%。
    • 在 Beauty 数据集上,GRASP 在所有情况下对 LLM-ESR 的提升最为显著,达到 9.99%。
    • 在 Industry-100K 数据集上,GRASP 也展现了显著改进,超越 LLM-ESR 或 SRS 基线 8.42%。这表明 GRASP 能够有效缓解数据稀疏场景下 LLM 幻觉带来的噪声问题。
  • 在头部场景的稳定性能: GRASP 在头部场景下(交互数据丰富,幻觉较少)也保持了强大的性能,对 LLM-ESR 仍有提升。
    • 在 Fashion 数据集上提升 0.57%。
    • 在 Beauty 数据集上提升 4.30%。
    • 在 Industry-100K 数据集上提升 6.41%。
  • 平衡的性能: GRASP 确保了在长尾场景的改进不会以牺牲头部性能为代价,展现了其在缓解数据稀缺场景下的幻觉效应,同时为充分代表的用户和物品保持高推荐准确性的能力。

6.1.3. 案例分析 (Case Study)

下图(原文 Figure 3)展示了两个来自 Industry-100K 数据集的购买案例,其中 LLMs 产生了幻觉描述,并对比了 GRASP 和 LLM-ESR 的用户下一个物品匹配得分。

该图像是示意图,展示了两个购买案例及其对应的LLM幻觉响应。案例一的购买序列长度为2,案例二的购买序列长度为3,均显示了GRASP和LLM-ESR的用户下一个项匹配评分。 该图像是示意图,展示了两个购买案例及其对应的LLM幻觉响应。案例一的购买序列长度为2,案例二的购买序列长度为3,均显示了GRASP和LLM-ESR的用户下一个项匹配评分。

VLM 描述: 该图像是示意图,展示了两个购买案例及其对应的LLM幻觉响应。案例一的购买序列长度为2,案例二的购买序列长度为3,均显示了GRASP和LLM-ESR的用户下一个项匹配评分。

分析:

  • 图中展示了两个 LLM 出现幻觉的案例。幻觉描述可能会为用户偏好展示引入噪声,从而干扰用户兴趣的学习。
  • 通过对比,可以观察到 GRASP 在这些幻觉场景中与用户期望的匹配程度优于 LLM-ESR。这进一步证明了 GRASP 对于幻觉问题的鲁棒性,能够有效应对 LLM 生成内容中的不准确性。

6.2. 消融实验与参数分析

6.2.1. 组件消融研究 (Ablation Study)

以下是原文 Table 4 的结果,展示了 GRASP 中各个组件的有效性。

Module Setting N@1 N@3 N@5 N@10 N@20 H@1 H@3 H@5 H@10 H@20
HAE - w/o Attention 18.24 26.63 29.83 33.41 36.70 18.24 32.71 40.48 51.59 64.63
- w/o HAE similar 18.74 27.16 30.48 34.35 37.75 18.74 33.29 41.36 53.35 66.83
- w/o HAE global 20.00 29.29 32.72 36.62 39.87 20.00 36.02 44.36 56.44 69.31
- Softmax 14.59 22.60 25.92 30.00 33.63 14.59 28.46 36.54 49.17 63.55
GRASP 26.56 36.18 39.33 42.76 45.61 26.56 43.09 50.74 61.33 72.62

分析:

  • 整体注意力增强 (Holistic Attention Enhancement, HAE) 的有效性: 移除 HAE 中的任何部分都会导致性能显著下降,这突出了细粒度用户-物品集成以及全局内容交互的有效性。
    • - w/o Attention (移除注意力机制): 性能显著下降。这表明注意力机制在融合用户和物品特征,捕获动态兴趣方面至关重要。
    • - w/o HAE similar (移除相似用户/物品增强): 性能下降。这验证了从相似邻居中获取辅助上下文信息的重要性。
    • - w/o HAE global (移除全局注意力增强): 性能下降。这表明结合全局的用户-物品特征(包括拼接后的原始和相似嵌入)进行注意力建模对于全面理解用户兴趣是不可或缺的。
  • Sigmoid 函数的关键作用: 将注意力机制中的 sigmoid 函数替换为传统的 softmax 函数,性能大幅下降。这证实了 sigmoid 在保留序列中物品独立性、实现细粒度和上下文精确特征增强方面的关键作用,避免了 softmax 的“单峰”问题,从而更好地反映用户多样化偏好。

6.2.2. 超参数影响 (Impacts of Hyper-parameters)

下图(原文 Figure 4)展示了 GRASP 在 Beauty 数据集上基于 SASRec 主干网络时,超参数对模型性能的影响。

Figure 4: Analysis of hyper-parameters on Beauty dataset of GRASP based on SASRec. Left: \(N\) is the size of the candidate pool for similar retrieval. Right: \(d\) is the hidden dimension for SRS. 该图像是图表,展示了GRASP在Beauty数据集上基于SASRec的超参数分析。左侧两幅图分别表示候选池大小NN与NDCG@10和HR@10的关系;右侧两幅图则展示隐藏维度dd与NDCG@10和HR@10的关系。各图中数据点用不同颜色和符号标识,展示了不同超参数对模型性能的影响。

VLM 描述: 该图像是图表,展示了GRASP在Beauty数据集上基于SASRec的超参数分析。左侧两幅图分别表示候选池大小NN与NDCG@10和HR@10的关系;右侧两幅图则展示隐藏维度dd与NDCG@10和HR@10的关系。各图中数据点用不同颜色和符号标识,展示了不同超参数对模型性能的影响。

分析:

  • 候选池大小 NN (Size of candidate pool for similar retrieval):
    • NN 过小时,模型未能捕获足够多的相似模式,导致性能不足。
    • NN 过大时,可能会引入噪声和不相关的信息,同样影响性能。
    • 根据图示,最佳值为 N=10N=10,在此处性能达到峰值。
  • 隐藏维度 dd (Hidden dimension for SRS):
    • 维度 dd 不足时,无法充分表示复杂的用户-物品关系。

    • 维度 dd 过高时,性能提升有限,并可能导致过拟合。

    • 根据图示,最佳值为 d=64d=64,在此处性能达到相对最优。

      这些分析结果有助于指导 GRASP 在实际应用中的超参数选择,以确保获得最佳性能。

7. 总结与思考

7.1. 结论总结

本文提出了 GRASP (Generation Augmented Retrieval with Holistic Attention for Sequential Prediction),一个新颖的框架,通过结合生成增强检索 (generation augmented retrieval)整体注意力增强 (holistic attention enhancement) 来赋能序列推荐模型。

GRASP 的核心在于:

  1. 鲁棒地利用 LLM 世界知识: 不同于现有方法直接将 LLM 生成内容作为监督信号而易受幻觉影响,GRASP 将其用于描述性合成和相似性检索,以提供鲁棒的辅助上下文信息。

  2. 多级兴趣建模: 通过多级注意力机制动态地丰富用户-物品表示,从相似用户/物品中捕获上下文信号,从而有效规避了 LLM 幻觉可能带来的噪声指导。

  3. 广泛的有效性: 在两个公共数据集和一个工业数据集上的全面实验证明,GRASP 在与多样化的主干网络集成时,始终优于最先进的基线模型,尤其在数据稀疏的长尾场景下表现出显著优势,同时保持了头部场景的强大性能。

    GRASP 将 LLM 的世界知识作为前端特征增强模块,易于在实际应用中部署,并通过在线 A/B 测试验证了其在工业场景中的实际价值。

7.2. 局限性与未来工作

7.2.1. 论文指出的局限性与未来工作

  • 当前定位: GRASP 将 LLM 的世界知识作为前端特征增强模块,易于在实际应用中部署。
  • 未来方向: 探索如何将 GRASP 与那些将 LLM 预训练权重内在应用于 SRS 主干网络 (backbone) 的方法相结合。这种结合可能会带来更令人印象深刻的模型性能。

7.2.2. 个人启发与批判

  • 个人启发:

    1. LLM 幻觉处理策略: GRASP 提出的将 LLM 生成信息作为“辅助上下文”而非“直接监督”的策略,为处理 LLM 幻觉问题提供了非常有价值的思路。这是一种更安全、更灵活的集成 LLM 知识的方式,尤其适用于信息可靠性要求高的场景。
    2. 多级注意力融合: 整体注意力增强模块中的“自注意力”、“相似性注意力”和“全局注意力”的多级设计,能够全面地捕获用户兴趣,从个体交互到群体趋势,这对于理解复杂的用户偏好动态性是十分有效的。
    3. 模块化设计: GRASP 的模块化(生成增强检索 + 整体注意力增强)使其能够灵活地应用于不同的 SRS 主干网络,展现了良好的通用性和可扩展性。
    4. Sigmoid 在注意力中的应用:softmax 替换为 sigmoid 以捕获多样的、非独占性偏好的做法,是针对推荐场景的特定优化,具有很强的领域适应性,值得在其他推荐模型中借鉴。
  • 批判/潜在改进点:

    1. LLM 嵌入的质量依赖: GRASP 的性能高度依赖于 LLM 生成描述的质量和对应的文本嵌入效果。如果 LLM 本身的描述能力有限或存在偏差,或者文本编码器不够强大,那么即使是辅助信息,其价值也会大打折扣。Prompt 工程 (Prompt Engineering) 的质量对结果有显著影响。
    2. “冻结”嵌入的动态性限制: 论文提到 LLM 生成的嵌入是离线预计算并冻结的。虽然每天更新,但用户兴趣可能在一天内快速变化。这种“冻结”策略可能在捕获实时、微秒级兴趣变化方面存在滞后性。未来的工作可以探索更轻量级或增量式的在线更新机制。
    3. 计算资源消耗: 尽管论文强调了离线预计算的优势,但生成所有用户和物品的详细描述并提取嵌入,在首次构建或大规模更新时,仍然是一个计算密集型的过程,尤其对于超大规模的工业级数据集。
    4. 相似用户/物品聚合的局限: 采用平均池化 (AvgPooling) 来聚合相似用户/物品的嵌入,虽然简单有效,但可能丢失相似集合中细粒度的信息,例如不同相似邻居可能对目标用户/物品有不同程度的影响。可以探索更复杂的聚合策略,如注意力机制或图神经网络。
    5. 理论分析的进一步深化: 附录 A.3 中从梯度角度分析 GRASP 对幻觉的鲁棒性非常具有启发性。未来可以进一步实证分析,例如通过可视化学习到的权重 Wc\mathbf{W}_c 在幻觉内容存在时的实际变化,以提供更强的证据支持。

相似论文推荐

基于向量语义检索推荐的相关论文。

暂时没有找到相似论文。