FineRec:Exploring Fine-grained Sequential Recommendation
TL;DR 精炼摘要
本文提出了FineRec框架,旨在通过用户评论中的属性-意见对,细致地处理序列推荐。通过大语言模型提取属性-意见对,并构建特定用户-意见-物品图,结合多样性感知卷积操作,优化表达学习。实验结果显示其效能显著优于现有方法。
摘要
Sequential recommendation is dedicated to offering items of interest for users based on their history behaviors. The attribute-opinion pairs, expressed by users in their reviews for items, provide the potentials to capture user preferences and item characteristics at a fine-grained level. To this end, we propose a novel framework FineRec that explores the attribute-opinion pairs of reviews to finely handle sequential recommendation. Specifically, we utilize a large language model to extract attribute-opinion pairs from reviews. For each attribute, a unique attribute-specific user-opinion-item graph is created, where corresponding opinions serve as the edges linking heterogeneous user and item nodes. To tackle the diversity of opinions, we devise a diversity-aware convolution operation to aggregate information within the graphs, enabling attribute-specific user and item representation learning. Ultimately, we present an interaction-driven fusion mechanism to integrate attribute-specific user/item representations across all attributes for generating recommendations. Extensive experiments conducted on several realworld datasets demonstrate the superiority of our FineRec over existing state-of-the-art methods. Further analysis also verifies the effectiveness of our fine-grained manner in handling the task.
思维导图
论文精读
中文精读
1. 论文基本信息
1.1. 标题
FineRec: Exploring Fine-grained Sequential Recommendation (FineRec:探索细粒度序列推荐)
1.2. 作者
Xiaokun Zhang (大连理工大学), Bo Xu (大连理工大学), Youlin Wu (大连理工大学), Yuan Zhong (宾夕法尼亚州立大学), Hongfei Lin (大连理工大学), Fenglong Ma (宾夕法尼亚州立大学)
1.3. 发表期刊/会议
该论文发表于第47届国际ACM信息检索研究与开发大会(SIGIR '24),该会议是信息检索领域的顶级会议。
1.4. 发表年份
2024年
1.5. 摘要
序列推荐 (Sequential recommendation) 旨在根据用户的历史行为为其提供感兴趣的物品。用户在评论中表达的属性-意见对 (attribute-opinion pairs) 为在细粒度 (fine-grained) 层面捕捉用户偏好和物品特征提供了潜力。为此,本文提出了一个名为 FineRec 的新颖框架,该框架通过探索评论中的属性-意见对来精细地处理序列推荐。具体来说,FineRec 利用大型语言模型 (Large Language Model, LLM) 从评论中提取属性-意见对。对于每个属性,都会创建一个独特的属性特定用户-意见-物品图 (attribute-specific user-opinion-item graph),其中相应的意见作为连接异构用户和物品节点的边。为了解决意见多样性 (diversity of opinions) 的问题,本文设计了一种多样性感知卷积操作 (diversity-aware convolution operation) 来聚合图内的信息,从而实现属性特定的用户和物品表示学习。最后,提出了一种交互驱动融合机制 (interaction-driven fusion mechanism),以整合所有属性的属性特定用户/物品表示,从而生成推荐。在几个真实世界数据集上进行的大量实验证明了 FineRec 优于现有最先进方法 (state-of-the-art methods) 的性能。进一步的分析也验证了其细粒度处理任务的有效性。
1.6. 原文链接
原文链接: https://arxiv.org/abs/2404.12975v1 PDF 链接: https://arxiv.org/pdf/2404.12975v1.pdf 发布状态: 预印本 (Preprint)
2. 整体概括
2.1. 研究背景与动机
核心问题: 序列推荐 (Sequential Recommendation, SR) 旨在根据用户历史行为推荐物品,但现有方法在捕捉用户真实意图和细粒度偏好方面存在局限性。
问题的重要性:
- 隐式行为的局限性: 大多数现有
SR方法依赖于用户的隐式行为(如点击、购买),并使用神经网络学习物品和用户嵌入。然而,隐式行为(如意外点击)可能无法准确反映用户真实兴趣,引入噪声,导致推荐效果不佳 (Figure 1(a))。 - 评论的粗粒度处理: 部分研究利用用户-物品评论来显式捕捉用户偏好,但它们通常将整个评论作为一个整体处理,忽略了用户可能对同一物品的不同属性持有不同意见的事实 (Figure 1(b))。例如,一个用户可能喜欢一件衣服的颜色,但讨厌它的材质。这种粗粒度处理限制了方法的有效性。
现有挑战:
- 属性-意见对的提取困难: 用户在评论中表达意见时语言通常非正式且隐含,难以准确提取有信息的属性-意见对 (attribute-opinion pairs)。例如,“这个东西坑了我!” 这句话中,属性(价格)和意见(昂贵)都没有直接表达。
- 细粒度用户和物品表示学习: 在不同属性下,用户和物品表现出独特的偏好和特性。
- 跨属性差异: 现有方法通常以整体方式表示用户和物品,忽略了跨属性的差异。
- 意见多样性: 即使在特定属性下,意见的多样性也阻碍了细粒度表示学习。例如,用户可能喜欢大尺寸电视,但偏爱小尺寸手机。物品也可能收到不同用户在同一属性下的多种评价(例如,有人喜欢亮色衣服,有人讨厌)。
- 细粒度推荐生成: 用户的行为受其偏好和物品特征在各种属性中的共同影响。然而,缺乏明确的指标来显示每个属性如何影响用户决策,使得细粒度推断用户行为并生成推荐变得具有挑战性。
论文的切入点/创新思路: 论文提出利用用户评论中包含的属性-意见对,以细粒度方式捕捉用户偏好和物品特征 (Figure 1(c))。这种方式能够识别用户对特定属性的喜好或厌恶,从而提供更精准的个性化推荐。
2.2. 核心贡献/主要发现
主要贡献:
- 提出细粒度序列推荐新范式: 首次尝试以细粒度方式处理序列推荐任务,通过探索评论中的属性-意见对,精细揭示用户偏好和物品特征。
- 提出
FineRec框架: 包含多个创新技术:- 基于
LLM的属性-意见提取: 利用大型语言模型从评论中提取有信息的属性-意见对,解决了非正式和隐含语言的提取难题。 - 属性特定用户-意见-物品图与多样性感知卷积操作: 为每个属性构建独特的图结构,并通过多样性感知卷积操作聚合信息,实现属性特定的用户和物品表示学习,有效应对意见多样性。
- 交互驱动融合机制: 利用用户-物品交互信息指导属性特定表示的融合,以生成最终推荐。
- 基于
- 实验验证: 在多个公共基准数据集上进行大量实验,验证了
FineRec优于现有最先进方法的性能。 - 有效性分析: 进一步分析证实了其细粒度处理任务的有效性。
关键结论/发现:
FineRec在所有测试数据集和评估指标上均表现出一致的优越性,显著优于现有state-of-the-art方法,证明了细粒度建模的有效性。- 细粒度方法能够更准确地捕捉用户真实意图和对物品特定属性的偏好,从而提高推荐精度。
- 多样性感知卷积操作对于处理不同用户对同一属性的多种意见以及同一用户对不同物品的多种意见至关重要,能够学习到更鲁棒的用户/物品表示。
- 交互驱动融合机制有效利用了用户-物品交互的隐式相似性,指导了不同属性下用户/物品表示的整合。
LLM在辅助提取评论中的细粒度属性-意见对方面表现出色,特别是在结合了预设属性列表和多次提取以减轻幻觉现象的情况下。FineRec能够在较低的嵌入维度下取得优异性能,说明其在捕获细粒度信息方面的效率和实用性。
3. 预备知识与相关工作
3.1. 基础概念
- 序列推荐 (Sequential Recommendation, SR): 是一种推荐系统任务,旨在根据用户过去的一系列交互行为(如点击、购买历史)来预测用户接下来最可能交互的物品。它特别关注用户偏好随时间演变这一内在特性。
- 大型语言模型 (Large Language Model, LLM): 是一种基于深度学习的预训练模型,通常拥有数亿到数千亿个参数,通过在海量文本数据上进行训练,学习语言的模式、语法和语义。
LLM具备强大的自然语言处理能力,可以执行文本生成、摘要、翻译、问答和信息提取等任务。在本文中,LLM主要用于从用户评论中提取属性-意见对。 - 属性-意见对 (Attribute-Opinion Pairs): 指从用户评论中提取的关于物品特定属性及其对应评价的结构化信息。例如,评论“这手机拍照效果好,但电池续航差”可以提取出
<拍照效果, 好>和<电池续航, 差>两个属性-意见对。 - 图神经网络 (Graph Neural Networks, GNN): 是一类设计用于处理图结构数据的神经网络模型。
GNN通过在图节点及其邻居之间传递和聚合信息来学习节点表示。在本文中,GNN用于在属性特定用户-意见-物品图中学习用户和物品的细粒度表示。 - 注意力机制 (Attention Mechanism): 是一种在神经网络中广泛使用的技术,允许模型在处理序列数据时,动态地为输入序列的不同部分分配不同的“注意力”权重,从而更好地捕捉长距离依赖关系或聚焦于最重要的信息。
Self-attention是其中一种形式,允许序列中的每个元素都关注序列中的所有其他元素。 - 对比学习 (Contrastive Learning): 是一种自监督学习方法,通过最大化“正样本对”(相似的数据点)之间的相似性,同时最小化“负样本对”(不相似的数据点)之间的相似性来学习数据的表示。
- 交叉熵损失 (Cross-Entropy Loss): 是一种常用的分类损失函数,用于衡量模型预测的概率分布与真实标签分布之间的差异。在推荐系统中,常用于二分类任务,如预测用户是否会与某个物品交互。其公式为:
其中:
- 是真实标签的向量,其中 如果物品 是正样本(即用户交互了),否则 。
- 是模型预测的概率向量,其中 是模型预测用户与物品 交互的概率。
- 是所有物品的数量。
- 是自然对数。
3.2. 前人工作
本文将相关工作分为两类:序列推荐 (Sequential Recommendation) 和评论驱动推荐 (Review-driven Recommendation)。
3.2.1. 序列推荐 (Sequential Recommendation)
- 传统方法: 早期序列推荐方法利用
RNN(如NARM[19]) 或注意力机制 (SASRec[16]) 来捕捉用户行为序列中的顺序模式。GNN(如SR-GNN[35]) 也被用于构建会话图来捕捉物品之间的转换关系。 - 增强型方法: 一些方法通过引入额外的物品信息(如类别、品牌、价格、文本、图像)来丰富用户偏好模型 (例如
UniSRec[13] 结合描述文本)。 - 自监督学习: 近年来,对比学习 (
ICLRec[5],MCLRec[30]) 等自监督范式也被引入,以增强用户行为理解或进行数据增强。 - 问题: 尽管这些方法利用了强大的神经网络结构和各种辅助信息,但它们大多关注用户隐式行为(如点击),这可能无法完全捕捉用户真实意图,并且容易受到噪声(如意外点击)的影响。
3.2.2. 评论驱动推荐 (Review-driven Recommendation)
- 基础思想: 评论包含用户对物品的显式意见,可以用于更准确地捕捉用户偏好。
- 代表性工作:
RNS[18]:作为将评论引入序列推荐的代表性工作,RNS利用评论内容来获取用户的长期和短期偏好。- 其他方法:通常利用评论构建用户和物品嵌入,并结合注意力机制 [9, 25] 或
GNN[32] 进行推荐。
- 问题: 尽管这些方法显式利用了评论,但它们普遍存在一个主要缺陷:粗粒度处理。它们将整个评论作为一个整体进行建模,忽略了用户可能对同一评论中不同属性(
aspects)持有不同意见的事实。这导致模型无法捕捉到用户在不同属性上的细微偏好。 - 方面感知方法: 少数方法试图捕捉用户对不同方面的兴趣 [6, 7, 31, 44]。然而,这些方法通常只关注区分不同的方面,但未能捕捉用户对这些方面具体持有的意见。例如,它们可能识别出用户关心“价格”这个方面,但无法区分用户是认为“价格贵”还是“价格便宜”。
3.3. 技术演进与差异化分析
技术演进:
推荐系统从最初的协同过滤、矩阵分解,发展到基于深度学习的序列推荐模型(RNN、Attention、Transformer、GNN)。在此过程中,人们逐渐意识到仅依赖隐式交互行为的局限性,开始探索利用辅助信息(如物品元数据、评论)。评论驱动推荐是这一演进中的一个重要分支,旨在利用用户显式表达的意见来增强推荐的准确性和可解释性。
本文与相关工作的差异化分析:
FineRec 的核心创新和差异化在于其细粒度 (fine-grained) 的属性-意见处理方式,这弥补了现有评论驱动推荐方法的不足:
-
超越隐式行为: 与大多数基于隐式行为的
SR方法(如SASRec,SR-GNN,MCLRec,ACTSR)不同,FineRec显式地从评论中提取用户意图,从而避免了隐式行为可能引入的噪声和不准确性。 -
超越粗粒度评论处理: 针对
RNS等评论驱动方法将评论作为一个整体处理的局限性,FineRec深入到属性-意见对的层面。这使得模型能够区分用户对同一物品不同属性的细微偏好,例如,用户可能喜欢一件衣服的“颜色”,但对“材质”不满意。这种细粒度建模是前所未有的。 -
超越单纯的方面识别: 相较于仅识别用户关注的方面(如“价格”、“品牌”)但未捕捉具体意见的方法,
FineRec不仅识别属性,还提取用户对该属性的具体意见(如“价格贵”、“品牌好”)。这种“属性-意见”的组合提供了更丰富、更精确的用户偏好和物品特征描述。 -
利用
LLM提取: 创新性地利用LLM的强大语言理解能力来解决属性-意见对的提取难题,尤其是在非正式和隐含语言的评论中。通过引导LLM专注于预定义的重要属性,有效减轻了LLM的“幻觉”问题。 -
多样性感知表示学习: 提出了多样性感知卷积操作,专门处理即使在同一属性下用户意见也可能多样化的问题,从而学习到更鲁棒和细致的用户/物品表示。
-
交互驱动的融合机制: 提出了一种独特的融合机制,利用用户-物品交互的内在相似性来指导不同属性表示的整合,而非简单的拼接或加权平均。
总之,
FineRec的创新点在于将LLM引入细粒度属性-意见提取,并在此基础上构建属性特定图结构和多样性感知聚合机制,最终通过交互驱动的融合策略,实现了对用户偏好和物品特征的精细化建模,从而在序列推荐任务中取得了显著提升。
4. 方法论
FineRec 框架旨在通过探索评论中的属性-意见对来精细地处理序列推荐。其主要包含四个相互关联的组件:LLM 基于的属性-意见提取、细粒度表示学习、交互驱动融合机制和预测。
4.1. 方法原理
FineRec 的核心思想是,用户在评论中对物品表达的不仅仅是整体好恶,更是针对物品不同属性(如价格、质量、颜色)的具体意见。这些“属性-意见对”包含了更细致、更准确的用户偏好和物品特征信息。因此,FineRec 不再将评论视为一个整体,而是将其分解为这些细粒度信息单元。
为了实现这一目标,FineRec 的工作流程如下:
-
提取细粒度信息: 利用
LLM的强大语义理解能力,从用户评论中抽取出“属性-意见对”。为了确保提取的质量和减轻LLM的幻觉,首先根据重要性筛选出核心属性,再让LLM围绕这些属性提取意见。 -
构建属性专属视图: 对于每个被识别出的属性,构建一个独立的“属性特定用户-意见-物品图”。在这个图中,用户和物品是节点,而用户对物品在该属性下的具体意见则作为连接这些节点的边。这样,每个属性都有一个专属的图来捕捉其特有的交互模式和偏好。
-
多样性感知表示学习: 在这些属性特定图中,考虑到用户对不同物品的意见多样性以及物品收到不同用户意见的多样性,设计了一种“多样性感知卷积操作”来聚合信息。这意味着在学习用户和物品的嵌入时,模型会考虑意见的差异性,而不仅仅是简单的求和。
-
整合多属性偏好: 用户的最终决策是其在所有属性上偏好的综合体现。因此,
FineRec提出一种“交互驱动融合机制”,利用用户-物品交互的全局信息(例如,哪些用户购买了哪些物品,哪些物品被同一用户购买)来指导不同属性下学习到的用户和物品表示的融合,形成最终的用户和物品表示。 -
生成推荐: 最后,通过结合用户的最终表示、用户的近期兴趣表示和物品的最终表示,预测用户对候选物品的兴趣得分,并进行推荐。
通过这种细粒度、多视图、多样性感知的建模方式,
FineRec能够更准确地理解用户的真实意图和物品的深层特性,从而提供更精准的序列推荐。
4.2. 核心方法详解
4.2.1. LLM-based Attribute-opinion Extraction (基于LLM的属性-意见提取)
- 目的: 从非正式和隐含语言的评论中准确提取有信息的属性-意见对。
- 挑战:
LLM在处理复杂任务时可能出现“幻觉”。 - 解决方案: 结合领域重要性来指导
LLM提取。- 属性识别: 从电商网站直接收集物品属性,并根据其出现频率选择前 个最常见的属性作为属性集 。这些属性代表了用户在选择物品时关注的重要方面(例如“价格”、“颜色”)。
- 意见提取: 构建一个专门的提示 (prompt) 模板,引导
LLM从评论中提取关于特定属性的意见词。 其中 是从预设属性集中选取的属性,"review contents"是具体的评论文本。 - 输出: 对于评论 (用户 对物品 的评论),
LLM会输出一个句子,捕捉用户 对物品 在属性 下的意见 。如果评论没有提及属性集 中的任何属性,则结果被忽略。
- 示例: 评论
"it smells nice, but too expensive",属性集为{Scent, Price, Brand}。提取出的属性-意见对为 。 - LLM选择与鲁棒性: 实验中使用
ChatGPT-3.5进行提取。为减轻LLM的随机性,执行五次意见提取过程,并将这些输出的并集作为最终的属性-意见对。
4.2.2. Fine-grained Representation Learning (细粒度表示学习)
4.2.2.1. Attribute-specific user-opinion-item graph (属性特定用户-意见-物品图)
- 目的: 针对不同属性,细粒度地编码用户和物品的偏好/特征。
- 构建方式: 对于每个属性 ,构建一个独特的图 。
- 节点: 节点集 由用户 和物品 组成。
- 边: 边集 包含了用户对物品在该特定属性下表达的意见。如果用户 对物品 在属性 下表达了意见 ,则在图 中存在一条从 到 的意见边 。
- 注意: 如果用户和物品之间在特定属性下没有意见,则它们不会在 中被记录。
- 表示学习:
- 属性特定嵌入: 每个用户 由 个独特的嵌入表示:,其中 表示用户对属性 的偏好。
- 物品特定嵌入: 每个物品 由 个独特的嵌入表示:,其中 表示物品在属性 中的特征。
- 文本嵌入: 预训练的
BERT模型用于将属性 表示为 ,将意见文本 表示为 。
4.2.2.2. Diversity-aware convolution operation (多样性感知卷积操作)
- 目的: 解决意见多样性问题,在每个属性特定图上进行信息聚合,学习细粒度的用户和物品表示。
- 挑战: 在给定属性下,用户对不同物品可能有不同意见;物品可能收到不同用户的不同意见。
- 用户嵌入更新: 用户 在属性 的图 上的嵌入 更新方式如下:
其中:
- 是与用户 在图 中相邻的物品集合。
- 是物品 在属性 下的嵌入。
- 是用户 对物品 在属性 下的意见嵌入。
- 是衡量物品-意见对重要性的权重,计算方式如下:
这里
sim()是余弦相似度。 是属性 的嵌入。通过在相似性计算中加入属性嵌入 ,强调属性对用户行为的影响。
- 物品嵌入更新: 物品 在属性 的图 上的嵌入 更新方式如下:
其中:
- 是对物品 在属性 下表达意见的用户集合。
- 是用户 在属性 下的嵌入。
- 是用户 对物品 在属性 下的意见嵌入。
- 是衡量用户-意见对重要性的权重,计算方式类似。
4.2.3. Interaction-driven Fusion Mechanism (交互驱动融合机制)
- 目的: 整合所有属性的属性特定用户/物品表示,生成最终的全局用户和物品表示。
- 挑战: 缺乏明确信号指示每个属性如何影响用户决策。
- 解决方案: 利用用户-物品交互信息中蕴含的相似性来指导融合。
- 用户-物品交互的三种相似性:
- 用户-物品相似性: 用户与其交互过的物品之间的共同点(图中的直接连接)。
- 用户-用户相似性: 购买相同物品的用户被认为是相似的(图中的两跳关系)。
- 物品-物品相似性: 与同一用户交互的物品被认为是相似的(图中的两跳关系)。
- 拼接属性特定嵌入: 首先将所有属性的嵌入拼接起来,形成扩展的用户和物品表示:
其中
[;]表示拼接操作,。 - 用户表示融合: 用户的最终表示 通过聚合其自身、与其交互过的物品以及与其相似的用户的信息来获得:
其中:
- 是可学习的权重矩阵,用于转换特定嵌入以使其能够相互作用。
- 是用户 交互过的物品集合(表示用户-物品相似性)。
- 是与用户 购买相同物品的用户集合(表示用户-用户相似性)。
- 物品表示融合: 物品的最终表示 通过聚合其自身、与它交互过的用户以及与它相似的物品的信息来获得:
其中:
- 是可学习的权重矩阵。
- 是与物品 交互过的用户集合(表示用户-物品相似性)。
- 是与物品 被相同用户交互过的物品集合(表示物品-物品相似性)。
4.2.4. Prediction (预测)
- 用户近期兴趣: 用户的近期兴趣 通过对其最近 个交互物品进行平均池化 (average-pooling) 来表示: 其中 默认为最近的5个物品, 是用户历史序列中倒数第 个物品的最终表示。
- 预测评分: 基于用户的最终表示 、近期兴趣 和物品的最终表示 ,预测候选物品 的交互得分 :
- 训练目标: 模型通过交叉熵损失 (cross-entropy loss) 进行训练,目标是全排名 (
full ranking) 整个物品集: 其中 是一个二元指示符,如果用户购买了物品 则为 1,否则为 0。
5. 实验设置
5.1. 数据集
实验使用了四个流行的公共数据集来评估 FineRec 的有效性:
- Cellphones (手机)
- Beauty (美妆)
- Sports (运动与户外)
- 这三个数据集均来自 Amazon,是序列推荐领域广泛使用的基准数据集,包含用户的购买行为序列和相应的用户-物品评论。
- Yelp
- 包含用户对餐厅的评论,在推荐任务中也常被使用。在实验中,仅保留了2019年的交易记录。
数据预处理:
- 5-core 方法: 过滤掉交互次数少于5次的物品和用户,以确保数据质量和统计意义。
- 评论筛选: 为了公平评估细粒度建模的影响,排除了评论中未提及属性列表 中任何属性的评论。
- 数据划分: 采用
leave-one-out策略:用户序列中的最后一个物品用于测试,倒数第二个物品用于验证,其余用于训练。
数据集统计信息:
以下是原文 Table 1 的结果:
| Datasets | Cellphones | Beauty | Sports | Yelp |
| #item | 6,208 | 10,176 | 11,017 | 12,391 |
| #user | 7,598 | 15,152 | 11,817 | 12,373 |
| #interaction | 50,140 | 123,148 | 87,594 | 110,313 |
| avg.length | 6.60 | 8.13 | 7.41 | 8.92 |
每个数据集使用的属性列表:
以下是原文 Table 2 的结果:
| Datasets | Attribute list |
| Cellphones | Battery, Brand, Color, Connectivity, Performance, Price, Size |
| Beauty | Brand, Color, Effectiveness, Ingredients, Price, Scent, Size |
| Sports | Brand, Comfort, Functionality, Material, Price, Quality, Size |
| Yelp | Ambience, Cleanliness, Food, Location, Parking, Price, Service |
5.2. 评估指标
实验采用两个广泛使用的评估指标来衡量推荐性能:
5.2.1. Prec@k (Precision@k)
- 概念定义:
Prec@k衡量的是推荐列表前 个物品中,有多少是用户实际交互(即“真实标注数据”)的物品。它关注的是推荐的准确性,即模型在推荐少量物品时,能够命中用户兴趣的比例。Prec@k不考虑命中物品在推荐列表中的具体排名。 - 数学公式:
- 符号解释:
- :在前 个推荐物品中,实际与用户相关的物品数量。
- :推荐列表的长度。
5.2.2. NDCG@k (Normalized Discounted Cumulative Gain@k)
- 概念定义:
NDCG@k是一种衡量推荐系统排名的指标,它不仅考虑推荐的准确性,还考虑了相关物品在推荐列表中的位置。排名越靠前的相关物品,其对NDCG的贡献越大。因此,NDCG@k在需要关注推荐顺序的场景中尤其重要。 - 数学公式:
其中, (Discounted Cumulative Gain@k) 的计算公式为:
(Ideal Discounted Cumulative Gain@k) 是理想情况下(即所有相关物品都排在最前面)的
DCG@k值,用于对DCG@k进行归一化: - 符号解释:
-
:推荐列表第 个位置物品的相关性得分。在二元相关性(相关或不相关)的情况下,相关为1,不相关为0。
-
:推荐列表中的位置索引。
-
:所有相关物品的数量。
-
:折扣因子,随着物品排名下降,其贡献的权重也随之降低。
本文中, 值设定为 10 和 20。
-
5.3. 对比基线
为了全面评估 FineRec 的性能,选择了以下10种具有竞争力的 baseline 方法:
- SKNN (Session-based K-Nearest Neighbors): 一种基于会话的 最近邻方法,通过计算当前会话与历史会话的相似度进行推荐。
- NARM (Neural Attentive Session-based Recommendation) [19]: 利用
RNN和注意力机制捕捉用户的主要目的进行会话推荐。 - SASRec (Self-Attentive Sequential Recommendation) [16]: 采用
self-attention机制捕捉用户行为序列中的顺序模式。 - SR-GNN (Session-Based Recommendation with Graph Neural Networks) [35]: 构建会话图并应用图神经网络捕捉物品转换关系。
- RNS (A Review-Driven Neural Model for Sequential Recommendation) [18]: 将评论内容整合到序列推荐任务中,以获取用户的长期和短期偏好。
- ICLRec (Intent Contrastive Learning for Sequential Recommendation) [5]: 利用对比学习挖掘用户潜在意图,增强用户行为理解。
- UniSRec (Towards Universal Sequence Representation Learning for Recommender Systems) [13]: 利用物品描述文本学习通用的序列表示。
- A-Mixer (Atten-Mixer) [38]: 利用多级用户意图在物品转换上实现多级推理。
- MCLRec (Meta-optimized Contrastive Learning for Sequential Recommendation) [30]: 提出元优化的对比学习,以实现信息丰富的数据和模型增强。
- ACTSR (Attention Calibration for Transformer-based Sequential Recommendation) [47]: 通过校准
Transformer层中不可靠的注意力权重来增强基于Transformer的方法。
5.4. 实现细节
- LLM选择: 使用
ChatGPT-3.5进行属性-意见提取。 - 属性数量: 为了平衡效率和有效性,每个数据集选择7个最流行的属性。
- LLM提取的鲁棒性: 意见提取过程执行5次,最终属性-意见对是这5次输出的并集。
- 超参数调优:
FineRec和所有baseline的超参数通过网格搜索在验证集上基于Prec@20进行调优。 - 嵌入维度 : 探索了 {4, 8, 16, 32}。
- 用户近期兴趣: 使用用户最近5个物品的平均嵌入来表示()。
- 训练细节:
minibatch size:512- 优化器:
Adam - 初始学习率:0.001
6. 实验结果与分析
6.1. Overall Performance (RQ1)
以下是原文 Table 3 的结果:
| Datasets | Metrics | SKNN | NARM | SASRec | SR-GNN | RNS | ICLRec | UniSRec | A-Mixer | MCLRec | ACTSR | FineRec | impro. | ||
| Cellphones | Prec@10 | 2.54 | 3.23 | 3.95 | 4.21 | 4.88 | 3.59 | 4.35 | 4.04 | 5.83 | 6.12 | 7.66* | 25.16% | ||
| NDCG@10 | 1.45 | 1.74 | 1.80 | 2.02 | 3.18 | 1.54 | 2.28 | 2.03 | 2.78 | 2.91 | 3.87* | 21.70% | |||
| Prec@20 | 4.01 | 4.50 | 6.11 | 6.03 | 7.09 | 5.27 | 6.29 | 5.46 | 8.47 | 8.84 | 11.89* | 34.50% | |||
| NDCG@20 | 1.88 | 2.06 | 2.42 | 2.53 | 3.79 | 2.05 | 2.66 | 2.34 | 3.38 | 3.55 | 4.75* | 25.33% | |||
| Beauty | Prec@10 | 1.73 | 2.61 | 3.97 | 2.25 | 2.87 | 1.97 | 3.71 | 3.47 | 4.41 | 4.16 | 5.71* | 29.48% | ||
| NDCG@10 | 1.01 | 1.51 | 1.77 | 1.11 | 1.52 | 1.22 | 1.87 | 1.91 | 2.08 | 2.05 | 2.92* | 40.38% | |||
| Prec@20 | 2.68 | 3.89 | 6.64 | 3.69 | 4.63 | 3.04 | 6.23 | 5.17 | 7.93 | 7.23 | 9.25* | 16.65% | |||
| NDCG@20 | 1.76 | 1.83 | 2.40 | 1.52 | 2.01 | 1.99 | 2.14 | 2.29 | 2.80 | 2.62 | 3.77* | 34.64% | |||
| Sports | Prec@10 | 1.13 | 1.48 | 1.69 | 1.88 | 2.44 | 1.59 | 1.85 | 1.44 | 2.85 | 2.57 | 3.50* | 22.81% | ||
| NDCG@10 | 0.73 | 0.81 | 0.94 | 0.91 | 1.27 | 0.90 | 0.93 | 0.88 | 1.17 | 1.02 | 1.88* | 48.03% | |||
| Prec@20 | 1.68 | 1.84 | 2.63 | 2.90 | 3.11 | 2.31 | 2.49 | 1.87 | 4.44 | 4.09 | 5.45* | 22.75% | |||
| NDCG@20 | 0.91 | 0.95 | 1.20 | 1.12 | 1.69 | 1.03 | 1.09 | 1.17 | 1.58 | 1.37 | 2.37* | 40.24% | |||
| Yelp | Prec@10 | 1.45 | 1.95 | 3.79 | 2.94 | 2.22 | 1.51 | 1.89 | 1.80 | 4.54 | 4.18 | 5.63* | 24.01% | ||
| NDCG@10 | 0.82 | 1.26 | 1.84 | 1.54 | 1.78 | 1.02 | 1.22 | 1.11 | 2.15 | 1.76 | 3.09* | 43.72% | |||
| Prec@20 | 2.17 | 2.65 | 4.95 | 3.71 | 3.65 | 2.29 | 2.62 | 2.53 | 7.94 | 7.59 | 9.16* | 15.37% | |||
| NDCG@20 | 1.30 | 1.56 | 2.40 | 1.73 | 1.93 | 1.28 | 1.60 | 1.30 | 3.02 | 2.51 | 3.69* | 22.19% |
分析:
- 基线模型表现的波动性: 不同的基线模型在不同数据集上的性能差异很大。例如,
ACTSR在Cellphones数据集的Prec指标上表现最好,但在其他数据集上性能较差。SASRec在Beauty数据集上表现突出,但在其他数据集上表现不佳。这表明序列推荐任务的复杂性和难度,以及现有隐式方法在捕捉用户真实意图方面的局限性。 - 评论驱动方法的优势与局限:
RNS作为引入评论的代表性工作,在Cellphones和Sports数据集的NDCG指标上表现出竞争力。这表明显式地从评论中挖掘用户兴趣有助于理解用户意图。然而,其在Beauty和Yelp数据集上的表现不佳,这归因于RNS粗粒度地将整个评论作为一个整体建模,未能区分用户对不同属性的细微意见。 - 最先进基线的性能:
MCLRec和ACTSR等最新方法通常优于其他基线,这得益于它们采用了先进的技术(如元优化对比学习和注意力校准)。然而,它们在不同上下文中的性能仍不一致,再次印证了隐式建模用户行为的局限性。 FineRec的显著优越性:FineRec在所有四个数据集的所有评估指标上均取得了一致且显著的性能提升,超越了所有baseline模型。- 在
Cellphones上,FineRec在Prec@20和NDCG@20上分别比最佳基线提高了 34.50% 和 25.33%。 - 在
Beauty上,分别提高了 16.65% 和 34.64%。 - 在
Sports上,分别提高了 22.75% 和 40.24%。 - 在
Yelp上,分别提高了 15.37% 和 22.19%。 - 这种持续的卓越性能验证了
FineRec的有效性。这主要归因于其细粒度建模方式:通过属性-意见对精细地表示用户和物品,FineRec能够识别用户在各种属性上的细粒度偏好和物品特征,从而显著提高了预测准确性。
- 在
6.2. The effect of fine-grained manner for handling SR (RQ2)
为了验证 FineRec 细粒度建模方式的有效性,论文设计了以下两种变体进行对比:
-
FineReccoa: 模拟粗粒度建模。它基于整个用户-物品交互构建一个单一的用户-评论-物品图。在这个图中,用户和物品是节点,整个评论作为连接它们的边。这意味着它将评论作为一个整体处理,不区分用户对不同属性的意见。
-
FineRec-opin: 模拟仅考虑属性而不考虑意见多样性的情况。它为每个属性创建一个属性特定的用户-物品图,但不考虑用户与物品之间相关的意见。它使用传统的
GCN来更新每个属性下的用户和物品嵌入,即没有利用多样性感知卷积操作。下图(原文 Figure 3)展示了细粒度方式对
SR的影响:
分析:
FineRec-opin优于FineReccoa:FineRec-opin的性能优于FineReccoa。这表明为不同属性构建独立的属性特定子图是合理的。用户在不同属性下表现出不同的偏好,物品也具有不同的特征。这种区分使得FineRec-opin能够捕捉到比粗粒度FineReccoa更精细的信息。FineRec显著优于FineRec-opin:FineRec以很大的优势击败了FineRec-opin。这强调了联合探索属性和意见的重要性。即使在同一个属性下,用户也可能表达完全不同的态度(例如,“价格高”与“价格低”)。如果只考虑属性而忽略了具体的意见,模型就无法做出准确的预测。FineRec捕捉了这些细微的意见差异,从而获得了更好的性能。FineRec的整体优越性:FineRec在所有情况下都超越了其两种变体,这验证了其细粒度处理任务的有效性。通过深入挖掘评论中的属性-意见对,FineRec能够更精确地揭示用户偏好和物品特征,从而显著提升推荐性能。
6.3. The effect of diversity-aware convolution operation (RQ3)
为了验证多样性感知卷积操作的有效性,论文设计了一个变体:
-
w/o diver: 该变体移除了多样性感知卷积操作。它采用一种直接的方法:将所有相邻的意见嵌入和物品/用户嵌入简单地求和,来更新用户/物品嵌入,从而忽略了意见的多样性。
以下是原文 Table 4 的结果:
Method Cellphones Beauty Sports Yelp Prec@20 NDCG@20 Prec@20 NDCG@20 Prec@20 NDCG@20 Prec@20 NDCG@20 Best baselines 8.84 3.79 7.93 2.80 4.44 1.69 7.94 3.02 w/o diver 11.04 4.29 8.23 3.18 5.05 2.04 8.73 3.47 FineRec 11.89* 4.75* 9.25* 3.77* 5.45* 2.37* 9.16* 3.69*
分析:
FineRec优于w/o diver:FineRec在所有场景中都持续优于w/o diver变体,这证明了多样性感知卷积操作的有效性。- 多样性感知卷积的贡献: 通过在用户/物品表示学习中关注意见的多样性,该操作实现了两个关键目标:
- 捕捉用户不同意见: 能够更好地理解用户对不同物品的各种意见。
- 全面刻画物品特征: 能够基于不同用户意见全面描绘物品特征。
- 这使得
FineRec能够在每个属性下获得更鲁棒的用户/物品表示。
- 细粒度方式的效率:
w/o diver变体的性能甚至优于最佳基线模型,这进一步表明了FineRec细粒度处理序列推荐任务的效率和优势,即使没有完整的多样性感知机制,其细粒度结构本身也比粗粒度方法更有效。
6.4. The effect of interaction-driven fusion mechanism (RQ3)
为了验证交互驱动融合机制的有效性,论文设计了一个变体:
-
FineReccat: 该变体采用一种传统的方法进行融合。它简单地将来自不同属性的嵌入拼接起来,然后使用一个多层感知机 (
MLP) 进行融合,绕过了FineRec中专门设计的交互驱动融合机制。下图(原文 Figure 4)展示了交互驱动融合机制的影响:

分析:
FineRec优于FineReccat:FineRec的性能优于FineReccat,这验证了交互驱动融合机制在整合属性特定嵌入方面的有效性。- 交互驱动融合的原理: 用户-物品交互反映了用户和物品之间的关系,特别是嵌入层面的相似性。通过利用这些相似性,所设计的融合机制能够更深入地理解不同属性如何共同影响用户行为。
- 有效性: 这种机制促进了有效的融合过程,从而确立了
FineRec相对于FineReccat的优越性。它表明简单地拼接然后通过MLP融合不足以捕捉多属性偏好之间的复杂相互作用,而利用用户-物品交互作为指导则能显著提升融合质量。
6.5. Hyper-parameter Study (RQ4)
本节研究了主要超参数 (属性嵌入、意见嵌入以及属性特定用户/物品嵌入的维度)对 FineRec 性能的影响。
下图(原文 Figure 5)展示了超参数 的影响:

分析:
- 维度与性能的关系: 随着 的增加,
FineRec的性能(以Prec@20和NDCG@20衡量)最初有所提升,但随后出现下降。 - 过拟合风险: 这表明虽然较大的 可以增强表示能力,从而带来更好的性能,但过高的 值可能导致过拟合,从而降低性能。
- 小维度下的最优性能:
FineRec在相对较小的 值下就能达到最佳性能,例如Sports数据集为 ,而Cellphones、Beauty和Yelp数据集为 。 - 细粒度建模的效率: 这一发现凸显了
FineRec的一个重要优点:它旨在捕捉每个属性下用户/物品的特定偏好/特征,而不是像现有方法那样以整体方式建模。这种细粒度方法使得FineRec能够以较低的成本(即较小的嵌入维度)准确表示每个属性下的用户或物品。 - 实际应用性: 这种效率和有效性相结合的特点,显著增强了
FineRec的实际应用价值。
6.6. Case Study (RQ5)
为了直观地展示 FineRec 在生成推荐方面的效果,论文从 Sports 数据集中随机选择了一个真实世界的案例。
以下是原文 Figure 6 的结果:
| User: NQ3YTUI | Item: 9JZ92A | tem: TLNRS | Item: 2UNMERW | Item: H8ZO1U | Groud truth Item: RURGYQ | |
| Posted Reviews | I wear these under my cargoshorts and they are socomfortable. the only thing is itwas more costly than I expected. | I can not say I love theproducts. They're cheap, butI'm disappointed with thequality of this product. | Always have bought thesebottles for cycling. A cheapinvestment that's so worth it.They'll last you forever. | Condor's products are firstrate, I will continue to ordermore of these. | This case is way more than I expected.I love it. It's made with awesomequality. | |
| Attribute-opinions | <Comfort, Very comfortable><Price, more costly than expected> | <Price, Cheap>< Quality, Disappointed > | <Price, Cheap investment> | <Brand, Condor's productsare first rate> | <Quality, Awesome> | |
| Top-1: RURGYQ | Reviews ofother users | The case is perfect. Its quality is really impressive.Water nt, pc Is u! | The price for this quality is unbeatable! Buy it! Itfits incredibly well, much more than I expected. | Works well and is well constructed. Good casefor its money. | ||
| Attribute-opinions | <Quality, Really impressive><Functionality, Water-resistant><Price, Just right> | <Price, Unbeatable><Quality, High><Size, Fits incredibly well> | <Price, Good value for its money><Functionality, Works well><Quality, Well constructed> | |||
| Top-2: 90U6NK | Reviews ofother users | The hat is made from a very durable material,and it looks great. I will buy more products madeby Condor in the future. | Perfect 5 star product! This Condor's hat is super light weight andbreaths well. This helps allow heat to escape and keep cool. Fitme perfectly right out of the box with no adjustments. | Great hat, well made. Love this hat,you will too, it is a very well builthat. Id buy it again. | ||
| Attribute-opinions | <Brand, Positive towards Condor><Material, Very durable><Quality, Looks great> | <Brand, Condor - 5 star product><Comfort, Fits perfectly<Size, Perfect fit> | <Quality, Well-made> | |||
| Top-3: 6Z08YM | Reviews ofother users | Very beautiful design, easy to use as wel. If youneed a tough kife, this is acan't-miss. | For the money, this is a great knife. steel holds adecent edge and sharpens easy. Good buy! | It's so affordable yet so good. The size is justright! It's like it was sized just for me! | ||
| Attribute-opinions | <Quality, Tough><Functionality, easy to use> | <Price, Great value><Quality, Steel holds a decent edge and sharpenseasily> | <Price, Affordable><Quality, Good><Size, Just right sized personally> | |||
分析:
LLM属性-意见提取的有效性: 案例研究表明,LLM能够有效地从用户评论中提取属性-意见对。提取出的属性-意见通常具有信息性和准确性。这得益于LLM在大量文本数据上的训练使其具备丰富的语言知识,以及FineRec通过引导LLM关注特定属性来减轻其“幻觉”问题的策略。- 细粒度推荐的有效性:
FineRec提出的细粒度方式确实有助于生成有效的推荐。案例中,用户关心的属性(如“价格”、“质量”)与FineRec推荐物品的属性高度重合。这表明FineRec能够基于细粒度的属性-意见而不是传统的隐式ID号码来准确表示用户和物品。 - 高度个性化推荐:
FineRec能够提供高度个性化的推荐。例如,用户对物品TALNERS的“质量”表达了“失望”,而FineRec成功推荐了真实标注数据物品RURGYQ,该物品被其他用户评价为“令人印象深刻”、“高”和“做工精良”的质量。这种基于用户特定属性-意见的推荐能够显著提高用户满意度。 - 识别细粒度偏好和特征:
FineRec能够有效识别细粒度的用户偏好和物品特征。例如,对于在历史评论中表现出对“Condor”品牌偏好的用户,FineRec能够推荐与之相关的同品牌物品,且该物品的品牌信息是从其他评论中识别出来的。这证明了模型能够捕捉跨评论的细粒度信息并加以利用。
7. 总结与思考
7.1. 结论总结
本研究提出了一种新颖的框架 FineRec,旨在通过挖掘评论中的属性-意见对来探索细粒度序列推荐。FineRec 的核心创新在于其将传统的粗粒度评论处理提升到细粒度的属性-意见层面,从而更精确地捕捉用户偏好和物品特征。具体来说:
LLM赋能的提取:FineRec利用大型语言模型从用户评论中提取出关键的属性-意见对,有效解决了非正式语言和隐含表达的挑战。- 属性特定图与多样性感知: 为每个属性构建了独特的用户-意见-物品图,并通过多样性感知卷积操作在这些图上聚合信息,从而实现了属性特定的用户和物品表示学习,并有效处理了意见多样性问题。
- 交互驱动融合: 提出了一种交互驱动融合机制,利用用户-物品交互信息指导属性特定嵌入的整合,最终生成推荐。
在四个真实世界数据集上进行的全面实验验证了
FineRec优于现有最先进方法的一致优越性。进一步的分析也证实了其细粒度方法在处理序列推荐任务中的有效性和效率。
7.2. 局限性与未来工作
论文指出的局限性与未来工作:
作者明确指出,FineRec 的细粒度方法为增强推荐任务的可解释性 (interpretability) 开启了新的途径。未来工作的一个诱人且有前景的方向是,提供根植于细粒度用户偏好和物品特征的解释 (explanations)。这种视角可以提供对推荐更细致和个性化的理解,显著提升用户体验。这意味着,未来的研究可以探索如何将 FineRec 学习到的细粒度属性-意见对直接用于生成可解释的推荐理由,例如“我们推荐这款产品,因为它在‘质量’方面评价很高,这与您之前对‘质量’的偏好相符。”
7.3. 个人启发与批判
个人启发:
LLM在推荐系统中的潜力: 这篇论文进一步印证了LLM在推荐系统中不仅仅是内容生成或召回的工具,更可以作为强大的“理解引擎”,用于结构化和细粒度地解析非结构化文本数据,从而提取出传统方法难以捕捉的深层用户意图。其在属性-意见提取上的应用非常具有启发性,尤其是在处理电商评论这种口语化、非正式的文本时。- 细粒度建模的必要性: 论文强调了从粗粒度向细粒度建模转变的巨大收益。用户偏好和物品特征并非单一维度,而是多属性、多方面的综合体现。通过将这些复杂性分解到属性-意见的层面,模型能够构建更精确、更具区别性的用户和物品画像。这种思想可以推广到其他推荐场景,例如,将用户在不同类别物品上的行为分开建模。
- 结合显式与隐式信息的有效性:
FineRec成功地结合了显式(评论中的属性-意见)和隐式(用户-物品交互)信息。属性-意见对提供了深层语义理解,而交互驱动融合机制则利用了大规模交互数据中的结构化关系来指导这些细粒度信息的整合。这种多源异构信息融合的策略是推荐系统发展的关键方向。 - 可解释性前景: 论文提出的未来工作方向——利用细粒度偏好生成可解释推荐,是一个非常有价值的探索。在推荐系统日益复杂的今天,用户往往对“为什么推荐给我这个”有疑问,细粒度属性-意见是提供此类解释的天然载体,有助于增强用户信任和满意度。
潜在问题、未经验证的假设或可以改进的地方:
LLM提取的成本和实时性: 尽管LLM提取属性-意见对的效果显著,但在大规模、高并发的实际推荐系统中,每次对新评论进行LLM提取的计算成本和时间延迟可能是一个挑战。论文提到执行5次提取以减轻随机性,这无疑会增加成本。如何优化LLM提取的效率和成本,或者探索更轻量级的、结合LLM知识蒸馏 (knowledge distillation) 的提取模型,可能是未来的研究方向。- 属性列表的预设依赖: 论文假设可以从电商网站获取重要的属性列表。这在某些领域可能可行,但在新兴领域或属性定义不明确的场景中,如何自动或半自动地识别关键属性可能是一个问题。此外,属性列表是固定的,如果用户关注的属性发生变化,模型可能需要重新调整。
- 意见的粒度与表示: 意见被提取为“意见词”,但意见可能包含更复杂的语义和情感。例如,“有点贵”和“非常贵”在情感强度上有所不同。当前的模型可能将其视为离散的意见词,未来可以探索更丰富的意见表示(例如,情感强度、极性等)。
- 冷启动问题: 对于评论稀疏或没有评论的新物品/新用户,
FineRec的性能可能受到限制,因为其很大程度上依赖于评论中的属性-意见对。如何与传统的冷启动解决方案结合,以平滑地过渡到细粒度建模,是一个实际问题。 - 交互驱动融合机制的复杂性: 融合机制中引入了多个权重矩阵 ,这增加了模型的参数量和复杂性。虽然
GNN风格的聚合具有理论基础,但其在捕获所有属性交互时的有效性和效率仍有待深入分析。 - 超参数 的选择: 论文发现 值在不同数据集上有所差异(8或16)。虽然找到了各自的最佳值,但这暗示了模型对该超参数的敏感性。能否设计一种自适应机制来动态确定最佳嵌入维度,而不是依赖手动调优,将提高模型的鲁棒性。
- 可解释性的具体实现: 论文将可解释性作为未来的工作。从细粒度偏好到生成自然语言解释的转化,本身就是一个复杂的
NLP任务,涉及到如何将模型学到的数值表示转化为人类可理解的语言,这需要进一步深入研究。
相似论文推荐
基于向量语义检索推荐的相关论文。