论文状态:已完成

LLM-REDIAL: A Large-Scale Dataset for Conversational Recommender Systems Created from User Behaviors with LLMs

发表:2024/08/01
原文链接PDF 下载
价格:0.100000
价格:0.100000
已有 1 人读过
本分析由 AI 生成,可能不完全准确,请以原文为准。

TL;DR 精炼摘要

LLM-REDIAL是针对对话式推荐系统(CRS)开发的大规模数据集,克服了现有数据集的不可扩展性和语义不一致性问题。利用大型语言模型(LLMs)生成高质量对话,并结合历史用户行为与精心设计的对话模板,该数据集包含47600个多轮对话,具有高度一致的对话语义。通过人工评估验证了其质量,也评估了基于LLM的模型的可用性。

摘要

The large-scale conversational recommendation dataset is pivotal for the development of conversational recommender systems (CRS). Most existing CRS datasets suffers from the problems of data inextensibility and semantic inconsistency. To tackle these limitations and establish a benchmark in the conversational recommendation scenario, in this paper, we introduce the LLM-REDIAL dataset to facilitate the research in CRS. LLM-REDIAL is constructed by leveraging large language models (LLMs) to generate the high-quality dialogues. To provide the LLMs with detailed guidance, we integrate historical user behavior data with dialogue templates that are carefully designed through the combination of multiple pre-defined goals. LLM-REDIAL has two main advantages. First, it is the largest multi-domain CRS dataset which consists of 47.6k multi-turn dialogues with 482.6k utterances across 4 domains. Second, dialogue semantics and the users’ historical interaction information is highly consistent. Human evaluation are conducted to verify the quality of LLM-REDIAL. In addition, we evaluate the usability of advanced LLM-based models on LLM-REDIAL.

思维导图

论文精读

中文精读

1. 论文基本信息

1.1. 标题

LLM-REDIAL: A Large-Scale Dataset for Conversational Recommender Systems Created from User Behaviors with LLMs (LLM-REDIAL: 一个利用大型语言模型基于用户行为创建的对话式推荐系统大规模数据集)

1.2. 作者

Tingting Liang, Chenxin Jin, Lingzhi Wang, Wenqi Fan, Congying Xia, Kai Chen, Yuyu Yin 等,来自杭州电子科技大学、香港中文大学和 Salesforce Research。

1.3. 发表期刊/会议

Published at (UTC):2024-07-31T16:00:00.000Z,此时间通常表示在某个会议的“Findings”或“Workshop”部分发表。鉴于其发表时间接近,很可能是在近期的人工智能或自然语言处理顶级会议(如 ACL, EMNLP, NAACL 等)的相关Findings或Workshop上发表。

1.4. 发表年份

2024年

1.5. 摘要

开发对话式推荐系统 (Conversational Recommender Systems, CRS) 需要大规模的对话式推荐数据集 (Conversational Recommendation Dataset)。然而,现有的大多数 CRS 数据集存在数据不可扩展性 (data inextensibility)语义不一致性 (semantic inconsistency) 的问题。为了解决这些限制并为对话式推荐场景建立基准,本文引入了 LLM-REDIAL 数据集,以促进 CRS 的研究。LLM-REDIAL 利用大型语言模型 (Large Language Models, LLMs) 生成高质量的对话。为了向 LLMs 提供详细指导,研究人员将历史用户行为数据与通过组合多个预定义目标精心设计的对话模板相结合。LLM-REDIAL 具有两个主要优势:第一,它是目前最大的多领域 CRS 数据集,包含 4 个领域中的 47.6k 多轮对话,共 482.6k 轮次;第二,对话语义与用户的历史交互信息高度一致。通过人工评估 (Human Evaluation) 验证了 LLM-REDIAL 的质量。此外,研究人员还在 LLM-REDIAL 上评估了先进的基于 LLM 的模型的可用性。

1.6. 原文链接

https://aclanthology.org/2024.findings-acl.529.pdf

2. 整体概括

2.1. 研究背景与动机

对话式推荐系统 (Conversational Recommender Systems, CRS) 是近年来在学术界和工业界广泛探索的前沿领域。与传统的推荐系统不同,CRS 通过自然语言对话与用户互动,提供个性化和上下文感知的推荐。现有 CRS 方法大多是数据驱动 (data-driven) 的,需要大量高质量的对话数据集进行模型训练。

然而,当前的 CRS 数据集存在以下两个主要限制:

  1. 数据不可扩展性 (Data Inextensibility):大多数现有数据集的构建需要大量人工标注 (human annotations),这严重限制了数据集的规模。例如,REDIAL (Li et al., 2018)、TGReDial (Zhou et al., 2020b)、DuRecDial (Liu et al., 2020) 等数据集虽然推动了 CRS 的发展,但其规模和质量(如通过众包或句子检索获得)仍不足以满足训练复杂 CRS 模型的需求。即使是 大型语言模型 (Large Language Models, LLMs) 在文本生成和数据标注方面表现出色,但在对话式推荐领域,大规模数据集仍然是瓶颈。

  2. 语义不一致性 (Semantic Inconsistency):随着 LLMs 的兴起,CRS 中的响应生成 (response generation) 任务变得不那么具有挑战性,研究重点逐渐转向推荐方面 (recommendation aspect)。对话内容与用户实际行为之间的一致性成为评估推荐质量的关键。然而,无论是众包工作者模拟的对话还是基于用户档案的半自动对话生成,都难以在对话内容和用户历史行为之间保持语义一致性。这是因为这些生成方法通常只指定对话的开始和推荐的最终目标或主题,未能充分利用用户的真实历史行为来呈现推荐过程。这导致难以彻底评估对话式推荐的有效性。

    为了解决这些限制并为对话式推荐场景建立一个高质量的基准,本文旨在构建一个大规模、多领域、语义一致且以用户为中心的对话式推荐数据集。

2.2. 核心贡献/主要发现

本文的核心贡献在于构建并发布了一个名为 LLM-REDIAL 的大规模、多领域、以用户为中心的对话式推荐数据集。

主要贡献点如下:

  • 大规模和多领域数据集LLM-REDIAL 是目前最大的多领域 CRS 数据集,包含 4 个领域(图书、电影、体育、电子产品)的 47.6k 多轮对话,共 482.6k 轮次,以及 124.2k 词元和 4.6M 的 4-gram 统计。相比现有数据集在规模上具有显著优势。
  • 高质量对话生成:数据集的构建利用 大型语言模型 (LLMs)(具体是 GPT-3.5-turbo)生成高质量的对话。为了提供详细指导,将用户的历史行为数据(包括正面和负面反馈以及评论信息)与通过组合多个预定义目标精心设计的对话模板相结合。
  • 语义一致性:通过将真实用户的历史交互信息(包括积极和消极反馈以及评论文本)融入对话模板,确保了对话语义与用户实际行为之间的高度一致性,从而更好地反映真实的推荐过程。
  • 以用户为中心 (User-Centric)LLM-REDIAL 是一个以用户为中心的数据集,每个对话的用户都可以被识别,并且与特定用户相关联的所有对话和历史交互都可以被定位,这有利于捕获用户偏好和行为特征。
  • 人工评估验证:通过对 LLM-REDIAL 和其他代表性 CRS 数据集进行人工评估 (Human Evaluation),验证了 LLM-REDIAL 在流畅性、信息量、逻辑性和连贯性方面的优越性。
  • LLM-based 模型评估:在 LLM-REDIAL 上评估了先进的基于 LLM 的模型(ChatGPT-basedVicuna-basedBaize-basedGuanaco-based),证明了数据集的可用性,并强调了在微调设置下结合用户历史交互信息对推荐性能的显著提升。

3. 预备知识与相关工作

3.1. 基础概念

  • 对话式推荐系统 (Conversational Recommender Systems, CRS):这是一种结合了推荐系统和对话系统功能的技术。它允许用户通过自然语言与系统进行交互,系统根据对话内容和用户反馈实时调整推荐。与传统推荐系统不同,CRS 不仅仅是单向地提供推荐,而是通过多轮对话来理解用户需求、澄清偏好、解释推荐理由,从而提供更个性化、上下文感知的推荐。
  • 大型语言模型 (Large Language Models, LLMs):指参数量巨大,通常在海量文本数据上进行预训练的深度学习模型,如 GPT-3GPT-4ChatGPTLLaMA 等。它们具有强大的文本生成、理解、总结和问答能力,可以用于各种自然语言处理任务。在本文中,LLMs 被用于生成高质量的对话文本。
  • 多轮对话 (Multi-turn Dialogues):指用户和系统之间持续多轮的交流,而不是单次问答。在 CRS 中,多轮对话是理解用户动态需求、细化推荐的关键。
  • 用户行为数据 (User Behavior Data):指用户在与系统或平台互动过程中产生的数据,包括购买记录、浏览历史、评分、评论、搜索查询等。这些数据对于理解用户偏好和进行个性化推荐至关重要。
  • 对话模板 (Dialogue Templates):预先设计好的对话结构或模式,其中包含一些可填充的槽位 (slots)。通过填充这些槽位,可以生成具有特定目的和流程的对话。在本文中,对话模板用于指导 LLMs 生成符合推荐流程的对话。
  • 提示工程 (Prompt Engineering):设计和优化输入给 LLM 的文本提示 (prompts) 的过程,以引导 LLM 产生期望的输出。良好的提示设计对于利用 LLM 的能力至关重要。
  • 召回率 (Recall@K):在推荐系统中,Recall@K 表示在推荐列表前 KK 个项目中,实际用户感兴趣的物品所占的比例。它衡量的是系统发现所有相关项目的能力。
    • 概念定义: Recall@K 衡量的是在推荐系统给出的前 KK 个推荐结果中,有多少是用户真正喜欢的物品。它的目标是尽可能多地召回用户可能感兴趣的物品。
    • 数学公式: Recall@K=RelevantItemsRecommendedItems@KRelevantItems \mathrm{Recall@K} = \frac{|\mathrm{RelevantItems} \cap \mathrm{RecommendedItems@K}|}{|\mathrm{RelevantItems}|}
    • 符号解释:
      • RelevantItems:用户实际感兴趣的物品集合。
      • RecommendedItems@K:推荐系统给出的前 KK 个推荐物品集合。
      • |\cdot|:集合的势(即元素数量)。
  • 归一化折扣累积增益 (Normalized Discounted Cumulative Gain, NDCG@K)NDCG@K 是一个衡量推荐列表质量的指标,它考虑了推荐物品的相关性以及它们在列表中的位置。排名靠前的相关物品会获得更高的权重。
    • 概念定义: NDCG@K 评估推荐列表的质量,不仅考虑了用户相关物品是否被推荐,还考虑了相关物品在列表中的位置。相关性更高的物品如果排在更靠前的位置,会获得更高的得分。
    • 数学公式: NDCG@K=DCG@KIDCG@K \mathrm{NDCG@K} = \frac{\mathrm{DCG@K}}{\mathrm{IDCG@K}} 其中,DCG@K (Discounted Cumulative Gain) 为: DCG@K=i=1K2reli1log2(i+1) \mathrm{DCG@K} = \sum_{i=1}^{K} \frac{2^{\mathrm{rel}_i} - 1}{\log_2(i+1)} IDCG@K (Ideal Discounted Cumulative Gain) 是理想情况下,按相关性从高到低排序的列表的 DCG@K 值: \mathrm{IDCG@K} = \sum_{i=1}^{|\mathrm{RelevantItems}|}^{K} \frac{2^{\mathrm{rel}_{i, \mathrm{ideal}}} - 1}{\log_2(i+1)}
    • 符号解释:
      • reli\mathrm{rel}_i:在推荐列表第 ii 个位置的物品的相关性得分。
      • reli,ideal\mathrm{rel}_{i, \mathrm{ideal}}:在理想推荐列表第 ii 个位置的物品的相关性得分(通常是按照真实相关性降序排列的)。
      • KK:推荐列表的长度。
      • log2(i+1)\log_2(i+1):折扣因子,表示位置 ii 上的物品的增益被 log2(i+1)\log_2(i+1) 折扣。

3.2. 前人工作

  • 现有 CRS 数据集
    • REDIAL (Li et al., 2018):一个用于电影推荐的对话数据集,包含超过 10,000 个对话。通过配对 Amazon Mechanical Turk (AMT) 工作者进行对话来收集。
    • TGReDial (Zhou et al., 2020b):一个主题引导的 CRS 数据集,通过基于主题线程的轮次检索和人工标注构建。
    • DuRecDial (Liu et al., 2020):一个面向人机推荐的多类型对话数据集,通过人工标注和预定义目标创建。
    • INSPIRED (Hayati et al., 2020):另一个电影推荐数据集,关注社交推荐策略。
    • OpenDialKG (Moon et al., 2019):利用知识图谱进行可解释对话推理的数据集,涉及电影和书籍领域。
  • CRS 模型
    • 早期的 CRS 研究主要集中在多轮对话推荐系统,如 Lei et al., 2020a 允许 CRS 提出多个问题或跨轮次推荐物品。
    • Lei et al., 2020b 利用知识图谱选择更相关的属性进行跨轮次查询。
    • Xu et al., 2021 动态调整用户嵌入以适应用户对属性和物品的反馈。
    • Deng et al., 2021Chu et al., 2023 将问题选择和推荐模块统一到基于强化学习 (Reinforcement Learning) 的 CRS 解决方案中。
  • LLM 在文本生成和标注方面的应用
    • Wang et al., 2021Ding et al., 2023 展示了 LLMs 在文本生成和数据标注方面的强大能力。

3.3. 技术演进

CRS 领域的技术演进经历了从传统基于规则和检索的方法,到结合深度学习模型进行语义理解和响应生成,再到近年来大型语言模型 (LLMs) 驱动的范式转变。早期数据集的构建通常依赖大量人工标注或众包,效率低且难以保证数据质量和一致性。随着 LLMs 的发展,其强大的文本生成能力为数据集构建提供了新的可能性。本文的工作正是利用 LLMs 的这一优势,结合精细的提示工程 (prompt engineering) 和真实用户行为数据,解决了现有数据集在规模、质量和语义一致性方面的痛点。

3.4. 差异化分析

本文提出的 LLM-REDIAL 数据集与现有 CRS 数据集的主要差异化在于:

  • 数据生成方式LLM-REDIAL 利用 LLMs 结合用户历史行为和精心设计的模板进行对话生成,而非依赖纯人工标注或简单的检索/模拟。这使得数据集在规模上远超现有数据集,同时保证了对话质量和语义一致性。

  • 规模和多样性:如 Table 1 所示,LLM-REDIAL 在对话数量、轮次、词元和 4-gram 数量上都远大于现有数据集,并且涵盖了 4 个不同领域,提供了更丰富的对话场景。

  • 语义一致性:通过将用户的历史交互信息(包括正面/负面反馈及评论文本)深度融入对话生成过程,LLM-REDIAL 确保了对话内容与用户真实偏好和行为的高度一致性,解决了传统数据集在这方面存在的“语义不一致性”问题。

  • 以用户为中心 (User-Centric)LLM-REDIAL 明确关联了每个对话的用户 ID,并能够追溯该用户的所有对话和历史交互。这使得研究者可以更好地分析用户偏好演变和多对话场景下的推荐,而大多数现有数据集是“以对话为中心”,缺乏这种用户层面的关联性。

  • 对话质量:通过人工评估 (Human Evaluation)LLM-REDIAL 在流畅性、信息量、逻辑性和连贯性方面均优于现有基准数据集,得益于 LLMs 强大的生成能力和精细的指导。

    以下是原文 Table 1 的结果:

    Datasets#Dialogues#Utterances#Tokens#4-GramsDomainsUser-Centric
    REDIAL10k182k4.5k58kMovieNo
    TG-REDIAL10k129k50k7.5kMovieNo
    DuRecDial10.2k156k17.6k461kMovie, music, food, etcNo
    INSPIRED1k35k11k182kMovieNo
    OpenDialKG15k91k22k547kMovie, bookNo
    LLM-REDIAL47.6k482.6k124.2k4.6MMovie, book, sport, etcYes

4. 方法论

4.1. 方法原理

LLM-REDIAL 的构建核心思想是利用大型语言模型 (LLMs) 的强大文本生成能力,结合真实的用户历史行为数据 (user historical behaviors) 和精心设计的对话模板 (dialogue templates),来生成大规模、高质量且语义一致的对话式推荐数据集。其原理在于通过将用户偏好、交互记录和评论信息结构化地注入到提示中,引导 LLMs 扮演推荐代理和用户的角色,生成符合真实推荐场景的多轮对话。这解决了传统数据集在规模扩展性和语义一致性上的痛点。

4.2. 核心方法详解

LLM-REDIAL 数据集的构建主要包括三个顺序阶段:数据预处理 (Data Preprocessing)模板构建 (Template Construction)对话生成 (Dialogue Generation)

4.2.1. 数据预处理

为了尽可能接近真实的对话式推荐场景,数据集基于亚马逊评论 (Amazon Reviews) 数据集 (He and McAuley, 2016) 构建。评论数据包含用户的评分信息,这些评分用于识别用户偏好,并与评论文本结合生成对话。 数据预处理的步骤如下:

  1. 分词和非词元移除:首先对评论文本进行分词 (tokenize),并移除其中的非词元 (non-word tokens)
  2. 评论文本过滤:为了确保评论内容的可用性并避免过长文本可能导致语义不准确,过滤掉词数不在 20 到 400 之间的评论记录。
  3. 用户和物品交互限制:为确保每个用户的交互数量足以支持生成代表推荐过程的对话,移除了交互次数少于 10 次的用户和物品。
  4. 正负反馈识别:为了在对话中体现用户接受和拒绝推荐的情况,将评分等于或高于 4 的交互识别为正反馈 (positive feedbacks),评分等于或低于 2 的交互识别为负反馈 (negative ones)
  5. 历史交互集合构建:将正负反馈分别按时间顺序排序,形成两个集合:LIKES (用户喜欢) 和 DISLIKES (用户不喜欢)。
  6. 待推荐物品集合 (MIGHT_LIKES):将每个用户最后 10% 的正反馈交互移到一个新的集合 MIGHT_LIKES 中,这些物品将被选作对话中最终的黄金推荐 (golden recommendation) 物品。

4.2.2. 模板构建

此阶段旨在为 LLMs 提供更具指导性的输入,以生成流畅自然的对话。

  1. 目标设计 (Goal Design)

    • 参考国际标准 ISO2446172ISO 244617-2 中的交流功能,设计了 8 种主要目标 (primary goals) 用于轮次,例如 Greeting (问候), Ask (询问), Respond (回应), Recommend (推荐), Feedback (反馈), Chit-Chat (闲聊), Talk (引导), Reason (理由)。
    • 在每个主要目标下,进一步设计了详细的子目标 (sub-goals),总共 30 个。子目标分为两种类型:
      • 固定指令 (fixed instruction):指示更具体的方面(例如,“Ask for recommendation”)。

      • 灵活指令 (flexible instruction):由固定指令和需要填充的槽位 (slot) 组成,例如 “Recommend [USER_HIS_LIKES]”,其中 [USER_HIS_LIKES] 将从用户历史正反馈 (LIKES) 集合中随机抽取物品进行填充。

        以下是原文 Table 2 的结果:

        Primary GoalSub-GoalDescription
        GreetingGreeting with[USER_HIS_DISLIKES] and[USER_HIS_DISLIKES_REVIEW]The user starts the conversation with the user's likes item
        AskAsk for recommendationThe user seeks for recommendations
        RespondResponds with [Other_Review]The system uses other people's reviews to reply
        RecommendRecommend [USER_HIS_LIKES]The system recommends items that will not be accepted but the user likes
        FeedbackReject recommendation with reasonThe user rejects recommendation for some reason
        Chit-ChatChit-ChatMake a transition between the beginning and the end of a conversation
        TalkLead the converstaion to recommendThe system directs the conversation to the recommended task
        ReasonHave seen the movie beforeOne of the reasons users reject recommendations
  2. 模板构建

    • 为了增加对话的多样性,根据推荐发生的频率(限制为 1-3 次)设置了不同的模板。
    • 对于推荐发生 2 或 3 次的情况,除了最终被接受的推荐外,所有先前的推荐都假定被拒绝。
    • 对话长度的范围也进行了限制,使其与大多数现有 CRS 数据集的对话长度(约 6-16 轮)保持一致。推荐次数越多,对话长度相应延长。
    • 通过人工精心设计了目标的组合,最终得到了 168 个对话模板。

4.2.3. 对话生成

此阶段是利用 LLMs 生成对话的核心部分。

  1. 使用 LLMs 生成 (Generation with LLMs)

    • 提示构建:喂给 LLMs 的提示 (prompt) 由两部分组成:

      • 预定义静态提示 (pre-defined static prompt):提供任务描述和要求,使用简单的自然语言语句(如 Figure 3 (b) 所示)。为了加强对话内容与物品信息之间的联系,引入了真实用户历史交互的评论,但避免逐字复制。为保证句子质量和避免冗长,限制每句话的长度为 60 字。
      • 具体化模板 (concretized template):通过将用户信息填充到对话模板的槽位中来实现。具体来说,对于每个对话的生成,用户数据是通过从指定用户的历史行为中采样 (sampling) 交互和评论文本获得的(如 Figure 3 (c) 所示的 JSON 结构)。
    • LLM 模型:为了便于复现,采用 GPT-3.5-turbo(静态版本 GPT-3.5-turbo-16k)来生成对话。

    • 生成过程:将静态提示和具体化模板拼接成完整的提示,然后输入给 GPT-3.5-turbo。生成的对话(如 Figure 3 (d) 所示)能够流畅地遵循设计的对话模板,并反映出请求推荐、提供推荐、接受推荐等关键步骤。LLMs 强大的生成能力使得生成的句子能够无缝融入评论文本中的物品信息,并以自然连贯的方式表达。

      下图(原文 Figure 2)展示了 LLM-REDIAL 数据集构建框架的概览,包括数据预处理、模板构建和对话生成。

      该图像是一个示意图,展示了 LLM-REDIAL 数据集的构建流程,包括数据预处理、模板构建和对话生成三个主要部分。图中说明了数据过滤、分组、模板设计的不同目标以及与大语言模型的对接。通过设计问候、推荐等环节,生成高质量对话,实现用户行为与对话内容的一致性。 该图像是一个示意图,展示了 LLM-REDIAL 数据集的构建流程,包括数据预处理、模板构建和对话生成三个主要部分。图中说明了数据过滤、分组、模板设计的不同目标以及与大语言模型的对接。通过设计问候、推荐等环节,生成高质量对话,实现用户行为与对话内容的一致性。

    下图(原文 Figure 3)展示了 LLMs 对话生成的输入(模板和提示)和输出(对话)。

    Figure 3: The inputs (Template and Prompt) and outputs (Dialogue) of LLMs for the dialogue generation. 该图像是示意图,展示了对话生成过程中的输入(对话模板和静态提示)与输出(生成的对话)的关系。图中包含了用户信息、代理响应及对话示例,体现了如何利用大型语言模型生成高质量对话。

  2. 对话过滤 (Dialogue Filtering): 由于 LLMs 的随机性和长评论文本可能造成的混淆,直接生成的对话可能包含无效或嘈杂的案例。为解决此问题,设计了以下自动数据过滤过程来筛选高质量的多轮对话:

    • 移除未完全生成的对话。

    • 忽略并丢弃包含乱码或不可读字符的对话。

    • 移除包含模板信息(即槽位未成功填充用户信息)的对话。

    • 丢弃与相关对话模板长度不一致的对话。

      通过上述步骤,确保了最终生成的大规模 CRS 对话数据集的高质量和可用性。

5. 实验设置

5.1. 数据集

LLM-REDIAL 数据集基于亚马逊评论数据集构建,涵盖了 4 个不同的领域:Books (图书), Movies (电影), Sports (体育) 和 Electronics (电子产品)。

  • 规模:总共包含 47,651 个对话和 482,684 个轮次。

  • 用户与物品:涉及 22,151 个独立用户和 177,269 个独立物品。

  • 用户中心:每个对话都与一个特定的用户相关联,并且可以找到该用户的所有相关对话和历史交互。平均每个用户有 2.15 个对话。

  • 对话长度:平均每个对话包含 10.13 个轮次,这与设计时对对话长度的限制(6-16 轮)相符。

  • 领域差异BooksMovies 领域的用户平均对话数高于 SportsElectronics,这可能与图书和电影购买的历史互动序列更长有关。

    以下是原文 Table 3 的结果:

    BooksMoviesSportsElectronicsTotal
    #Dialogues25,08010,0936,2186,26047,651
    #Utterances259,850106,15158,28958,394482,684
    #Tokens79,54040,28535,13731,331124,269
    #4-Grams2,385,2041,100,472757,201679,2574,679,146
    # Users9,8933,1335,1284,46922,151
    # Items112,91311,58934,73318,034177,269
    Avg. #Dialogues per User2.543.221.211.402.15
    Avg. #Utterances per Dialogue10.3610.529.379.3310.13

为了更直观地理解数据形态,以下是原文 Figure 1 中展示的用户配置文件(包括由 LLM 生成的对话)示例:

User ID: A1EXXXXXDUE6B0Historical Interactions: ["Robin Williams: Live On Broadway", "MissionImpossible on VHS", "Solaris", "Elysium", "Wall Street", "Mystic River", .]
Conversation 1:
[User] Hi, I recently watched Mission Impossible on VHS and it was afantastic high-tech spy movie! Tom Cruise gave ...[Agent] That's great to hear! I have a movie recommendation for you basedon your likes. How about checking out World WarZ?[User] Oh, I'm definitely interested. Can you tell me more about the movie?[Agent] Certainly! World War Z is a good zombie war flick...
Conversation 2:
[User] Hi, I recently watched the movie "Solaris" and I have to say, Ididn't enjoy it at all. It felt overly melodramatic and lacked substance..[Agent] I understand why you didn't like "Solaris". I can recommend amovie you might enjoy instead. How about "Elysium"? It's a bilingualfilm that...[User] Oh, I've actually already watched "Elysium" and it was better than Iexpected, but still not great...[Agent] How about giving "Wrecking Crew" a try? It's another movie youmight like based on yourprevious preferences...[User] Sure, that sounds interesting...

5.2. 评估指标

5.2.1. 人工评估指标

人工评估 (Human Evaluation) 阶段,评估人员根据以下四个方面对对话质量进行打分(0-2分制):

  1. 流畅性 (Fluency):
    • 概念定义: 评估响应的语法是否规范、用词是否恰当、表达是否自然易懂,以及是否存在明显的语法错误、拼写错误或不连贯的表达。
    • 数学公式: 无直接数学公式,通过人工打分量化。
    • 符号解释: 无。
    • 评分标准: 0(差):严重语法错误、拼写错误、词汇问题,难以理解;1(一般):存在一些错误,但大致可理解;2(好):流畅,无明显错误,表达清晰易懂。
  2. 信息量 (Informativeness):
    • 概念定义: 评估响应是否提供了有意义、有深度的信息,而非“安全响应”(即泛泛而谈、无具体内容的回复)或重复信息。
    • 数学公式: 无直接数学公式,通过人工打分量化。
    • 符号解释: 无。
    • 评分标准: 0(差):缺乏信息,属于“安全响应”或重复回答;1(一般):提供一些信息,但缺乏细节或深度;2(好):提供丰富、详细、深入的信息,回答问题并提供额外相关内容。
  3. 逻辑性 (Logicality):
    • 概念定义: 评估响应是否符合常识推理,是否与对话上下文逻辑一致,没有自相矛盾之处,以及响应或建议是否合理。
    • 数学公式: 无直接数学公式,通过人工打分量化。
    • 符号解释: 无。
    • 评分标准: 0(差):存在严重逻辑错误,响应或建议与上下文无关,或自相矛盾;1(一般):存在一些逻辑问题,响应或建议不够充分或合理;2(好):逻辑连贯,响应或建议与用户查询上下文逻辑相关且合理。
  4. 连贯性 (Coherence):
    • 概念定义: 评估响应与前文上下文的衔接是否自然顺畅,对话流程是否连贯,以及各部分之间是否存在清晰的逻辑关联。
    • 数学公式: 无直接数学公式,通过人工打分量化。
    • 符号解释: 无。
    • 评分标准: 0(差):高度不连贯,缺乏清晰上下文连接,各部分之间无逻辑关联;1(一般):中度连贯,存在一些连贯性,但偶尔有中断或逻辑连接不足;2(好):高度连贯,响应或建议之间逻辑连接清晰,上下文过渡流畅。

5.2.2. 推荐任务评估指标

对话式推荐 (Conversational Recommendation) 任务的评估中,使用了以下标准指标:

  1. 召回率 (Recall@K)
    • 概念定义: Recall@K 衡量的是在推荐系统给出的前 KK 个推荐结果中,有多少是用户真正喜欢的物品。它的目标是尽可能多地召回用户可能感兴趣的物品。
    • 数学公式: Recall@K=RelevantItemsRecommendedItems@KRelevantItems \mathrm{Recall@K} = \frac{|\mathrm{RelevantItems} \cap \mathrm{RecommendedItems@K}|}{|\mathrm{RelevantItems}|}
    • 符号解释:
      • RelevantItems:用户实际感兴趣的物品集合。
      • RecommendedItems@K:推荐系统给出的前 KK 个推荐物品集合。
      • |\cdot|:集合的势(即元素数量)。
  2. 归一化折扣累积增益 (Normalized Discounted Cumulative Gain, NDCG@K)
    • 概念定义: NDCG@K 评估推荐列表的质量,不仅考虑了用户相关物品是否被推荐,还考虑了相关物品在列表中的位置。相关性更高的物品如果排在更靠前的位置,会获得更高的得分。
    • 数学公式: NDCG@K=DCG@KIDCG@K \mathrm{NDCG@K} = \frac{\mathrm{DCG@K}}{\mathrm{IDCG@K}} 其中,DCG@K (Discounted Cumulative Gain) 为: DCG@K=i=1K2reli1log2(i+1) \mathrm{DCG@K} = \sum_{i=1}^{K} \frac{2^{\mathrm{rel}_i} - 1}{\log_2(i+1)} IDCG@K (Ideal Discounted Cumulative Gain) 是理想情况下,按相关性从高到低排序的列表的 DCG@K 值: \mathrm{IDCG@K} = \sum_{i=1}^{|\mathrm{RelevantItems}|}^{K} \frac{2^{\mathrm{rel}_{i, \mathrm{ideal}}} - 1}{\log_2(i+1)}
    • 符号解释:
      • reli\mathrm{rel}_i:在推荐列表第 ii 个位置的物品的相关性得分。

      • reli,ideal\mathrm{rel}_{i, \mathrm{ideal}}:在理想推荐列表第 ii 个位置的物品的相关性得分(通常是按照真实相关性降序排列的)。

      • KK:推荐列表的长度。

      • log2(i+1)\log_2(i+1):折扣因子,表示位置 ii 上的物品的增益被 log2(i+1)\log_2(i+1) 折扣。

        实验中 KK 的取值设置为 5, 10, 50。

5.3. 对比基线

为了验证 LLM-REDIAL 数据集的可用性,选择了以下基于 LLM 的模型作为基线进行比较:

  • ChatGPT-based model:使用 OpenAIGPT-3.5-turbo 作为推荐器。

  • Vicuna-based model:使用基于 LLaMA-13B (Touvron et al., 2023) 微调的代表性开源 LLM Vicuna-7B (Chiang et al., 2023) 作为推荐器。

  • Baize-based model:使用基于 LLaMA-13B 微调的代表性开源 LLM Baize-v2-7B (Xu et al., 2023) 作为推荐器。

  • Guanaco-based model:使用基于 LLaMA-13B 微调的代表性开源 LLM Guanaco-7B (Dettmers et al., 2023) 作为推荐器。

    所有模型的解码温度 (decoding temperature) 均设为 0。

实验设置

  • 零样本 (Zero-shot)少样本 (Few-shot)微调 (Fine-tuning) 三种设置。
  • ChatGPT-based model:随机选择 200 个对话进行测试。在少样本 (Few-shot) 设置中提供 5 个案例作为示例。在微调 (Fine-tuning) 设置中使用 200 个训练样本进行微调。
  • 其他三个模型 (Vicuna, Baize, Guanaco):随机选择 1,500 个对话进行测试。在少样本 (Few-shot) 设置中提供 5 个案例作为示例。在微调 (Fine-tuning) 设置中使用剩余的 8,593 个训练样本进行微调。
  • 输入形式
    • Dial. Only:仅将对话文本作为 LLMs 的输入来生成结果。
    • Dial. + H. I:同时考虑对话文本和用户历史交互作为输入。
  • 推荐列表生成:由于基于 LLM 的模型通过生成式检索提供推荐,研究人员遵循 He et al., 2023 的方法,应用模糊匹配 (fuzzy matching) 将生成的文本推荐列表转换为物品排名列表。
  • 提示模板:实验中使用的提示模板在论文的附录 D.2 中详细给出。

6. 实验结果与分析

6.1. 核心结果分析

6.1.1. 人工评估结果

  • 轮次级别评估 (Utterance-Level Evaluation)

    • LLM-REDIAL 和其他三个对比数据集 (REDIAL, INSPIRED, OpenDialKG) 中随机抽取对话进行评估。

    • 评估指标包括流畅性 (Fluency)信息量 (Informativeness)逻辑性 (Logicality)连贯性 (Coherence)

    • 通过计算 Kendall's W 系数,验证了七名人工标注者评分的一致性。

    • 结果显示,LLM-REDIAL 在所有四个指标上均取得了高于对比数据集的评分。这得益于 LLMs 强大的生成能力,使得 LLM-REDIAL 的对话具有极高的流畅性、逻辑性和连贯性。

    • LLM-REDIAL信息量 (Informativeness) 上的优势尤为显著,这主要归因于在生成过程中融入了用户的历史交互和评论信息,使得对话内容更深入、详细。

      以下是原文 Table 4 的结果:

      Fluency(0-2)Informative(0-2)Logical(0-2)Coherence(0-2)
      LLM-REDIAL1.981.281.901.88
      REDIAL1.831.181.761.77
      INSPIRED1.861.011.831.79
      OpenDialKG1.951.031.841.78
  • 对话级别评估 (Conversation-Level Evaluation)

    • 通过直接配对比较 (direct pair comparisons) 的方式进行,标注者需要判断两段对话(一段来自 LLM-REDIAL,一段来自对比数据集)中哪一段质量更高。

    • 结果图(原文 Figure 4)显示,在所有三个对比组中,LLM-REDIAL 被认为具有更高质量的对话比例均超过 88%。

    • 一个有趣的发现是,尽管 OpenDialKG 在轮次级别评估中表现不错,但在对话级别评估中,大多数标注者认为其整体质量不如 LLM-REDIAL,这主要是因为 OpenDialKG 中的一些对话可能结束得过于突然,或者缺乏推荐。

      下图(原文 Figure 4)展示了对话级别的人工评估结果。

      Figure 4: Conversation-level human evaluation on the LLM-REDIAL dataset. 该图像是一个图表,展示了LLM-REDIAL与其他数据集在会话级人类评估中的比较。红色条形代表LLM-REDIAL表现更好的对比结果,而绿色条形则表示LLM-REDIAL表现较差的对比结果,显示出LLM-REDIAL在多个数据集中的优势。

6.1.2. 对话式推荐任务评估结果

  • 零样本和少样本设置下的性能
    • 所有基线模型在零样本 (zero-shot)少样本 (few-shot) 设置下在 LLM-REDIAL 上的表现均较差,表明预训练的 LLMs 无法直接用于对话式推荐任务而无需微调。
    • 少样本 (few-shot) 设置下,性能有轻微提升,但仍不显著。
  • 微调设置下的性能
    • 所有模型在经过训练数据微调 (fine-tuning) 后,性能均获得了显著提升。
    • 模型的性能排名与它们在 AlpacaEval 排行榜上的排名一致,这表明 LLM-REDIAL 数据集能够有效区分不同模型的能力。
  • 历史交互信息的影响
    • 将用户历史交互信息 (Dial. + H. I) 纳入输入后,所有模型的推荐性能均得到有效提升,尤其是在微调 (fine-tuning) 设置下提升最为显著。

    • 这强调了在 CRS 场景中用户历史交互记录的关键作用。大多数现有 CRS 数据集主要关注对话文本,缺乏与特定用户关联的历史交互信息,使得难以充分利用这些信息。

      以下是原文 Table 5 的结果:

      MethodsR@5REDIALLLM-REDIAL
      R@10R@50N@5N@10N@50 R@5R 10R@50N@5N@10N@50
      ChatGPT-based
      Zero-ShotDial. Only0.01000.01000.01500.00720.00710.00850.00000.00000.04000.00000.00000.0086
      Dial. + H. I/0.00000.00500.03500.00000.00150.0077
      Few-ShotDial. Only Dial. + H. I0.01000.01500.02000.01000.01150.01300.00000.00000.03500.00000.00000.0075
      0.20000.2600I 0.44000.19530.20210.0000 0.26250.00000.04000.00000.00000.0087
      Fine-TuningDial. Only Dial. + H. I/0.17570.3150 0.46000.5175 0.51000.17160.17680.2353
      Vicuna-based0.45000.42700.42950.4265
      Zero-ShotDial. Only0.00050.00070.00130.00010.00030.00040.00100.00130.00270.00070.00060.0010
      Dial. + H. II0.00330.00800.05070.00250.00340.0128
      Few-ShotDial. Only0.00040.00070.00530.00050.00070.00160.00000.00270.01000.00000.00090.0026
      Dial. + H. II0.00800.01330.05530.00730.00890.0172
      Fine-TuningDial. Only0.19450.30180.49930.13970.16420.20800.28690.33250.60900.26240.26840.2988
      Dial. + H. I/0.32600.39800.69400.25690.26550.3108
      Baize-based
      Dial. Only 0.00050.00070.00200.00020.00030.00060.00170.00310.01190.00120.00160.0034
      Zero-ShotDial. + H. I/0.00210.00390.01090.00270.00370.0041
      Dial. Only0.00070.00080.00330.00030.00040.00080.00390.00690.01350.00290.00370.0052
      Few-Shot Fine-TuningDial. + H. I/0.00950.01350.01950.00740.00840.0094
      Dial. Only0.21030.31040.42600.12950.14060.18090.21730.32270.48670.16000.16650.1873
      Dial. + H. II0.33270.45800.55130.17690.19200.2087
      Guanaco-based0.0011
      Zero-ShotDial. Only0.00060.00070.00400.0002 I0.00030.0008 0.00260.0013 0.00440.0099 0.00960.00060.00080.0026
      Dial. + H. I0.00070.00070.00200.00030.00030.00060.00280.00480.00190.00240.0034
      Few-ShotDial. OnlyI0.00930.01330.0100 0.02130.0019 0.00710.00250.0036
      Dial. + H. I0.20280.23670.31330.11950.12670.16080.18670.25670.41400.00810.0097
      Fine-TuningDial. Only Dial. + H. II0.19930.28270.45330.1430 0.16800.1536 0.17510.1833 0.1922

6.1.3. 案例分析

通过一个具体的案例(原文 Figure 6),研究人员探讨了不同设置下基于 LLM 的推荐响应生成效果。

  • 零样本 (zero-shot)少样本 (few-shot) 设置中,ChatGPT-based 模型生成的响应虽然连贯自然,但推荐性能相对较差。这表明 LLMs 在响应生成 (response generation) 方面表现出色,但推荐任务 (recommendation task) 仍有很大的提升空间。
  • 经过微调 (fine-tuning) 后,模型更有可能在生成的响应中给出符合用户需求的推荐。这进一步验证了微调和用户历史交互信息对提升推荐准确性的重要性。

7. 总结与思考

7.1. 结论总结

本文提出了 LLM-REDIAL,一个大规模、多领域、以用户为中心的对话式推荐数据集。该数据集通过利用大型语言模型 (LLMs) 的生成能力,并结合真实的用户历史行为 (user historical behaviors) 和精心设计的对话模板 (dialogue templates) 来构建。LLM-REDIAL 显著地解决了现有对话式推荐数据集在数据不可扩展性 (data inextensibility)语义不一致性 (semantic inconsistency) 方面的局限。

主要贡献体现在:

  • 规模领先:它是目前最大的多领域 CRS 数据集,包含 47.6k 多轮对话,覆盖 4 个不同领域。

  • 高质量与一致性:通过将用户历史交互信息(包括正面/负面评论)融入对话生成过程,确保了对话语义与用户实际行为的高度一致性,并获得了出色的人工评估结果。

  • 用户中心设计:每个对话都可追溯到特定用户及其完整的历史交互,为研究用户偏好演变和多会话推荐提供了宝贵资源。

  • 实用性验证:在 LLM-REDIAL 上对基于 LLM 的模型进行评估,验证了其可用性,并突显了在微调设置下结合用户历史交互信息对提升推荐性能的关键作用。

    LLM-REDIAL 为对话式推荐系统的研究提供了丰富的资源,有望推动基于 LLMs 的 CRS 方法的进一步发展。

7.2. 局限性与未来工作

作者指出了 LLM-REDIAL 存在的以下局限性:

  • 提示设计敏感性:生成对话的质量(包括内容、流畅性和相关性)在很大程度上受限于提示 (prompts) 的设计。虽然现有研究在提示调优 (prompt tuning) 方面有所进展,但本文主要关注数据集生成,尚未探索最优的对话生成提示。未来可以研究如何优化提示以进一步提升对话质量。
  • 模板构建的人工依赖:目前的目标设计 (goal design)模板构建 (template construction) 过程高度依赖人工,这限制了数据集构建的效率和灵活性。未来的研究方向可以探索如何减少人工干预,实现更自动化和灵活的模板构建过程。
  • 数据源的偏见:数据集基于亚马逊评论 (Amazon Reviews) 数据集构建,而亚马逊评论数据本身可能存在用户评分偏见 (user rating bias)(不同用户有不同评分标准)和评论偏见 (review bias)(评论内容可能夸大或贬低)。这些偏见可能导致生成的对话也存在偏见。检测和纠正 LLM 生成数据中的偏见是一项非平凡的任务。未来需要更精细复杂的过程来校正用户评分和评论偏见,以生成更公正的对话。

7.3. 个人启发与批判

7.3.1. 个人启发

  1. LLMs 在数据生成中的巨大潜力:本文生动地展示了 LLMs 不仅仅是文本生成工具,更是大规模、高质量、场景特定数据集生成的核心引擎。对于那些依赖于大量标注数据但人工标注成本高昂的领域(如对话系统、特定领域的问答),这种基于 LLM 和模板/用户行为结合的数据生成范式具有极大的推广价值。
  2. 用户行为数据的重要性再确认:尽管 LLMs 拥有强大的语言理解和生成能力,但实验结果明确指出,缺乏用户历史交互信息的推荐性能仍然不佳。这再次强调了在推荐系统中,深入理解用户偏好(通过历史行为)是不可替代的。未来的研究应继续探索如何更有效地将用户行为(显性/隐性反馈)融入到基于 LLM 的推荐模型中,而不仅仅是作为生成对话的辅助信息。
  3. 高质量数据集是基石:本文的成功在于认识到高质量数据集是 CRS 发展的瓶颈,并通过系统性的方法解决了这一问题。这启发我们,在追逐新模型、新算法的同时,不应忽视数据质量和规模的基础性作用。一个设计良好、贴近真实场景的数据集,本身就是一项重要的研究贡献。
  4. Prompt Engineering 的艺术与科学:精心设计的对话模板 (dialogue templates)提示 (prompts) 是本文成功的关键。这凸显了提示工程 (prompt engineering) 在利用 LLMs 解决特定任务时的核心地位。它不仅仅是“写几个字”,而是一个结合领域知识、任务目标和 LLM 能力的系统性工程。

7.3.2. 批判

  1. 潜在的 LLM 幻觉和偏见传递:虽然 LLMs 能够生成高质量文本,但它们仍可能产生幻觉 (hallucinations) 或无意中引入训练数据中的偏见。如果亚马逊评论数据本身存在偏见(如作者提及的用户评分偏见和评论偏见),LLM 在生成对话时可能会继承甚至放大这些偏见。虽然作者在局限性中提及了这一点,但如何量化和减轻这些潜在的幻觉和偏见,是数据集使用者需要警惕和进一步研究的问题。
  2. “真实性”的定义:数据集的对话是基于真实用户行为生成的,但对话本身是模拟的。尽管人工评估验证了其质量,但模拟对话与真实人机交互之间可能仍存在细微差异。例如,真实用户在对话中可能表现出更多的犹豫、情绪变化、或者非线性思维。这种模拟的“真实性”是否能完全代表所有真实场景,可能需要进一步的 A/B 测试或真实用户研究来验证。
  3. 成本问题:尽管作者提到了 GPT-3.5-turbo 的费用 (~$750) 相对可控,但对于小团队或个人研究者来说,生成如此大规模的数据集依然是一笔不小的开销。如果未来需要更高质量或更大规模的数据集,使用更强大的 LLMs(如 GPT-4)将显著增加成本。如何平衡质量、规模和生成成本,是这种方法推广时需要考虑的实际问题。
  4. 模型推荐能力的上限:论文在 LLM-REDIAL 上评估了 LLM-based 模型的推荐性能,并指出微调和历史交互的重要性。然而,这些推荐性能(例如 Recall@50 的最高值约为 0.6940)是否已达到令人满意的水平,以及与传统推荐算法(非 LLM-based)的性能差距如何,没有直接的对比。这将是未来研究的有趣方向:LLMs 究竟能将推荐系统的性能推向多高,以及在哪些场景下它们最具优势。

相似论文推荐

基于向量语义检索推荐的相关论文。

暂时没有找到相似论文。