AiPaper
论文状态:已完成

CRS-Que: A User-centric Evaluation Framework for Conversational Recommender Systems

发表:2023/11/02
原文链接
价格:0.10
已有 1 人读过
本分析由 AI 生成,可能不完全准确,请以原文为准。

TL;DR 精炼摘要

本文提出了CRS-Que,一个用户中心的对话推荐系统评估框架,旨在评估CRS的用户体验。该框架基于现有评估工具ResQue,融合了对话的理解、响应质量和人性化等用户体验指标。通过在不同场景中验证,其有效性和可靠性得到了支持,并揭示了推荐和对话构造的相互影响。

摘要

An increasing number of recommendation systems try to enhance the overall user experience by incorporating conversational interaction. However, evaluating conversational recommender systems (CRSs) from the user’s perspective remains elusive. This article presents our proposed unifying framework, CRS-Que, to evaluate the user experience of CRSs. This new evaluation framework is developed based on ResQue, a popular user-centric evaluation framework for recommender systems. Additionally, it includes user experience metrics of conversation (e.g., understanding, response quality, humanness) under two dimensions of ResQue (i.e., Perceived Qualities and User Beliefs). Following the psychometric modeling method, we validate our framework by evaluating two conversational recommender systems in different scenarios: music exploration and mobile phone purchase. The results of the two studies support the validity and reliability of the constructs in our framework and reveal how conversation constructs and recommendation constructs interact and influence the overall user experience of the CRS.

思维导图

论文精读

中文精读

1. 论文基本信息

1.1. 标题

CRS-Que: A User-centric Evaluation Framework for Conversational Recommender Systems (CRS-Que:一个对话推荐系统以用户为中心的评估框架)

1.2. 作者

  • YUCHENG JIN (金玉成)

  • LI CHEN (陈力)

  • WANLING CAI (蔡婉玲)

  • XIANGLIN ZHAO (赵湘林)

    均来自香港浸会大学 (Hong Kong Baptist University, China)。

1.3. 发表期刊/会议

ACM Trans. Recomm. Syst. (ACM Transactions on Recommender Systems)

该期刊是计算机领域,特别是推荐系统方向的顶级期刊之一,发表的文章通常具有较高的学术质量和影响力。

1.4. 发表年份

2024年3月 (March 2024)

1.5. 摘要

越来越多的推荐系统通过整合对话交互来增强整体用户体验 (user experience, UX)。然而,从用户角度评估对话推荐系统 (Conversational Recommender Systems, CRSs) 仍然难以捉摸。图形用户界面 (Graphical User Interface, GUI) 的系统评估标准可能不适用于对话场景,或者需要其对话对应的标准。本文提出了一个统一的框架 CRS-Que,用于评估 CRSs 的用户体验。这个新的评估框架基于流行的、以用户为中心的推荐系统评估框架 ResQue 发展而来。此外,它在 ResQue 的两个维度(即感知质量 Perceived Qualities 和用户信念 User Beliefs)下,包含了对话的用户体验指标(例如,理解 understanding、响应质量 response quality、人性化 humanness)。遵循心理测量建模方法 (psychometric modeling method),作者通过评估在不同场景(音乐探索和手机购买)下的两个对话推荐系统来验证该框架。两项研究的结果支持了框架中构念 (constructs) 的有效性和可靠性,并揭示了对话构念和推荐构念如何相互作用并影响 CRS 的整体用户体验。

1.6. 原文链接

/files/papers/691ee0472c2d75f725911eb5/paper.pdf

发布状态:已正式发表,DOI 为 10.1145/363153410.1145/3631534

2. 整体概括

2.1. 研究背景与动机

2.1.1. 核心问题与挑战

传统推荐系统 (Recommender Systems, RS) 通常是“一击即得”的交互模式,用户通过点击、评分等方式表达偏好,系统据此给出推荐结果。这种模式在用户偏好不明确、需要探索或获取解释时显得力不从心。为了增强用户体验,越来越多的推荐系统开始融入对话交互 (conversational interaction),形成了对话推荐系统 (Conversational Recommender Systems, CRSs)

然而,CRSs 的出现带来了一个新的挑战:如何从用户的角度有效评估 CRSs 的用户体验? 现有问题包括:

  • 评估标准不足: 传统的 GUI 推荐系统评估框架主要关注推荐本身(如准确性),但忽略了对话体验。
  • 对话评估零散: 针对对话代理 (Conversational Agents, CA) 的评估指标虽然存在(如理解度、响应质量),但它们通常是独立的,未与推荐系统的评估框架整合。
  • 缺乏标准化框架: 研究人员通常根据自身需求定制和组合现有评估问题,导致缺乏统一和标准化的评估方法,难以对不同 CRS 研究进行比较。

2.1.2. 为什么这个问题很重要

用户体验是 CRS 成功的关键。CRS 的核心目标是通过更自然的交互方式(如自然语言)来:

  • 更有效地启发用户偏好 (elicit user preferences)

  • 为推荐提供解释 (explanation)

  • 收集用户反馈 (feedback)

  • 促进用户探索 (exploration)批判性评估 (critiquing)

    如果用户在使用 CRS 时感到系统不理解他们、响应质量差、或者推荐不够个性化,那么即使推荐算法再先进,整体的用户体验也会大打折扣。因此,一个全面、用户中心的评估框架对于指导 CRS 的设计、开发和改进至关重要。

2.1.3. 本文的切入点与创新思路

本文的切入点在于整合 (unifying) 推荐系统和对话代理的用户体验评估。作者认识到 CRS 兼具推荐和对话双重属性,因此其评估框架也应同时涵盖这两方面。

核心思路是:

  • 以现有的、广泛认可的推荐系统用户中心评估框架 ResQue 作为基础 (foundation)
  • 将对话代理的用户体验指标(如理解、响应质量、人性化等)融入 (incorporate) ResQue 的特定维度中。
  • 通过心理测量建模方法 (psychometric modeling method) 验证整合后的框架,确保其有效性 (validity) 和可靠性 (reliability)。

2.2. 核心贡献/主要发现

本文的贡献是四方面的:

  1. 提出了一个统一的、以用户为中心的 CRS 评估框架 CRS-Que 该框架允许从用户角度评估 CRS,并揭示了对话构念与推荐构念之间的相关性以及它们如何影响 CRS 的整体用户体验。

  2. 遵循心理测量研究方法验证了该框架。 通过在不同实验条件(场景、系统设计因素、平台)下的两次用户研究,验证了框架的鲁棒性和泛化性。

  3. 重新验证了 ResQue 框架。 当推荐通过对话方式交付时,CRS-Que 的评估结果重新验证了最具影响力的用户中心评估框架 ResQue 的部分构念,并揭示了新的交互方式如何改变了原始 ResQue 框架。

  4. 提供了一个标准化的研究和评估方法。CRS 提供了一个标准化的用户中心研究和评估方法,帮助研究人员进行比较性研究,并为从业者设计和评估 CRS 提供见解。

    关键结论和发现包括:

  • CRS-Que 框架在评估 CRSs 的用户体验方面具有良好的有效性和可靠性。
  • 对话构念(例如,理解、响应质量、人性化)与推荐构念(例如,准确性、新颖性)之间存在显著的相互作用。
  • 这些构念共同影响了用户的整体体验、态度和行为意图。例如,新颖的推荐可以积极影响对话的亲和力,而提高 CRS 的理解力可以增加用户感知的易用性和控制力。
  • 在特定场景下,高人性化水平的 CRS 可以通过提升用户的注意力、人性化感知、满意度和信任,最终促进购买意图。

3. 预备知识与相关工作

3.1. 基础概念

为了理解本文提出的评估框架,初学者需要了解以下关键概念:

  • 对话推荐系统 (Conversational Recommender Systems, CRSs): 指通过自然语言对话与用户进行交互,以理解用户偏好、提供个性化推荐并解释推荐结果的推荐系统。它结合了传统推荐系统和对话代理的功能。
  • 用户体验 (User Experience, UX): 用户在使用产品、系统或服务过程中所产生的全部感受和认知。在 CRS 中,这不仅包括推荐结果的质量,还包括对话过程的流畅性、自然度、理解度等。
  • 心理测量建模方法 (Psychometric Modeling Method): 一种用于构建和验证测量工具(如问卷、量表)的统计方法。它关注测量工具的可靠性(reliability)和有效性(validity),确保测量结果能够准确地反映所要测量的构念。
  • 构念 (Construct): 在心理学和社会科学中,指一种抽象的、无法直接观察的概念,例如“信任”、“满意度”、“易用性”等。这些构念通过一系列可观察的指标(如问卷问题)来间接测量。
  • 潜变量 (Latent Variables): 与构念类似,是不能直接观察或测量的变量。在统计模型中,它们通常通过多个可观测的指标(如问卷中的具体问题)来推断和测量。
  • 指标 (Indicator): 用于测量潜变量或构念的可观测变量,通常是问卷中的具体问题或观察到的行为。
  • 问卷 (Questionnaire): 由一系列问题组成的调查工具,用于收集用户对特定系统或体验的主观评价。
  • 李克特量表 (Likert Scale): 一种常用的心理测量量表,通常用于衡量被访者对某一陈述的同意程度或频率。例如,7 点李克特量表从“强烈不同意”到“强烈同意”分为七个等级。
  • 信度 (Reliability): 指测量工具结果的一致性和稳定性。如果一个测量工具在重复测量时能得到相似的结果,则称其具有高信度。
    • 克朗巴赫阿尔法系数 (Cronbach's alpha): 衡量内部一致性信度(internal consistency reliability)的常用指标,用于评估一个构念下所有问题项之间的一致性。通常认为 Cronbach's alpha 大于 0.7 表示较好的内部一致性,但文章中采用了 0.5 的中等水平。
    • 条目-总分相关性 (Item-total correlation): 衡量单个问题项与该构念所有问题项总分之间的相关性,用于评估单个问题项对构念的贡献。通常要求大于 0.4。
  • 效度 (Validity): 指测量工具在多大程度上真正测量了它想要测量的构念。
    • 聚合效度 (Convergent Validity): 衡量一个构念下的所有指标是否高度相关,并共同指向同一个潜变量。通常通过因子载荷 (factor loading) 和平均方差提取量 (Average Variance Extracted, AVE) 来评估。
      • 因子载荷 (Factor loading): 单个问题项与其所属构念之间的相关强度。通常要求大于 0.4。
      • 平均方差提取量 (Average Variance Extracted, AVE): 衡量一个构念所解释的其指标变异量的平均比例。通常要求大于 0.4。
    • 区分效度 (Discriminant Validity): 衡量一个构念与另一个构念之间的区分程度,即它们测量的是不同的概念。通常要求一个构念的 AVE 大于其与任何其他构念的平方相关性。
  • 验证性因子分析 (Confirmatory Factor Analysis, CFA): 一种多元统计技术,用于检验理论模型与实际数据之间的拟合程度。它验证了潜变量的因子结构以及每个指标与其所属潜变量的关系。
  • 结构方程模型 (Structural Equation Modeling, SEM): 一种强大的多元统计分析方法,用于检验多个变量(包括潜变量和可观测变量)之间的复杂关系。它能够同时处理测量模型(潜变量与其指标的关系)和结构模型(潜变量之间的因果关系),并评估整个模型的拟合度。
    • 拟合指数 (Fit Indices): 用于评估 SEM 模型与观测数据之间吻合程度的统计量,例如:
      • 卡方值 (χ2\chi^2):模型与数据之间差异的统计量,P 值大于 0.05 通常表示良好拟合,但对大样本量敏感。
      • 调整拟合指数 (TLI, Tucker-Lewis Index):通常要求大于 0.9。
      • 比较拟合指数 (CFI, Comparative Fit Index):通常要求大于 0.9。
      • 近似误差均方根 (RMSEA, Root Mean Square Error of Approximation):通常要求小于 0.08。
    • 路径系数 (β\beta):SEM 模型中,表示一个变量对另一个变量的直接影响强度和方向的标准化或非标准化回归系数。
    • R 方 (R-squared, R2R^2): 表示模型中一个内生变量的变异有多少比例可以被其前因变量解释。

3.2. 前人工作与技术演进

3.2.1. 推荐系统用户中心评估框架

  • ResQue (Pu & Chen, 2011) [95]:
    • 概念定义: 一个统一的、以用户为中心的推荐系统评估框架,基于 Technology Acceptance Model (TAM) [25] 和 Software Usability Measurement Inventory (SUMI) [62] 开发。
    • 关注点: 衡量推荐系统的用户体验,从四个维度(Perceived QualitiesUser BeliefsUser AttitudesBehavioral Intentions)评估用户对推荐系统的感知。
    • 核心公式/模型: 如图 2 所示,它是一个结构方程模型,描述了这些维度及其内部构念之间的因果关系。例如,Explanation(解释性)可以正向影响 Transparency(透明度),进而导致更高的 Trust(信任)和 Intention to Purchase(购买意图)。
  • Knijnenburg et al. (2012) [68]:
    • 概念定义: 提出了一个框架来解释用户行为,通过一组构念将客观系统方面、主观系统方面(系统感知质量)、经验构念、个人特征(如人口统计学、领域知识、初始信任)和情境特征(如隐私关注、熟悉度、选择目标)联系起来。
    • 关注点: 提供了一个更全面的视角来解释推荐系统的用户体验,将个人和情境特征纳入模型。
    • 技术演进: 这些框架代表了推荐系统评估从单纯关注客观指标(如准确率、RMSE)向关注用户主观感知体验的转变。

3.2.2. 对话代理的用户体验指标

  • PARADISE (Walker et al., 2001) [125]:
    • 概念定义: 一个针对口语对话代理的通用性能模型,包含主观用户满意度指标和对话效率、对话质量、任务成功三个客观指标。
    • 关注点: 早期关注对话系统性能和用户满意度的整合评估。
  • Radziwill and Benton (2017) [97]:
    • 概念定义: 建议从性能、人性化 (humanity)、情感 (affect) 和可访问性 (accessibility) 四个方面量化聊天机器人的质量,并提出了 AHP (层次分析法) 进行质量指标选择。
  • 情感计算与社会交互 (Affective Computing & Social Interaction):
    • 评估具身对话代理 (embodied conversational agents) 引入了更多反映沟通质量的指标,如喜欢度 (likeability)、娱乐性 (entertainment)、参与度 (engagement)、帮助性 (helpfulness) 和自然度 (naturalness) [101]。
    • Kuligowska (2019) [70] 针对商业对话代理提出了更复杂的指标,如聊天机器人的视觉外观、对话能力、语言技能和语境敏感性。
    • Rapport theory (Novick & Gris, Novick et al., Riek et al.) [84, 100, 116]:
      • 概念定义: 亲和力,指人际交往中建立的相互理解、信任和和谐的关系。在对话代理中,通常包含三个维度:积极性 (Positivity)注意力 (Attentiveness)协调性 (Coordination)
      • 关注点: 评估对话代理与用户建立良好沟通关系的能力。
    • PEACE model (Looze & Neff, 2019) [113]:
      • 概念定义: 识别了聊天机器人的四个基本品质:礼貌 (politeness)、娱乐性 (entertainment)、专注的好奇心 (attentive curiosity) 和同理心 (empathy),这些品质可以影响用户使用开放域聊天机器人的意图。
  • 人性化 (Humanness):
    • 概念定义: 衡量对话代理行为像人类的程度。它受多种设计因素影响,如拟人化视觉提示 [34]、响应中的拼写错误和大写词 [132]、字体 [12] 和对话技巧 [103]。
    • 关注点: 评估用户对对话代理是“机器”还是“人类”的主观感知。

3.2.3. 差异化分析

现有工作存在的主要问题是,CRSs 的评估往往是将传统推荐系统的评估方法和通用对话代理的评估方法简单拼接,缺乏一个将两者统一整合的框架。这种拼接式的评估可能导致:

  • 不全面: 无法捕捉推荐和对话之间复杂的相互作用。

  • 不标准化: 研究者各自为政,难以比较不同研究结果。

  • 不精确: 缺乏心理测量学上的验证,指标的有效性和可靠性存疑。

    本文的创新点在于,它以 ResQue 为基础,系统性地将对话构念融入ResQue 的维度中,并严格遵循心理测量学方法进行验证,从而提供了一个统一且经过验证CRS 评估框架 CRS-Que。这种整合考虑了 CRS 作为一种复合系统的特性,旨在更准确、更全面地反映用户体验。

3.3. 技术演进

从最初的推荐系统关注算法准确性(如 RMSEAverage Precision),到认识到用户主观感知的重要性,进而发展出 ResQue 等用户中心评估框架。同时,随着对话代理技术的发展,对对话质量(如 NLUNLG 性能、对话效率、用户满意度)的评估也日益成熟。

CRS 是这两种技术领域交叉的产物。早期 CRSs 依赖 GUI 控件进行交互(如基于批判的系统 critiquing-based systems),评估更多侧重推荐。随着自然语言处理 (Natural Language Processing, NLP) 技术的进步,基于自然语言的对话 CRS 变得可行。此时,评估的重心开始转向如何融合自然语言交互的质量与推荐的质量。本文的 CRS-Que 正是在这一技术演进背景下,填补了融合评估框架的空白,是 CRS 评估领域的一个重要里程碑。它将对话的 UX 指标(如理解、响应质量、人性化)系统地整合到推荐系统的 UX 评估维度中,提供了一个更全面的视角。

4. 方法论

4.1. 方法原理

CRS-Que 的核心思想是,对话推荐系统 (CRS) 的用户体验 (UX) 不仅仅取决于推荐结果的质量,还高度依赖于对话交互的质量。因此,一个全面的评估框架必须同时考虑这两个方面。本文基于 ResQue 框架,并引入了对话相关的用户体验构念,旨在通过结构方程模型 (SEM) 揭示这些构念之间的复杂关系,最终影响用户的态度和行为意图。

CRS-Que 框架分为四个主要维度,与 ResQue 保持一致:

  1. 感知系统质量 (Perceived System Qualities): 用户对系统具体特征的感知,包括推荐质量和对话质量。
  2. 用户信念 (User Beliefs): 用户对系统功能和能力的更高层次感知。
  3. 用户态度 (User Attitudes): 用户对系统的总体情感和倾向。
  4. 行为意图 (Behavioral Intentions): 用户未来使用、接受或推荐系统的可能性。

4.2. 核心方法详解

4.2.1. 框架开发:CRS-Que 的构念和维度

CRS-Que 框架(如图 3 所示)以 ResQue [95] 为基础,并扩展了与对话相关的构念。

4.2.1.1. 感知质量 (Perceived Qualities)

这个维度主要衡量用户如何感知系统的主要特征,包括推荐的质量和对话的质量。

  • 省略的 ResQue 构念:
    • Diversity (多样性):被省略,因为 CRS 在每次推荐轮次通常只提供单个项目,而非一套项目。
    • Interface Adequacy (界面充分性):被省略,因为它主要关注图形用户界面的设计元素,而 CRS 通常基于自然语言交互。
    • Information Sufficiency (信息充足性):被省略,因为 CUI Response Quality 的问题已经评估了这方面。
  • 推荐相关的构念:
    • 准确性 (Accuracy): 衡量用户认为推荐与他们的兴趣和偏好匹配的程度。弥补了客观准确性的局限性。
    • 新颖性 (Novelty): 衡量推荐对用户来说是新颖或未知项目的程度。对支持用户探索和发现新项目尤为重要。
    • 交互充分性 (Interaction Adequacy): 衡量系统通过用户交互启发和完善用户偏好的能力。对于通过对话改进用户体验的 CRS 而言,偏好启发是其不可或缺的过程。
    • 解释性 (Explanation): 衡量系统解释其推荐的能力。有助于提高系统的可信度和透明度。
  • 对话相关的构念 (CUI - Conversational User Interface):
    • CUI 积极性 (CUI Positivity): 亲和力理论 [116] 的第一个组成部分,对应于沟通中感知到的相互友好和关怀。例如,它可能决定对话的语气和词汇。
    • CUI 注意力 (CUI Attentiveness): 亲和力理论的第二个组成部分,衡量系统是否通过表达相互关注和投入来建立专注和连贯的交互。与 PositivityCoordination 密切相关。
    • CUI 协调性 (CUI Coordination): 亲和力理论的第三个组成部分,检查沟通是否同步和和谐 [116]。在沟通后期,Coordination 比其他两个组成部分对亲和力更关键。
    • CUI 适应性 (CUI Adaptability): 衡量系统在对话过程中适应用户行为和偏好的能力。通常与个性化相关,例如系统是否能通过适应用户情感或历史行为来个性化回复 [61]。
    • CUI 理解度 (CUI Understanding): 对话代理的关键性能指标,衡量代理理解用户意图的能力。在本文中,衡量用户感知的 CRS 理解度。
    • CUI 响应质量 (CUI Response Quality): 指内容质量(信息量)和交互节奏(流畅性),常用于评估聊天机器人的响应质量 [50, 59, 74, 137]。本文中的问题根据信息量和流畅性的定义组成。

4.2.1.2. 用户信念 (User Beliefs)

这个维度衡量用户对系统的更高层次感知,受感知质量构念的影响。

  • 推荐相关的构念:
    • 感知易用性 (Perceived Ease of Use): 衡量用户在使用系统时感知到的物理和心理努力。通过主观问题测量。
    • 感知有用性 (Perceived Usefulness): 衡量系统支持用户完成任务的能力。主要衡量系统在支持决策方面的程度。
    • 用户控制 (User Control): 衡量用户在使用推荐器时感知到的控制能力。研究表明对用户体验有积极影响。
    • 透明度 (Transparency): 系统透明度使用户能够理解推荐过程的内部逻辑。与用户控制和解释密切相关。
  • 对话相关的构念:
    • CUI 亲和力 (CUI Rapport): 用户在与对话代理交流时感知到的整体亲和力。根据亲和力理论 [116],它包含 PositivityAttentivenessCoordination 三个组成部分。
    • CUI 人性化 (CUI Humanness): 衡量代理行为像人类的程度。它是一个整体的对话质量衡量指标。

4.2.1.3. 用户态度 (User Attitudes)

用户态度评估用户对对话推荐系统的整体感受,通常不易受短期使用经验的影响。

  • 信任与信心 (Trust & Confidence): 信任显著影响推荐系统的整体成功。信心表示系统能否让用户相信推荐的项目。
  • 满意度 (Satisfaction): 对用户在框架中对对话推荐系统的总体态度和意见的衡量。

4.2.1.4. 行为意图 (Behavioral Intentions)

行为意图与用户忠诚度相关,衡量用户未来使用系统、接受/购买推荐以及向他人推荐系统的可能性。

  • 使用意图 (Intention to Use): 衡量用户未来再次使用系统的可能性。
  • 购买意图 (Intention to Purchase): 衡量用户未来购买推荐项目的可能性。

4.2.2. 验证方法

本文采用心理测量建模方法 (psychometric modeling method) 验证 CRS-Que

4.2.2.1. 测量 (Measurements)

  • 所有构念均通过主观测量,即问卷调查。
  • 问卷问题基于现有 RSCAUX 指标开发。
  • 每个构念至少包含三个问题,以确保足够的测量覆盖范围和误差评估。
  • 自创问题用 * 标记(详见表 2 和表 4)。
  • 所有问题均采用 7 点李克特量表 (7-point Likert scale),从“强烈不同意”到“强烈同意”。
  • 包含注意力检查问题 (attention-check questions) 以过滤无效响应。

4.2.2.2. 系统操作 (System Manipulation)

  • 通过 A/B 测试比较不同版本的系统。
  • 操作系统的设计因素 (design factors),以观察它们如何影响用户对构念的响应。
  • 研究中操纵的因素包括:
    • 批判发起方式 (critiquing initiative):用户发起 (user-initiated) vs. 系统建议 (system-suggested) [9]。
    • 解释显示 (explanation display):真实 (true) vs. 虚假 (false) [32]。
    • 人性化水平 (humanization level):低 (low) vs. 高 (high) [34]。
  • 在不同版本之间保持其他因素不变,以公平评估操作因素的影响。

4.2.2.3. 研究设计 (Study Design)

  • 采用组间设计 (between-subjects study design),避免重复回答长问卷带来的疲劳和结转效应 (carryover effects)。
  • 参与者通过 Prolific 平台招募。
  • 筛选标准:英语流利、提交数 > 100、批准率 > 95%。
  • 研究流程:
    1. 签署同意书(符合 GDPR)。
    2. 阅读 CRS 简介并填写预研究问卷。
    3. 试用系统。
    4. 使用系统完成特定任务(如创建音乐播放列表或购买手机)。
    5. 完成任务后,根据 CRS-Que 填写研究后问卷。

4.2.2.4. 分析方法 (Analysis Method)

  1. 验证性因子分析 (Confirmatory Factor Analysis, CFA):

    • 目的: 建立内部信度 (internal reliability)、聚合效度 (convergent validity) 和区分效度 (discriminant validity)。
    • 过程:
      • 迭代调整模型,基于因子载荷 (factor loadings) 和两个因子之间的相关系数 (correlation coefficient)。
      • 移除因子载荷小于 0.4 的指标。
      • 如果两个构念高度相关(大于 0.85),则合并它们以保持区分效度。
      • 确保每个潜变量至少包含三个指标。
      • 评估信度指标:Cronbach's alpha (应 > 0.5) 和 Item-total correlations (应 > 0.4)。
      • 评估聚合效度:AVE (平均方差提取量) (应 > 0.4)。
      • 评估区分效度:构念的 AVE 应高于其与任何其他构念的相关值。
    • 输出: 验证每个构念的问题项的有效性和可靠性。
  2. 结构方程模型 (Structural Equation Modeling, SEM):

    • 目的: 调查构念之间的关系,包括同一维度内的构念(如 ExplainabilityCUI Attentiveness)以及不同维度间的构念(如 CUI AdaptabilityPerceived Usefulness)。
    • 优势:
      • 估计无法直接测量的变量(潜变量)通过观测变量。
      • 考虑模型中的测量误差。
      • 同时验证多个假设作为一个整体。
      • 测试模型对数据的拟合度。
    • 模型评估: 使用拟合指数 (fit indices) 评估模型的整体拟合度,如:
      • χ2\chi^2 (卡方值):绝对拟合指数,但受样本量和模型大小影响。
      • TLI (Tucker-Lewis Index):相对拟合指数,建议值 > 0.9。
      • CFI (Comparative Fit Index):非中心性拟合指数,建议值 > 0.9。
      • RMSEA (Root Mean Square Error of Approximation):非中心性拟合指数,建议值 < 0.08,90% 置信区间 (CI)。
    • 路径分析:
      • 单向箭头表示因果关系,双向箭头表示相关关系。
      • 箭头上的数字包括回归系数 (β\beta) 和括号内的标准误差 (standard error)
      • 显著性水平 (Significance levels) 用星号表示:p<.001\ast \ast \ast p < .001p<.01\ast \ast p < .01p<.05\ast p < .05p<.10\bullet p < .10
      • R2R^2 值表示模型解释的方差比例,用于评估构念预测的强度。
    • 可视化呈现:
      • 不同颜色表示不同类型的构念或因素:
        • 橙色:系统设计因素。
        • 灰色:推荐构念。
        • 蓝色:对话构念。
        • 白色:用户态度和行为意图构念。

5. 实验设置

5.1. 数据集

本文没有使用传统意义上的数据集进行模型训练或测试,而是通过用户研究收集用户主观评价数据来验证评估框架。因此,这里主要描述的是实验场景和推荐内容来源。

5.1.1. 研究一:MusicBot for Music Exploration(音乐探索)

  • 领域: 音乐推荐,属于低用户参与度 (low user involvement) 的决策支持场景。
  • 推荐内容来源:Spotify 推荐服务提供。
  • 对话系统技术: 自然语言理解 (NLU) 通过 Dialogflow ES (标准版) 实现。

5.1.2. 研究二:PhoneBot for Purchase Decision-making(手机购买决策)

  • 领域: 手机推荐,属于高用户参与度 (high user involvement) 的决策支持场景。
  • 推荐内容来源: 基于 MAUT (多属性效用理论) [136] 和 GSMArena.com 的手机数据库。
  • 对话系统技术: 自然语言理解 (NLU) 通过 DialogFlow ES (标准版) 实现,定义了用于批判手机推荐的意图。

5.2. 评估指标

本文的评估指标主要是通过问卷收集的主观感知构念,并使用心理测量学方法(CFASEM)来验证它们的信度和效度,以及它们之间的关系。

对于论文中出现的每一个评估指标,由于它们是潜变量,其“计算公式”是基于问卷问题(指标)的响应。以下是其概念定义和测量方式:

5.2.1. 感知质量 (Perceived Qualities)

  • 准确性 (Accuracy):
    1. 概念定义: 用户感知到的推荐项目与个人兴趣和偏好相符的程度。它反映了用户对推荐结果“好不好”的主观判断。
    2. 测量方式: 由问卷中多个问题项(如“推荐的物品选择得很好”、“推荐的物品是相关的”、“推荐的物品是有趣的”)的李克特量表得分共同衡量。
    3. 符号解释: 这是一个潜变量,通过问卷问题(可观测变量)进行测量。
  • 新颖性 (Novelty):
    1. 概念定义: 用户感知到的推荐项目对他们而言是新的、未知的或惊喜的程度。它强调推荐系统帮助用户发现新事物的能力。
    2. 测量方式: 由问卷中多个问题项(如“聊天机器人帮助我发现新歌曲”、“推荐的物品是我之前没有考虑过但结果是积极惊喜的发现”)的李克特量表得分共同衡量。
    3. 符号解释: 同上,通过问卷问题测量。
  • 交互充分性 (Interaction Adequacy):
    1. 概念定义: 系统通过用户交互来有效获取和细化用户偏好的能力。它反映了用户与系统进行偏好表达的难易程度和有效性。
    2. 测量方式: 由问卷中多个问题项(如“我发现告知音乐聊天机器人我喜欢/不喜欢推荐歌曲很容易”)的李克特量表得分共同衡量。
    3. 符号解释: 同上,通过问卷问题测量。
  • 解释性 (Explanation):
    1. 概念定义: 系统解释其推荐理由的能力,以帮助用户理解推荐逻辑。
    2. 测量方式: 由问卷中多个问题项(如“聊天机器人解释了为什么向我推荐这些手机”、“聊天机器人解释了推荐手机的逻辑”)的李克特量表得分共同衡量。
    3. 符号解释: 同上,通过问卷问题测量。
  • CUI 适应性 (CUI Adaptability):
    1. 概念定义: 用户感知到的对话系统在对话过程中根据用户行为和偏好进行调整的能力。
    2. 测量方式: 由问卷中多个问题项(如“我觉得我与音乐聊天机器人同步”、“音乐聊天机器人不断适应我的偏好”)的李克特量表得分共同衡量。
    3. 符号解释: 同上,通过问卷问题测量。
  • CUI 理解度 (CUI Understanding):
    1. 概念定义: 用户感知到的对话系统理解其意图和表达的能力。
    2. 测量方式: 由问卷中多个问题项(如“聊天机器人理解了我所说的话”、“我发现聊天机器人理解我想要什么”)的李克特量表得分共同衡量。
    3. 符号解释: 同上,通过问卷问题测量。
  • CUI 响应质量 (CUI Response Quality):
    1. 概念定义: 对话系统响应的内容质量(信息量)和交互节奏(流畅性),即响应是否有意义、易读且及时。
    2. 测量方式: 由问卷中多个问题项(如“音乐聊天机器人的回应是可读和流畅的”、“大多数聊天机器人的回应都是有意义的”)的李克特量表得分共同衡量。
    3. 符号解释: 同上,通过问卷问题测量。
  • CUI 注意力 (CUI Attentiveness):
    1. 概念定义: 用户感知到的对话系统在交互中表现出的关注度,例如是否关注用户需求、是否尊重用户。
    2. 测量方式: 由问卷中多个问题项(如“聊天机器人试图了解我的更多需求”、“聊天机器人尊重我并考虑我的需求”)的李克特量表得分共同衡量。
    3. 符号解释: 同上,通过问卷问题测量。

5.2.2. 用户信念 (User Beliefs)

  • 感知易用性 (Perceived Ease of Use):
    1. 概念定义: 用户认为使用系统是轻松、不费力的程度。
    2. 测量方式: 由问卷中多个问题项(如“我可以用聊天机器人轻松找到我感兴趣的物品”、“使用聊天机器人找到我喜欢的东西很容易”)的李克特量表得分共同衡量。
    3. 符号解释: 同上,通过问卷问题测量。
  • 感知有用性 (Perceived Usefulness):
    1. 概念定义: 用户认为系统能够帮助他们有效地完成任务和达成目标的程度。
    2. 测量方式: 由问卷中多个问题项(如“音乐聊天机器人帮助我找到理想的物品”、“音乐聊天机器人给我很好的建议”)的李克特量表得分共同衡量。
    3. 符号解释: 同上,通过问卷问题测量。
  • 用户控制 (User Control):
    1. 概念定义: 用户在使用推荐系统时感知到的对其交互和推荐结果的控制能力。
    2. 测量方式: 由问卷中多个问题项(如“我感觉在使用这个聊天机器人修改我的口味时处于控制之中”、“我可以控制聊天机器人给我的推荐”)的李克特量表得分共同衡量。
    3. 符号解释: 同上,通过问卷问题测量。
  • 透明度 (Transparency):
    1. 概念定义: 用户对推荐系统内部逻辑和推荐过程的理解程度。
    2. 测量方式: 由问卷中多个问题项(如“我理解为什么向我推荐这些手机”、“我理解系统如何确定手机的质量”)的李克特量表得分共同衡量。
    3. 符号解释: 同上,通过问卷问题测量。
  • CUI 亲和力 (CUI Rapport):
    1. 概念定义: 用户在与对话代理交流时感知到的整体友好、关怀和同步的相互关系。
    2. 测量方式: 由问卷中多个问题项(如“音乐聊天机器人是温暖和关怀的”、“我喜欢并对音乐聊天机器人感到温暖”)的李克特量表得分共同衡量。
    3. 符号解释: 同上,通过问卷问题测量。
  • CUI 人性化 (CUI Humanness):
    1. 概念定义: 用户感知到的对话代理行为像人类的程度。
    2. 测量方式: 由问卷中多个问题项(如“聊天机器人表现得像个人类”、“我感觉在与这个聊天机器人互动时像是在与一个真正的人类交流”)的李克特量表得分共同衡量。
    3. 符号解释: 同上,通过问卷问题测量。

5.2.3. 用户态度 (User Attitudes)

  • 信任与信心 (Trust & Confidence):
    1. 概念定义: 用户对推荐系统可靠性和正直性的信念,以及对推荐结果的信心程度。
    2. 测量方式: 由问卷中多个问题项(如“这个音乐聊天机器人值得信任”、“我确信推荐给我的物品”)的李克特量表得分共同衡量。
    3. 符号解释: 同上,通过问卷问题测量。
  • 满意度 (Satisfaction):
    1. 概念定义: 用户对推荐系统整体体验的愉悦程度和满足感。
    2. 测量方式: 由问卷中多个问题项(如“我对聊天机器人做出的推荐感到满意”、“聊天机器人做出的这些推荐让我感到满意”)的李克特量表得分共同衡量。
    3. 符号解释: 同上,通过问卷问题测量。

5.2.4. 行为意图 (Behavioral Intentions)

  • 使用意图 (Intention to Use):
    1. 概念定义: 用户未来继续使用推荐系统的可能性。
    2. 测量方式: 由问卷中多个问题项(如“我将再次使用这个音乐聊天机器人”、“我将经常使用这个音乐聊天机器人”)的李克特量表得分共同衡量。
    3. 符号解释: 同上,通过问卷问题测量。
  • 购买意图 (Intention to Purchase):
    1. 概念定义: 用户未来购买推荐项目的可能性。
    2. 测量方式: 由问卷中多个问题项(如“如果有机会,我预测我会在近期考虑购买聊天机器人推荐的手机”、“我很有可能在近期购买聊天机器人推荐的手机”)的李克特量表得分共同衡量。
    3. 符号解释: 同上,通过问卷问题测量。

5.3. 对比基线

本文并非比较不同的推荐算法或 CRS 模型,而是验证评估框架本身。因此,没有直接的“对比基线模型”。

  • 内部比较: 通过在不同实验条件(例如,MusicBot 的两种批判发起方式,PhoneBot 的人性化水平和解释显示方式)下使用该框架,来观察框架中构念对这些系统设计因素的敏感性,并验证构念之间的关系。
  • ResQue 的关系: ResQue 可以被视为 CRS-Que基础框架,本文通过整合对话构念并重新验证 ResQue 的部分路径,展示了 CRS-Que 的扩展性和适用性。

5.4. 数据呈现 (Figures)

以下是原文中提供的图表,用于说明 CRS 的概念模型、ResQue 的模型、CRS-Que 的框架以及两个研究的系统界面和 SEM 结果。

以下是原文 Figure 1 的结果:

Fig. 1. Conversational Recommender Systems. 该图像是示意图,展示了对话推荐系统的结构,其中包括对话组件和推荐组件。图中显示用户与系统之间的互动关系,包括反馈、回应和推荐。该结构反映了系统如何通过对话提升推荐的精准度和用户体验。 图 1. 对话推荐系统 (Conversational Recommender Systems) 示意图。该图展示了一个用户与对话推荐系统进行交互的场景,系统接收用户输入,并经过对话组件和推荐组件处理后,向用户返回推荐和响应。

以下是原文 Figure 2 的结果:

Fig. 2. A structural equation model of ResQue \[95\]. 该图像是一个结构方程模型,展示了用户感知质量、用户信念、用户态度与行为意图之间的关系。模型中包含多个指标和路径系数,如推荐准确性、透明度、信任与信心等,这些指标影响用户的总体满意度和使用意图。 图 2. ResQue 的结构方程模型 [95]。该图展示了 ResQue 框架的四个维度(感知质量、用户信念、用户态度、行为意图)以及它们内部和之间构念的假定关系,如 Explanation 影响 TransparencyTransparency 影响 TrustTrust 影响 Intention to Purchase

以下是原文 Figure 3 的结果:

Fig. 3. General evaluation framework with hypothesized relationships (CRS-Que). 该图像是示意图,展示了CRS-Que的用户体验评估框架,包括四个主要维度:感知质量、用户信念、用户态度和行为意图。每个维度包含相关指标,如适应性、理解性和人性化等,强调了推荐系统与会话质量之间的关联。 图 3. 带有假定关系的通用评估框架 (CRS-Que)。该图是本文提出的 CRS-Que 框架的总体结构,它扩展了 ResQue,将对话相关的构念(蓝色方框)整合到感知质量和用户信念维度中,并展示了所有构念之间的假定关系。

以下是原文 Figure 4 的结果:

Fig. 4. The user interface of MusicBot. 该图像是图表,展示了MusicBot的用户界面,包括用户主动与系统建议的音乐推荐交互示例,以及如何调整推荐的指示面板。用户可以通过对歌曲能量、舞蹈性和情感的评价进行个性化调整,从而改善推荐体验。 图 4. MusicBot 的用户界面。该图展示了 MusicBot 桌面应用程序的用户界面,包括用户对推荐歌曲进行反馈(A,评级小部件),与 MusicBot 对话(B,对话窗口),以及指示面板(C)。图示了用户发起批判(user-initiated critiquing)和系统建议批判(system-suggested critiquing)的对话示例。

以下是原文 Figure 6 的结果:

Fig. 6. The user interfaces of PhoneBot. 该图像是 PhoneBot 的用户界面示意图,展示了不同人性化水平下的对话,即低人性化(A)和高人性化(B),以及解释显示的真实与否(C 和 D)。每个界面显示了与用户互动时推荐手机的对话,包括预算、品牌和电池容量等信息。 图 6. PhoneBot 的用户界面。该图展示了 PhoneBot 移动应用程序的用户界面,用于手机购买推荐。A 和 B 分别展示了低人性化和高人性化水平的对话界面。C 和 D 分别展示了提供解释和不提供解释的推荐显示界面。

6. 实验结果与分析

6.1. 核心结果分析

6.1.1. 研究一:MusicBot for Music Exploration

6.1.1.1. 参与者人口统计学

以下是原文 Table 1 的结果:

Item Frequency Percentage (%)
Age 18-24 36 16.67%
25-34 74 34.26%
35-44 54 25.00%
45-54 27 12.50%
55-64 18 8.33%
≥ 65 7 3.24%
Gender Male 117 54.17%
Female 96 44.44%
Other 3 1.39%
Nationality UK 135 62.50%
Canada 15 6.94%
USA 15 6.94%
Germany 6 2.78%
Netherlands 5 2.31%
Others 40 18.52%

表 1. 研究一参与者的人口统计学信息。总共 173 名有效参与者的数据。多数参与者年龄在 25-34 岁之间 (34.26%),性别以男性为主 (54.17%),主要来自英国 (62.50%)。

6.1.1.2. 效度和信度

以下是原文 Table 2 的结果:

Internal Reliability Convergent Validity
Construct Items Cronbach alpha (0.5) Item-total correlation (0.4) Factor loading (R2) (0.4) Variance extracted (AVE) (0.4)
Perceived Qualities
1. Novelty [76, 95] 4 0.922 0.757
The music chatbot helps me discover new songs. 0.728 0.593
The music chatbot provides me with surprising recommendations that helped me discover new music that I wouldn't have found elsewhere. 0.896 0.902
The music chatbot provides me with recommendations that I had not considered in the first place but turned out to be a positive and surprising discovery. 0.816 0.726
The music chatbot provides me with recommendations that were a pleasant surprise to me because I would not have discovered them somewhere else. 0.850 0.816
2. Interaction Adequacy [95] 3 0.784 0.560
I find it easy to inform the music chatbot if I dislike/like the recommended song. 0.592 0.549
The music chatbot allows me to tell what I like/dislike. 0.571 0.455
I find it easy to tell the system what I like/dislike. 0.722 0.717
3. CUI Adaptability [116, 129] 3 0.805 0.584
I felt I was in sync with the music chatbot. 0.628 0.605
The music chatbot adapts continuously to my preferences. 0.642 0.545
I always have the feeling that this music chatbot learns my preferences. 0.692 0.596
4. CUI Response Quality [137] 3 0.722 0.473
The music chatbot's responses are readable and fluent. 0.581 0.464
Most of the chatbot's responses make sense. 0.560 0.475
The pace of interaction with the music chatbot is appropriate. 0.503 0.479
User Beliefs
1. Perceived Usefulness [95] 3 0.816 0.593
The music chatbot helps me find the ideal item. 0.694 0.555
Using the music chatbot to find what I like is easy. 0.661 0.570
The music chatbot gives me good suggestions. 0.653 0.659
2. CUI Rapport [116] 5 0.893 0.629
The music chatbot is warm and caring. 0.750 0.653
The music chatbot cares about me. 0.803 0.761
I like and feel warm toward the music chatbot. 0.764 0.715
I feel that I have no connection with the music chatbot. 0.628 0.431
The music chatbot and I establish rapport. 0.764 0.627
User Attitudes
1. Trust & Confidence [95] 3 0.801 0.607
This music chatbot can be trusted. 0.528 0.400
I am convinced of the items recommended to me. 0.731 0.758
I am confident I will like the items recommended to me. 0.698 0.669
Behavioral Intentions
1. Intention to Use [95] 0.922 0.798
I will use this music chatbot again. 0.843 0.824
I will use this music chatbot frequently. 0.872 0.861
I will tell my friends about this music chatbot. 0.812 0.720

表 2. 研究一中验证的潜因子(构念)的信度。* 符号表示自创问题。 经过 CFA 迭代调整,最终验证了 8 个构念,包含 27 个有效问题项。

  • 被删除构念: AccuracyExplainabilityCUI AttentivenessCUI Engagingness(因仅包含一个问题项)。
  • 被合并构念: CUI Positivity & CUI Rapport 被合并为 CUI RapportCUI Adaptability & CUI Coordination 被合并为 CUI AdaptabilityTrust & Confidence 被合并为 Trust & Confidence
  • 信度指标: 所有构念的 Cronbach's alpha 均高于 0.5,Item-total correlation 均高于 0.4。
  • 聚合效度: 所有因子载荷 (Factor loading) 均高于 0.4,AVE 均高于 0.4。 所有指标均达到或超过了建议的阈值,表明构念具有良好的内部信度、聚合效度和区分效度。

6.1.1.3. 结构模型 (SEM) 结果

以下是原文 Figure 5 的结果:

Fig. 5. The Structural Equation Modeling (SEM) results of Study 1. Significance: \(^ { \\star \\star \\star } p < . 0 0 1 , ^ { \\star \\star } p < . 0 1 , ^ { \\star } p <\) .05 \(, \\bullet p < . 1 0 . R ^ { 2 }\) is the proportion of variance explained by the model. Factors are scaled to have a standard deviation of 1. 该图像是图表,展示了Study 1的结构方程模型(SEM)结果。图中包含多个因素的标准化路径系数,显著性标记如^{ullet}riangle^{ riangle},并展示了各个因素的方差解释比例R2R^2 图 5. 研究一的结构方程模型 (SEM) 结果。显著性:p<.001,p<.01,p<.05,p<.10\ast \ast \ast p < .001, \ast \ast p < .01, \ast p < .05, \bullet p < .10R2R^2 是模型解释的方差比例。因子被标准化为标准差为 1。

  • 模型拟合度: χ~2=555.300\tilde{\chi}^2 = 555.300 (d.f.=311d.f. = 311, p<0.001p < 0.001),TLI=0.926TLI = 0.926CFI=0.934CFI = 0.934RMSEA=0.062RMSEA = 0.06290% CI [0.052, 0.072]。这些指标均符合推荐标准,表明模型拟合度良好。
  • R2R^2 值: 所有构念的 R2R^2 值均大于 0.40,表明模型能够有效解释这些构念的变异。
  • 关键路径分析:
    • 批判发起方式的影响: 操纵的设计因素(批判发起方式)对任何测量构念都没有显著影响,因此从模型中分离出来。
    • ResQue 验证路径(蓝色): Perceived Usefulness \rightarrow Trust & Confidence \rightarrow Intention to Use 得到了验证,表明感知有用性越高,用户对系统的信任和使用意图也越高。
    • 对话构念对使用意图的影响: CUI Rapport \rightarrow Intention to Use 路径显著,表明对话亲和力对使用意图有直接积极影响。
    • 推荐构念和对话构念的交互:
      • Novelty (新颖性) \rightarrow Perceived Usefulness (感知有用性):正向影响。
      • Interaction Adequacy (交互充分性) \rightarrow Perceived Usefulness (感知有用性):正向影响。
      • Novelty (新颖性) \rightarrow CUI Adaptability (CUI 适应性):正向相关。
      • Interaction Adequacy (交互充分性) \rightarrow CUI Adaptability (CUI 适应性):正向相关。
      • Interaction Adequacy (交互充分性) \rightarrow CUI Response Quality (CUI 响应质量):正向相关。
    • 这些交互路径表明,推荐的质量(如新颖性、易于交互)与对话的质量(如适应性、响应质量)之间存在紧密联系。

6.1.1.4. 研究一结果讨论

  • 批判发起方式: 与先前 GUI 系统研究不同,两种批判技术在对话推荐系统中未产生显著差异。这可能与音乐推荐场景对用户决策参与度较低有关。
  • CRS-Que 的验证: 模型验证了框架四个维度之间的假定关系。
  • 音乐 CRS 的有用性: 如果音乐 CRS 支持丰富的用户交互和新音乐的探索,用户会认为它是有用的。
  • 对话质量的重要性: MusicBot 越能适应用户偏好,用户感知到的响应质量和亲和力越高。
  • 推荐与对话的关联: 交互充分性和新颖性(推荐构念)与 CUI AdaptabilityCUI Response Quality(对话构念)之间的正相关性,强调了评估 CRS 时整合对话构念和推荐构念的重要性。

6.1.2. 研究二:PhoneBot for Purchase Decision-making

6.1.2.1. 参与者人口统计学

以下是原文 Table 3 的结果:

Item Frequency Percentage (%)
Age 19-25 80 46.24%
26-30 35 20.23%
31-35 19 10.98%
41-50 13 7.51%
36-40 13 7.51%
51-60 9 5.20%
>60 4 2.31%
Gender Male 90 52.02%
Female 80 46.24%
Other 3 1.73%
Nationality UK 41 23.70%
USA 38 21.97%
Portugal 18 10.40%
Poland 15 8.67%
Italy 13 7.51%
Others 48 27.73%

表 3. 研究二参与者的人口统计学信息。总共 216 名有效参与者的数据。多数参与者年龄在 19-25 岁之间 (46.24%),性别以男性为主 (52.02%),来自不同国家,但英国和美国占比较高。

6.1.2.2. 效度和信度

以下是原文 Table 4 的结果:

Internal Reliability Convergent Validity
Construct Items Cronbach alpha (0.5) Item-total correlation (0.4) Factor loading (R2) (0.4) Variance extracted (AVE) (0.4)
Perceived Qualities
1. Accuracy [68, 95] 3 0.805 0.600
The recommended phones were well-chosen. 0.717 0.680
The recommended phones were relevant. 0.663 0.631
The recommended phones were interesting.* 3 0.606 0.482
2. Explainability [95] 0.916 0.800
The chatbot explained why the phones were recommended to me. 0.893 0.937
The chatbot explained the logic of recommending phones.* 0.750 0.607
The chatbot told me the reason why I received the recommended phones.* 3 0.854 0.847
3. CUI Attentiveness [116, 138] 0.812 0.598
The chatbot tried to know more about my needs. 0.631 0.514
The chatbot paid attention to what I was saying.* 0.708 0.700
The chatbot was respectful to me and considered my needs.* 0.662 0.592
4. CUI Understanding [5] 3 0.930 0.822
The chatbot understood what I said. 0.852 0.797
I found that the chatbot understood what I wanted. 0.899 0.904
I felt that the chatbot understood my intentions. 0.823 0.767
User Beliefs
1. Transparency [40, 95] 3 0.614 0.551
I understood why the phones were recommended to me. 0.645
I understood how the system determined the quality of the phones. 0.680 0.556
I understood how well the recommendations matched my preferences. 0.711 0.720
2. Perceived Ease of Use [95] 0.808 0.799
I could easily use the chatbot to find the phones of my interests.* 0.865
Using the chatbot to find what I like was easy. 0.871 0.809
Finding a phone to buy with the help of the chatbot was easy. 0.844 0.763
It was easy to find what I liked by using the chatbot.* 0.881 0.860 0.785
3. User Control [95] 3 0.913
I felt in control of modifying my taste using this chatbot. 0.857
I could control the recommendations the chatbot made for me.* 0.761 0.861 0.645
I felt in control of adjusting recommendations based on my preference.* 0.859 0.855
4. CUI Humanness [107] 3 0.787
The chatbot behaved like a human. 0.881 0.903
I felt like conversing with a real human when interacting with this chatbot. 0.770 0.663
This chatbot system has human properties. 0.841 0.823
User Attitudes
1. Trust & Confidence [29, 95] 6 0.955
The recommendations provided by the chatbot can be trusted.* 0.758
I can rely on the chatbot when I need to buy a mobile phone.* 0.821
I feel I could count on the chatbot to help me purchase the mobile phone I need. 0.838
I was convinced of the phones recommended to me. 0.848 0.806 0.780
I was confident I would like the phones recommended to me. 0.821
I had confidence in accepting the phones recommended to me. 0.865 0.815
2. Satisfaction 0.932 0.851
I was satisfied with the recommendations made by the chatbot.* 0.869
The recommendations made by the chatbot were satisfying.' 0.833 0.748
These recommendations made by the chatbot made me satisfied.* 0.879 0.865
Behavioral Intentions
1. Intention to Purchase [37] 0.937 0.831
Given a chance, I predict that I would consider buying the phones recommended by the chatbot in the near future. 0.873
I will likely buy the phones recommended by the chatbot in the near future. 0.880 0.859
Given the opportunity, I intend to buy the phones recommended by the chatbot. 0.855 0.847 0.788

表 4. 研究二中验证的潜因子(构念)的信度。* 符号表示自创问题。 经过 CFA 迭代调整,最终验证了 11 个构念,包含 37 个有效问题项。

  • 新验证构念: 相较于研究一,研究二验证了 AccuracyExplainabilityCUI AttentivenessCUI UnderstandingTransparencyUser ControlCUI HumannessSatisfactionIntention to Purchase
  • 信度与效度: 所有构念的 Cronbach's alphaItem-total correlation、因子载荷和 AVE 均符合或超过建议阈值,表明构念具有良好的内部信度、聚合效度和区分效度。

6.1.2.3. 结构模型 (SEM) 结果

以下是原文 Figure 7 的结果:

Fig. 7. The structural equation modeling (SEM) results of Study 2. Significance: \({ } ^ { \\ast \\ast \\ast } p < . 0 0 1 , { } ^ { \\ast \\ast } p < . 0 1 , { } ^ { \\ast } p <\) .05 \(, \\bullet p < . 1 0 . R ^ { 2 }\) is the proportion of variance explained by the model. Factors are scaled to have a standard deviation of 1. 该图像是图表,展示了研究二的结构方程模型(SEM)结果,包含用户信念、用户态度和行为意图等维度。显著性标记为 extp<.001,extp<.01,extp<.05{ } ^ { ext{***}} p < . 0 0 1 , { } ^ { ext{**}} p < . 0 1 , { } ^ { ext{*}} p < .05 , R ^ {2}$ 代表模型解释的方差比例。 图 7. 研究二的结构方程模型 (SEM) 结果。显著性:p<.001,p<.01,p<.05,p<.10\ast \ast \ast p < .001, \ast \ast p < .01, \ast p < .05, \bullet p < .10R2R^2 是模型解释的方差比例。因子被标准化为标准差为 1。

  • 模型拟合度: χ~2=1,295.438\tilde{\chi}^2 = 1,295.438 (d.f.=685d.f. = 685, p<0.001p < 0.001),TLI=0.947TLI = 0.947CFI=0.951CFI = 0.951RMSEA=0.049RMSEA = 0.04990% CI [0.049, 0.060]。这些指标均符合推荐标准,表明模型拟合度良好。
  • 关键路径分析:
    • 设计因素对感知质量的影响:
      • 解释条件 (Explanation)Explainability (解释性) 有直接正向影响 (β=0.77,p<0.001\beta = 0.77, p < 0.001)。
      • 人性化水平 (Humanization Level)CUI Attentiveness (CUI 注意力) 有趋于正向的影响 (β=0.12,p=0.06\beta = 0.12, p = 0.06),具有边缘显著性。
    • 解释性 (Explainability) 的影响链: Explainability \rightarrow Transparency (透明度) \rightarrow Trust & Confidence (信任与信心) \rightarrow Intention to Purchase (购买意图)。这表明解释性通过透明度增强信任,进而提升购买意图。
    • 人性化水平 (Humanization Level) 的影响链: Humanization Level 通过 CUI Attentiveness (CUI 注意力) 间接影响 CUI Humanness (CUI 人性化),进而影响 Satisfaction (满意度)、Trust & Confidence (信任与信心) 和 Intention to Purchase (购买意图)。
    • Transparency (透明度) 和 User Control (用户控制): 它们受到 Accuracy (准确性)、Explainability (解释性) 和 CUI Understanding (CUI 理解度) 的积极影响,但未显著影响用户态度或行为意图构念。
    • 推荐构念和对话构念的交互:
      • Explainability (解释性) \rightarrow CUI Attentiveness (CUI 注意力):正向影响。
      • CUI Understanding (CUI 理解度) \rightarrow Accuracy (准确性):正向影响。

6.1.2.4. 研究二结果讨论

  • 框架的验证: 模型再次确认了框架四个维度之间的假定关系。
  • 设计因素的影响: 框架能够捕捉不同设计因素(解释和人性化水平)对用户响应的变异。例如,解释性确实能提升 Explainability,进而提升 TransparencyTrust
  • 解释性 (Explanation) 的多重效益: 解释性不仅如传统研究所述能提升 TransparencyUser ControlPerceived Ease of UseSatisfactionTrust & ConfidenceIntention to Purchase,还意外地发现它能积极影响 CUI Attentiveness,暗示解释性也能提升用户对对话代理的关注度和人性化感知。
  • 人性化 (Humanization) 的影响: 高人性化水平似乎能提升用户感知的 CUI Attentiveness,这可能与 PhoneBot 中“称呼用户姓名”等功能有关。此外,高人性化可以提升用户对 CRS 的满意度和信任,这与之前关于聊天机器人人性化对用户满意度和信任的研究一致。
  • 对话与推荐的相互影响: ExplainabilityCUI Attentiveness 之间,以及 CUI UnderstandingAccuracy 之间的显著相关性,再次强调了对话和推荐构念的相互依赖性。

6.2. 原始问卷与短版本

6.2.1. 原始问卷

原文附录 A 中提供了在用户研究中使用的原始问卷,其中包含所有构念的问题项。* 符号标记了最终模型中被删除的问题项。

6.2.2. 短版本问卷

以下是原文 Table 5 的结果:

Perceived Qualities
Accuracy The recommended items were well-chosen.
Novelty The chatbot provided me with surprising recommendations that helped me discover new items that I wouldn't have found elsewhere.
Interaction Adequacy I found it easy to tell the system what I like/dislike.
Explainability The chatbot explained why the items were recommended to me.
CUI Adaptability I felt I was in sync with the chatbot.
CUI Understanding I found that the chatbot understood what I wanted.
CUI Response Quality Most of the chatbot's responses make sense.
CUI Attentiveness The chatbot paid attention to what I was saying.
User Beliefs
Perceived Ease of Use It was easy to find what I liked by using the chatbot.
Perceived Usefulness The chatbot gave me good suggestions.
User Control I felt in control of modifying my taste using this chatbot.
Transparency I understood how well the recommendations matched my preferences.
CUI Humanness The chatbot behaved like a human.
CUI Rapport The chatbot cared about me.
User Attitudes
Trust & Confidence I feel I could count on the chatbot to help me choose/purchase the items I need.
Satisfaction These recommendations made by the chatbot made me satisfied.
Behavioral Intentions
Intention to Use I will use this chatbot frequently.
Intention to Purchase Given a chance, I predict that I would consider buying the items recommended by the chatbot in the near future.

表 5. CRS-Que 的短版本。 为了方便进行快速评估研究,本文基于因子分析的载荷和模型结构的相似性,提供了一个 CRS-Que 的短版本,每个构念只包含一个最具代表性的问题。

7. 总结与思考

7.1. 结论总结

本文提出了 CRS-Que,一个用于对话推荐系统 (CRS) 以用户为中心的统一评估框架。该框架以 ResQue 为基础,并创造性地整合了对话系统的用户体验指标,如理解度、响应质量和人性化等,并将它们置于 ResQue 的“感知质量”和“用户信念”维度之下。通过在音乐探索和手机购买两个不同场景(低用户参与度与高用户参与度)下的用户研究,并使用心理测量建模方法 (CFASEM),作者验证了 CRS-Que 框架的有效性和可靠性。

主要发现包括:

  1. 框架的普适性与鲁棒性: CRS-Que 在不同应用领域和平台(桌面与移动)下均表现出良好的适用性,验证了其构念和构念间关系的稳定性。

  2. 对话与推荐的融合: 框架明确揭示了对话构念与推荐构念之间的相互作用。例如,推荐的新颖性可以正向影响对话的亲和力,而 CRS 的理解力可以提升用户感知的易用性和控制力。

  3. ResQue 的扩展: CRS-Que 重新验证了 ResQue 中许多既有路径,并引入了新的对话相关路径,展示了当推荐通过对话交互进行时,用户体验评估的新维度。

  4. 对用户态度和行为意图的影响: 对话和推荐构念通过用户信念和态度共同影响行为意图。例如,CUI Humanness (CUI 人性化) 可以通过 Trust & Confidence (信任与信心) 间接影响 Intention to Purchase (购买意图);在某些情况下,CUI Rapport (CUI 亲和力) 甚至可以直接影响 Intention to Use (使用意图)。

    CRS-QueCRS 的用户中心评估提供了一个标准化、系统化的工具,有助于研究人员进行比较研究,并为从业者设计和优化 CRS 提供理论指导和实践洞见。

7.2. 局限性与未来工作

作者在讨论中指出了 CRS-Que 框架开发和验证的几点局限性:

  • 研究设计的泛化性: 研究一中对话设计主要集中于基于批判的交互,这代表了 CRS 中用户反馈获取的一种特定方式,可能限制了框架的普遍适用性。

  • 领域影响的评估: 尽管在两个不同应用领域(音乐和手机)进行了验证,但由于系统本身不同,难以精确地评估领域对框架的影响。

  • 交互模式的局限性: 框架主要通过文本对话进行验证。对于语音交互的 CRS,可能需要额外增加与语音质量相关的构念并进行验证。

  • 系统技术限制: 实验中使用的 CRS 存在技术限制,例如预定义意图可能无法覆盖所有用户意图,且对话能力与大型语言模型 (LLMs) 驱动的代理尚不可比。

    基于这些局限性,作者提出了未来的研究方向:

  • CRS 中纳入更多样化的对话设计和推荐场景。

  • 进一步研究评估框架的领域独立性(例如,在不同领域测试相同的 CRS)。

  • 对语音交互的 CRS 进行额外的研究验证。

  • 使用更先进的对话代理(例如,基于 ChatGPTLLMs)来评估推荐场景。

  • 持续跟踪 CRS-Que 的使用情况,以维护和发展该评估框架。

7.3. 个人启发与批判

7.3.1. 个人启发

这篇论文最大的启发在于其整合性思维。在多领域交叉研究中,简单地将不同领域的评估指标堆砌起来是无效的。本文通过严谨的心理测量学方法,将对话和推荐的 UX 构念有机地融合到一个统一的框架中,并验证了它们之间的相互作用,这对于理解用户在复杂人机交互系统中的整体体验至关重要。

具体来说:

  1. 用户中心设计的重要性: 再次强调了用户感知在系统成功中的核心地位。即使算法性能再好,如果用户觉得系统不理解、不信任或难以使用,那么系统终将失败。
  2. 对话质量的细致考量: CUI UnderstandingCUI Response QualityCUI AttentivenessCUI RapportCUI Humanness 这些构念的引入,使得对 CRS 对话质量的评估变得更加全面和深入,超越了简单的任务成功率。
  3. 多维度影响链的揭示: SEM 模型的强大之处在于能够揭示复杂的因果路径。论文中发现“解释性”不仅影响“透明度”和“信任”,还能影响“CUI 注意力”,以及“新颖性”对“CUI 适应性”的影响,这些都是传统单一评估难以捕捉的洞见,对 CRS 的设计优化提供了更精细的指导。
  4. 标准化工具的价值: CRS-Que 提供了一个可复用、可比较的评估工具,有助于推动 CRS 领域的用户研究向更规范、更科学的方向发展。短版本问卷的提供也兼顾了实践中的效率需求。

7.3.2. 潜在问题、未经验证的假设或可以改进的地方

  1. LLMs 时代的挑战与机遇: 论文中提到的“当前系统技术限制”是关键。LLMs 驱动的 CRS 拥有远超预定义意图系统的对话能力和生成能力。这可能会改变用户对 CUI UnderstandingCUI Response Quality 甚至 CUI Humanness 的感知基线。在 LLM 环境下,一些现有构念的重要性排序或相互关系可能发生变化,甚至可能出现新的、需要评估的对话 UX 构念(例如,用户对 LLM 幻觉的容忍度、安全性感知、伦理偏见感知等)。未来的工作应尽快在 LLM-CRS 上验证 CRS-Que

  2. 细粒度交互模式的评估: 研究一发现“批判发起方式”对用户感知没有显著影响,这与一些 GUI 推荐系统的研究结果相悖。这可能表明自然语言交互本身具有某种“平滑”效应,或者特定领域(音乐探索)的决策复杂性较低。但更深层的原因是什么?是用户根本不关心谁发起批判,还是自然语言的灵活性弥补了发起方式的差异?这需要结合定性研究(如用户访谈、眼动追踪)来深入探究。

  3. 跨文化背景的泛化性: 论文中的参与者主要来自西方国家(英国、美国等)。用户对推荐系统和对话代理的感知、信任以及对“人性化”的期望可能因文化背景而异。CRS-Que 在其他文化背景下的泛化性仍需验证。

  4. 长时间使用与动态评估: 本文的用户研究是单次、任务导向的。用户对 CRS 的体验和信任可能会随着长时间使用和系统学习而动态变化。CRS-Que 作为一个横断面评估工具,可能难以捕捉这种动态变化。未来的工作可以考虑引入纵向研究或在不同时间点进行重复评估。

  5. 主观性与客观性的结合: 尽管论文强调用户中心评估的重要性,但纯粹的主观问卷评估仍有其局限性,例如社会期望效应、回忆偏差等。结合客观指标(如对话轮次、任务完成时间、推荐点击率等)进行 triangulate (三角验证),可能会提供更全面的洞察。

  6. 短版本问卷的风险: 虽然短版本问卷 (Table 5) 方便实用,但每个构念只用一个问题测量,可能牺牲了部分测量精度和对构念复杂性的捕捉。在对构念进行细致分析时,仍建议使用完整问卷。

    总而言之,CRS-QueCRS 评估领域的一个坚实且重要的贡献,它为未来的研究奠定了基础。但随着技术(尤其是 LLM)的飞速发展和应用场景的日益复杂,该框架仍需不断演进和细化。

相似论文推荐

基于向量语义检索推荐的相关论文。

暂时没有找到相似论文。