论文状态:已完成

Can LLMs Address Mental Health Questions? A Comparison with Human Therapists

发表:2025/09/16
原文链接PDF 下载
价格:0.10
价格:0.10
已有 8 人读过
本分析由 AI 生成,可能不完全准确,请以原文为准。

TL;DR 精炼摘要

本研究比较了大语言模型(LLM)生成的心理健康回答与人类治疗师的回复。结果显示,LLM的回答在长度、可读性、词汇丰富度和积极性上更有优势,而人类治疗师的回复更常使用第一人称。尽管用户认为LLM的回答更清晰、更尊重并支持,但仍偏好人类治疗师的支持,反映出LLM在心理健康中的潜力与局限性。

摘要

Limited access to mental health care has motivated the use of digital tools and conversational agents powered by large language models (LLMs), yet their quality and reception remain unclear. We present a study comparing therapist-written responses to those generated by ChatGPT, Gemini, and Llama for real patient questions. Text analysis showed that LLMs produced longer, more readable, and lexically richer responses with a more positive tone, while therapist responses were more often written in the first person. In a survey with 150 users and 23 licensed therapists, participants rated LLM responses as clearer, more respectful, and more supportive than therapist-written answers. Yet, both groups of participants expressed a stronger preference for human therapist support. These findings highlight the promise and limitations of LLMs in mental health, underscoring the need for designs that balance their communicative strengths with concerns of trust, privacy, and accountability.

论文精读

中文精读

1. 论文基本信息

1.1. 标题

Can LLMs Address Mental Health Questions? A Comparison with Human Therapists (LLM 能否解决心理健康问题?与人类治疗师的比较)

1.2. 作者

Synthia Wang, Yuwei Cheng, Sarah Keedy, Marc Berman, Nick Feamster (芝加哥大学); Austin Song (弗吉尼亚大学)。

1.3. 发表期刊/会议

该论文以预印本形式发布在 arXiv 上。arXiv 是一个开放获取的预印本服务器,涵盖物理学、数学、计算机科学、量化生物学、量化金融学、统计学、电气工程与系统科学、经济学等领域。作为预印本平台,其上的论文尚未经过同行评审,但通常是相关领域研究人员分享最新研究成果的重要途径。

1.4. 发表年份

2025年

1.5. 摘要

心理健康护理的可及性有限,促使人们利用数字工具和由大语言模型 (LLMs) 驱动的对话代理 (conversational agents)。然而,它们的质量和接受度仍不明确。本研究比较了治疗师撰写的回复与 ChatGPT、Gemini 和 Llama 为真实患者问题生成的回复。文本分析显示,LLM 生成的回复更长、可读性更强、词汇更丰富,并且语气更积极,而治疗师的回复则更常使用第一人称。在一项针对 150 名用户和 23 名持牌治疗师的调查中,参与者认为 LLM 的回复比治疗师撰写的回复更清晰、更尊重、更具支持性。然而,两组参与者都表示更强烈地偏好人类治疗师的支持。这些发现突出了 LLM 在心理健康领域的潜力和局限性,强调了需要设计出能平衡其沟通优势与信任、隐私和责任等担忧的方案。

1.6. 原文链接

原文链接: https://arxiv.org/abs/2509.12102 PDF 链接: https://arxiv.org/pdf/2509.12102v1.pdf 发布状态: 预印本 (Pre-print)

2. 整体概括

2.1. 研究背景与动机

全球对心理健康支持的需求正以前所未有的速度增长。在美国,每年超过 20% 的成年人患有可诊断的心理疾病,预计到 2030 年,重度抑郁症将成为全球疾病的主要原因。然而,由于持牌专业人员短缺、等候名单漫长以及其他结构性障碍,许多人无法及时或负担得起护理。社会因素也进一步限制了可及性,心理健康相关的污名 (stigma) 在不同文化、国家甚至地方背景下(例如,城市与农村)各异,阻止了许多人寻求专业帮助。

与此同时,大型语言模型 (LLMs) 在近年来迅速融入日常生活。近期调查显示,近一半的美国成年心理健康患者曾尝试使用 LLMs 寻求治疗支持,而大约三分之一的美国和英国人口每天使用生成式人工智能 (generative AI) 进行从提高生产力到健康咨询等目的。这些趋势表明了人工智能工具日益增长的可及性,以及在传统心理健康资源有限时,人们对替代支持来源的日益依赖。

传统的对话代理 (conversational agents) 已经在心理健康领域得到应用,例如 Woebot 和 Wysa 等结构化工具在提供认知行为疗法 (Cognitive Behavioral Therapy, CBT) 方面展现了可行性和参与度。然而,LLMs 的出现彻底改变了人们对可及性、个性化和规模化的期望。虽然 LLMs 在生成治疗计划、支持日记、协助认知重构和提供临床相关解释等方面显示出潜力,但它们也带来了新的风险,例如幻觉 (hallucinations)(提供不准确信息)、文化敏感性不足以及围绕安全性、隐私、责任和情感依赖的伦理问题。

现有研究的挑战或空白 (Gap): 尽管现有研究表明 LLMs 能够分类心理健康问题并提供精神病学知识,但目前系统性地比较 LLM 回复与持牌专业人员回复的证据仍然很少。更少有研究同时考虑终端用户和治疗师的视角进行评估,而这对于全面理解信任、可接受性和实用性至关重要,这些都是将 LLMs 负责任地整合到心理健康护理中的核心要素。

本论文的切入点和创新思路: 本文旨在通过一项系统性研究来弥补这些空白,该研究比较了 LLM 生成的回复与人类治疗师撰写的回复,并从普通用户和持牌治疗师两个群体的视角对其进行评估。通过文本分析和问卷调查相结合的方式,全面探究 LLMs 在心理健康支持方面的优势与局限性。

2.2. 核心贡献/主要发现

本研究的主要贡献和关键发现总结如下:

  • 首次系统性比较: 提供了首批系统性比较 LLM 生成的回复与人类治疗师撰写的回复对真实心理健康问题的研究之一,填补了该领域的一个重要空白。
  • 多维度评估: 结合了文本分析和用户/治疗师的感知评估,从语言特征和主观感受两个层面全面考察了 LLM 的表现。
  • LLM 沟通优势的揭示: 文本分析显示,LLM 生成的回复通常更长、词汇更丰富、可读性更强,并表现出更积极或中性的语气。而治疗师的回复更常使用第一人称,更具个人色彩。
  • 用户和治疗师对 LLM 评分更高: 在调查中,普通参与者和持牌治疗师都一致认为 LLM 生成的回复在清晰度、鼓励性、支持性和尊重性方面优于人类治疗师的回复。
  • LLM 模型间的差异: 尽管 ChatGPT 和 Gemini 的表现相当,但 Llama 在清晰度、鼓励性、尊重性和整体喜好度方面始终获得最高评分,这挑战了开源模型不如专有模型的普遍看法。
  • 信任与偏好之间的鸿沟: 尽管 LLM 获得了更高的感知质量评分,但用户和治疗师都强烈偏好寻求人类治疗师的帮助。76% 的用户表示遇到心理健康问题时宁愿寻求人类治疗师的帮助,而治疗师也普遍不愿推荐 LLMs 用于超出提供一般信息之外的用途。
  • 区分作者的挑战: 参与者在区分 LLM 生成的回复和人类撰写的回复时存在一定困难,但仍高于随机猜测的水平。然而,这种区分能力并未显著影响他们对回复的评分。
  • 治疗经验的影响: 参与者的治疗经验对评分有细微影响,例如,拥有超过 10 年治疗经验的参与者对 Llama 的评价更为积极。
  • 强调跨学科合作: 研究团队发现,心理学和计算机科学背景的成员对结果的解释存在差异,强调了跨学科合作对于确保 LLM 在心理健康领域研究的实用性和适用性的重要性。
  • 对设计和部署的启示: 强调了在心理健康领域部署 LLMs 时,需要在沟通能力、信任、隐私和责任之间取得平衡,并提出 LLMs 应作为补充而非替代工具,且需具备隐私保护架构和危机升级机制。

3. 预备知识与相关工作

3.1. 基础概念

  • 大语言模型 (Large Language Models, LLMs): 是一种基于深度学习的计算机程序,通过在海量文本数据上进行训练,学习语言的模式、语法、语义和世界知识。它们能够生成、理解和翻译人类语言,并执行各种自然语言处理 (Natural Language Processing, NLP) 任务,如问答、摘要和内容创作。本文中特指 ChatGPT、Gemini 和 Llama 等模型。
  • 对话代理 (Conversational Agents, CAs): 也称为聊天机器人 (chatbots),是旨在通过文本或语音与人类进行对话的计算机程序。在心理健康领域,它们被设计用于提供支持、信息或甚至结构化的心理治疗。
  • 心理健康护理 (Mental Health Care): 旨在预防、诊断和治疗心理疾病,并促进心理健康的专业服务。
  • 李克特量表 (Likert Scale): 是一种常用的心理测量量表,用于衡量人们对某种陈述或问题的态度、意见或感知。通常采用奇数点(如 5 点或 7 点),从“非常不同意”到“非常同意”进行评分。本研究使用了 5 点李克特量表。
  • Flesch 阅读易度分数 (Flesch Reading Ease score): 一种衡量文本可读性的标准指标。分数越高,表示文本越容易阅读。
  • 类型-标记比 (Type-Token Ratio, TTR): 衡量文本词汇多样性或丰富度的指标。Type 指的是文本中不同词汇的数量(不重复),Token 指的是文本中总词汇的数量。高 TTR 值表示词汇多样性更高。本文使用了归一化 (normalized) 的类型-标记比,以减少文本长度对该指标的偏差。
  • 对冲 (Hedging): 在语言学中,指说话者或作者使用词语或短语来表达不确定性、保留意见或减轻陈述的直接性。例如,“可能”、“也许”、“有点”、“在某种程度上”等词。
  • VADER 情感词典 (VADER Sentiment Lexicon): 一种专门为分析社交媒体文本情感而设计的基于规则和词典的情感分析工具。它不仅识别文本的情感极性(积极、消极、中性),还会给出情感强度得分,通常是一个复合分数 (compound score)。
  • 曼-惠特尼 U 检验 (Mann-Whitney U tests): 一种非参数统计检验,用于比较两个独立样本的中位数,以确定它们是否来自同一总体或具有相同分布。它不要求数据服从正态分布。
  • 秩-二列相关 (Rank-biserial correlation): 一种非参数效应量指标,用于衡量二分变量与序数变量之间的关系强度,常与曼-惠特尼 U 检验配合使用。
  • 威尔科克森符号秩检验 (Wilcoxon signed-rank test): 一种非参数统计检验,用于比较两个相关样本(配对样本)的中位数,以确定它们之间是否存在显著差异。它是配对 t 检验的非参数替代方案,适用于不满足正态分布假设的序数数据。
  • 累积链接混合模型 (Cumulative Link Mixed Model, CLMM): 是有序回归 (ordinal regression) 的扩展,用于分析有序分类结果数据。它能够处理有序分类因变量,并能通过纳入随机效应 (random effects) 来建模重复测量数据中个体内相关性(例如,同一参与者对多个项目进行评分)。

3.2. 前人工作

论文在“2 背景 (Background)”一节中详细回顾了与对话代理和 LLMs 在心理健康领域应用相关的先前研究:

  • 心理健康领域的对话代理 (Conversational Agents in Mental Health):

    • 历史与效果: 像 Woebot 和 Wysa 这样的成熟聊天机器人已被广泛研究,证明它们能够以可行、引人入胜且有效的方式提供结构化认知行为疗法 (CBT)。Woebot 在抑郁和焦虑症状的年轻人中展示了效果,Wysa 在支持自我报告抑郁症状的个体方面也显示出潜力。
    • 治疗关系: 尽管治疗关系传统上被认为是人类特有的,但证据表明数字干预也能与用户建立有意义的治疗关系,促进情感投入和自我披露。聊天机器人的自我披露尤其能促进相互披露、增强感知亲密度和提高用户享受度。
    • 污名减少: 基于聊天机器人的社会接触被认为是减少精神疾病污名并可能补充公共卫生工作的有前景方法。
    • 设计与参与度: 多模态对话代理、基于生成式 AI 的系统以及嵌入在移动或即时消息平台中的系统,往往能实现更高的参与度和依从性,尤其是在临床、亚临床和老年人群中。
    • 信任与隐私: 研究表明用户信任聊天机器人进行情绪记录、提供建议和指导等任务,但对数据隐私和个人信息存储仍存在担忧。
    • 挑战: 对话代理在提供细致入微的情感支持、保持一致互动以及避免过度依赖方面面临挑战。伦理和法律考量,包括不正确建议的责任和受保护健康信息的隐私,对其负责任的部署至关重要。
  • 心理健康领域的 LLMs (LLMs in Mental Health):

    • 新机遇: LLMs 的出现为个性化、可扩展和可解释的心理健康支持带来了新的可能性。
    • 实验性应用: LLM 在日记、认知重构、心理健康分类和治疗计划生成等多个领域进行了实验性探索。
    • 性能提升: LLM 展现出强大的上下文学习能力,结合少量样本提示和情感线索整合,可以在生成临床相关解释方面达到人类水平的表现。例如,MentalBlend 框架展示了如何将认知行为疗法、辩证行为疗法、以人为本疗法和现实疗法原则嵌入 LLM 回复中。
    • 作为临床辅助工具: LLM 还可以简化复杂的精神病学信息,支持患者理解和临床医生决策。评估表明 LLM 可以在诊断、治疗计划和心理教育等领域提供高质量支持,并具有用于严重精神疾病治疗计划中可衡量目标生成的潜力。
    • 风险与挑战: LLM 在心理健康应用中存在诸多风险和挑战,包括技术限制(幻觉、可解释性有限、预测不一致、偏见)、文化敏感性、情感深度和上下文理解的不足。伦理问题尤其令人担忧,包括隐私侵犯、缺乏知情同意、责任不明确和不适当的信任形成。过度依赖 LLM 可能导致情感依赖、误解用户披露和治疗关系的侵蚀。安全问题涉及 LLM 生成的建议可能不准确或有害。此外,LLM 可能无意中加剧不平等、强化污名并损害心理健康服务的公平性。研究人员强调,人类咨询师的细致理解、同理心和情境判断是不可替代的,严格的伦理准则、专业监督和健全的评估框架对于安全部署至关重要。

3.3. 技术演进

心理健康领域的数字支持从结构化的对话代理 (CAs) 发展而来,这些早期工具(如 Woebot、Wysa)主要通过预设规则和脚本来提供认知行为疗法 (CBT) 等结构化干预。它们在用户参与度和实现特定治疗目标方面已得到验证,并能够建立一定程度的“数字治疗关系”。

随着大语言模型 (LLMs) 的兴起,这一领域迎来了重大变革。LLMs 凭借其强大的自然语言理解和生成能力,能够提供更具个性化、流畅和多样化的回复,超越了传统对话代理的脚本限制。它们能够进行更复杂的推理、生成更接近人类语言的文本,并被探索用于更广泛的心理健康任务,如生成治疗计划、支持日记、认知重构以及提供临床解释等。这种演进使得数字心理健康工具从“规则驱动”向“数据驱动”和“生成式”转变,极大地扩展了其潜在应用范围和交互的自然度。

3.4. 差异化分析

本文的工作与相关工作的核心区别和创新点在于:

  • 系统性比较: 现有工作多关注 LLM 的单一应用潜力或风险,缺乏 LLM 与人类治疗师之间在真实心理健康问题回复上的直接、系统性比较。本文通过将 LLM 生成的回复与人类治疗师撰写的回复进行并置分析,提供了这种直接对比。
  • 多模型覆盖: 研究涵盖了当前流行的三款 LLM(ChatGPT、Gemini、Llama),而不仅仅是关注某一特定模型,这使得结论更具普遍性和代表性。
  • 多视角评估: 大多数研究往往只关注技术能力或单一用户群体(如患者)的感知。本文独具匠心地纳入了普通用户和持牌治疗师这两种关键视角的评估,使得研究结果能够更全面地反映 LLM 的可接受性、信任度和临床适用性。这种双重视角对于理解 LLM 在敏感领域的实际部署至关重要。
  • 结合文本分析和感知评估: 除了用户和治疗师的主观评分,本文还进行了详细的文本语言特征分析(长度、可读性、词汇多样性、对冲、第一人称使用、情感),这为理解 LLM 回复感知质量的底层语言机制提供了客观证据。
  • 关注“信任鸿沟”: 论文明确揭示了 LLM 在感知沟通质量方面获得高分,但在实际信任和偏好方面却远不如人类治疗师的“信任鸿沟”,这对于 LLM 在心理健康领域的负责任设计和部署具有深刻的指导意义。

4. 方法论

4.1. 方法原理

本研究的核心思想是通过一项综合性调查和文本分析,比较大型语言模型 (LLM) 生成的心理健康问题回复与人类持牌治疗师撰写的回复。研究旨在从语言特征(如长度、可读性、情感)和用户/治疗师的感知(如清晰度、支持性、专业接受度)两个维度,全面评估 LLM 在心理健康支持方面的能力、优势和局限性。通过这种比较,论文旨在回答 LLM 在心理健康领域是否可行、表现如何,以及在实际应用中面临哪些挑战。

4.2. 核心方法详解

4.2.1. 研究设计

本研究采用了一项调查研究 (survey study),旨在收集用户对治疗师撰写和 LLM 生成的心理健康相关问题回复的评分。为了避免参与者对 LLM 的潜在偏见,研究任务被框定为“对心理健康相关问题的不同回复进行评分”,并未提及可能使用 LLM。

4.2.2. 参与者招募

为了适应不同参与者的可用性和专业背景,普通用户和持牌治疗师通过不同程序招募。

  • 普通用户 (Regular Users):

    • 招募平台: 通过 Prolific 平台招募,这是一个常用的众包研究平台。
    • 招募时间: 2024 年 11 月。
    • 补偿: 完成约 15 分钟的调查后获得 10 美元补偿。
    • 样本量: 最终数据集包含 150 名参与者的回复。
    • 人口统计学信息: 详见 Table 1。
  • 持牌治疗师 (Licensed Therapists):

    • 招募平台: 通过内部邮件列表和滚雪球抽样 (snowball sampling) 招募。公共平台不适合招募持牌治疗师,因为缺乏可靠的方式验证其专业资质。
    • 招募时间: 2024 年 11 月至 2025 年 1 月。
    • 补偿: 参与者进入抽奖,一名被选中的个体获得 100 美元亚马逊礼品卡。
    • 样本量: 最终共 23 名持牌治疗师完成调查。
    • 人口统计学信息: 详见 Table 2。

4.2.3. 调查设计

4.2.3.1. 数据集

为了模拟真实世界的使用情境,研究使用了 Counsel Chat 数据集 [3]。该数据集包含用户发布的心理健康相关问题以及持牌治疗师提供的匿名回复。这些数据来自一个在线平台,用户可以在其中提问,并获得持牌心理健康专业人员在公共留言板形式下的回复。

  • 问题过滤: 过滤掉没有治疗师回复的问题后,保留了 845 个问题。
  • 主题覆盖: 这些问题涵盖 30 多个不同主题,包括抑郁症、焦虑症和人际关系问题。
  • LLM 回复生成: 研究提取了独特的患者问题作为提示,与三个广泛使用的 LLM 聊天机器人(ChatGPT、Gemini、Llama)进行对话,以收集 LLM 生成的回复。
    • 模型选择: 选择了 ChatGPT (chatgpt-4o-latest)、Gemini (gemini-1.5-pro) 和 Llama (Llama-3.1-70B-Instruct),以涵盖专有商业模型和开源替代方案。
    • 生成方式: 为了考虑到 LLM 行为的可变性,每个问题对每个模型都进行了三次单独的会话提示,每次都开启一个新会话,从而为每个问题、每个模型生成了三份回复。
    • 提示策略: 研究刻意避免使用系统级提示 (system-level prompting) 或额外指令,旨在复制日常用户与这些工具互动时的条件,而非为研究目的优化回复。

4.2.3.2. 问卷

  • 问题抽样: 从 Counsel Chat 数据集中随机抽取了 90 个问题,同时保持主题分布与完整语料库一致,以确保研究规模可控。
  • 回复配对:
    • 对于每个问题,随机分配一个 LLM 模型,并从其预生成的三个回复中随机选择一个。
    • 当有多个治疗师回复时,随机选择一个与 LLM 生成的回复配对。
    • 最终生成了 90 个问题,每个问题包含一个治疗师撰写和一个 LLM 生成的回复。
  • 有害内容检查: 所有回复都经过人工检查,以确保不包含有害内容。
  • 调查呈现:
    • 每个参与者被要求评估三个问题,每个问题配对来自不同 LLM 的回复,问题被随机分配以确保模型之间的平衡代表性。
    • 每个问题在调查中连续呈现两次,一次是治疗师回复,一次是 LLM 生成的回复,其呈现顺序是随机的。
  • 评价维度: 参与者使用五点李克特量表(从“强烈不同意”到“强烈同意”)对每个回复进行以下维度评分:
    • This response is clear. (这个回复很清晰。)
    • This response answers the question. (这个回复回答了问题。)
    • This response is encouraging and supportive. (这个回复令人鼓舞和支持。)
    • This response is respectful, accepting, and not judging. (这个回复是尊重的、接受的,不带评判。)
    • Overall, I like this answer. (总的来说,我喜欢这个回复。) 这些评价维度反映了心理健康语境中有效沟通的核心品质,并来源于对治疗联盟和感知帮助性的常见非特异性因素。
  • 治疗师额外维度: 持牌治疗师参与者的流程相同,但他们还对每个回复额外评估了一个维度:acceptable from a professional perspective (这个回复从专业角度看是可以接受的)。
  • 作者身份判断: 完成所有评分任务后,再次呈现相同的问答对,参与者被要求表明他们认为每个回复有多大可能是由 LLM 生成的。这一任务在评分后进行,以最小化潜在偏见。
    • “强烈同意”或“有些同意”被编码为同意回复由 LLM 生成。
    • “强烈不同意”或“有些不同意”被编码为同意回复由治疗师撰写。
    • “中立”被视为困惑或缺乏明确判断。
  • 注意力检查 (Attention Checks): 调查中包含注意力检查问题,以确保数据质量。每个参与者会随机收到一个,如果回答错误则其数据被排除。仅有两名用户参与者未通过注意力检查,其回复被排除。

4.2.4. 数据分析

4.2.4.1. 文本分析 (Text Analysis)

为了表征治疗师和 LLM 语言使用的差异,研究检查了几个捕捉长度、风格和语气的文本属性。

  • 回复长度 (Response length): 以词数 (word count) 衡量。
  • 可读性 (Readability): 使用 Flesch 阅读易度分数 (Flesch Reading Ease score) 评估。
    • 概念定义 (Conceptual Definition): 衡量文本可读性,分数越高表示越容易阅读。
    • 数学公式 (Mathematical Formula): 206.8351.015×(total wordstotal sentences)84.6×(total syllablestotal words) 206.835 - 1.015 \times \left( \frac{\text{total words}}{\text{total sentences}} \right) - 84.6 \times \left( \frac{\text{total syllables}}{\text{total words}} \right)
    • 符号解释 (Symbol Explanation):
      • total words: 文本中的总词数。
      • total sentences: 文本中的总句数。
      • total syllables: 文本中的总音节数。
  • 词汇丰富度 (Vocabulary richness): 计算归一化类型-标记比 (normalized type-token ratio)。
    • 概念定义 (Conceptual Definition): 衡量文本词汇多样性,值越高表示词汇多样性越高,同时减少了文本长度带来的偏差。
    • 数学公式 (Mathematical Formula): number of unique wordstotal words \frac{\text{number of unique words}}{\sqrt{\text{total words}}}
    • 符号解释 (Symbol Explanation):
      • number of unique words: 文本中唯一词汇的数量。
      • total words: 文本中的总词数。
  • 风格差异 (Stylistic differences):
    • 对冲表达 (Hedging expressions): 识别如“可能 (possibly)”或“这取决于 (it depends)”等表示不确定性的词语。
    • 第一人称代词 (First-person pronouns): 统计第一人称代词的使用次数,反映主观性。
  • 情感 (Sentiment): 使用 VADER 情感词典 (VADER sentiment lexicon) 量化回复的情感。
    • 概念定义 (Conceptual Definition): VADER (Valence Aware Dictionary and sEntiment Reasoner) 是一种基于规则和词典的社交媒体文本情感分析工具。它通过结合情感词典、强度修饰词(如副词)和标点符号等语言特征来计算文本的情感分数。
    • 数学公式 (Mathematical Formula): VADER 的核心是一个复杂的规则系统而非单一公式。它的输出通常是一个复合分数 (compound score),范围从 -1(最负面)到 +1(最正面),该分数是对积极、消极和中性情感强度进行综合归一化处理后的结果。
    • 符号解释 (Symbol Explanation):
      • compound score: VADER 输出的复合情感分数,它综合了文本中积极、消极和中性情感的强度,并将其归一化到 [-1, 1] 的范围。正值表示积极情感,负值表示消极情感,接近零表示中性情感。
  • 统计分析: 使用曼-惠特尼 U 检验 (Mann-Whitney U tests) 评估统计显著性,并使用秩-二列相关 (rank-biserial correlation) 评估效应量,适用于非正态分布数据。

4.2.4.2. 调查回复分析 (Survey Response Analysis)

为了比较治疗师和 LLM 回复的评分,研究构建了三个治疗师-LLM 配对,对应于研究中的三个 LLM 模型。

  • 配对比较: 使用威尔科克森符号秩检验 (Wilcoxon signed-rank test),这是一种非参数检验,适用于序数数据的配对比较,不要求正态分布假设。对于每个评估维度,检验 LLM 与治疗师评分之间的配对差异是否大于零(单侧检验)。
  • 评分差异建模: 为了探究不同因素如何影响参与者评分,研究对 LLM 生成回复与治疗师撰写回复之间的评分差异进行建模。这个差异作为因变量。
  • 累积链接混合模型 (Cumulative Link Mixed Model, CLMM): 使用 CLMM 分析这些有序差异,并考虑来自同一参与者的重复测量,通过纳入随机效应来建模个体内相关性。CLMM 是有序回归的扩展,处理有序分类结果。
    • 概念定义 (Conceptual Definition): CLMM 是一种广义线性混合模型,专门用于分析有序分类因变量(例如李克特量表评分)。它通过估计每个类别截止点的累积概率来建模响应,并允许纳入随机效应来处理分层数据或重复测量数据,从而考虑个体内或群体内的变异性。
    • 数学公式 (Mathematical Formula): Pr(Dijkxij,ui)=logit1(θkηijui),k=4,,3, \Pr(D_{ij} \leq k \mid \mathbf{x}_{ij}, u_i) = \mathrm{logit}^{-1}(\theta_k - \eta_{ij} - u_i), \quad k = -4, \ldots, 3, 其中,线性预测器 ηij\eta_{ij} 被指定为: ηij=αgeminiI(Treatment=gemini)+αllamaI(Treatment=llama)+mβmXijm+γ(Treatment×Experience)ij \eta_{ij} = \alpha_{\mathrm{gemini}} I(\mathrm{Treatment} = \mathrm{gemini}) + \alpha_{\mathrm{llama}} I(\mathrm{Treatment} = \mathrm{llama}) + \sum_m \beta_m X_{ijm} + \sum_\ell \gamma_\ell (\mathrm{Treatment} \times \mathrm{Experience})_{ij\ell}
    • 符号解释 (Symbol Explanation):
      • DijD_{ij}: 参与者 ii 对治疗 jj 的评分差异,定义为 LLM 回复评分与人类回复评分之间的差值,取值范围为 {4,3,,4}\{-4, -3, \ldots, 4\}
      • kk: 评分差异的类别(截止点),取值范围从 -4 到 3。
      • Pr(Dijkxij,ui)\Pr(D_{ij} \leq k \mid \mathbf{x}_{ij}, u_i): 在给定协变量 xij\mathbf{x}_{ij} 和参与者特定随机效应 uiu_i 的情况下,评分差异 DijD_{ij} 小于或等于类别 kk 的累积概率。
      • logit1()\mathrm{logit}^{-1}(\cdot): logit 函数的反函数(即逻辑函数),将线性预测器转换回概率尺度。
      • θk\theta_k: 阈值 (cutpoint) 参数,表示在其他所有预测变量为零时,累积概率达到 kk 的线性预测器值。
      • ηij\eta_{ij}: 线性预测器,表示参与者 ii 在治疗 jj 下的系统性效应。
      • uiu_i: 参与者 ii 的随机截距 (random intercept),假设服从均值为 0、方差为 σ2\sigma^2 的正态分布 uiN(0,σ2)u_i \sim \mathcal{N}(0, \sigma^2),用于解释来自同一参与者的重复测量之间的相关性。
      • αgemini\alpha_{\mathrm{gemini}}, αllama\alpha_{\mathrm{llama}}: LLM 模型类型(Gemini 和 Llama 相对于基准模型 ChatGPT)的固定效应系数。
      • I(Treatment=gemini)I(\mathrm{Treatment} = \mathrm{gemini}), I(Treatment=llama)I(\mathrm{Treatment} = \mathrm{llama}): 指示函数,如果治疗 jj 是 Gemini 或 Llama,则取值为 1,否则为 0。
      • βm\beta_m: 第 mm 个人口统计学协变量(如教育、年龄、种族、州、性别,以及是否能区分 AI)的固定效应系数。
      • XijmX_{ijm}: 参与者 ii 在治疗 jj 下的第 mm 个人口统计学协变量的值。
      • γ\gamma_\ell: 第 \ell 个交互项(LLM 类型与治疗经验之间的交互作用)的固定效应系数。
      • (Treatment×Experience)ij(\mathrm{Treatment} \times \mathrm{Experience})_{ij\ell}: 表示 LLM 模型类型与参与者治疗经验之间的交互项。
  • 预测变量: 主要关注 LLM 模型(ChatGPT、Gemini、Llama),以及人口统计学协变量(教育、年龄、种族、州、性别)和治疗经验。还包括交互项,以测试治疗效果是否因治疗经验而异。
  • 作者身份判断: 参与者是否能正确区分 LLM 生成的回复和治疗师撰写的回复,作为 CLMM 的一个协变量,以探索其是否调节评分。
  • 软件: 所有统计分析均在 R 中进行,使用 base stats 包进行 Wilcoxon 符号秩检验,ordinal 包进行 CLMM。

4.2.5. 局限性

研究者在论文中坦诚地指出了本研究的几项局限性:

  • 非真实治疗环境: 研究并非直接测试治疗师对其自身患者的回复与聊天机器人回复的比较,而是比较了持牌治疗师和 LLMs 在公共论坛(如 Counsel Chat)背景下对心理健康相关问题的回复。这些回复的质量和深度可能与专业治疗标准不完全一致,因此研究结果对实际治疗服务(其中治疗关系和情境显著不同)的适用性有限。本研究最好理解为考察聊天机器人在提供辅助性、信息性心理健康支持方面的潜力,而非替代专业护理。
  • 感知质量而非治疗效果: 参与者的评分反映的是对清晰度、同理心和尊重等品质的感知,而非经过验证的治疗效果。被评为低分的回复仍可能具有卓越的治疗价值,这些众包评分与实际治疗效果如何关联仍是一个开放的研究问题。
  • 样本局限性与泛化能力:
    • 所有参与者均为讲英语的美国成年人,这可能限制了结果对其他文化、语言和人口群体的适用性。
    • 治疗师样本量相对较小(n=23n=23),降低了专业人员与非专业人员评估之间比较的统计功效 (statistical power)。
  • LLM 性能未优化: 研究刻意避免了提示工程 (prompt engineering) 或系统级定制 LLM 生成回复,以模拟日常使用情况。这可能低估了系统在优化条件下的最佳性能。
  • 短期感知评估: 研究侧重于短期的感知评分,虽然捕捉了支持性沟通的重要方面,但未能解决治疗安全性、长期有效性或潜在风险等问题。

5. 实验设置

5.1. 数据集

本研究采用的数据集是 Counsel Chat [3],这是一个包含真实用户发布的心理健康相关问题以及持牌治疗师提供的回复的匿名数据集。

  • 数据来源: 该数据集通过一个在线平台收集,用户可以在该平台上提出心理健康问题,并获得持牌心理健康专业人员以留言板形式公开回复。
  • 数据特点:
    • 匿名化处理,保护了患者和治疗师的隐私。
    • 包含了真实世界中的心理健康问题,确保了研究的现实性。
    • 在过滤掉没有治疗师回复的问题后,保留了 845 个问题。
    • 涵盖了 30 多个不同主题,包括但不限于抑郁症、焦虑症和人际关系问题。
  • 抽样方法: 为了确保研究的可管理性,研究从数据集中随机抽样了 90 个问题,并确保抽样问题的比例分布与完整语料库的主题分布保持一致。
  • 数据集样本示例: 原文未提供 Counsel Chat 数据集中问题的具体样本示例。

5.2. 评估指标

本研究的评估指标分为两类:文本分析指标(用于客观衡量回复的语言特征)和主观感知评分维度(用于衡量参与者对回复质量的感知)。

5.2.1. 文本分析指标

  • 回复长度 (Response length):
    • 概念定义: 衡量回复的字数或词数,反映回复的详细程度或信息量。
    • 数学公式: 通常直接统计文本中的词语数量。
    • 符号解释: word count 表示总词数。
  • Flesch 阅读易度分数 (Flesch Reading Ease score):
    • 概念定义: 衡量文本可读性的标准指标。分数越高表示文本越容易阅读,通常用于评估文本对普通读者的友好程度。
    • 数学公式: 206.8351.015×(total wordstotal sentences)84.6×(total syllablestotal words) 206.835 - 1.015 \times \left( \frac{\text{total words}}{\text{total sentences}} \right) - 84.6 \times \left( \frac{\text{total syllables}}{\text{total words}} \right)
    • 符号解释:
      • total words: 文本中的总词数。
      • total sentences: 文本中的总句数。
      • total syllables: 文本中的总音节数。
  • 归一化类型-标记比 (Normalized Type-Token Ratio):
    • 概念定义: 衡量文本词汇多样性或丰富度的指标。值越高表示词汇多样性越高,通常用于评估文本的复杂性或重复性。归一化处理旨在减少文本长度对该指标的影响。
    • 数学公式: number of unique wordstotal words \frac{\text{number of unique words}}{\sqrt{\text{total words}}}
    • 符号解释:
      • number of unique words: 文本中唯一词汇的数量(不重复)。
      • total words: 文本中的总词数。
  • 对冲表达 (Hedging expressions):
    • 概念定义: 统计文本中使用表示不确定性、限定性或保守态度的词语或短语(如“可能”、“也许”、“在某种程度上”)的频率,反映回复的确定性程度。
    • 数学公式: 直接统计预定义对冲词汇列表中的词汇出现次数。
    • 符号解释: hedge words count 表示对冲词汇的总数。
  • 第一人称代词计数 (First-person pronoun count):
    • 概念定义: 统计文本中使用第一人称代词(如“我”、“我的”、“我们”)的频率,反映回复的主观性、个人化程度或作者的自我参与度。
    • 数学公式: 直接统计第一人称代词(如 I, me, my, mine, myself, we, us, our, ours, ourselves)的出现次数。
    • 符号解释: first-person pronouns count 表示第一人称代词的总数。
  • 情感分数 (Sentiment Score):
    • 概念定义: 使用 VADER 情感词典 (VADER sentiment lexicon) 对文本情感进行量化,输出一个复合情感分数。该分数可以捕捉文本的整体情感倾向(积极、消极、中性)及其强度。
    • 数学公式: VADER 情感词典通过一个复杂的规则系统和词典来计算情感分数,没有单一的数学公式。它输出一个 compound score,范围通常在 -1 (最负面) 到 +1 (最正面) 之间。
    • 符号解释: compound score 是 VADER 情感分析的结果,综合反映了文本的积极、消极和中性情感强度,并进行归一化。

5.2.2. 主观感知评分维度

参与者(普通用户和持牌治疗师)使用 5 点李克特量表(从“强烈不同意”到“强烈同意”)对每个回复进行评分。

  • This response is clear. (这个回复很清晰。)
    • 概念定义: 衡量回复的易懂程度、逻辑性和表达的直接性。
  • This response answers the question. (这个回复回答了问题。)
    • 概念定义: 衡量回复是否准确、完整地回应了患者提出的核心问题。
  • This response is encouraging and supportive. (这个回复令人鼓舞和支持。)
    • 概念定义: 衡量回复是否传达了积极、希望、理解和鼓励的信息,是否能给予情感上的支持。
  • This response is respectful, accepting, and not judging. (这个回复是尊重的、接受的,不带评判。)
    • 概念定义: 衡量回复是否以非批判性、中立和尊重的方式对待患者的问题和感受。
  • Overall, I like this answer. (总的来说,我喜欢这个回复。)
    • 概念定义: 衡量参与者对回复的总体满意度或偏好。
  • (仅限治疗师) This response is acceptable from a professional perspective. (这个回复从专业角度看是可以接受的。)
    • 概念定义: 衡量回复是否符合专业的心理健康咨询标准、伦理准则和实践规范。

5.2.3. 统计分析方法

  • 曼-惠特尼 U 检验 (Mann-Whitney U tests): 用于比较 LLM 组与治疗师组在文本分析指标上的分布差异。
  • 威尔科克森符号秩检验 (Wilcoxon signed-rank test): 用于比较 LLM 回复与治疗师回复在主观感知评分上的配对差异。
  • 累积链接混合模型 (Cumulative Link Mixed Model, CLMM): 用于分析评分差异(LLM 评分减去治疗师评分)受 LLM 模型类型、人口统计学特征和治疗经验等因素影响的情况。

5.3. 对比基线

本研究的主要对比基线是持牌人类治疗师撰写的回复 (therapist-written responses)。所有 LLM (ChatGPT, Gemini, Llama) 生成的回复都与人类治疗师的回复进行比较,以评估其性能。

此外,研究也对三种不同的 LLM 模型——ChatGPT (chatgpt-4o-latest)Gemini (gemini-1.5-pro)Llama (Llama-3.1-70B-Instruct)——之间进行了内部比较,以了解不同模型在生成心理健康回复方面的差异。

6. 实验结果与分析

6.1. 文本分析

研究对治疗师和 LLM 生成的心理健康问题回复进行了多项文本和风格指标的比较,包括长度、可读性、类型-标记比、对冲词使用、第一人称词使用和情感。统计显著性使用独立样本 t 检验和曼-惠特尼 U 检验评估,结果汇总在 Table 3 中。

6.1.1. 回复长度和复杂性

  • 长度: 如 Figure 1 所示,ChatGPT 回复最长且长度变异最大。所有三个 LLM 模型的回复均显著长于治疗师的回复 (p<0.001p < 0.001)。

  • 词汇多样性 (Type-token ratio): 如 Figure 2 所示,LLM 回复的类型-标记比显著更高,表明 LLMs 倾向于生成更详细且词汇更丰富的文本。

  • 可读性: 如 Figure 3 所示,治疗师的回复可读性显著更高,这意味着它们更易于理解。

    Figure 1: Distribution of length. 该图像是一个小提琴图,展示了治疗师与三种大型语言模型(ChatGPT、Gemini和Llama)生成的回应长度分布。横轴表示不同的回应来源,纵轴表示回应的长度,显示了LLMs生成的回应通常较长。

Figure 1: Distribution of length.

Figure 2: Distribution of type-token ration. Figure 3: Distribution of readability score. 该图像是一个包含两个小提琴图的图表,左侧展示了不同响应者(治疗师、ChatGPT、Gemini、Llama)的类型-标记比(Type-token Ratio)的分布情况,右侧展示了可读性得分(Readability Score)的分布。每个小提琴图中显示了数据的频率密度及其中位数,反映出不同响应者在文本表现上的差异,显示出LLMs在类型-标记比和可读性方面的特征。

Figure 2: Distribution of type-token ration. Figure 3: Distribution of readability score.

6.1.2. 对冲和主观性

  • 对冲词: 如 Figure 4 所示,LLM 回复包含的对冲词显著多于治疗师的回复 (p<0.001p < 0.001),表明 LLMs 倾向于使用谨慎或限定性的语言。

  • 第一人称: 如 Figure 5 所示,治疗师更频繁地使用第一人称代词 (p<0.001p < 0.001),反映了更主观和个人化的回复风格。

    Figure 5: Distribution first person word Figure 4: Distribution of hedge word count. count. 该图像是图表,展示了治疗师与LLM(ChatGPT、Gemini和Llama)在使用hedges、第一人称词汇计数和情感得分上的分布情况。图中包含三幅小提琴图,有助于比较不同模型在不同语言特征上的表现。

Figure 5: Distribution first person word Figure 4: Distribution of hedge word count. count.

6.1.3. 情感

  • 情感分数: 如 Figure 6 所示,LLM 生成的回复情感分数略高于治疗师的回复 (p<0.001p < 0.001),表明整体语气更积极或中性。

    Figure 5: Distribution first person word Figure 4: Distribution of hedge word count. count. 该图像是图表,展示了治疗师与LLM(ChatGPT、Gemini和Llama)在使用hedges、第一人称词汇计数和情感得分上的分布情况。图中包含三幅小提琴图,有助于比较不同模型在不同语言特征上的表现。

Figure 6: Distribution of sentiment score.

6.1.4. 文本分析结果总结

总体而言,LLMs 生成的回复更长、词汇更丰富、对冲词更多、语气更中性或积极,而治疗师生成的回复则更短、可读性更强、更频繁使用第一人称。这些差异在所有三个 LLM 模型中保持一致,且具有统计显著性。

以下是原文 Table 3 的结果:

Metric Model Pu Effect Size
Length ChatGPT 1.82 × 10-267*** 0.96
Gemini 1.88 × 10-126*** 0.66
Llama 3.85 × 10-262*** 0.95
Readability ChatGPT 4.34 × 10-114*** -0.62
Gemini 7.23 × 10-95*** -0.57
Llama 8.37 × 10-149*** -0.71
Type-token Ratio ChatGPT 4.33 × 10-259*** 0.94
Gemini 6.27 × 10-175*** 0.77
Llama 2.45 × 10-243*** 0.91
Hedges ChatGPT 2.91 × 10-188*** 0.79
Gemini 1.04 × 10-87*** 0.54
Llama 5.59 × 10-23*** 0.27
First Person Count ChatGPT 8.79 × 10-15*** -0.21
Gemini 5.83 × 10-65*** -0.44
Llama 8.81 × 10-8*** -0.14
Sentiment Score ChatGPT 2.24 × 10-123*** 0.65
Gemini 4.08 × 10-51*** 0.41
Llama 6.84 × 10-134*** 0.67

以下是原文 Table 1 的用户参与者人口统计信息:

Category Variable Percentage
Age 18-24 years old 20.7
25-34 years old 39.3
35-44 years old 21.3
45-54 years old 13.3
55 years old or older 4.7
Gender Male 49.3
Female 48.7
Non-binary / third gender 2.0
Education High school graduate 10.7
Some college 22.7
2 year degree 7.3
4 year degree 36.7
Professional degree 20.7
Experience Doctorate 2.0
No experience 29.3
Under a year 22.7
5 - 10 years 10.0
Over 10 years 1 - 5 years 6.0 32.0

以下是原文 Table 2 的治疗师参与者人口统计信息:

Category Option Percentage
Age 25-34 years old 39.1
35-44 years old 26.1
45-54 years old 13.0
55 years old or older 21.7
Gender Male 34.8
Female 65.2
Education Professional degree 43.5
Doctorate 56.5
Experience Under a year 4.3
1 - 2 years 8.7
2 - 5 years 17.4
5 - 10 years 21.7
Over 10 years 47.8

6.2. 用户评分

Figures 7-11 展示了用户在每个维度上的评分分布。在所有维度上,参与者都一致地将 LLM 生成的回复评定高于人类治疗师的回复。如 Table 4 所示,这些差异具有统计显著性:所有单侧 p 值均低于 10710^{-7},即使经过保守的 Bonferroni 校正(调整后的阈值为 p<0.001p < 0.001),结果仍然稳健。

Figure 7: User ratings for "this response is clear." 该图像是一个小提琴图,展示了用户对不同类型响应(治疗师、ChatGPT、Gemini和Llama)的清晰度评级。从图中可以看出,治疗师的响应获得了较高的满意度,而LLM的响应则显示了相似的分布,表明用户对人工与机器生成的响应在清晰度上的不同看法。

Figure 7: User ratings for "this response is clear."

Figure 8: User ratings for "this response answers the question." 该图像是一个小提琴图,展示了用户对不同回答(治疗师、ChatGPT、Gemini和Llama)在“此回答回答了问题”这一维度的评级分布。图中左侧的粉色区域代表治疗师的回答,右侧则分别为三款LLM的评分,较长的形状显示出评分的广泛性和变化。

Figure 8: User ratings for "this response answers the question."

Figure 9: User ratings for "this response is encouraging and supportive." 该图像是一个小提琴图,展示了不同组别用户对治疗师、ChatGPT、Gemini 和 Llama 四种回应的积极性评估。该图显示用户在“这一回应是鼓励和支持的”方面的评分分布,体现出各个回应的差异性和整体评价倾向。

Figure 9: User ratings for "this response is encouraging and supportive."

Figure 10: User ratings for "this response is respectful, accepting, and not judging." 该图像是图表,展示了用户对“该回应是尊重、接受且不带评判”的评分。不同的参与者群体包括治疗师、ChatGPT、Gemini 和 Llama,评分在“强烈同意”到“强烈不同意”之间变化,体现了各自的接受程度和评价差异。

Figure 10: User ratings for "this response is respectful, accepting, and not judging."

Figure 11: User ratings for "overall, I like this answer." 该图像是一个图表,展示了用户对"总体上,我喜欢这个答案"的评分。图中包含了治疗师和多种大型语言模型(ChatGPT、Gemini、Llama)生成的回答之间的用户偏好对比。不同的评分从"强烈赞同"到"强烈反对"不等,显示出参与者对不同回答的反应和意见。

Figure 11: User ratings for "overall, I like this answer."

以下是原文 Table 4 的用户评分统计显著性结果:

Model Variable P Value
ChatGPT This response is clear. 8.20 × 10-8***
This response answers the question. 1.16 × 10-13***
This response is encouraging and supportive. 1.14 × 10-10***
This response is respectful, accepting, and not judging. 9.87 × 10-9***
Overall, I like this answer. 6.16 × 10-10***
Gemini This response is clear. 1.15 × 10-11***
This response answers the question. 4.18 × 10-10***
This response is encouraging and supportive. 2.43 × 10-9***
This response is respectful, accepting, and not judging. 1.14 × 10-8***
Overall, I like this answer. 7.00 × 10-9***
Llama This response is clear. 2.74 × 10-12***
This response answers the question. 4.15 × 10-12***
This response is encouraging and supportive. 3.68 × 10-15***
This response is respectful, accepting, and not judging. 1.72 × 10-15***
Overall, I like this answer. 8.42 × 10-14***

6.2.1. 模型比较

累积链接混合模型 (CLMM) 的结果如 Table 5 所示。在控制了参与者的人口统计学特征以及他们判断作者身份的能力(即是否知道回复是来自人类还是 LLM)后,Gemini 的回复评分显著低于 ChatGPT (αgemini=1.16,p=0.002\alpha_{\mathrm{gemini}} = -1.16, p = 0.002)。这对应于一个约 0.31 的优势比 (odds ratio),表明参与者将 Gemini 输出评分较低的可能性更高。相比之下,Llama 和 ChatGPT 之间没有发现显著差异,这表明它们的整体表现相当。

6.2.2. 人口统计学影响

参与者的人口统计学特征也影响了评分,其中治疗经验是一个显著的预测因子。治疗经验少于一年的参与者始终将 LLM 生成的回复评为较低 (β=1.52,p=0.001\beta = -1.52, p = 0.001),而中等治疗经验(1-10 年)的参与者也倾向于给出较低评分,但仅达到边缘显著。其他人口统计学因素,包括教育、年龄、性别以及参与者区分治疗师撰写回复和 LLM 生成回复的能力(can distinguish),并未显著预测评分。这些发现表明,治疗经验是参与者评估中最显著的预测因子,而地理和其他人口统计学效应则不太明显。

6.2.3. 交互效应

此外,研究观察到 LLM 类型与参与者治疗经验之间存在显著的交互效应。换言之,治疗经验改变了参与者对每个 LLM 回复的判断方式。如 Table 5 所示,拥有超过 10 年治疗经验的参与者对 Llama 的输出评价更为积极 (γ=+2.56,p=0.006\gamma = +2.56, p = 0.006),相比于没有治疗经验的参与者对 ChatGPT 输出的评分,这突出表明 Llama 回复的感知质量随专业经验的增加而提高。相反,治疗经验少于一年的参与者对 Gemini 回复的评分产生了相反的效果 (γ=+1.75,p=0.002\gamma = +1.75, p = 0.002),这表明具有有限治疗经验的参与者对 Gemini 的评价比预期更积极。总的来说,这些结果表明,虽然 Llama 通常与 ChatGPT 相当,但在拥有长期治疗经验的参与者中特别受到好评。

以下是原文 Table 5 的 CLMM 结果:

Category Predictor Estimate Std. Error p-value
Treatment Gemini -1.164** 0.380 0.002
Llama -0.399 0.380 0.294
Therapy experience <1 year -1.521** 0.474 0.001
1-5 years -0.826 0.425 0.052
5-10 years -1.085 0.626 0.083
>10 years -1.107 0.763 0.147
Interaction effect Gemini × <1 year +1.753** 0.581 0.002
Llama × >10 years +2.561** 0.933 0.006
Authorship judgment Can distinguish -0.224 0.202 0.267
Random intercept variance (ID) 0.283

6.3. 治疗师评分

Figures 12-17 展示了治疗师在每个维度上的评分分布。研究使用与患者评分相同的威尔科克森符号秩检验评估了治疗师在所有六个维度上的评分。如 Table 6 所示,治疗师普遍对 LLM 回复给予较高评分,单侧 p 值表明存在统计显著性差异。

  • ChatGPT: 治疗师对 ChatGPT 回复的评分在所有六个维度上均显著高于治疗师回复,p1 值范围从 0.0156 到 0.00116。

  • Gemini: 治疗师始终对 Gemini 回复的评分显著更高,尤其是在清晰度和专业可接受性方面 (p1<0.001p_1 < 0.001)。

  • Llama: 治疗师也对 Llama 回复的评分更高,尽管差异较小,且仅在整体喜好度方面达到边缘显著 (p1=0.0454p_1 = 0.0454)。

    尽管在保守的 Bonferroni 校正(调整后的阈值 p<0.001p < 0.001)下,许多结果不再具有统计显著性,但研究认为这种校正可能过于保守,可能掩盖有意义的差异,并且整体趋势仍然有效。这些发现表明,从专业角度来看,LLM 生成的回复通常是可接受的,并且往往获得积极评价,不同模型和维度之间存在一些差异,这与普通参与者的评分趋势相似。

    Figure 12: Therapist ratings for "this answer is acceptable from a professional perspective." 该图像是图表,展示了治疗师与 LLMs(ChatGPT、Gemini、Llama)在“该答案从专业角度来看是可接受的”评价上的评分分布。不同颜色的区域代表各个评分等级的反应,治疗师选项呈现为红色,LLMs 的选项则为蓝色,显示了参与者对不同回答的认同程度。

Figure 12: Therapist ratings for "this answer is acceptable from a professional perspective."

Figure 13: Therapist ratings for "this response answers the question." 该图像是图表,展示了治疗师和三种大型语言模型(ChatGPT、Gemini 和 Llama)在回答问题时的评分情况。图中使用小提琴图表示不同评分(强烈同意、同意、中立、不同意、强烈不同意)下,四组评价的分布情况。

Figure 13: Therapist ratings for "this response answers the question."

Figure 14: Therapist ratings for "this response is encouraging and supportive." 该图像是图表,展示了治疗师与 ChatGPT、Gemini 和 Llama 三种生成模式对“该回应令人鼓舞和支持”的评分。图中使用小提琴图展示了不同评分的分布,从“强烈赞同”到“强烈反对”,反映了参与者对各回复的态度。

Figure 14: Therapist ratings for "this response is encouraging and supportive."

Figure 15: Therapist ratings for "this response is encouraging and supportive." 该图像是图表,展示了治疗师与不同大型语言模型(ChatGPT、Gemini、Llama)在“该响应是鼓励和支持的”问题上的评分情况。评分从“强烈同意”到“强烈不同意”不等,显示治疗师的评分分布明显不同于模型的评分,模型评分更为积极。

Figure 15: Therapist ratings for "this response is encouraging and supportive."

Figure 16: Therapist ratings for" this response is respectful, accepting, and not judging." 该图像是一个展示治疗师和不同大语言模型(ChatGPT、Gemini、Llama)在"该回复是尊重、接受且不偏见"这一评分方面的评分小提琴图。图中显示,参与者对不同回应的满意度分布,治疗师的评分相对较高,而LLMs的评分则呈现出略低的支持程度。

Figure 16: Therapist ratings for" this response is respectful, accepting, and not judging."

Figure 17: Therapist ratings for "overall, I like this answer." 该图像是一个表格,展示了治疗师与三种大型语言模型(ChatGPT、Gemini和Llama)在用户反馈中的满意度评分。通过小提琴图的形式,比较了各个回应在不同满意度等级(从“强烈同意”到“强烈不同意”)上的分布情况,显示出人类治疗师的评分普遍偏高。该图为论文中的第17图。

Figure 17: Therapist ratings for "overall, I like this answer."

以下是原文 Table 6 的治疗师评分统计显著性结果:

Model Variable P Value
ChatGPT This response is acceptable from a professional perspective. 1.56 × 10-2*
This response is clear. 6.99 × 10-3**
This response answers the question. 1.30 × 10-3**
This response is encouraging and supportive. 1.16 × 10-3**
This response is respectful, accepting, and not judging. 1.86 × 10-3**
Overall, I like this answer. 1.02 × 10-2*
Gemini This response is acceptable from a professional perspective. 6.85 × 10-4***
This response is clear. 3.06 × 10-4***
This response answers the question. 1.75 × 10-3**
This response is encouraging and supportive. 9.19 × 10-4***
This response is respectful, accepting, and not judging. 1.22 × 10-2*
Overall, I like this answer. 2.83 × 10-3**
Llama This response is acceptable from a professional perspective. 4.59 × 10-3**
This response is clear. 7.69 × 10-3**
This response answers the question. 4.59 × 10-3**
This response is encouraging and supportive. 1.66 × 10-3**
This response is respectful, accepting, and not judging. 2.47 × 10-2*
Overall, I like this answer. 4.54 × 10-2*

6.4. 作者身份判断

无论是普通用户还是治疗师,参与者在可靠地判断回复是由人类治疗师还是 LLM 生成时都存在一定困难,但其正确率远高于随机猜测。

  • 正确识别率: 如果随机选择,正确识别 LLM 生成和治疗师撰写回复的概率仅为 16%。然而,如 Figures 18 和 19 所示,参与者在 45% 到 60% 的时间内正确识别了两类回复的作者身份。

  • 误分类和不确定性: 一些参与者将两种回复都归因于同一来源(要么都是治疗师撰写,要么都是 LLM 生成)。还观察到误分类,即参与者将治疗师回复判断为 LLM 生成,将 LLM 回复判断为治疗师撰写。大约 10% 的参与者对一个或两个回复的作者身份不确定。

  • 对评分的影响: 研究发现,参与者区分作者身份的能力并未显著影响他们对回复的评估。回归分析显示,“能区分 (can distinguish)”变量不是模型评分的显著预测因子,这表明参与者对回复的喜好和质量判断在很大程度上独立于他们识别回复作者身份的能力。

    Figure 18: Distribution of user judgment of whether an answer is therapist-written or LLM-generated. 该图像是图表,展示了参与者对不同回答(ChatGPT、Gemini、Llama)的判断分布。图中显示了参与者正确识别、错误识别、对人类与LLM回答不确定的比例。数据表明,参与者在识别上存在差异,LLM的辨识度相对较高。

Figure 18: Distribution of user judgment of whether an answer is therapist-written or LLM-generated.

Figure 19: Distribution of therapist judgment of whether an answer is therapist-written or LLM-generated. 该图像是一个柱状图,显示了参与者对ChatGPT、Gemini和Llama的判断结果,包括正确识别、误识别、对治疗师回答的不确定性以及对LLM回答的不确定性。每种LLM的参与者判断比例有所不同,显示出对不同模型的评估差异。

Figure 19: Distribution of therapist judgment of whether an answer is therapist-written or LLM-generated.

6.5. 用户偏好和治疗师推荐

  • 用户偏好: 当被问及在遇到心理健康问题时更倾向于向谁寻求帮助时,参与者强烈偏好人类治疗师 (76%),如 Figure 20 的 Q2 所示。只有约 16% 的参与者对 LLM 和人类治疗师的偏好程度相同,9% 的参与者对 LLM 有中度偏好。没有参与者对 LLM 有强烈偏好。然而,当被问及是否会亲自使用 LLMs 来回答心理健康问题时(这个问题没有在人类和聊天机器人之间进行选择,而是侧重于使用 LLMs 回答心理健康相关问题的可能性),超过 40% 的参与者表示可能会使用 LLMs(Figure 20 的 Q1)。

    该图像是一个条形图,显示了参与者对人类治疗师和AI聊天机器人的偏好情况。在Q1中,37%的参与者倾向于人类治疗师,而在Q2中,49%的参与者对此表示极不可能。图中使用李克特量表表示不同偏好程度。 该图像是一个条形图,显示了参与者对人类治疗师和AI聊天机器人的偏好情况。在Q1中,37%的参与者倾向于人类治疗师,而在Q2中,49%的参与者对此表示极不可能。图中使用李克特量表表示不同偏好程度。

Figure 20: User preference for human or LLM for mental health questions.

  • 治疗师推荐: 对于持牌治疗师参与者,只有大约 25% 的人会推荐 LLMs 给患者以获取一般心理健康信息,如 Figure 21 的 Q1 所示。LLMs 更不被推荐用于获取类似于心理治疗会话中提供的答案和建议,只有 4% 的治疗师参与者选择“有些可能”推荐,而 70% 的人选择“极不可能”(Figure 21 的 Q2)。总体而言,与普通用户参与者相似,尽管 LLMs 获得了较高的评分,但治疗师参与者并未表达出偏好使用 LLMs 来处理心理健康相关事务。

    该图像是一个展示有关两个问题回答情况的条形图,使用了李克特量表。Q1的问题中,22%的人认为回答"极不可能",而70%的人对Q2的回答"极不可能"的看法。图中蓝色表示"极不可能",其他颜色表示不同的可能性程度。 该图像是一个展示有关两个问题回答情况的条形图,使用了李克特量表。Q1的问题中,22%的人认为回答"极不可能",而70%的人对Q2的回答"极不可能"的看法。图中蓝色表示"极不可能",其他颜色表示不同的可能性程度。

Figure 21: Therapist recommendation for LLMs for mental health information and psychotherapy-like advice.

7. 总结与思考

7.1. 结论总结

本研究首次系统性地比较了人类治疗师和大型语言模型 (LLM) 对真实心理健康问题的回复,并从普通用户和持牌治疗师两类参与者的视角进行了评估。主要发现揭示了 LLM 在沟通能力方面的显著优势:LLM 生成的回复在清晰度、尊重性和支持性方面获得了用户和治疗师更高的评分,其中 Llama 模型表现尤为出色。文本分析进一步支持了这一观点,显示 LLM 回复通常更长、词汇更丰富、可读性更强且语气更积极或中性,而人类治疗师的回复则更简洁、可读性高且常使用第一人称。

然而,尽管 LLM 在感知质量上表现优异,研究也揭示了一个关键的“信任鸿沟”:绝大多数参与者(包括用户和治疗师)仍然强烈偏好寻求人类治疗师的帮助,并且治疗师普遍不愿推荐 LLM 用于超出提供一般信息之外的用途。此外,参与者在区分回复作者(人类或 LLM)方面存在一定困难,但这并未显著影响他们对回复的质量判断。治疗经验对用户评分产生影响,例如经验丰富的治疗师对 Llama 的评价更高。

综合来看,这些结果凸显了 LLM 在扩展支持性沟通可及性方面的潜力,但其缺乏问责制、情境判断和伦理保障,使其无法成为专业心理健康护理的可接受替代品。

7.2. 局限性与未来工作

7.2.1. 论文作者指出的局限性

  • 非临床情境研究: 研究并非在真实的治疗情境中进行,而是基于公共论坛上的问答,这可能无法完全反映专业治疗标准和治疗关系的重要性。因此,结果对实际治疗的适用性有限,更应被理解为聊天机器人在提供辅助性、信息性支持方面的潜力。
  • 感知质量与治疗效果的差异: 参与者的评分是基于感知质量(如清晰度、同理心),而非验证过的治疗效果。被评为低分的回复仍可能具有更高的治疗价值,两者之间的关系仍待研究。
  • 泛化能力限制: 参与者均为讲英语的美国成年人,限制了结果对其他文化、语言和人口群体的泛化。治疗师样本量较小 (n=23n=23) 也限制了统计功效。
  • LLM 性能未优化: 研究为模拟日常使用,刻意避免了提示工程或系统级定制 LLM,这可能低估了 LLM 在优化条件下的最佳性能。
  • 短期感知评估: 研究侧重于短期的感知评分,未能解决治疗安全性、长期有效性或风险等问题。

7.2.2. 作者提出的未来工作

  • 纵向、情境化研究: 未来研究应超越感知评估,转向对 LLM 如何融入日常生活的长期、情境化调查。混合方法可以考察这些系统如何随着时间推移塑造信任、披露和应对策略,以及它们是否改变用户寻求专业护理的途径。
  • 敏感信息处理与隐私风险: 同样重要的是,研究应深入探讨 LLM 如何处理和保留敏感信息,以及用户如何感知这些风险,特别是在先前工作已表明人们的隐私期望往往依赖于情境和设计线索的情况下。揭示心理健康情境中的这些期望对于安全部署至关重要。
  • 设计机制探索: 从设计角度看,未来研究应探索如短暂日志记录 (ephemeral logging)可解释的回复生成 (explainable response generation)选择性披露架构 (selective disclosure architectures) 等机制。这些方法可能允许 LLM 提供支持性互动,同时最大程度地减少敏感信息的长期暴露。
  • LLM 与人类治疗师的协作: 这些探索将有助于建立将 LLM 整合到心理健康辅助服务(如分诊、自助或同伴支持)的途径,而不会损害保密性和情境判断,这两者仍然是治疗实践的核心。未来工作还可以研究 LLM 如何支持人类治疗师的临床工作,提高他们为客户提供护理的质量。

7.3. 个人启发与批判

7.3.1. 个人启发

这篇论文提供了一个非常及时且重要的视角,揭示了大型语言模型在心理健康领域应用的两面性。

  • “沟通能力”与“信任”的脱节: 论文最引人注目的发现是 LLM 在表面沟通质量(清晰、支持、尊重)上获得高分,但用户和治疗师仍然强烈偏好人类支持。这让我深刻认识到,在敏感领域,表面的“能力”并不等同于深层的“信任”和“可接受性”。LLM 可能听起来很有“人情味”,但其缺乏真正的同理心、问责机制和对个体复杂情境的全面理解,使得人们在真正需要帮助时仍旧选择人类。这种脱节对于未来 AI 产品的设计者来说是一个重要警示:仅仅追求 AI 的“拟人化”和“流畅性”可能无法解决核心的信任问题。
  • 跨学科合作的必要性: 论文末尾提到心理学和计算机科学背景成员对结果解释的差异,这再次强调了在 AI 应用于人本领域时,跨学科合作 (interdisciplinary collaboration) 的绝对重要性。技术人员可能专注于模型性能和效率,而心理健康专业人员则关注伦理、安全、治疗关系和实际临床效果。只有将这些视角融合,才能开发出真正负责任且有效的 AI 解决方案。
  • LLM 的定位: LLM 的最佳定位可能是作为补充工具 (supplemental tool) 而非替代品 (substitute)。它们可以用于提供信息、进行初步分诊、作为辅助写作工具(如日记)、或进行简单的认知行为疗法练习。但对于复杂的情感支持、危机干预、诊断和长期治疗计划,人类治疗师的专业知识和人际互动是不可替代的。这为 AI 在医疗领域的应用划定了重要的边界。
  • 隐私与伦理的紧迫性: 论文中提到的法律诉讼(亚当·雷恩案例)和 WOPR 法案等监管动态,清晰地展示了 LLM 在心理健康领域所带来的真实风险。隐私、数据安全、“幻觉”导致的有害建议以及责任归属问题,都需要在技术发展的同时,同步建立健全的伦理准则和法律框架。这启发我在未来设计 AI 系统时,应将隐私保护 (privacy-preserving)危机升级机制 (escalation mechanisms) 置于设计核心。

7.3.2. 批判与改进之处

  • “可读性”指标的局限性: 尽管 Flesch 阅读易度分数显示治疗师的回复更具可读性,但这并不一定意味着 LLM 的回复“不可读”。LLM 回复更长、词汇更丰富,可能在某些情况下被视为提供了更全面的信息,尤其对于那些寻求详细解释的用户。对于心理健康语境,可读性固然重要,但信息的全面性、深度和潜在的个性化也可能影响用户体验。未来的研究可以探索更多维度的可读性评估,或结合用户反馈来理解不同可读性水平的偏好。
  • “信任鸿沟”的深层原因: 论文揭示了信任与感知质量之间的差距,但对这种差距的深层心理机制可以进一步探讨。除了缺乏问责制和隐私担忧,这种偏好是否源于人类对人际连接 (human connection) 的基本需求?是否与社会认同、情感投射等心理因素有关?通过定性研究(如深度访谈)可以更深入地挖掘用户和治疗师对 LLM 缺乏信任的具体原因。
  • 治疗师样本量偏小: 23 名治疗师的样本量虽然提供了宝贵的专业视角,但在统计分析上可能限制了其泛化性和深层洞察。例如,CLMM 未能应用于治疗师数据,这使得无法对治疗师群体内部的异质性进行深入分析。未来的研究若能增加治疗师样本量,将有助于更精确地理解专业群体的看法。
  • 缺乏实际临床效果评估: 本研究主要关注感知质量。虽然感知很重要,但最终 LLM 的价值在于其是否能带来真正的临床改善。未来的研究需要进行随机对照试验 (Randomized Controlled Trials, RCTs),评估 LLM 辅助干预的长期有效性、安全性和患者结局,而不是仅仅停留在“感觉好”的层面。
  • LLM“幻觉”与安全性的关注不足: 论文在引言和讨论中提到了“幻觉”和有害内容风险,但实验设计中并没有专门评估 LLM 回复的准确性和安全性,仅进行了“人工检查以确保不包含有害内容”。在敏感的心理健康领域,即使是微小的“幻觉”或不当建议也可能带来严重后果。未来的研究应引入更严格的专业审核机制,甚至设计实验来主动探测 LLM 在高风险情境下的安全边界。

相似论文推荐

基于向量语义检索推荐的相关论文。

暂时没有找到相似论文。