Is it harmful or helpful? Examining the causes and consequences of generative AI usage among university students
TL;DR 精炼摘要
本研究探讨生成式人工智能(如ChatGPT)对大学生的使用及其影响,采用两个研究样本。研究1开发了一项量表,验证了ChatGPT的使用情况;研究2进一步分析学业负担和时间压力对使用的影响,发现高负担时使用增加,但对奖励敏感的学生反而更少使用。同时,使用ChatGPT存在导致拖延和记忆丧失的风险。
摘要
While the discussion on generative artificial intelligence, such as ChatGPT, is making waves in academia and the popular press, there is a need for more insight into the use of ChatGPT among students and the potential harmful or beneficial consequences associated with its usage. Using samples from two studies, the current research examined the causes and consequences of ChatGPT usage among university students. Study 1 developed and validated an eight-item scale to measure ChatGPT usage by conducting a survey among university students (N = 165). Study 2 used a three-wave time-lagged design to collect data from university students (N = 494) to further validate the scale and test the study’s hypotheses. Study 2 also examined the effects of academic workload, academic time pressure, sensitivity to rewards, and sensitivity to quality on ChatGPT usage. Additionally, study 2 examined the effects of ChatGPT usage on students’ levels of procrastination, memory loss, and academic performance. Study 1 provided evidence for the validity and reliability of the ChatGPT usage scale. Furthermore, study 2 revealed that when students faced higher academic workload and time pressure, they were more likely to use ChatGPT. In contrast, students who were sensitive to rewards were less likely to use ChatGPT. Not surprisingly, use of ChatGPT was likely to develop tendencies for procrastination and memory loss and dampen the students’ academic performance. Finally, academic workload, time pressure, and sensitivity to rewards had indirect effects on students’ outcomes through ChatGPT usage.
思维导图
论文精读
中文精读
1. 论文基本信息
1.1. 标题
Is it harmful or helpful? Examining the causes and consequences of generative AI usage among university students
1.2. 作者
-
Muhammad Abbas
-
Farooq Ahmed Jam
-
Tariq Iqbal Khan
通讯作者: Muhammad Abbas (*Correspondence: pirthegreat@gmail.com)
机构隶属:
- Muhammad Abbas: 快速管理学院 (FAST School of Management), 国立计算机与新兴科学大学 (National University of Computer and Emerging Sciences), 巴基斯坦伊斯兰堡。
- Farooq Ahmed Jam: Global Illuminators, 马来西亚吉隆坡;科学与技术研究系 (Department of Science & Technology Studies), 科学学院 (Faculty of Science), 马来亚大学 (University of Malaya), 马来西亚吉隆坡。
- Tariq Iqbal Khan: 管理科学学院 (Institue Management Sciences), 哈里普尔大学 (The University of Haripur), 巴基斯坦哈里普尔。
1.3. 发表期刊/会议
该论文发表于学术期刊,具体名称在提供的原文中未明确指出,但根据其格式和引用,应为国际学术期刊。
1.4. 发表年份
2024年2月16日在线发表。
1.5. 摘要
随着生成式人工智能 (generative artificial intelligence, AI),如 ChatGPT,在学术界和大众媒体中引起广泛讨论,对于大学生使用 ChatGPT 的情况及其潜在的有害或有益后果,需要更深入的了解。本研究利用两个研究样本,探讨了大学生使用 ChatGPT 的原因和结果。研究 1 通过对大学生()进行调查,开发并验证了一个八项量表来衡量 ChatGPT 使用情况。研究 2 采用三波时间滞后设计,从大学生()那里收集数据,进一步验证了该量表,并检验了研究假设。研究 2 还考察了学业负担 (academic workload)、学业时间压力 (academic time pressure)、对奖励的敏感性 (sensitivity to rewards) 和对质量的敏感性 (sensitivity to quality) 对 ChatGPT 使用的影响。此外,研究 2 还检验了 ChatGPT 使用对学生拖延 (procrastination)、记忆丧失 (memory loss) 和学业表现 (academic performance) 水平的影响。研究 1 提供了 ChatGPT 使用量表的有效性和可靠性证据。此外,研究 2 揭示,当学生面临更高的学业负担和时间压力时,他们更可能使用 ChatGPT。相反,对奖励敏感的学生更少使用 ChatGPT。不出所料,使用 ChatGPT 可能导致拖延和记忆丧失的倾向,并抑制学生的学业表现。最后,学业负担、时间压力和对奖励的敏感性通过 ChatGPT 使用对学生的结果产生了间接影响。
1.6. 原文链接
/files/papers/691c57aa25edee2b759f32fb/paper.pdf 发布状态: 已在线发表 (Published online: 16 February 2024)
2. 整体概括
2.1. 研究背景与动机
核心问题: 尽管生成式人工智能 (generative AI) 工具(如 ChatGPT)在高等教育领域引起了广泛关注和讨论,但目前仍缺乏关于大学生使用 ChatGPT 的实证研究,特别是关于其使用动机(原因)和潜在后果(有害或有益)的深入洞察。现有研究大多停留在理论探讨、评论或访谈层面,对于关键驱动因素和具体影响的经验证据非常稀少,甚至存在矛盾。
重要性: ChatGPT 在学生中被广泛用于代码生成、文本创作、研究辅助以及完成作业和论文等学术活动。然而,这种广泛使用也引发了对学术欺诈、抄袭、学习效果受损、学术诚信受损以及对学生学习动机负面影响的担忧。缺乏对这些动态的理解,使得教育工作者、政策制定者和学生难以有效整合 AI 技术,并控制其在高等教育中的滥用。
现有挑战与空白:
- 缺乏实证研究: 大多数关于
ChatGPT的研究是理论性讨论或评论,缺乏经验数据来支撑其对学生使用动机和结果的影响。 - 驱动因素不明: 现有文献对于是什么因素促使大学生使用
ChatGPT缺乏深入了解。 - 后果证据不足: 尽管存在关于
ChatGPT有害或有益后果的猜测,但实证证据稀缺且存在矛盾。 - 缺乏测量工具: 缺乏一个经过验证的量表来衡量学生对
ChatGPT的使用情况。
切入点/创新思路: 本研究旨在通过两个阶段的研究来填补这些空白:
- 开发和验证测量量表: 首先开发并验证一个用于衡量大学生
ChatGPT使用情况的量表。 - 实证考察驱动因素与结果: 其次,实证考察一系列理论相关的因素(学业负担、时间压力、对奖励的敏感性、对质量的敏感性)如何影响
ChatGPT的使用,以及ChatGPT使用如何反过来影响学生的拖延、记忆丧失和学业表现。
2.2. 核心贡献/主要发现
本研究通过两项独立的实证研究,为理解大学生 ChatGPT 使用的驱动因素和后果提供了重要见解:
ChatGPT使用量表的开发与验证: 研究 1 成功开发并验证了一个包含八个项目的ChatGPT使用量表,并提供了其良好的信度和效度证据。这为未来研究提供了可靠的测量工具。- 驱动因素的识别: 研究 2 发现,较高的学业负担和学业时间压力显著促使学生使用
ChatGPT。相反,对奖励(如成绩)敏感的学生更倾向于不使用ChatGPT,这表明他们可能因担心学术诚信问题而避免使用。然而,对质量的敏感性与ChatGPT使用之间没有显著关系。 - 负面后果的实证支持: 研究 2 提供了强有力的证据,表明过度使用
ChatGPT会导致学生出现更严重的拖延行为、记忆力下降,并对其学业表现(CGPA)产生负面影响。 - 中介作用的揭示: 研究发现,学业负担、时间压力和对奖励的敏感性通过
ChatGPT的使用间接影响学生的拖延、记忆丧失和学业表现。这意味着ChatGPT充当了这些初始因素与学生学习结果之间的桥梁。
3. 预备知识与相关工作
3.1. 基础概念
为了更好地理解本研究,以下是一些关键概念的解释:
- 生成式人工智能 (Generative Artificial Intelligence, AI): 指的是能够生成全新、原创内容(如文本、图像、代码等)的
AI系统。ChatGPT是其中的一个著名例子,它基于大型语言模型,能够理解和生成人类语言。 ChatGPT: 由OpenAI开发的一种大型语言模型,能够进行对话、回答问题、创作文本、生成代码等,因其强大的文本生成能力而在学术界内外迅速普及。- 学业负担 (Academic Workload): 指的是学生在特定时期(如一个学期)内需要完成的学术任务、责任和活动的数量,包括作业、项目等的数量和复杂性。
- 学业时间压力 (Academic Time Pressure): 指的是学生感知到截止日期临近且可用时间不足以完成学术任务的压力感。
- 对奖励的敏感性 (Sensitivity to Rewards): 指的是学生对学业奖励(如成绩、
CGPA)的关注和担忧程度。 - 对质量的敏感性 (Sensitivity to Quality) / 质量意识 (Quality Consciousness): 指的是学生在评估其教育活动标准和卓越性时的感知程度,包括对学习质量或所做内容(如作业、项目)质量的关注。
- 拖延 (Procrastination): 指的是人们自愿推迟预定行动,尽管他们预期这种推迟会带来负面后果。学术拖延是指学生经常性地推迟学术任务,以至于这种延迟损害了他们的学业表现。
- 记忆丧失 (Memory Loss): 指的是个体在回忆过去信息或事件时遇到的困难。
- 学业表现 (Academic Performance): 指的是学生在教育活动中表现出的成就水平,通常通过累计平均绩点 (Cumulative Grade Point Average,
CGPA) 这样的客观衡量标准来表示。 - 量表开发程序 (Scale Development Procedures): 指的是用于创建和验证心理测量量表(如问卷)的标准步骤,通常包括项目生成、内容效度评估、探索性因子分析 (Exploratory Factor Analysis,
EFA)、信度(可靠性)和效度评估。- 内容效度 (Content Validity): 衡量量表项目是否充分代表了其旨在测量的概念的所有方面。
- 探索性因子分析 (EFA): 一种统计技术,用于识别一组观察变量背后潜在的因子结构,帮助研究者确定哪些项目共同测量一个潜在概念。
- Cronbach's Alpha (CA): 衡量量表内部一致性信度的常用指标,值越高表示量表项目间相关性越强。
- 组合信度 (Composite Reliability, CR): 衡量量表内部一致性的另一种指标,尤其适用于结构方程模型,它考虑了各项目对潜在构念的载荷差异。
- 平均方差提取量 (Average Variance Extracted, AVE): 衡量量表收敛效度的指标,表示潜在构念能够解释其测量项目方差的平均程度。
- 偏最小二乘结构方程模型 (Partial Least Squares Structural Equation Modeling, PLS-SEM): 一种用于分析复杂路径模型的统计方法,特别适用于小样本、非正态分布数据以及预测导向的研究。它允许同时估计测量模型(项目如何测量潜在变量)和结构模型(潜在变量之间的关系)。
- 测量模型 (Measurement Model): 描述潜在变量与其观测指标之间关系的部分。
- 结构模型 (Structural Model): 描述潜在变量之间因果关系假设的部分。
- 引导法 (Bootstrapping): 一种重采样方法,用于估计参数的标准误和置信区间,尤其在非正态分布数据中提供更稳健的统计推断。
- 判别效度 (Discriminant Validity): 衡量一个潜在构念与模型中其他构念之间的区分程度。
- Fornell and Larcker 准则 (Fornell and Larcker's Criterion): 一种判别效度评估方法,要求每个构念的
AVE平方根大于其与模型中其他所有构念的相关系数。 - 异质性-同质性比率 (Heterotrait-Monotrait Ratio, HTMT): 判别效度评估的最新和更严格的方法,
HTMT值低于 0.85 (或 0.90) 表示具有良好的判别效度。
- Fornell and Larcker 准则 (Fornell and Larcker's Criterion): 一种判别效度评估方法,要求每个构念的
- 多重共线性 (Multicollinearity): 指回归模型中自变量之间高度相关的问题。
- 方差膨胀因子 (Variance Inflation Factor, VIF): 用于检测多重共线性,
VIF值小于 5 通常被认为是可接受的。
- 时间滞后设计 (Time-lagged Design): 一种研究设计,在不同时间点收集数据以测量不同的变量,有助于减少共同方法偏差 (common method bias,
CMB) 并更好地推断因果关系。
3.2. 前人工作
本研究的引言和文献综述部分提及了许多相关的前人研究,这些研究为理解 ChatGPT 在高等教育中的使用提供了背景:
ChatGPT的普及与应用:- Bahroun et al. (2023), Stojanov (2023), Strzelecki (2023) 指出
ChatGPT在学术环境中被广泛用于生成代码或文本、研究辅助以及完成作业、论文和学术项目。
- Bahroun et al. (2023), Stojanov (2023), Strzelecki (2023) 指出
- 对
ChatGPT潜在危害的担忧:- Chan (2023), Dalalah & Dalalah (2023), Dwivedi et al. (2023), Lee (2023) 等学者推测
ChatGPT的使用可能给学生带来许多有害后果,包括影响学习和成功 (Korn & Kelly, 2023; Novak, 2023),以及侵蚀学术诚信 (Chaudhry et al., 2023)。 - Macfarlane et al. (2014) 提出学术诚信的缺失可能损害高等教育机构的信誉。
- Krou et al. (2021) 指出这可能损害学生的成就动机。
- Peters et al. (2023) 认为
ChatGPT的使用“对知识和学习的社会理解深具危害”,Dwivedi et al. (2023) 甚至认为它有“扼杀创造力和批判性思维”的潜力。
- Chan (2023), Dalalah & Dalalah (2023), Dwivedi et al. (2023), Lee (2023) 等学者推测
- 现有研究的局限性:
- 许多关于
ChatGPT的现有研究主要包括理论讨论、评论、访谈、综述或社论 (e.g., Cooper, 2023; Cotton et al., 2023; Dwivedi et al., 2023; King, 2023; Peters et al., 2023)。 - Strzelecki (2023) 强调,尽管
ChatGPT在高等教育中的使用日益增多,但很少有实证研究关注驱动学生使用ChatGPT的因素。 - Yilmaz & Yilmaz (2023a, 2023b) 的研究提供了关于
ChatGPT有益或有害的矛盾证据。 - Paul et al. (2023) 呼吁开发
ChatGPT使用量表。
- 许多关于
- 学业负担与不道德行为:
- Devlin and Gray (2007) 发现,当学业负担过重时,学生更可能从事不道德的学术行为,如作弊和抄袭。
- Koudela-Hamila et al. (2022) 发现学业负担与学业压力之间存在显著正相关。
- Hasebrook et al. (2023) 发现工作量大时,个体更倾向于接受和采用技术。
- 时间压力与学习策略:
- Carnevale & Lawler (1986) 将时间压力描述为截止日期临近的感知。
- Rieskamp & Hoffrage (2008) 发现,在时间压力下,个体倾向于使用简单的启发式方法完成任务。
- Koh et al. (2011) 和 Devlin and Gray (2007) 的初步研究表明,完成学业任务的时间压力会促使学生抄袭或作弊。
- Guo (2011) 发现,面临时间压力的学生会采用表层学习方法。
- 奖励敏感性与风险行为:
- Hayashi et al. (2015) 和 Pearson et al. (2013) 的研究表明,对奖励高度敏感或冲动的人倾向于从事风险行为。
- 质量敏感性与工具使用:
- Olugbara et al. (2020) 探讨了学生对学习质量的意识。
- Haensch et al. (2023) 和 Yan (2023) 指出
ChatGPT在提升学术工作质量方面的潜力。 - Abbas (2023) 和 Dwivedi et al. (2023) 提及
ChatGPT在改进语法、风格和语言精度方面的帮助。
ChatGPT与拖延、记忆丧失及学业表现:- Steel (2007) 定义了拖延行为。
- Bäulke & Dresel (2023), Liu et al. (2023), Rozental et al. (2022), Svartdal & Løkke (2022) 研究了拖延的普遍性及其影响因素。
- Yilmaz & Yilmaz (2023a) 提出
ChatGPT使用可能导致学生懒惰,进而影响拖延和记忆力。 - Mateos et al. (2016), Fortier-Brochu et al. (2012), Schweizer et al. (2018) 讨论了影响记忆功能的因素。
- Bahrini et al. (2023) 和 Dwivedi et al. (2023) 担忧过度依赖
AI工具可能损害记忆力、认知功能和批判性思维。 - Cowan et al. (2021) 强调主动学习对记忆巩固的重要性。
- Uchida & Kawashima (2008), Takeuchi et al. (2016), Nouchi et al. (2013) 的研究表明脑力训练对认知功能有益。
- Chan et al. (2023) 讨论了过度依赖外部资源可能阻碍关键技能发展和知识深度。
3.3. 技术演进
近年来,生成式人工智能 (generative AI) 领域取得了飞速发展,特别是 ChatGPT (OpenAI, 2022) 的出现,显著改变了人类与计算机交互的方式。在高等教育领域,这种技术迅速普及,从最初的实验性应用演变为学生日常学术活动的一部分。早期对 ChatGPT 的讨论主要集中在其潜力(如辅助学习、提高效率)和风险(如抄袭、学术不端)上,但多为理论性探讨或评论。随着技术成熟和学生使用量的增加,学术界开始认识到需要从实证层面深入理解这些工具的真实影响。本研究正是在这一背景下,旨在通过科学的测量和实证分析,从猜测和理论讨论转向基于数据的洞察,以期为教育工作者和政策制定者提供决策依据。它标志着从“关于 ChatGPT 的讨论”向“ChatGPT 的实证研究”的转变。
3.4. 差异化分析
本研究与现有工作的核心区别和创新点在于:
- 实证研究的稀缺性: 现有关于
ChatGPT在高等教育领域的研究大多是理论性讨论、评论或访谈,缺乏大规模的、系统的实证数据。本研究通过两项独立的实证研究来填补这一空白。 - 量表的开发与验证: 本研究首次开发并验证了一个专门用于衡量大学生
ChatGPT使用情况的量表。这为未来该领域的量化研究提供了基础工具,是现有文献中明确呼吁但尚未实现的贡献 (Paul et al., 2023)。 - 驱动因素的系统考察: 本文首次实证考察了学业负担、时间压力、对奖励的敏感性、对质量的敏感性等因素对
ChatGPT使用的影响,而非停留在猜测层面。 - 后果的全面评估: 本研究不仅关注
ChatGPT使用的负面后果(拖延、记忆丧失、学业表现下降),还通过假设检验来探究其潜在的有益或有害影响,为矛盾的现有证据提供澄清。 - 时间滞后设计: 采用三波时间滞后设计而非横断面设计,这有助于减少共同方法偏差 (common method bias) 并更好地推断因果关系,提高了研究的内部效度,优于许多简单横断面研究。
4. 方法论
4.1. 方法原理
本研究旨在通过实证方法,深入探究大学生 ChatGPT 使用的驱动因素和后果。为了实现这一目标,研究采用了两阶段方法:
- 研究 1 (Study 1): 量表开发与验证
- 目标: 开发一个可靠且有效的
ChatGPT使用量表。 - 方法: 遵循 Hinkin (1998) 的量表开发程序,包括项目生成、专家审查以建立内容效度,以及探索性因子分析 (Exploratory Factor Analysis,
EFA) 来确定量表结构,并评估其内部一致性信度(Cronbach's Alpha 和组合信度)和收敛效度(平均方差提取量)。
- 目标: 开发一个可靠且有效的
- 研究 2 (Study 2): 假设检验与量表再验证
- 目标: 在新样本中进一步验证
ChatGPT使用量表,并检验一系列关于ChatGPT使用的驱动因素(学业负担、时间压力、对奖励的敏感性、对质量的敏感性)和后果(拖延、记忆丧失、学业表现)的假设。同时,考察ChatGPT使用在这些关系中的中介作用。 - 方法: 采用三波时间滞后设计收集数据,以减少共同方法偏差并增强因果推断。使用偏最小二乘结构方程模型 (PLS-SEM) 进行数据分析,该方法适合处理复杂模型、小样本和非正态分布数据。通过评估测量模型(信度、收敛效度、判别效度)和结构模型(路径系数、显著性)来检验假设。
- 目标: 在新样本中进一步验证
4.2. 核心方法详解 (逐层深入)
4.2.1. 研究 1: ChatGPT 使用量表的开发与验证
1. 项目生成:
- 定义构念: 首先,研究者将
ChatGPT使用定义为“学生将ChatGPT用于各种学术目的的程度,包括完成作业、项目或准备考试。” - 初步项目生成: 基于此定义,初步生成了 12 个项目(问题)作为潜在的量表测量项。
2. 初始项目删减与内容效度评估:
- 专家审查: 遵循 Hinkin (1998) 的指导方针,邀请了五位相关领域的专家对这 12 个项目进行评估。专家被要求判断每个项目是否有效地测量了
ChatGPT使用的学术方面。 - 项目筛选: 专家一致认为,这 12 个项目中有 10 个有效测量了学生学术使用
ChatGPT的特定方面。这 10 个项目被保留下来进行进一步分析,从而建立了量表的内容效度 (Content Validity)。
3. 样本与数据收集:
- 样本规模: 对来自巴基斯坦多所大学的 165 名学生进行了问卷调查()。
- 量表类型: 学生使用 6 点 Likert 量表进行回答,范围从
1 = 从不 (never)到6 = 总是 (always)。 - 伦理考量: 告知参与者自愿参与、随时可退出,并保证其回答的完全保密性。
- 样本特征: 53.3% 为男性,平均年龄 23.25 岁 (标准差 )。约 85% 来自公立大学,其余来自私立大学。专业分布:59% 商科、6% 计算机科学、9% 普通教育、5% 心理学、4% 英语语言、4% 公共管理、9% 社会学、4% 数学。学位水平:74% 本科、22% 硕士、4% 博士。
4. 探索性因子分析 (Exploratory Factor Analysis, EFA):
-
目的: 确定量表的潜在因子结构。
-
方法: 采用主成分分析 (Principal Component Analysis) 进行因子提取,并使用 Kaiser 正态化 (Kaiser normalization) 的方差最大化旋转 (varimax rotation)。
-
筛选标准:
- 特征值 (Eigenvalue) > 1。
- 总解释方差百分比 > 50%。
-
结果验证:
- Bartlett 球形检验 (Bartlett's test of sphericity): 显著 (),表明数据适合进行因子分析。
- Kaiser-Meyer-Olkin (KMO) 采样充分性度量: 0.878 (),远大于阈值 0.50,表明样本足够进行因子分析。
-
初步
EFA结果: 结果显示,项目 4 (I can't think of studies without ChatGPT) 和项目 9 (Use of ChatGPT is common nowadays) 的因子载荷 (factor loading) 和共同性 (communalities) 较低(低于 0.50)。根据 Field (2018) 的标准,这些项目被删除。以下是原文 Table 1 的结果(初步 EFA):
Items Factor loading Communalities Total variance extracted I use ChatGPT for my course assignments 0.82 0.67 54.721 I use ChatGPT for my course projects 0.78 0.60 I use ChatGPT for my academic activities 0.82 0.67 I can't think of studies without ChatGPT 0.58 0.34 I rely on ChatGPT for my studies 0.79 0.63 I use ChatGPT to learn course-related concepts 0.76 0.57 I am addicted to ChatGPT when it comes to studies 0.79 0.63 I use ChatGPT to prepare for my tests or quizzes 0.76 0.58 Use of ChatGPT is common nowadays 0.44 0.19 ChatGPT is part of my campus life 0.77 0.59 -
修订后的
EFA(8 个项目): 删除了低载荷项目后,对剩余 8 个项目重新进行EFA。- 因子结构: 形成一个单因子结构,解释了 62.65% 的累积方差。
- 因子载荷: 所有 8 个项目的因子载荷均超过 0.50。
- 最终量表: 最终的
ChatGPT使用量表由这 8 个项目组成。
5. 信度 (Reliability) 与收敛效度 (Convergent Validity) 评估:
-
Cronbach's Alpha (CA): ,超过阈值 0.7,表明具有良好的内部一致性。
-
组合信度 (Composite Reliability, CR): ,超过阈值 0.7,进一步证实了构念的信度。
-
平均方差提取量 (Average Variance Extracted, AVE): ,高于阈值 0.5,表明具有良好的收敛效度。
以下是原文 Table 2 的结果(修订后的量表):
Items Factor loading Communalities Total variance extracted CA CR AVE I use ChatGPT for my course assign- ments 0.837 0.701 62.650 0.914 0.928 0.618 I use ChatGPT for my academic activi- ties 0.824 0.680 I use ChatGPT for my course projects 0.798 0.637 I am addicted to ChatGPT when it comes to studies 0.792 0.627 I rely on ChatGPT for my studies 0.780 0.608 I use ChatGPT to prepare for my tests or quizzes 0.775 0.601 I use ChatGPT to learn course-related concepts 0.769 0.592 ChatGPT is part of my campus life 0.752 0.566
4.2.2. 研究 2: 假设检验与量表再验证
1. 理论框架:
-
研究 2 的理论框架如图 1 所示。该框架将学业负担 (Workload)、时间压力 (Time pressure)、对奖励的敏感性 (Sensitivity to rewards) 和对质量的敏感性 (Sensitivity to quality) 视为
ChatGPT使用 (Use of ChatGPT) 的前因变量 (antecedents)。 -
ChatGPT使用则被视为中介变量,影响学生的拖延 (Procrastination)、记忆丧失 (Memory loss) 和学业表现 (Academic performance)。以下是原文 Fig. 1 的结果:
图 1: 本研究的理论框架2. 样本与数据收集:
-
设计: 采用三波时间滞后设计 (three-wave time-lagged design),每波数据收集之间间隔 1-2 周(论文摘要中提到 12 周,正文中提到 1-2 周,此处以正文为准)。
-
共同方法偏差 (Common Method Bias, CMB) 的处理: 遵循 Podsakoff et al. (2012) 的建议:
- 明确告知参与者自愿参与和保密性。
- 强调没有“正确”或“错误”的答案。
- 采用时间滞后设计,在预测变量和结果变量之间设置时间间隔,以在时间上分离自变量和因变量的测量。
- 学生通过自我生成的代码匹配不同阶段的问卷。
-
伦理批准: 获得了作者所在机构伦理委员会的批准。
-
语言: 问卷使用英文。
-
数据收集流程:
- 第一阶段 (Phase 1): 约 900 名参与者被联系,收集学业负担、时间压力、对奖励的敏感性、对质量的敏感性以及人口统计学信息。收到 840 份有效问卷。
- 第二阶段 (Phase 2): 约 675 名受访者被再次联系,收集
ChatGPT使用情况数据。 - 第三阶段 (Phase 3): 剩余 675 名受访者被再次联系,收集记忆丧失、拖延和学业表现数据。收到 540 份问卷。
-
最终样本: 剔除缺失数据后,最终样本量为 494 份完整响应。
-
样本特征: 50.8% 为男性,平均年龄 22.16 岁 (标准差 )。约 88% 来自公立大学,12% 来自私立大学。专业分布:65% 商科、3% 计算机科学、12% 普通教育、1% 英语语言、9% 公共管理、10% 社会学。学位水平:74% 本科、24% 硕士、2% 博士。
3. 测量 (Measures):
- 量表类型: 除了
ChatGPT使用,所有变量均采用 5 点 Likert 量表测量,范围从1 = 非常不同意 (strongly disagree)到5 = 非常同意 (strongly agree)。ChatGPT使用量表采用 6 点 Likert 量表,范围从1 = 从不 (never)到6 = 总是 (always)。 - 具体量表和示例项目:
-
学业负担 (Academic Workload): 改编自 Peterson et al. (1995) 的 4 项量表。示例项目:“我因为学习感到负担过重。”
-
学业时间压力 (Academic Time Pressure): 改编自 Dapkus (1985) 的 4 项量表。示例项目:“我没有足够的时间准备我的课程项目。”
-
对奖励的敏感性 (Sensitivity to Rewards): 2 项量表。项目包括:“我担心我的
CGPA(Cumulative Grade Point Average)” 和 “我关心我的学期成绩。” -
对质量的敏感性 (Sensitivity to Quality): 2 项量表。项目包括:“我关心我的课程项目质量” 和 “我对我的课程作业质量很敏感。”
-
ChatGPT使用 (Use of ChatGPT): 使用研究 1 开发的 8 项量表。示例项目:“我将ChatGPT用于我的学术活动。” -
拖延 (Procrastination): 改编自 Choi and Moran (2009) 的 4 项量表。示例项目:“我在完成事情时经常迟到。”
-
记忆丧失 (Memory Loss): 3 项量表。示例项目:“最近,我脑子里记不住太多东西。”
-
学业表现 (Academic Performance): 使用学生的最新
CGPA的客观测量值,范围从1 = 最低 (lowest)到4 = 最高 (highest)。由于是单一分数,无需计算信度或效度。以下是原文 Table 3 的测量项目、因子载荷、信度和效度结果:
Items Loadings CA CR AVE Workload (Peterson et al., 1995) 0.845 0.895 0.680 My academic workload is too heavy 0.861 I feel overloaded by the work my studies require 0.838 I feel overburdened due to my studies 0.810 The teacher(s) give too much work to do 0.788 Time pressure (Dapkus, 1985) 0.740 0.833 0.562 I don't have enough time to prepare for my class projects 0.829 I don't have enough time to complete study-related tasks with appropriate care 0.810 I find it difficult to submit my assignments and projects within the deadlines 0.804 I am often in hurry when it comes to meeting academic deadlines 0.511 Sensitivity to rewards 0.881 0.944 0.894 I am worried about my CGPA 0.947 I am concerned about my semester grades 0.944 Sensitivity to quality 0.717 0.871 0.773 I am concerned about the quality of my course projects 0.930 I am sensitive about the quality of my course assignments 0.825 Use of ChatGPT 0.903 0.922 0.596 I use ChatGPT for my academic activities 0.812 I use ChatGPT to prepare for my tests or quizzes 0.795 I use ChatGPT for my course projects 0.788 I use ChatGPT to learn course-related concepts 0.778 I rely on ChatGPT for my studies 0.771 I use ChatGPT for my course assignments 0.762 I am addicted to ChatGPT when it comes to studies 0.735 ChatGPT is part of my campus life 0.732 Procrastination (Choi & Moran, 2009) 0.756 0.845 0.577 I often fail to accomplish goals that I set for myself 0.795 I'm often running late when getting things done 0.792 I often start things at the last minute and find it difficult to complete them on time 0.739 I have difficulty finishing activities once I start them 0.710 Memory loss 0.757 0.860 0.672 Nowadays, I often forget things to do 0.862 Nowadays, I can't retain too much in my mind 0.829 Nowadays, I feel that I am losing my memory 0.765
-
4. 分析方法:
- 使用偏最小二乘结构方程模型 (Partial Least Squares Structural Equation Modeling,
PLS-SEM) 进行测量模型验证和假设检验。 - 选择
PLS-SEM的原因:- 是第二代结构方程模型技术,能够估计潜在变量之间的关系并考虑测量误差。
- 在样本量有限和非正态分布情况下,被认为是优越的技术 (Hair et al., 2019)。
- 利用引导法 (bootstrapping) 从数据集中重采样 5000 次,以提供标准误和置信区间,从而更精确地评估模型的稳定性 (Hair et al., 2017)。
5. 测量模型 (Measurement Model) 验证:
- 步骤: 将所有构念(潜在变量)一同运行,并检查标准化因子载荷、Cronbach's Alpha (CA)、组合信度 (CR) 和平均方差提取量 (AVE)。
- 信度与收敛效度 (Reliability and Convergent Validity):
- 所有测量项目的标准化因子载荷 (standardized factor loadings) 均高于 0.70 (Hair et al., 2019)。
- 所有构念的 CA 和 CR 值均高于 0.70。
- 所有构念的 AVE 值均高于 0.50。
- 这些结果表明每个构念都具有良好的信度和收敛效度。
- 判别效度 (Discriminant Validity):
-
Fornell and Larcker 准则 (Fornell and Larcker's Criterion): 每个构念的
AVE平方根(在 Table 4 中沿对角线加粗显示)均大于其与模型中其他构念的相关系数。 -
异质性-同质性比率 (Heterotrait-Monotrait Ratio, HTMT): 所有
HTMT值均低于 0.85 的阈值 (Henseler et al., 2015)。 -
这些结果均表明所有构念之间具有良好的判别效度。
以下是原文 Fig. 2 的结果:
图 2: 测量指标外部载荷和 AVE (研究 2)
-
以下是原文 Table 4 的结果:
| Fornell and Larcker criteria | Heterotrait-monotrait ratio | ||||||||||||
| 1 | 2 | 4 | 5 | 6 | 7 | 1 | 2 | 3 | 4 | 5 | 6 | ||
| . Workload | 0.825 | ||||||||||||
| . Time pressure | 0.560 | 0.750 | 0.695 | ||||||||||
| Sensitivity to rewards | 0.174 | 0.051 | 0.945 | 0.208 | 0.072 | ||||||||
| Sensitivity to quality | 0.266 | 0.104 | 0.489 | 0.879 | 0.346 | 0.161 | 0.611 | ||||||
| . Use of ChatGPT | 0.216 | 0.236 | - 0.051 | 0.038 | 0.772 | 0.233 | 0.266 | 0.088 | 0.086 | ||||
| Procrastination | 0.276 | 0.366 | 0.062 | 0.050 | 0.307 | 0.760 | 0.336 | 0.493 | 0.075 | 0.089 | 0.361 | ||
| . Memory loss | 0.278 | 0.246 | 0.111 | 0.053 | 0.273 | 0.551 | 0.820 | 0.345 | 0.334 | 0.139 | 0.084 | 0.322 | 0.724 |
6. 多重共线性 (Multicollinearity) 检测:
- 通过计算方差膨胀因子 (Variance Inflation Factor,
VIF) 进行检测。 - 所有分析中的
VIF值均小于 5 (Hair et al., 2019),表明不存在多重共线性问题。
7. 结构模型 (Structural Model) 检验:
- 使用 SmartPLS 软件,通过引导法 (bootstrapping) (5000 次重采样) 检验了直接效应和间接效应的假设。
- 评估了路径系数 ()、t 统计量 (t) 和 p 值 (p)。
5. 实验设置
5.1. 数据集
本研究使用了两次独立的大学生样本进行数据收集。
研究 1 (Study 1): 量表开发
- 来源: 巴基斯坦多所大学的大学生。
- 规模: 。
- 特点:
- 性别分布: 53.3% 男性。
- 平均年龄: 23.25 岁 (标准差 )。
- 大学类型: 约 85% 来自公立大学,其余来自私立大学。
- 专业分布: 约 59% 商科、6% 计算机科学、9% 普通教育、5% 心理学、4% 英语语言、4% 公共管理、9% 社会学、4% 数学。
- 学位水平: 约 74% 本科生、22% 硕士生、4% 博士生。
- 数据形态: 6 点 Likert 量表(
1 = 从不到6 = 总是)的问卷回答。
研究 2 (Study 2): 假设检验与量表再验证
- 来源: 巴基斯坦多所大学的大学生。
- 规模: 最终样本量为 份完整响应。
- 特点:
- 性别分布: 50.8% 男性。
- 平均年龄: 22.16 岁 (标准差 )。
- 大学类型: 约 88% 来自公立大学,12% 来自私立大学。
- 专业分布: 约 65% 商科、3% 计算机科学、12% 普通教育、1% 英语语言、9% 公共管理、10% 社会学。
- 学位水平: 约 74% 本科生、24% 硕士生、2% 博士生。
- 数据形态:
- 预测变量(学业负担、时间压力、对奖励的敏感性、对质量的敏感性):5 点 Likert 量表(
1 = 非常不同意到5 = 非常同意)。 - 中介变量(
ChatGPT使用):6 点 Likert 量表(1 = 从不到6 = 总是)。 - 结果变量(拖延、记忆丧失):5 点 Likert 量表(
1 = 非常不同意到5 = 非常同意)。 - 学业表现:客观的
CGPA值(1 到 4)。
- 预测变量(学业负担、时间压力、对奖励的敏感性、对质量的敏感性):5 点 Likert 量表(
- 选择理由: 这两个样本都来自大学学生群体,代表了
ChatGPT的主要用户群,且具有一定的多样性(专业、学位水平),有助于验证量表和检验假设。时间滞后设计有助于更好地推断因果关系。
5.2. 评估指标
本研究使用了多种评估指标,主要分为量表开发阶段的信效度指标和假设检验阶段的统计显著性指标。
5.2.1. 量表开发与测量模型评估 (研究 1 & 研究 2)
-
Cronbach's Alpha (CA)
- 概念定义 (Conceptual Definition):
Cronbach's Alpha(内部一致性系数) 用于衡量量表内部一致性,即量表中所有项目(问题)测量相同潜在构建体 (latent construct) 的程度。它反映了量表项目间的一致性和可靠性。CA值通常介于 0 到 1 之间,一般认为 0.70 或更高表示可接受的内部一致性。 - 数学公式 (Mathematical Formula):
- 符号解释 (Symbol Explanation):
- : 量表中项目的数量。
- : 第 个项目得分的方差。
- : 总分(所有项目得分之和)的方差。
- :
Cronbach's Alpha系数。
- 概念定义 (Conceptual Definition):
-
组合信度 (Composite Reliability, CR)
- 概念定义 (Conceptual Definition):
组合信度是另一种衡量量表内部一致性的指标,尤其适用于结构方程模型 (Structural Equation Modeling,SEM) 中。它评估潜在变量由其测量项目所解释的程度,被认为是比Cronbach's Alpha更准确的可靠性度量,因为它考虑了不同项目对潜在构建体的因子载荷 (factor loading) 差异。CR值通常也要求达到 0.70 或更高。 - 数学公式 (Mathematical Formula):
- 符号解释 (Symbol Explanation):
- : 量表中项目的数量。
- : 第 个项目对潜在构建体的标准化因子载荷。
- : 第 个项目的测量误差方差。
CR: 组合信度系数。
- 概念定义 (Conceptual Definition):
-
平均方差提取量 (Average Variance Extracted, AVE)
- 概念定义 (Conceptual Definition):
平均方差提取量用于衡量潜在构建体的收敛效度 (convergent validity),即潜在构建体能够解释其测量项目方差的平均程度。高AVE值表示潜在构建体能够很好地解释其测量项目,且测量误差较小。通常,AVE超过 0.50 表明具有良好的收敛效度,即量表项目高度收敛于其所代表的潜在构念。 - 数学公式 (Mathematical Formula):
- 符号解释 (Symbol Explanation):
- : 量表中项目的数量。
- : 第 个项目对潜在构建体的标准化因子载荷。
AVE: 平均方差提取量。
- 概念定义 (Conceptual Definition):
-
标准化因子载荷 (Standardized Factor Loadings)
- 概念定义 (Conceptual Definition):
标准化因子载荷表示每个测量项目与其所属潜在构建体之间的相关强度。它量化了项目对测量该构建体的贡献程度。通常,载荷值高于 0.70 被认为是可接受的,表明项目有效测量了其目标构建体。 - 数学公式 (Mathematical Formula): 在因子分析中,因子载荷是模型输出的一部分,没有一个单一的通用公式可以直接计算。它表示观测变量在潜在因子上的回归系数。
- 概念定义 (Conceptual Definition):
-
Fornell and Larcker 准则 (Fornell and Larcker's Criterion)
- 概念定义 (Conceptual Definition):
Fornell and Larcker 准则是一种评估判别效度 (discriminant validity) 的方法,即衡量一个潜在构建体与模型中其他构建体之间的区分程度。该准则要求每个构建体的AVE的平方根必须大于该构建体与模型中其他所有构建体之间的相关系数。如果满足此条件,则表明该构建体足够独特,可以与其他构建体区分开来。 - 数学公式 (Mathematical Formula): 该准则不是一个单一的公式,而是一个比较条件。对于任意两个构建体 和 ,需要满足:
- 符号解释 (Symbol Explanation):
- : 构建体 的
AVE的平方根。 - : 构建体 和 之间的相关系数。
- : 构建体 的
- 概念定义 (Conceptual Definition):
-
异质性-同质性比率 (Heterotrait-Monotrait Ratio, HTMT)
- 概念定义 (Conceptual Definition):
HTMT是一种更现代、更严格的判别效度评估方法。它基于异质特性-异质方法相关性 (heterotrait-heteromethod correlation) 与同质特性-同质方法相关性 (monotrait-heteromethod correlation) 的平均值之比。HTMT值低于 0.85 (或某些研究中为 0.90) 表示具有良好的判别效度,即潜在构建体之间足够区分。 - 数学公式 (Mathematical Formula): 更具体地,对于两个构建体 和 ,其测量项目分别为 和 :
- 符号解释 (Symbol Explanation):
- : 构建体 的项目 与构建体 的项目 之间的相关系数(异质特性-异质方法相关性)。
- : 构建体 的两个不同项目 和 之间的相关系数(同质特性-异质方法相关性)。
- : 构建体 的两个不同项目 和 之间的相关系数(同质特性-异质方法相关性)。
- : 构建体 的项目数量。
- : 构建体 的项目数量。
- 概念定义 (Conceptual Definition):
5.2.2. 结构模型评估 (研究 2)
-
路径系数 ()
- 概念定义 (Conceptual Definition): 在结构方程模型中,
路径系数表示一个潜在变量对另一个潜在变量的直接影响强度和方向。它类似于回归分析中的标准化回归系数,表示当预测变量变化一个标准差时,被预测变量标准差变化的量。路径系数越大,表明影响越强。 - 数学公式 (Mathematical Formula): 在
PLS-SEM中,路径系数通常通过最小二乘回归估计得到,没有一个单一的通用公式,而是模型中各变量间直接关系的标准化回归系数。例如,对于简单回归,它的估计值是: - 符号解释 (Symbol Explanation):
- : 变量 对变量 的估计路径系数。
- : 变量 和 的协方差。
- : 变量 的方差。
- 概念定义 (Conceptual Definition): 在结构方程模型中,
-
t 统计量 (t-statistics)
- 概念定义 (Conceptual Definition):
t 统计量用于检验路径系数的统计显著性。它衡量了估计的路径系数与其标准误之间的比率,以确定该系数是否显著不同于零。较大的 值(通常绝对值大于 1.96 对应 ,大于 2.58 对应 )表示路径系数统计显著。 - 数学公式 (Mathematical Formula):
- 符号解释 (Symbol Explanation):
- : 统计量。
路径系数: 估计的路径系数 ()。路径系数的标准误: 路径系数估计值的标准误。
- 概念定义 (Conceptual Definition):
-
p 值 (p-value)
- 概念定义 (Conceptual Definition):
p 值表示在零假设(即路径系数为零,意味着无影响)为真的情况下,观察到当前或更极端 统计量的概率。小的 值(通常小于 0.05、0.01 或 0.10,根据显著性水平设定)表示拒绝零假设,认为该路径系数统计显著,即变量之间存在关系。 - 数学公式 (Mathematical Formula): 值通常通过将 统计量与相应的 分布进行比较来获得,它是一个概率值,没有一个简单的数学公式可以独立表示。
- 符号解释 (Symbol Explanation):
- : 值。
- : 遵循 分布的随机变量。
- : 观察到的 统计量。
- : 零假设(例如,路径系数等于零)。
- 概念定义 (Conceptual Definition):
-
方差膨胀因子 (Variance Inflation Factor, VIF)
- 概念定义 (Conceptual Definition):
方差膨胀因子用于检测回归模型中自变量之间是否存在多重共线性 (multicollinearity)。VIF值越高,表示自变量之间的共线性问题越严重,这可能导致路径系数估计不稳定。通常,VIF小于 5 被认为是可接受的,表明不存在严重的多重共线性。 - 数学公式 (Mathematical Formula):
- 符号解释 (Symbol Explanation):
- : 第 个自变量的方差膨胀因子。
- : 将第 个自变量作为因变量,其余所有自变量作为预测变量进行回归分析时得到的决定系数。
- 概念定义 (Conceptual Definition):
5.3. 对比基线
本研究主要是一个实证检验学生行为模式和心理过程的量化研究,而不是开发新的算法或模型来与现有基线进行性能比较。因此,本研究没有直接的“对比基线模型”。
它的“基线”更多体现在:
- 零假设 (Null Hypotheses): 所有的假设检验都是将其与零假设(即变量之间没有关系或影响)进行比较。
- 现有理论或推测: 本研究旨在通过实证数据来验证或反驳此前关于
ChatGPT使用驱动因素和后果的理论推测或非实证讨论。例如,对于ChatGPT的影响到底是“有害”还是“有益”的争议,本研究提供了实证证据来支持其中一方。 - 传统学术实践: 本研究的发现与传统的、没有
AI辅助的学习方式所产生的学习成果形成隐性对比,尤其是在拖延、记忆丧失和学业表现方面。
6. 实验结果与分析
6.1. 核心结果分析
6.1.1. 测量模型结果 (研究 2)
研究 2 的测量模型结果显示出良好的信度 (reliability) 和判别效度 (discriminant validity)。
- 信度与收敛效度:
- 所有构念的标准化因子载荷均高于 0.70,表明测量项目与潜在构念之间有强关联。
- 所有构念的
Cronbach's Alpha(CA) 和组合信度 (CR) 值均高于 0.70。 - 所有构念的平均方差提取量 (AVE) 值均高于 0.50。
- 这些结果共同确认了每个构念(潜在变量)的良好信度和收敛效度。
- 判别效度:
- Fornell and Larcker 准则: 每个构念的
AVE平方根(在 Table 4 对角线加粗显示)均大于其与其他所有构念的相关系数,满足判别效度要求。 - HTMT 比率: 所有
HTMT值均低于 0.85 的阈值,进一步支持了构念间的判别效度。
- Fornell and Larcker 准则: 每个构念的
- 多重共线性: 所有变量的
VIF值均小于 5,表明模型中不存在多重共线性问题。
6.1.2. 结构模型与假设检验结果 (研究 2)
结构模型的结果检验了各项直接效应和间接效应的假设。
以下是原文 Fig. 3 的结果:
图 3: 结构模型 (研究 2)
直接效应 (Direct Effects):
以下是原文 Table 5 的结果:
| Hypothesis | Path | Coefficient | T Statistics | P-value | Status |
| H1 | Workload -> Use of ChatGPT | 0.133 | 2.622 | 0.009 | Supported |
| H2 | Time Pressure -> Use of ChatGPT | 0.163 | 3.226 | 0.001 | Supported |
| H3a, H3b | Sensitivity to Rewards -> Use of ChatGPT | - 0.102 | 1.710 | 0.087 | H3b supported |
| H4 | Sensitivity to Quality -> Use of ChatGPT | 0.033 | 0.590 | 0.555 | Not supported |
| H5 | Use of ChatGPT -> Procrastination | 0.309 | 6.984 | 0.000 | Supported |
| H6 | Use of ChatGPT -> Memory Loss | 0.274 | 6.452 | 0.000 | Supported |
| H7 | Use of ChatGPT -> Academic Performance | - 0.104 | 2.390 | 0.017 | Supported |
- H1 (学业负担
ChatGPT使用): 支持。学业负担与ChatGPT使用呈显著正相关 ()。这表明学生面临的学业任务越多,他们越倾向于使用ChatGPT。 - H2 (时间压力
ChatGPT使用): 支持。时间压力与ChatGPT使用呈显著正相关 ()。学生面临的时间压力越大,他们越可能使用ChatGPT来完成学术任务。 - H3a/H3b (对奖励的敏感性
ChatGPT使用): 支持 H3b。对奖励的敏感性与ChatGPT使用呈负相关且边缘显著 ()。这表明那些更关心成绩的学生更少使用ChatGPT,可能因为担心其对学术诚信的影响。 - H4 (对质量的敏感性
ChatGPT使用): 不支持。对质量的敏感性与ChatGPT使用之间无显著关系 ()。 - H5 (
ChatGPT使用 拖延): 支持。ChatGPT使用与拖延呈显著正相关 ()。频繁使用ChatGPT的学生更有可能拖延。 - H6 (
ChatGPT使用 记忆丧失): 支持。ChatGPT使用与记忆丧失呈显著正相关 ()。频繁使用ChatGPT的学生也报告了记忆力下降。 - H7 (
ChatGPT使用 学业表现): 支持。ChatGPT使用与学业表现(CGPA)呈显著负相关 ()。频繁使用ChatGPT的学生CGPA较低。
间接效应 (Indirect Effects) / 中介作用 (Mediating Role):
以下是原文 Table 6 的结果:
| Hypothesis | Path | Coefficient | T Statistics | P-value | Status |
| H8 | Workload -> Use of ChatGPT -> Procrastina- tion | 0.041 | 2.384 | 0.017 | Supported |
| H8 | Workload -> Use of ChatGPT -> Memory Loss | 0.036 | 2.333 | 0.020 | Supported |
| H8 | Workload -> Use of ChatGPT -> Academic Performance | - 0.014 | 1.657 | 0.098 | Supported |
| H9 | Time Pressure -> Use of ChatGPT -> Procras- tination | 0.050 | 2.607 | 0.009 | Supported |
| H9 | Time Pressure -> Use of ChatGPT -> Memory Loss | 0.045 | 2.574 | 0.010 | Supported |
| H9 | Time Pressure -> Use of ChatGPT -> Aca- demic Performance | - 0.017 | 1.680 | 0.093 | Supported |
| H10 | Sensitivity to Rewards -> Use of ChatGPT -> Procrastination | - 0.032 | 1.676 | 0.094 | Supported |
| H10 | Sensitivity to Rewards -> Use of ChatGPT -> Memory Loss | - 0.028 | 1.668 | 0.095 | Supported |
| H10 | Sensitivity to Rewards -> Use of ChatGPT -> Academic Performance | 0.011 | 1.380 | 0.168 | Not supported |
| H11 | Sensitivity to Quality -> Use of ChatGPT -> Procrastination | 0.010 | 0.582 | 0.561 | Not supported |
| H11 | Sensitivity to Quality -> Use of ChatGPT -> Memory Loss | 0.009 | 0.582 | 0.561 | Not supported |
| H11 | Sensitivity to Quality -> Use of ChatGPT -> Academic Performance | - 0.003 | 0.535 | 0.593 | Not supported |
- H8 (学业负担通过
ChatGPT使用对结果的影响): 支持。- 学业负担通过
ChatGPT使用对拖延有正向间接效应 ()。 - 学业负担通过
ChatGPT使用对记忆丧失有正向间接效应 ()。 - 学业负担通过
ChatGPT使用对学业表现有负向间接效应 ()。 - 这表明高学业负担促使学生使用
ChatGPT,进而导致拖延、记忆力下降和学业表现不佳。
- 学业负担通过
- H9 (时间压力通过
ChatGPT使用对结果的影响): 支持。- 时间压力通过
ChatGPT使用对拖延有正向间接效应 ()。 - 时间压力通过
ChatGPT使用对记忆丧失有正向间接效应 ()。 - 时间压力通过
ChatGPT使用对学业表现有负向间接效应 ()。 - 这表明高时间压力促使学生使用
ChatGPT,进而导致拖延、记忆力下降和学业表现不佳。
- 时间压力通过
- H10 (对奖励的敏感性通过
ChatGPT使用对结果的影响): 部分支持。- 对奖励的敏感性通过
ChatGPT使用对拖延有负向间接效应 ()。 - 对奖励的敏感性通过
ChatGPT使用对记忆丧失有负向间接效应 ()。 - 然而,对奖励的敏感性通过
ChatGPT使用对学业表现的间接效应不显著 ()。 - 这表明对奖励敏感的学生倾向于较少使用
ChatGPT,从而减少了拖延和记忆丧失的风险。
- 对奖励的敏感性通过
- H11 (对质量的敏感性通过
ChatGPT使用对结果的影响): 不支持。对质量的敏感性通过ChatGPT使用对拖延、记忆丧失和学业表现的间接效应均不显著。
6.2. 数据呈现 (表格)
本节已在“4.2. 核心方法详解”和“6.1. 核心结果分析”中逐一呈现了原文 Table 1、Table 2、Table 3、Table 4、Table 5 和 Table 6 的数据。
6.3. 消融实验/参数分析
本研究并非模型开发类论文,因此没有进行传统的消融实验来验证模型各组件的有效性。然而,通过检验不同的直接和间接效应,本文实际上分析了各个前因变量(学业负担、时间压力、对奖励的敏感性、对质量的敏感性)以及中介变量(ChatGPT 使用)对学生结果(拖延、记忆丧失、学业表现)的独立和综合影响。这在一定程度上揭示了这些因素在学生 ChatGPT 使用行为链条中的作用。
例如,对于对质量的敏感性,研究发现它既没有直接影响 ChatGPT 使用,也没有通过 ChatGPT 使用对学生结果产生间接影响。这本身就是一项重要的发现,表明质量意识对于 ChatGPT 的采纳并非决定性因素,这与一些直觉或推测可能不同,值得未来进一步探究其潜在的调节变量。
7. 总结与思考
7.1. 结论总结
本研究旨在填补当前对大学生 ChatGPT 使用的实证研究空白,特别是其驱动因素和后果。通过两项独立的实证研究,本论文做出了以下核心贡献和发现:
-
量表开发与验证: 成功开发并验证了一个包含八个项目的
ChatGPT使用量表,为未来相关研究提供了可靠的测量工具。 -
驱动因素: 发现较高的学业负担和时间压力是促使学生使用
ChatGPT的显著因素。然而,对学术奖励高度敏感的学生倾向于较少使用ChatGPT,这可能源于对学术诚信和成绩影响的担忧。出乎意料的是,对质量的敏感性并未显著影响ChatGPT的使用。 -
负面后果: 证实了过度使用
ChatGPT会带来一系列负面后果,包括增加学生的拖延行为、导致记忆力下降,并最终损害其学业表现(CGPA)。 -
中介作用: 揭示了
ChatGPT使用在学业负担、时间压力以及对奖励的敏感性与学生学习结果(拖延、记忆丧失、学业表现)之间的中介作用。总而言之,本研究从实证层面证实了
ChatGPT在高等教育中并非全然有益,其使用受到外部压力(学业负担、时间压力)和个体内部倾向(对奖励的敏感性)的影响,并可能带来拖延、记忆丧失和学业表现下降等有害后果。
7.2. 局限性与未来工作
本研究虽然提供了宝贵的实证证据,但也存在一些局限性,并为未来的研究指明了方向:
- 因果关系推断: 尽管采用了时间滞后设计以减少共同方法偏差并增强因果推断,但仍无法完全排除互惠关系的可能性。例如,
ChatGPT的使用也可能反过来减轻学生对学业负担的感知。未来的研究可以采用更严格的纵向设计 (longitudinal design) 来更深入地探讨这些复杂的双向因果机制。 - 人格特质的影响: 论文建议未来的研究可以考察人格因素,如信任倾向 (trust propensity) 和大五人格特质 (Big Five personality traits),如何与
ChatGPT使用相关联,以及这些特质如何塑造学生对ChatGPT可靠性、可信度和有效性的感知。 - 对质量敏感性结果的深入探究: 本研究发现对质量的敏感性对
ChatGPT使用没有显著影响,这需要进一步调查。这可能是因为一些质量意识强的学生认为个人努力是高质量工作的必要条件,而另一些则可能认为ChatGPT有助于提升工作质量。未来的研究可以探索情境调节变量(如对生成式AI的信任倾向)在其中发挥的作用。 - 惩罚恐惧: 匿名审稿人提出,对惩罚的恐惧(例如,因抄袭而被发现)也可能阻止学生使用
ChatGPT。未来的研究可以将其纳入考量。 AI使用的潜在益处: 论文主要侧重于负面影响,未来的研究可以更全面地探讨生成式AI使用的益处。- 跨领域和跨性别差异: 未来研究可以比较不同知识领域(如计算机科学、社会科学)或不同性别群体之间
ChatGPT使用的动态,以检验是否存在差异化效应。 - 学习和健康结果: 最后,未来的研究可以深入探讨
ChatGPT使用对学生的学习(认知技能、批判性思维发展)和健康结果(心理健康、压力水平)的更深层次影响。
7.3. 个人启发与批判
个人启发:
本研究为理解 ChatGPT 在高等教育中的实际影响提供了一个急需的实证基础,这是非常及时和有价值的。它证实了许多教育工作者和政策制定者心中的担忧,即 AI 工具并非万能药,其滥用确实会带来实实在在的负面后果。
- 压力是主要驱动力: 发现学业负担和时间压力是学生使用
ChatGPT的主要驱动因素,这提示教育机构,单纯的禁令可能治标不治本,更重要的是要审视课程设计、作业量和截止日期设置的合理性。减轻不必要的压力,或许能从根本上降低学生对AI工具的过度依赖。 - “奖励敏感性”的启示: 对奖励敏感的学生更少使用
ChatGPT的发现非常有趣。这表明,如果学生将好成绩与诚实努力和避免风险联系起来,那么明确的学术诚信政策、有效的检测手段以及对学术不端的严格惩罚,确实可以在一定程度上抑制AI滥用。 - 负面影响的警示: 拖延、记忆丧失和学业表现下降这些负面结果,是对学生和教育者的一个明确警示。这不仅仅是“作弊”的问题,更是对学生核心学习能力和长远发展的潜在损害。
批判:
-
记忆丧失的测量:
记忆丧失变量的测量是自我报告的(例如,“最近,我脑子里记不住太多东西”)。这种主观报告可能受到学生对AI使用的担忧或心理暗示的影响,缺乏客观的认知能力测试支撑,可能削弱该结论的严谨性。未来的研究应结合客观的认知能力评估,如记忆力测试,来增强这一发现的说服力。 -
“上瘾”的措辞:
ChatGPT使用量表中的一个项目是“我在学习时对ChatGPT上瘾”。上瘾 (addiction)是一个非常强的词汇,通常指代一种病理性的、强制性的行为模式。在量表中直接使用这个词汇,可能引导受访者做出符合社会期望的回答,或者夸大其使用强度,从而引入偏差。使用更中性、描述性的词语可能更合适,如“过度依赖”或“无法停止使用”。 -
对质量敏感性结果的深入解释: 论文发现对质量的敏感性与
ChatGPT使用不相关,并简单解释为“一些有质量意识的学生可能认为个人努力是质量工作的条件,而另一些则可能认为ChatGPT可以帮助达到质量”。这个解释虽然合理,但相对简单。这可能意味着质量的定义在不同学生心中是多维的,或者存在其他调节变量(如学生对AI辅助生成内容质量的先验信念、对原创性的重视程度等)在其中发挥作用。该结果的复杂性值得更细致的探讨。 -
未充分探讨
ChatGPT的“帮助”方面: 论文标题是“有害还是有益?”,但主要聚焦于负面后果。虽然负面发现至关重要,但如果能更深入地探究那些并非为了作弊、而是为了辅助学习(例如,加速理解复杂概念、提供不同视角、作为学习伙伴)而使用ChatGPT的学生,他们的学习成果是否有所提升?或者在哪些特定场景下ChatGPT真的能起到“帮助”作用?虽然 H4 被拒绝了,但其“帮助”的潜力并未完全被否定。 -
样本的普适性: 研究样本来自巴基斯坦的大学生。虽然样本量较大且具有多样性,但考虑到不同文化背景、教育体系和学术诚信标准可能存在的差异,研究结果向其他国家或地区的普适性可能需要进一步验证。
综上所述,本研究为
ChatGPT在高等教育中的影响提供了重要的实证证据,但未来仍有广阔的研究空间,需要更细致、多维度、多方法的探讨来全面理解这一新兴技术对学生学习和发展的复杂影响。
相似论文推荐
基于向量语义检索推荐的相关论文。