Is a Seat at the Table Enough? Engaging Teachers and Students in Dataset Specification for ML in Education
TL;DR 精炼摘要
本研究通过十场协同设计,促进教师、学生与机器学习从业者共同制定教育领域数据集规范,揭示利益相关者如何基于专业知识情境化数据需求和防范风险。结果表明,有效参与需结构化支持,如明晰迭代流程和共享标准,以提升公平性和问责制。
摘要
Despite the promises of ML in education, its adoption in the classroom has surfaced numerous issues regarding fairness, accountability, and transparency, as well as concerns about data privacy and student consent. A root cause of these issues is the lack of understanding of the complex dynamics of education, including teacher-student interactions, collaborative learning, and classroom environment. To overcome these challenges and fully utilize the potential of ML in education, software practitioners need to work closely with educators and students to fully understand the context of the data (the backbone of ML applications) and collaboratively define the ML data specifications. To gain a deeper understanding of such a collaborative process, we conduct ten co-design sessions with ML software practitioners, educators, and students. In the sessions, teachers and students work with ML engineers, UX designers, and legal practitioners to define dataset characteristics for a given ML application. We find that stakeholders contextualize data based on their domain and procedural knowledge, proactively design data requirements to mitigate downstream harms and data reliability concerns, and exhibit role-based collaborative strategies and contribution patterns. Further, we find that beyond a seat at the table, meaningful stakeholder participation in ML requires structured supports: defined processes for continuous iteration and co-evaluation, shared contextual data quality standards, and information scaffolds for both technical and non-technical stakeholders to traverse expertise boundaries.
思维导图
论文精读
中文精读
1. 论文基本信息 (Bibliographic Information)
- 标题 (Title): Is a Seat at the Table Enough? Engaging Teachers and Students in Dataset Specification for ML in Education (仅仅在桌上有一席之地就足够了吗?让教师和学生参与教育领域机器学习的数据集规范制定)
- 作者 (Authors): Mei Tan (斯坦福大学), Hansol Lee (斯坦福大学), Dakuo Wang (东北大学), Hariharan Subramonyam (斯坦福大学)。作者团队具有计算机科学、学习科学、教育技术和人机交互 (HCI) 等交叉学科背景。
- 发表期刊/会议 (Journal/Conference): 论文中标注为
Preprint, CSCW'24,表明这是一篇提交至 CSCW 2024 的预印本论文。CSCW (Conference on Computer-Supported Cooperative Work and Social Computing) 是计算机支持的协同工作与社会计算领域的顶级学术会议,在人机交互 (HCI) 和社会计算领域享有极高声誉。 - 发表年份 (Publication Year): 2023
- 摘要 (Abstract): 尽管机器学习 (ML) 在教育领域前景广阔,但其在课堂上的应用暴露了大量关于公平性、问责制、透明度以及数据隐私和学生同意等问题。这些问题的根源在于对教育复杂动态(如师生互动、协作学习等)的理解不足。为解决这些挑战,软件从业者需要与教育者和学生紧密合作,共同定义 ML 数据规范。为此,研究者们组织了10场协同设计会议,邀请了 ML 从业者、教育者和学生共同参与。研究发现,利益相关者会基于其领域知识来情境化数据,主动设计数据需求以减轻下游风险,并展现出基于角色的协作模式。研究最终得出结论:仅仅为利益相关者提供一个“席位”是不够的,有意义的参与需要结构化的支持,包括清晰的迭代流程、共享的数据质量标准以及跨越专业壁垒的信息支架。
- 原文链接 (Source Link):
-
arXiv 链接: https://arxiv.org/abs/2311.05792
-
发布状态: 预印本 (Preprint)。这意味着论文已完成并公开发布,但可能尚未经过完整的同行评审流程或在期刊/会议上正式发表。
-
2. 整体概括 (Executive Summary)
-
研究背景与动机 (Background & Motivation - Why):
- 核心问题: 当前,应用于教育领域的机器学习 (ML) 系统(例如,自动作文评分、学生辍学风险预测)往往因为对真实的教育情境缺乏深刻理解而产生各种问题,包括算法偏见、不公平、侵犯隐私等。
- 重要性与挑战: 这些问题之所以重要,是因为教育是一个高风险 (high-stakes) 领域,错误的 ML 系统决策可能对学生的未来产生严重负面影响。现有的 ML 开发流程中,一个核心的挑战(Gap)在于,教育领域的专家(教师)和最终用户(学生)通常在开发后期才被咨询,此时关于数据收集和定义等关键决策早已由技术人员做出,导致系统从“根”上就存在缺陷。
- 创新思路: 本文的创新之处在于将关注点前移,探索一种全新的协作模式。它主张在 ML 开发流程的最前端——数据集规范 (Dataset Specification) 阶段——就让教师和学生等关键利益相关者深度参与进来。这种方法属于近年来兴起的“以数据为中心的人工智能 (Data-Centric AI)”思潮,即认为高质量的数据与高质量的模型同等重要,甚至更重要。
-
核心贡献/主要发现 (Main Contribution/Findings - What):
- 主要贡献: 本文的核心贡献是通过一个系统的实证研究(10场协同设计工作坊),揭示了多方利益相关者在共同定义 ML 数据集规范过程中的具体行为、贡献模式和面临的挑战。 它为如何在 AI 开发早期阶段有效融合领域知识提供了宝贵的经验证据。
- 关键发现:
- 利益相关者能带来独特价值: 教师和学生利用他们的领域知识和亲身经历,将抽象的数据需求“情境化”,并能主动预见潜在的下游危害(如标签污名化、数据误用),从而提出规避方案。
- 存在基于角色的协作模式: 不同角色的参与者(工程师、教师、学生、设计师、法律专家)在讨论中自然形成了互补的协作模式和贡献规律。
- “一个席位”远远不够: 论文最重要的结论是,简单地邀请利益相关者参与讨论(给他们一个席位)是不足以实现有意义的协作的。他们需要结构化的支持 (structured supports),具体包括:
-
定义的流程 (Defined processes): 用于持续迭代和共同评估的清晰流程。
-
共享的标准 (Shared standards): 对情境化数据质量的共识。
-
信息支架 (Information scaffolds): 帮助技术和非技术人员跨越专业知识鸿沟的工具或材料。
-
3. 预备知识与相关工作 (Prerequisite Knowledge & Related Work)
-
基础概念 (Foundational Concepts):
- 以数据为中心的 AI (Data-Centric AI): 这是一种相对于传统“以模型为中心 (Model-Centric AI)”的 AI 开发理念。传统方法通常固定数据集,反复迭代和优化模型架构来提升性能。而
Data-Centric AI则主张在模型相对固定的情况下,通过系统性地改进和优化数据(如修正标签、增加多样性、改善数据质量)来提升 AI 系统的整体表现。本文的研究正是Data-Centric AI理念在实践中的体现,它关注的是如何在一开始就设计出高质量的数据。 - 数据集规范 (Dataset Specification): 这是在数据收集之前定义数据集需求的文档化过程。它详细说明了需要什么样的数据,包括数据来源、特征(attributes)、标签(labels)、代表性(representativeness)要求、收集方法等。这可以看作是数据集的“蓝图”。
- 数据集文档化 (Data Documentation): 这是在数据收集之后为数据集创建的“说明书”,旨在提高透明度和问责制。最著名的框架是
Datasheets for Datasets,它要求详细记录数据集的创建动机、构成、收集过程、潜在偏见等。本文的研究借鉴了Datasheets的思想,但将其从“事后文档化”转变为“事前规范化”。 - 参与式设计 (Participatory Design): 一种强调让最终用户和利益相关者直接、积极地参与到设计和开发过程中的设计方法论。其核心目标是 democratizing innovation (创新民主化),确保最终产品能真正满足用户的需求并尊重其价值观。本文将这一理念引入了 ML 数据集的早期设计阶段。
- 以数据为中心的 AI (Data-Centric AI): 这是一种相对于传统“以模型为中心 (Model-Centric AI)”的 AI 开发理念。传统方法通常固定数据集,反复迭代和优化模型架构来提升性能。而
-
前人工作 (Previous Works):
- 论文首先指出了当前 ML 开发实践中的问题:数据管理随意、角色职责不清、过度依赖工程师个人道德判断、忽视领域专家和真实世界情境。
- 接着,论文回顾了
Data-Centric AI和数据文档化的研究,肯定了Datasheets for Datasets等框架在提高下游数据透明度方面的价值,但同时指出这些工作主要关注“下游评估”,而对“上游规范”的研究不足。 - 最后,论文探讨了利益相关者协作的挑战,如跨学科沟通障碍(专业术语不同)、知识鸿沟和权力不平衡。特别是在教育领域,教师和学生常常被边缘化,仅在技术实施阶段被动参与。
-
差异化分析 (Differentiation):
-
与关注下游评估和文档化的相关工作(如
Datasheets)不同,本文聚焦于上游的、更具前瞻性的“数据集规范”阶段。 -
与一般性的 AI 协同设计研究不同,本文深入到 ML 流水线中最基础但也最关键的数据层面,而不是仅仅停留在应用界面或功能的设计上。
-
与仅呼吁利益相关者参与的研究不同,本文通过实证研究具体分析了“如何”参与以及参与中需要“何种支持”,并提出了“光有席位不够”这一深刻洞见。
-
4. 方法论 (Methodology - Core Technology & Implementation Details)
本文采用定性研究 (Qualitative Research) 方法,核心是通过协同设计工作坊 (Co-design Workshops) 来收集和分析数据。
-
方法原理 (Methodology Principles):
- 研究的核心思想是,通过创建一个模拟真实协作环境的场域(即工作坊),观察不同专业背景的利益相关者在面对一个共同的、具体的 ML 设计任务时,是如何互动、协商并产生集体智慧的。这种方法能够揭示出在传统、孤立的开发流程中无法看到的协作动态和潜在需求。
-
方法步骤与流程 (Steps & Procedures):
-
参与者招募 (Participants): 研究共招募了40名参与者,分为5种角色:
-
机器学习工程师 (ML Engineer)
-
教师 (Teacher) - 作为领域专家
-
学生 (Student) - 作为数据主体和最终用户
-
用户体验设计师 (UX Designer)
-
法律/伦理专家 (Legal/Ethics Professional) 共组织了10场线上工作坊,每场理想情况是5种角色各一人。Table 1 详细列出了每场会议的参与者构成和他们的专业经验年限。
Session Design Scenario Participants (Years of Experience) 1 Student Engagement Image Classification E (25 yrs), T (18 yrs), S, D (2 yrs) 2 Student Engagement Image Classification E (3 yrs), T (30 yrs), S, D (2 yrs) 3 Student Engagement Image Classification E (15 yrs), T (2 yrs), S, L (7 yrs) 4 Resume-based Career Recommendation E (5 yrs), T (9 yrs), S, D (1 yrs) 5 Student Drop-out Risk Prediction E (3 yrs), T (3 yrs), S, D (5 yrs) 6 Student Drop-out Risk Prediction E (3 yrs), T (3 yrs), S, D (1 yrs) 7 Student Drop-out Risk Prediction E (3 yrs), T (8 yrs), S, D (2 yrs), L (5 yrs) 8 Automated Essay Grading E (2 yrs), T (5 yrs), S, D (1 yrs) 9 Automated Essay Grading E (7 yrs), T (7 yrs), S, D (2 yrs) 10 Automated Essay Grading E (1 yrs), T (3 yrs), L (2 yrs)
-
-
工作坊协议 (Workshop Protocol): 每场工作坊持续120分钟,流程结构化,灵感来源于
Datasheets for Datasets。图像 1 直观地展示了整个流程。
该图像是一个流程示意图,展示了机器学习教育应用设计中的协同设计会话流程,包括设计简介、动机、组成、收集、评估、持续使用和总结等七个环节,配有相关文字说明和示意图片。- 设计简介 (Design Brief - 20分钟): 主持人介绍一个具体的 ML 教育应用场景(如学生参与度图像分类),包括其输入输出、应用界面示意图,为参与者提供基础知识和共同的讨论起点。共准备了4个场景:
- 学生参与度图像分类 (Student Engagement Image Classification)
- 基于简历的职业推荐 (Resume-based Career Recommendation)
- 学生辍学风险预测 (Student Drop-out Risk Prediction)
- 自动作文评分 (Automated Essay Grading)
- 动机 (Motivation - 15分钟): 小组讨论并明确应用的使用场景、直接和间接的利益相关者。
- 构成 (Composition - 25分钟): 这是核心环节之一。小组共同定义数据集应包含的特征(attributes)、标签(labels),以及如何确保数据集对目标用户的代表性(representation)。
- 收集 (Collection - 20分钟): 设计数据收集和标注的流程,包括数据来源、时间框架、人员、以及至关重要的用户同意 (consent) 机制。
- 评估 (Evaluation - 20分钟): 讨论如何衡量数据质量,设计数据清洗(data cleaning)流程,以及如何处理缺失值和偏见。
- 持续使用 (Continued Use - 10分钟): 讨论数据集在完成本次应用开发后的隐私、安全、分发和版权问题。
- ** debrief (Debriefing - 10分钟):** 参与者反思整个协作过程的挑战与机遇,并提出改进建议。
- 设计简介 (Design Brief - 20分钟): 主持人介绍一个具体的 ML 教育应用场景(如学生参与度图像分类),包括其输入输出、应用界面示意图,为参与者提供基础知识和共同的讨论起点。共准备了4个场景:
-
数据分析 (Data Analysis): 研究人员对所有工作坊的录音进行转录,然后采用扎根理论 (Grounded Theory) 的方法进行归纳式定性编码 (inductive qualitative coding)。这意味着他们不是用预设的理论框架去套数据,而是从原始的对话文本中自下而上地提炼出编码(codes)、范畴(categories)和主题(themes)。
-
-
数学公式与关键细节 (Mathematical Formulas & Key Details):
-
本研究是一项定性研究,其核心在于分析人类协作的语言和行为模式,因此不涉及复杂的数学公式。研究的严谨性体现在其系统化的研究设计、数据收集和定性分析流程上。
-
5. 实验设置 (Experimental Setup)
由于本研究的性质是定性研究,其“实验设置”与传统的 ML 模型性能评估实验有本质区别。这里的“实验”指的是观察和分析协同设计工作坊的过程本身。
-
数据集 (Datasets):
- 本研究的分析数据是10场工作坊的会议转录文本,以及参与者在共享文档中共同创建的数据规范工件 (data specification artifacts)。
- 工作坊中讨论的“数据集”是假设性 (hypothetical) 的,它们是设计任务的对象,而非真实存在的数据。这些假设的数据集覆盖了不同类型:
- 图像数据 (Image Data): 用于“学生参与度分类”。
- 表格数据 (Tabular Data): 用于“学生辍学风险预测”。
- 文本数据 (Text Data): 用于“自动作文评分”和“职业推荐”。
- 选择这些不同类型的数据场景,是为了观察协作动态是否会因数据模态的不同而变化。
-
评估指标 (Evaluation Metrics):
- 本研究没有使用传统 ML 中的定量评估指标(如准确率、F1分数等)。
- 其“评估”是定性的,旨在评估协同设计过程的质量和产出。评估的维度包括:
- 贡献的性质: 不同角色贡献了哪些类型的知识和关注点?
- 协作的动态: 参与者之间是如何沟通、协商和解决分歧的?
- 面临的挑战: 协作过程中出现了哪些障碍(如知识鸿沟)?
- 未满足的需求: 什么样的支持能够帮助他们更好地协作?
-
对比基线 (Baselines):
-
本研究没有设置明确的“基线 (Baseline)”对照组。
-
但是,其研究结果 implicitly (隐含地) 与“传统 ML 开发流程”进行了对比。传统流程通常是工程师主导,缺乏多方利益相关者在早期的参与。本文通过展示协同设计带来的丰富、情境化的见解,有力地论证了其相对于传统流程的优越性。
-
6. 实验结果与分析 (Results & Analysis)
研究的主要发现可以归纳为三个相互关联的主题。
-
核心结果分析 (Core Results Analysis):
1. 用下游应用情境来指导上游数据任务 (Contextualizing Upstream ML Tasks within Downstream Use)
研究发现,非技术背景的利益相关者(特别是教师和学生)在讨论数据规范时,会不断地将上游的技术决策(如选择什么特征、如何打标签)与下游的真实使用场景联系起来,从而预见并试图规避潜在的风险。
-
领域知识塑造数据规范: 教师和学生提出了许多工程师仅靠技术思维无法想到的数据维度。例如,在讨论“学生辍学风险”时,一名学生指出:“不仅仅是看他们的成绩。一个在AP课程中挂科的学生和一个在普通课程中拿A的学生,这两者背后的故事是完全不同的。” 这体现了他们对教育情境细微差别的深刻理解。
-
对数据和标签的批判性思考: 教师和学生对数据标签可能带来的“污名化”效应非常警惕。例如,有教师担心将学生直接标记为“有辍学风险 (
drop-out)”会给他们带来负面心理暗示和行政后果。他们主张使用更具行动指导意义的标签,如“需要特定支持的学生”,从而将模型的输出从“评判”转向“赋能”。 -
识别数据无法捕捉的“未知”: 他们深刻认识到,许多关键因素(如学生是否无家可归、家庭变故等)是常规数据无法捕捉的,这促使团队更谨慎地思考模型的局限性和解释性。
Table 2 在论文中系统性地总结了这些发现(以下为根据原文碎片化内容进行的整理和重构):
上游数据任务 领域情境 (Domain Contexts) 关注点 (Concerns) 未满足的支持需求 (Unmet Support Needs) 构成 (Composition) - 数据需考虑不同教育环境(公立/私立、地域、年级)。
- 代表性不仅限于人口统计,还包括学习需求(语言、神经多样性等)。
- 强调学生校外因素(家庭支持、社区环境)和自我感知(自信心、课堂安全感)。
- 标签应与教学目标对齐,指向具体行动。- 担心数据无法捕捉学生经历的全部关键因素。
- 担心用户误解模型输入输出的因果关系,并采取错误行动。
- 担心标签对学生造成负面影响,限制其能动性。- 非技术人员对训练数据、应用数据和验证数据之间的关系理解不足。
- 难以理解不同变量如何影响模型预测。收集 (Collection) - 需考虑学校现有的行政数据。
- 需与第三方数据提供商(如大学理事会)打交道。
- 用户同意书必须透明、详细,建立信任。
- 标签应由领域专家(如经验丰富的教师)来标注。- 对数据所有权和管理流程不清楚。
- 担心选择性加入的同意机制会导致样本偏差。
- 担心贴标签过程中的主观性和个人偏见。- 对数据隐私和安全标准缺乏参考框架。
- 对数据协议中的法律术语和权利义务不了解。评估 (Evaluation) - 数据可能存在缺失或收集限制(如某些学校不愿意参与)。 - 担心数据集中的缺陷不够透明,影响模型输出的解释。
- 缺乏记录和沟通数据偏见的协议。- (同上)
2. 跨越专业边界的协作策略 (Collaboration Strategies Across Expertise Boundaries)
研究观察到,不同角色的参与者在协作中自发地扮演了不同的、互补的角色,共同推动讨论。图像 2 对此进行了可视化展示。
该图像是一张角色贡献在数据规范研讨工作坊不同阶段发言的可视化图,展示了包括机器学习工程师、教师、学生、用户体验专家和法律专家等在内的多角色在动机、构成和收集阶段的发言分布及部分引用内容。- 图像 2 解读: 这张图谱展示了在三个阶段(动机、构成、收集)中,不同角色(用不同颜色表示)的发言分布。每一条横线代表一句话。我们可以看到:
- 教师 (Teacher, 橙色) 和 学生 (Student, 浅粉色) 的发言在
Composition(构成) 和Collection(收集) 阶段非常密集。这表明他们在定义数据内容和收集方式上贡献了大量领域知识。例如,引用2中教师说“多样性不仅仅是物理属性,还包括环境的多样性...”,这是典型的领域情境化贡献。 - 机器学习工程师 (ML Engineer, 蓝色) 的发言贯穿始终,他们经常在技术可行性和领域需求之间进行“翻译”。例如,引用10中工程师提到“你可以用人口统计学变量来理解你的数据,所以当你构建模型时,你可以在一定程度上应对那种偏见”,这是在向非技术人员解释技术概念。
- 用户体验专家 (UX Professional, 绿色) 和 法律专家 (Legal Professional, 紫色) 扮演了引导者和守护者的角色,他们确保讨论聚焦于用户,并提醒团队注意伦理和法律风险。
- 教师 (Teacher, 橙色) 和 学生 (Student, 浅粉色) 的发言在
3. 改变中的角色、身份和支持需求 (Shifting Roles, Identities, and Support Needs)
这是论文最核心的结论:仅仅提供一个参与的“席位”是不够的。 研究发现,尽管参与者热情很高,但协作过程充满挑战,凸显了对结构化支持的迫切需求。
-
知识鸿沟 (Knowledge Gaps): 非技术人员难以理解 ML 的一些基本概念(如训练数据和推理数据的区别),而技术人员也常常对教育领域的复杂性做出过于简化的假设。
-
缺乏共享标准 (Lack of Shared Standards): 对于什么是“高质量”或“有代表性”的数据,不同角色的人有不同的理解,缺乏一个共同的评估框架。
-
流程不明确 (Undefined Processes): 讨论是开放和生成性的,但缺乏明确的迭代和共同评估机制,使得想法难以收敛为具体可操作的规范。
因此,论文呼吁开发信息支架 (information scaffolds),例如为非技术人员设计的 ML 概念解释卡片,或为技术人员准备的领域背景介绍,以及设计更明确的协作流程和工具来支撑这种跨学科合作。
-
-
消融实验/参数分析 (Ablation Studies / Parameter Analysis):
-
本研究不适用此部分。
-
7. 总结与思考 (Conclusion & Personal Thoughts)
-
结论总结 (Conclusion Summary): 本文通过严谨的定性研究有力地证明了,在 ML 开发的最早期阶段——数据集规范制定中,让教师和学生等利益相关者参与进来,能够极大地丰富对数据的理解,并主动规避潜在的伦理风险。然而,研究的核心洞见在于,这种参与必须是“有意义的”,而不仅仅是“形式上的”。要实现有意义的参与,就必须提供结构化的支持,包括清晰的协作流程、共享的质量标准和跨越知识鸿沟的信息支架。
-
局限性与未来工作 (Limitations & Future Work):
- 局限性:
- 人工环境: 工作坊是在一个受控的、模拟的环境下进行的,可能与真实工业界项目中的压力和约束有所不同。
- 参与者代表性: 参与者是自愿报名的,可能比普通人群对 AI 和伦理问题更感兴趣。
- 角色覆盖不全: 法律/伦理专家的招募困难,导致部分场次缺少这一重要角色。
- 未来工作:
- 设计和评估支持工具: 开发并测试论文中提出的“信息支架”和协作工具,看它们是否能有效改善协作。
- 真实世界研究: 在真实的 ML 开发项目中应用并研究这种协同设计模式。
- 扩展到其他领域: 将此研究框架应用到医疗、金融等其他高风险领域。
- 局限性:
-
个人启发与批判 (Personal Insights & Critique):
- 启发:
- “上游思维”的重要性: 这篇论文完美诠释了“预防胜于治疗”。与其在 ML 系统部署后亡羊补牢式地修复偏见和公平性问题,不如在一开始的数据设计阶段就注入领域智慧和伦理考量。这个思想对于所有 AI 从业者都具有极强的指导意义。
- “人”在 AI 系统中的核心价值: 在一个技术日新月异的时代,这篇论文提醒我们,真正强大和负责任的 AI 系统离不开人的智慧、经验和价值观的深度融合。技术本身是中立的,但其设计和应用必须以人为本。
- 从“做什么”到“怎么做”: 许多研究呼吁“让利益相关者参与”,但这篇论文更进了一步,它通过实证研究揭示了参与过程中的具体挑战,并指明了“如何更好地参与”的方向(即提供结构化支持),这使其具有很强的实践指导价值。
- 批判:
- 解决方案的初步性: 本文更偏向于“发现问题”和“定义问题”。它清晰地指出了“需要结构化支持”,但对于这个“支持”具体应该是什么样的,只给出了方向性的建议(如信息支架),而没有提供一个经过验证的具体设计或工具。这当然也是其未来工作的方向。
- 规模化挑战: 论文中的协同设计工作坊是小规模、高成本的(需要协调多方专家时间)。如何将这种深度协作模式规模化地应用到快节奏的商业开发环境中,是一个巨大的挑战,论文对此未做深入探讨。
- 启发:
相似论文推荐
基于向量语义检索推荐的相关论文。