SCB-Dataset: A Dataset for Detecting Student and Teacher Classroom Behavior
TL;DR 精炼摘要
该论文构建了首个大规模的SCB-Dataset,涵盖19种学生和教师课堂行为类别,解决了教育领域数据集稀缺问题。数据集分为对象检测和图像分类两部分,提供了13,330张图像和122,977个标签,有望为教育AI应用奠定基础。
摘要
Using deep learning methods to detect the classroom behaviors of both students and teachers is an effective way to automatically analyze classroom performance and enhance teaching effectiveness. Then, there is still a scarcity of publicly available high-quality datasets on student-teacher behaviors. We constructed SCB-Dataset a comprehensive dataset of student and teacher classroom behaviors covering 19 classes. SCB-Dataset is divided into two types: Object Detection and Image Classification. The Object Detection part includes 13,330 images and 122,977 labels, and the Image Classification part includes 21,019 images. We conducted benchmark tests on SCB-Dataset using YOLO series algorithms and Large vision-language model. We believe that SCB-Dataset can provide a solid foundation for future applications of artificial intelligence in education. Code:https://github.com/Whiffe/SCB-dataset
思维导图
论文精读
中文精读
1. 论文基本信息
1.1. 标题
SCB-Dataset: A Dataset for Detecting Student and Teacher Classroom Behavior
1.2. 作者
Fan Yang,来自暨南大学 (Jinan University),广州,中国。
1.3. 发表期刊/会议
该论文作为预印本 (preprint) 发布在 arXiv 上。 arXiv 是一个开放获取的预印本服务器,允许研究人员在正式同行评审发表之前分享其研究成果。
1.4. 发表年份
2023年(发布于UTC时间2023-04-05T15:02:30.000Z)。
1.5. 摘要
利用深度学习 (deep learning) 方法检测学生和教师的课堂行为,是自动分析课堂表现和提升教学效果的有效途径。然而,目前公开可用的高质量学生-教师行为数据集仍然稀缺。本文构建了 SCB-Dataset,这是一个涵盖19种行为类别的综合性学生和教师课堂行为数据集。SCB-Dataset 分为两种类型:目标检测 (Object Detection) 和图像分类 (Image Classification)。目标检测部分包含13,330张图像和122,977个标注,图像分类部分包含21,019张图像。作者使用 YOLO 系列算法 (YOLO series algorithms) 和大型视觉-语言模型 (Large vision-language model, LVLM) 对 SCB-Dataset 进行了基准测试。作者认为 SCB-Dataset 能为人工智能在教育领域的未来应用提供坚实的基础。
1.6. 原文链接
- arXiv 链接: https://arxiv.org/abs/2304.02488
- PDF 链接: https://arxiv.org/pdf/2304.02488v7.pdf
- 发布状态: 预印本 (preprint)。
2. 整体概括
2.1. 研究背景与动机
- 核心问题: 深度学习在计算机视觉领域取得显著进展,但将这些技术应用于教育领域(特别是课堂行为分析)时,面临一个关键瓶颈:缺乏公开可用的高质量、大规模、涵盖学生和教师行为的综合数据集。现有数据集往往规模小、质量低,或仅关注单一行为类型,难以满足实际课堂场景的复杂性和多样性需求。
- 重要性: 自动分析课堂行为对于评估教学质量、掌握学生学习状态、个性及心理特征、以及为教师教学提供反馈至关重要。随着大数据时代高质量课堂视频的普及,为构建此类数据集提供了丰富的原始素材。
- 切入点/创新思路: 论文旨在通过构建一个包含学生和教师多种行为(共19类)的 SCB-Dataset 来填补这一空白。该数据集的独特之处在于它同时提供了适用于目标检测 (Object Detection) 和图像分类 (Image Classification) 两种任务的数据,并考虑了真实课堂场景的复杂性(如密集人群、像素差异、多角度、多民族等),还专门针对一些传统目标检测难以处理的复杂行为设计了图像分类任务。
2.2. 核心贡献/主要发现
- 提出了 SCB-Dataset 数据集: 这是首个公开的、面向真实教育环境的学生和教师课堂行为数据集,具有最多的类别和最大的图像数量,填补了教学场景下学生课堂行为研究的数据空白。
- 数据集的多样性与双重设计:
- 数据集分为目标检测和图像分类两种类型,分别用于精细定位个体行为和整体图像级别的行为识别。
- 目标检测数据集能够定位学生和教师的位置并进行行为分类,支持细粒度研究。
- 图像分类数据集针对一些难以通过局部特征识别的复杂行为(如教师巡视、学生听讲)提供整体图像信息进行分类,且标注工作量相对较小。
- 全面的基准测试: 使用了 YOLO 系列算法 (YOLO series algorithms) 和大型视觉-语言模型 (Large vision-language model, LVLM) 对 SCB-Dataset 进行了基准测试,为后续研究提供了性能基线。
- 详尽的标注工作和工具改进: 论文详细介绍了数据集的收集、帧提取、差分帧选择策略以及标注过程,并对标注工具 VIA 进行了多版本优化和改进,显著提高了标注效率和质量。
3. 预备知识与相关工作
3.1. 基础概念
- 深度学习 (Deep Learning): 机器学习 (Machine Learning) 的一个分支,通过构建多层人工神经网络 (Artificial Neural Networks) 来学习数据中的复杂模式。在计算机视觉领域,深度学习模型(如卷积神经网络 CNNs)在图像识别、目标检测等方面取得了突破性进展。
- 计算机视觉 (Computer Vision): 计算机科学领域的一个分支,旨在使计算机能够“看”并理解图像和视频。它包括图像获取、处理、分析和理解等任务。
- 目标检测 (Object Detection): 计算机视觉中的一项任务,旨在识别图像或视频中特定目标实例的位置和类别。输出通常包括目标的边界框 (Bounding Box) 和对应的类别标签。
- 图像分类 (Image Classification): 计算机视觉中的一项基本任务,旨在将输入的图像自动归类到预定义的类别中。模型输出通常是图像所属类别的概率分布。
- 大型视觉-语言模型 (Large Vision-Language Models, LVLMs): 一类结合了计算机视觉和自然语言处理 (Natural Language Processing, NLP) 能力的深度学习模型。它们能够理解图像内容并用自然语言进行描述、回答与图像相关的问题、或执行其他多模态任务。本文中用于图像分类任务,利用其理解图像整体上下文的能力。
- YOLO 系列 (You Only Look Once): 一系列流行的实时目标检测算法。其核心思想是将目标检测任务视为一个回归问题,只需一次前向传播即可预测图像中所有目标的边界框和类别。YOLO 系列算法以其高速度和相对准确性而闻名。
- LoRA (Low-Rank Adaptation): 一种参数高效的微调 (fine-tuning) 方法,用于大型预训练模型 (pre-trained models)。它通过在预训练模型的每一层注入小的、低秩的适应矩阵,大大减少了微调所需的参数量和计算资源,同时能保持或提升模型性能。
3.2. 前人工作
在学生课堂行为检测领域,研究人员已经采用了多种计算机视觉技术,并出现了一些数据集。
-
现有学生行为数据集:
- 公开数据集: 论文提及了 STBD-08 (Zhao and Zhu 2023)、ClaBehavior (Wang et al. 2023b)、SCBehavior (Wang et al. 2024)、UK Datasets (Feng et al. 2025) 和 roboflow 上的 classroom Dataset (reddy projects 2023)。然而,论文指出这些公开数据集普遍存在问题:
- 质量问题: 如 STBD-08 及其衍生的 UK Datasets 包含大量问题数据,如非标准边界框 (bbox) 和类别标注错误。
- 数量稀少: ClaBehavior 和 SCBehavior 虽然在论文中声称包含大量图像,但实际公开的图像数量远少于声称的数量,仅约400张,远不足以训练高性能的深度学习模型。
- 复用问题: STBD-08 和 UK Datasets 在图像内容、样本数量和分类标准上基本相同,且均基于付费网站的数据集。
- 闭源数据集: 论文在附录 A.2 中列举了许多闭源数据集,这些数据集通常由特定研究团队或商业公司拥有,不公开可用,因此限制了其他研究者在该领域的进展。例如,包含
focus,distract(Peng et al. 2025),listening,noting,playing,grovelling(Dang et al. 2025, Dang et al. 2024) 等行为。 - 数据类型: 现有数据集主要以目标检测数据为主,少量涉及人体骨骼关键点数据 (Zhou et al. 2023),也有视频行为识别数据、视频行为描述数据 (Sun et al. 2021) 和图像行为分类数据。
- 行为类别: 常见类别包括
listening(听讲),hand-raising(举手),reading(阅读),bending over/sleeping(弯腰/睡觉),writing(书写),standing(站立),using mobile phones(使用手机),discussing(讨论),turning head(转头)。也存在一些不常见类别如looking up(抬头),guiding(指导),focus(专注),distract(分心),playing(玩耍),writing on the blackboard(写黑板),teacher(教师身份识别) 等。
- 公开数据集: 论文提及了 STBD-08 (Zhao and Zhu 2023)、ClaBehavior (Wang et al. 2023b)、SCBehavior (Wang et al. 2024)、UK Datasets (Feng et al. 2025) 和 roboflow 上的 classroom Dataset (reddy projects 2023)。然而,论文指出这些公开数据集普遍存在问题:
-
现有检测算法:
- 基于视频动作识别 (video-action-recognition-based): 如 (Huang et al. 2022)。这类方法能够识别连续行为,但需要大量的视频标注,例如 AVA 数据集 (Gu et al. 2018) 用于 SlowFast (Feichtenhofer et al. 2019) 检测就包含了1.58M的标注。此外,视频行为识别技术本身尚未完全成熟。
- 基于姿态估计 (pose-estimation-based): 如 (He et al. 2020)。通过获取身体各关节的位置和运动信息来表征人类行为。然而,这种方法不适用于拥挤的教室场景。
- 基于目标检测 (object-detection-based): 如 (Yan et al. 2023)。近年来取得了显著突破,成为主流方法。本文主要采用了这种方法,并结合最新的 YOLOv7 等算法。
- 大型视觉-语言模型 (LVLMs): 随着 LVLMs (Bai et al. 2025) 近年的革命性发展,它们也成为学生行为检测研究的热点领域。
3.3. 技术演进
从简单的图像分类数据集(如 MNIST、CIFAR-10)到复杂的、真实世界场景的通用目标检测数据集(如 COCO),再到特定领域的、更具挑战性的数据集(如 AVA 视频行为数据集),计算机视觉领域的数据集一直在向着更大规模、更复杂、更真实的方向发展。早期的行为识别往往基于骨骼关键点或视频序列,但这些方法在拥挤、复杂的课堂场景中面临挑战。目标检测技术(如 Faster R-CNN, SSD, YOLO 系列)的成熟为课堂行为分析提供了新的思路,允许在图像帧级别识别和定位行为。近期,LVLMs 的兴起更是为图像分类和场景理解带来了颠覆性变革,使得模型能够更好地理解图像的整体上下文信息。本文的工作正是在这一技术演进背景下,针对教育领域特定需求,结合目标检测和 LVLM 的优势,构建了一个专门的数据集。
3.4. 差异化分析
本文的 SCB-Dataset 与现有工作的主要区别和创新点在于:
- 大规模与高质量: 相较于现有公开数据集数量稀少、质量不佳的现状,SCB-Dataset 旨在提供一个大规模、高质量的替代品,且经过严格的标注质量控制。
- 全面性: 它首次涵盖了学生和教师两种角色的行为,并且行为类别数量高达19种,远超现有数据集。
- 双模态设计: 创新性地将数据集分为目标检测和图像分类两部分。目标检测部分侧重于精细的个体行为定位,而图像分类部分则利用 LVLM 的整体理解能力来识别那些难以通过局部特征定义的复杂行为(如巡视、听讲),弥补了传统目标检测的不足。
- 真实世界复杂性: 数据集考虑了真实课堂场景的复杂因素,如不同的拍摄角度、课堂类型、学习阶段和民族背景,增强了模型的泛化能力。
- 标注工具优化: 论文详细介绍了对 VIA 标注工具的改进,这些改进是针对课堂场景的特点(如密集人群、小目标)进行的,提高了标注效率和准确性。
4. 方法论
4.1. 方法原理
SCB-Dataset 的核心原理是通过大规模、高质量的数据集,结合先进的深度学习技术(目标检测和大型视觉-语言模型),实现对学生和教师课堂行为的自动化、智能化分析。其背后的直觉在于,一个多样化、标注精细的数据集是训练出泛化能力强、鲁棒性好的行为识别模型的基石。通过将数据集分为目标检测和图像分类两部分,可以同时解决细粒度个体行为识别和复杂整体场景行为理解的需求,从而更全面地反映课堂动态。
4.2. 核心方法详解
SCB-Dataset 的构建过程包括数据收集、行为类别定义、数据标注和质量控制。
4.2.1. 数据收集 (Data Collection)
为了确保数据集的多样性以适应真实的课堂场景,数据直接从 bilibili、TikTok、1s1k 和 bjyhjy 等网站收集。值得注意的是,数据中还包含了中国少数民族的课堂数据,以增加民族多样性。
收集到的视频首先进行帧提取。为了减少行为类别间的不平衡问题,采用了差异化帧选择策略 (differential frame selection strategy):对于 read (阅读) 和 write (书写) 等常见类别,减少了采样量;对于 discuss (讨论) 和 board writing (板书) 等稀有类别,增加了采样量。
4.2.2. 行为类别 (Behavior classes)
SCB-Dataset 共涵盖19种行为类别,这些类别根据任务类型(目标检测或图像分类)和行为特征进行了划分。
- 目标检测数据集 (Object Detection Dataset): 包含12种行为。其优势在于能够定位每个学生和教师的坐标,并提供行为分类信息,支持后续的细粒度研究。
- 图像分类数据集 (Image Classification Dataset): 包含14种行为。其优势在于工作量较小,并且能够识别一些传统目标检测难以完成的行为,因为这些行为需要结合图像的整体信息(例如
teach(教学) 和patrol(巡视))。 - 总计19种行为: 通过去除两类数据集中重叠的行为,最终得到19种独特的行为类别。
行为分类示例 (Figure 2):
该图像是SCB-Dataset中的行为类别示例,展示了学生和老师在课堂上的多种行为。图中包括阅读、书写、听讲、举手回答问题等不同场景,体现了学生与教师的互动模式,为课堂行为分析提供了视觉依据。
Figure 2: Examples of behavior classes in SCB-Dataset
行为分类图示 (Figure 4):
该图像是行为分类示意图,展示了SCB-Dataset中学生与教师的课堂行为分类。行为分为物体检测和图像分类两部分,列出了各类行为的标签,如举手、阅读以及教师的指导等。
Figure 4: The behavior classification of SCB-Dataset
学生行为的视角划分: 论文认为,学生行为的分析可以从群体 (group) 和个体 (individual) 两个角度进行。
- 群体行为: 图4中用黄色背景标记的类别,如
reading(阅读) 和writing(书写)。论文认为,单个或少数学生的阅读和书写缺乏代表性,更重要的是关注学生的整体课堂参与度。大多数学生的阅读和书写行为能更好地反映当前的教学动态。 - 个体行为: 例如
hand-raising(举手)。当教师提问时,一个或多个学生举手回答问题,可以反映教师的提问方式、师生互动和课堂活跃度。
特定行为类别的说明:
blackboard-writing(板书): 在目标检测数据集中,区分为student blackboard-writing(学生板书) 和teacher blackboard-writing(教师板书),因为它们在课堂评估中具有完全不同的意义。teacher(教师): 在目标检测数据集中属于身份识别类别。teach(教学) 和patrol(巡视): 在目标检测数据集中没有这些行为类别,因为 YOLO 系列网络难以拟合这些行为特征,它们需要结合环境或时序特征才能识别。这些行为被纳入图像分类数据集。stand(站立): 既可以是教师行为也可以是学生行为,因此被归类为“其他 (Other)”。screen(屏幕) 和blackboard(黑板): 这些不是行为,而是环境中的物体,被分类为“其他 (Other)”,目的是为了获取课堂场景中的教师板书内容和屏幕中的 PPT 等内容。
图像分类数据集的调整:
- 由于图像分类使用 LVLMs 进行微调,为了更好地学习行为特征,
hand-raising(举手) 类别中仅保留包含3个或更多举手行为的图像。 - 图像分类每张图片只输出一个类别,因此将
read(阅读) 和write(书写) 行为合并为read and write(阅读和书写)。 - 图像分类可以结合整个图像信息来识别目标检测难以定义的行为,例如
on-stage presentation(上台展示),reading aloud(朗读),listen(听讲),teach(教学),patrol(巡视)。
4.2.3. 数据集挑战 (Dataset challenges)
课堂是一个人员密集的复杂环境,给 SCB-Dataset 带来了诸多挑战 (Figure 5)。
该图像是展示 SCB-Dataset 挑战的示意图。包含了像素差异、密集环境、多类共存和相似行为等问题的图示,有助于理解教师和学生在课堂上的行为特征。
Figure 5: Challenges in the SCB-Dataset include pixel differences, dense environments, the coexistence of multiple classes , and similar behaviors.
- 像素差异 (Pixel differences): 如图5 I 所示,前排学生与后排学生的图像像素差异显著,导致检测难度增加。
- 密集环境与遮挡 (Dense environments and occlusion): 如图5 II 所示,密集的学生导致严重的前后遮挡,使得目标检测更加困难。
- 多类共存 (Coexistence of multiple classes): 如图5 III 所示,学生/教师可能同时存在多种行为,例如站立和教学的教师,或举手和阅读的学生。
- 行为相似性 (Similar behaviors): 如图5 IV 所示,行为之间存在高度相似性,例如手放在额头上和举手,或书写和阅读之间的相似性,这增加了分类的难度。
数据集多样性 (Dataset diversity): SCB-Dataset 展现了丰富的多样性 (Figure 6)。
该图像是一个展示SCB-Dataset多样性的图表,包括不同的拍摄角度、课堂类型和学习阶段。图中展示了计算机课、幼儿园、英语课、艺术课和中学等多种课堂场景,体现了教育环境的多样性。
Figure 6: The diversity of the SCB-Dataset includes varying shooting angles, class differences, different learning stages, and different ethnic groups.
- 拍摄角度多样 (Varying shooting angles): 如图6 I 所示,包括正面、侧面和背面视角,同一行为在不同角度下差异显著,增加了检测复杂性。
- 课堂环境多样 (Class differences): 如图6 II 所示,包含计算机课、英语课、艺术课等多种课堂环境和课程类型。
- 学习阶段多样 (Different learning stages): 如图6 III 所示,涵盖了从幼儿园到大学的学生成长阶段。
- 民族多样性 (Different ethnic groups): 如图6 IV 所示,除了汉族,还增加了藏族等不同民族背景的数据。
4.2.4. 数据标注工作 (Annotation Work)
标注工作是 SCB-Dataset 最耗时耗力的部分,占总工作量的近90%。
-
流程优化: 团队自2021年开始,经历了定义输入-输出期望、行为分类、制定标注规则的完整过程。早期由于定义不合理浪费了大量时间,直到2023年上半年重新设计了标注流程,并引入了可扩展行为标注方法 (extensible behavior annotation method),允许未来灵活地扩展行为类别。
-
标注工具 VIA 改进: 为了满足实际标注需求,对开源标注工具 VIA 进行了多版本优化和改进:
-
原始版本 (Figure 11):
该图像是一个课堂行为标注界面的示例,展示了学生在课堂上的行为。多个学生的行为被框选并标注,包括讨论、注意力、使用工具等情况。图像中还包含用于分类的标签界面,方便对学生行为进行分析。Figure 11: Original Annotation Interface of VIA
-
第二版本 (Figure 12):
该图像是一个教室场景,展示了多名学生在课堂上学习。图中标注了不同的课堂行为,如讨论和阅读,旨在用于行为检测的数据集。Figure 12: VIA Second Version
- 优化标签显示位置: 标签显示在标注框内部而非外部,方便在课堂场景(多标注框位于图像顶部)下检查。
- 增加标签切换快捷键: 除了鼠标滚轮,增加了“z”和“x”键来切换标签显示,方便无鼠标操作。
-
第三版本 (Figure 13):
该图像是一个关于课堂行为检测的示意图,展示了学生在教室内的多种行为类型。图中包含标注框和信息表格,记录了不同学生的行为,如阅读、讨论等,旨在支持SCB-Dataset的研究和分析工作。Figure 13: VIA Third Version
- 引入鼠标滚轮切换标注框功能: 解决了原始版本中难以选择过小标注框的问题,特别适用于清理错误标注产生的小框。
- 选中框颜色变化: 滚动鼠标时,选中标注框会变色,帮助用户识别已选中目标,对包含大量目标的图像特别有用。
-
第四版本 (Figure 14):
该图像是一个包含课堂场景的示意图,显示了多个学生的学习行为。图中以黄色框标注了一系列的行为信息,包括学生的姿态、所用工具和教学活动等,旨在展示SCB-Dataset数据集中的标注情况。Figure 14: VIA Fourth Version
- 半页显示标注内容: 显著提高了标注效率。
- 新增两种模式:
- 全图模式 (Full Image Mode): 显示整个图像中的所有标注框。
- 单目标模式 (Single Target Mode): 独立显示每个标注目标,特别适用于密集场景,方便检查标注框的准确性和行为分类。
-
第五版本 (Figure 15):
该图像是一个示意图,展示了课堂上学生的行为识别标注。图中包含多个标注框,分别标记不同学生的行为和姿态,显示出他们在课堂学习时的状态和互动。每个学生的行为被详细分类,有助于深入分析教学效果。Figure 15: VIA Fifth Version
- 引入复制上一帧标注功能: 对标注连续帧(高相似度)非常有用,显著减少重复操作,提高效率。
-
-
最终检查 (Final Checks with viaJson) (Figure 16):
该图像是一个统计结果页面,展示了通过 JSON 文件分析的检测框和标签数量。检测框数量为461,标签数量为539,并列出了部分没有标注的图片文件。此图可以帮助用户了解标注数据的完整性和有效性。Figure 16: Annotation Review and Counting Website 每次标注完成后,使用
viaJson统计网站验证标注结果,识别未分类标注框(已画框但未分类)并提供坐标,统计当前文件中的检测框和标注目标数量,确保标注的完整性和准确性。
4.2.5. 数据集统计 (Dataset statistics)
-
类别计数 (Figure 3):
该图像是一个关于SCB-Dataset的统计图,展示了对象检测和图像分类的数据集数量。左侧为对象检测部分,包括不同课堂行为的训练和验证数据集数量,右侧为图像分类部分,显示了各类行为的统计数据。Figure 3: SCB-Dataset Class Count Statistics 左侧是目标检测数据集的类别统计,右侧是图像分类数据集的类别统计。尽管在数据收集时努力缓解了类别数据不平衡问题,但统计结果显示问题依然严重。目标检测数据集的标注数量远高于图像分类数据集,因为前者一张图像中可能包含多个目标且每个目标有多个分类标注,而后者一张图像只有一个分类。
-
图像和标注数量 (Table 1): 以下是原文 Table 1 的结果:
Dataset Object Detection Image Classification Images Annotation Images Annotation Train 89,713 19,152 19,152 Val 33,264 1,867 1,867 Total 13,330 122,977 21,019 21,019 Table 1: Statistics on the number of images and annotations of the two datasets in SCB-Dataset
- 目标检测数据集: 总计13,330张图像和122,977个标注。
- 图像分类数据集: 总计21,019张图像和21,019个标注。
- 训练集 (Train) 和验证集 (Val) 划分特殊性 (针对目标检测): 目标检测数据集没有单独记录训练集和验证集的图像数量,原因是存在严重的类别不平衡。例如,
read和write类的样本数量远大于discuss类。如果对所有图像中的所有read和write对象都进行标注,不平衡会进一步加剧。因此,SCB-Dataset 仅对部分图像中的read和write进行标注,而对discuss等稀有类则进行全部标注。这种处理导致 SCB-Dataset 被分成多个子部分,每个子部分的训练集和验证集以4:1的比例独立随机划分,造成不同子部分之间训练集和验证集存在重叠。因此,目标检测数据集整体的训练集和验证集数量没有实际参考意义,只有对每个子部分的划分数据进行单独分析才具有统计价值(具体细节在附录中)。
4.2.6. 行为描述与识别规则 (Behavior Description and Recognition Rules)
附录 A.4 和 A.5 中详细定义了学生和教师的行为类别,并给出了识别规则。
学生行为类别定义:
Read and write(阅读和书写): 学生正在阅读或书写。On-stage presentation(上台展示): 学生在讲台上展示。与教师行为中的on-stage interaction(上台互动) 的区别是,on-stage interaction涉及教师,而on-stage presentation只有学生在讲台上。Student blackboard-writing(学生板书): 学生在黑板上书写。与teacher blackboard-writing(教师板书) 不同。Answering questions(回答问题): 学生站立回答问题。与教师行为中的answer(回答) 的区别是,Answering questions图像中只有学生没有教师,而answer图像中学生和教师都有。Reading aloud(朗读): 学生齐声朗读。与read and write的区别是,朗读时学生会张嘴或有张嘴的趋势。Discuss(讨论): 学生在课堂上进行讨论,可以是同桌间或前后排学生间的讨论。Listen(听讲): 学生抬头听老师讲课。Hand-raising(举手): 学生举手。通常只有3个或更多学生举手时才计数。Others(其他): 不属于上述任何类别的行为。
教师行为类别定义:
Teach(教学): 教师通常站在讲台上讲解知识点。与teacher-student interaction(师生互动) 的区别是,教学时只有教师站立。Guide(指导): 教师走下讲台对某个学生进行单独指导,通常伴随弯腰、停下等动作(仅仅站在学生旁边观察不被视为guide)。Answer(回答): 学生回答教师的问题。通常教师和学生都站立,教师提问,学生回答。On-stage interaction(上台互动): 教师邀请学生上台进行活动,包括玩游戏、完成任务或学生在讲台写板书。与学生行为中的on-stage presentation的区别是,on-stage presentation只有学生在讲台,而on-stage interaction教师和学生都在。Blackboard-writing(板书): 教师在黑板上书写。特指教师的板书行为,学生在讲台上的书写不视为教师行为。Patrol(巡视): 教师不在讲台上,而是在教室里走动,观察学生或巡视教室。Others(其他): 不属于上述任何类别的行为。
识别规则:
- 单行为优先: 每张图片只识别一个主导行为。如果存在复合动作,则根据主导行为进行分类。
- 唯一输出: 每次识别只输出一个行为类别。
5. 实验设置
5.1. 数据集
实验中使用的核心数据集是 SCB-Dataset,它包括目标检测数据集和图像分类数据集两部分。
-
SCB-Dataset 概述:
- 总类别: 19个行为类别。
- 目标检测部分: 包含13,330张图像和122,977个标注。
- 图像分类部分: 包含21,019张图像和21,019个标注。
- 数据来源: bilibili、TikTok、1s1k、bjyhjy等开放课堂网站,并包含中国少数民族的课堂数据。
- 特点: 涵盖了多样化的拍摄角度、课堂环境(计算机课、英语课、艺术课)、学生学习阶段(幼儿园到大学)和民族背景。
- 挑战: 存在像素差异大、学生密集遮挡严重、多行为共存、行为相似度高等问题。
-
数据集样本示例:
-
以下是原文 Figure 2 的示例,展示了SCB-Dataset中的部分行为类别:
该图像是SCB-Dataset中的行为类别示例,展示了学生和老师在课堂上的多种行为。图中包括阅读、书写、听讲、举手回答问题等不同场景,体现了学生与教师的互动模式,为课堂行为分析提供了视觉依据。Figure 2: Examples of behavior classes in SCB-Dataset
-
以下是原文 Figure 5 的示例,展示了SCB-Dataset面临的挑战:
该图像是展示 SCB-Dataset 挑战的示意图。包含了像素差异、密集环境、多类共存和相似行为等问题的图示,有助于理解教师和学生在课堂上的行为特征。Figure 5: Challenges in the SCB-Dataset include pixel differences, dense environments, the coexistence of multiple classes , and similar behaviors.
-
以下是原文 Figure 6 的示例,展示了SCB-Dataset的多样性:
该图像是一个展示SCB-Dataset多样性的图表,包括不同的拍摄角度、课堂类型和学习阶段。图中展示了计算机课、幼儿园、英语课、艺术课和中学等多种课堂场景,体现了教育环境的多样性。Figure 6: The diversity of the SCB-Dataset includes varying shooting angles, class differences, different learning stages, and different ethnic groups.
-
以下是原文 Figure 17 的示例,展示了SCB-Dataset中各类图像样本:
该图像是来自 SCB 数据集的示例图,展示了学生和教师在课堂中的多种行为,涵盖了 19 个类别。每个类别的行为通过多个图像展示,包括举手、回答、讨论等场景。Figure 17: Examples of images from various classes in the SCB dataset.
-
-
数据集统计 (train/val 划分): 以下是原文 Table 1 的结果:
Dataset Object Detection Image Classification Images Annotation Images Annotation Train 89,713 19,152 19,152 Val 33,264 1,867 1,867 Total 13,330 122,977 21,019 21,019 Table 1: Statistics on the number of images and annotations of the two datasets in SCB-Dataset
以下是原文 Table 7 的结果:Class: Object Detection Train Val hand-raising 10538 2915 read 17539 6539 write 6447 3394 discuss 3607 1785 bow the head 4422 540 turn the head 7943 3213 guide 1155 449 answer 2574 853 on-stage interaction 528 149 blackboard-writing 821 277 teacher 8490 3228 stand 13932 4967 screen 5025 1959 blackboard 7847 3445 Class: Image Classification Train Val hand-raising 1472 187 read and write 814 98 discuss 703 51 student blackboard-writing 211 17 on-stage presentation 34 10 answering questions 639 52 reading aloud 134 13 listen 2294 157 guide 1584 185 answer 3938 439 on-stage interaction 816 113 blackboard-writing 1703 204 teach 3088 240 patrol 1722 101
Table 7: SCB-Dataset training and validation data statistics
选择这些数据集是因为它们是专门针对课堂行为检测而构建的,且具有规模大、多样性广的特点,能有效验证方法在真实复杂场景下的性能。
5.2. 评估指标
实验针对目标检测和图像分类任务使用了不同的评估指标。
5.2.1. 目标检测任务评估指标
- 精确率 (Precision, P):
- 概念定义: 模型识别为正例的样本中,有多少是真正的正例。它衡量了模型预测结果的准确性,即在所有被模型判定为某个类别的目标中,有多少是真正属于该类别的。
- 数学公式:
- 符号解释:
TP(True Positive): 真实为正例,且被模型正确预测为正例的样本数量。FP(False Positive): 真实为负例,但被模型错误预测为正例的样本数量。
- 召回率 (Recall, R):
- 概念定义: 所有真实的正例中,有多少被模型识别出来。它衡量了模型识别出所有相关实例的能力,即在所有实际属于某个类别的目标中,有多少被模型成功地检测到了。
- 数学公式:
- 符号解释:
TP(True Positive): 真实为正例,且被模型正确预测为正例的样本数量。FN(False Negative): 真实为正例,但被模型错误预测为负例(即未检测到)的样本数量。
- 平均精确率 (Average Precision, AP):
- 概念定义: 衡量模型在不同召回率下的精确率表现。通常通过计算精确率-召回率 (P-R) 曲线下的面积来获得。一个更高的 AP 值表示模型在同时保持高精确率和高召回率方面表现更好。
- 数学公式: 对于离散采样点,通常使用插值方法近似计算: 其中 是在召回率 处的所有召回率大于 的精确率中的最大值。
- 符号解释:
- : 第 个数据点的召回率。
- : 对应于 的插值精确率。
- 平均精度均值 (mean Average Precision, mAP):
- 概念定义: 对所有类别的平均精确率 (AP) 取平均值。它是目标检测任务中最常用的评估指标之一,能够综合反映模型在所有类别上的整体性能。
- 数学公式:
- 符号解释:
- : 数据集中类别的总数量。
- : 第 个类别的平均精确率。
- mAP@0.5:
- 概念定义: 在交并比 (Intersection over Union, IoU) 阈值为0.5时计算的 mAP。IoU 衡量预测边界框与真实边界框的重叠程度。当 IoU 达到或超过0.5时,预测被认为是正确的。这个指标主要关注模型能否以较低的定位要求识别出目标。
- 数学公式 (IoU):
- 符号解释:
- : 预测边界框与真实边界框的交集面积。
- : 预测边界框与真实边界框的并集面积。
- mAP@0.95:
- 概念定义: 在 IoU 阈值为0.95时计算的 mAP。这个指标对定位精度有更高的要求。模型不仅要正确识别目标,还要非常精确地定位目标,才能被认为是正例。
- 数学公式: 同 mAP@0.5,只是 IoU 阈值不同。
5.2.2. 图像分类任务评估指标
- F1 分数 (F1-score, f1):
- 概念定义: 精确率 (P) 和召回率 (R) 的调和平均值。F1 分数综合考虑了模型的精确率和召回率,特别适用于类别不平衡的数据集。它在精确率和召回率之间寻求一个平衡。
- 数学公式:
- 符号解释:
- : 精确率。
- : 召回率。
5.3. 对比基线
- 目标检测:
- YOLOv7: 用于在 SCB-Dataset 的目标检测部分进行基准测试。
- YOLO 系列模型: 对数据集的教师行为部分进行了更广泛的测试,包括 YOLOv5, YOLOv8, YOLOv9, YOLOv10, YOLOv11, YOLOv12, YOLOv13。这些模型代表了 YOLO 算法家族的不同演进版本。
- 图像分类:
- Qwen2.5-VL-7B-instruct (大型视觉-语言模型): 用于在 SCB-Dataset 的图像分类部分进行微调和测试。
5.4. 实验环境与模型训练
- 实验环境:
- GPU: NVIDIA vGPU-32GB (32GB 显存)
- CPU: 12 vCPU Intel(R) Xeon(R) Platinum 8352V CPU
- 操作系统: Ubuntu 22.04
- 软件版本: PyTorch 2.3.0, Python 3.12, CUDA 12.1
- 模型训练参数:
- 目标检测数据集 (YOLO 系列):
epoch(训练轮次): 30到120batch size(批处理大小): 4image size(图像尺寸):
- 图像分类数据集 (LVLM):
- 框架: LLaMA Factory
- LVLM 模型: Qwen2.5-VL-7B-instruct
- 微调方法: LoRA (Low-Rank Adaptation)
learning rate(学习率):number of training epochs(训练轮次): 2batch size(批处理大小): 2LoRA rank: 8scaling factor: 16dropout rate: 0.1LoRA+ learning rate ratio: 16
- 目标检测数据集 (YOLO 系列):
6. 实验结果与分析
6.1. 核心结果分析
6.1.1. 目标检测结果分析 (YOLOv7)
以下是原文 Table 2 的结果:
| class | P | R | mAP@0.5 | mAP@.95 |
|---|---|---|---|---|
| hand-raising | 79.4 | 76.9 | 79.2 | 59.4 |
| read | 65.5 | 68.2 | 70.5 | 52.9 |
| write | 68.4 | 67.8 | 72.2 | 58.1 |
| discuss | 67.5 | 72.5 | 74.7 | 39.3 |
| bow the head | 26.0 | 34.0 | 21.9 | 7.9 |
| turn the head | 23.8 | 44.0 | 23.5 | 9.5 |
| guide | 88.5 | 78.3 | 83.6 | 48.9 |
| answer | 86.2 | 86.6 | 91.5 | 80.8 |
| on-stage interaction | 82.3 | 84.5 | 90.1 | 81.5 |
| blackboard-writing | 91.0 | 93.5 | 96.4 | 86.6 |
| teacher | 95.5 | 95.2 | 97.7 | 83.0 |
| stand | 93.1 | 94.7 | 96.6 | 79.8 |
| screen | 96.1 | 97.1 | 97.9 | 92.5 |
| blackboard | 96.2 | 97.1 | 98.1 | 93.3 |
Table 2: Training results of YOLOv7 on the object detection dataset in SCB-Dataset
从 Table 2 可以看出,YOLOv7 在 SCB-Dataset 目标检测数据集上表现良好,大部分行为类别的 mAP@0.5 都在70%以上,其中甚至有一半的行为 mAP@0.5 达到了90%以上。这表明对于这些行为,YOLOv7 能够以相对较高的准确率和定位精度进行识别。例如,blackboard-writing (板书), teacher (教师), stand (站立), screen (屏幕), blackboard (黑板) 等类别的 mAP@0.5 均超过95%,这可能是因为这些目标的特征相对稳定和显著。
然而,bow the head (低头) 和 turn the head (转头) 这两个类别的 mAP@0.5 较低(分别为21.9%和23.5%),mAP@0.95 更低(分别为7.9%和9.5%)。这可能反映了这些行为在视觉上的模糊性或与“正常”行为的高度相似性,如“低头”可能与阅读、写字、甚至打瞌睡混淆;“转头”可能与观察同学、看屏幕等行为难以区分,也可能是数据集中这两个类别的样本量相对较少或标注难度较大导致模型难以学习其特征。论文在3.3节中也提到了“相似行为”是数据集的挑战之一。
论文认为,只要 mAP@0.5 达到70%,该行为就可以基本用于实际应用,这为数据集的实用性提供了参考标准。
以下是原文 Figure 7 的示例,展示了 YOLOv7 的检测结果:
该图像是YOLOv7检测结果示例,展示了一名教师在黑板前授课的场景。可见界面中标注了教师的动作和环境元素,包括黑板和屏幕的识别置信度。此示例有助于分析课堂行为。
Figure 7: Example of YOLOv7 detection results 从 Figure 7 中可以看出,YOLOv7 成功识别了教师、黑板、屏幕等关键目标,并给出了较高的置信度,显示出其在实际课堂场景中的应用潜力。
6.1.2. YOLO 系列模型在教师行为检测上的对比
以下是原文 Figure 8 的结果:
该图像是一个条形图,展示了不同YOLO模型在SCB-Dataset(教师行为部分)上的mAP50成绩。YOLOv7表现最佳,达到94.0,其他模型的成绩如YOLOv8和YOLOv6分别为93.6和88.1。
Figure 8: Training and testing results of the SCB-Dataset dataset (teacher behavior part) on YOLO series models Figure 8 展示了不同 YOLO 系列模型在 SCB-Dataset 教师行为部分上的 mAP50 (mAP@0.5) 表现。其中 YOLOv7 表现最佳,达到了94.0%。YOLOv8 以93.6%紧随其后。而 YOLOv5 的 mAP50 最低,为88.1%。值得注意的是,论文指出近年来推出的 YOLOv9 到 YOLOv13 的性能普遍表现平平,这暗示了并非版本越高性能越好,或者在特定数据集和任务上,较早的优化版本可能更有效。
6.1.3. 图像分类结果分析 (Qwen2.5-VL-7B-instruct)
以下是原文 Table 3 的结果:
| class | P | R | f1 |
|---|---|---|---|
| hand-raising | 87.0 | 85.6 | 86.3 |
| read and write | 83.6 | 93.9 | 88.5 |
| discuss | 93.9 | 90.2 | 92.0 |
| student blackboard-writing | 83.3 | 88.2 | 85.7 |
| on-stage presentation | 100 | 70.0 | 82.4 |
| answering questions | 75.0 | 69.2 | 72.0 |
| reading aloud | 100 | 69.2 | 81.8 |
| listen | 88.1 | 89.2 | 88.6 |
| guide | 87.0 | 50.8 | 64.2 |
| answer | 87.6 | 83.4 | 85.4 |
| on-stage interaction | 89.2 | 73.5 | 80.6 |
| blackboard-writing | 99.0 | 98.5 | 98.8 |
| teach | 87.4 | 92.1 | 89.7 |
| patrol | 42.3 | 87.1 | 57.0 |
| all | 86.1 | 83.4 | 83.8 |
Table 3: Training results of Qwen2.5-VL-7B-instruct on the image classification dataset in SCB-Dataset
从 Table 3 可以看出,Qwen2.5-VL-7B-instruct 在 SCB-Dataset 图像分类数据集上的微调效果显著,大多数行为类别的 F1 分数都接近或超过80%。特别是 blackboard-writing (板书) 达到了98.8%的 F1 分数,精确率和召回率都非常高,表明 LVLM 在识别这类清晰、有明显环境特征的行为上表现出色。discuss (讨论) 也达到了92.0%的 F1 分数,显示 LVLM 能够有效理解群体互动行为。
然而,patrol (巡视) 和 guide (指导) 的 F1 分数相对较低(分别为57.0%和64.2%),特别是 patrol 的精确率只有42.3%。这可能是因为这些行为的视觉特征变化大,或者与其他行为容易混淆(例如“巡视”可能与“正常行走”难以区分,或缺乏明确的指示性特征),或者数据集中这些类别的样本多样性不足。on-stage presentation (上台展示) 和 reading aloud (朗读) 的精确率达到了100%,但召回率较低(分别为70.0%和69.2%),这说明模型在识别出这些行为时非常准确,但可能遗漏了部分真实实例。answering questions (回答问题) 的精确率和召回率也相对较低。
总体而言,图像分类的结果表明 LVLM 能够有效地利用图像的整体信息进行行为识别,但在一些细微或易混淆的行为上仍有提升空间。
以下是原文 Figure 9 的结果:
该图像是一个损失函数的变化曲线图,显示了模型训练过程中各步的损失值。图中包含两个曲线:原始损失(original)和平滑损失(smoothed)。随着训练步数的增加,损失值逐渐降低,表明模型性能的提升。
Figure 9: Loss of Qwen2.5-VL-7B-instruct during the training iteration process Figure 9 展示了 Qwen2.5-VL-7B-instruct 在训练迭代过程中的损失 (loss) 变化。总共有650次迭代。在前150次迭代中,损失迅速下降,这表明模型在训练初期学习效率很高。在最后的200次迭代中,损失趋于稳定,并最终下降到0.0471。这表明模型已经收敛,并且训练过程是有效的。
以下是原文 Figure 10 的结果:
该图像是学生在课堂上讨论的场景,展示学生们在积极参与和互动。根据示例输出格式,识别出的行为类别为讨论。
Figure 10: Using the LLaMA Factory framework to test the Qwen2.5-VL-7B-instruct example
Figure 10 展示了一个使用 LLaMA Factory 框架测试 Qwen2.5-VL-7B-instruct 的示例。当用户输入图像和提示 (prompt) 时,模型会给出对应的分类结果。图中学生正在讨论,模型正确识别为 discuss,表明 LVLM 能够根据图像内容和用户提示进行行为分类。
6.2. 数据呈现 (表格)
6.2.1. 目标检测数据集在SCB-Dataset上的训练结果 (YOLOv7)
以下是原文 Table 2 的结果:
| class | P | R | mAP@0.5 | mAP@.95 |
|---|---|---|---|---|
| hand-raising | 79.4 | 76.9 | 79.2 | 59.4 |
| read | 65.5 | 68.2 | 70.5 | 52.9 |
| write | 68.4 | 67.8 | 72.2 | 58.1 |
| discuss | 67.5 | 72.5 | 74.7 | 39.3 |
| bow the head | 26.0 | 34.0 | 21.9 | 7.9 |
| turn the head | 23.8 | 44.0 | 23.5 | 9.5 |
| guide | 88.5 | 78.3 | 83.6 | 48.9 |
| answer | 86.2 | 86.6 | 91.5 | 80.8 |
| on-stage interaction | 82.3 | 84.5 | 90.1 | 81.5 |
| blackboard-writing | 91.0 | 93.5 | 96.4 | 86.6 |
| teacher | 95.5 | 95.2 | 97.7 | 83.0 |
| stand | 93.1 | 94.7 | 96.6 | 79.8 |
| screen | 96.1 | 97.1 | 97.9 | 92.5 |
| blackboard | 96.2 | 97.1 | 98.1 | 93.3 |
Table 2: Training results of YOLOv7 on the object detection dataset in SCB-Dataset
6.2.2. 图像分类数据集在SCB-Dataset上的训练结果 (Qwen2.5-VL-7B-instruct)
以下是原文 Table 3 的结果:
| class | P | R | f1 |
|---|---|---|---|
| hand-raising | 87.0 | 85.6 | 86.3 |
| read and write | 83.6 | 93.9 | 88.5 |
| discuss | 93.9 | 90.2 | 92.0 |
| student blackboard-writing | 83.3 | 88.2 | 85.7 |
| on-stage presentation | 100 | 70.0 | 82.4 |
| answering questions | 75.0 | 69.2 | 72.0 |
| reading aloud | 100 | 69.2 | 81.8 |
| listen | 88.1 | 89.2 | 88.6 |
| guide | 87.0 | 50.8 | 64.2 |
| answer | 87.6 | 83.4 | 85.4 |
| on-stage interaction | 89.2 | 73.5 | 80.6 |
| blackboard-writing | 99.0 | 98.5 | 98.8 |
| teach | 87.4 | 92.1 | 89.7 |
| patrol | 42.3 | 87.1 | 57.0 |
| all | 86.1 | 83.4 | 83.8 |
Table 3: Training results of Qwen2.5-VL-7B-instruct on the image classification dataset in SCB-Dataset
6.2.3. 目标检测数据集在SCB-Dataset (教师行为部分) 上的训练结果 (YOLOv5, v7-v13)
以下是原文 Table 8 的结果:
| class | P | R | mAP@0.5mAP@.95 | |
|---|---|---|---|---|
| all | 81.8 84.1 | 88.1 | 67.3 | |
| guide | 68.2 | 59.1 | 66.0 | 31.5 |
| answer | 67.4 | 81.7 | 80.8 | 57.1 |
| On-stage interaction | 52.0 | 82.8 | 80.0 | 59.2 |
| blackboard-writing | 97.7 | 70.4 | 96.3 | 73.9 |
| teacher | 95.1 | 91.9 | 95.7 | 71.9 |
| stand | 88.9 | 92.3 | 90.4 | 63.9 |
| screen | 91.6 | 97.5 | 98.0 | 90.0 |
| blackBoard | 93.4 97.1 | 98.0 | 90.7 |
Table 8: The training results of Object Detection Dataset in SCB-Dataset (teacher behavior part) on YOLOv5.
以下是原文 Table 10 的结果:
| class | P | R | mAP@0.5 mAP@.95 |
|---|---|---|---|
| all | 91.1 | 90.9 94.0 | 80.8 |
| guide | 88.5 78.3 | 83.6 | 48.9 |
| answer | 86.2 | 86.6 91.5 | 80.8 |
| On-stage interaction | 82.3 84.5 | 90.1 | 81.5 |
| blackboard-writing | 91.0 93.5 | 96.4 | 86.6 |
| teacher | 95.5 95.2 | 97.7 | 83.0 |
| stand | 93.1 94.7 | 96.6 | 79.8 |
| screen | 96.1 97.1 | 97.9 | 92.5 |
| blackBoard | 96.2 97.1 | 98.1 | 93.3 |
Table 10: The training results of Object Detection Dataset in SCB-Dataset (teacher behavior part) on YOLOv7.
以下是原文 Table 11 的结果:
| class | P | R | mAP@0.5 mAP@.95 |
|---|---|---|---|
| all | 90.6 89.2 | 93.6 | 83.1 |
| guide | 81.5 67.5 | 79.4 | 53.5 |
| answer | 87.2 87.5 | 92.9 | 86.4 |
| On-stage interaction | 82.5 83.2 | 88.9 | 80.1 |
| blackboard-writing | 90.8 93.9 | 97.6 | 87.3 |
| teacher | 96.2 93.8 | 97.3 | 86.0 |
| stand | 94.0 93.7 | 96.5 | 83.0 |
| screen | 95.8 96.7 | 97.9 | 93.4 |
| blackBoard | 96.5 97.2 | 98.3 | 94.7 |
Table 11: The training results of Object Detection Dataset in SCB-Dataset (teacher behavior part) on YOLOv8.
以下是原文 Table 12 的结果:
| class | P | R | mAP@0.5mAP@.95 | |
|---|---|---|---|---|
| all | 87.8 87.7 | 91.8 | 78.2 | |
| guide | 79.3 | 63.7 | 74.3 | 45.0 |
| answer | 79.7 | 84.5 | 89.5 | 78.7 |
| On-stage interaction | 71.7 | 79.9 | 84.7 | 72.6 |
| blackboard-writing | 95.0 | 95.1 | 97.9 | 84.5 |
| teacher | 94.2 | 93.1 | 96.9 | 81.8 |
| stand | 92.2 | 92.5 | 95.4 | 77.1 |
| screen | 94.6 | 96.3 | 97.6 | 90.9 |
| blackBoard | 95.5 96.6 | 98.2 | 94.4 |
Table 12: The training results of Object Detection Dataset in SCB-Dataset (teacher behavior part) on YOLOv9.
以下是原文 Table 13 的结果:
| class | P | R | mAP@0.5mAP@.95 | |
|---|---|---|---|---|
| all | 86.9 84.1 | 90.1 | 76.2 | |
| guide | 79.7 | 58.3 | 71.1 | 41.8 |
| answer | 80.9 | 78.4 | 86.1 | 77.0 |
| On-stage interaction | 80.1 | 78.6 | 86.0 | 77.5 |
| blackboard-writing | 86.3 | 88.6 | 94.7 | 79.2 |
| teacher | 90.1 | 88.7 | 95.1 | 77.1 |
| stand | 88.1 | 88.5 | 93.1 | 72.6 |
| screen | 94.9 | 96.0 | 97.4 | 90.9 |
| blackBoard | 95.2 95.6 | 97.6 | 93.5 |
Table 13: The training results of Object Detection Dataset in SCB-Dataset (teacher behavior part) on YOLOv10.
以下是原文 Table 14 的结果:
| class | P | R mAP@0.5 | mAP@.95 |
|---|---|---|---|
| all | 87.6 90.1 | 92.9 | 81.8 |
| guide | 72.2 66.7 | 72.1 | 45.9 |
| answer | 87.1 88.8 | 94.1 | 86.6 |
| On-stage interaction | 75.1 89.9 | 91.2 | 82.4 |
| blackboard-writing | 92 93.4 | 97.3 | 86.5 |
| teacher | 94.8 94.1 | 97.0 | 85.0 |
| stand | 91.9 93.5 | 95.8 | 81.5 |
| screen | 92.7 96.9 | 97.4 | 92.1 |
| blackBoard | 94.9 97.3 | 98.3 | 93.9 |
Table 14: The training results of Object Detection Dataset in SCB-Dataset (teacher behavior part) on YOLOv11.
以下是原文 Table 15 的结果:
| class | P | R | mAP@0.5 mAP@.95 |
|---|---|---|---|
| all | 86.2 | 86.6 90.6 | 77.1 |
| guide | 78.6 58.9 | 71.8 | 43.7 |
| answer | 77.8 | 83.1 88.0 | 78.9 |
| On-stage interaction | 66.5 81.2 | 82.6 | 69.4 |
| blackboard-writing | 91.4 93.5 | 96.4 | 84.2 |
| teacher | 92.6 91.9 | 95.9 | 80.2 |
| stand | 91.4 90.8 | 94.5 | 75.6 |
| screen | 95.6 96.4 | 97.7 | 92.1 |
| blackBoard | 95.7 96.7 | 98.1 | 92.9 |
Table 15: The training results of Object Detection Dataset in SCB-Dataset (teacher behavior part) on YOLOv12.
以下是原文 Table 16 的结果:
| class | P R | mAP@0.5 | mAP@0.75 | mAP@.95 |
|---|---|---|---|---|
| all | 89.6 85.1 | 91.4 | 82.6 | 77.2 |
| guide | 84.6 54.6 | 74.8 | 45.1 | 43.4 |
| answer | 82.9 80.6 | 87.6 | 80.4 | 76.0 |
| On-stage interaction | 79.0 78.2 | 87.1 | 83.5 | 79.8 |
| blackboard-writing | 93.3 92.7 | 96.1 | 90.2 | 81.7 |
| teacher | 93.5 91.7 | 95.8 | 86.5 | 78.0 |
| stand | 92.2 89.0 | 94.0 | 82.3 | 73.7 |
| screen | 95.2 97.0 | 98.0 | 96.7 | 92.6 |
| blackBoard | 95.9 96.7 | 98.1 | 96.1 | 92.9 |
Table 16: The training results of Object Detection Dataset in SCB-Dataset (teacher behavior part) on YOLOv13.
6.2.4. 目标检测数据集在SCB-Dataset上的训练结果 (YOLOv7 详细子集)
以下是原文 Table 9 的结果:
| Dataset | class | | P | | R | | mAP@0.5 | | mAP@.95 |
|---|---|---|---|---|---|
| SCB5-A | all | | 71.1 | | 70.9| | | 74.0 | 56.8 |
| hand-raising | 79.4 | 76.9 | 79.2 | 59.4 | |
| read | 65.5 | 68.2 | 70.5 | 52.9 | |
| write | 68.4 | | 67.8 | | 72.2 | |58.1 | |
| SCB5-B | all | | 94.5 | | 97.3 | | | 98.7 | | 91.9 |
| screen | 94.8 | 95.7 | 98.2 | 95.1 | |
| backboard | 94.2 | 98.9 | | 99.2 | 88.8 | |
| SCB5-C | | all/discuss | | 67.5 | | | 72.5 | | | 74.7 | | 39.3 |
| SCB5-D | all | | 85.5 | | | 82.6 | | | 86.4 | 67.2 |
| guide | 88.0 | 81.7 | 87.0 | 49.5 | |
| answer | 89.3 | 88.0 | 92.3 | 76.7 | |
| stage interaction | 69.9 | 65.2 | 68.5 | 54.7 | |
| board writing | | 94.5 | | 95.6 | | 97.7 | |87.9 | |
| SCB5-E | | all/stand | | 95.8 | | | 91.7 | | | 96.6 | | 80.5 |
| SCB5-F | all/teacher | | 96.2 | | 94.4 | | | 97.7 | | 82.7 |
| SCB5-G | all bow-head | ||||
| turn-head | - | - | - | ||
| SCB5-H | all/talk | |87.8 | | | 62.6 77.2 | | 61.3 |
Table 9: The training results of SCB-Dataset on YOLOv7.
6.3. 消融实验/参数分析
论文主要关注数据集的构建和基准测试,并未进行详细的消融实验来验证模型各组件的有效性,也没有对超参数进行深入分析。实验部分主要展示了在给定超参数设置下,不同模型在 SCB-Dataset 上的性能表现。
7. 总结与思考
7.1. 结论总结
本文成功构建并发布了 SCB-Dataset,一个专门用于检测学生和教师课堂行为的大规模、高质量数据集。该数据集涵盖19种行为类别,并创新性地分为目标检测和图像分类两部分,分别适用于细粒度定位和整体场景理解。通过对标注工具 VIA 的多版本优化,确保了数据标注的效率和质量。在 YOLO 系列算法和大型视觉-语言模型 Qwen2.5-VL-7B-instruct 上的基准测试表明,SCB-Dataset 能够有效支持深度学习模型进行课堂行为分析,并在大多数行为类别上取得了良好的性能。该数据集的发布填补了教育领域在高质量行为数据集方面的空白,为人工智能在教育领域的应用提供了坚实的基础,有助于提升教学效率和课堂评估的自动化水平。
7.2. 局限性与未来工作
- 类别不平衡: 尽管在数据收集阶段采用了差异化采样策略,但数据集中仍然存在严重的类别不平衡问题(如
read和write样本远多于discuss),这可能会影响模型对稀有类别的泛化能力。 - 复杂行为识别挑战: 对于
bow the head(低头),turn the head(转头),patrol(巡视),guide(指导) 等行为,模型的性能仍有待提高。这些行为的视觉特征可能不明确,易与其他行为混淆,或需要更复杂的时序信息才能准确判断。 - 目标检测训练集/验证集划分的非标准性: 目标检测数据集的训练集和验证集存在重叠,且没有提供整体的图像数量统计,这给与其他数据集或模型的公平比较带来了一定的挑战。
- 未来工作:
- 持续扩展数据集规模: 作者明确指出将持续扩展数据集的规模,以适应真实环境中的各种挑战,解决当前数据量不足以完全捕捉某些行为多样性的问题。
- 迭代优化: 根据市场反馈,对视频数据、标注数据和训练方法进行迭代优化。
- 解决复杂行为: 进一步探索能够有效识别
teach(教学) 和patrol(巡视) 等需要结合环境或时序特征行为的方法,这可能需要更先进的视频行为识别技术或多模态融合模型。
7.3. 个人启发与批判
-
个人启发:
- 双模态数据设计: 论文将数据集分为目标检测和图像分类两部分,并利用 LVLM 处理图像分类任务,这是一个非常实用的策略。它认识到并非所有课堂行为都能通过局部边界框有效捕捉,某些行为需要图像的全局上下文信息。这种设计为复杂场景下的行为分析提供了更全面的解决方案。
- 标注流程的工程化: 对 VIA 标注工具的持续改进和功能开发(如标签内嵌、滚轮切换、单目标模式、复制上一帧)体现了在实际大数据集构建中,工程效率和质量控制的重要性。这对于任何大型数据集项目都具有借鉴意义。
- 教育与 AI 的交叉: 课堂行为分析是人工智能在教育领域一个非常有前景的应用方向,可以为个性化教学、教师培训和课堂管理提供数据支持。SCB-Dataset 的出现无疑能加速这一领域的研究和发展。
- 多样性考量: 数据集在拍摄角度、课堂类型、学生年龄和民族上的多样性考量,增强了模型的泛化能力和在真实世界应用中的鲁棒性。
-
批判:
- 隐私和伦理问题: 尽管论文强调了数据集的构建是为了教育目的,但并未深入探讨从公开视频网站收集课堂视频可能涉及的隐私权、肖像权问题,以及在未来部署此类系统时可能产生的伦理影响(如学生行为监控、数据滥用等)。对于教育场景的数据集,这些是至关重要的考量。
- 类别定义与模糊性: 某些行为类别之间可能存在语义上的模糊性或重叠。例如,“低头”和“阅读”在视觉上可能高度相似;“回答问题”和“上台展示”的区分依赖于是否有老师在场。尽管论文提供了详细的定义,但在实际标注和模型学习中,这种模糊性仍可能导致混淆。
- 类不平衡的深层影响: 虽然论文承认了类不平衡,但其对模型在实际应用中表现(特别是稀有但可能很重要的行为)的影响,以及如何通过更高级的数据增强、重采样或损失函数设计来缓解,可以进行更深入的探讨。
- 基准模型的局限性: 虽然 YOLO 系列和 Qwen2.5-VL-7B-instruct 是强大的基线模型,但未对比更多样化的模型架构(如基于 Transformer 的目标检测模型、其他 LVLMs),可能无法全面展现数据集的潜力。
- 未提供消融研究: 缺乏关于数据集不同组成部分(如不同多样性源、帧选择策略)对模型性能影响的消融研究,这使得读者难以理解哪些设计决策对最终性能贡献最大。
- 目标检测数据划分的特殊性: 目标检测数据集的训练集和验证集存在重叠,且没有整体的图像数量统计,使得其结果与其他标准数据集的对比缺乏严格性,也增加了后续研究者进行复现和比较的难度。
相似论文推荐
基于向量语义检索推荐的相关论文。