基于深度学习的课堂行为检测算法研究与实现

来源 :阜阳师范大学 | 被引量 : 0次 | 上传用户:wsx19810518
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
课堂教学是教育教学的关键环节。提高学生课堂学习质量,不但可以改善学生学习效果,还可以推动教师课堂教学方式的转变。随着全国义务教育阶段在校生数量的增多和国家“双减”政策的落实,更多的学生和家长对学生义务教育阶段的学习提出了更高的要求。在课堂学习中,最重要的是保证学生在上课期间保持良好的听课状态,从而保证学生听课质量。因此可以采用智能化手段对学生课堂行为进行检测观察,从而进一步反馈学生学习状态。可以应用在传统线下教学,也可以应用于远程线上教学,实时检测识别课堂行为,让教师及时了解学生课堂学习状态。利用传感器和录取视频等传统的检测方式具有成本较高、效率较低、实时性较差等缺点。为了降低模型落地部署的成本,实现实时检测的目的,本文研究并改进了一种基于深度学习的课堂行为检测算法。本文的研究工作如下:(1)在数据集方面。由于课堂数据集具有场景特殊性和敏感性,因此开源的数据集比较少。为了满足实际工程应用的需要,利用智能手机和摄像设备在阜阳市某中学采集视频和图像数据。利用Open CV对视频数据进行取帧操作,最后整合为图像数据集。为了增强模型的泛化能力,使用Python工具通过进行几何变换、添加噪声、改变颜色明暗度等方式对数据进行扩增处理,最终构建了课堂(Ke Tang,KT)数据集。最后使用可视化标注工具Label Img对数据进行标注,把数据目标类别分成四类:认真听课、睡觉、闲谈、走神分心,形成标签数据集。(2)在模型算法的选择和优化方面。本文选择了轻量化的YOLOv5s模型来进行检测,并对模型进行改进,在原始模型的Neck模块中添加Bi FPN结构,进而增强网络模型的特征融合能力。因为不同数据集对锚框(Anchors)的作用比较敏感,所以考虑更换模型初始预设的Anchors以适应我们的数据集。统计标签的宽高比信息后,调用kmean_anchors函数计算出适合数据集的anchors。将生成的anchors配置到预设锚框的模型文件中。为了使得模型更加轻量化,降低模型落地部署的成本,利用Eagle Eye剪枝算法对模型进行剪枝操作。最后构建出本文中的KT-YOLOV5s模型,与原始模型对比结果表明,改进后的模型检测精度(m AP)提高1.0%,推理时间(ms)减少了45.5%,参数规模(M)降低了41.7%。(3)在检测结果和模型性能对比分析方面。把测试图像和视频放进模型中检测,可以准确、快速地检测识别出目标对象的行为类别,模型推理速度较快,达到实时检测的要求。最后通过与Two-Stage检测算法中的Faster-RCNN和轻量化模型YOLOv3-tiny、SSD-mobilenetv2以及原始的YOLOv5s模型在检测精度(m AP),推理时间(ms)、参数规模(M)上进行性能对比。KT-YOLOV5s模型的检测精度达到97.0%,推理时间为18ms,参数规模为8.1M,相比于其他的模型,模型具有较大的优势和实际应用价值。
其他文献
自然语言处理和计算机视觉借助深度学习技术不断取得新突破,以图像和文本为基础的跨模态交互慢慢成为研究热点,视觉问答(visual question answering,VQA)任务作为多模态研究内容之一也越来越热门。视觉问答任务是计算机模型对输入的图像提取出视觉特征,对输入的问题提取出问题特征,经过跨模态融合得到图像和问题的联合向量,最后使用预测函数输出答案的多分类任务。相比于单一的计算机视觉或自然
学位
图像分割是计算机视觉的一个非常经典的难题,对图像分析和图像理解具有重要的支撑作用。图像分割的实质是对一副图像进行目标与背景的分离,从而提取出感兴趣的区域。图像分割技术的应用领域较为宽泛,如人脸识别、无人驾驶和安防监控等。图像分割在医学图像辅助治疗中也发挥着重要作用,医学图像分割是图像分割领域最为重要的研究方向之一。近年来,人工智能的不断发展使得群体智能算法被广泛的运用到图像分割算法中,并且取得了不
学位
藏文古籍在我国各民族遗存的古籍文献中占据着重要地位,承载着藏族的文化和历史。但是由于藏文历史文献存放的时间太久,许多古籍图像文字出现模糊或者缺失,甚至有些文档无法翻阅,亟需数字化保护和整理。藏文古籍图像识别是数字化保护的重要组成部分,而藏文古籍图像行分割是字符识别的一个重要步骤。本课题主要研究藏文古籍图像行分割,针对藏文古籍图像的特点,提出了两种藏文古籍图像文本行分割的方法,主要内容有以下两个方面
学位
宇宙线探测实验中所采用的大气切伦科夫光望远镜,为了收集更多的切伦科夫光,通常需要安装大口径的反射镜。在宇宙线探测和分析过程中,望远镜反射镜反射率将直接影响切伦科夫光的测量。高海拔宇宙线观测站(LHAASO)中,共有18台切伦科夫望远镜。虽然生产厂家提供了反射镜的反射率参数,但是反射镜在长期使用中会因为老化或者磨损导致反射率会有不同程度的衰减。不同波长的光、不同的时间、同阵列下不同的望远镜的反射率也
学位
在多种复杂场景下进行车辆检测和提取到车辆重要信息一直是目标检测领域的重要研究方向之一。该问题的突破可以为智慧交通系统中的车辆统计技术提供基础,在一定程度上缓解交通拥挤问题,以及为车辆跟踪问题提供相应的技术支持,其中车辆是否能够准确检测是后续相关工作的前提,本文的主要研究工作及贡献如下。(1)为了降低选取先验框选取时间以及提升模型的检测精确度,利用k-means++聚类算法选取9个目标先验框和尺寸,
学位
近年来,基于计算机视觉和自然语言处理的多模态交互任务虽然取得了进展,却也出现了类别不平衡,模态无法对齐等一些具有挑战性的问题。视觉问答是一种经典的多模态交互任务,以图片和问题作为输入,得到能够回答与图像内容有关的文本答案。然而视觉问答任务具有语言先验性,模型更加偏向仅依据问题与答案之间的关系回答问题,较少考虑图像内容,而且相关数据集候选答案分布也不平衡。基于此,本文提出了两种处理语言先验的方法:针
学位
深度神经网络的出现为人工智能技术的研究注入了新的活力,并且已经较为成熟地应用在了图像识别、目标检测、语音识别等领域。作为人工智能新兴的热门研究方向,视觉问答(Visual Question Answering,VQA)任务也因此受益,近年来有了很多研究成果。现有的视觉问答模型由于受到语言先验的影响,预测准确率不高。模型能够学习到问题和答案之间的表面联系,而无法学习到它们之间更深层次的联系,容易出现
学位
随着弹幕评论功能在视频播放平台投入使用并受到用户的认可,视频中的弹幕量也随之增大。弹幕中表达对于视频情节的即时观点、感受等主观信息具有研究价值,但是利用现有的情感词典提取特定领域弹幕数据的情感信息并加以分析却颇有难度。本文以B站(Bilibili网站)视频弹幕为研究对象,针对常规情感词典不适用于视频弹幕领域的语料库且在情感分析上维度比较单一的问题,提出基于多维情感词典结合深度学习的方法研究分析弹幕
学位
随着互联网技术的迅速发展,深度学习在计算机领域受到越来越多的学者们的关注。随之衍生的多模态任务,例如图像描述、OCR、图像字幕、视觉问答等也备受计算机领域的学者关注。其中,视觉问答(Visual Question Answering,VQA)任务逐渐成为学者们讨论的热点。VQA任务是指让计算机来回答与图像相关的问题,即给定一张图像和与该张图像相关的采用自然语言方式来表示的问题。VQA任务就是让模型
学位
图像修复技术来源于对艺术品复原,随着数字化图像获取越来越便利,人们对数字图像的修复质量提出更高要求。如今,数字修复技术在目标物移除、旧照片修复、信息隐藏、视频修复等方面有着广泛应用。因此,图像修复技术受到众多学者的关注,并成为图像处理领域中一个重要分支。本课题以Patch Match算法和基于HDC(hybrid dilated convolution)的卷积神经网络为主要的研究目标。首先对图像修
学位