论文部分内容阅读
头部行为识别是计算机视觉、人工智能以及模式识别领域中的重要一部分,其应用涉及视频监控、安全驾驶、行动障碍人群机器操控等领域。从随堂采集的视频数据直接实现学生头部行为的识别,进而达到自动判断学生学习状态的目的,是头部行为识别技术在课堂环境下的重要应用,对优化教师教学方法和提升学生学习质量具有重要意义。同时,随着信息技术的飞速发展以及智能硬件设备的普及,深度传感器凭借可获取物体空间信息、减少光照等因素影响的优势,给研究头部行为识别提供了更加准确的数据来源。课题针对课堂环境下学生头部行为识别问题展开讨论,一方面课堂环境在一天中的光照条件不断变化,而根据RGB人脸图像提取面部特征的头部行为识别方法缺失空间信息且易受光照等环境因素干扰,无法达到理想的识别效果;另一方面在时长长达四十分钟的课堂环境下会产生大量学生头部行为数据,这对头部行为识别算法提出了大规模数据下有效表示头部行为特征提高识别精度的挑战。针对上述问题,本文以课堂学生头部行为识别算法为研究内容,对基于李群特征的头部行为识别算法和基于Inception结构的头部行为识别算法进行了研究与实现。本课题的主要研究工作如下。(1)针对头部行为识别中利用RGB人脸图像提取面部特征缺失空间信息且易受光照影响问题,本课题提出基于李群特征的头部行为识别算法,用李群特征表示头部行为的时空上下文信息。其中,将面部关键点的3D坐标作为输入,并给出面部“关键段”的定义,通过提取相邻帧之间每对关键段的李群特征表示时空信息,并运用引入RBF核的支持向量机对头部行为进行识别。实验表明,李群表示的头部行为特征可以有效表示头部行为的时空上下文信息,在公共数据集上达到81.6%的准确率,相较于未引入深度信息的基于面部几何特征的头部行为识别方法提升了4.2%,并且在自定义课堂数据集上得到73.63%的准确率,取得较优异的表现。(2)针对课堂环境下海量头部行为数据对头部行为识别精度发起的挑战,本课题针对深度学习与人工特征的有效融合方法进行探索,在李群特征的基础上提出基于Inception结构的头部行为识别方法。将序列长度不一致的3D数据和视频规格化为相同维度的向量模式,将李群特征集作为卷积神经网络的输入,提出一种能够充分利用李群特征的深度学习网络框架,实验表明该方法可以在大规模数据下有效地表示头部行为信息,保证识别准确率,在公共数据集上的头部行为识别方法准确率提升了4%~10%,并且在课堂数据集上取得76.10%的准确率,比预期效果略低,经分析,归因于自定义课堂数据集规模比公共数据集规模相对较小的原因。(3)结合本课题的研究成果,设计并实现了课堂学生头部行为识别原型系统。用户可以利用Kinect传感器采集课堂环境下的学生头部行为数据,并通过系统保存在数据库中,用户可以自主选择学生头部行为数据集中的测试样本,系统对学生的头部行为进行识别后,识别结果通过页面展示,验证了本文所提头部行为识别方法的有效性。该论文有图31幅,表19个,参考文献91篇。