论文部分内容阅读
人体姿态识别一直以来是计算机视觉和人工智能领域中的研究热点,教室场景下的学习者姿态识别是将人体姿态识别应用在教育领域,具有非常重要的研究意义与应用价值。学习者姿态识别是区分学习者的学习活动表现,正坐、举手、低头是学习者最常见的三种姿态。无论是在传统的课堂教学还是远程教育,学习者的人体姿态体现了学习者的学习状态,学习者姿态识别能够有效地评价学习过程中学习者的学习状态,使教师能够及时得到更多的反馈信息,对于教师改进教学过程及提高教学效率具有重要作用。有效地评价学习者的行为状态成为日益重要的研究内容。本文为了能够有效地识别出教室场景下的学习者姿态,提出融合改进的灰度尺度不变局部三值模式(Scale Invariant Local Ternary Pattern,SILTP)和局部方向模式(Local Directional Pattern,LDP)的学习者姿态识别方法与基于Faster R-CNN的学习者姿态识别方法,运用这两种方法对学习者的姿态进行处理,实验结果表明本文方法能够准确地识别教室场景下学习者的姿态。本文的主要研究内容如下:(1)介绍本文研究的背景及意义,并重点叙述了人体姿态识别技术的国内外研究现状。(2)总结人体姿态识别的基本步骤,并介绍各个步骤的相关的传统算法和深度学习算法。传统的特征提取算法中介绍了局部二值模式(Local Binary Pattern,LBP)算法、SILTP算法、矩特征提取算法;深度学习识别算法中介绍了卷积神经网络(Convolutional Neural Network,CNN)、R-CNN(Region-based Convolutional Network)、SPP-net(Spatial Pyramid Pooling net)算法。(3)本文提出了一种改进的灰度尺度不变局部三值模式和局部方向模式融合的学习者姿态识别算法。首先,提出多尺度加权的自适应SILTP(MWA-SILTP)算法,根据全局和局部邻域对比度值的离散程度自动生成当前邻域的动态阈值,进行SILTP编码,得到自适应的SILTP,自适应SILTP算法有效解决了 SILTP阈值的普适性问题,自适应性更强。提出多尺度SILTP概念,通过改变采样半径,得到不同尺度的自适应SILTP,并将不同尺度的自适应SILTP以不同权重融合,对图像进行多分辨率表征,用MWA-SILTP算法对学习者姿态图像进行特征提取;其次,用LDP算法对学习者姿态图像进行特征提取;最后,两者特征进行融合,融合后的特征具有较强的特征描述能力,再用支持向量机进行分类识别。通过实验表明,该识别算法能够准确地识别出教室场景下学习者的正坐、举手、低头等姿态。(4)本文结合Faster R-CNN和残差网络50层(即ResNet-50),提出一种基于Faster R-CNN的学习者姿态识别算法。首先,采用ResNet-50对学习者姿态图像进行特征提取,通过卷积计算自动获取学习者姿态的特征,提取的特征通用性较好、较自然,避免了复杂的手工特征提取过程;然后,根据ResNet-50提取的特征,Faster R-CNN通过获取教室场景下学习者的位置,从而有针对性地对学习者姿态进行分类识别,减少复杂背景对学习者姿态识别的干扰,实现教室场景下多个学习者正坐、举手、低头等姿态的分类识别。通过实验表明,该识别算法能够获得教室场景下学习者姿态较高的识别率,提高了学习者姿态识别率。