基于多任务多通道半监督在线极限学习机的RGB-D图像人脸表情识别

来源 :北京工业大学 | 被引量 : 1次 | 上传用户:zguohui69
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着机器学习的迅速发展,人工智能技术越来越多地应用于人类日常生活,有效提升人类生活环境的智能程度。使用机器学习算法对人脸表情进行识别,提升对人类情感的认知计算能力,是其中一个重要的研究方向。目前,对于实验室条件下采集的标准表情图像识别技术已经取得了良好的识别精度,而在自然场景下,受诸如不同对象表情表达个性差异影响,同一表情的面部动作存在极大差异,增大了自然条件下表情识别的难度,因而自然场景下的表情识别仍是一个难点问题,表情识别算法性能有很大的提升空间。考虑到表情认知中深度信息的辅助作用,本文使用了Kinect立体图像采集设备采集实验对象面部的RGB-D图像。同时为了保证采集的表情数据更接近自然场景下实际情况的表情,实验样本采集过程中,不再约束采集对象做出标准的面部动作,而是让实验对象自然地表达某种表情。为了克服个性差异对表情认知的影响,提升对无约束表情的识别能力,同时提升RGB-D多源融合识别条件下实时表情识别的计算效率,本文在参考了前期研究成果——半监督在线极限学习机算法的基础上,引入多任务和多通道思想,最终利用本文提出的多任务多通道半监督在线极限学习机算法,实现了对计算机用户进行实时自然表情识别。本文主要的研究工作及其创新点有:1、深度图像的特征提取。本文采用Kinect采集的面部RGB-D图像为基础,采用深度及RGB纹理信息融合进行表情识别。本文采用Haar-like纹理特征提取算法,在RGB-D图像上分别提取了R、G、B图像和深度图像的Haar-like纹理特征。实验结果表明,相比于只使用RGB图像,充分利用人脸表情表达中人脸凸起和凹陷表现出的深度图像纹理变化能有效提高表情特征的可判别性,增强了对表情特征的提取能力。2、提出了多通道极限学习机神经网络结构,以提升表情识别计算速度,满足面向RGB-D图像实时表情识别的要求。面向RGB-D多源融合表情识别,本文提出多通道极限学习机模型,将输入层分成4个通道,分别输入R、G、B、D图像上提取的Haar-like特征向量。考虑到各分量图的相对独立性,为避免全连接网络结构的巨大计算量,提出将隐藏层也分为4个通道,每通道的隐藏层只处理单个分量图的特征向量,并在输出层进行多通道融合识别计算。通过理论分析和实验验证,对极限学习机进行多通道改进后,在识别率基本不变的条件下,RGB-D表情识别时间仅为原来的1/4,有效提高了识别速度。3、提出了多任务极限学习机神经网络模型,克服个体面部动作差异对表情识别的影响,提高了表情识别模型的泛化能力。通过在极限学习机上实现多任务的训练方法,能够减小实验对象间面部动作差异对识别结果的影响。采用多任务训练机制,亦有效克服了极限学习机算法对训练对象的依赖性,提升了对表情共性特征的学习能力,能够实现对未参与训练的实验对象有效地进行表情识别。4、实现了多任务多通道半监督在线极限学习机算法,并应用于RGB-D图像的实时自然表情识别。本文参考了前期研究成果——半监督在线极限学习机,实现了具有半监督学习、在线学习能力的表情识别系统,并在此基础上进一步结合本文提出的多通道、多任务模型结构及训练机制,实现了多任务多通道半监督在线极限学习机算法,在此基础上实现了实时自然表情识别的目的。本文在自采RGB-D自然表情数据集进行实验,对于已参与训练的实验对象,其测试集数据表情识别正确率平均达到91.73%;对于未参与训练的实验对象,表情识别正确率平均达到86.54%。
其他文献
本文以数控铣削加工机床为控制对象,探讨了一种具有实时负载反馈的参数自调整模糊恒功率控制系统,以提高机床的加工效率.在通过计算机仿真验证了控制方案可行性的基础上,设计
随着网络技术的发展,信息不但是制造业的主导因素,而且成了驱动因素,在这种背景下,本文分析了制造业对信息的需求.并阐明了网络化制造的现状,提出了如何执行网络制造方案和一