论文部分内容阅读
如今,随着计算机视觉的相关理论与应用研究的快速发展,计算机视觉技术在日常生活应用中的优越性日益突显出来。本文主要研究了深度学习方法中的卷积神经网络模型在自然场景下人脸识别领域的应用。深度卷积神经网络模型相比较于传统的人脸识别的方法,不需要人工进行复杂而耗时的特征提取算法设计,只需要设计一个有效的神经网络模型,然后在大量的训练样本上进行端到端的简单、高效的训练,就能获得不错的分类准确率。该方法的性能和效果主要取决于网络结构的设计,因此本文研究重点在于构建一个合理的网络模型结构,并采取一些相关技术保证其在训练集上能够稳定地、快速地收敛,而且还要最终获得良好的分类准确率。本文主要内容包括:(1)论文中对卷积神经网络的基础理论知识进行了归纳总结。卷积神经网络发展于传统的神经网络,本文先从早期的传统神经网络中的网络结构、梯度下降、BP算法(Error Back Propagation)进行了阐述。然后过渡到卷积神经网络的理论基础,并对其中的一些关键的非线性计算的卷积层、下采样层等进行了阐述。最后,通过经典的卷积神经网络LeNet-5的例子说明了卷积神经网络模型的一般整体结构。(2)通过合理的减少原VGG卷积神经网络训练参数,得到了改进的Lightened VGG网络模型,并使用比随机初始化更好地参数初始化方法来缩减模型的收敛时间,最终该新模型不仅解决了原VGG模型对硬件要求高、训练困难等方面的问题,而且成功的应用于自然环境下的人脸识别,并在严格预处理后的LFW(Labeled Faces in the Wild)人脸数据库上进行实验,获得了94%的准确率。然后,在这个模型之后增加了一个Siamese神经网络模型,提升了该网络对较为复杂的人脸图片的特征提取能力。论文也对该Siamese模型进行详细的介绍和分析。(3)论文采用一种新的残差学习思想来构建了一个全新的应用于人脸识别领域的Residual网络模型。该模型深度达到了34层,采用了新的参数初始化方式来解决深度网络的收敛难问题,并使用了批度归一化(Batch Normalization)技术增加了模型的稳定性。通过在LFW人脸数据库上面进行实验,取得了比Lightened VGG模型更好的96%左右的准确率。(4)最后,将上述的模型算法应用于实际场景中,实现了一个基于实时监控视频的人脸识别系统。对系统各个模块的功能和流程进行详细介绍,并在自建的人脸数据库上进行了测试,达到了93%的准确度。该系统验证了本文方法的有效性,达到了在监控视频中进行人脸识别的应用要求。