论文部分内容阅读
人脸检测与跟踪技术是深度学习应用最广的方向,也是人工智能最底层的核心技术。人脸检测作为信息时代必不可少的技术,广泛应用于人机交互、安防监控、无人驾驶、商业娱乐等多个领域。从2006年开始逐步展开的深度学习大爆发给目标检测的研究带来了突破性的发展,算法方面出现了一系列基于卷积神经网络(Convolutional Neural Network,CNN)的优秀目标检测算法,在研究领域取得了惊人的进展。其中SSD(Single Shot MultiBox Detector)算法开创性地使用多尺度特征图检测提升检测精度。本文重点研究人脸目标的检测与跟踪技术,实现并改进了基于SSD的人脸目标检测算法。论文具体工作如下:(1)本文展开了对当前主流的基于卷积神经网络的目标检测算法Faster R-CNN,YOLO与SSD算法的网络结构研究。其中卷积神经网络特有局部连接、权重共享、多特征图这三个特性,使得卷积神经网络在图像处方面有惊人的效果。本文将对这三种主流目标检测算法在标准数据集PASCAL VOC上进行实验结果性能分析对比。实验表明SSD算法在检测过程中的精度和速度都有着较好的性能;(2)设计并实现基于SSD的人脸目标检测算法。详细研究了卷积神经网络的结构与特性。在设计本文算法的前置网络时,选择当前主流的卷积神经网络结构VGGNet和ResNet进行图像特征提取,对二者的网络结构与算法原理进行分析和对比,通过对模型进行数据训练和实验进行对比,并对实验结构分析后得出结论:在考虑检测性能和训练成本的情况下,VGGNet算法是本文算法前置网络的最佳选择;(3)为了提高本文算法的检测精度,本文利用降噪自编码器方法,在训练模型中生成噪声。通过L1正则化产出稀疏的模型,增强模型的泛化能力,实现在网络迭代训练过程中降噪的效果。实验表明稀疏化后的网络检测精度得到了提升。为了更好地实现实时检测的要求,在网络中添加基于Kalman的滤波目标跟踪算法,建立运动模型与参数,更新算法后重新进行训练,实验结果表明本文算法达到实时检测要求。