论文部分内容阅读
人脸关键点检测是计算机视觉领域中的一项经典任务,具有重要的学术研究价值和商业应用前景。近年来,深度学习技术的兴起加速了其研发进程。大量基于深度学习的人脸关键点检测算法被提出,其中基于坐标回归和基于热图回归的两大类方法由于性能优越而备受青睐。坐标回归方法利用图像信息直接对人脸关键点的坐标值进行预测,而热图回归方法则将人脸关键点检测问题转换为热图估计问题进行求解。一般而言,热图回归方法的检测性能较好,但执行算法所需的时间相对较长,坐标回归方法的检测性能偏低,但执行算法所需的时间相对较短且更容易控制。本文对基于热图回归的人脸关键点检测算法进行了深入研究。首先借助于经典的堆叠沙漏网络实现了对人脸关键点的初步检测,其次针对原始沙漏网络存在的编码器特征提取能力相对较弱、解码器没有充分利用不同尺度特征之间的互补性等问题,提出了一种改进的堆叠沙漏网络,通过使用更强、更通用的特征提取器来替换原始的编码器,同时在解码器中嵌入多尺度特征融合模块,显著提高了网络的特征表达能力,取得了较好的人脸关键点检测效果。然而,上述基于热图回归的人脸关键点检测算法由于其不可微的后处理操作导致输出结果是离散数值,存在量化误差,检测出的人脸关键点坐标与实际位置之间仍有一定的偏差。鉴于此,本文进一步提出了一种基于偏差学习的两阶段人脸关键点检测算法。考虑到坐标回归网络具有输出连续数值的特点,本文利用坐标回归网络拟合热图回归网络的预测结果与对应的真实标签之间的偏差,然后将坐标回归网络和热图回归网络进行模型融合,进一步提升了人脸关键点检测的性能。此外,针对实际需求本文还开发了一个视频中的人脸关键点实时检测系统,基于轻量级的坐标回归网络实现了人脸关键点检测算法,能够在计算机CPU上实现实时检测。针对视频中人脸数目是否会发生变化,本文给出了适用于人脸数目变化场景和适用于人脸数目固定场景的两种设计方案,其中前者采用了逐帧检测人脸和人脸关键点的策略,而后者仅对视频起始帧检测人脸,后续各帧的人脸矩形框根据其前一帧的人脸关键点检测结果推算并外扩得到,从而避免了逐帧检测人脸的过程,进一步节省了系统的处理时间。