论文部分内容阅读
近年来,深度学习的蓬勃发展,带动越来越多的科研人员及互联网团队投身到这一领域。卷积神经网络(Convolutional Neural Network,简称CNN)的提出对计算机视觉这一研究领域产生了非常大的影响。随着深度学习方法的应用,人脸识别的准确率得到了突破性地提高,并逐渐成为非常实用的方法。基于深度学习的人脸识别方法准确率的提升主要依赖于两个方面:网络模型优化和训练数据集增强。但是,目前被公开的可用于训练深度网络的人脸训练数据集资源有限,且绝大部分是基于欧美人脸的图片,而基于亚洲人脸的深度网络模型的训练数据集非常稀缺。众所周知,西方人脸相比于东方人脸存在眉骨较高、眼窝深陷、颧骨突出等直观差别,基于WebFace数据集训练的深度网络模型在LFW测试集上的准确率已超过99%,但根据本文的实验,该模型在测试亚洲人脸时准确率却明显降低,因此,构建一个可用于训练的亚洲人脸数据集非常必要且有意义。本文的研究目标就是构建一个大规模高质量的亚洲人脸数据集。为实现该目标,本文需要研究相关构建方法,提升构建效率,降低构建成本,所涉及的主要工作内容包括;1)实现了构建人脸数据集的完整处理过程,可通过自动计算和人工干预结合的方法完成人脸数据获取、数据自动化处理和人工审核等环节的处理过程。此外,鉴于深度学习所需要的数据集规模较大且对质量有较高要求,人脸图像数据获取和人工审核这两个过程中工作量和成本较大,本文开发实现了相应的应用管理系统,对互联网人脸图像爬取以及后期人工审核标注任务进行管理,使得数据获取和标注审核能够更有效率地进行。在数据自动化处理阶段,本文研究实现了对图像数据评分的机制,以实现大量图像数据的自动标注和筛选,极大降低了人工工作量,提升了数据集的构建效率;2)利用上述系统和处理方法构建了一个包含超过5千名亚洲明星人脸数据集,图像规模超过50万张。该数据集覆盖了各性别年龄段的亚洲明星,并且每个明星内包含的脸部图像也尽量保持差异化,以利于深度网络模型的训练。实验证明在相同结构的网络模型上,基于亚洲人脸数据集训练的深度网络模型,比较基于WebFace(欧美人脸为主)训练的深度网络模型,在亚洲人脸识别上具有更高的准确率。本文还研究使用CenterLoss等方法提升识别效果,并取得了较好的结果。此外,本文还利用训练的深度网络开发了简单的人脸识别应用系统,体现了该深度网络模型的实用性。总之,本文构建了一个完整的人脸识别训练数据集的构建系统,并实际创建了一个大规模的高质量亚洲人脸数据集,体现了系统的有效性。实验结果表明,基于本文构建的亚洲明星数据集训练的深度网络在识别亚洲人脸上,相比较之前的欧美明星数据集,在准确率上具有明显优势。