大规模亚洲人脸数据集的构建

来源 :北京化工大学 | 被引量 : 3次 | 上传用户:tsmkgszcd
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
近年来,深度学习的蓬勃发展,带动越来越多的科研人员及互联网团队投身到这一领域。卷积神经网络(Convolutional Neural Network,简称CNN)的提出对计算机视觉这一研究领域产生了非常大的影响。随着深度学习方法的应用,人脸识别的准确率得到了突破性地提高,并逐渐成为非常实用的方法。基于深度学习的人脸识别方法准确率的提升主要依赖于两个方面:网络模型优化和训练数据集增强。但是,目前被公开的可用于训练深度网络的人脸训练数据集资源有限,且绝大部分是基于欧美人脸的图片,而基于亚洲人脸的深度网络模型的训练数据集非常稀缺。众所周知,西方人脸相比于东方人脸存在眉骨较高、眼窝深陷、颧骨突出等直观差别,基于WebFace数据集训练的深度网络模型在LFW测试集上的准确率已超过99%,但根据本文的实验,该模型在测试亚洲人脸时准确率却明显降低,因此,构建一个可用于训练的亚洲人脸数据集非常必要且有意义。本文的研究目标就是构建一个大规模高质量的亚洲人脸数据集。为实现该目标,本文需要研究相关构建方法,提升构建效率,降低构建成本,所涉及的主要工作内容包括;1)实现了构建人脸数据集的完整处理过程,可通过自动计算和人工干预结合的方法完成人脸数据获取、数据自动化处理和人工审核等环节的处理过程。此外,鉴于深度学习所需要的数据集规模较大且对质量有较高要求,人脸图像数据获取和人工审核这两个过程中工作量和成本较大,本文开发实现了相应的应用管理系统,对互联网人脸图像爬取以及后期人工审核标注任务进行管理,使得数据获取和标注审核能够更有效率地进行。在数据自动化处理阶段,本文研究实现了对图像数据评分的机制,以实现大量图像数据的自动标注和筛选,极大降低了人工工作量,提升了数据集的构建效率;2)利用上述系统和处理方法构建了一个包含超过5千名亚洲明星人脸数据集,图像规模超过50万张。该数据集覆盖了各性别年龄段的亚洲明星,并且每个明星内包含的脸部图像也尽量保持差异化,以利于深度网络模型的训练。实验证明在相同结构的网络模型上,基于亚洲人脸数据集训练的深度网络模型,比较基于WebFace(欧美人脸为主)训练的深度网络模型,在亚洲人脸识别上具有更高的准确率。本文还研究使用CenterLoss等方法提升识别效果,并取得了较好的结果。此外,本文还利用训练的深度网络开发了简单的人脸识别应用系统,体现了该深度网络模型的实用性。总之,本文构建了一个完整的人脸识别训练数据集的构建系统,并实际创建了一个大规模的高质量亚洲人脸数据集,体现了系统的有效性。实验结果表明,基于本文构建的亚洲明星数据集训练的深度网络在识别亚洲人脸上,相比较之前的欧美明星数据集,在准确率上具有明显优势。
其他文献
课程改革是教育改革与发展的重要组成部分,以学生素养为核心的课程改革的特点是全面发展学生的综合能力,而搭建新的课程体系则是重中之重。根据真实的生活情境,构建跨学科、
目的探讨改良肌内注射法对苄星青霉素肌内注射质量的影响。方法采用方便抽样方法 ,选取需注射苄星青霉素240万U患者178例,采用自身对照,苄星青霉素分两侧肌内注射,每侧注射12
高中是学习英语的最有效阶段,也是学生积累基础知识、深化英语内涵的关键时期。对于一些宝贵的英语课程资源,教师要进行有效的开发并循环利用,让英语知识“这颗雪球”随着时
建立了测定MnSO4样品中Cl^-离子的色谱分析方法。行业标准《工业硫酸锰》对样品中Cl^-离子的检测采用目测比色法,由于人员存在经验差异,使样品分析的结果存在一定误差。MnSO4样
以热镀锡在镀锡过程中产生的含锡烟尘为原料,采用盐酸浸出热镀锡烟尘,在盐酸浓度为125g/L、浸出温度为75℃、液固比为5:1、浸出时间为100min的优化条件下,Sn、Zn、Cu的浸出率分别
通过选取、引进优质母种、经过转管培养获得优质原种,再繁育成液体菌种,接种在蚕蛹及大米添加蛹粉的培养基上,研究与总结菌丝培养期、转色催蕾期、子实体管理期三个主要阶段