论文部分内容阅读
自2019年12月新冠疫情爆发以来,已经对全球人类的健康和生活产生了重大影响。据约翰斯·霍普金斯大学统计数据,截止北京时间2021年1月27日,全球新冠肺炎确诊人数已经破亿,全球新冠肺炎死亡人数超过215万例。同时,病毒的传播扰乱了全球供应链,造成全球金融市场显著波动。与2020年2月中旬相比,欧洲股市已经下跌约30%,为2008年金融危机开始以来的最大单月跌幅,全球年经济增长率预计将下降2.5%左右。尽管如此,中国得益于疫情防控速度快、效率高、效果好,在经济下滑的大背景下,仍能成为2020年全球唯一一个实现经济正增长的主要经济体。虽然受新冠疫情冲击,2020年第一季度国内生产总值增速骤降至-6.8%,但随着疫情防控和复产复工的有序进行,实际国内生产总值同比增速在第二季度和第三季度分别反弹至3.2%和4.9%,预计2020年全年实际国内生产总值增速约为2.1%。这一切都与中国科学的防治,精准的政策实施密不可分。但是研究表明,新型冠状病毒主要通过呼吸道飞沫、密切接触等方式进行传播,并且随时存在大规模聚集性传染爆发的可能性。因此,在公共场合出入正确佩戴口罩,是做好防疫的关键一步。但公共场合人流量大,检测时间短,监督成本高,完全依靠人力检查存在效率低下,工作强度大,资源浪费的问题。因此如何以快速高效的办法实施公共场合人员口罩佩戴检测,便成为一项重大考验。本文将利用目标检测算法,实现口罩佩戴检测,为防疫做贡献。目标检测的功能是找出输入图像中的目标位置并对目标位置进行分类,在人脸识别,标志检测,文本检测等领域有着重要的作用。目标检测算法主要分为传统目标检测算法和基于深度学习的目标检测算法。传统的目标检测算法包括Viola-Jones(V-J)检测器算法,Histogram of Oriented Gradient(HOG)检测器算法,Deformable Part-based Model(DPM)算法等。传统目标检测算法在区域选择策略中没有较强的针对性,导致产生了较高的时间复杂度和窗口冗余的问题。同时,手工提取特征的方法,对于复杂的外观形态和多种的背景鲁棒性不好,而分类器又高度依赖特征提取,这就导致传统目标检测算法复杂,精度差。因此,传统的目标检测算法逐渐被淘汰。近年来,随着人工智能的发展,引入了基于深度学习的目标检测算法来解决传统目标检测算法存在的问题。现如今基于深度学习的目标检测算法主要分为双阶段目标检测算法和单阶段目标检测算法。双阶段目标检测算法是对输入图像先筛选出候选区域,在对候选区域进行分类和位置回归从而输出结果的目标检测算法,包括区域卷积神经网络(Region Convolutional Neural Network,R-CNN)系列算法、基于区域的全卷积网络(Region-Based Fully Convolutional Network,R-FCN)算法、掩模区域卷积神经网络(Mask Region Convolutional Neural Network,Mask R-CNN)算法等。R-CNN 是由 Girshick 于 2014 年将卷积神经网络(Convolutional Neural Network,CNN)应用于目标检测从而产生的双阶段目标检测算法。R-CNN将AlexNet与选择性搜索算法相结合,主要结构包括区域选择、深度提取、分类回归三个模块。R-CNN在平均精确度均值(mean Average Precision,mAP)上较于传统目标检测算法有很大提升,但是仍存在训练、测试缓慢,复杂度高、计算量大等问题。针对以上问题,空间金字塔池化卷积网络(Spatial Pyramid Pooling in Deep Convolutional Networks for Visual Recognition,SPP-Net)算法应运而生。何恺明团队在现有的网络中加入空间金字塔池化层(SPP),可以生成固定长度的特征向量,避免了重复计算卷积特征,使得SPP-Net算法比R-CNN算法计算速度在PASCAL 2007的数据集上快24-102倍,平均精度值也提升至59.2%。随后,基于边界框和多任务损失分类的快速区域卷积神经网络(Fast Region Convolutional Neural Network,Fast R-CNN)算法由 Girshick 提出,以解决现有算法空间消耗大,分类器训练繁琐等问题,该算法融合目标检测、分类和定位于一个模型中,提高了检测的精度和速度。同年,Faster R-CNN(Faster Region Convolutional Neural Network)由任少卿和Grishick团队联合提出,该网络由卷积层、区域建议网络(Region Proposal Network,RPN)、RoI 池化层(Region of Interest Pooling,RoI Pooling)、分类层和回归层组成,其中RPN取代选择性搜索算法,并实现了端到端的训练,使得网络的训练速度得到大幅度提升。随后,Mask R-CNN的提出是对前面算法的优化,在原来的分类和回归的两个任务上,增加了一个Mask网络分支用于分割任务,提高了目标检测分支的精度。单阶段目标检测算法采用了回归分析的思想,省略了双阶段目标检测算法中的候选区域生成步骤,直接得到目标的分类定位。YOLO(You Only Look Once)系列算法作为单阶段目标检测算法的代表之一,其中的YOLOv4算法将被应用于本文的实验。YOLOv4保留了 YOLOv3的头部部分,将主干网络从DarkNet-53转为CSPDarkNet53;同时采用SPP和Path Aggregation Network(PAN)模块相结合,加强特征提取网络的改进;在数据增强方面使用了马赛克(Mosiac)增强法;使用Generalized Intersection over Union(CIOU)作为回归损失函数等大幅度提高了模型的检测精度。另一个单阶段目标检测算法是单次多尺度检测器(Single Shot MultiBox Detector,SSD)算法,该算法的思想是分层提取特征,它通过卷积层对目标的定位和分类减少了计算量;并且没有对目标检测过程设置空间限制,这使得该算法在成群的小目标检测中有很好的应用。由于经过实验测试后,单独使用目标检测网络作为口罩佩戴检测模型的准确率,并不能达到预测效果,因此本文创新性地提出了识别+分类的口罩佩戴检测方案进行实验,将目标检测网络仅作为人脸检测识别器,引入分类网络实现口罩佩戴分类的功能,因此实验了多组分类网络。其中VGG(Very Deep Convolutional Network)网络是一种经典的网络,它具有多种变型并且被广泛应用在目标分类、人脸检测等领域。其中的VGG16是VGG的优化模型,它包括13个卷积层和3个全连接层,结构简单,网络复杂度低,计算量下降,在数据集上不会出现过拟合问题。残差网络(Residual Network,ResNet)也是目前深度学习领域中一种常用的模型之一,它是一种极深的卷积神经网络模型,通过能够跳过一层或多层的短路连接的结构,解决了因为网络深度增加而导致的网络退化问题,ResNet常用的网络结构是ResNet50和ResNet101,二者并没有本质的不同,只是结构上ResNet101在每个残差块中使用了更多的卷积层。最后一种用于移动视觉应用的高效卷积神经网络:MobileNet,这是一种轻量卷积的神经网络,它的特点参数少,运行速度快,占用显存低,主要核心是使用深度可分离卷积的操作。其中的MobileNetV2是流线型架构,它的倒置残差结构大幅度减少了网络参数和计算量,使得网络速度有了大幅度提升。本文结合上述研究背景,创新性地提出了基于深度学习的优化算法和混合模型方案,以提高口罩佩戴检测的效率,本文主要工作内容可以概括为以下三个方面:1.由于口罩识别研究较晚目前没有主流公开的数据集,所以本文收集并制作了一个拥有4000张图片的各种复杂场景的口罩数据集,其中包括医院、汽车站、火车站、学校、小区等。由于数据集有限,对数据集采用了一系列的增广策略:水平镜像、添加噪声、随机裁剪、随机亮度和对比度增强等,把数据集扩充为8000张图片,并使用LabelImg对图片中人脸进行标注。2.本文以YOLOv4算法作为基础,提出了改进的YOLOv4算法:利用K均值聚类算法(K-means clustering algorithm)对数据集聚类,在CSPDarknet53主干网络的输出的特征层P3、P4后分别增加了一个SPP结构的优化YOLOv4模型。并分别在自制数据集上对比试验了 Faster R-CNN模型、原始YOLOv4模型、SSD模型以及优化的YOLOv4模型,其中6000张图像用于训练,2000张图像用于测试,训练和测试的样本无重叠。实验结果发现优化的YOLOv4模型在口罩佩戴检测的综合性能是要优于Faster R-CNN模型、SSD模型和原始的YOLOv4模型。3.优化后的YOLOv4模型虽然在口罩佩戴检测的人脸识别功能有所提升,但对口罩佩戴分类的准确率达不到期望效果。因此本文创新性地提出了识别+分类的口罩佩戴检测方案:选择改进YOLOv4模型作为人脸检测器,只用该模型识别人脸。同时引入分类网络,分类改进的YOLOv4识别出的人脸是否佩戴了口罩。在分别对比实验了 VGG16网络、ResNet50网络、ResNet101网络和MobileNetV2网络后,选择ResNet50和MobileNetV2作为分类网络,分别融合改进的YOLOv4模型作为口罩佩戴检测的混合模型。实验结果证明了,采用上述混合模型在口罩佩戴分类的准确率上提高了 1.1%。虽然本文提出的创新型的优化模型,和识别+分类的口罩佩戴识别方案,取得了初步的研究成果,但仍然存在可提升的空间。在未来的研究中,可以从以下方面对研究进行改善:扩充数据集,提高口罩识别方案的精确性;优化网络结构,提升检测的速度;增加识别的功能,实现在佩戴口罩的情况下,识别出被检测者的身份。通过以上内容完善口罩佩戴检测,更好地为防疫做贡献。