论文部分内容阅读
随着我国汽车时代的到来,“停车难”是一个亟待解决的大问题,利用停车场现有的摄像头,对停车场车辆和空车位进行精准识别和定位是一种高效率、低成本的解决方案。近年来,以NVIDIA为代表的高性能计算开发商引领算力跨越式发展;卷积神经网络统领了整个图像领域,取得一项项辉煌成果。图像语义分割以像素级精确度定位停车场中的车辆,其中,全卷积神经网络(FCNs)的出现为实例语义分割提供了新的前进动力。然而,首先大规模语义图像数据集的缺乏会大幅度削弱神经网络的泛化能力;其次深层卷积神经网络的降采样和特征图谱的稀疏性会导致小尺寸目标丢失;最后高质量实例语义分割网络参数众多,训练过程中极易过拟合。面对以上问题,本文对停车场中车辆进行实例语义分割相关研究,其主要工作如下:针对提高实例语义分割网络的泛化能力,引入了残差网络(ResNet)和大规模增加语义图像数据。在收集数据集方面,主要从两方面入手,一、从真实图像数据入手,统一当前主流开源数据集(如:MS COCO、PASCAL VOC、SUN、Cityscapes等),提取车辆数据,并按MS COCO标准制作一个全新数据集;二、从虚拟数据入手,基于Blender 3D渲染引擎,制作逼真的虚拟停车场和车辆图像,结合边缘检测等算法对图像完成高精确度标注。针对特征图谱的稀疏性,提出了一种语义特征融合方案,它使得最终得到的共享特征图具有深层的高语义、中层的高互补性和浅层的高分辨率特点,在特征融合的过程中,摒弃了maxpooling和Bilinear interpolation两种对特征图采样方案,而是引入带有学习能力的膨胀卷积和反卷积(Deconv)对特征图进行采样。基于MS COCO数据集验证,特征融合实现了实例语义分割网络的mAP提高了0.5%。针对深层卷积神经网络的降采样带来的问题,提出了基于RPN网络的Dual RPN网络和一种全新的数据增强方案。Dual RPN网络是由浅层RPN和深层RPN通过soft-NMS合并而来,在实现该方案过程中提出了一种语义增强网络来解决浅层RPN网络分类性能不佳的问题。基于PASCAL VOC数据集,当IoU分别0.5、0.6、0.7时,统计Top-1000预测分数预选框,Dual RPN的平均召回率(average recall)比RPN分别提高了3.2%、8.0%、10.5%。基于MS COCO数据集,Dual RPN和数据增强使得整个实例语义分割网络的mAP分别提高了0.4%和2.5%。针对算法实现与训练问题,由于本文提出的实例语义分割网络参数众多,直接将其构建成一个端到端(end-to-end)网络不利于参数调教,在此,采用分步训练,把子网络训练到最优后,融合各子网络模型参数,将整个网络进行fine-tuning。