论文部分内容阅读
摘 要:在军事领域和日常生活中存在大量带有光学镜头的光电制导武器以及光电设备,激光照射到光学镜头上时会出现“猫眼效应”,现有的传统方法采用经典数字图像处理过程对“猫眼”目标进行识别,主要采用主被动图像相减后得到的差分图像对其进行滤波以及设定灰度阈值来识别目标,此类方法对于复杂环境以及光强近似的伪目标来说传统方法的虚报警率较高。因此本论文提出一种基于深度学习的“猫眼”效应目标检测网络——CE-SSD,此算法参考了相比于YOLO网络对较小目标探测的准确率更高、速度更快的SSD网络,并对SSD目标检测网络的改进。首先将浅层特征图进行融合以提高对“猫眼”类小目标的识别精度;然后采用K-means聚类方法根据真实框大小产生预选框;最后去除对小目标检测作用极小的后三个卷积层并修改不同特征图中包含的anchor数量来精简网络算法。为了验证本文所提出算法的效果,创建了“猫眼”目标数据集,在此数据集上CE-SSD网络对于“猫眼”目标有较高的准确率和较低的虚报警率,mAP较SSD提高了2.7%,精确度提高1.1%,召回率提高6%。
关键词:“猫眼”效应;卷积神经网络;深度学习;目标检测
引言
随着光电侦查、光通信技术的大力发展,出现了大量光电制导武器以及光电设备,越来越多设备上带有光学镜头,为了能够准确识别这类目标,产生了多种机制的光电对抗系统,其中较为常用的对抗系统是激光成像探测系统[1],当激光照射到光学镜头上时会产生“猫眼”效应,此对抗系统对狙击镜、偷拍设备等光学镜头产生的“猫眼”效应目标进行识别。
“猫眼”效应是指当激光照射到狙击镜、望远镜、测距仪等光学镜头后,经过透镜的会聚和反射元件的反射,会产生强度比一般漫反射目标的光强高2~4个数量级的反射光。就像黑夜中的猫咪的眼睛一样炯炯发亮,因此得名“猫眼”效应。现有的传统方法包括基于压缩感知的“猫眼”效应目标识别算法[2]、基于形状和频率双重判据的“猫眼”效应目标识别方法(SFDC)[3]、基于视觉注意机制的“猫眼”效应目标识别算法[4],此类方法目标识别率低、虚警概率高,在动态复杂环境下不能够对车灯、走动的行人等伪目标进行有效的区分,对于光强近似或较高、形状对称的伪目标不能很好的排除。
本文针对狙击头、望远镜、夜视仪所产生的“猫眼”效应目标,使用深度学习目标识别的方法进行研究。近几年深度学习目标检测算法取得了巨大的突破。其中包括多阶段检测的经典算法R-CNN[5],Fast R-CNN[6],Faster R-CNN[7]以及一阶段检测算法YOLO[8]和SSD[9]等。SSD算法吸收了YOLO速度快和RPN定位精准的优点,采用了RPN中产生多种不同比例大小的预选框的思想,并进一步提出在多个分辨率的特征图上进行检测。
本文参考目前速度、识别准确率都较高的SSD网络,提出一种基于SSD的改进算法CE-SSD(“Cat-Eye” Effect Object Single Shot Multi Box Detector)作为“猫眼”目标的识别算法,针对“猫眼”类目标对SSD网络结构进行优化和改进,首先将用于分类以及位置回归的特征层进行融合以提高对“猫眼”类小目标的识别精度,通过SSD的特征图可视化选择适合“猫眼”效应目标感受野的卷积层进行融合;然后采用K-means聚类方法根据标注真实框(Ground Truth box)大小产生预选框的初始大小尺寸,将聚类得到两组新的Anchor代替SSD中固定的min_size和max_size,从而得到更加贴近真实框的预选框;最后去除对小目标检测作用极小的后三个卷积层来精简网络算法,在不影响识别准确率的情况下减少冗余,实验在自行创建的“猫眼”效应目标数据集上进行训练和测试。
1 实验内容
1.1 卷积层融合方法
通过对神经网络的学习,可以发现较低层级的特征语义信息比较少,但是能够给定目标的准确位置;较高层级的特征语义信息比较丰富,但是对于目标位置的判断比较模糊。由于小尺寸的目标多用较低层级的Anchor来训练,但是底层级的特征缺乏语义信息,可是如果只考虑语义信息用较高层级进行识别,“猫眼”目标尺寸过小与较大的Anchor无法匹配,没有办法将其准确检测出来,所以本文利用加权梯度类激活映射(Grad-CAM)[10]方法将SSD中用于分类和回归的卷积层进行可视化来了解网络中不同卷积层所关注的内容有何不同。对于小目标的识别Con4-3层和Con5_3层是最合适的,选择Conv4_3和Conv5_3进行融合来得到上下文信息,从而同时兼顾语义信息和目标位置的精度。
融合流程:首先对Conv5_3采用最近邻插值方法进行上采样,得到与Con4_3的相同大小的特征图,然后将Conv4_3和上采样后的Conv5_3用3×3大小的卷积核提取特征使后续能够更好的融合。在将它们沿着通道轴进行融合之前,使用BN(Batch Normalization)层进行归一化。最后将Conv5_3横向拼接在Conv4_3后面,用1×1×512的卷积核对特征重结合并降维成38×38×512大小的特征层作为最终的融合层。此过程针对小目标具有较高的检测精度。需要说明的是“猫眼”目标都是小目标,较深层级对目标检测作用很小,为了检测速度,不考虑将后面的卷积层进行融合。
1.2 K-means聚类生成预选框
本文中主要识别目标的大小在10-50像素之间,需要针对“猫眼”小目标重新计算预选框,K-means聚类的目的是使预选框和临近真实框有更大的IOU,从而得到更好的IOU分数,K-means聚类首先需要明确距离的计算公式,一般情况下是使用欧氏距离,由于是以标注好的真实框与聚类框(Cluster box)的IOU最大为目地,所以以公式1来计算距离:
公式1中GT_box代表真实框,Cluster_box代表聚类框;每个聚类框与真实框的IOU越大越好,而聚类到簇的距离越小越好,所以使用 最为距离度量公式。需要說明由于Anchor的中心位置是根据特征图网格确定的,在计算IOU时将两者中心点的x,y设置为相同坐标,所以使用K-means计算时Cluster_box只需要设置初始长和宽,不需要设置目标类别和中心坐标。 1.3 网络简化
将SSD中用于分类和位置回归的卷积层减少到三个,去除Conv9_2,Conv10_2,Conv11_2,并对Anchor_ratios进行调整,SSD中预选框的生成以特征图网格为中心,通过K-means聚类方法生成的Anchor_size按照Anchor_ratios生成的不同长宽比的预选框,其中Anchor_ratios={1,2,1/2,3,1/3,1’},将每个卷积层对应使用Anchor_ratios的Num={4,6,6,6,4,4} 改为为Num={4,6,4},即将Conv4_3和Conv7层的Anchor_ratios保留,Conv8_2只采用{2,1/2}一种比例生成预选框。在不减少精确度的情况下去除SSD中对“猫眼”目标检测无用的卷积层从而减少冗余,提高检测速度,FPS小幅度提高。
1.4 CE-SSD网络结构
本文提出CE-SSD网络结构“猫眼”目标识别算法,网络输入图像大小为300×300,首先通过VGG-16的Conv1_2,Conv2_2,Conv3_3对图像进行特征提取,然后通过K-means聚类方法生成Anchor,然后将Conv4_3与Conv5_3进行融合得到38×38的特征图、Conv7的19x19特征图、Conv8_2的10x10特征图同时进行Softmax分类和边框定位。公式2为Loss函数数学表达式,其中Loss函数分为两部分,一部分是边框定位的损失函数 ,一部分是置信度得分的损失函数 ,其中c置信度,l为预测框,g为真值框。
2 实验结果及分析
2.1 数据集
由于现在并没有开源的“猫眼”目标数据集,所以本实验室共同创建了“猫眼”目标数据集,我们使用设备进行视频拍摄,需要尽可能模拟狙击、偷拍的真实场景,为了使背景多样化,拍摄场景包括室内,灌木从,草地,街道、窗户、房顶、湖边等数十个场景,拍摄时间为从白天到黑天不同时段,拍摄环境为逆光、顺光、庇荫处等。为了使目标大小多样化,拍摄距离从二十至三百米不等,拍摄共四十段短视频,通过视频编辑工具将其中带有“猫眼”目标的视频帧保存为图像筛选,图像大小为480×608,最终选择600张图片作为“猫眼”目标数据集并对其标注,标注后按照8:2随机将数据集分为训练集497张和测试集103张。
2.2 模型测试
测试阶段首先对于每个预测框,根据类别置信度确定其类别与置信度值,并过滤掉属于背景的预测框,然后根据置信度阈值(如0.5)过滤掉阈值较低的预测框,最后通过非极大值抑制NMS算法,过滤掉那些重叠度较大的预测框。最后剩余的预测框为检测结果。对测试集103张图片进行检测,原SSD与CE-SDD进行精确度(Precision)与召回率(Recall)的对比,可以发现虚报警率有0.3%小幅提升,但漏检大大减少,召回率提高6%,对测试集中大多数目标都能正确检测。
为了验证加入融合和K-means聚类方法的有效性,采用平均精度均值mAP指标对原本SSD、加入融合后的Fusion_SSD以及CE-SSD进行对比,对比结果如表3,可以看到CE-SSD相比原SSD的mAP增加了2.7%,有显著提升,可以看到Fusion_SSD的加入是非常必要的, 相比SSD增加了4.2%,mAP增加了1.2%。
3 实验结论及贡献
3.1 实验结论
“猫眼”目标的检测在军事和生活中都有重要意义,本文参考SSD网络,提出了基于深度学习的针对“猫眼”效应目标的检测网络——CE-SSD,首先探究对SSD网络不同卷积层对“猫眼”效应目标的关注程度,将适合检测“猫眼”目标的特征层进行融合以提高对此类小目标的识别精度;然后采用K-means聚类方法根据真值标注框大小产生预选框的初始尺寸以提高检测精度;最后去除对小目标检测作用极小的后三个卷积层并修改不层级中包含的Anchor数量来精简优化网络算法。同时创建“猫眼”效应目标数据集,在此数据集上进行模型训练和检测,并将CE-SSD网络与原版SSD检测网络进行对比实验,mAP提高了2.7%,精确度提高0.3%,召回率提高6%。本文所提出的方法对“猫眼”目标检测效果较好,但是没有考虑速度,如果要作为实时检测网络还有待提高检测速度。
参考文献
[1] 张超凡.“猫眼效应”在激光主动探测中的实现[J]. 计量与测试技术,2007,34(11).
[2] 党二升,李丽. 激光探测“猫眼”效应目标识别算法[J]. 航空科学技术. 2011,6(59).
[3] Ximing Ren,Li Li.Recognizing “cat-eye” targets with dual criterions of shape and modulation frequency [J]. CHINESE OPTICS LETTERS,2011,9(1).
[4] Li Li,Jianlin Ren,Xingbin Wang Fast cat-eye effect target recognition based on saliency extraction[J].Optics Communications 350(2015)33–39.
[5] Wang X,Shrivastava A,Gupta A.A-Fast-RCNN:Hard positive generation via adversary for object detection[C]// Proceedings of CVPR 2017,2017.
[6] GIRSHICK R. Fast R-CNN / / Proc of the IEEE International Conference on Computer Vision. Washington,USA:IEEE,2015:1440-1448.
[7] REN S Q,HE K M,Girshick R B,et al. Faster R-CNN:Towards Real-Time Object Detection with Region Proposal Networks. IEEE Transactions on Pattern Analysis and Machine Intelligence,2017,39(6):1137-1149.
[8] REDMON J,DIVVALA S,GIRSHICK R,et al. You Only Look Once:Unified,Real-Time Object Detection / / Proc of the IEEE Conference on Computer Vision and Pattern Recognition. Washington,USA:IEEE,2016:779-788.
[9] LIU W,ANGUELOV D,ERHAN D,et al. SSD:Single Shot Multibox Detector / / Proc of the 14th European Conference on Computer Vision. New York,USA:Springer,2016,I:21-37.
[10] Selvaraju R R,Cogswell M,Das A,et al. Grad-cam:Visual explanations from deep networks via gradient-based localization[C]//Proceedings of the IEEE International Conference on Computer Vision. 2017:618-626.
作者簡介:王玥:女,1995 8 2,北京,汉族,北京航空航天大学,硕士,研究方向:图像处理。
关键词:“猫眼”效应;卷积神经网络;深度学习;目标检测
引言
随着光电侦查、光通信技术的大力发展,出现了大量光电制导武器以及光电设备,越来越多设备上带有光学镜头,为了能够准确识别这类目标,产生了多种机制的光电对抗系统,其中较为常用的对抗系统是激光成像探测系统[1],当激光照射到光学镜头上时会产生“猫眼”效应,此对抗系统对狙击镜、偷拍设备等光学镜头产生的“猫眼”效应目标进行识别。
“猫眼”效应是指当激光照射到狙击镜、望远镜、测距仪等光学镜头后,经过透镜的会聚和反射元件的反射,会产生强度比一般漫反射目标的光强高2~4个数量级的反射光。就像黑夜中的猫咪的眼睛一样炯炯发亮,因此得名“猫眼”效应。现有的传统方法包括基于压缩感知的“猫眼”效应目标识别算法[2]、基于形状和频率双重判据的“猫眼”效应目标识别方法(SFDC)[3]、基于视觉注意机制的“猫眼”效应目标识别算法[4],此类方法目标识别率低、虚警概率高,在动态复杂环境下不能够对车灯、走动的行人等伪目标进行有效的区分,对于光强近似或较高、形状对称的伪目标不能很好的排除。
本文针对狙击头、望远镜、夜视仪所产生的“猫眼”效应目标,使用深度学习目标识别的方法进行研究。近几年深度学习目标检测算法取得了巨大的突破。其中包括多阶段检测的经典算法R-CNN[5],Fast R-CNN[6],Faster R-CNN[7]以及一阶段检测算法YOLO[8]和SSD[9]等。SSD算法吸收了YOLO速度快和RPN定位精准的优点,采用了RPN中产生多种不同比例大小的预选框的思想,并进一步提出在多个分辨率的特征图上进行检测。
本文参考目前速度、识别准确率都较高的SSD网络,提出一种基于SSD的改进算法CE-SSD(“Cat-Eye” Effect Object Single Shot Multi Box Detector)作为“猫眼”目标的识别算法,针对“猫眼”类目标对SSD网络结构进行优化和改进,首先将用于分类以及位置回归的特征层进行融合以提高对“猫眼”类小目标的识别精度,通过SSD的特征图可视化选择适合“猫眼”效应目标感受野的卷积层进行融合;然后采用K-means聚类方法根据标注真实框(Ground Truth box)大小产生预选框的初始大小尺寸,将聚类得到两组新的Anchor代替SSD中固定的min_size和max_size,从而得到更加贴近真实框的预选框;最后去除对小目标检测作用极小的后三个卷积层来精简网络算法,在不影响识别准确率的情况下减少冗余,实验在自行创建的“猫眼”效应目标数据集上进行训练和测试。
1 实验内容
1.1 卷积层融合方法
通过对神经网络的学习,可以发现较低层级的特征语义信息比较少,但是能够给定目标的准确位置;较高层级的特征语义信息比较丰富,但是对于目标位置的判断比较模糊。由于小尺寸的目标多用较低层级的Anchor来训练,但是底层级的特征缺乏语义信息,可是如果只考虑语义信息用较高层级进行识别,“猫眼”目标尺寸过小与较大的Anchor无法匹配,没有办法将其准确检测出来,所以本文利用加权梯度类激活映射(Grad-CAM)[10]方法将SSD中用于分类和回归的卷积层进行可视化来了解网络中不同卷积层所关注的内容有何不同。对于小目标的识别Con4-3层和Con5_3层是最合适的,选择Conv4_3和Conv5_3进行融合来得到上下文信息,从而同时兼顾语义信息和目标位置的精度。
融合流程:首先对Conv5_3采用最近邻插值方法进行上采样,得到与Con4_3的相同大小的特征图,然后将Conv4_3和上采样后的Conv5_3用3×3大小的卷积核提取特征使后续能够更好的融合。在将它们沿着通道轴进行融合之前,使用BN(Batch Normalization)层进行归一化。最后将Conv5_3横向拼接在Conv4_3后面,用1×1×512的卷积核对特征重结合并降维成38×38×512大小的特征层作为最终的融合层。此过程针对小目标具有较高的检测精度。需要说明的是“猫眼”目标都是小目标,较深层级对目标检测作用很小,为了检测速度,不考虑将后面的卷积层进行融合。
1.2 K-means聚类生成预选框
本文中主要识别目标的大小在10-50像素之间,需要针对“猫眼”小目标重新计算预选框,K-means聚类的目的是使预选框和临近真实框有更大的IOU,从而得到更好的IOU分数,K-means聚类首先需要明确距离的计算公式,一般情况下是使用欧氏距离,由于是以标注好的真实框与聚类框(Cluster box)的IOU最大为目地,所以以公式1来计算距离:
公式1中GT_box代表真实框,Cluster_box代表聚类框;每个聚类框与真实框的IOU越大越好,而聚类到簇的距离越小越好,所以使用 最为距离度量公式。需要說明由于Anchor的中心位置是根据特征图网格确定的,在计算IOU时将两者中心点的x,y设置为相同坐标,所以使用K-means计算时Cluster_box只需要设置初始长和宽,不需要设置目标类别和中心坐标。 1.3 网络简化
将SSD中用于分类和位置回归的卷积层减少到三个,去除Conv9_2,Conv10_2,Conv11_2,并对Anchor_ratios进行调整,SSD中预选框的生成以特征图网格为中心,通过K-means聚类方法生成的Anchor_size按照Anchor_ratios生成的不同长宽比的预选框,其中Anchor_ratios={1,2,1/2,3,1/3,1’},将每个卷积层对应使用Anchor_ratios的Num={4,6,6,6,4,4} 改为为Num={4,6,4},即将Conv4_3和Conv7层的Anchor_ratios保留,Conv8_2只采用{2,1/2}一种比例生成预选框。在不减少精确度的情况下去除SSD中对“猫眼”目标检测无用的卷积层从而减少冗余,提高检测速度,FPS小幅度提高。
1.4 CE-SSD网络结构
本文提出CE-SSD网络结构“猫眼”目标识别算法,网络输入图像大小为300×300,首先通过VGG-16的Conv1_2,Conv2_2,Conv3_3对图像进行特征提取,然后通过K-means聚类方法生成Anchor,然后将Conv4_3与Conv5_3进行融合得到38×38的特征图、Conv7的19x19特征图、Conv8_2的10x10特征图同时进行Softmax分类和边框定位。公式2为Loss函数数学表达式,其中Loss函数分为两部分,一部分是边框定位的损失函数 ,一部分是置信度得分的损失函数 ,其中c置信度,l为预测框,g为真值框。
2 实验结果及分析
2.1 数据集
由于现在并没有开源的“猫眼”目标数据集,所以本实验室共同创建了“猫眼”目标数据集,我们使用设备进行视频拍摄,需要尽可能模拟狙击、偷拍的真实场景,为了使背景多样化,拍摄场景包括室内,灌木从,草地,街道、窗户、房顶、湖边等数十个场景,拍摄时间为从白天到黑天不同时段,拍摄环境为逆光、顺光、庇荫处等。为了使目标大小多样化,拍摄距离从二十至三百米不等,拍摄共四十段短视频,通过视频编辑工具将其中带有“猫眼”目标的视频帧保存为图像筛选,图像大小为480×608,最终选择600张图片作为“猫眼”目标数据集并对其标注,标注后按照8:2随机将数据集分为训练集497张和测试集103张。
2.2 模型测试
测试阶段首先对于每个预测框,根据类别置信度确定其类别与置信度值,并过滤掉属于背景的预测框,然后根据置信度阈值(如0.5)过滤掉阈值较低的预测框,最后通过非极大值抑制NMS算法,过滤掉那些重叠度较大的预测框。最后剩余的预测框为检测结果。对测试集103张图片进行检测,原SSD与CE-SDD进行精确度(Precision)与召回率(Recall)的对比,可以发现虚报警率有0.3%小幅提升,但漏检大大减少,召回率提高6%,对测试集中大多数目标都能正确检测。
为了验证加入融合和K-means聚类方法的有效性,采用平均精度均值mAP指标对原本SSD、加入融合后的Fusion_SSD以及CE-SSD进行对比,对比结果如表3,可以看到CE-SSD相比原SSD的mAP增加了2.7%,有显著提升,可以看到Fusion_SSD的加入是非常必要的, 相比SSD增加了4.2%,mAP增加了1.2%。
3 实验结论及贡献
3.1 实验结论
“猫眼”目标的检测在军事和生活中都有重要意义,本文参考SSD网络,提出了基于深度学习的针对“猫眼”效应目标的检测网络——CE-SSD,首先探究对SSD网络不同卷积层对“猫眼”效应目标的关注程度,将适合检测“猫眼”目标的特征层进行融合以提高对此类小目标的识别精度;然后采用K-means聚类方法根据真值标注框大小产生预选框的初始尺寸以提高检测精度;最后去除对小目标检测作用极小的后三个卷积层并修改不层级中包含的Anchor数量来精简优化网络算法。同时创建“猫眼”效应目标数据集,在此数据集上进行模型训练和检测,并将CE-SSD网络与原版SSD检测网络进行对比实验,mAP提高了2.7%,精确度提高0.3%,召回率提高6%。本文所提出的方法对“猫眼”目标检测效果较好,但是没有考虑速度,如果要作为实时检测网络还有待提高检测速度。
参考文献
[1] 张超凡.“猫眼效应”在激光主动探测中的实现[J]. 计量与测试技术,2007,34(11).
[2] 党二升,李丽. 激光探测“猫眼”效应目标识别算法[J]. 航空科学技术. 2011,6(59).
[3] Ximing Ren,Li Li.Recognizing “cat-eye” targets with dual criterions of shape and modulation frequency [J]. CHINESE OPTICS LETTERS,2011,9(1).
[4] Li Li,Jianlin Ren,Xingbin Wang Fast cat-eye effect target recognition based on saliency extraction[J].Optics Communications 350(2015)33–39.
[5] Wang X,Shrivastava A,Gupta A.A-Fast-RCNN:Hard positive generation via adversary for object detection[C]// Proceedings of CVPR 2017,2017.
[6] GIRSHICK R. Fast R-CNN / / Proc of the IEEE International Conference on Computer Vision. Washington,USA:IEEE,2015:1440-1448.
[7] REN S Q,HE K M,Girshick R B,et al. Faster R-CNN:Towards Real-Time Object Detection with Region Proposal Networks. IEEE Transactions on Pattern Analysis and Machine Intelligence,2017,39(6):1137-1149.
[8] REDMON J,DIVVALA S,GIRSHICK R,et al. You Only Look Once:Unified,Real-Time Object Detection / / Proc of the IEEE Conference on Computer Vision and Pattern Recognition. Washington,USA:IEEE,2016:779-788.
[9] LIU W,ANGUELOV D,ERHAN D,et al. SSD:Single Shot Multibox Detector / / Proc of the 14th European Conference on Computer Vision. New York,USA:Springer,2016,I:21-37.
[10] Selvaraju R R,Cogswell M,Das A,et al. Grad-cam:Visual explanations from deep networks via gradient-based localization[C]//Proceedings of the IEEE International Conference on Computer Vision. 2017:618-626.
作者簡介:王玥:女,1995 8 2,北京,汉族,北京航空航天大学,硕士,研究方向:图像处理。