论文部分内容阅读
目标检测是计算机视觉领域一个非常富有挑战性的课题,也是许多计算机视觉应用的基础。它主要关注如何使电子设备能够快速,准确地从自然场景中捕捉并识别出人们关注的物体。它结合了图像处理,人工智能,模式识别等技术,在医疗,交通,军事,安防等领域有着广泛的应用。本论文首先对传统目标检测方法进行了分析。传统方法具有时间复杂度大,鲁棒性差,窗口设计冗余,需手工设计等缺点。随着人工智能的发展,基于深度学习的目标检测方法开始得到广泛的研究和应用。基于深度学习的目标检测方法首先通过卷积神经网络提取图片的特征,然后对提取的特征进行分析和检测。它具有检测速度快,精度高,无需手工操作等特点。但是rcnn[14]系列和yolo[2]系列这两种深度学习方法都具有人工预先构造先验锚框(anchor)的属性,过分依赖先验框的先验知识。而且引入anchor会带来参数调节困难,检测器泛化能力受限,正负样本失衡等问题。近两年来,学者们开始陆续研究抛弃预设框的目标检测方法,统称为基于anchorfree的目标检测方法。基于anchor-free的目标检测方法虽然新颖且有所进步,但在检测精度方面仍有不足,因此,本论文将继续研究基于anchor-free的目标检测方法,不依赖于预设的候选框或者是锚框,增强检测模型的普适性,提高目标检测的准确性。FCOS[3]方法是已有的anchor-free系列方法中精度和速度上的相对较好的方法,但FCOS方法中定义的中心度(center-ness)对低质量检测框抑制程度不足,而本文提出的area-ness能够更好地抑制低质量目标框的产生,惩罚远离目标框中心的像素点,增加靠近目标框中心点的像素点的贡献值。实验结果显示,本文提出的area-ness在FCOS方法上对抑制低质量框方面比center-ness更好,在coco数据集上m AP值提高0.2个点,达到44.9。深度学习中的卷积神经网络(CNN)例如残差网络(Res Net)等为了提高检测的准确度,大多会增加卷积神经网络的深度或宽度,导致最后的预测层获取到的特征信息量有限,从而很容易出现误检漏检的情况,尤其是小物体的检测。因此,研究者们提出特征金字塔网络(FPN)将底层的细节信息叠加到高层,增加预测层获取到的信息量,但它并未充分利用不同层之间的特征信息。而本文提出的自适应双流特征融合方法则可以将高层和底层的特征进行充分的融合,达到最佳的效果。实验结果表明,本文提出的自适应双流特征金字塔结构在特征融合方面比特征金字塔融合方法效果更好,在coco数据集上m AP值提高2.1个点,m AP值达到47.0,召回率达到36.7。