论文部分内容阅读
目标检测广泛应用于图像检索、视频监控、军事侦察等领域,其任务是从复杂场景中自动标识出目标的分类信息与位置信息。鉴于传统的建模方法存在移植性差等问题,新近深度学习已成为研究目标检测的主要手段。为了提高基于深度学习的目标检测准确率,本文以目标分类与目标定位作为主要突破点进行了以下研究:(1)针对特征金字塔网络(Feature Pyramid Network,FPN)只能单向将高层信息融入低层信息,影响目标分类和定位的问题,提出基于双向特征金字塔的目标检测方法。首先,对图像预处理,扩充为统一大小;其次,采用FPN生成、融合多尺度特征映射图,并利用双向特征金字塔对特征映射图采用自下而上的反向侧边连接方法进行连接;然后,将连接后的特征映射图分别输入至区域建议网络(Regional Proposal Network,RPN)和RoIAlign池化层(Region of Interesting Align Pooling,RoIAlign Pooling),RPN对其提取边界框再输入RoIAlign Pooling;最后,根据损失函数对网络进行调整。该方法有效地双向融合了高层和低层的信息,成功解决了FPN单向融合造成的分类和定位不准确问题,提高了目标检测的准确率。(2)针对RPN在对建议框区分正、负样本采用单一阈值出现的误检框、过拟合及准确率提升有限造成定位不准确的问题,提出基于多阈值迭代区域提取的目标检测方法。首先,对图像进行预处理;其次,利用共享卷积层提取特征,再采用双向特征金字塔双向融合高、低层特征映射图的信息;然后,将特征映射图输入多阈值迭代区域建议网络和RoIAlign Pooling,多阈值迭代区域建议网络通过对建议框设定多个阈值来区分其正、负样本,并对正样本进行分类回归;最后,将多阈值迭代区域建议网络输出的建议框输入至RoIAlign Pooling,对提取的目标区域和信息进行回归和分类。该方法有效地区分了锚点框中的正、负样本,成功解决了单一阈值造成定位不准确的问题,使得检测目标的位置更加准确。