论文部分内容阅读
图像目标检测是一项应用广泛的计算机视觉任务,它为图像理解及许多复杂计算机视觉任务提供了基础。基于深度卷积网络的目标检测方法是当前热门的研究方向之一,从技术路线上主要可以分为一阶段模型和二阶段模型。前者平衡了速度与检测精度,在工业界应用广泛;后者追求检测精度,在各项视觉竞赛中名列前茅。本文研究基于经典的一阶段模型Single Shot Multi Box Detector(SSD)的框架展开。针对通用目标检测任务,对于如何在保持运行速度的前提下提高模型检测精度的问题展开了深入研究,主要内容如下:(1)提出了一种结合通道注意力机制的特征融合方法(The Reversed Fusion Block with Attention,A-RFB)。该方法以模块化的形式对一组分辨率相差一倍的高低层特征图进行融合,进而在卷积网络的后端形成一个反向的特征金字塔。在每一个特征融合模块中,首先使用反卷积操作扩张高层特征图,再与低层特征图做哈达马积(逐元素相乘),最后通过注意力机制网络对融合特征进行重标定。A-RFB将网络高层的抽象语义信息融入到低层的特征图中,提高了模型的检测精度,并显著改善了小目标检测的性能。本文通过结构原理分析和实验验证摒弃了一些可能冗余的操作,使A-RFB的结构简洁有效。结合A-RFB的SSD模型能够以仅损失5%FPS为代价获得检测精度的提高,在速度上远胜SSD作者结合特征融合提出DSSD(Deconvolutional Single Shot Detector),而且精度上只落后了0.1%。另外,本文实验还证明了A-RFB对使用轻量级的Dense Net和Mobile Net v2作为主干网络的一阶段模型同样具有提升检测精度的作用。(2)受图像分类领域的mixup数据增强方法启发,本文提出了适用于训练SSD框架下目标检测模型的混合数据增强方法。依据邻域风险最小化的原则,本文基于图像的线性插值通过特征变换后可以表达为标签向量的线性插值这一假设,通过混合叠加随机的两张训练图像,对不同类别的样本之间的领域关系进行建模,从而提高模型的泛化能力。本文通过分析实验结果和模型原理,提出了用混合系数对分类标签加权、保留真值边界框、设置混合阈值、结合随机裁剪等一系列训练规则。使用本文的混合数据增强方法,能够在不改变任何网络结构的情况下,有效提高模型的检测精度。同时使用A-RFB和混合数据增强可以将SSD的检测精度大幅提高,超过了一系列先进的SSD改进模型。