论文部分内容阅读
提取与类别无关的候选区域是计算机视觉领域众多任务都面临着的一个基础性的问题,在图像分类、目标检测、图像问答系统中都有广泛的应用。在目标检测领域,基于候选区域的神经网络可以达到当前最好结果,也成为目标检测的主流方法。候选区域生成算法是一种加速目标检测的高效方法,能够极大地提高目标检测中分类器的效率。候选区域生成算法需要在类别未知的情况下输出图像中可能存在目标的区域,可利用的先验信息非常少,是一项非常有挑战性的工作。一些方法在先前研究工作中被广泛使用。最简单的是滑动窗口方法,该方法需提取106~107个包围框,由于包围框数量太多,对包围框区域进行特征提取和分类时的计算量很大,极大影响了目标检测的效率。应用最广泛的是基于图像低层特征的方法,主要有Selective Search方法和Edge Boxes方法,虽然在包围框数量上大量减少,但是由于缺少图像高层语义信息,导致平均召回率很低。在最近基于神经网络的方法中,最有代表性的是Sharp Mask方法,使用Mask区域能够达到较高的平均召回率,但是没有考虑包围框位置优化的问题,在包围框定位方面仍有较大提升空间。本文以基于区域的卷积神经网络目标检测框架为前提,以高效的通用性候选区域生成算法为研究目的,围绕如何生成较少较为精确的与类无关的候选区域进行展开。针对初始窗口中负样本过多的问题,使用了目标性实例分割和小尺寸窗口相结合的方式,减少噪声窗口的引入;针对基于神经网络的Sharp Mask方法定位不准确的问题,使用了Attractio Net方法中的位置优化模块,在优化过程中加入了聚类分析和结合分数的动态区域搜索,进一步提高位置优化模块的定位准确性;针对后处理阶段错误包围框的筛选问题,使用了置信度衰减和加入先验知识的方法,提高候选区域对图像中目标的命中率。实验主要使用VOC和COCO数据集,实验结果验证了改进后的方法能有效地提高候选区域的平均召回率,以及目标检测的精度和效率。在平均召回率方面,相对Sharp Mask方法在不同指标上有大约7~12%的提升,相对Attractio Net方法在各种尺寸指标上有大约1~2%的提升。在Multi Path目标检测框架下,使用优化后的20个包围框可以达到优化之400前个包围框的检测精度,一定程度上提高了目标检测中分类器的效率。