论文部分内容阅读
随着互联网、多媒体技术和计算机视觉的快速发展,海量的数字图像的处理成为日益现实而紧迫的问题,即如何从如此纷繁复杂的图像中快速的找到我们所需要的信息。近年来,主要以词袋模型(Bags of Visual Word,BOV)、卷积神经网络(Convolutional Neural Networks, CNNs)为代表的图像分类算法表现出的卓越的分类性能吸引了越来越多的研究者加入该行列。图像分类已成为组织管理图像数据的关键技术,然而由于图像的多样性和复杂性以及类内的差异性,如何更加准确全面地表示图像是困扰我们的问题,也激励着众多学者提出新的技术来解决,推动计算机视觉的发展。目前的图像分类研究工作主要集中在特征表示问题上,事实上,在特征提取阶段会得到成千上万的局部特征,并不是所有的特征都是有用的,例如那些位于图像背景区域的特征,产生冗余的同时也会产生干扰作用。因此如何进行有效的特征选择得到更具判别力的局部特征,为图像分类提供更有用的信息,成为图像分类研究中的重要问题。鉴于上述问题,本文基于BOV词袋模型提出了两种特征选择的方法,一种是基于显著区域的特征选择方法,另一种是基于目标检测的特征选择方法。将它们引入两种特征提取方法中:关键点检测DOG-Sift特征的提取和Dense-Sift特征的提取中。并将提取出的特征聚合成Fisher向量,来实现对图像分类结果的改进。本论文的主要工作包括以下几个方面:(1)基于显著区域的特征选择,采用侯晓迪的显著区域提取算法,利用得到图像中显著区域的边缘位置,将显著区域形成一个矩形包围框。利用关键点检测提取出包围框中的DOG-SIFT特征生成Fisher向量进行图像分类并分析结果;进一步,提取出包围框中的Dense-Sift特征生成Fisher向量进行图像分类并分析结果。(2)基于目标检测的特征选择,采用程明明的BING目标检测算法,得到图像中目标Object所在的box矩形框。利用关键点检测提取出box中的Sift特征生成Fisher向量进行图像分类并分析结果;进一步,提取出box中的Dense-Sift特征生成Fisher向量进行图像分类并分析结果。实验结果表明,将本文提出的两种特征选择方法应用到图像分类任务中,能充分利用目标物体在图像中的上下文信息,从而得到了更具判别力的图像全局特征表达,用简单的线性分类器就能取得很好的效果,并且这两种方法对目标单一、背景简单的图像分类有着很好的适用性。