论文部分内容阅读
场景图像分类在图像检索和视频检索领域得到广泛的应用,已成为计算机视觉领域的一个研究热点。场景图像分类的主要难点问题是低层视觉特征与高层语义之间存在―语义鸿沟‖。近年来,基于视觉词包(BOW)模型的图像中层表示方法很好的解决了该问题,得到广泛的关注。本文主要围绕场景图像的低层视觉特征提取算法,以及中层表示方法进行了研究。具体研究内容如下: 首先,为了提取具有更多空间上下文信息的图像特征,提出一种结合HOG算法和Gabor算法的改进的Gabor特征方向直方图局部特征提取算法。HOG算法采用密集的网格和相互重叠的局部区域块提取图像特征,增加了相邻区域间的相关性,使特征包含更多的上下文信息,且具有良好的局部不变性。但HOG算法只能提取水平方向和垂直方向的梯度特征,而 Gabor算法可以提取多方向和多尺度的Gabor特征,所以本文基于HOG特征的提取过程,结合Gabor算法提取图像多方向和多尺度的Gabor特征。最后,采用BOW模型对场景图像进行分类,分类结果不仅证明改进后的特征提取算法比改进前有更好的分类效果,同时也证明了BOW模型不能有效区分不同场景中存在相同对象的图像。 其次,为了能更好的区分不同场景中存在相同对象的图像,本文构建了基于子空间相似度算法的场景图像分类模型。该算法首先分别对每一类图像建立视觉词典,这样得到的视觉词典中暗含了类别标签,有利于区分不同场景中相同对象的差异。然后,对每类视觉词典应用核主成分分析(KPCA)算法构建最能表征该类视觉词典的子空间,同时利用 KPCA算法的核函数来度量输入特征与每一类子空间的相似度,使用输入图像到子空间轴的平均投影长度作为图像的中层表示特征对图像进行分类。本文通过一系列比较实验验证了子空间相似度算法的分类效果,同时分类结果体现了彩色信息对于自然场景图像分类的重要性。 最后,为了进一步提高场景图像的分类精度,本文引入彩色特征,并且使用四元数奇异值分解(QSVD)算法来提取图像的彩色特征。本文用四元数矩阵表示一幅彩色图像,然后对图像的四元数矩阵进行奇异值分解,将分解得到的第一个特征图像作为原图像的彩色特征。最后,论文通过比较实验说明了彩色特征有利于提高场景图像的分类精度,且四元数奇异值分解算法提取的彩色特征比RGB模型分三个通道分别提取的图像特征有更好的分类效果。