论文部分内容阅读
词袋模型(BOW)最早应用于文本文档的分类领域中,近年来,随着对词袋模型的进一步研究,以及模型本身具有简单有效的特点,使得模型广泛用于图像分类和图像检索中。但是现有的词袋模型方法存在以下问题,其一,在构建视觉单词时,将所有的SIFT特征用于聚类,而低鉴别力的SIFT特征会影响最终分类准确率;其二在构建视觉词组时,常用的KNN算法会造成视觉直方图过于稀疏。为了解决上述问题,本文提出了一种基于高鉴别力SIFT(Scale-invariant feature transform)特征和最小生成树的视觉词典构建算法。首先,利用类内相关系数和类间相关系数提取训练图像中高鉴别力SIFT关键点,其次,利用最小生成树构建高鉴别力SIFT关键点对,接着,分别对高鉴别力SIFT关键点和SIFT关键点对进行BSIFT编码,然后聚类得到视觉单词词典和视觉词组词典,最终,生成训练图像与测试图像的视觉单词直方图与视觉词组直方图,按两者的重要程度,分别乘以不同大小的权值并合并成联合直方图。论文首先详细介绍词袋模型的基本框架,然后介绍主流的图像底层特征提取算法SIFT,并根据SIFT算法提取的128维特征描述子在图像匹配以及聚类方面速度低的问题,提出二值化BSIFT方法,有效提高SIFT算法在图像匹配及聚类方面的速度。然后对训练图像得到的SIFT特征点进行高鉴别力SIFT特征点筛选,使用筛选后的高鉴别力SIFT特征构建词袋模型的视觉单词。接着对高鉴别力SIFT特征点利用最小生成树算法构建词袋模型的视觉词组,并根据图像视觉单词直方图和视觉词组直方图的不同重要程度,分别乘以不同大小的权值合并成联合直方图。在Caltech 101数据集上的实验表明,本文方法与主流词袋模型方法相比,本文算法的分类准确率要高于主流词袋模型方法。