论文部分内容阅读
近年来,随着互联网中数字图像不断激增,如何在海量图像中迅速准确地进行分类显然已经成为亟需解决的问题之一。现有的许多图像分类方法一般是通过提取图像底层特征来获得图像视觉信息,但因图像之间存在差别,所以不同图像提取的底层特征数目一般不同。为提高不同图像间的比较性能,研究者们将应用在文本分类领域的词袋模型应用到图像分类领域,称为视觉词袋模型。视觉词袋模型首先对图像进行底层特征提取与描述,对提取出的特征进行量化得到视觉词典,随后将每幅图像表示成基于相同维数的视觉单词频率直方图向量,将该向量作为对图像的描述,最后将图像描述向量代入到分类器中进行分类。本文围绕视觉词袋模型,针对图像分类的问题,对视觉词袋模型的特征提取方法、词典生成方法以及图像表示方法等进行研究,具体研究成果如下:(1)为避免常规构建视觉词袋模型在选取梯度方向离散精度时存在的盲目性,以及不恰当的离散精度构造出的视觉词袋模型分类率不高的问题,研究了在视觉词袋模型中提取图像特征时梯度方向离散精度是否存在明显的阈值,使得选取该阈值时能构造出最佳的视觉词袋模型。基于面向稠密特征提取图像局部特征描述,选择不同的梯度方向离散精度分别进行大量的实验,实验结果充分表明存在一个明显、统一的阈值24,选择该阈值构造的视觉词袋模型能够得到最高的正确分类结果。(2)针对视觉词袋模型采用SIFT算法提取的特征点在区分度和代表性上不高的缺点,提出了一种基于Harris角点和dense SIFT特征加权的视觉词袋模型图像分类方法。采用快速密集网格划分对整幅图像提取dense SIFT特征,为获取特征更明显、更具有代表性的点,利用Harris角点检测算法对图像角点进行检测,以角点像素为中心提取该角点SIFT特征,并依据角点度为角点SIFT特征设置一定的权重,使角点SIFT特征相较于dense SIFT特征更加突出,以便更好地对图像进行描述。实验表明,该特征描述方法构造的视觉词袋模型能获得较高的分类正确率。(3)针对空间金字塔视觉词袋模型缺少对局部特征之间语义分布关系的表达,提出了一种基于语义短语的空间金字塔视觉词袋模型图像表示方法。首先,将局部特征映射为具有一定语义信息的视觉单词,通过统计局部特征邻域范围内其他相关特征点的语义分布情况来构造语义短语。其次,将语义短语采用稀疏编码进行量化生成语义词典,图像则表示成基于语义词典的空间金字塔式稀疏统计直方图向量。最后,将图像表示向量代入分类器中进行训练和测试。实验结果表明,该视觉词袋模型构造方法能够较大幅度地提高图像分类的准确率。