论文部分内容阅读
当前信息技术快速进步,图像数量与日俱增,伴随而来的是关于图像研究的众多课题飞速发展,如图像标注、3D重建、图像检索、图像分类、图像标签推荐等,其中图像分类研究已成为图像研究领域的热门课题。词袋模型作为图像分类研究领域中最成功的模型之一,已越来越受到大家的重视。但是,词袋模型的最大缺陷就是认为视觉单词特征彼此独立存在,丢弃了视觉单词之间的空间位置信息。研究发现,这种视觉单词之间空间信息关系对提高图像表示性能非常重要,丢弃后会很大程度上降低分类效果。本文针对此问题,提出解决方法,研究成果如下:1.针对词袋模型视觉单词特征中缺乏空间位置信息这一缺点,提出了空间矢量模型。该模型根据空间矢量原理,利用视觉单词的坐标位置,将图像视觉单词特征转化为空间矢量模型,用空间矢量矩阵表示图像。最终在图像描述中加入空间信息,进而有效地提高了表达图像的能力。2.根据空间矢量模型,将图像转化为视觉短语特征描述,以视觉短语直方图形式表示图像。并进一步提出视觉语言模型,该模型是在视觉短语特征形成后,与词袋模型的视觉单词特征进行结合,形成视觉语言特征,进行SVM分类。3.根据空间矢量模型,提出直接利用空间矢量矩阵比较的方式,并与词袋模型结合进行KNN分类。K值方面,采用交叉验证选择最佳K值;权重方面,通过测试图像矢量矩阵与训练图像矢量矩阵相同行数来分配权重,相同行数越大,对应权重越大。4.为了消除图像旋转对图像分类的影响,在空间矢量矩阵的基础上提出了矢量模的方法。矢量旋转时,矢量的方向虽发生改变,但长度不变。因此采用矢量的大小,即视觉单词的距离,来表示图像,就可以达到旋转不变性。本文实验在Caltech101和Caltech256数据集上进行,在Matlab环境中,利用本文方法进行图像分类,并与其它分类方法对比。实验采用的评价标准是平均分类正确率ACA和平均类别准确率ACP,采用的分类器是SVM和KNN。实验证明,空间矢量模型有效提高了ACA和ACP,具有很好的分类效果。