论文部分内容阅读
图像分类是计算机视觉中一个比较经典而重要的课题,可用于图像及视频检索、数字化图书馆的管理和医学图像处理等领域。“视觉词袋”特征是常用的图像特征表示方法,近年来,受到研究人员的广泛关注。该模型首先提取局部特征并描述;然后,对图像特征描述子聚类处理,构建视觉词典;最后,统计整幅图像中出现的视觉词汇及其频率。本文从以下两个方面来研究视觉词袋模型:一、背景信息会干扰图像的分类性能,利用图像分割去除背景信息提取目标区域,对目标区域构建视觉词袋模型;二、已知训练集的类别信息在图像分类中是非常关键的信息,提出了一种利用已知训练集类别信息来构建视觉词袋模型的图像分类方法。主要具体工作如下:1、针对背景信息干扰图像的分类性能,本文尝试通过图像分割去除背景信息提取目标区域,提出了提取目标区域词袋特征的图像分类方法。首先,利用图像分割去除背景信息提取目标区域;其次,对目标区域构建视觉词袋模型;最后,使用支持向量机(SVM分类器)对图像进行分类。PASCAL VOC2006及PASCAL VOC 2010数据集上的实验结果表明,提取目标区域词袋特征的图像分类方法具有较好的分类性能。2、针对现有的图像分类工作没有考虑到利用已知训练集的类别信息进行优化视觉词典,提出了基于TF-CDF(Term Frequency-Document Frequency in Categor y)词袋模型的图像分类方法。首先,对图像提取SIFT(Sca le-Invar ia nt Feature Tra ns for m)特征并对SIFT特征聚类处理,生成视觉词典;然后,引入TF-C DF算法对每幅图像进行特征筛选,利用筛选出的词汇来描述图像信息;最后,使用s LDA(softmax Latent Dirichlet Allocation)模型进行图像分类。LabelMe和UIUC-Sport数据集上的实验结果表明,基于TF-CDF词袋模型的图像分类方法具有较好的分类性能。本文提出了两个基于词袋模型的分类方法,分别是提取目标区域词袋特征的图像分类方法和基于TF-CDF词袋模型的图像分类方法。四个真实数据集上的实验结果表明,本文的方法与现有方法相比,本文方法分类准确率高于传统的视觉词袋模型并具有可行性。