论文部分内容阅读
场景分类是根据给定的一组语义类别对图像进行自动标注,对于物体识别、基于内容的图像检索、图像滤波和图像增强等都有很大的帮助。但是,由于图像中存在着光照、尺度、旋转、视角和姿态等多种变化,正确地识别场景类别难度很大。本文对场景分类技术进行了研究,分别提出了一种基于金字塔图像表示的SIFT视觉单词特征降维的场景分类方法和一种基于多特征降维融合的场景分类方法。经研究发现,在进行场景分类时,使用的高维图像特征中总会包含一些冗余信息或噪声。这不但会增加场景分类系统中分类器的学习复杂度,还会影响到分类的准确率和效率。因此,本文提出在场景分类中对特征进行降维处理。本文首先提出了一种基于尺度不变特征变换(Scale InvariantFeature Transform,SIFT)特征视觉单词(Visual Word)降维的场景分类方法。首先把图像划分成大小相同的子块,基于子块提取特征。在本文方法中,基于三种不同大小的子块提取特征共同表示图像,即提取了三个尺度的特征。并使用词袋模型和稀疏编码得到子块的编码表示,然后利用空间金字塔把图像划分为不同区域,通过特征合并得到每个图像区域的特征表示,对所有区域同一视觉单词的特征分别进行降维,最后拼接降维后的特征向量得到整幅图像的表示。实验结果表明,对基于空间金字塔表示的图像进行视觉单词降维,不仅利用了图像的空间信息,还去除了其中的冗余信息和噪声,进一步降低了分类器输入向量的维度,使分类器可以得到更好的学习效果,从而提高场景数据集的平均识别准确率(Average Recognition Accuracy)。本文方法在Scene-8场景图像库上的平均识别准确率达到89.5%;在Scene-15场景图像库上的平均识别准确率达到84.0%,比已有方法高出了3.0%-3.7%。本文还提出了一种基于多特征降维和融合的场景分类方法,对每个特征的视觉单词降维后再进行加权融合,并对不同特征分配不同的权重。这有利于更好地表示图像信息,提高场景分类的准确率。实验结果表明,本文方法在Scene-8场景图像库上的平均识别准确率达到90.5%;在Scene-15场景图像库上的平均识别准确率达到86.5%,比已有方法高出了3.0%。