论文部分内容阅读
在视觉词袋金字塔模型图像分类中,图像的最终表示形式为视觉单词频率直方图,模型并未充分考虑图像的空间信息,相同类别图像的相似性与不同类别图像的差异性并未在模型中得到充分表示;构建视觉字典后,算法直接对局部特征描述符进行编码,算法并未对视觉字典进行优化,造成该模型图像分类准确率的瓶颈。本文提出视觉词袋金字塔模型的多特征图像分类,在特征融合与特征编码两个方面改进,用以提高图像分类准确率。本文的主要研究如下:针对视觉词袋金字塔型忽略空间信息,本文提出LSC(Localized Soft-assignment Coding)编码的描述符方向特征,首先计算描述符在编码过程中所使用的视觉单词,然后寻找与之使用相同视觉单词编码的局部特征描述符,最后提取两局部特征描述符位置,以此形成描述符方向分布特征,进而完善模型的空间特征。进一步针对视觉词袋金字塔模型忽略空间关系,本文提出边缘方向特征,算法首先对图像进行边缘特征提取,将边缘特征以方向分布的形式进行表示,通过特征融合来增强不同种类图像之间辨别性,进而完善视觉词袋金字塔模型的全局信息。针对视觉词袋金字塔模型忽略的视觉单词相关性,本文对视觉单词筛选进行研究,提出视觉单词与视觉字典之间的相关性系数。相关性系数越低,则对应鉴别力越高,选择单词鉴别力高的视觉单词,进而对局部特征描述符进行特征编码,最后再提取描述符位置特征与视觉单词直方图,以此来提升模型的图像分类性能。针对视觉单词形成过程的随机性,本文提出双视觉单词筛选模型,由于视觉单词是通过描述符进行聚类所形成的,采用两次不同的初始聚类中心与迭代次数,对视觉单词的随机与不确定性进行改进,采用双视觉字典完成视觉词袋金字塔,提取视觉单词直方图、描述符方向特征与局部位置特征来改进图像分类。本文在MSRC、Caltech101、15Scene三个常用数据集验证,分别取得3.6%、1.5%与1.3%图像分类准确率的提升,实验也分别表明本文提出的描述符方向、边缘方向特征、视觉字典筛选与双视觉单词筛选对准确率性能的改进,进一步验证了本文多特征图像分类对特征融合与特征编码两个方面进行完善的可行性与有效性。