论文部分内容阅读
词袋模型在图像分类领域中的分类效果主要受限于局部特征的量化误差。针对这一点,本文提出一种基于多尺度全局编码图像分类方法,有效减少特征量化误差。文中通过使用多尺度特征密集采样,构建多尺度码本,使码本具备一种层次结构,通过充分利用图像特征的流形结构,计算码本全局信息,实现全局编码。通过本文方法得到的编码系数比较平滑和准确。最后本文使用多路径方法,分别将不同尺度的特征表示进行级联,得到最终的图像特征表示。这种特征表示具备了一定程度上的尺度不变性。在UIUC-8、Scene-15和Caltech-101三个常用的标准图像数据集上进行的测试中,分类准确率分别达到了88.0%、83.9%和83.1%。实验结果表明,相比于基于固定尺度码本的局部编码方法,本文方法在分类识别率方面有了显著提升。本文取得的研究成果为以下几点:首先本文提出了基于多尺度码本的多尺度特征学习方法。该方法基于词袋模型码本空间结构,提出了一种多尺度码本,在完善码本结构的同时增强了码本描述能力,减少了特征量化误差。在码本多尺度化的基础上,本文采用了多路径编码,使特征表示多尺度化,有利于得到图像各个层次的信息内容。其次本文充分利用多尺度码本的描述能力,采用一种全局编码方法,在具体的编码过程中加入了全局信息,将局部编码转换为全局编码,进一步减少了特征量化误差,使特征编码结果更为平滑,特征表示更为精确。由于全局编码对K近邻值的变化较为鲁棒,无需针对图像集寻找最优的K近邻值即可达到最优的分类效果。最后本文将多尺度特征表示与全局编码两种方法相结合,提出了基于多尺度全局编码图像分类方法,并通过实验分析了本文方法的复杂度和影响因素。本文在多个图像数据库上进行测试,证明了本文方法的有效性,同时分析了本文方法的优势和不足。