论文部分内容阅读
随着互联网的高速发展,数字图像大量地出现在人们的生活中,其数量和类别都发生了大规模地增长。图像分类能够帮助人们有效地组织和管理图像,这种技术得到了越来越多的重视。在各种图像分类方法中,词袋模型作为一种基于局部特征的图像分类方法取得了很好的分类性能,因此得到了广泛的研究和应用。词袋模型的一个重要的研究内容是如何创建和优化视觉词典(视觉单词集),以便更有效的表示图像并提高算法的分类性能。其另一个重要研究内容是如何利用迁移学习提高算法在新图像类别中的分类性能。词袋模型的迁移学习不仅能避免在每一类新图像中词袋模型都需要重新学习的问题,还能适用于仅有少量样本的图像分类任务。本文以创建适合迁移学习的视觉词典为目标,研究视觉词典优化和改进方法,提出用局部空间信息将多个视觉单词进行组合构成视觉短语。这种视觉短语能更有效地挖掘和表示不同图像之间的共同特征,消除视觉单词的“语义歧义性”,并能迁移到新类别图像的视觉词典中。本文的研究内容分为两大部分:第一,研究如何获得有效并有判别力的视觉单词和包含空间信息的视觉短语,为图像分类提供必要的信息(特征的表面信息和空间信息);第二,在新类别的图像学习中,尤其是仅有少量图像样本时,研究如何利用已学好的图像类别知识,通过迁移视觉短语加快新类别图像的学习并提高分类性能。围绕上述内容,本文的主要研究工作和创新性体现在以下三个方面:第一,提出一种加权的最小冗余最大相关(Weighted minimal-redundancy-maximal-relevance,WMR-MR)准则。WMR-MR准则从信息论的角度出发,根据视觉单词与图像类别之间、视觉单词与视觉单词的相关性,综合评估视觉词典在分类过程中的相关性和冗余性。通过删除视觉词典中与类别相关性弱且与词典内其他单词具有冗余性的单词,优化视觉词典,既保留了富有判别力的视觉单词,又缩减视觉词典的规模。利用该准则可以用相对小规模的视觉词典完成对图像集的描述,并保持算法的分类性能,解决了视觉词典规模过大带来的计算复杂性高、单词之间存在冗余的问题。而且这种小规模的视觉词典为创建视觉短语,以及视觉短语的迁移学习建立了基础。第二,提出一种创建包含局部空间信息的视觉短语的方法。在提取图像局部特征的同时获取局部特征的空间位置信息,并依据局部特征之间的稳定的邻近关系建立视觉短语,获得能够表示局部空间信息的视觉短语模型。与全局空间信息相比,本文的包含局部空间信息的视觉短语能够更灵活地处理图像类内的变化,有较强的鲁棒性。而且,视觉短语有助于消除独立使用其中任一单词可能带来的歧义性,增强对图像描述的可靠性。描述图像局部特征表而信息的视觉单词和描述图像局部空间信息的视觉短语,共同构成图像分类任务的两条线索。由于不同类别图像的空间结构性不同,该算法可以通过设定权值对两条线索进行权衡,使之能够适用于不同类别图像的分类任务中。第三,提出一种基于视觉短语的迁移学习算法。提出采用视觉短语来描述不同类别图像之间的共同特征,充分利用已有的知识帮助新类别图像的学习。实验证明,与直接迁移视觉单词相比,迁移视觉短语能更有效地提高词袋模型的分类效果。在新图像类的学习过程中,算法通过循环迭代的方式调整所迁移的视觉短语,保留对新图像分类有益的视觉短语,使得分类器在新图像类中也能获得良好的分类效果。与重新学习视觉词典的分类算法相比,这种迁移算法有效地利用了已有知识,在新类别图像的训练样本较少的情况下,也能获得较好的分类效果。