论文部分内容阅读
随着多媒体技术和计算机网络技术的发展,人们接触到的图像数据以前所未有的速度增长。面对海量的图像资源,如何有效地分析、组织和管理图像数据,实现基于内容的图像检索成为多媒体技术的研究热点。场景分类(Scene Classification)任务就是在这种背景下产生的。场景分类根据给定的一组语义类别对图像数据库进行自动标注,为指导目标识别等更高层次的图像理解提供了有效的上下文语义信息。其研究的难点在于如何使计算机能够从人类的认知角度来理解图像的场景语义信息,有效辨别图像场景类内差异性和场景类间相似性。本文在场景的中层语义表示的基础上,着重讨论了如何从场景图像中提出有效的视觉特征,弥合图像低层特征和高层语义之间的语义鸿沟。围绕该问题,本文取得了以下研究成果:提出了一种构建类别视觉辞典的场景分类算法,该算法使用互信息作为特征选择方法来构建类别视觉辞典。根据视觉单词对给定类别的贡献度,从全局视觉辞典中选择对给定类别贡献度高的视觉单词,组成该类的类别视觉辞典,进而生成类别直方图。最终的融合直方图由基于全局视觉辞典的全局直方图和基于类别视觉辞典的类别直方图通过自适应加权合并生成,这种加权合并方法可以使类别直方图和全局直方图通过互相竞争的方式来描述图像。融合直方图不仅可以保留全局直方图的的区分能力,而且通过类别直方图加强了不同类别的相似场景的区分能力,以克服不同场景类别间的相似性问题,提高分类正确率。提出了一种基于不同特征粒度的多尺度多层次场景分类模型(Multi-Scale Multi-Level Generative Model, MSML-pLSA)。该模型由两部分组成:多尺度部分负责从不同尺度的场景图像中提取视觉细节,构建多尺度直方图;多层次部分将对应不同数量语义主题的场景表示线性连接生成最终的场景表示一多尺度多层次直方图MSML-pLSA模型可以在一个统一的框架下整合了不同粒度的视觉信息和语义信息,从而得到更加完善的场景描述。提出了一种使用无监督学习方法提取上下文信息的场景分类算法,该算法将局部视觉单词扩展到上下文视觉单词。上下文视觉单词不仅包含了当前尺度下给定感兴趣区域(Region Of Interest, ROI)的局部视觉信息,而且还包含了ROI相邻区域和相邻粗糙尺度下与ROI同中心的区域包含的视觉信息。通过引入ROI的上下文信息,上下文视觉单词能够更加有效地描述图像场景的语义信息,从而减少了图像场景语义的歧义性,进而减少了场景分类的错误率。研究了基于词包模型(Bag of Words, BoW)表示的特征点的数量对分类正确率的影响。在构建词包模型的过程中,如何选取特征点,以便能更好地表征图像的视觉信息是一个非常重要的工作。在场景分类领域中有一个普遍认同的观点,即较大数量的特征点可以获得较高的分类正确率,但是该观点却没有被验证过。在词包模型的框架下,本文做了大量的实验来验证这个观点,本文采用了四种特征选择方法和三种不同的SIFT特征(Scale Invariant Feature Transform)来改变特征点的数量。实验结果证明特征点的数量可以明显影响场景分类的正确率。