基于中层语义表示的图像场景分类研究

来源 :北京交通大学 | 被引量 : 58次 | 上传用户:pailfj
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着多媒体技术和计算机网络技术的发展,人们接触到的图像数据以前所未有的速度增长。面对海量的图像资源,如何有效地分析、组织和管理图像数据,实现基于内容的图像检索成为多媒体技术的研究热点。场景分类(Scene Classification)任务就是在这种背景下产生的。场景分类根据给定的一组语义类别对图像数据库进行自动标注,为指导目标识别等更高层次的图像理解提供了有效的上下文语义信息。其研究的难点在于如何使计算机能够从人类的认知角度来理解图像的场景语义信息,有效辨别图像场景类内差异性和场景类间相似性。本文在场景的中层语义表示的基础上,着重讨论了如何从场景图像中提出有效的视觉特征,弥合图像低层特征和高层语义之间的语义鸿沟。围绕该问题,本文取得了以下研究成果:提出了一种构建类别视觉辞典的场景分类算法,该算法使用互信息作为特征选择方法来构建类别视觉辞典。根据视觉单词对给定类别的贡献度,从全局视觉辞典中选择对给定类别贡献度高的视觉单词,组成该类的类别视觉辞典,进而生成类别直方图。最终的融合直方图由基于全局视觉辞典的全局直方图和基于类别视觉辞典的类别直方图通过自适应加权合并生成,这种加权合并方法可以使类别直方图和全局直方图通过互相竞争的方式来描述图像。融合直方图不仅可以保留全局直方图的的区分能力,而且通过类别直方图加强了不同类别的相似场景的区分能力,以克服不同场景类别间的相似性问题,提高分类正确率。提出了一种基于不同特征粒度的多尺度多层次场景分类模型(Multi-Scale Multi-Level Generative Model, MSML-pLSA)。该模型由两部分组成:多尺度部分负责从不同尺度的场景图像中提取视觉细节,构建多尺度直方图;多层次部分将对应不同数量语义主题的场景表示线性连接生成最终的场景表示一多尺度多层次直方图MSML-pLSA模型可以在一个统一的框架下整合了不同粒度的视觉信息和语义信息,从而得到更加完善的场景描述。提出了一种使用无监督学习方法提取上下文信息的场景分类算法,该算法将局部视觉单词扩展到上下文视觉单词。上下文视觉单词不仅包含了当前尺度下给定感兴趣区域(Region Of Interest, ROI)的局部视觉信息,而且还包含了ROI相邻区域和相邻粗糙尺度下与ROI同中心的区域包含的视觉信息。通过引入ROI的上下文信息,上下文视觉单词能够更加有效地描述图像场景的语义信息,从而减少了图像场景语义的歧义性,进而减少了场景分类的错误率。研究了基于词包模型(Bag of Words, BoW)表示的特征点的数量对分类正确率的影响。在构建词包模型的过程中,如何选取特征点,以便能更好地表征图像的视觉信息是一个非常重要的工作。在场景分类领域中有一个普遍认同的观点,即较大数量的特征点可以获得较高的分类正确率,但是该观点却没有被验证过。在词包模型的框架下,本文做了大量的实验来验证这个观点,本文采用了四种特征选择方法和三种不同的SIFT特征(Scale Invariant Feature Transform)来改变特征点的数量。实验结果证明特征点的数量可以明显影响场景分类的正确率。
其他文献
线损率为供电企业重要的经济指标,降低线损一直是供电企业的工作重点。本文作者结合自己的实践经验,介绍了配网的线损构成,对配网线损影响因素进行分析,并从技术和管理两方面
为寻找一种反映代谢性骨疾病骨吸收状态的灵敏特异的指标,作者采用多种层析技术从发细胞白血病患者脾脏部份纯化了一种TRACP,它与破骨细胞TRACP 极相似.以至在豚鼠使产生多
目前会计理论认为会计目标就是财务报告目标,事实上会计工作与财务报告有密切联系,但却是完全不同的两回事。把它们混为一谈,会给对会计信息的质量要求和财务报告目标的确定
船舶柴油动力操控系统位于船舶集中控制室和驾驶台附近,可以实现对动力推进装置的远距离调节和控制,对提高船舶自动化水平有重要意义。可编程逻辑控制器PLC具有结构小、性能
多模态生物特征识别技术为当今信息社会中身份识别提供了有效的途径,受到越来越多的研究者的关注。本文研究了多模态生物特征识别的特征层、分数层融合算法,在开集测试集上测