论文部分内容阅读
随着个人媒体设备的普及和第二代互联网技术的发展,互联网中的图像数量急剧增长。如何快速有效的组织和管理这些图像成为一个研究热点。而对图像的组织和管理离不开对图像内容的理解。近些年比较热门的研究方向如图像检索,图像标注,图像分类,物体识别都基于对图像内容的理解。作为一个二维数据,图像中存在丰富的空间分布信息,包括图像中包含的物体之间的空间关系和物体本身的空间结构。这些空间信息对于图像的检索和分类有很重要的意义。本文围绕图像中空间信息的表示和提取方法对图像检索和图像分类,以及物体识别进行了研究。论文的主要工作与创新体现在以下几个方面:1:提出了一种自动的图像空间关系提取和表示法,并将其应用到图像检索之中。传统的基于空间关系的图像检索是基于人工标注了物体位置和种类的图像库,不适应现有海量数据的互联网图像检索。文中给出了一种图像空间关系的表示法,并给出了基于物体识别的自动提取算法,进而给出了其索引匹配和查询排序等相应算法。有别于人工标注结果,目前物体识别技术尚不完善,存在大量的误判。本文给出的算法优点在于它对识别误判有很好的鲁棒性。文中还给出了一个原型系统及其排序性能的评测。实验证明,该系统在NDCG@m,MAP等测度上均优于现有同类系统。2:针对图像分类问题,提出了一种对图像拍摄角度不一致的情况有较好鲁棒性的空间圆塔匹配模型。对于体积较小的物体,人们对其拍照时的拍摄视角往往较为随意,而视角不同时物体的外观往往不同,进而使同类图像的距离变大。本文对目前较成功的空间金字塔匹配模型(Spatial Pyramid Matching,SPM)的层次结构进行了改进,提出了一种圆塔匹配模型(Spatial Tower Matching, STM)。该模型对金字塔模型的改动较小,同时并未增加金字塔模型的计算复杂度,但在Caltech-101, Caltech-256和15-Scenes三个标准数据集的实验表明,该模型对金字塔模型的分类性能有较显著的提升。而同期发表的金字塔模型的其他改进算法,在计算复杂度明显增加的情况下,分类性能改进微小。3:针对图像分类问题,提出了另一个对图像拍摄视角不一致有较好鲁棒性的旋转不变性金字塔匹配模型(Rotation-Invariant Pyramid Matching, RISPM)。文中首先使用边缘提取和梯度统计得到图像的主方向,然后使用一个新颖的平滑旋转算法对图像的主方向进行归一化。最后结合传统金字塔匹配算法对旋转后的图像进行分类。文中对图像旋转算法进行了优化,预先计算了的旋转映射矩阵,因而在图像分类时,平滑图像旋转对金字塔匹配的效率影响微小。这种算法与金字塔匹配算法较为独立,因此可以和其他同类算法结合使用。实验使用Caltech-101、Caltech-256和15-Scenes三个数据集进行评测。实验表明,结合了图像主方向归一化的SPM算法图像分类性能显著提升。4:传统有监督的物体识别算法需要人工对训练数据集中图像的物体种类和位置进行标注,消耗大量人力且通用性差。文中给出了一种无监督的物体识别算法:使用改进的LDA模型对可视字进行主题分析进而区分出物体和背景,使用高斯混合模型对物体的形状和位置进行描述以便于对物体的位置和大小进行估计。实验表明,其准确率优于现有同类算法。