论文部分内容阅读
图像语义检索和分类是近年来的一个研究热点,是多媒体信息检索领域的一个重要组成部分,并受到越来越广泛的关注。由于图像语义具有的复杂性,在提取、表示和应用上都比较困难,因此,图像语义的检索和分类成为一个极具挑战性的研究课题。 早期的基于文本的图像检索方法存在着两大难题:一是对图像进行人工标注工程浩大;二是人工标注存在着主观性和不精确性。为此在20世纪90年代发展了基于内容的图像检索技术,通过自动提取图像视觉特征,并进行相似性匹配,来获得检索结果。该方法摒弃了基于文本的检索中需要对每幅图像进行人工标注的繁重工作,避免了人工标注的主观性。该项技术得到了迅速的发展,逐渐成为图像检索领域的主流技术,并开发了大量的检索系统。 但是,由于图像的底层特征与人类的理解之间存在着很大的差异,图像所包含的语义内容无法用图像的底层特征来准确表述,即在图像的底层视觉特征和图像包含的语义之间存在着“语义鸿沟”。针对这一问题,提出了图像语义检索和分类技术。图像语义检索和分类技术将语义信息与底层特征相结合,对图像进行检索和分类。该技术的重点在于如何提取、表达,以及利用语义信息。 本文对图像语义检索和分类课题中的若干问题进行了探讨,包括图像的语义提取、语义表示,以及图像语义检索和分类技术。 全文的贡献主要体现在以下几点: 1.提出了一种基于粒子群优化算法的图像语义分类方法。该方法利用提出的一种基于模糊粒子群优化算法(FPSOC),对图像进行语义分类。本文提出的方法采用粒子群优化算法对图像进行自动聚类,无需人工干预,且所需要的参数较少。一方面针对图像语义具有模糊性的特点,以及依据图像的特征向量来划分图像的类别具有一定的模糊性的特点,将模糊概念引入到粒子群优化算法中,从而可以更好的处理图像语义分类问题。另一方面,针对特征维数过高问题,采取了特征选择机制,并在图像的聚类过程中动态确定特征的重要程度。2.提出了一种基于粗糙模糊集的图像语义对象获取方法。该方法首先通过模糊化方法将图像底层特征构造为模糊数据立方体,然后利用粗糙模糊集的方法,对该模糊数据立方体进行处理,将图像分割成语义区域,获取图像的语义对象,用以生成图像包(bag)。本文定义了新的粗糙模糊集的依赖函数,并将新定义的粗糙模糊集应用于对图像的分割,从而获取语义对象。通常图像特征维数较高,对图像处理的效率和精度会有影响。该方法可以有效的处理图像的高维问题。另外,不同于传统的基于粗糙集的属性约简方法通常用来处理离散数据。本文提出的基于粗糙模糊集的方法可以直接用于处理连续数据。 3.提出了一种采用多示例学习的图像语义检索方法。该方法将图像语义检索转化成一个多示例学习问题。根据提出的语义层次模型,首先采用多示例学习方法获取图像简单语义,然后将简单语义映射为复合语义。该方法利用多示例学习问题来处理图像语义提取和检索,一方面由于多示例学习的高准确性可以得到较为准确的结果,另一方面由于多示例学习只需要知道每个包的标签,而无需知道每个示例的类别标签,故减少了对对象识别效果的依赖。同时,只需对整幅图像进行标注,而不用对图像中的每个语义对象均进行人工标注,简化了预处理过程。 4.提出了一种语义层次模型描述图像语义。该模型依据图像语义的粒度将图像自下而上表示成图像层、图像区域层、简单语义层以及复合语义层这四个层次,各层之间通过某种映射关系来映射。该语义层次模型利用不同的语义层来描述不同的语义粒度,可以更清晰的表述图像内容。同时,根据该模型的指导,可以先从底层特征中提取简单语义,再由简单语义映射到复合语义,克服了直接获取复合语义的困难。