论文部分内容阅读
合理的高维索引机制是提高大规模图像库基于内容检索性能的关键,然而,由于受到“维度灾难”的影响,传统的索引结构在处理高维数据时,性能急剧下降。针对上述问题,本文以大规模图像库的基于内容检索为应用背景,围绕图像特征的“高维”特性,以高维空间的子空间为出发点,研究了图像高维特征数据的索引问题。在相关研究的基础上,论文首先明确了高维数据索引所要解决的主要问题,提出了高维索引的研究框架,然后针对该框架中的相似性度量、聚类和降维分别进行了研究,并最终提出了一个可适用于大规模图像库基于内容检索的高维索引机制。论文的贡献主要体现在以下几个方面:提出了一种基于子空间的高维数据相似性度量方法。传统的度量方式都在数据集的整个特征空间中计算数据之间的相似性。在高维情况下,如果仍然采用这些度量方法,数据特征中的噪声维将对度量的结果产生显著的影响,从而导致度量结果的不准确性。针对该问题,本文提出了一种基于子空间的相似性度量方法,该方法在高维特征空间的一些子空间中度量数据之间的相似性,从而能够克服高维数据中的噪声属性对度量的影响,以获得更准确的相似性度量结果。提出了一种基于密度的子空间聚类方法。在高维空间中,由于数据的稀疏性,传统的聚类方法难以有效地聚类高维数据。针对该问题,本文提出了“维度最大化子空间聚类”的概念,并在此基础上提出了一种基于密度的子空间聚类方法。该方法将子空间聚类的思想与基于密度的聚类思想有机结合起来,充分利用了基于密度的聚类方法能发现任意形状聚类的优点,同时也有效克服了“维度灾难”的影响,算法在聚类的规模与聚类所在的子空间的维数之间进行了合理的折衷,从而使得聚类的结果能够为高维数据索引的建立提供更加完整、准确的依据。提出了基于子空间聚类的高维数据索引结构以及对应的相似搜索算法。基于密度的子空间聚类方法能够形成任意形状的不规则聚类,而传统的基于中心点的聚类表示方法往往无法有效地表示这些聚类。针对该问题,本文基于代表点的思想,采用多个代表点来表示一个聚类,并给出了聚类代表点的选择方法,从而建立了基于子空间聚类的索引结构;在基于该索引结构的相似搜索中,针对样本对象与子空间聚类的匹配问题,提出了样本对象与子空间聚类的匹配方法,该方法通过一个校正因子很好地解决了聚类存在于不同子空间的问题,从而有效地克服了聚类所在的子空间的维数对匹配过程产生的影响,提高了相似检索的合理性。提出了一种基于个体本征维的降维索引机制。传统的降维方法大多从数据集的整体特性出发,把数据集中所有的数据点都降维至一个统一的子空间中,将它们直接用于高维数据的索引将会由于过高的信息损失而影响相似搜索的性能。针对该问题,本文提出了基于个体本征维的降维思想,并针对图像的72维HSV颜色特征,提出了一种基于个体本征维的降维索引方法。相对于子空间聚类而言,该方法从减少相似搜索计算量的角度出发,很好地解决了高维数据的索引问题。综上所述,本文主要针对图像特征数据的高维特性,研究了基于内容图像检索中的高维索引问题。由于“维度灾难”的影响,很难在整个特征空间中来度量高维数据的相似性并据此建立高维数据的索引结构。以此为出发点,本文从子空间的角度分别研究了高维数据的相似性度量和聚类,并从个体本征维的角度研究了高维数据的降维问题。这些研究为克服“维度灾难”的影响提供了有效的手段,并为面向大规模图像库的高维索引机制的建立提供了可行的解决方案,对于相关的研究具有重要的理论及实践上的参考价值。