论文部分内容阅读
随着因特网的普及和数字技术的进步,包括图像在内的大量多媒体资源散布于因特网的各个节点上,如何有效的组织和检索多媒体数据成为一个重要的研究课题。本文着重研究了图像检索中的特征表示和高维数据的索引方法。图像检索可以分为两类:基于文本的图像检索和基于内容的图像检索。早期的图像检索以基于文本为主,该方法主要是通过输入关键词的形式搜索相关的图片资源,这种方法必须事先以文字信息标注图像,所以工作量较大,标注信息也影响检索的准确性。随后基于内容的图像检索(CBIR)逐渐得到发展,该方法直接提取图像的视觉信息特征,并直接利用这些视觉特征建立索引或检索。本文首先重点研究了图像的视觉特征表示方法,图像的视觉特征通常分为全局特征和局部特征,局部特征能够捕捉图像的细微变化,对遮挡、变形都有一定的鲁棒性,其中SIFT特征(Scale Invariant Feature Transform)和MSER特征(Maximally Stable Extremal Regions)因其卓越的性能和检测速度快的优点而被广泛使用。本文详细地分析和研究了这两种局部特征的检测方法和描述算子,在此基础上提出了一种图像的融合特征表示。融合特征把三种局部特征SIFT、MSER和moment invariants有效地结合在一起,极大地提高了特征的区分性和显著性。针对融合特征的具体特点,本文又提出了高效的由粗到精的分级匹配策略。本文研究的另一个重点内容是高维图像数据的索引机制。通常,图像的特征表示都是几十甚至上百维的高维矢量,使用合理的高维数据索引方法将提高大规模图像数据库的检索效率,但是,由于受到“维数灾难”问题的影响,传统的索引方法(例如R-tree等)在处理图像的高维数据时,性能急剧下降,甚至出现不如线性搜索(又称顺序搜索或穷尽搜索)的情况,而局部敏感哈希(locality sensitive hashing, LSH)索引则表现出卓越的性能,成为最受欢迎的高维数据索引方法之一。LSH完全从另外一个角度建立索引结构:首先将高维数据点投影到某个特征空间,然后从哈希函数簇中随机选择k个哈希函数,如果两个(或者更多的)高维数据点在这k个哈希函数上映射为相同的值,则会被认为可能是近邻而散列到同一个哈希桶中,对查询数据点做相同的散列,线性搜索与查询点发生冲突的桶,将会以较大的概率得到查询点的近邻。哈希函数的表达形式与图像问的相似性测度是对应的,第2章介绍了四种常见的哈希函数形式。结合机器学习中的弱监督学习技术(weakly supervised learning technology),本文提出了两种构造LSH函数的算法,第一个算法是在M.Datar等人提出的欧氏LSH的基础上,利用少量的相似样本对(similar sample pairs)优化选择哈希函数,进而构建更好的局部敏感哈希函数。第二个算法利用少量的相似样本对直接生成哈希函数,该方法去除了哈希函数的随机性。本文又提出了一种基于数据分布信息生成哈希函数的方法,该方法不需要标记样本,而是根据数据点的分布情况选择哈希函数的投影轴,减少了哈希函数的随机性,同时保证了投影轴之间的正交性,该方法也有效地降低了算法的空间复杂度。本文提出三种改进的LSH索引方法具有现实意义,虽然互联网提供了大量的图像资源,但是这些图像往往没有标注,或者标注信息不具体、不准确。集中标注大量的数据往往要付出高昂的代价或者是不现实的,实际的情况经常是直接使用没有标记的数据,或者同时使用大量的未标记数据和少量的标记数据,基于数据驱动和基于弱监督的LSH方法则适应了这一特点。大规模图像检索对存贮资源的需求相对较多,而内存的容量是有限的,如果实现完全在内存中完成索引的存贮和查找将会极大地提高图像检索速度。本文的实验结果表明改进的LSH方案有效的降低了内存的使用量,性能也很接近线性搜索方法。