论文部分内容阅读
高效地从海量多媒体数据中检索出用户感兴趣的数据,是当下的研究热点。对于图像检索,传统的检索方法主要是通过关键词或者描述来进行检索,实际上是文本检索,其检索准确率不尽如人意。基于内容的图像检索算法在十年前已经开始研究,目前Google等已有应用,但其准确率和速度都需要改进。位置敏感的哈希算法(LocalitySensitive Hashing,LSH)是基于图像内容的检索算法之一,也是较流行的近似最近邻检索算法。LSH是基于图像特征的算法,在处理高维特征数据的情况下,也取得较好的结果。Hadoop云平台是目前比较流行的云平台,它主要由两部分构成。一是分布式文件系统(Hadoop Distributed File System,HDFS),二是并行计算模型MapReduce框架。HDFS通过将数据分布式存储在集群的多个结点上,以此来提供高容量的存储,可以比较好的存储海量数据;MapReduce框架,将任务分割成多个子任务并分配到多个节点上进行计算,通过这样的并行计算模型,来提高计算的效率。本课题主要研究Hadoop平台下的图像检索算法。图像数据集分布式存储在Hadoop平台上,通过建立Hadoop平台上的图像数据集索引文件,实现快速地图像内容检索。本文提出了基于图像全局特征(GIST特征)的LSH图像检索优化算法,即通过相对欧式距离公式、最大相异系数函数和子向量空间上的最大相异系数、创建索引文件以及进行计算精确距离的二次检索对LSH算法进行优化,然后在Hadoop平台上通过MapReduce并行计算框架设计实现该算法。此外,还设计了基于图像尺寸不变特征(Scale-invariant feature transform,SIFT)的LSH算法和基于图像“词袋”模型(BagofWord,BoW)的倒排索引文件算法,并在Hadoop平台上实现这两个算法。本文通过大量实验,分析对比以上三个算法的查准率、查全率和时间性能。实验结果表明,将上述三个检索算法实现在Hadoop平台上可以较快地进行响应并且有较好的检索结果。其中,基于图像SIFT特征的LSH算法查准率最高,查全率最低,同时算法的运行时间最长;基于GIST特征的LSH算法的查准率较高,查全率最高,算法的运行时间最短;基于图像BoW模型的倒排索引算法查准率最低,查全率较高,算法运行时间较短。