论文部分内容阅读
随着互联网、多媒体技术以及计算机视觉的快速发展,衍生出了大量的多媒体数据,这些数据多以图像、视频的形式呈现。一方面这些图像充斥于数字网络中给人们提供了丰富的共享资源和绚丽的视觉体验,另一方面,在面对纷繁复杂的海量图像时如何对其进行组织和管理,并快速准确的挖掘出我们所需要的信息成为一个现实而紧迫的问题。尽管图像检索从初期的基于文本关键词发展到了基于图像内容的检索(Content-based image retrieval,CBIR)方式,但是大数据环境下以图搜图的检索方式不仅继承了 CBIR的难点,包括特征描述的区分度,特征匹配的精确度和复杂度等,更催生了一些新的问题。因此一种基于内容的实现图像快速检索、并行处理、及时响应的图像检索方法成为了研究热点。于是,伴随大数据而生的云平台成了人们解决问题的一个新方向。作为面向研究者的开源平台,Hadoop因其独特的计算与存储优势,也开始被研究者用来解决各种问题。鉴于上述问题,本文开展了基于云平台Hadoop进行大规模图像检索的问题研究,利用Hadoop平台实现大规模图像的并行检索。本文将图像检索分为两个阶段:第一阶段是基于中层特征二值Fisher向量得到候选图像集合的"粗筛选"阶段;第二阶段是基于底层特征SIFT特征对候选图像集合进行重排序得到图像检索结果的"细排序"阶段。论文的主要工作包括如下几方面:(1)提出图像特征描述文件的合并存储,减少Hadoop对小文件的处理开销;提出对全局特征描述子Fisher向量的二值化表达,加速大数据环境下的图像特征比对;提出了分布式环境下缓存查询图像特征的实现方法,减少I/O访问量。在此基础上,在Holidays、Kentucky、FlickrlM数据集上进行了云平台Hadoop下的并行图像检索实验,并从文件组织方式、图像检索效率和图像检索准确率三个方面进行了分析与总结。(2)为了对比云平台下的图像检索,在单机上进行了基于倒排索引的图像检索测试,分别在Holidays、Kentucky、FlickrlM数据集上进行了单机下的图像检索实验。(3)将单机下的图像检索与云平台下的图像检索针对扩展性与实验性能两个方面进行了详细分析与深入讨论。实验表明,将Fisher向量和SIFT特征作为图像特征描述方式,云平台Hadoop下的大规模图像检索能够取得良好的图像检索效果,而且云平台下的图像检索可扩展性好且对一般图像的检索问题具有很好的适用性。因此,云平台下的图像检索具有广泛的应用前景及良好的发展趋势。