论文部分内容阅读
如今计算机技术的蓬勃发展,使得图像数量不断增大,图像语义信息也变得更加丰富,导致图像检索的效率问题日益突出。本文在大数据时代的背景下,针对传统基于单节点架构的图像检索方法效率低下的问题,基于BoVW模型具有原理简单且性能良好的特点,利用Hadoop平台具有优秀的大规模数据处理能力、良好的可扩展性和可靠性,实现分布式的图像检索。本文的主要研究工作如下:(1)针对Hadoop不适合处理大量图像小文件的问题,本文采用将大量图像小文件合并成SequenceFile文件的方法,提高Hadoop处理图像的性能。由于大规模图像的局部特征提取计算复杂、耗时长,实现了SIFT特征提取的并行化。(2)视觉词典的构建是BoVW模型的关键,针对传统的视觉词典构建方法效率低下的问题,本文从三个方面进行了改进。首先,利用局部敏感哈希函数在大数据挖掘中具有良好的保持高维数据相似性的特点,将其应用于海量高维特征向量的划分,通过从分区中选取样本点从而降低数据规模;然后,为了提高初始中心点的质量,采用并行化的最大最小距离算法优化初始中心点的选取;最后,在迭代时利用Combine函数对中间结果进行本地合并,减少Map节点和Reduce节点之间的传输量和计算量。实验结果表明,与传统的视觉词典构建方法相比,本文改进的并行视觉词典构建方法能够取得与之相当的检索效果,但是在构建效率方面能够提高一倍。(3)由于特征量化过程中每个视觉单词对图像的重要程度不同,本文实现了基于Hadoop的TF-IDF算法并行化。通过对图像的词频向量表示进行加权,提高了BoVW模型的描述能力。实验结果表明,与无权BoVW相比,加权BoVW能够提高图像检索的准确率。(4)针对海量高维稀疏向量之间相似度计算复杂的问题,本文设计了一种基于倒排索引的并行图像检索方法。根据生成的倒排索引文件并行计算两张图像之间共同包含的视觉单词的权重之和,得到图像之间的相似度。该方法不仅通过倒排索引技术降低了候选图像集的数量,而且通过并行化搜索,大幅度提高了图像检索的效率。如果集群节点数继续增加,图像检索的效率将达到更高。