Hadoop平台下基于BoVW模型的图像检索研究与实现

来源 :武汉理工大学 | 被引量 : 1次 | 上传用户:yaoshikyo
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
如今计算机技术的蓬勃发展,使得图像数量不断增大,图像语义信息也变得更加丰富,导致图像检索的效率问题日益突出。本文在大数据时代的背景下,针对传统基于单节点架构的图像检索方法效率低下的问题,基于BoVW模型具有原理简单且性能良好的特点,利用Hadoop平台具有优秀的大规模数据处理能力、良好的可扩展性和可靠性,实现分布式的图像检索。本文的主要研究工作如下:(1)针对Hadoop不适合处理大量图像小文件的问题,本文采用将大量图像小文件合并成SequenceFile文件的方法,提高Hadoop处理图像的性能。由于大规模图像的局部特征提取计算复杂、耗时长,实现了SIFT特征提取的并行化。(2)视觉词典的构建是BoVW模型的关键,针对传统的视觉词典构建方法效率低下的问题,本文从三个方面进行了改进。首先,利用局部敏感哈希函数在大数据挖掘中具有良好的保持高维数据相似性的特点,将其应用于海量高维特征向量的划分,通过从分区中选取样本点从而降低数据规模;然后,为了提高初始中心点的质量,采用并行化的最大最小距离算法优化初始中心点的选取;最后,在迭代时利用Combine函数对中间结果进行本地合并,减少Map节点和Reduce节点之间的传输量和计算量。实验结果表明,与传统的视觉词典构建方法相比,本文改进的并行视觉词典构建方法能够取得与之相当的检索效果,但是在构建效率方面能够提高一倍。(3)由于特征量化过程中每个视觉单词对图像的重要程度不同,本文实现了基于Hadoop的TF-IDF算法并行化。通过对图像的词频向量表示进行加权,提高了BoVW模型的描述能力。实验结果表明,与无权BoVW相比,加权BoVW能够提高图像检索的准确率。(4)针对海量高维稀疏向量之间相似度计算复杂的问题,本文设计了一种基于倒排索引的并行图像检索方法。根据生成的倒排索引文件并行计算两张图像之间共同包含的视觉单词的权重之和,得到图像之间的相似度。该方法不仅通过倒排索引技术降低了候选图像集的数量,而且通过并行化搜索,大幅度提高了图像检索的效率。如果集群节点数继续增加,图像检索的效率将达到更高。
其他文献
酿酒酵母中的乙酰辅酶A是酯类重要的前体物质,酯类物质作为我国白酒中重要的风味化合物,赋予白酒丰富的香味。本研究主要用于提高酿酒酵母中乙酰辅酶A的水平,并测定乙酸乙酯
统一客户接触系统是中国移动新一代业务运营支撑系统中的客户关系管理系统的一部分,它管理着中国移动的客户与移动公司各种渠道之间接触的生命周期。统一客户接触系统提供了
浅层坍滑是膨胀土边坡在大气干湿循环作用下必然发生的地质灾害,常给膨胀土地区工程建设带来极大困扰,探究其形成机理并设法获取该特定边界条件下膨胀土的真实强度成了工程界
在油田对于天然气的开发过程当中,二氧化碳对于各类设备的腐蚀问题较为严重。酸性气体对于采气系统的腐蚀已经成为影响气田安全快速开发的重要问题。针对以上问题,本文首先对
全氟辛酸(PFOA)是一种典型的全氟羧酸(PFCAs)化合物,是环境水体中的一类新型持久性有机污染物,研究PFCAs的降解机理对实验探索其有效降解的技术和方法具有重要的理论指导意义。本
生物质能的高效开发和利用对农林废弃物高值化利用、能源结构改善、环境保护和新农村建设等方面具有重要战略意义。生物质热裂解是生物质热化学转化技术的一种核心途径,可将
土壤盐碱化是全球性问题之一。根据盐碱化土壤所含盐的性质,其对植物所构成的胁迫可以分为盐胁迫、碱胁迫和混合盐碱胁迫。在自然界,土壤碱化往往与盐化相伴发生,盐胁迫与碱
近年来,在青海省祁连山多年冻土区成功钻获到天然气水合物实物样品,实现了我国陆上冻土区天然气水合物勘查的突破。该区地质构造复杂,天然气水合物实物样品主要赋存于中侏罗
煤层气作为重要的非常规能源,已经在我国得到了广泛的开采和利用。合理排采量是煤层气经济开采的重要决策依据,是提高煤层气井产气稳产期和采收率的关键,但是实际矿场生产中
随着社会的进步,能源的消耗量依然居高不下,在这些一次能源消耗中,煤炭占据着很重要的地位。但是大量煤矿企业的边角煤和众多遗留煤柱白白遗弃在地下,由于煤炭是不可再生资源