基于Hadoop的海量图像检索的设计与实现

来源 :东华理工大学 | 被引量 : 0次 | 上传用户:sentimantal
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
近几年来,人民的生活水平日益提高,人民的生活质量不断增加,正在步入小康社会的大众,已经不满足于物质的要求,日益追求新的精神追求。人们日渐喜欢旅游、踏青等活动。现代各种数码相机、摄相机以及各种互联网设备软件的普及在很大程度上方便了人们的外出等照相的要求。不仅如此,近几年来蓬勃发展的网络,其图像数据也在无限的增长,比如众所周知的Facebook,图像的总容量已经达到1.5TB。图片作为最有感观的信息源之一,其数量呈指数增长,传统的相片检索技术已经不满足于快速增长的海量数码相片的处理需求。因此,从杂乱无章、数量庞大的数据中高效、快速的处理检索图片是当今社会的需求。随着数据量的无限增加,传统的技术框架不能满足快速增长的数据量,如淘宝网,天猫,唯品会,聚美优品等一系列网址,图片的存数量已经达到PB级别,并且不断的在扩大。Hadoop的海量数据的存储管理HDFS和并行框架MapReduce提供了处理海量数码相片的平台。Hadoop云平台的出现为海量图像检索技术提供了更高效、快速的技术支持。本文通过Hadoop云平台下,对海量的数码相片做分布式计算,提取图片的SURF特征,对图片的SURF特征进行K-Means聚类分析,利用bag-of-word模型对特征向量进行统一聚类分析,根据LSH哈希算法,将相似的图片映射到不同的哈希桶中,等待前台数据的检索。前台中根据传入的图片,对图片进行特征提取,找到对应的哈希桶,将哈希桶中图片取出,检索相似的数码相片。同时本文对K—Means聚类方法做了相应的改进,首先对大量的特征向量进行抽样处理,然后对数据进行基于密度处理数据值由小到大绘制出k-dist图,对k-dist图数据的差值来找到初始的聚类中心,提高算法的效率。本文是在Hadoop的分布式并行框架MapReduce设计下,来实现海量数码相片的检索功能。
其他文献
翻转课堂改变了传统的教学模式,带来了教与学的巨大变化。而大学英语应如何应用这种新的教学模式呢?本文主要探讨了基于翻转课堂理念下的大学英语教学设计的过程,并通过实验
有哪位作曲家能像贝多芬那样,在一生中走完如此遥远的音乐旅程?贝多芬的巨大国际影响力令其他艺术家难以比肩。贝多芬究竟是一位怎样的大师,能够在晚期作品中卓有成效地将现
西瓜细菌性果斑病(Watermelon bacterial fruit blotch)是世界范围广泛分布的西、甜瓜细菌性病害,病原菌为西瓜噬酸菌(Acidovorax citrulli, Aac)。该病原菌可侵染西瓜和甜瓜
目的:探讨慢性充血性心力衰竭(CHF)患者血清甲状腺激素(TH)的变化及临床意义.方法:比较40例慢性CHF患者治疗前后血清中T3、T4、FT3、FT4、TSH水平变化,并与对照组40例(正常人)血清中T
中国音乐是人类音乐文化中的一颗璀璨的明珠,本文以我国音乐分析学的历史与现状为脉络,浅谈对李吉提《中国音乐结构分析概论》的上篇即中国传统音乐结构分析的认识。
随着科学技术地不断发展,微课这种全新的教学模式应运而生。它是信息技术与教育结合的产物,它集动画、声音与色彩为一体,多彩的视觉与悦耳的听觉效果易集中学生的注意力,从而
后双重管理体制时代的行业协会在获得相对于政府的自主性、免受政府控制和干扰的同时也失去了政府庇护及其资源的支持。在此情境下,那些新生的行业协会似乎只能依靠会员企业
目的:探讨艾司洛尔预防气管插管时心血管反应的临床效果。方法:选择使用全身麻醉进行手术慢性结石性胆囊炎患者60例,随机分为观察组与对照组,每组30例。观察组患者使用咪唑地西
试验研究了不同热处理状态的35 ̄#钢试样表面疲劳短裂萌生与扩展特性.结果表明:微结构尺寸及其分布特性对短裂纹萌生与扩展行为有较大影响;短裂纹萌生与扩展寿命可用Weibull分布定量描述.