论文部分内容阅读
近几年来,人民的生活水平日益提高,人民的生活质量不断增加,正在步入小康社会的大众,已经不满足于物质的要求,日益追求新的精神追求。人们日渐喜欢旅游、踏青等活动。现代各种数码相机、摄相机以及各种互联网设备软件的普及在很大程度上方便了人们的外出等照相的要求。不仅如此,近几年来蓬勃发展的网络,其图像数据也在无限的增长,比如众所周知的Facebook,图像的总容量已经达到1.5TB。图片作为最有感观的信息源之一,其数量呈指数增长,传统的相片检索技术已经不满足于快速增长的海量数码相片的处理需求。因此,从杂乱无章、数量庞大的数据中高效、快速的处理检索图片是当今社会的需求。随着数据量的无限增加,传统的技术框架不能满足快速增长的数据量,如淘宝网,天猫,唯品会,聚美优品等一系列网址,图片的存数量已经达到PB级别,并且不断的在扩大。Hadoop的海量数据的存储管理HDFS和并行框架MapReduce提供了处理海量数码相片的平台。Hadoop云平台的出现为海量图像检索技术提供了更高效、快速的技术支持。本文通过Hadoop云平台下,对海量的数码相片做分布式计算,提取图片的SURF特征,对图片的SURF特征进行K-Means聚类分析,利用bag-of-word模型对特征向量进行统一聚类分析,根据LSH哈希算法,将相似的图片映射到不同的哈希桶中,等待前台数据的检索。前台中根据传入的图片,对图片进行特征提取,找到对应的哈希桶,将哈希桶中图片取出,检索相似的数码相片。同时本文对K—Means聚类方法做了相应的改进,首先对大量的特征向量进行抽样处理,然后对数据进行基于密度处理数据值由小到大绘制出k-dist图,对k-dist图数据的差值来找到初始的聚类中心,提高算法的效率。本文是在Hadoop的分布式并行框架MapReduce设计下,来实现海量数码相片的检索功能。