论文部分内容阅读
随着数据规模不断增加和处理难度增大,大数据(Big Data)变得非常重要。存储系统对图像文件等非结构化的大数据查询服务缺乏有力支持,传统的文件元数据信息没有表达图像文件内容,区分度低。图像文件作为存储系统中一类增长迅速的文件数据,面临数据规模增加和查询性能优化的双重挑战。从这一点出发,提出一种面向图像文件的分布式存储系统中的索引策略,能够有效地提高图像文件查询效率,并能保证查询准确率。全文设计并实现面向图像文件的分布式查询系统,对用户的图像文件查询请求进行响应。采用执行速度快、具有良好稳定性的加速稳健特征算法提取图像的特征标识,对文件元数据进行辅助,增强对图像的表达力度。采用局部灵敏哈希方法(Locality Sensitive Hashing,LSH)解决高维的图像特征标识数据的最近邻居查询问题。研究的主要内容是结合局部灵敏哈希计算与MapReduce编程模型,提出一种分布式的索引策略,在分布式环境的多节点上并行采集图像特征标识,并使用多节点并发的哈希计算生成索引记录,解决局部灵敏哈希方法在时间和空间上开销大的问题,提高存储系统中图像文件的查询效率。最后,为了将索引记录的生成和用户数据处理分离,采用关系型数据库存储结构化的图像文件索引信息,进一步缩短用户查询响应时间。实验结果表明,分布式的索引构建和图像特征标识采集可以显著提高系统时间性能,对用户查询响应快,能够保证查询准确率。