论文部分内容阅读
近年来,随着互联网和多媒体技术的发展,全球的数字图像呈爆炸性增长,传统的基于文本的图像检索(TBIR)技术已无法满足人们的需求。因此,研究和开发基于内容的图像检索(content-based image retrieval, CBIR)系统逐渐成为了工业界和学术界的热点。Hadoop是Apache软件基金会旗下的一个开源分布式软件,由HDFS和MapReduce两大部分组成。由于强大的海量数据存储与处理能力,近几年,Hadoop在计算技术的各个领域都得到了广泛的应用。在构建CBIR系统的过程中,比如图像特征提取、特征数据存储、索引创建等过程,数据量和计算量都十分巨大。因此,基于Hadoop构建一个分布式CBIR系统有着重要的研究价值和广阔的应用前景。本文结合作者在焦点科技股份有限公司搜索组的实习经历,介绍了参与的一款CBIR系统项目的设计与实现。该CBIR系统可分为存储系统、特征提取系统、索引系统和查询系统四大模块,主要特点是:开创性地把Hadoop引入CBIR系统的构建以克服大数据量带来的性能瓶颈,并基于倒排索引和Lucene构建了索引和查询系统。作者在该项目中主要负责系统总体设计,特征提取系统和查询系统的实现以及各模块的整合。本文前两章分别介绍了CBIR技术的研究现状和系统中所用到的关键技术。第三章分析了系统的需求并分模块介绍了系统的设计:存储系统部分介绍了图像数据库、图像特征数据库和索引库的设计;特征提取系统部分介绍了特征提取算法的设计、特征入库的执行流程并给出了该系统的静态和动态视图;索引系统部分介绍了索引创建的流程和该系统的静态视图;查询系统部分给出了静态和动态视图,并简单介绍了用户界面的设计。第四章按照第三章的顺序以表格和代码的形式依次叙述了各模块的实现,然后简介了该项目测试环境的搭建并展示了原型系统的运行效果。最后一章对项目的工作做了总结并展望了未来。