论文部分内容阅读
传统外观专利检索是基于文本的查询方式,该模式无法充分利用外观专利图片所包含的丰富视觉信息,检索范围大,且图形的相似性主要靠人工识别,工作量大、效率低。为解决传统检索模式所存在的问题,通过基于内容的外观专利图像检索技术,利用图像的形状、纹理和颜色特征对外观专利图像进行描述,根据这些图像特征与专利库中的图像提供相似性判别,实现外观专利图像查询、检索自动化,提高外观设计相似性评判的检索速度和查准率但图像检索是数据密集型计算过程,进行图像检索时,将消耗大量CPU资源。现有B/S单节点架构的图像检索系统,随着外观专利数量的快速增长,存在检索速度慢、并发性差、不能处理大规模的数据。在分析现有图像检索系统的基础上,提出了一种基于Hadoop的外观专利图像检索方法,将基于内容的图像检索技术与MapReduce并行计算框架相结合,把外观专利图像和图像特征库存储于HDFS。Hadoop分布式系统进行图像检索作业时,系统对专利图像特征库进行分割。各数据分块传递给Hadoop分布式系统中各计算节点的Map任务,Map任务以键值对的形式读取专利图像库的特征数据,并提取示例图像的形状、纹理以及颜色特征,与专利特征库中的特征进行相似度匹配计算,计算结果以键值对的形式输出。Reduce任务接收各Map任务的计算结果,按相似度大小进行排序,得到图像检索结果,实现图像检索的分布式计算通过普通的PC机搭建Hadoop分布式环境,将开发的图像检索应用程序在Hadoop分布式系统上测试,与现有图像检索系统进行比较。实验结果表明,该方法能够均衡系统负载,提高资源利用率,有效降低了在大数据集上进行图像检索的时间,并对Hadoop分布式系统的负载均衡、可靠性以及可扩展性进行了分析