论文部分内容阅读
随着Internet、数码相机技术和扫描技术的迅速发展,网络上的图像信息以爆炸性的速度不断丰富和扩展。然而由于Web数据具有多样性、复杂性和无规则性,如何快速有效地从海量数据中获取所需的图像信息成为一项非常具有挑战性的工作。图像搜索引擎正是为解决这个问题而诞生的。现有的Web图像搜索引擎包括基于内容的和基于文本的两类。基于内容的Web图像搜索引擎主要根据图像内容(如颜色、纹理等)为图像建立索引,而基于文本的Web图像搜索引擎则主要根据页面间的超链接等文本信息来标注图像。然而,目前这些方案的效果均不够理想,很难精准地检索图像信息。因此,我们项目组提出基于谱图理论的Web图像搜索引擎技术,该技术结合了基于内容的图像搜索引擎和基于文本的图像搜索引擎的特点,是一种更有效的新型Web图像信息分析方法。在构建图像搜索引擎时,首先需要将图像数据采用爬虫收集起来。但是由于网络上的信息纷繁复杂,可能会下载大量无用的数据。这样会浪费网络带宽和影响信息提取。因此我们对heritrix爬虫进行扩展和改进,针对不同网站的特点设计了普通爬虫和精确爬虫。对于普通的网站,优先考虑信息的全面性,采用了普通爬虫模块进行下载。对于图像网站,在牺牲一定全面性的情况下,采用了精确爬虫模块进行下载。这样就能在一定程度上保证图像数据的数量和质量。在数据下载之后,如何剔除噪声信息提取出对图像描述有用的文字信息成为一个需要解决的问题。在论文中对网页的HTML标记进行分析,实现了有效的页面解析,提取出描述图像的文本信息。这样就能提高整个系统检索的准确度和精确度。同时,为保证系统的更新度,拓展了heritrix的更新方案,提出从网页结构、网页内容和网页图像三方面来检测分析网页是否需要更新。本文首先介绍了图像搜索引擎系统的总体设计,分别介绍了数据下载模块、预处理模块、图像分类模块、图像检索模块。在分析Spider系统的总体架构、运行流程和重要组件的基础上,实现了普通爬虫和精确爬虫,分别针对不同的网页进行数据下载。为满足系统需要,在对数据处理中实现了页面解析功能、中文分词功能和图像的标准化。同时对爬虫的更新策略进行分析,提出了更有效的更新策略,可以有效地提高系统的更新度。并对爬虫的队列进行哈希运算排序,优化爬虫性能。最后对爬虫和整个系统的性能进行了测试和分析。