论文部分内容阅读
利用基于内容图像检索技术在Internet上查找用户所需的图像是一个重要且具有挑战性的学术研究。Web图像搜索器能为基于内容的图像搜索引擎提供源源不断的图像数据,使基于内容的图像搜索引擎对提高用户的服务质量具有重要的意义。本文在本课题组开发基于内容图像搜索引擎系统V1.0研究基础上,引入多线程技术,提出多线程Web图像搜索器的磁盘I/O缓冲方法。在深入分析和比较几种常见的搜索策略基础上,探索出适合于多线程Web图像搜索器的新搜索策略。最后开发了多线程Web图像搜索器子系统,完成与图像检索子系统的融合,构建出基于内容的图像搜索引擎系统V2.0。提出多线程Web图像搜索器的磁盘I/O缓冲方法。频繁的磁盘I/O操作导致多线程Web图像搜索器的性能显著下降。为此提出磁盘I/O缓冲方法,它包括待采URL的双队列缓冲和图像存储与URL存储中的循环缓冲池等两种措施。在URL待采队列中采用双队列缓冲,当其中一个队列处于使用状态时,另一队列执行从磁盘读取新URL的操作,使得各个线程可以不间断地获取URL。两个循环缓冲池分别用于图像和URL磁盘存储操作中,其工作原理相同。实验结果显示,磁盘I/O缓冲方法显著改善了多线程Web图像搜索器的性能。提出Web图像搜索器的基于深度的广度优先搜索策略。本文对不同质量的图像在Internet站点中的位置进行了统计分析,实验表明高质量图像在深站点页面中的数量比浅站点页面多。通过对传统搜索器的基于广度搜索策略和基于深度搜索策略的研究,提出基于深度的广度优先搜索策略。为构建基于深度的广度优先策略的Web图像搜索器,提出了DR-BTree(Determine Repeat-BTree)的页面URL判断重复方式和页面URL的数据库存储方式,将这种搜索策略与图像过滤方法结合并实现对下载图像的过滤。实验结果对比显示,在相同时间内三种搜索策略下载的图像数量相近,但是本文搜索策略下载高质量图像的数量是基于广度优先策略和基于深度优先策略的3.6倍和2.7倍,说明本文搜索策略更适合于多线程Web图像搜索器。基于上述研究结果,设计并开发了多线程Web图像搜索器子系统,它是基于内容的图像搜索引擎系统V2.0的重要组成部分。该子系统采用了多线程技术、磁盘I/O缓冲方法和基于深度的广度优先搜索策略。实验测试证明,该子系统提高了图像下载的速度,能较好地为基于内容的图像搜索引擎提供大量的图像数据,达到了预期目标。