基于Web图像搜索引擎的Spider系统设计与实现

来源 :电子科技大学 | 被引量 : 0次 | 上传用户:qcxmh
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着Internet、数码相机技术和扫描技术的迅速发展,网络上的图像信息以爆炸性的速度不断丰富和扩展。然而由于Web数据具有多样性、复杂性和无规则性,如何快速有效地从海量数据中获取所需的图像信息成为一项非常具有挑战性的工作。图像搜索引擎正是为解决这个问题而诞生的。现有的Web图像搜索引擎包括基于内容的和基于文本的两类。基于内容的Web图像搜索引擎主要根据图像内容(如颜色、纹理等)为图像建立索引,而基于文本的Web图像搜索引擎则主要根据页面间的超链接等文本信息来标注图像。然而,目前这些方案的效果均不够理想,很难精准地检索图像信息。因此,我们项目组提出基于谱图理论的Web图像搜索引擎技术,该技术结合了基于内容的图像搜索引擎和基于文本的图像搜索引擎的特点,是一种更有效的新型Web图像信息分析方法。在构建图像搜索引擎时,首先需要将图像数据采用爬虫收集起来。但是由于网络上的信息纷繁复杂,可能会下载大量无用的数据。这样会浪费网络带宽和影响信息提取。因此我们对heritrix爬虫进行扩展和改进,针对不同网站的特点设计了普通爬虫和精确爬虫。对于普通的网站,优先考虑信息的全面性,采用了普通爬虫模块进行下载。对于图像网站,在牺牲一定全面性的情况下,采用了精确爬虫模块进行下载。这样就能在一定程度上保证图像数据的数量和质量。在数据下载之后,如何剔除噪声信息提取出对图像描述有用的文字信息成为一个需要解决的问题。在论文中对网页的HTML标记进行分析,实现了有效的页面解析,提取出描述图像的文本信息。这样就能提高整个系统检索的准确度和精确度。同时,为保证系统的更新度,拓展了heritrix的更新方案,提出从网页结构、网页内容和网页图像三方面来检测分析网页是否需要更新。本文首先介绍了图像搜索引擎系统的总体设计,分别介绍了数据下载模块、预处理模块、图像分类模块、图像检索模块。在分析Spider系统的总体架构、运行流程和重要组件的基础上,实现了普通爬虫和精确爬虫,分别针对不同的网页进行数据下载。为满足系统需要,在对数据处理中实现了页面解析功能、中文分词功能和图像的标准化。同时对爬虫的更新策略进行分析,提出了更有效的更新策略,可以有效地提高系统的更新度。并对爬虫的队列进行哈希运算排序,优化爬虫性能。最后对爬虫和整个系统的性能进行了测试和分析。
其他文献
由于国内宽带网络的出口带宽瓶颈和服务器处理能力的限制,传统的基于C/S模式的流媒体分发系统,为了支撑不断扩张的客户群,需要购买越来越多的服务器硬件和带宽资源,从而导致
随着网络的高速发展,越来越多的实时业务在网络中传输,这些业务对数据传输的带宽、延时、抖动都有更高的要求。服务质量QoS成为研究的热点。QoS的研究目标是有效地为用户提供
学位
近年来随着各个行业数据量的大幅度增长,如金融,电信行业等,使得存储费用和管理费用也随之增长。面对信息量不断膨胀的问题,数据库系统采用压缩数据的方法保存数据,同时为了提高压
随着互联网技术的高速发展,网络信息量也随之飞速增长,如何从海量的信息中搜索出用户需要的信息成为当前热门的研究课题,搜索引擎作为互联网信息检索技术得到了广泛的应用,垂
随着计算机嵌入式芯片的应用发展,当今的信号及图像处理需要大量的浮点加、减、乘、除操作,而浮点数系统本身的复杂性决定需要专用的硬件来实现浮点操作。浮点运算器的性能影
随着社会各学科知识的剧增,各种新知识,新术语层出不穷。为了适应对于领域词典的编写要求,从浩如烟海的科技文献中找到领域相关的新术语,本文提出了一种基于领域本体的新术语
在最新的许多计算机图形相关应用中,多细节层次(Level of Detail,LOD)技术被广泛用于渲染效率的优化。各种多细节层次,比如几何层面的多细节层次(Geometric LOD)、着色器层面的
心电信号是心脏活动微弱电信号的综合表现,采集方法简洁方便,具有极强的临床诊断价值。但是当前医疗服务中心电采集、存储和分析诊断由于设施、技术的限制,不能及时有效对心
随着高度集成的系统芯片SoC(System-On-A-Chip)成为市场主流,微处理器芯片的测试和调试变得更加复杂。这为传统的调试方法带来以下困难:   1.受SoC处理器的封装限制,不能
学位