论文部分内容阅读
搜索引擎是一种不可缺少的信息捕获工具,为互联网用户提供搜索服务,极大提高了用户从互联网中获取信息的速度。但是,在“大数据”时代带来的信息量和信息资源多元化的冲击下,搜索引擎在捕获信息的速度和主题相关度等方面遇到了新的挑战。因此,下一代搜索引擎是目前研究的一个热点。针对搜索引擎后台网络爬虫从互联网中抓取到信息资源时,队列对URL字符串处理能力的不足,本文设计并实现一种快速处理存取数据的散列算法,它能够在真实值和键值之间建立一一对应的关系,快速把进入到爬虫队列中的字符串数据转化为一种线性表结构,能够改善队列处理字符串的能力,提高爬虫的性能。并搭建了搜索引擎的网络环境,选择Heritrix爬虫作为网络爬虫框架,对在爬虫中加入散列算法进行测试。实验结果证明,在加入散列算法之后的网络爬虫,搜索效率提高,抓取速度得到明显的提升。针对搜索引擎反馈信息主题相关度低下的问题,从网络爬虫入手,提高网络爬虫捕获到页面的主题相关度。考虑向爬虫中加入具备相关度判别的遗传算法,将特定主题类型的内容抓取下来,与主题无关的内容忽略,便可以提高查找的准确率。策略的基本思想是结合遗传算法和基于内容的空间向量模型,以遗传算法的全局查优特点保证爬行的整体性,以网页之间的相互关系来确定网页的重要程度,以空间向量模型来确定与主题的相关度。对网络爬虫进行改造后,采用固定关键字对其测试,与改善之前进行比较,抓取到的总页面数和与主题相关的页面数都有提升,而且主题页面所占比例提高了约30%,提高了系统查找信息的准确率。