论文部分内容阅读
随着互联网科技的迅猛发展,人类已经进入了一个信息大爆炸的时代,如何从繁杂的信息资源中提取有效的信息成为了学者们研究的重点内容,谷歌、百度等搜索引擎的出现很好的解决了这一问题。它能够对用户提交的查询请求进行处理,返回给用户想要搜索的信息。
目前虽然我国拥有很多涉农网站,如中国农业信息网、中国农村网、农联网、农业智能搜索网等,这些网站拥有丰富的农业信息资源,符合农业用户的查询要求。但是由于没有规范的形式、农业信息分布分散、信息更新不及时,这些传统的涉农网站的查准率及稳定性比较低,不能满足农民及农业工作者针对特定主题的信息查询的目的。本文研究与设计了一个农业信息主题爬虫程序,尤其是对主题爬虫的搜索策略展开了深入的研究对比,改进了Best-First算法,以使改进算法的农业信息主题爬虫程序在爬取性能上得到最优。
本文的主要研究内容如下:
(1)研究了网络爬虫的相关理论及技术。主要对通用网络爬虫、主题网络爬虫的基本原理、搜索策略进行了介绍与对比。并对主题爬虫所用到的关键技术进行了陈述,为接下来的农业信息主题爬虫程序构建打下了坚实的理论基础。
(2)对网络爬虫的经典算法PageRank算法和Best-First算法进行深入研究,并针对Best-First算法利用向量空间模型计算权重只考虑特征词出现的次数的这一特点,按照加权频率的方法计算权重,综合考虑网页的父页面相似度、锚文本相似度及HTML修饰标签三方面的内容来计算网页与主题的相似度,通过取平均值的形式确定网页与主题的相似度。针对Best-First算法“贪婪性”的缺点,提出了改进策略,通过设定相应的爬行深度和阈值,可以使主题爬虫既考虑立即回报又考虑未来回报,有效的改善了主题爬虫“主题飘移”的缺点。
(3)构建农业信息主题爬虫对改进后的新算法评价有效性。本文将改进的Best-First算法进行了对比试验,实验证明,改进后的新算法在农业信息主题相关页面的准确率和召回率上都表现出较好的效果。
目前虽然我国拥有很多涉农网站,如中国农业信息网、中国农村网、农联网、农业智能搜索网等,这些网站拥有丰富的农业信息资源,符合农业用户的查询要求。但是由于没有规范的形式、农业信息分布分散、信息更新不及时,这些传统的涉农网站的查准率及稳定性比较低,不能满足农民及农业工作者针对特定主题的信息查询的目的。本文研究与设计了一个农业信息主题爬虫程序,尤其是对主题爬虫的搜索策略展开了深入的研究对比,改进了Best-First算法,以使改进算法的农业信息主题爬虫程序在爬取性能上得到最优。
本文的主要研究内容如下:
(1)研究了网络爬虫的相关理论及技术。主要对通用网络爬虫、主题网络爬虫的基本原理、搜索策略进行了介绍与对比。并对主题爬虫所用到的关键技术进行了陈述,为接下来的农业信息主题爬虫程序构建打下了坚实的理论基础。
(2)对网络爬虫的经典算法PageRank算法和Best-First算法进行深入研究,并针对Best-First算法利用向量空间模型计算权重只考虑特征词出现的次数的这一特点,按照加权频率的方法计算权重,综合考虑网页的父页面相似度、锚文本相似度及HTML修饰标签三方面的内容来计算网页与主题的相似度,通过取平均值的形式确定网页与主题的相似度。针对Best-First算法“贪婪性”的缺点,提出了改进策略,通过设定相应的爬行深度和阈值,可以使主题爬虫既考虑立即回报又考虑未来回报,有效的改善了主题爬虫“主题飘移”的缺点。
(3)构建农业信息主题爬虫对改进后的新算法评价有效性。本文将改进的Best-First算法进行了对比试验,实验证明,改进后的新算法在农业信息主题相关页面的准确率和召回率上都表现出较好的效果。