论文部分内容阅读
作为搜索引擎的重要组成部分,网络机器人能从Internet上自动获取网页,替搜索引擎在Internet上搜集网页。通用网络机器人以种子URL作为入口,对整个Web进行遍历下载。而主题网络机器人不单单是充当一个获取网页的工具,还能够对链接以及页面内容进行主题相关性识别。主题网络机器人并不仅把目标定位覆盖率,还要提高获取主题相关网页的准确性,为搜索引擎提供一个主题相关的网页库。现在,主题网络机器人已经成为搜索引擎技术领域的一个研究热点,是搜索引擎的发展的重点方向之一。本文的主要的研究工作和特点如下:1.研究了一种改进后的FICA(Fast Intelligent Crawling Algorithm)算法,该算法可以快速的对同一层的URL进行简单的重要性排序,这样主题网络机器人就可以优先搜集重要性较高的页面;2.研究了一种改进后的Sydney Strategy算法,该算法既可以有效地控制队列中暂存的URL数量,在很大程度上保证了覆盖度,又可以有效地利用相邻链接间主题相关的特点;3.提出了一种新的隧道穿越的方法:在保证主题网络机器人主线程快速搜集主题相关页面的前提下,利用一个次线程,将主线程搜集的所有主题不相关URL遍历一定的深度,找出其中主题相关的URL,再将这些URL挂回主线程,从而在较大程度上达到对隧道的穿越;4.本文使用改进后的FICA算法,改进后的Sydney Strategy算法,KNN算法以及本文提出的隧道穿越方法,构建了一个快速、高效、智能的主题网络机器人系统——基于URL分析的主题网络机器人,并且详细介绍其整体设计流程、系统结构及线程设计,在这个基础上介绍了系统的几个重要模块和关键技术。