论文部分内容阅读
随着人们对个性化信息检索服务需求的日益增长,面向主题的垂直搜索引擎应运而生。围绕这一社会研究的新热点技术,本文针对垂直搜索引擎中占有重要地位的主题爬虫算法展开研究和讨论。主题爬虫是一种基于主题的信息采集系统,可以从互联网上采集到与主题相关的有用信息,在垂直搜索引擎、站点结构分析等方面取得越来越广泛的应用。主题爬虫的主要问题是怎样沿着一条好的“路径”来采集主题相关度高的网页。因此本文研究都专注于主题爬虫的搜索策略,主要分成两部分来讨论——基于Web链接结构的策略和基于页面内容的策略。为了充分利用各种文字内容和超链接信息,本文将两者紧密结合在一起,使两种算法可以互相弥补自身的不足。考虑到如何优先采集“重要”网页,本文利用链接重要度权重和主题相关度权重求和计算得到总优先级高低来指导主题爬虫抓取网页。本文研究了主题爬虫系统的基本理论和基本结构,深入分析和探讨了主题爬虫算法,并对算法的两大关键性技术点以及参数进行对比、选择和优化。在页面与主题相关性判定中,引入了文本分类的思想,应用了在自然语言处理中比较成熟的基于向量空间模型的主题相似度计算方法,论文还加入了对链接文本相关度与文本位置权重的考虑。特别地,在URL链接的重要性判定过程中,本文在经典的Page Rank算法基础上引入类间链接转移概率的概念,即利用类间链接转移概率矩阵来调整Page Rank的权值,进而提出了一个基于规则的软主题爬虫的设计方案。这种基于规则的软主题爬行方法借助Baseline主题爬虫的架构,应用朴素的贝叶斯分类器并利用主题团间链接的统计关系构造规则找到在一定链接距离内的“未来回报”页面。最后对该爬虫的性能进行了实验测评,并根据实验结果对该算法的性能进行分析、评价,实验证明本文提出的算法对主题爬虫的爬行收获率有很好的改善并具有很强的穿越隧道的能力。