论文部分内容阅读
随着互联网上Web资源的迅猛增长,在庞大的互联网上,快速准确全面地找到与用户查询主题相关的信息变得越来越难。人们对检索质量和速度的要求越来越高,由于传统的全网网络爬虫爬取的主题范围过于广泛,信息的及时性及与主题的相关性都无法保证,导致其检索结果的时效性、准确性及检索效率都不尽人意,已满足不了特定领域用户的精确搜索的需求。为此,本文展开了对高页面时效性、高内容相关性的主题网络爬虫的研究。本文对目前存在的网络爬虫的种类、原理及发展状况进行了研究,对比分析了通用爬虫和主题爬虫的结构及工作原理,展示了主题网络爬虫的各项优势。本文通过对《知网》的语义分析及语义相关性理论的研究和对传统向量空间模型的分析,针对原有的页面内容与主题的相关性判定算法存在的缺陷,提出了一种基于页面分析的主题网络爬虫。该主题爬虫摒弃了传统主题爬虫在关于页面与主题相关性判定所采用的传统向量空间模型算法,采用了结合《知网》提出的具有语义分析功能的基于Web页面特点的改进向量空间模型算法,实验表明该模型在进行页面内容与主题相关性判定过程中起到了有效作用。本文的重点是研究基于页面分析的主题网络爬虫的页面过滤算法。它采用《知网》语义分析技术和向量空间模型相结合的方法对传统的页面与主题相关性判定算法——向量空间模型(VSM)进行改进。改进后的算法利用《知网》进行词义消歧,相关度计算以及主题文本义原集的提取,同时考虑到Web网页的半结构化特点,即Web网页上不同位置的文本特征项对整个Web页面主题内容的表达能力是不同的,引入了适应Web页面结构的位置权重,采用多层向量空间模型将Web页面划分成N层结构,不同层次的文本结合其位置权重分别计算与主题的相似度。该算法在加入语义分析的基础上更适合于主题爬虫的Web页面的相似度计算,对主题网络爬虫抓取页面的准确率、页面利用率及爬虫的效率上都有所提高。