论文部分内容阅读
随着Web上信息的迅速扩展,各项基于Web的服务也逐渐繁荣起来。作为这些信息服务的基础和重要组成部分,Web信息采集正应用于搜索引擎、站点结构分析、页面有效性分析、Web图进化、用户兴趣挖掘以及个性化信息获取等多种应用和研究中。然而,随着人们对提供的各项信息服务要求越来越高,传统的基于整个Web的信息采集也越来越力不从心,它无法及时地采集到足够的Web信息,也不能满足人们日益增长的个性化需求。为此,本文展开了对Web上局部范围内信息的有效采集研究,也就是基于主题的Web信息采集研究。根据我们在信息采集领域的长期积累以及国内外在基于主题的信息采集领域的发展,本文在综述了基本情况后提出了一个基于主题的Web信息采集结构模型,这包括主题与起始URL选择、Spider采集、页面分析、URL与主题的相关性判定、以及页面与主题的相关性判定等一系列步骤。我们分别给出了相关的处理算法和流程以及相应的数据结构,并针对研究过程中遇到的问题,提出了多个新的算法、判定规则和规律:在Hub特性、Linkage/Sibling Locality特性、站点主题特性、Tunnel特性的基础上,总结出了主题页面在Web上的分布规律。在定义主题和提出分类主题的基础上,给出了主题选择的方法。采用Client/Server结构的Spider系统,允许多机同时采集,实现了全面、高效并且灵活的信息搜集。在分析了HTML语法的基础上,给出了对html页面的主题、链接、标题的提取算法。在URL与主题的相关性判定中,在扩展元数据方法RW、RWB和链接分析方法PageRank的基础上提出了IPageRank算法。在页面与主题的相关性判定中,应用在自然语言处理中比较成熟的基于关键词的向量空间模型计算页面与主题的相似度。试验结果显示,我们的工作是有效的,我们的系统有很强的实用价值,特别是URL与主题的相关性判定中的IPageRank算法,有较大的突破。