论文部分内容阅读
互联网技术的快速发展带动着Web信息量的急剧增长。从大量网页中快速、准确查找需要的信息,特别是针对特定领域、主题的信息检索成为了人们越来越迫切的需求。搜索引擎如何采集主题相关的Web信息、对信息内容有效组织和定位,并将相关检索结果快速展示给用户变得尤为重要。本文分析了主题爬虫研究的必要性,重点研究了页面主题相关性判别和主题信息在爬虫Web页面搜索中的指导作用。在此基础上,论文对主题爬虫系统的关键模块进行了研究和设计,主要包括以下几个模块:页面下载、正文提取、主题判别、链接价值预测、调度模块和主题库存储模块。所做的主要研究工作如下:(1)分析了网页正文的内容特征和分布特征,按照网页中正文分布遵循一定的规则,提出了一种基于句子分块密度和标点符号的网页正文提取算法。(2)研究了文本内部词语的分布网络特点,利用基于语义加权网络的关键词提取方法构建训练文本的类别关键词,并设计了一种基于类别关键词的贝叶斯分类器,用于判断网页是否与主题相关。(3)通过分析Web链接和Web页面分布的特点,提出了一种改进的基于链接内容价值评价的搜索策略。(4)根据上述页面主题判别算法和改进的搜索策略,用JAVA语言编写了一套主题爬虫系统程序。利用该系统对大量网页进行测试,结果表明上述改进方法效果良好。