论文部分内容阅读
Internet的问世,改变了传统的信息发布组织方式,实现了全球范围内的信息共享。在Internet上,用户可以登陆网站,浏览网页,下载自己感兴趣的信息。但是,网上信息缺少统一的组织标准。信息的动态、高速增长使得人们难以及时有效地获得与特定专题有关的信息。 Internet网上提供信息最常见的方式为门户网站,例如Yahoo,网易等提供主题目录,但是这种主题分类过于宽泛,难以满足专家、学者的要求。用户查到的信息过于浅显,不能满足科研工作的需要。 搜索引擎的问世,解决了信息的定位问题,但是第一代搜索引擎例如AltaVista提供的是全文索引,排名只依据查询向量与文档向量的余弦相似度。这种基于局部信息的排名策略不能解决专题信息的收集,返回的结果太多太乱。 后来的搜索引擎Goolge利用自己的全局网页排名算法PageRank,较好的解决了结果的排名。但是它的目标主要是网上信息的覆盖率,与清新度产生矛盾。其网页排名值需要在三个月之后才能进入排名系统。因此,依靠通用搜索引擎也不易及时获得专题信息。 聚焦搜索系统弥补了通用搜索引擎的不足。它利用机器学习技术,根据用户要求,在网上自动收集用户指定的专题信息,响应快、信息质量高、自动化。尤其适合辅助解决科技人员在科研过程中收集查询特定领域技术信息的需要。 基于语景图的聚焦爬取器是近年提出的一种聚焦搜索爬取技术。它通过分析网页内容和链接,指导爬取器沿着迅速导向目标文档的路线前进,可以以较少的爬取无关网页为代价,迅速找到更多的目标文档。这一特点,对于专题信息收集,开展专题研究,具有极大的好处。 语景图聚焦爬取器信息利用率较低。而在实际工作中,可能需要一些次要的相关信息。为此,本文用随机爬取器建立语料库,用语料库和TF-IDF公式提取特征词条。利用种子文档中的链接建立扩展语景图的右层,使扩展后的语景图(ECG)能够收集种子文档所引用的文献之类的信息。设计实现的ECG爬取器原型利用自行开发的元搜索程序获取种子文档,利用ECG的各层文档训练各层NB分类器。利用分类器预测目前已经检索到的文档距离目标文档的大致距离。通过输入好起点和差起点网址进行了实验。 程序实验证明,和语景图(CG)爬取器相比,这种ECG爬取器不仅信息利用率高,而且对已爬取网址的查重在各层已下载队列中进行,因而ECG爬取器更适合于大规模爬取。ECG爬取器不仅采集到相关度高的网页,而且同时获得了较多的主题信息。而在CG背景下,这些网页可能被分到“其他”类而只起到维持连续爬取功能。实验还发现,CG或ECG的层数与后链一层的收获率存在