论文部分内容阅读
进入新世纪以来,互联网络上的Web空间发展日益迅速,Web信息在很多方面得到了广泛的应用,人们对Web信息的领域本体相关性和领先性的要求越来越高。基于Web的主题搜索技术的发展和演进,已经成为有效开启互联网络知识宝库的关键之匙。Web信息搜索服务主要通过国内外一些成熟的搜索引擎站点提供。但是,目前被搜索引擎广泛采用的Web信息获取爬虫系统存在着明显的缺陷,缺陷是系统只能依据超链在Web空间里遍历公开被索引的Web页面,而对占据大部分Web空间的隐含型Web页面缺乏有效的获取手段。隐含型Web页面通常指那些由用户与站点Web信息数据库通过查询表单Form发生交互而动态产生的,带有明显领域主题色彩的Web页面。针对这一问题,本文展开了对隐含型Web页面信息获取技术的研究。在吸取国内外相关网络爬虫系统理论知识的基础上,新总结出了符合中文Web页面呈现规律的,领域相关数据源接口Form启发式发现与过滤原则,并基于Form领域本体相关性由其所包含表单项的领域相关度决定这一思想,提出了一个新的Form领域相关度自动识别算法。在此基础上,本论文设计并实现了一个具有隐含型Web信息获取能力的网络爬虫系统。其中包括系统的整体架构和功能模块划分,给出了系统分析、处理查询表单Form和优选查询词汇的具体方法和算法。而后基于教育领域本体词汇库,实现了一个实验性的,面向教育领域隐含型Web信息获取的网络爬虫系统。通过对领域内多个站点的实际爬行测试,证明了系统的有效性。