论文部分内容阅读
                            
                            
                                当前互联网资源形式和内容多样,都是对客观世界事物的反映,也是资源生产者如网站编辑等在自身对客观世界认识基础上构建的概念世界的体现。同时,对于同一事物,不同的人有不同的理解和认识,因此描述的形式也不一致。而另一方面,资源的获取者试图从不完整的各种网络资源中得到关于某一事物的所有信息,因此,二者是一个互逆的过程。在传统的HTML页面基础上发展起来的不能直接通过分析网页源码中URL得到而需要通过填写表单提交查询后才能得到的Deep Web内容所占比例越来越大,如何进行有效的获取是目前研究的重点。然而为了最大限度的利用已有搜索引擎基础设施,之前的研究主要集中在GET方法提交的表单。同时,对于通用搜索引擎来说,数据之间是相互独立的,随着垂直搜索引擎的发展,一个领域内相关的数据都被整合起来,进行综合展示。本文通过领域本体构建领域模型,在现有知识库基础上通过元搜索获得DeepWeb内容表单(包括GET和POST提交方法)入口,利用算法进行表单字段的选取和内容的填充后提交查询表单从而获取各种互联网数据,并通过网络资源模型和要素与本体匹配算法进行特定要素的提取,从而将半结构化的数据形成结构化的数据表。同时根据本体概念之间的关系,将同一领域的不同数据进行关联,从而使得数据之间不再孤立,并且形成对客观世界尽可能详细的描述。以应急为例,因为该领域中存在的各种数据可以通过地理坐标信息进行精确关联,通过对网络中地名有关的应急信息如应急预案、应急案例、应急专家等内容和人文地理信息如行政区划、邮编等的获取和关联,可以构建一个相对完整的应急领域数据集。本文随后在理论研究基础上,构建领域驱动网络资源获取原型系统检验理论的可行性和正确性,并设计数值指标衡量算法的效率和系统性能。最后,总结本文所做工作,并提出下一步工作计划。