论文部分内容阅读
随着Web信息的激增,越来越多的信息开始由静态网页存储的方式向Web服务器维护的数据库即Deep Web转移,Deep Web包含的信息为Surface Web的400-500倍,与Surface Web相比,Deep Web包含的信息具有更高的质量,同时也是Web上增长速度最快的信息载体,对Deep Web的研究已是Web搜索领域迫在眉睫的任务。Deep Web数据集成的目的是以尽可能自动的方式实现对Web中在线数据库信息的有效利用。在面向领域的信息搜索中,相关的领域知识往往有助于改善搜索效果。本体作为最强大的网络信息语义描述工具,在信息检索中被广泛应用,因此,本文综合应用本体研究Deep Web数据集成技术,对以下四个关键技术进行了深入研究:Deep Web入口自动发现、Deep Web查询接口模式抽取、Deep Web查询接口集成和Deep Web查询接口自动填充。本文首先构建领域核心本体,在模式匹配过程中,不断完善核心本体,实现本体的自动扩展,并通过本体描述语言OWL对目标本体进行形式化描述以帮助机器理解和推理;然后,在Deep Web入口的自动发现中,应用主题爬行技术和本体技术,构造网页分类器、表单结构分类器和表单内容分类器,实现特定领域Deep Web入口表单的自动发现;在Deep Web查询接口的模式抽取中,设计了基于网页可视化特征的Deep Web查询接口模式抽取算法,实现对查询接口属性标签和查询控件的获取与分析,并根据标签和控件的逻辑关系将其重组成语义属性;在Deep Web数据库查询接口的集成中,充分利用本体提供的语义实体间的复杂关系,捕获不同查询接口间的语义特征,实现模式匹配,在语义级别上实现对查询接口真正意义上的理解,使得同一领域中多个查询接口的知识规范化、统一化,以方便于对其进行处理;在Deep Web查询接口的自动填充中,利用领域本体建立Deep Web入口表单属性与集成查询接口属性的映射关系,将用户提交的查询计划进行合法性检查后分发至各个Deep Web数据库,经查询处理后,转化为各本地查询接口相适应的查询条件,实现用户透明的集成查询接口向各个Deep Web表单的查询分发与表单重写,最后自动触发提交查询按钮。实验表明本文所提出的方法是可行的。