论文部分内容阅读
随着互联网的快速发展以及Web相关技术的不断成熟,Deep Web目前已成为人们获取信息的重要来源,为了使用户可以快速、准确、方便地获取所需的Deep Web资源,Deep Web信息集成技术已经成为该领域研究的热点问题。Deep Web结果语义标注是Deep Web信息集成系统中的重要阶段,而Deep Web查询接口模式的准确抽取又是语义标注的基础。因此,本文分别对Deep Web查询接口模式抽取和语义标注进行了深入的研究,并将本体引入标注过程,在此基础上设计并构建一个面向Deep Web的搜索引擎原型系统。本文的主要研究工作如下:(1)对Deep Web信息集成系统框架和Deep Web语义标注国内外研究现状进行介绍,分析传统语义标注方法的缺点和不足。简要介绍本体的概念与作用以及本文所使用的Deep Web领域本体的构建原则和学习方法。(2)提出一种基于分层模型的Deep Web查询接口模式抽取方法,解决现有接口模式抽取方法中忽略查询接口内部结构与语义关系的问题。该方法首先挖掘查询接口元素的页面布局特征,使用基于扩展的层次聚类方法抽取接口模式树,其次利用控件与标签的位置及语义关系为模式树各节点匹配语义描述标签。(3)提出一种基于本体的Deep Web语义标注方法,解决传统方法中标注能力不足和标注结果不统一的问题。首先对数据单元进行对齐分组,然后采用多种基本标注器对分组进行组合标注;之后建立结果模式与本体间的映射得到完整且统一的标注结果;最后对同一领域内的不同数据源进行交叉标注验证。(4)设计并实现一个面向图书电子商务领域的Deep Web搜索引擎原型系统。本文采用UIUC提供的数据集分别对文中提出的解决方法进行实验,通过对实验结果的分析验证了本文提出的方法是可行且有效的。