论文部分内容阅读
随着Internet技术的飞速发展,隐藏在Web后台数据库中的信息资源因为其数据量大、结构完整受到了广泛关注,这些信息资源通常是由用户在Web查询页面提交查询请求后,以HTML页面为中介展示给用户的。学者们通常将这些信息资源称之为Deep Web资源。为了最大程度的利用这些Deep Web资源,需要通过各种技术手段将网页中的无结构或者半结构化信息抽取出来。同时为了使抽取到的信息具有更高的使用价值,应该对这些数据进行语义标注,使其能够被机器所理解。本文对特定领域的Deep Web的数据抽取与语义标注进行了研究,将节点的类型信息引入到数据记录的抽取中来,并基于本体实现了语义标注,最后结合自身参与的项目设计了一个原型系统。本文的研究工作主要包括以下几点:1)简要概述了信息抽取的发展历史、评价标准和所涉及的相关技术,并对现有的信息抽取方法进行了深入的分析。2)结合Deep Web结果页面自身的特点,利用页面布局的视觉特征和内容特征,提出了一种利用标签过滤器、视觉特征过滤器、内容规则过滤器的页面净化方法。实验结果表明,该方法可以有效提高后续数据抽取的效率与精度。3)提出一种基于节点类型的数据记录抽取方法,该方法首先将HTML标签节点分为块、样式、文本、图片四种类型,并对每一种类型赋予一个权值,其次根据不同的节点类型来计算结果页面数据记录中各属性节点的熵值,最后通过此熵值来确定代表数据记录的节点,实现数据记录节点的抽取。与其他方法相比,该方法具有更高的效率。4)将领域本体作为Web数据库所遵循的全局模式,通过核密度、K-L距离等方法来实现本体与模式间的映射,从而实现数据的语义标注功能。实验结果表明该方法具有一定的优越性。5)在上述研究的基础上设计了一个面向生物医药领域的信息集成平台。