论文部分内容阅读
随着社会信息化进程的不断发展,人们对信息的需求和依赖程度越来越高,如何从海量信息中快速有效的获取有用信息,已经成为人们研究的焦点。信息集成的研究可以帮助人们有效的找到比较完整的感兴趣的信息,帮助用户发现对自己有用的知识。而随着Internet的高速发展,整个Web网络已经成为一个庞大的信息知识库,但其中的信息纷繁复杂、浩如烟海难以使用,Web信息集成技术就应运而生了,Web信息集成技术能够对凌乱的Web信息进行分析、筛选、集成,为人们提供一个统一的知识视图和访问方式,从而实现对Web资源的高效利用。一个Web信息集成系统一般包含以下几个部分:领域模型构建,数据抽取,模式匹配和实体统一等。尽管模式匹配和实体统一是Web信息集成中的两个主要组成部分,但是目前模式匹配与实体统一的研究都是基于各自领域的,而在当前的Web信息集成系统中,两者往往都是作为两个单独部分以一种流水线型的方式组合,这样在集成过程中两者无法充分的相互利用,也容易产生错误的传递。本文主要研究了在Web信息集成系统中如何有效的实现实体统一与模式匹配这两个原本单独的部分互相促进,在结合了已有的实体统一和模式匹配方法的基础上,提出了几个新方法并给出具体算法实现和实验验证。本文的研究内容和主要工作有以下几个方面:1.提出了一个以实体统一促进模式匹配的思想和方法。在Web信息集成的过程中,从数据抽取部分中所获得的数据信息一般同时包含模式信息和实例信息这两类信息,两个不同模式间的某实例对如果是指向同一个实体,那么这个实例对的两个实例中相似的属性值所对应的属性对为属性匹配对的概率就很大,基于此,本文认为可以在模式匹配的过程中使用实体统一的方法来对其进行促进。本文提出了实现该思想的一种方法,实现相关算法并通过实验验证了方法的有效性。2.提出了一个以模式匹配促进实体统一的思想和方法。在Web信息集成的过程中,需要对实体进行统一时,如果已经知道两个不同模式之间属性对的匹配关系,并且某实例对的两个实例在匹配的属性对所对应的属性值相似的话,则该实例对指向同一实体的可能性就非常大。基于此,本文认为可以在实体统一的过程中使用模式匹配的方法对其进行促进。本文提出了实现该思想的一种方法,实现相关算法并通过实验验证了方法的有效性。3.在前两点研究的基础上,在Web信息集成中,提出了模式匹配和实体统一互促进的思想和方法。在前两点的研究过程中,结合当前Web信息集成系统的基本架构,本文自然而然的提出了一个想法,就是在Web信息集成中将实体统一和模式匹配这两者互促进来同时提高两者的性能。本文给出了一个具体的算法实现,该算法通过迭代的方法来完成模式匹配和实体统一的互促进,实验证明该算法可以很好的提高模式匹配和实体统一的性能。以实体统一促进模式匹配主要是针对模式匹配的问题,在模式匹配研究领域内提出了一个相关的新方法;而以模式匹配促进实体统一主要是针对实体统一的问题,在实体统一的研究领域内提出了一个相关的新方法。在Web信息集成系统中,实体统一和模式匹配是其两个必不可少的组成部分,而两者之间的这种关系也使得研究实体统一与模式匹配互促进问题有了意义。Web信息集成中实体统一与模式匹配互促进研究目的是为了让两者在集成过程中能够足够充分的利用对方的结果从而提高自己的效能,能够对整个Web信息集成系统有所帮助。本文中的实体统一与模式匹配互促进的研究是在以实体统一促进模式匹配和以模式匹配促进实体统一这两个研究的基础之上进行的。本文对如何有效的实现实体统一和模式匹配两者的互促进进行了探索性的研究,希望为该问题的解决提供一种有效的思路和方法。本文的课题基础也是目前Web信息集成领中应用比较广泛的技术,本文不但为如何更好的进行实体统一和模式匹配提供了思路和方法,同时也为Web信息集成系统中如何实现两者的互促进提供了一定的帮助。这使本文课题研究既具有探索性的理论研究价值,也具有较大的应用价值和现实意义。