论文部分内容阅读
随着互联网上信息资源数量的快速增长,网络的应用和需求也在不断地扩大。传统的互联网技术并不考虑网络资源间的结构组织,而仅仅是完成了网络资源的连接,致使各种知识无序、零散的分布在成千上万的存贮介质上。如何在庞大的互联网资源中准确、快速地找到用户需要的信息成为亟待解决的问题。为了使不同的Web应用和服务之间的语义互操作性成为可能,本体成为解决语义异构问题的关键。一个本体以机器语言可理解的形式存在,并且以简化和抽象的方式表示我们感兴趣的领域。而最重要的本体应用领域莫过于语义Web,通过本体可以很好地解决语义Web的语义描述和二义性问题。但是语义Web本身具有分布式和异构的特点,这就导致即使是相同领域的本体也存在着异构和不一致性,这些本体所描述的领域知识就不能共享。因此,解决本体之间的异构问题成为关键。本体映射的目的是找到不同本体相似元素之间的语义对应关系。因此,本体映射成为当前的热点研究课题。然而,尽管有许多有关映射及匹配的方法,但始终没有一个清晰且成功的方案能够完全适应今后的发展需要,并且能够在没有专家参与的情况下自动完成所有操作。因此,有许多悬而未决的问题依然存在。本文针对本体映射方法中所存在的问题进行了一系列研究,提出了几种相关方法,以解决存在的实际问题。首先,当前的许多映射算法都过于依赖本体中实体的字符串信息和本体的结构,这些技术有时能得到很好的映射结果,但有时也会出现映射对发现失败的现象。解决此问题的最直接方法就是通过实例来丰富每个概念结点所拥有的语义信息。基于实例的映射方法使用实例对应的文本中出现的单词及其频率来发现元素之间的映射关系,实例信息的丰富程度决定了此方法的映射效率,本体中的实体可能具有多个实例,每个实例又包含实例名称及与其相关联的属性值。但许多本体在构建时并没有为每个实体添加相应的实例信息,这将直接影响基于实例映射策略的性能。另外,在映射发现时存在的不确定性问题也有待解决。本文提出基于扩展信息的本体映射方法,首先,使用基于本体的信息检索方法将网页本体中的文本作为扩展信息对本体中的概念和属性结点进行实例扩展。然后,将本体视为分类树,利用源本体的实例信息作为训练集,使用基于层次的文本分类方法构造本体中概念和属性结点的分类器,而目标本体的实例可以作为测试集向源本体中的结点分类。上述工作的目的是为了得到实体之间等价与包含关系的概率模型。最后使用基于概率论的本体映射方法得到映射集合。这种方法可以为没有实例信息的本体扩展实例集合,提高基于实例的映射方法的有效性,通过结合概率论的映射方法,不仅能得到等价关系的映射,也可以同时得到包含关系的映射,在一定程度上解决了映射发现的不确定性问题。实验结果表明本文提出的方法对缺少实例或没有实例的本体进行映射时有很好的映射结果,并且能得到更为复杂的关系映射。其次,随着语义互操作需求的不断增长,为了满足更多的语义应用,出现了规模庞大、结构复杂的本体。传统的映射技术在处理轻量级本体之间的映射时有很好的性能,但对于包含实体较多,关系较为复杂的大规模本体,映射质量和映射效率都不理想。因此,处理大规模本体之间的映射发现任务已成为当前的研究热点。其中一种方法就是避免比较两个本体中的所有实体。从两个本体中选择可能成为映射的实体对作为候选映射对,这就需要对原有的候选映射集合进行压缩。换言之,就是从原有的实体对集合中选择更为准确的实体对作为候选映射集合。本文针对此类问题提出了基于AP聚类的候选集压缩及映射方法。该方法将近似值传递的聚类思想应用于本体中实体的聚类,将原有的映射候选集压缩成映射候选子集,属于同一类中的实体为映射候选集合,排除噪音实体,进而提高映射性能。在语义相似度的计算中,同一本体与不同本体中的实体采用不同的计算方法,同时考虑了语义相似信息与结构相似信息对聚类的影响。对规模较小的本体进行聚类时,聚类结果可直接作为M:N映射输出,而大规模本体产生的聚类结果则可作为映射候选集输出,再进行其它针对性策略的映射,以产生更精确的映射结果。再次,本体映射策略的开发主要是针对于不同本体中实体的相似度计算而进行的,而这些实体所具有的信息种类又多种多样(例如:语义信息、结构信息),这些信息可以理解为本体的特征,而单一的映射方法却不能获得本体实体中的所有信息,因此,多策略的应用被目前的映射方法普遍使用。本文提出了基于匹配空间的多策略匹配方法,该方法先使用基于字符串与基于语义的方法构造策略的匹配空间,其中通过分析各种策略的优劣判断是否加入匹配空间,这种方法可根据不同的策略所计算的实体相似度值得出映射状态,并输出最佳匹配状态。然后,在这种状态下使用基于结构的匹配策略迭代生成映射结果。通过将各种匹配策略进行合理的结合,避免了单一方法不能利用本体全部信息的不足,并且灵活地允许用户选择各种匹配策略,为各种策略的结合提出了一个很好的整合框架,使映射结果更为理想。最后,提出基于决策理论的本体映射方法,用快速本体映射方法得出候选映射实体对,然后根据信息理论对其相似信息分析并进行策略预选,利用熵值决策分析方法对所选策略进行结合,得出最终映射结果。此方法避免无用映射策略对映射结果的影响,为用户提供了一个有效选择策略的方式,并通过自动调整域值来提高映射的查准率及查全率。最后通过对所选策略计算得出的相似度值进行分析并调整结合权值。实验表明,通过策略的选择及参数的调整,从整体上提高了映射的性能。虽然公用数据集上的实验结果显示了这几种方法的有效性,但它们也存在着一些缺陷和问题。因此,在下一步的工作中,将对这些问题进行有针对性的改进,以进一步提高方法的性能。