论文部分内容阅读
随着语义网技术的不断成熟,网络资源环境向智能化、语义化和结构化方向发展。当前的网络资源环境中的信息多数是以人能够理解的形式呈现的,缺乏被计算机理解和处理的基本形式,阻碍了网络资源环境的智能化、语义化和结构化发展。语义网的提出可以很好的解决这些问题,通过给万维网上的文档添加形式化语义信息,使计算机可以理解和处理这些文档,实现数据的自动化处理,提高信息检索的效率。关联数据的提出使语义网有了实质性的发展,而且已被W3C推荐为语义网的最佳实践。通过将分散领域中的数据通过结构化描述以及数据之间的链接关联起来,形成全球巨大数据空间,即数据网络。这种数据网络资源环境为信息的最大限度共享、重用以及发行提供了保障,也为人们的知识发现活动提供了新的机遇。随着数据网络中的关联数据量的不断增加,如何利用关联数据特点进行知识发现成为当前研究需要解决的关键问题。本文主要针对关联数据知识发现研究中的语义相似度计算进行研究。通过对现有RDF数据的语义相似度计算方法的研究,分析其优缺点,提出了多因素关联数据语义相似度计算方法。该方法重点分析了影响相似度计算的3个重要因素,属性取值类型、属性权值和关联关系,并针对每个影响因素给出了相应的相似度计算公式,最后通过具体的实例对该方法进行了验证。实验结果表明,该方法充分利用了概念之间的语义信息,能更准确表示出概念之间的语义相似关系。在不同的应用中,属性的重要性是不同的,属性权值也会发生一定的变化,本文针对属性权值计算问题进行了进一步的研究,提出了动态权值关联数据语义相似度计算方法。该方法在Tversky模型的基础上改进了Song D提出的属性权值语义相似度计算方法,根据待匹配的数据集中属性不同取值的数量、属性值的分布以及属性的有效性对属性的权重进行计算,有效地区分了Tversky模型以及Song D提出的方法无法区分的实例对,提高了关联数据语义相似度计算的精度。为了验证该计算方法的有效性和稳定性,本文利用ACM和FOAF测试数据集对该计算方法进行实验。实验结果表明,与现有的关联数据语义相似度计算方法相比,动态权值的关联数据语义相似度计算方法的精度和稳定性都优于其他相似度计算方法。