论文部分内容阅读
关联型实体名称数据是采用关联数据的发布形式,表示各种实体命名性指称的数据,包括对应实体的主题和外部特征信息,蕴含着丰富的语义性和复杂的关联性,对研究数据挖掘和重塑知识体系具有重要的价值。当前,众多语义知识库对个人、机构、地点等实体数据的构建都是基于开放和关联的;在同一个知识库中,不同名称数据表征的实体之间拥有较强的相关性,它们潜在的关系往往不止是为用户展示的单一关联,而是更多的表征数据多维特征及数据价值,然而潜在关系的缺失严重影响了知识库的整体水平和数据质量;在不同知识库中,针对客观世界同一指向的实体对象在构建方法、表达形式、描述范围及揭示深度上表现出明显的区别,致使数据间的异构性强、共享程度难、数据利用率低,暴露出信息超载和信息污染等导致信息生态失衡的问题,加重了用户在网络环境下的认知负担。语义聚合成为解决上述问题的有效途径,既能动态关联和组织“知识碎片”,为发现新知识提供明确的方向和思路,又能消除多源异构数据的差异,重新形成有机的、紧密的数据聚合模式,以满足多元的知识需求和服务。本文分别基于同源数据和跨源数据对数据语义聚合问题进行了理论探讨和实证研究,主要围绕以下几个方面开展:(1)分析了目前几个典型知识库中实体名称数据的总体建设情况和差异问题,通过比较阐述了各自的优势和特征,为明晰语义聚合问题提供了现实需求。在此基础上明确了关联型实体名称数据内涵和特点,提出了关联型实体名称数据的通用关联模型。(2)通过归纳语义聚合的实现方法及应用场景,据此作为聚合研究的理论基础,探讨了本文选取的两个聚合依据,即利用数据的关联性实现同源数据聚合,利用数据的语义性实现跨数据源聚合,并据此设计了语义聚合整体框架。(3)基于因果链求解方法和关联规则技术,分别以民国四大家族人物数据集和诺贝尔文学奖作家数据集,实现了采用单一人物关系和多种实体关系的同源语义聚合实验;基于对GADES相似度测度方法及字符串编辑距离算法的改良,以源于Wikidata和YAGO的两组诺贝尔文学奖作家数据集为对象,实现了强调语义性的跨数据源匹配聚合实现,从而为以集群整体数据挖掘特征、建立关联、发现资源、消除数据的多源异构差异提供参考。