论文部分内容阅读
知识库实体对齐的目标是能够高质量链接多个现有知识库,并从顶层创建一个大规模的统一的知识库,从而帮助机器像人一样去理解底层数据,以更好地实现智慧网络。然而,在当今大数据的条件下,知识库实体对齐在数据质量、匹配效率等多个方面存在很多问题与挑战有待解决。本文工作针对知识库实体对齐存在的问题进行研究。具体地,本文主要的研究内容和贡献点如下:1.知识库实体对齐技术综述:论文首先从知识库实体对齐所面临的挑战出发,对十几年来的可用于知识库实体对齐的技术和算法进行综述,通过分类和总结现有技术,为进一步的研究工作提供研究基础和可选方案。2.基于分区块技术的大型知识库实体对齐:针对现有实体对齐技术的问题,本文设计了一个可扩展的基于分区块技术的自动对齐框架,可以实现两个大型知识库实例的机器对齐。框架综合运用了前文综述的多种实体对齐技术,提出了一套新颖的分区块对齐的三阶段匹配框架,可以有效地减少匹配规模和人工参与、提高性能和质量。同时还设计了一种并行算法来进一步提高效率。本文的自动算法可以作为人机算法的研究基础。3.人机结合的知识库实体对齐:由于大型知识库的不一致性和不确定性,自动化的知识库对齐虽然成本低,但质量不高。开放的众包平台的提出,使得可以利用普通网上用户的资源来提高实体对齐质量。如何更好的人机合作完成对齐任务成为一个研究重点。基于此,论文在自动算法的基础上提出了一种基于众包技术的人机方法:使用基于属性的分区来化简知识库的对齐,在分区上构建偏序集进行推理以减少众包问题的数量。论文形式化了众包问题的选择方法,并证明这个问题是NP难的,并提出近似比为1-1/e的贪心算法来解决这个问题。4.基于决策理论的众包知识库实体对齐:在众包的知识库实体对齐任务中,有两个基本问题需要研究:问题选择-哪些问题是应该被众包的最有价值的问题;问题的分配-对于选定的问题最好选择哪些众包工人来回答?本文在众包算法的基础上通过决策理论来解决这两个问题:首先在这两个问题下定义了两类预算控制模型;然后在不同的成本控制下制定决策,利用决策理论建立影响图进行结果推断;最后在推理的基础上提出两个有效的算法来解决这两类问题,文中证明在有限预算的情况下问题分配是NP难的,并设计贪心算法来有效地解决这个问题。