知识库实体对齐关键技术研究

来源 :清华大学 | 被引量 : 1次 | 上传用户:Air8712
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
知识库实体对齐的目标是能够高质量链接多个现有知识库,并从顶层创建一个大规模的统一的知识库,从而帮助机器像人一样去理解底层数据,以更好地实现智慧网络。然而,在当今大数据的条件下,知识库实体对齐在数据质量、匹配效率等多个方面存在很多问题与挑战有待解决。本文工作针对知识库实体对齐存在的问题进行研究。具体地,本文主要的研究内容和贡献点如下:1.知识库实体对齐技术综述:论文首先从知识库实体对齐所面临的挑战出发,对十几年来的可用于知识库实体对齐的技术和算法进行综述,通过分类和总结现有技术,为进一步的研究工作提供研究基础和可选方案。2.基于分区块技术的大型知识库实体对齐:针对现有实体对齐技术的问题,本文设计了一个可扩展的基于分区块技术的自动对齐框架,可以实现两个大型知识库实例的机器对齐。框架综合运用了前文综述的多种实体对齐技术,提出了一套新颖的分区块对齐的三阶段匹配框架,可以有效地减少匹配规模和人工参与、提高性能和质量。同时还设计了一种并行算法来进一步提高效率。本文的自动算法可以作为人机算法的研究基础。3.人机结合的知识库实体对齐:由于大型知识库的不一致性和不确定性,自动化的知识库对齐虽然成本低,但质量不高。开放的众包平台的提出,使得可以利用普通网上用户的资源来提高实体对齐质量。如何更好的人机合作完成对齐任务成为一个研究重点。基于此,论文在自动算法的基础上提出了一种基于众包技术的人机方法:使用基于属性的分区来化简知识库的对齐,在分区上构建偏序集进行推理以减少众包问题的数量。论文形式化了众包问题的选择方法,并证明这个问题是NP难的,并提出近似比为1-1/e的贪心算法来解决这个问题。4.基于决策理论的众包知识库实体对齐:在众包的知识库实体对齐任务中,有两个基本问题需要研究:问题选择-哪些问题是应该被众包的最有价值的问题;问题的分配-对于选定的问题最好选择哪些众包工人来回答?本文在众包算法的基础上通过决策理论来解决这两个问题:首先在这两个问题下定义了两类预算控制模型;然后在不同的成本控制下制定决策,利用决策理论建立影响图进行结果推断;最后在推理的基础上提出两个有效的算法来解决这两类问题,文中证明在有限预算的情况下问题分配是NP难的,并设计贪心算法来有效地解决这个问题。
其他文献
自《中华人民共和国政府采购法》颁布实施以来,政府采购已经成为了政府部门购买货物和劳务最为重要的方式,也是财政资金支出的重要途径。政府采购的实质是社会的公共采购,是
悬浮隧道作为一种新型的交通结构,具有许多优势。但是,悬浮隧道目前仍处于研究阶段,并未真正建成,仍然受很多条件的限制,并且悬浮隧道的安全性是不得不考虑的一个重要方面。本文在
抑郁症的患病高峰年龄为25—44岁,正是人生最美好、最富有活力的阶段。女性的患病率约为男性的2倍。近期国际上有权威的心理医学专家指出,"如果说20世纪是焦虑的年代,那么21
会议
<正>&#39;裂项相消法&#39;是数列求和的重要方法之一,它的实质是将数列中的每项(通项)分解,然后重新组合,使之能消去一些项,最终达到求和的目的.在各种教辅材料和试题中,经常
随着无人机(Unmanned Aerial Vehicle,UAV)的发展与普及,无人机应用逐渐进入到社会生活的各个领域,无人机自组织网络(Flying Ad-hoc Networks,FANETs)也受到了越来越多的关注
苍术是主要的药用植物之一。该研究根据目前苍术病害的研究进展,结合实地考察,对苍术栽培上,包括为害严重的根部病害根腐病和白绢病以及新病害菌核病在内的11种常见病害的种
目的:为观察开塞露在治疗胎粪性便秘中的效果。方法:将胎粪性便秘的新生儿分成两组,实验组予开塞露灌肠,对照组采用传统的等渗盐水灌肠方法。结果:实验组疗效优于对照组(p〈0.01,
社会保障公共服务需求不断加大,对公共服务管理体制、运行机制和社会保障经办机构的组织结构和能力建设,乃至服务型政府建设提出挑战。应对这个挑战需要公共服务理念、公共服
非接触式供电技术由于避免了供电电源与列车的直接接触,可有效解决断线、接触电火花、线路磨损、雷击干扰断电、意外触电等接触式供电方式存在的弊端,满足线路规划对沿线景观
<正>股份公司财务部总结出一套资产分类评价体系,依托收益法资产评估模型,创新投资回报净现值(NPV)资产分类评价方法。近年来,随着国际油价的持续低位震荡,市场竞争加剧,中国