知识库实体对齐关键技术研究

来源 :清华大学 | 被引量 : 1次 | 上传用户：Air8712

【摘要】

：

知识库实体对齐的目标是能够高质量链接多个现有知识库,并从顶层创建一个大规模的统一的知识库,从而帮助机器像人一样去理解底层数据,以更好地实现智慧网络。然而,在当今大数

【作者】

：

庄严

【出处】

：

清华大学

【发表日期】

：

2018年01期

【关键词】

：

知识库实体对齐人机方法众包任务分配决策理论

下载到本地 , 更方便阅读

下载此文赞助VIP

声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架

论文部分内容阅读

知识库实体对齐的目标是能够高质量链接多个现有知识库,并从顶层创建一个大规模的统一的知识库,从而帮助机器像人一样去理解底层数据,以更好地实现智慧网络。然而,在当今大数据的条件下,知识库实体对齐在数据质量、匹配效率等多个方面存在很多问题与挑战有待解决。本文工作针对知识库实体对齐存在的问题进行研究。具体地,本文主要的研究内容和贡献点如下:1.知识库实体对齐技术综述:论文首先从知识库实体对齐所面临的挑战出发,对十几年来的可用于知识库实体对齐的技术和算法进行综述,通过分类和总结现有技术,为进一步的研究工作提供研究基础和可选方案。2.基于分区块技术的大型知识库实体对齐:针对现有实体对齐技术的问题,本文设计了一个可扩展的基于分区块技术的自动对齐框架,可以实现两个大型知识库实例的机器对齐。框架综合运用了前文综述的多种实体对齐技术,提出了一套新颖的分区块对齐的三阶段匹配框架,可以有效地减少匹配规模和人工参与、提高性能和质量。同时还设计了一种并行算法来进一步提高效率。本文的自动算法可以作为人机算法的研究基础。3.人机结合的知识库实体对齐:由于大型知识库的不一致性和不确定性,自动化的知识库对齐虽然成本低,但质量不高。开放的众包平台的提出,使得可以利用普通网上用户的资源来提高实体对齐质量。如何更好的人机合作完成对齐任务成为一个研究重点。基于此,论文在自动算法的基础上提出了一种基于众包技术的人机方法:使用基于属性的分区来化简知识库的对齐,在分区上构建偏序集进行推理以减少众包问题的数量。论文形式化了众包问题的选择方法,并证明这个问题是NP难的,并提出近似比为1-1/e的贪心算法来解决这个问题。4.基于决策理论的众包知识库实体对齐:在众包的知识库实体对齐任务中,有两个基本问题需要研究:问题选择-哪些问题是应该被众包的最有价值的问题;问题的分配-对于选定的问题最好选择哪些众包工人来回答?本文在众包算法的基础上通过决策理论来解决这两个问题:首先在这两个问题下定义了两类预算控制模型;然后在不同的成本控制下制定决策,利用决策理论建立影响图进行结果推断;最后在推理的基础上提出两个有效的算法来解决这两类问题,文中证明在有限预算的情况下问题分配是NP难的,并设计贪心算法来有效地解决这个问题。

其他文献

A市医疗器械政府采购问题研究

自《中华人民共和国政府采购法》颁布实施以来,政府采购已经成为了政府部门购买货物和劳务最为重要的方式,也是财政资金支出的重要途径。政府采购的实质是社会的公共采购,是

学位

政府采购医疗器械政府采购领域改革

悬浮隧道及其消防与通风浅谈

悬浮隧道作为一种新型的交通结构，具有许多优势。但是，悬浮隧道目前仍处于研究阶段，并未真正建成，仍然受很多条件的限制，并且悬浮隧道的安全性是不得不考虑的一个重要方面。本文在

期刊

悬浮隧道消防结构通风

抑郁症的现状分析及治疗对策

抑郁症的患病高峰年龄为25—44岁,正是人生最美好、最富有活力的阶段。女性的患病率约为男性的2倍。近期国际上有权威的心理医学专家指出,"如果说20世纪是焦虑的年代,那么21

会议

方法源于教材,规律在于发现——记一道教材习题的探究过程和教学思考

<正>'裂项相消法'是数列求和的重要方法之一,它的实质是将数列中的每项(通项)分解,然后重新组合,使之能消去一些项,最终达到求和的目的.在各种教辅材料和试题中,经常

期刊

教材习题相消法等差数列数列求和探究过程教学思考

无人机自组织网络中的OLSR路由协议的研究与优化

随着无人机(Unmanned Aerial Vehicle,UAV)的发展与普及,无人机应用逐渐进入到社会生活的各个领域,无人机自组织网络(Flying Ad-hoc Networks,FANETs)也受到了越来越多的关注

学位

FANETsOLSR协议MPR路由控制分组NS-2ROS

苍术常见病害的病原、发病规律及综合防治

苍术是主要的药用植物之一。该研究根据目前苍术病害的研究进展,结合实地考察,对苍术栽培上,包括为害严重的根部病害根腐病和白绢病以及新病害菌核病在内的11种常见病害的种

期刊

苍术病原发病规律防治措施

开塞露在治疗新生儿胎粪性便秘中的应用

目的：为观察开塞露在治疗胎粪性便秘中的效果。方法：将胎粪性便秘的新生儿分成两组,实验组予开塞露灌肠,对照组采用传统的等渗盐水灌肠方法。结果：实验组疗效优于对照组（p〈0.01,

期刊

开塞露灌肠新生儿胎粪性便秘

论社会保障公共服务

社会保障公共服务需求不断加大,对公共服务管理体制、运行机制和社会保障经办机构的组织结构和能力建设,乃至服务型政府建设提出挑战。应对这个挑战需要公共服务理念、公共服

期刊

社会保障管理体制社会保障运营机制三元组织结构公共服务外包

非接触供电技术及其在轨道交通上的应用

非接触式供电技术由于避免了供电电源与列车的直接接触,可有效解决断线、接触电火花、线路磨损、雷击干扰断电、意外触电等接触式供电方式存在的弊端,满足线路规划对沿线景观

期刊

供电系统非接触供电电磁感应轨道交通中速悬磁浮列车

推进资产分类管理提高质量和创效能力

<正>股份公司财务部总结出一套资产分类评价体系,依托收益法资产评估模型,创新投资回报净现值(NPV)资产分类评价方法。近年来,随着国际油价的持续低位震荡,市场竞争加剧,中国

期刊

分类评价投资回报创效能力分类管理在建工程收益法净现值股份公司提高质量

知识库实体对齐关键技术研究

其他学术论文