关于维基百科中的实体类别推断方法的研究

来源 :东南大学 | 被引量 : 1次 | 上传用户:tangyajun1314
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
近年来,基于维基百科的知识库构建得到人们的大量关注,维基百科中各种不同的语义信息被挖掘出来,而其中最重要的语义信息之一就是实体类别(Type)信息。目前在维基百科中推断实体类别的数据源主要分为两种:一种是从维基百科半结构化数据,如信息框(Infobox)和文章分类(Category)中推断实体类别;另一种是在维基百科文章摘要部分进行实体类别推断。但是现有工作未考虑维基百科中大规模的文章正文,而其中恰恰隐含了大量的实体类别信息。为了进一步补充现有知识库中的实体类别信息,本文旨在从维基百科中的全部文本数据(文章摘要+正文)中进行实体类别推断。目前,基于文本的实体类别推断在自然语言处理领域存在一些相关研究,但这些方法存在如下问题:1)通过统计机器学习方法进行实体类别推断的方法需要大量训练数据,而现有获取的训练数据中存在大量噪声,2)严重依赖于人工定义的特征或者规则,3)无法说明为什么实体被推断为某个类别,即不具备可解释性。因此,研究如何在克服以上问题的基础上有效地在维基百科全部文本中进行实体类别推断是一个值得研究的课题。本文提出了一个从维基百科文本获得训练数据的方法,基于这些训练数据构造了一个图模型,从中抽取出用于实体类别推断的模式。该模式抽取方法不依赖于人工定义的特征,同时用于实体类别推断的模式具有可解释性。具体而言,本文的主要贡献有以下三点内容:1)本文提出了一种通过启发式规则与随机游走获取训练数据的方法。相比之下,目前一些从维基百科获取训练数据的方法会造成大量噪声,对实验结果产生不良影响。2)本文提出了一种基于维基百科训练数据的细粒度实体类别推断方法。本文构建一个基于词嵌入的图模型,通过Bootstrapping算法从中抽取出用于实体类别推断的模式。然后尝试将实体所在的上下文与这些模式进行匹配,如能够匹配某一模式,则句子中的实体将被推断为模式对应的类别,同时模式可作为推断得到的实体类别的解释。实验结果表明,本文方法在不同的数据集上均优于现有的基于文本的实体类别推断方法。3)本文提出的方法能够用于扩充维基百科中的实体类别信息。在针对维基百科的全部文本使用本文提出的方法进行实体类别推断后,相比于YAGO,共得10,417,582条新的类别信息,平均为每个实体扩充了 2.49个类别。
其他文献
Hilbert空间中框架的概念是由Schaeffer和Duffin两位数学家在1952年研究非调和Fourier级数时首次提出的.Hilbert空间中的框架是具有类似于基的性质的一个冗余向量组.在信号处
腈类化合物是有机合成中一类重要的中间体,可以作为合成胺、酰胺、酮、羧酸和酯等化合物的原料。此外,腈类合物在生物医药、农药、功能材料和香料等领域也有广泛的应用。腈类
随着计算机科学技术的不断进步,人们对计算机应用的需求日益迫切,进而对软件的质量提出更高的要求和期望。如何有效的管理内存,防止泄漏成为突出的问题。内存泄漏是一种常见
网络视频监控作为计算机视觉领域的研究热点,被广泛应用于公共安全、智能交通等领域。行人再识别是网络监控系统的核心任务,研究其相关的算法与技术具有重要的学术意义和巨大
随着房地产相关经济活动越来越频繁,对房地产估价的需求也随之增大,对房地产价值的精确衡量已成为一个令人关注的话题。而目前市场上使用较多的三种传统估价方法市场法、成本
一维空心纳米复合材料具有比表面积大、孔隙率高、扩散距离短等独特的性质,在染料废水处理、蛋白吸附和锂离子电池等领域表现出广阔的研究空间和良好的应用前景。然而,一维空
形选系统是一种物料自动分选系统,依据物料的形状特性,对同种物料进行分类挑选,并且分选速度快,精度高,能够有效的提高物料分选的效率。分选系统的种类繁多,但是一般都仅仅针
类胡萝卜素是存在于生物体中的一种十分重要的色素。它不仅是光合作用的捕光色素和光保护色素,还是脱落酸和独脚金素等植物激素的合成前体,对植物的生长发育至关重要;人类和
本文研究了Top-k文档检索问题,即对给定的文档集D={d1,d2…,dn},对D构建索引,通过相关的打分函数给每个文档进行打分,使得对任意给定的模式P,返回文档集中与该模式最相关的前
盐碱土壤是我国土地资源的一部分,尤其在中国的东北部,荒地资源中盐碱土壤占有很大比例。土壤中多量的可溶性盐溶液会造成植物细胞壁两侧体液渗透压的不同,使细胞内部不同程