论文部分内容阅读
近年来,基于维基百科的知识库构建得到人们的大量关注,维基百科中各种不同的语义信息被挖掘出来,而其中最重要的语义信息之一就是实体类别(Type)信息。目前在维基百科中推断实体类别的数据源主要分为两种:一种是从维基百科半结构化数据,如信息框(Infobox)和文章分类(Category)中推断实体类别;另一种是在维基百科文章摘要部分进行实体类别推断。但是现有工作未考虑维基百科中大规模的文章正文,而其中恰恰隐含了大量的实体类别信息。为了进一步补充现有知识库中的实体类别信息,本文旨在从维基百科中的全部文本数据(文章摘要+正文)中进行实体类别推断。目前,基于文本的实体类别推断在自然语言处理领域存在一些相关研究,但这些方法存在如下问题:1)通过统计机器学习方法进行实体类别推断的方法需要大量训练数据,而现有获取的训练数据中存在大量噪声,2)严重依赖于人工定义的特征或者规则,3)无法说明为什么实体被推断为某个类别,即不具备可解释性。因此,研究如何在克服以上问题的基础上有效地在维基百科全部文本中进行实体类别推断是一个值得研究的课题。本文提出了一个从维基百科文本获得训练数据的方法,基于这些训练数据构造了一个图模型,从中抽取出用于实体类别推断的模式。该模式抽取方法不依赖于人工定义的特征,同时用于实体类别推断的模式具有可解释性。具体而言,本文的主要贡献有以下三点内容:1)本文提出了一种通过启发式规则与随机游走获取训练数据的方法。相比之下,目前一些从维基百科获取训练数据的方法会造成大量噪声,对实验结果产生不良影响。2)本文提出了一种基于维基百科训练数据的细粒度实体类别推断方法。本文构建一个基于词嵌入的图模型,通过Bootstrapping算法从中抽取出用于实体类别推断的模式。然后尝试将实体所在的上下文与这些模式进行匹配,如能够匹配某一模式,则句子中的实体将被推断为模式对应的类别,同时模式可作为推断得到的实体类别的解释。实验结果表明,本文方法在不同的数据集上均优于现有的基于文本的实体类别推断方法。3)本文提出的方法能够用于扩充维基百科中的实体类别信息。在针对维基百科的全部文本使用本文提出的方法进行实体类别推断后,相比于YAGO,共得10,417,582条新的类别信息,平均为每个实体扩充了 2.49个类别。