论文部分内容阅读
知识图谱作为一种存储大量结构化和半结构化知识的语义网络,当前正广泛应用于自然语言处理的各个领域。为了充分利用知识图谱中的知识来帮助计算机更好地理解自然语言文本,就需要在知识图谱和自然语言文本之间建立“桥梁”。这将有利于知识图谱的补充完善和一系列自然语言处理任务的完成,如知识抽取、自动问答、智能搜索引擎等。知识图谱中的知识主要有实体知识和实体间的关系知识。为了将知识图谱中的关系与文本中相应的自然语言表述关联起来,本文提出了一个基于Wikidata的多粒度关系链接系统(Multi-Granuality Relation Linking System for Wikidata,MGRLSW)。MGRLSW通过把自然语言文本中的表述实体之间属性关系的词语或词语序列映射到知识图谱中对应的属性上,来建立有效的关系链接。为了构建关系链接模型,本文主要完成了如下工作:1.自然文本往往是通过多种表达方式描述一种关系,为了将这种表达多、含义相似的关系“聚起来”,并且把不同的类别分开来,就需要对句子进行聚类,即把相似的表达归为一类。我们使用位置敏感的词语移动距离度量(Location Sensitive Word Mover’s Distance,LSWMD)算法计算句子之间的相似度,并使用DPC算法对其进行聚类,其中一个簇表示一个关系的某种相似表达。2.通过分析表示关系的词语分布,可以观察到它们遵循一定的规律,我们使用Beta分布,Gauss分布和Gaussion Mixtrue Model(GMM)来拟合词语的位置,并分别构建相应的BoD-beta模板,BoD-gauss模板和BoD-GMM模板。其中BoDGMM模板使用多粒度思想,将单个粒度的Gauss分布转化为多个粒度的Gauss分布,并从每个粒度层面上抽取特征,实现了多个粒度层的转化。最后将MGRLSW应用到关系分类任务上,与两种前沿方法进行对比,验证了模型的有效性。3.为了展示模型的主要功能,我们搭建了一个展示系统,提供给用户除实体知识之外更多的信息。实验结果表明MGRLSW是行之有效的。我们还可以将MGRLSW应用到关系预测、自动问答和智能搜索引擎等领域。关系链接的构建将进一步完善知识图谱,从而为人工智能提供更好的支撑作用。