论文部分内容阅读
近年来,随着大量知识的产生,知识图谱正在发挥着越来越重要的作用,其中,知识库就是构建知识图谱的关键,然而这些知识库往往缺乏一定的领域通用性,不能满足特定领域的知识图谱构建。对于一个特定领域的知识图谱,领域实体以及实体关系的数量是相当大的,如果单纯靠人工统计构建,费时费力。而且,特定领域知识数据的来源并非都是结构化或半结构化文本,大多数以非结构化文本的形式存在,这就增加了领域知识获取的难度。因此,自动构建面向特定领域的知识库成为研究的重点。特定领域知识实体及实体间关系的获取是构建知识库和知识图谱的前提。本文主要针对知识实体识别和实体关系抽取进行相关工作的研究。具体研究内容有以下几方面:1)采用条件随机场(CRF)模型实现领域文本知识实体抽取工作。在建立CRF识别模型的过程中,引入词法分析特征、句法分析特征。为了能更好地提高抽取效果,引入语义依存特征,实验效果明显。2)提出了一种混合词法、混合句法的实体上下位关系抽取的方法。通过对语料的分析,选取某一种模式的句子作为研究对象,采用上下位实体分离机制,分别制定相应的词法规则库和句法规则库,进行上下位实体概念的抽取。3)提出了一种基于词向量的半监督领域实体关系抽取方法。根据依存句法分析,抽取具有主谓宾关系的动词框架作为种子模板,使用Bootstrapping算法完成实体三元组的抽取和扩充,采用基于词向量的相似度计算方法,抽取实体概念满足一定相似度的词,完成实体关系的抽取。实验证明,本文提出的方法是有效的。基于条件随机场的知识实体抽取方法的准确率能达到90%左右;旅游领域文本的上下位关系抽取方法在一定程度上可以很好地完成上下位实体概念对的获取;通过基于word2vec方法对语料的训练,完成实体概念相似度地计算。最后,对本文存在的不足及下一步的工作研究进行了说明。