论文部分内容阅读
基于知识库的自然语言问答指的是针对以自然语言形式给出的问题,利用结构化的知识库给出答案,它是自然语言处理的重要研究方向之一。知识库问答的主要方法可以分为基于信息提取的方法、基于语义解析的方法和基于向量空间建模的方法三类,其中的关键技术包括知识的抽取和表示、用户问句的语义表征和基于知识库的答案生成等。受到问句语义表征准确性、问答对训练数据规模等因素的影响,现阶段知识库问答系统的性能仍有待提升。此外,开源的大规模开放领域中文知识库较为缺乏,这也制约了面向中文的知识库问答技术的研究开展。本文围绕基于知识库的自然语言问答任务,从问句语义表征、训练数据准备和中文知识库构建等多个方面开展研究工作,主要研究内容包括面向知识库问答中复述问句评分的词向量构建方法、结合神经网络问句生成的知识库问答方法以及中文知识库构建中的知识融合方法。传统词向量通过与具体任务无关的无监督训练方法得到,用于知识库问答中的复述问句评分时无法体现句子级的语义约束关系。因此,本文提出了一种基于复述知识约束的词向量训练方法。该方法在词向量训练过程中引入句子级的语义约束信息,在不改变句子语义合成方法的前提下,通过优化单词层面的语义向量,来改善句子层面的语义表征,最后达到提升复述问句评分以及知识库问答系统回答问题的准确度的效果。现有基于向量空间建模的知识库问答方法依赖训练数据,而人工生成大规模的问答对数据较为困难。本章针对以上问题将基于编码器-解码器神经网络模型的问句生成方法引入知识库问答系统构建,通过构建问句生成模型实现由知识库中三元组自动生成问句,用于知识库问答的模型训练。实验结果表明使用模型生成问句相对传统模版生成问句,有效改善了知识库问答系统的准确率。最后,本论文介绍一种基于知识融合的中文知识库构建方法。该方法首先从百度百科网页的信息框中抽取信息构建初始知识库,然后采用基于链接词信息的实体对齐和基于Jaccard系数的属性映射方法,实现初始知识库与现有Freebase知识库的融合。通过构建人物、地理等部分领域的中文知识库,验证了以上方法在已有本体库基础上实现知识库扩充的有效性。