论文部分内容阅读
自动问答是自然语言处理(Natural Language Processing,NLP)领域的一个具有重要研究意义和挑战性的新型应用。近年来,随着数据挖掘等相关技术的不断发展,涌现出一批大规模的知识库的出现,如:Freebase、DBpedia、YAGO等,根据这些知识的来源,问答可以分为:机器阅读理解,知识库问答等。知识库问答系统(Knowledge Base Question Answering,KBQA)是根据用户提出的问题,直接返回一个确定的答案,为用户提供了一种直接、高效的信息获取方式。现有的知识库问答系统研究的主要方法分为两类:基于语义分析的方法(SP)和基于信息抽取的方法(IE)。基于语义分析的方法主要是将用户提出的自然语言处理问题转化成与给定知识库相关的逻辑表达式,并利用形式化方法表示问题语义,然后根据逻辑表达式进行知识库查询得出答案;基于信息抽取的方法首先确定问句的中心实体(搜索范围),得到以中心实体为中心的一系列候选答案,然后提取相关特征与候选答案进行匹配,筛选,排序。随着深度学习技术的不断发展,研究者们开始研究基于深度学习的知识库问答,通过使用端对端(End to End)的网络模型对问句,候选答案等内容进行分布式表示学习获取正确的答案。针对中文知识库相对匮乏,同时中文的表达形式多样,语言特性复杂等特点,本文研究在上述背景之下,采用了一种融合多粒度的表示学习改进单一粒度表示学习的知识库问答方法和一种基于多视角的注意力机制的属性选择的知识库问答方法,进一步提升了知识库问答的准确率。在目前一些研究的基础上,本文具体研究内容如下:1.融合多粒度的表示学习的知识问答方法。根据中文表达的特点,本文针对问句用词等细微度的表达差异所导致的无法匹配等问题,因此本文结合字符级别和词级别的综合嵌入来进行属性选择。为了改善word2vec在中文歧义词上的效果,本文使用基于BERT-Bi LSTM-CRF的中文命名实体识别方法进行实体识别得到问句的实体。然后再知识库中检索该实体的所有三元组得到候选三元组集合,采用字,词级别结合的方式对问题和候选属性进行不同粒度层次的编码,最后进行相似度计算,将相似度最高的属性值作为答案,并在一定程度上缓解了OOV(out of vocabulary)问题。2.基于多视角的注意力机制的知识库问答方法。该方法主要针对理解问题语义,问题的多种表达形式以及根据相应答案的不同方面对应不同的问句表示,使用多种注意力机制结合的方式增加问题和属性之间的交互信息来分别表示问题和属性,然后对训练集进行训练。由于中文的表达形式多样,一词多义等特点,使用多注意力机制来进行语义的捕捉与完善,通过不同的视角以及和答案之间的交互信息来帮助更进一步地来理解问句语义信息。模型同时使用co-attention,self-attention以及注意力变体max-pooling,mean-pooling,alignment-pooling进行映射,每个映射都会使用一个实值注意力特征来加强原始向量的特征,这为后续的编码层提供了实值特征,从而改善表示学习过程。本文将上述两种方法在NLPCC KBQA公开数据集上展开实验,使用多个指标和对比实验来衡量模型的效果,并将本文实验结果与其它方法在该公开数据集上的结果进行比较,进一步证明了本文两种方法的有效性。