论文部分内容阅读
随着海量数据时代的到来,用户对于搜索互联网上纷繁复杂数据的要求越来越高,基于关键字匹配的传统搜索引擎系统已经愈来愈无法满足人们的要求,因此,如何为用户提供一个精准而高效的自动问答系统成为了产业界重要的研究项目。近年来,随着知识图谱的蓬勃发展,基于知识图谱的问答系统无论是在英文还是在中文领域越来越体现其在自动问答领域的重要性。与传统搜索引擎不同的是基于知识图谱的问答系统不再为用户返回一系列匹配文档,而是凭借其智能的精准推荐为用户推送准确答案,显著地提升了用户使用体验,提高了用户使用搜索引擎产品的粘性,进一步也为企业创造了经济价值。因此,越来越多的研究人员投入到知识库问答系统的研究中。基于知识库问答系统主要分为基于语义解析的方法和基于分布式语义表示的方法,其中语义解析的方法受到语义鸿沟的影响,使得问答的准确率和召回率较低,分布式语义表示的方法随着研究的深入逐步超越了语义解析的方法,但是现阶段的基于分布式语义表示知识库问答方法的性能还有待提高,以往的研究中受到语义表示的准确性以及实体与关系之间缺乏联系制约了知识库问答的研究。本文围绕基于简单问题的知识库问答任务,从数据标注、问句多维度表征、联合模型构建等多个方面展开研究,主要的研究内容包括联合学习的实体识别和关系预测的模型的构建,以及基于倒排索引的实体链接和基于路径搜索的答案查找。针对简单问题的知识库问答中实体识别和关系检测这两个组件相互独立,且忽略了实体与关系之间的对应关系的问题,提出一种联合实体识别和关系预测的神经网络模型,采用CNN-BiLSTM-CRF识别问句中的实体,并将CNN-BiLSTM提取的文本特征与问题的标签嵌入特征组合之后进行关系预测,实体识别的F1值相比独立训练的方法提高了1.1%,关系预测的准确率提高了1.6%。为了快速地将问题中的主题实体链接到知识库中,减少复杂网络的训练难度,采用n-grams模型与TF-IDF的相结合进行特征抽取构建实体别名倒排索引,然后建立路径搜索索引进行答案的查找。在流行的SimpleQuestions数据集上分析并验证了所提方法的有效性,实体链接的召回率也有了显著提升,在测试集上问答系统的准确率最终提升了2.6%。