论文部分内容阅读
近年来随着AI技术的发展,问答系统技术也逐渐走向了成熟。问答系统可通过信息抽取技术来准确的理解分析自然语言问题,并返回较为准确的问题答案。根据答案的来源不同,问答系统可分为生成式问答系统和检索式问答系统。其中根据信息提供方式的不同,检索式问答系统又可分为基于搜索引擎的web信息检索与基于知识库的信息检索。随着开放知识库以及知识图谱技术的发展,知识库的检索式问答系统被广泛关注。基于知识库的问答系统主要解决由三元组(实体,关系,实体)构成的事实类问题。在信息抽取阶段,通过抽取问句中的三元组成分来理解问句。实体,关系作为我们三元组的重要组成单元,准确的抽取问句中的相关实体和关系不仅有利于更好的理解分析问句同时能够提供更加准确的问句意图领域类别。本文主要研究方向为通过抽取问句中的实体和关系信息,分析实体和关系与问句中其它关键词的潜在含义,实现问句的意图分类。本文的主要研究内容包括以下部分:实体和关系抽取的模型。本文提出了一个新的实体和关系抽取模型,该模型将整个实体和关系的抽取任务化分为两个子任务:实体和关系关键词抽取、关系映射。在实体和关系关键词抽取任务中,设计了一个新的序列标注模式和一个端到端的实体和关系关键词抽取的序列标注模型(BI-LSTM-LSTM)。在关系映射任务中,借助知识库wikidata中的信息,提取关系特征得到特征向量,并构建了特征匹配函数得到关系与关系关键词映射。问句意图分类。利用问句中的实体和关系信息构建了问句意图分类模型。根据问句中实体和关系的抽取结果将问句分成两部分:已提取出完整三元组关系的问句,未提取出完整三元组关系的问句。对于前者本文给出了基于答案实体类别路径树的问句意图分类方法。对于后者本文建立了基于KNN算法的问句意图分类算法,通过提取句子级别的特征构建句子级别的特征向量来衡量问句间的距离。为了验证上述两个模型的有效性,在Webquestion,Graph Question等相关数据集上进行了实验与分析。实验结果表明本文提出实体和关系抽取模型,同等条件下,分别在实体抽取、关系抽取、以及实体和关系综合抽取任务中都获得了高于其它模型的F1值。在问句意图分类任务方面,实验分析得出本文模型能够较好的完成英文问句意图分类任务。