论文部分内容阅读
近年来,网络巨大的信息承载能力,给人们带来了大数据时代,人们学习与检索信息的方式也随之发生了重大转变。在以往的方式中,人们通常使用百度,谷歌等经典的搜索引擎进行检索信息。但是这种检索方式大多利用关键词检索,返回大量的词汇相关网页,需要进一步进行人工筛选。而人们更希望的方式则是使用自然语言进行提问,机器直接返回简洁的、能理解的答案。自然语言处理是人工智能领域的重要研究方向,词法语法分析等语言学技术,统计学习技术被相继提出,其主要目的就是为了解决人类与机器之间的信息语义鸿沟。问答任务作为自然语言处理的重要课题,一直备受人们的关注。最近,深度学习技术的出现,给自然语言处理研究带来了新的前景。自然语言问答任务的最新研究成果也大多基于神经网络的。根据知识源的不同,问答系统可以分为基于纯文本的问答任务与基于知识图谱的问答任务两种方式,本文将分别展开研究。针对纯文本问答任务,本文提出了基于信息丢弃机制的局部推理模型。在纯文本问答中,由于文本上下文很长,包含线索与证据数量较多。通过对数据集的研究可以发现,并不是所有的线索信息都可以对提取答案起正面作用,一些多余的信息可能会干扰最后的信息推理。而以往的模型通常将全部的文本信息进行融合处理,从而可能导致错误。本文提出的语义信息丢弃机制,可以筛选出有效的语义向量,丢弃与问题关联度较小的干扰信息。这种局部推理模型可以有效提升预测答案的准确率,在开放式问答数据集上的结果证明,该模型均优于基准模型。知识图谱问答任务的特点是,知识资源结构化明显,信息证据简单,通常都是由一些简单问句进行提问的。我们通过一种流水线的方式进行处理,选出问题的主语实体和谓语关系,然后通过信息整合方式选出最有可能的答案实体。本文主要针对其中的关系抽取任务进行改进。我们发现在以往的信息处理模型中,神经模型通常只利用问题语句进行关系分类。但这种问题句往往缺乏上下文,很难充分利用神经网络的计算能力。为了解决这个问题,本文利用语句主题词和实体背景信息作为辅助推理信息,使得问题获得充分的上下文背景。我们利用两种注意力机制模型,将辅助信息与问题进行语义匹配融合。在数据集上的实验结果证明,我们的模型可以有效提升关系抽取准确率,有效并提升最终问答的准确率。