论文部分内容阅读
近年来,随着技术的不断发展,自然语言处理的研究逐渐转入自然语言理解的研究。机器阅读理解,便在这个大背景下应运而生。机器阅读理解旨在让机器能够像人类一样理解文本的意义。机器阅读理解不仅仅是对文字的“感知”,更是对文字的“认知”。 随着深度学习技术的蓬勃发展,当前机器阅读理解的主要方法是基于深度神经网络的表示学习技术。这种技术利用深度神经网络对文档和问题进行建模,自动化地学习到文本中的词法、句法及语义信息。然而,这种数据驱动技术的基础是海量的训练资源,但现有的有标注阅读理解资源的规模都非常小,大量有价值的资源数据是无标注的。本文以表示学习技术为基础,从数据资源挖掘利用的角度进行研究,并探索机器阅读理解技术在开放领域问答中的应用。主要的研究成果和创新点包括: 1、提出了一种依靠外部资源的机器阅读理解方法 针对现有很多机器阅读理解数据规模太小问题,本文提出了一种利用外部资源的机器阅读理解方法。该方法将机器阅读理解拆分成答案选择和答案生成两个子部分。进而依靠外部海量的答案选择和答案生成资源进行辅助训练。并且,针对引入外部资源的时候可能产生的数据领域不一致问题,本文依靠知识蒸馏技术进行迁移学习。最后,使用策略梯度技术将两部分结合在一起生成答案。实验结果表明本文提出的方法成功地将深度学习技术应用在小规模机器阅读理解数据MCTest中,并且取得了比传统基于特征方法更好的结果。 2、提出了一种基于生成式对抗网络的无监督机器阅读理解方法 针对现有机器阅读理解方法难以利用无标注数据的问题,本文提出了一个基于生成式对抗网络的无监督机器阅读理解方法。该方法首先构造一个生成器用以根据故事的背景文档生成可能的结论,然后依靠一个判别器判断这个结论是否可以被背景文档推断出。生成器和判别器交互地对抗训练,最终在无标注的故事语料中学习到上下文推理信息。该方法在常识机器阅读理解任务SCT中取得了比以往依靠语言学特征的方法更好的效果。 3、提出了一种基于编码器-解码器的无监督机器阅读理解方法 针对现有机器阅读理解方法难以利用无标注数据的问题,本文提出了一种基于编码器-解码器的无监督方法对海量故事文档进行建模。该方法依靠编码器将背景文档编码到一个隐含空间,然后依靠一个解码器将能被背景文档推理出的句子解码出来,整个模型依靠损失再调整策略进行训练。测试阶段,本文使用一种基于似然概率的互信息方法,判断目标句子是否可以被给定的背景文档推断出。这种无监督的生成式模型在常识机器阅读理解任务SCT中取得比以往方法更好的效果。 4、提出了一种基于文档门控选择机制的开放域问答方法 机器阅读理解技术一个非常重要的应用方向是开放域问答。针对以往将机器阅读理解应用于开放域问答方法中存在的弱监督数据质量低、答案概率偏置等问题,本文提出了一种基于自举法的弱监督数据生成方法用以动态地获取训练数据。并且依靠一个基于卷积神经网络的文档选择模型判断文档和问题的相关度。并且将上述文档选过程嵌入到机器阅读理解过程中以生成开放域问题的答案。实验表明,本文提出的方法获取的弱监督数据质量要显著优于以往的基于启发式方法获取的数据,并且,在三种开放域问答的任务中都取得了比以往模型更好的结果。