论文部分内容阅读
机器阅读理解任务是自然语言处理领域中的一个重要子任务,同时也是自动问答的一个极其重要的支撑技术。机器阅读理解的复杂性,使其被视为评价机器的自然语言理解能力的一个重要方面。随着网络时代迅速发展,大量的自由文本得以在网络上不断积累,如何利用海量的文本资源进行文本阅读,并能够完成更为直接的问答,也是一个具有现实应用价值的课题。得益于深度学习技术的发展以及更具挑战性且贴合实际需求的大型数据集的不断推出,机器阅读理解任务的热度和挑战性不断上升。由于机器阅读理解任务主要解决长篇章的推理回答,而注意力机制可以提供灵活并有效的信息交互与利用的方式,继而成为机器阅读理解任务中不可或缺的一个关键技术模块。因此,对基于注意力机制的机器阅读理解技术进行研究,具有重要的理论价值和广阔的应用前景。本文以机器阅读理解任务中的基于注意力的神经深度模型技术为主要研究对象,开展了各种注意力机制在不同模型架构中的选择应用、不同层次与粒度的注意力关注点、以及不同角度的注意力建模等多方面的研究。论文的主要研究工作如下:首先,对基本模型进行研究分析与探索。介绍了机器阅读理解的任务背景与定义,引入说明本课题中使用的相关技术。然后,研究了基于各种深度神经网络的机器阅读理解模型的构建方法,并且针对深度神经网络的不同编码方式在机器阅读理解任务中的特点,结合多种注意力方式以及辅助手段进行实验对比,从而分析模型中各个关键技术的作用以及不同设计的端到端模型在准确率与时耗上的表现,为机器阅读理解任务的改进与分析奠定基础。然后,在此基础上,对机器阅读理解中的层次信息的联结方法进行研究。不同于以往模型中只在中间部分进行注意力交互,模型将在多处进行不同层别的问题与篇章间的计算,并且将历史信息进行保留,用于后续的注意力模块中,使得模型间能进行层次信息间的交互。在多层之间,使用跨层传递的方式将注意力赋权后的表示进行传递,减少多层传递后的信息丢失。同时,引入了一种门控的方式来有选择性地控制信息的传递。最后,进一步地提出了基于位置注意力机制的机器阅读理解模型,并进行了实验与分析。区别于前面章节的基于语义角度的注意力方式,该模型基于人类阅读理解的回答过程中的先验知识进行设计,使用不同的核函数来刻画机器阅读理解任务中的先验假设,并结合外部知识库来完善位置信息的利用,然后使用注意力机制的方式来进行位置角度的交互。最后,为了对比位置信息的不同引入方式,使用了如位置编码等其他方式进行实验对比验证。实验结果表明,这一先验假设是符合任务背景的,并且使用注意力机制的方式能够使得模型能更好的运用位置信息并帮助回答问题。