论文部分内容阅读
机器阅读理解是使人类能够通过自然语言与机器交互的关键技术,也是人工智能的核心任务。机器阅读理解任务通常以问答的形式呈现,要求算法模型根据提出的问题,通过理解相关文章的内容来给出正确答案。随着深度学习的发展,基于神经网络的机器阅读理解模型不断推陈出新。广泛地使用层次化交互注意力机制和基于大规模无监督语料预训练(pre-training)的迁移学习模型似乎已经成为机器阅读理解算法的标准模式,并且在一些基准任务的数据集上取得了超越人类的表现。然而进一步的研究表明,这些基于多层注意机制的机器阅读理解问答模型在面对推理问题和干扰文本攻击时表现得十分脆弱。除此之外,深度模型在少样本条件下训练时的不稳定性,也阻碍了其在现实环境中的应用。本文针对以上几个关键问题进行了研究,并在此基础上提出了全新的解决方案。该课题的研究内容和贡献主要有以下几个方面。第一,对问题—文章交互注意力机制的学习特点以及作用原理等问题,进行细粒度研究,并对交互查询式机器阅读理解模型,训练前后编码层的编码特点进行比较。方案使用了经过结构简化的BiDAF模型,在语义推理关系清晰的Facebook The(20)QA bAbI task1~3数据集上开展实验。通过对比问题的线索文本与非线索文本,在高维空间上与问题文本编码向量的分布关系,得出编码层在训练过程中的作用实质,是对问题和证据文本的精确语义匹配方式进行拟合的结论。第二,对上下文语境化编码和无监督语料预训练模型,在训练过程中的优化作用进行比较研究。在少样本条件下,对基于大规模无监督语料预训练模型加微调(Fine Tuning)与元学习(Meta Training)两种方法,在阅读理解问答任务上的表现进行实验和性能对比,并对性能差异原因进行分析。第三,基于前面的研究结论,提出使用动态路由网络结合多层注意力机制的机器阅读理解问答解决方案,并展示基于动态路由的DR-BiDAF和DR-BERT两种新模型。两种新模型在开放数据集上的实验结果表明,新模型的答案预测准确率明显优于其它对照模型。除此之外,在训练稳定性上,相较于其它对照模型,新模型能够得到更稳定答案预测准确率。在添加干扰文本的噪声数据上的实验,还显示出动态路由网络对于干扰信息具备更强的抵抗能力,鲁棒性更强。