论文部分内容阅读
随着信息时代的到来,互联网上的文本数据也与日俱增。所以,快速高效地获取有用的信息变的相当重要。在自然语言处理领域,一项针对计算机“理解”文本的基础技术—文本蕴含识别已经引起越来越多研究者的关注。文本蕴含识别即判断两段文本在语义上的蕴含关系[1]。目前英文文本蕴含识别任务面临的主要问题如下:英文文本中大量的近义词、简称、代称等词汇对于蕴含关系识别的影响;由于英文语法结构的多样性,同样的文本含义具有不同的表述形式;英文文本蕴含识别需要深层次的语义理解。通过分析目前英文文本蕴含识别任务面临的主要问题以及前人工作的缺陷,针对英文文本蕴含识别任务,本文提出了一种基于深度神经网络的英文文本蕴含识别方法。该方法首先对文本进行预处理,使用长短时记忆神经网络对文本进行语义信息提取,基于注意力机制对文本进行软对齐,然后使用前馈神经网络进行语义比较,通过池化采样比较结果,最后使用前馈神经网络进行蕴含识别。在深度神经网络训练完成之后,将深度神经网络自动提取的特征与传统语言学特征相融合,提高特征多样性,重新进行蕴含识别。实验结果表明,本方法在 2015SNLI(Stanford Natural Language Inference)数据集上的准确率为0.878,最好结果为0.889[2],相差0.011,与最好结果的方法相比,本方法的模型参数更少。本方法在TAC会议于2011举办的RTE7的评测数据集上的F-Score为0.420,其中召回率为0.518,超过评测最优结果IK0MA[18]的召回率(0.491)。本文的主要贡献如下:1.提出了基于注意力机制对文本进行软对齐的方法,以解决英文语法结构的多样性问题。本方法使得对文本的语义分析不再依赖语法结构的解析,一定程度上解决了英文文本中大量复杂语法句式影响蕴含关系识别的问题。2.融合了多种神经网络模型的优点,提出了一种基于深度神经网络的英文文本蕴含识别方法。本方法相比传统机器学习方法不再依赖于人工特征的提取,通过深度神经网络的构建,深入语义层面进行特征的提取,使得蕴含关系的判断更加准确。3.提出了一种结合传统机器学习与深度学习的集成学习方法。本方法将深度神经网络自动提取的蕴含识别特征与传统机器学习方法中使用的人工特征相融合组成新的特征,并使用该特征重新进行蕴含识别,该方法提高了特征的多样性,进一步提高了蕴含识别的准确率。