论文部分内容阅读
文本蕴含识别,也称为自然语言推断,是自然语言处理中的一项具有挑战性的关键任务。目前,文本蕴含识别已经被广泛应用到了自然语言处理中的各项应用之中,包括自动问答、信息检索以及机器翻译等。同时,文本蕴含识别同时也是评估自然语言理解的重要任务之一。近年来,随着大规模文本蕴含基准数据集的发布,可用于文本蕴含识别训练的数据大量增加,为深度学习方法在文本蕴含识别任务上的应用提供了数据基础。目前,深度学习方法已经被广泛使用在文本蕴含识别任务中,并取得了优异的性能效果。然而,目前基于深度学习的文本蕴含识别方法仍存两方面的不足。一方面,现有的深度学习模型未能充分利用外部知识资源。已有的深度神经网络绝大多数建立在词向量基础上,然而,判断两个文本之间的蕴含关系往往需要的一些词向量以外的知识。例如,单词之间的反义关系对文本蕴含识别中的矛盾标签识别具有重要作用。如果神经网络缺少这些外部知识,往往难以对两个文本之间的蕴含关系进行准确的判断,使得文本蕴含识别的性能下降。虽然已有一些方法使用外部知识对文本蕴含识别进行增强,并将外部知识转化为一些可用于神经网络的数值特征或者通过一种流水线策略将外部知识表示为实值向量,并集成到神经网络模型中,但是这些方法忽视了知识表示与文本蕴含识别模型之间的交互,使得神经网络未能充分运用这些外部知识来辅助文本蕴含识别判断。另一方面,现有的文本蕴含识别方法大多数聚焦于英文数据,要使文本蕴含识别扩展至其他语言,必须对文本蕴含识别进行跨语言拓展。已有一些方法利用双语对齐语料对齐源语言和目标语言的句子嵌入,但这些方法严重依赖于双语对齐语料。也有一些方法使用跨语言预训练语言模型,在源语言上进行微调,并应用于目标语言,但这些方法难以在两种语言上迁移知识。因此,为了解决现有方法存在的这些不足之处,本文从两个方面对文本蕴含识别进行增强:1.使用知识表示学习方法对WordNet知识图谱进行嵌入,提出了一种联合训练知识表示学习模型和文本蕴含识别模型的框架。在三个常用的文本蕴含识别基准数据集SNLI、MultiNLI和SciTail上进行了大量对比实验,验证了该联合训练框架的有效性;2.对文本蕴含识别方法进行了跨语言扩展,提出了一个基于对抗训练的跨语言文本蕴含识别增强框架。该框架可以应用在经典的神经网络文本蕴含识别模型和跨语言预训练模型上。在包含15种语言的跨语言文本蕴含数据集XNLI上验证了框架的有效性。