论文部分内容阅读
自动文本是一种从文本中提取重要信息,生成针对特定任务或者针对特定用户需要的精要版本的摘要表示方法。目前在文档摘要生成、新闻标题生成、以及复杂问题问答等方面得到了广泛的应用。生成式文本摘要模型需要通过对文本进行理解,将文本中重要的语义信息进行表达,从而生成摘要。由于机器不具备掌握语言知识的能力以及人的先验知识去理解完整的文档并生成能够强调文档重要观点或信息的摘要。因此,在实践中,实现生成式文本摘要方法是困难的并且充满挑战的。神经序列模型在神经机器翻译、对话系统领域得到广泛应用,同时也为实现生成式文本摘要提供了新思路。然而,基于序列的生成式文本摘要方法也面临着严重挑战:首先,基于该方法生成的文本摘要语义随机性较大,不能总是很好地反映出文中的重要信息。其次,文本摘要的内容表示与文本的类别信息密切相关,类别信息体现理解文本的角度,而该方法在理解文本时缺乏对类别信息的捕捉。最后,基于该方法的生成模型在强调文本观点时,自然语言生成能力弱,容易出现重复文本,语法错误,不流利等情况。本文拟基于基础的编码器-解码器模型,探索生成式自动文本摘要方法在强化文本观点和重要信息理解,增加生成摘要的信息蕴含程度,提升生成摘要可读性等问题的新方法,提出两种新的生成式文本摘要方法。具体地,本文研究工作主要包括以下两个方面:1)提出一种受多任务约束的基于生成对抗网络的生成式文本摘要方法。该方法设计了新颖的生成网络与判别网络。具体地,在生成网络内部,以多任务学习的方式联合文本分类任务与词性预测任务,使得生成网络在多任务约束下不仅能够通过分类任务强化对类别相关的文本信息的理解,同时在词性预测任务下强化语法约束。同时,生成网络与判别网络之间的博弈对抗,不断强化生成网络的生成能力。这样,模型生成的摘要信息捕捉能力强、语法准确且流利。2)提出一种融合外部语言模型的生成式文本摘要方法。该方法将外部语言模型的知识信息及语言信息融合进摘要模型自身的神经语言模型中,使得语言模型训练时能在外部语言模型的帮助下,专注于语义连接,从而解决了生成文本可读性的问题。实验结果表明,融合外部语言模型的生成式文本摘要方法所生成摘要在解决重复文本,增加语言流利性和提高语法准确性等方面上得到了大幅提升。