论文部分内容阅读
文本自动摘要是人工智能和自然语言处理领域的一个重要任务和研究热点。随着互联网上信息的爆炸式增长,人们对文本自动摘要系统的需求也越来越广泛。越来越多的新场景和新任务对摘要系统都提出了更高的要求,例如搜索引擎、智能音箱和智能手机助理等等。对文本自动摘要领域的持续研究使摘要系统的性能增长到了一个新的高度。摘要系统的构建从基于启发式规则的方法,发展到基于特征工程的统计机器学习方法,再过渡到了近年来基于深度神经网络的方法。其中深度神经网络作为一种新的机器学习技术,其强大的表征学习能力、自动建立输入与输出之间复杂对应关系的能力等优势都给文本自动摘要的研究带来了新的发展契机。然而,现有工作中仍存在着一些亟待解决的研究问题。因此,本文着眼于这些关键问题,基于深度神经网络技术,探索如何更好地进行文本自动摘要任务建模,进而提高摘要系统的性能。具体地,本文以句子摘要和文档摘要为主线,对其中重要性的建模和摘要构建过程这两个核心问题中的四个重要具体问题进行了研究。第一,本文针对生成式句子摘要对输入中的重要信息建模不充分的问题,提出了一种选择性编码机制。对句子摘要任务而言,其目的是将原文中的重要信息选择出来并产生输出摘要。现有序列到序列模型中的注意力机制虽然对重要性起到了隐式建模作用,而未曾显式地对重要信息进行强调与突出。本文提出了一种选择性编码机制,用以对句子摘要任务中对重要信息的选择过程进行建模。具体地,通过本文提出的选择性门控网络,模型可以在读取输入之后根据句子整体的含义对其中每个单词的重要程度进行单独判断。通过这种方法,模型将重要信息选择这一重要的步骤进行了单独建模,从而方便解码器更好、更容易地进行摘要的生成。实验表明,该模型可以提高生成式句子摘要系统的性能,并且能够判断出原文中的重要信息。第二,本文针对现有拷贝机制缺乏对重要片段的抽取能力的问题,提出了一种序列拷贝神经网络模型。带有拷贝机制的序列到序列模型可以从输入句子中拷贝单个单词到输出摘要中。然而,现有的拷贝机制缺乏对重要信息片段的拷贝能力,其对单词进行逐个拷贝的模式会造成模型无法正确进行完整的序列拷贝工作。针对这一问题,本文提出了序列拷贝神经网络模型。该模型的解码模式分为序列拷贝模式和生成模式。在拷贝模式下,该方法通过构建一个拷贝状态向量,进而利用基于指针网络的序列拷贝网络从输入句子中一次性拷贝完整的重要片段到输出摘要当中。在拷贝之后,通过本文提出的Copy Run机制完成对解码器状态的更新,从而使解码器可以在拷贝模式和生成模式之间进行平滑切换。实验表明该模型可以准确地选择并拷贝输入中的重要片段,并且能够完成流畅的单词生成,从而提高了句子摘要系统的性能。第三,本文针对抽取式文档摘要构建过程中存在的非重要信息和冗余信息问题,对其产生原因和程度进行了深入研究,并提出了基于层次化子句建模的文档摘要。现有的抽取式文档摘要工作采用了以整句为抽取单位的模式。然而,该模式存在被抽取出的句子中包含不需要信息或冗余信息的问题。现有的研究工作没有对该问题进行深入且系统性的研究。本文立足于此,采用了定量的统计分析和人工标注的方法对这两个问题进行了研究。结果表明,整句抽取模式确实存在一定程度的前述问题。基于此,本文提出了以子句级单位为基本抽取单位的新模式。该方法将整句中的重要信息和非重要信息分割开来,从而可以解决前述的两个问题。实验表明,本文提出的模型性能有了显著提高,并且系统的输出摘要在不重要信息和冗余信息问题上的表现均优于以整句为抽取单位的基线系统。第四,本文针对抽取式摘要构建过程中的句子打分和选择过程结合不充分的问题,提出了基于句子打分和选择联合模型的文档摘要。现有的抽取式方法的流程是先对输入文档中的句子进行重要性评价(句子打分),后使用选择策略从中挑选句子组成输出摘要(句子选择)。这两个步骤作为两个单独的子任务,在现有的模型中无法互相交互。例如句子选择的过程并不会对句子的打分和建模后的句子表示产生影响,因此也无法互相增益。本文提出了一个句子打分和选择联合模型,该模型将这两个任务结合到一个可以端到端训练的神经网络模型当中。具体地,输入文档中的句子通过一个文档编码器映射为向量表示。接下来,模型不仅基于句子重要性,而且同时考虑当前已选择句子的内容,对候选句子进行相对重要性评分。此外,本文还提出了一个新的损失函数以更好地描述抽取式文本摘要任务中句子间的重要性差别。实验表明,本文提出的联合模型对比分开进行句子打分和选择的模型性能更优,且新的损失函数能够进一步提高摘要系统的性能。本文提出的四种方法旨在解决文本自动摘要中存在的编码过程中词汇重要性的建模问题、解码过程中重要片段的提取问题、避免非重要信息和冗余信息的问题、句子打分和选择的交互问题。针对这些具体问题,本文分别提出了神经网络模型,取得了显著的进展,同时也为未来的文本自动摘要研究提供了新的视角。