论文部分内容阅读
随着互联网技术的发展,文本信息呈指数式增长,人们在文本信息处理和阅读中需要花费大量的时间和精力。如何从海量文本信息中迅速捕获到需要的信息,并对这些信息的进行合理的应用是当前急需解决的问题。自动文本摘要技术是利用计算机自动地从原始文档中生成摘要,是自然语言处理领域中的一项重要技术。近年来,序列到序列(seq2seq)模型被广泛应用到文本摘要中,为生成式文本摘要提供了可行的解决方案。高质量的摘要系统通常依赖于强大的编码器,该编码器可以从长输入文本中提取重要信息,以便解码器可以从编码器生成的上下文语境中生成重要的摘要信息。本文在标准Transformer模型的基础上,引入拟循环神经网络和门控机制对模型的特征提取部分进行改进,并融合指针生成网络,提升生成摘要的质量。在本文中,我们提出了一种基于改进Transformer模型的聚合机制来解决文本表示的挑战,主要贡献包括以下几点:1)提出一种改进的Transformer模型。具体地,标准Transformer模型由于摒弃了传统的循环神经网络RNN和卷积神经网络CNN,仅采用注意力机制来做特征抽取,虽然加入了位置编码(Positional Encoding),但其位置信息表示依然不够丰富。通过结合拟循环神经网络QRNN,模型对序列的顺序以及局部信息的捕捉能力得到提升。2)改进多头注意力(Multi-head Attention),结合门控机制。Transformer模型由多层模块堆叠而成,门控多头注意力(Gated Multi-head Attention)利用可训练的门控,可以使得模型选择与任务相关的词语或者特征。3)构建基于改进Transformer的复制生成摘要模型。针对未登录词问题(Out-ofVocabulary,OOV),引入指针生成网络构建混合模型,通过概率来决定从固定词汇表中选择一个词还是根据注意力权重分布从原文中复制一个词作为模型的输出,缓解未登录词问题。最后,本文通过一系列实验,验证了本文所改进的模型在英文文本摘要数据集Gigaword和中文文本摘要数据集LCSTS上取得更好的效果。