论文部分内容阅读
自动摘要作为一种文本解析的重要工具,它可以从海量数据中提取出文本的主题信息,实现从冗余文本到简洁文本的快速转换。得益于深度学习技术在自然语言处理(Natural Language Processing,NLP)领域的快速发展,使得基于深度学习技术的生成式摘要已经成为现阶段摘要技术的研究热点。对于生成式自动摘要而言,其是一种序列到序列(sequence-to-sequence,seq2seq)的模式,而将注意力机制(Attention Mechanism)融合到seq2seq以实现对输入序列中某些词的重点关注,称之为seq2seq+attention框架。因此,本文以seq2seq+attention框架为基础,融入复制机制和Input-feeding方法来改善原始模型的OOV(Out-of-Vocabulary)以及注意力决定准确率的问题。同时引入Bert预训练语言模型和Transformer模型以改善句子的长距离依赖问题。本文的主要研究内容如下:(1)考虑到seq2seq+attention框架在生成摘要时需要先构建一张词表,神经网络通过自主学习后,从该词表中选取概率最大的词作为输出。但是由于该词表是固定的,导致许多不在词表之外的词无法有效生成,即出现了OOV问题,因此使用了复制机制来改善上述问题,通过复制机制来动态的改变词表,将源序列中的词也考虑进来,使得输出的摘要中可以包括更多的非词典中的词;接着,由于原始模型中每个时刻的注意力决定在每个解码时刻都是相互独立的,从而引入了Input-feeding方法将每个解码时刻的注意力决定相联系起来,使得每个解码选取的词更加准确。(2)RNNs(LSTM或GRU)模型并没有从真正意义上解决长距离依赖的问题,因此引入了Bert+Transformer来改善该类问题。该部分分为对Bert微调(fine-tuning)和Transformer来实现两个阶段生成摘要。第一阶段,通过Bert来学习文档级别的特征,以获得更多的语义和语法等信息,实现了对摘要句的抽取,这样可以有效缩短源文本的长度;第二阶段,将第一阶段抽取得到的句子集合输入到Transformer模型中,其可以有效改善句子的长距离依赖问题。使用NLPCC2018中文新闻文本数据进行实验,并使用ROUGE作为评价指标,实验结果表明以上的方法与经典的抽取方法和seq2seq+attention模型的结果相比,所有的ROUGE值都得到了提高,验证了上述方法的可行性。在本文的研究工作中没有使用外部知识辅助以摘要的生成,也没有使用Bert改进模型(如ALBert)等内容,但是在今后的工作中可以考虑引入这些方法来改善中文摘要的质量。