论文部分内容阅读
随着社会进入信息时代,互联网上的数据呈爆炸式的增长,数据量不仅庞大,而且数据维度过高,有效的解决信息过载并且从海量的数据中挖掘有用的信息变得至关重要。网络数据大部分以文本形式存在,因此文本摘要生成技术是人们从大量文本信息中快速获取价值信息的关键。近年来,生成式摘要技术越来越成熟,特别是基于序列到序列架构的自动摘要技术结合注意力机制框架,使生成的摘要取得了良好的效果,但在面对长文本时存在很多不足,第一,编码端采用单一特征的词向量输入形式,导致文本特征挖掘不足,进而影响神经网络模型对文本语义信息的提取。第二,在编码阶段,采用双向循环神经网络得到的前后信息仅进行简单拼接,文本序列过长会产生长距离依赖问题,无法有效挖掘上下文潜在语义信息,生成的摘要往往会缺失或偏离原文档核心信息。第三,在解码阶段利用注意力机制和神经网络的解码形式,生成的摘要存在语义不连贯和语义缺少问题,造成摘要生成的准确度较低。针对以上问题,本文提出了一种基于深度学习的长文本摘要生成模型,主要从特征词向量化,编码端和解码端三个方面做出了如下工作:1.构建了基于深度通信代理的编码模型。本文引入词的词频特征和语义特征,将特征词的TF-IDF值和潜在语义分析LSA获取的语义值通过朴素贝叶斯公式进行集成形成新的词向量。有效集成了文本多维特征,提升了词义理解能力,有助于编码器对文本信息的学习。针对传统循环神经网络对长文本编码能力不足和中间语义获取不准确问题,引入了深层代理通信机制,该结构的编码器能更加准确的获取全局信息,提高对文本的理解能力。2.构建了两阶段摘要生成模型。在解码端采用两阶段解码结构,利用注意力机制和单向神经网络LSTM生成中间文本语义,提出多代理指针网络计算解码词汇表的概率分布,生成摘要草稿,利用BERT细化摘要草稿序列,提高摘要语义的连贯性,引入多头注意机制,提高了解码端对源文档序列的记忆能力,解决摘要中词语重复问题,生成更自然的摘要序列,提高了摘要生成的质量。3.实验。在SNLI数据集上验证了词特征集成的有效性。在CNN/Daily Mail数据集上评估了本文的摘要生成模型,选择ROUGE-1,ROUGE-2,ROUGR-L,ROUGE-AVG四个指标进行摘要质量的自动评估,另外,也对生成的摘要进行了人工评测,实验结果表明,相比对比方法,本文摘要生成模型生成的摘要具有更高的准确度。