论文部分内容阅读
随着新媒体平台的不断涌现,人们日常接触到的信息呈现爆炸式的增长,从而给人们带来信息过载的困扰,并且随着生活节奏的加快,人们无暇梳理接收到的所有信息。通过阅读摘要,人们能够提高理解原文的效率,有效减少浏览信息的时间和精力。随着深度学习的崛起,越来越多的研究者利用深度学习的方法生成文档的摘要,并逐步应用于实际系统中。因此,本文在深度学习基础上研究短文本的语义表示以及基于序列到序列架构的自动摘要方法,并将短文本的语义表示应用于自动摘要任务中。目前无监督的文本表示方法主要包括向量空间模型和doc2vec等。这类方法在语料库规模较大时能够取得很好的效果,却忽略了文本中的词序信息。针对这个问题,本文提出无监督模型RevONet,考虑词序特征,利用卷积神经网络学习文档的语义表示,并在文本分类任务中,与词频、词频逆文档频率、LDA、LSI、doc2vec等进行对比。实验结果表明,RevONet模型能够达到78.7%的准确率,优于向量空间模型和doc2vec等,验证了RevONet模型在语义表示上的有效性,并应用于自动摘要任务中,衡量源文本与目标摘要之间的语义相似性。根据文本摘要的特点,本文在序列到序列架构的基础上提出最大化文档相似度模型DocSNet。DocSNet模型利用RevONet模型提取的源文本语义表示,计算与目标摘要之间的相似性,通过最大化源文本与目标摘要之间的语义相似性优化模型,进一步生成摘要。对于序列到序列架构,DocSNet模型使用双向LSTM作为编码器,单向LSTM为解码器构建模型。不仅如此,DocSNet模型引入注意力机制,进一步提高生成摘要的质量。通过在哈尔滨工业大学发布的大规模中文短文本摘要数据集上的实验,DocSNet模型的ROUGE-1和ROUGE-L指标分别可以达到33.6%和30.4%验证了DocSNet模型的有效性。