论文部分内容阅读
如今互联网已经成为了人们获取信息的重要途径之一,每天数以亿计的文本信息在互联网上被发布和传播,给用户准确获取自己需要的信息增加了难度。利用自动摘要技术为互联网上的这些文本生成摘要,不仅能够帮助用户更快的了解信息的内容,还能帮助用户剔除那些题文不符的信息,大大提高了用户获取信息的效率。由于这些信息大多是以短文本作为载体,传统的基于长文本的文本摘要方法不能完全适用,因此短文本摘要的研究有着重要的意义和价值。 在此背景下,本文提出采用深度学习结合核心词修正的方法来自动生成中文短文本的摘要。本文的主要工作有:一,通过对长短期记忆网络(LSTM)进行研究,构建了一个基于注意力机制的序列到序列模型(Seq2Seq),通过改变不同的输入特征来生成短文的摘要,根据ROUGE的评分发现采用字词联合特征作为模型的输入的效果优于字特征或词特征;二,在深度学习模型的基础上,提出利用原文的关键词来修正生成的摘要,从而提高摘要的质量。经过相关的对比实验以及ROUGE评分,证明了该模型的有效性;三,基于关键词修正的Seq2Seq中文短文摘要生成模型,设计并实现了短文本自动摘要系统,对生成的短文本摘要进行了相关展示。