论文部分内容阅读
随着互联网的飞快发展,海量的新闻信息充斥着人们的各个方面,人们因此受到了信息过载的困扰,如何将大量而又冗长的新闻信息简明扼要地呈现成为迫切待解决的问题之一。自动文摘技术是解决上述问题的一种核心手段,它能够帮助人们概括新闻文本冗长的内容,并能够快速并准确地获取重要信息,从而提升人们阅读新闻的速度,有效地减少了浏览信息的精力。本文对新闻单文档和多文档自动摘要技术进行了深入研究,主要包含以下工作:(1)针对中文新闻单文档自动文摘任务,本文对文本词语的表示进行了优化。在数据处理的过程中,对Word Embedding融合了额外的特征,分别加入了词语的词性和TF-IDF值,使每个词语的向量表示中具有了多个维度。该方法可充分利用文本的语言特征信息,以提升生成新闻摘要的连贯性。(2)提出基于注意力机制和改进的Sequence-to-Sequence的模型来进行中文新闻单文档自动文摘任务。其中,Encoder采用双向长短时记忆网络和Decoder采用长短时记忆网络改进的模型结构,同时加入Decoder/Pointer机制来解决出现未登录词的问题。经实验表明,本文实验模型在News2016zh数据集上表现得优于其他几组对比实验模型,能够解决传统循环神经网络导致的梯度爆炸和梯度消失的问题。同时,Decoder/Pointer机制能够很好地缓解摘要生成过程中出现未登录词的问题,提升了摘要的可读性。(3)针对中文新闻多文档自动文摘任务,提出基于语义聚类和局部主题匹配的多文档自动文摘方法。该方法利用具有语义环境的词向量通过K-Means聚类新闻文档并从局部主题中提取具有最大信息熵的句子,从而实现新闻多文档摘要的抽取。通过与提取每个新闻文档首句方法Baseline和LDA主题模型下做的多文档摘要对比,证明该方法的有效性。