论文部分内容阅读
是利用计算机通过各种方法对文本或文本集中能够准确反映原文中心内容的重要信息进行抽取、总结。信息的快速增长使得人们面临信息过载的困扰,面对海量信息往往无法从中快速准确地获取所需信息,而文本自动摘要技术能有效地解决此类问题,利用它可以帮助人们快速有效地从网络上获取高质量的所需信息。目前的文本自动摘要技术生成的摘要质量还有所欠缺,因而如何有效地利用自动文摘技术提取文本摘要是本文的主要研究内容。本文将Text Rank算法应用到文本自动摘要上,提出了一种基于Text Rank的文本自动摘要算法(SW-Text Rank);把LDA主题模型引入到文本摘要的提取过程中,解决了Text Rank算法无法考虑文本主题的问题;利用基于字词的Bi LSTM-CRF模型来识别中文文本中的命名实体,获取有效信息,并对词语节点权重进行调整,从而提高生成的文本摘要的准确性。主要工作内容包含以下两部分:(1)针对Text Rank算法在自动提取中文文本摘要时忽略了词语间的语义相关信息及文本的重要全局信息的问题,提出了SW-Text Rank算法。通过Word2Vec训练的词向量来计算句子之间的相似度,并综合考虑句子位置、句子与标题的相似度、关键词的覆盖率、关键句子以及线索词等影响句子权重的因素,从而优化句子权重;对得到的候选摘要句群进行冗余处理,选取适量排序靠前的句子并根据其在原文中的顺序重新排列得到最终的文本摘要,最后通过实验进行验证。(2)提出了一种结合LDA主题模型与Bi LSTM-CRF命名实体识别模型的文本自动摘要方法。该方法将LDA模型引入到文本摘要的生成过程中,充分考虑LDA模型获取的主题分布,使得生成的文本摘要更加贴近文本主题;利用优化的Bi LSTM-CRF模型来识别文本中的命名实体,从而得到文本中有用的人物信息、地点信息以及发生事件的机构信息,基于此对Text Rank词图中词语节点的权重进行调整;然后利用SW-Text Rank算法生成最终的文本摘要并进行实验验证。