论文部分内容阅读
随着社交网站和购物网站的兴起,海量短文本数据迅速产生。如何快速地从大量短文本中获取有用信息,是一个亟待研究的问题。而作为自然语言处理中的研究热点,自动文本摘要技术正是解决此类问题的有效方法。通过自动摘要技术,可以帮助用户快速获取大量短文本的主要信息。而快速地、准确地提取出短文本摘要,还依赖于对自动文本摘要算法的研究。因此,本论文重点研究了基于图的TextRank自动文本摘要算法,并针对其不足之处,结合短文本的特点进行算法改进。 本文以基于事件的新浪微博短文本为研究对象,针对TextRank算法忽视事件主题,边权重相似度计算算法不尽理想,以及抽取多条摘要时存在明显信息冗余三个问题,并结合短文本特点,对TextRank自动文本摘要算法进行改进,并通过实验验证了上述改进算法的有效性。本文工作主要包含以下四个方面: 1)作为文本自动摘要任务的基础,本文对短文本建模和相似度计算进行了着重研究。为兼顾短文本的统计特征和语义特征,本文提出一种结合文本表示模型TF-ICF和Word2Vec的加权文本向量化建模方法。进而,在相似度算法选择中,通过理论分析和实验,选取了适合短文本的余弦相似度计算算法。通过实验,验证了本文所提建模方法的有效性。 2)本文对TextRank算法原理进行了深入研究,针对TextRank边权重相似度计算算法不尽理想,没有充分利用短文本统计特征以及语义特征的不足,本文提出利用基于合并加权Word2Vec和TF-ICF的文本向量化模型的余弦相似度计算方法,对TextRank的边权关系进行重构。通过实验,验证了本文所提重构方法的可行性和有效性。 3)本文针对TextRank算法忽视文本主题的不足,提出利用主题句与短文本之间相似度值来调节短文本权重的方法,并继续引入文本长度的因素对主题句与短文本之间相似度值进行调整,最后利用调整值对短文本权重进行调节。通过实验,验证了上述所提方法的有效性。 4)本文针对TextRank算法在抽取多条摘要时,摘要句之间容易出现信息冗余的问题,引入冗余度控制算法MMR对经过权值调整后的短文本进行冗余度控制。实验表明,该方法能有效制防止包含过多相似信息的短文本同时出现在最终摘要结果里面。 本文创新点主要在于以下两点。其一,提出了一种结合TF-ICF模型和Word2Vec模型的短文本特征提取算法,并基于此,提出一种利用余弦相似度算法重构TextRank边权关系的方法;其二,本文提出了分别引入主题因素调节因子,文本长度因素调节因子,以及利用MMR算法,对TextRank自动摘要算法最终短文本权重进行调节的方法,有效改善TextRank自动摘要算法忽视主题,最终权值受文本长度影响较大,以及输出结果有明显冗余的三个问题。