论文部分内容阅读
关键词抽取是文本挖掘领域里一个重要的研究方向,目的在于能够快速便捷的为用户提供准确、简洁、全面的文本主题信息。那么关键词抽取方法的研究就显得尤为重要。
针对如何优化关键词抽取方法的问题,本文首先分析了当前几种流行通用的算法,分析了其存在的问题,并验证了无监督的关键词抽取方法--TextRank算法的有效性,接着本文对实验结果进行分析,在此基础上本文进一步研究了如何有效利用外在信息,提出了基于外在信息的关键词抽取模型,进一步提升关键词抽取性能。具体来说,本文的主要研究内容有以下几个方面:
本文介绍了TextRank方法的算法原理及流程,并同当前流行的基于监督的关键词抽取方法进行了简单的实验对比,验证了TextRank算法具有很好的性能。本文对实验结果进行分析,总结出TextRank算法的不足,提出了基于外在信息的关键词抽取模型,在基于外在信息关键词抽取模型中,关键词抽取被分为两个阶段,第一个阶段是外在信息的构建,本文利用了当前流行的文本相似度量方法,分别从基于统计特征和语义特征两个方面来构建外在信息;第二个阶段是关键词抽取阶段,本文将第一阶段的外在信息融入到TextRank算法中,构建了基于外在信息的关键词抽取模型,并给出实验结果,通过对实验结果进行对比分析,证明了该模型进一步提升了关键词抽取的性能。
本文进一步分析了实验结果存在的问题,对外在信息模型进行进一步优化,首先在候选词提取处理上,本文利用聚类方法将描述不同主题的候选词划分到对应的主题集合中,然后利用外在信息模型进行关键词抽取,对抽取结果按照聚类结果进行划分,最后选取每一类别中评分最高的候选词作为中心关键词;接着我们对词包评分的计算进一步优化,对表述同一主题的词组进行整合,最后给出实验结果,对外在信息模型的优化进一步提升了该模型的性能,同时本文引入文本聚类的方法对该模型进行扩展。最后本文将该模型应用到科技论文的关键词抽取任务中,取得了不错的效果。