论文部分内容阅读
科学技术与互联网的高速发展导致了信息爆炸,人们要么迷失在信息的海洋里,要么花大量的时间去寻找自己所需的信息。在讲效率的今天,自动文摘备受关注,因为它可以帮助人们从海量的信息中提取能表达原文重要内容且简洁精练的一段文字。自动文摘涵盖了很多理论知识以及应用技术,是自然语言处理领域的一个重要研究方向。在自动文摘方法中,相似度计算扮演的角色十分关键。相似度计算是数据挖掘中经常使用的一种技术,一般包括词汇相似度、句子相似度和文献相似度等几种。在文章中,句子与句子、段落与段落之间,彼此存在着一定的联系,利用它们的相似性便可推断出句子或段落在文中的重要性,以此作为判断摘要句的一个重要指标。根据摘要句相似度匹配的结果将其进行排列,并按权值大小顺序输出,最终生成摘要。同时,在对文摘进行质量测评时,也需要用到相似度计算。本文采用的相似度计算方法结合了文摘的特点,在已有算法的基础上提出了基于LDA的一种新的相似度计算方法。结合此种相似度计算方法,进而设计了一种LDA语句递减算法,用于英文自动文摘的生成。对DUC数据进行实验,结果表明该算法有效、并能很好的执行。本文的主要研究内容如下:1、对国内外自动文摘的研究现状进行了分析,介绍了自动文摘的概念及其分类,研究了自动文摘现有的技术方法及其评价方法,并其进行了总结与分类。2、综合分析了现有句子相似度的计算方法,并提出了一种基于LDA的文本相似度计算方法。该方法通过LDA建立主题空间模型,在同一主题空间、字、句,文件和语料库被表示为向量,是一种适合文摘的句子相似度计算方法。3、结合上面提到的文本相似度方法,设计了一种新的英文文本摘要方法:LDA语句递减算法。该方法的思想为:使用上述的相似度计算方法判断每个句子的重要性,移除一个又一个不怎么重要的句子,直到摘要的长度达到极限。