论文部分内容阅读
目前,互联网正处于高速发展的时期,各个领域都出现了信息爆炸的情况,电子文本逐渐取代了传统的纯手工式的文本,并且越来越多的信息都以电子信息的形式存放在互联网上,互联网成为人们获取信息的重要渠道。同时,互联网上充斥着大量的冗余信息,人们面临着如何快速、准确地从海量信息中找到有用信息,以及如何快速阅读涌现的新信息的问题。自动文摘技术是解决这一问题的一个很好的工具。所谓的自动文摘就是利用机器自动地从原始文档或文档集合中提取摘要。多文档自动文摘是将同一主题下的多个文档所描述的主要信息,按一定的压缩比,提炼为一个简单文本的自然语言处理技术。本文研究的是基于主题模型的抽取式多文档自动文摘方法,因此文摘句的选取起到了至关重要的作用,选取出的文摘句要尽量覆盖文章内容同时满足冗余度较少,如何依据这两个要求对文摘句进行恰当排序是极为重要的。本文提出了排序主题模型的思想,通过主题排序和融入文档结构信息来对文摘句排序。本文具体工作主要包括:(1)主题排序与文摘句排序。采用关联主题模型CTM对文档集合建模,提出TopicRank算法对主题进行排序,提出的CorrSum算法通过有序的主题对文摘句进行排序,指导文摘句的抽取。在DUC2002上的实验结果证明了CorrSum算法的有效性。(2)加入文档结构信息对文摘句进行排序。本文研究了文档的两种基本结构,一,标题-正文结构。提出Titled-LDA算法对文摘句进行排序。二,段落结构。本文采用段落主题模型STM来发现每一篇文档以及其中段落的隐藏主题结构,提出的StmSum算法对文摘句进行排序。在DUC2002上的实验结果证明了算法的有效性。(3)针对大学英语四六级考试的阅读理解,提出了一种新的自动文摘的评价方法。