基于主题模型的多文档自动文摘方法研究

来源 :大连海事大学 | 被引量 : 11次 | 上传用户:congsun
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
目前,互联网正处于高速发展的时期,各个领域都出现了信息爆炸的情况,电子文本逐渐取代了传统的纯手工式的文本,并且越来越多的信息都以电子信息的形式存放在互联网上,互联网成为人们获取信息的重要渠道。同时,互联网上充斥着大量的冗余信息,人们面临着如何快速、准确地从海量信息中找到有用信息,以及如何快速阅读涌现的新信息的问题。自动文摘技术是解决这一问题的一个很好的工具。所谓的自动文摘就是利用机器自动地从原始文档或文档集合中提取摘要。多文档自动文摘是将同一主题下的多个文档所描述的主要信息,按一定的压缩比,提炼为一个简单文本的自然语言处理技术。本文研究的是基于主题模型的抽取式多文档自动文摘方法,因此文摘句的选取起到了至关重要的作用,选取出的文摘句要尽量覆盖文章内容同时满足冗余度较少,如何依据这两个要求对文摘句进行恰当排序是极为重要的。本文提出了排序主题模型的思想,通过主题排序和融入文档结构信息来对文摘句排序。本文具体工作主要包括:(1)主题排序与文摘句排序。采用关联主题模型CTM对文档集合建模,提出TopicRank算法对主题进行排序,提出的CorrSum算法通过有序的主题对文摘句进行排序,指导文摘句的抽取。在DUC2002上的实验结果证明了CorrSum算法的有效性。(2)加入文档结构信息对文摘句进行排序。本文研究了文档的两种基本结构,一,标题-正文结构。提出Titled-LDA算法对文摘句进行排序。二,段落结构。本文采用段落主题模型STM来发现每一篇文档以及其中段落的隐藏主题结构,提出的StmSum算法对文摘句进行排序。在DUC2002上的实验结果证明了算法的有效性。(3)针对大学英语四六级考试的阅读理解,提出了一种新的自动文摘的评价方法。
其他文献
本研究通过对外语类保送生入校后学业状况的调查分析,针对外语类保送生培养现状和存在问题,基于当代高等教育的发展趋势和人才培养规律,提出了人才选拔与人才培养的制度相关
宋以前民间腊八节日食品中无任何粥类。随着佛教的世俗化以及社会经济文化的发展,佛教的粥和民间的腊八在宋代完成了契合。具体到空间的发祥地,就是东京开封。历史上记载腊八
畜牧养殖是为市场供给畜牧产品的重要基地,不仅要满足市场对畜牧产品的数量需求,还要保证其质量与食品安全。为此,本文以生猪养殖为例,对动物免疫程序及疫苗免疫失败的原因进
母猪产后瘫痪又称骨质疏松症、产后麻痹,俗称“奶瘫”、“风瘫”,是散养和集约化养殖中常见的一种疾病,各个胎次、不同年龄、品种的生产母猪均可发病,多发于产后2~5d,极大程
猪人工授精技术的推广与应用在生猪生产中起到了重要作用,可以提高公猪的利用率,降低成本上的投入,同时也可以实现安全生产,对疫病的传播进行有效控制,整体的生产效率得到了
<正>多发性硬化(multiple sclerosis,MS)是一种中枢神经系统白质炎症性脱髓鞘病变为主要特点的免疫介导性疾病[1]。好发于中青年,是中青年非创伤性致残的最常见原因。由于近
在我国古代较长时期里,从贵族到民间,以食盐和豆豉作为最简单有效的烹饪调味品。于是,便有了专用的盛装食盐和豆豉的共用器皿"盐豉共壶"。目前发现的几件存世出土"盐豉共壶"
随着生态文明建设的不断推进,我国的畜牧养殖业从"增量型"逐渐向"提质增效型"转变,在新常态下,为动物疫病防控带来机遇的同时也带了更加严峻的挑战。动物疫病防控工作属于生