论文部分内容阅读
多文档自动摘要是自然语言理解领域的一个重要的研究方向。近年来,随着计算机和互联网技术的迅速发展和普及,信息增长的速度比以前各个时期都更快,人们越来越陷入到信息的海洋之中。目前,人们主要是通过搜索引擎获得自己需要的信息,但搜索引擎返回来的相关文档太多,而多数是重复和相似的。这样人们就不能快速且高效地获取自己所需要的信息。多文档自动摘要技术研究的目标正是力求解决这一问题,把多篇同一主题的文档进行汇总,给人们提供简洁、信息全面的摘要,将人们从繁琐、冗余的信息中解脱出来。基于概念的多文档自动摘要的研究借助于语义资源确定文档中单词的概念,然后通过概念共现图抽取文档集的主题概念,计算句子的重要性,最后抽取文摘句生成摘要。
本文围绕基于概念共现图的多文档自动摘要系统,针对其关键技术展开了研究,主要研究内容和特色如下:
(1)为了引出概念共现图方法,本文首先研究了词共现图方法,并通过引入潜在语义分析的方法减小词对之间的相关性,引入衰减因子来提高词共现度的准确性等对它进行了改进。
(2)对概念提取方法进行了研究。借助语义资源WordNet的支持,提出了一科,概念归并算法和概念权重计算模型来确定文档中单词在上下文中的概念。
(3)本文以概念代替词形,用概念统计代替传统的词形频率统计,建立概念向量空间模型。以减小传统的标引词向量之间存在的”斜交”情形对文摘效果的影响。
(4)深入研究了主题划分技术,并提出了一种基于概念共现图模型的主题划分方法,使得产生的子主题信息覆盖率大,又尽可能提高它对全局主题的反映程度。
本文提出了基于概念共现图的多文档自动摘要方法。这是对多文档自动摘要技术的初步探索,并取得了一定的研究成果。多文档文摘无论是作为独立的系统还是作为搜索引擎等的一部分都将拥有广泛的应用前景,随着互联网的发展和时代的进步会有更大的发展空间。