论文部分内容阅读
进入20世纪90年代,随着互联网的迅猛发展,信息的爆炸式增长满足了人们对信息需求的同时,也使人们快速、准确地找到真正需要的信息变得更加困难。自动文摘是解决这一问题的一种非常有效的技术,因此目前成为了人们日益关注的研究热点。本文首先介绍了自动文摘的发展历史与研究现状,并说明了目前几种主要的自动文摘系统模型和方法:基于统计的机械文摘、基于理解的文摘、基于篇章结构的自动文摘以及它们的研究处理过程,对它们的优点和缺点进行了讨论,归纳出各自的特点。接着本文对自然语言处理的技术基础进行了阐述。介绍了语料库的发展现状,并对本文所采用的来自北大计算语言研究所标注的《人民日报》语料库进行了说明,在其基础上进行了词典的建立,以及词性转移概率统计;介绍了本文采用的分词切分方法:正向、逆向以及双向结合得方法;针对出现的交集型切分歧义,本文采用基于互信息的消歧方法,并通过对语料库中歧义现象的统计建立了歧义信息统计表,避免了对整个语料库的重复搜索,提高了消歧的效率;词性标注方面,本文介绍了马尔科夫相关模型,借助其特征转移的性质对已切分完毕的语句进行标注,取得了很好的效果。随后,本文利用同义词词林进行了词语概念的提取,构建文本概念的向量空间,并利用相似度的理论计算出其中的参数值,即段落重要度,从而在此基础上计算出了句子的重要度,最后利用fisher分类方法对重要度较高的语句进行提取,从而形成文摘。本文尝试将句子格作为描述句子的特征,在句法依存的基础上进行格的提取,提出了粗糙集的决策方案,并进行了探索性工作。