论文部分内容阅读
在本文中,首先介绍了自然语言处理的基础概念体系,给出了自然语言处理的定义及其研究和处理的方法和过程,接着便介绍国内外关于自动文摘系统等方面的研究方向和发展动态,并指出了自动文摘系统研究的某些不足。然后重点说明了文摘和自动文摘系统的基本概念体系,并针对目前几种主要的自动文摘系统形式化模型和方法:基于统计的机械文摘、基于理解的文摘、基于概念依存的文本结构分析方法和信息抽取的文本摘要等模型和方法进行了比较和分析,对它们的优点和缺点进行了讨论,归纳出各自的特点。进而在总结各种不同类型的自动文摘系统的特点的基础上,将基于潜在语义分析和篇章多级依存结构的文摘方法相结合,提出了一种综合型的自动文摘系统的设想。潜在语义分析(Latent Semantic Analysis,LSA)是一种用于自动地实现知识提取和表示的理论和方法,它通过对大量的文本集进行统计分析,从中提取出词语的上下文使用含义。在技术上,它同向量空间模型类型类似,都是采用空间向量表示文本,但通过SVD分解等处理,消除了同义词、多义词的影响,提高了后续处理的精度。篇章多级依存结构分析(Text Multilevel Dependency Structure,TMDS)是一种基于结构的自动文摘分析方法。如果把各个部分视为节点,并在两个有语义联系的部分之间引一条边,那么我们就得到了一个关联网络。它清楚的表示了文章的整体结构;同时篇章结构比语言表层结构深入了一大步,根据篇章结构能够更准确地探测文章的中心内容所在,因而基于篇章结构的自动文章能够避免机械文摘的许多不足,保证文摘质量。本文提出的文摘方法综合利用了两种方法。首先通过对文本进行潜在语义分析,对文本矩阵进行相应的奇异值分解,重构语义矩阵;然后采用基于篇章多级依存结构的文摘分析方法,对重构的语义矩阵表示的文本内容进行深入的分析,抽取重要的句子生成文摘,这样就弥补了潜在语义分析在词法和句法分析上的不足;同时过滤和去除了语义噪音,缩小了问题的规模。