论文部分内容阅读
在本文中,我们首先介绍了计算语言学的基础概念体系,给出了计算语言学的定义以及计算机对自然语言的研究和处理的方法和过程,我们还介绍了国内外关于自动文摘系统等方面的研究方向和发展动态,并指出了自动文摘系统研究的某些不足。然后我们介绍了文摘和自动文摘系统的基本概念体系,并针对目前几种主要的自动文摘系统形式化模型和方法:基于统计的机械文摘、基于意义的理解文摘、基于概念的文本结构分析方法和基于知识的文本摘要等模型和方法进行了比较和分析,对它们的优点和缺点进行了讨论,归纳出各自的特点,进而在总结各种不同类型的自动文摘系统的特点的基础上,将基于统计的机械文摘、基于意义的理解文摘和基于概念的文本结构分析方法等三种研究方法相结合,提出了一种综合型的自动文摘系统的设想。 在本文中,我们还给出了名词性短语的指代和省略的概念以及分类,引入了同义词集、缩略集、归类集、归类函数和差异性函数的概念,论述了同义词的回指、缩略形式的回指、省略的回指、限定性名词短语的回指以及代词的回指,在此基础上给出了同义词的回指、缩略形式的回指、省略的回指、限定性名词短语的回指以及代词的回指等的回指算法思想,并引入了这五种形式的名词性短语的回指算法。 我们随后在已经提出的五种形式的名词性短语回指算法的基础上,从篇章宏观结构分析和篇章微观结构分析的角度,介绍了有关全文结构、章节结构、段落结构和复句结构的分类和分析方法,尝试性地给出了复句结构新的分类方法,描述了文本主题句的提取算法思想,引入了文本主题句的提取算法,并对自动文摘系统进行了探索性的研究: (1)我们先对文本进行名词性短语的回指,这可由同义词的回指、缩略形式的回指、省略的回指、限定性名词短语的回指以及代词的回指等名词性短语的回指算法来完成。 (2)在名词性短语的回指已完成的前提下,我们来提取文本的段落、章节以及全文的特征词,得到文本段落、章节和全文的特征词集。dHry 硕士学位论文@MASTER’S THESIS 臼)我们还讨论了如何对文本进行篇章宏观结构分析和篇章微观结构分 析,在完成全文、章节、段落和复句结构分析的基础上,运用主题句的提 取算法进行段落、章节以及全文主题句的提取。 本文尝试性地给出名词性短语的回指算法和文本主题句的提取算法,为进一步讨论一种综合基于统计的机械文摘、基于意义的理解文摘和基于概念的文本结构分析方法等三种研究方法的中文自动文摘系统打下基础。