论文部分内容阅读
汉语句法分析是中文信息处理的一个重要任务,通过句法分析可以使计算机理解句子的语法结构,进而指导计算机正确地理解句子的含义。然而当前汉语句法分析的性能并不能满足应用的需求,也严重影响了汉语句子的语义分析。目前汉语句法分析主要借鉴了性能较好的英文分析模型,但并没有达到相应的效果,因此如何结合汉语本身的特点改进分析性能是当前汉语句法分析的一个研究重点。近年来,依据描述汉语本身的语法体系构建的树库推动了汉语句法分析的发展,并有学者根据汉语句子结构的特点,提出了事件描述小句的概念,将句子看作是一个个事件描述小句构成的,将句子的结构分析转化为一个个事件描述小句的结构分析,重新定义了汉语句子的句法结构分析任务,并举办了多次相关的评测。本文就是依据评测的语料库,总结了汉语句法分析的任务,认识到短语结构分析在汉语句法分析中的重要地位,并将其作为本文的主要研究内容。本文对短语结构分析的研究主要集中在如何消除短语结构歧义。本文通过对描述汉语的词组本位语法分析,认为歧义的产生是由于汉语词和短语的功能类型没有准确地反映其句法功能。因此,本文的研究重点就是如何准确确定短语的句法功能,以及如何依据语料库消解歧义。首先,通过对语料库的基本数据进行统计,对真实语言的复杂性有一个基本的认识。在语料库统计数据的指导下,本文以频度10,单中心词,不含非短语成分为标准选择了553个组合模式作为本文的研究对象,其描述了语料库中91.53%的短语实例。其次,考虑到短语的开放,无限的特点,本文采用规则的方式推导短语的句法功能并对短语内部组成成分进行约束,规则中通过复杂特征集可以灵活地表示各种形式的句法语义特征。因此,构建短语结构规则库是本文消解歧义的主要方式,依据规则库构建的特点,本文设计了符合规则编写的长期性,反复性特点的表格记录方式。在短语结构歧义消解方面,本文以语料事实为依据统计了5871个歧义格式,并以“潜在歧义论”的指导思想归纳歧义消解条件。最后,通过对部分存在歧义的短语实例进行歧义消解实验,取得了很好的效果,证明该方法是可行的,有效的。