论文部分内容阅读
自动句法分析是当前计算语言学研究的一个热点,同时也是一个难点。由于汉语本身的一些特点,使得汉语自动句法分析的研究更加艰难。我们在做基于功能匹配语法的现代汉语自动句法分析研究时发现,现代汉语同形词存在许多语法功能歧义,给我们的自动句法分析树带来了大量的分支,造成了很大的困难,而这些分支是可以通过单独的处理或者预处理来加以消减的,因此有必要基于句法功能对同形词单独做一下探讨。本研究在工程实践的初始阶段采取一些切实可行的措施对同形词进行处理,减少了句法分析树的分支数量,提高了分析器的速度和质量。本文先对清华973树库中的同形词进行统计分析,从统计结果可以看出,同形词在现代汉语中占有较大的比例,具有很大的作用,因此处理好同形词,对于现代汉语本体研究和自动句法分析研究都有十分重要的意义。由于我们的基于功能匹配语法的现代汉语自动句法分析器只利用从清华973树库中统计出来的词和短语的句法功能,舍弃了词性和词义等信息,因而我们对同形词进行处理时为了和功能匹配的句法分析方法保持一致,就不能像其他大多数研究那样利用词性、词义信息,而是只利用句法功能信息,这样就把我们的消歧策略限定在的一定的范围内。排除词性、词义信息后,可以看到上下文信息也是可以用来消除同形词语法功能歧义的有效信息。在借鉴以往词性、词义消歧研究和小规模实验的基础上,本文决定基于同形词的上下文信息来进行同形词语法功能消歧。本文的消歧策略分为两部分:一是基于同形词的语法搭配来进行消歧,即根据同形词的某个特定上下文搭配信息进行语法功能消歧;二是基于同形词的上下文语境信息来进行消歧,也就是通过计算同形词上下文语境的相似度进行语法功能消歧。这些策略都着眼于大规模语料的统计,语言学角度的分析和描写较少,方法的一致性比较高,大大提高了结果的可信度。本文用汉语中目前研究比较充分的“打”和“花”两个词为例进行消歧实验,把清华973树库作为封闭测试的语料,用1998年1月人民日报语料作为开放测试的语料,基于搭配的“打”和“花”语法功能消歧实验封闭测试的结果分别为80.4%和91.5%,开放测试的结果分别为69.16%和70.00%;基于语境计算的消歧实验的封闭测试的结果分别为93.68%和92.56%,开放测试的结果分别为72.06%和62.50%,二者的实验效果都比较理想。由于基于搭配的消歧方法在抽取某些语法功能搭配时需要人工的干预,用于大规模真实语料时还存在一定的困难,因此进行句法分析时我们可以采用基于语境计算的同形词语法功能消歧策略来进行同形词的前期处理。