论文部分内容阅读
句法分析是自然语言处理的一个基本问题。许多自然语言处理任务,如机器翻译、问答系统、信息检索、信息抽取等往往需要依赖句法分析的精确结果才能最终获得满意的解决。总体上来看,由于起步较晚、语料库资源缺乏等原因,汉语句法分析技术不如英语句法分析技术那样成熟。目前的汉语句法分析技术还满足不了各种中文信息处理系统的要求,所以对汉语句法分析的研究既意义重大又任重道远。
歧义将会导致对同一个句子分析得到多个句法树,统计方法则可以为每一个生成的句法树指派一个概率值,从而选择可能性更大的分析树。统计方法在分析自然语言方面已经取得了显著的成效。本文主要研究统计框架下汉语句法分析问题。论文对Dan Bikel基于Collins中心词驱动概率句法分析模型实现的句法分析器进行了深入研究,认为原句法分析器存在以下两方面的问题:
1.原模型将句子中词语词性的标注过程整合在整个分析过程中,即使提供候选词性,在分析过程中也并不完全采用输入所提供的词性,这不仅导致分析变得更加复杂,而且影响分析精度。
2.汉语存在长句较多的特点,而长句中更多的歧义导致模型的分析效率低下,很多的分析错误是由分析树的底层分析错误造成的,因此,要使用原模型对汉语进行分析,需要针对汉语自身的特点,缩短句子的长度,减少句子的歧义。
在原句法分析器的基础上,针对上述的两个问题,本文对其进行了两个方面的改进:
1.通过提供N-best词性候选序列,改进原模型在词性方面的处理,改善了句法分析的结果;
2.在该模型中引进单独的基本名词短语识别,从而降低句法分析的复杂度,提高了效率,其中,针对中文的特点,通过对BaseNF的概念进行一系列的扩展,深入研究了基于不同层次概念的BaseNF对句法分析的影响并探讨更适合中文句法分析的BaseNF定义。
论文利用改进的句法分析器进行中文句法分析实验,实验结果表明,改进的句法分析器可以缩短分析时间26%,提高F值4.4个百分点,交叉括号平均减少18%。