论文部分内容阅读
最长名词短语的识别能够为自动句法分析、机器翻译系统提供有力的支持。以往的研究着力于短语边界的发现,而对于最长名词短语本身缺乏深入的探讨。汉语语法研究指出,多数偏正结构,可以根据是否带“的”,分为粘合式偏正结构和组合式偏正结构。从内部看,由于“的”字短语的存在,这些组合式偏正结构能够容纳更多的词类和句法结构;从外部看,两者的句法表现也有一定差别。因此,汉语最长名词短语可以进一步划分为含“的”最长名词短语和不含“的”最长名词短语。本文在全面调查含“的”最长名词短语的内部结构、句法分布、线性分布的基础上,提出了“先识别右边界,识别成果再参与左边界识别”的研究策略,系统地研究了该短语的自动识别问题。本文的研究内容主要包括两个部分:一部分是含“的”字短语的最长名词短语的自动识别,全面分析了该短语左右边界的不同特征,并基于边界分布概率的方法分别识别了其右边界和左边界;另一部分是含“的”字偏正结构的最长名词短语的自动识别,同样探讨了该短语的边界特征,在此基础上将识别短语转化为识别句法主语和宾语的问题;该部分采用边界分布概率的方法识别右边界,并提出了基于搭配的左边界识别方法,其中纳入了介词框架、介动搭配、介宾搭配、动宾搭配等四种搭配类型。本文采用组合模型和规则指导的训练算法缓解数据稀疏的问题。组合模型通过向条件子概率,相关频次,语义类等历史等价类的回退大大优化了模型参数;由于训练语料提供的搭配数量极为有限,规则指导的训练算法通过人工制定的三条规则从测试语料中直接提取搭配数据,使系统开放测试的召回率提高了27%以上。实验基于64万字的新闻语料进行训练,并在32万字的同质语料上进行了开放测试。整个识别系统获得了70.42%的调和平均值。从识别策略上看,右边界识别正确标注了91%以上的对象,为左边界识别提供了较好的基础;左边界识别获得了76.16%的调和平均值,并且随着搭配数据质量的提高,系统预期还能够取得更好的识别效果。