论文部分内容阅读
动词子语类框架(subcategorization frame,以下简称SCF)信息在语言学上有重要的意义,它可以解决绝大部分词语的论元和附属语区分问题。在概率句法分析应用中,子语类框架信息可以大大提高句法分析的准确率,在语义消歧和语义角色标注中也可提供重要的信息。随着自然语言处理研究的不断深入和发展,对动词子语类框架信息的获取也越来越引起人们的重视。
有关英语动词SCF自动获取的研究相对较成熟,而针对汉语动词SCF的自动获取研究还很少。本论文针对汉语动词SCF的自动获取进行了以下的系列研究:
(1)在子语类框架信息的获取过程中,首先要建立标准完备的子语类框架类型集。本文提出一种语言学知识与统计方法相结合的汉语动词子语类框架类型集的半自动获取方案。初步建立起了既符合统计结果又基本符合语言学理论的汉语动词子语类框架类型集。
(2)利用机器学习的方法获取SCF的概率信息,对提取出的子语类框架信息进行过滤,获取比较准确的子语类框架概率信息,对比实验表明,本文提出的方法在准确率和召回率上都有一定提高。并最终获取了汉语常用2000动词的子语类框架的概率信息。
(3)对汉语动词子语类框架概率信息的应用进行了初探,将本文获取的动词子语类框架概率信息与概率句法分析结合起来,提出一种基于动词子语类信息的词汇化概率句法分析方法。论文建立了基于汉语动词子语类框架的统计句法分析模型,并结合原有的概率句法分析器PCFG实现了一个基于动词子语类信息的概率句法分析器原型系统S-PCFG。实验证明了基于动词子语类信息的概率句法分析对自然语言句法分析的准确率和速度均有所提高。