论文部分内容阅读
成分句法分析(又被称作短语结构句法分析)是自然语言处理的核心任务之一,被广泛应用于包括机器翻译、问答系统在内的多种自然语言处理任务。由于人工标注句法数据(在句法分析领域,这类数据的集合通常被称作树库)的出现,数据驱动的句法分析方法成为当前句法分析研究的主流方法。通常来说,训练数据越充分,句法分析器获得的句法分析性能越好。为了利用尽可能多的训练数据构建句法分析系统,本文研究基于多数据源的成分句法分析。本文主要考虑两种扩展训练数据的来源。其一为异构树库,由不同研究单位遵循不同标注规范所构建的句法树库。异构树库由于标注规范的差异所以不能直接合并使用。但是为了充分利用已经存在的人工标注数据,有必要研究如何能够应用异构树库。其二,本文也研究了半监督句法分析,特别关注如何利用无标注数据改进移进-归约句法分析。相对于异构树库而言,无标注数据更加容易获得而且数据规模更大,因此研究如何利用无标注数据进行句法分析具有更加现实的意义。本文的主要研究内容包括以下四个方面:本文提出了基于启发式解码的树库转换方法。该方法被分别应用于句法树中的词性转换和句法结构转换。应用该方法进行树库转换时只需要修改词性标注器和句法分析器的解码过程。首先,在目标树库上构建词性标注器(句法分析器),然后应用得到的词性标注器(句法分析器)对源树库中的句子进行词性标注(句法分析),并且在分析过程中引入源树库中的原有标注作为解码的指导信息。基于启发式解码的树库转换方法可以将源树库中的标注信息作用于整个解码过程,因而获得更好的性能。最终转换精度达到84.2%。本文提出了基于特征的树库转换方法。与基于启发式解码的方法相比,基于特征的转换方法并不将源树库中的标注作为解码时的硬约束,而是将其作为特征引入到词性标注器和句法分析器中。首先,在源树库上构建词性标注器(句法分析器)并且应用该词性标注器(句法分析器)对目标树库中的句子进行词性标注(句法分析)。如此,目标树库中的句子同时具有两种(遵循不同规范的)标注。在这个新数据上构建用于转换的词性标注器(句法分析器)对源树库进行转换。最终的转换精度达到84.8%。本文提出了基于协同解码的异构树库句法分析方法。树库转换是间接利用异构树库的方法,而协同解码属于直接利用异构树库的方法。协同解码方法首先在每一个异构树库上分别构建句法分析器,然后应用得到的多个句法分析器对测试数据进行句法分析。在分析过程中,句法分析器参照彼此的分析结果,使句法分析器的分析结果尽可能达成结构上的一致。协同解码方法在两个实验数据上分别获得0.5%和0.7%的性能提高。本文研究了半监督移进-归约句法分析,利用无标注数据改进词性标注器和移进-归约句法分析器。本文方法首先利用集成句法分析器对大规模无标注数据进行句法分析,然后从得到的自动分析树中抽取词性部分作为额外的训练数据构建词性标注器。这样得到的词性标注器可以生成更有利于句法分析的词性标注结果。另外从集成句法分析器生成的自动分析树中抽取词汇依存关系,并且在依存关系的基础上设计新的特征改进移进-归约句法分析器。最终将词性标注和句法分析两方面的工作结合在一起,可以得到目前最好的移进-归约成分句法分析结果。在英文和中文上的性能分别达到90.9%和82.2%。基于本文的技术,我们成功开发了多套性能优异的成分句法分析系统并且在机器翻译和语义角色标注等任务上得到了实际应用。