论文部分内容阅读
句法分析是自然语言处理中十分关键的技术,在机器翻译和自动问答等研究和应用中有着重要的作用。其目标是:分析出句子中词语之间的语法关系,并将分析结果表示成句法树。其主要工作是:建立语言分析模型,然后根据该模型制定语言分析的流程和算法,从而自动推导出句子的句法结构。目前的句法分析研究中,典型的语言模型都不同程度地存在一些缺陷,比如短语结构语法的生成能力过强,无法消解句法歧义,缺少语义描述和约束信息。当前英语等印欧语言的句法分析效果较好,但很多专门针对汉语而提出的语言模型和分析方法尚有不完善的地方,汉语句法分析效果相对要低很多,这是由汉语自身特殊的语法特点造成的,所以,有必要更深入地针对汉语特点进行汉语句法分析研究。为了提高汉语句法分析效果,本文结合汉语的句法结构和语言特点进行了探索和研究,提出了语言实体关系模型,根据此模型建立了一个汉语句法分析系统。本文工作的主要贡献和创新如下:(1)提出了一种描述汉语句型结构的方法——语言实体关系模式和句法成分功能表达式。传统短语结构语法的谓词无法表达复杂句法特征,导致其分析能力过弱,而生成能力过强,因此会产生大量的歧义结构。为了避免这些问题,本文提出了建立在谓词上的语言实体关系模式来描述“谓词—论元”结构特征,并进一步将其扩展成句法成分功能表达式,以用来描述汉语中各种句型结构。用关系模式和句法成分功能表达式来指导句法分析,有效地增强了分析能力和约束能力,减少了分析歧义。此外,本文定义的关系模式和句法成分功能表达式可以描述出全部的汉语句型结构,但其数量却非常少,具有高度的抽象性和概括性,便于推理计算。(2)提出了一种语块计算方法——词上多值递归函数。该函数用来定义和分析句法成分功能表达式中的各个语块,是一种语块的完全分析方法。通过该函数可以对语块内部的词串进行深层次的分解计算,从而获得语块内部的深层结构,进而帮助判断该句法成分功能表达式对于当前句子是否成立,是否是句子的合理分析结果。本文中的语块分析方法与已有的浅层句法分析中的组块分析方法不同,浅层句法分析中组块的结构比较简单并且不包含递归结构,而本文的语块可以包含更复杂的深层句法结构。(3)提出了句法结构和语义概念的优选策略,制定了优选策略的权值计算的原则和公式。以往的研究侧重于借助刚性语义匹配来选出最优句法树,而本文提出了一种柔性语义匹配机制及其计算方法,避免了刚性语义匹配的缺点。本文的权值计算公式综合考虑了句法和语义两方面的影响和贡献,可以有效地从众多结构合理的句法分析树中选出最优树。(4)基于上述各种方法,提出了用于汉语句法分析的语言实体关系模型。该模型以语言实体关系模式和句法成分功能表达式为句法分析的基础,通过计算一个句子是否满足特定的关系模式和句法成分功能表达式,来分析出其句法结构;使用词上多值递归函数来计算句法成分功能表达式中语块的深层句法结构;使用句法和语义的优选策略来消解分析过程中产生的句法和语义歧义,进而帮助筛选出最优句法分析树。该模型融入了很多汉语语法的特点,如汉语句型格式、汉语动词的“谓词—论元”配价特征、句子的语块类型等,可以有效地克服已有语法模型的一些缺陷,比如过强的生成能力、过多的句法歧义等。本文实现了一个基于该模型的句法分析器,并进行了句法分析对比实验。无论是在公共标准数据集CTB7.0上,还是在开放自选数据集上,都取得了较好的分析效果,并且仍然有很大的提升空间。实验结果验证了模型的可行性、合理性和有效性。