论文部分内容阅读
句法分析是自然语言处理过程中一项基础性的工作,从二十世纪四十年代末到现在,国内外学者们设计了很多自然语言处理的形式模型,这些模型有基于短语结构语法的形式模型、基于合一运算的形式模型、基于依存和配价的形式模型、基于词汇主义的形式模型、N元语法、数据平滑和隐马尔可夫模型等,它们都对自然语言处理中的句法分析研究做出了积极的贡献。文中所提基于规则的句法分析方法主要是指chomsky的上下文无关文法,也是基于短语结构的语法。分词、词性标注以及句法结构的树形图表示,都属于句法分析的研究范畴。在描述分词部分时,对分词歧义类型及消歧方法做了详细的分析。除了利用传统的最大概率匹配法分词外,还提出了一种利用转移概率消解分词歧义的方法,文中称这种方法为词性转移概率消歧法,它在消解分词歧义上比最大概率匹配法更优越。自动词性标注是在藏语HMM模型基础上,用Viterbi算法进行的,还对藏语中的典型词性歧义及其消解方法做了分析。在句法结构的自动表示上,首先把藏语句型分成六个大类,并以此为依据,构建了一个规模为480余个句法树的树库,然后利用词性串匹配法,以树形图表示出藏语句子的句法结构。考虑到文中所用句法分析方法不能像线图算法、LR算法和Earley算法那样表示歧义句的句法结构。因此,对藏语中的常见歧义句做了分类,归纳出歧义句中存在的一些规律,利用概率上下文无关语法对句子歧义做了处理,使本文的句法分析系统具备解决简单歧义问题的能力。文中设计的句法分析器,能按照词性串匹配算法把树库中的所有句型对应的句法结构以树形图的形式直观地表达出来,但因为只有词性串匹配成功才能提取对应的用广义表表示的句法树,所以句法分析器的性能与词性串匹配算法没有太大的关系,而更多地依赖于足够高准确率的词性标注系统,因此,自动词性标注模块设计的好坏,会直接影响整个句法分析器的效果。