论文部分内容阅读
句法分析是自然语言处理(NaturalLanguageProcession,NLP)领域中的关键问题之一,同时它也是公认的一个研究难题,其主要任务是自动分析出句子的语法结构,也就是说,将一个线性序列的句子转换成一个结构化的句法树。句法分析也是藏文信息处理中的一项重要课题,它的发展能带动其他后继工程如机器翻译、问答系统、信息抽取等的发展。 藏文信息处理的分析技术,大致可以分为两个层面,一是浅层分析,如分词,词性标注等;二是深层分析,如句法分析,语义分析等。其中,浅层分析是对自然语言进行进一步深层分析的基础。因此,本文首先在前人对藏语自动分词、藏语自动词性标注以及藏语句子边界识别等问题所做的工作基础上,结合现代藏语语法理论,更进一步地分析和研究了藏语真实文本中的紧缩词、未登录词、交集型歧义、兼类词以及藏语句子的边界等关键问题,提出了相应的识别方法和分析算法,并确定了一套基于功能分类的词类标记集;其次,介绍了短语结构语法的相关理论。同时从理论上研究和分析了藏语短语结构及组合规则,从而确定了藏语短语分类及短语标记集。在此基础上,制定了一套基于上下文无关的藏语语法规则集,首次描述了藏语自然语言的形式化;再次,分析和研究了国内外的句法分析方法,重点研究了LR分析算法,并根据藏语自身的特点,对标准LR分析算法进行了一些改进,同时在规则的选取上采用了动态的排序方法,使得分析效率和分析结果的准确率有一定的提高;最后,根据实际应用,分析、设计了藏语自动分词及词性标注一体化模块、藏语句子边界识别模块、藏语句子结构检测模块和基于LR分析算法的句法分析模块,进而实现了一个完整的藏语句法分析原型系统。