论文部分内容阅读
随着社会的发展与不断进步,信息技术在人类生活中扮演着越来越重要的角色。藏文信息处理技术从开始到现在不断地研究与进步,从最基本的字处理到应用阶段的机器翻译等研究一直在不断向前推进,现阶段也有很多成果已达到应用要求,惠及群众的日常生活。随着时代的进步,越来越多的功能性应用被人们青睐和使用,市场对藏文信息处理技术的需求越来越大,要求也越来越严格。由于藏语信息处理技术的起步相对较晚,研究人员比起英语和汉语等较少等的原因,比起英语和汉语自然语言处理,藏语自然语言处理远远落后。同样存在资源不共享等因素,造成很多研究成果只局限于封闭语料上的测试,无法得到公开的认可,这也阻碍了藏文信息处理的发展与进步。
句法分析是自然语言处理中的关键任务之一,是机器翻译、语义理解等自然语言处理任务的基础。它研究句子中各个成分之间的约束关系和被约束关系,其最终结果是以树形图来表示成分之间的关系,句法分析依赖于句子的分词和词性标注的结果,而句法分析出来的结果往往影响其后各个自然语言处理任务的效果。
现阶段藏语句法分析的研究一直是借鉴英语和汉语的技术,还没有形成一个公开认可、开放的句法分析器供大家使用。由于不同语言之间的差异,适合某一类自然语言的处理方法不一定适合另一类语言。不同于英文和汉文,藏文中有丰富的虚词连接各个实词来表达句意。汉语是按照词序来表达句意,而藏语是虚词来表达词语之间的关系来表达句意。以往藏文句法分析大都是建立在标准语法的基础上,缺乏藏文本身的语法特点。才华在基于格语法的藏语句法语义一体化研究中,通过藏语中的的格语法对藏文的句法和语义研究进行了分析研究。本文充分利用藏文语法本身的特点,按照藏文句子中格助词的作用和功能,借鉴Fillmore格语法和藏语格解构体的概念进行了藏文短句句法分析研究。其特点是在充分表现藏文本身的语法规则的基础上结合上下文无关文法进行研究,有利于提高藏语句法分析的效果。
论文从藏语分词、词性标注、短语识别到最后的句法分析,实现了一体化的研究,分5个章节进行论述。第一章绪论,介绍了论文的研究背景、目的和意义等。第二章对藏语格语法与Fillmore格语法进行了简单的介绍.第三章研究藏文分词、词性标注。其中,分词作为最基础的任务,也是最重要的任务,先分别进行规则和统计的研究,比较分词效果,最后通过统计和规则相结合的方法进行了研究。词性标注部分用隐马尔可夫模型进行了研究。第四章对藏语名词短语和动词短语进行了研究,短语识别部分首先建立了规则库,然后通过规则匹配法进行了识别研究。第五章用格语法通过CFG对藏语短句进行了句法分析研究。第六章进行了总结与展望。
藏文信息处理已经有20多年的历史,回望过去,从最基础的编码到各种应用的不断进步,学者们刻苦艰辛,为藏文信息技术的发展做了很大的贡献。但是由于藏文语法本身的特点限制和各种资源的缺乏,前进步伐缓慢,还需要更多研究着的参与和努力。从分词到词性标注,已经有很多学者进行了研究,也得到了很多的效果。但是藏语句法分析才刚刚起步,需要尝试各种方法进行很多的研究。
句法分析是自然语言处理中的关键任务之一,是机器翻译、语义理解等自然语言处理任务的基础。它研究句子中各个成分之间的约束关系和被约束关系,其最终结果是以树形图来表示成分之间的关系,句法分析依赖于句子的分词和词性标注的结果,而句法分析出来的结果往往影响其后各个自然语言处理任务的效果。
现阶段藏语句法分析的研究一直是借鉴英语和汉语的技术,还没有形成一个公开认可、开放的句法分析器供大家使用。由于不同语言之间的差异,适合某一类自然语言的处理方法不一定适合另一类语言。不同于英文和汉文,藏文中有丰富的虚词连接各个实词来表达句意。汉语是按照词序来表达句意,而藏语是虚词来表达词语之间的关系来表达句意。以往藏文句法分析大都是建立在标准语法的基础上,缺乏藏文本身的语法特点。才华在基于格语法的藏语句法语义一体化研究中,通过藏语中的的格语法对藏文的句法和语义研究进行了分析研究。本文充分利用藏文语法本身的特点,按照藏文句子中格助词的作用和功能,借鉴Fillmore格语法和藏语格解构体的概念进行了藏文短句句法分析研究。其特点是在充分表现藏文本身的语法规则的基础上结合上下文无关文法进行研究,有利于提高藏语句法分析的效果。
论文从藏语分词、词性标注、短语识别到最后的句法分析,实现了一体化的研究,分5个章节进行论述。第一章绪论,介绍了论文的研究背景、目的和意义等。第二章对藏语格语法与Fillmore格语法进行了简单的介绍.第三章研究藏文分词、词性标注。其中,分词作为最基础的任务,也是最重要的任务,先分别进行规则和统计的研究,比较分词效果,最后通过统计和规则相结合的方法进行了研究。词性标注部分用隐马尔可夫模型进行了研究。第四章对藏语名词短语和动词短语进行了研究,短语识别部分首先建立了规则库,然后通过规则匹配法进行了识别研究。第五章用格语法通过CFG对藏语短句进行了句法分析研究。第六章进行了总结与展望。
藏文信息处理已经有20多年的历史,回望过去,从最基础的编码到各种应用的不断进步,学者们刻苦艰辛,为藏文信息技术的发展做了很大的贡献。但是由于藏文语法本身的特点限制和各种资源的缺乏,前进步伐缓慢,还需要更多研究着的参与和努力。从分词到词性标注,已经有很多学者进行了研究,也得到了很多的效果。但是藏语句法分析才刚刚起步,需要尝试各种方法进行很多的研究。