论文部分内容阅读
蒙古文信息处理研究工作中句法分析属于关键技术。近年来随着信息处理工作的深入,诸如文本校对、机器翻译等应用系统的研发,对句法分析结果提出了更高的要求。本文以蒙古语传统语法学研究为理论依据,在蒙古语词法分析、依存句法分析等信息处理成果的基础上,从统计学和计量学角度,对现代蒙古语宾述关系动态特性进行描述并设计实现了自动识别。宾述关系是一种比较复杂的依存关系类型,在蒙古语句子中所占的比例很高。蒙古语形态变化复杂,致使提高蒙古语宾述关系识别准确率也变得困难,其主要难点在于对省略宾格形式出现的直接宾述关系识别与间接宾述关系识别。正确识别蒙古语宾述关系对于蒙古语句法分析具有重要的意义。主要体现在以下两点:①传统语言学研究方面,用统计学方法为传统语法学原理提供了验证手段和数据。②信息处理方面,扩充了树库语料的同时为细化蒙古语句法分析研究提出了创新型的模式。本文分以下几个步骤对蒙古语宾述关系进行动态特性描述和自动标识研究:一、对现代蒙古语依存树库进行扩充并校对完善。新增校对树库达到189048个词,13154个句子规模。二、对蒙古语宾述关系词法特点、搭配特点、依存句法特点等进行了详细的统计分析,为人工编写识别规则和机器学习特征模板的制定提供了必要的理论依据。三、对蒙古语宾述关系的识别实验分别进行了四组,即①基于CRF统计模型的识别实验;②加入人工编写规则的CRF统计模型识别实验;③加入有条件限制规则的CRF统计模型识别实验。④修订规则后的CRF统计模型识别实验。准确率分别达到89.81%、89.80%、89.80%和89.73%。