论文部分内容阅读
词法分析是自然语言处理的一个基础性研究,词法分析的正确率将直接影响到后续自然语言处理(如:机器翻译)的性能。本文构建了统计模型,对汉语和蒙古语进行了切词和词性标注处理。在此基础上,将汉蒙词法形态信息融入到了汉蒙统计机器翻译系统,并在双语对齐的平行语料库上进行了实验,改善了译文的质量,验证了词法分析对于汉蒙机器翻译的重要性。本文系统地介绍了条件随机场模型的定义、图结构、势函数、模型训练及解码算法;并简化了条件随机场模型的图结构、设计了特征函数、改进了解码算法;将改进后的模型应用到了汉语和蒙古语的词法分析工作中。本文提出了一种局部歧义词网格与条件随机场相结合的汉语分词模型。首先,在低层使用局部歧义词网格对文本粗切分,并将切分结果作为一项特征提供给高层的CRFs模型;然后,在高层使用条件随机场对文本进行字标注。在SIGHAN2005提供的PKU和MSRA分词语料上进行了测试,取得了较高的切分结果。我们还构建了能够融合更多上下文信息的汉语词性标注模型。本文针对蒙古语通过词干后缀接不同词尾来实现形态变化的语言特点,首先构建了基于最小描述距离的统计模型,用于蒙古语词形切分;并在此基础上建立了一个双层的蒙古语词性标注模型,该模型把低层的切分结果作为一项特征提供给高层的条件随机场模型去学习。在内蒙古大学提供的语料上进行了训练和测试,取得了较高的标注结果。本文将汉语和蒙古语的词法信息作为因子融合到统计机器翻译系统中,建立了源语言因子到目标语言因子的多个翻译路径;使用了多个基于词法因子的语言模型评价翻译结果;建立了从目标语言翻译因子到表面词形的生成模型。弥补了统计模型对汉语、蒙古语词法信息利用与表达能力不足的问题;提高了统计机器翻译的译文质量。