论文部分内容阅读
不同的机器翻译方法有各自的优点和局限性。基于混合策略的翻译方法的研究目的就是充分利用各种机器翻译方法的优势,避免每一种翻译方法的不足,达到翻译结果的最优化,从而提高机器翻译系统整体性能。本文在吸收和借鉴以往机器翻译研究的理论与方法的基础上,结合蒙古文信息处理的现状,并充分利用了其相关的资源,研究和实现了基于混合策略的汉蒙机器翻译系统。我们利用已有开源工具搭建了一个基于短语的汉蒙统计机器翻译系统,同时建立了汉蒙机器翻译系统自动评测平台需要的语言资源。我们在该研究中,为了提高基于短语的汉蒙统计机器翻译的性能,本文从以下几个方面进行了研究和实验:(1)通过加入汉蒙双语词典和对蒙古语名词的格、复数及领属等形式附加成分的形态分析,解决了译文中出现的大量未登录词问题。(2)提出了基于蒙古语语序的汉语句子调序方法,解决了基于短语统计机器翻译中出现的大量的语序错误。首先把汉语句子进行句法分析;然后根据调序规则进行调序,让汉语句子的语序尽量接近蒙古语句子的语序;最后把调序后的汉语句子送到统计解码器中进行单调解码。(3)为了解决汉蒙机器翻译中的量词翻译错误,我们对汉语和蒙古语中的量词翻译进行研究的基础上,提出了使用量词表进行翻译,总结出了一对一、多对一、一对零和一对多等汉语量词到蒙古语量词翻译的对应关系,给出了各种对应中的翻译方法。机器翻译的评测对机器翻译技术的研究具有重要的推动作用。在CWMT2009机器翻译评测中,我们为汉蒙日常用语评测任务提供了训练语料,开发集和测试集。为了准备这些语料开发了基于规则的蒙古语句子自动切分程序和蒙古文拉丁转写到UTF-8编码的转换程序,在此,还介绍了研制这些程序的方法与过程。最后,我们给出了基于混合策略汉蒙机器翻译系统的实验及结果分析。