论文部分内容阅读
本文主要研究提高基于短语的统计机器翻译系统的性能的方法。基于短语的统计机器翻译方法具有在翻译的过程中应用上下文使目标语言的构建更为合理且符合自然语言特征,通过无监督的形式从数据中学习得到短语翻译对,不需要语言资源来辅助学习过程等优点。但是,对于句子中短语间的长距离调序以及非连续的固定搭配翻译等问题,目前没有一个理想的办法来解决,使得基于短语的统计机器翻译系统性能仍不如意。
本文通过以下三个方面的改进提高了基于短语的统计机器翻译系统的性能:对目标语言语料库进行了复合词的捆绑处理,提高了词语对齐的精度;对Och的短语抽取算法进行了改进,解决了局部连续短语以及非连续短语模板的抽取问题;引入了翻译模板的概念,利用模板自动抽取方法,构造了农业领域模板,在一定程度上解决了目标语言语序混乱问题;在此基础上构建了基于短语和模板的双层翻译模型,并结合语言模型及相应的解码算法,实现了一个面向农业领域的汉语到民族语言的统计机器翻译系统,最后将该系统嵌入到农业知识处理平台中,利用记忆库,词典以及编码统一处理技术,完成了基于UNICODE编码的汉民(汉蒙、汉维、汉彝)双语农业知识处理统一平台。
实验表明,本文提出的基于短语和模板的双层翻译模型的统计机器翻译系统在性能上超过了原来的系统。复合词的捆绑处理使得词语对齐结果更精确。局部连续短语及非连续短语模板的抽取,在一定程度上扩充了语料库,尤其对于汉语和民族语言这种目前规模还相对较小的双语语料库来说,采用这种翻译方法,可以减少未登录词,提高翻译效率。在统计机器翻译方法中融合翻译模板的翻译方法使得系统的WER、PER值有了较大幅度的降低,BLEU值也有所提高,且较好地解决了句子的长距离调序以及非连续固定搭配的翻译问题。