论文部分内容阅读
机器翻译是利用计算机把一种自然源语言转变成另一种自然目标语言的过程。机器翻译基本分为基于规则的方法和基于语料库的方法,基于语料库的方法又可以分为基于统计的方法和基于实例的方法。近年来,随着统计方法不断发展并在各项评测中取得好成绩,它已逐渐成为机器翻译领域的研究热点之一。
本文首先介绍了机器翻译的历史、研究现状、主要方法和分类,介绍了机器翻译的四种经典思想,并重点强调了统计思想。通过一些典型模型和方法的展开介绍了统计翻译模型的三个主要关注点:语言模型、翻译模型和解码模型。
其次,分别从翻译模型和解码模型入手,本文提出了五种翻译模型:由最简单的最少短语条数模型,到由基本短语模型发展而来的无调序基本短语模型和邻接调序基本短语模型,再到由Koehn短语模型发展而来的无调序Koehn短语模型和邻接调序Koehn短语模型,其中允许调序的邻接调序基本短语模型和邻接调序Koehn短语模型要受到邻接调序约束的限制。传统上,一般认为短语统计机器翻译的解码在计算复杂度上是NP完全问题,因此解码器为了在有限时间内尽快找到最优解,必须采用有风险的方法来降低计算复杂度,这样往往引入了解码错误从而降低了翻译质量。而本文提出的五个模型在邻接调序约束下的解码计算复杂度都是多项式难度的,因而可以获得更好的翻译质量。
再次,本文利用已有的汉英双语语料库,设计并实现了一个汉英翻译系统,其中的主要工作包括:双语语料库的预处理和对齐训练,短语提取及概率计算,建立倒排索引,训练语言模型,译前、译后处理,句子提取、翻译结果生成,以及与五种模型相对应的五个解码器的设计和实现。
最后,本文讨论了机器翻译的人工评测和自动评测方法,并采用经典的短语统计机器翻译系统PHARAOH系统作为基线,给出了所实现的汉英翻译系统与基线系统进行比较评测的评测结果,并对结果进行了比较和分析。