论文部分内容阅读
机器翻译的研究已经有五十多年的历史。目前,主导的研究方向是基于统计的机器翻译。经过近十多年的发展,统计机器翻译已经从最开始的基于词的模型演变到现在比较成熟的基于短语的翻译模型,直至目前正处于研究热点阶段的基于句法的统计机器翻译模型。基于句法的机器翻译模型相比以往的模型有着很多潜在的优势。比如较容易对长距离调序进行建模、具有较强的泛化能力、可以处理非连续短语对应等等。但同时,基于句法的机器翻译模型的研究尚不完善,还有很多课题亟待解决。本文就是针对当前句法模型中存在的若干问题展开研究,尝试提出些解决方案。具体地,本文主要做了如下工作:1)基于同步树替换文法的统计机器翻译模型针对基于短语的统计机器翻译模型以及基于同步上下文无关文法的句法模型的缺陷,本文提出一种基于同步树替换文法的机器翻译模型。基于短语的统计机器翻译模型把短语作为基本翻译单元,从而可以捕捉到一些常见的翻译现象,如习惯用语等。但是基于短语的模型没有任何结构信息,故而缺乏远距离全局调序的能力,同时不能对非连续短语翻译对进行建模。基于同步上下文无关文法的句法模型只允许处于同层次中的兄弟节点之间进行调序,无法处理语言间的异构对应现象。相对于基于短语的模型,本文所提出的模型可以对远距离结构性调序和非连续短语翻译进行建模;相对于基于同步上下文无关文法模型,本文所提出的模型可以对任何层次上的树节点调序进行建模。因此,本模型可以为处理语言结构间的异构对应问题提供有效的解决途径。在两组风格差异较大的数据集上进行的实验均验证了基于同步树替换文法的模型相对比于基于短语模型和基于同步上下文无关文法模型的稳定优势。2)融入非严格句法翻译等价知识现有的大多数基于句法的模型都因严格的句法限制而制约了模型的描述能力。为突破这种限制并将基于短语的模型的优点融入到句法模型中,本文提出一种基于同步树序列替换文法的统计机器翻译模型。在此模型中,树序列被用作为基本的翻译单元。在这种框架下,不满足句法限制的翻译等价对和满足句法限制的翻译等价对都可以融入句法信息并被翻译模型所使用。在2005年度美国国家标准与技术研究所(NIST)举办的机器翻译评测的中文翻译任务语料上的实验表明,本文提出的模型显著地超过了两个基准系统:个基于短语的翻译系统和一个基于严格树结构的句法翻译模型。3)基于合成同步文法的统计机器翻译模型为综合利用不同同步文法的优势,本文提出了一个基于合成同步文法的机器翻译模型。这个合成同步文法合成了一个纯形式化的同步上下文无关文法以及一个基于语言学信息的同步树序列替换文法。合成同步文法推导中所包含的异质文法推导可以极大地扩大候选译文搜索空间,从而进一步提高系统翻译性能。4)规则分类体系以及不同种类规则贡献研究本文还对翻译规则的分类体系进行了深入探讨。具体地,本文回顾了当前研究界出现的一些零散的规则分类方法,并对它们进行了批判式的讨论分析。在此基础上,提出了一个比较完善的、多角度的规则分类体系。为了考察不同种类规则效用,贡献度,本文在两个当前比较典型的句法翻译系统上做了经验性的对比实验分析。为了更为清晰地进行不同规则种类的性能代价分析,本文还给出了一个衡量指标。