统计机器翻译调序模型研究

论文部分内容阅读

在统计机器翻译中，句法结构的差异性使得机器翻译过程中源语言端和目标语言端的语序需要调整，这已经成为了机器翻译中一个至关重要的问题。本文在基于短语的汉一英翻译系统的基础上，采用从汉一英句法结构中学习规则的方式来对双语语料中的源语言进行调序，从而减小了汉一英句法结构的差异性，提高了统计机器翻译系统的性能。
　　论文主要研究了两种调序模型：一利是基于特定句法结构增强的词性标注(POS)调序方法，该方法通过一致性原则从词对齐信息和源端词性信息中抽取调序规则，并根据中文特定句法结构“的”将抽取的规则分为“调序倾向强”和“调序倾向弱”两类，最后使用优选机制进行不同处理，获取有效的调序规则集合。另一种调序模型是基于n-best句法树结构的调序方法，该方法对源语言端句子进行多次句法分析，获取n-best句法树，并根据源语言和目标语言的词对齐信息，对句法树中内部节点进行计算，得到统计概率高的子树结构,计算后验概率，获取句法结构的调序规则，并且为了确保不影响短语内部的对齐效果，论文根据短语抽取算法构建中文短语词汇表，用来限制短语内部的位置移动。两种调序模型均采用Moses作为统计机器翻译系统，实验语料为汉-英FBIS数据集。实验结果表明，以BLEU为评价标准，论文提出的两种调序模型构建的翻译系统性能均优于基线系统。

与本文相关的学术论文