论文部分内容阅读
上世纪90年代前后,IBM Watson研究中心的Brown等人提出了基于信源信道模型的统计翻译方法,此类方法的性能远远超越了传统的基于规则的翻译方法。其后德国亚琛工业大学的Och等人根据Brown的理论发布了开源词对齐工具GIZA++,从此统计机器翻译成为自然语言处理研究领域的一个热点问题。Och将机器翻译的错误归结为Bayes错误,模型定义上的错误,模型训练中的错误,解码过程中的搜索错误。本文以短语模型为例,从模型训练方面入手,分析统计机器翻译模型构造的过程中,各个环节所可能引入的错误,并探讨一些有效的方法来减少这些错误。更具体地讲,本文的研究内容主要包括以下几方面:(1)词对齐的改进:统计机器翻译系统所使用的句对齐训练语料,大部分都是从篇章级的对齐语料中自动抽取出来的,因此训练语料中通常存在大量的错误对齐句对,本文提出一种基于对齐困惑度的双语语料过滤方法来过滤这些错误的对齐句对;针对单向词对齐算法在对低频单词处理上的不足,本文提出一种基于IBM模型4特征的判别式词对齐算法。(2)短语抽取的改进:为了在有限的双语训练语料抽取出更多的短语翻译规则,本文提出了非严格短语抽取方法和在多种词对齐结果上抽取短语的方法,这两种方法都可以在训练语料上抽取到更多的翻译规则,但同时也会将很多有错误的翻译规则抽取出来。本文通过一种有效的过滤方法对这些翻译规则进行过滤,在保证翻译质量不过度下降的前提下,过滤掉短语表中大部分的错误翻译规则,以确保短语模型的精确性。(3)调序模型的改进:从训练语料上抽取到的短语规则集有很严重的数据稀疏问题,因此基于短语的调序规则对自然语言中一些调序现象的统计并不充分。本文提出了一种基于句法信息的调序模型,由于词性标注与句法标注的数量比训练语料中的单词数量要少得多,通过这些标注构造调序规则,可以使调序规则在训练语料上得到更充分的统计,调序模型也会更加精确。(4)模型参数训练的改进:当前统计机器翻译中最流行的模型参数训练方法是最小错误率训练,本文提出了一种在最小错误率训练的解码过程中加入强制解码特征的方法。强制解码方法产生的n-best翻译结果,更加接近开发集中句子的参考译文。在最小错误率调参过程中,通过加入这些由强制解码方法产生的n-best翻译结果,可以防止调参过程过早的收敛于较差的局部最优点。