论文部分内容阅读
系统融合是一项有效综合多种统计机器翻译模型的结果大幅度提高翻译质量的有效方法,在国际机器翻译评测中,这种技术显得尤为重要。本文针对系统融合的经典过程,对齐和构造网络、参数训练、解码最优值,分别提出了相应的改进,得到了较好的效果。
1、双向译文对齐质量的提高有利于构造更好的混淆网络
混淆网络结构是系统融合中最重要的数据结构,承载着压缩记录指数级数目候选译文的重任。混淆网络是根据译文的两两对齐结果按照确定的步骤构造而来,所以译文对齐是一个关键的问题。广泛使用的隐马模型对齐是基于单向的,只能处理1-n模式,而同种语言之间的对齐是存在很多客观n-对-n的结果,因此我们希望使用双向的信息更好地提高结果。我们使用多目标遗传算法来解码译文,主要优点有,它很方便地引入更多的双向信息,这包括只需要编写计算特征的代码,无须改动解码流程,可以得到较好的全局次优解,而且这是一个无监督的过程,不需训练特征之间的权重。
2、使用全局的CRF训练更好的参数
目前系统融合上的训练算法是基于机器翻译中应用最广泛的最小错误率训练,它需要不断地解码得到nbest,然后运行改进的Powell算法来预测最优值。但是针对系统融合这个问题,一些特殊的结构使得可以无须生成nbest而考虑直接在原始问题空间中训练以减少误差,例如混淆网络这种典型的序列结构。我们使用条件随机场模型来训练系统融合的主要困难是训练目标不能直观地得到,以及语言模型特征影响做概率推理。针对前者我们提出了部分参考译文这个概念,针对后者则使用限定窗口来枚举ngram以及对计算损失进行补偿。
3、基于贝叶斯原理的解码以增强模型的鲁棒性
传统解码是在一组数据上训练得到最优的参数然后去解码测试数据,这样训练结果会依赖数据之间的分布是否相似。我们尝试使用贝叶斯原理对这个过程建模,将参数也作为变量来考虑,尽可能考虑更多参数对模型的影响从而增强模型的鲁棒性。这过程中,最大的困难是对参数分布的假定是否合理,近似是否高效。具体建模时,我们做了很多的近似方法以使得推导出来的公式更加实用。我们第一种思路假定翻译概率很难精确计算时近似采用译文得分,第二种思路在翻译森林上精确计算概率,然后采用抽样的方法得到样本参数来减轻计算量。