论文部分内容阅读
在统计机器翻译中,从翻译系统解码出来的译文结果看,源端和目标端语序相近的句子,译文效果比较好。然而,在翻译系统中的源端和目标端的语序往往存在着较大的差异,比如汉语是“主谓宾”的结构形式,而蒙古语却是“主宾谓”的结构形式。当互译语言具有这种非对称的结构特点时,由标准的短语翻译系统翻译出来的译文质量相对较差。另外,基于短语的统计机器翻译系统严格限制短语必须是连续的,虽能够很好地解决短距离的局部调序,但在很大程度上限制了短语翻译的作用范围。本文将通过引入句法信息和词性标注信息建立不同的源端重排序模型,使源端和目标端的语序保持一致,以此来减缓这些问题。
首先,在基于短语结构的句法树基础上,结合词对齐并改进规则抽取算法进行规则的自动抽取,然后基于自动抽取的重排序规则对源端进行调整,并与手动书写的重排序规则进行对比。其次,从基于依存的句法树方面进行研究,提出了一种依存重排序规则抽取算法,从而完成对源端句子的语序调整。然后,根据词性标注信息,从词性标注序列的泛化角度,提出了一种词性标注序列重排序规则抽取算法,基于这些重排序规则进行源端的调序。最后,提出了一种基于源端重排序的短语表融合方法,即训练融入依存标签信息的短语表和融入词性标注标签信息的短语表,并对这些短语表中的标签信息进行去除处理,将处理过的短语表和基于源端重排序训练的短语表进行融合,进一步探究翻译系统的翻译性能。
以汉蒙翻译系统为例的实验证明,与标准的短语统计机器翻译系统相比,融入句法信息和词性标注信息的源端重排序模型是有效的,可以较为明显地提高统计机器翻译系统的性能和译文质量。