论文部分内容阅读
近年来,随着深度学习的进步和对大规模平行语料库的使用,针对机器翻译领域的研究取得了令人瞩目的成绩,但这些成功的背后仍需要大量平行语料支撑。而蒙汉双语平行语料稀缺使得蒙汉机器翻译模型性能难以提升,本文通过构建基于单语辅助的蒙汉神经网络机器翻译模型,可以有效缓减蒙汉机器翻译任务中的平行语料稀缺问题,并将该方法扩展到基于短语的统计机器翻译模型上,更好地提升翻译系统的性能。最后对上述两个系统进行联合训练得到性能较好的翻译模型。本文具体工作内容如下:(1)本文提出了利用单语语料构建无监督蒙汉神经网络机器翻译模型的方法。该模型在训练过程中仅使用蒙汉单语语料,利用自学习方法对蒙古文端和汉文端单语词嵌入进行跨语言词嵌入训练得到双语词典,然后通过该双语词典和汉文语言模型初始化翻译模型。在无监督机器翻译系统中,利用迭代回译可以对语料进行有效地扩充,减少模型对平行语料的依赖,有效缓解蒙汉机器翻译任务中的平行语料稀缺问题。(2)本文实现了基于短语的半监督蒙汉统计机器翻译模型。使用无监督方法对基于短语的无监督蒙汉统计机器翻译模型进行建模,并将得到的伪平行语料与平行语料在有监督方法下训练基于半监督方法的统计机器翻译模型,提升基于短语的蒙汉统计机器翻译模型翻译性能。(3)本文实现了两种模型的联合训练方法。在基于短语的蒙汉统计机器翻译模型中,模型训练的最小翻译单元为短语片段,翻译得到的短语免去了局部调序的问题,这样可以更好的保留句子的结构信息,使得翻译效果有所提升。因此,本文将对半监督蒙汉神经网络机器翻译模型和基于短语的半监督蒙汉统计机器翻译模型在EM框架下进行联合训练,进一步提升蒙汉机器翻译模型翻译性能。本文通过实验验证了自学习方法在蒙古文和汉文这样相似性较低的语言之间的词嵌入训练效果优于基于生成式对抗网络方法,且无监督训练方法可以扩充语料进而提升低资源语言机器翻译模型性能,本文无监督蒙汉神经网络机器翻译模型BLEU值达到18.76。随后将无监督方法应用在基于短语的蒙汉统计机器翻译模型中,得到了较无监督神经机器翻译模型更好的表现,BLEU值达到27.15。由于使用无监督方法得到的伪语料噪声较多,不利于模型的语义抽取,因此本文使用无监督翻译模型得到的伪平行语料和双语平行语料进行半监督训练,对无监督模型进行改进,并结合统计机器翻译模型和神经机器翻译模型各自优势进行联合训练,实现性能高于单一系统的蒙汉机器翻译模型,BLEU值达到38.16。该模型性能超过有监督蒙汉神经网络机器翻译模型性能,为之后蒙汉机器翻译研究及其他低资源语言机器翻译任务的研究奠定了基础。