论文部分内容阅读
机器翻译近年来蓬勃发展,取得了令人瞩目的研究成果,稀少资源语言和少数民族语言的机器翻译任务也获得了更多的关注。蒙古语是一个广泛使用的跨多国、多地区的语言,蒙古语言文字是内蒙古自治区的官方语言文字。蒙汉机器翻译研究一方面对于促进民族文化传播和多民族人民交流有着重要意义,另一方面对于稀少资源和少数民族语言机器翻译研究发展有着积极地推动作用。然而,蒙汉机器翻译面临着语言类型跨度大,蒙古文语言现象复杂,研究资源稀少,基础薄弱等问题。传统的基于模板和基于统计的机器翻译模型,以及前沿的神经网络机器翻译模型在蒙汉机器翻译任务上的研究存在诸多困难。本文结合蒙古文语言特点和蒙汉机器翻译研究的难点,系统性的分析以上三类模型在稀少资源的蒙汉机器翻译任务上的优势及不足,提出针对性的模型优化算法和蒙古文形态分析方法。为充分利用蒙汉机器翻译有限的资源和研究成果,本文将三个系统的多个翻译结果进行句子级别的融合,构建蒙汉机器翻译融合系统,进一步提升蒙汉翻译译文质量。本文主要研究工作包括:1.本文针对蒙古文形态分析方法展开研究。为解决蒙古文形态复杂在翻译中造成的数据稀疏、蒙古文识别和匹配困难等问题,本文在不同翻译模型中对多种蒙古文形态分析方法进行实验,通过对比分析得到针对不同机器翻译模型的形态分析策略如下:在统计机器翻译中使用词形还原得到的蒙古文词干作为翻译粒度;神经网络机器翻译中,将词干和格的附加成分共同作为子词参与模型训练;在模板翻译中使用切分词缀的方法来进行模糊匹配。2.本文提出了一种重对齐统计机器翻译模型。该重对齐模型突破了统计机器翻译同一粒度优化模型的限制,在不同翻译阶段采用不同粒度分别对模型进行优化,并设计了一个将小粒度向大粒度重新对齐的算法,降低了对齐错误率,提升了翻译性能,从整体上优化了统计机器翻译模型。3.本文提出了一种融合短语的注意力神经网络翻译模型。该模型为了充分利用蒙汉有限规模双语语料的语言特征,对于同一源端的输入序列,在目标端将汉文字和短语联合解码,使解码器共享其概率分布和目标词典向量表示。融合短语的神经网络解码模型使得深度神经网络在学习多粒度短语特征的同时缓解集外词问题,显著提升了蒙汉神经网络翻译模型性能,使其显著超过传统统计机器翻译模型的翻译水平。4.本文提出了一种基于统计词对齐的模板翻译模型。该模型利用统计词对齐信息抽取模板变量,克服了缺乏句法分析工具的难题。模板匹配算法利用多方法蒙古文形态分析进行模糊匹配,提升了模板变量词典匹配率。模板翻译模型构建了可用于蒙汉和汉蒙模板机器翻译的模板库。5.为了在稀少资源的蒙汉机器翻译任务中充分利用多个模型的翻译成果,本文提出了一种新的基于循环神经网络编码的双语句子相似度重排序模型,将上述三个翻译系统产生的译文进行重排序,构建多模型融合系统。本文针对经典和前沿的机器翻译技术,对蒙汉机器翻译展开研究,面向稀少资源蒙汉机器翻译任务的困难,针对蒙古文语言特点,融合多种方法,对模型进行优化,提升了三个蒙汉机器翻译模型的性能。最后,为了在当前成果下获得更好的蒙汉机器翻译译文,将三个翻译模型进行译文重排序,构建融合系统。本论文工作为蒙汉机器翻译构建了新的系统,提出了新的优化方法,显著提升了蒙汉机器翻译水平,为探索蒙汉机器翻译的新高度做出一定贡献。