论文部分内容阅读
机器翻译是利用计算机实现不同自然语言间翻译的学科。统计机器翻译是当前主流的机器翻译方法,它以平行语料库为基础获取翻译知识,可以开发出高效、性能优良的翻译系统。但是当领域发生变化时,翻译系统由于缺少该领域的翻译知识导致性能降低。因此,构建大规模高质量特定领域的平行语料库对于该特定领域统计机器翻译系统性能的提高具有重要作用,但是平行语料库的人工构建成本很高,利用机器翻译构建的质量又很低。针对这个问题,本文重点研究了人工翻译与机器翻译相结合的平行语料构建方法,以实现低成本高效率地构建平行语料的目标。本文根据特定语言对间翻译人员的现实情况提出了两种平行语料构建方法:(1)在目标语言对的翻译人员奇缺的情况下,本文提出了基于枢轴语言的平行语料构建方法,即利用第三种语言作为桥梁,借助已有的机器翻译技术,并融合主动学习方法,构建目标语言对的大规模高质量平行语料库。本文通过以英语作为枢轴语言构建日汉平行语料库的实例研究,利用成熟的基于短语的统计机器翻译技术,重点描述了基于枢轴语言的平行语料构建方法、基于主动学习的领域适应方法、基于译文自动评测的良好译文选择方法、翻译系统的更新迭代和评价实验。实验结果表明,该方法能够快速构建日汉平行语料,并有效提高日汉翻译系统的性能。(2)在目标语言对的翻译人员充足的情况下,为了提高使用机器翻译构造的平行语料质量,本文提出了基于依存树到串翻译模型的平行语料构建方法。该方法直接利用目标语言对的翻译系统构建平行语料,提出利用依存树所包含的句法知识和语义知识来构建翻译模型。同时与方法一样使用基于主动学习的领域适应方法,通过提高翻译系统性能达到提高平行语料质量的目的。本文通过构建日汉平行语料库的实例研究,重点描述了基于依存树到串的翻译模型,并将该模型用于日汉统计机器翻译并进行了评测。评测结果显示该系统BLEU值提高了0.62,RIBES提高了0.31,表明该模型能有效提高翻译系统性能。综上所述,为了构建特定领域机器翻译的平行语料,本文提出的两种低成本高效率构建平行语料的方法都是有效可行的。