论文部分内容阅读
近年来随着机器翻译技术的发展,机器翻译系统已逐渐被应用于各种领域,以帮助人们完成一系列跨语言任务。然而在大多数情况下,机器翻译系统产生的机器译文仍然不能与人工翻译的标准译文相媲美。尤其是当面临一些译文质量要求较高的翻译任务时,在机器翻译系统进行自动翻译的基础上,人们仍需要对机器译文进行校对、修改、润色,来保证译文质量。相对于人工译文优化,机器翻译的自动译后优化是针对一个或多个翻译系统产生的译文做进一步改进,提升其翻译质量,减少人工编辑的代价。但在自动译后优化过程中,可以用于译后优化的用户数据规模通常较小,甚至不存在。面对这样的小数据或零数据的困难情况,如何有效地提高译文的质量是一个机器翻译领域中亟待解决的重要问题。本文的研究主要围绕如何充分利用小数据或者构造伪数据,对已有的通用大规模数据(机器翻译训练数据)进行迁移利用,探索如何合理利用有限的人工翻译历史或者不同的机器翻译结果,进一步提升机器翻译结果的质量、并提供相应的翻译质量估计手段,以达到提高译文质量,降低人工编辑成本的目标。本文的研究主要包含四个方面:(1)研究基于小规模翻译实例的译文一致性优化。在仅有少量人工翻译历史数据场景下,针对如何有效利用这些数据优化通用机器翻译系统的译文,使其更符合特定领域翻译要求的问题,本文将用户人工翻译历史实例与当前机器译文进行融合,提出了一种基于小规模翻译实例的译文一致性优化方法。该方法将机器翻译译文与相似的翻译实例的译文在混淆网络模型框架下进行融合,并重新计算混淆网络中的每个词的后验概率,并基于多个特征采用对数线性模型进行解码,重新生成译文,解决了在小数据场景下的不同源译文的融合问题。(2)研究基于伪反馈的后编辑优化。在仅有少量的用户人工翻译的历史数据场景下,针对如何利用这些数据学习机器翻译后编辑建模,从而更有效地修改机器翻译的错误并减少重复性劳动的问题,本文提出了一种基于伪反馈的译文后编辑优化方法。该方法利用相似翻译实例的机器译文生成译文的伪反馈,有效地克服了译文后编辑数据的稀疏问题。同时该方法还可以将源语言的上下文信息引入到译文的后编辑模型中,从而更准确地判断和估计某些后编辑短语规则是否适用于编辑当前待翻译句子的机器翻译译文。(3)研究基于深度学习的多翻译系统译文融合优化。当用户不能提供任何相关数据时,针对如何在无用户数据的极端情况下优化机器翻译译文质量的问题,本文提出了一种基于深度学习的多系统译文的融合优化方法。该方法将译文融合过程分成编码和解码两个阶段,并分别使用适用于机器翻译系统的大规模双语数据,以及少量译文融合任务数据,对编码和解码过程中的参数进行训练,以缓解译文融合任务训练数据不能充分训练整体模型参数的问题。同时在编码阶段用源语言信息增强机器翻译译文的编码,来弥补机器翻译译文质量上的缺陷,并且通过限制了融合译文的词表和解码空间降低产生译文的不确定性,使得融合的译文质量有了显著性的提高。(4)研究基于伪数据的译文质量估计。在缺少人工译文质量标注数据的情况下,针对如何有效构建并训练翻译质量估计的深度模型的问题,本文提出了一种基于伪数据的机器译文质量估计方法。该方法引入了伪数据的思想,通过双语平行语料构造译文质量评估所需的正例和反例,对基于神经网络的译文质量估计模型参数进行预训练,使得通用领域的双语数据可以直接用于质量估计模型的预训练,提高了译文质量评估模型的性能。同时通过自动生成错误译文的方法,基于双语数据扩大带有标注数据的规模,进一步对模型进行充分地训练,提高了译文质量估计模型的性能。综上所述,本文的主要贡献在于面对小规模用户数据或零数据的困难情况下,提出了一系列有效的机器翻译译后优化方法。本文基于小规模翻译实例对译文进行一致性优化,基于伪反馈修改机器译文中的翻译错误,基于大规模双语平行语料训练多系统译文深度融合模型,从而提高机器译文的质量,降低人工后编辑的代价。同时提出了一种基于伪数据的深度译文质量估计模型,通过一种有效的伪数据生成方法提高翻译质量估计效果。实验结果表明,这些方法相对于各自的基线方法在性能上都有显著性提升。