论文部分内容阅读
近二十年来,机器翻译(machine translation,MT)研究迅猛发展。相比于传统的基于规则(rule-based)和基于实例(example-based)的机器翻译方法,统计机器翻译(statistical machine translation,SMT)在译文质量和系统鲁棒性上均展示出巨大优势,并已经成为机器翻译研究领域中的主流方法。给定源语言输入,机器翻译的任务在于生成与该输入表达意义相同的目标语言输出。典型的SMT系统在完成上述翻译任务的过程中,往往能够生成多条不同的目标语言翻译假设(translation hypotheses)。然而,由于翻译模型本身的局限性,系统排名最高(1-best)的翻译假设通常却并不是全部翻译假设中的最优结果;此外,基于不同翻译模型SMT系统的大量涌现,进一步扩展了相同源语言输入能够对应的目标语言翻译候选集合大小。在上述背景下,如何有效地利用不同翻译假设及其包含的信息来获取更优的翻译结果,已经成为近年来机器翻译研究领域中的一个热点课题。
本研究将目前已有的研究成果大体分为如下两类,并提出一个统一的一致性解码(consensus decoding)框架,将这两类方法包括其中:⑴翻译假设重排序,主要应用于单个SMT系统的翻译假设空间之上。该类方法通过选取特定的评判准则,对整个翻译假设空间中所包含的全部翻译假设进行重打分并重新排序,进而选取重排序后排名最高的翻译假设作为最终的翻译结果;⑵系统融合,主要应用于多个SMT系统的翻译假设空间之上。根据其使用翻译单元的不同,该类方法又可划分为句子级(sentence-level)、短语级(phrase-level)和词汇级(Word-level)三种不同的层次。其中,词汇级系统融合能够提供的性能提升最为显著,因此相关方面的研究成果也最多。
本文针对已有典型工作的不足,提出四种新型的一致性解码方法:①基于特征子空间的句子级系统融合给定任意基于对数-线性(log-linear)模型的(主)SMT系统,通过选取该系统特征全集的不同特征子集来构造多个(子)SMT系统,进而在全部系统的输出结果之上使用一种句子级系统融合方法,来选取最终的翻译结果。该方法的贡献在于:提出了一种简单有效的多SMT系统构造方法,极大程度地减少了系统融合工作中多翻译系统构造方面的巨大开销;②协作解码给定多个基于对数一线性模型的SMT系统,通过共享翻译假设空间的方式允许不同翻译系统进行交互,每个翻译系统通过使用一组基于其他翻译系统生成的翻译假设空间计算得到的n-gram统计量特征,来对自身的(局部和全部)翻译假设空间进行重排序。在协作解码完成后,还能够通过系统融合的方法获取进一步的性能提升。该方法的贡献在于:在解码过程中直接发生作用,能够在一定程度上避免更优的局部翻译假设被较早剪枝(pruning)的问题;③基于混合模型的最小贝叶斯风险解码使用混合模型将多个SMT系统的翻译假设概率分布整合,利用整合后的概率分布在多个SMT系统合并后的翻译假设空间上计算MBR解码所需的n-gram统计量特征,进而从全部翻译候选中选取最终的译文结果。与传统的MBR解码方法相比较,基于混合模型的MBR解码所能访问到的翻译假设数目更多、差异性更大,并且基于混合概率分布计算的n-gram统计量也更为准确,因此,该方法能够获得的性能提升也更多。该方法的贡献在于:将最小贝叶斯风险解码的应用范围从单个SMT系统扩展到多个SMT系统;④翻译假设混合解码通过利用来自多个SMT系统的局部翻译假设来构造一个更大的混合假设空间,并利用一系列基于一致性的统计量特征从该空间中选取最终的翻译结果。大规模数据上的机器翻译评测实验表明,该方法在翻译性能上显著地优于翻译假设重排序和词汇级系统融合方法。该方法的贡献在于:同时继承了翻译假设重排序和系统融合两类方法的优点,不仅能够使用来自任意SMT系统生成的局部翻译假设构建更大的翻译假设空间,而且能够产生已有翻译假设候选集合之外的新的翻译结果。
本研究在每种方法的对应章节中,均通过大规模数据上的中-英机器翻译评测实验,来验证各个方法的有效性最后,总结全文,并对未来工作进行展望。本文所探讨的一致性解码方法均针对统计机器翻译任务。然而,该类方法中所包含的思想同样适用于其他很多自然语言处理任务,如统计句法分析、自动语音识别、自动词对齐等。在将来的研究中,我们也将尝试在这些领域进一步扩展一致性解码方法的应用范围。