论文部分内容阅读
机器翻译的研究近年来取得了重大进展,尤其是统计机器翻译。它解决了从大规模语料库中获取大量细粒度翻译知识的问题,并为多种复杂因素下的译文优选提供了合理的解决办法。目前基于短语的方法是统计机器翻译主流的方法,并取得了较好的翻译结果。但由于此类模型没有利用更深层次的句法语义等结构信息,很难解决翻译过程中的长距离词序调整问题;而且生成的译文也经常不符合目标语言的语法;特别是对于汉语和英语这两种结构差别比较大的语言而言,问题尤其严重。为解决这类问题,将短语内词对齐知识和句法知识有效结合起来,本文对经典的基于词、基于短语的翻译模型进行了研究,在理论上和实验中比较了每个模型的优缺点。在此基础上,本文提出了元结构、元结构组等概念,及结构模型的理论和算法;进而建立了基于结构对齐的统计机器翻译模型。为建立泛化能力更好翻译模型,本文在理论上分析了图同构问题,提出子图对映射的方法和理论;并在多文本文法框架下,给出了基于子图映射的翻译模型。具体地讲,本文从以下几个方面开展了研究: (1)句法结构与短语模型相融合的研究:提出元结构、元结构组等概念。以元结构组为单位对双语句法树进行分解,在此基础上定义结构映射。通过句法结构转换的方法,改进基于短语翻译模型的调序模型以及翻译结果。模型中把翻译任务定义为包括树分解、转换、词汇化等步骤的随机过程。从句法角度研究翻译候选项是否正确,翻译假设的生成、排序等问题。 (2)结构模型研究:这部分研究是基于结构对齐研究的继续;它从句法角度研究译文句法结构的合理性。介绍了关于马尔可夫、隐马尔可夫等统计学习理论和算法。文中引入判别训练理论及其算法,给出了此算法收敛性质的判定方法。研究了在此模型下特征函数的选取依据;并给出了结构模型的建模理论框架和训练算法。 (3)面向统计机器翻译的中间语模型研究:中间语独立于所有自然语言,可以减小源语言与目标语之间词对齐的跨度、以及句法结构的异构性对于翻译结果的影响;文中给出了基于双语短语块划分算法;在最大熵理论框架下,论述了基于IBM和ITG限制的中间语生成模型方法;并提出了中间语与统计机器翻译相融合的策略。 (4)基于树到树映射的翻译模型研究:在源语言端和目标语言端同时构造符合语言学规则的句法结构,而不是形式上的句法结构。不需要改变源语言和目标语言语言原有的句法结构,在源语言句法子树和目标语言句法子树之间建立直接的对应关系。介绍了图的同构理论,给出了异构子图的判别方法。应用图同构理论对规则抽取理论和算法的进行了改进,并在多文本文法框架下给出了基于子图对齐的翻译模型。