论文部分内容阅读
机器翻译是自然语言处理领域一个古老而经典的课题。机器翻译经历了从词到短语,从规则到统计的演变过程。目前机器翻译的研究正日趋成熟,融入句法信息的统计机器方法成为目前机器翻译领域的一个热点。我们提出了一个将完全句法分析信息融入短语统计机器翻译的方法,并根据该方法实现了一个基于源语言端完全句法分析的机器翻译系统。该系统前端以一个完全句法分析器作为输入,翻译系统的框架采用基于短语的机器翻译解码算法;在翻译过程中,解码器首先将源语言的完全句法结构转化成头-修饰结构,在解码过程中融入基于头-修饰的调序模型改善翻译系统的调序,进而明显的提升了短语系统的翻译性能。具体的,本文工作主要包含以下几个部分内容:(1)在前端的完全句法分析算法中,我们采用了基于词汇化头-修饰上下文的头驱动句法分析模型。数据稀疏是词汇化模型的重要问题,平滑方法是似然模型中解决数据稀疏的主要方法。本文在头驱动句法分析模型下,基于经典插值平滑算法,提出了以统计空间中平均事件数为基础的直接插值平滑算法,并应用经典的误差理论分析了该算法的合理性。基于该算法,并借鉴了语言模型中其他插值平滑算法对模型的零点进行假设的方法,在头驱动句法分析模型下,重新构造了4种平滑算法。(2)提出了面向短语机器翻译的词级别调序模型。为了将该调序模型融入到机器翻译系统中,本文提出了两个对齐约束。基于该对齐约束,文中给出了一个基于翻译概率的对齐后处理方法。基于处理后的对齐结构,文中模型定义了基于调序参照词的两种调序。基于该调序定义,进一步提出了将两种将头-修饰结构融入该调序模型的方法,并给出了该模型的参数估计方法。(3)短语模型的解码算法是短语的机器翻译系统的核心部分。提出了基于翻译状态的短语机器翻译系统的解码算法。该解码算法包含1-best解码方法和n-best解码方法。在解码过程中,翻译路径根据翻译状态进行组织。n-best解码中,采用限制翻译状态中翻译数目的方法,将n-best的多样性控制在一定范围内。由于文中算法综合考虑了翻译状态、翻译模型以及解码算法之间的联系,文中提出的n-best解码算法在两个数据集合上明显的提升了翻译质量。(4)提出了头-修饰的模型训练方法,以及将词级别调序模型融入短语机器翻译解码过程的方法。在模型训练中,采用移入-规约的算法训练本文的基于头-修饰结构的调序模型。在解码过程中,算法引入词索引数据结构,以识别解码过程中的调序类型。实验结果显示,我们提出的调序模型可以明显的改善基线系统的局部调序能力。