论文部分内容阅读
机器翻译简单地说就是用计算机将一种自然语言翻译为另一种自然语言。机器翻译可以看作是一个决策问题,目前机器翻译的主要研究方向包括基于规则的方法、基于中间语言的方法、基于实例的方法和统计方法。目前统计机器翻译方法具有较大的优势,成为研究的热点。统计机器翻译模型主要包括基于词的、基于短语的和基于句法的模型。本文主要对基于短语的和基于句法的统计翻译模型的相关技术进行了研究。本文首先比较了三个经典的机器翻译方法,深入分析了这些方法的优缺点。在此基础上,研究了基于短语的机器翻译方法中短语互译对的抽取问题。对于基于句法的统计翻译方法,则重点研究了解码策略,提出了正向解码算法;同时提出了基于句法的短语统计翻译调序模型。最后,提出了基于信息抽取的摘译方法,结合了统计和规则各自的优势。具体地讲,本文从以下几个方面开展了研究:1.分析了经典的统计机器翻译方法,并尝试有别于传统方法的翻译策略。通过对实验结果的分析,指出了目前几种经典统计机器翻译方法的优势与不足之处,特别是针对传统的基于句法的统计翻译方法分析了它的主要问题和困难。提出了本文对传统模型改进方案的总体框架,其中提出了句法和短语、规则和统计方法的结合策略,为后续研究奠定了基础。2.研究了基于n-best对齐结果的短语互译对的抽取问题。提出非严格短语抽取方法,并采用抽取约束策略来进一步加强短语抽取的效果。分别提出了基于对齐点交集的抽取约束策略和基于词汇相似度的抽取约束策略,重点研究和比较了三种基于词汇相似度的抽取约束策略——DICE系数、PHI平方系数和对数似然比。实验表明非严格短语抽取方法能够有效地从n-best词对齐结果中抽取短语互译对,通过抽取约束策略能够进一步提高译文质量。与基于单一对齐的传统短语抽取方法相比较,利用非严格短语抽取方法和n-best对齐结果能够显著提高翻译译文质量。3.研究了基于句法的统计机器翻译模型的解码问题。分析了反向解码的缺点:无法有效利用句法分析树的结构信息指导翻译,然后提出了正向解码的思路。提出了两种正向解码方法:基于集束搜索的正向解码算法和基于贪心搜索的正向解码算法。实验表明正向解码方法好于反向解码,说明正向解码能够更加有效地利用句法结构信息指导翻译。将句法结构信息引入短语翻译模型,提出了基于句法的短语机器翻译调序模型。该模型的提出有助于解决长距离调序难题。4.提出了基于信息抽取的摘译方法,以满足当前机器翻译技术水平下信息浏览的需要。该方法首先对句子中的关键信息进行抽取,过滤掉次要信息,然后仅仅利用抽取出来的关键信息进行翻译。重点研究了摘译过程中统计和规则的结合策略,提出利用语言模型对来自不同翻译模型的译文进行选择的方法。实验结果表明摘译有助于避免生成杂乱的译文,得到清晰的翻译结果,并且关键信息丢失不严重。