论文部分内容阅读
基于句法的统计机器翻译近年来逐渐成为统计机器翻译的研究热点.基于句法的模型有助于解决基于短语的模型所面临的主要问题,如短语层次上的重排序,泛化能力弱,以及要求短语连续等问题.语言学意义上基于句法的模型,还可以将源语言端、目标语言端的语言学知识引入到翻译模型中,从而极大地改善译文的质量.
本文在基于句法的统计机器翻译框架下,针对短语模型的主要问题,在括号转录语法的基础上提出了基于最大熵的括号转录语法模型,在依存语法的基础上提出了依存treelet-string对应模型.为了支持基于依存语法模型的研究,本文在统计汉语句法分析方面也进行了深入的研究.在以上三个方面,取得了以下主要成果:1.多知识源驱动的统计汉语句法分析句法分析的准确度和速度对于基于句法的统计机器翻译来说至关重要.在提高句法分析准确度方面,本文采用多种策略,将树库内部和外部的知识融合到统计句法分析模型中.首先改造了中心词映射表,并对一些短语进行重标注,从而充分利用了树库内部的词汇知识和语法知识.其次构建了一个单词.类的选择偏向模型,将树库外部的语义知识引入到句法分析中,使句法分析F1值提高了0.9﹪,错误率下降了4.4﹪.进一步的错误分析表明语义知识在复合名词短语,并列结构以及名/动词性标注消歧方面都有很大作用.在提高句法分析速度方面,本文定义了两种估计量来近似估计边的外向概率:先验估计量和边界估计量.由这两种估计量构成的组合估计量使句法分析器在性能不变的情况下,速度提高了1.5倍.2.基于最大熵括号转录语法模型的统计机器翻译针对括号转录语法(BTG)模型没有提供一个机制来确定相邻语块顺序的缺陷,本文提出了基于最大熵的括号转录语法(Maximum Entropy Based BTG,下文简称为MEBTG)模型.该模型将BTG中预测相邻语块顺序问题看作是一个分类问题,从而引入最大熵分类器,构建最大熵重排序模型.本文提出了重排序实例抽取算法,同时将双语语块的边界单词作为最大熵的分类特征.总体上来说,最大熵重排序模型相对于其它重排序模型,如距离惩罚模型,先验概率模型,词汇化模型,具有诸多优点.它是基于特征的,因而具有一定的泛化能力;它是和内容相关的,并且采用判别式训练,因而充分利用了训练语料库中的信息;同时它也是层次化的,在一定程度上能够处理远距离重排序.本文在.MEBTG模型基础上实现了一个实际的翻译系统Bruin,系统的核心模块解码器是基于CYK算法设计的.实验表明,最大熵重排序模型显著地提高了系统的BLEU值.在大规模语料上,Bruin系统引进了一些新技术,性能获得了极大提高.这些技术包括建立双语言模型,以及引入重排序窗口和标点符号来限制重排序等.3.基于依存treelet-string对应模型的统计机器翻译为了将语言学知识集成到翻译模型中,本文提出了一个新的基于依存语法的模型:依存treelet-string对应(DTSC)模型.该模型将源语言的依存结构树映射到目标语言的串上.DTSC模型具有很强的灵活性和表达能力.它能够描述多层树结构,具有泛化能力,可以处理与中心词相关的不同结构的重排序问题,通过引入变量和间隔允许源语言目标语言两端的短语非连续,最后它可以与短语模型充分兼容.本文给出了DTSC的抽取算法,以及DTSC模型与N-gram语言模型的融合方法.为DTSC模型设计了Chart风格的解码器算法,在算法中引入了两种基本操作:替换和粘接.在DTSC模型的基础上本文实现了一个翻译系统Mo-tse,给出了Mo-tse与Bruin的对比实验,以及译文结果分析.