论文部分内容阅读
机器翻译是人工智能中最活跃的研究领域之一。作为机器翻译的一个主要分支,基于实例的机器翻译(Example-basedMachineTranslation,EBMT)涉及到许多机器学习问题,并探索了如何在自然语言处理中使用类比和实例复用等认知过程。作为面向特定领域的一个良好切入点,EBMT能够比较经济、快速地建立实用的翻译系统。因此,对于EBMT的研究具有重要的理论意义和实用价值。本文以基于实例的机器翻译方法为研究主线,就其中的一些关键技术进行研究。作为EBMT的重要组成部分,首先研究了翻译实例库的构建方法,并对搭配翻译实例这一翻译获取中的难点进行专门研究。在此基础上,进一步研究基于实例的翻译模型构建问题。另外,还对输出译文质量自动评价方法进行了探索。具体地讲,本文从如下几个方面进行了研究: 1.研究了翻译实例库的构建方法。提出了浅层句法信息和概率统计模型相结合的翻译实例获取方法。首先,利用浅层句法信息划分源语言和目标语言的翻译单元;然后,在词对齐结果的指导下,确定候选翻译单元(语块)对齐方式,从而降低了语块对齐方式的搜索空间;最后,通过语块对齐概率模型确定源语言和目标语言翻译单元之间的映射关系,从而获取翻译等价单元。该方法一方面,避免了完全句法分析结果不十分可靠的缺点,同时又利用了统计方法的灵活性和通用性。 2.研究了搭配翻译实例的获取。针对翻译知识获取中的难点——搭配翻译实例的获取提出了一种利用单语语料库进行搭配翻译的方法。该方法采用对数线性模型综合利用多种特征信息构建搭配翻译模型,除了搭配内部的翻译概率之外,还进一步引入了上下文信息进行译文消歧,有效地提高了搭配译文的准确率。 3.研究了基于实例的翻译模型构建方法。探讨了如何利用机器学习方法(而不是根据人类以往的直觉和经验)来指导EBMT模型的构建。一方面,形式化地构造高维特征空间以涵盖翻译实例库中所蕴含的各类特征信息;另一方面,通过最大熵模型来试图挖掘各类特征信息对于翻译过程的的贡献以及这些信息之间的相互影响。 4.研究了输出译文质量的自动评价方法。从EBMT的应用角度出发,与现有的面向参考译文的质量自动评价标准不同,本文探讨了如何在支持向量机的回归模式下对人工评价函数和人工评价过程进行拟合,训练过程中充分采集了精确率、召回率、句法属性、语义属性、频率信息以及编辑距离等多层面的信息特征,从而提高了自动评价方法与人工评价方法的相关性。