论文部分内容阅读
信息时代的发展离不开人工智能的推动,人工智能领域中的一个重要课题就是机器翻译。机器翻译是实现全球无障碍交际的重要技术手段,社会需求迫切,潜在市场可观。正因为如此,一部分语言学家和人工智能专家将科研与技术力量瞄准了这一跨世纪的课题。采用新的翻译方法来发展机器翻译技术,建立可信赖的机器翻译系统已成为当务之急。
纵观机器翻译的整个发展历程,机器翻译的主流方法一直是基于规则的方法,上世纪90年代起,随着高性能计算机的出现和联机语料的不再缺乏,语料库方法重新复苏并引起了广泛关注。目前,语料库方法主要包括:基手统计和基于实例的方法,两者都是使用语料作为翻译知识的来源。其中,前者的研究目前已取得了较大进展,已不仅局限于原先IBM提出的基于词的统计翻译方法,进而发展到基于短语乃至句法的统计翻译方法,翻译效果有了明显提高。
本文针对基于短语的统计机器翻译技术,重点研究了以下几方面内容:
1.阐明了该课题研究的意义,回顾了计算语言学、机器翻译的发展历史及现状,陈述了本文的主要研究内容。
2.对机器翻译的各种技术及分类进行了较为系统和详细的综述,在此基础上,重点介绍了基于短语的统计机器翻译模型主要技术及其研究情况,包括语言模型和翻译模型的建立,以及解码器的原理和设计思路,并以此作为下面设计基于短语的统计机器翻译系统的基础和依据。
3.针对基于短语的统计机器翻译模型,按照语料预处理、建立语言模型、翻译模型、构建解码器等步骤搭建了一个基于短语的机器翻译系统,对其中部分模块进行了优化,并根据系统需要使用Java编程实现了部分功能,如语料的抽取、规范化等,提高了翻译的效率。
4.建立了一个基于词的统计机器翻译系统,使用同样的语料库进行训练,用于和前者进行比较。
5.采用自动评测的方法对两个系统的性能进行了测试。同时,通过翻译的实际效果和自动评测结果的比较,证明了基于短语韵系统在同等条件下较基于词的系统更优。另外,还尝试对基于短语的统计机器翻译系统参数进行了优化。
6.对论文整体进行了总结,并对今后的工作进行了规划和展望。