论文部分内容阅读
机器翻译作为计算机自然语言处理的一个重要分支。近年来,随着计算机计算速度,存储容量的不断提高,基于实例的机器翻译方法越来越受到研究者的青睐。基于实例的机器翻译(EBMT)克服了基于规则的机器翻译系统在知识获取方面的困难。双语语料库在基于实例的机器翻译,翻译知识的获取,词义消歧等领域有着重要的应用价值,大规模双语语料库的建设是进行基于语料库研究的基础。如何通过现有的互译文本来建立大规模的双语语料库,对双语互译文本的加工成为至关重要的问题。论文讨论了当今机器翻译的主要方法,并在此基础上重点介绍了基于实例机器翻译(EBMT)的基本原理及其需要研究的相关技术,包括双语语料库的建设、目标语句的重组、汉阿机器翻译系统的设计与实现等。论文介绍了汉阿双语语料库的建设方法,讨论了汉阿双语语料库中段落和句子对齐技术;提出了一种基于数字信息的分段对齐方法,并把它和基于回车符分段对齐方法相结合,形成了一种多层次分段对齐方法,提高了句子对齐的正确率。接着,论文介绍了基于实例的汉阿机器翻译系统的标注集和标注规则,以及对齐的方法和对齐关系的表示。系统使用基于可扩展标记语言(XML)的文档作为双语对齐树库的存储结构和表示方法。另外论文还给出了基于实例机器翻译系统的翻译算法。最后,设计并实现了一个基于实例的汉阿机器翻译系统。给出了对该系统翻译性能进行测试的结果,并分析了该系统的优缺点以及系统中存在的不足。测试结果表明,实现的系统达到了设计要求,提高了汉阿语言机器翻译系统的准确率,在例句库中有与待译语句相似例句时,往往能获得较好的翻译结果。