论文部分内容阅读
机器翻译作为意义等值下的自然语言转换,是指用计算机实现从一种语言到另一种语言的翻译。机器翻译技术从上世纪40年代诞生后就受到世界范围的广泛关注,由于机器翻译技术在很大程度上可以减少翻译人员的工作量,因此,机器翻译技术已经成为信息科学研究的热点之一。 机器翻译系统可分为基于规则、基于统计和基于实例的方法。早期的机器翻译系统基本上都采用基于规则的方法,具体可分为直译法、基于转换的方法、中间语法三种方法,规则方法以语言学知识为知识源,以语言间的转换为中心把源语言转换成目标语言,但该方法最大的问题在于单纯依靠语言学家人工编写规则并不能满足实际应用的需要。从上世纪90年代起基于统计的经验主义方法得到了快速发展,大规模语料库的出现促使基于统计的经验主义方法成为目前自然语言处理技术的主流。此外,基于实例的机器翻译方法也是研究的热点之一,该方法由日本著名机器翻译专家长尾真提出,其基本思想借鉴了外语初学者学习的基本模式。 汉藏机器翻译研究起步较晚,始于90年代。早期主要使用规则方法,青海师范大学藏文信息研究中心开发的863项目实用化汉藏机器翻译系统就是在此基础上建立的。由于近年来统计方法的兴起,藏汉机器翻译也开始尝试使用基于统计的方法,青海师范大学与中国科学院计算技术研究所合作搭建了一个汉藏(藏汉)双向翻译系统。目前尚未有研究人员尝试将混合策略用于汉藏机器翻译系统的研究和开发。本研究在汉藏机器翻译研究中具有创新性和进步性,对今后的汉藏机器翻译方法研究提供一定的参考价值。 本文通过介绍机器翻译的发展与现状,深入讨论了基于规则、基于实例以及基于统计的翻译方法,分析了各自的优缺点,在此基础上结合基于实例与基于规则的翻译方法,创建了汉藏对照词典库、实例库、模板库,提出一种基于混合策略的汉藏机器翻译方法,设计实现了一个基于混合策略的汉藏机器翻译系统。在今后的研究中以该系统为雏形,不断改进系统结构,扩大语料规模,优化实例库和模板库,最终使该系统运用于实际。本系统创建的词典库、实例库和模板库也可以为今后汉藏机器翻译相关领域的研究提供可靠的数据资源。