基于混合策略的汉藏机器翻译系统的构建方法研究

来源 :青海师范大学 | 被引量 : 0次 | 上传用户:liouyun
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
机器翻译作为意义等值下的自然语言转换,是指用计算机实现从一种语言到另一种语言的翻译。机器翻译技术从上世纪40年代诞生后就受到世界范围的广泛关注,由于机器翻译技术在很大程度上可以减少翻译人员的工作量,因此,机器翻译技术已经成为信息科学研究的热点之一。  机器翻译系统可分为基于规则、基于统计和基于实例的方法。早期的机器翻译系统基本上都采用基于规则的方法,具体可分为直译法、基于转换的方法、中间语法三种方法,规则方法以语言学知识为知识源,以语言间的转换为中心把源语言转换成目标语言,但该方法最大的问题在于单纯依靠语言学家人工编写规则并不能满足实际应用的需要。从上世纪90年代起基于统计的经验主义方法得到了快速发展,大规模语料库的出现促使基于统计的经验主义方法成为目前自然语言处理技术的主流。此外,基于实例的机器翻译方法也是研究的热点之一,该方法由日本著名机器翻译专家长尾真提出,其基本思想借鉴了外语初学者学习的基本模式。  汉藏机器翻译研究起步较晚,始于90年代。早期主要使用规则方法,青海师范大学藏文信息研究中心开发的863项目实用化汉藏机器翻译系统就是在此基础上建立的。由于近年来统计方法的兴起,藏汉机器翻译也开始尝试使用基于统计的方法,青海师范大学与中国科学院计算技术研究所合作搭建了一个汉藏(藏汉)双向翻译系统。目前尚未有研究人员尝试将混合策略用于汉藏机器翻译系统的研究和开发。本研究在汉藏机器翻译研究中具有创新性和进步性,对今后的汉藏机器翻译方法研究提供一定的参考价值。  本文通过介绍机器翻译的发展与现状,深入讨论了基于规则、基于实例以及基于统计的翻译方法,分析了各自的优缺点,在此基础上结合基于实例与基于规则的翻译方法,创建了汉藏对照词典库、实例库、模板库,提出一种基于混合策略的汉藏机器翻译方法,设计实现了一个基于混合策略的汉藏机器翻译系统。在今后的研究中以该系统为雏形,不断改进系统结构,扩大语料规模,优化实例库和模板库,最终使该系统运用于实际。本系统创建的词典库、实例库和模板库也可以为今后汉藏机器翻译相关领域的研究提供可靠的数据资源。
其他文献
数据网网管系统因其能有效提高IP网络管理效率而被广泛采用,但仍尚未实现其随时随地接入与访问。通过分析数据网网管系统的架构和对其进行移动性扩展的影响因素,提出了一种利用
当今微处理器性能的提高已经不再依赖频率的提升,而是依靠处理器核数的增加来提高处理器的计算能力。例如,Intel公司的至强系列微处理器。但是,通过比较处理器核数和内存容量
本文对电信服务和电信服务质量的相关概念的内涵进行了讨论和定义;然后从经营分析系统的角度出发,对BSS/OSS中关于服务质量的相关支撑系统进行了调研分析(主要包括客服系统和SL
随着电信网与计算机网的逐步融合,市场竞争从以往的资源竞争转向服务的竞争,运营支撑系统也从面向网络和业务的管理转向了面向服务的管理。目前许多与运营支撑系统相关的组织非
纹饰作为外化于青铜礼器、乐器的文化表征,伴随青铜器产生、发展的全过程,并融汇、承载了青铜器物之文化属性与时代属性.不过,有学者认为音乐考古学研究中无须研究纹饰.纹饰
TREC(Text Retrieval Conference)是信息检索领域中最重要的国际会议,文本过滤是TREC的重要任务之一,自适应过滤是过滤任务的最重要的子任务。对TREC指标函数的优化是一个包
网络的研究有很长的历史,随着Internet的飞速发展,人们越来越依靠网络来查找他们所需要的信息,如何有效的去发现我们所需要的信息,就成了一个很关键的问题。 “小世界效应”是
宫颈癌是我国常见的恶性肿瘤,其死亡率居妇科肿瘤第二位,严重危害妇女健康,应引起广大妇女的关注。对宫颈癌的早期诊断是提高宫颈癌治愈率及患者生存率的关键,一直是妇科防癌者为
移动Agent技术给分布式计算提供了一个新思路,在技术上有很多优点,有着巨大的应用前景。但是,从一个主机到另一个主机移动计算,移动代码系统引起严重的安全问题,其中最严重的