基于实例的多层次机器翻译模型

来源 :东北大学 | 被引量 : 0次 | 上传用户:ouyang
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着社会的发展,人们对机器翻译的需求越来越显著,而现有的自动翻译系统难以满足人们的需求.自90年代以来,随着Internet的飞速发展,语料库语言学得到了越来越多的重视,诞生了两种新的数据驱动的机器翻译方法,即基于实例的机器翻译和基于统计的机器翻译.基于实例的机器翻译(EBMT)是一种经验主义的方法,它借助系统中已经翻译过的句子来翻译输入句子,用匹配、对齐和生成的过程来代替传统RBMT的分析、转换、生成过程.EBMT方法构造代价小,译文质量高,尤其在受限领域显示出了强大的活力.EBMT按照所存储实例的粒度不同可以分为4种类型.它们是翻译记忆,基于词表层的EBMT,基于模板的EBMT和基于结构的EBMT.实例的粒度越小翻译结果越精确,但对真实文本的覆盖率也越小;实例的粒度越大对真实文本的覆盖率就越大,但准确性就越小,而且不同粒度的实例对所要求的语言分析深度也不同.该文提出了一种基于实例的多层次机器翻译模型.该模型将四种EBMT有机的融合在一起,粒度小的实例在上层,粒度大的实例在下层,上层不能处理的句子交给下层处理.这样不同层次之间取长补短,达到了最充分的实例利用率和较好的翻译效果.该文对EBMT中的关键技术如:词对齐,相似实例查找,翻译模板抽取,基本名词短语识别,实例的运用等,分别进行了讨论并提出了自己的改进.该文还向读者展示了一个口语翻译系统——《口语翻译软件平台》.该平台就是"基于实例的多层次机器翻译模型"的一个具体实现.
其他文献
该论文描述了一个专为松下网络OCR引擎开发的OCR后处理系统.这个OCR引擎使用的是比较新但还不成熟的技术,现在它的词层识别正确率仅有50%.我们的OCR后处理系统是用来提高OCR引
该文综述了光电光谱分析技术的现状和未来发展趋势,阐述了可视化技术的概念及其发展趋势,进一步提出开发可视化的光谱分析应用软件是当前发展光谱分析技术所面临的课题之一.
丰满水电仿真系统的开发目标是建立一个对实际电厂水力发电机完全仿真的环境,用于对学生进行培训,达到完成培训后即可上岗工作的要求。全套仿真系统基于计算机进行开发,采用了先
目前采用注册中心方式的电子商务注册机制主要有独立的注册库/知识库机制以及集中式注册中心机制。本方案主要采用了分布式的技术特点,基于cnXML标准体系的注册规范和消息服务
近年来互联网上数据的急速增长,其中很大部分是流数据,具有无序性、突发性、易失性、无限性等特点。流数据有较强的时效性,其实际价值随着时间的流失而减少。为了应对流数据的处
学位
UniEAP1.7是东软股份公司研究开发的通用企业应用平台框架.本论文主要是按照J2EE的多层模型来分析UniEAP1.7框架,并针对其存在的缺点提出改进方案.第一章主要讲述本课题的研
图形用户界面提供了一种良好的用户与应用程序之间的交互机制,通过它,用户可以用鼠标、键盘等输入设备对屏幕上显示的构成用户使用界面的窗口、按钮、图标等界面构件进行直接操
随着近年来机器翻译的新一次研究浪潮的兴起,研究人员已经认识到机器翻译评测对机器翻译的关键技术及市场推广的重要推动作用.该文主要讨论的就是汉英机器翻译评测方面的研究
该论文中在分析当前网络管理现状的基础上,提出了以管理需求为驱动的智能综合网络管理系统的整体设计思想,将系统划分为四个子系统,并详细阐述了各子系统的功能划分.在深入分