统计机器翻译的邻接调序短语模型

来源 :北京工业大学 | 被引量 : 0次 | 上传用户:abc37562735
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
机器翻译是利用计算机把一种自然源语言转变成另一种自然目标语言的过程。机器翻译基本分为基于规则的方法和基于语料库的方法,基于语料库的方法又可以分为基于统计的方法和基于实例的方法。近年来,随着统计方法不断发展并在各项评测中取得好成绩,它已逐渐成为机器翻译领域的研究热点之一。   本文首先介绍了机器翻译的历史、研究现状、主要方法和分类,介绍了机器翻译的四种经典思想,并重点强调了统计思想。通过一些典型模型和方法的展开介绍了统计翻译模型的三个主要关注点:语言模型、翻译模型和解码模型。   其次,分别从翻译模型和解码模型入手,本文提出了五种翻译模型:由最简单的最少短语条数模型,到由基本短语模型发展而来的无调序基本短语模型和邻接调序基本短语模型,再到由Koehn短语模型发展而来的无调序Koehn短语模型和邻接调序Koehn短语模型,其中允许调序的邻接调序基本短语模型和邻接调序Koehn短语模型要受到邻接调序约束的限制。传统上,一般认为短语统计机器翻译的解码在计算复杂度上是NP完全问题,因此解码器为了在有限时间内尽快找到最优解,必须采用有风险的方法来降低计算复杂度,这样往往引入了解码错误从而降低了翻译质量。而本文提出的五个模型在邻接调序约束下的解码计算复杂度都是多项式难度的,因而可以获得更好的翻译质量。   再次,本文利用已有的汉英双语语料库,设计并实现了一个汉英翻译系统,其中的主要工作包括:双语语料库的预处理和对齐训练,短语提取及概率计算,建立倒排索引,训练语言模型,译前、译后处理,句子提取、翻译结果生成,以及与五种模型相对应的五个解码器的设计和实现。   最后,本文讨论了机器翻译的人工评测和自动评测方法,并采用经典的短语统计机器翻译系统PHARAOH系统作为基线,给出了所实现的汉英翻译系统与基线系统进行比较评测的评测结果,并对结果进行了比较和分析。  
其他文献
伴随着我国经济的快速发展,我国的住房公积金制度也取得了较快发展。作为我国住房体制改革的产品,随着城镇住房消费的日益升级,改善居民住房条件的需求越发迫切,住房公积金的
学位
统计学习理论(StatisticalLeaningTheory,SLT)是针对小样本情况的机器学习理论,其核心思想是通过控制学习机器的复杂度来实现对学习机器泛化能力的控制。在这一理论基础上发
学位
随着计算机技术的不断发展,计算机动画技术已经广泛应用于工程、科研、文娱等众多领域。中科院陆汝钤院士于上世纪90年代提出的全过程计算机辅助自动生成动画技术将人工智能技
学位
异构分布式数据流(Heterogeneous Distributed Data Stream)是指相互联系的多个数据流,其数据来自地理上分布的数据源,且各数据源观测不同的属性集。目前,异构分布式数据流的应用
学位
数字图像处理技术在军事领域应用已相当广泛,但对其在变形迷彩目标发现中的应用研究却不多。而变形迷彩伪装已成为现代战场上最为重要的伪装技术之一。本论文较为系统地分析
纹理分析是指通过一定的图像处理技术提取纹理特征参数,从而获得纹理的定量或定性描述的处理过程,在机器视觉和模式识别领域研究中占有重要地位。随着科学技术的快速发展以及
学位
随着计算机制造技术和应用技术的不断发展,U盘、移动硬盘等移动存储设备的购置成本不断降低,由于其体积小、容量大、携带方便、不易损坏等特点而越来越受到大家的青睐。移动
学位
随着云计算的飞速发展及其许多方面的优势(如,花费的有效性、灵活性,以及可扩展性等等),越来越多的用户将他们的应用从本地移动到云计算中心。而为了满足众多用户各式各样的需求,云
随着人工智能、计算机图形学和软硬件技术的高速发展,计算机动画已经广泛应用于工程、科研、文娱等众多领域。中科院陆汝钤院士在90年代提出了动画自动生成技术(Automatic Gene
学位
手语是聋人之间使用的一种语言,是一种靠肢体、表情进行交流的特殊语言。它是聋人在日常工作、生活中与人交流、传达信息的最重要途径,然而现今社会中信息传播的主要方式建立
学位