基于句法结构信息的统计机器翻译模型研究

来源 :哈尔滨工业大学 | 被引量 : 0次 | 上传用户:lzj668
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
机器翻译的研究近年来取得了重大进展,尤其是统计机器翻译。它解决了从大规模语料库中获取大量细粒度翻译知识的问题,并为多种复杂因素下的译文优选提供了合理的解决办法。目前基于短语的方法是统计机器翻译主流的方法,并取得了较好的翻译结果。但由于此类模型没有利用更深层次的句法语义等结构信息,很难解决翻译过程中的长距离词序调整问题;而且生成的译文也经常不符合目标语言的语法;特别是对于汉语和英语这两种结构差别比较大的语言而言,问题尤其严重。为解决这类问题,将短语内词对齐知识和句法知识有效结合起来,本文对经典的基于词、基于短语的翻译模型进行了研究,在理论上和实验中比较了每个模型的优缺点。在此基础上,本文提出了元结构、元结构组等概念,及结构模型的理论和算法;进而建立了基于结构对齐的统计机器翻译模型。为建立泛化能力更好翻译模型,本文在理论上分析了图同构问题,提出子图对映射的方法和理论;并在多文本文法框架下,给出了基于子图映射的翻译模型。具体地讲,本文从以下几个方面开展了研究:  (1)句法结构与短语模型相融合的研究:提出元结构、元结构组等概念。以元结构组为单位对双语句法树进行分解,在此基础上定义结构映射。通过句法结构转换的方法,改进基于短语翻译模型的调序模型以及翻译结果。模型中把翻译任务定义为包括树分解、转换、词汇化等步骤的随机过程。从句法角度研究翻译候选项是否正确,翻译假设的生成、排序等问题。  (2)结构模型研究:这部分研究是基于结构对齐研究的继续;它从句法角度研究译文句法结构的合理性。介绍了关于马尔可夫、隐马尔可夫等统计学习理论和算法。文中引入判别训练理论及其算法,给出了此算法收敛性质的判定方法。研究了在此模型下特征函数的选取依据;并给出了结构模型的建模理论框架和训练算法。  (3)面向统计机器翻译的中间语模型研究:中间语独立于所有自然语言,可以减小源语言与目标语之间词对齐的跨度、以及句法结构的异构性对于翻译结果的影响;文中给出了基于双语短语块划分算法;在最大熵理论框架下,论述了基于IBM和ITG限制的中间语生成模型方法;并提出了中间语与统计机器翻译相融合的策略。  (4)基于树到树映射的翻译模型研究:在源语言端和目标语言端同时构造符合语言学规则的句法结构,而不是形式上的句法结构。不需要改变源语言和目标语言语言原有的句法结构,在源语言句法子树和目标语言句法子树之间建立直接的对应关系。介绍了图的同构理论,给出了异构子图的判别方法。应用图同构理论对规则抽取理论和算法的进行了改进,并在多文本文法框架下给出了基于子图对齐的翻译模型。
其他文献
生物序列比对是生物信息学的基础和核心,随着生命科学的迅猛发展,需要研究的蛋白质和核酸序列的信息显著增加。常见的双序列比对串行算法时间复杂度为O(N2),多序列比对时间复
随着信息技术的飞速发展,各种病毒、木马和黑客的攻击越来越频繁。文件系统作为存储系统的核心,其安全性至关重要。系统调用作为内核和用户间的功能接口,大部分对文件系统的
随着国际化程度的日益提高,英语学习变得越来越重要。在语言的学习过程中,写作常常扮演着重要的角色。写作者的写作水平可以凸显其掌握语言的熟练程度,要想写出高质量的文章,
随着半导体技术的不断发展,数字逻辑系统的功能越来越复杂。同时在另一方面FPGA(Field Programmable Gate Array)芯片的逻辑资源却并不能满足相应复杂程度的系统的要求,而多
随着信息技术的快速发展,数据量出现爆炸式增长。为了高效存储这些大量的数据,存储区域网FC-SAN(Fiber Chanel Storage Area Network)和IP-SAN (Internet Protocol Storage A
可信计算增强了平台的安全性,能够以更安全地方式去完成任务。可信计算中认证协议是十分关键的,作为平台可信的身份认证协议,直接关系着可信平台的安全性和健壮性。认证协议
图像超分辨率重建技术是指由已有的低分辨率(Low Resolution,LR)图像重建出一幅相对应的高分辨率(High Resolution,HR)图像。这项技术能够实现在不改进成像设备的硬件条件的
随着网络技术飞速发展,网络规模日益扩大,网络复杂性不断提高,影响网络服务质量的因素也逐步增多,这对网络管理提出了新的挑战。在网络管理中,往返时延、延迟抖动等时间测度具有非
随着计算机、互联网技术的不断发展,几乎所有的文本、图片、音频、视频等多媒体都能够以数字化的形式存在和传播。数字化作品容易传播和复制,这就给数字作品的内容安全、产权
本文致力于研究基于XML的数据库中间件(本文中命名XMLDBMW)的设计与应用问题。它能为应用程序提供便利的XML与关系数据库的双向访问。本文首先探讨了XML的特点、优点和发展趋