基于句法结构信息的统计机器翻译模型研究

来源 :哈尔滨工业大学 | 被引量 : 0次 | 上传用户：lzj668

【摘要】

：

机器翻译的研究近年来取得了重大进展，尤其是统计机器翻译。它解决了从大规模语料库中获取大量细粒度翻译知识的问题，并为多种复杂因素下的译文优选提供了合理的解决办法。目前

【作者】

：

孙加东

【机构】

：

哈尔滨工业大学

【出处】

：

哈尔滨工业大学

【发表日期】

：

2009年期

【关键词】

：

句法结构短语模型统计机器翻译子图映射

下载到本地 , 更方便阅读

下载此文赞助VIP

声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架

论文部分内容阅读

机器翻译的研究近年来取得了重大进展，尤其是统计机器翻译。它解决了从大规模语料库中获取大量细粒度翻译知识的问题，并为多种复杂因素下的译文优选提供了合理的解决办法。目前基于短语的方法是统计机器翻译主流的方法，并取得了较好的翻译结果。但由于此类模型没有利用更深层次的句法语义等结构信息，很难解决翻译过程中的长距离词序调整问题；而且生成的译文也经常不符合目标语言的语法；特别是对于汉语和英语这两种结构差别比较大的语言而言，问题尤其严重。为解决这类问题，将短语内词对齐知识和句法知识有效结合起来，本文对经典的基于词、基于短语的翻译模型进行了研究，在理论上和实验中比较了每个模型的优缺点。在此基础上，本文提出了元结构、元结构组等概念，及结构模型的理论和算法；进而建立了基于结构对齐的统计机器翻译模型。为建立泛化能力更好翻译模型，本文在理论上分析了图同构问题，提出子图对映射的方法和理论；并在多文本文法框架下，给出了基于子图映射的翻译模型。具体地讲，本文从以下几个方面开展了研究：　　(1)句法结构与短语模型相融合的研究：提出元结构、元结构组等概念。以元结构组为单位对双语句法树进行分解，在此基础上定义结构映射。通过句法结构转换的方法，改进基于短语翻译模型的调序模型以及翻译结果。模型中把翻译任务定义为包括树分解、转换、词汇化等步骤的随机过程。从句法角度研究翻译候选项是否正确，翻译假设的生成、排序等问题。　　(2)结构模型研究：这部分研究是基于结构对齐研究的继续；它从句法角度研究译文句法结构的合理性。介绍了关于马尔可夫、隐马尔可夫等统计学习理论和算法。文中引入判别训练理论及其算法，给出了此算法收敛性质的判定方法。研究了在此模型下特征函数的选取依据；并给出了结构模型的建模理论框架和训练算法。　　(3)面向统计机器翻译的中间语模型研究：中间语独立于所有自然语言，可以减小源语言与目标语之间词对齐的跨度、以及句法结构的异构性对于翻译结果的影响；文中给出了基于双语短语块划分算法；在最大熵理论框架下，论述了基于IBM和ITG限制的中间语生成模型方法；并提出了中间语与统计机器翻译相融合的策略。　　(4)基于树到树映射的翻译模型研究：在源语言端和目标语言端同时构造符合语言学规则的句法结构，而不是形式上的句法结构。不需要改变源语言和目标语言语言原有的句法结构，在源语言句法子树和目标语言句法子树之间建立直接的对应关系。介绍了图的同构理论，给出了异构子图的判别方法。应用图同构理论对规则抽取理论和算法的进行了改进，并在多文本文法框架下给出了基于子图对齐的翻译模型。

其他文献

生物序列比对算法的并行优化设计与实现

生物序列比对是生物信息学的基础和核心,随着生命科学的迅猛发展,需要研究的蛋白质和核酸序列的信息显著增加。常见的双序列比对串行算法时间复杂度为O(N2),多序列比对时间复

学位

双序列比对并行化算法多序列比对后缀树

基于系统调用的文件系统入侵检测的设计与实现

随着信息技术的飞速发展,各种病毒、木马和黑客的攻击越来越频繁。文件系统作为存储系统的核心,其安全性至关重要。系统调用作为内核和用户间的功能接口,大部分对文件系统的

学位

入侵检测系统调用日志分析

基于主题推荐的辅助写作系统

随着国际化程度的日益提高,英语学习变得越来越重要。在语言的学习过程中,写作常常扮演着重要的角色。写作者的写作水平可以凸显其掌握语言的熟练程度,要想写出高质量的文章,

学位

辅助写作系统句子相似度主题词主题模型词向量

基于FPGA的动态可重构AES加解密系统的设计与实现

随着半导体技术的不断发展,数字逻辑系统的功能越来越复杂。同时在另一方面FPGA(Field Programmable Gate Array)芯片的逻辑资源却并不能满足相应复杂程度的系统的要求,而多

学位

现场可编程门阵列部分可重构动态可重构高级加密标准

融合式存储系统的数据复制研究与设计

随着信息技术的快速发展,数据量出现爆炸式增长。为了高效存储这些大量的数据,存储区域网FC-SAN(Fiber Chanel Storage Area Network)和IP-SAN (Internet Protocol Storage A

学位

融合存储数据复制备份恢复数据一致性

可信计算中认证协议改进方案

可信计算增强了平台的安全性,能够以更安全地方式去完成任务。可信计算中认证协议是十分关键的,作为平台可信的身份认证协议,直接关系着可信平台的安全性和健壮性。认证协议

学位

零知识协议Σ协议Ω协议可信计算不可锻造性认证

基于稀疏表示和非下采样轮廓波变换的单幅图像超分辨率

图像超分辨率重建技术是指由已有的低分辨率(Low Resolution,LR)图像重建出一幅相对应的高分辨率(High Resolution,HR)图像。这项技术能够实现在不改进成像设备的硬件条件的

学位

超分辨率稀疏表示非下采样轮廓波变换多方向

基于流被动测量的时间测度的研究

随着网络技术飞速发展，网络规模日益扩大，网络复杂性不断提高，影响网络服务质量的因素也逐步增多，这对网络管理提出了新的挑战。在网络管理中，往返时延、延迟抖动等时间测度具有非

学位

网络管理往返时延流被动测量时间测度网络总体时延NetFlow

变换域双水印算法研究

随着计算机、互联网技术的不断发展,几乎所有的文本、图片、音频、视频等多媒体都能够以数字化的形式存在和传播。数字化作品容易传播和复制,这就给数字作品的内容安全、产权

学位

双水印变换域奇异值分解压缩感知离散分数随机变换

基于XML的数据库中间件技术与应用研究

本文致力于研究基于XML的数据库中间件(本文中命名XMLDBMW)的设计与应用问题。它能为应用程序提供便利的XML与关系数据库的双向访问。本文首先探讨了XML的特点、优点和发展趋

学位

XML数据库中间件模式映射

基于句法结构信息的统计机器翻译模型研究

其他学术论文