统计机器翻译的一致性解码方法研究

被引量 : 0次 | 上传用户：chenjintian528

【摘要】

：

近二十年来,机器翻译(machine translation, MT)研究迅猛发展。相比于传统的基于规则(rule-based)和基于实例(example-based)的机器翻译方法,统计机器翻译(statistical machi

【作者】

：

段楠

【发表日期】

：

0年期

下载到本地 , 更方便阅读

下载此文赞助VIP

声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架

论文部分内容阅读

近二十年来,机器翻译(machine translation, MT)研究迅猛发展。相比于传统的基于规则(rule-based)和基于实例(example-based)的机器翻译方法,统计机器翻译(statistical machine translation, SMT)在译文质量和系统鲁棒性上均展示出巨大优势,并已经成为机器翻译研究领域中的主流方法。给定源语言输入,机器翻译的任务在于生成与该输入表达意义相同的目标语言输出。典型的SMT系统在完成上述翻译任务的过程中,往往能够生成多条不同的目标语言翻译假设(translation hypotheses)。然而,由于翻译模型本身的局限性,系统排名最高(1-best)的翻译假设通常却并不是全部翻译假设中的最优结果;此外,基于不同翻译模型SMT系统的大量涌现,进一步扩展了相同源语言输入能够对应的目标语言翻译候选集合大小。在上述背景下,如何有效地利用不同翻译假设及其包含的信息来获取更优的翻译结果,已经成为近年来机器翻译研究领域中的一个热点课题。本篇博士论文针对该课题进行了一系列深入而系统的研究,并按照下述框架组织全文:首先,本文将该课题目前已有的研究成果大体分为如下两类,并提出一个统一的一致性解码(consensus decoding)框架,将这两类方法包括其中:·翻译假设重排序,主要应用于单个SMT系统的翻译假设空间之上。该类方法通过选取特定的评判准则,对整个翻译假设空间中所包含的全部翻译假设进行重打分并重新排序,进而选取重排序后排名最高的翻译假设作为最终的翻译结果;·系统融合,主要应用于多个SMT系统的翻译假设空间之上。根据其使用翻译单元的不同,该类方法又可划分为句子级(sentence-level)、短语级(phrase-level)和词汇级(word-level)三种不同的层次。其中,词汇级系统融合能够提供的性能提升最为显著,因此相关方面的研究成果也最多。然后,针对已有典型工作的不足,本文提出四种新型的一致性解码方法:·基于特征子空间的句子级系统融合给定任意基于对数-线性(log-linear)模型的(主)SMT系统,通过选取该系统特征全集的不同特征子集来构造多个(子)SMT系统,进而在全部系统的输出结果之上使用一种句子级系统融合方法,来选取最终的翻译结果。该方法的贡献在于:提出了一种简单有效的多SMT系统构造方法,极大程度地减少了系统融合工作中多翻译系统构造方面的巨大开销;·协作解码给定多个基于对数-线性模型的SMT系统,通过共享翻译假设空间的方式允许不同翻译系统进行交互,每个翻译系统通过使用一组基于其他翻译系统生成的翻译假设空间计算得到的n-gram统计量特征,来对自身的(局部和全部)翻译假设空间进行重排序。在协作解码完成后,还能够通过系统融合的方法获取进一步的性能提升。该方法的贡献在于:在解码过程中直接发生作用,能够在一定程度上避免更优的局部翻译假设被较早剪枝(pruning)的问题;·基于混合模型的最小贝叶斯风险解码使用混合模型将多个SMT系统的翻译假设概率分布整合,利用整合后的概率分布在多个SMT系统合并后的翻译假设空间上计算MBR解码所需的n-gram统计量特征,进而从全部翻译候选中选取最终的译文结果。与传统的MBR解码方法相比较,基于混合模型的MBR解码所能访问到的翻译假设数目更多、差异性更大,并且基于混合概率分布计算的n-gram统计量也更为准确,因此,该方法能够获得的性能提升也更多。该方法的贡献在于:将最小贝叶斯风险解码的应用范围从单个SMT系统扩展到多个SMT系统;·翻译假设混合解码通过利用来自多个SMT系统的局部翻译假设来构造一个更大的混合假设空间,并利用一系列基于一致性的统计量特征从该空间中选取最终的翻译结果。大规模数据上的机器翻译评测实验表明,该方法在翻译性能上显著地优于翻译假设重排序和词汇级系统融合方法。该方法的贡献在于:同时继承了翻译假设重排序和系统融合两类方法的优点,不仅能够使用来自任意SMT系统生成的局部翻译假设构建更大的翻译假设空间,而且能够产生已有翻译假设候选集合之外的新的翻译结果。在每种方法的对应章节中,本文均通过大规模数据上的中-英机器翻译评测实验,来验证各个方法的有效性;最后,总结全文,并对未来工作进行展望。本篇博士论文所探讨的一致性解码方法均针对统计机器翻译任务。然而,该类方法中所包含的思想同样适用于其他很多自然语言处理任务,如统计句法分析、自动语音识别、自动词对齐等。在将来的研究中,我们也将尝试在这些领域进一步扩展一致性解码方法的应用范围。

其他文献

张家口特色农产品营销渠道的研究

加快对张家口特色农产品营销渠道的优化是张家口特色农产品健康快速发展的必要条件,也是张家口特色农产品现代化发展的重要内容,对张家口发展现代特色农业具有重要的现实意义

学位

张家口特色农产品营销渠道渠道优化

房地产开发中民间融资及其风险的法律规制

经济的发展离不开金融的支持,无论是正规金融或非正规金融,在市场规则作用下,金融资源流向配置最合理的地方,对国民经济的发展发挥了巨大作用,尤其是在当下,我国社会发展正处

学位

房地产开发民间融资法律规制

高中信息技术课程中学生信息技能素养评价的实践研究

在欧美的教育改革中,随着教育信息化的不断发展强调使学生掌握21世纪所必备技能的研究已成为众多国家教育研究的重点。在国内外对信息素养的众多定义和解读中,绝大部分学者也

学位

信息技能素养技能素养评价技能评价体系心智技能实践研究

初中生物“问题导学”教学模式的应用研究

教育的最终目的是促进人的发展。教育部依据我国学情制定的《基础教育课程改革纲要》突出学生的发展,以培养创新精神和实践能力为重点,注重创设能激发学生主动参与的教育环境

学位

初中生物问题导学教学模式教学策略

供应链环境下劳动力柔性对供应商供应柔性的影响研究

在日趋复杂动态的环境中,供应链柔性问题已经日益得到企业和许多学者的关注,先前的学者已经就制造柔性问题作了很多探讨,部分学者也对柔性供应链提出了一些不同的概念模型,也

学位

劳动力柔性供应柔性结构方程模型

基于IPD思想的北重公司研发管理创新研究

北京北重汽轮电机有限责任公司(以下简称“北重公司”)是电力设备的制造商和供应商,主导产品为电站汽轮机、汽轮发电机、电站辅机。历经五十年风雨,企业的发展进入成熟期,面

学位

集成产品研发并行工程流程重整研发管理模式

论公司瑕疵设立撤销制度

现阶段我国对公司瑕疵设立论著不少，可是专门对公司瑕疵设立撤销制度的研究却少之又少，甚至有时还存在被忽略的尴尬局面。本文运用文献分析、比较研究以及理论与实践相结合等方

学位

公司瑕疵设立公司瑕疵设立撤销行政撤销诉讼机制

以硫酸镁废液为原料制备硅钢级氧化镁

红土镍矿硫酸浸出沉镍后产生的大量硫酸镁废液不但污染环境,而且使得潜在价值较高的镁资源不能得到有效利用,大大降低了红土镍矿的资源综合利用率。硅钢级氧化镁主要用于取向

学位

硅钢级氧化镁硫酸镁净化沉淀煅烧

面向特定领域的统计机器翻译研究与应用

机器翻译是自然语言理解领域的难点和热点,在国际交流日益频繁的今天,机器翻译对多语言沟通交流具有重要意义,但其目前翻译的准确率却不尽人意。然而针对特定领域,特别是一些

学位

统计机器翻译医学领域领域规则模板依存语言模型

我国商业健康保险产品开发研究

我国商业健康保险发展起步较晚,伴随着我国经济的飞速发展,商业健康保险取得了较快的发展,保费收入增长迅速,从2000年的65.5亿元,增长到2009年的574亿元,平均增速达27.3%;产

学位

商业健康保险市场细分需求偏好产品开发策略

统计机器翻译的一致性解码方法研究

与本文相关的学术论文