统计机器翻译领域自适应方法研究

来源 :苏州大学 | 被引量 : 7次 | 上传用户:zhouyulong456
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
统计机器翻译是以大规模双语平行语料为基础,充分利用计算机较强的计算能力,通过统计分析,构建翻译模型、语言模型、调序模型,进而利用此模型进行翻译的自动化技术。目前,统计机器翻译系统的性能很大程度上依赖于训练语料的规模和质量。训练语料的规模越大、质量越好,则有效的翻译知识越多,涵盖的语言现象也越充分,从而有助于提升系统中模型的训练效果。然而,当面向特定领域的翻译任务时,机器翻译系统的性能往往偏低。原因在于通用领域翻译系统无法针对特定领域的翻译知识、句子表达方式、语言风格做出自适应调整。基于此,本文集中研究统计机器翻译领域自适应问题,并提出解决此类问题的新方法,主要研究内容具体归纳如下:1)特定领域平行语料库构建这一研究旨在从Web上自动挖掘特定领域平行资源,构建目标领域平行语料库。在大规模Web数据中,特定领域的双语知识往往集中出现于所属领域的双语网站内,并以较为规范的结构化数据形式一一对照,有助于特定领域双语知识的获取和组织。本文针对双语网站的识别和定位,提出一种基于全局搜索和局部分类的特定领域双语网站识别方法。以电子器件领域为目标,采用全局搜索方法获得该领域双语网站18,944个,随机抽取其中3,000个网站进行人工标注,在标注语料上,采用局部分类方法识别该领域双语网站的性能(F值)达到85.19%。在此基础上,利用识别出的目标领域双语网站中的双语句对,扩充特定领域机器翻译系统的训练集进行实验。实验结果表明,相同测试集下,特定领域机器翻译系统的性能获得显著提升,验证了本文所提自动识别特定领域双语网站方法的有效性。2)领域相关的双语句对选择本文从句对领域相关性的角度,在大规模通用领域平行语料库中选择和扩充面向特定领域翻译任务的双语资源,借以提升特定领域机器翻译系统的性能。句对的领域相关性表示其与目标领域的相似程度,领域相关性越大说明句对属于目标领域的可能性越大,对于特定领域翻译任务贡献越大。本文提出一种基于双语主题模型的领域相关句对选择方法,其核心思想为:利用双语主题模型挖掘句对中隐含的浅层语义信息,并在主题与领域之间构建词级和句子级映射,进而更好地估计句对的领域相关性。实验结果显示,利用本文所提方法选择双语句对并训练翻译系统,相比于基准系统,在测试集上平均提升1.64个BLEU值(%)。3)融合领域特征的翻译模型优化上述研究内容为统计机器翻译领域自适应方法的研究提供了较好的思路。本文这一部分研究,尝试从模型的角度,探索统计机器翻译的领域自适应问题。此研究致力于构建短语对或是层次短语对之间,在特定领域中的互译度评价标准,即在模型的角度考虑领域性影响。最终,利用此特征动态调整系统中翻译模型的参数,使之更好地适应目标领域,获得翻译性能的提升。本文提出一种基于卷积神经网络的翻译模型优化方法,该方法首先借助卷积神经网络估计短语所在双语句对的领域相关性,其次利用此相关性重新估计短语对的互译概率,最终通过线性融合通用领域和特定领域翻译概率,进一步优化面向特定领域翻译任务的系统性能。实验结果表明,相比于基准系统,利用此方法优化后的系统在测试集上平均提升2.9个BLEU值(%)。综上所述,本文针对统计机器翻译的领域自适应问题,在语料库构建、领域相关的句对选择和翻译模型优化三个方面进行探索,分别提出了基于全局搜索和局部分类的特定领域双语网站识别方法、基于双语主题模型的领域相关句对选择方法和基于卷积神经网络的翻译模型优化方法。并进一步由实验验证了上述方法的有效性和可行性,最终搭建了本地基于层次短语的领域自适应翻译系统。
其他文献
虚拟机技术的出现,满足了人们不断增强的计算需求,确保了各种平台上的应用的正确性与可靠性。资源受限的智能卡领域,Sun公司为其开发平台制定了Java卡开放标准。支持Java卡标
在实际生产过程中时滞现象普遍存在,时滞现象的存在会严重影响系统的稳定性以及系统的性能。滑模变结构控制(SMVSC)的滑动模态对于匹配的参数不确定性以及外界扰动具有完全的
关联规则是数据挖掘研究领域中一项重要的研究课题。蚁群算法是受到蚂蚁觅食的集体行为启示而设计的智能算法,作为智能算法的重要分支受到研究人员的广泛关注,它具有鲁棒性、分
随着互联网技术的发展,P2P技术的应用越来越广泛,使用P2P可以帮助用户通过互联网直接进行交互,从而使得网络共享变得更加容易和简单。然而,由于P2P应用的不断演进,P2P也消耗了很大
篇章分析旨在研究自然语言文本的内在结构并理解文本论述单元间的语义逻辑关系。在篇章分析领域,篇章是指由一组语义上连贯且结构上衔接的论元,经过结构化组织形成的自然语言
三维重建是计算机视觉领域的研究热点之一,它是研究如何通过物体的二维图像来获取物体在空间中的三维结构信息的理论和方法。其研究成果广泛应用在产品制造、机器人导航、精
学位
随着半导体工艺的不断发展,单个芯片上集成的晶体管数量将越来越多。届时,它们将被组合成上千个各自独立又相互通信的处理单元。为了充分利用它们的处理能力,需要高效的通信结构
本文主要研究的是基于测井数据的地质图矢量化方法。首先要对测井曲线及地质图进行预处理,对于含有不同种类噪声的图像,通常采取不同的方法进行处理,甚至需要使用几种方法的
作为构建“数字城市”系统的重要组成部分,同时作为目标提取和识别的一个典型应用,图像中建筑物目标区域提取越来越受到关注。本文在简单场景图像中建筑物提取技术的研究基础
学位
无线传感器网络(Wireless Sensor Networks,WSNs)是由大量的计算、存储、通信能力有限的传感器节点构成的网络,能感知、采集及检测监测区域中目标的各种信息,并将处理后的信