面向统计机器翻译的训练语料选取技术研究

来源 :东北大学 | 被引量 : 0次 | 上传用户:yqmaidou
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
双语训练语料作为统计机器翻译系统的不可或缺的知识来源,直接影响系统的翻译性能。一般情况下,训练语料的增加可以使系统翻译性能上升。但是随着语料规模的增加,系统的训练和解码代价也增加,同时语料中的噪音数据也会影响系统的性能。本文主要从句对质量和覆盖度两个方面,讨论面向统计机器翻译的训练语料的选取问题。目的是在不降低系统翻译性能的前提下,缩小训练语料的规模,降低系统训练和解码的代价。首先,本文提出了多个句对质量评价特征,从句子流畅度、句对互译程度等方面评价训练语料中双语平行句对的翻译质量。并通过线性模型,将各个评价特征整合统一,采用Pranking算法在标注集合上,自动获得各个特征权重。实验证明,本文提出的句对质量评价线性模型可以有效区分不同质量的翻译句对,准确率可以达到83.56%。然后,本文提出面向统计机器翻译的训练语料选取模型,在这个模型中本文同时考虑了句对的翻译质量和覆盖度。在CWMT和NIST两个数据集上的实验证明,当选取的训练语料子集规模达到原始语料的20%时,可以获得原始语料作为训练集时97%的性能;当选取的子集规模达到30%时,能够获得同原始语料相同甚至更高的翻译性能。最后,本文尝试将语料质量评价结果直接应用于机器翻译模型的训练中,以提高系统的翻译性能。在实验中发现,采用这种方法确实可以提高机器翻译系统的性能,但是效果有效,有待进一步的研究。本文的工作是对统计机器翻译系统语料选取工作的初探,包括语料打分(句对质量评价)和语料选取的相关工作。未来会进一步包含语料处理的相关工作,并向翻译模型适应方向发展。
其他文献
蓝牙是一种实现短距离无线数据与语音通信的开放技术标准,近年来得到了广泛的关注。组建无线自组织网络是蓝牙技术的一个重要应用领域。 但是,在蓝牙规范中只对微网结构的
移动自组网是一种特殊的无线网络,它的组建不依赖于预先存在的网络基础设施,如基站或接入点,而是由若干个带有无线收发器的移动节点构成。与传统的无线局域网不同,移动自组网是一
数字图像的压缩很长时间里是人们研究的一个课题,人们提出大量的图像压缩标准来适应不同的应用。压缩的任务是降低各种形式的数据的传输的带宽和存储要求。尽管现在越来越多的
目前,基于磁盘文件的数据库系统,例如BerkeleyDB、SQLite,虽然代表着嵌入式数据库应用的主流,但仍有一些应用场合的需要难以满足。它们所提供的库函数都是依托于文件系统的,所以,其
  本论文提出了一个在不降低基于错误实例系统准确率的前提下提高系统效率的方法:就是通过stringkernel、KPCA、K-means聚类等技术来提取系统错误实例数据库各个表的特征,为
语义分析是自然语言处理中的一个重要任务,语义角色标注(Semantic Role Labeling,简称SRL)是一种浅层语义分析的实现方式,它只标注句子中与谓词有关的成分的语义角色。目前,
本文提出了一个称为G2的高速图形引擎,它是专门为J2ME/MIDP类库的底层实现而设计的,例如可以使用在XORP/ORL系统中。  首先,是G2的专门性。与通用目的的图形引擎不同,G2是专门
公路规范查询与公式计算系统,主要针对当前的公路设计人员在设计过程中的需求而设计。公路设计人员在设计公路等过程中经常需要从大量规范标准中查阅技术标准、设计和施工规
Internet的迅猛发展、经济全球化时代的到来以及电子商务的广泛开展促成了机器翻译热潮。通常,用户通过购买相关软件或访问提供在线翻译的网站来获取翻译服务,然而,用户或者需要
非线性理论由三大理论构成:混沌理论、分形理论、孤立子理论。对非线性理论的研究常常以理论研究为主,本文在非线性理论研究的基础上探讨了分形自然景观模拟的应用。 分形