基于短语的统计机器翻译模型训练中若干关键问题的研究

被引量 : 0次 | 上传用户:lingyuehqu2009
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
上世纪90年代前后,IBM Watson研究中心的Brown等人提出了基于信源信道模型的统计翻译方法,此类方法的性能远远超越了传统的基于规则的翻译方法。其后德国亚琛工业大学的Och等人根据Brown的理论发布了开源词对齐工具GIZA++,从此统计机器翻译成为自然语言处理研究领域的一个热点问题。Och将机器翻译的错误归结为Bayes错误,模型定义上的错误,模型训练中的错误,解码过程中的搜索错误。本文以短语模型为例,从模型训练方面入手,分析统计机器翻译模型构造的过程中,各个环节所可能引入的错误,并探讨一些有效的方法来减少这些错误。更具体地讲,本文的研究内容主要包括以下几方面:(1)词对齐的改进:统计机器翻译系统所使用的句对齐训练语料,大部分都是从篇章级的对齐语料中自动抽取出来的,因此训练语料中通常存在大量的错误对齐句对,本文提出一种基于对齐困惑度的双语语料过滤方法来过滤这些错误的对齐句对;针对单向词对齐算法在对低频单词处理上的不足,本文提出一种基于IBM模型4特征的判别式词对齐算法。(2)短语抽取的改进:为了在有限的双语训练语料抽取出更多的短语翻译规则,本文提出了非严格短语抽取方法和在多种词对齐结果上抽取短语的方法,这两种方法都可以在训练语料上抽取到更多的翻译规则,但同时也会将很多有错误的翻译规则抽取出来。本文通过一种有效的过滤方法对这些翻译规则进行过滤,在保证翻译质量不过度下降的前提下,过滤掉短语表中大部分的错误翻译规则,以确保短语模型的精确性。(3)调序模型的改进:从训练语料上抽取到的短语规则集有很严重的数据稀疏问题,因此基于短语的调序规则对自然语言中一些调序现象的统计并不充分。本文提出了一种基于句法信息的调序模型,由于词性标注与句法标注的数量比训练语料中的单词数量要少得多,通过这些标注构造调序规则,可以使调序规则在训练语料上得到更充分的统计,调序模型也会更加精确。(4)模型参数训练的改进:当前统计机器翻译中最流行的模型参数训练方法是最小错误率训练,本文提出了一种在最小错误率训练的解码过程中加入强制解码特征的方法。强制解码方法产生的n-best翻译结果,更加接近开发集中句子的参考译文。在最小错误率调参过程中,通过加入这些由强制解码方法产生的n-best翻译结果,可以防止调参过程过早的收敛于较差的局部最优点。
其他文献
道路运输是综合运输体系的重要组成部分,是国民经济的基础性和服务性产业,大力发展道路运输业,对于促进国民经济发展,活跃城乡商品流通,方便人民群众生产生活,扩大社会就业具有重要
近年来,煤矿瓦斯安全生产事故频发,特别是随着开采深度的加大导致开采条件更趋复杂,瓦斯灾害的威胁越加严重,煤矿瓦斯安全生产事故已然成为煤炭行业可持续发展的制约因素,现有的安
采油厂作为油气田开发过程中的主体单位其工作量与任务复杂性不言而喻。其中在安全生产过程中常常扮演着甲方管理者与技术决策者的双重身份。所以只有全面提升管理水平与技术
在沈从文的创作生涯中,他留下了大量丰富生动的小说作品,如我们熟知的《边城》《萧萧》等,除了这类比较经典的作品外,沈从文早期的小说也很有特色,大多数描绘的是贫困交加、得不到
《乌姆·萨阿德》是巴勒斯坦抵抗文学家格桑·卡纳法尼“三部曲”之一。小说以“六五战争”为背景,描写了一位生活在黎巴嫩难民营里的巴勒斯坦妇女——乌姆·萨阿德。自1948
文章首先分析了小学语文口语交际教学中存在的问题,然后提出了小学语文口语交际教学中的对策,包括选择适当的话题,激发学生的沟通欲望;分组讨论,突出学生的主体地位;大力开展
通过对节约型城市园林绿化设计含义和建设目标的论述与浅析,引发对节约型城市园林绿化设计的思考,从而得出对于节约型城市园林绿化的设计方法,最大化发挥节约型城市园林绿地
随着微博这种新兴的社交平台迅速发展,越来越多的用户使用,并且在上面发布事件信息,由于微博的传播速度非常迅速,对新闻传播的意义非常大,从微博数据中发现热点事件有着极大的需求
《联合国海洋法公约》(以下简称《公约》)确立了专属经济区制度,这是一项新的制度,是海洋大国与发展中沿海国折衷妥协的产物,表现之一就是没有对其中的军事活动问题作出明确规定。
石灰石—石膏湿法烟气脱硫系统是应用最为广泛的脱硫系统,为了保证脱硫系统的脱硫顺利进行,必须让氯离子浓度保证在20000ppm以下,因此该系统运行时会产生一定量的脱硫废水。在处