融入头—修饰词调序模型的短语统计机器翻译方法研究

来源 :哈尔滨工业大学 | 被引量 : 0次 | 上传用户:yangyilong
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
机器翻译是自然语言处理领域一个古老而经典的课题。机器翻译经历了从词到短语,从规则到统计的演变过程。目前机器翻译的研究正日趋成熟,融入句法信息的统计机器方法成为目前机器翻译领域的一个热点。我们提出了一个将完全句法分析信息融入短语统计机器翻译的方法,并根据该方法实现了一个基于源语言端完全句法分析的机器翻译系统。该系统前端以一个完全句法分析器作为输入,翻译系统的框架采用基于短语的机器翻译解码算法;在翻译过程中,解码器首先将源语言的完全句法结构转化成头-修饰结构,在解码过程中融入基于头-修饰的调序模型改善翻译系统的调序,进而明显的提升了短语系统的翻译性能。具体的,本文工作主要包含以下几个部分内容:(1)在前端的完全句法分析算法中,我们采用了基于词汇化头-修饰上下文的头驱动句法分析模型。数据稀疏是词汇化模型的重要问题,平滑方法是似然模型中解决数据稀疏的主要方法。本文在头驱动句法分析模型下,基于经典插值平滑算法,提出了以统计空间中平均事件数为基础的直接插值平滑算法,并应用经典的误差理论分析了该算法的合理性。基于该算法,并借鉴了语言模型中其他插值平滑算法对模型的零点进行假设的方法,在头驱动句法分析模型下,重新构造了4种平滑算法。(2)提出了面向短语机器翻译的词级别调序模型。为了将该调序模型融入到机器翻译系统中,本文提出了两个对齐约束。基于该对齐约束,文中给出了一个基于翻译概率的对齐后处理方法。基于处理后的对齐结构,文中模型定义了基于调序参照词的两种调序。基于该调序定义,进一步提出了将两种将头-修饰结构融入该调序模型的方法,并给出了该模型的参数估计方法。(3)短语模型的解码算法是短语的机器翻译系统的核心部分。提出了基于翻译状态的短语机器翻译系统的解码算法。该解码算法包含1-best解码方法和n-best解码方法。在解码过程中,翻译路径根据翻译状态进行组织。n-best解码中,采用限制翻译状态中翻译数目的方法,将n-best的多样性控制在一定范围内。由于文中算法综合考虑了翻译状态、翻译模型以及解码算法之间的联系,文中提出的n-best解码算法在两个数据集合上明显的提升了翻译质量。(4)提出了头-修饰的模型训练方法,以及将词级别调序模型融入短语机器翻译解码过程的方法。在模型训练中,采用移入-规约的算法训练本文的基于头-修饰结构的调序模型。在解码过程中,算法引入词索引数据结构,以识别解码过程中的调序类型。实验结果显示,我们提出的调序模型可以明显的改善基线系统的局部调序能力。
其他文献
链语法是一套用计算机分析自然语言句法结构的形式化模型,由词典和算法两部分构成:词典记录每个词条的句法链接方式,算法利用词典分析句子中各单词的链接组合,符合语法的句子
目的:探析中医综合疗法治疗脾虚肝亢型小儿抽动症的临床效果。方法:70例脾虚肝亢型小儿抽动症患儿,按照数字随机法分为对照组和观察组,各35例。对照组给予常规治疗,观察组则运
近年来,北京某预备役防化团坚持以科学发展观为指导,着眼首都核心区防化应急维稳使命任务要求,不断推进军民融合式发展,创新训练方法,不断摸索实践,下大力 In recent years,
农业生产中粮食产量的提高离不开农用除草剂的施用,而施用除草剂的过程中难免会造成环境的污染,进而使环境生物受到追害。以斑马鱼作为试验用鱼,采用半静态法测定10%精喹禾灵乳油
“全面提高学生的语文素养”是《义务教育语文课程标准》“课程基本理念”中提出的第一个基本理念。从此,在教学实践中如何落实这一新理念,就成为广大语文教师必须破解的难题
意识在学习活动中的作用一直是认知科学研究的重点,自从在人工语法研究中发现内隐学习现象以来,无意识加工对人类认知过程的影响受到前所未有的关注。学术界先后进行了大量的实
目的观察野鸡冠花子治疗单纯疱疹病毒性角膜炎的疗效。方法把单纯疱疹病毒性角膜炎70例(81只眼)分为治疗组(A组)、对照组(B组),A组41只眼,B组40只眼。B组单纯用抗病毒药物:0.1%阿昔
高密度街区的微气候对居民的体力活动、空气污染暴露甚至健康都具有一定的影响。以南京莱迪广场为例,采用CFD软件模拟并分析了南京莱迪广场夏季热环境、风环境状况。结合广场