面向特定领域机器翻译的平行语料构建方法的研究

被引量 : 0次 | 上传用户:cdronglin
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
机器翻译是利用计算机实现不同自然语言间翻译的学科。统计机器翻译是当前主流的机器翻译方法,它以平行语料库为基础获取翻译知识,可以开发出高效、性能优良的翻译系统。但是当领域发生变化时,翻译系统由于缺少该领域的翻译知识导致性能降低。因此,构建大规模高质量特定领域的平行语料库对于该特定领域统计机器翻译系统性能的提高具有重要作用,但是平行语料库的人工构建成本很高,利用机器翻译构建的质量又很低。针对这个问题,本文重点研究了人工翻译与机器翻译相结合的平行语料构建方法,以实现低成本高效率地构建平行语料的目标。本文根据特定语言对间翻译人员的现实情况提出了两种平行语料构建方法:(1)在目标语言对的翻译人员奇缺的情况下,本文提出了基于枢轴语言的平行语料构建方法,即利用第三种语言作为桥梁,借助已有的机器翻译技术,并融合主动学习方法,构建目标语言对的大规模高质量平行语料库。本文通过以英语作为枢轴语言构建日汉平行语料库的实例研究,利用成熟的基于短语的统计机器翻译技术,重点描述了基于枢轴语言的平行语料构建方法、基于主动学习的领域适应方法、基于译文自动评测的良好译文选择方法、翻译系统的更新迭代和评价实验。实验结果表明,该方法能够快速构建日汉平行语料,并有效提高日汉翻译系统的性能。(2)在目标语言对的翻译人员充足的情况下,为了提高使用机器翻译构造的平行语料质量,本文提出了基于依存树到串翻译模型的平行语料构建方法。该方法直接利用目标语言对的翻译系统构建平行语料,提出利用依存树所包含的句法知识和语义知识来构建翻译模型。同时与方法一样使用基于主动学习的领域适应方法,通过提高翻译系统性能达到提高平行语料质量的目的。本文通过构建日汉平行语料库的实例研究,重点描述了基于依存树到串的翻译模型,并将该模型用于日汉统计机器翻译并进行了评测。评测结果显示该系统BLEU值提高了0.62,RIBES提高了0.31,表明该模型能有效提高翻译系统性能。综上所述,为了构建特定领域机器翻译的平行语料,本文提出的两种低成本高效率构建平行语料的方法都是有效可行的。
其他文献
面向ITER第一壁的遥操作内窥机械臂需要在超高温度的恶劣环境中运作。针对高温对电机力承载特性及绝缘的不利影响,对机械结构、控制方法、冷却方式等多因素展开研究,实现高温
目的 探讨河南大学医学院学生恋爱心理特点 ,为心理健康教育提供依据。方法 采用自行设计封闭式问卷进行调查。结果 大学生恋爱心理特点概括为 :注重恋爱过程 ,轻视恋爱结
本文从比较语言学的角度出发,对传统的观点提出质疑,并采用定性定量分析的方法,用实例对维吾尔语形容词的级位范畴逐一作了剖析,指出维吾尔语形容词的级位范畴仅存在于性质形
<正>面对低于预期的经济形势,大规模全面减税的呼声又开始多了起来。其实,现在的问题不是大规模全面减税的问题,真正的税负20%出头,并不是很高,加重企业负担的不在于税,而是
在充分考虑微型光伏并网逆变器系统效率、成本、电能质量等方面的基础上,研究了利用反激逆变器准谐振模式实现功率管ZVS动作及电流型并网的控制策略,深入分析了准谐振模式的
<正>今年7月1日,国务院出台了积极推动"互联网+"行动的指导意见,明确了"互联网+"发展的战略方针和奋斗目标,为下一步工作指明了方向。一、适应新形势,高度重视"互联网+"行动
剧名翻译简论赵绪昕虽然剧名翻译尚无准则和规范,但它并非无规可循、无绳可准,而且它也应该有其规律和定法,就此,本人想谈些肤浅的看法。一、剧名构成的形式要找出剧名翻译的一些
期刊
<正>《国际肿瘤学杂志》(原刊名《国外医学肿瘤学分册》)是中华人民共和国卫生部主管,中华医学会、山东省医学科学院主办的专业医学期刊,是中华医学会医学系列杂志之一。为中
会议
<正>5月8日上午,中国央行自2012年以来首次重启了91天央票询量。这意味着,央票有望时隔17个月后重现公开市场。央票重启主要意在应对热钱流入压力和央票集中到期,这也与市场
目的通过对深圳市小学生视力不良的现况调查,探讨视力不良的主要危险因素,为针对性地防治学生近视提供依据。方法通过整群抽样方法,随机抽取深圳市4所小学一至五年级4936名学