面向教学的英蒙机器翻译系统的研究

来源 :科学与财富 | 被引量 : 0次 | 上传用户:zhanghuajngs
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
  摘 要: 本文主要研究面向蒙语授课小学生学习的英蒙机器翻译软件的设计与实现。本研究试图通过计算机自然语言处理技术给出解决方案,以期对蒙授学生的英语学习和辅导具有辅助支持作用。本软件的实现为蒙古语授课小学生改进学习外语起到辅助作用。关于蒙古语授课学生学习方面的网络资源很少,尤其是外语方面的,所以本翻译系统丰富了蒙古语授课学生学习外语的渠道与方法。
  关键词: 机器翻译;小学英语;蒙古语;教学
  中图分类号:TP391.2 文献标识码:A
  本论文获得内蒙古自治区蒙古语言文字信息化专项扶持项目"英蒙机器翻译及教学平台建设"资助,项目编号:MW-MGYWXXH-009
  本项目获得内蒙古自治区蒙古语言文字科研资助项目“蒙汉文牌匾翻译标准与规范化网络平台研究”资助,项目编号:MW-YB-2016025
  1 蒙英机器翻译研究现状:
  因为国内蒙古文普遍使用的是传统蒙古文,与蒙古国使用的蒙古文有所区另,因此本研究着眼于传统蒙古文的英蒙翻译软件开发问题。相对中英机器翻译系统研究而言,英蒙机器翻译系统研究起步较晚,从业专业人员很少,但近年来也取得了一些重要的成果。2000年,以内蒙古大学敖其尔教授《英一蒙机器翻译系统的研究》著作发表为标志,著作中,介绍了基于模板的英蒙机器翻译相关理论,给出了基于模型的蒙古文生成方法。另外还有吉日木图先生和王斯日古楞老师同样使用基于模板的方法并综合其它研究方法讨论了英蒙机器翻译系统相关问题。以上学者进行的研究及给出的解决方案主要针对的是一般的英蒙机器翻译系统,所涉及的面较广,语境的复杂度也相当高。从面向英语教学的专业翻译角度上看,由于学习中有其需要考虑的一些特殊问题,这些研究对解决蒙语授课学生学习英语软件的开发尽管有其重要的指导借鉴作用,但不能完全照搬。从发展水平上看,基于学习需求的英蒙机器翻译软件研制,国内开展的相关工作尚在起步阶段,还有许多深入细致的研究工作要做。
  本软件旨在面向蒙语授课学生的英文学习提供工具性的支持,是学习者和指导者传统的查阅词典学习方式的一个补充。软件开发先从面向蒙语授课小学生学习的英蒙机器翻译工具的设计与实现(以小学三年级为例)起步,待积累经验、试用评价、软件成熟,可后继研发面向蒙语授课其他学段学生的英蒙机器翻译系统。
  2 研究思路
  基本思路:收集并查阅相关文献;在课程专家的支持下,到蒙语授课小学进行现场调研;以小学生英语课程标准和学习需求为依据整理翻译系统所需语料并开发软件。软件的研究和开发主要涉及三个组成部分,一是;语料整理部分,二是;机器翻译研究部分,分别说明如下。
  2.1 语料整理
  语料的整理是機器翻译研究中最基本也是最重要的工作,语料整理的质量直接影响下一步机器翻译软件开发的质量。语料的整理分为二步来完成:
  ①在具有多年英语教学经验的教师(课程专家)的指导协助下,收集和整理所需课本、课外资料和相关信息,并将这些资料根据幼儿、小学各年级不同种类进行划分。
  ②将划分好的资料录入计算机。
  2.2 机器翻译软件
  借鉴中英等其它大语种的机器翻译理论和开发经验,参考已有英蒙机器翻译软件的研究成果,规划英蒙机器翻译系统。具体实现方法。
  ①准备语料(此步在上一个工作中完成),对语料进行一些必要的处理。
  ②使用SRILM训练语言模型。
  ③用Giza++生成翻译模型:词语对齐;词典概率评分,既利用MLE计算词语的翻译概率;短语抽取;短语评分,既生成phrace-table,亦即翻译模型。
  ④训练重排序模型。
  ⑤训练生成模型。
  ⑥创建解码器所需的相应配置文件。
  ⑦使用Moses进行解码,生成小学三年级英——蒙翻译软件。
  3 双语语料库的结构设计
  双语平行语料库是指用A语言写成的源语文本和用B语言翻译的译文组成的文本集合。双语对齐即“在双语文本中找到互为翻译的源文和译文片断”。语料库的结构设计较为简单,无需定义复杂的数据字段以及数据的约束、安全性与完整性,只需定义相互对齐的英语句子字段和蒙古语句子字段即可。
  4 蒙古文相关关键技术
  因为蒙古文是一种黏着性语言,其形态变化、动词时态变化等都较丰富,构词和构形基本上在词根或词干后加不同的附加成分来实现的,所以蒙语的词汇量可以说是非常大的,因为同一个词在不同上下文中可能会有十几种甚至几十种的形态变化。这对双语语料的建立带来了非常大的挑战,因为语料再多也不可能涵盖蒙古文的所以词汇,所以我们在建立双语语料时也尽量考虑蒙语变形所带来的影响及如何提高语料的使用率。另外,因为蒙语有第4,5元音和第6,7元音等的形相同音不同的现象,除了元音以外还有一些辅音也有这种情况,这导致了虽然某些词外形看起来一样,但实际上音不同的现象,而且这些音的机器内码是不一样的,这导致了计算机在识别这些词时会认为是两个词,但实际上有可能就是一个词。比如 这个词输入成urluge和orluge形都一样,但是内码确不同。这种现象因为录入人员对蒙语正确读音的掌握程度和录入习惯不同而不同,尤其内蒙古东西部蒙古语的读音差距较大也导致这种现象非常普遍。这也对语料库建立产生很大的影响,而且在后续的查询与翻译当中也会产生非常大的影响而降低翻译准确率。为此本文提出一些改善英蒙机器翻译方法,以此可以提高翻译的准确率,具体做法如下:
  4.1 建立规范的英蒙对齐语料库
  标点符号的处理:将设计好的对齐语料库中所有符号前后都要增加空格,以便于在训练语料时能够区分符号与前后词是否为一个词还是两个词。特别注意的是,有些字符是由两个符号组成,如“《”,此类符号原则上不可拆分,所以对两个挨着的字符不做空格增加处理。   空格的处理:对语料库中多余的空格全部删掉,保证语料中不会出现连续的两个空格。另外,由于蒙文语料中可能会存在蒙文空格。蒙文空格是将蒙古文词与各助词相连接的一种符号,主要是为了表现蒙古文的词与格助词之间的空格不与词与词之间的空格不同。事实上,为了更准确的进行翻译,保留蒙文空格存是一种正确的选择,这样的话匹配出来的文本更接近自然翻译结果,但是由于蒙文格助词众多,如果接在蒙古文的所有符合条件的词后面,那将大大地增加未登录词(因为每加一个格助词即可认为是一种新的单词),这样一来将对语料库量的要求将会非常的高所以在较少的语料库下能够获得更高的翻译质量需要将所有蒙文空格转变成普通空格,之后再把全部的连续两个空格简化为单空格。
  4.2 蒙古文的校对
  因为本次针对的是较小范围的语料库,所以校对工作全部由人工完成。
  4.3 蒙古文的音与形的统一化处理
  为了在小的语料下获得最大的翻译能力,本文使用了蒙古文音形统一化处理方法来解决蒙古文形同音不同的问题。也就是把第4,5元音和第6,7元音等同形字全部统一成一种形,这样处理后即有助于相对扩大语言模型量,也容易处理蒙古文的查询问题。
  4.4 语言模型的建立方法
  语言模型对于一个基于统计规则的翻译系统来说至关重要,所以具有丰富而涵盖面广的语言模型才能够大力提高翻译质量。语言模型的建立包括蒙古文语言模型的建立与英文语言模型的建立。因为英语的语料库非常多,而且比较重要的语料库均已开放,所以我们只要将此语料库下载后使用训练软件进行训练后生成英语语言模型即可,所以不作详细介绍,本文中将较详细地说明蒙古语言模型的相关理论基础及建立方法。
  本翻译系统采用n-gram方法建立了蒙古文语言模型,n-gram方法又称为N元模型。此方法适用广泛且技术较为成熟。N元模型指的是在计算语言学领域和概率模型中使用的一种方法,N元就是在一条句子中连续的N个元素。一个N元可以是任何字符的组合。然而,我们蒙古语中所指的N元以一个词为界限,也就是以空格为一个界限,获取N个元素。此时获取的N个元素不一定全部是词,也可以是标点符号或格助词等其它形式。N元一般都是从文本或语料中获取。一个N元的元素值为1的可称为“一元模型”,元素值为2的可称为“二元模型”,元素值为3的可称为“三元模型”,以此类推可有“四元模型”,“五元模型”,本系统选用了“三元模型”作为语言模型。
  5 搭建英蒙互译机器翻译辅助教学系统
  虽然基于短语的机器翻译系统并不要求双语语料中语言的特性,任何两种语言均可被训练成机器翻译系统。但是由于蒙古文本身的特性,在建立语言模型和翻译模型时均与其它语言有所不同。
  软件的搭建核心部分是利用了Moses机器翻译软件,Moses是法老软件的升级版本,所以在原有版本的基础上增加了许多新的功能。是由基于短语统计方法的机器翻译系统,是由亚深工业大学(德国)、爱丁堡大学(英国)等八家单位合作开发的。2006年这八家单位在约翰霍普金斯大学召开研究会进行研讨并且花费了六周的时间共同开发了这一系统。系统框架和核心部分全部用C++语言写成,而且开发完后将软件源代码公开了,以便其它研究人员可以研究与利用,此软件可以运行在Linux平台和Windows平台上,目前领导者是Philipp Koehn。Moses软件最初是在Linux系统上开发的,但它可实现跨平台运行。所以我们为了得到最大的兼容性,将操作系统选用Linux内核的Ubuntu12系统。如果要在Windows上安装,需要安装Windows下的Cygwin系统,并在Cygwin下进行编译即可获得Wiindows下可运行的软件。
  5.1 语料的准备
  双料语料库在建立翻译平台时使用,库中文本必须是蒙文与英文对齐的句子。
  此处我们将利用前面准备好的英蒙对齐语料库。虽然语料库已经录入完成,但是为了适用于Moses软件,我们还需要对这个语料库进行相应的整理,具体整理过程为:
  a)标记化:此步骤的功能是为词和符号之间添加空格。虽然英文的标点符号很容易被判断,但是蒙文的标点符号较难判断,因为库函数中均不存在标点符号判断的函数,所以在开发标记化工具时需要对蒙文进行特殊处理,通过内码一个字一个字地判断其是否为标点符號,是否需要增加空格等。
  b)大小字母的统一化:此步骤主要针对的是英文,因为蒙文没有大小写之分。大小写统一化的目的是降低数据稀疏,以便从较小的数据中获得更多的对齐短语等
  c)清理数据:较长的句子和空的句子将被删掉,因为它们在语料训练中导致程序错误,另外将非对齐的句子也被删掉。
  5.2 训练语言模型
  语言模型是用于较流畅地输出,所以要建立在目标语言上,此处为蒙古文。我们使用IRSTLM建立语言模型。但是由IRSTLM是面向大语种,或者可以说是研宄者或使用较多的语种的,但是由于使用传统蒙古文的人较少,而且语料也较难获得,所以此软件中并没有对传统蒙古文进行优化,所以我们需要对此软件进行一定的修改,从而使语言模型的建立更为优化。
  5.3 训练翻译模型
  翻译系统的最核心工程是进行翻译模型的训练。翻译模型必要通过“词对齐”词组抽取及评价” “创建词汇化的重新排序表”和“建立Moses的配置文件”等过程后才能够达到正常使用的程度。虽然这些过程比较多,但是我们可以通过GIZA++一步完成所有过程。
  6 结论
  (1)为蒙古语授课小学生改进学习外语习惯起到辅助作用。
  (2)本翻译系统实现了在线翻译,所以丰富了蒙古语授课学生学习外语的网络资源。因为关于蒙古语授课学生学习方面的网络资源很少,尤其是外语方面的。
  由于本人的理论水平有限,实践经验的不足,以及受研发时间的限制,本翻译系统有待于补存与完善。本人将在以后的工作与学习中从以下几点继续迸行探讨与研究:
  (1)语料库的局限性:语料库的规模小。只可满足小学三年级学生的学习范围,且对于基于统计规则的翻译模型而言,语料的规模会影响系统的翻译质量。所以扩大语料库是一项长期而基础的工作,应将语料库完善至可满足小学其他年级、中学各年级、以至于到大学。
  (2)软件功能的局限性:翻译系统实现了核心功能,即在线翻译。在此基础上软件应增加以下提高学习质量与兴趣的功能,如语音功能、游戏功能等,语音功能可使系统发出标准的读音(包括蒙古语与英语),而增设一些猜字词的小游戏可提高学生的学习兴趣。
  参考文献
  [1] 敖其尔,从英文到蒙文的机器翻译.内蒙古大学学报(哲学版),1988,第三期:39-50.
  [2] 王斯日古楞.基于混合策略的汉蒙机器翻译及相关技术研究[D].呼和浩特:内蒙古大学(博士学位),2009.
其他文献
目的:子宫内膜异位症(内异症,Endometriosis)是一种常见的具有雌激素依赖性的慢性妇科病及难治病。其主要临床特征是盆腔包块、痛经为典型特点的慢性盆腔痛和不孕等,并具有类似恶
摘 要:本文针对当前中学数学的教学现状进行了分析,同时对当前老师必须进行教学改革的必要性做了说明。在当前形势下,本文并给出了中学数学教学模式和方法改革的系列措施。  关键词:中学数学; 教学模式; 方法改革  数学作为中学专业的一门基础课程,对学生后继课程的学习和思维能力的培养有着重要的作用。随着经济技术和社会的发展,对学生的人才培养工作提出了许多新的、更高的要求。同时,随着教育改革的不断深化,各
摘 要:在林业资源可持续发展过程中,林业资源保护与管理非常重要,不管是自然气候改善,还是社会经济发展,都会受到林业资源的影响。为了促进林业资源的可持续发展,必须要强化森林资源保护与管理力度,更好的落实国家基本政策,如此才能够真正发挥出森林资源的作用,为人类社会做出更好的奉献。  关键词:可持续发展;森林资源;保护;管理  引言  随着全球一体化趋势的加剧,各行各业得到了迅速的发展,产业信息也实现了
摘 要:烟草设备逐渐发展的越来越自动化和大型化,这也就导致烟草设备的运行机理也变得越来越复杂,容易在设备运行过程中产生各种各样的故障和问题,影响烟草生产质量,对烟草生产企业带来巨大的经济损失。本文主要分析了目前在烟草设备运行过程中常见的电气控制问题,并针对性分析了优化措施。  关键词:烟草设备;电气控制;常见问题及对策;  在烟草生产过程中应用的生产设备技术含量非常高,为了能够为吸烟人群以及非吸烟
摘 要:在林业资源管理过程中,要重视管理工作的实践开展,要积极分析如何解决林业资源管理过程存在的问题,以此才能實现科学化管理,为日后林业可持续发展提供有效保证。本文基于有效工作实践,对其进行了具体研究,希望分析能够提高认识,从而实现林业资源管理有效性。为人们提供健康的居住环境同时,也进一步提升人们生活质量。  关键词:林业资源管理;问题;对策  引言  随着林业资源管理工作的有效开展,在实际管理工
摘 要:社会发展,森林资源的重要性也更加凸显。国民经济与人类生活也愈发离不开森林资源,基于此,强化营林工作与生態的结合,成为了林业发展的关键,也是林业资源管理的重要内容。林业发展作为国家可持续发展策略中不可忽视的一部分,强化营林工作与生态的结合,如此才能够更好的促进人类社会发展,获得生态效益的同时,又能够造福人类。  关键词:营林工作;生态环境;措施  引言  现阶段,森林资源对人类的生活和发展起
摘 要:我国烟草生产行业的快速发展,使得烟草的生产质量和效率成为社会关注的重点。烟草生产中实現了电气自动化,专门在电气自动化控制系统中应用智能化技术,确定电气自动化控制系统在卷烟厂生产中具有智能化的特点,可以提高电气自动化系统在烟草生产中的控制能力。由此,本文主要以卷烟厂为研究对象,探讨自动化控制系统中智能化技术的几点应用。  关键词:卷烟厂;电气自动化;智能化技术  在卷烟厂运营中,专门推进智能
摘 要: 目前,一定意义上全球的经济发展已经进入了全新形势,世界范围内的国际贸易活动日渐冲击者规模的高点,企业、地区和各国进入世纪贸易市场,积极参与博弈,尝试得到更多利益。基于此,分析新形势下国际经济与贸易发展趋势意义重大。因此,从这一内容着手,分析出其具有七大发展趋势,并提出了相应应对策略。  关键词: 国际经济与贸易;发展趋势;应对策略  当前,国际贸易在国际经济一体化背景下,实现相应的发展。
现代航空事业发达,每天均有大量航班处于工作状态,需要通过有效的监控了解其工作态势,进行必要的地空通信。基于此,本文以1090ES数据链通信模式的优势作为切入点,对ADS—B技术下UA
摘 要: 本文通过统计近几年教育技术学专业毕业生就业数据,调查分析在校生的就业意向着手,总结在校生与毕业生就业情况的差距,使在校生以了解现实,恰当调整自我学习的计划,做好就业的准备。在此深入探讨了就业的问题,分析造成就业问题的原因。针对学生存在的具体问题提出相对应的就业指导策略。以供老师与学生的借鉴,高校提出人才培养方向改革,以应用型、复合型人才作为人才培养目标;引导学生转变就业观念、树立正确的择