浅析机器翻译瓶颈及研发趋势

来源 :新教育论坛 | 被引量 : 0次 | 上传用户:very_god
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
  机器翻译(Machine Translation)是翻译人员利用多种计算机翻译软件,将源语言(Source Language)文件,转换成另外一种目标语(Target Language)或者多种目标语言,翻译人员借助计算机器翻译一直是人工智慧领域中的重要研发方向。机器翻译进行翻译时涉及到自然语言(Natural Language,如中文、英文等)的加工合成,几乎已经覆盖自然语言处理的所有技术,并且有较为明确具体检测手段,可以当做自然语言处理技术的研发项目。不可避免的一个重要问题就是机器翻译若要占领翻译市场,就必须要面对来自人工翻译者的挑战。按照机器翻译的流程,翻译成品要译者人工润色和审核,这部分的人力成本将会占实际运作成本的大部分。也就意味着能够节省的时间必须多到一定程度,机器翻译才能达到实用化的阶段。在理想情况下,人工润色尽量无须参照原文,直接进行修饰即可。
  机器翻译总体上可以分为直接式(Direct)、转换式(Transfer)及中介语(Interlingua)三大类,实操一般都是采用转换式。转换式机器翻译流程大致可分为三个阶段:分析、转换和生成。自然语言处理最大的难处,在于自然语言本身复杂更新较快,而且例外繁多。因此机器翻译所面对的主要问题,可以归纳为两大项:(1)文句中歧义(Ambiguity);(2)语法不合设定(Ill-formedness)现象。自然语言的语法和语意中需通过上下文线索加以判断。以下是两类问题:
  问题一,歧义。就是一个句子有多种解释。我们日常生活中不知不觉地充满了歧义句。虽然人们可以根据常识正确判断句意,但是对于依照文字规则来理解句子的计算机翻译软件来说,这就是一个歧义句。在做句子分析时,几乎在每一个环节(如断词、句法分析、语意分析等)都可能出现歧义。单个字或者词的解释往往会因前后的内容产生不同的意思。除此之外,判断句义依靠的线索在不同范围。因此在机器翻译过程中,若采用线性流水式的处理程序(Pipelined Architecture),则前面的模块则无法做出确定性的(Deterministic)判断,而须尽量多地保留候选者,而让后面的模块进行处理。所以,最终判断的时机应尽量延后,在累积足够信息后,再选择要使用的方法。这样才不会在开始就把正确的译法排除到考虑范围之外。
  问题二,所谓的语法,是语言学家,依靠目前拥有的大量语料,归纳总结出的一些规则。这些规则是不完整的,往往有许多的例外。而且语言是一直在变迁的,无法要求语言的使用者,每字每句都合乎这些人为加工订定的文法,自然地也难以避免这样的情况出现在翻译稿件中。这些与设定语法的例子不符的地方包括不明的字汇,如新生的专有名词,和旧字新法的。这些现在部分来自单纯的疏失,例如错字、漏字、赘字、转档或传输时产生的乱码,或是不慎混入的标签(tag),也有些是已被大众所接受的字汇和语法。理想化的机器翻译,必须能够处理这些与设定语法不符的问题。
  如何解决上述的歧义或语法问题,则需要大量知识。这些大量知识的管理,分类,储存和应用,是建立机器翻译时最大重点和难点。我们首先要将这些包含在语言学之内(intra-linguistic)、跨语言学的(inter-linguistic),以及超乎语言学之外(extra-linguistic)的知识抽取、表达出来,解释上述的语法和歧义问题,而且还要维护这个庞大的知识库。所以,我们要建立的知识库必须包罗万象,吸收涵盖各领域、各层面的知识。它本身就是一项艰难复杂的工作。也就是说知识库的建设维护是机器翻译系统开发最大的瓶颈。
  一般来说知识的取得,和我们表现知识的方式有着紧密的联系。知识表现方式可以有很多不同的存在形式。其一就是加入知识库的规则,规则系统是由事先以人力建立好的大量规则所构成。在进行机器翻译时,翻译软件根据这些规则,进行二择判断,进行分析、转换和生成步骤,最后给出明确答案。这种方法被机器翻译广泛采用。它的优点在于贴近人的直觉,容易理解,遵循已有的语言学知识和规则,充分利用已有的经验和研究结果。逐渐使其参数化,不同的语言现象用几率扫描进行描述,积累量足够大时,语言模型就自然建立起来。其最大的优点在于通过参数,让计算机翻译软件在不同的条件下根据不同的偏好进行解释和加工,依靠参数估算任務给计算机翻译软件进行。
  机器翻译的未来,研发高品质的翻译系统,需要的知识库是巨大并且琐碎的。对于知识的获取和管理,是机器翻译系统研发的瓶颈。近些年来,机器翻译系统的研发,已经渐渐地由规则库的方式转变成为参数化方式,并且其优越性已经得到了证明,也逐渐成为了主流。随着计算机行业的发展,计算机硬件性能的大幅提升,机器翻译软件已经突破了计算能力和记忆容量的限制。与此同时,人们生活和语言的发展使得语料库的规模也在爆炸似的增长,由译者来制定和模拟模型,利用计算机的处理优势进行语料库的加工,可以大大提高计算机学习效率,降低知识获取和管理的难度。这也是对机器翻译研发瓶颈的突破。放眼未来,如果能构建精准的模型,提高语言融合的锲合度,利用合适的规则抽取语料库中相关的知识,可以在专业特种行业领域发挥巨大的作用,提供高品质的翻译。如此一来,机器翻译最终可以拥有广泛的实用化领域和空间,也必将占有相当大的翻译市场份额。
  作者简介:安宁(1980.01-),男,汉族,吉林长春人,吉林建筑大学国际合作与交流硕士,讲师,从事外国语言文学,机器翻译研究。
其他文献
音乐是人类对现实生活中某种主观反映,是具有这方面知识才能的人们,把从现实生活中得到的个人看法、态度,加以高度概括,再以音响为原料加以表现的结果,音乐艺术的本质是追求真善美,它以其美妙的旋律,影响着人们的生活、学习、工作、休闲、娱乐。认识和理解音乐艺术的特征和它所要表述说明的主要问题,有利于我们掌握和利用音乐所固有的、客观的艺术规律,加以发挥、发扬,使之得以健康、快速发展。音乐艺术对社会的作用是巨大
期刊
转眼间已经从教快七年了,每每看到微信里学生发的朋友圈状态时,都免不了要耿耿于怀很久。都说老师的职责是教书育人,而我的追求是亦师亦友。我是一个感性的人,这就决定了我在对待学生时,不可能是得过且过的态度,也正是因为这样,才让我和学生之间建立了特殊的友谊。  故事一:我也曾青春过  成同学是我所带的第一届学生,虽然我只给他代过一年英语课,但我们却成为了很好的“朋友”。记得有一次,当时正在读理补的他来找我
期刊
摘要:随着我国社会经济的不断发展和进步,如今各行各业的运作模式与过去相比也都有了非常大的变化,其中的陶瓷手绘技法也不例外。可以看到,现代陶瓷手绘中的“新彩”技法是最具有代表性的,其是以传统陶瓷绘画来作为基础,其中不仅包含有传统国画中的工笔法、没骨法等,还容纳了西方绘画的技巧,这也是陶瓷手绘技法的创新之处。本文主要针对陶瓷手绘技法来展开分析,然后结合各方面因素来提出相应的解决对策,希望能够为我国陶瓷
期刊
岁月匆匆,生命的年轮又烙下了深深的印记。青春已逝,盛年不再,年近五旬,在三尺讲台已度过了将近30个年头。我的2018年,几多风雨几多愁?这一年中,我哭过,笑过,伤心过,幸福过,滴落过泪水,灿烂过笑容。往事一幕幕涌上心头……  当我左脚根骨骨折手术后躺在病床上痛苦難过之际。孩子们,你们悄悄地来到我的病房中,挤满了病房,你们的出现是老师心灵上最大的慰藉。你们的手中,有的捧着红彤彤的苹果,有的提着紫莹莹
期刊
摘要:古筝,一件从未被文人雅士所重视的乐器,一直广受平民百姓的爱戴,在历史上遗留过许许多多痕迹。无论在历史典籍里,文人的诗词里,在民间以及宫廷的画图里,或是在贵族皇室的墓葬里,都可以见证这件乐器的变化发展。时至今日,古筝虽然历尽无数变迁,它在民间的遍及性正逐渐提高。近年,学习古筝的数目几乎可与学习钢琴和小提琴的人数相提并论。古筝艺术从原先的风毛麟角走向了可喜的普及,又从普及走向可贺的提高,如今又逐
期刊
摘要:语文学科在我国教育体制中历来占据较为重要的地位。小学语文是培养学生语文基础,提升学生语文素养的重要时期,小学语文阅读教学有利于培养学生的文学素养、帮助学生开阔眼界。但是很多小学生在语文学习过程中,对阅读学习兴趣不足,而且小学生的词汇积累量也不足,很容易在阅读理解中遇到困难……基于此,小学语文教师需要结合学生的实际学习需求选择合适的教学方法,逐步小学语文阅读教学质量,为小学生的阅读理解能力培养
期刊
古往今来,有种职业叫做医生。这种职业,古代叫大夫,现在叫医生。有些人觉这种职业无非就是治病救人的,无论大病还是小病,都是一样。可是------现实却不是这样,而是冷酷无情的。大家都知道,治病救人是医生的天职,可是医生也是人,不是神。  医德,或许大家都应该知道其中的意思,从字面意思来看,医就是医生,德就是道德。意思就是道德的。但是,真的是这样吗,显然不是,而又显然是。但我认为,医德是调整医务人员与
期刊
伯宇(其中一章)  宇宙,是一个巨大的词语,大到无法想象,许多东西都不被我们认知,于是我们猜想,猜想宇宙以外的宇宙,比微小还要微小的微小,以下是对一些现象的看法與猜想。 若与其他理论相撞,请谅(不介意擦出火花),若猜想有误,请谅,鄙人词穷才浅,若词不达意,请谅。  概念  我认为,在原子核与其电子之间(它不止存在于原子核与其电子之间),有一种物质,并且这种物质提现原子的内能,以及物质的状态。换言之
期刊
摘要:想要展现出一段优秀的舞蹈作品,就需要舞蹈表演者对文化以及技术做好深入的了解,利用舞蹈动作的眼神和表达的情感以及舞者全神贯注的表演,这样才会更专业更优秀的将人文精神以及文化的内涵给表达出来,让舞蹈不仅可以具备欣赏的价值,同时也可以提升舞蹈的真实意境,以及舞蹈的真正所包含的内容,以此来体现出舞蹈作品的哲理性,利用不同的舞蹈来表达普遍性,运用舞蹈来表达出情感与景物相互融合在一起的一种自然美。  关
期刊
摘要:民事诉讼中禁止重复起诉是诉讼系属中的其中一个关键性效果,就是说当事人不能够对已经起诉过的案件,就同一个诉讼标的向法院提起二次诉讼。一直以来在民事诉讼法学界,关于禁止重复起诉具有很大的争议,主要原因在于禁止重复起诉的问题关系到现代民事诉讼法学理论中非常多的核心观念,包括诉讼标、既判力等内容。但是民事诉讼法这一方面的研究在我国缺乏深刻性和系统性,这些年虽然在不断地完善,相关的研究分析仍旧在深入。
期刊