论文部分内容阅读
摘要:历经多年的发展,计算机翻译技术日趋成熟,大幅提高了翻译效率,降低了翻译成本,为促进中国与世界各国的交流与合作发挥了重要作用。本文对计算机翻译的发展历程进行了论述,从应用的角度比较了机器翻译与计算机辅助翻译的异同,并对两者未来的发展趋势进行了展望。
关键词:机器翻译;计算机辅助翻译;MT;CAT
中图分类号:H059 文献标识码:A
文章编号:1009-3044(2020)13-0212-02
1引言
社会对翻译需求的急剧增长促进了翻译事业的蓬勃发展,尤其1946年电子计算机诞生之后,结合互联网、大数据、人工智能的计算机翻译技术应运而生,在日常生活中发挥了越来越重要的作用。
2计算机翻译技术的发展历程
从时间历程划分,计算机翻译技术大致经历了初创期、停滞期、复苏期和发展期。
2.1初创期(1947-1964)
1949年,美国科学家WarrenWeaver正式提出机器翻译的设想。1954年,美国Georgetown大学与IBM公司合作,用IBM-701型计算机实现了首次英俄机器翻译试验。1956年,中国将计算机翻译技术纳入了全国科学工作发展规划,课题名称为“机器翻译、自然语言翻译规则的建设和自然语言的数学理论”。1957年,中国科学院语言研究所与计算机技术研究所联合开展了俄汉机器翻译试验。同期,欧洲各国也高度重视机器翻译的研究。
2.2停滞期(1965-1974)
限于当时计算机的硬件水平,最初的机器翻译只能采用直译法,不能对源语言的结构进行深度分析处理,译文质量远低于人工翻译。1964年,美国的语言自动处理咨询委员会(AL-PAC)对过去十余年间美国重金资助的机器翻译项目进行了整体评估。1966年11月,该委员会发布了题为《语言与机器:翻译和语言学视角下的计算机》的报告,对机器翻译基本持否定的态度,认为在可预期的将来,机器翻译不可能达到与人工翻译相媲美的目标。该报告严重影响了机器翻译的研究。
2.3复苏期(1975-1989)
隨着计算机和语言学的发展以及社会信息服务需求的提升,机器翻译的研究迎来了复苏,许多国家相继投入巨额资金开发机器翻译系统。欧共体的EURORA计划和DLT系统,日本的Mu系统和ODA计划,以及美国的CMU机器翻译项目都是这一时期具有代表性的项目。20世纪70年代中后期,中国的机器翻译研究也从停滞走向了复苏,部分项目列入“六五”“七五”以及“863”等重大课题。军事科学院研制的“KY-1”英汉机译系统和中科院计算所研制的“863-IMT”英汉机译系统成为中国机器翻译历史上具有里程碑意义的系统。
2.4发展期(1990-t今)
全球化趋势对翻译的巨大需求以及Internet的普及应用,推动了机器翻译研究进入新的发展阶段。1990年,芬兰赫尔辛基第13届国际计算语言学大会提出了处理大规模文本的任务。1993年,IBM的DellaPietra等人提出的基于词对齐的翻译模型,标志着现代统计机器翻译方法的诞生。在统计机器翻译的基础上,神经网络机器翻译模型的应用,大幅提升了机器翻译的质量。同期,中国在机翻领域也取得了前所未有的成绩,相继推出了百度、有道、译星、雅信、通译等机器翻译系统。
3计算机翻译的类型和特点
计算机翻译从应用角度上可分为机器翻译和计算机辅助翻译。
3.1机器翻译(MT)
机器翻译(machinetranslation,MT),又称机译,是利用计算机将一种自然语言文本(源语言)自动转换为另一种自然语言文本(目标语言)的过程。从语言学角度来讲,机器翻译就是自然语言处理技术的开发应用,其原理是利用计算机按照特定的规则把一种自然语言自动转换为另一种目标自然语言。从最早的词典匹配,到词典结合语言学规则的翻译,再到基于语料库的统计学机器翻译,随着计算机软硬件水平的飞速提升,机器翻译技术也日趋成熟,能够为普通用户提供实时、便捷的翻译服务。目前的常见的网络在线翻译系统,如谷歌翻译、百度翻译、有道翻译、腾讯翻译等均属于机器翻译的范畴。
3.2计算机辅助翻译(CAT)
计算机辅助翻译(computer aided translation,CAl’)的工作原理:TM(翻译记忆) MT(机器翻译) HT(人工翻译/校对)。它的核心技术是翻译记忆(Translation Memory)和术语库(Terminol-ogy Database)。简单来说,系统会根据相应规则,将原文划分为单独的句子或段落,并分解成词或词组,再根据系统附带的术语库或用户自行建立的语料库,输出相应的翻译结果。此外,系统还会自动检索翻译记忆库中与之相同或类似的翻译资源,给出参考译文供译者借鉴。目前常见的CAT软件有SDL Tra-dos、Smartcat、YiCAT、iCAT、Transmate、Wordfast等。
4计算机辅助翻译的发展趋势
20世纪50年代到20世纪80年代之间,基于规则的机器翻译(RBMT)占据了主流。这种翻译方法通过研究源语言和目标语言之间的语言学信息,基于词典和语法生成翻译结果。20世纪80年代,随着统计学的发展,统计机器翻译(SMT)应运而生。这种方法将统计模型应用到机器翻译之中,基于对双语语料库的分析生成翻译结果。SMT的效果要优于RBMT。
1997年,Ramon Neco和Mikel Forcada提出了使用编码器一解码器结构做机器翻译的构想。2003年,蒙特利尔大学Yosh-uaBengio的研究团队开发出了一个基于神经网络的语言模型,并改善了SMT模型存在的数据稀疏性问题。他们的研究为神经网络机器翻译奠定了基础。2013年,Nal Kalchbrenner和PhilBlunsom开发出了一种新型端到端编码器一解码器结构模型。他们的研究成果意味着神经网络机器翻译(Neural MachineTranslation。NMT)的诞生。
NMT最初的表现并不好。2014年,Yoshua Bengio的团队为NMT引人了attention机制后,NMT的表现显著提升。在2015年的Workshop 0n Statistical Machine Translation(WMT)比赛上,蒙特利尔大学的团队使用NMT方法赢得了英语一德语翻译的第一名。2016年9月,谷歌大脑团队宣布在谷歌翻译产品的汉语一英语语言上使用NMT替代基于短语的机器翻译。2017年,Facebook人工智能研究院(FAIR)就宣布了他们使用CNN实现NMT方法,其可以实现与基于RNN的NMT近似的表现水平,但速度却快9倍。亚马孙、微软、IBM、英伟达和SYSTRAN等科技巨头也都参与了NMT的开发。在中国,百度、有道、腾讯、搜狗、讯飞、阿里巴巴等公司甚至已经部署了NMT。在最近的ACL 2017会议上,机器翻译类接收到的论文全都与神经网络机器翻译有关。2019年3月,云从科技和上海交通大学联合宣布,计算机算法在自然语言处理(NLP)上取得重大突破,在大型深层阅读理解任务RACE数据集登顶第一,并成为世界首个超过人类排名的模型。随着算法的改进,NMT必将持续突破并取代SMT成为主流的机器翻译技术。
5结语
经过多年的发展,计算机翻译技术取得了长足的进步,极大地提高了翻译质量和效率,降低了翻译成本,促进了国际间交流与合作。对机器翻译发展历程和趋势的探讨,能为翻译工作者瞄准学科前沿,建立传统与科技相融合,知识创新与技术创新相并行的翻译研究新局面提供有价值的参考。
关键词:机器翻译;计算机辅助翻译;MT;CAT
中图分类号:H059 文献标识码:A
文章编号:1009-3044(2020)13-0212-02
1引言
社会对翻译需求的急剧增长促进了翻译事业的蓬勃发展,尤其1946年电子计算机诞生之后,结合互联网、大数据、人工智能的计算机翻译技术应运而生,在日常生活中发挥了越来越重要的作用。
2计算机翻译技术的发展历程
从时间历程划分,计算机翻译技术大致经历了初创期、停滞期、复苏期和发展期。
2.1初创期(1947-1964)
1949年,美国科学家WarrenWeaver正式提出机器翻译的设想。1954年,美国Georgetown大学与IBM公司合作,用IBM-701型计算机实现了首次英俄机器翻译试验。1956年,中国将计算机翻译技术纳入了全国科学工作发展规划,课题名称为“机器翻译、自然语言翻译规则的建设和自然语言的数学理论”。1957年,中国科学院语言研究所与计算机技术研究所联合开展了俄汉机器翻译试验。同期,欧洲各国也高度重视机器翻译的研究。
2.2停滞期(1965-1974)
限于当时计算机的硬件水平,最初的机器翻译只能采用直译法,不能对源语言的结构进行深度分析处理,译文质量远低于人工翻译。1964年,美国的语言自动处理咨询委员会(AL-PAC)对过去十余年间美国重金资助的机器翻译项目进行了整体评估。1966年11月,该委员会发布了题为《语言与机器:翻译和语言学视角下的计算机》的报告,对机器翻译基本持否定的态度,认为在可预期的将来,机器翻译不可能达到与人工翻译相媲美的目标。该报告严重影响了机器翻译的研究。
2.3复苏期(1975-1989)
隨着计算机和语言学的发展以及社会信息服务需求的提升,机器翻译的研究迎来了复苏,许多国家相继投入巨额资金开发机器翻译系统。欧共体的EURORA计划和DLT系统,日本的Mu系统和ODA计划,以及美国的CMU机器翻译项目都是这一时期具有代表性的项目。20世纪70年代中后期,中国的机器翻译研究也从停滞走向了复苏,部分项目列入“六五”“七五”以及“863”等重大课题。军事科学院研制的“KY-1”英汉机译系统和中科院计算所研制的“863-IMT”英汉机译系统成为中国机器翻译历史上具有里程碑意义的系统。
2.4发展期(1990-t今)
全球化趋势对翻译的巨大需求以及Internet的普及应用,推动了机器翻译研究进入新的发展阶段。1990年,芬兰赫尔辛基第13届国际计算语言学大会提出了处理大规模文本的任务。1993年,IBM的DellaPietra等人提出的基于词对齐的翻译模型,标志着现代统计机器翻译方法的诞生。在统计机器翻译的基础上,神经网络机器翻译模型的应用,大幅提升了机器翻译的质量。同期,中国在机翻领域也取得了前所未有的成绩,相继推出了百度、有道、译星、雅信、通译等机器翻译系统。
3计算机翻译的类型和特点
计算机翻译从应用角度上可分为机器翻译和计算机辅助翻译。
3.1机器翻译(MT)
机器翻译(machinetranslation,MT),又称机译,是利用计算机将一种自然语言文本(源语言)自动转换为另一种自然语言文本(目标语言)的过程。从语言学角度来讲,机器翻译就是自然语言处理技术的开发应用,其原理是利用计算机按照特定的规则把一种自然语言自动转换为另一种目标自然语言。从最早的词典匹配,到词典结合语言学规则的翻译,再到基于语料库的统计学机器翻译,随着计算机软硬件水平的飞速提升,机器翻译技术也日趋成熟,能够为普通用户提供实时、便捷的翻译服务。目前的常见的网络在线翻译系统,如谷歌翻译、百度翻译、有道翻译、腾讯翻译等均属于机器翻译的范畴。
3.2计算机辅助翻译(CAT)
计算机辅助翻译(computer aided translation,CAl’)的工作原理:TM(翻译记忆) MT(机器翻译) HT(人工翻译/校对)。它的核心技术是翻译记忆(Translation Memory)和术语库(Terminol-ogy Database)。简单来说,系统会根据相应规则,将原文划分为单独的句子或段落,并分解成词或词组,再根据系统附带的术语库或用户自行建立的语料库,输出相应的翻译结果。此外,系统还会自动检索翻译记忆库中与之相同或类似的翻译资源,给出参考译文供译者借鉴。目前常见的CAT软件有SDL Tra-dos、Smartcat、YiCAT、iCAT、Transmate、Wordfast等。
4计算机辅助翻译的发展趋势
20世纪50年代到20世纪80年代之间,基于规则的机器翻译(RBMT)占据了主流。这种翻译方法通过研究源语言和目标语言之间的语言学信息,基于词典和语法生成翻译结果。20世纪80年代,随着统计学的发展,统计机器翻译(SMT)应运而生。这种方法将统计模型应用到机器翻译之中,基于对双语语料库的分析生成翻译结果。SMT的效果要优于RBMT。
1997年,Ramon Neco和Mikel Forcada提出了使用编码器一解码器结构做机器翻译的构想。2003年,蒙特利尔大学Yosh-uaBengio的研究团队开发出了一个基于神经网络的语言模型,并改善了SMT模型存在的数据稀疏性问题。他们的研究为神经网络机器翻译奠定了基础。2013年,Nal Kalchbrenner和PhilBlunsom开发出了一种新型端到端编码器一解码器结构模型。他们的研究成果意味着神经网络机器翻译(Neural MachineTranslation。NMT)的诞生。
NMT最初的表现并不好。2014年,Yoshua Bengio的团队为NMT引人了attention机制后,NMT的表现显著提升。在2015年的Workshop 0n Statistical Machine Translation(WMT)比赛上,蒙特利尔大学的团队使用NMT方法赢得了英语一德语翻译的第一名。2016年9月,谷歌大脑团队宣布在谷歌翻译产品的汉语一英语语言上使用NMT替代基于短语的机器翻译。2017年,Facebook人工智能研究院(FAIR)就宣布了他们使用CNN实现NMT方法,其可以实现与基于RNN的NMT近似的表现水平,但速度却快9倍。亚马孙、微软、IBM、英伟达和SYSTRAN等科技巨头也都参与了NMT的开发。在中国,百度、有道、腾讯、搜狗、讯飞、阿里巴巴等公司甚至已经部署了NMT。在最近的ACL 2017会议上,机器翻译类接收到的论文全都与神经网络机器翻译有关。2019年3月,云从科技和上海交通大学联合宣布,计算机算法在自然语言处理(NLP)上取得重大突破,在大型深层阅读理解任务RACE数据集登顶第一,并成为世界首个超过人类排名的模型。随着算法的改进,NMT必将持续突破并取代SMT成为主流的机器翻译技术。
5结语
经过多年的发展,计算机翻译技术取得了长足的进步,极大地提高了翻译质量和效率,降低了翻译成本,促进了国际间交流与合作。对机器翻译发展历程和趋势的探讨,能为翻译工作者瞄准学科前沿,建立传统与科技相融合,知识创新与技术创新相并行的翻译研究新局面提供有价值的参考。