论文部分内容阅读
摘 要: 在全球化时代,世界各国人民的沟通与交流日益频繁,翻译已经成为政治、经济、社会、文化等领域必不可少的一个重要环节。计算机在翻译过程中发挥着日益显著而且不容忽视的重要作用。本文探讨了译者应如何充分利用计算机和计算机辅助软件提高翻译效率,以便事半功倍的问题。
关键词: 计算机翻译 计算机辅助软件 翻译过程
1.引言
进入二十一世纪以来,国内外学者对翻译研究的热情与兴趣持续高涨。但是在翻译研究领域,计算机翻译已经有五十多年的历史,但令人遗憾的是国内学者对计算机翻译的兴趣并不高。在中国知网上输入以“计算机翻译”为关键词检索文章,系统返回的检索结果屈指可数。关于计算机翻译研究的文章,最早柯平(1995)介绍了欧美的翻译发展现状。随后张政(2003)主要探讨了计算机翻译到底应该称为机器翻译还是电子翻译等事宜。吕立松、穆雷(2007)以国内翻译市场为背景,分析了计算机辅助翻译技术与翻译教学的结合的发展前景。陈海东(2009)进行了计算机翻译存在的困难及解决方法新探。在此背景下,2012年上海外语教育出版社响应时代的需求,引进了《计算机与翻译:译者指南》一书。
哈罗德·索莫斯是英国曼彻斯特大学语言工程学教授,有超过25年的教学和研究经验。曾担任Machine Translation杂志的编辑,现仍然为该杂志的编委员会成员。他是计算机翻译领域的前沿领军人物,对计算机翻译有浓厚的兴趣、独到视野与见解。他编著了《计算机与翻译:译者指南》。“他山之石,可以攻玉”,在吸取国内学者的经验智慧时,不妨了解国外同行的相关研究动态,拓宽自己的研究视野。
从书名可见,本书内容是关于计算机与译者。但是这并非一部计算机科学的教科书,与翻译理论没有很大关系。实际上,本书的预定读者是译者和其他专业语言学家(包括作家、双语秘书、甚至外语教师),目的是举例说明计算机对他们的职业已经产生的和即将产生的影响。本书与计算机翻译与计算机辅助翻译相关,为译者提供好辅助的计算机资源,并讲述了翻译与计算机的过去、现在和未来。
关于计算机与翻译,本领域已经有不少阐述。很多人认为最为大家所熟悉的“机器翻译”有点误导性,但是好像没有更好的替代词。也许“翻译技术”或者“翻译软件”之类术语更容易帮助大家理解本话题,后者强调作者更重视计算机程序而不是计算机硬件等。如果用“译者”取代“翻译”,有助于让大家不仅关注翻译作为终端产品,更关注“翻译”是译者使用不同工具进行的一个过程,当然本书作者关注的是与计算机相关的翻译过程,旨在表明在全球化时代,计算机对译者有什么作用、能在何种程度上帮助译者、哪些是计算机无法胜任的任务,从而证明计算机不但不会对译者生活构成威胁,反而是能让译者工作更轻松更令人满意的一个重要工具。
1.1作者是谁
本书由学者(教师、语言学研究人员、特别是计算机语言学家、翻译理论家、软件公司的员工、译者)写成,他们对翻译与计算机的各个方面有浓厚的兴趣,而且在该领域有丰富的经验。他们致力于告诉读者有关计算机与翻译的真实故事,比如计算机比较擅长哪些任务、无法完成哪些任务。作者并非意在推销某种产品,而是想澄清在互联网译者论坛、畅销媒体、甚至关于翻译的书籍上看到的不实传闻和偏见。
1.2读者是谁
本书的读者是了解语言与翻译并对此有兴趣的人。也许是语言学家,也许只是一个热心人士,也许是关注计算机与翻译并对此有些怀疑的人。看到本书表明读者并不排除计算机在翻译过程能发挥重要作用的可能性,而且愿意接受新的观点。
可能读者并不是计算机爱好者,如果读者想了解字节与字符、集成内存、周边设备等,那么本书就不适合。也可能读者是普通的计算机用户,会用Word,会上网,大致了解软硬件之间的区别,了解Windows、桌面、文件与文件夹,偶尔使用电脑玩游戏,也会用一些程序。总之,这些都不是读者的专长。
但是,读者确实了解语言。作者不想告诉读者不同语言对不同事物有不同的表达方式,言语的意义与使用有不同之处等。但是,作者推测读者已经熟悉传统语法的术语(名词、动词、性别、时态等)。最重要的是。不需要提醒,翻译是一门艺术,不是科学,并不存在绝对正确的翻译,译者的译作经常被低估了。翻译是一种人工技能,不是机械的过程。读者也知道一些事实:几乎无人单纯以翻译文学作品和诗歌为谋生手段。翻译几乎是技术性的,而且这一行要求很高,有些常规性、基础性,甚至有些烦琐。无论如何,计算机对读者的工作有所帮助。
1.3本书的体例
作者期望本书能为读者开启兴趣之门。因此,本书以学术方法标注相关文献以支持本书的观点。在说明特定观点时,作者提供脚注以便有别于其他,以免引起混淆。在每一章后面,也会指引读者去查询进一步的资料来源。术语将以加粗字体显示,软件产品名称以斜体显示,以便从排版上与创造这些术语的公司名称有所区别。此外,作者经常会举例说明观点,遵循以下语言学规范:无论何种语言的例句均以斜体显示。意思的批注以单引号标注。较长的例句一般与正文分开,由括号加数字表示,比如(1)。外语例句同时有直译和意译。另外,用星号(*)表示句子或者短语不符合语法,问号(?)表示句子可疑,值得商榷。
2.历史回顾
多少年来机器翻译一直是人们梦寐以求的事情。机器翻译常常出现在科幻作品中(比如《星际迷航》中的万能解码器),而且机器翻译这个概念比计算机的发明还要早几百年。自从计算机发明以来,就有人暗示翻译可以用计算机完成。十七世纪的哲学家(比如Leibniz、Descartes和John Wilkins)建议可以以数字代码的形式创造世界性语言。
1933年,有关政府颁发了两个独立的“翻译机器”专利,一个发给法国人(Georges Arstrouni),另一个发给前苏联人(Petrovich Smirnov-Troyskii)。但是一般说来,机器翻译的历史可以追溯到二战后的某个时期。那时计算机开始用于破解密码。翻译的理念类似于当时的洛克菲勒基金会副总裁Warren Weaver提出的“计算”。1947至1949年之间,Weaver与美国国内外的同事研讨用新计算机翻译的可能性(当时称为电子大脑)。Weaver特意提到了翻译与解码术的关系,尽管早期大部分研究人员认为要把两者结合起来相当困难。 2.1早期研究
Weaver的观点引起了人们不同的反应。1951年,麻省理工大学决定授予Yehoshua Bar-Hillel全职研究员职务。一年后,麻省理工大学举办了计算机翻译会议,与会者有18位对计算机翻译感兴趣的人士。接下来10至15年里,计算机翻译研究团队在许多国家开展工作:美国、前苏联、英国和加拿大等。特别是在美国,计算机翻译研究团队不但得到政府大量经费资助,还可以利用军方和私人的资源。仅美国一个国家,至少投入了一千两百万美元甚至高达两千万美元用于计算机翻译研究。
1964年,美国政府决定核实经费使用情况,并成立自动语言处理咨询委员会(ALPAC)。1966年公布的报告对计算机翻译非常不利。以美国的俄英计算机翻译为焦点,该报告认为计算机翻译效率低下,准确率不高,比人工翻译贵一倍,因此需求量不大。该报告还指出:“计算机翻译没什么立即见效而且有用的可预测前景。”事实上,ALPAC报告提议开展计算语言学的基础性研究,暗示也许计算机辅助翻译更可行。该报告产生的负面影响由此可见,计算机翻译研究从此进入低谷期,不仅在美国,在其他国家也一样。
实际上,ALPAC报告不应是个意外。早期用计算机翻译的努力因技术问题而受阻,而且研究人员(主要是数学家和电子工程师而不是语言学家)低估了问题的难度。当时理论语言学(形式语言学)刚刚萌芽,乔姆斯基的颠覆性观点刚刚得到同行的认可。Bar-Hillel之类人士已经认识到计算机翻译的难度。Bar-Hillel曾写过一篇文章,谈到翻译的“语义障碍”,此观点比ALPAC的反思要早几年,有关全面研究计算机翻译的呼吁可以在二十世纪五十年代中晚期的各大出版物中找到。
2.2“白痴”以及其他传闻
在此期间,到处都是蹩脚的计算机翻译的传闻(有些传闻甚至是杜撰),各种版本甚嚣尘上。二十世纪五十年代晚期,在有关计算机翻译的文章中,有人说计算机翻译“Out of sight, out of mind”(眼不见心不烦)为俄语时,译为“blind idiot”(白痴)的意思。而且“The spirit is willing but the flesh is weak”(心有余而力不足)被误译为“The vodka is good but the meat is rotten”(酒不错但肉已经烂)。回顾这个时期的计算机翻译系统,作者很难想象怎么会产生这种误译。有评论家(包括本书作者)暗示,这类传闻讲的可能是那些不称职的人工翻译。
2.3第二代计算机翻译系统
二十世纪七十年代和二十世纪八十年代初期,计算机翻译研究在美俄以外的国家遍地开花:加拿大、西欧和日本,因为其政治文化需求也有很大不同。加拿大的双语政策促使蒙特利尔大学成立一个著名的研究团队。在欧洲,法、德、意都有计算机翻译研究团队,欧盟委员会决定在卢森堡试验Systran系统,具有重大意义(由于有私人经费赞助,Systran系统是经过ALPAC整顿后的一个美国计算机系统)。在日本,用计算机处理复杂的日语写作系统取得初步成功,这极大地鼓舞了大学和企业的研究团队关注日英翻译。
2.4实用的计算机翻译系统
到二十世纪八十年代中期,业界公认全自动高质量翻译各类文本是人类近期不可能实现的目标。计算机翻译的研究人员开始思考,能否找到研发可用而且有效的计算机翻译系统的方法。很多评论家开始区分用计算机翻译输入与用计算机翻译输出的差别。在计算机翻译输入中,用户是不熟悉外语书面文本的读者。在计算机翻译输出中,用户是准备用一种或者多种语言发表作品的作者。如果输入的文本有限,计算机翻译可能会有效,这种观点开始得到广泛传播。随着语言分支的发展,这种观点得到进一步发展。语言分支观认为,计算机翻译系统可以预设一些特定的应用程序,届时输入的语言将成为完整语言的一个部分,即“语言分支”(详见第15章)。这种研究方法在蒙特利尔大学研发得非常成功的METEO 系统里很常见。该系统能把英文的天气预报译为法文,而这种工作如果由人工翻译则会很枯燥。与语言分支密切相关的是使用控制语言,详见第14章的技术定制。
与全自动高质量翻译(FAHQT)难度相关的其他重大进展,是以译者工作站的形式提出了译者的计算机辅助工具这个概念(详见第2章)。随着小型便宜计算机硬件的出现,该观点得到进一步发展。由此,译者凭软件和其他计算机辅助设备的帮助完成翻译任务。翻译任务仍属于人类可控制范围。这些工具的完善程度有所不同:从(现在几乎无处不在的)具备拼写检查、同义词表(主题词表)功能的多语种文字处理、(单语和多语)在线词典及其他参考来源,到可为译者完成部分初稿翻译及后期校对的计算机辅助翻译系统。随着计算机日益完善,人们还研发了其他工具,比如很多读者将渐渐熟悉的著名翻译记忆工具。
2.5最新研究进展
进入二十世纪九十年代后直到现在,计算机翻译和计算机辅助翻译产品日益被语言学家及外行人所推广和使用,外行人用之于翻译邮件和网页。这正是本书后半部分研究的主题。同时,计算机翻译研究人员继续为自己定下远大目标。口语翻译(SLT)就是其中一个目标。口语翻译包括两个艰巨的计算任务:言语理解及翻译。第一个任务涉及从音效符号中提取可以理解为言语的相关声音(即,忽略背景噪音及其他非言语声音),准确识别个人言语声音(音符)及其中包含的词语,过滤其中无用的信息,比如犹豫、重复、错误的开始、不完整的句子等,以组成连贯的篇章信息。所有这一切均有待于翻译。此任务完全不同于翻译书面文本,因为通常最重要的是内容而不是传达信息的形式。而且,对实时处理的限制也会造成不容忽视的额外困难。在口语翻译的最新现状背景下,如果一个系统能够处理语言输入并在五秒内提供合理翻译(当然是以人工合成言语的形式),这就相当不错。
再看书面文本的计算机翻译,另一个关注点是其覆盖各种各样的语言。到目前为止,能够得到研发人员关注的主要是有商业价值的西欧和远东的主要语言。大家公认世界上至少上万种语言,至少应该为此研发相关的计算机翻译或者计算机辅助翻译软件。即使每种类似或者相关的语言可用来作参考起点,每种新语言都会带来很多巨大的问题。如果采用传统的语言学方法进行计算机翻译,那么必须先制定新语言的语法规则,新旧语言之间的迁移规则,其中最大的瓶颈是:必须为成千上万的词语制定词典的词条。即使计算机翻译系统使用的词典包含不同于传统词典的信息(形式不同),如果以机器可读的形式来提取相关信息,有时可以使用传统词典。另一种开始探索的方法是从大量的平行语料库中提取语言学信息,即收集文本和翻译,而且假设两边的语料库完全“匹配”。但是这类研究问题可能与本书的读者无关。在编辑本书时,作者偏向于关注务实可用的计算机翻译和计算机辅助翻译现状。 3.本书的概览
本书前七章探讨译者可用计算机做的各种用途,本书的后半部分则关注计算机翻译。第二章探讨了译者工作站理念的变迁和译者常用的一些计算机辅助工具。第三章专门关注其中一种工具:翻译记忆。第四章讨论术语在计算机辅助翻译运作中的特殊地位。译者经常需要查询技术词汇,以确保自己选用的术语准确无误。Lynne Bowker指出,计算机在这方面可以发挥相当重要的作用,因为术语库和其他术语来源以各种形式出现,可以使用,不仅有在线术语库,还有计算机可读取的词典和主题词表。
最近几年,出现了一种相对较新的翻译活动,美曰其名软件本土化。在计算机的早期研发阶段,大部分软件(和硬件)的制作都偏向(美国的)说英语用户。现在人们已经认识到,面向全球市场的产品,必须为全球市场的特定部分定制生产。软件本土化不但涉及翻译文件,包括在线帮助文件,还涉及定制软件本身,因为这包含语言。在第五章中,Bert Esselink从他的书中提炼出一个观点,以便为涉及的问题提供解决方案,并指出可以协助译者完成翻译任务的一些工具。
在当今以商业为主导的世界中,大部分翻译工作都与商业动机相关。因此,社会经济因素影响着计算机翻译和计算机辅助翻译系统的发展。由此,能得到开发商关注的主要是几种欧洲语言(英、法、德、意、萄、俄语)、日、中、韩和阿拉伯语。如果译者使用的工作语言是其他几千种小语种之一,那么只能自叹运气不佳。第六章探讨了计算机辅助翻译与小语种的关系。具有讽刺意味的是,在资源不足的语言清单中,居然包括几种占世界前二十名的常用语言(比如印地语、孟加拉语、马来语/印尼语、乌尔都语、旁遮普语、特拉古语、泰米尔语、马拉地语、粤语)。作者反思这些语种(其他小语种)的译者会有怎样的前景,以及什么样的计算机辅助工具和资源对他们有用。第七章探讨计算机在译者培训学术界中的地位。Sara Laviosa反思了计算机在翻译研究中的用途,具体来说,是应怎么样利用计算机语料库(收集翻译文本)研究翻译实践的趋势。
本书后半部分的章节密切关注计算机翻译。在第八章中,Doug Arnold剖析为何翻译对计算机而言很棘手。读者可以了解到对人类而言翻译哪些方面比较难。Doug Arnold指出,首先有些是语言理解问题。其次,有些是用外语表达译者的理解所造成的问题。这一切对计算机都造成了障碍。毕竟,计算机只是比较完善的算法机器。至少有些问题得归结于语言本身。在第九章里,Paul Bennett描述了语言学怎么样才能提供问题的解决方案。
第十、十一、十二章从商业角度探讨计算机翻译。在第十章里,John Hutchins(计算机翻译的历史学家和首席研究员),详细介绍了有商业价值的计算机翻译和计算机辅助翻译软件的最新发展状况。第十一章剖析了开发商的观点。Laurie Gerber曾是一位Systran的资深语言学家,Scott Bennett 是一位LOGOS研发团队的资深队员,他们一起见证了西门子公司Metal 计算机翻译系统成功下线的过程。在第十二章中,Jin Yang和Elke Lange报告了Systran错综复杂的试验过程。在试验过程中,他们的计算机翻译系统可以在万维网上免费获取。这次试验说明为什么研发公司乐让别人免费使用其产品,而且报告了密切监测网站、用户反馈及意见一段时间后得出的结果。
在第十三章,John White探讨如何评估计算机翻译,这对于想把计算机翻译或者计算机辅助翻译作为翻译需求解决方案的人来说很重要,无论他们是自由职业者、小型翻译公司还是大公司的翻译部门。关于评估内容、评估标准以及可避免的一些漏洞,White都提供了务实的历史性回顾。
接下来三章介绍了计算机翻译的一些实用方面。第十四、十五章分析充分利用计算机翻译的两大策略:控制语言法与语言分支法。Eric Myberg,Terako Miramura和Wolf Huijsen描述了控制语言,解释该理念背后的基本概念,以及在翻译中的运用。控制语言的一个重要特征是:要从待译文本作者那里得到文本主要读者的认可,克服因负面的先入之见而造成作者创造性的损失,从而导致控制语言不可避免的文本形式空缺。控制语言以预设和后设方式限制了待译文本的句法和词汇。语言分支法充分利用文本的文体和词汇中自然而然发生的限制及偏好。第十五章讲述了一个成功的语言分支计算机翻译系统的典型例子(以加拿大Meteo系统为例),并反思这到底是昙花一现的成功,还是这次试验成功为未来的计算机翻译指明了光明道路。
第十六章,Jeffrey Allen分析了如何修正计算机翻译输出的问题。一般称为后期编辑,以便区别于人工翻译常做的平行修改任务。Allen指出这两种任务之间的一些差别,提出相关策略与技巧,以便能更轻松有效地完成翻译任务。最后作者探讨了在翻译教学中如何使用计算机翻译和计算机辅助翻译,这对培训译者和一般的外语学生都有所启发。
参考文献:
[1]Harold Somers. Computers and Translation: A Translator’s Guide[M]. Shanghai Foreign Languages Education Press. 2012.
[2]陈海东. 计算机翻译存在的困难及解决方法新探[J]. 中国科技翻译,2009(16).
[3]吕立松,穆雷. 计算机辅助翻译技术与翻译教学[J]. 外语界,2007(3).
[4]柯平. 欧美的机器翻译[J]. 中国翻译,1995(2).
[5]张政. “机器翻译”、“计算机翻译”还是“电子翻译” [J]. 中国科技翻译,2003(2).
基金项目:本文是江西省高校人文社会科学研究规划项目(YY1507)和江西省社会科学规划课题(项目编号:15WX314)的前期阶段性成果。
关键词: 计算机翻译 计算机辅助软件 翻译过程
1.引言
进入二十一世纪以来,国内外学者对翻译研究的热情与兴趣持续高涨。但是在翻译研究领域,计算机翻译已经有五十多年的历史,但令人遗憾的是国内学者对计算机翻译的兴趣并不高。在中国知网上输入以“计算机翻译”为关键词检索文章,系统返回的检索结果屈指可数。关于计算机翻译研究的文章,最早柯平(1995)介绍了欧美的翻译发展现状。随后张政(2003)主要探讨了计算机翻译到底应该称为机器翻译还是电子翻译等事宜。吕立松、穆雷(2007)以国内翻译市场为背景,分析了计算机辅助翻译技术与翻译教学的结合的发展前景。陈海东(2009)进行了计算机翻译存在的困难及解决方法新探。在此背景下,2012年上海外语教育出版社响应时代的需求,引进了《计算机与翻译:译者指南》一书。
哈罗德·索莫斯是英国曼彻斯特大学语言工程学教授,有超过25年的教学和研究经验。曾担任Machine Translation杂志的编辑,现仍然为该杂志的编委员会成员。他是计算机翻译领域的前沿领军人物,对计算机翻译有浓厚的兴趣、独到视野与见解。他编著了《计算机与翻译:译者指南》。“他山之石,可以攻玉”,在吸取国内学者的经验智慧时,不妨了解国外同行的相关研究动态,拓宽自己的研究视野。
从书名可见,本书内容是关于计算机与译者。但是这并非一部计算机科学的教科书,与翻译理论没有很大关系。实际上,本书的预定读者是译者和其他专业语言学家(包括作家、双语秘书、甚至外语教师),目的是举例说明计算机对他们的职业已经产生的和即将产生的影响。本书与计算机翻译与计算机辅助翻译相关,为译者提供好辅助的计算机资源,并讲述了翻译与计算机的过去、现在和未来。
关于计算机与翻译,本领域已经有不少阐述。很多人认为最为大家所熟悉的“机器翻译”有点误导性,但是好像没有更好的替代词。也许“翻译技术”或者“翻译软件”之类术语更容易帮助大家理解本话题,后者强调作者更重视计算机程序而不是计算机硬件等。如果用“译者”取代“翻译”,有助于让大家不仅关注翻译作为终端产品,更关注“翻译”是译者使用不同工具进行的一个过程,当然本书作者关注的是与计算机相关的翻译过程,旨在表明在全球化时代,计算机对译者有什么作用、能在何种程度上帮助译者、哪些是计算机无法胜任的任务,从而证明计算机不但不会对译者生活构成威胁,反而是能让译者工作更轻松更令人满意的一个重要工具。
1.1作者是谁
本书由学者(教师、语言学研究人员、特别是计算机语言学家、翻译理论家、软件公司的员工、译者)写成,他们对翻译与计算机的各个方面有浓厚的兴趣,而且在该领域有丰富的经验。他们致力于告诉读者有关计算机与翻译的真实故事,比如计算机比较擅长哪些任务、无法完成哪些任务。作者并非意在推销某种产品,而是想澄清在互联网译者论坛、畅销媒体、甚至关于翻译的书籍上看到的不实传闻和偏见。
1.2读者是谁
本书的读者是了解语言与翻译并对此有兴趣的人。也许是语言学家,也许只是一个热心人士,也许是关注计算机与翻译并对此有些怀疑的人。看到本书表明读者并不排除计算机在翻译过程能发挥重要作用的可能性,而且愿意接受新的观点。
可能读者并不是计算机爱好者,如果读者想了解字节与字符、集成内存、周边设备等,那么本书就不适合。也可能读者是普通的计算机用户,会用Word,会上网,大致了解软硬件之间的区别,了解Windows、桌面、文件与文件夹,偶尔使用电脑玩游戏,也会用一些程序。总之,这些都不是读者的专长。
但是,读者确实了解语言。作者不想告诉读者不同语言对不同事物有不同的表达方式,言语的意义与使用有不同之处等。但是,作者推测读者已经熟悉传统语法的术语(名词、动词、性别、时态等)。最重要的是。不需要提醒,翻译是一门艺术,不是科学,并不存在绝对正确的翻译,译者的译作经常被低估了。翻译是一种人工技能,不是机械的过程。读者也知道一些事实:几乎无人单纯以翻译文学作品和诗歌为谋生手段。翻译几乎是技术性的,而且这一行要求很高,有些常规性、基础性,甚至有些烦琐。无论如何,计算机对读者的工作有所帮助。
1.3本书的体例
作者期望本书能为读者开启兴趣之门。因此,本书以学术方法标注相关文献以支持本书的观点。在说明特定观点时,作者提供脚注以便有别于其他,以免引起混淆。在每一章后面,也会指引读者去查询进一步的资料来源。术语将以加粗字体显示,软件产品名称以斜体显示,以便从排版上与创造这些术语的公司名称有所区别。此外,作者经常会举例说明观点,遵循以下语言学规范:无论何种语言的例句均以斜体显示。意思的批注以单引号标注。较长的例句一般与正文分开,由括号加数字表示,比如(1)。外语例句同时有直译和意译。另外,用星号(*)表示句子或者短语不符合语法,问号(?)表示句子可疑,值得商榷。
2.历史回顾
多少年来机器翻译一直是人们梦寐以求的事情。机器翻译常常出现在科幻作品中(比如《星际迷航》中的万能解码器),而且机器翻译这个概念比计算机的发明还要早几百年。自从计算机发明以来,就有人暗示翻译可以用计算机完成。十七世纪的哲学家(比如Leibniz、Descartes和John Wilkins)建议可以以数字代码的形式创造世界性语言。
1933年,有关政府颁发了两个独立的“翻译机器”专利,一个发给法国人(Georges Arstrouni),另一个发给前苏联人(Petrovich Smirnov-Troyskii)。但是一般说来,机器翻译的历史可以追溯到二战后的某个时期。那时计算机开始用于破解密码。翻译的理念类似于当时的洛克菲勒基金会副总裁Warren Weaver提出的“计算”。1947至1949年之间,Weaver与美国国内外的同事研讨用新计算机翻译的可能性(当时称为电子大脑)。Weaver特意提到了翻译与解码术的关系,尽管早期大部分研究人员认为要把两者结合起来相当困难。 2.1早期研究
Weaver的观点引起了人们不同的反应。1951年,麻省理工大学决定授予Yehoshua Bar-Hillel全职研究员职务。一年后,麻省理工大学举办了计算机翻译会议,与会者有18位对计算机翻译感兴趣的人士。接下来10至15年里,计算机翻译研究团队在许多国家开展工作:美国、前苏联、英国和加拿大等。特别是在美国,计算机翻译研究团队不但得到政府大量经费资助,还可以利用军方和私人的资源。仅美国一个国家,至少投入了一千两百万美元甚至高达两千万美元用于计算机翻译研究。
1964年,美国政府决定核实经费使用情况,并成立自动语言处理咨询委员会(ALPAC)。1966年公布的报告对计算机翻译非常不利。以美国的俄英计算机翻译为焦点,该报告认为计算机翻译效率低下,准确率不高,比人工翻译贵一倍,因此需求量不大。该报告还指出:“计算机翻译没什么立即见效而且有用的可预测前景。”事实上,ALPAC报告提议开展计算语言学的基础性研究,暗示也许计算机辅助翻译更可行。该报告产生的负面影响由此可见,计算机翻译研究从此进入低谷期,不仅在美国,在其他国家也一样。
实际上,ALPAC报告不应是个意外。早期用计算机翻译的努力因技术问题而受阻,而且研究人员(主要是数学家和电子工程师而不是语言学家)低估了问题的难度。当时理论语言学(形式语言学)刚刚萌芽,乔姆斯基的颠覆性观点刚刚得到同行的认可。Bar-Hillel之类人士已经认识到计算机翻译的难度。Bar-Hillel曾写过一篇文章,谈到翻译的“语义障碍”,此观点比ALPAC的反思要早几年,有关全面研究计算机翻译的呼吁可以在二十世纪五十年代中晚期的各大出版物中找到。
2.2“白痴”以及其他传闻
在此期间,到处都是蹩脚的计算机翻译的传闻(有些传闻甚至是杜撰),各种版本甚嚣尘上。二十世纪五十年代晚期,在有关计算机翻译的文章中,有人说计算机翻译“Out of sight, out of mind”(眼不见心不烦)为俄语时,译为“blind idiot”(白痴)的意思。而且“The spirit is willing but the flesh is weak”(心有余而力不足)被误译为“The vodka is good but the meat is rotten”(酒不错但肉已经烂)。回顾这个时期的计算机翻译系统,作者很难想象怎么会产生这种误译。有评论家(包括本书作者)暗示,这类传闻讲的可能是那些不称职的人工翻译。
2.3第二代计算机翻译系统
二十世纪七十年代和二十世纪八十年代初期,计算机翻译研究在美俄以外的国家遍地开花:加拿大、西欧和日本,因为其政治文化需求也有很大不同。加拿大的双语政策促使蒙特利尔大学成立一个著名的研究团队。在欧洲,法、德、意都有计算机翻译研究团队,欧盟委员会决定在卢森堡试验Systran系统,具有重大意义(由于有私人经费赞助,Systran系统是经过ALPAC整顿后的一个美国计算机系统)。在日本,用计算机处理复杂的日语写作系统取得初步成功,这极大地鼓舞了大学和企业的研究团队关注日英翻译。
2.4实用的计算机翻译系统
到二十世纪八十年代中期,业界公认全自动高质量翻译各类文本是人类近期不可能实现的目标。计算机翻译的研究人员开始思考,能否找到研发可用而且有效的计算机翻译系统的方法。很多评论家开始区分用计算机翻译输入与用计算机翻译输出的差别。在计算机翻译输入中,用户是不熟悉外语书面文本的读者。在计算机翻译输出中,用户是准备用一种或者多种语言发表作品的作者。如果输入的文本有限,计算机翻译可能会有效,这种观点开始得到广泛传播。随着语言分支的发展,这种观点得到进一步发展。语言分支观认为,计算机翻译系统可以预设一些特定的应用程序,届时输入的语言将成为完整语言的一个部分,即“语言分支”(详见第15章)。这种研究方法在蒙特利尔大学研发得非常成功的METEO 系统里很常见。该系统能把英文的天气预报译为法文,而这种工作如果由人工翻译则会很枯燥。与语言分支密切相关的是使用控制语言,详见第14章的技术定制。
与全自动高质量翻译(FAHQT)难度相关的其他重大进展,是以译者工作站的形式提出了译者的计算机辅助工具这个概念(详见第2章)。随着小型便宜计算机硬件的出现,该观点得到进一步发展。由此,译者凭软件和其他计算机辅助设备的帮助完成翻译任务。翻译任务仍属于人类可控制范围。这些工具的完善程度有所不同:从(现在几乎无处不在的)具备拼写检查、同义词表(主题词表)功能的多语种文字处理、(单语和多语)在线词典及其他参考来源,到可为译者完成部分初稿翻译及后期校对的计算机辅助翻译系统。随着计算机日益完善,人们还研发了其他工具,比如很多读者将渐渐熟悉的著名翻译记忆工具。
2.5最新研究进展
进入二十世纪九十年代后直到现在,计算机翻译和计算机辅助翻译产品日益被语言学家及外行人所推广和使用,外行人用之于翻译邮件和网页。这正是本书后半部分研究的主题。同时,计算机翻译研究人员继续为自己定下远大目标。口语翻译(SLT)就是其中一个目标。口语翻译包括两个艰巨的计算任务:言语理解及翻译。第一个任务涉及从音效符号中提取可以理解为言语的相关声音(即,忽略背景噪音及其他非言语声音),准确识别个人言语声音(音符)及其中包含的词语,过滤其中无用的信息,比如犹豫、重复、错误的开始、不完整的句子等,以组成连贯的篇章信息。所有这一切均有待于翻译。此任务完全不同于翻译书面文本,因为通常最重要的是内容而不是传达信息的形式。而且,对实时处理的限制也会造成不容忽视的额外困难。在口语翻译的最新现状背景下,如果一个系统能够处理语言输入并在五秒内提供合理翻译(当然是以人工合成言语的形式),这就相当不错。
再看书面文本的计算机翻译,另一个关注点是其覆盖各种各样的语言。到目前为止,能够得到研发人员关注的主要是有商业价值的西欧和远东的主要语言。大家公认世界上至少上万种语言,至少应该为此研发相关的计算机翻译或者计算机辅助翻译软件。即使每种类似或者相关的语言可用来作参考起点,每种新语言都会带来很多巨大的问题。如果采用传统的语言学方法进行计算机翻译,那么必须先制定新语言的语法规则,新旧语言之间的迁移规则,其中最大的瓶颈是:必须为成千上万的词语制定词典的词条。即使计算机翻译系统使用的词典包含不同于传统词典的信息(形式不同),如果以机器可读的形式来提取相关信息,有时可以使用传统词典。另一种开始探索的方法是从大量的平行语料库中提取语言学信息,即收集文本和翻译,而且假设两边的语料库完全“匹配”。但是这类研究问题可能与本书的读者无关。在编辑本书时,作者偏向于关注务实可用的计算机翻译和计算机辅助翻译现状。 3.本书的概览
本书前七章探讨译者可用计算机做的各种用途,本书的后半部分则关注计算机翻译。第二章探讨了译者工作站理念的变迁和译者常用的一些计算机辅助工具。第三章专门关注其中一种工具:翻译记忆。第四章讨论术语在计算机辅助翻译运作中的特殊地位。译者经常需要查询技术词汇,以确保自己选用的术语准确无误。Lynne Bowker指出,计算机在这方面可以发挥相当重要的作用,因为术语库和其他术语来源以各种形式出现,可以使用,不仅有在线术语库,还有计算机可读取的词典和主题词表。
最近几年,出现了一种相对较新的翻译活动,美曰其名软件本土化。在计算机的早期研发阶段,大部分软件(和硬件)的制作都偏向(美国的)说英语用户。现在人们已经认识到,面向全球市场的产品,必须为全球市场的特定部分定制生产。软件本土化不但涉及翻译文件,包括在线帮助文件,还涉及定制软件本身,因为这包含语言。在第五章中,Bert Esselink从他的书中提炼出一个观点,以便为涉及的问题提供解决方案,并指出可以协助译者完成翻译任务的一些工具。
在当今以商业为主导的世界中,大部分翻译工作都与商业动机相关。因此,社会经济因素影响着计算机翻译和计算机辅助翻译系统的发展。由此,能得到开发商关注的主要是几种欧洲语言(英、法、德、意、萄、俄语)、日、中、韩和阿拉伯语。如果译者使用的工作语言是其他几千种小语种之一,那么只能自叹运气不佳。第六章探讨了计算机辅助翻译与小语种的关系。具有讽刺意味的是,在资源不足的语言清单中,居然包括几种占世界前二十名的常用语言(比如印地语、孟加拉语、马来语/印尼语、乌尔都语、旁遮普语、特拉古语、泰米尔语、马拉地语、粤语)。作者反思这些语种(其他小语种)的译者会有怎样的前景,以及什么样的计算机辅助工具和资源对他们有用。第七章探讨计算机在译者培训学术界中的地位。Sara Laviosa反思了计算机在翻译研究中的用途,具体来说,是应怎么样利用计算机语料库(收集翻译文本)研究翻译实践的趋势。
本书后半部分的章节密切关注计算机翻译。在第八章中,Doug Arnold剖析为何翻译对计算机而言很棘手。读者可以了解到对人类而言翻译哪些方面比较难。Doug Arnold指出,首先有些是语言理解问题。其次,有些是用外语表达译者的理解所造成的问题。这一切对计算机都造成了障碍。毕竟,计算机只是比较完善的算法机器。至少有些问题得归结于语言本身。在第九章里,Paul Bennett描述了语言学怎么样才能提供问题的解决方案。
第十、十一、十二章从商业角度探讨计算机翻译。在第十章里,John Hutchins(计算机翻译的历史学家和首席研究员),详细介绍了有商业价值的计算机翻译和计算机辅助翻译软件的最新发展状况。第十一章剖析了开发商的观点。Laurie Gerber曾是一位Systran的资深语言学家,Scott Bennett 是一位LOGOS研发团队的资深队员,他们一起见证了西门子公司Metal 计算机翻译系统成功下线的过程。在第十二章中,Jin Yang和Elke Lange报告了Systran错综复杂的试验过程。在试验过程中,他们的计算机翻译系统可以在万维网上免费获取。这次试验说明为什么研发公司乐让别人免费使用其产品,而且报告了密切监测网站、用户反馈及意见一段时间后得出的结果。
在第十三章,John White探讨如何评估计算机翻译,这对于想把计算机翻译或者计算机辅助翻译作为翻译需求解决方案的人来说很重要,无论他们是自由职业者、小型翻译公司还是大公司的翻译部门。关于评估内容、评估标准以及可避免的一些漏洞,White都提供了务实的历史性回顾。
接下来三章介绍了计算机翻译的一些实用方面。第十四、十五章分析充分利用计算机翻译的两大策略:控制语言法与语言分支法。Eric Myberg,Terako Miramura和Wolf Huijsen描述了控制语言,解释该理念背后的基本概念,以及在翻译中的运用。控制语言的一个重要特征是:要从待译文本作者那里得到文本主要读者的认可,克服因负面的先入之见而造成作者创造性的损失,从而导致控制语言不可避免的文本形式空缺。控制语言以预设和后设方式限制了待译文本的句法和词汇。语言分支法充分利用文本的文体和词汇中自然而然发生的限制及偏好。第十五章讲述了一个成功的语言分支计算机翻译系统的典型例子(以加拿大Meteo系统为例),并反思这到底是昙花一现的成功,还是这次试验成功为未来的计算机翻译指明了光明道路。
第十六章,Jeffrey Allen分析了如何修正计算机翻译输出的问题。一般称为后期编辑,以便区别于人工翻译常做的平行修改任务。Allen指出这两种任务之间的一些差别,提出相关策略与技巧,以便能更轻松有效地完成翻译任务。最后作者探讨了在翻译教学中如何使用计算机翻译和计算机辅助翻译,这对培训译者和一般的外语学生都有所启发。
参考文献:
[1]Harold Somers. Computers and Translation: A Translator’s Guide[M]. Shanghai Foreign Languages Education Press. 2012.
[2]陈海东. 计算机翻译存在的困难及解决方法新探[J]. 中国科技翻译,2009(16).
[3]吕立松,穆雷. 计算机辅助翻译技术与翻译教学[J]. 外语界,2007(3).
[4]柯平. 欧美的机器翻译[J]. 中国翻译,1995(2).
[5]张政. “机器翻译”、“计算机翻译”还是“电子翻译” [J]. 中国科技翻译,2003(2).
基金项目:本文是江西省高校人文社会科学研究规划项目(YY1507)和江西省社会科学规划课题(项目编号:15WX314)的前期阶段性成果。