论文部分内容阅读
【摘 要】随着“一带一路”的推进和全球化进程,外语人才的需求量也在增长。如今的外语人才除了要求翻译能力外,也需要他们具有翻译专业领域的能力,例如,汽车、工程、经济等方面。科技技术的进步与发展,各个专业的专有名词和特殊句型亦日渐丰富,外语人才也面临着庞大的记忆需求。本文总结了构建金融方向日汉双语语料库和小范围的应用推广的经验,期望可以抛砖引玉,吸引更多人士将语料库推广到更多专业层面和课堂教学上。
【关键词】日汉双语;语料库构建;语料库应用
一、汉字对日本语言文字的影响
一般说来,汉字是两种文字的组合,在日本语言文化中,假名有平假名和片假名两种区分。有学者研究认为,平假名的产生与我国的草书有关,而片假名的产生与我国的汉字楷书有关,平假名主要在日语的日常书写中,而片假名则主要是日本语言文化中对外来词、象声词进行标注的一种方式。在日本的很多正式文件中,汉字是重要的书写内容,且占据很大的比重。在日语中,常用的汉字有两千多个,其他领域使用的汉字的数量更多。日本教育中对于汉字的掌握程度也有专门的考核,比如在小学或者初中的学习中,必须掌握一定数量的汉字才能毕业,如果不能达到要求,则不能顺利毕业。掌握更多汉字的读写技巧,可以使日本人在生活以及工作中的各种活动得到有效的开展。日语中的很多文献也是使用汉字进行书写的,而且一直流传至今,在今后也将继续传承下去,是日本傳统文化研究的一个重要载体和途径,具有很高的参考价值。试想一下如果在日语文化中废除了汉字,则很多历史记录、政治公务记录任务都不可能完成,很多历史文化也得不到传承,会给日本的发展带来很大的阻碍。
二、语料库简介
1 语料库的定义
语料库是以电子计算机为载体承载语言知识的基础资源。关于语料库的基本认识:语料库中存放的是在语言的实际使用中真实出现过的语言材料;真实语料需要经过加工(分析和处理),才能成为有用的资源。语料库,顾名思义,就是存放语言材料的仓库。目前,人们通常所说的语料库是指存放在计算机里的未添加标记的原始文本或者经过加工添加了语言学信息标记的文本。
2语料库的分类
1. 多语种语料库
多语种语料(Multilingual corpora)经常经过格式特殊处理进行比对研究,也被称作平行语料库。它是由大量的平行文本(parallel text)组成。平行文本通常是几种语言放在一起,有原文有译文,对齐放置。较为著名的平行文本有洛布古典丛书和克莱梵语丛书。平行文本不仅仅是两种语言的平行,有时会有多种语言集合。如圣经研究中,关于圣经的译文可以有多种版本。较为著名的便是俄利根的《圣经六国译文合璧》,其中为旧约提供了六个版本。在多语种语料库中,一定要注意多语种语义的平行对齐,这是保障语言学研究的前提条件。一般情况下,双语平行语料库中,主要有两种类型,翻译语料库(translation corpus)和对比语料库(comparable corpus)。在翻译语料库中,一种语言的文本会是另外语种语言文本的翻译。在翻译过程中,翻译人员可以对句子进行拆分、合并、删除、插入或重新排列。翻译语料库现如今广泛运用于机器翻译中,机器翻译实际属于计算机语言学中的一类,其方法是通过某种程序将一种语言翻译成另外一种语言。借助语料库,便可以提供大量准确而地道的目标语言文本,从而使计算机可以生成更加复杂的自动翻译,处理更复杂的语言翻译。在对比语料库中,文本都是同种类型,覆盖同种内容,但是他们并不是互相翻译的关系。为开发平行语料库,有些文本需以一个短语或句子组成的语块进行匹配。其中,经常会运用由两种语言语料库组成的平行语块对双语的机器翻译进行训练。为使语料库能够对语言学研究更能有用,他们通常会运用到注释程序,比如,对演讲的部分内容进行注释或是词性标注。
2. 数图资料库
一些语料库还可用于分析文本结构水平。尤其是一些较小的语料库,有可能全部都有解析。这些语料库通常称为数图资料库(Treebanks)或者解析语料库(Parsed Corpora)。在语言学中,数图资料库就是一个文本的解析语料库,对句法或语义结构进行注释。在二十世纪九十年代初期的解析语料库的建造使计算机语言学发生了翻天覆地的变化,使他们从大范围经验数据中获益。世界上规模最大的数图资料库是宾夕法尼亚大学数图资料库(The PennTreebank)。自从该资料库建立以后,数图资料库的运用便显得十分重要。虽然该类型语料库是源于计算机语言学,但是其研究领域范围已经涉及整个语言学研究。在数图资料库中,会对所有文字进行注解。
3. 考古语料库
考古语料库(Archaeological corpora)被用作研究历史文档,破译古老的文本,或运用于宗教学领域研究。考古语料库并不是新兴的产物,在考古学中,古时候存在的大量文字语言的书籍或材料便可组成一个考古语料库,如前文所说的罗塞塔石碑。石碑制作于公元前一九六年,原本只是一块刻有古埃及法老托勒密五世诏书的石碑,但由于这块石碑同时刻有同一段内容的三种不同语言版本,使得近代的考古学家得以有机会对照各语言版本的内容后,解读出已经失传千余年的埃及象形文之意义与结构,而是研究古埃及历史的重要里程碑
三、国内语料库的发展现状
语料库,指经科学取样和加工的大规模电子文本库,使用者可以借助计算机等工具快速寻找一个或者多个真实使用的语言范例。虽然目前国内已有多项语料库相关的研究和建设,但开放型语料库相对来说数量不多。已开发的语料库尚未完全进入到外语课堂,多数外语专业学生依赖于词典和网络搜索。目前公开的可以低价或免费利用的双语语料库中,日语语料库从内容量和更新率来讲远远低于英语语料库。根据报道,北京语言大学等国内多家大学已经完成双语语料库、垂直语料库的建设,但多为英汉双语,日语语料库和日汉双语语料库较少。目前常被提及的日语语料库有日本国立国语研究所研究的《现代日语书面语均衡语料库》(BCCWJ),收录了在日本发行的日语书籍、报刊、杂志、政府白皮书等出版物,共计词汇量一亿多。国内方面,有北京外国语大学北京日本学研究中心徐一平主持的《中日对译语料库》(CDROM)。笔者在实际使用了多个日语 / 日汉双语语料库后感受到语料库更新较慢,专业性词汇较少。并且在日语外语学习者中语料库没有得到真正的推广,实际的使用率较低。随着网络技术的发展和市场的需求,越来越多的学者也指出,今后语料库势必会进入到外语教学的课堂,也会向专业化、共享化、智能化方向发展。笔者认为在大数据时代的背景下,构建一个专业方向的双语语料库,符合当前外语教学中语言加专业化的发展趋势,也希望通过建立一个语料库的平台达到学生、教师双方互利的局面。 四、语料库的研究意义
本研究第一,希望可以解决学生们对于日语词汇的局限性。在目前的外语教学中,学生对于日语词汇的理解多源于课本或者字典上的翻译解释和教师的讲解,一个日语词汇对照一个中文翻译,在实际的使用中生搬硬套,整句不符合日语表达习惯。语料库包含大量的真实语例,可以让学生了解到词汇的正确使用和搭配,帮助学生选择更符合母语习惯的词汇。第二,翻譯工作中要求翻译内容必须满足“专业性、统一性、准确性”,但由于目前课本更新速度有限,部分词汇在工具书中找不到对应的翻译,在实际的翻译教学现场,同一个专有词汇经常被翻译为不同的对应内容。日语专业金融方向日汉双语语料库,让学生在做金融方向相关翻译时可以准确、快捷地找到标准翻译,提高翻译质量,缩短翻译时间。第三,提供语言运用真实范例。在目前的日语教学中,教师会花费大量的时间思考例句,但其例句的实用性和逻辑性都有不足,利用日汉双语语料库既可以减少教师编写教案的时间量,也可以利用真实的语境语例,提高学生的外语语感。第四,语料库中收集的政府公文、新闻报道、金融机构公文等不同文体可以给学生提供正式的双语文体模板。第五,希望可以改变现有的教与学的被动模式,为学生提供自学、自查的平台,提高学生自主学习的动机和能力。
五、构建日汉双语双语语料库的步骤
构建日汉双语语料库具体分为:收集日汉对译内容语料、语料降噪、语料对齐、语料上传和语料库公开分享五个步骤。
(一)语料收集
按照:1. 原文和译文为对应关系;2. 原文具有可读性;3. 译文应符合译出语的表达习惯。这三项标准,笔者选取了一带一路相关官方文章中三篇内容,《海上丝绸之路的愿景与行动》《亚洲基础设施投资银行协定》《中国关键词 -- 一带一路》。三篇文章的中文文本选自一带一路网、中华人民共和国财政部官方网站等,对应的日语文本选择自 SciencePortalChina、中国驻日本大使馆等官方性或学术性网站,保证语料的真实性、有效性和行文的严谨。
(二)语料降噪
语料收集自网络,因此文字内容在转换处理时会将原本网页的代码等非文章本身的内容带入,需要利用 Word 软件转换收集的语料格式,剔除和文章内容无关的信息。由于在中文系统下,日语汉字和假名在批量转换格式时会出现错字、别字、漏字的情况,最后需要加入人工校对检查语料的正确性和完整性。
(三)语料对齐
将降噪过的语料上传到 Tmxmall 的在线对齐功能 Aligner 系统,由于 Aligner 系统不能完全做到工整对齐,因此需要通过人工检查,将日语和汉语以句子为单位进行拆分,但由于日语和汉语语法不一致,语句无法做到严格的一一对应,因此在拆分时会出现一对多或者多对一的情况。以保证原文的句法逻辑完整为准,按照句号为标记拆分原文,译文不管内容多少则需要和原文拆分后的内容相符合。逐一检查句法的逻辑性和完整性,以及错译、漏译、错字、漏字等并一一讨论修改。最后利用软件的对齐功能调整对齐文章。若文章较长或有多篇文章,建议分数次上传对齐。
(四)语料库上传
通过 Tmxmall 的 Aligner 对齐后,利用系统自带的导出功能导出对译语料存为 tmx 格式。在 Tmxmall 个人页面中新建记忆库并命名,将导出后的多个 tmx 格式的语料逐一上传至建立的记忆库中,完成金融方向日汉双语语料库。
(五)语料库分享
语料库构建完成之后,通过 Tmxmall 的付费功能,可以将语料库分享给多人。
六、语料库的应用案例和使用感受
为了得到语料库的实际使用感受,笔者按照语料库收录内容设计了一个小型的实际应用案例。笔者选取本校两名大三日语系学生,要求将日语原文的《财务部长谈亚洲基础投资银行》翻译成为中文,原文为访谈类文章,共计 3054 字,内容为 2015 年 3 月日本记者就亚洲投资银行的相关问题采访当时的中国财政部部长。根据译前问卷调查,两名学生此前未翻译过访谈类的文体或相关内容,也未翻译过较长的文字内容。翻译原文中亦涉及到多处一带一路相关政策、金融类专有名词等。笔者要求学生以此语料库为参考工具,并提出翻译的“专业性、统一性、准确性”三个标准,将文章翻译为适合发布的中文内容。每名学生平均花费约 4 个小时左右,完整译出文章。译文经三位教师对译检查,对各项指标进行审查。对其评价为:学生的译文符合汉语母语规范,准确、有效地翻译出了原文中存在的各个专有 词,并且译文满足了访谈文章的特殊体裁。在三个月的试用期后,笔者向使用了语料库的师生们收集了关于语料库使用的感想。其中对于语料库的不足的意见主要有:
(1)语料库的内容较少,内容比较单一,只能完成针对性强的内容。
(2)检索目标词汇时,搜索结果中只标记了目标词汇,对译的内容则没有相应的标记。
(3)希望开发 app 应用程序,可以利用移动设备随时查找。
(4)希望加入语音查找功能,加快查找的效率。此外,对于语料库感到满意的地方有:①对于专有名词、口号、标题等固定格式的翻译可以通过语料库快速准确地找到对译内容。②对于公文、条例、采访、规章等特殊文体的翻译时有较好的启示性和示范性作用。③利用语料库快速找到词汇、语法、句型的例句,对于教师备课提供了一个准确、快捷的平台。
七、关于双语语料库的构建、应用及今后的推广
现在的网络提供了非常丰富的语料资源和便捷的语料制作存放平台。本次语料库的打造耗时约 1 个半月,利用网络可以即时收集到最新的双语资料,也可以通过多方面的对比,筛选优质的符合标准的双语语料内容。虽然计算机可以批量操作减少部分工作量,但是在语料降噪,语料对齐等步骤时依旧需要加入人工的筛选和删减,因此如要建立大型的语料库,也需要采取多人合作的方式,投入相应的人力成本。此外,目前可存放语料库的平台较少,按照语料的数量、可分享的人数、可同时启用查询的记忆库最大数量、每天可检索次数的最大数量的不同,而产生相应的费用,且使用费用不低,若要建立大型语料库供多人查阅,其成本也是不可忽略的一方面。并且对于如今习惯移动设备操作的使用者来讲,网页版的使用操作具有一定的局限性。在实际应用方面,语料库可以让学生迅速查找到专有名词的对应译法,也可以通过完整的句子和段落,帮助学生掌握词汇的固定搭配,以及公文、演讲、书信等特殊文体的表达方式。通过提供多个语言实例和语言出现的频率和概率,让学生可以在同义词中选择正确合适的选项。在翻译教学方面,许多学者提出了翻译教学中需要加强学生的跨文化意识,要求学生在翻译时不能停留在表面的语言转换表达上,而是需要符合译出语的语境和表达习惯。语料库为学生提供了真实有效的语言表达,学生可以将语料库的翻译作为参考,和自己的译文对比,在检索和对比的学习中,了解译出语的语境和表达习惯,让译出语更符合母语者的用法,也就是所谓的更“地道”。并且,在以往的教学工作中,教师需要花费大量的时间思考例句,但是大部分的例句在逻辑性和实用性上都不太理想。教师可以利用语料库寻找更贴近实际语境、更有逻辑性和实用性的语句。除了现有的大型语料库外,学生可以按照自己的需求建立语料库。在语料库的建设中接触大量的原文,对于学生来讲也是一个锻炼学习的机会。语料库需要大量的语料支撑才能成为有利用价值的语料库。随着大数据技术的发展,语料库也应该走出研究室走出大学,成为共建共享的资源。打造语料库简单操作,易上手,对于中高级外语学习者和译者来说也是一个一劳永逸的项目。虽然语料库的建立和使用都需要一定的费用,但是如果可以吸引更多的企业和学校加入语料库的打造,提供资金和技术的支持,相信语料库可以得到更大的推广。
八、结语
语料库的建设无论是在日常教学中或者译员翻译中都有着积极的作用。但目前语料库依旧处于研究、应用、教学相互独立的阶段,想要语料库有更好的应用和发展需要更多人的关注和意见,如果学者和教师都能够参与其中,将语料库引入实际的课堂教学和翻译现场,今后语料库也将成为生活学习中便利的工具。
参考文献:
[1]管新潮,陶友兰 . 语料库与翻译 [M]. 上海:复旦大学出版社,2017.
[2]胡开宝,毛鹏飞 . 国外语料库翻译学研究述评 [J]. 当代语言学,2012(4):51.
[3]桂诗春,冯志伟,杨慧中,何安平,卫乃兴,李文中,梁茂成 . 语料库语言学与中国外语教学 [J]. 现代外语,2010(4):93-100.
(作者单位:辽宁工业大学)
【关键词】日汉双语;语料库构建;语料库应用
一、汉字对日本语言文字的影响
一般说来,汉字是两种文字的组合,在日本语言文化中,假名有平假名和片假名两种区分。有学者研究认为,平假名的产生与我国的草书有关,而片假名的产生与我国的汉字楷书有关,平假名主要在日语的日常书写中,而片假名则主要是日本语言文化中对外来词、象声词进行标注的一种方式。在日本的很多正式文件中,汉字是重要的书写内容,且占据很大的比重。在日语中,常用的汉字有两千多个,其他领域使用的汉字的数量更多。日本教育中对于汉字的掌握程度也有专门的考核,比如在小学或者初中的学习中,必须掌握一定数量的汉字才能毕业,如果不能达到要求,则不能顺利毕业。掌握更多汉字的读写技巧,可以使日本人在生活以及工作中的各种活动得到有效的开展。日语中的很多文献也是使用汉字进行书写的,而且一直流传至今,在今后也将继续传承下去,是日本傳统文化研究的一个重要载体和途径,具有很高的参考价值。试想一下如果在日语文化中废除了汉字,则很多历史记录、政治公务记录任务都不可能完成,很多历史文化也得不到传承,会给日本的发展带来很大的阻碍。
二、语料库简介
1 语料库的定义
语料库是以电子计算机为载体承载语言知识的基础资源。关于语料库的基本认识:语料库中存放的是在语言的实际使用中真实出现过的语言材料;真实语料需要经过加工(分析和处理),才能成为有用的资源。语料库,顾名思义,就是存放语言材料的仓库。目前,人们通常所说的语料库是指存放在计算机里的未添加标记的原始文本或者经过加工添加了语言学信息标记的文本。
2语料库的分类
1. 多语种语料库
多语种语料(Multilingual corpora)经常经过格式特殊处理进行比对研究,也被称作平行语料库。它是由大量的平行文本(parallel text)组成。平行文本通常是几种语言放在一起,有原文有译文,对齐放置。较为著名的平行文本有洛布古典丛书和克莱梵语丛书。平行文本不仅仅是两种语言的平行,有时会有多种语言集合。如圣经研究中,关于圣经的译文可以有多种版本。较为著名的便是俄利根的《圣经六国译文合璧》,其中为旧约提供了六个版本。在多语种语料库中,一定要注意多语种语义的平行对齐,这是保障语言学研究的前提条件。一般情况下,双语平行语料库中,主要有两种类型,翻译语料库(translation corpus)和对比语料库(comparable corpus)。在翻译语料库中,一种语言的文本会是另外语种语言文本的翻译。在翻译过程中,翻译人员可以对句子进行拆分、合并、删除、插入或重新排列。翻译语料库现如今广泛运用于机器翻译中,机器翻译实际属于计算机语言学中的一类,其方法是通过某种程序将一种语言翻译成另外一种语言。借助语料库,便可以提供大量准确而地道的目标语言文本,从而使计算机可以生成更加复杂的自动翻译,处理更复杂的语言翻译。在对比语料库中,文本都是同种类型,覆盖同种内容,但是他们并不是互相翻译的关系。为开发平行语料库,有些文本需以一个短语或句子组成的语块进行匹配。其中,经常会运用由两种语言语料库组成的平行语块对双语的机器翻译进行训练。为使语料库能够对语言学研究更能有用,他们通常会运用到注释程序,比如,对演讲的部分内容进行注释或是词性标注。
2. 数图资料库
一些语料库还可用于分析文本结构水平。尤其是一些较小的语料库,有可能全部都有解析。这些语料库通常称为数图资料库(Treebanks)或者解析语料库(Parsed Corpora)。在语言学中,数图资料库就是一个文本的解析语料库,对句法或语义结构进行注释。在二十世纪九十年代初期的解析语料库的建造使计算机语言学发生了翻天覆地的变化,使他们从大范围经验数据中获益。世界上规模最大的数图资料库是宾夕法尼亚大学数图资料库(The PennTreebank)。自从该资料库建立以后,数图资料库的运用便显得十分重要。虽然该类型语料库是源于计算机语言学,但是其研究领域范围已经涉及整个语言学研究。在数图资料库中,会对所有文字进行注解。
3. 考古语料库
考古语料库(Archaeological corpora)被用作研究历史文档,破译古老的文本,或运用于宗教学领域研究。考古语料库并不是新兴的产物,在考古学中,古时候存在的大量文字语言的书籍或材料便可组成一个考古语料库,如前文所说的罗塞塔石碑。石碑制作于公元前一九六年,原本只是一块刻有古埃及法老托勒密五世诏书的石碑,但由于这块石碑同时刻有同一段内容的三种不同语言版本,使得近代的考古学家得以有机会对照各语言版本的内容后,解读出已经失传千余年的埃及象形文之意义与结构,而是研究古埃及历史的重要里程碑
三、国内语料库的发展现状
语料库,指经科学取样和加工的大规模电子文本库,使用者可以借助计算机等工具快速寻找一个或者多个真实使用的语言范例。虽然目前国内已有多项语料库相关的研究和建设,但开放型语料库相对来说数量不多。已开发的语料库尚未完全进入到外语课堂,多数外语专业学生依赖于词典和网络搜索。目前公开的可以低价或免费利用的双语语料库中,日语语料库从内容量和更新率来讲远远低于英语语料库。根据报道,北京语言大学等国内多家大学已经完成双语语料库、垂直语料库的建设,但多为英汉双语,日语语料库和日汉双语语料库较少。目前常被提及的日语语料库有日本国立国语研究所研究的《现代日语书面语均衡语料库》(BCCWJ),收录了在日本发行的日语书籍、报刊、杂志、政府白皮书等出版物,共计词汇量一亿多。国内方面,有北京外国语大学北京日本学研究中心徐一平主持的《中日对译语料库》(CDROM)。笔者在实际使用了多个日语 / 日汉双语语料库后感受到语料库更新较慢,专业性词汇较少。并且在日语外语学习者中语料库没有得到真正的推广,实际的使用率较低。随着网络技术的发展和市场的需求,越来越多的学者也指出,今后语料库势必会进入到外语教学的课堂,也会向专业化、共享化、智能化方向发展。笔者认为在大数据时代的背景下,构建一个专业方向的双语语料库,符合当前外语教学中语言加专业化的发展趋势,也希望通过建立一个语料库的平台达到学生、教师双方互利的局面。 四、语料库的研究意义
本研究第一,希望可以解决学生们对于日语词汇的局限性。在目前的外语教学中,学生对于日语词汇的理解多源于课本或者字典上的翻译解释和教师的讲解,一个日语词汇对照一个中文翻译,在实际的使用中生搬硬套,整句不符合日语表达习惯。语料库包含大量的真实语例,可以让学生了解到词汇的正确使用和搭配,帮助学生选择更符合母语习惯的词汇。第二,翻譯工作中要求翻译内容必须满足“专业性、统一性、准确性”,但由于目前课本更新速度有限,部分词汇在工具书中找不到对应的翻译,在实际的翻译教学现场,同一个专有词汇经常被翻译为不同的对应内容。日语专业金融方向日汉双语语料库,让学生在做金融方向相关翻译时可以准确、快捷地找到标准翻译,提高翻译质量,缩短翻译时间。第三,提供语言运用真实范例。在目前的日语教学中,教师会花费大量的时间思考例句,但其例句的实用性和逻辑性都有不足,利用日汉双语语料库既可以减少教师编写教案的时间量,也可以利用真实的语境语例,提高学生的外语语感。第四,语料库中收集的政府公文、新闻报道、金融机构公文等不同文体可以给学生提供正式的双语文体模板。第五,希望可以改变现有的教与学的被动模式,为学生提供自学、自查的平台,提高学生自主学习的动机和能力。
五、构建日汉双语双语语料库的步骤
构建日汉双语语料库具体分为:收集日汉对译内容语料、语料降噪、语料对齐、语料上传和语料库公开分享五个步骤。
(一)语料收集
按照:1. 原文和译文为对应关系;2. 原文具有可读性;3. 译文应符合译出语的表达习惯。这三项标准,笔者选取了一带一路相关官方文章中三篇内容,《海上丝绸之路的愿景与行动》《亚洲基础设施投资银行协定》《中国关键词 -- 一带一路》。三篇文章的中文文本选自一带一路网、中华人民共和国财政部官方网站等,对应的日语文本选择自 SciencePortalChina、中国驻日本大使馆等官方性或学术性网站,保证语料的真实性、有效性和行文的严谨。
(二)语料降噪
语料收集自网络,因此文字内容在转换处理时会将原本网页的代码等非文章本身的内容带入,需要利用 Word 软件转换收集的语料格式,剔除和文章内容无关的信息。由于在中文系统下,日语汉字和假名在批量转换格式时会出现错字、别字、漏字的情况,最后需要加入人工校对检查语料的正确性和完整性。
(三)语料对齐
将降噪过的语料上传到 Tmxmall 的在线对齐功能 Aligner 系统,由于 Aligner 系统不能完全做到工整对齐,因此需要通过人工检查,将日语和汉语以句子为单位进行拆分,但由于日语和汉语语法不一致,语句无法做到严格的一一对应,因此在拆分时会出现一对多或者多对一的情况。以保证原文的句法逻辑完整为准,按照句号为标记拆分原文,译文不管内容多少则需要和原文拆分后的内容相符合。逐一检查句法的逻辑性和完整性,以及错译、漏译、错字、漏字等并一一讨论修改。最后利用软件的对齐功能调整对齐文章。若文章较长或有多篇文章,建议分数次上传对齐。
(四)语料库上传
通过 Tmxmall 的 Aligner 对齐后,利用系统自带的导出功能导出对译语料存为 tmx 格式。在 Tmxmall 个人页面中新建记忆库并命名,将导出后的多个 tmx 格式的语料逐一上传至建立的记忆库中,完成金融方向日汉双语语料库。
(五)语料库分享
语料库构建完成之后,通过 Tmxmall 的付费功能,可以将语料库分享给多人。
六、语料库的应用案例和使用感受
为了得到语料库的实际使用感受,笔者按照语料库收录内容设计了一个小型的实际应用案例。笔者选取本校两名大三日语系学生,要求将日语原文的《财务部长谈亚洲基础投资银行》翻译成为中文,原文为访谈类文章,共计 3054 字,内容为 2015 年 3 月日本记者就亚洲投资银行的相关问题采访当时的中国财政部部长。根据译前问卷调查,两名学生此前未翻译过访谈类的文体或相关内容,也未翻译过较长的文字内容。翻译原文中亦涉及到多处一带一路相关政策、金融类专有名词等。笔者要求学生以此语料库为参考工具,并提出翻译的“专业性、统一性、准确性”三个标准,将文章翻译为适合发布的中文内容。每名学生平均花费约 4 个小时左右,完整译出文章。译文经三位教师对译检查,对各项指标进行审查。对其评价为:学生的译文符合汉语母语规范,准确、有效地翻译出了原文中存在的各个专有 词,并且译文满足了访谈文章的特殊体裁。在三个月的试用期后,笔者向使用了语料库的师生们收集了关于语料库使用的感想。其中对于语料库的不足的意见主要有:
(1)语料库的内容较少,内容比较单一,只能完成针对性强的内容。
(2)检索目标词汇时,搜索结果中只标记了目标词汇,对译的内容则没有相应的标记。
(3)希望开发 app 应用程序,可以利用移动设备随时查找。
(4)希望加入语音查找功能,加快查找的效率。此外,对于语料库感到满意的地方有:①对于专有名词、口号、标题等固定格式的翻译可以通过语料库快速准确地找到对译内容。②对于公文、条例、采访、规章等特殊文体的翻译时有较好的启示性和示范性作用。③利用语料库快速找到词汇、语法、句型的例句,对于教师备课提供了一个准确、快捷的平台。
七、关于双语语料库的构建、应用及今后的推广
现在的网络提供了非常丰富的语料资源和便捷的语料制作存放平台。本次语料库的打造耗时约 1 个半月,利用网络可以即时收集到最新的双语资料,也可以通过多方面的对比,筛选优质的符合标准的双语语料内容。虽然计算机可以批量操作减少部分工作量,但是在语料降噪,语料对齐等步骤时依旧需要加入人工的筛选和删减,因此如要建立大型的语料库,也需要采取多人合作的方式,投入相应的人力成本。此外,目前可存放语料库的平台较少,按照语料的数量、可分享的人数、可同时启用查询的记忆库最大数量、每天可检索次数的最大数量的不同,而产生相应的费用,且使用费用不低,若要建立大型语料库供多人查阅,其成本也是不可忽略的一方面。并且对于如今习惯移动设备操作的使用者来讲,网页版的使用操作具有一定的局限性。在实际应用方面,语料库可以让学生迅速查找到专有名词的对应译法,也可以通过完整的句子和段落,帮助学生掌握词汇的固定搭配,以及公文、演讲、书信等特殊文体的表达方式。通过提供多个语言实例和语言出现的频率和概率,让学生可以在同义词中选择正确合适的选项。在翻译教学方面,许多学者提出了翻译教学中需要加强学生的跨文化意识,要求学生在翻译时不能停留在表面的语言转换表达上,而是需要符合译出语的语境和表达习惯。语料库为学生提供了真实有效的语言表达,学生可以将语料库的翻译作为参考,和自己的译文对比,在检索和对比的学习中,了解译出语的语境和表达习惯,让译出语更符合母语者的用法,也就是所谓的更“地道”。并且,在以往的教学工作中,教师需要花费大量的时间思考例句,但是大部分的例句在逻辑性和实用性上都不太理想。教师可以利用语料库寻找更贴近实际语境、更有逻辑性和实用性的语句。除了现有的大型语料库外,学生可以按照自己的需求建立语料库。在语料库的建设中接触大量的原文,对于学生来讲也是一个锻炼学习的机会。语料库需要大量的语料支撑才能成为有利用价值的语料库。随着大数据技术的发展,语料库也应该走出研究室走出大学,成为共建共享的资源。打造语料库简单操作,易上手,对于中高级外语学习者和译者来说也是一个一劳永逸的项目。虽然语料库的建立和使用都需要一定的费用,但是如果可以吸引更多的企业和学校加入语料库的打造,提供资金和技术的支持,相信语料库可以得到更大的推广。
八、结语
语料库的建设无论是在日常教学中或者译员翻译中都有着积极的作用。但目前语料库依旧处于研究、应用、教学相互独立的阶段,想要语料库有更好的应用和发展需要更多人的关注和意见,如果学者和教师都能够参与其中,将语料库引入实际的课堂教学和翻译现场,今后语料库也将成为生活学习中便利的工具。
参考文献:
[1]管新潮,陶友兰 . 语料库与翻译 [M]. 上海:复旦大学出版社,2017.
[2]胡开宝,毛鹏飞 . 国外语料库翻译学研究述评 [J]. 当代语言学,2012(4):51.
[3]桂诗春,冯志伟,杨慧中,何安平,卫乃兴,李文中,梁茂成 . 语料库语言学与中国外语教学 [J]. 现代外语,2010(4):93-100.
(作者单位:辽宁工业大学)