论文部分内容阅读
摘 要: 随着信息技术的迅速发展,在大数据背景下,如何让红色资源助力大别山精神研究、大别山地区精准扶贫和提升河南省的外宣工作,这不仅涉及资源数据的整合与开放,也客观上要求相关文本的规范与共享。经科学取样、语料的校对和修订,及借助计算机分析加工的双语平行语料库,就是很好的语言资源支撑和科技引领。
关键词: 大别山精神; 平行语料库; 语料
中图分类号: H315.9 文献标志码: A 文章编号: 1671-2153(2020)04-0093-05
大别山是中国共产党重要的建党基地,也是中国革命走向全面胜利的战略转折地,创造了“28年红旗不倒”的奇迹,留下了厚重的红色文化遗产,孕育了“坚守信念、胸怀全局、团结奋进、勇当前锋”的大别山精神。信阳是大别山革命老区的重要组成部分,也是红色旅游的经典路线。
2019年9月,习近平总书记在河南考察,来到信阳鄂豫皖苏区首府革命博物馆,缅怀革命先烈,追忆峥嵘岁月,提出“要讲好党的故事、革命的故事、根据地的故事、英雄和烈士的故事”,这既让我们看到新时代传承红色基因的重要意义,也让我们思考如何研究好红色历史、讲述好红色故事、传播好红色声音。
2019年10月26日,河南省信阳市委市政府携同大别山革命老区高校联盟、信阳师范学院共同成立大别山精神研究院。这是学习贯彻习近平总书记考察调研河南重要讲话精神、促进大别山革命老区振兴发展的一项重大举措,为进一步研究、阐释和宣传大别山精神提供了重要平台,对于统筹推进大别山革命老区可持续发展意义重大。
一、国内外相关领域建设现状和趋势
语料库是以大量收集的客观语料为基础的文本集合。双语平行语料库就是源语文本和目标语文本经过机器和人工采集校对后,进行词(术语)、句级或段级层面的对齐,再辅以相应的检索和查询工具,从而使对齐的语料发挥实用价值。近年来,无论是在语言信息处理领域还是语言学研究领域,语料库的重要作用均已经得到充分的认可,国际国内在语料库的建设和研究方面均做了大量的工作。
关于语料库的研究及建设方面,西方发达国家一直处在领先水平和前沿阵地。很多成果已成功服务于信息检索、专业领域翻译、翻译记忆、信息检索、计算机辅助教学、语言教学与文化研究等各个领域。就国内语料库建设而言,虽落后于发达国家,但也取得了一定成效,在旅游、科技、军事、经济、农业等领域建立了一些知名的专业语料库。如北京外国语大学王克非教授主持的汉英通用型对应语料库、香港理工大学构建的旅游资源双语语料库、山东旅游资源平行语料库、全国科学技术名词审定委员会在线语料库、上海交通大学的科技英语语料库、解放军外语学院的军事英语语料库和新闻政论语体俄语语料库、北京第二外国语学院的全国公示语翻译语料库、中国农业科学院的多语种农业词库和农业翻译平台等。国内相关领域的语料库虽然不多,但通过文献检索发现,一些政府机构和高校或研究机构人员已着手建设或构想语料库设计模式。拟构建的语料库有:贵州外宣双语语料库、安徽红色旅游双语语料库、安徽外宣翻译双语平行语料库、南昌英汉红色文化平行语料库、赣南红色旅游英汉平行语料库。这些地方性的特定用途平行语料库将能高效宣传当地的独特资源,从而提升地方品牌和影响力。而针对于大别山精神传播、红色资源宣传、旅游及外宣领域的语料库构建和研究,在河南省尚属空白,鉴于此,构建大别山红色资源平行语料库,既可以汲取上述已建库者的宝贵经验,也可以以点带面,进一步为河南焦裕禄精神、红旗渠精神及相关文化传播和旅游宣传,提供良好的案例和相关技术支撑。
二、河南省大别山红色资源汉英平行语料库构建的意义
(一)理论研究的意义
首先,拟构建的语料库是一个多模态平行语料库,对音频、视频和文字语料等多种信息进行集成,这将为大别山精神的传播和研究提供一个很好的范式和便捷的入口。其次,建成的语料库提供大量有據可寻的真实语料,除红色旅游资源和红色教育基地领域,还包括地方方言和习俗、地方红色文化历史、红色艺术作品的素材,也将服务于翻译研究、红色文化研究、地方研究等。尤其是翻译研究,越来越注重地方化特点,基于语料库对比的翻译研究和文化研究也是国际相关学术领域的前沿阵地。拟建的语料库对于本省乃至全国各类研究机构的涉豫涉红色文化的翻译理论和实践研究、文化研究,可提供一个较全面而权威的资源库。
(二)实践意义
大别山红色资源语料库对于信阳乃及河南的对外宣传、走向国际、旅游品牌提升和留存革命史料等方面具有积极的意义。作为革命老区,各级政府一直关注信阳的发展,中央也提出弘扬大别山精神,充分发挥红色资源优势。建立相应的红色资源语料库,抓住面临的时代机遇,也是响应国家总体发展规划,顺应时代发展的需要。拟建的语料库对相关文本及术语翻译进行规范和统一,对信阳的红色资源文化进行整合和归类,这其中涵盖许多并未被充分挖掘和宣传的红色资源。对于提升城市品牌和保存多样性的红色资源具有很好的实践意义。
就翻译教学和信阳旅游业本地化翻译服务而言,语料库的权威性、动态性、真实性是一般辅助工具和人力无法替代的。翻译的实施越来越注重机器辅助和语料的支持,本语料库可容纳大量权威、具有时代特色的中英文例句,将其应用到翻译教学中,可促进高质量翻译人才的培养。其次,语料库构建过程中标记的双语语料可以作为翻译记忆的材料,进而为以后的红色文化翻译工程提供良好的范式和参考。
三、构建河南省大别山红色资源汉英平行语料库的紧迫性
(一)提升大别山红色旅游和红色教育基地相关文本的英译质量
信阳遍布红色旅游景区和红色教育基地,如新县鄂豫皖苏区首府、许世友将军故里、商城县金刚台红军洞群、罗山县何家冲红二十五军长征出发地、光山县邓颖超祖居等景点或旧址;以及信阳“不忘初心、牢记使命”主题教育展馆、大别山干部学院、信阳马克思主义学院、鄂豫皖革命纪念馆、何家冲学院等主题教育基地。但通过实地调研一些红色旅游景点和教育基地发现,相关文本翻译问题凸显,如文化误译、错译、漏译、语法错误、语用失误、专有名称译文不一致等问题十分常见。在创建语料库过程中,专家会对这些语料进行整理,进行反复的校对和修订,确保语料的规范与准确。拟建的语料库也会对漏译的文本进行补充,这将使大别山的红色资源英译得到一定程度的改善。 (二)传播大别山红色文化
河南虽是中部大省,但对外宣传远远不足,尤其是身处大别山腹地的信阳。信阳除了拥有丰富的有形红色资源,还拥有国家级非物质文化遗产“大别山民歌”和皮影戏,如《八月桂花遍地开》等红色歌曲,罗山、商城县的《红色的种子》《桐柏儿女》《林海雪原》《烽火山》等皮影戏剧目;近些年出版了《大别山革命简史》《红色印记》等红色文化书籍,编著了《固本清源》《化人文鉴》等党内政治文化建设读物。如何将这些资源整合,并建立一个有效获取和共享利用的网络服务平台,基于语料库的资源提取和整合是很切实可行的方式。大别山红色资源汉英平行语料库,在红色文化和“互联网+”时代下的对外宣传之间架起桥梁,以更迅捷、更立体的渠道传播大别山红色文化。
四、大别山红色资源汉英平行语料库的设计思路
拟建的语料库是可用于大别山精神研究及红色文化宣传的汉英平行语料库。该库由多个子库组成,收录原始语料约100万字,库容300万字的语料库(红色旅游景点、红色教育基地、红色非物质文化遗产代表性语料的集合)。该库集合多种功能软件,如自动分词软件、自动标注软件、检索系统软件等。该库应能为相关领域的河南省外宣语料库的建设,作一些理论上的探讨和实践上的尝试,为大别山精神研究提供一个可共享的数据平台。
在建库过程中可运用国内外语料库建设和研究的相关理论,选取有效的代表性样本和研究工具,开展研究工作。在项目实施过程中进行技术工具设计和平台建设。工具主要包括建库工具和检索工具,而平台则包括语料库单机检索平台和网络检索平台。
大别山红色资源汉英平行语料库的建库流程可设计如下:(1)语料库的建库原则;(2)语料的选取与抽样;(3)语料的校对和录入;(4)语料的分词和标注;(5)语料的对齐;(6)语料库在线检索平台及术语库的生成。其中,在宏观上应着重考虑下述问题。
(一)语料库相关产业技术原则
与语料库相关的产业技术政策较少,目前通用的有以下两个:
其一,由中国标准研究中心编制的国家标准《建立术语语料库的一般原则和方法》(标准号:GB/T 13725-2001)于2001年11月发布,2002年6月1日起正式实施。该标准规定了建立术语语料库的一般原则和方法。适用于语料库的研究、开发、维护及有关管理工作。
其二,2018年11月19日,在改革开放40年与语言服务创新发展论坛暨2018中国翻译协会年会上,中国翻译协会发布了《语料库通用技术规范》。《语料库通用技术规范》是中国翻译协会为规范语料库市场推出的首部具有指导意义的行业规范,填补了我国乃至国际语料库规范领域的空白。该规范将为建设和科学评估语料库,推进语料库在翻译及语言服务、学术研究及其他相关领域中的应用,提供参考依据和标准。语料库研究的标准如此之少,反映了我国在这方面的研究水平与国外有很大差距,需要引起足够的重视。
(二)大别山红色资源汉英平行语料库的规模
“对于任何抽样语料库,在开始的时候必须确定它的规模大小。”该库可初定库容300万字,由多个子库组成,收录原始语料约100万字。“另外,如果一个语料库不能反映它所抽取的文件的规模和形态,那就是很危险的事情,这个语料库只能被视作不完整的材料集合,从这种由不完整材料所构成的语料库中只可得到少量的模式。”大别山红色资源丰富,在选取语料素材时如何对其进行科学的分类?拟建的语料库不应是大杂烩,可按类别分为以下三个子库:红色旅游景点、红色教育基地、红色非物质文化遗产(大别山民歌、皮影戏等)。三个子库下面针对不同的题材或重点也有其相关的子库。
大别山红色文化形式多样,如何将图片、文本、音頻、视频等整合到一起,也是应考虑的问题。语料库是典型的跨学科研究和应用,以汉英平行语料库为例,它涉及英汉语言学、翻译学、计算机、机器翻译和机辅翻译等领域。对于本项目中涉及的文本、音频和图像等多模态语料(如红色民歌、皮影戏),在建库过程中可根据研究目的采用已有的加工工具(如ELAN)进行处理和标注。
(三)大别山红色资源汉英平行语料库的语料选取与抽样
本语料库语料选取可考虑下面三个渠道:第一,从权威的官方发行物(书籍、期刊、音视频等)收集语料;第二,从非发行物(如网站、旅游推介资料)中选取,在此过程中需要注意语料的准确性,应进行权威的校对和修订;第三,针对部分翻译不全、错译较多或没有对应英文的语料,可选择自己制作电子文本。为确保取样的代表性和权威性,抽样时使用分层选样的方法,在汉语语料中确认三个不同的文本领域后,在每一类文本中采用随机抽取的方法取得样本。
(四)大别山红色资源汉英平行语料库的分词和标注
由北京外国语大学王克非教授主持的全国哲社科重大项目“大规模英汉平行语料库的建立与加工”中曾提出,“为了增强语料库的开放性,鉴于目前句法标注技术和语义标注技术尚不成熟,研究中只对语料库进行词性标注,不宜进行句法标注和语义标注,但语料库应采用通用的翻译记忆库格式保存,以方便交流”。本库的标注也适用于该技术原则。
(五)相关术语库的生成
红色文化翻译的关键和难点在于地方文化专有名词和红色文化相关术语。关键术语和专有名词的翻译关系着术语一致性和译文质量,因此,其在大别山红色资源汉英平行语料库建设中享有重要地位。在大别山红色资源汉英平行语料库的研制阶段,应将术语库的自动生成作为大别山红色资源汉英平行语料库的主要构成部分和技术目标。一方面,在建库过程中可借鉴谷歌神经网络翻译系统或Trados、雅信等CAT机辅翻译软件,或借助在线辅助翻译系统MemoQ的术语库创建和生成步骤,将对齐后的汉英平行文本导入数据库,以自动生成基本的术语表。另一方面,也可利用自然语言处理或语料库技术,加以人工干预,在保证准确性和一致性的前提下对相关术语和专有名词进行自动抽取。 五、大别山红色资源汉英平行语料库拟实现的预期效益
首先,大别山红色资源汉英平行语料库建成后,使用通用语料库检索软件均能检索该库。它可为河南省的外宣工作,如文化、旅游、品牌形象宣传等,提供一个在线的检索平台,也可作为河南省外宣翻译工作者的参考资料库使用。
其次,对于2019年10月26日河南省信阳市委市政府携同大别山革命老区高校联盟、信阳师范学院共同成立的大别山精神研究院,该库可提供大量有据可寻的真实语料和规范的英汉文本,对“大别山精神”的形成、内涵及其时代价值提供更广阔的视野,为大别山精神研究、红色文化研究、地方研究(如方言研究和保护)提供多样性的素材。
再次,该研究项目将打破学科壁垒,促进语言学、历史、计算机技术、机器翻译、机辅翻译等学科的交叉融合,以更广阔的历史视野和跨学科背景,来研究大别山精神。拟建的语料库在充分发挥学科群协同效应的基础上,将在传承发展大别山精神、传播弘扬红色文化方面做出特色,进而促成大别山精神的研究提档升级,使研究工作能进入国家层面,大别山精神真正进入国家层级。
最后,在大别山红色资源汉英平行语料库构建过程中标记的双语语料,可以作为翻译记忆的材料,进而为以后的红色资源或红色旅游翻译工程、或建立更大型的相关平行语料库,提供良好的范式和参考。
六、结语
语料库是典型的跨学科研究和应用,它涉及计算机、机器翻译、机辅翻译、翻译学和英汉语言学等领域,随着信息技术的迅猛发展,特别是大型数据库和机器翻译技术(如谷歌的神经网络翻译技术)的日趋普及和成熟,语料库将更多地运用到语言研究、历史研究、文化宣传等工作中。如何弘扬革命精神、传承红色基因,基于语料库的大别山精神宣传和大别山精神研究在河南省相关领域尚属空白,拟建的大别山红色资源汉英平行语料库,可提供大量有据可寻的真实语料和规范的英译文本,可为大别山精神研究、红色文化研究、地方研究和翻译研究等提供规范、翔实的素材和切实可靠的科研数据平台。
参考文献:
[1] Kress G. &van Leeuwen T.,Reading Image:The Grammar of Visual Design[M]. London/New York:Routledge,1996:183.
[2] McEnery,T. & Xiao,Z. Parallel and Comparable Corpora:What Is Happening?[C]//In M. Rogers and G. Anderman(eds). Incorporating Corpora. The Linguist and the Translator. Clevedon:Multilingual Matters,2007:18-31.
[3] 顧曰国. 多媒体、多模态学习剖析[J]. 外语电化教学,2007(2):3-12.
[4] 洪增流,朱玉彬. 安徽外宣翻译双语平行语料库建设的构想[J]. 合肥师范学院学报,2008(2):101-103.
[5] 孟玲云. 文化自信视野下红色文化的培育[J]. 四川省社会主义学院学报,2017(04):62-64.
[6] 王克非. 新型双语对应语料库的设计与构建[J]. 中国翻译,2004(6):73-75.
[7] 王克非. 中国英汉平行语料库的设计与研制[J]. 中国外语,2012(6):23-27.
[8] 王克非,熊文新. 用于翻译教学与研究的英汉对应语料库加工处理[J]. 外语电化教学,2009(6):3-9.
[9] 魏黎. 红色旅游英译及英汉语料库的构建:以安徽省为例[J]. 湖北经济学院学报,2018(1):111-114.
[10] 肖忠华. 肖忠华语料库语言学答客问[J]. 语料库语言学,2015(2):1-14.
[11] 谢家成. 小型英汉平行语料库的建立与运用[J]. 解放军外国语学院学报,2004(3):45-48.
[12] 杨明星,吴丽华. “互联网+”背景下多模态、多语种外交话语平行语料库设计与创建探析[J]. 外语教学,2018(6):13-17.
[13] 周杰,陈娟. 贵州对外宣传平行语料库的建设和应用[J]. 贵州大学学报(社会科学版),2013(3):147-152.
关键词: 大别山精神; 平行语料库; 语料
中图分类号: H315.9 文献标志码: A 文章编号: 1671-2153(2020)04-0093-05
大别山是中国共产党重要的建党基地,也是中国革命走向全面胜利的战略转折地,创造了“28年红旗不倒”的奇迹,留下了厚重的红色文化遗产,孕育了“坚守信念、胸怀全局、团结奋进、勇当前锋”的大别山精神。信阳是大别山革命老区的重要组成部分,也是红色旅游的经典路线。
2019年9月,习近平总书记在河南考察,来到信阳鄂豫皖苏区首府革命博物馆,缅怀革命先烈,追忆峥嵘岁月,提出“要讲好党的故事、革命的故事、根据地的故事、英雄和烈士的故事”,这既让我们看到新时代传承红色基因的重要意义,也让我们思考如何研究好红色历史、讲述好红色故事、传播好红色声音。
2019年10月26日,河南省信阳市委市政府携同大别山革命老区高校联盟、信阳师范学院共同成立大别山精神研究院。这是学习贯彻习近平总书记考察调研河南重要讲话精神、促进大别山革命老区振兴发展的一项重大举措,为进一步研究、阐释和宣传大别山精神提供了重要平台,对于统筹推进大别山革命老区可持续发展意义重大。
一、国内外相关领域建设现状和趋势
语料库是以大量收集的客观语料为基础的文本集合。双语平行语料库就是源语文本和目标语文本经过机器和人工采集校对后,进行词(术语)、句级或段级层面的对齐,再辅以相应的检索和查询工具,从而使对齐的语料发挥实用价值。近年来,无论是在语言信息处理领域还是语言学研究领域,语料库的重要作用均已经得到充分的认可,国际国内在语料库的建设和研究方面均做了大量的工作。
关于语料库的研究及建设方面,西方发达国家一直处在领先水平和前沿阵地。很多成果已成功服务于信息检索、专业领域翻译、翻译记忆、信息检索、计算机辅助教学、语言教学与文化研究等各个领域。就国内语料库建设而言,虽落后于发达国家,但也取得了一定成效,在旅游、科技、军事、经济、农业等领域建立了一些知名的专业语料库。如北京外国语大学王克非教授主持的汉英通用型对应语料库、香港理工大学构建的旅游资源双语语料库、山东旅游资源平行语料库、全国科学技术名词审定委员会在线语料库、上海交通大学的科技英语语料库、解放军外语学院的军事英语语料库和新闻政论语体俄语语料库、北京第二外国语学院的全国公示语翻译语料库、中国农业科学院的多语种农业词库和农业翻译平台等。国内相关领域的语料库虽然不多,但通过文献检索发现,一些政府机构和高校或研究机构人员已着手建设或构想语料库设计模式。拟构建的语料库有:贵州外宣双语语料库、安徽红色旅游双语语料库、安徽外宣翻译双语平行语料库、南昌英汉红色文化平行语料库、赣南红色旅游英汉平行语料库。这些地方性的特定用途平行语料库将能高效宣传当地的独特资源,从而提升地方品牌和影响力。而针对于大别山精神传播、红色资源宣传、旅游及外宣领域的语料库构建和研究,在河南省尚属空白,鉴于此,构建大别山红色资源平行语料库,既可以汲取上述已建库者的宝贵经验,也可以以点带面,进一步为河南焦裕禄精神、红旗渠精神及相关文化传播和旅游宣传,提供良好的案例和相关技术支撑。
二、河南省大别山红色资源汉英平行语料库构建的意义
(一)理论研究的意义
首先,拟构建的语料库是一个多模态平行语料库,对音频、视频和文字语料等多种信息进行集成,这将为大别山精神的传播和研究提供一个很好的范式和便捷的入口。其次,建成的语料库提供大量有據可寻的真实语料,除红色旅游资源和红色教育基地领域,还包括地方方言和习俗、地方红色文化历史、红色艺术作品的素材,也将服务于翻译研究、红色文化研究、地方研究等。尤其是翻译研究,越来越注重地方化特点,基于语料库对比的翻译研究和文化研究也是国际相关学术领域的前沿阵地。拟建的语料库对于本省乃至全国各类研究机构的涉豫涉红色文化的翻译理论和实践研究、文化研究,可提供一个较全面而权威的资源库。
(二)实践意义
大别山红色资源语料库对于信阳乃及河南的对外宣传、走向国际、旅游品牌提升和留存革命史料等方面具有积极的意义。作为革命老区,各级政府一直关注信阳的发展,中央也提出弘扬大别山精神,充分发挥红色资源优势。建立相应的红色资源语料库,抓住面临的时代机遇,也是响应国家总体发展规划,顺应时代发展的需要。拟建的语料库对相关文本及术语翻译进行规范和统一,对信阳的红色资源文化进行整合和归类,这其中涵盖许多并未被充分挖掘和宣传的红色资源。对于提升城市品牌和保存多样性的红色资源具有很好的实践意义。
就翻译教学和信阳旅游业本地化翻译服务而言,语料库的权威性、动态性、真实性是一般辅助工具和人力无法替代的。翻译的实施越来越注重机器辅助和语料的支持,本语料库可容纳大量权威、具有时代特色的中英文例句,将其应用到翻译教学中,可促进高质量翻译人才的培养。其次,语料库构建过程中标记的双语语料可以作为翻译记忆的材料,进而为以后的红色文化翻译工程提供良好的范式和参考。
三、构建河南省大别山红色资源汉英平行语料库的紧迫性
(一)提升大别山红色旅游和红色教育基地相关文本的英译质量
信阳遍布红色旅游景区和红色教育基地,如新县鄂豫皖苏区首府、许世友将军故里、商城县金刚台红军洞群、罗山县何家冲红二十五军长征出发地、光山县邓颖超祖居等景点或旧址;以及信阳“不忘初心、牢记使命”主题教育展馆、大别山干部学院、信阳马克思主义学院、鄂豫皖革命纪念馆、何家冲学院等主题教育基地。但通过实地调研一些红色旅游景点和教育基地发现,相关文本翻译问题凸显,如文化误译、错译、漏译、语法错误、语用失误、专有名称译文不一致等问题十分常见。在创建语料库过程中,专家会对这些语料进行整理,进行反复的校对和修订,确保语料的规范与准确。拟建的语料库也会对漏译的文本进行补充,这将使大别山的红色资源英译得到一定程度的改善。 (二)传播大别山红色文化
河南虽是中部大省,但对外宣传远远不足,尤其是身处大别山腹地的信阳。信阳除了拥有丰富的有形红色资源,还拥有国家级非物质文化遗产“大别山民歌”和皮影戏,如《八月桂花遍地开》等红色歌曲,罗山、商城县的《红色的种子》《桐柏儿女》《林海雪原》《烽火山》等皮影戏剧目;近些年出版了《大别山革命简史》《红色印记》等红色文化书籍,编著了《固本清源》《化人文鉴》等党内政治文化建设读物。如何将这些资源整合,并建立一个有效获取和共享利用的网络服务平台,基于语料库的资源提取和整合是很切实可行的方式。大别山红色资源汉英平行语料库,在红色文化和“互联网+”时代下的对外宣传之间架起桥梁,以更迅捷、更立体的渠道传播大别山红色文化。
四、大别山红色资源汉英平行语料库的设计思路
拟建的语料库是可用于大别山精神研究及红色文化宣传的汉英平行语料库。该库由多个子库组成,收录原始语料约100万字,库容300万字的语料库(红色旅游景点、红色教育基地、红色非物质文化遗产代表性语料的集合)。该库集合多种功能软件,如自动分词软件、自动标注软件、检索系统软件等。该库应能为相关领域的河南省外宣语料库的建设,作一些理论上的探讨和实践上的尝试,为大别山精神研究提供一个可共享的数据平台。
在建库过程中可运用国内外语料库建设和研究的相关理论,选取有效的代表性样本和研究工具,开展研究工作。在项目实施过程中进行技术工具设计和平台建设。工具主要包括建库工具和检索工具,而平台则包括语料库单机检索平台和网络检索平台。
大别山红色资源汉英平行语料库的建库流程可设计如下:(1)语料库的建库原则;(2)语料的选取与抽样;(3)语料的校对和录入;(4)语料的分词和标注;(5)语料的对齐;(6)语料库在线检索平台及术语库的生成。其中,在宏观上应着重考虑下述问题。
(一)语料库相关产业技术原则
与语料库相关的产业技术政策较少,目前通用的有以下两个:
其一,由中国标准研究中心编制的国家标准《建立术语语料库的一般原则和方法》(标准号:GB/T 13725-2001)于2001年11月发布,2002年6月1日起正式实施。该标准规定了建立术语语料库的一般原则和方法。适用于语料库的研究、开发、维护及有关管理工作。
其二,2018年11月19日,在改革开放40年与语言服务创新发展论坛暨2018中国翻译协会年会上,中国翻译协会发布了《语料库通用技术规范》。《语料库通用技术规范》是中国翻译协会为规范语料库市场推出的首部具有指导意义的行业规范,填补了我国乃至国际语料库规范领域的空白。该规范将为建设和科学评估语料库,推进语料库在翻译及语言服务、学术研究及其他相关领域中的应用,提供参考依据和标准。语料库研究的标准如此之少,反映了我国在这方面的研究水平与国外有很大差距,需要引起足够的重视。
(二)大别山红色资源汉英平行语料库的规模
“对于任何抽样语料库,在开始的时候必须确定它的规模大小。”该库可初定库容300万字,由多个子库组成,收录原始语料约100万字。“另外,如果一个语料库不能反映它所抽取的文件的规模和形态,那就是很危险的事情,这个语料库只能被视作不完整的材料集合,从这种由不完整材料所构成的语料库中只可得到少量的模式。”大别山红色资源丰富,在选取语料素材时如何对其进行科学的分类?拟建的语料库不应是大杂烩,可按类别分为以下三个子库:红色旅游景点、红色教育基地、红色非物质文化遗产(大别山民歌、皮影戏等)。三个子库下面针对不同的题材或重点也有其相关的子库。
大别山红色文化形式多样,如何将图片、文本、音頻、视频等整合到一起,也是应考虑的问题。语料库是典型的跨学科研究和应用,以汉英平行语料库为例,它涉及英汉语言学、翻译学、计算机、机器翻译和机辅翻译等领域。对于本项目中涉及的文本、音频和图像等多模态语料(如红色民歌、皮影戏),在建库过程中可根据研究目的采用已有的加工工具(如ELAN)进行处理和标注。
(三)大别山红色资源汉英平行语料库的语料选取与抽样
本语料库语料选取可考虑下面三个渠道:第一,从权威的官方发行物(书籍、期刊、音视频等)收集语料;第二,从非发行物(如网站、旅游推介资料)中选取,在此过程中需要注意语料的准确性,应进行权威的校对和修订;第三,针对部分翻译不全、错译较多或没有对应英文的语料,可选择自己制作电子文本。为确保取样的代表性和权威性,抽样时使用分层选样的方法,在汉语语料中确认三个不同的文本领域后,在每一类文本中采用随机抽取的方法取得样本。
(四)大别山红色资源汉英平行语料库的分词和标注
由北京外国语大学王克非教授主持的全国哲社科重大项目“大规模英汉平行语料库的建立与加工”中曾提出,“为了增强语料库的开放性,鉴于目前句法标注技术和语义标注技术尚不成熟,研究中只对语料库进行词性标注,不宜进行句法标注和语义标注,但语料库应采用通用的翻译记忆库格式保存,以方便交流”。本库的标注也适用于该技术原则。
(五)相关术语库的生成
红色文化翻译的关键和难点在于地方文化专有名词和红色文化相关术语。关键术语和专有名词的翻译关系着术语一致性和译文质量,因此,其在大别山红色资源汉英平行语料库建设中享有重要地位。在大别山红色资源汉英平行语料库的研制阶段,应将术语库的自动生成作为大别山红色资源汉英平行语料库的主要构成部分和技术目标。一方面,在建库过程中可借鉴谷歌神经网络翻译系统或Trados、雅信等CAT机辅翻译软件,或借助在线辅助翻译系统MemoQ的术语库创建和生成步骤,将对齐后的汉英平行文本导入数据库,以自动生成基本的术语表。另一方面,也可利用自然语言处理或语料库技术,加以人工干预,在保证准确性和一致性的前提下对相关术语和专有名词进行自动抽取。 五、大别山红色资源汉英平行语料库拟实现的预期效益
首先,大别山红色资源汉英平行语料库建成后,使用通用语料库检索软件均能检索该库。它可为河南省的外宣工作,如文化、旅游、品牌形象宣传等,提供一个在线的检索平台,也可作为河南省外宣翻译工作者的参考资料库使用。
其次,对于2019年10月26日河南省信阳市委市政府携同大别山革命老区高校联盟、信阳师范学院共同成立的大别山精神研究院,该库可提供大量有据可寻的真实语料和规范的英汉文本,对“大别山精神”的形成、内涵及其时代价值提供更广阔的视野,为大别山精神研究、红色文化研究、地方研究(如方言研究和保护)提供多样性的素材。
再次,该研究项目将打破学科壁垒,促进语言学、历史、计算机技术、机器翻译、机辅翻译等学科的交叉融合,以更广阔的历史视野和跨学科背景,来研究大别山精神。拟建的语料库在充分发挥学科群协同效应的基础上,将在传承发展大别山精神、传播弘扬红色文化方面做出特色,进而促成大别山精神的研究提档升级,使研究工作能进入国家层面,大别山精神真正进入国家层级。
最后,在大别山红色资源汉英平行语料库构建过程中标记的双语语料,可以作为翻译记忆的材料,进而为以后的红色资源或红色旅游翻译工程、或建立更大型的相关平行语料库,提供良好的范式和参考。
六、结语
语料库是典型的跨学科研究和应用,它涉及计算机、机器翻译、机辅翻译、翻译学和英汉语言学等领域,随着信息技术的迅猛发展,特别是大型数据库和机器翻译技术(如谷歌的神经网络翻译技术)的日趋普及和成熟,语料库将更多地运用到语言研究、历史研究、文化宣传等工作中。如何弘扬革命精神、传承红色基因,基于语料库的大别山精神宣传和大别山精神研究在河南省相关领域尚属空白,拟建的大别山红色资源汉英平行语料库,可提供大量有据可寻的真实语料和规范的英译文本,可为大别山精神研究、红色文化研究、地方研究和翻译研究等提供规范、翔实的素材和切实可靠的科研数据平台。
参考文献:
[1] Kress G. &van Leeuwen T.,Reading Image:The Grammar of Visual Design[M]. London/New York:Routledge,1996:183.
[2] McEnery,T. & Xiao,Z. Parallel and Comparable Corpora:What Is Happening?[C]//In M. Rogers and G. Anderman(eds). Incorporating Corpora. The Linguist and the Translator. Clevedon:Multilingual Matters,2007:18-31.
[3] 顧曰国. 多媒体、多模态学习剖析[J]. 外语电化教学,2007(2):3-12.
[4] 洪增流,朱玉彬. 安徽外宣翻译双语平行语料库建设的构想[J]. 合肥师范学院学报,2008(2):101-103.
[5] 孟玲云. 文化自信视野下红色文化的培育[J]. 四川省社会主义学院学报,2017(04):62-64.
[6] 王克非. 新型双语对应语料库的设计与构建[J]. 中国翻译,2004(6):73-75.
[7] 王克非. 中国英汉平行语料库的设计与研制[J]. 中国外语,2012(6):23-27.
[8] 王克非,熊文新. 用于翻译教学与研究的英汉对应语料库加工处理[J]. 外语电化教学,2009(6):3-9.
[9] 魏黎. 红色旅游英译及英汉语料库的构建:以安徽省为例[J]. 湖北经济学院学报,2018(1):111-114.
[10] 肖忠华. 肖忠华语料库语言学答客问[J]. 语料库语言学,2015(2):1-14.
[11] 谢家成. 小型英汉平行语料库的建立与运用[J]. 解放军外国语学院学报,2004(3):45-48.
[12] 杨明星,吴丽华. “互联网+”背景下多模态、多语种外交话语平行语料库设计与创建探析[J]. 外语教学,2018(6):13-17.
[13] 周杰,陈娟. 贵州对外宣传平行语料库的建设和应用[J]. 贵州大学学报(社会科学版),2013(3):147-152.