汉英文本对应单位转换分析—语料库驱动研究

来源 :河南师范大学 | 被引量 : 0次 | 上传用户:ontheroad2005
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
平行语料库研究是近年来语料库语言学横向发展的新趋势,人们已清楚认识到大规模高质量的平行语料库在自然语言处理、词典工具开发、比较语言学以及第二语言习得和教学等众多领域中的巨大价值。“对应单位”为平行语料库研究提供了一个新的理念。基于平行语料库研究双语文本“对应单位”的转换与分析,其主要意义在于,充分尊重语言事实,尊重翻译事实。“对应单位”被定义为“源语言和目标语言文本中任何可以识别的相互对应的语块”(李文中, 2006)。这一定义是一个宏观的概念,在实际操作中,需要对“对应单位”作一个更加易于操作的界定。为了便于研究,我们把一个“对应单位”分为“源语言对应单位(CUS)”和“目标语对应单位(CUT)”两部分。我们认为“对应单位”是一个由源语言对应单位和目标语对应单位组成的一个二元组。源语言对应单位和目标语对应单位应满足以下条件:(1)源语言对应单位在形式上应该是源语言文本中的具有语义自足性、句法自足性和边界动态性特征的一个词或者一组词。语义自足性是指源语言对应单位语义无歧义,其本身无歧义或已包含了消歧环境。句法自足性是指源语言对应单位内部各成分之间满足一定的句法关系并具有一定的复现性。边界动态性是指一个源语言对应单位可以扩展从而形成另一个大的源语言对应单位,或者可分解为更小的对应单位。提取过程中我们采取最小匹配原则,由小到大提取。实际运用中采取最大匹配原则,由大到小匹配。(2)目标语对应单位是源语言对应单位的翻译。这一翻译应改是该源语言对应单位的唯一翻译,如果有多个翻译,那么这些翻译应该是同义并且可互换的。本文从语料库语言学的视角,运用了语料库驱动的研究方法对“对应单位”这一面向应用提出的概念进行了初步研究。对“对应单位”的定义、识别标准进行了界定,并对其基本特征以及汉英文本“对应单位”的翻译转换关系进行了实证分析。主要研究问题如下:(1)“对应单位”以什么样的形式在哪些层面上存在?(2)源语言对应单位和目标语对应单位之间的对应关系是如何建立和维持的?研究目标为:(1)建立一个微型汉英平行语料库,并在其基础上建立一个汉英对应单位数据库;(2)初步构建“对应单位”这一概念的理论框架及其研究方法;(3)将“对应单位”这一理念初步运用到相关研究领域中去。本文详细介绍了语料库的建立和“对应单位”的提取流程。本研究中的使用的语料库是一个微型的自建汉英平行语料库,语料题材为政治评论。在软件辅助下,通过手工识别,我们得到了一个包含1064组“对应单位”的对应单位数据库。根据源语言对应单位的形式,我们将数据库分为四组,分别为单词级对应单位(CU-W)、多词单位级对应单位(CU-MWU)、小句级对应单位(CU-C)和句子级对应单位(CU-S)。基于对应单位数据库,我们对源语言对应单位和目标语对应单位之间的对应关系进行了考察,主要有对称对应和非对称性对应、直接对应和语法变化对应以及一对一对应和一对多对应三组对应关系。“对应单位”这一概念是面向应用提出的。从平行语料库中提取的“对应单位”可以被用作双语词典或者翻译知识数据库,这对翻译工作者和语言学研究人员将会有所裨益。不同级别的“对应单位”组成的对应单位数据库将会成为新一代汉英双语词典(纸质或者电子版)的基础并起将会逐渐替代传统的双语词典。对应单位数据库不仅会帮助和改进人工翻译,而且还会使机器翻译在有限领域的真实自然文本的自动翻译成为可能,如果对应单位数据库足够大的话,将会使机器翻译在更广的领域都得以进行。对应单位数据库还可以用于词义消歧、翻译质量监督以及语言学习等其它相关领域。“对应单位”的实际应用还有待于进一步研究和开发,一些理论和技术上的问题也有待后续研究。大型的汉英平行语料库建设和提取工具开发将会是下一步研究的重点。
其他文献
60年代末到70年代初,在欧美国家中兴起了妇女解放运动,这股女权运动的浪潮也波及到语言学,极大地推动了语言学家对性别问题的进一步研究。随着女权运动的兴起,社会语言学的发
龙岗秦简,是继1975年雲萝睡虎地秦简之後有關秦代律文的又一重要考古發现,是除了睡虎地秦简外最成系统的秦代法律文献。這批秦简不僅封秦代的法律研究具有不可估量的價值,同
语素是汉语研究中的重要内容,《汉语语法分析问题》中用10小结,介绍了与语素相关的问题,传统汉语研究中没有“语素”这一术语,“语素”是外来语,它是从英语morpheme翻译过来
“V个A”结构因其自身的特点,一直受到与法学界的关注,本文认为“V个A”有其特殊的构式意义和话语功能。本文试图揭示出这种构式意义及话语功能,并对其特殊构式意义的形成进
以战略环境影响评价的工作目标和评价内容为依据,分析了海洋可再生能源战略环境影响评价(SEA)指标体系的建立原则、建立方法和过程,建立了基于驱使力-状态-响应(DSR)模型的海
当今世界,英语已逐渐成为一种国际性的语言,其在全世界的广泛使用,使其包含的历史与文化不再仅仅只是盎格鲁-撒克逊时代的创造。就象西方社会的其他方面,英语也出现了全球化
本文通过系统解剖华南早古生代地层出露较好且加里东运动比较典型的地区,包括广西的元宝山、越城岭、大明山、大瑶山地区,黔东南三都地区,湘中涟源地区以及湘赣边境等地区,运
中药五味是中药药性理论的基本内容之一。目前中医界关于五味对应五行、五脏等关系的认识主要以《黄帝内经》为主,但《黄帝内经》中关于这部分内容的论述也有让人费解之处。
目的观察耳针结合体针治疗椎基底动脉供血不足性眩晕的临床疗效。方法选取广州中医药大学第二附属医院神经二科符合纳入标准的患者34例,利用简单随机化的方法,运用PEMS3.1软