论文部分内容阅读
比较语言研究对语言学研究有着重要作用,它有利于促进语言分类,并帮助我们了解不同语言的特性。对比语言学是比较语言研究中的三种类型之一,其定义为:“对比语言学可以看作是比较语言学的一个分支,主要调查社会文化相关联的‘语言对’之间的关系。”(Gast 2012)。K?nig(2012)提出了对比语言学议程的基本组成部分:(i)共时取向,(ii)粒度,(iii)“语言对”比较,(iv)观点,(v)可证伪性,(vi)理论框架。对比语言学以社会文化相关的语言为研究对象,这对应用语言学领域(例如外语教学或翻译)有实际应用价值。西方的对比语言学研究通常会忽略对东方语言(例如汉语)进行比较,而在国内,近年来对比语言学得到了较大的发展,为从事汉语研究的西方语言学家提供了非常有价值的成果,从而得以对东方语言与西方语言的对比研究提供充足的研究基础。在语法方面,前人研究的范围很广,涉及主题、直接宾语、双重宾语和属性等的研究。在以前对汉语和法语的句法研究中,可以窥探到对中法之间的差异和相似性仍然了解甚少。对汉语和法语进行对比语言学方面的研究,一方面需要弥补西方相关研究的空白,另一方面需要补充对比句法研究。为了填补这一空白,我们必须回答以下两个问题:(i)通过对汉法双语进行对比语言学分析,汉法两种语言分别倾向于使用哪种句法结构?(ii)汉法双语内部的句法结构如何相对应?如何确定汉语在法语中相对应的句法结构?对于两种语言的类似结构,问题是一样的。正如Barlow(2008:102)所说:“首先我们需要调查两种语言的语法结构,找出他们的相似结构(例如被动结构),因此有必要通过形式上的对等结构用法来确认两种语言的对应关系。”因此,我们需要采取定量方法来研究上述两个问题。该篇论文中采用的对比语言学研究基于以下原则:(iii)当我们发现了相关语言现象并能用可靠的理论概念描述时,我们需要在语言使用中的分布情况观察,也就是依赖于真实的自然语言数据进行观察。采取基于语料库的方法不仅有利于规避过度概括的风险,也有利于学者从大量真实自然数据中总结相关模式经验(Schmied2004:91)。Hasselg?rd(2010)引用Johansson(1999:117)并强调:“过去的对比研究主要关注抽象意义上的比较语言系统(或其中的一部分语言),但现在语料库为我们提供了对比语言的工具”。自此,语料库在对比语言学中的使用已较为普及(例如Johansson 1998,2000;Granger等人2003;Schmied 2008;Gast2012)。基于语料库的对比研究一般使用两种类型的多语言语料库:翻译语料库和可比语料库(Schmied 2009:1141)。研究人员可使用平行语料库调查特定语言的偏好(Schmied 2009;Gast 2012),平行语料库还可用于识别某种语言中的特定类别或形式在另一种语言中的对应类别或形式(Johansson 2007:10)。因此,我们可以使用这种多语种语料库研究汉法对比语言学的问题(i)和(ii)。就方法而言,平行语料库还具有另一大重要的优势——可以自然地提供“可以描述具有差异的‘相同背景’(James 1980:169)”(Granger 2010:5)。因为对比语言学注重语法,我们需要采用句法标注的平行语料库(即平行树库)。平行树库反映了源文本和目标文本之间的结构关系(Buch等人,2009:199)。有学者认为,构建平行树库是实验性对比句法领域的优先事项,“在我看来,构建这种语料库是近十年来以经验为导向的对比语言学所面临的挑战之一”(Gast 2015:32)。只有我们建立了足够大的汉语和法语平行树库,才能深入探究语言对的实验性对比句法关系,并回答诸如(i)和(ii)的问题。基于平行树库的语法对比,以语法不匹配的角度为出发点,可以更好地研究两种语言之间的差异,其中句法不匹配是两种语言的句法结构翻译之间的不同点。Igor Mel’?uk建议,在广义的释义(paraphrase)概念中加入句法不匹配现象。如果两个句子意义类似,那么他们就是彼此的释义(Mel’?uk 2012)。具有相似意思的两种不同语言的句子叫作语言间释义。释义的概念在意义-文本理论(MTT)中占有重要地位(Mel’?uk 1974,1988,2009,2012)。除此之外,MTT的优势在于可以描述所有语言层面,并为使用中的所有语言概念提出清晰明确的定义。因此,从对比语言学的角度来看,Mel’?uk的理论最适合于句法不匹配的研究。部分句子翻译中的句法不匹配现象需要在深度句法表征层面上处理,这些翻译是深度句法的释义。在这种程度上,深层句法的释义是我们研究的一个很好的起点。本论文的第一个主要目标是:(i)从汉法对比句法的角度出发,建立一种用于研究汉法深度句法语言间释义的多层平行树库的构建方法。该目标意味着要解决以下问题:(ia)为表层和深度句法标注制定良好的标注手册;(ib)寻找语料库注释的相关工具;(ic)探讨法语和汉语的句法现象,从而确保注释质量和对语法不匹配的良好描述。但是,我们在平行语料库中发现的许多句法不匹配无法在深度句法层面得到处理。因此,本论文的第二个目的是:(ii)描述树库中的语言间释义,该释义不仅出现在深度句法表征层面,也出现在语义和表层句法层面中。在树库构建过程中,我们不仅标注深度句法的释义,而且还将识别和收集其他类型的深度语法释义,同时也将分析所有示例。此外,我们也介绍了针对翻译过程的模型化,尤其是句法不匹配模型化所采用的不同方法,主要包括语言学和基于规则的机器翻译中的四种代表性方法。通过这篇综述,我们将能从对比语言学的角度提出对基于树库的句法不匹配研究的要求。在语言学上,第一个将翻译过程模型化的学者是Lucien Tesnière。Tesnière用Metataxis的名称描述了现行多种结构性翻译机制。Tesnière之后,德国语言学家Peter Koch解决了Metataxis的许多问题,表明其基本思想是扎实可行的。我们必须考虑机器翻译的研究者如何解决句法不匹配的现象。从对比语言学和一般语言学的角度来看,分布语言翻译(Distributed Language Translation)计划提出的解决方案存在两个问题。首先,我们无法在两种语言之间进行直接比较,因为分析需要通过第三种世界语语言系统。其次,该解决方案在很大程度上依赖于大量的百科全书和语言数据,而除了句法关系之外,没有提出任何概念,这将允许语言学家对语料库中的真实语言进行概括。Dorr也采用了国际语(interlingua)方法进行机器翻译,在语言理论和实际目标之间找到了有趣的折衷方案。基于Jackendoff的词汇概念结构(1990),作者能够对八种类型的句法不匹配进行建模。我们指出了Dorr语言方法的不足,即仅以位置来描述句子的句法组织结构会加大语言对比研究难度。除此之外,他也没有考虑其他语言层面,如信息结构方面。我们需要一个足够正式的理论框架,来描述在语言分析(=文本理解)和语言合成(=文本产生)中起作用的机制,同时还要考虑语言特质。接下来我们对用于句法不匹配模型化的理论框架进行了介绍,即意义-文本理论。意义-文本理论的主要任务是开发一种双向语言模型:它对说话者的合成和分析活动进行建模。MTT是转导的,形式化的和分层的过程。我们进一步介绍了语义表征层次和深度句法层次。在此框架中,我们在广义的释义概念中加入了句法不匹配。释义的定义为——与另一个句子在某种程度上意义相似的句子。语言的各个层面都具有相关释义类型:语义释义、深度句法释义、表层句法释义等。从汉法对比研究的角度看,在深度句法层面上描述的句法不匹配是该方面研究的良好起点。这是因为其释义规则很优雅,也因为它们介于语义和表层语法之间。我们也介绍了多层平行树库构建的方法。我们介绍了三个多层树库,即布拉格依存树库,Sequoia French树库和AnCora UPF树库。我们讨论了将MTT理论框架用于深度句法标注的优点,以及将其用于表层语法标注的不便之处。我们发现的三个不便之处是:耗时,难以与其他语言学研究进行比较,与自然语言处理中的其他树库标注体系不一致。直到最近,大多数树库还没有使用相同的注释方案进行标注,这种情况导致人们无法准确评估自然语言处理工具。为了解决此问题,Nivre(2015)启动开发了通用依存树库(Universal Dependencies)项目。通用依存树库主要用于自然语言处理任务,但对于语言学研究也很有价值(Croft et al.2017)。我们讨论了通用依存树库的句法功能定义,并介绍了用于树库的文学语料库。为了保证语料的质量和翻译的方向,我们决定使用著名的文学小说及其翻译。因此,我们使用傅雷对Romain Rolland的小说Jean-Christophe的第一卷翻译(Miao2012)。我们从半自动注释的角度解释了准备原始文本的过程,采用Python脚本(用于法语)和高质量工具(用于汉语)标注文本,使用Mate-tools(Bohnet2010)完成从词源化到句法分析的所有过程,随后对解析器的输出结果进行手动修正,通过图形转换器工具将其自动转换为深度句法(Mille et al.2017),并自动应用于基于语料库的来自语言分析选择的句法分析。通用依存树库主要讨论核心论元和间接格之间的区别,这两个概念的定义来自(Andrews 2007)。我们为法语和汉语提供了主要句法关系(包括nsubj,obj,iobj和obl)的语法属性,其中遇到的主要困难是汉语句法关系,因为其语法功能一直是一个长期争论不休的问题(例如Li&Thompson 1971,1981;LaPolla1990,1993;Huang&Li 1996;Morbiato 2018)。根据Tremblay和Beck的研究(Tremblay&Beck 2005;Tremblay&Beck 2007;Tremblay&Beck 2013),我们发现汉语翻译中,倾向于使用词序来标志句法关系,强调交际意图。根据(Peck2008),我们试图在通用依存树库的汉语标注手册里,对论元间接格与修饰间接格进行区分。之后本文探讨了汉语的词性。在手动修正树库的过程中,我们发现需要制定清楚界定的介词和后置词列表,因此提供了Paul(2015)提出的基于以上两种语态句法类别属性的列表。此外,我们讨论了在研究汉语时很难避免的“被”和“把”的问题,本文发现最好将“把”和“被”形式作为语法化动词来分析。在通用依存树库的框架之下,“被”和“把”的句法结构要用obj和xcomp来分析。此外,我们也对V1+V2结构进行了原始分析,基于意义-文本理论方法,以表层句法关系的概念对其进行研究,并描述了从表层语法到深度语法的转换规则。我们介绍了汉法双语共享结构的转换:辅助,介词等。然后,我们讨论了针对特定语言的转换规则。最后,我们对在树库中发现的中法语言间释义结构进行了描述。根据释义的三种不同类型对文本进行了划分,即语义,深度句法和表层句法。在这种程度上,接下来我们展示并分析了树库中的句法不匹配现象,并根据上面列出的不同类型的复述对这些示例进行了分类。我们发现许多句法不匹配现象经常使用法汉对比语法,例如涉及到汉语V1+V2构造的语法,这种现象我们只能从语义层面进行描述。对于仅基于句法标注语料库的法汉对比句法的定量研究而言,这就提出了一个重要的问题。另一方面,我们发现就研究句法不匹配而言,深度句法层面具有较好的前景,为其奠定了基础。确实,我们已经能够描述许多汉法不同句法结构的差异。只有在以上描述的树库构建过程中,并且通过语法不匹配的角度,我们才能够识别出这些有趣的法汉句法差异现象。