论文部分内容阅读
语料库支撑的系统功能语法研究是一个新的语言学研究视角,它的核心是在系统功能语法理论框架下实现语料库中生语料的半自动化和自动化句法检索、标注。在语料库支撑的系统功能语法研究中,理论研究与探索是建立在对自然发生语料的检索、标注、统计和分析基础之上,这使得系统功能语法研究更具有可验证性和客观性。另外,大规模语料支撑使得理论研究具有可验证性,经过标注的语料具有理论驱动性。系统功能语法理论之部分语言学信息的半自动化和自动化的语料检索、标注的实现,使得进行大规模语料标注成为可能,系统功能语法研究由此更深入、系统。
语料库支撑的系统功能语法研究的主要依据是系统功能语法与语料库语言学的理论兼容性和互补性。语料库语言学的学科属性属于哲学上的经验主义,认同功能语言学,二者的思想与方法源于弗斯(Firth)的语言学理论。二者共同的经验哲学观都把语言视为一种社会现象,以语言使用、自然语篇为基础来研究语言的规律和特点,都认同意义即语言的社会使用。不仅如此,二者也都认同语言的概率本质,语料库的介入使得语言的形式、意义、功能和语境之间建立起一定的定量关系,语料库支撑的系统功能语法研究是通过对语料库的检索和分析来建立语言系统或语言现象的概率模型。
目前,国内的语料库研究和系统功能研究是分开的,系统功能语法主要是纯理论推导,也有基于单个或多个语篇分析,但很难说是语料库介入的研究。在国外,语料库和系统功能语法相结合的研究较多,分为基于语料库的系统功能语法研究和语料库驱动的系统功能语法研究,但这两种方法都未能恰当地将语料库植入系统功能语法研究之中。基于语料库的系统功能语法研究的理论色彩过于浓重,语料基本由人工标注,语料处理能力非常有限,语料库仅仅被用于简单地抽取支撑理论的例示,不具有语料验证性和理论驱动性,且语料缺乏规模性、客观性和代表性。语料库驱动的方法几乎完全放弃现有的系统功能语法理论研究成果,而单纯依靠语言直觉和非常有限的理论来观察分析语料和研究语言现象,因此这一研究方法使得语料库驱动研究难免有些肤浅并缺乏系统性。
语料库支撑的系统功能语法研究从以上两种研究方法的核心问题-语料句法标注的自动化或半自动化检索、标注和处理入手,使系统功能语法研究真正成为一种可验证的、客观性的、系统的理论探索研究。句法标注和检索自动化的关键是标注项和检索项可被自动化处理,从句法入手的自动化标注被理论和实践证明是行不通的,这就需要从语料自动化处理的词汇倾向性出发,试图达到部分句法标注和检索的目的。这种处理方式的关键是建立一种模型,其中包括两个方面:一是尽可能的将系统功能语法中有关元功能的句法意义模型化为可供自动标注和检索的模式;二是将能够自动处理的词汇项模型化为一定的模式,这种模式既要保证自动化处理,又要尽可能多地包含元功能句法意义。简言之,这一模型中理论尽可能具体化,语料尽可能抽象化。模型化的特性决定了自动化的标注和检索不能处理所有的元功能意义,因为有些元功能意义抽象化程度很高,它很难被模型化为可供自动处理的形式,即很难被自然语料接触到。
自动化和半自动化的语料处理,具体到操作上,是要通过以下措施来实现系统功能语法的部分理论的标注问题。从词汇倾向入手的语料句法标注和检索分为三个部分:首先是在系统功能语法理论框架下,建立小句成分线性共现的语法概率模型;二是概念元功能的部分语言学信息的半自动化和自动化句法检索、标注和处理;三是语篇元功能的衔接系统理论模型化及其检索。从词汇倾向入手的语料句法标注和检索,始于小句成分线性共现研究。语法可表征为词汇纵向选择网络,词汇研究是词类系统的纵向选择即线性共现的研究。线性共现把节点词的功能具体化,建立一个词类系统选择的概率模型,把词语使用规约性量化为一定的使用功能概率模型,它是有效探讨句法成分概率及句法跨语篇概率的基础和前提。
语料库支撑的系统功能语法研究中,概念元功能的部分句法赋码应从词汇构建体验为图型的系统概率选择开始,从词汇倾向性入手来解决小句句法赋码的基本思路如下:首先,要设定研究层面的具体内容,如对元功能的研究;其次,要具体化各个研究问题到词汇上,把各个元功能的特点形式化为词汇形式或正则表达式的检索询问项,然后通过检索询问项的方式对生语料检索,并对检索到的语料进行人工筛选;最后,对经过筛选并符合元功能特点的语料进行自动赋码。这种自动赋码加人工筛选的半自动生语料赋码方法,克服了手工赋码费时耗力的缺点,它具体分为以下七个步骤:1)使用软件进行语篇词汇频率列表;2)根据研究的不同方面对词汇列表中的词汇进行检索和标记归类;3)使用根据系统功能语法设计的软件导入文件;4)根据要研究的方面和系统功能语法调整和设计赋码框架;5)导入标记框架;6)根据语言特征编辑检索询问项并对检索到的所有小句进行筛选,去除不符合语言特征的小句,如果检索例外结果显示检索设置未对某些语言现象或单词频率列表中的检索词加以定义,先定义检索项和检索词;7)对符合语言特征条件的小句进行自动赋码,然后手工筛选不能赋码的项目或重新定义相关特征。系统功能语法的概念元功能意义上的句法赋码的理论模型化,本质上是理论被词汇化为可供检索的模式,这种模式化是部分概念元功能意义上的模型化,而并非所有概念元功能意义,全部意义模型化会使研究完全局限于一个系统框架,其研究结构势必对语料分析有先见之嫌。再者,由于完全标注费时费力,导致语料库规模小且研究缺乏客观性。
语料库支撑的系统功能语法研究,关于部分语篇元功能的理论模型化与概念元功能略有不同。语篇元功能的衔接系统模型化,即衔接系统被表征为可检索的词型和正则表达式。它的理论模型化具体是建立有关不同衔接意义的语篇词汇集,然后把这些代表不同衔接意义的同义或反义、上下义或部分整体词汇集制作成检索列表,并以检索列表项为检索词或序列对语篇进行检索,这一模型化主要分三步:1)确定衔接系统的研究问题;2)根据研究问题,通过列举上下义成员关系建立上下义或其它关系词汇集;3)根据词汇集建立检索列表,如有必要,可建立与之相关附属语境词集。最后,对不同衔接意义词汇集的检索的相对频率关系进行分析、比较和推理,从而得出有关衔接系统的概率模型。