论文部分内容阅读
自从语料库语言学首次在欧洲出现以后,借助语料库来研究语言现象已逐渐成为语言学研究中的一种主要方法。在信息科学的影响下,早在二十世纪五十年代语料库开始用于语言学以及心理语言学。在1992年Leech就这样总结:语料库是一种‘芝麻开门’它起到一种抛砖引玉的作用,将导致语言的新思维方式。在1996年Svartvik也指出语料库正在成为语言研究的主流,它提供了一种研究方法,而且提供了一种新的哲学思维模式。2003年Jurafsky在《概率语言学》中写到:各种证据表明语言是概率性的,而概率在语言理解和产生方面,能够对意义提取、分解和生成起作用。目前,我国以桂诗春等人为代表的语言学家也正在积极建设中国英语学习者语料库(the CLEC),它是目前国内最大的语料资源库。2004年桂诗春在《以概率为基础的语言研究》一文中指出:从本质上看,认知和作为它的一部分的语言都是概率现象。而语料库正是把概率作为其研究的出发点。 本研究采用以语料为基础的研究方法(corpus-based approach)对湖南大学的英语学习错误进行概率统计,设计一套相应的错误识别标注方案(Tag Set),并以湖南大学学生英语作文为素材,采集1,300份作文(约20万文字)并对此进行错误识别、标注以获取相关数据进行统计、分析。这一错误标注系统(the Hunan U Tag Set)参照现有的英国国家语料库(the BNC)中的两种标注方案:即其基本标注方案(the BNC Basic Tag Set)以及标注增补方案(the BNC Enriched Tag Set),在此基础上设计出针对湖南大学学生英语错误的标注系统。然后利用这一系统通过对语料中抽象的数据进行加权和组合,探讨采集对象在英语学习中存在的突出问题以及个体间语言错误的差异。文章认为通过对学习者使用过程中所出现的语言问题的频度进行分析,所获取的数据可以为英语教学提供参考。 首先,通过借鉴语料库对文字的编码系统和研究方法,即参照英国国家语料库(the BNC,i.e.British National Corpus)的标注方案C~5(the BNC Basic Tag set)和C~7(The BNC Enriched Tag Set)以及在了解中国英语学习语料库(the CLEC,i.e.Chinese Learner English Corpus)的现状和语料输入标注模式的基础上,本研究对原样(20万文字)进行语言错误识别处理:即对所有语料中的错误按不同类型进行数据采集——语言失误现象、语言错误以及中式英语。其次,通过对湖南大学语料进行错误数据采集,建立湖南大学错误识别标注系统(the Hunan U Tag Set),然后利用这一标注系统检验原样的每一类错误频度从而发现学习者共同存在的问题。从研究中获得的数据,比如:语言错误比例,某些具体的语言问题以及体现最高频度的最常见错误等等数据为教学评估提供了一定的参考价值。建立英语学习者语料库标注系统 为了检验本标注方案的可行性,保证数据收集的信度,本研究采用测试一重复测试信度模式(Test一Retest Rehability)—即分别对巧例个样和300例组样采用贝叶斯统计模式(the Bayes Medel),对所获取标注数据进行加权和组合(Synthesis and Weighing)。以概率为基础、根据对大量语料进行错误标注处理、通过对相关数据的加权和组合来对繁琐凌乱的语言材料进行数据化处理,利用所获取的数据来阐释语言现象,研究证明与繁琐凌乱的语言材料相比,前者更具有客观性和系统性。这种语言中数据的概率性,为英语教学中解释语言现象提供了有利途径。而且,湖南大学语料标注系统本身也在一定程度上体现了英语学习者在写作中的某些特征;此外,利用这一标注系统对个样和组样中所存在的问题的认识对英语教学也具有一定指导意义。