论文部分内容阅读
摘要:本研究通过转写PETS-3口试录音,依据评分标准,从其语料中提取25个量化因素,然后运用多元逐步回归的方法建立PETS-3口试客观评分的预测模型,并用同一实验的其他数据验证该模型的可靠性。结果证明,该方法可行,而且对PETS-3口试分数的解释具有很好的意义。
关键词:全国英语等级考试 口语考试 客观评分
前言
全国英语等级考试(PETS)是一项标准参照考试,共有五个等级。由于该考试系统是一个包括了写作和口语的交际测试,因而其效度很高,越来越受到欢迎。如同其他许多口语考试的评分方法,其口语考试采取评分员等级评分方法。这种评分方法是目前众多口语测试中比较流行的评分方法。但同其他口语考试一样,PETS主观评分信度有时不是很理想。
影响口语考试信度的因素较多,其中主要是评分员自身评分的一致性(intra-rater consistency)问题及评分员之间评分的一致性(inter-rater consistency)问题。而这些不一致问题之所以出现,是因为这些评分标准都是描述性的文字,是定性的标准。而评分员对评分标准把握和理解不尽相同。有些人认为语音重要,有些人认为语法重要,也有些人认为内容重要等。此外,PETS是一项标准参照考试,但其标准也是定性的。这些定性的标准很难起到真正统一评分思想和行为的作用。因此,评分标准的客观量化显得极为有意义。
评分的客观化不仅是对考试信度(reliability)的贡献而且也是考试效度(validity)的保证。美国心理测量学会章程把效度定义为“由测验分数作出的推断的恰当程度、有意义程度和有用程度”。这说明效度是与根据测验分数作出的推断紧密地联系在一起的,它最终要落实到对分数的解释上,而评分方法直接影响得分和对分数的解释。因此,如果我们对PETS口试进行客观评分研究,这对提高其信度和效度都是十分有意义的(王佶文 2002)。
实验设计
为了解决主观评分带来的问题和更好的解释分数的意义,同时也为了给下一步计算机辅助口语测试自动评分研究打基础,我们开展了基于PETS口试语料的客观评分尝试。在本研究中,为了方便采集数据,我们只研究PETS-3口试,因为它适合于在校大学生。我们主要想探讨以下几个问题:是否能从PETS-3口语测试分项评分标准中提取一些可量化的因素?PETS-3口语测试客观评分方法是否可行?
44名学生参加了基于计算机网络的PETS-3口试。其录音先由两位考官按传统方法评分。在回顾了影响评分因素和当前主要几种口语评分方法后,我们提出了一种口语客观评分的方法。经过对其进行理论和操作意义上的定义,我们设计并开展一项基于自建的语料库的实证研究实验。我们从PETS-3口试分析性评分表中共提炼出25个量化了的指标。然后将从30个应试者的语音和转写的文本中提炼的数据与主观评分结果一起输入到SPSS中与主观评分结果一起进行多元逐步线性回归分析,得出相应的预测模型。然后,我们用同一实验的另外14个样本的数据来检验预测模型的效度和信度(项军平 2005)。
实验过程
口试录音转写
我们使用音频处理和分析软件Goldwave和Praat对录音进行播放、合成、处理和分析。在转写过程中,我们使用写作中的标点符号体系对转写文本进行断句。为了便于准确地进行自动分析,我们对其稍做调整,如我们使用破折号代替省略号。我们也用破折号对声音模糊的录音部分进行标注。对于那些发音错误,但仍然能听出来的单词,我们还是转写成其正确的形式。如果某个单词发音完全错误,或发成另一个单词,那我们就用红色将其标为错误。如果某些发音听起来缺少后缀,如“ed”, “ing” 等,我们将其标为语法错误。每个考生有两个录音转写文本文件。一个是所有内容的转写文本;一个是去掉了语法错误和重复等内容,只含有有效T-Unit的转写文本(Gaies 1980)。这样便于我们使用WordSmith软件提取相应的因素。我们运用Word 2000的查找功能来计算正确的T-Unit。
评分标准客观因素提取和量化
PETS-3口语测试分项评分标准有四项:语法与词汇;话语运用;语音;互动交际。根据这些评分标准的文字描述和相关理论,我们从口试语料中提取了25个量化因素。他们分别为:wds/CTUs(单词数/正确的T-Units数);CT/AT(正确的T-Units数/所有的T-Units数);T-Unit(T-Unit数);C T-unit( 正确的T-Units数);V Ratio(有效的类符/有效的形符); V type(有效的类符);V token(有效的形符);C Ratio(正确的类符/正确的形符);C type(正确的类符);C token(正确的形符);Pronunciation(语音得分);Time(有效口语表达时间); Fluency(有效口语表达的流利性);letter/wd(有效口语表达单词的平均长度);其他11个因素分别为含有1-10个字母及含有10个以上字母的单词数量。在所有的25个因素中,除Pronunciation(语音得分)外,其他24个因素都是通过软件提取的。
结果与讨论
在进行回归分析之前,我们首先对考生口试得分的信度和正态分布情况进行验证。结果表明,两位评分员之间的评分信度达到了0.864。这说明本次口试主观评分成绩信度较理想。 而且考生口试得分也基本趋于正态分布。这就为我们进行回归分析提供了必要的条件(秦晓晴 2003)。
然后,我们采用多元逐步回归的方法对数据进行统计分析。在回归分析过程中,25个提取的因素为自变量,主观得分为因变量。我们得出以下结果:
Table 1.Coefficients
aDependent Variable: FINAL
由于25个自变量数据没有进行标准化处理,所以我们回归模型中采用非标准化系数。例如,在模型4中,常数为“-0.288”;CTYPE系数为 “0.02095”;Fluency系数为“0.02057”;CTUNIT系数为 “-0.06432”;Pronunciation系数为“0.122”。其最后预测模型公式为:
Model 4:
Final Score=CType*0.02095+Fluency*0.02057-CTUnit*0.06432
+Pronunciation*0.122-0.288
同理,预测模型3公式为:
Model 3:
Final Score=CType*0.02801+Fluency*0.01728-CTUnit*0.06099+0.307
接着,我们用同一实验中的另外14个样本数据投入到两个模型中检验该模型的稳定性。结果证明,Model 3的结果与主观评分相关度为0.714; Model 4 为0.786。因此,Model 4为最佳预测模型。由于Model 3中没有包含语音的主观评分,其他均为客观因素,因此,模型3为客观评分预测模型。
模型3表明,正确的类符、有效口语表达的流利性和正确的T-Units数可以有效地预测口试成绩。让我们感到惊奇的是正确的类符最先进入模型,其预测能力最强;让人费解的是正确的T-Unit数在模型中的系数却是负值。尽管在其他试验中也有过类似发现(张文忠 ),但人们还没能对其进行很好的解释。
本次实验数据表明,人们在判断考生口语水平能力时,最关心的是其准确性、流利性、词汇量及语音等。这为我们今后培训学生英语口语具有很好的指导意义。
结束语
该项实证研究的意义在于它证明了口试客观评分的可能性;它能让人们理解该口试分数的含义;而且该试验所建立的模型将有助于下一步的口试自动评分研究的开展。其他口试系统可借用本研究方法来发现其口试分数的含义。与此同时,我们也意识到本研究所存在的问题和局限性。例如,本研究样本少,又没有经过分层抽样,因而其样本的代表性受到质疑。而且,这也影响到预测模型的稳定性。此外,一些较为重要的因素由于技术原因没有提取出来,如文章内容、逻辑思维能力等。因此,我们将在今后的研究中,通过自建相关语料库或使用已出版语料库,扩大语料选择范围和提高抽样的科学性,进一步提取更多因素进行因子分析、回归分析和采用结构方程模型等,通过改进统计手段,采用新技术等来提高口试客观评分模型的稳定性。
参考文献:
[1]Gaies, S. J. T-unit analysis in second language research: Applications, problems and limitations. TESOL Quarterly,1980.Vol.1:53-60.
[2]秦晓晴.外语教学研究中的定量数据分析[M].武汉:华中科技大学出版社,2003.
[3]王佶文.三类口语考试题型的评分研究[J].世界汉语教学,2002年,第4期,63-77.
[4]项军平.全国英语等级考试三级口试客观评分研究M.D. Dissertation, 2005.
[5]张文忠,吴旭东.第二语言口语流利性发展的定量研究[J].现代外语,2001年第4期:341-351.
本文系湖北师范学院2003年青年科研项目“计算机辅助PETS口语测试”项目成果之一.
关键词:全国英语等级考试 口语考试 客观评分
前言
全国英语等级考试(PETS)是一项标准参照考试,共有五个等级。由于该考试系统是一个包括了写作和口语的交际测试,因而其效度很高,越来越受到欢迎。如同其他许多口语考试的评分方法,其口语考试采取评分员等级评分方法。这种评分方法是目前众多口语测试中比较流行的评分方法。但同其他口语考试一样,PETS主观评分信度有时不是很理想。
影响口语考试信度的因素较多,其中主要是评分员自身评分的一致性(intra-rater consistency)问题及评分员之间评分的一致性(inter-rater consistency)问题。而这些不一致问题之所以出现,是因为这些评分标准都是描述性的文字,是定性的标准。而评分员对评分标准把握和理解不尽相同。有些人认为语音重要,有些人认为语法重要,也有些人认为内容重要等。此外,PETS是一项标准参照考试,但其标准也是定性的。这些定性的标准很难起到真正统一评分思想和行为的作用。因此,评分标准的客观量化显得极为有意义。
评分的客观化不仅是对考试信度(reliability)的贡献而且也是考试效度(validity)的保证。美国心理测量学会章程把效度定义为“由测验分数作出的推断的恰当程度、有意义程度和有用程度”。这说明效度是与根据测验分数作出的推断紧密地联系在一起的,它最终要落实到对分数的解释上,而评分方法直接影响得分和对分数的解释。因此,如果我们对PETS口试进行客观评分研究,这对提高其信度和效度都是十分有意义的(王佶文 2002)。
实验设计
为了解决主观评分带来的问题和更好的解释分数的意义,同时也为了给下一步计算机辅助口语测试自动评分研究打基础,我们开展了基于PETS口试语料的客观评分尝试。在本研究中,为了方便采集数据,我们只研究PETS-3口试,因为它适合于在校大学生。我们主要想探讨以下几个问题:是否能从PETS-3口语测试分项评分标准中提取一些可量化的因素?PETS-3口语测试客观评分方法是否可行?
44名学生参加了基于计算机网络的PETS-3口试。其录音先由两位考官按传统方法评分。在回顾了影响评分因素和当前主要几种口语评分方法后,我们提出了一种口语客观评分的方法。经过对其进行理论和操作意义上的定义,我们设计并开展一项基于自建的语料库的实证研究实验。我们从PETS-3口试分析性评分表中共提炼出25个量化了的指标。然后将从30个应试者的语音和转写的文本中提炼的数据与主观评分结果一起输入到SPSS中与主观评分结果一起进行多元逐步线性回归分析,得出相应的预测模型。然后,我们用同一实验的另外14个样本的数据来检验预测模型的效度和信度(项军平 2005)。
实验过程
口试录音转写
我们使用音频处理和分析软件Goldwave和Praat对录音进行播放、合成、处理和分析。在转写过程中,我们使用写作中的标点符号体系对转写文本进行断句。为了便于准确地进行自动分析,我们对其稍做调整,如我们使用破折号代替省略号。我们也用破折号对声音模糊的录音部分进行标注。对于那些发音错误,但仍然能听出来的单词,我们还是转写成其正确的形式。如果某个单词发音完全错误,或发成另一个单词,那我们就用红色将其标为错误。如果某些发音听起来缺少后缀,如“ed”, “ing” 等,我们将其标为语法错误。每个考生有两个录音转写文本文件。一个是所有内容的转写文本;一个是去掉了语法错误和重复等内容,只含有有效T-Unit的转写文本(Gaies 1980)。这样便于我们使用WordSmith软件提取相应的因素。我们运用Word 2000的查找功能来计算正确的T-Unit。
评分标准客观因素提取和量化
PETS-3口语测试分项评分标准有四项:语法与词汇;话语运用;语音;互动交际。根据这些评分标准的文字描述和相关理论,我们从口试语料中提取了25个量化因素。他们分别为:wds/CTUs(单词数/正确的T-Units数);CT/AT(正确的T-Units数/所有的T-Units数);T-Unit(T-Unit数);C T-unit( 正确的T-Units数);V Ratio(有效的类符/有效的形符); V type(有效的类符);V token(有效的形符);C Ratio(正确的类符/正确的形符);C type(正确的类符);C token(正确的形符);Pronunciation(语音得分);Time(有效口语表达时间); Fluency(有效口语表达的流利性);letter/wd(有效口语表达单词的平均长度);其他11个因素分别为含有1-10个字母及含有10个以上字母的单词数量。在所有的25个因素中,除Pronunciation(语音得分)外,其他24个因素都是通过软件提取的。
结果与讨论
在进行回归分析之前,我们首先对考生口试得分的信度和正态分布情况进行验证。结果表明,两位评分员之间的评分信度达到了0.864。这说明本次口试主观评分成绩信度较理想。 而且考生口试得分也基本趋于正态分布。这就为我们进行回归分析提供了必要的条件(秦晓晴 2003)。
然后,我们采用多元逐步回归的方法对数据进行统计分析。在回归分析过程中,25个提取的因素为自变量,主观得分为因变量。我们得出以下结果:
Table 1.Coefficients
aDependent Variable: FINAL
由于25个自变量数据没有进行标准化处理,所以我们回归模型中采用非标准化系数。例如,在模型4中,常数为“-0.288”;CTYPE系数为 “0.02095”;Fluency系数为“0.02057”;CTUNIT系数为 “-0.06432”;Pronunciation系数为“0.122”。其最后预测模型公式为:
Model 4:
Final Score=CType*0.02095+Fluency*0.02057-CTUnit*0.06432
+Pronunciation*0.122-0.288
同理,预测模型3公式为:
Model 3:
Final Score=CType*0.02801+Fluency*0.01728-CTUnit*0.06099+0.307
接着,我们用同一实验中的另外14个样本数据投入到两个模型中检验该模型的稳定性。结果证明,Model 3的结果与主观评分相关度为0.714; Model 4 为0.786。因此,Model 4为最佳预测模型。由于Model 3中没有包含语音的主观评分,其他均为客观因素,因此,模型3为客观评分预测模型。
模型3表明,正确的类符、有效口语表达的流利性和正确的T-Units数可以有效地预测口试成绩。让我们感到惊奇的是正确的类符最先进入模型,其预测能力最强;让人费解的是正确的T-Unit数在模型中的系数却是负值。尽管在其他试验中也有过类似发现(张文忠 ),但人们还没能对其进行很好的解释。
本次实验数据表明,人们在判断考生口语水平能力时,最关心的是其准确性、流利性、词汇量及语音等。这为我们今后培训学生英语口语具有很好的指导意义。
结束语
该项实证研究的意义在于它证明了口试客观评分的可能性;它能让人们理解该口试分数的含义;而且该试验所建立的模型将有助于下一步的口试自动评分研究的开展。其他口试系统可借用本研究方法来发现其口试分数的含义。与此同时,我们也意识到本研究所存在的问题和局限性。例如,本研究样本少,又没有经过分层抽样,因而其样本的代表性受到质疑。而且,这也影响到预测模型的稳定性。此外,一些较为重要的因素由于技术原因没有提取出来,如文章内容、逻辑思维能力等。因此,我们将在今后的研究中,通过自建相关语料库或使用已出版语料库,扩大语料选择范围和提高抽样的科学性,进一步提取更多因素进行因子分析、回归分析和采用结构方程模型等,通过改进统计手段,采用新技术等来提高口试客观评分模型的稳定性。
参考文献:
[1]Gaies, S. J. T-unit analysis in second language research: Applications, problems and limitations. TESOL Quarterly,1980.Vol.1:53-60.
[2]秦晓晴.外语教学研究中的定量数据分析[M].武汉:华中科技大学出版社,2003.
[3]王佶文.三类口语考试题型的评分研究[J].世界汉语教学,2002年,第4期,63-77.
[4]项军平.全国英语等级考试三级口试客观评分研究M.D. Dissertation, 2005.
[5]张文忠,吴旭东.第二语言口语流利性发展的定量研究[J].现代外语,2001年第4期:341-351.
本文系湖北师范学院2003年青年科研项目“计算机辅助PETS口语测试”项目成果之一.