基于PETS口语测试语料的客观评分研究

来源 :考试周刊 | 被引量 : 0次 | 上传用户:sxx1203
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
  摘要:本研究通过转写PETS-3口试录音,依据评分标准,从其语料中提取25个量化因素,然后运用多元逐步回归的方法建立PETS-3口试客观评分的预测模型,并用同一实验的其他数据验证该模型的可靠性。结果证明,该方法可行,而且对PETS-3口试分数的解释具有很好的意义。
  关键词:全国英语等级考试 口语考试 客观评分
  
  前言
  
  全国英语等级考试(PETS)是一项标准参照考试,共有五个等级。由于该考试系统是一个包括了写作和口语的交际测试,因而其效度很高,越来越受到欢迎。如同其他许多口语考试的评分方法,其口语考试采取评分员等级评分方法。这种评分方法是目前众多口语测试中比较流行的评分方法。但同其他口语考试一样,PETS主观评分信度有时不是很理想。
  影响口语考试信度的因素较多,其中主要是评分员自身评分的一致性(intra-rater consistency)问题及评分员之间评分的一致性(inter-rater consistency)问题。而这些不一致问题之所以出现,是因为这些评分标准都是描述性的文字,是定性的标准。而评分员对评分标准把握和理解不尽相同。有些人认为语音重要,有些人认为语法重要,也有些人认为内容重要等。此外,PETS是一项标准参照考试,但其标准也是定性的。这些定性的标准很难起到真正统一评分思想和行为的作用。因此,评分标准的客观量化显得极为有意义。
  评分的客观化不仅是对考试信度(reliability)的贡献而且也是考试效度(validity)的保证。美国心理测量学会章程把效度定义为“由测验分数作出的推断的恰当程度、有意义程度和有用程度”。这说明效度是与根据测验分数作出的推断紧密地联系在一起的,它最终要落实到对分数的解释上,而评分方法直接影响得分和对分数的解释。因此,如果我们对PETS口试进行客观评分研究,这对提高其信度和效度都是十分有意义的(王佶文 2002)。
  
  实验设计
  
  为了解决主观评分带来的问题和更好的解释分数的意义,同时也为了给下一步计算机辅助口语测试自动评分研究打基础,我们开展了基于PETS口试语料的客观评分尝试。在本研究中,为了方便采集数据,我们只研究PETS-3口试,因为它适合于在校大学生。我们主要想探讨以下几个问题:是否能从PETS-3口语测试分项评分标准中提取一些可量化的因素?PETS-3口语测试客观评分方法是否可行?
  44名学生参加了基于计算机网络的PETS-3口试。其录音先由两位考官按传统方法评分。在回顾了影响评分因素和当前主要几种口语评分方法后,我们提出了一种口语客观评分的方法。经过对其进行理论和操作意义上的定义,我们设计并开展一项基于自建的语料库的实证研究实验。我们从PETS-3口试分析性评分表中共提炼出25个量化了的指标。然后将从30个应试者的语音和转写的文本中提炼的数据与主观评分结果一起输入到SPSS中与主观评分结果一起进行多元逐步线性回归分析,得出相应的预测模型。然后,我们用同一实验的另外14个样本的数据来检验预测模型的效度和信度(项军平 2005)。
  
  实验过程
  
  口试录音转写
  我们使用音频处理和分析软件Goldwave和Praat对录音进行播放、合成、处理和分析。在转写过程中,我们使用写作中的标点符号体系对转写文本进行断句。为了便于准确地进行自动分析,我们对其稍做调整,如我们使用破折号代替省略号。我们也用破折号对声音模糊的录音部分进行标注。对于那些发音错误,但仍然能听出来的单词,我们还是转写成其正确的形式。如果某个单词发音完全错误,或发成另一个单词,那我们就用红色将其标为错误。如果某些发音听起来缺少后缀,如“ed”, “ing” 等,我们将其标为语法错误。每个考生有两个录音转写文本文件。一个是所有内容的转写文本;一个是去掉了语法错误和重复等内容,只含有有效T-Unit的转写文本(Gaies 1980)。这样便于我们使用WordSmith软件提取相应的因素。我们运用Word 2000的查找功能来计算正确的T-Unit。
  
  评分标准客观因素提取和量化
  PETS-3口语测试分项评分标准有四项:语法与词汇;话语运用;语音;互动交际。根据这些评分标准的文字描述和相关理论,我们从口试语料中提取了25个量化因素。他们分别为:wds/CTUs(单词数/正确的T-Units数);CT/AT(正确的T-Units数/所有的T-Units数);T-Unit(T-Unit数);C T-unit( 正确的T-Units数);V Ratio(有效的类符/有效的形符); V type(有效的类符);V token(有效的形符);C Ratio(正确的类符/正确的形符);C type(正确的类符);C token(正确的形符);Pronunciation(语音得分);Time(有效口语表达时间); Fluency(有效口语表达的流利性);letter/wd(有效口语表达单词的平均长度);其他11个因素分别为含有1-10个字母及含有10个以上字母的单词数量。在所有的25个因素中,除Pronunciation(语音得分)外,其他24个因素都是通过软件提取的。
  
  结果与讨论
  
  在进行回归分析之前,我们首先对考生口试得分的信度和正态分布情况进行验证。结果表明,两位评分员之间的评分信度达到了0.864。这说明本次口试主观评分成绩信度较理想。 而且考生口试得分也基本趋于正态分布。这就为我们进行回归分析提供了必要的条件(秦晓晴 2003)。
  然后,我们采用多元逐步回归的方法对数据进行统计分析。在回归分析过程中,25个提取的因素为自变量,主观得分为因变量。我们得出以下结果:
  
  Table 1.Coefficients
  
  aDependent Variable: FINAL
  由于25个自变量数据没有进行标准化处理,所以我们回归模型中采用非标准化系数。例如,在模型4中,常数为“-0.288”;CTYPE系数为 “0.02095”;Fluency系数为“0.02057”;CTUNIT系数为 “-0.06432”;Pronunciation系数为“0.122”。其最后预测模型公式为:
  Model 4:
  Final Score=CType*0.02095+Fluency*0.02057-CTUnit*0.06432
  +Pronunciation*0.122-0.288
  同理,预测模型3公式为:
  Model 3:
  Final Score=CType*0.02801+Fluency*0.01728-CTUnit*0.06099+0.307
  接着,我们用同一实验中的另外14个样本数据投入到两个模型中检验该模型的稳定性。结果证明,Model 3的结果与主观评分相关度为0.714; Model 4 为0.786。因此,Model 4为最佳预测模型。由于Model 3中没有包含语音的主观评分,其他均为客观因素,因此,模型3为客观评分预测模型。
  模型3表明,正确的类符、有效口语表达的流利性和正确的T-Units数可以有效地预测口试成绩。让我们感到惊奇的是正确的类符最先进入模型,其预测能力最强;让人费解的是正确的T-Unit数在模型中的系数却是负值。尽管在其他试验中也有过类似发现(张文忠 ),但人们还没能对其进行很好的解释。
  本次实验数据表明,人们在判断考生口语水平能力时,最关心的是其准确性、流利性、词汇量及语音等。这为我们今后培训学生英语口语具有很好的指导意义。
  
  结束语
  该项实证研究的意义在于它证明了口试客观评分的可能性;它能让人们理解该口试分数的含义;而且该试验所建立的模型将有助于下一步的口试自动评分研究的开展。其他口试系统可借用本研究方法来发现其口试分数的含义。与此同时,我们也意识到本研究所存在的问题和局限性。例如,本研究样本少,又没有经过分层抽样,因而其样本的代表性受到质疑。而且,这也影响到预测模型的稳定性。此外,一些较为重要的因素由于技术原因没有提取出来,如文章内容、逻辑思维能力等。因此,我们将在今后的研究中,通过自建相关语料库或使用已出版语料库,扩大语料选择范围和提高抽样的科学性,进一步提取更多因素进行因子分析、回归分析和采用结构方程模型等,通过改进统计手段,采用新技术等来提高口试客观评分模型的稳定性。
  
  参考文献:
  [1]Gaies, S. J. T-unit analysis in second language research: Applications, problems and limitations. TESOL Quarterly,1980.Vol.1:53-60.
  [2]秦晓晴.外语教学研究中的定量数据分析[M].武汉:华中科技大学出版社,2003.
  [3]王佶文.三类口语考试题型的评分研究[J].世界汉语教学,2002年,第4期,63-77.
  [4]项军平.全国英语等级考试三级口试客观评分研究M.D. Dissertation, 2005.
  [5]张文忠,吴旭东.第二语言口语流利性发展的定量研究[J].现代外语,2001年第4期:341-351.
  
  本文系湖北师范学院2003年青年科研项目“计算机辅助PETS口语测试”项目成果之一.
其他文献
摘要:霍布斯认为宗教信仰是人愚昧本性的一种表现,而这种本性常常被别有用心的人利用,它是人应该抛弃的,也是可以被消灭的;而卢梭在赞同宗教附属于王权的基础上,看到了宗教在精神上有超越性的一面。这两种宗教观都是他们各自政治观的延伸,是有失偏颇的。宗教是个人情感的一种表达方式,它是与人性密切相关的。对于这种现象我们不能简单地加以肯定或否定而要在多维的视角中加以考察,给予其应有的价值和定位。  关键词:霍布
期刊
摘要:法学专业案例教学是法律专业人才培养中的重要环节,对培养和提高学生的法律思维能力、实务操作能力尤为重要。华南师范大学法学院通过更新教育教学理念,改进教学手段,丰富教学形式,拓展教学空间,强化能力训练,改变评价学生的考核方式,探索了一种法学专业应用型人才培养的新型实践教学模式。  关键词:法学专业 案例教学 案例课    一、“案例课”实践教学模式探索与研究的背景    我国高等院校的法学教育模
期刊
摘要:本文从探讨孔子的教学语言出发,概括出孔子的教学语言具有规范性与准确性,启发性与针对性,系统性与简约性等三大特点,并结合物理教学实际,探索了锤炼教学语言与提高教学效果的密切关系。  关键词:孔子 教学语言 物理教学 实践体会    教学既是一门科学,又是一门艺术,而语言是教学的首要工具。因此,对教师来说锤炼教学语言是提高教学效果的一个重要途径。在我国古代,伟大的教育家孔子就是这方面的一个典范,
期刊
摘要:作好辅导员工作,一定要根据学生的特点,在关心、关怀的基础上,倾听学生的心声,真诚地欣赏学生的长处,赞美学生的优秀品质,就一定能够带领学生完善人格,走向人生的新境界。   关键词:倾听欣赏赞美    辅导员工作是高校学生管理部门不断探讨的问题,笔者结合自己多年从事学生管理工作的经验,认为要做好辅导员工作必须具备较全面的素质,要根据学生的学习阶段特点因势利导,有针对性地开展工作,在工作中学会倾听
期刊
动词的用法是最难和最灵活的项目, 也是每年高考的重头戏。许多老师和正在迎接2007年高考的同学都在关注着语言点的考查,为此,我们拟就06年全国各地试卷中语言点考查的一个侧面:动词考查情况,进行数据统计和细化分析。   语言学习中对动词的掌握和运用,决定了以动词为中心的语言点考查范围。2006年在全国各省市的高考英语试题单项选择题和完形填空中,动词依然是考查热点,试归纳汇总在下表:    从上表看出
期刊
摘要:本文探讨了PK的流行现象,分析了PK产生的原因和其含义,并对PK的用法进行了阐述,同时探讨了用零翻译的方法来翻译PK这一类首字母缩略词。  关键词:PK 首字母缩略词 零翻译    随着湖南卫视“超级女生”的热播,PK一词变得家喻户晓。2005年国内各大媒体上出现了很多含有PK的标题,例如:“赵薇:一生要经历多少PK”、“中小开发商面临PK”、“人人都想PK微软”、“十运会新闻中心PK奥运会
期刊
摘要:本文通过运用系统功能语言学的三大纯理功能理论,分析李煜的词《虞美人——春花秋月何时了》原文及两个不同版本的译文,从概念功能的及物性系统和词汇系统、人际功能的语气系统和情态系统等不同视角对译文进行了对比研究,发现翻译中语篇情境语境的对等可以通过上述四个方面的功能的对等体现,对于确定翻译标准有一定的借鉴作用。  关键词:概念功能 人际功能 翻译标准 英汉对比    引言    我国的翻译事业历经
期刊
摘要:沈从文以其笔下的湘西世界与都市世界构筑起他的文学大厦,并期图以湘西理想的人生形式与生存状态来抗衡来对抗都市的虚伪、腐朽与堕落。但由于他信仰“真实”的写作原则,又使他痛苦地发现了湘西的缺失与都市的丰富,从而在无奈或无意识中悲哀地颠覆了自己。  关键词:沈从文 湘西 都市 颠覆    在中国现代文坛上,左翼文学从政治党派的角度来描写农村的凋敝与都市的罪恶,海派文学从商业文化的角度来表现物质的进步
期刊
摘要:支架式教学模式是建构主义者在吸取维果茨基思想的前提下,在发现教学基础上提出并强调的一种现代教学模式,他们提倡自上而下的教学设计及知识结构的网络概念的思想,以及改变教学脱离实际的情境性教学。因其强调学习过程中学习者的主动性、建构性,所以这种模式更为实用和合理,对支架式教学模式进行探索有着十分重要的意义。   关键词:支架式教学模式 最近发展区 创设情境 引导探索 自主探索 协作学习 效果评价
期刊
摘要:本文根据专科学生英语教学的特点,并结合高等学校英语应用能力测试的特点和针对性,总结这一测试中翻译、选择题的解题技巧,以期对参加此PRETCO测试的学生和从事专科英语教学的教师提供一些有用的帮助。  关键词:应用能力 翻译 选择 技巧    英语应用能力测试(Practical English Test for Colleges,简写为PRETCO),主要是测试本科类、高职高专类院校非外语专业
期刊