论文部分内容阅读
【摘 要】期末考试的分数线划分对学生的影响甚大。分数线的划分合理、可靠与否取决于可靠性指数和平均分两个因素。本文通过比较Cronbach Alpha系数,ICC系数以及可靠性系数之间的异同,认为要保证分数线划分的公正性,考试结果的可靠性指数必须达到0.8以上,同时分数线必须小于或者高于平均分,分数线与平均分的距离不超过一个标准差。
【关键词】标准参照考试 Cronbach Alpha系数 可靠性指數 ICC系数 分数线
期末考试是检查每个学生对于所学内容掌握的具体情况,考试的内容可以按照教学大纲或者整个英语学习阶段的学习目标来制订(Hughes,1989;Bachman,1990)。期末考试不是关注每个学生在班上的排名,而是关注每个学生对于所学内容掌握的程度,因此,我们不能用常模参照考试方法来衡量考试结果,而必须使用标准参照考试来制订详细的成绩报表,以诊断考生的问题所在(Brown and Hudson,2002;Brown,2005)。
从考试用途的广义来讲,期末考试在很大程度上决定考生的未来,因此,考试使用的公正性问题就显得相当重要,教师们不得不慎重考虑期末考试的效度问题。考试的效度不仅仅指考试分数的可靠性,还指考试使用所产生的各种影响(Messick,1989)。如果学校的期末考试不算是一种大型的考试,那么就不会有考生期末作弊的现象出现。作为大学英语教师,我们必须高度重视考试设计、施测、评分、分数解释、决策等各个环节,同时考虑考试对考生产生的影响。但是目前我们对于期末考试使用的研究还相当的不重视。
期末考试的效度
期末考试不是常模参照性考试,所以常模参照性考试的信度分析方法(试卷的内部关系)不完全适用于期末考试。我们不可能反复考试,也不可能采用分半计算(如作文考试怎么分半?)。对于作文考试,我们最好的就是采用多重评分(无论是分析法还是综合法)。目前的许多实践都是采用α系数,它是一种折中办法,没有确定系数上下限的大小。如果是三个人对所有考生的作文分别评分,最后的结果就是三位教师评分信度估计的折中系数。其实SPSS信度计算中有组间相关系数(ICC),它可以确定一个评分者的信度大小和三个人平均的信度系数大小。一般线性模型也可以确定每一个评分者的一致性问题,还可以两两比较。但是,如果三个教师评阅所有学生的作文,计算出来的信度还是比较低怎么办?传统的办法没法告诉我们增加多少个教师才可以达到较为理想的信度大小,也不可能告诉我们评分者所产生的误差大小是否可以接受。因此,我们需要借助概化理论来实现(Shavelson and Webb,1991)。概化理论在作文考试的应用在国外已经相当普遍(如Schoonen,2005),而在国内多数都是运用于英语教学以外的学科。
我们除了确保考试设计、开发、施测和试卷评阅等过程的一致性外,期末考试还需考虑分数线的划分,正确地划分“过关”与“不过关”的学生,同时要针对分数线对学生产生的影响进行研究。只有这样我们才可以保证我们的考试使用是公正合理的,也就是说我们需要确定在多大程度上我们的划分是可靠的,多大程度上我们的划分是因为考试本身的因素,而不是偶然因素造成的结果(Brown and Hudson, 2002)。本文试图比较Cronbach Alpha系数、ICC系数以及可靠性系数之间的异同,确定分数线划分的条件。
实例
本文主要谈论期末考试的信度问题,所以主要关注如何通过组内相关计算考试信度,如何通过概化理论来细化误差大小,如何计算分数线所产生的门槛阙失值的大小(Po,threshold-loss agreement)对学生的影响,从而最大限度降低决策错误给考生带来的不利后果。对于概化理论的详细阐述和公式,读者可以参阅Shavelson and Webb(1991),以及杨志明和张雷(2003)的《测评的概化理论及其应用》。本文主要讲解如何通过SPSS来实现概化理论的应用,解决期末考试分数线划分的问题,以便广大教师实践操作。本文采用的作文考试数据来源于Brown(2005:186),55个学生参加了总分为100分的作文考试,然后由3位阅卷教师分别独立对所有学生的作文进行评阅。首先我们需要用SPSS和概化理论来分析本次考试分数的信度、ICC系数和各个因素的方差大小,以确定评分者误差是否可以接受。然后根据Brown和Hudson(2002)提供的公式来计算Po值和Kappa值的大小,从而确定分数线划分可靠性比例,然后在此基础上探讨不同分数线的决策信度。
1.α系数和组间系数ICC
首先打开SPSS,在变量视窗里建立变量,然后切换到数据视窗,分别输入所有的数据,并保存。仔细检查,确保无一遗漏或者输错。找到分析工具(Analyze)栏下拉菜单(scale)中的信度分析(reliability analysis)工具。将评分者变量选入到右边的方框里,点击(Statistics)统计按钮选择要输出的统计结果。点击按钮(Continue),返回信度分析框,按OK键,系统自动生成我们需要的结果。
组间相关系数(Interclass Correlation Coefficient)表明,如果只有一位教师评阅所有试卷,那么ICC=0.622,95%的置信区间为0.482—0.736;若是三位教师评分的话,ICC=0.831,95%的置信区间为0.736—0.896。也就是说ICC可以更加具体地刻画信度系数的波动。
2.方差分量和可靠性系数
我们现在检查评分者误差的大小到底是否可以接受,进行概化理论G研究和D研究。采用同样的数据,选择一般线性模型的重复测量方法(repeated measures)来检查评分者的方差分量。定义重复测量的变量(Within-Subject Factor name) 为rater,重复测量的次数(Number of levels) 为3次,点击添加(Add)按钮。然后点击(Define)按钮,分别定义变量和因素,选择模型按钮(Model)定义自定义模型(Custom)点击(Continue)按钮返回重复测量对话框(Repeated Measures),点击(Options)按钮,将左边的因素移入右边,以呈现所需的平均数。点击(Continue)按钮,返回,再点击Ok按钮,生成数据。从(Tests Within-Subjects Effects)和(Tests Between-Subjects Effects)提取我们所需的数据,如图5所示,平均分为70分,95%置信区间,平均分范围为65—75分之间。 结论
只有可靠性指数达到0.8以上,分数线划分的公正线才得到起码的保证。在此基础上可以看出,本次作文的标准差为8.6495,那么在一个标准差内的分数线的可靠性较高,但是不能接近平均分。也就是说,本次作文课程需要重修的考生分数在M-1S前后,即62分以下的学生至少需要重修。当然,可以根据实际情况制订比如64的分数线,但前提是保证较高的决策信度。
参考文献:
[1]Bachman,Lyle F.Fundamental considerations in language testing[M].Oxford:Oxford University Press,1990.
[2]Brown,James Dean.Testing in language programs:a comprehensive guide to English language assessment[M].McGraw-Hill Companies, Inc.,2005.
[3]Brown,James Dean.& Thom Hudson.Criterion-referenced language testing[M].Cambridge:Cambridge University Press,2002.
[4]Hughes,Arthur.Testing for language teachers[M].Cambridge:Cambridge University Press,1989.
[5]Kunnan, A. J. (ed.). Fairness and Validation in Language Assessment[C].Cambridge: CUP,2000.
[6]Messick,Samuel.Validity[A].In Robert L.Linn(ed.).Educational measurement(3rd ed.).London:Collier Macmillan Publishers,1989.
[7]Shavelson, Richard J.& N.M.Webb.Generalizability theory:a primer[M]. California:Sage Publications, Inc.,1991.
[8]Rob Schoonen.Generalizability of writing scores:an application of structural equation modeling the effect of these facets is estimated in a generalizability study using variance analytic techniques[J].Language Testing, 2005,22(1).
[9]楊志明,张雷.测评的概化理论及其应用[M].北京:教育科学出版社,2003.
作者单位:西安外国语大学国际学院 陕西西安
【关键词】标准参照考试 Cronbach Alpha系数 可靠性指數 ICC系数 分数线
期末考试是检查每个学生对于所学内容掌握的具体情况,考试的内容可以按照教学大纲或者整个英语学习阶段的学习目标来制订(Hughes,1989;Bachman,1990)。期末考试不是关注每个学生在班上的排名,而是关注每个学生对于所学内容掌握的程度,因此,我们不能用常模参照考试方法来衡量考试结果,而必须使用标准参照考试来制订详细的成绩报表,以诊断考生的问题所在(Brown and Hudson,2002;Brown,2005)。
从考试用途的广义来讲,期末考试在很大程度上决定考生的未来,因此,考试使用的公正性问题就显得相当重要,教师们不得不慎重考虑期末考试的效度问题。考试的效度不仅仅指考试分数的可靠性,还指考试使用所产生的各种影响(Messick,1989)。如果学校的期末考试不算是一种大型的考试,那么就不会有考生期末作弊的现象出现。作为大学英语教师,我们必须高度重视考试设计、施测、评分、分数解释、决策等各个环节,同时考虑考试对考生产生的影响。但是目前我们对于期末考试使用的研究还相当的不重视。
期末考试的效度
期末考试不是常模参照性考试,所以常模参照性考试的信度分析方法(试卷的内部关系)不完全适用于期末考试。我们不可能反复考试,也不可能采用分半计算(如作文考试怎么分半?)。对于作文考试,我们最好的就是采用多重评分(无论是分析法还是综合法)。目前的许多实践都是采用α系数,它是一种折中办法,没有确定系数上下限的大小。如果是三个人对所有考生的作文分别评分,最后的结果就是三位教师评分信度估计的折中系数。其实SPSS信度计算中有组间相关系数(ICC),它可以确定一个评分者的信度大小和三个人平均的信度系数大小。一般线性模型也可以确定每一个评分者的一致性问题,还可以两两比较。但是,如果三个教师评阅所有学生的作文,计算出来的信度还是比较低怎么办?传统的办法没法告诉我们增加多少个教师才可以达到较为理想的信度大小,也不可能告诉我们评分者所产生的误差大小是否可以接受。因此,我们需要借助概化理论来实现(Shavelson and Webb,1991)。概化理论在作文考试的应用在国外已经相当普遍(如Schoonen,2005),而在国内多数都是运用于英语教学以外的学科。
我们除了确保考试设计、开发、施测和试卷评阅等过程的一致性外,期末考试还需考虑分数线的划分,正确地划分“过关”与“不过关”的学生,同时要针对分数线对学生产生的影响进行研究。只有这样我们才可以保证我们的考试使用是公正合理的,也就是说我们需要确定在多大程度上我们的划分是可靠的,多大程度上我们的划分是因为考试本身的因素,而不是偶然因素造成的结果(Brown and Hudson, 2002)。本文试图比较Cronbach Alpha系数、ICC系数以及可靠性系数之间的异同,确定分数线划分的条件。
实例
本文主要谈论期末考试的信度问题,所以主要关注如何通过组内相关计算考试信度,如何通过概化理论来细化误差大小,如何计算分数线所产生的门槛阙失值的大小(Po,threshold-loss agreement)对学生的影响,从而最大限度降低决策错误给考生带来的不利后果。对于概化理论的详细阐述和公式,读者可以参阅Shavelson and Webb(1991),以及杨志明和张雷(2003)的《测评的概化理论及其应用》。本文主要讲解如何通过SPSS来实现概化理论的应用,解决期末考试分数线划分的问题,以便广大教师实践操作。本文采用的作文考试数据来源于Brown(2005:186),55个学生参加了总分为100分的作文考试,然后由3位阅卷教师分别独立对所有学生的作文进行评阅。首先我们需要用SPSS和概化理论来分析本次考试分数的信度、ICC系数和各个因素的方差大小,以确定评分者误差是否可以接受。然后根据Brown和Hudson(2002)提供的公式来计算Po值和Kappa值的大小,从而确定分数线划分可靠性比例,然后在此基础上探讨不同分数线的决策信度。
1.α系数和组间系数ICC
首先打开SPSS,在变量视窗里建立变量,然后切换到数据视窗,分别输入所有的数据,并保存。仔细检查,确保无一遗漏或者输错。找到分析工具(Analyze)栏下拉菜单(scale)中的信度分析(reliability analysis)工具。将评分者变量选入到右边的方框里,点击(Statistics)统计按钮选择要输出的统计结果。点击按钮(Continue),返回信度分析框,按OK键,系统自动生成我们需要的结果。
组间相关系数(Interclass Correlation Coefficient)表明,如果只有一位教师评阅所有试卷,那么ICC=0.622,95%的置信区间为0.482—0.736;若是三位教师评分的话,ICC=0.831,95%的置信区间为0.736—0.896。也就是说ICC可以更加具体地刻画信度系数的波动。
2.方差分量和可靠性系数
我们现在检查评分者误差的大小到底是否可以接受,进行概化理论G研究和D研究。采用同样的数据,选择一般线性模型的重复测量方法(repeated measures)来检查评分者的方差分量。定义重复测量的变量(Within-Subject Factor name) 为rater,重复测量的次数(Number of levels) 为3次,点击添加(Add)按钮。然后点击(Define)按钮,分别定义变量和因素,选择模型按钮(Model)定义自定义模型(Custom)点击(Continue)按钮返回重复测量对话框(Repeated Measures),点击(Options)按钮,将左边的因素移入右边,以呈现所需的平均数。点击(Continue)按钮,返回,再点击Ok按钮,生成数据。从(Tests Within-Subjects Effects)和(Tests Between-Subjects Effects)提取我们所需的数据,如图5所示,平均分为70分,95%置信区间,平均分范围为65—75分之间。 结论
只有可靠性指数达到0.8以上,分数线划分的公正线才得到起码的保证。在此基础上可以看出,本次作文的标准差为8.6495,那么在一个标准差内的分数线的可靠性较高,但是不能接近平均分。也就是说,本次作文课程需要重修的考生分数在M-1S前后,即62分以下的学生至少需要重修。当然,可以根据实际情况制订比如64的分数线,但前提是保证较高的决策信度。
参考文献:
[1]Bachman,Lyle F.Fundamental considerations in language testing[M].Oxford:Oxford University Press,1990.
[2]Brown,James Dean.Testing in language programs:a comprehensive guide to English language assessment[M].McGraw-Hill Companies, Inc.,2005.
[3]Brown,James Dean.& Thom Hudson.Criterion-referenced language testing[M].Cambridge:Cambridge University Press,2002.
[4]Hughes,Arthur.Testing for language teachers[M].Cambridge:Cambridge University Press,1989.
[5]Kunnan, A. J. (ed.). Fairness and Validation in Language Assessment[C].Cambridge: CUP,2000.
[6]Messick,Samuel.Validity[A].In Robert L.Linn(ed.).Educational measurement(3rd ed.).London:Collier Macmillan Publishers,1989.
[7]Shavelson, Richard J.& N.M.Webb.Generalizability theory:a primer[M]. California:Sage Publications, Inc.,1991.
[8]Rob Schoonen.Generalizability of writing scores:an application of structural equation modeling the effect of these facets is estimated in a generalizability study using variance analytic techniques[J].Language Testing, 2005,22(1).
[9]楊志明,张雷.测评的概化理论及其应用[M].北京:教育科学出版社,2003.
作者单位:西安外国语大学国际学院 陕西西安