论文部分内容阅读
摘要:语言测试是我国现行考试体系中比重最大、普及范围最广、影响范围最广的考试。语言测试在教育、人事选拔等领域都发挥着无可替代的作用。社会对考试结果的认可越高,对考试的专业性要求也就越高。语言考试实际上已经成为了一项高风险考试。本文对考试分数的合成方法做了总结,以其为相关研究提供参考。
关键词:语言测试;合成;方法
一、引言
中国是最早使用考试的国家,从古代的科举发展到现代的考试,考试在教育、人事选拔、职业能力鉴定等领域都发挥着无可替代的作用。受国外托福、雅思等语言测试的影响,国内于70年代末开始引进或开发第二语言测试。第二语言测试是针对第二语言习得提出的,如大学英语考试(CET)、英语水平考试(EPT)、公共英语水平考试(PETS)等。
语言测试的目的是评价学习者的学业成就或语言水平,评估教学效果。除此之外,CET、托福、雅思、PETS等语言测试的结果已经成为人才选拔时的重要依据;英语作为国内学校教授的最主要的第二语言,在高考选拔中的重要性越来越高。社会对考试结果的认可越高,对考试的专业性要求也就越高。语言考试实际上已经成为了一项高风险考试。
语言测试专业性不仅表现在题目的命制、考试组织与管理、考试结论的应用等方面,更体现在开始分数的导出、报告与解释上。但目前国内自主组织的语言测试依然采取基于经典测量理论的分数合成方法,使得考试之间的可比性、分数解释的科学性、结果应用的外部效度都受到了极大的影响。
本文拟从经典测量理论和现代测量理论的角度,对国内几种常见分数合成方式的原理与特点做比较分析,并提出语言测试分数合成及报告的解决方案。
二、分数合成方法的分类
语言测试属于典型的能力水平测试,是教育与心理测量学领域的重要研究主题。对能力测试数据的分析经过了两个重要的发展阶段。以1968年Lord发表《心理测验分数的统计理论》为界,教育与心理测量学经历了经典测量理论和现代测量理论两个发展阶段。19世纪末真分数理论提出到20世纪60年代末的70年间是经典测量理论占主导的发展阶段。经典测量理论为教育与心理测评的发展做出了卓越的贡献,但也存在很多理论本身无法避免的缺陷。最典型的缺陷是:“统计指标与实际意义相悖”,以难度的计算为例,客观题难度即正确率。例如选择题正答率为0.8则难度为0.8,代表题目非常简单;若正答率为0.1则难度为0.1,代表题目非常难。难度的理论区间为[0,1],数值越大难度越小、数值越小反而难度越大。经典测量理论的缺陷还包括:题目属性的分析依赖于被试样本、分数不等距、基于加权累积方式合成分数等。为解决这一问题,以项目反应理论、概化理论为代表的现代测量理论逐渐发展起来。项目反应理论是现代测量理论的核心理论。与经典测量理论相比,项目反应理论深入测验的微观领域,通过将学生与项目(题目)关联起来并进行参数化、模型化,解决了经典测量理论的诸多缺陷。
因此,语言测试的分数合成与解释也分为经典测量理论和项目反应理论两种类型。基于经典测量理论的分数合成方法包括直接相加法、加权累积法、多重分段法;基于项目反应理论的分数合成方法主要包括只考虑难度、区分度等题目特征的项目反应模型合成法;综合考虑题目特征、评卷教师特征、考生特征的多面Rasch模型分析法。
三、基于经典测量理论的分数合成
(一)直接相加法
直接相加法就是将测验中的各个维度直接累加得到一个分数。一个完整的语言测试,一般会同时设计语言学习的多个方面,如英语考试一般会包括听力、口语、阅读、写作四个维度。以直接相加法计算的英语考试成绩就是四个维度得分的简单加总。
各维度之间的得分直接相加的前提是各种分数之间是同质的,且各维度或分测验的得分在总分中所占的权重相同。在满足上述前提的情况下,直接相加法具有操作简便、容易理解、处理快速等优点。
英语的听力测试、口语测试、阅读测试、写作测试分别对应听、说、读、写四种能力。学术界对二语能力的结构尚未形成统一的认识,主要的争议在于:听、说、读、写是四种独立的语言能力,还是统一在语言能力下的四个方面。只有后一种理论才满足四个测验是同质的,才允许将四个得分直接相加。另外,语言测试中,针对不同的能力设计了不同的题型,如听力、阅读等能力的测试以客观题为主,写作能力的测试以主观题为主。两类题目从考察的认知能力、题目难度、考察方式上都有明显区别,不考虑这些差别的情况下直接将得分相加显然不太合理。
(二)加权累积法
为解决直接相加法不考虑题目难度、认知要求、考察方式等差异的缺陷,加权累积法根据题目属性之间的差异,给予不同的权重,然后进行加权求和计算总分。合成分数过程中的权重是命题者根据题目的不同属性赋予的。如高考英语中,考察阅读能力的客观题每答对一题计4分,考察听力能力的客观题每答对一题计1.5分,考察语言知识运用的客观题每答对一题计0.5分。加权累积法虽然增加了权重,但除了权重的设计需要一定的理论支持,分数的合成过程仍简单快捷,因此在教育考试中应用最为广泛。
加权的方式一定程度上解决了不同题目测量属性有别的问题。但权重的确定没有统一标准,均由命题者主观确定。这就有可能导致不同作答模式被试因加权方法不同,得到的分数不同。假设两名学生参加通一次英语考试,考试中听、说、读、写各一个题目。甲学生做对了听、说、读三个题目,乙学生做对了说、读、写三个题目。若四个题目的权重为1:1:1:2,则甲学生得3分、乙学生得4分;若四个题目的权重为1:1:1:1,则两名学生得分相同,均为3分。这表明,完全主观的权重设计有可能影响评价结果的效度。
(三)多重分段法
为解决加权累积法在权重设置上的缺陷,当认为语言测试中的各项分测验不具有互偿性时,就采取为每个测验指定一个计分标准。互偿性是指A测验上的高分不能弥补B测验上的低分。例如在语言测试中,一名学生听力能力上的高低不能影响其在写作测验上的表现。 语言测试中的多重分段法是指语言能力的评价和预测可以有多个预测源,且这些预测源的预测方法、计分方式各不相同。如口语能力和阅读能力都是语言能力的一部分,但听力能力以一对一的口语交流形式来评价,阅读能力以纸笔测验的形式来评价。两种能力有本质的不同,两个测试得分不能相加。所以需要在每个分测验内独立评价。在使用这些得分评价及筛选学生时,应分别划线。如托福、雅思考试,在报告考生分数时将不同能力模块分开报告。
多重分段法解决了不同能力得分不能相加的問题,但也违背了分数合成的经济性原则。更丰富的分数报告虽然保证了科学性,但不报告总分的形式也给选拔工作增加了困难。
四、基于项目反应理论的分数合成
在经典测量理论框架下的分数合成方法,虽然考虑到了题型、考察内容、难度等题目属性,但在分数合成过程中主观因素对总分的影响很大。如何真正实现基于题目属性的客观测量是语言测试所面临的最大挑战。
项目反应理论的提出,解决了这一难题。以最简单的Rasch模型为例,认为被试正确作答题目的概率可以用个体能力θ与该题目难度δ的一个简单函数来表示:
f(Pni1)=θn-δi
其中,Pni1表示考生n回答第i个题目得1分的概率。在0-1计分题目中,得1分表示考生答对该题目。函数表示被试答对该题的概率Pni1取决于考生能力θn及题目难度δi。Rasch利用自然常数进行转换,使用最大似然估计法经过多次迭代估计出考生能力。整个计算过程中未对任何题目进行加权,仅考虑考生作答情况。因此,分数合成过程更加客观、科学。
基于项目反应理论的分数合成结果还有以下几个优点:
1.针对不同被试精确估计测量误差。经典测量理论的分数合成过程对误差的控制很弱。项目反应理论将考生参数估计和题目参数估计统一在同一个框架下,对误差的控制可以精确到每一名考生和每一个题目。
2.分数合成仅依赖题目与考生特征。经典测量理论的任何题目参数的计算都受考生能力分布的影响。例如难度的计算,难度以正答率为指标。如果答题的学生能力普遍偏高,则计算出的题目难度就低,反之如果答题的学生能力普遍偏低,则计算出的题目难度就高。题目不变,但计算出的题目参数差异巨大,这显然是确定题目参数的算法不合理。基于项目反映理论的合成方法仅考虑难度与能力两个因素,且通过算法保证了在考生能力分布不同状况下题目难度稳定。
3.能力与难度具有统一量尺
基于经典测量理论的分数合成方法得到的总分与题目难度之间没有可比性。例如,经典测量理论无法估预测一名总分为80分的学生在一个难度为0.8的题目上的正答率。项目反应理论解决了这一问题,将学生能力与题目难度统一在同一个量尺下,单位统一为Logit。
但基于项目反应理论的分数合成在数据的收集、参数估计等方面要求都比较高,这从一定程度上限制了这一方法的推广。但随着计算机技术、测量学技术的普及,更加科学、合理的分数合成方法一定会快速普及起来。
五、总结
总体来说,采取哪种分数合成方法应当是在综合考虑人力、财力、测试目的等多个因素后决定的。在考虑上述因素的情况下,综合运用多种合成方法,从多个角度评价考生才能够保证分数报告的科学性、合理性。
【参考文献】
[1]袁方,朱军梅.多面Rasch模型:结构化面试分数合成的新方法[J]. 中国人力资源开发,2009(08):53-55.
[2]阳辉,车宏生,卞冉.分数合成:测评中不可忽视的重要环节[J]. 中国人才,2008 (15):49-51.
[3]王克盈.关于测验分数合成方法的探讨[J].陕西教育学院学报, 2000(01):73-76.
[4]郭述平,金松尧.两种分数合成方法的比较[J].辽宁高等教育研究,1990(02):133-135.
作者简介:袁淑敏( 1980—),女,贵州贵阳人,贵阳学院,讲师,硕士,研究方向:应用语言学。
关键词:语言测试;合成;方法
一、引言
中国是最早使用考试的国家,从古代的科举发展到现代的考试,考试在教育、人事选拔、职业能力鉴定等领域都发挥着无可替代的作用。受国外托福、雅思等语言测试的影响,国内于70年代末开始引进或开发第二语言测试。第二语言测试是针对第二语言习得提出的,如大学英语考试(CET)、英语水平考试(EPT)、公共英语水平考试(PETS)等。
语言测试的目的是评价学习者的学业成就或语言水平,评估教学效果。除此之外,CET、托福、雅思、PETS等语言测试的结果已经成为人才选拔时的重要依据;英语作为国内学校教授的最主要的第二语言,在高考选拔中的重要性越来越高。社会对考试结果的认可越高,对考试的专业性要求也就越高。语言考试实际上已经成为了一项高风险考试。
语言测试专业性不仅表现在题目的命制、考试组织与管理、考试结论的应用等方面,更体现在开始分数的导出、报告与解释上。但目前国内自主组织的语言测试依然采取基于经典测量理论的分数合成方法,使得考试之间的可比性、分数解释的科学性、结果应用的外部效度都受到了极大的影响。
本文拟从经典测量理论和现代测量理论的角度,对国内几种常见分数合成方式的原理与特点做比较分析,并提出语言测试分数合成及报告的解决方案。
二、分数合成方法的分类
语言测试属于典型的能力水平测试,是教育与心理测量学领域的重要研究主题。对能力测试数据的分析经过了两个重要的发展阶段。以1968年Lord发表《心理测验分数的统计理论》为界,教育与心理测量学经历了经典测量理论和现代测量理论两个发展阶段。19世纪末真分数理论提出到20世纪60年代末的70年间是经典测量理论占主导的发展阶段。经典测量理论为教育与心理测评的发展做出了卓越的贡献,但也存在很多理论本身无法避免的缺陷。最典型的缺陷是:“统计指标与实际意义相悖”,以难度的计算为例,客观题难度即正确率。例如选择题正答率为0.8则难度为0.8,代表题目非常简单;若正答率为0.1则难度为0.1,代表题目非常难。难度的理论区间为[0,1],数值越大难度越小、数值越小反而难度越大。经典测量理论的缺陷还包括:题目属性的分析依赖于被试样本、分数不等距、基于加权累积方式合成分数等。为解决这一问题,以项目反应理论、概化理论为代表的现代测量理论逐渐发展起来。项目反应理论是现代测量理论的核心理论。与经典测量理论相比,项目反应理论深入测验的微观领域,通过将学生与项目(题目)关联起来并进行参数化、模型化,解决了经典测量理论的诸多缺陷。
因此,语言测试的分数合成与解释也分为经典测量理论和项目反应理论两种类型。基于经典测量理论的分数合成方法包括直接相加法、加权累积法、多重分段法;基于项目反应理论的分数合成方法主要包括只考虑难度、区分度等题目特征的项目反应模型合成法;综合考虑题目特征、评卷教师特征、考生特征的多面Rasch模型分析法。
三、基于经典测量理论的分数合成
(一)直接相加法
直接相加法就是将测验中的各个维度直接累加得到一个分数。一个完整的语言测试,一般会同时设计语言学习的多个方面,如英语考试一般会包括听力、口语、阅读、写作四个维度。以直接相加法计算的英语考试成绩就是四个维度得分的简单加总。
各维度之间的得分直接相加的前提是各种分数之间是同质的,且各维度或分测验的得分在总分中所占的权重相同。在满足上述前提的情况下,直接相加法具有操作简便、容易理解、处理快速等优点。
英语的听力测试、口语测试、阅读测试、写作测试分别对应听、说、读、写四种能力。学术界对二语能力的结构尚未形成统一的认识,主要的争议在于:听、说、读、写是四种独立的语言能力,还是统一在语言能力下的四个方面。只有后一种理论才满足四个测验是同质的,才允许将四个得分直接相加。另外,语言测试中,针对不同的能力设计了不同的题型,如听力、阅读等能力的测试以客观题为主,写作能力的测试以主观题为主。两类题目从考察的认知能力、题目难度、考察方式上都有明显区别,不考虑这些差别的情况下直接将得分相加显然不太合理。
(二)加权累积法
为解决直接相加法不考虑题目难度、认知要求、考察方式等差异的缺陷,加权累积法根据题目属性之间的差异,给予不同的权重,然后进行加权求和计算总分。合成分数过程中的权重是命题者根据题目的不同属性赋予的。如高考英语中,考察阅读能力的客观题每答对一题计4分,考察听力能力的客观题每答对一题计1.5分,考察语言知识运用的客观题每答对一题计0.5分。加权累积法虽然增加了权重,但除了权重的设计需要一定的理论支持,分数的合成过程仍简单快捷,因此在教育考试中应用最为广泛。
加权的方式一定程度上解决了不同题目测量属性有别的问题。但权重的确定没有统一标准,均由命题者主观确定。这就有可能导致不同作答模式被试因加权方法不同,得到的分数不同。假设两名学生参加通一次英语考试,考试中听、说、读、写各一个题目。甲学生做对了听、说、读三个题目,乙学生做对了说、读、写三个题目。若四个题目的权重为1:1:1:2,则甲学生得3分、乙学生得4分;若四个题目的权重为1:1:1:1,则两名学生得分相同,均为3分。这表明,完全主观的权重设计有可能影响评价结果的效度。
(三)多重分段法
为解决加权累积法在权重设置上的缺陷,当认为语言测试中的各项分测验不具有互偿性时,就采取为每个测验指定一个计分标准。互偿性是指A测验上的高分不能弥补B测验上的低分。例如在语言测试中,一名学生听力能力上的高低不能影响其在写作测验上的表现。 语言测试中的多重分段法是指语言能力的评价和预测可以有多个预测源,且这些预测源的预测方法、计分方式各不相同。如口语能力和阅读能力都是语言能力的一部分,但听力能力以一对一的口语交流形式来评价,阅读能力以纸笔测验的形式来评价。两种能力有本质的不同,两个测试得分不能相加。所以需要在每个分测验内独立评价。在使用这些得分评价及筛选学生时,应分别划线。如托福、雅思考试,在报告考生分数时将不同能力模块分开报告。
多重分段法解决了不同能力得分不能相加的問题,但也违背了分数合成的经济性原则。更丰富的分数报告虽然保证了科学性,但不报告总分的形式也给选拔工作增加了困难。
四、基于项目反应理论的分数合成
在经典测量理论框架下的分数合成方法,虽然考虑到了题型、考察内容、难度等题目属性,但在分数合成过程中主观因素对总分的影响很大。如何真正实现基于题目属性的客观测量是语言测试所面临的最大挑战。
项目反应理论的提出,解决了这一难题。以最简单的Rasch模型为例,认为被试正确作答题目的概率可以用个体能力θ与该题目难度δ的一个简单函数来表示:
f(Pni1)=θn-δi
其中,Pni1表示考生n回答第i个题目得1分的概率。在0-1计分题目中,得1分表示考生答对该题目。函数表示被试答对该题的概率Pni1取决于考生能力θn及题目难度δi。Rasch利用自然常数进行转换,使用最大似然估计法经过多次迭代估计出考生能力。整个计算过程中未对任何题目进行加权,仅考虑考生作答情况。因此,分数合成过程更加客观、科学。
基于项目反应理论的分数合成结果还有以下几个优点:
1.针对不同被试精确估计测量误差。经典测量理论的分数合成过程对误差的控制很弱。项目反应理论将考生参数估计和题目参数估计统一在同一个框架下,对误差的控制可以精确到每一名考生和每一个题目。
2.分数合成仅依赖题目与考生特征。经典测量理论的任何题目参数的计算都受考生能力分布的影响。例如难度的计算,难度以正答率为指标。如果答题的学生能力普遍偏高,则计算出的题目难度就低,反之如果答题的学生能力普遍偏低,则计算出的题目难度就高。题目不变,但计算出的题目参数差异巨大,这显然是确定题目参数的算法不合理。基于项目反映理论的合成方法仅考虑难度与能力两个因素,且通过算法保证了在考生能力分布不同状况下题目难度稳定。
3.能力与难度具有统一量尺
基于经典测量理论的分数合成方法得到的总分与题目难度之间没有可比性。例如,经典测量理论无法估预测一名总分为80分的学生在一个难度为0.8的题目上的正答率。项目反应理论解决了这一问题,将学生能力与题目难度统一在同一个量尺下,单位统一为Logit。
但基于项目反应理论的分数合成在数据的收集、参数估计等方面要求都比较高,这从一定程度上限制了这一方法的推广。但随着计算机技术、测量学技术的普及,更加科学、合理的分数合成方法一定会快速普及起来。
五、总结
总体来说,采取哪种分数合成方法应当是在综合考虑人力、财力、测试目的等多个因素后决定的。在考虑上述因素的情况下,综合运用多种合成方法,从多个角度评价考生才能够保证分数报告的科学性、合理性。
【参考文献】
[1]袁方,朱军梅.多面Rasch模型:结构化面试分数合成的新方法[J]. 中国人力资源开发,2009(08):53-55.
[2]阳辉,车宏生,卞冉.分数合成:测评中不可忽视的重要环节[J]. 中国人才,2008 (15):49-51.
[3]王克盈.关于测验分数合成方法的探讨[J].陕西教育学院学报, 2000(01):73-76.
[4]郭述平,金松尧.两种分数合成方法的比较[J].辽宁高等教育研究,1990(02):133-135.
作者简介:袁淑敏( 1980—),女,贵州贵阳人,贵阳学院,讲师,硕士,研究方向:应用语言学。