论文部分内容阅读
摘 要:运用Rasch模型对一份高中英语学业测试试卷进行质量分析,从试题难度,难度与学生能力匹配及试卷区分度来评估试题质量。结果表明,试卷整体信效度较高,能较好对学生的英语能力进行测试。最后进行学业诊断分析并提出教学建议。
关键词:Rasch模型;试题质量分析;学业诊断
中图分类号:G4 文献标识码:A doi:10.19311/j.cnki.1672-3198.2021.20.078
经典测量理论框架下,题目难度的评价方法比较简单,一般以题目的正确率(客观题)、得分率(主观题)来表示。但这种难度存在如下问题:难度指标与实际意义相悖。正确率、得分率的理论取值在[0,1]之间,该值越高,代表题目越简单;该值越低代表题目越难。难度系数的绝对值与其代表的含义相悖,因此,正确率、得分率等通过率指标更应称为“容易”度。
难度的计算受学生群体的能力分布影响。通过率受学生群体总体水平的影响,同一题目,在整体水平较高的学校,通过率高,则可能被判定为简单题;在整体水平较差的学校,通过率低,却又可能被判定为难题。即便是同一群体,不同时间段得到的通过率也不是稳定的。因此,通过率仅可作为参考,不能作为评价题目难度的指标。
本研究引入Rasch模型进行题目难度估计,该模型有跨群体、跨情境的稳定性,解决了经典测量理论框架下以通过率作为难度指标的弊端。
1 难度
Rasch模型将题目平均难度设定为0,题目难度分布在[-∞,+∞]之间。以0为中心,可以将题目难度划分为5个等级,难度在(3,1]之间称为难题,难度在(1,-1]之间称为中等题,难度在(-1,-3]之间称为简单题,难度大于等于3的难题、难度低于-3的简单题均称为极端难度题目,如表1所示。统计结果显示简单题、中等题占总题数的79%难度配比比较合理,但存在4道极端难题。
从不同题型来看,听力题、单选、情境和完形题以中、低难度为主,难题较少;阅读理解和基础知识应用以中、高难度题目为主,简单题较少。
Rasch模型通过拟合指数评价题目、数据的质量,最常用的指标为Infit MNSQ,该指标的理论最佳取值为1,当Infit MNSQ为1,代表实际数据与Rasch模型的预测完全相同。一般认为拟合指数取值在[0.7,1.3]之间时,题目与数据拟合较好,未出现数据与理论假设严重不符的情况。因此,拟合指标可以用来评价在一次考试过程中单个题目的质量,若拟合指数超出相关理论建议的范围,则认为该题对整个测评的贡献不大,质量较差。本次数据分析,发现有4个题目拟合指数大于1.3,占总题目数的5%。进一步分析后发现,这些题目均为难题,其中阅读理解2个题目、听力1个题目、单选和1个题目。主要原因是有难度题容易出现猜测答题的情况,猜测答题,尤其是那些猜对题目答案的被试,实际作答情况与模型预测不符,最终导致不拟合。
2 难度与学生能力匹配度
Rasch模型将题目难度和学生能力统一在同一个量尺上,实现了学生能力与题目难度的直接比较。基于这一特征绘制的题目难度——学生能力分布图可以非常直观得反应整套试卷难度与学生能力的匹配程度。本次测试的题目——学生分布图如图1所示。
图形从左向右分成三个区域,左侧“Measr”列称为Rasch量尺,即衡量题目难度和学生能力的一把“尺子”。该尺子的刻度与传统意义上的尺子不同,其参照点0点在尺子的中间。Rasch模型将所有题目的平均难度设定为0。中间的“Students”列代表学生,以“*”和“.”表示,每个“*”代表3名学生,低于三人时用“.”表示。分布位置越往上,代表能力水平越高,反之则代表能力水平越低。右侧的“Items”列代表题目,分布位置越往上,代表难度越高,反之则代表难度越低。
从图形上看,本次考试以中等和简单题目为主,但是也有4道极端难题(66、68、70、75)和较简单题目(5题)。
学生能力主要分布在[-2,3]之间,题目难度分布在[-2.5,2.5]之间。试卷难度相较于学生整体能力偏简单。但是本套试卷又存在4道极端难度题,这在一定程度上影响了本次测试对这一群体的评价精度;对于难度在[-3.-1]之间的题目,没有相對应的学生,这些题目对学生总体来讲过于简单,没能在诊断中起到足够的作用。在后续的试卷修订过程中,可以考虑对极端难度题的替换;同时在整卷中选择一些中等题目,替换为过于简单的题目,以提高对高水平学生的诊断效果。
基础教育阶段考试的目的除了对学生进行诊断外,还希望将学生划分为不同能力等级,以满足升学、分层教学等需求。因此,对试卷区分学生的能力“试卷的区分度”评价也是本次数据分析的内容之一。本次测试,通过Rasch的分隔系数、分割信度等指标来评价试卷的这一特性。
Rasch模型通过被试分隔系数(Person Separation Index)、分隔信度(Person Separation Reliability, PSR)和分隔指数(Strata)评价测量精度。分隔指数表示试卷可以将学生区分为几个有显著差异的组别,Strata=(4*PSI+1)/3,当PSI=2时,Strata=3,即量表可以将被试区分为高分、中分、低分三组;同时,PSR应高于0.8。本次测验的PSI=3.49,Strata=5.0,PSR=0.92,说明本次测验虽然有部分题目难度设置不合理,但因题目总数较大,仍可起到区分不同英语水平学生的作用,具备一定的测量精度。
3 学业诊断
Rasch模型的基本原理认为被试正确作答题目的概率可以用个体能力θ与该题目难度δ的一个简单函数来表示。
Pni1=e(θn-δi)1+e(θn-δi) 由Rasch基本模型可得:当学生能力θn和题目难度δi相等时θn-δi=0,则Pni1=0.5,即答对概率为50%;当学生能力θn高于题目难度δi时θn-δi>0,答对概率大于50%;当学生能力θn低于题目难度δi時θn-δi<0,答对率小于50%。
因此,客观题分析主要根据学生能力及题目难度的关系。当学生能力θn高于或等于题目难度δi时θn≥δi,学生答对题目的概率P≥50%。即他答对的可能性更高,教学的目的是帮助他尽可能的答对题目。如果没有答对,则应当及时开展教学干预。反之,θn≤δi,学生答错的可能性更大,即学生能力还达不到该题对学生能力的要求。根据能力水平“达标/未达标”、作答表现“正确/错误”的关系,可以将学生划分为四类,如表2所示。
根据模型估计出的两个参数,对每名学生的作答类型进行判断,以此评价学生在客观题上的作答表现,并找到异常错误较高的题目,实施干预教学。
此次分析结果显示,出现异常错误比例较大(大于15%,人数在39人以上)的题目有22个。其中听力题目6个,占听力题总数的25%;单选题3个,占单选题总数的20%;情境题2个,占情境题总数的20%,完形填空题3个,占完形填空题目总数的30%;阅读理解题8个,占阅读理解题目总数的53%。从题目绝对数量和比例上看,听力和阅读理解出现异常错误的情况最多。同时,这些题目的难度在[-0.336,1.948]之间,题目的平均难度为0.751,标准差0.679;其中中等难度题目14个,占该类题目总数的63.6%;难题8个,占总数的36.4%。这表明这些题目和题型上,学生群体存在较大的问题;并且,这些题目以中等难度题目为主,教学难度和学生掌握的难度都比较低。因此,上述题目处在学生的最近发展区内,对本次考试的学生群体来说是一个较大的提升空间。
在具体的教学策略上,任课教师应当以异常错误为指导,结合题目选项分布,分析学生出现错误的原因,关注题目背后考察的认知能力,重点讲解高异常错误题目,有针对性、高效率得解决学生表现出来的问题。
参考文献
[1]沈甸,徐佳敏.基于Rasch模型分析测评工具质量的研究述评[J].中国考试,2020,(02):65-71.
[2]蔡旻君,曹洋洋,欧阳鑫颖,等.Rasch分析中Winsteps控制数据文件的生成与应用[J].教育测量与评价,2019,(09):3-10+17.
[3]王蔷,胡亚琳.英语学科能力及其表现研究[J].教育学报,2017,13(02):61-70.
关键词:Rasch模型;试题质量分析;学业诊断
中图分类号:G4 文献标识码:A doi:10.19311/j.cnki.1672-3198.2021.20.078
经典测量理论框架下,题目难度的评价方法比较简单,一般以题目的正确率(客观题)、得分率(主观题)来表示。但这种难度存在如下问题:难度指标与实际意义相悖。正确率、得分率的理论取值在[0,1]之间,该值越高,代表题目越简单;该值越低代表题目越难。难度系数的绝对值与其代表的含义相悖,因此,正确率、得分率等通过率指标更应称为“容易”度。
难度的计算受学生群体的能力分布影响。通过率受学生群体总体水平的影响,同一题目,在整体水平较高的学校,通过率高,则可能被判定为简单题;在整体水平较差的学校,通过率低,却又可能被判定为难题。即便是同一群体,不同时间段得到的通过率也不是稳定的。因此,通过率仅可作为参考,不能作为评价题目难度的指标。
本研究引入Rasch模型进行题目难度估计,该模型有跨群体、跨情境的稳定性,解决了经典测量理论框架下以通过率作为难度指标的弊端。
1 难度
Rasch模型将题目平均难度设定为0,题目难度分布在[-∞,+∞]之间。以0为中心,可以将题目难度划分为5个等级,难度在(3,1]之间称为难题,难度在(1,-1]之间称为中等题,难度在(-1,-3]之间称为简单题,难度大于等于3的难题、难度低于-3的简单题均称为极端难度题目,如表1所示。统计结果显示简单题、中等题占总题数的79%难度配比比较合理,但存在4道极端难题。
从不同题型来看,听力题、单选、情境和完形题以中、低难度为主,难题较少;阅读理解和基础知识应用以中、高难度题目为主,简单题较少。
Rasch模型通过拟合指数评价题目、数据的质量,最常用的指标为Infit MNSQ,该指标的理论最佳取值为1,当Infit MNSQ为1,代表实际数据与Rasch模型的预测完全相同。一般认为拟合指数取值在[0.7,1.3]之间时,题目与数据拟合较好,未出现数据与理论假设严重不符的情况。因此,拟合指标可以用来评价在一次考试过程中单个题目的质量,若拟合指数超出相关理论建议的范围,则认为该题对整个测评的贡献不大,质量较差。本次数据分析,发现有4个题目拟合指数大于1.3,占总题目数的5%。进一步分析后发现,这些题目均为难题,其中阅读理解2个题目、听力1个题目、单选和1个题目。主要原因是有难度题容易出现猜测答题的情况,猜测答题,尤其是那些猜对题目答案的被试,实际作答情况与模型预测不符,最终导致不拟合。
2 难度与学生能力匹配度
Rasch模型将题目难度和学生能力统一在同一个量尺上,实现了学生能力与题目难度的直接比较。基于这一特征绘制的题目难度——学生能力分布图可以非常直观得反应整套试卷难度与学生能力的匹配程度。本次测试的题目——学生分布图如图1所示。
图形从左向右分成三个区域,左侧“Measr”列称为Rasch量尺,即衡量题目难度和学生能力的一把“尺子”。该尺子的刻度与传统意义上的尺子不同,其参照点0点在尺子的中间。Rasch模型将所有题目的平均难度设定为0。中间的“Students”列代表学生,以“*”和“.”表示,每个“*”代表3名学生,低于三人时用“.”表示。分布位置越往上,代表能力水平越高,反之则代表能力水平越低。右侧的“Items”列代表题目,分布位置越往上,代表难度越高,反之则代表难度越低。
从图形上看,本次考试以中等和简单题目为主,但是也有4道极端难题(66、68、70、75)和较简单题目(5题)。
学生能力主要分布在[-2,3]之间,题目难度分布在[-2.5,2.5]之间。试卷难度相较于学生整体能力偏简单。但是本套试卷又存在4道极端难度题,这在一定程度上影响了本次测试对这一群体的评价精度;对于难度在[-3.-1]之间的题目,没有相對应的学生,这些题目对学生总体来讲过于简单,没能在诊断中起到足够的作用。在后续的试卷修订过程中,可以考虑对极端难度题的替换;同时在整卷中选择一些中等题目,替换为过于简单的题目,以提高对高水平学生的诊断效果。
基础教育阶段考试的目的除了对学生进行诊断外,还希望将学生划分为不同能力等级,以满足升学、分层教学等需求。因此,对试卷区分学生的能力“试卷的区分度”评价也是本次数据分析的内容之一。本次测试,通过Rasch的分隔系数、分割信度等指标来评价试卷的这一特性。
Rasch模型通过被试分隔系数(Person Separation Index)、分隔信度(Person Separation Reliability, PSR)和分隔指数(Strata)评价测量精度。分隔指数表示试卷可以将学生区分为几个有显著差异的组别,Strata=(4*PSI+1)/3,当PSI=2时,Strata=3,即量表可以将被试区分为高分、中分、低分三组;同时,PSR应高于0.8。本次测验的PSI=3.49,Strata=5.0,PSR=0.92,说明本次测验虽然有部分题目难度设置不合理,但因题目总数较大,仍可起到区分不同英语水平学生的作用,具备一定的测量精度。
3 学业诊断
Rasch模型的基本原理认为被试正确作答题目的概率可以用个体能力θ与该题目难度δ的一个简单函数来表示。
Pni1=e(θn-δi)1+e(θn-δi) 由Rasch基本模型可得:当学生能力θn和题目难度δi相等时θn-δi=0,则Pni1=0.5,即答对概率为50%;当学生能力θn高于题目难度δi时θn-δi>0,答对概率大于50%;当学生能力θn低于题目难度δi時θn-δi<0,答对率小于50%。
因此,客观题分析主要根据学生能力及题目难度的关系。当学生能力θn高于或等于题目难度δi时θn≥δi,学生答对题目的概率P≥50%。即他答对的可能性更高,教学的目的是帮助他尽可能的答对题目。如果没有答对,则应当及时开展教学干预。反之,θn≤δi,学生答错的可能性更大,即学生能力还达不到该题对学生能力的要求。根据能力水平“达标/未达标”、作答表现“正确/错误”的关系,可以将学生划分为四类,如表2所示。
根据模型估计出的两个参数,对每名学生的作答类型进行判断,以此评价学生在客观题上的作答表现,并找到异常错误较高的题目,实施干预教学。
此次分析结果显示,出现异常错误比例较大(大于15%,人数在39人以上)的题目有22个。其中听力题目6个,占听力题总数的25%;单选题3个,占单选题总数的20%;情境题2个,占情境题总数的20%,完形填空题3个,占完形填空题目总数的30%;阅读理解题8个,占阅读理解题目总数的53%。从题目绝对数量和比例上看,听力和阅读理解出现异常错误的情况最多。同时,这些题目的难度在[-0.336,1.948]之间,题目的平均难度为0.751,标准差0.679;其中中等难度题目14个,占该类题目总数的63.6%;难题8个,占总数的36.4%。这表明这些题目和题型上,学生群体存在较大的问题;并且,这些题目以中等难度题目为主,教学难度和学生掌握的难度都比较低。因此,上述题目处在学生的最近发展区内,对本次考试的学生群体来说是一个较大的提升空间。
在具体的教学策略上,任课教师应当以异常错误为指导,结合题目选项分布,分析学生出现错误的原因,关注题目背后考察的认知能力,重点讲解高异常错误题目,有针对性、高效率得解决学生表现出来的问题。
参考文献
[1]沈甸,徐佳敏.基于Rasch模型分析测评工具质量的研究述评[J].中国考试,2020,(02):65-71.
[2]蔡旻君,曹洋洋,欧阳鑫颖,等.Rasch分析中Winsteps控制数据文件的生成与应用[J].教育测量与评价,2019,(09):3-10+17.
[3]王蔷,胡亚琳.英语学科能力及其表现研究[J].教育学报,2017,13(02):61-70.