论文部分内容阅读
等值的研究对于考试的公平性、题库建设、教学质量评价和计算机自适应测验都具有重要的意义。在IRT框架下,常用的项目反应模型有0-1评分的Logistic模型和多级评分的等级反应模型(Graded Response Model,GRM)或拓广的分部评分模型(Generalized Partial Credit Model,GPCM)。随着教育测验评价形式的不断丰富,越来越多的试卷不仅有0-1评分题,又有多级评分题,我们称这种试卷为混合题型试卷,简称为混合题型(Multiple Item Type),我国也常常使用这种题型进行测试,例如医生资格考试。以往国内对混合题型的测验等值采用的方法是将Logistic模型看成是GRM或GPCM的特例。为确定起见,本文假设多级评分项目适合GRM。由于GRM中不含有猜测度,所以当0-1评分项目存在猜测时,这种处理方式就忽略了项目的猜测因素。为了解决这一问题,本文将三参数的逻辑斯蒂克模型和等级反应模型进行扩展得到混合模型,此模型解决了0-1评分项目猜测度被忽略的问题,并针对此模型开发了相应的等值程序。另外,为了检验某次测验0-1评分项目存在猜测,而人为将其忽略所带来的误差大小。本文给出了利用IRT特征曲线法求解等值系数的方法和具体步骤,以等值系数估计值的误差大小作为衡量标准,进行了大量的Monte Carlo模拟实验,使用相同的模拟数据将混合模型与GRM进行比较,其中GRM是忽略了0-1评分项目猜测度的。实验结果表明,若某测验中0-1评分项目存在猜测而等值时忽略这一事实误用GRM,在绝大部分情况下都比混合模型等值的误差大而且有显著性差异,并且等值的误差会随着猜测度的的增大而增大。最后,考虑到多级评分项目同样会存在猜测,本文还对IRT新模型—三参数等级反应模型进行了等值研究。分别用5种不同的等值准则考察三参数等级反应模型的有效性和适应性。结果表明,当等值系数A取值在0.5~1.4之间SLcrit表现更好,1.5~2.0之间Hcrit表现稍好,SQRcrit、Wcrit、SREcrit占优的情况不多,胜出的范围也没有规律。