论文部分内容阅读
考试是教学活动中的一个重要环节,考试的主要目的是考察学生掌握知识的水平和程度,评价教学效果,督促学生完善课程学习上的不足,为改进教学方式和手段,提高教育教学质量提供参考依据。而要客观准确地实现考试的各项功能和作用,绝不仅仅依赖于卷面分数,更重要的是运用教育测量原理和统计学方法对试卷进行科学的分析,评价试卷本身及试题的质量。同时,试卷分析结果还可反馈于教学活动的各个方面,有效地促进教学工作各环节质量的提高,有助于提高试题库的质量和水平,从而提高考试的规范化和科学化。当前,评价考试的指导理论主要有三种:一是以真分数理论为代表的经典测验理论(Classical Test Theory, CCT),二是概化理论(Generailizability Theory, GT),三是项目反应理论(Item Response Theory, IRT)。经典测验理论以分数的真值理论为基础,发展了信度、效度、难度以及区分度等概念系统,用以衡量一个测量工具或考试题目的质量。与经典测验理论相比,概化理论和项目反应理论的优点是模型精准,与样本及测验项目无关,能为测验的编制、测验分数的报告和解释提供更多便利。其缺点是理论建立在复杂的数学模型之上,计算方法复杂,工作量大,常借助于计算机技术,妨碍其大范围的推广。本文首先介绍了教育测验理论的发展历程,随后介绍了难度、区分度、信度、效度等经典测验理论各个基本概念的指标含义及计算方法,并以山西医科大学2008级硕士研究生《医学统计学》考试试卷为例,使用EXCEL、SPSS、LISREL软件进行定量分析,计算出试题的难度、区分度和试卷的信度、效度,并根据经典测验理论对结果加以分析,以期对该课程的教学和考试具有一定的指导作用,同时对其他课程的评价分析提供一定借鉴意义。本文运用验证性因子分析方法评价试卷效度,以题型为潜变量,以小题为可观测变量构建验证性因子分析模型,既可以通过模型评价,反映问卷的整体有效性,也可以通过因子载荷评价每个试题的区分度和贡献。分析结果是,考试成绩呈右偏态分布。在20个客观题中,有17个项目的难度大于0.7,占客观题的85%;在6道主观题中,0.7难度以上的项目有2个,占主观题的33.33%。结合本次测验目的,并非为选拔少数能力高的被试,故此难度适中。在全部26个项目中,所有的简述题和分析计算题的区分度指数达到0.40以上,是非常优良的项目,占总题数的23.08%;判断题1、2、9、选择题1、9这5个项目的区分度在0.30-0.39之间,是合格、如能修改更好的项目,占总题数的19.23%;判断题3、4、5、6、8、选择题3、4、5、6、8,这10个项目的区分度在0.20-0.29之间,是尚可、仍须修改的项目,占总题数的38.46%;有4个项目的区分度在0.19以下,是劣、必须修改的项目占总题数的15.38%。选择题2的区分度为-0.307,D<0,为消极区分,意思是高分段考生的通过率低,低分段考生的通过率高,此类题目不适合参加测试。本次测试的信度a系数为0.666,说明此次考试是可信的。试卷的结构效度方面,RMSEA、AGFI、CFI与GFI等拟合指数提示模型与数据的吻合程度较好,说明此试卷具有较好的结构效度,模型无需修正。除判断题4、7、10,选择题1、3、5、8、10外,其它各小题设置较合理;其中选择题3尤其低,建议改进。第3、5、6、8、9项判断题设置较合理;第4、7项判断题不合理,建议改进。第3项选择题因子载荷略微偏低,建议改进。两个简述题设置都较合理。第2项分析计算题设置不合理,建议改进;第1、3、4项计算分析题设置合理。总体来说,此次考试学生成绩相对较好,试题难度适中,区分度良好,试卷可信、有效。