论文部分内容阅读
广东高考英语听说考试自2011年实施以来,便受到了社会各界的广泛关注。作为主观性考试,其评分主要依靠评分员的主观印象,评分信度极易受到各种因素影响,评分员效应是保证评分质量首先要改进的问题,因此有效控制评分员的质量是保证主观性考试质量的一个重要手段。近两年来,为了改善这一大型高风险考试的评分信度,近来决策部门对广东高考英语听说考试实行自动化评分改革。因此自动化评分的合适性、可操作性和人工评分的对比均有待检验。近年来,国内外一部分研究者使用数学模型对评分员的评分结果进行分析,取得了初步的成绩。其中应用比较广泛的是多层面Rasch模型(Many-Facct Rasch Model)。该模型源自心理测量学领域的项目反应理论(Item Response Theory),是原始Rasch模型的拓展,引入了更多的影响测试结果的侧面(facets),能够对各层面测量值进行独立估计,检验层面间的偏性交互作用,对主观评分质量提供系统而详细的分析。本研究利用2013年广东高考英语听说考试材料,以广东省广州市某高中119名高三学生为样本,运用项目反应理论的多面Rasch模型和一致性分析方法,详细分析了三种类型的评分员--按照背景分为大学教师、中学教师和自动化评分员的评分差异,从四个侧面加以反映:评分一致性、宽严度、集中趋势、随机效应等。通过分析探讨了自动化评分和人评分在严厉度、一致性、集中趋势、区分度、随机效应等方面的差异,并对每类评分员的严厉度和信度进行了具体的估算和比较,分析了每类评分员在对特定考生评分的过程中产生偏差的具体原因,并提取出了异常分数。研究结果显示,英语计算机口语考试中人工评分员自身一致性较好,自动化评分员有待改进,但三类评分员的评分相邻一致性都达到了较高水平;大学老师评分员评分较为宽松,但三组宽严差异情况并不显著;人评分员和自动化评分员都无集中趋势;自动化评分员以及大学老师评分员在个别考生维度上具有随机效应。我们希望本次研究能为广东高考英语听说考试的评分自动化改革提供具体的统计上的依据,促进MFRM在实际评分监控中的应用。