论文部分内容阅读
写作测试以其高效度著称,但其信度相对较低,因为写作评分过程中评分员这个关键因素会表现出一定差异。即使评分员都颇有经验,而且在评分标准的理解和使用上接受同样的训练,他们的实际评分行为仍会有很大的不同。尤其值得关注的是,评分员之间似乎表现出各自特有的阅卷模式,具体表现为评分员关注的评分标准和阅读文章信息的方式不同。本文试图对高考评分员阅卷模式进行分类,目的在于为将来评分员不一致性的研究以及评分员的监控与培训提供一定启示。本文提出两个假设,假设一,可以根据评分员对各个评分标准赋予的重要性不同将其分类,假设二,可根据评分员阅读文章方式不同将其分类。为验证第一个假设,我们随机挑选45个高考英语写作评分员依据一个评分标准重要性的四级量表(不太重要、重要、很重要、极其重要)对七个常用评分标准的重要性进行打分。七个标准涉及到写作各个方面,分别是语法、词汇、句型、内容、流畅性、卷面整洁、组织结构。首先,多侧面Rasch分析证明设定的评分标准重要性量表有效而且评分员在这七个标准重要性的认识上确实存在显著不同,这是分类的前提。然后,利用模糊聚类统计方法对评分员进行基于标准的分类,随之产生了六类评分员:内容类、语法类、卷面整洁类、组织结构类、语法内容双重标准类、非卷面整洁类。最后,他们对一篇高考作文进行评分做出口头报告,得出不同类型评分员在实际评分过程中的具体表现,然而ANOVA分析表明关注不同标准的评分员给分并无显著性差异。为验证第二个假设,45个评分员就阅卷方式提供回顾性书面报告,包括评判文章时读或浏览几遍,以及每遍的思维过程,对书面报告进行定性定量分析可得出评分员阅卷模式分为四类,“通读一遍”、“通读两遍”、“一遍通读再遍浏览”、“一遍浏览再遍通读”以及每种阅卷方式的思维过程,其中采用“一遍通读再遍浏览”的阅读方式评分实践证明更为优质高效。然而,不同阅卷方式的评分员给分同样没有表现出显著性差异。对评分员的不一致性进行分类的这种研究方法在国内尚属少见。因此,本研究结果对我国高考写作评分,以及其他大规模高风险考试中的写作评分,具有十分重要的意义。