论文部分内容阅读
1999年,写作测试中开始运用人机结合评分。因一些学者认为作文自动评分系统无法识别作文内容,质疑其评分结果,所以研究者采用诸多方法验证人机结合评分的同质性与异质性。综述相关文献后,未发现用多层面Rasch模型分析人机结合评分中阅卷员效应的研究。依据Myford和Wolfe(2004)的阅卷员效应监测框架,本研究用多层面Rasch模型,从阅卷员群体层面和阅卷员个体层面两个角度,对人机结合评分的总体严厉程度、集中趋势、随机效应、晕轮效应、区分性严厉度进行分析。分析阅卷员个体层面时,将人工阅卷员与爱写作英语写作教学与评阅系统(即爱写作系统)进行比较。本研究主要回答以下三个问题:一、人机结合评分在阅卷员群体层面上是否存在阅卷员效应?二、人机结合评分在阅卷员个体层面上是否存在阅卷员效应?三、人工阅卷员与爱写作系统的阅卷员效应是否存在差异?研究取材于国内唯一采用人机结合评分的大规模写作测试——“外研社杯”全国英语写作大赛,分析了5名人工阅卷员和爱写作系统对初赛中82名参赛者完成的164篇作文的评分结果。各阅卷员在内容、语言、结构三个维度上都先分级,后评分。分级量表依据已有研究改编,包含五个等级;评分量表从外研社官网下载到。以标准差为基本单位,将人工阅卷员、爱写作系统评分的总分也分为五级,并用Facets软件分析内容、语言、结构、总分的所有等级。分析六个多层面Rasch模型的运行结果后发现:一、在阅卷员群体层面上未表现阅卷员效应,表明人机结合评分的整体信度理想。二、在阅卷员个体层面上,5号阅卷员、4号阅卷员各自表现了集中趋势和区分性严厉度,爱写作系统表现了集中趋势。这表明爱写作系统的评分信度较理想,可推广使用,但仍需改进。三、人工阅卷员与爱写作系统的阅卷员效应存在差异,人工阅卷员与爱写作系统的总体严厉程度不同;此外,人工阅卷员表现了区分性严厉度,但爱写作系统并未表现。本研究扩大了阅卷员效应的研究范围,拓展了人机结合评分的研究方法,探索了作文自动评分系统对不同能力参赛者的偏差,验证了作文自动评分系统表现集中趋势的结论。本研究认为在写作大赛、更多的写作测试和写作教学中可推广使用人机结合评分;此外,可将爱写作系统用于低风险写作测试及写作教学中。