论文部分内容阅读
在语言教学与测试领域中,大部分课堂都依然在实施教师作为单独的评分者这一测评模式,这一测评模式在诸多方面都存在不少问题与缺点,比如教师工作量过大,存在潜在评分偏差,不能及时给予学生反馈等等,不仅如此,这样的评测模式还会影响到学生的测评成绩,以至于影响到学生的学业发展。近年来,使用可替代性评分方法在第二外语学习领域得到了日益高涨的呼声。但是就现有的研究来看,国内外二语习得领域中,将不同的测评方式,即学生自评、学生互评和教师评测进行对比的研究并不是很多,尤其是运用多层面RRasch模型进行对比研究的就更加少了。本文就是运用多层Rasch模型及其相应主流应用软件FACETS 3.22 (Linacre,1999)对英语写作中的学生自评、互评和教师测评结果进行分析研究,值得一提的是,该研究还加入了自动评分工具这一因素,通过统计分析将“句酷批改网”评分结果与其他三种人工评分结果进行了对比。另外,作为理论背景中的重要概念,Myford 与 Wolfe在2003年提出的“评卷人效应”理论和Holec在1981年提出的“自主学习”理论,都在一定程度上支持了语言学习中的可替代性评测方式的使用。评卷人在评分时常常会因为自己的个人偏好、习惯或期望等因素的影响而产生各种各样的评卷误差,这很有可能会导致整个评卷系统的效度及信度受到影响,学生的测试分数不能很好地反应其真实的能力水平,因此可替代性测评的存在就有了强烈的呼声。Myford与Wolfer提出多种评分员效应,在本研究中“总体严厉程度”与“集中趋势”将会被分析讨论。“自主学习”概念也在很大程度上提倡可替代性测评方式的应用,本文中的学生自评和同伴互评都是“自主学习”在二语教学中的较好体现。学生们自己评测,不仅提高了学生在二语教学中的自主参与度,也可以使得学生在评测时从另一个角度来学习,发现问题解决问题。只有学生主动参与进来才能更好地更有效地实施新时代的二语教学任务。本研究针对兰州大学80名非英语专业大二学生和两名英语教师设计并开展。所有学生都被要求对自己的作文进行评分;在进行同伴互评时,所有被试都会随机收到另外三名同学的作文,而且这三份作文都做了匿名处理。两位英语教师会同时对所有被试的作文进行评测。在这三种不同评测中,评分员都会提前对评分表进行了解及评分练习。所有评测结束后,三种评测结果将会被收集誊写以备用于研究分析。本研究的重点任务是使用多层面Rasch模型电脑分析软件FACETS (3.22)对收集到的测评结果进行分析。在研究最后一部分,网络自动测评工具“句酷批改网”对学生写作测试的评分结果也会被加入对比分析,该结果与学生自评、同伴互评及教师评分结果进行斯皮尔曼等级相关分析,旨在得出该网站评分结果与其他人工评测结果的一致性。但是后者将不会作为该对比研究的重点分析内容。本研究从三个层面进行了多侧面Rasch分析,这三个层面分别为写作文的学生、评卷人和评分项目。lFACETS软件在对不同层面进行分析时,会将它们置于同一个线性测量面中,这样得出的结果就可以很直观的进行对比。在本次多层面Rasch分析中,FACETS软件将会产出以下五个结果:1) FACETS总图;2)学生写作能力测量结果及其拟合值;3)评分员的评分严厉度结果及拟合值;4)评分员和学生的交互性偏差分析结果;5)各个评分项目的难度测量结果。FACETS总图是一个综述性的结果,它将会把很多信息很直观地呈现在一个图中,这些信息包括评分员的严厉度和学生写作能力等。本研究将会解决五个问题,这五个问题依次是:1)学生写作能力,评分员严厉度和评分项目在多大程度上拟合该模型?2)在对学生写作能力进行评测试,学生自评、同伴互评还有教师评测的结果会呈现怎么样的不同?3)学生自评员、同伴互评员和教师评分员在评测学生写作能力时,会呈现何种程度的偏差型,不同评分员的偏差又会有怎样不同的类型?4)对于评分项目的难度,学生自评、同伴互评和教师评测会有怎样差异?5)学生自评、同伴互评、教师测评结果与网上在线自动测评工具“句酷批改网”评分结果进行比较时,会有何种程度的一致性?前四个问题均可以在FACETS产出的结果中得到答案,最后一个问题将会在SPSS中进行分析并且得出其等级相关系数。根据最终的统计分析结果发现,虽然三种评分员都呈现出内部一致性,但是和教师相比较,学生作为评分员时,在评分严厉度上表现出更大的跨度;在组群层面上并没有发现存在评分集中趋势。同伴评测相对于自评更多地呈现出评分宽松的迹象,而自评往往会相对严厉,教师评分则更加稳定,并且处于不松不严的程度。学生自己的写作能力与其评分表现也有一定联系:写作能力较高的学生在自评时会表现的比互评时更加宽松,而写作能力较低的学生则对自己的作文评分更加严格。另外,自评员容易在评测能力较低的学生作文时更加宽松;自评员面对能力不同的学生作文时则表现相对稳定,均呈现相同数量的严厉评测与宽松评测。互评员的评分模式并不取决于自己的写作表现,而是在一定程度上取决于他们所评测的学生写作能力。自评员自己的写作能力会影响自评时的评分模式,与此同时,自评员的评分表现并不完全取决于学生的写作水平。至于学生能力与评分员表现的交互偏差分析结果,其中一位教师在本研究中并没有检测出交互偏差表现,然而另一位教师的评分结果则呈现明显的偏差现象。自评员被检测出最多的交互偏差现象,而互评员相对呈现出最少的交互偏差。就评分项目难度而言,教师评分结果在分数呈现了最大的跨度,互评结果则是跨度最小的;另外“内容”这一评分项目被所有评分员给予最严厉的评分,而“结构”这一项目获得了最宽松评分。通过本研究得出的结论,总体来说学生自评并不是很理想的可替代性评测选择。特别是在正式测试中,对待学生自评的应该要谨慎;而同伴互评则相比之下则更加可靠一些。最后一部分统计分析得出的结果表明,网络自动评分工具“句酷批改网”与该研究中三种人工评分结果存在较大不一致性。通过本研究的结果,可以得出一些对二语教学与测试有用的启示。多层面Rasch模型的应用,对于评分员培训有着很好的指导作用,可以使得培训更加有针对性更加有效;此外,多层面Rasch模型还可以被运用于检测测试评分中的不合格评分员,尤其在高利害关系测试评分中这样的检测是非常有必要的;同伴互评相对于学生自评来说,更适合作为一种替代性评测方式来协助教师的日常评测工作;最后要提到的是,虽然“句酷批改网”使用方便快捷,但它的评分结果与教师评分和学生自评结果都表现为显著不一致,所以它对学生作文的评分分数的参考价值受到怀疑,因此教师在应用该工具时要尽量谨慎,对待其给出的分数要三思。本研究依旧存在不足之处,例如该研究的被试人数偏少,尤其是在第一次统计分析结果出来后,15名学生因为其评分结果与Rasch模型不拟合,所以作为评分员,这些学生的评分结果被剔除出最终数据中。这样就导致学生评分员人数更加有限。另外,所有被试学生的英语水平测试分数并没有被收集,也就是说在该研究中,不能找出学生英语水平测试(例如CET-4级考试)成绩与其评分表现之间是否存在关系。第三个不足就是在评分进行前,学生评分员没有得到足够的评分训练与练习,这可能会影响评分效果。最后,该研究没有做进一步地定性分析,因此该研究中出现的一些无法在统计分析中得出答案的问题被忽视了。