论文部分内容阅读
表现性评价是指在真实语言测试情境中,对学生完成任务过程中的表现进行观察和评估。由于表现性评价重点强调对于考生运用某种语言能力的测试,因此表现性评价在二语测试中占据越来越重要的位置。但是,以表现性评价为主旨的英语口语能力测试在实际测试中,由于受到诸如考生的能力水平、考官的严厉度和一致性,任务和评分标准的难度以及偏差作用等影响,被试者是否得到口语能力测试的真实得分的问题值得重视和研究。因此在推行英语口语能力测试时,有必要对测试过程中评分流程的信度和效度进行验证。当前最常用的方法是运用多层面Rasch模型验证评分流程的信度与效度。运用多层面Rasch模型的研究曾集中于英语写作测试准确性和有效性的研究之上,现在模型研究也开始关注英语口语能力测试评分流程的信度与效度问题。在这种背景之下,本次研究旨在使用SPSS和Facets软件,通过研究在北京第二外国语学院举办的一次大学英语应用能力口语测试(Test of English Proficiency,简称TEP Oral),研究评分流程的信度和效度,了解影响考试最后得分的各种因素。本次研究的研究对象包括382名考生和36位评分员。大学英语应用能力口语测试(本文后续部分采用TEP Oral表述)采取整体评分和分项评分相结合的方式。本次研究首先采用SPSS进行描述性统计分析,随后使用Facets软件来进一步调查影响大学英语应用能力口语测试A级评分结果的各个侧面。本次研究旨在解决以下的问题:(1)整体评分和分项评分能否区分不同考生的能力水平?(2)评分员使用整体和分项评分时的严宽度是否不同?如若有不同,是何种程度的不同?(3)评分员在使用不同评分模式时是否能保持一致性?整体评分和分项评分的信度是否有显著性差异?如若有,哪一种评分模式更为可靠?(4)在两种评分模式下,考生的排名是否有所变化?(5)在两种评分模式下,各个分数是否得到合理使用?有没有过度使用或漏用的情况?研究结果显示使用整体和分项评分相结合的方式可以区分考生的不同能力水平。同时,评分员的严厉度在两种评分模式下均呈现了显著性差异,但是评分员在使用分项评分时更加宽松。评分员在使用不同评分模式评分时显著相关。有关考生得分层面,考生在不同评分模式下的排名无明显差异。最后,两种评分模式下的各个分数都得到了合理的使用。本次研究的结论显示大学英语应用能力口语测试A级的评分流程是可靠且有效的,本次研究结果会对英语口语能力测试和英语口语教学带来启示。