论文部分内容阅读
如何测试英语口语能力是外语测试领域一个长盛不衰的研究问题。近二十年间,国外学者不断对测试相关的理论基础与实施方法进行完善,一些大规模、标准化的口语能力测试也随即投入使用。随着测试理论的进一步发展,研究者们逐渐意识到了传统的口语测试中存在的问题:此类测试往往只能提供一个整体分数或笼统的等级描述用于反馈学生的英语口语能力,却无法详尽反映个体学习者在口语方面自身的优势与弱点。在此背景下,"诊断性测评"的概念开始走进测试领域研究者的视野,成为了一个新兴的研究方向。然而,目前国内关于英语口语能力的诊断性测评的研究为数寥寥。要开发一个有效、可行的诊断性测试,首先需要建立一个服务于诊断性测试的评分量表。因此,本研究从评分量表入手,对诊断性评分量表应用于传统口语测试环境中的效度进行深入探究。本研究根据以 Bachman&Palmer(1996)的口语交际能力模型(CLA)及 Alderson(2005)对诊断性测评的定义为理论基础,并参考了一些认可度较高的现有英语口语能力评分量表,设计了两份诊断性评分量表,这两份量表被用于同一项已有的口语考试任务。为实现对比分析,本研究采取控制变量法,两份量表在分数区间、评分维度、评分等级描述语的内容设置上保持一致,力图凸显量表本身的形式及每个量表提供的等级描述语的详细度这两个方面的差异。7名评分员依据这两份不同的评分量表,对30个口语录音文件分别进行评分。每个阶段的评分结束后,评分员填写一份相应的开放式问卷,表达他们对这一阶段使用的评分量表和自己的评分过程的理解。本研究采取量化与质性分析相结合的混合式研究方法,首先使用多侧面Rasch模型对评分的数据结果进行分析,进而对两份评分量表的效度进行说明与对比。然后,本研究运用主题分析法,将评分员的开放式问卷数据进行编码归纳,通过对评分行为的分析为两个量表的对比提供深入的解释。最后,本研究综合参考了量化与质性分析结果中发现的问题,分析对比了两份评分量表在效度层面上的差异,继而探究在传统的口语能力测试背景中使用诊断性测评方法的可行性。