论文部分内容阅读
口语测试通常采用多任务(如“短文朗读”、“个人陈述”)或多任务类型(如综合型或交互性任务)进行测量。在构念和语境的交互作用下,由不同任务或任务类型界定的口语交际语境往往影响着考试构念(Bachman,2007;Chapelle,1998;Fulcher,2015)。然而,学界对此类影响并未予以足够重视。McNamara、Hill和May(2002)认为,我们对评分量表的构建和解释体现着口语考试真正意义上的构念。此外,评分量表在行为表现评估中的重要性也体现在其对与任务和评分员相关因素的调控斡旋作用上(Schoonen,2005)。综合考虑上述观点,在采用多任务的口语考试中,评分量表既反映了考试的设计构念,又影响着考试评分,如分数结果、评分员行为。这些与评分相关的问题均影响着考试设计构念在测试实践中的实现程度。从整体效度观来看(Bachman,1990;Chapelle,1999;Messick,1995),对由不同评分量表所得的考试分数推断的研究,实际上是对考试构念效度在不同评分条件下的考察。然而,与评分量表相关的实证研究却较少涉及这一主题,此前大部分对评分量表的研究也多见于写作评分而非口语测评。鉴于此,本研究探索了评分量表在英语口语水平考试中对语境相关因素的调控作用,如任务特征、口语交际类型等。本研究重点关注该调控作用对考试分数、测量层面以及评分员评判行为的影响程度,并在此基础上探索评分量表对考试构念效度的影响。本研究立足于交互构念理论(Bachman,2007;Chalhoub-Deville,2003;Chapelle,1998;He&Young,1998),以大学英语四级口语考试为研究对象,对比了评分员在使用三种评分量表时的评分表现。这三种评分量表在与考试构念和考试任务特征的互动程度上有所不同。评分员围绕相同的核心评分标准,使用这三种评分量表对考生的考试表现进行评分。在考试层面,评分员利用基于整体考试的分项评分量表进行评分(分项评分);在单个任务层面,他们采用基于任务的综合评分量表进行评分(任务评分);在任务类型层面,他们使用基于任务类型的分项评分量表,对考生在交互性和非交互性交际中的表现进行评分(任务类型评分)。在整体效度观下,考试效度论证即是对基于考试分数的推断的求证。根据此观点,本研究采用基于论证的方法对评分员的评分实践进行效度论证。本研究共提出了一个总研究问题和三个分研究问题,分别对应“评价”(根据评分量表对考试表现进行评估)、“概化”(在平行考试任务和评分员中对分数一致性进行检验)和“解释”(对考试分数与设计构念间的关联进行研究)三个推断。总研究问题:评分量表在哪些方面、以及何种程度上对大学英语四级口语考试的构念效度有影响?研究问题1:评分量表对评价考生表现有何影响?(评估)1a.不同评分量表得出的考试分数的相关性如何?1b.不同评分量表得出的考试分数的差异性如何?1c.评分量表对考生能力分布的影响如何?1d.评分量表对评分标准和分量表使用的影响如何?1e.评分量表对评分员在评分标准、考生上的评分偏差性的影响如何?1f.评分量表对评分员在评分把握度上的影响如何?研究问题2:评分量表对各考试任务和各评分员间分数一致性有何影响?(概化)2a.评分量表对评分员评分一致性和严厉度的影响如何?2b.评分量表如何影响各测量层面对分数差异的相对贡献?2c.评分实践中,评分标准对分数可靠性的影响如何?研究问题3:评分量表对分数意义与解释有何影响?(解释)3a.评分员如何看待口语构念与口语交际语境间的交互作用?3b.评分量表、交际语境、考生表现间的交互作用对评分员的评分过程有何影响?本研究采用“多阶段评估设计”,通过混合型研究方法(Creswell,2015;Creswell&Plano Clark,2011)展开研究。阶段1(理论构建)。首先,该阶段基于相关文献回顾,从交互角度(Chapelle,1998)对口语构念进行了定义,为评分标准的开发奠定基础。同时,该阶段的研究以交互构念理论下的极简型交互观(Chapelle,1998)、温和型交互观(Chalhoub-Deville,2003)、强化型交互观(He&Young,1998)为基础,分别为分项评分、任务评分和任务类型评分的量表设计奠定了理论根基。此外,该阶段研究将研究问题与基于论证的评分实践效度验证框架(Knoch&Chapelle,2017)结合,对研究框架进行了构建,以搭建口语考试评分与构念效度论证的桥梁。阶段2(研究工具开发)。基于阶段1中的理论基础,该阶段研究参考国内外主要考试的口语评分标准,将考生在语音、语法、语篇、概念(内容)、语用层面的考试表现作为核心评价标准,编制三种评分量表。同时,编写评分员半结构式访谈大纲,着重关注他们使用不同评分量表时的评分感受和评分过程。阶段3-4(研究工具和分析方法的试测)。该研究阶段通过展开小规模的完全交叉实验,对研究工具进行试测,并综合定量和定性数据,对评分量表对口语考试构念效度的影响展开了初步讨论。阶段5-6(完善研究工具,完成正式实验)。该阶段研究根据试测结果,对评分量表和访谈大纲进行了修改,同时开发调查问卷,以更好地展开正式实验。正式实验中,6位口语评分经验丰富的评分员受邀用三种评分量表对166份大学英语四级口语考试的录音样本进行评分。这些评分员分成两组,在组内利用完全交叉、平衡抵消的实验设计收集数据。166份口语样本中,34份为锚卷。每轮评分结束后,评分员就使用各评分量表的体验及评分关注点进行问卷反馈并接受访谈。阶段7-8(数据分析和结果讨论)。该研究阶段采用经典测试理论下的统计方法(如描述性统计、内部相关分析、配对样本相关分析和配对样本t检验)和多层面Rasch分析回答研究问题1;用概化理论和多层面Rasch分析讨论研究问题2。定性分析方面,参考交互口语评分过程的分析框架(改编自Cumming等,2002),对评分员的评分过程进行讨论。对问卷、访谈数据的定性分析结果主要用以回答研究问题3,并解释研究问题1中与评分员的评分把握度相关的问题。就研究问题1而言,由三种评分量表所得的考试分数均在不同程度上互相相关且有所差异。任务类型评分所得的考试分数和通过分项评分、任务评分所得分数的差异显著。任务评分中的光环效应最不明显。任务类型评分中考生能力的分布范围最广,任务评分对不同英语口语能力水平考生的区分度则最弱。评分员对三种评分量表的级别使用情况均大致与设计预期一致。评分员、考生、评分标准(考试任务)间的交互分析表明,评分员的评分偏差性对分数变化的影响不可忽略。具体而言,在使用三种评分量表时,评分员在评判考生能力高低方面的一致性较高;他们在使用不同评分标准(考试任务)时的严厉度差异明显、评分偏差性较大。就使用不同评分标准时的严厉度而言,评分员在分项评分中的差异最大;在评价考生能力方面,评分员在任务类型评分中的评分偏差性与考生口语水平最为相关,如考生能力越强,评分员越严厉(或越宽容)。评分把握度方面,评分员在使用分项评分和任务评分量表时更有自信。然而,评分员的自信程度高,并不意味着他们在实际评分中的评分准确性也高。就研究问题2而言,评分员在使用分项评分量表时的评分信度和一致性最高,在使用任务类型评分量表时的差异最明显。除了考生能力的影响,评分员、考生、评分标准间的交互作用及其他误差、评分员和考生间的交互作用,也对三种评分量表所得总分的变异有显著影响。分数概化方面,在大学英语四级口语考试中,评分员在使用分项评分量表(双评)时一致性最高,而任务评分(单评)中的分数概化力最低。就研究问题3而言,在使用三种量表时,评分员对语篇层面的评分标准均有所忽略。语音、概念(内容)和语用层面的评分标准与交际语境最为相关。在使用不同评分量表时,评分员在评分中的关注点也有所不同。分项评分中,评分员更注重对自己的评分行为进行“自我监控”;任务评分中,评分员更关注考生对话题的展开情况,即“概念焦点”;任务类型评分中,评分员更在意考生在交互性交际中的互动情况,即“交际焦点”。上述发现揭示了可能影响、甚至危害考试构念效度的主要因素。分项评分中,这些因素包括光环效应和评分员在评分中使用的宏观策略。任务评分中,相关因素包括对核心口语构念(如语音能力)在不同任务上的重复扣分,以及对概念(内容)层面分数权重的考量。任务类型评分中,这些因素包括口语能力在交互性口语交际中的共建问题,以及对核心口语构念在非交互性和交互性交际中的重复扣分问题。本研究主要在三个方面有待改进。首先,由于大学英语四级考试主要用以检验考生是否达到了我国大学英语教学大纲的基本要求,因此,在样本选择方面,本研究缺少来自中国高端英语学习者的口语样本。其次,定性数据来源方面,由于时间和资金的限制,本研究仅采用问卷调查和半结构式访谈作为研究工具。未来的研究可涵盖更有能力的英语口语学习者,并采用口头报告分析的方式,以收集和评分员在量表使用方面更为丰富的信息。最后,本研究为探索型研究,实证研究规模有限。后续研究将通过更大的样本量和更多样的技术手段,以获得更具说服力的原创性成果,使研究的理论价值和实际应用价值都更上一层楼。概括而言,本研究以交互构念理论为基础,在口语评分领域展开了开创性的研究。本研究通过控制学习者因素与语境变量间的交互程度,为定义口语构念、并在评分中对其进行操作化实践开辟了新的视角。同时,本研究利用基于论证的评分过程验证框架,从评分角度对考试构念效度进行验证,为相关研究提供了实证范例。