论文部分内容阅读
近年来,考试用户越来越关注考试分数的解释和意义,因此如何提供更加合理、清楚的分数解释,以便促进合理的使用分数就成为语言测试开发者面临的重要问题(Chapelle,Enright&Jamieson,2008)。在这种背景下,大规模外语考试中写作测试的效度越来越引起研究者的关注,因为写作测试所测量的语言能力往往不太明晰,极大地影响了考试用户对写作测试分数的理解。鉴于此,写作测试中使用的评分量表成为语言测试领域的研究热点。研究者们一致认为,评分量表体现了写作测试实际测量的语言能力(McNamara,1996;McNamara,2002;Turner,2000;Weigle,2002)。然而,现有的研究发现,大规模考试写作测试中使用的评分量表通常都存在一些问题(Brindley,1998;Knoch,2009;Todd,Thienpermpool&Keyuravong,2004;Upshur&Turner,1995)。目前,专门聚焦大规模考试中使用的写作评分量表的实证研究并不多见。考虑到写作测试在国内外大规模外语考试(如TOEFL、IELTS、CET、TEM)中的广泛应用,在此方面的研究不足亟待解决。本研究以大学英语四级考试写作测试(以下简称四级写作)为研究对象,主要运用实证的方法开发四级写作分项评分量表,并进一步验证该量表的效度。本研究旨在解决两个方面的问题:1.如何在实证研究的基础上开发四级写作分项评分量表?该问题可细分为以下三个具体问题:1)评分员如何看待现有的四级写作评分量表?2)如何界定四级写作测试的能力并在量表中落实该能力?3)如何确定四级写作分项评分量表的等级?2.用这种方法开发出的分项评分量表在评分中的效度如何?该问题可细分为以下三个具体问题:4)分项评分量表在四级写作测试评分中的总体效度如何?5)分项评分量表的不同评分维度在评分中的效度如何?6)评分员对分项评分量表的看法如何?本研究突破了传统的基于专家判断的量表制定方式,采用多阶段、多方法的研究模式来开发四级写作分项评分量表,并对其进行效度验证。具体而言,第一阶段采用混合研究方法,调查评分员对四级写作现有的评分量表的意见,确定四级写作测试的评分标准。179位四级写作评分员参加了问卷调查,对问卷数据进行定量分析。其中有12位评分员参与了后续访谈。他们的意见被录音、转写,并进行定性分析,补充并进一步解释定量分析的结果。第二阶段综合运用文档分析、直觉判断和Rasch模型分析,为四级写作量表挑选合适的描述语,并测量描述语的难度。首先,在分析现有的量表、课程要求、教学大纲和课本等材料的基础上,构建了描述语库,并对收集的描述语进行编辑和分类。然后,组织6位资深四级写作评分员,以工作坊的形式对描述语进行筛选、改写和整理,提升描述语的清晰度以及与四级写作表现的相关度。最后,将筛选出的描述语归类纳入相应的量表参数框架体系中,并编制问卷,调查四级写作评分员对描述语难度的意见。根据问卷调查的结果,拟定了四级写作分项评分量表的初稿。该量表包含4个评分维度(语言的广度和准确性、内容和思想、篇章组织、语言的得体性),89条描述语,分5个等级来描述被测的写作表现。上述两个研究阶段均属量表的开发阶段,而第三阶段则专注于量表的效度研究。该阶段采用混合研究方法,分别收集关于量表事后效度的定量、定性证据,并进一步完善量表。首先,21位评分员受邀参加采用“对抗平衡”设计的评分实验,使用现有的四级写作评分量表和本研究开发的四级写作分项评分量表对同样30篇四级作文进行评分。评分实验结束后,研究者对部分评分员进行深入访谈,进一步了解他们对四级写作分项评分量表的意见和建议。最后,结合评分实验数据和访谈数据分析的结果继续对量表进行修改。实验的结果表明,无论从整体还是从分项评分标准来看,本研究开发的四级写作分项评分量表在评分中都比较有效。评分员对量表的看法大都比较肯定。同时,根据量表事后效度验证的结果,本研究进一步精简了描述语的数量、修改了描述语的措辞,并微调了个别分量表等级的划分,进一步提升了量表的质量。总的来说,本研究聚焦四级写作分项评分量表的开发和效度验证,这种基于实证数据为大规模写作测试开发评分量表的做法,一方面有助于解决现有的四级写作测试评分量表的效度问题,另一方面对其他测试环境下评分量表的开发和效度验证也具有理论和方法上的参考价值。