论文部分内容阅读
大学英语四六级口语考试(CET-SET)施考十几年来,影响力日益扩大,报考人数日益增加。但与之相关研究并不多。主观性考试历来被认为在拥有高效度的同时,考试信度难以得到保证。那么该考试目前施考条件下,考试的信度如何值得关注。概化理论是经典真分数理论和方差分析结合的产物,它在估计各类考试,尤其是主观性考试的施考信度情况方面有很强大的功能,通过对各个考察侧面分数误差来源的估计,可以发现误差的大小和来源,并在此基础上估计更广泛的施考情况下考试的信度情况。多元概化理论是一元概化理论的推广和发展,对由多个变量合成的测量目标,可以提供各变量的分数的相关性和各变量的信度指数,并最终通过合成的信度指数来考察考试的信度情况。本文在在多元概化理论的框架下,对2010年11月大学英语四六级口语考试(CET-SET)某考点的全部数据进行实证分析,考察目前施考情况下,大学英语四六级口语考试的信度情况,并估计更广泛的施考情况下,考试的信度变化情况。据此为考试决策者提供改善施考条件的建议。本研究主要考察评分员侧面,任务(话题)侧面在三个评分变量维度的信度情况和合成信度情况,并考察三个评分变量的权重设置对合成信度的影响。研究的主要发现包括以下六个方面。第一,目前施考条件下,考试能等达到很高的信度;第二,三个评分变量维度上,大多数考场在概化系数和可靠性指数上显示出了非常高的信度。相比较而言,语言准确性和范围维度变量信度最高,话语长短和连贯性维度变量次之,语言灵活性和适切性最低;第三,随着评分员数量的增加,所以考场的信度都呈递增趋势,考虑到实际情况,每考场设置三个评分员数量达到能保证较高的信度,且考试成本不会有大的增加,可以取得最大的效果。第四,三个评分维度的权重设置虽然有提高的空间,但各个考场存在着差异性使得较目前的三个维度6:5:4权重比例设置,没有更好的替代选择。第五,在考试任务(话题)侧面,此次考试所采用的四个任务(话题)中,信度都在可接受的范围内,但与其他三个相比,第二个任务(话题)的信度指数较差,在某些考场甚至合成概化系数和合成可靠性指数分别只有0.60330和0.52324,所以需对第二个任务(话题)深入分析,并防止在以后考试中采用类似的任务(话题)。除去依照所提出的五个研究问题而得到对应的五个研发发现之外,本研究另外两个还有另外两个发现如下:一,三个评分维度侧面超高的相关度结果表明,虽然表明了对三个评分侧面进行合成得到合成分数具有合理性,但也显示出了在评分过程中,很多评分员的评分具有明显的“光环效应”,这可能会导致隐形的误差,据此建议提供专门的培训避免此现象。二,评分员的信度随着考试时间的推进呈现出逐渐提高的趋势,这与评分员根据经验的积累逐渐改善评分行为有关,据此建议每次考前进行打分热身,以提高考试信度。本研究在多元概化框架下对大学四六级口语考试(CET-SET)信度进行分析,为改善施考条件提供实证依据和建议,具有较大实际价值,同时对同类主观性考试也提供了参考,有较大的理论意义和实际意义。