论文部分内容阅读
认知诊断评估(Cognitively Diagnostic Assessment, CDA)是在‘’No Child Left Behind"的教育改革推动下兴起的,它能在微观层面上深入探测学生认知结构或知识技能的优势与不足,给老师教学提供具有补救性的反馈信息。CDA能否实现对学生认知结构的精确诊断主要依赖于两点,一是具备一个好的诊断测验,二是选用一个适宜的诊断模型。目前常用的认知诊断模型多为参数模型,参数模型发展时间较长,研究较为活跃,但其参数估计过程复杂,耗时大,需要研究者具备大量的统计和计算机知识,因此限制了CDA的广泛应用。近几年来,研究者开始关注非参数方法在认知诊断分类中的应用。相对而言,非参数方法易于理解,诊断分类耗时小,不依赖样本容量等特点使其较适用于课堂测验等小型评估情境,因此能推动CDA运用到教育领域。聚类分析诊断法作为一种非参数的认知诊断方法,只需测验Q阵就能实现对学生知识状态的诊断。然而,现有关于聚类分析诊断法的研究均是适用于0-1计分情境的,随着教育考试改革的推进,许多大型的考试和测评越发强调考察分析题、问答题、论述题一类的主观题。该类题目的计分方法不再是0-1计分,采用0-1计分模式的认知诊断方法对其进行分析,势必会减少题目作答中的信息提取,从而影响诊断和分类的效果。此外,现有研究并没有关注聚类分析诊断法分类准确率的影响因素。由此,本文在前人研究的基础上,结合考试改革实践的需求,开发出适合于多级计分情境的聚类分析诊断法,探讨了多种因素对该方法分类准确率和稳定性的影响,并同时考察了其在实证应用中的效用。本论文包括5个研究,研究1基于属性总分的思想提出了多级计分聚类诊断法(Grade Response Cluster Diagnosis Method, GRCDM)。研究2通过模拟研究去验证GRCDM的分类准确率和各种因素如何影响对该方法分类准确率,包括四个因素:属性个数(4个、7个、9个)、被试人数(100人、500人、2000人)、被试分布(均匀分布、正态分布)、属性层次结构(线型、收敛型、发散型、无结构型);研究3基于不同属性层次结构探讨了不同Q矩阵误设(属性缺失、属性多余、属性缺失&多余)对该方法分类准确率的影响:研究4探讨了不同属性层次关系错误(层次关系颠倒、有层次变无层次、无层次变有层次、层次关系错乱)对该方法分类准确率的影响:研究5使用该方法分析了1240名小学五年级学生的数学应用题CDA测验结果,并与规则空间模型所得结果进行对比。得到以下结果:(1) GRCDM具有很高的判准率,且不受限于属性个数。在70种实验条件下均具有较高的模式匹配率和边缘匹配率(PMR:96.08%; MMR:99.04%),且随着属性个数的增加,分类准确率呈升高趋势。说明该方法具有较强的适用性,不受限于属性个数,弥补了参数诊断模型限定的CDA测验中属性个数不易过多的现状,更能吻合实践教学中属性个数较多的需求,以及能够满足当前测验改革的实践情境,实现对学生知识状态的准确分类与诊断。(2)总体而言,GRCDM更适合松散型的层次结构。在多数实验条件下,发散型和无结构型的PMR和MMR均显著高于紧密型层次结构,且不易受到被试人数以及被试分布的影响,因此该方法不但有较好的稳健性,而且为松散型属性层次关系下的数据找到了既适用又简便的分类方法。(3)该方法对被试人数的依赖小,即使在100人和500人的小样本中,也表现出较好的稳健性,可适用于小型测评和课堂评估,为日常教学中的CDA提供了实用的方法。(4)在Q矩阵误设时,除了线型条件且Q矩阵产生较大错误(属性缺失&多余)外,其他条件下的PMR降幅均低于5%,在可接受的范围,说明GRCDM对线型结构时的Q矩阵误设的反应较灵敏,而对于其它结构则具有较好的稳健性。(5)属性层次关系颠倒和错乱对该方法的分类准确率影响较大。除了“有层次关系的变为无层次关系”的MMR均值的平均降幅为.006,其它条件下降幅均较大。说明GRCDM对层次关系错乱比较敏感。无结构型时的基础属性一定不能错误界定,紧密型的属性逻辑关系的确定也需谨慎,在不能保证两属性间存在先决关系的前提下,尽量视其关系为独立。(6)该方法在对数学应用题CDA测验结果进行分析时得到的属性难度与属性性质相符,同时不同类型的学校(好、中、差)在各属性上的掌握百分比也有显著差异,好学校更大比例的学生掌握属性。因此该方法在实践情境中表现出较好的内外部效度。