论文部分内容阅读
局部独立性是传统IRT模型建立的必要假设。在实际的测验中,可能存在受共同因素影响和制约的一组题目,这些题目称之为题组(testler)。当题组存在时,局部独立性的假设遭到违背,如果使用传统IRT模型会导致参数估计结果的偏差。因此对题组进行分析时,需要建立必要的题组模型。为探讨题组模型的适用范围,本研究针对应用最广泛的题组随机效应模型,和两因子模型进行了模拟和实证研究。
研究一通过模拟数据的方式,期待探讨2-PL贝叶斯题组随机效应模型与2-PL贝叶斯模型的适用条件问题。研究二沿用研究一的模拟数据,探讨了两因子贝叶斯模型的适用条件,并与研究一相同条件下的结果进行了比较。研究三使用实际测验的数据,比较了一种作者认为较优的贝叶斯题组模型和传统IRT模型拟合情况的异同。
研究一二的主要结论如下:
1.在本研究设置的各个变化条件下,2-PL贝叶斯题组随机效应模型相对于其他模型表现出更大的优势。该模型具有很好的普遍性,而两因子贝叶斯模型更适用于题组效应较大的情境。
2.2-PL贝叶斯题组随机效应模型相对不受题组效应和题组长度因素的影响,而2-PL贝叶斯模型对参数估计的误差随之增加。另外,题组长度较短时,不宜使用两因子贝叶斯模型。
3.题目数量对2-PL贝叶斯题组随机效应模型和2-PL贝叶斯模型各参数估计准确性的差异影响较大。一定的题目数量是使用2-PL贝叶斯题组随机效应模型的前提保证。
4.在测验编制阶段,最好保证题目的局部独立性,否则最好采用较短的题组。在测验数据分析阶段,应当首先检验题目是否存在局部依赖性,再根据检验结果选择适合的模型,减少对各参数估计的误差。
5.一般情况下,如果不明确题目之间相互依赖的程度,选择题组随机效应模型是一个折中的选择。但是,两因子贝叶斯模型由于其模型结构和多维IRT模型的相似性,及其估计软件更加方便快捷,使得该模型的应用具有一定的优越性。
实证研究使用普遍性较好的2-PL贝叶斯题组随机效应模型和2-PL贝叶斯模型对真实英语阅读测验的数据进行拟合,并对估计结果进行了比较。该研究的主要结论为:
1.该英语阅读测验表现出较小的题组效应。因此,两种模型对各参数的估计结果表现出较高的一致性。
2.完形填空类题目表现出较小的局部依赖性,根据句子内容选择图画中匹配的部分类题目表现出较大的局部依赖性。
3.尽管题组效应较小,两种模型也存在一定差异。表现在:2-PL贝叶斯题组随机效应模型参数估计值的离散程度大于2-PL贝叶斯模型:两种模型在估计区分度较高的题目时存在差异;根据DIC指标,2-PL贝叶斯题组随机效应模型对数据的拟合程度优于2-PL贝叶斯模型。