论文部分内容阅读
考试是一种很好的评价教师的教学质量与学生知识技能的一种方式,目前国内考试大多采用传统的纸笔测验形式。但是纸笔测验对所有的被试者都是采用相同的试题,不能根据学生实际情况提供相应的测验题目,题目难度太难或太简单都可能导致测试结果毫无意义,不能测量出被试的真实能力水平。而计算机自适应测验(ComputerizedAdaptive Testing,简称CAT)通过自适应选题策略控制每个被试的测验题目,实现“因人施测”,能够为每一位被试提供与其能力水平相匹配的测验题目,从而有效的测量出被试者的真实能力水平。目前计算机自适应测验在国外得到了广泛的应用,如GRE、TOEFL和GMAT等。计算机自适应测验较传统纸笔测验有新的特点:1、自适应选题,2、测验不受时间和地理位置的限制。选题策略,作为计算机自适应测验过程中的核心部分,关键环节,关系到测验的效率、准确性、安全性、公平性等问题。由此可见选题策略在计算机自适应测验中尤为关键。本文采用比较研究的方法,对最大信息量和a分层这两种选题策略进行了比较研究,分析不同策略对各项测试指标的影响,分析二者的优缺点,以及a分层方法中对测验效率和项目曝光度的折中考虑,为以后计算机自适应测验在实施过程中选择合适的选题策略提供参考。本文通过计算机模拟的方式进行实验,模拟了一个完整的计算机自适应测验过程:①试题库和被试者的生成,利用蒙特卡罗方法产生被试能力和项目参数的模拟值,并检测生成的题库项目难度和被试能力分布满足正态分布要求,以此模拟现实中的试题和被试者。②测试过程,被试答题和选题过程的模拟,根据被试能力和相应题目难度确定被试对题目的答对率,利用随机概率确定对题目的反应结果,并根据被试对题目的回答自适应更新被试估计能力,并作为选择下一题的依据,本阶段主要采用了两种选题策略进行选题——a分层和最大信息量。实验最后对不同选题策略的测试结果进行了综合全面的分析,如测验效率、项目曝光度、测试重叠率,测验准确性等。结合两种选题策略的选题原理,以及两种选题策略下实验结果的分析比较,本文得出如下结论:最大信息量法只考虑测验效率,没有刻意进行项目曝光度控制,以此实验结果显示该方法具有较高的测验效率,但项目曝光率极不均匀,而a分层法进行控制项目的曝光率的优化,具有更均匀的项目曝光率,但是牺牲了一点测验准确性。实验结果说明通常测验效率提高和项目曝光率的控制存在冲突,不能同时得到满足,需要在二者之间进行折中,才能更好的在计算机自适应测试中使用。