短测验项目功能差异检测方法的比较研究

来源 :江西师范大学 | 被引量 : 0次 | 上传用户:a1028399914
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
项目功能差异(Differential Item Functioning,简称DIF)是指对于某个特定项目,如果在来自同一目标特质的两批平行被试组中,显现出不同的统计特性,那么该项目就存在功能差异。为了检测DIF,人们提出了很多方法,并且为了考察在不同条件下各方法的适用性,针对DIF检测方法进行比较研究,其中主要考察了样本容量、匹配变量、测验含DIF试题的比例、DIF类型(一致性DIF,非一致性DIF,混合性DIF)等因素对不同方法DIF检测效果的影响。但是,以往关于DIF检测方法的研究主要是针对教育测验,测验长度基本在60题以上。而许多心理测量量表题数较少,《心理量表评定手册(增订版)》与《行为医学量表手册》105个量表中,测验长度30题以下占68.5%,20题以下占37.1%,10题以下占11.4%。已有研究表明,测试长度对题目参数及DIF检测都有影响,因此在“长测验”研究中得出的结论可能无法直接应用到心理量表的DIF检测。为了探求适用于“短测验”的DIF检测方法,本研究采用模拟数据的方法对SIBTEST方法,IRT-LR方法和DFIT方法等三种常见的DIF检测方法进行比较研究。研究设计为3*3*3的实验设计,研究设置了三种长度(10题、20题、30题)的测验,每个测验中设置相同比例的一致性DIF、非一致性DIF和混合性DIF试题,每题为5级计分题,使用三种方法对模拟数据进行DIF检测。采用WinGen软件生成等级反应模型下的试题参数和正态分布的被试参数,最后生成各测验长度条件下的50批被试作答反应模拟数据。然后用三种方法对模拟数据进行DIF检测,以I型错误率和统计检验力为因变量,比较三种方法的适用性,所得结论如下:(1)测验长度为10题时,三种方法检测结果I型错误率偏高,但统计检验力也很高,三种方法的检测效果都一般,其中DFIT方法表现最佳。IRT-LR方法和DFIT方法能检测出大部分的非一致性DIF题,但SIBTEST方法检测非一致性DIF效果较差。三种方法能百分百检测出一致性DIF和非一致性DIF。(2)在测验长度增加到20题时,SIBTEST方法,IRT-LR方法检测结果I型错误率中等,IRT-LR和DFIT方法在统计检验力有尚可的表现,三种方法中DFIT方法稍胜一筹。SIBTEST方法检测位于测验中间部分的一致性DIF检测效果较差,IRT-LR方法,DFIT方法检测非一致性DIF效果中等。(3)在测验长度增加到30题时,三种方法检测结果I型错误率低,DFIT方法表现最佳。SIBTEST方法检测非一致性DIF效果最差,IRT-LR方法和DFIT方法检测非一致性DIF效果较好。(4)三种方法的I型错误率随着测验长度增加而逐步降低,而三种方法的统计检验力也随着测验长度增加而有所降低。三种方法对一致性DIF和混合性DIF检测效果较优。对于非一致性DIF,SIBTEST方法检测效果较差,IRT-LR方法和DFIT方法检测效果良好。
其他文献
本文通过对荣华二采区10
期刊
提问是教学环节中的重要组成部分,教师提问可以培养学生思维深度和广度。有效的课堂提问可以促进学生思维层次的发展,分析教师提问行为对教师的教学具有重要意义。由于外来工
敏锐、不成熟、可训练是初中学生思维的重要特点,培养学生解题思维是提高学生解题能力的最佳途径,这对于初中物理来说尤为重要。以初中物理综合应用题复习为例,就如何培养学
视觉词形加工区(Visual Word Form Area, VWFA)是左侧枕颞区梭状回中部外侧的一个皮层区域,被认为是字词加工的基本脑功能区,对词形信息进行选择性表征。大量研究表明,阅读经