论文部分内容阅读
项目功能差异(Differential Item Functioning,简称DIF)是指对于某个特定项目,如果在来自同一目标特质的两批平行被试组中,显现出不同的统计特性,那么该项目就存在功能差异。为了检测DIF,人们提出了很多方法,并且为了考察在不同条件下各方法的适用性,针对DIF检测方法进行比较研究,其中主要考察了样本容量、匹配变量、测验含DIF试题的比例、DIF类型(一致性DIF,非一致性DIF,混合性DIF)等因素对不同方法DIF检测效果的影响。但是,以往关于DIF检测方法的研究主要是针对教育测验,测验长度基本在60题以上。而许多心理测量量表题数较少,《心理量表评定手册(增订版)》与《行为医学量表手册》105个量表中,测验长度30题以下占68.5%,20题以下占37.1%,10题以下占11.4%。已有研究表明,测试长度对题目参数及DIF检测都有影响,因此在“长测验”研究中得出的结论可能无法直接应用到心理量表的DIF检测。为了探求适用于“短测验”的DIF检测方法,本研究采用模拟数据的方法对SIBTEST方法,IRT-LR方法和DFIT方法等三种常见的DIF检测方法进行比较研究。研究设计为3*3*3的实验设计,研究设置了三种长度(10题、20题、30题)的测验,每个测验中设置相同比例的一致性DIF、非一致性DIF和混合性DIF试题,每题为5级计分题,使用三种方法对模拟数据进行DIF检测。采用WinGen软件生成等级反应模型下的试题参数和正态分布的被试参数,最后生成各测验长度条件下的50批被试作答反应模拟数据。然后用三种方法对模拟数据进行DIF检测,以I型错误率和统计检验力为因变量,比较三种方法的适用性,所得结论如下:(1)测验长度为10题时,三种方法检测结果I型错误率偏高,但统计检验力也很高,三种方法的检测效果都一般,其中DFIT方法表现最佳。IRT-LR方法和DFIT方法能检测出大部分的非一致性DIF题,但SIBTEST方法检测非一致性DIF效果较差。三种方法能百分百检测出一致性DIF和非一致性DIF。(2)在测验长度增加到20题时,SIBTEST方法,IRT-LR方法检测结果I型错误率中等,IRT-LR和DFIT方法在统计检验力有尚可的表现,三种方法中DFIT方法稍胜一筹。SIBTEST方法检测位于测验中间部分的一致性DIF检测效果较差,IRT-LR方法,DFIT方法检测非一致性DIF效果中等。(3)在测验长度增加到30题时,三种方法检测结果I型错误率低,DFIT方法表现最佳。SIBTEST方法检测非一致性DIF效果最差,IRT-LR方法和DFIT方法检测非一致性DIF效果较好。(4)三种方法的I型错误率随着测验长度增加而逐步降低,而三种方法的统计检验力也随着测验长度增加而有所降低。三种方法对一致性DIF和混合性DIF检测效果较优。对于非一致性DIF,SIBTEST方法检测效果较差,IRT-LR方法和DFIT方法检测效果良好。