论文部分内容阅读
摘 要 调查了拓广等级展开模型(GGUM)对EPQ反应数据的拟合情况。结果发现:(1)E量表最符合GGUM单维性的假设,即得到2个线性主成分,项目在这2个主成分上的负荷略微呈现一个半圆形的模式;(2)约束GGUM的阈限参数在项目间相等而得到的模型A在对EPQ的数据进行分析时是最简洁而有效的;(3)模型A和2PLM相比,前者在E和P上的拟合显著优于后者,在N上,两个模型提供了相似的拟合度。结果表明展开模型比优势模型更适合用于分析EP0的数据。
关键词 拓广等级展开模型,人格,EPQ,模型一数据拟合。
分类号G449.1
1 引言
项目反应理论(IRT)当前在国外广泛用于包括才能、成就、熟练性、入学和职业资格考试的认知能力评估中,但在态度、人格等领域中的应用并不普遍。原因之一是大部分IRT模型是建立在反应过程的优势假设基础之上,即认为个体在特质连续体上的位置越高于项目的位置,作答正确的可能性就越大。而Andrich和Luo以及Roberts等人则认为态度测量中的不赞成一赞成反应是和理想点假设相关联的,即只有当个体在态度连续体上的位置与项目位置接近时,才最可能赞成项目,当远离项目位置,无论是高于还是低于项目位置时,个体赞成项目的概率都较低。采用优势模型对态度陈述的反应数据进行分析会降低处于态度连续体两个极端位置上的个体的特质水平的测量效度。Chernyshenko等人和Stark等人认为人格项目本质上是关于人们自身的行为态度陈述,因而人格测验的数据更适用于使用展开模型而不是优势模型进行分析。
目前研究者提出了多种展开模型,既有参数式的模型,例如PARELLA模型、双曲余弦模型(日CM)、等级展开模型(GUM)和拓广等级展开模型(GGUM),也有非参数式的模型。非参数模型由于容易受到项目或被试抽样的影响,在实际研究中使用较少。而参数模型由于提供了参数不变性的测量。有利于计算机自适应测试(CAT)、题库建设和项目参数的链接或等值,因而为大多数量表建构和数据分析所采用。
在已有的几个展开模型中,使用最多的是Roberts等人提出的一族展开模型,该族模型的最一般形式是GGUM问。GGUM允许区分度和阈限参数在项目间变化,适用于不赞成一赞成反应类别的数据。对GGUM的项目区分度和阈限参数进行不同形式的约束可以得到其余7个约束模型(详细情况可参阅文献),目前已经有一些研究者开始探索GGUM在EPQ、16PF、大五人格问卷以及情感能力问卷的数据中的拟合性。在这些研究中,没有直接调查数据是否满足单维性的假设,研究的重点仅放在优势模型和GGUM对项目反应数据拟合的差异比较上,而没有研究Roberrs等人提出的8个展开模型中哪个模型拟合最优。本研究将采用主成分方法和平行分析程序直接检验EPQ各分量表反应数据是否满足单维性条件,并比较GGUM和它的三个约束模型在EPQ各分量表反应数据上的拟合差异,最后将前一步得到的拟合最优模型与2PLM进行比较,以便获得展开模型与优势模型在人格测量数据中拟合优劣的证据。
2 方法
采用陈仲庚修订的EPQ问卷对某大学的1947名本科生进行施测,其中男生1181人,女生766人,所有被试的平均年龄为18.6岁,标准差为1.08。
采用O'Connor编制的SPSS程序进行主成分分析和平行分析。采用GGUM2004和BILOG-MG计算机程序估计项目和个人参数,采用MODFIT计算拟合统计量的值。GGUM2004和MODFIT均可以从互联网上获得。
3 结果
3.1 单维性检验
Davision等人证实了当数据拟合一个单维展开模型时,采用主成分分析将得到2个主成分,并且项目在这2个主成分上的负荷形成一个扇形的模式。Nandakumar等人在GGUM的模拟研究中发现因素主轴分析不适用于展开模型的维度检验,而采用主成分分析则显得较为合理。他结合主成分分析和bootstrapped法平行分析也得到了2个线性主成分,各项目在这两个成分上的负荷在第1和第1V象限内形成一个半圆形的扇形模式。
本研究的结果如图1和图2所示。从图1中可以看出,E和P量表的平行分析结果保留了两个线性主成分。E量表的2个线性主成分的特征值分别为5,21和1.32。第一和第二主成分的负荷相差达3倍以上。P量表第一主成分和第二主成分的特征值相差并不大,分别为2.00和1.61。N量表保留了3个线性主成分。这三个线性主成分的特征值分别为5.66、1.44和1.30,第一主成分的特征值比第二第三主成分的特征值约高4倍或更多。进一步以2个成分数目进行主成分抽取,分别得到各量表下的项目在这两个主成分上的负荷(未旋转)散点图(如图2)。从散点图可以看出,除E量表的成分负荷略呈半圆形的模式外,N和P量表的成分负荷均未呈现这种模式。综合两个方面的结果,本文认为E量表较符合展开反应型数据单维性假设,相对其它两个量表可能更适合采用展开模型来分析,而N量表由于第一主成分有足够大;可能更符合优势反一应型数据单维性的假设,采用展开模型进行分析并不会比累积模型有更大的优势。P量表对于两种类型数据的单维性假设都不太满足,采用两种模型来分析都有可能不太拟合数据。
3.2四个展开模型之间的比较
Roberts等人提出,似然比统计量可以用来检验嵌套模型的整体拟合差异。方法是首先通过约束特定的项目参数得到一个嵌套的约束模型,然后将该约束模型的反应似然(L*)和一个受更少约束(或无约束)模型的反应似然(L)进行比较。似然比统计量(LR)等于-2[1n(L*)1n(L)]。该统计量服从自由度等于2个模型中待估项目参数数量之差的)(分布。本研究中考察了GGUM的3个约束模型,其中模型A是将GGUM项目间的阈限参数(Tik)固定为常数而得到的模型,模型B是将项目间的区分度参数固定为1.0,模型C对这2个参数都进行了固定。这三个约束模型都是GGUM的嵌套模型,而模型C又嵌套于模型A或B,因而可以使用似然比统计量来评价增加的模型拟合。表l概括了在EPQ上,这些模型的比较结果。从表中可以看出,和GGUM相比,模型B和C都导致显著减少的拟合值,而模型A拟合值的减少并不大,表明EPQ问卷的反应数据采用模型A来分析是最简洁而有效的。
3.3 模型A和2PLM的项目拟合情况比较
GGUM2004计算机程序中使用的项目拟合统计量是从优势模型中拓广过来的,DeMars应用它们到展开模型中时,发现它们的I型错误率都有些问题,所以在人格测量中。经常采用单个项目、 两项目对和三项目组的x2/df指数来考察项目的捌合情况。Drasgow等人认为这个统计量对比较几个竞争的IRT模型是非常有用的,最佳拟合的模型对单个项目和两项目对以及三项目组都有较小(低于3)的校正的x2/df。如果校正的)x2/df>3则表明项目/选项反应函数的参数形式被违背了,或者数据是多维的,这两种情况都显示所选的IRT模型不拟合数据。本研究将比较2PLM和模型A的校正)x2/df之所以选择2PLM和模型A进行比较,是因为大多数研究发现2PLM在优势模型中是拟合人格数据最优的。比较的结果如表2所示。从表2中可以看出,模型A在E和P量表,特别是在P量表上的拟合显著优于2PLM。在N量表上两个模型的拟合相类似,且拟合都比较优良。
4 讨论
本研究结果表明,总体来看,展开模型比优势模型更拟合EPQ反应数据,这说明个体对人格项目的反应更可能是基于理想过程假设而不是优势过程假设的。展开模型之间的比较结果显示,尽管GGUM对项目参数的考虑更为完备,但并没有因此导致模型对数据拟合的显著改善,而更为简洁的模型A(即限制阈限参数在项目间是固定的)提供了和GGUM一样有效的结果,原因可能是现有的EPQ问卷的项目内容一致性较强,导致这些项目的反应阈限比较接近,从而限制各项目的阈限相等并不会导致模型的拟合变差。
本研究发现展开模型对E量表的项目反应拟合最好,该结果印证了Nandakumar等人模拟研究的结果,即当数据显示出2个线性主成分,并且项目在这2个线性主成分上的负荷符合一个半圆形的扇形模式时,最适合采用展开模型进行分析。本研究也发现,当第1主成分远远大于第2主成分时,例如E和N量表,采用合适的优势模型和展开模型进行分析。结果都比较良好。而当第l主成分和第2主成分相差不大,且有2个主成分被保留时,例如P量表,展开模型的拟合显著优于优势模型。该结果是否具有一般性还需要进一步研究。
本研究的结果显示P量表第1和第2主成分的特征值相差并不大,表明该量表可能存在多维性。原因可能与该维度的确定缺乏一定的依据有关。目前已有实验证据确定了E维度和N维度神经机制的存在,但P维度存在的机制尚缺乏足够的证据支持,导致该量表项目内容的编制缺乏明确的界定,从而无法保证这些项目的同质性,也就很难确保该量表的单维性。
5 结论
本研究可以得出这样的结论,即Roberts的展开模型比2PLM更适用于EPQ的数据分析,且EPQ问卷的E量表最适合采用他提出的展开模型进行分析。本研究深化了Nandakumar等人的研究,即当数据拟合单维展开模型时,不仅要求在采用主成分分析时能得到2个线性主成分,而且要求这2个主成分的差异要足够大,这样才有可能使得项目在这2个主成分上的负荷呈现半圆形的扇形模式。本研究中也发现,当一些人格变量的数据并不完全符合单维性假设时,采用单维展开模型也能较好地拟合它。
关键词 拓广等级展开模型,人格,EPQ,模型一数据拟合。
分类号G449.1
1 引言
项目反应理论(IRT)当前在国外广泛用于包括才能、成就、熟练性、入学和职业资格考试的认知能力评估中,但在态度、人格等领域中的应用并不普遍。原因之一是大部分IRT模型是建立在反应过程的优势假设基础之上,即认为个体在特质连续体上的位置越高于项目的位置,作答正确的可能性就越大。而Andrich和Luo以及Roberts等人则认为态度测量中的不赞成一赞成反应是和理想点假设相关联的,即只有当个体在态度连续体上的位置与项目位置接近时,才最可能赞成项目,当远离项目位置,无论是高于还是低于项目位置时,个体赞成项目的概率都较低。采用优势模型对态度陈述的反应数据进行分析会降低处于态度连续体两个极端位置上的个体的特质水平的测量效度。Chernyshenko等人和Stark等人认为人格项目本质上是关于人们自身的行为态度陈述,因而人格测验的数据更适用于使用展开模型而不是优势模型进行分析。
目前研究者提出了多种展开模型,既有参数式的模型,例如PARELLA模型、双曲余弦模型(日CM)、等级展开模型(GUM)和拓广等级展开模型(GGUM),也有非参数式的模型。非参数模型由于容易受到项目或被试抽样的影响,在实际研究中使用较少。而参数模型由于提供了参数不变性的测量。有利于计算机自适应测试(CAT)、题库建设和项目参数的链接或等值,因而为大多数量表建构和数据分析所采用。
在已有的几个展开模型中,使用最多的是Roberts等人提出的一族展开模型,该族模型的最一般形式是GGUM问。GGUM允许区分度和阈限参数在项目间变化,适用于不赞成一赞成反应类别的数据。对GGUM的项目区分度和阈限参数进行不同形式的约束可以得到其余7个约束模型(详细情况可参阅文献),目前已经有一些研究者开始探索GGUM在EPQ、16PF、大五人格问卷以及情感能力问卷的数据中的拟合性。在这些研究中,没有直接调查数据是否满足单维性的假设,研究的重点仅放在优势模型和GGUM对项目反应数据拟合的差异比较上,而没有研究Roberrs等人提出的8个展开模型中哪个模型拟合最优。本研究将采用主成分方法和平行分析程序直接检验EPQ各分量表反应数据是否满足单维性条件,并比较GGUM和它的三个约束模型在EPQ各分量表反应数据上的拟合差异,最后将前一步得到的拟合最优模型与2PLM进行比较,以便获得展开模型与优势模型在人格测量数据中拟合优劣的证据。
2 方法
采用陈仲庚修订的EPQ问卷对某大学的1947名本科生进行施测,其中男生1181人,女生766人,所有被试的平均年龄为18.6岁,标准差为1.08。
采用O'Connor编制的SPSS程序进行主成分分析和平行分析。采用GGUM2004和BILOG-MG计算机程序估计项目和个人参数,采用MODFIT计算拟合统计量的值。GGUM2004和MODFIT均可以从互联网上获得。
3 结果
3.1 单维性检验
Davision等人证实了当数据拟合一个单维展开模型时,采用主成分分析将得到2个主成分,并且项目在这2个主成分上的负荷形成一个扇形的模式。Nandakumar等人在GGUM的模拟研究中发现因素主轴分析不适用于展开模型的维度检验,而采用主成分分析则显得较为合理。他结合主成分分析和bootstrapped法平行分析也得到了2个线性主成分,各项目在这两个成分上的负荷在第1和第1V象限内形成一个半圆形的扇形模式。
本研究的结果如图1和图2所示。从图1中可以看出,E和P量表的平行分析结果保留了两个线性主成分。E量表的2个线性主成分的特征值分别为5,21和1.32。第一和第二主成分的负荷相差达3倍以上。P量表第一主成分和第二主成分的特征值相差并不大,分别为2.00和1.61。N量表保留了3个线性主成分。这三个线性主成分的特征值分别为5.66、1.44和1.30,第一主成分的特征值比第二第三主成分的特征值约高4倍或更多。进一步以2个成分数目进行主成分抽取,分别得到各量表下的项目在这两个主成分上的负荷(未旋转)散点图(如图2)。从散点图可以看出,除E量表的成分负荷略呈半圆形的模式外,N和P量表的成分负荷均未呈现这种模式。综合两个方面的结果,本文认为E量表较符合展开反应型数据单维性假设,相对其它两个量表可能更适合采用展开模型来分析,而N量表由于第一主成分有足够大;可能更符合优势反一应型数据单维性的假设,采用展开模型进行分析并不会比累积模型有更大的优势。P量表对于两种类型数据的单维性假设都不太满足,采用两种模型来分析都有可能不太拟合数据。
3.2四个展开模型之间的比较
Roberts等人提出,似然比统计量可以用来检验嵌套模型的整体拟合差异。方法是首先通过约束特定的项目参数得到一个嵌套的约束模型,然后将该约束模型的反应似然(L*)和一个受更少约束(或无约束)模型的反应似然(L)进行比较。似然比统计量(LR)等于-2[1n(L*)1n(L)]。该统计量服从自由度等于2个模型中待估项目参数数量之差的)(分布。本研究中考察了GGUM的3个约束模型,其中模型A是将GGUM项目间的阈限参数(Tik)固定为常数而得到的模型,模型B是将项目间的区分度参数固定为1.0,模型C对这2个参数都进行了固定。这三个约束模型都是GGUM的嵌套模型,而模型C又嵌套于模型A或B,因而可以使用似然比统计量来评价增加的模型拟合。表l概括了在EPQ上,这些模型的比较结果。从表中可以看出,和GGUM相比,模型B和C都导致显著减少的拟合值,而模型A拟合值的减少并不大,表明EPQ问卷的反应数据采用模型A来分析是最简洁而有效的。
3.3 模型A和2PLM的项目拟合情况比较
GGUM2004计算机程序中使用的项目拟合统计量是从优势模型中拓广过来的,DeMars应用它们到展开模型中时,发现它们的I型错误率都有些问题,所以在人格测量中。经常采用单个项目、 两项目对和三项目组的x2/df指数来考察项目的捌合情况。Drasgow等人认为这个统计量对比较几个竞争的IRT模型是非常有用的,最佳拟合的模型对单个项目和两项目对以及三项目组都有较小(低于3)的校正的x2/df。如果校正的)x2/df>3则表明项目/选项反应函数的参数形式被违背了,或者数据是多维的,这两种情况都显示所选的IRT模型不拟合数据。本研究将比较2PLM和模型A的校正)x2/df之所以选择2PLM和模型A进行比较,是因为大多数研究发现2PLM在优势模型中是拟合人格数据最优的。比较的结果如表2所示。从表2中可以看出,模型A在E和P量表,特别是在P量表上的拟合显著优于2PLM。在N量表上两个模型的拟合相类似,且拟合都比较优良。
4 讨论
本研究结果表明,总体来看,展开模型比优势模型更拟合EPQ反应数据,这说明个体对人格项目的反应更可能是基于理想过程假设而不是优势过程假设的。展开模型之间的比较结果显示,尽管GGUM对项目参数的考虑更为完备,但并没有因此导致模型对数据拟合的显著改善,而更为简洁的模型A(即限制阈限参数在项目间是固定的)提供了和GGUM一样有效的结果,原因可能是现有的EPQ问卷的项目内容一致性较强,导致这些项目的反应阈限比较接近,从而限制各项目的阈限相等并不会导致模型的拟合变差。
本研究发现展开模型对E量表的项目反应拟合最好,该结果印证了Nandakumar等人模拟研究的结果,即当数据显示出2个线性主成分,并且项目在这2个线性主成分上的负荷符合一个半圆形的扇形模式时,最适合采用展开模型进行分析。本研究也发现,当第1主成分远远大于第2主成分时,例如E和N量表,采用合适的优势模型和展开模型进行分析。结果都比较良好。而当第l主成分和第2主成分相差不大,且有2个主成分被保留时,例如P量表,展开模型的拟合显著优于优势模型。该结果是否具有一般性还需要进一步研究。
本研究的结果显示P量表第1和第2主成分的特征值相差并不大,表明该量表可能存在多维性。原因可能与该维度的确定缺乏一定的依据有关。目前已有实验证据确定了E维度和N维度神经机制的存在,但P维度存在的机制尚缺乏足够的证据支持,导致该量表项目内容的编制缺乏明确的界定,从而无法保证这些项目的同质性,也就很难确保该量表的单维性。
5 结论
本研究可以得出这样的结论,即Roberts的展开模型比2PLM更适用于EPQ的数据分析,且EPQ问卷的E量表最适合采用他提出的展开模型进行分析。本研究深化了Nandakumar等人的研究,即当数据拟合单维展开模型时,不仅要求在采用主成分分析时能得到2个线性主成分,而且要求这2个主成分的差异要足够大,这样才有可能使得项目在这2个主成分上的负荷呈现半圆形的扇形模式。本研究中也发现,当一些人格变量的数据并不完全符合单维性假设时,采用单维展开模型也能较好地拟合它。