论文部分内容阅读
在试验研究和调查研究中,缺失数据问题普遍存在。它不仅干扰数据分析过程,而且容易使统计分析结果出现较大偏差,降低统计结论的可信度。缺失数据产生的原因很多,国内外学者对此进行了大量相关研究,至今仍是统计学的研究热点。很多统计分析方法都是基于完整的数据集,对缺失数据插补后就可以运用这些统计分析方法,而且通过插补可以有效减小缺失数据所带来的影响。文章首先详述了常用的插补方法并对它们的优良性进行了比较。接下来针对多元回归模型中的被解释变量数据缺失情形,用均值插补、回归插补、EM插补、MCMC-DA插补四种方法进行比较研究,并且在不同缺失率下分别从插补值的模拟结果和插补后回归系数估计量的性质两方面进行了进一步的模拟分析。结果显示:对于回归插补法和EM插补法,在相同缺失率下其插补值的平均误差、均方误差以及回归系数估计量的SD值(回归系数估计量θ的平方误差)、γ值(完整数据下回归系数估计量与插补后回归系数估计量的夹角)都较小且比较稳定,表明回归插补法和EM插补法能得到较好的估计;依上述评价指标,回归插补法在缺失率大时相对最好,EM插补法在缺失率小时相对最好;对于MCMC-DA插补法,在相同缺失率下,其插补值的均方误差、回归系数估计量的SD值、γ值略大,虽然未达到预期理想效果,但针对此模型可得到比较好的结果;均值插补法的上述指标值最大,明显劣于其它三种方法。而且就总体趋势而言,样本容量对缺失数据插补值和回归系数估计量的影响较大,但随着样本容量的增加这种影响程度在逐渐减弱。基于上述讨论,构造了两种新插补法,记为MRED插补和MRE插补,并进行了模拟比较。总体而言,MRED插补法优于DA插补法,劣于回归插补法和EM插补法;而MRE插补法优于MRED插补法和DA插补法,介于回归插补法和EM插补法之间。但当回归插补法、EM插补法、DA插补法较为接近时,MRED插补法最优,可作为一种新的选择;当回归插补法、EM插补法较为接近,都与DA插补法相差较大时,MRE插补法最优,可作为一种新的选择。