论文部分内容阅读
统计学是一门发现规律、寻找内涵的实用科学,而规律的提取、内涵的挖掘离不开基础的研究对象——数据。缺失问题是数据收集过程中的一个无法回避的客观存在,正确的处理缺失数据,能够提高数据质量,提升数据分析精度。高质量的样本数据不仅能够展现总体特征,而且对于样本数据的个体信息也有充分表达,在假设调研过程无误的情况下,如果能够对缺失数据实现最大程度的还原,那么对于数据分析工作将有非常重要的意义。本文在对前人理论和成果的总结基础之上,进行缺失数据插补方法的选择研究,总结出方法选择时需要注意的四个方面——数据集类型、数据缺失模式、数据缺失机制和数据特征。从本质来看,对于上述四个方面的研究其实就是对于样本数据特征的深度挖掘,样本数据不仅代表总体指标,更包含自身大量信息,充分利用已有的信息进行插补方法的选择将更优利于数据还原。文章的第二部分首先进行了缺失数据插补方法的分类和比较,在明确插补准则的基础之上,通过对插补方法的特征总结梳理出各种方法的适用数据集情况。第三部分开始对需要进行插补的目标数据集特征进行深度分析,从数据集类型、数据缺失模式、数据缺失机制和数据特征四个方面讨论数据特性,并明确插补方法的选择需要依靠对不同数据特性的具体分析。在文章的第四和第五部分,分别用模拟数据和实证数据对不同特征下的数据进行插补实验,其结果证明在数据特征影响下,插补方法的效果有明显差异。首先,单值插补较多值插补而言更容易影响插补效果,扭曲数据分布,但多值插补相对而言也要付出更多的时间和工作量;其次,当存在辅助信息时,相关系数较大的辅助变量会产生更好的插补效果,而且其插补效果在高缺失率情况下比单值插补在低缺失率情况下要好;最后,插补效果会随着缺失率增大而逐渐变差,但在随机缺失机制下,插补效果没有因为缺失率增大而出现明显拐点,信息的损失是均匀递减。